CN111161711A - 对流式语音识别文本进行断句的方法及装置 - Google Patents
对流式语音识别文本进行断句的方法及装置 Download PDFInfo
- Publication number
- CN111161711A CN111161711A CN202010251523.9A CN202010251523A CN111161711A CN 111161711 A CN111161711 A CN 111161711A CN 202010251523 A CN202010251523 A CN 202010251523A CN 111161711 A CN111161711 A CN 111161711A
- Authority
- CN
- China
- Prior art keywords
- text
- determining
- sentence
- current
- commodity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000011218 segmentation Effects 0.000 title description 12
- 239000012634 fragment Substances 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 235000015220 hamburgers Nutrition 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 235000015278 beef Nutrition 0.000 description 5
- 235000012020 french fries Nutrition 0.000 description 5
- 241000234295 Musa Species 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 235000013549 apple pie Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 235000016795 Cola Nutrition 0.000 description 1
- 235000011824 Cola pachycarpa Nutrition 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 239000000571 coke Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000008371 vanilla flavor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供一种对流式语音识别文本进行断句的方法,该方法包括:首先,响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;接着,对流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中在各个时刻下,针对该时刻下的识别文本进行断句判断,具体包括:先将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,其中已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;接着基于与第一服务对应的多个关键词,对该增量文本进行匹配,得到匹配词集合,以确定文本特征;然后,至少基于该文本特征,判断是否在当前识别文本后进行断句。
Description
技术领域
本说明书实施例涉及自然语言处理技术领域,具体地,涉及一种对流式语音识别文本进行断句的方法及装置。
背景技术
越来越多的企业、机构推出基于语音交互技术的产品,如语音点餐系统。这类产品利用语音识别、自然语言处理等技术,分析用户的语音输入,以完成相应的操作或任务,如点单操作或点餐任务。
在语音交互过程中,为提高用户体验,这类产品需要及时对用户语音输入进行处理,以降低响应延时。这就需要产品能够准确、快速地判断输入语句的完整性,即是否可以对当前语音输入进行断句,以将其分成语义上相对完成的片段,然后再进行后续解析,例如,解析出用户想要购买一杯大可乐。
然而,目前对用户语音进行断句的方式过于单一,无法满足实际应用时的多种需求。因此,迫切需要一种合理、有效的方案,可以及时、准确地实现对用户语音的断句,从而提高用户体验。
发明内容
本说明书中的一个或多个实施例提供一种对流式语音识别文本进行断句的方法,通过结合服务场景中的特定信息,确定至少反映当前识别文本语义的文本特征,再基于文本特征,对当前识别文本进行断句判断,如此可以实现准确、有效的断句。
第一方面,提供一种对流式语音识别文本进行断句的方法,所述方法的执行主体为服务端,所述方法包括:响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中,各个时刻下,针对该时刻下的识别文本进行断句判断,其中断句判断包括:将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;至少基于所述匹配词集合,确定文本特征;至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
在一个实施例中,在判断是否在当前识别文本后进行断句之后,所述方法还包括:在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。
在一个实施例中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:确定所述当前识别文本与已有语义文本之间的最长公共序列;基于所述最长公共序列,将所述当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。
在一个实施例中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;确定所述当前识别文本中对应于所述最长公共序列的公共文本;基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。
在一个实施例中,所述第一服务为购物服务,所述多个关键词包括若干商品名和若干商品属性。
在一个具体的实施例中,所述多个关键词基于以下步骤而预先获取:从所述客户端获取用于向用户展示的商品列表;确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。
在一个更具体的实施例中,确定所述商品列表中包括的所述若干商品名和若干商品属性,包括:基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。
在一个实施例中,至少基于所述匹配词集合,确定文本特征,包括:确定所述匹配词集合中所包括词语的数量,归入所述文本特征;和/或,基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。
在一个实施例中,至少基于所述匹配词集合,确定文本特征,还包括:确定所述增量文本对应的字符数,归入所述文本特征;和/或,确定所述当前识别文本对应的字符数,归入所述文本特征;和/或,确定所述已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。
在一个实施例中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:确定所述当前识别文本对应的当前语音时长;基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长;其中,至少基于所述文本特征,判断是否将所述增量文本确定为新增语义片段,包括:至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
在一个具体的实施例中,至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句,包括:根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
在一个实施例中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:获取在所述流式语音识别过程中确定的声学特征,所述声学特征包括以下中的至少一种:帧能量、过零率、标准化自相关系数和多阶线性预测系数;其中,至少基于所述文本特征,判断是否在当前识别文本后进行断句,包括:将所述文本特征和所述声学特征共同输入预先训练的断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。
在一个实施例中,在至少基于所述匹配词集合,确定文本特征之前,所述方法还包括: 从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入;其中至少基于所述匹配词集合,确定文本特征,包括:基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。
在一个具体的实施例中,所述第一服务为购物服务,所述辅助会话内容包括当前购物车中已有商品的商品信息,和/或对已对购物车发出的操作指令。
根据第二方面,提供一种对流式语音识别文本进行断句的装置,所述装置集成于服务端,所述装置包括:第一接收单元,配置为响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;识别单元,配置为对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;断句单元,配置为在各个时刻下,针对该时刻下的识别文本进行断句判断。所述断句单元具体包括:比对子单元,配置为将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;匹配子单元,配置为基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;确定子单元,配置为至少基于所述匹配词集合,确定文本特征;判断子单元,配置为至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中提供的方法。
第四方面,提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中提供的方法。
在本说明书中实施例披露的断句方法及装置中,通过结合服务场景中的特定信息,确定至少反映当前识别文本语义的文本特征,接着,至少基于文本特征,对当前识别文本进行断句判断,如此可以实现准确、有效的断句。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的基于流式语音进行断句的流程框图;
图2示出根据一个实施例的对流式语音识别文本进行断句的方法流程图;
图3示出根据一个例子的时间坐标轴图示;
图4示出根据一个实施例的语音识别框图;
图5示出根据一个实施例的客户端和服务端的交互示意图;
图6示出根据一个实施例的对流式语音识别文本进行断句的装置结构图。
具体实施方式
下面结合附图,对本说明书披露的多个实施例进行描述。
如前所述,目前对用户语音进行断句的方式较为单一。具体而言,现有的语音类交互产品通常单独依赖物理信号或者声学信号或者文本信号进行断句判断。其中,基于物理信号的产品要求用户通过触屏或物理按键手动标识语音输入的起始和终止,从而实现断句,在一个可能的点餐场景下,用户按下按钮说“我要一个汉堡”,然后松开按钮,想了一下再次按下按钮说“我还要一杯可乐”,然后再次松开按钮,这无疑增加了用户使用产品的复杂度,无法带来较佳的用户体验。而在基于声学信号的系统中,是通过判断采集的语音信号是否包括用户输入的话音信号来进行断句判断,在存在背景噪声的环境下,此种断句方式不够稳健,很难实现及时、准确地断句。
此外,在基于文本信号的系统中,通常采用流式语音识别(Streaming SpeechRecognition,SSR)(简单来说,可以理解为用户边说边识别,或者,可以理解为边采集语音信号边识别,而不是在采集全部语音信号后再进行识别),对当前已采集到的流式语音进行识别,得到当前识别文本,再对当前识别文本进行N元分词(N-Gram),并将分词结果输入预先训练的模型中,预测当前识别文本之后出现下一个词的概率,以判断是否在当前识别文本之后进行断句。然而,其中对N的取值要求较高,过大或过小都将导致模型的预测结果不准确,并且,语音识别引入的识别错误将极大地影响断句判断。
基于以上观察,发明人提出一种对流式语音识别文本进行断句的方法。在一个实施例中,图1示出根据一个实施例的基于流式语音进行断句的流程框图。如图1所示,首先持续接收特定服务场景下的流式语音信号;然后对当前接收的流式语音信号进行识别,需要理解,可选地,可以识别过程中确定的时间特征和/或声学特征进行提取,用于后续的断句分析;接着,可以基于在先断句确定的已有语义文本,对识别出的当前识别文本进行最长文本匹配,得到文本增量;再然后,基于预先确定的上述特定服务场景下的多个关键词,对文本增量进行文本特征提取;再接着,基于已提取的特征,其中至少包括文本特征,可选地,还可以包括时间特征和/或声学特征,进行断句判断,包括输入预选训练的断句模型或者基于预先设定的规则进行打分,以得到针对当前识别文本的断句结果。进一步地,还可以基于断句结果对已有语义文本进行更新。如此,在所述方法中,通过结合服务场景中的特定信息,确定至少反映当前识别文本语义的文本特征,接着,至少基于文本特征,对当前识别文本进行断句判断,如此可以实现准确、有效的断句。
下面,结合具体的实施例,描述本说明书所披露方法的具体实施步骤。具体地,图2示出根据一个实施例的对流式语音识别文本进行断句的方法流程图,所述方法的执行主体为服务端,所述服务端可以通过任何具有计算、处理能力的装置、设备或服务器集群等实现。如图2所示,所述方法可以包括以下步骤:
步骤S21,响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;步骤S22,对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本。其中,在各个时刻下,针对该时刻下的识别文本进行断句判断,其中断句判断包括:步骤S221,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;步骤S222,基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;步骤S223,至少基于所述匹配词集合,确定文本特征;步骤S224,至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
针对以上步骤,首先需要说明的是,上述步骤中提及的第一服务和第一会话中的“第一”,以及后续提到类似用语,仅用于区分同类事物,不具有其他限定作用。
以上步骤具体如下:
首先,在步骤S21,响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号。
在一个实施例中,其中客户端用于向用户提供第一服务。在一个实施例中,第一服务可以为购物服务。在一个具体的实施例中,购物服务涉及的目标商品可以为多种,如餐品、衣服、裤子、鞋帽、饰品等等。在另一个实施例中,第一服务可以为算术服务。在一个具体的实施例中,算术服务可以为计算多种或多个动物所具有总腿数的服务。在又一个实施例中,第一服务可以为聊天服务。在一个具体的实施例中,聊天服务涉及的目标主题可以有多种,如天气、球赛、新闻等等。
在一个实施例中,客户端可以响应于任意用户发出的开始使用第一服务的指令,创建第一会话或者说开始第一会话。在一个具体的实施例中,其中开始使用第一服务的指令可以为点击指令或声控指令。在一个例子中,其中点击指令可以对应于对客户端界面中开始使用服务图标(如开始点餐图标)的点击操作。在一个例子中,其中声控指令可以为用户说出“小x,我要点餐”,其中“小x”为语音唤醒词。
进一步地,客户端在开始(或者说创建)第一会话后,可以向服务端发送开始第一会话的通知。更进一步地,服务端响应于客户端发送的通知,持续接收客户端采集的针对该第一会话的流式语音信号。在一个实施例中,客户端可以先对采集的原始的流式语音信号进行预处理,包括降噪处理和语音活动检测(Voice Activity Detection,VAD),再将预处理后的流式语音信号发送至服务端,如此可以降低服务端的处理负担。
在一个实施例中,客户端可以按照预定时间间隔,将已采集到的流式语音信号发送至服务端,以调用服务端的流式语音识别及断句服务等。在一个具体的实施例中,其中预定时间间隔可以根据实际需要和系统性能进行设定。在一个例子中,图3示出根据一个例子的时间坐标轴图示,如图3所示,假定第一会话开始于10:00:00:000 a.m.,预定时间间隔为400ms,那么客户端可以在10:00:00:400 a.m.,将在400ms内采集到的流式语音信号发送给服务端,再在10:00:00:800 a.m.,将在800ms内采集到的流式语音信号发送给服务端,依次类推。如此,服务端可以持续接收客户端采集的针对第一会话的流式语音信号。
接着,在步骤S22,对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本。其中,在各个时刻下,针对该时刻下的识别文本进行断句判断。需要理解,服务端在每次接收到流式语音信号时,均会对当前次接受到的流式语音信号进行流式语音识别,得到对应的流式语音识别文本,并对该流式语音识别文本进行断句判断。在一个例子中,服务端识别出的某个时刻下的识别文本为“我要一杯”,并对其进行断句判断,接着,服务端识别出的该某个时刻的下一时刻下的识别文本为“我要一杯可乐”,并对其进行断句判断。
需要说明的是,对于上述流式语音识别,可以采用现有技术实现。在一个实施例中,图4示出根据一个实施例的语音识别框图,如图4所示,首先对流式语音信号进行特征提取,可以包括:先对流式语音信号进行分帧,具体可以使用移动窗函数实现,得到的各帧之间一般是有交叠的,再利用LPCC(Linear Prediction Cepstrum Coefficient, 线性预测倒谱系数)和MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒谱系数),把每一帧波形变成一个包含声音信息的多维向量,如此可以实现特征提取;接着将特征向量输入解码器中进行解码,得到对应的识别文本,其中解码器包括声学模型、字典和语言模型,更具体地,其中声学模型是通过对语音数据进行训练获得,输入的是特征向量,输出的是音素信息,而字典中包括字或者词与音素的对应关系,简单来说,中文就是拼音和汉字的对应,英文就是音标与单词的对应,语言模型是通过对大量文本信息进行训练得到的,其输出的是单个字或者词相互关联的概率。如此,通过对流式语音信号进行流式语音识别,可以得到流式语音识别文本。
针对上述断句判断,以下进行详尽说明。具体地,上述断句判断可以包括步骤S221-步骤S224,具体如下:
首先,在步骤S221,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本。
具体地,上述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列。需要说明,其中语义片段序列是由已确定出的语义片段按照确定时刻的先后,顺序排列而成。在一个例子中,假定先后确定出的语义片段包括“我要一个汉堡”和“再要一杯可乐”,则由此形成的语义片段序列为“我要一个汉堡再要一杯可乐”。此外,在尚未确定出语义片段时,语义片段序列和已有语义文本均为空。
在一个实施例中,本步骤可以包括:先确定当前识别文本和已有语义文本之间的最长公共子串(Longest Common Substring),再从当前识别文本中包括的最长公共子串进行去除,并将剩余的字符作为增量文本。需要说明,其中最长公共子串在原字符串,也就是当前识别文本和已有语义文本中是连续的,在理想状态下,可以将当前识别文本中包括的,对应于已有语义文本的连续字符串进行去除,并将剩余的字符作为增量文本。在一个例子中,假定已有语义文本为“我要一个汉堡”,当前识别文本为“我要一个汉堡再要”,由此可以将增量文本确定为“再要”。
另外,考虑到流式语音识别过程中,可能存在词汇转写(或者说修正)的情况。举个例子,针对流式语音信号A,对其进行识别得到的文本是abc,而后续针对流式语音信号A+B,对其进行识别得到的文本是adcwz,也就是“abc”在后续识别中被转写为“adc”。再举个例子,假定已有语义文本是“我要一个冰果”,而当前识别文本为“我要一个苹果和香蕉”,此时,确定出的最长公共子串为“我要一个”,进而确定出的增量文本是“苹果和香蕉”,这将导致确定出的增量文本出现较大偏差。基于此,发明人提出利用确定最长公共子序列(Longest Common Subsequence)的方式,对当前识别文本和已有语义文本进行文本对齐,以缓解或消除词汇转写对后续断句带来的影响。需要说明,最长公共子串与最长公共子序列的区别:子串要求在原字符串中是连续的,而子序列则只需保持相对顺序一致,并不要求连续。
具体地,在一个实施例中,本步骤可以包括:先确定所述当前识别文本与已有语义文本之间的最长公共序列;再基于所述最长公共序列,将当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。在一个例子中,假定已有语义文本是“我要一个冰果”,而当前识别文本为“我要一个苹果和香蕉”,那么可以确定出最长公共序列是“我要一个果”,基于此可以将当前识别文本分割为“我要一个苹果”和“和香蕉”,并将后者作为增量文本。
在另一个实施例中,本步骤可以包括:先确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;接着确定所述当前识别文本中对应于所述最长公共序列的公共文本;再基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。在一个例子中,假定已有语义文本是“我要一个苹果牌”,而当前识别文本为“我要一个苹果派和蛋糕”,此时可以确定出二者的拼音序列之间的最长公共序列为“woyaoyigepingguopai”,进而确定出对应的公共文本为“我要一个苹果派”,并确定出增量文本为“和蛋糕”。如此,利用确定最长公共子序列的方式,对当前识别文本和已有语义文本进行文本对齐,可以缓解或消除词汇转写对确定增量文本的影响,以保证后续断句的准确度。
以上,可以确定出增量文本。接着,在步骤S222,基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合。
在一个实施例中,第一服务为购物服务。在一个具体的实施例中,对应的多个关键词包括若干商品名和若干商品属性。在一个例子中,其中若干商品名包括汉堡、薯条和可乐,若干商品属性包括针对汉堡的含鳕鱼、含牛肉、含鸡肉,针对薯条的大份、中份和小份,针对可乐的大杯和中杯。在另一个具体的实施例中,对应的多个关键词还可以包括若干商品量词。在一个例子中,其中若干商品量词可以包括个、杯、桶、份和包等等。
进一步地,上述多个关键词可以基于以下步骤而预先获取:先从所述客户端获取用于向用户展示的商品列表;再确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。进一步地,在一个具体的实施例中,客户端可以再开机进行初始化时,向服务端发生商品列表,如此服务端可以接收到商品列表。在另一个具体的实施例中,客户端可以在商品列表发生更新时,自动触发向服务端发生商品列表,如此可以保证基于商品列表确定出的关键词的时效性和可用性。另一方面,对于其中确定所述商品列表中包括的所述若干商品名和若干商品属性,在一个具体的实施例中,可以包括:基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。在一个例子中,其中词语库可以根据大数据分析而建立,也可以根据商家上传的商品信息而建立。在另一个具体的实施例中,可以包括:基于预先设定的多个正则匹配项,对商品列表进行匹配,得到上述若干商品名和若干商品属性。在另一个具体的实施例中,上述多个关键词还可以由绑定所述客户端的商家直接输入而得到。如此,可以实现对多个关键词的预先获取。
在另一个实施例中,上述第一服务为趣味算术服务,如计算动物腿的总数。在一个具体的实施例中,对应的多个关键词可以包括多种动物名称。在一个例子中,具体可以包括猴子、斑马、大象、兔子等。进一步地,在一个具体的实施例中,其中多个关键词可以基于大数据分析得到。在另一个具体的实施例中,可以由工作人员进行录入而得到。
基于上述预先获取的多个关键词,可以对上述增量文本进行匹配,得到匹配词集合。在一个实施例中,上述多个关键词包括若干商品名和若干商品属性,由此可以分别利用其中的若干商品名和若干商品属性对上述增量文本进行匹配,对应得到商品名集合和商品属性集合,归入上述匹配词集合。在一个例子中,假定增量文本为“再要”,由此可确定出的匹配词集合为空。在另一个例子中,假定增量文本为“一杯可乐”,由此可以确定出商品名集合中包括可乐,而商品属性集合为空。在又一个例子中,假定增量文本为“一杯大可乐”,由此可以确定出商品名集合中包括“可乐”,且商品属性集合中包括“大”。
以上,可以确定出增量文本所对应的匹配词集合。然后在步骤S223,至少基于所述匹配词集合,确定文本特征。
在一个实施例中,本步骤中可以包括:确定所述匹配词集合中所包括词语的数量,归入所述文本特征。在一个具体的实施例中,其中匹配词集合包括商品名集合和商品属性集合,相应地,可以分别确定所述商品名集合和商品属性集合中所包括词语的数量,归入所述文本特征。在一个例子中,确定出的文本特征可以包括:1个商品名和1个商品属性。
在一个实施例中,本步骤中可以包括:基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。需要说明,其中关键词与权重之间的映射关系可以由工作人员预先设定。在一个具体的实施例中,其中匹配词集合包括商品名集合和商品属性集合,相应地,可以基于预先设定的商品名与权重之间的映射关系,确定所述商品名集合中各个商品名对应的权重,归入所述文本特征;和/或,基于预先设定的商品属性与权重之间的映射关系,确定所述商品属性集合中各个商品属性对应的权重,归入所述文本特征。在一个例子中,确定出的文本特征可以包括:商品名“可乐”对应的权重0.8和和商品属性“香草口味”对应的权重0.6。
在一个实施例中,在本步骤中还可以基于上述增量文本、当前识别文本和已有语义文本,确定文本特征。在一个具体的实施例中,还可以确定上述增量文本对应的字符数(如2或3等),归入所述文本特征。在另一个具体的实施例中,还可以确定上述当前识别文本对应的字符数(如8或10等),归入所述文本特征。在又一个具体的实施例中,还可以确定已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。在再一个具体的实施例中,还可以确定当前识别文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。
在一个实施例中,上述客户端支持多种交互模式,也就是说,除支持语音交互模式外,还支持其他交互模型,如触屏模式或按键模式等。基于此,在本步骤之前,所述方法还可以包括:从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入。在一个具体的实施例中,其中辅助会话内容可以包括用户通过触屏模式,在输入框中输入的文本内容,或者,在界面中进行点选操作时选取的内容。在一个例子中,上述第一服务为购物服务,相应地,所述辅助会话内容可以包括当前购物车中已有商品的商品信息,和已对购物车发出的操作指令(如增加或删除等)。
进一步地,本步骤可以包括:基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。在一个具体的实施例中,可以分别确定匹配词集合和所述辅助匹配词集合中的词语数量,归入所述文本特征。
以上,可以确定出文本特征。接着,在步骤S224,至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
在一个实施例中,可以基于预定的规则和文本特征,判断是否在当前识别文本后进行断句。在一个具体的实施例中,文本特征中包括匹配词集合中词语的数量,相应地,预定的规则中可以包括:若匹配词集合为空,也就是其中词语数为0,则不在当前识别文本后进行断句。在一个例子中,假定增量文本“再要”对应的文本特征包括:匹配词集合中词语数量为0,则不在当前识别文本“我要一个汉堡再要”后面进行断句。在另一个具体的实施例中,文本特征中包括商品名集合中商品名的数量和商品属性集合中商品属性的数量,相应地,预定的规则中可以包括:若商品名的数量或商品属性的数量为0,则不在当前识别文本后进行断句,若商品名的数量和商品属性的数量都大于0,则在当前识别文本后进行断句。在一个例子中,假定增量文本“一杯大可乐”对应的文本特征包括:商品名的数量为1且商品属性的数量为1,则在当前识别文本“我要一个牛肉汉堡和一杯大可乐”后面断句。
在一个实施例中,在本步骤之前,所述方法还可以包括:提取时间特征。在一个具体的实施例中,可以确定上述当前识别文本对应的当前语音时长。在一个例子中,可以从客户端获取所述当前识别文本所对应的流式语音信号的采集时长,作为所述当前语音时长。在另一个例子中,可以在进行流式语音识别以确定所述当前识别文本的过程中,确定所述当前语音时长。进一步地,还可以基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长。在一个具体的实施例中,可以将两者的差值确定为所述增量时长。
相应在本步骤中,可以基于上述文本特征和提取的时间特征,判断是否在当前识别文本后进行断句。在一个具体的实施例中,可以根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。在一个例子中,文本特征中包括匹配词集合中匹配词的数量,基于此,其中预设规则可以包括:在匹配词的数量为0或增量时长与当前语音时长之间的比值小于0.2的情况下,不在当前识别文本后进行断句。在另一个具体的实施例中,可以将上述文本特征和时间特征输入预先训练的第一断句预测模型中,得到预测结果,此预测结果指示是否在当前识别文本后进行断句。在一个例子中,其中第一断句预测模型可以基于神经网络或回归模型,对此不做限定。
在一个实施例中,在本步骤之前,所述方法还可以包括:获取在所述流式语音识别过程中确定的声学特征。在一个具体的实施例中,其中声学特征可以包括:帧能量、过零率(Zero-Crossing Rate,ZCR)、标准化自相关系数(normalized autocorrelationcoefficient)和线性预测系数(Linear Prediction Coefficient,LPC)。需要说明,其中帧能量可以是上述对流式语音信号进行分帧后,一帧的音量,或者,可以是一帧的对数能量(一帧内信号的平方和,再取以10为底的对数值);其中过零率是指一个信号的符号变化的比率,例如信号从正数变成负数或反向;其中标准化自相关系数和线性预测系数可以采用现有技术中的相关公式进行计算得到,不作赘述。
相应在本步骤中,可以基于上述文本特征和声学特征,判断是否在当前识别文本后进行断句。在一个具体的实施例中,可以将所述文本特征和声学特征共同输入预先训练的第二断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。在一个例子中,其中第二断句预测模型可以采用深度神经网络(Deep NeuralNetworks,DNN)或决策树算法实现,对此不做限定。
根据一个具体的实施例,可以将上述文本特征、时间特征和声学特征共同输入预先训练的第三断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。
以上,可以实现对当前识别文本的断句判断。
需要说明的是,在步骤S224之后,在一个实施例中,其中断句判断还可以包括:在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。在一个例子中,假定增量文本为“和一杯大可乐”,在判断出在当前识别文本“我要一个牛肉汉堡小份薯条和一杯大可乐”后进行断句的情况下,将“和一杯大可乐”确定为新增语音片段,并将其续接在“我要一个牛肉汉堡小份薯条”之后,得到更新后的已有语义文本为“我要一个牛肉汉堡小份薯条和一杯大可乐”。如此可以实现对已有语义文本的更新,用于后续的断句判断。
此外,服务端可以持续采集针对第一会话的流式语音信号,直至接收到客户端发送的结束第一会话的通知。在一个实施例中,用户可以手动结束其对第一服务的使用,如点击客户端界面中的退出或完成图标,相应地,客户端可以结束第一会话并向服务端发送结束通知。在另一个实施例中,客户端在检测到服务超时后,如长时间没有接收到任务有效指令,自动结束第一会话,并向服务端发送结束通知。进一步地,服务端在接收到结束通知后,停止采集针对第一会话的流式语音信号,或者说,终止此次事件任务。
下面再结合一个具体的例子,对上述断句方法进行说明。具体地,图5示出根据一个实施例的客户端和服务端的交互示意图,如图5所示,其中包括以下交互步骤:
步骤S500,客户端接收用户发出的开始使用第一服务的指令。
步骤S501,客户端基于该指令,创建第一会话。
步骤S502,客户端向服务端发送针对第一会话的创建通知。
步骤S503,服务端基于接收到的创建通知,创建已有语义文本(初始为空),并获取第一服务对应的多个关键词。
步骤S504,客户端采集流式语音信号并接收辅助会话内容。
步骤S505,服务端从客户端接收流式语音信号和辅助会话内容。
步骤S506,服务端对当前接收的流式语音信号进行流式语音识别,得到当前识别文本,时间特征和声学特征。
步骤S507,服务端将当前识别文本与已有语义文本进行比对,得到增量文本,并且,将当前辅助会话内容与已有辅助会话内容进行比对,得到增量辅助会话内容,其中已有辅助会话内容可以上一次判断出断句时接收的辅助会话内容。
步骤S508,服务端用多个关键词分别对增量文本和增量辅助会话内容进行匹配,对应得到匹配词集合和辅助匹配词集合。
步骤S509,服务端基于匹配词集合、辅助匹配词集合、当前识别文本、增量文本,确定文本特征。
步骤S510,服务端将时间特征、声学特征和文本特征进行拼接,得到拼接特征。
步骤S511,服务端将拼接特征输入预先训练的断句预测模型中,得到预测结果。进一步地,一方面,在预测结果指示在当前识别文本后断句的情况下,利用增量文本更新已有语义文本;另一方面,在指示不断句的情况下,结束针对此次断句判断。
重复上述步骤S504-步骤S511,直到在步骤S512,从客户端接收结束第一会话的通知。
综上,在本说明书实施例披露的断句方法中,通过结合服务场景中的特定信息,确定至少反映当前识别文本语义的文本特征,接着,至少基于文本特征,对当前识别文本进行断句判断,如此可以实现准确、有效的断句。
与上述断句方法相对应的,本说明书实施例还提供一种断句装置。具体地,图6示出根据一个实施例的对流式语音识别文本进行断句的装置结构图,所述装置集成于服务端。如图6所示,所述装置600包括:
第一接收单元610,配置为响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号。识别单元620,配置为对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本。断句单元630,配置为在各个时刻下,针对该时刻下的识别文本进行断句判断;所述断句单元630具体包括:比对子单元631,配置为将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;匹配子单元632,配置为基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;确定子单元633,配置为至少基于所述匹配词集合,确定文本特征;判断子单元634,配置为至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
在一个实施例中,所述装置600还包括:更新单元640,配置为在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;并且,将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。
在一个实施例中,所述比对子单元631具体配置为:确定所述当前识别文本与已有语义文本之间的最长公共序列;基于所述最长公共序列,将所述当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。
在一个实施例中,所述比对子单元631具体配置为:确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;确定所述当前识别文本中对应于所述最长公共序列的公共文本;基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。
在一个实施例中,所述第一服务为购物服务,所述多个关键词包括若干商品名和若干商品属性。
在一个具体的实施例中,所述多个关键词基于获取单元而预先获取,所述获取单元包括:获取子单元,配置为从所述客户端获取用于向用户展示的商品列表;解析子单元,配置为确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。需要说明,此获取子单元可以从属于所述服务端,也可以为其他计算设备中的单元模块。
在一个更具体的实施例中,所述解析子单元具体配置为:基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。
在一个更具体的实施例中,所述确定子单元具体配置为:确定所述匹配词集合中所包括词语的数量,归入所述文本特征;和/或,基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。
在一个实施例中,所述确定子单元633具体配置为:确定所述增量文本对应的字符数,归入所述文本特征;和/或,确定所述当前识别文本对应的字符数,归入所述文本特征;和/或,确定所述已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。
在一个实施例中,所述匹配词集合包括商品名集合和商品属性集合。所述确定子单元633具体配置为:分别确定所述商品名集合和商品属性集合中所包括词语的数量,归入所述文本特征;和/或,基于预先设定的商品名与权重之间的映射关系,确定所述商品名集合中各个商品名对应的权重,归入所述文本特征;和/或,基于预先设定的商品属性与权重之间的映射关系,确定所述商品属性集合中各个商品属性对应的权重,归入所述文本特征。
在一个实施例中,所述装置600还包括:第一确定单元650,配置为确定所述当前识别文本对应的当前语音时长;第二确定单元660,配置为基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长;所述判断子单元634具体配置为:至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
在一个具体的实施例中,所述判断子单元634具体配置为:根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
在一个实施例中,所述装置600还包括:获取单元670,配置为获取在所述流式语音识别过程中确定的声学特征,所述声学特征包括以下中的至少一种:帧能量、过零率、标准化自相关系数和多阶线性预测系数;所述判断子单元634具体配置为:将所述文本特征和所述声学特征共同输入预先训练的断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。
在一个具体的实施例中,所述装置600还包括:第二接收单元680,配置为从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入;所述确定子单元633具体配置为:基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。
在一个具体的实施例中,所述第一服务为购物服务,所述辅助会话内容包括当前购物车中已有商品的商品信息,和/或对已对购物车发出的操作指令。
综上,在本说明书实施例披露的断句装置中,通过结合服务场景中的特定信息,确定至少反映当前识别文本语义的文本特征,接着,至少基于文本特征,对当前识别文本进行断句判断,如此可以实现准确、有效的断句。
如上,根据又一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图5所描述的方法。
根据又一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图5所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。
Claims (32)
1.一种对流式语音识别文本进行断句的方法,所述方法的执行主体为服务端,所述方法包括:
响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;
对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中,在各个时刻下,针对该时刻下的识别文本进行断句判断,其中断句判断包括:
将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;
基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;
至少基于所述匹配词集合,确定文本特征;
至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
2.根据权利要求1所述的方法,其中,在判断是否在当前识别文本后进行断句之后,所述方法还包括:
在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;
将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。
3.根据权利要求1所述的方法,其中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:
确定所述当前识别文本与已有语义文本之间的最长公共序列;
基于所述最长公共序列,将所述当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。
4.根据权利要求1所述的方法,其中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:
确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;
确定所述当前识别文本中对应于所述最长公共序列的公共文本;
基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。
5.根据权利要求1所述的方法,其中,所述第一服务为购物服务,所述多个关键词包括若干商品名和若干商品属性。
6.根据权利要求5所述的方法,其中,所述多个关键词基于以下步骤而预先获取:
从所述客户端获取用于向用户展示的商品列表;
确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。
7.根据权利要求6所述的方法,其中,确定所述商品列表中包括的所述若干商品名和若干商品属性,包括:
基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。
8.根据权利要求1所述的方法,其中,至少基于所述匹配词集合,确定文本特征,包括:
确定所述匹配词集合中所包括词语的数量,归入所述文本特征;和/或
基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。
9.根据权利要求1所述的方法,其中,至少基于所述匹配词集合,确定文本特征,还包括:
确定所述增量文本对应的字符数,归入所述文本特征;和/或,
确定所述当前识别文本对应的字符数,归入所述文本特征;和/或,
确定所述已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。
10.根据权利要求5所述的方法,其中,所述匹配词集合包括商品名集合和商品属性集合;
其中,至少基于所述匹配词集合,确定文本特征,包括:
分别确定所述商品名集合和商品属性集合中所包括词语的数量,归入所述文本特征;和/或,
基于预先设定的商品名与权重之间的映射关系,确定所述商品名集合中各个商品名对应的权重,归入所述文本特征;和/或,
基于预先设定的商品属性与权重之间的映射关系,确定所述商品属性集合中各个商品属性对应的权重,归入所述文本特征。
11.根据权利要求1所述的方法,其中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:
确定所述当前识别文本对应的当前语音时长;
基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长;
其中,至少基于所述文本特征,判断是否将所述增量文本确定为新增语义片段,包括:
至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
12.根据权利要求11所述的方法,其中,至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句,包括:
根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
13.根据权利要求1所述的方法,其中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:
获取在所述流式语音识别过程中确定的声学特征,所述声学特征包括以下中的至少一种:帧能量、过零率、标准化自相关系数和多阶线性预测系数;
其中,至少基于所述文本特征,判断是否在当前识别文本后进行断句,包括:
将所述文本特征和所述声学特征共同输入预先训练的断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。
14.根据权利要求1所述的方法,其中,在至少基于所述匹配词集合,确定文本特征之前,所述方法还包括:
从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入;
其中至少基于所述匹配词集合,确定文本特征,包括:
基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;
基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。
15.根据权利要求14所述的方法,其中,所述第一服务为购物服务,所述辅助会话内容包括当前购物车中已有商品的商品信息,和/或,对已对购物车发出的操作指令。
16.一种对流式语音识别文本进行断句的装置,所述装置集成于服务端,所述装置包括:
第一接收单元,配置为响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;
识别单元,配置为对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;
断句单元,配置为在各个时刻下,针对该时刻下的识别文本进行断句判断;
所述断句单元具体包括:
比对子单元,配置为将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;
匹配子单元,配置为基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;
确定子单元,配置为至少基于所述匹配词集合,确定文本特征;
判断子单元,配置为至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。
17.根据权利要求16所述的装置,其中,所述装置还包括:
更新单元,配置为在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;并且,将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。
18.根据权利要求16所述的装置,其中,所述比对子单元具体配置为:
确定所述当前识别文本与已有语义文本之间的最长公共序列;
基于所述最长公共序列,将所述当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。
19.根据权利要求16所述的装置,其中,所述比对子单元具体配置为:
确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;
确定所述当前识别文本中对应于所述最长公共序列的公共文本;
基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。
20.根据权利要求16所述的装置,其中,所述第一服务为购物服务,所述多个关键词包括若干商品名和若干商品属性。
21.根据权利要求20所述的装置,其中,所述多个关键词基于获取单元而预先获取,所述获取单元包括:
获取子单元,配置为从所述客户端获取用于向用户展示的商品列表;
解析子单元,配置为确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。
22.根据权利要求21所述的装置,其中,所述解析子单元具体配置为:
基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。
23.根据权利要求16所述的装置,其中,所述确定子单元具体配置为:
确定所述匹配词集合中所包括词语的数量,归入所述文本特征;和/或
基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。
24.根据权利要求16所述的装置,其中,所述确定子单元具体配置为:
确定所述增量文本对应的字符数,归入所述文本特征;和/或,
确定所述当前识别文本对应的字符数,归入所述文本特征;和/或,
确定所述已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。
25.根据权利要求20所述的装置,其中,所述匹配词集合包括商品名集合和商品属性集合;
所述确定子单元具体配置为:
分别确定所述商品名集合和商品属性集合中所包括词语的数量,归入所述文本特征;和/或,
基于预先设定的商品名与权重之间的映射关系,确定所述商品名集合中各个商品名对应的权重,归入所述文本特征;和/或,
基于预先设定的商品属性与权重之间的映射关系,确定所述商品属性集合中各个商品属性对应的权重,归入所述文本特征。
26.根据权利要求16所述的装置,其中,所述装置还包括:
第一确定单元,配置为确定所述当前识别文本对应的当前语音时长;
第二确定单元,配置为基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长;
所述判断子单元具体配置为:
至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
27.根据权利要求26所述的装置,其中,所述判断子单元具体配置为:
根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。
28.根据权利要求16所述的装置,其中,所述装置还包括:
获取单元,配置为获取在所述流式语音识别过程中确定的声学特征,所述声学特征包括以下中的至少一种:帧能量、过零率、标准化自相关系数和多阶线性预测系数;
所述判断子单元具体配置为:
将所述文本特征和所述声学特征共同输入预先训练的断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。
29.根据权利要求16所述的装置,其中,所述装置还包括:
第二接收单元,配置为从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入;
所述确定子单元具体配置为:
基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;
基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。
30.根据权利要求29所述的装置,其中,所述第一服务为购物服务,所述辅助会话内容包括当前购物车中已有商品的商品信息,和/或,对已对购物车发出的操作指令。
31.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-15中任一项的所述的方法。
32.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010251523.9A CN111161711B (zh) | 2020-04-01 | 2020-04-01 | 对流式语音识别文本进行断句的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010251523.9A CN111161711B (zh) | 2020-04-01 | 2020-04-01 | 对流式语音识别文本进行断句的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161711A true CN111161711A (zh) | 2020-05-15 |
CN111161711B CN111161711B (zh) | 2020-07-03 |
Family
ID=70567734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010251523.9A Active CN111161711B (zh) | 2020-04-01 | 2020-04-01 | 对流式语音识别文本进行断句的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161711B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735417A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 语音翻译方法、电子设备、计算机可读存储介质 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113380239A (zh) * | 2021-07-20 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
CN113516977A (zh) * | 2021-03-15 | 2021-10-19 | 南京每深智能科技有限责任公司 | 关键词识别方法及系统 |
CN114420102A (zh) * | 2022-01-04 | 2022-04-29 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101351838A (zh) * | 2005-12-30 | 2009-01-21 | 坦德伯格电信公司 | 可搜索多媒体流 |
US20130177143A1 (en) * | 2012-01-09 | 2013-07-11 | Comcast Cable Communications, Llc | Voice Transcription |
US20130317818A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Rochester | Systems and Methods for Captioning by Non-Experts |
US20150134320A1 (en) * | 2013-11-14 | 2015-05-14 | At&T Intellectual Property I, L.P. | System and method for translating real-time speech using segmentation based on conjunction locations |
CN107291704A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
US20180182396A1 (en) * | 2016-12-12 | 2018-06-28 | Sorizava Co., Ltd. | Multi-speaker speech recognition correction system |
CN108549628A (zh) * | 2018-03-16 | 2018-09-18 | 北京云知声信息技术有限公司 | 流式自然语言信息的断句装置及方法 |
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109241526A (zh) * | 2018-08-22 | 2019-01-18 | 北京慕华信息科技有限公司 | 一种段落分割方法和装置 |
CN110010124A (zh) * | 2019-04-09 | 2019-07-12 | 深圳平安综合金融服务有限公司上海分公司 | 通话检验设备及通话检验方法 |
CN110164417A (zh) * | 2019-05-31 | 2019-08-23 | 科大讯飞股份有限公司 | 一种语种向量获得、语种识别的方法和相关装置 |
CN110289016A (zh) * | 2019-06-20 | 2019-09-27 | 深圳追一科技有限公司 | 一种基于实时对话的语音质检方法、装置及电子设备 |
US20200090678A1 (en) * | 2016-05-02 | 2020-03-19 | Google Llc | Automatic determination of timing windows for speech captions in an audio stream |
-
2020
- 2020-04-01 CN CN202010251523.9A patent/CN111161711B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101351838A (zh) * | 2005-12-30 | 2009-01-21 | 坦德伯格电信公司 | 可搜索多媒体流 |
US20130177143A1 (en) * | 2012-01-09 | 2013-07-11 | Comcast Cable Communications, Llc | Voice Transcription |
US20130317818A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Rochester | Systems and Methods for Captioning by Non-Experts |
US20150134320A1 (en) * | 2013-11-14 | 2015-05-14 | At&T Intellectual Property I, L.P. | System and method for translating real-time speech using segmentation based on conjunction locations |
US20200090678A1 (en) * | 2016-05-02 | 2020-03-19 | Google Llc | Automatic determination of timing windows for speech captions in an audio stream |
US20180182396A1 (en) * | 2016-12-12 | 2018-06-28 | Sorizava Co., Ltd. | Multi-speaker speech recognition correction system |
CN107291704A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN108549628A (zh) * | 2018-03-16 | 2018-09-18 | 北京云知声信息技术有限公司 | 流式自然语言信息的断句装置及方法 |
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109241526A (zh) * | 2018-08-22 | 2019-01-18 | 北京慕华信息科技有限公司 | 一种段落分割方法和装置 |
CN110010124A (zh) * | 2019-04-09 | 2019-07-12 | 深圳平安综合金融服务有限公司上海分公司 | 通话检验设备及通话检验方法 |
CN110164417A (zh) * | 2019-05-31 | 2019-08-23 | 科大讯飞股份有限公司 | 一种语种向量获得、语种识别的方法和相关装置 |
CN110289016A (zh) * | 2019-06-20 | 2019-09-27 | 深圳追一科技有限公司 | 一种基于实时对话的语音质检方法、装置及电子设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735417A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 语音翻译方法、电子设备、计算机可读存储介质 |
CN112735417B (zh) * | 2020-12-29 | 2024-04-26 | 中国科学技术大学 | 语音翻译方法、电子设备、计算机可读存储介质 |
CN113516977A (zh) * | 2021-03-15 | 2021-10-19 | 南京每深智能科技有限责任公司 | 关键词识别方法及系统 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113380239A (zh) * | 2021-07-20 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
CN113380239B (zh) * | 2021-07-20 | 2022-09-09 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
CN114420102A (zh) * | 2022-01-04 | 2022-04-29 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
CN114420102B (zh) * | 2022-01-04 | 2022-10-14 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
WO2023130951A1 (zh) * | 2022-01-04 | 2023-07-13 | 广州小鹏汽车科技有限公司 | 语音断句方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111161711B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161711B (zh) | 对流式语音识别文本进行断句的方法及装置 | |
JP6916264B2 (ja) | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN109509470B (zh) | 语音交互方法、装置、计算机可读存储介质及终端设备 | |
JP4987203B2 (ja) | 分散型リアルタイム音声認識装置 | |
CN111933129A (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US20190080687A1 (en) | Learning-type interactive device | |
WO2017084334A1 (zh) | 一种语种识别方法、装置、设备及计算机存储介质 | |
CN105654943A (zh) | 一种语音唤醒方法、装置及系统 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN108538286A (zh) | 一种语音识别的方法以及计算机 | |
JP3476008B2 (ja) | 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体 | |
WO2021051514A1 (zh) | 一种语音识别方法、装置、计算机设备及非易失性存储介质 | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN111192572A (zh) | 语义识别的方法、装置及系统 | |
JP2019124952A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113850291A (zh) | 文本处理及模型训练方法、装置、设备和存储介质 | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
US10957313B1 (en) | System command processing | |
US12002460B2 (en) | Information processing device, information processing system, and information processing method, and program | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN115168544A (zh) | 信息提取方法及电子设备和存储介质 | |
CN115019787A (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
CN113850290A (zh) | 文本处理及模型训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |