CN114708856A - 一种语音处理方法及其相关设备 - Google Patents
一种语音处理方法及其相关设备 Download PDFInfo
- Publication number
- CN114708856A CN114708856A CN202210492998.6A CN202210492998A CN114708856A CN 114708856 A CN114708856 A CN 114708856A CN 202210492998 A CN202210492998 A CN 202210492998A CN 114708856 A CN114708856 A CN 114708856A
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- semantic
- text
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 239000012634 fragment Substances 0.000 claims abstract description 146
- 238000000034 method Methods 0.000 claims abstract description 93
- 230000008569 process Effects 0.000 claims abstract description 51
- 230000003993 interaction Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims description 214
- 238000001514 detection method Methods 0.000 claims description 28
- 230000003111 delayed effect Effects 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 10
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims 2
- 230000004044 response Effects 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 17
- 230000007547 defect Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 63
- 238000004458 analytical method Methods 0.000 description 33
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音处理方法及其相关设备,该方法包括:在获取到当前语音片段之后,先根据当前语音片段,确定用户语义完整性表征信息;再根据用户语义完整性表征信息,确定待使用语音等待时长,并当确定在当前语音片段的语音结束时刻之后的待使用语音等待时长内未获取到下一个语音片段时,确定用户结束说话,并获取用于表示出用户的说话内容的用户语音文本,以便后续能够基于用户语音文本,针对用户做出相应的响应操作,如此能够实现基于用户已说内容的完整语义性动态地调整收音等待时长,从而能够克服基于固定收音等待时长进行收音控制的人机交互过程所存在的缺陷,进而能够有效地提高人机交互效果。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种语音处理方法及其相关设备。
背景技术
随着人机交互技术的发展,人机交互技术的应用领域越来越多。例如,人机交互技术可以应用于智能家居、导航等领域。
实际上,在一轮人机交互过程中,人机交互设备通常可以先收集用户语音数据(例如,语音指令等);再针对该语音数据进行语音识别处理;最后,参考语音识别结果(例如,“帮我打开氛围灯”这一文本),针对该用户做出相应的响应操作(例如,控制氛围灯打开等),如此以实现用户与该人机交互设备之间的人机交互过程。
然而,因一些人机交互过程存在缺陷,导致人机交互效果比较差(例如,用户指令未听完整、针对用户指令的响应速度比较慢等)。
发明内容
本申请实施例的主要目的在于提供一种语音处理方法及其相关设备,能够有效地提高人机交互效果。
本申请实施例提供了一种语音处理方法,所述方法包括:
在获取到当前语音片段之后,根据所述当前语音片段,确定用户语义完整性表征信息;
根据所述用户语义完整性表征信息,确定待使用语音等待时长;
若在所述当前语音片段的语音结束时刻之后的所述待使用语音等待时长内未获取到下一个语音片段,则获取用户语音文本;其中,所述用户语音文本包括所述当前语音片段携带的语音信息。
在一种可能的实施方式中,所述根据所述当前语音片段,确定用户语义完整性表征信息,包括:
若确定存在所述当前语音片段对应的历史语音片段,则根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息。
在一种可能的实施方式中,所述根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息,包括:
将所述当前语音片段、以及所述当前语音片段对应的历史语音片段输入预先构建的第一语义完整识别模型,得到所述第一语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息,包括:
对所述当前语音片段、以及所述当前语音片段对应的历史语音片段进行语音转写处理,得到待处理片段文本;其中,所述待处理片段文本包括所述当前语音片段携带的语音信息、以及所述当前语音片段对应的历史语音片段携带的语音信息;
根据所述待处理片段文本,确定所述用户语义完整性表征信息。
在一种可能的实施方式中,所述根据所述待处理片段文本,确定所述用户语义完整性表征信息,包括:
将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述根据所述待处理片段文本,确定所述用户语义完整性表征信息,包括:
按照预先设定的语义完整识别规则,对所述待处理片段文本进行语义完整识别处理,得到语义完整识别结果;
根据所述语义完整识别结果,确定所述用户语义完整性表征信息。
在一种可能的实施方式中,所述根据所述语义完整识别结果,确定所述用户语义完整性表征信息,包括:
若所述语义完整识别结果表示所述语义完整识别规则无法识别所述待处理片段文本,则将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述第二语义完整识别模型的构建过程,包括:
利用至少一个第一样本文本、以及各所述第一样本文本的标点符号标注信息,对初始语言模型进行训练,得到标点符号识别模型;
根据所述标点符号识别模型,确定所述第二语义完整识别模型。
在一种可能的实施方式中,所述根据所述标点符号识别模型,确定所述第二语义完整识别模型,包括:
利用目标领域下的至少一个第二样本文本、以及各所述第二样本文本的语义完整标注信息,对所述标点符号识别模型进行训练,得到所述第二语义完整识别模型;其中,所述目标领域是根据所述当前语音片段的应用领域描述信息进行确定的。
在一种可能的实施方式中,所述标点符号识别模型的确定过程,包括:
将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果;
根据各所述第一样本文本的标点符号识别结果、各所述第一样本文本的标点符号标注信息、以及损失校正系数,确定所述初始语言模型的模型损失值;其中,所述损失校正系数包括样例平衡系数和/或语义完整平衡系数;
根据所述初始语言模型的模型损失值,更新所述初始语言模型,并继续执行所述将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果的步骤,直至在达到预设停止条件时,根据所述初始语言模型,确定所述标点符号识别模型。
在一种可能的实施方式中,所述根据所述用户语义完整性表征信息,确定待使用语音等待时长,包括:
根据所述用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长;
根据所述待参考语音等待时长,确定所述待使用语音等待时长。
在一种可能的实施方式中,所述根据所述待参考语音等待时长,确定所述待使用语音等待时长,包括:
若所述待参考语音等待时长不小于音频延迟发送时长,则将所述待参考语音等待时长,确定为所述待使用语音等待时长;
若所述待参考语音等待时长小于音频延迟发送时长,则将所述音频延迟发送时长,确定为所述待使用语音等待时长。
在一种可能的实施方式中,所述用户语义完整性表征信息包括语义完整概率;
所述根据所述用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长,包括:
将所述预设等待时长上限与预设等待时长下限之间的差值,确定为时长差值;
将所述时长差值与所述语义完整概率之间的乘积,确定为时长波动;
将所述预设等待时长上限与所述时长波动之间的差值,确定为所述待参考语音等待时长。
在一种可能的实施方式中,所述方法还包括:
响应所述用户语音文本携带的人机交互请求。
本申请实施例还提供了一种语音处理装置,包括:
完整性预测单元,用于在获取到当前语音片段之后,根据所述当前语音片段,确定用户语义完整性表征信息;
时长确定单元,用于根据所述用户语义完整性表征信息,确定待使用语音等待时长;
文本获取单元,用于若在所述当前语音片段的语音结束时刻之后的所述待使用语音等待时长内未获取到下一个语音片段,则获取用户语音文本;其中,所述用户语音文本包括所述当前语音片段携带的语音信息。
本申请实施例还提供了一种语音处理系统,所述系统包括收音模块、语音端点检测模块、和语音处理模块;
其中,所述收音模块,用于采集当前语音片段,并将所述当前语音片段发送给所述语音端点检测模块;
所述语音端点检测模块用于在确定所述当前语音片段满足预设条件时,将所述当前语音片段发送至所述语音处理模块;
所述语音处理模块,用于执行本申请实施例提供的语音处理方法的任一实施方式。
本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的语音处理方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的语音处理方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的语音处理方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的技术方案中,对于语音处理系统中的语音处理模块来说,在该语音处理模块获取到由语音端点检测(Voice Activity Detection,VAD)模块发送的当前语音片段之后,先由该语音处理模块根据该当前语音片段(以及该当前语音片段对应的历史语音片段),确定用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性;再由该语音处理模块根据该用户语义完整性表征信息,确定待使用语音等待时长,以使该待使用语音等待时长能够表示出在用户已说内容的基础上所确定的比较适用于等待下一个语音片段的最大等待时长,以便当确定在该当前语音片段的语音结束时刻之后的该待使用语音等待时长内未获取到下一个语音片段时,确定该用户结束说话,故可以获取包括该当前语音片段携带的语音信息的用户语音文本,以使该用户语音文本能够表示出该用户已说内容(例如,帮我打开氛围灯等),以便后续由该语音处理模块基于该用户语音文本,针对该用户做出相应的响应操作(例如,控制氛围灯打开等),如此能够实现基于用户已说内容的语义完整性动态地调整收音等待时长,从而能够克服基于固定收音等待时长进行收音控制的人机交互过程所存在的缺陷,进而能够有效地提高人机交互效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种收音过程的示意图;
图2为本申请实施例提供的一种语音处理系统的结构示意图;
图3为本申请实施例提供的一种端点检测结果的示意图;
图4为本申请实施例提供的一种语音处理方法的流程图;
图5为本申请实施例提供的两种收音过程的比对示意图;
图6为本申请实施例提供的一种音频数据流的示意图;
图7为本申请实施例提供的一种具有语义完整性分析功能的机器学习模型的构建过程的示意图;
图8为本申请实施例提供的一种语音处理装置的结构示意图。
具体实施方式
发明人在针对人机交互过程的研究中发现,对于一些人机交互过程来说,其通常可以按照固定收音等待时长(例如,图1所示的800毫秒)来判断用户是否已结束说话。然而,由于自然人在说话过程中可能会出现较长时间的停顿(例如,图1所示的950毫秒),也可能出现较短时间的停顿(例如,图1所示的340毫秒),导致按照上述“按照固定收音等待时长来判断用户是否已结束说话”这一方式进行收音控制的人机交互过程存在以下缺陷:如果把该收音等待时长设定为比较小的固定值,则很有可能发生因用户在一句话中间稍微多停顿了一会儿而导致结束收音,如此会导致一些用户语音片段(例如,图1所示的携带有“氛围灯”这一语音信息的语音数据)未被收音,从而导致后续基于不完整语义进行的人机交互响应易出现问题(例如,无法给出响应,或者给出错误的响应,或者响应不全面等);但是,如果把该收音等待时长设定为比较大的固定值,则会导致在用户说话结束之后依旧需要持续收音很长时间,从而导致在用户说话结束之后需要等待很长时间才会基于用户语义进行人机交互响应,进而导致人机交互响应比较迟钝。
发明人还发现,一个自然人在每一次说话过程中通常都会表述出具有完整语义的语句内容,以使在人与人之间的实际交互过程中,一个自然人可以基于另一个自然人所表述的语义是否完整来判定另一个自然人是否已说完。
基于上述发现,为了解决背景技术部分所示的技术问题,本申请实施例提供了一种语音处理方法,该方法包括:在获取到当前语音片段之后,先根据该当前语音片段(以及该当前语音片段对应的历史语音片段),确定用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性;再根据该用户语义完整性表征信息,确定待使用语音等待时长,以使该待使用语音等待时长能够表示出在用户已说内容的基础上所确定的比较适用于等待下一个语音片段的最大等待时长,以便当确定在该当前语音片段的语音结束时刻之后的该待使用语音等待时长内未获取到下一个语音片段时,确定该用户结束说话,故可以获取用户语音文本,以使该用户语音文本包括该当前语音片段携带的语音信息(以及该当前语音片段对应的历史语音片段携带的语音信息),从而使得该用户语音文本能够表示出该用户的说话内容(例如,帮我打开氛围灯等),以便后续能够于该用户语音文本,针对该用户做出相应的响应操作(例如,控制氛围灯打开等),如此能够实现基于用户已说内容的完整语义性动态地调整收音等待时长,从而能够克服基于固定收音等待时长进行收音控制的人机交互过程所存在的缺陷,进而能够有效地提高人机交互效果。
另外,本申请实施例不限定语音处理方法的执行主体,例如,本申请实施例提供的语音处理方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请实施例提供的语音处理方法,下面先结合图2简要的介绍一下该语音处理方法的应用系统框架。其中,图2为本申请实施例提供的一种语音处理系统的结构示意图。
如图2所示,本申请实施例提供的语音处理系统200可以包括收音模块201、语音端点检测(Voice Activity Detection,VAD)模块202、和语音处理模块203。
收音模块201用于从该收音模块201的周围环境中实时地采集声音数据(例如,人说话声等),并将其采集所得的声音数据实时地发送给语音端点检测模块202。其中,上述“收音模块201的周围环境”是指部署有该收音模块201的环境(例如,客厅等)。
另外,本申请实施例不限定上述收音模块201的实施方式,例如,可以采用现有的或者未来出现的任意一种拾音器进行实施。
此外,收音模块201通常是在用户授权的情况下针对该收音模块201的周围环境进行声音采集。
VAD模块202用于针对收音模块201实时发送的语音数据进行音频端点检测(例如,start、continue、end这三类音频端点)。其中,start用于表示用户开始说话;continue用于表示用户继续说话;end表示用于表示一个较为完整的用户表述片段结束,通常伴随着用户的沉默,而且该沉默持续时长达到预设时间阈值(例如,图3所示的gap所标记的时长)。
可见,对于VAD模块202来说,当该VAD模块202确定由收音模块201实时提供的音频流中出现了沉默片段(也就是,在多帧语音数据之后出现了非语音数据),而且该沉默片段持续时长达到预设时间阈值时,该VAD模块202可以确定该音频流中出现了end端点(如图3所示的end端点)。
需要说明的是,对于图3所示的“计算延时”是指VAD模块202进行end端点检测时所需花费的时长(例如,只有几十毫秒等)。
VAD模块202还用于在确定出end端点之后,可以把从开始收音(例如,start端点)到该end端点之间采集到的音频数据(例如,图3所示的用户表述片段A等)发送给语音处理模块203。
语音处理模块203用于利用本申请实施例提供的语音处理方法的任一实施方式,针对VAD模块202提供的音频数据片段进行语音处理。
另外,为了更好地理解语音处理模块203的工作原理,下面结合下文所示的方法实施例进行说明。
方法实施例一
参见图4,该图为本申请实施例提供的一种语音处理方法的流程图。
本申请实施例提供的应用于语音处理模块203的语音处理方法,包括S1-S3:
S1:在语音处理模块203获取到当前语音片段之后,该语音处理模块203根据该当前语音片段,确定用户语义完整性表征信息。
其中,当前语音片段用于表示由VAD模块202实时发送的携带有用户语音信息的音频片段。例如,当前语音片段可以是图5所示的携带有“氛围灯”这一语音信息的音频片段,也可以是图6所示的“用户表述片段B”。
上文“用户语义完整性表征信息”用于表示用户已说内容具有完整语义的可能性;而且本申请实施例不限定该用户语义完整性表征信息,例如,其可以包括语义完整概率。
其中,语义完整概率是指用户已说内容具有完整语义的发生概率,以使该语义完整概率能够表示出该用户已说内容具有完整语义的可能性;而且如果该语义完整概率越大,则表示该用户已说内容具有完整语义的可能性越大,如果该语义完整概率越小,则表示该用户已说内容具有完整语义的可能性越小。
另外,本申请实施例不限定用户语义完整性表征信息的确定过程,为了便于理解,下面结合两种情况进行说明。
情况1,当前语音片段为用户所说的语音流中的第1个片段(也就是,当前语音片段携带有该用户所说的第一个文字)。例如,当前语音片段可以为图5所示的携带有“帮我”这一语音信息的音频片段,也可以是图6所示的“用户表述片段A”。
基于上述情况1可知,上述“用户语义完整性表征信息的确定过程”,具体可以为:针对当前语音片段进行语义完整性分析处理,得到用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容(也就是,该当前语音片段所携带的语音信息)具有完整语义的可能性。
另外,本申请实施例不限定上述步骤“针对当前语音片段进行语义完整性分析处理,得到用户语义完整性表征信息”的实施方式,例如,其类似于下文所示的步骤“针对当前语音片段、以及该当前语音片段对应的历史语音片段进行语义完整性分析处理,得到用户语义完整性表征信息”的实施方式,为了简要起见,在此不再赘述。
情况2,当前语音片段为用户所说的语音流中的非首个片段(例如,第2个片段、第3个片段、……)。例如,当前语音片段可以是图5所示的携带有“氛围灯”这一语音信息的音频片段,也可以是图6所示的“用户表述片段B”。
基于上述情况2可知,上述“用户语义完整性表征信息的确定过程”,具体可以为:若确定存在当前语音片段对应的历史语音片段,则针对当前语音片段、以及该当前语音片段对应的历史语音片段进行语义完整性分析处理,得到用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容(也就是,该当前语音片段所携带的语音信息、以及该当前语音片段对应的历史语音片段所携带的语音信息)具有完整语义的可能性。
上文“当前语音片段对应的历史语音片段”用于表示该当前语音片段所携带的语音信息的前文信息;而且该“当前语音片段对应的历史语音片段”是由VAD模块202在该当前语音片段的发送时间点之前进行发送的。例如,假设当前语音片段是图5所示的携带有“氛围灯”这一语音信息的音频片段,则该当前语音片段对应的历史语音片段可以包括图5所示的携带有“帮我”这一语音信息的音频片段、以及携带有“打开一下”这一语音信息的音频片段。
另外,本申请实施例不限定上述步骤“针对当前语音片段、以及该当前语音片段对应的历史语音片段进行语义完整性分析处理,得到用户语义完整性表征信息”的实施方式,例如,为了便于理解,下面结合两种可能的实施方式进行说明。
在第一种可能的实施方式中,上述“用户语义完整性表征信息的确定过程”具体可以为:语音处理模块203将当前语音片段、以及该当前语音片段对应的历史语音片段输入预先构建的第一语义完整识别模型,得到该第一语义完整识别模型输出的用户语义完整性表征信息。
其中,第一语义完整识别模型用于针对该第一语义完整识别模型的输入数据(也就是,音频数据)进行语义完整性分析处理;而且本申请实施例不限定该第一语义完整识别模型,例如,该第一语义完整识别模型可以采用任意一种机器学习模型进行实施。
另外,本申请实施例不限定第一语义完整识别模型的构建过程,例如,其可以类似于下文所示的“第二语义完整识别模型”的构建过程,为了简要起见,在此不再赘述。
基于第一种可能的实施方式的相关内容可知,如果语音处理模块203中预先存储有具有针对音频数据进行语义完整性分析处理功能的第一语义完整识别模型,则在该语音处理模块203获取到当前语音片段、以及该当前语音片段对应的历史语音片段之后,可以将这些语音片段作为一个音频数据输入该第一语义完整识别模型,以使该第一语义完整识别模型能够针对这些语音片段进行语义完整性分析处理,得到并输出用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出这些语音片段所携带的语义信息具有完整语义的可能性。
在第二种可能的实施方式中,上述“用户语义完整性表征信息的确定过程”具体可以包括S11-S12:
S11:语音处理模块203对当前语音片段、以及该当前语音片段对应的历史语音片段进行语音转写处理,得到待处理片段文本。
其中,待处理片段文本包括当前语音片段携带的语音信息、以及该当前语音片段对应的历史语音片段携带的语音信息,以使该待处理片段文本能够表示出用户已说内容(例如,图5所示的“帮我打开一下氛围灯”这一用户说话内容)。
需要说明的是,本申请实施例不限定S11中语音转写处理的实施方式,例如,可以采用现有的或者未来出现的任意一种能够针对语音数据进行语音识别处理的方法进行实施。
S12:语音处理模块203根据待处理片段文本,确定用户语义完整性表征信息。
本申请实施例中,对于语音处理模块203来说,在该语音处理模块203获取到待处理片段文本之后,可以针对该待处理片段文本进行语义完整性分析处理,得到用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出该待处理片段文本具有完整语义的可能性。
需要说明的是,本申请实施例不限定S12的实施方式,例如,其可以采用现有的或者未来出现的任意一种能够针对一个文本数据进行语义完整性分析处理的方法进行实施。
另外,为了能够更好地实现语义完整性分析处理,可以借助预先构建的具有针对文本数据进行语义完整性分析处理功能的机器学习模型进行实施。基于此可知,在一种可能的实施方式中,S12具体可以为:语音处理模块203将待处理片段文本输入预先构建的第二语义完整识别模型,得到该第二语义完整识别模型输出的用户语义完整性表征信息。
其中,第二语义完整识别模型用于针对该第二语义完整识别模型的输入数据(也就是,文本数据)进行语义完整性分析处理;而且本申请实施例不限定该第二语义完整识别模型,例如,该第二语义完整识别模型可以采用任意一种机器学习模型进行实施。
另外,第二语义完整识别模型的相关内容请参见下文方法实施例三所示的第二语义完整识别模型的相关内容。
基于上述S12的一种可能的实施方式的相关内容可知,如果语音处理模块203中预先存储有具有针对文本数据进行语义完整性分析处理功能的第二语义完整识别模型,则在该语音处理模块203获取到待处理片段文本之后,该语音处理模块203可以将该待处理片段文本直接输入该第二语义完整识别模型,以使该第二语义完整识别模型针对该待处理片段文本进行语义完整性分析处理,得到并输出用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出该待处理片段文本具有完整语义的可能性(也就是,用户已说内容具有完整语义的可能性)。
实际上,为了进一步提高语义完整性分析效果以及稳定性,本申请实施例还提供了S12的另一种可能的实施方式,其具体可以包括S121-S122:
S121:语音处理模块203按照预先设定的语义完整识别规则,对待处理片段文本进行语义完整识别处理,得到语义完整识别结果。
其中,语义完整识别规则是指预先设定的用于识别一个文本数据具有完整语义的可能性的规则;而且本申请实施例不限定该语义完整识别规则,例如,其可以包括全匹配名单、和至少一个候选文法规则及其对应的语义完整性表征数据。其中,全匹配名单用于记录大量候选文本片段、以及各个候选文本片段对应的语义完整性表征数据。
可见,对于一个文本数据(例如,上文“待处理片段文本”)来说,如果该文本数据与语义完整识别规则中某个候选文法规则(或者,某个候选文本片段)匹配成功,则可以将该候选文法规则(或者,该候选文本片段)对应的语义完整性表征数据,确定为该文本数据的语义完整识别结果,以使该语义完整识别结果能够表示出该文本数据具有完整语义的可能性。
需要说明的是,上述“语义完整性表征数据”用于表示一个对象(例如,候选文法规则或者候选文本片段)具有完整语义的可能性;而且本申请实施例不限定该语义完整性表征数据的表示方式,例如,其可以采用概率(例如,80%)形式进行表示。
上文“语义完整识别结果”是指利用语义完整识别规则对待处理片段文本进行语义完整识别处理所得的处理结果,以使该语义完整识别结果能够表示出该语义完整识别规则是否能够覆盖该待处理片段文本(也就是,该语义完整识别规则是否适用于确定该待处理片段文本的语义完整性)。
基于上述S121的相关内容可知,对于语音处理模块203来说,在该语音处理模块203获取到待处理片段文本之后,可以按照预先设定的语义完整识别规则,对该待处理片段文本进行语义完整识别处理,得到语义完整识别结果,以使该语义完整识别结果能够表示出利用该语义完整识别规则对该待处理片段文本的语义识别情况(例如,表示出该语义完整识别规则是否能够覆盖该待处理片段文本、以及表示出该待处理片段文本具有完整语义的可能性等),以便后续能够基于该语义完整识别结果,确定该待处理片段文本具有完整语义的可能性。
S122:语音处理模块203根据语义完整识别结果,确定用户语义完整性表征信息。
作为示例,S122具体可以包括S1221-S1222:
S1221:若语义完整识别结果携带有待处理片段文本的语义完整性表征数据,则语音处理模块203可以将该待处理片段文本的语义完整性表征数据,确定为用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性。
上述“待处理片段文本的语义完整性表征数据”用于表示该待处理片段文本具有完整语义的可能性。
S1222:若语义完整识别结果表示语义完整识别规则无法识别待处理片段文本(也就是,该语义完整识别规则不适用于确定该待处理片段文本的语义完整性),则语音处理模块203可以将该待处理片段文本输入预先构建的第二语义完整识别模型,得到该第二语义完整识别模型输出的用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容携带有完整语义的可能性。
基于上述S12的另一种可能的实施方式的相关内容可知,如果该语音处理模块203中预先存储有语义完整识别规则、以及第二语义完整识别模型,则在该语音处理模块203获取到待处理片段文本之后,该语音处理模块203可以借助该语义完整识别规则和第二语义完整识别模型,对该待处理片段文本进行语义完整性分析处理,得到用户语义完整性表征信息,以使该用户语义完整性表征信息能够更好地表示出用户已说内容携带有完整语义的可能性。
基于上述S11至S12的相关内容可知,对于语音处理模块203来说,在该语音处理模块203获取到当前语音片段、以及该当前语音片段对应的历史语音片段之后,可以先由该语音处理模块203对这些语音片段进行语音转写处理,得到待处理片段文本,以使该待处理片段文本能够表示出这些语音片段所携带的语音信息;再由该语音处理模块203针对该待处理片段文本进行语义完整性分析处理,得到用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出这些语音片段所携带的语音信息具有完整语义的可能性。
基于上述S1的相关内容可知,对于语音处理模块203来说,在该语音处理模块203接收到VAD模块202实时发送的当前语音片段之后,该语音处理模块203可以针对该当前语音片段所携带的语音信息(以及该当前语音片段对应的历史语音片段所携带的语音信息)进行语义完整性分析处理,得到用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出该语音处理模块203已接收到的语音片段具有完整语义的可能性,从而使得该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性,以便后续能够基于该用户语义完整性表征信息,合理地设定在该语音处理模块203等待下一个语音片段时所依据的最大等待时长。
S2:语音处理模块203根据用户语义完整性表征信息,确定待使用语音等待时长。
其中,待使用语音等待时长是指在语音处理模块203等待下一个语音片段时所依据的最大等待时长,以使该待使用语音等待时长能够表示出针对用户当前次沉默(也就是,在用户说出上文“当前语音片段”所携带语音信息之后的沉默)所设定的收音等待时长。例如,假设当前语音片段为图6所示的“用户表述片段B”,则该待使用语音等待时长可以为图6所示的“收音等待时长”。
上述“下一个语音片段”是指语音处理模块203在接收到当前语音片段之后,从VAD模块202中接收到的携带有用户语音信息的音频片段。例如,如图5所示,如果当前语音片段为携带有“打开一下”这一语音信息的音频片段,则下一个语音片段可以是携带有“氛围灯”这一语音信息的音频片段。
另外,待使用语音等待时长与用户语义完整性表征信息所表征的语义完整性之间呈反比。为了便于理解,下面结合示例进行说明。
作为示例,当上述“用户语义完整性表征信息”包括语义完整概率,而且该语义完整概率用于表示用户已说内容具有完整语义的可能性时,待使用语音等待时长与该语义完整概率之间呈反比。也就是,如果语义完整概率越大,则表示用户已说内容具有完整语义的可能性越大,从而可以表示用户不再说话的可能性越大,故为了尽可能地减少无效等待时长,该待使用语音等待时长应该越短(例如,图5所示的410毫秒);然而,如果语义完整概率越小,则表示用户已说内容具有完整语义的可能性越小,从而可以表示用户继续说话的可能性越大,故为了尽可能地避免遗漏用户说话内容,该待使用语音等待时长应该越长(例如,图5所示的1684毫秒)。
此外,本申请实施例不限定待使用语音等待时长的确定过程,例如,其可以借助任意一种反比函数进行实施。
实际上,为了进一步提高收音等待时长的动态确定合理性,本申请实施例还提供了确定待使用语音等待时长(也就是,S2)的一种可能的实施方式,其具体可以包括S21-S22:
S21:语音处理模块203根据用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长。
其中,预设等待时长上限用于表示针对一次用户沉默允许设定的最大收音等待时长;而且该预设等待时长上限可以预先设定,也可以从大量语音数据中分析得到。
预设等待时长下限用于表示针对一次用户沉默允许设定的最小收音等待时长;而且该预设等待时长下限可以预先设定,也可以从大量语音数据中分析得到。
上文“待参考语音等待时长”用于表示基于用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限这三种信息推理所得的收音等待时长。
另外,本申请实施例不限定待参考语音等待时长的确定过程(也就是,S21的实施方式),例如,当上文“用户语义完整性表征信息”包括语义完整概率,而且该语义完整概率用于表示用户已说内容具有完整语义的可能性时,S21可以采用公式(1)所示的线性函数进行实施。
dw=maxw-(maxw-minw)×p (1)
式中,dw表示待参考语音等待时长;maxw表示预设等待时长上限;minw表示预设等待时长下限;p表示语义完整概率。
可见,对于语音处理模块203来说,在该语音处理模块203获取到用户语义完整性表征信息中所记录的语义完整概率之后,该语音处理模块203可以先将预设等待时长上限与预设等待时长下限之间的差值,确定为时长差值;再由该语音处理模块203将该时长差值与该语义完整概率之间的乘积,确定为时长波动;最后,由该语音处理模块203将该预设等待时长上限与该时长波动之间的差值,确定为待参考语音等待时长,以使该待参考语音等待时长能够表示出基于语义完整概率、预设等待时长上限、以及预设等待时长下限这三种信息推理所得的收音等待时长。
S22:语音处理模块203根据待参考语音等待时长,确定待使用语音等待时长。
本申请实施例中,对于语音处理模块203来说,在该语音处理模块203获取到待参考语音等待时长之后,该语音处理模块203可以直接将该待参考语音等待时长,确定为待使用语音等待时长,以使该待使用语音等待时长能够表示出针对用户当前次沉默所动态设定的收音等待时长。
实际上,对于VAD模块202来说,该VAD模块202通常会在确定用户沉默持续时长达到预设时间阈值(例如,图6所示的gap)之后才会触发end端点检测处理,故为了进一步提高收音等待时长的动态确定合理性,本申请实施例还提供了S22的另一种可能的实施方式,其具体可以包括S221-S223:
S221:语音处理模块203判断待参考语音等待时长是否小于音频延迟发送时长,若是,则执行S222;若否,则执行S223。
其中,音频延迟发送时长是指VAD模块202向语音处理模块203发送一个语音数据片段的延迟时长,以使该音频延迟发送时长能够表示出从用户沉默的起始时间点到VAD模块202向语音处理模块203发送该语音数据片段的时间点之间的时长。
另外,本申请实施例不限定音频延迟发送时长的确定过程,例如,其可以为:将上文“预设时间阈值”(例如,图6所示的gap)与end端点检测耗时(例如,图6所示的“计算延时”)之间的和值,确定为音频延迟发送时长。
需要说明的是,本申请实施例不限定上述“end端点检测耗时”的确定过程,例如,可以预先设定,也可以从大量end端点检测过程的描述数据(例如,检测开始时间点、检测结束时间点等)中分析得到。
基于上述S221的相关内容可知,对于语音处理模块203来说,在该语音处理模块203获取到待参考语音等待时长之后,该语音处理模块203可以判断该待参考语音等待时长是否小于音频延迟发送时长,如果小于音频延迟发送时长,则表示该待参考语音等待时长无法满足因VAD模块202进行end端点检测所造成的时耗需求,故为了能够进一步提高收音等待时长的动态确定合理性,可以利用VAD模块202进行end端点检测所造成的时耗需求,对该待参考语音等待时长进行校正;然而,如果大于或者等于音频延迟发送时长,则表示该待参考语音等待时长能够满足因VAD模块202进行end端点检测所造成的时耗需求,故可以直接将该待参考语音等待时长,确定为待使用语音等待时长即可。
S222:语音处理模块203将音频延迟发送时长,确定为待使用语音等待时长。
本申请实施例中,对于语音处理模块203来说,在该语音处理模块203确定待参考语音等待时长小于音频延迟发送时长时,该语音处理模块203可以确定该待参考语音等待时长无法满足因VAD模块202进行end端点检测所造成的时耗需求,故为了能够满足该时耗需求,可以直接将能够表示出该时耗需求的音频延迟发送时长,确定为待使用语音等待时长,以使该待使用语音等待时长能够实现在满足该时耗需求的前提下尽可能地降低收音等待时长的目的。
S223:语音处理模块203将待参考语音等待时长,确定为待使用语音等待时长。
本申请实施例中,对于语音处理模块203来说,在该语音处理模块203确定待参考语音等待时长不小于(也就是,大于或者等于)音频延迟发送时长时,该语音处理模块203可以确定该待参考语音等待时长能够满足因VAD模块202进行end端点检测所造成的时耗需求,故该语音处理模块203可以将该待参考语音等待时长,确定为待使用语音等待时长,以使该待使用语音等待时长能够实现在满足该时耗需求的前提下尽可能地降低收音等待时长的目的。
基于上述S221至S223的相关内容可知,对于语音处理模块203来说,在该语音处理模块203获取到待参考语音等待时长之后,该语音处理模块203可以根据该待参考语音等待时长、音频延迟发送时长、以及下文公式(2),确定待使用语音等待时长,以使该待使用语音等待时长能够实现在满足end端点检测的时耗需求的前提下尽可能地降低收音等待时长的目的。
式中,d′ w表示待使用语音等待时长;dw表示待参考语音等待时长;Tend表示音频延迟发送时长。
基于上述S2的相关内容可知,对于语音处理模块203来说,在该语音处理模块203获取到用户语义完整性表征信息之后,该语音处理模块203可以根据该用户语义完整性表征信息,推测出待使用语音等待时长,以使该待使用语音等待时长能够表示出针对用户当前次沉默的最大收音等待时长,如此能够实现基于用户已说内容的语义完整性动态地确定收音等待时长的目的,从而能够有效地避免因固定收音等待时长所导致的不良影响,进而有利于提高人机交互效果。
S3:若在当前语音片段的语音结束时刻之后的待使用语音等待时长内未获取到下一个语音片段,则语音处理模块203获取用户语音文本。
上述“当前语音片段的语音结束时刻”是指该当前语音片段中携带有语音信息的最后一帧音频数据的采集时刻。例如,如果当前语音片段为图6所示的“用户表述片段B”,则该当前语音片段的语音结束时刻可以是图6所示的被“用户表述片段B结束”这一字符串所标记的音频帧的采集时刻。
上述“在当前语音片段的语音结束时刻之后的待使用语音等待时长内”是指时间段[当前语音片段的语音结束时刻,该当前语音片段的语音结束时刻+待使用语音等待时长]。例如,如果当前语音片段为图6所示的“用户表述片段B”,而且待使用语音等待时长等于图6所示的“收音等待时长”所代表的时间长度,则上述“在当前语音片段的语音结束时刻之后的待使用语音等待时长内”可以是图6所示的被“收音等待时长”这一字符串所标记的这一时间段。
可见,对于语音处理模块203来说,在该语音处理模块203获取到待使用语音等待时长之后,该语音处理模块203可以检测在[当前语音片段的语音结束时刻,该当前语音片段的语音结束时刻+待使用语音等待时长]这一时间段内是否能够从VAD模块202中获取到携带有语音信息的音频数据,如果在这一时间段内没有获取到携带有语音信息的音频数据,则该语音处理模块203可以确定该用户已结束说话,从而可以确定无需再继续采集该用户的说话内容,故该语音处理模块203可以针对已获取到的用户已说内容进行后续操作(例如,语义理解操作和人机交互响应操作等);然而,如果在这一时间段内获取到了携带有语音信息的音频数据,则该语音处理模块203可以确定该用户仍在继续说话,从而可以确定需要继续采集该用户的说话内容,故该语音处理模块203可以将新接收的携带有语音信息的音频数据作为当前语音片段,并返回执行S1及其后续步骤,以实现下一轮语音处理过程,如此能够实现在保证不遗漏用户说话内容的前提下提高人机交互响应速度。
上文“用户语音文本”用于表示用户已说内容;而且该用户语音文本可以包括当前语音片段携带的语音信息(以及当前语音片段对应的历史语音片段携带的语音信息)。
另外,本申请实施例不限定用户语音文本的获取过程,例如,其具体可以为:若确定存在当前语音片段对应的历史语音片段,则语音处理模块203可以直接对当前语音片段、以及该当前语音片段对应的历史语音片段进行语音转写处理,得到用户语音文本。
此外,为了进一步提高语音处理效率,当上文“用户语义完整性表征信息的确定过程”采用S11-S12进行实施时,上述“用户语音文本的获取过程”具体可以为:语音处理模块203可以直接将待处理片段文本确定为用户语音文本即可。
需要说明的是,上述“待处理片段文本”的相关内容请参见上文S11。
基于上述S1至S3的相关内容可知,对于本申请实施例提供的语音处理模块203来说,在该语音处理模块203获取到由VAD模块202发送的当前语音片段之后,先由该语音处理模块203根据该当前语音片段(以及该当前语音片段对应的历史语音片段),确定用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性;再由该语音处理模块203根据该用户语义完整性表征信息,确定待使用语音等待时长,以使该待使用语音等待时长能够表示出在用户已说内容的基础上所确定的比较适用于等待下一个语音片段的最大等待时长,以便当确定在该当前语音片段的语音结束时刻之后的该待使用语音等待时长内未获取到下一个语音片段时,确定该用户结束说话,故可以获取用户语音文本,以使该用户语音文本包括该当前语音片段携带的语音信息(以及该当前语音片段对应的历史语音片段携带的语音信息),从而使得该用户语音文本能够表示出该用户的说话内容(例如,帮我打开氛围灯),以便后续由该语音处理模块203基于该用户语音文本,针对该用户做出相应的响应操作(例如,控制氛围灯打开等),如此能够实现基于用户已说内容的语义完整性动态地调整收音等待时长,从而能够克服基于固定收音等待时长进行收音控制的人机交互过程所存在的缺陷,进而能够有效地提高人机交互效果。
方法实施例二
实际上,对于一些应用领域(例如,智能控制、导航等人机交互领域)来说,在获取到用户语音文本之后,还需要基于该用户语音文本,向用户提供相应的反馈(例如,控制氛围灯打开等)。
基于此,本申请实施例还提供了语音处理方法的另一种可能的实施方式,在该实施方式中,该语音处理方法不仅包括上述S1-S3,可以还包括S4:
S4:语音处理模块203响应用户语音文本携带的人机交互请求。
本申请实施例中,在语音处理模块203获取到用户语音文本之后,该语音处理模块203可以针对该用户语音文本所携带的人机交互请求(例如,帮我打开一下氛围灯等请求),执行该人机交互请求对应的响应操作(例如,控制氛围灯打开等),以实现针对用户请求进行快速反馈的目的,如此能够实现人机交互的目的。
另外,本申请实施例不限定S4的实施方式,例如,其具体可以为:先由语音处理模块203针对用户语音文本进行语义理解处理,得到用户意图(例如,打开氛围灯);再由该语音处理模块203确定该用户意图对应的响应操作(例如,控制氛围灯打开等);最后,由该语音处理模块203通过执行该用户意图对应的响应操作的方式,实现与用户的人机交互过程。
基于上述S4的相关内容可知,对于语音处理模块203来说,在该语音处理模块203确定用户结束说话时,该语音处理模块203不仅可以直接获取携带有用户已说内容的用户语音文本,还可以立即针对该用户语音文本所携带的人机交互请求做出响应,如此能够提高人机交互的响应效率,从而有利于提高用户体验。
方法实施例三
发明人发现:对于自然语言来说,可以利用标点符号(例如,句号等)来标记一个具有完整语义内容的结束,如此使得判断一个文本数据是否具有完整语义的学习任务类似于判断一个文本数据的下一个字符是否为标点符号的学习任务。
基于此,为了更好地构建出具有语义完整性分析处理功能的第二语义完整识别模型,该第二语义完整识别模型可以借助判断该第二语义完整识别模型的输入文本的下一个字符位置上是否为标点符号的方式,来确定该输入文本具有完整语义的可能性,如此使得该第二语义完整识别模型可以采用语言模型(尤其是,单向语言模型)进行实施。
基于此可知,本申请实施例还提供了第二语义完整识别模型的一种实施方式,其具体可以为:采用现有的或者未来出现的任意一种单向语言模型(例如,单向的transformer模型,或者预训练语言模型(Gererate Pre-Training Model,GPT)等)进行实施。
需要说明的是,上述“单向的transformer模型”就是在经典transformer模型中的自注意力(self-attention)层添加一个掩码机制,以使每一个预测位只能看到该预测位及其之前的输入信息,看不到该预测位之后的信息。
另外,本申请实施例还提供了第二语义完整识别模型的构建方法的一种可能的实施方式,其具体可以包括步骤11-步骤12:
步骤11:利用至少一个第一样本文本、以及各第一样本文本的标点符号标注信息,对初始语言模型进行训练,得到标点符号识别模型。
其中,第一样本文本是指在构建标点符号识别模型时所需使用的文本数据;而且本申请实施例不限定该“第一样本文本”,例如,其可以是图7所示的“你好,今天天气好吗?”这一文本数据。
另外,本申请实施例不限定第一样本文本的获取方式,例如,其具体可以为:将从大量语料中摘取的一些文本数据,均作为第一样本文本。
上文“标点符号标注信息”用于表示一个文本数据中实际所具有的标点符号的相关信息(例如,该标点符号在该文本数据中所处位置),以使该标点符号标注信息能够提供出在构建标点符号识别模型时所需使用的先验信息。
另外,本申请实施例不限定标点符号标注信息的表示方式,例如,当第一样本文本为图7所示的“你好,今天天气好吗?”这一文本数据时,该第一样本文本的标点符号标注信息可以采用图7所示的[0,1,0,0,0,0,0,0,1,0]这一数据向量进行表示,以使该标点符号标注信息能够表示出该第一样本文本中每个字符的下一位字符是否为标点符号,以便后续能够在该标点符号标注信息的引导下,构建出一个具有标点符号识别功能(也就是,具有二分类功能)的机器学习模型。
另外,本申请实施例不限定上文“标点符号标注信息”的获取方式,例如,其具体可以为:按照预先设定的信息转化规则,将语料库中针对各第一样本文本所存储的标点符号描述信息,自动地转化成各个第一样本文本的标点符号标注信息,以使这些标点符号标注信息符合在构建标点符号识别模型时所需使用的先验信息的表达方式,如此能够有效地降低人工标注量。其中,标点符号描述信息用于描述一个文本数据中标点符号在该文本数据中所处位置。
上文“初始语言模型”用于预测该初始语言模型的输入数据(也就是,文本数据)的下一个字符。也就是,对于该初始语言模型(例如,图7所示的“通用预训练模型”等)来说,因该初始语言模型已经学习到了一些候选字符(例如,文字、或者标点符号等)与当前输入前文的共现概率,使得该初始语言模型能够针对该初始语言模型的输入文本预测出下一个字符是什么。
另外,本申请实施例不限定初始语言模型,例如,其可以采用现有的或者未来出现的任意一种单向语言模型(例如,类似于GPT的通用预训练模型)进行实施。
上述“标点符号识别模型”是根据训练好的初始语言模型确定的,以使该标点符号识别模型能够预测出该初始语言模型的输入数据(也就是,文本数据)的下一个字或者词是否为标点符号。可见,标点符号识别模型是一个二分类模型。
另外,本申请实施例不限定标点符号识别模型的构建过程(也就是,步骤11的实施方式),例如,可以采用现有的或者未来出现的任意一种机器学习模型构建方法进行实施。
实际上,为了进一步提高标点符号识别模型的构建效果,本申请实施例还提供了标点符号识别模型的构建过程的另一种可能的实施方式,其具体可以包括步骤111-步骤114:
步骤111:将各第一样本文本输入初始语言模型,得到该初始语言模型输出的各第一样本文本的标点符号识别结果。
其中,第k个第一样本文本的标点符号识别结果用于表示针对该第k个第一样本文本中各个字符的下一个字符是否为标点符号的预测结果;而且本申请实施例不限定该“第k个第一样本文本的标点符号识别结果”的表示方式,例如,其可以类似于上文“标点符号标注信息”的表示方式。k为正整数,k≤K,K为正整数,K表示第一样本文本的个数。
基于上述步骤111的相关内容可知,可以将该第k个第一样本文本输入初始语言模型,以使该初始语言模型能够针对该第k个第一样本文本进行标点符号预测处理,得到并输出该第k个第一样本文本的标点符号识别结果,以使该标点符号识别结果能够表示出针对该第k个第一样本文本中各个字符的下一个字符是否为标点符号的预测结果。其中,k为正整数,k≤K,K为正整数,K表示第一样本文本的个数。
步骤112:根据各第一样本文本的标点符号识别结果、各第一样本文本的标点符号标注信息、以及损失校正系数,确定初始语言模型的模型损失值。
其中,损失校正系数是指初始语言模型的模型损失函数中所涉及的具有校正功能的系数;而且该损失校正系数可以包括样例平衡系数和/或语义完整平衡系数。
上述“样例平衡系数”用于针对一个文本数据中文字多但标点符号少的现象进行平衡。
上述“语义完整平衡系数”用于针对大量标点符号所表征的语义完整可能性进行平衡;而且该语义完整平衡系数可以包括每种标点符号对应的语义完整表征值。
其中,第m种标点符号对应的语义完整表征值用于表示该第m种标点符号所表征的语义完整可能性;而且该第m种标点符号对应的语义完整表征值与该第m种标点符号所表征的语义完整可能性之间正相关。也就是,如果该第m种标点符号对应的语义完整表征值越大,则表示该第m种标点符号所表征的语义完整可能性越大;但是,如果该第m种标点符号对应的语义完整表征值越小,则表示该第m种标点符号所表征的语义完整可能性越小。m为正整数,m≤M,M为正整数,M表示标点符号的个数。
需要说明的是,实际上,有些标点符号(例如,句号等)可以完全等效于语义完整,但是有些标点符号(例如,逗号)却不一定等效于语义完整。例如,对于逗号来说,有时逗号之前的文本具有完整语义(如,“我很喜欢吃苹果,几乎每天都吃”这一文本数据);但是,有时逗号之前的文本不具有完整语义(如,“如果着火了,就要打火警电话”这一文本数据)。基于此,为了避免这种现象所造成的不良影响,本申请可以通过在模型损失函数中添加上文“语义完整平衡系数”的方式来尽可能地克服这种现象所造成的不良影响。
为了进一步理解上文“损失校正系数”,下面以结合示例进行说明。
作为示例,当上文“损失校正系数”包括样例平衡系数和语义完整平衡系数,而且步骤112所采用的基础损失函数为二分类的标准交叉熵时,步骤112所采用的改进后损失函数如公式(3)所示。
式中,L表示一个样本(例如,一个第一样本文本)的交叉熵;kc表示语义完整平衡系数,而且该语义完整平衡系数是根据该样本中实际标点符号的种类进行确定的(例如,如果该样本中实际标点符号为句号,则该语义完整平衡系数可以是句号对应的语义完整表征值(如,1);如果该样本中实际标点符号为逗号,则该语义完整平衡系数可以是逗号对应的语义完整表征值(如,0.5);……);y表示该样本的标点符号标注信息;表示该样本的标点符号识别结果;kl表示样例平衡系数,而且kl是一个小于1的固定值。
基于上述步骤112的相关内容可知,在获取到各个第一样本文本的标点符号识别结果之后,可以利用添加有损失校正系数的模型损失函数(例如,上文公式(3)所示的模型损失函数),计算这些第一样本文本的标点符号识别结果与这些第一样本文本的标点符号标注信息之间的差异性,得到初始语言模型的模型损失值,以使该模型损失值能够表示出该初始语言模型的模型预测性能。
步骤113:判断是否达到预设停止条件,若是,则执行步骤115;若否,则执行步骤114。
其中,预设停止条件用于表示预先设定的在停止训练初始语言模型时所达到的条件;而且本申请实施例不限定该预设停止条件,例如,其具体可以为初始语言模型的模型损失值低于第一阈值,也可以为该初始语言模型的模型损失值的变化率低于第二阈值,还可以为初始语言模型的更新次数达到第三阈值。
步骤114:根据初始语言模型的模型损失值,更新初始语言模型,并返回执行步骤111。
本申请实施例中,在确定当前轮的初始语言模型未达到预设停止条件时,可以确定该初始语言模型的模型预测性能比较差,故可以参考初始语言模型的模型损失值,更新初始语言模型,以使更新后的初始语言模型具有较好的模型预测性能,并利用更新后的初始语言模型重新执行步骤111及其后续步骤,以实现针对该初始语言模型的下一轮训练过程。
步骤115:根据初始语言模型,确定标点符号识别模型。
本申请实施例中,在确定当前轮的初始语言模型已达到预设停止条件时,可以确定该初始语言模型具有较好的模型预测性能,故可以直接根据该初始语言模型,确定标点符号识别模型(例如,可以直接将该初始语言模型,确定为标点符号识别模型;或者,根据该初始语言模型的模型结构以及模型参数,确定标点符号识别模型的模型结构以及模型参数,以使该标点符号识别模型的模型结构以及模型参数与该初始语言模型的模型结构以及模型参数保持一致),如此使得该标点符号识别模型也具有较好的模型预测性能。
基于上述步骤11的相关内容可知,在获取到一个用于预测当前输入的下一个字符的单向语言模型(例如,类似于GPT这样的预训练语言模型)之后,可以将该单向语言模型作为基础模型,并利用大量的标点符号训练数据(例如,大量第一样本文本及其标点符号标注信息)训练该基础模型,得到标点符号识别模型,以使该标点符号识别模型能够判断该标点符号识别模型的输入文本的下一个字符是否为标点符号,以便后续能够基于该标点符号识别模型,构建具有语义完整性分析处理功能的第二语义完整识别模型。
步骤12:根据标点符号识别模型,确定第二语义完整识别模型。
本申请实施例中,由于构建好的标点符号识别模型能够预测出该标点符号识别模型的输入数据的下一个字符是否为标点符号,而且大部分标点符号能够标记出一个具有完整语义信息的语句的结束,如此使得该标点符号识别模型的输出结果不仅能够直接地表示出该输入数据的下一个字符是否为标点符号,还能够间接地表示出该输入数据是否具有完整语义信息,从而使得该标点符号识别模型也具有语义完整性识别性能,故在获取到该标点符号识别模型之后,可以直接将该标点符号识别模型,确定为第二语义完整识别模型,以使该第二语义完整识别模型能够通过判断该第二语义完整识别模型的输入数据的下一个字符是否为标点符号的方式,确定出该输入数据是否具有完整语义(例如,如果确定该输入数据的下一个字符是标点符号,则可以确定该输入数据具有完整语义;如果该输入数据的下一个字符不是标点符号,则可以确定该输入数据不具有完整语义)。
实际上,对于同一个文本数据来说,在一些领域下可能是具有完整语义的,但是在另一些领域下可能不具有完整语义,故为了进一步提高语义完整分析效果,本申请实施例还提供了步骤12的另一种可能的实施方式,其具体可以为:利用目标领域下的至少一个第二样本文本、以及各第二样本文本的语义完整标注信息,对标点符号识别模型进行训练,得到第二语义完整识别模型。
其中,目标领域是指第二语义完整识别模型的应用领域(也就是,上文“当前语音片段”所属的应用领域)。例如,目标领域可以是导航这一应用领域。
另外,目标领域可以根据当前语音片段的应用领域描述信息进行确定;而且本申请实施例不限定该目标领域的确定过程,例如,其具体可以为:直接将该当前语音片段的应用领域描述信息所描述的应用领域,确定为目标领域。其中,当前语音片段的应用领域描述信息用于描述该当前语音片段所属的应用领域。
上文“第二样本文本”是指在构建第二语义完整识别模型时所需使用的目标领域下的文本数据;而且本申请实施例不限定该第二样本文本的获取方式,例如,其具体可以为:将从目标领域下大量语料资源中摘取出一些文本数据,均确定为第二样本文本,以使这些第二样本文本能够尽可能地代表该目标邻域下各种具有完整语义的文本数据。
上文“语义完整标注信息”用于表示一个文本数据实际上是否携带有完整的语义信息;而且本申请实施例不限定该语义完整标注信息的获取过程,例如,可以采用人工标注的方法进行实施。
另外,本申请实施例不限定上述“语义完整标注信息”的表示方式,例如,其可以类似于上文“标点符号标注信息”的表示方式进行实施。可见,当第二样本文本为图7所示的“你好,今天天气好吗?”这一文本数据时,该第二样本文本的语义完整标注信息可以采用图7所示的[0,0,0,0,0,0,0,0,1,0]这一数据向量进行表示,以使该语义完整标注信息能够表示出该第二样本文本是否具有完整语义(例如,“你好,今天天气好吗”这一文本内容具有完整语义;但是,“你”这一文本内容不具有完整语义;“你好”这一文本内容也不具有完整语义;……)。
实际上,因上文“标点符号识别模型”自身已经具有了一定的语义完整性分析处理功能,使得该标点符号识别模型能够作为一个粗略的适用于各个领域的具有语义完整性分析功能的机器学习模型,故为了使得该标点符号识别模型更适用于执行目标领域下的语义完整性分析处理功能,可以利用该目标领域下少量的第二样本文本及其语义完整标注信息,对该标点符号识别模型进行微调,得到第二语义完整识别模型,以使该第二语义完整识别模型能够更好地分析出目标领域下一个文本数据的语义完整性,从而使得该第二语义完整识别模型更适用于针对该目标领域下的文本数据进行语义完整性分析处理,如此有利于提高目标领域下语义完整性分析效果。
另外,本申请实施例不限定上述步骤“利用目标领域下的至少一个第二样本文本、以及各第二样本文本的语义完整标注信息,对标点符号识别模型进行训练,得到第二语义完整识别模型”的实施方式,例如,其可以采用上文步骤11的任一实施方式进行实施,只需将上文步骤11的任一实施方式中“第一样本文本”替换为“第二样本文本”、“标点符号标注信息”替换为“语义完整标注信息”、“标点符号识别模型”替换为“第二语义完整识别模型”、以及“初始语言模型”替换为“标点符号识别模型”即可,为了简要起见,在此不再赘述。
基于上述步骤11至步骤12的相关内容可知,在获取到一个用于预测当前输入的下一个字符的单向语言模型(例如,类似于GPT这样的预训练语言模型)之后,可以将该单向语言模型作为基础模型,并利用大量的标点符号训练数据(例如,大量第一样本文本及其标点符号标注信息)训练该基础模型,得到标点符号识别模型,以使该标点符号识别模型能够判断该标点符号识别模型的输入文本的下一个字符是否为标点符号。另外,因在自然语言中大部分标点符号通常被用于添加至一个具有完整语义的语句内容的尾部,使得针对该输入文本的标点符号识别结果基本上能够表示出该输入文本是否具有完整语义,从而使得该标点符号识别模型具有语义完整性分析处理功能,故为了可以参考该标点符号识别模型,构建出第二语义完整识别模型,以使该第二语义完整识别模型也具有语义完整性分析功能,以便后续能够利用该第二语义完整识别模型针对一个文本数据进行语义完整性分析处理。
需要说明的是,本申请实施例不限定上述“第二语义完整识别模型的构建方法”的执行主体,例如,其可以是语音处理模块203,也可以是独立于该语音处理模块203的其它电子设备(例如,服务器等),而且该电子设备能够与该语音处理模块203进行数据通信,以便该电子设备能够将构建好的第二语义完整识别模型发送至该语音处理模块203进行存储并使用。
基于上述方法实施例提供的语音处理方法,下面结合图2继续介绍语音处理系统的相关内容。
如图2所示,本申请实施例提供的语音处理系统200可以包括收音模块201、语音端点检测模块202、和语音处理模块203;
其中,所述收音模块201,用于采集当前语音片段,并将所述当前语音片段发送给所述语音端点检测模块202;
所述语音端点检测模块202用于在确定所述当前语音片段满足预设条件时,将所述当前语音片段发送至所述语音处理模块203;
所述语音处理模块203,用于执行本申请实施例提供的语音处理方法的任一实施方式。
为了便于理解,下面结合所述语音处理模块203的一些实施方式进行说明。
在一种可能的实施方式中,所述语音处理模块203,用于在获取到当前语音片段之后,根据所述当前语音片段,确定用户语义完整性表征信息;
所述语音处理模块203,还用于根据所述用户语义完整性表征信息,确定待使用语音等待时长;
所述语音处理模块203,还用于若在所述当前语音片段的语音结束时刻之后的所述待使用语音等待时长内未获取到下一个语音片段,则获取用户语音文本;其中,所述用户语音文本包括所述当前语音片段携带的语音信息。
在一种可能的实施方式中,所述语音处理模块203,具体用于若确定存在所述当前语音片段对应的历史语音片段,则根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理模块203,具体用于将所述当前语音片段、以及所述当前语音片段对应的历史语音片段输入预先构建的第一语义完整识别模型,得到所述第一语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理模块203,具体用于对所述当前语音片段、以及所述当前语音片段对应的历史语音片段进行语音转写处理,得到待处理片段文本;其中,所述待处理片段文本包括所述当前语音片段携带的语音信息、以及所述当前语音片段对应的历史语音片段携带的语音信息;根据所述待处理片段文本,确定所述用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理模块203,具体用于将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理模块203,具体用于按照预先设定的语义完整识别规则,对所述待处理片段文本进行语义完整识别处理,得到语义完整识别结果;根据所述语义完整识别结果,确定所述用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理模块203,具体用于若所述语义完整识别结果表示所述语义完整识别规则无法识别所述待处理片段文本,则将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理模块203,还用于利用至少一个第一样本文本、以及各所述第一样本文本的标点符号标注信息,对初始语言模型进行训练,得到标点符号识别模型;根据所述标点符号识别模型,确定所述第二语义完整识别模型。
在一种可能的实施方式中,所述语音处理模块203,具体用于利用目标领域下的至少一个第二样本文本、以及各所述第二样本文本的语义完整标注信息,对所述标点符号识别模型进行训练,得到所述第二语义完整识别模型;其中,所述目标领域是根据所述当前语音片段的应用领域描述信息进行确定的。
在一种可能的实施方式中,所述语音处理模块203,具体用于将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果;根据各所述第一样本文本的标点符号识别结果、各所述第一样本文本的标点符号标注信息、以及损失校正系数,确定所述初始语言模型的模型损失值;其中,所述损失校正系数包括样例平衡系数和/或语义完整平衡系数;根据所述初始语言模型的模型损失值,更新所述初始语言模型,并继续执行所述将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果的步骤,直至在达到预设停止条件时,根据所述初始语言模型,确定所述标点符号识别模型。
在一种可能的实施方式中,所述语音处理模块203,具体用于根据所述用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长;根据所述待参考语音等待时长,确定所述待使用语音等待时长。
在一种可能的实施方式中,所述语音处理模块203,具体用于若所述待参考语音等待时长不小于音频延迟发送时长,则将所述待参考语音等待时长,确定为所述待使用语音等待时长;若所述待参考语音等待时长小于音频延迟发送时长,则将所述音频延迟发送时长,确定为所述待使用语音等待时长。
在一种可能的实施方式中,所述用户语义完整性表征信息包括语义完整概率;
所述语音处理模块203,具体用于将所述预设等待时长上限与预设等待时长下限之间的差值,确定为时长差值;将所述时长差值与所述语义完整概率之间的乘积,确定为时长波动;将所述预设等待时长上限与所述时长波动之间的差值,确定为所述待参考语音等待时长。
在一种可能的实施方式中,所述语音处理模块203,还用于响应所述用户语音文本携带的人机交互请求。
基于上述语音处理系统200的相关内容可知,对于该语音处理系统200来说,在该语音处理系统200中语音处理模块203获取到由语音端点检测模块202发送的当前语音片段之后,先由该语音处理模块203根据该当前语音片段(以及该当前语音片段对应的历史语音片段),确定用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性;再由该语音处理模块203根据该用户语义完整性表征信息,确定待使用语音等待时长,以使该待使用语音等待时长能够表示出在用户已说内容的基础上所确定的比较适用于等待下一个语音片段的最大等待时长,以便当确定在该当前语音片段的语音结束时刻之后的该待使用语音等待时长内未获取到下一个语音片段时,确定该用户结束说话,故可以获取用户语音文本,以使该用户语音文本包括该当前语音片段携带的语音信息(以及该当前语音片段对应的历史语音片段携带的语音信息),从而使得该用户语音文本能够表示出该用户的说话内容(例如,帮我打开氛围灯),以便后续由该语音处理模块203基于该用户语音文本,针对该用户做出相应的响应操作(例如,控制氛围灯打开等),如此能够实现基于用户已说内容的语义完整性动态地调整收音等待时长,从而能够克服基于固定收音等待时长进行收音控制的人机交互过程所存在的缺陷,进而能够有效地提高人机交互效果。
需要说明的是,本申请实施例不限定上文语音处理模块203与上文语音端点检测模块202之间的部署分布关系,例如,这两个模块可以均部署在服务器侧,也可以均部署在用户终端侧,还可以将语音处理模块203部署在服务器侧,并将语音端点检测模块202部署在用户终端侧。
基于上述方法实施例提供的语音处理方法,本申请实施例还提供了一种语音处理装置,下面结合附图进行解释和说明。
装置实施例
装置实施例对语音处理装置进行介绍,相关内容请参见上述方法实施例。
参见图8,该图为本申请实施例提供的一种语音处理装置的结构示意图。
本申请实施例提供的语音处理装置800,包括:
完整性预测单元801,用于在获取到当前语音片段之后,根据所述当前语音片段,确定用户语义完整性表征信息;
时长确定单元802,用于根据所述用户语义完整性表征信息,确定待使用语音等待时长;
文本获取单元803,用于若在所述当前语音片段的语音结束时刻之后的所述待使用语音等待时长内未获取到下一个语音片段,则获取用户语音文本;其中,所述用户语音文本包括所述当前语音片段携带的语音信息。
在一种可能的实施方式中,所述完整性预测单元801,具体用于:若确定存在所述当前语音片段对应的历史语音片段,则根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息。
在一种可能的实施方式中,所述完整性预测单元801,具体用于:将所述当前语音片段、以及所述当前语音片段对应的历史语音片段输入预先构建的第一语义完整识别模型,得到所述第一语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述完整性预测单元801,包括:
语音转写子单元,用于对所述当前语音片段、以及所述当前语音片段对应的历史语音片段进行语音转写处理,得到待处理片段文本;其中,所述待处理片段文本包括所述当前语音片段携带的语音信息、以及所述当前语音片段对应的历史语音片段携带的语音信息;
完整性确定子单元,用于根据所述待处理片段文本,确定所述用户语义完整性表征信息。
在一种可能的实施方式中,所述完整性确定子单元,具体用于:将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述完整性确定子单元,包括:
规则识别子单元,用于按照预先设定的语义完整识别规则,对所述待处理片段文本进行语义完整识别处理,得到语义完整识别结果;
结果分析子单元,用于根据所述语义完整识别结果,确定所述用户语义完整性表征信息。
在一种可能的实施方式中,所述结果分析子单元,具体用于:若所述语义完整识别结果表示所述语义完整识别规则无法识别所述待处理片段文本,则将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
在一种可能的实施方式中,所述语音处理装置800,还包括:
模型构建单元,用于利用至少一个第一样本文本、以及各所述第一样本文本的标点符号标注信息,对初始语言模型进行训练,得到标点符号识别模型;
模型确定单元,用于根据所述标点符号识别模型,确定所述第二语义完整识别模型。
在一种可能的实施方式中,所述模型确定单元,具体用于:利用目标领域下的至少一个第二样本文本、以及各所述第二样本文本的语义完整标注信息,对所述标点符号识别模型进行训练,得到所述第二语义完整识别模型;其中,所述目标领域是根据所述当前语音片段的应用领域描述信息进行确定的。
在一种可能的实施方式中,所述模型构建单元,具体用于:将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果;根据各所述第一样本文本的标点符号识别结果、各所述第一样本文本的标点符号标注信息、以及损失校正系数,确定所述初始语言模型的模型损失值;其中,所述损失校正系数包括样例平衡系数和/或语义完整平衡系数;根据所述初始语言模型的模型损失值,更新所述初始语言模型,并继续执行所述将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果的步骤,直至在达到预设停止条件时,根据所述初始语言模型,确定所述标点符号识别模型。
在一种可能的实施方式中,所述时长确定单元802,包括:
时长推算子单元,用于根据所述用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长;
时长确定子单元,用于根据所述待参考语音等待时长,确定所述待使用语音等待时长。
在一种可能的实施方式中,所述时长确定子单元,具体用于:若所述待参考语音等待时长不小于音频延迟发送时长,则将所述待参考语音等待时长,确定为所述待使用语音等待时长;若所述待参考语音等待时长小于音频延迟发送时长,则将所述音频延迟发送时长,确定为所述待使用语音等待时长。
在一种可能的实施方式中,所述用户语义完整性表征信息包括语义完整概率;
所述时长推算子单元,具体用于:将所述预设等待时长上限与预设等待时长下限之间的差值,确定为时长差值;将所述时长差值与所述语义完整概率之间的乘积,确定为时长波动;将所述预设等待时长上限与所述时长波动之间的差值,确定为所述待参考语音等待时长。
在一种可能的实施方式中,所述语音处理装置800还包括:
请求响应单元,用于响应所述用户语音文本携带的人机交互请求。
基于上述语音处理装置800的相关内容可知,对于该语音处理装置800来说,在该语音处理装置800获取到当前语音片段之后,先由该语音处理装置800根据该当前语音片段(以及该当前语音片段对应的历史语音片段),确定用户语义完整性表征信息,以使该用户语义完整性表征信息能够表示出用户已说内容具有完整语义的可能性;再由该语音处理装置800根据该用户语义完整性表征信息,确定待使用语音等待时长,以使该待使用语音等待时长能够表示出在用户已说内容的基础上所确定的比较适用于等待下一个语音片段的最大等待时长,以便当确定在该当前语音片段的语音结束时刻之后的该待使用语音等待时长内未获取到下一个语音片段时,确定该用户结束说话,故可以获取用户语音文本,以使该用户语音文本包括该当前语音片段携带的语音信息(以及该当前语音片段对应的历史语音片段携带的语音信息),从而使得该用户语音文本能够表示出该用户的说话内容(例如,帮我打开氛围灯),以便后续由该语音处理装置800基于该用户语音文本,针对该用户做出相应的响应操作(例如,控制氛围灯打开等),如此能够实现基于用户已说内容的语义完整性动态地调整收音等待时长,从而能够克服基于固定收音等待时长进行收音控制的人机交互过程所存在的缺陷,进而能够有效地提高人机交互效果。
进一步地,本申请实施例还提供了一种设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语音处理方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音处理方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语音处理方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (18)
1.一种语音处理方法,其特征在于,所述方法包括:
在获取到当前语音片段之后,根据所述当前语音片段,确定用户语义完整性表征信息;
根据所述用户语义完整性表征信息,确定待使用语音等待时长;
若在所述当前语音片段的语音结束时刻之后的所述待使用语音等待时长内未获取到下一个语音片段,则获取用户语音文本;其中,所述用户语音文本包括所述当前语音片段携带的语音信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前语音片段,确定用户语义完整性表征信息,包括:
若确定存在所述当前语音片段对应的历史语音片段,则根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息,包括:
将所述当前语音片段、以及所述当前语音片段对应的历史语音片段输入预先构建的第一语义完整识别模型,得到所述第一语义完整识别模型输出的所述用户语义完整性表征信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述当前语音片段、以及所述当前语音片段对应的历史语音片段,确定用户语义完整性表征信息,包括:
对所述当前语音片段、以及所述当前语音片段对应的历史语音片段进行语音转写处理,得到待处理片段文本;其中,所述待处理片段文本包括所述当前语音片段携带的语音信息、以及所述当前语音片段对应的历史语音片段携带的语音信息;
根据所述待处理片段文本,确定所述用户语义完整性表征信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待处理片段文本,确定所述用户语义完整性表征信息,包括:
将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
6.根据权利要求4所述的方法,其特征在于,所述根据所述待处理片段文本,确定所述用户语义完整性表征信息,包括:
按照预先设定的语义完整识别规则,对所述待处理片段文本进行语义完整识别处理,得到语义完整识别结果;
根据所述语义完整识别结果,确定所述用户语义完整性表征信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述语义完整识别结果,确定所述用户语义完整性表征信息,包括:
若所述语义完整识别结果表示所述语义完整识别规则无法识别所述待处理片段文本,则将所述待处理片段文本输入预先构建的第二语义完整识别模型,得到所述第二语义完整识别模型输出的所述用户语义完整性表征信息。
8.根据权利要求5或7所述的方法,其特征在于,所述第二语义完整识别模型的构建过程,包括:
利用至少一个第一样本文本、以及各所述第一样本文本的标点符号标注信息,对初始语言模型进行训练,得到标点符号识别模型;
根据所述标点符号识别模型,确定所述第二语义完整识别模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述标点符号识别模型,确定所述第二语义完整识别模型,包括:
利用目标领域下的至少一个第二样本文本、以及各所述第二样本文本的语义完整标注信息,对所述标点符号识别模型进行训练,得到所述第二语义完整识别模型;其中,所述目标领域是根据所述当前语音片段的应用领域描述信息进行确定的。
10.根据权利要求8所述的方法,其特征在于,所述标点符号识别模型的确定过程,包括:
将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果;
根据各所述第一样本文本的标点符号识别结果、各所述第一样本文本的标点符号标注信息、以及损失校正系数,确定所述初始语言模型的模型损失值;其中,所述损失校正系数包括样例平衡系数和/或语义完整平衡系数;
根据所述初始语言模型的模型损失值,更新所述初始语言模型,并继续执行所述将各所述第一样本文本输入所述初始语言模型,得到所述初始语言模型输出的各所述第一样本文本的标点符号识别结果的步骤,直至在达到预设停止条件时,根据所述初始语言模型,确定所述标点符号识别模型。
11.根据权利要求1所述的方法,其特征在于,所述根据所述用户语义完整性表征信息,确定待使用语音等待时长,包括:
根据所述用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长;
根据所述待参考语音等待时长,确定所述待使用语音等待时长。
12.根据权利要求11所述的方法,其特征在于,所述根据所述待参考语音等待时长,确定所述待使用语音等待时长,包括:
若所述待参考语音等待时长不小于音频延迟发送时长,则将所述待参考语音等待时长,确定为所述待使用语音等待时长;
若所述待参考语音等待时长小于音频延迟发送时长,则将所述音频延迟发送时长,确定为所述待使用语音等待时长。
13.根据权利要求11所述的方法,其特征在于,所述用户语义完整性表征信息包括语义完整概率;
所述根据所述用户语义完整性表征信息、预设等待时长上限、以及预设等待时长下限,确定待参考语音等待时长,包括:
将所述预设等待时长上限与预设等待时长下限之间的差值,确定为时长差值;
将所述时长差值与所述语义完整概率之间的乘积,确定为时长波动;
将所述预设等待时长上限与所述时长波动之间的差值,确定为所述待参考语音等待时长。
14.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应所述用户语音文本携带的人机交互请求。
15.一种语音处理装置,其特征在于,包括:
完整性预测单元,用于在获取到当前语音片段之后,根据所述当前语音片段,确定用户语义完整性表征信息;
时长确定单元,用于根据所述用户语义完整性表征信息,确定待使用语音等待时长;
文本获取单元,用于若在所述当前语音片段的语音结束时刻之后的所述待使用语音等待时长内未获取到下一个语音片段,则获取用户语音文本;其中,所述用户语音文本包括所述当前语音片段携带的语音信息。
16.一种语音处理系统,其特征在于,所述系统包括收音模块、语音端点检测模块、和语音处理模块;
其中,所述收音模块,用于采集当前语音片段,并将所述当前语音片段发送给所述语音端点检测模块;
所述语音端点检测模块用于在确定所述当前语音片段满足预设条件时,将所述当前语音片段发送至所述语音处理模块;
所述语音处理模块,用于执行权利要求1-14任一项所述的语音处理方法。
17.一种设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至14任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210492998.6A CN114708856A (zh) | 2022-05-07 | 2022-05-07 | 一种语音处理方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210492998.6A CN114708856A (zh) | 2022-05-07 | 2022-05-07 | 一种语音处理方法及其相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708856A true CN114708856A (zh) | 2022-07-05 |
Family
ID=82176682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210492998.6A Pending CN114708856A (zh) | 2022-05-07 | 2022-05-07 | 一种语音处理方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708856A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
CN115620720A (zh) * | 2022-11-30 | 2023-01-17 | 零犀(北京)科技有限公司 | 会话静音的方法、装置、电子设备及计算机可读存储介质 |
CN117171300A (zh) * | 2023-09-01 | 2023-12-05 | 深圳市弘毅云佳科技有限公司 | 一种基于蓝牙技术的室内定位仿生交互方法及系统 |
WO2024012501A1 (zh) * | 2022-07-14 | 2024-01-18 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
-
2022
- 2022-05-07 CN CN202210492998.6A patent/CN114708856A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012501A1 (zh) * | 2022-07-14 | 2024-01-18 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
CN115620720A (zh) * | 2022-11-30 | 2023-01-17 | 零犀(北京)科技有限公司 | 会话静音的方法、装置、电子设备及计算机可读存储介质 |
CN117171300A (zh) * | 2023-09-01 | 2023-12-05 | 深圳市弘毅云佳科技有限公司 | 一种基于蓝牙技术的室内定位仿生交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210193176A1 (en) | Context-based detection of end-point of utterance | |
US11996097B2 (en) | Multilingual wakeword detection | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
US20230410833A1 (en) | User presence detection | |
CN114708856A (zh) | 一种语音处理方法及其相关设备 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
WO2017071182A1 (zh) | 一种语音唤醒方法、装置及系统 | |
JP2018523156A (ja) | 言語モデルスピーチエンドポインティング | |
CN113327609B (zh) | 用于语音识别的方法和装置 | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
US10854192B1 (en) | Domain specific endpointing | |
CN112825248A (zh) | 语音处理方法、模型训练方法、界面显示方法及设备 | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN112071310A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN113160854A (zh) | 语音交互系统、相关方法、装置及设备 | |
CN111816172A (zh) | 一种语音应答方法及装置 | |
CN111862943B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN113327596B (zh) | 语音识别模型的训练方法、语音识别方法和装置 | |
CN114299941B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN114171016B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
KR20200109841A (ko) | 자동 음성 인식 장치 | |
CN113555016A (zh) | 语音交互方法、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230504 Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Applicant before: IFLYTEK Co.,Ltd. |
|
TA01 | Transfer of patent application right |