CN110265018B

CN110265018B - 一种连续发出的重复命令词识别方法

Info

Publication number: CN110265018B
Application number: CN201910585869.XA
Authority: CN
Inventors: 许兵; 何云鹏; 高君效
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2022-03-04
Anticipated expiration: 2039-07-01
Also published as: CN110265018A

Abstract

一种连续发出的重复命令词识别方法,包括如下步骤：对命令词的置信度设置常规阈值和特殊阈值，对间隔时间设置时间阈值；S1对每次发出的命令词进行识别，任意一次识别的置信度达到常规阈值，判定识别正确；S2任意相邻2次命令词识别得到的置信度分别小于常规阈值，但之和达到特殊阈值，且相邻2次识别的识别内容相同，判定识别正确；所述相邻指两次识别之间的时间间隔小于时间阈值。采用本发明所述的连续发出的重复命令词识别方法，创新性地结合用户实际使用中的重复发声习惯，将相邻两个命令词关联起来进行整体评价置信度，提高语音识别的鲁棒性并改善了用户对语音控制产品的体验度。

Description

一种连续发出的重复命令词识别方法

技术领域

本发明属于人工智能领域，涉及语音识别技术，具体涉及一种连续发出的重复命令词识别方法。

背景技术

语音识别（Automatic Speech Recognition，ASR）是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。现有语音识别技术仍无法做到完全准确，置信度（ConfidenceMeasure，CM）是一种度量语音识别结果可靠性的技术，即让系统输出正确的识别结果，忽略不可靠的、很大概率上是错误的识别结果。在实际应用中，会遇到说话者带有口音或方言、说话不清楚等问题，导致本应该是正确的输出结果但置信度却很低，会被系统误判为错误识别。

对于许多用户，在发出语音指令后，如果看到设备没有即时响应，都会立即本能的重复发出语音指令，对于重复发出的语音指令，由于用户口音或发音习惯，在传统的单个语音识别模式下，仍然可能不被识别，降低了用户体验度。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种连续发出的重复命令词识别方法。

本发明所述连续发出的重复命令词识别方法,包括如下步骤：

对命令词的置信度设置常规阈值和特殊阈值，对间隔时间设置时间阈值；

S1对每次发出的命令词进行识别，任意一次识别的置信度达到常规阈值，判定识别正确；

S2任意相邻2次命令词识别得到的置信度分别小于常规阈值，但之和达到特殊阈值，且相邻2次识别的识别内容相同，判定识别正确；所述相邻指两次识别之间的时间间隔小于时间阈值。

优选的，所述特殊阈值大于常规阈值，但小于2倍常规阈值。

优选的，所述步骤S1中识别时，只对置信度最高的识别内容进行判断。

优选的，所述步骤S2中的置信度之和是2次识别累积置信度之和最高的识别内容对应的置信度之和。

采用本发明所述的连续发出的重复命令词识别方法，创新性地结合用户实际使用中的重复发声习惯，将相邻两个命令词关联起来进行整体评价置信度，提高语音识别的鲁棒性并改善了用户对语音控制产品的体验度。

附图说明

图1为本发明所述连续发出的重复命令词识别方法的一种具体实施方式流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述连续发出的重复命令词识别方法,包括如下步骤：

用户发出语音命令时，可能只发一次，也可能连续发出2次或更多次，本发明的典型实施方式针对连续两次发出的语音命令或任意相邻两次发出的语音命令；

例如对命令词“打开空调24度”的置信度设置常规阈值0.3，特殊阈值0.45，时间阈值1秒；

用户发出第一声语音命令时，如果第一次识别的识别内容“打开空调24度”的置信度为0.4，大于常规阈值，则直接执行命令。

如果第一次识别的识别内容置信度为0.2低于常规阈值，则系统等待至用户第二次发出命令词；

如果第二次识别的识别内容“打开空调24度”的置信度为0.4，大于常规阈值，则直接执行命令；

如果第二次识别的识别内容“打开空调24度”的置信度为0.2，小于常规阈值，则继续判断第二次与上一次，即第一次的时间间隔是否小于常规阈值，小于则认为属于步骤S2中的相邻，否则认为不属于相邻，不属于相邻时，要么退回初始状态，或等待是否还有后续语音命令词；例如客户连续发声三次，则可以取前两次，也可以取后两次进行综合判断。

判断出符合相邻的定义后，判断两次识别的置信度之和是否大于特殊阈值，如前所述，第一次和第二次的置信度分别为0.2，二者之和小于特殊阈值0.45，则不执行命令，如果第二次的置信度为0.25，则两次之和达到特殊阈值，则执行对应的命令。

对于每一次单次识别，可以只记录和判断识别度最高的识别内容，例如用户发音“打开空调24度”，可能被识别成 “打开空调20度”或“打开空调24度”，但“打开空调24度”对应的置信度最高，则在步骤S1的单次识别中，可以只记录和判断 “打开空调24度”这一识别内容对应的置信度。

但对于连续两次单次识别，则只判断2次识别累积置信度之和最高的置信度之和，例如对于客户连续发音“打开空调24度”，第一次发音的识别内容“打开空调20度”或“打开空调24度”对应的置信度分别为0.18和0.17，第二次发音的识别内容“打开空调20度”或“打开空调24度”对应的置信度分别为0.17和0.29，则两次识别的置信度之和最高的是“打开空调24度”这一识别内容，只对这一内容对应的置信度之和进行判断，发现其虽然两次发音都小于常规阈值，但两次之和大于特殊阈值，因此判断执行对应的命令打开空调24度。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种连续发出的重复命令词识别方法,其特征在于,包括如下步骤：

S2任意相邻2次命令词识别得到的置信度分别小于常规阈值，但之和达到特殊阈值，且相邻2次识别的识别内容相同，判定识别正确；所述相邻指两次识别之间的时间间隔小于时间阈值；

所述步骤S2中的置信度之和是2次识别累积置信度之和最高的识别内容对应的置信度之和。

2.如权利要求1所述的重复命令词识别方法，其特征在于，所述特殊阈值大于常规阈值，但小于2倍常规阈值。

3.如权利要求1所述的重复命令词识别方法，其特征在于，所述步骤S1中识别时，只对置信度最高的识别内容进行判断。