CN110265018B - 一种连续发出的重复命令词识别方法 - Google Patents
一种连续发出的重复命令词识别方法 Download PDFInfo
- Publication number
- CN110265018B CN110265018B CN201910585869.XA CN201910585869A CN110265018B CN 110265018 B CN110265018 B CN 110265018B CN 201910585869 A CN201910585869 A CN 201910585869A CN 110265018 B CN110265018 B CN 110265018B
- Authority
- CN
- China
- Prior art keywords
- recognition
- confidence
- time
- threshold value
- adjacent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种连续发出的重复命令词识别方法,包括如下步骤:对命令词的置信度设置常规阈值和特殊阈值,对间隔时间设置时间阈值;S1对每次发出的命令词进行识别,任意一次识别的置信度达到常规阈值,判定识别正确;S2任意相邻2次命令词识别得到的置信度分别小于常规阈值,但之和达到特殊阈值,且相邻2次识别的识别内容相同,判定识别正确;所述相邻指两次识别之间的时间间隔小于时间阈值。采用本发明所述的连续发出的重复命令词识别方法,创新性地结合用户实际使用中的重复发声习惯,将相邻两个命令词关联起来进行整体评价置信度,提高语音识别的鲁棒性并改善了用户对语音控制产品的体验度。
Description
技术领域
本发明属于人工智能领域,涉及语音识别技术,具体涉及一种连续发出的重复命令词识别方法。
背景技术
语音识别(Automatic Speech Recognition,ASR)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。现有语音识别技术仍无法做到完全准确,置信度(ConfidenceMeasure,CM)是一种度量语音识别结果可靠性的技术,即让系统输出正确的识别结果,忽略不可靠的、很大概率上是错误的识别结果。在实际应用中,会遇到说话者带有口音或方言、说话不清楚等问题,导致本应该是正确的输出结果但置信度却很低,会被系统误判为错误识别。
对于许多用户,在发出语音指令后,如果看到设备没有即时响应,都会立即本能的重复发出语音指令,对于重复发出的语音指令,由于用户口音或发音习惯,在传统的单个语音识别模式下,仍然可能不被识别,降低了用户体验度。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种连续发出的重复命令词识别方法。
本发明所述连续发出的重复命令词识别方法,包括如下步骤:
对命令词的置信度设置常规阈值和特殊阈值,对间隔时间设置时间阈值;
S1对每次发出的命令词进行识别,任意一次识别的置信度达到常规阈值,判定识别正确;
S2任意相邻2次命令词识别得到的置信度分别小于常规阈值,但之和达到特殊阈值,且相邻2次识别的识别内容相同,判定识别正确; 所述相邻指两次识别之间的时间间隔小于时间阈值。
优选的,所述特殊阈值大于常规阈值,但小于2倍常规阈值。
优选的,所述步骤S1中识别时,只对置信度最高的识别内容进行判断。
优选的,所述步骤S2中的置信度之和是2次识别累积置信度之和最高的识别内容对应的置信度之和。
采用本发明所述的连续发出的重复命令词识别方法,创新性地结合用户实际使用中的重复发声习惯,将相邻两个命令词关联起来进行整体评价置信度,提高语音识别的鲁棒性并改善了用户对语音控制产品的体验度。
附图说明
图1为本发明所述连续发出的重复命令词识别方法的一种具体实施方式流程示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述连续发出的重复命令词识别方法,包括如下步骤:
对命令词的置信度设置常规阈值和特殊阈值,对间隔时间设置时间阈值;
S1对每次发出的命令词进行识别,任意一次识别的置信度达到常规阈值,判定识别正确;
S2任意相邻2次命令词识别得到的置信度分别小于常规阈值,但之和达到特殊阈值,且相邻2次识别的识别内容相同,判定识别正确; 所述相邻指两次识别之间的时间间隔小于时间阈值。
用户发出语音命令时,可能只发一次,也可能连续发出2次或更多次,本发明的典型实施方式针对连续两次发出的语音命令或任意相邻两次发出的语音命令;
例如对命令词“打开空调24度”的置信度设置常规阈值0.3,特殊阈值0.45,时间阈值1秒;
用户发出第一声语音命令时,如果第一次识别的识别内容“打开空调24度”的置信度为0.4,大于常规阈值,则直接执行命令。
如果第一次识别的识别内容置信度为0.2低于常规阈值,则系统等待至用户第二次发出命令词;
如果第二次识别的识别内容“打开空调24度”的置信度为0.4,大于常规阈值,则直接执行命令;
如果第二次识别的识别内容“打开空调24度”的置信度为0.2,小于常规阈值,则继续判断第二次与上一次,即第一次的时间间隔是否小于常规阈值,小于则认为属于步骤S2中的相邻,否则认为不属于相邻,不属于相邻时,要么退回初始状态,或等待是否还有后续语音命令词;例如客户连续发声三次,则可以取前两次,也可以取后两次进行综合判断。
判断出符合相邻的定义后,判断两次识别的置信度之和是否大于特殊阈值,如前所述,第一次和第二次的置信度分别为0.2,二者之和小于特殊阈值0.45,则不执行命令,如果第二次的置信度为0.25,则两次之和达到特殊阈值,则执行对应的命令。
对于每一次单次识别,可以只记录和判断识别度最高的识别内容,例如用户发音“打开空调24度”,可能被识别成 “打开空调20度”或“打开空调24度”,但“打开空调24度”对应的置信度最高,则在步骤S1的单次识别中,可以只记录和判断 “打开空调24度”这一识别内容对应的置信度。
但对于连续两次单次识别,则只判断2次识别累积置信度之和最高的置信度之和,例如对于客户连续发音“打开空调24度”,第一次发音的识别内容“打开空调20度”或“打开空调24度”对应的置信度分别为0.18和0.17,第二次发音的识别内容“打开空调20度”或“打开空调24度”对应的置信度分别为0.17和0.29,则两次识别的置信度之和最高的是“打开空调24度”这一识别内容,只对这一内容对应的置信度之和进行判断,发现其虽然两次发音都小于常规阈值,但两次之和大于特殊阈值,因此判断执行对应的命令打开空调24度。
采用本发明所述的连续发出的重复命令词识别方法,创新性地结合用户实际使用中的重复发声习惯,将相邻两个命令词关联起来进行整体评价置信度,提高语音识别的鲁棒性并改善了用户对语音控制产品的体验度。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (3)
1.一种连续发出的重复命令词识别方法,其特征在于,包括如下步骤:
对命令词的置信度设置常规阈值和特殊阈值,对间隔时间设置时间阈值;
S1对每次发出的命令词进行识别,任意一次识别的置信度达到常规阈值,判定识别正确;
S2任意相邻2次命令词识别得到的置信度分别小于常规阈值,但之和达到特殊阈值,且相邻2次识别的识别内容相同,判定识别正确; 所述相邻指两次识别之间的时间间隔小于时间阈值;
所述步骤S2中的置信度之和是2次识别累积置信度之和最高的识别内容对应的置信度之和。
2.如权利要求1所述的重复命令词识别方法,其特征在于,所述特殊阈值大于常规阈值,但小于2倍常规阈值。
3.如权利要求1所述的重复命令词识别方法,其特征在于,所述步骤S1中识别时,只对置信度最高的识别内容进行判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910585869.XA CN110265018B (zh) | 2019-07-01 | 2019-07-01 | 一种连续发出的重复命令词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910585869.XA CN110265018B (zh) | 2019-07-01 | 2019-07-01 | 一种连续发出的重复命令词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110265018A CN110265018A (zh) | 2019-09-20 |
CN110265018B true CN110265018B (zh) | 2022-03-04 |
Family
ID=67923636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910585869.XA Active CN110265018B (zh) | 2019-07-01 | 2019-07-01 | 一种连续发出的重复命令词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110265018B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160814B (zh) * | 2021-04-09 | 2022-09-09 | 深圳市腾远智拓电子有限公司 | 一种基于fpga的无线组网传输系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
CN103440867A (zh) * | 2013-08-02 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103700368A (zh) * | 2014-01-13 | 2014-04-02 | 联想(北京)有限公司 | 用于语音识别的方法、语音识别装置和电子设备 |
CN105094816A (zh) * | 2015-07-09 | 2015-11-25 | 北京君正集成电路股份有限公司 | 一种降低智能设备功耗的方法及智能设备 |
CN105788590A (zh) * | 2014-12-16 | 2016-07-20 | 展讯通信(上海)有限公司 | 语音识别方法及装置、移动终端 |
CN107430870A (zh) * | 2015-03-12 | 2017-12-01 | 索尼公司 | 低功率语音命令检测器 |
US9837080B2 (en) * | 2014-08-21 | 2017-12-05 | International Business Machines Corporation | Detection of target and non-target users using multi-session information |
CN108550365A (zh) * | 2018-02-01 | 2018-09-18 | 北京云知声信息技术有限公司 | 离线语音识别的阈值自适应调整方法 |
CN108630202A (zh) * | 2017-03-21 | 2018-10-09 | 株式会社东芝 | 语音识别装置、语音识别方法以及语音识别程序 |
CN108847219A (zh) * | 2018-05-25 | 2018-11-20 | 四川斐讯全智信息技术有限公司 | 一种唤醒词预设置信度阈值调节方法及系统 |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
CN109887507A (zh) * | 2019-04-22 | 2019-06-14 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060025995A1 (en) * | 2004-07-29 | 2006-02-02 | Erhart George W | Method and apparatus for natural language call routing using confidence scores |
JP5530729B2 (ja) * | 2009-01-23 | 2014-06-25 | 本田技研工業株式会社 | 音声理解装置 |
US9336769B2 (en) * | 2011-07-01 | 2016-05-10 | Nec Corporation | Relative semantic confidence measure for error detection in ASR |
CN103544140A (zh) * | 2012-07-12 | 2014-01-29 | 国际商业机器公司 | 一种数据处理方法、展示方法和相应的装置 |
WO2016139670A1 (en) * | 2015-03-05 | 2016-09-09 | Vocasee Technologies Ltd | System and method for generating accurate speech transcription from natural speech audio signals |
CN106297777B (zh) * | 2016-08-11 | 2019-11-22 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
US10169319B2 (en) * | 2016-09-27 | 2019-01-01 | International Business Machines Corporation | System, method and computer program product for improving dialog service quality via user feedback |
CN108197115B (zh) * | 2018-01-26 | 2022-04-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
CN108711430B (zh) * | 2018-04-28 | 2020-08-14 | 广东美的制冷设备有限公司 | 语音识别方法、智能设备及存储介质 |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
-
2019
- 2019-07-01 CN CN201910585869.XA patent/CN110265018B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
CN103440867A (zh) * | 2013-08-02 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103700368A (zh) * | 2014-01-13 | 2014-04-02 | 联想(北京)有限公司 | 用于语音识别的方法、语音识别装置和电子设备 |
US9837080B2 (en) * | 2014-08-21 | 2017-12-05 | International Business Machines Corporation | Detection of target and non-target users using multi-session information |
CN105788590A (zh) * | 2014-12-16 | 2016-07-20 | 展讯通信(上海)有限公司 | 语音识别方法及装置、移动终端 |
CN107430870A (zh) * | 2015-03-12 | 2017-12-01 | 索尼公司 | 低功率语音命令检测器 |
CN105094816A (zh) * | 2015-07-09 | 2015-11-25 | 北京君正集成电路股份有限公司 | 一种降低智能设备功耗的方法及智能设备 |
CN108630202A (zh) * | 2017-03-21 | 2018-10-09 | 株式会社东芝 | 语音识别装置、语音识别方法以及语音识别程序 |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
CN108550365A (zh) * | 2018-02-01 | 2018-09-18 | 北京云知声信息技术有限公司 | 离线语音识别的阈值自适应调整方法 |
CN108847219A (zh) * | 2018-05-25 | 2018-11-20 | 四川斐讯全智信息技术有限公司 | 一种唤醒词预设置信度阈值调节方法及系统 |
CN109887507A (zh) * | 2019-04-22 | 2019-06-14 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110265018A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI659409B (zh) | 一種語音端點檢測方法及語音辨識方法 | |
JP4709663B2 (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US7729920B2 (en) | Systems and methods for predicting consequences of misinterpretation of user commands in automated systems | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
US9224387B1 (en) | Targeted detection of regions in speech processing data streams | |
EP1050872A3 (en) | Method and system for selecting recognized words when correcting recognized speech | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
KR20010054622A (ko) | 음성 인식 시스템의 음성 인식률 향상 방법 | |
KR20060070603A (ko) | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 | |
CN109461436A (zh) | 一种语音识别发音错误的纠正方法及系统 | |
US20120078622A1 (en) | Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN110265018B (zh) | 一种连续发出的重复命令词识别方法 | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
JP3876703B2 (ja) | 音声認識のための話者学習装置及び方法 | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
JP2021033228A (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
KR20120046627A (ko) | 화자 적응 방법 및 장치 | |
KR102417899B1 (ko) | 차량의 음성인식 시스템 및 방법 | |
CN112102812B (zh) | 一种基于多声学模型的防误唤醒方法 | |
KR100677224B1 (ko) | 안티워드 모델을 이용한 음성인식 방법 | |
KR20200129007A (ko) | 발화검증 장치 및 발화검증 방법 | |
JP2000214879A (ja) | 音声認識装置の適応化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |