CN106910498A - 提高语音控制命令词识别率的方法 - Google Patents
提高语音控制命令词识别率的方法 Download PDFInfo
- Publication number
- CN106910498A CN106910498A CN201710118454.2A CN201710118454A CN106910498A CN 106910498 A CN106910498 A CN 106910498A CN 201710118454 A CN201710118454 A CN 201710118454A CN 106910498 A CN106910498 A CN 106910498A
- Authority
- CN
- China
- Prior art keywords
- word
- combination
- permutation
- words
- control command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000012850 discrimination method Methods 0.000 claims 2
- 238000005194 fractionation Methods 0.000 abstract 1
- 239000000047 product Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音命令词识别领域,特别是涉及到一种提高语音控制命令词识别率的方法,该方法将语音控制命令词按字进行拆分,然后将拆分后的字组成若干个排列组合,使得系统识别到上述若干个排列组合中的任意一个组合即可认为该排列组合的命令词有效,本发明通过识别部分语音控制命令词即可完成整条语音控制命令词的识别工作,降低了外界突发噪音干扰对完整语音控制命令词识别错误的概率,减少用户对命令词中个别字发音不准导致识别错误的情况,提高了语音控制命令词的识别率。
Description
技术领域
本发明涉及语音命令词识别领域,特别是涉及到一种提高语音控制命令词识别率的方法。
背景技术
目前语音识别作为一种常用的人机交互技术,已广泛应用于各类电子产品中,以其自然方便的交互方式收到了消费者的喜爱,逐渐成为了智能产品时代的主流交互控制方式,语音识别目前有两类方式,一类是在线的自由对讲方式,用户使用时可以随意讲话,由产品设备采集到用户讲话内容,通过网络上传到云端服务器进行语义分析理解,解析出用户的用意,再通过网络传到产品设备中进行相应的操作控制,这种方式优点在于用户可自由讲话,比较接近人们的日常生活习惯,但缺点在于需要网络才能使用,且因涉及到需要上传语音数据,安全性较差,考虑到这一种方式的缺点,目前很多功能性的产品设备如空调、抽油烟机等设备都采用了另一类语音识别的方式,即通过离线的语音控制命令词的识别,进行产品设备的功能控制,该类方式无需使用网络,具有响应速度快,控制简单等优点,但需要事先设定好语音控制命令词,产品设备需识别到完整的语音控制命令词后才会响应,而在实际的产品设备应用环境中经常有遇到突发噪音或用户个别字发音不准等情况,可能会造成语音控制命令词无法识别,降低了整体的语音识别率。
为解决上述问题,需要发明一种通过识别部分语音控制命令词即可完成整条语音控制命令词的识别工作的提高语音控制命令词识别率的方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种能提高语音控制命令词识别率的方法。
为了达到上述目的,本发明提供了如下技术方案。
提高语音控制命令词识别率的方法,其包括以下步骤:
步骤一 设定语音控制命令词的字数为N;
步骤二 对所述语音控制命令词所包含的字进行编号,依次为1号字至N号字;
步骤三 将所述1号字至N号字进行排列组合,形成M个排列组合;
步骤四 将所述M个排列组合规定为有效识别的命令词;
步骤五 将外部输入语音信号与所述M个排列组合进行比对;
步骤六 所述输入语音信号与所述M个排列组合中任意一个排列组合相符时执行所述语音控制命令词,所述输入语音信号与所述M个排列组合中任意一个排列组合都不相符时,进入下一步骤;
步骤七 识别结束。
作为本发明的优选方案,所述语音控制命令词的字数N为大于等于2的正整数,所述M个排列组合的M为大于等于2的正整数。
作为本发明的优选方案,所述M个排列组合依次为:
排列组合1:1号字至N号字;
排列组合2:1号字至N-1号字;
排列组合3:2号字至N号字;
排列组合4:1号字,3号字至N号字;
……
排列组合M:2号字至N-2号字,N号字。
所述M个排列组合都根据所述M个排列组合中的每个字的发音来确定。
与现有技术相比,本发明的有益效果:
本发明使用了多样组合的有效命令词进行语音识别,用户在实际使用时遇到突发声音遮挡了部分字或对部分字的发音不太准确时也能正常准确的识别到设定的语音控制命令词,极大的提高了语音控制命令词的识别率。
附图说明
图1为本发明流程图图;
图2为本发明排列组合示意图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,提高语音控制命令词识别率的方法,其包括以下步骤:
步骤一 设定语音控制命令词的字数为5;
步骤二 对语音控制命令词所包含的字进行编号,依次为1号字至5号字;
步骤三 将1号字至5号字进行排列组合,形成M个排列组合;
步骤四 将M个排列组合规定为有效识别的命令词;
步骤五 将外部输入语音信号与M个排列组合进行比对;
步骤六 外部输入语音信号与M个排列组合中任意一个相符时执行所述语音控制命令词,外部输入语音信号与M个排列组合中任意一个都不相符时,进入下一步骤;
步骤七 识别结束。
如图2所示,M个排列组合依次为:
排列组合1:1号字至5号字;
排列组合2:1号字至4号字;
排列组合3:2号字至5号字;
排列组合4:1号字,3号字至5号字;
……
排列组合M:2号字至3号字,5号字。
在本实施例中的语音控制命令词为“请打开灯光”,则“请打开灯光”可以形成 “请打开灯光”、“打开灯光”、“请打开灯”、“打开灯”、“请打开”+“光”、“打开”+“光”等排列组合,当外部输入语音信号与上述排列组合中的任意组合相符时就执行“请打开灯光”这条语音控制命令词。
Claims (3)
1.提高语音控制命令词识别率的方法,其包括以下步骤:
步骤一 设定语音控制命令词的字数为N;
步骤二 对所述语音控制命令词所包含的字进行编号,依次为1号字至N号字;
步骤三 将所述1号字至N号字进行排列组合,形成M个排列组合;
步骤四 将所述M个排列组合规定为有效识别的命令词;
步骤五 将外部输入语音信号与所述M个排列组合进行比对;
步骤六 所述输入语音信号与所述M个排列组合中任意一个相符时执行所述语音控制命令词,所述输入语音信号与所述M个排列组合中任意一个都不相符时,进入下一步骤;
步骤七 识别结束。
2.根据权利要求1所述的提高语音控制命令词识别率的方法,其特征在于:所述语音控制命令词的字数N为大于等于2的正整数,所述M个排列组合的M为大于等于2的正整数。
3.根据权利要求2所述的提高语音控制命令词识别率的方法,其特征在于:所述M个排列组合依次为:
排列组合1:1号字至N号字;
排列组合2:1号字至N-1号字;
排列组合3:2号字至N号字;
排列组合4:1号字,3号字至N号字;
……
排列组合M:2号字至N-2号字,N号字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710118454.2A CN106910498A (zh) | 2017-03-01 | 2017-03-01 | 提高语音控制命令词识别率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710118454.2A CN106910498A (zh) | 2017-03-01 | 2017-03-01 | 提高语音控制命令词识别率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106910498A true CN106910498A (zh) | 2017-06-30 |
Family
ID=59185962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710118454.2A Pending CN106910498A (zh) | 2017-03-01 | 2017-03-01 | 提高语音控制命令词识别率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106910498A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920125A (zh) * | 2018-04-03 | 2018-11-30 | 北京小蓦机器人技术有限公司 | 一种用于确定语音识别结果的方法与设备 |
CN110989963A (zh) * | 2019-11-22 | 2020-04-10 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
CN111354349A (zh) * | 2019-04-16 | 2020-06-30 | 深圳市鸿合创新信息技术有限责任公司 | 一种语音识别方法及装置、电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101109988A (zh) * | 2007-08-31 | 2008-01-23 | 北京腾拓科技有限公司 | 一种利用自然语言设置和操作可控对象的方法和系统 |
CN101290767A (zh) * | 2007-04-20 | 2008-10-22 | 华硕电脑股份有限公司 | 具有语音识别功能的便携式计算机与其处理方法 |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
CN102253931A (zh) * | 2010-05-20 | 2011-11-23 | 英业达股份有限公司 | 具词汇对照标示的语句翻译系统及其方法 |
CN103077714A (zh) * | 2013-01-29 | 2013-05-01 | 华为终端有限公司 | 信息的识别方法和装置 |
CN103377226B (zh) * | 2012-04-25 | 2016-08-03 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
-
2017
- 2017-03-01 CN CN201710118454.2A patent/CN106910498A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290767A (zh) * | 2007-04-20 | 2008-10-22 | 华硕电脑股份有限公司 | 具有语音识别功能的便携式计算机与其处理方法 |
CN101109988A (zh) * | 2007-08-31 | 2008-01-23 | 北京腾拓科技有限公司 | 一种利用自然语言设置和操作可控对象的方法和系统 |
CN101599270A (zh) * | 2008-06-02 | 2009-12-09 | 海尔集团公司 | 语音服务器及语音控制的方法 |
CN102253931A (zh) * | 2010-05-20 | 2011-11-23 | 英业达股份有限公司 | 具词汇对照标示的语句翻译系统及其方法 |
CN103377226B (zh) * | 2012-04-25 | 2016-08-03 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
CN103077714A (zh) * | 2013-01-29 | 2013-05-01 | 华为终端有限公司 | 信息的识别方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920125A (zh) * | 2018-04-03 | 2018-11-30 | 北京小蓦机器人技术有限公司 | 一种用于确定语音识别结果的方法与设备 |
CN108920125B (zh) * | 2018-04-03 | 2019-10-18 | 北京小蓦机器人技术有限公司 | 一种用于确定语音识别结果的方法与设备 |
CN111354349A (zh) * | 2019-04-16 | 2020-06-30 | 深圳市鸿合创新信息技术有限责任公司 | 一种语音识别方法及装置、电子设备 |
CN110989963A (zh) * | 2019-11-22 | 2020-04-10 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schuller et al. | The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates | |
US10902843B2 (en) | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier | |
CN108520743B (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
US10249292B2 (en) | Using long short-term memory recurrent neural network for speaker diarization segmentation | |
CN106331893B (zh) | 实时字幕显示方法及系统 | |
EP3246915A1 (en) | Voice recognition system and method of robot system | |
CN103745722A (zh) | 一种语音交互智能家居系统及语音交互方法 | |
CN106847291A (zh) | 一种本地和云端相结合的语音识别系统及方法 | |
CN109377995B (zh) | 一种控制设备的方法与装置 | |
CN106910498A (zh) | 提高语音控制命令词识别率的方法 | |
CN105632493A (zh) | 一种通过语音控制和唤醒机器人的方法 | |
US11580994B2 (en) | Speech recognition | |
CN103198829A (zh) | 一种降低车内噪音提高语音识别率的方法、装置和设备 | |
CN116601598A (zh) | 基于检测序列的热门短语触发 | |
Barker et al. | Speech fragment decoding techniques for simultaneous speaker identification and speech recognition | |
WO2022141990A1 (zh) | 家电设备及其语音控制方法、语音装置、计算机存储介质 | |
CN112700767B (zh) | 人机对话打断方法及装置 | |
CN110503943A (zh) | 一种语音交互方法以及语音交互系统 | |
CN112185425B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN113077812B (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
CN107886940A (zh) | 语音翻译处理方法及装置 | |
CN109634554B (zh) | 用于输出信息的方法和装置 | |
WO2022236111A1 (en) | Real-time accent conversion model | |
CN112185374A (zh) | 一种确定语音意图的方法及装置 | |
CN112885341A (zh) | 一种语音唤醒方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170630 |
|
WD01 | Invention patent application deemed withdrawn after publication |