CN113192501B - 一种指令词识别方法及装置 - Google Patents
一种指令词识别方法及装置 Download PDFInfo
- Publication number
- CN113192501B CN113192501B CN202110386410.4A CN202110386410A CN113192501B CN 113192501 B CN113192501 B CN 113192501B CN 202110386410 A CN202110386410 A CN 202110386410A CN 113192501 B CN113192501 B CN 113192501B
- Authority
- CN
- China
- Prior art keywords
- instruction word
- recognition
- word
- instruction
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 208000006011 Stroke Diseases 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000007664 blowing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及音频识别技术领域,尤其涉及一种指令词识别方法、装置、计算设备及计算机可读存储介质。包括:对采集的音频信号进行语音识别,得到第一指令词;确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。如此,避免了在用户发出的指令是相似词,而智能设备误识别为第一指令词的情况。有效降低了指令识别的误识别率。
Description
技术领域
本发明实施例涉及音频识别技术领域,尤其涉及一种指令词识别方法、装置、计算设备及计算机可读存储介质。
背景技术
随着人工智能的快速发展,很多智能设备可以通过声音进行控制。例如,当用户对空调说出指令词“低风”,则空调会对指令词进行识别,最终按照指令词的指示触发相应的功能。一般来说,进行语音识别的过程是,声学模型计算输入语音每一帧属于各个状态的概率,然后解码器根据状态概率计算出相应的音素序列,最后通过语言模型将音素序列转成文字。
然而在低成本的嵌入式、离线、少参数量、多指令词的语音识别任务中常规的解码方法存在着诸多问题。在该条件下,声学模型受限于有限的数据量和参数量,在训练过程中的数据不平衡和分类难易不平衡问题很难被彻底解决。在解码过程中便会存在如下问题:例如,当用户说出指令词“上下扫风打开”,空调识别为“低风”;当用户说出指令词“送风模式”,空调识别为“中风”等。
解决上述问题的方法通常是在解码过程中压低“低风”和“中风”的阈值,可以理解为对识别“低风”、“中风”这类指令词的要求比其他指令词更加严格,然而这样做虽然降低了其他词对该指令词的误触发率,然而该词本身的识别率也会大大降低。
综上,目前亟需一种指令词识别方法,用以解决指令词识别中解码精度低,误识别率高的问题。
发明内容
本发明实施例提供一种指令词识别方法,用以解决指令词识别中解码精度低,误识别率高的问题。
本发明实施例提供一种指令词识别方法,包括:
对采集的音频信号进行语音识别,得到第一指令词;
确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;
确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;
若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。
由于在实际操作中,存在一些指令词易被误识别为第一指令词的问题,因而将这些指令词预设为第一指令词的相似词,使得智能设备在识别到第一指令词后,先将第一指令词的识别概率与其对应的相似词的识别概率进行比较,若第一指令词的识别概率不小于相似词的识别概率,才会输出第一指令词。如此,避免了在用户发出的指令是相似词,而智能设备误识别为第一指令词的情况。有效降低了指令识别的误识别率。
可选地,所述方法还包括:若所述第一识别概率小于所述第二识别概率,则返回对采集的音频信号进行语音识别的步骤,直至输出第二指令词或语音识别结束。
若第一识别概率小于第二识别概率,说明第一指令词很有可能不是用户发出的指令,因此并不会输出这个已经识别出的第一指令词。而是需要继续采集音频信号进行语音识别,直至识别出第二指令词或识别结束,如此,进一步保证了语音识别的准确性。
可选地,对采集的音频信号进行语音识别,得到第一指令词,包括:
对采集的音频信号中的前N帧进行语音识别,得到第一指令词;
返回对采集的音频信号进行语音识别的步骤,直至输出第二指令词或语音识别结束,包括:
若采集的音频信号中第N帧之后的连续M帧存在非静音音素,则对第N帧之后的M帧进行语音识别,输出所述第二指令词。
首先对音频信号的前N帧进行识别得到第一指令词,若经过判断后得出第一指令词的相似词的识别概率大于第一指令词的识别概率,则说明第一指令词很有可能不是用户发出的指令,因此并不会输出这个已经识别出的第一指令词。若此时再判断第N帧后的连续M帧存在非静音音素,则说明用户在第N帧时还未说完指令,因此继续对第N帧之后的M帧进行语音识别,此时识别出第二指令词。如此,便使得解码器考虑到了一个指令词完整的信息才做出最终的判断,即便前几个音素被识别错误最终也很可能会输出正确的指令词,降低了对声学模型的要求。
可选地,所述方法还包括:
若所述第一指令词不存在对应的第一相似词,则输出所述第一指令词。
若第一指令词不存在对应的相似词,说明没有相似词易被误识别为第一指令词,第一指令词的识别准确度很高,则可输出第一指令词,如此保证了指令识别的效率。
可选地,对采集的音频信号进行语音识别,得到第一指令词,包括:
针对采集的音频信号中的任一音频帧,确定所述音频帧在各指令词对应的各音素的子概率;
根据各音频帧在各指令词对应的各音素的子概率,确定出识别概率最高的指令词;
若所述识别率最高的指令词满足第一识别阈值,则确定得到第一指令词。
通过先对任一帧上各音素的子概率进行分析,然后据此计算出各指令词的识别概率,再将识别概率最高的指令词与其对应的第一识别阈值进行比较,若满足阈值要求,则确定该指令词为第一指令词。
可选地,通过如下方式确定与所述第一指令词存在发音相似关系的所述第一相似词,包括:
确定被误识别为所述第一指令词的第三指令词;
将所述第三指令词中被误识别的音素序列作为所述第一指令词的第一相似词。
若第三指令词易被误识别为第一指令词,则可将第三指令词中易被误识别的音素序列作为第一指令词的相似词,如此,降低了第三指令词的误识别率。
可选地,所述方法包括:
确定所述第一识别概率满足第二识别阈值时,从所述第一指令词对应的k个相似词中选取p个与第一指令词相似度最高的相似词,作为所述第一相似词。
若计算得到第一指令词的第一识别概率非常大,满足第二识别阈值,则说明第一指令词为用户发出的指令的可能性非常高,则只需将第一指令词对应的k个相似词中选取p个作为第一相似词进行后续的比较即可。如此,节省了计算资源,提高了指令识别的效率。
本发明实施例还提供一种指令词识别装置,包括:
处理单元,用于对采集的音频信号进行语音识别,得到第一指令词;
确定单元,用于确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;
确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;
所述处理单元,还用于若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列指令词识别的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的指令词识别的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示例性地示出了经过声学模型计算后得到的音频帧属于各个音素的子概率;
图2示出了一段语音的解码过程;
图3示出了一种可能的指令词识别方法;
图4示出了两种可能的第一识别概率和第二识别概率的关系;
图5为本发明实施例中所涉及到的整体性流程的示意图;
图6为本发明实施例提供的一种指令词识别装置。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
一般来说,进行语音识别的过程是,首先声学模型计算音频信号中每一音频帧属于各个音素的子概率。图1以一个音频帧为例,示例性地示出了经过声学模型计算后得到该音频帧属于各个音素的子概率。组成指令词的音素分别有:105 139 175 92 180 135 90180 177 183 196 159(为了便于描述,仅举出以上音素,实际组成指令词的音素非常多),根据图1可以看出该音频帧中属于各个音素的子概率。
然后将经过声学模型处理后得到的音频帧逐帧输入解码器中,每输入一帧,解码器根据各音频帧中各音素的子概率,算出在该帧时,各个指令词的音素序列对应的识别概率。以空调为例,图2示出了一段语音的解码过程。各指令词的音素序列如表1所示。
指令词 | 音素序列 |
“低风” | 105 139 135 90 180 |
“冷风模式” | 175 92 180 135 90 180 177 183 196 159 |
“中风” | 221 208 180 135 90 180 |
“送风模式” | 192 208 180 135 90 180 177 183 196 159 |
表1
为了简化描述,仅以“低风”和“冷风模式”为例,当输入第5帧时,“低风”和“冷风模式”的音素序列都不完整,路径不完整,因而均无法计算二者的识别效率,如图2中所示;当输入第6帧时,“低风”的音素序列完整,解码器计算得到的“低风”的识别概率为0.8,而“冷风模式”由于音素序列没有走完整,因而依然无法得到其识别概率。最终确定识别概率最高的指令词是“低风”,然后判断“低风”的识别概率是否满足其对应的第一识别阈值,若满足,则解码器输出“低风”的音素序列,语言模型将音素序列转成文字,空调输出低风。
然而上述方法存在一定的问题,首先,若声学模型的参数量不足,受限于有限的数据量和参数量,在训练过程中会出现数据不平衡和分类难易不平衡的问题,导致声学模型识别精度受限,在计算每一帧时各个音素的子概率中存在较大的计算误差,这会影响后续的流式解码精度。其次,由于“低风”路径的长度短于其他路径,并且由于“低风”属于易分类任务,声学模型输出“低风”中的音素的代价又很小,便会出现当用户提供长序列指令词如“上下扫风打开”、“冷风模式”时,“低风”的路径最优,识别概率最大,提前达到了阈值。如此,便会出现长序列指令词被误识别为短序列且易训练的指令词的情况。此外,当两个指令词的音素序列相似性较高时,也会导致误识别的问题,如在表1中可以看到,“中风”的第2-6个音素和“送风模式”的第2-6个音素相同,因此“送风模式”易被误识别为“中风”。
解决上述问题的方法通常是压低诸如“低风”和“中风”的指令词的阈值,可以理解为对识别“低风”、“中风”这类指令词的要求比其他指令词更加严格,便会减小对它们的误识别,然而这样做虽然降低了其他词对该指令词的误触发率,然而该词本身的识别率也会大大降低。
本发明实施例提供一种指令词识别方法,为指令词预设对应的相似词,当通过解码器解码后确定了某一指令词,则会将该指令词的识别概率与其对应的相似词的识别概率进行比较,只有该指令词的识别概率大于其相似词的识别概率时,才会输出该指令词,如此,避免了在用户发出的指令是相似词,而智能设备误识别为第一指令词的情况。有效降低了指令识别的误识别率。
图3示出了一种可能的指令词识别方法,包括:
步骤301、对采集的音频信号进行语音识别,得到第一指令词。
用户对智能设备说出指令词,智能设备采集用户发出的音频信号,进行识别。一般来说,进行语音识别的过程是,声学模型计算输入语音每一帧属于各个状态的概率,然后解码器根据状态概率计算出相应的音素序列,最后通过语言模型将音素序列转成文字。本发明实施例采用的声学模型可以为混合高斯模型、混合拉普拉斯模型、离散隐马尔可夫模型、半连续隐马尔可夫模型或连续隐马尔可夫模型等,对此不作限制。
本发明对解码器计算音素序列的过程也不作限制,例如可以逐帧输入解码器,得到各指令词的识别概率后,分别与其对应的阈值比较,将识别概率达到阈值的指令词作为第一指令词;也可以在得到各指令词的识别概率后,将识别概率最高的指令词确定为第一指令词;也可以在得到各指令词的识别概率后,先确定出识别概率最高的指令词,再判断该指令词是否满足其对应的第一识别阈值,若满足,则确定该指令词为第一指令词。
例如,以空调为例,当输入音频信号的第6帧时,解码器根据前6帧的各音素的子概率,得到的“低风”的识别概率为0.8,“冷风模式”由于音素序列不完整,所以无法计算其识别概率。则“低风”的识别概率最高,将“低风”的识别概率与其第一识别阈值例如0.7进行比较,由于大于第一识别阈值,则确定“低风”为第一指令词。
又例如,若解码器得到的2个指令词如“低风”,“中风”的识别概率分别为0.8,0.5,其中“低风”的识别概率最高,则直接将“低风”确定为第一指令词。
本发明对确定第一指令词的方法不作限制。
步骤302、确定第一指令词对应的第一相似词;第一相似词与第一指令词存在发音相似关系。
由于在指令识别过程中,经常出现一些指令词被误识别为其他指令词的情况,因此可以首先确定被误识别为第一指令词的第三指令词,将第三指令词中被误识别的音素序列作为第一指令词的相似词。
第三指令词可能是由于音素序列与第一指令词存在部分相似性,所以发音存在部分相似性;可能是由于第一指令词的音素序列较短,也可能是由于第一指令词属于易分类任务,在模型的训练中就极易被识别。总之第三指令词会被误识别为第一指令词,本发明实施例对误识别的原因不作限制。
确定相似词的方法也是多种多样的,可以对重复音素数目进行限定。例如,若第三指令词的音素序列较长,第一指令词的音素序列较短,第三指令词的音素序列与第一指令词的音素序列的重复音素数目占较长指令词的音素数目的比例不小于某个阈值,则将第三指令词的重复部分作为第一指令词的相似词,或者将起始处至重复处结束的部分作为第一指令词的相似词。举个例子,“中风”和“送风模式”中的音素序列中,有5个音素重复:208180 135 90 180,重复部分不小于“送风模式”音素数的一半,因此将重复部分“208 180135 90180”作为“中风”的相似词;或者将首帧状态至出现误识别状态的音素序列即“送风”(“192 208 180 135 90 180”)作为“中风”的相似词。
还可以通过统计确定第一指令词的相似词。若在测试中,第三指令词被误识别为第一指令词的概率超过了p,在测试过程中标记出现误识别的状态位置,则将第三指令词的首帧状态至出现误识别状态的音素序列作为第一指令词的相似词。例如经过多次试验,“冷风模式”被误识别为“低风”的概率超过了0.5,即,用户发出10次指令词“冷风模式”,有5次以上空调识别为“低风”,出现误识别的位置是“冷风模式”的前6个音素,即“冷风”,那么“冷风”(音素序列为175 92 180 135 90 180)就作为“低风”的相似词。以上仅为示例,本发明实施例对此不作限制。
值得注意的是,第一指令词的相似词的数目可以有多个,例如有k个第三指令词符合上述条件,被确定为了第一指令词的相似词。一种可能的实现方法是,这些相似词都作为第一相似词在后续计算第二识别概率与第一指令词的第一识别概率进行比较。这样会使操作较为繁复,增加计算资源的消耗,不利于识别效率的提高。
另一种可能的方法是,将这k个相似词按照各自的与第一指令词的相似度进行排序,在后续与第一识别概率进行比较时,仅取k个相似词中的前p个相似词作为第一相似词,其余部分作为第二相似词。具体可以通过如下方式实现:首先判断第一指令词的第一识别概率是否满足第二识别阈值,例如,第一识别概率大于0.9,则说明此时的第一指令词为用户发出的指令的可能性很高,此时判定的第一指令词的准确度很高,则无需将第一识别概率与对应的k个相似词的第二识别概率进行一一比较,仅需选取p个与第一指令词的相似度最高的第一相似词,将第一识别概率与第一相似词的第二识别概率进行比较即可。因此从这种角度说,第一相似词的数量是动态变化的,随着第一识别概率的大小而发生变化。如此,节省了计算资源,提高了指令识别的效率。
本发明实施例对确定与第一指令词的相似度的方法不作限定,例如可以按照重复音素数目进行划分,重复的音素数目越多,则与第一指令词的相似度越高;或者可以按照误识别率进行划分,例如测试10次,有5次误识别为A,3次误识别为B,2次误识别为C,则相似度按照A-B-C的顺序进行排列。
可选地,若第一指令词由于音素序列较长,或者声学模型的识别精度高等各种各样的原因,没有出现过某些指令词被误识别为第一指令词的情况,则可以不为第一指令词设置对应的第一相似词,当解码器识别为第一指令词时,即可直接输出第一指令词。
步骤303、确定第一指令词在语音识别过程中的第一识别概率与第一相似词在语音识别过程中的第二识别概率。
当经过语音识别得到了第一指令词,却不会直接输出第一指令词,而是通过第一指令词确定其对应的第一相似词,并获取其对应的第一相似词的第二识别概率。
例如,当输入第6帧时,解码器根据前6帧的各音素的子概率,得到的指令词如“低风”的识别概率为0.8,--(由于“冷风模式”的音素序列“175 92 180135 90 180 177 183196 159”此时不完整,所以“冷风模式”的无法计算识别概率)。因此确定“低风”为第一指令词,再获取“低风”的第一相似词“冷风”,计算“冷风”的第二识别概率。
步骤304、若第一识别概率不小于第二识别概率,则输出第一指令词。
图4示出了两种可能的第一识别概率和第二识别概率的关系,第1种情况,若用户发出的指令确实为“低风”(音素序列105 139 135 90 180),则“低风”的第一相似词“冷风”(音素序列175 92 180 135 90 180)的第二识别概率很低,例如为0.6,可以发现,第一识别概率大于第二识别概率,因此输出第一指令词“低风”。
若用户发出的指令是“冷风模式”(音素序列175 92 180 135 90 180 177 183196 159),则虽然“冷风模式”由于音素序列不完整,其识别概率无法得出,但是通过确定“低风”的第一相似词“冷风”(音素序列175 92 180 135 90 180)的第二识别概率,由于“冷风”的音素序列完整,得到的第二识别概率高于第一识别概率,例如为0.9,此时则不会输出第一指令词“低风”。而由于第一相似词“冷风”不属于指令词,因而“冷风”也不会被映射为指令词输出,此时则需要后续的判断。
可选地,若第一识别概率小于第二识别概率,则返回对采集的音频信号进行语音识别的步骤,直至输出第二指令词或语音识别结束。
在得到第一指令词时,是对采集的音频信号的前N帧进行的语音识别,例如在上述例子中,是对前6帧进行的语音识别得到的第一指令词“低风”。而经过判断后得出第一识别概率小于第二识别概率,无指令词被输出。此时可以获取第N帧之后的音频帧逐帧进行语音识别。
若第一识别概率小于第二识别概率,说明第一指令词很有可能不是用户发出的指令,因此并不会输出这个已经识别出的第一指令词。而是需要继续采集音频信号进行语音识别,直至识别出第二指令词或识别结束,如此,进一步保证了语音识别的准确性。
可选地,在语音识别的过程中,可以对语音的截止位进行判断,若采集的音频信号中第N帧之后的连续M帧为静音音素,则说明用户的指令已经说完,此时并没有新的指令词被识别,因而输出第一指令词。
若采集的音频信号中第N帧之后的连续M帧存在非静音音素,则说明在第N帧时用户的指令词还未说完,此时再对第N帧之后的M帧进行语音识别,输出所述第二指令词。
举个例子,若用户发出的指令是“送风模式”,“送风模式”的音素序列是“192 208180 135 90 180 177 183 196 159”,在前6帧的语音识别中,当识别到第6个音素180时,“中风”的路径“221 208 180 135 90 180”达到了阈值,为第一指令词,此时将“中风”的第一识别概率与其第一相似词的第二识别概率进行对比发现小于第二识别概率,因而不会输出“中风”,而是会进行语音截止位的判断。由于此时“送风模式”语音还没有截止,所以并未出现语音截止位。等到音素159结束并且语音截止后再进行判断,此时由于“中风”序列路径中的最后一个音素180的代价仍然在累加,最终会由于代价过大被剪枝,即便没有被剪掉最终的“中风”也不会优于“送风模式”;而送风模式由于识别概率变大,因而会作为指令词被识别。这样便使得解码器考虑到了一个指令词完整的信息才做出最终的判断,即便前几个音素被识别错误最终也很可能会输出正确的指令词,降低了对声学模型的要求。
对语音截止位的判断方法也是不唯一的,例如传统的VAD利用一个窗内的能量和过零率判断该帧是否为语音,也可以利用GMM或神经网络专门训练一个模型用于这里的语音截止位判断,或者可以直接利用声学模型判断语音是否截止,无论使用何种方法,此处都需要有一个模型能够区分是否为语音信号,最终在确定语音截止后解码器才输出此时的结果。
可选地,本发明实施例的应用场景也可以扩展为离线或在线的基于单音素或多音素建模的语音识别解码策略。
值得注意的是,一般来说,进行语音识别过程中,多个帧组合起来被识别为一个音素,本发明实施例为了描述方便,使一个帧被识别为一个音素,仅为举例,不作为对本发明实施例所描述方法的限制。
为了使读者对本发明实施例提供的指令词的识别方法有一个完整的认知,下面以图5展开整体性说明。
步骤501,输入第一帧。
步骤502,解码器更新各个指令词的识别概率,确定待输出指令词。
步骤503,判断待输出指令词的第一识别概率是否达到相应的预设阈值,若是,则进入步骤504,若否,则进入步骤505。
步骤504,判断待输出指令词是否存在第一相似词,若是则进入步骤506,若否,则进入步骤507。
步骤505,输入下一帧。
步骤506,判断待输出指令词的第一识别概率是否大于第一相似词的第二识别概率,若是,则进入步骤507,若否,则进入步骤508。
步骤507,输出待输出指令词。
步骤508,输入下一帧。
步骤509,是否存在连续M帧静音音素,若是,则进入步骤507,若否,则返回步骤502。
需要说明的是,若在步骤508后直接判断为存在连续M帧静音音素,则输出的待输出指令词为第一指令词;若在步骤508后先判断为该帧之后的连续M帧存在非静音音素,进入步骤502后继续进行语音识别,此后得到的是新的待输出指令词,即第二指令词。
由于在实际操作中,存在一些指令词易被误识别为第一指令词的问题,因而将这些指令词预设为第一指令词的相似词,使得智能设备在识别到第一指令词后,先将第一指令词的识别概率与其对应的相似词的识别概率进行比较,若第一指令词的识别概率不小于相似词的识别概率,才会输出第一指令词。如此,避免了在用户发出的指令是相似词,而智能设备误识别为第一指令词的情况。有效降低了指令识别的误识别率。
本发明实施例还提供一种指令词识别装置,如图6所示,包括:
处理单元601,用于对采集的音频信号进行语音识别,得到第一指令词;
确定单元602,用于确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;
确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;
所述处理单元,还用于若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列指令词识别的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的指令词识别的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种指令词识别方法,其特征在于,包括:
对采集的音频信号进行语音识别,得到第一指令词;
确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;
确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;所述第一识别概率为根据所述第一指令词的音素序列对应得到;所述第二识别概率为根据所述第一相似词的音素序列对应得到;
若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。
2.如权利要求1所述的方法,其特征在于,还包括:若所述第一识别概率小于所述第二识别概率,则返回对采集的音频信号进行语音识别的步骤,直至输出第二指令词或语音识别结束。
3.如权利要求2所述的方法,其特征在于,
对采集的音频信号进行语音识别,得到第一指令词,包括:
对采集的音频信号中的前N帧进行语音识别,得到第一指令词;
返回对采集的音频信号进行语音识别的步骤,直至输出第二指令词或语音识别结束,包括:
若采集的音频信号中第N帧之后的连续M帧存在非静音音素,则对第N帧之后的M帧进行语音识别,输出所述第二指令词。
4.如权利要求1所述的方法,其特征在于,还包括:
若所述第一指令词不存在对应的第一相似词,则输出所述第一指令词。
5.如权利要求1-4任一项所述的方法,其特征在于,对采集的音频信号进行语音识别,得到第一指令词,包括:
针对采集的音频信号中的任一音频帧,确定所述音频帧在各指令词对应的各音素的子概率;
根据各音频帧在各指令词对应的各音素的子概率,确定出识别概率最高的指令词;
若所述识别率最高的指令词满足第一识别阈值,则确定得到第一指令词。
6.如权利要求1-4任一项所述的方法,其特征在于,通过如下方式确定与所述第一指令词存在发音相似关系的所述第一相似词,包括:
确定被误识别为所述第一指令词的第三指令词;
将所述第三指令词中被误识别的音素序列作为所述第一指令词的第一相似词。
7.如权利要求1-4任一项所述的方法,其特征在于,确定所述第一指令词对应的第一相似词,包括:
确定所述第一识别概率满足第二识别阈值时,从所述第一指令词对应的k个相似词中选取p个与第一指令词相似度最高的相似词,作为所述第一相似词。
8.一种指令词识别装置,其特征在于,包括:
处理单元,用于对采集的音频信号进行语音识别,得到第一指令词;
确定单元,用于确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;
确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;所述第一识别概率为根据所述第一指令词的音素序列对应得到;所述第二识别概率为根据所述第一相似词的音素序列对应得到;
所述处理单元,还用于若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。
9.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110386410.4A CN113192501B (zh) | 2021-04-12 | 2021-04-12 | 一种指令词识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110386410.4A CN113192501B (zh) | 2021-04-12 | 2021-04-12 | 一种指令词识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113192501A CN113192501A (zh) | 2021-07-30 |
CN113192501B true CN113192501B (zh) | 2022-04-22 |
Family
ID=76975321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110386410.4A Active CN113192501B (zh) | 2021-04-12 | 2021-04-12 | 一种指令词识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192501B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783438B (zh) * | 2022-06-17 | 2022-09-27 | 深圳市友杰智新科技有限公司 | 自适应解码方法、装置、计算机设备和存储介质 |
CN115881097B (zh) * | 2023-02-22 | 2023-07-18 | 深圳市友杰智新科技有限公司 | 语音识别结果的确认方法、装置、计算机设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7212968B1 (en) * | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
WO2004023455A2 (en) * | 2002-09-06 | 2004-03-18 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN110444193B (zh) * | 2018-01-31 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法和装置 |
CN108831459B (zh) * | 2018-05-30 | 2021-01-05 | 出门问问信息科技有限公司 | 语音识别方法及装置 |
CN110310634A (zh) * | 2019-06-19 | 2019-10-08 | 广州小鹏汽车科技有限公司 | 车载语音推送方法、终端、服务器以及推送系统 |
-
2021
- 2021-04-12 CN CN202110386410.4A patent/CN113192501B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
Also Published As
Publication number | Publication date |
---|---|
CN113192501A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2486562B1 (en) | Method for the detection of speech segments | |
CN108198548B (zh) | 一种语音唤醒方法及其系统 | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
US20220343895A1 (en) | User-defined keyword spotting | |
CN113192501B (zh) | 一种指令词识别方法及装置 | |
US20130311184A1 (en) | Method and system for speech recognition | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
JPH01102599A (ja) | 音声認識方法 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
US8589162B2 (en) | Method, system and computer program for enhanced speech recognition of digits input strings | |
KR20200023893A (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
JP2002149186A (ja) | 識別可能な適合に関する代替の単語列の選択 | |
JPH10153999A (ja) | 音声認識装置 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN112189232A (zh) | 音频处理方法及装置 | |
CN112509557B (zh) | 一种基于非确定化词图生成的语音识别方法及其系统 | |
JP4475380B2 (ja) | 音声認識装置及び音声認識プログラム | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
EP0177854B1 (en) | Keyword recognition system using template-concatenation model | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 | |
US7085718B2 (en) | Method for speaker-identification using application speech | |
CN110419078B (zh) | 用于自动语音识别的系统和方法 | |
CN111883109A (zh) | 语音信息处理及验证模型训练方法、装置、设备及介质 | |
CN113192488B (zh) | 一种语音处理方法及装置 | |
JP2001175276A (ja) | 音声認識装置及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |