CN112289311A - 语音唤醒方法、装置、电子设备及存储介质 - Google Patents
语音唤醒方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112289311A CN112289311A CN201910618606.4A CN201910618606A CN112289311A CN 112289311 A CN112289311 A CN 112289311A CN 201910618606 A CN201910618606 A CN 201910618606A CN 112289311 A CN112289311 A CN 112289311A
- Authority
- CN
- China
- Prior art keywords
- evaluation value
- voice
- acoustic
- wake
- posterior probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000011156 evaluation Methods 0.000 claims abstract description 175
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000013210 evaluation model Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002618 waking effect Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 241000209140 Triticum Species 0.000 description 4
- 235000021307 Triticum Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种语音唤醒方法,应用于语音交互领域,包括:当接收到语音信号后,提取语音信号的声学特征,预测声学特征在各声学建模单元上的后验概率,将后验概率输入至预置的评估模型,得到第一评估值,将后验概率输入训练好的卷积神经网络模型,得到第二评估值,根据第一评估值和第二评估值,判断是否唤醒。本发明还公开了一种语音唤醒装置、电子设备及存储介质,结合两级唤醒机制,对语音信号中是否包含唤醒词进行判断,防止仅采用单一模型对结果的影响,在保证低功耗的情况下,提升唤醒率,降低误唤醒率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。
背景技术
随着智能交互技术的快速发展和市场需求的不断扩展,语音识别技术在近年来取得长足发展,至今已经在多个领域中得到广泛的应用。语音识别技术,是对输入的语音信号进行识别,从而转换成计算机可处理的文本信息。利用语音识别技术可以实现众多应用场景中的智能语音交互,例如语音输入,基于语音识别的智能控制等。
目前,利用语音识别技术,通过唤醒词唤醒设备的过程中,经常会出现误唤醒的问题,从而影响用户的体验感。
发明内容
本发明的主要目的在于提供一种语音唤醒方法、装置、电子设备及存储介质,可增加识别准确率,降低误唤醒概率。
为实现上述目的,本发明实施例第一方面提供一种语音唤醒方法,包括:
当接收到语音信号后,提取所述语音信号的声学特征;
预测所述声学特征在各声学建模单元上的后验概率;
将所述后验概率输入至预置的评估模型,得到第一评估值;
将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值;
根据所述第一评估值和所述第二评估值,判断是否唤醒。
进一步地,所述预测所述声学特征在各声学建模单元上的后验概率,包括:
将所述声学特征输入预先训练好的深度神经网络模型,获得所述声学特征在各声学建模单元上的后验概率。
进一步地,在所述将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值的步骤之前,还包括:
判断所述第一评估值是否大于第一预设阈值;
若否,则不唤醒,并结束语音唤醒的步骤;
若是,则执行所述将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值的步骤。
进一步地,所述将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值的步骤之后,还包括:
判断所述第二评估值是否大于第二预设阈值;
若否,则不唤醒,并结束语音唤醒的步骤;
若是,则执行所述根据所述第一评估值和所述第二评估值,判断是否唤醒的步骤。
进一步地,所述评估模型具体为:
令Z1为第一评估值,n表示第n个声学建模单元,xn表示在一个移动窗口中第n个声学建模单元最高的后验概率,cn表示第n个声学建模单元的权重系数,bn表示第n个声学建模单元的惩罚系数,则评估模型为:
进一步地,所述根据所述第一评估值和所述第二评估值,判断是否唤醒,包括:
获取所述第一评估值的第一预设权重系数,以及所述第二评估值的第二预设权重系数;
根据所述第一评估值和所述第一预设权重系数,以及,所述第二评估值和所述第二预设权重系数,计算得分值;
根据所述得分值判断是否唤醒。
本发明实施例第二方面提供一种语音唤醒装置,包括:
特征提取模块,用于当接收到语音信号后,提取所述语音信号的声学特征;
声学预测模块,用于预测所述声学特征在各声学建模单元上的后验概率;
一级评估模块,用于将所述后验概率输入至预置的评估模型,得到第一评估值;
二级确认模块,用于将所述后验概率输入至训练好的卷积神经网络模型,得到第二评估值;
判别模块,用于根据所述第一评估值和所述第二评估值,判断是否唤醒。
进一步地,所述声学预测模块具体用于将所述声学特征输入预先训练好的深度神经网络模型,获得所述声学特征在各声学建模单元上的后验概率。
本发明实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的语音唤醒方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的语音唤醒方法。
从上述本发明实施例可知,本发明提供的语音唤醒方法,当接收到语音信号后,提取语音信号的声学特征,预测声学特征在各声学建模单元上的后验概率,将后验概率输入至预置的评估模型,得到第一评估值,将后验概率输入训练好的卷积神经网络模型,得到第二评估值,根据第一评估值和第二评估值,判断是否唤醒,结合两级唤醒机制,对语音信号中是否包含唤醒词进行判断,防止仅采用单一模型对结果的影响,在保证低功耗的情况下,提升唤醒率,降低误唤醒率。
本发明提供的一种语音唤醒装置、电子设备及存储介质,与上述提供的语音唤醒方法出于相同的发明构思,具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的第一种语音唤醒方法的流程示意图;
图2为本发明一实施例提供的第二种语音唤醒方法的流程示意图;
图3为本发明一实施例提供的第三种语音唤醒方法中另一个得到识别结果的流程示意图;
图4为本发明一实施例提供的第四种语音唤醒方法中另一个得到识别结果的流程示意图;
图5为本发明一实施例提供的第一种语音唤醒装置的结构示意图;
图6为本发明一实施例提供的第二种语音唤醒装置的结构示意图;
图7为本发明一实施例提供的第二种语音唤醒装置的结构示意图;
图8为本发明一实施例提供的第三种语音唤醒装置的结构示意图;
图9示出了一种电子设备的硬件结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明一实施例提供的语音唤醒方法的流程示意图,该方法可应用于具有语音识别功能的电子设备中,该电子设备包括:手机、平板电脑(PortableAndroid Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,也可以是其它类型的智能设备,例如,音箱、耳机、智能家电、汽车等,该方法主要包括以下步骤:
S101、当接收到语音信号后,提取该语音信号的声学特征;
对获得的语音信号进行声学特征提取,得到该语音信号的声学特征。特征提取的过程可以采用本领域常规技术手段来完成,本说明书实施例不对提取声学特征所采用的方法进行限定,例如,可以采用线性预测倒谱系数法(LPCC,LinearPrediction CepstrumCoefficient)、美尔频率倒谱系数法(MFCC,Mel Frequency Cepstrum Coefficient)、感知线性预测参数法(PLP,Perceptual Linear Predict ive)和梅尔标度滤波法(FBANK,Mel-scale Filter Bank)中的任意一种。
更多的,在接收到语音信号之后,在识别过程中,系统会将语音信号分割成多个帧。提取该语音信号中所有帧内声学建模单元的声学特征。在本发明实施例中,语音信号以“小麦丫头”为例,将语音信号可以分割成多个帧后,每个帧内的“小麦丫头”都包含以下声学建模单元:“x”、“iao”、“m”、“ai”、“y”、“a”、“t”、“ou”。同时,还包括“filler”和“silence”。“filler”表示其它非唤醒词声学建模单元或噪声。“silence”表示静音,共十个声学建模单元。
示例性的,将“小麦丫头”分割为100帧,每个帧内均包括上述十个声学建模单元,那么,每个声学建模单元对应有100个特征,该语音信号内共得到100*10=1000个特征。
S102、预测该声学特征在各声学建模单元上的后验概率;
计算该声学特征在各声学建模单元上的后验概率,可以是通过预先构建的计算模型进行计算,具体可以为通过预先训练好的深度神经网络模型,将声学特征输入该深度神经网络中,得到声学特征在该模型的声学建模单元上的后验概率。
其中,声学建模单元是指根据语音的自然属性划分出来的最小语音单位。例如,“买”的声学建模单元为“m”、“ai”。
其中,示例性的,利用预先经过深度神经网络(DNN,Deep Neural Network)训练出的模型,计算得到的其中一个帧内所有声学建模单元的后验概率,以“小麦丫头”为例,预测其中一个移动窗口内(100帧)每一帧在各声学建模单元的后验概率,如下表1所示:
表1
x | iao | m | ai | y | a | t | ou | filler | silence | |
1 | 0.5 | 0.3 | 0.05 | 0.05 | 0.01 | 0.01 | 0.01 | 0.01 | 0.01 | 0.05 |
2 | 0.55 | 0.2 | 0.05 | 0.05 | 0.02 | 0.03 | 0.07 | 0.01 | 0.01 | 0.01 |
3 | 0.2 | 0.6 | 0.05 | 0.05 | 0.02 | 0.03 | 0.07 | 0.01 | 0.01 | 0.01 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
100 | 0.05 | 0.05 | 0.05 | 0.05 | 0.02 | 0.03 | 0.03 | 0.7 | 0.01 | 0.01 |
S103、将该后验概率输入至预置的评估模型,得到第一评估值;
在一实施例中,令Z1为第一评估值,n表示第n个声学建模单元,xn表示在一个移动窗口中第n个声学建模单元最高的后验概率,Cn表示第n个声学建模单元的权重系数,bn表示第n个声学建模单元的惩罚系数,则评估模型为:
S104、将该后验概率输入至训练好的卷积神经网络模型,得到第二评估值;
其中,卷积神经网络模型是通过多个后验概率以及对应的唤醒词训练出来的。将后验概率输入至卷积神经网络模型后,可以得到唤醒概率和不唤醒概率。在本发明中,可以将唤醒概率作为第二评估值,结合上述第一评估值,综合判断是否唤醒设备。
S105、根据该第一评估值和该第二评估值,判断是否唤醒。
在其中一个实施例中,可获取第一评估值的第一预设权重系数,以及第二评估值的第二预设权重系数,根据第一评估值和第一预设权重系数,以及,第二评估值和第二预设权重系数,计算出得分值,根据得分值,判断是否唤醒。示例性的,判断得分值是否大于第三预设阈值,若得分值大于第三预设阈值,则判断为唤醒。
具体的,在上述根据第一评估值和第一预设权重系数,以及,第二评估值和第二预设权重系数,计算得分值得过程中,令第一评估值为Z1,第二评估值为Z2,第一预设权重系数为a,第二预设权重系数为b,得分值为Y,则:
Y=aZ1+bZ2。
其中,预设权重系数可以是本领域技术人员经过有限次唤醒实验后得到的可以使唤醒识别率最高的系数值。可理解的,即a+b=1,第一预设权重系数和第二预设权重系数的和为1。例如,第一预设权重系数为0.6,那么,第二预设权重系数位0.4。
若语音信号内存在唤醒词,则执行相应的唤醒操作。例如,开启识别该唤醒词的设备。可理解的,若得分值小于第三预设阈值,则该语音信号内不存在唤醒词,等待接收下一个语音信号再次进行语音唤醒,或,输出相应的语音提示,询问用户是否开启设备。
在本发明实施例中,当接收到语音信号后,提取语音信号的声学特征,预测声学特征在各声学建模单元的后验概率,将后验概率输入至预置的评估模型,得到第一评估值,将后验概率输入至训练好的卷积神经网络模型,得到第二评估值,根据第一评估值和第二评估值,判断是否唤醒,结合第一评估值和第二评估值,对语音信号中是否包含唤醒词进行综合判断,防止仅采用一种评估结果对唤醒词进行识别造成的误判,提升语音唤醒的准确率。
请参阅图2,图2为本发明一实施例提供的语音唤醒方法的流程示意图,该方法可应用于具有语音识别功能的电子设备中,该电子设备包括:手机、平板电脑(PortableAndroid Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,也可以是其它类型的智能设备,例如,音箱、耳机、智能家电、汽车等,该方法主要包括以下步骤:
S201、当接收到语音信号后,提取该语音信号的声学特征;
S202、预测声学特征在各声学建模单元上的后验概率;
S203、将该后验概率输入至预置的评估模型,得到第一评估值;
S204、判断该第一评估值是否大于第一预设阈值;
可理解的,若该第一评估值小于第一预设阈值,则执行步骤S207、不唤醒,并结束语音唤醒的步骤,等待接收下一个语音信号再次进行语音唤醒,或,输出相应的语音提示,询问用户是否开启设备。
若该第一评估值大于该第一预设阈值,则执行步骤S205、将该后验概率输入至训练好的卷积神经网络模型,得到第二评估值;
S206、根据该第一评估值和该第二评估值,判断是否唤醒。
需要说明的是,上述步骤S201至S203、步骤S205以及步骤S206,具体可参考图1所示实施例中的相关步骤,此处不再赘述。
在本实施例中,在得到第一评估值之后,即对第一评估值进行判断,若大于第一预设阈值,则继续进行下一步,将该后验概率输入至训练好的卷积神经网络训练出的模型,得到第二评估值。在第一评估值符合要求时才进行下一步,防止因第一评估值不符合要求导致的语音唤醒错误。最后,根据第一评估值和第二评估值进行综合判断,进一步提升识别准确率。
请参阅图3,图3为本发明一实施例提供的语音唤醒方法的流程示意图,该方法可应用于具有语音识别功能的电子设备中,该电子设备包括:手机、平板电脑(PortableAndroid Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,也可以是其它类型的智能设备,例如,音箱、耳机、智能家电、汽车等,该方法主要包括以下步骤:
S301、当接收到语音信号后,提取该语音信号的声学特征;
S302、预测该声学特征在各声学建模单元上的后验概率;
S303、将该后验概率输入至预置的评估模型,得到第一评估值;
S304、判断该第一评估值是否大于第一预设阈值;
若该第一评估值大于该第一预设阈值,则执行步骤S305、将该后验概率输入至训练好的卷积神经网络模型,得到第二评估值;
可理解的,若该第一评估值小于第一预设阈值,则执行步骤S308、不唤醒,并结束语音唤醒的步骤,等待接收下一个语音信号再次进行语音唤醒,或,输出相应的语音提示,询问用户是否开启设备。
S306、判断该第二评估值是否大于第二预设阈值;
若第二评估值大于第二预设阈值,则执行步骤S307、根据该第一评估值和该第二评估值,判断是否唤醒。
可理解的,若该第二评估值小于第二预设阈值,则执行步骤S308、不唤醒,并结束语音唤醒的步骤,等待接收下一个语音信号再次进行语音唤醒,或,输出相应的语音提示,询问用户是否开启设备。
需要说明的是,上述步骤S301至S303,步骤S305以及S307具体可参考图1所示实施例中的相关步骤,步骤S304具体可参考图2所示实施例中的相关步骤,此处不再赘述。
在本实施例中,在得到第一评估值之后,即对第一评估值进行判断,若大于第一预设阈值,则继续进行下一步,将该后验概率输入至训练好的卷积神经网络模型,得到第二评估值,再对第二评估值进行判断,若大于第二预设阈值,则最后根据第一评估值和第二评估值进行综合判断,防止因第一评估值或第二评估值不符合要求导致的语音唤醒错误,进一步提升识别准确率。
请参阅图4,图4为本发明一实施例提供的语音唤醒方法的流程示意图,该方法可应用于具有语音识别功能的电子设备中,该电子设备包括:手机、平板电脑(PortableAndroid Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,也可以是其它类型的智能设备,例如,音箱、耳机、智能家电、汽车等,该方法主要包括以下步骤:
S401、当接收到语音信号后,提取该语音信号的声学特征;
S402、预测该声学特征在各声学建模单元上的后验概率;
S403、将该后验概率输入至预置的评估模型,得到第一评估值;
S404、判断该第一评估值是否大于第一预设阈值;
可理解的,若该第一评估值小于第一预设阈值,则执行步骤S408、不唤醒,并结束语音唤醒的步骤,等待接收下一个语音信号再次进行语音唤醒,或,输出相应的语音提示,询问用户是否开启设备。
若该第一评估值大于该第一预设阈值,则执行步骤S405、将该特征值输入至训练好的卷积神经网络模型,得到第二评估值;
S406、判断该第二评估值是否大于第二预设阈值;
若第二评估值大于第二预设阈值,则执行步骤S407、进入唤醒状态。
需要说明的是,上述步骤S401至S406,具体可参考图3所示实施例中的相关步骤,此处不再赘述。
在本实施例中,在得到第一评估值之后,即对第一评估值进行判断,若大于第一预设阈值,则继续进行下一步,将该后验概率输入至训练好的神经网络模型,得到第二评估值,再对第二评估值进行判断,若大于第二预设阈值,则根据该第二评估值,判断是否唤醒,进行双重判断,提升识别准确率。
请参阅图5,图5是本发明一实施例提供的语音唤醒装置的结构示意图,该装置可内置于电子设备中,该装置主要包括:
特征提取模块501、声学预测模块502,一级评估模块503、二级确认模块504、判别模块505。
特征提取模块501,用于当接收到语音信号后,提取语音信号的声学特征;
声学预测模块502,用于预测所述声学特征在各声学建模单元上的后验概率;
声学预测模块502具体用于将声学特征输入预先训练好的深度神经网络模型,获得声学特征在各声学建模单元上的后验概率。
一级评估模块503,用于将后验概率输入至预置的评估模型,得到第一评估值;
二级确认模块504,用于将后验概率输入至训练好的卷积神经网络模型,得到第二评估值;
判别模块505,用于根据第一评估值和第二评估值,判断是否唤醒。
具体的,判别模块505包括获取子模块、计算子模块、判断子模块和判定子模块。获取子模块,用于获取第一评估值的第一预设权重系数,以及第二评估值的第二预设权重系数;计算子模块,用于根据第一评估值和第一预设权重系数,以及,第二评估值和第二预设权重系数,计算得分值;判断子模块,用于判断得分值是否大于第三预设阈值;判定子模块,用于若得分值大于第三预设阈值,则语音信号内存在唤醒词。
本实施例未尽之细节,请参阅前述图1所示实施例的描述,此处不再赘述。
在本发明实施例中,当接收到语音信号后,提取语音信号的声学特征,预测声学特征在各声学建模单元上的后验概率,将后验概率输入至预置的评估模型,得到第一评估值,将后验概率输入至训练好的神经网络模型,得到第二评估值,根据第一评估值和所第二评估值,判断是否唤醒,结合第一评估值和第二评估值,对语音信号中是否包含唤醒词进行综合判断,防止仅采用一种评估结果对唤醒词进行识别造成的误判,提升语音唤醒的准确率。
请参阅图6,在其中一个实施例中,该装置还包括:
第一判断模块601,用于判断第一评估值是否大于第一预设阈值;
若第一评估值大于第一预设阈值,则执行二级确认模块504。
本实施例未尽之细节,请参阅前述图2所示实施例的描述,此处不再赘述。
在本实施例中,在得到第一评估值之后,即对第一评估值进行判断,若大于第一预设阈值,则继续进行下一步,将该后验概率输入至训练好的神经网络模型,得到第二评估值。在第一评估值符合要求时才进行下一步,防止因第一评估值不符合要求导致的语音唤醒错误。最后,根据第一评估值和第二评估值进行综合识别,进一步提升识别准确率。
请参阅图7,在其中一个实施例中,该装置还包括:
第一判断模块601,用于判断第一评估值是否大于第一预设阈值;
若第一评估值大于第一预设阈值,则执行二级确认模块504。
第二判断模块701,用于判断第二评估值是否大于第二预设阈值;
若第二评估值大于第二预设阈值,则执行判别模块505。
本实施例未尽之细节,请参阅前述图3所示实施例的描述,此处不再赘述。
在本实施例中,在得到第一评估值之后,即对第一评估值进行判断,若大于第一预设阈值,则继续进行下一步,将该后验概率输入至训练好的神经网络模型,得到第二评估值,再对第二评估值进行判断,若大于第二预设阈值,则最后根据第一评估值和第二评估值进行综合判断,防止因第一评估值或第二评估值不符合要求导致的语音唤醒错误,进一步提升识别准确率。
请参阅图8,在其中一个实施例中,该装置还包括:
第一判断模块601,用于判断第一评估值是否大于第一预设阈值;
若第一评估值大于第一预设阈值,则执行二级确认模块504。
第二判断模块701,用于判断第二评估值是否大于第二预设阈值;
若第二评估值大于第二预设阈值,则执行结果模块801,根据第二评估值,判断是否唤醒。
本实施例未尽之细节,请参阅前述图4所示实施例的描述,此处不再赘述。
在本实施例中,在得到第一评估值之后,即对第一评估值进行判断,若大于第一预设阈值,则继续进行下一步,将该特征值输入至预先经过神经网络训练出的模型,得到第二评估值,再对第二评估值进行判断,若大于第二预设阈值,则直接判定该语音信号中含有唤醒词,进行双重判断,提升识别准确率。
请参见图9,图9示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器91、处理器92及存储在存储器91上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1~图3所示实施例中描述的语音唤醒方法。
进一步地,该电子设备还包括:
至少一个输入设备93;至少一个输出设备94。
上述存储器91、处理器92输入设备93和输出设备94通过总线95连接。
其中,输入设备93具体可为麦克风或麦克风阵列等等。输出设备94具体可为显示器或扬声器。
存储器91可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器91用于存储一组可执行程序代码,处理器92与存储器91耦合。
进一步地,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图9所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1~图4所示实施例中描述的语音唤醒方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的语音唤醒方法、装置、电子设备及存储介质的描述,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音唤醒方法,其特征在于,包括:
当接收到语音信号后,提取所述语音信号的声学特征;
预测所述声学特征在各声学建模单元上的后验概率;
将所述后验概率输入至预置的评估模型,得到第一评估值;
将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值;
根据所述第一评估值和所述第二评估值,判断是否唤醒。
2.根据权利要求1所述的语音唤醒方法,其特征在于,所述预测所述声学特征在各声学建模单元上的后验概率,包括:
将所述声学特征输入预先训练好的深度神经网络模型,获得所述声学特征在各声学建模单元上的后验概率。
3.根据权利要求1所述的语音唤醒方法,其特征在于,在所述将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值的步骤之前,还包括:
判断所述第一评估值是否大于第一预设阈值;
若否,则不唤醒,并结束语音唤醒的步骤;
若是,则执行所述将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值的步骤。
4.根据权利要求1或3所述的语音唤醒方法,其特征在于,所述将所述后验概率输入训练好的卷积神经网络模型,得到第二评估值的步骤之后,还包括:
判断所述第二评估值是否大于第二预设阈值;
若否,则不唤醒,并结束语音唤醒的步骤;
若是,则执行所述根据所述第一评估值和所述第二评估值,判断是否唤醒的步骤。
6.根据权利要求1所述的语音唤醒方法,其特征在于,所述根据所述第一评估值和所述第二评估值,判断是否唤醒,包括:
获取所述第一评估值的第一预设权重系数,以及所述第二评估值的第二预设权重系数;
根据所述第一评估值和所述第一预设权重系数,以及,所述第二评估值和所述第二预设权重系数,计算得分值;
根据所述得分值判断是否唤醒。
7.一种语音唤醒装置,其特征在于,包括:
特征提取模块,用于当接收到语音信号后,提取所述语音信号的声学特征;
声学预测模块,用于预测所述声学特征在各声学建模单元上的后验概率;
一级评估模块,用于将所述后验概率输入至预置的评估模型,得到第一评估值;
二级确认模块,用于将所述后验概率输入至训练好的卷积神经网络模型,得到第二评估值;
判别模块,用于根据所述第一评估值和所述第二评估值,判断是否唤醒。
8.根据权利要求7所述的语音唤醒装置,其特征在于,所述声学预测模块具体用于将所述声学特征输入预先训练好的深度神经网络模型,获得所述声学特征在各声学建模单元上的后验概率。
9.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至6中的任一项所述的语音唤醒方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6中的任一项所述的语音唤醒方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910618606.4A CN112289311B (zh) | 2019-07-09 | 2019-07-09 | 语音唤醒方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910618606.4A CN112289311B (zh) | 2019-07-09 | 2019-07-09 | 语音唤醒方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112289311A true CN112289311A (zh) | 2021-01-29 |
CN112289311B CN112289311B (zh) | 2024-05-31 |
Family
ID=74418981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910618606.4A Active CN112289311B (zh) | 2019-07-09 | 2019-07-09 | 语音唤醒方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289311B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241059A (zh) * | 2021-04-27 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6275801B1 (en) * | 1998-11-03 | 2001-08-14 | International Business Machines Corporation | Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems |
JP2004033673A (ja) * | 2002-06-21 | 2004-02-05 | Trustees Of The Univ Of Pennsylvania | 脳内発作発現を予測し検出する統合確率フレームワークおよび多重治療デバイス |
CN104080140A (zh) * | 2013-03-29 | 2014-10-01 | 南京邮电大学 | 一种移动自组织网络中基于信任评估的协作通信方法 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
US20180090152A1 (en) * | 2016-09-28 | 2018-03-29 | Panasonic Intellectual Property Corporation Of America | Parameter prediction device and parameter prediction method for acoustic signal processing |
DE102018002679A1 (de) * | 2017-04-05 | 2018-10-11 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Sprachenergieerkennung |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
WO2019126880A1 (en) * | 2017-12-29 | 2019-07-04 | Fluent.Ai Inc. | A low-power keyword spotting system |
CN109979438A (zh) * | 2019-04-04 | 2019-07-05 | Oppo广东移动通信有限公司 | 语音唤醒方法及电子设备 |
-
2019
- 2019-07-09 CN CN201910618606.4A patent/CN112289311B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6275801B1 (en) * | 1998-11-03 | 2001-08-14 | International Business Machines Corporation | Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems |
JP2004033673A (ja) * | 2002-06-21 | 2004-02-05 | Trustees Of The Univ Of Pennsylvania | 脳内発作発現を予測し検出する統合確率フレームワークおよび多重治療デバイス |
CN104080140A (zh) * | 2013-03-29 | 2014-10-01 | 南京邮电大学 | 一种移动自组织网络中基于信任评估的协作通信方法 |
US20180090152A1 (en) * | 2016-09-28 | 2018-03-29 | Panasonic Intellectual Property Corporation Of America | Parameter prediction device and parameter prediction method for acoustic signal processing |
DE102018002679A1 (de) * | 2017-04-05 | 2018-10-11 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Sprachenergieerkennung |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
WO2019126880A1 (en) * | 2017-12-29 | 2019-07-04 | Fluent.Ai Inc. | A low-power keyword spotting system |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN109979438A (zh) * | 2019-04-04 | 2019-07-05 | Oppo广东移动通信有限公司 | 语音唤醒方法及电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
CN113241059A (zh) * | 2021-04-27 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112289311B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN103971680B (zh) | 一种语音识别的方法、装置 | |
CN103065631B (zh) | 一种语音识别的方法、装置 | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
CN110767231A (zh) | 一种基于时延神经网络的声控设备唤醒词识别方法及装置 | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN110634468B (zh) | 语音唤醒方法、装置、设备及计算机可读存储介质 | |
CN111754982A (zh) | 语音通话的噪声消除方法、装置、电子设备及存储介质 | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
CN109545226B (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
CN112289311B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN111968644A (zh) | 智能设备唤醒方法、装置及电子设备 | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
CN112669822A (zh) | 音频处理方法、装置、电子设备和存储介质 | |
CN112233676A (zh) | 智能设备唤醒方法、装置、电子设备及存储介质 | |
CN111326146A (zh) | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 | |
CN112669818B (zh) | 语音唤醒方法及装置、可读存储介质、电子设备 | |
CN113851113A (zh) | 模型训练方法及装置、语音唤醒方法及装置 | |
CN111696555A (zh) | 一种唤醒词的确认方法及系统 | |
CN110164431B (zh) | 一种音频数据处理方法及装置、存储介质 | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN113889098A (zh) | 命令词识别方法、装置、移动终端和可读存储介质 | |
CN113362830A (zh) | 一种语音助手的开启方法、控制方法、系统及存储介质 | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |