CN110610707B

CN110610707B - 语音关键词识别方法、装置、电子设备和存储介质

Info

Publication number: CN110610707B
Application number: CN201910891598.0A
Authority: CN
Inventors: 申凯; 张滔
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-04-22
Anticipated expiration: 2039-09-20
Also published as: CN110610707A

Abstract

本发明实施例提供一种语音关键词识别方法、装置、电子设备和存储介质，其中方法包括：提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率；将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果；所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及所述样本词的关键词标识训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质，能够提高识别精度，避免相似词的误判问题，提高响应准确率，优化用户体验。

Description

语音关键词识别方法、装置、电子设备和存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音关键词识别方法、装置、电子设备和存储介质。

背景技术

随着科技的发展，语音唤醒技术在电子设备中的应用越来越广泛，极大程度上便利了用户对电子设备的操作，允许用户与电子设备之间无需手动交互，即可通过语音关键词激活电子设备中相应的处理模块。

现有语音唤醒场景下，通常需要支持几十甚至上百个关键词。当前的语音关键词识别方法通常是以声学状态为单位计算置信度得分，并将总分与总分门限进行比较，确定识别结果。将通过上述方法得到的识别结果应用于语音唤醒，相似词汇的总分相近且都高于总分门限时，将会导致错误响应，影响用户体验。

发明内容

本发明实施例提供一种语音关键词识别方法、装置、电子设备和存储介质，用以解决现有的语音关键词识别准确性低的问题。

第一方面，本发明实施例提供一种语音关键词识别方法，包括：

提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率；

将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果；所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及所述样本词的关键词标识训练得到的。

优选地，所述关键词识别模型包括词级特征编码层和置信度判决层；

对应地，所述将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果，具体包括：

将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至所述词级特征编码层，得到所述词级特征编码层输出的所述待识别词的词级特征向量；

将所述词级特征向量输入至所述置信度判决层，得到所述置信度判决层输出的所述关键词识别结果。

优选地，所述词级特征编码层包括特征编码层、特征计分层和特征融合层；

对应地，所述将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至所述词级特征编码层，得到所述词级特征编码层输出的所述待识别词的词级特征向量，具体包括：

将所述语音数据中任一音素对应的每一帧的所述声学状态后验概率分布向量输入至所述特征编码层，得到所述特征编码层输出的所述任一音素的音素级特征向量；

将所述语音数据中任一音素的所述音素级特征向量输入至所述特征计分层，得到所述特征计分层输出的所述任一音素的特征分值；所述特征分值用于表征所述任一音素的音素级特征向量的分布状态；

将所述语音数据中每一音素的所述音素级特征向量和所述特征分值输入至所述特征融合层，得到所述特征融合层输出的所述待识别词的词级特征向量。

优选地，所述将所述语音数据中任一音素的所述音素级特征向量输入至所述特征计分层，得到所述特征计分层输出的所述任一音素的特征分值，具体包括：

将任一所述音素的统计特征向量以及所述音素级特征向量输入至所述特征计分层，得到所述特征计分层输出的所述任一音素的特征分值；

其中，所述统计特征向量是基于所述任一音素的时长和/或所述任一音素中声学状态的时长确定的。

优选地，所述将所述语音数据中每一音素的所述音素级特征向量和所述特征分值输入至所述特征融合层，得到所述特征融合层输出的所述待识别词的词级特征向量，具体包括：

基于任一所述音素的特征分值，确定所述任一音素的权重；所述任一音素的音素级特征向量的分布状态越分散，则所述任一音素的权重越大；

基于每一所述音素的权重，对所述每一音素的音素级特征向量进行加权，得到所述待识别词的词级特征向量。

优选地，所述将所述词级特征向量输入至所述置信度判决层，得到所述置信度判决层输出的所述关键词识别结果，具体包括：

基于所述词级特征向量，确定所述待识别词的置信度概率；

基于所述置信度概率和预设置信度阈值，确定所述关键词识别结果。

优选地，当存在多个关键词时，所述置信度判决层包括多分类器；

对应地，所述基于所述词级特征向量，确定所述待识别词的置信度概率，具体包括：

将所述词级特征向量输入至所述多分类器，得到所述多分类器输出的针对每一所述关键词的置信度概率。

第二方面，本发明实施例提供一种语音关键词识别装置，包括：

帧级特征确定单元，用于提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率；

关键词识别单元，用于将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果；所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及所述样本词的关键词标识训练得到的。

对应地，所述关键词识别单元包括：

词级特征编码子单元，用于将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至所述词级特征编码层，得到所述词级特征编码层输出的所述待识别词的词级特征向量；

置信度判决子单元，用于将所述词级特征向量输入至所述置信度判决层，得到所述置信度判决层输出的所述关键词识别结果。

对应地，所述词级特征编码子单元包括：

音素级特征编码子单元，用于将所述语音数据中任一音素对应的每一帧的所述声学状态后验概率分布向量输入至所述特征编码层，得到所述特征编码层输出的所述任一音素的音素级特征向量；

特征分值确定子单元，用于将所述语音数据中任一音素的所述音素级特征向量输入至所述特征计分层，得到所述特征计分层输出的所述任一音素的特征分值；所述特征分值用于表征所述任一音素的音素级特征向量的分布状态；

词级特征确定子单元，用于将所述语音数据中每一音素的所述音素级特征向量和所述特征分值输入至所述特征融合层，得到所述特征融合层输出的所述待识别词的词级特征向量。

优选地，所述特征分值确定子单元具体用于：

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种语音关键词识别方法、装置、电子设备和存储介质，基于每一帧的声学状态后验概率分布向量进行关键词识别，相比与现有技术中仅应用帧所属声学状态的后验概率进行关键词识别，声学状态后验概率分布向量具有更加丰富的信息，使得相似发音的词具有更大的区分性，能够有效提高识别精度，避免相似词的误判问题，提高响应准确率，优化用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音关键词识别方法的流程示意图；

图2为本发明实施例提供的基于关键词识别模型的关键词识别方法的流程示意图；

图3为本发明实施例提供的词级特征向量的确定方法的流程示意图；

图4为本发明另一实施例提供的语音关键词识别方法的流程示意图；

图5为本发明实施例提供的语音关键词识别装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音作为是人类最自然的交流方式之一，是人机交互的未来趋势。语音唤醒场景下，用户可以通过说出关键词来唤醒电子设备，使电子设备进入到等待语音指令的状态，或使电子设备直接执行相应指令操作。此处，关键词可以是充当人机交互开关的唤醒词，例如“siri”、“蛋蛋你好”，也可以是指示电子设备执行相应指令操作的命令词，例如“上一页”、“下一页”、“关机”等。然而当前的众多电子设备依赖一个非语音输入的开关充当唤醒词的角色，如常见的“即按即说”模式，需要用户手动实现语音收音识别器的显示触发和启动，这一类交互方式需要刻意培养用户习惯，不利于语音交互的普及，在易用性和便利性上都大打折扣；而已存在的“连续监听”的唤醒方案，通常基于每一帧所属的声学状态的后验概率计算置信度得分，并将总分与总分门限进行比较，进行关键词判决，鲁棒性较差，时常将背景噪声误解为关键词，以及将发音与关键词相似的语音误解为关键词导致错误响应，尤其在多关键词场景下，错误响应尤为严重。例如“蛋蛋你好”和“笨蛋你好”、“上一页”和“下一页”，这些词都只有一字之差，对应的语音总分相差较小但均高于划定的总分门限，极易混淆导致错误响应，非常影响用户体验。

针对上述问题，本发明实施例提供了一种语音关键词识别方法。图1为本发明实施例提供的语音关键词识别方法的流程示意图，如图1所示，该方法包括：

步骤110，提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的声学状态后验概率分布向量包括该帧相对于多个声学状态的后验概率。

此处，待识别词即需要进行关键词识别的词，待识别词对应的语音数据即包含有待识别词的语音数据，该语音数据可以通过拾音设备得到，此处拾音设备可以是智能手机、平板电脑，还可以是智能电器例如音响、电视和空调等，拾音设备在经过麦克风阵列拾音得到语音数据后，还可以对语音数据进行放大和降噪，本发明实施例对此不作具体限定。

在得到语音数据后，可以从语音数据中提取每一帧的声学特征，进而得到每一帧的声学状态后验概率分布向量。此处，任一帧的声学状态后验概率分布向量为多维向量，其中包含该帧相对于多个预先设定的声学状态的后验概率。进一步地，任一帧相对于每一声学状态均存在一个后验概率，用于表征该帧属于每一声学状态的概率。假设预先设定的声学状态个数为N，N为大于1的正整数，由此得到任一帧的声学状态后验概率分布向量的大小即为1×N。

此处，语音数据中每一帧的声学状态后验概率分布向量的提取可以基于预先训练的声学模型实现，例如对语音数据进行分帧加窗后，通过快速傅里叶变换FFT提取每一帧的声学特征，例如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征或感知线性预测(Perceptual Linear Predictive，PLP)特征等，随即将声学特征输入至预先训练好的声学模型中，得到声学模型输出的每一帧的声学状态后验概率分布向量。

步骤120，将语音数据中每一帧的声学状态后验概率分布向量输入至关键词识别模型，得到关键词识别模型输出的待识别词对应的关键词识别结果；关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及样本词的关键词标识训练得到的。

现有技术中，在基于语音数据中的每一帧进行关键词识别时，通常应用的是每一帧所属的声学状态的后验概率。此处，任一帧所属的声学状态的后验概率是一个具体的值。假设任一帧所属的声学状态为s_i，该帧所属的声学状态的后验概率为P(o|s_i)，在发音不标准的情况下，P(o|s_i)与该帧相对于其余各个声学状态的后验概率的差距可能较小，该帧也极有可能属于其余声学状态，此时如果仅利用每一帧所属的声学状态的后验概率P(o|s_i)进行关键词识别，而忽略其余各个声学状态的后验概率，极易导致词语混淆引发错误响应。

此处，关键词识别模型为预先训练好的模型，用于基于输入的语音数据中每一帧的声学状态后验概率分布向量，判断语音数据对应的待识别词是否为关键词，并输出关键词识别结果。此处，关键词识别结果可以为“是”或“否”，“是”用于表征语音数据对应的待识别词为关键词，“否”用于表征语音数据对应的待识别词不是关键词。此外，当存在多个关键词时，关键词识别结果还可以为其中任一关键词或非关键词，本发明实施例对此不作具体限定。

另外，在执行步骤120之前，还可以预先训练得到关键词识别模型，具体可通过如下方式训练得到关键词识别模型：首先，收集大量样本词对应的语音数据，并得到每一样本词中每一样本帧的样本声学状态后验概率分布向量，同时确定样本词的关键词标识。其中样本词对应的语音数据可以是从各个场景中得到的，例如车载场景、家居场景、学校场景等，样本词中每一样本音素的样本声学状态后验概率分布向量同样可以基于步骤110得到，样本词的关键词标识用于指示样本词是否为关键词，关键词标识可以是人工标定的。基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及样本词的关键词标识对初始模型进行训练，从而得到关键词识别模型。其中，初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合，本发明实施例不对初始模型的类型和结构作具体限定。

本发明实施例提供的方法，基于每一帧的声学状态后验概率分布向量进行关键词识别，相比与现有技术中仅应用帧所属声学状态的后验概率进行关键词识别，声学状态后验概率分布向量具有更加丰富的信息，使得相似发音的词具有更大的区分性，能够有效提高识别精度，避免相似词的误判问题，提高响应准确率，优化用户体验。

基于上述实施例，该方法中，关键词识别模型包括词级特征编码层和置信度判决层；对应地，图2为本发明实施例提供的基于关键词识别模型的关键词识别方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，将语音数据中每一帧的声学状态后验概率分布向量输入至词级特征编码层，得到词级特征编码层输出的待识别词的词级特征向量。

具体地，词级特征编码层用于对待识别词对应的语音数据中每一帧的声学状态后验概率分布向量进行编码压缩，进而得到并输出待识别词的词级特征向量。此处，词级特征向量可以是词级特征编码层先将待识别词的每一音素下的每一帧的声学状态后验概率分布向量进行编码压缩，得到每一音素的音素级特征向量，再对每一音素的音素级特征向量进行编码压缩得到的，也可以是直接对语音数据中的全部帧的声学状态后验概率分布向量进行编码压缩得到的，本发明实施例对此不作具体限定。

步骤122，将词级特征向量输入至置信度判决层，得到置信度判决层输出的关键词识别结果。

具体地，置信度判决层用于确定输入的词级特征向量的置信度，进而判断词级特征向量对应的待识别词是否为关键词，并输出关键词识别结果。此处，置信度判决层可以是基于样本词的样本词级特征向量和关键词标识训练得到的。

例如，关键词识别结果可以通过下式得到：

S＝sigmoid(W×H_word+B)；

式中，S即待识别词的关键词识别结果，S为0或1，sigmoid为激活函数，H_word为词级特征向量，W和B为通过样本词级特征向量和关键词标识训练得到的模型参数。

基于上述任一实施例，该方法中，词级特征编码层包括特征编码层、特征计分层和特征融合层；对应地，图3为本发明实施例提供的词级特征向量的确定方法的流程示意图，如图3所示，步骤121具体包括：

步骤1211，将语音数据中任一音素对应的每一帧的声学状态后验概率分布向量输入至特征编码层，得到特征编码层输出的该音素的音素级特征向量。

具体地，针对语音数据中的任一音素，按照语音数据的音素边界，确定该音素对应的多个帧，并由特征编码层压缩该音素对应的多个帧的声学状态后验概率分布向量，得到该音素的音素级特征向量。需要说明的是，由此得到的音素级特征向量是音素级的声学状态后验概率分布向量，音素级特征向量中包含该音素相对于每一预先设定的声学状态的后验概率，音素级特征向量的大小为1×N。其中，该音素相对于任一声学状态的后验概率，均是基于该音素中每一帧相对于该声学状态的后验概率得到的。

此外，在执行步骤1211之前，可以基于预先训练的声学模型和语言模型对从语音数据中提取的声学特征进行解码，在解码过程中确定语音数据对应的音素，进而得到语音数据的音素边界，以确定语音数据中的各个音素分别对应的帧。

步骤1212，将语音数据中任一音素的音素级特征向量输入至特征计分层，得到特征计分层输出的该音素的特征分值；特征分值用于表征该音素的音素级特征向量的分布状态。

具体地，音素级特征向量中包含相对于每一预先设定的声学状态的后验概率，特征分值用于表征音素级特征向量中各个声学状态后验概率的分布状态，此处的分布状态可以用方差、标准差等能够体现数据分布离散程度的参数表示。需要说明的是，分布状态可以反映音素对应发音的准确程度，分布越分散，则发音有误的概率越高，分布越集中，则发音越准确。

特征分值与分布状态相关联，可以预先设定音素级特征向量的分布越分散，则特征分值越低，分布越集中，则特征分值越高，或者还可以预先设定音素级特征向量的分布越集中，则特征分值越低，分布越分散，则特征分值越高，本发明实施例对此不作具体限定。

特征计分子模块用于评估输入的音素级特征向量的分布状态，并输出对应的特征分值。特征计分子模块可以是预先由样本音素级特征向量及其对应的样本特征分值训练得到的神经网络模型，也可以是预先设定的音素级特征向量的分布状态和特征分值之间的映射关系。

步骤1213，将语音数据中每一音素的音素级特征向量和特征分值输入至特征融合层，得到特征融合层输出的待识别词的词级特征向量。

具体地，在得到每一音素的特征分值后，将每一音素的音素级特征向量和特征分值输入至特征融合层，以实现各个音素级特征向量的融合，得到词级特征向量。此处，特征融合层可以基于各个音素的特征分值确定各个音素的权重，进而对各个音素的音素级特征向量进行加权压缩，得到词级特征向量，还可以基于各个音素的特征分值确定各个音素的权重，进而对各个音素的音素级特征向量进行加权相加，得到词级特征向量；特征融合层还可以是预先由样本词对应的每一样本音素的样本音素级特征向量、样本特征分值以及样本词级特征向量训练得到的，本发明实施例对此不作具体限定。

需要说明的是，基于每一音素的音素级特征向量和特征分值得到的词级特征向量，能够加强分布状态更为分散的音素级特征向量中包含的信息，以避免发音可能有误的音素级特征向量中包含的信息被多数发音准确的音素级特征向量中包含的信息所稀释，从而使得关键词的识别具有更强的区分性。

本发明实施例提供的方法，基于特征计分层评估音素级特征向量的分布状态，得到特征分值，通过将每一音素的音素级特征向量和特征分值输入至特征融合层，得到发音有误的信息更为突出的词级特征向量，从而提高语音关键词识别的区分性，能够更好地区分发音相似的语音，避免错误响应。

基于上述任一实施例，该方法中，步骤1211具体包括：将任一音素对应的每一帧的声学状态后验概率分布向量输入至由长短时记忆网络构建的特征编码层，得到特征编码层输出的该音素的音素级特征向量。

具体地，长短时记忆网络(Long Short Term Memory Network，LSTM)是一种时间循环神经网络。本发明实施例中，将长短时记忆网络应用于特征编码层的构建，以实现帧的声学状态后验概率分布向量的压缩。针对任一音素对应的第t帧，第t帧的隐层输出为h_t＝LSTM(w_t,h_t-1)，其中h_t为第t帧的隐层向量，w_t为第t帧的声学状态后验概率分布向量，h_t-1为第t-1帧的隐层向量。在编码结束后，将音素的最后一帧的隐层向量作为音素的音素级特征向量。

基于上述任一实施例，该方法中，步骤1212具体包括：将任一音素的统计特征向量以及音素级特征向量输入至特征计分层，得到特征计分层输出的该音素的特征分值；其中，统计特征向量是基于该音素的时长和/或该音素中声学状态的时长确定的。

具体地，在执行步骤1212之前，还需要确定任一音素的统计特征向量。在基于预先训练的声学模型和语言模型对从语音数据中提取的声学特征进行解码的过程中，可以确定语音数据对应的音素，以及每一音素中包含的声学状态。由此可以统计得出任一音素的时长，任一音素中各个声学状态的时长，进而得到该音素的统计特征向量。此处，统计特征向量可以是该音素的时长，也可以是该音素中每一声学状态的时长，还可以是该音素中每一声学状态的时长与该音素的时长之比等，本发明实施例对此不作具体限定。

对应地，特征计分子模块可以是预先由样本音素的样本统计向量和样本音素级特征向量及其对应的样本特征分值训练得到的神经网络模型，特征分值模型可以包括两层长短时记忆网络和两层深度神经网络，也可以是其余任意类型和结构的神经网络，本发明实施例对此不作具体限定。

本发明实施例提供的方法，将统计特征向量作为评估音素特征分值的依据，为特征分值的评估提供更加丰富的信息，以提高后续进行关键词识别的准确性。

基于上述任一实施例，该方法中，统计特征向量包括该音素的时长、该音素中声学状态的时长、声学状态的时长均值和声学状态的时长方差中的至少一种。例如，任一音素的统计特征向量可以是由该音素的时长和该音素中各个声学状态时长拼接而成的一维向量，也可以是由该音素中各个声学状态时长的均值和方差拼接而成的一维向量，还可以是由该音素的时长、该音素中各个声学状态时长，以及各个声学状态时长的均值和方差拼接而成的一维向量，本发明实施例对此不作具体限定。

基于上述任一实施例，该方法中，步骤1213具体包括：

步骤(1)，基于任一音素的特征分值，确定该音素的权重；该音素的音素级特征向量的分布状态越分散，则该音素的权重越大。

假设音素级特征向量的分布越分散，则特征分值越低，分布越集中，则特征分值越高，则在确定音素的权重时，特征分值与音素的权重负相关，特征分值越低则对应的权重越高；假设音素级特征向量的分布越集中，则特征分值越低，分布越分散，则特征分值越高，则在确定音素的权重时，特征分值与音素的权重正相关。

例如，特征分值的取值范围在0至1之间，音素级特征向量的分布越集中，则特征分值越高，对应的权重可以记为1-α_p，其中α_p为第p个音素的特征分值；又例如，音素级特征向量的分布越分散，则特征分值越高，对应的权重可以记为

其中P为待识别词所包含的音素总数。

步骤(2)，基于每一音素的权重，对待识别词所包含的每一音素的音素级特征向量进行加权，得到待识别词的词级特征向量。

具体地，词级特征向量可以通过如下公式得到：

式中，H_word为词级特征向量，β_p为第p个音素的权重，h_p为第p个音素的音素级特征向量。

基于上述任一实施例，该方法中，步骤122具体包括：

步骤1221，基于词级特征向量，确定待识别词的置信度概率。

此处，待识别词的置信度概率是指待识别词为关键词的概率。待识别词的置信度概率可以通过将待识别词的词级特征向量与关键词的词级特征向量进行匹配得到，也可以将待识别词的词级特征向量输入到预先训练好的置信度模型中得到，本发明实施例对此不作具体限定。

步骤1222，基于置信度概率和预设置信度阈值，确定关键词识别结果。

具体地，预设置信度阈值为预先设定的确定待识别词为关键词的最小置信度概率。若置信度概率大于等于预设置信度阈值，则确定待识别词为关键词，若置信度概率小于预设置信度阈值，则确定待识别词不是关键词，并由此确定关键词识别结果。

基于上述任一实施例，该方法中，当存在多个关键词时，置信度判决层包括多分类器。对应地，步骤1221具体包括：将词级特征向量输入至多分类器，得到多分类器输出的针对每一关键词的置信度概率。

此处，多分类器用于实现待识别词的词级特征向量与每一关键词的词级特征向量的匹配，进而得到待识别词针对每一关键词的置信度概率。若针对多个关键词的置信度概率均大于预设置信度阈值，则选取置信度概率最大的关键词作为关键词识别结果。例如，当前存在A、B、C三个关键词，将待识别词的词级特征向量输入至多分类器中，即可得到多分类器输出的待识别词针对A、B、C的置信度概率，假设预设置信度阈值为80％，待识别词针对A、B、C的置信度概率分别为95％、82％和20％，则确定待识别词的关键词识别结果为关键词A。

基于上述任一实施例，图4为本发明另一实施例提供的语音关键词识别方法的流程示意图，如图4所示，该方法包括如下步骤：

首先，采集待识别词对应的语音数据，并对语音数据进行分帧加窗，通过FFT变换提取声学特征，将声学特征输入声学模型中，以提取语音数据中每一帧的声学状态后验概率分布向量。假设预先设定的声学状态个数为N，则任一帧的声学状态后验概率分布向量的大小即为1×N。

其次，针对语音数据中的任一音素，按照语音数据的音素边界，确定该音素对应的多个帧，进而确定该音素对应的每一帧的声学状态后验概率分布向量。图4中，声学状态后验概率分布向量上方的大括号用于表示音素与帧的对应关系。此处，音素与帧的对应关系是通过对声学特征进行解码得到的。

此后，根据音素与帧的对应关系，统计得出待识别词的每一音素的时长，以及音素中各个声学状态的时长，进而得到每一音素的统计特征向量。此处，统计特征向量是由音素的时长、音素中声学状态的时长、声学状态的时长均值和声学状态的时长方差等统计量拼接而成的一维向量。

随即，将待识别词的每一帧的声学状态后验概率分布向量，以及每一音素的统计特征向量输入到关键词识别模型中：

将每一音素下每一帧的声学状态后验概率分布向量输入至由长短时记忆网络构建的特征编码层，由特征编码层实现针对每一音素下每一帧的声学状态后验概率分布向量的压缩，将该音素的最后一帧的隐层向量作为该音素的音素级特征向量。假设待识别词包括P个音素，则对应地特征编码层输出P个音素级特征向量h_p，其中p＝1,2,…,P。

将音素级特征向量h_p与第p个音素的统计特征向量进行拼接，并输入至关键词识别模型中的特征计分层，由特征计分层评估输入的音素级特征向量的分布状态，并输出对应的特征分值。此处，特征计分层的结构为两层长短时记忆网络+两层深度神经网络。通过特征计分层可以得到每一音素对应的特征分值α_p，α_p的取值在0至1之间，分布越集中的音素特征向量，其对应的音素特征分值越接近1。

将由特征编码层输出的P个音素级特征向量h_p与特征计分层输出的P个音素的特征分值α_p输入至关键词识别模型中的特征融合层，由特征融合层基于如下公式对音素级特征向量h_p进行加权，得到并输出词级特征向量H_word：

将词级特征向量H_word输入至关键词识别模型中的置信度判决层，置信度判决层通过下式得到待识别词的关键词识别结果S并输出：

S＝sigmoid(W×H_word+B)；

式中，S为0或1，用于表征待识别词为关键词或非关键词；W和B为通过样本词级特征向量和关键词标识训练得到的模型参数。

基于上述任一实施例，图4示出的语音关键词识别方法可用于实现唤醒词的识别，进而判断是否根据采集得到的语音数据唤醒电子设备。在执行唤醒词的识别之前，还需要执行如下步骤：

将唤醒词作为预先设定的关键词，收集唤醒词以及误唤醒词分别对应的样本语音数据，并标记样本语音数据对应的唤醒词标识。此处，唤醒词标识即关键词为唤醒词时的关键词标识，用于指示对应的样本语音数据为唤醒词或误唤醒词。样本语音数据的总时长约为4000小时，唤醒词以及误唤醒词分别对应的样本语音数据的比例约为1:1，其中误唤醒词对应的样本语音数据需要覆盖多样场景。

基于声学模型提取样本语音数据中各帧的样本声学状态后验概率分布向量和样本语音数据对应的唤醒词标识对关键词识别模型进行训练，通过反向梯度传播对关键词识别模型的参数进行更新，训练结束后可用于唤醒词识别的关键词识别模型。具体训练时，损失函数如下式所示：

此处的损失函数包括词级特征向量的损失∑_wordp(word)*logq(word)，以及音素级特征向量的损失∑_phonep(phone)*logq(phone)。其中p(word)和q(word)分别为词级特征向量的真实分布和非真实分布，∑_wordp(word)*logq(word)为词级特征向量的交叉熵；p(phone)和q(phone)分别为音素级特征向量的真实分布和非真实分布，∑_phonep(phone)*logq(phone)为音素级特征向量的交叉熵。

基于上述任一实施例，图5为本发明实施例提供的语音关键词识别装置的结构示意图，如图5所示，语音关键词识别装置包括帧级特征确定单元510和关键词识别单元520；

其中，帧级特征确定单元510用于提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率；

关键词识别单元520用于将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果；所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及所述样本词的关键词标识训练得到的。

本发明实施例提供的装置，基于每一帧的声学状态后验概率分布向量进行关键词识别，相比与现有技术中仅应用帧所属声学状态的后验概率进行关键词识别，声学状态后验概率分布向量具有更加丰富的信息，使得相似发音的词具有更大的区分性，能够有效提高识别精度，避免相似词的误判问题，提高响应准确率，优化用户体验。

基于上述任一实施例，该装置中，所述关键词识别模型包括词级特征编码层和置信度判决层；

对应地，所述关键词识别单元520包括：

基于上述任一实施例，该装置中，所述词级特征编码层包括特征编码层、特征计分层和特征融合层；

对应地，所述词级特征编码子单元包括：

基于上述任一实施例，该装置中，所述特征分值确定子单元具体用于：

基于上述任一实施例，该装置中，所述词级特征确定子单元具体用于：

基于上述任一实施例，该装置中，所述置信度判断子单元包括：

置信度确定模块，用于基于所述词级特征向量，确定所述待识别词的置信度概率；

关键词识别模块，用于基于所述置信度概率和预设置信度阈值，确定所述关键词识别结果。

基于上述任一实施例，该装置中，当存在多个关键词时，所述置信度判决层包括多分类器；

对应地，所述置信度确定模块具体用于：

将所述词级特征向量输入至所述多分类器，得到所述多分类器输出的针对每一关键词的置信度概率。

图6为本发明实施例提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率；将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果；所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及所述样本词的关键词标识训练得到的。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率；将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型，得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果；所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量，以及所述样本词的关键词标识训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音关键词识别方法，其特征在于，包括：

提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧所属的声学状态的后验概率，还包括所述任一帧相对于其余各个声学状态的后验概率；

2.根据权利要求1所述的语音关键词识别方法，其特征在于，所述关键词识别模型包括词级特征编码层和置信度判决层；

3.根据权利要求2所述的语音关键词识别方法，其特征在于，所述词级特征编码层包括特征编码层、特征计分层和特征融合层；

4.根据权利要求3所述的语音关键词识别方法，其特征在于，所述将所述语音数据中任一音素的所述音素级特征向量输入至所述特征计分层，得到所述特征计分层输出的所述任一音素的特征分值，具体包括：

5.根据权利要求3所述的语音关键词识别方法，其特征在于，所述将所述语音数据中每一音素的所述音素级特征向量和所述特征分值输入至所述特征融合层，得到所述特征融合层输出的所述待识别词的词级特征向量，具体包括：

6.根据权利要求2所述的语音关键词识别方法，其特征在于，所述将所述词级特征向量输入至所述置信度判决层，得到所述置信度判决层输出的所述关键词识别结果，具体包括：

基于所述词级特征向量，确定所述待识别词的置信度概率；

7.根据权利要求6所述的语音关键词识别方法，其特征在于，当存在多个关键词时，所述置信度判决层包括多分类器；

8.一种语音关键词识别装置，其特征在于，包括：

帧级特征确定单元，用于提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量；任一帧的所述声学状态后验概率分布向量包括所述任一帧所属的声学状态的后验概率，还包括所述任一帧相对于其余各个声学状态的后验概率；

9.根据权利要求8所述的语音关键词识别装置，其特征在于，所述关键词识别模型包括词级特征编码层和置信度判决层；

对应地，所述关键词识别单元包括：

10.根据权利要求9所述的语音关键词识别装置，其特征在于，所述词级特征编码层包括特征编码层、特征计分层和特征融合层；

对应地，所述词级特征编码子单元包括：

11.根据权利要求10所述的语音关键词识别装置，其特征在于，所述特征分值确定子单元具体用于：

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的语音关键词识别方法的步骤。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音关键词识别方法的步骤。