CN112951211B

CN112951211B - 一种语音唤醒方法及装置

Info

Publication number: CN112951211B
Application number: CN202110437391.3A
Authority: CN
Inventors: 黎塔; 刘作桢; 张鹏远; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-10-18
Anticipated expiration: 2041-04-22
Also published as: CN112951211A

Abstract

本申请实施例公开了一种语音唤醒方法及装置，方法包括：接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块，对关键词进行优化，加强了建模效果；依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统，提高了识别关键词的能力。

Description

一种语音唤醒方法及装置

技术领域

本发明涉及语音识别技术领域。尤其涉及一种语音唤醒方法及装置。

背景技术

语音唤醒技术作为语音识别领域的一个子领域，是人机交互领域的重要研究内容之一。

语音唤醒技术在语音流中检测指定关键词并在第一时间触发唤醒系统。通常的语音唤醒技术需要大量的关键词数据来进行训练，收集和标注数据需要耗费大量的资源，且关键词只能使用预先设置好的词。随着语音唤醒技术日渐成熟，用户个人定制关键词的需求逐渐增多，传统方法难以完成要求。常规自定义唤醒采用通用语音识别模型，对解码网络进行优化，只保存关键词相关路径。但这种方法模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源。

发明内容

本发明实施例提出一种语音唤醒方法及装置，用于解决通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源的问题。该技术方案如下：

第一方面，本申请实施例提出一种语音唤醒方法，包括：

接收用户语音；

提取所述用户语音中每一帧的声学特征；

将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率；其中，所述第一音素序列是预定义的关键词的音素序列；

对所述后验概率进行最小编辑距离加和置信度判决；

若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

在一种可能的实现中，所述训练后的关键词偏置声学模型包括：RNN-T网络和注意力偏置模块；

所述RNN-T网络，包括声学编码器、文本编码器和联合建模编码器；其中，所述联合建模编码器与一个softmax函数连接，所述softmax函数的输出作为所述RNN-T网络的最终输出；

所述注意力偏置模块，包括关键词编码器和注意力模块。

在一种可能的实现中，所述方法还包括：

根据所述关键词编码器的输出和所述文本编码器的上一状态输出，确定所述注意力模块的输出。

在一种可能的实现中，所述方法还包括：

将所述注意力偏置模块的输出与所述RNN-T网络的上一状态输出进行拼接，得到拼接结果；

将所述拼接结果输入所述文本编码器中。

在一种可能的实现中，所述方法还包括：

在训练所述关键词偏置声学模型过程中，参考答案中的部分词序列和随机生成的词序列作为关键词，以音素序列的形式输入所述关键词编码器中。

在一种可能的实现中，所述方法还包括：

针对所述第一音素序列中的每一个音素，确定出其在所述用户语音中每一帧的后验概率中的最大值；

将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度；

将所述后验概率加和置信度除以第一音素序列的长度，得到第一后验概率加和置信度；

若所述第一后验概率加和置信度大于预设阈值，则确定第一用户语音；其中，所述第一用户语音为包含关键词的用户语音。

在一种可能的实现中，所述对所述后验概率进行最小编辑距离加和置信度判决，包括：

对所述第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码，得到推测序列；

根据所述第一音素序列与所述推测序列的对应关系，确定最小编辑距离概率加和置信度。

在一种可能的实现中，所述若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统，包括：

将所述最小编辑距离概率加和置信度除以第一音素序列的长度，得到第一最小编辑距离概率加和置信度；

在所述第一最小编辑距离概率加和置信度大于预设阈值的情况下，根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与所述推测序列的第二概率，确定近似似然值置信度；其中，所述第一音素序列的第一概率根据正确和替换错的时间点对应所述关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应所述关键词的音素的概率确定；所述推测序列的第二概率根据正确和替换错的时间点对应所述推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定；

将所述近似似然值置信度除以第一音素序列的长度，得到第一近似似然值置信度；

在所述第一近似似然值置信度大于预设阈值的情况下，触发所述唤醒系统。

第二方面，本申请实施例还提出一种语音唤醒装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行如第一方面及各种可能的实现中的各个步骤。

第三方面，本申请实施例还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。

由上述技术方案可知，本申请实施例通过增加一个注意力偏置模块，对关键词进行优化，加强了建模效果；依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统，提高了识别关键词的能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本申请实施例构建的关键词偏置声学模型；

图2为本申请实施例提供的一种语音唤醒方法的流程示意图；

图3为本申请实施例提供的三阶段判决示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

需要说明的是，本申请实施例的说明书和权利要求书中的术语“第一”是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一后验概率加和置信度是用于区别不同的后验概率加和置信度，而不是用于描述目标对象的特定顺序。在本申请实施例中，“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“举例来说”或者“例如”等词旨在以具体方式呈现相关概念。

在一种可能的实现中，采用通用语音识别模型识别用户语音中的关键词，触发唤醒系统。但是通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源。为此，本申请实施例提出一种语音唤醒方法。

需要说明的是，本申请提及的关键词为预设的触发唤醒系统的词语。

图1为本申请实施例构建的关键词偏置声学模型，能够实现上述语音唤醒方法。参见图1，该关键词偏置声学模型包括：RNN-T网络和注意力偏置模块，用于加强模型中对关键词信息的建模。RNN-T网络包括声学编码器Encoder，

其中，x_t为输入的声学特征；文本编码器Pred.Network，

其中，y_u-1为RNN-T网络的上一状态输出；联合建模编码器Joint Nerwork，

所述联合建模编码器与一个softmax函数连接，所述softmax函数的输出作为所述RNN-T网络的最终输出。注意力偏置模块包括关键词编码器Keyword Encoder和注意力模块Attention。根据关键词编码器的输出k^enc和上述文本编码器的上一状态输出

确定注意力模块的输出。将注意力偏置模块的输出与RNN-T网络的上一状态输出进行拼接，得到拼接结果；将该拼接结果输入上述文本编码器中。

在本申请实施例中，上述声学编码器为一个三层门控循环单元层，每层包含128个隐藏单元。上述文本编码器为一个一层门控循环单元层，每层包含64个隐藏单元。上述联合建模编码器包括一个全连接层，包含256个隐藏单元，每个神经元的激活函数是tanh函数，之后接softmax函数进行分类，利用RNN-T损失函数进行优化。

关键词以音素序列的形式输入关键词编码器，音素列表为67个无调音素。

关键词编码器为一个67维映射到64维的嵌入表示。

注意力模块是一个加性注意力机制，计算方法如下：

其中，w，A，B为线性映射，M为关键词编码器的维数，u为矩阵的行数，i和j分别为矩阵的列数。

注意力偏置模块的输出与RNN-T网络的上一状态输出进行拼接，一起送入文本编码器中，具体来说，文本编码器计算公式变为

其中，c_t为注意力偏置模块的输出。这样可以在识别过程中使文本编码器一直接收到关键词信息，强化关键词信息的建模。

关键词偏置声学模型训练好之后，开始训练。在训练关键词偏置声学模型过程中随机选取参考答案中的部分词序列和随机生成的词序列作为关键词输入，以音素序列的形式输入关键词编码器中，来让网络接受不同的关键词输入，使系统具有更好的泛化性。上述参考答案包括任意音频及其对应的文本。随机生成的词序列为除参考答案以外的词序列。具体来说，以50％概率随机选取参考答案中2-6个字作为关键词分支输入，来模拟关键词存在于参考答案中的情况；以50％概率随机在随机生成的词序列中选取2-6个字的发音作为关键词分支输入，来模拟关键词不存在于参考答案中的情况。

由于在训练过程中已知关键词在参考答案中的部分词序列中的位置关系，可以针对对应关系生成约束向量，与注意力模块的结果计算损失函数，来约束注意力模块的关注点，加强注意力偏置模块训练效果。

如果关键词是从参考答案中的部分词序列中选择而来的，那么关键词与参考答案中的部分词序列存在对应关系，约束向量是一个在关键词存在部分全1，其余位置全0的向量；如果关键词是随机生成而来的，那么关键词与参考答案中的部分词序列不存在对应关系，约束向量是一个全0向量。根据约束向量y_i与注意力模块的结果x_i计算交叉熵损失L_CE。交叉熵损失L_CE定义如下：

其中，D为注意力模块的维数。最终关键词偏置声学模型的优化目标共同考虑两种损失函数：

L＝L_RNN-T+L_CE

其中，L_RNN-T为RNN-T网络的损失函数。

通过以上步骤可以获得训练后的关键词偏置声学模型。

图2为本申请实施例提供的一种语音唤醒方法的流程示意图，该流程示意图包括：S202—S210，解决了通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源的问题。

下面对本申请实施例提供的如图2所示的一种语音唤醒方法进行详细介绍。

在一种可能的实现中，通过以下步骤实现本申请实施例提供的语音唤醒方法：

S202，接收用户语音。

在本申请实施例中，接收到的用户语音可以为包括关键词的用户语音，也可以为不包括关键词的用户语音。

S204，提取S202中接收到的用户语音中每一帧的声学特征。

在本申请实施例中，提取到的用户语音中每一帧的声学特征为40维对数梅尔倒谱特征。

S206，将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列。其中，用户语音中每一帧的声学特征为图1中的x_t，第一音素序列为图1中的k₀...k_L。

在本申请实施例中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率后，对后验概率进行后验概率加和置信度判决。具体地，针对第一音素序列中的每一个音素，确定出其在用户语音中每一帧的后验概率中的最大值；将每一个音素在用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度；将后验概率加和置信度除以第一音素序列的长度，排除音素序列的长度对计算后验概率加和置信度带来的影响，得到第一后验概率加和置信度；若第一后验概率加和置信度大于预设阈值，则确定S202中的用户语音为包含关键词的用户语音，此处将包含关键词的用户语音称作第一用户语音。上述步骤为粗过滤过程，初步过滤掉S202中不包含关键词的用户语音。

S208，对后验概率进行最小编辑距离加和置信度判决。

在本申请实施例中，继S206粗过滤得到第一用户语音之后，对第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码，得到推测序列；根据第一音素序列与推测序列的对应关系，确定最小编辑距离概率加和置信度。具体地，令R＝{r₁，r₂，...，r_m}为第一音素序列，对第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码得到推测序列

其中上标t₁为对应音素h_l的时间点。推测序列与第一音素序列计算最小编辑距离，最小编辑距离加和置信度计算公式为：

其中

N为第一音素序列中音素的个数。p_d1，p_d2为预设的惩罚系数。

为t_j时刻r_i音素的概率。在编辑距离的计算过程中，可以获得推测序列H与第一音素序列R中音素的一一对应关系，当对应关系为替换错或正确的时间点，当前推测序列中的音素在R中有对应的音素，取t_j时刻r_i音素的概率加到置信度得分中。当对应关系为删除错的时间点，第一音素序列中某音素在当前推测序列中没有对应音素，取预设的惩罚系数p_d1加到置信度得分中。当对应关系为插入错的时间点，当前推测序列中音素在参考答案中没有对应音素，取预设的惩罚系数p_d2加到置信度得分中，最终得到最小编辑距离加和置信度。

S210，若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

在本申请实施例中，将最小编辑距离概率加和置信度除以第一音素序列的长度，排除音素序列的长度对计算最小编辑距离加和置信度带来的影响，得到第一最小编辑距离概率加和置信度；在第一最小编辑距离概率加和置信度大于预设阈值的情况下，根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与推测序列的第二概率，确定近似似然值置信度，即进行近似似然值置信度判决；其中，第一音素序列的第一概率根据正确和替换错的时间点对应关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应关键词的音素的概率确定；推测序列的第二概率根据正确和替换错的时间点对应推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定。具体地，近似似然值置信度的定义为：

Confindence＝P(w⁺|x)-P(w|x)

其中，P(w⁺+x)为第一音素序列的最高概率，P(w|x)为推测序列的最高概率。通常似然值的计算需要通过束集搜索来进行，这里可以利用最小编辑距离加和置信度判决之后的编辑距离结果来进行近似计算：

通过上述方法得到近似似然值置信度以后，将其除以第一音素序列的长度，排除音素序列的长度对计算近似似然值置信度带来的影响，得到第一近似似然值置信度；在第一近似似然值置信度大于预设阈值的情况下，触发唤醒系统。

由上述分析可知，在依次进行的后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决三阶段判决中，如图3所示，只有通过所有三阶段判决才视为触发唤醒系统，只要其中有一个判决不通过，则直接视为负样本。

本申请实施例提供一种语音唤醒装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

接收用户语音；

提取所述用户语音中每一帧的声学特征；

对所述后验概率进行最小编辑距离加和置信度判决；

若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统；

其中，所述训练后的关键词偏置声学模型包括：RNN-T网络和注意力偏置模块；

所述注意力偏置模块，包括关键词编码器和注意力模块；

所述方法还包括：

若所述第一后验概率加和置信度大于预设阈值，则确定第一用户语音；其中，所述第一用户语音为包含关键词的用户语音；

所述对所述后验概率进行最小编辑距离加和置信度判决，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述拼接结果输入所述文本编码器中。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统，包括：

6.一种语音唤醒装置，其特征在于，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

如权利要求1-5任一项所述的方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。