CN113035231B

CN113035231B - 关键词检测方法及装置

Info

Publication number: CN113035231B
Application number: CN202110291276.XA
Authority: CN
Inventors: 魏博; 杨美蓉; 张涛; 唐晓; 黄星
Original assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2024-01-09
Anticipated expiration: 2041-03-18
Also published as: CN113035231A; KR20220130565A

Abstract

提供一种关键词检测方法及装置。所述方法包括：接收用户输入的语音信号；提取所述语音信号的语音特征；将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果，其中，所述关键词检测模型通过下述方式来预测所述语音信号中是否存在所述预设关键词：基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列；基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息；基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词。

Description

关键词检测方法及装置

技术领域

本公开涉及语音识别技术领域，更具体地讲，涉及一种关键词检测方法及装置。

背景技术

虚拟语音助理广泛应用于各种需要人机交互的设备中，例如车载导航、智能家居、智能手机、智能音箱等，其中一项重要的功能是语音唤醒功能，该功能可在设备处于休眠状态时，通过识别用户发出的特定的唤醒词唤醒设备，使设备从休眠状态切换到工作状态，开始为用户进行服务。此外，也有许多其他应用场景(例如，语音检索)，需要识别语音信号中是否包含特定的词语。

发明内容

本公开的示例性实施例在于提供一种关键词检测方法及装置，其能够准确检测语音信号中是否包含预设关键词。

根据本公开的示例性实施例，提供一种关键词检测方法，其中，所述方法包括：接收用户输入的语音信号；提取所述语音信号的语音特征；将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果，其中，所述关键词检测模型通过下述方式来预测所述语音信号中是否存在所述预设关键词：基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列；基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息；基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词。基于语音信号中预设关键词的位置信息来预测语音信号中是否存在预设关键词，提高了预测准确度。

可选地，所述预设关键词包括用户自定义的关键词。即，本公开支持对用户自定义的关键词的检测。

可选地，基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列的步骤包括：通过注意力机制将所述语音特征和所述预设关键词的抽象表征序列进行结合，来获取所述语音信号的抽象表征序列。通过在从语音到文本的识别过程中使用了注意力机制，便于后续基于语音信号的抽象表征序列确定预设关键词的位置信息。

可选地，基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词的步骤包括：基于所述语音信号的抽象表征序列和所述位置信息，确定所述语音信号之中所述预设关键词所在部分的抽象表征序列；通过注意力机制将所述语音信号之中所述预设关键词所在部分的抽象表征序列和所述预设关键词的抽象表征序列进行结合，来预测所述语音信号中是否存在所述预设关键词。从而能够提高预设关键词的检测准确度。

可选地，所述关键词检测模型包括：语音编码器，所述语音编码器用于预测语音信号的抽象表征序列，其中，所述语音编码器包括多个串联的子模块，每个子模块通过注意力机制将所述预设关键词的抽象表征序列注入所述语音信号的隐层抽象表征序列。通过在各个阶段强化隐层抽象表征对所述预设关键词的偏好，便于后续基于语音信号的抽象表征序列确定预设关键词的位置信息。

可选地，所述预设关键词的抽象表征序列是通过预先训练好的关键词编码器基于所述预设关键词的音素序列生成的。

可选地，所述关键词检测模型是通过多目标联合训练得到的。从而保证了端到端的关键词检测模型的全局优化，通过训练可实现全局最优，以提高检测的精度，避免了分阶段学习带来的中间特征质量差的风险和仅局部优化的问题。

可选地，所述多目标包括：预测出语音信号对应的音素序列、预测出关键词在语音信号中的位置、以及预测出语音信号中是否存在关键词。

可选地，与预测出关键词在语音信号中的位置这一目标对应的目标损失函数为：基于注意力矩阵对角线模式的位置损失函数。通过使用这一位置损失函数训练关键词检测模型，提高了关键词检测模型的检测效果。

可选地，所述方法由电子终端执行，所述关键词检测模型由所述电子终端从远端服务器获取，其中，所述关键词检测模型由所述远端服务器针对通用语料数据集训练得到。从而能够在终端实现包括自定义关键词在内的关键词检测，且不会占用电子终端过多的计算资源和存储资源。

可选地，所述方法还包括：当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，唤醒当前电子终端；或者，输出所述结果和所述位置信息。从而能够完成语音搜索、语音标注等任务。

根据本公开的另一示例性实施例，提供一种关键词检测装置，其中，所述装置包括：接收单元，接收用户输入的语音信号；特征提取单元，提取所述语音信号的语音特征；检测单元，将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果，其中，所述关键词检测模型通过下述方式来预测所述语音信号中是否存在所述预设关键词：基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列；基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息；基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词。

可选地，所述预设关键词包括用户自定义的关键词。

可选地，基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列的处理包括：通过注意力机制将所述语音特征和所述预设关键词的抽象表征序列进行结合，来获取所述语音信号的抽象表征序列。

可选地，基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词的处理包括：基于所述语音信号的抽象表征序列和所述位置信息，确定所述语音信号之中所述预设关键词所在部分的抽象表征序列；通过注意力机制将所述语音信号之中所述预设关键词所在部分的抽象表征序列和所述预设关键词的抽象表征序列进行结合，来预测所述语音信号中是否存在所述预设关键词。

可选地，所述关键词检测模型包括：语音编码器，所述语音编码器用于预测语音信号的抽象表征序列，其中，所述语音编码器包括多个串联的子模块，每个子模块通过注意力机制将所述预设关键词的抽象表征序列注入所述语音信号的隐层抽象表征序列。

可选地，所述关键词检测模型是通过多目标联合训练得到的。

可选地，与预测出关键词在语音信号中的位置这一目标对应的目标损失函数为：基于注意力矩阵对角线模式的位置损失函数。

可选地，所述装置为电子终端，所述关键词检测模型由所述电子终端从远端服务器获取，其中，所述关键词检测模型由所述远端服务器针对通用语料数据集训练得到。

可选地，所述装置还包括：唤醒单元和/或输出单元，唤醒单元，当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，唤醒当前电子终端；输出单元，当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，输出所述结果和所述位置信息。

根据本公开的另一示例性实施例，提供一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时实现如上所述的关键词检测方法。

根据本公开的另一示例性实施例，提供一种关键词检测装置，其中，所述装置包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的关键词检测方法。

根据本公开示例性实施例的关键词检测方法及装置，检测精度较高，适用于检测各类关键词，即使是针对用户自定义的关键词，检测精度也很高；且所使用的检测模型避免了繁重复杂，便于电子终端的部署和使用。并且，避免了繁重复杂的特定关键词相关数据的收集和标注工作，模型不需要针对特定关键词再训练。此外，还可输出预设关键词在语音信号中的位置，从而能够完成语音搜索、语音标注等任务。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开示例性实施例的关键词检测方法的流程图；

图2示出根据本公开示例性实施例的关键词检测方法的示例；

图3示出根据本公开示例性实施例的通过注意力机制将语音特征和预设关键词的抽象表征序列进行结合的示例；

图4示出根据本公开示例性实施例的关键词检测方法的另一示例；

图5示出根据本公开示例性实施例的通过注意力机制将所述语音信号之中所述预设关键词所在部分的抽象表征序列和预设关键词的抽象表征序列进行结合的示例；

图6示出根据本公开示例性实施例的生成预设关键词的抽象表征序列的方法的流程图；

图7示出根据本公开示例性实施例的用于端到端训练关键词检测模型和关键词编码器的训练网络；

图8示出根据本公开示例性实施例的关键词检测装置的框图。

具体实施方式

现将详细参照本公开的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

图1示出根据本公开示例性实施例的关键词检测方法的流程图。作为示例，所述方法可由电子终端来执行。例如，所述方法可通过安装在电子终端中的应用来执行，或者通过电子终端的操作系统中实现的功能程序来执行。作为示例，所述电子终端可以是移动通信终端(例如，智能手机)、智能可穿戴设备(例如，智能手表)、个人计算机、平板电脑、游戏机、数字多媒体播放器、智能家电等能够接收语音指令的电子终端。

参照图1，在步骤S101，接收用户输入的语音信号。

作为示例，所述语音信号可由电子终端上的语音录制硬件实时记录。例如，所述语音信号可为采样频率为16000Hz单通道语音流。

在步骤S102，提取所述语音信号的语音特征。

作为示例，所述语音特征可以是各种适合类型的语音特征，本公开对此不作限制。例如，所述语音特征可以是梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)，也可以是梅尔滤波器组FilterBank特征，或者其他常用的语音特征，也可以是多种语音特征的组合。

作为示例，所述语音特征可以是一个形状为t₀*f的矩阵，t₀表示语音特征序列的帧数，一帧表示采样的一段连续时间，f表示每帧语音特征的维数。

此外，作为示例，为了在尽可能保留有效信息的同时加快运行速度，还可对提取的语音特征进行前处理，并将前处理后的语音特征供步骤S103使用。例如，所述前处理可包括叠帧和下采样，应该理解，也可包括其他类型的前处理。其中，叠帧表示n个连续的帧拼接在一起作为一个大帧，下采样表示每隔m帧保留一帧，经过叠帧和下采样前处理后，语音特征的矩阵形状变为t₁*f₁，其中t₁＝t₀/m，f₁＝f*n。此外，作为示例，可将所述语音特征与位置编码向量相结合后供步骤S103使用。

在步骤S103，将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果。即，通过关键词检测模型这一端到端的模型即可实现预测语音信号中是否存在所述预设关键词。

具体地，所述关键词检测模型通过下述方式来预测所述语音信号中是否存在所述预设关键词：基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列；然后，基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息；接下来，基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词。

作为示例，所述语音信号中是否存在所述预设关键词的结果可以是：所述语音信号中存在所述预设关键词的概率和所述语音信号中不存在所述预设关键词的概率；或者，所述语音信号中存在所述预设关键词或所述语音信号中不存在所述预设关键词的二分类结果。

作为示例，所述预设关键词可包括以下项中的至少一项：系统规定的关键词、应用规定的关键词、用户自定义的关键词。作为示例，所述预设关键词可包括各种类型的关键词，例如，可包括用于唤醒当前电子终端的唤醒词。例如，所述预设关键词可包括用户自定义的唤醒词。仅作为示例，可存在以下应用场景：用户在电子终端处于休眠状态时，发出包括唤醒关键词(即，所述预设关键词)的语音命令(即，所述语音信号)，从而执行步骤S101。

在一个实施例中，基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列的步骤可包括：通过注意力机制将所述语音特征和所述预设关键词的抽象表征序列进行结合，来获取所述语音信号的抽象表征序列。即在本公开中，在从语音到文本的识别过程中使用了注意力机制。

作为示例，所述关键词检测模型可包括：语音编码器，所述语音编码器用于预测语音信号的抽象表征序列。作为示例，所述语音编码器可为自注意力语音编码器。

作为示例，所述语音编码器可相当于一个声学模型，输入为语音特征，可计算每帧音素分类的后验概率，是一个t₁*p的矩阵，t₁如前所述表示以帧划分的时间维度，p表示所有音素种类的个数，再加上其他非音素的分类项，比如空状态、空格、开始结束标志、噪音标记等。所述语音编码器可以有多种实现形式，比如深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN、Transformer自编码器等。例如，所述语音编码器可以是基于Transformer自注意力特征提取器构建的。

作为示例，所述语音编码器同时还可通过注意力机制(Attention)注入所述预设关键词的抽象表征序列，使语音编码器更加关注语音序列上可能存在所述预设关键词的部分。

作为示例，注意力机制的矩阵形式可表示为：

其中，Q表示查询query矩阵，形状是t_q*f_q，K表示键key矩阵，形状是t_k*f_k，F()表示一种向量相似性度量函数，用于比较query矩阵行向量和key矩阵行向量的相似度，所以f_q＝f_k，F()函数具体实现可以是向量点积，余弦相似性，或者是一个多层感知机或其他函数，只要满足F()函数的输出是形如t_q*t_k的矩阵即可，本公开对此不作限制，d_k表示key矩阵行向量的维数，softmax()函数用于归一化由Q和K计算得到的注意力权重，V表示值value矩阵，形状是t_v*f_v，Z表示注意力机制结果矩阵，形状为t_q*f_v。

作为示例，所述语音编码器可包括多个串联的子模块，每个子模块通过注意力机制将所述预设关键词的抽象表征序列注入所述语音信号的隐层抽象表征序列，以在各个阶段强化隐层抽象表征对所述预设关键词的偏好。例如，所述子模块可为多头自注意力机制模块Transformer解码器模块(decoder block)。应该理解，多个串联的子模块中的每一个子模块的输出作为下一个子模块的输入，最后一个子模块的输出即整个语音编码器的输出。可参照图2，例如，当所述子模块为Transformer解码器模块时，注意力层(Attention)可通过注意力机制将经归一化(Add&Norm)处理后的自注意力层(Self-attention)的输出和所述预设关键词的抽象表征序列进行结合，并将结果经归一化处理后作为线性层的输入。

参照图2和图3，作为示例，每个子模块的中间隐含表征序列(也即，隐层抽象表征序列)为H，形状为t₁*h，作为注意力机制的query矩阵。所述预设关键词的抽象表征序列W作为注意力机制的key矩阵，形状为t_w*h，通常value矩阵和key矩阵相同，所以W也作为value矩阵。经过注意力机制，中间隐含表征序列形状保持不变，仍然是t₁*h。从而所述语音编码器能够保留语音信号的时间维度信息，用于后续定位预设关键词的位置。

作为示例，所述关键词检测模型可包括：线性层Linear，所述线性层用于基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息，即，获取所述语音信号之中可能存在所述预设关键词的这一部分的位置信息。

在一个实施例中，基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词的步骤可包括：基于所述语音信号的抽象表征序列和所述位置信息，确定所述语音信号之中所述预设关键词所在部分的抽象表征序列；并通过注意力机制将所述语音信号之中所述预设关键词所在部分的抽象表征序列和所述预设关键词的抽象表征序列进行结合，来预测所述语音信号中是否存在所述预设关键词。

作为示例，所述位置信息可包括：所述预设关键词在语音序列中的起始帧的标识信息和所述预设关键词在语音序列中的结束帧的标识信息。相应地，所述语音信号之中所述预设关键词所在部分为：语音序列中所述预设关键词的起始帧与结束帧之间的部分。

作为示例，所述关键词检测模型可包括：分类器，所述分类器用于基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词。

图4示出了根据本公开示例性实施例的根据关键词定位结果来指导基于局部注意力机制的关键词检测方法，参照图4，所述语音编码器除了计算每帧音素分类概率(即，每帧存在各种音素的概率)之外，还计算当前帧是所述预设关键词的起始帧和结束帧的概率。从而可选取作为起始帧概率最大的一帧作为所述预设关键词在语音序列上的开始位置，用s表示；作为结束帧概率最大的一帧作为所述预设关键词在语音序列上的结束位置，用e表示。相应地，参照图5，可从语音编码器输出的所述语音信号的抽象表征序列中截取从s到e的一块子矩阵S_h，其形状为t₂*h，t₂＝e-s，S_h表示语音序列上只包含所述预设关键词的这一部分的抽象表征序列，并再次通过注意力机制(具体地，位置指导的局部注意力机制Localattention)结合语音信息和预设关键词信息，不同的是把预设关键词的抽象表征序列W作为Q，把S_h作为K和V，在执行注意力机制之前，可在W第一个行向量之前再插入一行空的行向量(也即，占位向量)C₀，从而经过注意力机制计算后，输出形状为(1+t_w)*h的矩阵，其中多出的第一个行向量作为分类向量，此分类向量经过多层感知器MLP(Multi-LayerPerceptron)变换后就可以预测出所述预设关键词出现和不出现的概率。

作为示例，根据本公开示例性实施例的关键词检测方法还可包括：当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，唤醒当前电子终端。

作为示例，根据本公开示例性实施例的关键词检测方法还可包括：当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，输出所述结果和所述位置信息。

作为示例，所述预设关键词的抽象表征序列可以是通过预先训练好的关键词编码器基于所述预设关键词的音素序列生成的。

图6示出根据本公开示例性实施例的生成预设关键词的抽象表征序列的方法的流程图。这里，所述预设关键词可为用户自定义的关键词，例如，用户自定义的唤醒词，应该理解，针对其他类型的关键词也适用。作为示例，根据本公开示例性实施例的生成预设关键词的抽象表征序列的方法可由执行图1所示的关键词检测方法的电子终端来执行。

参照图6，在步骤S201，获取用户自定义的关键词的文本。

作为示例，可直接接收用户输入的自定义的关键词的文本，也可将用户输入的自定义的关键词的语音转化成对应的文本。

在步骤S202，获取所述文本的音素序列。

作为示例，可通过查询发音词典获取所述文本的音素序列，也可使用一个字音转换G2P(grapheme to phoneme)模型来预测所述文本的音素序列。例如，可先查询发音词典来查询所述文本的音素序列，如果未查询到，可使用一个G2P模型来预测。

在步骤S203，基于所述文本和/或所述音素序列，确定用户自定义的关键词是否符合预设条件。

作为示例，所述预设条件可为用于判断用户自定义的关键词是否适合作为检测对象(例如，唤醒词)的条件。例如，所述预设条件可包括：至少有5个音节、与其相似发音的其他词较少等其他可定制的标准，目的是尽量减少误检测的可能。

当在步骤S203确定用户自定义的关键词符合预设条件时，执行步骤S204，将所述文本的音素序列输入到预先训练好的关键词编码器，并得到用户自定义的关键词的抽象表征序列。例如，所述抽象表征序列可为形状为t_w*h的矩阵。具体地，可先经由嵌入embedding层得到embedding向量，并将embedding向量与位置编码向量相结合后输入到关键词编码器。

作为示例，关键词编码器可以由多种方式实现，例如，可以是深度神经网络DNN编码器、卷积神经网络CNN编码器、循环神经网络RNN编码器、或Transformer自编码器之一，本公开对此不作限制。例如，关键词编码器可以是基于Transformer自注意力特征提取器构建的。作为示例，可将Transformer架构作为主干网络来实现语音编码器和关键词编码器，其中，关键词编码器可使用4层Transformer encoder结构，语音编码器可使用6层Transformer decoder结构，应该理解，具体层数仅作为示例，本公开对此不作限制，例如，可根据实际执行设备的运算能力而确定。

此外，可将用户自定义的关键词的抽象表征序列存储在用户的电子终端上，以供关键词检测模型后续调用。

作为示例，所述关键词检测模型和所述关键词编码器可由所述电子终端从远端服务器获取，所述关键词检测模型和所述关键词编码器可由所述远端服务器针对通用语料数据集训练得到，电子终端直接下载使用即可。换言之，远端服务器可针对通过语料数据集训练关键词检测模型和关键词编码器，训练好后再部署到电子终端，用户可在电子终端中基于关键词编码器实现自定义关键词，并基于关键词检测模型实现检测语音信号中的自定义关键词。从而在用户自定义关键词和使用模型检测自定义的关键词的过程中，无需访问网络，能够满足检测的准确度，不会占用电子终端过多的计算资源和存储资源。

在一个实施例中，所述关键词检测模型可以是通过多目标联合训练得到的。

作为示例，所述多目标可包括：准确预测出语音信号对应的音素序列、准确预测出关键词在语音信号中的位置、以及准确预测出语音信号中是否存在关键词。

作为示例，可针对每个训练目标设置对应的目标函数。例如，与准确预测出关键词在语音信号中的位置这一目标对应的目标损失函数可为：基于注意力矩阵对角线模式的位置损失函数。

图7示出根据本公开示例性实施例的用于训练关键词检测模型和关键词编码器的训练网络。作为示例，可由远端服务器完成关键词检测模型和关键词编码器的训练。

如图7所示，所述训练网络是一个多目标联合训练网络，使用了三个不同的损失函数来实现针对关键词检测模型和关键词编码器的端到端训练。应该理解，在训练完成后实际使用时，可分别使用关键词检测模型和关键词编码器，即在需要识别语音中是否含有预设关键词时单独使用关键词检测模型，在用户需要自定义关键词或需要对系统或应用规定的关键词进行处理时，单独使用关键词编码器，既减少了实际运行时的内存占用，也加快了运行速度。

相比于针对系统或应用规定的关键词(例如，唤醒词)特意训练的检测模型，本公开的训练数据集使用容易获取的通用语料即可，且不需要难以获取的逐帧对齐的标签数据和针对特定关键词的大量语音样本。训练样本分为正样本和负样本，例如，可从公共通用的语料库中获取用于训练的正样本和负样本。每个样本是一个四元组，包含：一条语音数据、语音数据对应的转录文本、一个指定关键词文本、一个用于指示这个指定关键词是否在这个语音里的标签，是就是正样本，否则为负样本。如果指定关键词在语音里，这个语音的转录文本中包含该指定关键词的前后还需要分别插入一个关键词开始标签<start>和一个关键词结束标签<end>。例如，一组训练输入里，语音的转录文本是“Hi Freeman call mywife”，指定关键词是“Freeman”，则输入训练网络的转录文本应该修改为“Hi<start>Freeman<end>call my wife”。关于通用语料数据集，例如LibriSpeech数据集，可在每一条转录文本里随机选择一个单词作为一个指定关键词，并且在该转录文本里这个单词前后插入<start>和<end>标记，作为一条正样本，所以一条转录文本可以产生多个正样本。在通用语料数据集的词典里，随机选择一个不在当前转录文本里的单词，作为指定关键词，这条转录文本和所选指定关键词就组成一个负样本，所以一条转录文本可以产生多个负样本。此外，可平衡正负样本的容量大体相等。

训练的第一个目标是让语音编码器能够尽可能地正确预测语音输入对应的音素序列，例如，所用的目标损失函数可以是连接时序分类CTC(Connectionist TemporalClassification)loss。输入长度为T的语音序列x，语音编码器的输出为O＝o₁，o₂，...，o_T，o_t∈R^N，用表示第t帧语音数据预测到音素为n的概率。CTC使用一个额外的空输出/>插入到音素标签序列y中，音素字符集合为L，则CTC输出字符集合为/>L′的大小为N。对于语音编码器的输出O的每帧取一个音素π_t，可以形成一个长度为T的音素路径π，其概率为：/>定义多对一映射B(π)＝1，l为去除序列π中的连续重复输出和空输出/>后的序列，比如/>则给定语音输入x，预测输出为标签序列y的条件概率：/>由此给出CTC loss的定义：CTC(x)＝-log p(y|x)。

训练的第二个目标是通过两次注意力机制结合语音信息和关键词信息，把关键词编码器的输出注入语音编码器后，能够尽可能定位出指定关键词在输入语音中的位置，目标损失函数为位置损失函数Location loss。输入关键词序列，关键词编码器输出W，是一个形状为T_w*h的矩阵。输入长度为T的语音序列，经过第一次关键词注意力编码后，得到语音的抽象表征序列，形如T*h。再根据H，语音编码器输出O＝o₁，o₂，...，o_T，o_t∈R^N，用表示第t帧语音数据预测到音素为<start>标记的概率，用/>表示第t帧语音数据预测到音素为<end>标记的概率，/>在t_s帧时有最大值，/>在t_s帧时有最大值，截取出t_s和t_e之间的输出o_t对应的语音的抽象表征序列S_h，设T_h＝t_e-t_s，则S_h的形状为T_h*h。再和关键词编码器输出的W做一次注意力编码，注意力权重输出/>为一个T_w*T_h的矩阵。对于正样本，代表关键词文本信息的W，和代表关键词语音信息的S_h应该相互匹配，在注意力权重矩阵A中会观察到对角线模式，而负样本应该没有这种模式。为了强化这种模式以达到更精确的关键词定位，本公开引入基于注意力矩阵对角线模式的位置损失函数Location loss优化目标：

其中，mask矩阵M的矩阵大小与A相同为w*h，对M的定义反应了基于高斯分布的局部对角线模式，σ是一个超参数，σ>0，控制了对角线模式的宽容程度，值越小对角线越锐利，对关键词与其对应语音的匹配约束越强烈。通过引入基于注意力权重对角线模式的定位损失函数的约束，达到高效准确地定位预设关键词在语音数据中的位置。

训练的第三个目标是需要关键词检测模型能够尽可能正确地分类出正样本和负样本。如前所述，第二次注意力编码输出的第一个行向量作为分类向量，经过MLP变换后，使用二分类目标损失函数来优化，这个损失函数可以是均方误差损失函数MSE(Mean SquareError)loss、交叉熵损失函数CCE(Categorical Cross Entropy)loss，或二元交叉熵损失函数BCE(Binary Cross Entropy)loss。

在训练过程中，需通过总体考虑三个损失函数的结果来调整关键词编码器和关键词检测模型的模型参数，例如，调整语音编码器、线性层、分类器、以及关键词编码器的模型参数。作为示例，总损失函数可为：λ₁*(CTC loss)+λ₂*(Location loss)+λ₃*(Classification loss)。从而保证了端到端的关键词检测模型和关键词编码器的全局优化，通过训练可实现全局最优，以提高检测的精度，避免了分阶段学习带来的中间特征质量差的风险和仅局部优化的问题。

作为示例，可使用多次训练方式，先使用通用语料数据集预训练一个大型的ASR(Automatic Speech Recognition)模型，这个ASR模型也可采用Transformer架构，其中Transformer编码器类似于本公开所述的语音编码器去掉Attention层，Transformer解码器类似于本公开所述的关键词编码器加入Attention层。然后再基于预训练的ASR模型，继续训练语音编码器和关键词编码器。再使用从通用语料数据集产生的带关键词和位置标记的正样本和负样本数据，端到端训练整个网络，即同时训练关键词检测模型和关键词编码器。作为示例，可设计一个参数量更少的包括关键词检测模型和关键词编码器的关键词检测网络，可使用Teacher-Student训练方式，把已经训练好的大型的关键词检测作为Teacher，和这个小网络同时训练，从而可以在保留预测精度的前提下减少网络参数。

此外，作为示例，语音编码器之后的线性层和关键词编码器之前的embedding层(音素嵌入层)因为有相同的抽象表征维度，所以可以共享网络权重，进一步减少了网络参数。

现有技术中，通常针对系统或应用规定的关键词来训练模型，因此，也仅能准确识别系统或应用规定的关键词，而不能支持用户自定义的关键词的准确识别，如果用户想要自定义关键词，则需要将关键词上传到远端服务器，然后由技术人员根据用户自定义的关键词重新开发或者修改模型程序，再由用户进行下载并使用，既涉及用户隐私问题、人工成本也高，耗时耗力。本公开不仅不需要针对用户自定义的关键词专门训练模型改变相应的程序，而且用户自定义关键词和进行关键词检测的过程在本地即可完全实现，且检测精度高。

图8示出根据本公开示例性实施例的关键词检测装置的框图。

如图8所示，根据本公开示例性实施例的关键词检测装置包括：接收单元101、特征提取单元102、以及检测单元103。

接收单元101用于接收用户输入的语音信号。

特征提取单元102用于提取所述语音信号的语音特征。

检测单元103用于将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果。

其中，所述关键词检测模型通过下述方式来预测所述语音信号中是否存在所述预设关键词：基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列；基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息；基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词。

作为示例，所述预设关键词可包括用户自定义的关键词。

作为示例，基于所述语音特征和所述预设关键词的抽象表征序列，获取所述语音信号的抽象表征序列的处理可包括：通过注意力机制将所述语音特征和所述预设关键词的抽象表征序列进行结合，来获取所述语音信号的抽象表征序列。

作为示例，基于所述语音信号的抽象表征序列和所述位置信息，预测所述语音信号中是否存在所述预设关键词的处理可包括：基于所述语音信号的抽象表征序列和所述位置信息，确定所述语音信号之中所述预设关键词所在部分的抽象表征序列；并通过注意力机制将所述语音信号之中所述预设关键词所在部分的抽象表征序列和所述预设关键词的抽象表征序列进行结合，来预测所述语音信号中是否存在所述预设关键词。

作为示例，所述关键词检测模型可包括：语音编码器，所述语音编码器用于预测语音信号的抽象表征序列，其中，所述语音编码器可包括多个串联的子模块，每个子模块通过注意力机制将所述预设关键词的抽象表征序列注入所述语音信号的隐层抽象表征序列。

作为示例，所述关键词检测模型可以是通过多目标联合训练得到的。

作为示例，所述多目标可包括：预测出语音信号对应的音素序列、预测出关键词在语音信号中的位置、以及预测出语音信号中是否存在关键词。

作为示例，与预测出关键词在语音信号中的位置这一目标对应的目标损失函数可为：基于注意力矩阵对角线模式的位置损失函数。

作为示例，所述装置可为电子终端，所述关键词检测模型可由所述电子终端从远端服务器获取，其中，所述关键词检测模型由所述远端服务器针对通用语料数据集训练得到。

作为示例，根据本公开示例性实施例的关键词检测装置还可包括：唤醒单元(未示出)和/或输出单元(未示出)。

唤醒单元用于当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，唤醒当前电子终端；

输出单元用于当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，输出所述结果和所述位置信息。

应该理解，根据本公开示例性实施例的关键词检测装置所执行的具体处理已经参照图1至图7进行了详细描述，这里将不再赘述相关细节。

此外，应该理解，根据本公开示例性实施例的关键词检测装置中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

根据本公开的示例性实施例的计算机可读存储介质，存储有当被处理器执行时使得处理器执行如上述示例性实施例所述的关键词检测方法的计算机程序。该计算机可读存储介质可以是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读存储介质的示例可包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

根据本公开的示例性实施例的关键词检测装置包括：处理器(未示出)和存储器(未示出)，其中，存储器存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述示例性实施例所述的关键词检测方法。

虽然已表示和描述了本公开的一些示例性实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1.一种关键词检测方法，其中，所述方法包括：

接收用户输入的语音信号；

提取所述语音信号的语音特征；

将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果，

其中，所述关键词检测模型通过下述方式来预测所述语音信号中是否存在所述预设关键词：

通过注意力机制将所述语音特征和所述预设关键词的抽象表征序列进行结合，来获取所述语音信号的抽象表征序列；

基于所述语音信号的抽象表征序列，预测所述语音信号中所述预设关键词的位置信息；

基于所述语音信号的抽象表征序列和所述位置信息，确定所述语音信号之中所述预设关键词所在部分的抽象表征序列；

通过注意力机制将所述语音信号之中所述预设关键词所在部分的抽象表征序列和所述预设关键词的抽象表征序列进行结合，来预测所述语音信号中是否存在所述预设关键词。

2.根据权利要求1所述的方法，其中，所述预设关键词包括用户自定义的关键词。

3.根据权利要求1所述的方法，其中，所述关键词检测模型包括：语音编码器，所述语音编码器用于预测语音信号的抽象表征序列，

其中，所述语音编码器包括多个串联的子模块，每个子模块通过注意力机制将所述预设关键词的抽象表征序列注入所述语音信号的隐层抽象表征序列。

4.根据权利要求1所述的方法，其中，所述预设关键词的抽象表征序列是通过预先训练好的关键词编码器基于所述预设关键词的音素序列生成的。

5.根据权利要求1所述的方法，其中，所述关键词检测模型是通过多目标联合训练得到的，

其中，所述多目标包括：预测出语音信号对应的音素序列、预测出关键词在语音信号中的位置、以及预测出语音信号中是否存在关键词。

6.根据权利要求5所述的方法，其中，与预测出关键词在语音信号中的位置这一目标对应的目标损失函数为：基于注意力矩阵对角线模式的位置损失函数。

7.根据权利要求1所述的方法，其中，所述方法还包括：

当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，唤醒当前电子终端；或者，输出所述结果和所述位置信息。

8.一种关键词检测装置，其中，所述装置包括：

接收单元，接收用户输入的语音信号；

特征提取单元，提取所述语音信号的语音特征；

检测单元，将所述语音特征和预设关键词的抽象表征序列输入到端到端的关键词检测模型，并得到所述关键词检测模型输出的所述语音信号中是否存在所述预设关键词的结果，

9.根据权利要求8所述的装置，其中，所述预设关键词包括用户自定义的关键词。

10.根据权利要求8所述的装置，其中，所述关键词检测模型包括：语音编码器，所述语音编码器用于预测语音信号的抽象表征序列，

11.根据权利要求8所述的装置，其中，所述预设关键词的抽象表征序列是通过预先训练好的关键词编码器基于所述预设关键词的音素序列生成的。

12.根据权利要求8所述的装置，其中，所述关键词检测模型是通过多目标联合训练得到的，

13.根据权利要求12所述的装置，其中，与预测出关键词在语音信号中的位置这一目标对应的目标损失函数为：基于注意力矩阵对角线模式的位置损失函数。

14.根据权利要求8所述的装置，其中，所述装置还包括：唤醒单元和/或输出单元，

唤醒单元，当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，唤醒当前电子终端；

输出单元，当所述关键词检测模型输出的结果是：所述语音信号中存在所述预设关键词时，输出所述结果和所述位置信息。

15.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时实现如权利要求1至7中的任意一项所述的关键词检测方法。

16.一种关键词检测装置，其中，所述装置包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至7中的任意一项所述的关键词检测方法。