CN112259101A

CN112259101A - 语音关键词识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112259101A
Application number: CN202011115618.4A
Authority: CN
Inventors: 袁有根; 吕志强; 黄申
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-22
Anticipated expiration: 2040-10-19
Also published as: CN112259101B

Abstract

本申请涉及一种语音关键词识别方法、装置、计算机设备和存储介质。所述方法涉及人工智能的语音识别技术，包括：获取待识别语音信号；对待识别语音信号进行关键词检测，获得候选关键词；提取候选关键词的声学词嵌入特征；将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果；根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。采用本方法能够提高语音关键词识别的效果。

Description

语音关键词识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音关键词识别方法、装置、计算机设备和存储介质。

背景技术

随着语音技术的发展，越来越多的用户通过语音与电子设备进行交互，例如通过语音唤醒电子设备、通过语音控制电子设备完成指定工作等。关键词识别技术是语音技术中的重要分支，用于对连续语音信号进行预定关键词的识别，即识别该连续语音信号中是否存在预定关键词，从而根据预定关键词唤醒电子设备或控制电子设备工作等。

传统的语音关键词识别方法大多只关注语音信号中是否存在预定关键词，把其他语音内容当作干扰，导致语音关键词识别的覆盖范围较小，语音关键词识别的效果有限。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音关键词识别效果的语音关键词识别方法、装置、计算机设备和存储介质。

一种语音关键词识别方法，所述方法包括：

获取待识别语音信号；

对待识别语音信号进行关键词检测，获得候选关键词；

提取候选关键词的声学词嵌入特征；

将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果；

根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。

一种语音关键词识别装置，所述装置包括：

语音信号获取模块，用于获取待识别语音信号；

关键词检测模块，用于对待识别语音信号进行关键词检测，获得候选关键词；

嵌入特征提取模块，用于提取候选关键词的声学词嵌入特征；

特征匹配模块，用于将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果；

关键词验证模块，用于根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别语音信号；

对待识别语音信号进行关键词检测，获得候选关键词；

提取候选关键词的声学词嵌入特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别语音信号；

对待识别语音信号进行关键词检测，获得候选关键词；

提取候选关键词的声学词嵌入特征；

上述语音关键词识别方法、装置、计算机设备和存储介质，对待识别语音信号进行关键词检测，得到候选关键词，将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，并根据得到的特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。在语音关键词识别过程中，提取通过关键词检测到的候选关键词的声学词嵌入特征，通过候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征的特征匹配结果对候选关键词进行关键词验证，从而利用关键词模板对候选关键词进行验证，能够提高语音关键词识别的覆盖范围，提升语音关键词识别的效果。

附图说明

图1为一个实施例中语音关键词识别方法的应用环境图；

图2为一个实施例中语音关键词识别方法的流程示意图；

图3为一个实施例中自动语音识别的流程示意图；

图4为一个实施例中关键词填充的流程示意图；

图5为一个实施例中模型训练的流程示意图；

图6为一个实施例中语音关键词识别方法的应用环境图；

图7为一个实施例中关键词检测模型和关键词验证模型训练的流程示意图；

图8为一个实施例中三元组损失确定的示意图；

图9为一个实施例中对候选关键词进行关键词验证的流程示意图；

图10为一个实施例中语音关键词识别装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，Automatic Speech Recognition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请实施例提供的方案涉及人工智能的语音关键词识别技术，具体通过如下实施例进行说明：

本申请提供的语音关键词识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，终端102上可以安装有产品客户端，如即时通讯软件、多人对战游戏客户端、直播客户端、办公软件等。终端102可以将采集的待识别的语音流发送至服务器104，服务器104接收到待识别的语音信号后，采用通用关键词检测方式对待识别语音信号进行关键词检测(Keyword spotting，KWS)，得到候选关键词，将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，并根据得到的特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。另外，在一些实施例中，也可以直接由终端102单独对采集的待识别语音信号进行语音关键词识别处理。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音关键词识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待识别语音信号。

其中，待识别语音信号为需要进行语音关键词识别处理的语音流数据。在具体应用中，待识别语音信号可以由终端采集得到，如可以由终端安装即时通讯软件在使用过程中采集得到，通过对待识别语音信号进行语音关键词识别，可以确定待识别语音信号中是否存在恶意语音内容，若存在恶意语音内容，则可以反馈至即时通讯软件对应的应用服务器进行处理，如对终端进行惩罚、对恶意语音内容进行消音处理等。又如，对待识别语音信号进行语音关键词识别，可以判断待识别语音信号中是否存在唤醒关键词，若存在，则唤醒终端并控制终端执行相应的语音指令，如播报天气预报、播放多媒体、回复消息、拨打电话等。

具体地，待识别语音信号由终端采集后通过网络发送至服务器，服务器根据接收到的待识别语音信号进行语音关键词识别，判断待识别语音信号中是否存在预定的关键词，从而控制终端执行相应的工作。

步骤204，对待识别语音信号进行关键词检测，获得候选关键词。

其中，可以采用通用关键词检测方式对待识别语音信号进行关键词检测，通用关键词检测方式可以包括各种传统的语音关键词检测方法，如基于自动语音识别技术的关键词检测方法、基于关键词填充的关键词检测方法等。通过通用关键词检测方式对待识别语音信号进行关键词检测，可以对待识别语音信号进行第一阶段的关键词识别处理，确定待识别语音信号中的候选关键词，候选关键词为基于通用关键词检测方式的关键词检测确定的可能为关键词的识别结果。在具体应用中，通过通用关键词检测方式对待识别语音信号进行关键词检测，得到关键词检测结果，关键词检测结果可以包括候选关键词、候选关键词的起止时间点、候选关键词在关键词检测中的检测相似度、候选关键词的属性信息(如词性)、候选关键词的类别信息等。从关键词检测结果中可以确定待识别语音信号中检测到的候选关键词。

具体地，如图3所示，基于自动语音识别技术的关键词检测方法中，包括语音识别系统和关键词检索系统两部分，首先，通过特征提取模块将连续的语音信号转化成离散的声学特征序列，然后利用声学模型、发音词典和语言模型构建解码图，最后在解码图里面寻找最优的文本序列，得到识别结果。在关键词检索系统的处理过程中，取解码图中得到的识别结果中前N个路径(Lattice)作为多候选结果，并进行高效存储，通过预先设定的关键词列表快速关键词文本匹配，根据最佳匹配结果得到关键词检索的最终结果，即从语音信号中检测出关键词。然而，基于自动语音识别技术的关键词检测方法依赖计算量较大的ASR系统，运行速度较慢，导致关键词检测的效率较低。

如图4所示，基于关键词填充的关键词检测方法中，其前期流程和ASR一样，是一个精简化的ASR过程。具体而言，由关键词填充系统通过特征提取模型对语音信号进行特征提取，得到离散的声学特征序列，然后利用声学模型构建解码图，而在解码时只需要关注唤醒词，通过关键词解码网络对解码图进行解码处理，得到关键词检测的输出结果。由于解码时只需要关注唤醒词，因此基于关键词填充的关键词检测方法可以使用精简的声学模型、发音词典和语音模型构建一个规模极小的关键词解码网络，从而使得解码速度非常快，有效提高了关键词检测的效率。然而，基于关键词填充的关键词检测方法只关注唤醒词，把其他语音内容都当做干扰，导致其语音关键词检测的覆盖范围较小，在性能上有较大损失，语音关键词检测的效果有限。

具体地，服务器获得待识别语音信号后，通过通用关键词检测方式，对待识别语音信号进行关键词检测，如通过基于自动语音识别技术的关键词检测方法或基于关键词填充的关键词检测方法对待识别语音信号进行关键词检测，得到待识别语音信号中的候选关键词，候选关键词作为语音关键词识别中第一阶段的识别结果，从而可以对通用关键词检测方式进行有效优化，如通过基于隐马尔可夫模型(Hidden Markov Model，HMM)的关键词填充方法、针对关键词构建更为简单有效的解码网络(只包含关键词keyword和filler路径)等，以在确保准确率同时增加覆盖率，从而提高语音关键词识别的效果。

步骤206，提取候选关键词的声学词嵌入特征。

其中，声学词嵌入(Acoustic word embeddings，AWE)特征表征候选关键词词级声学特征，通过声学词嵌入特征可以在词级特征层面区分各关键词。声学词嵌入特征可以通过神经网络学习得到，以区分各关键词的词级声学特征。在具体实现时，声学词嵌入特征可以通过对候选关键词进行双向记忆特征提取，根据提取的前向记忆特征和后向记忆特征得到，例如，可以通过权重共享的双向长短时记忆(Bidirectional long short termmemory，BLSTM)网络对候选关键词进行双向记忆特征提取，得到候选关键词的声学词嵌入特征。

具体地，服务器通过通用关键词检测方式，对所述待识别语音信号进行关键词检测，得到第一阶段的语音关键词识别结果，即得到候选关键词后，服务器进一步提取候选关键词的声学词嵌入特征，声学词嵌入特征是候选关键词的词级声学特征表示，其区分性强，可以有效区分各关键词，从而提升关键词识别的效果。例如，服务器可以基于候选关键词对应的候选词语音特征进行双向记忆特征提取，根据双向记忆特征提取的提取结果得到候选关键词的声学词嵌入特征。

步骤208，将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果。

其中，关键词模板根据各种语音关键词预先构建，如可以选取多个人工标注的关键词命中样例作为关键词模板，关键词模板可以覆盖不同方言、信道、音色和背景噪声等复杂场景，从而增大语音关键词识别的覆盖范围，确保语音关键词识别的效果。进一步地，在一定范围内，关键词模板的数量越多，通过关键词模板进行语音关键词识别的效果越好，出于平衡功耗和性能的考虑，可以将关键词模板数量默认设为100，即为每个关键词对应设置100个覆盖不同方言、信道、音色和背景噪声等复杂场景的关键词模板，以通过关键词模板对进行关键词验证，从候选关键词中确定语音关键词识别的识别结果。

具体地，服务器提取得到候选关键词的声学词嵌入特征后，将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，如可以计算将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的相似度，根据相似度得到特征匹配结果，特征匹配结果反映了候选关键词与关键词模板之间的相似程度。在具体应用中，关键词模板的声学词嵌入特征可以预先提取得到，服务器可以根据候选关键词的类别直接查询得到关联的关键词模板的声学词嵌入特征，以将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配。此外，服务器也可以同时对候选关键词和对应的关键词模板进行声学词嵌入特征提取，以根据提取的对应的声学词嵌入特征进行特征匹配。

步骤210，根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。

其中，关键词验证指对语音关键词识别第一阶段中关键词检测得到的候选关键词进行第二阶段的验证处理，以从候选关键词中确定目标关键词。具体地，服务器可以根据特征匹配结果进行决策，以判定特征匹配结果对应的候选关键词是否为目标关键词，从而实现语音关键词识别过程中第二阶段的关键词验证。例如，特征匹配结果包括候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的相似度时，比较相似度与验证相似度阈值，若相似度大于验证相似度阈值，则表明候选关键词与关键词模板相似度高，则服务器可以确定该候选关键词为目标关键词，从而从待识别语音信号中识别出语音关键词。

本实施例中，在语音关键词识别过程中，第一阶段通过通用关键词检测方式，对待识别语音信号进行关键词检测，得到候选关键词；第二阶段基于实例查询(Query-by-example，QBE)构思，将候选关键词的声学词嵌入特征与多种说话人风格、口音和声学环境下的关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果，并通过特征匹配结果对候选关键词进行关键词验证，从而从候选关键词中确定目标关键词，从而基于实例查询对关键词检测进行验证的双阶语音关键词识别处理，能够提高语音关键词识别的覆盖范围，提升语音关键词识别的效果。

上述语音关键词识别方法中，对待识别语音信号进行关键词检测，得到候选关键词，将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，并根据得到的特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。在语音关键词识别过程中，提取通过关键词检测到的候选关键词的声学词嵌入特征，通过候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征的特征匹配结果对候选关键词进行关键词验证，从而利用关键词模板对候选关键词进行验证，能够提高语音关键词识别的覆盖范围，提升语音关键词识别的效果。

在一个实施例中，提取候选关键词的声学词嵌入特征，包括：获取候选关键词对应的候选词语音特征；基于候选词语音特征进行双向记忆特征提取，获得候选关键词的前向记忆特征和后向记忆特征；融合前向记忆特征和后向记忆特征，得到候选关键词的声学词嵌入特征。

其中，候选词语音特征为从候选关键词对应的语音信号提取得到的计算机可识别的特征，如可以为特征向量。候选词语音特征可以通过对候选关键词对应的语音信号进行特征提取得到，如基于时延神经网络(Time Delay Neural Network，TDNN)对候选关键词对应的语音信号进行特征提取得到，从而确保关键词检测的准确率和召回率。在具体应用中，候选关键词的声学词嵌入特征可以从对所述待识别语音信号进行关键词检测过程中获取得到，如获取候选关键词对应的语音信号在采用通用关键词检测方式进行关键词检测时得到的候选词语音特征。

在具体实现时，可以通过权重共享的双向长短时记忆(Bidirectional longshort term memory，BLSTM)网络对候选关键词进行双向记忆特征提取，并根据得到的前向记忆特征和后向记忆特征融合获得候选关键词的声学词嵌入特征。声学词嵌入特征为携带语音信号历史信息的特征，具体包括前向记忆特征和后向记忆特征。前向记忆特征为携带语音信号正向顺序上下文信息的特征，后向记忆特征为携带语音信号反向顺序上下文信息的特征。声学词嵌入特征可以有效表征语音信号的历史信息，以便对语音信号进行准确识别。

具体地，在对待识别语音信号进行关键词检测得到候选关键词后，服务器获取候选关键词对应的候选词语音特征，如从候选关键词对应的语音信号在关键词检测过程中获得候选关键词的候选词语音特征，服务器基于候选词语音特征进行双向记忆特征提取，如基于候选词语音特征分别进行前向长短时记忆特征提取和后向长短时记忆特征提取，得到候选关键词的前向记忆特征和后向记忆特征。前向记忆特征携带候选关键词对应的各帧语音信号正向顺序中的历史信息，后向记忆特征携带候选关键词对应的各帧语音信号反向顺序中的历史信息。服务器融合候选关键词的前向记忆特征和后向记忆特征，如根据前向记忆特征和后向记忆特征构建新的特征向量，得到候选关键词的声学词嵌入特征，声学词嵌入特征表征了候选关键词词级声学特征，通过声学词嵌入特征可以在词级特征层面区分各关键词。

本实施例中，基于候选关键词对应的候选词语音特征进行双向记忆特征提取，融合得到的前向记忆特征和后向记忆特征，获得候选关键词的声学词嵌入特征，从而可以提取得到携带历史信息而区分性强，能够在词级特征层面区分各关键词的声学词嵌入特征，通过该声学词嵌入特征基于实例查询对关键词进行验证，可以有效提高关键词验证的准确度和覆盖范围，提高语音关键词识别的效果。

在一个实施例中，基于候选词语音特征进行双向记忆特征提取，获得候选关键词的前向记忆特征和后向记忆特征，包括：对候选关键词对应的各帧候选词语音特征依次进行至少一次的前向长短时记忆特征提取，根据最后一帧候选词语音特征的特征提取结果得到候选关键词的前向记忆特征；对候选关键词对应的各帧候选词语音特征依次进行至少一次的后向长短时记忆特征提取，根据首帧候选词语音特征的特征提取结果得到候选关键词的后向记忆特征。

本实施例中，双向记忆特征提取具体为双向长短时记忆特征提取，包括前向长短时记忆特征提取和后向长短时记忆特征提取。具体地，候选关键词对应于多帧语音信号，各帧语音信号具有对应的候选词语音特征，即候选关键词对应于多帧候选词语音特征。服务器对候选关键词对应的各帧候选词语音特征按照前向顺序，即按照时间由先到后的正向顺序依次进行至少一次的前向长短时记忆特征提取，并对候选关键词对应的各帧候选词语音特征按照后向顺序，即按照时间由后到先的反向顺序依次进行至少一次的后向长短时记忆特征提取，具体可以通过预训练的双向长短时记忆网络模型实现对候选词语音特征的双向记忆特征提取处理，前向长短时记忆特征提取和后向长短时记忆特征提取的处理次数可以根据双向长短时记忆网络模型的网络层数确定。进一步地，服务器根据前向长短时记忆特征提取过程中，最后一帧候选词语音特征的特征提取结果得到候选关键词的前向记忆特征，如可以将最后一帧候选词语音特征对应的前向输出确定为候选关键词的前向记忆特征；另一方面，服务器根据首帧候选词语音特征的特征提取结果得到候选关键词的后向记忆特征，如可以将第一帧候选词语音特征对应的后向输出确定为候选关键词的后向记忆特征。

本实施例中，对候选关键词对应的各帧候选词语音特征分别进行至少一次前向长短时记忆特征提取和后向长短时记忆特征提取，从而提取得到携带候选关键词对应语音信号前向历史信息的前向记忆特征，和携带候选关键词对应语音信号后向历史信息的后向记忆特征，以根据前向记忆特征和后向记忆特征得到候选关键词的声学词嵌入特征，确保声学词嵌入特征的区分性，使之能够在词级特征层面区分各关键词。

在一个实施例中，提取候选关键词的声学词嵌入特征通过预训练的双向长短时记忆网络模型实现，如图5所示，双向长短时记忆网络模型的训练步骤包括：

步骤502，获取三元组训练样本。

本实施例中，提取候选关键词的声学词嵌入特征通过预训练的双向长短时记忆网络模型实现，即由预训练的双向长短时记忆网络模型对候选关键词进行声学词嵌入特征提取，得到候选关键词的声学词嵌入特征。在训练双向长短时记忆网络模型时，获取三元组(triplet)训练样本，三元组训练样本可以包括锚样例、正样例和负样例，其中，锚样例为训练数据集中随机选取的样本，正样例为与锚样例属于相同类别的样本，负样例为与锚样例属于不同类别的样本。双向长短时记忆网络模型的训练过程中，需要使三元组训练样本中正样例靠近于锚样例，而负样例远离于锚样例。三元组训练样本中锚样例、正样例和负样例可以提前标注关键词的类别。

步骤504，获取三元组训练样本对应的训练样本语音特征。

得到三元组训练样本后，进一步获取三元组训练样本对应的训练样本语音特征，具体可以对三元组训练样本对应的语音信号进行特征提取，得到三元组训练样本对应的训练样本语音特征，如可以基于时延神经网络或基于隐马尔可夫模型对三元组训练样本进行特征提取，得到三元组训练样本对应的训练样本语音特征。

步骤506，通过待训练的双向长短时记忆网络模型基于训练样本语音特征进行双向记忆特征提取，获得三元组训练样本的训练样本前向记忆特征和训练样本后向记忆特征。

得到三元组训练样本对应的训练样本语音特征后，通过待训练的双向长短时记忆网络模型基于训练样本语音特征进行双向记忆特征提取，具体包括对训练样本语音特征进行前向长短时记忆特征提取和后向长短时记忆特征提取，得到三元组训练样本的训练样本前向记忆特征和训练样本后向记忆特征。

步骤508，通过待训练的双向长短时记忆网络模型融合训练样本前向记忆特征和训练样本后向记忆特征，得到三元组训练样本的训练样本声学词嵌入特征。

进一步地，通过待训练的双向长短时记忆网络模型融合训练样本前向记忆特征和训练样本后向记忆特征，如根据训练样本前向记忆特征和训练样本后向记忆特征构建新的特征向量，得到三元组训练样本的训练样本声学词嵌入特征，训练样本声学词嵌入特征反映了三元组训练样本在词级层面的特征。

步骤510，根据三元组训练样本中各类别训练样本相应的训练样本声学词嵌入特征确定三元组损失。

得到三元组训练样本的训练样本声学词嵌入特征后，根据三元组训练样本中各类别训练样本相应的训练样本声学词嵌入特征确定三元组损失，如根据三元组训练样本中的锚样例、正样例和负样例分别对应的训练样本声学词嵌入特征确定三元组损失，三元组损失作为训练的目标函数，用于指导模型训练的进程。具体地，三元组损失可以包括用于使相同词语的声学词嵌入特征在空间内越来越近，同时使不同词语的声学词嵌入特征在空间内越来越远的三体损失、用于使声学词嵌入特征在空间内距离保持在一定范围内的反向三体损失、以及用于控制距离判定阈值的铰链损失，具体可以根据三体损失、反向三体损失和铰链损失加权求和得到三元组损失。

步骤512，基于三元组损失调整待训练的双向长短时记忆网络模型的参数后继续进行训练，直至满足训练结束条件时结束训练，得到训练完成的双向长短时记忆网络模型。

得到三元组损失后，基于三元组损失调整待训练的双向长短时记忆网络模型的参数，从而根据三元组训练样本对待训练的双向长短时记忆网络模型进行更新，再对更新后的双向长短时记忆网络模型继续进行训练，直至满足训练结束条件时结束训练，如三元组损失小于预设损失阈值、训练次数达到预设次数阈值等，结束训练，得到训练完成的双向长短时记忆网络模型。训练完成的双向长短时记忆网络模型可以对输入语音信号对应的语音特征进行双向记忆特征提取，输出输入语音信号对应的声学词嵌入特征。

本实施例中，通过三元组训练样本对双向长短时记忆网络模型进行训练，并通过三元组损失指导模型训练进程，使双向长短时记忆网络模型能够从三元组训练样本中学习到有效在词级层面表示关键词特征的声学词嵌入特征，从而提高语音关键词识别的效果。

在一个实施例中，三元组训练样本包括锚样例、类别与锚样例相同的正样例和类别与锚样例不同的负样例；根据三元组训练样本中各类别训练样本相应的训练样本声学词嵌入特征确定三元组损失，包括：确定锚样例对应的训练样本声学词嵌入特征与正样例对应的训练样本声学词嵌入特征之间的第一余弦距离；确定锚样例对应的训练样本声学词嵌入特征与负样例对应的训练样本声学词嵌入特征之间的第二余弦距离；根据第一余弦距离和第二余弦距离分别确定三体损失、反向三体损失和铰链损失；基于三体损失、反向三体损失和铰链损失加权得到三元组损失。

其中，锚样例为训练数据集中随机选取的样本，正样例为与锚样例属于相同类别的样本，负样例为与锚样例属于不同类别的样本。余弦距离可以根据训练样本声学词嵌入特征基于余弦距离公式计算得到，余弦距离可以用于度量训练样本声学词嵌入特征之间的相似度。三体损失用于使相同词语的声学词嵌入特征在空间内越来越近，同时使不同词语的声学词嵌入特征在空间内越来越远；反向三体损失用于使声学词嵌入特征在空间内距离保持在一定范围内；铰链损失用于控制距离判定阈值。

具体地，在确定三元组损失时，服务器确定锚样例对应的训练样本声学词嵌入特征与正样例对应的训练样本声学词嵌入特征之间的第一余弦距离，具体可以计算锚样例对应的训练样本声学词嵌入特征与正样例对应的训练样本声学词嵌入特征之间的余弦距离，作为第一余弦距离。第一余弦距离用于度量锚样例对应的训练样本声学词嵌入特征与正样例对应的训练样本声学词嵌入特征之间的相似度。另一方面，计算锚样例对应的训练样本声学词嵌入特征与负样例对应的训练样本声学词嵌入特征之间的第二余弦距离，第二余弦距离用于度量锚样例对应的训练样本声学词嵌入特征与负样例对应的训练样本声学词嵌入特征之间的相似度。

进一步地，服务器基于第一余弦距离和第二余弦距离分别确定三体损失、反向三体损失和铰链损失，并基于三体损失、反向三体损失和铰链损失进行加权后得到三元组损失，三元组损失用于指导双向长短时记忆网络模型的训练。

本实施例中，基于度量锚样例对应的训练样本声学词嵌入特征与正样例对应的训练样本声学词嵌入特征之间相似度的第一余弦距离，和度量锚样例对应的训练样本声学词嵌入特征与负样例对应的训练样本声学词嵌入特征之间相似度的第二余弦距离，确定三体损失、反向三体损失和铰链损失，并根据三体损失、反向三体损失和铰链损失加权得到三元组损失，以通过三元组损失对模型训练进行指导，得到双向长短时记忆网络模型。

在一个实施例中，根据第一余弦距离和第二余弦距离分别确定三体损失、反向三体损失和铰链损失，包括：基于第一余弦距离、第二余弦距离的相反数和第一调节阈值得到三体损失；基于第一余弦距离的相反数、第二余弦距离和第二调节阈值得到反向三体损失；基于根据第一余弦距离和第三调节阈值的相反数确定的第一铰链损失，以及根据第二余弦距离的相反数和第三调节阈值确定的第二铰链损失得到铰链损失。

其中，第一调节阈值、第二调节阈值和第三调节阈值分别用于调节三体损失、反向三体损失和铰链损失的阈值，第一调节阈值、第二调节阈值和第三调节阈值可以跟实际需求进行设定。具体地，在得到第一余弦距离和第二余弦距离后，服务器根据第一余弦距离、第二余弦距离的相反数和第一调节阈值得到三体损失，例如，三体损失可以根据第一余弦距离、第二余弦距离的相反数和第一调节阈值的和，以及与0之间的较大值得到，从而通过三体损失使相同词语的声学词嵌入特征在空间内越来越近，同时使不同词语的声学词嵌入特征在空间内越来越远。服务器基于第一余弦距离的相反数、第二余弦距离和第二调节阈值得到反向三体损失，例如，反向三体损失可以根据第一余弦距离的相反数、第二余弦距离和第二调节阈值的和，以及与0之间的较大值得到，从而通过反向三体损失使声学词嵌入特征在空间内距离保持在一定范围内。服务器基于根据第一余弦距离和第三调节阈值的相反数确定的第一铰链损失，以及根据第二余弦距离的相反数和第三调节阈值确定的第二铰链损失得到铰链损失，例如，第一铰链损失可以根据第一余弦距离和第三调节阈值的相反数之间的和，以及与0之间的较大值得到，第二铰链损失可以根据第二余弦距离的相反数和第三调节阈值之间的和，以及与0之间的较大值得到，而铰链损失可以根据第一铰链损失和第二铰链损失的和得到，从而通过预设的阈值对声学词嵌入特征在空间内距离进行类别划分。

本实施例中，通过预设的第一调节阈值、第二调节阈值和第三调节阈值，结合第一余弦距离和第二余弦距离分别确定三体损失、反向三体损失和铰链损失，并基于三体损失、反向三体损失和铰链损失加权得到三元组损失，以通过三元组损失进行模型训练指导，确保训练得到的双向长短时记忆网络模型能够有效提取输入语音信号的声学词嵌入特征，从而确保语音关键词识别的效果。

在一个实施例中，语音关键词识别方法还包括：确定候选关键词对应的关键词模板；对关键词模板进行声学词嵌入特征提取，获得关键词模板的声学词嵌入特征。

其中，关键词模板根据各种语音关键词预先构建，如可以选取多个人工标注的关键词命中样例作为关键词模板，关键词模板可以覆盖不同方言、信道、音色和背景噪声等复杂场景，从而可以增大语音关键词识别的覆盖范围，确保语音关键词识别的效果。

具体地，语音关键词识别方法提取关键词模板的声学词嵌入特征的处理，具体由服务器确定候选关键词对应的关键词模板。关键词模板与候选关键词对应，在对待识别语音信号进行关键词检测，得到候选关键词后，可以查询候选关键词对应的关键词模板，如可以根据候选关键词的关键词标识查询对应预先构建的关键词模板。得到候选关键词对应的关键词模板后，服务器对关键词模板进行声学词嵌入特征提取，如通过预训练的双向长短时记忆网络模型对关键词模板进行声学词嵌入特征提取，得到关键词模板的声学词嵌入特征。

在具体实现时，可以预先对关键词模板进行声学词嵌入特征提取，并将获得的关键词模板的声学词嵌入特征进行存储，建立关键词模板与对应声学词嵌入特征之间的映射关系，从而可以在确定候选关键词对应的关键词模板后，根据关键词模板与对应声学词嵌入特征之间的映射关系查询关键词模板对应的声学词嵌入特征，从而避免重复对关键词模板进行声学词嵌入特征提取，确保获取关键词模板的声学词嵌入特征的效率，从而提高语音关键词识别的处理效率。

在一个实施例中，关键词模板多于一个；对关键词模板进行声学词嵌入特征提取，获得关键词模板的声学词嵌入特征，包括：分别对各关键词模板进行声学词嵌入特征提取，得到各关键词模板分别对应的声学词嵌入特征；对各关键词模板的声学词嵌入特征进行平均操作，根据获得的平均操作结果得到关键词模板的声学词嵌入特征。

本实施例中，关键词模板多于一个，例如，每个关键词可以对应构建100个关键词模板，而每个关键词模板具有对应的声学词嵌入特征。具体地，在确定关键词模板的声学词嵌入特征时，服务器可以分别对各关键词模板进行声学词嵌入特征提取，得到各关键词模板分别对应的声学词嵌入特征，如对100个关键词模板分别进行声学词嵌入特征提取，得到100个关键词模板相应的声学词嵌入特征。服务器再将各关键词模板的声学词嵌入特征进行平均操作，如将100个声学词嵌入特征求取平均，得到平均操作结果，并根据该平均操作结果得到关键词模板的声学词嵌入特征，如可以直接将100个声学词嵌入特征求取平均得到的平均操作结果作为候选关键词对应的100个关键词模板的声学词嵌入特征。

本实施例中，在候选关键词对应于多个关键词模板时，通过将各个关键词模板分别对应的声学词嵌入特征进行平均操作，并根据平均操作确定的平均操作结果得到关键词模板的声学词嵌入特征，从而将关键词模板对应的多个声学词嵌入特征整合为单个声学词嵌入特征，以通过候选关键词的声学词嵌入特征与整合得到的单个声学词嵌入特征进行特征匹配，减少了特征匹配处理的数据量，降低了特征匹配的复杂度，提高了特征匹配的处理效率，从而提高了语音关键词识别的处理效率。

在一个实施例中，将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果，包括：确定候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的匹配余弦距离；根据匹配余弦距离得到特征匹配结果。

其中，匹配余弦距离可以根据候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征，基于余弦距离公式计算得到，匹配余弦距离可以用于度量候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的相似度。

具体地，在将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配时，服务器确定候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的匹配余弦距离，如通过余弦公式计算得到候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的匹配余弦距离，并根据该匹配余弦距离得到特征匹配结果，如可以直接将匹配余弦距离作为候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的特征匹配结果。特征匹配结果表征了候选关键词与关键词模板之间的匹配程度。

本实施例中，根据候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的匹配余弦距离得到特征匹配结果，从而通过余弦距离度量候选关键词和关键词模板之间的相似程度，以根据特征匹配结果对候选关键词进行有效的关键词验证，确保语音关键词识别的效果。

在一个实施例中，根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词，包括：获取验证相似度阈值；当特征匹配结果表征的验证相似度大于验证相似度阈值时，确定候选关键词为目标关键词。

其中，验证相似度阈值用于关键词验证过程中目标关键词的判定，若特征匹配结果表征的候选关键词与关键词模板之间的验证相似度超过验证相似度阈值，则认为候选关键词与关键词模板的相似度高，则可以将对应的候选关键词确定为目标关键词；否则，认为候选关键词与关键词模板的相似度低，确定候选关键词非目标关键词，即未从待识别语音信号中识别到关键词。验证相似度阈值可以根据实际需求预先进行设定。

具体地，在根据特征匹配结果对候选关键词进行关键词验证时，服务器获取预先设置的验证相似度阈值，比较特征匹配结果表征的验证相似度和验证相似度阈值，若验证相似度大于验证相似度阈值，表明候选关键词与关键词模板的相似度高，则确定候选关键词为目标关键词，即从待识别语音信号中识别到关键词；若验证相似度不大于验证相似度阈值，表明候选关键词与关键词模板的相似度低，则确定候选关键词为非目标关键词，即未从待识别语音信号中识别到关键词。

本实施例中，根据特征匹配结果表征的验证相似度与预设的验证相似度阈值的比较结果，从候选关键词中确定目标关键词，从而基于实例查询构思通过预设的关键词模板对关键词检测得到的候选关键词进行关键词验证，确保了语音关键词识别的效果。

在一个实施例中，根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词，包括：获取候选关键词在关键词检测过程中的检测相似度；根据特征匹配结果表征的验证相似度和检测相似度，确定候选关键词对应的双阶相似度；当双阶相似度大于双阶相似度阈值时，确定候选关键词为目标关键词。

其中，检测相似度为候选关键词对应的语音信号在通过通用关键词检测方式进行关键词检测过程中判定是否为候选关键词的度量；双阶相似度结合了语音关键词识别过程中第一阶段关键词检测的检测相似度，和第二阶段关键词验证的验证相似度，其反映了候选关键词在语音关键词识别过程中两个阶段的识别结果，根据双阶相似度从候选关键词中确定目标关键词，可以有效利用两个阶段的识别结果，从而进一步提高语音关键词识别的效果。双阶相似度阈值用于对双阶相似度进行判定，以确定双阶相似度对应的候选关键词是否为目标关键词，双阶相似度阈值可以根据实际需要进行灵活设定。

具体地，在根据特征匹配结果对候选关键词进行关键词验证时，服务器获取候选关键词在关键词检测过程中的检测相似度，具体可以由服务器对关键词检测过程进行分析，得到候选关键词在关键词检测过程中的检测相似度。服务器根据得到的检测相似度和特征匹配结果表征的验证相似度得到候选关键词对应的双阶相似度，如可以根据检测相似度和验证相似度进行加权融合，得到候选关键词对应的双阶相似度。服务器进一步获取预先设定的双阶相似度阈值，比较候选关键词对应的双阶相似度与双阶相似度阈值，若双阶相似度大于双阶相似度阈值，表明候选关键词与关键词模板的相似度高，则确定候选关键词为目标关键词，即将候选关键词作为语音关键词识别的识别结果；若双阶相似度不大于双阶相似度阈值，表明候选关键词与关键词模板的相似度低，则确定候选关键词为非目标关键词。

本实施例中，根据综合了关键词检测过程中的检测相似度和特征匹配过程中的验证相似度的双阶相似度对候选关键词进行关键词验证，可以有效利用两个阶段的识别结果，从而进一步提高语音关键词识别的效果。

在一个实施例中，对待识别语音信号进行关键词检测，获得候选关键词，包括：对待识别语音信号进行语音特征提取，得到待识别语音信号的语音特征；通过声学模型基于语音特征构建待识别语音信号的解码图；通过关键词解码网络模型对解码图进行解码，得到候选关键词。

本实施例中，通过通用关键词检测方式对待识别语音信号进行关键词检测，具体对待识别语音信号进行语音特征提取，并通过声学模型基于得到的语音特征构建待识别语音信号的解码图，再通过关键词解码网络模型对解码图进行解码，从而检测出待识别语音信号中的候选关键词。

具体地，在对待识别语音信号进行关键词检测时，服务器对待识别语音信号进行语音特征提取，如通过时延神经网络或隐马尔可夫模型对待识别语音信号进行语音特征提取，得到待识别语音信号的语音特征。服务器查询预先构建的声学模型，如具体可以为时延神经网络或隐马尔可夫模型，通过声学模型基于得到的语音特征构建所述待识别语音信号的解码图。在具体应用中，还可以通过声学模型、发音词典和语言模型构建待识别语音信号的解码图。得到待识别语音信号的解码图后，服务器通过关键词解码网络模型对解码图进行解码，如通过时延神经网络或隐马尔可夫模型对解码图进行解码，得到候选关键词。在具体实现时，关键词解码网络模型可以只包括keyword和filler路径，从简化关键词解码网络模型的结构，同时，可以通过跳帧解码、解码剪枝等方法提高关键词解码网络模型的处理速度和吞吐。

在具体应用中，通过通用关键词检测方式对待识别语音信号进行关键词检测，得到关键词检测结果，关键词检测结果可以包括候选关键词、候选关键词的起止时间点、候选关键词在关键词检测中的检测相似度、候选关键词的属性信息、候选关键词的类别信息等。从关键词检测结果中可以确定待识别语音信号中检测到的候选关键词。

本实施例中，采用通用关键词检测方式对待识别语音信号进行关键词检测，从而对待识别语音信号进行第一阶段的关键词检测，以便利用关键词模板对得到的候选关键词进行第二阶段的关键词验证，从而基于实例查询对关键词检测进行验证的双阶语音关键词识别处理，能够提高语音关键词识别的覆盖范围，提升语音关键词识别的效果。

本申请还提供一种应用场景，如图6所示，该应用场景应用上述的语音关键词识别方法。具体地，该语音关键词识别方法在该应用场景的应用如下：

产品客户端可以为IOT(Internet of Things，物联网)唤醒场景中的智能设备，或游戏客户端、即时通讯客户端、办公软件客户端、游戏客户端、直播客户端等各种能够通过语音进行交互的客户端，具体如QQ、微信、《腾讯会议》、《王者荣耀》、《和平精英》和直播短视频产品等。对于产品客户端产生的语音信号流，需要对语音信号流进行关键词识别，以判断语音信号流中是否存在恶意语音内容，具体通过上述的语音关键词识别方法对产品客户端产生的语音信号流进行语音关键词识别，从而识别语音信号流中是否存在目标关键词，若存在，则反馈至产品后台服务器，以便产品后台服务器对语音信号流进行处理，如进行消音处理等；若识别语音信号流中不存在目标关键词，则表明识别语音信号流中不存在恶意语音内容，可以反馈向产品客户端反馈无关键词结果，并持续进行监控。

具体地，语音关键词识别方法包括第一阶段的关键词检测处理和第二阶段的关键词验证处理。其中，第一阶段采用的是一个通用语音关键词检测系统，目的是保持准确率的同时增加覆盖率。语音关键词检测系统采用基于隐马尔可夫模型的关键词填充方法，并针对关键词构建更为简单有效的解码网络(只包含keyword和filler路径)。进一步地，该语音关键词检测系统通过TDNN(Time Delay Neural Network，因子分解时延神经网络)进行声学建模，不同于传统技术中的DNN(Deep Neural Networks，深度神经网络)，从而用更长的观测视野来提升模型判别能力；在解码网络上，该语音关键词检测系统通过跳帧解码、解码剪枝等方法有效地提升模型速度和单机吞吐。

而对语音关键词识别性能进行统计分析后，发现绝大部分的错误检测结果都集中在少量重点关键词上，为了实现对重点关键词的高覆盖和低虚警，语音关键词识别方法中第二阶段利用基于声学模板匹配的QBE技术对生成的候选关键词进行关键词验证。在训练过程中，通过神经网络，具体如BLSTM网络训练学习一个区分性强的词级声学特征表示，即声学词嵌入特征。测试时，将第一阶段的语音关键词检测系统检测到的候选关键词与对应的关键词模板进行相似度判断，相似度分数与语音关键词检测系统的相似度融合后作为最终置信度，并交由人工审核进一步处理。

如图7所示，通过收集整理后标注的语料训练语音关键词检测系统中的关键词检测模型，并通过产品客户端的线上数据对关键词检测进行测试，得到训练完成的关键词检测模型。关键词检测模型可以对输入的语音信号进行关键词检测，检测出候选关键词，若检测到候选关键词，则由关键词验证模型，如权重共享的双向长短时记忆网络模型结合预先构建的关键词模板对候选关键词进行关键词验证，并将关键词验证结果反馈至后台服务器。在训练关键词验证模型时，可以由人工对后台服务器收集的语料进行标注，如标注为命中或虚警，并通过收集整理的三元组训练样本对关键词验证模型进行训练，直至得到训练完成的关键词验证模型。

在关键词检测过程中，考虑到特征提取的耗时较高，可以实现语音关键词识别过程中第一阶段和第二阶段特征共用和定点化。具体地，在第一阶关键词检测系统和第二阶段的QBE语音验证系统中，都需要将原始的音频文件转化为系统可用的语音特征向量，即都需要对语音信号进行特征提取。如果两个阶段的系统使用不同的语音特征向量，会导致对同一个音频文件做两遍特征提取。因此，在第二阶段QBE语音验证系统中可以直接使用和第一阶段关键词检测系统相同的语音特征向量作为系统输入，这样候选关键词的语音特征向量(由第一阶段关键词检测系统提取)可以直接用到第二阶段QBE语音验证系统中，从而实现语音信号的特征复用，避免重复进行特征提取，能够提高特征提取效率。另外，由于特征提取过程中的计算量较大，如果所得特征向量全部用浮点数表示的话会导致占用内容空间大，读取效率低等问题。基于此，通过特征定点化以将语音特征向量由原来的浮点数表示转化为定点数表示。例如，假设一个浮点数原来需要32bit表示，使用定点化后只需要8bit(1个符号位，4个整数位，3个小数位)就可以表示，这样虽然损失了少量精度，但是显著减少了内存空间，可以大大加快运算速度。

进一步地，如图8所示，为关键词验证模型中声学词嵌入特征的学习过程示意图。声学词嵌入的思想是用一个统一的映射函数拉近相同发音序列在同一空间的距离，拉长不同发音序列的距离。关键词验证模型的输入是一个三元组训练样本triplet(包括锚样例、正样例和负样例)。对于三元组训练样本triplet，可以通过标注语料把相同词当作正样例，并随机选取不同词当作负样例。也可以根据人工标注的结果把关键词命中当作正样例，而语音关键词识别处理中的真实虚警当作负样例，从而使得所学声学词嵌入的区分能力更强，同时也充分利用了业务中的标注数据。

将triple输入权重共享的双向长短时记忆网络，并且合并最后一层最后一帧的网络输出作为声学词嵌入特征。假设N是BLSTM网络的层数，T是关键词候选样例x的帧数，那么

表示BLSTM网络第N层第T帧的前向输出向量，

表示BLSTM网络第N层第1帧的后向输出向量。关键词验证模型所学的声学词嵌入特征f(x)就是将这两个向量联合起来，其可以根据公式(1)得到：

为了使得所学的声学词嵌入特征区分能力更强，三元组损失包括三个损失函数，以指导网络的训练。第一个是三体损失函数，它的目的是使相同词语的声学词嵌入在空间内越来越近，同时使不同词语的声学词嵌入在空间内越来越远。实际上，由于关键词虚警和命中样例在声学上还是具有一定相似性的，一味的拉大二者之间的差异并不太合理，因此通过一个反向三体损失函数去使得这个距离保持在一定范围内，防止模型过分拉大这种triplet的距离。除此之外，QBE验证需要设置固定阈值判断关键词候选是否正确，因此添加一个铰链损失函数去使得相同关键词的余弦距离小于这个阈值，同时不同关键词的余弦距离大于这个阈值。假设x_a，x_p，x_n分别是锚样例，正样例，负样例，首先通过BLSTM网络可以得到x_a，x_p，x_n分别对应的声学词嵌入特征f(x_a)，f(x_p)和f(x_n)。之后在相似度度量过程中，采用余弦距离来表示两个样例之间的相似度，以cos(f(x_a),f(x_p))表示相同关键词样例之间的余弦距离，以cos(f(x_a),f(x_n))表示不同关键词样例之间的余弦距离。再通过三个系数α，β和γ对这三个损失函数进行加权求和，得到最终的三元组损失，三元组损失其可以根据式(2)得到，

其中，L为三元组损失，θ₁，θ₂和θ₃分别为三体损失函数、反向三体损失函数和铰链损失函数的调节阈值，用于调节对应损失函数的阈值。

进一步地，如图9所示，基于QBE的候选关键词验证处理过程中，首先为每个候选关键词x_k准备n个对应关键词模板，如y_k1，y_k2，…y_ki…y_kn，并且n个对应关键词模板均输入已经训练好的BLSTM网络中提取声学词嵌入特征；然后将n个模板的声学词嵌入特征通过平均操作变成一个声学词嵌入特征，如将f(y_k1)，…f(y_ki)…f(y_kn)通过平均操作变成一个声学词嵌入特征，并且计算关键词模板的声学词嵌入特征与候选关键词的声学词嵌入f(x_k)的余弦距离作为相似度得分；最后用一个相似度阈值与得到的相似度得分进行比较，从而判断该候选关键词是否正确，即判断候选关键词是否为目标关键词，从而基于实例查询对关键词检测进行验证的双阶语音关键词识别处理，能够提高语音关键词识别的覆盖范围，提升语音关键词识别的效果。

进一步地，在关键词模板的选择上，可以选取n个人工标注的关键词命中样例作为关键词模板，并且使得这些关键词模板尽可能的覆盖不同方言、信道、音色和背景噪声等复杂场景中。另外，在关键词模板的数量上，一般地，在一定范围内，关键词模板数量越多，QBE语音验证性能的效果越好，但是在达到上千量级后趋于收敛。为了平衡功耗和性能，关键词模板数量可以默认为100。此外，在关键词模板的使用策略上，可以计算候选关键词与每个关键词模板的余弦距离，然后得到一个平均距离作为相似度得分。而为了减少计算量同时保持QBE语音验证性能，可以将N个模板的声学词嵌入特征通过平均操作变成一个声学词嵌入特征，然后计算通过平均操作得到的声学词嵌入特征与候选关键词的声学词嵌入余弦距离作为相似度得分，从而减少声学词嵌入特征的处理数据量，提高语音关键词识别的处理效率。在关键词验证时，由于第一阶段关键词检测和第二阶段QBE语音验证都会分别生成一个关键词得分，可以使用线性函数对这关键词得分进行加权求和，从而融合两个阶段的关键词得分进行关键词识别，能够进一步提升关键词识别的性能。

此外，除了BLSTM网络外，也可以训练深度神经网络，卷积神经网络，循环神经网络等不同网络进行声学词嵌入特征提取，而除了Embeddings(嵌入)模型外，还可以通过分类模型对候选关键词进行关键词验证。

上述语音关键词识别方法在2块NVIDIA Tesla P4的GPU(Graphics ProcessingUnit，图形处理器)服务器上每分钟可以处理162.8小时的音视频，能够极大地节省了计算资源和人工审核成本。而相对于传统的关键词检测方法，上述语音关键词识别方法能够在复杂的真实场景下有效地提升关键词结果的准确率和召回率。如下表1所示，

表1

根据表1可以得知，在真实的音视频业务场景中，本申请的语音关键词识别方法可将关键词识别准确率、召回率、F1(F1 measure，F1值)分别提升3.9％、5.9％、5.9％，而在性能提升的同时，整体业务上实时率相对降低7.2％，在可接受范围内，实现了“又快又准”地检测出目标关键词。

本申请还另外提供一种应用场景，该应用场景应用上述的语音关键词识别方法。具体地，该语音关键词识别方法在该应用场景的应用如下：

终端采集用户发出的语音，产生对应的语音信号，终端通过上述的语音关键词识别方法对语音信号进行语音关键词识别，从而判断语音信号中是否存在目标关键词，若存在，则唤醒终端执行语音信号对应的工作，如解锁终端、播放多媒体、播报天气预报、回复消息等。

应该理解的是，虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种语音关键词识别装置1000，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：语音信号获取模块1002、关键词检测模块1004、嵌入特征提取模块1006、特征匹配模块1008和关键词验证模块1010，其中：

语音信号获取模块1002，用于获取待识别语音信号；

关键词检测模块1004，用于对待识别语音信号进行关键词检测，获得候选关键词；

嵌入特征提取模块1006，用于提取候选关键词的声学词嵌入特征；

特征匹配模块1008，用于将候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果；

关键词验证模块1010，用于根据特征匹配结果对候选关键词进行关键词验证，以从候选关键词中确定目标关键词。

在一个实施例中，嵌入特征提取模块1006包括语音特征获取模块、双向记忆特征提取模块和双向特征融合模块；其中：语音特征获取模块，用于获取候选关键词对应的候选词语音特征；双向记忆特征提取模块，用于基于候选词语音特征进行双向记忆特征提取，获得候选关键词的前向记忆特征和后向记忆特征；双向特征融合模块，用于融合前向记忆特征和后向记忆特征，得到候选关键词的声学词嵌入特征。

在一个实施例中，双向记忆特征提取模块包括前向特征提取模块和后向特征提取模块；其中：前向特征提取模块，用于对候选关键词对应的各帧候选词语音特征依次进行至少一次的前向长短时记忆特征提取，根据最后一帧候选词语音特征的特征提取结果得到候选关键词的前向记忆特征；后向特征提取模块，用于对候选关键词对应的各帧候选词语音特征依次进行至少一次的后向长短时记忆特征提取，根据首帧候选词语音特征的特征提取结果得到候选关键词的后向记忆特征。

在一个实施例中，还包括训练样本获取模块、训练特征获取模块、双向训练特征提取模块、训练嵌入特征获得模块、三元素损失确定模块和模型更新模块；其中：训练样本获取模块，用于获取三元组训练样本；训练特征获取模块，用于获取三元组训练样本对应的训练样本语音特征；双向训练特征提取模块，用于通过待训练的双向长短时记忆网络模型基于训练样本语音特征进行双向记忆特征提取，获得三元组训练样本的训练样本前向记忆特征和训练样本后向记忆特征；训练嵌入特征获得模块，用于通过待训练的双向长短时记忆网络模型融合训练样本前向记忆特征和训练样本后向记忆特征，得到三元组训练样本的训练样本声学词嵌入特征；三元素损失确定模块，用于根据三元组训练样本中各类别训练样本相应的训练样本声学词嵌入特征确定三元组损失；模型更新模块，用于基于三元组损失调整待训练的双向长短时记忆网络模型的参数后继续进行训练，直至满足训练结束条件时结束训练，得到训练完成的双向长短时记忆网络模型。

在一个实施例中，三元组训练样本包括锚样例、类别与锚样例相同的正样例和类别与锚样例不同的负样例；三元素损失确定模块包括第一余弦距离模块、第二预先距离模块、余弦距离处理模块和损失函数加权模块；其中：第一余弦距离模块，用于确定锚样例对应的训练样本声学词嵌入特征与正样例对应的训练样本声学词嵌入特征之间的第一余弦距离；第二预先距离模块，用于确定锚样例对应的训练样本声学词嵌入特征与负样例对应的训练样本声学词嵌入特征之间的第二余弦距离；余弦距离处理模块，用于根据第一余弦距离和第二余弦距离分别确定三体损失、反向三体损失和铰链损失；损失函数加权模块，用于基于三体损失、反向三体损失和铰链损失加权得到三元组损失。

在一个实施例中，余弦距离处理模块包括三体损失确定模块、反向三体损失确定模块和铰链损失确定模块；其中：三体损失确定模块，用于基于第一余弦距离、第二余弦距离的相反数和第一调节阈值得到三体损失；反向三体损失确定模块，用于基于第一余弦距离的相反数、第二余弦距离和第二调节阈值得到反向三体损失；铰链损失确定模块，用于基于根据第一余弦距离和第三调节阈值的相反数确定的第一铰链损失，以及根据第二余弦距离的相反数和第三调节阈值确定的第二铰链损失得到铰链损失。

在一个实施例中，还包括关键词模板确定模块和模板特征提取模块；其中：关键词模板确定模块，用于确定候选关键词对应的关键词模板；模板特征提取模块，用于对关键词模板进行声学词嵌入特征提取，获得关键词模板的声学词嵌入特征。

在一个实施例中，关键词模板多于一个；模板特征提取模块包括模板嵌入特征提取模块和嵌入特征平均处理模块；其中：模板嵌入特征提取模块，用于分别对各关键词模板进行声学词嵌入特征提取，得到各关键词模板分别对应的声学词嵌入特征；嵌入特征平均处理模块，用于对各关键词模板的声学词嵌入特征进行平均操作，根据获得的平均操作结果得到关键词模板的声学词嵌入特征。

在一个实施例中，特征匹配模块1008包括匹配余弦距离确定模块和匹配结果获得模块；其中：匹配余弦距离确定模块，用于确定候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的匹配余弦距离；匹配结果获得模块，用于根据匹配余弦距离得到特征匹配结果。

在一个实施例中，关键词验证模块1010包括验证阈值获取模块和验证阈值比较模块；其中：验证阈值获取模块，用于获取验证相似度阈值；验证阈值比较模块，用于当特征匹配结果表征的验证相似度大于验证相似度阈值时，确定候选关键词为目标关键词。

在一个实施例中，关键词验证模块1010包括检测相似度获取模块、双阶相似度确定模块和双阶相似度对比模块；其中：检测相似度获取模块，用于获取候选关键词在关键词检测过程中的检测相似度；双阶相似度确定模块，用于根据特征匹配结果表征的验证相似度和检测相似度，确定候选关键词对应的双阶相似度；双阶相似度对比模块，用于当双阶相似度大于双阶相似度阈值时，确定候选关键词为目标关键词。

在一个实施例中，关键词检测模块1004包括语音特征提取模块、解码图构建模块和解码模块；其中：语音特征提取模块，用于对待识别语音信号进行语音特征提取，得到待识别语音信号的语音特征；解码图构建模块，用于通过声学模型基于语音特征构建待识别语音信号的解码图；解码模块，用于通过关键词解码网络模型对解码图进行解码，得到候选关键词。

关于语音关键词识别装置的具体限定可以参见上文中对于语音关键词识别方法的限定，在此不再赘述。上述语音关键词识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音关键词识别方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音关键词识别方法，其特征在于，所述方法包括：

获取待识别语音信号；

对所述待识别语音信号进行关键词检测，获得候选关键词；

提取所述候选关键词的声学词嵌入特征；

将所述候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果；

根据所述特征匹配结果对所述候选关键词进行关键词验证，以从所述候选关键词中确定目标关键词。

2.根据权利要求1所述的方法，其特征在于，所述提取所述候选关键词的声学词嵌入特征，包括：

获取所述候选关键词对应的候选词语音特征；

基于所述候选词语音特征进行双向记忆特征提取，获得所述候选关键词的前向记忆特征和后向记忆特征；

融合所述前向记忆特征和所述后向记忆特征，得到所述候选关键词的声学词嵌入特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述候选词语音特征进行双向记忆特征提取，获得所述候选关键词的前向记忆特征和后向记忆特征，包括：

对所述候选关键词对应的各帧候选词语音特征依次进行至少一次的前向长短时记忆特征提取，根据最后一帧候选词语音特征的特征提取结果得到所述候选关键词的前向记忆特征；

对所述候选关键词对应的各帧候选词语音特征依次进行至少一次的后向长短时记忆特征提取，根据首帧候选词语音特征的特征提取结果得到所述候选关键词的后向记忆特征。

4.根据权利要求1所述的方法，其特征在于，所述提取所述候选关键词的声学词嵌入特征通过预训练的双向长短时记忆网络模型实现，所述双向长短时记忆网络模型的训练步骤包括：

获取三元组训练样本；

获取所述三元组训练样本对应的训练样本语音特征；

通过待训练的双向长短时记忆网络模型基于所述训练样本语音特征进行双向记忆特征提取，获得所述三元组训练样本的训练样本前向记忆特征和训练样本后向记忆特征；

通过所述待训练的双向长短时记忆网络模型融合所述训练样本前向记忆特征和所述训练样本后向记忆特征，得到所述三元组训练样本的训练样本声学词嵌入特征；

根据所述三元组训练样本中各类别训练样本相应的训练样本声学词嵌入特征确定三元组损失；

基于所述三元组损失调整所述待训练的双向长短时记忆网络模型的参数后继续进行训练，直至满足训练结束条件时结束训练，得到训练完成的双向长短时记忆网络模型。

5.根据权利要求4所述的方法，其特征在于，所述三元组训练样本包括锚样例、类别与所述锚样例相同的正样例和类别与所述锚样例不同的负样例；所述根据所述三元组训练样本中各类别训练样本相应的训练样本声学词嵌入特征确定三元组损失，包括：

确定所述锚样例对应的训练样本声学词嵌入特征与所述正样例对应的训练样本声学词嵌入特征之间的第一余弦距离；

确定所述锚样例对应的训练样本声学词嵌入特征与所述负样例对应的训练样本声学词嵌入特征之间的第二余弦距离；

根据所述第一余弦距离和所述第二余弦距离分别确定三体损失、反向三体损失和铰链损失；

基于所述三体损失、所述反向三体损失和所述铰链损失加权得到三元组损失。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一余弦距离和所述第二余弦距离分别确定三体损失、反向三体损失和铰链损失，包括：

基于所述第一余弦距离、所述第二余弦距离的相反数和第一调节阈值得到三体损失；

基于所述第一余弦距离的相反数、所述第二余弦距离和第二调节阈值得到反向三体损失；

基于根据所述第一余弦距离和第三调节阈值的相反数确定的第一铰链损失，以及根据所述第二余弦距离的相反数和所述第三调节阈值确定的第二铰链损失得到铰链损失。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述候选关键词对应的关键词模板；

对所述关键词模板进行声学词嵌入特征提取，获得所述关键词模板的声学词嵌入特征。

8.根据权利要求7所述的方法，其特征在于，所述关键词模板多于一个；所述对所述关键词模板进行声学词嵌入特征提取，获得所述关键词模板的声学词嵌入特征，包括：

分别对各所述关键词模板进行声学词嵌入特征提取，得到各所述关键词模板分别对应的声学词嵌入特征；

对各所述关键词模板的声学词嵌入特征进行平均操作，根据获得的平均操作结果得到所述关键词模板的声学词嵌入特征。

9.根据权利要求1所述的方法，其特征在于，所述将所述候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果，包括：

确定所述候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征之间的匹配余弦距离；

根据所述匹配余弦距离得到特征匹配结果。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述根据所述特征匹配结果对所述候选关键词进行关键词验证，以从所述候选关键词中确定目标关键词，包括：

获取验证相似度阈值；

当所述特征匹配结果表征的验证相似度大于所述验证相似度阈值时，确定所述候选关键词为目标关键词。

11.根据权利要求1至9任意一项所述的方法，其特征在于，所述根据所述特征匹配结果对所述候选关键词进行关键词验证，以从所述候选关键词中确定目标关键词，包括：

获取所述候选关键词在关键词检测过程中的检测相似度；

根据所述特征匹配结果表征的验证相似度和所述检测相似度，确定所述候选关键词对应的双阶相似度；

当所述双阶相似度大于所述双阶相似度阈值时，确定所述候选关键词为目标关键词。

12.根据权利要求1至11任意一项所述的方法，其特征在于，所述对所述待识别语音信号进行关键词检测，获得候选关键词，包括：

对所述待识别语音信号进行语音特征提取，得到所述待识别语音信号的语音特征；

通过声学模型基于所述语音特征构建所述待识别语音信号的解码图；

通过关键词解码网络模型对所述解码图进行解码，得到候选关键词。

13.一种语音关键词识别装置，其特征在于，所述装置包括：

语音信号获取模块，用于获取待识别语音信号；

关键词检测模块，用于对所述待识别语音信号进行关键词检测，获得候选关键词；

嵌入特征提取模块，用于提取所述候选关键词的声学词嵌入特征；

特征匹配模块，用于将所述候选关键词的声学词嵌入特征与关键词模板的声学词嵌入特征进行特征匹配，得到特征匹配结果；

关键词验证模块，用于根据所述特征匹配结果对所述候选关键词进行关键词验证，以从所述候选关键词中确定目标关键词。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。