CN111540363B

CN111540363B - 关键词模型及解码网络构建方法、检测方法及相关设备

Info

Publication number: CN111540363B
Application number: CN202010312979.1A
Authority: CN
Inventors: 方磊; 杨军; 杨帆; 方昕; 方四安
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-10-24
Anticipated expiration: 2040-04-20
Also published as: CN111540363A

Abstract

本申请提供了一种关键词模型及解码网络构建方法、检测方法及相关设备，其中，关键词模型构建方法可以包括：从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息；根据关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型；利用关键词列表中各关键词的语音样本，以源域关键词模型为基础模型，训练得到目标域的关键词模型。本申请提供的关键词模型构建方法使用数量较少的关键词语音样本即可构建出性能较佳的关键词模型。

Description

关键词模型及解码网络构建方法、检测方法及相关设备

技术领域

本申请涉及关键词检测技术领域，尤其涉及一种关键词模型构建方法、解码网络构建方法、关键词检测方法、装置、设备及存储介质。

背景技术

关键词检测技术，指的是从语音数据中检测指定关键词，若检测到指定关键词，确定检测到的指定关键词在语音数据中的位置。

目前的关键词检测方案的大致思路是，针对待检测的关键词模型构建关键词模型，在此基础上构建解码网络，利用构建的解码网络进行关键词检测。需要说明的是，上述关键词检测方案的关键在于，要构建出具有较好性能的关键词模型。

然而，目前尚不存能够构建出较好性能的关键词模型的方案，可以理解的是，若构建出的关键词模型性能不佳，将导致解码网络的性能不佳，进而导致关键词的检测效果不佳。

发明内容

有鉴于此，本申请提供了一种关键词模型构建方法、解码网络构建方法、关键词检测方法、装置、设备及存储介质，用以构建出具有较好性能的关键词模型，进而构建出具有较好性能的解码网络，从而提升关键词的检测效果，其技术方案如下：

一种关键词模型构建方法，包括：

从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息；

根据所述关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型；

利用所述关键词列表中各关键词的语音样本，以所述源域的关键词模型为基础模型，训练得到目标域的关键词模型。

可选的，所述从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息，包括：

获取所述关键词列表中每个关键词的三音素序列串；

根据所述关键词列表中每个关键词的三音素序列串，从所述源域的声学模型中抽取所述关键词列表中各关键词分别对应的模型信息。

可选的，所述根据所述关键词列表中每个关键词的三音素序列串，从源域的声学模型中抽取所述关键词列表中各关键词分别对应的模型信息，包括：

对于所述关键词列表中的每个关键词：

从所述源域的声学模型中抽取该关键词的三音素序列串中每个三音素的模型信息；

将该关键词的三音素序列串中各三音素的模型信息作为该关键词对应的模型信息；

以得到所述关键词列表中各关键词分别对应的模型信息。

可选的，所述根据所述关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型，包括：

对于所述关键词列表中的每个关键词：

根据该关键词的三音素序列串中各三音素的顺序，将该关键词的三音素序列串中各三音素的模型信息进行拼接，得到该关键词对应的拼接后模型信息；

以得到所述关键词列表中各关键词分别对应的拼接后模型信息；

由所述关键词列表中各关键词分别对应的拼接后模型信息组成所述源域的关键词模型。

可选的，所述利用所述关键词列表中各关键词的语音样本，以所述源域的关键词模型为基础模型，训练得到目标域的关键词模型，包括：

将所述关键词列表中、每个关键词的语音样本按音素切分，得到每个关键词的语音片段集合，其中，所述语音片段集合中的一个语音片段为对应关键词的一个音素；

利用所述关键词列表中各关键词的语音片段集合，训练所述源域的关键词模型，得到所述目标域的关键词模型。

一种解码网络构建方法，包括：

采用上述任意一项所述的关键词模型构建方法，针对待检测的关键词列表构建目标域的关键词模型；

构建所述目标域的垃圾模型，其中，所述目标域的垃圾模型用于吸收非关键词；

将所述目标域的关键词模型与所述目标域的垃圾模型组合，得到所述目标域的解码网络。

一种关键词检测方法，包括：

获取目标域的目标语音数据；

利用上述的解码网络构建方法构建的解码网络，确定所述目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

上述的关键词检测方法还包括：

将利用所述解码网络确定出的关键词作为候选关键词，确定所述候选关键词的置信度；

根据所述候选关键词的置信度确定所述候选关键词是否为关键词。

可选的，所述确定所述候选关键词的置信度，包括：

根据所述候选关键词在所述目标语音数据中的位置，从所述目标语音数据中获取所述候选关键词的语音片段；

确定所述候选关键词的语音片段与所述候选关键词的语音样本的相似度；

根据所述候选关键词的语音片段与所述候选关键词的语音样本的相似度，确定所述候选关键词的置信度。

一种关键词模型构建装置，包括：模型信息抽取模块、关键词模型构建模块和关键词模型训练模块；

所述模型信息抽取模块，用于从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息；

所述关键词模型构建模块，用于根据所述关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型；

所述关键词模型训练模块，用于利用所述关键词列表中各关键词的语音样本，以所述源域的关键词模型为基础模型，训练得到目标域的关键词模型。

一种解码网络构建装置，包括：上述的关键词模型构建装置，以及，垃圾模型构建模块和解码网络构建模块；

所述关键词模型构建装置，用于针对待检测的关键词列表构建目标域的关键词模型；

所述垃圾模型构建模块，用于构建所述目标域的垃圾模型，其中，所述目标域的垃圾模型用于吸收非关键词；

所述解码网络构建模块，用于将所述目标域的关键词模型与所述目标域的垃圾模型组合，得到所述目标域的解码网络。

一种关键词检测装置，包括：语音数据获取模块和关键词检测模块；

所述语音数据获取模块，用于获取目标域的目标语音数据；

所述关键词检测模块，用于利用上述的解码网络构建装置构建的解码网络确定所述目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

一种关键词模型构建设备，其包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的关键词模型构建方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的关键词模型构建方法的各个步骤。

经由上述方案可知，本申请提供的关键词模型构建方法，首先从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息，然后根据关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型，最后利用关键词列表中各关键词的语音样本，以源域的关键词模型为基础模型，训练得到目标域的关键词模型。由于源域的声学模型通过大量的训练样本训练得到，因此其非常稳定，相应的，利用源域的声学模型构建的源域的关键词模型也非常稳定，利用待检索关键词的语音样本对源域稳定的关键词模型进行训练后，便可得到性能较佳的目标域的关键词模型，另外，由于源域的关键词模型非常稳定，因此，只需要用较少目标域的语音样本对其进行训练，便可得到性能较佳的目标域的关键词模型。由此可见，本申请提供的关键词模型构建方法，不但能构建出性能较佳的关键词模型，而且构建关键词模型所需的语音样本较少，使用的语音样本较少，一方面降低了针对关键词收集语音样本所消耗的时间成本和人力成本，另一方面，解决了某些领域关键词的语音样本稀缺导致样本收集难度大的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的关键词模型构建方法的流程示意图；

图2为本申请实施例提供的解码网络构建方法的流程示意图；

图3为本申请实施例提供的关键词检测方法的流程示意图；

图4为本申请实施例提供的关键词模型构建装置的示意图；

图5为本申请实施例提供的解码网络构建装置的结构示意图；

图6为本申请实施例提供的关键词检测装置的结构示意图；

图7为本申请实施例提供的关键词模型构建设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人在实现本发明创造的过程中发现：现有技术的关键词检测方法主要有两种，一种为基于连续语音识别的关键词检测方法，另一种为基于发音样例的关键词检测方法。

其中，基于连续语音识别的关键词检测方法的大致思路是，首先对待检测的语音数据进行语音识别，以得到检测的语音数据的识别文本，然后对该识别文本进行关键词检测。

由于基于连续语音识别的关键词检测方法需要进行语音识别，因此，需要构建一个连续语音识别系统，即建立声学模型和语言模型。而构建某一领域稳定的声学模型，需要投入相对稀缺的语言专家，标注大量的训练语料，这需要耗费大量的时间和财力。显然，基于连续语音识别的关键词检测方法与公共安全、军事侦察等领域快速变化的应用形势及高实时性的任务要求具有很大冲突。

基于发音样例的关键词检测方法的大致思路为：利用指定关键词的多个语音样本构建关键词模型，在此基础上构建解码网络，利用解码网络对待检测语音数据进行关键词检测。

基于发音样例的关键词检测方法本质上是利用关键词的语音样本，采用模板匹配技术从待检测的语音数据中检测关键词。基于发音样例的关键词检测方法能够缓解基于连续语音识别的关键词检测方法的问题，但是，其也存在一些问题，具体体现在：

基于发音样例的关键词检测方案，是一种模板匹配技术，其完全依赖于有限样本的序列信息来匹配目标关键词。由于关键词的语音样本时长较短，通常为300ms到500ms之中，甚至更短，因此，其极易受说话人本身的音色、口音，环境噪声，录音设备，信道等干扰因素的影响，这些“个性”冗余信息对关键词检测任务来说是一种干扰信息，降低了关键词检测的性能，同时，由于缺少语言模型的语境信息，检测性能高度依赖于针对关键词收集的语音样本的数量与质量，有鉴于此，为了能够构建出性能较佳(鲁棒性较强)的关键词模型，需要针对关键词收集大量的语音样本，通常情况，针对每个关键词至少要收集30到50个语音样本，并且要求从实际的目标数据源中收集，以保障每个词的性别、年龄、口音、信道等因素的数据分布尽可能与实际的应用环境的分布一致。

然而，对于每个关键词收集大量真实场景的语音样本非常耗时耗力(需要人工遍历大量的语音数据，并且，由于不同信道、领域的差异性，针对同一关键词需要分别在不同领域进行数据收集)。特别地，对于公共安全、军事侦察等领域，由于这些领域中的关键词通常为出现机率非常低的敏感词，要收集至少30到50个语音样本几乎不可能，即，针对这些领域难以完成样本收集目标，而这类出现机率较低的敏感词往往又具有非常重要的价值，其检出率关乎检测方案的应用价值。

鉴于上述方案存在的问题，本案发明人进一步研究，最终提出了一种效果较好的关键词模型构建方法，该关键词模型构建方法利用待检测关键词较少的语音样本即能构建出性能较佳(即鲁棒性较强)的关键词模型，该关键词模型构建方法的大致思路是，在已有声学模型的基础上，利用音素拼接的方式，获得待检测关键词对应的关键词模型，然后利用待检测关键词少量的语音样本(比如每个关键词3～5个语音样本)，通过迁移学习更新获得的关键词模型，从而获得最终的关键词模型。本申请在上述关键词模型构建方法的基础上，还提供了一种解码网络构建方法以及关键词检测方法，其中，解码网络构建方法利用关键词模型构建方法构建出的关键词模型可构建出性能较佳的解码网络，关键词检测方法利用解码网络构建方法构建出的解码网络对语音数据进行关键词检测，能够获得较佳的检测效果。本申请提供的关键词模型构建方法、解码网络构建方法及关键词检测方法可应用于具有数据处理能力的终端，比如，智能手机、PC、笔记本电脑、平板电脑、车载终端等，也可应用于服务器(可以为单个服务器，也可以为多个服务器，还可以为服务器集群)。接下来通过下述实施例对本申请提供的关键词模型构建方法、解码网络构建方法及关键词检测方法进行介绍。

第一实施例

请参阅图1，示出了本实施例提供的关键词模型构建方法的流程示意图，可以包括：

步骤S101、从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息。

其中，待检测的关键词列表由待检测的关键词组成，待检测的关键词列表可以包括一个关键词，也可以包括多个关键词，待检测的关键词列表中所包含的关键词与具体应用的检测需求有关。

本实施例中，待检测的关键词列表中每个关键词对应的模型信息包括该关键词的三音素序列串中各三音素的模型信息。

另外，需要说明的是，源域的声学模型为已有的声学模型，其采用大量样本训练得到，即，源域的声学模型为已有的、比较稳定的声学模型。

步骤S102、根据关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型。

其中，源域的关键词模型可以为HMM模型。

上述内容提到，待检测的关键词列表中每个关键词对应的模型信息包括该关键词的三音素序列串中各三音素的模型信息，基于此，根据关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型的过程可以包括：对于待检测的关键词列表中的每个关键词，根据该关键词的三音素序列串中各三音素的模型信息生成该关键词对应的关键词模型，从而得到待检测的关键词列表中各关键词分别对应的关键词模型；由待检测的关键词列表中各关键词分别对应的关键词模型组成源域的关键词模型。

由于源域的声学模型比较稳定，因此，由从源域的声学模型中抽取出的模型信息生成的关键词模型也比较稳定，即源域的关键词模型比较稳定。

步骤S103、利用关键词列表中各关键词的语音样本，以源域的关键词模型为基础模型，训练得到目标域的关键词模型。

由于源域的关键词模型非常稳定，因此，本实施例利用关键词列表中各关键词少量的语音样本(比如每个关键词3～5个语音样本)，通过迁移学习更新源域的关键词模型，即本实施例只需要使用少量的语音样本对源域的关键词模型进行训练，便可得到性能较佳的目标域的关键词模型。

由于源域的关键词模型的建模单元为音素，因此，在利用关键词的语音样本训练源域的关键词模型时，需要先对关键词的语音样本进行处理，具体的，将关键词列表中、每个关键词的语音样本按音素切分，得到每个关键词的语音片段集合，其中，语音片段集合中的一个语音片段为对应关键词的一个音素，然后利用关键词列表中各关键词的语音片段集合，训练源域的关键词模型，从而得到目标域的关键词模型。

可选的，在对关键词的语音样本按音素切分时，可利用强制切分工具(ForcedAlignment，FA)进行切分。

可选的，在利用关键词列表中各关键词的语音片段集合训练源域的关键词模型时，可采用最大后验算法(HMM-MAP)对源域的关键词模型进行参数迁移学习，从而得到目标域的关键词模型。

本实施例提供的关键词模型构建方法，首先利用源域的声学模型，针对待检索关键词模型构建源域的关键词模型，然后利用关键词列表中各关键词的语音样本，以源域的关键词模型为基础模型，训练得到目标域的关键词模型。由于源域的声学模型通过大量的训练样本训练得到，因此其非常稳定，相应的，利用源域的声学模型构建的源域的关键词模型也非常稳定，利用待检索关键词的语音样本对源域稳定的关键词模型进行训练后，便可得到性能较佳的目标域的关键词模型。

另外，由于源域的关键词模型非常稳定，因此，只需要用较少目标域的语音样本对其进行训练，便可得到性能较佳的目标域的关键词模型，即，源域的关键词模型只需要目标域较少的语音样本就可学习到目标域的信息，也就是说，本申请提供的关键词模型构建方法针对每个关键词只需要收集少量的语音样本即可。

由此可见，本实施例提供的关键词模型构建方法，不但能构建出性能较佳的关键词模型，而且构建关键词模型所需的语音样本较少，使用的语音样本较少，一方面降低了针对关键词收集语音样本所消耗的时间成本和人力成本，另一方面，解决了某些领域关键词的语音样本稀缺导致样本收集难度大的问题。

第二实施例

本实施例对上述实施例中的步骤S101和步骤S102进行介绍。

“步骤S101、从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息”的实现过程可以包括：

步骤a1、获取关键词列表中每个关键词的三音素序列串。

其中，任一关键词的三音素序列串为，由该关键词的所有三音素按顺序组成的序列串。

步骤a2、根据关键词列表中每个关键词的三音素序列串，从源域的声学模型中抽取关键词列表中各关键词分别对应的模型信息。

具体的，对于关键词列表中的每个关键词：从源域的声学模型中抽取该关键词的三音素序列串中每个三音素的模型信息；将该关键词的三音素序列串中各三音素的模型信息作为该关键词对应的模型信息；以得到关键词列表中各关键词分别对应的模型信息。其中，一个三音素的模型信息可以包括该三音素的状态描述概率和状态跳转概率。

示例性的，一关键词X的三音素序列串为{a-b-c，b-c-d，c-d-e}，则从源域的声学模型中获取a-b-c的模型信息、b-c-d的模型信息和c-d-e的模型信息，将a-b-c的模型信息、b-c-d的模型信息和c-d-e的模型信息作为关键词X对应的模型信息。

在获得关键词列表中各关键词分别对应的模型信息后，执行“步骤S102、根据关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型”，具体的，“步骤S102、根据关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型”的实现过程可以包括：

步骤b1、对于关键词列表中的每个关键词，根据该关键词的三音素序列串中各三音素的顺序，将该关键词的三音素序列串中各三音素的模型信息进行拼接，得到该关键词对应的拼接后模型信息。

通过步骤b1可获得关键词列表中各关键词分别对应的拼接后模型信息。需要说明的是，关键词列表中任一关键词对应的拼接后模型信息即为该关键词对应的关键词模型，即，通过步骤b1可获得关键词列表中各关键词分别对应的关键词模型。

步骤b2、由关键词列表中各关键词分别对应的拼接后模型信息组成源域的关键词模型。

即，由关键词列表中各关键词分别对应的关键词模型组成源域的关键词模型。

第三实施例

在上述实施例提供的关键词模型构建方法的基础上，本实施例提供了一种解码网络构建方法，请参阅图2，示出了该解码网络构建方法的流程示意图，可以包括：

步骤S201、针对待检测的关键词列表构建目标域的关键词模型。

其中，步骤S201的具体实现过程可参见上述第一实施例和第二实施例，本实施例在此不作赘述。

步骤S202、构建目标域的垃圾模型。

其中，目标域的垃圾模型(即Filler模型)用于吸收非关键词。

具体的，利用从目标域中随机采样的未标注语音样本，采用无监督的最大期望算法(EM)学习得到用于吸收非关键词的垃圾模型，垃圾模型可以为GMM模型。

需要说明的是，本实施例并不限定步骤S201和步骤S202的执行顺序，即，可先执行步骤S201，再执行步骤S202，也可先执行步骤S202，再执行步骤S201，还可并行执行步骤S201和步骤S202，只要包含步骤S201和步骤S202都属于本申请所要保护的范围。

步骤S203、将目标域的关键词模型与目标域的垃圾模型组合，得到目标域的解码网络。

需要说明的是，在组合目标域的关键词模型与目标域的垃圾模型时，通常需要对目标域的关键词模型给予合适的奖励，或者对垃圾模型给予合适的惩罚，以使得输入解码网络的语音数据中出现关键词时，关键词得分能够超过垃圾模型的得分，从而能够检测出语音数据中出现的关键词。

本实施例提供的解码网络构建方法，首先针对待检测的关键词列表构建目标域的关键词模型，然后构建用于吸收非关键词的垃圾模型，最后将目标域的关键词模型与目标域的垃圾模型组合，从而得到目标域的解码网络。由于目标域的关键词模型采用本申请上述实施例提供的关键词模型构建方法构建(即目标域的关键词模型利用源域的声学模型和目标域中关键词的语音样本构建)，因此，目标域的关键词模型具有较好的性能，由于目标域的关键词模型是解码网络的关键部分，因此，利用性能较好的关键词模型构建的解码网络也具有较好的性能，即利用本实施例构建的解码网络对语音数据进行关键词检测时，能够获得较好的检测效果。

第四实施例

在上述第三实施例的基础上，本实施例提供了一种关键词检测方法，请参阅图3，示出了该关键词检测方法的流程示意图，可以包括：

步骤S301、获取目标域的目标语音数据。

其中，目标语音数据为需要进行关键词检测的语音数据。

在某些应用中，需要在包含多条语音数据的语料库中检索出现指定关键词的语音数据，并确定出现指定关键词的语音数据中指定关键词出现的位置，步骤S301中的目标语音数据可以为语料库中的一条语音数据。

步骤S302、利用构建的解码网络，确定目标语音数据中所出现的关键词，以及关键词在目标语音数据中的位置。

需要说明的是，步骤S302中使用的解码网络采用第三实施例提供的解码网络构建方法构建。

具体的，将目标语音数据输入解码网络进行解码，在对目标语音数据进行解码时，可采用viterbi算法遍历目标数据，得到具体的关键词以及关键词在目标语音数据中的位置。

在某些时候，利用解码网络确定出的关键词可能并不是真正的关键词，基于此，本实施例提供的关键词检测方法还可以包括：

步骤S303、将利用解码网络确定出的关键词作为候选关键词，确定候选关键词的置信度。

具体的，确定候选关键词的置信度的过程可以包括：

步骤c1、根据候选关键词在目标语音数据中的位置，从目标语音数据中获取候选关键词的语音片段。

需要说明的是，候选关键词的语音片段指的是，内容为候选关键词的语音片段。

步骤c2、确定候选关键词的语音片段与候选关键词的语音样本的相似度。

可选的，确定候选关键词的语音片段与候选关键词的语音样本的相似度的过程可以包括：确定候选关键词的语音片段的表征向量以及候选关键词的语音样本的表征向量；计算候选关键词的语音片段的表征向量与候选关键词的语音样本的表征向量的余弦距离，作为候选关键词的语音片段与候选关键词的语音样本的相似度。

可选的，可将候选关键词的语音片段与候选关键词的语音样本分别投影到预先构建的低维空间T，从而得到候选关键词的语音片段的表征向量以及候选关键词的语音样本的表征向量。其中，低维空间T可利用目标域的训练样本训练得到。

需要说明的是，候选关键词的语音样本可能为一个，也可能为多个，通常为多个，比如3～5个，假设候选关键词的语音样本为多个，则需要计算候选关键词的语音片段分别与候选关键词的各语音样本的相似度，即需要计算候选关键词的语音片段的表征向量分别与候选关键词的各语音样本的表征向量的余弦相似度。

步骤c3、根据候选关键词的语音片段与候选关键词的语音样本的相似度，确定候选关键词的置信度。

若候选关键词的语音样本为一个，则将候选关键词的语音片段与候选关键词的语音样本的相似度确定为候选关键词的置信度；若候选关键词的语音样本为多个，则将候选关键词的语音片段分别与候选关键词的各语音样本的相似度的均值确定为候选关键词的置信度。

步骤S304、根据候选关键词的置信度确定候选关键词是否为关键词。

具体的，若候选关键词的置信度大于预设的置信度阈值，则确定候选关键词为真正的关键词，否则，确定候选关键词不是真正的关键词。

通过上述步骤S303和步骤S304，可将利用解码网络获得的关键词中误检出的关键词过滤掉，从而获得准确的关键词检测结果。

本实施例提供的关键词检测方法，在获得目标语音数据后，可利用解码网络对其进行关键词检测，由于解码网络由本申请提供的关键词模型构建方法构建的关键词模型组成，而本申请提供的关键词模型构建方法构建出的关键词模型性能较优，因此解码网络的性能也较优，在利用性能较优的解码网络进行关键词检测时，能够获得较好的检测效果，再加之基于置信度的关键词过滤方案，使得本申请提供的关键词检测方法具有较高的检测准确度。

第五实施例

本实施例提供了一种关键词模型构建装置，下面对本实施例提供的关键词模型构建进行描述，下文描述的关键词模型构建装置与上文描述的关键词模型构建方法可相互对应参照。

请参阅图4，示出了本实施例提供的关键词模型构建装置的结构示意图，该关键词模型构建装置可以包括：模型信息抽取模块401、关键词模型构建模块402和关键词模型训练模块403。

模型信息抽取模块401，用于从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息。

关键词模型构建模块402，用于根据所述关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型。

关键词模型训练模块403，用于利用关键词列表中各关键词的语音样本，以源域的关键词模型为基础模型，训练得到目标域的关键词模型。

可选的，模型信息抽取模块401可以包括：三音素序列串获取子模块和模型信息抽取子模块。

三音素序列串获取子模块，用于获取所述关键词列表中每个关键词的三音素序列串。

模型信息抽取子模块，用于根据所述关键词列表中每个关键词的三音素序列串，从所述源域的声学模型中抽取所述关键词列表中各关键词分别对应的模型信息。

可选的，上述的模型信息抽取子模块，具体用于对于所述关键词列表中的每个关键词：从所述源域的声学模型中抽取该关键词的三音素序列串中每个三音素的模型信息；将该关键词的三音素序列串中各三音素的模型信息作为该关键词对应的模型信息；以得到所述关键词列表中各关键词分别对应的模型信息。

可选的，关键词模型构建模块402，具体用于对于所述关键词列表中的每个关键词：根据该关键词的三音素序列串中各三音素的顺序，将该关键词的三音素序列串中各三音素的模型信息进行拼接，得到该关键词对应的拼接后模型信息；以得到所述关键词列表中各关键词分别对应的拼接后模型信息；由所述关键词列表中各关键词分别对应的拼接后模型信息组成所述源域的关键词模型。

可选的，关键词模型训练模块403包括：语音片段集合获取子模块和关键词模型训练子模块。

语音片段集合获取子模块，用于将所述关键词列表中、每个关键词的语音样本按音素切分，得到每个关键词的语音片段集合。

其中，所述语音片段集合中的一个语音片段为对应关键词的一个音素。

关键词模型训练子模块，利用所述关键词列表中各关键词的语音片段集合，训练所述源域的关键词模型，得到所述目标域的关键词模型。

本实施例提供的关键词模型构建装置，首先利用源域的声学模型，针对待检索关键词模型构建源域的关键词模型，然后利用关键词列表中各关键词的语音样本，以源域的关键词模型为基础模型，训练得到目标域的关键词模型。由于源域的声学模型通过大量的训练样本训练得到，因此其非常稳定，相应的，利用源域的声学模型构建的源域的关键词模型也非常稳定，利用目标域中、待检索关键词的语音样本对源域稳定的关键词模型进行训练后，便可得到性能较佳的目标域的关键词模型。另外，由于源域的关键词模型非常稳定，因此，只需要用较少目标域的语音样本对其进行训练，便可得到性能较佳的目标域的关键词模型。由此可见，本实施例提供的关键词模型构建装置，不但能构建出性能较佳的关键词模型，而且构建关键词模型所需的语音样本较少，使用的语音样本较少，一方面降低了针对关键词收集语音样本所消耗的时间成本和人力成本，另一方面，解决了某些领域关键词的语音样本稀缺导致样本收集难度大的问题。

第六实施例

在上述第四实施例的基础上，本实施例提供了一种解码网络构建装置，请参阅图5，示出了该解码网络构建装置的结构示意图，可以包括：关键词模型构建装置501，以及，垃圾模型构建模块502和解码网络构建模块503。

其中，关键词模型构建装置501为上述第四实施例提供的关键词模型构建装置，其用于针对待检测的关键词列表构建目标域的关键词模型。

垃圾模型构建模块502，用于构建所述目标域的垃圾模型，其中，所述目标域的垃圾模型用于吸收非关键词；

解码网络构建模块503，用于将所述目标域的关键词模型与所述目标域的垃圾模型组合，得到所述目标域的解码网络。

由于目标域的关键词模型采用本申请上述实施例提供的关键词模型构建装置构建(即目标域的关键词模型利用源域的声学模型和目标域中关键词的语音样本构建)，因此，目标域的关键词模型具有较好的性能，由于目标域的关键词模型是解码网络的关键部分，因此，利用性能较好的关键词模型构建的解码网络也具有较好的性能，即利用本实施例提供的解码网络构建装置构建的解码网络对语音数据进行关键词检测时，能够获得较好的检测效果。

第七实施例

在上述第六实施例的基础上，本实施例提供了一种关键词检测装置，请参阅图6，示出了该关键词检测装置的结构示意图，可以包括：语音数据获取模块601和关键词检测模块602。

语音数据获取模块601，用于获取目标域的目标语音数据。

关键词检测模块602，用于利用第六实施例提供的解码网络构建装置构建的解码网络确定所述目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

本实施例提供的关键词检测装置，在获得目标语音数据后，可利用解码网络对其进行关键词检测，由于解码网络由本申请提供的关键词模型构建装置构建的关键词模型组成，而本申请提供的关键词模型构建装置构建出的关键词模型性能较优，因此解码网络的性能也较优，在利用性能较优的解码网络进行关键词检测时，能够获得较好的检测效果，再加之基于置信度的关键词过滤方案，使得本实施例提供的关键词检测装置具有较高的检测准确度。

第八实施例

本实施例提供了一种关键词模型构建设备，请参阅图7，示出了该关键词模型构建设备的结构示意图，该关键词模型构建设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

利用关键词列表中各关键词的语音样本，以源域的关键词模型为基础模型，训练得到目标域的关键词模型。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第九实施例

本实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

第十实施例

本实施例还提供了一种解码网络构建设备，该解码网络构建设备可以包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；

在本申请实施例中，处理器、通信接口、存储器、通信总线的数量为至少一个，且处理器、通信接口、存储器通过通信总线完成相互间的通信；

处理器可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

采用上述实施例提供的关键词模型构建方法，针对待检测的关键词列表构建目标域的关键词模型；

构建所述目标域的垃圾模型，其中，目标域的垃圾模型用于吸收非关键词；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第十一实施例

本实施例提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

第十二实施例

本实施例还提供了一种关键词检测设备，该关键词检测设备可以包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；

在本实施例中，处理器、通信接口、存储器、通信总线的数量为至少一个，且处理器、通信接口、存储器通过通信总线完成相互间的通信；

获取目标域的目标语音数据；

利用上述实施例提供的解码网络构建方法构建的解码网络，确定所述目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第十三实施例

获取目标域的目标语音数据；

利用上述实施例提供的解码网络构建方法构建的解码网络，确定目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种关键词模型构建方法，其特征在于，包括：

从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息；其中，所述源域的声学模型为已有的、采用超过预设数量的样本训练得到的声学模型；

利用所述关键词列表中各关键词的语音样本，以所述源域的关键词模型为基础模型，训练得到目标域的关键词模型；

其中，所述利用所述关键词列表中各关键词的语音样本，以所述源域的关键词模型为基础模型，训练得到目标域的关键词模型，包括：

2.根据权利要求1所述的关键词模型构建方法，其特征在于，所述从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息，包括：

获取所述关键词列表中每个关键词的三音素序列串；

3.根据权利要求2所述的关键词模型构建方法，其特征在于，所述根据所述关键词列表中每个关键词的三音素序列串，从源域的声学模型中抽取所述关键词列表中各关键词分别对应的模型信息，包括：

对于所述关键词列表中的每个关键词：

以得到所述关键词列表中各关键词分别对应的模型信息。

4.根据权利要求3所述的关键词模型构建方法，其特征在于，所述根据所述关键词列表中各关键词分别对应的模型信息，生成源域的关键词模型，包括：

对于所述关键词列表中的每个关键词：

5.一种解码网络构建方法，其特征在于，包括：

采用如权利要求1~4中任意一项所述的关键词模型构建方法，针对待检测的关键词列表构建目标域的关键词模型；

6.一种关键词检测方法，其特征在于，包括：

获取目标域的目标语音数据；

利用如权利要求5所述的解码网络构建方法构建的解码网络，确定所述目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

7.根据权利要求6所述的关键词检测方法，其特征在于，还包括：

8.根据权利要求7所述的关键词检测方法，其特征在于，所述确定所述候选关键词的置信度，包括：

9.一种关键词模型构建装置，其特征在于，包括：模型信息抽取模块、关键词模型构建模块和关键词模型训练模块；

所述模型信息抽取模块，用于从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息；其中，所述源域的声学模型为已有的、采用超过预设数量的样本训练得到的声学模型；

所述关键词模型训练模块，用于利用所述关键词列表中各关键词的语音样本，以所述源域的关键词模型为基础模型，训练得到目标域的关键词模型；

其中，所述关键词模型训练模块包括：语音片段集合获取子模块和关键词模型训练子模块；

所述语音片段集合获取子模块，用于将所述关键词列表中、每个关键词的语音样本按音素切分，得到每个关键词的语音片段集合，其中，所述语音片段集合中的一个语音片段为对应关键词的一个音素；

所述关键词模型训练子模块，用于利用所述关键词列表中各关键词的语音片段集合，训练所述源域的关键词模型，得到所述目标域的关键词模型。

10.一种解码网络构建装置，其特征在于，包括：如权利要求9所述的关键词模型构建装置，以及，垃圾模型构建模块和解码网络构建模块；

11.一种关键词检测装置，其特征在于，包括：语音数据获取模块和关键词检测模块；

所述语音数据获取模块，用于获取目标域的目标语音数据；

所述关键词检测模块，用于利用如权利要求10所述的解码网络构建装置构建的解码网络确定所述目标语音数据中所出现的关键词，以及所述关键词在所述目标语音数据中的位置。

12.一种关键词模型构建设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~4中任一项所述的关键词模型构建方法的各个步骤。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~4中任一项所述的关键词模型构建方法的各个步骤。