CN115273815A

CN115273815A - 语音关键词检测的方法、装置、设备及存储介质

Info

Publication number: CN115273815A
Application number: CN202210906376.3A
Authority: CN
Inventors: 张之勇; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本发明提供了一种语音关键词检测的方法、装置、设备及存储介质，涉及语音识别技术领域；方法包括：对所述待处理的语音数据进行处理，得到语音声学特征；将所述语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量；在预设的存储路径下取出泛语义文本空间向量；将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算，得到声学语义上下文特征向量；将所述声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词。本发明实施例的语音关键词检测的方法、设备及存储介质能提升关键词检测的效果。

Description

语音关键词检测的方法、装置、设备及存储介质

技术领域

本发明实施例涉及但不限于语音识别技术领域，尤其涉及一种语音关键词检测的方法、装置、设备及存储介质。

背景技术

语音关键词检测主要完成在连续语音流中进行预先定义的关键词检索的过程，传统的关键词检索方法包括补白模型、样例匹配和基于大规模语音识别的文本检索等，但是其缺陷在于主要基于声学特征的高层特征序列匹配或者是基于大规模语音识别的文本级别字符串匹配，缺失了语音中语义信息建模。近年来，随着深度学习技术的发展，学者们提出了多种融合声学特征和关键词文本特征的关键词检索系统，但是无论是根据进行声学特征和语言学特征融合模型训练，还是基于二者进行相似度计算判断，均是对关键词列表的循环计算匹配，模型计算量大且由于对于关键词的单一语音特征提取，也会限制命令词表述的多样性，关键词检索的精度较低，因此，相关技术中，语音关键词检测的效果差。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种语音关键词检测的方法、装置、设备及存储介质，能提升关键词检测的效果。

第一方面，本发明实施例提供了一种语音关键词检测的方法，包括：

对所述待处理的语音数据进行处理，得到语音声学特征；

将所述语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量；

在预设的存储路径下取出泛语义文本空间向量；

将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算，得到声学语义上下文特征向量；

将所述声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词。

根据本发明第一方面的一些实施例，所述泛语义文本空间向量由多个泛化语义特征向量拼接得到；所述将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算，得到声学语义上下文特征向量，包括：

将所述泛语义文本空间向量和所述语音声学特征向量输入预设的注意力模型中进行注意力计算，得到与多个所述泛化语义特征向量一一对应的多个加权分布数据；

将多个所述加权分布数据组合得到所述声学语义上下文特征向量。

根据本发明第一方面的一些实施例，所述关键词分类模型包括前向神经网络层和归一化网络层；所述将所述声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词，包括：

将所述声学语义上下文特征向量包括的多个所述加权分布数据输入所述前向神经网络层，得到概率更新数据；

通过所述归一化网络层对所述概率更新数据进行分类预测，得到与多个预设关键词一一对应的多个分类概率；

从多个所述分类概率中选取出最大的所述分类概率对应的预设关键词作为所述语音数据的关键词。

根据本发明第一方面的一些实施例，所述对所述待处理的语音数据进行处理，得到语音声学特征，包括：对所述语音数据进行基础声学特征提取，得到语音基础声学特征；

对应的，所述将所述语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量，包括：

将所述语音基础声学特征输入到所述语音编码网络模型中进行高维特征提取，得到所述语音声学特征向量。

根据本发明第一方面的一些实施例，所述泛语义文本空间向量通过如下步骤计算得到：

获取预设的语言表征模型、关键词样本序列集以及负样本序列集；

通过所述语言表征模型对所述关键词样本序列集进行特征提取，得到多个关键词泛化特征向量；

通过所述语言表征模型对所述负样本序列集进行特征提取，得到至少一个非关键词特征向量；

将多个所述关键词泛化特征向量和至少一个所述非关键词特征向量拼接，得到所述泛语义文本空间向量。

根据本发明第一方面的一些实施例，所述通过所述语言表征模型对所述关键词样本序列集进行特征提取，得到多个关键词泛化特征向量，包括：

将所述关键词样本序列集中每一关键词样本序列分别输入所述语言表征模型；

通过所述语言表征模型对所述关键词样本序列的关键词对应的泛化样本集中每一泛化样本进行特征提取，得到泛化语义特征集；

通过所述语言表征模型对所述泛化语义特征集进行平均处理，得到每一所述关键词样本序列对应的关键词泛化特征向量。

根据本发明第一方面的一些实施例，所述通过所述语言表征模型对所述负样本序列集进行特征提取，得到至少一个非关键词特征向量，包括：

将所述负样本序列集中每一负样本序列分别输入所述语言表征模型；

通过所述语言表征模型对所述负样本序列进行非关键词随机抽取，得到多个非关键词数据；

通过所述语言表征模型对多个所述非关键词数据进行特征提取并求平均，得到所述非关键词特征向量。

第二方面，本发明实施例还提供一种语音关键词检测的装置，包括：

预处理模块，用于对所述待处理的语音数据进行处理，得到语音声学特征；

声学特征提取模块，用于将所述语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量；

获取模块，用于在预设的存储路径下取出泛语义文本空间向量；

注意力计算模块，用于将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算，得到声学语义上下文特征向量；

分类模块，用于将所述声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器，以及，与至少一个处理器通信连接的存储器；其中，存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如第一方面任意一项所述的语音关键词检测的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行第一方面任意一项所述的语音关键词检测的方法。

本发明上述实施例至少具有如下有益效果：通过将提取得到的语音声学特征和泛语义文本空间向量进行注意力计算得到两者之间的相关性并通过关键词分类模型进行预测得到关键词，使得整个关键词检索过程中融合了文本和语音两方面的特征且结合预先得到的泛化后的泛语义文本空间向量，因此在关键词预测的过程中既减少额外的计算量又能提升关键词检测的精度。因此，和现有技术相比，本发明实施例能提升关键词检索的效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例的语音关键词检测的方法的流程示意图；

图2是本发明实施例的应用语音关键词检测的方法的一个实施例的结构示意图；

图3是本发明实施例中语音关键词检测的方法的注意力机制原理示意图；

图4是本发明实施例的语音关键词检测的方法中关键词分类模型处理流程示意图；

图5是本发明实施例的语音关键词检测的方法中泛语义文本空间向量获取流程示意图；

图6是本发明实施例的语音关键词检测的方法对应的装置的模块示意图；

图7是本发明实施例的语音关键词检测的方法对应的设备的硬件示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面是对本发明中用到的一些术语的解释。

FNN：全称为Feedforward Neutral Network，也叫前向神经网络，在计算输出值的过程中，输入值从输入层单元向前逐层传播，经过隐藏层最后到达输出层，得到输出。前向网络第一层的单元与第二层所有的单元相连，第二层又与其上一层单元相连，同一层中的各个单元之间没有连接。

Fbank，是语音领域基础声学特征，全称是Filter Bank，是语音经过Mel滤波之后输出特征。

BERT，全称是BidirectionalEncoder Representations from Transformer，基于Transformer的双向编码器表示，是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model(MLM)，以致能生成深度的双向语言表征。

Softmax函数，为一个概率函数，Max函数表示，如果a>b,则取a，b就不可能被取到，而Softmax计算每个元素被取到的概率，a取到的概率大于b,则a经常被取到，但也有被取到的可能。相当于把所有的元素都拉出来做一个评分，再进行归一化，然后排序。

语音关键词检测主要完成在连续语音流中进行预先定义的关键词检索的过程，传统的关键词检索方法包括补白模型、样例匹配和基于大规模语音识别的文本检索等，但是其缺陷在于主要基于声学特征的高层特征序列匹配或者是基于大规模语音识别的文本级别字符串匹配，缺失了语音中语义信息建模。近年来，随着深度学习技术的发展，学者们提出了多种融合声学特征和关键词文本特征的关键词检索系统，但是无论是根据进行声学特征和语言学特征融合模型训练，还是基于二者进行相似度计算判断，均是对关键词列表的循环计算匹配，模型计算量大且由于对于关键词的单一语音特征提取，也会限制命令词表述的多样性，关键词检索的精度较低，因此，相关技术中，语音关键词检测的效果差。基于此，本发明实施例提供了一种语音关键词检测的方法、装置、设备及存储介质，能提升关键词检测的效果。

第一方面，参照图1所示，根据本发明实施例提供的语音关键词检测的方法，包括：

步骤S100、对待处理的语音数据进行处理，得到语音声学特征。

步骤S200、将语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量。

步骤S300、在预设的存储路径下取出泛语义文本空间向量。

需说明的是，泛语义文本空间向量是预先计算得到的，是多个泛化的泛化语义特征向量组成，其中，多个泛化语义特征向量均一一对应有一个预设的关键词，泛化语义特征向量用于表征关键词多种表述的文本泛化特征，是对对应的关键词进行泛化后，对泛化后的多个语句进行特征提取得到的；在多个泛化语义特征向量中至少存在一个泛化语义特征向量表征非关键词的文本泛化特征。因此，泛语义文本空间向量能丰富多个关键词的语义。

需说明的是，对于关键词列表中每一关键词，可以通过穷举得到多种不同表述的文本语言，并通过语言表征模型对穷举得到的文本语言进行特征提取，得到该关键词对应的泛化语义特征向量。在另一些实施例中，可以周期统计预设的关键词的多种表述，进而得到关键词对应的泛化数据。

需说明的是，泛语义文本空间向量可以通过现有的语言表征模型对待匹配关键词列表对应的文本语言进行特征提取得到，如BERT模型。泛语义文本空间向量的计算是独立于关键词检测流程的。

步骤S400、将泛语义文本空间向量和语音声学特征向量进行注意力计算，得到声学语义上下文特征向量。

需说明的是，声学语义上下文特征向量用于表征语音声学特征向量在泛语义文本空间向量中的概率分布状态；通过注意力计算能得到语音声学特征向量相对于泛语义文本空间向量中包括的各个泛化语义特征向量的概率分布，然后将该概率分布乘积到对应的泛化语义特征向量，得到当前语音声学特征向量在泛语义文本空间向量的加权分布状态。

步骤S500、将声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词。

需说明的是，关键词分类模型用于对声学语义上下文特征向量进行概率预测和归一化处理，得到声学语义上下文特征向量相对于预设的多个关键词的概率分布，进而可以根据该概率分布确定预测的关键词。在一些实施例中，在该步骤中，选取概率值最大的作为预测的关键词，在另一些实施例中，在该步骤中选取概率最大的N个概率对应的关键词作为预测的关键词。优选的，本发明实施例中，选取概率值最大的一个作为预测的关键词输出。当存在最大的概率值有多个时，将多个均作为预测的关键词输出。

需说明的是，关键词分类模型用于对多个预设的关键词进行分类，其具体的模型结构在该步骤中不做限制，如采用至少一个前向网络层和归一化层组合得到关键词分类模型。

因此，通过将提取得到的语音声学特征和泛语义文本空间向量进行注意力计算得到两者之间的相关性并通过关键词分类模型进行预测得到关键词，使得整个关键词检索过程中融合了文本和语音两方面的特征且结合预先得到的泛化后的泛语义文本空间向量，因此在关键词预测的过程中既减少额外的计算量又能提升关键词检测的精度。因此，和现有技术相比，本发明实施例能提升关键词检索的效果。

需说明的是，泛语义文本空间向量丰富了每个关键词文本表述的多样性，因此，将泛语义文本空间向量和语音声学特征进行注意力计算时，能提升关键词预测的精度。

示例性的，参照图2所示，将语音数据语音预处理，进行分帧加窗提取Fbank特征；将Fbank特征输入到声学编码器中，获得语音声学特征向量；将预先存储的泛语义文本空间向量与语音声学特征向量通过注意力机制进行注意力计算，得到声学语义上下文特征向量；并将上下文特征向量输入关键词分类模型中，最终预测输出最可能的关键词。

可理解的是，泛语义文本空间向量由多个泛化语义特征向量拼接得到；将泛语义文本空间向量和语音声学特征向量进行注意力计算，得到声学语义上下文特征向量，包括：将泛语义文本空间向量和语音声学特征向量输入预设的注意力模型中进行注意力计算，得到与多个泛化语义特征向量一一对应的多个加权分布数据；将多个加权分布数据组合得到声学语义上下文特征向量。

需说明的是，以注意力模型为采用多层transformer结构为例，参照图3所示注意力机制原理示意图，在注意力模型中，将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。将语音声学特征向量中每一声学特征作为Query，泛语义文本空间向量中每一个泛化语义特征向量作为Key，将注意力权重应用到每一个泛化语义特征向量上。则可得到Query、Key和Value对应的如下公式：

其中，H^enc为语音声学特征向量的高维表示，H^pre为泛语义特征高维表示，Q^enc、K^pre、V^pre分别对应注意力机制中Query、Key和Value向量，

分别对应注意力机制中Query、Key和Value向量的映射矩阵。

此时，加权分布数据

其中d_k表示特征向量维度。

此时，声学语义上下文特征向量可表示为Z＝Att(C)，用于表示各个声学特征向量对所有泛化语义特征向量进行注意力计算后得到对各个泛化语义特征向量的概率分布，然后将其乘积到各个泛化语义特征向量，得到当前语音声学特征向量在语义空间的加权分布。

可理解的是，参照图4所示，关键词分类模型包括前向神经网络层和归一化网络层；上述步骤S500中，将声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词，包括：

步骤S510、将声学语义上下文特征向量包括的多个加权分布数据输入前向神经网络层，得到概率更新数据。

需说明的是，前向神经网络层的层数可以设置一层或者多层，具体的，本领域技术人员可以根据需要进行设置。优选的，本发明实施例中，前向神经网络层设置有两层。

步骤S520、通过归一化网络层对概率更新数据进行分类预测，得到与多个预设关键词一一对应的多个分类概率。

需说明的是，在前向神经网络层的输出连接有多个分类目标，每一预设关键词均对应有一个分类目标，归一化网络层用于统计概率更新数据落在每一分类目标上的概率。在一些实施例中，多个分类目标包括N+1个分类目标，其中N表示预设关键词的关键词个数，1表示非关键词目标的个数。在另一些实施例中，多个分类目标均对应一个预设关键词。优选的，本发明实施例中采用N+1个分类目标，通过引入非关键词目标进行分类概率计算，进而可以进一步提升分类的准确性。

需说明的是，归一化网络层由Softmax函数组成，其中，Softmax函数的损失函数为交叉熵。

步骤S530、从多个分类概率中选取出最大的分类概率对应的预设关键词作为语音数据的关键词。

需说明的是，将分类概率值最大的作为语音数据的关键词，其准确率更高。示例性的，假设预设关键词有6个，通过Softmax函数计算出的6个关键词对应的分类概率分别为60％、20％、10％、7％、2％以及1％，其中60％的分类概率值位6个中最大，因此将60％对应的关键词作为语音数据的关键词。

示例性的，参照图3所示，将Z＝Att(C)输入到关键词分类模型中，参照图2所示，关键词分类模型包括两层前向神经网络层FNN，FNN的输出连接多个分类目标，通过Softmax函数对FNN输出进行预测，得到每一个加权分布数据对应于分类目标的概率预测Pos＝softmax(FNN(Z))，其中FNN(Z)表示FNN的输出。此时，可以根据Pos＝softmax(FNN(Z))的数值大小确定出语音数据对应的关键词。

可理解的是，在得到语音声学特征向量之前，方法还包括：对语音数据进行基础声学特征提取，得到语音基础声学特征。

对应的，步骤S100、对待处理的语音数据进行处理，得到语音声学特征，包括：对语音数据进行基础声学特征提取，得到语音基础声学特征，对应的步骤S200中将语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量，包括：将语音基础声学特征输入到语音编码网络模型中进行高维特征提取，得到语音声学特征向量。

需说明的是，基础声学特征提取为Fbank特征，语音数据中包含多个语音帧，因此通过对语音数据进行分帧加窗能提取得到的Fbank特征。

示例性的，以语音编码网络模型的神经网络结构采用N层conformer为例，对于输入的语音基础声学特征(即Fbank)X＝{x_t}，语音编码网络模型将X＝{x_t}转换到高维声学特征

其中，t为语音数据中语音帧索引，则H^enc＝f^enc(X)，其中，f^enc表示编码器网络(即N层conformer神经网络)。

可理解的是，参照图5所示，泛语义文本空间向量通过如下步骤计算得到：

步骤S610、获取预设的语言表征模型、关键词样本序列集以及负样本序列集。

需说明的是，语言表征模型为预先训练好的，可以采用如BERT模型。关键词样本序列集为用于关键词提取的样本的集合。负样本序列集用于非关键词目标提取的样本的集合。关键词样本序列集可以是一个或者多个样本的集合；负样本序列集也可以为一个或者多个样本的集合。

步骤S620、通过语言表征模型对关键词样本序列集进行特征提取，得到多个关键词泛化特征向量。

需说明的是，关键词泛化特征向量是对应的关键词进行泛化后的样本进行特征提取得到的特征向量。示例性的，从关键词样本序列集中的其中一个样本中提取得到的关键词为开灯，对该关键词进行泛化，得到泛化的文本为“打开灯”、“把灯打开”和“开灯”等不同的文本，多个关键词泛化特征向量则是分别对对应的“打开灯”、“把灯打开”和“开灯”进行特征提取后得到的向量。

步骤S630、通过语言表征模型对负样本序列集进行特征提取，得到至少一个非关键词特征向量。

需说明的是，非关键词特征向量可以设置多个，以丰富负样本语义空间，以更好的区分关键词序列和非关键词序列。

步骤S640、将多个关键词泛化特征向量和至少一个非关键词特征向量拼接，得到泛语义文本空间向量。

需说明的是，从关键词样本序列集提取得到关键词泛化特征向量和从负样本序列集中提取得到的非关键词特征向量均为泛化语义特征向量。

需说明的是，拼接得到的泛语义文本空间向量会存储在预设的存储路径，如数据库等。实际应用中，可以定期通过步骤S510～步骤S540进行特征提取以更新泛语义文本空间向量，使得语音数据进行关键词预测时能做到实时更新用于计算的泛化语义特征。且步骤S510～步骤S540为独立于关键词预测流程的执行步骤，能与关键词预测流程异步处理，因此在减低关键词预测过程中的计算量的同时，能进一步提升关键词检测的精度。

示例性的，以预训练好的BERT模型作为语言表征模型为例，在整个训练过程中，BERT编码器参数固定，不进行训练调优。使用时，对于每一个输入文本序列Y_i＝{y_j}，其中i为关键词和负样本序列索引，j为每一样本序列中字索引。通过BERT模型对齐进行处理后每一输入文本序列的语义特征表示为

表示取首字cls的输出作为对应的高维语义特征向量。高维语义特征向量表示如下：

最后将所有高维语义特征向量进行拼接，得到泛语义文本空间向量

可理解的是，步骤S620、通过语言表征模型对关键词样本序列集进行特征提取，得到多个关键词泛化特征向量，包括：将关键词样本序列集中每一关键词样本序列分别输入语言表征模型；通过语言表征模型对关键词样本序列的关键词对应的泛化样本集中每一泛化样本进行特征提取，得到泛化语义特征集；通过语言表征模型对泛化语义特征集进行平均处理，得到每一关键词样本序列对应的关键词泛化特征向量。

需说明的是，将关键词样本序列输入到语言表征模型中后会提取出对应的关键词，此时可以根据该关键词进行泛化处理或者直接获取其对应的泛化样本集，进而可以得到每一关键词对应的多个泛化样本一一对应的特征向量。其中，将每一泛化样本对应于一个特征维度；平均处理表示对所有输出的特征向量逐维度相加求均值，得到关键词泛化特征向量，此时每一关键词泛化特征向量表示一个关键词多种表述的特征。因此，可以丰富关键词的语义，使得关键词的表述具备多样性，更符合实际应用场景，能提升关键词检测的精度。

可理解的是，步骤S630、通过语言表征模型对负样本序列集进行特征提取，得到至少一个非关键词特征向量，包括：将负样本序列集中每一负样本序列分别输入语言表征模型；通过语言表征模型对负样本序列进行非关键词随机抽取，得到多个非关键词数据；通过语言表征模型对多个非关键词数据进行特征提取并求平均，得到非关键词特征向量。

需说明的是，非关键词数据量越多，则负样本语义空间越丰富，关键词检测的精度越高。

需说明的是，通过随机抽取的方式，可以使得语义表达具有随机性。通过该种方式，使得非关键词特征向量更具参考性，因此，通过随机抽取得到非关键词数据的方式，能进一步提升泛语义文本空间向量的多样性，以提升关键词检测过程中的检测精度。

需说明的是，负样本序列可以是一组或者是多组，对此，本发明实施例不做限制，优选的，本发明实施例中选用多组负样本序列进行非关键词特征向量的提取。

下面，参照图1至图5以一个具体实施例描述本发明实施例的关键词检测的流程，具体检测如下：

参照图1至图4所示，将待处理的语音数据进行预处理，进行分帧加窗提取Fbank特征得到语音基础声学特征；将语音基础声学特征输入到语音编码网络模型中，获得语音声学特征向量；并获取预设的预训练好的语言特征模型输出的泛语义文本空间向量，然后将泛语义文本空间向量和语音特征向量输入到注意力机制模型中得到多个加权分布数据，将多个加权分布数据作为两层FNN的输入参数进行概率调整得到概率更新数据；通过归一化层(对应于图2所示的Softmax)该概率更新数据对应于N+1个预设目标分类的分类概率，并将最大分类概率对应的目标分类作为关键词输出。具体的，参照图5所示，语言特征模型对输入的关键词文本序列进行特征提取，得到关键词泛化特征向量，同时选取一定量的负样本文本序列作为非关键词特征向量对应的输入参数，最后将所有得到的关键词泛化特征向量和非关键词特征向量进行拼接得到泛语义空间向量表示。

本发明的方法可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

第二方面，参照图6所示，根据本发明实施例提供的语音关键词检测的装置，包括：

预处理模块100，用于对待处理的语音数据进行处理，得到语音声学特征；

声学特征提取模块200，用于将语音声学特征输入预设的语音编码网络模型，得到语音声学特征向量；

获取模块300，用于在预设的存储路径下取出泛语义文本空间向量；

注意力计算模块400，用于将泛语义文本空间向量和语音声学特征向量进行注意力计算，得到声学语义上下文特征向量；

分类模块500，用于将声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词。

需说明的是，预处理模块100、声学特征提取模块200、获取模块300、注意力计算模块400和分类模块500均为关键词检测过程中需要调用的模块。在一些实施例中，语音关键词检测的装置还包括泛语义文本空间向量提取模块，泛语义文本空间向量提取模块用于提取表征关键词特征的泛语义文本空间向量，泛语义文本空间向量提取模块与关键词预测的流程是独立的，当泛语义文本空间向量提取模块提取得到泛语义文本空间向量后，会将泛语义文本空间向量存储在一个预设的存储路径，将泛语义文本空间向量的获取和关键词检测过程解耦，以在关键词检测过程中可以无需再计算关键词对应泛语义文本空间向量，减少关键词检测过程中的计算量。且泛语义文本空间向量表征的是待匹配关键词列表中多种语义特征的合集，因此，可以提升关键词匹配的精度。

需说明的是，在一些实施例中，分类模块500包括前向神经网络层和归一化层，通过前向神经网络层对声学语义上下文特征向量进行处理，并将前向神经网络层的输出作为归一化层的输入参数，进而进一步得到该声学语义上下文特征向量相对于预设的多个关键词的分类概率，并以最大的分类概率对应的关键词作为语音数据的预测关键词。

本发明实施例还提供了一种电子设备，包括：

至少一个处理器，以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如本发明实施例上述实施例的语音关键词检测的方法。

需说明的是，电子设备应用于第一方面任一一项的语音关键词检测的方法，因此，具备第一方面的语音关键词检测的方法所有有益效果。

下面结合图7对计算机设备的硬件结构进行详细说明。该电子设备包括：处理器710、存储器720、输入/输出接口730、通信接口740和总线750。

处理器710，可以采用通用的CPU(Central Processin Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器720，可以采用ROM(Read Only Memory，只读存储器)、静态存储设备、动态存储设备或者RAM(Random Access Memory，随机存取存储器)等形式实现。存储器720可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器720中，并由处理器710来调用执行本公开实施例的模型的训练方法；

输入/输出接口730，用于实现信息输入及输出；

通信接口740，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和总线750，在设备的各个组件(例如处理器710、存储器720、输入/输出接口730和通信接口740)之间传输信息；

其中，处理器710、存储器720、输入/输出接口730和通信接口740通过总线750实现彼此之间在设备内部的通信连接。

需说明的是，在一些实施例中，处理器710执行第一方面的语音关键词检测的方法的步骤S100～步骤S400；在另一些实施例中，处理器710执行语音关键词检测的方法的步骤S100～步骤S500和步骤S510～步骤S530；在另一些实施例中，处理器710执行语音关键词检测的方法的步骤S100～步骤S500、步骤S510～步骤S530及步骤S610～步骤S640。在另一些实施例中，处理器710执行语音关键词检测的方法的所有步骤。

本发明实施例还提供一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述的语音关键词检测的方法。

需说明的是，存储介质能执行第一方面任意一项的语音关键词检测的方法，因此，当该存储介质的计算机课执行指令任一一个设备运行时，对应的设备具有第一方面的语音关键词检测的方法的所有有益效果。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本发明实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本发明的说明书中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种语音关键词检测的方法，其特征在于，所述方法包括：

对所述待处理的语音数据进行处理，得到语音声学特征；

在预设的存储路径下取出泛语义文本空间向量；

2.根据权利要求1所述的语音关键词检测的方法，其特征在于，所述泛语义文本空间向量由多个泛化语义特征向量拼接得到；所述将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算，得到声学语义上下文特征向量，包括：

3.根据权利要求2所述的语音关键词检测的方法，其特征在于，所述关键词分类模型包括前向神经网络层和归一化网络层；所述将所述声学语义上下文特征向量输入到预设的关键词分类模型中，得到预测的关键词，包括：

4.根据权利要求1所述的语音关键词检测的方法，其特征在于，所述对所述待处理的语音数据进行处理，得到语音声学特征，包括：

对所述语音数据进行基础声学特征提取，得到语音基础声学特征；

5.根据权利要求1所述的语音关键词检测的方法，其特征在于，所述泛语义文本空间向量通过如下步骤计算得到：

6.根据权利要求5所述的语音关键词检测的方法，其特征在于，所述通过所述语言表征模型对所述关键词样本序列集进行特征提取，得到多个关键词泛化特征向量，包括：

7.根据权利要求5所述的语音关键词检测的方法，其特征在于，所述通过所述语言表征模型对所述负样本序列集进行特征提取，得到至少一个非关键词特征向量，包括：

8.一种语音关键词检测的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：至少一个处理器，以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如权利要求1至7中任意一项所述的语音关键词检测的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行至少如权利要求1至7中任意一项所述的语音关键词检测的方法。