CN116453514A

CN116453514A - 一种基于多视角的语音关键词检测与定位方法及装置

Info

Publication number: CN116453514A
Application number: CN202310675479.8A
Authority: CN
Inventors: 林毅; 杨彬
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-07-18
Anticipated expiration: 2043-06-08
Also published as: CN116453514B

Abstract

本发明公开了一种基于多视角的语音关键词检测与定位方法及装置，涉及语音检索领域，首先从待检测语音音频中切分语音段并提取语音段的语音特征，然后通过采用多任务框架的端到端文本关键词检测模型和使用共享权重参数的孪生神经网络样例关键词检测模型提取语音特征的高层特征，分别与检测文本或检测语音样例的高层特征进行相似度匹配，最后融合两个模型的结果进行关键词检测和位置定位。本发明结合文本和语音两个角度进行检测能够提供可靠的判决置信度，提升关键词的检出率和检出准确率，检索效果较好，并且可以给出关键词在语音音频中的准确时间位置。

Description

一种基于多视角的语音关键词检测与定位方法及装置

技术领域

本发明涉及语音检索领域，特别是一种基于多视角的语音关键词检测与定位方法及装置。

背景技术

关键词检测是一种在连续的语音中检测出特定关键词的技术，是语音识别研究领域的一个重要分支，广泛应用于语音设备控制和语音检索中。根据检测目的和形式的不同，语音关键词检测可分为语音检测语音（语音样例检测）、文本检测语音。

目前主流的语音关键词检测方案是基于单个角度（文本或语音），其中基于文本的检测方法主要是利用语音识别技术，即将待检测语音数据转换为文本内容，确定文本内容中是否出现指定关键词。基于语音的检测方法将携带关键词的语音片段直接与语音音频进行声学似然度匹配检测。当前，不同类型数据不断增长堆积，可以利用数据多样化将文本和语音的检测结合，从两个角度来进行检测以提高检测的准确度。

基于文本的检测由于文本数据和语音数据的异态，无法直接进行比较相似性，随着深度神经网络的发展，可以利用其强大的特征映射能力判断语音和文本高层特征之间的相似度，得到检测结果。除此之外，多任务框架出现，通过挖掘任务之间的关系，能够得到额外的有用信息，大部分情况下都要比单任务的效果要好。

除了能判断关键词是否在语音音频中外，确定指定关键词在对应的语音音频中出现的位置也格外重要。目前多数检测方法都忽略了关键词的位置定位。

发明内容

针对上述问题，本发明提供一种基于多视角的语音关键词检测与定位方法及装置，目的在于从多角度出发，结合文本检测和语音检测的结果以提高语音关键词检测的准确度，同时确定关键词在语音音频中的时间位置。

本发明采用下述的技术方案：

一种基于多视角的语音关键词检测与定位方法，包括以下步骤：

S1、将待检测语音音频作为输入，对所述待检测语音音频切分成若干语音段并存入存储设备；

构建特征提取器，对单个所述语音段进行特征提取，输出待检测语音特征；

S2、将待检测语音特征输入到基于多视角的关键词检测模型，所述关键词检测模型包括基于多任务框架的端到端文本关键词检测模型和基于孪生神经网络的样例关键词检测模型；

S3、将检测文本和所述待检测语音特征输入到所述端到端文本关键词检测模型，提取所述检测文本和所述语音特征的高层特征，使用注意力机制获得注意力权重矩阵，以二分类判决和语音识别辅助主任务进行相似度计算，输出一维的相似度向量；

将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型，通过嵌入特征提取器输出所述检测语音样例和所述待检测语音特征固定维度的嵌入表征，使用滑动窗口对所述待检测语音特征的嵌入表征分段并计算与所述检测语音样例的相似度，输出一维的相似度向量；

需要说明的是

将检测文本和所述待检测语音特征输入到所述端到端文本关键词检测模型

和

将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型

并无先后顺序；

S4、将S3中的端到端文本关键词检测模型和样例关键词检测模型输出的相似度向量进行加权融合，输出置信度分数；根据置信度分数判断所述语音段中是否存在待检测关键词；

S5、根据S4中的置信度分数判决结果，若所述语音段中存在待检测关键词，将融合后的相似度向量进行计算得到所述待检测语音特征中关键词对应的起止帧索引，根据帧长、帧移计算所述起止帧在所述语音段中的时间位置并输出。

优选的，所述S1中，通过端点检测器将所述待检测语音音频分为语音段和非语音段；所述语音段为包含语音信息的信号部分，所述非语音段为未包含语音信息的信号部分；所述端点检测器使用基于短时能量和过零率的双门限端点检测算法；

所述S1中，通过特征提取器将单个语音段中具有辨识度的语音特征提取出来，所述特征提取器是一种语音预训练模型，包括帧特征编码器和上下文编码器；

所述帧特征编码器用于将分帧后的单个所述语音段编码为若干特征表达Z_i；所述上下文编码器用于混合多个所述特征表达Z_i ...Z_i-v并输出一个具有上下文关系的特征向量c _i=g(Z_i ...Z_i-v)。

优选的，所述S3中端到端文本关键词检测，包括以下步骤：

S31-1：构建基于注意力机制和多任务框架的端到端文本关键词检测模型；

S31-2：输入所述待检测语音特征到声学编码模块并输出语音特征的高层特征向量；输入所述检测文本到文本嵌入模块并输出文本的嵌入特征向量；

S31-3：将语音高层特征向量和所述文本嵌入特征向量输入到注意力编码模块，输出一个注意力权重矩阵和一个结合所述语音高层特征向量和所述文本嵌入特征向量的文本语音融合特征；

S31-4：以二分类判决作为辅助任务，将所述文本语音融合特征作为输入进行关键词检测，用输出范围为0-1的置信度分数来表示关键词是否出现在所述语音段中；

S31-5：以语音识别作为辅助任务，将声学编码输出的语音特征的高层特征作为输入，使用CTC损失函数进行语音识别来辅助进行关键词检测；

S31-6：以相似度计算作为主任务，将所述注意力权重矩阵作为输入以输出一维的相似度向量；所述相似度向量为概率向量，相似度向量长度与所述待检测语音特征帧数相同。

优先的，S3中，所述端到端文本关键词检测模型包括声学编码模块、文本嵌入模块、注意力编码模块、判决模块、语音识别模块以及卷积模块；

所述声学编码模块使用双向LSTM网络以及线性层，用于提取高层特征表示和挖掘输出特征时序上的相关性；

所述声学编码模块的输出使用线性层对双向LSTM的隐含层输出做线性变换，使最终输出的所述语音高层特征向量和所述文本嵌入特征向量在同一嵌入空间中；

所述文本嵌入模块包括嵌入层以及线性层，将关键词转化为标签序列，经过嵌入矩阵和线性变换输出文本嵌入特征向量；所述标签为声学编码模块的建模单元；

所述注意力编码模块使用注意力机制得到所述语音高层特征向量和所述文本嵌入特征向量之间的注意力分数，进而从所述语音高层特征中提取与当前关键词检测所需的信息，输出一个注意力权重矩阵和一个文本语音融合特征；

所述判决模块执行二分类判决任务，包括两个线性层，通过Sigmoid激活函数输出范围为0-1的置信度分数；

所述语音识别模块将所述语音高层特征向量作为输入，通过一个线性层和Softmax激活函数得到输出标签的概率分布，使用CTC损失函数进行语音识别；

所述卷积模块使用一维卷积神经网络实现相似度计算任务，通过Sigmoid激活函数在每一帧上作二分类得到相似度向量。

优选的，所述注意力编码模块的作用过程包括以下步骤：

步骤1）、给定所述文本嵌入特征向量，用q _i对所述语音高层特征向量/>中的每一个特征向量做内积，最终得到T ₁×T ₂注意力分数矩阵：

d _ij=dot(q _i,v _j),i∈(1,2,...T ₁),j∈(1,2,...T ₂)

式中，d _ij为嵌入向量q _i和高层特征v _j的关联性大小，无量纲；T ₁为文本嵌入特征的总标签数，无量纲；T ₂为语音高层特征的总帧数，无量纲；

步骤2）、将注意力分数矩阵经过softmax激活函数计算得到对应的注意力权重矩阵W：

其中，注意力权重矩阵W的任意一行向量的全部元素之和等于1，将其视为一组权重；

步骤3）、用步骤2）中的一组权重对所述语音高层特征进行加权求和得到一个向量；

步骤4）、对于注意力权重矩阵的每个行向量都对所述语音高层特征进行加权求和，将输出的向量放在一起组成所述文本语音融合特征。

优选的，所述S3中的样例关键词检测模型，包括以下步骤：

S32-1：将检测语音样例输入到特征提取器，输出样例语音特征；

S32-2：构建基于孪生神经网络的嵌入特征提取器，其中每个子网络使用双向LSTM网络；

S32-3：将所述待检测语音特征和样例语音特征输入到嵌入特征提取器，提取两者的固定维度嵌入特征；

S32-4：使用滑动窗口对待检测语音特征的嵌入特征进行分段，分段大小为所述样例语音特征长度的大小，使用余弦距离来计算样例语音特征的嵌入特征和待检测语音特征的嵌入特征的相似度，输出一个一维的相似度向量。

优选的，所述嵌入特征提取器包括两个相同的子网络，每个子网络使用双向LSTM网络来编码语音特征到固定维度；

对于所述待检测语音特征通过双向LSTM网络，得到一个T ₁帧的特征；对于样例语音特征通过双向LSTM网络，得到一个T ₂帧的特征；

滑动窗口大小选择T ₂帧的大小，移动步长选择为1帧，最后采用填充策略进行补充使相似度向量长度和待检测语音特征帧数相同。

优选的，所述S4中加权融合包括以下步骤：

令所述语音段为x，则置信度分数满足以下公式：

γ(x)=α(x)*ω ₁+β(x)*ω ₂

式中，γ(x)为融合相似度向量，α(x)和β(x)分别为端到端文本关键词检测输出的相似度向量和样例关键词检测输出的相似度向量，ω ₁和ω ₂为预设的权重值；,T ₂为所述待检测语音特征帧数，*为乘号；

将融合相似度向量输入到前馈神经网络中得到一个范围在0-1的置信度分数。

优选的，所述S5包括以下步骤：

输入所述融合相似度向量γ(x)，若融合相似度向量中从γ(x)_i到γ(x)_j的每一个元素的值大于或等于预设阈值，则表示所述待检测语音特征从第i帧到第j帧为关键词的位置，得到在所述待检测语音特征中关键词对应的起止帧索引；

根据语音音频分帧选择的帧长frameshift，帧移framelen以及起始帧索引和结束帧索引来计算时间位置：

starttime=frameshift*(t _s-1)

endtime=frameshift*(t _e+v-1)+framelen

式中，t _s为起始帧索引，无量纲；t _e为结束帧索引，无量纲；

所述特征提取器中上下文编码器会混合当前特征表达z _i和其前v个特征得到特征c _i=g(z _i,...,z _i-v)，在进行特征帧映射语音段中的时间位置计算时，需要将前v个特征包括在一起计算时间位置，*为乘号。

一种电子装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

本发明的有益效果：

1．本发明首先从待检测语音音频中切分语音段并提取语音段的语音特征，然后通过端到端文本关键词检测模型和样例关键词检测模型提取语音特征的高层特征分别与检测文本或检测语音样例的高层特征进行相似度匹配，最后融合两个模型的结果进行关键词检测和位置定位；

2．本发明结合文本和语音两个角度进行检测，能够提供可靠的判决置信度，提升关键词的检出率和检出准确率，检索效果较好，并且可以给出关键词在语音音频中的准确时间位置；

3．本发明中的端到端文本关键词检测模型采用多任务框架，使用二分类判决和语音识别作为辅助任务，主任务进行相似度计算得到一维的相似度向量，辅助任务能够为语音和文本特征之间的关联性建模，使检测模型能够更好地关注影响任务模型性能的特性；

4．本发明中的样例关键词检测模型使用孪生神经网络共享权重参数，其作为嵌入特征提取器，通过训练，使得在嵌入特征向量表示的情况下，相同关键词的嵌入特征向量的距离近，不同关键词的向量距离远。因此，只需比较距离就可以比较相似度，比较过程简单快速。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所述的一种基于多视角的语音关键词检测与定位方法的原理示意图；

图2为本发明实施例1所述的一种基于多视角的语音关键词检测与定位方法的流程示意图；

图3为本发明实施例1所述的一种基于多视角的语音关键词检测与定位方法的端到端文本关键词检测模型结构图；

图4为本发明实施例1所述的一种基于多视角的语音关键词检测与定位方法的样例关键词检测模型结构图；

图5为本发明实施例2所述的一种利用了实施例1所述的一种基于多视角的语音关键词检测与定位方法的一种电子装置结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施例1：

如图1-图4所示，本发明提出一种基于多视角的语音关键词检测与定位方法，首先从待检测语音音频中切分语音段并提取语音段的语音特征，然后通过端到端文本关键词检测模型和样例关键词检测模型提取语音特征的高层特征分别与检测文本或检测语音样例的高层特征进行相似度匹配，最后融合两个模型的结果进行关键词检测和位置定位，提供较高的检测准确度和可靠的关键词位置信息。同时，本发明可以结合语音识别、数据分析等技术，为下游应用提供语音信息检索和定位功能。

如图2所示，具体步骤如下：

S1、将待检测语音音频作为输入，通过端点检测器将所述待检测语音音频切分成若干语音段并存入存储设备，用于后续的特征提取；

所述语音段为包含语音信息的信号部分，所述非语音段为未包含语音信息的信号部分；

S11、对待检测语音音频进行分帧操作，分为帧长25ms、帧移10ms；

S12、使用基于短时能量和过零率的双门限端点检测算法将分帧后的待检测语音音频分为语音段和非语音段，得到若干语音段的起始和结束点。

S2、构建特征提取器，对存储的某个语音段进行特征提取，将具有辨识度的语音特征提取出来；

利用基于卷积神经网络的预训练特征提取器提取语音音频的语音特征，模型训练时的损失函数选取对比损失函数，使用大量未标注的目标语音音频进行训练。特征提取器包括帧特征编码器和上下文编码器，两种编码器均使用卷积神经网络。帧特征编码器用于将分帧后的单个语音段编码为若干特征表达，为每一个时间步i生成一个表达Z_i，上下文编码器用于混合多个特征表达Z_i ...Z_i-v ，并输出一个具有上下文关系的特征向量c _i=g(Z_i ...Z_i-v)，将当前特征表达与其前v个特征融合。

S3、将待检测语音特征输入到基于多视角的关键词检测模型，所述关键词检测模型包括基于多任务框架的端到端文本关键词检测模型和基于孪生神经网络的样例关键词检测模型；

一、将S2提取后的待检测语音特征和检测文本输入到基于注意力机制和多任务框架的端到端文本关键词检测模型，提取所述检测文本和所述语音特征的高层特征，使用注意力机制获得注意力权重矩阵，以二分类判决和语音识别辅助主任务进行相似度计算输出一维的相似度向量；

具体的，包括以下步骤：

构建基于注意力机制和多任务框架的端到端文本关键词检测模型，确定各网络层的组成结构、训练所需的损失函数、网络参数等；

端到端文本关键词检测模型的结构图如图3所示，

本发明将语音关键词检测问题定义成文本语音匹配问题，使用深度神经网络强大的特征映射能力进行文本和语音异态数据相似度的匹配计算。

端到端文本关键词检测模型包括声学编码模块、文本嵌入模块、注意力编码模块、判决模块、语音识别模块以及卷积模块。

所述声学编码模块使用双向LSTM网络以及线性层，其中双向LSTM网络用于提取高层特征表示和挖掘输出特征时序上的相关性，双向LSTM网络比单向LSTM有更好的性能，由两个LSTM网络叠加在一起得到，整个网络每个时间步的输出为这两个网络每个时间步输出的叠加。使用线性层来对双向LSTM的隐含层输出做线性变换，以使最终输出的语音高层特征向量和文本嵌入特征向量在同一嵌入空间中。

所述文本嵌入模块包括嵌入层以及线性层，将关键词转化为标签序列，经过嵌入矩阵和线性变换输出一个文本嵌入特征向量，用线性变换q=g(We)得到处理后的嵌入向量，其中W为线性层，g为LeakyReLU函数。

所述声学编码模块和文本嵌入模块在训练时都使用交叉熵损失函数，文本嵌入模块中嵌入维度为256，紧跟其后的线性层含有256个单元，双向LSTM网络中的隐含层大小为256，紧跟其后的线性层含有256个单元。

所述注意力编码模块基于注意力机制融合语音高层特征和文本嵌入特征，所述注意力编码模块的作用过程包括以下步骤：

步骤1)、给定所述文本嵌入特征向量，用q _i对所述语音高层特征向量/>中的每一个特征向量做内积，最终得到T ₁×T ₂注意力分数矩阵：

d _ij=dot(q _i,v _j,),i∈(1,2,...T ₁),j∈(1,2,...T ₂)

式中，d _ij为嵌入向量q _i和高层特征v _j的关联性大小,，无量纲；q_i表示文本嵌入特征向量Q的第i个分量，无量纲；v_j表示语音高层特征向量V的第j个分量，无量纲；T ₁为文本嵌入特征的总标签数，无量纲；T ₂为语音高层特征的总帧数，无量纲；

步骤2)、将注意力分数矩阵经过softmax激活函数计算得到对应的注意力权重矩阵W：

步骤3)、用步骤2)中的一组权重对所述语音高层特征进行加权求和得到一个向量；

步骤4)、对于注意力权重矩阵的每个行向量都对所述语音高层特征进行加权求和，将输出的向量放在一起组成所述文本语音融合特征。

输入S2提取后的待检测语音特征进行声学编码成高层特征向量；输入检测文本进行文本嵌入成嵌入特征向量；

将两种特征向量输入注意力编码模块，输出一个注意力权重矩阵和一个结合两种特征的文本语音融合特征；

把二分类判决作为辅助任务将文本语音融合特征作为输入以进行关键词检测，输出范围为0-1的置信度分数来表示关键词是否出现在语音段中，其包括两个线性层，激活函数为LeakyReLU；

把语音识别作为辅助任务将声学编码输出的语音高层特征作为输入，使用CTC损失函数进行语音识别来辅助进行关键词检测；

为了使用CTC损失函数进行语音识别，在声学编码模块的输出位置使用了额外的一个线性层，其被用来得到输出标签的概率分布。

把相似度计算作为主任务将注意力权重矩阵作为输入卷积网络，卷积使用一维卷积网络将矩阵转为一维向量，向量的长度和待检测语音特征帧数相同，在每一帧上进行二分类任务，得到一个概率向量。

同时

二、将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型，通过嵌入特征提取器输出所述检测语音样例和所述待检测语音特征的固定维度的嵌入表征，使用滑动窗口对所述待检测语音特征的嵌入表征分段并计算与所述检测语音样例的相似度，输出一维的相似度向量；

具体的，包括以下步骤：

将检测语音样例使用S2的特征提取器提取样例语音特征；

建立基于孪生神经网络的嵌入特征提取器，将样例语音特征和待检测语音特征输入，提取两者嵌入特征；

样例关键词检测模型的结构图如图4所示，语音段和检测语音样例输入模型，通过特征提取器，在图4中语音段的特征提取与S2的特征提取为同一操作。然后将提取到的特征馈入孪生神经网络输出固定维度嵌入特征，使用滑动窗口进行分段并相似度比较，得到一个相似度向量。

待检测语音特征通过孪生神经网络得到一个T ₁帧的特征，样例语音特征通过孪生神经网络得到一个T ₂帧的特征。滑动窗口选择T ₂帧的大小，移动步长选择1帧，在移动到待检测语音特征末尾后，将发音拉长进行填充来保证得到的相似度向量长度和待检测语音特征帧数相同。

其中，嵌入特征提取器的损失函数为基于余弦距离的三元组损失（Tripletloss）函数，通过带有弱标签（指示关键词之间是否相同）的成对关键词数据训练嵌入特征提取器，使网络可以将相同的关键词映射到彼此接近的向量，并将不同的关键词映射到相距较远的向量。

嵌入特征提取器包括两个相同的子网络，每个子网络使用3层的双向LSTM网络来编码语音特征到固定维度。使用三元组损失函数训练神经网络，定义为：

L _triplet(Y _a,Y _p,Y _n)=max{0,m+d(x _a,x _p)-d(x _a,x _n)}

其中，Y _a和Y _p是同一关键词的两个不同语音样例，Y _n是另一个不同关键词的语音样例，x _a，x _p，x _n分别是Y _a，Y _p，Y _n对应的嵌入特征，d是指余弦距离，L _triplet为三元组损失函数。

使用滑动窗口对待检测语音特征的嵌入特征进行分段，分段大小使用样例语音特征长度的大小，使用余弦距离来计算样例语音特征的嵌入特征和待检测语音特征的嵌入特征的相似度，输出一个一维的相似度向量。

S4、将S3中的端到端文本关键词检测模型和样例关键词检测模型输出的相似度向量进行加权融合，输出置信度分数，具体为：

步骤41：加权融合包括以下步骤：

令语音段为x，则置信度分数满足以下公式：

γ(x)=α(x)*ω ₁+β(x)*ω ₂

式中，γ(x)为融合相似度向量，α(x)和β(x)分别为端到端文本关键词检测输出的相似度向量和样例关键词检测输出的相似度向量，ω ₁和ω ₂为预设的权重值；,T₂为所述待检测语音特征帧数，*为乘号；

步骤42：将融合相似度向量输入到一个前馈神经网络中得到一个范围在0-1的置信度分数。

S5、根据步骤S4中的置信度分数判决结果，若所述语音段中存在待检测关键词，将融合后的相似度向量进行计算得到所述待检测语音特征中关键词对应的起止帧索引，根据帧长、帧移计算所述起止帧在所述语音段中的时间位置并输出。

步骤S51、输入所述融合相似度向量γ(x)，若向量中从γ(x)_i到γ(x)_j的每一个元素的值大于等于预设阈值时，则表示所述待检测语音特征中第i帧为关键词起始帧，第j帧为关键词终止帧，得到在所述待检测语音特征中关键词对应的起止帧索引；

步骤S52、根据语音音频分帧选择的帧长frameshift，帧移framelen以及起始帧索引和结束帧索引（索引从1开始）来计算语音段中的时间位置，此处得到的是待检测语音音频切分出的语音段中关键词的时间位置，计算公式如下：

starttime=frameshift*(t _s-1)

endtime=frameshift*(t _e+v-1)+framelen。

starttime:待检测语音特征中关键词的起始时间位置；endtime:待检测语音特征中关键词的结束时间位置，*为乘号。

实施例2：

如图5所示，一种电子装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述实施例1所述的一种基于多视角的语音关键词检测与定位方法。

所述输入输出接口用于输入输出数据，包括但不限于显示器、键盘、鼠标、以及USB接口；所述存储介质，包括可读存储介质和存储在可读存储介质中的计算机程序，所述计算机程序用于实现上述实施例1所述的一种基于多视角的语音关键词检测与定位方法。

结合本发明中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器的软件模块，或者二者的结合来实施。软件模块置于包括但不限于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于多视角的语音关键词检测与定位方法，其特征在于，包括以下步骤：

S1、将作为输入的待检测语音音频切分成若干语音段并存入存储设备；构建特征提取器，提取单个语音段特征，输出待检测语音特征；

S2、将待检测语音特征输入到基于多视角的关键词检测模型，所述关键词检测模型包括端到端文本关键词检测模型和样例关键词检测模型；

S3、将检测文本和所述待检测语音特征输入到所述端到端文本关键词检测模型，提取所述检测文本和语音特征的高层特征，使用注意力机制获得注意力权重矩阵，进行相似度计算输出一维的相似度向量；

将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型，通过嵌入特征提取器输出所述检测语音样例和所述待检测语音特征的固定维度的嵌入表征，使用滑动窗口对所述待检测语音特征的嵌入表征分段并计算与所述检测语音样例的相似度，输出一维的相似度向量；

S4、将S3中的端到端文本关键词检测模型和样例关键词检测模型输出的相似度向量进行加权融合，输出置信度分数；

根据置信度分数判断所述语音段中是否存在待检测关键词；

2.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述S1中，通过端点检测器将所述待检测语音音频分为语音段和非语音段；所述端点检测器使用基于短时能量和过零率的双门限端点检测算法；

所述S1中，通过特征提取器将单个语音段中具有辨识度的语音特征提取出来，所述特征提取器包括帧特征编码器和上下文编码器；

所述帧特征编码器用于将分帧后的单个所述语音段编码为若干特征表达Z_i；

所述上下文编码器用于混合多个所述特征表达Z_i ...Z_i-v并输出一个具有上下文关系的特征向量c _i=g(Z_i ...Z_i-v)。

3.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述S3中端到端文本关键词检测，包括以下步骤：

S31-2：输入所述待检测语音特征到端到端文本关键词检测模型中的声学编码模块，并输出语音特征的高层特征向量；输入所述检测文本到端到端文本关键词检测模型中的文本嵌入模块并输出文本嵌入特征向量；

S31-3：将语音高层特征向量和所述文本嵌入特征向量输入端到端文本关键词检测模型中的注意力编码模块，输出一个注意力权重矩阵和一个结合所述语音高层特征向量和所述文本嵌入特征向量的文本语音融合特征；

S31-4：以二分类判决作为辅助任务，将所述文本语音融合特征作为输入进行关键词检测，用输出范围为0-1的置信度分数表示关键词是否出现在所述语音段中；

4.根据权利要求3所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，S3中，所述端到端文本关键词检测模型包括声学编码模块、文本嵌入模块、注意力编码模块、判决模块、语音识别模块以及卷积模块；

5.根据权利要求3所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述注意力编码模块的作用过程包括以下步骤：

步骤1）、给定所述文本嵌入特征向量，用q _i对所述语音高层特征向量中的每一个特征向量做内积，最终得到T ₁×T ₂注意力分数矩阵：

d _ij=dot(q _i,v _j),i∈(1,2,...T ₁),j∈(1,2,...T ₂)

式中，d _ij为嵌入向量q _i和高层特征v _j的关联性大小，无量纲；q_i表示文本嵌入特征向量Q的第i个分量，无量纲；v_j表示语音高层特征向量V的第j个分量，无量纲；T ₁为文本嵌入特征的总标签数，无量纲；T ₂为语音高层特征的总帧数，无量纲，dot为向量内积；

其中，注意力权重矩阵W的任意一行向量的全部元素之和等于1，将其视为一组权重；exp是高等数学里以自然常数e为底的指数函数；

步骤4）、注意力权重矩阵的每个行向量都对所述语音高层特征进行加权求和，将输出的向量放在一起组成所述文本语音融合特征。

6.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述S3中的样例关键词检测模型包括以下步骤：

S32-4：使用滑动窗口对待检测语音特征的嵌入特征进行分段，分段大小为所述样例语音特征长度的大小，使用余弦距离计算样例语音特征的嵌入特征和待检测语音特征的嵌入特征的相似度，输出一个一维的相似度向量。

7.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述嵌入特征提取器包括两个相同的子网络，每个子网络使用双向LSTM网络来编码语音特征到固定维度；

8.根据权利要求1所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述S4中加权融合包括以下步骤：

令所述语音段为x，则置信度分数满足以下公式：

γ(x)=α(x)*ω ₁+β(x)*ω ₂

式中，γ(x)为融合相似度向量，α(x)和β(x)分别为端到端文本关键词检测输出的相似度向量和样例关键词检测输出的相似度向量，ω ₁和ω ₂为预设的权重值，*为乘号；,T ₂为所述待检测语音特征帧数；

9.根据权利要求8所述的一种基于多视角的语音关键词检测与定位方法，其特征在于，所述S5包括以下步骤：

根据语音音频分帧选择的帧长frameshift，帧移framelen以及起始帧索引和结束帧索引来计算时间位置：

starttime=frameshift*(t _s-1)

endtime=frameshift*(t _e+v-1)+framelen

式中，t _s为起始帧索引，无量纲；t _e为结束帧索引，无量纲，starttime:待检测语音特征中关键词的起始时间位置；endtime:待检测语音特征中关键词的结束时间位置，*为乘号；

所述特征提取器中上下文编码器会混合当前特征表达z _i和其前v个特征得到特征c _i=g(z _i,...,z _i-v)，在进行特征帧映射语音段中的时间位置计算时，需要将前v个特征包括在一起计算时间位置。

10.一种电子装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9任一项所述一种基于多视角的语音关键词检测与定位方法。