CN112685594B

CN112685594B - 基于注意力的弱监督语音检索方法及系统

Info

Publication number: CN112685594B
Application number: CN202011550159.2A
Authority: CN
Inventors: 张文林; 胡恒博; 闫红刚; 郝朝龙; 邱泽宇; 李喜坤; 贺晓年
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-10-04
Anticipated expiration: 2040-12-24
Also published as: CN112685594A

Abstract

本发明属于语音检索技术领域，特别涉及一种基于注意力的弱监督语音检索方法及系统，方法包含：提取文本关键词并转换为关键词特征向量，并对音频数据进行特征提取获取音频特征向量；使用注意力机制将关键词特征向量和音频特征向量进行融合，获取语音检索特征向量；将语音检索特征向量送入已训练优化的关键词识别模块识别，以检测文本关键词是否出现在语音数据中。本发明通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量，使用弱监督标注数据即可训练优化识别模型，提升检索效率和准确性。

Description

基于注意力的弱监督语音检索方法及系统

技术领域

本发明属于语音检索技术领域，特别涉及一种基于注意力的弱监督语音检索方法及系统。

背景技术

语音检索的主要任务是从海量的语音数据库中找到感兴趣的关键词，并返回相应的位置。语音检索常用的方法有基于大词汇量连续语音识别的关键词搜索技术和基于神经网络的关键词搜索方法。使用基于大词汇量连续语音识别的关键词搜索技术进行语音检索需要两步。第一步是训练一个大词汇量连续语音识别系统，并利用训练好的系统将待搜索音频进行解码，生成对应的词格(Word lattice)。第二步是将解码器生成的待搜索音频库的词格转换成倒排索引，以便高效地进行搜索，得到关键词的位置及相应的置信度。基于神经网络的关键词搜索方法常用的有基于RNN-Transducer的使用注意力机制进行关键词搜索的方法，该方法在使用 RNN-Transducer进行语音识别的基础上，使用了注意力机制使得RNN-Transducer将识别重心转移到需要进行识别的关键词上面从而进行关键词检索。但以上两种方法都需要较多的训练标注数据。基于大词汇量连续语音识别的关键词搜索技术所需要的标注数据是字符级别的，而基于RNN-Transducer的使用注意力机制进行关键词搜索的方法所需要的标注数据是 phoneme级别的。对语音进行字符级别的标注需要耗费大量的资源，因此标注数据不足会成为了语音检索中很现实的一个问题，对注意力机制的使用方法不够丰富。

发明内容

为此，本发明提供一种基于注意力的弱监督语音检索方法及系统，通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量，使用弱监督标注数据即可训练优化识别模型，提升检索效率和准确性。

按照本发明所提供的设计方案，一种基于注意力的弱监督语音检索方法，包含如下内容：

提取文本关键词并转换为关键词特征向量，并对音频数据进行特征提取获取音频特征向量；使用注意力机制将关键词特征向量和音频特征向量进行融合，获取语音检索特征向量；

将语音检索特征向量送入已训练优化的关键词识别模块识别，以检测文本关键词是否出现在语音数据中。

作为本发明基于注意力的弱监督语音检索方法，进一步的，利用关键词嵌入模块将文本关键词经过词嵌入操作转换来获取关键词特征向量。

作为本发明基于注意力的弱监督语音检索方法，进一步地，利用卷积循环神经网络提取音频数据的音频特征向量，首先对输入音频数据进行分帧，对每帧取多维滤波器组特征并通过一阶和二阶差分来获取每帧FBank特征；将获取到的FBank特征送入卷积循环神经网络中，依次经过多次卷积、最大池化操作及双向长短时记忆网络及线性变换后获取音频特征向量。

作为本发明基于注意力的弱监督语音检索方法，进一步地，使用注意力机制将关键词特征向量和音频特征向量进行点积运算来表示两个向量之间的相关性，通过向量融合来获取语音检索特征向量。

作为本发明基于注意力的弱监督语音检索方法，进一步地，向量融合中，利用关键词特征向量分别对语音特征向量中向量元素进行内积运算，将内积运算结果经过softmax处理得到权重向量；将权重向量中每一个权重乘上对应的语音特征向量特征元素得到加权向量；将加权向量中的每列特征向量进行相加得到融合关键词特征向量和语音特征向量的一个向量，将加权向量中的每行向量进行最大池化得到另一个向量；将该一个向量和另一个向量通过拼接获取语音检索特征向量，或者直接将这两个向量作为语音检索特征向量。

作为本发明基于注意力的弱监督语音检索方法，进一步地，关键词识别模块采用前馈神经网络结构，对输入数据经过前向传播获取置信分数；依据置信分数判断是否含有关键词，并结合权重向量选取最大权重数所在位置为关键词出现位置。

作为本发明基于注意力的弱监督语音检索方法，进一步地，关键词识别模块训练优化中，收集正负样本构成训练数据，结合标注标签并采用二分类交叉熵损失获取模型参数，其中，正负样本按照数值比例设置。

作为本发明基于注意力的弱监督语音检索方法，进一步地，针对给定若干关键词，收集含有若干关键词的句子和对应关键词形成标签为正的若干对实验数据，作为正样本数据元素，并从未出现在句子中的剩余关键词中选取相同数量的若干关键词，并与句子形成标签为负的若干对实验数据，作为负样本数据元素。

作为本发明基于注意力的弱监督语音检索方法，进一步地，正样本数据和负样本数据数值比例设定为1:1。

进一步地，本发明还提供一种基于注意力的弱监督语音检索系统，包含：提取模块和识别模块，其中，

提取模块，用于提取文本关键词并转换为关键词特征向量，并对音频数据进行特征提取获取音频特征向量；使用注意力机制将关键词特征向量和音频特征向量进行融合，获取语音检索特征向量；

识别模块，用于将语音检索特征向量送入已训练优化的关键词识别模块识别，以检测文本关键词是否出现在语音数据中。

本发明的有益效果：

本发明在使用弱监督数据的情况下，使用注意力机制得到了融合了关键词信息和音频信息的特征向量，并将特征向量进行处理得到最终的置信分数和关键词出现位置。在使用注意力机制的过程中，系统使用关键词嵌入向量和高层音频特征向量两者之间的点积运算结果来表示两个向量之间的相关性，并且该点积运算结果被用来判断关键词出现位置。在实际应用中，若获取音频文件对应的转录标注数据所对应的工作量较大，则可采用本发明的系统和方法，在只需标注音频文件是否有需要的关键词的情况下，就能得到一个完整的关键词检索系统，提升检索效率和准确性，具有较好的应用前景。

附图说明：

图1为实施例中基于注意力的弱监督语音检索方法流程示意；

图2为实施例中模型结构示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

本发明实施例，提供一种基于注意力的弱监督语音检索方法，包含如下内容：提取文本关键词并转换为关键词特征向量，并对音频数据进行特征提取获取音频特征向量；使用注意力机制将关键词特征向量和音频特征向量进行融合，获取语音检索特征向量；将语音检索特征向量送入已训练优化的关键词识别模块识别，以检测文本关键词是否出现在语音数据中。

通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量，使用弱监督标注数据即可训练优化识别模型，提升检索效率和准确性。

作为本发明实施例中基于注意力的弱监督语音检索方法，进一步的，利用关键词嵌入模块将文本关键词经过词嵌入操作转换来获取关键词特征向量。

对给定的m个需要识别的关键词k₁，k₂...k_m经过tokenization后得到对应关键词表示 token₁，token₂...token_m。对得到的对应关键词表示token₁，token₂...token_m经过维度为d的嵌入矩阵E嵌入后得到对应的嵌入向量e₁，e₂...，e_N-1，e_N，然后使用变换q＝g(We)来得到处理后的关键词嵌入向量q₁，q₂...，q_N-1，q_N，其中g为Leaky Relu(Leaky RectifiedLinear Unit) 函数，W为线性层。

作为本发明实施例中基于注意力的弱监督语音检索方法，进一步地，利用卷积循环神经网络提取音频数据的音频特征向量，首先对输入音频数据进行分帧，对每帧取多维滤波器组特征并通过一阶和二阶差分来获取每帧FBank特征；将获取到的FBank特征送入卷积循环神经网络中，依次经过多次卷积、最大池化操作及双向长短时记忆网络及线性变换后获取音频特征向量。

给定音频输入x后先对其进行分帧，然后对每帧取40维滤波器组特征(filterbank，fbank)并进行一阶和二阶差分后得到每帧120维的fbank特征X＝x₁，x₂...x_T-1，x_T。将得到的音频特征 X＝x₁，x₂...x_T-1，x_T送入CRNN模块中，其分别经过m次卷积和最大池化操作后又经过层数为n 单元个数为d的双向长短时记忆网络，最后又经过线性变换得到最终的维度为d的高层特征 V＝v₁，v₂...v_T′。

进一步地，向量融合中，利用关键词特征向量分别对语音特征向量中向量元素进行内积运算，将内积运算结果经过softmax处理得到权重向量；将权重向量中每一个权重乘上对应的语音特征向量特征元素得到加权向量；将加权向量中的每列特征向量进行相加得到融合关键词特征向量和语音特征向量的一个向量，将加权向量中的每行向量进行最大池化得到另一个向量；将该一个向量和另一个向量通过拼接获取语音检索特征向量，或者直接将这两个向量作为语音检索特征向量。进一步地，使用注意力机制将关键词特征向量和音频特征向量进行点积运算来表示两个向量之间的相关性，通过向量融合来获取语音检索特征向量。

给定关键词嵌入向量q_i，i∈(1，2，...，N-1，N)，用q_i对V中的每一个特征向量分别做内积得到权重向量d＝d₁，d₂...d_T′，其中

d_i′＝dot(v_i′，q_i)，i′∈(1，2，...，T′)

将d经过softmax处理后得到对应的权重向量s＝s₁，s₂...s_T′：

然后将s中的每一个权重乘上对应的高层特征v得到加权后的C＝c₁，c₂...c_T′其中c_i′＝s_i′v_i′，i′∈(1，2，...，T′)，

对C(d×T′)进行了三种运算：

①将C中每列的特征向量c_i，i∈(1，2，...，T′)进行相加得到融合了关键词嵌入向量和高层特征向量的向量β，即

②将C中每行的向量c^k，k∈(1，2，...，d)进行最大池化后得到一个维度为d的向量α，即

α＝(c¹，c²，...，c^d)

其中c^k＝max(c^k)，k∈(1，2，...，d)

③将①中得到的向量β和②中得到的向量α进行拼接得到维度为2d的向量γ。

作为本发明实施例中基于注意力的弱监督语音检索方法，进一步地，关键词识别模块采用前馈神经网络结构，对输入数据经过前向传播获取置信分数；依据置信分数判断是否含有关键词，并结合权重向量选取最大权重数所在位置为关键词出现位置。

根据具体的训练数据量和关键词个数来合适选择β或者α或者γ，然后将其送入由前馈神经网络构成的关键词识别模块中并得到网络输出的置信分数。在得到置信分数后，若结果判为含有关键词，则关键词出现在权重向量s＝s₁，s₂...s_T′中权重数值最大的位置。若结果判为不含有关键词，则无需判断关键词出现位置。

作为本发明实施例中基于注意力的弱监督语音检索方法，进一步地，关键词识别模块训练优化中，收集正负样本构成训练数据，结合标注标签并采用二分类交叉熵损失获取模型参数，其中，正负样本按照数值比例设置。

作为本发明实施例中基于注意力的弱监督语音检索方法，进一步地，针对给定若干关键词，收集含有若干关键词的句子和对应关键词形成标签为正的若干对实验数据，作为正样本数据元素，并从未出现在句子中的剩余关键词中选取相同数量的若干关键词，并与句子形成标签为负的若干对实验数据，作为负样本数据元素。进一步地，正样本数据和负样本数据数值比例设定为1∶1。

给定m个需要识别的关键词k₁，k₂...k_m，若确定训练数据中句子s_i中含有n(n＜m)个关键词k₁，k₂...k_n，则句子s_i分别与k₁，k₂...k_n共构成n对标签全为1的实验数据集S₁：(s_i，k₁)，(s_i，k₂)...(s_i，k_n)。未出现在句子s_i中的剩余(m-n)个关键词被随机地选出相同数量的n个关键词k′₁，k′₂，...，k′_n，同样的，句子s_i分别与k′₁，k′₂...k′_n共构成n对标签全为0的实验数据集 S₀：(s_i，k′₁)，(s_i，k′₂)...(s_i，k′_n)。对训练数据中的每个句子s进行上述操作便得到标签1和标签0比例为1∶1的训练数据。

进一步地，基于上述的方法，本发明实施例还提供一种基于注意力的弱监督语音检索系统，包含：提取模块和识别模块，其中，

结合图1和图2，本案实施例可使用一个关键词识别模型在弱监督数据的情况下实现语音检索。该模型由关键词嵌入模块，声学模块和解码器模块三部分构成：关键词嵌入模块用来得到关键词的嵌入向量，声学模块使用注意力机制将关键词嵌入向量融合在音频特征中得到对应的特征向量，最后将特征向量送入关键词识别模块中来检测关键词是否出现在音频话语中。图1，在步骤S201中，对实验数据按照步骤S101的做法对其进行处理，然后得到正确的训练数据集。步骤S202即为图2中关键词嵌入模块对所输入的关键词所进行的操作：关键词k₁，k₂...，k_N-1，k_N经过嵌入矩阵E的嵌入后得到对应的嵌入向量e₁，e₂...，e_N-1，e_N，然后使用线性变化q＝g(We)来得到处理后的关键词嵌入向量。步骤S203和S204即为图2中声学模块利用注意力机制对关键词嵌入向量和音频输入x进行融合的操作：对音频输入x取特征之后得到对应的fbank特征X＝x₁，x₂...x_T-1，x_T，然后将特征X送入CRNN模块后得到高层特征V＝v₁，v₂...v_T′，然后将q和V送入注意力模块后经三种操作得到β或者α或者γ。步骤S205 和S206即为图2中的判别器模块输入β或者α或者γ后得到对应的置信分数并对模型参数进行估计：将β或者α或者γ送入神经网络后得到输出的置信分数，然后再将此分数与标签使用二分类损失函数得到对应的损失后再进行反向传播来更新模型中的参数。步骤S207即为整个模型的推理。详细过程可设计如下：

步骤S201：给定m个需要识别的关键词k₁，k₂...k_m，从AI-SHELL2数据集中挑选出含有关键词k₁，k₂...k_m的句子S＝s₁，s₂...s_s，对于其中的任一句子s_i，若句子s_i中含有n(n＜m)个关键词k₁，k₂...k_n，则句子s_i分别与k₁，k₂...k_n共构成n对标签全为1的实验数据集S₁：(s_i，k₁)，(s_i，k₂)...(s_i，k_n)。而对于未出现在句子s_i中的剩余(m-n)个关键词被随机地选出相同数量的n个关键词k′₁，k′₂，...，k′_n，然后采用相同的操作得到n对标签为0的实验数据集S₀： (s_i，k′₁)，(s_i，k′₂)...(s_i，k′_n)。对S中的全部句子进行标签标注后则得到标签1和0的比例为1∶1 的训练数据集。

步骤S202：对给定的m个需要识别的关键词k₁，k₂...k_m经过tokenization后得到对应关键词表示tokens＝1，2，...，m，对得到的对应关键词表示tokens经过维度为256的嵌入矩阵E后得到对应的嵌入向量e₁，e₂...，e_N-1，e_N，然后使用变换q＝g(We)来得到维度为256的处理后的关键词嵌入向量q₁，q₂...，q_N-1，q_N，其中g为Leaky Relu(Leaky Rectified LinearUnit)函数， W为256×256的线性层。

步骤S203：给定音频输入x后，先对其进行帧长为25ms，帧移为10ms的分帧，然后对每帧取40维滤波器组特征(filter bank，fbank)并进行一阶和二阶差分后得到每帧120维的fbank 特征X＝x₁，x₂...x_T-1，x_T。然后将特征X送入CRNN模块中后，X依次经过卷积核大小为3×3 的卷积神经网络，批次归一化，leaky relu函数和3×3的最大池化层两次后，其中卷积核的大小依次为16和32，然后再经过两层单元个数为256的双向长短时记忆网络后又经过大小为 256×256的线性变换矩阵得到最终的维度为256的高层特征V＝v₁，v₂...v_T′。

步骤S204：给定关键词嵌入向量q_i，i∈(1，2，...，N-1，N)，用q_i对V中的每一个特征向量分别做内积得到权重向量d＝d₁，d₂...d_T′，其中

d_i′＝dot(v_i′，q_i)，i′∈(1，2，...，T′)

d经过softmax处理后得到对应的权重向量s＝s₁，s₂...s_T′：

然后将s中的每一个权重乘上对应的高层特征v得到加权后的C＝c₁，c₂...c_T′其中c_i′＝s_i′v_i′，i′∈(1，2，...，T′)。

根据实际的关键词个数和训练数据量的大小对C(236×T′)进行了三种运算：

②将C中每行的向量c^k，k∈(1，2，...，d)进行最大池化后得到一个维度为256的向量α，即

α＝(c¹，c²，...，c^d)

其中c^k＝max(c^k)，k∈(1，2，...，d)

③将①中得到的向量β和②中得到的向量α进行拼接得到维度为512的向量γ。

步骤S205：根据实际的关键词个数和训练数据量的大小来合适的选择β或者α或者γ作为关键词识别模块的输入，关键词识别模块中隐含层单元个数依次为256，128，1，经过前向传播后得到置信分数，若根据置信分数的结果判为句子中含有关键词，则需找到权重向量 s＝s₁，s₂...s_T′中最大权重数值所在位置，此位置即为关键词出现的位置。若根据置信分数的结果判为句子中不含有关键词，则无需判断关键词出现位置。

步骤S206：在得到置信分数后，将置信分数与对应标签使用二分类损失函数求出对应损失，然后经过反向传播后对模型中的全部参数进行更新和估计。

步骤S207：在得到估计好的模型参数之后，按照步骤2至步骤5的顺序对模型进行推理即可得到最终的置信分数和出现位置。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法或系统，本发明实施例还提供一种网络设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的系统或执行上述的方法。

基于上述的系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的系统。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述系统实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述系统实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/ 或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于注意力的弱监督语音检索方法，其特征在于，包含如下内容：

将语音检索特征向量送入已训练优化的关键词识别模块识别，以检测文本关键词是否出现在语音数据中；

向量融合中，利用关键词特征向量分别对语音特征向量中向量元素进行内积运算，将内积运算结果经过softmax处理得到权重向量；将权重向量中每一个权重乘上对应的语音特征向量特征元素得到加权向量；将加权向量中的每列特征向量进行相加得到融合关键词特征向量和语音特征向量的一个向量，将加权向量中的每行向量进行最大池化得到另一个向量；将该一个向量和另一个向量通过拼接获取语音检索特征向量，或者直接将这两个向量作为语音检索特征向量；

关键词识别模块采用前馈神经网络结构，对输入数据经过前向传播获取置信分数；依据置信分数判断是否含有关键词，并结合权重向量选取最大权重数所在位置为关键词出现位置。

2.根据权利要求1所述的基于注意力的弱监督语音检索方法，其特征在于，利用关键词嵌入模块将文本关键词经过词嵌入操作转换来获取关键词特征向量。

3.根据权利要求1所述的基于注意力的弱监督语音检索方法，其特征在于，利用卷积循环神经网络提取音频数据的音频特征向量，首先对输入音频数据进行分帧，对每帧取多维滤波器组特征并通过一阶和二阶差分来获取每帧FBank特征；将获取到的FBank特征送入卷积循环神经网络中，依次经过多次卷积、最大池化操作及双向长短时记忆网络及线性变换后获取音频特征向量。

4.根据权利要求1所述的基于注意力的弱监督语音检索方法，其特征在于，使用注意力机制将关键词特征向量和音频特征向量进行点积运算来表示两个向量之间的相关性，通过向量融合来获取语音检索特征向量。

5.根据权利要求1所述的基于注意力的弱监督语音检索方法，其特征在于，关键词识别模块训练优化中，收集正负样本构成训练数据，结合标注标签并采用二分类交叉熵损失获取模型参数，其中，正负样本按照数值比例设置。

6.根据权利要求5所述的基于注意力的弱监督语音检索方法，其特征在于，针对给定若干关键词，收集含有若干关键词的句子和对应关键词形成标签为正的若干对实验数据，作为正样本数据元素，并从未出现在句子中的剩余关键词中选取相同数量的若干关键词，并与句子形成标签为负的若干对实验数据，作为负样本数据元素。

7.根据权利要求6所述的基于注意力的弱监督语音检索方法，其特征在于，正样本数据和负样本数据数值比例设定为1:1。

8.一种基于注意力的弱监督语音检索系统，其特征在于，基于权利要求1所述的方法实现，包含：提取模块和识别模块，其中，