CN114780786B

CN114780786B - 一种基于瓶颈特征和残差网络的语音关键词检索方法

Info

Publication number: CN114780786B
Application number: CN202210390224.2A
Authority: CN
Inventors: 王大飞; 黄志华; 刘文臣
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2024-05-14
Anticipated expiration: 2042-04-14
Also published as: CN114780786A

Abstract

本发明公开了一种基于瓶颈特征和残差神经网络的语音关键词检索的方法，所述方法包括以下步骤：步骤1：预处理数据：对训练数据预处理，利用预训练前馈网络得到数据集的瓶颈特征，再生成相似矩阵图像；步骤2：模型训练：构建语音关键词检索模型，将处理后的数据和标签输入残差神经网络，完成关键词检索模型的训练；步骤3：模型测试：对测试集进行关键词检索，并给出置信度判断；步骤4：模型评估：采用准确率、召回率和F1评估关键词检索模型性能；本发明将语音关键词检索任务转化为图像二分类任务，从根本上解决了传统低资源语音关键词检索对语料库资源规模要求高的问题，更加简便快捷的实现低资源语音关键词检索。

Description

一种基于瓶颈特征和残差网络的语音关键词检索方法

技术领域

本发明涉及语音处理的低资源语音关键词检索技术领域，尤其涉及一种基于瓶颈特征和残差神经网络的低资源语音关键词检索技术。

背景技术

移动网络快速发展、存储设备价格持续下降等多种因素，导致越来越多的信息以语音文档的形式存储；人们希望语音文档信息检索能够像文本信息检索一样方便快捷，这促进了语音信息检索相关技术的发展，语音文档信息检索用到的主要技术是语音关键词检索技术；语音关键词检索是定位某个关键词在语音文档中出现位置的一种技术，语音关键词检索技术的一个重要步骤是判断关键词是否出现在语音文档中。

现有主流的关键词检索技术通常先通过语音识别系统将待检测的语音文档转化为文本文档，再在文本文档中检索关键词；但是实际的语音关键词检索主要是查找出关键词，并不需要获取语音文档中所有内容；这种先将语音转化为文本再检索的方式大大增加了工作量；除此之外，这种关键词检索方式需要丰富的语料库资源，对于汉语、英语等大规模语言，带标注的语料库、发音词典等资源十分丰富，语音转化为文本的准确率高，不会影响关键词检索的准确率；但是低资源语言因带标注的语料库、发音词典等语料库资源十分匮乏，语音识别准确率低下，关键词检索准确率也随之急剧下降。

所以鉴于这些问题，无语音识别的语音关键词检索技术受到了众多研究人员的关注，无语音识别的关键词检索方式用到的主要是模板匹配技术；传统的基于模板匹配的关键词检索技术大多直接采用声学特征进行匹配，这种方法容易受到说话人性别、年龄、方言以及录音环境、噪音等多种因素的影响；此外，关键词的不同模板往往在质量上有很大的差异，这些因素导致传统基于模板匹配的关键词检索系统的性能差，并不能应用到实际的低资源语音关键词检索任务中。

研究人员又提出基于动态时间规整（DTW）的语音关键词检索技术，该方法包括两个主要步骤，一是从关键词和语音文档中提取合适的特征向量，二是利用这些特征来估计语音关键词作为子序列出现在语音文档中某处的可能性；动态时间规整算法（DTW）利用关键词和音频文档的特征向量计算出帧级相似性矩阵，根据相似矩阵判断关键词是否出现在语音文档中；之后，Dhananjay Ram等人提出利用卷积神经网络实现低资源语音关键词检索，但是这种检索技术依然受到说话人性别、方言、录音条件、背景噪声等因素的影响。

发明内容

本发明主要对语音关键词检索的特征提取阶段和模板匹配阶段进行优化，解决语音关键词检索技术存在对说话人性别、方言、录音条件、背景噪声鲁棒性差的问题，解决传统语音关键词检索对声学模型、语言模型等语料库资源要求高的问题。

本发明的目的是将语音关键词检索任务转化为图像二分类任务来处理，通过该方法可以完成语音关键词检索任务，提高语音关键词检索对说话人性别、方言、录音条件、背景噪声的鲁棒性，解决传统语音关键词检索方法对发音词典、带标注的语料库等资源要求高的问题。

本发明的目的是通过以下技术方案实现。

一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，包括以下步骤。

步骤1：预处理训练数据：对训练数据进行预加重再分帧加窗，通过前馈神经网络获得训练数据集的瓶颈特征，利用瓶颈特征生成帧级相似矩阵，并且把帧级相似矩阵作为图像，最后对训练数据设置标签，预处理后的数据用于训练残差神经网络模型。

步骤2：构建模型并训练：构建基于残差神经网络的语音关键词检索模型，设定合理的训练参数，将模型部署到服务器上，再将预处理后的训练数据集输入模型完成残差神经网络的训练。

步骤3：测试模型：利用训练好的模型对测试语音数据进行关键词检索，并给出置信度判断，完成关键词检索任务。

步骤4：评估模型：采用准确率、召回率、F1评分指标对低资源语音关键词检索模型的性能进行评价。

本发明的模型称为低资源语音关键词检索残差神经网络模型，通过残差神经网络模型，利用声学特征完成低资源语音关键词检索任务；用户只需提供语音关键词和语音文档语句及语音关键词是否出现在语音文档语句中的标签；本发明可以摆脱传统基于语音识别的关键词检索方法需要带标注的语料库、发音词典等资源的制约，从根本上改变语音关键词检索对语料库资源要求高的现状，更加简便快捷的实现低资源语音关键词检索。

步骤1包括以下步骤。

步骤1-1对训练数据设置标签，标签分为两类；语音关键词出现在语音文档语句中，标签为正类，设置为1；关键词语音未出现在语音文档语句中，标签为负类，设置为0；

构建前馈神经网络，分别提取训练数据中关键词语音和语音文档语句的瓶颈特征。

步骤1-2：设关键词语音瓶颈特征为(m表示语音关键词的帧数)；设语音文档语句的瓶颈特征为/> (n表示语音文档语句的帧数)，给定任意两个瓶颈特征向量/>,计算向量点积的对数/>得到相似距离，再应用范围归一化得到归一化帧级相似距离矩阵。

归一化公式为：

其中，/>。

步骤1-3：根据步骤1-2计算得到帧级相似矩阵，并把帧级相似矩阵看作图像；相似矩阵图像分为两类；一类是关键词语音出现在语音文档语句中，生成的相似矩阵图像中出现一条不规则的斜对角线，另一类是语音关键词未出现在语音文档语句中，生成的相似矩阵图像中不会出现不规则的斜对角线，将相似矩阵图像中是否出现准对角线的特征作为判读语音关键词是否出现在语音文档语句中的依据。

步骤2：残差神经网络的训练：训练数据集生成的相似矩阵图像及标签送入残差神经网络，残差神经网络模型根据标签及相似矩阵图像完成训练。

步骤3包括以下步骤。

步骤3-1：预处理测试数据：对测试数据进行预加重再分帧加窗，通过前馈神经网络获得测试数据集的瓶颈特征。

步骤3-2：生成帧级相似矩阵图像，测试数据语音关键词的瓶颈特征记为；测试数据语音文档语句的瓶颈特征记为/>，计算任意两个瓶颈特征向量的点积对数得到相似距离，再应用范围归一化,生成帧级相似矩阵图像。

步骤3-3，残差神经网络模型对测试数据判别，残差神经网络对测试数据生成的相似矩阵图像根据图像中是否出现准对角线对语音文档语句中是否出现语音关键词给出置信度评分，根据置信度评分和给定的门限值对语音关键词是否出现给出最终判断。

进一步的，步骤4评价指标包括准确率、召回率和F评分，通过这三种评价指标对关键词检索模型的性能进行评估。

进一步的：关键词检索的判别结果分为正类和负类；判定结果会出现四种情况，正类被判定为正类，即真正类（Ture Positive TP）；正类被判定为负类，即假负类（FalseNegative FN）；负类被判定为正类，即假正类（False Positive FP）；负类被判定为负类，即真负类（Ture Negative TN），具体判定值和实际值关系如表1所示。

表1判定与实际关系表。

对关键词检索的评价指标包括召回率、精确度、F1评分。

召回率：指被正确预测为正样本的数目所占总正样本数目的比值，计算公式为：

；

精确率：指被正确预测为正样本的数目占被预测为正样本数目的比值，计算公式为：

；

F值：召回率和准确率的调和值，计算公式为：

；

当α=1时，即是评价指标中常见的F1值，即如下式所示：

。

将召回率、精确度和F1三个评价指标作为该发明的评价指标，三个评价指标可精准有效的反应基于残差神经网络的低资源语音关键词检索模型的性能。

采用上述方案，本发明的有益效果包括以下几点。

本发明提供一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，有效将深度学习与基于模板匹配的关键词检索技术相结合，构建了结合深度学习的低资源语言关键词检索模型，大大降低了基于模板匹配的语音关键词检索的计算成本。

本发明以声学特征作为语音关键词检索的依据，不需要声学模型和语音模型，大大降低了对语料库资源规模的要求；仅需要较少的标注即可完成语音关键词检索模型的训练；不需要将语音文档完全转化为文本，大大降低了语音关键词检索的工作量，也能有效解决传统语音关键词检索严重依赖语音识别的问题。

本发明可以在关键词语音或语音文档存在噪声的条件下完成语音关键词检索任务，对噪声有很强的鲁棒性。

本发明可以在资源丰富语言的语料库上完成残差神经网络模型的训练，并且仅仅需要很少的监督（关键词语音是否出现在语音文档语句中的标签）；残差神经网络模型训练完成后可以直接用于低资源语音关键词检索任务，模型具有很强的通用性。

附图说明

为进一步理解本发明实施的技术方案，对附图1加以说明，附图1构成本申请的一部分，并不构成本发明实施例的限定。

在附图中：图1为本发明的实施例提供的一种基于瓶颈特征和残差神经网络低资源语音关键词检索技术路线示意图。

具体实施方式

在此结合本发明实施例中的附图，对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是本发明的一部分实施例，并非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种低资源语音关键词检索方法，利用语音的声学特征生成帧级相似矩阵，将帧级相似矩阵作为图像；残差神经网络根据相似矩阵图像中是否出现准对角线判定关键词在语音文档语句中是否出现，最后评价系统给出各项评价指标值评价关键词检索模型的性能；这种方法解决了传统低资源语音关键词检索带有标注的语料库、发音词典等资源匮乏的问题，又能够解决传统的基于模板匹配的语音关键词检索对噪声的鲁棒性差、检索准确率低及运算成本高等问题，能够更加准确高效的实现低资源语音关键词检索。

如图1所示，本发明的实施例提供一种低资源语音关键词检索技术路线，其中包括以下步骤。

步骤1：预处理训练数据：在数据预处理过程中预加重的主要作用是获得频谱更加缓和的信号，对训练数据设置标签并对训练数据做帧级处理，获取训练语音数据的瓶颈特征。

在数据预处理过程中设置标签的主要作用是用于训练残差神经网络模型；在此，训练数据中是否出现关键词语音是已知的，关键词语音出现在语音文档语句中为正类，设置标签为1，关键词语音未出现在语音文档语句为负类，设置标签为0，并利用预训练前馈神经网络分别提取关键词语音和语音文档语句的瓶颈特征；接下来利用获得的瓶颈特征计算帧级相似矩阵；关键词语音瓶颈特征记为 (m表示语音关键词的帧数)；语音文档语句瓶颈特征记为/> (n表示语音文档语句的帧数)，计算任意两个向量点积的对数/>得到相似距离，再应用范围归一化得到帧级相似矩阵。

步骤2：构建模型并训练：构建基于残差神经网络的低资源语音关键词检索模型，设定合理的训练参数，将模型部署到服务器上，将生成的帧级相似矩阵图像和标签一并送入残差神经网络，完成残差神经网络模型的训练。

保存训练得到的残差神经网络模型。

步骤3：预处理测试数据：与预处理训练数据类似，对测试数据预加重、分帧加窗，经过预训练的前馈神经网络获取测试语音数据的瓶颈特征。

步骤4：测试模型：经预处理的测试数据的关键词语音和语音文档语句输入预训练前馈神经网络，获得语音关键词和语音文档语句的瓶颈特征，关键词语音瓶颈特征记为 (m表示语音关键词的帧数)；语音文档语句瓶颈特征记为/>(n表示语音文档的帧数)，计算任意两个向量点积的对数/>得到相似距离，再应用范围归一化得到归一化帧级相似距离矩阵。

进一步的，将步骤4得到的数据输入训练完成的残差神经网络模型，残差神经网络模型对测试数据生成的相似矩阵图像根据相似矩阵图像中是否出现准对角线给出置信度评分，根据置信度评分和给定的门限值对语音关键词是否出现在语音文档语句中给出最终判断。

进一步的，将测试数据中的关键词语音在语音文档中的置信度评分和判定结果保存在Excel表中。

进一步的，评估模型：采用三种评价指标对低资源语音关键词检索模型进行评估。

评价指标包括准确率、召回率和F1评分，这些评价指标可有效准确的对低资源语音关键词检索模型的性能进行评估。

进一步的输出准确率、召回率、F1评分值。

本发明的实施例，模型训练数据来自Spoken Web Search2013数据集，该数据集有9种低资源语言；随机选择数据集中的5000条关键词语音和语音文档语句对作为训练数据集，其中正类数目为2463，负类数目为2537。

测试数据集也来自Spoken Web Search2013数据集（测试数据集与训练数据集不重叠），测试数据集包含500条关键词语音和语音文档语句对，其中正类数目为264，负类数目为236。

进一步的，测试结果，正类被判定为正类的数目为194，正类被判定为负类的数目为70，负类被判定为正类的数目为26，负类被判定为正类的数目为210。

测试结果如表2所示。

表2判定结果情况。

预测实际	正类	负类
			正类	194	70
负类	26	210

进一步的根据判定结果得出评价指标数值。

召回率：；

准确率：；

F1分：。

进一步的输出评价指标值如表所3示。

表3判定指标值情况。

指标方法	召回率	精确度	F1
				ResNet	0.7348	0.8818	0.8117

为了证明本发明的有效性及可行性，本实施例与传统的基于DTW模板匹配的低资源语音关键词检索模型和与基于后验特征和卷积神经网络的低资源语音关键词检索模型作对比；瓶颈特征是从前馈神经网络的隐藏层获得的特征，相对于后验特征而言瓶颈特征对噪声鲁棒性好，对录音条件改变和说话人改变的敏感性低，用于低资源语音关键词检索更有优势；残差神经网络采用跳跃连接的方式，从根本上解决了卷积神经网络梯度消失和梯度爆炸的问题，用于低资源语音关键词检索第二阶段能够更准确的对帧级相似矩阵图像分类，从而提高关键词检索的准确率。数据结果对比如表4所示，由下表发现，本实施例召回率、精确度、F1指标值均高于传统的基于DTW模板匹配的低资源语音关键词检索方法，本实施例召回率、精确度、F1值指标均高于基于CNN网络的低资源语音关键词检索方法，其中精确度比基于DTW模板匹配的低资源语音关键词检索方法提高了84.16%，召回率比基于CNN网络的低资源语音关键词检索方法提高了45.6%， F1值比基于CNN网络的低资源语音关键词检索方法提高了27.58%，说明本实施例可以高效准确的实现低资源语音关键词检索。

表参数对比情况。

指标方法	召回率	精确度	F1
				DTW	0.7117	0.4788	0.5725
CNN	0.5045	0.8615	0.6362
				本实施例方法	0.7348	0.8818	0.8117

由表发现，本实施例中得分均表现较优，且有很大提升，说明本实施例可以解决传统基于DTW模板匹配的语音关键词检索所面临的不足。

以上所述的具体实施方式对本发明的目的、技术路线和有益效果进一步说明，并且仅为本发明具体实施方式以及较佳实施例，其不用以限制本发明，凡在本发明精神和原则之内所做的任何修改、改进，均应在本发明的保护范围在之内。

Claims

1.一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，包括以下步骤：

步骤1：预处理训练数据，提取瓶颈特征：首先使用IARP项目中17种语言数据训练多语言前馈神经网络, 对训练数据预处理，以8000HZ频率采样后预加重，再分帧加窗，窗长为25ms, 帧移为10ms，利用前馈神经网络的瓶颈层获得训练集中语音关键词和语音文档语句的瓶颈特征, 瓶颈特征是从前馈神经网络的隐藏瓶颈层获得的数据的低维表征，与其他层的大小相比，瓶颈层的隐藏单元数量较少，较小的层限制了通过网络的信息流，使其能够专注于优化最终目标所需的信息；最后对训练数据设置标签，预处理后的数据用于训练残差神经网络模型；

步骤2：构建模型并训练：设关键词语音的瓶颈特征为，语音文档语句的瓶颈特征为/>；利用瓶颈特征得到帧级相似矩阵，给定任意两个瓶颈特征向量/>,计算点积的对数/>得到相似距离，再应用范围归一化得到归一化相似矩阵;

归一化公式为：

其中，/>；将深度残差神经网络与传统的基于模板匹配的语音关键词检索相结合，构建基于残差神经网络的语音关键词检索模型，将低资源语音关键词检索任务转化为图像二分类任务来处理；将生成的相似矩阵图像和标签输入残差神经网络，完成残差神经网络模型的训练；

步骤3：测试模型：利用训练好的语音关键词检索模型对测试数据进行关键词检索，给出置信度并判断关键词是否出现在语音文档语句中；

步骤4：评估模型：通过准确率、召回率和F1评价指标对关键词检索模型评估。

2.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，其特征在于所述的步骤1对训练数据设置标签，标签分为两类；语音关键词出现在语音文档语句中，标签为正类，设置为1；语音关键词未出现在语音文档语句中，标签为负类，设置为0。

3.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，其特征在于所述的相似矩阵图像二分类任务中：一类是关键词语音出现在语音文档语句中，生成的相似矩阵出现一条不规则斜对角线；另一类是语音关键词未出现在语音文档中，生成的相似矩阵中不会出现不规则斜对角线；将相似矩阵的对角线特征作为判读语音关键词是否出现在语音文档中的依据。

4.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，其特征在于步所述的步骤3关键词检索模型对测试数据生成的相似矩阵进行判别，残差网络模型对测试数据生成的相似矩阵图像判别结果只产生正类和负类；判定结果会出现四种情况，正类被判定为正类，即真正类TP；正类被判定为负类，即假负类FN；负类被判定为正类，即假正类FP；负类被判定为负类，即真负类TN，根据置信度评分和给定的门限值对语音关键词是否出现给出最终判断。

5.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法，其特征在于步骤4中评价指标包括准确率、召回率、F评分对关键词检索的结果进行评估。