CN111354352A

CN111354352A - 一种用于音频检索的模板自动清洗方法及系统

Info

Publication number: CN111354352A
Application number: CN201811582260.9A
Authority: CN
Inventors: 石光; 胡琦; 李超; 张学帅; 徐杰; 邹学强; 刘建
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2020-06-30
Anticipated expiration: 2038-12-24
Also published as: CN111354352B

Abstract

本发明公开了一种用于音频检索的模板自动清洗方法及系统，所述方法包括：提取模板的语音信号的特征，形成特征序列；将语音特征序列输入预先训练好的深度神经网络，输出每一帧语音特征的后验概率；将后验概率转换为似然概率，然后进行Viterbi解码，输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点，通过加入多样的非语音数据，使得DNN能够学习到无效语音与输入特征的非线性映射关系；同时，利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。

Description

一种用于音频检索的模板自动清洗方法及系统

技术领域

本发明涉及音频检索领域，具体涉及一种用于音频检索的模板自动清洗方法及系统。

背景技术

作为信息重要传递媒介的音频，伴随着互联网的飞速发展，正以ZB(10万亿亿字节)量级剧增。粗略分析这些音频将会发现，其中不乏大量不良内容。如何快速、准确、高效地发现含有这些信息的音频，是音频样例检索领域关注的问题。

音频样例检索是指从音频数据库中检索出与用户提交的查询样例具有相似内容的音频信息并反馈给用户。其中，音频数据库也称为模板库。即，检索系统通过将待查询样例与模板库中的样例进行比对，以确定待查询样例的敏感级别与音频内容。因此，模板库的质量和丰富程度将直接影响整个检索系统的性能。

一般而言，模板制作需要经过两步流程：首先，根据互联网上的数据获得用于制作模板的原始音频样本；其次，将获得的样本经一系列处理得到满足特定要求的音频，并将其作为模板。其中，一系列处理操作通常被称为模板清洗(Modules Clean,MC)。由于网络上直接获取到的原始音频样例通常存在许多无效成分，如：噪音、音乐、电话回拨音等，这些成分会使得待查询样例中的无效成分被误识别为不良内容，因而造成系统虚警。为了减少这类问题，模板制作过程中常引入一个MC环节。

传统上，模板清洗工作常由全人工完成。虽然，全手动模板清洗具有较好的准确率，但费事费力，且效率低下。由于网络上存在模板种类繁多，音频检测系统常常支持的模板数会达到几万甚至十几万；并且，由于模板时效性问题，模板库会经常更新，因而全人工模板清洗在实际应用中存在明显不足。

另一方面，人们也尝试设计自动MC模块。但是互联网上传输的数据易受各种因素影响，且自动清洗模块需要应对噪音、音乐、回拨音等各种不同特征音频。通常，这些音频在声学层面存在较大差异，因而难以用一种通用的频谱分析方式去解决所有问题。

随着数字化音频数据量的快速增长，音频样例检索技术面临的应用环境越来越复杂，对音频检索算法提出了更高的要求。在实际应用中，音频模板片段有时很短只有一到两秒同时待检音频也极容易受到编解码错误和环境、传输噪声的干扰，导致在实际应用中，检索性能急剧下降。

发明内容

本发明目的在于克服现有手工模板清洗存在的繁琐、效率低的缺陷，提出了一种用于音频检索的模板自动清洗方法。该方法利用数据驱动算法的优点，通过训练一个深度神经网络，学习从非语音到输入特征向量的非线性映射关系，使得模型能够习得特征的局部关系；同时，利用Viterbi算法能够增加方法对短时噪声、短暂频谱残缺等问题的鲁棒性。

为了实现上述目的，本发明提出了一种用于音频检索的模板自动清洗方法，所述方法包括：

提取模板的语音信号的特征，形成语音特征序列；

将语音特征序列输入预先训练好的深度神经网络，输出每一帧语音特征的后验概率；

将后验概率转换为似然概率，然后进行Viterbi解码，输出最终的模板清洗结果。

作为上述方法的一种改进，所述特征包括：感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计。

作为上述方法的一种改进，所述深度神经网络的训练步骤包括：

步骤1)构建前向神经网络结构的深度神经网络，其包括一个输入层、三个隐含层和一个输出层；输出状态为两类：语音和非语音；

步骤2)提取训练样本集中的每个训练样本的语音特征序列，包括：感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计；

步骤3)将训练样本的语音特征序列输入深度神经网络，结合分类标签，采用基于交叉熵准则的反向传播算法进行训练，得到训练好的深度神经网络。

作为上述方法的一种改进，所述每一帧语音特征的后验概率

为：

作为上述方法的一种改进，所述Viterbi解码的步骤具体包括：

步骤S1)预先设定Viterbi解码的两个参数：各个状态间的帧转移概率以及各个状态的先验概率值；

步骤S2)从语音信号的起始点对语音进行逐帧判断，对于当前这一帧，通过前每一帧出现各个状态的后验概率，乘以帧间转移概率，得到某一序列出现的总概率，最大概率对应的路径就是最有可能出现的隐含序列。

本发明还提供了一种用于音频检索的模板自动清洗系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优势在于：

本发明的方法充分利用了不同类型干扰数据的特点，通过深度神经网络学习到各种非语音数据的特性，使得模型能够应对各种非语音变化；同时，利用Viterbi后处理能够增加方法对短时噪声干扰等问题的鲁棒性。

附图说明

图1为本发明的用于音频检索的模板自动清洗方法的示意图；

图2为本发明的解码示意图。

具体实施方式

下面结合附图对本发明的方法进行详细的说明。

本发明利用深度神经网络(Deep Neural Network,DNN)作为学习模型，通过加入不同类别的非语音数据，使得DNN能够从数据中习得无效语音的通用特征，这为模板自动清洗方法的设计提供了一种全新视角。

自动模板清洗的主要目的是将输入音频流中的语音和非语音进行区分。该系统大致分为特征参数提取、决策以及后处理等三个环节。特征参数包括时域参数和频域参数及其衍射参数等。特征参数的目的在于量化出原信号中能够高效进行语音/非语音区分的信息。时域参数多基于语音能量强于静音、变化缓慢等假设，通过计算信号的短时能量、过零率等特征及其变种来达到对信号进行区分的目的；频域参数主要通过分析信号的频谱特征，具体包括，谱熵、自适应频域子带选择、基音频率等。决策过程一般采用门限以及模型决策的方法。常用的模型包括高斯混合模型、支持向量机、深/潜层神经网络等。由于环境复杂多变，一步决策结果易产生错误，因而系统中时常增加后处理环节，增加稳健性。

如图1所示，一种用于音频检索的模板自动清洗方法，包括：

首先，模板的语音信号经过特征提取环节，找到量化其特性的参数化表示。

常用的特征包括感知线性预测(PLP)、梅尔频率倒谱系数(MFCC)等。接着，给定输入语音特征

DNN输出其后验概率

然后，利用贝叶斯公式将后验概率转换为似然概率，用于Viterbi解码：

其中，q_i表示状态；c表示输入特征的窗长；p(q_i)是状态q_i的先验概率，可以通过在训练集上统计其频率近似。DNN训练采用交叉熵准则。值得注意，为了减少不平衡数据对训练DNN的影响，采样大众类数据，使得两类训练数据总量尽量均衡。

在MC系统中，DNN模型仅针对语音/非语音两个状态进行建模。其输入层为提取的表征语音的特征信息，输出层则是针对这两类状态的概率输出。在进行DNN模型训练时，需要获取到一定量的语音数据，以及对应的帧级别状态目标值。基于这些训练数据和目标值，通过反向传播算法可以训练出用于MC的DNN模型。

利用DNN对语音状态进行建模，每当送入一帧语音特征时，都可通过DNN计算得到这帧数据属于语音/非语音的概率。对于通过每帧的概率最终判断出语音段的起止点，实验中采用Viterbi算法。Viterbi算法是一种动态规划算法，用于寻找最有可能产生观测事件序列的隐含状态序列。对于MC，DNN的输出状态相当于观测序列，语音/非语音的排列则对应于隐含序列。各个状态之间存在转移概率。从信号的起始点对语音进行逐帧判断，对于当前这一帧，通过求得之前每一帧出现各个状态的概率，乘以帧间转移概率，得到某一序列出现的总概率，最大概率对应的路径就是最有可能出现的隐含序列。图2示出了这种表示的一个图例。

在Viterbi算法中，有两个参数需要预先设定：一是各个状态间的转移概率值；二是各个状态的先验概率值。这两个值的设定通过在开发集上进行调优。

DNN通常需要假定训练和测试环境大体匹配。为了增加系统鲁棒性，考虑将环境影响引入到DNN中。为了引入该信息，需要考虑两个问题：1)如何获取环境信息；2))如何使用信息。对于问题1，估计单帧先验信噪比(Signal-to-Noise Ratio,SNR)，并将SNR作为环境参数引入到MC系统中。关于问题2，考虑将先验SNR作为DNN的一维输入特征。由于SNR与声学特征存在一定非线性联系，通过合并两者，使得DNN能够学习到不同SNR下的特征规律，进而增加模型的鲁棒性。另外，由于SNR源自另一个视角，因而将其作为输入等效于增加了特征的部分有效信息。

另外，由于非语音(干扰)数据种类繁多，且某些类别中数据并不充分。为了解决这些问题，考虑人工生成各种形式的音频数据，以使得训练数据尽量覆盖所有可能的变化。为将问题简单化，把从互联网上获得的非语音数据作为干扰数据的原型。通过将单个类别中的原型数据加入不同种类、不同SNR的常用噪音(如，Babble、粉色噪声、机场噪声等)，获得派生的非语音数据。通过这种方式，可以有效增加单类非语音数据的数量，并提升单类别内数据的多样性。为了产生新的非语音类别，将已有的非语音数据原型以类别为单位进行不同SNR叠加，获得新类别。接着，按照前述的方式增加新类别中的样本数量。

训练数据为实际电信客服和用户的对话数据，录制方式为8k 16bits，单声道电话信道。选取100小时数据用于训练DNN。数据标注首先经过语音识别器做强制对齐得到初步结果；然后，手工对强制对齐的结果进行校验。测试数据选取自互联网的候选模板数据1939条。

实验中，DNN为基本的前向神经网络结构。其包括三个隐含层、一个输入层和一个输出层。输入层节点数为60*11＝660、输出层节点数为2(对应两类)、每个隐含层包含128个节点。训练特征为13维PLP(perceptual linear prediciton)，以及一维基频特征和一维表征基频可信度的特征、一维先验SNR估计。所有特征做3阶差分，加上静态特征，共构成(13+1+1+1)*4＝64维输入特征。64维输入做“左5右5”的特征扩展，共形成704维的特征作为DNN输入。DNN输出状态为两类：语音/非语音。

采用单条语音级别的准确度作为模板自动清洗方法的评价标准。假设待检测样本中共有N_{speech_ref}条候选模板；清洗过后人工校正每条模板的清洗质量。如果判断不再需要进行二次人工清洗，则将该条样本判断为清洗质量合格，否则清洗不合格。将清洗合格的样本总量记为N_{speech_Good}。根据清洗合格的候选模板数量，可以计算清洗准确率Accuracy：

本发明的方法的检测准确率为95％。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于音频检索的模板自动清洗方法，所述方法包括：

提取模板的语音信号的特征，形成语音特征序列；

2.根据权利要求1所述的用于音频检索的模板自动清洗方法，其特征在于，所述语音特征包括：感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计。

3.根据权利要求2所述的用于音频检索的模板自动清洗方法，其特征在于，所述深度神经网络的训练步骤包括：

4.根据权利要求3所述的用于音频检索的模板自动清洗方法，其特征在于，所述每一帧语音特征的后验概率

为：

5.根据权利要求4所述的用于音频检索的模板自动清洗方法，其特征在于，所述Viterbi解码的步骤具体包括：

6.一种用于音频检索的模板自动清洗系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～5之一所述方法的步骤。