CN110853656A

CN110853656A - 基于改进神经网络的音频篡改识别算法

Info

Publication number: CN110853656A
Application number: CN201910845468.3A
Authority: CN
Inventors: 包永强; 梁瑞宇; 唐闺臣; 王青云; 冯月芹; 朱悦
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-02-28
Anticipated expiration: 2039-09-06
Also published as: CN110853656B

Abstract

本发明公开了一种基于改进神经网络的音频篡改识别算法，其将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构，将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中，综合了音频信号的频谱和时序信息；通过在CNNs结构中加入改进池化层，使得CNNs可以输入任意尺寸谱图，解决音频长度不固定问题；增加注意力机制挖掘高层特征的权重比例，最终得到优质的音频特征；并利用数据融合理论进行决策融合的算法；提高音频篡改识别的识别率和模型的鲁棒性。本发明能够有效识别出音频篡改与否，克服了传统音频篡改识别率较低的问题。

Description

基于改进神经网络的音频篡改识别算法

技术领域

本发明属于音频篡改领域，具体涉及一种基于改进神经网络的音频篡改识别算法。

背景技术

数字音频编辑技术的日益成熟破坏了数字音频的真实性和完整性。将篡改后的音频用于法庭作为证据时，会对案情的判定产生很大的影响。因此，判定音频篡改与否是司法有关部门亟待解决的问题。

2005年，Grigoras.C发现利用市电供电的录音信号中存在着电网频率成分，并提取了待测音频中的电网频率特征与供电部门地区电网频率特征数据库中的数据进行匹配和对比，发现具有较高程度的相似性，第一次提出了可利用这个特点进行音频篡改检测，能够有效地解决以往技术无法解决的音频数据被部分抹去或拼接问题。如果音频信号中不包含电网频率特征，音频篡改检测就非常困难。目前主要有稳健水印技术、EM插值检测、噪声帧统计等方法。但现代音频编辑软件功能非常强大，当采样率相同的两段音频进行拼接，不会产生插值处理，而且软件一般会对编辑处的间断点会进行平滑处理，对周围少量的样点产生微小的影响，从而在频谱上看编辑软件将多段语音很好地拼接在一起，不跟原始音频对比，无法从时频域上进行区分。

随着机器学习和深度学习技术的发展，研究者们提出了多种有效地机器学习和深度学习识别模型。其中经典的机器学习模型主要包括：朴素贝叶斯分类器、k近邻(k-Nearest Neighbor，kNN)、支持向量机(SupportVector Machine，SVM)等等，这些方法在声音分类问题上取得了巨大的成功。二十世纪五十年代，感知机学习算法问世，感知机是一种类似于人类学习过程的算法模型，感知机的提出促进了神经网络的发展，其中深度学习是学习神经网络参数的一套强大技术。目前，深度学习已经成功地运用在人工智能中，计算机视觉、语音识别和自然语言处理的迅猛发展都离不开深度学习算法。深度学习常用的算法包括：深度神经网络(Deep Neural Networks，DNNs)、卷积神经网络 (ConvolutionalNeural Networks，CNNs)、循环神经网络(Recurrent Neural Networks， RNNs)等等，在这些经典网络基础上，研究者们针对不同任务提出了大量卓越的改进算法。

因此，针对音频篡改采用深度学习算法进行识别是未来的研究方向之一。从目前的研究情况来看，针对音频篡改识别的研究相对较少。首先是音频篡改识别的特征研究不足；其次，是音频篡改识别模型，已有的音频篡改模型均为传统信号处理模型，很少采用机器学习和深度学习进行分析。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于改进神经网络的音频篡改识别算法。

技术方案：为实现上述目的，本发明采用如下技术方案：

一种基于改进神经网络的音频篡改识别算法，其特征在于：包括以下步骤，

步骤A：对每条待检测的音频提取语音梅尔谱图和帧级特征；

步骤B：通过在标准CNNs结构中加入改进池化层构造出模型一，模型一用于将任意大小的谱图池化成固定长度；

步骤C，利用一层双向LSTM、一层单向LSTM和一层Attention层构造模型二，模型二用于获得音频的高层特征的权重比例；

步骤D，所述步骤A中提取的语音梅尔谱图作为模型一的输入，步骤A中提取的帧级特征作为模型二的输入，采用数据融合理论进行决策融合，判断音频是否篡改并确定篡改位置。

优选地，所述步骤B中，模型一的构造方法包括顺序执行以下步骤：

步骤B1、通过两层卷积层，卷积核大小为3*3，卷积核个数为64，得到W*H*64 的特征映射图，其中，W代表帧数，H代表梅尔频率；

步骤B2、通过两层卷积层，卷积核大小为5*5，卷积核个数为64，得到W*H*128 的特征映射图；

步骤B3、连接采用步骤B2方法构造的两个两层卷积层，得到W*H*256的特征映射图，构造出三层池化层；

步骤B4、连接采用步骤B2方法构造的三层池化层，第一部分是对每个特征映射图进行最大池化操作得到一个输出结果，因此可以得到256维的输出，第二部分将每个特征映射图分为4块，每个特征映射图得到四个输出，因此可得4*256维的输出，第三部分将每个特征映射图分为16块，每个特征映射图得到16个输出，因此可得16*256 维的输出；

步骤B5、将所有输出展开拼接成21*256维的一维数据，最后连接softmax层进行分类预测。

优选地，所述步骤A中提取的帧级特征包括：

语音特征编号1-11：从语音信号功率频谱图计算的色度图；

语音特征编号12-47：梅尔倒谱系数，一阶梅尔倒谱系数，二阶梅尔倒谱系数；

语音特征编号48-49：过零率，均方根；

语音特征编号50-59：谱图质心，P阶频谱图带宽，频谱图对比度，滚降频率；

语音特征编号60-62：用多项式拟合频谱图得到的多项式系数；

语音特征编号63-64：混沌关联维数，混沌熵；

语音特征编号65-67为：谐波能量特征、基频扰动特征、语音幅度扰动。

优选地，步骤C中模型二最后输出softmax分类概率。

优选地，步骤D，采用数据融合理论进行决策融合，对于模型一和模型二，融合后的音频篡改概率为：

其中，m₁表示模型1的输出概率，m₂表示模型2的输出概率，C表示篡改，

为非篡改；

其中，K表示特征之间的冲突。

有益效果：与现有技术相比，本发明的目的是克服现有技术中音频篡改识别，识别率较低且泛化性能较差的问题，通过设计了一种将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构，并利用数据融合理论进行决策融合的算法。具体包括如下有益效果：

1)、将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中，综合了音频信号的频谱和时序信息；

2)、通过在CNNs结构中加入改进池化层，使得CNNs可以输入任意尺寸谱图，解决音频长度不固定问题；

3)、增加注意力机制挖掘高层特征的权重比例，最终得到优质的音频特征；

4)、长短期记忆网络(LSTM，Long Short-Term Memory)是一种时间循环神经网络，是一种非线性模型，构造更大型深度神经网络；

5)、采用数据融合理论进行决策融合，此方法可以提高音频篡改识别的识别率和模型的鲁棒性，具有良好的应用前景。

附图说明

图1是本发明的基于改进神经网络的音频篡改识别算法中采用的基于改进池化层的 CNNs模型结构图；

图2是本发明采用的Attention-LSTM模型结构图；

图3是本发明的基于改进神经网络的音频篡改识别模型图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1至图3所示，本发明的基于改进神经网络的音频篡改识别模型，包括以下步骤，

步骤A，每条音频提取梅尔谱图和帧级特征，分别为模型一和模型二的输入。

在模型一中采用梅尔谱图作为输入，因为语音的梅尔谱图显示了大量与语句特性有关的信息，综合了频谱图和时域波形的特点，可以表示出语音频谱随时间的变化情况。由于每条语音的长度不同，因此提取出的谱图大小随语音长度的变化而变化，完整地保留了语音的全部信息。

此外，在模型二中先对语音进行分帧，本次发明中帧长为1024。为让两帧之间过渡变得平滑，必须使两帧之间有重叠，重叠率为25％。由于分帧会引起谱泄漏，于是对信号进行加Hanning窗处理。最后进行特征提取。对每一帧信号提取67维特征，特征为：

语音特征编号1-11：从语音信号功率频谱图计算的色度图；

语音特征编号48-49：过零率，均方根；

语音特征编号63-64：混沌关联维数，混沌熵；

混沌关联维数D(m)计算公式为：

其中，m表示重构相空间的嵌入维数，r是m维相空间的超球体半径，C_m(r)为该空间内信号的关联积分；

混沌熵定义为：

其中，σ为最大Lyapunov指数，p(i₁，…，i_σ)表示信号处于小空间的概率，τ为时间延迟；

语音特征编号65-67为：谐波能量特征、基频扰动特征、语音幅度扰动；

谐波能量特征公式如下：

其中E_p和E_ap为分别为谐波成分能量和噪音成分能量；

基频扰动特征公式如下：

其中，FO_i为第i帧语音的基频；

语音幅度扰动公式如下：

其中，A_i为第i帧语音的振幅。

然后将这些特征按帧组合在一起，每帧共有67维的语音特征，而每帧数据之间的先后关系亦保留了原始音频信号的时序信息。最终获得的特征维度是(帧数*67)，而帧数是随原始音频长度而动态变化的，解决了固定维度的特征与变化的语音长度之间的矛盾。

步骤B，将标准CNNs模型中的池化层改进为改进池化层，构造模型一。标准CNNs 模型一般分为两个部分，第一部分为卷积层，第二部分为全连接层，卷积层不要求固定大小的输入，但是全连接层在设计时需要固定神经元个数，导致标准CNNs需要固定尺寸的输入。为解决这一问题，本次发明采用空间金字塔池化的方法接收任意尺寸的图像输入，输出固定长度的输出向量。本发明的模型一结构如图2所示。

该模型输入可以为任意尺寸的图像，首先通过两层卷积层，卷积核大小为3*3，卷积核个数为64，得到W*H*64的特征映射图；再通过两层卷积核大小为5*5的卷积层，以提取更大区域感受野的特征，得到W*H*128的特征映射图；然后，再连接两层卷积层，得到W*H*256的特征映射图；最后连接改进池化层，改进池化层分为三个部分，第一部分是对每个特征映射图进行最大池化操作得到一个输出结果，因此可以得到256 维的输出，第二部分将每个特征映射图分为4块，每个特征映射图得到四个输出，因此可得4*256维的输出，第三部分将每个特征映射图分为16块，每个特征映射图得到16 个输出，因此可得16*256维的输出。将所有输出展开拼接成21*256维的一维数据，最后连接softmax层进行分类预测。基于空间金字塔池化的CNNs结构适用于任意尺寸的梅尔谱图，保留了音频的全部信息，有利于提高音频篡改检测的识别率。

步骤(C)，利用一层双向LSTM、一层单向LSTM和注意力机制构造模型二。LSTM 可以很好的处理时序信号，Attention机制可以自主学习时序信号的特征，将LSTM和 Attention机制相结合能够有效挖掘时序信号的特征参数。模型二采用一层双向LSTM、一层单向LSTM和一层Attention层，最后输出softmax分类概率，模型的输入为67维帧级特征，本发明的模型二结构如图3所示。

注意力机制(Attention)的原理是模拟人类的视觉注意力机制。当我们在关注一样东西的时候，注意力随着目光的移动也在移动，这就意味着我们视觉对目标的注意力分布是不同的。Attention机制在神经网络中最早被应用于计算机视觉领域，近几年来，有研究者将Attention机制引入到自然语言处理和语音中。迄今为止，Attention机制在文本摘要、序列标注、语音识别中取得了巨大成功。Attention机制可以为同一样本的局部赋予不同的重要性，自动学习出时序信号的特征，提高模型的鲁棒性。模型输出为分类概率。

步骤(D)，采用数据融合理论进行决策融合，结构如图3所示。

对于模型一和模型二，融合后的音频篡改概率为：

其中，m₁表示模型1的输出概率，m₂表示模型2的输出概率，C表示篡改，K表示特征之间的冲突，具体公式如下：

采用数据决策融合后的模型识别效果比单模型识别率更具有说服力，从而提高了音频篡改检测的识别率。

如表1所示采用不同模型识别率对比：

表1

模型	标准CNNs	改进CNNs	Attention-LSTM	本发明改进神经网络
					平均识别率	80.5％	83.4％	85.5％	91.2％

基于改进神经网络的音频篡改识别算法的准确率可达到91.2％。其特点在于：1)改进的CNNs模型能够适用于任意长度的音频，保留音频的全部信息；2)提取帧级特征能够有效挖掘音频中的篡改信息；3)利用注意力机制为同一样本的局部赋予不同的重要性，自动学习出时序信号的特征；4)数据融合结构提升了系统的鲁棒性。因此，在实际应用中，能够有效地识别语音篡改情况。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进神经网络的音频篡改识别算法，其特征在于：包括以下步骤，

步骤A：对每条待检测的音频提取语音梅尔谱图和帧级特征；

2.根据权利要求1所述的基于改进神经网络的音频篡改识别算法，其特征在于：所述步骤B中，模型一的构造方法包括顺序执行以下步骤：

步骤B1、通过两层卷积层，卷积核大小为3*3，卷积核个数为64，得到W*H*64的特征映射图，其中，W代表帧数，H代表梅尔频率；

步骤B2、通过两层卷积层，卷积核大小为5*5，卷积核个数为64，得到W*H*128的特征映射图；

步骤B4、连接采用步骤B2方法构造的三层池化层，第一部分是对每个特征映射图进行最大池化操作得到一个输出结果，因此可以得到256维的输出，第二部分将每个特征映射图分为4块，每个特征映射图得到四个输出，因此可得4*256维的输出，第三部分将每个特征映射图分为16块，每个特征映射图得到16个输出，因此可得16*256维的输出；

3.根据权利要求1所述的基于改进神经网络的音频篡改识别算法，其特征在于：所述步骤A中提取的帧级特征，包括：

语音特征编号1-11：从语音信号功率频谱图计算的色度图；

语音特征编号48-49：过零率，均方根；

语音特征编号63-64：混沌关联维数，混沌熵；

4.根据权利要求1所述的基于改进神经网络的音频篡改识别算法，其特征在于：步骤C中模型二最后输出softmax分类概率。

5.根据权利要求1所述的基于改进神经网络的音频篡改识别算法，其特征在于：步骤D，采用数据融合理论进行决策融合，对于模型一和模型二，融合后的音频篡改概率为：

其中，m₁表示模型1的输出概率，m₂表示模型2的输出概率，C表示篡改，为非篡改；

其中，K表示特征之间的冲突。