CN112151067B

CN112151067B - 一种基于卷积神经网络的数字音频篡改被动检测方法

Info

Publication number: CN112151067B
Application number: CN202011034201.5A
Authority: CN
Inventors: 曾春艳; 杨尧; 冯世雄; 孔帅; 余琰
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-05-02
Anticipated expiration: 2040-09-27
Also published as: CN112151067A

Abstract

本发明属于数字音频篡改检测技术领域，特别指一种基于卷积神经网络的数字音频篡改被动检测方法。本法发明提出对ENF波动超矢量特征采用卷积神经网络CNN与注意力机制Attention来进行分类。卷积神经网络可以更好的学习原始音频与篡改音频的差异性。注意力机制从CNN输出的大量特征中筛选出重要信息，减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能，优化了系统结构，提高了相应设备源识别产品的竞争力。

Description

一种基于卷积神经网络的数字音频篡改被动检测方法

技术领域

本发明属于数字音频篡改检测技术领域，特别指一种基于卷积神经网络的数字音频篡改被动检测方法。

背景技术

随着数字音频技术的飞速进步，人们能够很方便地采集到数字音频信号，但同时也可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的数字音频应用到司法取证等重要场合，将很有可能引发一些不良的社会问题，因此,对数字音频篡改检测的研究有着非常重要的意义。

数字音频篡改被动检测是无需添加任何信息，仅靠音频自身特征来对数字音频的真实性和完整性进行分析判别的技术，对于复杂的取证环境具有现实意义。当录音设备采用电网供电时，录制的音频文件中残留有电网频率(Electirc Network Frequency,ENF)信号。当数字音频被篡改时这种ENF信号也会随着篡改操作发生变化，于是利用ENF信号的唯一性与稳定性进行音频篡改被动检测有了两种研究思路，第一是将音频中提取出的ENF信号与供电部门的ENF数据库进行对比，这种方法实现难度高，代价大；第二是提取ENF信号中的某些特征，进行一致性与规律性分析。目前利用ENF信号进行音频篡改取证的研究方法主要是利用传统机器学习方法对ENF信号的相位变化、相位的不连续性、瞬时频率突变等特征进行分类，从而达到篡改检测的目的，。

目前存在的数字音频检测方法中，大多是对相应特征设置阈值门限进行检测或采用机器学习方法进行分类。这些方法往往存在经验成分过多或是对于某一种篡改方法针对性太强和识别率不够的问题。

近年来，随着机器学习算法性能的提升和计算机存储、计算能力的提高，深度神经网络(Deep Neural Network，DNN)被应用到音频篡改检测领域中。在深度神经网络中可以DNN深层次的非线性变换更好的拟合音频篡改的特征，实现自动学习与检测，具有识别率高的优点。因此，本发明采用卷积神经网络对ENF高斯均值超矢量进行训练，利用较少的计算量充分学习其中的隐含信息，然后使用注意力机制Attention的方法自动学习卷积神经网络中输出的信息的权重，确定其中对数字音频篡改检测有用的信息，减小冗杂信息，提升数字音频篡改检测系统的性能。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于卷积神经网络的数字音频篡改被动检测方法，其特征在于，一种基于卷积神经网络的数字音频篡改被动检测方法，其特征在于，包括

步骤1、对原始语音信号进行处理得到电网频率(ENF)成分；

步骤2、根据步骤1得到的ENF成分，提取基于DFT1的相位谱拟合特征参数P_coe与相位波动特征F₁，基于Hilbert变换的频率谱拟合特征参数F_coe，获得组合特征X＝[F_coe,P_coe,F₁]；

步骤3、使用步骤2中的组合特征X训练通用背景模型(UBM),对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征X，对UBM模型参数通过自适应MAP来更新模型参数；得到待训练语音的均值矩阵作为ENF高斯均值超矢量；

步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练，使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征，使用sofmax层进行篡改检测。

在上述的一种基于卷积神经网络的数字音频篡改被动检测方法，步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分；具体包括：

步骤1.1、下采样：在保证提取ENF精度的同时，有效减少计算量；将信号重采样频率定为1000HZ或者1200HZ；

步骤1.2、窄带滤波：为了防止相位延时得到理想的窄带信号，使用10000阶的线性零相位FIR滤波器进行窄带滤波，中心频率在ENF标准(50HZ或60HZ)处，带宽为0.6HZ，通带波纹0.5dB,阻带衰减为100dB。

在上述的一种基于卷积神经网络的数字音频篡改被动检测方法，步骤2中，提取特征的具体方法包括：

步骤2.1、计算ENF信号X_ENFC[n]在点n处的近似一阶导数

x′_ENFC[n]＝f_d(X_ENFC[n]-X_ENFC[n-1]) (1)

其中f_d(*)表示近似求导操作，X_ENFC[n]表示ENF成分第n个点的值；

步骤2.2、对x′_ENFC[n]进行分帧加窗，帧长为10个标准ENF频率周期

帧移为1个标准ENF频率周期

用汉宁窗w(n)对x′_ENFC[n]进行加窗

x′_N[n]＝x′_ENFC[n]w(n) (2)

其中汉宁窗

L为窗长；

步骤2.3、每帧信号x′_N[n]与X_ENFC[n]分别执行N点离散傅里叶变换(DFT)得到X′(k)、X(k)，根据|X′(k)|的峰值点的整数索引k_peak估计频率

其中DFT⁰[k_peak]＝X(k_peak)，DFT¹[k_peak]＝F(k_peak)|X′(k_peak)|，F(k_peak)是一个尺度系数；

其中N_DFT表示离散傅里叶变换点数，k为峰值点索引；

步骤2.4、计算x_ENFC的相位

步骤2.5、计算x′_ENFC的相位

其中

f_d为重采样频率，

floor[a]表示小于a的最大整数，ceil[b]表示大于b的最小整数；

步骤2.6、步骤2.5中

有两个可能的值，用步骤2.4中

作为参考，选择

中最接近

的值；

步骤2.7、将步骤2.5中得到的x′_ENFC的相位

代入式(6)得到ENF相位波动特征F

其中

表示

从n_b＝2到N_Block的平均值，N_Block表示帧数

2≤n_b≤N_Block，

为相应第n_b帧的估计相位；

步骤2.8、对信号X_ENFC[n]进行离散Hilbert变换；首先得到X_ENFC[n]的解析函数

x^(a) _ENFC[n]＝X_ENFC[n]+i*H{X_ENFC[n]} (7)

其中

H代表Hilbert变换；瞬时频率f[n]是H{X_ENFC[n]}相角的变化率；

步骤2.9、对步骤2.8中的f[n]进行低通滤波，去除震荡；使用五阶椭圆滤波器IIR滤波器；中心频率为ENF标准频率，带宽为20HZ，通带波纹为0.5HZ，阻带衰减为64HZ；由于频率估计的边界效应，去掉f[n]头尾各大约1s，最后得到ENF成分的瞬时频率估计f_hil；

步骤2.10、对步骤2.4中得到的相位特征

和步骤2.7中得到的瞬时频率特征f_hil进行曲线拟合，提取相位谱拟合特征F_p[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤5)，频率谱拟合特征F_f[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤5)；

用Sum of Sines来拟合相位特征，其形式为：

其中a是振幅，b是频率，c是每个正弦波项的相位常量，n指这个序列的数量，1≤n≤9，x＝[1,2,…,len(φ)]，len(φ)为

的长度，y为相位特征

用Gaussian来拟合瞬时频率特征，其形式为：

其中a是峰值幅度，b是峰值所在位置，c与峰的旁瓣有关，n指拟合了多少个峰值，1≤n≤8，x＝[1,2,…,len(f)]，len(f)为f_hil的长度，y为瞬时频率特征f_hil；

步骤2.11、由步骤2.8中的频率谱拟合特征F_f和相位谱拟合特征F_P，步骤2.5中的相位波动特征F，获得组合特征X＝[F_f,F_P,F]。

在上述的一种基于卷积神经网络的数字音频篡改被动检测方法，步骤3是获取ENF高斯均值超矢量，具体包括：

步骤3.1、对于D维语音特征X＝{x₁,x₂,…,x_T}，用于计算其似然函数的公式为：

式中该密度函数由K个单高斯密度函数p_k(x_t)加权得到，w_i式混合权重分量，其中每一个高斯分量的均值μ_k和协方差∑_k的大小分别为：1×D和D×D；

其中p_k(x_t)为第k个D维高斯分量的概率密度函数，混合权重w_k满足

假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出；

步骤3.2、用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

其中w_k代表混合权重，μ_k表均值和∑_k为协方差矩阵；

步骤3.3、首先将原始语音与训练语音(包含未篡改语音与篡改语音)按步骤2提取处组合特征X，用原始语音的特征X按步骤3.2训练UBM模型，然后将训练语音的每个特征向量送入到UBM模型中，将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量。

在上述的一种基于卷积神经网络的数字音频篡改被动检测方法，步骤4是卷积神经网络模型训练，具体包括：

步骤4.1、构建卷积神经网络(CNN)，CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256)，每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为2)；

步骤4.2、最后一个卷积块的输出输入到attention机制中进行特征选择，具体是：

A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu)；

B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层；

C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘；

步骤4.3、步骤4.2.C中的输入到神经元个数为128的全连接层(激活函数为Relu)，最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类，具体是：

A、4.2.C中的输入到神经元个数为128的全连接层；

B、步骤A中的输出输入到神经元个数为2的全连接层(激活函数为softmax)

其中f_c表示第c个神经元的输入，C＝2为本层神经元个数，p_c表示待测语音是原始语音还是篡改语音的概率；

C、最后输出层得到的概率可得出待测语音是否被篡改，计算所有测试语音正确识别是否被篡改的概率，即系统的识别率。

因此，本发明具有如下优点：与传统数字音频篡改检测相比，本法发明提出对ENF波动超矢量特征采用卷积神经网络CNN与注意力机制Attention来进行分类。卷积神经网络可以更好的学习原始音频与篡改音频的差异性。注意力机制从CNN输出的大量特征中筛选出重要信息，减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能，优化了系统结构，提高了相应设备源识别产品的竞争力。

附图说明

图1是本发明的方法流程示意图。

图2是卷积神经网络结构图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本发明种基于卷积神经网络的数字音频篡改被动检测方法，本发明的算法流程图如图1所示，可以分为四部分：1)ENF成分获取；2)ENF相位与频率特征提取；3)训练UBM提取ENF高斯均值超矢量；4)卷积神经网络训练。

步骤一：ENF成分获取，步骤如下：

A、将音频进行下采样，重采样频率定为1000HZ或者1200HZ；

B、使用10000阶的线性零相位FIR滤波器进行窄带滤波，中心频率在ENF标准(50HZ或60HZ)处，带宽为0.6HZ，通带波纹0.5dB,阻带衰减为100dB；

步骤二：ENF相位与频率特征提取，步骤如下：

A、求信号一阶导数、分帧加窗、离散傅里叶变换、线性插值估算相位、计算相位波动特征：

(A-1)计算ENF信号X_ENFC[n]在点n处的近似一阶导数

x′_ENFC[n]＝f_d(X_ENFC[n]-X_ENFC[n-1]) (1)

其中f_d(*)表示近似求导操作，X_ENFC[n]表示ENF成分第n个点的值。

(A-2)对x′_ENFC[n]进行分帧加窗，帧长为10个标准ENF频率周期

帧移为1个标准ENF频率周期

用汉宁窗w(n)对x′_ENFC[n]进行加窗

x′_N[n]＝x′_ENFC[n]w(n) (2)

其中汉宁窗

L为窗长。

(A-3)每帧信号x′_N[n]与X_ENFC[n]分别执行N点离散傅里叶变换(DFT)得到X′(k)、X(k)，根据|X′(k)|的峰值点的整数索引k_peak估计频率

其中DFT⁰[k_peak]＝X(k_peak)，DFT¹[k_peak]＝F(k_peak)|X′(k_peak)|，F(k_peak)是一个尺度系数。

其中N_DFT表示离散傅里叶变换点数，k为峰值点索引。

(A-4)计算x_ENFC的相位

(A-5)计算x′_ENFC的相位

其中

f_d为重采样频率，

floor[a]表示小于a的最大整数，ceil[b]表示大于b的最小整数。

(A-6)

有两个可能的值，用

作为参考，选择

中最接近

的值。

(A-7)将的x′_ENFC的相位

代入式(6)得到ENF相位波动特征F

其中

表示

从n_b＝2到N_Block的平均值，N_Block表示帧数，

2≤n_b≤N_Block，

为相应第n_b帧的估计相位。

B、Hilbert变换、低通滤波、提取ENF成分的瞬时频率估计f[n]：

(B-1)对信号X_ENFC[n]进行离散Hilbert变换。首先得到X_ENFC[n]的解析函数

x^(a) _ENFC[n]＝X_ENFC[n]+i*H{X_ENFC[n]} (7)

其中

H代表Hilbert变换。瞬时频率f[n]是H{X_ENFC[n]}相角的变化率。

(B-2)对f[n]进行低通滤波，去除震荡。使用五阶椭圆滤波器IIR滤波器。中心频率为ENF标准频率，带宽为20HZ，通带波纹为0.5HZ，阻带衰减为64HZ。

由于频率估计的边界效应，去掉f[n]头尾各大约1s，最后得到ENF成分的瞬时频率估计f_hil。

C、曲线拟合、特征组合：

(C-1)对相位特征

和瞬时频率特征f_hil进行曲线拟合，提取相位谱拟合特征F_p[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤5)，频率谱拟合特征F_f[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤5)。

用Sum of Sines来拟合相位特征，其形式为：

的长度，y为相位特征

用Gaussian来拟合瞬时频率特征，其形式为：

其中a是峰值幅度，b是峰值所在位置，c与峰的旁瓣有关，n指拟合了多少个峰值，1≤n≤8，x＝[1,2,…,len(f)]，len(f)为f_hil的长度，y为瞬时频率特征f_hil。

(C-2)由频率谱拟合特征F_f和相位谱拟合特征F_P，相位波动特征F，获得组合特征X＝[F_f,F_P,F]。

步骤三：训练UBM模型,提取出ENF高斯均值超矢量。

给出一组按步骤二中提取出的组合特征X，训练通用背景模型(UBM)；

(A-1)对于D维语音特征X＝{x₁,x₂,…,x_T}，用于计算其似然函数的公式为：

式中该密度函数由K个单高斯密度函数p_k(x_t)加权得到，其中每一个高斯分量的均值μ_k和协方差∑_k的大小分别为：1×D和D×D；

其中混合权重w_k满足

假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出。

(A-2)用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

其中w_k代表混合权重，μ_k表均值和∑_k为协方差矩阵。

B、利用UBM模型对训练数据进行最大后验概率(Maximum a posteriori,MAP)操作，提取出ENF高斯均值超矢量。

步骤四：利用卷积神经网络如图2对ENF高斯均值超矢量进行训练。

A、构建卷积神经网络(CNN)，CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256)，每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为2)。

B、最后一个卷积块的输出输入到attention机制中进行特征选择，具体是：

(B-1)、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu)。

(B-2)、步骤(B-1)中的全连接层的输出通过一层全连接层和sigmoid层。

(B-3)、步骤(B-1)中的全连接层的输出与步骤B中sigmoid的输出相乘。

C、步骤B的输出输入到神经元个数为128的全连接层(激活函数为Relu)，最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类，具体是：

(C-1)、步骤B的输出输入到神经元个数为128的全连接层。

(C-2)、输入到神经元个数为2的全连接层(激活函数为softmax)

其中f_c表示第c个神经元的输入，C＝2为本层神经元个数，p_c表示待测语音是原始语音还是篡改语音的概率。

(C-3)、最后输出层得到的概率可得出待测语音是否被篡改，计算所有测试语音正确识别是否被篡改的概率，即系统的识别率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于卷积神经网络的数字音频篡改被动检测方法，其特征在于，包括

步骤1、对原始语音信号进行处理得到电网频率ENF成分；

步骤2、根据步骤1得到的ENF成分，提取基于DFT1的相位谱拟合特征参数与相位波动特征，基于Hilbert变换的频率谱拟合特征参数，获得组合特征；

步骤3、使用步骤2中的组合特征训练通用背景模型UBM,对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征，对UBM模型参数通过自适应MAP来更新模型参数；得到待训练语音的均值矩阵作为ENF高斯均值超矢量；

步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练，使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征，使用sofmax层进行篡改检测；

步骤3是获取ENF高斯均值超矢量，具体包括：

步骤3.1、对于D维语音特征，用于计算其似然函数的公式为：

(1)

式中，似然函数由个单高斯密度函数加权得到，是混合权重分量，其中每一个高斯分量的均值和协方差的大小分别为：和；

(2)

其中为第个维高斯分量的概率密度函数，混合权重分量满足，假设表示模型参数的集合，则有，，该模型通过期望最大化EM迭代训练得出；

步骤3.2、用EM算法获取参数，先给予一个初始值，然后估计出新参数，使得在下的似然度更高，即，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

(3)

其中代表混合权重，表均值和为协方差矩阵；

步骤3.3、首先将原始语音与训练语音按步骤2提取处组合特征，用原始语音的特征按步骤3.2训练UBM模型，然后将训练语音的每个特征向量送入到UBM模型中，将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量，其中，训练语音包含未篡改语音与篡改语音；

步骤4是卷积神经网络模型训练，具体包括：

步骤4.1、构建卷积神经网络CNN，CNN网络模型由三个卷积块组成，每个块包含激活函数为Relu的两层卷积层、一层poolsize为2的MaxPool层，滤波器个数分别为64、128、256；

A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层，激活函数为Relu；

B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层；

C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘；

步骤4.3、步骤4.2.C中的输入到神经元个数为128的全连接层，激活函数为Relu，最后神经元个数为2且激活函数为softmax的全连接层作为输出层进行分类，具体是：

A、4.2.C中的输入到神经元个数为128的全连接层；

B、步骤A中的输出输入到神经元个数为2的全连接层，激活函数为Relu；

(4)

其中表示第个神经元的输入，为本层神经元个数，表示待测语音是原始语音还是篡改语音的概率；

2.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法，其特征在于，步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分；具体包括：

步骤1.2、窄带滤波：为了防止相位延时得到理想的窄带信号，使用10000阶的线性零相位FIR滤波器进行窄带滤波，中心频率在ENF标准处，带宽为0.6HZ，通带波纹0.5dB,阻带衰减为100dB。

3.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法，其特征在于，步骤2中，提取特征的具体方法包括：

步骤2.1、计算ENF信号在点n处的近似一阶导数

(5)

其中表示近似求导操作，表示ENF成分第个点的值；

步骤2.2、对进行分帧加窗，帧长为10个标准ENF频率周期为或，帧移为1个标准ENF频率周期为或，用汉宁窗对进行加窗

(6)

其中汉宁窗，为窗长；

步骤2.3、每帧信号与分别执行N点离散傅里叶变换DFT得到、，根据的峰值点的整数索引估计频率

(7)

其中，，是一个尺度系数；

(8)

其中表示离散傅里叶变换点数，为峰值点索引；

步骤2.4、计算的相位，；

步骤2.5、计算的相位

(9)

其中，为重采样频率，，

，，，表示小于a的最大整数，表示大于b的最小整数；

步骤2.6、步骤2.5中有两个可能的值，用步骤2.4中作为参考，选择中最接近的值；

步骤2.7、将步骤2.5中得到的的相位代入式（6）得到ENF相位波动特征F

(10)

其中表示从到的平均值，表示帧数，

，，为相应第帧的估计相位；

步骤2.8、对信号进行离散Hilbert变换；首先得到的解析函数

(11)

其中，H代表Hilbert变换；瞬时频率是相角的变化率；

步骤2.9、对步骤2.8中的进行低通滤波，去除震荡；使用五阶椭圆滤波器IIR滤波器；中心频率为ENF标准频率，带宽为20HZ，通带波纹为0.5HZ，阻带衰减为64HZ；由于频率估计的边界效应，去掉头尾各大约1s，最后得到ENF成分的瞬时频率估计；

步骤2.10、对步骤2.5中得到的相位特征和步骤2.9中得到的瞬时频率特征进行曲线拟合，提取相位谱拟合特征，频率谱拟合特征；

用Sum of Sines来拟合相位特征，其形式为：

(12)

其中是振幅，是频率，是每个正弦波项的相位常量，指这个序列的数量，，，为的长度，为相位特征；

用Gaussian来拟合瞬时频率特征，其形式为：

(13)

其中是峰值幅度，是峰值所在位置，与峰的旁瓣有关，指拟合了多少个峰值，，，为的长度，为瞬时频率特征；

步骤2.11、由步骤2.10中的频率谱拟合特征和相位谱拟合特征，步骤2.7中的相位波动特征，获得组合特征。