CN115270906A

CN115270906A - 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

Info

Publication number: CN115270906A
Application number: CN202210449187.8A
Authority: CN
Inventors: 曾春艳; 杨尧; 王志锋; 万相奎; 冯世雄; 孔帅; 余琰; 夏诗言; 赵宇豪
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-11-01

Abstract

本发明涉及一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置，首先对待检测音频数据进行处理得到电网频率(ENF)成分的ENF相位

和

提取电网频率(ENF)成分的瞬时频率；提取ENF相位

和频f_hil的变化的平均值特征作为浅层特征；通过待检测最长时长音频确定帧数与帧长并对ENF相位

和f_hil进行分帧处理获取相位特征矩阵和频率特征矩阵；进行曲线拟合获取拟合系数；利用神经网络从特征矩阵中获取ENF的局部细节信息，从拟合系数中获取电网频率全局信息补偿从而构成深层特征，对深浅层特征进行融合后拟合分类。本发明能够有效提升系统的识别性能提高了模型泛化能力，优化了系统结构，提高了相应设备源识别产品的竞争力。

Description

基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

技术领域

本发明属于数字音频篡改检测技术领域，特别指一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法。

背景技术

随着数字音频技术的飞速进步，人们能够很方便地采集到数字音频信号，但同时也可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的数字音频应用到司法取证等重要场合，将很有可能引发一些不良的社会问题，因此,对数字音频篡改检测的研究有着非常重要的意义。

数字音频篡改被动检测是无需添加任何信息，仅靠音频自身特征来对数字音频的真实性和完整性进行分析判别的技术，对于复杂的取证环境具有现实意义。当录音设备采用电网供电时，录制的音频文件中残留有电网频率(Electirc Network Frequency,ENF)信号。当数字音频被篡改时这种ENF信号也会随着篡改操作发生变化，于是利用ENF信号的唯一性与稳定性进行音频篡改被动检测有了两种研究思路，第一是将音频中提取出的ENF信号与供电部门的ENF数据库进行对比，这种方法实现难度高，代价大；第二是提取ENF信号中的某些特征，进行一致性与规律性分析。目前利用ENF信号进行音频篡改取证的研究方法主要是利用传统机器学习方法对ENF信号的相位变化、相位的不连续性、瞬时频率突变等特征进行分类，从而达到篡改检测的目的，。

目前存在的数字音频检测方法中，大多是对相应特征设置阈值门限进行检测或采用机器学习方法进行分类。这些方法往往存在经验成分过多或是对于某一种篡改方法针对性太强和识别率不够的问题。

近年来，随着机器学习算法性能的提升和计算机存储、计算能力的提高，深度神经网络(Deep Neural Network，DNN)被应用到音频篡改检测领域中。在深度神经网络中可以DNN深层次的非线性变换更好的拟合音频篡改的特征，实现自动学习与检测，具有识别率高的优点。因此，本发明采用深度学习方法对电网频率深浅层特征进行训练，利用较少的计算量充分学习其中的隐含信息，然后使用注意力机制Attention的方法自动学习深浅层特征的信息的权重，确定其中对数字音频篡改检测有用的信息，减小冗杂信息，提升数字音频篡改检测系统的性能。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，包括

对待检测音频数据进行处理得到电网频率(ENF)成分，并基于DFT¹变换对ENF 成分处理得到ENF相位

和

并基于Hilbert变换提取电网频率(ENF)成分的瞬时频率f_hil；

提取ENF相位

和频率f_hil的变化的平均值特征作为浅层特征 F₁₂₃＝[F₁,F₂,F₃]；通过待检测最长时长音频确定帧数与帧长并对ENF相位

和f_hil进行分帧处理获取相位特征矩阵P_n×n和频率特征矩阵F_m×m；进行曲线拟合获取拟合系数P_coe,F_coe；

利用神经网络从特征矩阵中获取ENF的局部细节信息，从拟合系数中获取电网频率全局信息补偿，局部信息和全局信息补偿共同构成深层特征，对深浅层特征进行融合后拟合分类。

在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，对原始语音信号进行处理得到电网频率(ENF)成分，具体包括：

下采样将信号重采样频率定为1000HZ或者1200HZ；

使用10000阶的线性零相位FIR滤波器进行窄带滤波，中心频率在ENF标准处，带宽为0.6HZ，通带波纹0.5dB,阻带衰减为100dB。

在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，获取ENF相位包括：

步骤2.1、计算ENF信号X_ENFC[n]在点n处的近似一阶导数

X′_ENFC[n]＝f_d(X_ENFC[n]-X_ENFC[n-1]) (1)

其中f_d(*)表示近似求导操作，X_ENFC[n]表示ENF成分第n个点的值；

步骤2.2、对X_ENFC[n]和X′_ENFC[n]进行分帧加窗，帧长为10个标准ENF频率周期

帧移为1个标准ENF频率周期

用汉宁窗w(n)对X_ENFC[n]和X′_ENFC[n] 进行加窗

X_N[n]＝X_ENF[n]w(n) (2)

X′_N[n]＝X′_ENFC[n]w(n) (3)

其中汉宁窗

L为窗长；

步骤2.3、每帧信号X_N[n]和X′_N[n]分别执行N点离散傅里叶变换(DFT)得到X(k)、X′(k)；

步骤2.4、令k_peak为|X(k)|的峰值的索引；k_peak用于求解

步骤2.5、由ENF信号的估计频率f_DFT，可以求出ENF相位特征

步骤2.6、再估算DFT¹变换的ENF相位

重新令k_peak为|X′(k)|的峰值的索引；并将|X′(k)|乘一个尺度系数F(k)

得到DFT⁰[k]＝X(k)，DFT¹[k]＝F(k)|X′(k)|；因此估计频率值为

步骤2.7、k_peak应是最接近

的整数(f_d为重采样频率)，这样

才是一个合理的频率值；可将

表示为

其中

对于θ的值，由X′(k)进行线性插值求得，令

floor[a]表示小于a的最大整数，ceil[b]表示大于b的最小整数；

由于

因此在(k_low,θ_low)＝arg[X′(k_low)]和

(k_high,θ_high)＝arg[X′(k_high)]进行线性插值可以逼近点

求出的值与上式中的θ的值保持一致；

步骤2.8、用以上方法求出的

具有两个可能的值，因此使用

作为参考，选择

中最接近

的值作为最终的

步骤2.9、提取基于Hilbert变换的ENF瞬时频率f_hil，对滤波后的ENF成分进行离散Hilbert变换；求解X_ENF[n]的解析函数

x_ENFC[n]＝X_ENFC[n]+i*H{X_ENFC[n]} (9)

其中

H代表Hilbert变换；瞬时频率f[n]是H{X_ENFC[n]}相角的变化率；

步骤2.10、估计ENF成分的损失频率f[n]；瞬时频率f[n]是H{X_ENFC[n]}相角的变化率；

步骤2.11、用五阶椭圆IIR滤波器对得到的f[n]进行低通滤波，去除由于Hilebrt变换过程中的数值逼近而产生的震荡；滤波器中心频率为ENF标称频率，带宽为20HZ，通带波纹和阻带衰减为0.5HZ和64HZ；

步骤2.12、去除f[n]头尾各2000个采样点；减少频率估计的边界效应影响；

步骤2.13、得到最终的瞬时频率估计f_hil。

在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，步骤3 中，计算浅层特征的具体方法包括：

步骤3.1、将上文估算出的相位

与瞬时频率f_hil代入下式中得到反映ENF 相位与瞬时频率突变的统计特征F₁₂₃＝[F₁,F₂,F₃]；

其中

2≤n_b≤N_Block，

为相应第n_b帧的估计相位，

表示

从n_b＝2到N_Block的平均值；len＝length(X_ENFC[n])，f′(n)＝f(n)-f(n-1)，f(n)为第n个采样点的瞬时频率，m_f′表示f′(n)从n＝2到len的平均值。

在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，步骤4 中，获取相位特征矩阵P_n×n、频率特征矩阵F_m×m、拟合系数P_coe,F_coe的具体方法包括：

步骤4.1、获取待检测音频数据中的最长时长音频数据；

步骤4.2、对最长时长音频，DFT和Hilbert变换获取相位

和瞬时频率f_hil；

步骤4.3、计算出最长的相位

和频率长度len(f_hil)；

步骤4.4、计算帧长(m和n)，

其中

len(f_hil)，其中 m为频率特征矩阵帧长，n为相位特征矩阵帧长；

步骤4.5、计算出所有音频数据的相位

和瞬时频率f_hil；

步骤4.6、计算帧移并分帧；帧移为

步骤4.7、将分帧后的相位和频率进行Reshape，得到特征矩阵F_m×m，P_n×n；

步骤4.8、利用MATLAB中的拟合工具箱中Sum of Sines函数对相位与频率进行拟合，Sum of Sines函数个数为6个，得到相位频率拟合系数特征 P_coe,F_coe＝[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤6)；Sum of Sines函数如下

在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，步骤5 中，网络模型部分包括：

步骤5.1、通过相位特征矩阵P_n×n获取相位深层特征细节信息；用两个卷积块对相位特征矩阵P_n×n进行特征提取，每个卷积块由两个相同的卷积层与一层池化层组成(两个卷积块的卷积核个数为32，64；卷积核大小为3×3，步长为1；Maxpooling层poolsize 为3)；最后一个池化层输出相位细节信息，并进行Flatten操作；

步骤5.2、通过相位拟合系数P_coe获取相位深层特征全局信息；用两层全连接层拟合相位拟合系数，每层神经元个数为32，激活函数为Relu；

步骤5.3、将相位全局信息和局部信息Concat，获取相位深层特征；

步骤5.4、通过频率特征矩阵F_m×m获取频率深层特征细节信息；用三个卷积块对相位特征矩阵F_m×m进行特征提取，每个卷积块由两个相同的卷积层与一层池化层组成(三个卷积块的卷积核个数为32，64,128；卷积核大小为3×3，步长为1；Maxpooling层poolsize为3)；最后一个池化层输出相位细节信息，并进行Flatten操作；

步骤5.5、通过频率拟合系数F_coe获取频率深层特征全局信息；用两层全连接层拟合相位拟合系数，每层神经元个数为32，激活函数为Relu；

步骤5.6、将频率全局信息和局部信息Concat，获取频率深层特征；

步骤5.7、使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合；将深层相位特征、深层频率特征和浅层特征进行拼接得到长度为L的特征量；

步骤5.8将长度为L的特征量输入两层全连接层，其激活函数分别问Relu和Sigmoid， Relu激活函数可以增强网络的非线性，并通过Sigmoid激活函数来得到每个特征的权重；最后将得到的权重与拼接后的长度为L的特征量特征进行相乘，实现特征选择；

步骤5.9、将特征融合后的特征进行拟合并分类；采用两个全连接层对特征充分拟合(神经元数量分别为1024、256，激活函数为Relu)；在两个全连接层之间添加Dropout 层(Dropout rate＝0.2)，以防止过拟合；最后，通过全连接层(神经元数量为2，激活函数为Softmax)作为输出层；

步骤5.10、最后输出层得到的概率可得出待测语音是否被篡改，计算所有测试语音正确识别是否被篡改的概率，即系统的识别率。

一种基于电网频率深浅层特征融合的数字音频篡改被动检测装置，其特征在于，包括

第一模块：对待检测音频数据进行处理得到电网频率(ENF)成分，并基于DFT¹变换对ENF成分处理得到ENF相位

和

并基于Hilbert变换提取电网频率(ENF) 成分的瞬时频率f_hil；

第二模块：提取ENF相位

和频率f_hil的变化的平均值特征作为浅层特征F₁₂₃＝[F₁,F₂,F₃]，并对ENF相位

第三模块：利用神经网络从特征矩阵中获取ENF的局部细节信息，从拟合系数中获取电网频率全局信息补偿，局部信息和全局信息补偿共同构成深层特征，对深浅层特征进行融合后拟合分类。

因此，本发明具有如下优点：与传统数字音频篡改检测相比，本法发明提出对ENF深浅层特征采用深度学习方法与注意力机制Attention来进行分类。针对传统方法特征表达不够，存在较多信息损失且模型泛化能力较弱的问题，利用卷积神经网络(CNN) 从特征矩阵中获取ENF的局部细节信息，利用深度神经网络(DNN)从拟合系数中获取电网频率全局信息补偿，局部信息和全局信息补偿共同构成深层特征。注意力机制从深浅层特征中筛选出重要信息，减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能提高了模型泛化能力，优化了系统结构，提高了相应设备源识别产品的竞争力。

附图说明

图1是本发明的方法流程示意图。

图2是神经网络结构图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本发明种基于卷积神经网络的数字音频篡改被动检测方法，本发明的算法流程图如图1所示，可以分为四部分：1)ENF成分获取；2)ENF相位与频率特征提取；3)浅层特征获取；4)深层特征的输入特征矩阵和拟合系数获取；5)神经网络训练。

步骤一：ENF成分获取，步骤如下：

A、将音频进行下采样，重采样频率定为1000HZ或者1200HZ；

B、使用10000阶的线性零相位FIR滤波器进行窄带滤波，中心频率在ENF标准(50HZ或60HZ)处，带宽为0.6HZ，通带波纹0.5dB,阻带衰减为100dB；

步骤二：ENF相位与频率特征提取，步骤如下：

A、求信号一阶导数、分帧加窗、离散傅里叶变换、线性插值估算相位、计算相位波动特征：

(A-1)计算ENF信号X_ENFC[n]在点n处的近似一阶导数

X′_ENFC[n]＝f_d(X_ENFC[n]-X_ENFC[n-1]) (1)

其中f_d(*)表示近似求导操作，X_ENFC[n]表示ENF成分第n个点的值。

(A-2)对X_ENFC[n]和X′_ENFC[n]进行分帧加窗，帧长为10个标准ENF频率周期

帧移为1个标准ENF频率周期

用汉宁窗w(n)对X_ENFC[n]和X′_ENFC[n] 进行加窗

X_N[n]＝X_ENF[n]w(n) (2)

X′_N[n]＝X′_ENFC[n]w(n) (3)

其中汉宁窗

L为窗长。

(A-3)每帧信号X_N[n]和X′_N[n]分别执行N点离散傅里叶变换(DFT)得到X(k)、 X′(k)。

(A-4)令k_peak为|X(k)|的峰值的索引。k_peak用于求解

(A-5)由ENF信号的估计频率f_DFT，可以求出ENF相位特征

(A-6)再估算DFT¹变换的ENF相位

重新令k_peak为|X′(k)|的峰值的索引。并将|X′(k)|乘一个尺度系数F(k)

得到DFT⁰[k]＝X(k)，DFT¹[k]＝F(k)|X′(k)|。因此估计频率值为

(A-7)k_peak应是最接近

的整数(f_d为重采样频率)，这样

才是一个合理的频率值。可将

表示为

其中

对于θ的值，由X′(k)进行线性插值求得，令

floor[a]表示小于a的最大整数，ceil[b]表示大于b的最小整数。

由于

因此在(k_low,θ_low)＝arg[X′(k_low)]和 (k_high,θ_high)＝arg[X′(k_high)]进行线性插值可以逼近点

求出的值与上式中的θ的值保持一致。

(A-8)用以上方法求出的

具有两个可能的值，因此使用

作为参考，选择

中最接近

的值作为最终的

B、Hilbert变换、低通滤波、提取ENF成分的瞬时频率估计f_hil：

(B-1)提取基于Hilbert变换的ENF瞬时频率f_hil，对滤波后的ENF成分进行离散Hilbert变换。求解X_ENF[n]的解析函数

x_ENFC[n]＝X_ENFC[n]+i*H{X_ENFC[n]} (9)

其中

H代表Hilbert变换。瞬时频率f[n]是H{X_ENFC[n]}相角的变化率。

(B-2)估计ENF成分的损失频率f[n]。瞬时频率f[n]是H{X_ENFC[n]}相角的变化率。

(B-3)用五阶椭圆IIR滤波器对得到的f[n]进行低通滤波，去除由于Hilebrt变换过程中的数值逼近而产生的震荡。滤波器中心频率为ENF标称频率，带宽为20HZ，通带波纹和阻带衰减为0.5HZ和64HZ。

(B-4)去除f[n]头尾各2000个采样点。减少频率估计的边界效应影响。

(B-5)得到最终的瞬时频率估计f_hil。

步骤三：浅层特征获取，步骤如下：

A将上文估算出的相位

与瞬时频率f_hil代入下式中得到反映ENF相位与瞬时频率突变的统计特征F₁₂₃＝[F₁,F₂,F₃]。

其中

2≤n_b≤N_Block，

为相应第n_b帧的估计相位，

表示

从n_b＝2到N_Block的平均值。len＝length(X_ENFC[n])，f′(n)＝f(n)-f(n-1)， f(n)为第n个采样点的瞬时频率，m_f′表示f′(n)从n＝2到len的平均值。

步骤四：深层特征的输入特征矩阵和拟合系数获取。

A、获取相位特征矩阵P_n×n、频率特征矩阵F_m×m。

(A-1)获取待检测音频数据中的最长时长音频数据。

(A-2)对最长时长音频，DFT和Hilbert变换获取相位

和瞬时频率f_hil。

(A-3)计算出最长的相位

和频率长度len(f_hil)。

(A-4)计算帧长(m和n)，

其中

len(f_hil)，其中m 为频率特征矩阵帧长，n为相位特征矩阵帧长；

(A-5)计算出所有音频数据的相位

和瞬时频率f_hil。

(A-6)计算帧移并分帧。帧移为

(A-7)将分帧后的相位和频率进行Reshape，得到特征矩阵F_m×m，P_n×n。

B、拟合系数P_coe,F_coe获取。

利用MATLAB中的拟合工具箱中Sum of Sines函数对相位与频率进行拟合，Sum ofSines函数个数为6个，得到相位频率拟合系数特征P_coe,F_coe＝[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤6)。Sum of Sines函数如下

步骤五：网络模型，步骤如下：

A、通过相位深层特征。

(A-1)通过相位特征矩阵P_n×n获取相位深层特征细节信息。用两个卷积块对相位特征矩阵P_n×n进行特征提取，每个卷积块由两个相同的卷积层与一层池化层组成(两个卷积块的卷积核个数为32，64。卷积核大小为3×3，步长为1。Maxpooling层poolsize为 3)。最后一个池化层输出相位细节信息，并进行Flatten操作。

(A-2)通过相位拟合系数P_coe获取相位深层特征全局信息。用两层全连接层拟合相位拟合系数，每层神经元个数为32，激活函数为Relu。

(A-3)将相位全局信息和局部信息Concat，获取相位深层特征。

B、通过频率深层特征。

(B-1)通过频率特征矩阵F_m×m获取频率深层特征细节信息。用三个卷积块对相位特征矩阵F_m×m进行特征提取，每个卷积块由两个相同的卷积层与一层池化层组成(三个卷积块的卷积核个数为32，64,128。卷积核大小为3×3，步长为1。Maxpooling层poolsize 为3)。最后一个池化层输出相位细节信息，并进行Flatten操作。

(B-2)通过频率拟合系数F_coe获取频率深层特征全局信息。用两层全连接层拟合相位拟合系数，每层神经元个数为32，激活函数为Relu。

(B-3)将频率全局信息和局部信息Concat，获取频率深层特征。

C、采用注意力机制对深浅层特征融合。

(C-1)使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合。将深层相位特征、深层频率特征和浅层特征进行拼接得到长度为L的特征量。

(C-2)将长度为L的特征量输入两层全连接层，其激活函数分别问Relu和Sigmoid，Relu激活函数可以增强网络的非线性，并通过Sigmoid激活函数来得到每个特征的权重。最后将得到的权重与拼接后的长度为L的特征量特征进行相乘，实现特征选择。

D、决策分类。

(D-1)将特征融合后的特征进行拟合并分类。采用两个全连接层对特征充分拟合(神经元数量分别为1024、256，激活函数为Relu)。在两个全连接层之间添加Dropout 层(Dropout rate＝0.2)，以防止过拟合。最后，通过全连接层(神经元数量为2，激活函数为Softmax)作为输出层。

(D-2)最后输出层得到的概率可得出待测语音是否被篡改，计算所有测试语音正确识别是否被篡改的概率，即系统的识别率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，包括

对待检测音频数据进行处理得到电网频率(ENF)成分，并基于DFT¹变换对ENF成分处理得到ENF相位

和

并基于Hilbert变换提取电网频率(ENF)成分的瞬时频率f_hil；

提取ENF相位

和频率f_hil的变化的平均值特征作为浅层特征F₁₂₃＝[F₁,F₂,F₃]；通过待检测最长时长音频确定帧数与帧长并对ENF相位

2.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，对原始语音信号进行处理得到电网频率(ENF)成分，具体包括：

下采样将信号重采样频率定为1000HZ或者1200HZ；

3.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，获取ENF相位包括：

步骤2.1、计算ENF信号X_ENFC[n]在点n处的近似一阶导数

X′_ENFC[n]＝f_d(X_ENFC[n]-X_ENFC[n-1]) (1)

帧移为1个标准ENF频率周期

用汉宁窗w(n)对X_ENFC[n]和X′_ENFC[n] 进行加窗

X_N[n]＝X_ENF[n]w(n) (2)

X′_N[n]＝X′_ENFC[n]w(n) (3)

其中汉宁窗

L为窗长；

步骤2.4、令k_peak为|X(k)|的峰值的索引；k_peak用于求解

步骤2.5、由ENF信号的估计频率f_DFT，求出ENF相位特征

步骤2.6、再估算DFT¹变换的ENF相位

得到DFT⁰[k]＝X(k)，DFT¹[k]＝F(k)|X′(k)|；因此估计频率值为

步骤2.7、k_peak应是最接近

的整数，f_d为重采样频率，这样

才是一个合理的频率值；将

表示为

其中

对于θ的值，由X′(k)进行线性插值求得，令

floor[a]表示小于a的最大整数，ceil[b]表示大于b的最小整数；

由于

因此在(k_low,θ_low)＝arg[X′(k_low)]和

(k_high,θ_high)＝arg[X′(k_high)]进行线性插值可以逼近点

求出的值与上式中的θ的值保持一致；

步骤2.8、用以上方法求出的

具有两个可能的值，因此使用

作为参考，选择

中最接近

的值作为最终的

x_ENFC[n]＝X_ENFC[n]+i*H{X_ENFC[n]} (9)

其中

H代表Hilbert变换；瞬时频率f[n]是H{X_ENFC[n]}相角的变化率；

步骤2.13、得到最终的瞬时频率估计f_hil。

4.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，步骤3中，计算浅层特征的具体方法包括：

步骤3.1、将上文估算出的相位

与瞬时频率f_hil代入下式中得到反映ENF相位与瞬时频率突变的统计特征F₁₂₃＝[F₁,F₂,F₃]；

其中

2≤n_b≤N_Block，

为相应第n_b帧的估计相位，

表示

5.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，步骤4中，获取相位特征矩阵P_n×n、频率特征矩阵F_m×m、拟合系数P_coe,F_coe的具体方法包括：

步骤4.1、获取待检测音频数据中的最长时长音频数据；

步骤4.2、对最长时长音频，DFT和Hilbert变换获取相位

和瞬时频率f_hil；

步骤4.3、计算出最长的相位

和频率长度len(f_hil)；

步骤4.4、计算帧长m和n，

其中

len(f_hil)，其中m为频率特征矩阵帧长，n为相位特征矩阵帧长；

步骤4.5、计算出所有音频数据的相位

和瞬时频率f_hil；

步骤4.6、计算帧移并分帧；帧移为

步骤4.8、利用MATLAB中的拟合工具箱中Sum of Sines函数对相位与频率进行拟合，Sum of Sines函数个数为6个，得到相位频率拟合系数特征P_coe,F_coe＝[a₁,b₁,c₁,…,a_i,b_i,c_i](0＜i≤6)；Sum of Sines函数如下

6.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法，其特征在于，步骤5中，网络模型部分包括：

步骤5.1、通过相位特征矩阵P_n×n获取相位深层特征细节信息；用两个卷积块对相位特征矩阵P_n×n进行特征提取，每个卷积块由两个相同的卷积层与一层池化层组成(两个卷积块的卷积核个数为32，64；卷积核大小为3×3，步长为1；Maxpooling层poolsize为3)；最后一个池化层输出相位细节信息，并进行Flatten操作；

步骤5.8将长度为L的特征量输入两层全连接层，其激活函数分别问Relu和Sigmoid，Relu激活函数可以增强网络的非线性，并通过Sigmoid激活函数来得到每个特征的权重；最后将得到的权重与拼接后的长度为L的特征量特征进行相乘，实现特征选择；

步骤5.9、将特征融合后的特征进行拟合并分类；采用两个全连接层对特征充分拟合(神经元数量分别为1024、256，激活函数为Relu)；在两个全连接层之间添加Dropout层(Dropout rate＝0.2)，以防止过拟合；最后，通过全连接层(神经元数量为2，激活函数为Softmax)作为输出层；

7.一种基于电网频率深浅层特征融合的数字音频篡改被动检测装置，采用权利要求1至6任意一项所述方法，其特征在于，包括

和

并基于Hilbert变换提取电网频率(ENF)成分的瞬时频率f_hil；

第二模块：提取ENF相位