CN115270906A - 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置 - Google Patents

基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置 Download PDF

Info

Publication number
CN115270906A
CN115270906A CN202210449187.8A CN202210449187A CN115270906A CN 115270906 A CN115270906 A CN 115270906A CN 202210449187 A CN202210449187 A CN 202210449187A CN 115270906 A CN115270906 A CN 115270906A
Authority
CN
China
Prior art keywords
frequency
phase
enf
enfc
power grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210449187.8A
Other languages
English (en)
Inventor
曾春艳
杨尧
王志锋
万相奎
冯世雄
孔帅
余琰
夏诗言
赵宇豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202210449187.8A priority Critical patent/CN115270906A/zh
Publication of CN115270906A publication Critical patent/CN115270906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置,首先对待检测音频数据进行处理得到电网频率(ENF)成分的ENF相位
Figure DDA0003616621010000011
Figure DDA0003616621010000012
提取电网频率(ENF)成分的瞬时频率;提取ENF相位
Figure DDA0003616621010000013
和频fhil的变化的平均值特征作为浅层特征;通过待检测最长时长音频确定帧数与帧长并对ENF相位
Figure DDA0003616621010000014
和fhil进行分帧处理获取相位特征矩阵和频率特征矩阵;进行曲线拟合获取拟合系数;利用神经网络从特征矩阵中获取ENF的局部细节信息,从拟合系数中获取电网频率全局信息补偿从而构成深层特征,对深浅层特征进行融合后拟合分类。本发明能够有效提升系统的识别性能提高了模型泛化能力,优化了系统结构,提高了相应设备源识别产品的竞争力。

Description

基于电网频率深浅层特征融合的数字音频篡改被动检测方法 及装置
技术领域
本发明属于数字音频篡改检测技术领域,特别指一种基于电网频率深浅层特征融合 的数字音频篡改被动检测方法。
背景技术
随着数字音频技术的飞速进步,人们能够很方便地采集到数字音频信号,但同时也 可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的 数字音频应用到司法取证等重要场合,将很有可能引发一些不良的社会问题,因此,对数 字音频篡改检测的研究有着非常重要的意义。
数字音频篡改被动检测是无需添加任何信息,仅靠音频自身特征来对数字音频的真 实性和完整性进行分析判别的技术,对于复杂的取证环境具有现实意义。当录音设备采用电网供电时,录制的音频文件中残留有电网频率(Electirc Network Frequency,ENF)信号。当数字音频被篡改时这种ENF信号也会随着篡改操作发生变化,于是利用ENF信 号的唯一性与稳定性进行音频篡改被动检测有了两种研究思路,第一是将音频中提取出 的ENF信号与供电部门的ENF数据库进行对比,这种方法实现难度高,代价大;第二 是提取ENF信号中的某些特征,进行一致性与规律性分析。目前利用ENF信号进行音 频篡改取证的研究方法主要是利用传统机器学习方法对ENF信号的相位变化、相位的 不连续性、瞬时频率突变等特征进行分类,从而达到篡改检测的目的,。
目前存在的数字音频检测方法中,大多是对相应特征设置阈值门限进行检测或采用 机器学习方法进行分类。这些方法往往存在经验成分过多或是对于某一种篡改方法针对 性太强和识别率不够的问题。
近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经网络(Deep Neural Network,DNN)被应用到音频篡改检测领域中。在深度神经网络中 可以DNN深层次的非线性变换更好的拟合音频篡改的特征,实现自动学习与检测,具 有识别率高的优点。因此,本发明采用深度学习方法对电网频率深浅层特征进行训练, 利用较少的计算量充分学习其中的隐含信息,然后使用注意力机制Attention的方法自动 学习深浅层特征的信息的权重,确定其中对数字音频篡改检测有用的信息,减小冗杂信 息,提升数字音频篡改检测系统的性能。
发明内容
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,包 括
对待检测音频数据进行处理得到电网频率(ENF)成分,并基于DFT1变换对ENF 成分处理得到ENF相位
Figure BDA0003616620990000021
Figure BDA0003616620990000022
并基于Hilbert变换提取电网频率(ENF)成分的 瞬时频率fhil
提取ENF相位
Figure RE-GDA0003863903430000023
和频率fhil的变化的平均值特征作为浅层特征 F123=[F1,F2,F3];通过待检测最长时长音频确定帧数与帧长并对ENF相位
Figure RE-GDA0003863903430000024
和fhil进 行分帧处理获取相位特征矩阵Pn×n和频率特征矩阵Fm×m;进行曲线拟合获取拟合系数Pcoe,Fcoe
利用神经网络从特征矩阵中获取ENF的局部细节信息,从拟合系数中获取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征,对深浅层特征进行融合 后拟合分类。
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,对原始 语音信号进行处理得到电网频率(ENF)成分,具体包括:
下采样将信号重采样频率定为1000HZ或者1200HZ;
使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准处, 带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,获取ENF相位包括:
步骤2.1、计算ENF信号XENFC[n]在点n处的近似一阶导数
X′ENFC[n]=fd(XENFC[n]-XENFC[n-1]) (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值;
步骤2.2、对XENFC[n]和X′ENFC[n]进行分帧加窗,帧长为10个标准ENF频率周期
Figure BDA0003616620990000031
帧移为1个标准ENF频率周期
Figure BDA0003616620990000032
用汉宁窗w(n)对XENFC[n]和X′ENFC[n] 进行加窗
XN[n]=XENF[n]w(n) (2)
X′N[n]=X′ENFC[n]w(n) (3)
其中汉宁窗
Figure BDA0003616620990000033
L为窗长;
步骤2.3、每帧信号XN[n]和X′N[n]分别执行N点离散傅里叶变换(DFT)得到X(k)、X′(k);
步骤2.4、令kpeak为|X(k)|的峰值的索引;kpeak用于求解
Figure BDA0003616620990000034
步骤2.5、由ENF信号的估计频率fDFT,可以求出ENF相位特征
Figure BDA0003616620990000035
Figure BDA0003616620990000036
步骤2.6、再估算DFT1变换的ENF相位
Figure BDA0003616620990000037
重新令kpeak为|X′(k)|的峰值的索 引;并将|X′(k)|乘一个尺度系数F(k)
Figure BDA0003616620990000038
得到DFT0[k]=X(k),DFT1[k]=F(k)|X′(k)|;因此估计频率值为
Figure BDA0003616620990000039
步骤2.7、kpeak应是最接近
Figure BDA00036166209900000310
的整数(fd为重采样频率),这样
Figure BDA00036166209900000311
才是一个合理的频率值;可将
Figure BDA00036166209900000312
表示为
Figure BDA00036166209900000313
其中
Figure BDA00036166209900000314
对于θ的值,由X′(k)进行线性插值求得,令
Figure BDA0003616620990000041
floor[a]表示小于a的最大整数,ceil[b]表示大 于b的最小整数;
由于
Figure BDA0003616620990000042
因此在(klowlow)=arg[X′(klow)]和
(khighhigh)=arg[X′(khigh)]进行线性插值可以逼近点
Figure BDA0003616620990000043
求出的 值与上式中的θ的值保持一致;
Figure BDA0003616620990000044
步骤2.8、用以上方法求出的
Figure BDA0003616620990000045
具有两个可能的值,因此使用
Figure BDA0003616620990000046
作为参考,选择
Figure BDA0003616620990000047
中最接近
Figure BDA0003616620990000048
的值作为最终的
Figure BDA0003616620990000049
步骤2.9、提取基于Hilbert变换的ENF瞬时频率fhil,对滤波后的ENF成分进行离散Hilbert变换;求解XENF[n]的解析函数
xENFC[n]=XENFC[n]+i*H{XENFC[n]} (9)
其中
Figure BDA00036166209900000410
H代表Hilbert变换;瞬时频率f[n]是H{XENFC[n]}相角的变化率;
步骤2.10、估计ENF成分的损失频率f[n];瞬时频率f[n]是H{XENFC[n]}相角的 变化率;
步骤2.11、用五阶椭圆IIR滤波器对得到的f[n]进行低通滤波,去除由于Hilebrt变换过程中的数值逼近而产生的震荡;滤波器中心频率为ENF标称频率,带宽为20HZ, 通带波纹和阻带衰减为0.5HZ和64HZ;
步骤2.12、去除f[n]头尾各2000个采样点;减少频率估计的边界效应影响;
步骤2.13、得到最终的瞬时频率估计fhil
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,步骤3 中,计算浅层特征的具体方法包括:
步骤3.1、将上文估算出的相位
Figure BDA00036166209900000411
与瞬时频率fhil代入下式中得到反映ENF 相位与瞬时频率突变的统计特征F123=[F1,F2,F3];
Figure BDA0003616620990000051
其中
Figure BDA0003616620990000052
2≤nb≤NBlock
Figure BDA0003616620990000053
为相应第nb帧的估计相位,
Figure BDA0003616620990000054
表示
Figure BDA0003616620990000055
从nb=2到NBlock的平均值;len=length(XENFC[n]),f′(n)=f(n)-f(n-1),f(n)为 第n个采样点的瞬时频率,mf′表示f′(n)从n=2到len的平均值。
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,步骤4 中,获取相位特征矩阵Pn×n、频率特征矩阵Fm×m、拟合系数Pcoe,Fcoe的具体方法包括:
步骤4.1、获取待检测音频数据中的最长时长音频数据;
步骤4.2、对最长时长音频,DFT和Hilbert变换获取相位
Figure BDA0003616620990000056
和瞬时频率fhil
步骤4.3、计算出最长的相位
Figure BDA0003616620990000057
和频率长度len(fhil);
步骤4.4、计算帧长(m和n),
Figure BDA0003616620990000058
其中
Figure BDA0003616620990000059
len(fhil),其中 m为频率特征矩阵帧长,n为相位特征矩阵帧长;
步骤4.5、计算出所有音频数据的相位
Figure BDA00036166209900000510
和瞬时频率fhil
步骤4.6、计算帧移并分帧;帧移为
Figure BDA00036166209900000511
步骤4.7、将分帧后的相位和频率进行Reshape,得到特征矩阵Fm×m,Pn×n
步骤4.8、利用MATLAB中的拟合工具箱中Sum of Sines函数对相位与频率进行拟合,Sum of Sines函数个数为6个,得到相位频率拟合系数特征 Pcoe,Fcoe=[a1,b1,c1,…,ai,bi,ci](0<i≤6);Sum of Sines函数如下
Figure BDA00036166209900000512
在上述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,步骤5 中,网络模型部分包括:
步骤5.1、通过相位特征矩阵Pn×n获取相位深层特征细节信息;用两个卷积块对相位 特征矩阵Pn×n进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(两个卷积块的卷积核个数为32,64;卷积核大小为3×3,步长为1;Maxpooling层poolsize 为3);最后一个池化层输出相位细节信息,并进行Flatten操作;
步骤5.2、通过相位拟合系数Pcoe获取相位深层特征全局信息;用两层全连接层拟合 相位拟合系数,每层神经元个数为32,激活函数为Relu;
步骤5.3、将相位全局信息和局部信息Concat,获取相位深层特征;
步骤5.4、通过频率特征矩阵Fm×m获取频率深层特征细节信息;用三个卷积块对相位特征矩阵Fm×m进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(三 个卷积块的卷积核个数为32,64,128;卷积核大小为3×3,步长为1;Maxpooling层poolsize为3);最后一个池化层输出相位细节信息,并进行Flatten操作;
步骤5.5、通过频率拟合系数Fcoe获取频率深层特征全局信息;用两层全连接层拟合 相位拟合系数,每层神经元个数为32,激活函数为Relu;
步骤5.6、将频率全局信息和局部信息Concat,获取频率深层特征;
步骤5.7、使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合;将深层相位特征、深层频率特征和浅层特征进行拼接得到长度为L的特征量;
步骤5.8将长度为L的特征量输入两层全连接层,其激活函数分别问Relu和Sigmoid, Relu激活函数可以增强网络的非线性,并通过Sigmoid激活函数来得到每个特征的权重; 最后将得到的权重与拼接后的长度为L的特征量特征进行相乘,实现特征选择;
步骤5.9、将特征融合后的特征进行拟合并分类;采用两个全连接层对特征充分拟合(神经元数量分别为1024、256,激活函数为Relu);在两个全连接层之间添加Dropout 层(Dropout rate=0.2),以防止过拟合;最后,通过全连接层(神经元数量为2,激活函数 为Softmax)作为输出层;
步骤5.10、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音 正确识别是否被篡改的概率,即系统的识别率。
一种基于电网频率深浅层特征融合的数字音频篡改被动检测装置,其特征在于,包 括
第一模块:对待检测音频数据进行处理得到电网频率(ENF)成分,并基于DFT1变换对ENF成分处理得到ENF相位
Figure BDA0003616620990000061
Figure BDA0003616620990000062
并基于Hilbert变换提取电网频率(ENF) 成分的瞬时频率fhil
第二模块:提取ENF相位
Figure BDA0003616620990000071
和频率fhil的变化的平均值特征作为浅层特征F123=[F1,F2,F3],并对ENF相位
Figure BDA0003616620990000072
和fhil进行分帧处理获取相位特征矩阵Pn×n和频 率特征矩阵Fm×m;进行曲线拟合获取拟合系数Pcoe,Fcoe
第三模块:利用神经网络从特征矩阵中获取ENF的局部细节信息,从拟合系数中获取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征,对深浅层特 征进行融合后拟合分类。
因此,本发明具有如下优点:与传统数字音频篡改检测相比,本法发明提出对ENF深浅层特征采用深度学习方法与注意力机制Attention来进行分类。针对传统方法特征 表达不够,存在较多信息损失且模型泛化能力较弱的问题,利用卷积神经网络(CNN) 从特征矩阵中获取ENF的局部细节信息,利用深度神经网络(DNN)从拟合系数中获 取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征。注意力机制从 深浅层特征中筛选出重要信息,减小输入数据的运算负担。本发明的数字音频篡改检测 方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能提高了模型泛化 能力,优化了系统结构,提高了相应设备源识别产品的竞争力。
附图说明
图1是本发明的方法流程示意图。
图2是神经网络结构图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明种基于卷积神经网络的数字音频篡改被动检测方法,本发明的算法流程图如 图1所示,可以分为四部分:1)ENF成分获取;2)ENF相位与频率特征提取;3)浅 层特征获取;4)深层特征的输入特征矩阵和拟合系数获取;5)神经网络训练。
步骤一:ENF成分获取,步骤如下:
A、将音频进行下采样,重采样频率定为1000HZ或者1200HZ;
B、使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准(50HZ或60HZ)处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB;
步骤二:ENF相位与频率特征提取,步骤如下:
A、求信号一阶导数、分帧加窗、离散傅里叶变换、线性插值估算相位、计算相位 波动特征:
(A-1)计算ENF信号XENFC[n]在点n处的近似一阶导数
X′ENFC[n]=fd(XENFC[n]-XENFC[n-1]) (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值。
(A-2)对XENFC[n]和X′ENFC[n]进行分帧加窗,帧长为10个标准ENF频率周期
Figure BDA0003616620990000081
帧移为1个标准ENF频率周期
Figure BDA0003616620990000082
用汉宁窗w(n)对XENFC[n]和X′ENFC[n] 进行加窗
XN[n]=XENF[n]w(n) (2)
X′N[n]=X′ENFC[n]w(n) (3)
其中汉宁窗
Figure BDA0003616620990000083
L为窗长。
(A-3)每帧信号XN[n]和X′N[n]分别执行N点离散傅里叶变换(DFT)得到X(k)、 X′(k)。
(A-4)令kpeak为|X(k)|的峰值的索引。kpeak用于求解
Figure BDA0003616620990000084
(A-5)由ENF信号的估计频率fDFT,可以求出ENF相位特征
Figure BDA0003616620990000085
Figure BDA0003616620990000086
(A-6)再估算DFT1变换的ENF相位
Figure BDA0003616620990000087
重新令kpeak为|X′(k)|的峰值的索引。 并将|X′(k)|乘一个尺度系数F(k)
Figure BDA0003616620990000088
得到DFT0[k]=X(k),DFT1[k]=F(k)|X′(k)|。因此估计频率值为
Figure BDA0003616620990000091
(A-7)kpeak应是最接近
Figure BDA0003616620990000092
的整数(fd为重采样频率),这样
Figure BDA0003616620990000093
才是 一个合理的频率值。可将
Figure BDA0003616620990000094
表示为
Figure BDA0003616620990000095
其中
Figure BDA0003616620990000096
对于θ的值,由X′(k)进行线性插值求得,令
Figure BDA0003616620990000097
floor[a]表示小于a的最大整数,ceil[b]表示大 于b的最小整数。
由于
Figure BDA0003616620990000098
因此在(klowlow)=arg[X′(klow)]和 (khighhigh)=arg[X′(khigh)]进行线性插值可以逼近点
Figure BDA0003616620990000099
求出的值 与上式中的θ的值保持一致。
Figure BDA00036166209900000910
(A-8)用以上方法求出的
Figure BDA00036166209900000911
具有两个可能的值,因此使用
Figure BDA00036166209900000912
作为参考,选 择
Figure BDA00036166209900000913
中最接近
Figure BDA00036166209900000914
的值作为最终的
Figure BDA00036166209900000915
B、Hilbert变换、低通滤波、提取ENF成分的瞬时频率估计fhil
(B-1)提取基于Hilbert变换的ENF瞬时频率fhil,对滤波后的ENF成分进行离散Hilbert变换。求解XENF[n]的解析函数
xENFC[n]=XENFC[n]+i*H{XENFC[n]} (9)
其中
Figure BDA00036166209900000916
H代表Hilbert变换。瞬时频率f[n]是H{XENFC[n]}相角的变化率。
(B-2)估计ENF成分的损失频率f[n]。瞬时频率f[n]是H{XENFC[n]}相角的变 化率。
(B-3)用五阶椭圆IIR滤波器对得到的f[n]进行低通滤波,去除由于Hilebrt变换过程中的数值逼近而产生的震荡。滤波器中心频率为ENF标称频率,带宽为20HZ,通 带波纹和阻带衰减为0.5HZ和64HZ。
(B-4)去除f[n]头尾各2000个采样点。减少频率估计的边界效应影响。
(B-5)得到最终的瞬时频率估计fhil
步骤三:浅层特征获取,步骤如下:
A将上文估算出的相位
Figure BDA0003616620990000101
与瞬时频率fhil代入下式中得到反映ENF相位与瞬时频率突变的统计特征F123=[F1,F2,F3]。
Figure BDA0003616620990000102
其中
Figure BDA0003616620990000103
2≤nb≤NBlock
Figure BDA0003616620990000104
为相应第nb帧的估计相位,
Figure BDA0003616620990000105
表示
Figure BDA0003616620990000106
从nb=2到NBlock的平均值。len=length(XENFC[n]),f′(n)=f(n)-f(n-1), f(n)为第n个采样点的瞬时频率,mf′表示f′(n)从n=2到len的平均值。
步骤四:深层特征的输入特征矩阵和拟合系数获取。
A、获取相位特征矩阵Pn×n、频率特征矩阵Fm×m
(A-1)获取待检测音频数据中的最长时长音频数据。
(A-2)对最长时长音频,DFT和Hilbert变换获取相位
Figure BDA0003616620990000107
和瞬时频率fhil
(A-3)计算出最长的相位
Figure BDA0003616620990000108
和频率长度len(fhil)。
(A-4)计算帧长(m和n),
Figure BDA0003616620990000109
其中
Figure BDA00036166209900001010
len(fhil),其中m 为频率特征矩阵帧长,n为相位特征矩阵帧长;
(A-5)计算出所有音频数据的相位
Figure BDA00036166209900001011
和瞬时频率fhil
(A-6)计算帧移并分帧。帧移为
Figure BDA00036166209900001012
(A-7)将分帧后的相位和频率进行Reshape,得到特征矩阵Fm×m,Pn×n
B、拟合系数Pcoe,Fcoe获取。
利用MATLAB中的拟合工具箱中Sum of Sines函数对相位与频率进行拟合,Sum ofSines函数个数为6个,得到相位频率拟合系数特征Pcoe,Fcoe=[a1,b1,c1,…,ai,bi,ci](0<i≤6)。Sum of Sines函数如下
Figure BDA0003616620990000111
步骤五:网络模型,步骤如下:
A、通过相位深层特征。
(A-1)通过相位特征矩阵Pn×n获取相位深层特征细节信息。用两个卷积块对相位特征矩阵Pn×n进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(两个卷 积块的卷积核个数为32,64。卷积核大小为3×3,步长为1。Maxpooling层poolsize为 3)。最后一个池化层输出相位细节信息,并进行Flatten操作。
(A-2)通过相位拟合系数Pcoe获取相位深层特征全局信息。用两层全连接层拟合相位拟合系数,每层神经元个数为32,激活函数为Relu。
(A-3)将相位全局信息和局部信息Concat,获取相位深层特征。
B、通过频率深层特征。
(B-1)通过频率特征矩阵Fm×m获取频率深层特征细节信息。用三个卷积块对相位特征矩阵Fm×m进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(三个 卷积块的卷积核个数为32,64,128。卷积核大小为3×3,步长为1。Maxpooling层poolsize 为3)。最后一个池化层输出相位细节信息,并进行Flatten操作。
(B-2)通过频率拟合系数Fcoe获取频率深层特征全局信息。用两层全连接层拟合相位拟合系数,每层神经元个数为32,激活函数为Relu。
(B-3)将频率全局信息和局部信息Concat,获取频率深层特征。
C、采用注意力机制对深浅层特征融合。
(C-1)使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合。将深层相位特征、深层频率特征和浅层特征进行拼接得到长度为L的特征量。
(C-2)将长度为L的特征量输入两层全连接层,其激活函数分别问Relu和Sigmoid,Relu激活函数可以增强网络的非线性,并通过Sigmoid激活函数来得到每个特征的权重。最后将得到的权重与拼接后的长度为L的特征量特征进行相乘,实现特征选择。
D、决策分类。
(D-1)将特征融合后的特征进行拟合并分类。采用两个全连接层对特征充分拟合(神经元数量分别为1024、256,激活函数为Relu)。在两个全连接层之间添加Dropout 层(Dropout rate=0.2),以防止过拟合。最后,通过全连接层(神经元数量为2,激活函数 为Softmax)作为输出层。
(D-2)最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域 的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,包括
对待检测音频数据进行处理得到电网频率(ENF)成分,并基于DFT1变换对ENF成分处理得到ENF相位
Figure RE-FDA0003863903420000011
Figure RE-FDA0003863903420000012
并基于Hilbert变换提取电网频率(ENF)成分的瞬时频率fhil
提取ENF相位
Figure RE-FDA0003863903420000013
和频率fhil的变化的平均值特征作为浅层特征F123=[F1,F2,F3];通过待检测最长时长音频确定帧数与帧长并对ENF相位
Figure RE-FDA0003863903420000014
和fhil进行分帧处理获取相位特征矩阵Pn×n和频率特征矩阵Fm×m;进行曲线拟合获取拟合系数Pcoe,Fcoe
利用神经网络从特征矩阵中获取ENF的局部细节信息,从拟合系数中获取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征,对深浅层特征进行融合后拟合分类。
2.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,对原始语音信号进行处理得到电网频率(ENF)成分,具体包括:
下采样将信号重采样频率定为1000HZ或者1200HZ;
使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
3.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,获取ENF相位包括:
步骤2.1、计算ENF信号XENFC[n]在点n处的近似一阶导数
X′ENFC[n]=fd(XENFC[n]-XENFC[n-1]) (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值;
步骤2.2、对XENFC[n]和X′ENFC[n]进行分帧加窗,帧长为10个标准ENF频率周期
Figure RE-FDA0003863903420000015
帧移为1个标准ENF频率周期
Figure RE-FDA0003863903420000016
用汉宁窗w(n)对XENFC[n]和X′ENFC[n] 进行加窗
XN[n]=XENF[n]w(n) (2)
X′N[n]=X′ENFC[n]w(n) (3)
其中汉宁窗
Figure RE-FDA0003863903420000021
L为窗长;
步骤2.3、每帧信号XN[n]和X′N[n]分别执行N点离散傅里叶变换(DFT)得到X(k)、X′(k);
步骤2.4、令kpeak为|X(k)|的峰值的索引;kpeak用于求解
Figure RE-FDA00038639034200000213
步骤2.5、由ENF信号的估计频率fDFT,求出ENF相位特征
Figure RE-FDA00038639034200000212
Figure RE-FDA0003863903420000022
步骤2.6、再估算DFT1变换的ENF相位
Figure RE-FDA00038639034200000214
重新令kpeak为|X′(k)|的峰值的索引;并将|X′(k)|乘一个尺度系数F(k)
Figure RE-FDA0003863903420000023
得到DFT0[k]=X(k),DFT1[k]=F(k)|X′(k)|;因此估计频率值为
Figure RE-FDA0003863903420000024
步骤2.7、kpeak应是最接近
Figure RE-FDA0003863903420000025
的整数,fd为重采样频率,这样
Figure RE-FDA0003863903420000026
才是一个合理的频率值;将
Figure RE-FDA0003863903420000027
表示为
Figure RE-FDA0003863903420000028
其中
Figure RE-FDA0003863903420000029
对于θ的值,由X′(k)进行线性插值求得,令
Figure RE-FDA00038639034200000210
floor[a]表示小于a的最大整数,ceil[b]表示大于b的最小整数;
由于
Figure RE-FDA00038639034200000211
因此在(klowlow)=arg[X′(klow)]和
(khighhigh)=arg[X′(khigh)]进行线性插值可以逼近点
Figure RE-FDA0003863903420000031
求出的值与上式中的θ的值保持一致;
Figure RE-FDA0003863903420000032
步骤2.8、用以上方法求出的
Figure RE-FDA0003863903420000033
具有两个可能的值,因此使用
Figure RE-FDA0003863903420000034
作为参考,选择
Figure RE-FDA0003863903420000035
中最接近
Figure RE-FDA0003863903420000036
的值作为最终的
Figure RE-FDA0003863903420000037
步骤2.9、提取基于Hilbert变换的ENF瞬时频率fhil,对滤波后的ENF成分进行离散Hilbert变换;求解XENF[n]的解析函数
xENFC[n]=XENFC[n]+i*H{XENFC[n]} (9)
其中
Figure RE-FDA0003863903420000038
H代表Hilbert变换;瞬时频率f[n]是H{XENFC[n]}相角的变化率;
步骤2.10、估计ENF成分的损失频率f[n];瞬时频率f[n]是H{XENFC[n]}相角的变化率;
步骤2.11、用五阶椭圆IIR滤波器对得到的f[n]进行低通滤波,去除由于Hilebrt变换过程中的数值逼近而产生的震荡;滤波器中心频率为ENF标称频率,带宽为20HZ,通带波纹和阻带衰减为0.5HZ和64HZ;
步骤2.12、去除f[n]头尾各2000个采样点;减少频率估计的边界效应影响;
步骤2.13、得到最终的瞬时频率估计fhil
4.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,步骤3中,计算浅层特征的具体方法包括:
步骤3.1、将上文估算出的相位
Figure RE-FDA0003863903420000039
与瞬时频率fhil代入下式中得到反映ENF相位与瞬时频率突变的统计特征F123=[F1,F2,F3];
Figure RE-FDA00038639034200000310
其中
Figure RE-FDA00038639034200000311
2≤nb≤NBlock
Figure RE-FDA00038639034200000312
为相应第nb帧的估计相位,
Figure RE-FDA00038639034200000313
表示
Figure RE-FDA00038639034200000314
从nb=2到NBlock的平均值;len=length(XENFC[n]),f′(n)=f(n)-f(n-1),f(n)为第n个采样点的瞬时频率,mf′表示f′(n)从n=2到len的平均值。
5.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,步骤4中,获取相位特征矩阵Pn×n、频率特征矩阵Fm×m、拟合系数Pcoe,Fcoe的具体方法包括:
步骤4.1、获取待检测音频数据中的最长时长音频数据;
步骤4.2、对最长时长音频,DFT和Hilbert变换获取相位
Figure RE-FDA0003863903420000041
和瞬时频率fhil
步骤4.3、计算出最长的相位
Figure RE-FDA0003863903420000042
和频率长度len(fhil);
步骤4.4、计算帧长m和n,
Figure RE-FDA0003863903420000043
其中
Figure RE-FDA0003863903420000044
len(fhil),其中m为频率特征矩阵帧长,n为相位特征矩阵帧长;
步骤4.5、计算出所有音频数据的相位
Figure RE-FDA0003863903420000045
和瞬时频率fhil
步骤4.6、计算帧移并分帧;帧移为
Figure RE-FDA0003863903420000046
步骤4.7、将分帧后的相位和频率进行Reshape,得到特征矩阵Fm×m,Pn×n
步骤4.8、利用MATLAB中的拟合工具箱中Sum of Sines函数对相位与频率进行拟合,Sum of Sines函数个数为6个,得到相位频率拟合系数特征Pcoe,Fcoe=[a1,b1,c1,…,ai,bi,ci](0<i≤6);Sum of Sines函数如下
Figure RE-FDA0003863903420000047
6.根据权利要求1所述的一种基于电网频率深浅层特征融合的数字音频篡改被动检测方法,其特征在于,步骤5中,网络模型部分包括:
步骤5.1、通过相位特征矩阵Pn×n获取相位深层特征细节信息;用两个卷积块对相位特征矩阵Pn×n进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(两个卷积块的卷积核个数为32,64;卷积核大小为3×3,步长为1;Maxpooling层poolsize为3);最后一个池化层输出相位细节信息,并进行Flatten操作;
步骤5.2、通过相位拟合系数Pcoe获取相位深层特征全局信息;用两层全连接层拟合相位拟合系数,每层神经元个数为32,激活函数为Relu;
步骤5.3、将相位全局信息和局部信息Concat,获取相位深层特征;
步骤5.4、通过频率特征矩阵Fm×m获取频率深层特征细节信息;用三个卷积块对相位特征矩阵Fm×m进行特征提取,每个卷积块由两个相同的卷积层与一层池化层组成(三个卷积块的卷积核个数为32,64,128;卷积核大小为3×3,步长为1;Maxpooling层poolsize为3);最后一个池化层输出相位细节信息,并进行Flatten操作;
步骤5.5、通过频率拟合系数Fcoe获取频率深层特征全局信息;用两层全连接层拟合相位拟合系数,每层神经元个数为32,激活函数为Relu;
步骤5.6、将频率全局信息和局部信息Concat,获取频率深层特征;
步骤5.7、使用注意力机制对相位深层特征、频率深层特征和浅层特征进行融合;将深层相位特征、深层频率特征和浅层特征进行拼接得到长度为L的特征量;
步骤5.8将长度为L的特征量输入两层全连接层,其激活函数分别问Relu和Sigmoid,Relu激活函数可以增强网络的非线性,并通过Sigmoid激活函数来得到每个特征的权重;最后将得到的权重与拼接后的长度为L的特征量特征进行相乘,实现特征选择;
步骤5.9、将特征融合后的特征进行拟合并分类;采用两个全连接层对特征充分拟合(神经元数量分别为1024、256,激活函数为Relu);在两个全连接层之间添加Dropout层(Dropout rate=0.2),以防止过拟合;最后,通过全连接层(神经元数量为2,激活函数为Softmax)作为输出层;
步骤5.10、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
7.一种基于电网频率深浅层特征融合的数字音频篡改被动检测装置,采用权利要求1至6任意一项所述方法,其特征在于,包括
第一模块:对待检测音频数据进行处理得到电网频率(ENF)成分,并基于DFT1变换对ENF成分处理得到ENF相位
Figure RE-FDA0003863903420000051
Figure RE-FDA0003863903420000052
并基于Hilbert变换提取电网频率(ENF)成分的瞬时频率fhil
第二模块:提取ENF相位
Figure RE-FDA0003863903420000053
和频率fhil的变化的平均值特征作为浅层特征F123=[F1,F2,F3],并对ENF相位
Figure RE-FDA0003863903420000054
和fhil进行分帧处理获取相位特征矩阵Pn×n和频率特征矩阵Fm×m;进行曲线拟合获取拟合系数Pcoe,Fcoe
第三模块:利用神经网络从特征矩阵中获取ENF的局部细节信息,从拟合系数中获取电网频率全局信息补偿,局部信息和全局信息补偿共同构成深层特征,对深浅层特征进行融合后拟合分类。
CN202210449187.8A 2022-04-26 2022-04-26 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置 Pending CN115270906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210449187.8A CN115270906A (zh) 2022-04-26 2022-04-26 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210449187.8A CN115270906A (zh) 2022-04-26 2022-04-26 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

Publications (1)

Publication Number Publication Date
CN115270906A true CN115270906A (zh) 2022-11-01

Family

ID=83760203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210449187.8A Pending CN115270906A (zh) 2022-04-26 2022-04-26 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置

Country Status (1)

Country Link
CN (1) CN115270906A (zh)

Similar Documents

Publication Publication Date Title
CN110728360B (zh) 一种基于bp神经网络的微能源器件能量识别方法
CN111830408A (zh) 一种基于边缘计算和深度学习的电机故障诊断系统及方法
US7457749B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN109859771B (zh) 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN108009122B (zh) 一种改进的hht方法
CN113566948A (zh) 机器人化煤机故障音频识别及诊断方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN112562698B (zh) 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法
CN112446242A (zh) 声学场景分类方法、装置及相应设备
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
CN111476339A (zh) 滚动轴承故障特征提取方法、智能诊断方法及系统
CN114155876A (zh) 一种基于音频信号的交通流识别方法、装置及存储介质
CN116186593A (zh) 一种基于可分离卷积和注意力机制的心电信号检测方法
CN116935892A (zh) 一种基于音频关键特征动态聚合的工业阀门异常检测方法
CN115758082A (zh) 一种轨道交通变压器故障诊断方法
CN114065809A (zh) 一种乘用车异响识别方法、装置、电子设备以及存储介质
CN112507881A (zh) 一种基于时间卷积神经网络的sEMG信号分类方法及系统
CN115270906A (zh) 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置
CN116630728A (zh) 基于注意力残差孪生网络的加工精度预测方法
CN116758922A (zh) 一种用于变压器的声纹监测与诊断方法
CN110610203A (zh) 基于dwt和极限学习机的电能质量扰动分类方法
CN110599460A (zh) 基于混合卷积神经网络的地下管网检测评估云系统
CN114997210A (zh) 一种基于深度学习的机器异响识别检测方法
CN114722964A (zh) 基于电网频率空间和时序特征融合的数字音频篡改被动检测方法及装置
CN107437414A (zh) 基于嵌入式gpu系统的并行化游客识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination