CN107274915B - 一种基于特征融合的数字音频篡改自动检测方法 - Google Patents

一种基于特征融合的数字音频篡改自动检测方法 Download PDF

Info

Publication number
CN107274915B
CN107274915B CN201710643739.8A CN201710643739A CN107274915B CN 107274915 B CN107274915 B CN 107274915B CN 201710643739 A CN201710643739 A CN 201710643739A CN 107274915 B CN107274915 B CN 107274915B
Authority
CN
China
Prior art keywords
enf
signal
enfc
frequency
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710643739.8A
Other languages
English (en)
Other versions
CN107274915A (zh
Inventor
王志锋
左明章
闵秋莎
田元
陈迪
夏丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201710643739.8A priority Critical patent/CN107274915B/zh
Publication of CN107274915A publication Critical patent/CN107274915A/zh
Application granted granted Critical
Publication of CN107274915B publication Critical patent/CN107274915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于特征融合的数字音频篡改自动检测方法,首先对待测信号进行下采样;然后以电网频率(Electric Network Frequency,ENF)标准频率为中心进行带通滤波得到信号中的ENF成分;接着分别提取ENF成分基于DFT0的相位特征,DFT1的相位特征和基于Hilbert变换的瞬时频率特征;经过特征融合,得到特征集;最后使用优化的支持向量机分类器对特征集中的部分数据进行训练,得到训练模型;使用训练模型可以对待测语音信号进行预测。本发明使用ENF信号中具有代表性的相位和瞬时频率特征进行特征融合,并使用支持向量机进行分类,得到分类模型。该模型对于信号的插入和删除情况均可得到很好的检测效果,相较于传统的判别方法更加直观和简单。

Description

一种基于特征融合的数字音频篡改自动检测方法
技术领域
本发明涉及数字音频信号处理技术领域,特别涉及一种基于特征融合的数字音频篡改自动检测方法。
背景技术
数字音频信号相较于模拟音频信号有着易于传播、复制、存储等优点,但是这些优点在带给人们各种便利的同时也带来了不容忽视的问题。那就是篡改数字音频信号变得同样简单和快捷。数字音频的真实性和完整性受到来自各方面的威胁,且大多数的篡改操作是很难靠人的感官进行判别。数字音频取证技术就是用来验证数字音频信号的真实性和完整性的技术。数字音频被动取证是数字音频取证的一个重要分支,在司法取证、新闻公正和科学发现等领域有着广泛应用。
某一地区的电网频率(Electric Network Frequency,ENF)的波动在相当一段时间内具有稳定性和唯一性。电网频率的非周期性波动,对于接入同一电网的所有设备的影响是相同的,这就使得ENF信号可以作为时间戳来使用。当录音设备采用电网供电时,录制的音频文件中就会残留有ENF成分(ENF component,ENF),经过带通滤波可以提取出ENF。利用ENF的稳定性和唯一性进行数字音频被动取证一般有两个研究思路,第一是将提取出的ENF与供电部门的电网频率数据库中的数据进行比对,确定音频录制时间与所宣称的是否一致,建立和保存大范围的ENF信号数据库难度高、代价高,目前还没有实用价值比较高的ENF数据库;第二是提取ENF信号中的某些特征,进行一致性或者规律性分析。
Grigoras最早提出基于ENF的音频篡改检测算法,主要通过待检测音频中ENF的波动和参考年份的数据进行比对,从而判断音频是否被篡改过。接着Grigoras验证对音频信号加短时窗进行分析,可以与数据库进行更细致、精确的对比。提出建立一个ENF准则,以期可以显示不同信号的供电类型,建议将该准则和传统的检测方法共用,为研究者建立标准化的研究分析方法。Liu等提出一系列方法对ENF数据库中的信号进行进一步处理以方便在语音取证中的使用。Rodríguez等在Grigoras的研究基础上,提出不需要使用ENF标准数据库的方法,使用数字信号处理的方法估计ENF信号相位,将ENF相位变化的一致性作为特征来检测音频篡改,当特征值大小超过某一边界值即判断待测音频信号为篡改信号。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变,使用Hilbert变换计算瞬时频率,提出TPSW(Two-Pass Split-Window)方法估计ENF背景变化水平,实际瞬时频率变化范围超过背景变化水平的部分的峰值点即为篡改点。
可以看出目前基于ENF进行数字音频被动篡改检测的研究存在一些问题:1)没有权威的ENF对比数据库。使用待测信号中的ENF成分与ENF数据库中进行对比来判断语音信号是否经过篡改没有可靠的结果2)部分检测方法是人从直观视觉上判断语音信号是否经过篡改,不能实现自动化。3)目前大多数的检测方法比较简略,没有囊括更多实际检测情况,不能达到数字音频被动检测的要求。
发明内容
本发明的目的在于提出一种基于特征融合的数字音频篡改自动检测方法。该方法通过融合信号中的ENF成分基于DFT0的相位特征、基于DFT1的相位特征和基于Hilbert变换的瞬时频率特征,来分辨原始信号和编辑信号,实现了数字音频插入、删除操作的自动检测。该方法通过融合ENF成分中具有代表性的相位和瞬时频率特征,并使用支持向量机进行分类,得到可以进行自动检测模型,提高了检测效率,实现了数字音频篡改检测的自动化。
本发明所采用的技术方案是:一种基于特征融合的数字音频篡改自动检测方法,包括以下步骤:
步骤1,对待测信号进行预处理,获得待测信号中的ENF成分;
步骤2,对待测信号中的ENF成分进行特征提取,包括以下子步骤,
步骤2.1,对ENF成分进行基于DFT0的相位估计,提取相位波动特征F1;
步骤2.2,对ENF成分进行基于DFT1的相位估计,提取相位波动特征F2;
步骤2.3,对ENF成分进行基于Hilbert的瞬时频率估计,提取相位波动特征F3;
步骤3,对提取出的特征进行特征融合,得到特征集,将特征集进行归一化处理;
步骤4,利用优化的支持向量机对特征集进行分类,得到分类准确率。
进一步的所述步骤1的实现方式如下,
步骤1.1,将待测音频信号读入计算机得到离散的时间序列x[n],其中
Figure GDA0002535970170000021
i∈N,fs是待测信号采样频率,i代表连续时间序列,N代表离散时间序列;对x[n]进行预处理,包括下采样、去直流分量,得到xd[n],设下采样频率fd为1000HZ或者1200HZ;
步骤1.2,将步骤1.1中得到的xd[n]进行零填充,通过中心频率在ENF标准频率处的带通滤波器,得到待测信号中的ENF成分xENFC[n]。
进一步的,所述步骤2.1的实现方式如下,
首先,对xENFC[n]进行相位估计:对xENFC[n]信号进行分帧、加窗,分帧的长度是Nc个标准ENF频率周期,帧移为一个标准ENF周期长度;应用一个平滑窗w(n),得到加窗后的信号为xN[n]=xENFC[n]w(n);对xN[n]每帧进行N点的DFT变换,得到xENFC[n]每帧加窗后的频域分布X(k);对每帧信号进行DFT变换后,令kpeak作为每帧的|X(k)|最大值的整数索引,则每帧ENF信号的估计频率为
Figure GDA0002535970170000031
其中NDFT是DFT变换的点数,fd是下采样频率,得到ENF信号的相位序列
Figure GDA0002535970170000032
然后,使用特征量F1对基于DFT0得到的ENF相位变化进行描述:设
Figure GDA0002535970170000033
为相应第nb帧的估计相位,
Figure GDA0002535970170000034
Figure GDA0002535970170000035
表示第nb帧|X(k)|对应最大值的整数索引,令
Figure GDA0002535970170000036
设共有NBlock帧,则相位波动特征F1的计算公式为,
Figure GDA0002535970170000037
其中,2≤nb≤NBlock
Figure GDA0002535970170000038
表示
Figure GDA0002535970170000039
从nb=2到NBlock的平均值。
进一步的,所述步骤2.2的实现方式如下,
首先,对xENFC[n]进行相位估计:计算ENF信号xENFC[n]在点n处的近似一阶导数,x′ENFC[n]=fd(xENFC[n]-xENFC[n-1]);
对一阶导数信号加窗,x′N[n]=x′ENFC[n]w(n);对每帧x′N[n]进行N点的DFT变换,得到每帧加窗后的频域分布X′(k),找到|X′(k)|的峰值所在整数索引k'peak,将|X′(k)|乘以一个尺度系数F(k),其中
Figure GDA00025359701700000310
这样可以得到,
DFT0[k]=|X(k)|和DFT1[k]=F(k)|X′(k)|;
则每帧ENF信号的估计频率值为
Figure GDA00025359701700000311
得到ENF信号的相位序列
Figure GDA0002535970170000041
其中角频率ω0的估计为
Figure GDA0002535970170000042
相位θ的估计为
Figure GDA0002535970170000043
其中
Figure GDA0002535970170000044
Figure GDA0002535970170000045
的索引值(其估计为
Figure GDA0002535970170000046
),klow
Figure GDA0002535970170000047
对应的下整数索引,klow
Figure GDA0002535970170000048
对应的上整数索引,klow和khigh分别定义为
Figure GDA0002535970170000049
floor[a]代表小于a的最大整数,ceil[b]代表大于b的最小整数,klow对应的相位估计θlow定义为θlow=arg[X′(klow)],khigh对应的相位估计θhigh定义为θhigh=arg[X′(khigh)]。
然后,使用特征量F2对基于DFT1得到的ENF相位变化进行描述:设
Figure GDA00025359701700000410
为相应第nb帧的估计相位,
Figure GDA00025359701700000411
Figure GDA00025359701700000412
表示第nb帧|X′(k)|对应最大值的整数索引,令
Figure GDA00025359701700000413
设共有NBlock帧,则相位波动特征F2的计算公式为,
Figure GDA00025359701700000414
其中,2≤nb≤NBlock
Figure GDA00025359701700000415
表示
Figure GDA00025359701700000416
从nb=2到NBlock的平均值。
进一步的,所述步骤2.3的实现方式如下,
首先,对信号xENFC[n]进行离散Hilbert变换,估计ENF信号的瞬时频率f[n]:先利用离散Hilbert变换得到xENFC[n]的解析函数x(a) ENFC[x]=xENFC[x]+i*Η{xENFC[x]},其中
Figure GDA00025359701700000417
Η代表Hilbert变换算子,瞬时频率是Η{xENFC[n]}相角的变化率,设为f[n],使用五阶椭圆滤波器IIR滤波器对f[n]进行低通滤波去除寄生振荡,同时去掉f[n]头尾各2000采样点,最后得到的
Figure GDA00025359701700000418
即为ENF的瞬时频率估计;
然后,使用特征量F3对ENF的瞬时频率波动进行描述:令len为xENFC[n]的长度,len=length(xENFC[n]),
Figure GDA00025359701700000419
为第n个采样点的瞬时频率,
Figure GDA00025359701700000420
其中2≤n≤len,则相位波动特征F3的计算公式为,
Figure GDA00025359701700000421
其中,
Figure GDA0002535970170000051
表示
Figure GDA0002535970170000052
从n=2到len的平均值。
进一步的,步骤4中通过交叉验证和网格搜索法选择优化的支持向量机参数,包括惩罚因子c和径向基函数参数g;
其中交叉验证和网格搜索法结合获得支持向量机参数的基本步骤是:首先输入c值的可能区间[c min,c max]和步进cstep,g值的可能区间[g min,g max]和步进gstep,并令最优的c值等于c min,最优的g值等于g min,最好预测准确率为零;接着使c值在[c min,c max]区间内以cstep为步进进行循环;在c值的循环内部,使g值在区间[g min,g max]内以gstep为步进进行循环;在g值循环内部,对每一组(c,g)进行支持向量机十折交叉验证,若所得最优分类准确率大于预测准确率,则更新最优c值、g值和最优分类准确率;直到c值收敛,算法结束。
与现有技术相比,本发明的优点和有益效果:
(1)本发明融合了ENF信号中对信号截断敏感的相位和瞬时频率特征,提高了数字音频被动篡改检测的准确率;
(2)本发明提出基于ENF成分一致性的数字音频被动篡改检测的一般框架和ENF特征提取的一般框架,可以应用到其他基于ENF信号的篡改检测方法中;
(3)本发明针对复杂环境录音和含噪语音稳定性高,具有很强的鲁棒性。
(4)本发明为数字音频被动篡改检测的准确性和自动化提出了一种广泛性的算法。
附图说明
图1是本发明实施例的流程图;
图2是本发明实施例的DFT0相位特征提取流程图;
图3是本发明实施例的DFT1相位特征提取流程图;
图4是本发明实施例的Hilbert变换瞬时频率特征提取流程图;
图5是本发明实施例的SVM参数优化流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于特征融合的数字音频篡改自动检测方法,包括以下步骤:
步骤1:对待测信号进行预处理,获得待测信号中的ENF成分;
具体实施包括以下子步骤:
步骤1.1:将待测音频信号读入计算机得到离散的时间序列x[n](
Figure GDA0002535970170000061
fs是待测信号采样频率,i代表连续时间序列,N代表离散时间序列),对x[n]进行预处理,包括下采样、去直流分量,得到xd[n];
本实施例中考虑到频率混叠效应、信号信息损失和信号的信噪比(过采样可以提高信号的信噪比)的平衡,将信号的下采样频率fd定为1000HZ或者1200HZ,将标准的ENF频率放在ω0=π/10rad/sample。
步骤1.2:将步骤1.1中经过下采样的信号xd[n]进行零填充,通过中心频率在ENF标准频率处的带通滤波器,得到信号中的ENF成分xENFC[n];
使用10000阶的线性零相位FIR滤波器进行窄带滤波防止相位延时。中心频率在ENF标准频率处,带宽为0.6HZ,通带波纹为0.5dB,阻带衰减为100dB。使用高阶滤波器是为了得到理想的窄带信号。零填充(zero padding)是指在时域信号的末端加上零点以增加信号长度的做法,在DFT之前使用零填充可以提高频率分辨率,帮助更加准确地找到频谱上的峰值点。
步骤2:对待测信号中的ENF成分进行特征提取;
具体实现包括以下子步骤:
步骤A1:对xENFC[n]进行基于DFT0的相位估计,提取相位波动特征F1;
如图2,本实施例中基于DFT0对xENFC[n]相位进行估计。对滤波后的xENFC[n]进行相位估计,首先对xENFC[n]信号进行分帧、加窗,分帧的长度是Nc个标准ENF频率周期,帧移为一个标准ENF周期长度。应用一个平滑窗w(n),得到加窗后的信号为xN[n]=xENFC[n]w(n),对xN[n]每帧进行N点的DFT变换(NDFT,DFT点数大于ENF信号的长度),得到xENFC[n]每帧加窗后的频域分布X(k)。对每帧信号进行DFT变换后,令kpeak作为每帧|X(k)|最大值的整数索引。所以每帧ENF信号的估计频率为
Figure GDA0002535970170000062
(NDFT是DFT变换的点数,fd是下采样频率),得到ENF信号的相位序列
Figure GDA0002535970170000071
使用特征量F1对基于DFT0得到的ENF相位变化进行描述。令
Figure GDA0002535970170000072
为相应第nb帧的估计相位,
Figure GDA0002535970170000073
Figure GDA0002535970170000074
表示第nb帧|X(k)|对应最大值的整数索引
Figure GDA0002535970170000075
设共有NBlock帧,则有2≤nb≤NBlock
Figure GDA0002535970170000076
表示
Figure GDA0002535970170000077
从nb=2到NBlock的平均值,下式则为相位波动特征F1的计算公式:
Figure GDA0002535970170000078
步骤A2:对xENFC[n]进行基于DFT1的相位估计,提取相位波动特征F2;
如图3,本实施例中基于DFT1对xENFC[n]相位进行估计。计算ENF信号xENFC[n]在点n处的近似一阶导数:
x′ENFC[n]=fd(xENFC[n]-xENFC[n-1])
对一阶导数信号加窗:x′N[n]=x′ENFC[n]w(n)。对每帧x′N[n]进行N点的DFT变换,得到每帧加窗后的频域分布X′(k)。同样找到|X′(k)|的峰值所在整数索引k'peak(此处的k'peak与前面的kpeak不一定相同)。将|X′(k)|乘以一个尺度系数F(k),
Figure GDA0002535970170000079
这样可以得到,
DFT0[k]=|X(k)|和DFT1[k]=F(k)|X′(k)|
估计频率值为
Figure GDA00025359701700000710
(分子中的k'peak和分母中的kpeak是各自的峰值点)。理想的情况下基于DFT0得到的kpeak和DFT1得到的k'peak应该是相等的,且k'peak应该是最接近
Figure GDA00025359701700000712
NDFT/fd的整数,这样
Figure GDA00025359701700000711
才是一个合理的频率值(valid solution)。为了得到一个合理的频率,需要满足以下式子:
Figure GDA0002535970170000081
如果定义
Figure GDA0002535970170000082
验证条件也可以写作:
Figure GDA0002535970170000083
下面使用DFT1方法来估计ENF信号的相位。考虑一个单频信号的模型stone(n)=a(n)cos(ω0n+φ0),n指离散时间变量,ω0是信号的角频率。信号的相位等于φ(n)=ω0n+φ0,φ0是信号的初相。对于这个值的估计将限制在-π到π之间,φ(n)×n的图形将是一个锯齿状曲线(包裹相位wrapped phase)。这个模型是一个窄带信号,如果a(n)是一个常数,stone(n)将是一个窄带信号。在实践中,假定a(n)随着时间缓慢发展,因此可以认为a(n)在短时间或一帧内是个近似常量a。这个模型不包含任何随机部分或者宽带成分,因此可以应用到本发明的目标问题上。下采样信号经过带通滤波留下一个窄带信号,大部分在ENF标准值以外的频率成分被过滤掉。因此每帧ENF信号可以写成:xENFC[n]=a cos(ω0n+φ0),其中ω0=2πfENFC/fd,而fENFC是ENF是实际频率。依据前面计算一阶导数的公式x′ENFC[n]=fs(xENFC[n]-xENFC[n-1])可得:
Figure GDA0002535970170000084
另外一个余弦信号的一阶导数实际上是另一个具有相同频率的正弦信号,上述公式可以表示为:
Figure GDA0002535970170000085
C是一个常数,θ是x′ENFC的相位。比较上述两个式子可以得出:
C cos(θ)=cos(φ0)-cos(φ0-ω)
C sin(θ)=sin(φ0)-sin(φ0-ω)
由上等式可以推导出:
Figure GDA0002535970170000091
上下同除以cos(φ0),可以得到:
Figure GDA0002535970170000092
φ0代表xENFC的初始相位,可以使用DFT1方法估计出相位序列,即为:
Figure GDA0002535970170000093
其中
Figure GDA0002535970170000094
对于θ的值,我们对X′(k)进行线性插值,令klow和khigh定义为
Figure GDA0002535970170000095
floor[a]代表小于a的最大整数,ceil[b]代表大于b的最小整数。
Figure GDA0002535970170000096
在(klowlow=arg[X′(klow)])和(khighhigh=arg[X′(khigh)])进行线性插值可以逼近点
Figure GDA0002535970170000097
求出的值与上式中θ的值保持一致:
Figure GDA0002535970170000098
对于上述
Figure GDA0002535970170000099
他具有两个可能的值,如果
Figure GDA00025359701700000910
是一个正值,
Figure GDA00025359701700000911
可能在一个二维笛卡尔坐标系的第一或者第三象限,如果是个负值,
Figure GDA00025359701700000912
可能在第二或者第四象限。可以使用
Figure GDA00025359701700000913
作为一个参考,选择
Figure GDA00025359701700000914
中最接近
Figure GDA00025359701700000915
的值。
同样使用步骤A1中的方法计算出基于DFT1估计相位的波动特征。
使用特征量F2对基于DFT1得到的ENF相位变化进行描述。令
Figure GDA00025359701700000916
为相应第nb帧的估计相位,
Figure GDA00025359701700000917
Figure GDA00025359701700000918
表示第nb帧|X′(k)|对应最大值的整数索引,
Figure GDA00025359701700000919
设共有NBlock帧,则有2≤nb≤NBlock
Figure GDA00025359701700000920
表示
Figure GDA00025359701700000921
从nb=2到NBlock的平均值,下式则为相位波动特征F2的计算公式:
Figure GDA0002535970170000101
步骤A3:对xENFC[n]进行基于Hilbert的瞬时频率估计,提取相位波动特征F3;
对信号xENFC[n]进行离散Hilbert变换。首先得到xENFC[n]的解析函数:
x(a) ENFC[x]=xENFC[x]+i*Η{xENFC[x]},其中
Figure GDA0002535970170000102
Η代表Hilbert变换算子。Hilbert变换用于计算时域序列的瞬时属性是非常有用的,特别是振幅和频率,瞬时振幅是Η{xENFC[n]}(即解析函数的虚部)的振幅,瞬时频率是Η{xENFC[n]}相角的变化率。估计ENF信号的瞬时频率f[n]。在使用Hilbert变换的过程中由于有数值逼近,所以得到的f[n]存在一定的寄生振荡,需要进一步对f[n]进行低通滤波,去除振荡。使用五阶椭圆滤波器IIR滤波器。中心频率在ENF标准频率处,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ。由于频率估计的边界效应,去掉f[n]头尾各2000采样点,最后所得
Figure GDA0002535970170000103
即为ENF的瞬时频率估计。
计算特征量F3对ENF的瞬时频率波动进行描述。令len为xENFC[n]的长度,len=length(xENFC[n])。
Figure GDA0002535970170000104
为第n个采样点的瞬时频率,
Figure GDA0002535970170000105
其中2≤n≤len,
Figure GDA0002535970170000106
表示
Figure GDA0002535970170000107
从n=2到len的平均值,下式则为相位波动特征F3的计算公式:
Figure GDA0002535970170000108
步骤3:对提取出的特征进行特征融合,得到特征集,将特征集进行归一化处理;
将步骤2中得到的3个特征进行特征融合,得到特征集。将特征集进行归一化处理,对特征集中的特征向量进行标记,分为原始信号和编辑信号。
步骤4:使用本发明优化支持向量机方法对特征集进行分类,得到分类准确率。
本发明实施例使用交叉验证和网格搜索法选择最佳支持向量机参数,包括惩罚因子c和径向基函数参数g,使用优化的支持向量机对特征集进行分类;
交叉验证是指将数据集平均分为k份,每次将其中k-1份数据作为训练数据,而另外一份数据作为测试数据。这样重复k次,根据k次迭代的平均值估计分类准确度。网格搜索是来确定两个参数即惩罚因子c与径向基函数参数g,基于网格法将c∈[c min,c max],变化步长为cstep,而g∈[g min,g max],变化步长为gstep。这样,针对每对参数(c,g)进行训练,取效果最好的一对参数作为模型参数。
交叉验证和网格搜索法结合获得支持向量机参数的基本步骤是:首先输入c值的可能区间[c min,c max]和步进cstep,g值的可能区间[c min,c max]和步进gstep。并令最优的c值等于c min,最优的g值等于g min,预测准确率为零;接着使c值在[c min,c max]区间内以cstep为步进进行循环;在c值的循环内部,使g值在区间[g min,g max]内以gstep为步进进行循环;在g值循环内部,对每一组(c,g)进行支持向量机十折交叉验证,若所得最优分类准确率大预测准确率,则更新最优c值、g值和最优分类准确率;算法直到c值收敛循环结束,算法结束。算法流程图如图5所示,其中bestc是最优的c值,bestg是最优的g值,acc是预测准确率,bestacc是最优分类准确率。
本发明的实验结果,与进行特征融合之前的单个特征得到的实验结果进行对比,所得到的结果如下表1所示:
表1本发明实施例的融合特征与单个特征或者组合特征的检测结果对比表
Figure GDA0002535970170000111
本发明的实验结果,使用多个分类器与本发明所使用的优化SVM进行对比,所得实验结果如下表2所示:
表2本发明实施例的优化SVM分类器与其他分类器检测结果对比表
Figure GDA0002535970170000112
本发明的实验结果,从表1、2中可以看出,本方法所选用的特征和优化分类器可以达到更好的识别率。且本方法的实验数据来自于三个不同的数据库,因此可以认为本方法在大多数录音条件下都具有较好的检测效果。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于特征融合的数字音频篡改自动检测方法,其特征在于,包括如下步骤:
步骤1,对待测信号进行预处理,获得待测信号中的ENF成分;
步骤2,对待测信号中的ENF成分进行特征提取,包括以下子步骤,
步骤2.1,对ENF成分进行基于DFT0的相位估计,提取相位波动特征F1;
步骤2.2,对ENF成分进行基于DFT1的相位估计,提取相位波动特征F2;
步骤2.3,对ENF成分进行基于Hilbert的瞬时频率估计,提取相位波动特征F3;
步骤3,对提取出的特征进行特征融合,得到特征集,将特征集进行归一化处理;
步骤4,利用优化的支持向量机对特征集进行分类,得到分类准确率。
2.如权利要求1所述的一种基于特征融合的数字音频篡改自动检测方法,其特征在于:所述步骤1的实现方式如下,
步骤1.1,将待测音频信号读入计算机得到离散的时间序列x[n],其中
Figure FDA0002535970160000011
fs是待测信号采样频率,i代表连续时间序列,N代表离散时间序列;对x[n]进行预处理,包括下采样、去直流分量,得到xd[n],设下采样频率fd为1000HZ或者1200HZ;
步骤1.2,将步骤1.1中得到的xd[n]进行零填充,通过中心频率在ENF标准频率处的带通滤波器,得到待测信号中的ENF成分xENFC[n]。
3.如权利要求2所述的一种基于特征融合的数字音频篡改自动检测方法,其特征在于:所述步骤2.1的实现方式如下,
首先,对xENFC[n]进行相位估计:对xENFC[n]信号进行分帧、加窗,分帧的长度是Nc个标准ENF频率周期,帧移为一个标准ENF周期长度;应用一个平滑窗w(n),得到加窗后的信号为xN[n]=xENFC[n]w(n);对xN[n]每帧进行N点的DFT变换,得到xENFC[n]每帧加窗后的频域分布X(k);对每帧信号进行DFT变换后,令kpeak作为每帧的|X(k)|最大值的整数索引,则每帧ENF信号的估计频率为
Figure FDA0002535970160000012
其中NDFT是DFT变换的点数,fd是下采样频率,得到ENF信号的相位序列
Figure FDA0002535970160000013
然后,使用特征量F1对基于DFT0得到的ENF相位变化进行描述:设
Figure FDA0002535970160000021
为相应第nb帧的估计相位,
Figure FDA0002535970160000022
Figure FDA0002535970160000023
表示第nb帧|X(k)|对应最大值的整数索引,令
Figure FDA0002535970160000024
设共有NBlock帧,则相位波动特征F1的计算公式为,
Figure FDA0002535970160000025
其中,2≤nb≤NBlock
Figure FDA0002535970160000026
表示
Figure FDA0002535970160000027
从nb=2到NBlock的平均值。
4.如权利要求3所述的一种基于特征融合的数字音频篡改自动检测方法,其特征在于:所述步骤2.2的实现方式如下,
首先,对xENFC[n]进行相位估计:计算ENF信号xENFC[n]在点n处的近似一阶导数,
x′ENFC[n]=fd(xENFC[n]-xENFC[n-1]);
对一阶导数信号加窗,x′N[n]=x′ENFC[n]w(n);对每帧x′N[n]进行N点的DFT变换,得到每帧加窗后的频域分布X′(k),找到|X′(k)|的峰值所在整数索引k'peak,将|X′(k)|乘以一个尺度系数F(k),其中
Figure FDA0002535970160000028
这样可以得到,
DFT0[k]=|X(k)|和DFT1[k]=F(k)|X′(k)|;
则每帧ENF信号的估计频率值为
Figure FDA0002535970160000029
得到ENF信号的相位序列
Figure FDA00025359701600000210
其中
Figure FDA00025359701600000211
klow和khigh分别定义为
Figure FDA00025359701600000212
floor[a]代表小于a的最大整数,ceil[b]代表大于b的最小整数,θlow=arg[X′(klow)],θhigh=arg[X′(khigh)];
然后,使用特征量F2对基于DFT1得到的ENF相位变化进行描述:设
Figure FDA00025359701600000213
为相应第nb帧的估计相位,
Figure FDA00025359701600000214
Figure FDA00025359701600000215
表示第nb帧|X′(k)|对应最大值的整数索引,令
Figure FDA0002535970160000031
设共有NBlock帧,则相位波动特征F2的计算公式为,
Figure FDA0002535970160000032
其中,2≤nb≤NBlock
Figure FDA0002535970160000033
表示
Figure FDA0002535970160000034
从nb=2到NBlock的平均值。
5.如权利要求4所述的一种基于特征融合的数字音频篡改自动检测方法,其特征在于:所述步骤2.3的实现方式如下,
首先,对信号xENFC[n]进行离散Hilbert变换,估计ENF信号的瞬时频率f[n]:先利用离散Hilbert变换得到xENFC[n]的解析函数x(a) ENFC[x]=xENFC[x]+i*Η{xENFC[x]},其中
Figure FDA0002535970160000035
Η代表Hilbert变换算子,瞬时频率是Η{xENFC[n]}相角的变化率,设为f[n],使用五阶椭圆滤波器IIR滤波器对f[n]进行低通滤波去除寄生振荡,同时去掉f[n]头尾各2000采样点,最后得到的
Figure FDA0002535970160000036
即为ENF的瞬时频率估计;
然后,使用特征量F3对ENF的瞬时频率波动进行描述:令len为xENFC[n]的长度,len=length(xENFC[n]),
Figure FDA0002535970160000037
为第n个采样点的瞬时频率,
Figure FDA0002535970160000038
其中2≤n≤len,则相位波动特征F3的计算公式为,
Figure FDA0002535970160000039
其中,
Figure FDA00025359701600000310
表示
Figure FDA00025359701600000311
从n=2到len的平均值。
6.如权利要求1所述的一种基于特征融合的数字音频篡改自动检测方法,其特征在于:步骤4中通过交叉验证和网格搜索法选择优化的支持向量机参数,包括惩罚因子c和径向基函数参数g;
其中交叉验证和网格搜索法结合获得支持向量机参数的基本步骤是:首先输入c值的可能区间[cmin,cmax]和步进cstep,g值的可能区间[gmin,gmax]和步进gstep,并令最优的c值等于cmin,最优的g值等于gmin,最好预测准确率为零;接着使c值在[cmin,cmax]区间内以cstep为步进进行循环;在c值的循环内部,使g值在区间[gmin,gmax]内以gstep为步进进行循环;在g值循环内部,对每一组(c,g)进行支持向量机十折交叉验证,若所得最优分类准确率大于预测准确率,则更新最优c值、g值和最优分类准确率;直到c值收敛,算法结束。
CN201710643739.8A 2017-07-31 2017-07-31 一种基于特征融合的数字音频篡改自动检测方法 Active CN107274915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710643739.8A CN107274915B (zh) 2017-07-31 2017-07-31 一种基于特征融合的数字音频篡改自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710643739.8A CN107274915B (zh) 2017-07-31 2017-07-31 一种基于特征融合的数字音频篡改自动检测方法

Publications (2)

Publication Number Publication Date
CN107274915A CN107274915A (zh) 2017-10-20
CN107274915B true CN107274915B (zh) 2020-08-07

Family

ID=60075545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710643739.8A Active CN107274915B (zh) 2017-07-31 2017-07-31 一种基于特征融合的数字音频篡改自动检测方法

Country Status (1)

Country Link
CN (1) CN107274915B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806718B (zh) * 2018-06-06 2020-07-21 华中师范大学 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN108766465B (zh) * 2018-06-06 2020-07-28 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN108766464B (zh) * 2018-06-06 2021-01-26 华中师范大学 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN108956160B (zh) * 2018-08-10 2020-05-05 延锋伟世通电子科技(上海)有限公司 车载娱乐设备警示音参数测量方法、系统、装置及计算机可读存储介质
CN110853668B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于多种特征融合的语音篡改检测方法
CN112151067B (zh) * 2020-09-27 2023-05-02 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN111932544A (zh) * 2020-10-19 2020-11-13 鹏城实验室 篡改图像检测方法、装置及计算机可读存储介质
CN113178199B (zh) 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法
CN113808603B (zh) * 2021-09-29 2023-07-07 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592588A (zh) * 2012-01-10 2012-07-18 清华大学 数字录音完整性检测方法
CN103744978A (zh) * 2014-01-14 2014-04-23 清华大学 一种基于网格搜索技术用于支持向量机的参数寻优方法
CN203799644U (zh) * 2014-04-10 2014-08-27 南京工程学院 一种基于电网频率数据库的音频取证装置
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592588A (zh) * 2012-01-10 2012-07-18 清华大学 数字录音完整性检测方法
CN103744978A (zh) * 2014-01-14 2014-04-23 清华大学 一种基于网格搜索技术用于支持向量机的参数寻优方法
CN203799644U (zh) * 2014-04-10 2014-08-27 南京工程学院 一种基于电网频率数据库的音频取证装置
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Audio Authenticity: Detecting ENF Discontinuity With High Precision Phase Analysis;Daniel Patricio Nicolalde Rodriguez等;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20100930;第Ⅳ节、第Ⅵ节、图1-4 *
ESPRIT-Hilbert-Based Audio Tampering Detection With SVM Classifier for Forensic Analysis via Electrical Network Frequency;Paulo Max Gil Innocencio Reis等;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20170430;第Ⅳ节第A小节、图3、表1 *

Also Published As

Publication number Publication date
CN107274915A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107274915B (zh) 一种基于特征融合的数字音频篡改自动检测方法
CN104268883B (zh) 一种基于边缘检测的时频谱曲线提取方法
Wang et al. Digital audio tampering detection based on ENF consistency
CN108806718B (zh) 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN104221079B (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN106548786B (zh) 一种音频数据的检测方法及系统
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
CN117116290B (zh) 基于多维特征的数控机床部件缺陷定位方法和相关设备
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
CN112786057B (zh) 一种声纹识别方法、装置、电子设备及存储介质
JP4964259B2 (ja) パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
CN117727313B (zh) 用于野外鸟类声音数据的智能降噪方法
CN118376839B (zh) 基于dbscan算法的新增峰值点频率定位方法、装置及设备
CN116706876A (zh) 一种双高电力系统宽频振荡识别方法、装置及设备
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN109377982A (zh) 一种有效语音获取方法
Chu et al. A noise-robust FFT-based auditory spectrum with application in audio classification
CN110310660B (zh) 一种基于语谱图的语音重采样检测方法
CN114722964B (zh) 基于电网频率空间和时序特征融合的数字音频篡改被动检测方法及装置
CN112394402A (zh) 基于同步挤压小波变换检测微地震信号的方法和系统
CN115270906A (zh) 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置
CN111192569B (zh) 双麦语音特征提取方法、装置、计算机设备和存储介质
CN113990297A (zh) 一种基于enf的音频篡改识别方法
CN102184015A (zh) 一种基于阈值分析的脑电信号快速分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant