CN112151067B - 一种基于卷积神经网络的数字音频篡改被动检测方法 - Google Patents
一种基于卷积神经网络的数字音频篡改被动检测方法 Download PDFInfo
- Publication number
- CN112151067B CN112151067B CN202011034201.5A CN202011034201A CN112151067B CN 112151067 B CN112151067 B CN 112151067B CN 202011034201 A CN202011034201 A CN 202011034201A CN 112151067 B CN112151067 B CN 112151067B
- Authority
- CN
- China
- Prior art keywords
- enf
- phase
- frequency
- voice
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 210000002569 neuron Anatomy 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 239000011148 porous material Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000002156 mixing Methods 0.000 claims description 2
- 230000010355 oscillation Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000037433 frameshift Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于数字音频篡改检测技术领域,特别指一种基于卷积神经网络的数字音频篡改被动检测方法。本法发明提出对ENF波动超矢量特征采用卷积神经网络CNN与注意力机制Attention来进行分类。卷积神经网络可以更好的学习原始音频与篡改音频的差异性。注意力机制从CNN输出的大量特征中筛选出重要信息,减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能,优化了系统结构,提高了相应设备源识别产品的竞争力。
Description
技术领域
本发明属于数字音频篡改检测技术领域,特别指一种基于卷积神经网络的数字音频篡改被动检测方法。
背景技术
随着数字音频技术的飞速进步,人们能够很方便地采集到数字音频信号,但同时也可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的数字音频应用到司法取证等重要场合,将很有可能引发一些不良的社会问题,因此,对数字音频篡改检测的研究有着非常重要的意义。
数字音频篡改被动检测是无需添加任何信息,仅靠音频自身特征来对数字音频的真实性和完整性进行分析判别的技术,对于复杂的取证环境具有现实意义。当录音设备采用电网供电时,录制的音频文件中残留有电网频率(Electirc Network Frequency,ENF)信号。当数字音频被篡改时这种ENF信号也会随着篡改操作发生变化,于是利用ENF信号的唯一性与稳定性进行音频篡改被动检测有了两种研究思路,第一是将音频中提取出的ENF信号与供电部门的ENF数据库进行对比,这种方法实现难度高,代价大;第二是提取ENF信号中的某些特征,进行一致性与规律性分析。目前利用ENF信号进行音频篡改取证的研究方法主要是利用传统机器学习方法对ENF信号的相位变化、相位的不连续性、瞬时频率突变等特征进行分类,从而达到篡改检测的目的,。
目前存在的数字音频检测方法中,大多是对相应特征设置阈值门限进行检测或采用机器学习方法进行分类。这些方法往往存在经验成分过多或是对于某一种篡改方法针对性太强和识别率不够的问题。
近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经网络(Deep Neural Network,DNN)被应用到音频篡改检测领域中。在深度神经网络中可以DNN深层次的非线性变换更好的拟合音频篡改的特征,实现自动学习与检测,具有识别率高的优点。因此,本发明采用卷积神经网络对ENF高斯均值超矢量进行训练,利用较少的计算量充分学习其中的隐含信息,然后使用注意力机制Attention的方法自动学习卷积神经网络中输出的信息的权重,确定其中对数字音频篡改检测有用的信息,减小冗杂信息,提升数字音频篡改检测系统的性能。
发明内容
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,包括
步骤1、对原始语音信号进行处理得到电网频率(ENF)成分;
步骤2、根据步骤1得到的ENF成分,提取基于DFT1的相位谱拟合特征参数Pcoe与相位波动特征F1,基于Hilbert变换的频率谱拟合特征参数Fcoe,获得组合特征X=[Fcoe,Pcoe,F1];
步骤3、使用步骤2中的组合特征X训练通用背景模型(UBM),对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征X,对UBM模型参数通过自适应MAP来更新模型参数;得到待训练语音的均值矩阵作为ENF高斯均值超矢量;
步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练,使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征,使用sofmax层进行篡改检测。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分;具体包括:
步骤1.1、下采样:在保证提取ENF精度的同时,有效减少计算量;将信号重采样频率定为1000HZ或者1200HZ;
步骤1.2、窄带滤波:为了防止相位延时得到理想的窄带信号,使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准(50HZ或60HZ)处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤2中,提取特征的具体方法包括:
步骤2.1、计算ENF信号XENFC[n]在点n处的近似一阶导数
x′ENFC[n]=fd(XENFC[n]-XENFC[n-1]) (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值;
x′N[n]=x′ENFC[n]w(n) (2)
其中DFT0[kpeak]=X(kpeak),DFT1[kpeak]=F(kpeak)|X′(kpeak)|,F(kpeak)是一个尺度系数;
其中NDFT表示离散傅里叶变换点数,k为峰值点索引;
步骤2.8、对信号XENFC[n]进行离散Hilbert变换;首先得到XENFC[n]的解析函数
x(a) ENFC[n]=XENFC[n]+i*H{XENFC[n]} (7)
步骤2.9、对步骤2.8中的f[n]进行低通滤波,去除震荡;使用五阶椭圆滤波器IIR滤波器;中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ;由于频率估计的边界效应,去掉f[n]头尾各大约1s,最后得到ENF成分的瞬时频率估计fhil;
步骤2.10、对步骤2.4中得到的相位特征和步骤2.7中得到的瞬时频率特征fhil进行曲线拟合,提取相位谱拟合特征Fp[a1,b1,c1,…,ai,bi,ci](0<i≤5),频率谱拟合特征Ff[a1,b1,c1,…,ai,bi,ci](0<i≤5);
用Sum of Sines来拟合相位特征,其形式为:
用Gaussian来拟合瞬时频率特征,其形式为:
其中a是峰值幅度,b是峰值所在位置,c与峰的旁瓣有关,n指拟合了多少个峰值,1≤n≤8,x=[1,2,…,len(f)],len(f)为fhil的长度,y为瞬时频率特征fhil;
步骤2.11、由步骤2.8中的频率谱拟合特征Ff和相位谱拟合特征FP,步骤2.5中的相位波动特征F,获得组合特征X=[Ff,FP,F]。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤3是获取ENF高斯均值超矢量,具体包括:
步骤3.1、对于D维语音特征X={x1,x2,…,xT},用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(xt)加权得到,wi式混合权重分量,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
步骤3.2、用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
其中wk代表混合权重,μk表均值和∑k为协方差矩阵;
步骤3.3、首先将原始语音与训练语音(包含未篡改语音与篡改语音)按步骤2提取处组合特征X,用原始语音的特征X按步骤3.2训练UBM模型,然后将训练语音的每个特征向量送入到UBM模型中,将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤4是卷积神经网络模型训练,具体包括:
步骤4.1、构建卷积神经网络(CNN),CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256),每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为2);
步骤4.2、最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:
A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu);
B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层;
C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘;
步骤4.3、步骤4.2.C中的输入到神经元个数为128的全连接层(激活函数为Relu),最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类,具体是:
A、4.2.C中的输入到神经元个数为128的全连接层;
B、步骤A中的输出输入到神经元个数为2的全连接层(激活函数为softmax)
其中fc表示第c个神经元的输入,C=2为本层神经元个数,pc表示待测语音是原始语音还是篡改语音的概率;
C、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
因此,本发明具有如下优点:与传统数字音频篡改检测相比,本法发明提出对ENF波动超矢量特征采用卷积神经网络CNN与注意力机制Attention来进行分类。卷积神经网络可以更好的学习原始音频与篡改音频的差异性。注意力机制从CNN输出的大量特征中筛选出重要信息,减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能,优化了系统结构,提高了相应设备源识别产品的竞争力。
附图说明
图1是本发明的方法流程示意图。
图2是卷积神经网络结构图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明种基于卷积神经网络的数字音频篡改被动检测方法,本发明的算法流程图如图1所示,可以分为四部分:1)ENF成分获取;2)ENF相位与频率特征提取;3)训练UBM提取ENF高斯均值超矢量;4)卷积神经网络训练。
步骤一:ENF成分获取,步骤如下:
A、将音频进行下采样,重采样频率定为1000HZ或者1200HZ;
B、使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准(50HZ或60HZ)处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB;
步骤二:ENF相位与频率特征提取,步骤如下:
A、求信号一阶导数、分帧加窗、离散傅里叶变换、线性插值估算相位、计算相位波动特征:
(A-1)计算ENF信号XENFC[n]在点n处的近似一阶导数
x′ENFC[n]=fd(XENFC[n]-XENFC[n-1]) (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值。
x′N[n]=x′ENFC[n]w(n) (2)
其中DFT0[kpeak]=X(kpeak),DFT1[kpeak]=F(kpeak)|X′(kpeak)|,F(kpeak)是一个尺度系数。
其中NDFT表示离散傅里叶变换点数,k为峰值点索引。
B、Hilbert变换、低通滤波、提取ENF成分的瞬时频率估计f[n]:
(B-1)对信号XENFC[n]进行离散Hilbert变换。首先得到XENFC[n]的解析函数
x(a) ENFC[n]=XENFC[n]+i*H{XENFC[n]} (7)
(B-2)对f[n]进行低通滤波,去除震荡。使用五阶椭圆滤波器IIR滤波器。中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ。
由于频率估计的边界效应,去掉f[n]头尾各大约1s,最后得到ENF成分的瞬时频率估计fhil。
C、曲线拟合、特征组合:
(C-1)对相位特征和瞬时频率特征fhil进行曲线拟合,提取相位谱拟合特征Fp[a1,b1,c1,…,ai,bi,ci](0<i≤5),频率谱拟合特征Ff[a1,b1,c1,…,ai,bi,ci](0<i≤5)。
用Sum of Sines来拟合相位特征,其形式为:
用Gaussian来拟合瞬时频率特征,其形式为:
其中a是峰值幅度,b是峰值所在位置,c与峰的旁瓣有关,n指拟合了多少个峰值,1≤n≤8,x=[1,2,…,len(f)],len(f)为fhil的长度,y为瞬时频率特征fhil。
(C-2)由频率谱拟合特征Ff和相位谱拟合特征FP,相位波动特征F,获得组合特征X=[Ff,FP,F]。
步骤三:训练UBM模型,提取出ENF高斯均值超矢量。
给出一组按步骤二中提取出的组合特征X,训练通用背景模型(UBM);
(A-1)对于D维语音特征X={x1,x2,…,xT},用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
(A-2)用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
其中wk代表混合权重,μk表均值和∑k为协方差矩阵。
B、利用UBM模型对训练数据进行最大后验概率(Maximum a posteriori,MAP)操作,提取出ENF高斯均值超矢量。
步骤四:利用卷积神经网络如图2对ENF高斯均值超矢量进行训练。
A、构建卷积神经网络(CNN),CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256),每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为2)。
B、最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:
(B-1)、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu)。
(B-2)、步骤(B-1)中的全连接层的输出通过一层全连接层和sigmoid层。
(B-3)、步骤(B-1)中的全连接层的输出与步骤B中sigmoid的输出相乘。
C、步骤B的输出输入到神经元个数为128的全连接层(激活函数为Relu),最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类,具体是:
(C-1)、步骤B的输出输入到神经元个数为128的全连接层。
(C-2)、输入到神经元个数为2的全连接层(激活函数为softmax)
其中fc表示第c个神经元的输入,C=2为本层神经元个数,pc表示待测语音是原始语音还是篡改语音的概率。
(C-3)、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,包括
步骤1、对原始语音信号进行处理得到电网频率ENF成分;
步骤2、根据步骤1得到的ENF成分,提取基于DFT1的相位谱拟合特征参数与相位波动特征,基于Hilbert变换的频率谱拟合特征参数,获得组合特征;
步骤3、使用步骤2中的组合特征训练通用背景模型UBM,对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征,对UBM模型参数通过自适应MAP来更新模型参数;得到待训练语音的均值矩阵作为ENF高斯均值超矢量;
步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练,使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征,使用sofmax层进行篡改检测;
步骤3是获取ENF高斯均值超矢量,具体包括:
步骤3.1、对于D维语音特征,用于计算其似然函数的公式为:
(1)
式中,似然函数由个单高斯密度函数加权得到,是混合权重分量,其中每一个高斯分量的均值和协方差的大小分别为:和;
(2)
其中为第个维高斯分量的概率密度函数,混合权重分量满足,假设表示模型参数的集合,则有,,该模型通过期望最大化EM迭代训练得出;
步骤3.2、用EM算法获取参数,先给予一个初始值,然后估计出新参数,使得在下的似然度更高,即,新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
(3)
其中代表混合权重,表均值和为协方差矩阵;
步骤3.3、首先将原始语音与训练语音按步骤2提取处组合特征,用原始语音的特征按步骤3.2训练UBM模型,然后将训练语音的每个特征向量送入到UBM模型中,将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量,其中,训练语音包含未篡改语音与篡改语音;
步骤4是卷积神经网络模型训练,具体包括:
步骤4.1、构建卷积神经网络CNN,CNN网络模型由三个卷积块组成,每个块包含激活函数为Relu的两层卷积层、一层poolsize为2的MaxPool层,滤波器个数分别为64、128、256;
步骤4.2、 最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:
A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层,激活函数为Relu;
B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层;
C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘;
步骤4.3、 步骤4.2.C中的输入到神经元个数为128的全连接层,激活函数为Relu,最后神经元个数为2且激活函数为softmax的全连接层作为输出层进行分类,具体是:
A、4.2.C中的输入到神经元个数为128的全连接层;
B、步骤A中的输出输入到神经元个数为2的全连接层,激活函数为Relu;
(4)
其中表示第个神经元的输入,为本层神经元个数,表示待测语音是原始语音还是篡改语音的概率;
C、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
2.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分;具体包括:
步骤1.1、下采样:在保证提取ENF精度的同时,有效减少计算量;将信号重采样频率定为1000HZ或者1200HZ;
步骤1.2、窄带滤波:为了防止相位延时得到理想的窄带信号,使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
3.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤2中,提取特征的具体方法包括:
步骤2.1、计算ENF信号在点n处的近似一阶导数
(5)
其中表示近似求导操作,表示ENF成分第个点的值;
步骤2.2、对进行分帧加窗,帧长为10个标准ENF频率周期为或,帧移为1个标准ENF频率周期为或,用汉宁窗对进行加窗
(6)
其中汉宁窗,为窗长;
步骤2.3、每帧信号与分别执行N点离散傅里叶变换DFT得到、,根据的峰值点的整数索引估计频率
(7)
其中,,是一个尺度系数;
(8)
其中表示离散傅里叶变换点数,为峰值点索引;
步骤2.4、计算的相位,;
步骤2.5、计算的相位
(9)
其中,为重采样频率,,
,,,表示小于a的最大整数,表示大于b的最小整数;
步骤2.6、步骤2.5中有两个可能的值,用步骤2.4中作为参考,选择中最接近的值;
步骤2.7、将步骤2.5中得到的的相位代入式(6)得到ENF相位波动特征F
(10)
其中表示从到的平均值,表示帧数,
,,为相应第帧的估计相位;
步骤2.8、对信号进行离散Hilbert变换;首先得到的解析函数
(11)
其中,H代表Hilbert变换;瞬时频率是相角的变化率;
步骤2.9、对步骤2.8中的进行低通滤波,去除震荡;使用五阶椭圆滤波器IIR滤波器;中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ;由于频率估计的边界效应,去掉头尾各大约1s,最后得到ENF成分的瞬时频率估计;
步骤2.10、对步骤2.5中得到的相位特征和步骤2.9中得到的瞬时频率特征进行曲线拟合,提取相位谱拟合特征,频率谱拟合特征;
用Sum of Sines来拟合相位特征,其形式为:
(12)
其中是振幅,是频率,是每个正弦波项的相位常量,指这个序列的数量,,,为的长度,为相位特征;
用Gaussian来拟合瞬时频率特征,其形式为:
(13)
其中是峰值幅度,是峰值所在位置,与峰的旁瓣有关,指拟合了多少个峰值,,,为的长度,为瞬时频率特征;
步骤2.11、由步骤2.10中的频率谱拟合特征和相位谱拟合特征,步骤2.7中的相位波动特征,获得组合特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034201.5A CN112151067B (zh) | 2020-09-27 | 2020-09-27 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034201.5A CN112151067B (zh) | 2020-09-27 | 2020-09-27 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151067A CN112151067A (zh) | 2020-12-29 |
CN112151067B true CN112151067B (zh) | 2023-05-02 |
Family
ID=73894735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011034201.5A Active CN112151067B (zh) | 2020-09-27 | 2020-09-27 | 一种基于卷积神经网络的数字音频篡改被动检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151067B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853656B (zh) * | 2019-09-06 | 2022-02-01 | 南京工程学院 | 基于改进神经网络的音频篡改识别方法 |
CN113178199B (zh) | 2021-06-29 | 2021-08-31 | 中国科学院自动化研究所 | 基于相位偏移检测的数字音频篡改取证方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274915B (zh) * | 2017-07-31 | 2020-08-07 | 华中师范大学 | 一种基于特征融合的数字音频篡改自动检测方法 |
CN108806718B (zh) * | 2018-06-06 | 2020-07-21 | 华中师范大学 | 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 |
CN108766464B (zh) * | 2018-06-06 | 2021-01-26 | 华中师范大学 | 基于电网频率波动超矢量的数字音频篡改自动检测方法 |
CN108831506B (zh) * | 2018-06-25 | 2020-07-10 | 华中师范大学 | 基于gmm-bic的数字音频篡改点检测方法及系统 |
EP3654248A1 (en) * | 2018-11-19 | 2020-05-20 | Siemens Aktiengesellschaft | Verification of classification decisions in convolutional neural networks |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110853656B (zh) * | 2019-09-06 | 2022-02-01 | 南京工程学院 | 基于改进神经网络的音频篡改识别方法 |
CN110853668B (zh) * | 2019-09-06 | 2022-02-01 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN111429948B (zh) * | 2020-03-27 | 2023-04-28 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN111666996B (zh) * | 2020-05-29 | 2023-09-19 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
-
2020
- 2020-09-27 CN CN202011034201.5A patent/CN112151067B/zh active Active
Non-Patent Citations (2)
Title |
---|
Audio recapture detection with convolutional neural networks;Lin, Xiaodan 等;《IEEE Transactions on Multimedia》;全文 * |
基于ENF邻域相关系数的音频篡改盲检测;吕志胜;谭丽;封斌;胡永健;;应用科学学报(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112151067A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728360B (zh) | 一种基于bp神经网络的微能源器件能量识别方法 | |
US20030236661A1 (en) | System and method for noise-robust feature extraction | |
CN107274915B (zh) | 一种基于特征融合的数字音频篡改自动检测方法 | |
CN112151067B (zh) | 一种基于卷积神经网络的数字音频篡改被动检测方法 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN113295702B (zh) | 电气设备故障诊断模型训练方法和电气设备故障诊断方法 | |
CN111476339A (zh) | 滚动轴承故障特征提取方法、智能诊断方法及系统 | |
CN111666996B (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN109658943A (zh) | 一种音频噪声的检测方法、装置、存储介质和移动终端 | |
CN110909302A (zh) | 交直流电网运行状态参数局部扰动特征学习方法及系统 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
Liao et al. | Recognizing noise-influenced power quality events with integrated feature extraction and neuro-fuzzy network | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
CN110610203A (zh) | 基于dwt和极限学习机的电能质量扰动分类方法 | |
CN114626412A (zh) | 用于无人值守传感器系统的多类别目标识别方法及系统 | |
CN115270906A (zh) | 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置 | |
CN113658607A (zh) | 基于数据增强和卷积循环神经网络的环境声音分类方法 | |
Khan et al. | Hybrid BiLSTM-HMM based event detection and classification system for food intake recognition | |
Unluturk et al. | Emotion recognition using neural networks | |
CN114722964A (zh) | 基于电网频率空间和时序特征融合的数字音频篡改被动检测方法及装置 | |
Morovati | Increase the accuracy of speech signal categories in high noise environments | |
CN117556311B (zh) | 一种基于多维特征融合的无监督时间序列异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |