CN112151067B - 一种基于卷积神经网络的数字音频篡改被动检测方法 - Google Patents

一种基于卷积神经网络的数字音频篡改被动检测方法 Download PDF

Info

Publication number
CN112151067B
CN112151067B CN202011034201.5A CN202011034201A CN112151067B CN 112151067 B CN112151067 B CN 112151067B CN 202011034201 A CN202011034201 A CN 202011034201A CN 112151067 B CN112151067 B CN 112151067B
Authority
CN
China
Prior art keywords
enf
phase
frequency
voice
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011034201.5A
Other languages
English (en)
Other versions
CN112151067A (zh
Inventor
曾春艳
杨尧
冯世雄
孔帅
余琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202011034201.5A priority Critical patent/CN112151067B/zh
Publication of CN112151067A publication Critical patent/CN112151067A/zh
Application granted granted Critical
Publication of CN112151067B publication Critical patent/CN112151067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于数字音频篡改检测技术领域,特别指一种基于卷积神经网络的数字音频篡改被动检测方法。本法发明提出对ENF波动超矢量特征采用卷积神经网络CNN与注意力机制Attention来进行分类。卷积神经网络可以更好的学习原始音频与篡改音频的差异性。注意力机制从CNN输出的大量特征中筛选出重要信息,减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能,优化了系统结构,提高了相应设备源识别产品的竞争力。

Description

一种基于卷积神经网络的数字音频篡改被动检测方法
技术领域
本发明属于数字音频篡改检测技术领域,特别指一种基于卷积神经网络的数字音频篡改被动检测方法。
背景技术
随着数字音频技术的飞速进步,人们能够很方便地采集到数字音频信号,但同时也可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的数字音频应用到司法取证等重要场合,将很有可能引发一些不良的社会问题,因此,对数字音频篡改检测的研究有着非常重要的意义。
数字音频篡改被动检测是无需添加任何信息,仅靠音频自身特征来对数字音频的真实性和完整性进行分析判别的技术,对于复杂的取证环境具有现实意义。当录音设备采用电网供电时,录制的音频文件中残留有电网频率(Electirc Network Frequency,ENF)信号。当数字音频被篡改时这种ENF信号也会随着篡改操作发生变化,于是利用ENF信号的唯一性与稳定性进行音频篡改被动检测有了两种研究思路,第一是将音频中提取出的ENF信号与供电部门的ENF数据库进行对比,这种方法实现难度高,代价大;第二是提取ENF信号中的某些特征,进行一致性与规律性分析。目前利用ENF信号进行音频篡改取证的研究方法主要是利用传统机器学习方法对ENF信号的相位变化、相位的不连续性、瞬时频率突变等特征进行分类,从而达到篡改检测的目的,。
目前存在的数字音频检测方法中,大多是对相应特征设置阈值门限进行检测或采用机器学习方法进行分类。这些方法往往存在经验成分过多或是对于某一种篡改方法针对性太强和识别率不够的问题。
近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经网络(Deep Neural Network,DNN)被应用到音频篡改检测领域中。在深度神经网络中可以DNN深层次的非线性变换更好的拟合音频篡改的特征,实现自动学习与检测,具有识别率高的优点。因此,本发明采用卷积神经网络对ENF高斯均值超矢量进行训练,利用较少的计算量充分学习其中的隐含信息,然后使用注意力机制Attention的方法自动学习卷积神经网络中输出的信息的权重,确定其中对数字音频篡改检测有用的信息,减小冗杂信息,提升数字音频篡改检测系统的性能。
发明内容
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,包括
步骤1、对原始语音信号进行处理得到电网频率(ENF)成分;
步骤2、根据步骤1得到的ENF成分,提取基于DFT1的相位谱拟合特征参数Pcoe与相位波动特征F1,基于Hilbert变换的频率谱拟合特征参数Fcoe,获得组合特征X=[Fcoe,Pcoe,F1];
步骤3、使用步骤2中的组合特征X训练通用背景模型(UBM),对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征X,对UBM模型参数通过自适应MAP来更新模型参数;得到待训练语音的均值矩阵作为ENF高斯均值超矢量;
步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练,使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征,使用sofmax层进行篡改检测。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分;具体包括:
步骤1.1、下采样:在保证提取ENF精度的同时,有效减少计算量;将信号重采样频率定为1000HZ或者1200HZ;
步骤1.2、窄带滤波:为了防止相位延时得到理想的窄带信号,使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准(50HZ或60HZ)处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤2中,提取特征的具体方法包括:
步骤2.1、计算ENF信号XENFC[n]在点n处的近似一阶导数
x′ENFC[n]=fd(XENFC[n]-XENFC[n-1])                    (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值;
步骤2.2、对x′ENFC[n]进行分帧加窗,帧长为10个标准ENF频率周期
Figure BDA0002704658900000031
帧移为1个标准ENF频率周期
Figure BDA0002704658900000032
用汉宁窗w(n)对x′ENFC[n]进行加窗
x′N[n]=x′ENFC[n]w(n)                           (2)
其中汉宁窗
Figure BDA0002704658900000033
L为窗长;
步骤2.3、每帧信号x′N[n]与XENFC[n]分别执行N点离散傅里叶变换(DFT)得到X′(k)、X(k),根据|X′(k)|的峰值点的整数索引kpeak估计频率
Figure BDA00027046589000000310
Figure BDA0002704658900000034
其中DFT0[kpeak]=X(kpeak),DFT1[kpeak]=F(kpeak)|X′(kpeak)|,F(kpeak)是一个尺度系数;
Figure BDA0002704658900000035
其中NDFT表示离散傅里叶变换点数,k为峰值点索引;
步骤2.4、计算xENFC的相位
Figure BDA0002704658900000037
Figure BDA0002704658900000038
步骤2.5、计算x′ENFC的相位
Figure BDA0002704658900000039
Figure BDA0002704658900000036
其中
Figure BDA0002704658900000041
fd为重采样频率,
Figure BDA0002704658900000042
Figure BDA0002704658900000043
floor[a]表示小于a的最大整数,ceil[b]表示大于b的最小整数;
步骤2.6、步骤2.5中
Figure BDA0002704658900000044
有两个可能的值,用步骤2.4中
Figure BDA0002704658900000045
作为参考,选择
Figure BDA0002704658900000046
中最接近
Figure BDA0002704658900000047
的值;
步骤2.7、将步骤2.5中得到的x′ENFC的相位
Figure BDA0002704658900000048
代入式(6)得到ENF相位波动特征F
Figure BDA0002704658900000049
其中
Figure BDA00027046589000000410
表示
Figure BDA00027046589000000411
从nb=2到NBlock的平均值,NBlock表示帧数
Figure BDA00027046589000000412
2≤nb≤NBlock
Figure BDA00027046589000000413
为相应第nb帧的估计相位;
步骤2.8、对信号XENFC[n]进行离散Hilbert变换;首先得到XENFC[n]的解析函数
x(a) ENFC[n]=XENFC[n]+i*H{XENFC[n]}      (7)
其中
Figure BDA00027046589000000414
H代表Hilbert变换;瞬时频率f[n]是H{XENFC[n]}相角的变化率;
步骤2.9、对步骤2.8中的f[n]进行低通滤波,去除震荡;使用五阶椭圆滤波器IIR滤波器;中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ;由于频率估计的边界效应,去掉f[n]头尾各大约1s,最后得到ENF成分的瞬时频率估计fhil
步骤2.10、对步骤2.4中得到的相位特征
Figure BDA00027046589000000415
和步骤2.7中得到的瞬时频率特征fhil进行曲线拟合,提取相位谱拟合特征Fp[a1,b1,c1,…,ai,bi,ci](0<i≤5),频率谱拟合特征Ff[a1,b1,c1,…,ai,bi,ci](0<i≤5);
用Sum of Sines来拟合相位特征,其形式为:
Figure BDA00027046589000000416
其中a是振幅,b是频率,c是每个正弦波项的相位常量,n指这个序列的数量,1≤n≤9,x=[1,2,…,len(φ)],len(φ)为
Figure BDA0002704658900000051
的长度,y为相位特征
Figure BDA0002704658900000052
用Gaussian来拟合瞬时频率特征,其形式为:
Figure BDA0002704658900000053
其中a是峰值幅度,b是峰值所在位置,c与峰的旁瓣有关,n指拟合了多少个峰值,1≤n≤8,x=[1,2,…,len(f)],len(f)为fhil的长度,y为瞬时频率特征fhil
步骤2.11、由步骤2.8中的频率谱拟合特征Ff和相位谱拟合特征FP,步骤2.5中的相位波动特征F,获得组合特征X=[Ff,FP,F]。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤3是获取ENF高斯均值超矢量,具体包括:
步骤3.1、对于D维语音特征X={x1,x2,…,xT},用于计算其似然函数的公式为:
Figure BDA0002704658900000054
式中该密度函数由K个单高斯密度函数pk(xt)加权得到,wi式混合权重分量,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
Figure BDA0002704658900000055
其中pk(xt)为第k个D维高斯分量的概率密度函数,混合权重wk满足
Figure BDA0002704658900000056
假设λ表示模型参数的集合,则有λ={wki,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
步骤3.2、用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
Figure BDA0002704658900000061
其中wk代表混合权重,μk表均值和∑k为协方差矩阵;
步骤3.3、首先将原始语音与训练语音(包含未篡改语音与篡改语音)按步骤2提取处组合特征X,用原始语音的特征X按步骤3.2训练UBM模型,然后将训练语音的每个特征向量送入到UBM模型中,将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量。
在上述的一种基于卷积神经网络的数字音频篡改被动检测方法,步骤4是卷积神经网络模型训练,具体包括:
步骤4.1、构建卷积神经网络(CNN),CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256),每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为2);
步骤4.2、最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:
A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu);
B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层;
C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘;
步骤4.3、步骤4.2.C中的输入到神经元个数为128的全连接层(激活函数为Relu),最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类,具体是:
A、4.2.C中的输入到神经元个数为128的全连接层;
B、步骤A中的输出输入到神经元个数为2的全连接层(激活函数为softmax)
Figure BDA0002704658900000071
其中fc表示第c个神经元的输入,C=2为本层神经元个数,pc表示待测语音是原始语音还是篡改语音的概率;
C、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
因此,本发明具有如下优点:与传统数字音频篡改检测相比,本法发明提出对ENF波动超矢量特征采用卷积神经网络CNN与注意力机制Attention来进行分类。卷积神经网络可以更好的学习原始音频与篡改音频的差异性。注意力机制从CNN输出的大量特征中筛选出重要信息,减小输入数据的运算负担。本发明的数字音频篡改检测方法与传统数字音频篡改检测方法相比能够有效提升系统的识别性能,优化了系统结构,提高了相应设备源识别产品的竞争力。
附图说明
图1是本发明的方法流程示意图。
图2是卷积神经网络结构图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明种基于卷积神经网络的数字音频篡改被动检测方法,本发明的算法流程图如图1所示,可以分为四部分:1)ENF成分获取;2)ENF相位与频率特征提取;3)训练UBM提取ENF高斯均值超矢量;4)卷积神经网络训练。
步骤一:ENF成分获取,步骤如下:
A、将音频进行下采样,重采样频率定为1000HZ或者1200HZ;
B、使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准(50HZ或60HZ)处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB;
步骤二:ENF相位与频率特征提取,步骤如下:
A、求信号一阶导数、分帧加窗、离散傅里叶变换、线性插值估算相位、计算相位波动特征:
(A-1)计算ENF信号XENFC[n]在点n处的近似一阶导数
x′ENFC[n]=fd(XENFC[n]-XENFC[n-1])          (1)
其中fd(*)表示近似求导操作,XENFC[n]表示ENF成分第n个点的值。
(A-2)对x′ENFC[n]进行分帧加窗,帧长为10个标准ENF频率周期
Figure BDA0002704658900000081
帧移为1个标准ENF频率周期
Figure BDA0002704658900000082
用汉宁窗w(n)对x′ENFC[n]进行加窗
x′N[n]=x′ENFC[n]w(n)              (2)
其中汉宁窗
Figure BDA0002704658900000083
L为窗长。
(A-3)每帧信号x′N[n]与XENFC[n]分别执行N点离散傅里叶变换(DFT)得到X′(k)、X(k),根据|X′(k)|的峰值点的整数索引kpeak估计频率
Figure BDA0002704658900000084
Figure BDA0002704658900000085
其中DFT0[kpeak]=X(kpeak),DFT1[kpeak]=F(kpeak)|X′(kpeak)|,F(kpeak)是一个尺度系数。
Figure BDA0002704658900000086
其中NDFT表示离散傅里叶变换点数,k为峰值点索引。
(A-4)计算xENFC的相位
Figure BDA0002704658900000087
Figure BDA0002704658900000088
(A-5)计算x′ENFC的相位
Figure BDA0002704658900000089
Figure BDA00027046589000000810
其中
Figure BDA0002704658900000091
fd为重采样频率,
Figure BDA0002704658900000092
Figure BDA0002704658900000093
floor[a]表示小于a的最大整数,ceil[b]表示大于b的最小整数。
(A-6)
Figure BDA0002704658900000094
有两个可能的值,用
Figure BDA0002704658900000095
作为参考,选择
Figure BDA0002704658900000096
中最接近
Figure BDA0002704658900000097
的值。
(A-7)将的x′ENFC的相位
Figure BDA0002704658900000098
代入式(6)得到ENF相位波动特征F
Figure BDA0002704658900000099
其中
Figure BDA00027046589000000910
表示
Figure BDA00027046589000000911
从nb=2到NBlock的平均值,NBlock表示帧数,
Figure BDA00027046589000000912
2≤nb≤NBlock
Figure BDA00027046589000000913
为相应第nb帧的估计相位。
B、Hilbert变换、低通滤波、提取ENF成分的瞬时频率估计f[n]:
(B-1)对信号XENFC[n]进行离散Hilbert变换。首先得到XENFC[n]的解析函数
x(a) ENFC[n]=XENFC[n]+i*H{XENFC[n]}         (7)
其中
Figure BDA00027046589000000914
H代表Hilbert变换。瞬时频率f[n]是H{XENFC[n]}相角的变化率。
(B-2)对f[n]进行低通滤波,去除震荡。使用五阶椭圆滤波器IIR滤波器。中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ。
由于频率估计的边界效应,去掉f[n]头尾各大约1s,最后得到ENF成分的瞬时频率估计fhil
C、曲线拟合、特征组合:
(C-1)对相位特征
Figure BDA00027046589000000915
和瞬时频率特征fhil进行曲线拟合,提取相位谱拟合特征Fp[a1,b1,c1,…,ai,bi,ci](0<i≤5),频率谱拟合特征Ff[a1,b1,c1,…,ai,bi,ci](0<i≤5)。
用Sum of Sines来拟合相位特征,其形式为:
Figure BDA00027046589000000916
其中a是振幅,b是频率,c是每个正弦波项的相位常量,n指这个序列的数量,1≤n≤9,x=[1,2,…,len(φ)],len(φ)为
Figure BDA0002704658900000101
的长度,y为相位特征
Figure BDA0002704658900000102
用Gaussian来拟合瞬时频率特征,其形式为:
Figure BDA0002704658900000103
其中a是峰值幅度,b是峰值所在位置,c与峰的旁瓣有关,n指拟合了多少个峰值,1≤n≤8,x=[1,2,…,len(f)],len(f)为fhil的长度,y为瞬时频率特征fhil
(C-2)由频率谱拟合特征Ff和相位谱拟合特征FP,相位波动特征F,获得组合特征X=[Ff,FP,F]。
步骤三:训练UBM模型,提取出ENF高斯均值超矢量。
给出一组按步骤二中提取出的组合特征X,训练通用背景模型(UBM);
(A-1)对于D维语音特征X={x1,x2,…,xT},用于计算其似然函数的公式为:
Figure BDA0002704658900000104
式中该密度函数由K个单高斯密度函数pk(xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
Figure BDA0002704658900000105
其中混合权重wk满足
Figure BDA0002704658900000106
假设λ表示模型参数的集合,则有λ={wki,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出。
(A-2)用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
Figure BDA0002704658900000111
其中wk代表混合权重,μk表均值和∑k为协方差矩阵。
B、利用UBM模型对训练数据进行最大后验概率(Maximum a posteriori,MAP)操作,提取出ENF高斯均值超矢量。
步骤四:利用卷积神经网络如图2对ENF高斯均值超矢量进行训练。
A、构建卷积神经网络(CNN),CNN网络模型由三个卷积块组成(滤波器个数分别为64、128、256),每个块包含两层卷积层(激活函数为Relu)、一层MaxPool层(poolsize为2)。
B、最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:
(B-1)、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层(激活函数为Relu)。
(B-2)、步骤(B-1)中的全连接层的输出通过一层全连接层和sigmoid层。
(B-3)、步骤(B-1)中的全连接层的输出与步骤B中sigmoid的输出相乘。
C、步骤B的输出输入到神经元个数为128的全连接层(激活函数为Relu),最后神经元个数为2的全连接层(激活函数为softmax)作为输出层进行分类,具体是:
(C-1)、步骤B的输出输入到神经元个数为128的全连接层。
(C-2)、输入到神经元个数为2的全连接层(激活函数为softmax)
Figure BDA0002704658900000121
其中fc表示第c个神经元的输入,C=2为本层神经元个数,pc表示待测语音是原始语音还是篡改语音的概率。
(C-3)、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (3)

1.一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,包括
步骤1、对原始语音信号进行处理得到电网频率ENF成分;
步骤2、根据步骤1得到的ENF成分,提取基于DFT1的相位谱拟合特征参数与相位波动特征,基于Hilbert变换的频率谱拟合特征参数,获得组合特征
步骤3、使用步骤2中的组合特征训练通用背景模型UBM,对包含篡改语音和未篡改语音的待训练语音信号按步骤2提取出组合特征,对UBM模型参数通过自适应MAP来更新模型参数;得到待训练语音的均值矩阵作为ENF高斯均值超矢量;
步骤4、采用卷积神经网络CNN对步骤3中得到的ENF高斯均值超矢量进行训练,使用注意力机制attention对CNN卷积层的输出特征进行特征选择以去除对分类无效的特征,使用sofmax层进行篡改检测;
步骤3是获取ENF高斯均值超矢量,具体包括:
步骤3.1、对于D维语音特征,用于计算其似然函数的公式为:
(1)
式中,似然函数由个单高斯密度函数加权得到,是混合权重分量,其中每一个高斯分量的均值和协方差的大小分别为:
(2)
其中为第维高斯分量的概率密度函数,混合权重分量满足,假设表示模型参数的集合,则有,该模型通过期望最大化EM迭代训练得出;
步骤3.2、用EM算法获取参数,先给予一个初始值,然后估计出新参数,使得在下的似然度更高,即,新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
(3)
其中代表混合权重,表均值和为协方差矩阵;
步骤3.3、首先将原始语音与训练语音按步骤2提取处组合特征,用原始语音的特征按步骤3.2训练UBM模型,然后将训练语音的每个特征向量送入到UBM模型中,将经过MAP自适应得出的均值单独保留下来作为ENF高斯均值超矢量,其中,训练语音包含未篡改语音与篡改语音;
步骤4是卷积神经网络模型训练,具体包括:
步骤4.1、构建卷积神经网络CNN,CNN网络模型由三个卷积块组成,每个块包含激活函数为Relu的两层卷积层、一层poolsize为2的MaxPool层,滤波器个数分别为64、128、256;
步骤4.2、 最后一个卷积块的输出输入到attention机制中进行特征选择,具体是:
A、最后一个卷积块的输出进行Flatten操作后输入进神经元个数为1024的全连接层,激活函数为Relu;
B、步骤A中的全连接层的输出通过一层全连接层和sigmoid层;
C、步骤A中的全连接层的输出与步骤B中sigmoid的输出相乘;
步骤4.3、 步骤4.2.C中的输入到神经元个数为128的全连接层,激活函数为Relu,最后神经元个数为2且激活函数为softmax的全连接层作为输出层进行分类,具体是:
A、4.2.C中的输入到神经元个数为128的全连接层;
B、步骤A中的输出输入到神经元个数为2的全连接层,激活函数为Relu;
(4)
其中表示第个神经元的输入,为本层神经元个数,表示待测语音是原始语音还是篡改语音的概率;
C、最后输出层得到的概率可得出待测语音是否被篡改,计算所有测试语音正确识别是否被篡改的概率,即系统的识别率。
2.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤1是对原始语音信号依次进行下采样、窄带滤波得到ENF成分;具体包括:
步骤1.1、下采样:在保证提取ENF精度的同时,有效减少计算量;将信号重采样频率定为1000HZ或者1200HZ;
步骤1.2、窄带滤波:为了防止相位延时得到理想的窄带信号,使用10000阶的线性零相位FIR滤波器进行窄带滤波,中心频率在ENF标准处,带宽为0.6HZ,通带波纹0.5dB,阻带衰减为100dB。
3.根据权利要求1所述的一种基于卷积神经网络的数字音频篡改被动检测方法,其特征在于,步骤2中,提取特征的具体方法包括:
步骤2.1、计算ENF信号在点n处的近似一阶导数
(5)
其中表示近似求导操作,表示ENF成分第个点的值;
步骤2.2、对进行分帧加窗,帧长为10个标准ENF频率周期为,帧移为1个标准ENF频率周期为,用汉宁窗进行加窗
(6)
其中汉宁窗为窗长;
步骤2.3、每帧信号分别执行N点离散傅里叶变换DFT得到,根据的峰值点的整数索引估计频率
(7)
其中是一个尺度系数;
(8)
其中表示离散傅里叶变换点数,为峰值点索引;
步骤2.4、计算的相位
步骤2.5、计算的相位
(9)
其中为重采样频率,
表示小于a的最大整数,表示大于b的最小整数;
步骤2.6、步骤2.5中有两个可能的值,用步骤2.4中作为参考,选择中最接近的值;
步骤2.7、将步骤2.5中得到的的相位代入式(6)得到ENF相位波动特征F
(10)
其中表示的平均值,表示帧数,
为相应第帧的估计相位;
步骤2.8、对信号进行离散Hilbert变换;首先得到的解析函数
(11)
其中,H代表Hilbert变换;瞬时频率相角的变化率;
步骤2.9、对步骤2.8中的进行低通滤波,去除震荡;使用五阶椭圆滤波器IIR滤波器;中心频率为ENF标准频率,带宽为20HZ,通带波纹为0.5HZ,阻带衰减为64HZ;由于频率估计的边界效应,去掉头尾各大约1s,最后得到ENF成分的瞬时频率估计
步骤2.10、对步骤2.5中得到的相位特征和步骤2.9中得到的瞬时频率特征进行曲线拟合,提取相位谱拟合特征,频率谱拟合特征
用Sum of Sines来拟合相位特征,其形式为:
(12)
其中是振幅,是频率,是每个正弦波项的相位常量,指这个序列的数量,的长度,为相位特征
用Gaussian来拟合瞬时频率特征,其形式为:
(13)
其中是峰值幅度,是峰值所在位置,与峰的旁瓣有关,指拟合了多少个峰值,的长度,为瞬时频率特征
步骤2.11、由步骤2.10中的频率谱拟合特征和相位谱拟合特征,步骤2.7中的相位波动特征,获得组合特征
CN202011034201.5A 2020-09-27 2020-09-27 一种基于卷积神经网络的数字音频篡改被动检测方法 Active CN112151067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011034201.5A CN112151067B (zh) 2020-09-27 2020-09-27 一种基于卷积神经网络的数字音频篡改被动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011034201.5A CN112151067B (zh) 2020-09-27 2020-09-27 一种基于卷积神经网络的数字音频篡改被动检测方法

Publications (2)

Publication Number Publication Date
CN112151067A CN112151067A (zh) 2020-12-29
CN112151067B true CN112151067B (zh) 2023-05-02

Family

ID=73894735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011034201.5A Active CN112151067B (zh) 2020-09-27 2020-09-27 一种基于卷积神经网络的数字音频篡改被动检测方法

Country Status (1)

Country Link
CN (1) CN112151067B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853656B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于改进神经网络的音频篡改识别方法
CN113178199B (zh) 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274915B (zh) * 2017-07-31 2020-08-07 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN108806718B (zh) * 2018-06-06 2020-07-21 华中师范大学 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN108766464B (zh) * 2018-06-06 2021-01-26 华中师范大学 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN108831506B (zh) * 2018-06-25 2020-07-10 华中师范大学 基于gmm-bic的数字音频篡改点检测方法及系统
EP3654248A1 (en) * 2018-11-19 2020-05-20 Siemens Aktiengesellschaft Verification of classification decisions in convolutional neural networks
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110853656B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于改进神经网络的音频篡改识别方法
CN110853668B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于多种特征融合的语音篡改检测方法
CN111429948B (zh) * 2020-03-27 2023-04-28 南京工业大学 一种基于注意力卷积神经网络的语音情绪识别模型及方法
CN111666996B (zh) * 2020-05-29 2023-09-19 湖北工业大学 一种基于attention机制的高精度设备源识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Audio recapture detection with convolutional neural networks;Lin, Xiaodan 等;《IEEE Transactions on Multimedia》;全文 *
基于ENF邻域相关系数的音频篡改盲检测;吕志胜;谭丽;封斌;胡永健;;应用科学学报(02);全文 *

Also Published As

Publication number Publication date
CN112151067A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN110728360B (zh) 一种基于bp神经网络的微能源器件能量识别方法
US20030236661A1 (en) System and method for noise-robust feature extraction
CN107274915B (zh) 一种基于特征融合的数字音频篡改自动检测方法
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN111508524B (zh) 语音来源设备的识别方法和系统
CN113295702B (zh) 电气设备故障诊断模型训练方法和电气设备故障诊断方法
CN111476339A (zh) 滚动轴承故障特征提取方法、智能诊断方法及系统
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
CN109658943A (zh) 一种音频噪声的检测方法、装置、存储介质和移动终端
CN110909302A (zh) 交直流电网运行状态参数局部扰动特征学习方法及系统
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN115758082A (zh) 一种轨道交通变压器故障诊断方法
Liao et al. Recognizing noise-influenced power quality events with integrated feature extraction and neuro-fuzzy network
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN110610203A (zh) 基于dwt和极限学习机的电能质量扰动分类方法
CN114626412A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统
CN115270906A (zh) 基于电网频率深浅层特征融合的数字音频篡改被动检测方法及装置
CN113658607A (zh) 基于数据增强和卷积循环神经网络的环境声音分类方法
Khan et al. Hybrid BiLSTM-HMM based event detection and classification system for food intake recognition
Unluturk et al. Emotion recognition using neural networks
CN114722964A (zh) 基于电网频率空间和时序特征融合的数字音频篡改被动检测方法及装置
Morovati Increase the accuracy of speech signal categories in high noise environments
CN117556311B (zh) 一种基于多维特征融合的无监督时间序列异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant