CN106941008B - 一种基于静音段的异源音频拼接篡改盲检测方法 - Google Patents
一种基于静音段的异源音频拼接篡改盲检测方法 Download PDFInfo
- Publication number
- CN106941008B CN106941008B CN201710218327.XA CN201710218327A CN106941008B CN 106941008 B CN106941008 B CN 106941008B CN 201710218327 A CN201710218327 A CN 201710218327A CN 106941008 B CN106941008 B CN 106941008B
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- tampering
- vector
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000009432 framing Methods 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims abstract description 5
- 230000007613 environmental effect Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000037433 frameshift Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 240000006829 Ficus sundaica Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开了一种基于静音段的异源音频拼接篡改盲检测方法。该方法包括如下步骤:对待测音频进行分帧与加窗;对音频帧频谱能量和过零率进行阈值判断,检测静音段;计算静音段音频特征;利用滑动窗口求取静音段上相邻静音帧音频特征相关系数向量;检测篡改点;确定篡改位置。本发明无需借助数字水印作为嵌入信息,针对时域上的异源音频拼接和插入操作,能有效判断篡改是否存在并定位具体篡改位置。
Description
技术领域
本发明涉及音频取证技术领域,具体涉及一种基于静音段的异源音频拼接篡改盲检测方法。
背景技术
音频拼接是最常见的音频篡改形式之一。随着便携式录音设备的普及以及各种功能强大的多媒体编辑软件的出现,对音频真伪进行检测变得十分重要。数字音频盲取证作为一种音频数据的取证方法,无需借助添加数字水印进行检测,更具有实用性,在司法取证和新闻信息真伪鉴定等领域具有广泛的应用前景。
在数字音频篡改盲检测研究领域,目前流行的方法主要有基于电网频率(Electric Network Frequency,ENF)和基于音频特征(例如,语音特征,录音设备的本征噪声等)两大类。2005年Grigoras在期刊IJSLL(International Journal of Speech,Language and the Law,国际语音、语言和法律期刊)上发表论文《Digital AudioRecording Analysis The Electric Network Frequency Criterion》,首次提出基于ENF的数字音频篡改方法,通过比较音频中的ENF与历史ENF数据库中的记录是否一致,判断音频是否被篡改。2009年Nicolalde等学者在ICASSP(International Conference onAcoustics,Speech and Signal Processing,国际声学、语音与信号处理会议)上发表论文《Evaluating Digital Audio Authenticity with Spectral Distance and ENF PhaseChange》,通过音频中ENF信号的相位变化来检测和定位篡改。随后,有一批基于ENF信号的音频篡改检测算法涌现。然而,对于手机和录音笔等常用的直流供电录音设备,由于其录制的音频中并不含ENF信号,基于ENF的音频篡改检测方法并不适用。
数字音频录音过程除了储存有效的语音信号,还不可避免地引入了噪声,主要包括录音设备的本征噪声和环境噪声。对于异源音频拼接篡改,现有算法通常在未区分有声段和静音段的情况下,从待测音频中提取语音特征、设备的本征噪声和环境噪声特征,通过检查其一致性是否受到破坏判断音频是否存在篡改。2012年X.Pan等学者在ICASSP上发表论文《Detecting Splicing in Digital Audio Using Local Noise Level Estimation》,通过对音频的局部噪声水平进行比较,检测和定位篡改。然而,该算法在有声段计算的噪声水平波动较大,导致误检率过高,并且拼接前后音频的噪声水平一般相差不大,故检测效果常常不明显。2014年H.Zhao等学者在ACM IH&MMSec(ACM Workshop on InformationHiding and Multimedia Security,信息隐藏暨多媒体安全国际会议)上发表论文《AudioSource Authenticity and Splicing Detection Using Acoustic EnvironmentalSignature》,以起始若干帧音频特征的均值作为参考特征,通过考察音频各帧与参考特征的相关系数变化来检测和定位篡改。然而,该算法从有声段提取的音频特征不稳定,导致出现过多异常相关系数。同时由于数字语音是非平稳的时变信号,其特性会随时间缓慢变化,与参考特征间隔时间越长,计算得到的相关系数越小,容易造成误检。另外该算法没有定位机制,不能精确确定篡改位置。
发明内容
本发明的目的在于克服现有异源音频拼接篡改盲检测方法准确率不高,定位精度不足等缺点,提供一种准确率高,定位精度高的基于静音段的异源音频拼接篡改盲检测方法。
不同于现有技术的算法,本发明在静音段上提取录音设备本征噪声和环境噪声特征,检测静音段相邻帧相关系数向量的突变,定位拼接篡改,提出一种基于静音段的异源音频拼接篡改盲检测算法,利用判断静音段提取的噪声(主要是设备本征噪声和环境噪声)特征是否变异确定篡改。异源音频拼接篡改指的是将多段由不同录音设备录制的音频拼接成一段新音频的篡改方式。为了避免人耳察觉篡改造成的异常,篡改者通常会在篡改处前后借助静音段进行平滑过渡。然而这些异常可以被统计信号检测的方法察觉,因此,可以从音频特征的一致性判断静音段是否来自不同的录音设备和环境,还可以进一步通过检测特征的跳变点确定篡改音频的拼接位置。从静音段提取音频特征的主要优点有:首先,音频中的有声段由语音信号和噪声组成,相对于语音信号,噪声能量较小,因此难以从有声段准确提取录音设备和环境噪声的特征,而静音段只有设备本征噪声和环境噪声,不受说话人语音的影响,更能准确提取噪声特征;其次,有声段能量波动大,相邻音频段之间振幅和频谱等特性差异大,提取出来的音频特征不稳定,而静音段能量稳定,有利于真实反映录音设备和环境噪声的特征。本发明提出从静音段中提取音频特征,通过检测相邻音频段特征相关系数向量的突变,判断并定位异源音频拼接篡改。迄今为止,利用从静音段中提取音频特征来进行音频篡改盲检测的方法尚未见报道。
为了达到上述发明目的,本发明采用以下技术方案:一种基于静音段的异源音频拼接篡改盲检测方法,其主要步骤如下:
步骤1、选择待测的可疑音频,对待测音频进行分帧,帧长为m,帧移为n,相邻音频帧互有重叠,使帧和帧之间能够平滑过渡;音频帧时长m为16-128毫秒,音频帧移时长n表示相邻音频帧之间重合的部分大小,取音频帧时长的1/2-2/3;对分帧后的各个音频帧采用汉明窗进行加窗,分帧加窗后的时域音频信号表示为yi,j,其中,i=1,2,…,N;i为音频帧序号,共有N个音频帧,j=1,2,…,Nframe,为音频帧的第j个数据点,共有Nframe个数据点;
步骤2、Spure代表说话人语音信号,hRIR代表环境脉冲响应,dB代表环境噪声,hMic代表设备脉冲响应,dMic代表设备本征噪声,则数字音频y为:
y=(Spure*hRIR+dB)*hMic+dMic (1)
其中,*代表卷积运算。当语音信号Spure等于零时,得到的输出即为静音,静音段只含有录音设备和环境信息;计算音频中每一帧的Nfft点短时傅里叶频谱能量E,同时在各音频帧的时域计算其数据点的过零率Z;对音频帧进行判断,若其短时频谱能量E小于设定的阈值TE且过零率Z小于设定的阈值TZ,则判定为静音帧,得到待测音频的静音段为Sl,其中,l=1,2,…,NS,l为静音段帧序号,NS为静音段帧数量;静音段帧序号对应于待测音频帧序号的映射为Loc,在静音段得到篡改点位置后,根据Loc求得篡改点在待测音频中的位置;
步骤3、计算静音段S中各帧基于梅尔倒谱系数(Mel-Frequency CepstralCoefficients,MFCCs)扩展的超向量特征,扩展过程采用广义线性区分性序列核(Generalized Linear Discriminative Sequence kernel,GLDS kernel)函数,得到静音段音频特征为二维矩阵其中,hl为D维列向量,代表一个音频帧特征向量,l=1,2,…,NS,为音频帧序号,共有NS个音频特征向量,用于表征音频的噪声信息,即设备本征噪声和环境噪声信息的总和;
步骤4、用大小为D×2w的窗口在音频特征H上从前向后沿水平方向滑动,每次滑动距离为w,窗口内前w个列向量构成大小为D×w的子矩阵,计算子矩阵每行的均值,得到一个D维均值向量;窗口内后w个列向量构成大小为D×w的子矩阵,计算子矩阵每行的均值,得到一个D维均值向量;计算每个窗口前后两个D维均值向量的相关系数,随着窗口的移动,得到相关系数向量ρ,ρ中各元素用ρ(p)表示,p=1,2,…,Nρ,为相关系数序号,为相关系数向量长度;
步骤5、计算相关系数向量ρ中各个元素的均值u,设定幅度阈值Tρ,令幅度阈值为均值的倍数,Tρ=ku,k为小于1的正数;计算相关系数向量ρ的一阶差分,得到一阶差分向量ρ′,计算ρ′中各个元素绝对值的均值u′,设定一阶差分阈值ρ′,令一阶差分阈值为均值的倍数,Tρ′=q′u′,k′为大于1的正整数;利用相关系数向量中小于阈值Tρ′的元素位置及一阶差分向量中绝对值大于阈值Tρ′的元素位置确定篡改点的位置,假设有U个篡改点,用位置集合Q表示,记为Q={q1,q2,q3,…,qU};
步骤6、若Q不为空,则待测音频存在篡改,否则为原始音频;若待测音频被篡改过,共有U个篡改点,根据篡改点在相关系数向量中的位置,计算篡改点在静音段中对应的帧区间,再根据步骤2中静音段帧序号与待测音频帧序号的映射Loc,求得篡改点对应于待测音频中的帧区间,作为最终估计的定位篡改区域。
步骤2中,采用现有的语音端点检测算法,从音频中检测静音段。
步骤1中,待测音频的音频帧总数可由下面公式进行求取:
步骤2中,计算音频中每一帧的Nfft点短时傅里叶频谱能量E是计算每个音频帧yi,j的Nfft点傅里叶变换为Yi,k,则其短时频谱能量Ei为:
其中,k=1,2,…,Nfft,为各个频率点幅值,Nfft为傅里叶变换长度;计算音频帧yi,j的过零率Zi:
其中,sgn[]是符号运算,即:
其中,x为任意实数。
步骤2中,E的平均值为0.250,取能量阈值TE为平均值的4倍,Z的平均值为20.430,取过零率阈值为平均值的1倍,TZ=20.430,对待测音频各音频帧进行判断,共有351个音频帧的短时能量小于阈值TE且过零率小于TZ,将这351个音频帧按顺序连接成静音段S。
步骤1中音频帧时长m一般在16毫秒到128毫秒之间进行选取,m过大无法得到足够的音频帧,不利于观察音频随时间变化的总体特性和精确定位篡改点,m过小无法从音频帧中准确提取音频特征;音频帧移时长n表示相邻音频帧之间重合的部分大小,一般取音频帧时长的1/2到2/3之间,使帧和帧之间能够平滑过渡,n过小相邻音频帧重合部分过多,相邻音频帧特征变化不明显,n过大无法显示音频帧特征之间的连续性
本发明相对于现有技术具有如下的优点及效果:
1)本发明在分析数字音频有声段和静音段录音流程的基础上,提出从静音段提取表征录音设备本征噪声和环境噪声的音频特征。因为直接从待测音频提取特征,容易受到说话人语音信号的影响,噪声容易淹没在语音信号中,难以提取音频的噪声特征,而静音段只含有录音设备和环境信息,不含说话人语音信息,相对于直接从待测音频提取特征,本发明提取的音频特征更准确;
2)本发明对相关系数向量进行元素值和一阶差分向量元素值阈值判断,不仅能确定异源音频拼接篡改的存在性,还能对拼接篡改进行较为准确的定位;
3)本发明完全利用待测音频自身信息来进行检测,不需要在生成音频时添加数字水印,也不需要其他额外的信息来进行对比,实现了异源音频拼接篡改盲检测,具有较高的应用灵活性;
4)本发明在检测过程中只需要直接计算音频频谱能量、过零率和梅尔倒谱系数等,不涉及复杂模型的建立,具有较低复杂度,能在普通的计算机上快速完成;
5)本发明同样适用于异源音频插入篡改检测,由异源音频插入篡改而成的音频有多个拼接点,篡改拼接点前后的音频来自不同的录制设备和环境,因此可以通过本发明逐个检测这些篡改点,判断异源音频插入篡改的存在。
附图说明
图1是本发明的流程框图。
图2是实施例中待测音频波形图。
图3是数字音频录音流程示意图。
图4是实施例中待测音频静音检测效果图。
图5是实施例中相关系数向量示意图。
图6是实施例中的篡改检测结果图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
下面以一段WAV格式的音频作为优选的实施例详细介绍本发明的实施过程。如图2所示,该音频是由两段音频拼接而成,前一段是由Apple iPhone5手机录制的音频,时长为6.049秒,后一段是由Samsung E2600手机录制的音频,时长为7.818秒,采样率均为16kHz。篡改音频时长为13.867秒,拼接篡改点为待测音频的第6.049秒处。
如图1所示,为本发明方法主要分为六个步骤,包括音频的分帧与加窗,检测静音段,计算静音段音频特征,求相关系数向量,检测篡改点,确定篡改位置;通过本发明的方法将此篡改检测出来,并确定篡改位置。
第一步,音频的分帧与加窗。
首先在时域上对待测音频进行分帧与加窗处理。待测音频的音频帧总数可由下面公式进行求取:
其中,代表向下取整数运算,N为音频帧总数,t为待测音频时长,t>0,m为音频帧时长,t>m>0,n为帧移时长,m>n>0。音频帧时长m为16‐128毫秒,m过大无法得到足够的音频帧,不利于观察音频随时间变化的总体特性和篡改点的精确定位,m过小无法从音频帧中准确提取音频特征;音频帧移时长n表示相邻音频帧之间重合的部分大小,一般取音频帧时长的1/2‐2/3之间,使帧和帧之间能够平滑过渡,n过小相邻音频帧重合部分过多,相邻音频帧特征变化不明显,n过大无法显示音频帧特征之间的连续性。将音频最后不够一帧长度的数据舍弃,音频帧采用汉明窗加窗,分帧加窗后的时域音频信号表示为yi,j,其中,i=1,2,…,N,为音频帧序号,共有N个音频帧,j=1,2,…,Nframe,为音频帧的第j个数据点,共有Nframe个数据点。本实施例中,选取音频帧时长为32毫秒,帧移为帧长的1/2,音频每帧共有32毫秒×16kHz=512个数据点,根据公式(1)计算得到音频共有865帧。
第二步,检测静音段。
如图3所示,Spure代表说话人语音信号,hRIR代表环境脉冲响应,dB代表环境噪声,hMic代表设备脉冲响应,dMic代表设备本征噪声,则数字音频y为:
y=(Spure*hRIR+dB)*hMic+dMic (7)
其中,*代表卷积运算。当语音信号Spure等于零时,得到的输出即为静音,静音段只含有录音设备和环境信息,有利于准确提取噪声特征。而有声段包含了说话人语音信号Spure、录音设备本征噪声dMic和环境噪声dB,说话人语音信号Spure能量大,噪声容易淹没在有声段中,难以提取音频的噪声特征,而且有声段能量波动大,提取的噪声特征不平稳。计算每个音频帧yi,j的Nfft点傅里叶变换为Yi,k,则其短时频谱能量Ei为:
其中,k=1,2,…,Nfft,为各个频率点幅值,Nfft为傅里叶变换长度。计算音频帧yi,j的过零率Zi:
其中,sgn[]是符号运算,即:
其中,x为任意实数。对音频帧的短时频谱能量E和过零率Z进行阈值判断,取短时能量E平均值的倍数作为能量阈值TE,取过零率Z平均值的倍数作为过零率阈值TZ,若其能量小于阈值TE且过零率小于阈值TZ,判定为静音段。在本实施例中,E的平均值为0.250,取能量阈值TE为平均值的4倍,即TE=1;Z的平均值为20.430,取过零率阈值为平均值的1倍,即TZ=20.430,对待测音频各音频帧进行判断,共有351个音频帧的短时能量小于阈值TE且过零率小于TZ,将这351个音频帧按顺序连接成静音段S。图4为本实施例中待测音频静音检测效果图,有声段的检测值为1,静音段的检测值为0。
从待测音频检测静音的过程中,静音段中每个音频帧都有对应于待测音频的位置,记录其映射为Loc,即任意静音段音频帧Sl,对应于待测音频音频帧yi,j:
i=Loc(l) (11)
其中,l=1,2,…,NS,为静音段音频帧序号,共有NS帧。公式(6)说明了静音段中任意音频帧都对应于待测音频的音频帧,当得到篡改点在静音段中的位置,通过Loc求得篡改点在待测音频中对应的位置。在本实施例中,具体Loc映射关系如表1所示:
表1
待测音频共有865个音频帧,检测为静音帧的有351个,剩下的音频帧为有声段。一般情况下,音频中会有多段静音,如表1所示,本实施例中的待测音频共有5段静音,按顺序连接成静音段S,第1段静音在静音段S中的序号为1至52,对应于待测音频帧序号为1至52;第2段静音在静音段S中的帧序号为53至75,对应于待测音频中的帧序号为158至180;第3段静音在静音段S中的帧序号为76至236,对应于待测音频中的帧序号为298至458;第4段静音在静音段S中的帧序号为237至262,对应于待测音频中的帧序号为614至639;第5段静音在静音段S中的帧序号为263至351,对应于待测音频中的帧序号为777至865;则可通过Loc映射求得静音段S中任意的帧序号对应于待测音频中的帧序号。
第三步,计算静音段音频特征。
音频特征维数D与D0的关系为:
在本实施例中,对静音段每个音频帧计算12维MFCCs特征,通过GLDSkernel函数扩展得到91维超向量特征,静音段所有音频帧特征组成大小为91×351的二维矩阵H,每列代表一个音频帧特征向量,共有351个音频特征向量。
第四步,求相关系数向量。
用大小为D×2w的窗口在音频特征H上从前往后沿水平方向滑动,每次滑动距离为w,w为大于1小于NS的整数,用于表示窗口内列向量的个数,窗口内前w个列向量构成大小为D×w的子矩阵,计算子矩阵每行的均值,得到一个D维均值向量Hp,1;窗口内后w个列向量构成大小为D×w的子矩阵,计算子矩阵每行的均值,得到一个D维均值向量Hp,2;计算每个窗口前后两个D维均值向量Hp,1和Hp,2的相关系数,随着窗口的移动,得到相关系数向量ρ,求取过程如下式表示:
其中,p=1,2,…,Nρ,为相关系数向量中元素的序号,d=1,2,…,D,为音频特征各维度的值,共有D维,相关系数向量ρ的长度为:
其中,Ns为静音段的帧数,μp,1为向量Hp,1各个元素的均值,μp,2为向量Hp,2各个元素的均值,即:
一般情况下,从单独一个音频帧中难以准确提取表征设备本征噪声和环境噪声的特征,因此需要通过对多帧音频特征取平均,得到准确的特征。在音频篡改处,滑动窗口越大,窗口内前w个音频帧的均值特征与后w个音频帧的均值特征相关系数变化越明显。但是,窗口的大小也会影响篡改定位的精度,窗口越大,定位精度越低。在检测过程中,可根据实际情况中需要的定位精度选取恰当大小的窗口,假设容忍的最大定位误差为时长terror,可以由音频帧移n计算最大的滑动距离w为:
本实施例中,假设最大定位误差时长为150毫秒,根据公式(12)得到最大滑动距离为4,设定滑动窗口大小为91×8,得到相关系数向量ρ,根据公式(10)得到相关系数向量长度为86,相关系数向量如图5所示。
第五步,检测篡改点。
对相关系数向量ρ的元素值进行判断。首先,计算相关系数向量ρ中各个元素的均值u,得到均值之后,设定幅度阈值Tρ=qu,因为篡改处的相关系数向量为异常值,其元素值小于均值u,所以选取k为小于1的正数。在本实施例中,计算得到相关系数向量ρ中各个元素的均值u=0.9631,取q=0.9,得到幅度阈值Tρ=qu=0.867。数字语音具有短时平稳性,在待测音频的未篡改处,前后静音来自同一录音设备,其前后静音段的音频特征相关系数接近于1。而在待测音频的篡改处,拼接处前后的音频特征代表了不同设备本征噪声和环境噪声信息,相关系数会突然变小。通过检测相关系数向量的异常尖峰,确定拼接篡改位置。
对相关系数一阶差分向量进行判断。首先,计算ρ的一阶差分向量ρ′:
其中,ρ′(p)为相关系数一阶差分向量第p个元素值,p=1,2,…,Nρ,为向量元素序号。计算ρ′各个元素绝对值的均值u′,得到均值后,设定一阶差分阈值Tρ′=q′u′,因为篡改处的相关系数一阶差分向量元素值为异常值,其差分绝对值大于均值u′,所以选取q′为大于1的正数。在本实施例中,计算得到相关系数一阶差分向量ρ′中各个元素绝对值的均值u′=0.028,取k′=10,得到一阶差分阈值Tρ′=q′u′=0.28。相关系数一阶差分向量表示相关系数变化的剧烈程度,其绝对值越大,则前后相关系数变化越大,是篡改点的可能性越大。
在相关系数向量ρ中,小于阈值Tρ的元素往往预示着其所在位置存在篡改。而在相关系数一阶差分向量ρ′中,则是绝对值大于阈值Tρ′的元素预示着其所在位置存在篡改。利用上述两个阈值得到篡改点集合Q,如下式所示:
Q={p|1≤p≤Nρ,ρ(p)<Tρ,|ρ′(p)|>Tρ′} (19)
在本实施例中,得到篡改点集合为Q={39},待测音频存在1个拼接篡改点。
第六步,确定篡改位置。
在本实施例中,求得Q={39},即待测音频被篡改过,且篡改点为相关系数向量第39个元素的位置。本发明方法首先得到篡改点在相关系数向量中的位置,再根据滑动窗口大小D×2w和滑动距离w,求得篡改点p对应于静音段第I1帧到第I2帧之间,其中:
在本实施例中,窗口长度为8,滑动距离为4,根据公式(10)得到篡改点在静音段的第153帧到第160帧之间。
得到篡改点在静音段中的位置之后,由第二步中静音段S与待测音频的帧序号映射Loc,计算篡改点在待测音频中的位置。在本实施例中,得到篡改点在待测音频的第375帧到第382帧之间,根据帧长32毫秒和帧移16毫秒,可以得到篡改点位于待测音频的6.000秒到6.112秒之间,检测结果如图6所示。实际篡改拼接点为待测音频的第6.049秒处,检测结果与实际情况相符,证明了本发明的有效性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于静音段的异源音频拼接篡改盲检测方法,其特征在于包括以下步骤:
步骤1、选择待测的可疑音频,对待测音频进行分帧,帧时长为m,帧移时长为n,相邻音频帧互有重叠,使帧和帧之间能够平滑过渡;音频帧时长m为16-128毫秒,音频帧移时长n表示相邻音频帧之间重合的部分大小,取音频帧时长的1/2-2/3;对分帧后的各个音频帧采用汉明窗进行加窗,分帧加窗后的时域音频信号表示为yi,j,其中,i=1,2,…,N;i为音频帧序号,共有N个音频帧,j=1,2,…,Nframe,为音频帧的第j个数据点,共有Nframe个数据点;
步骤2、Spure代表说话人语音信号,hRIR代表环境脉冲响应,dB代表环境噪声,hMic代表设备脉冲响应,dMic代表设备本征噪声,则数字音频y为:
y=(Spure*hRIR+dB)*hMic+dMic (1)
其中,*代表卷积运算;当语音信号Spure等于零时,得到的输出即为静音,静音段只含有录音设备和环境信息;计算音频中每一帧的Nstft点短时傅里叶频谱能量E,同时在各音频帧的时域计算其数据点的过零率Z;对音频帧进行判断,若其短时傅里叶频谱能量E小于设定的阈值TE且过零率Z小于设定的阈值TZ,则判定为静音帧,得到待测音频的静音段为Sl,其中,l=1,2,…,NS,l为静音段帧序号,NS为静音段帧数量;静音段帧序号对应于待测音频帧序号的映射为Loc,在静音段得到篡改点位置后,根据Loc求得篡改点在待测音频中的位置;
步骤3、计算静音段S中各帧基于梅尔倒谱系数扩展的超向量特征,扩展过程采用广义线性区分性序列核函数,得到静音段音频特征为二维矩阵其中,h1,h2,……,hNs为D维列向量,代表一个音频帧特征向量,共有NS个音频特征向量,用于表征音频的噪声信息,为设备本征噪声和环境噪声信息的总和,D取大于30的自然数;
步骤4、用大小为D×2w的窗口在音频特征H上从前向后沿水平方向滑动,每次滑动距离为w,窗口内前w个列向量构成大小为D×w的子矩阵,计算子矩阵每行的均值,得到一个D维均值向量;窗口内后w个列向量构成大小为D×w的子矩阵,计算子矩阵每行的均值,得到一个D维均值向量;计算每个窗口前后两个D维均值向量的相关系数,随着窗口的移动,得到相关系数向量ρ,ρ中各元素用ρ(p)表示,p=1,2,…,Nρ,为相关系数序号,为相关系数向量长度,代表向下取整数运算;
步骤5、计算相关系数向量ρ中各个元素的均值u,设定幅度阈值Tρ,令幅度阈值为均值的倍数,Tρ=ku,k为小于1的正数;计算相关系数向量ρ的一阶差分,得到一阶差分向量ρ′,计算ρ′中各个元素绝对值的均值u′,设定一阶差分阈值Tρ′,令一阶差分阈值为均值的倍数,Tρ′=k'u',k′为大于1的正整数;利用相关系数向量中小于幅度阈值Tρ的元素位置及一阶差分向量中绝对值大于一阶差分阈值Tρ′的元素位置确定篡改点的位置,假设有U个篡改点,用位置集合Q表示,记为Q={q1,q2,q3,…,qU};
步骤6、若Q不为空,则待测音频存在篡改,否则为原始音频;若待测音频被篡改过,共有U个篡改点,根据篡改点在相关系数向量中的位置,计算篡改点在静音段中对应的帧区间,再根据步骤2中静音段帧序号与待测音频帧序号的映射Loc,求得篡改点对应于待测音频中的帧区间,作为最终估计的定位篡改区域。
4.根据权利要求1所述的基于静音段的异源音频拼接篡改盲检测方法,其特征在于:步骤2中,采用现有的语音端点检测算法,从音频中检测静音段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710218327.XA CN106941008B (zh) | 2017-04-05 | 2017-04-05 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710218327.XA CN106941008B (zh) | 2017-04-05 | 2017-04-05 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106941008A CN106941008A (zh) | 2017-07-11 |
CN106941008B true CN106941008B (zh) | 2020-11-24 |
Family
ID=59464274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710218327.XA Expired - Fee Related CN106941008B (zh) | 2017-04-05 | 2017-04-05 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106941008B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109474355A (zh) * | 2018-01-17 | 2019-03-15 | 国家无线电频谱管理研究所有限公司 | 基于频谱监测数据的自适应噪声门限估计与信号提取方法 |
CN108510994B (zh) * | 2018-01-25 | 2020-09-22 | 华南理工大学 | 一种利用字节帧间幅度谱相关性的音频同源篡改检测方法 |
CN108665905B (zh) * | 2018-05-18 | 2021-06-15 | 宁波大学 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
CN108831506B (zh) * | 2018-06-25 | 2020-07-10 | 华中师范大学 | 基于gmm-bic的数字音频篡改点检测方法及系统 |
CN108833825B (zh) * | 2018-06-26 | 2020-07-31 | 广州视源电子科技股份有限公司 | 视频会议发言人终端的确定方法、装置、设备和存储介质 |
CN109394258A (zh) * | 2018-09-18 | 2019-03-01 | 平安科技(深圳)有限公司 | 一种肺部呼吸音的分类方法、装置及终端设备 |
CN110910905B (zh) * | 2018-09-18 | 2023-05-02 | 京东科技控股股份有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
CN109284717A (zh) * | 2018-09-25 | 2019-01-29 | 华中师范大学 | 一种面向数字音频复制粘贴篡改操作的检测方法及系统 |
CN111755025B (zh) * | 2019-03-26 | 2024-02-23 | 苏州君林智能科技有限公司 | 一种基于音频特征的状态检测方法、装置及设备 |
CN110853668B (zh) * | 2019-09-06 | 2022-02-01 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN110942776B (zh) * | 2019-10-31 | 2022-12-06 | 厦门快商通科技股份有限公司 | 一种基于gru的音频防拼接检测方法及系统 |
CN111261191A (zh) * | 2019-11-22 | 2020-06-09 | 惠州市德赛西威智能交通技术研究院有限公司 | 车载多媒体系统声音拼接和无声的自动化检测方法及系统 |
CN111145778B (zh) * | 2019-11-28 | 2023-04-04 | 科大讯飞股份有限公司 | 音频数据的处理方法、装置、电子设备及计算机存储介质 |
US20210358490A1 (en) * | 2020-05-18 | 2021-11-18 | Nvidia Corporation | End of speech detection using one or more neural networks |
CN112153482B (zh) * | 2020-09-16 | 2022-02-22 | 山东科技大学 | 一种音视频匹配零水印生成方法及音视频防篡改检测方法 |
CN113160835A (zh) * | 2021-04-23 | 2021-07-23 | 河南牧原智能科技有限公司 | 一种猪只声音提取方法、装置、设备及可读存储介质 |
CN113178199B (zh) | 2021-06-29 | 2021-08-31 | 中国科学院自动化研究所 | 基于相位偏移检测的数字音频篡改取证方法 |
CN113555007B (zh) | 2021-09-23 | 2021-12-14 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
CN116847245B (zh) * | 2023-06-30 | 2024-04-09 | 浙江芯劢微电子股份有限公司 | 一种数字音频自动增益方法、系统、计算机存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322061A (ja) * | 1999-05-06 | 2000-11-24 | Yamaha Corp | リズム音源信号の時間軸圧伸方法及び装置 |
CN101383171A (zh) * | 2008-10-16 | 2009-03-11 | 中山大学 | 一种mp3音频的篡改盲检测方法 |
CN101562016A (zh) * | 2009-05-26 | 2009-10-21 | 上海大学 | 一种全盲的数字语音认证方法 |
CN103345927A (zh) * | 2013-07-11 | 2013-10-09 | 暨南大学 | 一种检测与定位音频时域篡改的处理方法 |
CN103905816A (zh) * | 2014-03-31 | 2014-07-02 | 华南理工大学 | 一种基于enf相关系数的监控视频篡改盲检测方法 |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN105913856A (zh) * | 2016-04-20 | 2016-08-31 | 深圳大学 | 基于幅度共生向量特征的音频篡改检测方法及系统 |
CN106531159A (zh) * | 2016-12-09 | 2017-03-22 | 宁波大学 | 一种基于设备本底噪声频谱特征的手机来源识别方法 |
-
2017
- 2017-04-05 CN CN201710218327.XA patent/CN106941008B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322061A (ja) * | 1999-05-06 | 2000-11-24 | Yamaha Corp | リズム音源信号の時間軸圧伸方法及び装置 |
CN101383171A (zh) * | 2008-10-16 | 2009-03-11 | 中山大学 | 一种mp3音频的篡改盲检测方法 |
CN101562016A (zh) * | 2009-05-26 | 2009-10-21 | 上海大学 | 一种全盲的数字语音认证方法 |
CN103345927A (zh) * | 2013-07-11 | 2013-10-09 | 暨南大学 | 一种检测与定位音频时域篡改的处理方法 |
CN103905816A (zh) * | 2014-03-31 | 2014-07-02 | 华南理工大学 | 一种基于enf相关系数的监控视频篡改盲检测方法 |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN105913856A (zh) * | 2016-04-20 | 2016-08-31 | 深圳大学 | 基于幅度共生向量特征的音频篡改检测方法及系统 |
CN106531159A (zh) * | 2016-12-09 | 2017-03-22 | 宁波大学 | 一种基于设备本底噪声频谱特征的手机来源识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106941008A (zh) | 2017-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106941008B (zh) | 一种基于静音段的异源音频拼接篡改盲检测方法 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Wu et al. | A study on spoofing attack in state-of-the-art speaker verification: the telephone speech case | |
A Al-Karawi et al. | Automatic speaker recognition system in adverse conditions—implication of noise and reverberation on system performance | |
Özseven et al. | SPeech ACoustic (SPAC): A novel tool for speech feature extraction and classification | |
Kim et al. | Hierarchical approach for abnormal acoustic event classification in an elevator | |
Jadhav et al. | Audio splicing detection using convolutional neural network | |
Archana et al. | Gender identification and performance analysis of speech signals | |
US20120078625A1 (en) | Waveform analysis of speech | |
Singh et al. | Usefulness of linear prediction residual for replay attack detection | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Singh et al. | Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection. | |
Kadiri | A quantitative comparison of epoch extraction algorithms for telephone speech | |
Aroon et al. | Speaker recognition system using Gaussian Mixture model | |
Peer et al. | Reverberation matching for speaker recognition | |
Singh et al. | A critical review on automatic speaker recognition | |
Saratxaga et al. | Use of harmonic phase information for polarity detection in speech signals. | |
Zhao et al. | Audio source authentication and splicing detection using acoustic environmental signature | |
McLoughlin | The use of low-frequency ultrasound for voice activity detection | |
Patole et al. | Acoustic environment identification using blind de-reverberation | |
Lipeika | Optimization of formant feature based speech recognition | |
Shabtai et al. | Towards room-volume classification from reverberant speech using room-volume feature extraction and room-acoustics parameters | |
Stanek et al. | Comparison of fundamental frequency detection methods and introducing simple self-repairing algorithm for musical applications | |
Sharma et al. | Evaluation of pitch estimation in noisy speech for application in non-intrusive speech quality assessment | |
Ahmed et al. | Text-independent speaker recognition based on syllabic pitch contour parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201124 |