CN108538312B - 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 - Google Patents

基于贝叶斯信息准则的数字音频篡改点自动定位的方法 Download PDF

Info

Publication number
CN108538312B
CN108538312B CN201810401376.1A CN201810401376A CN108538312B CN 108538312 B CN108538312 B CN 108538312B CN 201810401376 A CN201810401376 A CN 201810401376A CN 108538312 B CN108538312 B CN 108538312B
Authority
CN
China
Prior art keywords
points
tampering
bic
sequence
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810401376.1A
Other languages
English (en)
Other versions
CN108538312A (zh
Inventor
王志锋
王静
左明章
叶俊民
田元
闵秋莎
夏丹
陈迪
罗恒
姚璜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201810401376.1A priority Critical patent/CN108538312B/zh
Publication of CN108538312A publication Critical patent/CN108538312A/zh
Application granted granted Critical
Publication of CN108538312B publication Critical patent/CN108538312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Abstract

本发明属于数字音频信号处理技术领域,公开了一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法,对待测篡改信号进行活动语音检测,确定语音信号中的静音段;静音段分帧后依次提取每帧的美尔频率倒谱系数特征,按时序对特征序列再进行长窗分帧;计算每个长时特征帧的BIC值;取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,并在静音段中以其为中点,前后分别截断;对每个包含可疑点的截断窗计算BIC值序列。本发明实现了数字音频篡改点的自动定位,相对于传统的篡改检测方法降低了计算量,减少了篡改点的漏检率,避免了阈值选择的问题,对使用噪声对篡改点进行掩盖的情况具有鲁棒性。

Description

基于贝叶斯信息准则的数字音频篡改点自动定位的方法
技术领域
本发明属于数字音频信号处理技术领域,尤其涉及一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法。
背景技术
目前,业内常用的现有技术是这样的:
随着计算机及互联网相关技术的发展,人们交换信息的方式快速地从模拟化转向数字化。数字音频数据易于保存、编辑和传播的优点给人们日常生活带来诸多便利和乐趣,大多数人不需要任何专业知识就可以简单快捷地使用音频编辑软件对数字音频文件进行拼接、加入噪声和变换等操作。但是数字化时代给人们带来便捷的同时也带来了隐患,那就是数字信息安全问题。数字音频篡改检测是数字音频取证的一个重要分支,在司法取证、新闻公正和科学发现等领域有着广泛应用,近年来吸引着越来越多的信息安全研究者。其中的一个热点问题就是数字音频篡改点定位,即判断待测数字音频文件是否被篡改过,并准确定位其篡改点的位置。
目前专门针对数字音频篡改点定位的研究还不是很多,主要从以下四个方面来切入。基于帧间一致性的定位方法,对语音信号进行分帧操作后,对每帧信号提取某些特征,并对该特征的分布或者走向进行理想预测,根据待测信号每帧信号特征间的一致性判断是否存在异常的帧,Rodríguez等首先提取待测信号中的ENF成分,并对ENF信号进行分帧。使用高精度的相位估计方法估计每帧信号的相位,根据ENF相位变化的一致性来检测音频篡改,而相位突变处就是篡改点。胡永健等提出改进策略,引入一个理想的正弦信号作为参考信号,将参考信号与ENF成分进行对比,同样分别进行分帧操作,每帧计算二者相对偏移,构造特征量判定篡改是否发生,若存在篡改,最大偏移处即是篡改点;基于片段相似性的定位方法,指音频中存在完全相同的两个片段,可以使用音节分割的方法分离出音频信号中的音节,并用特征对音节进行描述,量化特征之间的相似度,石倩等选取归一化零均值互相关来量化音频任意音节之间的匹配度,将匹配度与阈值进行比较来判断。柳永娟等通过对音频文件中的音节进行分割作主成分分析,取最能代表音节相关性的特征量来比较两个音节之间的相似性。黄昊等针对上述方法在低信噪比的情况下的不适用性,将ZNCC改为Pearson相关系数;基于谱突变点的定位方法,数字音频信号是一个离散数据列,这些数据具有一定的相互关系。可以利用数学知识对离散数据进行变换域运算,或者利用数字信号处理领域的知识对信号进行时频转换、数据映射、线性预测和倒谱变换等,从解析层面上对篡改区域进行定位。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变,使用Hilbert变换计算ENF信号的瞬时频率得到待测信号频率谱。提出TPSW方法估计ENF背景变化水平,将频率谱中超出背景变化水平的突变点既篡改操作点;基于篡改点的频带变化不连续的定位方法,在语音信号的各个频带分布中,相应的变化也是有规律的,通过频带的划分,对频带内波动变化进行分析,在频带之间进行对应,最后对篡改点进行精确定位。
综上所述,现有技术存在的问题是:
(1)没有统一的数字音频篡改定位标准操作流程,对于实验结果没有统一的评价标准;
(2)目前大多数传统的数字音频篡改检测方法计算量大,且定位不准确;
(3)目前的数字音频篡改点检测方案不能够实现自动化,需要研究人员凭借经验知识设定阈值作为评判标准,且对不同的数据库信号的自适应性差。
解决上述技术问题的难度和意义:
确立数字音频篡改点定位的标准操作流程对于后续研究工作具有开创性和导向性,方便建立专门的实验语音数据库,为今后的实验结果建立统一的评价标准,令篡改点检测研究体系基本建立;篡改点定位最大的困难在于精确定位,本发明提供了一种精确定位的技术手段;没有统一的数据库,而大多数的启发式研究方案自适应性差,因此实现自动化的检测对于研究工作和应用都有重大意义。
发明内容
针对现有技术存在的问题,本发明提供了一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法。本发明通过分割语音信号中的静音帧,并提取静音帧的MFCC特征,接着按时序再对特征进行长窗分帧,根据BIC准则计算每个长时特征帧的BIC值;取所有长时特征帧的BIC值所组成的序列中的所有波峰点作为可疑篡改点,并在原静音段中以其为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算BIC值序列,使用高斯模型对BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗。对包含篡改点的截断窗,进行迭代计算,进一步实现自动精确地定位篡改点。本发明基于特征选择模型BIC进行数字音频篡改点的分析和自动定位,对待测信号的静音帧提取MFCC特征,通过迭代的方法对特征序列进行分帧计算BIC值,进一步分析篡改点的存在和准确位置。该方法提取语音倒谱特征,根据模型选择方法BIC,能够自动定位待测语音中位于静音部分的拼接点,规避了大多数篡改定位中面临的阈值选择问题。相对于传统的BIC方法降低了计算量,具有较高的检测精度,对使用噪声对篡改点进行掩盖的情况具有较好鲁棒性。
本发明是这样实现的,一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法,包括:
步骤1:基于篡改点位于静音段的假设,对篡改信号分帧进行活动语音检测,剔除语音帧,留下静音帧;
步骤2:提取静音帧的MFCC特征,依时间序列对特征集按时长再分帧得到长时特征帧,为了初步确定潜在的篡改点,依据BIC准则计算长时特征帧的BIC值;
步骤3:取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,并以其为中点向前向后延长取窗;
步骤4:对每个包含可疑篡改点的截断窗计算BIC值序列,对每个BIC序列进行高斯拟合,得到拟合参数作为特征;
步骤5:使用支持向量机对拟合特征进行分类器训练,对任一拟合特征进行分类,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,可以对篡改点进行精确定位。
传统的活动语音检测方法是基于短时平均能量和短时平均过零率的二级判决来实现的,但是在噪音环境下会抑制这种处理方法的性能。本发明测量语音和噪声之间长期的频谱差异,通过比较长期的频谱包络与平均噪声谱,建立语音/非语音判决规则,从而产生一个不依赖信号质量的判别决策规则。对信号分帧进行活动语音检测,得到语音活动区域指示指标。
进一步,步骤2的具体实现包括以下子步骤:
步骤A1:根据步骤1得到的语音活动区域指示指标,提取待测信号中的静音帧,并对每帧提取MFCC特征,得到特征序列m[d],d表示帧数;
步骤A2:依时间序列对特征序列m[d]按时长进行再分帧,依据BIC准则计算每个长时特征帧的BIC值,得到BIC值序列p[m],m表示特征序列;
步骤A1中,根据步骤1中得到的语音活动指示指标,分离出待测信号的所有静音帧,按时序提取每一帧的MFCC特征,得到特征序列m[d],d表示帧数。
进一步,步骤A2中,BIC准则是一种模型选择的统计学方法,令X={xi:i=1,…,N}表示需要建模的数据集,令M={Mi:i=1,…,K}表示所需参数模型的候选项,假设我们为每个模型M分别最大化似然函数,得到L(X,M),定义#(M)表示模型M的参数个数,BIC准则定义为:
Figure GDA0002425159870000041
惩罚权重λ=1。BIC操作的目的是选择模型BIC准则最大的。
对特征序列m[d]进行帧长为5s帧移为1s的再分帧,得到长时特征帧,为了减少计算量,每个长时特征帧只取一个BIC值,以长时特征帧的中点为界,依据BIC准则计算每个长时特征帧的BIC值,得到BIC值序列p[m],m表示长时特征帧的个数。
进一步,步骤3中具体为:
对步骤2得到的BIC值序列p[m],取每个长时特征帧的BIC序列中的所有波峰点作为可疑篡改点,对于每个可疑篡改点,向前向后分别取2s,按时序得到多个可疑截断窗。
进一步,步骤4中具体为:
对每个包含可疑点的截断窗计算BIC值,得到BIC值序列,对每个BIC序列进行高斯拟合,得到拟合参数,高斯拟合表达式如下:
y=a*exp(-((x-b)/c)^2)
其中表达式参数即为拟合特征。
进一步,步骤5中具体为:
使用SVM学习器对拟合特征进行训练,得到分类器可以对任一拟合特征进行分类,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,篡改点即为位于截断窗中点的波峰处。
本发明的另一目的在于提供一种实现所述基于贝叶斯信息准则的数字音频篡改点自动定位的方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于贝叶斯信息准则的数字音频篡改点自动定位的方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于贝叶斯信息准则的数字音频篡改点自动定位的方法。
本发明的另一目的在于提供一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法数字音频信号处理系统。
综上所述,本发明的优点及积极效果为:
本发明方法对来源不同的语音拼接具有较高的检测精度,并且规避了大多数篡改定位中面临的阈值选择问题,实现了自动定位,相对于传统的BIC方法降低了计算量,减少了篡改点的漏检率,避免了阈值选择的问题,对使用噪声对篡改点进行掩盖的情况具有鲁棒性。
本发明使用模型鉴别中的改进的BIC准则,并具体应用到数字音频篡改点检测研究中,相对于传统方法降低了计算量,提高了检测精度;
本发明对数字音频静音段的篡改点进行自动定位,实现了数字音频篡改定位的自动化,自适应性好;
本发明针对使用各种噪声对篡改点进行掩饰的情况,具有很强的鲁棒性。
本发明为数字音频篡改点检测的准确性和自动化提出了一种广泛性的算法。
本发明仿真实验中,所使用的实验数据来自于十条不同环境下的自录音频。用MATLAB读取这些自录音频,首先提取每条音频片段中的静音段,并拼接在一起,得到十条不同环境的静音录音20min。对每条静音进行每5s切割分段,并依次进行拼接,每段静音不会和同一来源的静音段拼接。将全部的静音段拼接起来,其中的拼接点就是目标的拼接篡改点,本次实验共有个2359拼接点。
依据上述具体实施步骤中的1,2本次实验共得到了8936可疑篡改点,依据实施步骤3取得了8934个可疑截断窗(去掉首尾),依据实施步骤4,得到8934例高斯拟合参数特征。将可疑篡改点与特征进行一一对应,依据截断操作信息(相隔5s有一个拼接点)对特征进行标记,得到带标记的特征集,其中篡改点(正例)有2359个,虚警点有6575个。使用SVM分类器对特征集进行十折交叉验证,分类精度达到99.7%。
附图说明
图1是本发明实施例提供的基于贝叶斯信息准则的数字音频篡改点自动定位的方法流程图。
图2是本发明实施例提供的MFCC特征序列长时分帧BIC序列图。
图3是本发明实施例提供的图2中的包含篡改点的截断窗的BIC序列图。
图4是本发明实施例提供的图2中的包含虚警点的截断窗的BIC序列图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于篡改单位于静音段的假设,通过对待测篡改信号进行端点检测,取得语音信号中的静音帧;接着依次提取静音帧的梅尔频率倒谱系数(Mel-FrequencyCepstrum Coefficients,MFCC)特征,接着按时序对特征序列再进行长窗分帧,根据贝叶斯信息准则(Bayesian Information Criterion,BIC),计算每个长时特征帧的BIC序列;取每个长时特征帧的BIC序列中的所有波峰点作为可疑篡改点,并以其为中点,前后分别取2s截断;对每个包含可疑点的截断窗计算BIC值序列,使用高斯分布对每个截断窗的BIC序列进行拟合,提取拟合特征,进行分类,自动区分篡改点和虚警点;判定存在篡改点的截断窗的峰值点即为本发明所定位的篡改点。本发明基于特征选择模型BIC进行数字音频篡改点的分析和定位,对待测信号的静音帧提取MFCC特征,通过迭代的方法对特征序列进行分帧计算BIC值,进一步分析篡改点的存在和准确位置,对是否包含篡改点的BIC序列进行特征分析,使用分类方法进行区分,实现了自动化。本发明方法对来源不同的语音拼接具有较高的检测精度,并且规避了大多数篡改定位中面临的阈值选择问题,实现了自动定位,相对于传统的BIC方法降低了计算量,减少了篡改点的漏检率,避免了阈值选择的问题,对使用噪声对篡改点进行掩盖的情况具有鲁棒性。
如图1所示,本发明实施例提供的基于贝叶斯信息准则的数字音频篡改点自动定位的方法,包括以下步骤:
步骤1:基于篡改点位于静音段的假设,对篡改信号分帧进行活动语音检测,剔除语音帧,留下静音帧;
目前领域内相关研究基本是基于篡改点位于静音帧(噪声帧)的前提,一方面拼接、删除、复制粘贴等篡改操作的研究更具有挑战性和实用性,更多的研究工作着力于这种类型的篡改操作。而对于这种篡改操作而言,其目的就在于扭曲说话人的语义,因此篡改点位于静音帧更加不易被察觉且更易操作;另一方面,当论文将静音帧作为背景噪声时,因为背景噪声与语音的分离十分困难,若检测出篡改点位于语音帧,那么这个结果误检的可能性非常大,经常不被采纳。故本发明基于篡改点位于静音段的假设进行。
传统的活动语音检测方法是基于短时平均能量和短时平均过零率的二级判决来实现的,但是在噪音环境下会抑制这种处理方法的性能。本发明测量语音和噪声之间长期的频谱差异,通过比较长期的频谱包络与平均噪声谱,建立语音/非语音判决规则,从而产生一个不依赖信号质量的判别决策规则。对信号分帧进行活动语音检测,得到语音活动区域指示指标。
步骤2:提取静音帧的MFCC特征,依时间序列对特征集按时长再分帧得到长时特征帧,为了初步确定潜在的篡改点,依据BIC准则计算长时特征帧的BIC值;
具体实现包括以下子步骤:
步骤A1:根据步骤1得到的语音活动区域指示指标,提取待测信号中的静音帧,并对每帧提取MFCC特征,得到特征序列m[d],d表示帧数;
Mel频率倒谱系数的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC依据的听觉机理有两个,包括人的主观感知频域的划定并不是线性的Fmel=1125log(1+f/700)
还有人耳对一个频率群感知的临界带,按照临界带的划分,将语音在频域上划分成一系列的频率群组成Mel滤波器组。
本实施例根据步骤1中得到的语音活动指示指标,分割出语音信号中所有静音帧,设置24个Mel滤波器组,提取每一帧的MFCC特征,得到特征序列m[d],d表示帧数。
步骤A2:依时间序列对特征序列m[d]按时长进行再分帧,依据BIC准则计算每个长时特征帧的BIC值,得到BIC值序列p[m],m表示特征序列;
对特征序列m[d]进行帧长为5s帧移为1s的再分帧,得到长时特征帧,为了减少计算量,每个长时特征帧只取一个BIC值,以长时特征帧的中点为界,依据BIC准则计算每个长时特征帧的BIC值,得到BIC值序列p[m],m表示长时特征帧的个数。
BIC准则是一种模型选择的统计学方法,用于检测高斯模型转变的最大似然方法,可以用于检测说话人身份、环境条件和信道的突然变化。模型选择的问题在于在一组候选模型中选择一个来描述给定的数据集。通常都有一系列的候选模型且带有不同的参数。显然当模型的参数增加,训练数据的可能性(likelihood)就会增加。然而,当参数个数太多时,也会导致过度训练的问题。因此,BIC是一个似然准则受到模型的参数的个数也就是模型复杂度的限制。
定义x={xi∈Rd,i=1,…,N}为从音频流中提取出的MFCC特征序列,假设x是从一个独立的多维高斯得到的:xi~N(μii)。假设高斯过程至多有一个变化点,我们感兴趣的是在时刻i上发生改变的假设检验:
H0:x1,…xN~N(μ,Σ)
相反:
H1:x1,…,xi~N(μ11);xi+1,…,xN~N(μ22)
最大似然比统计量为:
R(i)=Nlog|Σ|-N1log|Σ1|-N2log|Σ2|
因此,变化点i的最大似然估计是:
Figure GDA0002425159870000092
另一方面若把这个假设检验当做是一个模型选择问题,比较两个模型:一个模型的数据是两个高斯,另一个模型的数据是一个高斯。两种模型之间的BIC值之间的差异可以表示为:
BIC(i)=R(i)-λP。
R(i)就是前面定义的最大似然率,惩罚系数P是
Figure GDA0002425159870000091
惩罚的权重为λ=1,d特征空间维度,如果BIC(i)所得是正值,那么两个高斯模型的假设是得到支持的:{maxBIC(i)}>0。本发明实验结果如图2所示。
BIC用于检测篡改点的性能很大程度上依赖于被真实的改变点所分开的两部分分别属于两个高斯模型的数据量,定义一个改变点的可检测性为:D(t)=min(t,N-t),一般而言可检测性大于2秒,那么BIC所得到的结论是可信任的。
步骤3:取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,并以其为中点向前向后延长取窗;
本实施例对步骤2得到的BIC值序列p[m],取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,对于每个可疑的篡改点,在原静音段中,向前向后分别取2s,按时序得到多个可疑截断窗。
步骤4:对每个包含可疑点的截断窗计算BIC值序列,对每个BIC序列进行高斯拟合,得到拟合参数作为特征;
本实施例对每个包含可疑点的截断窗计算BIC值,得到BIC值序列,若使用{maxBIC(i)}>0的原则判断篡改点存在与否会出现一定的偏差。故在本发明中对判断篡改点是否存在的问题进行模式化分析,依次对每个可疑篡改点进行观察,可以看出篡改点表现出明显的篡改特征,其BIC序列呈高斯分布,且分布集中在高斯均值附近,如图3所示;而非篡改点没有表现出明显的高斯分布特征,数据分布散乱程度大,如图4所示。根据包含篡改点的截断窗的BIC序列分布特征,选择使用高斯模型来进行拟合。高斯模型适合用来拟合峰值,其公式如下:
y=a*exp(-((x-b)/c)^2)
其中表达式的参数即为拟合特征。对所有截断窗计算BIC序列,并提取拟合特征集。
步骤5:对拟合特征进行分类,自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,可以对篡改点进行精确定位。
本实施例使用支持向量机对拟合特征进行分类器训练,对任一拟合特征进行分类,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,篡改点即为位于截断窗中点的波峰处。
下面结合仿真实验对本发明作进一步描述。
本发明所使用的实验数据来自于十条不同环境下的自录音频。用MATLAB读取这些自录音频,首先提取每条音频片段中的静音段,并拼接在一起,得到十条不同环境的静音录音20min。对每条静音进行每5s切割分段,并依次进行拼接,每段静音不会和同一来源的静音段拼接。将全部的静音段拼接起来,其中的拼接点就是目标的拼接篡改点,本次实验共有个2359拼接点。
依据上述具体实施步骤中的1,2本次实验共得到了8936可疑篡改点,依据实施步骤3取得了8934个可疑截断窗(去掉首尾),依据实施步骤4,得到8934例高斯拟合参数特征。将可疑篡改点与特征进行一一对应,依据截断操作信息(相隔5s有一个拼接点)对特征进行标记,得到带标记的特征集,其中篡改点(正例)有2359个,虚警点有6575个。使用SVM分类器对特征集进行十折交叉验证,分类精度达到99.7%。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于贝叶斯信息准则的数字音频篡改点自动定位的方法,其特征在于,所述基于贝叶斯信息准则的数字音频篡改点自动定位的方法包括:
通过对待测篡改信号进行端点活动语音检测,确定语音信号中的静音段;静音段分帧后依次提取每帧的梅尔频率倒谱系数特征,按时序对特征序列再进行长窗分帧;根据贝叶斯信息准则,计算每个长时特征帧的BIC值;
取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,并在静音段中以可疑篡改点为中点,前后分别取2s截断;对每个包含可疑点的截断窗计算BIC值序列,使用高斯分布对每个截断窗的BIC序列进行拟合;提取拟合特征,进行分类,区分篡改点和虚警点;判定存在篡改点的截断窗的峰值点是否为定位的篡改点。
2.如权利要求1所述的基于贝叶斯信息准则的数字音频篡改点自动定位的方法,其特征在于,所述基于贝叶斯信息准则的数字音频篡改点自动定位的方法具体包括:
步骤一:基于篡改点位于静音段的假设,对篡改信号分帧进行活动语音检测,剔除语音帧,留下静音帧;
步骤二:提取静音帧的MFCC特征,依时间序列对特征集按时长再分帧得到长时特征帧,依据BIC准则计算每个长时特征帧的BIC值,初步确定潜在的篡改点;
步骤三:取所有长时特征帧的BIC值组成的序列中的所有波峰点作为可疑篡改点,并以可疑篡改点为中点向前向后延长取窗;
步骤四:对每个包含可疑篡改点的截断窗计算BIC值序列,对每个BIC序列进行高斯拟合,得到拟合参数作为特征;
步骤五:使用支持向量机对拟合特征进行分类器训练,对任一拟合特征进行分类,自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,对篡改点进行精确定位。
3.如权利要求2所述的基于贝叶斯信息准则的数字音频篡改点自动定位的方法,其特征在于,对篡改信号分帧进行活动语音检测中,测量语音和噪声之间长期的频谱差异,通过比较长期的频谱包络与平均噪声谱,建立语音/非语音判决规则,产生一个不依赖信号质量的判别决策规则;对信号分帧进行活动语音检测,得到语音活动区域指示指标。
4.如权利要求2所述的基于贝叶斯信息准则的数字音频篡改点自动定位的方法,其特征在于,步骤二,具体包括:
步骤A1:根据步骤一得到的语音活动区域指示指标,提取待测信号中的静音帧,并对每帧提取MFCC特征,得到特征序列m[d],d表示帧数;
步骤A2:依时间序列对特征序列m[d]按时长进行再分帧,依据BIC准则计算每个长时特征帧的BIC值,得到BIC值序列p[m],m表示特征序列;
步骤A1中,根据步骤一中得到的语音活动指示指标,分离出待测信号的所有静音帧,按时序提取每一帧的MFCC特征;
步骤A2中,BIC准则是一种模型选择的统计学方法,令X={xi:i=1,…,N}表示需要建模的数据集,令M={Mi:i=1,…,K}表示所需参数模型的候选项,假设为每个模型M分别最大化似然函数,得到L(X,M),定义#(M)表示模型M的参数个数,BIC准则定义为:
Figure FDA0002444333910000021
惩罚权重λ=1;
对特征序列m[d]进行帧长为5s帧移为1s的再分帧,得到长时特征帧,为了减少计算量,每个长时特征帧只取一个BIC值,依据BIC准则计算每个长时特征帧的BIC值;
步骤三,具体包括:
对步骤二得到的BIC值序列p[m],取每个长时特征帧的BIC序列中的所有波峰点作为可疑篡改点,对于每个可疑篡改点,向前向后分别取2s,按时序得到多个可疑截断窗;
步骤四,具体包括:
对每个包含可疑点的截断窗计算BIC值,得到BIC值序列,对每个BIC序列进行高斯拟合,得到拟合参数,高斯拟合表达式如下:
y=a*exp(-((x-b)/c)^2)
其中表达式参数为拟合特征;
步骤五,具体包括:
使用支持向量机对拟合特征进行分类器训练,对任一拟合特征进行分类,自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,篡改点为位于截断窗中点的波峰处。
5.一种实现权利要求1~4任意一项所述基于贝叶斯信息准则的数字音频篡改点自动定位的方法的信息数据处理终端。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~4任意一项所述的基于贝叶斯信息准则的数字音频篡改点自动定位的方法。
7.一种如权利要求1所述的基于贝叶斯信息准则的数字音频篡改点自动定位的方法数字音频信号处理系统。
CN201810401376.1A 2018-04-28 2018-04-28 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 Active CN108538312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810401376.1A CN108538312B (zh) 2018-04-28 2018-04-28 基于贝叶斯信息准则的数字音频篡改点自动定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810401376.1A CN108538312B (zh) 2018-04-28 2018-04-28 基于贝叶斯信息准则的数字音频篡改点自动定位的方法

Publications (2)

Publication Number Publication Date
CN108538312A CN108538312A (zh) 2018-09-14
CN108538312B true CN108538312B (zh) 2020-06-02

Family

ID=63476466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810401376.1A Active CN108538312B (zh) 2018-04-28 2018-04-28 基于贝叶斯信息准则的数字音频篡改点自动定位的方法

Country Status (1)

Country Link
CN (1) CN108538312B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
CN110853668B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于多种特征融合的语音篡改检测方法
CN112634942B (zh) * 2020-12-28 2022-05-17 深圳大学 一种手机录音原始性的鉴定方法、存储介质及设备
CN113516969B (zh) * 2021-09-14 2021-12-14 北京远鉴信息技术有限公司 一种拼接语音的鉴别方法、装置、电子设备及存储介质
CN113555037B (zh) * 2021-09-18 2022-01-11 中国科学院自动化研究所 篡改音频的篡改区域检测方法、装置及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100505040C (zh) * 2005-07-26 2009-06-24 浙江大学 基于决策树和说话人改变检测的音频分割方法
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
CN101398826A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 自动提取体育节目精彩片断的方法和设备
US20100114345A1 (en) * 2008-11-03 2010-05-06 Telefonica, S.A. Method and system of classification of audiovisual information
US8433567B2 (en) * 2010-04-08 2013-04-30 International Business Machines Corporation Compensation of intra-speaker variability in speaker diarization
CN102655002B (zh) * 2011-03-01 2013-11-27 株式会社理光 音频处理方法和音频处理设备
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN107480152A (zh) * 2016-06-08 2017-12-15 北京新岸线网络技术有限公司 一种音频分析及检索方法和系统
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统

Also Published As

Publication number Publication date
CN108538312A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
JP7152514B2 (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
US9881617B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
US9875742B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US9368116B2 (en) Speaker separation in diarization
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
CN109712641A (zh) 一种基于支持向量机的音频分类和分段的处理方法
CN109766929A (zh) 一种基于svm的音频分类方法及系统
Zhang et al. An overview of speech endpoint detection algorithms
Zewoudie et al. The use of long-term features for GMM-and i-vector-based speaker diarization systems
Wu et al. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model
CN107480152A (zh) 一种音频分析及检索方法和系统
Wei et al. Research on sound classification based on SVM
Naik et al. Filter selection for speaker diarization using homomorphism: speaker diarization
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
KR20150061669A (ko) 음성/무음성 구간 검출 방법 및 장치
Krishnamoorthy et al. Hierarchical audio content classification system using an optimal feature selection algorithm
Kenai et al. A new architecture based VAD for speaker diarization/detection systems
Patil et al. Content-based audio classification and retrieval: A novel approach
Ramaiah et al. Speaker diarization system using MKMFCC parameterization and WLI-fuzzy clustering
Uzkent et al. Pitch-range based feature extraction for audio surveillance systems
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
Leung et al. Ica-fx features for classification of singing voice and instrumental sound

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant