CN108831506A - 基于gmm-bic的数字音频篡改点检测方法及系统 - Google Patents

基于gmm-bic的数字音频篡改点检测方法及系统 Download PDF

Info

Publication number
CN108831506A
CN108831506A CN201810662831.3A CN201810662831A CN108831506A CN 108831506 A CN108831506 A CN 108831506A CN 201810662831 A CN201810662831 A CN 201810662831A CN 108831506 A CN108831506 A CN 108831506A
Authority
CN
China
Prior art keywords
gmm
bic
little
characteristic
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810662831.3A
Other languages
English (en)
Other versions
CN108831506B (zh
Inventor
王志锋
王静
左明章
叶俊民
闵秋莎
姚璜
夏丹
田元
陈迪
宁国勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Central China Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201810662831.3A priority Critical patent/CN108831506B/zh
Publication of CN108831506A publication Critical patent/CN108831506A/zh
Application granted granted Critical
Publication of CN108831506B publication Critical patent/CN108831506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明属于涉及数字音频信号处理技术领域,公开了一种基于GMM‑BIC的数字音频篡改点检测方法及系统,使用GMM‑BIC方法代替了传统的SGM‑BIC用于数字音频篡改点检测,GMM的特性使得该方法可以表示更多的信息,对较长或者较短的语音段均有较好的表示效果;使用神经网络对拟合特征进行分类,得到更高的分类效果。本发明实现了数字音频篡改定位的自动化,自适应性好;针对相隔较近的拼接篡改点和使用各种噪声对篡改点进行掩饰的篡改操作,具有很强的鲁棒性;为数字音频篡改点检测的准确性和自动化提出了一种广泛性的算法。

Description

基于GMM-BIC的数字音频篡改点检测方法及系统
技术领域
本发明属于涉及数字音频信号处理技术领域,尤其涉及一种基于GMM-BIC的数字音频篡改点检测方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
随着计算机及互联网相关技术的发展,人们交换信息的方式快速地从模拟化转向数字化。数字音频数据易于保存、编辑和传播的优点给人们日常生活带来诸多便利和乐趣,大多数人不需要任何专业知识就可以简单快捷地使用音频编辑软件对数字音频文件进行拼接、加入噪声和变换等操作。但是数字化时代给人们带来便捷的同时也带来了隐患,那就是数字信息安全问题。数字音频篡改检测是数字音频取证的一个重要分支,在司法取证、新闻公正和科学发现等领域有着广泛应用,近年来吸引着越来越多的信息安全研究者。其中的一个热点问题就是数字音频篡改点定位,即判断待测语音文件是否由多段语音拼接而成,并准确定位其拼接点的位置。
目前专门针对数字音频篡改点定位的研究还不是很多,主要从以下四个方面来切入。基于帧间一致性的定位方法,对语音信号进行分帧操作后,对每帧信号提取某些特征,并对该特征的分布或者走向进行理想预测,根据待测信号每帧信号特征间的一致性判断是否存在异常的帧,Rodríguez首先提取待测信号中的ENF成分,并对ENF信号进行分帧。使用高精度的相位估计方法估计每帧信号的相位,根据ENF相位变化的一致性来检测音频篡改,而相位突变处就是篡改点。胡永健等提出改进策略,引入一个理想的正弦信号作为参考信号,将参考信号与ENF成分进行对比,同样分别进行分帧操作,每帧计算二者相对偏移,构造特征量判定篡改是否发生,若存在篡改,最大偏移处即是篡改点;基于片段相似性的定位方法,指音频中存在完全相同的两个片段,可以使用音节分割的方法分离出音频信号中的音节,并用特征对音节进行描述,量化特征之间的相似度,石倩选取归一化零均值互相关来量化音频任意音节之间的匹配度,将匹配度与阈值进行比较来判断。柳永娟通过对音频文件中的音节进行分割作主成分分析,取最能代表音节相关性的特征量来比较两个音节之间的相似性。黄昊针对上述方法在低信噪比的情况下的不适用性,将ZNCC改为Pearson相关系数;基于谱突变点的定位方法,数字音频信号是一个离散数据列,这些数据具有一定的相互关系。可以利用数学知识对离散数据进行变换域运算,或者利用数字信号处理领域的知识对信号进行时频转换、数据映射、线性预测和倒谱变换等,从解析层面上对篡改区域进行定位。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变,使用Hilbert变换计算ENF信号的瞬时频率得到待测信号频率谱。提出TPSW方法估计ENF背景变化水平,将频率谱中超出背景变化水平的突变点既篡改操作点;基于篡改点的频带变化不连续的定位方法,在语音信号的各个频带分布中,相应的变化也是有规律的,通过频带的划分,对频带内波动变化进行分析,在频带之间进行对应,最后对篡改点进行精确定位。
综上所述,现有技术存在的问题是:
1)没有统一的数字音频篡改定位标准操作流程,对于实验结果没有统一的评价标准;
2)大多数的实验方法计算量大,且定位不准确;
3)实验方案不能够实现自动化,需要研究人员凭借经验知识设定阈值作为评判标准,且对不同的数据库信号的自适应性差。
4)目前领域内相关研究基本是基于篡改点位于静音帧(噪声帧)的前提,一方面拼接、删除、复制粘贴等篡改操作的研究更具有挑战性和实用性,更多的研究工作着力于这种类型的篡改操作。而对于这种篡改操作而言,其目的就在于扭曲说话人的语义,因此篡改点位于静音帧更加不易被察觉且更易操作;另一方面,当论文将静音帧作为背景噪声时,因为背景噪声与语音的分离十分困难,若检测出篡改点位于语音帧,那么这个结果误检的可能性非常大,经常不被采纳。
解决上述技术问题的意义:
建立统一的数字音频篡改定位操作流程对于规范和推进数字音频篡改点定位研究具有重大意义,有助于形成统一的定位准确度评价标准;不论是确认算法有效性阶段还是实际应用中,都需要处理大量语音信号数据,而高效且准确的算法是非常必要的;检测方法的自动化对于该方案的推广具有积极意义,而推广应用的重要前提就是它能在不同的待测数据下保持相同的精确度,具有较强的适应性;语音帧的活动一般比较复杂,在不能排除其中篡改点的存在的情况下,对于篡改点位于静音帧和语音帧的检测是同样重要的。
发明内容
针对现有技术存在的问题,本发明提供了一种基于GMM-BIC的数字音频篡改点检测方法及系统。
本发明是这样实现的,一种基于GMM-BIC的数字音频篡改点检测方法通过分割语音信号中的静音帧,并提取静音帧的MFCC特征,接着按时序再对特征进行长窗分帧,根据GMM-BIC模型,计算每个长时特征帧的GMM-BIC值;取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以其为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯模型对GMM-BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗。对包含篡改点的截断窗,进行迭代计算,进一步实现自动精确地定位篡改点。本发明基于特征选择模型GMM-BIC进行数字音频篡改点的分析和自动定位,对待测信号的静音帧提取MFCC特征,通过迭代的方法对特征序列进行分帧计算GMM-BIC值,进一步分析篡改点的存在和准确位置。该方法使用传统语音特征,自动定位待测语音中位于静音部分的拼接点,规避了大多数篡改定位中面临的阈值选择问题。相对于传统的BIC方法降低了计算量,具有较高的检测精度,对使用噪声对篡改点进行掩盖的情况具有鲁棒性。
进一步,基于GMM-BIC的数字语音信号篡改点自动检测方法,包括以下步骤:
步骤1:基于篡改语音信号的篡改点位于静音段的假设,通过活动语音检测,留下篡改语音信号的静音帧;
步骤2:提取静音帧的MFCC特征,接着按时序对特征序列再进行长时粗分帧,依据GMM-BIC准则计算长时特征帧的GMM-BIC值,初步计算待测信号的可疑篡改点位置;
步骤3:将所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以其为时间节点设置截断窗,增加篡改点附近特征点分辨率;
步骤4:对每个包含可疑篡改点的截断窗计算GMM-BIC值序列,使用高斯核对每个序列进行拟合,得到拟合参数作为特征;
步骤5:使用深度神经网络(DNN)对拟合特征构建分类器,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,可以对篡改点进行精确定位。
进一步,基于篡改语音信号的篡改点位于静音段的假设,对待测信号进行活动语音检测。传统的活动语音检测方法是基于短时平均能量和短时平均过零率的二级判决来实现的,但是在噪音环境下会抑制这种处理方法的性能。本发明测量语音和噪声之间长期的频谱差异,通过比较长期的频谱包络与平均噪声谱,建立语音/非语音判决规则,从而产生一个不依赖信号质量的判别决策规则。对信号分帧进行活动语音检测,得到语音活动区域指示指标。
进一步,步骤2的具体实现包括以下子步骤:
步骤A1:根据步骤1得到的语音活动区域指示指标,提取待测信号中的静音帧,并对每帧提取MFCC特征,得到特征序列m[d],d表示帧数;
步骤A2:依时间序列对特征序列m[d]按时长进行再分帧,依据GMM-BIC特征选择模型计算每个长时特征帧的GMM-BIC序列,得到GMM-BIC值序列p[m],m表示长时特征帧的个数;
进一步,步骤A1中,根据步骤1中得到的语音活动指示指标,分离出待测信号的所有静音帧,按时序提取每一帧的MFCC特征,得到特征序列m[d],d表示帧数。
进一步,步骤A2中,传统贝叶斯(BIC)准则是一种模型选择的统计学方法,令X={xi:i=1,…,N}表示需要建模的数据集,令M={Mi:i=1,…,K}表示所需参数模型的候选项,假设本发明为每个模型M分别最大化似然函数,得到L(X,M),定义#(M)表示模型M的参数个数,传统BIC准则定义为:
惩罚权重λ=1。BIC操作的目的是选择模型BIC准则最大的点。传统BIC准则在数据建模中使用单高斯模型(SGM),又称为SGM-BIC,因为单高斯信息表示能力有限,不能有效地处理过短或者过长的语音段。
为了获得更多的语音段信息,本发明使用高斯混合模型(GMM)来对数据集进行建模,称为GMM-BIC方法。结合Jensen不等式和BIC准则,音频信号的高斯混合密度模型为:
其中λ表示高斯混合模型,N是特征数据量,ωk表示每个高斯分量的权重
根据Jensen不等式:
其中
一般而言,D/2log(2π)+1/2log|Σk|远大于因此本发明可以忽略后者,上式可以写为:
最后logP(X|λ)可以表示为:
综上,基于混合高斯-贝叶斯信息准则(GMM-BIC)可应用于篡改点定位。
对特征序列m[d]进行帧长为5s帧移为1s的再分帧,得到长时特征帧,依据GMM-BIC模型计算每个长时特征帧的GMM-BIC值,组合得到GMM-BIC值序列p[m],m表示长时特征帧的个数。
进一步,步骤3中具体为:对步骤2得到的GMM-BIC值序列p[m],取其所有的波谷点作为可疑篡改点,对于每个可疑篡改点,向前向后分别取2s,按时序得到多个可疑截断窗。
进一步,步骤4中具体为:对每个包含可疑点的截断窗计算GMM-BIC值,得到GMM-BIC值序列,对每个GMM-BIC序列进行高斯拟合,得到拟合参数,高斯拟合表达式如下:
y=a*exp(-((x-b)/c)^2)
其中表达式参数即为拟合特征。
进一步,步骤5中具体为:使用DNN学习器对拟合特征进行训练,得到分类器可以对任一拟合特征进行分类,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,篡改点即为位于截断窗中点的波谷处。
本发明的另一目的在于提供一种实现所述基于GMM-BIC的数字音频篡改点检测方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于GMM-BIC的数字音频篡改点检测方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于GMM-BIC的数字音频篡改点检测方法。
本发明的另一目的在于提供一种实现所述基于GMM-BIC的数字音频篡改点检测方法的基于GMM-BIC的数字音频篡改点检测系统,所述基于GMM-BIC的数字音频篡改点检测系统包括:
MFCC特征提取模块,通过分割语音信号中的静音帧,并提取静音帧的MFCC特征;
GMM-BIC值计算模块,按时序再对特征进行长窗分帧,根据GMM-BIC模型,计算每个长时特征帧的GMM-BIC值;
篡改点截断窗确认模块,取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以可疑篡改点为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯模型对GMM-BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗;
篡改点定位模块,对包含篡改点的截断窗,进行迭代计算,自动精确地定位篡改点。
本发明的另一目的在于提供一种搭载有所述基于GMM-BIC的数字音频篡改点检测系统的数字音频信号处理控制系统。
综上所述,本发明的优点及积极效果为
本发明通过分割语音信号中的静音帧,并提取静音帧的MFCC特征,接着按时序再对特征进行长窗分帧,根据GMM-BIC模型,计算每个长时特征帧的GMM-BIC值;取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以其为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯模型对GMM-BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗。对包含篡改点的截断窗,进行迭代计算,进一步实现自动精确地定位篡改点。本发明基于特征选择模型GMM-BIC进行数字音频篡改点的分析和自动定位,对待测信号的静音帧提取MFCC特征,通过迭代的方法对特征序列进行分帧计算GMM-BIC值,进一步分析篡改点的存在和准确位置。该方法使用传统语音特征,自动定位待测语音中位于静音部分的拼接点,规避了大多数篡改定位中面临的阈值选择问题。相对于传统的BIC方法降低了计算量,具有较高的检测精度,对使用噪声对篡改点进行掩盖的情况具有鲁棒性。
本发明使用GMM-BIC方法代替了传统的SGM-BIC用于数字音频篡改点检测,GMM的特性使得该方法可以表示更多的信息,对较长或或者较短的语音段均有较好的表示效果;
本发明使用神经网络对拟合特征进行分类,得到更高的分类效果,实现了数字音频篡改定位的自动化,自适应性好;
本发明针对相隔较近的拼接篡改点和使用各种噪声对篡改点进行掩饰的篡改操作,具有很强的鲁棒性。
本发明为数字音频篡改点检测的准确性和自动化提出了一种广泛性的算法。
附图说明
图1是本发明实施例提供的基于GMM-BIC的数字音频篡改点检测方法流程图。
图2是本发明实施例提供的MFCC特征序列粗分帧GMM-BIC序列。
图3是本发明实施例提供对图2中的篡改点进行迭代的GMM-BIC序列。
图4是本发明实施例提供的对图2中的虚警点进行迭代的GMM-BIC序列。
图5是本发明实施例提供的神经网络的模型示意图。
图6是本发明实施例提供的基于GMM-BIC的数字音频篡改点检测系统示意图。
图中:1、MFCC特征提取模块;2、GMM-BIC值计算模块;3、篡改点截断窗确认模块;4、篡改点定位模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于篡改语音信号的篡改点位于静音段的假设,通过活动语音检测,留下篡改语音信号的静音帧;提取静音帧的美尔频率倒谱系数(Mel-Frequency CepstrumCoefficients,MFCC)特征,接着按时序对特征序列再进行长时粗分帧,依据特征选择模型GMM-BIC,初步计算待测信号的可疑篡改点位置;将所有长时特征帧所组成的GMM-BIC序列中的所有波谷点作为可疑篡改点,并以其为时间节点设置截断窗,增加篡改点附近特征点分辨率;对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯核对每个序列进行拟合,提取拟合特征;使用深层神经网络对拟合特征进行学习、分类,实现了自动区分篡改点和虚警点;判定存在篡改点的序列的波谷点即为本发明所定位的篡改点。本发明基于特征选择模型GMM-BIC进行数字语音信号篡改点的分析和定位,对篡改信号的静音帧提取MFCC特征,首先降低特征分辨率,然后通过迭代的方法对特征序列逐步分帧计算GMM-BIC值,进一步分析篡改点的存在和准确位置,对是否包含篡改点的GMM-BIC序列进行特征分析,使用神经网络分类,实现了自动化。本发明方法对来源不同的语音拼接具有较高的检测精度,并且规避了大多数篡改定位中面临的阈值选择问题,实现了自动定位,相对于传统的SGM-BIC方法减少了篡改点的漏检率,不再对可检测性提出要求,对相隔较近的拼接篡改点和使用噪声对篡改点进行掩盖的情况具有鲁棒性
如图1,本发明实施例提供的基于GMM-BIC的数字音频篡改点检测方法,包括:
步骤1:基于篡改点位于静音段的假设,对篡改信号分帧进行活动语音检测,剔除语音帧,留下静音帧;
目前领域内相关研究基本是基于篡改点位于静音帧(噪声帧)的前提,一方面拼接、删除、复制粘贴等篡改操作的研究更具有挑战性和实用性,更多的研究工作着力于这种类型的篡改操作。而对于这种篡改操作而言,其目的就在于扭曲说话人的语义,因此篡改点位于静音帧更加不易被察觉且更易操作;另一方面,当论文将静音帧作为背景噪声时,因为背景噪声与语音的分离十分困难,若检测出篡改点位于语音帧,那么这个结果误检的可能性非常大,经常不被采纳。故本发明基于篡改点位于静音段的假设进行。
对篡改信号分帧进行活动语音检测,传统的活动语音检测方法是基于短时平均能量和短时平均过零率的二级判决来实现的,但是在噪音环境下会抑制这种处理方法的性能。本发明测量语音和噪声之间长期的频谱差异,通过比较长期的频谱包络与平均噪声谱,建立语音/非语音判决规则,从而产生一个不依赖信号质量的判别决策规则。对信号分帧进行活动语音检测,得到语音活动区域指示指标。
步骤2:提取静音帧的MFCC特征,依时间序列对特征集按时长再分帧得到长时特征帧,为了初步确定潜在的篡改点,依据GMM-BIC计算长时特征帧的GMM-BIC值;
具体实现包括以下子步骤:
步骤A1:根据步骤1得到的语音活动区域指示指标,提取待测信号中的静音帧,并对每帧提取MFCC特征,得到特征序列m[d],d表示帧数;
Mel频率倒谱系数的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC依据的听觉机理有两个,包括人的主观感知频域的划定并不是线性的
Fmel=1125log(1+f/700)
还有人耳对一个频率群感知的临界带,按照临界带的划分,将语音在频域上划分成一系列的频率群组成Mel滤波器组。
本实施例根据步骤1中得到的语音活动指示指标,分割出语音信号中所有静音帧,设置24个Mel滤波器组,提取每一帧的MFCC特征,得到特征序列m[d],d表示帧数。
步骤A2:依时间序列对特征序列m[d]按时长进行再分帧,依据GMM-BIC计算每个长时特征帧的GMM-BIC值,所有GMM-BIC值组合得到GMM-BIC值序列p[m],m表示长时特征帧的个数;
传统BIC准则(SGM-BIC)是一种模型选择的统计学方法,用于检测高斯模型转变的最大似然方法,可以用于检测说话人身份、环境条件和信道的突然变化。模型选择的问题在于在一组候选模型中选择一个来描述给定的数据集。通常都有一系列的候选模型且带有不同的参数。显然当模型的参数增加,训练数据的可能性(likelihood)就会增加。然而,当参数个数太多时,也会导致过度训练的问题。因此,SGM-BIC是一个似然准则受到模型的参数的个数也就是模型复杂度的限制。
本发明使用GMM-BIC方法来进行篡改点定位,应用混合高斯(GMM)模型对语音特征建模,具体步骤如下。
首先计算ΔGMM-BIC序列的步骤为:定义x={xi∈Rd,i=1,…,N}为从静音帧中提取出的MFCC特征序列,假设x是从一个独立的混合高斯得到的:
如果高斯过程至少有一个变化点,本发明感兴趣的是在时刻i上发生改变的假设检验:
相反:
每个混合高斯的BIC值可以表示为:
接着ΔGMM-BIC可以由三个混合高斯的BIC值推导出来:
惩罚的权重为β=1,D特征空间维度。因此,变化点i的最大似然估计是:另一方面若把这个假设检验当做是一个模型选择问题,比较两个模型:一种是数据都来自于H0,另一种是数据以点i为界分别来自H1和H2。这个模型选择问题可以交给来做决定,如果存在,那么第二个模型的假设是得到支持的,且改变点就是点i。
传统的SGM-BIC用于检测篡改点的性能很大程度上依赖于被真实的改变点所分开的两部分分别属于两个单高斯模型的数据量,定义一个改变点的可检测性为:D(t)=min(t,N-t),一般而言只有当可检测性大于2秒,SGM-BIC所得到的结论才是可信任的。而GMM-BIC用于篡改点检测的优势在于即是两个篡改点相隔很近的情况下,依然有很好的检测效果。
图2表示存在两个篡改点的ΔGMM-BIC序列。
对特征序列m[d]进行帧长为5s帧移为1s的再分帧,得到长时特征帧,为了减少计算量,以长时特征帧的中点为界,每个长时特征帧只取一个GMM-BIC值,所有长时特征帧组合得到BIC值序列p[m],m表示长时特征帧的个数。
步骤3:取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以其为中点向前向后延长取窗;
本实施例对步骤2得到的GMM-BIC值序列p[m],取其所有的波谷点作为可疑篡改点,对于每个可疑的篡改点,向前向后分别取2s,按时序得到多个可疑截断窗。
步骤4:对每个包含可疑点的截断窗计算GMM-BIC值序列,对每个GMM-BIC序列进行高斯拟合,得到拟合参数作为特征;
如图6,本发明实施例提供的基于GMM-BIC的数字音频篡改点检测系统包括:
MFCC特征提取模块1,通过分割语音信号中的静音帧,并提取静音帧的MFCC特征;
GMM-BIC值计算模块2,按时序再对特征进行长窗分帧,根据GMM-BIC模型,计算每个长时特征帧的GMM-BIC值;
篡改点截断窗确认模块3,取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以可疑篡改点为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯模型对GMM-BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗;
篡改点定位模块4,对包含篡改点的截断窗,进行迭代计算,自动精确地定位篡改点。
下面结合具体分析对本发明作进一步描述。
本发明提供的实施例对每个包含可疑点的截断窗计算GMM-BIC值,得到GMM-BIC值序列,若设定阈值判断篡改点存在与否会出现一定的偏差。故在本发明中对判断篡改点是否存在的问题进行模式化分析,依次对每个可疑篡改点进行观察,可以看出篡改点表现出明显的篡改特征,其GMM-BIC序列呈倒高斯分布,且分布集中在高斯均值附近,如图3所示;而非篡改点没有表现出明显的高斯分布特征,数据分布散乱程度大,如图4所示。根据包含篡改点的截断窗的GMM-BIC序列分布特征,选择使用高斯模型来进行拟合。高斯模型适合用来拟合峰值,其公式如下:
y=a*exp(-((x-b)/c)^2)
其中表达式的参数即为拟合特征。对所有截断窗计算GMM-BIC序列,并提取拟合特征集。
步骤5:使用深度神经网络(DNN)对拟合特征构建分类器,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,可以对篡改点进行精确定位。
本实施例使用深度神经网络学习器对三维拟合特征数据集进行分类模型建构,使用一个输入层,包含3个输入节点;第一个隐层,包含6个隐层节点;第二个隐层,同样包含6个隐层节点;输出层为一个节点,采用Sigmoid函数进行类别判定。其他激活函数采用Sigmoid函数,既达到了去线性化的效果,也使得模型最后的输出不用引入其他的函数,便可以达到分类效果。结构如图5所示。初始化神经网络各个参数,将现有的7000多个样本随机抽取其中的的30%作为测试集,70%作为训练集,进行神经网络的模型训练及判定,最终得到模型对于正反例的识别率以及对应的模型参数。得到分类器可以对任一拟合特征进行分类,从而自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,篡改点即为位于截断窗中点的波谷处。
证明部分(具体实施例/实验/仿真/学分析/):
本发明使用的实验数据来自于不同环境下的十条自录音频,依据步骤1提取每条音频片段中的静音段,依次拼接在一起,得到十条不同环境的静音信号18min。对每条静音信号进行每3s的切割分段,分别进行拼接,确保每段静音不会和同一来源的静音段拼在一起。将全部的静音段拼接起来,其中的拼接点就是本发明需要检测确认出来的篡改点,本次实验共有3599个目标篡改点。依据上述具体实施步骤中的2本次实验共得到了12046个可疑篡改点,依据实施步骤3取得了12044个可疑截断窗(去掉首尾),依据实施步骤4,得到12044例高斯拟合参数特征。将可疑篡改点与特征进行一一对应,依据截断操作信息(相隔3s有一个拼接点)对特征进行标记,得到带标记的特征集,其中篡改点(正例)有3599个,虚警点有8445个。
依据步骤5,使用DNN对特征集进行分类,分类精度可以达到90%左右。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于GMM-BIC的数字音频篡改点检测方法,其特征在于,所述基于GMM-BIC的数字音频篡改点检测方法通过分割语音信号中的静音帧,并提取静音帧的MFCC特征;
接着按时序再对特征进行长窗分帧,根据GMM-BIC模型,计算每个长时特征帧的GMM-BIC值;
取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以可疑篡改点为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯模型对GMM-BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗;
对包含篡改点的截断窗,进行迭代计算,自动精确地定位篡改点。
2.如权利要求1所述的基于GMM-BIC的数字音频篡改点检测方法,其特征在于,所述基于GMM-BIC的数字音频篡改点检测方法具体包括:
步骤一:基于篡改语音信号的篡改点位于静音段的假设,通过活动语音检测,留下篡改语音信号的静音帧;
步骤二:提取静音帧的MFCC特征,接着按时序对特征序列再进行长时粗分帧,依据GMM-BIC准则计算长时特征帧的GMM-BIC值,初步计算待测信号的可疑篡改点位置;
步骤三:将所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以其为时间节点设置截断窗,增加篡改点附近特征点分辨率;
步骤四:对每个包含可疑篡改点的截断窗计算GMM-BIC值序列,使用高斯核对每个序列进行拟合,得到拟合参数作为特征;
步骤五:使用深度神经网络DNN对拟合特征构建分类器,自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,以对篡改点进行精确定位。
3.如权利要求2所述的基于GMM-BIC的数字音频篡改点检测方法,其特征在于,活动语音检测包括:测量语音和噪声之间长期的频谱差异,通过比较长期的频谱包络与平均噪声谱,建立语音/非语音判决规则,产生一个不依赖信号质量的判别决策规则;对信号分帧进行活动语音检测,得到语音活动区域指示指标;
步骤二具体包括:
步骤A1:根据步骤一得到的语音活动区域指示指标,提取待测信号中的静音帧,并对每帧提取MFCC特征,得到特征序列m[d],d表示帧数;
步骤A2:依时间序列对特征序列m[d]按时长进行再分帧,依据GMM-BIC特征选择模型计算每个长时特征帧的GMM-BIC值,所有长时特征帧的GMM-BIC值所组成的序列得到p[m],m表示长时特征帧的个数。
4.如权利要求3所述的基于GMM-BIC的数字音频篡改点检测方法,其特征在于,步骤A1中,根据步骤一中得到的语音活动指示指标,分离出待测信号的所有静音帧,按时序提取每一帧的MFCC特征,得到特征序列m[d],d表示帧数;
步骤A2中,使用高斯混合模型GMM对数据集进行建模,结合Jensen不等式和BIC准则,对模型进行变形;信号特征的高斯混合概率密度模型为:
其中λ表示高斯混合模型,N是特征数据量,ωk表示每个高斯分量的权重高斯混合密度是K个高斯概率密度的线性组合,D表示特征维度:
logP(X|λ)表示为:
5.如权利要求1所述的基于GMM-BIC的数字音频篡改点检测方法,其特征在于,步骤三中具体包括:
对步骤二得到的GMM-BIC值序列p[m],取GMM-BIC值序列p[m]所有的波谷点作为可疑篡改点,对于每个可疑篡改点,向前向后分别取2s,按时序得到多个可疑截断窗;
步骤四中具体包括:
对每个包含可疑点的截断窗计算GMM-BIC值,得到GMM-BIC值序列,对每个GMM-BIC序列进行高斯拟合,得到拟合参数,高斯拟合表达式:
y=a*exp(-((x-b)/c)^2)
其中表达式参数即为拟合特征;
步骤五中具体为:使用DNN学习器对拟合特征进行训练,得到分类器对任一拟合特征进行分类,自动区分该截断窗内是否包含篡改点,对判断为包含篡改点的截断窗,篡改点为位于截断窗中点的波谷处。
6.一种实现权利要求1~5任意一项所述基于GMM-BIC的数字音频篡改点检测方法的计算机程序。
7.一种实现权利要求1~5任意一项所述基于GMM-BIC的数字音频篡改点检测方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的基于GMM-BIC的数字音频篡改点检测方法。
9.一种实现权利要求1所述基于GMM-BIC的数字音频篡改点检测方法的基于GMM-BIC的数字音频篡改点检测系统,其特征在于,所述基于GMM-BIC的数字音频篡改点检测系统包括:
MFCC特征提取模块,通过分割语音信号中的静音帧,并提取静音帧的MFCC特征;
GMM-BIC值计算模块,按时序再对特征进行长窗分帧,根据GMM-BIC模型,计算每个长时特征帧的GMM-BIC值;
篡改点截断窗确认模块,取所有长时特征帧的GMM-BIC值所组成的序列中的所有波谷点作为可疑篡改点,并以可疑篡改点为中点,前后分别取2s截断,对每个包含可疑点的截断窗计算GMM-BIC值序列,使用高斯模型对GMM-BIC序列进行拟合,对拟合特征进行分类,自动确认篡改点存在的截断窗;
篡改点定位模块,对包含篡改点的截断窗,进行迭代计算,自动精确地定位篡改点。
10.一种搭载有权利要求9所述基于GMM-BIC的数字音频篡改点检测系统的数字音频信号处理控制系统。
CN201810662831.3A 2018-06-25 2018-06-25 基于gmm-bic的数字音频篡改点检测方法及系统 Active CN108831506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810662831.3A CN108831506B (zh) 2018-06-25 2018-06-25 基于gmm-bic的数字音频篡改点检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810662831.3A CN108831506B (zh) 2018-06-25 2018-06-25 基于gmm-bic的数字音频篡改点检测方法及系统

Publications (2)

Publication Number Publication Date
CN108831506A true CN108831506A (zh) 2018-11-16
CN108831506B CN108831506B (zh) 2020-07-10

Family

ID=64138471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810662831.3A Active CN108831506B (zh) 2018-06-25 2018-06-25 基于gmm-bic的数字音频篡改点检测方法及系统

Country Status (1)

Country Link
CN (1) CN108831506B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN111553916A (zh) * 2020-05-09 2020-08-18 杭州中科睿鉴科技有限公司 基于多种特征和卷积神经网络的图像篡改区域检测方法
CN112151067A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN113178199A (zh) * 2021-06-29 2021-07-27 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法
CN113516969A (zh) * 2021-09-14 2021-10-19 北京远鉴信息技术有限公司 一种拼接语音的鉴别方法、装置、电子设备及存储介质
CN113555037A (zh) * 2021-09-18 2021-10-26 中国科学院自动化研究所 篡改音频的篡改区域检测方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345927A (zh) * 2013-07-11 2013-10-09 暨南大学 一种检测与定位音频时域篡改的处理方法
CN104021791A (zh) * 2014-06-24 2014-09-03 贵州大学 数字音频波形突变的检测方法
US20150112883A1 (en) * 2013-10-17 2015-04-23 Adt Us Holdings, Inc. Portable system for managing events
CN104810022A (zh) * 2015-05-11 2015-07-29 东北师范大学 一种基于音频断点的时域数字音频水印方法
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN105825871B (zh) * 2016-03-16 2019-07-30 大连理工大学 一种无前导静音段语音的端点检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345927A (zh) * 2013-07-11 2013-10-09 暨南大学 一种检测与定位音频时域篡改的处理方法
US20150112883A1 (en) * 2013-10-17 2015-04-23 Adt Us Holdings, Inc. Portable system for managing events
CN104021791A (zh) * 2014-06-24 2014-09-03 贵州大学 数字音频波形突变的检测方法
CN104021791B (zh) * 2014-06-24 2017-02-22 贵州大学 数字音频波形突变的检测方法
CN104810022A (zh) * 2015-05-11 2015-07-29 东北师范大学 一种基于音频断点的时域数字音频水印方法
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN105825871B (zh) * 2016-03-16 2019-07-30 大连理工大学 一种无前导静音段语音的端点检测方法
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林晓丹: "基于广义高斯模型的音频篡改盲检测", 《计算机工程与设计》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN111553916A (zh) * 2020-05-09 2020-08-18 杭州中科睿鉴科技有限公司 基于多种特征和卷积神经网络的图像篡改区域检测方法
CN111553916B (zh) * 2020-05-09 2023-11-14 中科计算技术创新研究院 基于多种特征和卷积神经网络的图像篡改区域检测方法
CN112151067A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN113178199A (zh) * 2021-06-29 2021-07-27 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法
CN113178199B (zh) * 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法
US11521629B1 (en) 2021-06-29 2022-12-06 Institute Of Automation, Chinese Academy Of Sciences Method for obtaining digital audio tampering evidence based on phase deviation detection
CN113516969A (zh) * 2021-09-14 2021-10-19 北京远鉴信息技术有限公司 一种拼接语音的鉴别方法、装置、电子设备及存储介质
CN113555037A (zh) * 2021-09-18 2021-10-26 中国科学院自动化研究所 篡改音频的篡改区域检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN108831506B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
JP7152514B2 (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN112259106B (zh) 声纹识别方法、装置、存储介质及计算机设备
CN107610707A (zh) 一种声纹识别方法及装置
CN108538312A (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN112259104B (zh) 一种声纹识别模型的训练装置
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN109766929A (zh) 一种基于svm的音频分类方法及系统
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN108899033B (zh) 一种确定说话人特征的方法及装置
Helén et al. Query by example of audio signals using Euclidean distance between Gaussian mixture models
CN107358947A (zh) 说话人重识别方法及系统
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
Al-Kaltakchi et al. Thorough evaluation of TIMIT database speaker identification performance under noise with and without the G. 712 type handset
Salekin et al. Distant emotion recognition
Ghosal et al. Automatic male-female voice discrimination
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
Woubie et al. Voice quality features for replay attack detection
CN108766465A (zh) 一种基于enf通用背景模型的数字音频篡改盲检测方法
Stadelmann et al. Fast and robust speaker clustering using the earth mover's distance and Mixmax models
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181116

Assignee: Hubei ZHENGBO Xusheng Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001275

Denomination of invention: A Digital Audio Tampering Point Detection Method and System Based on GMM-BIC

Granted publication date: 20200710

License type: Common License

Record date: 20240124

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181116

Assignee: Hubei Rongzhi Youan Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001548

Denomination of invention: A Digital Audio Tampering Point Detection Method and System Based on GMM-BIC

Granted publication date: 20200710

License type: Common License

Record date: 20240126

EE01 Entry into force of recordation of patent licensing contract