CN108766464B - 基于电网频率波动超矢量的数字音频篡改自动检测方法 - Google Patents

基于电网频率波动超矢量的数字音频篡改自动检测方法 Download PDF

Info

Publication number
CN108766464B
CN108766464B CN201810572148.0A CN201810572148A CN108766464B CN 108766464 B CN108766464 B CN 108766464B CN 201810572148 A CN201810572148 A CN 201810572148A CN 108766464 B CN108766464 B CN 108766464B
Authority
CN
China
Prior art keywords
model
digital audio
tampering
ubm
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810572148.0A
Other languages
English (en)
Other versions
CN108766464A (zh
Inventor
王志锋
王静
左明章
叶俊民
闵秋莎
田元
陈迪
宁国勤
夏丹
姚璜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201810572148.0A priority Critical patent/CN108766464B/zh
Publication of CN108766464A publication Critical patent/CN108766464A/zh
Application granted granted Critical
Publication of CN108766464B publication Critical patent/CN108766464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Storage Device Security (AREA)

Abstract

本发明属于数字音频信号处理技术领域,公开了一种基于电网频率波动超矢量的数字音频篡改自动检测方法,分析电网频率(ENF)信号中对信号截断敏感的相位谱和瞬时频率谱,分别提取有效特征集,并对提取出的特征集进行融合;仅使用大量的原始语音信号,其中包含各种信噪比的语音信号,甚至还有一些有缺陷的语音信号进行背景建模,与实际检测情况较为相符,也因此该背景模型对信号篡改类型不敏感,可以有效检测出各种类型的篡改音频。本发明建立了同类语音信号的一致性模型,经过自适应过滤掉了大量与本类属性无关的特征,并且其中的自适应部分还可以供使用者自行调整,具有较好的鲁棒性。

Description

基于电网频率波动超矢量的数字音频篡改自动检测方法
技术领域
本发明属于数字音频信号处理技术领域,尤其涉及一种基于电网频率波动超矢量的数字音频篡改自动检测方法。
背景技术
目前,业内常用的现有技术是这样的:
近年来,数字媒体技术和互联网信息技术飞速发展,使得数字媒体信号的应用变得越来越广泛和频繁。同时数字音频信号也成为最流行的多媒体应用之一,其易于保存、编辑和传播的优点给人们日常生活带来诸多便利和乐趣。随着数字音频信号处理技术的发展,以及各种操作简单的语音编辑工具的丰富,使得对数字语音内容的篡改和伪造变得简单易行。三网融合带来的全网媒体产品的繁荣,加速了数字音频的传播,也加剧了多媒体信息安全隐患。大量的经过篡改的不良数字音频信号在网络上的加速传播会对社会舆论和秩序造成不安,特别的若这样被篡改过的音频用于法庭举证,将会对司法公正造成严重威胁。因此,为了保证数字音频的真实性和完整性,作为数字音频取证的一个重要分支,数字音频篡改检测技术用于鉴定数字音频是否经过伪造,在新闻、法律、商业、娱乐和科学等领域有着非常重要的应用。
尽管不法分子凭借专业只是可以令篡改过的音频听起来没有任何瑕疵,但是自然语言信号的分布和存储、内容的逻辑、还有音频背景的统一等因素通常比较复杂,篡改时难以兼顾。数字音频篡改检测的任务就是从音频信号的各个角度进行分析,从音频篡改的蛛丝马迹中寻找线索。
1)电网频率检测法。Grigoras最早提出基于电网频率(ENF)的音频篡改检测算法,主要通过待检测音频中ENF的波动和参考年份的数据进行比对,从而判断音频是否被篡改过。接着Grigoras验证对音频信号加短时窗进行分析,可以与数据库进行更细致、精确的对比。提出建立一个ENF准则,以期可以显示不同信号的供电类型,建议将该准则和传统的检测方法共用,为研究者建立标准化的研究分析方法。Liu等提出一系列方法对ENF数据库中的信号进行进一步处理以方便在语音取证中的使用。Rodríguez等在Grigoras的研究基础上,提出不需要使用ENF标准数据库的方法,使用DFT0、DFT1方法估计ENF信号相位,将ENF相位变化的一致性作为特征来检测音频篡改。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变,使用Hilbert变换计算瞬时频率,提出TPSW(Two-Pass Split-Window)方法估计ENF背景变化水平,实际瞬时频率变化范围超过背景变化水平的部分的峰值点即为篡改点。
2)基于篡改操作的检测方法。石倩选取归一化零均值互相关(ZNCC)来量化音频任意音节之间的匹配度,将匹配度与阈值进行比较来判断。柳永娟通过对音频文件中的音节进行分割作主成分分析(PCA),取最能代表音节相关性的特征量来比较两个音节之间的相似性。黄昊针对上述方法在低信噪比的情况下的不适用性,将ZNCC改为Pearson相关系数,实验结果表明在添加噪声的情况下Pearson相关系数的检测方法的抗噪性要优于ZNCC方法的抗噪性,但在未添加噪声的情况下还是ZNCC检测精度更高一些。imran使用LBP算法对每个音节进行编码,绘制直方图,并使用均方误差和能量比量化两个音节之间的相似度,得到较好的准确度。
3)基于高阶相关性。Farid等指出原始音频信号在频域上具有微弱的高阶相关性,而篡改操作会高阶相关性变得显著,可以使用高阶统计量来衡量这种高阶相关性。应用双谱分析法得到音频三阶相关强度作为特征来鉴别待测音频的的真实性。高阳等基于高阶频谱分析的检测算法,使用二阶频谱定量分析音频信号引入非线性后的自相关振幅的增长,并且指出引入非线性的音频存在自相关相位偏差。还有通过对高阶频谱进行分析,通过统计方法制图,对结果进行直观判断。林晓丹等使用子带的短时傅里叶变换进行频谱相位分析,利用频谱相位重建抵消噪声的影响。基于相邻声音片段之间的频谱相位的高阶统计残差和频谱基带相位相关性建立特征值,实现自动音频认证。
综上所述,现有技术存在的问题是:
(1)大多的方法鲁棒性差,对待测信号质量、录制环境等作出要求,检测结果没有一致性的评价标准;
(2)部分检测方法需要专业人士的经验或者领域知识来判断语音信号是否经过篡改,不能实现自动化;
(3)目前大多数启发式研究方案自适应性差,在实际应用中存在各种问题,不能达到数字音频盲篡改检测的要求。
解决上述技术问题的难度和意义:
目前对数字音频盲篡改检测的定义还不够完善,相关研究成果没有统一的评价标准,而令后续研究没有及时跟进深究,本发明利用机器学习方法旨在弱化篡改检测操作流程,强调使用最后的分类结果作为该发明的效率,并实现自动化;为了保证能够让该发明有更大的应用范围,必须要消除其中阈值选择的经验性行为,本发明利用机器学习方法处理大数据的优势,将判别的过程交给SVM训练;数字音频盲篡改检测根本目标就在于,盲篡改方案能够应用于各种数据库和各种场景,为了保障应用,检测方案必须要在各种实际情况下具有鲁棒性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于电网频率波动超矢量的数字音频篡改自动检测方法及系统。
本发明是这样实现的,一种基于电网频率波动超矢量的数字音频篡改自动检测方法,通过提取语音信号中ENF的相位波动特征,相位谱和频率谱波动拟合参数特征,进行特征融合后,进行通用背景模型训练。然后对背景模型进行自适应得到相应的语音信号特征模型。将数据库样本作同样的特征提取,依次将每个特征向量与通用背景模型进行自适应,每个样本均得到一个相对应的自适应模型。将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系,使用优化的支持向量机分类器对ENF波动超矢量进行训练,得到训练模型。该方法设计出基于电网频率波动超矢量的数字音频篡改自动检测模型,使用大量的原始语音信号特征进行篡改特征无关的通用背景建模,通过自适应对每个待测语音ENF波动特征进行建模,通过SVM对模型进行分类,进而对信号是否遭到篡改进行预测,实现了数字音频篡改检测的自动化。
本发明提供的基于电网频率波动超矢量的数字音频篡改自动检测方法,包括以下步骤:
步骤1:对大量原始语音信号进行特征提取;
步骤2:通用背景模型UBM建立;
步骤3:使用数据库中的样本对UBM模型进行自适应,每个样本得到一个GMM-UBM模型;
步骤4:将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系,使用优化的SVM学习器进行分类,区分原始语音和篡改语音,得到数字音频盲篡改检测模型。
进一步,步骤1的具体实现包括以下子步骤:
步骤1.1:对每个原始信号x[n]进行预处理,包括下采样、去直流分量,经过带通滤波得到信号中的ENF成分xENFC[n];
步骤1.2:对xENFC[n]进行相位谱和频率谱估计,提取相位谱波动特征F,分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征
Figure BDA0001686166340000041
和瞬时频率谱拟合特征
Figure BDA0001686166340000042
进行特征融合得到特征向量;
进一步,步骤2的具体实现包括以下子步骤:
步骤A1:建立UBM模型;
步骤A2:利用期望最大化(EM)算法迭代出UBM模型的参数;
进一步,步骤A1中,一个UBM模型也就是一个高斯混合模型。建立高斯混合模型的目的在于,确定步骤1.2中所得的特征向量是由哪些GMM所组成,并且这些GMM在这个特征向量中所占的比重是多少。用X表示一条语音的特征向量,它可以由M个不同的高斯分布按照不同的权重组合来描述,因此混合高斯模型可以表示为:
Figure BDA0001686166340000051
其中,p(X)是D维随机变量的联合高斯概率密度分布。
进一步,步骤A2中,已知样本特征集和分布模型,需要对样本属于哪一个高斯分布和每个高斯分布的参数进行估计。
EM算法分为两步:第一E(Expectation)步,每个特征向量之间是相互独立的,每一个特征向量Xi都有一个与之对应的隐藏变量zi,令p(xi|zi)最大;第二M(Maximization)步,对似然函数最大化以获得新的模型参数,通过不断迭代获得更加准确的UBM模型参数。
进一步,步骤3的具体实现为:
使用少量的标准数据库(包括原始信号和篡改信号)中的信号对上述步骤2所得到的UBM模型参数通过自适应来更新其参数,进而每条语音信号可以导出一个目标GMM模型。
这个自适应算法同样分为两步:第一步,计算第t个特征向量属于UBM中第i个联合高斯分量的概率:
Figure BDA0001686166340000052
第二步,利用计算得到的p(i|xt),分别计算语音信号的GMM模型的权重、均值和方差参数:
Figure BDA0001686166340000061
Figure BDA0001686166340000062
Figure BDA0001686166340000063
最后,这些由训练数据产生的新的充分统计量用来更新UBM的第i个混合成员的充分统计量。
进一步,步骤4,具体包括:
4.1):为了步骤3中所得的多个自适应模型进行分类,将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系;
对数据库中的每条语音特征,进行UBM自适应,仅对均值矩阵进行调整;将每个均值矩阵进行重构,得到ENF波动超矢量,每条语音与高维超矢量之间的映射关系已经完成;
4.2):使用交叉验证和网格搜索法选择最佳支持向量机参数,使用支持向量机对训练集进行训练得到分类模型;
交叉验证法包括将数据集平均分为k份,每次将其中k-1份数据作为训练数据,而另外一份数据作为测试数据;重复k次,根据k次迭代找到最好的分类模型;
网格搜索法用于确定两个参数即惩罚因子c与径向基函数参数g,基于网格法将c∈[cmin,cmax],变化步长为cstep,而g∈[gmin,gmax],变化步长为gstep;
4.3):保存数字音频篡改检测模型,对任意待测信号的真伪进行决策;输出决策结果。
本发明的另一目的在于提供一种实现所述基于电网频率波动超矢量的数字音频篡改自动检测方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于电网频率波动超矢量的数字音频篡改自动检测方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于电网频率波动超矢量的数字音频篡改自动检测方法。
本发明的另一目的在于提供一种基于电网频率波动超矢量的数字音频篡改自动检测方法的数字音频信号处理系统。
综上所述,本发明的优点及积极效果为
本发明分析了ENF信号中对信号截断敏感的相位谱和瞬时频率谱,分别提取有效特征集,并对提取出的特征集进行融合;
本发明仅使用大量的原始语音信号,其中包含各种信噪比的语音信号,甚至还有一些有缺陷的语音信号进行背景建模,与实际检测情况较为相符,也因此该背景模型对信号篡改类型不敏感,可以有效检测出各种类型的篡改音频。
本发明建立了同类语音信号的一致性模型,经过自适应过滤掉了大量与本类属性无关的特征,保证了该发明有更大的应用范围,消除其中阈值选择的经验性行为,利用机器学习方法处理大数据的优势,将判别的过程交给SVM训练。
本发明使用来自Ahumada-25数据库的2397条语音作为原始语音提取信号特征,建立原始语音的UBM模型。再用三个目标数据库的原始语音信号共500条特征向量(其中包含原始信号和篡改信号),分别对UBM模型进行自适应得到各自的目标自适应GMM模型的均值矩阵,将其作为特征超矢量,使用优化的SVM学习器进行十折交叉验证,结果如图3所示,优化SVM分类器的分类精度可以达到86.1%。
附图说明
图1是本发明实施例提供的基于电网频率波动超矢量的数字音频篡改自动检测方法流程图。
图2是本发明实施例提供的SVM参数优化流程图。
图3是本发明实施例提供的基于电网频率波动超矢量的数字音频篡改自动检测系统示意图。
图4是本发明实施例提供的语音信号与ENF波动超矢量之间的映射关系图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种基于电网频率波动超矢量的数字音频篡改自动检测方法,通过提取语音信号中ENF的相位波动特征,相位谱和频率谱波动拟合参数特征,进行特征融合后,进行通用背景模型训练。然后对背景模型进行自适应得到相应的语音信号特征模型。将数据库样本作同样的特征提取,依次将每个特征向量与通用背景模型进行自适应,每个样本均得到一个相对应的自适应模型。将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系,使用优化的支持向量机分类器对ENF波动超矢量进行训练,得到训练模型。该方法设计出基于电网频率波动超矢量的数字音频篡改自动检测模型,使用大量的原始语音信号特征进行篡改特征无关的背景建模,通过自适应对每个待测语音进行建模,通过SVM对模型进行分类,进而对信号是否遭到篡改进行预测,实现了数字音频篡改检测的自动化。
下面结合具体分析对本发明作进一步描述。
如图1所示,本发明实施例提供的基于电网频率波动超矢量的数字音频篡改自动检测方法,包括以下步骤:
步骤1:对大量原始语音信号进行特征提取;
具体实施包括以下子步骤:
步骤1.1:对每个原始信号x[n]进行预处理,包括下采样、去直流分量,通过中心频率在ENF标准频率(50Hz或者60Hz)处的带通滤波器,得到信号中的ENF成分xENFC[n];
步骤1.2:对xENFC[n]进行基于DFT1的相位谱估计,提取相位谱波动特征F。对xENFC[n]进行基于Hilbert的瞬时频率谱估计。分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征
Figure BDA0001686166340000091
和瞬时频率谱拟合特征
Figure BDA0001686166340000092
进行特征融合得到特征向量。
步骤2:通用背景模型UBM建立;
具体实现包括以下子步骤:
步骤A1:建立UBM模型;
一个UBM模型也就是一个高斯混合模型。高斯混合模型利用多维概率密度函数对语音信号特征向量进行建模。一个混合高斯的概率密度是M个高斯分量概率密度分布的加权和,给出混合高斯概率密度公式如下:
Figure BDA0001686166340000093
其中X是一个D维的特征向量X={x1,x2,x3,…,xD},pi(X),i=1,…,M是子分布,wi,i=1,…,M是混合权重,
Figure BDA0001686166340000094
每个子分布的D维特征向量的联合高斯概率密度分布公式如下
Figure BDA0001686166340000095
其中ui是均值向量,Σi是协方差矩阵。完整的混合高斯模型由权重参数、均值向量和协方差矩阵组成,表示为:λ={wi,uii},i=1,…,M。建立高斯混合模型的目的在于,确定步骤1.2中所得的特征向量是由哪些GMM所组成,并且这些GMM在这个特征向量中所占的比重是多少。
步骤A2:利用期望最大化(EM)算法迭代出UBM模型的参数;
已知样本特征集和分布模型,需要对样本属于哪一个高斯分布和每个高斯分布的参数进行估计,也就是使用最大似然估计方法计算模型参数{wiii},EM算法进行迭代优化参数值。首先用X={xt,t=1,2,…T}表示大量原始语音信号特征集,同时假设各个特征向量之间是彼此独立不相关的。
EM算法分为两步:第一E(Expectation)步,每个特征向量之间是相互独立的,每一个特征向量Xt都有一个都有一个与之对应的隐藏变量zt,令p(xt|zt)最大,zt的分布为
Qt(zt):=p(zt|xt,λ);
第二M(Maximization)步,对似然函数最大化以获得新的模型参数,通过不断迭代获得更加准确的UBM模型参数。
Figure BDA0001686166340000101
Figure BDA0001686166340000102
重复这两个步骤直到模型参数不再发生变化或者执行5-10次就可以得到稳定的UBM模型。
步骤3:使用数据库中的样本对UBM模型进行自适应,每个样本得到一个GMM-UBM模型;
使用少量的标准数据库(包括原始信号和篡改信号)中的信号对上述步骤2所得到的UBM模型参数通过自适应来更新其参数,进而导出每条语音信号可以到处一个目标GMM模型。这个自适应算法同样分为两步:第一步,计算第t个特征向量属于UBM中第i个联合高斯分量的概率:
Figure BDA0001686166340000103
第二步,利用计算得到的p(i|xt),分别计算语音信号的GMM模型的权重、均值和方差参数:
Figure BDA0001686166340000104
Figure BDA0001686166340000105
Figure BDA0001686166340000106
最后,这些由训练数据产生的新的充分统计量用来更新UBM的第i个混合成员的充分统计量:
Figure BDA0001686166340000111
Figure BDA0001686166340000112
Figure BDA0001686166340000113
其中,γ是用来调整
Figure BDA0001686166340000114
的值,使得
Figure BDA0001686166340000115
Figure BDA0001686166340000116
是自适应系数,用来控制新的权重(w)、均值(m)、方差(v)和旧估计量之间的平衡。自适应系数定义为
Figure BDA0001686166340000117
ρ∈{w,m,v},rρ是一个固定参数的因子,本方法取经验值16。
步骤4:将每个GMM-UBM的均值矩阵称为ENF波动超矢量,代替GMM-UBM模型,使用优化的SVM进行分类,得到数字音频盲篡改检测模型。如图4,本发明实施例提供的语音信号与ENF波动超矢量之间的映射关系。
步骤4.1:一般的自适应过程仅会对UBM的均值矩阵进行调整,得到新的GMM模型。为了步骤3中所得的多个自适应模型进行分类,将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系。使用交叉验证和网格搜索法选择最佳支持向量机参数,使用支持向量机对训练集进行训练得到分类模型。
假设两条语音audioa和audiob,使用MAP已经训练出两个GMM-UBM模型,分别是ga和gb,语音信号和GMM模型之间已经建立起映射关系。可以使用KL散度来表示两个模型之间的自然距离:
Figure BDA0001686166340000118
但是KL散度并不满足SVM中的Mercer条件,故不可以使用SVM进行学习分类。使用对数和不等式来做一个近似:
Figure BDA0001686166340000119
这里使用ma和mb表示自适应均值,假设使用对角协方差矩阵,距离测量函数可以化为:
Figure BDA0001686166340000121
最后这个不等式可以化为
0≤D(ga||gb)≤d(ma,mb)
从该式中可以看出,若ma和mb的距离很小,相应的散度也很小,距离测量函数具有对称性,可以成功应用于信号特征聚类。从距离函数中找到相应的内积,即SVM内核函数:
Figure BDA0001686166340000122
这个核是一个线性的,包括对ENF超矢量的一个对角缩放,只要这个核是线性的,就满足SVM的Mercer条件。以上完后了语音GMM模型-ENF波动超矢量的映射,可以使用SVM学习器对ENF超矢量进行分类。
使用交叉验证和网格搜索法选择最佳支持向量机参数,使用支持向量机对训练集进行训练得到分类模型,其流程图如图2所示。交叉验证是指将数据集平均分为k份,每次将其中k-1份数据作为训练数据,而另外一份数据作为测试数据。这样重复k次,根据k次迭代找到最好的分类模型。网格搜索是来确定两个参数即惩罚因子c与径向基函数参数g,基于网格法将c∈[cmin,cmax],变化步长为cstep,而g∈[gmin,gmax],变化步长为gstep。这样,针对每对参数(c′,g′)进行训练,取效果最好的一对参数作为模型参数。
算法流程图如图2所示,其中bestc是最优的c值,bestg是最优的g值,acc是预测准确率,bestacc是最好的预测准确率。
步骤4.2:保存该数字音频篡改检测模型可以对任意待测信号的真伪进行决策。对任意待测信号,得到高斯均值特征,带入到本发明的方法所得的数字音频篡改检测模型,即可输出决策结果。
证明部分(具体实施例/实验/仿真学分析/)
本发明使用来自Ahumada-25数据库的2397条语音作为原始语音提取信号特征,建立原始语音的UBM模型。再用三个目标数据库的原始语音信号共500条特征向量(其中包含原始信号和篡改信号),分别对UBM模型进行自适应得到各自的目标自适应GMM模型的均值矩阵,将其作为ENF波动超矢量,使用优化的SVM学习器进行十折交叉验证,结果如图3所示,优化SVM分类器的分类精度可以达到86.1%。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于电网频率波动超矢量的数字音频篡改自动检测方法,其特征在于,所述基于电网频率波动超矢量的数字音频篡改自动检测方法为:
通过提取语音信号中ENF的相位波动特征,相位谱和频率谱波动拟合参数特征,进行特征融合后,进行通用背景模型训练;
然后对背景模型进行自适应得到相应的语音信号特征模型;将数据库样本作同样的特征提取,依次将每个特征向量与通用背景模型进行自适应,每个样本均得到相对应的自适应模型;
将自适应模型的混合高斯均值矩阵代表该特征向量所适应出的模型,使用优化的支持向量机分类器对代表自适应模型的均值矩阵进行训练,得到训练模型;
所述基于电网频率波动超矢量的数字音频篡改自动检测方法具体包括以下步骤:
步骤一:对大量原始语音信号进行特征提取;
步骤二:通用背景模型UBM建立;
步骤三:使用数据库中的样本对UBM模型进行自适应,每个样本得到GMM-UBM模型;
步骤四:将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系,使用优化的SVM学习器进行分类,区分原始语音和篡改语音,得到数字音频盲篡改检测模型;
步骤一,具体包括:
步骤1):对每个原始信号x[n]x[n]进行预处理,包括下采样、去直流分量,通过中心频率在ENF标准频率处的带通滤波器,得到信号中的ENF成分xENFC[n]xENFC[n];
步骤2):对xENFC[n]xENFC[n]进行基于DFT1的相位谱估计,提取相位谱波动特征F;对xENFC[n]xENFC[n]进行基于Hilbert的瞬时频率谱估计;分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征
Figure FDA0002740651950000024
和瞬时频率谱拟合特征
Figure FDA0002740651950000025
进行特征融合得到特征向量。
2.如权利要求1所述的基于电网频率波动超矢量的数字音频篡改自动检测方法,其特征在于,步骤二,具体包括:
步骤A1:建立UBM模型;
UBM模型采用高斯混合模型;高斯混合模型利用多维概率密度函数对语音信号特征向量进行建模;高斯混合模型的概率密度为M个高斯分量概率密度分布的加权和,混合高斯概率密度公式如下:
Figure FDA0002740651950000021
其中X是一个D维的特征向量X={x1,x2,x3,…,xD},pi(X),i=1,…,M是子分布,wi,i=1,…,M是混合权重,
Figure FDA0002740651950000022
每个子分布的D维特征向量的联合高斯概率密度分布公式如下
Figure FDA0002740651950000023
其中ui是均值向量,Σi是协方差矩阵;完整的混合高斯模型由权重参数、均值向量和协方差矩阵组成,表示为:λ={wi,ui,∑i},i=1,…,M;
步骤A2:利用期望最大化算法迭代出UBM模型的参数;
第一步,令p(xt|zt)最大,zt的分布为
Qt(zt):=p(zt|xt,λ);
特征向量为Xt,与Xt对应的隐藏变量为zt
第二步,对似然函数最大化以获得新的模型参数,通过不断迭代获得UBM模型参数;
Figure FDA0002740651950000031
Figure FDA0002740651950000032
重复这两个步骤直到模型参数不再发生变化或者执行5-10次,得到稳定的UBM模型。
3.如权利要求1所述的基于电网频率波动超矢量的数字音频篡改自动检测方法,其特征在于,步骤三中,
使用少量包括原始信号和篡改信号的标准数据库中的信号对步骤二所得到的UBM模型参数通过MAP自适应来更新UBM模型参数,每条语音信号导出一个目标GMM模型;
具体包括:
1),计算第t个特征向量属于UBM中第i个联合高斯分量的概率:
Figure FDA0002740651950000033
2),利用计算得到的p(i|xt),分别计算语音信号的GMM模型的权重、均值和方差参数:
Figure FDA0002740651950000034
Figure FDA0002740651950000035
Figure FDA0002740651950000036
3),由训练数据产生的新的充分统计量更新UBM的第i个混合成员的充分统计量:
Figure FDA0002740651950000037
Figure FDA0002740651950000038
Figure FDA0002740651950000039
其中,γ是用来调整
Figure FDA0002740651950000041
的值,使得
Figure FDA0002740651950000042
Figure FDA0002740651950000043
是自适应系数,用来控制新的权重(w)、均值(m)、方差(v)和旧估计量之间的平衡;自适应系数为
Figure FDA0002740651950000044
rp是一个固定参数的因子。
4.如权利要求1所述的基于电网频率波动超矢量的数字音频篡改自动检测方法,其特征在于,步骤四,具体包括:
i):将每个GMM-UBM的均值矩阵作为ENF波动超矢量,在每条语音和高维向量之间构建映射关系;
对数据库中的每条语音特征,进行UBM自适应,仅对均值矩阵进行调整;将每个均值矩阵进行重构,得到ENF波动超矢量;
ii):使用交叉验证和网格搜索法选择最佳支持向量机参数,使用支持向量机对训练集进行训练得到分类模型;
iii):保存数字音频篡改检测模型,对任意待测信号的真伪进行决策;输出决策结果。
5.一种实现权利要求1~4任意一项所述基于电网频率波动超矢量的数字音频篡改自动检测方法的计算机程序。
6.一种实现权利要求1~4任意一项所述基于电网频率波动超矢量的数字音频篡改自动检测方法的信息数据处理终端。
7.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~4任意一项所述的基于电网频率波动超矢量的数字音频篡改自动检测方法。
8.一种如权利要求1所述基于电网频率波动超矢量的数字音频篡改自动检测方法的数字音频信号处理系统。
CN201810572148.0A 2018-06-06 2018-06-06 基于电网频率波动超矢量的数字音频篡改自动检测方法 Active CN108766464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810572148.0A CN108766464B (zh) 2018-06-06 2018-06-06 基于电网频率波动超矢量的数字音频篡改自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810572148.0A CN108766464B (zh) 2018-06-06 2018-06-06 基于电网频率波动超矢量的数字音频篡改自动检测方法

Publications (2)

Publication Number Publication Date
CN108766464A CN108766464A (zh) 2018-11-06
CN108766464B true CN108766464B (zh) 2021-01-26

Family

ID=63999108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810572148.0A Active CN108766464B (zh) 2018-06-06 2018-06-06 基于电网频率波动超矢量的数字音频篡改自动检测方法

Country Status (1)

Country Link
CN (1) CN108766464B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598374B (zh) * 2019-05-23 2024-03-19 青岛鼎信通讯股份有限公司 低压交流市电台区智能识别方法
CN111402921B (zh) * 2020-03-13 2023-01-24 合肥工业大学 语音复制粘贴篡改检测方法和系统
CN112151067B (zh) * 2020-09-27 2023-05-02 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN114155875B (zh) * 2022-02-09 2022-05-03 中国科学院自动化研究所 语音场景篡改鉴别的方法、装置、电子设备及存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383171A (zh) * 2008-10-16 2009-03-11 中山大学 一种mp3音频的篡改盲检测方法
CN103730128A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于频谱sift特征描述子的音频片段认证方法
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN107609651A (zh) * 2017-08-15 2018-01-19 华中师范大学 一种基于学习者模型的设计项评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11069370B2 (en) * 2016-01-11 2021-07-20 University Of Tennessee Research Foundation Tampering detection and location identification of digital audio recordings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383171A (zh) * 2008-10-16 2009-03-11 中山大学 一种mp3音频的篡改盲检测方法
CN103730128A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于频谱sift特征描述子的音频片段认证方法
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN107609651A (zh) * 2017-08-15 2018-01-19 华中师范大学 一种基于学习者模型的设计项评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ESPRIT-Hilbert-Based Audio Tampering Detection With SVM Classifier for Forensic Analysis via Electrical Network Frequency;Paulo Max Gil Innocencio Reis;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20170430;全文 *

Also Published As

Publication number Publication date
CN108766464A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108766464B (zh) 基于电网频率波动超矢量的数字音频篡改自动检测方法
US10984818B2 (en) Devices and methods for evaluating speech quality
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN108806718B (zh) 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN111080442A (zh) 信用评分模型的构建方法、装置、设备及存储介质
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN111914090A (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
CN108538312A (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN108109612A (zh) 一种基于自适应降维的语音识别分类方法
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN108766465B (zh) 一种基于enf通用背景模型的数字音频篡改盲检测方法
Bressan et al. A decision tree approach for the musical genres classification
CN106709598B (zh) 一种基于单类样本的电压稳定性预测判断方法
CN115472179A (zh) 面向数字音频删除和插入篡改操作自动检测方法及系统
CN111554273B (zh) 一种语音关键词识别中扩增语料的选取方法
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及系统
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
Yang et al. Combining auditory perception and visual features for regional recognition of Chinese folk songs
LU103104B1 (en) Simulation method for electronic music signal identification model based on big data algorithm
Rouf et al. Speaker forensic identification using joint factor analysis and i-vector
CN114818883B (zh) 一种基于颜色特征最优组合的cart决策树火灾图像识别方法
CN114416972B (zh) 一种基于密度改善不平衡样本的dga域名检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant