CN108766465A - 一种基于enf通用背景模型的数字音频篡改盲检测方法 - Google Patents
一种基于enf通用背景模型的数字音频篡改盲检测方法 Download PDFInfo
- Publication number
- CN108766465A CN108766465A CN201810572178.1A CN201810572178A CN108766465A CN 108766465 A CN108766465 A CN 108766465A CN 201810572178 A CN201810572178 A CN 201810572178A CN 108766465 A CN108766465 A CN 108766465A
- Authority
- CN
- China
- Prior art keywords
- enf
- model
- digital audio
- models
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000004615 ingredient Substances 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims abstract description 3
- 238000001514 detection method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于音频信号处理领域,公开了一种基于ENF通用背景模型的数字音频篡改盲检测方法及系统,对大量的原始语音信号进行信号预处理,得到信号中包含的电网频率ENF成分;提取ENF信号的相位谱波动特征,相位谱和频率谱拟合参数特征,进行ENF通用背景模型训练;对已知ENF‑UBM进行自适应,得到原始信号的ENF模型;经过评分系统的处理,量化模型匹配度为分数标量;在监督学习条件下,绘制出ROC曲线,找到EER;根据EER的值计算正反例的分界值。本发明建立了原始语音信号ENF的通用背景模型,经过自适应过滤掉了大量与篡改特性无关的特征,并且其中的自适应部分还可目标数据库自行调整,具有较好的鲁棒性。
Description
技术领域
本发明属于数字音频信号处理技术领域,尤其涉及一种基于ENF通用背景模型的数字音频篡改盲检测方法。
背景技术
目前,业内常用的现有技术是这样的:
近年来,数字媒体技术和互联网信息技术飞速发展,使得数字媒体信号的应用变得越来越广泛和频繁。同时数字音频信号也成为最流行的多媒体应用之一,其易于保存、编辑和传播的优点给人们日常生活带来诸多便利和乐趣。随着数字媒体记录(智能手机,录音笔等)和音频编辑工具(cooledit,Audition等)的发展,人们不需要任何的专业知识就可以简单快捷地对数字音频文件进行录制、拼接、加入噪声和变换音色等操作,这是一种互联网盛行的娱乐方式。但随之而来的是严重的多媒体信息安全问题,大量的经过篡改的不良数字音频信号在网络上的加速传播对社会舆论和秩序造成不安,特别的若这样被篡改过的音频用于法庭举证,将会对司法公正造成严重威胁。因此,为了保证数字音频的真实性和完整性,作为数字音频取证的一个重要分支,数字音频篡改检测技术用于鉴定数字音频是否经过伪造,在新闻、法律、商业、娱乐和科学等领域有着非常重要的应用。
数字音频篡改检测技术主要包括两方面,一方面是多媒体认证技术,另一方面是盲篡改检测技术。多媒体认证技术需要事先在音频信息中添加签名或者水印,但在实际情况中,大多数的音频中并不包含签名或者水印,因此根据音频本身的特点进行的盲检测更加具有实用价值。尽管不法分子凭借专业只是可以令篡改过的音频听起来没有任何瑕疵,但是自然语言信号的分布和存储、内容的逻辑、还有音频背景的统一等因素通常比较复杂,篡改时难以兼顾。数字音频盲篡改检测的任务就是从音频信号的各个角度进行分析,从音频篡改的蛛丝马迹中寻找线索。
1)电网频率检测法。Grigoras最早提出基于电网频率(ENF)的音频篡改检测算法,主要通过待检测音频中ENF的波动和参考年份的数据进行比对,从而判断音频是否被篡改过。接着Grigoras验证对音频信号加短时窗进行分析,可以与数据库进行更细致、精确的对比。提出建立一个ENF准则,以期可以显示不同信号的供电类型,建议将该准则和传统的检测方法共用,为研究者建立标准化的研究分析方法。Liu等提出一系列方法对ENF数据库中的信号进行进一步处理以方便在语音取证中的使用。Rodríguez等在Grigoras的研究基础上,提出不需要使用ENF标准数据库的方法,使用DFT0、DFT1方法估计ENF信号相位,将ENF相位变化的一致性作为特征来检测音频篡改。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变,使用Hilbert变换计算瞬时频率,提出TPSW(Two-Pass Split-Window)方法估计ENF背景变化水平,实际瞬时频率变化范围超过背景变化水平的部分的峰值点即为篡改点。
2)基于篡改操作的检测方法。石倩选取归一化零均值互相关(ZNCC)来量化音频任意音节之间的匹配度,将匹配度与阈值进行比较来判断。柳永娟通过对音频文件中的音节进行分割作主成分分析(PCA),取最能代表音节相关性的特征量来比较两个音节之间的相似性。黄昊针对上述方法在低信噪比的情况下的不适用性,将ZNCC改为Pearson相关系数,实验结果表明在添加噪声的情况下Pearson相关系数的检测方法的抗噪性要优于ZNCC方法的抗噪性,但在未添加噪声的情况下还是ZNCC检测精度更高一些。imran使用LBP算法对每个音节进行编码,绘制直方图,并使用均方误差和能量比量化两个音节之间的相似度,得到较好的准确度。
3)基于高阶相关性。Farid等指出原始音频信号在频域上具有微弱的高阶相关性,而篡改操作会高阶相关性变得显著,可以使用高阶统计量来衡量这种高阶相关性。应用双谱分析法得到音频三阶相关强度作为特征来鉴别待测音频的的真实性。高阳等基于高阶频谱分析的检测算法,使用二阶频谱定量分析音频信号引入非线性后的自相关振幅的增长,并且指出引入非线性的音频存在自相关相位偏差。还有通过对高阶频谱进行分析,通过统计方法制图,对结果进行直观判断。林晓丹等使用子带的短时傅里叶变换进行频谱相位分析,利用频谱相位重建抵消噪声的影响。基于相邻声音片段之间的频谱相位的高阶统计残差和频谱基带相位相关性建立特征值,实现自动音频认证。
综上所述,现有技术存在的问题是:
目前数字音频盲篡改检测研究存在一些问题:
1)大多的方法鲁棒性差,对待测信号质量、录制环境等作出要求,对盲篡改检测没有统一的定义,检测结果也没有一致性的标准;
2)部分检测方法需要专业人士的经验或者领域知识来判断语音信号是否经过篡改,不能实现自动化;
3)目前大多数的检测方法比较简略,没有囊括更多实际检测情况,不能达到数字音频盲篡改检测的要求。
解决上述技术问题的难度和意义:
目前对数字音频盲篡改检测的定义还存在歧义,相关研究更是没有延续和继承性;
本发明旨在为数字音频盲篡改检测研究开辟一种新的思路,使用大量原始信号来建立篡改检测模型;没有统一的数据库,而大多数的启发式研究方案自适应性差,因此实现自动化的检测对于研究工作和应用都有重大意义;为了保障应用,检测方案必须要在各种实际情况下具有鲁棒性,需要检测方案能够自适应不同的数据库。
发明内容
针对现有技术存在的问题,本发明提供了一种基于ENF通用背景模型的数字音频篡改盲检测方法。
本发明是这样实现的,一种基于ENF通用背景模型的数字音频篡改盲检测方法,首先对大量的原始语音信号进行信号预处理,得到信号中所包含的电网频率(ElectircNetwork Frequency,ENF)成分;接着对ENF信号进行特征提取,提取ENF信号的相位谱波动特征,相位谱和频率谱拟合参数特征,进行通用背景模型训练;通用背景模型描述的是原始信号中与篡改特性无关的普通水平特征分布,在此基础上使用少量的篡改数据库中的原始语音信号可以自适应出未篡改的语音信号特征模型,即为ENF通用背景模型训练过程;将训练数据作同样的特征提取,并与已训练出的ENF-UBM模型进行匹配;经过评分系统的处理,量化模型匹配度为分数标量;在监督学习条件下,绘制出ROC曲线,找到EER(Equal ErrorRate);根据EER的值计算正反例的分界值。这样前面训练好的ENF通用背景模型模型加上这个分界值就是本发明中所设计的数字音频盲篡改检测模型,可以对任意待测信号的真实性进行决策。本发明基于对大量原始信号的ENF特征建立通用背景模型,再用少量可靠的语音数据库中的原始信号对模型进行自适应,结合评分系统与训练数据集找到正反例的分界值,完成了整个数字音频盲篡改检测模型建立。本发明提供了可以进行自动检测的数字音频盲篡改检测模型,并对数字音频的各种篡改类型均有良好的检测效果。
具体包括以下步骤:
步骤1:对大量原始语音信号进行特征提取;
步骤2:ENF通用背景模型建立;
步骤3:使用目标数据库中的ENF信号特征对ENF-UBM模型进行自适应,得到目标数据库原始信号的ENF模型;
步骤4:对训练数据进行评分系统处理;
步骤5:绘制ROC曲线,找到EER,计算正反例的分界值;
步骤6:数字音频盲篡改检测模型测试过程。
进一步,步骤1的具体实现包括以下子步骤:
步骤1.1:对每个原始信号x[n]进行预处理,包括下采样、去直流分量,经过带通滤波得到信号中的ENF成分xENFC[n];
步骤1.2:对xENFC[n]进行相位谱和频率谱估计,提取相位谱波动特征F,分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征和瞬时频率谱拟合特征进行特征融合得到特征向量;
进一步,步骤2的具体实现包括以下子步骤:
步骤A1:建立ENF-UBM模型;
步骤A2:利用期望最大化(EM)算法迭代出ENF-UBM模型的参数;
进一步,
步骤A1中,一个UBM模型也就是一个高斯混合模型。建立高斯混合模型的目的在于,确定步骤1.2中所得的特征向量是由哪些GMM所组成,并且这些GMM在这个特征向量中所占的比重是多少。用X表示一条语音的特征向量,它可以由M个不同的高斯分布按照不同的权重ωi组合来描述,因此混合高斯模型可以表示为:
其中,pi(X)是D维随机变量的联合高斯概率密度分布。
进一步,步骤A2中,已知样本特征集和分布模型,需要对样本属于哪一个高斯分布和每个高斯分布的参数进行估计。EM算法分为两步:第一E(Expectation)步,每个特征向量之间是相互独立的,每一个特征向量Xi都有一个与之对应的隐藏变量zi,令p(xi|zi)最大;第二M(Maximization)步,对似然函数最大化以获得新的模型参数,通过不断迭代获得更加准确的ENF-UBM模型参数。
进一步,步骤3的具体实现为:
使用少量的标准数据库中的原始信号对上述步骤2所得到的ENF-UBM模型参数通过自适应来更新其参数,进而导出目标未篡改语音信号ENF的GMM模型。这个自适应算法同样分为两步:第一步,计算第t个特征向量xt属于ENF-UBM中第i个联合高斯分量pi(X)的概率:
第二步,利用计算得到的p(i|xt),分别计算未篡改的语音信号的GMM模型的权重、均值和方差参数:
最后,这些由训练数据产生的新的充分统计量用来更新ENF-UBM的第i个混合成员的充分统计量。
进一步,步骤4具体包括:
i)经过训练过程产生的GMM模型为λ,对于观察序列X={x1,x2,…,xM},由GMM模型产生X的概率记为p(X|λ),p(X|λ)越大,X属于λ分布的可能性越大;判断一个信号是否属于原始信号GMM模型,可以做出一个基本假设:
H0:X来自该数据库的原始信号模型
H1:X不是来自该数据库的原始信号模型
ii)这两种假设的检验来自于观察序列X是否属于模型λ的可能性评分函数Sλ(X),定义为:
Sλ(X)=logp(X|λ)
在评分函数Sλ(X)的基础上将特征向量映射为标量评分值。
进一步,步骤5的具体实现为:
对于训练集中的每一个样例,执行步骤1和4,由评分函数Sλ(X)得到分值序列S。根据模型的预测结果,每个样例对应一个得分,根据得分结果对样例进行排序。按此顺序逐个把每个样本作为正例,依据混淆矩阵,则每次都能得到当前的“真正例率”和“假正例率”。以真正例率和假正例率分别为纵轴和横轴,绘制ROC曲线,找到EER,计算此点的截断点,即为本发明中盲篡改检测模型的临界值。
步骤6的具体实现为:
保存该数字音频盲篡改检测模型可以对任意待测信号的真伪进行决策。
本发明的另一目的在于提供一种实现所述基于ENF通用背景模型的数字音频篡改盲检测方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于ENF通用背景模型的数字音频篡改盲检测方法的基于ENF通用背景模型的数字音频篡改盲检测系统。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于ENF通用背景模型的数字音频篡改盲检测方法。
综上所述,本发明的优点及积极效果为:
本发明基于对大量原始信号的ENF特征建立通用背景模型,再用少量可靠的语音数据库中的原始信号对模型进行自适应,结合评分系统与训练数据集找到正反例的分界值,完成了整个数字音频盲篡改检测模型建立;本发明提供了可以进行自动检测的数字音频盲篡改检测模型,并对数字音频的各种篡改类型均有良好的检测效果。
本发明分析了ENF信号中对信号截断敏感的相位谱和瞬时频率谱,分别提取有效特征集,并对提取出的特征集进行融合;
本发明仅使用大量的原始语音信号,其中包含各种信噪比的语音信号,甚至还有一些有缺陷的语音信号进行建模,与实际检测情况较为相符,也因此该模型对信号篡改类型不敏感,可以有效检测出各种类型的篡改音频。
本发明建立了原始语音信号的一致性模型,经过自适应过滤掉了大量与篡改特性无关的特征,并且其中的自适应部分还可根据目标数据库自行调整,具有较好的鲁棒性。
本发明为数字音频被动篡改检测的准确性和自动化提出了一种广泛性的算法。
附图说明
图1是本发明实施例提供的基于ENF通用背景模型的数字音频篡改盲检测方法流程图。
图2是本发明实施例提供的训练特征向量与GMM模型匹配的基本示意图。
图3是本发明实施例提供的ROC曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的目的在于提出基于ENF通用背景模型的数字音频盲篡改检测方法。该方法通过提取语音信号中ENF的相位波动特征,相位谱和频率谱波动拟合参数特征,进行特征融合后,进行通用背景模型训练。然后对背景模型进行自适应得到未篡改的语音信号特征模型。将训练数据作同样的特征提取,与已知模型进行匹配,经过评分函数,量化训练样本与模型的匹配度为标量值。在监督学习条件下,绘制ROC曲线,根据EER计算正反例的分界值。该方法设计出基于ENF通用背景模型的数字音频盲篡改检测模型,仅使用大量的原始语音信号特征进行建模,对各种篡改类型均能实现良好的检测效果,并且在检测过程中实现了自动化。
请见图1,本发明提供的基于ENF通用背景模型的数字音频篡改盲检测方法,包括以下步骤:
步骤1:对大量原始语音信号进行特征提取;
具体实施包括以下子步骤:
步骤1.1:对每个原始信号x[n]进行预处理,包括下采样、去直流分量,通过中心频率在ENF标准频率(50Hz或者60Hz)处的带通滤波器,得到信号中的ENF成分xENFC[n];
步骤1.2:对xENFC[n]进行基于DFT1的相位谱估计,提取相位谱波动特征F。对xENFC[n]进行基于Hilbert的瞬时频率谱估计。分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征和瞬时频率谱拟合特征进行特征融合得到特征向量。
步骤2:ENF通用背景模型建立;
具体实现包括以下子步骤:
步骤A1:建立ENF-UBM模型;
一个UBM模型也就是一个高斯混合模型。高斯混合模型利用多维概率密度函数对语音信号特征向量进行建模。一个混合高斯的概率密度是M个高斯分量概率密度分布的加权和,给出混合高斯概率密度公式如下:
其中X是一个D维的特征向量X={x1,x2,x3,…,xD},pi(X),i=1,…,M是子分布,wi,i=1,…,M是混合权重,每个子分布的D维特征向量的联合高斯概率密度分布公式如下
其中ui是均值向量,Σi是协方差矩阵。完整的混合高斯模型由权重参数、均值向量和协方差矩阵组成,表示为:λ={wi,ui,Σi},i=1,…,M。建立高斯混合模型的目的在于,确定步骤1.2中所得的特征向量是由哪些GMM所组成,并且这些GMM在这个特征向量中所占的比重是多少。
步骤A2:利用期望最大化(EM)算法迭代出ENF-UBM模型的参数;
已知样本特征集和分布模型,需要对样本属于哪一个高斯分布和每个高斯分布的参数进行估计,也就是使用最大似然估计方法计算模型参数{wi,μi,Σi},EM算法进行迭代优化参数值。首先用X={xt,t=1,2,…T}表示大量原始语音信号特征集,同时假设各个特征向量之间是彼此独立不相关的。
EM算法分为两步:第一E(Expectation)步,每个特征向量之间是相互独立的,每一个特征向量Xt都有一个与之对应的隐藏变量zt,令p(xt|zt)最大,zt的分布为
Qt(zt):=p(zt|xt,λ);
第二M(Maximization)步,对似然函数最大化以获得新的模型参数,通过不断迭代获得更加准确的ENF-UBM模型参数。
重复这两个步骤直到模型参数不再发生变化或者执行5-10次就可以得到稳定的ENF-UBM模型。
步骤3:使用目标数据库中的ENF信号特征对ENF-UBM模型进行自适应,得到目标数据库原始信号的ENF模型;
使用少量的标准数据库中的原始信号对上述步骤2所得到的ENF-UBM模型参数通过自适应来更新其参数,进而导出目标未篡改语音信号的GMM模型。这个自适应算法同样分为两步:第一步,计算第t个特征向量属于ENF-UBM中第i个联合高斯分量的概率:
第二步,利用计算得到的p(i|xt),分别计算未篡改的语音信号的GMM模型的权重、均值和方差参数:
最后,这些由训练数据产生的新的充分统计量用来更新ENF-UBM的第i个混合成员的充分统计量:
其中,γ是用来调整的值,使得是自适应系数,用来控制新的权重(w)、均值(m)、方差(v)和旧估计量之间的平衡。自适应系数定义为rρ是一个固定参数的因子,本方法取经验值16。
步骤4:对训练数据进行评分系统处理;
i)假设经过上述训练过程产生的GMM模型为λ,对于观察序列X={x1,x2,…,xM},由模型产生X的概率记为p(X|λ)。理论上讲,p(X|λ)越大,X属于λ分布的可能性越大。根据公式,GMM的基本结构以及训练集特征向量用于模型匹配的基本示意图如图2所示。判断一个信号是否属于原始信号GMM模型,可以做出一个基本假设:
H0:X来自该数据库的原始信号模型
H1:X不是来自该数据库的原始信号模型
ii)这两种假设的检验来自于观察序列X是否属于模型λ的可能性评分函数Sλ(X),定义为:
Sλ(X)=logp(X|λ)
若:
这里的θ就是整个盲篡改检测模型的临界值,下一步就是要找到一个合理的θ值。
步骤5:绘制ROC曲线,找到EER,计算正反例的分界值θ;
对于训练集中的每一个样例,执行步骤1和4,由评分函数Sλ(X)得到分值序列S。根据模型的预测结果,每个样例对应一个得分,根据得分结果对样例进行排序,排在前面的认为是“最可能”属于该未篡改语音模型的样例,排在最后的则认为是“最不可能”属于该未篡改语音模型的样例。按此顺序逐个把样本的得分作为一个“截断点”,这个截断点将样例分为两个部分,模型将前半部分判为正例,将后半部分判为反例。依据表1混淆矩阵,则每次都能得到当前的
真正例率:
假正例率:
以真正例率和假正例率分别为纵轴和横轴,绘制ROC曲线。其中TPR+FPR=1处就是等错误率(EER),计算此点的截断点,即为本发明中盲篡改检测模型的临界值θ。
至此步骤1~5即为本发明所构建的盲篡改检测模型,任一特征序列经过该模型可得到一个评分,并将其与临界值θ进行比较,对信号是否遭到篡改进行判决。
步骤6:数字音频盲篡改检测测试过程。
对任意待测信号,经过步骤1,得到特征向量,将该特征向量带入上述步骤1-5所得到数字音频信号盲篡改检测模型,评分函数对该特征向量进行评分,根据得分与模型的临界值进行比对,对该待测信号的真伪进行决策。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
表1
证明部分(具体实施例/实验/仿真/学分析/)
本发明使用来自Ahumada-25数据库的2397条语音作为原始语音提取信号特征,建立原始语音的ENF-UBM模型。再用三个目标数据库的原始语音信号共250条特征向量,对ENF-UBM模型进行自适应得到上文提到的目标未篡改语音信号的GMM模型。依据步骤4对三个目标数据库中共500条信号特征(其中包含原始信号和篡改信号)进行评分,依据步骤5对评分结果绘制ROC曲线,结果如图3所示,该临界点可以令盲篡改模型的等错误率(EER)达到90%左右。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,所述基于ENF通用背景模型的数字音频篡改盲检测方法为:
首先对大量的原始语音信号进行信号预处理,得到信号中包含的电网频率ENF成分;接着对ENF信号进行特征提取,提取ENF信号的相位谱波动特征,相位谱和频率谱拟合参数特征,进行通用背景模型训练;
通过通用背景模型描述原始信号中与篡改特性无关的普通水平特征分布,并使用少量的篡改数据库中的原始语音信号自适应出未篡改的语音信号特征模型;
将训练数据作同样的特征提取,并与已训练出的UBM模型进行匹配;经过评分系统的处理,量化模型匹配度为分数标量;
在监督学习条件下,绘制出ROC曲线,找到EER;根据EER的值计算正反例的分界值。
2.如权利要求1所述的基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,所述基于ENF通用背景模型的数字音频篡改盲检测方法具体包括:
步骤1:对大量原始语音信号进行特征提取;
步骤2:ENF通用背景模型建立;
步骤3:使用目标数据库中的ENF信号特征对ENF-UBM模型进行自适应,得到目标数据库原始信号的ENF模型;
步骤4:对训练数据进行评分系统处理;
步骤5:绘制ROC曲线,找到EER,计算正反例的分界值;
步骤6:数字音频盲篡改检测模型测试。
3.如权利要求1所述的基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,步骤1具体包括以下步骤:
步骤1.1:对每个原始信号x[n]进行预处理,包括下采样、去直流分量,经过带通滤波得到信号中的ENF成分xENFC[n];
步骤1.2:对xENFC[n]进行相位谱和频率谱估计,提取相位谱波动特征F,分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征和瞬时频率谱拟合特征进行特征融合得到特征向量;
步骤2具体包括以下步骤:
步骤A1:建立ENF-UBM模型;
步骤A2:利用期望最大化EM算法迭代出ENF-UBM模型的参数。
4.如权利要求1所述的基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,步骤A1中,ENF-UBM模型为高斯混合模型记为λ;用X表示一条语音的特征向量,由M个不同的高斯分布按照不同的权重ω组合描述,混合高斯模型表示为:
其中,pi(X)是第i个D维随机变量的联合高斯概率密度分布;
步骤A2中,已知样本特征集和分布模型,对样本属于哪一个高斯分布和每个高斯分布的参数进行估计;
EM算法包括:第一步,每一个特征向量Xi都有一个与特征向量Xi对应的隐藏变量zi,令p(xi|zi)最大;
第二步,对似然函数最大化以获得新的模型参数,通过不断迭代获得更加准确的ENF-UBM模型参数。
5.如权利要求1所述的基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,步骤3具体包括:
使用少量的标准数据库中的原始信号对步骤2所得到的ENF-UBM模型参数通过自适应来更新ENF-UBM模型的参数,导出目标未篡改语音信号的GMM模型;
自适应算法包括:第一步,计算第t个特征向量xt属于ENF-UBM中第i个联合高斯分量pi(X)的概率P(i|xt):
第二步,利用计算得到的P(i|xt),分别计算未篡改的语音信号的GMM模型的权重、均值和方差参数:
最后,由训练数据产生的新的充分统计量更新ENF-UBM的第i个混合成员的充分统计量。
6.如权利要求1所述的基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,步骤4具体包括:
i)经过训练过程产生的GMM模型为λ,对于观察序列X={x1,x2,…,xM},由GMM模型产生X的概率记为p(X|λ),p(X|λ)越大,X属于λ分布的可能性越大;
ii)观察序列X是否属于模型λ的可能性评分函数Sλ(X),为:
Sλ(X)=logp(X|λ)
在评分函数Sλ(X)的基础上将特征向量映射为标量评分值。
7.如权利要求1所述的基于ENF通用背景模型的数字音频篡改盲检测方法,其特征在于,步骤5具体包括:
对于训练集中的每一个样例,执行步骤1和步骤4,由评分函数Sλ(X)得到分值序列S;根据评分函数Sλ(X)的预测结果,每个样例对应一个得分,根据得分结果对样例进行排序;
按此顺序逐个把每个样本作为正例,依据混淆矩阵,每次得到当前的真正例率和假正例率;以真正例率和假正例率分别为纵轴和横轴,绘制ROC曲线,找到EER,计算此点的截断点,为盲篡改检测模型的临界值;
步骤6具体包括:
保存数字音频盲篡改检测模型,对任意待测信号的真伪进行检测。
8.一种实现权利要求1~7任意一项所述基于ENF通用背景模型的数字音频篡改盲检测方法的计算机程序。
9.一种实现权利要求1~7任意一项所述基于ENF通用背景模型的数字音频篡改盲检测方法的基于ENF通用背景模型的数字音频篡改盲检测系统。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的基于ENF通用背景模型的数字音频篡改盲检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810572178.1A CN108766465B (zh) | 2018-06-06 | 2018-06-06 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810572178.1A CN108766465B (zh) | 2018-06-06 | 2018-06-06 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108766465A true CN108766465A (zh) | 2018-11-06 |
CN108766465B CN108766465B (zh) | 2020-07-28 |
Family
ID=63999823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810572178.1A Active CN108766465B (zh) | 2018-06-06 | 2018-06-06 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766465B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598374A (zh) * | 2019-05-23 | 2020-08-28 | 青岛鼎信通讯股份有限公司 | 低压交流市电台区智能识别方法 |
CN115083423A (zh) * | 2022-07-21 | 2022-09-20 | 中国科学院自动化研究所 | 语音鉴别的数据处理方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703722A (zh) * | 2002-10-09 | 2005-11-30 | 皇家飞利浦电子股份有限公司 | 图像篡改的定位 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102129859A (zh) * | 2010-01-18 | 2011-07-20 | 盛乐信息技术(上海)有限公司 | 快速信道补偿的声纹认证系统及方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN107274904A (zh) * | 2016-04-07 | 2017-10-20 | 富士通株式会社 | 说话人识别方法和说话人识别设备 |
CN107274915A (zh) * | 2017-07-31 | 2017-10-20 | 华中师范大学 | 一种基于特征融合的数字音频篡改自动检测方法 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
WO2018029071A1 (en) * | 2016-08-12 | 2018-02-15 | Imra Europe S.A.S | Audio signature for speech command spotting |
-
2018
- 2018-06-06 CN CN201810572178.1A patent/CN108766465B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703722A (zh) * | 2002-10-09 | 2005-11-30 | 皇家飞利浦电子股份有限公司 | 图像篡改的定位 |
CN102129859A (zh) * | 2010-01-18 | 2011-07-20 | 盛乐信息技术(上海)有限公司 | 快速信道补偿的声纹认证系统及方法 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN107274904A (zh) * | 2016-04-07 | 2017-10-20 | 富士通株式会社 | 说话人识别方法和说话人识别设备 |
WO2018029071A1 (en) * | 2016-08-12 | 2018-02-15 | Imra Europe S.A.S | Audio signature for speech command spotting |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN107274915A (zh) * | 2017-07-31 | 2017-10-20 | 华中师范大学 | 一种基于特征融合的数字音频篡改自动检测方法 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598374A (zh) * | 2019-05-23 | 2020-08-28 | 青岛鼎信通讯股份有限公司 | 低压交流市电台区智能识别方法 |
CN111598374B (zh) * | 2019-05-23 | 2024-03-19 | 青岛鼎信通讯股份有限公司 | 低压交流市电台区智能识别方法 |
CN115083423A (zh) * | 2022-07-21 | 2022-09-20 | 中国科学院自动化研究所 | 语音鉴别的数据处理方法和装置 |
CN115083423B (zh) * | 2022-07-21 | 2022-11-15 | 中国科学院自动化研究所 | 语音鉴别的数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108766465B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI641965B (zh) | 基於聲紋識別的身份驗證的方法及系統 | |
CN108766464A (zh) | 基于电网频率波动超矢量的数字音频篡改自动检测方法 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN108806718B (zh) | 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 | |
Mulimani et al. | Segmentation and characterization of acoustic event spectrograms using singular value decomposition | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN108831506A (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN109284717A (zh) | 一种面向数字音频复制粘贴篡改操作的检测方法及系统 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
CN103077720A (zh) | 一种说话人识别方法及系统 | |
CN108538312A (zh) | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 | |
Shim et al. | Replay spoofing detection system for automatic speaker verification using multi-task learning of noise classes | |
Yan et al. | Detection of speech smoothing on very short clips | |
CN108766465A (zh) | 一种基于enf通用背景模型的数字音频篡改盲检测方法 | |
CN110189767B (zh) | 一种基于双声道音频的录制移动设备检测方法 | |
CN109920447A (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
CN104134443A (zh) | 对称三进制串表示的语音感知哈希序列构造和认证方法 | |
Lou et al. | Feature Extraction Method for Hidden Information in Audio Streams Based on HM-EMD | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Rouniyar et al. | Channel response based multi-feature audio splicing forgery detection and localization | |
Park et al. | User authentication method via speaker recognition and speech synthesis detection | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
Lou et al. | Audio information camouflage detection for social networks | |
Zeng et al. | Deletion and insertion tampering detection for speech authentication based on fluctuating super vector of electrical network frequency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |