CN105719660B

CN105719660B - 一种基于量化特性的语音篡改定位检测方法

Info

Publication number: CN105719660B
Application number: CN201610038523.4A
Authority: CN
Inventors: 王让定; 陶表犁; 严迪群; 金超; 周劲蕾
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2016-01-21
Filing date: 2016-01-21
Publication date: 2019-08-20
Anticipated expiration: 2036-01-21
Also published as: CN105719660A

Abstract

本发明公开了一种基于量化特性的语音篡改定位检测方法，主要是基于现有技术中帧偏移的MP3篡改定位检测算法进行的深入研究，并提出一种更新的检测方法用于描述量化特性，这种检测方法无需进行帧偏移检测，故能避免计算帧偏移带来的计算复杂性，极大降低了计算的复杂度，同时还解决了帧偏移无法检测的高码率情况，实验结果表明这种检测方法具有较高的检测准确率。

Description

一种基于量化特性的语音篡改定位检测方法

技术领域

本发明涉及语音篡改定位检测方法，具体是指一种基于量化特性的语音篡改定位检测方法。

背景技术

随着数字技术和互联网技术的快速发展，数字多媒体在日常生活中得到了广泛的应用。人们每天都在产生大量的多媒体信息，例如：使用数码相机拍摄视频、拍摄照片、语音聊天，人们可以将这些信息通过互联网技术在网络上与朋友分享，丰富了人们的精神文化生活，方便了人们之间的交流沟通，让人们因掌握了新的技术而受益。但是，任何技术都存在两面性，大量的多媒体编辑软件可以对这些数字信息进行篡改，如果篡改的信息被非法使用，将会给我们的生活带来极大的威胁，由此数字取证技术孕育而生。通常数字取证技术可分为两类：主动取证技术和被动取证技术；主动取证技术有两种常见的方法：第一种是数字水印，对认证的数字信息嵌入认证信息；第二种是数字签名，从数字信号中提取一个与内容相关的指纹作为数字签名。这两种方法都可以用来检测数字信息的真实性。被动取证技术是通过对数字内容进行分析，运用数字信号处理的技术鉴别数字信息的原始性和真实性，它不需要事先嵌入信息。在实际情况下要鉴别的数字信号往往都不具备数字水印和数字签名信息，因此实际应用中被动取证技术更具有现实意义。

MP3是目前流行的音频格式之一，MP3音频采用MPEG-1第三层音频压缩标准，以其近CD的音质、高压缩比、开放性和易用性深受好评，在因特网上广为流行，相应的编解码软件和硬件设备也不断涌现。音频是指人类能够听到的所有声音，语音是指由人的发音器官发出，负载着一定的语言意义，语音是音频的一个范畴。我们把经过MP3音频编码器压缩的语音信号称为MP3语音。正是因为MP3编码软件和硬件设备不断的普及使得我们获取MP3语音变得非常便捷，而音频编辑软件可以随意的对语音内容进行编辑篡改，如果被非法利用将会给我们的生活带来严重的威胁。例如在法庭上用于取证的录音材料：“我没有看到事情的经过”篡改为“我看到了事情的经过”，仅仅将“没有”二字删除完全扭曲了原本的意思，将会破坏最终判决的公正性。语音内容常见的篡改方式有：删除、插入、拼接。删除操作就是将原始语音的内容删除部分，达到掩盖原始内容的目的；插入操作是将另一段语音内容插入原始语音特定位置处，同样达到掩盖原始语音内容表达的目的；拼接篡改操作是删除和插入操作的结合，首先将原始语音内容的部分内容删除，然后插入另一段语音内容，同样达到掩盖原始语音内容的目的。从这些篡改的操作过程可以看出，对语音内容的真实性和原始性验证是非常重要的。

目前，语音内容篡改取证领域中也引起较多研究者的关注。《基于背景噪声的数字音频取证[J]. 2010 IEEE国际会议，106-110》文献中，Ikram和Malik提出一种基于环境背景噪声的音频取证方法，利用待测音频中背景噪声与不同环境背景噪声的相关性大小来判断音频信号的完整性。《基于混响的录音环境识别[C]. 声学、语音信号处理. 2012年:1833-1836》文献中，Malik等利用逆滤波器从音频文件中估计回响信号，提取回响信号的24维梅尔倒谱系数和24维对数梅尔谱系数，构成48维的特征向量，然后利用SVM分类以实现对录音环境的识别。《基于双谱分析的数字取证检测[J]. MIT,2004 》文献中，Farid提出了利用双谱分析检测音频信号真伪的方法，他认为自然信号在频域内具有较弱的高阶相关性，而经篡改后的非自然信号，会引入了非线性，从而导致高阶相关性的增强；因此，可以利用双谱分析检测三阶相关性强弱的方法来检验音频信号有没有被篡改。《基于帧偏移的数字音频篡改取证[C]. 第10届ACM多媒体安全会议，牛津大学，2008:21-26》文献中，Yang等人提出了一种检测MP3文件篡改的方法，文献中首先分析了MP3的编解码过程，指出由于语音信号是以帧为单位进行编码的，在编码之后每一帧都具有固定的帧偏移量，而篡改会破坏这种偏移，文献中通过检测帧偏移的不一致性进行篡改定位检测。《基于频谱分析的MP3音频比特率[C]. 第11届多媒体信息安全会议. 2009：57-61》文献中，Brian提出了一种通过频谱分析检测MP3格式音频的真实比特率的方法，作者通过实验证实不同比特率的音乐的功率谱在16kHz至20kHz频带内呈现不同分布。如果将低比特率音乐转换成高比特率，其高频段内的功率谱依然会保持与原来低比特率相同的特性，因此提取16kHz至20kHz高频段功率谱的有效特征，并经过SVM分类器进行分类，即可有效检测出待检测音乐的真实比特率。《数字音频录音分析电网频率[J]. 语言与法律的国际会议,2005,12(1):63-76》文献中，Grigoras提出了利用电网频率 (Electric Network Frequency，ENF)对数字音频录音进行分析，他认为数字录音设备在拾取音频信息的同时，还记录了50/60Hz的电网频率，并且ENF只在50/60Hz上下随机波动；因此，篡改过的音频信号，它的ENF声谱图会存在不连续的特征。实验表明，在同一电网条件下，不同录音系统所记录的音频信号，ENF声谱图之间的差异非常小，并且不同时间记录的音频中的频率偏差不同；因此，可以通过电力公司建立相关ENF库，进一步确定录制音频的正确时间。

综上所述，尽管语音篡改检测在国内外已得到了较大的关注和发展，并取得了一定的研究成果，但是还存在不少问题，如基于MP3音频格式特点的篡改检测，在对高码率压缩的情况往往无法检测，对于录音设备和环境特征的篡改检测准确率还有较大的提高空间，特别是对录音设备来源的描述不够准确。造成了识别的准确率较低等问题，因此在研究以上方面问题时都有较大的发展空间。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺陷而提供一种检测过程计算简单、能够检测高码率和检测准确度高的一种基于量化特性的语音篡改定位检测方法，拟解决MP3语音格式特点的篡改在高码率无法检测的情况，以及改善已有方法计算复杂的问题。

本发明的技术问题通过以下技术方案实现：

一种基于量化特性的语音篡改定位检测方法，其包括如下步骤：

步骤一、选取给定的包含L个样本的语音信号X，将X划分为每帧1152个样本，每帧有50%的重叠，因此一共有帧，

，其中F表示lame3.99.5编码器中分帧和加窗函数操作；

步骤二、应用滤波器组和MDCT到每一帧，以获取其频谱系数

，其中表示lame3.99.5编码器中滤波器组和MDCT，表示第帧的频谱，每帧包含576个频谱系数；

，其中表示提取每帧频谱系数中值为0和的个数，记为；

步骤三、对的每一个频谱系数用，进行如下公式量化：

表示第帧中第个频谱系数，表示量化的第帧第个频谱系数，用表示第帧的量化频谱系数；

步骤四、将获取的量化频谱系数，应用函数获取每帧中值为0的个数记为，，并计算；

步骤五、最后计算

其中find函数表示中值不等于0时返回索引值；表示设置的阈值，在实验中设置为4，也即表示返回没有连续出现4个值为0值的位置，其中设置检测时滑动框数量为6个单位，表示检测的精度在6/2帧的范围，也即检测误差为3帧，经过计算并最终确认语音文件的篡改定位。

所述的语音篡改定位检测方法的正确检测率AR按照如下公式计算：

式中，

——虚警率为将未篡改的判断为篡改语音的比例；

——漏检率为将篡改的认为是未篡改语音的比例。

与现有技术相比，本发明主要是基于现有技术中帧偏移的MP3篡改定位检测算法进行的深入研究，并提出一种新的检测方法用于描述量化特性，这种检测方法无需进行帧偏移检测，故能避免计算帧偏移带来的计算复杂性，极大降低了计算的复杂度，同时还解决了帧偏移无法检测的高码率情况，实验结果表明这种检测方法具有较高的检测准确率。

附图说明

图1为MP3编码流程图。

图2为不同偏移时Ac-Qc的变化情况示意图。

图3为发生篡改时Ac-Qc的变化情况示意图。

图4为不同码率下发生篡改时Ac-Qc的变化情况示意图。

图5为两种方法在计算复杂度上区别的检测过程示意图。

具体实施方式

下面将结合上述附图对本发明实施例再作详细说明。

一种基于量化特性的语音篡改定位检测方法，它是针对现有基于帧偏移的MP3篡改定位检测算法进行深入研究，提出一种新的方法用于描述量化特征并进行篡改定位检测。

在该检测方法中涉及了关于MP3编码流程的介绍和现有帧偏移工作的介绍，具体为：

MP3编码流程

MP3是一种有损压缩的数字音频编码格式，它能在不影响语音内容的基础上去掉大量冗余的数据信息，为了确保语音质量，根据人类心里声学模型将大多数人无法感知的语音细节去掉。

完整的MP3音频编码过程如图1所示描述：

1.输入的数字语音信号即PCM（pulse Code Modulation）采样信号进入子带滤波器组后被分成32个子带信号。

2.将每一个子带进一步根据MDCT（改进的离散余弦变换）在频域里细分成18个频线，这样共产生576个频线。MDCT系数可以通过向量xr给出：

为了减少时域划分子带时的边界损失，每一个子带在MDCT前进行加窗处理，加窗的类型由心理声学模型FFT变换获取的信号频率信息特点决定。

3.同时，将相同的输入PCM信号也应用快速傅里叶变换到频域信号，以获得更高的频率分辨率和频谱信息。如果当前信号变换的平缓，相应的子带就会加长窗来提高它的频率信息；相反，如果当前帧的信息变化的比较剧烈，或者有突变，子带就会加短窗来增强他的频域分辨率。与此同时，利用心理声学模型计算出子带信号的信掩比，信掩比将决定子带频率的阈值。

4.每次将576个频域值进行量化，量化过程有三个嵌套的循环：帧循环，是最外层循环，主要完成每一帧在量化编码前的初始化工作和计算每一帧编码后所剩的比特数；外循环，目的是保持量化噪声低于掩蔽阈值，防止失真；内循环，主要功能对频域系数进行量化和哈夫曼编码，并计算所需要的比特数。

5.哈夫曼编码，在内循环中完成，在频域系数经过量化后再无失真的哈夫曼编码，可以提高编码效率，哈夫曼编码完成后，将编码数据和量化产生的边信息一起组成一帧数据。一帧完整的数据应包括：帧头信息， CRC，边信息，主数据。

QMDCT系数是PCM信号MDCT后经过量化得到的数值，因此本质上反映的还是原始信号的特征，只不过是经过了多次变换。PCM信号经MDCT后得到就是MDCT系数，MDCT系数经量化公式量化后即可得到QMDCT系数。量化公式如下所示：

其中代表量化之后的MDCT系数，是MDCT系数，意思是提取最接近的整数,Stepsize是量化步长，在内循环中确定。

帧偏移工作介绍

如果MP3音频文件发生篡改必然会发生帧偏移，利用频谱系数的统计特征来描述量化特征，然后通过量化特性来检测帧的偏移量，进而检测帧偏移的不一致性检测是否发生了篡改。现有的帧偏移检测方法如下：

对给定的包含L个样本的音频信号X，标记为为X前面添加j个零值样本的矢量。

对于每个偏移j，将划分为每帧1152个样本，并且50%的重叠量。因此一共有帧音频。

其中F表示分帧并且应用窗函数的操作，表示的第k帧。

应用滤波器组合MDCT到每一帧，获取其频谱（576个频谱系数）。

其中T表示滤波器组的滤波和MDCT变化，表示第k帧的频谱。

将变换成对数形式。

其中是通过对数形式将所有值投影到范围[0,10]。

接着计算非零系数的个数

其中C表示计数器。

对于第k帧，检测的帧偏移为：

其中，是区分帧偏移是否可以检测的一个阈值。对于有些情况帧偏移不存在或被掩盖，所有的很接近，但依然会存在最小值，这样就会造成误检。因此需要一个阈值来反应这些情况，只有在足够大的时候，才认为该帧的帧偏移可是可以检测的，否则赋一个特殊值-100给不可检测的帧，让其明显区别可检测的情况（0~576），设定为30。

最后一步是定位篡改，只要检测帧偏移的不一致性即可，即对计算差分，如果，判定第k帧发生篡改。

本发明的检测方法还涉及了量化特性、篡改的影响分析和高码率压缩的篡改检测，具体为：

量化特性

本发明已经介绍了MP3编码的量化过程，子带信号经过MDCT之后即得到了MDCT系数，之后再经过量化公式将MDCT系数量化，得到QMDCT系数，其中的关键是获取stepsize，stepsize由内循环中确定。因此量化的频谱系数直接反应了量化特性，直观上应该是最好的特征。然而独立的考虑量化频谱系数并没有明显的变化，受到帧偏移的启发：MP3编码后很多的频谱系数由于被掩盖或者量化成了0值。当解码时，这些零值频谱系数被恢复到时域。当这些解码的数据使用与第一次编码相同帧偏移进行MDCT时，将得到很多频谱系数等于0。如果使用了不同的帧偏移，公式中的局部对称性被破坏，从而相应的频谱系数不再为0。如果再将这些频谱系数再经过量化，那么频谱系数在偏移不一致性的情况下量化的零值系数会存在一定的区别。为了描述它们区别，本发明进一步分析，在没有发生帧偏移时，量化的零值频谱系数理论上应该是来自于频谱系数中值为零和接近于零值的频谱系数；而如果发生偏移时，量化的零值频谱系数的来源可能会发生变化。

在本发明中标记量化的零值系数的个数为Qc，标记未量化的频谱系数接近零值和零值的个数为Ac。如图2所示的最上面图中，横轴表示帧数，纵轴表示未量化的频谱系数接近零值和零值的个数与量化频谱系数中零值的个数之差，即Ac-Qc；从图2中可以看出其差值基本稳定在零附近，这表明量化的零值系数基本都是来自频谱中值接近于零和为零的值，也验证了本发明的分析。在图2中也可以看到在部分位置差值有较大的波动，并且具有区域性特点，深入分析会发现这些区域正好是语音的内容部分，这是因为在量化过程中根据掩比阈值和可用编码位数不断调整量化步长，从而将其他值量化为零值，所以才产生了图2中效果。

如果发生了帧偏移，再进行MDCT时将会使用与第一次MDCT使用不同的参数，这将会破坏公式中的对称性，因此会产生少量的零值频谱系数，而这些发生偏移的MDCT系数进行量化时，也将会产生不一样的量化结果。图2a是样本起始位置删除一个采样点，使得向左发生一个样本点的偏移，即offset=-1。再次计算Ac-Qc时发现其稳定区间并不在零附近，而是在-50~-100处。图2c最底部是在样本起始位置增加一个零值样本，使得向右发生一个样本的偏移，即offset=+1。结果和中间图一致，这说明如果发生帧偏移,量化的零值频谱系数将不仅来自Ac，而且还会来自其他的值。也就是说，如果发生了帧偏移,量化特性将会改变，会将其他许多非Ac值量化为零值，因此可以说明用该变量可以描述帧偏移。

为了更好的描述零值量化特性，表中1本发明定义量化率为：频谱系数中接近零值和零值的个数与量化频谱系数零值个数的比值，即Ac/Qc。如果量化的频谱系数零值完全与未量化频谱系数中接近零值和为零值的个数一致，则表示量化率为100%。从表中可以看出没有发生偏移时零值的量化率接近100%，达到98%，而且部分帧最佳转化率达到100%，而发生偏移之后零值平均量化率仅30%，这也说明用该变量可以很好的描述帧偏移特点。

表1.不同偏移时零值量化率

量化率	Offset=0	Offset=1	Offset=-1
				最佳	100%	47.33%	53.69%
最差	65.31%	14.44%	15.84%
				平均	98.08%	32.34%	31.27%

篡改的影响分析

语音内容的篡改操作往往是导致帧偏移的主要原因。对语音内容的篡改常见的篡改方式有三种：删除、插入、拼接；任何一种操作都将导致帧偏移，因此可以按照未发生偏移的和发生偏移时量化过程的差异性检测篡改。在图3中本发明将一段10s长的语音在7s处删除0.5s，然后按照前面的分析计算Qc和Ac。从图3中本发明可以非常明显观察到发生篡改位置处Ac与Qc的差值发生了较大的偏离。发生篡改前部分的差值都在零值附近波动，而篡改后的部分都在-100左右波动，和前面分析是一致的。从图3中也可以非常明显的辨别篡改位置。

另一方面，本发明也可以看出篡改之后的位置都发生了偏离，就默认从篡改点位置之后都是篡改部分。这也说明了该方法并不能确定篡改的内容长度，而且如果发生多个篡改位置也只能定位距离起始位置最近的一个点，而将之后的位置都认为是篡改了，这也是本方法的一个局限性。当然实际中只要能辨别语音是否发生篡改即可。

高码率压缩的篡改检测

应用帧偏移时码率在128kbps时无法检测，原因是因为当以高码率压缩时会保留更多的频谱细节，从而使得零值频谱系数大量减少，因此非零频谱系数的个数就无法体现量化特性，进而不能进行帧偏移的检测。在本发明的检测方法中深入分析量化环节：每一帧进行量化时会使用一个stepsize（量化步长），对每一个频线量化过程都是一致的。而频线的分布是按照低到高排列，这是因为在编码的时候能够以区域编码（即大值区，小值区，零值区），因此在频线的后部分基本都是零值区，而频谱系数的零值在量化过程无法体现量化特性，因而只需考虑频线前部分的低频部分的量化特性。在本发明的测试中取前面16个频带，刚好是整个频线总数的一半。如图4所示左边是码率为128kbps时，可以看出在删除位置的前部分仍然是保持在零值附近波动，在篡改位置之后也发生了较大的偏离，可以很明显的辨别篡改位置；在192kbps压缩时也能反映出该特征，也可以很清楚的辨别篡改位置。然后将两者对比会发现，码率越高偏离零值位置越近，这种差异性会减少。正如前述的分析随着码率增加编码使用的比特数会越多，会保留更多的频谱细节，使得频谱系数的值更精确，从而使得该特征的量化特性表现的越来越不明显。

本发明的检测方法描述

为了能够简便的检测篡改位置，本发明将检测过程描述如下：

，其中F表示lame3.99.5编码器中分帧和加窗函数操作；

步骤二、应用滤波器组和MDCT到每一帧，以获取其频谱系数

，其中表示提取每帧频谱系数中值为0和的个数，记为；

步骤三、对的每一个频谱系数用，进行如下公式量化：

步骤五、最后计算

实验结果分析

1.样本库和实验环境

本发明的测试的环境是在HpZ820计算机上，处理器为Xeon(R) CPU E5-2609 V22.50GHz 内存64G 64位操作系统；MATLAB2012版 64位。样本库来自600个3s长的wav语音片段，采样率为44.1kHz，单声道。使用LAME3.99.5对这些语音片段进行编码，编码码率为32kbps，64kbps，96kbps，128kbps，192kbps，256kbps。设置300个正样本和300个负样本，分别对300个负样本进行删除、插入、拼接篡改操作。篡改的位置点使用MATLAB自带的rand函数随机产生，并记录篡改的位置。应用本发明的检测方法进行篡改位置的定位检测。同时，本发明定义虚警率为将未篡改的判断为篡改语音的比例，漏检率为将篡改的认为是未篡改语音的比例，分别记为和。正确检测率AR如下公式计算：

式中，

——虚警率为将未篡改的判断为篡改语音的比例；

——漏检率为将篡改的认为是未篡改语音的比例。

2.检测准确率

实际的检测结果如表2所示，

表2.不同码率下不同篡改操作的检测准确率

从表2中可以看出前面码率在32-192kbps时检测的准确率基本都在99%以上，而码率在256kbps时却出现了明显的降低，这和本发明前面的分析一样，随着码率的增加Ac-Qc之间的差异随着减小，因此会导致当压缩码率达到一定程度时会出现检测率下降的情况。

3.对比实验

检测准确率的对比

本发明将自建的样本库应用帧偏移进行篡改定位，对篡改定位的准确性进行测试，测试结果如表3所示，从表3中可以看出实际准确率基本都在90%以上，而且准确率波动的范围也较大，分析其原因是因为篡改位置是随机产生，而本发明观察造成检测错误的原因是由于篡改的位置在开始端前几帧，起始位置在实验中往往以奇异值存在，对帧偏移量的检测有一定的干扰，因此造成定位的错误；另外，帧偏移进行篡改定位在码率达到128时就无法检测，其原因是因为当码率达到一定程度时，非零频谱系数间的差异很小，使得帧偏移的检测出现错误，在帧偏移不准确的情况下，就无法利用帧偏移进行定位检测。

表3. Yang帧偏移检测篡改的准确率

算法复杂度上对比

为了比较两种方法在计算的复杂度的区别，将检测过程如图5所示描述：

1.Yang的帧偏移检测复杂度近似为：

表示样本应用576个不同的偏移量；表示对576个样本进行MDCT并提取MDCT系数；两个分别表示对576个样本进行非零频谱个数的统计和计算实际帧的偏移量，表示应用帧偏移进行篡改定位。

2.本发明的检测方法的复杂度近似为：

表示进行经过MDCT和量化并提取频谱系数和量化频谱系数；表示计算Ac和Qc。表示定位篡改位置。

从理论上分析对比两者的复杂度，帧偏移的方法整体上近似是本发明检测方法的576倍，但是本发明多了一个量化过程，因此实际复杂度应略小于576倍。然而本发明分别统计其实际运行时间；Yang运行时间为628.917s，本发明的运行时间为1.314s，可以知道Yang的运行时间是本发明的478.628倍，与本发明前面的理论分析时间相近。这说明本发明的检测方法在效率上明显优于帧偏移方法。

最后，本发明提出的检测方法是在帧偏移的方法的原理上进行改进，运用零值样本量化特性体现帧偏移的量化特征，其实验结果表明本发明的检测方法在检测率上也非常高，更为突出的贡献是进一步解决了帧偏移无法检测的高码率情况。其次在算法的复杂度上也极大的降低，因为无需进行帧偏移检测，可以避免应用不同的偏移量区检测实际偏移量。

Claims

1.一种基于量化特性的语音篡改定位检测方法，其特征在于该语音篡改定位检测方法包括如下步骤：

，其中F表示分帧和加窗函数操作；

步骤二、应用滤波器组和MDCT到每一帧，以获取其频谱系数

，其中表示滤波器组和MDCT，表示第帧的频谱，每帧包含576个频谱系数；

，

其中表示提取每帧频谱系数中值为0和的个数，记为；

步骤三、对的每一个频谱系数用，进行如下公式量化：

步骤四、将获取的量化频谱系数，应用函数获取步骤三中的每帧中值为0的个数记为，，并计算；

步骤五、最后计算

2.根据权利要求1所述的一种基于量化特性的语音篡改定位检测方法，其特征在于所述的语音篡改定位检测方法的正确检测率AR按照如下公式计算：

式中，

——虚警率为将未篡改的判断为篡改语音的比例；

——漏检率为将篡改的认为是未篡改语音的比例。