CN104123935A

CN104123935A - 一种面向mp3数字音频文件的重压缩检测方法

Info

Publication number: CN104123935A
Application number: CN201410338396.0A
Authority: CN
Inventors: 任延珍; 范梦迪; 高雄智; 吴兴超; 赵思寒
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2014-10-29
Anticipated expiration: 2034-07-16
Also published as: CN104123935B

Abstract

本发明公开了一种面向MP3数字音频文件的重压缩检测方法，采用模式分类技术进行MP3数字音频文件特征的提取，采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测。本发明提出基于校准的重压缩检测方法，利用原始音频与校准音频的平均每帧量化MDCT系数等于0~9值的个数的差值作为特征进行检测，实验结果表明，能够在很大程度上解决同比特率重压缩以及从高到低比特率重压缩检测的难题。不仅能够鉴别数字音频文件是否被压缩过，还能较准确地判定其原始压缩码率。从而为音频篡改检测提供依据。

Description

一种面向MP3数字音频文件的重压缩检测方法

技术领域

本发明属于数字媒体处理技术领域，涉及一种鉴定MP3数字音频信号是否经过重压缩的检测方法。

技术背景：

多媒体技术的数字化以及各式各样传输技术的进步，使得数字媒体应用迅速增长。这其中，录音设备的广泛使用更使得录音资料越来越多的出现在诉讼、维权、新闻报道和商业谈判等多个领域。由于只需使用普通的计算机就能方便地对音频信息加以修改，因此为保证录音的真实性，音频篡改检测技术便成为很多案例中引入音频证据的必要步骤。

目前的数字音频取证技术是指通过分析数字音频的统计特性从而检测该数字音频所包含内容的真实性和完整性，其包括主动取证技术和被动取证技术。主动取证技术是通过预先向原始数字音频信息中嵌入验证信息来实现的，这些验证信息在现阶段主要指数字音频水印。被动取证不需要预先嵌入水印信息，对录音设备的要求大大降低，具有更强的实用性，发展空间更大。

典型的音频篡改方式是使用功能强大的音频编辑软件将音频文件打开，然后进行某些处理，再重新保存。此过程经历了解码、篡改、压缩这三个步骤。若音频的格式是MP3有损压缩格式，则这样的篡改方式会导致二次编码压缩。重压缩检测方法是针对数字音频信号压缩历史的分析方法，属于被动取证。它的目标是判断之前的音频是否被压缩过，可以作为一种判别音频原始性的辅助手段，与其他检测方法一起实现对音频篡改的鉴定。

目前对MP3文件的重压缩检测算法在低比特率向高比特率重压缩时的情况，检测正确率较高；但是，当MP3文件是同比特率重压缩或者从高比特率向低比特率压缩时，其检测正确率较低。

发明内容

为了解决上述的技术问题，本发明提供了一种面向MP3数字音频文件的重压缩检测方法。

本发明所采用的技术方案是：一种面向MP3数字音频文件的重压缩检测方法，其特征在于：采用模式分类技术进行MP3数字音频文件特征的提取，采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测。

作为优选，所述的采用模式分类技术进行MP3数字音频文件特征的提取，具体实现包括以下子步骤：

步骤1.1：将MP3数字音频文件作为原始音频A，提取原始音频A的所有帧的量化后MDCT系数值XR；

步骤1.2：对原始音频A进行校准，得到校准音频A′，并提取校准音频A′的所有帧的量化后MDCT系数值XR′；

步骤1.3：将MP3数字音频文件的平均每帧量化MDCT系数等于0～9值的个数与其校准MP3数字音频文件的平均每帧量化MDCT系数等于0～9值的个数相减，其差值作为该MP3数字音频文件的特征。

作为优选，所述的采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，具体实现包括以下子步骤：

步骤2.1：提取训练音频样本特征，构造分类器模型，具体实现包括以下子步骤：

步骤2.1.1：输入训练样本集，训练样本集中的训练音频包括一次压缩音频和重压缩音频，对训练样本集中的所有音频都进行特征提取；

步骤2.1.2：利用LIBSVM对训练样本集中的重压缩音频及其所对应的一次压缩音频的特征进行二分类训练，此二分类训练使用的重压缩音频和一次压缩音频满足以下条件：在样本的放置中，重压缩音频的BR_test等于一次压缩音频的BR_test，其中BR_test表示音频的当前码率；

步骤2.2：利用分类器对待测MP3数字音频文件做是否重压缩鉴定，具体实现包括以下子步骤：

步骤2.2.1：提取待测音频十维特征；

步骤2.2.2：将该特征放入分类器训练过程得到的所对应的二分类器Model中进行分类预测，输出待测结果。

作为优选，所述的采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测，具体实现包括以下子步骤：

步骤3.1：提取训练音频样本特征，构造分类器模型；具体实现包括以下子步骤：

步骤3.1.1：输入训练样本集，训练样本集中的训练音频包括一次压缩音频和重压缩音频，对训练样本集中的所有音频都进行特征提取；

步骤3.1.2：利用LIBSVM多分类选取样本集中的重压缩音频和一次压缩音频特征做分类；

步骤3.2：利用分类器对待测MP3数字音频文件做原始压缩码率判定，具体实现包括以下子步骤：

步骤3.2.1：提取待测音频十维特征；

步骤3.2.2：将该特征放入分类器训练过程得到的所对应的多分类器Model中进行原始码率的预测，输出待测结果。

本发明根据现有被动检测算法针对数字压缩音频篡改检测的不足，提出了一种面向MP3数字音频文件的重压缩检测方法，可满足个人、集体等对MP3音频篡改的检测需求，保证音频内容的真实性和完整性，为司法中音频证据的有效性提供技术支持。

与现有技术相比，本发明的优越性在于：提出基于校准的重压缩检测方法，利用原始音频与校准音频的平均每帧量化MDCT系数等于0～9值的个数的差值作为特征进行检测，实验结果表明，能够在很大程度上解决同比特率重压缩以及从高到低比特率重压缩检测的难题。不仅能够鉴别数字音频文件是否被压缩过，还能较准确地判定其原始压缩码率。从而为音频篡改检测提供依据。

附图说明

图1：是本发明现有技术的MP3编解码流程图；

图2：是本发明实施例的流程图；

图3：是本发明实施例的本发明的特征提取流程图；

图4-1：是本发明实施例的原始音频(32kbps->96kbps)重压缩校准前重压缩直方图；

图4-2：是本发明实施例的原始音频(32kbps->96kbps)重压缩校准后重压缩直方图；

图4-3：是本发明实施例的原始音频(32kbps->96kbps)重压缩校准前后直方图差值曲线；

图5-1：是本发明实施例的原始音频(96kbps)单次压缩校准前直方图；

图5-2：是本发明实施例的原始音频(96kbps)单次压缩校准后直方图；

图5-3：是本发明实施例的原始音频(96kbps)单次压缩校准前后直方图差值曲线。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

首先，对本技术方案中出现的相关术语进行如下统一解释：

压缩音频：指经过有损压缩的音频，如MP3、WMA文件均为有损压缩；

一次压缩MP3：指由原始PCM信号经MP3编码器一次编码压缩的MP3音频文件；

重压缩MP3：原始MP3音频解压为PCM信号，再以相同码率或不同码率重新压缩为MP3音频的过程；

量化后MDCT系数：通过量化处理后的MDCT系数值，在MP3解码过程中提取，位于哈夫曼解码之后；

MP3校准：将原始MP3音频经过MP3解码器解压为WAV数据，删除起始200个采样点，再用MP3编码器重新压缩为与原始码率相同的MP3的过程；

LIBSVM多分类：采用一对一法(one-versus-one,简称1-v-1SVMs)进行多类分类。其做法是在任意两类样本之间设计一个SVM，因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时，最后得票最多的类别即为该未知样本的类别。

本发明的重压缩检测方法是基于MPEG-1Audio Layer3(MP3)标准的压缩过程，请见图1，为MP3的编解码原理；编码时，输入的声音信号经过32个子带滤波器并进行MDCT变换。压缩过程根据心理声学模型的规则对MDCT系数进行量化。量化过程导致连续分布的MDCT系数值变为离散分布的MDCT系数值。这个过程会把不同频段的系数进行压缩，通常部分高频和中高频段的系数会压缩的更明显，使得这部分会出现更多零的系数。量化编码使用一个三层迭代循环模型来实现比特分配和量化。这三层包括：帧循环，外层循环和内层循环。哈夫曼编码对量化的最大值进行限制，若超过限制，则增大量化步长重新进行量化。解码是编码的反过程，具体过程可概括为：哈夫曼解码、逆量化处理、IMDCT变换、子带合成、PCM信号输出。本发明的量化后MDCT系数即是在MP3的哈夫曼解码过程中提取。

请见图2，本发明所采用的技术方案是：一种面向MP3数字音频文件的重压缩检测方法，采用模式分类技术进行MP3数字音频文件特征的提取，采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测。

请见图3，本实施例的提出了基于校准的量化后MDCT系数统计特性的重压缩检测特征，采用模式分类技术进行MP3数字音频文件特征△F的提取，具体实现包括以下子步骤：

(式壹)

其中N为帧的个数，xr为单个量化MDCT系数，每帧576个MDCT系数。

步骤1.2：对原始音频A进行校准，得到校准音频A′，并提取校准音频A′的所有帧的量化后MDCT系数值XR′；校准的过程是：将MP3解压缩为WAV音频，在头部删除200个采样点，再重新压缩为与原始码率相同的MP3。

(式贰)

其中N′为帧的个数，xr′为单个量化MDCT系数。

步骤1.3：计算特征△F，共十维；将MP3数字音频文件的平均每帧量化MDCT系数等于0～9值的个数与其校准MP3数字音频文件的平均每帧量化MDCT系数等于0～9值的个数相减，其差值作为该MP3数字音频文件的特征。

△F_k＝F1_k-F2_k,k＝0～9 (式叁)

其中，

{F 1}_{k} = \frac{Σ_{i = 0}^{575} Σ_{t = 0}^{N - 1} δ (xr (t, i) = k)}{N},

{F 2}_{k} = \frac{Σ_{i = 1}^{575} Σ_{t = 0}^{N^{'} - 1} δ ({xr}^{'} (t, i) = k)}{N^{'}}

其中δ函数为单位脉冲函数，当括号内条件满足时取值为1，不满足时取值为0。xr(t,i)为XR中所对应位置的量化MDCT系数，xr′(t,i)为XR′中所对应位置的量化MDCT系数。

对此特征的提取是观察单次压缩和重压缩音频在校准前后量化MDCT系数直方图的分布产生的。

首先以重压缩音频为例，请见图4-1、4-2和4-3，图中横坐标表示了量化MDCT系数中0～50这51个数值，纵坐标表示所对应的个数。直方图的含义为：该MP3音频在量化MDCT系数值分别为0～50时所对应的个数统计。图4-1中直方图是原始重压缩音频(由32kbps重压缩至96kbps)的直方图，图4-2中的直方图表示该音频校准后的结果，图4-3表示两个直方图对应位置的差值曲线。由图中可以看出重压缩音频在校准前后的0值个数分布上有巨大的差异，直方图差值曲线在取值为0～9时发生波动，差异在10值之后几乎消失。

单次压缩的音频及其校准在直方图上的特性如图5-1、5-2和5-3所示。图5-1中的直方图是原始音频(一次压缩96kbps)的直方图，图5-2中的直方图表示该音频校准后的结果，图5-3表示两个直方图的差值曲线。由图中可以看出一次压缩音频在校准前后的0值个数分布上的差异远没有重压缩明显，他们相差一个数量级，在1～9值的变化趋势上与重压缩也有所不同。因此，零值个数分布作为判定一次压缩和重压缩的决定性特征，1～9值的分布特征在很大程度上能增加判定的准确性。

本实施例的采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，具体实现包括以下子步骤：

步骤2.1：提取训练音频样本特征，构造分类器模型；具体实现包括以下子步骤：

步骤2.1.1：输入训练样本集，训练样本集中的训练音频包括一次压缩音频和重压缩音频，这些音频内容包括语音和音乐。裁剪为长度均为5s的音频，用MP3编码器分别将这些时长5s的音频压缩为32kbps、64kbps、96kbps、128kbps这四种常见编码码率，作为一次压缩MP3音频集。构造重压缩MP3音频集时，用MP3解码器解压所有一次压缩MP3并重新压缩为上述四种编码码率，作为重压缩MP3音频集。对训练样本集中的所有音频都按照步骤1.1-步骤1.3中的特征提取算法计算特征△F。

步骤2.1.2：利用LIBSVM对训练样本集中的重压缩音频及其所对应的一次压缩音频的特征△F进行二分类训练，如一次压缩MP3的码率为B，重压缩MP3是由B1重压缩至B的文件，表示为B1->B。由于LIBSVM在分类时需要对不同种类用不同的label值进行区分，可以将一次压缩码率为B的label值设为1，将重压缩B1->B的label值设为2。

此二分类训练使用的重压缩音频和一次压缩音频满足以下条件：在样本的放置中，重压缩音频的BR_test等于一次压缩音频的BR_test。

实验过程中针对32kbps、64kbps、96kbps、128kbps这四种码率，分别得到16个能鉴定MP3音频信号是否重压缩的二分类器模型Model。设BR_test表示MP3音频(一次压缩/重压缩)的当前码率；若音频经过重压缩，则BR_pre取值表示重压缩过程中第一次压缩的码率，若未经过重压缩，BR_pre取值为空(NULL)。16个二分类Model的情况如表1：

表1十六个二分类Model情况表

其中，(32):(32->32)表示该二分类Model中放置的两类样本分别为一次压缩32kbps和重压缩32kbps->128kbps的情况。

步骤2.2：利用分类器对待测MP3音频做是否重压缩鉴定，具体实现包括以下子步骤：

步骤2.2.1：提取待测音频十维特征△F；

步骤2.2.2：将该特征放入分类器训练过程得到的所对应的二分类器Model中进行分类预测，输出待测结果。若待测MP3音频的label＝1，则可以判定为未经过重压缩；若待测MP3音频的label＝2，则可以判定为经过重压缩。需要注意：判定过程是选择二分类器，要求所选该分类器检测的待测音频必然属于这二类中的一类。

下面给出本实施例的重压缩检测的一些实验结果，其中利用的参考文献包括：

参考文献[1]R.Yang,Y.Q.Shi,and J.Huang.Detecting double compression ofaudio signal.In SPIE Conference on Media Forensics and Security,2010.

参考文献[2]Bianchi T,De Rosa A,Fontani M,et al.Detection and classificationof double compressed MP3audio tracks[C]//Proceedings of the first ACM workshopon Information hiding and multimedia security.ACM,2013:159～164.

本实施例提出的MP3重压缩的检测方法，通过与参考文献[1]中Yang及参考文献[2]中Tiziano方法对比，可以看出本算法的优越性。本实施例还自我对比了相同条件下0值特征、0～5值特征、0～9值特征的性能，说明了选取0～9这十维特征的原因。实验结果见表2～表5。设BR_test表示MP3音频(一次压缩/重压缩)的当前码率；若音频经过重压缩，则BR_pre取值表示重压缩过程中第一次压缩的码率，若未经过重压缩，BR_pre取值为空(NULL)。正确率AR计算如下：

AR = (1 - \frac{f_{p} + f_{n}}{2}) \times 100 %

(式肆)

其中，f_p表示误判率或虚检率，即实际未篡改但被标记为篡改的音频数占实际未篡改的音频样本数的比率；f_n为漏判率或漏检率，即实际篡改但未检测出的音频数占实际篡改的音频样本数的比率。

表2对比了本发明与Yang的方法在待测音频码率为32kbps的情况下的检测结果；

表2BR_test＝32kbps的对比结果

表中‘*’表示该方法未对此种情况进行测试。表中可以看出本发明与Yang的算法对从高到低比特率压缩的检测结果均不太理想，但是本发明对于32kbps重压缩至32kbps的情况下的检测效果非常好，准确度为95％左右，随着特征数目的增多，分类准确率增加。0～9这十维特征的分类效果最好，尤其在BR_pre＝64kbps的情况下有所提升。

表3对比了本发明与Yang和Tiziano的算法在待测音频码率为64kbps的情况下的检测结果；

表3BR_test＝64kbps的对比结果

表中‘*’表示该方法未对此种情况进行测试。除了从低到高(BR_pre＝32kbps，BR_test＝64kbps)均有很好的检测结果外，本发明还能对BR_pre＝64kbps、BR_pre＝96kbps的情况下实现很好的检测。0～9这十维特征的分类效果在每种情况下均有提升。

表4对比了本发明与Yang和Tiziano的算法在96kbps下的检测结果；

表4BR_test＝96kbps的对比结果

表中‘*’表示该方法未对此种情况进行测试。0～9这十维特征的分类效果在所有情况下均能达到100％的准确率，好于Yang和Tiziano的检测方法。

表5对比了本发明与Yang和Tiziano的算法在128kbps下的检测结果；

表5BR_test＝128kbps的对比结果

表中‘*’表示该方法未对此种情况进行测试。0～9这十维特征在这种情况下也均能达到100％的正确率。

利用0～9值个数差值这十维特征对一次压缩和重压缩文件两两分类的效果均比参考文献[1]、参考文献[2]的检测效果要好，由于在实际应用中，不知道待测音频的原始压缩码率，故不能将上述二分类器简单地应用于实际检测系统中来，我们需要面向32kbps、64kbps、96kbps、128kbps这四种目标码率设计多分类器，以满足实际需求。通过下面原始码率检测过程训练多分类器，能够将本发明有效地应用于实际中来。

本实施例的采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测，具体实现包括以下子步骤：

步骤3.1.1：输入训练样本集，训练样本集中的训练音频包括一次压缩音频和重压缩音频；针对目标码率B，选取由不同码率B1，B2，B3，……重压缩至目标码率B的音频作为重压缩训练样本，即B1->B，B2->B，B3->B等。一次压缩MP3训练样本为只经过B码率压缩过的样本；对训练样本集中的所有音频都按照步骤1.1-步骤1.3中的特征提取算法计算特征△F；

步骤3.1.2：利用LIBSVM多分类选取样本集中的重压缩音频和一次压缩音频特征做分类；将不同情况标注为不同的label标签，如一次压缩B码率的label＝1，B->B同比特率重压缩的label＝2，B1->B重压缩的label＝3，B2->B重压缩的label＝4，B3->B重压缩的label＝5，以此类推。

实验过程中针对32kbps、64kbps、96kbps、128kbps这四种码率，将一次压缩音频和不同码率压缩至目标码率的重压缩音频标记为不同的label值，放入LIBSVM训练，得到4个多分类器模型Model，这四个多分类Model的情况如表6(BR_test、BR_pre的含义与上同)：

表6四个多分类Model情况表

步骤3.2：利用分类器对待测MP3音频做原始压缩码率判定，具体实现包括以下子步骤：

步骤3.2.1：提取待测音频十维特征△F；

步骤3.2.2：将该特征放入分类器训练过程得到的所对应的多分类器Model中进行原始码率的预测，输出待测结果。若判定结果label＝1，表示是一次压缩MP3；若label＝2,表示经过重压缩，原始压缩码率是B；若label＝3，表示经过重压缩，原始码率是B1；以此类推。

下面给出原始码率检测的一些实验结果。

利用LIBSVM对本发明所提出的原始码率检测方法进行多分类的测试，实验结果表明，本发明所提出的这十维特征能够进行多类分类，如表7所示。正确率AR_multi计算如下：

{AR}_{multi} = (1 - \frac{\underset{i}{Σ} W_{label = i}}{\underset{i}{Σ} N_{label = i}}) \times 100 %

(式伍)

其中W_label＝i表示第label＝i类时样本类别判断错误的个数，N_label＝i表示第label＝i类时该类样本总个数。

表7整体多分类正确率

BR_test	32kbps	64kbps	96kbps	128kbps
					正确率AR_multi	43.2％	83.6％	97％	99％

从表7可以看出，对于目标码率为32kbps的多分类效果较差，是由于其二分类本身就无法准确地判定BR_pre＝96kbps，BR_test＝32kbps和BR_pre＝128kbps，BR_test＝32kbps两种情况，将一次压缩为32kbps和重压缩至32kbps的所有情况混合判断，很难进行区分。

对于目标码率为64kbps的多分类效果较好，为83.6％；对于目标码率为96kbps和128kbps的多分类效果更好，分别为97％和99％。目标码率越高，其多分类整体准确度越高，原因是其含有更多的由低码率压缩至高码率的情况。

表8为分别使用100个音频样本对上述32kbps、64kbps、96kbps、128kbps四个多分类模型进行判定的结果。正确率AR_i的计算如下：

{AR}_{i} = (1 - \frac{W_{label = i}}{N_{label = i}}) \times 100 %

(式陆)

表8多分类判定结果

由表8可以看出，本发明能够相对准确地预测64kbps、96kbps、128kbps多分类器下此前被压缩的码率。对于32kbps多分类器能准确预测由32kbps重压缩至32kbps情况下的原始码率。

本发明方法可以实现对同比特率重压缩情况下高于95％的正确率判定及从高到低比特率重压缩大部分情况下高于80％的正确率判定，同时能够以大部分高于90％的正确率估计原始压缩码率。

本发明具有的优势总结如下：

1.支持多种编码码率。本发明针对MP3不同压缩比特率进行重压缩检测，包括通常使用的多种压缩比特率：32kbps，64kbps，96kbps，128kbps；

2.提高同比特率重压缩检测的正确率。参考文献[1]、[2]中的方法均不能很好地对MP3的同比特率重压缩进行检测，本发明针对所列举的四种压缩码率均能达到95％以上的检测正确率；

3.提高从高比特率重压缩至低比特率的检测正确率。当重压缩MP3的比特率低于原始一次压缩MP3的比特率时，文献[1]、[2]所用算法检测的正确率较低。本发明能够解决大部分从高比特率重压缩至低比特率的检测难题；

4.能够预测原始一次压缩码率。本发明提出的基于校准的重压缩检测特征在训练LIBSVM多类分类器的过程中突显出较为稳定的分类效果，尤其对64kbps、96kbps、128kbps的多类分类效果较好，所训练的分类器能够提供原始压缩码率的准确预测。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向MP3数字音频文件的重压缩检测方法，其特征在于：采用模式分类技术进行MP3数字音频文件特征的提取，采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测。

2.根据权利要求1所述的面向MP3数字音频文件的重压缩检测方法，其特征在于：所述的采用模式分类技术进行MP3数字音频文件特征的提取，具体实现包括以下子步骤：

3.根据权利要求1所述的面向MP3数字音频文件的重压缩检测方法，其特征在于：所述的采用分类器训练和重压缩判定进行MP3数字音频文件重压缩检测，具体实现包括以下子步骤：

步骤2.2.1：提取待测音频十维特征；

4.根据权利要求1所述的面向MP3数字音频文件的重压缩检测方法，其特征在于：所述的采用分类器训练和原始码率判定进行MP3数字音频文件原始码率检测，具体实现包括以下子步骤：

步骤3.2.1：提取待测音频十维特征；