CN108877816A

CN108877816A - 基于qmdct系数的aac音频重压缩检测方法

Info

Publication number: CN108877816A
Application number: CN201810535084.7A
Authority: CN
Inventors: 王让定; 黄其娟; 严迪群; 张坚
Original assignee: Ningbo University
Current assignee: Huzhou Chuangguan Technology Co ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-23
Anticipated expiration: 2038-05-30
Also published as: CN108877816B

Abstract

本发明公开了一种基于QMDCT系数的AAC音频重压缩检测方法，其获得不同比特率的单压缩AAC音频和双压缩AAC音频；通过移除采样点获得单压缩移除采样点AAC音频和双压缩移除采样点AAC音频；根据单压缩AAC音频和对应的单压缩移除采样点AAC音频各自的QMDCT系数分布直方图，得到相应的特征向量；并根据双压缩AAC音频和对应的双压缩移除采样点AAC音频各自的QMDCT系数分布直方图，得到相应的特征向量；根据同比特率的单压缩AAC音频和双压缩AAC音频的特征向量，训练LIBSVM分类器；测试时根据待重压缩检测AAC音频的比特率输入到相应的训练好的LIBSVM分类器中得到检测结果；优点是能实现低码率转高码率重压缩及同码率重压缩的AAC音频的有效检测，且检测准确率高、计算复杂度较低，鲁棒性较强。

Description

基于QMDCT系数的AAC音频重压缩检测方法

技术领域

本发明涉及一种音频压缩历史检测技术，尤其是涉及一种基于QMDCT(QuantizedModified Discrete Cosine Transform，量化修正离散余弦变换)系数的AAC(AdvancedAudio Coding，高级音频编码)音频重压缩检测方法。

背景技术

在移动互联网时代，移动智能终端的普及以及多媒体技术的不断进步使得人们日常生活方式发生了较大的变化，人们能够更加便捷地使用手机采集照片、音频并分享在网络上。这些多媒体信息不断地渗透到人们的生活中，真假难辨。为检测多媒体信息的真实性、完整性，多媒体取证技术已成为信息安全领域的热点研究问题之一。

数字音频取证技术是数字多媒体取证技术重要的组成部分，而音频压缩历史检测是数字音频取证技术中的热点问题之一。目前市面上的多媒体设备，其音频文件都是以压缩格式保存的。而通常使用音频编辑或处理软件对压缩音频进行内容篡改时都会伴随着双压缩的产生。因此，音频压缩历史检测作为数字内容真实性鉴定的前一步工作，是判断音频是否被篡改或伪造的一个必要条件。

近年来，数字音频来源取证引起了越来越多的关注，并获得了重大进展。

在MP3音频压缩历史检测方面：如，Yang R,Shi Y Q,Huang J.Defeating fake-quality MP3[C].MMandSec'09-Proceedings of the 11th ACM Multimedia SecurityWorkshop,2009:117-124.(杨锐、施云庆、黄继武，MP3假音质检测，2009年第11届ACM多媒体安全研讨会论文集)，Liu QZ,SungA H,Qiao M Y.Detection ofDoubleMP3Compression.Cognitive Computation,2010,2(4):291－296.(刘庆忠、黄继武、乔明宇，MP3双压缩音频的检测，认知计算)，其通过分析发现MP3音频的MDCT(ModifiedDiscrete Cosine Transform，修正离散余弦变换)系数中的1值系数在压缩前后数量有明显的变化，从而将1值系数在所有MDCT系数中的占比作为区分性特征，实现对低码率转高码率MP3音频的有效检测；此外，其对两次压缩音频MDCT系数进行了研究分析，并将图像隐写分析中的Benford定理修正后应用于双压缩音频的检测。又如，Qiao M Y,Sung A H,Liu QZ,Improved Detection of MP3Double Compression Using Content-IndependentFeatures//Proc of the IEEE International Conference on Signal Processing,Communication and Computing,Kunming,China,2013.DOI:10.1109/ICSPCC.2013.6664121.(乔明宇、黄继武、刘庆忠，使用与内容无关的特征进行双压缩MP3音频的检测，IEEE信号处理，通信与计算国际会议论文集)，其通过分析MDCT系数的分布，提出阈值实现单压缩音频和双压缩音频分类，并进一步进行研究，分析了MDCT系数中的零值系数分布的差异，以及非零值系数的平滑度和一致性的区别，很大程度上提高了低码率转高码率音频的检测准确率，但是相同码率压缩音频检测准确率仍需进一步提升。再如，Bianchi T,De Rosa A,Fontani M,Rocciolo G,Piva A.Detection and localization ofdouble compression in MP3audio tracks[J].Eurasip Journal on InformationSecurity,2014,2014:10.(MP3重压缩音频的检测和定位)，Bianchi T,De Rosa A,FontaniM,Rocciolo G,Piva A.Detection and classification of doublecompressed MP3audiotracks[C].IH and MMSec 2013-Proceedings of the 2013ACM Information HidingandMultimedia Security Workshop,2013:159-164.(双压缩MP3音频的检测和分类，2013年ACM信息隐藏和多媒体安全研讨会论文集)，其将图像中的重压缩校正原理带入到音频中，将待测音频进行解码，提取量化参数，对得到的PCM(Pulse Code Modulation，脉冲编码调制)采样值进行裁剪并用提取的量化参数进行重新压缩编码，利用一次和二次压缩音频在经过重压缩校正后其MDCT系数分布与校正前分布呈现出不一样的规律，实现对双压缩MP3音频的有效检测。

在AAC音频压缩历史检测方面：如，Seichter D,Cuccovillo L,Aichroth P.AACencoding detection and bitrate estimation using a convolutional neuralnetwork[C]//IEEE International Conference on Acoustics,Speech and SignalProcessing.IEEE,2016.(利用卷积神经网络进行AAC重压缩音频的检测以及原始码率估计，IEEE国际声学，语音和信号处理会议)，其利用卷积神经网络(CNN)对AAC重压缩音频分类检测和原始码率估计。又如，Chao Jin,Rangding Wang,et al.An efficient algorithmfor double compressed AAC audio detection[J].Multimedia Tools andApplications,2016,75:4815–4832.(金超、王让定、严迪群，一种有效的检测重压缩AAC音频的方法，2016年多媒体工具和应用)，其将Huffman码表索引出现的概率作为第一特征，将Markov单步转移概率作为第二特征，将两个特征进行融合，利用LIBSVM对单压缩和双压缩AAC音频进行分类，其对同码率压缩音频的检测识别率较低。再如，李晗提出的AMR和AAC音频双压缩检测研究(华南理工大学，2015.)，其发现压缩过程中AAC音频频率成分以及能量值存在较大差异，利用堆栈自动编码器(SAE)进行双压缩历史的检测。

现有的音频压缩历史检测研究大多针对MP3音频，对于AAC音频的研究相对较少，且现有的针对AAC音频的音频压缩历史检测研究在同码率压缩音频中的检测实验结果不理想，检测准确率较低。

发明内容

本发明所要解决的技术问题是提供一种基于QMDCT系数的AAC音频重压缩检测方法，其能够实现低码率转高码率重压缩及同码率重压缩的AAC音频的有效检测，且检测准确率高、计算复杂度较低，鲁棒性较强。

本发明解决上述技术问题所采用的技术方案为：一种基于QMDCT系数的AAC音频重压缩检测方法，其特征在于包括以下步骤：

步骤一：随机选取N_o个时长一致而风格不同的原始音频，原始音频的格式为WAV格式；然后使用AAC编码器并采用N_b种比特率，分别对每个原始音频进行压缩，得到N_b类具有不同比特率的共N₁个单压缩AAC音频；接着使用AAC解码器，对每个单压缩AAC音频进行解压，得到每个单压缩AAC音频对应的解压音频，解压音频的格式为WAV格式；再使用相同的AAC编码器并采用N_b种比特率中大于或等于获取对应的单压缩AAC音频时所采用的比特率的所有比特率，分别对每个单压缩AAC音频对应的解压音频进行压缩，得到类共N₂个双压缩AAC音频；其中，N_o≥100，原始音频的时长为大于或等于1秒，N_b≥1，N₁＝N_o×N_b，

步骤二：使用与步骤一中相同的AAC解码器对每个单压缩AAC音频进行解压，得到每个单压缩AAC音频对应的WAV音频；然后针对每个单压缩AAC音频对应的WAV音频，从其起始位置开始移除N_remove个采样点，得到每个单压缩AAC音频对应的移除采样点后的WAV音频；再使用与步骤一中相同的AAC编码器并采用获取对应的单压缩AAC音频时所采用的比特率，对每个单压缩AAC音频对应的移除采样点后的WAV音频进行压缩，得到每个单压缩AAC音频相应的单压缩移除采样点AAC音频；其中，1≤N_remove＜1024；

使用与步骤一中相同的AAC解码器对每个双压缩AAC音频进行解压，得到每个双压缩AAC音频对应的WAV音频；然后针对每个双压缩AAC音频对应的WAV音频，从其起始位置开始移除N_remove个采样点，得到每个双压缩AAC音频对应的移除采样点后的WAV音频；再使用与步骤一中相同的AAC编码器并采用获取对应的双压缩AAC音频时第二次压缩所采用的比特率，对每个双压缩AAC音频对应的移除采样点后的WAV音频进行压缩，得到每个双压缩AAC音频相应的双压缩移除采样点AAC音频；

步骤三：提取每个单压缩AAC音频及其相应的单压缩移除采样点AAC音频各自的QMDCT系数矩阵，将第n₁个单压缩AAC音频的QMDCT系数矩阵记为DQ_n1，将第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵记为然后获取每个单压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，并获取每个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为再通过计算每个单压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值，获取每个单压缩AAC音频的特征向量，将第n₁个单压缩AAC音频的特征向量记为其中，n₁为正整数，1≤n₁≤N₁，和的维数均为M×1024，M表示原始音频中包含的帧的总帧数，表示中下标为(1,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数，表示中下标为(1,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数，为的下限值，为的上限值，且和的维数为符号“||”为取绝对值符号，表示中的第1个元素的值，表示中的第个元素的值，表示中的第1个元素的值，表示中的第个元素的值；

提取每个双压缩AAC音频及其相应的双压缩移除采样点AAC音频各自的QMDCT系数矩阵，将第n₂个双压缩AAC音频的QMDCT系数矩阵记为将第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵记为然后获取每个双压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，并获取每个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为再通过计算每个双压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值，获取每个双压缩AAC音频的特征向量，将第n₂个双压缩AAC音频的特征向量记为其中，n₂为正整数，1≤n₂≤N₂，和的维数均为M×1024，表示中下标为(1,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数，表示中下标为(1,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数，和的维数为符号“||”为取绝对值符号，表示中的第1个元素的值，表示中的第个元素的值，表示中的第1个元素的值，表示中的第个元素的值；

步骤四：从每类所有的单压缩AAC音频中随机选取一部分单压缩AAC音频，并从每类所有的双压缩AAC音频中随机选取一部分双压缩AAC音频；然后将选取的所有单压缩AAC音频和选取的所有双压缩AAC音频构成训练集，将剩余的所有单压缩AAC音频和剩余的所有双压缩AAC音频构成测试集；

步骤五：训练N_b个LIBSVM分类器，训练第n_b个LIBSVM分类器的具体过程为：将训练集中的第n_b类的所有单压缩AAC音频的特征向量，及第二次压缩所采用的比特率与获取对应的第n_b类的单压缩AAC音频时所采用的比特率相同的所有双压缩AAC音频的特征向量，输入到LIBSVM分类器中进行训练，得到适用于采用第n_b种比特率的AAC音频的训练好的第n_b个LIBSVM分类器；其中，n_b为正整数，1≤n_b≤N_b；

步骤六：将测试集中的每个单压缩AAC音频或每个双压缩AAC音频作为待重压缩检测AAC音频；然后根据待重压缩检测AAC音频的公开的比特率，将待重压缩检测AAC音频的特征向量输入到相应的训练好的LIBSVM分类器中，得到用于代表检测结果为单压缩AAC音频的数字标记1或用于代表检测结果为双压缩AAC音频的数字标记0。

所述的步骤六执行完毕后，重复执行步骤四至步骤六N'次；然后针对每个待重压缩检测AAC音频，计算该待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值；再根据每个待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值，最终确定每个待重压缩检测AAC音频为单压缩AAC音频还是为双压缩AAC音频，若平均值大于0.5，则最终确定为单压缩AAC音频，否则，最终确定为双压缩AAC音频；其中，N'≥1。

与现有技术相比，本发明的优点在于：

1)本发明方法通过研究发现，AAC音频在一次压缩以及二次压缩后其QMDCT系数会留下较为明显的量化痕迹，将一次、二次压缩的AAC音频分别移除1个采样点，发现移除采样点后其QMDCT系数分布类似即量化痕迹被抹去，因此本发明方法利用移除采样点前后QMDCT系数的差异进行检测，这样在充分分析QMDCT系数统计特性下，利用本发明方法对AAC音频进行重压缩检测的检测准确率得到了明显提高。

2)本发明方法利用了AAC音频在移除采样点前后的变化差异，利用其差异性进行单双压缩音频的分类，且在进行特征统计时，仅统计了[-10,10]范围内QMDCT系数的移除采样点前后的变化，其特征维度仅有21维，维度较低，大大减小了计算的复杂度。

3)本发明方法通过对不同时长的AAC音频进行实验，实验结果证明，随着时长的增加，无论是同码率音频压缩还是低码率音频转高码率音频压缩，其检测准确率均随之增加，不同时长的AAC音频实验结果反映出了本发明方法中的特征向量的鲁棒性。

附图说明

图1为本发明方法的总体实现框图；

图2为原始音频有800个且7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps时，得到的5600个单压缩AAC音频和156800个双压缩AAC音频的示意图；

图3a为500个单压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图；

图3b为500个双压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图；

图4a为500个单压缩AAC音频相应的单压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图；

图4b为500个双压缩AAC音频相应的双压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图；

图5为利用本发明方法对不同时长的待重压缩检测的AAC音频进行检测的检测结果的检测准确率与时长的关系图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

发现压缩音频在一次压缩以及二次压缩前后，其留下明显的量化痕迹，如何利用压缩留下的量化痕迹来进行压缩音频的准确分类，值得研究，因此提出本发明。

本发明提出的一种基于QMDCT系数的AAC音频重压缩检测方法，其总体实现框图如图1所示，其包括以下步骤：

步骤一：随机选取N_o个时长一致而风格不同的原始音频，原始音频的格式为WAV格式；然后使用AAC编码器并采用N_b种比特率，分别对每个原始音频进行压缩，得到N_b类具有不同比特率的共N₁个单压缩AAC音频；接着使用AAC解码器，对每个单压缩AAC音频进行解压，得到每个单压缩AAC音频对应的解压音频，解压音频的格式为WAV格式；再使用相同的AAC编码器并采用N_b种比特率中大于或等于获取对应的单压缩AAC音频时所采用的比特率的所有比特率，分别对每个单压缩AAC音频对应的解压音频进行压缩，得到类共N₂个双压缩AAC音频；其中，N_o≥100，在本实施例中取N_o＝800，原始音频的时长为大于或等于1秒，N_b≥1，在本实施例中取N_b＝7，7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps，由于原始音频有N_o个，因此每类有N_o个单压缩AAC音频，N_b类则共有N_o×N_b个单压缩AAC音频，即N₁＝N_o×N_b，在获取双压缩AAC音频的过程中，若获取对应的单压缩AAC音频时所采用的比特率为75kbps，那么大于或等于75kbps的所有比特率为75kbps、90kbps、105kbps、120kbps、135kbps和150kbps，使用相同的AAC编码器并采用75kbps、90kbps、105kbps、120kbps、135kbps和150kbps，分别对该单压缩AAC音频对应的解压音频进行压缩，如此共得到个双压缩AAC音频，即

在此，原始音频的时长一般要求大于1秒，在本实施例中原始音频的时长取10秒；原始音频的风格可以是蓝调、流行、古典、乡村、民谣等；原始音频的采样率可以是22.05kHz、44.1kHz、48kHz等，在本实施例中原始音频的采样率为44.1kHz；原始音频可以是双声道、单声道，在本实施例中原始音频为双声道音频。最为广泛的AAC编码器为FAAC-1.28，最为广泛的AAC解码器为FAAD2-2.7。图2给出了原始音频有800个(N_o＝800)，且7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps时，得到的5600个(N₁＝N_o×N_b＝800×7＝5600)单压缩AAC音频和156800个双压缩AAC音频的示意图。

步骤二：本发明为了在保持音频的原始特性的同时，破坏音频中的帧结构，去除量化伪像，对音频进行采样点移除操作，具体过程为：使用与步骤一中相同的AAC解码器对每个单压缩AAC音频进行解压，得到每个单压缩AAC音频对应的WAV音频；然后针对每个单压缩AAC音频对应的WAV音频，从其起始位置开始移除N_remove个采样点，得到每个单压缩AAC音频对应的移除采样点后的WAV音频；再使用与步骤一中相同的AAC编码器并采用获取对应的单压缩AAC音频时所采用的比特率(如：获取一个单压缩AAC音频时所采用的比特率为75kbps，那么对该单压缩AAC音频对应的移除采样点后的WAV音频进行压缩时仍采用75kbps)，对每个单压缩AAC音频对应的移除采样点后的WAV音频进行压缩，得到每个单压缩AAC音频相应的单压缩移除采样点AAC音频；其中，1≤N_remove＜1024，在AAC编码过程中，对输入的PCM(Pulse CodeModulation，脉冲编码调制)信号进行分帧，每帧包含1024个时域抽样信号，与前一帧中的时域抽样信号共同组成了2048个时域抽样信号，对其进行加窗并采用MDCT变换进行时频转换，得到1024个频谱系数，因此AAC音频一帧有1024个采样点，本发明在移除采样点时，为破坏帧结构并保留音频的原始特性，从音频的起始位置移除采样点且移除的采样点的个数小于一帧包含的采样点的个数(即1024个采样点)，在本实施例中取N_remove＝1，即移除1个采样点。

使用与步骤一中相同的AAC解码器对每个双压缩AAC音频进行解压，得到每个双压缩AAC音频对应的WAV音频；然后针对每个双压缩AAC音频对应的WAV音频，从其起始位置开始移除N_remove个采样点，得到每个双压缩AAC音频对应的移除采样点后的WAV音频；再使用与步骤一中相同的AAC编码器并采用获取对应的双压缩AAC音频时第二次压缩所采用的比特率(如：获取一个双压缩AAC音频时第二次压缩所采用的比特率为75kbps，那么对该双压缩AAC音频对应的移除采样点后的WAV音频进行压缩时仍采用75kbps)，对每个双压缩AAC音频对应的移除采样点后的WAV音频进行压缩，得到每个双压缩AAC音频相应的双压缩移除采样点AAC音频。

步骤三：提取每个单压缩AAC音频及其相应的单压缩移除采样点AAC音频各自的QMDCT系数矩阵，将第n₁个单压缩AAC音频的QMDCT系数矩阵记为将第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵记为然后获取每个单压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，并获取每个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为再通过计算每个单压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值，获取每个单压缩AAC音频的特征向量，将第n₁个单压缩AAC音频的特征向量记为其中，n₁为正整数，1≤n₁≤N₁，和的维数均为M×1024，M表示原始音频中包含的帧的总帧数，表示中下标为(1,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数，表示中下标为(1,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数，为的下限值，为的上限值，且在本实施例中取即为[-10,10]，和的维数为符号“||”为取绝对值符号，表示中的第1个元素的值，为[-10,10]时代表中QMDCT系数的值为-10出现的概率，表示中的第个元素的值，为[-10,10]时代表中QMDCT系数的值为10出现的概率，表示中的第1个元素的值，为[-10,10]时代表中QMDCT系数的值为-10出现的概率，表示中的第个元素的值，为[-10,10]时代表中QMDCT系数的值为10出现的概率。

提取每个双压缩AAC音频及其相应的双压缩移除采样点AAC音频各自的QMDCT系数矩阵，将第n₂个双压缩AAC音频的QMDCT系数矩阵记为将第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵记为然后获取每个双压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，并获取每个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为再通过计算每个双压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值，获取每个双压缩AAC音频的特征向量，将第n₂个双压缩AAC音频的特征向量记为其中，n₂为正整数，1≤n₂≤N₂，和的维数均为M×1024，表示中下标为(1,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数，表示中下标为(1,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₂个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数，和的维数为符号“||”为取绝对值符号，表示中的第1个元素的值，为[-10,10]时代表中QMDCT系数的值为-10出现的概率，表示中的第个元素的值，为[-10,10]时代表中QMDCT系数的值为10出现的概率，表示中的第1个元素的值，为[-10,10]时代表中QMDCT系数的值为-10出现的概率，表示中的第个元素的值，为[-10,10]时代表中QMDCT系数的值为10出现的概率。

在此，AAC编码是以感知音频编码为基本模型开发的，其结合心理声学模型，先将输入的PCM(Pulse Code Modulation，脉冲编码调制)信号经过滤波器组完成时频转换，再经过MDCT变换得到MDCT系数，对MDCT系数进行量化编码得到QMDCT系数，最后将量化编码后的比特流进行封装，形成最终的压缩音频。在AAC编码过程中，量化之前的步骤是对音频数据的预处理，量化处理才真正降低了音频比特率，量化的基本目标是对频谱数据进行量化，控制量化噪声在感知失真范围内，同时使其编码比特数满足比特率要求。在AAC编码过程中，MDCT系数是源文件在频率上的存储格式，即AAC音频是MDCT系数经过量化编码之后的数据流，每个子带的MDCT系数经过量化后都会得到对应的QMDCT系数，即QMDCT系数是PCM信号经过MDCT变换后再经过量化得到的数值，因此，QMDCT系数不仅能体现PCM信号的特征，而且也能体现量化特性，在二次压缩之后仍然会保留一次压缩时的遗留QMDCT系数的统计特性，但是会有波动情况。

随机选取500个单压缩AAC音频和这500个单压缩AAC音频对应的双压缩AAC音频。图3a给出了500个单压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图，图3b给出了500个双压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图。从图3b中可以看出，经过AAC压缩后QMDCT系数的分布会出现一些沟壑现象，QMDCT系数的分布会聚集在某些值上，这是因为：受AAC音频编码量化环节的影响，MDCT系数在第一次编码时首先被量化，在解码时这些数值会被截断，进行四舍五入操作，这样在第二次压缩时某些相近的值被量化成同一值，且该过程不可逆，因此出现图3b中的现象，这种现象称为AAC压缩痕迹。

受图像重压缩校正思想启发，在图像压缩检测中可以通过移除四个像素点抹除图像压缩的量化痕迹，因此认为移除音频部分采样点即破坏音频的帧结构，在重新压缩之后，尽管经历了两次压缩，但它的特性(如频谱系数分布等)却与一次压缩相似。图4a给出了500个单压缩AAC音频相应的单压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图，图4b给出了500个双压缩AAC音频相应的双压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图。从图4a和图4b中可以看出，图4a和图4b呈现的QMDCT系数的分布相似度较高，说明在音频中破坏帧结构即移除采样点可以移除音频的量化痕迹。对比图4a与图3a，发现单压缩AAC音频的QMDCT系数的分布与单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数的分布相近，即单压缩AAC音频的QMDCT系数的分布在移除采样点前后并没有发生明显变化；对比图4b与图3b，发现双压缩AAC音频的QMDCT系数的分布与双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数的分布差异很大，即双压缩AAC音频的QMDCT系数的分布在移除采样点前后差距明显。

本发明利用音频的量化痕迹的变换来检测重压缩的AAC音频，核心是分析待重压缩检测的AAC音频的QMDCT系数分布直方图与单压缩AAC音频的QMDCT系数分布直方图之间的相似性，直观地说，如果两个QMDCT系数分布直方图的差距很小，则表明待重压缩检测的AAC音频没有被重压缩，反之，将待重压缩检测的AAC音频视为重压缩音频。但是，仅从QMDCT系数分布直方图来判断音频是否经过重压缩操作较为困难，根据前面分析，单压缩AAC音频和双压缩AAC音频在经过移除采样点的操作后，其QMDCT系数分布直方图类似，因此将单压缩AAC音频和双压缩AAC音频移除采样点前后的QMDCT系数的分布差异作为特征。

步骤四：从每类所有的单压缩AAC音频中随机选取一部分单压缩AAC音频，并从每类所有的双压缩AAC音频中随机选取一部分双压缩AAC音频；然后将选取的所有单压缩AAC音频和选取的所有双压缩AAC音频构成训练集，将剩余的所有单压缩AAC音频和剩余的所有双压缩AAC音频构成测试集。

在本实施例中，设定从每类所有的单压缩AAC音频中随机选取70％单压缩AAC音频，并从每类所有的双压缩AAC音频中随机选取70％双压缩AAC音频，即70％单压缩AAC音频和70％双压缩AAC音频构成训练集，30％单压缩AAC音频和30％双压缩AAC音频构成特征向量测试集。

步骤五：训练N_b个LIBSVM分类器，训练第n_b个LIBSVM分类器的具体过程为：将训练集中的第n_b类的所有单压缩AAC音频的特征向量，及第二次压缩所采用的比特率与获取对应的第n_b类的单压缩AAC音频时所采用的比特率相同的所有双压缩AAC音频的特征向量，输入到LIBSVM分类器中进行训练，得到适用于采用第n_b种比特率的AAC音频的训练好的第n_b个LIBSVM分类器；其中，n_b为正整数，1≤n_b≤N_b。

如：训练第3个LIBSVM分类器的具体过程为：将训练集中的所有采用比特率为90kbps的单压缩AAC音频的特征向量，及所有第二次压缩所采用的比特率为90kbps的双压缩AAC音频的特征向量，输入到LIBSVM分类器中进行训练。第二次压缩所采用的比特率为90kbps的双压缩AAC音频包括第一次所采用的比特率为60kbps且第二次压缩所采用的比特率为90kbps的双压缩AAC音频、第一次所采用的比特率为75kbps且第二次压缩所采用的比特率为90kbps的双压缩AAC音频、第一次所采用的比特率为90kbps且第二次压缩所采用的比特率为90kbps的双压缩AAC音频。

在此，若一个待重压缩检测AAC音频是单压缩AAC音频，那么其公开的比特率即为单压缩AAC音频所采用的比特率；若一个待重压缩检测AAC音频是双压缩AAC音频，那么其公开的比特率即为双压缩AAC音频第二次压缩时所采用的比特率，如果待重压缩检测AAC音频的公开的比特率为90kbps，则将待重压缩检测AAC音频的特征向量输入到训练好的第3个LIBSVM分类器中就可得到分类结果，即就可确定待重压缩检测AAC音频是单压缩AAC音频还是双压缩AAC音频。

为了使检测结果更加准确，所述的步骤六执行完毕后，重复执行步骤四至步骤六N'次；然后针对每个待重压缩检测AAC音频，计算该待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值；再根据每个待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值，最终确定每个待重压缩检测AAC音频为单压缩AAC音频还是为双压缩AAC音频，若平均值大于0.5，则最终确定为单压缩AAC音频，否则，最终确定为双压缩AAC音频；其中，N'≥1，在本实施例中取N'＝10。

为了进一步说明本发明方法的可行性和有效性，对本发明方法进行实验验证。

获取800个时长为10秒的原始WAV音频，然后分别截取成0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒的WAV音频片段，以对不同时长的AAC音频进行讨论。

按本发明的步骤一的过程，获得每个时长为0.5秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为1秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为2秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为3秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为4秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为5秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为6秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为7秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为8秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频；再按本发明方法获得每个单压缩AAC音频的特征向量和每个双压缩AAC音频的特征向量。

将上述的每个时长为10秒的单压缩AAC音频或每个时长为10秒的双压缩AAC音频作为一个待重压缩检测的AAC音频，按本发明方法，将待重压缩检测的AAC音频的特征向量输入到对应的训练好的LIBSVM分类器中，得到检测结果，检测准确率如表1所列。表1中，BR1表示第一次压缩时所采用的比特率，BR2表示第二次压缩时所采用的比特率。

表1利用本发明方法对时长为10秒的待重压缩检测的AAC音频进行检测的检测结果的检测准确率

以表1中第六行第七列的值(99.85％)为例，该值表示利用本发明方法对先后采用105kbps和135kbps比特率压缩(FAAC/FAAD2)的双压缩AAC音频的综合检测率达到了99.85％。从表1中可以看出，低码率转高码率(第二次压缩采用的比特率高于第一次压缩采用的比特率)的双压缩AAC音频的检测结果的平均准确率达到了99.845％，同码率(第二次压缩采用的比特率与第一次压缩采用的比特率一致)的双压缩AAC音频的检测结果的平均准确率达到了98.607％。说明本发明提出的特征向量在低码率转高码率的情况下取得了较好的检测效果，均超过了99％，但针对相同码率的压缩音频，检测率相对偏低约1.238个百分点，这是由于在音频重压缩时，其QMDCT系数变化较小，移除采样点前后差值变化也相对较小。

将上述的每个单压缩AAC音频或每个双压缩AAC音频作为一个待重压缩检测的AAC音频，按本发明方法，将待重压缩检测的AAC音频的特征向量输入到对应的训练好的LIBSVM分类器中，得到检测结果。表2给出了利用本发明方法对不同时长的待重压缩检测的AAC音频进行检测的检测结果的检测准确率。

表2利用本发明方法对不同时长的待重压缩检测的AAC音频进行检测的检测结果的检测准确率

为直观地体现出表2所列的检测准确率与时长的关系，图5给出了不同时长下检测准确率的折线图。从图5中可以看出，随着时长的增加，无论是同码率音频压缩还是低码率音频转高码率音频其检测准确率均随之增加。不同时长音频实验的结果反映出了本发明中的特征向量的有效性。

Claims

1.一种基于QMDCT系数的AAC音频重压缩检测方法，其特征在于包括以下步骤：

步骤三：提取每个单压缩AAC音频及其相应的单压缩移除采样点AAC音频各自的QMDCT系数矩阵，将第n₁个单压缩AAC音频的QMDCT系数矩阵记为将第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵记为然后获取每个单压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，并获取每个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在范围内的QMDCT系数分布直方图，将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为将中QMDCT系数的值在范围内的QMDCT系数分布直方图记为再通过计算每个单压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值，获取每个单压缩AAC音频的特征向量，将第n₁个单压缩AAC音频的特征向量记为其中，n₁为正整数，1≤n₁≤N₁，和的维数均为M×1024，M表示原始音频中包含的帧的总帧数，表示中下标为(1,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数，表示中下标为(1,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数，表示中下标为(1,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数，表示中下标为(M,1)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数，表示中下标为(M,1024)的QMDCT系数，亦表示第n₁个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数，为的下限值，为的上限值，且和的维数为符号“||”为取绝对值符号，表示中的第1个元素的值，表示中的第个元素的值，表示中的第1个元素的值，表示中的第个元素的值；

2.根据权利要求1所述的基于QMDCT系数的AAC音频重压缩检测方法，其特征在于所述的步骤六执行完毕后，重复执行步骤四至步骤六N'次；然后针对每个待重压缩检测AAC音频，计算该待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值；再根据每个待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值，最终确定每个待重压缩检测AAC音频为单压缩AAC音频还是为双压缩AAC音频，若平均值大于0.5，则最终确定为单压缩AAC音频，否则，最终确定为双压缩AAC音频；其中，N'≥1。