CN108877816B - 基于qmdct系数的aac音频重压缩检测方法 - Google Patents

基于qmdct系数的aac音频重压缩检测方法 Download PDF

Info

Publication number
CN108877816B
CN108877816B CN201810535084.7A CN201810535084A CN108877816B CN 108877816 B CN108877816 B CN 108877816B CN 201810535084 A CN201810535084 A CN 201810535084A CN 108877816 B CN108877816 B CN 108877816B
Authority
CN
China
Prior art keywords
compression
aac
audio
aac audio
qmdct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810535084.7A
Other languages
English (en)
Other versions
CN108877816A (zh
Inventor
王让定
黄其娟
严迪群
张坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou Chuangguan Technology Co ltd
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201810535084.7A priority Critical patent/CN108877816B/zh
Publication of CN108877816A publication Critical patent/CN108877816A/zh
Application granted granted Critical
Publication of CN108877816B publication Critical patent/CN108877816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于QMDCT系数的AAC音频重压缩检测方法,其获得不同比特率的单压缩AAC音频和双压缩AAC音频;通过移除采样点获得单压缩移除采样点AAC音频和双压缩移除采样点AAC音频;根据单压缩AAC音频和对应的单压缩移除采样点AAC音频各自的QMDCT系数分布直方图,得到相应的特征向量;并根据双压缩AAC音频和对应的双压缩移除采样点AAC音频各自的QMDCT系数分布直方图,得到相应的特征向量;根据同比特率的单压缩AAC音频和双压缩AAC音频的特征向量,训练LIBSVM分类器;测试时根据待重压缩检测AAC音频的比特率输入到相应的训练好的LIBSVM分类器中得到检测结果;优点是能实现低码率转高码率重压缩及同码率重压缩的AAC音频的有效检测,且检测准确率高、计算复杂度较低,鲁棒性较强。

Description

基于QMDCT系数的AAC音频重压缩检测方法
技术领域
本发明涉及一种音频压缩历史检测技术,尤其是涉及一种基于QMDCT(QuantizedModified Discrete Cosine Transform,量化修正离散余弦变换)系数的AAC(AdvancedAudio Coding,高级音频编码)音频重压缩检测方法。
背景技术
在移动互联网时代,移动智能终端的普及以及多媒体技术的不断进步使得人们日常生活方式发生了较大的变化,人们能够更加便捷地使用手机采集照片、音频并分享在网络上。这些多媒体信息不断地渗透到人们的生活中,真假难辨。为检测多媒体信息的真实性、完整性,多媒体取证技术已成为信息安全领域的热点研究问题之一。
数字音频取证技术是数字多媒体取证技术重要的组成部分,而音频压缩历史检测是数字音频取证技术中的热点问题之一。目前市面上的多媒体设备,其音频文件都是以压缩格式保存的。而通常使用音频编辑或处理软件对压缩音频进行内容篡改时都会伴随着双压缩的产生。因此,音频压缩历史检测作为数字内容真实性鉴定的前一步工作,是判断音频是否被篡改或伪造的一个必要条件。
近年来,数字音频来源取证引起了越来越多的关注,并获得了重大进展。
在MP3音频压缩历史检测方面:如,Yang R,Shi Y Q,Huang J.Defeating fake-quality MP3[C].MMandSec'09-Proceedings of the 11th ACM Multimedia SecurityWorkshop,2009:117-124.(杨锐、施云庆、黄继武,MP3假音质检测,2009年第11届ACM多媒体安全研讨会论文集),Liu QZ,SungA H,Qiao M Y.Detection ofDoubleMP3Compression.Cognitive Computation,2010,2(4):291-296.(刘庆忠、黄继武、乔明宇,MP3双压缩音频的检测,认知计算),其通过分析发现MP3音频的MDCT(ModifiedDiscrete Cosine Transform,修正离散余弦变换)系数中的1值系数在压缩前后数量有明显的变化,从而将1值系数在所有MDCT系数中的占比作为区分性特征,实现对低码率转高码率MP3音频的有效检测;此外,其对两次压缩音频MDCT系数进行了研究分析,并将图像隐写分析中的Benford定理修正后应用于双压缩音频的检测。又如,Qiao M Y,Sung A H,Liu QZ,Improved Detection of MP3Double Compression Using Content-IndependentFeatures//Proc of the IEEE International Conference on Signal Processing,Communication and Computing,Kunming,China,2013.DOI:10.1109/ICSPCC.2013.6664121.(乔明宇、黄继武、刘庆忠,使用与内容无关的特征进行双压缩MP3音频的检测,IEEE信号处理,通信与计算国际会议论文集),其通过分析MDCT系数的分布,提出阈值实现单压缩音频和双压缩音频分类,并进一步进行研究,分析了MDCT系数中的零值系数分布的差异,以及非零值系数的平滑度和一致性的区别,很大程度上提高了低码率转高码率音频的检测准确率,但是相同码率压缩音频检测准确率仍需进一步提升。再如,Bianchi T,De Rosa A,Fontani M,Rocciolo G,Piva A.Detection and localization ofdouble compression in MP3audio tracks[J].Eurasip Journal on InformationSecurity,2014,2014:10.(MP3重压缩音频的检测和定位),Bianchi T,De Rosa A,FontaniM,Rocciolo G,Piva A.Detection and classification of doublecompressed MP3audiotracks[C].IH and MMSec 2013-Proceedings of the 2013ACM Information HidingandMultimedia Security Workshop,2013:159-164.(双压缩MP3音频的检测和分类,2013年ACM信息隐藏和多媒体安全研讨会论文集),其将图像中的重压缩校正原理带入到音频中,将待测音频进行解码,提取量化参数,对得到的PCM(Pulse Code Modulation,脉冲编码调制)采样值进行裁剪并用提取的量化参数进行重新压缩编码,利用一次和二次压缩音频在经过重压缩校正后其MDCT系数分布与校正前分布呈现出不一样的规律,实现对双压缩MP3音频的有效检测。
在AAC音频压缩历史检测方面:如,Seichter D,Cuccovillo L,Aichroth P.AACencoding detection and bitrate estimation using a convolutional neuralnetwork[C]//IEEE International Conference on Acoustics,Speech and SignalProcessing.IEEE,2016.(利用卷积神经网络进行AAC重压缩音频的检测以及原始码率估计,IEEE国际声学,语音和信号处理会议),其利用卷积神经网络(CNN)对AAC重压缩音频分类检测和原始码率估计。又如,Chao Jin,Rangding Wang,et al.An efficient algorithmfor double compressed AAC audio detection[J].Multimedia Tools andApplications,2016,75:4815–4832.(金超、王让定、严迪群,一种有效的检测重压缩AAC音频的方法,2016年多媒体工具和应用),其将Huffman码表索引出现的概率作为第一特征,将Markov单步转移概率作为第二特征,将两个特征进行融合,利用LIBSVM对单压缩和双压缩AAC音频进行分类,其对同码率压缩音频的检测识别率较低。再如,李晗提出的AMR和AAC音频双压缩检测研究(华南理工大学,2015.),其发现压缩过程中AAC音频频率成分以及能量值存在较大差异,利用堆栈自动编码器(SAE)进行双压缩历史的检测。
现有的音频压缩历史检测研究大多针对MP3音频,对于AAC音频的研究相对较少,且现有的针对AAC音频的音频压缩历史检测研究在同码率压缩音频中的检测实验结果不理想,检测准确率较低。
发明内容
本发明所要解决的技术问题是提供一种基于QMDCT系数的AAC音频重压缩检测方法,其能够实现低码率转高码率重压缩及同码率重压缩的AAC音频的有效检测,且检测准确率高、计算复杂度较低,鲁棒性较强。
本发明解决上述技术问题所采用的技术方案为:一种基于QMDCT系数的AAC音频重压缩检测方法,其特征在于包括以下步骤:
步骤一:随机选取No个时长一致而风格不同的原始音频,原始音频的格式为WAV格式;然后使用AAC编码器并采用Nb种比特率,分别对每个原始音频进行压缩,得到Nb类具有不同比特率的共N1个单压缩AAC音频;接着使用AAC解码器,对每个单压缩AAC音频进行解压,得到每个单压缩AAC音频对应的解压音频,解压音频的格式为WAV格式;再使用相同的AAC编码器并采用Nb种比特率中大于或等于获取对应的单压缩AAC音频时所采用的比特率的所有比特率,分别对每个单压缩AAC音频对应的解压音频进行压缩,得到
Figure BDA0001677902590000041
类共N2个双压缩AAC音频;其中,No≥100,原始音频的时长为大于或等于1秒,Nb≥1,N1=No×Nb
Figure BDA0001677902590000042
步骤二:使用与步骤一中相同的AAC解码器对每个单压缩AAC音频进行解压,得到每个单压缩AAC音频对应的WAV音频;然后针对每个单压缩AAC音频对应的WAV音频,从其起始位置开始移除Nremove个采样点,得到每个单压缩AAC音频对应的移除采样点后的WAV音频;再使用与步骤一中相同的AAC编码器并采用获取对应的单压缩AAC音频时所采用的比特率,对每个单压缩AAC音频对应的移除采样点后的WAV音频进行压缩,得到每个单压缩AAC音频相应的单压缩移除采样点AAC音频;其中,1≤Nremove<1024;
使用与步骤一中相同的AAC解码器对每个双压缩AAC音频进行解压,得到每个双压缩AAC音频对应的WAV音频;然后针对每个双压缩AAC音频对应的WAV音频,从其起始位置开始移除Nremove个采样点,得到每个双压缩AAC音频对应的移除采样点后的WAV音频;再使用与步骤一中相同的AAC编码器并采用获取对应的双压缩AAC音频时第二次压缩所采用的比特率,对每个双压缩AAC音频对应的移除采样点后的WAV音频进行压缩,得到每个双压缩AAC音频相应的双压缩移除采样点AAC音频;
步骤三:提取每个单压缩AAC音频及其相应的单压缩移除采样点AAC音频各自的QMDCT系数矩阵,将第n1个单压缩AAC音频的QMDCT系数矩阵记为DQn1,将第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵记为
Figure BDA0001677902590000051
Figure BDA0001677902590000052
然后获取每个单压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA0001677902590000053
范围内的QMDCT系数分布直方图,并获取每个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA0001677902590000054
范围内的QMDCT系数分布直方图,将
Figure BDA0001677902590000055
中QMDCT系数的值在
Figure BDA0001677902590000056
范围内的QMDCT系数分布直方图记为
Figure BDA0001677902590000057
Figure BDA0001677902590000058
中QMDCT系数的值在
Figure BDA0001677902590000061
范围内的QMDCT系数分布直方图记为
Figure BDA0001677902590000062
Figure BDA0001677902590000063
再通过计算每个单压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值,获取每个单压缩AAC音频的特征向量,将第n1个单压缩AAC音频的特征向量记为
Figure BDA0001677902590000064
Figure BDA0001677902590000065
Figure BDA0001677902590000066
其中,n1为正整数,1≤n1≤N1
Figure BDA0001677902590000067
Figure BDA0001677902590000068
的维数均为M×1024,M表示原始音频中包含的帧的总帧数,
Figure BDA0001677902590000069
表示
Figure BDA00016779025900000610
中下标为(1,1)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900000611
表示
Figure BDA00016779025900000612
中下标为(1,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900000613
表示
Figure BDA00016779025900000614
中下标为(M,1)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900000615
表示
Figure BDA00016779025900000616
中下标为(M,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900000617
表示
Figure BDA00016779025900000618
中下标为(1,1)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900000619
表示
Figure BDA00016779025900000620
中下标为(1,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900000621
表示
Figure BDA00016779025900000622
中下标为(M,1)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA0001677902590000071
表示
Figure BDA0001677902590000072
中下标为(M,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA0001677902590000073
Figure BDA0001677902590000074
的下限值,
Figure BDA0001677902590000075
Figure BDA0001677902590000076
的上限值,
Figure BDA0001677902590000077
Figure BDA0001677902590000078
Figure BDA0001677902590000079
Figure BDA00016779025900000710
的维数为
Figure BDA00016779025900000711
符号“||”为取绝对值符号,
Figure BDA00016779025900000712
表示
Figure BDA00016779025900000713
中的第1个元素的值,
Figure BDA00016779025900000714
表示
Figure BDA00016779025900000715
中的第
Figure BDA00016779025900000716
个元素的值,
Figure BDA00016779025900000717
表示
Figure BDA00016779025900000718
中的第1个元素的值,
Figure BDA00016779025900000719
表示
Figure BDA00016779025900000720
中的第
Figure BDA00016779025900000721
个元素的值;
提取每个双压缩AAC音频及其相应的双压缩移除采样点AAC音频各自的QMDCT系数矩阵,将第n2个双压缩AAC音频的QMDCT系数矩阵记为
Figure BDA00016779025900000722
将第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵记为
Figure BDA00016779025900000723
Figure BDA00016779025900000724
然后获取每个双压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA00016779025900000725
范围内的QMDCT系数分布直方图,并获取每个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA00016779025900000726
范围内的QMDCT系数分布直方图,将
Figure BDA00016779025900000727
中QMDCT系数的值在
Figure BDA00016779025900000728
范围内的QMDCT系数分布直方图记为
Figure BDA00016779025900000729
Figure BDA00016779025900000730
中QMDCT系数的值在
Figure BDA00016779025900000731
范围内的QMDCT系数分布直方图记为
Figure BDA00016779025900000732
Figure BDA00016779025900000733
再通过计算每个双压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值,获取每个双压缩AAC音频的特征向量,将第n2个双压缩AAC音频的特征向量记为
Figure BDA0001677902590000081
Figure BDA0001677902590000082
其中,n2为正整数,1≤n2≤N2
Figure BDA0001677902590000083
Figure BDA0001677902590000084
的维数均为M×1024,
Figure BDA0001677902590000085
表示
Figure BDA0001677902590000086
中下标为(1,1)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA0001677902590000087
表示
Figure BDA0001677902590000088
中下标为(1,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA0001677902590000089
表示
Figure BDA00016779025900000810
中下标为(M,1)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900000811
表示
Figure BDA00016779025900000812
中下标为(M,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900000813
表示
Figure BDA00016779025900000814
中下标为(1,1)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900000815
表示
Figure BDA00016779025900000816
中下标为(1,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900000817
表示
Figure BDA00016779025900000818
中下标为(M,1)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900000819
表示
Figure BDA00016779025900000820
中下标为(M,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900000821
Figure BDA00016779025900000822
的维数为
Figure BDA00016779025900000823
符号“||”为取绝对值符号,
Figure BDA00016779025900000824
表示
Figure BDA00016779025900000825
中的第1个元素的值,
Figure BDA00016779025900000826
表示
Figure BDA00016779025900000827
中的第
Figure BDA00016779025900000828
个元素的值,
Figure BDA00016779025900000829
表示
Figure BDA00016779025900000830
中的第1个元素的值,
Figure BDA00016779025900000831
表示
Figure BDA0001677902590000091
中的第
Figure BDA0001677902590000092
个元素的值;
步骤四:从每类所有的单压缩AAC音频中随机选取一部分单压缩AAC音频,并从每类所有的双压缩AAC音频中随机选取一部分双压缩AAC音频;然后将选取的所有单压缩AAC音频和选取的所有双压缩AAC音频构成训练集,将剩余的所有单压缩AAC音频和剩余的所有双压缩AAC音频构成测试集;
步骤五:训练Nb个LIBSVM分类器,训练第nb个LIBSVM分类器的具体过程为:将训练集中的第nb类的所有单压缩AAC音频的特征向量,及第二次压缩所采用的比特率与获取对应的第nb类的单压缩AAC音频时所采用的比特率相同的所有双压缩AAC音频的特征向量,输入到LIBSVM分类器中进行训练,得到适用于采用第nb种比特率的AAC音频的训练好的第nb个LIBSVM分类器;其中,nb为正整数,1≤nb≤Nb
步骤六:将测试集中的每个单压缩AAC音频或每个双压缩AAC音频作为待重压缩检测AAC音频;然后根据待重压缩检测AAC音频的公开的比特率,将待重压缩检测AAC音频的特征向量输入到相应的训练好的LIBSVM分类器中,得到用于代表检测结果为单压缩AAC音频的数字标记1或用于代表检测结果为双压缩AAC音频的数字标记0。
所述的步骤六执行完毕后,重复执行步骤四至步骤六N'次;然后针对每个待重压缩检测AAC音频,计算该待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值;再根据每个待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值,最终确定每个待重压缩检测AAC音频为单压缩AAC音频还是为双压缩AAC音频,若平均值大于0.5,则最终确定为单压缩AAC音频,否则,最终确定为双压缩AAC音频;其中,N'≥1。
与现有技术相比,本发明的优点在于:
1)本发明方法通过研究发现,AAC音频在一次压缩以及二次压缩后其QMDCT系数会留下较为明显的量化痕迹,将一次、二次压缩的AAC音频分别移除1个采样点,发现移除采样点后其QMDCT系数分布类似即量化痕迹被抹去,因此本发明方法利用移除采样点前后QMDCT系数的差异进行检测,这样在充分分析QMDCT系数统计特性下,利用本发明方法对AAC音频进行重压缩检测的检测准确率得到了明显提高。
2)本发明方法利用了AAC音频在移除采样点前后的变化差异,利用其差异性进行单双压缩音频的分类,且在进行特征统计时,仅统计了[-10,10]范围内QMDCT系数的移除采样点前后的变化,其特征维度仅有21维,维度较低,大大减小了计算的复杂度。
3)本发明方法通过对不同时长的AAC音频进行实验,实验结果证明,随着时长的增加,无论是同码率音频压缩还是低码率音频转高码率音频压缩,其检测准确率均随之增加,不同时长的AAC音频实验结果反映出了本发明方法中的特征向量的鲁棒性。
附图说明
图1为本发明方法的总体实现框图;
图2为原始音频有800个且7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps时,得到的5600个单压缩AAC音频和156800个双压缩AAC音频的示意图;
图3a为500个单压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图;
图3b为500个双压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图;
图4a为500个单压缩AAC音频相应的单压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图;
图4b为500个双压缩AAC音频相应的双压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图;
图5为利用本发明方法对不同时长的待重压缩检测的AAC音频进行检测的检测结果的检测准确率与时长的关系图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
发现压缩音频在一次压缩以及二次压缩前后,其留下明显的量化痕迹,如何利用压缩留下的量化痕迹来进行压缩音频的准确分类,值得研究,因此提出本发明。
本发明提出的一种基于QMDCT系数的AAC音频重压缩检测方法,其总体实现框图如图1所示,其包括以下步骤:
步骤一:随机选取No个时长一致而风格不同的原始音频,原始音频的格式为WAV格式;然后使用AAC编码器并采用Nb种比特率,分别对每个原始音频进行压缩,得到Nb类具有不同比特率的共N1个单压缩AAC音频;接着使用AAC解码器,对每个单压缩AAC音频进行解压,得到每个单压缩AAC音频对应的解压音频,解压音频的格式为WAV格式;再使用相同的AAC编码器并采用Nb种比特率中大于或等于获取对应的单压缩AAC音频时所采用的比特率的所有比特率,分别对每个单压缩AAC音频对应的解压音频进行压缩,得到
Figure BDA0001677902590000121
类共N2个双压缩AAC音频;其中,No≥100,在本实施例中取No=800,原始音频的时长为大于或等于1秒,Nb≥1,在本实施例中取Nb=7,7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps,由于原始音频有No个,因此每类有No个单压缩AAC音频,Nb类则共有No×Nb个单压缩AAC音频,即N1=No×Nb,在获取双压缩AAC音频的过程中,若获取对应的单压缩AAC音频时所采用的比特率为75kbps,那么大于或等于75kbps的所有比特率为75kbps、90kbps、105kbps、120kbps、135kbps和150kbps,使用相同的AAC编码器并采用75kbps、90kbps、105kbps、120kbps、135kbps和150kbps,分别对该单压缩AAC音频对应的解压音频进行压缩,如此共得到
Figure BDA0001677902590000122
个双压缩AAC音频,即
Figure BDA0001677902590000123
在此,原始音频的时长一般要求大于1秒,在本实施例中原始音频的时长取10秒;原始音频的风格可以是蓝调、流行、古典、乡村、民谣等;原始音频的采样率可以是22.05kHz、44.1kHz、48kHz等,在本实施例中原始音频的采样率为44.1kHz;原始音频可以是双声道、单声道,在本实施例中原始音频为双声道音频。最为广泛的AAC编码器为FAAC-1.28,最为广泛的AAC解码器为FAAD2-2.7。图2给出了原始音频有800个(No=800),且7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps时,得到的5600个(N1=No×Nb=800×7=5600)单压缩AAC音频和156800个
Figure BDA0001677902590000124
双压缩AAC音频的示意图。
步骤二:本发明为了在保持音频的原始特性的同时,破坏音频中的帧结构,去除量化伪像,对音频进行采样点移除操作,具体过程为:使用与步骤一中相同的AAC解码器对每个单压缩AAC音频进行解压,得到每个单压缩AAC音频对应的WAV音频;然后针对每个单压缩AAC音频对应的WAV音频,从其起始位置开始移除Nremove个采样点,得到每个单压缩AAC音频对应的移除采样点后的WAV音频;再使用与步骤一中相同的AAC编码器并采用获取对应的单压缩AAC音频时所采用的比特率(如:获取一个单压缩AAC音频时所采用的比特率为75kbps,那么对该单压缩AAC音频对应的移除采样点后的WAV音频进行压缩时仍采用75kbps),对每个单压缩AAC音频对应的移除采样点后的WAV音频进行压缩,得到每个单压缩AAC音频相应的单压缩移除采样点AAC音频;其中,1≤Nremove<1024,在AAC编码过程中,对输入的PCM(Pulse CodeModulation,脉冲编码调制)信号进行分帧,每帧包含1024个时域抽样信号,与前一帧中的时域抽样信号共同组成了2048个时域抽样信号,对其进行加窗并采用MDCT变换进行时频转换,得到1024个频谱系数,因此AAC音频一帧有1024个采样点,本发明在移除采样点时,为破坏帧结构并保留音频的原始特性,从音频的起始位置移除采样点且移除的采样点的个数小于一帧包含的采样点的个数(即1024个采样点),在本实施例中取Nremove=1,即移除1个采样点。
使用与步骤一中相同的AAC解码器对每个双压缩AAC音频进行解压,得到每个双压缩AAC音频对应的WAV音频;然后针对每个双压缩AAC音频对应的WAV音频,从其起始位置开始移除Nremove个采样点,得到每个双压缩AAC音频对应的移除采样点后的WAV音频;再使用与步骤一中相同的AAC编码器并采用获取对应的双压缩AAC音频时第二次压缩所采用的比特率(如:获取一个双压缩AAC音频时第二次压缩所采用的比特率为75kbps,那么对该双压缩AAC音频对应的移除采样点后的WAV音频进行压缩时仍采用75kbps),对每个双压缩AAC音频对应的移除采样点后的WAV音频进行压缩,得到每个双压缩AAC音频相应的双压缩移除采样点AAC音频。
步骤三:提取每个单压缩AAC音频及其相应的单压缩移除采样点AAC音频各自的QMDCT系数矩阵,将第n1个单压缩AAC音频的QMDCT系数矩阵记为
Figure BDA0001677902590000141
将第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵记为
Figure BDA0001677902590000142
Figure BDA0001677902590000143
然后获取每个单压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA0001677902590000144
范围内的QMDCT系数分布直方图,并获取每个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA0001677902590000145
范围内的QMDCT系数分布直方图,将
Figure BDA0001677902590000146
中QMDCT系数的值在
Figure BDA0001677902590000147
范围内的QMDCT系数分布直方图记为
Figure BDA0001677902590000148
Figure BDA0001677902590000149
中QMDCT系数的值在
Figure BDA00016779025900001410
范围内的QMDCT系数分布直方图记为
Figure BDA00016779025900001411
Figure BDA00016779025900001412
再通过计算每个单压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值,获取每个单压缩AAC音频的特征向量,将第n1个单压缩AAC音频的特征向量记为
Figure BDA00016779025900001413
Figure BDA0001677902590000151
Figure BDA0001677902590000152
其中,n1为正整数,1≤n1≤N1
Figure BDA0001677902590000153
Figure BDA0001677902590000154
的维数均为M×1024,M表示原始音频中包含的帧的总帧数,
Figure BDA0001677902590000155
表示
Figure BDA0001677902590000156
中下标为(1,1)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA0001677902590000157
表示
Figure BDA0001677902590000158
中下标为(1,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA0001677902590000159
表示
Figure BDA00016779025900001510
中下标为(M,1)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900001511
表示
Figure BDA00016779025900001512
中下标为(M,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900001513
表示
Figure BDA00016779025900001514
中下标为(1,1)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900001515
表示
Figure BDA00016779025900001516
中下标为(1,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900001517
表示
Figure BDA00016779025900001518
中下标为(M,1)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900001519
表示
Figure BDA00016779025900001520
中下标为(M,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900001521
Figure BDA00016779025900001522
的下限值,
Figure BDA00016779025900001523
Figure BDA00016779025900001524
的上限值,
Figure BDA00016779025900001525
Figure BDA00016779025900001526
在本实施例中取
Figure BDA00016779025900001527
Figure BDA00016779025900001528
为[-10,10],
Figure BDA00016779025900001529
Figure BDA00016779025900001530
的维数为
Figure BDA00016779025900001531
符号“||”为取绝对值符号,
Figure BDA00016779025900001532
表示
Figure BDA00016779025900001533
中的第1个元素的值,
Figure BDA00016779025900001534
为[-10,10]时
Figure BDA00016779025900001535
代表
Figure BDA00016779025900001536
中QMDCT系数的值为-10出现的概率,
Figure BDA0001677902590000161
表示
Figure BDA0001677902590000162
中的第
Figure BDA0001677902590000163
个元素的值,
Figure BDA0001677902590000164
为[-10,10]时
Figure BDA0001677902590000165
代表
Figure BDA0001677902590000166
中QMDCT系数的值为10出现的概率,
Figure BDA0001677902590000167
表示
Figure BDA0001677902590000168
中的第1个元素的值,
Figure BDA0001677902590000169
为[-10,10]时
Figure BDA00016779025900001610
代表
Figure BDA00016779025900001611
中QMDCT系数的值为-10出现的概率,
Figure BDA00016779025900001612
表示
Figure BDA00016779025900001613
中的第
Figure BDA00016779025900001614
个元素的值,
Figure BDA00016779025900001615
为[-10,10]时
Figure BDA00016779025900001616
代表
Figure BDA00016779025900001617
中QMDCT系数的值为10出现的概率。
提取每个双压缩AAC音频及其相应的双压缩移除采样点AAC音频各自的QMDCT系数矩阵,将第n2个双压缩AAC音频的QMDCT系数矩阵记为
Figure BDA00016779025900001618
将第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵记为
Figure BDA00016779025900001619
Figure BDA00016779025900001620
然后获取每个双压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA00016779025900001621
范围内的QMDCT系数分布直方图,并获取每个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure BDA00016779025900001622
范围内的QMDCT系数分布直方图,将
Figure BDA00016779025900001623
中QMDCT系数的值在
Figure BDA00016779025900001624
范围内的QMDCT系数分布直方图记为
Figure BDA00016779025900001625
Figure BDA00016779025900001626
中QMDCT系数的值在
Figure BDA00016779025900001627
范围内的QMDCT系数分布直方图记为
Figure BDA00016779025900001628
Figure BDA00016779025900001629
再通过计算每个双压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值,获取每个双压缩AAC音频的特征向量,将第n2个双压缩AAC音频的特征向量记为
Figure BDA00016779025900001630
Figure BDA0001677902590000171
其中,n2为正整数,1≤n2≤N2
Figure BDA0001677902590000172
Figure BDA0001677902590000173
的维数均为M×1024,
Figure BDA0001677902590000174
表示
Figure BDA0001677902590000175
中下标为(1,1)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA0001677902590000176
表示
Figure BDA0001677902590000177
中下标为(1,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA0001677902590000178
表示
Figure BDA0001677902590000179
中下标为(M,1)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900001710
表示
Figure BDA00016779025900001711
中下标为(M,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900001712
表示
Figure BDA00016779025900001713
中下标为(1,1)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900001714
表示
Figure BDA00016779025900001715
中下标为(1,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900001716
表示
Figure BDA00016779025900001717
中下标为(M,1)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure BDA00016779025900001718
表示
Figure BDA00016779025900001719
中下标为(M,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure BDA00016779025900001720
Figure BDA00016779025900001721
的维数为
Figure BDA00016779025900001722
符号“||”为取绝对值符号,
Figure BDA00016779025900001723
表示
Figure BDA00016779025900001724
中的第1个元素的值,
Figure BDA00016779025900001725
为[-10,10]时
Figure BDA00016779025900001726
代表
Figure BDA00016779025900001727
中QMDCT系数的值为-10出现的概率,
Figure BDA00016779025900001728
表示
Figure BDA00016779025900001729
中的第
Figure BDA00016779025900001730
个元素的值,
Figure BDA00016779025900001731
为[-10,10]时
Figure BDA00016779025900001732
代表
Figure BDA00016779025900001733
中QMDCT系数的值为10出现的概率,
Figure BDA00016779025900001734
表示
Figure BDA00016779025900001735
中的第1个元素的值,
Figure BDA00016779025900001736
为[-10,10]时
Figure BDA0001677902590000181
代表
Figure BDA0001677902590000182
中QMDCT系数的值为-10出现的概率,
Figure BDA0001677902590000183
表示
Figure BDA0001677902590000184
中的第
Figure BDA0001677902590000185
个元素的值,
Figure BDA0001677902590000186
为[-10,10]时
Figure BDA0001677902590000187
代表
Figure BDA0001677902590000188
中QMDCT系数的值为10出现的概率。
在此,AAC编码是以感知音频编码为基本模型开发的,其结合心理声学模型,先将输入的PCM(Pulse Code Modulation,脉冲编码调制)信号经过滤波器组完成时频转换,再经过MDCT变换得到MDCT系数,对MDCT系数进行量化编码得到QMDCT系数,最后将量化编码后的比特流进行封装,形成最终的压缩音频。在AAC编码过程中,量化之前的步骤是对音频数据的预处理,量化处理才真正降低了音频比特率,量化的基本目标是对频谱数据进行量化,控制量化噪声在感知失真范围内,同时使其编码比特数满足比特率要求。在AAC编码过程中,MDCT系数是源文件在频率上的存储格式,即AAC音频是MDCT系数经过量化编码之后的数据流,每个子带的MDCT系数经过量化后都会得到对应的QMDCT系数,即QMDCT系数是PCM信号经过MDCT变换后再经过量化得到的数值,因此,QMDCT系数不仅能体现PCM信号的特征,而且也能体现量化特性,在二次压缩之后仍然会保留一次压缩时的遗留QMDCT系数的统计特性,但是会有波动情况。
随机选取500个单压缩AAC音频和这500个单压缩AAC音频对应的双压缩AAC音频。图3a给出了500个单压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图,图3b给出了500个双压缩AAC音频的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图。从图3b中可以看出,经过AAC压缩后QMDCT系数的分布会出现一些沟壑现象,QMDCT系数的分布会聚集在某些值上,这是因为:受AAC音频编码量化环节的影响,MDCT系数在第一次编码时首先被量化,在解码时这些数值会被截断,进行四舍五入操作,这样在第二次压缩时某些相近的值被量化成同一值,且该过程不可逆,因此出现图3b中的现象,这种现象称为AAC压缩痕迹。
受图像重压缩校正思想启发,在图像压缩检测中可以通过移除四个像素点抹除图像压缩的量化痕迹,因此认为移除音频部分采样点即破坏音频的帧结构,在重新压缩之后,尽管经历了两次压缩,但它的特性(如频谱系数分布等)却与一次压缩相似。图4a给出了500个单压缩AAC音频相应的单压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图,图4b给出了500个双压缩AAC音频相应的双压缩移除采样点AAC音频(移除1个采样点)的QMDCT系数矩阵的平均值矩阵中QMDCT系数的值在[-10,10]范围内的QMDCT系数分布直方图。从图4a和图4b中可以看出,图4a和图4b呈现的QMDCT系数的分布相似度较高,说明在音频中破坏帧结构即移除采样点可以移除音频的量化痕迹。对比图4a与图3a,发现单压缩AAC音频的QMDCT系数的分布与单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数的分布相近,即单压缩AAC音频的QMDCT系数的分布在移除采样点前后并没有发生明显变化;对比图4b与图3b,发现双压缩AAC音频的QMDCT系数的分布与双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数的分布差异很大,即双压缩AAC音频的QMDCT系数的分布在移除采样点前后差距明显。
本发明利用音频的量化痕迹的变换来检测重压缩的AAC音频,核心是分析待重压缩检测的AAC音频的QMDCT系数分布直方图与单压缩AAC音频的QMDCT系数分布直方图之间的相似性,直观地说,如果两个QMDCT系数分布直方图的差距很小,则表明待重压缩检测的AAC音频没有被重压缩,反之,将待重压缩检测的AAC音频视为重压缩音频。但是,仅从QMDCT系数分布直方图来判断音频是否经过重压缩操作较为困难,根据前面分析,单压缩AAC音频和双压缩AAC音频在经过移除采样点的操作后,其QMDCT系数分布直方图类似,因此将单压缩AAC音频和双压缩AAC音频移除采样点前后的QMDCT系数的分布差异作为特征。
步骤四:从每类所有的单压缩AAC音频中随机选取一部分单压缩AAC音频,并从每类所有的双压缩AAC音频中随机选取一部分双压缩AAC音频;然后将选取的所有单压缩AAC音频和选取的所有双压缩AAC音频构成训练集,将剩余的所有单压缩AAC音频和剩余的所有双压缩AAC音频构成测试集。
在本实施例中,设定从每类所有的单压缩AAC音频中随机选取70%单压缩AAC音频,并从每类所有的双压缩AAC音频中随机选取70%双压缩AAC音频,即70%单压缩AAC音频和70%双压缩AAC音频构成训练集,30%单压缩AAC音频和30%双压缩AAC音频构成特征向量测试集。
步骤五:训练Nb个LIBSVM分类器,训练第nb个LIBSVM分类器的具体过程为:将训练集中的第nb类的所有单压缩AAC音频的特征向量,及第二次压缩所采用的比特率与获取对应的第nb类的单压缩AAC音频时所采用的比特率相同的所有双压缩AAC音频的特征向量,输入到LIBSVM分类器中进行训练,得到适用于采用第nb种比特率的AAC音频的训练好的第nb个LIBSVM分类器;其中,nb为正整数,1≤nb≤Nb
如:训练第3个LIBSVM分类器的具体过程为:将训练集中的所有采用比特率为90kbps的单压缩AAC音频的特征向量,及所有第二次压缩所采用的比特率为90kbps的双压缩AAC音频的特征向量,输入到LIBSVM分类器中进行训练。第二次压缩所采用的比特率为90kbps的双压缩AAC音频包括第一次所采用的比特率为60kbps且第二次压缩所采用的比特率为90kbps的双压缩AAC音频、第一次所采用的比特率为75kbps且第二次压缩所采用的比特率为90kbps的双压缩AAC音频、第一次所采用的比特率为90kbps且第二次压缩所采用的比特率为90kbps的双压缩AAC音频。
步骤六:将测试集中的每个单压缩AAC音频或每个双压缩AAC音频作为待重压缩检测AAC音频;然后根据待重压缩检测AAC音频的公开的比特率,将待重压缩检测AAC音频的特征向量输入到相应的训练好的LIBSVM分类器中,得到用于代表检测结果为单压缩AAC音频的数字标记1或用于代表检测结果为双压缩AAC音频的数字标记0。
在此,若一个待重压缩检测AAC音频是单压缩AAC音频,那么其公开的比特率即为单压缩AAC音频所采用的比特率;若一个待重压缩检测AAC音频是双压缩AAC音频,那么其公开的比特率即为双压缩AAC音频第二次压缩时所采用的比特率,如果待重压缩检测AAC音频的公开的比特率为90kbps,则将待重压缩检测AAC音频的特征向量输入到训练好的第3个LIBSVM分类器中就可得到分类结果,即就可确定待重压缩检测AAC音频是单压缩AAC音频还是双压缩AAC音频。
为了使检测结果更加准确,所述的步骤六执行完毕后,重复执行步骤四至步骤六N'次;然后针对每个待重压缩检测AAC音频,计算该待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值;再根据每个待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值,最终确定每个待重压缩检测AAC音频为单压缩AAC音频还是为双压缩AAC音频,若平均值大于0.5,则最终确定为单压缩AAC音频,否则,最终确定为双压缩AAC音频;其中,N'≥1,在本实施例中取N'=10。
为了进一步说明本发明方法的可行性和有效性,对本发明方法进行实验验证。
获取800个时长为10秒的原始WAV音频,然后分别截取成0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒的WAV音频片段,以对不同时长的AAC音频进行讨论。
按本发明的步骤一的过程,获得每个时长为0.5秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为1秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为2秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为3秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为4秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为5秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为6秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为7秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频、每个时长为8秒WAV音频片段对应的单压缩AAC音频和双压缩AAC音频;再按本发明方法获得每个单压缩AAC音频的特征向量和每个双压缩AAC音频的特征向量。
将上述的每个时长为10秒的单压缩AAC音频或每个时长为10秒的双压缩AAC音频作为一个待重压缩检测的AAC音频,按本发明方法,将待重压缩检测的AAC音频的特征向量输入到对应的训练好的LIBSVM分类器中,得到检测结果,检测准确率如表1所列。表1中,BR1表示第一次压缩时所采用的比特率,BR2表示第二次压缩时所采用的比特率。
表1利用本发明方法对时长为10秒的待重压缩检测的AAC音频进行检测的检测结果的检测准确率
Figure BDA0001677902590000231
以表1中第六行第七列的值(99.85%)为例,该值表示利用本发明方法对先后采用105kbps和135kbps比特率压缩(FAAC/FAAD2)的双压缩AAC音频的综合检测率达到了99.85%。从表1中可以看出,低码率转高码率(第二次压缩采用的比特率高于第一次压缩采用的比特率)的双压缩AAC音频的检测结果的平均准确率达到了99.845%,同码率(第二次压缩采用的比特率与第一次压缩采用的比特率一致)的双压缩AAC音频的检测结果的平均准确率达到了98.607%。说明本发明提出的特征向量在低码率转高码率的情况下取得了较好的检测效果,均超过了99%,但针对相同码率的压缩音频,检测率相对偏低约1.238个百分点,这是由于在音频重压缩时,其QMDCT系数变化较小,移除采样点前后差值变化也相对较小。
将上述的每个单压缩AAC音频或每个双压缩AAC音频作为一个待重压缩检测的AAC音频,按本发明方法,将待重压缩检测的AAC音频的特征向量输入到对应的训练好的LIBSVM分类器中,得到检测结果。表2给出了利用本发明方法对不同时长的待重压缩检测的AAC音频进行检测的检测结果的检测准确率。
表2利用本发明方法对不同时长的待重压缩检测的AAC音频进行检测的检测结果的检测准确率
Figure BDA0001677902590000241
为直观地体现出表2所列的检测准确率与时长的关系,图5给出了不同时长下检测准确率的折线图。从图5中可以看出,随着时长的增加,无论是同码率音频压缩还是低码率音频转高码率音频其检测准确率均随之增加。不同时长音频实验的结果反映出了本发明中的特征向量的有效性。

Claims (2)

1.一种基于QMDCT系数的AAC音频重压缩检测方法,其特征在于包括以下步骤:
步骤一:随机选取No个时长一致而风格不同的原始音频,原始音频的格式为WAV格式;然后使用AAC编码器并采用Nb种比特率,分别对每个原始音频进行压缩,得到Nb类具有不同比特率的共N1个单压缩AAC音频;接着使用AAC解码器,对每个单压缩AAC音频进行解压,得到每个单压缩AAC音频对应的解压音频,解压音频的格式为WAV格式;再使用相同的AAC编码器并采用Nb种比特率中大于或等于获取对应的单压缩AAC音频时所采用的比特率的所有比特率,分别对每个单压缩AAC音频对应的解压音频进行压缩,得到
Figure FDA0001677902580000011
类共N2个双压缩AAC音频;其中,No≥100,原始音频的时长为大于或等于1秒,Nb≥1,N1=No×Nb
Figure FDA0001677902580000012
步骤二:使用与步骤一中相同的AAC解码器对每个单压缩AAC音频进行解压,得到每个单压缩AAC音频对应的WAV音频;然后针对每个单压缩AAC音频对应的WAV音频,从其起始位置开始移除Nremove个采样点,得到每个单压缩AAC音频对应的移除采样点后的WAV音频;再使用与步骤一中相同的AAC编码器并采用获取对应的单压缩AAC音频时所采用的比特率,对每个单压缩AAC音频对应的移除采样点后的WAV音频进行压缩,得到每个单压缩AAC音频相应的单压缩移除采样点AAC音频;其中,1≤Nremove<1024;
使用与步骤一中相同的AAC解码器对每个双压缩AAC音频进行解压,得到每个双压缩AAC音频对应的WAV音频;然后针对每个双压缩AAC音频对应的WAV音频,从其起始位置开始移除Nremove个采样点,得到每个双压缩AAC音频对应的移除采样点后的WAV音频;再使用与步骤一中相同的AAC编码器并采用获取对应的双压缩AAC音频时第二次压缩所采用的比特率,对每个双压缩AAC音频对应的移除采样点后的WAV音频进行压缩,得到每个双压缩AAC音频相应的双压缩移除采样点AAC音频;
步骤三:提取每个单压缩AAC音频及其相应的单压缩移除采样点AAC音频各自的QMDCT系数矩阵,将第n1个单压缩AAC音频的QMDCT系数矩阵记为
Figure FDA0001677902580000021
将第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵记为
Figure FDA0001677902580000022
Figure FDA0001677902580000023
然后获取每个单压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure FDA0001677902580000024
范围内的QMDCT系数分布直方图,并获取每个单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure FDA0001677902580000025
范围内的QMDCT系数分布直方图,将
Figure FDA0001677902580000026
中QMDCT系数的值在
Figure FDA0001677902580000027
范围内的QMDCT系数分布直方图记为
Figure FDA0001677902580000028
Figure FDA0001677902580000029
中QMDCT系数的值在
Figure FDA00016779025800000210
范围内的QMDCT系数分布直方图记为
Figure FDA00016779025800000211
Figure FDA00016779025800000212
再通过计算每个单压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该单压缩AAC音频相应的单压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值,获取每个单压缩AAC音频的特征向量,将第n1个单压缩AAC音频的特征向量记为
Figure FDA00016779025800000213
Figure FDA0001677902580000031
Figure FDA0001677902580000032
其中,n1为正整数,1≤n1≤N1
Figure FDA0001677902580000033
Figure FDA0001677902580000034
的维数均为M×1024,M表示原始音频中包含的帧的总帧数,
Figure FDA0001677902580000035
表示
Figure FDA0001677902580000036
中下标为(1,1)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure FDA0001677902580000037
表示
Figure FDA0001677902580000038
中下标为(1,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure FDA0001677902580000039
表示
Figure FDA00016779025800000310
中下标为(M,1)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure FDA00016779025800000311
表示
Figure FDA00016779025800000312
中下标为(M,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure FDA00016779025800000313
表示
Figure FDA00016779025800000314
中下标为(1,1)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure FDA00016779025800000315
表示
Figure FDA00016779025800000316
中下标为(1,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure FDA00016779025800000317
表示
Figure FDA00016779025800000318
中下标为(M,1)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure FDA00016779025800000319
表示
Figure FDA00016779025800000320
中下标为(M,1024)的QMDCT系数,亦表示第n1个单压缩AAC音频相应的单压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure FDA00016779025800000321
Figure FDA00016779025800000322
的下限值,
Figure FDA00016779025800000323
Figure FDA00016779025800000324
的上限值,
Figure FDA00016779025800000325
Figure FDA00016779025800000326
Figure FDA00016779025800000327
Figure FDA00016779025800000328
的维数为
Figure FDA00016779025800000329
符号“||”为取绝对值符号,
Figure FDA00016779025800000330
表示
Figure FDA00016779025800000331
中的第1个元素的值,
Figure FDA00016779025800000332
表示
Figure FDA00016779025800000333
中的第
Figure FDA00016779025800000334
个元素的值,
Figure FDA00016779025800000335
表示
Figure FDA00016779025800000336
中的第1个元素的值,
Figure FDA00016779025800000337
表示
Figure FDA00016779025800000338
中的第
Figure FDA0001677902580000041
个元素的值;
提取每个双压缩AAC音频及其相应的双压缩移除采样点AAC音频各自的QMDCT系数矩阵,将第n2个双压缩AAC音频的QMDCT系数矩阵记为
Figure FDA0001677902580000042
将第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵记为
Figure FDA0001677902580000043
Figure FDA0001677902580000044
然后获取每个双压缩AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure FDA0001677902580000045
范围内的QMDCT系数分布直方图,并获取每个双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵中QMDCT系数的值在
Figure FDA0001677902580000046
范围内的QMDCT系数分布直方图,将
Figure FDA0001677902580000047
中QMDCT系数的值在
Figure FDA0001677902580000048
范围内的QMDCT系数分布直方图记为
Figure FDA0001677902580000049
Figure FDA00016779025800000410
中QMDCT系数的值在
Figure FDA00016779025800000411
范围内的QMDCT系数分布直方图记为
Figure FDA00016779025800000412
Figure FDA00016779025800000413
再通过计算每个双压缩AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的每个元素的值与该双压缩AAC音频相应的双压缩移除采样点AAC音频的QMDCT系数矩阵对应的QMDCT系数分布直方图中的相同位置的元素的值的差值,获取每个双压缩AAC音频的特征向量,将第n2个双压缩AAC音频的特征向量记为
Figure FDA00016779025800000414
Figure FDA00016779025800000415
Figure FDA00016779025800000416
其中,n2为正整数,1≤n2≤N2
Figure FDA00016779025800000417
Figure FDA00016779025800000418
的维数均为M×1024,
Figure FDA00016779025800000419
表示
Figure FDA00016779025800000420
中下标为(1,1)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure FDA00016779025800000421
表示
Figure FDA00016779025800000422
中下标为(1,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure FDA0001677902580000051
表示
Figure FDA0001677902580000052
中下标为(M,1)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure FDA0001677902580000053
表示
Figure FDA0001677902580000054
中下标为(M,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure FDA0001677902580000055
表示
Figure FDA0001677902580000056
中下标为(1,1)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1个采样点的QMDCT系数,
Figure FDA0001677902580000057
表示
Figure FDA0001677902580000058
中下标为(1,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第1帧中的第1024个采样点的QMDCT系数,
Figure FDA0001677902580000059
表示
Figure FDA00016779025800000510
中下标为(M,1)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1个采样点的QMDCT系数,
Figure FDA00016779025800000511
表示
Figure FDA00016779025800000512
中下标为(M,1024)的QMDCT系数,亦表示第n2个双压缩AAC音频相应的双压缩移除采样点AAC音频中的第M帧中的第1024个采样点的QMDCT系数,
Figure FDA00016779025800000513
Figure FDA00016779025800000514
的维数为
Figure FDA00016779025800000515
符号“||”为取绝对值符号,
Figure FDA00016779025800000516
表示
Figure FDA00016779025800000517
中的第1个元素的值,
Figure FDA00016779025800000518
表示
Figure FDA00016779025800000519
中的第
Figure FDA00016779025800000520
个元素的值,
Figure FDA00016779025800000521
表示
Figure FDA00016779025800000522
中的第1个元素的值,
Figure FDA00016779025800000523
表示
Figure FDA00016779025800000524
中的第
Figure FDA00016779025800000525
个元素的值;
步骤四:从每类所有的单压缩AAC音频中随机选取一部分单压缩AAC音频,并从每类所有的双压缩AAC音频中随机选取一部分双压缩AAC音频;然后将选取的所有单压缩AAC音频和选取的所有双压缩AAC音频构成训练集,将剩余的所有单压缩AAC音频和剩余的所有双压缩AAC音频构成测试集;
步骤五:训练Nb个LIBSVM分类器,训练第nb个LIBSVM分类器的具体过程为:将训练集中的第nb类的所有单压缩AAC音频的特征向量,及第二次压缩所采用的比特率与获取对应的第nb类的单压缩AAC音频时所采用的比特率相同的所有双压缩AAC音频的特征向量,输入到LIBSVM分类器中进行训练,得到适用于采用第nb种比特率的AAC音频的训练好的第nb个LIBSVM分类器;其中,nb为正整数,1≤nb≤Nb
步骤六:将测试集中的每个单压缩AAC音频或每个双压缩AAC音频作为待重压缩检测AAC音频;然后根据待重压缩检测AAC音频的公开的比特率,将待重压缩检测AAC音频的特征向量输入到相应的训练好的LIBSVM分类器中,得到用于代表检测结果为单压缩AAC音频的数字标记1或用于代表检测结果为双压缩AAC音频的数字标记0。
2.根据权利要求1所述的基于QMDCT系数的AAC音频重压缩检测方法,其特征在于所述的步骤六执行完毕后,重复执行步骤四至步骤六N'次;然后针对每个待重压缩检测AAC音频,计算该待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值;再根据每个待重压缩检测AAC音频对应的所有用于代表检测结果的数字标记的平均值,最终确定每个待重压缩检测AAC音频为单压缩AAC音频还是为双压缩AAC音频,若平均值大于0.5,则最终确定为单压缩AAC音频,否则,最终确定为双压缩AAC音频;其中,N'≥1。
CN201810535084.7A 2018-05-30 2018-05-30 基于qmdct系数的aac音频重压缩检测方法 Active CN108877816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810535084.7A CN108877816B (zh) 2018-05-30 2018-05-30 基于qmdct系数的aac音频重压缩检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810535084.7A CN108877816B (zh) 2018-05-30 2018-05-30 基于qmdct系数的aac音频重压缩检测方法

Publications (2)

Publication Number Publication Date
CN108877816A CN108877816A (zh) 2018-11-23
CN108877816B true CN108877816B (zh) 2022-12-27

Family

ID=64335482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810535084.7A Active CN108877816B (zh) 2018-05-30 2018-05-30 基于qmdct系数的aac音频重压缩检测方法

Country Status (1)

Country Link
CN (1) CN108877816B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785848B (zh) * 2019-01-28 2021-05-18 宁波大学 基于比例因子系数差值的aac双压缩音频检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
CN104123935A (zh) * 2014-07-16 2014-10-29 武汉大学 一种面向mp3数字音频文件的重压缩检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
CN104123935A (zh) * 2014-07-16 2014-10-29 武汉大学 一种面向mp3数字音频文件的重压缩检测方法

Also Published As

Publication number Publication date
CN108877816A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
TWI480855B (zh) 聲音訊號之特徵指紋擷取與匹配
US8140331B2 (en) Feature extraction for identification and classification of audio signals
US9208790B2 (en) Extraction and matching of characteristic fingerprints from audio signals
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
CN103366753B (zh) 一种相同码率下的mp3音频双压缩检测方法
CN103650039A (zh) 用于对输入信号加水印的量化指数调制的方法和装置
Lin et al. Subband aware CNN for cell-phone recognition
CN105304091B (zh) 一种基于dct的语音篡改恢复方法
CN110610722B (zh) 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
CN105741853B (zh) 一种基于共振峰频率的数字语音感知哈希方法
CN108877816B (zh) 基于qmdct系数的aac音频重压缩检测方法
Nilsson et al. On the mutual information between frequency bands in speech
Sampaio et al. Detection of AMR double compression using compressed-domain speech features
Doets et al. Distortion estimation in compressed music using only audio fingerprints
CN105070297B (zh) 一种mp3音频压缩历史检测方法
Wang et al. Speech Resampling Detection Based on Inconsistency of Band Energy.
CN109785848B (zh) 基于比例因子系数差值的aac双压缩音频检测方法
Zhan et al. Audio post-processing detection and identification based on audio features
CN112927700B (zh) 一种盲音频水印嵌入和提取方法及系统
Wei et al. Controlling bitrate steganography on AAC audio
Huang et al. AAC audio compression detection based on QMDCT coefficient
CN108665905B (zh) 一种基于频带带宽不一致性的数字语音重采样检测方法
Zhang et al. An Improved Bipolar Quantization-Based High-Capacity Watermarking Algorithm for Speech Perceptual Hashing Authentication System.
Chen et al. Audio Amplitude-Level Quantification Vector for Identification of Audio Post-Processing Operation
Remya et al. User authentication scheme based on Fast-Walsh Hadamard transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240118

Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province

Patentee after: Huzhou Chuangguan Technology Co.,Ltd.

Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818

Patentee before: Ningbo University

TR01 Transfer of patent right