CN102394065A

CN102394065A - 一种对数字音频假音质wave的分析方法

Info

Publication number: CN102394065A
Application number: CN2011103478238A
Authority: CN
Inventors: 罗达; 骆伟祺; 杨锐; 黄继武
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2011-11-04
Filing date: 2011-11-04
Publication date: 2012-03-28
Anticipated expiration: 2031-11-04
Also published as: CN102394065B

Abstract

本发明提供了一种能够识别数字音频假音质WAVE的分析方法，包括步骤：S1音频特征的提取与分类器模型的构造；S2利用分类器对待测音频做检测判断。与现有技术相比，本发明的有益效果是：本发明方法依据音频压缩前后MDCT系数的变化，提出“MDCT零值数量特征”以及“MDCT均值特征”组合而成的MDCT系数统计特征，利用SVM技术进行分类，可以有效鉴别WAV格式的数字音频文件是否曾被压缩，进而还可以分析其此前被压缩的码率。本发明能较有效地对原来低码率的低音质音乐进行识别，从而为网络音乐搜索与服务提供方便。

Description

一种对数字音频假音质WAVE的分析方法

技术领域

本发明涉及数字媒体处理技术领域，特别涉及一种对数字音频假音质WAVE的分析方法。

背景技术

随着计算机技术的快速发展，各种多媒体软件的编辑功能变得日益强大。在给人们带来便利的同时，不留明显痕迹地篡改多媒体数据变成了可能，在我们的日常生活中由此产生的道德和法律问题也变得越来越多。因此，多媒体认证技术变得十分重要。

多媒体认证技术分为主动认证和被动认证两类。数字水印和数字签名是两种典型的多媒体主动认证技术。然而，这两种方法都需要事先额外地提供一些附加信息。而在实际的应用中，更多的情况下我们可能无法获得有效的附加信息，这两种方法将会失效。这时，就需要借助于被动式的认证技术。多媒体被动认证技术是近年来兴起的研究热点，它不需要任何附加的信息，而是利用和分析多媒体数据内在的一些特质，从而来达到认证的目的。

对数字音频信号压缩历史的分析方法，是一种被动认证技术，它的目标是判断一个已有的音频是否曾经被压缩过，并更进一步分析之前的压缩的参数。它可以作为一种判别音频原始性的辅助手段。

本专利对原始WAV格式音频文件的压缩历史进行分析。目前暂时还没发现有文献进行此类工作。文献1(Rui Yang，Yunqing Shi，Jiwu Huang，“Defeating Fake-Quality MP3，”inProceedings of ACM Workshop on Multimedia and Security，Princeton，New Jersey，USA，2009.)采用小数值的MDCT系数作为特征判别假音质的MP3文件，文献2(Mengyu Qiao，Andrew H.Sung，Qingzhong Liu，“Revealing Real Quality of Double Compressed MP3 Audio，”inProceedings of ACM Multimedia，Firenze，Italy，2010.)也利用小数值的MDCT系数对MP3文件进行重压缩检测。它们针对的是MP3格式的文件，而不是无损的WAV格式的文件。文献3(R.Yang，Z.Qu，and J.Huang，“Detecting digital audio forgeries by checking frame offsets，”inProc.of the 10th ACM workshop on Multimedia and security，Oxford，United Kingdom，2008.)采用了计算帧偏移的方法来检测音频是否遭受篡改，虽然与本专利的主题无关，但该方法的特征也具有检测音频压缩的潜力。文献4(Xiaoying Feng and“FLD-BasedDetection of Re-compressed Speech Signals，”in Proceedings of the ACM Workshop on Multimediaand Security，Rome，Italy，2010.)提出了一种WAV格式的重压缩判断方法，其做法中“压缩”的含义是判别经过不同的量化策略(A-law或者μ-law)，而不是本发明提及的压缩的意义。

对一个WAVE数字音频信号，本发明通过分析其内在的本质特征，鉴定它是否曾经经过压缩，进而还可以分析其此前被压缩的码率。

音频的数字化以及各种功能强大的音频处理软件(如CoolEdit和GoldWave)及刻录软件(如Nero)的出现，使得音乐的盗版变得更容易。通过刻录软件可以使用解压缩MP3或者WMA文件的方式烧制成盗版CD碟。压缩格式的MP3或者WMA文件的音质本身已是有损的，而且部分压缩音乐的压缩码率很低，它们的音质通常较差。这样的方式制成的CD碟来自于低码率的压缩格式，属于劣质伪冒产品。然而据调查显示，这样的盗版碟片在销售市场上数量还不少。当前，盗版音乐的识别是一个难点。目前只能靠有经验的人通过耳朵听，才能进行识别，这将耗费巨大的人力财力。另一方面，由于网络的发展，人们也可以从网络购买并下载数字音乐。Napster等网站(网站地址http://free.napster.com)还提供了一些低码率(一般是32kbps或者64kbps)的音乐以吸引客户。网络中有些音乐标称是高码率，然而实际上它们是低码率的音乐。我们迫切需要识别音频原始码率的技术，这将为网络音乐搜索与服务提供便利。

发明内容

为了解决上述现有技术中的不足，本发明提供了一种能够识别数字音频假音质WAVE的分析方法。

本发明的技术方案是：一种对数字音频假音质WAVE的分析方法，包括步骤：

S1音频特征的提取与分类器模型的构造：

①无压缩音频集的选择：首先选取无压缩格式的WAV格式文件，裁减成若干5秒钟长度的音频片段；

②经压缩的音频集的构造：对选取的音频片段，分别以32kbps、48kbps、64kbps、80kbps、96kbps、128kbps的码率压缩成MP3格式和WMA格式的音频文件，再将它们解压缩成为WAV格式的音频片段，得到经压缩的音频集；

③提取无压缩音频集与经压缩的音频集中的每个音频片段的特征；

④利用LibSVM分类器对③中得到的特征进行训练，得到一个能鉴定分析音频信号压缩历史的分类器模型Model；

S2利用分类器对待测音频做检测判断：

首先按步骤S1中的③提取待测音频的特征，然后利用步骤S1中的④得到的分类器Model进行判别。

上述方案中进一步地，步骤S1的③中的特征提取方法包括步骤：

a)首先按MP3标准中的方法将音频进行分帧，然后对每一帧进行“时频转换”，提取576个MDCT系数；

b)对于所有的帧的MDCT系数，统计其值的绝对值严格等于0的总数，并除以帧的数量，得到平均每帧MDCT系数绝对值严格等于0的数量，称为“MDCT零值数量特征”；

c)对于所有的帧，统计576个系数的平均值，然后将这些系数分成24组，每组24个系数，即第1-24个系数为第一组，第25-48个系数为第二组，依次类推，对于每一组的24个系数，取他们的绝对值的平均值，作为这一组系数的一个特征，24个组就可以产生一个24维的特征，由于后4维全是0，故舍弃，取前20维的均值作为一个音频片段的特征，称为“MDCT均值特征”；

d)“MDCT零值数量特征”以及“MDCT均值特征”合并在一起，作为一个音频片段的特征。

与现有技术相比，本发明的有益效果是：本发明方法依据音频压缩前后MDCT系数的变化，提出“MDCT零值数量特征”以及“MDCT均值特征”组合而成的MDCT系数统计特征，利用SVM技术进行分类，可以有效鉴别WAV格式的数字音频文件是否曾被压缩，进而还可以分析其此前被压缩的码率。本发明能较有效地对低码率的低音质音乐进行识别，从而为网络音乐搜索与服务提供方便。

附图说明

图1是MP3标准中的提取MDCT系数方法示意图；

图2是本专利音频特征提取的示意图；

图3是“MDCT零值数量特征”性能分析示意图；

图4是“MDCT均值特征”性能分析示意图。

具体实施方式

以下结合附图对本发明进一步说明。

本发明方法通过以下两个步骤对音频信号压缩历史进行鉴别：

1)音频特征的提取与分类器模型的构造：

①无压缩音频集的选择：首先从音乐CD上提取无压缩的WAV格式的44.1KHz，16bit的音乐文件，裁减成若干5秒钟长度的音频片段。这些音乐包括交响曲、纯钢琴曲、流行歌曲、乡村乐曲、布鲁斯、迪斯科、街舞节奏曲、爵士乐等各类体裁的音乐。为了使得训练比较准确，音频集的数量应该尽可能多。

②经压缩的音频集的构造：对选取的音频片段，可以使用Goldwave等音频处理软件，分别以32kbps、48kbps、64kbps、80kbps、96kbps、128kbps的码率压缩成双声道的MP3格式和WMA格式的音频文件，再将它们解压缩成为44.1KHz，16bit的WAV格式的音频片段，得到经压缩的音频集。

③对无压缩音频集与经压缩的音频集中的每个音频片段，按以下方法提取其特征：

a)首先按MP3标准中的方法将音频进行分帧。对于每一帧的数据，会先通过一个32子带滤波器，得到的结果进行Modified Discrete Cosine Transform(MDCT)提取576个MDCT系数，如图1所示。已有的开源项目可以帮助我们提取所需要的MDCT系数。具体做法如下：

LAME是一个开源的MP3编码项目，可以修改它来提取我们所需要的MDCT系数。我们使用了LAME-3.97版本，该项目中求取576个MDCT系数，并存放在长度为576的数组gfc-＞l3_side.tt[gr][ch]xr中。其中参数gr是granule计数(取值0到gfc-＞mode_gr)，ch是channel计数(取值0到gfc-＞channels_out)。

我们将可以从此数组中得到整个音频所有帧的MDCT系数。

b)对于所有的帧的MDCT系数，统计其值的绝对值严格等于0的总数，并除以帧的数量，得到平均每帧MDCT系数绝对值严格等于0的数量，称为“MDCT零值数量特征”(见图2)。

c)对于所有的帧，统计576个系数的平均值，然后将这些系数分成24组，每组24个系数(即第1-24个系数为第一组，第25-48个系数为第二组，依次类推)。对于每一组的24个系数，取他们的绝对值的平均值，作为这一组系数的一个特征。24个组就可以产生一个24维的特征。由于后4维全是0，故舍弃。取前20维的均值作为一个音频片段的特征。称为“MDCT均值特征”(见图2)。

④利用LibSVM分类器对d)中得到的特征进行训练，得到一个能鉴定分析音频信号压缩历史的分类器模型Model。

2)利用分类器对待测音频做检测判断：首先按步骤1)中的③提取待测音频的特征，然后利用步骤1)中的④得到的分类器Model进行判别。

本发明方法的原理如下：

在音频压缩过程中，会留下一些蛛丝马迹，这些痕迹成为了技术上鉴别这类转换的基础。MP3标准中的压缩和处理过程大概如下：输入的声音信号经过32个子带滤波器并进行MDCT变换。压缩的过程中根据心理声学模型的规则对MDCT系数进行量化。这个过程中会把不同频段的系数进行压缩，而通常部分高频和中高频段的系数会压缩得更明显，使得这部分会出现更多零的系数。不同的压缩码率，将会对不同频段的MDCT系数造成不同的影响。本方法正是利用压缩中的这种特性，通过定量地分析这些MDCT系数，来达到鉴定和分析的目的。

图3是“MDCT零值数量特征”性能分析示意图。它表示的平均每帧中MDCT系数严格等于0的个数的箱合图对比结果。使用的数据是8800个原始无压缩的音频以及经过64kbps，96kbps，128kbps三种码率MP3过后的解压缩的音频。蓝色的盒子表示50％的数据分布，而红色的交叉点是远离密集分布区的点。我们可以看到，原始音频与曾经压缩过的音频有明显的分界线。因此，此特征对于区分一个音频是否曾经被压缩，有很好的效果。

但是我们也可以看出，不同压缩码率的音频的“MDCT零值数量特征”都集中在[121.5122]的区间内。因此还需要另外的特征来区分码率。

图4是“MDCT均值特征”性能分析示意图。576个MDCT系数包含了从高到低的各种频率成分，我们形成了一个20维的特征，它们的值近似代表着各个频段成分。音频压缩的原理是：音频被压缩得更明显，则高频的部分系数会有更大的损失。图4也证实了这一个原理。原始的音频各个频带都分布比较均匀；128kbps压缩过的音频从第16个频带起就基本下降到0附近；而当压缩码率到达64kbps，压缩过的音频从第10个频带起就基本下降到0附近。可见“MDCT均值特征”可用于区分不同的压缩码率。

因此，本方法抽取MDCT系数的两个特征作为一个度量，利用它我们可以实现对音频是否曾经被压缩过进行鉴别，进而还可以分析原来压缩的码率。

下面给出本发明方法的一些实验结果。

我们从音乐文件(这些音乐包括交响曲、纯钢琴曲、流行歌曲、乡村乐曲、布鲁斯、迪斯科、街舞节奏曲、爵士乐等各类体裁的音乐)中取得8800个5秒钟的音频片段，采样率44100Hz，16bit。存放于WAV格式中。这些文件我们称为“原始WAV文件”

使用Goldwave软件将它们压缩成32kbps，48kbps，64kbps，80kbps，96kbps，128kbps的立体声的MP3和WMA文件，再重新解压缩成为WAV格式的文件。这些文件我们称为“解压缩WAV文件”。

然后我们使用SVM训练，下面的所有实验中，随机选择30％的数据用于训练，剩余的70％用于测试。我们一共做了以下4部分的实验。

第一部分：经过MP3压缩的测试

此部分测试针对经过MP3压缩并解压而成的WAV文件，分以下3个实验。

固定的压缩码率

本实验对17600个音频(8800个原始WAV文件跟8800某种固定码率压缩MP3的解压缩WAV文件)进行实验。压缩时的码率固定选取32kbps，48kbps，64kbps，80kbps，96kbps和128kbps中的某一种。

实验结果如下表一所示。我们跟前面提到的文献[3]的方法做了比较，我们的效果要优于其特征。

	32kbps	48kbps	64kbps	80kbps	96kbps	128kbps
							我们的方法	99.65	99.87	99.81	99.69	99.73	98.24
文献[3]方法	93.92	89.96	89.22	86.29	82.19	73.50

表一(单位：％)

任意的压缩码率

本实验对17600个音频(8800个原始WAV文件跟8800随机码率压缩MP3的解压缩WAV文件)进行实验。压缩时的码率随机从32kbps，48kbps，64kbps，80kbps，96kbps和128kbps之中选取一种。实验结果显示，我们的方法的判断准确率为98.46％，而使用文献3的方法准确率为80.71％。本实验说明了我们的方法可以准确鉴定一个音频是否曾经遭受MP3压缩。

混合多种压缩码率的分析

本实验对61600(8800*7)个音频(8800个原始WAV文件跟它们的六类码率压缩MP3的解压缩WAV文件)进行实验。本实验的目的在于判断一个音频是否为压缩的，如果是压缩的，还推断出其压缩码率。实验结果见表二。(注：*号表示数字小于2.5)数据显示98.19％的原始WAV文件将被认定为原始的，各类别检测准确率也很高。

WAV

32

48

64

80

96

128

WAV

98.19

*

32

*

99.25

*

48

*

2.91

96.68

*

64

*

96.55

*

80

*

2.60

95.35

*

96

*

96.97

*

128

*

95.15

表二(单位：％)

第二部分：经过WMA压缩的测试

此部分的测试针对经过WMA压缩并解压而成的WAV文件。采用和上一部分的实验一样，也分为以下3个实验(实验设置不再赘述)。

固定的压缩码率

实验结果如下表三所示。我们的特征在各个码率压缩下都有较高的准确率，明显优于文献3的结果。

	32kbps	48kbps	64kbps	80kbps	96kbps	128kbps
							我们的方法	98.07	97.89	98.11	97.73	97.28	96.44
文献3方法	85.00	79.08	77.33	75.17	64.96	58.39

表三(单位：％)

任意的压缩码率

实验结果显示，我们的方法的判断准确率为90.90％，而使用文献3的方法准确率为75.8％。本实验说明了我们的方法也可以准确鉴定一个音频是否曾经遭受WMA压缩。

混合多种压缩码率的分析

多类码率分析结果见表四。实验结果显示，有部分码率的检测出现错误，但经过96kbps，128kbps压缩的解压缩WAV文件也都仅有3％左右被错误识别为原始WAV文件，各类码率的检测成功率都还较高。

	WAV	32	48	64	80	96	128
								WAV	94.01	*	*	*	*	*	*
32	*	97.63	*	*	*	*	*
								48	*	*	90.81	*	*	*	*
64	*	*	14.93	82.27	*	*	*
								80	*	*	8.00	3.96	84.10	*	*
96	3.39	*	3.39	*	*	85.47	4.35
								128	3.57	*	*	*	*	9.25	84.89

表四(单位：％)

第三部分：WAV，MP3，WMA混合类型的鉴别

我们混合了不同类型的：原始WAV文件，曾被MP3压缩过的解压缩WAV文件，以及曾被WMA压缩过的解压缩WAV文件。压缩的码率是随机从6种码率中选取。我们的目标是区分他是原始的WAV文件，还是曾经被哪一种格式压缩过。

实验结果如表五。结果显示：各种类别可以比较准确的分类。

	WAV	MP3	WMA
				WAV	90.27	*	9.16
MP3	*	89.51	9.89
				WMA	7.53	7.20	85.28

表五(单位：％)

第四部分：帧偏移的检测效率

解压得到的音频文件，会保留原来压缩过程中的帧结构，如果音频被部分裁剪，帧的结构将被破坏。此时一般会导致算法效率降低，这个被称为“帧偏移”问题。

我们也对这种情况进行了测试。经各种码率压缩的MP3和WMA解压缩得到WAV文件之后，我们切除WAV波形文件最前的若干个样本以破坏帧结构。

被删除的样本数为1到22050之间的一个随机数。这些文件与原始WAV文件形成测试数据。

实验结果如下：

对MP3，实验结果准确率为93.80％(对比于无帧偏移时的准确率98.46％)；

对WMA，实验结果准确率为89.32％(对比于无帧偏移时的准确率90.90％)；

实验结果显示我们的方法对“帧偏移”的音频也依然有效。

Claims

1.一种对数字音频假音质WAVE的分析方法，其特征在于包括步骤：

S1音频特征的提取与分类器模型的构造：

③提取无压缩音频集与经压缩的音频集中的每个音频片段的MDCT零值数量特征和MDCT均值特征；

S2利用分类器对待测音频做检测判断：

2.根据权利要求1所述的对数字音频假音质WAVE的分析方法，其特征在于步骤S1的③中的特征提取方法包括步骤：