CN101383171A

CN101383171A - 一种mp3音频的篡改盲检测方法

Info

Publication number: CN101383171A
Application number: CNA2008101991792A
Authority: CN
Inventors: 杨锐; 黄继武
Original assignee: National Sun Yat Sen University
Current assignee: Shenzhen Guoxinan Information Technology Co ltd
Priority date: 2008-10-16
Filing date: 2008-10-16
Publication date: 2009-03-11
Anticipated expiration: 2028-10-16
Also published as: CN101383171B

Abstract

本发明提供了一种MP3音频的篡改盲检测方法，包括如下步骤：(1)通过添加样本对音频进行压缩，并确定所引起的偏移量；(2)根据偏移量的变化确定音频的篡改位置。本发明可以有效地检测出每帧音频的实际偏移量，进而利用偏移量的变化来定位篡改。能定位的篡改类型包括：删除样本、插入样本、替换样本和拼接。这对判定MP3格式音频的真伪性等问题具有十分重要的意义，可作为检测解压后音频篡改的一种方法。

Description

一种MP3音频的篡改盲检测方法

技术领域

本发明属于多媒体信号处理领域，具体来说涉及一种MP3音频的篡改盲检测技术。

技术背景

近几年来，随着数字录音笔和手机录音功能的普及，数字录音大有取代以前模拟录音的趋势。但是功能强大的个人电脑和各种音频处理软件的广泛应用，使得一般的用户也能轻易地对数字录音进行篡改而不留下痕迹。如果虚假的录音被滥用，必将引起一系列的问题，如涉及到法律证据的真实性，数字媒体的版权，个人隐私的保护等，检测数字音频的真实性有着十分重要的意义。

MP3是目前应用最广泛的一种音频格式，目前通过网上或录音设备获得的音频大多都是MP3格式，因此检测这种格式的篡改十分必要。如今，针对MP3格式音频的“盲检测”(无水印和数字签名)技术尚未出现。

发明内容

本发明的目的是提出一种MP3音频篡改的盲检测方法，可以用于对给定的MP3音频，判别其是否受到过篡改并且定位篡改发生的具体位置。

为了实现上述发明目的，采用的技术方案如下：

一种MP3音频的篡改盲检测方法，包括如下步骤：

(1)通过添加样本对音频进行压缩，并确定所引起的偏移量；

(2)根据偏移量的变化确定音频的篡改位置。

本发明利用了MP3压缩是分帧进行的特点，只有第二次压缩应用的偏移量与首次压缩的相同时，音频信号频谱上才会有明显的量化效应。利用此特点，根据量化效应检测出每一帧音频的实际偏移量，当偏移量发生变化时，判断该处发生了篡改。

上述技术方案中，所述步骤(1)进一步包括如下：

(11)在音频信号前添加j(0≤j<576)个“0”样本，对所得信号进行分帧，每帧1152个样本，重叠率为50％；

(12)对每帧样本进行修正离散余弦变换，获得其频谱系数；

(13)对每帧576个频谱系数进行对数运算，算出频谱对数形式中非零值的个数

(14)检测出该帧音频的偏移量为

{offset}_{k} = \arg \min_{j} c_{k}^{(j)} .

进一步的，所述步骤(1)还可细分为包括如下：

(101)对于给定的音频信号x(共L个样本)，定义x^(j)(0<j<576)为x前添加j个“0”样本后的信号，称j为偏移量，即x⁽⁰⁾＝x，x^(j+1)＝[0，x^(j)]，0≤j<575，对于每个偏移量j＝0，...，575，对x^(j)进行分帧，每帧1152个样本，重叠率为50％，共得到N＝floor(L/576)-1帧音频，

[{\hat{x}}_{0}^{(j)} \cdot \cdot \cdot {\hat{x}}_{N - 1}^{(j)}] = {Fx}^{(j)},

其中F表示对音频加窗并分帧操作，表示音频信号x^(j)的第k帧；

(102)对每帧样本进行修正离散余弦变换，获得其频谱系数，共576个，

s_{k}^{(j)} = {T \hat{x}}_{k}^{(j)},

其中T表示修正离散余弦变换操作，表示信号x^(j)第k帧的频谱；

(103)对第k帧的频谱

进行对数运算，得到其对数形式

M_{k}^{(j)} = 10 \lg (\max ((s_{k}^{(j)} \cdot s_{k}^{(j)} \cdot 10^{10}, 1)),

算出中非零个数

c_{k}^{(j)} = {CM}_{k}^{(j)},

其中C表示计数操作；

(104)对于第k帧音频，其偏移量判决为

{offset}_{k} = \arg \min_{j} c_{k}^{(j)} .

所述步骤(2)根据步骤(1)得到的每帧音频偏移量，对其进行差分，差分值不为0的帧判决为发生过篡改。

本发明的原理为：对mp3进行压缩，即进行第二次压缩(如果该mp3文件没被篡改)或第三次压缩(该mp3文件被篡改)，依次类推，进行压缩时加入偏移量j，由于偏移量呈0～576的周期，故而j在该取值范围则可，如果是第二次压缩，由于不存在量化效应，所以不能确定偏移量，可推测出该音频不被篡改；如果是第三次或以上压缩，则可根据明显的量化效应确定具体的偏移量j与篡改时的偏移量相同。

确定偏移量后，再根据偏移量检测篡改的位置，检测篡改的位置，根据偏移量的差分值确定，因篡改时在篡改处加入偏移量(包括移除)，故而从整帧来说，篡改处的偏移量与前一偏移量肯定不同，故而可从差分不为0确定具体篡改位置。

本发明可以有效地检测出每帧音频的实际偏移量，进而利用偏移量的变化来定位篡改。能定位的篡改类型包括：删除样本、插入样本、替换样本和拼接。这对判定MP3格式音频的真伪性等问题具有十分重要的意义，可作为检测解压后音频篡改的一种方法。

附图说明

图1是本发明的实施流程图；

图2未量化和已量化的频谱系数对照图：a)未量化频谱的幅值形式；b)已量化频谱的幅值形式；c)未量化频谱的对数形式；d)已量化频谱的对数形式；

图3某帧音频采用偏移量为-1、0、+1时的频谱对数形式：a)偏移量为-1时的频谱；b)偏移量为0时的频谱；c)偏移量为+1时的频谱；

图4某帧音频采用不同偏移量时非零频谱系数的个数；

图5当偏移量为-575～+575时30帧音频里面非零频谱系数个数的分布示意图；

图6音频发生一处裁剪操作的检测结果：a)原始音频的波形图；b)裁剪后音频的波形图；c)原始音频的检测结果；d)裁剪后音频的检测结果；

图7音频发生多处裁剪的检测结果：a)原始音频的波形图；b)裁剪后音频的波形图；c)裁剪后音频的检测结果；

图8音频发生插入操作的检测结果：a)原始音频1的波形图；b)原始音频2的波形图；c)合成音频的波形图；d)合成音频的检测结果；

图9音频发生替换操作的检测结果：a)原始音频1的波形图；b)原始音频2的波形图；c)合成音频的波形图；d)合成音频的检测结果。

具体实施方式

下面结合附图对本发明做进一步的说明。

本发明的实施流程如附图1所示，包括以下具体步骤：

(1)对于给定的音频信号x(共L个样本)，定义x^(j)(0<j<576)为x前添加j个零样本后的信号，称j为偏移量。即x⁽⁰⁾＝x，x^(j+1)＝[0，x^(j)]，0≤j<575。对于每个偏移量j＝0，...，575，对x^(j)进行分帧，严格按照MP3压缩的标准，每帧1152个样本，重叠率为50％，故我们共得到N＝floor(L/576)-1帧音频。

[{\hat{x}}_{0}^{(j)} \cdot \cdot \cdot {\hat{x}}_{N - 1}^{(j)}] = {Fx}^{(j)},

其中F表示对音频加窗并分帧操作，

表示音频信号x^(j)的第k帧。

(2)对每帧样本进行MDCT(修正离散余弦变换)，获得其频谱系数(共576个MDCT系数)；

s_{k}^{(j)} = {T \hat{x}}_{k}^{(j)},

其中T表示MDCT操作，

表示信号x^(j)第k帧的频谱。

(3)对第k帧的频谱

进行对数运算，得到其对数形式

M_{k}^{(j)} = 10 \lg (\max ((s_{k}^{(j)} \cdot s_{k}^{(j)} \cdot 10^{10}, 1));

算出

中非零个数

c_{k}^{(j)} = {CM}_{k}^{(j)},

其中C表示计数操作；

(4)对于第k帧音频，其偏移量判决为

{offset}_{k} = \arg \min_{j} c_{k}^{(j)} .

(5)根据得到的每帧音频偏移量，对其进行差分，如果offset_k-offset_k-1≠0，第k帧音频就判决为发生过篡改。

图2是未量化频谱和已量化频谱的比较。以幅值形式，很难看出未量化的频谱(a)和已量化的频谱(b)之间的差异，因为幅值之间存在几个数量级的差异(10^-5～10^-1)。为了显示这两种频谱间的差异，我们对其进行对数运算，得到对数形式的频谱(c)和(d)。明显看出已量化频谱的对数形式(d)比未量化频谱的对数形式(c)具有更多的零值。

图3可以看出只有应用正确的帧偏移时，频谱才会出现量化效应。即使帧偏移只差一个样本，量化效应也不复出现。因此量化效应的出现可以用于检测音频的帧偏移。

图4把非零频谱系数的个数看作偏移量的函数，给出了一帧音频采用0～2000偏移量时非零频谱系数的个数。可以看出其最小值周期性出现，周期为576个样本(正好是每帧样本数1152乘以重叠率50％)。其最小值与其它值间都有足够区分度。

图5为30帧音频的情况，该图每列表示一帧音频的情况，每列中盒子图表示-575～-1和1～575共1150个不同帧偏移时非零频谱个数的分布，下方的孤立点为偏移量0(正确偏移量已预设为0)时非零频谱个数。可以看出对于所有30帧音频，应用正确偏移量得到的非零频谱个数与应用其它偏移量得到的都是明显可区分的。

图6可以看出音频发生裁剪后帧偏移会改变。若没有发生裁剪，检测得到的帧偏移如(c)所示，都是0。而若在第119帧开始删除了关键字“not”，结果从第119帧起的偏移量都变为384，因此我们可以断定所检测的音频在第119帧处发生过篡改。

图7给出了发生多处裁剪的检测结果。我们可以看出，即使发生多处裁剪，本方法依然能够准确的定位到发生篡改的音频帧。

图8是把本发明应用到检测音频插入操作的结果。由于插入一段音频显然会改变原始音频的帧偏移，故本发明能够成功检测出发生插入操作的位置。

图9是检测音频段替换操作的结果。由于替换段的帧偏移和原始音频的帧偏移不同，故如结果所示检测到各帧音频的帧偏移后，就能成功地定位音频替换的位置。

表1为对12800帧篡改语音的检测结果，包括3种不同码率下的剪裁和插入操作，f_p表示误检的帧数，f_n表示漏检的帧数。误检即把没有发生篡改的帧判定为篡改，而漏检是没有检测出实际发生篡改的帧。可以看出当MP3码率较低时，由于压缩量化效果更明显，故正确率也相对更高。3种码率情况下正确率都在94％以上，说明了本方法的有效性。

篡改类型	码率	f_p	f_n	正确率(％)
篡改类型	码率	f_p	f_n	正确率(％)	裁剪	32kbps	339	2	96.55

裁剪	64kbps	577	9	95.26
裁剪	64kbps	577	9	95.26	裁剪	96kbps	715	22	94.24
插入	32kbps	324	2	97.45	裁剪	96kbps	715	22	94.24
插入	32kbps	324	2	97.45	插入	64kbps	541	13	95.67
插入	96kbps	647	24	94.76	插入	64kbps	541	13	95.67

表1

表2为对12800帧篡改音乐的检测结果，包括3种不同码率下的剪裁和插入操作，相对语音有更好的检测结果，因为音乐的静音比语音的明显要少，有利于检测量化效应。

篡改类型	码率	f_p	f_n	正确率(％)
篡改类型	码率	f_p	f_n	正确率(％)	裁剪	32kbps	125	17	98.89
裁剪	64kbps	173	30	98.41	裁剪	32kbps	125	17	98.89
裁剪	64kbps	173	30	98.41	裁剪	96kbps	207	39	98.08
插入	32kbps	102	13	99.10	裁剪	96kbps	207	39	98.08
插入	32kbps	102	13	99.10	插入	64kbps	149	27	98.63
插入	96kbps	176	29	98.40	插入	64kbps	149	27	98.63

表2 。

Claims

1、一种MP3音频的篡改盲检测方法，其特征在于包括如下步骤：

(1)通过添加样本对音频进行压缩，并确定所引起的偏移量；

(2)根据偏移量的变化确定音频的篡改位置。

2、根据权利要求1所述的MP3音频的篡改盲检测方法，其特征在于所述步骤(1)进一步包括如下：

(12)对每帧样本进行修正离散余弦变换，获得其频谱系数；

(14)检测出该帧音频的偏移量为

{offset}_{k} = \arg \min_{j} c_{k}^{(j)} .

3、根据权利要求1或2所述的MP3音频的篡改盲检测方法，其特征在于所述步骤(1)进一步包括如下：

(101)对于给定的音频信号x，定义x^(j)(0<j<576)为x前添加j个“0”样本后的信号，称j为偏移量，即x⁽⁰⁾＝x，x^(j+1)＝[0，x^(j)]，0≤j<575，对于每个偏移量j＝0，...，575，对x^(j)进行分帧，每帧1152个样本，重叠率为50％，共得到N＝floor(L/576)-1帧音频，