CN103745725A

CN103745725A - 一种基于常数q变换的音频水印嵌入方法

Info

Publication number: CN103745725A
Application number: CN201310726182.6A
Authority: CN
Inventors: 严勤; 胡棚; 邓舒宇; 潘洋绪; 董峦; 刘猛; 印晶晶; 陶秋雨
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2014-04-23
Anticipated expiration: 2033-12-25
Also published as: CN103745725B

Abstract

本发明公开了一种基于常数Q变换的音频水印嵌入方法，本发明的核心是引入常数Q变换来将音频信号从时域变换到频域，得到音频在每个频程的每一帧的能量，通过改变特定频程前后帧的能量比值来实现水印的嵌入和提取。本发明与现有技术相比有较强的鲁棒性，对音频信号的重量化、重采样、噪声、低通、高通、MP3和AAC攻击都有很好的鲁棒性，为音频的版权保护提供了一种有效的途径。

Description

一种基于常数Q变换的音频水印嵌入方法

技术领域

本发明涉及一种基于常数Q变换的音频水印嵌入方法，属于信息隐藏技术领域。

背景技术

随着因特网和多媒体技术的飞速发展和广泛应用，数字多媒体信息（图像、视频、音频等）的存储、处理和传输变得越来越方便快捷，但由于数字媒体易于无损拷贝和分发的特点，其暴露出的问题也越来越明显：作品侵权更加容易，篡改更加方便。在这种背景下，能够有效地实行版权保护的数字水印（digital watermarking）技术应运而生。从技术上将，数字水印就是将水印数据（出版者的名字、签名、logo、序列号等等）隐藏到真实的媒介中，而不影响这种媒介的正常使用。

根据应用的范围，数字水印通常分为三类：音频水印、图像水印和视频水印。由于人类的听力感官比其他的感官更加敏感，因此，在确保不被感知的提前下把额外的信息嵌入到音频中的难度明显比嵌入到图像和视频等媒介中高。

一种有效且实用的音频水印方案必须满足三个重要的条件：不可感知性、鲁棒性和安全性。不可感知性指的是嵌入的水印数据必须满足基本能不被人感觉到。鲁棒性指的是嵌入水印的信号在不受攻击或受攻击后准确提取水印数据的能力。水印的不可感知性和鲁棒性是始终相互制约的，增强不可感知性，就会削弱鲁棒性，过多地强调鲁棒性，就无法保证水印的不可感知性。但对于有效的水印算法来说，不可感知性和鲁棒性必须同时满足。安全性指的是水印方案需要使用密钥，当一个人不被授权不知道密钥时，他不能准确的提取水印。

一般来讲，大多数现有音频水印技术，是通过对音频的时域或变换域的信息作一定的修改来嵌入水印。在时域嵌入水印实现简单，而且水印的嵌入量较大，但此时音频信号的鲁棒性较低，安全性很差；而在变换域中水印的嵌入和提取比在时域上更加复杂，但这种情况下的水印算法鲁棒性较强，安全性较高。

发明内容

本发明所要解决的技术问题是提供一种基于常数Q变换的音频水印嵌入算法，将作为媒介的音频信号从时域转换到频域，得到常数Q变换系数，然后通过改变特定频程前后帧的能量来嵌入和提取水印，这种算法能够在保证不可感知性的同时得到很高的鲁棒性。

本发明为解决上述技术问题采用以下技术方案：

一种基于常数Q变换的音频水印嵌入算法，具体步骤如下：

步骤1，选取音频信号，对其进行常数Q变换，得到每个频程的常数Q变换系数以及频谱图，随机生成N位由0和1组成的数字串作为水印，N为自然数；

步骤2，根据频谱图分析音频信号在每个频程的能量分布情况，选取可用于嵌入水印的频程；

步骤3，分析步骤2选出的频程中每一帧的常数Q变换系数大小，并计算每一帧的能量，确定用于嵌入水印的频程，并得到在该频程中非零帧之间索引值的最小差值diffIdx；确定用于嵌入水印的频程后，计算这个频程中每一帧的能量，当某一帧的能量a与其后面第X个非零帧的能量b关系满足b>a>=0.9b或a>b>=0.9a时，将这一帧添加到可用于嵌入水印的候选帧中；重复对每一帧进行判定，得到一列可用于嵌入水印的候选帧，并记录下这些候选帧对应的索引值；X为自然数且大于等于5；

步骤4，对候选帧进行再次判定得到用于嵌入水印的帧，判定方法为：当后一帧的索引值Idx2与前一帧的索引值Idx1的差值小于diffIdx的Y倍时，将后一帧从候选帧中剔除，得到新的候选帧序列；然后重复采用这个判定方法，最后得到用于嵌入水印的帧；从这些帧中挑选出前N帧作为可用帧，这N帧在该频程中的索引值作为密钥，N为自然数；Y为自然数且大于等于11；

步骤5，根据第n位水印的值来改变可用帧中第n帧和其后第X个非零帧的能量比值来嵌入水印，具体嵌入规则为：当第n位水印位为1时，将可用帧中第n帧的能量提升到原来的m倍，而将其后面的第X个非零帧的能量降低到原来的1/m倍；当水印位为0时，将将可用帧中第n帧的能量降低到原来的1/m倍，而将其后面的第X个非零帧的能量提升到原来的m倍；m为嵌入强度，具体的m的确定方法由实验确定；

步骤6，确定m后，根据步骤5提供的方法嵌入水印，根据帧的能量的改变来相应的改变该帧的常数Q变换系数，然后再进行常数Q变换重构，得到加水印的音频信号；

步骤7，对得到的加水印后的音频信号进行常数Q变换，得到每个频程的常数Q变换系数；根据嵌入过程中生成的密钥找到嵌入水印的帧的索引值，并计算出这些帧和其后第X个非零帧的能量；若帧中的第n帧的能量小于其后面第X个非零帧的能量，则第n位水印为0；若帧中第n帧的能量大于其后面第X个非零帧的能量，则第n位水印为1；对所有帧进行逐一判断，最后得到所有的水印。

步骤5中所述具体m的确定方法为：采用不同的m值嵌入水印后得到不同m下的加水印后音频信号，然后利用音频质量的感知评价来评估加水印后的音频的感知程度，选取水印信息不易被感知时的m值为确定嵌入强度。所述音频质量的感知评价是通过返回一个评价参数来进行判定的，评价参数的大小反映出加水印的音频里面的水印信息的感知程度；当评价参数为0时，水印信息不可感知。

作为本发明的一种优选方案，步骤3和步骤5中所述X的最优值为5。

作为本发明的一种优选方案，步骤4中所述Y的最优值为11。

其中：常数Q变换为Constant Q transform，简称CQT；音频质量的感知评价为PerceptualEvaluation of Audio Quality，简称PEAQ；评价参数为Object Difference Grade，简称ODG。

本发明采用以上技术方案与现有技术相比，抛弃了现有的音频水印方法，提出了一种新颖的基于常数Q变换的音频水印嵌入和提取方案。通过引入常数Q变换来将音频信号划分到不同的频程，并得到在每个频程的每一帧的能量，通过改变特定频程前后帧的的能量比值来实现水印的嵌入和提取。本发明对音频信号的重量化、重采样、噪声、低通、高通、MP3和AAC攻击都有很好的鲁棒性，为音频的版权保护提供了一种有效的途径。

附图说明

图1是本发明的水印嵌入和提取过程。

图2是单首曲子在不同嵌入强度m下的ODG值。

图3是四种类型的歌曲在不同的嵌入强度m下的受各种攻击后的BER平均值。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

从流行歌曲、古典歌曲、民间歌曲和乡村歌曲这四种类型的歌曲中选择40首作为测试对象，其中每个类型包括十首，每首歌曲的时长都是10s。并把生成的160位由0和1随机组成的数字串作为水印。如图1所示，具体实施过程如下：

1、对选取的音频信号进行CQT变换，得到每个频程的CQT系数以及频谱图；

2、根据频谱图分析音频信号在每个频程的能量分布情况，选取可用于嵌入水印的频程；

3、分析步骤2选出的频程中每一帧的CQT系数大小，并计算每一帧的能量，确定用于嵌入水印的频程，并得到在该频程中非零帧之间索引值的最小差值diffIdx；确定用于嵌入水印的频程后，计算这个频程中每一帧的能量，当某一帧的能量a与其后面第5个非零帧的能量b关系满足b>a>=0.9b或a>b>=0.9a时，将这一帧添加到可用于嵌入水印的候选帧中；重复对每一帧进行判定，得到一列可用于嵌入水印的候选帧，并记录下这些候选帧对应的索引值；

4、对候选帧进行再次判定得到用于嵌入水印的帧，判定方法为：当后一帧的索引值Idx2与前一帧的索引值Idx1的差值小于diffIdx的11倍时，将后一帧从候选帧中剔除，得到新的候选帧序列；然后重复采用这个判定方法，最后得到用于嵌入水印的帧；从这些帧中挑选出前160帧作为可用帧，这160帧在该频程中的索引值作为密钥；

5、根据第n位水印的值来改变可用帧中第n帧和其后第五个非零帧的能量比值来嵌入水印，具体嵌入规则为：当第n位水印位为1时，将可用帧中第n帧的能量提升到原来的m倍，

而将其后面的第五个非零帧的能量降低到原来的1/m倍；当水印位为0时，将将可用帧中第n帧的能量降低到原来的1/m倍，而将其后面的第五个非零帧的能量提升到原来的m倍；m为嵌入强度，具体的m的确定方法由实验确定；

6、确定m后，根据步骤5提供的方法嵌入水印，根据帧的能量的改变来相应的改变该帧的CQT系数，然后再进行CQT重构，得到加水印的音频信号；

7、对得到的加水印后的音频信号进行CQT变换，得到每个频程的CQT系数；根据嵌入过程中生成的密钥找到嵌入水印的帧的索引值，并计算出这些帧和其后第五个非零帧的能量；

若帧中的第n帧的能量小于其后面第五个非零帧的能量，则第n位水印为0；若帧中第n帧的能量大于其后面第五个非零帧的能量，则第n位水印为1；对所有帧进行逐一判断，最后得到所有的水印。

具体m的确定方法为：采用不同的m值嵌入水印后得到不同m下的加水印后音频信号，

然后利用PEAQ来评估加水印后的音频的感知程度，选取水印信息不易被感知时的m值为确定嵌入强度。

PEAQ是通过返回一个评价参数ODG来进行判定的，ODG值的大小反映出加水印的音频里面的水印信息的感知程度；如下表所示，当评价参数为0时，水印信息不可感知。

损伤描述	ODG
		不可感知	0.0
可感知但不厌烦	-1.0
		轻微厌烦	-2.0
厌烦	-3.0
		非常厌烦	-4.0

ODG与感知性的关系对应表

为了测试本发明设计的水印方案抵抗攻击的鲁棒性，对加水印的音频信号进行重量化、噪声、幅度、重采样、高通滤波、低通滤波、MP3压缩和AAC压缩等攻击操作，然后比较在不同的嵌入强度m下，音频信号的感知程度和提取水印的误码率大小。实验结果如下表：

如图2所示，当m=6时，ODG的值在-0.3左右，此时水印不易被感知。

当m=6时，对40首曲子分别进行重量化、噪声、幅度、MP3压缩、AAC压缩、重采样、高通滤波、低通滤波攻击，实验结果如下表：

1）重量化：将水印后的音频信号的量化位数从16位变成8位；

2）噪声：将随机噪声加入到水印后的音频中，且加水印后音频和噪声的信噪比为20dB；

3）幅度：将水印后的音频信号的幅度提升1.8倍；

4）MP3压缩：对水印后的音频信号进行MPEG-1Layer III压缩；

5）AAC压缩：对水印后的音频信号进行MPEG-4高级音频编码压缩；

6）重量化：将水印信号的采样频率从44.1KHz降到16KHz，然后再从16KHz升到44.1KHz；

7）高通滤波：对水印后音频信号采用截止频率为100Hz的高通滤波器进行滤波；

8）低通滤波：对加水印后音频信号采用截止频率为8KHz的低通滤波器进行滤波。

如图3所示，m=6时，加水印后的音频不仅感知性良好，且能抵抗各种攻击，在以上各种攻击下的BER都很低，鲁棒性效果好。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1. 一种基于常数Q变换的音频水印嵌入方法，其特征在于，引入常数Q变换将音频信号从时域变换到频域，得到音频在每个频程的每一帧的能量，通过改变特定频程前后帧的能量的比值来实现水印的嵌入和提取；具体步骤如下：

步骤5，根据第n位水印的值来改变可用帧中第n帧和其后第X个非零帧的能量比值来嵌入水印，具体嵌入规则为：当第n位水印位为1时，将可用帧中第n帧的能量提升到原来的m倍，而将其后面的第X个非零帧的能量降低到原来的1/m倍；当水印位为0时，将可用帧中第n帧的能量降低到原来的1/m倍，而将其后面的第X个非零帧的能量提升到原来的m倍；m为嵌入强度，具体的m的确定方法由实验确定；n=1,2，…N；

步骤6，确定嵌入强度m后，根据步骤5提供的方法嵌入水印，根据帧的能量的改变来相应的改变该帧的常数Q变换系数，然后再进行常数Q变换重构，得到加水印的音频信号；

2. 根据权利要求1所述的一种基于常数Q变换的音频水印嵌入方法，其特征在于：步骤5中所述具体嵌入强度m的确定方法为：采用不同的m值嵌入水印后得到不同m值所对应的加水印后音频信号，然后利用音频质量的感知评价来评估加水印后的音频的感知程度，选取水印信息不易被感知时的m值为确定嵌入强度。

3. 根据权利要求2所述的一种基于常数Q变换的音频水印嵌入方法，其特征在于：所述音频质量的感知评价是通过返回一个评价参数来进行判定的，评价参数的大小反映出加水印的音频里面的水印信息的感知程度；当评价参数为0时，水印信息不可感知。

4. 根据权利要求1所述的一种基于常数Q变换的音频水印嵌入方法，其特征在于：步骤3和步骤5中所述X的最优值为5。

5. 根据权利要求1所述的一种基于常数Q变换的音频水印嵌入方法，其特征在于：步骤4中所述Y的最优值为11。