CN101345054A

CN101345054A - 用于声频文件的数字水印制作及识别方法

Info

Publication number: CN101345054A
Application number: CNA2008101962573A
Authority: CN
Inventors: 陶智; 顾济华; 赵鹤鸣; 吴俊�
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2008-08-25
Filing date: 2008-08-25
Publication date: 2009-01-14
Anticipated expiration: 2028-08-25
Also published as: CN101345054B

Abstract

本发明公开了一种用于声频文件的数字水印制作方法及识别方法。在待处理的声频数字文件中添加水印作为版权标记信息，其特征在于：所述的水印采用经转换的声纹信息实现，包括：采集一段标识版权的语音信号并获得声纹水印图像；转换成一维二值序列组，每一矩阵单元的灰度值采用一个8位二进制数表示；待插入水印的声频文件分段，对每段声频分别进行频域变换，获得频谱文件；在每段频谱文件中嵌入一位一维二值序列组水印数据，所述嵌入方法是量化修改频谱文件系数的方法；进行反变换，获得嵌入水印的声频数据，与其余未处理的声频数据组合，即得到带有数字水印的声频数字文件。识别时进行反向分离操作。本发明有效解决了数字声频产品的版权认证问题。

Description

用于声频文件的数字水印制作及识别方法

技术领域

本发明涉及一种数字声频水印嵌入与检测方法，属于信息安全、多媒体信息处理领域。

背景技术

多媒体技术和网络技术的发展，显著地提高了信息传播的效率。但随之而来的副作用是，有恶意的个人和团体有可能在没有得到作品所有者许可的情况下，随意复制、篡改、销售有版权的内容。数字水印技术的提出是为了保护网络环境下的多媒体产品，被认为是解决版权问题的有效方式之一。它是利用人类视觉和听觉系统的冗余，在多媒体文件中嵌入与版权所有者相关的秘密信息，以证实信息的版权归属。从应用范围上可把水印分为图像、视频、声频水印。从目前来看，关于图像水印和视频水印研究很多，而对声频水印的研究却鲜有报道。

声频水印算法有LSB法、相位编码法、回声隐藏法、离散傅立叶变换法、离散余弦变换法和小波变换法等。尤其在变换域的声频信息的嵌入技术方面，由于能将信息嵌入到载体的敏感区域，大大提高了水印的鲁棒性，使得研究结果日趋实用。数字声频水印的最重要的特性是：1)不可感知性，即含水印的数字声频信号和原始声频信号在听觉上无差别；2)稳健性，经过信号处理操作后，如压缩、加噪、滤波、采样等，仍可靠地检测到水印。

目前的声频水印方法一般存在如下问题：

(1)水印的用途不明确，实用性不强。大多数现有声频水印系统都宣称具有版权保护、真伪媒体判断以及传播跟踪、拷贝控制等。然而在实际应用中，要达到上述所有的功能，实现的复杂度大、耗费时间长。

因而，现有的声频水印方法实用性不强、形式抽象，不适于数字声频作品的版权保护与版权认证。

发明内容

本发明目的是提供一种具备唯一性的用于声频文件的数字水印制作及识别方法，用于数字声频作品的版权保护与版权认证。

为达到上述目的，本发明采用的技术方案是：一种用于声频文件的数字水印制作方法，在待处理的声频数字文件中添加水印作为版权标记信息，所述的水印采用经转换的声纹信息实现，制作方法包括下列步骤：

(1)采集一段标识版权的语音信号，将采样的语音加窗、分帧，经离散傅立叶变换和灰度映射后，获得声纹水印图像；

(2)将声纹水印图像的二维矩阵转换成一维二值序列组，其中，每一矩阵单元的灰度值采用一个8位二进制数表示；

(3)从待处理的声频数字文件中截取待插入水印部分，根据步骤(2)中获得的一维二值序列组的位数将待插入水印部分分成等长度的对应数量的段，对每段声频分别进行频域变换，获得频谱文件；

(4)在每段频谱文件中嵌入一位步骤(2)中获得的一维二值序列组水印数据，所述嵌入方法是量化修改频谱文件系数的方法；

(5)对步骤(4)得到的频谱文件进行反变换，获得嵌入水印的声频数据，与其余未处理的声频数据组合，即得到带有数字水印的声频数字文件。

声纹又称“声音图像”。1945年美国贝尔电话研究所伯塔博士等发明了一种能够区别声音的仪器装置——“声音摄谱仪”(简称“声谱仪”)，声谱仪能将一个人的讲话声音记录并转换成电磁振动，然后在荧屏或纸带上显示出可供人们观察、比较、鉴别的坐标式静态声音频谱图像。这种静止图象即为“声纹”。声纹图中横轴表示发音时间，单位为秒(s)；纵轴表示声音频率，单位为千赫兹(KHz)。

研究结果表明每个人的声纹如同其指纹生理特征，在世界上也是独一无二的，而且每个人独具的声纹特殊性在其童年变声期末直至老年变声期这段漫长的人生岁月里保持稳定不变，故声纹在司法鉴定活动中又享有“第二指纹”的美誉。由于通过声纹比较检验可以进行人身同一认定，因此自从声谱仪问世后声纹技术于六十年代取得了突破性发展，七十年代它便在各国法庭科学以及军事侦察领域得到广泛应用。

上述技术方案中，通过采集用于标识版权的语音信号，转换获得声纹图像后嵌入到声纹数据文件中，来实现防伪。

上述技术方案中，所述步骤(1)中，通过麦克风和计算机声卡采集语音信号x(n)，采样频率f_s大于等于8000Hz，小于等于44100Hz，采样点数为L＝T×f_s，T为采样时间；

所述加窗处理采用汉明窗，汉明窗序列的长度N根据采样频率f_s确定，先获得N₁＝T×f_s，再取最接近于N₁的2的整数次方数字为N，例如，采样时间T为30ms，则N₁＝0.03×8000＝240个点，与240最接近的2的整数次方为256，故此时选取的汉明窗长度为N＝256；

所述离散傅立叶变换采用快速傅立叶变换算法实现，每一帧中取前N/2+1个数据。

上述技术方案中，所述频域变换为分段离散余弦变换，水印的嵌入通过对所选择的离散余弦变换直流系数进行量化完成。

为实现用于声频文件的数字水印的识别，采用的技术方案是，根据制作水印时的分段长度，将待识别的声频数据分段，采用与制作时相对应的方法对分段后的文件进行频域变换，获得含有水印信息的直流系数，提取出一维二值序列组；将提取的一维二值序列组每8位为一组，合成一个8位二进制数，表示一个像素点的灰度值，由此转换为二维象素灰度值矩阵，得到恢复的声纹水印图像；与制作水印时的声纹水印图像进行比较，实现数字水印的识别。

上述技术方案中，根据获得的声纹水印图像进行反变换，获得水印声频文件，进行播放比对，实现识别。

如上所述，声频水印图像具有唯一性，明确用于数字声频作品中的版权保护和版权认证，不但隐蔽性好，即使经过声频压缩、叠加噪声、低通滤波、重新采样或者重新量化等常见的信号处理攻击后，还能保留水印图像的特征，选用的方法能够使水印图像在原始声频中的嵌入和提取相对简单、快捷和实用。

本发明基于声纹的数字声频水印方法的总体构思是利用声纹图像具有唯一性的特征将其嵌入到数字声频作品中。将原始声频数据在时域分帧，并将每一帧做离散余弦变换(DCT)，通过量化修改每一帧中DCT直流系数实现将声纹作为水印嵌入，再将调整后的每帧DCT直流系数做反离散余弦变换(IDCT)转换至时域，即得嵌入声纹水印的声频数据。其具体实现方式举例如下：

一、产生声纹水印图像：

(2)、取定汉明窗的长度N，N的大小视f_s而定，N一般取10～30ms长，且N取2的整数次方，以f_s＝8000为例，若取30ms长，则N＝0.03×8000＝240个点，与240最接近的2的整数次方为256，故此时选取的汉明窗长度为N＝256；长度为N的汉明窗序列w(n)，其表达式为：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}), 0 \leq n \leq N - 1

从x(n)的起始点x(0)处开始，w(n)分别与x(n)的第0～N-1个采样点对应相乘，得到第一帧加窗的语音信号序列x₁(n)，x₁(n)＝x(n)×w(n)，(0≤n≤N-1)，然后将汉明窗序列w(n)起始点向n＞0的方向移动

点，再与x(n)的第

\frac{N}{2} ~ \frac{N}{2} + N - 1

个采样点对应相乘，得到第二帧加窗的语音信号x₂(n)，

x_{2} (n) = x (n) \times w (n - \frac{N}{2}), (\frac{N}{2} \leq n \leq \frac{N}{2} + N - 1),

依次类推可以得到x₃(n)。。。x_p(n)，当x(n)中余下参加上述运算的点数小于w(n)的长度N时停止，共计得到p帧加窗语音信号，每帧加窗的语音信号长度均为N点；

(3)、对得到的每一个x_m(n)，(1≤m≤p)做离散傅立叶变换(DFT)，其结果可以表示为：

X_{m} (k) = Σ_{n = 0}^{N - 1} x_{m} (n) \times e^{- j \frac{2 π \times n \times k}{N}}, k = 0, ΛN - 1

即每一个X_m(k)包含了N个数据，为提高计算效率，在计算机上是通过快速傅立叶变换(FFT)的算法来实现的；考虑到DFT的对称性，每一个X_m(k)中只保存

k = 0, Λ \frac{N}{2}

时的部分，即保留前

个数据，再求出X_m(k)的功率谱P_m(k)＝|X_m(k)|²；|X_m(k)|为X_m(k)的幅度值；

(4)对得到的功率谱实施灰度映射，为增强声纹显示的动态范围，把P_m(k)转换为P′_m(k)，

P_{m}^{'} (k) = 1 - {(\frac{P_{m} (k)}{512})}^{0.2}

下面是灰度映射的数学表示式：

C_{m} (k) = \frac{B_{m} (k) - Base}{[Max (B_{m} (k))] - Base},

其中

B_{m} (k) = \{\begin{matrix} P_{m}^{'} (k) & | P_{m}^{'} (k) | > Base \\ Base & | P_{m}^{'} (k) | \leq Base \end{matrix},

Base为一经验值，Max(B_m(k))是指B_m(k)，(1≤m≤p，0≤k≤128)的最大值，在二维的平面坐标上，将m作为横坐标，k作为纵坐标，把C_m(k)的值作为灰度作图，则就能够得到语音信号x(n)的声纹图像V。

二、嵌入声纹水印图像：

(1)、将声纹图像的二维像素矩阵转换为一维二值序列组W，声纹图像可以表示为：

V = {v (i, j), 0 \leq i \leq \frac{N}{2}, 1 \leq j \leq p},

其中v(i，j)表示图像的第i行、第j列的像素的灰度值，任意一个v(i，j)都在0～255范围内，即v(i，j)∈{0，1，Λ255}，将每一个v(i，j)用8位二进制数来表示，得到待嵌入的二值序列W的长度为

(2)、声频信号的分段处理，原始声频数据为A，需要嵌入声纹水印图像的声频数据表示为：Ae＝{ae(i),0≤i≤Length}，将Ae划分为段，每段声频数据的长度为len，为保证嵌入水印的鲁棒性，每段声频数据中仅嵌入一位二进制数，要使得所有的W值完全嵌入到声频数据中，则必须满足关系式

\frac{Length}{len} = (\frac{N}{2} + 1) \times p \times 8,

每段声频数据表示为：Ae_l(i)，(

0 < l \leq \frac{Length}{len},

0≤i≤len-1)，len长度一般取大于8的偶数；

(3)、声频信号的分段离散余弦变换(DCT)及DCT系数的选取，对上述Ae_l(i)做DCT变换，得到

D_l(k)＝DCT(Ae_l(i))(0≤k≤len-1)，(0≤i≤len-1)

每段声频数据Ae_l(i)包含len个数据点，其DCT结果D_l(k)包含len个DCT系数，选取每段声频数据DCT结果D_l(k)的直流系数即D_l(0)用于水印序列W的嵌入；

(4)、二值水印序列的嵌入，水印的嵌入是通过对所选择的DCT直流系数D_l(0)进行特殊量化完成的，量化后的直流系数表示为D′_l(0)，用w(i)，

(0 < i \leq (\frac{N}{2} + 1) \times p \times 8)

表示待嵌入的二值序列，定义量化步长Δ，Δ根据经验确定，量化的嵌入过程如下：

对待量化的系数D_l(0)做取模求余运算，

md_l(0)＝D_l(0)modΔ

re_l(0)＝D_l(0)-md_l(0)×Δ

上述md_l(0)表示D_l(0)对Δ的模值，re_l(0)表示D_l(0)除以Δ的余数。

当D_l(0)≥0，且需要嵌入的二值序列w(i)为1时：

D_{l}^{'} (0) = \{\begin{matrix} 2 \times q \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q \\ 2 \times q \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q + 1, | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ 2 \times q \times Δ + 2 \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q + 1, | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

当D_l(0)≥0，且需要嵌入的二值序列w(i)为0时

D_{l}^{'} (0) = \{\begin{matrix} (2 \times q + 1) \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q + 1 \\ 2 \times q \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q, | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ (2 \times q + 1) \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q, | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

当D_l(0)＜0，且需要嵌入的二值序列w(i)为1时：

D_{l}^{'} (0) = \{\begin{matrix} - (2 \times q + 1) \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - (2 \times q + 1) \\ - 2 \times q \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = - 2 \times q, | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ - (2 \times q + 1) \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - 2 \times q, | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

当D_l(0)＜0，且需要嵌入的二值序列w(i)为0时

D_{l}^{'} (0) = \{\begin{matrix} - 2 \times q \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - 2 \times q \\ - 2 \times q \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - (2 \times q + 1), | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ - (2 \times q + 1) \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - (2 \times q + 1), | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

上述表达式中所有的q均为非负整数；

(5)反离散余弦变换(IDCT)，声频数据段的重新组合，用D′_l(0)代替原来的D_l(0)，得到新的DCT系数D′_l(k)，表示为：

D^{'} (k) = \{\begin{matrix} D_{l}^{'} (0) & k = 0 \\ D_{l} (k) & 0 < k < len - 1 \end{matrix}

对D′_l(k)做IDCT，得到嵌入了水印信息的声频数据Ae′，表示为：

Ae′_l(i)＝IDCT(D′_l(k))，其中0≤i≤len-1，0≤k≤len-1

用Ae′代替Ae，再结合未嵌入水印的原始声频数据部分，最终得到含有水印信号的声频数据。

(1)、将含有声纹水印图像的声频数据取出并且对其进行分段，每段长度为len，共分

\frac{Length}{len} = (\frac{N}{2} + 1) \times p \times 8

段；表示为：

Ae′_l(i)，(

0 < l \leq \frac{Length}{len},

0≤i≤len-1)，

对Ae′_l(i)做离散余弦变换(DCT)，找到含有水印信息的DCT直流系数D″_l(0)；

(2)、根据量化规则提取水印信息，计算含有水印信息的DCT系数对量化步长的模值md′_l(0)，md′_l(0)＝D″_l(0)modΔ；

当md′_l(0)≥0时，且md′_l(0)为偶数时，D″_l(0)包含的水印信息为1；

当md′_l(0)≥0时，且md′_l(0)为奇数时，D″_l(0)包含的水印信息为0；

当md′_l(0)＜0时，且md′_l(0)为偶数时，D″_l(0)包含的水印信息为0；

当md′_l(0)＜0时，且md′_l(0)为奇数时，D″_l(0)包含的水印信息为1；

(3)声纹水印图像的恢复，将提取的二值水印序列每8位分一组，合成一个8位二进制数，表示一个像素点的灰度值，然后将一维的像素灰度值组转换为二维象素灰度值矩阵，恢复出嵌入的声纹水印图像。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明基于声纹的数字声频水印方法，将版权者的声纹图像作为水印嵌入到数字声频产品中，能够有效地解决数字声频产品的版权认证问题；所采用的技术方法基于声频数据的分段离散余弦变换(DCT)，通过量化修改原始声频数据DCT域中的直流分量实现将声纹图像水印序列嵌入到声频数据中，保证了声纹水印的鲁棒性，量化的思想还可以保证较快地完成声纹水印的嵌入和提取工作，且提取声纹水印不需要原始声频数据，即使经过声频压缩、叠加噪声、低通滤波、重新采样或者重新量化等常见的信号处理攻击后，还能保留声纹水印图像的特征，可以作为法律认可的证据使用。

将声纹图像作为声频水印嵌入数字声频作品与现有数字水印技术相比有以下几个特点：

(1)不可伪造性：声纹是可靠、稳定的生物特征，可以唯一地确定一个人，不容易被他人盗用，具有不可伪造性；

(2)可鉴别身份：普通的声频水印大都不是直接见面，所以身份不能确定，而语音签名的接受者可以通过一定的技术听到签名者的声音，可以鉴别其身份；

(3)不可抵赖性：因为本技术采用如同指纹的人的声谱图作为鉴定，任何两个人都不可能具有排列关系和大小完全相同的声谱图；

(4)不可更改性：声纹的产生需要一定的理论水平和技术，一旦被修改是很难得到和原来一样的声纹图像。

附图说明

图1是本发明实施例一声纹水印的产生、嵌入、提取方法的流程示意图；

图2是版权者的声纹图像；

图3是原始载体声频的时域波形图；

图4是嵌入水印后的声频时域波形图；

图5是低通滤波后提取的声纹水印图像；

图6是叠加噪声后提取的声纹水印图像；

图7是重新量化后提取的声纹水印图像；

图8是重新采样后提取的声纹水印图像。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：

参见附图1现将图1中框图文字按流程加以解释：

一、首先是声纹图像的产生部分：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}), 0 \leq n \leq N - 1

从x(n)的起始点x(0)处开始，分别与x(n)的第0～N-1个采样点对应相乘，得到第一帧加窗的语音信号序列x₁(n)，x₁(n)＝x(n)×w(n)，(0≤n≤N-1)，然后将汉明窗序列w(n)起始点向n＞0的方向移动

点，再与x(n)的第

\frac{N}{2} ~ \frac{N}{2} + N - 1

个采样点对应相乘，得到第二帧加窗的语音信号x₂(n)，

x_{2} (n) = x (n) \times w (n - \frac{N}{2}), (\frac{N}{2} \leq n \leq \frac{N}{2} + N - 1)

，依次类推可以得到x₃(n)。。。x_p(n)，当x(n)中余下参加上述运算的点数小于汉明窗序列w(n)的长度N时停止，共计得到p帧加窗语音信号，每帧加窗语音信号的长度均为N点；

(3)、然后就是快速傅立叶变换(FFT)部分，对得到的每一个x_m(n)，(1≤m≤p)做离散傅立叶变换(DFT)，其结果可以表示为：

X_{m} (k) = Σ_{n = 0}^{N - 1} x_{m} (n) \times e^{- j \frac{2 π \times n \times k}{N}}, k = 0, ΛN - 1

即每一个X_m(k)包含了N个数据，为提高计算效率，在计算机上是通过快速傅立叶变换(FFT)的算法来实现的；考虑到DFT的对称性，每一个X_m(k)中只取

k = 0, Λ \frac{N}{2},

即取前

(4)最后是灰度映射部分，对得到的功率谱实施灰度映射，为增强声纹显示的动态范围，把P_m(k)转换为P′_m(k)，

P_{m}^{'} (k) = 1 - {(\frac{P_{m} (k)}{512})}^{0.2}

下面是灰度映射的数学表示式：

C_{m} (k) = \frac{B_{m} (k) - Base}{[Max (B_{m} (k))] - Base},

其中

B_{m} (k) = \{\begin{matrix} P_{m}^{'} (k) & | P_{m}^{'} (k) | > Base \\ Base & | P_{m}^{'} (k) | \leq Base \end{matrix},

Base为一经验值，Max(B_m(k))是指B_m(k)，(1≤m≤p，

0 \leq k \leq \frac{N}{2}

)的最大值，在二维的平面坐标上，将m作为横坐标，k作为纵坐标，把C_m(k)的值作为灰度作图，则就能够得到语音信号x(n)的声纹图像V。

二、声纹水印图像的嵌入部分：

(1)、二值水印序列的生成，将声纹图像的二维像素矩阵转换为一维二值序列组W，声纹图像可以表示为：

V = {v (i, j), 0 \leq i \leq \frac{N}{2}, 1 \leq j \leq p},

(2)、读取原始声频数据，选择一部分声频数据作为嵌入的载体，对这部分声频数据进行音分段处理，原始声频数据可以表示为A，需要嵌入声纹水印图像的声频数据表示为：Ae＝{ae(i)，0≤i≤Length}，每段声频数据的长度为len，将Ae划分为

段，且

\frac{Length}{len} = (\frac{N}{2} + 1) \times p \times 8,

这样当一段声频数据嵌入一位二进制数时，所有的W值就能够完全嵌入到声频数据中，每段声频数据表示为：Ae_l(i)，(

0 < l \leq \frac{Length}{len},

0≤i≤len-1)

(3)、声频信号的分段离散余弦变换(DCT)及DCT系数的选取，对Ae_l(i)，(

0 < l \leq \frac{Length}{len},

0≤i≤len-1)做DCT变换，

得到D_l(k)＝DCT(Ae_l(i))(0≤k≤len-1)，(0≤i≤len-1)

每一段声频数据Ae_l(i)包含len个数据点，每一个D_l(k)包含len个DCT系数，选取D_l(k)的直流系数D_l(0)作为水印序列W的嵌入；

(4)、二值水印序列通过量化的方式嵌入，水印的嵌入是通过对所选择的DCT直流系数D_l(0)进行特殊量化完成的，量化后的直流系数表示为D′_l(0)，w(i)，

(0 < i \leq (\frac{N}{2} + 1) \times p \times 8)

表示待嵌入的二值序列，定义量化步长Δ，Δ为一经验值，量化的嵌入过程如下：对待量化的系数D_l(0)做取模求余运算，

md_l(0)＝D_l(0)modΔ，md_l(0)表示D_l(0)对Δ的模值

re_l(0)＝D_l(0)-md_l(0)×Δ，re_l(0)表示D_l(0)除以Δ的余数

当D_l(0)≥0，且需要嵌入的二值序列w(i)为1时：

D_{l}^{'} (0) = \{\begin{matrix} 2 \times q \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q \\ 2 \times q \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q + 1, | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ 2 \times q \times Δ + 2 \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q + 1, | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

当D_l(0)≥0，且需要嵌入的二值序列w(i)为0时

D_{l}^{'} (0) = \{\begin{matrix} (2 \times q + 1) \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q + 1 \\ 2 \times q \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q, | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ (2 \times q + 1) \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = 2 \times q, | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

当D_l(0)＜0，且需要嵌入的二值序列w(i)为1时：

D_{l}^{'} (0) = \{\begin{matrix} - (2 \times q + 1) \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - (2 \times q + 1) \\ - 2 \times q \times Δ + \frac{1}{2} \times Δ & {md}_{l} (0) = - 2 \times q, | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ - (2 \times q + 1) \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - 2 \times q, | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

当D_l(0)＜0，且需要嵌入的二值序列w(i)为0时

D_{l}^{'} (0) = \{\begin{matrix} - 2 \times q \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - 2 \times q \\ - 2 \times q \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - (2 \times q + 1), | {re}_{l} (0) | \leq \frac{1}{2} \times Δ \\ - (2 \times q + 1) \times Δ - \frac{1}{2} \times Δ & {md}_{l} (0) = - (2 \times q + 1), | {re}_{l} (0) | > \frac{1}{2} \times Δ \end{matrix}

上述表达式中所有的q均为非负整数；

D^{'} (k) = \{\begin{matrix} D_{l}^{'} (0) & k = 0 \\ D_{l} (k) & 0 < k < len - 1 \end{matrix}

Ae′_l(i)＝IDCT(D′_l(k))，其中0≤i≤len-1，0≤k≤len-1

用Ae′代替Ae，再结合未嵌入水印的原始声频数据部分，最终得到含有水印信号的声频数据；

三、声纹水印图像的提取部分：

(1)、将待检测的含有声纹水印图像的声频数据分段，每段长度为len，共分

\frac{Length}{len} = (\frac{N}{2} + 1) \times p \times 8

段；表示为：

Ae′_l(i)，(

0 < l \leq \frac{Length}{len},

0≤i≤len-1)，

(2)对Ae′_l(i)做离散余弦变换(DCT)，找到含有水印信息的DCT直流系数D″_l(0)；

(3)、使用量化的规则提取水印信息，计算md′_l(0)＝D″_l(0)modΔ，

(4)、将提取的二值水印序列每8位分一组，合成一个8位二进制数，表示一个像素点的灰度值，然后将一维的像素灰度值组转换为二维象素灰度值矩阵，最终恢复出了嵌入的声纹水印图像；

举一实例：

采集一段版权者的语音，按照上述过程产生声纹图像，图2为版权者的声纹图像，选取一段采样率为44.1KHz、16bit的声频信号作为声纹水印嵌入的载体语音，图3是原始载体声频的时域波形图，图4是嵌入水印后的声频时域波形图，可以看出本方法对原始声频数据的修改在时域上没有明显差别。

为检测嵌入声纹水印的鲁棒性，对嵌入声纹水印的声频信号做如下的处理：(1)低通滤波：用截止频率为5KHz的9阶切比雪夫低通滤波器对嵌入水印的声频信号低通滤波；(2)叠加噪声：在嵌入水印的声频信号上叠加均值为0，方差为0.01的高斯白噪声；(3)重新量化：先将嵌入水印的声频信号从16比特量化为8比特，再量化为16比特；(4)重新采样：先将嵌入水印的声频数据按1∶2降采样，然后按1∶2升采样。

图5是低通滤波后提取的声纹水印图像；

图6是叠加噪声后提取的声纹水印图像；

图7是重新量化后提取的声纹水印图像；

图8是重新采样后提取的声纹水印图像；

可见，本方法在经过常见信号处理攻击后，仍然能够提取清晰的水印图像，证明版权的归属。

Claims

1.一种用于声频文件的数字水印制作方法，在待处理的声频数字文件中添加水印作为版权标记信息，其特征在于：所述的水印采用经转换的声纹信息实现，制作方法包括下列步骤：

2.根据权利要求1所述的数字水印的制作方法，其特征在于：所述步骤(1)中，通过麦克风和计算机声卡采集语音信号x(n)，采样频率f_s大于等于8000Hz，小于等于44100Hz，采样点数为L＝T×f_s，T为采样时间；

所述加窗处理采用汉明窗，汉明窗序列的长度N根据采样频率f_s确定，先获得N₁＝T×f_s，再取最接近于N₁的2的整数次方数字为N；

3.根据权利要求1所述的数字水印的制作方法，其特征在于：所述频域变换为分段离散余弦变换，水印的嵌入通过对所选择的离散余弦变换直流系数进行量化完成。

4.一种用于声频文件的数字水印识别方法，其特征在于：根据制作水印时的分段长度，将待识别的声频数据分段，采用与制作时相对应的方法对分段后的文件进行频域变换，获得含有水印信息的直流系数，提取出一维二值序列组；将提取的一维二值序列组每8位为一组，合成一个8位二进制数，表示一个像素点的灰度值，由此转换为二维象素灰度值矩阵，得到恢复的声纹水印图像；与制作水印时的声纹水印图像进行比较，实现数字水印的识别。

5.根据权利要求2所述的数字水印识别方法，其特征在于：根据获得的声纹水印图像进行反变换，获得水印声频文件，进行播放比对，实现识别。