CN106531176B

CN106531176B - 音频信号篡改检测与恢复的数字水印算法

Info

Publication number: CN106531176B
Application number: CN201610955253.3A
Authority: CN
Inventors: 路文焕; 魏建国; 李建; 方强; 侯庆志
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2019-09-24
Anticipated expiration: 2036-10-27
Also published as: CN106531176A

Abstract

本发明涉及一种用数字音频水印进行语音信号篡改检测与恢复的方法，该方法将原始信号的压缩版本作为水印信号，因此该水印信号不包含其他的冗余信息，在恢复时也不需要其他与原始信号相关的信息，因而该水印具有自恢复性。根据数字水因信号的冗余性，水印信息被嵌入到信号最低有效位中(least significant bits,LSBs)。水印信号可以准确定位信号破碎区域并对其进行恢复。水印信号在能保持较高的信噪比的同时还能够有令人满意的恢复效果。

Description

音频信号篡改检测与恢复的数字水印算法

技术领域

本发明专利涉及数字水印技术领域，尤其是易碎水印技术应用于保护音频信号。

背景技术

数字水印技术的原理为利用图像及声音等媒体信号的冗余性，在原始信号中嵌入有关的信息来保护原始信息，根据使用范围和意义的不同，这种嵌入的信息可以是关于数字信号的版权信息，也可以是由原信号压缩得到的码率比较小的水印。嵌入的信号能很好的隐藏在原始信号下不易被察觉，不会对原始水印造成影响。这种技术能够在一定程度上保护数字信号的版权，也能利用嵌入水印的特性尽可能的对受到破坏的信息进行恢复，由此达到抵挡恶意攻击的目的。

水印技术在图像领域有一定程度的发展，但是同类算法在音频领域内并不多见。传统的水印认证技术着重于检测信号是否遭受过破坏，测试信号的完整性，不能进一步准确高效的处理音频信号并将其修复。图像和音频领域中数字水印技术发展不平衡的情况，主要由于听觉和视觉方面的差异性，人类听觉系统比人类视觉系统的敏感性要高许多，这就需要音频的恢复算法更加强效，恢复效果更好，才能够得到可懂的恢复信号。另外，由于听觉系统的敏感特性，人耳能够更容易的感知到新加入的水印信息，使得能在音频信号中嵌入的水印能量不能过大。也就是说，一方面需要嵌入水印的能量更小，在这种情况下水印能够包含关于原始音频信号的内容要较少，而另一方面，为应对更敏感的听觉系统，要使用有限的水印信号的信息达到更好的恢复效果。

发明内容

本发明的目的是研究出一种特殊的易碎性数字水印，使嵌入水印的音频信号在受到一定程度的攻击后，可以进行某种程度上的自恢复。该数字水印不仅能够对音频受损部分进行检测，还能够通过水印进行信息恢复。水印信号在能保持较高的信噪比的同时还能够有令人满意的恢复效果。

为了解决上述技术问题，本发明所采取的技术方案是：

一种用数字音频水印进行语音信号篡改检测与恢复的方法，其特征在于包括如下具体步骤：

在本发明中中，参数的设置如下；试验用数据是8000Hz采样率，16bits采样精度的波形文件；取每帧内包含的采样点数n为64，取每个帧组中帧数m为16，每个帧组内的参照值总数k为345，则每帧分配23个参照值，量化后的整型数最大值为8192，量化参数q取为1500，量化结束后，为了简化嵌入过程，将有正有负的量化后参数整体平移，使其原始范围从-8192～8191变化至0～16383，量化后的参照值每个占据15bits；

优选的，水印的嵌入过程为：

将原始信号分帧，该发明采用的方法是将信号相邻n个采样点分为一帧，帧与帧之间没有重叠部分；

(1)对帧进行分组，记每一个帧组中包含m个帧；记原始信号中共有N个采样点，而通常情况下N

并不是的整数倍，对于这种情况，为了简化后面的处理，对原始信号进行补零；

(2)分帧结束后，将原始数据进行压缩，使用的方法是对原始信号的幅度值除以系数c，得到压缩

后的数据；

(3)通过随机数算法，打乱帧的顺序，并将相邻的m个帧组成一个帧组；

(4)对上述数据向量进行线性变换，得到未量化的参照值；而随机的帧序列是又一个随机数种子生

成的，在嵌入水印过程又提取水印过程中，双方采用同一个种子，则可以保证嵌入/提取过程中操作的帧组是同一的帧组；

(5)对参照值进行量化操作；

(6)把一帧的序号(64bits表示)，320bits的五层最高有效位，以及345bits的参照值放入一个哈希

函数中，来产生一个31位长的哈希序列；随机生成一个哈希序列，对于每一帧，使用自身数据相关的哈希序列与随机序列异或生成定位数据；

(7)随机生成一个31位长的哈希序列，对于每一帧，使用自身数据相关的31位哈希序列与随机序列

异或生成的31位数据作为定位数据；

(8)将31位定位数据与前文中提到的345位参照值数及8位补零数据一同组成384位替代六层最低有

效位数据的水印数据；

优选的，水印的提取恢复过程为：

(1)对信号进行分帧分组后，提取信号六位最低有效位，并将每个帧中的最低有效位数据分为两组，

一组是用于恢复数据的参照值，另外一组是定位篡改区域的定位数据。每帧中的六位最低有效位共计384位，而其中用于恢复数据的参照值共计345位，而定位数据有31位，篡改区域定位的第一步就是抽取原始数据中31位定位数据；

(2)得到31位定位数据后，抽取十层最高有效位640位内的内容，与这帧的序号64位，以及345位

参照值一同，放入哈希函数中计算出一个31位长的哈希序列；通过定位数据判断某帧是否被破坏；

(3)经过哈希函数得到的31位哈希序列再与提取的31位哈希序列进行异或运算，得到最终31位定

位数据；如果在受损定位后发现某个帧组的全部帧都没有受损，那么恢复过程将跳转到下一个帧组；

(4)判断某帧是否被破坏；

(5)接收方接收一个信号后，通过与嵌入方相同的随机种子生成嵌入方嵌入水印的帧分组排序，进而获得分组信息；

(6)如果在受损定位后发现某个帧组的全部帧都没有受损，那么恢复过程将跳转到下一个帧组

(7)将提取方提取出的量化参照值经过处理后得到未量化的参照值；

(8)通过计算得出受破损区域内的信号数据；

(9)标准化篡改恢复信号。

一种用数字音频水印进行语音信号篡改检测与恢复的方法，包括以下步骤，

步骤一，水印信息的嵌入过程:嵌入信号的水印生成自原始信号的压缩版本，不包含其他的冗余信息，在恢复时也不需要其他相关与原始信号的信息，因而具有自恢复性。

步骤二，水印信息的提取恢复过程：当嵌入水印的信号遭到篡改时，算法可以根据嵌入的水印准确的定位被篡改部位，并从正确的部分中抽取用于恢复的水印信号。当被抽取的水印足够多时，算法可以对被篡改部分进行恢复。

本发明步骤一中所述水印信息嵌入过程包括以下步骤：

步骤11，将原始信号分帧，该发明采用的方法是将信号相邻n个采样点分为一帧，帧与帧之间没有重叠部分。

步骤12，对帧进行分组，记每一个帧组中包含m个帧。记原始信号中共有N个采样点，而通常情况下N并不是n×m的整数倍，对于这种情况，为了简化后面的处理，对原始信号进行补零。补零结束后，每一帧中都有n个采样点，每个帧组中都有n×m个采样点，共有N/(n×m)个帧组。虽然可能某一帧中全由零组成，但不存在某一帧组全是又零组成。

步骤13，分帧结束后，将原始数据进行压缩，使用的方法是对原始信号的幅度值除以系数c，得到压缩后的数据。

步骤14，通过随机数算法，打乱帧的顺序，并将相邻的m个帧组成一个帧组。

步骤15，对上述数据向量进行线性变换，得到未量化的参照值。而随机的帧序列是又一个随机数种子生成的，在嵌入水印过程又提取水印过程中，双方采用同一个种子，则可以保证嵌入/提取过程中操作的帧组是同一的帧组。

步骤16，对参照值进行量化操作。

步骤17，在本发明中中，参数的设置如下。试验用数据是8000Hz采样率，16bits采样精度的波形文件。取每帧内包含的采样点数n为64，取每个帧组中帧数m为16，每个帧组内的参照值总数k为345，则每帧分配23个参照值，量化后的整型数最大值为8192，量化参数q取为1500，量化结束后，为了简化嵌入过程，将有正有负的量化后参数整体平移，使其原始范围从-8192～8191变化至0～16383，量化后的参照值每个占据15bits。

步骤18，把一帧的序号(64bits表示)，320bits的五层最高有效位，以及345bits的参照值放入一个哈希函数中，来产生一个31位长的哈希序列。

步骤19，随机生成一个31位长的哈希序列，对于每一帧，使用自身数据相关的31位哈希序列与随机序列异或生成的31位数据作为定位数据。

步骤20，将31位定位数据与前文中提到的345位参照值数及8位补零数据一同组成384位替代六层最低有效位数据的水印数据。

步骤14中，对帧组中各个帧的压缩后数据进行拼接，则拼接后的数据向量为

步骤15中，对v进行线性变换

其中向量r就是为经过量化的参照值。矩阵A是k×(n×m)维的矩阵。并且对矩阵A进行了标准化。具体方法是保证矩阵A中每一行欧式范数都是1。为生成矩阵A，我们首先使用某个嵌入方与提取方都知道的随机种子随机生成k×(n×m)个数，并且这些数字独立同分布，满足均值为零的高斯分布。记生成的随机数组成的矩阵为A₀，那么，矩阵A的生成又下面公式

其中A(i,j)和A₀(i,j)分别是矩阵A和矩阵A₀中的元素。根据中央极限定理，向量r也是近似的满足零均值的高斯分布的。通过这种方式，对于每个帧组的n×m个压缩数据，求得k个参照值。随后，将这k个参照值分配给帧组中m个帧中，即每帧原始信号分配k/m个参照值。

步骤16中量化公式为:

其中

f(t)＝q/R_max·t

公式中的R_max代表了量化后数据的最大值。q是量化参数。经过量化后，得到的数值均为整型。

步骤19中的异或公式如下

其中h_i是从帧中数据得到的哈希序列，l_i是随机生成的哈希序列，c_i是生成的定位数据。

本发明步骤二中所述水印信息的提取恢复过程包括以下步骤：

步骤21，对信号进行分帧分组后，提取信号六位最低有效位，并将每个帧中的最低有效位数据分为两组，一组是用于恢复数据的参照值，另外一组是定位篡改区域的定位数据。每帧中的六位最低有效位共计384位，而其中用于恢复数据的参照值共计345位，而定位数据有31位，篡改区域定位的第一步就是抽取原始数据中31位定位数据。

步骤22，得到31位定位数据后，抽取十层最高有效位640位内的内容，与这帧的序号64位，以及345位参照值一同，放入哈希函数中计算出一个31位长的哈希序列。

步骤23，经过哈希函数得到的31位哈希序列再与提取的31位哈希序列进行异或运算，得到最终31位定位数据。

步骤24，判断某帧是否被破坏，拿第i帧作为例子，如果第i帧没有被破坏，那么根据异或运算的特性，得到的31位序列数据应该与其他没有被破坏的帧所计算得出的定位数据相同，并且与嵌入方嵌入时随机生成的31位哈希序列相同。而如果第i帧遭到了破坏，那么从第i帧中抽取并经过运算得到的31位哈希定位序列将与其他各个帧所运算出的定位序列有所差别。

步骤25，接收方接收一个信号后，通过与嵌入方相同的随机种子生成嵌入方嵌入水印的帧分组排序，进而获得分组信息。

步骤26，如果在受损定位后发现某个帧组的全部帧都没有受损，那么恢复过程将跳转到下一个帧组。现在假设某一个帧组内有z帧信号受损，算法对这一帧组进行恢复。

步骤27，将提取方提取出的量化参照值经过处理后得到未量化的参照值。

步骤28，通过计算得出受破损区域内的信号数据。

步骤29，标准化篡改恢复信号。

步骤26中在一个帧组内共有16帧数据，从一个帧组中的16个帧中，可以提取出368个参照值。而当有z帧信号被破坏时，能从中提取出(16-z)×23个参照值。被篡改区域对应的参照值在定位过程中自动删去。

步骤27中处理提取的量化参照值的公式如下：

其中

步骤28中的计算公式如下：

其中向量α'₁,α'₂,...,α'_M是经过处理的提取参照值，近似的认为是原始未经过量化过的参照值

根据以上公式可以推导出如下公式

则有

其中矩阵A^(E,T)是可以通过矩阵A得到的，向量S可以通过提取的参照值与步骤27中的公式计算得出。那么向量v_T就可以通过解公式步骤28的方程组得到。得到向量v_T之后，只需要将其解压缩就可以得到恢复的原始信号。

步骤29中，标准化公式为：

其中是Y一无量纲的随机变量，E(X)是随机变量X的期望，而D(X)是随机变量X的方差。

把一个恢复后帧组的信息标准化到统计好的信息上。采用公式为

其中，X₁是一个帧组内的帧组成的随机变量，将两个分布都标准化为没有量纲的随机变量

对上面的公式进行变形，得到实际中使用的两个参数

使用这两个参数，与X₁本身的分布期望一起，将其标准化。

与现有技术相比，本发明的有益效果是：

本发明中的水印算法是一种特殊的具有易碎性数字水印，使嵌入水印的音频信号在受到一定程度的攻击时，可以进行某种程度上的自恢复。该数字水印不仅能够对音频受损部分进行检测，还能够通过在信号中的水印进行相关信息的恢复。水印信号在能保持较高的信噪比的同时还能够有令人满意的恢复效果，水印造成的噪声很小，几乎不可察觉，同时本算法具有不可见性，易碎性及恢复时无需其他信息的特点。

附图说明

图1是水印信息的嵌入过程流程图；

图2是水印信息的提取恢复过程流程图；

图3是原始信号波形图与频谱图；

图4是加入后信号波形图与频谱图；

图5是破坏10％后的语音信号波形图与频谱图；

图6是语音信息受损10％恢复后波形图与频谱图。

图7是破坏20％后的信号波形图与频谱图

图8是语音信息受损20％恢复后波形图与频谱图。

具体实施方式

下面结合附图对本发明做进一步详细地描述。

如图1所示，为本发明的水印信息的嵌入过程，包括以下步骤。

步骤11，将原始信号分帧，将信号相邻n个采样点分为一帧，帧与帧之间没有重叠部分。

步骤13，分帧结束后，将原始数据进行压缩，目前使用的方法是对原始信号的幅度值直接除以一个系数c，得到压缩后的数据。

对帧组中各个帧的压缩后数据进行拼接，则拼接后的数据向量为

对v进行线性变换

其中向量r就是为经过量化的参照值。矩阵A是k×(n×m)维的矩阵。并且对矩阵A进行了标准化。具体方法是保证矩阵A中每一行欧式范数都是1。为生成矩阵A，首先使用某个嵌入方与提取方都知道的随机种子随机生成k×(n×m)个数，并且这些数字独立同分布，满足均值为零的高斯分布。记生成的随机数组成的矩阵为A₀，那么，矩阵A的生成又下面公式

其中A(i,j)和A₀(i,j)分别是矩阵A和矩阵A₀中的元素。根据中央极限定理，向量r也是近似的满足零均值的高斯分布的。通过这种方式，对于每个帧组的n×m个压缩数据，求得k个参照值。将这k个参照值分配给帧组中m个帧中，即每帧原始信号分配k/m个参照值。

步骤16，对参照值进行量化操作。

量化公式为:

其中

f(t)＝q/R_max·t

步骤17，本次发明中，对参数的设置如下。使用的试验用数据是8000Hz采样率，16bits采样精度的波形文件。取每帧内包含的采样点数n为64，取每个帧组中帧数m为16，每个帧组内的参照值总数k为345，则每帧分配23个参照值，量化后的整型数最大值为8192，量化参数q取为1500，量化结束后，为了简化嵌入过程，将有正有负的量化后参数整体平移，使其原始范围从-8192～8191变化至0～16383，不管如何变化，量化后的参照值每个占据15bits。

其中的异或公式为

步骤20，将这31位定位数据与前文中提到的345位参照值数及8位补零数据一同组成384位替代六层最低有效位数据的水印数据。

如图2所示，为本发明的水印信息的提取恢复过程，包括以下步骤。

步骤21，在对信号进行分帧分组后，提取信号六位最低有效位，并将每个帧中的最低有效位数据分为两组，一组是用于恢复数据的参照值，另外一组是定位篡改区域的定位数据。如前文所述，每帧中的六位最低有效位共计384位，而其中用于恢复数据的参照值共计345位，而定位数据有31位，篡改区域定位的第一步就是抽取原始数据中31位定位数据。

步骤22，在得到31位定位数据后，抽取十层最高有效位640位内的内容，与这帧的序号64位，以及345位参照值一同，放入哈希函数中计算出一个31位长的哈希序列。

在一个帧组内共有16帧数据，从一个帧组中的16个帧中，可以提取出368个参照值。而当有z帧信号被破坏时，从中提取出(16-z)×23个参照值。被篡改区域对应的参照值在定位过程中自动删去。

处理提取的量化参照值的公式如下：

其中

步骤28，通过计算得出受破损区域内的信号数据。

计算公式如下：

其中向量α'₁,α'₂,...,α'_M是经过处理的提取参照值，近似的认为它是原始未经过量化过的参照值

根据以上公式可以推导出如下公式

则有

步骤29，标准化篡改恢复信号。

标准化公式为：

把一个恢复后帧组的信息标准化到统计好的信息上。采用公式

对上面的公式进行变形，得到实际中使用的两个参数

使用这两个参数，与X₁本身的分布期望一起，将其标准化。

尽管上面结合图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种用数字音频水印进行语音信号篡改检测与恢复的方法，其特征在于包括如下具体步骤：

参数的设置如下：试验用数据是8000Hz采样率，16bits采样精度的波形文件；取每帧内包含的采样点数n为64，取每个帧组中帧数m为16，每个帧组内的参照值总数k为345，则每帧分配23个参照值，量化后的整型数最大值为8192，量化参数q取为1500，量化结束后，为了简化嵌入过程，将有正有负的量化后参数整体平移，使其原始范围从-8192～8191变化至0～16383，量化后的参照值每个占据15bits；

水印的嵌入过程为：

将原始信号分帧，采用的方法是将信号相邻n个采样点分为一帧，帧与帧之间没有重叠部分；

(1)对帧进行分组，记每一个帧组中包含m个帧；记原始信号中共有N个采样点，而通常情况下N并不是n×m的整数倍，对于这种情况，为了简化后面的处理，对原始信号进行补零；

(2)分帧结束后，将原始数据进行压缩，使用的方法是对原始信号的幅度值除以系数c，得到压缩后的数据；

(4)对上述压缩后的数据的向量进行线性变换，得到未量化的参照值；而随机的帧序列是由一个随机数种子生成的，在嵌入水印过程及提取水印过程中，双方采用同一个种子，则可以保证嵌入/提取过程中操作的帧组是同一的帧组；

(5)对参照值进行量化操作；

(6)把一帧的序号，64bits表示，320bits的五层最高有效位，以及345bits的参照值放入一个哈希函数中，来产生一个31位长的哈希序列；

(7)随机生成一个31位长的哈希序列，对于每一帧，使用自身数据相关的31位哈希序列与随机生成一个31位长的哈希序列异或生成的31位数据作为定位数据；

(8)将31位定位数据与上述的345位参照值数及8位补零数据一同组成384位替代六层最低有效位数据的水印数据；

水印的提取恢复过程为：

1)对信号进行分帧分组后，提取信号六位最低有效位，并将每个帧中的最低有效位数据分为两组，

一组是用于恢复数据的参照值，另外一组是定位篡改区域的定位数据；每帧中的六位最低有效位共计384位，而其中用于恢复数据的参照值共计345位，而定位数据有31位，篡改区域定位的第一步就是抽取原始数据中31位定位数据；

2)得到31位定位数据后，抽取十层最高有效位640位内的内容，与这帧的序号64位，以及345位参照值一同放入哈希函数中计算出一个31位长的哈希序列；通过定位数据判断某帧是否被破坏；

3)经过哈希函数得到的31位哈希序列再与提取的31位哈希序列进行异或运算，得到最终31位定位数据；如果在受损定位后发现某个帧组的全部帧都没有受损，那么恢复过程将跳转到下一个帧组；

4)判断某帧是否被破坏；

5)接收方接收一个信号后，通过与嵌入方相同的随机种子生成嵌入方嵌入水印的帧分组排序，进而获得分组信息；

6)如果在受损定位后发现某个帧组的全部帧都没有受损，那么恢复过程将跳转到下一个帧组；

7)将提取方提取出的量化参照值经过处理后得到未量化的参照值；

8)通过计算得出受破损区域内的信号数据；

9)标准一种用数字音频水印进行语音信号篡改检测与恢复的方法化篡改恢复信号。

2.一种用数字音频水印进行语音信号篡改检测与恢复的方法，其特征在于包括如下具体步骤：

步骤一，水印信息的嵌入过程:嵌入信号的水印生成自原始信号的压缩版本，不包含其他的冗余信息，在恢复时也不需要其他与原始信号相关的信息，因而具有自恢复性；

步骤二，水印信息的提取恢复过程：当嵌入水印的信号遭到篡改时，算法可以根据嵌入的水印准确的定位被篡改部位，并从正确的部分中抽取用于恢复的水印信号；当被抽取的水印足够多时，算法可以对被篡改部分进行恢复；

所述步骤一中水印信息嵌入过程包括以下步骤：

步骤1，将原始信号分帧，采用的方法是将信号相邻n个采样点分为一帧，帧与帧之间没有重叠部分；

步骤2，对帧进行分组，记每一个帧组中包含m个帧；记原始信号中共有N个采样点，而通常情况下N并不是n×m的整数倍，对于这种情况，为了简化后面的处理，对原始信号进行补零；补零结束后，每一帧中都有n个采样点，每个帧组中都有n×m个采样点，共有N/(n×m)个帧组；虽然可能某一帧中全由零组成，但不存在某一帧组全是由零组成；

步骤3，分帧结束后，将原始数据进行压缩，使用的方法是对原始信号的幅度值除以系数c，得到压缩后的数据；

步骤4，通过随机数算法，打乱帧的顺序，并将相邻的m个帧组成一个帧组；

步骤5，对上述压缩后的数据的向量进行线性变换，得到未量化的参照值；而随机的帧序列是由一个随机数种子生成的，在嵌入水印过程及提取水印过程中，双方采用同一个种子，则可以保证嵌入/提取过程中操作的帧组是同一的帧组；

步骤6，对参照值进行量化操作；

步骤7，参数的设置如下；试验用数据是8000Hz采样率，16bits采样精度的波形文件；取每帧内包含的采样点数n为64，取每个帧组中帧数m为16，每个帧组内的参照值总数k为345，则每帧分配23个参照值，量化后的整型数最大值为8192，量化参数q取为1500，量化结束后，为了简化嵌入过程，将有正有负的量化后参数整体平移，使其原始范围从-8192～8191变化至0～16383，量化后的参照值每个占据15bits；

步骤8，把一帧的序号，64bits表示，320bits的五层最高有效位，以及345bits的参照值放入一个哈希函数中，来产生一个31位长的哈希序列；

步骤9，随机生成一个31位长的哈希序列，对于每一帧，使用自身数据相关的31位哈希序列与随机序列异或生成的31位数据作为定位数据；

步骤10，将31位定位数据与上述345位参照值数及8位补零数据一同组成384位替代六层最低有效位数据的水印数据。