CN109119086A

CN109119086A - 一种多层最低有效位的易碎水印语音自恢复技术

Info

Publication number: CN109119086A
Application number: CN201710489413.4A
Authority: CN
Inventors: 路文焕; 李硕; 宋占杰; 魏建国
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-06-24
Filing date: 2017-06-24
Publication date: 2019-01-01

Abstract

本发明公开了一种多层最低有效位的易碎水印语音自恢复技术：最低有效位的参数化；在发送端设计水印嵌入算法；在接收端设计数据恢复算法。本发明通过调整最低有效位层数，可以实现嵌入水印后信号的不可感知性和恢复后信号的可懂度之间的权衡，在不同的场景和不同的要求下，选择不同的最低有效位来嵌入水印信息，来适应实际场景中复杂多变的环境。

Description

一种多层最低有效位的易碎水印语音自恢复技术

技术领域

本发明涉及易碎的语音信号自恢复水印技术，更具体的说，是涉及一种多层最低有效位的易碎水印语音自恢复技术。

背景技术

随着计算机和互联网技术的快速发展，文字、图像、声音、视频等多媒体信号大量涌现，给人们获取信息带来了极大的便利。但是与此同时，信号很容易被复制或篡改，带来了很严重的信息安全问题，因此需要好的算法来保证信号的完整性和准确性。

于是数字水印技术应运而生，它利用图像、声音等信号的冗余性，将一些标识信息即数字水印直接嵌入到数字载体当中，但是不影响原载体的使用价值。这些隐藏在载体中的水印，可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改等目的。通常情况下，水印分为易碎水印、半易碎水印和鲁棒水印，鲁棒水印一般用于产权保护和所有权鉴定，易碎和半易碎水印可以用于信息安全和信息保护。数字水印这个概念的提出至今虽然还不到20年，但是已经成为学术研究的热点问题，大量的研究已经产生。大多数的水印系统是在线性域上对数据进行操作的(即PCM水印)，少部分可对已被压缩的数据进行水印嵌入(即比特流水印)。当前，数字水印的主要技术有：基于多分辨率分解的数字水印技术、基于模运算的数字水印算法和基于整数变换和单向函数的数字水印新技术等等。数字水印是信息隐藏技术的一个重要研究方向。水印作为一种附加信息嵌入到原始信号中，可以用来设计信号的恢复算法。但是在现有的技术成果中，对数据恢复方面的研究较为朴素，效果也不尽如人意，往往不能防御实际应用场景中复杂多变的攻击。

在过去几十年的研究中，图像信号自恢复水印算法的设计有了飞快地发展，大量经典的算法涌现出来，并且取得了很好的恢复效果，同时还出现了较多对图像数据恢复时使用参数和相关方法的研究。

然而，在语音领域，该研究尚处在起步阶段，因为人耳听觉系统比人眼视觉系统更加敏感，所以对语音信号自恢复算法的敏感度和准确性要求更高。传统的水印认证技术主要着重于检测信号是否遭到破坏，集中在测试信号的完整性，对破坏后的语音信号的恢复工作却很少涉及，并不能进一步高效准确地恢复信号。因而，如何恢复被篡改的语音信号是一个新颖的研究方向。

发明内容

本发明的目的是为了克服现有技术中的不足，主要是针对语音信号自恢复算法研究的匮乏现象，深化声音信号自恢复算法的研究以及拓展其应用范围，提供一种多层最低有效位的易碎水印语音自恢复技术，由于在实际生活中场景的复杂性，以及不同的通信环境有着明显的差异性，我们将易碎语音信号自恢复算法中的最低有效位参数化，并探索它与其他参数的数量关系，来优化参数；通过调整最低有效位层数，可以实现嵌入水印后信号的不可感知性和恢复后信号的可懂度之间的权衡，在不同的场景和不同的要求下，选择不同的最低有效位来嵌入水印信息，来适应实际场景中复杂多变的环境。

本发明的目的是通过以下技术方案实现的。

本发明的一种多层最低有效位的易碎水印语音自恢复技术，包括以下步骤：

步骤一，最低有效位的参数化：

将最低有效位层数x当成参数，它与最大量化位数a和哈希比特位数y之间满足以下数量关系：

其中，n是每一帧中包含采样点的个数，m是每个帧组中包含帧的个数，k是每个帧组的参考值个数；利用排除法求得最佳参数的取值，根据实际需要选择最低有效位层数以后，直接确定其他的参数，以便在不同的发送端和接收端设计相应的算法和参数；

步骤二，在发送端设计水印嵌入算法：

①在发送端对原始语音信号进行分帧和分帧组，将每帧的最高有效位除以一个压缩系数分别获得压缩信息；

②对每个帧组内的压缩信息进行线性变换，得到未量化的参考值，对未量化的参考值进行量化处理；

③将每帧的最高有效位、序号信息和量化后的参考值输入哈希函数中，生成哈希序列，再随机生成与哈希序列等位长的定位序列，并与哈希序列做异或运算，生成与哈希序列等位长的检验序列；

④将检验序列信息和量化后的参考值信息作为水印一起嵌入到最低有效位中；

步骤三，在接收端设计数据恢复算法：

①在接收端收到某段语音信号后，按照与发送端相同的方式对接收到的语音信号进行分帧和分帧组，提取出每帧最低有效位中量化后的参考值信息和检验序列信息；

②将每帧中的最高有效位提取出来，并与序号信息、量化后的参考值信息一起输入与发送端相同的哈希函数中，计算得到哈希序列，并与提取出来的检验序列信息做异或运算，得到定位数据，根据每一帧定位数据的异同，判断出被篡改的帧；

③根据未被篡改的帧的量化后的参考值，估计未被量化的参考值，并且计算出被篡改部分的压缩信息；

④将未被篡改部分的压缩信息和被篡改部分的压缩信息结合，生成原始语音信号的压缩信息，乘以压缩系数得到原始的语音信号。

步骤二的②中未量化的参考值为：

r＝A·v

其中，r是一个k维向量，A是k×(n×m)维的矩阵，其每一行的欧式范数都是1，且服从零均值的高斯分布，矩阵A由发送端和接收端都知道的随机种子生成；

对未量化的参考值按以下公式进行量化处理：

f(t)＝q/R_max·t

公式中，表示量化后的参考值，R_max表示量化后数据的最大值，q是量化参数，经过量化后，每个参考值用a个比特表示，a满足：2×R_max＝2^a。

步骤二的③中定位序列对于每一帧来说都是相同的。

步骤三的②中根据每一帧定位数据的异同判断被篡改帧的原则：若每一帧所计算出来的定位数据完全相同，则说明这些帧均未被篡改；若某一帧所计算出来的定位数据与其余帧的定位数据不同，则说明此帧被篡改。

步骤三的③中未被量化的参考值按以下公式进行估计：

这就是未被量化的参考值的取值范围，我们记：

其中，r表示未被量化的参考值，r'就是对未被量化的参考值的估计，是其取值范围的中值，用r'来恢复被篡改部分的数据：

r'＝A^R·V_R+A^T·V_T

其中，A^R和A^T分别是矩阵A中对应于未被篡改和被篡改的部分，对于接收端来说是已知的，V_R和V_T是未被篡改和被篡改部分对应的压缩信息，V_R从接收信号的未被篡改的帧的最高有效位中压缩计算出来，上式中，只有V_T是未知的，通过解此线性方程组的方法，可以得到被篡改部分的压缩信息V_T。

与现有技术相比，本发明基于原始的语音信号自恢复算法框架，把最低有效位参数化，给出了其他参数的最优取值。其优势主要体现在：

(1)实用性：过去的易碎水印技术的研究，通常根据经验来选取最低有效位层数，虽然取得了较为满意的结果，但是并不能满足实际场合中复杂多变的环境。本发明首次将最低有效位参数化，设计出不同的参数选择方案。在实际场景中，不同的终端可以根据实际需要和具体要求，来选择参数，扩展了原研究的应用领域；

(2)有效性：一般情况下，最低有效位层数越少，嵌入水印的不可感知性越强，但是恢复后的语音信号的可懂度越弱。虽然这个规律在以往的研究中有所提及，但是却没有具体的实验来证实。本发明基于最低有效位的参数化，通过实验证实了水印信号的不可感知性和恢复信号的可懂度之间的辩证关系；

(3)新颖性：过去的研究着重于探索不同的水印嵌入方法，而本发明另辟蹊径，从全新的角度探索最低有效位位数、嵌入水印信号的不可感知性、恢复后信号的可懂度之间的关系，不仅从理论上推出了参数的最佳选择方案，还探讨了水印的不可感知性和恢复信号的可懂度之间折中，扩展了易碎水印技术的实际应用范围，以适应不同的通信环境；

(4)可操作性：简单可行，在不同的通信终端设计好相应的算法和参数后，就可以一直使用，如果实际需求有变化，可以简单地更改参数即可，无需重新设计新的算法，方便实用。

附图说明

图1是本发明的具体实施过程的流程图；

图2是本发明的发送端水印嵌入过程的流程图；

图3是本发明的接收端语音信号恢复过程的流程图。

具体实施方式

下面结合附图对本发明作进一步的描述。

在语音自恢复算法中，把原始语音信号进行压缩，作为水印嵌入到原始语音信号的最低有效位中，形成易碎水印，用来在接收端检测被篡改的位置和恢复原始语音信号。在整个过程中，最高有效位保持不变，以保证水印的不可感知性。在此算法中，最低有效位层数的选择是一个重要的参数指标。通常，最低有效位越多，信号被改变地越多，所以水印的不可感知性越弱；但是与此同时，可以用来定位和恢复的信息就越多，所以恢复后的信号的可懂度越高。水印信号的不可感知性和恢复信号的可懂度之间存在一个权衡和折中，可以根据实际情况，通过调整最低有效位的层数来实现二者的平衡。

传统的易碎水印自恢复算法分为水印嵌入过程和信号恢复过程。在水印嵌入过程中，水印信息由两部分组成：参考值信息和检验信息，其中，检验信息用来在接收端检测被篡改的位置，参考值信息用来进一步恢复被篡改的数据。将水印信息嵌入到最低有效位中，而最高有效位在整个过程中保持不变。在信号恢复过程中，先利用检验信息来检测被破坏部分的位置，然后利用参考值信息来恢复被破坏的语音信号。本发明的多层最低有效位的易碎水印语音自恢复技术，在基于帧分割的算法框架中，首次将嵌入水印的最低有效位这个重要的指标参数化，通过探索最低有效位与其他参数的关系，得到最佳参数选择方案，来扩展易碎语音自恢复算法的应用范围，以适应不同终端的通信要求。同时，通过计算信噪比的客观实验，探索嵌入水印的不可感知性和恢复后语音信号的可懂度之间的关系，通过在不同的应用环境下选择不同的最低有效位来实现二者的均衡，如图1所示。

(一)最低有效位的参数化

以往的研究通常凭借经验来选择最低有效位层数。本发明把最低有效位层数x当成参数，探索它与最大量化位数a和哈希比特位数y之间满足的数量关系，由于在水印嵌入的过程中，需要把参考值比特和检验比特一同嵌入到最低有效位中，所以它们之间满足数量关系：

其中，n是每一帧中包含采样点的个数，m是每个帧组中包含帧的个数，k是每个帧组的参考值个数。在具体地实施过程中，通常选取n为64，m为16，即相邻的64个采样点为一个帧，随机排列后相邻的16个帧为一个帧组。选取k为368，即一个帧组中共有368个参考值，平均分配到每一帧中有23个参考值。于是上式(1)可以写成：

64×x＝23×a+y (2)

为了保证水印的不可感知性，最低有效位的层数不能超过6层。将上式(2)中三个参数的全部取值列成表一,其中“/”前后的数字代表对应参数的取值：

表一参数的全部取值

最低有效位层数x	最大量化位数a	哈希比特位数y
			6	16/15/14	16/39/62
5	13/12	21/44
			4	11/10/9	3/26/49
3	8/7/6	8/31/54
			2	5/4/3	13/36/59
1	2/1	18/41

接下来将利用排除法来求得最佳参数的取值：

①在接收端，未被量化的参考值需要用中值来估计，估计的过程会产生误差，误差的大小与a的大小有关，即a越大，量化后数据的最大值R_max越大，估计的误差就越小。因此a需要足够大来确保足够小的误差，因此排除a＝1,2,3,4,5的情况。

②在接收端，需要用哈希比特来定位被篡改的部分，当使用哈希函数生成y位长的哈希序列时，一个被篡改的帧被错误地判断成未被篡改的帧的概率为2^-y。因此，y需要足够大来保证此误判概率足够小，故排除y＝3,6,8,11,13的情况，对应于a＝11,22,8,19,5的情况。

③类似于①，在相同的条件下，a越大，在接收端对参考值的估计的误差就越小。因此我们选择剩下的参数中a较大的情况，即a＝16,13,10,7的情况，即为当最低有效位分别为6,5,4,3时，最大量化比特数a的最佳取值。具体见下表二：

表二参数的最优取值

最低有效位层数x	最大量化位数a	哈希比特位数y
			6	16	16
5	13	21
			4	10	26
3	7	31

在实际环境中，根据实际需要来选择最低有效位层数，如果对水印信号的不可感知性要求较高或者通信环境较好时，而对恢复后信号的可懂度要求较低，可以选择较少的最低有效位层数嵌入水印，反之，则需要嵌入较多的最低有效位层数。与此同时，如果通信环境较差或者信号在传输过程中被篡改的可能性较大，则需要选择较多的最低有效位层数，以保证恢复后信号的可懂度。这样，在选择好最低有效位层数以后，可以直接查找上表，来确定其他的参数，以便在不同的发送端和接收端设计相应的算法和参数，来满足不同场合的需要。

(二)在发送端设计水印嵌入算法

在水印嵌入过程中，如图2所示，将原始语音信号除以一个压缩系数，获得压缩信息，之后对压缩信息进行线性变换，并对线性变换的结果进行量化，最后将量化后的结果和篡改定位数据一同存入到最低有效位中，实现水印的生成与嵌入。具体步骤如下：

①原始语音信号分帧和分帧组：

首先，在发送端对原始语音信号进行分帧，记原始语音信号中共有N个采样点，将相邻n个采样点分为一帧，帧与帧之间没有重叠部分。如果N不能被n整除，需要进行补零操作，这样整个语音信号就被分成N/n个帧。然后，将每帧数据的最高有效位除以一个压缩系数c来分别获得压缩信息v。将这些帧进行随机排列，随机排列的方式通过一个发送端和接收端都知道的随机数种子生成，来确保信息的安全。

之后对帧进行分组，将随机排列中相邻的m个帧分为一个帧组。如果N/n不能被m整除，就进行补零操作，这样就把原始语音信号分成N/(n×m)个帧组。

②参考值生成与量化：

对每个帧组内的压缩信息v进行线性变换，得到未量化的参考值r：

r＝A·v (3)

其中，r是一个k维向量，A是k×(n×m)维的矩阵，其每一行的欧式范数都是1，且服从零均值的高斯分布。矩阵A由发送端和接收端都知道的随机种子生成。

通过这种方式，对于每个帧组的n×m个采样点，求得k个参考值。随后，将这k个参考值平均分配给m个帧中，即每帧原始语音信号分配k/m个参考值。为了能把这些参考值嵌入到原始语音信号的最低有效位中，需要对参考值进行量化处理，将浮点型参考值转化成整型参考值：

其中，

f(t)＝q/R_max·t (5)

公式中，表示量化后的参考值，R_max代表了量化后数据的最大值，q是量化参数。经过量化后，每个参考值用a个比特表示，a满足：

2×R_max＝2^a (6)

③检验序列信息生成：

接下来需要生成用于定位篡改数据的检验信息。把每一帧的最高有效位、序号信息和量化后的参考值输入一个哈希函数中，分别产生y位长的哈希序列h_i(y)，其中i为帧序号。再随机生成y位长的定位序列l(y)，并分别与哈希序列做异或运算，生成y位长的检验序列c_i(y)，其中i为帧序号。需要注意的是，定位序列对于每一帧来说都是相同的。

④水印嵌入：

原始语音信号共有16个比特层，将y位检验序列信息和量化后的参考值信息作为水印一同嵌入到x层的最低有效位中，而16-x层的最高有效位保持不变。至此，已经完成了水印的嵌入。

(三)在接收端设计数据恢复算法

如图3所示，在接收端，当收到某段语音信号后，首先对信号篡改部分进行检测。一部分信号可能被破坏，这部分信号所携带的参考值信息已经失效。通过未被破坏部分的参考值信息来恢复被破坏部分的数据，来达到恢复整个语音信号的目的。具体步骤如下：

①接收语音信号分帧、分帧组：

在接收端收到某段语音信号后，按照与发送端相同的方式对接收到的语音信号进行分帧和分帧组。由于接收端与发送端应用同一个随机数种子，所以可以保证在接收端操作的是同一个帧组。并将每一帧中最低有效位中的量化后的参考值信息和检验序列信息提取出来。

②检验信息用于篡改定位：

将每一帧中的最高有效位提取出来，并与序号信息、参考值信息一同放入与发送端相同的哈希函数中，计算出y位的哈希序列h_i(y)，并与提取出来的y位检验序列c_i(y)做异或运算，得到y位定位数据l_i(y)，其中i为帧序号。根据异或运算的性质，每一帧定位数据的异同情况，判断出被篡改的帧，判断原则：若每一帧所计算出来的定位数据完全相同，则说明这些帧均未被篡改，没有遭到任何破坏；若某一帧所计算出来的定位数据与其余帧的定位数据不同，则说明此帧被篡改。我们据此来实现篡改位置的检测。

根据哈希函数的性质，当使用哈希函数生成y位长的哈希序列时，一个被篡改的帧被错误地判断成未被篡改的帧的概率为2^-y，当y很大的时候，这个概率是很低的。

③参考值信息用于内容恢复：

接下来就要进行信号的恢复，信号恢复以帧组为单位，接收端与发送端通过同一个随机数种子保持对同一个帧组进行操作。在一个帧组中，有m个帧，可以提取k个参考值，如果一个帧被断定为被篡改的帧，那么该帧所携带的参考值是不能被利用的，只能使用未被篡改的帧的参考值。需要注意的是，提取出的参考值是量化后的，未被量化的参考值r需要估计：

这就是未被量化的参考值的取值范围，我们记

其中，r'就是对参考值的估计，是其取值范围的中值。此过程会产生误差，R_max越大，估计的误差越小。用r'来恢复被篡改部分的数据：

r'＝A^R·V_R+A^T·V_T (9)

其中，A^R和A^T分别是矩阵A中对应于未被篡改和被篡改的部分，由于矩阵A是发送端和接收端都知道的随机数种子，所以这部分信息对于接收端来说是已知的。V_R和V_T是未被篡改和被篡改部分对应的压缩信息，V_R可以从接收信号的未被篡改的帧的最高有效位中压缩计算出来。换言之，上式中，只有V_T是未知的，通过解此线性方程组的方法，可以得到被篡改部分的压缩信息V_T。

④语音信号恢复：

将未被篡改部分的压缩信息V_R和被篡改部分的压缩信息V_T结合，生成原始语音信号的压缩信息，将其乘以压缩系数c来完成对原信号的恢复。

语音信号被篡改的过程，完成对此语音自恢复算法框架的性能测试，探索最低有效位层数与水印信号的不可感知性和恢复信号的可懂度之间的关系。

尽管上面结合附图对本发明的功能及工作过程进行了描述，但本发明并不局限于上述的具体功能和工作过程，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种多层最低有效位的易碎水印语音自恢复技术，其特征在于，包括以下步骤：

步骤一，最低有效位的参数化：

步骤二，在发送端设计水印嵌入算法：

步骤三，在接收端设计数据恢复算法：

2.根据权利要求1所述的多层最低有效位的易碎水印语音自恢复技术，其特征在于，步骤二的②中未量化的参考值为：

r＝A·v

对未量化的参考值按以下公式进行量化处理：

f(t)＝q/R_max·t

3.根据权利要求1所述的多层最低有效位的易碎水印语音自恢复技术，其特征在于，步骤二的③中定位序列对于每一帧来说都是相同的。

4.根据权利要求1所述的多层最低有效位的易碎水印语音自恢复技术，其特征在于，步骤三的②中根据每一帧定位数据的异同判断被篡改帧的原则：若每一帧所计算出来的定位数据完全相同，则说明这些帧均未被篡改；若某一帧所计算出来的定位数据与其余帧的定位数据不同，则说明此帧被篡改。

5.根据权利要求1所述的多层最低有效位的易碎水印语音自恢复技术，其特征在于，步骤三的③中未被量化的参考值按以下公式进行估计：

这就是未被量化的参考值的取值范围，我们记：

r'＝A^R·V_R+A^T·V_T