CN103456308B

CN103456308B - 一种可恢复的密文域语音内容认证方法

Info

Publication number: CN103456308B
Application number: CN201310335479.XA
Authority: CN
Inventors: 王宏霞; 刘正辉; 刘双
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2013-08-05
Filing date: 2013-08-05
Publication date: 2015-08-19
Anticipated expiration: 2033-08-05
Also published as: CN103456308A

Abstract

本发明公开了一种可恢复的密文域语音内容认证方法，首先将原始语音信号X置乱加密，置乱后的语音密文信号S分为N帧，每帧分为三段。然后将第一段信号能量比生成的水印嵌入在第三段中，将帧号对应的二值序列扩频后嵌入在第二段中，得到含水印的语音密文信号。本发明在利用帧号对恶意篡改进行精确定位的基础上，借助于置乱加密的特点，使被攻击部分替换的信号在反置乱操作后分散到整个语音信号中。该方法提高了水印系统的安全性和篡改定位精度，同时又具有篡改恢复能力，解决了敏感语音在云存储中的安全问题。

Description

一种可恢复的密文域语音内容认证方法

技术领域

本发明数字语音处理技术，具体涉及敏感语音在云存储中的安全。

背景技术

高速网络的发展以及计算机等技术的普及，使云计算从理论走向实际成为了可能。然而，云计算中数据的安全问题却阻碍着其推广和应用。云存储是一种外包形式的服务，数据的拥有者对这种服务形式并不信任。对于敏感数据，企业和用户为了保护数据隐私，在上传到云存储中心之前，往往会对数据做加密处理。用户或者授权者在需要的时候从云存储中下载需要的密文数据。由于云存储自身的特点，用户下载的数据可能是不真实的，或者被恶意攻击的。如何对用户下载密文数据的真实性进行认证，在恶意攻击后又如何恢复被攻击的内容是目前多媒体信息安全研究的热点之一，该问题的解决也将推动云计算和云存储的普及和应用。

数字语音信号作为一种敏感的、重要的信息载体，广泛应用在电话通讯，新闻报导等和人们生活息息相关的场合。为了保证数字语音的真实性和完整性，人们从不同方面，采用不同的方法对其进行了保护。例如，在内容认证和说话人识别方面做了大量的工作，也已取得了较大进展。然而，相比之下，关于语音密文内容认证和篡改恢复方面的研究成果则鲜有报道。文献“Content-dependent watermarkingscheme in compressed speech with identifying manner and location ofattacks”(Chen O.T-C,Liu Chia-hsiung,IEEE Transactions on Audio,Speech,and Language Processing,vol.15,no.5,pp.1605-1616,2007）提出了一种基于语音压缩的语音内容认证算法。该算法适用于基于CELP（Codebook-excite Linear Prediction）编码的语音信号。水印由相应帧的LSF（Line Spectrum Frequency）生成，基于LSB的方法来嵌入水印。在实际生活当中，由于播放格式的特殊要求或存储的方便等原因，含水印的语音信号不可避免地会受到一些信号处理。而基于LSB的水印嵌入方法对信号处理不具有鲁棒性，所以该方法在实际应用中受到诸多限制。抗去同步攻击音频水印方案的设计是一个难点，常见的是基于同步码的抗去同步攻击方法。文献“Blind and robustaudio watermarking scheme based on SVD-DCT”（Bai Ying Lei,IngYann Soon,Zhen Li,Signal Processing,vol.91,no.8,pp.1973-1984,2011）提出了一种基于同步码的抗去同步攻击的音频内容认证算法，同步码的嵌入增强了算法的鲁棒性，同时也带来了一些不足。一方面，同步码的嵌入增加了信号的负载；另一方面，同步码的嵌入方法存在安全隐患。文中嵌入同步码所采用的特征是公开的，且嵌入方法是已知的。攻击者可以得到特征并提取同步码，并采用相同的方法将提取的同步码嵌入在另一段信号中，然后将该信号替换原始含水印的信号，该攻击不会被认证端察觉。此类算法的载体都是明文信号，不能直接应用于语音密文，且对于恶意篡改，不具有恢复的能力。

发明内容

鉴于现有技术的以上不足，研究安全的、可恢复的语音密文内容认证技术具有重要的现实意义，并能推动云计算和云存储的普及和推广。本发明的目的在于提供一种可恢复的密文域语音内容认证算法，该算法对于语音密文所受到的恶意篡改能够篡改定位，同时具有篡改恢复能力，提高了语音密文的安全性和在云存储中的可靠性。

为实现这样的目的，本发明利用帧号对恶意篡改进行精确定位的基础上，借助于置乱加密的特点，设计了一种可恢复密文域语音内容认证方法。

一种可恢复的密文域语音内容认证方法，对语音密文篡改定位并对被恶意篡改的部分进行篡改恢复，其具体步骤包含如下：

（1）含水印语音密文的生成：首先对原始语音信号X做混沌置乱加密处理，置乱后的语音密文信号记为S；接着，将S等分为不重叠的N个帧，每帧长为P，第i帧记为S_i；S_i分为三段，分别记为S1_i，S2_i，S3_i；然后，计算各段信号的能量比，用第一段信号的能量比生成水印W1_i，并嵌入在第三段S3_i中；将帧号i的对应的二值序列扩频为W2_i，并嵌入在第二段信号S2_i中。用该方法完成每个语音密文帧的水印嵌入，得到含水印的语音密文信号；

（2）语音密文内容认证和篡改恢复：与含水印语音密文生成过程类似，首先将待检测的语音密文WS进行分帧，每帧长为P，第i帧记为WS_i；将WS_i分为三段，计算各段信号的能量比；用第一段信号能量比生成的水印和第三段信号提取的水印做比较；记第二段信号提取的二值序列为

{W 2}_{i}^{*} = {{w 2}_{i, j}^{*} | {w 2}_{i, j}^{*} &Element; (0,1), 1 \leq j \leq 2 M},

用(1≤j≤M)和(M+1≤j≤2M)作比较；若且(1≤j≤M)=(M+1≤j≤2M)，则认为第i帧是真实的，否则，认为第i帧存在被攻击的部分，以此实现对语音密文的内容认证；

假设检测到第i帧存在被攻击的部分，通过移位的方法找到下一个能通过认证的连续P个样本点，并提取该帧的帧号i′；通过对比i′和i-1来判断攻击的类型和内容；然后选择幅值为0的信号替换被攻击的部分；幅值为0的信号在反置乱加密之后将分散到整个语音信号的不同部分，替换的信号不会影响原始信号要表达的内容，以此来实现语音信号的篡改恢复。

与现有的算法相比，本发明利用帧号来进行篡改定位，水印嵌入采用的特征对攻击者是保密的，提高了定位精度和水印系统的安全性。置乱加密操作保证了敏感语音在云存储中的数据隐私，其自身特点也为篡改恢复提供了依据。这些保证了本方法的安全性和篡改恢复能力，确保了云存储中语音密文的可靠性，为本发明的广为推广提供了强有力的支持。

附图说明

图1为本发明关键科技问题。

图2为含水印语音密文生成框图。

图3为含水印语音密文内容认证框图。

图4为篡改恢复框图。

图5为含水印信号在不同量化步长下的SNR值。

图6为删除不同个数的样本点后恢复信号的SDG值。

图7为SDG值大于-1的条件下不同语音段允许删除最大样本点的个数。

图8为原始语音信号和含水印语音密文信号。

图9为删除攻击的篡改定位和篡改恢复结果。

图10为替换攻击的篡改定位和篡改恢复结果。

图10为图9（d）和图10（d）篡改恢复信号的SDG值。

以上图，图6和图7中，ND表示删除样本点的个数；图9（b）和图10（b）中，TL(i)=0表示对应的语音帧是真实的，TL(i)=1表示对应的帧是被攻击的部分。

图11删除和替换攻击篡改恢复信号的SDG值表。

具体实施方式

在本申请的叙述中，能量比的定义：

对于两个不同的信号X＝{x(i),1≤i≤N}和Y＝{y(i),1≤i≤N}，定义ER(X,Y)为信号X对Y的能量比，如下式

ER (X, Y) = 101 g (1 + \frac{Σ_{i = 1}^{N} x {(i)}^{2}}{Σ_{i = 1}^{N} y {(i)}^{2}})

其中，即信号Y为非零信号；ER(X,Y)≥0，单位为dB。（1）ER(X,Y)反映了信号X和Y能量上的差别。ER(X,Y)的值和10lg2相差越小，则X和Y的能量越接近；反之，X和Y的能量差别越大。（2）ER(X,Y)反映了信号X能量。在信号Y保持不变的情况下，ER(X,Y)越大，X的能量也越大；反之，X的能量越小。

由能量比的定义可得，若要计算两个信号的能量比，必须同时得到两个信号。实际应用中，我们可以将信号Y作为密钥，这样能量比ER(X,Y)作为语音信号的特征对攻击者即是保密的。

综上，X对Y的能量比ER(X,Y)不仅体现了信号的能量特征，同时也提高了该特征用于水印系统的安全性。

下面，结合附图和实施例对本发明的技术方案作进一步描述。

1、原始语音信号置乱加密：

（1）基于伪随机序列的置乱。由如下的初值为k的Logistic映射产生伪随机序列Y，Y＝{y_l,1≤l≤L}。

y_l+1＝μy_l(1-y_l),y₀＝k,3.5699≤μ≤4

将Y中的元素按升序排列，得到y_a(l)=ascend(y_l),l＝1,2,…L，a(l)为升序排列后混沌序列的地址索引。

（2）原始语音信号X＝{x_l,1≤l≤L}置乱后的密文信号为S＝{s_l,1≤l≤L}，其中s_l＝x_a(l)，l＝1,2,…L。

2、含水印语音密文的生成：

（1）将S等分为不重叠的N个语音帧，每帧长为P，第i帧记为S_i；S_i分为三段，分别记为S1_i，S2_i，S3_i；接着将S1_i和S3_i等分为M个子段，第j个子段记为S1_i,j和S3_i,j；S2_i等分为2M个子段，第j个子段记为S2_i,j；S1_i,j，S2_i,j和S3_i,j的长度均为L₁。

（2）选取一段序列作为密文序列，计算S1_i,j，S2_i,j，S3_i,j和密文序列的能量比。这里选取伪随机序列B作为密文序列，B＝{b_l,1≤l≤L₁}，b_l＝y_l，1≤l≤L₁。

（3）计算S1_i,j，S2_i,j，S3_i,j和B的能量比，分别记为E1_i,j，E2_i,j，E3_i,j。

（4）第i帧的水印信息记为W1_i＝{w1_i,j|w1_i,j∈(0,1),1≤j≤M}，对第i帧的信号S_i而言，将其帧号i转换为二进制W_i＝{w_i,j|w_i,j∈(0,1),1≤j≤M}，这里，如果W_i的长度小于M，则在W_i后面补零。将W_i扩频为2M比特，并记为W2_i＝{w2_i,j|w2_i,j∈(0,1),1≤j≤2M}，其中w2_i,j＝w_i,j，1≤j≤M；w2_i,j＝w_i,j-M，M+1≤j≤2M。例如，如果i=3，M=5，W_i＝{00011}，则W2_i＝{0001100011}。

（5）将W1_i和W2_i分别嵌入在S3_i和S2_i中，嵌入方法如下：

若w1_i,j＝0，

若w1_i,j＝1，

其中Δ表示量化步长，QE3_i,j表示量化后的量能比。

假设WS3_i＝{WS3_i,j,1≤j≤M}为信号S3_i对应的含水印信号，则WS3_i,j可由下式得到

{WS 3}_{i, j} (l) = {S 3}_{i, j} (l) \times \sqrt{\frac{10^{\frac{Q {E 3}_{i, j}}{10}} - 1}{10^{\frac{{E 3}_{i, j}}{10}} - 1},} 1 \leq l {\leq L}_{1}

其中WS3_i,j(l)和S3_i,j(l)分别表示WS3_i,j和S3_i,j的第l个样本点。采用上述方法将W2_i嵌入在S2_i中。

（6）对N个语音帧依次进行这样的嵌入，直至嵌完所有语音帧，便得到含水印的语音密文信号WS。

3、语音密文内容认证和篡改恢复：

（1）与含水印语音密文生成过程的步骤（1）类似，对待检测的语音密文信号WS分帧、分段。第i帧记为WS_i，长度和S_i相等；WS1_i，WS2_i和WS3_i分别表示WS_i的第1，2和第3段；将WS1_i和WS3_i分为M个子段，WS2_i分为2M个子段，第j个子段分别记为WS1_i,j，WS2_i,j和WS3_i,j，长度均为L₁。

（2）计算WS1_i,j，WS2_i,j，WS3_i,j和B的能量比，并记为WE1_i,j，WE2_i,j和WE3_i,j。记

{W 1}_{i}^{*} = {{w 1}_{i, j}^{*} | {w 1}_{i, j}^{*} &Element; (0,1), 1 \leq j \leq M}

为第i帧生成的水印，其中为提取的帧号，其中

{W 3}_{i}^{*} = {{w 3}_{i, j}^{*} | {w 3}_{i, j}^{*} &Element; (0,1), 1 \leq j \leq M}

为第i帧提取的水印，

（3）如果

Σ_{j = 1}^{M} {w 1}_{i, j}^{*} &CirclePlus; {w 3}_{i, j}^{*} = 0

和

Σ_{j = 1}^{M} {w 2}_{i, j}^{*} &CirclePlus; {w 2}_{i, j + M}^{*} = 0

同时成立，则认为第i帧的内容是真实和完整的；否则，认为第i帧的内容存在被攻击的部分。

在检测到第i帧存在被攻击的部分之后，通过移位的方法找到下一个能通过认证的连续P个样本点，并提取该帧的帧号i′；通过对比i′和i-1来判断攻击的类型和内容；然后选择幅值为0的信号替换被攻击的部分。幅值为0的信号在反置乱加密之后将分散到整个语音信号中，替换的信号不会影响原始信号要表达的内容，实现语音信号的篡改恢复。

本发明方法的效果可以通过以下的性能分析验证：

1、不可听性和篡改恢复能力

选取100段采样率为22.05kHz，样本长度为1024000，分辨率为16比特的单声道WAV格式的语音信号进行置乱加密和水印嵌入，得到100段含水印的语音密文信号。

（1）不可听性

图5给出了在不同量化步长下100段语音信号的SNR平均值，可见本方法在量化步长小于0.5的时候具有很好的不可听性。

（2）篡改恢复能力

篡改恢复能力用R_c表示，定义如下：

R_{c} = \frac{L_{c}}{L}

其中，L_c表示允许删除的样本点个数，L表示语音信号的长度。

图6给出了删除不同数量的样本点后，按照本发明恢复信号的SDG值。图7给出了在恢复信号的SDG值大于-1的情况下，100个语音段每段允许删除的最大样本点个数。可以看出，在SDG值大于-1的情况下，允许删除的样本点的个数大约为102400。由篡改恢复能力的定义可得，本发明的篡改恢复能力大约为1/10。

2、篡改定位和篡改恢复

图8（a）和（b）给出了原始语音信号和含水印语音密文信号。图9（a），（b），（c）和（d）分别给出了对图8（b）删除攻击后的信号，篡改定位结果，用幅值为0的信号替换被攻击的部分和篡改恢复的信号。图10（a），（b），（c）和（d）分别给出了对图8（b）替换攻击后的信号，篡改定位结果，用幅值为0的信号替换被攻击的部分和篡改恢复的信号。图11给出了删除和替换攻击篡改恢复信号的SDG值。从测试结果来看，本发明能够精确地篡改定位和高质量的篡改恢复。

Claims

1.一种可恢复的密文域语音内容认证方法，对语音密文篡改定位并对被恶意篡改的部分进行篡改恢复，其具体步骤包含如下：

(1)含水印语音密文的生成：首先对原始语音信号X做混沌置乱加密处理，置乱后的语音密文信号记为S；接着，将S等分为不重叠的N个帧，每帧长为P，第i帧记为S_i；S_i分为三段，分别记为S1_i，S2_i，S3_i；然后，计算各段信号的能量比，用第一段信号的能量比生成水印W1_i，并嵌入在第三段S3_i中；将帧号i的对应的二值序列扩频为W2_i，并嵌入在第二段信号S2_i中；用该方法完成每个语音密文帧的水印嵌入，得到含水印的语音密文信号；

(2)语音密文内容认证和篡改恢复：与含水印语音密文生成过程类似，首先将待检测的语音密文WS进行分帧，每帧长为P，第i帧记为WS_i；将WS_i分为三段，计算各段信号的能量比；用第一段信号能量比生成的水印和第三段信号提取的水印做比较；记第二段信号提取的二值序列为

{W 2}_{i}^{*} = {{w 2}_{i, j}^{*} | {w 2}_{i, j}^{*} &Element; (0,1), 1 \leq j \leq 2 M},

用

{w 2}_{i, j}^{*} (1 \leq j \leq M)

和

{w 2}_{i, j}^{*} (M + 1 \leq j \leq 2 M)

作比较；若

{W 1}_{i}^{*} = {W 3}_{i}^{*},

且

{w 2}_{i, j}^{*} (1 \leq j \leq M) = {w 2}_{i, j}^{*} (M + 1 \leq j \leq 2 M),

则认为第i帧是真实的，否则，认为第i帧存在被攻击的部分，以此实现对语音密文的内容认证；