CN102915740A

CN102915740A - 可实现篡改定位的语音感知哈希内容认证方法

Info

Publication number: CN102915740A
Application number: CN2012104094066A
Authority: CN
Inventors: 张秋余; 邸燕君; 黄羿博; 陈海燕; 刘扬威; 省鹏飞; 杨仲平
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2013-02-06
Anticipated expiration: 2032-10-24
Also published as: CN102915740B

Abstract

可实现篡改定位的语音感知哈希内容认证方法，首先对语音信号进行预处理，并对每帧语音信号分别进行10阶的线性预测分析，通过离散傅里叶变换法求得线谱对LSP系数作为感知特征；然后将语音数据顺序分组，并将各组语音的LSP系数加权的期望顺序组合作为最终的认证数据，经哈希构造来压缩认证数据量；最后通过哈希匹配实现了对语音内容的快速认证。该方法对改变音量、回声、重采样等内容保持操作具有鲁棒性，对替换、删除等恶意操作敏感，可实现精确的篡改区域定位，且具有认证数据量小、运行效率高的特性，适用于资源受限的语音通信终端。

Description

可实现篡改定位的语音感知哈希内容认证方法

技术领域

本发明属于多媒体信息安全领域，基于语音感知哈希技术，提出了一种高效的可实现篡改区域精确定位的语音内容认证方法，可用于语音通信中的内容认证并可实现精确的篡改区域定位。

背景技术

[0002] 随着数字信号处理技术、移动通信技术和互联网等技术的快速发展，对音频数据的伪造趋于隐蔽化，并且可以以极低的成本进行，因此对音频数据的内容完整性认证需求日益增加。语音作为音频的重要组成部分，其完整性在新闻报道、电话通信、金融交易、电子政务等应用中非常重要。语音的语义通过简单的重排或去除几个单词就会改变，因此，语音的完整性与真实性只靠人类听觉来判断是远远不够的。

对人类听觉系统来讲，语音内容认证技术需要保护的是语音内容而不是比特流本身的完整性，因此它应该能够容忍一些保持语音听觉质量或者语义的正常信号处理操作而不触发检测器。有效的内容完整性保护方法，不仅要满足感知内容认证所必需的鲁棒性、区分性，还需要满足语音通信中的实时性，才能真正在语音认证系统中实用。语音内容认证技术可以实现对语音数据完整性、真实性进行保护，它保证接收到的语音数据在传送过程中没有经过第三方的恶意编辑和篡改，即在人类听觉感知系统的意义上与原始语音是完全相同的。可实现语音感知内容认证的技术主要有数字签名，数字水印和感知哈希等。与数字水印技术相比，感知哈希技术不会对语音数据造成任何改变，其鲁棒性也更好。

当前针对语音的感知哈希的研究很少，尤其是用于语音内容认证，语音感知内容认证就是实现对通信终端的语音信号进行篡改检测与定位。焦玉华等人(见文献JIAO Yu-hua, LI Qiong, NIU Xia-mu. Compressed domain perceptual hashing for MELP coded speech[J]. IEEE Computer Society, 2008: 410-413.)提出了结合MELP的语音感知哈希算法；陈宁等人（见文献CHEN Ning, WAN Wang-gen. Robust speech hash function[J]. ETRI Journal, 2010, 32(2): 345-347.）提出了基于线性预测系数(LPC)的非负矩阵分解(NMF)的鲁棒语音哈希函数；陈宁等人（见文献CHEN Ning, WAN Wang-gen. Speech hashing algorithm based on short-time stability[C]// ICANN 2009, Part II, LNCS 5769, 2009:426-434.）还提出了基于短时稳定性的语音哈希算法。这些算法都能够有效检测恶意篡改，然而效率却不是很高，也不能实现篡改定位。

线性预测分析是目前分析语音信号最有效的方法之一。线性预测可用很少的参数有效而又正确地表现语音波形及其频谱的性质，而且计算效率高，在应用上灵活方便。从LPC系数到LSP系数的转化可采用多种方法求解，如：代数方程式求解法，离散傅里叶变换法（DFT），切比雪夫多项式求解法等。LSP参数是LPC在频域的一种等价表示，比LPC参数有更好的鲁棒性，可用来估计基本的语音特性，与语音谱包络的关系较时域的LPC更为紧密，并且具有更好的量化特性与插值特性，被广泛的应用于各种语音编码标准中，并且在语音识别等方面也得到了较好的应用。

一种认证算法的效率主要与提取的特征尺度、算法计算量和特征提取的复杂度三个因素有关。提取何种特征直接影响算法性能，为了达到较小的认证计算量与数据量，应该提取与语义相关的特征，而非信号特征。

发明内容

本发明的目的是提供一种可实现篡改定位的语音感知哈希内容认证方法。

本发明是可实现篡改定位的语音感知哈希内容认证方法，其步骤为：

(1) 对语音信号A进行分帧，分为20ms的等长帧，使用汉明窗进行加窗，帧移为15ms；

(2) 对每一帧语音信号进行LPC分析，求得其10阶LPC系数；

(3) 将每一帧LPC系数转化为LSP系数，每一帧语音信号的LSP系数为一行组合为矩阵A；

(4) 将LSP系数顺序分组，并将各组加权分解矩阵A得新矩阵A_J；

(5) 生成哈希向量h，

；

(6) 哈希匹配：按上述步骤先从发送端提取出感知特征，进行计算将其转换为认证数据h₁，然后与原始语音一起送入传输信道，当接收端收到数据时一边提取出认证数据h₁，一边用同样的方法计算认证数据h₂，再将两端的认证数据进行匹配，将匹配结果与阈值相比较；两段感知内容相同语音的哈希的BER值小于匹配阈值，系统不报警；相反，感知不同语音的BER应大于阈值系统报警。

本发明的有益之处在于：

本发明利用提取语音感知特征，经哈希构造得哈希值，构造过程简单，故认证效率高。

在语音认证时，当语音内容受到篡改时能准确定位其篡改位置是十分必要的。本发明中认证过程是在语音预处理的前提下进行，帧长相等，哈希值构造具有单向性，匹配时对语音的毫秒级精确定位是非常有意义的。

附图说明

图1为本发明的语音感知哈希内容认证过程框图，图2为感知相同语音、不同语音和篡改语音BER分布曲线图，图3为不同内容语音哈希BER正态概率图，图4为误识率曲线图，图5为误拒率曲线图，图6为多处局部篡改精确定位对照示意图。

具体实施方式

(2) 对每一帧语音信号进行LPC分析，求得其10阶LPC系数；

(5) 生成哈希向量h，；

根据以上所述的可实现篡改定位的语音感知哈希内容认证方法，转换LPC系数为LSP系数的方法为DFT法。

根据以上所述的可实现篡改定位的语音感知哈希内容认证方法，分解矩阵A的步骤为：

(1) 确定语音信号总帧数为M，则分解后的矩阵A_J的行数为M/20；

(2) 矩阵A_J为：

。

根据以上所述的可实现篡改定位的语音感知哈希内容认证方法，哈希匹配方法的步骤为：

(1) 计算不同内容语音的哈希序列的BER，记做BER1；

(2) 计算原始语音和对其进行篡改操作后的语音的哈希序列的BER，记做BER2；

(3) 计算原始语音和对其进行内容保持操作后的语音的哈希值的BER，记做BER3。

根据以上所述的可实现篡改定位的语音感知哈希内容认证方法，篡改区域定位方法的步骤为：

（1）设识别阈值和认证阈值分别为τ ₁和τ ₂（τ ₁>τ ₂）；

（2）先用识别阈值判别相同语音和不同语音，再对BER分布在τ ₁和τ ₂区间内的语音通过篡改定位进行二次认证，相同语音依然可以通过认证；

其中，篡改定位是基于哈希构造方法的，当某行哈希值的BER大于30%时，认为改行哈希值所对应的300ms，即15ms×20的语音遭到篡改，而哈希值的行数决定了篡改语音在原始语音中的位置，能够完成篡改区域的毫秒级定位。

下面结合附图，对本发明做进一步的详细说明。

如图1所示，(1) 假设原始语音信号为S(n),将S(n)分为20ms的等长帧，记为S_i（i=1,2,…,M）,帧移为15ms；

(2) 对S_i进行10阶LPC分析，得各阶LPC系数，记为a_i ={a_i(n),n=1,2,...10}；

(3) 将每一帧数据LPC系数a_i转化为LSP系数，记做

；

(4) 求矩阵A，

,得M×10矩阵A；

(5) 对A进行子矩阵分解，

(6) 生成哈希向量h，

。

(7) 哈希匹配。将发送端与接收端的哈希向量进行异或运算，结果为1的次数大于匹配阈值则表示认证失败，语音内容遭到篡改，而结果为1的位置经换算后可实现篡改定位。

按上述步骤先从发送端提取出感知特征，进行计算将其转换为认证数据h₁，然后与原始语音一起送入传输信道（认证数据的传输未作研究），当接收端收到数据时一边提取出认证数据h₁，一边用同样的方法计算认证数据h₂，再将两端的认证数据进行匹配，将匹配结果与阈值(Threshold)相比较。两段感知内容相同语音的哈希的BER值小于匹配阈值，系统不报警；相反，感知不同语音的BER应大于阈值系统报警。

语音感知内容认证最基本的要求是能区分出相同语音、不同语音和篡改语音，篡改语音可以经过进一步篡改定位来决定是否通过认证。阈值的确定过程如下：

Step 1: 计算不同内容语音的哈希序列的BER，记做BER1。这里取最不易区别的语音段，即同一说话人的100条不同内容的语音段，算得感知哈希序列后两两计算其BER，求其平均值得BER1；

Step 2: 计算原始语音和对其进行篡改操作后的语音的哈希序列的BER，记做BER2。从语音库随机抽取不同内容语音段100条，对每一条语音进行大于300ms的随机位置的单处或多处替换，分别求得原始语音和篡改后语音的感知哈希值，相应地计算其BER，求其平均误码率得BER2。

计算原始语音和对其进行内容保持操作后的语音的哈希值的BER，记做BER3。同Step2取语音段100条，对其分别做如下所述的各种内容保持操作，相应计算哈希值后与原始语音的哈希值计算BER，求其平均误码率得BER3。

各种操作如下：

1.重采样：将语音信号采样频率下降为8kHZ,再上升为16kHZ；

2.回声：叠加衰减为60％，延时为300ms，初始强度分别为20％和10％的回声。

3.增大音量：将原始语音音量增大到150%；

4.减小音量：将原始语音音量减小至50%；

5.低通滤波：用5阶的巴特沃斯低通滤波器对语音进行截止频率为2kHZ的滤波。

6.剪切：随机剪切掉多于4800个采样点（300ms）；

将上述三步实验所得误码率同时绘在图2中。

从图2中看到篡改语音与内容保持操作后语音的BER曲线有部分重叠，这是因为当篡改时间很短时，篡改语音与相同语音的BER差别很小，但是，可通过降低认证阈值来改善，降低认证阈值后会有部分感知相同的语音被误认为是篡改语音。进行研究后设识别阈值和认证阈值分别为τ ₁和τ ₂（τ ₁>τ ₂），先用识别阈值判别相同语音和不同语音，再对BER分布在τ ₁和τ ₂区间内的语音通过篡改定位进行二次认证。因此，相同语音依然可以通过认证。

为了检测本发明的性能，我们做了如下实验。

实验环境：所用语音数据是由不同说话人、不同内容的语音组成，说话者有男有女，语言有英文有中文，采样频率为16KHz、精度为16bit的4秒wav语音段；实验硬件平台为：Inter Core i3-2450M，2G，2.4GHz，软件环境是Win7操作系统下的MATLAB R2010b。

对于语音感知内容认证有两个重要性能指标：鲁棒性与区分性。由于本发明算法基于语音感知哈希设计，其性能依赖于语义感知哈希性能。因此，实验首先对感知哈希值的区分性、鲁棒性进行了验证；其次，本发明算法是针对资源受限的语音通信终端的实时语音认证进行的设计，因对其效率要求较高，故而对其认证效率进行了验证；最后，对语音内容认证的另一重要因素篡改定位进行了实验。

实验一：鲁棒性分析

感知内容认证的鲁棒性要求对于感知上相同或相近的语音，认证算法应该得到同一序列值，也就是说对于一些正常的不改变语音语义的处理和扰动，如重采样、微小调音量、回声、噪声等，结果应该保持一致。鲁棒性的强弱除了与提取的感知特征有关外，很大程度上还决定于阈值的设定。不同认证阈值下各种内容保持操作的认证通过率如表1所示：

表1 各种内容保持操作后的认证通过率

Figure 2012104094066100002DEST_PATH_IMAGE008

表1中实验数据来自500个原始语音段和对其分别进行各种内容保持操作后语音。由表中数据可观察到，当阈值为0.28时，本发明对除了低通滤波外的所有操作的认证通过率都为百分之百，对重采样与减小音量鲁棒性最好，因为减小音量未改变声道模型，对增大音量和较小幅度的回声也有较好鲁棒性。对低通滤波的弱鲁棒性是因为感知特征LSP模拟声道模型的性质决定的。

实验二：区分性分析

区分性要求语义或感知上不同的语音应该生成不同的哈希值，它保证了语义上的篡改会导致认证失败。由于不同语音段的BER是随机变量，故可用其概率分布来分析本发明语音感知哈希值的区分性。取1200段语音（不同说话者，不同内容）计算其感知哈希序列，再两两计算BER（719400个值），得其概率分布与标准正态分布的概率比较图如图3所示。

由图3可见不同语音的BER值的概率分布与标准正态分布的概率曲线几乎重叠，故本发明所得哈希距离值近似服从正态分布，即感知不同的语音生成不同的哈希值。其理论FAR可由下式得出：

内容保持操作使语音的感知质量下降，而篡改使其感知内容变化，我们的目标是准确区分感知质量的下降与感知内容的变化。FAR和FRR的值分别反映算法区分性和鲁棒性，FAR值越低，区分性越好，FRR值越低，鲁棒性越好，它们也是一对相互矛盾的参数，通常根据应用的不同来进行取舍，本发明为了区分不同语音和篡改语音，略微偏向于区分性。随机取500条语音，将所得BER值分别求得FAR曲线和FRR曲线绘在同一张图中，从图4中可见两条曲线有交叉点，经试验分析得这是对低通滤波的较弱鲁棒性所致，去掉低通滤操作后的FAR_FRR曲线如图5所示。可见，本发明的整体鲁棒性受到对低通滤波的较弱鲁棒性影响，对其他操作鲁棒性很好。当认证阈值设为0.28时，该算法区分性最好，可区分除了低通滤波外的各种内容保持操作与恶意篡改。

实验三：效率分析

本发明针对资源有限的通信终端设计，故其突出特点为认证数据量小、效率高。特征及特征计算都从算法效率考虑，为实现精确的篡改定位哈希构造用线性运算，输入为4s语音时，输出为13×10的哈希值，哈希值尺寸远小于其他同类算法，这使得应用本算法时的预处理时间和认证时间都大大缩小。从语音库随机抽取50段语音，对每段语音重复实验10次，统计的本算法运行时间为：特征提取需0.13s，哈希构造需1.98ms，总计0.132s，满足实时应用的要求。

实验四：篡改定位与攻击类型

语音数据受到恶意篡改情况下，准确检测出篡改位置是语音感知内容认证需满足的条件。能改变语音信号语义内容的恶意攻击主要有剪切、插入与替换，由于剪切和插入直接改变了语音数据的大小，而全部替换又会使导致误码率大幅度提高，远超出认证阈值，必然都不会通过认证。因此，能检测并定位恶意的单处或多处局部替换是最有意义的。为验证本发明对篡改定位的精度，随机选取了一条4秒语音段，并对其随机地进行大于20帧(4800个采样点)的多处替换，篡改定位结果如图5所示。

图6中用椭圆标出了三处的局部替换。每分钟125词是人说话的正常语速，即每个词大约是480ms，而本发明算法中每一串哈希序列值是来自于300ms的语音短段。因此，可通过比较每一行的哈希值确定该小段语音是否遭到篡改，可实现局部的单处或多处篡改检测与定位。

综上所述：本发明利用与人的声道密切相关的LSP系数作为特征来构造哈希值，进行语义级的感知内容认证。精简的哈希构造使算法效率具有很大优势，同时借助LSP系数的鲁棒性，该算法能有效地区分部分内容保持操作与恶意篡改，还可以对局部篡改进行精确定位，有效验证语音内容完整性。

Claims

1.可实现篡改定位的语音感知哈希内容认证方法，其步骤为：

(2) 对每一帧语音信号进行LPC分析，求得其10阶LPC系数；

(5) 生成哈希向量h，

；

2.根据权利要求1所述的可实现篡改定位的语音感知哈希内容认证方法，其特征在于转换LPC系数为LSP系数的方法为DFT法。

3.根据权利要求1所述的可实现篡改定位的语音感知哈希内容认证方法，其特征在于分解矩阵A的步骤为：

(2) 矩阵A_J为：

。

4.根据权利要求1所述的可实现篡改定位的语音感知哈希内容认证方法，其特征在于哈希匹配方法的步骤为：

(1) 计算不同内容语音的哈希序列的BER，记做BER1；

5.根据权利要求1所述的可实现篡改定位的语音感知哈希内容认证方法，其特征在于篡改区域定位方法的步骤为：