CN102881291A

CN102881291A - 语音感知哈希认证的感知哈希值提取方法及认证方法

Info

Publication number: CN102881291A
Application number: CN2012104093858A
Authority: CN
Inventors: 张秋余; 黄羿博; 邸燕君; 刘扬威; 杨仲平; 省鹏飞
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2013-01-16
Anticipated expiration: 2032-10-24
Also published as: CN102881291B

Abstract

语音感知哈希认证的感知哈希值提取方法及认证方法，根据LPC的特点，对LPC方法进行优化，并对LPC系数优化、分块、分块后进行参数的矩阵分解三个步骤，来提高LPC方法的鲁棒性，通过优化后的LPC系数具有较强的鲁棒性和计算效率，构成的感知哈希序列也提高了鲁棒性。本发明使用优化后的LPC系数计算出的感知哈希值不但保持了单纯LPC方法实时性好的优点，还对语音在传输过程中的攻击，具有很好的鲁棒性。

Description

语音感知哈希认证的感知哈希值提取方法及认证方法

技术领域

[0001] 本发明属于多媒体信息安全领域，具体涉及一种基于线性预测分析（Linear Prediction Coefficients ，LPC）的语音感知哈希特征提取与认证方法，可用于语音通信通话过程中语音信号的内容认证、说话人认证。

背景技术

[0002] 语音是人类最重要的交流工具，它自然方便，准确高效。随着现代网络技术和多媒体技术的快速发展，人们从网络上获得的多媒体信息的数量越来越多。语音信息作为人类交流信息最自然、最有效、最方便的手段，使地球上任意地区的人都可以随时随地通电话，人们的相互联系越来越紧密。语音的存在形式也由声波扩展到了模拟信号和数字信号，使得可以无线传播和保存。但是在方便人类生活的同时，随之而来的是海量的语音信息处理、信息安全、社会安全问题。由于语音通信的开放性、便利性和准确性，语音每天都会产生海量的语音信息，因此怎样保证语音信息的安全成为近年来的热点问题。

语音内容认证技术就是一个实现对语音数据完整性、真实性进行保护的有效技术手段，它可以检测出接收到的语音数据在传送过程中没有经过第三方的恶意编辑和篡改。由于语音的特殊性，传统的签名认证算法无法满足语音的认证要求，一是因为鲁棒性的要求，语音在传输过程中经常会受到各种干扰，而语音信息并不会因为内容保持操作而影响整体的听觉理解，因此认证过程中，就应该将内容保持操作归纳到认证的范围内，这就对语音认证算法的鲁棒性提出了很高的要求。另一方面，语音传输的实时性和语音移动终端的资源问题，使得语音认证算法对运算效率又有着很高的要求。而传统的摘要认证算法是将所有的数据都看成比特流，因此原始数据的微小改动，都会使产生的摘要发生变化，鲁棒性太差，不适用于语音认证，并且对资源要求很高，计算量较大，不适用于语音移动终端。

感知哈希函数可以应用于验证信息来源的真实性和信息的完整性。它可以将任意长度的信息，通过单向映射的方式，压缩成一定长度的数据摘要，在设计哈希函数时，需要根据应用中的实际需求，选择压缩率、安全性和运算效率的折中，见文献“M.Schmucker, H. Zhang. D.WVL.11 Benchmarking Metrics and Concepts for Perceptual Hashing[R]. ECRYPT European Network of Excellence in Cryptology, 19 October 2006 ”。哈希函数的原理非常简单，在设计哈希函数时，自由度是比较大的。到目前为止，哈希函数的算法设计可以分为三个大类：标准型、基于分组加密型、基于模运算型，见文献“Yuhua Jiao, Liping Ji, Xiamu Niu. Perceptual Speech Hashing and Performance Evaluation[J], International Journal of Innovative Computing, Information and Control, 2010, 6(3(B)):1447-1458”。随机的哈希函数区分性和压缩性要比它的安全性要好，因此安全性还可以依靠密钥的设置来保障，这些性质使得哈希函数非常适合应用于信息安全领域，尤其是语音认证领域。

构造语音感知哈希重要的一项内容就是对语音信号特征值提取，特征值是原始语音信号的表达形式，提取出的是能代表原始信号的数据。因此，提取出的特征值水平怎么样，严重影响语音感知哈希构造的水平。通常语音特征值提取可以分为时域分析和变换域分析，其中时域分析方法最简单、最直观，它直接对语音信号的时域波形进行分析，提取的特征参数主要有语音短时能量、语音短时平均幅度、短时平均过零率和短时自相关函数等。语音特征的提取有两种方法：一种是提取听觉感知特征如音调、响度；另一种是计算非感知特征，也就是物理特征，如对数倒谱系数、线性预测系数、线性谱频率（见文献“ Yuhua Jiao, Liping Ji, Xiamu Niu. Robust Speech Hashing for Content Authentication[J], IEEE Signal Processing Letters, 2009, 16(9):818-821”）、梅尔倒频系数（见文献“Gaikwad. S., Gawali, B., Yannawar, P., Mehrotra, S.. Feature extraction using fusion MFCC for continuous marathi speech recognition[C], India Conference (INDICON), 2011 Annual IEEE , 16-18 Dec. 2011: 1–5”等）。文献“Xugang Lu, Shigeki Matsuda, Masashi Unoki. Temporal modulation normalization for robust speech feature extraction and recognition[J], Multimedia Tools and Applications, 2011, 1(52):187-199”和“Hui Yin, Volker Hofmann, Climent Nedeu. Acoustic Features for Speech Recognition Based on Gammatione Filterbank and Instantaneous Frequency[J], Speech Communication, 2011,5(53):707-715”分别使用了时空调制归一化(Temporal modulation normalization)方法和Gammatone滤波器对语音信息调制进行降噪，该算法可以降低噪声对语音信号的干扰，结合传统降噪方法，可以进一步降低噪声的效果，提高特征提取的鲁棒性和准确性。但上述方法构成感知哈希值的效率不是很高，不能够满足目前移动终端对语音认证实时性的需求。

作为在估计基本的语音参数，以及用低速率传输或储存语音等方面的核心技术，线性预测(Linear Prediction)可用很少的参数，有效而又正确地表现语音波形及其频谱的性质，而且计算效率高，在应用上灵活方便。但是单纯的LPC方法虽然计算效率高，但鲁棒性较差，对语音信号在传输过程中受到的内容保持操作攻击不具有鲁棒性。

发明内容

本发明的目的是提供一种基于线性预测分析的语音感知哈希认证的感知哈希值提取方法及认证方法。

本发明是语音感知哈希认证的感知哈希值提取方法及认证方法，语音感知哈希认证的感知哈希值提取方法，其步骤为：

(1) 对语音信号A进行分帧，使用汉明窗进行加窗，帧长为20ms，帧移为10ms；

(2) 计算语音信号每帧的线性预测系数R和每帧的短时平均能量E；

(3) 用每帧的短时平均能量E替换每帧线性预测系数的第一个线性预测系数；

(4) 对短时平均能量与线性预测系数构成的矩阵进行分块处理；

(5) 对分块处理后的A_m分别进行奇异值分解，形成U、S和V三个矩阵；

(6) 使用奇异值分解后的U、V系数重构矩阵，构成W=UV矩阵；

(7) 计算重构矩阵的列的和s(i)；

(8) 对s(i)进行量化处理，形成感知哈希序列，量化规则为：

。

语音感知哈希认证的认证方法，其步骤为：

(1) 对认证的两个语音的感知哈希值进行异或运算，X_hashXor Y_hash

(2) 对步骤(1)得到异或值进行求和运算，

(3) 用步骤(2)得到的和除以感知哈希值总长度，得到归一化的哈希距离，使用归一化的哈希距离来判断两段语音内容的匹配程度。

本发明具有以下优点：

　　(1) 本发明将原始语音进行分帧后，将分帧后的语音进行了分段，分段后的语音大小相同且互不重叠，将每一块进行特征值提取，经过这样处理后的语音，对局部攻击具有较好的鲁棒性。

(2) 本发明由于使用了语音短时能量作为线性预测系数的第一个预测系数，能够较好的描述语音信号的特征，能够更好的描述语音信号特征。

(3) 本发明引入了奇异值分解对语音线性预测特征进行矩阵分解，使得原有的特征值具有更好的鲁棒性。

(4) 本发明使用了感知哈希算法，使得构成的感知哈希序列具有了哈希算法的性质，而哈希算法的性质在语音认证中，是非常有益的。

(5) 本发明可以根据线性预测器的阶数，来控制对语音特征值提取的精确性和运算效率。

(6) 本发明在没有降低匹配的运算效率的情况下，提高了线性预测分析的鲁棒性和区分性。

附图说明

图1为本发明的实现流程图，图2~图7为本发明为不同阶数的正态分布图，其中图2为N=1正态分布图，图3为N=4正态分布图，图4为N=7正态分布图，图5为N=8正态分布图，图6为N=12正态分布图，图7为N=16正态分布图，图8本发明和线性预测分析（LPC）正态分布图，图9为8阶正态分布图，图10为本发明阶数与运算时间关系图，图11为LPC方法的误识率-误距率曲线图，图12为本发明的误识率-误距率曲线图。

具体实施方式

(6) 使用奇异值分解后的U、V系数重构矩阵，构成W=UV矩阵；

(7) 计算重构矩阵的列的和s(i)；

(8) 对s(i)进行量化处理，形成感知哈希序列，量化规则为：

。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述步骤(2)所述的计算原始语音信号每帧的线性预测系数R和每帧的短时平均能量E，按如下步骤进行：

(1) 语音信号经过加窗分帧处理后，得到的第N帧的语音信号为A_N(m)，则A_N(m)满足：

A_N(m) = W(m) A( m + n )

(2) 第n帧的能量E(n)为：

(3) LPC预测系数：

其中，n为语音信号的总帧数，p为线性预测器的阶数。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述的步骤(3)所述的用每帧的短时平均能量E替换每帧线性预测系数的第一个预测函数R，按如下步骤进行：

(1) 求出的线性预测函数，得到的线性预测系数首位为1；

(2) 首位的1在进行后续奇异值分解时，会对分解后的矩阵产生影响，使得分解后的特征值区分性变差，将第一行去掉，产生新的预测系数矩阵；

(3) 可以将每一帧的能量E(n)添加到每一帧的线性预测系数的前面，也就是将1的位置替换掉；这样，使用每一帧的平均短时能量和线性预测系数来描述每一语音帧的特性；构成新的线性预测矩阵为：

。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述的步骤(4)所述的对短时平均能量与线性预测系数构成的矩阵进行分块处理，按如下步骤进行：

(1) 矩阵分为m个p*p小矩阵

。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述的步骤(5)所述的对分块处理后的A_m分别进行奇异值分解，形成U、S和V三个矩阵：

。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述的步骤(6)所述的使用奇异值分解后的U、V系数重构矩阵，构成W=UV矩阵：

(1) 将矩阵UV进行拼接；

(2) 拼接矩阵的行为MAX（L_u，L_v）,列数小于MAX（L_u，L_v）的用0补齐，补的行数的大小为

J=MAX（L_u，L_v）- Min（L_u，L_v）

(3) 重复(1)、(2)直到求出所有分块矩阵的重构矩阵。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述的步骤(7)所述的计算重构矩阵的列的和s(i)；按如下步骤进行：

(1) 对重构矩阵的每一列进行求和运算，得到每一列特征值的总和；

(2) 重复(1)，直到求出所有分块矩阵的每一列的特征值总和。

根据以上所述的语音感知哈希认证的感知哈希值提取方法，根据上述的步骤(8)所述的对矩阵进行量化处理，形成感知哈希序列，按如下步骤进行：

(1) 将所有的特征值拼接起来，根据语音帧的顺序进行拼接，得到一个特征值序列；

(2) 对集合起来的序列求特征值的中值

；

(3) 用每一个特征值与中值进行对比，大于中值的特征值量化为1，小于或者等于中值的特征值量化为0；

(4) 重复(3)，直到求出所有的量化值；

（5）形成的0、1序列即为所要求的语音感知哈希值。

语音感知哈希认证的认证方法，其步骤为：

(2) 对步骤(1)得到异或值进行求和运算，

下面结合附图和具体实施方式，对本发明做进一步的详细说明。

本发明的语音感知哈希认证的感知哈希值提取方法及认证方法，其实现步骤如下：

步骤1：将原始语音A进行分帧、加窗处理。

将语音进行分帧，每帧的长度len=20ms、帧移inc=10ms。首先根据帧长和帧移，计算语音的共有帧数length，设定一个(length′len)大小的零矩阵f，将每一帧的信息赋值给f。

步骤2：求分帧后语音的线性预测系数R，利用Levinson-Durbin算法递推可以得到语音的线性预测系数。

(2.1) 首先，求正向预测误差功率E_p，s(n)为待分析语音信号，p为线性预测系数的个数。

预测误差e(n)为语音信号与预测语音的差值，

，正向预测误差功率为最小方均误差，因此可得

。

R(p)为信号s(n)的自相关序列。自相关序列R(k)，1≤k≤p，可以根据自相关算法来求得

。

(2.2) 利用Levinson-Durbin算法可以从最低阶预算器开始逐阶递推计算。最低阶1阶时，无预测误差，E(0)=r(0)。然后求系数

(2.3) 求得系数k后，可以得到E_i的误差功率为

(2.4) p阶预测器的第i个预测器的线性预测系数为

(2.5) p阶预测器的第j个预测器的预测系数为

其中：

重复(2.2)、(2.3)、(2.4)、(2.5)步骤，可对i=1,2….,p进行求解，最终解为，

。

重复步骤2，求出所有语音帧的线性预测系数。

步骤3：计算语音信号每帧的短时信号能量。语音短时能量为一帧样点值的加权平方和，设第n帧语音信号的短时能量用E_n表示：

步骤4：重复步骤2和步骤3，求出所有语音帧的线性预测系数Y_n和能量E_n，其中1≤n≤length

步骤5：每个语音帧的第一个预测系数都为1，取预测函数的2—p个系数，重新构成一个新的预测系数T。

重复步骤5，得到所有语音帧的新预测系数T_n。

步骤6：用步骤4得到的短时能量E_n与步骤5得到的新预测系数T，构成新的预测系数R，然后将构成的每帧预测系数R，构成一个系数矩阵，系数矩阵R_n=[E_n, R_n]。

步骤7：得到新矩阵后，先将矩阵进行分块，我们假设将矩阵分为m个p′p小矩阵，那么就能分出

个小矩阵，原有的矩阵变为

。这样做，可以将语音信号受到局部干扰或者攻击的部分影响范围，控制在一个或者几个小矩阵内，不至于影响整个语音段，提高语音认证时的鲁棒性。

步骤8：对步骤7得到的矩阵进行奇异值分解。

(8.1) 利用矩阵A,求解AA^H。

(8.2) 求得矩阵AA^H的酉相似对角矩阵及酉相似矩阵U，

，可得AA^H的特征值

(8.3) 记U=（U₁，U₂），

，

(8.4) 酉矩阵V=（V₁,V₂）,

,扩充V₁为酉矩阵，V=（V₁,V₂）得到V₂。

(8.5) 构造奇异值分解。

重复步骤8，对矩阵A_P所有的子矩阵进行奇异值分解。

步骤9：用步骤8得到的基矩阵U、V构成一个新的矩阵，新矩阵w由U、V构成，由于U、V的行数不同，这里就需要用0对较小的矩阵进行补阵。先判断U、V矩阵行的大小，假设原矩阵大小为m′n，经过奇异值分解得到U的大小就为m′m，V的大小为n′n，判断m与n的大小max(m, n)，再用max(m, n) - min(m, n)，得到需要补阵时0的行数，得到的矩阵为：

重复步骤9，得到各个子矩阵的基矩阵U、V构成的新矩阵。

步骤10：将各子矩阵经过步骤9得到的新矩阵拼接成一个大矩阵，并对矩阵的每列求和。形成一个由s(i)形成的序列。

步骤11：求序列的中值，对序列进行量化，量化规则是，序列中的值大于中值

时，量化为1；当序列中的值小于等于中值

时，量化为0。

步骤12：量化后的序列为所求的感知哈希值的序列H。

本发明的线性预测感知哈希算法的认证方法，其实现步骤如下：

步骤1：将待测语音进行线性预测感知哈希算法的特征值提取，形成待测语音的感知哈希序列HD

步骤2：将待测语音感知哈希序列的中的每一位感知哈希值与已有的语音感知哈希序列相对应的感知哈希值进行异或运算。当两个序列长度不一样时，用0将短的感知哈希序列补齐成长度一样的序列。

步骤3：对异或运算后的序列进行求和，得到不同感知哈希值的总个数，再除以感知哈希序列的总长度，得到归一化的哈希距离。

步骤4：根据实验得到的阈值，来判断待测语音是否认证成功。小于阈值，认为是相同语音，大于阈值，认为是不同语音。

本发明的优点可通过以下仿真实验进一步说明：

1.实验条件与实验说明

实现本发明的软件环境为美国Mathworks公司开发的MATLAB 2009a，实验中大量的语音.WAV格式的语音段包括来自TIMIT语音库和录音室录制的语音。长度4seconds的语音共1189段，其中包含中文和英文的不同内容语音和相同内容不同人朗读的语音。所采用的语音参数为采样率为16000Hz,比特率为256kbps,声道数为单声道，采样精度为16bit，格式为wav。分帧时，帧长为20ms、帧移为10ms。

2实验内容

实验1：区分性

从图2~图7可以看出（N为LPC预测器的阶数）， LPC预测器阶数在N=8时，区分度曲线已经能够与正态分布线重合，正态分布曲线按照选取阶数的大小沿X轴进行平移。

当N=8时，从图8~图9可知，不同内容的语音的感知哈希值的比特误码率基本服从正态分布，其概率分布参数为均值μ=0.4564, 标准差σ=0.0226。误识率为：

从图10能够得出，阶数N与运算时间为近似的线性关系，预测器阶数越大，运算时间越长。在这里我们选择N=8作为后续实验的LPC预测器阶数。

图8~图9所示在实验中本发明对比LPC方法，LPC方法的8阶正态分布并未与期望的斜线完全重合。因此，本发明的区分性要优于LPC方法的区分性。

表1.本发明误识率

τ	FAR
		0.25	2.7786e-020
0.30	2.0186e-012
		0.35	1.1843e-006

相比于本发明，LPC方法的概率分布参数为均值μ=0.4921, 标准差σ=0.0249

表2. LPC方法误识率

τ	FAR
		0.25	1.4181e-022
0.30	6.6981e-015
		0.35	6.0701e-009

从表1和表2可以看出，LPC方法的误识率略好于本发明，但当阈值为0.35时本发明的误识率也达到10^-6。因此，本发明的区分性能够满足语音认证的需要。

实验2：鲁棒性

对语音库中的语音进行下列内容保持操作：

(1) 减小音量：将原始语音音量减小50%；

(2) 增大音量：将原始语音音量增大50%；

(3) 低通滤波：用5阶巴特沃兹低通滤波器对语音信号进行2kHZ的滤波；

(4) 重采样：将语音信号采样频率下降为8kHZ,再上升为16kHZ；

(5) 回声：叠加衰减为60％，延时为300ms，初始强度分别为20％和10％的回声。

(6) 窄带噪声：将语音信号分别加上中心频率分布在0~4KHz的窄带高斯噪声；

(7) 剪切：随机剪切语音片段，再通过插入静音帧的方法使语音片段回复到原来的长度剪切比率为10%。

根据上述攻击得到BER，绘制FRR，FAR曲线，如图11、图12所示，从内容相同的语音中提取的感知哈希值，BER都在阈值0.35以下，实验结果表明，本发明具有较高的鲁棒性。并且，图中FRR-FAR曲线在图中没有交叉，说明本发明同时具有良好的区分性和鲁棒性，可以准确的识别内容保持操作和内容恶意操作。根据表1可知，当阈值τ=0.35时，FAR=1.1843e-006。

根据上述攻击得到表3，说明本发明同时具有良好的区分性和鲁棒性，可以准确的识别内容保持操作和内容恶意操作。

表3 本发明的平均比特误码率

操作手段	平均比特误码率
		降低音量	0.1267
增大音量	0.2294
		回声	0.3138
低通滤波	0.3403
		重采样	0.0995
添加噪声	0.3185
		剪切	0.0698

从表3可以看出以上几种攻击的平均比特误码率都低于判决阈值0.35，增大音量与减小音量并不能改变声音的声道模型。因此，优化后的LPC系数不会发生较大的改变，所以调整音量不会产生误码率。在进行剪切时，由于将语音帧进行了分块运算。因此，剪切产生的影响会限定在局部范围内，剪切的误码率仍然较低。可见本发明对内容保持操作具有较好的鲁棒性。

实验3：效率分析

如表4所示，本发明具有特点为认证数据量小、效率高。特征及特征计算都从发明效率考虑，从语音库随机抽取50段语音，统计的发明运行时间。本发明时的预处理时间和认证时间与LPC方法相比，在提高了鲁棒性前提下，运算速度并没有很大的损失，认证效率很高，可以满足实时性应用要求。

表4 运算时间

	本发明	LPC方法
			特征提取	0.048955s	0.044249s
哈希构造	0.014295s	0.008149s
			总计	0.06325s	0.05238s
认证时间	0.000038s	0.000029s

通过上述三个实验可以看出，本发明具有良好的语音匹配认证的区分性，并且具有良好的鲁棒性、实时性，提高了LPC方法的鲁棒性，保持了LPC方法的效率，并且算法简单，运算效率高，哈希值数据率低，提高了感知哈希语音认证方法的综合性能，可以很好的满足语音内容完整性的认证、说话人认证、版权认证的需求。

综上所述，本发明提出了语音能量与线性预测编码相结合的语音感知哈希算法，由于能量能够比较好的表现语音的特征，因此使用语音能量替换线性预测编码的第一个预测系数，再对构成的系数进行分块，使受到攻击的影响范围能够控制在几帧范围内，使得大多数语音帧不会受到影响，并对分块后的矩阵进行奇异值分解，得到语音特征，最后对语音特征进行量化，得到语音的感知哈希值。性能实验结果表明：本发明能够得到区分性和鲁棒性较好的折中，并且算法简单，运算效率高、哈希值数据率低，可以很好的完成语音内容完整性的认证。