CN102881291A - 语音感知哈希认证的感知哈希值提取方法及认证方法 - Google Patents

语音感知哈希认证的感知哈希值提取方法及认证方法 Download PDF

Info

Publication number
CN102881291A
CN102881291A CN2012104093858A CN201210409385A CN102881291A CN 102881291 A CN102881291 A CN 102881291A CN 2012104093858 A CN2012104093858 A CN 2012104093858A CN 201210409385 A CN201210409385 A CN 201210409385A CN 102881291 A CN102881291 A CN 102881291A
Authority
CN
China
Prior art keywords
matrix
frame
hash
perception
authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104093858A
Other languages
English (en)
Other versions
CN102881291B (zh
Inventor
张秋余
黄羿博
邸燕君
刘扬威
杨仲平
省鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University of Technology
Original Assignee
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University of Technology filed Critical Lanzhou University of Technology
Priority to CN201210409385.8A priority Critical patent/CN102881291B/zh
Publication of CN102881291A publication Critical patent/CN102881291A/zh
Application granted granted Critical
Publication of CN102881291B publication Critical patent/CN102881291B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

语音感知哈希认证的感知哈希值提取方法及认证方法,根据LPC的特点,对LPC方法进行优化,并对LPC系数优化、分块、分块后进行参数的矩阵分解三个步骤,来提高LPC方法的鲁棒性,通过优化后的LPC系数具有较强的鲁棒性和计算效率,构成的感知哈希序列也提高了鲁棒性。本发明使用优化后的LPC系数计算出的感知哈希值不但保持了单纯LPC方法实时性好的优点,还对语音在传输过程中的攻击,具有很好的鲁棒性。

Description

语音感知哈希认证的感知哈希值提取方法及认证方法
技术领域
[0001] 本发明属于多媒体信息安全领域,具体涉及一种基于线性预测分析(Linear Prediction Coefficients ,LPC)的语音感知哈希特征提取与认证方法,可用于语音通信通话过程中语音信号的内容认证、说话人认证。
背景技术
[0002] 语音是人类最重要的交流工具,它自然方便,准确高效。随着现代网络技术和多媒体技术的快速发展,人们从网络上获得的多媒体信息的数量越来越多。语音信息作为人类交流信息最自然、最有效、最方便的手段,使地球上任意地区的人都可以随时随地通电话,人们的相互联系越来越紧密。语音的存在形式也由声波扩展到了模拟信号和数字信号,使得可以无线传播和保存。但是在方便人类生活的同时,随之而来的是海量的语音信息处理、信息安全、社会安全问题。由于语音通信的开放性、便利性和准确性,语音每天都会产生海量的语音信息,因此怎样保证语音信息的安全成为近年来的热点问题。
语音内容认证技术就是一个实现对语音数据完整性、真实性进行保护的有效技术手段,它可以检测出接收到的语音数据在传送过程中没有经过第三方的恶意编辑和篡改。由于语音的特殊性,传统的签名认证算法无法满足语音的认证要求,一是因为鲁棒性的要求,语音在传输过程中经常会受到各种干扰,而语音信息并不会因为内容保持操作而影响整体的听觉理解,因此认证过程中,就应该将内容保持操作归纳到认证的范围内,这就对语音认证算法的鲁棒性提出了很高的要求。另一方面,语音传输的实时性和语音移动终端的资源问题,使得语音认证算法对运算效率又有着很高的要求。而传统的摘要认证算法是将所有的数据都看成比特流,因此原始数据的微小改动,都会使产生的摘要发生变化,鲁棒性太差,不适用于语音认证,并且对资源要求很高,计算量较大,不适用于语音移动终端。
感知哈希函数可以应用于验证信息来源的真实性和信息的完整性。它可以将任意长度的信息,通过单向映射的方式,压缩成一定长度的数据摘要,在设计哈希函数时,需要根据应用中的实际需求,选择压缩率、安全性和运算效率的折中,见文献“M.Schmucker, H. Zhang. D.WVL.11 Benchmarking Metrics and Concepts for Perceptual Hashing[R]. ECRYPT European Network of Excellence in Cryptology, 19 October 2006 ”。哈希函数的原理非常简单,在设计哈希函数时,自由度是比较大的。到目前为止,哈希函数的算法设计可以分为三个大类:标准型、基于分组加密型、基于模运算型,见文献“Yuhua Jiao, Liping Ji, Xiamu Niu. Perceptual Speech Hashing and Performance Evaluation[J], International Journal of Innovative Computing, Information and Control, 2010, 6(3(B)):1447-1458”。 随机的哈希函数区分性和压缩性要比它的安全性要好,因此安全性还可以依靠密钥的设置来保障,这些性质使得哈希函数非常适合应用于信息安全领域,尤其是语音认证领域。
构造语音感知哈希重要的一项内容就是对语音信号特征值提取,特征值是原始语音信号的表达形式,提取出的是能代表原始信号的数据。因此,提取出的特征值水平怎么样,严重影响语音感知哈希构造的水平。通常语音特征值提取可以分为时域分析和变换域分析,其中时域分析方法最简单、最直观,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音短时能量、语音短时平均幅度、短时平均过零率和短时自相关函数等。语音特征的提取有两种方法:一种是提取听觉感知特征如音调、响度;另一种是计算非感知特征,也就是物理特征,如对数倒谱系数、线性预测系数、线性谱频率(见文献“ Yuhua Jiao,  Liping Ji, Xiamu Niu. Robust Speech Hashing for Content Authentication[J], IEEE Signal  Processing Letters, 2009, 16(9):818-821”)、梅尔倒频系数(见文献“Gaikwad. S., Gawali, B., Yannawar, P., Mehrotra, S.. Feature extraction using fusion MFCC for continuous marathi speech recognition[C], India Conference (INDICON), 2011 Annual IEEE , 16-18 Dec. 2011: 1–5”等)。文献“Xugang Lu, Shigeki Matsuda, Masashi Unoki. Temporal modulation normalization for robust speech feature extraction and recognition[J], Multimedia Tools and Applications, 2011, 1(52):187-199”和“Hui Yin, Volker Hofmann, Climent Nedeu. Acoustic Features for Speech Recognition Based on Gammatione Filterbank and Instantaneous Frequency[J], Speech Communication, 2011,5(53):707-715”分别使用了时空调制归一化(Temporal modulation normalization)方法和Gammatone滤波器对语音信息调制进行降噪,该算法可以降低噪声对语音信号的干扰,结合传统降噪方法,可以进一步降低噪声的效果,提高特征提取的鲁棒性和准确性。但上述方法构成感知哈希值的效率不是很高,不能够满足目前移动终端对语音认证实时性的需求。
作为在估计基本的语音参数,以及用低速率传输或储存语音等方面的核心技术,线性预测(Linear Prediction)可用很少的参数,有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,在应用上灵活方便。但是单纯的LPC方法虽然计算效率高,但鲁棒性较差,对语音信号在传输过程中受到的内容保持操作攻击不具有鲁棒性。
发明内容
本发明的目的是提供一种基于线性预测分析的语音感知哈希认证的感知哈希值提取方法及认证方法。
本发明是语音感知哈希认证的感知哈希值提取方法及认证方法,语音感知哈希认证的感知哈希值提取方法,其步骤为:
(1) 对语音信号A进行分帧,使用汉明窗进行加窗,帧长为20ms,帧移为10ms;
(2) 计算语音信号每帧的线性预测系数R和每帧的短时平均能量E;
(3) 用每帧的短时平均能量E替换每帧线性预测系数的第一个线性预测系数;
(4) 对短时平均能量与线性预测系数构成的矩阵进行分块处理;
(5) 对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵;
(6) 使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵;
Figure 354700DEST_PATH_IMAGE001
(7) 计算重构矩阵的列的和s(i);
Figure 869995DEST_PATH_IMAGE002
(8) 对s(i)进行量化处理,形成感知哈希序列,量化规则为:
语音感知哈希认证的认证方法,其步骤为:
(1) 对认证的两个语音的感知哈希值进行异或运算,Xhash  Xor Yhash
(2) 对步骤(1)得到异或值进行求和运算,
Figure 227344DEST_PATH_IMAGE004
(3) 用步骤(2)得到的和除以感知哈希值总长度,得到归一化的哈希距离,使用归一化的哈希距离来判断两段语音内容的匹配程度。
本发明具有以下优点:
  (1) 本发明将原始语音进行分帧后,将分帧后的语音进行了分段,分段后的语音大小相同且互不重叠,将每一块进行特征值提取,经过这样处理后的语音,对局部攻击具有较好的鲁棒性。
(2) 本发明由于使用了语音短时能量作为线性预测系数的第一个预测系数,能够较好的描述语音信号的特征,能够更好的描述语音信号特征。
(3) 本发明引入了奇异值分解对语音线性预测特征进行矩阵分解,使得原有的特征值具有更好的鲁棒性。
(4) 本发明使用了感知哈希算法,使得构成的感知哈希序列具有了哈希算法的性质,而哈希算法的性质在语音认证中,是非常有益的。
(5) 本发明可以根据线性预测器的阶数,来控制对语音特征值提取的精确性和运算效率。
(6) 本发明在没有降低匹配的运算效率的情况下,提高了线性预测分析的鲁棒性和区分性。
附图说明
图1为本发明的实现流程图,图2~图7为本发明为不同阶数的正态分布图,其中图2为N=1正态分布图,图3为N=4正态分布图,图4为N=7正态分布图,图5为N=8正态分布图,图6为N=12正态分布图,图7为N=16正态分布图,图8本发明和线性预测分析(LPC)正态分布图,图9为8阶正态分布图,图10为本发明阶数与运算时间关系图,图11为LPC方法的误识率-误距率曲线图,图12为本发明的误识率-误距率曲线图。
具体实施方式
本发明是语音感知哈希认证的感知哈希值提取方法及认证方法,语音感知哈希认证的感知哈希值提取方法,其步骤为:
(1) 对语音信号A进行分帧,使用汉明窗进行加窗,帧长为20ms,帧移为10ms;
(2) 计算语音信号每帧的线性预测系数R和每帧的短时平均能量E;
(3) 用每帧的短时平均能量E替换每帧线性预测系数的第一个线性预测系数;
(4) 对短时平均能量与线性预测系数构成的矩阵进行分块处理;
(5) 对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵;
(6) 使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵;
Figure 94806DEST_PATH_IMAGE001
(7) 计算重构矩阵的列的和s(i);
Figure 148212DEST_PATH_IMAGE002
(8) 对s(i)进行量化处理,形成感知哈希序列,量化规则为:
Figure 50309DEST_PATH_IMAGE003
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述步骤(2)所述的计算原始语音信号每帧的线性预测系数R和每帧的短时平均能量E,按如下步骤进行:
(1) 语音信号经过加窗分帧处理后,得到的第N帧的语音信号为AN(m),则AN(m)满足:
AN(m) = W(m) A( m + n )
Figure 530969DEST_PATH_IMAGE005
(2) 第n帧的能量E(n)为:
Figure 649841DEST_PATH_IMAGE006
(3) LPC预测系数:
Figure 241360DEST_PATH_IMAGE007
其中,n为语音信号的总帧数,p为线性预测器的阶数。
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述的步骤(3)所述的用每帧的短时平均能量E替换每帧线性预测系数的第一个预测函数R,按如下步骤进行:
(1) 求出的线性预测函数,得到的线性预测系数首位为1;
(2) 首位的1在进行后续奇异值分解时,会对分解后的矩阵产生影响,使得分解后的特征值区分性变差,将第一行去掉,产生新的预测系数矩阵;
(3) 可以将每一帧的能量E(n)添加到每一帧的线性预测系数的前面,也就是将1的位置替换掉;这样,使用每一帧的平均短时能量和线性预测系数来描述每一语音帧的特性;构成新的线性预测矩阵为:
Figure 915104DEST_PATH_IMAGE009
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述的步骤(4)所述的对短时平均能量与线性预测系数构成的矩阵进行分块处理,按如下步骤进行:
(1) 矩阵分为m个p*p小矩阵
Figure 757158DEST_PATH_IMAGE010
Figure 152367DEST_PATH_IMAGE011
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述的步骤(5)所述的对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵: 
Figure 29056DEST_PATH_IMAGE012
Figure 851519DEST_PATH_IMAGE013
Figure 682334DEST_PATH_IMAGE014
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述的步骤(6)所述的使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵:
Figure 881234DEST_PATH_IMAGE001
(1) 将矩阵UV进行拼接;
(2) 拼接矩阵的行为MAX(Lu,Lv),列数小于MAX(Lu,Lv)的用0补齐,补的行数的大小为
J=MAX(Lu,Lv)- Min(Lu,Lv
(3) 重复(1)、(2)直到求出所有分块矩阵的重构矩阵。
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述的步骤(7)所述的计算重构矩阵的列的和s(i);按如下步骤进行:
(1) 对重构矩阵的每一列进行求和运算,得到每一列特征值的总和;
(2) 重复(1),直到求出所有分块矩阵的每一列的特征值总和。
根据以上所述的语音感知哈希认证的感知哈希值提取方法,根据上述的步骤(8)所述的对矩阵进行量化处理,形成感知哈希序列,按如下步骤进行:
(1) 将所有的特征值拼接起来,根据语音帧的顺序进行拼接,得到一个特征值序列;
(2) 对集合起来的序列求特征值的中值
Figure 612429DEST_PATH_IMAGE015
(3) 用每一个特征值与中值进行对比,大于中值的特征值量化为1,小于或者等于中值的特征值量化为0;
(4) 重复(3),直到求出所有的量化值;
(5)形成的0、1序列即为所要求的语音感知哈希值。
语音感知哈希认证的认证方法,其步骤为:
(1) 对认证的两个语音的感知哈希值进行异或运算,Xhash  Xor Yhash
(2) 对步骤(1)得到异或值进行求和运算,
Figure 605793DEST_PATH_IMAGE004
(3) 用步骤(2)得到的和除以感知哈希值总长度,得到归一化的哈希距离,使用归一化的哈希距离来判断两段语音内容的匹配程度。
 下面结合附图和具体实施方式,对本发明做进一步的详细说明。
本发明的语音感知哈希认证的感知哈希值提取方法及认证方法,其实现步骤如下:
步骤1:将原始语音A进行分帧、加窗处理。
将语音进行分帧,每帧的长度len=20ms、帧移inc=10ms。首先根据帧长和帧移,计算语音的共有帧数length,设定一个(length′len)大小的零矩阵f,将每一帧的信息赋值给f。
步骤2:求分帧后语音的线性预测系数R,利用Levinson-Durbin算法递推可以得到语音的线性预测系数。
(2.1) 首先,求正向预测误差功率Ep,s(n)为待分析语音信号,p为线性预测系数的个数。
预测误差e(n)为语音信号与预测语音的差值,
Figure 422439DEST_PATH_IMAGE016
,正向预测误差功率为最小方均误差,因此可得
Figure 425030DEST_PATH_IMAGE017
R(p)为信号s(n)的自相关序列。自相关序列R(k),1≤k≤p,可以根据自相关算法来求得
Figure 948416DEST_PATH_IMAGE018
(2.2) 利用Levinson-Durbin算法可以从最低阶预算器开始逐阶递推计算。最低阶1阶时,无预测误差,E(0)=r(0)。然后求系数
Figure 174998DEST_PATH_IMAGE019
(2.3) 求得系数k后,可以得到Ei的误差功率为
Figure 416623DEST_PATH_IMAGE020
(2.4) p阶预测器的第i个预测器的线性预测系数为
(2.5) p阶预测器的第j个预测器的预测系数为
Figure 896070DEST_PATH_IMAGE022
 其中:
Figure 559132DEST_PATH_IMAGE023
重复(2.2)、(2.3)、(2.4)、(2.5)步骤,可对i=1,2….,p进行求解,最终解为
Figure 429185DEST_PATH_IMAGE025
重复步骤2,求出所有语音帧的线性预测系数。
步骤3:计算语音信号每帧的短时信号能量。语音短时能量为一帧样点值的加权平方和,设第n帧语音信号的短时能量用En表示:
步骤4:重复步骤2和步骤3,求出所有语音帧的线性预测系数Yn和能量En,其中1≤n≤length
步骤5:每个语音帧的第一个预测系数都为1,取预测函数的2—p个系数,重新构成一个新的预测系数T。
重复步骤5,得到所有语音帧的新预测系数Tn
步骤6:用步骤4得到的短时能量En与步骤5得到的新预测系数T,构成新的预测系数R,然后将构成的每帧预测系数R,构成一个系数矩阵,系数矩阵Rn=[En, Rn]。
步骤7:得到新矩阵后,先将矩阵进行分块,我们假设将矩阵分为m个p′p小矩阵,那么就能分出
Figure 495547DEST_PATH_IMAGE027
 个小矩阵,原有的矩阵变为
Figure 446186DEST_PATH_IMAGE028
。这样做,可以将语音信号受到局部干扰或者攻击的部分影响范围,控制在一个或者几个小矩阵内,不至于影响整个语音段,提高语音认证时的鲁棒性。
步骤8:对步骤7得到的矩阵进行奇异值分解。
(8.1) 利用矩阵A,求解AAH
(8.2) 求得矩阵AAH的酉相似对角矩阵及酉相似矩阵U,
Figure 892473DEST_PATH_IMAGE029
,可得AAH的特征值
(8.3) 记U=(U1,U2),
Figure 244957DEST_PATH_IMAGE030
(8.4) 酉矩阵V=(V1,V2),
Figure 249822DEST_PATH_IMAGE031
,扩充V1为酉矩阵,V=(V1,V2)得到V2
(8.5) 构造奇异值分解
重复步骤8,对矩阵AP所有的子矩阵进行奇异值分解。
步骤9:用步骤8得到的基矩阵U、V构成一个新的矩阵,新矩阵w由U、V构成,由于U、V的行数不同,这里就需要用0对较小的矩阵进行补阵。先判断U、V矩阵行的大小,假设原矩阵大小为m′n,经过奇异值分解得到U的大小就为m′m,V的大小为n′n,判断m与n的大小max(m, n),再用max(m, n) - min(m, n),得到需要补阵时0的行数,得到的矩阵为:
Figure 436270DEST_PATH_IMAGE033
重复步骤9,得到各个子矩阵的基矩阵U、V构成的新矩阵。
步骤10:将各子矩阵经过步骤9得到的新矩阵拼接成一个大矩阵,并对矩阵的每列求和。形成一个由s(i)形成的序列。
步骤11:求序列的中值,对序列进行量化,量化规则是,序列中的值大于中值
Figure 744257DEST_PATH_IMAGE035
时,量化为1;当序列中的值小于等于中值
Figure 529417DEST_PATH_IMAGE035
时,量化为0。
步骤12:量化后的序列为所求的感知哈希值的序列H。
 
本发明的线性预测感知哈希算法的认证方法,其实现步骤如下:
步骤1:将待测语音进行线性预测感知哈希算法的特征值提取,形成待测语音的感知哈希序列HD
步骤2:将待测语音感知哈希序列的中的每一位感知哈希值与已有的语音感知哈希序列相对应的感知哈希值进行异或运算。当两个序列长度不一样时,用0将短的感知哈希序列补齐成长度一样的序列。
步骤3:对异或运算后的序列进行求和,得到不同感知哈希值的总个数,再除以感知哈希序列的总长度,得到归一化的哈希距离。
步骤4:根据实验得到的阈值,来判断待测语音是否认证成功。小于阈值,认为是相同语音,大于阈值,认为是不同语音。
 
本发明的优点可通过以下仿真实验进一步说明:
1.实验条件与实验说明
实现本发明的软件环境为美国Mathworks公司开发的MATLAB 2009a,实验中大量的语音.WAV格式的语音段包括来自TIMIT语音库和录音室录制的语音。长度4seconds的语音共1189段,其中包含中文和英文的不同内容语音和相同内容不同人朗读的语音。所采用的语音参数为采样率为16000Hz,比特率为256kbps,声道数为单声道,采样精度为16bit,格式为wav。分帧时,帧长为20ms、帧移为10ms。
2实验内容
实验1:区分性
从图2~图7可以看出(N为LPC预测器的阶数), LPC预测器阶数在N=8时,区分度曲线已经能够与正态分布线重合,正态分布曲线按照选取阶数的大小沿X轴进行平移。
当N=8时,从图8~图9可知,不同内容的语音的感知哈希值的比特误码率基本服从正态分布,其概率分布参数为均值μ=0.4564, 标准差σ=0.0226。误识率为:
Figure 856493DEST_PATH_IMAGE036
从图10能够得出,阶数N与运算时间为近似的线性关系,预测器阶数越大,运算时间越长。在这里我们选择N=8作为后续实验的LPC预测器阶数。
图8~图9所示在实验中本发明对比LPC方法,LPC方法的8阶正态分布并未与期望的斜线完全重合。因此,本发明的区分性要优于LPC方法的区分性。
表1.本发明误识率
τ FAR
0.25 2.7786e-020
0.30 2.0186e-012
0.35 1.1843e-006
相比于本发明,LPC方法的概率分布参数为均值μ=0.4921, 标准差σ=0.0249
表2. LPC方法误识率
τ FAR
0.25 1.4181e-022
0.30 6.6981e-015
0.35 6.0701e-009
从表1和表2可以看出,LPC方法的误识率略好于本发明,但当阈值为0.35时本发明的误识率也达到10-6。因此,本发明的区分性能够满足语音认证的需要。
实验2:鲁棒性
对语音库中的语音进行下列内容保持操作:
(1) 减小音量:将原始语音音量减小50%;
(2) 增大音量:将原始语音音量增大50%;
(3) 低通滤波:用5阶巴特沃兹低通滤波器对语音信号进行2kHZ的滤波;
(4) 重采样:将语音信号采样频率下降为8kHZ,再上升为16kHZ;
(5) 回声:叠加衰减为60%,延时为300ms,初始强度分别为20%和10%的回声。
(6) 窄带噪声:将语音信号分别加上中心频率分布在0~4KHz的窄带高斯噪声;       
(7) 剪切:随机剪切语音片段,再通过插入静音帧的方法使语音片段回复到原来的长度剪切比率为10%。
根据上述攻击得到BER,绘制FRR,FAR曲线,如图11、图12所示,从内容相同的语音中提取的感知哈希值,BER都在阈值0.35以下,实验结果表明,本发明具有较高的鲁棒性。并且,图中FRR-FAR曲线在图中没有交叉,说明本发明同时具有良好的区分性和鲁棒性,可以准确的识别内容保持操作和内容恶意操作。根据表1可知,当阈值τ=0.35时,FAR=1.1843e-006。
根据上述攻击得到表3,说明本发明同时具有良好的区分性和鲁棒性,可以准确的识别内容保持操作和内容恶意操作。
表3 本发明的平均比特误码率
操作手段 平均比特误码率
降低音量 0.1267
增大音量 0.2294
回声 0.3138
低通滤波 0.3403
重采样 0.0995
添加噪声 0.3185
剪切 0.0698
从表3可以看出以上几种攻击的平均比特误码率都低于判决阈值0.35,增大音量与减小音量并不能改变声音的声道模型。因此,优化后的LPC系数不会发生较大的改变,所以调整音量不会产生误码率。在进行剪切时,由于将语音帧进行了分块运算。因此,剪切产生的影响会限定在局部范围内,剪切的误码率仍然较低。可见本发明对内容保持操作具有较好的鲁棒性。
实验3:效率分析
如表4所示,本发明具有特点为认证数据量小、效率高。特征及特征计算都从发明效率考虑,从语音库随机抽取50段语音,统计的发明运行时间。本发明时的预处理时间和认证时间与LPC方法相比,在提高了鲁棒性前提下,运算速度并没有很大的损失,认证效率很高,可以满足实时性应用要求。
表4 运算时间
  本发明 LPC方法
特征提取 0.048955s 0.044249s
哈希构造 0.014295s 0.008149s
总计 0.06325s 0.05238s
认证时间 0.000038s 0.000029s
通过上述三个实验可以看出,本发明具有良好的语音匹配认证的区分性,并且具有良好的鲁棒性、实时性,提高了LPC方法的鲁棒性,保持了LPC方法的效率,并且算法简单,运算效率高,哈希值数据率低,提高了感知哈希语音认证方法的综合性能,可以很好的满足语音内容完整性的认证、说话人认证、版权认证的需求。
 
综上所述,本发明提出了语音能量与线性预测编码相结合的语音感知哈希算法,由于能量能够比较好的表现语音的特征,因此使用语音能量替换线性预测编码的第一个预测系数,再对构成的系数进行分块,使受到攻击的影响范围能够控制在几帧范围内,使得大多数语音帧不会受到影响,并对分块后的矩阵进行奇异值分解,得到语音特征,最后对语音特征进行量化,得到语音的感知哈希值。性能实验结果表明:本发明能够得到区分性和鲁棒性较好的折中,并且算法简单,运算效率高、哈希值数据率低,可以很好的完成语音内容完整性的认证。

Claims (9)

1.语音感知哈希认证的感知哈希值提取方法,其步骤为:
(1) 对语音信号A进行分帧,使用汉明窗进行加窗,帧长为20ms,帧移为10ms;
(2) 计算语音信号每帧的线性预测系数R和每帧的短时平均能量E;
(3) 用每帧的短时平均能量E替换每帧线性预测系数的第一个线性预测系数;
(4) 对短时平均能量与线性预测系数构成的矩阵进行分块处理;
(5) 对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵;
(6) 使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵;
Figure 706769DEST_PATH_IMAGE001
(7) 计算重构矩阵的列的和s(i);
Figure 272879DEST_PATH_IMAGE002
(8) 对s(i)进行量化处理,形成感知哈希序列,量化规则为:
2.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中步骤(2)所述的计算原始语音信号每帧的线性预测系数R和每帧的短时平均能量E,按如下步骤进行:
(1) 语音信号经过加窗分帧处理后,得到的第N帧的语音信号为AN(m),则AN(m)满足:
AN(m) = W(m) A( m + n )
Figure 997439DEST_PATH_IMAGE004
(2) 第n帧的能量E(n)为:
Figure 181295DEST_PATH_IMAGE005
(3) LPC预测系数:
Figure 551097DEST_PATH_IMAGE006
其中,n为语音信号的总帧数,p为线性预测器的阶数。
3.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中的步骤(3)所述的用每帧的短时平均能量E替换每帧线性预测系数的第一个预测函数R,按如下步骤进行:
(1) 求出的线性预测函数,得到的线性预测系数首位为1;
(2) 首位的1在进行后续奇异值分解时,会对分解后的矩阵产生影响,使得分解后的特征值区分性变差,将第一行去掉,产生新的预测系数矩阵;
Figure 271053DEST_PATH_IMAGE007
(3) 可以将每一帧的能量E(n)添加到每一帧的线性预测系数的前面,也就是将1的位置替换掉;这样,使用每一帧的平均短时能量和线性预测系数来描述每一语音帧的特性;构成新的线性预测矩阵为:
4.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中的步骤(4)所述的对短时平均能量与线性预测系数构成的矩阵进行分块处理,按如下步骤进行:
(1) 矩阵分为m个p*p小矩阵
Figure 739261DEST_PATH_IMAGE009
Figure 709491DEST_PATH_IMAGE010
5.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中的步骤(5)所述的对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵: 
Figure 720172DEST_PATH_IMAGE011
Figure 750445DEST_PATH_IMAGE012
Figure 846577DEST_PATH_IMAGE013
6.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中的步骤(6)所述的使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵:
Figure 119033DEST_PATH_IMAGE001
(1) 将矩阵UV进行拼接;
(2) 拼接矩阵的行为MAX(Lu,Lv),列数小于MAX(Lu,Lv)的用0补齐,补的行数的大小为
J=MAX(Lu,Lv)- Min(Lu,Lv
(3) 重复(1)、(2)直到求出所有分块矩阵的重构矩阵。
7.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中的步骤(7)所述的计算重构矩阵的列的和s(i);按如下步骤进行:
(1) 对重构矩阵的每一列进行求和运算,得到每一列特征值的总和;
(2) 重复(1),直到求出所有分块矩阵的每一列的特征值总和。
8.根据权利要求1所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求1中的步骤(8)所述的对矩阵进行量化处理,形成感知哈希序列,按如下步骤进行:
(1) 将所有的特征值拼接起来,根据语音帧的顺序进行拼接,得到一个特征值序列;
(2) 对集合起来的序列求特征值的中值
Figure 249800DEST_PATH_IMAGE014
(3) 用每一个特征值与中值进行对比,大于中值的特征值量化为1,小于或者等于中值的特征值量化为0;
(4) 重复(3),直到求出所有的量化值;
(5)形成的0、1序列即为所要求的语音感知哈希值。
9.语音感知哈希认证的认证方法,其步骤为:
(1) 对认证的两个语音的感知哈希值进行异或运算,Xhash  Xor Yhash
(2) 对步骤(1)得到异或值进行求和运算,
Figure 388657DEST_PATH_IMAGE015
(3) 用步骤(2)得到的和除以感知哈希值总长度,得到归一化的哈希距离,使用归一化的哈希距离来判断两段语音内容的匹配程度。
CN201210409385.8A 2012-10-24 2012-10-24 语音感知哈希认证的感知哈希值提取方法及认证方法 Expired - Fee Related CN102881291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210409385.8A CN102881291B (zh) 2012-10-24 2012-10-24 语音感知哈希认证的感知哈希值提取方法及认证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210409385.8A CN102881291B (zh) 2012-10-24 2012-10-24 语音感知哈希认证的感知哈希值提取方法及认证方法

Publications (2)

Publication Number Publication Date
CN102881291A true CN102881291A (zh) 2013-01-16
CN102881291B CN102881291B (zh) 2015-04-22

Family

ID=47482591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210409385.8A Expired - Fee Related CN102881291B (zh) 2012-10-24 2012-10-24 语音感知哈希认证的感知哈希值提取方法及认证方法

Country Status (1)

Country Link
CN (1) CN102881291B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091104A (zh) * 2014-07-02 2014-10-08 兰州理工大学 多格式音频感知哈希认证的特征值提取及认证方法
CN104134443A (zh) * 2014-08-14 2014-11-05 兰州理工大学 对称三进制串表示的语音感知哈希序列构造和认证方法
CN104835499A (zh) * 2015-05-13 2015-08-12 西南交通大学 基于时-频域趋势变化的密文语音感知哈希及检索方案
CN105741853A (zh) * 2016-01-25 2016-07-06 西南交通大学 一种基于共振峰频率的数字语音感知哈希方法
CN107195028A (zh) * 2017-04-27 2017-09-22 贾华淇 一种高精度无线语音识别门禁系统
CN109036439A (zh) * 2018-08-24 2018-12-18 兰州理工大学 一种加密语音信号的感知哈希特征提取方法及系统
CN109255040A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法
CN109817222A (zh) * 2019-01-26 2019-05-28 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN110188219A (zh) * 2019-05-16 2019-08-30 复旦大学 面向图像检索的深度强化去冗余哈希算法
CN115410386A (zh) * 2022-09-05 2022-11-29 同盾科技有限公司 短时速度预测方法及装置、计算机存储介质、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044084A (ja) * 2001-07-31 2003-02-14 Casio Comput Co Ltd 音声認証装置及び音声認証プログラム
US7243064B2 (en) * 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN102074238A (zh) * 2010-12-13 2011-05-25 山东科技大学 一种基于线性干扰抵消的语音隐秘通信方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044084A (ja) * 2001-07-31 2003-02-14 Casio Comput Co Ltd 音声認証装置及び音声認証プログラム
US7243064B2 (en) * 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN102074238A (zh) * 2010-12-13 2011-05-25 山东科技大学 一种基于线性干扰抵消的语音隐秘通信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱勇: "基于感知哈希的语音身份及内容认证技术研究", 《中国优秀硕士学位论文全文数据库》, 1 May 2012 (2012-05-01) *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091104A (zh) * 2014-07-02 2014-10-08 兰州理工大学 多格式音频感知哈希认证的特征值提取及认证方法
CN104091104B (zh) * 2014-07-02 2017-03-15 兰州理工大学 多格式音频感知哈希认证的特征值提取及认证方法
CN104134443A (zh) * 2014-08-14 2014-11-05 兰州理工大学 对称三进制串表示的语音感知哈希序列构造和认证方法
CN104134443B (zh) * 2014-08-14 2017-02-08 兰州理工大学 对称三进制串表示的语音感知哈希序列构造和认证方法
CN104835499A (zh) * 2015-05-13 2015-08-12 西南交通大学 基于时-频域趋势变化的密文语音感知哈希及检索方案
CN104835499B (zh) * 2015-05-13 2018-02-06 西南交通大学 基于时‑频域趋势变化的密文语音感知哈希及检索方案
CN105741853A (zh) * 2016-01-25 2016-07-06 西南交通大学 一种基于共振峰频率的数字语音感知哈希方法
CN105741853B (zh) * 2016-01-25 2019-03-29 西南交通大学 一种基于共振峰频率的数字语音感知哈希方法
CN107195028B (zh) * 2017-04-27 2018-07-06 深圳昌恩智能股份有限公司 一种高精度无线语音识别门禁系统
CN107195028A (zh) * 2017-04-27 2017-09-22 贾华淇 一种高精度无线语音识别门禁系统
CN109255040A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法
CN109255040B (zh) * 2018-07-27 2021-10-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法
CN109036439A (zh) * 2018-08-24 2018-12-18 兰州理工大学 一种加密语音信号的感知哈希特征提取方法及系统
CN109817222A (zh) * 2019-01-26 2019-05-28 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN109817222B (zh) * 2019-01-26 2024-02-02 平安科技(深圳)有限公司 一种年龄识别方法、装置及终端设备
CN110188219A (zh) * 2019-05-16 2019-08-30 复旦大学 面向图像检索的深度强化去冗余哈希算法
CN110188219B (zh) * 2019-05-16 2023-01-06 复旦大学 面向图像检索的深度强化去冗余哈希方法
CN115410386A (zh) * 2022-09-05 2022-11-29 同盾科技有限公司 短时速度预测方法及装置、计算机存储介质、电子设备
CN115410386B (zh) * 2022-09-05 2024-02-06 同盾科技有限公司 短时速度预测方法及装置、计算机存储介质、电子设备

Also Published As

Publication number Publication date
CN102881291B (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
CN102881291B (zh) 语音感知哈希认证的感知哈希值提取方法及认证方法
WO2018166112A1 (zh) 基于声纹识别的身份验证的方法、电子装置及存储介质
Lei et al. Robust SVD-based audio watermarking scheme with differential evolution optimization
WO2012075641A1 (en) Device and method for pass-phrase modeling for speaker verification, and verification system
CN110047519B (zh) 一种语音端点检测方法、装置及设备
CN102915740B (zh) 可实现篡改定位的语音感知哈希内容认证方法
WO2012075640A1 (en) Modeling device and method for speaker recognition, and speaker recognition system
CN111897909B (zh) 一种基于深度感知哈希的密文语音检索方法及系统
Kanhe et al. A DCT–SVD-based speech steganography in voiced frames
Zhang et al. An efficient perceptual hashing based on improved spectral entropy for speech authentication
Wang et al. Multi-subspace echo hiding based on time-frequency similarities of audio signals
Al-Karawi et al. Model selection toward robustness speaker verification in reverberant conditions
Cai et al. Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems
CN109920447B (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
Zhen et al. On psychoacoustically weighted cost functions towards resource-efficient deep neural networks for speech denoising
Huang et al. Encrypted speech perceptual hashing authentication algorithm based on improved 2D-Henon encryption and harmonic product spectrum
CN116386648A (zh) 跨域语音鉴伪方法和系统
CN104091104B (zh) 多格式音频感知哈希认证的特征值提取及认证方法
Huang et al. Perceptual speech hashing authentication algorithm based on linear prediction analysis
Qiuyu et al. An efficient speech perceptual hashing authentication algorithm based on DWT and symmetric ternary string
Lan et al. Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network
Nagakrishnan et al. Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models
CN104134443A (zh) 对称三进制串表示的语音感知哈希序列构造和认证方法
Bhattacharyya et al. Audio steganalysis of LSB audio using moments and multiple regression model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150422

Termination date: 20181024