CN104835499A

CN104835499A - 基于时-频域趋势变化的密文语音感知哈希及检索方案

Info

Publication number: CN104835499A
Application number: CN201510240584.4A
Authority: CN
Inventors: 王宏霞; 郝广洋
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2015-08-12
Anticipated expiration: 2035-05-13
Also published as: CN104835499B

Abstract

本发明公开了一种基于时-频域趋势变化的密文语音感知哈希及检索方案，将语音分为时域和频域两部分提取感知哈希，采用适应于大规模数据、效率较高的混沌异或加密算法对语音进行加密，再使用数字水印技术将感知哈希序列嵌入密文语音的最低有效位中，生成密文语音库和系统感知哈希表。将密文语音库和感知哈希表上传云端。检索时对用户提供的索引语音提取感知哈希序列，将该摘要序列作为索引提交云服务器，并在云端的系统哈希表中匹配检索，当该感知哈希序列与系统哈希表中感知哈希值匹配成功时，为用户返回哈希表中该哈希摘要对应的密文语音，检索成功。从而实现了对云端加密语音的快速、准确检索。本发明在使用时区分权重、先后匹配，从而在大规模应用时提高了匹配效率。

Description

基于时-频域趋势变化的密文语音感知哈希及检索方案

技术领域

本发明涉及一种新颖的语音感知哈希方案和基于内容的密文语音检索方案。

背景技术

语音感知哈希算法是将语音数据集单项映射为一段简洁的数字摘要，并满足区分性、鲁棒性、单向性、摘要性和安全性等要求。语音感知哈希技术应用范围很广，如语音识别、检索和认证等领域。而随着互联网的普及以及计算机存储能力的快速发展，语音的数量也在飞速增加，语音感知哈希技术怎样更好的适应如此迅猛增长的语音数量，成为急需解决的问题。云计算的出现为大规模语音数据的存储提供了新思路。但是在云环境中，用户的数据存储在防火墙外的远程服务器中，从密码学的角度来说，远程的云服务器并不是可信任的第三方，因此，存储在云端的重要数据需要进行前端加密。

传统的语音感知哈希算法大都是对语音进行时频变换，在频域提取鲁棒性较好的特征用于提取感知哈希摘要。大部分语音感知哈希算法都是基于常见的频域鲁棒特征提取哈希序列，例如频域MFCCs系数、傅里叶系数、小波变换系数等。文献“A highly robust audio fingerprinting system”(J.Haitsma,T.Kalker,Proceedings of International Symposium on Music Information Retrieval.Paris,France,2002:107-115)中，提出一种基于时间轴上频域能量不同性的感知哈希算法；文献“音频感知哈希算法研究”(焦玉华.哈尔滨工业大学博士学位论文.2009)给出了感知哈希各项性质的数学定义，且提出了用熵率来联合评价算法的区分性、压缩性等性能。除此之外，该文献还提出了一种压缩宽带音频感知哈希算法、原始语音感知哈希算法及编码标准相结合的语音感知哈希算法。现有的感知哈希算法虽然性能不断提升，但并没有从大规模实际应用的角度考虑，算法复杂性与其使用效率之间的矛盾一直无法解决。

语音中不乏语音订单、法庭证据、军事命令等重要信息，这些数据如果不加以保护便上传云端，很容易造成隐私泄露，也是极为危险的。因此，对重要信息在上传云端前进行加密是必要的手段。另一方面，当存储在云端的加密数据规模越来越大之后，如何从中快速、准确地检索出指定的语音片段，成为急需解决的问题。

综上所述，现有的感知哈希算法一味的追求提取特征的鲁棒性，并没有从实际应用角度出发，在大规模应用时效率较低；云端密文语音数据量的增加，给快速、准确检索带来了挑战。

发明内容

鉴于现有技术的以上不足，本发明的目的是提供一种基于时-频域趋势变化的感知哈希及检索方案，并使之具有快速、准确检索的优点。

本发明的目的是通过以下的手段实现的。

一种基于时-频域趋势变化的密文语音感知哈希及检索方案，基于感知哈希的密文语音检索方案实现对密文语音在不解密情况下的快速准确检索，包含如下步骤：

(1)感知哈希提取：将语音信号分为时域和频域两部分；

时域采用不重叠分帧，从第二帧开始，比较每帧与前一帧的短时能量，如果大于前一帧，表示该帧提取的时域感知哈希为1，否则为0；将提取的感知哈希值按分帧顺序排列，形成整段语音的时域感知哈希序列h₁；

频域分析采用重叠分帧，帧移等于时域分帧的帧长，首先以帧为单位对语音进行傅里叶变换，将语音信号从时域变换到频域，再将频域信号转换到Bark域，计算24个Bark域中12到19共8个Bark域的短时能量值，再对这8个值进行DCT变换，最终用DCT变换后的低频分量来代表该帧的频域能量，从第二帧开始，比较每帧与前一帧的频域能量，若大于，表示该帧提取的频域感知哈希值为1，否则为0；将提取的感知哈希值按分帧顺序排列，形成整段语音的频域感知哈希序列h₂；

采用交叉结合方法将h₁和h₂结合起来，形成最终的感知哈希序列h；

(2)密文语音库生成：对(1)所获感知哈希序列h使用混沌异或方法对语音加密，最后采用数字水印方法将感知哈希序列嵌入加密后的语音，形成嵌有感知哈希的密文语音；

混沌异或加密采用的迭代公式为x_n＝μx_n(1-x_n)，其中,μ＝3.98,x₀为加密算法的密钥，x₀∈(0,1)；采用该迭代公式生成伪随机序列，再将伪随机序列二值化，与语音数据块的二进制数据按位异或，得到加密后的语音；在密文语音中每10ms选取一个采样点，在该采样点的最低有效位嵌入感知哈希值，生成嵌有感知哈希的密文语音；

对语音库中每段语音进行上述操作，并将所有提取的感知哈希序列保存在系统感知哈希表中；最后将得到的嵌有感知哈希的密文语音库和对应的系统感知哈希表上传云端；

(3)密文语音检索：由用户提供较短的索引语音片段，并同样采用(1)和(2)的方法生成索引感知哈希摘要；使用与该感知哈希摘要相同长度的滑动窗，在系统哈希表中滑动匹配与该索引感知哈希摘要最为相似的感知哈希序列，当匹配成功时，返回与该感知哈希序列对应的密文语音，即检索成功。

这样，本发明主要实际上为两部分，第一部分首先结合感知哈希的使用方法，提出了将语音分别进行时域和频域分析，提取两组感知哈希序列，给予不同的权重的方法。在使用过程中，先匹配时域感知哈希，若成功再匹配频域感知哈希，并综合时域和频域感知哈希的匹配情况得出最终匹配结果；若时域感知哈希匹配失败，则直接判定整体匹配失败。实验显示，该算法有较强的区分性和鲁棒性，并且随着实验样本的增加，其在效率上的优势也愈发增大。具体的步骤如下：

(1)时域感知哈希提取：对语音信号进行不重叠分帧(帧长20ms)。计算各帧的短时能量。从第二帧开始，用每帧的短时能量与前一帧的短时能量进行比较，如果大于前一帧，表示该帧提取的感知哈希值为1，否则为0。这样，除第一帧外，每帧都提取了1bit时域感知哈希值，将所有提取的时域感知哈希值按分帧的顺序排列起来就形成时域感知哈希序列h₁；

(2)频域感知哈希提取：对语音信号进行重叠分帧，帧长(30ms)略长于时域分析的帧长，帧移(20ms)等于时域分析的帧长。对于分帧后的语音，以帧为单位进行傅里叶变换，将信号从时域变换到频域，再将频域信号变换到对耳蜗具有很好模拟作用的Bark域，计算包含人类最敏感频域范围的12到19共8个Bark域的频域短时能量值，再对这8个值进行DCT变换，取变换后的低频分量代表该帧频域能量。从第二帧开始，将每帧的频域能量值与前一帧的频域能量值进行比较，若大于前一帧表示该帧提取的频域感知哈希值为1，否则表示0。这样，除第一帧外，每帧都提取了1bit感知哈希值，将所有提取的频域感知哈希值按分帧顺序结合起来就形成了频域感知哈希序列h₂。

(3)因为频域分帧的帧移等于时域分帧的帧长，所以时域和频域提取的感知哈希序列长度相同。将时域和频域感知哈希序列交叉结合起来，奇数位为时域感知哈希值，偶数位为频域感知哈希值。在进行感知哈希匹配时，先后匹配时域感知哈希序列和频域感知哈希序列，若都匹配成功，则判定匹配成功；若时域感知哈希匹配失败，则直接判定匹配失败，省去频域感知哈希序列的匹配步骤，这样就实现了提高匹配效率的目的。

与现有的语音感知哈希算法相比，本发明从感知哈希技术的实际使用角度出发。如感知哈希在语音检索中的应用，大部分匹配结果都是失败，尽早判断匹配失败可以很大程度提高检索的效率。因此本发明与其他算法在提取相同长度的感知哈希序列时，匹配速度可提高一倍左右。实验结果也显示，本算法在效率提高的前提下，感知哈希性能也十分出色，证明本发明更易于实际应用。

本发明的第二部分为利用该感知哈希方案，设计了一种支持隐私保护的密文语音检索方案。

密文语音库生成：首先按照上述方法对敏感语音提取感知哈希序列，再使用混沌异或加密对语音加密，最后将感知哈希序列嵌入加密后的语音，便形成了嵌有感知哈希的密文语音。语音加密方法采用混沌异或加密，其迭代公式为x_n＝μx_n(1-x_n)，其中x₀＝0.1,μ＝3.98,(x₀为加密算法的密钥，x₀∈(0,1))。采用该迭代公式生成伪随机序列，将伪随机序列二值化，与语音数据块的二进制数据按位异或，就得到加密后的语音。选取密文语音每10ms语音中的最后一个采样点的最低有效位作为水印嵌入位，将该语音生成的感知哈希序列逐比特嵌入，就生成了嵌有感知哈希的密文语音。对语音库中每段语音进行上述操作，并将所有提取的感知哈希序列保存形成系统感知哈希表。这样就得到了嵌有感知哈希的密文语音库和对应的系统感知哈希表。

密文语音检索：首先对用户提供的索引语音提取感知哈希序列H₁，将H₁作为摘要索引提交云端在系统哈希表中检索匹配。当时域和频域感知哈希都匹配成功时，得到系统哈希表中的感知哈希序列H₂，并为用户返回H₂对应的密文语音。也可在返回密文语音前对其采用相应的数字水印提取算法得到嵌在其中的感知哈希值H₃，并用H₂与H₃进行匹配，以确认检索结果。如果该次匹配失败，则表明系统哈希表与密文语音库的对应关系被破坏，应及时告知用户采取相应的措施。

与现有的语音感知哈希算法相比，本发明更侧重于实际应用的角度，对感知哈希区分权重使得在处理类似检索等情形时，匹配效率得到提升。而本发明提出的密文语音检索，可实现对云端加密语音的快速、准确检索。由于云端并非可信任的第三方，本文检索方法也可即时发现针对云端数据的恶意攻击。

附图说明

图1为基于时-频域趋势变化语音感知哈希算法框图

图2为感知哈希算法频域分析框图

图3为时-频域感知哈希序列交叉结合方法

图4为加密前的原始语音波形

图5为图4语音加密后的波形

图6为本发明实验测试区分性的499500个BER统计直方图。

图7为本发明算法在不同阈值下的FAR(错误识别率)。

图8为对常规语音信号处理的鲁棒性测试列表。

图9为语音进行常规信号处理后的检索结果列表。

具体实施方式

以下结合附录和实施例对本发明的技术方案作进一步描述。

一、感知哈希生成

感知哈希提取过程分为时域分析和频域分析两部分，时-频域分别提取感知哈希后再交叉结合起来形成最终的感知哈希摘要，其过程框图如图1所示。

1、时域感知哈希生成：

(1)对语音信号进行不重叠分帧，帧长采用20ms，可根据实际使用需求而设定；

(2)计算各帧的短时能量，为计算更为方便，采用较为简单的短时幅值绝对值之和来代替。用a_p(q)表示语音第p帧中第q个采样点的值，m为该帧中采样点的个数，n表示语音帧数。则第p帧的短时能量计算公式为：

E (p) = Σ_{q = 1}^{m} | q_{p} (q) |, p = 1,2, . . . n

(3)用每帧计算的短时能量值与前一帧计算的短时能量值进行比较，若大于前一帧，表示该帧提取的感知哈希值为1，否则表示提取的为0；

(4)除第一帧外，每一帧都按第(2)～(3)步所示方法计算，最终得出比帧数少1比特的时域感知哈希序列h₁。

2、频域感知哈希生成：

(1)语音分帧。对语音信号分帧，帧长为30ms，帧移等于时域分帧的帧长20ms，根据实际使用需求更偏重摘要性或区分性、鲁棒性，可自行设定；

(2)时频变换。对分帧后的语音信号，以帧为单位进行傅里叶变换，将信号从时域变换到频域；

(3)频域到Bark域转换。设round(·)是四舍五入取整函数，f表示频率，z是正整数，对应于Bark域各子带编号。则将傅里叶变换后的频域信号转换到Bark域可采用如下公式：

z＝round{13arctan(0.76/1000)+3.5arctan[(f/7500)²]}

(4)计算频域能量。对12到19共8个Bark域分别计算其频域能量，采用简化能量代替，H_BZ，H_LZ分别对应于每个Bark中的上下边界频率，则其简化能量的计算公式为：

S_{pz} (z) = Σ_{L_{BZ}}^{H_{BZ}} | X (jω) |

再对这8个能量值进行DCT变换，取变换后的低频分量代表该帧的频域能量，第p帧的频域能量记为F(p)；

(5)按帧提取感知哈希。按照以上方法，每一帧都提取出了1个值，从第二帧开始，将该值与前一帧对应提取的值进行比较，若大于等于前一帧对应值，则记为1，否则记为0。这样，除第一帧外，每一帧都提取了1比特的感知哈希值；

(6)感知哈希序列生成。将每一帧提取的1比特感知哈希值按分帧顺序连接起来，就得到了频域提取的感知哈希值h₂。

频域感知哈希的生成过程框图如图2所示。

3、时域、频域感知哈希结合：

如图3所示，将时域和频域感知哈希采用交叉结合方法结合起来。因为频域分帧的帧移等于时域分帧的帧长，因此本算法相当于每固定长度(时域分帧帧长)提取1比特时域感知哈希和1比特频域感知哈希。交叉结合后，在感知哈希序列的奇数位存放时域感知哈希值，偶数位存放频域感知哈希值。在实际应用时，先后匹配奇数位的时域感知哈希序列和偶数位的频域感知哈希序列，若都匹配成功，则判定两段语音内容相同；若时域感知哈希序列匹配失败，则直接判定匹配失败，不再进行频域感知哈希序列的匹配。这样，就可以在处理大规模语音处理时，大幅提高匹配效率。而且本发明所提取的感知哈希序列，除了匹配效率高，其性能也十分出色。

二、密文语音检索

1、语音加密算法：

(1)使用迭代方程：

x_n＝μx_n(1-x_n)

选取参数x₀＝0.1，μ＝3.98，(x₀为加密算法的密钥，x₀∈(0,1))迭代次数为所加密语音数据块二进制数据的比特位；

(2)伪随机序列二值化：将每次迭代获得的x_n二值化，大于等于0.5取1，小于0.5取0；

(3)将二值化的伪随机序列与语音数据块二进制数据按位异或，即实现语音的混沌异或加密。

如图4所示为加密前语音，图5所示为加密后的语音。

2、密文语音嵌入感知哈希的方法：

(1)结合本发明的感知哈希提取方法，选取每10ms语音的最后一个采样点的最低有效位作为水印嵌入位，将该位改变为对应的感知哈希值；

(2)按照(1)中所述方法，每10ms重复一次，直至嵌入完成，就实现了将感知哈希嵌入到密文语音的过程。

3、密文语音检索方法

(1)首先设定相似性阈值：感知哈希算法将语音内容之间的相似性从人为主观判定转换成哈希序列间的数学距离，因此需要设定相似性阈值来。本发明经过对感知哈希算法区分性和鲁棒性的测试，综合考虑后设定时域感知哈希匹配相似性阈值T₁＝0.3，综合时域和频域感知哈希的匹配阈值T₂＝0.25。

(2)检索时对用户提供的语音索引提取感知哈希摘要索引H₁，将该摘要索引上传云端在系统哈希表中检索匹配，在时域感知哈希匹配结果小于阈值T₁，频域感知哈希匹配结果小于阈值T₂时，匹配成功，得到哈希表中的感知哈希序列H₂，可直接为用户返回对应的密文语音。也可再对该密文语音提取感知哈希序列H₃，与H₂进行匹配以判断云端密文语音数据库的安全性。其中匹配结果BER的计算公式如下，以H₁和H₂的匹配为例：

BER = \frac{Σ_{i = 1}^{N} (p H_{1} (i) &CirclePlus; p H_{2} (i))}{N}

本发明方法的效果可以通过以下的性能分析验证：

1、感知哈希的区分性

实验中采用的语音库共1000个内容不同的语音片段，均为时长6s、采样频率8kHz、量化位数16位的单声道语音。对每段语音采用本发明算法提取感知哈希序列，共得到1000段感知哈希序列，再进行两两匹配(共1000×999/2＝499500次)，计算每次匹配的归一化汉明距离(也称为比特误码率BER)值，共得到499500个BER值，其统计直方图如图6所示，可以看出，BER值分布在035～0.65之间，基本服从正态分布。其概率分布参数为：均值μ＝0.4970，标准差σ＝0.0270。其在不同阈值下的错误识别率(FAR)的计算公式为：

R_{FA} (τ) = p (x < τ) = \frac{1}{\sqrt{2 π} σ} {&Integral;}_{- \infty}^{τ} e^{\frac{- {(x - μ)}^{2}}{{2 σ}^{2}}} dx

实现更好的区分性，相当于得到更低的FAR。图7列出了在不同阈值下，本发明算法的FAR值。从图7可以看出，本发明在不同阈值的情况下，都取得了较低的FAR值，可见本发明算法获得了很好的区分性。而且本发明每10ms只提取1bit感知哈希值，其摘要性也是比较出色的。

2、感知哈希的鲁棒性

对语音库中的1000段语音进行各种内容保持操作处理，包括MP3压缩、振幅增加、振幅减小、重量化、翻转等。分别提取原始语音感知哈希序列，与每种内容保持操作后的语音提取的感知哈希序列进行匹配，语音库共1000个语音片段，因此每种内容保持操作都要匹配1000次，得到1000个BER值。图8列出了每种内容保持操作对应的1000个BER值中的平均值与最大值。这两个值越小，表示语音操作前后所提取的感知哈希序列的数学距离越小，则说明算法的鲁棒性越好，可以看出，在所有进行的内容保持操作下，本发明都获得了很好的鲁棒性。

3、密文语音检索的查全率和查准率

采用上述语音库进行实验。从1000个语音片段中任选一个进行各种内容保持操作，具体的操作如图9所示。每种操作都对语音数据有一定修改，但未改变语音内容。将操作后的语音片段作为索引语音，对其提取感知哈希序列，在数据库中进行检索。在各种内容保持操作下获得的查全率和查准率如图9所示。

Claims

1.一种基于时-频域趋势变化的密文语音感知哈希及检索方案，基于感知哈希的密文语音检索方案实现对密文语音在不解密情况下的快速准确检索，包含如下步骤：

(1)感知哈希提取：将语音信号分为时域和频域两部分；