CN111897909A

CN111897909A - 一种基于深度感知哈希的密文语音检索方法及系统

Info

Publication number: CN111897909A
Application number: CN202010766576.4A
Authority: CN
Inventors: 张秋余; 白建; 李昱州; 赵雪娇; 许福久; 赵振宇
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-06
Anticipated expiration: 2040-08-03
Also published as: CN111897909B

Abstract

本发明涉及一种基于深度感知哈希的密文语音检索方法及系统。该方法包括：根据原始语音库，对原始语音文件进行加密处理来构建密文语音库；根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表；构造待查询语音的深度感知哈希序列；根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果；将所述检索匹配结果进行解密，并反馈给语音用户。本发明能够实现密文语音的高效检索。

Description

一种基于深度感知哈希的密文语音检索方法及系统

技术领域

本发明涉及密文语音检索领域，特别是涉及一种基于深度感知哈希的密文语音检索方法及系统。

背景技术

随着多媒体采集设备的日益普及和云存储、互联网等技术的飞速发展，存储在云端的多媒体数据为用户节省了本地空间，方便了不同客户端之间的数据共享的同时，也带来了查找困难、隐私泄露和数据不安全的问题。由于语音中包含大量机密信息，这使得语音信息在上传云端之前进行加密成为必然。由于语音数据加密后语音特征的巨大变化以及语音数据的不断增长，给密文语音检索增加了困难。因此，对密文语音检索技术的研究获得了众多研究机构和学者们的关注。

目前，现有基于内容的密文语音检索方法均是利用语音感知哈希技术提取语音的感知特征来实现。现有的语音特征提取方法在提取特征数量多时，效率明显降低，且受限于鲁棒性和区分性、摘要性和检索效率的矛盾，并且基于感知哈希的密文语音检索方法，不能满足对海量语音数据的检索需求，且索引的复杂度会随着数据维数的增加而呈指数级增长，从而导致维度灾难问题。而语音特征提取是检索过程的基础，特征表达的性能直接影响到后续的检索效果。由于现有基于感知哈希的密文语音检索方法都是利用已经设计好的语音特征，对提取的特征进行哈希构造进而生成二进制哈希序列来实现语音检索，而再重新设计适合密文语音检索的语音特征时需要大量的先验知识和实验过程。另外，现有的基于感知哈希的密文语音检索方法采用的语音长度均为4s-6s之间，增加语音长度后检索精度和检索效率均有所下降，因此本发明拟利用深度学习的方法来实现对较长的长语音(10s)进行检索。

目前，卷积神经网络(CNN,Convolutional Neural Network)是深度学习中发展最为深入的网络结构。由于CNN泛化能力强，对于局部数据的挖掘能力特别强，在人工智能领域的各个领域都取得了很好的效果。长短期记忆神经网络(LSTM，Long Short-Term MemoryNeural Network Model)不同于CNN，可以对时序数据进行处理，实现对时间序列上的变化进行建模。双向长短期记忆神经网络(BiLSTM,Bidirectional Long Short-Term Memory)是在LSTM神经网络基础上进行改进而形成的一种新的模型，可以解决由于传输时长增加导致的信息遗失程度明显的问题。受深度学习技术的启发，深度哈希方法将深度网络的输出作为特征更加适合描述语义信息。同时，深度学习方法也被应用于音频领域以从音频中捕捉复杂的特征。

另外，为了实现对云端语音数据的隐私保护，语音加密方法是密文语音检索系统中不可缺少的技术。现有的密文语音检索方法使用的加密算法例如DES、AES、低维混沌等已不适用于多媒体数据的加密，而超混沌系统凭借对初始参数的敏感性、随机性和遍历性等特征被广泛应用于多媒体数据加密。

目前，卷积神经网络(CNN)只能提取局部特征，不能很好的对时序数据进行处理。长短期记忆神经网络(LSTM)虽然可以对时序数据进行建模，但当传输时长增加时会使信息遗失程度变得明显。BiLSTM对每一个输入序列正向和反向都经过一次LSTM网络，但计算量大、处理时间长。

发明内容

本发明的目的是提供一种基于深度感知哈希的密文语音检索方法，能够实现密文语音的高效检索。

为实现上述目的，本发明提供了如下方案：

一种基于深度感知哈希的密文语音检索方法，包括：

根据原始语音库，对原始语音文件进行加密处理来构建密文语音库；

根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表；

构造待查询语音的深度感知哈希序列；

根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果；

将所述检索匹配结果进行解密，并反馈给语音用户。

可选地，所述根据原始语音库，对原始语音文件进行加密处理来构建密文语音库，具体包括：

获取原始语音库中的原始语音文件；

利用具有二次非线性的4D超混沌加密算法对所述原始语音文件进行加密，并上传至云端的密文语音库中，得到构建后的密文语音库。

可选地，所述根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表，具体包括：

提取所述原始语音文件的Log-Mel Spectrogram/MFCC特征；

根据所述Log-Mel Spectrogram/MFCC特征对CNN-BiLSTM网络模型进行训练，得到训练好的CNN-BiLSTM模型；

从所述训练好的CNN-BiLSTM模型中提取语音的深度特征，生成语音的深度感知哈希序列，并上传到云端的系统哈希索引表中；

将所述构建后的密文语音库中的密文语音文件与系统哈希索引表中的深度感知哈希序列建立一一映射关系，完成系统哈希索引表的构建。

可选地，所述根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果，具体包括：

获取相似性阈值；

根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法公式

确定待查询语音的深度感知哈希序列h_q和与存储在云端的系统哈希索引表中的语音哈希序列h_x的距离；

判断所述距离是否小于相似性阈值；

若是，则检索匹配成功，将匹配成功的密文语音数据解密后反馈给查询用户；

若否，则检索匹配失败。

一种基于深度感知哈希的密文语音检索系统，包括：

密文语音库构建模块，用于根据原始语音库，对原始语音文件进行加密处理来构建密文语音库；

系统哈希索引表生成模块，用于根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表；

深度感知哈希序列构造模块，用于构造待查询语音的深度感知哈希序列；

检索匹配模块，用于根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果；

解密模块，用于将所述检索匹配结果进行解密，并反馈给语音用户。

可选地，所述密文语音库构建模块，具体包括：

原始语音文件获取单元，用于获取原始语音库中的原始语音文件；

密文语音库构建单元，用于利用具有二次非线性的4D超混沌加密算法对所述原始语音文件进行加密，并上传至云端的密文语音库中，得到构建后的密文语音库。

可选地，所述系统哈希索引表生成模块，具体包括：

特征提取单元，用于提取所述原始语音文件的Log-Mel Spectrogram/MFCC特征；

训练单元，用于根据所述Log-Mel Spectrogram/MFCC特征对CNN-BiLSTM网络模型进行训练，得到训练好的CNN-BiLSTM模型；

深度感知哈希序列生成单元，用于从所述训练好的CNN-BiLSTM模型中提取语音的深度特征，生成语音的深度感知哈希序列，并上传到云端的系统哈希索引表中；

深度感知哈希构造方案确定单元，用于将所述构建后的密文语音库中的密文语音文件与系统哈希索引表中的深度感知哈希序列建立一一映射关系，完成系统哈希索引表的构建。

可选地，所述检索匹配模块，具体包括：

相似性阈值确定单元，用于获取相似性阈值；

距离确定单元，用于根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法公式

判断单元，用于判断所述距离是否小于相似性阈值；

检索匹配成功单元，用于在所述距离小于相似性阈值时，输出检索匹配成功，将匹配成功的密文语音数据解密后反馈给查询用户；

检索匹配失败单元，用于在所述距离大于或等于相似性阈值时，输出检索匹配失败。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明借鉴传统的基于内容的密文语音检索方案的感知哈希构造原理，利用深度学习方法在各个领域取的优越性，学习语音的紧凑二进制码来构造深度感知哈希序列以实现密文语音的高效检索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度感知哈希的密文语音检索方法流程图；

图2为密文语音检索系统模型处理流程图；

图3为具有二次非线性的4D超混沌语音加密流程图；

图4为本发明采用的CNN+BiLSTM网络学习框架；

图5为Log-Mel Spectrogram和MFCC的训练/测试损失曲线图；

图6为BER正态概率分布图；

图7为Log-Mel Spectrogram/MFCC在系统哈希索引表中匹配结果图；

图8为原始语音与加密语音的波形图和语谱图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于深度感知哈希的密文语音检索方法流程图。如图1所示，一种基于深度感知哈希的密文语音检索方法包括：

步骤101：根据原始语音库，对原始语音文件进行加密处理来构建密文语音库，具体包括：

获取原始语音库中的原始语音文件；

混沌系统因为具有对初始条件和控制参数的高度敏感性、遍历性、确定性、伪随机性、非周期性等优点，在多媒体加密领域有着广泛的应用。具有二次非线性的4D超混沌系统是从经典的Lorenz系统推导出一种新的具有两个二次非线性项的11项四维超混沌系统。其系统方程定义如式(1)：

其中x₁，x₂，x₃，x₄是状态变量，a，b，c是系统的正实参数。当采用初始值K＝(x₀,y₀,z_0,w₀)作为系统密钥可以生成用于加密的四维超混沌序列X＝{x(i),1≤i≤N}，Y＝{y(i),1≤i≤N}，Z＝{z(i),1≤i≤N}，W＝{w(i),1≤i≤N}，其中，N为混沌系统迭代的次数。

研究经验表明，当a＝10，b＝76，c＝3，初始值为(0.3,0.3,0.3,0.3)时，Lyappunov指数为(1.5146,0.2527,0,-12.7626)。由于系统中存在两个正的Lyappunov指数，显然系统处于超混沌状态。此外，超混沌系统的Kaplan-Yorke维数导出为D_KY＝3.1385，系统的Lyappunov指数等于自然测度维数，这表明系统的高复杂性。

图3为具有二次非线性的4D超混沌语音加密处理流程图。

语音加密的具体步骤如下：

步骤1：语音信号预处理。读取语音信号S＝{s(i),1≤i≤L}，其中L＝160,000。

步骤2：置乱操作。对所有语音采样点S＝{s(i),1≤i≤L}的位置使用4D超混沌系统生成的第一维混沌序列X＝{x(i),1≤i≤L}和第二维混沌序列Y＝{y(i),1≤i≤L}进行置乱操作。首先对混沌序列X和Y分别通过式(2)和式(3)得到X'和Y′，然后将X′和Y′通过式(4)得到的序列I作为置乱序列对S进行位置置乱，得到帧间置乱后语音S_x＝{s_x(i)，1≤i≤L}。

X′＝mod(floor(X+100)×10¹⁰)，250)+1 (2)

Y′＝mod(floor(Y+100)×10¹⁰)，256)+1 (3)

I＝mod(Y′+X′×(1：L)，L)+1 (4)

步骤3：异或扩散。使用具有二次非线性的4D系统生成的第三维混沌序列Z＝{z(i)，1≤i≤L}和第四维混沌序列W＝{w(i)，1≤i≤L}对置乱后的一维语音S_x＝{S_x(i)，1≤i≤L}分别利用式(5)进行正向扩散和式(6)反向扩散。

其中，S″_x(i)为异或扩散后的每一采样点，i＝1，2，...，L。

步骤4：恢复语音。最后重新构造为时域语音，得到加密语音信号S′＝{S″_x(i)，1≤i≤L}，加密过程结束。

步骤5：构建密文语音库。对原始语音库中所有的原始语音文件执行上述加密处理，并上传到云端的密文语音库中。

步骤102：根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表，具体包括：

提取所述原始语音文件的Log-Mel Spectrogram/MFCC特征；

本发明利用深度学习具有自主特征提取的特点，将CNN和BiLSTM相融合来学习语音的深度感知特征。图4为本发明采用的CNN+BiLSTM网络学习框架。表1是CNN-BiLSTM网络的参数设置。

表1 CNN-BiLSTM网络的参数设置

从表1可知该模型的主要构成和参数设置。其中TimeDistributed可以使用时间序列来进行一系列张量操作，方便实现CNN与BiLSTM连接。同时，为提高网络拟合速度减少训练时间，引入了批量归一化算法(Bach Normalization)。而MaxPooling2D可以为Conv2D提取的空间特征进行最大池化。Flatten层是为了将数据变成一维数据以便输入到下一层。最后第一个全连接层Dense作为特征提取层，然后利用Softmax作为网络输出层Dense的激活函数对语音数据进行分类。

图4所示的网络模型采用Python的Keras库实现，用于训练的损失函数是binarycrossentropy，优化算法是随机最速下降法stochastic gradient descent(SGD)。

本发明的深度感知哈希构造方案是将在分类层之前的全连接层作为特征提取层，并使用relu激活函数来提供范围约束，全连接层的神经元个数即为目标二进制深度感知哈希码的码长。通过网络模型的训练，可以将语义信息嵌入到这个全连接层输出之中。利用训练好的网络将原始的高维特征空间映射至低维汉明空间中，形成紧凑的二进制深度感知哈希码(深度感知哈希序列)，能够大幅度提高系统检索的高效性。

二进制深度感知哈希序列的构造过程如下：

步骤1：语音特征提取。首先对原始语音提取Log-Mel Spectrogram/MFCC特征。在特征提取阶段，使用Librosa库提取音频特征，采样率为16kHz，帧长、帧移分别设为25ms、10ms，采用汉明窗函数，并将输入语音时长固定为10s。

步骤2：深度感知特征提取。将提取的特征输入到训练好的CNN-BiLSTM网络模型中，提取深度感知特征序列H＝{H(i)|i＝1,2,…,M}。

步骤3：深度感知哈希序列的构造。将提取的深度感知特征序列H＝{H(i)|i＝1,2,…,M}进行哈希构造，生成深度感知哈希序列h＝{h(i)|i＝1,2,…,M}，其中二进制深度感知哈希序列的长度M＝384。二进制深度感知哈希序列构造函数如式(7)所示。

其中，H_meadian是特征向量H的中值。

步骤4：系统哈希索引表的生成。按照上述3个步骤，得到全部原始语音(S₁,S₂,…,S_x)的深度感知哈希序列(h₁,h₂,…,h_x)，并且每条语音生成的深度感知哈希序列与其相对应的密文语音构成Key-Value的一一映射关系，并上传到云端的系统哈希索引表中。

步骤103：构造待查询语音的深度感知哈希序列。

假设给定待查询语音q，首先从CNN-BiLSTM网络模型中提取H_q作为深度感知特征，然后通过式(7)来获取二进制深度感知哈希序列h_q。

步骤104：根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果，具体包括：

获取相似性阈值；

根据所述待查询语音的深度感知哈希序列利用归一化汉明距离((也称为比特误码率(Bit error rate，BER))算法公式

判断所述距离是否小于相似性阈值；

若否，则检索匹配失败。

以离线方式完成云端的密文语音库和系统哈希索引表的构建后，语音查询用户可以通过在线方式提交待查询语音，就可以通过“不下载、不解密”的方式进行密文语音检索。

该步骤中将生成的待查询语音的深度感知哈希序列h_q和与存储在云端的系统哈希索引表中的语音哈希序列h_x通过归一化汉明距离(也称为比特误码率(Bit error rate，BER)算法D(h_x,h_q)进行匹配，其数学公式定义如式(8)：

其中，M为二进制深度感知哈希序列的长度。

检索时可设置相似性阈值为T(0<T<0.5)。如果D(h_x,h_q)<T，则检索成功，系统将匹配成功并的密文语音数据解密后反馈给查询用户，否则检索匹配失败。

步骤105：将所述检索匹配结果进行解密，并反馈给语音用户。

检索结束后，需要对检索结果的密文语音文件解密后反馈给语音用户。此时的解密过程是加密过程的逆过程，即利用构建密文语音库时用到的语音加密算法对语音进行预处理后利用步骤3和步骤2得到解密的每帧语音，最后利用步骤4得到时域的解密语音信号，以此完成待查询语音的解密工作。其解密过程的详细处理步骤如下：

步骤1：读取密文语音Sx＝{Sx(i),1≤i≤L}其中L＝160,000，并使用与加密相同密钥生成混沌序列。

步骤2：异或扩散。使用具有二次非线性的4D超混沌系统生成的第四维混沌序列Z＝{w(i),1≤i≤L}和第三维混沌序列W＝{z(i),1≤i≤L}对密文语音Sx＝{Sx(i),1≤i≤L}进行式(9)反向扩散逆运算和式(10)正向扩散的逆运算。

其中，S”_x(i)为异或扩散逆运算后的每一采样点，i＝1,2,…,L。

步骤3：置乱操作。对步骤2的语音S”_x＝{S”_x(i),1≤i≤L}使用超混沌系统生成的第二维混沌序列Y＝{y(i),1≤i≤L}和第一维混沌序列X＝{x(i),1≤i≤L}进行置乱操作。首先对混沌序列X和Y分别通过式(2)和式(3)得到X'和Y'，然后将X'和Y'通过式(4)得到的序列I作为置乱序列对S进行位置置乱，得到语音S＝{s(i),1≤i≤L}。

步骤4：恢复语音。最后将步骤3得到的语音S＝{s(i),1≤i≤L}重新构造为时域语音，得到解密语音整个解密过程结束。

本发明公开了一种基于深度感知哈希的密文语音检索方法，可应用于基于内容的密文语音检索系统中。该方法首先利用基于四维(4D)超混沌系统的语音加密算法对原始语音文件进行加密，并上传到云端的密文语音库中；然后，分别提取原始语音的Log-MelSpectrogram/MFCC特征，依次采用卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)深度学习算法进行模型训练及深度感知特征学习，利用构造的融合网络模型学习语音的深度感知特征，生成语音的深度感知哈希序列，并上传到云端的系统哈希索引表中；最后，将密文语音库中的密文语音文件与系统哈希索引表中的深度感知哈希序列建立一一映射关系；在用户对语音进行检索时，使用归一化汉明距离算法将提取的检索语音的深度感知哈希序列与云端系统哈希索引表中的深度感知哈希序列进行匹配检索，并将检索到的密文语音解密后，反馈给查询用户。应用本发明的技术方案，能够提高密文语音检索的查全率和查准率，尤其是对较长的语音具有很好的检索效率和检索精度。同时，应用本发明的语音加密算法，能够提高密文语音的安全性，可应用于云端语音数据的隐私保护。

图2为本发明采用的密文语音检索系统模型处理流程图。如图2所示，该系统模型处理过程主要包括三个步骤：构建密文语音库、系统哈希索引表的生成，以及语音用户检索。该流程图中密文语音库和系统哈希索引表以离线的方式进行构建，语音用户检索则是以在线的方式进行检索。

对应于本发明的基于深度感知哈希的密文语音检索方法，本发明还提供一种基于深度感知哈希的密文语音检索系统，该系统包括：

密文语音库构建模块，用于根据原始语音库，对原始语音文件进行加密处理来构建密文语音库。

系统哈希索引表生成模块，用于根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表。

深度感知哈希序列构造模块，用于构造待查询语音的深度感知哈希序列。

检索匹配模块，用于根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果。

所述密文语音库构建模块，具体包括：

原始语音文件获取单元，用于获取原始语音库中的原始语音文件。

所述系统哈希索引表生成模块，具体包括：

特征提取单元，用于提取所述原始语音文件的Log-Mel Spectrogram/MFCC特征。

训练单元，用于根据所述Log-Mel Spectrogram/MFCC特征对CNN-BiLSTM网络模型进行训练，得到训练好的CNN-BiLSTM模型。

深度感知哈希序列生成单元，用于从所述训练好的CNN-BiLSTM模型中提取语音的深度特征，生成语音的深度感知哈希序列，并上传到云端的系统哈希索引表中。

所述检索匹配模块，具体包括：

相似性阈值确定单元，用于获取相似性阈值。

确定待查询语音的深度感知哈希序列h_q和与存储在云端的系统哈希索引表中的语音哈希序列h_x的距离。

判断单元，用于判断所述距离是否小于相似性阈值。

检索匹配成功单元，用于在所述距离小于相似性阈值时，输出检索匹配成功，将匹配成功的密文语音数据解密后反馈给查询用户。

实验结果与性能分析：

实验中所用的语音数据是THCHS-30语音库中的语音，是由清华大学语言与语言技术中心(CSLT)发布的一个开放的汉语语音数据库。采用频率为16kHz，采样精度为16bit的单通道wav格式语音段。在网络模型训练阶段，根据感知哈希定义，将具有相同感知内容的多媒体数字表示唯一地映射为一段数字摘要。选取由17人说的语音内容相同的10段语音，并进行包括音量调节、添加噪声、重量化、重采样、MP3等17种语音保持操作，得到共计3,060条语音进行训练。在性能分析阶段，在语音库中随机选取1,000条长度为10s的语音进行评估；为了测试算法的检索效率，随机选取10,000条长度为10s的语音进行评估。

实验硬件平台为：Intel(R)Core(TM)i7-8750H CPU，2.20GHz，内存8GB。软件环境为：Windows 10，MATLAB R2017b、JetBrains PyCharm Community Edition2019.1.3x64。

CNN-BiLSTM网络模型性能分析：

语音特征提取是语音检索的关键，特征表达的性能直接影响到后续的检索效果。本发明利用深度学习具有自主特征提取的特点，将CNN和BiLSTM相结合，给出一种融合网络模型来学习语音深度感知特征。图4为Log-Mel Spectrogram和MFCC的训练/测试损失曲线，具体的，分别是Log-Mel Spectrogram/MFCC特征在CNN、BiLSTM和CNN-BiLSTM网络模型的训练/测试损失曲线。

表2是CNN、BiLSTM和CNN-BiLSTM网络模型的训练精度。

表2网络模型的测试精度比较

由表2可知，在不同网络模型中CNN-BiLSTM网络模型的准确率明显高于其他单独的CNN和BiLSTM网络模型。为了进一步测试网络模型的性能，引入mAP(meanAveragePrecision)来评价算法性能。利用式(11)对经过不同语音保持操作的语音计算AP(AveragePrecision)，然后利用式(12)计算mAP得到表3的对比结果。

其中Q表示查询个数，AP(q)表示对于第q个查询精度，n表示检索数据库的语音个数，rel(k)表示检索出来的第k个语音是否和查询语音相关(相关为1，不相关为0)。

表3网络模型的mAP比较

性能指标mAP越大，表示检索算法越好。由表3可知，本发明提出的融合网络模型可得到更好的效果，比单独使用CNN和BiLSTM网络模型更好。这是由于CNN-BiLSTM模型提取的时空特征可以充分利用两种网络的表征能力。

深度感知哈希序列的区分性和鲁棒性性能分析：

区分性和鲁棒性是评价深度感知哈希序列最重要的两个指标。通过计算深度感知哈希序列两两之间的BER可以判断语音之间的相似程度。为了更好的验证算法性能，引入了如式(13)所示的误识率(False Accept Rate,FAR)。在THCHS-30语音库中随机选取1,000条语音进行分析。利用深度感知哈希算法生成1,000个深度哈希序进行两两匹配，得到了1,000×999/2＝499,500个BER数据。

其中，τ为哈希匹配阈值，μ为BER均值，δ为BER方差，x比特误码率BER。

图6为BER正态概率分布图。具体的，为Log-Mel Spectrogram和MFCC两种特征在1,000条语音的BER正态概率分布图。

从图6(a)和图6(b)可以看出，不同语音的BER值的概率分布与标准正态分布的概率曲线几乎重叠，故本发明算法所得到的二进制深度感知哈希序列近似服从正态分布。

根据隶莫佛-拉普拉斯中心极限定理，汉明距近似服从

的正态分布，其中M为哈希序列的长度，μ为BER均值，δ为BER标准差，p为哈希序列0、1发生的概率。BER的正态分布曲线越好，说明算法获得感知哈希序列的随机性和抗碰撞性能越好。本发明的深度感知哈希序列长度为M＝384，可计算理论上的正态分布参数均值μ＝0.5、标准差δ＝0.0255。实验中测得Log-Mel Spectrogram的BER均值μ₀＝0.4972、标准差δ₀＝0.0336，而MFCC的BER均值μ₁＝0.4964、标准差δ₁＝0.0322。

表4为本发明在不同阈值下的对比结果。哈希算法的误识率FAR的值越低，说明抗碰撞性越高，算法的区分性越好。

表4 Log-Mel Spectrogram和MFCC特征在不同匹配阈值下的FAR值比较

从表4可以看出，在不同匹配阈值下Log-Mel Spectrogram/MFCC特征的FAR值均比较低。当设置匹配阈值τ＝0.16时，Log-Mel Spectrogram特征的每10²⁴个语音片段有5.31个被误识，MFCC特征的每10²⁶个语音片段有7.55个被误识，表明本发明构造的深度感知哈希序列具有很强的抗碰撞能力，即具有良好的区分性，能够满足检索要求。

鲁棒性是指语音数据通过不同内容保持操作(ContentPreserving Operation,CPO)后生成的深度感知哈希的变化程度。实验使用软件Gold Wave 6.38和MATLAB R2017b对1,000条测试语音进行MP3压缩(128kbps,MP3)、重量化(16k→8k→16k,R.Q)、幅度增加或减少3dB(-3dB和+3dB)和30dB窄带高斯噪声(G.N)等5种内容保持操作。表5中列出了经过5种操作后的BER均值。

表5在不同内容保持操作下的鲁棒性比较

从表5可以看出，本发明方法使用Log-Mel Spectrogram要比MFCC的鲁棒性要好。

检索性能分析：

在评价语音检索算法的性能时，一般采用查全率R和查准率P来衡量。

查全率R和查准率P的计算方法分别如式(14)和式(15)所示。

其中，f_T是检索到的相关语音，f_L是未检索到的相关语音，f_F是检索到的不相关语音。

在系统哈希索引表中进行搜索匹配时，设定相似性阈值T(0<T<0.5)。如果待查询语音的深度感知哈希序列h_q与系统哈希索引表中的深度感知哈希序列h_x之间的归一化汉明距离D(h_x,h_q)<T，则匹配成功。相似性阈值的选择直接影响检索算法的查全率R和查准率P。在区分性实验分析中，Log-Mel Spectrogram/MFCC在1,000条语音的BER最小值分别为0.3385和0.3464。在鲁棒性实验分析中，BER最大值分别为0.3203和0.2760。为了避免漏检并获得高性能，Log-Mel Spectrogram/MFCC相似性阈值被分别设置为T₀＝0.33和T₁＝0.33。表6是通过式(14)和式(15)计算得到的查全率R和查准率P。

表6在不同内容保持操作下的查全率R和查准率P比较

从表6可以看出，除经过GN操作的MFCC的查全率之外，其他经过几种内容保持操作后仍能保证较高查全率R和查准率P。这是因为MFCC的鲁棒性较差，加噪之后性能变得更低。

在语音检索实验中，所有查询语音都经过5种内容保持操作处理，然后在系统哈希索引表中搜索匹配。图7为Log-Mel Spectrogram/MFCC在系统哈希索引表中匹配结果图。图7是以第500条语音作为查询语音为例，在经过MP3操作之后在系统哈希索引表中的匹配结果。

从图7可以看出，除查询语音与系统哈希索引表中对应的第500条语音的BER外，其余BER均大于所设定的阈值T₀＝0.33和T₁＝0.33，检索成功。

为了测试本发明的检索效率，在THCHS-30语音库中随机选取长度为10s的10,000条语音进行评估。计算本发明的平均检索时间(包括深度特征提取时间和检索匹配时间)，结果如表7所示。

表7检索效率比较

由表7可知，本发明的检索效率比较高，这是由于本发明利用了CNN能缩短特征提取时间，并结合BiLSTM提取语音的时空特征来构造深度感知哈希序列，故提高了检索效率。

加密性能分析：

本发明采用4D超混沌语音加密方法对语音数据进行加密，所选取的密钥为K＝(0.3,0.3,0.3,0.3),a＝10，b＝76，c＝3。图8为原始语音与加密语音的波形图和语谱图，其中图8(a)为原始语音波形图，图8(b)为原始语音语谱图，图8(c)为加密语音波形图，图8(d)为加密语音语谱图。

由图8(c)可以看出，加密后语音波形分布均匀，几乎没有任何可以利用的特征。图8(d)为语音加密后的语谱图，可以看出图中的像素点呈随机分布，看不出任何语音特征。由这两个图表明算法的混乱效果好，安全性高。一个良好的加密系统必须有足够大的密钥空间来抵御穷举攻击，当算法的密钥空间大于2¹⁰⁰≈10³⁰时，足以满足安全性的需求。语音加密方法密钥采用精确到小数点后12位的双精度浮点型数据，密钥空间可达2×10¹⁶×2×10¹⁶×2×10¹⁶×2×10¹⁶＝16×10⁶⁴≈2²¹⁸，另外若将系统参数a，b，c以及迭代次数考虑在内，密钥空间将更大。因此，加密算法具有足够大的密钥空间来抵抗穷举攻击。

为了进一步验证所提出加密语音算法的性能，对加密语音和解密语音的感知语音质量评估(Perceptual Evaluation ofSpeech Quality,PESQ)进行了分析。PESQ是国际电信联盟电信标准化部(Telecommunication Standardization Sector,ITU-T)P.862建议的客观平均意见得分(Mean Opinion Score,MOS)值从1.0(最差)到4.5(最好)的PESQ-MOS范围。对于加密语音，通常希望其PESQ-MOS能降低到1.0左右甚至更低(语音质量极差，静音或完全听不清楚，并且杂音很大)，对于解密后的语音，则希望其PESQ-MOS能达到2.5(语音质量还可以，基本能听清楚，有一定延迟，有杂音)以上甚至更高。实验中任意选取了语音库中的15条语音，分别测试了加密语音和解密语音信号的PESQ-MOS值，所得出的平均PESQ-MOS值如表8所示：

表8本发明加密和解密的PESQ-MOS值

由表8可以看出，加密后的语音PESQ-MOS平均值只有0.7619，表明加密后语音听觉质量差，加密效果良好，不会泄露语音内容。解密后的语音PESQ-MOS为4.4999，表明解密效果非常好，解密算法对语音的听觉质量几乎没有造成影响。因此，提出的语音加密方法能够满足系统的安全性要求。

本发明使用CNN-BiLSTM网络融合模型提取语音数据的时空特征来构造二进制深度感知哈希序列，可以实现10s语音的高效检索(目前现有基于感知哈希的密文语音检索方法的语音片段长度均为4s-6s)，并具有良好的区分性和鲁棒性。同时，本发明设计的基于4D超混沌系统的语音加密算法具有足够大的密钥空间来抵抗穷举攻击，可提高存储在云端的语音数据的安全性和隐私性。

本发明的密文语音检索方法是利用深度学习具有自主特征提取的特点，来改善现有的密文语音检索方法的特征提取缺陷，解决由音频数据高维度和时序性引起的检索精度较低的问题。因CNN能够提取语音深层次的空间特征且能缩短特征提取时间、以及BiLSTM可以提取语音的时序列特征，本发明利用深度感知哈希构造方案来学习紧凑二进制码，用于构造语音的深度感知哈希序列。该方案具有很好的区分性、鲁棒性、查全率和查准率，并对较长的语音具有很好的检索效率。同时，为避免了存储在云端的语音敏感信息泄露的风险，利用具有二次非线性的4D超混沌系统提出一种具有良好的加密性能的语音加密算法，能有效的提高云环境下语音数据的安全性和隐私性。

本发明与现有技术相比，具有下列优势：

1)设计了一个CNN-BiLSTM网络融合模型，可以提取语音数据的时空特征。

2)设计的二进制深度感知哈希构造方案可以实现语音高效检索，并具有良好的区分性和鲁棒性。

3)设计了一种具有二次非线性的4D超混沌系统语音加密算法，可提高存储在云端的语音数据的安全性和隐私性。

4)通过引入批量归一化算法，可以有效的提高训练网络拟合速度、减少训练时间。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度感知哈希的密文语音检索方法，其特征在于，包括：

构造待查询语音的深度感知哈希序列；

将所述检索匹配结果进行解密，并反馈给语音用户。

2.根据权利要求1所述的基于深度感知哈希的密文语音检索方法，其特征在于，所述构建密文语音库，具体包括：

获取原始语音库中的原始语音文件；

3.根据权利要求1所述的基于深度感知哈希的密文语音检索方法，其特征在于，所述根据所述原始语音库，构造原始语音文件的深度感知哈希序列，并生成系统哈希索引表，具体包括：

提取所述原始语音文件的Log-Mel Spectrogram/MFCC特征；

4.根据权利要求1所述的基于深度感知哈希的密文语音检索方法，其特征在于，所述根据所述待查询语音的深度感知哈希序列利用归一化汉明距离算法在所述系统哈希索引表中进行检索匹配，得到检索匹配结果，具体包括：

获取相似性阈值；

判断所述距离是否小于相似性阈值；

若否，则检索匹配失败。

5.一种基于深度感知哈希的密文语音检索系统，其特征在于，包括：

6.根据权利要求5所述的基于深度感知哈希的密文语音检索系统，其特征在于，所述密文语音库构建模块，具体包括：

7.根据权利要求5所述的基于深度感知哈希的密文语音检索系统，其特征在于，所述系统哈希索引表生成模块，具体包括：

8.根据权利要求5所述的基于深度感知哈希的密文语音检索系统，其特征在于，所述检索匹配模块，具体包括：

相似性阈值确定单元，用于获取相似性阈值；

判断单元，用于判断所述距离是否小于相似性阈值；