CN112035700B

CN112035700B - 一种基于cnn的语音深度哈希学习方法及系统

Info

Publication number: CN112035700B
Application number: CN202010895014.XA
Authority: CN
Inventors: 张秋余; 赵雪娇; 胡颖杰; 张其文; 白建; 赵振宇
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-09-13
Anticipated expiration: 2040-08-31
Also published as: CN112035700A

Abstract

本发明涉及一种基于CNN的语音深度哈希学习方法及系统。该方法包括：对原始语音文件进行预处理，得到预处理后的原始语音文件；提取所述预处理后的原始语音文件的语谱图特征；将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习，得到原始语音文件的深度语义特征；利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造，得到代表所述原始语音文件的深度哈希二值码；根据所述深度哈希二值码进行语音检索。本发明能够解决现有基于内容的语音检索系统在特征提取过程中手工特征存在的局限性、特征表义性差等问题，可进一步提高检索精度和检索效率。

Description

一种基于CNN的语音深度哈希学习方法及系统

技术领域

本发明涉及基于深度学习的语音检索技术领域，特别是涉及一种基于CNN的语音深度哈希学习方法及系统。

背景技术

随着互联网数字音频数量的爆炸式增长，使得在语音/音频大数据中进行高速检索成为亟待解决的难题。因此，如何快速地从海量数据中检索到所需的内容，一直是语音检索研究领域的热点问题。其中，语音因其特殊的表义功能而被广泛关注，在会议录音、法庭证据等应用中都体现出语义内容的重要性与敏感性。因此，语音特征提取的好坏、特征表达的性能将直接影响到后续的检索效果。

目前，现有基于内容的语音检索方法多数是通过提取手工特征来构造语音感知哈希序列，然而手工特征不仅计算量大还具有主观性，并且无法准确描述出语音中所蕴含的丰富语义信息及内容感知信息，导致语音检索系统检索精度及效率较低。

发明内容

本发明的目的是提供一种基于CNN的语音深度哈希学习方法及系统，能够充分表达语音数据的高级语义信息，并解决传统基于感知哈希的语音检索系统在特征提取过程中存在的手工特征缺陷及查询精度和效率低等问题。

为实现上述目的，本发明提供了如下方案：

一种基于CNN的语音深度哈希学习方法，包括：

对原始语音文件进行预处理，得到预处理后的原始语音文件；

提取所述预处理后的原始语音文件的语谱图特征；

将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习，得到原始语音文件的深度语义特征；

利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造，得到代表所述原始语音文件的深度哈希二值码；

根据所述深度哈希二值码进行语音检索。

可选地，所述对原始语音文件进行预处理，得到预处理后的原始语音文件，具体包括：

对原始语音文件进行重采样格式转换、幅值归一化、分帧和加窗处理操作，得到预处理后的原始语音文件。

可选地，所述提取所述预处理后的原始语音文件的语谱图特征，具体包括：

将所述预处理后的原始语音文件进行快速傅里叶变换，得到频域信息；

将所述频域信息按时间序列进行拼接，生成语谱图特征。

可选地，所述改进后的卷积神经网络模型包括4个卷积层、4个池化层、2个批量归一化层和3个全连接层，第一卷积层包含32个卷积滤波器，核大小为3×3，数据输入为3通道的224×224大小的语谱图；所述第一卷积层后设置第一个池化层，所述第一池化层滤波器大小为2×2，采用默认步长1；所述第一池化层后设置第二卷积层，所述第二卷积层包含64个卷积滤波器，核大小为3×3；所述第二卷积层后设置第二池化层，所述第二池化层滤波器大小为2×2；所述第二池化层后加入第一批量归一化层；所述第一批量归一化层后设置第三卷积层，所述第三卷积层包含128个卷积滤波器，核大小为3×3，所述第三卷积层后面设置第三池化层，所述第三池化层与所述第二池化层相同；所述第三池化层后设置第四卷积层，所述第四卷积层后设置第四池化层，所述第四卷积层与所述第三卷积层相同，所述第四池化层和所述第三池化层相同，所述第四个池化层后加入第二批量归一化层；所述第二批量归一化层后连接一个FC全连接层，所述FC全连接层用于将提取的特征扁平；所述FC层之后连接哈希层，所述哈希层的节点数为目标哈希码的长度，所述哈希层用于得到语音数据的深度哈希二值码；在所述哈希层之后，设置一个节点数为语音样本类别数的输出层。

一种基于CNN的语音深度哈希学习系统，包括：

原始语音文件预处理模块，用于对原始语音文件进行预处理，得到预处理后的原始语音文件；

语谱图特征提取模块，用于提取所述预处理后的原始语音文件的语谱图特征；

深度语义特征提取模块，用于将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习，得到原始语音文件的深度语义特征；

深度哈希序列构造模块，用于利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造，得到代表所述原始语音文件的深度哈希二值码；

语音检索模块，用于根据所述深度哈希二值码进行语音检索。

可选地，所述原始语音文件预处理模块，具体包括：

原始语音文件预处理单元，用于对所述原始语音文件进行重采样格式转换、幅值归一化、分帧和加窗处理操作，得到预处理后的原始语音文件。

可选地，所述语谱图特征提取模块，具体包括：

变换单元，用于将所述预处理后的原始语音文件进行快速傅里叶变换，得到频域信息；

拼接单元，用于将所述频域信息按时间序列进行拼接，生成语谱图特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明在构造深度哈希过程中，基于卷积神经网络结构设计了一种适用于语音数据哈希编码的深度神经网络模型。该模型采用二次特征提取方法以语音数据的语谱图特征作为网络输入，来同时进行高级语义特征提取和哈希函数学习，以便得到富含语义信息的高质量深度哈希二值码；同时，为了加快网络模型的收敛速度，降低模型的过拟合风险，在模型训练中加入批量归一化算法，使训练的模型有更好的鲁棒性。通过引入深度哈希方法可有助于得到区分性、鲁棒性更强的深度哈希二值码，可进一步提高语音检索系统的查询精度及效率，有效的解决传统基于感知哈希的语音检索系统在特征提取过程中存在的手工特征缺陷及查询精度和效率低等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于CNN的语音深度哈希学习方法流程图；

图2为基于改进后的卷积神经网络模型的深度哈希构造原理图；

图3为本发明不同节点下CNN网络模型的测试准确率曲线图；

图4为本发明BER正态概率分布图；

图5为本发明BER频数统计直方图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于CNN的语音深度哈希学习方法及系统，能够解决传统基于感知哈希的语音检索系统在特征提取过程中存在的手工特征缺陷及查询精度和效率低等问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

现在“深度学习”及“深度哈希”技术的兴起可以解决这一问题。卷积神经网络(CNN)因其强大的特征自学习能力和表示能力而被广泛关注，它可以挖掘多媒体数据深层次的语义特征表示，近年来基于CNN结构的深度哈希方法在图像检索/分类、说话人识别等领域被广泛应用，将CNN作为特征提取器对语音数据进行深层特征提取可更加适合描述语义信息，再结合深度哈希方法将特征映射成哈希编码，使得整个系统结构有着精度高和速度快的优势。

因此，本发明为了解决传统特征提取方法的手工特征只能表示出低级的感知特征，无法充分表达语音数据的高级语义信息的问题，利用CNN网络结构作为语音数据的特征提取器，并结合深度哈希算法来学习语音数据的紧凑二进制哈希码，设计了一种端到端的深度哈希学习框架。该框架因其强大的特征学习能力可用来提取语音的深层语义特征，以实现云环境下基于内容的语音检索。如图1所示，一种基于CNN的语音深度哈希学习方法包括：

步骤101：对原始语音文件进行预处理，得到预处理后的原始语音文件，具体包括：

对所述原始语音文件进行重采样格式转换、幅值归一化、分帧和加窗处理操作，得到预处理后的原始语音文件。

重采样格式转换：打开原始语音文件X(n)，将获得的字符串格式的语音参数转换为int格式。

幅值归一化：将语音信号的wave幅值进行归一化处理；计算公式如式(1)所示：

其中，

表示归一化处理后的语音信号，x(n)表示未经过归一化处理的语音信号。

分帧和加窗：对语音信号进行分帧，一般取帧长为20-30ms，并设置窗函数(window)及帧叠点数(noverlap)。窗函数采用汉宁窗，帧叠点数设置为每帧点数的1/3；汉宁窗函数如式(2)所示：

加窗处理计算公式如式(3)所示：

其中，w(n)表示汉宁窗函数，M表示汉宁窗长度，x_i(n)表示通过添加窗口函数划分之后获得的i帧语音信号，L表示移动的帧长度，N表示总的帧长。

步骤102：提取所述预处理后的原始语音文件的语谱图特征，具体包括：

将所述预处理后的原始语音文件进行快速傅里叶变换，得到频域信息。

将所述频域信息按时间序列进行拼接，生成语谱图特征。

快速傅里叶变换：对分帧和加窗后的语音信号进行快速傅里叶变换，将时域信息转换为频域信息；计算公式如式(4)所示：

其中X_i(n)表示快速傅里叶变换后的语音数据，k表示点序号。

生成语谱图特征。将快速傅里叶变换处理后的频域信息按时间序列进行拼接形成语谱图特征S(n)。

步骤103：将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习，得到原始语音文件的深度语义特征。

步骤104：利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造，得到代表所述原始语音文件的深度哈希二值码。

图2为基于改进后的卷积神经网络模型的深度哈希构造原理图。卷积神经网络(CNN)具有强大的特征学习能力，可以通过卷积层和池化层来学习深度特征。本发明利用CNN的优势设计了一种可以高效提取语音高级语义特征的CNN模型。

如图2所示，所述改进后的卷积神经网络模型包括4个卷积层、4个池化层、2个批量归一化层和3个全连接层，第一卷积层包含32个卷积滤波器，核大小为3×3，数据输入为3通道的224×224大小的语谱图；所述第一卷积层后设置第一个池化层，所述第一池化层滤波器大小为2×2，采用默认步长1；所述第一池化层后设置第二卷积层，所述第二卷积层包含64个卷积滤波器，核大小为3×3；所述第二卷积层后设置第二池化层，所述第二池化层滤波器大小为2×2；所述第二池化层后加入第一批量归一化层，以尽量提高网络拟合的速度；所述第一批量归一化层后设置第三卷积层，所述第三卷积层包含128个卷积滤波器，核大小为3×3，所述第三卷积层后面设置第三池化层，所述第三池化层与所述第二池化层相同；所述第三池化层后设置第四卷积层，所述第四卷积层后设置第四池化层，所述第四卷积层与所述第三卷积层相同，所述第四池化层和所述第三池化层相同，所述第四个池化层后加入第二批量归一化层；所述第二批量归一化层后连接一个FC全连接层，所述FC全连接层用于将提取的特征扁平；所述FC层之后连接哈希层，所述哈希层的节点数为目标哈希码的长度，所述哈希层用于得到语音数据的深度哈希二值码；在所述哈希层之后，设置一个节点数为语音样本类别数的输出层，采用softmax函数，加入这层是因为模型训练时哈希层神经元的活动会受后面输出层的调节，而输出层有着丰富的类别语义信息，所以有助于哈希层获取丰富的语义特征表示。该模型参数的具体设置如表1所示：

表1深度哈希编码模型参数设置表

为了防止产生过拟合现象，在全连接层中应用Dropout，设置丢弃率为0.2，即在模型训练时随机丢弃20％的神经元节点不参与模型训练。该模型中的每个卷积层和全连接层中的非线性激活函数都采用了Tanh函数。另外，在模型学习率设置方面，学习率太高会导致模型无法收敛，学习率太低则导致模型收敛特别慢或者无法学习，根据已有的工程人员的经验选择及测试实验，将模型的学习率设置为0.01。同时，在模型迭代优化的后期，逐步减小学习率的值，会有助于算法的收敛，更容易接近最优解。因此，根据实验测试设置学习率衰减为1×10^-6，对学习率进行不断更新。损失函数采用二进制交叉熵(binary_crossentropy)，优化器算法为随机梯度下降法(stochastic gradient descent，SGD)。最后，设置训练批次(epoch)为40，批量大小(batch-size)为64进行模型训练，以得到适用于语音数据的深度哈希编码模型。

设给定样本数量为N的训练集X＝{x₁,x₂,…,x_N}∈R^d×N，其中，x_i∈R^d表示训练集X中的第i个样本。哈希学习的目的是学习一个非线性函数h(·)，使其能够将原始多维空间Ω中的数据转换成K比特的二值码表示(即：Ω→{0,1}^K×N)，并且保证在原始空间Ω中相似的数据转换之后的二值码仍然相似，不相似的数据转换之后二值码差异较大。对于本发明的深度哈希构造方法，可以将上述转换过程分解为：f(X)＝h(u(X))∈{0,1}^K×N。其中，u(X)表示使用设计的CNN模型提取语音数据深度语义特征的过程；h(·)表示将提取的语义特征通过学习的哈希函数转换成二值码的过程。u(X)的数学表达式如式(5)所示：

其中，W_a表示特征学习中卷积层和池化层的权重，

表示卷积、池化层的权重矩阵与输入数据的点乘操作，W_b表示哈希层的权重，T表示权重矩阵的转置操作，V_b表示哈希层的偏置。

本发明采用符号函数sign(·)来获取语音数据的二进制表示，具体地，将样本x_i映射成为K比特的二值码的计算过程为：

其中，I_mean表示提取的语义特征向量的均值。

结合式(5)的定义，可将式(6)整合为：

b_i＝sign(μ(x_i)-I_mean) (7)

设u(x_i)-I_mean＝φ，则式(7)即可表示为：

利用式(8)即可得到语谱图输入样本的深度哈希二值码表示，也即完成了语音数据的深度哈希序列的构造。

在步骤102的基础上以语谱图特征{S₁,S₂,…,S_n}作为训练好的网络模型的输入，通过式(5)-式(8)进行深度语义特征提取，并通过学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造，得到代表每个原始语音文件唯一的深度哈希二值码{b₁,b₂,…b_n}。

步骤105：根据所述深度哈希二值码进行语音检索。

从实际应用来讲，利用本发明学习到语音的深度哈希二值码后，后续应用可以利用得到的深度哈希二值码来建立与原始语音的一一映射关系，并建立云端所有语音的哈希索引表。查询语音时，用同样的方法来构造查询语音的深度哈希二值码，并与云端哈希索引表中的深度哈希二值码利用归一化汉明距离算法进行匹配，若匹配成功，则代表检索到了目标语音，否则未检索到目标语音。

对应于本发明的基于CNN的语音深度哈希学习方法，本发明还提供一种基于CNN的语音深度哈希学习系统，该系统包括：

原始语音文件预处理模块，用于对原始语音文件进行预处理，得到预处理后的原始语音文件。

语谱图特征提取模块，用于提取所述预处理后的原始语音文件的语谱图特征。

深度语义特征提取模块，用于将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习，得到原始语音文件的深度语义特征。

深度哈希序列构造模块，用于利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造，得到代表所述原始语音文件的深度哈希二值码。

所述原始语音文件预处理模块，具体包括：

所述语谱图特征提取模块，具体包括：

变换单元，用于将所述预处理后的原始语音文件进行快速傅里叶变换，得到频域信息。

所述改进后的卷积神经网络模型包括4个卷积层、4个池化层、2个批量归一化层和3个全连接层，第一卷积层包含32个卷积滤波器，核大小为3×3，数据输入为3通道的224×224大小的语谱图；所述第一卷积层后设置第一个池化层，所述第一池化层滤波器大小为2×2，采用默认步长1；所述第一池化层后设置第二卷积层，所述第二卷积层包含64个卷积滤波器，核大小为3×3；所述第二卷积层后设置第二池化层，所述第二池化层滤波器大小为2×2；所述第二池化层后加入第一批量归一化层；所述第一批量归一化层后设置第三卷积层，所述第三卷积层包含128个卷积滤波器，核大小为3×3，所述第三卷积层后面设置第三池化层，所述第三池化层与所述第二池化层相同；所述第三池化层后设置第四卷积层，所述第四卷积层后设置第四池化层，所述第四卷积层与所述第三卷积层相同，所述第四池化层和所述第三池化层相同，所述第四个池化层后加入第二批量归一化层；所述第二批量归一化层后连接一个FC全连接层，所述FC全连接层用于将提取的特征扁平；所述FC层之后连接哈希层，所述哈希层的节点数为目标哈希码的长度，所述哈希层用于得到语音数据的深度哈希二值码；在所述哈希层之后，设置一个节点数为语音样本类别数的输出层。

实施例1：

本实施例采用清华大学语言与语言技术中心(CSLT)发布的汉语语音数据库--THCHS-3中的语音来评估所提出的方法，语音采样频率为16kHz，采样大小为16bits，语音内容为1000句不同内容的新闻片段，数据库中共计13388个语音片段，每个语音片段大约10s，总长约30小时。在本发明的实验中，选取了由17人说的语音内容不同的10段语音，并进行包括音量调节、添加噪声、重量化、重采样、MP3等多种语音内容保持操作，得到共计3060条语音进行训练，以期在增加数据量的同时，提高系统鲁棒性。在实验分析阶段，随机在THCHS-30语音库中选取1000条语音进行评估。

实验硬件平台为：Intel(R)Celeron(R)CPU N2940，1.83GHz，内存8GB。软件环境为：Windows 10，MATLAB R2016a、JetBrains PyCharm Community Edition 2019.2.4 x64。

CNN网络模型性能分析：

在语音检索、语音识别系统中，语音数据的特征提取和深度哈希编码的生成过程有着至关重要的作用，它为后续高效的应用奠定了基础。本发明利用深度学习强大的特征自学习能力，结合基本的卷积神经网络(CNN)结构，设计了一种端到端的深度哈希编码模型，用来学习语音数据的深度哈希特征。在网络模型中，哈希层节点数的设置决定了语音数据哈希编码的长度，即代表着模型对输入语音数据的特征表示能力。为了得到最优性能的网络模型，本发明对所设计模型中哈希层节点数的设置进行了实验，分别以哈希层节点数为64/128/256/384/512进行实验，并对它们的测试准确率进行评估。图3为不同节点下CNN网络模型的测试准确率曲线。

从图3可知，当哈希层节点数为512时，模型的测试准确率最高，但是当批次达到30以后，准确率几乎和384节点下的准确率一致，这说明384的节点就可以满足输入语音数据的二进制表示。而过长的哈希码会导致系统检索效率的降低，过短的哈希码又会影响数据的特征表示，导致哈希码之间区分性的降低。从模型准确率来分析，本发明认为384节点的模型结构表现良好，可以用来生成紧凑的语义特征和高质量哈希编码。因此，本发明设计的CNN网络模型拓扑结构有着良好的表现。在哈希层不同的节点设置中，模型都取得了很好的测试准确率，这说明网络对输入数据的拟合程度良好，没有产生过拟合和欠拟合现象，在语音数据上表现优异。从图3可以看出，随着哈希层节点数的增加，模型的测试准确率也在随之上升，并且无限逼近于1，不难理解，这是因为节点数越多，模型的非线性性也就越强，越能更大程度地拟合输入数据，更易取得较高的准确率。因此，本发明所设计的基于CNN结构的深度哈希编码模型性能良好，在语音数据上可以取得较好的准确率，有助于语音数据的语义特征学习和深度哈希编码操作。

平均精度均值性能分析：

为了进一步确定最优模型的节点设置，本发明使用平均精度均值(mAP)来进一步衡量在不同的哈希编码长度下CNN网络模型的性能表现。实验采用不同节点设置的模型对各种内容保持操作后的语音计算AP值，AP值即为精度均值，然后再计算其平均精度均值(mAP)。计算公式如式(9)和(10)所示：

其中，n表示数据库中的语音总个数，Q表示查询的总个数，rel(k)表示位置k上的语音是否与查询语音相关，相关为1，不相关为0。

表2为不同哈希编码长度下，模型所得到的mAP值。

表2模型平均精度均值(mAP)

由表2可知，mAP值随着哈希编码长度的增加而增加，这是因为较长的哈希编码可以对输入的语音数据进行更充分的语义特征表示。当哈希编码长度为384/512时，得到的mAP值已达到0.95以上，且384节点下的mAP值与512节点下的值相差不大，这说明CNN网络模型在384/512节点下，网络已基本达到最优性能，对输入语音数据具有较好的查询性能。结合上面的CNN网络模型性能实验分析，并权衡以后语音检索、语音识别系统的运行效率，本发明最终设置网络模型的哈希层节点数为384，以获得384位的深度哈希二值码，来进行后续的相关实验。

深度哈希二值码的区分性和鲁棒性性能分析：

1.区分性分析：

本发明通过计算不同内容的语音片段之间的归一化汉明距离(也称比特误码率(Bit Error Rate，BER))来衡量所构造的语音哈希序列的相似程度。BER计算公式如式(11)所示：

其中，

和

分别表示语音文件x₁和x₂的深度哈希序列(也即深度哈希二值码)，N表示深度哈希序列的长度。

理想状况下，不同内容语音片段间的BER值会呈现正态分布。实验随机选取THCHS-30语音库中1000条不同内容的语音进行评估分析。通过对1000条语音片段的深度哈希二值码进行两两匹配，共得到1000×999/2＝499500个BER数据，匹配结果的BER正态概率分布图和BER频数统计直方图分别如图4和图5所示：

从图4和图5可以看出，不同内容语音片段BER值的概率分布基本与标准的正态分布曲线重叠，说明提出的深度哈希构造方法生成的深度哈希序列近似服从正态分布，有着良好的随机性与抗碰撞性。本发明实验得到的BER统计结果遵循均值μ＝0.4787，标准差σ＝0.0324，范围在0.3203-0.6276的正态分布。也就是说，测试语音两两间的不同程度最小为0.3203，完全可以满足检索需要。

另外，不同阈值τ下的误识率FAR(False Accept Rate)值也可以进一步体现算法的区分性。对于两条语音片段，计算它们之间的BER值，若小于设定的阈值，则判定它们为相同内容的语音，否则，则判定为不同内容的语音；而误识率就是表示把不同内容的语音当成相同内容语音的比例。通常，设置的阈值τ越大，FAR值也就越大，说明区分性越低；相反，FAR值越小，说明区分性越好。

为了验证在不同阈值τ下算法的区分性，定义了误识率FAR计算公式，如式(12)所示：

其中，τ为哈希序列匹配阈值，x为比特误码率BER值，μ为BER均值，σ为BER标准差。

表3为本发明的深度哈希二值码在不同阈值下的FAR值对比。

表3本发明的深度哈希二值码在不同阈值下FAR值的对比

τ	本发明
		0.02	8.40×10<sup>-46</sup>
0.04	4.53×10<sup>-42</sup>
		0.06	1.67×10<sup>-38</sup>
0.08	4.23×10<sup>-35</sup>
		0.10	7.32×10<sup>-32</sup>
0.12	8.67×10<sup>-29</sup>
		0.14	7.04×10<sup>-26</sup>
0.16	3.92×10<sup>-23</sup>

由表3可知，当阈值τ＝0.16时，本发明的误识率FAR为3.92×10^-23，代表每10²³个语音片段中错误判断的数量只有3.9个，说明本发明具备良好的区分性和抗碰撞性，对语音数据具有较好的区分能力。

2.鲁棒性分析：

鲁棒性是指将原始语音经过重量化、重采样、MP3压缩等内容保持操作处理后，得到的语音生成的深度哈希序列仍然与原始语音生成的哈希序列一致，不影响其后续的进一步的应用。为测试本发明的鲁棒性，将随机选取的1000条不同内容的语音进行如表4所示的内容保持操作，经过操作处理后，得到共计4000个语音文件。计算得到各种内容保持操作后的平均BER值如表4所示：

表4不同内容保持操作下的BER均值比较

操作手段	本发明
		幅值减少/-3dB	0.0032
幅值增加/+3dB	0.0101
		MP3压缩	0.0047
重采样/8-16kbps	0.0092

由表4可知，本发明在不同内容保持操作下具有较低的BER均值。因此，本发明具有良好的鲁棒性，可以满足后续的语音检索、语音识别任务的应用要求。

为了解决现有语音特征提取方法存在的手工特征表义性差的问题，本发明利用所设计的基于CNN网络结构的深度哈希编码模型来对语音数据进行深度语义特征提取及哈希函数学习，突破了传统方法在特征提取过程中存在的手工特征局限；并且利用学习到的哈希函数直接生成了紧凑的二进制哈希编码。本发明设计的端到端的深度哈希学习框架，为后续语音检索、语音识别等应用奠定了坚实的基础。同时，在模型训练中引入了批量归一化方法(BN)，加快了网络的收敛速度，并提升了网络模型的鲁棒性和泛化能力。

本发明的优势主要有：

1)采用二次特征提取方法，提取语音数据的低级语谱图特征，并以语谱图特征作为CNN网络输入提取深层语义特征。

2)在进行语义特征提取时，基于CNN网络结构设计了一种新颖的深度哈希编码模型，来对语音数据同时进行语义特征学习和哈希函数学习，来提高语音数据的特征表示能力，可产生高质量的深度哈希二值码，并提高深度哈希二值码的区分性与鲁棒性。

3)通过引入批量归一化方法(BN)，降低了梯度对参数或其初始值尺度的依赖性，加速了网络模型的收敛速度，使模型变得更加健壮，鲁棒性更强。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于CNN的语音深度哈希学习方法，其特征在于，包括：

提取所述预处理后的原始语音文件的语谱图特征；

所述改进后的卷积神经网络模型包括4个卷积层、4个池化层、2个批量归一化层和3个全连接层，第一卷积层包含32个卷积滤波器，核大小为3×3，数据输入为3通道的224×224大小的语谱图；所述第一卷积层后设置第一个池化层，第一池化层滤波器大小为2×2，采用默认步长1；所述第一池化层后设置第二卷积层，所述第二卷积层包含64个卷积滤波器，核大小为3×3；所述第二卷积层后设置第二池化层，第二池化层滤波器大小为2×2；所述第二池化层后加入第一批量归一化层；所述第一批量归一化层后设置第三卷积层，所述第三卷积层包含128个卷积滤波器，核大小为3×3，所述第三卷积层后面设置第三池化层，所述第三池化层与所述第二池化层相同；所述第三池化层后设置第四卷积层，所述第四卷积层后设置第四池化层，所述第四卷积层与所述第三卷积层相同，所述第四池化层和所述第三池化层相同，所述第四个池化层后加入第二批量归一化层；所述第二批量归一化层后连接一个FC全连接层，所述FC全连接层用于将提取的特征扁平；所述FC层之后连接哈希层，所述哈希层的节点数为目标哈希码的长度，所述哈希层用于得到语音数据的深度哈希二值码；在所述哈希层之后，设置一个节点数为语音样本类别数的输出层；

根据所述深度哈希二值码进行语音检索。

2.根据权利要求1所述的基于CNN的语音深度哈希学习方法，其特征在于，所述对原始语音文件进行预处理，得到预处理后的原始语音文件，具体包括：

3.根据权利要求1所述的基于CNN的语音深度哈希学习方法，其特征在于，所述提取所述预处理后的原始语音文件的语谱图特征，具体包括：

将所述频域信息按时间序列进行拼接，生成语谱图特征。

4.一种基于CNN的语音深度哈希学习系统，其特征在于，包括：

原始语音文件预处理模块，用于对所述原始语音文件进行预处理，得到预处理后的原始语音文件；

5.根据权利要求4所述的基于CNN的语音深度哈希学习系统，其特征在于，所述原始语音文件预处理模块，具体包括：

6.根据权利要求4所述的基于CNN的语音深度哈希学习系统，其特征在于，所述语谱图特征提取模块，具体包括：