CN110309343A

CN110309343A - 一种基于深度哈希的声纹检索方法

Info

Publication number: CN110309343A
Application number: CN201910574215.7A
Authority: CN
Inventors: 李武军; 樊磊; 蒋庆远; 余亚奇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-08
Anticipated expiration: 2039-06-28
Also published as: CN110309343B

Abstract

本发明公开了一种基于深度哈希的声纹检索方法，达到了声纹检索任务中存储空间低且检索高效的效果。该方法包括训练深度声纹哈希模型的步骤，构建哈希编码数据库的步骤，对查询语音在数据库中检索的步骤：首先构建端到端的深度神经网络结构，利用已标注过说话人身份的语音数据，训练深度神经网络模型，得到深度声纹哈希函数。之后通过深度声纹哈希函数计算训练集对应的哈希编码，构建数据库；对于新录入的语音数据，使用深度声纹哈希函数计算对应的哈希编码，实时增加到数据库。在检索过程中，对于给定的语音，使用深度声纹哈希函数计算对应的哈希编码，最后在数据库中基于索引或海明距离排序得到检索结果。

Description

一种基于深度哈希的声纹检索方法

技术领域

本发明涉及一种基于深度哈希的声纹检索方法，用于实现大规模语音数据库在低存储开销下的快速声纹检索。

背景技术

声纹检索通过给定的语音，检索返回在数据库中与这段语音来自同一个说话人的一条或多条语音。由于近些年麦克风录入式设备例如手机、个人电脑等等的普及，网络媒体的飞速发展，大量的语音和视频喷涌出现，每一分钟都有成千上百小时的视频上传到云端。语音检索的用途也越来越广泛，例如通过对于语音的检索来推荐相似语音；通过语音检索，检测侵权行为；在大规模声纹认证中，说话人过多会导致认证速度慢，也可以使用检索技术加快认证过程等等。

传统的声纹检索算法，通常先将语音表示为一个低维的实值向量，之后通过实值向量之间的相似度进行排序，返回对应检索结果。但是这样的实值向量往往不适用于大规模数据的情况，过高的存储开销和计算时间会降低检索的实用性和效率。为了解决这个问题，已有一些基于哈希的声纹检索工作被提出。这些工作都基于i-vector特征。i-vector特征是由高斯混合模型-通用背景模型GMM-UBM 提取的有效语音身份向量。这些声纹哈希方法通过对i-vector使用局部敏感哈希 (Locality Sensitive Hashing，简称LSH)或海明距离度量学习(Hamming Distance Metric Learning，简称HDML)来进行哈希编码的学习。

基于i-vector的声纹哈希方法，第一步先提取i-vector，第二步在i-vector的基础上学习实值向量到哈希编码的映射，是一个两阶段的训练过程。一方面，哈希编码的区分性受到i-vector效果的约束，而i-vector在短语音的情况下难以达到满意的精度；另一方面，两步骤学习过程很难学到更优化的哈希编码。

发明内容

发明目的：目前的声纹检索方法主要有基于实值向量和基于哈希编码两种：基于实值向量的声纹检索在面对大规模数据时存在检索效率过低的问题；已有基于哈希编码的声纹检索，由于都采用了两阶段的训练过程，先提取i-vector，之后对i-vector使用哈希函数求解哈希编码，哈希编码的表现受i-vector的约束，两阶段的训练过程也不能学到更有区分度的哈希编码。针对上述问题，本发明提供了一种基于深度哈希的声纹检索方法，在声纹检索领域第一次采用端到端的深度哈希方法，相对实值检索提高效率，相对传统的两阶段哈希方法提高哈希编码的区分性。

技术方案：一种基于深度哈希的声纹检索方法，引入端到端的深度哈希方法，意在解决传统实值检索系统检索效率低和传统声纹哈希方法两阶段训练过程准确率低的问题。主要包括深度声纹哈希模型训练、建立数据库和检索三个部分，具体包括以下步骤：

1)利用已标注过说话人身份的语音数据构建训练集；

2)初始化深度神经网络模型，使用深度哈希的目标函数训练深度神经网络模型，得到深度声纹哈希函数；

3)利用训练得到的深度声纹哈希函数计算数据库的哈希编码；

4)对于新录入语音使用深度声纹哈希函数计算哈希编码，并增加到数据库中；

5)对于给定的目标语音，使用深度声纹哈希函数计算哈希编码，通过哈希编码的索引或是海明距离排序进行检索。

上述步骤1)的过程为：对于有标注说话人身份的语音数据，首先提取短时傅里叶变换特征，作为深度神经网络模型的输入，对应说话人的身份作为训练的标签。

上述步骤2)的过程为：深度神经网络模型可以划分为两个部分：特征提取部分和哈希学习部分；特征提取部分使用多层卷积层为主干，多层卷积层的输出通过全局平均池化层将时域信号进行平均，哈希学习部分使用一层全连接层作为哈希层，哈希层将全局平均池化层的输出转化为哈希编码，哈希层的维度对应于哈希编码的长度；

在深度神经网络模型训练过程中，使用深度哈希的目标函数作为训练准则，端到端地进行训练；在求解时，使用梯度反向传播算法优化深度神经网络的参数。

在深度神经网络模型训练过程中，采用交替优化的方式进行训练：首先将训练样本输入深度神经网络，进行前向运算，1)在固定模型参数时，根据目标函数L求解哈希编码；2)在固定哈希编码时，计算目标函数L，使用梯度反向传播算法计算深度神经网络各层参数的梯度，并对参数进行更新。不断迭代本过程，直到训练完成。

上述步骤3)的过程为：对于数据库的语音，输入深度神经网络，进行前向运算，通过哈希层得到对应的哈希编码，存入数据库中，以备后续的索引或海明距离排序。

上述步骤5)的过程为：对于给定的目标语音，输入深度神经网络，进行前向运算，通过哈希层得到对应的哈希编码；基于目标语音的哈希编码，与数据库的哈希编码进行海明距离排序或哈希表索引，根据海明排序升序或索引返回最后的检索结果。

特征提取部分以多层卷积层为主干，多层卷积层的结构可以选择多种设置，诸如ResNet、VGG等等；整个模型的网络结构共包括多层卷积层、一层最大池化层、一层全局平均池化层、一层哈希层和一层分类层。

这里的目标函数包括两个部分，分类学习部分L_classifier可以选择多种形式，诸如最大交叉熵损失函数及各类变种，三元组损失函数，二元组损失函数等等；哈希学习部分使用二范数惩罚项；整个深度哈希的目标函数定义如下：

其中，L为损失函数，L_classifier为分类学习部分的损失函数，N为语音训练样本数，h_i＝tanh(f(x_i；Θ_cnn))是第i个样本在哈希层的输出，Θ_cnn是特征提取部分的参数，f是哈希层的映射函数，λ为惩罚项的系数，b_i是第i个样本的哈希编码，K是哈希编码的长度；

模型采用交替优化的方式进行训练：首先将训练样本输入深度神经网络，进行前向运算，1)在固定模型参数时，哈希编码的求解过程如下：

const表示与变量b_i无关的量，即新插入的公式中的后两项；

为了最小化哈希编码b_i和h_i保持相同的符号，得到对应的闭式解：

2)在固定哈希编码时，直接计算目标函数(1)，通过误差反向传播算法计算深度神经网络各层的梯度，并对模型参数进行更新，直到训练完成。

目标函数(1)的梯度计算如下：

其中W_*j是分类层权重的第j列，之后通过链式法则继续计算深度神经网络其他参数的梯度，根据梯度更新对应的参数；

所述声纹检索方法，适用于各类声纹检索系统，各类声纹检索系统均可训练深度声纹哈希函数以及提取哈希编码，并在终端中完成检索过程，应用场景包括但不限于声纹检索，基于检索的推荐和基于检索的大规模声纹识别。

附图说明

图1为本发明实施的深度声纹哈希模型训练流程图；

图2为附加间隔损失函数的分类示意图；

图3为本发明实施例的构建哈希编码数据库的工作流程图；

图4为本发明实施例的声纹检索工作流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于深度哈希的声纹检索方法，深度声纹哈希模型的训练流程如图1所示。首先收集有标记说话人的语音作为训练集，按照说话人的身份分配训练标签(步骤10)。之后搭建深度神经网络模型，并初始化模型参数(步骤11)：深度声纹哈希模型的网络结构以多层卷积层作为主干，这里多层卷积层以ResNet-34为例，整个模型的网络结构见表1，包括六层卷积层、一层最大池化层、一层全局平均池化层、一层哈希层和一层分类层；其中第二层到第三层卷积神经网络由若干个残差模块组合而成；BN和ReLU分别表示跟在卷积层后面的批归一化和线性整流；T为训练数据的时间长度，k是哈希编码长度，C是训练集说话人总数。对训练集进行随机采样，采样的语音数据通过短时傅里叶变换，输入深度神经网络模型，进行前向运算(步骤12)。然后计算深度哈希的目标函数(步骤13)：这里的分类学习部分的损失函数L_classifier以附加间隔损失函数为例，深度哈希的目标函数如式(5)所示：

其中，L为损失函数，N为语音训练样本数，s为余弦距离的放缩因子超参数，y_i为第i个样本的标签，为第i个样本和第i个标签分类角度，θ_j,i为第i个样本和第j个标签分类角度，是分类层权重第j列的转置，h_i＝tanh(f(x_i；Θ_cnn))是第i个样本在哈希层的输出，Θ_cnn是特征提取部分的参数，f是哈希层的映射函数，λ为惩罚项的系数，C为训练样本中说话人总数，m为增加的角度间隔，b_i是第i个样本的哈希编码，k是哈希编码的长度。如图2所示，深度哈希通过附加间隔损失函数，可以有效增强哈希编码的区分性，增加不同类之间的分类间隔。

在固定模型参数的情况下，根据式(6)更新哈希编码(步骤14)。

在固定哈希编码的情况下，先由式(6)和式(7)分别计算分类层权重W_*j和哈希层的输出h_i的梯度，之后通过链式法则继续计算深度神经网络其他参数的梯度，根据梯度更新对应的参数(步骤15)。

从步骤12开始迭代，每迭代一轮，通过模型在验证集上的表现判断模型是否训练完成(步骤16)。如果训练完成则输出训练结果并保存模型，否则继续迭代(步骤17)。

本实施例使用的网络结构在哈希层之前的部分可以替换为任意其他神经网络结构，并不限于ResNet-34，这里仅以ResNet-34作为演示；本实施例使用的附加间隔损失函数也可以替换为其他损失函数，这里仅以附加间隔损失函数作为演示。

表1深度声纹哈希模型的网络结构

基于深度哈希的声纹检索方法，构建哈希编码数据库的工作流程如图4所示。首先读取训练得到的深度神经网络模型(步骤20)，训练集中的语音依次通过短时傅里叶变换后输入深度神经网络模型(步骤21)，提取哈希层的输出，根据式 (6)计算训练集对应的哈希编码(步骤22)，基于训练集的哈希编码构建数据库(步骤23)；对于新录入的数据，首先读取训练得到的深度神经网络模型(步骤30)，将新录入的语音通过短时傅里叶变换后输入深度神经网络模型(步骤31)，提取哈希层的输出，根据式(8)计算对应的哈希编码(步骤32)，在数据库中添加新录入语音对应的哈希编码(步骤33)。

基于深度哈希的声纹检索方法，声纹检索的工作流程如图4所示。首先读取训练得到的深度神经网络模型(步骤40)，读取本次查询任务的语音文件，提取短时傅里叶变换得到的特征(步骤41)，将得到的短时傅里叶变换特征输入深度神经网络模型中，进行前向计算(步骤42)。提取哈希层的输出，根据式(6) 计算哈希编码(步骤43)，通过海明距离排序或索引的方式得到声纹检索需要返回的目标(44)，最后输出检索结果(步骤45)。

Claims

1.一种基于深度哈希的声纹检索方法，其特征在于，该方法包括以下步骤：

1)利用已标注过说话人身份的语音数据构建训练集；

2)初始化深度神经网络模型，使用深度哈希目标函数训练模型参数，得到深度声纹哈希函数；

2.如权利要求1所述的基于深度哈希的声纹检索方法，其特征在于，所述步骤1)中，对于有标注说话人身份的语音数据，首先提取短时傅里叶变换特征，作为深度神经网络模型的输入，对应说话人的身份作为训练的标签。

3.如权利要求1所述的基于深度哈希的声纹检索方法，其特征在于，所述步骤2)中，深度神经网络模型可以划分为两个部分：特征提取部分和哈希学习部分；特征提取部分以多层卷积层为主干，多层卷积层的输出通过全局平均池化层将时域信号进行平均，哈希学习部分使用一层全连接层作为哈希层，哈希层将全局平均池化层的输出转化为哈希编码，哈希层的维度对应于哈希编码的长度；

4.如权利要求1所述的基于深度哈希的声纹检索方法，其特征在于，所述步骤3)中，对于数据库的语音，输入深度神经网络模型，进行前向运算，通过哈希层得到对应的哈希编码，存入数据库中，以备后续的索引或海明距离排序。

5.如权利要求1所述的基于深度哈希的声纹检索方法，其特征在于，所述步骤5)中，对于给定的目标语音，输入深度神经网络模型，进行前向运算，通过哈希层得到对应的哈希编码；基于目标语音的哈希编码，与数据库的哈希编码进行海明距离排序或哈希表索引，根据海明排序升序或索引返回最后的检索结果。

6.如权利要求3所述的基于深度哈希的声纹检索方法，其特征在于，特征提取部分以多层卷积层为主干；整个模型的网络结构共包括多层卷积层、一层最大池化层、一层全局平均池化层、一层哈希层和一层分类层。

7.如权利要求3所述的基于深度哈希的声纹检索方法，其特征在于，这里的目标函数包括两个部分，分类学习部分L_classifier可以选择多种形式，诸如最大交叉熵损失函数及各类变种，三元组损失函数，二元组损失函数等等；哈希学习部分使用二范数惩罚项；整个深度哈希的目标函数定义如下：

其中，L为损失函数，L_classifier为分类学习部分的损失函数，N为语音训练样本数，h_i＝tanh(f(x_i；Θ_cnn))是第i个样本在哈希层的输出，Θ_cnn是特征提取部分的参数，f是哈希层的映射函数，λ为惩罚项的系数，b_i是第i个样本的哈希编码，K是哈希编码的长度。

8.如权利要求7所述的基于深度哈希的声纹检索方法，其特征在于，模型采用交替优化的方式进行训练：首先将训练样本输入深度神经网络，进行前向运算，1)在固定模型参数时，哈希编码的求解过程如下：

9.如权利要求8所述的基于深度哈希的声纹检索方法，其特征在于，目标函数(1)的梯度计算如下：

其中W_*j是分类层权重的第j列，之后通过链式法则继续计算深度神经网络其他参数的梯度，根据梯度更新对应的参数。

10.如权利要求1所述的基于深度哈希的声纹检索方法，其特征在于：所述声纹检索方法，适用于各类声纹检索系统，各类声纹检索系统均可训练深度声纹哈希函数以及提取哈希编码，并在终端中完成检索过程，应用场景包括但不限于声纹检索，基于检索的推荐和基于检索的大规模声纹识别。