CN111243602B

CN111243602B - 基于性别、国籍和情感信息的声纹识别方法

Info

Publication number: CN111243602B
Application number: CN202010011692.5A
Authority: CN
Inventors: 党建武; 李凯; 王龙标
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2023-06-06
Anticipated expiration: 2040-01-06
Also published as: CN111243602A

Abstract

本发明公开了基于性别、国籍和情感信息的声纹识别方法,步骤具体如下：首先数据预处理，其次特征的提取，然后神经网络参数训练：神经网络的具体结构，在训练过程中，首先打乱训练句子的输入顺序，然后随机选择128句作为一个训练batch，数据迭代次数为80；打分融合工具需要的训练文件是每一个系统的开发集和测试集结果；测试集使用的是VOXCELEB1 test；开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件；然后经过100次迭代得到最终的测试集打分结果。本发明提升了识别率。

Description

基于性别、国籍和情感信息的声纹识别方法

技术领域

本发明涉及文本无关的说话人识别领域，特别涉及到多任务和对抗域适应训练,具体为一种基于性别、国籍和情感信息的声纹识别方法。

背景技术

语音包含了不同种类的属性，如内容，性别，国籍，情感，年龄等等。在进行说话人确认任务时，这些属性会影响说话人识别的准确率。主观上来讲，性别和国籍信息可以为说话人的身份提供多重验证从而增加识别率，然而当同一个说话人的不同句子所包含的情感不一致时，将会严重影响说话人个性化特征的提取，从而降低系统识别率。

现有的方法多从三个方面提升系统性能：1)增加训练数据量；2)增加网络的深度或者复杂度；3)设计更加巧妙的损失函数；但是由于神经网络的学习能力有限，为了在不增加训练复杂度的情况下更进一步提升系统的性能，在训练阶段增加更多的限制条件是必不可少的。所以本发明提出了使用多任务学习(MTL)和域对抗训练(ADT)的神经网络学习方法对不同属性信息进行强化学习。同时研究语音中其他属性对说话人特征的影响对提升系统识别率也有着重要的意义。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于性别、国籍和情感信息的声纹识别方法。

为了使用性别，国籍和情感标签在神经网络训练过程中加入更多的限制。本发明设计的说话人嵌入特征提取系统主要涉及五个方面：1)神经网络前端输入特征的选择；2)神经网络搭建；3)损失函数的设计；4)融合系统的实施；5)评价指标的选取；6)训练数据库的选择；

1)前端输入特征的选择

本发明使用的前端特征是512维的语谱图，语谱图是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的深浅来表示。语谱图中显示了大量的与说话人特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况。具体的提取步骤如下：分帧—快速傅里叶变换(FFT)—取log—语谱图。

2)神经网络结构

近几年来，由于卷积神经网络强大的特征抽象能力被广泛用于图像和语音领域进行特征的抽象提取。但是随着神经网络深度的逐渐增加，网络出现退化现象。残差神经网络的提出正是为了解决此问题。本发明采用的神经网络结构是基于残差神经网络，具体的描述如图1所示。

三个一维的卷积层和三个残差块交替排列来生成帧级别的特征，对于三个卷积层，卷积核的大小是(5×5)，通道数从64到256。对于每一个残差块，都包含了两个卷积核大小为(3×3)步长为(1×1)的卷积层。在平均池化层之后，分段级别的说话人嵌入特征从一个1024维的全连接层中提出。第二个全连接层将1024维的嵌入特征映射为1211维，1211和训练数据说话人个数相等以便用来计算说话人分类的损失函数。

3)损失函数的设计

性别和国籍信息为说话人的身份提供了多重验证。为了增加说话人嵌入特征中所包含的性别和国籍信息，本发明使用多任务学习方法(图2左)来联合性别和国籍标签对神经网络参数的学习进行限制。网络结构在上小节中进行了详细的描述。其中说话人分类损失使用的是近几年提出的A-softmax损失，性别和国籍的分类使用的是交叉熵损失。训练的总损失如下式所示：

其中L_MTG表示性别多任务的总损失，L_MTN表示国籍多任务的总损失，L_MTGN表示性别多任务和国籍多任务的总损失，

表示说话人分类使用的A-softmax损失，/>

表示性别分类的交叉熵损失，/>

表示国籍分类的交叉熵损失。α和β是性别和国籍任务的学习权重。

另外，为了消除情感信息给来自同一个说话人的不同句子所带来的差异，本发明采用域对抗训练方法(图2右)，通过添加一个梯度反转层来抑制对情感信息的学习。对抗网络的损失函数如下式所示：

其中L_EADT表示情感域对抗训练的总损失，

表示用于情感分类的交叉熵损失。

4)融合系统的实施

为了进一步提升系统的识别率，我们使用线性打分融合工具包bosaris_toolkit对上述系统进行打分融合。我们从训练数据中随机生成测试文件用作开发集测试。然后，对于不同的系统得到开发集和测试集相应的测试文件。最后使用linear_fusion_dev_eval_from_files脚本对打分文件进行100次训练迭代得到最终的融合打分。融合打分结合了不同系统的优势，使得说话人识别的准确率进一步提升。

5)评价指标的选取

等错误率(EER)和最小决策代价函数(minDCF)被用来评价系统的优劣。EER是说话人确认中最常用的评价标准，它的计算方法是使错误接受率(nontarget_is_target/(target_is_target+nontarget_is_target))和错误拒绝率(target_is_nontarget/(target_is_nontarget+nontarget_is_nontarget))相等。minDCF在NIST2012评价计划中被定义，代表的是检测代价函数的最小值。

6)训练数据库的选择

Voxceleb数据集包含了性别和国籍信息，因此我们使用此数据集进行性别和国籍信息的探究。这个数据库包含了153516句来自1251个说话人的句子。具体的训练和测试数据分配见表1。

表1 VOXCELEB1数据集描述

IEMOCAP是一个流行的情感识别数据库，为探究情感信息对说话人识别的影响提供了情感标签。这个数据库包含12小时来自10个说话人的音频数据。所有的句子被人工标注为10个情感分类。为了方便讨论，我们选择了其中的四类进行讨论。

整个系统算法流程包括数据预处理、特征的提取、神经网络模型参数的训练以及打分融合工具的使用这4个步骤。具体步骤如下：

1)数据预处理

在数据预处理阶段，首先对训练语句的长度进行限制，对于长度小于1秒的语句直接跳过，对于大于3s的句子进行3秒的随机裁剪。然后对所有的训练句子进行归一化处理。

2)特征的提取

使用Librosa工具提取512维的语谱图。关于语谱图的具体描述见上文。

3)神经网络参数训练

神经网络的具体结构如图一和图2所示。在训练过程中，首先打乱训练句子的输入顺序，然后随机选择128句作为一个训练batch。数据迭代次数为80。学习率从0.1到0.001递减。对于多任务性别系统，α设置为1。对于多任务国籍系统，β设置为0.3。对于多任务性别国籍系统，α和β都设置为0.1。

4)打分融合工具的使用

打分融合工具需要的训练文件是每一个系统的开发集和测试集结果。测试集使用的是VOXCELEB1 test。开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件。然后经过100次迭代得到最终的测试集打分结果。

现有的大多数说话人识别系统对于神经网络的限制不足，而且很少有研究讨论性别，国籍和情感信息对于说话人识别的影响。本发明基于VOXCELEB和IEMOCAP两个数据库，前者用于多任务性别和国籍的相关实验，后者用于情感域对抗训练实验。目的旨在：

1)验证性别，国籍对说话人识别的促进作用和情感信息对说话人识别的抑制作用。

2)利用多任务学习对于有用信息(性别，国籍)进行学习。

3)利用域对抗训练(DAT)消除不利信息(情感)对说话人识别的影响。

有益效果

本发明针对说话人识别中的说话人确认任务，旨在提升复杂环境中说话人识别的准确率。在多种挑战并存的数据集上，通过增加神经网络训练过程中的限制，进一步提升了识别的准确率。图3展示的是性别和国籍信息的权重(α/β)对于说话人识别的影响。在α＝1，β＝0.3时分别达到最好的识别率。表2展示的是所有实验的结果对比，其中MTG表示性别多任务训练，MTN表示国籍多任务训练，MTGN表示性别和国籍多任务训练，EADT表示情感域对抗训练，Fusion1表示MTG和MTN系统的打分融合，Fusion2表示MTG，MTN以及MTGN三个系统的打分融合。从结果可以看出，促进性别和国籍信息的学习和抑制情感信息的学习都能够提升说话人识别的准确率。最终的Fusion2系统和EADT系统与基线系统相比在EER上分别提升了16.4％和22.9％。从图4的DET曲线可以再次看出我们提出的方法的优越性。与现有技术相比，有益效果有：

1)通过实验，验证了性别和国籍对于说话人识别任务的促进作用，通过多任务学习有效的学习到了性别和国籍属性中的重要信息，使得识别率得到了提升。

2)对于情感信息的域对抗训练验证了情感信息对于说话人识别率的抑制作用，并且通过增加梯度反转层有效的减少了情感信息的学习，抑制了说话人嵌入特征中情感信息的影响。

3)通过打分融合工具，有效的结合了不同系统的优势，进一步提升了说话人识别率。

表2不同系统的EER和minDCF结果对比

附图说明

图1残差神经网络特征提取器；

图2多任务学习和域对抗训练；

图3多任务训练识别率受权重α/β的影响；

图4本发明所提出的系统和基线系统的DET曲线对比：

Baseline:图1所示系统，MTG:性别多任务，MTN:国籍多任务，MTGN:性别和国籍多任务,Fusion1:MTG和MTN打分融合,Fusion2:MTG，MTN和MTGN打分融合。

具体实施方式

下面结合附图和附表对本发明做进一步详细的描述。

本示例以说话人识别中广泛应用的VOXCELEB1数据集为例来给出发明的实施方式。整个系统算法流程包括数据预处理、特征的提取、神经网络模型参数的训练以及打分融合工具的使用这4个步骤。具体步骤如下：

1)数据预处理

2)特征的提取

3)神经网络参数训练

神经网络的具体结构如图1和图2所示。在训练过程中，首先打乱训练句子的输入顺序，然后随机选择128句作为一个训练batch。数据迭代次数为80。学习率从0.1到0.001递减。对于多任务性别系统，α设置为1。对于多任务国籍系统，β设置为0.3。对于多任务性别国籍系统，α和β都设置为0.1。

4)打分融合工具的使用

Claims

1.基于性别、国籍和情感信息的声纹识别方法,其特征在于,包括数据预处理、特征的提取、神经网络模型参数的训练以及打分融合工具的使用这4个步骤，具体如下：

1)数据预处理

在数据预处理阶段，首先对训练语句的长度进行限制，对于长度小于1秒的语句直接跳过，对于大于3s的句子进行3秒的随机裁剪；然后对所有的训练句子进行归一化处理；

2)特征的提取

使用Librosa工具提取512维的语谱图；

3)神经网络参数训练

神经网络的具体结构，在训练过程中，首先打乱训练句子的输入顺序，然后随机选择128句作为一个训练batch，数据迭代次数为80；

学习率从0.1到0.001递减；

4)打分融合工具的使用

打分融合工具需要的训练文件是每一个系统的开发集和测试集结果；

测试集使用的是VOXCELEB1 test；开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件；

然后经过100次迭代得到最终的测试集打分结果；

基于说话人嵌入特征提取系统，主要涉及五个方面：1)神经网络前端输入特征的选择；2)神经网络搭建；3)损失函数的设计；4)融合系统的实施；5)评价指标的选取；6)训练数据库的选择；

1)前端输入特征的选择

使用的前端特征是512维的语谱图，三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间；

具体的提取步骤如下：分帧-快速傅里叶变换-取log-语谱图；

2)神经网络结构

采用的神经网络结构是基于残差神经网络；

3)损失函数的设计

使用多任务学习方法来联合性别和国籍标签对神经网络参数的学习进行限制：

表示说话人分类使用的A-softmax损失，/>

表示性别分类的交叉熵损失，/>

表示国籍分类的交叉熵损失；

α和β是性别和国籍任务的学习权重；

采用域对抗训练方法，通过添加一个梯度反转层来抑制对情感信息的学习，对抗网络的损失函数如下式所示：

/>

其中L_EADT表示情感域对抗训练的总损失，

表示用于情感分类的交叉熵损失；

4)融合系统的实施

使用线性打分融合工具包bosaris_toolkit对上述系统进行打分融合，从训练数据中随机生成测试文件用作开发集测试；然后，对于不同的系统得到开发集和测试集相应的测试文件；最后使用linear_fusion_dev_eval_from_files脚本对打分文件进行100次训练迭代得到最终的融合打分；

5)评价指标的选取

等错误率和最小决策代价函数被用来评价系统的优劣；

6)训练数据库的选择

Voxceleb数据集包含了性别和国籍信息。

2.根据权利要求1所述的基于性别、国籍和情感信息的声纹识别方法,其特征在于,对于多任务性别系统，α设置为1；

对于多任务国籍系统，β设置为0.3；

对于多任务性别国籍系统，α和β都设置为0.1。