CN112259104A

CN112259104A - 一种声纹识别模型的训练装置

Info

Publication number: CN112259104A
Application number: CN202011076074.5A
Authority: CN
Inventors: 张翠玲; 谭铁君; 李稀敏; 杨东升; 叶志坚; 肖龙源
Original assignee: Southwest University Of Political Science & Law; Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Southwest University Of Political Science & Law; Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-22
Anticipated expiration: 2040-10-10
Also published as: CN112259104B

Abstract

本发明一种声纹识别模型的训练装置，提取包含说话人身份信息的语音学特征作为输入特征，利用说话人的性别等标签进行多任务训练，并结合对抗训练方法来解决跨信道问题，最终提取反映说话人身份本质的、稳定的特征。本发明结合了语音学特征以及深度神经网络模拟人类大脑的学习机制，从而提高说话人身份本质特征的提取能力、稳定性和可解释性，最终提升自动声纹识别的准确率和召回率。

Description

一种声纹识别模型的训练装置

技术领域

本发明涉及自动声纹识别领域，尤其是一种面向司法语音证据评估模式的声纹识别模型的训练装置。

背景技术

在司法语音领域的说话人同一性鉴定任务中，目前国内主流的鉴定方法基于看、听、测等几个维度，依赖声纹鉴定专家的个人经验。这种方法耗时、耗力，而且包含鉴定专家的主观判断，无法在更大的从业群体中快速推广。此外，受限于此类方法的特点，其只能适于小规模的检材和样本场景，当待比对的检材和样本成百上千甚至更多时，声纹鉴定专家不足以应付工作量如此巨大的任务。鉴于此类原因，基于似然比计算框架的证据评估模式被提上议程，在欧美部分国家（比如美国、英国）中正在被逐步采用并实践。在基于似然比计算框架的司法语音证据评估模式中，自动声纹识别是其核心基础。

自动声纹识别的技术路线中，基于统计机器学习的身份向量（i-vector）提取方法和基于深度神经网络的身份向量（embedding）提取方法逐渐成为当前学术界和工业界的主流方法，但是基于这些方法所开发的声纹识别系统，经常会出现一些显而易见的错误。比如存在以下几种情况：第一种，听觉感知上的明显差异未能区分，比对排名靠前的结果中，存在听感上存在明显差异的比对结果；第二种，男女差异未能区分，将一个女性的声音片段从大量声纹库中作比对，比对排名靠前的结果中会出现男性的结果；第三种，同一人跨信道语音的相似度计算结果大于非同一人同信道语音的相似度计算结果。虽然现代自动声纹识别技术在识别率上有突飞猛进的发展，但是，以上三种明显的缺陷，会经常存在于自动声纹比对结果中。

此外，当前及今后相当长的一段时间内，电信网络诈骗案件频发、将有增无减，在大部分地区，电信网络诈骗案件的占比升至50%以上，公安部门借助并全面推广自动声纹识别技术打击电信网络诈骗（由于案件的特殊性，只能获得为数不多的语音证据），并依托司法部门出具说话人同一性鉴定报告。为了应对此种日益增加的、急迫的社会需求，提升自动声纹识别的准确率及其可解释性，已经刻不容缓。

目前自动声纹识别算法使用的特征，主要是Fbank（Filter bank Coefficents）特征和MFCC（Mel Frequency Cepstral Coefficents）特征。这些特征是建立在对人耳听觉机理（人耳对不同频率的声波有不同的听觉敏感）的研究基础上所提出的，已在语音识别中获得广泛应用，同时也在自动声纹识中得到广泛应用。但是，在司法语音领域中经常用到的却不是这些特征，因为这些特征不具备直观的、可解释的物理意义。因而如宽带语谱图、长时LPC曲线、Pitch曲线、嗓音特征等图谱得到更多、更广泛地使用。

在声纹特征的提取方面，目前已经由2000年以后被广泛使用的高斯混合模型及特征空间自适应（Gaussian Mixture Model and Feature Space Adaptation）方式，逐步过渡到基于统计机器学习的i-vector身份向量以及基于深度神经网络的embedding身份向量的提取方式。深度神经网络方面，主要的网络结构有时延神经网络（TDNN）、残差网络（ResNet）、时延神经网络的扩展版（Extended TDNN, E-TDNN）以及分解时延神经网络（Factorized TDNN, F-TDNN）等。其基本原理都是通过神经网络提取embedding向量来表征说话人唯一性的身份向量（一般是数百维，比如512维），然后，利用距离度量计算方法（比如PLDA分类器、余弦距离）来衡量两个embedding向量之间的相似度，以此作为评估不同语音是否属于同一说话人的依据。

但是，使用上面的方法来解决跨信道问题时，需要大量说话人的、标注好信道来源的语音数据。这在实际中是很难获取的，尤其是同一人的各种信道来源的数据。因此，学术界利用迁移学习中的域对抗训练（DAT）技术来解决跨信道问题。这种方法只要求一个信道提供说话人ID，而另外一个信道不作要求。这种类型的数据相对容易获取，因此具有实操性。

当然，由于语音中包含的性别、方言等说话人人身信息，在频谱上表现为频率的不同分布，而信道差异主要是反映在频域上变化，因此性别、方言等信息会使得信道差异更加复杂。

发明内容

本发明为解决上述问题，提供了一种基于启发式语音学特征、多任务学习和对抗训练的面向司法语音证据评估模式的声纹识别模型的训练装置，提取包含说话人身份信息的语音学特征作为输入特征，利用说话人的性别等标签进行多任务训练，并结合对抗训练方法来解决跨信道问题，最终提取反映说话人身份本质的、稳定的特征。

本发明一种声纹识别模型的训练装置，包括样本采集和处理模块、特征输入模块、特征提取器、池化层、说话人分类器、域分类器、性别分类器、其他分类器和优化处理模块，其中：

该样本采集和处理模块，用于收集要进行声纹识别比对训练的两信道的语音样本，对其中一个信道采集的语音样本根据样本对象来标注特征标签，对另外一个信道采集的语音样本不标注特征标签，并将处理后的语音样本传给特征输入模块；

该特征输入模块，用于对每一个语音样本分别提取启发式语音学特征和MFCC特征，并将二者拼接融合后形成输入特征输出给特征提取器；

该池化层，用于处理特征提取器提取的说话人声纹特征向量的变长音频，而后拼接成特征向量输出至说话人分类器；

该说话人分类器，用于从池化层处理后的特征向量中获取说话人embedding向量和计算得到说话人损失函数值Loss(Speaker)；

该域分类器，包括连接说话人分类器的梯度反转层，对说话人分类器输出的说话人embedding向量通过梯度反转层进行梯度反转，进而构成对抗训练，使得提取的说话人embedding向量在对抗训练中，区分不出来自哪个信道，计算得到域分类损失函数值Loss(Domain)；

该性别分类器，包括分类层和损失函数计算层，该分类层连接说话人分类器，对说话人分类器输出的说话人embedding向量进行性别分类，使得该说话人embedding向量包含性别信息，在后续优化处理模块中和域分类器同时作用，使得提取的说话人embedding向量由于性别和信道不同造成的差异降到最小，经损失函数计算层计算得到性别损失函数值Loss(Gender)；

根据需要增加至少一个其他特征分类器，根据语音样本的特征标签来设计，包括分类层和损失函数计算层，该分类层连接说话人分类器，对说话人分类器输出的说话人embedding向量进行其他特征分类，使得提取的说话人embedding向量包含其他特征信息，在后续优化处理模块中和域分类器同时作用，使得提取的说话人embedding向量由于其他特征和信道不同造成的差异降到最小，经损失函数计算层计算得到其他特征损失函数值Loss(Other)；

该优化处理模块，连接所有分类器的损失函数计算层，用于计算整个神经网络的损失函数值Loss(Total)，即所有分类器的损失函数值之和Loss(Total)=Loss(Speaker)+Loss(Domain)+Loss(Gender)+Loss(Other)，在损失函数值Loss(Total)未达到预设阈值时，通过随机梯度下降算法优化神经网络中引入的各种权重，使得损失函数值Loss(Total)越来越小，直到整个神经网络的损失函数值Loss(Total) 达到预设阈值，即损失函数值Loss(Total)达到最小化，则控制模型训练结束。

所述的其他特征分类器，为方言分类器、身高分类器、地域分类器或者年龄段分类器。

该特征提取器由五层时延神经网络TDNN堆叠而成，用于提取说话人声纹特征向量，具体设定为：

第一TDNN层：上下帧范围为{-2，-1，0，1，2},维度为512；

第二TDNN层：上下帧范围为{-2，0，2}，维度为512；

第三TDNN层：上下帧范围为{-3，0，3}，维度为512；

第四TDNN层：上下帧范围为{0}，维度为512；

第五TDNN层：上下帧范围为{0}，维度为1500。

该说话人分类器，按照数据的处理次序依次包括第一全连接层、第二全连接层、分类层和损失函数计算层，该第一全连接层与池化层连接，将池化层处理后的特征向量标成3000维，通过第一全连接层，维度为512维，通过第二全连接层，维度为512维，并获取说话人embedding向量，通过分类层，维度为说话人个数，经损失函数计算层计算得到说话人损失函数值Loss(Speaker)。

该域分类器，按照数据的处理次序依次包括梯度反转层、第一全连接层、第二全连接层、分类层和损失函数计算层，梯度反转层与说话人分类器的第二全连接层连接，将说话人分类器的第二全连接层的输出结果通过梯度反转层进行梯度反转，进而构成对抗训练，该梯度反转层后面接第一全连接层，维度为512，用于努力使得提取的说话人embedding向量不具有信道信息，后面接第二全连接层，维度为128，用于信道分类，努力区分说话人embedding向量来自哪个信道，再通过分类层，维度为2，经损失函数计算层计算得到域损失函数值Loss(Domain)。

本发明的有益效果是：

（1）采用启发式语音学特征与一般倒谱特征相融合，区别于语音识别单一采用的一般倒谱特征，能够有效地引导和启发神经网络提取稳定的、可解释的、反映说话人身份本质的特征；

（2）基于对抗性训练解决跨信道问题，可以解决实际应用中同一个人多种不同信道语音获取存在困难的问题；

（3）基于多任务训练，可以利用已有的语音标签（性别、年龄段、口音等），使得提取的说话人embedding向量本身强制包含这些信息，约束神经网络的训练过程，从而在声纹辨认中能够提高召回率和准确率。

（4）更重要的是，联合对抗性训练和基于语音标签的多任务学习这个两个方法，可以解决由性别、口音等语音特征分布不一致引起的关于信道差异的更复杂的问题，能使对抗训练发挥更好的学习效果。

由此，本发明这种结合了启发式语音学特征、约束性训练（多任务学习）和对抗训练的声纹识别模型的训练装置，结合了语音学特征以及深度神经网络模拟人类大脑的学习机制，从而提高说话人身份本质特征的提取能力、稳定性和可解释性，最终提升自动声纹识别的准确率和召回率。

附图说明

图1为本发明的工作流程图。

以下结合附图和具体实施例对本发明做进一步详述。

具体实施方式

如图1所示，本发明一种声纹识别模型的训练装置，包括样本采集和处理模块（图中未示）、特征输入模块1、特征提取器2、池化层3、说话人分类器4、域分类器5、性别分类器6、方言分类器7和优化处理模块（图中未示），其中：

该样本采集和处理模块，用于收集要进行声纹识别比对训练的两信道的语音样本，对其中一个信道采集的语音样本根据样本对象来标注特征标签，对另外一个信道采集的语音样本不标注特征标签，并将处理后的语音样本传给特征输入模块1；

该特征输入模块1，用于对每一个语音样本分别提取启发式语音学特征和MFCC特征，并将二者拼接融合后形成输入特征输出给特征提取器2；

该特征提取器2，由五层时延神经网络TDNN堆叠而成，用于提取说话人声纹特征向量；

第一TDNN层：上下帧范围为{-2，-1，0，1，2},维度为512；

第二TDNN层：上下帧范围为{-2，0，2}，维度为512；

第三TDNN层：上下帧范围为{-3，0，3}，维度为512；

第四TDNN层：上下帧范围为{0}，维度为512；

第五TDNN层：上下帧范围为{0}，维度为1500；

该池化层3，用于处理特征提取器2提取的说话人声纹特征向量的变长音频，而后拼接成特征向量；

该说话人分类器4，用于获取说话人embedding向量和计算得到说话人损失函数值Loss(Speaker)，按照数据的处理次序依次包括第一全连接层41、第二全连接层42、分类层43和损失函数计算层44，该第一全连接层41与池化层3连接，将池化层3处理后的特征向量标成3000维，通过第一全连接层41，维度为512维，通过第二全连接层42，维度为512维，并获取说话人embedding向量，通过分类层43，维度为说话人个数，经损失函数计算层44计算得到说话人损失函数值Loss(Speaker)，本实施例此处损失函数使用Softmax Loss；

该域分类器5，按照数据的处理次序依次包括梯度反转层51、第一全连接层52、第二全连接层53、分类层54和损失函数计算层55，梯度反转层51与说话人分类器4的第二全连接层42连接，将说话人分类器4的第二全连接层42的输出结果通过梯度反转层51，进行梯度反转，进而构成对抗训练，该梯度反转层51后面接第一全连接层52，维度为512，用于努力使得提取的说话人embedding向量不具有信道信息，后面接第二全连接层53，维度为128，用于信道分类，努力区分说话人embedding向量来自哪个信道，再通过分类层54，由于本实施例为两类，维度为2，经损失函数计算层55计算得到域损失函数值Loss(Domain)，本实施例此处损失函数使用Softmax Loss；

该性别分类器6，包括分类层61和损失函数计算层62，该分类层61连接说话人分类器4的第二层全连接层42，对说话人分类器4的第二全连接层42输出的说话人embedding向量进行性别分类，使得该说话人embedding向量包含性别信息，在后续优化处理模块中和域分类器5同时作用，使得提取的说话人embedding向量由于性别和信道不同造成的差异降到最小，，经损失函数计算层62计算得到性别损失函数值Loss(Gender)，本实施例此处损失函数使用Softmax Loss；

该方言分类器7，包括分类层71和损失函数计算层72，该分类层71连接说话人分类器4的第二层全连接层42，对说话人分类器4的第二全连接层42输出的说话人embedding向量进行方言分类，使得提取的说话人embedding向量包含方言信息，在后续优化处理模块中和域分类器5同时作用，使得提取的说话人embedding向量由于方言和信道不同造成的差异降到最小，经损失函数计算层72计算得到方言损失函数值Loss(Dialect)，本实施例此处损失函数使用Softmax Loss；

该优化处理模块，连接所有分类器的损失函数计算层，用于计算整个神经网络的损失函数值Loss(Total)，即所有分类器的损失函数值之和Loss(Total)=Loss(Speaker)+Loss(Domain)+Loss(Gender)+Loss(Dialect)，在损失函数值Loss(Total)未达到预设阈值时，通过随机梯度下降算法（SGD）优化神经网络中引入的各种权重，使得损失函数值Loss(Total)越来越小，直到整个神经网络的损失函数值Loss(Total) 达到预设阈值，即损失函数值Loss(Total)达到最小化，则控制模型训练结束。

还包括有其他特征分类器，包括分类层和损失函数计算层，该分类层与说话人分类器4的第二层全连接层42连接，这里的其他分类器根据语音样本的特征标签而设计，可以是任何已知的语音中包含的信息，比如身高分类器、地域分类、年龄段分类器等。

本发明一种声纹识别模型的训练方法，具体包括如下步骤：

步骤1、收集待训练的语音样本集合

收集要进行声纹识别比对训练的两信道的语音样本各10万条，其中一个信道每个样本对象采集1条语音样本，共10万人，针对该信道采集的每一条语音样本需要根据样本对象来标注关于性别、方言等特征标签；另外一个信道也是每个样本对象采集1条语音样本，共10万人，采集的语音样本不需要标注上述标签，对于需要标注标签的信道的样本对象在选取时，要尽可能考虑性别、方言等特征的分布均匀，对于无需标注标签的信道，在选取样本对象时，并不要求很严格的分布均匀；

例如要进行标准采集器录音信道和微信语音信道之间的声纹识别训练，就需要获取经由标准采集器录音信道的语音样本和经由微信语音信道的语音样本，其中，若经由标准采集器录音信道的语音样本根据样本对象标注性别、方言等特征标签，那么对应的经由微信语音信道的语音样本，则不需要标注标签；

步骤2、对每一个语音样本进行预处理提取输入特征

针对步骤1所收集的每一个语音样本分别提取启发式语音学特征（以嗓音特征为例，比如声音类型、喉头紧张级别、声道紧张级别、喉部高度、咽部类型、唇展类型等）和MFCC特征（即一般倒谱特征），将二者拼接融合后形成输入特征；

步骤3、将步骤2提取的输入特征输入到特征提取器中，在本实施例中，该特征提取器由五层时延神经网络TDNN堆叠而成，用于从输入特征中提取说话人声纹特征向量，具体设定为：

第一TDNN层：上下帧范围为{-2，-1，0，1，2},维度为512；

第二TDNN层：上下帧范围为{-2，0，2}，维度为512；

第三TDNN层：上下帧范围为{-3，0，3}，维度为512；

第四TDNN层：上下帧范围为{0}，维度为512；

第五TDNN层：上下帧范围为{0}，维度为1500；

本发明实施例中采用的时延神经网络结构TDNN（Time-Delay Deep Neural Network），能适应时序信号，逐帧处理语音。该提取说话人声纹特征向量的时延神经网络TDNN，包含三种神经元层Layer，结构为：帧级层Frame-Level Layer、池化层Statistics Pooling Layer和语音段层Segment-Level Layer，通过帧级层Frame-Level Layer逐个处理语音帧，而语音段层Segment-Level Layer处理语音段，并将语音段归类到人（即身份标签），其中，池化层Statistics Pooling Layer就是负责把帧级层Frame-Level Layer的帧，汇总到一起计算其统计量（均值和方差），并传递到语音段层Segment-Level Layer。

所述提取说话人声纹特征向量的时延神经网络TDNN，相当于一个流式处理网络，它的帧级层逐个处理语音帧，并在语音段结束时，它的池化层将各个帧对应的权重进行计算，获得Segment-Level级的权重信息，并传递到后续的分类器进行分类。

步骤4、特征提取器提取的说话人声纹特征向量经过池化层，用于处理变长音频的问题，本实施例通过时间维度上求取均值和方差，并拼接成特征向量；

步骤5、将步骤4得到的特征向量通过说话人分类器获取说话人embedding向量和计算得到说话人损失函数值Loss(Speaker)：

本实施例使用的说话人分类器包括第一层全连接层、第二层全连接层、第三层为分类层和计算损失函数，将通过池化层后的特征向量标成3000维，通过第一层全连接层，维度为512维，通过第二层全连接层，维度为512维，获取说话人embedding向量，该说话人embedding向量再通过第三层的分类层，维度为说话人个数，这里为100000，计算得到说话人损失函数值Loss(Speaker) ，本实施例此处损失函数使用Softmax Loss；

步骤6、说话人分类器的第二层全连接层连接域分类器，将第二层全连接层的输出结果输入域分类器，使得提取的说话人embedding向量在对抗训练中，区分不出来自哪个信道，计算得到域分类损失函数值Loss(Domain)：

该域分类器依次包括梯度反转层、第一全连接层、第二全连接层、分类层和计算损失函数，将说话人分类器的第二层全连接层的输出结果通过梯度反转层，进行梯度反转，进而构成对抗训练，该梯度反转层后面接第一全连接层，维度为512，用于努力使得提取的说话人embedding向量不具有信道信息，后面接第二全连接层，维度为128，用于信道分类，努力区分说话人embedding向量来自哪个信道，再通过分类层，由于本实施例为两类，维度为2，计算得到域损失函数值Loss(Domain)，本实施例此处损失函数使用Softmax Loss；

步骤7、说话人分类器的第二层全连接层直接连接性别分类器的分类层，将步骤5提取的说话人embedding向量通过性别分类器进行性别分类，使得提取的说话人embedding向量包含性别信息，在后续步骤9中和域分类器同时作用，使得提取的说话人embedding向量由于性别和信道不同造成的差异降到最小，计算得到性别损失函数值Loss(Gender)，本实施例此处损失函数使用Softmax Loss；

步骤8、说话人分类器的第二层全连接层直接连接方言分类器的分类层，将步骤5说话人分类器提取的embedding向量通过方言分类器进行方言分类，使得提取的说话人embedding向量包含方言信息，在后续的步骤9和域分类器同时作用，使得提取的说话人embedding向量由于方言和信道不同造成的差异降到最小，计算得到方言损失函数值Loss(Dialect)，本实施例此处损失函数使用Softmax Loss；

步骤9、循环往复执行步骤1至9，直到整个神经网络的损失函数值Loss(Total) 达到最小化，则完成模型训练：

该整个神经网络的损失函数值Loss(Total)为所有分类器损失函数值之和，即Loss(Total)=Loss(Speaker)+Loss(Domain)+Loss(Gender)+Loss(Dialect)，若损失函数值Loss(Total)未达到预设阈值，则返回步骤1并通过随机梯度下降算法（SGD）优化神经网络构造中引入的各种权重，循环往复执行步骤1至9，在优化过程中使得损失函数值Loss(Total)越来越小，直到整个神经网络的损失函数值Loss(Total) 达到预设阈值，即损失函数值Loss(Total)达到最小化，则完成模型训练。

上述步骤8后说话人分类器的第二层全连接层还可以连接其他特征分类器的分类层，这里的其他特征分类器可以是任何已知的语音中包含的信息，比如身高、地域、年龄段等。

本发明从三个方面进行创新，改进上述显而易见的技术缺陷。这三个方面的创新，分别针对已有缺陷而提出，包括：第一，启发式学习，利用说话人嗓音特征等可解释性强的生理和习惯特征，指导深度神经网络的监督性学习，避免比对结果中出现听感上差异明显的结果；第二，约束性训练，利用性别、年龄段、身高等说话人标签信息，设计多任务深度神经网络结构，约束神经网络的有监督地学习参数，避免比对结果中出现性别不同等明显错误的结果；第三，对抗训练，利用神经网络的对抗训练单元，基于少量可获得的信道标签数据，提取能反映说话人身份本质区别的特征，避免跨信道导致的语音特征差异给自动声纹识别带来的相似度计算问题。

以上所述，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种声纹识别模型的训练装置，其特征在于包括样本采集和处理模块、特征输入模块、特征提取器、池化层、说话人分类器、域分类器、性别分类器、其他分类器和优化处理模块，其中：

2.根据权利要求1所述的一种声纹识别模型的训练装置，其特征在于：所述的其他特征分类器，为方言分类器、身高分类器、地域分类器或者年龄段分类器。

3.根据权利要求1所述的一种声纹识别模型的训练装置，其特征在于：该特征提取器由五层时延神经网络TDNN堆叠而成，用于提取说话人声纹特征向量，具体设定为：

第一TDNN层：上下帧范围为{-2，-1，0，1，2},维度为512；

第二TDNN层：上下帧范围为{-2，0，2}，维度为512；

第三TDNN层：上下帧范围为{-3，0，3}，维度为512；

第四TDNN层：上下帧范围为{0}，维度为512；

第五TDNN层：上下帧范围为{0}，维度为1500。

4.根据权利要求3所述的一种声纹识别模型的训练装置，其特征在于：该说话人分类器，按照数据的处理次序依次包括第一全连接层、第二全连接层、分类层和损失函数计算层，该第一全连接层与池化层连接，将池化层处理后的特征向量标成3000维，通过第一全连接层，维度为512维，通过第二全连接层，维度为512维，并获取说话人embedding向量，通过分类层，维度为说话人个数，经损失函数计算层计算得到说话人损失函数值Loss(Speaker)。

5.根据权利要求4所述的一种声纹识别模型的训练装置，其特征在于：该域分类器，按照数据的处理次序依次包括梯度反转层、第一全连接层、第二全连接层、分类层和损失函数计算层，梯度反转层与说话人分类器的第二全连接层连接，将说话人分类器的第二全连接层的输出结果通过梯度反转层进行梯度反转，进而构成对抗训练，该梯度反转层后面接第一全连接层，维度为512，用于努力使得提取的说话人embedding向量不具有信道信息，后面接第二全连接层，维度为128，用于信道分类，努力区分说话人embedding向量来自哪个信道，再通过分类层，维度为2，经损失函数计算层计算得到域损失函数值Loss(Domain)。