CN116612767B

CN116612767B - 基于嵌入增强的超短时说话人确认方法、设备及介质

Info

Publication number: CN116612767B
Application number: CN202310869117.2A
Authority: CN
Inventors: 杨爽; 刘天; 黄开; 李波; 孙彬; 晁聪; 陈聪; 纪发蕾
Original assignee: Heze Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Heze Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-13
Anticipated expiration: 2043-07-17
Also published as: CN116612767A

Abstract

本发明属于说话人确认技术领域，公开了一种基于嵌入增强的超短时说话人确认方法、设备及介质。本发明方法包括如下步骤：搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型；语音在网络模型中的处理流程如下：输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到相对较好的第二说话人嵌入；保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型；利用训练好的网络模型，对输入的语音进行说话人确。本发明利于提升现有的说话人确认模型在超短时条件下的说话人确认效果。

Description

基于嵌入增强的超短时说话人确认方法、设备及介质

技术领域

本发明属于说话人确认技术领域，特别涉及一种基于嵌入增强的超短时说话人确认方法、设备及介质。

背景技术

声纹识别是通过语音确定说话人身份的任务，说话人确认是声纹识别研究的一个分支。说话人确认是根据当前语音数据与注册过的说话人语音进行比对，从而判断是否是同一个说话人的任务。说话人确认模型可分为端到端的模型和分阶段的模型。

其中，端到端的说话人确认以一对语音作为输入，直接生成该对语音的相似性分数。分阶段的说话人确认分成前端和后端两个阶段，前端阶段用于说话人身份特征提取，即将说话人语音数据生成一个矢量，后端阶段用于对生成的一对矢量进行相似性计算从而判断两段语音是否属于同一说话人。现如今研究最多、使用最广泛的是分阶段的模型。

后端阶段常用余弦距离和概率线性判别分析帮助判别。而前端阶段的网络模型多种多样，最具代表性的是基于时延神经网络的x-vector，很多工作都是在其基础上做了改进，并且在特定测试条件下已经达到了非常好的效果。实验表明，说话人确认系统的性能随语音时长减少而降低，而现阶段得到的较优的效果都是基于尽可能长的语音测试而来的。

现实中很难获取到足够长的语音数据，所以在实际使用中系统的效果比预期要差很多。

曾经的研究认为5-10秒是短时问题，并做了很多优化。然而随着深度学习时代的到来，5-10秒已经不再是问题，并且现阶段的基于深度学习的说话人确认模型，在大于2秒的条件下也有不错的效果，而对于小于2秒也就是超短时条件下，判别效果较差。

发明内容

本发明的目的在于提出一种基于嵌入增强的超短时说话人确认方法，以提升现有的说话人确认模型在超短时条件下的说话人确认效果。

本发明为了实现上述目的，采用如下技术方案：

一种基于嵌入增强的超短时说话人确认方法，包括如下步骤：

基于嵌入增强的超短时说话人确认方法，包括如下步骤：

步骤1. 搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型；

语音在网络模型中的处理流程如下：

输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到相对较好的第二说话人嵌入；

步骤2. 保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型；

步骤3. 利用训练好的网络模型，对输入的语音进行说话人确认。

优选的，增强器模型包括输入层、隐藏层以及输出层；

输入层包含一个第一全连接层，该输入层使用LeakyReLU进行激活；

隐藏层由三个残差块组成，隐藏层的输入输出维度为512；

每个残差块由第二全连接层以及第三全连接层组成；第二全连接层用LeakyReLU进行激活，将第三全连接层的输出与残差块的输入相加后使用LeakyReLU进行激活；

输出层使用一个第四全连接层；

相对较差的第一说话人嵌入在增强器模型中的处理流程如下：

定义第一说话人嵌入为D维的向量；

第一说话人嵌入先经过第一全连接层和LeakyReLU激活函数的计算，得到512维的输入向量，该输入向量经过三个残差块的计算得到512维度的输出向量；

最后该输出向量经过输出层得到D维的向量，即相对较好的第二说话人嵌入。

在上述基于嵌入增强的超短时说话人确认方法的基础上，本发明还提出了一种计算机设备，该计算机设备包括存储器和一个或多个处理器。

所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上面述及的基于嵌入增强的超短时说话人确认方法的步骤。

在上述基于嵌入增强的超短时说话人确认方法的基础上，本发明还提出了一种计算机可读存储介质，在计算机可读存储介质上存储有程序。

该程序被处理器执行时用于实现上述基于嵌入增强的超短时说话人确认方法的步骤。

本发明具有如下优点：

如上所述，本发明述及了一种基于嵌入增强的超短时说话人确认方法、设备及介质。其中，本发明设计并训练了一个增强器模型，该增强器模型能够将差的嵌入映射到好的嵌入，差的说话人嵌入表现为较大的类内距离和较小的类间距离，区分度较差，而好的说话人嵌入表现为较小的类内距离和较大的类间距离，因此有较好的区分度，使用较好区分度的说话人嵌入进行打分后的结果也更准确，从而对语音身份的判别更准确。本发明方法既能够保持现有说话人确认模型在长语音条件下的性能，又能够提升在短语音条件下的性能，实用性强。

附图说明

图1为本发明实施例中基于嵌入增强的超短时说话人确认方法的模型图。

图2为本发明实施例中增强器的模型图。

图3为本发明实施例中增强器训练的原理示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

实施例1

将长语音输入说话人确认模型后提取出来的说话人嵌入（即代表说话人身份的向量），会呈现同一人的说话人嵌入聚集在一起，而不同人的说话人嵌入离得比较远，即类内距离小、类间距离大，这样就很容易判别不同人的语音。

因此，在长语音条件下，说话人确认模型的判别效果比较好。

然而，在短语音条件下，说话人嵌入的类内距离大，类间距离小。因此，在短语音条件下，现有说话人确认模型无法很好地区分不同的说话人，判别效果较差。

综上，造成短语音条件下性能下降的主要原因是，提取出来的说话人嵌入较“差”。

基于此，本实施例1提出了一种嵌入增强的超短时说话人确认方法，该方法的主要思想是使用一个深度学习模型来增强“差”的说话人嵌入，增强后变成“好”的说话人嵌入，也就是表现出类内距离小、类间距离大的说话人嵌入。

其原理图见图1，它与原先说话人确认系统的唯一区别是增加了一个增强器模型。

如图1所示，本实施例中基于嵌入增强的超短时说话人确认方法，包括如下步骤：

步骤1. 搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型。

本实施例中的说话人确认模型可采用ECAPA-TDNN模型。当然，也并不局限于采用该ECAPA-TDNN模型，其他现有说话人确认模型也非常适用。

本发明所提基于嵌入增强的超短时说话人确认方法能够应用于多种说话人确认模型。

语音在网络模型中的处理流程如下：

输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到相对较好的第二说话人嵌入。

增强器模型的结构见图2，该增强器模型的输入和输出均为说话人嵌入。其中，模型输入为相对较差的第一说话人嵌入，模型输出为相对较好的第二说话人嵌入。

该增强器模型包括输入层、隐藏层以及输出层。

输入层包含一个第一全连接层，该输入层使用LeakyReLU进行激活。

隐藏层由三个残差块组成，使用残差设计来缓解梯度消失问题。

隐藏层的输入输出维度为512。

每个残差块由第二全连接层以及第三全连接层组成；第二全连接层用LeakyReLU进行激活，将第三全连接层的输出与残差块的输入相加后使用LeakyReLU进行激活。

输出层使用一个第四全连接层。

定义第一说话人嵌入为D维的向量。

第一说话人嵌入先经过第一全连接层和LeakyReLU激活函数的计算，得到512维的输入向量，该输入向量经过三个残差块的计算得到512维度的输出向量。

步骤2. 保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型。

在训练增强器模型的时候，使用差的嵌入作为其输入，使用好的说话人嵌入作为期望输出，训练中让增强的输出与期望输出不断逼近，学习到将差嵌入映射到好嵌入的规律。

增强器模型使用自监督学习的方式进行训练，使用无标注的语音即可训练。图3为训练架构图，图中的说话人确认模型是训练好的模型，在训练增强器的时候冻结其模型参数。

定义一共有N条用于训练的语音，每个批次的训练过程如下：

步骤2.1. 从N个训练语音中随机选择n个语音，n为每批训练的语音数量；

步骤2.2. 对n个语音中的每一个语音，均使用随机的方式截取t秒的短语音以及2t秒的长语音，则一共得到n个短语音和n个长语音；

步骤2.3. 使用预先训练好的说话人确认模型分别提取短语音的说话人嵌入S以及长语音的说话人嵌入L，S={s ⁱ _s,1≤i≤n}，L={l ⁱ,1≤i≤n}；

其中，s ⁱ _s表示第i个短语音的说话人嵌入，l ⁱ表示第i个长语音的说话人嵌入；

步骤2.4. 将短语音的说话人嵌入S输入增强器模型，输出增强后的说话人嵌入S´；

S´={s ⁱ,1≤i≤n}；

其中，s ⁱ表示第i个短语音增强后的说话人嵌入；

步骤2.5. 使用增强后的说话人嵌入S´和长语音的说话人嵌入L计算余弦距离损失loss：

；

步骤2.6. 反向传播，使用梯度下降算法更新增强器模型的参数；

步骤2.7. 返回步骤2.1，直至增强器模型收敛或者增强器模型达到训练轮次。

本实施例中所提增强器模型训练方便。

在增强器模型训练好之后，将预先训练好的说话人确认模型以及训练好的增强器模型组成训练好的网络模型，对输入的语音进行说话人确认。

如图1所示，输入语音至预先训练好的说话人确认模型中得到相对较差的第一说话人嵌入，然后第一说话人嵌入再经过训练好的增强器模型得到相对较好的第二说话人嵌入。

通过所提增强器模型，使得本发明方法既能够保持现有说话人确认模型在长语音条件下的性能，又能够提升在短语音条件下的性能，实用性强。

下面给出具体实验，以验证本发明所提基于嵌入增强的超短时说话人确认方法的有效性。

使用知名数据集VoxCeleb1中的开发集进行训练，使用其中的测试集进行测试。

检查所有语音，若语音小于4秒则丢弃，不用于训练。训练使用Adam优化器。学习率初始为0.001，每轮降低5%。每批训练数量n为128。一共训练30轮。

说话人确认模型使用的是ECAPA-TDNN模型，该模型是当前最出色的模型之一。

使用等错误率EER和系统最小代价函数MinDCF来评价模型，两者越小代表性能越好。短语音由测试集中的每个全长语音随机截取而得到。实验结果见表1。

表1 不同时长下使用增强器与不使用增强器的测试结果表

在1秒-1秒的条件下，EER由12.46%降到了10.10%降低了18.9%，MinDCF降低了2.5%；

在2秒-2秒的条件下，EER降低了5.1%，MinDCF降低了4.1%；

在全长-1秒的条件下，EER降低了25.5%，MinDCF降低了6.5%；

在全长-2秒的条件下，EER降低了5.8%，MinDCF降低了3.9%；

实验表明，使用本发明设计的增强器模型后，显著地提升了说话人确认模型的性能。

实施例2

本实施例2述及了一种计算机设备，该计算机设备用于实现上述实施例1中述及的基于嵌入增强的超短时说话人确认方法的步骤。

该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码，当处理器执行可执行代码时，用于实现上述基于嵌入增强的超短时说话人确认方法的步骤。

本实施例中计算机设备为任意具备数据数据处理能力的设备或装置，此处不再赘述。

实施例3

本实施例3述及了一种计算机可读存储介质，该计算机可读存储介质用于实现上述实施例1中述及的基于嵌入增强的超短时说话人确认方法的步骤。

本实施例3中的计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述基于嵌入增强的超短时说话人确认方法的步骤。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存，也可以是任意具备数据处理能力的设备的外部存储设备，例如设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.基于嵌入增强的超短时说话人确认方法，其特征在于，包括如下步骤：

增强器模型包括输入层、隐藏层以及输出层；

隐藏层由三个残差块组成，隐藏层的输入输出维度为512；

输出层使用一个第四全连接层；

第一说话人嵌入在增强器模型中的处理流程如下：

定义第一说话人嵌入为D维的向量；

最后该输出向量经过输出层得到D维的向量，即第二说话人嵌入；

语音在网络模型中的处理流程如下：

输入的语音首先经过说话人确认模型输出第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到第二说话人嵌入；

所述步骤2中，增强器模型的训练过程如下：

定义一共有N条用于训练的语音，每个批次的训练过程如下：

S´={ s ⁱ,1≤i≤n }；

其中，s ⁱ表示第i个短语音增强后的说话人嵌入；

；

步骤2.7. 返回步骤2.1，直至增强器模型收敛或者增强器模型达到训练轮次；

步骤3. 利用训练好的网络模型，对输入的语音进行说话人确认；

所述步骤3具体为：

在增强器模型训练好之后，将预先训练好的说话人确认模型以及训练好的增强器模型组成训练好的网络模型，对输入的语音进行说话人确认，具体为：

输入语音至预先训练好的说话人确认模型中得到第一说话人嵌入，然后第一说话人嵌入再经过训练好的增强器模型得到第二说话人嵌入。

2.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，

实现如权利要求1所述的基于嵌入增强的超短时说话人确认方法的步骤。

3.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，实现如权利要求1所述的基于嵌入增强的超短时说话人确认方法的步骤。