CN116631406A

CN116631406A - 基于声学特征生成的身份特征提取方法、设备及存储介质

Info

Publication number: CN116631406A
Application number: CN202310896134.5A
Authority: CN
Inventors: 魏光村; 许云飞; 张艳娜; 闵航; 潘志飞; 方卿阁; 孟春雨; 郭泊言
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-22
Anticipated expiration: 2043-07-21
Also published as: CN116631406B

Abstract

本发明属于说话人确认技术领域，公开了一种基于声学特征生成的身份特征提取方法、设备及存储介质。其中，长声学特征中包含的说话人特征信息多，因此身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征；然而声学特征越短，其中包含的说话人特征信息就越少，因此，身份特征提取模型提取出的身份特征较差。本发明利用预训练好的身份特征提取模型训练出一个生成模型，该生成模型能够生成更长的声学特征。在使用时，先将声学特征输入训练好的生成模型中，以获得更长的声学特征，再将更长的声学特征输入身份特征提取模型中，身份特征提取模型能够利用更多的语音信息提取出具有更强区分性的身份特征。

Description

基于声学特征生成的身份特征提取方法、设备及存储介质

技术领域

本发明属于说话人确认技术领域，涉及一种基于声学特征生成的身份特征提取方法、设备及存储介质。

背景技术

说话人日志解决的是“谁在什么时候说话”的问题。说话人日志说话人日志通常分成语音活动检测、语音分割、身份特征提取、打分聚类等步骤。

语音活动检测就是检测静音片段并去除，语音分割就是将整段语音分割成小片段，当小片段足够短的时候可以认为该片段只包含一个说话人，身份特征提取就是使用身份特征提取模型提取小片段的身份特征，最后就是将所有的身份特征两两打分并聚类。

其中最影响结果的就是提取出来的身份特征的好坏，好的身份特征表现为较小的类内距离，较大的类间距离，相对应的同类的打分高，不同类的打分低。

可见，身份特征提取的质量决定了后续打分聚类的结果。

现今即使是最好的身份特征提取模型，虽然面对较长的语音时效果出色，然而在面对较短的语音时效果严重下降。所以通过语音分割的片段越长，提取出来的身份特征越好，打分越靠谱。但是小片段过长，则有很大概率包含多个人的声音，所以小片段不能过长。

如图1所示，为了保证分割出的语音片段中只包含一个人的语音，往往分割出的语音片段比较短。而短语音片段中包含的信息较少，提取出来的身份特征也没有很强的区分度。

因此，需要提出一个在短语音条件下更鲁棒的身份特征提取模型，以便针对短语音条件下的身份特征提取进行优化，从而改善整个说话人日志任务的效果。

发明内容

本发明的目的在于提出一种基于声学特征生成的身份特征提取方法，以实现在短语音条件下的身份特征提取的优化，从而利于改善整个说话人日志任务的效果。

本发明为了实现上述目的，采用如下技术方案：

一种基于声学特征生成的身份特征提取方法，包括如下步骤：

步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型；

生成模型包括上下文编码器、时间步编码器以及解码器；

上下文编码器用于提取输入的上下文内容信息并输出上下文向量；时间步编码器用于提取输入中关于时间的信息并输出时间向量，编码器用于生成声学特征；

身份特征提取模型采用预训练好的身份特征提取模型；

其中，短音频在网络模型中的信号处理流程如下：

短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量；

解码器基于上下文向量以及时间向量生成第二声学特征；将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接，得到拼接后的第三声学特征；

将拼接后的第三声学特征输入到预训练好的身份特征提取模型中，输出身份特征；

步骤2. 利用训练集对生成模型进行训练，优化生成模型的网络参数；

步骤3. 在使用时，首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征，然后第一声学特征与第二声学特征拼接得到第三声学特征；

将拼接得到的第三声学特征输入到身份特征提取模型中，从而提取出身份特征。

在上述基于声学特征生成的身份特征提取方法的基础上，本发明还提出了一种计算机设备，该计算机设备包括存储器和一个或多个处理器。

所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上面述及的基于声学特征生成的身份特征提取方法的步骤。

在上述基于声学特征生成的身份特征提取方法的基础上，本发明还提出了一种计算机可读存储介质，在计算机可读存储介质上存储有程序。

该程序被处理器执行时用于实现上述基于声学特征生成的身份特征提取方法的步骤。

本发明具有如下优点：

如上所述，本发明述及了一种基于声学特征生成的身份特征提取方法，该身份特征提取方法设计并训练出一个生成模型，其能够根据短音频的声学特征生成更长的声学特征，从而使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征，实现了短语音条件下的身份特征提取的优化，从而利于改善整个说话人日志任务的效果。

附图说明

图1为现有技术中身份特征提取方法的流程图。

图2为本发明实施例中基于声学特征生成的身份特征提取方法的流程图。

图3为本发明实施例中上下文编码器的结构示意图。

图4为本发明实施例中时间步编码器的结构示意图。

图5为本发明实施例中解码器的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

实施例1

长声学特征中包含的说话人特征信息多，因此，身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征。然而声学特征越短，其中包含的说话人特征信息就越少，因此，身份特征提取模型提取出的身份特征较差。

针对该问题，本实施例利用预训练好的身份特征提取模型训练出一个生成模型，该生成模型能够生成更长的声学特征。在使用时，先将声学特征输入训练好的生成模型中，以获得更长的声学特征，再将更长的声学特征输入身份特征提取模型中，身份特征提取模型将利用更多的语音信息提取出具有更强区分性的身份特征，最终获得更加准确的打分。

如图2所示，本发明的核心就是训练出一个生成模型，输入较短的数据例如1.5秒的声学特征，输出生成的1.5秒的声学特征，再利用一共3秒的声学特征提取出身份特征，该身份特征相比于只利用1.5秒声学特征提取出的身份特征可区分性更强。

通过此种方式获得了在短语音条件下更鲁棒的身份特征提取。

如图2所示，本实施例中基于声学特征生成的身份特征提取方法，包括如下步骤：

步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型。

生成模型包括上下文编码器、时间步编码器以及解码器。

上下文编码器用于提取输入的上下文内容信息并输出上下文向量；时间步编码器用于提取输入中关于时间的信息并输出时间向量，编码器用于生成声学特征。

身份特征提取模型采用预训练好的身份特征提取模型。

其中，短音频在网络模型中的信号处理流程如下：

短音频的第一声学特征（将获取到的短音频的声学特征）首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量。

本实施例中短音频是指小于或等于2秒的音频。

解码器基于上下文向量以及时间向量生成第二声学特征；将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接，得到拼接后的第三声学特征。

将拼接后的第三声学特征输入到预训练好的身份特征提取模型中，输出身份特征。

如图3所示，上下文编码器包括一维卷积层、池化层以及线性层。

定义短音频的第一声学特征的通道数为C，帧数为T，输入数据的尺寸为C×T；则一维卷积层的输入通道数是C，输出通道数是1500，卷积核大小是1。

第一声学特征通过一维卷积层后输出尺寸为1500×T。

池化层使用均值和方差进行池化，在通道维度上求均值和方差，再将均值和方差拼接输出，池化层的输出变成维度为3000的向量。

最后通过一个线性层将数据维度变成512，线性层输出的上下文向量即为上下文编码器的输出，该上下文向量中包含声学特征的内容信息。

如图4所示，时间步编码器其包含单层双向GRU层以及线性层；

GRU层的输入维度是C，其隐藏层维度为512，将两个方向的隐藏层输出进行拼接，再输入线性层，最后输出512维的时间向量，该时间向量包含声学特征的时间信息。

如图5所示，解码器包括GRU层以及线性层。

其中，GRU层是单层单向的，隐藏层维度是512；定义生成的声学特征的帧数为M帧，则需要进行M步计算，每步输出一帧数据，每帧数据都由GRU层和线性层计算得来。

第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成，GRU的隐藏层输入为时间向量。

第二步至第M步的计算过程为：

当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到，GRU的隐藏层输入为上一步的隐藏层输出。

各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层，通过线性层输出一帧C个通道的声学特征。

经过M步计算得到M帧C个通道的声学特征，即第二声学特征。

步骤2. 利用训练集对生成模型进行训练，优化生成模型的网络参数。

在对生成模型进行训练之前，首先要预先训练出一个身份特征提取模型。本实施例中选用ECAPA-TDNN模型作为身份特征提取模型。

由于身份特征提取模型比较常见，本实施例不作进一步详细描述。

假设一共有N条用于训练的语音，分别来自P个人，每个批次的训练过程如下：

步骤2.1. 从训练集中随机选择p个人，每人n条语音，将每个语音提取声学特征，获得p×n个完整的声学特征；其中，p、P均为自然数，且 p小于P。

步骤2.2. 从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和和2z帧的第四声学特征，若帧长不够截取，则通过复制原数据的方式来满足帧长。

步骤2.3. 将z帧的第一声学特征输入生成模型中，输出z帧的第二声学特征，将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征。

步骤2.4. 将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模型F _E(x,θ)中，输出第一身份特征向量e ⁱ _l；将步骤2.3中得到的拼接的2z帧的第三声学特征输入训练好的身份特征提取模型F _E(x,θ)中，输出第二身份特征向量e ⁱ _s。

步骤2.5. 从第二身份特征向量e ⁱ _s中为每一个身份特征找到与该身份特征欧氏距离最小的属于不同人的身份特征，作为该身份特征的负样本e ⁱ _sn。

从第二身份特征向量e ⁱ _s中为每一个身份特征找到与其欧式距离最大的属于同一人的身份特征，作为该身份特征的正样本e ⁱ _sp。

步骤2.6. 利用正样本和负样本以及余弦距离计算三元组损失loss _t，公式如下：

；

利用第一身份特征向量和第二身份特征向量计算余弦距离损失loss _c，公式如下：

；

生成模型的损失函数为三元组损失loss _t与余弦距离损失loss _c之和。

步骤2.7. 反向传播，更新生成模型的参数。

步骤2.8. 返回步骤2.1，直至生成模型收敛或者达到训练轮次。

步骤3. 在使用时，首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征，然后第一声学特征与第二声学特征拼接得到第三声学特征。

本实施例通过所提生成模型，能够根据短音频的声学特征生成更长的声学特征，使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征，实现了短语音条件下的身份特征提取的优化，从而利于改善整个说话人日志任务的效果。

此外，本发明还给出了如下实验，以验证本发明所提身份特征提取方法的有效性。

1. 预训练身份特征提取模型。

本实施例中使用ECAPA-TDNN模型作为身份特征提取模型。

使用知名数据集VoxCeleb2中的开发集进行训练，批次大小为400，学习率为0.001，训练80轮，每轮学习率降低3%。训练使用Adam优化器。

2. 训练生成模型。

每批选8个人每人8条语音。使用RMSprop优化器。学习率初始为0.0001，每轮降低3%。一共训练40轮。使用150帧的短声学特征作为生成模型的输入进行训练。

3. 测试说话人日志任务。

测试数据使用知名的AMI数据集中的Full-corpus部分，该部分一共有24个会议音频，每个音频中有3至4个说话人。以1.5s为窗长0.75秒为窗移将整段语音分割成小片段，使用谱聚类，使用DER评估整个说话人日志任务的性能，DER越小越好。结果见表1。

表1

身份特征提取模型	已知说话人个数条件下的DER(%)	未知说话人个数条件下的DER(%)
			ECAPA-TDNN	2.32	2.13
ECAPA-TDNN + 生成模型	1.74	2.04

由表1不难看出，本发明使用生成模型对身份特征提取模型ECAPA-TDNN进行增强后，在表1中示出的两种条件下DER都得到降低，表明本发明方法针对短语音条件下的身份特征提取确实起到了优化效果，从而利于改善整个说话人日志任务的效果。

实施例2

本实施例2述及了一种计算机设备，该计算机设备用于实现上述实施例1中述及的基于声学特征生成的身份特征提取方法的步骤。

该计算机设备包括存储器和一个或多个处理器。在存储器中存储有可执行代码，当处理器执行可执行代码时，用于实现上述基于声学特征生成的身份特征提取方法的步骤。

本实施例中计算机设备为任意具备数据数据处理能力的设备或装置，此处不再赘述。

实施例3

本实施例3述及了一种计算机可读存储介质，该计算机可读存储介质用于实现上述实施例1中述及的基于声学特征生成的身份特征提取方法的步骤。

本实施例3中的计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述基于声学特征生成的身份特征提取方法的步骤。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存，也可以是任意具备数据处理能力的设备的外部存储设备，例如设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于声学特征生成的身份特征提取方法，其特征在于，包括如下步骤：

生成模型包括上下文编码器、时间步编码器以及解码器；

身份特征提取模型采用预训练好的身份特征提取模型；

其中，短音频在网络模型中的信号处理流程如下：

2.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，

所述上下文编码器包括一维卷积层、池化层以及线性层；

定义短音频的第一声学特征的通道数为C，帧数为T，输入数据的尺寸为C×T，则一维卷积层的输入通道数是C，输出通道数是1500，卷积核大小是1；

第一声学特征通过一维卷积层后输出尺寸为1500×T；

池化层使用均值和方差进行池化，在通道维度上求均值和方差，再将均值和方差拼接输出，池化层的输出变成维度为3000的向量；

3.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，

所述时间步编码器其包含单层双向GRU层以及线性层；

4.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，

解码器包括GRU层以及线性层；

GRU层是单层单向的，隐藏层维度是512；定义生成的声学特征的帧数为M帧，则需要进行M步计算，每步输出一帧数据，每帧数据都由GRU层和线性层计算得来；

第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成，GRU的隐藏层输入为时间向量；

第二步至第M步的计算过程为：

当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到，GRU的隐藏层输入为上一步的隐藏层输出；

各步中GRU计算完成后将GRU层输出、GRU隐藏层输入以及GRU层输入三者拼接后输入线性层，通过线性层输出一帧C个通道的声学特征；

经过M步计算得到M帧C个通道的声学特征，即第二声学特征。

5.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，

所述步骤2中，生成模型训练的过程如下：

步骤2.1. 从训练集中随机选择p个人，每人n条语音，将每个语音提取声学特征，获得p×n个完整的声学特征；其中，p、P均为自然数，且 p小于P；

步骤2.2. 从步骤2.1中每一个完整的声学特征中随机截取连续的z帧的第一声学特征和和2z帧的第四声学特征，若帧长不够截取，则通过复制原数据的方式来满足帧长；

步骤2.3. 将z帧的第一声学特征输入生成模型中，输出z帧的第二声学特征，将z帧的第一声学特征与z帧的第二声学特征拼接成2z帧的第三声学特征；

步骤2.4. 将步骤2.2中截取的2z帧的第四声学特征输入预训练好的身份特征提取模型F _E(x, θ)中，输出第一身份特征向量e ⁱ _l；将步骤2.3中得到的拼接的2z帧的第三声学特征输入训练好的身份特征提取模型F _E(x, θ)中，输出第二身份特征向量e ⁱ _s；

步骤2.5. 从第二身份特征向量e ⁱ _s中为每一个身份特征找到与该身份特征欧氏距离最小的属于不同人的身份特征，作为该身份特征的负样本e ⁱ _sn；

从第二身份特征向量e ⁱ _s中为每一个身份特征找到与其欧式距离最大的属于同一人的身份特征，作为该身份特征的正样本e ⁱ _sp；

；

生成模型的损失函数为三元组损失loss _t与余弦距离损失loss _c之和；

步骤2.7. 反向传播，更新生成模型的参数；

6.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，

实现如权利要求1至5任一项所述的基于声学特征生成的身份特征提取方法。

7.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，实现如权利要求1至5任一项所述的基于声学特征生成的身份特征提取方法。