CN114420136A

CN114420136A - 一种声纹识别模型训练的方法、装置以及存储介质

Info

Publication number: CN114420136A
Application number: CN202111582909.9A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-29

Abstract

本发明公开了一种声纹识别模型训练的方法、装置以及存储介质。所述方法包括：获取音频训练集；对音频训练集中的至少部分音频数据进行音频反向操作，得到反向音频数据，将反向音频数据作为音频数据加入到音频训练集中；提取加入了反向音频数据的音频训练集中的所有音频数据的音频特征；使用所提取的音频数据的音频特征对预先构建的声纹识别模型进行训练；其中，声纹识别模型的输出为音频数据的嵌入特征序列。本发明的一种声纹识别模型训练的方法和装置，能够增加音频数据的数量及多样性，提升了声纹识别模型的识别效果及抗干扰性即鲁棒性。

Description

一种声纹识别模型训练的方法、装置以及存储介质

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种声纹识别模型训练的方法、装置以及存储介质。

背景技术

在声纹识别领域，普遍存在着实际应用场景和标准数据集录音环境的差异，为了减轻这种差异对识别效果的影响，在训练声纹识别模型时，会采用加噪、加混响、加快/减慢速度、谱增强等多种数据增强方法对音频数据进行处理。通过上述的数据增强方法，使标准录音环境下采集到的音频的质量接近实际应用场景采集到的音频的质量。但现有的数据增强方法需要保持音频的时序性，限制了所能获取的音频数据的数量及多样性。

发明内容

为了克服如上所述的技术问题，本发明提出一种声纹识别模型训练的方法，所述方法的技术方案如下：

S1，获取音频训练集；

S2，对所述音频训练集中的至少部分音频数据进行音频反向操作，得到反向音频数据，将所述反向音频数据作为音频数据加入到所述音频训练集中；

S3，提取所述加入了反向音频数据的音频训练集中的所有音频数据的音频特征；

S4，使用所提取的所述音频数据的音频特征对预先构建的声纹识别模型进行训练；

其中，所述声纹识别模型的输出为所述音频数据的嵌入特征序列。

进一步的，所述音频反向操作包括：将所述音频数据的采样点在时间上完全倒过来。

进一步的，所述将所述音频数据的采样点在时间上完全倒过来包括：

计算所述音频数据的采样点数及各个采样点的值，然后以中心点作为对称轴，互换两个对称的采样点对应的值，生成反向音频数据。

进一步的，在对所述音频训练集中的至少部分音频数据进行音频反向操作之前还包括对所述音频训练集中的至少部分音频数据进行随机拼接操作。

进一步的，所述音频数据包含说话人信息，所述随机拼接操作具体是将所述音频数据按预设时间长度进行切割，得到所述音频数据的切割片段，对同一说话人信息的所述音频数据的切割片段进行随机拼接得到拼接音频数据，将所述音频数据和所述拼接音频数据进行合并。

进一步的，所述音频数据包含说话人信息，通过训练好的声纹识别模型提取两条不同音频数据的嵌入特征序列，计算两个嵌入特征序列的相似度分值，当两条不同音频数据的说话人信息相同时，相似度分值高于预设的第一阈值；当两条不同音频数据的说话人信息不同时，相似度分值低于预设的第二阈值；其中，预设的第一阈值不小于预设的第二阈值。

进一步的，所述音频数据的音频特征具体为80维的Fbank特征，并对80维Fbank特征进行倒谱均值归一化。

进一步的，在所述步骤S3之前，对步骤S2所获得的所述音频训练集中的至少部分音频数据进行数据增强操作，所述数据增强操作包括以下至少一种：加噪、加混响、改变速度、谱增强；

对所述经过数据增强操作的音频训练集中的所有音频数据进行语音活动检测，去除所述音频数据的静音段。

本发明还提出一种声纹识别模型训练的装置，所述声纹识别模型训练的装置存储计算机指令；所述计算机指令在所述声纹识别模型训练的装置执行如上述任一项所述的声纹识别模型训练的方法。

本发明还提出了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机执行如上述任一项所述的声纹识别模型训练的方法。

本发明提供的技术方案带来的有益效果是：

本发明的一种声纹识别模型训练的方法和装置，能够增加音频数据的数量及多样性，提升了声纹识别模型的识别效果及抗干扰性即鲁棒性。

附图说明

图1为本发明实施例所涉及的一种声纹识别模型训练的方法的流程图；

图2为本发明实施例所涉及的一种训练声纹识别模型的流程图；

图3为本发明实施例所涉及的一种声纹识别模型训练的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

如图1所示为本发明实施例的一种声纹识别模型训练的方法的流程图，示出了该方法的具体步骤，包括：

S1，获取音频训练集；

具体的，所述音频反向操作包括：将所述音频数据的采样点在时间上完全倒过来。

具体的，所述将所述音频数据的采样点在时间上完全倒过来包括：

具体的，在对所述音频训练集中的至少部分音频数据进行音频反向操作之前还包括对所述音频训练集中的至少部分音频数据进行随机拼接操作。

具体的，所述音频数据包含说话人信息，所述随机拼接操作具体是将所述音频数据按预设时间长度进行切割，得到所述音频数据的切割片段，对同一说话人信息的所述音频数据的切割片段进行随机拼接得到拼接音频数据，将所述音频数据和所述拼接音频数据进行合并。

具体的，所述音频数据包含说话人信息，通过训练好的声纹识别模型提取两条不同音频数据的嵌入特征序列，计算两个嵌入特征序列的相似度分值，当两条不同音频数据的说话人信息相同时，相似度分值高于预设的第一阈值；当两条不同音频数据的说话人信息不同时，相似度分值低于预设的第二阈值；其中，预设的第一阈值不小于预设的第二阈值。

具体的，所述音频数据的音频特征具体为80维的Fbank特征，并对80维Fbank特征进行倒谱均值归一化。

具体的，在所述步骤S3之前，对步骤S2所获得的所述音频训练集中的至少部分音频数据进行数据增强操作，所述数据增强操作包括以下至少一种：加噪、加混响、改变速度、谱增强；

实施例二：

如图2所示为本发明实施例的一种训练声纹识别模型的流程图，示出了训练声纹识别模型的具体实施步骤，包括：

在步骤S201中，构建音频数据集，分为训练集和测试集。

在一种可能的实现中，通过录音笔、麦克风、微信、电话录音、和/或语音合成等方式收集音频数据，并标注音频数据的说话人信息，构建音频数据集，采用随机拆分法或K-折分割法将音频数据集分为训练集和测试集。

在步骤S202中，对训练集中的所有音频数据进行随机拼接操作。

在一种可能的实现中，可以首先对训练集中的所有音频数据按预设的时间长度进行切割，生成音频数据的切割片段；接着对相同说话人信息的切割片段进行随机拼接，生成拼接音频数据，拼接音频数据的数量和相同说话人信息的音频数据的数量保持一致；最后将相同说话人信息的音频数据和拼接音频数据进行合并，得到新的音频数据，新的音频数据的说话人信息和音频数据的说话人信息保持一致，将训练集中的音频数据替换为上述合并后获得的新的音频数据。在其他的实施例中，可以考虑使用其他的随机拼接方式来拼接音频数据。

在另外一种可能的实现中，可以将上述合并后获得的新的音频数据添加到训练集中，用来增加训练集中的音频数据的数量。

通过随机拼接相同说话人的音频数据，可以实现同一说话人的不同语音片段的结合，增强了声纹识别模型训练用的数据。

在另外一种可能的实现中，可以不执行该步骤的随机拼接操作，直接执行步骤S203.

在步骤S203中，对训练集中的所有音频数据进行音频反向操作；

在一种可能的实现中，对训练集中的所有音频数据进行音频反向操作，即将音频数据的采样点在时间上完全倒过来。示例性地，将音频数据的采样点在时间上完全倒过来具体可以包括：计算每个音频数据的采样点数及各个采样点的值，然后以中心点作为对称轴，互换两个对称的采样点对应的值，生成反向音频数据。其中，反向音频数据的说话人信息和音频数据的说话人信息保持一致。将反向音频数据添加到训练集中，用来增加训练集中的音频数据的数量。对于声纹识别来说，通过上述改变时序获得反向数据，相当于增加了一个同一说话人的新的音频数据。由此增强了声纹识别模型训练用的数据，提升了声纹识别模型的识别效果及抗干扰性。

在步骤S204中，对训练集中的所有音频进行数据增强操作。

在一种可能的实现中，其他数据增强操作至少包括以下一种：加噪、加混响、改变速度、谱增强。当然，也可以对音频进行其他类型的数据增强操作。对进行数据增强操作之后获得的数据执行步骤S205的操作。需要说明的是，也可以将进行数据增强操作后的音频数据加入到训练集中，与训练集中原来的数据一起作为训练集中的数据，这样可以扩充训练集中的音频数据的数量。

在步骤S205中，提取训练集和测试集中的所有音频数据的音频特征。

在一种可能的实现中，首先对训练集和测试集中的所有音频数据进行语音活动检测(VoiceActivityDetection，VAD)，去除音频数据的静音段；然后提取音频数据的80维Fbank特征，对80维Fbank特征进行倒谱均值归一化(Cepstral MeanNormalization，CMN)，作为音频数据的音频特征。

在步骤206中，分别使用训练集和测试集对预先构建好的声纹识别模型进行训练和测试，得到训练好的声纹识别模型。

在一种可能的实现中，声纹识别模型使用残差网络(ResidualNetwork，ResNet)实现，将音频数据的音频特征切分成200帧作为输入，残差网络的网络层数为34层，残差网络的每层卷积层的卷积采用一维卷积，并加入SE模块，卷积层输出进行批量归一化，最后一层卷积层的输出输入到注意力池化层，输出音频数据的嵌入特征序列(Embedding)；残差网络的优化器选择AdamW优化算法，学习率策略选择循环学习率(CyclicalLearningRates，CyclicLR)，并采用AAM-Softmax和交叉熵损失函数进行音频数据的嵌入特征序列的分类；使用训练集和测试集分别对声纹识别模型进行训练和测试，经过多轮训练和测试得到训练好的声纹识别模型。

使用训练好的声纹识别模型提取两条不同音频数据的嵌入特征序列，计算两个嵌入特征序列的相似度分值，当两条不同音频数据的说话人信息相同时，相似度分值高于预设的第一阈值；当两条不同音频数据的说话人信息不同时，相似度分值低于预设的第二阈值；其中，预设的第一阈值大于预设的第二阈值，相似度分值使用余弦相似度进行计算。

需要说明的是，上述音频特征的切分帧数为200帧，残差网络的网络层数为34层，残差网络的优化器为AdamW优化算法、学习策略为循环学习率和损失函数为AAM-Softmax和交叉熵损失函数，相似度分值使用余弦相似度进行计算，可以采用其他方式进行实现，本发明不做具体限制。

得到训练好的声纹识别模型后，优选的，可以使用训练好的声纹识别模型进行声纹验证和声纹辨认，也可以用于其他应用声纹识别的使用场景。

经过本发明实施例的方法得到的训练好的声纹识别模型可以用来进行声纹验证或声纹辨认。如步骤S207和步骤S208所示出的。

本发明的一优选实施例利用在时间域内对音频的反向及对同一说话人片段的随机拼接，能够在声纹识别的过程中增加声纹模型训练数据的数量及多样性，且同时弱化时序对声纹识别的影响，提升了系统的识别效果及鲁棒性。

在步骤S207中，使用训练好的声纹识别模型进行声纹验证。

声纹验证，又称为说话人验证，其英文为SpeakerVerification，指的是判定两条音频数据对应的说话人是否是同一个人。声纹验证的步骤包括：首先获取待验证的两条音频数据，分别提取得到音频数据对应的音频特征，然后将音频特征输入到训练好的声纹识别模型，得到音频数据对应的嵌入特征序列，最后使用余弦相似度计算两个嵌入特征序列的相似度分值，当相似度分值高于预设阈值则判定是同一人，否则，判定不是同一人。

在步骤S208中，使用训练好的声纹识别模型进行声纹辨认。

声纹辨认，又称为说话人识别，其英文为SpeakerRecognition/Identification，指的是判断一段音频属于哪个说话人。声纹辨认的步骤包括：首先建立基础音频数据库，基础音频数据库包含一条或者一条以上的音频数据，音频数据包含说话人信息和对应的嵌入特征序列；然后获取待辨认的音频数据，提取待辨认的音频数据的音频特征，将待辨认的音频数据的音频特征输入到利用本发明实施例的方法训练得到的声纹识别模型中得到待辨认的音频数据的嵌入特征序列，接着将待辨认的音频数据的嵌入特征序列分别和基础音频数据库中的音频数据的嵌入特征序列计算相似度分值，筛选出基础音频数据库中相似度分值大于预设阈值的音频数据，如果没有筛选出音频数据，表示基础音频数据库中不存在与待辨认的音频数据对应的说话人信息；反之，从筛选出的音频数据中，确认与待辨认的音频数据对应的说话人信息。

实施例三：

本发明还提供一种声纹识别模型训练的装置，如图3所示，该装置包括处理器301、存储器302、总线303、以及存储在存储器302中并可在处理器301上运行的计算机程序，处理器301包括一个或一个以上处理核心，存储器302通过总线303与处理器301相连，存储器302存储程序指令，处理器执行计算机程序时实现本发明上述方法实施例中的步骤。

进一步地，作为一个可执行方案，声纹识别模型训练的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。系统/电子设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述系统/电子设备的组成结构仅仅是系统/电子设备的示例，并不构成对系统/电子设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件。例如系统/电子设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是系统/电子设备的控制中心，利用各种接口和线路连接整个系统/电子设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现系统/电子设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例四：

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

系统/电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnnyMemory)、随机存取存储器(RAM，RandomAccessMemory)以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种声纹识别模型训练的方法，其特征在于，包括：

S1，获取音频训练集；

2.根据权利要求1所述的方法，其特征在于，所述音频反向操作包括：将所述音频数据的采样点在时间上完全倒过来。

3.根据权利要求2所述的方法，其特征在于，所述将所述音频数据的采样点在时间上完全倒过来包括：

4.根据权利要求1所述的方法，其特征在于，在对所述音频训练集中的至少部分音频数据进行音频反向操作之前还包括对所述音频训练集中的至少部分音频数据进行随机拼接操作。

5.根据权利要求4所述的方法，其特征在于，所述音频数据包含说话人信息，所述随机拼接操作具体是将所述音频数据按预设时间长度进行切割，得到所述音频数据的切割片段，对同一说话人信息的所述音频数据的切割片段进行随机拼接得到拼接音频数据，将所述音频数据和所述拼接音频数据进行合并。

6.根据权利要求1所述的方法，其特征在于，所述音频数据包含说话人信息，通过训练好的声纹识别模型提取两条不同音频数据的嵌入特征序列，计算两个嵌入特征序列的相似度分值，当两条不同音频数据的说话人信息相同时，相似度分值高于预设的第一阈值；当两条不同音频数据的说话人信息不同时，相似度分值低于预设的第二阈值；其中，预设的第一阈值不小于预设的第二阈值。

7.根据权利要求1所述的方法，其特征在于，所述音频数据的音频特征具体为80维的Fbank特征，并对80维Fbank特征进行倒谱均值归一化。

8.根据权利要求1所述的方法，其特征在于，在所述步骤S3之前，对步骤S2所获得的所述音频训练集中的至少部分音频数据进行数据增强操作，所述数据增强操作包括以下至少一种：加噪、加混响、改变速度、谱增强；

9.一种声纹识别模型训练的装置，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至8任一所述的声纹识别模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至8任一所述的声纹识别模型训练方法。