CN118053432A

CN118053432A - 长短语音通用说话人嵌入层模型获得方法及说话人识别方法

Info

Publication number: CN118053432A
Application number: CN202410325470.9A
Authority: CN
Inventors: 李郡; 张若雨; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-05-17
Anticipated expiration: 2044-03-21
Also published as: CN118053432B

Abstract

本发明旨在提供长短语音通用说话人嵌入层模型获得方法及说话人识别方法，属于说话人识别技术领域，获取训练数据集；构建说话人识别网络；通过训练数据集和说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第一说话人嵌入层模型；通过训练数据集，微调所述对长语音输入识别准确率优化的说话人识别网络，获得第二说话人嵌入层模型；根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型。本发明提出的通用说话人嵌入层模型和识别方法在兼顾识别精度的同时，提升了系统资源利用率和识别效率，尤其适应于多样化时长语音识别需求的应用环境。

Description

长短语音通用说话人嵌入层模型获得方法及说话人识别方法

技术领域

本发明涉及说话人识别技术领域，尤其涉及长短语音通用说话人嵌入层模型获得方法及说话人识别方法。

背景技术

说话人识别是一种生物识别技术，与指纹识别、面部识别等方法相比，具有非接触的特性，在实际应用中有独特的优势。

当前获得说话人嵌入层模型的方法多为使用帧数固定的较长语音，如2秒以上，训练获得区分性较高的说话人嵌入层模型，但对较短长度，即2s以下的测试语音，说话人嵌入层模型的区分性降低，导致说话人识别系统的识别率下降。要提高短语音的识别率，直接方法是使用短语音输入进行微调，但相应长语音的说话人识别率会降低。

发明内容

本发明的目的在于克服现有技术中的不足，提供长短语音通用说话人嵌入层模型获得方法及说话人识别方法，通过综合训练和微调得到长短语音通用说话人识别嵌入层模型，有效解决了在不同时长语音输入下的识别性能不平衡问题，提高了对长短语音的普适性和识别能力。

为实现上述目的，本发明提供了如下技术方案：

第一方面，本发明提供长短语音通用说话人嵌入层模型获得方法，其特征在于，包括以下步骤：

进一步地，长短语音通用说话人嵌入层模型获得方法，包括以下步骤：

获取训练数据集；所述训练数据集中包括长语音频谱样本、短语音频谱样本以及相应的说话人标签；

构建说话人识别网络；所述说话人识别网络包括说话人嵌入层模型与说话人分类层；

通过训练数据集中的长语音频谱样本以及相应的说话人标签训练优化所述说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第一说话人嵌入层模型；

通过训练数据集中的短语音频谱样本以及相应的说话人标签训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第二说话人嵌入层模型；

根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型。

进一步地，所述训练数据集中长语音频谱样本时长大于或等于3秒，说话人总数超过1000人。

进一步地，所述说话人嵌入层模型选用ResNet34架构，说话人分类层采用全连接层实现，所述全连接层的输入层节点数与说话人嵌入层模型的输出节点数相同，全连接层的输出层节点数与训练数据集中说话人总数一致。

进一步地，通过训练数据集中的长语音频谱样本训练优化所述说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，包括：

步骤S1、输入为固定尺寸的长语音频谱，采用前向传播计算损失函数的值，所述长语音频谱对应的时间为3秒；损失函数为加性角度间隔损失函数；

步骤S2、根据损失函数的值反向传播更新说话人识别网络的参数；

步骤S3、重复步骤S1-步骤S2，直至说话人识别网络收敛，获得完成训练的对长语音输入识别准确率优化的说话人识别网络。

进一步地，通过训练数据集中的短语音频谱样本训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，包括：

步骤S4、以步骤S3中获得的对长语音输入识别准确率优化的说话人识别网络的参数作为说话人识别网络的初始参数，输入为训练数据集的短语音频谱，采用前向传播计算损失函数的值，所述输入语音频谱对应的时间为1秒；所述损失函数为加性角度间隔损失函数；

步骤S5、根据损失函数的值反向传播更新说话人识别网络的参数，学习率选为0.00001；

步骤S6、重复步骤S4-步骤S5，直至说话人识别网络收敛，获得完成训练的对短语音输入识别准确率优化的说话人识别网络。

进一步地，根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型，包括：

针对每项参数，根据第一说话人嵌入层模型的对应参数值和第二说话人嵌入层模型的对应参数值计算平均值，将所述平均值作为长短语音通用说话人嵌入层模型的对应参数值，从而确定长短语音通用说话人嵌入层模型。

进一步地，一种说话人识别方法，包括：

获得实时音频数据，对实时音频数据进行频谱特征提取，得到实时音频频谱特征；

将所述实时音频频谱特征输入音频活动检测器，检测音频中是否有语音，检测为有语音后将所述实时音频频谱特征输入到所述长短语音通用说话人嵌入层模型，获得实时音频的说话人嵌入层；如无语音则重新获得实时音频数据；

实时音频的说话人嵌入层与注册说话人嵌入层进行余弦相似度计算，余弦相似度超过设定阈值时，确定实时音频对应说话人与注册说话人是同一说话人，否则为不同说话人。

第二方面，一种说话人识别方法，包括：

第三方面，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行第一方面中的任一所述方法。

第四方面，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行第二方面中的任一所述方法。

第五方面，一种电子终端，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行第一方面或第二方面中的任一所述方法的指令。

与现有技术相比，本发明所达到的有益效果：

(1)本发明通过模型平均方法整合长语音和短语音训练得到的两个嵌入层模型参数，生成了长短语音通用说话人嵌入层模型，可应对不同时长的语音输入，从而减少了在说话人识别系统中所需的存储空间，降低了系统复杂度。

(2)本发明的说话人识别方法能够灵活应对实时音频流，通过快速检测和嵌入层计算，实现了对实时语音的高效识别，不仅适用于长语音场景，还能确保在短语音条件下仍保持高识别准确率。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1是本发明实施例提供的长短语音通用说话人嵌入层模型获得方法的示意图；

图2是本发明实施例提供的说话人识别方法示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符"/"，一般表示前后关联对象是一种“或”的关系。

实施例1

图1是本发明实施例1中的长短语音通用说话人嵌入层模型获得方法的流程图。本流程图仅仅示出了本实施例所述方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图1所示的顺序完成所示出或描述的步骤。

本实施例是本发明的一种典型的实施方式，提供长短语音通用说话人嵌入层模型获得方法，此方法可应用于终端，可以由电子终端来执行，该电子终端可以由软件和/或硬件的方式实现，该电子终端可以集成在终端中，例如：任一具备通信功能的智能手机，平板电脑或计算机设备。如图1所示，本实施例的方法具体包括如下步骤：

步骤1：准备训练数据集，数据集中的每项数据包括长语音频谱样本、短语音频谱样本以及相应的说话人标签。其中语音频谱对应的语音长度较长，可选超过3秒；说话人数目应超过1000人。

步骤2：构建说话人识别网络，包括说话人嵌入层模型与说话人分类层，如图1所示。其中说话人嵌入层模型可选为ResNet34。说话人分类层使用全连接层实现，它的输入层节点数与说话人嵌入层模型的输出节点数保持一致，输出层为训练数据集的说话人数。

步骤3：通过训练数据集和说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第一说话人嵌入层模型。

301：每个批次的输入为固定尺寸的长语音频谱，前向传播计算损失函数的值。即输入经过说话人嵌入层模型和说话人分类层模型，然后计算损失函数的值。其中输入语音频谱对应的时间可为3秒；损失函数可选为加性角度间隔损失函数。

302：根据损失函数的值反向传播更新说话人识别网络的参数。

303：重复301和302，直至说话人识别网络收敛，获得完成训练的对长语音输入识别准确率高的说话人识别网络，该说话人识别网络包括说话人嵌入层模型与说话人分类层。

步骤4：通过训练数据集中的短语音频谱样本训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，并将其中的说话人嵌入层模型记为第二说话人嵌入层模型。

401：以步骤3中获得的对长语音输入识别准确率优化的说话人识别网络的参数作为说话人识别网络的初始参数，每个批次的输入为短语音频谱，前向传播计算损失函数的值。即输入经过说话人嵌入层模型和说话人分类层模型，然后计算损失函数的值。其中输入语音频谱对应的时间可为1秒；损失函数可选为加性角度间隔损失函数。

402：以较小的学习率根据损失函数的值反向传播更新说话人识别网络的参数。学习率可选为0.00001。

403：重复401和402，直至模型收敛，获得完成训练的对短语音输入识别准确率优化的说话人识别网络，该说话人识别网络包括说话人嵌入层模型与说话人分类层。

步骤5：基于模型平均方法获得长短语音通用说话人嵌入层模型。对第一说话人嵌入层模型和第二说话人嵌入层模型的每项对应的参数计算平均值，获得第三通用说话人嵌入层模型，该说话人嵌入层模型在第一和第二说话人嵌入层模型之间取得对不同时长语音输入的性能平衡。

实施例2

本发明实施例还提供了一种说话人识别方法，包括：

601：获得注册说话人的语音频谱，频谱经过步骤5获得的说话人嵌入层模型，获得注册说话人嵌入层。

602：获得实时音频数据并进行频谱特征提取。

603：频谱特征输入音频活动检测器，检测音频中是否有语音。检测算法可选为基于短时能量和短时平均过零率的双门限端点检测方法。

604：当实时音频不是语音时，系统将继续获取实时音频并提取频谱特征；当实时音频是语音时，将频谱特征输入到所述的长短语音通用说话人嵌入层模型，获得实时音频的说话人嵌入层。

605：实时音频的说话人嵌入层与注册说话人的说话人嵌入层进行余弦相似度计算，判断是否为同一说话人。余弦相似度超过设定阈值时，认为实时音频对应说话人与注册说话人是同一说话人，否则不是。判断结束后从602重新执行步骤。

实施例3

与其它实施例基于相同的发明构思，本实施例介绍一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述方法，具备执行方法相应的功能模块和有益效果。

实施例4

与其它实施例基于相同的发明构思，本实施例介绍一种电子终端，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述方法的指令。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.长短语音通用说话人嵌入层模型获得方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，所述训练数据集中长语音频谱样本时长大于或等于3秒，说话人总数超过1000人。

3.根据权利要求2所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，所述说话人嵌入层模型选用ResNet34架构，说话人分类层采用全连接层实现，所述全连接层的输入层节点数与说话人嵌入层模型的输出节点数相同，全连接层的输出层节点数与训练数据集中说话人总数一致。

4.根据权利要求1所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，通过训练数据集中的长语音频谱样本训练优化所述说话人识别网络，获得对长语音输入识别准确率优化的说话人识别网络，包括：

5.根据权利要求4所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，通过训练数据集中的短语音频谱样本训练微调对长语音输入识别准确率优化的说话人识别网络，获得对短语音输入识别准确率优化的说话人识别网络，包括：

6.根据权利要求1所述的长短语音通用说话人嵌入层模型获得方法，其特征在于，根据所述第一说话人嵌入层模型和第二说话人嵌入层模型，基于模型平均方法获得长短语音通用说话人嵌入层模型，包括：

7.一种说话人识别方法，其特征在于，包括：

8.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1-6中的任一所述方法。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求7中的任一所述方法。

10.一种电子终端，其特征在于，包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1-6或权利要求7中的任一所述方法的指令。