CN117831540A

CN117831540A - 一种基于课程学习的说话人识别方法、装置及存储介质

Info

Publication number: CN117831540A
Application number: CN202311746017.7A
Authority: CN
Inventors: 李郡; 游恒; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-05

Abstract

本发明公开了一种基于课程学习的说话人识别方法、装置及存储介质，所述方法包括实时音频获取步骤，包括：获取任意说话人的实时音频，并对实时音频进行频谱特征提取；将实时音频的频谱特征输入音频活动检测器，检测实时音频中是否有语音或平凡发音；当实时音频不是语音或平凡发音时，返回实时音频获取步骤；当实时音频是语音或平凡发音时，将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中，获得实时音频的说话人嵌入层；将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人，本发明可同时对普通语音和平凡发音进行识别，识别准确率高。

Description

一种基于课程学习的说话人识别方法、装置及存储介质

技术领域

本发明涉及一种基于课程学习的说话人识别方法、装置及存储介质，属于说话人识别技术领域。

背景技术

平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音，它们基本不含有任何语义内容，但却蕴含着丰富的说话人信息，比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声，以及清嗓子的声音等，适合用于特定场景下的说话人识别任务，比如在司法鉴定时，无法获得完整语句的情况等。

尽管平凡发音能够体现一些说话人声道的物理特性，但由于其发音时间短，以及语音内容少等特性，因此使用普通语音构建的说话人识别系统，在实际部署时输入平凡发音会导致识别率降低。但若使用平凡发音直接构建说话人识别系统，对语音的识别率较低。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于课程学习的说话人识别方法、装置及存储介质，训练说话人嵌入层网络时，在训练初期和中期先以普通语音为主，再过渡到平凡发音，最终获得的说话人嵌入层网络对普通语音和平凡发音具有通用性。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于课程学习的说话人识别方法，包括：

实时音频获取步骤，包括：获取任意说话人的实时音频，并对实时音频进行频谱特征提取；

将实时音频的频谱特征输入音频活动检测器，检测实时音频中是否有语音或平凡发音；

当实时音频不是语音或平凡发音时，返回实时音频获取步骤；

当实时音频是语音或平凡发音时，将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中，获得实时音频的说话人嵌入层；

将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人。

进一步的，所述将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人时，若余弦相似度超过设定阈值，则认为实时音频对应说话人与注册说话人是同一说话人，否则不是，判断结束后重新执行所述基于课程学习的说话人识别方法步骤。

进一步的，所述基于课程学习训练获得说话人嵌入层网络，包括：

获取训练数据集，并提取训练数据集中每句音频的频谱；

构建说话人识别模型，包括说话人嵌入层网络与说话人分类层；

基于课程学习构建训练批次；

基于课程学习构建损失函数；

根据构建的训练批次和损失函数，使用优化器对损失值进行反向传播更新说话人识别模型的参数，直至模型收敛，获得训练后的说话人嵌入层网络。

进一步的，所述训练数据集中，说话人性别比例均衡，每人普通语音和平凡发音的时间长度一致且数据集中无静音段，且所述训练数据集中，每句音频有对应的说话人标签，是否为平凡发音的标签记录为y_t，当是平凡发音时，y_t为1，否则为0。

进一步的，所述提取训练数据集中每句音频的频谱所用的帧长为25ms，帧移为10ms。

进一步的，所述说话人嵌入层网络为ResNet34网络，所述说话人分类层使用全连接层实现，所述说话人分类层的输入层节点数与说话人嵌入层网络的输出节点数保持一致，输出层为训练数据集的说话人数。

进一步的，所述基于课程学习构建训练批次，包括：

按照迭代进度将每个人一定比例的普通语音数据逐渐替换为平凡发音，替换比例如下式所示：

其中，percentage为替换比例，epoch为模型在整个训练集上训练的次数，N_epoch为迭代完整训练集的次数；

进一步的，所述基于课程学习构建损失函数，包括：

设定一个批次中第i个说话人的嵌入层为e_i，说话人分类层对应说话人j的权重为w_j，将权重w_j视为说话人j的中心嵌入层，则嵌入层e_i与权重w_j之间的角度记为θ_j，当第i个说话人的标签为y_i时，e_i与w_i之间的角度记为期望同一说话人之间的夹角/>越小越好，不同说话人之间的夹角θ_j越大越好，则基于角度间隔的损失函数L，如下式所示：

其中，N为一个批次的说话人数，s为乘法因子，m₀为固定的角度间隔，当y_t＝0，即输入的音频为语音时，m的值为m₀，尽力压缩说话人语音的嵌入层空间；当y_t＝1时，使用α(epoch)控制平凡发音所用角度间隔；当系数α从0到1逐渐增大，选用的线性函数为：

第二方面，本发明提供一种基于课程学习的说话人识别装置，包括：

实时音频获取模块，用于获取任意说话人的实时音频，并对实时音频进行频谱特征提取；

检测模块，用于将实时音频的频谱特征输入音频活动检测器，检测实时音频中是否有语音或平凡发音；

跳转模块，用于在检测实时音频不是语音或平凡发音时，返回实时音频获取模块；

输入模块，用于在检测实时音频是语音或平凡发音时，将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中，获得实时音频的说话人嵌入层；

判断模块，用于将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人。

第三方面，本发明提供一种电子设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供一种基于课程学习的说话人识别方法、装置及存储介质，可同时对普通语音和平凡发音进行识别，识别准确率高，基于课程学习构建训练批次，应用指数函数，使得说话人嵌入层网络在训练迭代的前中时期提高模型对语音的识别能力与稳定性，保证说话人识别网络对普通语音的识别性能稳定，后期泛化至平凡发音；通过构建基于课程学习的损失函数，平凡发音训练初期所受限制小，模型优化时对平凡发音收敛较好，后期当说话人模型稳定在普通语音领域后，增大平凡发音角度间隔，减小类内距离，保证平凡发音嵌入层与普通语音嵌入层距离近，获得对平凡发音和普通语音性能均好的说话人嵌入层网络。

附图说明

图1是本发明实施例提供的说话人识别网络示意图；

图2是本发明实施例提供的一种基于课程学习的说话人识别方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例介绍一种基于课程学习的说话人识别方法，包括：

本实施例提供的基于课程学习的说话人识别方法，其应用过程具体涉及如下步骤：

步骤1：基于课程学习，获得对长语音和平凡发音识别准确率高的说话人嵌入层模型。

101：准备训练数据集，并提取数据集中每句音频的频谱。所述训练数据集，说话人数目应超过1000人，性别比例均衡，每人普通语音和平凡发音的时间长度一致。数据集中无静音段。每句音频有对应的说话人标签，是否为平凡发音的标签记录为y_t，当是平凡发音时，y_t为1，否则为0。提取频谱所用的帧长可选为25ms，帧移为10ms。

102：构建说话人识别网络，包括说话人嵌入层网络与说话人分类层，如图1所示。其中说话人嵌入层网络可选为ResNet34。说话人分类层使用全连接层实现，它的输入层节点数与说话人嵌入层网络的输出节点数保持一致，输出层为训练集的说话人数。

103：基于课程学习构建训练批次。设一共迭代N_epoch次完整训练集，按照迭代进度将每个人一定比例的普通语音数据逐渐替换为平凡发音。替换比例如下式所示：

使用指数函数保证训练初期和中期的数据以普通语音为主，提高模型对语音的识别能力与稳定性，保证说话人识别网络对普通语音的识别性能稳定，后期泛化至平凡发音。

104：基于课程学习构建损失函数。设一个批次中第i个说话人的嵌入层为e_i，说话人分类层对应说话人j的权重为w_j，将权重w_j视为说话人j的中心嵌入层，则嵌入层e_i与权重w_j之间的角度被记为θ_j，当第i个说话人的标签为y_i时，e_i与w_i之间的角度记为期望同一说话人之间的夹角/>越小越好，不同说话人之间的夹角θ_j越大越好。则基于角度间隔的损失函数L，如下式所示，

其中N为一个批次的说话人数，s为乘法因子，m₀为固定的角度间隔。当y_t＝0，即输入的音频为语音时，m的值为m₀，尽力压缩说话人语音的嵌入层空间；当y_t＝1时，使用α(epoch)控制平凡发音所用角度间隔，系数α从0到1逐渐增大，可选为线性函数

由于平凡发音根据训练进程逐渐增大角度间隔，因此训练初期对平凡发音限制小，防止模型对平凡发音不收敛，后期当说话人模型稳定在普通语音领域后，增大平凡发音角度间隔，减小类内距离，保证平凡发音嵌入层与普通语音嵌入层距离近，获得对平凡发音和普通语音性能均好的说话人嵌入层模型。

105：根据构建的训练批次和损失函数，使用优化器对损失值进行反向传播更新说话人识别模型的参数，直至模型收敛。

步骤2：获得注册说话人嵌入层。

采集说话人的注册音频并进行频谱特征提取。

注册音频频谱通过步骤1获得的说话人嵌入层网络，获得注册说话人嵌入层。

步骤3：获得实时音频数据，确认其是否为注册说话人的音频。流程如图2所示。

301：获得实时音频数据并进行频谱特征提取。

302：频谱特征输入音频活动检测器，检测音频中是否有语音或平凡发音。检测算法可选为基于短时能量和短时平均过零率的双门限端点检测方法。

303：当实时音频不是语音或平凡发音时，系统将继续获取实时音频并提取频谱特征；当实时音频是语音或平凡发音时，将频谱特征输入到步骤1获得的说话人嵌入层模型，获得实时音频的说话人嵌入层

302：实时音频的说话人嵌入层与注册说话人的说话人嵌入层进行余弦相似度计算，判断是否为同一说话人。余弦相似度超过设定阈值时，认为实时音频对应说话人与注册说话人是同一说话人，否则不是。判断结束后从301重新执行步骤。

与现有的说话人识别系统相比，提出基于课程学习的说话人识别系统可同时对普通语音和平凡发音准确率高。

这得益于步骤103中基于课程学习构建训练批次，应用指数函数，使得说话人识别模型在训练迭代的前中时期提高模型对语音的识别能力与稳定性，保证说话人识别网络对普通语音的识别性能稳定，后期泛化至平凡发音。

另外，步骤104构建基于课程学习的损失函数，平凡发音训练初期所受限制小，模型优化时对平凡发音收敛较好，后期当说话人模型稳定在普通语音领域后，增大平凡发音角度间隔，减小类内距离，保证平凡发音嵌入层与普通语音嵌入层距离近，获得对平凡发音和普通语音性能均好的说话人嵌入层模型。

实施例2

本实施例提供一种基于课程学习的说话人识别装置，包括：

实施例3

本实施例提供一种电子设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。

实施例4

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1中任一项所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用于说明本公开的技术方案而非对其保护范围的限制，尽管参照上述实施例对本公开进行了详细的说明，所属领域的普通技术人员应当理解:本领域技术人员阅读本公开后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在公开待批的权利要求保护范围之内。

Claims

1.一种基于课程学习的说话人识别方法，其特征在于，包括：

2.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人时，若余弦相似度超过设定阈值，则认为实时音频对应说话人与注册说话人是同一说话人，否则不是，判断结束后重新执行所述基于课程学习的说话人识别方法步骤。

3.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述基于课程学习训练获得说话人嵌入层网络，包括：

获取训练数据集，并提取训练数据集中每句音频的频谱；

基于课程学习构建训练批次；

基于课程学习构建损失函数；

4.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述训练数据集中，说话人性别比例均衡，每人普通语音和平凡发音的时间长度一致且数据集中无静音段，且所述训练数据集中，每句音频有对应的说话人标签，是否为平凡发音的标签记录为y_t，当是平凡发音时，y_t为1，否则为0。

5.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述提取训练数据集中每句音频的频谱所用的帧长为25ms，帧移为10ms。

6.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述说话人嵌入层网络为ResNet34网络，所述说话人分类层使用全连接层实现，所述说话人分类层的输入层节点数与说话人嵌入层网络的输出节点数保持一致，输出层为训练数据集的说话人数。

7.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述基于课程学习构建训练批次，包括：

其中，percentage为替换比例，epoch为模型在整个训练集上训练的次数，N_epoch为迭代完整训练集的次数。

8.根据权利要求7或4中任一项所述的基于课程学习的说话人识别方法，其特征在于，所述基于课程学习构建损失函数，包括：

9.一种基于课程学习的说话人识别装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现权利要求1～8任一项所述方法的步骤。