CN113889081A

CN113889081A - 语音识别方法、介质、装置和计算设备

Info

Publication number: CN113889081A
Application number: CN202111185332.8A
Authority: CN
Inventors: 周立峰; 朱浩齐; 李雨珂; 杨卫强; 高民
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2022-01-04

Abstract

本公开的实施方式提供了一种语音识别方法、介质、装置和计算设备。该语音识别方法包括：获取待识别语音信号的声学特征；基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度；根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。一方面，通过语音识别模型对音频数据进行识别，可以大大提升语音识别的效率和准确率。另一方面，通过识别音频数据中特定人员的语音片段，可以排除非特定人员的语音片段的影响，进一步提升语音识别效率。

Description

语音识别方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及语音识别技术领域，更具体地，本公开的实施方式涉及语音识别方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着科技的不断发展，语音识别技术已逐渐被应用于各种场景，例如，音频审核场景、摘录场景等。以音频数据审核场景为例，在音频数据发布前，需要识别出音频数据中是否涉及的特定人员的语音，从而判断该音频数据的合规性。

目前，在识别音频数据中涉及的特定人员时，主要是通过审核人员对语音信息进行人工识别判断。然而，人工识别的效率较低，随着信息时代的到来，音频数量和时长呈指数型增长，人工识别的方式已无法满足当前的审核需求。

发明内容

本公开实施方式提供一种语音识别方法、介质、装置和计算设备，用于解决目前人工审核音频数据效率较低的问题。

在本公开实施方式的第一方面中，提供了一种语音识别方法，包括：获取待识别语音信号的声学特征；基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度，其中，目标语音片段为目标人员发出的语音信号，语音识别模型是基于目标人员的样本音频信号对应的声学特征进行训练得到的；根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。

在一种可能的实施方式中，该语音识别模型是基于目标人员的声学特征进行如下训练得到的：获取对应于目标人员的多个样本音频信号的声学特征；将声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的声学特征对应的声纹特征；根据声纹特征获得声学特征的标签数据，声学特征的标签数据用于指示声学特征所属的目标人员；通过声学特征的标签数据对初始语音识别模型进行训练，得到语音识别模型。

在一种可能的实施方式中，该根据置信度，识别待识别语音信号中的目标语音片段，包括：根据置信度大于或等于置信度阈值的第一语音片段，识别待识别语音信号中的目标语音片段；或者，确定置信度小于置信度阈值的语音片段不是目标语音片段。

在一种可能的实施方式中，该根据置信度大于或等于置信度阈值的第一语音片段，识别待识别语音信号中的目标语音片段，包括：获取置信度大于置信度阈值的第一语音片段；基于第一语音片段的声学特征，获取第一语音片段的声纹特征；根据声纹特征，识别第一语音片段是否为目标语音片段。

在一种可能的实施方式中，该基于第一语音片段的声学特征，获取第一语音片段的声纹特征，包括：将第一语音片段的声学特征输入目标声纹识别模型，获取第一语音片段的声纹特征，其中，目标声纹识别模型是基于目标人员的声纹特征进行训练得到的。

在一种可能的实施方式中，根据声纹特征，识别第一语音片段是否为目标语音片段，包括：将声纹特征与数据库中的声纹特征进行对比，数据库包含目标人员的声纹特征；若确定声纹特征与数据库中至少一个声纹特征的相似度大于或等于相似度阈值，则确定第一语音片段为目标语音片段；若确定声纹特征与数据库中声纹特征的相似度小于相似度阈值，则确定第一语音片段不为目标语音片段。

在一种可能的实施方式中，该语音识别方法还包括：确定待识别语音信号中各目标语音片段的第一时间信息，第一时间信息包括：各目标语音片段的起止时间。

在一种可能的实施方式中，该语音识别方法还包括：根据各目标语音片段的第一时间信息，将时间连续的目标语音片段进行合并处理，获得待处理语音片段以及各待处理语音片段对应的第二时间信息，第二时间信息包括：各待处理语音片段的起止时间，和/或，各待处理语音片段的时长。

在一种可能的实施方式中，该语音识别模型包括：卷积神经网络、循环神经网络、自注意力机制以及全连接层；卷积神经网络，用于提取声学特征中的局部特征；循环神经网络，用于提取声学特征中的全局特征；自注意力机制，用于提取声学特征中的目标特征；全连接层，用于根据局部特征、全局特征和目标特征，输出待识别语音信号包含的各语音片段为目标语音片段的置信度。

在本公开实施方式的第二方面中，提供了一种模型训练方法，包括：获取样本音频信号的声学特征；基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，声纹识别模型包括：第一卷积模块、基于坐标注意力的残差模块、自注意力机制、第二卷积模块、注意统计池、全连接层以及循环损失函数模块；

其中，第一卷积模块和第二卷积模块，用于获取样本音频信号的声学特征的局部特征；基于坐标注意力的残差模块，用于获取第一卷积模块和第二卷积模块中的卷积通道的权重值；自注意力机制，用于获取提取声学特征中的目标特征；注意统计池，用于将不定长的声学特征，聚合成定长的声学特征；全连接层，用于根据局部特征、目标特征和定长的声学特征，输出声学特征对应的声纹特征的识别结果；循环损失函数模块，用于基于全连接层输出的识别结果，获取循环损失函数，循环损失函数用于对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型，包括：

确定目标人员中S个第一目标人员；针对每个第一目标人员，根据相似度矩阵，从多个目标人员中确定与第一目标人员的声纹特征相似度大于相似度阈值的N个第二目标人员，相似度矩阵用于指示不同目标人员之间的声纹特征相似度，其中，S和N均为大于等于1的整数；基于循环损失函数，通过各第二目标人员对应的样本音频信号的声学特征，对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，该模型训练方法，还包括：将目标人员对应的样本音频信号的声学特征输入至初始声纹识别模型中，获得初始声纹识别模型输出的目标人员对应的声纹特征中心；根据各目标人员对应的声纹特征中心，确定各目标人员的声纹特征之间的相似度；根据各目标人员的声纹特征之间的相似度，确定各目标人员之间的相似度矩阵。

在一种可能的实施方式中，获取对应于目标人员的多个样本音频信号，包括：获取对应于目标人员的多个初始样本音频信号；在初始样本音频信号中增加噪声数据，获得对应于目标人员的多个样本音频信号。

在一种可能的实施方式中，在初始样本音频信号中增加噪声数据，获得对应于目标人员的多个样本音频信号，包括：获取目标人员的身份信息；根据初始样本音频信号所属的目标人员的身份信息，确定与身份信息对应的目标噪声数据；在初始样本音频信号中增加目标噪声数据，获得对应于目标人员的多个样本音频信号。

在一种可能的实施方式中，样本音频信号包括第一样本集和第二样本集，第一样本集中的样本音频信号数量大于第二样本集的样本音频信号数量，第一样本集对应的目标人员不同于第二样本集对应的目标人员；

基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型，包括：

对于第i次训练，通过第一样本集中M1个第一样本音频信号的声学特征和第二样本集中M2个第二样本音频信号的声学特征，对第i-1声纹识别模型进行训练，获得第i循环损失函数以及第i声纹识别模型，第i-1声纹识别模型是对初始声纹识别模型进行i-1次训练得到的；确定循环损失函数收敛时对应的声纹识别模型为目标声纹识别模型；

其中，M1、M2均为大于等于1的整数，i为大于等于2的整数，第i次训练与第i-1次训练使用的第一样本音频信号不同，和/或，第i次训练与第i-1次训练使用的第二样本音频信号不同。

基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型，包括：基于循环损失函数，通过第一样本集中样本音频信号的声学特征对对初始声纹识别模型进行训练，获得第一声纹识别模型；基于循环损失函数，通过第二样本集中样本音频信号的声学特征对第一声纹识别模型进行训练，获得目标声纹识别模型。

在本公开实施方式的第三方面中，提供了一种模型训练方法，包括：获取对应于目标人员的多个样本音频信号；获取样本音频信号的声学特征；将样本音频信号的声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的样本音频信号对应的声纹特征，目标声纹识别模型为采用如第二方面的模型训练方法训练得到的；根据声纹特征获得声学特征的标签数据，声学特征的标签数据用于指示声学特征所属的目标人员；通过声学特征的标签数据对初始语音识别模型进行训练，得到语音识别模型。

在一种可能的实施方式中，根据声纹特征获得声学特征的标签数据，包括：对声纹特征进行聚类处理，获取每个声纹特征所属的类别以及每个类别的聚类中心；根据聚类中心的标签数据，确定每个类别中声纹特征的标签数据；根据声纹特征的标签数据，获得声学特征的标签数据。

在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现第一方面的语音识别方法，和/或，第二方面或第三方面的模型训练方法。

在本公开实施方式的第五方面中，提供了一种语音识别装置，包括：获取模块，用于获取待识别语音信号的声学特征；确定模块，用于基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度，其中，目标语音片段为目标人员发出的语音信号，语音识别模型是基于目标人员的样本音频信号对应的声学特征进行训练得到的；识别模块，用于根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。

在一种可能的实施方式中，语音识别模型是基于目标人员的声学特征进行如下训练得到的：获取对应于目标人员的多个样本音频信号的声学特征；将声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的声学特征对应的声纹特征；根据声纹特征获得声学特征的标签数据，声学特征的标签数据用于指示声学特征所属的目标人员；通过声学特征的标签数据对初始语音识别模型进行训练，得到语音识别模型。

在一种可能的实施方式中，识别模块具体用于：根据置信度大于或等于置信度阈值的第一语音片段，识别待识别语音信号中的目标语音片段；或者，确定置信度小于置信度阈值的语音片段不是目标语音片段。

在一种可能的实施方式中，识别模块具体用于：获取置信度大于置信度阈值的第一语音片段；基于第一语音片段的声学特征，获取第一语音片段的声纹特征；根据声纹特征，识别第一语音片段是否为目标语音片段。

在一种可能的实施方式中，识别模块具体用于：将第一语音片段的声学特征输入目标声纹识别模型，获取第一语音片段的声纹特征，其中，目标声纹识别模型是基于目标人员的声纹特征进行训练得到的。

在一种可能的实施方式中，识别模块具体用于：将声纹特征与数据库中的声纹特征进行对比，数据库包含目标人员的声纹特征；若确定声纹特征与数据库中至少一个声纹特征的相似度大于或等于相似度阈值，则确定第一语音片段为目标语音片段；若确定声纹特征与数据库中声纹特征的相似度小于相似度阈值，则确定第一语音片段不为目标语音片段。

在一种可能的实施方式中，确定模块还用于：确定待识别语音信号中各目标语音片段的第一时间信息，第一时间信息包括：各目标语音片段的起止时间。

在一种可能的实施方式中，语音识别装置，还包括：处理模块，用于根据各目标语音片段的第一时间信息，将时间连续的目标语音片段进行合并处理，获得待处理语音片段以及各待处理语音片段对应的第二时间信息，第二时间信息包括：各待处理语音片段的起止时间，和/或，各待处理语音片段的时长。

在一种可能的实施方式中，语音识别模型包括：卷积神经网络、循环神经网络、自注意力机制以及全连接层；

卷积神经网络用于提取声学特征中的局部特征；循环神经网络用于提取声学特征中的全局特征；自注意力机制用于提取声学特征中的目标特征；全连接层用于根据局部特征、全局特征和目标特征，输出待识别语音信号包含的各语音片段为目标语音片段的置信度。

在本公开实施方式的第六方面中，提供了一种模型训练装置，包括：获取模块，用于获取对应于目标人员的多个样本音频信号，获取样本音频信号的声学特征；训练模块，用于基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型。

第一卷积模块和第二卷积模块，用于获取样本音频信号的声学特征的局部特征；基于坐标注意力的残差模块，用于获取第一卷积模块和第二卷积模块中的卷积通道的权重值；自注意力机制，用于获取提取声学特征中的目标特征；注意统计池，用于将不定长的声学特征，聚合成定长的声学特征；全连接层，用于根据局部特征、目标特征和定长的声学特征，输出声学特征对应的声纹特征的识别结果；循环损失函数模块，用于基于全连接层输出的识别结果，获取循环损失函数，循环损失函数用于对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，训练模块具体用于：确定目标人员中S个第一目标人员；针对每个第一目标人员，根据相似度矩阵，从多个目标人员中确定与第一目标人员的声纹特征相似度大于相似度阈值的N个第二目标人员，相似度矩阵用于指示不同目标人员之间的声纹特征相似度，其中，S和N均为大于等于1的整数；基于循环损失函数，通过各第二目标人员对应的样本音频信号的声学特征，对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，模型训练装置，还包括：确定模块；获取模块还用于：将目标人员对应的样本音频信号的声学特征输入至初始声纹识别模型中，获得初始声纹识别模型输出的目标人员对应的声纹特征中心；确定模块，用于根据各目标人员对应的声纹特征中心，确定各目标人员的声纹特征之间的相似度；根据各目标人员的声纹特征之间的相似度，确定各目标人员之间的相似度矩阵。

在一种可能的实施方式中，获取模块具体用于：获取对应于目标人员的多个初始样本音频信号，在初始样本音频信号中增加噪声数据，获得对应于目标人员的多个样本音频信号。

在一种可能的实施方式中，获取模块具体用于：获取目标人员的身份信息；根据初始样本音频信号所属的目标人员的身份信息，确定与身份信息对应的目标噪声数据；在初始样本音频信号中增加目标噪声数据，获得对应于目标人员的多个样本音频信号。

训练模块具体用于：对于第i次训练，通过第一样本集中M1个第一样本音频信号的声学特征和第二样本集中M2个第二样本音频信号的声学特征，对第i-1声纹识别模型进行训练，获得第i循环损失函数以及第i声纹识别模型，第i-1声纹识别模型是对初始声纹识别模型进行i-1次训练得到的；确定循环损失函数收敛时对应的声纹识别模型为目标声纹识别模型；

在一种可能的实施方式中，样本音频信号包括第一样本集和第二样本集，第一样本集中的样本音频信号数量大于第二样本集的样本音频信号数量，第一样本集对应的目标人员不同于第二样本集对应的目标人员；训练模块具体用于：基于循环损失函数，通过第一样本集中样本音频信号的声学特征对对初始声纹识别模型进行训练，获得第一声纹识别模型；基于循环损失函数，通过第二样本集中样本音频信号的声学特征对第一声纹识别模型进行训练，获得目标声纹识别模型。

在本公开实施方式的第七方面中，提供了一种模型训练装置，包括：获取模块，用于获取对应于目标人员的多个样本音频信号，获取样本音频信号的声学特征；

声纹识别模块，用于将样本音频信号的声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的样本音频信号对应的声纹特征，目标声纹识别模型为采用如第二方面或第三方面中任一项的模型训练方法训练得到的；

标签数据获取模块，用于根据声纹特征获得声学特征的标签数据，声学特征的标签数据用于指示声学特征所属的目标人员；

训练模块，用于通过声学特征的标签数据对初始语音识别模型进行训练，得到语音识别模型。

在一种可能的实施方式中，标签数据获取模块具体用于：对声纹特征进行聚类处理，获取每个声纹特征所属的类别以及每个类别的聚类中心；根据聚类中心的标签数据，确定每个类别中声纹特征的标签数据；根据声纹特征的标签数据，获得声学特征的标签数据。

在本公开实施方式的第八方面中，提供了一种计算设备，包括：至少一个处理器和存储器；存储器存储计算机执行指令；至少一个处理器至少存储器存储的计算机执行指令，使得至少一个处理器执行第一方面的语音识别方法，和/或，第二方面或第三方面的模型训练方法。

在本公开实施方式的第九方面中，提供了一种计算机程序产品，计算机程序产品包括计算机程序；计算机程序被执行时实现第一方面的语音识别方法，和/或，第二方面或第三方面的模型训练方法。

本公开实施例中的语音识别方法、介质、装置和计算设备，首先获取待识别语音信号的声学特征；然后基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度，其中，目标语音片段为目标人员发出的语音信号，语音识别模型是基于目标人员的样本音频信号对应的声学特征进行训练得到的；最后根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。本公开实施例中的方案，只需要通过语音识别模型对声学特征进行识别，即可确定待识别语音信号中目标人员的语音片段，其效率较高，人力投入小，且识别结果更加准确。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限性的方式示出了本公开的若干实施方式，其中：

图1为本公开实施例提供的一种应用场景示意图；

图2为本公开实施例提供的语音识别方法的流程示意图一；

图3为本公开实施例提供的语音识别方法的原理示意图一；

图4为本公开实施例提供的语音识别方法的流程示意图二；

图5为本公开实施例提供的语音识别方法的原理示意图二；

图6为本公开实施例提供的声纹识别模型的结构示意图；

图7为本公开实施例提供的声纹识别模型训练方法的流程示意图；

图8为本公开实施例提供的语音识别模型的结构示意图；

图9为本公开实施例提供的语音识别模型的训练方法的流程示意图；

图10为本公开实施例提供的声纹特征的聚类结果示意图；

图11为本公开实施例提供的程序产品示意图；

图12为本公开实施例提供的语音识别装置的结构示意图；

图13为本公开实施例提供的模型训练装置的结构示意图一；

图14为本公开实施例提供的模型训练装置的结构示意图二；

图15为本公开实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种语音识别方法、介质、装置和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

随着科技的不断发展，语音识别技术已逐渐被应用于各种场景。例如音视频审核场景、摘录场景等等。

在音视频审核场景中，由于音视频平台的不断推广，发布音频数据的人也越来越多，可能会出现一些违规音频数据的传播，例如，包含领导人语音的音频数据、包含问题艺人语音的音频数据等等，若这些音频信息被发布，会造成不良影响。因此，在这些音频数据发布前，需要识别出音频数据中特定人员的语音片段，从而通过这些语音片段来判断音频数据的合规性。

在摘录场景中，例如，对于一些重要场合的录音音频数据，需要摘录特定人员在录音音频中的发言片段，例如，会议中的领导人发言片段、采访录音中的被采访者的发言片段等等，此过程也需要识别出录音音频数据中特定人员的语音片段，从而对这些语音片段进行摘录。

应理解，本实施例的方案还可以应用于其他类似场景，此处不再一一赘述。

为了满足上述需求，现有技术中，通常采用人工识别的方式对音频数据进行识别。例如，在音频数据审核场景，在音频数据发布前，通过人工听音频数据，来识别该音频数据中所包含的领导人或者问题艺人的语音片段，再通过人工来判断这些语音片段是否合规；在摘录场景，也需要通过人工听音频数据，来识别该音频数据中所包含的特定人员的语音片段，再对这些语音片段进行摘录。

然而，人工识别的效率较低，且误识别率较高，随着信息时代的到来，音频数量和时长呈指数型增长，人工识别已无法满足当前的语音识别需求。

另外，发明人还发现，由于一段音频数据中会包含特定人员的语音片段，也会包含非特定人员的语音片段，通常需要听完整段音频数据，才能够完成审核或摘录，因此，音频数据中的非特定人员的语音片段会严重影响审核效率或摘录效率。

有鉴于此，本公开实施例提供一种语音识别方法、介质、装置和计算设备。在该语音识别方法中，采用通过特定人员的样本音频信号训练得到的语音识别模型对音频数据进行识别，从而获得该音频数据中的特定人员的语音片段。一方面，通过训练好的语音识别模型对音频数据进行识别，相比于人工识别，可以大大提升语音识别的效率和准确率。另一方面，通过语音识别模型可以识别出音频数据中特定人员的语音片段，从而可以在审核或摘录时排除非特定人员的语音片段的影响，进一步提升语音审核或摘录效率。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

图1为本公开实施例提供的一种应用场景示意图，如图1所示，该应用场景可以为音频数据审核场景或者特定人员的语音摘录场景。

在本公开实施例提供的应用场景中，所涉及的设备包括服务器101和/或终端102，通过服务器101或者终端102来实现语音识别。

其中，服务器101可以为单个服务器，也可以为服务器集群，可以为分布式服务器，也可以为集中式服务器，还可以为云服务器。

终端102可以是个人数字处理(personal digital assistant，简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备)等。

示例性方法

下面结合图1所示的应用场景，参考图2～9来描述根据本公开示例性实施方式的语音识别的方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

其中，本公开的实施方式适用的执行设备为计算设备，如上述的终端或服务器。

图2为本公开实施例提供的语音识别方法的流程示意图一。如图2所示，该语音识别方法可以包括如下步骤：

S201、获取待识别语音信号的声学特征。

应理解的是，对应于不同的应用场景，待识别语音信号的类型不同，对于待识别语音信号的具体类型，本公开实施例不做限定。

本步骤中，在获取到待识别语音信号后，提取待识别语音信号中的声学特征，其中，声学特征可以为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征。

S202、基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度。

S203、根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。

其中，每个待识别语音信号中包含多个语音片段，该声学特征为多个语音片段的声学特征，目标语音片段为目标人员发出的语音信号，语音识别模型是基于目标人员的样本音频信号对应的声学特征进行训练得到的，至于语音识别模型的训练方法，在后续实施例中示出。

一些实施例中，语音识别模型可以为TS-VAD模型，为方便理解，接下来的实施例中的语音识别模型以TS-VAD模型为例示出，但在实际应用中不以此为限定。

本步骤中，将该声学特征输入到该TS-VAD模型中，通过该TS-VAD模型对该声学特征进行识别，确定待识别语音信号中的每个语音片段为目标语音片段的置信度。为方便理解，下面参考图3进行说明：

图3为本公开实施例提供的语音识别方法的原理示意图一。如图3所示，在待识别语音信号上设置预设时长的时间锚框(anchor)，每个anchor对应于一个语音片段，从而提取每个anchor对应的语音片段的MFCC特征(片段1、片段2…片段n为待识别语音信号中的多个语音片段)。

进一步的，将片段1、片段2…片段n对应的声学特征分别输入到语音识别模型中，通过语音识别模型对各个声学特征进行识别，获得各个声学特征对应的语音片段为目标语音片段的置信度。

更进一步的，确定置信度大于置信度阈值的片段为目标语音片段，示例性的，图3中目标语音片段为片段1、片段4、片段5、片段7、片段8、片段9；片段2、片段3、片段6和片段n不是目标语音片段。

需要说明的是，对于每个anchor对应的预设时长以及置信度阈值的大小，可以根据需求进行设定，本公开的实施例均不做具体限定。

本公开实施例中，由于语音识别模型是基于目标人员的声学特征进行训练得到的，其具备目标人员声学特征的识别能力，因此，通过语音识别模型来获取待识别语音信号中的目标语音片段时，相比于人工识别，其不会出现漏识别、错识别的情况，准确率较高。

另外，在实际应用中，通过语音识别模型识别出音频数据中特定人员的语音片段，可以排除非特定人员的语音片段的影响，那么在后续的审核过程或摘录过程中，只需要审核或摘录这些目标语音片段即可，无需人工听完整段音频数据，可以进一步提升音频数据的处理效率。

图4为本公开实施例提供的语音识别方法的流程示意图二。本实施例将在图2所示实施例的基础上进行更详细的说明，具体的，本实施例的语音识别方法包括如下步骤：

S401、获取待识别语音信号的声学特征。

S402、基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度。

S403、确定置信度小于置信度阈值的语音片段不是目标语音片段。

需要说明的是，步骤S401～S403与图2所示实施例中的步骤S201～S202的原理及效果类似，具体可参考上述实施例，此处不做赘述。

S404、根据置信度大于或等于置信度阈值的第一语音片段，识别待识别语音信号中的目标语音片段。

在一些实施方式中，步骤S404可以按照图2所示实施例中的步骤S203所示的方案来确定目标语音片段，即确定置信度大于置信度阈值的片段为目标语音片段。

然而，为了提升语音识别模型的识别效率，以及降低待识别语音信号中对目标语音片段的漏判，在语音识别模型的识别过程中，会尽可能多的将类似目标人员的语音片段判为目标语音片段(也即，置信度大于置信度阈值的片段可能并非目标语音片段)。因此，在上述的语音识别过程中，可能会出现识别错误的情况。

有鉴于此，在本公开提供的另一实施例中，还可以通过声纹识别模型对置信度大于置信度阈值的语音片段进行声纹识别，从而获得更准确的识别结果，接下来，结合步骤S4041-S4043对此方案进行说明：

S4041、获取置信度大于置信度阈值的第一语音片段。

S4042、基于第一语音片段的声学特征，获取第一语音片段的声纹特征。

具体的，将第一语音片段的声学特征输入目标声纹识别模型，获取第一语音片段的声纹特征，其中，目标声纹识别模型是基于目标人员的声纹特征进行训练得到的，至于目标声纹识别模型的训练过程，在后续实施例中示出。

S4043、根据声纹特征，识别第一语音片段是否为目标语音片段。

一些实施例中，在获得声纹特征之后，可以进一步通过该声纹识别模型确定该声纹特征为目标人员的声纹特征的置信度，从而根据置信度确定该声纹特征对应的第一语音片段是否为目标人员的目标语音片段。

另一些实施例中，还可以通过与数据库中存储的声纹特征进行对比，从而确定该声纹特征对应的第一语音片段是否为目标人员的声纹特征，具体包括如下步骤：

(1)将声纹特征与数据库中的声纹特征进行对比；

其中，数据库包含目标人员的声纹特征。

(2)若确定声纹特征与数据库中至少一个声纹特征的相似度大于或等于相似度阈值，则确定第一语音片段为目标语音片段；

(3)若确定声纹特征与数据库中声纹特征的相似度小于相似度阈值，则确定第一语音片段不为目标语音片段。

至此，已完成目标语音片段的获取。

如上述实施例所述，由于一段音频数据中会包含目标人员的语音片段(例如图3所示的片段1、片段4、片段5、片段7、片段8和片段9)，也会包含非目标人员的语音片段(例如图3所示的片段2、片段3、片段6和片段n)，而非目标人员的语音片段会严重影响审核效率或摘录效率。

有鉴于此，在本公开实施例中，还可以获取目标人员的语音片段(即目标语音片段)的时间信息，以准确的对目标人员的语音片段进行相关处理，接下来，结合步骤S405-S406对本方案进行说明：

S405、确定待识别语音信号中各目标语音片段的第一时间信息。

其中，第一时间信息包括：各目标语音片段的起止时间。

一些实施例中，在获得各目标语音片段的起止时间之后，可以向相关人员(例如是，音视频审核人员或者摘录人员等)输出各目标语音片段的起止时间，使得相关人员根据各目标语音片段的起止时间对对应的目标语音片段进行审核或摘录。

另一些实施例中，在输出各目标语音片段的起止时间之前，还可以对目标语音片段进行进一步处理，例如是，合并处理、过滤处理等等。接下来结合步骤S406对该方案进行详细说明：

S406、根据各目标语音片段的第一时间信息，将时间连续的目标语音片段进行合并处理，获得待处理语音片段以及各待处理语音片段对应的第二时间信息。

图5为本公开实施例提供的语音识别方法的原理示意图二。如图5所示，将相邻的目标语音片段进行合并，例如，将片段4和片段5进行合并，从而获得待处理语音片段1，将片段7、片段8和片段9进行合并处理，获得待处理语音片段2，其中，未进行合并的片段作为单独的待处理语音片段，例如，片段1为待处理语音片段3。

应理解，在获取到目标语音片段的起止时间之后，相应的，也就知道了非目标人员的语音片段的起止时间。可选的，还可以按照相同的方法，根据非目标人员的语音片段的起止时间，将非目标人员的语音片段进行合并，例如，将图5中所示的片段2和片段3进行合并处理。

在实际应用中，由于同一特定人员的发言可能比较集中，相邻的目标语音片段可能均为该特定人员的语音片段，但同一信息对应于的音频数据可能位于不同的目标语音片段中，相比于逐一对目标语音片段进行审核或摘录，通过对合并后的待处理语音片段进行审核或摘录，可以防止遗漏重要信息，另外，通过合并处理，相比于逐一审核或摘录，也可以提升处理效率。

在一些实施例中，由于特定人员的发言时长是随机的，合并处理后的待处理语音片段的长度也不同，例如，待处理语音片段1(片段4、5)为两个anchor，待处理语音片段2(片段7、8、9)为3个anchor，待处理语音片段3(片段1)为1个anchor，由于较短的待处理语音片段中可用信息相对较少，可能会给后续的审核或摘录过程带来较大的干扰，从而降低审核或摘录的效率。

本实施例中，在合并处理后，还可以根据第一时间信息，获取各待处理语音片段的第二时间信息，其中，第二时间信息包括：各待处理语音片段的起止时间，和/或，各待处理语音片段的时长。

进一步的，根据待处理语音片段的时长与预设时长的大小关系确定目标过滤片段，例如，可以确定时长小于预设时长的待处理片段为目标过滤片段。

其中，预设时长可以根据经验设定，例如，预设时长可以为人耳可以识别的音频的最短时长，也可以为一个字符的发音时长，例如是，0.1秒、0.3秒、0.5秒等时长。

示例性的，以预设时长为0.2秒，每个anchor的长度为0.1秒为例，待处理语音片段1的时长为0.2秒，待处理语音片段2的时长为0.3秒，待处理语音片段3的时长为0.1秒，其中，待处理语音片段3的时长小于预设时长，也即将待处理语音片段3确定为目标过滤片段。

进一步的，将目标过滤片段进行过滤，并向相关人员输出过滤后的待处理语音片段，以使相关人员对过滤后的待处理语音片段进行审核或摘录。

仍以上述为例，本步骤中，将待处理语音片段3(即片段1)进行过滤，再向相关人员输出待处理语音片段2和待处理语音片段3对应的第二时间信息。

本实施例中，通过对时长较短的待处理语音片段进行过滤，可以进一步降低信息量较少的语音片段的干扰，进而提升审核或摘录效率。

接下来，结合图6、图7对上述实施例中的声纹识别模型的结构及其训练过程进行具体说明：

图6为本公开实施例提供的声纹识别模型的结构示意图。如图6所示，该声纹识别模型包括：第一卷积模块(Conv1D)、基于坐标注意力的残差模块(CA-Resnetblock)、自注意力机制(self-attention)、第二卷积模块(Conv2D)、注意统计池(Attentive StatisticsPooling，ASP)、全连接层(Fully Connected)以及循环损失函数模块(Circle loss)。

其中，第一卷积模块为1维卷积模块，第二卷积模块为2维卷积模块，均用于获取样本音频信号的声学特征的局部特征，通过上述两个卷积模块，可以使得声纹识别模型准确的提取声学特征中的局部特征。

基于坐标注意力的残差模块，用于获取第一卷积模块和第二卷积模块中的卷积通道的权重值。

本实施例中，通过基于坐标注意力的残差模块，相比于现有的残差模块，其可以更好的捕捉每个卷积通道之间的重要性关系，调节每个卷积通道对应的权重值，从而在训练过程中，使得声纹识别模型能够更好地学习对学习帮助较大的卷积通道，进而提升声纹识别模型的准确性。

自注意力机制，用于获取提取声学特征中的目标特征；注意统计池，用于将不定长的声学特征，聚合成定长的声学特征；全连接层，用于根据局部特征、目标特征和定长的声学特征，输出声学特征对应的声纹特征的识别结果。

循环损失函数模块，用于基于全连接层输出的识别结果，获取循环损失函数，其中，循环损失函数用于对初始声纹识别模型进行训练，获得目标声纹识别模型。

本实施例中，通过采用循环损失函数对声纹识别模型进行训练，可以减小同一类别中声纹特征之间的距离，并增加不同类别的声纹特征之间的距离，从而提升声纹识别模型的准确度。

接下来，结合具体实施例对上述声纹识别模型的训练过程进行详细说明：

图7为本公开实施例提供的声纹识别模型训练方法的流程示意图。如图7所示，该声纹识别模型的训练方法包括如下步骤：

S701、获取对应于目标人员的多个样本音频信号。

需要说明的是，对于样本音频信号的类型，本公开实施例不做具体限定，例如，其可以是自定义的样本数据集，也可以为公开数据集，例如VoxCeleb1、VoxCeleb2和cn-Celeb等等，此处不再一一示出。

S702、获取样本音频信号的声学特征。

其中，声学特征可以为MFCC特征，至于MFCC特征的提取方式，可参考现有技术的方案，此处不做赘述。

S703、基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型。

具体的，将样本音频信号的声学特征输入到如图6所示的声纹识别模型中进行迭代训练，基于全连接层和循环损失函数模块，获得每次训练得到的循环损失函数，通过该循环损失函数对模型的参数进行调节，当循环损失函数收敛时，确定当前训练得到的模型为目标声纹识别模型。

在一种可能的实施方式中，由于样本数据中的场景可能比较单一，会使得训练得到的目标声纹识别模型的准确度不足，但在声纹识别过程中，待识别语音信号中可能存在大量噪音信号，使得目标声纹识别模型无法准确识别。

有鉴于此，在本公开实施例中，还可以在初始样本音频信号中增加噪声数据，从而通过增加了噪声数据的样本音频信号对声纹识别模型进行训练，以提升目标声纹识别模型的识别能力，进一步提升识别结果的准确性。

具体的，上述步骤S701具体包括如下步骤：

(1)获取对应于目标人员的多个初始样本音频信号；

(2)在初始样本音频信号中增加噪声数据，获得对应于目标人员的多个样本音频信号。

一些实施例中，噪声数据可以为任意类型的噪声数据。

另一些实施例中，由于不同的目标人员所处的场景不同，该场景中所包含的真实噪声也不同，例如，若目标人员为领导人，音频获取场景为演讲场景，则该场景的真实噪声数据可能为：混响声音、相机快门声音等。

因此，本公开的一个实施例中，还可以根据目标人员的身份信息或者场景信息来确定噪音数据。

以身份信息为例，上述步骤(2)具体方案如下：

首先，获取目标人员的身份信息；

然后，根据初始样本音频信号所属的目标人员的身份信息，确定与身份信息对应的目标噪声数据；

具体的，根据身份信息与噪声数据的对应关系，确定该初始样本音频信号所属的目标人员对应的目标噪声数据。

最后，在初始样本音频信号中增加目标噪声数据，获得对应于目标人员的多个样本音频信号。

示例性的，在声纹识别模型训练前，首先确定目标人员的身份信息，再根据目标人员与噪声数据的对应关系，确定目标人员对应的噪声数据类型，例如，领导人员对应的噪声数据可以为混响声音、相机快门声音等类型的噪声数据；

进一步的，可以根据噪声数据的类型，在噪声数据库或者互联网中检索进行检索，进而获得混响声音和/或相机快门声音，并将获取到的混响声音和/或相机快门声音叠加在该初始样本音频信号中，以获得样本音频信号。

本方案中，通过在初始样本音频信号中增加噪声数据，再通过增加了噪声数据的样本音频信号对声纹识别模型进行训练，可以模拟发音现场的环境噪声，使得目标声纹识别模型具备从噪音环境中准确提取声纹特征的能力，进一步提升声纹识别结果的准确性。另外，通过目标人员的身份信息确定目标噪声数据的类型，使得添加的噪声数据更加符合实际的发音环境，可以进一步提升声纹识别模型的识别能力。

在实际应用中，由于不同目标人员之间的声纹特征不同，声纹特征相似度越高，声纹识别模型的识别难度越大，使得声纹识别模型在识别声纹特征相似度较高的音频信号时，很容易出现错识别的情况。

发明人发现，在训练过程中，样本音频信号的声纹特征之间的相似度越高，声纹识别模型的识别效果也越好。然而，在训练过程中，所采用的样本音频信号是随机的，若样本音频信号中的难样本(即相似度较高的样本)数量较少，则训练得到的声纹识别模型的识别效果较差。

有鉴于此，本公开创造性的提出了声纹识别模型的训练过程，以解决上述问题，接下来结合具体实施例对该过程进行详细说明：

(1)确定目标人员中S个第一目标人员；

其中，S个第一目标人员可以为所有目标人员中的任意人员。

对于样本音频数据的来源，本申请实施例不做限定，例如样本音频数据可以为公开数据集VoxCeleb1、VoxCeleb2和cn-Celeb中的所有数据(共包含10363个目标人员的语音数据，其中VoxCeleb1中包含1251个目标人员的语音数据，VoxCeleb2中包含6112个目标人员的语音数据，cn-Celeb中包含有3000个目标人员的语音数据)，接下来以此为例，对上述步骤进行举例说明：

首先，从公开数据集VoxCeleb1、VoxCeleb2和cn-Celeb中确定任意S个第一目标人员，例如是：第一目标人员R₁、第一目标人员R₂…第一目标人员R_S。

(2)针对每个第一目标人员，根据相似度矩阵，从多个目标人员中确定与第一目标人员的声纹特征相似度大于相似度阈值的N个第二目标人员。

其中，相似度矩阵用于指示不同目标人员之间的声纹特征相似度，至于相似度矩阵的获取方式，在后续实施例中示出。

本步骤中，对于每个第一目标人员，根据相似度矩阵，获取10362个目标人员(除该第一目标人员之外所有目标人员)中，与该第一目标人员的声纹特征相似度大于相似度阈值的N个第二目标人员，例如是：第二目标人员R₁'、第二目标人员R₂'…第二目标人员R_N'。

(3)基于循环损失函数，通过各第二目标人员对应的样本音频信号的声学特征，对初始声纹识别模型进行训练，获得目标声纹识别模型。

本步骤中，首先获取各第二目标人员对应的样本音频信号，其中，对于获取的各第二目标人员对应的样本音频信号的数量，本公开实施例不做具体限定。

一些实施例中，每个第二目标人员对应的样本音频信号可以为样本音频数据中的该第二目标人员的所有样本音频信号。示例性的，以第二目标人员R₁'、R₂'…R_N'为例，其对应的样本音频信号集合分别为：K₁、K₂…K_N，其中，K₁为所有样本音频信号中，第二目标人员R₁'的所有样本音频信号的集合，K₂为所有样本音频信号中，第二目标人员R₂'的所有样本音频信号的集合，K_N为所有样本音频信号中，第二目标人员R_N'的所有样本音频信号的集合，其中，K₁、K₂…K_N中样本音频信号的数量不同。

其他实施例中，在获取各第二目标人员对应的样本音频信号时，对于不同的第二目标人员，其获取的样本音频信号的数量相同，示例性的，仍以第二目标人员R₁'、R₂'…R_N'为例，其对应的样本音频信号的集合分别为：K₁、K₂…K_N，其中，K₁、K₂…K_N中样本音频信号的数量相同。

进一步的，基于循环损失函数，通过K₁、K₂…K_N中所有的样本音频信号对应的声学特征，对初始声纹识别模型进行训练，以获得目标声纹识别模型。

本实施例中，由于这N个第二目标人员的声纹特征与第一目标人员的声纹特征相似度均大于相似度阈值，因此，这N个第二目标人员的声纹特征的相似度较高，所以来自他们的样本音频信号的声纹特征也都较相似，也即K₁、K₂…K_N中的样本音频信号对应的声纹特征相似度较高。

因此，通过K₁、K₂…K_N中的样本音频信号对初始声纹识别模型进行训练时，可以使得模型不仅能拟合到简单的样本空间，还能兼顾到难样本空间，进而提升声纹识别模型对相似度较高的音频信号的识别能力。

另外，通过目标人员声纹特征的相似度矩阵，可以快速得出与第一目标人员的声纹特征相似度较高的第二目标人员，从而根据第二目标人员获得相似度较高的样本音频数据，此过程中，无需一一计算数据集中各样本音频数据之间的相似度，即可获得相似度较高的样本音频数据，其过程相对简单，可以进一步提升训练效率。

一些实施例中，可以通过如下步骤获得不同目标人员之间相似度矩阵：

(1)将目标人员对应的样本音频信号的声学特征输入至初始声纹识别模型中，获得初始声纹识别模型输出的目标人员对应的声纹特征中心；

具体的，将目标人员对应的样本音频信号的声学特征输入至初始声纹识别模型中，获取该初始声纹识别模型中全连接层的归一化参数W，确定归一化参数W的每一行即为一个目标人员的声纹特征中心。

(2)根据各目标人员对应的声纹特征中心，确定各目标人员之间的相似度矩阵。

具体的，根据如下公式得出各目标人员的声纹特征之间的相似度矩阵：

Similarity＝WW^T

其中，Similarity(i，j)表示第i个目标人员和第j个目标人员的声纹特征之间的相似度，W为每个目标人员的声纹特征中心。

本实施例中，由于初始声纹识别模型具备一定的声纹识别能力，通过其提取的声纹特征中心可以准确的表达目标人员的声纹特征，进而通过该声纹特征中心获取准确的相似度矩阵，以获得相似度较高的样本音频数据，可以提升声纹识别模型对高相似度的语音信号的识别能力。

另外，相比于一一获取每条样本音频信号之间的相似度，本方案中，由于声纹识别模型提取声纹特征中心的效率较高，进而可以快速的获取相似度较高的样本音频信号，最终提升训练效率。

在实际应用中，样本音频信号中可能包括多种类型的样本，例如，从语言类型来分，可以包括：中文样本、英文样本或者其他语种的样本等，从目标人员来分，可以包括：女性目标人员的音频样本、男性目标人员的音频样本，至于其他的分类方式，此处不再一一赘述。

由于一个样本类型中不同样本的数量不同，例如，在公开数据集VoxCeleb1、VoxCeleb2和cn-Celeb中，VoxCeleb1和VoxCeleb2为英文数据集，cn-Celeb为中文数据集，这就使得英文样本的数量远大于中文样本数量，若直接采用该公开数据集进行训练，由于中文样本的数量较少，声纹特征的特征空间表达能力受限，会使得训练得到的声纹识别模型识别英文音频信号的能力较高，而识别中文音频信号的能力较差，使得对中文音频信号的识别结果不够准确。

有鉴于此，在上述步骤S703的声纹识别模型的训练过程中，本公开实施例创造性的提出如下两种实施方式，以解决上述问题：

以样本音频信号包括第一样本集(例如是英文样本集)和第二样本集(例如是中文样本集)为例，其中，第一样本集中的样本音频信号数量大于第二样本集的样本音频信号数量，第一样本集对应的目标人员不同于第二样本集对应的目标人员；

方法1：首先，对于第i次训练，通过第一样本集中M1个第一样本音频信号的声学特征和第二样本集中M2个第二样本音频信号的声学特征，对第i-1声纹识别模型进行训练，获得第i循环损失函数以及第i声纹识别模型，其中，第i-1声纹识别模型是对初始声纹识别模型进行i-1次训练得到的；

进一步的，确定循环损失函数收敛时对应的声纹识别模型为目标声纹识别模型。

应理解，M2的数量应当小于或等于第二样本集中的总样本数量，M1和M2数量差应当小于或等于预设值，以将每次模型训练过程中，不同样本之间(例如，英文样本和中文样本)的差距保持在合理范围内，从而避免声纹识别模型对于不同样本的识别能力不同的情况。

其中，该预设值可以根据经验设定，例如、0、500、1000等等。优选的，预设值可以设置为0，即采用相同数量的第一样本音频信号和第二样本音频信号进行模型训练，以使得声纹识别模型对不同样本的识别能力相同，至于M1和M2的具体数值，本公开实施例不做限定。

示例性的，以公开数据集为VoxCeleb1、VoxCeleb2和cn-Celeb、M1和M2均为3000为例(即第一样本集为VoxCeleb1+VoxCeleb2，第二样本集为cn-Celeb)，在第一次训练中，从第一样本集中获取任意3000个第一样本音频信号(1～3000)，从第二样本集中获取3000个第二样本音频信号(1～3000)，通过第一样本音频信号(1～3000)和第二样本音频信号(1～3000)对初始声纹识别模型进行第一次训练，获得第二声纹识别模型和第二循环损失函数；

在第二次训练过程中，从第一样本集中获取3000个第一样本音频信号(3001～-6000)，从第二样本集中获取3000个第二样本音频信号(1～3000)，通过第一样本音频信号(3001～6000)和第二样本音频信号(1～3000)对第二声纹识别模型进行训练，获得第三声纹识别模型和第三循环损失函数。

按上述方法进行迭代训练，直到输出的循环损失函数收敛时，确定该循环损失函数对应的声纹识别模型为目标声纹识别模型，至于其他轮次的训练，此处不再一一赘述。

需要说明的是，上述训练过程以M2为第二样本集中的总样本数量为例示出，当M2小于第二样本集中的总样本数量时，还可以按照从第一样本集中获取第一样本音频信号的方式，循环取用第二样本音频信号，例如，当M2为1000时，在第一次训练中，第二样本音频信号为(1～1000)；在第二次训练中，第二样本音频信号为(1001～2000)；在第三次训练过程中，第二样本音频信号为(2001～3000)，在第四次训练中，第二样本音频信号为(1～1000)…。

本实施例中，通过上述训练方式，由于每次训练过程中使用的第一样本音频信号和第二样本音频信号的数量差小于等于预设值，因此，可以将不同样本之间(例如，英文样本和中文样本)的差距保持在合理范围内，解决由于某一样本数量较小，导致声纹特征的特征空间表达能力受限的技术问题，避免声纹识别模型对于不同样本识别能力不同的情况，进而提升目标声纹识别模型的性能。另外，还可以避免由于某一样本数据较少时，使得声纹识别模型产生过拟合的现象，从而进一步提升模型性能。

方法2：基于循环损失函数，通过第一样本集中样本音频信号的声学特征对对初始声纹识别模型进行训练，获得第一声纹识别模型。

基于循环损失函数，通过第二样本集中样本音频信号的声学特征对第一声纹识别模型进行训练，获得目标声纹识别模型。

示例性的，仍以第一样本集为VoxCeleb1+VoxCeleb2，第二样本集为cn-Celeb为例，首先基于循环损失函数，通过VoxCeleb1和VoxCeleb2中的所有样本语音数据进行迭代训练，得出每次训练得到的模型和循环损失函数值，直到循环损失函数值收敛时，确定循环损失函数值对应的模型为第一声纹识别模型。

进一步的，通过cn-Celeb中的所有样本语音数据对第一声纹识别模型进行训练，得出每次训练得到的模型和循环损失函数值，直到循环损失函数值收敛时，确定循环损失函数值对应的模型为目标声纹识别模型。

本实施例中，通过第一样本集中的样本音频信号进行训练得到的第一声纹识别模型，具备了第一样本音频信号的识别能力，再通过第二样本集中的样本音频信号对第一声纹识别模型，可以进一步使得该第一声纹识别模型具备第二样本音频信号的识别能力，进而获得具备两种样本音频信号识别能力的声纹识别模型，可以避免声纹识别模型对于不同样本识别能力不同的情况，进而保证目标声纹识别模型的性能。

接下来，结合图8、图9对上述实施例中的语音识别模型的结构及其训练过程进行具体说明：

图8为本公开实施例提供的语音识别模型的结构示意图。如图8所示，该语音识别模型包括：卷积神经网络、循环神经网络、自注意力机制以及全连接层；

其中，卷积神经网络用于提取声学特征中的局部特征，循环神经网络用于提取声学特征中的全局特征，自注意力机制用于提取声学特征中的目标特征，全连接层用于根据局部特征、全局特征和目标特征，输出待识别语音信号包含的各语音片段为目标语音片段的置信度。

本实施例中，通过卷积神经网络，能够快速提取声学特征中的局部特征，从而提升模型训练效率。然而，由于卷积神经网络的感受野较小，难以捕捉语音信号中的全局信号，因此，本方案中加入循环神经网络，从而更好地捕捉全局特征，以提升语音识别模型的性能。

另外，通过引入自注意力机制层，使得模型能够学习到哪些时间片断和哪些频率范围的重要性，并通过加权平均得到最终有利于分类的特征向量，进一步提升语音识别模型的性能。

图9为本公开实施例提供的语音识别模型的训练方法的流程示意图。如图9所示，该训练方法包括如下步骤：

S901、获取对应于目标人员的多个样本音频信号。

S902、获取样本音频信号的声学特征。

需要说明的是，步骤S901～S902由于图7所示实施例中的步骤S701-S702类似，具体方案可参考上述实施例，此处不做赘述。

一些实施例中，在训练声纹识别模型和语音识别模型中，由于都采用了样本音频信号的声学特征，在实际应用中，若需要训练上述两种模型，可以将获取的样本音频信号的声学特征进行复用，即两个模型的训练过程采用同一样本音频信号的声学特征进行训练，可以简化训练过程，提升训练效率。

S903、将样本音频信号的声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的样本音频信号对应的声纹特征。

其中，目标声纹识别模型是基于图7所示的实施例进行训练得到的，其训练过程可参考上述实施例，此处不做赘述。

S904、根据声纹特征获得声学特征的标签数据。

其中，声学特征的标签数据用于指示声学特征所属的目标人员。

应理解，声学特征的标签数据的获取方式有多种，本公开实施例不做具体限定，一方面，可以采用人工标注的方式对声学特征进行标注，以标注每个声学特征所述的目标人员，从而获取声学特征的标签数据。

然而，通过人工标注的方式效率较低，有鉴于此，本公开实施例提供一种自动化标注方式，以解决上述问题，下面结合具体步骤对上述步骤S904进行详细说明：

具体的，上述步骤S904及具体包括如下步骤：

(1)对声纹特征进行聚类处理，获取每个声纹特征所属的类别以及每个类别的聚类中心；

(2)根据聚类中心的标签数据，确定每个类别中声纹特征的标签数据；

(3)根据声纹特征的标签数据，获得声学特征的标签数据。

本实施例中，可以采用聚类算法对声纹特征进行聚类，聚类算法例如是，k-means算法、DBSCAN算法、OPTICS算法等等，至于利用上述各聚类算法进行聚类获得每个声纹特征所属的类别以及每个类别的聚类中心的具体方式，可参考现有技术，此处不再赘述。

为方便理解，请参考图10，图10为本公开实施例提供的声纹特征的聚类结果示意图。如图10所示，在对声纹特征进行聚类处理后，共得到3个类别:类别A、类别B和类别C，其中，类别A的聚类中心为cent-A，类别B的聚类中心为cent-B，类别C的聚类中心为cent-C，同时获取每个聚类中心的标签数据。

对于获取每个聚类中心的标签数据的方式，本申请实施例也不做具体限定，例如，可以通过试听的方式，人工确定聚类中心的标签数据，即获取到每个类别的聚类中心后，试听该聚类中心对应的音频信号，从而确定该聚类中心对应的目标人员，至于其他方式，此处不再一一列举。

其次，计算每个类别中的声纹特征与聚类中心的距离(例如是欧式距离或者cosine距离等)。例如，确定类别A中每个声纹特征与cent-A的距离。

进一步的，确定距离小于或等于预设距离的目标声纹特征，并确定目标声纹特征的标签数据为聚类中心的标签数据。示例性的，以cent-A为例，若cent-A的标签数据为：目标人员A，则确定与cent-A距离小于预设距离的目标声纹特征的标签数据均为目标人员A，并将距离大于预设距离的声纹特征的标签数据设置为非目标人员。

更进一步的，根据声纹特征与声学特征的对应关系，确定目标声纹特征对应的声学特征，并确定目标声学特征的标签数据为该声学特征的标签数据。

S905、通过声学特征的标签数据对初始语音识别模型进行训练，得到目标语音识别模型。

本步骤中，将声学特征的标签数据输入到初始语音识别模型中，进行训练，获得每次训练输出的损失函数，确定损失函数收敛时对应的模型为语音识别模型。

本实施例中，在语音识别模型的训练过程中，通过对声纹特征进行聚类，来获得多个类别的聚类中心，再根据聚类中心的标签数据，确定该类别中各声学特征的标签数据，在此过程中，只需要确定聚类中心的标签数据即可，相比于人工标注，无需试听所有的声学特征，可以减少人力投入、提升模型训练效率，且此方法的标注数据的结果也更加准确。另外，通过训练好的声纹识别模型来获取声纹特征，其提取的声纹特征可以准确的表达目标人员的声纹特征，使得聚类结果的准确性较高。

一些实施例中，若样本音频信号中的非目标人员的音频信号较多，且非目标人员的音频信号相似，在聚类时，可能将此类非目标人员的音频信号对应的声纹特征聚为一类，则通过此类音频信号对语音识别模型进行训练得到的语音识别模型不够准确。

有鉴于此，可以通过试听的方式对每个类别中的部分样本音频信号进行验证，从而获得该类别中的声纹特征是否为非目标人员的音频信号对应的声纹特征，若是，则过滤掉该类音频信号，以提升训练得到的语音识别模型的性能。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图11对本公开示例性实施方式的存储介质进行说明。

图11为本公开实施例提供的程序产品示意图，参考图11所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的方法和介质之后，接下来，参考图12、图13和图14对本公开示例性实施方式的装置进行说明。

图12为本公开实施例提供的语音识别装置的结构示意图。如图12所示，该语音识别装置1200包括：

获取模块1201，用于获取待识别语音信号的声学特征；

确定模块1202，用于基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度，其中，目标语音片段为目标人员发出的语音信号，语音识别模型是基于目标人员的样本音频信号对应的声学特征进行训练得到的；

识别模块1203，用于根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。

在一种可能的实施方式中，语音识别模型是基于目标人员的声学特征进行如下训练得到的：

获取对应于目标人员的多个样本音频信号的声学特征；将声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的声学特征对应的声纹特征；根据声纹特征获得声学特征的标签数据，声学特征的标签数据用于指示声学特征所属的目标人员；通过声学特征的标签数据对初始语音识别模型进行训练，得到语音识别模型。

在一种可能的实施方式中，识别模块1203具体用于：根据置信度大于或等于置信度阈值的第一语音片段，识别待识别语音信号中的目标语音片段；或者，确定置信度小于置信度阈值的语音片段不是目标语音片段。

在一种可能的实施方式中，识别模块1203具体用于：获取置信度大于置信度阈值的第一语音片段；基于第一语音片段的声学特征，获取第一语音片段的声纹特征；根据声纹特征，识别第一语音片段是否为目标语音片段。

在一种可能的实施方式中，识别模块1203具体用于：将第一语音片段的声学特征输入目标声纹识别模型，获取第一语音片段的声纹特征，其中，目标声纹识别模型是基于目标人员的声纹特征进行训练得到的。

在一种可能的实施方式中，识别模块1203具体用于：将声纹特征与数据库中的声纹特征进行对比，数据库包含目标人员的声纹特征；若确定声纹特征与数据库中至少一个声纹特征的相似度大于或等于相似度阈值，则确定第一语音片段为目标语音片段；若确定声纹特征与数据库中声纹特征的相似度小于相似度阈值，则确定第一语音片段不为目标语音片段。

在一种可能的实施方式中，确定模块1202还用于：确定待识别语音信号中各目标语音片段的第一时间信息，第一时间信息包括：各目标语音片段的起止时间。

在一种可能的实施方式中，语音识别装置1200，还包括：处理模块1204，用于根据各目标语音片段的第一时间信息，将时间连续的目标语音片段进行合并处理，获得待处理语音片段以及各待处理语音片段对应的第二时间信息，第二时间信息包括：各待处理语音片段的起止时间，和/或，各待处理语音片段的时长。

其中，卷积神经网络用于提取声学特征中的局部特征；循环神经网络用于提取声学特征中的全局特征；自注意力机制用于提取声学特征中的目标特征；全连接层用于根据局部特征、全局特征和目标特征，输出待识别语音信号包含的各语音片段为目标语音片段的置信度。

本公开实施例提供的上述语音识别装置，可以实现前述语音识别方法实施例中的各个过程，并达到相同的功能和效果，此处不做赘述。

图13为本公开实施例提供的模型训练装置的结构示意图一。如图13所示，该模型训练装置1300包括：

获取模块1301，用于获取对应于目标人员的多个样本音频信号，获取样本音频信号的声学特征；

训练模块1302，用于基于循环损失函数，通过样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，训练模块1302具体用于：确定目标人员中S个第一目标人员；针对每个第一目标人员，根据相似度矩阵，从多个目标人员中确定与第一目标人员的声纹特征相似度大于相似度阈值的N个第二目标人员，相似度矩阵用于指示不同目标人员之间的声纹特征相似度，其中，S和N均为大于等于1的整数；基于循环损失函数，通过各第二目标人员对应的样本音频信号的声学特征，对初始声纹识别模型进行训练，获得目标声纹识别模型。

在一种可能的实施方式中，模型训练装置1300，还包括：确定模块1303；

获取模块1301还用于：将目标人员对应的样本音频信号的声学特征输入至初始声纹识别模型中，获得初始声纹识别模型输出的目标人员对应的声纹特征中心；

确定模块1303，用于根据各目标人员对应的声纹特征中心，确定各目标人员的声纹特征之间的相似度；根据各目标人员的声纹特征之间的相似度，确定各目标人员之间的相似度矩阵。

在一种可能的实施方式中，获取模块1301具体用于：获取对应于目标人员的多个初始样本音频信号，在初始样本音频信号中增加噪声数据，获得对应于目标人员的多个样本音频信号。

在一种可能的实施方式中，获取模块1301具体用于：获取目标人员的身份信息；根据初始样本音频信号所属的目标人员的身份信息，确定与身份信息对应的目标噪声数据；在初始样本音频信号中增加目标噪声数据，获得对应于目标人员的多个样本音频信号。

训练模块1302具体用于：对于第i次训练，通过第一样本集中M1个第一样本音频信号的声学特征和第二样本集中M2个第二样本音频信号的声学特征，对第i-1声纹识别模型进行训练，获得第i循环损失函数以及第i声纹识别模型，第i-1声纹识别模型是对初始声纹识别模型进行i-1次训练得到的；确定循环损失函数收敛时对应的声纹识别模型为目标声纹识别模型；

训练模块1302具体用于：基于循环损失函数，通过第一样本集中样本音频信号的声学特征对对初始声纹识别模型进行训练，获得第一声纹识别模型；

本公开实施例提供的上述模型训练装置，可以实现前述声纹识别模型的训练方法实施例中的各个过程，并达到相同的功能和效果，此处不做赘述。

图14为本公开实施例提供的模型训练装置的结构示意图二。如图14所示，该模型训练装置1400包括：

获取模块1401，用于获取对应于目标人员的多个样本音频信号，获取样本音频信号的声学特征；

声纹识别模块1402，用于将样本音频信号的声学特征输入目标声纹识别模型，获得目标声纹识别模型输出的样本音频信号对应的声纹特征，目标声纹识别模型为采用如上述实施例中关于声纹识别模型的训练方法训练得到的；

标签数据获取模块1403，用于根据声纹特征获得声学特征的标签数据，声学特征的标签数据用于指示声学特征所属的目标人员；

训练模块1404，用于通过声学特征的标签数据对初始语音识别模型进行训练，得到语音识别模型。

在一种可能的实施方式中，标签数据获取模块1403具体用于：对声纹特征进行聚类处理，获取每个声纹特征所属的类别以及每个类别的聚类中心；根据聚类中心的标签数据，确定每个类别中声纹特征的标签数据；根据声纹特征的标签数据，获得声学特征的标签数据。

本公开实施例提供的上述模型训练装置，可以实现前述语音识别模型的训练方法实施例中的各个过程，并达到相同的功能和效果，此处不做赘述。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图15对本公开示例性实施方式的计算设备进行说明。应理解，图15显示的计算设备1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图15为本公开实施例提供的计算设备的结构示意图。如图15所示，计算设备1500以通用计算设备的形式表现。计算设备1500的组件可以包括但不限于：上述至少一个处理单元1501、上述至少一个存储单元1502，连接不同系统组件(包括处理单元1501和存储单元1502)的总线1503。

总线1503包括数据总线、控制总线和地址总线。

存储单元1502可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1512和/或高速缓存存储器1522，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)1532。

存储单元1502还可以包括具有一组(至少一个)程序模块1542的程序/实用工具1552，这样的程序模块1542包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1500也可以与一个或多个外部设备1504(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1505进行。并且，计算设备1500还可以通过网络适配器1506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图15所示，网络适配器1506通过总线1503与计算设备1500的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了定时更新装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音识别方法，包括：

获取待识别语音信号的声学特征；

基于语音识别模型和所述声学特征，确定所述待识别语音信号包含的各语音片段为目标语音片段的置信度，其中，所述目标语音片段为目标人员发出的语音信号，所述语音识别模型是基于所述目标人员的样本音频信号对应的声学特征进行训练得到的；

根据各语音片段的置信度，识别所述待识别语音信号中的目标语音片段。

2.根据权利要求1所述的语音识别方法，所述语音识别模型是基于所述目标人员的声学特征进行如下训练得到的：

获取对应于目标人员的多个样本音频信号的声学特征；

将所述声学特征输入目标声纹识别模型，获得所述目标声纹识别模型输出的所述声学特征对应的声纹特征；

根据所述声纹特征获得所述声学特征的标签数据，所述声学特征的标签数据用于指示声学特征所属的目标人员；

通过所述声学特征的标签数据对初始语音识别模型进行训练，得到所述语音识别模型。

3.根据权利要求1所述的语音识别方法，所述根据所述置信度，识别所述待识别语音信号中的目标语音片段，包括：

根据所述置信度大于或等于置信度阈值的第一语音片段，识别所述待识别语音信号中的目标语音片段；

或者，确定置信度小于所述置信度阈值的语音片段不是目标语音片段。

4.根据权利要求3所述的语音识别方法，所述根据所述置信度大于或等于置信度阈值的第一语音片段，识别所述待识别语音信号中的目标语音片段，包括：

获取所述置信度大于所述置信度阈值的第一语音片段；

基于所述第一语音片段的声学特征，获取所述第一语音片段的声纹特征；

根据所述声纹特征，识别所述第一语音片段是否为目标语音片段。

5.根据权利要求4所述的语音识别方法，所述基于所述第一语音片段的声学特征，获取所述第一语音片段的声纹特征，包括：

将所述第一语音片段的声学特征输入目标声纹识别模型，获取所述第一语音片段的声纹特征，其中，所述目标声纹识别模型是基于所述目标人员的声纹特征进行训练得到的。

6.根据权利要求4所述的语音识别方法，所述根据所述声纹特征，识别所述第一语音片段是否为目标语音片段，包括：

将所述声纹特征与数据库中的声纹特征进行对比，所述数据库包含所述目标人员的声纹特征；

若确定所述声纹特征与所述数据库中至少一个声纹特征的相似度大于或等于相似度阈值，则确定所述第一语音片段为目标语音片段；

若确定所述声纹特征与所述数据库中声纹特征的相似度小于所述相似度阈值，则确定所述第一语音片段不为目标语音片段。

7.根据权利要求1至6任一项所述的语音识别方法，还包括：

确定所述待识别语音信号中各所述目标语音片段的第一时间信息，所述第一时间信息包括：各所述目标语音片段的起止时间。

8.根据权利要求7所述的语音识别方法，还包括：

根据各所述目标语音片段的第一时间信息，将时间连续的所述目标语音片段进行合并处理，获得待处理语音片段以及各待处理语音片段对应的第二时间信息，所述第二时间信息包括：各所述待处理语音片段的起止时间，和/或，各所述待处理语音片段的时长。

9.根据权利要求1至6中任一项所述的语音识别方法，所述语音识别模型包括：卷积神经网络、循环神经网络、自注意力机制以及全连接层；

所述卷积神经网络用于提取所述声学特征中的局部特征；

所述循环神经网络用于提取所述声学特征中的全局特征；

所述自注意力机制用于提取所述声学特征中的目标特征；

所述全连接层用于根据所述局部特征、所述全局特征和所述目标特征，输出所述待识别语音信号包含的各语音片段为目标语音片段的置信度。

10.一种模型训练方法，包括：

获取对应于目标人员的多个样本音频信号；

获取所述样本音频信号的声学特征；

基于循环损失函数，通过所述样本音频信号的声学特征对初始声纹识别模型进行训练，获得目标声纹识别模型。