CN112633381B

CN112633381B - 音频识别的方法及音频识别模型的训练方法

Info

Publication number: CN112633381B
Application number: CN202011556574.9A
Authority: CN
Inventors: 赵情恩; 曾新贵; 熊新雷; 陈蓉; 肖岩; 李旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-09-01
Anticipated expiration: 2040-12-24
Also published as: CN112633381A

Abstract

本申请公开了音频识别的方法及音频识别模型的训练方法，涉及人工智能、深度学习、语音识别领域。具体实现方案为：获取目标音频的帧级别的特征向量；根据目标音频的帧级别的特征向量，获取目标音频的句级别的特征向量；根据目标音频的句级别的特征向量，确定目标音频中的发声人的性别。本申请通过目标音频的帧级别的特征向量和句级别的特征向量，能够更加准确的识别出目标音频中的发声人的性别。

Description

音频识别的方法及音频识别模型的训练方法

技术领域

本申请涉及计算机技术领域，尤其涉及工智能、深度学习、语音识别领域。

背景技术

在有关声纹技术的应用中，通常不同的业务领域会基于自身业务需求相关的数据构建音频识别模型。而不同业务领域之间由于数据存在一定的差异性，因此各业务领域的音频识别模型无法做到跨领域的兼容使用，从而导致音频识别模型的鲁棒性较差。

发明内容

本申请提供了一种音频识别的方法及音频识别模型的训练方法。

根据本申请的一方面，提供了一种音频识别的方法，包括：

获取目标音频的帧级别的特征向量；

根据目标音频的帧级别的特征向量，获取目标音频的句级别的特征向量；

根据目标音频的句级别的特征向量，确定目标音频中的发声人的性别。

根据本申请的另一方面，提供了一种音频识别模型的训练方法，包括：

将预处理的第一音频样本和第二音频样本输入初始模型，利用初始模型获取第一音频样本和第二音频样本的帧级别的特征向量；其中，第一音频样本属于第一业务领域，第二音频样本属于第二业务领域，且第二音频样本包括已标注的性别标签；

根据第一音频样本和第二音频样本的帧级别的特征向量，利用初始模型获取第一音频样本和第二音频样本的句级别的特征向量；

根据第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量，对初始模型进行迭代更新，以得到音频识别模型，音频识别模型用于识别第一业务领域的音频中的发声人的性别。

根据本申请的另一方面，提供了一种音频识别的装置，包括：

第一获取模块，用于获取目标音频的帧级别的特征向量；

第二获取模块，用于根据目标音频的帧级别的特征向量，获取目标音频的句级别的特征向量；

确定模块，用于根据目标音频的句级别的特征向量，确定目标音频中的发声人的性别。

根据本申请的另一方面，提供了一种音频识别模型的训练装置，包括：

第一获取模块，用于将预处理的第一音频样本和第二音频样本输入初始模型，利用初始模型获取第一音频样本和第二音频样本的帧级别的特征向量；其中，第一音频样本属于第一业务领域，第二音频样本属于第二业务领域，且第二音频样本包括已标注的性别标签；

第二获取模块，用于根据第一音频样本和第二音频样本的帧级别的特征向量，利用初始模型获取第一音频样本和第二音频样本的句级别的特征向量；

优化模块，用于根据第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量，对初始模型进行迭代更新，以得到音频识别模型，音频识别模型用于识别第一业务领域的音频中的发声人的性别。

根据本申请的另一方面，提供了一种电子设备，电子设备的功能可以通过硬件实现，也可以通过硬件执行响应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，电子设备的结构中包括处理器和存储器，存储器用于存储支持电子设备执行上述音频识别的方法和/或音频识别模型的训练方法的程序，处理器被配置为用于执行存储器中存储的程序。电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，用于存储电子设备及电子设备所用的计算机软件指令，其包括用于执行上述音频识别的方法和/或音频识别模型的训练方法所涉及的程序。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述音频识别的方法和/或音频识别模型的训练方法和/或音频识别模型的训练方法。

本申请通过目标音频的帧级别的特征向量和句级别的特征向量，能够更加准确的识别出目标音频中的发声人的性别。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的音频识别方法的实现流程示意图；

图2是根据本申请另一实施例的音频识别的方法的实现流程示意图；

图3是根据本申请另一实施例的音频识别的方法的实现流程示意图；

图4是根据本申请实施例的音频识别模型的训练方法的实现流程示意图；

图5是根据本申请实施例的音频识别模型的训练方法的实现流程示意图；

图6是根据本申请实施例的音频识别模型的训练方法的实现流程示意图；

图7是根据本申请实施例的音频识别模型的训练方法的实现流程示意图；

图8是根据本申请实施例的音频识别的装置的结构示意图；

图9是根据本申请实施例的音频识别模型的训练装置的结构示意图；

图10是根据本申请实施例的音频识别模型的结构示意图；

图11是用来实现本申请实施例的音频识别的方法和/或音频识别模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本申请的实施例，如图1所示，本申请实施例提供了一种音频识别的方法，包括：

S10：获取目标音频的帧级别的特征向量。

目标音频可以理解为某一个业务领域(例如，银行、酒店、餐饮、保险等)对应的音频。目标音频可以是音频多媒体资源中的音频，也可以是视频多媒体资源中的音频。

目标音频的帧级别的特征向量，可以理解为将目标音频划分为多个音频帧，并且提取多个音频帧的特征向量。其中，一个音频帧的特征向量可以包含多个维度的特征向量。

帧级别的特征向量对应的音频帧的长度可以根据需要进行选择。也即是说，可以根据预设的划分规则对目标音频进行划分，划分出的各音频帧的长度可以相同也可以不同。

S11：根据目标音频的帧级别的特征向量，获取目标音频的句级别的特征向量。

目标音频的句级别的特征向量，可以理解为以目标音频中的句子为单位所提取的特征向量。由于句子是由多个音频帧构成的，因此根据组成句子的音频帧的特征向量即可得到目标音频的句级别的特征向量。

S12：根据目标音频的句级别的特征向量，确定目标音频中的发声人的性别。

目标音频中的发声人，可以理解为在目标音频中进行过说话的人。

发声人的性别可以根据目标音频中表征同一个人的所有句级别的特征向量确定。也可以根据目标音频中表征其他人的句级别的特征向量辅助确定。

句级别的特征向量的数量和维度可以根据需要进行选择和调整，确保能够唯一确定出该发声人的性别即可。

在本实施例中，通过目标音频的帧级别的特征向量和句级别的特征向量，能够更加准确的识别出目标音频中的发声人的性别。

在一种实施方式中，如图2所示，本实施方式的音频识别的方法包括上述步骤S10至S12，其中，步骤S10：获取目标音频的帧级别的特征向量，可以进一步包括：

S21：根据预设划分规则，将目标音频划分为多个音频帧。

预设划分规则可以理解为需要以多长时间为单位对目标音频进行切分。具体的预设划分规则可以根据需要进行选择和调整，在此不做具体的限定。

S22：根据获取的多个音频帧的特征向量，从多个音频帧中确定目标音频帧。

由于各个音频帧中包含的信息不同，且过多的音频帧反而会影响后续计算难度和准确度，因此需要利用注意力机制，基于各个音频帧的特征向量，从多个音频帧中捕获具有能够表征性别的重要特征的目标音频帧。

具体的注意力机制可以根据需要进行选择和调整，也即是说，所需关注的特征向量可以根据业务领域等因素，进行调整。

S23：对目标音频帧的第一特征向量进行统计池化，得到目标音频的帧级别的特征向量。

具体的统计池化操作可以是基于各个目标音频帧的第一特征向量计算平均值。可以是从各个目标音频帧的第一特征向量中确定最大值。还可以是从各个目标音频帧的第一特征向量中确定最小值。

得到的目标音频的帧级别的特征向量，至少能够表征与发声人性别有关的内容。

在本实施例中，通过获取目标音频帧，可以更加准确的得到表征性别的帧级别的特征向量。

在一种实施方式中，如图3所示，本实施方式的音频识别的方法包括上述步骤S10至S12，其中，步骤S11：根据目标音频的帧级别的特征向量，获取目标音频的句级别的特征向量，可以进一步包括：

S31：根据目标音频的帧级别的特征向量，获取构成目标音频的多个子句的特征向量。其中，子句由至少一个音频帧构成，句子由至少一个子句构成。

S32：根据多个子句的特征向量，获取目标音频的句级别的特征向量。

得到的目标音频的句级别的特征向量，至少能够表征与发声人性别有关的内容。

在本实施例中，基于帧级别的特征向量，能够获取到更加准确的句级别的特征向量。

在一个示例中，当需要对银行业务领域中的客服电话音频数据进行识别时，具体识别方法包括：

按预设切分规则，将客服电话音频切分为多个音频帧；

提取各个音频帧的特征向量；

根据各个音频帧的特征向量，从各个音频帧中确定出多个目标音频帧；

对各个目标音频帧进行统计池化，确定客服电话音频的帧级别的特征向量；

根据客服电话音频的帧级别的特征向量，获取构成客服电话音频的多个子句的特征向量；

根据多个子句的特征向量，获取客服电话音频的句级别的特征向量；

根据客服电话音频的句级别的特征向量，确定客服电话音频中的一个或多个发声人的性别。

根据本申请的实施例，如图4所示，本申请实施例提供了一种音频识别模型的训练方法，包括：

S40：将预处理的第一音频样本和第二音频样本输入初始模型，利用初始模型获取第一音频样本和第二音频样本的帧级别的特征向量。其中，第一音频样本属于第一业务领域，第二音频样本属于第二业务领域，且第二音频样本包括已标注的性别标签。

预处理的第一音频样本和第二音频样本，可以理解为通过MFCC(Mel-FrequencyCepstral Coefficients，梅尔频率倒谱系数)、PLP(Perceptual linear predictive，感知线性预测)、Fbank(FilterBank，滤波器)、FFT(ast Fourier transform，快速傅立叶变换)等方法进行过特征向量提取的音频样本。

第一音频样本可以理解为需要进行性别识别的目标业务领域的音频。第二音频样本可以理解为另一业务领域的音频，且该音频中已经标注了各个发声人的音频对应的性别，即包含有性别标签。

初始模型可以为各层网络结构中的权重和参数未调优处于初始化状态的模型。初始模型被配置的具体结构可以根据需要进行选择和调整，只要能够实现对音频样本进行帧级别的特征向量提取即可。

S41：根据第一音频样本和第二音频样本的帧级别的特征向量，利用初始模型获取第一音频样本和第二音频样本的句级别的特征向量。

初始模型被配置的具体结构可以根据需要进行选择和调整，只要能够实现基于音频样本的帧级别的特征向量得到句级别的特征向量即可。

S42：根据第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量，对初始模型进行迭代更新，以得到音频识别模型。音频识别模型用于识别第一业务领域的音频中的发声人的性别分布概率、性别分布结果或确认性别。

对初始模型进行迭代更新，可以理解为对模型的各层网络结构中的参数和权重往复进行了多次调整，直至初始模型的损失函数收敛。具体的迭代更新方式可以参考现有技术中神经网络模型的训练方式。

本实施例中由于利用两个业务领域的音频样本对模型进行训练，且利用了两个业务领域的音频样本的帧级别特征和句级别特征，因此可以使得模型通过已标注的第二业务领域的音频样本和少量的目标业务领域的样本，即可实现模型性别识别应用领域的迁移。例如，当保险业务领域应用了本申请实施例的模型架构的音频识别模型后，需要再将该音频识别模型应用于银行业务领域时，在原有保险业务领域对应的音频识别模型的基础上，通过已标注的保险业务领域音频和少量的无标注的银行业务领域的音频，即可实现将保险业务领域对应的音频识别模型通过训练迁移为银行业务领域对应的音频识别模型。也即是说，原有保险业务领域对应的音频识别模型通过优化后，可以直接应用于银行业务领域，并对银行业务领域的音频的发声人的性别进行准确的识别。本申请的模型训练方式由于目标业务领域的未标注音频样本利用的较少，因此训练成本低。同时提升了音频识别模型的鲁棒性，降低了音频识别模型跨领域应用时的优化成本。同时还克服了对目标业务领域的音频样本的依赖性，解决了数据保密性高的业务领域，无法获取到大量训练所需的音频样本的问题。

本实施例还可以实现在仅有第二业务领域的音频样本标注有性别标签的情况下，使第一业务领域的音频样本的性别识别分类结果达到最优。

在一种实施方式中，如图5所示，本实施方式的音频识别模型的训练方法包括上述步骤S40至S42。初始模型包括第一网络和第二网络，第一网络被配置为包括第一双向门控循环单元(BIGRU，bidirectional gated recurrent unit)、第一注意力层(attention)和第一统计池化层(statistics pooling)，第二网络被配置为包括第一双向门控循环单元、第二注意力层和第二统计池化层。其中，步骤S40：将预处理的第一音频样本和第二音频样本输入初始模型，利用初始模型获取第一音频样本和第二音频样本的帧级别的特征向量，可以进一步包括：

S51：将预处理的第一音频样本输入第一双向门控循环单元，获取第一音频样本的多个第一音频帧的特征向量。并将预处理的第二音频样本输入第一双向门控循环单元，获取第二音频样本的多个第二音频帧的特征向量。

通过第一网络和第二网络共享的第一双向门控循环单元，可以将第一音频样本的低维度特征映射到高级特征，以及将第二音频样本的低维度特征映射到高级特征。

第一双向门控循环单元的具体结构可以采用现有技术中的任意门控循环单元的结构，在此不做具体限定。

S52：根据多个第一音频帧的特征向量，利用第一注意力层，从多个第一音频帧中确定第一目标音频帧。并根据多个第二音频帧的特征向量，利用第二注意力层，从多个第二音频帧中确定第二目标音频帧。

第一注意力层的具体结构可以采用现有技术中的任意注意力层结构，在此不做具体限定。能够从多个第一音频帧的特征向量中识别出具有性别分类的重要特征向量的第一目标音频帧即可。

第二注意力层的具体结构可以采用现有技术中的任意注意力层结构，在此不做具体限定。能够从多个第二音频帧的特征向量中识别出具有性别分类的重要特征向量的第二目标音频帧即可。

第一注意力层和第二注意力层的注意力机制是关注帧级别的重要特征向量，获取长距离相互依赖的特征向量。

S53：根据第一目标音频帧的特征向量，利用第一统计池化层，得到第一音频样本的帧级别的特征向量。并根据第二目标音频帧的特征向量，利用第二统计池化层，得到第二音频样本的帧级别的特征向量。

在本实施例中，通过初始模型的第一网络和第二网络可以准确的获取到第一音频样本和第二音频样本的帧级别的特征向量。

在一种实施方式中，如图6所示，本实施方式的音频识别模型的训练方法包括上述步骤S40至S42。初始模型包括第一网络和第二网络，第一网络被配置为包括第二双向门控循环单元和第三注意力层，第二网络被配置为包括第二双向门控循环单元和第四注意力层。其中，步骤S41：根据第一音频样本和第二音频样本的帧级别的特征向量，利用初始模型获取第一音频样本和第二音频样本的句级别的特征向量，可以进一步包括：

S61：将第一音频样本的帧级别的特征向量输入第二双向门控循环单元，获取第一音频样本的多个第一子句的特征向量。并将第二音频样本的帧级别的特征向量输入第二双向门控循环单元，获取第二音频样本的多个第二子句的特征向量。

第二双向门控循环单元的具体结构可以采用现有技术中的任意门控循环单元的结构，在此不做具体限定。

S62：根据多个第一子句的特征向量，利用第三注意力层，获取第一音频样本的句级别的特征向量。并根据多个第二子句的特征向量，利用第四注意力层，获取第二音频样本的句级别的特征向量。

第三注意力层的具体结构可以采用现有技术中的任意注意力层结构，在此不做具体限定。能够从多个第一子句的特征向量中识别出具有性别分类的重要特征向量的子句即可。

第四注意力层的具体结构可以采用现有技术中的任意注意力层结构，在此不做具体限定。能够从多个第二子句的特征向量中识别出具有性别分类的重要特征向量的子句即可。

在本实施例中，通过初始模型的第一网络和第二网络可以准确的获取到第一音频样本和第二音频样本的句级别的特征向量。通过帧级别和句级别的分层网络结构进行特征提取优于简单的非分层网络结构。由于输入的音频是一个比较长的句子，长句子由一帧一帧(20～40ms)组成，所以整体结构分成了帧级别与句子级别。首先一帧帧数据通过双向门控循环单元映射到高级特征，接着由帧级注意力层关注子句中的重点帧，然后经过统计池化得到子句的表征，同理多个子句特征再经过类似的层得到最终的句子级别的特征。

在一种实施方式中，如图7所示，本实施方式的音频识别模型的训练方法包括上述步骤S40至S42。初始模型包括第一网络和第二网络，第一网络被配置为包括Wasserstein距离表示层，第二网络被配置为包括逻辑回归层。其中，步骤S42：根据第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量，对初始模型进行迭代更新，以得到音频识别模型，可以进一步包括：

S71：利用Wasserstein距离表示层，计算第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量的差异分布的Wasserstein距离。

S72：根据第二音频样本的句级别的特征向量，利用逻辑回归层，得到第二音频样本中的发声人的性别识别结果。即第二音频样本的句级别的特征向量映射到不同的性别标签，实现对第二业务领域的音频样本的性别分类。

S73：利用基于第二音频样本中的发声人的性别识别结果确定的损失函数值以及Wasserstein距离，对第一网络和第二网络进行迭代更新优化，以得到音频识别模型。

基于Wasserstein距离计算可以减少第一业务领域和第二业务领域的音频样本之间的差异。为了使初始模型的特征提取器(第一双向门控循环单元、第二双向门控循环单元)更好的学习到领域共享的特征，采用WDRL(Wasserstein Distance RepresentationLayer，Wasserstein距离表示层)估计第一业务领域和第二业务领域表示分布的Wasserstein距离，由距离最小化减少域差异。通过最小化Wasserstein距离差异使领域不可分，提取领域共享特征；同时也提取了性别独有的特征，即第二业务领域的区分性别的特征。

通过WDRL计算分布的差异L1，同时通过softmax层预测，计算损失L2，综合L1与L2，反向更新初始模型的网络结构的参数，迭代多轮，直至初始模型收敛，进而得到训练完成的音频识别模型。

在一个应用示例中，如图10所示，音频识别模型包括第一网络和第二网络。第一网络包括第一双向门控循环单元、第一注意力层、第一统计池化层、第二双向门控循环单元、第三注意力层、第一特征表示层和WDRL层。第二网络包括第一双向门控循环单元、第二注意力层、第二统计池化层、第二双向门控循环单元、第四注意力层、第二特征表示层和softmax层。其中，第二特征表示层的输出与WDRL层连接。

第一特征表示层和第二特征表示层可以理解为是对第三注意力层和第四注意力层的结果输出。因此也可以理解为是第四注意力层的输出与WDRL层连接。

根据本申请的实施例，如图8所示，提供了一种音频识别的装置800，包括：

第一获取模块810，用于获取目标音频的帧级别的特征向量。

第二获取模块820，用于根据目标音频的帧级别的特征向量，获取目标音频的句级别的特征向量。

确定模块830，用于根据目标音频的句级别的特征向量，确定目标音频中的发声人的性别。

在一种实施方式中，第一获取模块810包括：

划分子模块，用于根据预设划分规则，将目标音频划分为多个音频帧。

确定子模块，用于根据获取的多个音频帧的特征向量，从多个音频帧中确定目标音频帧。

统计池化子模块，用于对目标音频帧的第一特征向量进行统计池化，得到目标音频的帧级别的特征向量。

在一种实施方式中，第二获取模块820包括：

第一获取子模块，用于根据目标音频的帧级别的特征向量，获取构成目标音频的多个子句的特征向量。其中，子句由至少一个音频帧构成，句子由至少一个子句构成。

第二获取子模块，用于根据多个子句的特征向量，获取目标音频的句级别的特征向量。

上述音频识别的装置的功能可以参考上述音频识别的方法的各实施例，在此不再赘述。

根据本申请的实施例，如图9所示，提供了一种音频识别模型的训练装置900，包括：

第一获取模块910，用于将预处理的第一音频样本和第二音频样本输入初始模型，利用初始模型获取第一音频样本和第二音频样本的帧级别的特征向量。其中，第一音频样本属于第一业务领域，第二音频样本属于第二业务领域，且第二音频样本包括已标注的性别标签。

第二获取模块920，用于根据第一音频样本和第二音频样本的帧级别的特征向量，利用初始模型获取第一音频样本和第二音频样本的句级别的特征向量。

优化模块930，用于根据第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量，对初始模型进行迭代更新，以得到音频识别模型，音频识别模型用于识别第一业务领域的音频中的发声人的性别。

在一种实施方式中，初始模型包括第一网络和第二网络，第一网络被配置为包括第一双向门控循环单元、第一注意力层和第一统计池化层，第二网络被配置为包括第一双向门控循环单元、第二注意力层和第二统计池化层。第一获取模块910包括：

第一获取子模块，用于将预处理的第一音频样本输入第一双向门控循环单元，获取第一音频样本的多个第一音频帧的特征向量。并将预处理的第二音频样本输入第一双向门控循环单元，获取第二音频样本的多个第二音频帧的特征向量。

确定子模块，用于根据多个第一音频帧的特征向量，利用第一注意力层，从多个第一音频帧中确定第一目标音频帧。并根据多个第二音频帧的特征向量，利用第二注意力层，从多个第二音频帧中确定第二目标音频帧。

统计池化子模块，用于根据第一目标音频帧的特征向量，利用第一统计池化层，得到第一音频样本的帧级别的特征向量。并根据第二目标音频帧的特征向量，利用第二统计池化层，得到第二音频样本的帧级别的特征向量。

在一种实施方式中，初始模型包括第一网络和第二网络，第一网络被配置为包括第二双向门控循环单元和第三注意力层，第二网络被配置为包括第二双向门控循环单元和第四注意力层。第二获取模块920包括：

第二获取子模块，用于将第一音频样本的帧级别的特征向量输入第二双向门控循环单元，获取第一音频样本的多个第一子句的特征向量。并将第二音频样本的帧级别的特征向量输入第二双向门控循环单元，获取第二音频样本的多个第二子句的特征向量。

第三获取子模块，用于根据多个第一子句的特征向量，利用第三注意力层，获取第一音频样本的句级别的特征向量。并根据多个第二子句的特征向量，利用第四注意力层，获取第二音频样本的句级别的特征向量。

在一种实施方式中，述初始模型包括第一网络和第二网络，第一网络被配置为包括Wasserstein距离表示层，第二网络被配置为包括逻辑回归层。优化模块930包括：

计算子模块，用于利用Wasserstein距离表示层，计算第一音频样本的句级别的特征向量和第二音频样本的句级别的特征向量的差异分布的Wasserstein距离。

第四获取子模块，用于根据第二音频样本的句级别的特征向量，利用逻辑回归层，得到第二音频样本中的发声人的性别识别结果。

优化子模块，用于利用基于第二音频样本中的发声人的性别识别结果确定的损失函数值以及Wasserstein距离，对第一网络和第二网络进行迭代更新优化，以得到音频识别模型。

上述音频识别模型的训练装置的功能可以参考上述音频识别模型的训练方法的各实施例，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如音频识别的方法和/或音频识别模型的训练方法。例如，在一些实施例中，音频识别的方法和/或音频识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的音频识别的方法和/或音频识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频识别的方法和/或音频识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种音频识别模型的训练方法，包括：

将预处理的第一音频样本和第二音频样本输入初始模型，利用所述初始模型获取所述第一音频样本和所述第二音频样本的帧级别的特征向量；其中，所述第一音频样本属于第一业务领域，所述第二音频样本属于第二业务领域，且所述第二音频样本包括已标注的性别标签，所述初始模型包括第一网络和第二网络，所述第一网络被配置为包括Wasserstein距离表示层，所述第二网络被配置为包括逻辑回归层；

根据所述第一音频样本和所述第二音频样本的帧级别的特征向量，利用所述初始模型获取所述第一音频样本和所述第二音频样本的句级别的特征向量，其中，所述句级别的特征向量为以音频样本中的句子为单位所提取的特征向量，所述句子由多个音频帧构成；

根据所述第一音频样本的句级别的特征向量和所述第二音频样本的句级别的特征向量，对所述初始模型进行迭代更新，以得到音频识别模型，所述音频识别模型用于识别所述第一业务领域的音频中的发声人的性别；

所述根据所述第一音频样本的句级别的特征向量和所述第二音频样本的句级别的特征向量，对所述初始模型进行迭代更新，以得到音频识别模型，包括：利用所述Wasserstein距离表示层，计算所述第一音频样本的句级别的特征向量和所述第二音频样本的句级别的特征向量的差异分布的Wasserstein距离；根据所述第二音频样本的句级别的特征向量，利用所述逻辑回归层，得到所述第二音频样本中的发声人的性别识别结果；利用基于所述第二音频样本中的发声人的性别识别结果确定的损失函数值以及所述Wasserstein距离，对所述第一网络和所述第二网络进行迭代更新优化，以得到音频识别模型。

2.根据权利要求1所述的方法，其中，所述初始模型包括第一网络和第二网络，所述第一网络被配置为包括第一双向门控循环单元、第一注意力层和第一统计池化层，所述第二网络被配置为包括所述第一双向门控循环单元、第二注意力层和第二统计池化层；所述将预处理的第一音频样本和第二音频样本输入初始模型，利用所述初始模型获取所述第一音频样本和所述第二音频样本的帧级别的特征向量，包括：

将预处理的第一音频样本输入所述第一双向门控循环单元，获取所述第一音频样本的多个第一音频帧的特征向量；并将预处理的第二音频样本输入所述第一双向门控循环单元，获取所述第二音频样本的多个第二音频帧的特征向量；

根据所述多个第一音频帧的特征向量，利用所述第一注意力层，从所述多个第一音频帧中确定第一目标音频帧；并根据所述多个第二音频帧的特征向量，利用所述第二注意力层，从所述多个第二音频帧中确定第二目标音频帧；

根据所述第一目标音频帧的特征向量，利用所述第一统计池化层，得到所述第一音频样本的帧级别的特征向量；并根据所述第二目标音频帧的特征向量，利用所述第二统计池化层，得到所述第二音频样本的帧级别的特征向量。

3.根据权利要求1所述的方法，其中，所述初始模型包括第一网络和第二网络，所述第一网络被配置为包括第二双向门控循环单元和第三注意力层，所述第二网络被配置为包括所述第二双向门控循环单元和第四注意力层；所述根据所述第一音频样本和所述第二音频样本的帧级别的特征向量，利用所述初始模型获取所述第一音频样本和所述第二音频样本的句级别的特征向量，包括：

将所述第一音频样本的帧级别的特征向量输入所述第二双向门控循环单元，获取所述第一音频样本的多个第一子句的特征向量；并将所述第二音频样本的帧级别的特征向量输入所述第二双向门控循环单元，获取所述第二音频样本的多个第二子句的特征向量；

根据所述多个第一子句的特征向量，利用所述第三注意力层，获取所述第一音频样本的句级别的特征向量；并根据所述多个第二子句的特征向量，利用所述第四注意力层，获取所述第二音频样本的句级别的特征向量。

4.一种音频识别模型的训练装置，包括：

第一获取模块，用于将预处理的第一音频样本和第二音频样本输入初始模型，利用所述初始模型获取所述第一音频样本和所述第二音频样本的帧级别的特征向量；其中，所述第一音频样本属于第一业务领域，所述第二音频样本属于第二业务领域，且所述第二音频样本包括已标注的性别标签，所述初始模型包括第一网络和第二网络，所述第一网络被配置为包括Wasserstein距离表示层，所述第二网络被配置为包括逻辑回归层；

第二获取模块，用于根据所述第一音频样本和所述第二音频样本的帧级别的特征向量，利用所述初始模型获取所述第一音频样本和所述第二音频样本的句级别的特征向量，其中，所述句级别的特征向量为以音频样本中的句子为单位所提取的特征向量，所述句子由多个音频帧构成；

优化模块，用于根据所述第一音频样本的句级别的特征向量和所述第二音频样本的句级别的特征向量，对所述初始模型进行迭代更新，以得到音频识别模型，所述音频识别模型用于识别所述第一业务领域的音频中的发声人的性别；

所述优化模块包括：计算子模块，用于利用所述Wasserstein距离表示层，计算所述第一音频样本的句级别的特征向量和所述第二音频样本的句级别的特征向量的差异分布的Wasserstein距离；第四获取子模块，用于根据所述第二音频样本的句级别的特征向量，利用所述逻辑回归层，得到所述第二音频样本中的发声人的性别识别结果；优化子模块，用于利用基于所述第二音频样本中的发声人的性别识别结果确定的损失函数值以及所述Wasserstein距离，对所述第一网络和所述第二网络进行迭代更新优化，以得到音频识别模型。

5.根据权利要求4所述的装置，其中，所述初始模型包括第一网络和第二网络，所述第一网络被配置为包括第一双向门控循环单元、第一注意力层和第一统计池化层，所述第二网络被配置为包括所述第一双向门控循环单元、第二注意力层和第二统计池化层；所述第一获取模块包括：

第一获取子模块，用于将预处理的第一音频样本输入所述第一双向门控循环单元，获取所述第一音频样本的多个第一音频帧的特征向量；并将预处理的第二音频样本输入所述第一双向门控循环单元，获取所述第二音频样本的多个第二音频帧的特征向量；

确定子模块，用于根据所述多个第一音频帧的特征向量，利用所述第一注意力层，从所述多个第一音频帧中确定第一目标音频帧；并根据所述多个第二音频帧的特征向量，利用所述第二注意力层，从所述多个第二音频帧中确定第二目标音频帧；

统计池化子模块，用于根据所述第一目标音频帧的特征向量，利用所述第一统计池化层，得到所述第一音频样本的帧级别的特征向量；并根据所述第二目标音频帧的特征向量，利用所述第二统计池化层，得到所述第二音频样本的帧级别的特征向量。

6.根据权利要求4所述的装置，其中，所述初始模型包括第一网络和第二网络，所述第一网络被配置为包括第二双向门控循环单元和第三注意力层，所述第二网络被配置为包括所述第二双向门控循环单元和第四注意力层；所述第二获取模块包括：

第二获取子模块，用于将所述第一音频样本的帧级别的特征向量输入所述第二双向门控循环单元，获取所述第一音频样本的多个第一子句的特征向量；并将所述第二音频样本的帧级别的特征向量输入所述第二双向门控循环单元，获取所述第二音频样本的多个第二子句的特征向量；

第三获取子模块，用于根据所述多个第一子句的特征向量，利用所述第三注意力层，获取所述第一音频样本的句级别的特征向量；并根据所述多个第二子句的特征向量，利用所述第四注意力层，获取所述第二音频样本的句级别的特征向量。

7. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至3中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1至3中任一项所述的方法。