CN113470629B

CN113470629B - 音频识别模型训练方法，音色相似度检测方法

Info

Publication number: CN113470629B
Application number: CN202110809025.6A
Authority: CN
Inventors: 谭志力; 胡诗超
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2024-01-09
Anticipated expiration: 2041-07-16
Also published as: CN113470629A

Abstract

本申请公开了一种音频识别模型训练方法，一种音色相似度检测方法。本申请中的音频识别模型以两个有噪音色特征及其二者的相似度作为输入数据，能够输出该相似度的纠正结果，该纠正过程无需关注噪声大小、时长大小与相似度大小是不是线性关系，也不用关注音频中的噪声大小，因此可以降低计算开支和耗时，还提高了音色相似度的纠正准确率。

Description

音频识别模型训练方法，音色相似度检测方法

技术领域

本申请涉及计算机技术领域，特别涉及一种音频识别模型训练方法，一种音色相似度检测方法。

背景技术

目前，歌手音色识别功能广泛用于歌曲推荐、歌手身份确认等场景。但受限于非专业设备和环境，用户录制的歌声里很容易混入噪声(麦克风摩擦音，环境背景杂音等)，对音色识别的准确度带来了挑战。

当前可以使用线性方程检测和纠正两个歌曲的音色相似度，即：将原相似度分数与歌曲的噪声水平、时长等信息进行加权求和。此方式认为噪声大小、时长大小与相似度大小是线性关系，但实际上噪声大小、时长大小与相似度大小并不是线性关系，故而此方式难以得到较好的纠正效果。同时，估算歌曲中的噪声大小时需要分离无噪声信号和噪声信号，既难以估算准确，还增加了计算开支和耗时。

发明内容

有鉴于此，本申请的目的在于提供一种音频识别模型训练方法，一种音色相似度检测方法，以提高音色相似度的纠正准确率。其具体方案如下：

为实现上述目的，一方面，本申请提供了一种音频识别模型训练方法，包括：

从训练样本库中获取第一无噪音频和第二无噪音频；

对所述第一无噪音频和所述第二无噪音频分别添加随机噪声，得到所述第一无噪音频对应的第一有噪音频，以及所述第二无噪音频对应的第二有噪音频；

将所述第一无噪音频、所述第二无噪音频、所述第一有噪音频和所述第二有噪音频分别输入音色提取模型，分别提取第一无噪音色特征、第二无噪音色特征、第一有噪音色特征以及第二有噪音色特征；

基于所述第一有噪音色特征以及所述第二有噪音色特征计算所述第一有噪音频和所述第二有噪音频的有噪相似度，以及基于所述第一无噪音色特征、所述第二无噪音频特征、所述第一有噪音色特征以及所述第二有噪音色特征计算所述第一无噪音频和所述第二无噪音频的相似度偏移真实值；

将所述第一有噪音色特征、所述第二有噪音色特征和所述有噪相似度输入待训练的神经网络模型，以使所述神经网络模型输出所述第一有噪音频和所述第二有噪音频的相似度偏移预测值；

计算所述相似度偏移预测值与所述相似度偏移真实值之间的损失值，并将该损失值添加至目标损失集；

基于所述目标损失集中每一损失值调节所述神经网络模型的模型参数；

从所述训练样本库中重新获取两个无噪音频，以对更新后的神经网络模型进行迭代训练，直至达到模型收敛条件，输出音频识别模型。

又一方面，本申请还提供了一种音色相似度检测方法，包括：

获取第一音频和第二音频；

将所述第一音频和所述第二音频分别输入音色提取模型，以使所述音色提取模型输出所述第一音频对应的第一音色特征，以及所述第二音频对应的第二音色特征；

计算所述第一音色特征和所述第二音色特征的待纠正相似度；

将所述第一音色特征、所述第二音色特征和所述待纠正相似度输入音频识别模型，以使所述音频识别模型输出相似度检测结果；所述音频识别模型利用权利要求1至4任一项所述的方法训练获得；

基于所述相似度检测结果确定所述第一音频和所述第二音频的音色相似度。

又一方面，本申请还提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述任一项所述的方法。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一项所述的方法。

本申请能够训练得到音频识别模型。该模型以两个有噪音色特征及其二者的有噪相似度作为输入数据，能够输出这两个音色特征的相似度偏移预测值，然后计算相似度偏移预测值与相似度偏移真实值之间的损失值，并将该损失值添加至目标损失集；基于目标损失集中每一损失值调节神经网络模型的模型参数；从训练样本库中重新获取两个无噪音频，以对更新后的神经网络模型进行迭代训练，直至达到模型收敛条件，输出音频识别模型。可见，本申请基于神经网络模型训练得到音频识别模型，以该音频识别模型来纠正音色相似度，无需关注噪声大小、时长大小与相似度大小是不是线性关系，也不用关注音频中的噪声大小，因此可以降低计算开支和耗时，还提高了音色相似度的纠正准确率。

相应地，本申请提供的音频识别模型训练组件及音色相似度检测组件，也同样具有上述技术效果。组件即装置、设备及介质。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种本申请适用的物理架构示意图；

图2为本申请提供的第一种音频识别模型训练方法流程图；

图3为本申请提供的第二种音频识别模型训练方法流程图；

图4为本申请提供的一种音色相似度检测方法流程图；

图5为本申请提供的一种音频识别模型训练装置示意图；

图6为本申请提供的一种音色相似度检测装置示意图；

图7为本申请提供的一种歌曲分类方法流程图；

图8为本申请提供的一种准备音频识别模型的训练数据的示意图；

图9为本申请提供的一种音色相似度检测音频识别模型训练任务示意图；

图10为本申请提供的一种服务器结构图；

图11为本申请提供的一种终端结构图。

具体实施方式

使用线性方程纠正两个歌曲的音色相似度难以得到较好的纠正效果。同时，估算歌曲中的噪声大小时需要分离无噪声信号和噪声信号，既难以估算准确，还增加了计算开支和耗时。

鉴于目前所存在的上述问题，本申请提出了一种音频识别模型训练方法，一种音色相似度检测方法，能够提高音色相似度的纠正准确率。

为了便于理解，先对本申请所适用的物理框架进行介绍。

应理解，本申请提供的音频识别模型训练方法及音色相似度检测方法可以应用于具有音色相似度检测功能的系统或程序中。具体的，该系统或程序可以运行于服务器、个人计算机等设备中。

如图1所示，图1为本申请适用的物理架构示意图。在图1中，具有音色相似度检测功能的系统或程序可以运行于服务器，该服务器通过网络从其他终端设备用于训练模型的音频，以及需要计算相似度的音频；音频如：歌曲、戏曲、人物对话等。该服务器能够获取训练模型的两个无噪音频；对这两个无噪音频分别添加随机噪声，得到两个无噪音频分别对应的有噪音频；将两个无噪音频、两个有噪音频分别输入音色提取模型，以提取出四个音色特征，即：第一无噪音色特征、第二无噪音色特征、第一有噪音色特征以及第二有噪音色特征；基于第一有噪音色特征以及第二有噪音色特征计算第一有噪音频和第二有噪音频的有噪相似度，以及基于第一无噪音色特征、第二无噪音频特征、第一有噪音色特征以及第二有噪音色特征计算第一无噪音频和第二无噪音频的相似度偏移真实值；将第一有噪音色特征、第二有噪音色特征和有噪相似度输入待训练的神经网络模型，以使神经网络模型输出第一有噪音频和第二有噪音频的相似度偏移预测值；计算相似度偏移预测值与相似度偏移真实值之间的损失值，并将该损失值添加至目标损失集；基于目标损失集中每一损失值调节神经网络模型的模型参数；从训练样本库中重新获取两个无噪音频，以对更新后的神经网络模型进行迭代训练，直至达到模型收敛条件，输出音频识别模型。

获得音频识别模型后，将需要计算相似度的两个音频(此时不关注音频是否含有噪声)分别输入音色提取模型，以使音色提取模型输出两个音色特征；计算两个音色特征的待纠正相似度；将两个音色特征和待纠正相似度输入音频识别模型，以使音频识别模型输出相似度检测结果；最后基于相似度检测结果确定第一音频和第二音频的音色相似度。

如图可知，该服务器可以与多个设备建立通信连接，服务器从这些设备中获取符合训练条件的音频或需要计算相似度的音频。服务器通过收集这些设备上传的音频，可以训练得到音频识别模型。之后，便可以按照本申请提供的音色相似度检测方法计算并纠正两个音频的音色相似度。图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到音色相似度检测的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的音色相似度检测方法及相应音频识别模型训练方法可以离线进行，即服务器本地存储有符合训练条件的音频或需要计算相似度的音频，其可以直接利用本申请提供的方案计算并纠正音色相似度。

可以理解的是，上述具有音色相似度检测功能的系统或程序也可以运行于个人移动终端，也可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。具体的，音色识别功能可以用于歌曲推荐、歌手身份确认等场景。

结合以上共性，请参见图2，图2为本申请实施例提供的第一种音频识别模型训练方法流程图。如图2所示，该音频识别模型训练方法可以包括以下步骤：

S201、从训练样本库中获取第一无噪音频和第二无噪音频。

S202、对第一无噪音频和第二无噪音频分别添加随机噪声，得到第一无噪音频对应的第一有噪音频，以及第二无噪音频对应的第二有噪音频。

在本实施例中，第一无噪音频和第二无噪音频可以是无噪的歌曲、戏曲等。对第一无噪音频和第二无噪音频分别添加的噪声可以是白噪声，也可以是安静环境中录制得到的音频。添加噪声的具体方法可以参考现有相关技术。

需要说明的是，随机噪声中可能有噪声，也可能没有噪声。也就是说：对无噪音频添加随机噪声后，可能得到有噪声的音频，也可能得到无噪声的音频。但本实施例统一将添加随机噪声后的音频称为有噪音频。

S203、将第一无噪音频、第二无噪音频、第一有噪音频和第二有噪音频分别输入音色提取模型，分别提取第一无噪音色特征、第二无噪音色特征、第一有噪音色特征以及第二有噪音色特征。

步骤S203中的音色提取模型可以是神经网络，其可以包括：卷积层、池化层，全连接层等。当然，也可以有其他组成部分。该音色提取模型的输入数据具体为音频的频谱数据。由于输入音色提取模型的音频长短不一，因此在音色提取模型中可以设置固定维度，使得音色提取模型输出的所有音色特征保持相同维度，以便后续计算相似度。其中，该维度的大小需要选择合适的数值。维度较大虽然可使音色特征包含较多的信息，但可能会导致过拟合，可能还含有噪声，信息较多也不利于后续相似度的计算。维度较小虽然比较精简，但可能导致音色特征包含的信息不足。

在训练音色提取模型时，同时使用已知音色(即训练标签)的无噪音频，以及对该无噪音频添加随机噪声后获得的有噪音频作为训练集，使得音色提取模型同时学习无噪音频和有噪音频的音色特征提取能力。

在音色提取音频识别模型训练完成后，再以音色提取模型的输出数据作为PLDA的训练数据，以各个输出数据对应的已知音色来训练PLDA(Probabilistic LinearDiscriminant Analysis，概率线性判别分析)或其他用于计算音色相似度的类似网络。

S204、基于第一有噪音色特征以及第二有噪音色特征计算第一有噪音频和第二有噪音频的有噪相似度，以及基于第一无噪音色特征、第二无噪音频特征、第一有噪音色特征以及第二有噪音色特征计算第一无噪音频和第二无噪音频的相似度偏移真实值。

其中，可以使用PLDA、余弦距离、深度学习或其他方法计算步骤S204中的有噪相似度，具体可以参考现有相关技术。当然，也可以使用PLDA、余弦距离、深度学习或其他方法计算第一无噪音频和第二无噪音频的无噪相似度，该有噪相似度与无噪相似度的差异即为相似度偏移真实值。

S205、将第一有噪音色特征、第二有噪音色特征和有噪相似度输入待训练的神经网络模型，以使神经网络模型输出第一有噪音频和第二有噪音频的相似度偏移预测值。

S206、计算相似度偏移预测值与相似度偏移真实值之间的损失值，并将该损失值添加至目标损失集。

S207、基于目标损失集判断是否达到模型收敛条件；若是，则执行S208；若否，则执行S209。

S208、输出当前神经网络模型作为音频识别模型。

S209、基于目标损失集中每一损失值调节神经网络模型的模型参数后，执行S201，以对更新后的神经网络模型进行迭代训练。

步骤S209从训练样本库中重新获取两个无噪音频，从而对更新后的神经网络模型进行迭代训练，直至达到模型收敛条件后，输出音频识别模型。

需要说明的是，若神经网络模型输出第一有噪音频和第二有噪音频的相似度偏移预测值，则表明当前神经网络模型用于处理回归任务，此音频识别模型训练过程为回归任务的学习和训练。因此计算损失值时可以最小均方误差或其他类似误差计算方法，并据此进行反向传播，以更新模型参数。

其中，神经网络模型可以是深度神经网络(Deep Neural Network，DNN)，其结构可以包括全连接层等。

可见，本实施例基于神经网络模型训练得到音频识别模型，以该音频识别模型来纠正音色相似度，无需关注噪声大小、时长大小与相似度大小是不是线性关系，也不用关注音频中的噪声大小，因此可以降低计算开支和耗时，还提高了音色相似度的纠正准确率。

基于上述实施例，需要说明的是，神经网络模型在训练过程中还可以输出无噪相似度预测值、第一有噪音频和第二有噪音频属于同一音色的概率预测值、第一有噪音频的第一预测信噪比、第二有噪音频的第二预测信噪比、第一有噪音频的第一预测长度、第二有噪音频的第二预测长度等。其中，第一有噪音频和第二有噪音频属于同一音色的概率预测值属于二分类问题，因此其为分类任务，其他输出结果属于回归任务。

在一种具体实施方式中，神经网络模型的训练过程还包括：获取第一无噪音频和第二无噪音频的无噪相似度真实值；利用神经网络模型确定第一有噪音频和第二有噪音频的无噪相似度预测值；计算无噪相似度预测值与无噪相似度真实值之间的损失值，并将该损失值添加至目标损失集。

在一种具体实施方式中，神经网络模型的训练过程还包括：获取第一无噪音频和第二无噪音频属于同一音色的概率真实值；利用神经网络模型确定第一有噪音频和第二有噪音频属于同一音色的概率预测值；计算概率预测值与概率真实值之间的损失值，并将该损失值添加至目标损失集。

在一种具体实施方式中，神经网络模型的训练过程还包括：获取第一有噪音频的第一真实信噪比；利用神经网络模型确定第一有噪音频的第一预测信噪比；计算第一预测信噪比与第一真实信噪比之间的损失值，并将该损失值添加至目标损失集；

和/或

获取第二有噪音频的第二真实信噪比；利用神经网络模型确定第二有噪音频的第二预测信噪比；计算第二预测信噪比与第二真实信噪比之间的损失值，并将该损失值添加至目标损失集；

和/或

获取第一有噪音频的第一真实长度；利用神经网络模型确定第一有噪音频的第一预测长度；计算第一预测长度与第一真实长度之间的损失值，并将该损失值添加至目标损失集；

和/或

获取第二有噪音频的第二真实长度；利用神经网络模型确定第二有噪音频的第二预测长度；计算第二预测长度与第二真实长度之间的损失值，并将该损失值添加至目标损失集。

可见，按照本申请训练得到的音频识别模型可以输出多种结果，因此在实际应用模型时，可根据实际情况和需求选择相应结果。

请参见图3，图3为本申请实施例提供的第二种音频识别模型训练方法流程图。如图3所示，该音频识别模型训练方法可以包括以下步骤：

S301、获取第一无噪音频和第二无噪音频。

S302、对第一无噪音频和第二无噪音频分别添加噪声，得到第一无噪音频对应的第一有噪音频，以及第二无噪音频对应的第二有噪音频。

S303、将第一有噪音频和第二有噪音频分别输入音色提取模型，以使音色提取模型输出第一有噪音频对应的第一有噪音色特征，以及第二有噪音频对应的第二有噪音色特征。

S304、计算第一有噪音色特征和第二有噪音色特征的有噪相似度。

S305、将第一有噪音色特征、第二有噪音色特征和有噪相似度输入神经网络模型，以使神经网络模型输出有噪相似度的纠正预测结果。

S306、判断纠正预测结果包括哪些内容；若包括第一有噪音频和第二有噪音频属于同一音色的概率预测值，则执行S307；若包括第一无噪音色特征和第二无噪音色特征的无噪相似度的相似度预测值，则执行S308；若包括相似度预测值与有噪相似度的偏移量预测值，则执行S309。

其中，纠正预测结果可以包括：第一有噪音频和第二有噪音频属于同一音色的概率预测值，和/或第一无噪音色特征和第二无噪音色特征的无噪相似度的相似度预测值(即无噪相似度预测值)，和/或相似度预测值与有噪相似度的偏移量预测值(即相似度偏移预测值)。

其中，第一无噪音色特征由音色提取模型从第一无噪音频中提取得到，第二无噪音色特征由音色提取模型从第二无噪音频中提取得到。

可见，S307、S308、S309可以择一执行，也可以同时执行，也可以从其中任选两个执行。

S307、计算概率预测值与真实值之间的损失值，并将损失值添加至目标损失集。

其中，真实值为第一有噪音频和第二有噪音频属于同一音色的概率真实值。

S308、计算相似度预测值与无噪相似度之间的第一误差值，将第一误差值添加至目标损失集。

S309、计算偏移量预测值与真实偏移量之间的第二误差值，将第二误差值添加至目标损失集。

其中，真实偏移量为无噪相似度与有噪相似度的差值。

S310、基于目标损失集判断是否达到模型收敛条件。若是，则执行S311。若否，则执行S312。

S311、将神经网络模型确定为音频识别模型。

S312、基于目标损失集更新神经网络模型的模型参数，并执行S301，以对更新后的神经网络模型进行迭代训练。

在本实施例中，若纠正预测结果包括：第一有噪音频和第二有噪音频属于同一音色的概率预测值，则表明当前神经网络模型用于处理二分类问题，此音频识别模型训练过程为分类任务的学习和训练。因此计算概率预测值与真实值之间的损失值时可以使用交叉熵损失函数或其他类似损失函数，并据此进行反向传播，以更新模型参数。

在本实施例中，若纠正预测结果包括：第一无噪音色特征和第二无噪音色特征的无噪相似度的相似度预测值，和/或相似度预测值与有噪相似度的偏移量预测值，则表明当前神经网络模型还处理回归问题，此时音频识别模型训练过程包括回归任务的学习和训练。因此计算第一误差和第二误差时可以使用最小均方误差或其他类似误差计算方法，并据此进行反向传播，以更新模型参数。

可见，目标损失集中可以包括：概率预测值与真实值之间的损失值，和/或第一误差值，和/或第二误差值。因此音频识别模型训练过程中，既基于分类任务进行参数更新，又基于回归任务进行参数更新，由此进行多任务训练，可以提高模型对于音色相似度的纠正能力。

基于上述任意实施例，需要说明的是，纠正预测结果在包括概率预测值、相似度预测值和偏移量预测值中的任一种或组合的情况下，还可以包括下述有关回归任务的其他参数，如：第一有噪音频的第一预测信噪比，和/或第二有噪音频的第二预测信噪比，和/或第一有噪音频的第一预测长度，和/或第二有噪音频的第二预测长度。

相应的，就需要计算第一预测信噪比与第一有噪音频的真实信噪比之间的第三误差值，并将第三误差值添加至目标损失集；和/或计算第二预测信噪比与第二有噪音频的真实信噪比之间的第四误差值，并将第四误差值添加至目标损失集；和/或计算第一预测长度与第一有噪音频的真实长度之间的第五误差值，并将第五误差值添加至目标损失集；和/或计算第二预测长度与第二有噪音频的真实长度之间的第六误差值，并将第六误差值添加至目标损失集。

相应的，目标损失集在包括：概率预测值与真实值之间的损失值、第一误差值、第二误差值中的任一种或组合的情况下，还可以包括：第三误差值、第四误差值、第五误差值、第六误差值中的任一种或组合。

当然，还可以给纠正预测结果添加年龄、性别等有关音色的人物信息，以给回归任务添加更多可计算误差的参数，并将相应误差添加至目标损失集，从而提高模型对于音色相似度的纠正能力。

请参见图4，图4为本申请实施例提供的一种音色相似度检测方法流程图。如图4所示，该音色相似度检测方法可以包括以下步骤：

S401、获取第一音频和第二音频。

其中，第一音频和第二音频可以是两个人表演的歌曲、台词等。

S402、将第一音频和第二音频分别输入音色提取模型，以使音色提取模型输出第一音频对应的第一音色特征，以及第二音频对应的第二音色特征。

S403、计算第一音色特征和第二音色特征的待纠正相似度。

在一种具体实施方式中，计算第一音色特征和第二音色特征的待纠正相似度，包括：基于PLDA或余弦距离计算待纠正相似度。

S404、将第一音色特征、第二音色特征和待纠正相似度输入音频识别模型，以使音频识别模型输出相似度检测结果。

其中，音频识别模型利用上述任意实施例提供的音频识别模型训练方法训练获得，故可参考上述任意实施例所描述的音频识别模型的相关内容。

S405、基于相似度检测结果确定第一音频和第二音频的音色相似度。

由于音频识别模型在训练过程中可以输出多种预测结果，因此在使用该模型的过程中，可以基于模型输出的相似度检测结果进行选择。在一种具体实施方式中，若相似度检测结果为第一音频和第二音频属于同一音色的概率值，则基于相似度检测结果确定第一音频和第二音频的音色相似度，包括：将概率值确定为音色相似度；或若相似度检测结果为第一音色特征和第二音色特征的无噪相似度，则将无噪相似度确定为音色相似度；或若相似度检测结果为待纠正相似度与音色相似度的偏移量，则将待纠正相似度和偏移量之和确定为音色相似度。

若相似度检测结果包括至少两种，则可以对这至少两种进行音色相似度的确定后，对所得到的多个音色相似度进行加权求和，从而得到最终的音色相似度。

在一种具体实施方式中，将第一音色特征、第二音色特征和待纠正相似度输入音频识别模型，以使音频识别模型输出相似度检测结果之前，还包括：利用线性公式优化待纠正相似度；

线性公式为：S'＝W₀+W₁S+W₂SNR_x+W₃SNR_y+W₄L_x+W₅L_y；其中，S'为优化后的待纠正相似度，S为优化前的待纠正相似度，SNR_x为第一音频的信噪比，SNR_y为第二音频的信噪比，L_x为第一音频的长度，L_y为第二音频的长度，W₀为预设偏置参数，W₁、W₂、W₃、W₄、W₅为预设权重。长度以秒为单位。信噪比通常以dB为单位。

其中，各个预设权重的大小可基于训练数据确定。估算信噪比时，可利用端点检测方法先检测音频中的噪声，再进行计算。按照线性公式先对PLDA输出的相似度进行优化，进而利用音频识别模型对优化后的相似度进行纠正，从而提高相似度的准确性。此过程中的音频识别模型在训练时，最好以线性公式优化后的有噪相似度、以及相应的两个音色特征作为输入，从而提高音频识别模型的性能。

可见，本实施例中的音频识别模型以两个有噪音色特征及其二者的相似度作为输入数据，能够输出该相似度的纠正结果，该纠正过程无需关注噪声大小、时长大小与相似度大小是不是线性关系，也不用关注音频中的噪声大小，因此可以降低计算开支和耗时，还提高了音色相似度的纠正准确率。

请参见图5，图5为本申请实施例提供的一种音频识别模型训练装置示意图，包括：

训练数据获取模块501，用于从训练样本库中获取第一无噪音频和第二无噪音频；

加噪模块502，用于对第一无噪音频和第二无噪音频分别添加随机噪声，得到第一无噪音频对应的第一有噪音频，以及第二无噪音频对应的第二有噪音频；

训练特征提取模块503，用于将第一无噪音频、第二无噪音频、第一有噪音频和第二有噪音频分别输入音色提取模型，分别提取第一无噪音色特征、第二无噪音色特征、第一有噪音色特征以及第二有噪音色特征；

偏移计算模块504，用于基于第一有噪音色特征以及第二有噪音色特征计算第一有噪音频和第二有噪音频的有噪相似度，以及基于第一无噪音色特征、第二无噪音频特征、第一有噪音色特征以及第二有噪音色特征计算第一无噪音频和第二无噪音频的相似度偏移真实值；

处理模块505，用于将将第一有噪音色特征、第二有噪音色特征和有噪相似度输入待训练的神经网络模型，以使神经网络模型输出第一有噪音频和第二有噪音频的相似度偏移预测值；

损失确定模块506，用于计算相似度偏移预测值与相似度偏移真实值之间的损失值，并将该损失值添加至目标损失集；

更新模块，用于基于目标损失集中每一损失值调节神经网络模型的模型参数；从训练样本库中重新获取两个无噪音频，以对更新后的神经网络模型进行迭代训练，直至达到模型收敛条件，输出音频识别模型。

在一种具体实施方式中，还包括无噪相似度预测模块，该模块用于：

获取第一无噪音频和第二无噪音频的无噪相似度真实值；

利用神经网络模型确定第一有噪音频和第二有噪音频的无噪相似度预测值；

计算无噪相似度预测值与无噪相似度真实值之间的损失值，并将该损失值添加至目标损失集。

在一种具体实施方式中，还包括概率预测值输出模块，该模块用于：

获取第一无噪音频和第二无噪音频属于同一音色的概率真实值；

利用神经网络模型确定第一有噪音频和第二有噪音频属于同一音色的概率预测值；

计算概率预测值与概率真实值之间的损失值，并将该损失值添加至目标损失集。

在一种具体实施方式中，还包括其他信息确定模块，该模块用于

获取第一有噪音频的第一真实信噪比；

利用神经网络模型确定第一有噪音频的第一预测信噪比；

计算第一预测信噪比与第一真实信噪比之间的损失值，并将该损失值添加至目标损失集；

和/或

获取第二有噪音频的第二真实信噪比；

利用神经网络模型确定第二有噪音频的第二预测信噪比；

计算第二预测信噪比与第二真实信噪比之间的损失值，并将该损失值添加至目标损失集；

和/或

获取第一有噪音频的第一真实长度；

利用神经网络模型确定第一有噪音频的第一预测长度；

计算第一预测长度与第一真实长度之间的损失值，并将该损失值添加至目标损失集；

和/或

获取第二有噪音频的第二真实长度；

利用神经网络模型确定第二有噪音频的第二预测长度；

计算第二预测长度与第二真实长度之间的损失值，并将该损失值添加至目标损失集。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种音频识别模型训练装置，该装置训练得到的音频识别模型无需关注噪声大小、时长大小与相似度大小是不是线性关系，也不用关注音频中的噪声大小，因此可以降低计算开支和耗时，还提高了音色相似度的纠正准确率。

请参见图6，图6为本申请实施例提供的一种音色相似度检测装置示意图，包括：

待处理数据获取模块601，用于获取第一音频和第二音频；

待处理特征提取模块602，用于将第一音频和第二音频分别输入音色提取模型，以使音色提取模型输出第一音频对应的第一音色特征，以及第二音频对应的第二音色特征；

待纠正相似度计算模块603，用于计算第一音色特征和第二音色特征的待纠正相似度；

相似度纠正模块604，用于将第一音色特征、第二音色特征和待纠正相似度输入音频识别模型，以使音频识别模型输出相似度检测结果；音频识别模型利用上述任意实施例提供的音频识别模型训练方法训练获得；

音色相似度确定模块605，用于基于相似度检测结果确定第一音频和第二音频的音色相似度。

在一种具体实施方式中，待纠正相似度计算模块具体用于：

基于PLDA或余弦距离计算待纠正相似度。

在一种具体实施方式中，音色相似度确定模块具体用于：

若相似度检测结果为第一音频和第二音频属于同一音色的概率值，则将概率值确定为音色相似度；

或

若相似度检测结果为第一音色特征和第二音色特征的无噪相似度，则将无噪相似度确定为音色相似度；

或

若相似度检测结果为待纠正相似度与音色相似度的偏移量，则将待纠正相似度和偏移量之和确定为音色相似度。

在一种具体实施方式中，还包括：

待纠正相似度优化模块，用于利用线性公式优化待纠正相似度；线性公式为：

S'＝W₀+W₁S+W₂SNR_x+W₃SNR_y+W₄L_x+W₅L_y；

其中，S'为优化后的待纠正相似度，S为优化前的待纠正相似度，SNR_x为第一音频的信噪比，SNR_y为第二音频的信噪比，L_x为第一音频的长度，L_y为第二音频的长度，W₀为预设偏置参数，W₁、W₂、W₃、W₄、W₅为预设权重。

可见，本实施例提供了一种色相似度纠正装置，该装置利用音频识别模型纠正音色相似度，无需关注噪声大小、时长大小与相似度大小是不是线性关系，也不用关注音频中的噪声大小，因此可以降低计算开支和耗时，还提高了音色相似度的纠正准确率。

下面通过具体的应用场景实例描述，来介绍本申请提供的方案。

在常用的音乐应用程序中，歌手音色识别功能广泛用于相似歌曲推荐、歌曲分类、歌手身份确认等场景。具体的，用户可以自行录制歌曲，然后确定所录制歌曲与音乐应用程序的歌曲库中其他歌曲的音色差异。可见，使用本申请所提供的方案可以对非专业移动设备录制的歌曲进行音色匹配，并保障音色匹配的准确度，提升用户体验。

若基于本申请分类歌曲(即将同一歌手的歌曲分类到一起)，那么可以构建歌曲分类平台，歌曲分类平台中设有训练完成的音色提取模型、音频识别模型。将海量歌曲存储在服务器上。

请参见图7，该歌曲分类流程包括如下步骤：

S701、歌曲分类平台从服务器中获取任意两个歌曲；

S702、歌曲分类平台将这两个歌曲分别输入音色提取模型，以使音色提取模型输出两个歌曲分别对应的音色特征；

S703、歌曲分类平台计算两个音色特征的待纠正相似度；

S704、歌曲分类平台将两个音色特征和待纠正相似度输入音频识别模型，以使音频识别模型输出相似度检测结果；

S705、歌曲分类平台基于相似度检测结果确定两个歌曲的音色相似度；

S706、歌曲分类平台基于该音色相似度判断这两个歌曲是否由同一歌手演唱，若是，则将这两个歌曲归类至同一歌曲集；若否，则对这两个歌曲标记相应音色特征；

S707、歌曲分类平台将相应结果推送至管理客户端；

其中，可以设置相应阈值，若S705得到的音色相似度大于该阈值，则认为这两个歌曲由同一歌手演唱，否则，认为这两个歌曲由不同歌手演唱，并对这两个歌曲标记相应音色特征，以便后续分类。

S708、管理客户端展示相应结果。

在本实施例中，音频识别模型基于深度神经网络训练得到，其训练数据可参照图8进行准备。图8中的各个神经网络完全相同，均为音色提取模型。

在图8中，音色提取模型对于不定长度的歌声音频提取固定维度的向量作为音色特征，方便后面的相似度计算。对于任何一对音色特征(注册歌手音色特征和验证歌手音色特征)，可以使用PLDA计算其音色相似度。基于PLDA输出的音色相似度可判定是否为同一歌手。为了提高PLDA输出的音色相似度的准确度，本实施例继续使用音频识别模型对其进行纠正。当然，PLDA也可以替换为其他分类器，如：余弦相似度分类器(1减去两特征向量间的余弦距离)或其他能够计算相似度的神经网络分类器。

其中，对干净的无噪音频加噪时，需要灵活控制噪声比例，因此训练数据的信噪比已知。当然，加噪时还可以添加零噪声，这样加噪后的音频和加噪前的音频无异。也就是说，音频识别模型的输入数据也可以是干净的无噪音频。

按照图8所示的流程，可以基于干净无噪声的训练数据，得到相应的有噪训练数据，并计算得到无噪相似度分数、带噪相似度分数以及两者间的分数偏移。

音频识别模型的输出结果可以参照图9。图9中的输入层接收任一对带噪音色特征及其带噪相似度分数，可使模型适用于处理带噪音频。输出层设有多个输出节点，分别为：表示分类任务的1、2；回归任务包括的3、4、5、6、7、8。当然，还可以在回归任务添加歌手年龄、性别等，或删掉其中的几个节点。输入层和输出层之间包括多个隐层。图9中的箭头用于表示输入数据对各层的参数影响。

请参照图9，其中的1、2节点用于输出经纠正的相似度分数。此2节点最后经softmax函数操作，归一化至两者求和为一。例如，第2节点输出x％，则表示输入的两音频特征向量相似度为x％，而第一节点值必定为1-x％。其为该模型的主要任务。辅助任务不是分类任务，而是预测输入的音频的无噪相似度分数、分数偏移、噪声水平、音频长度等，因此是回归任务。

当然，模型实际使用时，可使用图9输出层的第3节点代替第2节点作为最终输出。因为第3节点输出的无噪分数与第2节点输出的概率值所表示都是两个音色特征的相似度大小。

此外，还可以使用图9输出层的第4节点代替第2节点作为最终输出。得到第4节点输出的分数偏移后，使用其对PLDA计算出的带噪分数进行分数补偿，即可得到两个音色特征的相似度大小。

可见，本实施例首先对无噪音频进行加噪，然后通过音色提取模型、PLDA计算出相似度分数，并获知了不同噪声水平下相似度分数的偏移量。接着训练深度神经网络，来纠正相似度分数。该深度神经网络还可以基于音色特征向量预测噪声水平、分数偏移，从而辅助深度神经网络进行多任务学习，提高了纠正后分数的准确率。使用本实施例的分数纠正方法，不仅利用非线性的深度神经网络对分数偏移进行建模，打破了原有方法的线性假设；更不需要在应用时估算音频的信噪比等信息，克服了系统耗时增加和难以精确估算等缺点。

由于多任务学习过程中，使用了音频的长度、信噪比等信息，因此在提高音色识别准确率的同时，也令经纠正的相似度分数在不同噪声环境、音频长度下都有了更为一致的分数分布，避免了分数阈值的划定难题。使用线性方程纠正相似度时，对于不同噪声环境、音频长度，所得出的音色相似度会有相差较大的分布，导致难以用同一的分数阈值进行身份确认。

进一步的，本申请实施例还提供了一种电子设备。其中，上述电子设备既可以是如图10所示的服务器50，也可以是如图11所示的终端60。图10和图11均是根据一示例性实施例示出的电子设备结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图10为本申请实施例提供的一种服务器的结构示意图。该服务器50，具体可以包括：至少一个处理器51、至少一个存储器52、电源53、通信接口54、输入输出接口55和通信总线56。其中，所述存储器52用于存储计算机程序，所述计算机程序由所述处理器51加载并执行，以实现前述任一实施例公开的音频识别模型训练方法及音色相似度检测方法中的相关步骤。

本实施例中，电源53用于为服务器50上的各硬件设备提供工作电压；通信接口54能够为服务器50创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口55，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器52作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统521、计算机程序522及数据523等，存储方式可以是短暂存储或者永久存储。

其中，操作系统521用于管理与控制服务器50上的各硬件设备以及计算机程序522，以实现处理器51对存储器52中数据523的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序522除了包括能够用于完成前述任一实施例公开的音频识别模型训练方法及音色相似度检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据523除了可以包括歌曲音频、应用程序的更新信息等数据外，还可以包括应用程序的开发商信息等数据。

图11为本申请实施例提供的一种终端的结构示意图，该终端60具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端60包括有：处理器61和存储器62。

其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器62可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器62至少用于存储以下计算机程序621，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的音频识别模型训练方法及音色相似度检测方法中的相关步骤。另外，存储器62所存储的资源还可以包括操作系统622和数据623等，存储方式可以是短暂存储或者永久存储。其中，操作系统622可以包括Windows、Unix、Linux等。数据623可以包括但不限于应用程序的更新信息。

在一些实施例中，终端60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。

本领域技术人员可以理解，图11中示出的结构并不构成对终端60的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的音频识别模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

需要指出的是，上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频识别模型训练方法，其特征在于，包括：

从训练样本库中获取第一无噪音频和第二无噪音频；

2.根据权利要求1所述的方法，其特征在于，还包括：

获取所述第一无噪音频和所述第二无噪音频的无噪相似度真实值；

利用所述神经网络模型确定所述第一有噪音频和所述第二有噪音频的无噪相似度预测值；

计算所述无噪相似度预测值与所述无噪相似度真实值之间的损失值，并将该损失值添加至所述目标损失集。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取所述第一无噪音频和所述第二无噪音频属于同一音色的概率真实值；

利用所述神经网络模型确定所述第一有噪音频和所述第二有噪音频属于同一音色的概率预测值；

计算所述概率预测值与所述概率真实值之间的损失值，并将该损失值添加至所述目标损失集。

4.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

获取所述第一有噪音频的第一真实信噪比；

利用所述神经网络模型确定所述第一有噪音频的第一预测信噪比；

计算所述第一预测信噪比与所述第一真实信噪比之间的损失值，并将该损失值添加至所述目标损失集；

和/或

获取所述第二有噪音频的第二真实信噪比；

利用所述神经网络模型确定所述第二有噪音频的第二预测信噪比；

计算所述第二预测信噪比与所述第二真实信噪比之间的损失值，并将该损失值添加至所述目标损失集；

和/或

获取所述第一有噪音频的第一真实长度；

利用所述神经网络模型确定所述第一有噪音频的第一预测长度；

计算所述第一预测长度与所述第一真实长度之间的损失值，并将该损失值添加至所述目标损失集；

和/或

获取所述第二有噪音频的第二真实长度；

利用所述神经网络模型确定所述第二有噪音频的第二预测长度；

计算所述第二预测长度与所述第二真实长度之间的损失值，并将该损失值添加至所述目标损失集。

5.一种音色相似度检测方法，其特征在于，包括：

获取第一音频和第二音频；

6.根据权利要求5所述的方法，其特征在于，所述计算所述第一音色特征和所述第二音色特征的待纠正相似度，包括：

基于PLDA或余弦距离计算所述待纠正相似度。

7.根据权利要求5所述的方法，其特征在于，

若所述相似度检测结果为第一音频和第二音频属于同一音色的概率值，则将该概率值确定为音色相似度；

或

若所述相似度检测结果为第一音色特征和第二音色特征的无噪相似度，则将该无噪相似度确定为音色相似度；

或

若所述相似度检测结果为所述待纠正相似度与所述音色相似度的偏移量，则将所述待纠正相似度和该偏移量之和确定为所述音色相似度。

8.根据权利要求5所述的方法，其特征在于，所述将所述第一音色特征、所述第二音色特征和所述待纠正相似度输入音频识别模型之前，还包括：

利用线性公式优化待纠正相似度；线性公式为：

S'＝W₀+W₁S+W₂SNR_x+W₃SNR_y+W₄L_x+W₅L_y；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至8任一项所述的方法。