CN116052718A

CN116052718A - 音频测评模型训练方法和装置、音频测评方法和装置

Info

Publication number: CN116052718A
Application number: CN202211688223.2A
Authority: CN
Inventors: 冯伟
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-02

Abstract

本申请涉及音频测评技术领域，具体涉及一种音频测评模型训练方法和装置、音频测评方法和装置、电子设备和计算机可读存储介质，以解决传统的音频测评方法准确性不高的问题。该音频测评模型训练方法，包括：确定包括正样本和负样本的第一训练语料，正样本包括具有相似声学特征的多个第一音频片段，负样本包括具有不相似声学特征的多个第一音频片段；利用第一训练语料，对初始编码模型进行预训练，得到音频编码子模型；基于音频编码子模型和初始测评子模型，确定初始音频测评模型；确定第二训练语料；利用第二训练语料，对初始音频测评模型进行迁移学习训练，得到音频测评模型。

Description

音频测评模型训练方法和装置、音频测评方法和装置

技术领域

本申请涉及音频测评技术领域，具体涉及一种音频测评模型训练方法和装置、音频测评方法和装置、电子设备和计算机可读存储介质。

背景技术

传统的音频测评方法是利用大量标注好的音频样本训练学习模型，从而得到训练好的学习模型，进而利用训练好的学习模型去测评音频数据。然而，标注大量的音频样本需要耗费大量的人力，导致人力成本高。另外，人工标注也会存在主观因素，导致标注的音频样本准确性不高，进而导致使用该音频样本训练得到的学习模型的准确性不高。

发明内容

有鉴于此，本申请实施例提供了一种音频测评模型训练方法和装置、音频测评方法和装置、电子设备和计算机可读存储介质，以解决传统的音频测评方法准确性不高的问题。

本申请第一方面提供了一种音频测评模型训练方法，包括：确定包括正样本和负样本的第一训练语料，其中，所述正样本包括具有相似声学特征的多个第一音频片段，所述负样本包括具有不相似声学特征的多个第一音频片段；利用所述第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，所述音频编码子模型用于将音频片段表示为特征向量；基于所述音频编码子模型和初始测评子模型，确定初始音频测评模型，其中，所述初始音频测评模型包括所述音频编码子模型和所述初始测评子模型，所述初始测评子模型用于对所述音频片段对应的特征向量进行评分；确定第二训练语料，其中，所述第二训练语料包括多个第二音频片段和所述多个第二音频片段各自对应的标签；利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型。

在一个实施例中，利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型，包括：将所述多个第二音频片段输入所述初始音频测评模型，得到预测音频测评结果，所述预测音频测评结果用于表征所述多个第二音频片段各自对应的评分；利用多个损失函数，基于所述预测音频测评结果和所述多个第二音频片段各自对应的标签，计算多个损失值；基于所述多个损失值，计算总损失值；基于所述总损失值调整所述初始音频测评模型的参数，得到所述音频测评模型。

在一个实施例中，所述初始测评子模型包括第一全连接层和第二全连接层；所述将所述多个第二音频片段输入所述初始音频测评模型，得到预测音频测评结果，包括：将所述多个第二音频片段输入所述音频编码子模型，得到所述多个第二音频片段各自对应的第二音频特征向量；将所述多个第二音频片段各自对应的第二音频特征向量输入所述第一全连接层，得到所述多个第二音频片段各自对应的类别数据，其中，所述类别数据用于表征音频片段所属的曲目类别；将所述多个第二音频片段各自对应的第二音频特征向量和所述多个第二音频片段各自对应的类别数据输入所述第二全连接层，得到所述预测音频测评结果。

在一个实施例中，所述多个损失函数包括：均方差损失函数、分差一致性约束损失函和交叉熵损失函数。

在一个实施例中，所述初始编码模型包括编码层和投影层；所述利用所述第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，包括：将所述多个第一音频片段输入所述编码层，得到与所述多个第一音频片段一一对应的多个第一音频特征向量；将所述多个第一音频特征向量输入所述投影层，得到与所述多个第一音频特征向量一一对应的多个降维后的特征向量；利用对比函数计算所述多个降维后的特征向量中的每一组降维后的特征向量的相似值，其中，所述一组降维后的特征向量包括所述多个降维后的特征向量中的两个降维后的特征向量；基于所述每一组降维后的特征向量的相似值调整所述初始编码模型的参数，得到所述音频编码子模型。

在一个实施例中，所述确定包括正样本和负样本的第一训练语料，包括：获取多个初始第一音频片段；对所述多个初始第一音频片段中的一个初始第一音频片段进行数据增强操作，得到所述正样本；对所述多个初始第一音频片段中的除所述一个初始第一音频片段之外的初始第一音频片段进行所述数据增强操作，得到所述负样本。

本申请第二方面提供了一种音频测评方法，包括：确定待测评音频片段；利用音频测评模型对所述待测评音频片段进行测评，得到所述待测评音频片段对应的音频测评结果，其中，所述音频测评模型基于上述任一实施例所述的音频测评模型训练方法得到。

本申请第三方面提供了一种音频测评模型训练装置，包括：语料确定模块，配置为确定包括正样本和负样本的第一训练语料，其中，所述正样本包括具有相似声学特征的多个第一音频片段，所述负样本包括具有不相似声学特征的多个第一音频片段；预训练模块，配置为利用所述第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，所述音频编码子模型用于将音频片段表示为特征向量；初始模型确定模块，配置为基于所述音频编码子模型和初始测评子模型，确定初始音频测评模型，其中，所述初始音频测评模型包括所述音频编码子模型和所述初始测评子模型，所述初始测评子模型用于对所述音频片段对应的特征向量进行评分；语料获取模块，配置为确定第二训练语料，其中，所述第二训练语料包括多个第二音频片段和所述多个第二音频片段各自对应的标签；迁移学习训练模块，配置为利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型。

本申请第四方面提供了一种音频测评装置，包括：待测音频确定模块，配置为确定待测评音频片段；测评模块，配置为利用音频测评模型对所述待测评音频片段进行测评，得到所述待测评音频片段对应的音频测评结果，其中，所述音频测评模型基于上述任一实施例所述的音频测评模型训练方法得到。

本申请第五方面提供了一种电子设备，包括：处理器；和存储器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时，所述处理器执行上述任一实施例所述的方法。

本申请第六方面提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器运行时，处理器执行上述任一实施例所述的方法。

本申请实施例提供的音频测评模型训练方法，先利用包括正样本和负样本的第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，所述正样本包括具有相似声学特征的多个第一音频片段，所述负样本包括具有不相似声学特征的多个第一音频片段，然后，基于所述音频编码子模型和初始测评子模型，确定初始音频测评模型，最后，利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型，其中，第二训练语料包括多个第二音频片段和所述多个第二音频片段各自对应的标签。也就是说，本申请的音频测评模型训练方法，可以利用没有标签的第一训练语料对初始编码模型进行预训练，得到训练好的音频编码子模型，从而为后续的迁移学习训练提供了训练好的音频编码子模型，进而在对初始音频测评模型进行训练时，只需要少量的带有标签的第二训练语料即可得到训练好的音频测评模型。由于大量的第一训练语料均无需标签，降低了人工成本，且减少了人工标注产生的主观因素，提高了第一训练语料的准确性，从而提高了训练好的音频编码子模型的准确性，也提高了利用训练好的音频编码子模型得到的初始音频测评模型的准确性，进而提高了对初始音频测评模型进行迁移学习训练得到的音频测评模型的准确性。

附图说明

图1所示为本申请一实施例提供的音频测评模型训练方法的应用场景示意图。

图2为本申请一实施例提供的音频测评模型训练方法的流程示意图。

图3为本申请另一实施例提供的音频测评模型训练方法的流程示意图。

图4为本申请另一实施例提供的音频测评模型训练方法的流程示意图。

图5为本申请另一实施例提供的音频测评模型训练方法的流程示意图。

图6为本申请另一实施例提供的音频测评模型训练方法的流程示意图。

图7为本申请一实施例提供的音频测评方法的流程示意图。

图8为本申请一实施例提供的音频测评模型训练装置的结构示意图。

图9为本申请一实施例提供的音频测评装置的结构示意图。

图10所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本申请一实施例提供的音频测评模型训练方法的应用场景示意图。如图1所示，图1所示的场景包括模型生成设备110以及与模型生成设备110通信连接的样本生成设备120。具体而言，模型生成设备110用于确定包括正样本和负样本的第一训练语料，其中，正样本包括具有相似声学特征的多个第一音频片段，负样本包括具有不相似声学特征的多个第一音频片段；利用第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，音频编码子模型用于将音频片段表示为特征向量；基于音频编码子模型和初始测评子模型，确定初始音频测评模型，其中，初始音频测评模型包括音频编码子模型和初始测评子模型，初始测评子模型用于对音频片段对应的特征向量进行评分；确定第二训练语料，其中，第二训练语料包括多个第二音频片段和多个第二音频片段各自对应的标签；利用第二训练语料，对初始音频测评模型进行迁移学习训练，得到音频测评模型。样本生成设备120用于生成第一训练语料和第二训练语料，并将第一训练语料和第二训练语料发送给模型生成设备110。

在一些实施例中，也可以由模型生成设备110从样本生成设备120获取第一训练语料和第二训练语料。

在一些实施例中，如图1所示，图1所示的场景还包括音频测评设备130。模型生成设备110得到音频测评模型后，还可以将音频测评模型发送给音频测评设备130。音频测评设备130接收到音频测评模型后，利用该音频测评模型对待测评音频片段进行测评，得到音频测评结果。

在一些实施例中，模型生成设备110可以是一台或多台计算机，也可以是一台或多台服务器。样本生成设备120可以是一台或多台计算机，也可以是一台或多台服务器，还可以是手机、平板、笔记本等设备。音频测评设备130可以是一台或多台计算机，也可以是一台或多台服务器，还可以是手机、平板、笔记本等设备。

图2为本申请一实施例提供的音频测评模型训练方法的流程示意图。如图2所示，音频测评模型训练方法包括如下步骤。

步骤S210，确定包括正样本和负样本的第一训练语料。

具体地，正样本包括具有相似声学特征的多个第一音频片段，负样本包括具有不相似声学特征的多个第一音频片段。声学特征是指表示语音声学特性的物理量。例如表示音色的共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

步骤S220，利用第一训练语料，对初始编码模型进行预训练，得到音频编码子模型。

具体地，音频编码子模型用于将音频片段表示为特征向量。初始编码模型可以是包括Encoder的预训练模型。

在本申请一实施例中，利用第一训练语料，对初始编码模型进行预训练，可以是利用第一训练语料，对初始编码模型进行自监督的预训练。

具体地，自监督学习是通过对比的方式挖掘无标注数据中潜在的有效信息。将第一训练语料输入初始编码模型，得到多个特征向量，每个特征向量对应一个正样本或负样本。针对多个特征向量中的任意两个特征向量，可以通过以下公式(1)计算损失值。

其中，N表示一个训练批次中的样本数量，z_i和z_j表示多个特征向量中的任意两个特征向量，τ表示温度系数(又称，超参数)，sim(z_i,z_j)是计算两个向量之间的相似度的函数，例如，可以是余弦相似度函数。

根据损失值可以调整初始编码模型的参数，从而使初始编码模型能够实现在超球面上将正样本之间的距离拉近，将负样本之间的距离推远的目的。

步骤S230，基于音频编码子模型和初始测评子模型，确定初始音频测评模型。

具体地，初始音频测评模型包括音频编码子模型和初始测评子模型，初始测评子模型用于对音频片段对应的特征向量进行评分。初始测评子模型可以是深度学习模型。

步骤S240，确定第二训练语料。

具体地，第二训练语料包括多个第二音频片段和多个第二音频片段各自对应的标签。

示例性地，多个第二音频片段可以是多个第一音频片段中的一部分。多个第二音频片段也可以是与多个第一音频片段不同的音频片段。

步骤S250，利用第二训练语料，对初始音频测评模型进行迁移学习训练，得到音频测评模型。

利用第二训练语料，对初始音频测评模型进行迁移学习训练，可以是第二训练语料，对初始音频测评模型进行有监督的训练。

本申请实施例提供的音频测评模型训练方法，先利用包括正样本和负样本的第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，正样本包括具有相似声学特征的多个第一音频片段，负样本包括具有不相似声学特征的多个第一音频片段，然后，基于音频编码子模型和初始测评子模型，确定初始音频测评模型，最后，利用第二训练语料，对初始音频测评模型进行迁移学习训练，得到音频测评模型，其中，第二训练语料包括多个第二音频片段和多个第二音频片段各自对应的标签。

也就是说，本申请的音频测评模型训练方法，可以利用没有标签的第一训练语料对初始编码模型进行预训练，得到训练好的音频编码子模型，从而为后续的迁移学习训练提供了训练好的音频编码子模型，进而在对初始音频测评模型进行训练时，只需要少量的带有标签的第二训练语料即可得到训练好的音频测评模型。由于大量的第一训练语料均无需标签，降低了人工成本，且减少了人工标注产生的主观因素，提高了第一训练语料的准确性，从而提高了训练好的音频编码子模型的准确性，也提高了利用训练好的音频编码子模型得到的初始音频测评模型的准确性，进而提高了对初始音频测评模型进行迁移学习训练得到的音频测评模型的准确性。

下面详细描述如何对初始音频测评模型进行迁移学习训练。

图3为本申请另一实施例提供的音频测评模型训练方法的流程示意图。在图2所示实施例基础上延伸出图3所示实施例，下面着重叙述图3所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图3所示，在本申请实施例中，利用第二训练语料，对初始音频测评模型进行迁移学习训练，得到音频测评模型的步骤，包括如下步骤。

步骤310，将多个第二音频片段输入初始音频测评模型，得到预测音频测评结果。

具体地，预测音频测评结果用于表征多个第二音频片段各自对应的评分。

步骤320，利用多个损失函数，基于预测音频测评结果和多个第二音频片段各自对应的标签，计算多个损失值。

具体地，多个损失函数包括可以是均方差损失函数、分差一致性约束损失函和交叉熵损失函数。

示例性地，均方差损失函数(Mean Squared Error，MSE)有着曲线光滑、连续、处处可导的优点。均方差损失函数可以是以下公式(2)。

其中，L_MSE表示均方差损失函数的损失值，N表示一个训练批次中的样本数量，i为大于或等于1，且小于N的正整数。y′表示多个第二音频片段各自对应的评分，y表示多个第二音频片段各自对应的标签。

示例性地，分差一致性约束可以保持预测音频测评结果与标签之间的分差一致，让初始音频测评模型学习到不同演唱者的水平差异，使初始音频测评模型预测音频测评结果的区分度更强。分差一致性约束损失函可以是以下公式(3)。

其中，L_{diff-consistence}表示分差一致性约束损失函的损失值。N表示一个训练批次中的样本数量，i为小于N的正整数，j＝i+1。

和

表示任意两个第二音频片段各自对应的评分，y_i和y_j表示任意两个第二音频片段各自对应的标签。

与y_i对应同一个第二音频片段。

与y_j对应同一个第二音频片段。

示例性地，交叉熵损失函数可以对音乐类别进行准确的预测。交叉熵损失函数可以辅助初始音频测评模型在迁移学习阶段收敛并提供歌曲的类别信息使得模型可以结合歌曲类别进行准确的评分。交叉熵损失函数可以是以下公式(4)。

L_CE＝-[ylogy′+(1-y)log(1-y′)] (4)

其中，L_CE表示交叉熵损失函数的损失值，y′表示多个第二音频片段各自对应的评分，y表示多个第二音频片段各自对应的标签。

步骤330，基于多个损失值，计算总损失值。

具体地，基于多个损失值，计算总损失值，可以是计算多个损失值的和，从而得到总损失，也可以是计算多个损失值的平均值，从而得到总损失值。

步骤340，基于总损失值调整初始音频测评模型的参数，得到音频测评模型。

具体地，基于总损失值调整初始音频测评模型的参数，直到总损失值符合预设的阈值，即可得到训练好的初始音频测评模型，并将训练好的初始音频测评模型确定为音频测评模型。

通过计算多个损失值，基于多个损失值，计算总损失值，然后基于总损失值调整初始音频测评模型的参数，得到音频测评模型，可以为初始音频测评模型提供更加丰富的参考，从而提高音频测评模型的准确性。

下面详细描述如何利用初始音频测评模型得到预测音频测评结果。

图4为本申请另一实施例提供的音频测评模型训练方法的流程示意图。在图3所示实施例基础上延伸出图4所示实施例，下面着重叙述图4所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本申请实施例中，将多个第二音频片段输入初始音频测评模型，得到预测音频测评结果的步骤，包括如下步骤。

步骤410，将多个第二音频片段输入音频编码子模型，得到多个第二音频片段各自对应的第二音频特征向量。

具体地，音频编码子模型用于将音频片段表示为特征向量。

步骤420，将多个第二音频片段各自对应的第二音频特征向量输入第一全连接层，得到多个第二音频片段各自对应的类别数据。

具体地，初始测评子模型包括第一全连接层和第二全连接层。类别数据用于表征音频片段所属的曲目类别。曲目类别可以是根据实际需求进行曲目分类的类别。例如，每一首曲目均可是一种曲目类别。

步骤430，将多个第二音频片段各自对应的第二音频特征向量和多个第二音频片段各自对应的类别数据输入第二全连接层，得到预测音频测评结果。

具体地，多个第二音频片段各自对应的类别数据可以作为多个第二音频片段各自对应的第二音频特征向量的偏置。预测音频测评结果可以包括多个维度的评分。评分维度可以有表现力、流畅度、音准、节奏、歌词、综合分六个维度。

通过先对第二音频特征向量进行分类，再进行评分，可以在分类的基础上进行更加细致的评分，从而提高预测音频测评结果的准确性。

下面详细描述如何利用第一训练语料，对初始编码模型进行预训练。

图5为本申请另一实施例提供的音频测评模型训练方法的流程示意图。在图2所示实施例基础上延伸出图5所示实施例，下面着重叙述图5所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本申请实施例中，利用第一训练语料，对初始编码模型进行预训练，得到音频编码子模型的步骤，包括如下步骤。

步骤510，将多个第一音频片段输入编码层，得到与多个第一音频片段一一对应的多个第一音频特征向量。

具体地，初始编码模型包括编码层和投影层。编码层用于对多个第一音频片段进行编码，得到与多个第一音频片段一一对应的多个第一音频特征向量。

步骤520，将多个第一音频特征向量输入投影层，得到与多个第一音频特征向量一一对应的多个降维后的特征向量。

具体地，投影层用于对多个第一音频特征向量进行降维处理。投影层可以是对数据进行非线性变换的Project结构。

步骤530，利用对比函数计算多个降维后的特征向量中的每一组降维后的特征向量的相似值。

具体地，一组降维后的特征向量包括多个降维后的特征向量中的两个降维后的特征向量。每一组降维后的特征向量的相似值可以利用公式(1)计算得到，即每一组降维后的特征向量的相似值可以是利用公式(1)计算得到的损失值。

步骤540，基于每一组降维后的特征向量的相似值调整初始编码模型的参数，得到音频编码子模型。

通过投影层对多个第一音频特征向量进行降维处理，降低了后续进行对比计算的数据量，提高了计算效率。

下面详细描述如何确定包括正样本和负样本的第一训练语料。

图6为本申请另一实施例提供的音频测评模型训练方法的流程示意图。在图2所示实施例基础上延伸出图6所示实施例，下面着重叙述图6所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图6所示，在本申请实施例中，确定包括正样本和负样本的第一训练语料的步骤，包括如下步骤。

步骤610，获取多个初始第一音频片段。

示例性地，多个初始第一音频片段可以是通过对音频数据进行分帧、预加重、频谱特征提取等处理得到的。每个初始第一音频片段的维度可以是[40,lenght]，其中length与初始第一音频片段长度相关，关系式为length＝初始第一音频片段的时长*100。

步骤620，对多个初始第一音频片段中的一个初始第一音频片段进行数据增强操作，得到正样本。

具体地，数据增强操作可以是随机裁剪、高斯噪声、音频增益、时域掩蔽和Mixup等操作。

步骤630，对多个初始第一音频片段中的除一个初始第一音频片段之外的初始第一音频片段进行数据增强操作，得到负样本。

具体地，构建正负样本的目的是为了在高维投影面上将相似的音频聚在一起，不相似的音频在高维投影面上相距较远，模仿了人类的学习场景，对相似事物进行归类，对不相似事物进行区分。

对一个初始第一音频片段做的数据增强并不改变其携带的语义信息，但不同的初始第一音频片段的声学特征本身语义信息不相关，增强后仍然无关。因此可以认为对一个初始第一音频片段做数据增强后的数据具有相似性，而对不同的初始第一音频片段做数据增强后的数据不相似。因此，通过对一个初始第一音频片段进行数据增强操作，得到正样本，保证了正样本的准确性。

图7为本申请一实施例提供的音频测评方法的流程示意图。如图7所示，音频测评方法包括如下步骤。

步骤S710，确定待测评音频片段。

步骤S720，利用音频测评模型对待测评音频片段进行测评，得到待测评音频片段对应的音频测评结果。

具体地，音频测评模型基于上述实施例的音频测评模型训练方法得到。

具体地，待测评音频片段对应的音频测评结果可以包括待测评音频片段的评分。

上文结合图2至图7，详细描述了本申请的方法实施例，下面结合图8和图9，详细描述本申请的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图8为本申请一实施例提供的音频测评模型训练装置的结构示意图。如图8所示，该音频测评模型训练装置800包括：语料确定模块810、预训练模块820、初始模型确定模块830、语料获取模块840和迁移学习训练模块850。

具体地，语料确定模块810配置为，确定包括正样本和负样本的第一训练语料，其中，正样本包括具有相似声学特征的多个第一音频片段，负样本包括具有不相似声学特征的多个第一音频片段。预训练模块820配置为，利用第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，音频编码子模型用于将音频片段表示为特征向量。初始模型确定模块830配置为，基于音频编码子模型和初始测评子模型，确定初始音频测评模型，其中，初始音频测评模型包括音频编码子模型和初始测评子模型，初始测评子模型用于对音频片段对应的特征向量进行评分。语料获取模块840配置为，确定第二训练语料，其中，第二训练语料包括多个第二音频片段和多个第二音频片段各自对应的标签。迁移学习训练模块850配置为，利用第二训练语料，对初始音频测评模型进行迁移学习训练，得到音频测评模型。

在一些实施例中，迁移学习训练模块850进一步配置为，将多个第二音频片段输入初始音频测评模型，得到预测音频测评结果，预测音频测评结果用于表征多个第二音频片段各自对应的评分；利用多个损失函数，基于预测音频测评结果和多个第二音频片段各自对应的标签，计算多个损失值；基于多个损失值，计算总损失值；基于总损失值调整初始音频测评模型的参数，得到音频测评模型。

在一些实施例中，初始测评子模型包括第一全连接层和第二全连接层。迁移学习训练模块850进一步配置为，将多个第二音频片段输入音频编码子模型，得到多个第二音频片段各自对应的第二音频特征向量；将多个第二音频片段各自对应的第二音频特征向量输入第一全连接层，得到多个第二音频片段各自对应的类别数据，其中，类别数据用于表征音频片段所属的曲目类别；将多个第二音频片段各自对应的第二音频特征向量和多个第二音频片段各自对应的类别数据输入第二全连接层，得到预测音频测评结果。

在一些实施例中，初始编码模型包括编码层和投影层。预训练模块820进一步配置为，将多个第一音频片段输入编码层，得到与多个第一音频片段一一对应的多个第一音频特征向量；将多个第一音频特征向量输入投影层，得到与多个第一音频特征向量一一对应的多个降维后的特征向量；利用对比函数计算多个降维后的特征向量中的每一组降维后的特征向量的相似值，其中，一组降维后的特征向量包括多个降维后的特征向量中的两个降维后的特征向量；基于每一组降维后的特征向量的相似值调整初始编码模型的参数，得到音频编码子模型。

在一些实施例中，语料确定模块进一步810配置为，获取多个初始第一音频片段；对多个初始第一音频片段中的一个初始第一音频片段进行数据增强操作，得到正样本；对多个初始第一音频片段中的除一个初始第一音频片段之外的初始第一音频片段进行数据增强操作，得到负样本。

图9为本申请一实施例提供的音频测评装置的结构示意图。如图9所示，该音频测评装置900包括：待测音频确定模块910和测评模块920。

具体地，待测音频确定模块910配置为，确定待测评音频片段。测评模块920配置为，利用音频测评模型对待测评音频片段进行测评，得到待测评音频片段对应的音频测评结果，其中，音频测评模型基于上述任一实施例提供的音频测评模型训练方法得到。

图10所示为本申请一实施例提供的电子设备的结构示意图。如图10所示，该电子设备1000包括：一个或多个处理器1001和存储器1002；以及存储在存储器1002中的计算机程序指令，计算机程序指令在被处理器1001运行时使得处理器1001执行如上述任一实施例的音频测评模型训练方法和/或音频测评方法。

处理器1001可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1000中的其他组件以执行期望的功能。

存储器1002可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1001可以运行程序指令，以实现上文的本申请的各个实施例的音频测评模型训练方法和/或音频测评方法中的步骤以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如音频片段、音频分类等信息。

在一个示例中，电子设备1000还可以包括：输入装置1003和输出装置1004，这些组件通过总线系统和/或其他形式的连接机构(图10中未示出)互连。

例如，在该电子设备1000是单机设备时，该输入装置1003可以是通信网络连接器，用于从外部的可移动设备接收所采集的输入信号。此外，该输入装置1003还可以包括例如键盘、鼠标、麦克风等等。

该输出装置1004可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备1000中与本申请有关的组件中的一些，省略了诸如总线、输入装置/输出接口等组件。除此之外，根据具体应用情况，电子设备1000还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的音频测评模型训练方法和/或音频测评方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的音频测评模型训练方法和/或音频测评方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的装置和设备的方框图仅作为示例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些装置和设备。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种音频测评模型训练方法，其特征在于，包括：

确定包括正样本和负样本的第一训练语料，其中，所述正样本包括具有相似声学特征的多个第一音频片段，所述负样本包括具有不相似声学特征的多个第一音频片段；

利用所述第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，所述音频编码子模型用于将音频片段表示为特征向量；

基于所述音频编码子模型和初始测评子模型，确定初始音频测评模型，其中，所述初始音频测评模型包括所述音频编码子模型和所述初始测评子模型，所述初始测评子模型用于对所述音频片段对应的特征向量进行评分；

确定第二训练语料，其中，所述第二训练语料包括多个第二音频片段和所述多个第二音频片段各自对应的标签；

利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型，包括：

将所述多个第二音频片段输入所述初始音频测评模型，得到预测音频测评结果，所述预测音频测评结果用于表征所述多个第二音频片段各自对应的评分；

利用多个损失函数，基于所述预测音频测评结果和所述多个第二音频片段各自对应的标签，计算多个损失值；

基于所述多个损失值，计算总损失值；

基于所述总损失值调整所述初始音频测评模型的参数，得到所述音频测评模型。

3.根据权利要求2所述的方法，其特征在于，所述初始测评子模型包括第一全连接层和第二全连接层；所述将所述多个第二音频片段输入所述初始音频测评模型，得到预测音频测评结果，包括：

将所述多个第二音频片段输入所述音频编码子模型，得到所述多个第二音频片段各自对应的第二音频特征向量；

将所述多个第二音频片段各自对应的第二音频特征向量输入所述第一全连接层，得到所述多个第二音频片段各自对应的类别数据，其中，所述类别数据用于表征音频片段所属的曲目类别；

将所述多个第二音频片段各自对应的第二音频特征向量和所述多个第二音频片段各自对应的类别数据输入所述第二全连接层，得到所述预测音频测评结果。

4.根据权利要求2所述的方法，其特征在于，所述多个损失函数包括：均方差损失函数、分差一致性约束损失函和交叉熵损失函数。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述初始编码模型包括编码层和投影层；所述利用所述第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，包括：

将所述多个第一音频片段输入所述编码层，得到与所述多个第一音频片段一一对应的多个第一音频特征向量；

将所述多个第一音频特征向量输入所述投影层，得到与所述多个第一音频特征向量一一对应的多个降维后的特征向量；

利用对比函数计算所述多个降维后的特征向量中的每一组降维后的特征向量的相似值，其中，所述一组降维后的特征向量包括所述多个降维后的特征向量中的两个降维后的特征向量；

基于所述每一组降维后的特征向量的相似值调整所述初始编码模型的参数，得到所述音频编码子模型。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述确定包括正样本和负样本的第一训练语料，包括：

获取多个初始第一音频片段；

对所述多个初始第一音频片段中的一个初始第一音频片段进行数据增强操作，得到所述正样本；

对所述多个初始第一音频片段中的除所述一个初始第一音频片段之外的初始第一音频片段进行所述数据增强操作，得到所述负样本。

7.一种音频测评方法，其特征在于，包括：

确定待测评音频片段；

利用音频测评模型对所述待测评音频片段进行测评，得到所述待测评音频片段对应的音频测评结果，其中，所述音频测评模型基于权利要求1至6任一项所述的音频测评模型训练方法得到。

8.一种音频测评模型训练装置，其特征在于，包括：

语料确定模块，配置为确定包括正样本和负样本的第一训练语料，其中，所述正样本包括具有相似声学特征的多个第一音频片段，所述负样本包括具有不相似声学特征的多个第一音频片段；

预训练模块，配置为利用所述第一训练语料，对初始编码模型进行预训练，得到音频编码子模型，其中，所述音频编码子模型用于将音频片段表示为特征向量；

初始模型确定模块，配置为基于所述音频编码子模型和初始测评子模型，确定初始音频测评模型，其中，所述初始音频测评模型包括所述音频编码子模型和所述初始测评子模型，所述初始测评子模型用于对所述音频片段对应的特征向量进行评分；

语料获取模块，配置为确定第二训练语料，其中，所述第二训练语料包括多个第二音频片段和所述多个第二音频片段各自对应的标签；

迁移学习训练模块，配置为利用所述第二训练语料，对所述初始音频测评模型进行迁移学习训练，得到音频测评模型。

9.一种音频测评装置，其特征在于，包括：

待测音频确定模块，配置为确定待测评音频片段；

测评模块，配置为利用音频测评模型对所述待测评音频片段进行测评，得到所述待测评音频片段对应的音频测评结果，其中，所述音频测评模型基于权利要求1至6任一项所述的音频测评模型训练方法得到。

10.一种电子设备，其特征在于，包括：

处理器；和

存储器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时，所述处理器执行权利要求1-7中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器运行时，所述处理器执行权利要求1-7中任一项所述的方法。