CN113744708A

CN113744708A - 模型训练方法、音频评价方法、设备及可读存储介质

Info

Publication number: CN113744708A
Application number: CN202111043654.9A
Authority: CN
Inventors: 江益靓; 张欢; 姜涛; 刘雨鑫; 胡鹏
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07
Also published as: CN113744708B

Abstract

本申请公开了一种模型训练方法、音频处理方法、设备及计算机可读存储介质，该模型训练方法包括：获取训练参考数据和对应的训练样本；训练样本包括正干声样本和负干声样本；将训练参考数据输入初始模型的参考特征提取网络，得到训练参考特征；将正干声样本输入初始模型，得到正样本特征，并将负干声样本输入初始模型，得到负样本特征；利用训练参考特征、正样本特征和负样本特征生成损失值；利用损失值对初始模型进行参数调整，若检测到满足训练完成条件，则将调整后的模型作为音频处理模型；该方法能够提供更加丰富的评价方式，从多个乐理角度进行评价，使得处理参数的可信度好，可靠性高。

Description

模型训练方法、音频评价方法、设备及可读存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及模型训练方法、音频评价方法、电子设备及计算机可读存储介质。

背景技术

在k歌软件中，通常需要对用户的演唱进行评价，以便用户进行比赛或清楚自身的演唱水平。相关技术通常以音准音高等作为评价基准对用户的干声进行评价，例如获取歌曲原唱的基频曲线，将用户干声的基频曲线与其比对，将匹配度作为用户演唱水平的评价参数。然而，相关技术的评价方式单一生硬，且没有考虑节奏、音色和谐程度等其他评价考量因素，使得评价参数可信度低。

发明内容

有鉴于此，本申请的目的在于提供一种模型训练方法、电子设备及计算机可读存储介质，使得对音频的评价参数的可信度好，可靠性高。

为解决上述技术问题，第一方面，本申请提供了一种模型训练方法，包括：

获取训练参考数据和对应的训练样本；所述训练样本包括正干声样本和负干声样本；

将所述训练参考数据输入初始模型的参考特征提取网络，得到训练参考特征；

将所述正干声样本输入所述初始模型，得到正样本特征，并将所述负干声样本输入所述初始模型，得到负样本特征；

利用所述训练参考特征、所述正样本特征和所述负样本特征生成损失值；

利用所述损失值对所述初始模型进行参数调整，调整趋势为使所述参考特征提取网络的参考输出与所述初始模型的正样本输出相靠近，使得所述参考输出与所述初始模型的负样本输出相远离；

若检测到满足训练完成条件，则利用调整后的模型得到音频处理模型；所述音频处理模型具有后处理网络，所述后处理网络用于对输入特征进行处理得到评价参数。

可选地，所述利用所述训练参考特征、所述正样本特征和所述负样本特征生成损失值，包括：

利用锚点输入、正例输入、负例输入和预设间隔计算带有间隔的三元组损失值；其中，所述锚点输入为所述训练参考特征，所述正例输入为所述正样本特征，所述负例输入为所述负样本特征。

可选地，所述初始模型包括两个目标特征提取网络，分别为正目标特征提取网络和负目标特征提取网络，所述正目标特征提取网络和所述负目标特征提取网络具有相同的网络参数；

所述将所述正干声样本输入所述初始模型，得到正样本特征，并将所述负干声样本输入所述初始模型，得到负样本特征，包括：

将所述正干声样本输入所述正目标特征提取网络，得到所述正样本特征，同时将所述负干声样本输入所述负目标特征提取网络，得到所述负样本特征。

可选地，所述利用所述损失值对所述初始模型进行参数调整，包括：

利用所述损失值对所述参考特征提取网络和所述正目标特征提取网络进行参数调整；

利用调整后的所述正目标特征提取网络的网络参数，对所述负目标特征提取网络进行参数替换。

可选地，所述利用所述初始模型得到音频处理模型，包括：

对所述初始模型或利用所述初始模型得到的目标模型增加后处理网络，得到所述音频处理模型；其中，所述目标模型是指所述初始模型经过网络删减后保留有一个目标特征提取网络的模型；所述后处理网络用于利用所述初始模型或所述目标模型的输出得到评价参数。

可选地，所述参考特征提取网络和目标特征提取网络分别具有一个特征生成模块和至少两个特征提取通道，各个所述特征提取通道用于提取不同类型的时频域信号，所述特征生成模块用于对各个所述不同类型的时频域信号进行处理，得到输出特征。

可选地，所述特征生成模块包括前端模块和后端模块，所述前端模块包括卷积神经网络层组和残差结构，所述后端模块包括自注意力模块。

第二方面，本申请还提供了一种音频评价方法，包括：

获取目标干声数据；

将所述目标干声音频输入音频处理模型的目标特征提取网络，得到目标干声特征；

将所述目标干声特征输入所述音频处理模型的后处理网络，得到评价参数；所述音频处理模型基于上述的模型训练方法得到。

可选地，若所述音频处理模型具有目标特征提取网络、参考特征提取网络和后处理网络，还包括：

将所述目标干声数据对应的目标参考数据输入所述参考特征提取网络，得到目标参考特征；

相应的，所述将所述目标干声特征输入所述音频处理模型的后处理网络，得到评价参数，包括：

利用所述后处理网络得到所述目标干声特征和所述目标参考特征之间的距离，并利用所述距离得到所述评价参数。

可选地，若所述音频处理模型具有目标特征提取网络和后处理网络，则将所述目标干声特征输入所述音频处理模型的后处理网络，得到评价参数，包括：

利用所述后处理网络对所述目标干声特征进行特征映射，得到所述评价参数。

第三方面，本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的模型训练方法，和/或，上述的音频处理方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的模型训练方法，和/或，上述的音频处理方法。

本申请提供的模型训练方法，获取训练参考数据和对应的训练样本；训练样本包括正干声样本和负干声样本；将训练参考数据输入初始模型的参考特征提取网络，得到训练参考特征；将正干声样本输入初始模型，得到正样本特征，并将负干声样本输入初始模型，得到负样本特征；利用训练参考特征、正样本特征和负样本特征生成损失值；利用损失值对初始模型进行参数调整，调整趋势为使参考特征提取网络的参考输出与初始模型的正样本输出相靠近，使得参考输出与初始模型的负样本输出相远离；若检测到满足训练完成条件，则将调整后的模型作为音频处理模型；音频处理模型具有后处理网络，后处理网络用于对输入特征进行处理得到评价参数。

本申请提供的一种音频处理方法，获取目标干声数据；将目标干声音频输入音频处理模型的目标特征提取网络，得到目标干声特征；将目标干声特征输入音频处理模型的后处理网络，得到评价参数；音频处理模型基于上述的模型训练方法得到。

可见，本申请采用对度量学习的方法训练得到音频处理模型。具体的，初始模型中，包括参考特征提取网络，用于提取作为评价标准的参考特征，在获取到训练参考数据和对应的训练样本后，将训练参考数据输入参考特征提取网络，可以得到对应的训练参考特征，该特征能够表现训练参考数据的特性。训练样本包括正干声样本和负干声样本，正干声样本是指基于人类歌唱评价经验得到的较佳的干声样本，负干声样本为较差的干声样本，利用初始模型分别对其进行特征提取，可以得到对应的正样本特征和福样本特征。在得到上述三种特征后，利用其生成损失值，该损失值用于对初始网络进行参数调整，达到使参考特征提取网络的参考输出与初始模型的正样本输出相靠近，同时使得参考输出与初始模型的负样本输出相远离的目的。由于根据经验认为较佳的演唱通常与作为参考的数据相对相似，而较差的演唱通常与作为参考的数据向背离，因此利用上述损失值，可以对初始模型的特征提取方式进行改进，使得得到的特征更能够准确地表征训练参考数据与训练样本之间的差距，使得特征提取的过程更加贴近人类根据经验对演唱干声进行评价的效果。在进行音频处理时，将用户演唱的目标干声数据输入训练好的音频处理模型，音频处理模型可以根据人类评价经验从多个乐理角度综合进行特征提取和评价，得到评价参数。即提供了更加丰富的评价方式，从乐理的多个角度进行评价，使得处理参数的可信度好，可靠性高。

此外，本申请还提供了一种电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种模型训练方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种模型训练方法的流程示意图；

图4为本申请实施例提供的一种训练效果示意图；

图5为本申请实施例提供的一种具体的初始模型结构示意图；

图6为本申请实施例提供的一种具体的时频域信号示意图；

图7为本申请实施例提供的一种具体的评价参数生成流程图；

图8为本申请实施例提供的一种性能比较结果图；

图9为本申请实施例提供的另一种性能比较结果图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，先对本申请实施例提供的模型训练方法，和/或，音频处理方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种模型训练方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成模型训练方法，和/或，音频处理方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

获取训练参考数据和对应的训练样本；训练样本包括正干声样本和负干声样本；

将训练参考数据输入初始模型的参考特征提取网络，得到训练参考特征；

将正干声样本输入初始模型，得到正样本特征，并将负干声样本输入初始模型，得到负样本特征；

利用训练参考特征、正样本特征和负样本特征生成损失值；

利用损失值对初始模型进行参数调整，调整趋势为使参考特征提取网络的参考输出与初始模型的正样本输出相靠近，使得参考输出与初始模型的负样本输出相远离；

若检测到满足训练完成条件，则将调整后的模型作为音频处理模型。

和/或，

获取目标干声数据；

将目标干声音频输入音频处理模型的目标特征提取网络，得到目标干声特征；

将目标干声特征输入音频处理模型的后处理网络，得到评价参数；音频处理模型基于上述的模型训练方法得到。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行模型训练方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成模型训练方法，和/或，音频处理方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种模型训练方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是智能手机或其它智能终端，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高模型训练的处理效率。同时利用成本低，应用范围广的智能手机作为第一电子设备11，用于实现第二电子设备12与用户之间的交互。可以理解的是，该交互过程可以为：智能手机获取目标干声数据，并将目标干声数据发送至服务器，由服务器进行对目标干声数据的处理。服务器将处理得到的评价参数发送至智能手机。

基于上述说明，请参考图3，图3为本申请实施例提供的一种模型训练方法的一种流程示意图。该实施例中的方法包括：

S101：获取训练参考数据和对应的训练样本。

其中，训练样本包括正干声样本和负干声样本。正干声样本，是指演唱质量好的干声样本，负干声样本，是指演唱质量差的干声样本，演唱质量的优劣通常由人从各个乐理知识的角度进行评判。需要说明的是，正干声版本和负干声样本均与训练参考数据(即参考样本，例如为参考干声，即原唱，或者为伴奏)相对应，即三者是一一对应的关系。可以理解的是，训练参考数据的数量通常为多个，因此训练样本的数量同样为多个。对于训练参考数据和训练样本的获取方式，本实施例不做限定，可以根据需要进行选择，例如可以获取输入的选择参数，根据选择参数在若干个候选数据中确定训练参考数据，并将与训练参考数据对应的样本数据确定为训练样本。

S102：将训练参考数据输入初始模型的参考特征提取网络，得到训练参考特征。

初始模型，是指其本身未满足训练完成条件，且其训练过程也未满足训练完成条件的模型。经过迭代训练满足训练完成条件后，即可利用其得到音频处理模块。初始模型的具体结构本实施例不做限定，其中，具有一个参考特征提取网络。参考特征提取网络用于对参考数据进行特征提取，在训练过程中，其具体用于对训练参考数据进行特征提取，得到对应的训练参考特征。训练参考特征，是指能够反映训练参考数据在音频匹配方面的特征。

对于参考特征提取网络的结构，本实施例不做限定，可以理解的是，结构的不同会引起训练参考特征生成过程的不同，因此对于训练参考特征的生成过程本实施例同样不做限定。例如在一种实施方式中，若训练参考数据为音频形式，则特征提取过程可以包括时频域信号提取过程，在提取得到时频域信号后，对其进行隐向量提取，最终得到向量形式的训练参考特征。

S103：将正干声样本输入初始模型，得到正样本特征，并将负干声样本输入初始模型，得到负样本特征。

相应的，可以将正干声样本和负干声样本输入初始模型，初始模型可以分别对其进行特征提取，得到与正干声样本对应的正样本特征和与负干声样本对应的负样本特征。具体的，初始模型中可以包括目标特征提取网络，该网络的数量不做限定，例如可以为一个，可以对输入的样本进行特征提取；或者可以为两个，可以分别用于对正干声样本和负干声样本进行特征提取，在这种情况下，两个目标特征提取网络可以共享权重或者不共享权重。

对于正样本特征和负样本特征的具体生成方式，本实施例不做限定，但是需要说明的是，该生成方式需要与训练参考特征的生成方式相同。即，目标特征提取网络的结构应当与参考特征提取网络的结构相同，若三种特征的形式不同，则后续计算得到的损失值则无法对初始模型进行有效地调节。

需要说明的是，对于样本特征的生成时机在初始模型对训练样本处理过程中的位置，本实施例不做限定。即，样本特征(包括正样本特征和负样本特征)可以为初始模型对训练样本处理过程的最终结果；或者，样本特征可以为初始模型对训练样本处理过程的中间结果，即在得到样本特征后，初始模型的结构决定需要继续对其进行处理，但是后续处理得到的数据或参数并不影响模型训练过程。

S104：利用训练参考特征、正样本特征和负样本特征生成损失值。

S105：利用损失值对初始模型进行参数调整。

其中，生成的损失值用于使参考特征提取网络的参考输出与初始模型的正样本输出相靠近，使得参考输出与初始模型的负样本输出相远离。即对模型调整的趋势为使参考特征提取网络的参考输出与初始模型的正样本输出相靠近，使得参考输出与初始模型的负样本输出相远离。请参考图4，图4为本申请实施例提供的一种训练效果示意图，通过生成上述损失值即想要通过训练，使训练参考特征与正样本特征靠近，与负样本特征远离。损失值通过调节初始模型的参数，使得初始模型调节其特征提取的方式。本实施例并不限定损失值的具体类型和生成方式，任何可以实现上述效果的损失值均可。由于正干声样本为基于人类歌唱评价经验选定的演唱较好的干声，从乐理的角度来说，其与训练参考数据之间应当存在较多的相似点，因此能够准确反映二者特征的正样本特征和训练参考特征之间的距离应当较近，而负干声样本与训练参考数据之间的相似点应当较少，因此能够准确反映二者特征的负样本特征和训练参考特征之间的距离应当较远。因此，通过生成上述损失值，并利用损失值对初始模型的参数进行调整，可以使得初始模型能够更加准确地进行特征提取。

S106：若检测到满足训练完成条件，则利用处理后的模型得到音频处理模型。

训练完成条件，是指表征可以将初始模型确定为音频评价模型的条件，其可以对初始模型本身进行限制，或者可以对初始模型的训练过程进行限制。当初始模型本身满足训练完成条件(例如准确率条件达到阈值)，或者训练过程满足训练完成条件(例如训练轮次或训练时长达到阈值)，则可以利用初始模型得到音频处理模型。通过上述训练调参过程，调节后的模型能够以贴近人类歌唱评价经验的方式进行特征提取，得到的特征能够从多个乐理角度准确地表征输入数据的优劣。且，音频处理模型中还包括后处理网络，后处理网络用于对输入特征进行处理得到评价参数。评价参数用于表征输入特征对应的音频的演唱优劣程度，因此利用其得到的音频处理模型能够模仿人类对个场进行评价的过程进行音频评价。

应用本申请实施例提供的模型训练方法，采用对度量学习的方法训练得到音频处理模型。具体的，初始模型中，包括参考特征提取网络，用于提取作为评价标准的参考特征，在获取到训练参考数据和对应的训练样本后，将训练参考数据输入参考特征提取网络，可以得到对应的训练参考特征，该特征能够表现训练参考数据的特性。训练样本包括正干声样本和负干声样本，正干声样本是指基于人类歌唱评价经验得到的较佳的干声样本，负干声样本为较差的干声样本，利用初始模型分别对其进行特征提取，可以得到对应的正样本特征和福样本特征。在得到上述三种特征后，利用其生成损失值，该损失值用于对初始网络进行参数调整，达到使参考特征提取网络的参考输出与初始模型的正样本输出相靠近，同时使得参考输出与初始模型的负样本输出相远离的目的。由于根据经验认为较佳的演唱通常与作为参考的数据相对相似，而较差的演唱通常与作为参考的数据向背离，因此利用上述损失值，可以对初始模型的特征提取方式进行改进，使得得到的特征更能够准确地表征训练参考数据与训练样本之间的差距，使得特征提取的过程更加贴近人类根据经验对演唱干声进行评价的效果。在进行音频处理时，将用户演唱的目标干声数据输入训练好的音频处理模型，音频处理模型可以根据人类评价经验从多个乐理角度综合进行特征提取和评价，得到评价参数。即提供了更加丰富的评价方式，从乐理的多个角度进行评价，使得处理参数的可信度好，可靠性高。

基于上述实施例，本实施例对上述实施例中的部分步骤进行具体说明。在一种实施方式中，为了得到准确反映正样本特征、福样本特征和训练参考特征三者之间情况的损失值，利用所述训练参考特征、所述正样本特征和所述负样本特征生成损失值的过程可以包括如下步骤：

步骤11：利用锚点输入、正例输入、负例输入和预设间隔计算带有间隔的三元组损失值。

需要说明的是，锚点输入为训练参考特征，正例输入为正样本特征，负例输入为负样本特征。具体的，三元组损失值即Triplet loss，其是一种被广泛应用的度量学习损失，而带有间隔的三元组损失值即为Triplet Margin Loss，其在三元组损失值的基础上引入间隔参数，用于拉大目标与分布表的距离。具体的，本申请中，可以采用余弦相似度表征两个特征之间的距离，余弦相似度的计算方式为：

其中，A和B分别为两个特征，cosθ为为余弦相似度，则带有间隔的三元组损失具体为：

L(a,p,n)＝max{D(a,n)-D(a,p)+α,0}

其中，L表示带有间隔的三元组损失，a表示锚点输入，p表示正例输入，n表示负例输入，α表示间隔，α通常取大于零的值，D函数表示求余弦相似度。带有间隔的三元组损失能够准确地反映三者会见的情况，利用其进行参数调节能够起到较佳的效果。具体的，在一种具体的训练过程中，可以使用Adam优化算法(一种对随机梯度下降法的扩展算法)作为优化方法，学习率可以设置为10e-6，间隔可以设置为1。

基于上述实施例，在一种可行的实施方式中，为了提高特征提取速度，进而提高模型训练速度，初始模型包括两个目标特征提取网络，分别为正目标特征提取网络和负目标特征提取网络，正目标特征提取网络和负目标特征提取网络具有相同的网络参数，即二者之间的参数相同。在这种情况下，将正干声样本输入初始模型，得到正样本特征，并将负干声样本输入初始模型，得到负样本特征的过程可以包括：

步骤21：将正干声样本输入正目标特征提取网络，得到正样本特征，同时将负干声样本输入负目标特征提取网络，得到负样本特征。

由于初始模型中包括两个目标特征提取网络，因此可以同时进行正样本特征和负样本特征的提取，即将正干声样本输入正目标特征提取网络的同时将负干声样本输入负目标特征提取网络，以便提高特征提取的速度。通过权重共享，可以使得正负样本特征按照同样的标准提取。

在这种实施方式下，利用损失值对初始模型进行参数调整的过程可以包括：

步骤201：利用损失值对参考特征提取网络和正目标特征提取网络进行参数调整。

步骤202：利用调整后的正目标特征提取网络的网络参数，对负目标特征提取网络进行参数替换。

在本实施中，在对正目标特征提取网络的网络参数调整完毕后，负目标特征提取网络的网络参数直接替换，达成权重共享的状态。

在另一种可行的实施方式中，初始模型包括一个目标特征提取网络，则将正干声样本输入初始模型，得到正样本特征，并将负干声样本输入初始模型，得到负样本特征的过程可以包括：

步骤31：将正干声样本输入目标特征提取网络，并利用正干声样本对应的正样本标识标记输出结果，得到正样本特征；

步骤32：将负干声样本输入目标特征提取网络，并利用负干声样本对应的负样本标识标记输出结果，得到负样本特征。

由于仅有一个目标提取网络，因此特征提取的标准固定。为了使得初始模型清楚目标特征提取网络的输出内容，在将训练样本输入的同时，还可以输入对应的样本标识，即正样本标识或负样本标识，以便目标特征提取网络根据样本标识对输出的特征进行标记，在后续生成损失值时明确正样本特征和负样本特征的身份。在另一种实施方式中，样本标识可以不输入目标特征提取网络，而是直接在目标特征提取网络输出结果后对其进行标记。

基于上述实施例，在满足训练完成条件后，利用初始模型得到音频处理模型的过程可以包括：

步骤41：对初始模型或利用初始模型得到的目标模型增加后处理网络，得到音频处理模型。

其中，目标模型是指初始模型经过网络删减后保留有一个目标特征提取网络的模型，由于初始模型中可能存在两个目标特征提取网络，而两个目标特征提取网络参数相同。在音频处理模型的工作过程中，仅存在一个需要被评价的数据，即用户演唱的干声数据，因此仅需保留一个目标特征提取网络对该数据进行特征提取即可。在一种实施方式中，初始模型中包括参考特征提取网络，在应用时，还应当输入与用户演唱的干声数据相对应的参考数据；在另一种实施方式中，初始模型中不包括参考特征提取网络，在应用时，仅输入用户演唱的干声数据。

后处理网络用于利用初始模型或目标模型的输出得到评价参数，在一种实施方式中，其可以为由全连接层构成的网络，用于将距离映射为分值，映射方式可以选择线性映射；或者可以直接将特征进行处理得到分值。

进一步的，在一种实施方式中，参考特征提取网络和目标特征提取网络分别具有一个特征生成模块和至少两个特征提取通道，各个特征提取通道用于提取不同类型的时频域信号，特征生成模块用于对各个不同类型的时频域信号进行处理，得到输出特征。由于对相同的数据提取不同的时频域信号作为特征会损失一部分信息，因此，为了从多个角度进行音频评价，在进行特征提取时才哟功德特征提取网络可以包括多个特征提取通道，每个特征提取通道对应于一类时频域信号，具体可以为时域信号或频域信号。在得到多个类型的时频域信号后，利用特征生成模块对其进行综合处理，得到对应的特征。

进一步的，在一种实施方式中，特征生成模块包括前端模块和后端模块，前端模块包括卷积神经网络层组和残差结构，后端模块包括自注意力模块。具体的，特征生成模块用于将输入的多通道特征(例如为5通道特征)表示为隐空间中的一维向量，向量长度不做限定，例如可以为128。其中，前端模块用于进行特征提取，其中可以包含多层(例如7层)串行的卷积神经网络层。此外，前端模块中还加入了残差结构，用于提取输入的多通道时频域信号中局部的中高层信息，例如音色、音高和和弦等。前端模块提取出的特征图送入后端模块。后端模块包括自注意模力块，用于从前端网络的输出上提取时域上的特性，例如节奏特性、旋律线变化、和弦进行等等。该自注意力机制可以利用Bert(Bidirectional EncoderRepresentations from Transformers)模型中用到的Bert Encoder(编码器)和BertDecoder(解码器)实现。采用上述结构的特征生成模块能够生成具有更加丰富信息的特征。

请参考图5，图5为本申请实施例提供的一种具体的初始模型结构示意图。该初始模型中包括一个参考特征提取网络和两个目标特征提取网络，两个目标特征提取网络分别为正目标特征提取网络和负目标特征提取网络，二者之间权重共享。参考特征提取网络和两个目标特征提取网络均采用了上述说明的前端模块和后端模块的结构，利用其得到的特征用于进行三元组损失的计算。请参考图6，图6为本申请实施例提供的一种具体的时频域信号示意图，本申请中的参考特征提取网络和两个目标特征提取网络对应于5个特征提取通道，分别用于提取log-mei谱(即对数梅尔谱)、Chroma谱(即色度图谱)、基于调性距离的Chroma谱、基频曲线的时频谱表示和速度谱。

在得到音频处理模型后，可以利用其进行音频评价，具体可以包括如下步骤：

步骤51：获取目标干声数据。

步骤52：将目标干声音频输入音频处理模型的目标特征提取网络，得到目标干声特征。

步骤53：将目标干声特征输入音频处理模型的后处理网络，得到评价参数；音频处理模型基于上述的模型训练方法得到。

目标干声数据，是指需要被评价的干声数据。需要说明的是，音频处理模型中至少包括一个目标特征提取网络和一个后处理网络，目标特征提取网络用于对目标干声数据进行特征提取得到目标干声特征，后处理网络用于对输入特征(即目标干声特征)进行处理，得到对应的评价参数。除此以外，还可以包括一个参考特征提取网络。

请参考图7，图7为本申请实施例提供的一种具体的评价参数生成流程图。其中待预测的歌声即为目标干声数据。在将目标干声数据输入的同时，若音频处理模型还具有参考特征提取网络，则可以同时输入参考歌声(即参考歌声)或参考音乐(即参考伴奏)。对其进行特征提取后，可以得到两个隐向量，通过计算两个隐向量之间的距离或进一步映射为分数，可以得到评价参数，即评价参数可以为距离或分数形式。即，若音频处理模型具有目标特征提取网络、参考特征提取网络和后处理网络，则该方法还可以包括：

步骤61：将目标干声数据对应的目标参考数据输入参考特征提取网络，得到目标参考特征。

相应的，将目标干声特征输入音频处理模型的后处理网络，得到评价参数的过程可以包括：

步骤62：利用后处理网络得到目标干声特征和目标参考特征之间的距离，并利用距离得到评价参数。

具体的，利用距离得到评价参数，可以直接将距离确定为评价参数，或者可以利用距离进行映射得到评价参数。

在另一种实施方式中，若音频处理模型具有目标特征提取网络和后处理网络，则将目标干声特征输入音频处理模型的后处理网络，得到评价参数的过程可以包括：

步骤71：利用后处理网络对目标干声特征进行特征映射，得到评价参数。

在本实施方式中，音频处理模型中不存在参考特征提取网络，因此在得到目标干声特征后，直接利用后处理网络对其进行处理，即可得到目标干声特征。特征映射的具体方式不做限定，例如可以预设有特征与评价参数的预设表，利用目标干声特征搜索该预设表，得到对应的评价参数。

具体的，请参考图8，图8为本申请实施例提供的一种性能比较结果图，图中示出了若干种网络训练完毕后对于歌曲1～歌曲5的评价准确程度。其中，作为基准(baseline)的基础模型采用当前通用的训练方式进行训练，表中第三行Rori(reference withoriginal，即以原干声作为参考)模型采用了本申请提出的训练方式训练得到，且在音频处理过程中以原干声音频作为目标参考数据。可以看出，Rori模型对于各个歌曲的评价准确程度和综合评价准确程度都高于基于现有方式训练得到的模型。

进一步的，请参考图9，图9为本申请实施例提供的另一种性能比较结果图。其中示出了对于歌曲1～歌曲5，采用不同的特征提取通道的组合生成特征对识别准确程度的影响。其中，spec表示spectrogram，语谱图，Chroma表示色度图谱，f0表示基频曲线的时频谱表示，例如f0 pitch sequences，即f0音高序列，或者可以为f0 pitch histogram，即f0音高直方图。all是指包括log-mei谱(即对数梅尔谱)、Chroma谱(即色度图谱)、基于调性距离的Chroma谱、基频曲线的时频谱表示和速度谱这五个特征提取通道。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的模型训练方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的模型训练方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述利用所述训练参考特征、所述正样本特征和所述负样本特征生成损失值，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型包括两个目标特征提取网络，分别为正目标特征提取网络和负目标特征提取网络，所述正目标特征提取网络和所述负目标特征提取网络具有相同的网络参数；

4.根据权利要求3所述的模型训练方法，其特征在于，所述利用所述损失值对所述初始模型进行参数调整，包括：

5.根据权利要求1至4任一项所述的模型训练方法，其特征在于，所述利用所述初始模型得到音频处理模型，包括：

对所述初始模型或利用所述初始模型得到的目标模型增加所述后处理网络，得到所述音频处理模型；其中，所述目标模型是指所述初始模型经过网络删减后保留有一个目标特征提取网络的模型；所述后处理网络用于利用所述初始模型或所述目标模型的输出得到评价参数。

6.根据权利要求1至4任一项所述的模型训练方法，其特征在于，所述参考特征提取网络和目标特征提取网络分别具有一个特征生成模块和至少两个特征提取通道，各个所述特征提取通道用于提取不同类型的时频域信号，所述特征生成模块用于对各个所述不同类型的时频域信号进行处理，得到输出特征。

7.根据权利要求6所述的模型训练方法，其特征在于，所述特征生成模块包括前端模块和后端模块，所述前端模块包括卷积神经网络层组和残差结构，所述后端模块包括自注意力模块。

8.一种音频评价方法，其特征在于，包括：

获取目标干声数据；

将所述目标干声特征输入所述音频处理模型的后处理网络，得到评价参数；所述音频处理模型基于如权利要求1至7任一项所述的模型训练方法得到。

9.根据权利要求8所述的音频处理方法，其特征在于，若所述音频处理模型具有目标特征提取网络、参考特征提取网络和后处理网络，还包括：

10.根据权利要求8所述的音频处理方法，其特征在于，若所述音频处理模型具有目标特征提取网络和后处理网络，则将所述目标干声特征输入所述音频处理模型的后处理网络，得到评价参数，包括：

11.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的模型训练方法，和/或，如权利要求8至10任一项所述的音频处理方法。

12.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型训练方法，和/或，如权利要求8至10任一项所述的音频处理方法。