CN113744721A

CN113744721A - 模型训练方法、音频处理方法、设备及可读存储介质

Info

Publication number: CN113744721A
Application number: CN202111045114.4A
Authority: CN
Inventors: 江益靓; 姜涛; 赵合; 胡鹏
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07

Abstract

本申请公开了一种模型训练方法、音频处理方法、设备及计算机可读存储介质，该模型训练方法包括：获取训练数据；其中，训练数据包括训练干声数据及对应的训练伴奏数据；将训练干声数据输入初始模型的第一特征提取网络，得到训练干声特征；将训练伴奏数据输入初始模型的第二特征提取网络，得到训练伴奏特征；将训练干声特征和训练伴奏特征，输入初始模型的特征处理网络，得到训练参数；利用训练参数与训练数据的训练标签确定损失值，并利用损失值对初始模型进行参数调节；若检测到满足训练完成条件，则将调节后的模型确定为音频评价模型；能够提供更加丰富的评价方式，从乐理的多个角度进行评价，使得处理参数的可信度好，可靠性高。

Description

模型训练方法、音频处理方法、设备及可读存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及模型训练方法、音频处理方法、电子设备及计算机可读存储介质。

背景技术

在k歌软件中，通常需要对用户的演唱进行评价，以便用户进行比赛或清楚自身的演唱水平。相关技术通常以音准音高等作为评价基准对用户的干声进行评价，例如获取歌曲原唱的基频曲线，将用户干声的基频曲线与其比对，将匹配度作为用户演唱水平的评价参数。然而，相关技术的评价方式单一生硬，限制了用户的自由发挥，且没有考虑节奏、音色和谐程度等其他评价考量因素，使得评价参数可信度低。

发明内容

有鉴于此，本申请的目的在于提供一种模型训练方法、电子设备及计算机可读存储介质，使得对音频的评价参数的可信度好，可靠性高。

为解决上述技术问题，第一方面，本申请提供了一种模型训练方法，包括：

获取训练数据；其中，所述训练数据包括训练干声数据及对应的训练伴奏数据；

将所述训练干声数据输入初始模型的第一特征提取网络，得到训练干声特征；

将所述训练伴奏数据输入所述初始模型的第二特征提取网络，得到训练伴奏特征；

将所述训练干声特征和所述训练伴奏特征输入所述初始模型的拼接网络，得到待处理特征；

将所述待处理特征输入所述初始模型的特征处理网络，得到训练参数；

利用所述训练参数与所述训练数据的训练标签确定损失值，并利用所述损失值对所述初始模型进行参数调节；

若检测到满足训练完成条件，则将调节后的模型确定为音频评价模型。

可选地，所述训练标签的生成过程，包括：

输出所述训练数据对应的训练音频；

获取所述训练音频对应的若干组标签数据；其中，每组所述标签数据包括若干个训练子标签，不同的所述训练子标签对应于不同的歌声与伴奏匹配评价角度；

利用各组所述若干个训练子标签生成初始训练标签，并利用若干个所述初始训练标签生成所述训练标签。

可选地，所述初始模型为孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述第一特征提取网络进行参数调节；

利用调节后的所述第一特征提取网络参数，对所述第二特征提取网络进行参数替换；

利用所述损失值对所述特征处理网络进行参数调节。

可选地，所述初始模型为伪孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值分别对所述第一特征提取网络和所述第二特征提取网络进行参数调节；

利用所述损失值对所述特征处理网络进行参数调节。

可选地，所述初始模型为半孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述第一特征提取网络进行参数调节；

利用调节后的所述第一特征提取网络中的若干个第一网络层参数，对所述第二特征提取网络中对应的若干个第二网络层进行参数替换；

利用所述损失值对所述第二特征提取网络中的非第二网络层进行参数调节；

利用所述损失值对所述特征处理网络进行参数调节。

可选地，所述初始模型为变化孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述第一特征提取网络进行参数调节；

利用调节后的所述第一特征提取网络参数，对所述第二特征提取网络的第一分支进行参数替换；

利用所述损失值或所述第一特征提取网络对所述第二特征提取网络的第二分支进行参数调节；

利用所述损失值对所述特征处理网络进行参数调节。

第二方面，本申请还提供了一种音频处理方法，包括：

获取目标干声音频和对应的目标伴奏音频；

将所述目标干声音频输入音频评价模型的第一特征提取网络，得到目标干声特征；

将所述目标伴奏音频输入所述音频评价模型的第二特征提取网络，得到目标伴奏特征；

将所述目标干声特征与所述目标伴奏特征输入所述音频评价模型的拼接网络，得到目标特征；

将所述目标特征输入所述初始模型的特征处理网络，得到处理结果；其中，所述处理结果用于表征所述目标干声音频与所述目标伴奏音频之间的匹配和谐程度，所述目标伴奏音频基于如上述的模型训练方法得到。

可选地，所述获取目标干声音频和对应的目标伴奏音频，包括：

获取初始干声音频和对应的初始伴奏音频；

识别并去除所述初始干声音频中的静音空白部分，得到中间干声音频；

去除所述初始伴奏音频中的多余部分，得到中间伴奏音频；所述多余部分与所述静音空白部分在时间轴上相对应；

对所述中间干声音频和所述中间伴奏音频进行参数相同的滑窗分割处理，得到与所述中间干声音频对应的若干个所述目标干声音频，以及与所述中间伴奏音频对应的若干个所述目标伴奏音频；所述参数包括窗长和滑窗步长。

获取初始干声音频和对应的初始伴奏音频；

对所述初始干声音频和所述初始伴奏音频进行相同形式的分割处理，得到多个所述目标干声音频和对应的所述目标伴奏音频；

所述音频处理方法，还包括：

获取各个所述目标干声音频对应的所述处理结果；

利用所有的所述处理结果生成所述初始干声音频对应的评价结果。

第三方面，本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的模型训练方法，和/或，上述的音频处理方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的模型训练方法，和/或，上述的音频处理方法。

本申请提供的模型训练方法，获取训练数据；其中，训练数据包括训练干声数据及对应的训练伴奏数据；将训练干声数据输入初始模型的第一特征提取网络，得到训练干声特征；将训练伴奏数据输入初始模型的第二特征提取网络，得到训练伴奏特征；将训练干声特征和训练伴奏特征输入初始模型的拼接网络，得到待处理特征；将待处理特征输入初始模型的特征处理网络，得到训练参数；利用训练参数与训练数据的训练标签确定损失值，并利用损失值对初始模型进行参数调节；若检测到满足训练完成条件，则将调节后的模型确定为音频评价模型。

本申请提供的音频处理方法，获取目标干声音频和对应的目标伴奏音频；将目标干声音频输入音频评价模型的第一特征提取网络，得到目标干声特征；将目标伴奏音频输入音频评价模型的第二特征提取网络，得到目标伴奏特征；将目标干声特征与目标伴奏特征输入音频评价模型的拼接网络，得到目标特征；将目标特征输入初始模型的特征处理网络，得到处理结果；其中，处理结果用于表征目标干声音频与目标伴奏音频之间的匹配和谐程度，目标伴奏音频基于上述的模型训练方法得到。

可见，该方法利用训练数据对初始模型进行训练，得到音频评价模型。训练数据成组构建，其中包括训练干声数据和训练伴奏数据。初始模型中存在第一特征地区网络和第二特征提取网络，分别用于对训练干声数据和训练伴奏数据进行对应的特征提取，得到训练干声特征和训练伴奏特征。将训练干声特征和训练伴奏特征进行拼接得到目标特征后，将目标特征输入特征处理网络，特征处理网络可以综合考量二者(即训练干声特征和训练伴奏特征)之间的匹配和谐程度，得到能够反应该匹配和谐程度的训练参数。训练标签用于表示干声和伴奏的和谐程度，通过利用训练参数和训练标签确定损失值，可以确定初始网络的评价方式得到的评价结果与真实结果之间的差距，进而利用损失值对初始模型进行参数调节，对初始模型的评价方式进行改进，使其能够更加准确地评价干声和伴奏之间的和谐程度。在满足训练完成条件后，即可确定初始模型可以准确评价干声和伴奏的和谐程度，进而将其确定为音频评价模型。在应用时，分别将用户演唱的目标干声音频和歌曲对应的目标伴奏音频输入第一特征提取网络和第二特征提取网络，即可得到能够反映目标干声音频和目标伴奏音频和谐程度的处理结果。通过上述训练方式，可以得到能够评价用户干声和歌曲伴奏之间匹配程度的音频评价模型，能够提供更加丰富的评价方式，从乐理的多个角度进行评价，使得处理参数的可信度好，可靠性高。

此外，本申请还提供了一种电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种模型训练方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种模型训练方法的流程示意图；

图4为本申请实施例提供的一种具体的音频评价模型结构示意图；

图5为本申请实施例提供的另一种具体的音频评价模型结构示意图；

图6为本申请实施例提供的另一种具体的音频评价模型结构示意图；

图7为本申请实施例提供的另一种具体的音频评价模型结构示意图；

图8为本申请实施例提供的一种具体的音频波形图；

图9为本申请实施例提供的一种数据处理流程图；

图10为本申请实施例提供的一种音频处理流程示意图；

图11为本申请实施例提供的一种具体的音频评价结果生成流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，先对本申请实施例提供的模型训练方法，和/或，音频处理方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种模型训练方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成模型训练方法，和/或，音频处理方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

获取训练数据；其中，训练数据包括训练干声数据及对应的训练伴奏数据；

将训练干声数据输入初始模型的第一特征提取网络，得到训练干声特征；

将训练伴奏数据输入初始模型的第二特征提取网络，得到训练伴奏特征；

将训练干声特征和训练伴奏特征输入初始模型的拼接网络，得到待处理特征；

将待处理特征输入初始模型的特征处理网络，得到训练参数；

利用训练参数与训练数据的训练标签确定损失值，并利用损失值对初始模型进行参数调节；

和/或，

获取目标干声音频和对应的目标伴奏音频；

将目标干声音频输入音频评价模型的第一特征提取网络，得到目标干声特征；

将目标伴奏音频输入音频评价模型的第二特征提取网络，得到目标伴奏特征；

将目标干声特征与目标伴奏特征输入音频评价模型的拼接网络，得到目标特征；

将目标特征输入初始模型的特征处理网络，得到处理结果；其中，处理结果用于表征目标干声音频与目标伴奏音频之间的匹配和谐程度。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行模型训练方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成模型训练方法，和/或，音频处理方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种模型训练方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是智能手机或其它智能终端，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高模型训练的处理效率。同时利用成本低，应用范围广的智能手机作为第一电子设备11，用于实现第二电子设备12与用户之间的交互。可以理解的是，该交互过程可以为：智能手机获取目标干声音频或者获取训练干声数据，并将目标干声音频或者获取训练干声数据发送至服务器，由服务器进行模型的训练或音频的处理。服务器将训练得到的音频评价模型或处理得到的处理结果发送至智能手机。

基于上述说明，请参考图3，图3为本申请实施例提供的一种模型训练方法的一种流程示意图。该实施例中的方法包括：

S101：获取训练数据。

训练数据包括相互对应的训练干声数据及对应的训练伴奏数据，相互对应是指二者对应于同一首歌曲，且在对应的时间段相同。其中，干声是指无伴奏的人声，训练干声数据，是指用于训练的人声数据，训练伴奏数据，是指与训练干声数据相匹配的伴奏数据。对于训练数据的具体形式，本实施例不做限定，例如在一种可行的实施方式中，训练数据可以为音频文件数据，李如伟mp3格式；在另一种可行的实施方式中，训练数据可以为信号波形数据，即根据时间变化而变化的波形形式；在另一种可行的实施方式中，训练数据可以为时频域特征数据，例如可以为梅尔频谱图形式。根据训练后得到的音频评价模型的输入数据格式，可以适应性地选择对应格式的训练数据。

可以理解的是，训练数据的数量通常为多个，各个训练数据的内容风格等不做限定。具体的，可以利用各种曲风类型的歌曲生成训练数据，以便使得音频评价模型能够对各个类型的歌曲进行准确的评价。例如，训练数据中可以包括75％的流行音乐、15％的戏曲、5％的乡村音乐还有5％的其他流派音乐。此外，训练数据中的训练干声数据和训练伴奏数据在时间上相互对应，二者的长度可以根据需要设置。由于同一首歌曲中不同时间段的演唱方式可能发生变化，进而导致干声和伴奏相互匹配、和谐的方式发生变化。因此，为了提高模型的识别准确性，训练干声数据和训练伴奏数据的长度可以较短(例如小于5秒)，以便能够提取到更加准确的特征。

需要说明的是，训练数据可以在本地生成，或者可以从外部获取。例如在一种实施方式中，可以对指定的歌曲进行干声分离(或称为音源分离)，得到训练干声数据和训练伴奏数据；在另一种实施方式中，可以获取若干个训练干声数据和若干个训练伴奏数据，并根据获取到的对应关系数据将两类数据一一对应，得到训练数据。

S102：将训练干声数据输入初始模型的第一特征提取网络，得到训练干声特征。

初始模型，是指训练未完成的音频评价模型，其经过训练后满足训练完成条件，或者其训练过程满足训练完成条件后，将其确定为音频评价模型。初始模型中包括第一特征提取网络、第二特征提取网络和特征处理网络，其中，第一特征提取网络，是指用于提取干声特征的网络，第二特征提取网络，是指用于提取伴奏特征的网络，特征处理网络，是指用于对干声特征和伴奏特征进行处理并得到处理结果的网络。需要说明的是，本实施例并不限定第一特征提取网络、第二特征提取网络和特征处理网络的具体结构，可以根据需要对其进行设置。

在得到训练干声数据后，将其输入第一特征提取网络，即可得到对应的训练干声特征。根据第一特征提取网络的结构不同，训练干声特征的生成过程也可以不同。

S103：将训练伴奏数据输入初始模型的第二特征提取网络，得到训练伴奏特征。

相应的，在得到训练伴奏数据后，将其输入第二特征提取网络，即可得到对应的训练伴奏数据。特征提取网络能够对输入数据进行特征提取，以便利用输出的特征对输入数据的特点进行表示，为后续的特征处理网络提供数据基础。

需要说明的是，对于步骤S102和步骤S103的执行顺序，本申请实施例不做限定，可以理解的是，第一特征提取网络和第二特征提取网络分别用于提取不同的特征，两个网络单独工作，因此可以同时执行步骤S102和步骤S103。在另一种实施方式中，受到模型结构等因素的影响(例如仅存在一个特征提取网络，根据输入数据类型的不同，该特征提取网络的身份不同)，可以依次执行两个步骤，两个步骤的执行先后顺序不做限定。

S104：将训练干声特征和训练伴奏特征输入初始模型的拼接网络，得到待处理特征。

拼接网络，是指按照一定规则将输入的特征拼接为一个特征的网络，示例性的，可以将训练干声特征和训练伴奏特征首尾拼接，或者可以将两个特征穿插拼接，得到待处理特征。

S104：将待处理特征输入初始模型的特征处理网络，得到训练参数。

特征处理网络，是指根据特征确定干声和伴奏的匹配和谐程度的网络。因此，在得到待处理特征后，将其输入特征处理网络，由于训练干声特征表示了训练干声数据的特点，而训练伴奏特征表示了训练伴奏数据的特征，因此特征处理网络可以从两种数据的特点出发，检测二者是否匹配和和谐，或者匹配和和谐的程度有多少，并通过训练参数的形式对上述检测过程的结果进行表征。可以理解的是，训练参数的具体形式可以根据需要进行设置，例如可以为百分制的分值。

S105：利用训练参数与训练数据的训练标签确定损失值，并利用损失值对初始模型进行参数调节。

训练数据的训练标签，是指能够反映训练干声数据和训练伴奏数据之间真实匹配程度的标签，其通常由人工打标得到，或者可以利用打标网络生成。需要说明的是，干声与伴奏之间的匹配程度可以从多个乐理角度进行评价，例如音程一致性、节奏匹配度、音准和谐度、音色和谐度、动态一致性等，因此训练标签可以从多个角度反映训练干声数据和训练伴奏数据之间的匹配程度。利用训练参数和训练标签确定损失值，可以确定初始网络当前得到的结果与真实结果之间的距离，进而根据该距离对初始模型的参数进行调节，使得初始模型能够靠近真实结果，进而使其具备准确评价干声和伴奏和谐匹配程度的能力。本实施例并不限定损失值的形式和类型，例如可以为皮尔逊相关系数(Pearson相关系数)。通过多轮循环训练，提高模型的性能。

S106：若检测到满足训练完成条件，则将调节后的模型确定为音频评价模型。

训练完成条件，是指表征可以将初始模型确定为音频评价模型的条件，其可以对初始模型本身进行限制，或者可以对初始模型的训练过程进行限制。当初始模型本身满足训练完成条件(例如准确率条件达到阈值)，或者训练过程满足训练完成条件(例如训练轮次或训练时长达到阈值)，则可以将调节后的模型确定为音频评价模型。具体的，可以直接将调节完毕当前的初始模型确定为音频评价模型，或者可以对初始模型进行一定处理，例如去除用于生成损失值的网络层组等，得到音频评价模型。

应用本申请实施例提供的模型训练方法，利用训练数据对初始模型进行训练，得到音频评价模型。训练数据成组构建，其中包括训练干声数据和训练伴奏数据。初始模型中存在第一特征地区网络和第二特征提取网络，分别用于对训练干声数据和训练伴奏数据进行对应的特征提取，得到训练干声特征和训练伴奏特征。将训练干声特征和训练伴奏特征共同输入特征处理网络，特征处理网络可以综合考量二者之间的匹配和谐程度，得到能够反应该匹配和谐程度的训练参数。训练标签用于表示干声和伴奏的和谐程度，通过利用训练参数和训练标签确定损失值，可以确定初始网络的评价方式得到的评价结果与真实结果之间的差距，进而利用损失值对初始模型进行参数调节，对初始模型的评价方式进行改进，使其能够更加准确地评价干声和伴奏之间的和谐程度。在满足训练完成条件后，即可确定初始模型可以准确评价干声和伴奏的和谐程度，进而将其确定为音频评价模型。在应用时，分别将用户演唱的目标干声音频和歌曲对应的目标伴奏音频输入第一特征提取网络和第二特征提取网络，即可得到能够反映目标干声音频和目标伴奏音频和谐程度的处理结果。通过上述训练方式，可以得到能够评价用户干声和歌曲伴奏之间匹配程度的音频评价模型，能够提供更加丰富的评价方式，从乐理的多个角度进行评价，使得处理参数的可信度好，可靠性高。

基于上述实施例，本实施例对上述实施例中的部分步骤进行具体说明。在一种实施方式中，为了得到准确率较高的音频评价模型，则需要利用准确率较高的训练标签生成损失值进而进行参数调节。因此，训练标签的生成过程，包括：

步骤11：输出训练数据对应的训练音频。

步骤12：获取训练音频对应的若干组标签数据。

步骤13：利用各组若干个训练子标签生成初始训练标签，并利用若干个初始训练标签生成训练标签。

在需要得到训练标签时，可以将训练数据对应的训练音频输出，以便标记者根据该训练音频确定标签数据，其中，训练音频，是指训练干声数据和训练伴奏数据组成的歌曲音频。需要说明的是，每组标签数据包括若干个训练子标签，不同的训练子标签对应于不同的歌声与伴奏匹配评价角度(例如音程一致性、节奏匹配度、音准和谐度、音色和谐度、动态一致性等)。标记者在收听训练音频后，可以从上述的若干个歌声与伴奏匹配评价角度对训练音频进行评价，评价的方式即为输入对应的训练子标签。在本实施例中，可以存在若干个评价者，因此对于一个训练音频，可以获取对应的若干组标签数据。

在得到全部数量的标签数据后，可以利用其生成若干个初始训练标签，并利用各个初始训练标签进一步生成训练标签。本实施例并不限定初始训练标签和训练标签的具体生成方式，例如可以为平均计算或者为加权平均计算。

基于上述实施例，在一种实施方式中，初始模型可以为孪生网络，在这种情况下，利用损失值对初始模型进行参数调节的过程可以包括：

步骤21：利用损失值对第一特征提取网络进行参数调节。

步骤22：利用调节后的第一特征提取网络参数，对第二特征提取网络进行参数替换。

步骤23：利用损失值对特征处理网络进行参数调节。

孪生网络即孪生神经网络(Siamese neural network)，又名双生神经网络，是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。通常情况下，孪生神经网络由两个结构相同，且权重共享的神经网络拼接而成。因此在进行参数调节时，首先利用损失值对第一特征提取网络进行参数调节，在调节完成后，根据第一特征提取网络，对第二特征提取网络进行权重共享。权重共享即为将第二特征提取网络的参数更换为第一特征提取网络的参数，即利用调节后的第一特征提取网络参数，对第二特征提取网络进行参数替换。此外，还需要利用损失值对特征处理网络进行参数调节，即参数调节过程包括了对网络所有可调参数的调节。可以理解的是，在这种情况下，初始模型中可以仅包括一个特征提取网络，当输入为干声数据时，该特征网络为第一特征提取网络，否则为第二特征提取网络。需要说明的是，本实施例中，第一特征提取网络和第二特征提取网络可以更换，即对第二特征提取网络进行参数调节，并对第一特征提取网络进行权重共享。

请参考图4，图4为本申请实施例提供的一种具体的音频评价模型结构示意图。在应用过程中，分别输入目标干声和目标伴奏，其中的两个分支权重共享(即各层之间具有权重共享的通道)，且分别用于对目标干声和目标伴奏进行特征提取。然后经过汇总后输入特征处理网络，得到最终的结果。本实施例中，特征处理网络包括concat网络层(特征合并网络层)和FC网络层(Fully Connected layer，全连接层)组成的网络层组

在另一种实施方式中，初始模型可以为伪孪生网络。在这种情况下，利用损失值对初始模型进行参数调节的过程可以包括：

步骤31：利用损失值分别对第一特征提取网络和第二特征提取网络进行参数调节。

步骤32：利用损失值对特征处理网络进行参数调节。

伪孪生网络即pseudo-siamese network，其同样具有两个分支，但是两个分支分别具有自身的权重(即参数)。在这种情况下，需要利用损失值对第一特征提取网络和第二特征提取网络分别进行参数调节，且初始模型中必须包括两个特征提取网络。

请参考图5，图5为本申请实施例提供的另一种具体的音频评价模型结构示意图。在应用过程中，两个分支分别对目标干声和目标伴奏进行特征提取。

在另一种实施方式中，初始模型可以为半孪生网络。在这种情况下，利用损失值对初始模型进行参数调节，包括：

步骤41：利用损失值对第一特征提取网络进行参数调节。

步骤42：利用调节后的第一特征提取网络中的若干个第一网络层参数，对第二特征提取网络中对应的若干个第二网络层进行参数替换。

步骤43：利用损失值对第二特征提取网络中的非第二网络层进行参数调节。

步骤44：利用损失值对特征处理网络进行参数调节。

半孪生网络，是指初始模型的两个特征提取分支中前一部分网络层共享权重，而后一部分网络层不共享权重。因此在这种情况下，在利用损失值对第一特征提取网络进行参数调节后，利用其中的若干个第一网络层对第二特征提取网络中对应的第二网络层进行权重共享，则第二网络层不需要利用损失值进行参数调节。在权重共享的同时，或者在权重共享之前或之后，可以利用损失值对第二特征提取网络中的非第二网络层进行参数调节。本实施例中，第一特征提取网络和第二特征提取网络可以更换，即对第二特征提取网络进行参数调节，并对第一特征提取网络进行权重共享。

请参考图6，图6为本申请实施例提供的另一种具体的音频评价模型结构示意图。从中可以看出，两个特征提取网络的前四个网络层进行权重共享，剩余的网络层不共享。

在另一种实施方式中，初始模型可以为变化孪生网络。在这种情况下，利用损失值对初始模型进行参数调节，包括：

步骤51：利用损失值对第一特征提取网络进行参数调节。

步骤52：利用调节后的第一特征提取网络参数，对第二特征提取网络的第一分支进行参数替换。

步骤53：利用损失值或第一特征提取网络对第二特征提取网络的第二分支进行参数调节。

步骤54：利用损失值对特征处理网络进行参数调节。

变化孪生网络是伪孪生网络和半孪生网络的结合体，具体的，第二特征提取网络具有两个分支结构，一个分支结构和第一特征提取网络完全相同，在训练时共享权重；另一个分支结构第一特征提取网络可以相同，也可以不相同。若不同，则需要利用损失值单独对第二分支进行参数调节；若相同，则可以基于第一特征提取网络对其进行参数调节。

请参考图7，图7为本申请实施例提供的另一种具体的音频评价模型结构示意图，其中展示了第二分支与第一特征提取网络不共享权重的情况。

基于上述实施例，在模型训练完毕后，即可利用其对用户的歌唱干声进行评价，判断其与对应的伴奏是否匹配。具体的，可以包括如下步骤：

步骤61：获取目标干声音频和对应的目标伴奏音频。

步骤62：将目标干声音频输入音频评价模型的第一特征提取网络，得到目标干声特征。

步骤63：将目标伴奏音频输入音频评价模型的第二特征提取网络，得到目标伴奏特征。

步骤64：将目标干声特征与目标伴奏特征输入音频评价模型的拼接网络，得到目标特征。

步骤65：将目标特征输入初始模型的特征处理网络，得到处理结果。其中，目标干声音频输入音频评价模型的第一特征提取网络，目标伴奏音频输入音频评价模型的第二特征提取网络，目标伴奏音频基于上述的模型训练方法得到。其中，目标干声音频，是指基于用户演唱得到的干声音频，目标伴奏音频是指与目标干声音频相匹配的伴奏音频。在将目标干声音频和目标伴奏音频输入对应的特征提取网络后，得到目标干声特征和目标伴奏特征，进而对其进行拼接得到目标特征，并将目标特征输入特征处理网络进行处理，音频评价模型即可输出对应的处理结果，该处理结果是指能够评价目标干声音频和目标伴奏音频之间的和谐匹配程度的结果，即处理结果用于表征目标干声音频与目标伴奏音频之间的匹配和谐程度。

在实际应用中，用户通常会连续演唱完整首歌后，获取对整首歌整体的演唱评价，而为了提高模型的准确率，目标干声音频和目标伴奏音频通常较短。在这种情况下，获取目标干声音频和对应的目标伴奏音频，包括：

步骤71：获取初始干声音频和对应的初始伴奏音频。

步骤72：识别并去除初始干声音频中的静音空白部分，得到中间干声音频。

步骤73：去除初始伴奏音频中的多余部分，得到中间伴奏音频。

步骤74：对中间干声音频和中间伴奏音频进行参数相同的滑窗分割处理，得到与中间干声音频对应的若干个目标干声音频，以及与中间伴奏音频对应的若干个目标伴奏音频。

初始干声音频，是指用户演唱的完整干声音频，其通常对应于一首完整歌曲或较长的歌曲片段(其长度超过窗长)，初始伴奏音频为与初始干声音频对应的伴奏音频。对于初始干声音频和初始伴奏音频的具体获取方式本实施例并不限定。请参考图8，图8为本申请实施例提供的一种具体的音频波形图。其中上方的音轨记录了初始干声音频，下方的音轨记录了初始伴奏音频。

由于歌曲中并不是全部时间均需要演唱，存在部分等待的时间，因此初始干声音频中存在部分空白，即静音空白部分。在静音空白部分，初始干声音频与初始伴奏音频不然不够匹配，且对静音空白部分进行评估也并不能反映用户的演唱水平，因此可以识别并去除初始干声音频中的静音空白部分，避免其对处理结果的准确程度造成干扰，得到中间干声音频。

由于对同一时刻对应的干声和伴奏进行匹配程度的检测才有意义，因此在去除静音空白部分后，将初始伴奏音频中的多余部分去除，得到中间伴奏音频。其中，多余部分与静音空白部分在时间轴上相对应。在得到中间伴奏音频后，利用滑窗分割的方式，对中间干声音频和中间伴奏音频进行分割，得到若干个目标干声音频和若干个目标伴奏音频。其中，参数包括窗长和滑窗步长，窗长即为每个目标干声音频和目标伴奏音频的长度，例如为5秒；滑窗步长即为每次滑动的距离，其通常为时间长度，例如2秒。

请参考图9，图9为本申请实施例提供的一种数据处理流程图。其中，静音空白部分的检测方式可以采用语音活动检测。在分割得到目标干声音频和目标伴奏音频后，可以将其输入音频评价模型。在一种实施方式中，音频评价模型对其进行降采样、分帧加窗、傅立叶变换、梅尔滤波等处理，得到梅尔频谱。在另一种实施方式中，可以在外部处理得到梅尔频谱之后，将其作为输入数据输入到音频评价模型中。对梅尔频谱进行卷积、池化等操作，即可得到对应的特征，即目标干声特征和目标伴奏特征，这两种特征可以采用特征图的方式进行表示。在得到目标干声特征和目标伴奏特征后，将其合并，并利用若干个全连接层对其进行处理，即可得到对应的处理结果。

进一步，在一种实施方式中，获取目标干声音频和对应的目标伴奏音频的过程可以包括：

步骤81：获取初始干声音频和对应的初始伴奏音频。

步骤82：对初始干声音频和初始伴奏音频进行相同形式的分割处理，得到多个目标干声音频和对应的目标伴奏音频。

音频处理方法，还包括：

步骤83：获取各个目标干声音频对应的处理结果。

步骤84：利用所有的处理结果生成初始干声音频对应的评价结果。

示例性的，步骤81～步骤82的分割处理方式具体可以采用上述步骤71～步骤74所说明的滑窗分割过程。

在本实施例中，可以采用两种方式获取初始干声音频和初始伴奏音频。在第一种实施方式中，可以将输入的音频作为初始干声音频，例如用麦克风部件采集用户输入的音频。对于初始伴奏音频，可以从预设的若干个预设伴奏音频中，根据输入的音频信息进行选择。即，用户可以通过输入音频信息表明自己演唱的歌曲，并通过输入音频来提供初始干声音频，对于初始伴奏音频，则可以从预设伴奏音频中获取。

在第二中实施方式中，为了避免预设伴奏音频占用的存储空间，同时避免音频信息与输入音频不匹配造成的处理结果无效的情况，可以直接获取干声和伴奏混合在一起的输入音频，通过对输入音频进行音源分离处理，将干声和伴奏区分，即可得到初始干声音频和初始伴奏音频。请参考图10，图10为本申请实施例提供的一种音频处理流程示意图，通过音源分离的方式，可以得到初始干声音频和初始伴奏音频。

在对所有的目标干声音频和目标伴奏音频进行处理后，可以得到对应的若干个处理结果。用于用户演唱过程中可能无法全程保持高质量的演唱水准，而各个处理结果可以评价一个时间段内用户的演唱水准，因此利用所有的处理结果，可以生成初始干声音频对应的评价结果，该评价结果可以综合评价用户在整首歌曲的平均演唱水准。请参考图11，图11为本申请实施例提供的一种具体的音频评价结果生成流程图，其具体为在K歌场景下，对用户演唱进行评分的过程。通过麦克风等音频获取设备，可以获取到用户的人声，对其进行分割，得到干声片段1至N。对于用户演唱的歌曲相对应的伴奏进行同样形式的分割，得到伴奏片段1至N。其中歌曲评价模型即为音频评价模型，在得到各个频段的得分(即处理结果)后，将片段1得分、片段2得分至片段N得分进行综合，即可得到整首歌的得分(即评价结果)。例如，可以计算平均分作为整首歌得分。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的模型训练方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的模型训练方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述训练标签的生成过程，包括：

输出所述训练数据对应的训练音频；

3.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型为孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述第一特征提取网络进行参数调节；

利用所述损失值对所述特征处理网络进行参数调节。

4.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型为伪孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述特征处理网络进行参数调节。

5.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型为半孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述第一特征提取网络进行参数调节；

利用所述损失值对所述特征处理网络进行参数调节。

6.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型为变化孪生网络，所述利用所述损失值对所述初始模型进行参数调节，包括：

利用所述损失值对所述第一特征提取网络进行参数调节；

利用所述损失值对所述特征处理网络进行参数调节。

7.一种音频处理方法，其特征在于，包括：

获取目标干声音频和对应的目标伴奏音频；

将所述目标特征输入所述初始模型的特征处理网络，得到处理结果；其中，所述处理结果用于表征所述目标干声音频与所述目标伴奏音频之间的匹配和谐程度，所述目标伴奏音频基于如权利要求1至6任一项所述的模型训练方法得到。

8.根据权利要求7所述的音频处理方法，其特征在于，所述获取目标干声音频和对应的目标伴奏音频，包括：

获取初始干声音频和对应的初始伴奏音频；

9.根据权利要求7所述的音频处理方法，其特征在于，所述获取目标干声音频和对应的目标伴奏音频，包括：

获取初始干声音频和对应的初始伴奏音频；

所述音频处理方法，还包括：

获取各个所述目标干声音频对应的所述处理结果；

10.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至6任一项所述的模型训练方法，和/或，如权利要求7至9任一项所述的音频处理方法。

11.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的模型训练方法，和/或，如权利要求7至9任一项所述的音频处理方法。