CN113539214B

CN113539214B - 音频转换方法、音频转换装置及设备

Info

Publication number: CN113539214B
Application number: CN202011589644.0A
Authority: CN
Inventors: 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-01-02
Anticipated expiration: 2040-12-29
Also published as: CN113539214A

Abstract

本公开提供了一种音频转换方法、音频转换装置及设备、计算机可读存储介质以及计算机程序产品。音频转换方法包括：获取待转换音频以及指定转换类型；对待转换音频进行音源分离处理，以获取待转换音频的主旋律音轨；基于主旋律音轨预测待转换音频的乐谱，以生成预测乐谱；以及基于预测乐谱生成指定转换类型的转换音频。本公开提供的音频转换方法扩大了可输入的待转换音频的范围，能够生成没有杂音、辨识度高的高质量转换音频，并且大大缩短了开发成本，提高了音频转换效率。

Description

音频转换方法、音频转换装置及设备

技术领域

本公开一般涉及计算机技术领域，并且更具体地涉及一种音频转换方法、音频转换装置及设备、计算机可读存储介质以及计算机程序产品。

背景技术

在音乐领域中，有时希望将一段乐曲转换为特定乐器演奏的音乐，或者将一种乐器演奏的音乐转换为另一种乐器演奏的音乐，这一过程可以称为乐器音转换。得益于计算机技术的高度发展，乐器音转换例如可以利用深度神经网络来自动实现，而无需人工参与。例如，WaveNet是一种可以实现乐器音转换的端对端网络，即利用深度神经网络直接对音频文件的脉冲编码调制数据(PCM数据，即对声音进行采样、量化和编码而产生的用于计算机播放的数字信号)进行建模预测，并直接输出指定转换类型的音频文件的PCM数据，即直接输出转换后的音频文件。然而，诸如WaveNet等的现有乐器音转换方法所生成的转换音频瑕疵较大，带有较为明显的杂音，乐器的音色辨识度不高，并且需要较大的时间成本。

发明内容

为了解决上述问题，本公开提供一种音频转换方法、音频转换装置及设备、计算机可读存储介质以及计算机程序产品。

根据本公开实施例的一个方面，提供了一种音频转换方法，包括：获取待转换音频以及指定转换类型；对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨；基于所述主旋律音轨预测所述待转换音频的乐谱，以生成预测乐谱；以及基于所述预测乐谱生成所述指定转换类型的转换音频。

根据本公开实施例的示例，其中，获取待转换音频包括：输入包含音频的多媒体内容或者所述多媒体内容的链接；以及提取所述多媒体内容中的音频作为所述待转换音频。

根据本公开实施例的示例，其中，所述多媒体内容是视频文件、音频文件、视频流、音频流中的任一种，所述预测乐谱包括用符号表示的乐曲信息，所述乐曲信息包括具有音高、起始时间和终止时间的不同节拍。

根据本公开实施例的示例，其中，对所述待转换音频进行音源分离处理以获取所述待转换音频的主旋律音轨包括：将所述待转换音频划分为至少两个分离音轨，所述至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨，所述至少一个非主旋律音轨包括：人声音轨、贝斯音轨、鼓点音轨、以及其他音轨中的至少一部分；从所述至少两个分离音轨中提取所述主旋律音轨。

根据本公开实施例的示例，所述音频转换方法还包括：确定所述至少一个非主旋律音轨中的、要加入到所述转换音频中的目标非主旋律音轨；将所述目标非主旋律音轨添加到所述转换音频中。

根据本公开实施例的示例，其中，基于所述主旋律音轨预测所述待转换音频的乐谱以生成预测乐谱包括：提取所述主旋律音轨的声音特征参数；以及将所述声音特征参数输入到深度神经网络中进行预测，以生成所述预测乐谱。

根据本公开实施例的示例，其中，在基于所述预测乐谱生成所述指定转换类型的转换音频之前，所述音频转换方法还包括：确定所述预测乐谱中的细碎节拍的数量与节拍的总数的比例，所述细碎节拍为持续时间小于预定时间阈值的节拍；以及在所述比例超过预定比例阈值时，对所述预测乐谱进行优化处理。

根据本公开实施例的示例，其中，对所述预测乐谱进行优化处理包括：对于处于同一音高的、同一小节内部的细碎节拍，执行以下处理中的一项或多项：合并临近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍，其中，所述小节为所述预测乐谱中包括预定数量的节拍或者具有预定时间长度的单位。

根据本公开实施例的示例，其中，基于所述预测乐谱生成所述指定转换类型的转换音频包括：在所述预测乐谱中的乐曲信息的控制下，利用所述指定转换类型的音色器文件来合成所述指定转换类型的转换音频，其中，所述音色器文件为存储乐器的真实声音样本的文件。

根据本公开实施例的示例，所述音频转换方法还包括：输出所述转换音频，其中，输出所述转换音频还包括以下至少一项：以文件或链接的形式输出所述转换音频；以及将所述转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出所述编辑后的视频内容。

根据本公开实施例的示例，其中，对所述待转换音频进行音源分离处理以获取所述待转换音频的主旋律音轨包括：利用音源分离网络对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨，其中，所述音源分离网络通过以下方法进行训练：获取训练音频数据，所述训练音频数据包括多个训练音频，其中每个训练音频是通过合成已知主旋律音轨和已知非主旋律音轨得到的；利用所述音源分离网络对所述多个训练音频进行音源分离处理，以得到训练分离结果；以及利用所述多个训练音频的已知主旋律音轨和已知非主旋律音轨对所述训练分离结果进行监督训练。

根据本公开实施例的另一方面，提供了一种音频转换装置，所述装置包括：获取单元，被配置为获取待转换音频以及指定转换类型；分离单元，被配置为对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨；预测单元，被配置为基于所述主旋律音轨预测所述待转换音频的乐谱，以生成预测乐谱；以及转换单元，被配置为基于所述预测乐谱生成所述指定转换类型的转换音频。

根据本公开实施例的示例，获取单元还被配置为：输入包含音频的多媒体内容或者所述多媒体内容的链接；以及提取所述多媒体内容中的音频作为所述待转换音频。

根据本公开实施例的示例，其中，分离单元还被配置为：将所述待转换音频划分为至少两个分离音轨，所述至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨，所述至少一个非主旋律音轨包括：人声音轨、贝斯音轨、鼓点音轨、以及其他音轨中的至少一部分；从所述至少两个分离音轨中提取所述主旋律音轨。

根据本公开实施例的示例，其中，转换单元还被配置为：确定所述至少一个非主旋律音轨中的、要加入到所述转换音频中的目标非主旋律音轨；将所述目标非主旋律音轨添加到所述转换音频中。

根据本公开实施例的示例，其中，预测单元还被配置为：提取所述主旋律音轨的声音特征参数；以及将所述声音特征参数输入到深度神经网络中进行预测，以生成所述预测乐谱。

根据本公开实施例的示例，所述音频转换装置还包括优化单元，所述优化单元被配置为：确定所述预测乐谱中的细碎节拍的数量与节拍的总数的比例，所述细碎节拍为持续时间小于预定时间阈值的节拍；以及在所述比例超过预定比例阈值时，对所述预测乐谱进行优化处理。

根据本公开实施例的示例，其中，所述优化单元还被配置为：对于处于同一音高的、同一小节内部的细碎节拍，执行以下处理中的一项或多项：合并临近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍，其中，所述小节为所述预测乐谱中包括预定数量的节拍或者具有预定时间长度的单位。

根据本公开实施例的示例，其中，转换单元还被配置为：在所述预测乐谱中的乐曲信息的控制下，利用所述指定转换类型的音色器文件来合成所述指定转换类型的转换音频，其中，所述音色器文件为存储乐器的真实声音样本的文件。

根据本公开实施例的示例，所述音频转换装置还包括输出单元，所述输出单元被配置为：输出所述转换音频，其中，输出所述转换音频还包括以下至少一项：以文件或链接的形式输出所述转换音频；以及将所述转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出所述编辑后的视频内容。

根据本公开实施例的示例，其中，所述分离单元还被配置为：利用音源分离网络对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨，其中，所述音源分离网络通过以下方法进行训练：获取训练音频数据，所述训练音频数据包括多个训练音频，其中每个训练音频是通过合成已知主旋律音轨和已知非主旋律音轨得到的；利用所述音源分离网络对所述多个训练音频进行音源分离处理，以得到训练分离结果；以及利用所述多个训练音频的已知主旋律音轨和已知非主旋律音轨对所述训练分离结果进行监督训练。

根据本公开实施例的另一方面，提供了一种音频转换设备，包括：一个或多个处理器；和一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行上述各个方面中所述的方法。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行上述各个方面中所述的方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，其包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行上述各个方面中所述的方法。

利用根据本公开上述各个方面的音频转换方法、音频转换装置和设备、计算机可读存储介质以及计算机程序产品，通过对输入的待检测音频进行音源分离处理，能够排除非主旋律音轨的干扰而进行高质量的音频转换，从而扩大了可输入的待转换音频的范围；并且，通过基于主旋律音轨来预测待转换音频的乐谱，并基于预测乐谱生成指定转换类型的转换音频，能够生成没有杂音、辨识度高的高质量转换音频。而且，根据本公开实施例的音频转换方法所需的时间较少，从而大大缩短了开发成本，提高了音频转换效率。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开实施例的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本公开实施例的示例的音频转换方法的应用场景的示意图；

图2示出了根据本公开实施例的音频转换方法的流程图；

图3示出了根据本公开实施例的示例的预测乐谱的示意图；

图4示出了根据本公开实施例的示例的音源分离处理的示意图；

图5示出了根据本公开实施例的示例的乐谱预测网络的示意流程图；

图6A示出了根据本公开实施例的示例的预测乐谱的示意图；

图6B示出了根据本公开实施例的示例的对预测乐谱进行优化处理的流程图；

图6C示出了根据本公开实施例的示例的对图6A中所示的预测乐谱进行优化处理后的结果的示意图；

图7示出了根据本公开实施例的示例的音频转换方法的整体流程图；

图8示出了根据本公开实施例的音频转换装置的结构示意图；以及

图9示出了根据本公开实施例的示例性计算设备的架构的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提供的音频转换方法能够自动生成输入音频的预测乐谱，并基于所生成的预测乐谱生成指定转换类型的转换音频。在本公开中，预测乐谱可以包括用符号表示的乐曲信息，其中，乐曲信息例如可以包括具有音高、起始时间和终止时间的不同节拍。根据本公开实施例的一个示例，预测乐谱例如可以是乐器数字接口(MIDI)数据。MIDI是一种专用于乐器的通信接口标准，用于确定电子音响、电子乐器、音乐合成器、计算机音乐程序等设备之间的信息交换和信号控制的方法。MIDI数据可以称为是一种描述性的“音乐语言”，它将所要演奏的乐曲信息用字节进行描述，例如，可以描述在某一时刻应当以什么音符开始、采用什么音调、加以什么伴奏等等。应该理解的是，本公开实施例中的预测乐谱不限于这里作为示例的MIDI数据，也可以是其他能够用来生成音频的电子乐谱、代码集合等等。在下文中，将以预测乐谱是MIDI数据为例描述本公开的各个实施例。

首先结合图1描述根据本公开实施例的音频转换方法的应用场景的示例。根据本公开实施例的音频转换方法例如可以被实现为计算机程序软件、网络插件、手机客户端等任意软件形式，并且可以搭载在诸如台式计算机、膝上型计算机、平板电脑、智能电话、个人数字助理、手持设备等任意设备上，如图1中的110所示，本公开实施例对此不作具体限制。如图1所示，在该示例中，搭载有根据本公开实施例的音频转换方法的设备110可以接收用户输入的期望进行音频转换的音频以及指定的转换类型，并输出指定转换类型的转换音频。例如，用户可以向设备110输入一段包括伴奏和演唱的合唱音乐，并指定将其转换为钢琴曲，则设备110利用根据本公开实施例的音频转换方法对输入的合唱音乐进行音频转换，并输出转化后的钢琴曲。

下面参照图2具体描述根据本公开实施例的音频转换方法。图2示出了根据本公开实施例的音频转换方法200的流程图。

如图2所示，在步骤S210中，获取待转换音频以及指定转换类型。待转换音频例如是用户输入的期望进行转换的音频，例如，可以是演唱音乐、乐器演奏音乐、视频背景音乐等等。指定转换类型可以是任意乐器类型，例如，钢琴、风琴、竖琴、洋琴、吉他、贝斯、小提琴、大提琴、班卓琴、马林巴琴、音乐盒、萨克斯、笛子、长号、双簧管、单簧管、琵琶、古筝、阮、古琴、二胡等任意乐器，或者也可以是口哨声、人声哼唱、自然声音、机械声音等等任意其他声音类型，本公开实施例对此不作具体限制。指定转换类型可以包括一个或多个转换类型，例如，可以仅仅包括一种乐器类型，或者也可以包括一种主乐器类型以及一种或多种辅乐器类型等等，本公开实施例对此不作具体限制。

根据本公开实施例的示例，可以输入包含音频的多媒体内容或者该多媒体内容的链接，并提取该多媒体内容中的音频作为待转换音频。例如，多媒体内容可以是视频文件、音频文件、视频流、音频流等任意包含音频的文件或数据，本公开实施例对此不作具体限制。指向包含音频的多媒体内容的链接例如可以是统一资源定位符(URL)，或者也可以是其他能够由其获取到该多媒体内容的地址、索引等等，本公开实施例对此不作具体限制。

在步骤S220中，对获取的待转换音频进行音源分离处理，以获取待转换音频的主旋律音轨。通常，一段音频可能包括多个音轨，例如主旋律(或称为伴奏)音轨、人声音轨、贝斯音轨、鼓点音轨等等，而其中人声、贝斯、鼓点等音轨一般不影响音频的主旋律。因此，期望获得待转换音频中的主旋律音轨，以用于后续的音频转换处理。根据本公开实施例的示例，可以将待转换音频划分为至少两个分离音轨，该至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨。例如，至少一个非主旋律音轨可以包括人声音轨、贝斯音轨、鼓点音轨以及其他音轨等中的一个或多个。然后，从至少两个分离音轨中提取待转换音频的主旋律音轨。在本公开实施例中，可以利用基于深度神经网络的音源分离网络来对待转换音频进行音源分离处理，例如，可以采用开源的Spleeter算法来进行音源分离处理，但是本公开实施例不限于此，也可以采用其他合适的网络结构来进行音源分离处理。

在获取了待转换音频的主旋律音轨之后，在步骤S230中，基于主旋律音轨来预测待转换音频的乐谱，以生成预测乐谱。如上所述，预测乐谱可以包括用符号表示的乐曲信息，其中，乐曲信息例如可以包括具有音高、起始时间和终止时间的不同节拍。例如，预测乐谱可以是MIDI数据，但本公开实施例不限于此，预测乐谱也可以是其他能够用来生成音频的电子乐谱、代码集合等等。在本公开实施例中，对待转换音频进行预测以生成预测乐谱的过程例如可以称为自动音乐转录。根据本公开实施例的示例，在预测待转换音频的乐谱时，可以首先提取主旋律音轨的声音特征参数，声音特征参数例如可以是待转换音频的梅尔频谱矩阵。然后，将该声音特征参数输入到深度神经网络中进行乐谱预测，以生成预测乐谱，例如，可以采用基于深度神经网络的按键与帧(Onsets and Frames)算法来进行乐谱预测，但本公开不限于此，也可以采用基于深度神经网络或基于其他网络结构的任意其他网络模型来进行乐谱预测。

图3示出了在步骤S230中生成的预测乐谱的示例。在图3中，以预测乐谱为MIDI数据为例。如图3所示，(a)表示某一待转换音频的主旋律音轨的脉冲编码调制数据(PCM数据)，如前所述，PCM数据是对声音进行采样、量化和编码而产生的用于计算机播放的数字信号；(b)为对该待转换音频的主旋律音轨进行预测所生成的MIDI数据。MIDI数据中的每个方格表示一个音乐节拍，每个节拍包含音高、起始时间、终止时间等信息。

之后，在步骤S240中，基于预测乐谱生成指定转换类型的转换音频。具体地，根据本公开实施例的示例，可以在预测乐谱中的乐曲信息的控制下，利用指定转换类型的音色器文件来合成指定转换类型的转换音频。其中，音色器文件为存储乐器的真实声音样本的文件，每种乐器可以有多个音色器文件，存储各种乐器的多个音色器文件的空间例如可以称为音色库或者采样库。在本公开实施例中，指定转换类型可以存在多个音色器文件，可以根据实际需求或者按照一定规则从多个音色器文件中选择适当的音色器文件，本公开实施例对此不作具体限制。需要说明的是，这里提到的“乐器”不仅包括诸如钢琴、小提琴等真实的乐器，也可以包括诸如人、动物、自然、机械等可以创造声音的个体。因此，本公开实施例中的音色器文件所存储的真实声音样本也可以包括人声、动物声、自然声音、机械声音等等。例如，在指定转换类型为人声哼唱时，可以基于预测乐谱，利用对应的存储真实人声的音色器文件来合成人声哼唱的转换音频。

作为一个示例，在预测乐谱为MIDI数据的情况下，可以在MIDI数据中包括的乐曲信息的控制下来合成指定转换类型的转换音频。具体地，根据MIDI数据中记录的乐曲信息，向所选择的指定转换类型的音色器文件发出指令，从音色器文件中匹配对应的声音信息，并经过诸如合成、加工等处理后输出指定转换类型的转换音频。例如，可以利用诸如MIDI合成器、MIDI播放器等的计算机软件或者MIDI设备来基于MIDI数据生成指定转换类型的转换音频。

如前所述，在本公开实施例中，指定转换类型可以是任意乐器类型或者任意其他声音类型。因此，在生成待转换音频的预测乐谱之后，基于该预测乐谱可以生成任意乐器类型或任意其他声音类型的转换音频，例如，可以生成诸如钢琴曲、风琴曲、洋琴曲、吉他曲、贝斯曲、小提琴曲、大提琴曲、班卓琴曲、马林巴琴曲、音乐盒曲、萨克斯曲、笛子曲、长号曲、双簧管曲、单簧管曲、琵琶曲、古筝曲、古琴曲、阮曲、二胡曲等任意乐器的演奏曲，或者诸如口哨曲、人声哼唱曲、自然声音乐曲、机械声音乐曲等等任意其他声音类型的乐曲。另外，在指定转换类型包括多于一种转换类型时，例如，包括主乐器类型和一个或多个辅乐器类型时，根据本公开实施例的音频转换方法可以分别生成主乐器类型和一个或多个辅乐器类型的转换音频，并且可以将主乐器类型和辅乐器类型的转换音频合成在一起。

下面参照图4具体描述根据本公开实施例的音源分离处理的示例。图4示出了根据本公开实施例的示例的音源分离处理的示意图。在该示例中，待转换音频被划分为包括主旋律音轨、人声音轨、贝斯音轨和鼓声音轨的四个分离音轨，如图4所示。然后，可以从这四个分离音轨中提取所需要的主旋律音轨，并基于主旋律音轨进行乐谱预测以生成预测乐谱，例如如图4所示，进行MIDI预测以生成MIDI数据。在获得诸如MIDI数据的预测乐谱之后，基于所预测的乐谱进行音频转换处理，以生成指定转换类型的转换音频。

另外，根据本公开实施例的示例，可以将诸如人声音轨、鼓声音轨、贝斯音轨以及其他音轨等的非主旋律音轨加入到最终生成的转换音频中。具体地，可以确定至少一个非主旋律音轨中的、要加入到转换音频中的目标非主旋律音频，并将该目标非主旋律音频添加到转换音频中。例如，在图4的示例中，可以选择人声音轨作为目标非主旋律音轨，并将该人声音轨添加到最终生成的转换音频中。此外，在将所选择的目标非主旋律音轨添加到转换音频之前，还可以对目标非主旋律音轨进行诸如倍速调整等的处理。例如，在图4中，可以对作为目标非主旋律音轨的人声音轨进行倍速调整，然后将变速后的人声音轨添加到转换音频中。

通常，在采用诸如Onsets and Frames的算法预测待转换音频的乐谱时，可能会受到人声、贝斯、鼓点等非主旋律音轨的干扰。而在本公开实施例中，通过进行音源分离处理，能够从待转换音频中剥离诸如人声音轨、贝斯音轨、鼓点音轨等的非主旋律音轨，而只提取主旋律音轨用于后续的音频转换步骤。因此，即使对于包含人声、贝斯、鼓声以及可能引起干扰的其他非主旋律音轨的输入音频，利用根据本公开实施例的音频转换方法也能够排除非主旋律音轨的干扰而进行高质量的音频转换，从而扩大了可输入的待转换音频的范围。

如前面提到的，可以利用诸如Spleeter的音源分离网络来对待转换音频进行音源分离处理，但是本公开实施例不限于此，也可以采用其他合适的网络结构来进行音源分离处理。另外，在本公开实施例中，可以利用已经训练好并固定的音源分离网络来对待转换音频进行音源分离处理，或者也可以基于本公开实施例的音频转换方法的需求来对音源分离网络进行训练。

根据本公开实施例的示例，在对音源分离网络进行训练时，首先需要获取用于训练的音频数据样本(这里可以称为训练音频数据)。训练音频数据包括多个训练音频，其中每个训练音频例如可以是通过合成已知的主旋律音轨以及诸如人声音轨、鼓声音轨、贝斯音轨等的已知的非主旋律音轨得到的。例如，可以从一些开源的音频数据库中获取合适的训练音频数据，本公开实施例对此不作具体限制。之后，利用音频分离网络对多个训练音频中的每个训练音频进行音源分离处理，以得到分离结果(这里可以称为训练分离结果)。之后，利用多个训练音频中的每个训练音频的已知主旋律音轨和已知非主旋律音轨对训练分离结果进行监督训练，直到训练分离结果最优，则可以固定音源分离网络，并将其应用于根据本公开实施例的音频转换方法。

如前面提到的，可以采用基于深度神经网络或基于其他网络结构的任意网络结构来进行乐谱预测。下面参照图5描述根据本公开实施例的用于预测乐谱的网络的示例。图5示出了根据本公开实施例的示例的乐谱预测网络的示意流程图。在图5中，以Onsets andFrames网络作为乐谱预测网络的示例。如图5所示，该网络接收待转换音频的主旋律音轨的PCM数据作为输入，将其转换为梅尔频谱矩阵(510)后输入到深度神经网络中。该算法的深度神经网络可以分为按键分支(Onsets)和帧分支(Frames)，其中，按键分支用于预测每个时刻各个音键开启的概率，在Onsets and Frames网络中，以钢琴键作为音键的示例；帧分支受到按键分支的限制，只有按键分支确认在帧中有按键开启，帧分支才预测一个新的音符。将梅尔频谱矩阵分别输入到按键分支和帧分支，在按键分支中，梅尔频谱矩阵依次经过卷积层521、双向长期短记忆网络(BiLSTM)522和全连接层523的处理，并将从全连接层523输出的处理结果输入到按键预测模块524以生成按键预测向量，并得到按键分支的按键损失函数525；在帧分支中，梅尔频谱矩阵依次经过卷积层531和全连接层532，并将全连接层532的输出向量与来自按键分支的按键预测向量合并为一个向量，合并后的向量依次经过BiLSTM 533以及全连接层534的处理，并将从全连接层534输出的处理结果输入到帧预测模块535以生成帧预测向量，并得到帧分支的帧损失函数536。该网络的总的损失函数为按键损失函数525和帧损失函数536之和。

在本公开实施例中，可以利用已经训练好并固定的乐谱预测网络来预测待转换音频的乐谱，例如，可以利用如图5所示的已经训练好的Onsets and Frames网络来进行乐谱预测；或者也可以基于本公开实施例的音频转换方法的需求来对乐谱预测网络进行训练。根据本公开实施例的示例，在对乐谱预测网络进行训练时，首先需要获取用于训练的音频的主旋律音轨数据(这里可以称为训练主旋律音轨数据)。训练主旋律音轨数据可以包括多个训练主旋律音轨，以及与多个训练主旋律音轨中的每个训练主旋律音轨对应的已知乐谱。例如，可以从一些开源的音频数据库中获取训练主旋律音轨数据，本公开实施例对此不作具体限制。之后，利用乐谱预测网络来预测多个训练主旋律音轨的乐谱，以生成预测乐谱结果(这里可以称为训练预测乐谱)。然后，利用多个训练主旋律音轨的已知乐谱对训练预测乐谱进行监督训练，直至训练预测乐谱最优，则可以固定乐谱预测网络，并将其应用于根据本公开实施例的音频转换方法。

此外，在根据本公开实施例的音频转换方法中，如果待检测音频的音乐过于复杂，尽管通过对待转换音频进行音源分离处理去除了非主旋律音轨的干扰，但所提取的主旋律音轨与乐谱预测网络的训练数据相比仍然可能过于复杂，使得所预测的乐谱并不准确。在这种情况下，例如，所得到的预测乐谱中可能存在很多细碎的节拍，即持续时间小于预定时间阈值的节拍。在本开实施例中，用于判定预测乐谱中的节拍是否属于细碎节拍的预定时间阈值可以根据实际的优化需求来设定，本公开实施例对此不作具体限制。图6A示出了根据本公开实施例的示例的预测乐谱的示意图。在图6A中，横轴的数字表示时间，单位为秒。可以看到，图6A中所示的预测乐谱中存在很多持续时间很短的细碎节拍，当这种细碎节拍的数量占预测乐谱中的节拍的总数的比例较高时，预测乐谱将变得不准确。

为了解决上述问题，在基于预测乐谱生成指定转换类型的转换音频的步骤S240之前，根据本公开实施例的音频转换方法200还可以对预测乐谱进行优化处理。下面参照图6B描述对预测乐谱进行优化处理的步骤。图6B示出了根据本公开实施例的示例的对预测乐谱进行优化处理的流程图。根如图6B所示，在步骤S610中，确定预测乐谱中的细碎节拍的数量与节拍的总数的比例，然后在步骤S620中判断该比例是否超过预定比例阈值。如果该比例超过预定比例阈值，则在步骤S630中，对于处于同一音高的、同一小节内部的细碎节拍执行以下优处理中的一项或多项：合并临近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍。

例如，当细碎节拍在预测乐谱中的占比超过预定比例阈值时，表明当前的预测乐谱是不准确的，此时，认为当前的待转换音频是复杂音频，则可以对预测乐谱进行优化处理；当细碎节拍在预测乐谱中的占比小于预定比例阈值时，表明当前的预测乐谱较为准确，则可以不对其进行优化处理。预定比例阈值可以根据实际情况进行设定，例如，如果根据统计，纯净主旋律音轨的预测乐谱中的细碎节拍的占比为10％，复杂主旋律音轨的预测乐谱中的细碎节拍的占比为30％，则可以将预定比例阈值设置为大于10％且小于30％的数值，例如可以设置为20％。通过设置合适的预定比例阈值，能够自适应开启或关闭优化处理，在不过度增加时间和能耗的前提下，确保乐谱预测的结果最优化。

根据本公开实施例的示例，对预测乐谱进行优化处理可以针对处于同一一音高的、同一小节内部的细碎节拍进行。这里，小节可以是指预测乐谱中包括预定数量的节拍的单位，即可以相当于乐理知识中的具有一般含义的小节；或者，也可以是指具有预定时间长度的时间单位。图6A示例性地给出了第20至33秒的预测乐谱，其中，横轴的数字表示时间，单位为秒。在图6A的示例中，一个小节为1.33秒，高度相等的节拍表示处于同一音高的节拍。对于处于同一音高的、同一小节内部的细碎节拍，它们的音高和位置都是准确的，因此可以对这些细碎节拍进行诸如合并或者延长等的优化处理，以得到更准确的预测乐谱。

根据本公开实施例的示例，可以对处于同一音高的、同一小节内部的细碎节拍执行以下处理中的一项或者多项：合并邻近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍等等。例如，在同一音高处、同一小节内部，如果存在连续的多个细碎节拍(如图6A中的A所示)，则可以将这些细碎节拍合并；如果在某个单独的细碎节拍附近存在较长的节拍(如图6A中的B所示)，则可以将这个单独的细碎节拍分配给其附近的较长节拍。又例如，对于持续时间长度很短的细碎节拍，可以设置一个或多个长度阈值，如果该细碎节拍的长度小于第一长度阈值，则可以直接删除该细碎节拍；如果细碎节拍的长度大于第一长度阈值且小于第二长度阈值，则可以适当延长该细碎节拍。其中，第一长度阈值以及第二长度阈值例如可以小于用于判定细碎节拍的预定时间阈值的数值，并且第一长度阈值小于第二时间阈值，本公开实施例对此不作具体限定。

图6C示出了根据本公开实施例的示例的对图6A中所示的预测乐谱进行优化处理后的结果的示意图。如图6A和图6C所示，对于诸如图6A中的A所示的连续的多个细碎节拍，可以将这些细碎节拍进行合并处理，合并结果如图6C中的A’所示；对于诸如图6A中的B所示的单独的细碎节拍，则可以将其分配给附近的较长的节拍，分配后的结果如图6C中的B’所示；对于诸如图6A中的C所示的大于第一长度阈值且小于第二长度阈值的细碎节拍，则可以适当延长该细碎节拍，延长的结果如图6C中的C’所示；对于长度小于第一长度阈值的非常短的细碎节拍，则可以直接删除该细碎节拍(图6A和6C中未示出)。相比于图6A，图6C所示的优化后的预测乐谱更为稳定简洁，其中的细碎节拍大幅减少。然后，可以基于优化后的预测乐谱来生成指定转换类型的转换音频，从而可以获得更高质量的转换音频。

以上结合图2-6描述了根据本公开实施例的音频转换方法200的获取待转换音频以及指定转换类型、音源分离处理、乐谱预测、优化处理以及生成转换音频的具体步骤。另外，在本公开实施例的示例中，音频转换方法200还可以包括输出转换音频的步骤。例如，可以以文件或者链接的形式输出转换音频，链接例如可以是URL，或者也可以是其他能够由其获取到该转换音频的地址、索引等等，本公开实施例对此不作具体限制。此外，在输出转换音频时，还可以将转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出编辑后的视频内容。例如，在从视频文件或者视频流中提取音频作为输入的待转换音频的情况下，在对待转换音频进行音频转换生成转换音频之后，可以将该转换音频添加到视频文件或视频流中，或者用该转换音频替换视频文件或者视频流中包含的原音频，然后输出经此编辑后的视频文件或者视频流。又例如，可以将转换音频添加到不包含音频的视频内容中，以生成具有音频的视频内容，等等。

为了更清楚地呈现根据本公开实施例的音频转换方法，下面参照图7描述音频转换方法200的整体流程。图7示出了根据本公开实施例的示例的音频转换方法200的整体流程图。如图7所示，在步骤S710中，获取待转换音频。例如，可以输入包含音频的多媒体内容或者该多媒体内容的链接，并提取该多媒体内容中的音频作为待转换音频。例如，多媒体内容可以是视频文件、音频文件、视频流、音频流等任意包含音频的数据，本公开实施例对此不作具体限制。

在步骤S720中，对待转换音频进行音源分离处理，以获取待转换音频的主旋律音轨。如在前面提到的，可以将待转换音频划分为至少两个分离音轨，该至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨，然后从至少两个分离音轨中提取待转换音频的主旋律音轨。例如，可以采用开源的Spleeter算法来进行音源分离处理，但是本公开实施例不限于此，也可以采用其他合适的算法来进行音源分离处理。

在步骤S730中，基于所提取的主旋律音轨预测待转换音频的乐谱，以生成预测乐谱。例如，预测乐谱可以是MIDI数据，但本公开实施例不限于此，预测乐谱也可以是其他能够用来生成音频的电子乐谱、代码集合等等。例如，可以采用基于深度神经网络的按键与帧(Onsets and Frames)网络来进行乐谱预测，但本公开不限于此，也可以采用基于深度神经网络或基于其他网络结构的任意其他网络模型来进行乐谱预测。

接下来，可选地，在步骤S740中，对步骤S730中生成的预测乐谱进行优化处理。具体地，如果在步骤S730中生成的预测乐谱中的细碎节拍的数量与节拍的总数的比例超过预定比例阈值时，则执行步骤S740中的优化处理。也就是说，可以根据细碎节拍在预测乐谱中的占比是否超过预定比例阈值，来自适应开启或关闭步骤S740中的优化处理，从而在不过度增加时间和能耗的前提下，确保乐谱预测的结果最优化。

然后，在步骤S750中，基于预测乐谱，或者可选地，基于优化后的预测乐谱生成指定转换类型的转换音频。例如，在预测乐谱为MIDI数据的情况下，可以根据MIDI数据中记录的乐曲信息，向所选择的指定转换类型的音色器文件发出指令，从音色器文件中匹配对应的声音信息，并经过诸如合成、加工等处理后输出指定转换类型的转换音频。在本公开实施例中，可以基于输入的待转换音频生成任意乐器类型或者任意其他声音类型的转换音频，并且可以将步骤S720中所产生的诸如人声音轨、鼓声音轨、贝斯音轨以及其他音轨等的非主旋律音轨加入到最终生成的转换音频中。

在步骤S760中，输出步骤S750中所生成的转换音频。例如，可以以文件或者链接的形式输出转换音频，链接例如可以是URL，或者也可以是其他能够由其获取到该转换音频的地址、索引等等，本公开实施例对此不作具体限制。此外，在输出转换音频时，还可以将转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出编辑后的视频内容。

利用根据本公开实施例的音频转换方法，通过对输入的待检测音频进行音源分离处理，能够排除非主旋律音轨的干扰而进行高质量的音频转换，从而扩大了可输入的待转换音频的范围；并且，通过基于主旋律音轨来预测待转换音频的乐谱，并基于预测乐谱生成指定转换类型的转换音频，能够生成没有杂音、辨识度高的高质量转换音频。而且，根据本公开实施例的音频转换方法所需的时间较少，从而大大缩短了开发成本，提高了音频转换效率。

下面参照图8描述根据本公开实施例的音频转换装置。图8示出了根据本公开实施例的音频转换装置800的结构示意图。由于音频转换装置800与上文结合图2描述的音频转换装置200的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。根据本公开实施例的音频转换装置800可以实现为计算机程序软件、网络插件、手机客户端等任意软件形式，并且可以搭载在诸如台式计算机、膝上型计算机、平板电脑、智能电话、个人数字助理、手持设备等任意设备上，本公开实施例对此不作具体限制。

音频转换装置800可以包括获取单元810、分离单元820、预测单元830以及转换单元840。除了这四个单元以外，音频转换装置800还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

获取单元810被配置为获取待转换音频以及指定转换类型。待转换音频例如是用户输入的期望进行转换的音频文件，例如，可以是演唱音乐、乐器演奏音乐、视频背景音乐等等。指定转换类型可以是任意乐器类型，例如，钢琴、风琴、竖琴、洋琴、吉他、贝斯、小提琴、大提琴、班卓琴、马林巴琴、音乐盒、萨克斯、笛子、长号、双簧管、单簧管、琵琶、古筝、阮、古琴、二胡等任意乐器，或者也可以是口哨声、人声哼唱、自然声音、机械声音等等任意其他声音类型，本公开实施例对此不作具体限制。指定转换类型可以包括一个或多个转换类型，例如，可以仅仅包括一种乐器类型，或者也可以包括一种主乐器类型以及一种或多种辅乐器类型等等，本公开实施例对此不作具体限制。

根据本公开实施例的示例，获取单元810还可以被配置为输入包含音频的多媒体内容或者该多媒体内容的链接，并提取该多媒体内容中的音频作为待转换音频。例如，多媒体内容可以是视频文件、音频文件、视频流、音频流等任意包含音频的数据，本公开实施例对此不作具体限制。指向包含音频的多媒体内容的链接例如可以是统一资源定位符(URL)，或者也可以是其他能够由其获取到该多媒体内容的地址、索引等等，本公开实施例对此不作具体限制。

分离单元820被配置为对输入的待转换音频进行音源分离处理，以获取待转换音频的主旋律音轨。通常，一段音频可能包括多个音轨，例如主旋律(或称为伴奏)音轨、人声音轨、贝斯音轨、鼓点音轨等等，而其中人声、贝斯、鼓点等音轨一般并不影响音频的主旋律。因此，期望获得待转换音频中的主旋律音轨，以用于后续的音频转换处理。根据本公开实施例的示例，分离单元820可以将待转换音频划分为至少两个分离音轨，该至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨。例如，至少一个非主旋律音轨可以包括人声音轨、贝斯音轨、鼓点音轨以及其他音轨中的一个或多个。然后，分离单元820从至少两个分离音轨中提取待转换音频的主旋律音轨。在本公开实施例中，分离单元820可以利用基于深度神经网络的音源分离网络来对待转换音频进行音源分离处理，例如，可以采用开源的Spleeter算法来进行音源分离处理，但是本公开实施例不限于此，也可以采用其他合适的算法来进行音源分离处理。

另外，在本公开实施例中，分离单元820可以利用已经训练好并固定的音源分离网络来对待转换音频进行音源分离处理，或者也可以基于本公开实施例的音频转换方法的需求来对音源分离网络进行训练。

根据本公开实施例的示例，在分离单元820对音源分离网络进行训练时，首先需要获取用于训练的音频数据样本(这里可以称为训练音频数据)。训练音频数据包括多个训练音频，其中每个训练音频例如可以是通过合成已知的主旋律音轨以及诸如人声音轨、鼓声音轨、贝斯音轨等的已知的非主旋律音轨得到的。例如，可以从一些开源的音频数据库中获取合适的训练音频数据，本公开实施例对此不作具体限制。之后，利用音频分离网络对多个训练音频中的每个训练音频进行音源分离处理，以得到分离结果(这里可以称为训练分离结果)。之后，利用多个训练音频中的每个训练音频的已知主旋律音轨和已知非主旋律音轨对训练分离结果进行监督训练，直到训练分离结果最优，则可以固定音源分离网络，并将其应用于根据本公开实施例的音频转换方法。

在获取了待转换音频的主旋律音轨之后，预测单元830被配置为基于主旋律音轨来预测待转换音频的乐谱，以生成预测乐谱。如上所述，预测乐谱可以包括用符号表示的乐曲信息，其中，乐曲信息例如可以包括具有音高、起始时间和终止时间的不同节拍。例如，预测乐谱可以是MIDI数据，但本公开实施例不限于此，预测乐谱也可以是其他能够用来生成音频的电子乐谱、代码集合等等。在本公开实施例中，对待转换音频进行预测以生成预测乐谱的过程例如可以称为自动音乐转录。根据本公开实施例的示例，预测单元830在预测待转换音频的乐谱时，可以首先提取主旋律音轨的声音特征参数，声音特征参数例如可以是待转换音频的梅尔频谱矩阵。然后，预测单元830将该声音特征参数输入到深度神经网络中进行乐谱预测，以生成预测乐谱，例如，预测单元830可以采用基于深度神经网络的按键与帧(Onsets and Frames)网络来进行乐谱预测，但本公开不限于此，也可以采用基于深度神经网络或基于其他网络结构的任意其他网络模型来进行乐谱预测。

图3示出了预测单元830生成的预测乐谱的示例。在图3中，以预测乐谱为MIDI数据为例。如图3所示，(a)表示某一待转换音频的主旋律音轨的脉冲编码调制数据(PCM数据)，如前所述，PCM数据是对声音进行采样、量化和编码而产生的用于计算机播放的数字信号；(b)为对该待转换音频的主旋律音轨进行预测所生成的MIDI数据。MIDI数据中的每个方格表示一个音乐节拍，每个节拍包含音高、起始时间、终止时间等信息。

在本公开实施例中，预测单元830可以利用已经训练好并固定的乐谱预测网络来预测待转换音频的乐谱，例如，预测单元830可以利用如图5所示的已经训练好的Onsetsand Frames网络来进行乐谱预测；或者也可以基于本公开实施例的音频转换方法的需求来对乐谱预测网络进行训练。根据本公开实施例的示例，在预测单元830对乐谱预测网络进行训练时，首先需要获取用于训练的音频的主旋律音轨数据(这里可以称为训练主旋律音轨数据)。训练主旋律音轨数据可以包括多个训练主旋律音轨，以及与多个训练主旋律音轨中的每个训练主旋律音轨对应的已知乐谱。例如，可以从一些开源的音频数据库中获取训练主旋律音轨数据，本公开实施例对此不作具体限制。之后，利用乐谱预测网络来预测多个训练主旋律音轨的乐谱，以生成预测乐谱结果(这里可以称为训练预测乐谱)。然后，利用多个训练主旋律音轨的已知乐谱对训练预测乐谱进行监督训练，直至训练预测乐谱最优，则可以固定乐谱预测网络，并将其应用于根据本公开实施例的音频转换方法。

之后，转换单元840被配置为基于预测乐谱生成指定转换类型的转换音频。具体地，根据本公开实施例的示例，转换单元840可以在预测乐谱中的乐曲信息的控制下，利用指定转换类型的音色器文件来合成指定转换类型的转换音频。其中，音色器文件为存储乐器的真实声音样本的文件，每种乐器可以有多个音色器文件，存储各种乐器的多个音色器文件的空间例如可以称为音色库或者采样库。在本公开实施例中，指定转换类型可以存在多个音色器文件，转换单元840可以根据实际需求或者按照一定规则从多个音色器文件中选择适当的音色器文件，本公开实施例对此不作具体限制。需要说明的是，这里提到的“乐器”不仅包括诸如钢琴、小提琴等真实的乐器，也可以包括诸如人、动物、自然、机械等可以创造声音的个体。因此，本公开实施例中的音色器文件所存储的真实声音样本也可以包括人声、动物声、自然声音、机械声音等等。例如，在指定转换类型为人声哼唱时，转换单元840可以基于预测乐谱，利用对应的存储真实人声的音色器文件来合成人声哼唱的转换音频。

作为一个示例，在预测乐谱为MIDI数据的情况下，转换单元840可以在MIDI数据中包括的乐曲信息的控制下来合成指定转换类型的转换音频。具体地，转换单元840根据MIDI数据中记录的乐曲信息，向所选择的指定转换类型的音色器文件发出指令，从音色器文件中匹配对应的声音信息，并经过诸如合成、加工等处理后输出指定转换类型的转换音频。例如，可以利用诸如MIDI合成器、MIDI播放器等的计算机软件或者MIDI设备来基于MIDI数据生成指定转换类型的转换音频。

如前所述，在本公开实施例中，指定转换类型可以是任意乐器类型或者任意其他声音类型。因此，在生成待转换音频的预测乐谱之后，转换单元840可以基于该预测乐谱生成任意乐器类型或任意其他声音类型的转换音频，例如，可以生成诸如钢琴曲、风琴曲、洋琴曲、吉他曲、贝斯曲、小提琴曲、大提琴曲、班卓琴曲、马林巴琴曲、音乐盒曲、萨克斯曲、笛子曲、长号曲、双簧管曲、单簧管曲、琵琶曲、古筝曲、古琴曲、阮曲、二胡曲等任意乐器的演奏曲，或者诸如口哨曲、人声哼唱曲、自然声音乐曲、机械声音乐曲等等任意其他声音类型的乐曲。另外，在指定转换类型包括多于一种转换类型时，例如，包括主乐器类型和一个或多个辅乐器类型时，转换单元840可以分别生成主乐器类型和一个或多个辅乐器类型的转换音频，并且可以将主乐器类型和辅乐器类型的转换音频合成在一起。

另外，根据本公开实施例的示例，转换单元840可以将分离单元830所生成的诸如人声音轨、鼓声音轨、贝斯音轨以及其他音轨等的非主旋律音轨加入到最终生成的转换音频中。具体地，转换单元840可以确定至少一个非主旋律音轨中的、要加入到转换音频中的目标非主旋律音频，并将该目标非主旋律音频添加到转换音频中。例如，在图4的示例中，转换单元840可以选择人声音轨作为目标非主旋律音轨，并将该人声音轨添加到最终生成的转换音频中。此外，在转换单元840将所选择的目标非主旋律音轨添加到转换音频之前，还可以对目标非主旋律音轨进行诸如倍速调整等的处理。例如，在图4中，转换单元840可以对作为目标非主旋律音轨的人声音轨进行倍速调整，然后将变速后的人声音轨添加到转换音频中。

根据本公开实施例的音频转换装置800还可以包括优化单元850，优化单元850被配置为：在基于预测乐谱生成指定转换类型的转换音频之前，确定预测乐谱中的细碎节拍的数量与节拍的总数的比例，并且在该比例超过预定比例阈值时，对预测乐谱进行优化处理。具体地，当细碎节拍在预测乐谱中的占比超过预定比例阈值时，表明当前的预测乐谱是不准确的，此时，认为当前的待转换音频是复杂音频，则优化单元850可以对预测乐谱进行优化处理；当细碎节拍在预测乐谱中的占比小于预定比例阈值时，表明当前的预测乐谱较为准确，则优化单元850可以不对其进行优化处理。预定比例阈值可以根据实际情况进行设定，例如，如果根据统计，纯净主旋律音轨的预测乐谱中的细碎节拍的占比为10％，复杂主旋律音轨的预测乐谱中的细碎节拍的占比为30％，则可以将预定比例阈值设置为大于10％且小于30％的数值，例如可以设置为20％。通过设置合适的预定比例阈值，能够自适应开启或关闭优化处理，从而在不过度增加时间和能耗的前提下，确保乐谱预测的结果最优化。

根据本公开实施例的示例，对预测乐谱进行优化处理可以针对处于同一一音高的、同一小节内部的细碎节拍进行。这里，小节可以是指预测乐谱中包括预定数量的节拍的单位，即可以相当于乐理知识中的具有一般含义的小节；或者，也可以是指具有预定时间长度的时间单位，例如，在图6A的示例中，一个小节可以是1.33秒。这里，本公开实施例对小节的具体长度不作具体限制。对于处于同一音高的、同一小节内部的细碎节拍，它们的音高和位置都是准确的，因此可以对这些细碎节拍进行诸如合并或者延长等的优化处理，以得到更准确的预测乐谱。

根据本公开实施例的示例，优化单元850可以对处于同一音高的、同一小节内部的细碎节拍执行以下处理中的一项或者多项：合并邻近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍。例如，在同一音高处、同一小节内部，如果存在连续的多个细碎节拍，则优化单元850可以将这些细碎节拍合并；如果在某个单独的细碎节拍附近存在较长的节拍，则优化单元850可以将这个单独的细碎节拍分配给其附近的较长节拍。又例如，对于持续时间长度很短的细碎节拍，可以设置一个或多个长度阈值，如果该细碎节拍的长度小于第一长度阈值，则优化单元850可以直接删除该细碎节拍；如果细碎节拍的长度大于第一长度阈值且小于第二长度阈值，则优化单元850可以适当延长该细碎节拍。其中，第一长度阈值以及第二长度阈值例如可以小于用于判定细碎节拍的预定时间阈值的数值，并且第一长度阈值小于第二时间阈值，本公开实施例对此不作具体限定。

图6B示出了根据本公开实施例的示例的对图6A中所示的预测乐谱进行优化处理后的结果的示意图。如图6B所示，相比于图6A，优化后的预测乐谱更为稳定简洁，其中的细碎节拍大幅减少。然后，转换单元840可以基于优化后的预测乐谱来生成指定转换类型的转换音频，从而可以获得更高质量的转换音频。

根据本公开实施例的音频转换装置800还可以包括输出单元860，输出单元860被配置为输出转换音频。例如，输出单元860可以以文件或者链接的形式输出转换音频，链接例如可以是URL，或者也可以是其他能够由其获取到该转换音频的地址、索引等等，本公开实施例对此不作具体限制。此外，在输出转换音频时，输出单元860还可以将转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出编辑后的视频内容。例如，在从视频文件或者视频流中提取音频作为输入的待转换音频的情况下，在对待转换音频进行音频转换生成转换音频之后，输出单元860可以将该转换音频添加到视频文件或者视频流中，或者用该转换音频替换视频文件或者视频流中包含的原音频，然后输出经此编辑后的视频文件或者视频流。又例如，输出单元860可以将转换音频添加到不包含音频的视频内容中，以生成具有音频的视频内容，等等。

利用根据本公开实施例的音频转换装置，通过对输入的待检测音频进行音源分离处理，能够排除非主旋律音轨的干扰而进行高质量的音频转换，从而扩大了可输入的待转换音频的范围；并且，通过基于主旋律音轨来预测待转换音频的乐谱，并基于预测乐谱生成指定转换类型的转换音频，能够生成没有杂音、辨识度高的高质量转换音频。而且，根据本公开实施例的音频转换装置所需的时间较少，从而大大缩短了开发成本，提高了音频转换效率。

此外，根据本公开实施例的设备(例如，音频转换设备等)也可以借助于图9所示的示例性计算设备的架构来实现。图9示出了根据本公开实施例的示例性计算设备900的架构的示意图。如图9所示，计算设备900可以包括总线910、一个或多个CPU 920、只读存储器(ROM)930、随机存取存储器(RAM)940、连接到网络的通信端口950、输入/输出组件960、硬盘970等。计算设备900中的存储设备，例如ROM 930或硬盘970可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备900还可以包括用户界面980。当然，图9所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图9示出的计算设备中的一个或多个组件。根据本公开实施例的音频转换设备可以被配置为执行根据本公开上述各个实施例的音频转换方法，或者用于实现根据本公开上述各个实施例的音频转换装置。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开上述各个实施例的音频转换方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

根据本公开的实施例，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个实施例中描述的音频转换方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

此外，本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作叠加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对本公开进行了详细说明，但对于本领域技术人员而言，显然，本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本公开而言并非具有任何限制性的意义。

Claims

1.一种音频转换方法，包括：

获取待转换音频以及指定转换类型；

对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨；

基于所述主旋律音轨预测所述待转换音频的乐谱，以生成预测乐谱；以及

基于所述预测乐谱生成所述指定转换类型的转换音频，

其中，在基于所述预测乐谱生成所述指定转换类型的转换音频之前，所述音频转换方法还包括：

确定所述预测乐谱中的细碎节拍的数量与节拍的总数的比例，所述细碎节拍为持续时间小于预定时间阈值的节拍；以及

在所述比例超过预定比例阈值时，对所述预测乐谱进行优化处理。

2.根据权利要求1所述的音频转换方法，其中，获取待转换音频包括：

输入包含音频的多媒体内容或者所述多媒体内容的链接；以及

提取所述多媒体内容中的音频作为所述待转换音频。

3.根据权利要求2所述的音频转换方法，其中，所述多媒体内容是视频文件、音频文件、视频流、音频流中的任一种，所述预测乐谱包括用符号表示的乐曲信息，所述乐曲信息包括具有音高、起始时间和终止时间的不同节拍。

4.根据权利要求1所述的音频转换方法，其中，对所述待转换音频进行音源分离处理以获取所述待转换音频的主旋律音轨包括：

将所述待转换音频划分为至少两个分离音轨，所述至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨，所述至少一个非主旋律音轨包括：人声音轨、贝斯音轨、鼓点音轨、以及其他音轨中的至少一部分；

从所述至少两个分离音轨中提取所述主旋律音轨。

5.根据权利要求4所述的音频转换方法，还包括：

确定所述至少一个非主旋律音轨中的、要加入到所述转换音频中的目标非主旋律音轨；

将所述目标非主旋律音轨添加到所述转换音频中。

6.根据权利要求1所述的音频转换方法，其中，基于所述主旋律音轨预测所述待转换音频的乐谱以生成预测乐谱包括：

提取所述主旋律音轨的声音特征参数；以及

将所述声音特征参数输入到深度神经网络中进行预测，以生成所述预测乐谱。

7.根据权利要求1所述的音频转换方法，其中，对所述预测乐谱进行优化处理包括：

对于处于同一音高的、同一小节内部的细碎节拍，执行以下处理中的一项或多项：合并临近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍，

其中，所述小节为所述预测乐谱中包括预定数量的节拍或者具有预定时间长度的单位。

8.根据权利要求1所述的音频转换方法，其中，基于所述预测乐谱生成所述指定转换类型的转换音频包括：

在所述预测乐谱中的乐曲信息的控制下，利用所述指定转换类型的音色器文件来合成所述指定转换类型的转换音频，其中，所述音色器文件为存储乐器的真实声音样本的文件。

9.根据权利要求1-8中任一项所述的音频转换方法，还包括：输出所述转换音频，其中，输出所述转换音频还包括以下至少一项：

以文件或链接的形式输出所述转换音频；以及

将所述转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出所述编辑后的视频内容。

10.根据权利要求1所述的音频转换方法，其中，对所述待转换音频进行音源分离处理以获取所述待转换音频的主旋律音轨包括：

利用音源分离网络对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨，

其中，所述音源分离网络通过以下方法进行训练：

获取训练音频数据，所述训练音频数据包括多个训练音频，其中每个训练音频是通过合成已知主旋律音轨和已知非主旋律音轨得到的；

利用所述音源分离网络对所述多个训练音频进行音源分离处理，以得到训练分离结果；以及

利用所述多个训练音频的已知主旋律音轨和已知非主旋律音轨对所述训练分离结果进行监督训练。

11.一种音频转换装置，所述装置包括：

获取单元，被配置为获取待转换音频以及指定转换类型；

分离单元，被配置为对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨；

预测单元，被配置为基于所述主旋律音轨预测所述待转换音频的乐谱，以生成预测乐谱；以及

转换单元，被配置为基于所述预测乐谱生成所述指定转换类型的转换音频，

其中，所述音频转换装置还包括优化单元，所述优化单元被配置为：

12.一种音频转换设备，包括:

一个或多个处理器；和

一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如权利要求1-10中任一项所述的方法。