CN112669811A

CN112669811A - 一种歌曲处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN112669811A
Application number: CN202011546089.3A
Authority: CN
Inventors: 洪宇
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-16
Anticipated expiration: 2040-12-23
Also published as: CN112669811B

Abstract

本申请公开了一种歌曲处理方法、装置、设备及计算机可读存储介质，该方法包括：获取待处理歌曲，并对待处理歌曲进行声伴分离处理，得到人声音频；对人声音频进行音高检测，得到主旋律信息；对待处理歌曲进行节奏检测，得到节奏信息；获取配器参数，并基于主旋律信息和节奏信息，利用配器参数进行和声生成，得到和声音频；对人声音频和和声音频进行歌曲合成处理，得到处理后歌曲；该方法通过声伴分离处理的方式将人声剥离，避免在转换后造成歌曲中的人声消失，并重新生成和声音频，增大了风格转换的幅度，保证了歌曲风格的转换效果。

Description

一种歌曲处理方法、装置、电子设备及可读存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种歌曲处理方法、歌曲处理装置、电子设备及计算机可读存储介质。

背景技术

歌曲风格转换是指将一首普通的歌曲，转化成适合睡眠时听的舒缓版本，或者是适合跑步时听的高动态版本的歌曲处理方式。相关技术在进行歌曲风格转换时，通常利用编码器对歌曲进行过高维表示，并将高位特征拆分为歌曲风格部分和旋律部分，通过对歌曲风格部分进行替换，并在替换后重新编码，完成对歌曲风格的转换。然而在转换过程中，歌曲中内的人声通常会被认为是一种音色，属于歌曲风格的一部分，因此在转换后人声会消失，而对于歌曲来说，人的演唱是非常重要的一环。同时，相关技术仅能对原有歌曲进行处理，歌曲风格转换的幅度较小，因此相关技术的歌曲风格转换效果差。

发明内容

有鉴于此，本申请的目的在于提供一种歌曲处理方法、歌曲处理装置、电子设备及计算机可读存储介质，通过声伴分离处理将声伴分离，使得处理后歌曲人声不会消失，同时根据主旋律信息、伴奏信息和配器参数重新生成和声，增大了歌曲风格转换的幅度，改善了歌曲风格转换效果。

为解决上述技术问题，第一方面，本申请提供了一种歌曲处理方法，包括：

获取待处理歌曲，并对所述待处理歌曲进行声伴分离处理，得到人声音频；

对所述人声音频进行音高检测，得到主旋律信息；

对所述待处理歌曲进行节奏检测待处理歌曲，得到节奏信息；

获取配器参数，并基于所述主旋律信息和所述节奏信息，利用所述配器参数进行和声生成，得到和声音频；

对所述人声音频和所述和声音频进行歌曲合成处理，得到处理后歌曲。

在一种实施方式中，所述基于所述主旋律信息和所述节奏信息，利用所述配器参数进行和声生成，得到和声音频，包括：

将所述主旋律信息和所述节奏信息输入曲谱生成模型，得到和声曲谱；

将所述和声曲谱和所述配器参数输入音频合成器，生成所述和声音频。

在一种实施方式中，所述曲谱生成模型的生成过程，包括：

获取训练旋律信息和对应的训练曲谱信息；

确定所述训练旋律信息和所述训练曲谱信息之间的标签关系；所述标签关系为所述训练旋律信息为所述训练曲谱信息的标签，或所述标签关系为所述训练旋律信息是所述训练曲谱信息的标签；

基于所述标签关系，利用所述训练旋律信息和所述训练曲谱信息对初始模型进行训练，得到所述曲谱生成模型。

在一种实施方式中，所述获取配器参数之前，还包括：

获取训练歌曲和对应的训练风格信息；

将所述训练歌曲输入乐器识别模型，得到对应的训练配器参数；

利用所述训练配器参数和所述训练风格信息建立所述风格与配器对应关系；

相应的，所述获取配器参数，包括：

获取目标歌曲对应的目标风格信息，并利用所述目标风格信息筛选风格与配器对应关系，得到所述配器参数。

在一种实施方式中，所述对所述人声音频进行音高检测，得到主旋律信息，包括：

基于歌词时间戳信息对所述人声音频进行以单个字为粒度的切分处理，得到多个人声子音频；

分别对各个所述人声子音频进行音高检测，得到多个主旋律子信息；

利用各个所述主旋律子信息生成所述主旋律信息。

在一种实施方式中，所述对所述待处理歌曲进行节奏检测，得到节奏信息包括：

对所述待处理歌曲经过声伴分离处理后得到的非人声音频进行鼓点起始点检测，得到第一节奏信息；

对所述人声音频或所述非人声音频进行音高变化时间点检测，得到第二节奏信息；

利用所述第二节奏信息对所述第一节奏信息进行修正，得到所述节奏信息。

在一种实施方式中，所述利用所述第二节奏信息对所述第一节奏信息进行修正，得到所述节奏信息，包括：

确定所述第一节奏信息对应的多个第一时间点和所述第二节奏信息对应的多个第二时间点；

利用各个所述第一时间点和与所述第一时间点对应的所述第二时间点进行加权平均计算，得到多个中心时间点；

利用所述中心时间点生成所述节奏信息。

在一种实施方式中，所述对所述待处理歌曲进行节奏检测，得到节奏信息，包括：

获取所述待处理歌曲对应的歌词时间戳信息；

对所述歌词时间戳信息进行时间戳分析，得到所述节奏信息。

在一种实施方式中，所述对所述人声音频和所述和声音频进行歌曲合成处理，得到处理后歌曲，包括：

根据人声处理设置对所述人声音频进行处理，得到对应的第二音频；

利用所述第二音频和所述和声音频进行歌曲合成处理，得到所述处理后歌曲。

第二方面，本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的歌曲处理方法。

第三方面，本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的歌曲处理方法。获取所述人声音频对应的歌词时间戳信息

本申请提供的歌曲处理方法，获取待处理歌曲，并对待处理歌曲进行声伴分离处理，得到人声音频；对人声音频进行音高检测，得到主旋律信息；对待处理歌曲进行节奏检测，得到节奏信息；获取配器参数，并基于主旋律信息和节奏信息，利用配器参数进行和声生成，得到和声音频；对人声音频和和声音频进行歌曲合成处理，得到处理后歌曲。

可见，该方法在对待处理歌曲进行风格转换时，先对其进行声伴分离处理，声伴分离处理可以将歌曲中的人声剥离，得到单纯的人声音频。对人声音频进行音高检测，可以得到待处理歌曲的主旋律信息，同时对待处理歌曲进行节奏检测，可以得到节奏信息。由于歌曲的风格通常和乐器的采用和搭配有直接关系，可以通过获取配器参数，并基于主旋律信息和节奏信息，利用配器参数生成和声音频，即可得到风格转换后的非人声音频。将和声音频和人声音频重新合成，即可得到风格转换后的处理后歌曲。通过声伴分离处理的方式将人声剥离，并根据主旋律信息、节奏信息和配器参数重新生成和声音频，可以使得待处理歌曲中的人声部分不直接参与风格转换处理的过程，避免在转换后造成歌曲中的人声消失。同时，利用和声音频替代原有的非人声音频，可以增大歌曲风格转换的幅度，保证了歌曲风格的转换效果，解决了相关技术会导致人声消失，歌曲处理效果差的问题。

此外，本申请还提供了一种歌曲处理装置、电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种歌曲处理方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种歌曲处理方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种歌曲处理方法的一种流程示意图；

图4为本申请实施例提供的一种转换设置确定界面示意图；

图5为本申请实施例提供的另一种转换设置确定界面示意图；

图6为本申请实施例提供的一种歌曲处理方法的总体流程图；

图7为本申请实施例提供的一种歌曲处理装置的一种结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术在进行歌曲风格转换时，通常通过深度学习模型，例如GAN模型(Generate Adversarial Network，生成对抗网络)、VAE(Variational autoencoder，变分自动编码器)等，对歌曲音频进行特征提取和处理后，重新恢复为歌曲音频，完成将歌曲从一种风格转化成另一种风格的处理。比较典型的做法是：

(1)用一个Encoder(即编码器，用于对低层次音频特征进行编码)，对音乐进行高维表示，得到特征；

(2)识别风格特征和旋律特征，将歌曲风格部分的Embedding(即风格特征)与旋律部分的Embedding拆分(即旋律特征)；

(3)将风格部分的Embedding替换成另一种风格的Embedding，完成歌曲风格转换；

(4)利用一个Decoder(即解码器，用于将编码器产生的特征进行还原，得到音频)生成新的风格音乐，同时保留歌曲的旋律。

相关技术在执行第(2)步识别风格特征和旋律特征时，通常会将人声识别为一种音色，属于风格特征的一部分，因此在第(3)步完成风格转换后，歌曲中的人声就会消失。同时，相关技术在待处理风格的基础上进行风格转换，风格转换的幅度受到待处理歌曲的限制，因此转换幅度较小，效果较差。为了解决上述问题，本申请利用声伴分离处理，将歌曲中的人声剥离。对人声音频进行音高检测，可以得到待处理歌曲的主旋律信息，同时对人声音频或声伴分离处理得到的非人声音频进行节奏检测，可以得到节奏信息。由于歌曲的风格通常和乐器的采用和搭配有直接关系，可以通过获取配器参数，并基于主旋律信息和节奏信息，利用配器参数生成和声音频，即可得到风格转换后的非人声音频。将和声音频和人声音频重新合成，即可得到风格转换后的处理后歌曲。通过声伴分离处理的方式将人声剥离，并根据主旋律信息、节奏信息和配器参数重新生成和声音频，可以使得待处理歌曲中的人声部分不直接参与风格转换处理的过程，避免在转换后造成歌曲中的人声消失。同时，利用和声音频替代原有的非人声音频，可以增大歌曲风格转换的幅度，保证了歌曲风格的转换效果。

为了便于理解，先对本申请实施例提供的歌曲处理方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种歌曲处理方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成歌曲处理方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

获取待处理歌曲，并对待处理歌曲进行声伴分离处理，得到人声音频；

对人声音频进行音高检测，得到主旋律信息；

对待处理歌曲进行节奏检测待处理歌曲，得到节奏信息；

获取配器参数，并基于主旋律信息和节奏信息，利用配器参数进行和声生成，得到和声音频；

对人声音频和和声音频进行歌曲合成处理，得到处理后歌曲。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行歌曲处理方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

其中，图1中的电子设备100可以为终端(如手机、平板电脑等移动终端，或PC机等固定终端)或者服务器。在一种具体的实施方式中，电子设备100可以利用通信组件105通过网络接收其它设备或终端发送的待处理歌曲；在另一种具体的实施方式中，电子设备100可以利用多媒体组件103获取输入的待处理歌曲；在另一种具体的实施方式中，电子设备100可以从存储器102中获取输入的待处理歌曲。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成歌曲处理方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种歌曲处理方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互，实现歌曲风格转换处理的功能。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是终端或智能电子设备，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高歌曲处理的处理效率。同时利用成本低，应用范围广的终端或智能电子设备作为第一电子设备11，用于实现第二电子设备12与用户之间的交互。该交互过程可以为：终端用于确定待处理歌曲并获取配器参数，并将待处理歌曲和配器参数发送给服务器，服务器基于待处理歌曲和配器参数生成和声音频并得到处理后歌曲，服务器将处理后歌曲发送给终端。

基于上述说明，请参考图3，图3为本申请实施例提供的一种歌曲处理方法的一种流程示意图。该实施例中的方法包括：

S101：获取待处理歌曲，并对待处理歌曲进行声伴分离处理，得到人声音频。

声伴分离处理具体为将人声与伴奏进行分离的音频处理方式。待处理歌曲为需要被进行风格转换处理的歌曲，其具体内容不做限定。待处理歌曲的数量可以为一个或多个，即可以批量处理。在获取待处理歌曲后，对其进行声伴分离处理，以便将待处理歌曲中的人声部分与非人声部分分离，得到对应的人声音频。可以理解的是，在对待处理歌曲进行声伴分离处理后，同时可以得到不包括人声的非人声音频，非人声音频可以保留，以便后续获取节奏信息需要时调用，也可以不进行保留直接删除。本实施例并不限定声伴分离的具体分离方式，可以理解的是，可以先对待处理歌曲中的人声部分进行识别，并在识别后将其从待处理歌曲中剥离，得到人声音频。具体的，可以采用已有的声伴分离工具执行上述步骤完成声伴分离，例如可以采用Spleeter工具。Spleeter是法国的音乐流媒体公司Deezer开源的一个音轨分离软件，只需输入一段命令就可以将音乐的人声和各种乐器声分离，由Python(一种计算机程序设计语言)作为主要语言，并且使用了TensorFlow(一种由谷歌研发的人工智能学习系统)来进行模型训练。或者还可以根据需要构建训练数据并利用其对声伴分离模型进行训练，例如可以获取具有人声的歌曲和对应的伴奏音乐作为训练数据训练声伴分离模型，并在训练结束后利用其进行声伴分离处理。非人声音频即为除人声部分以外的音频，其具体数量不做限定，即可以将待处理歌曲中非人声的部分同样拆分为多个部分，例如拆分为鼓点音频和非鼓点音频。

S102：对人声音频进行音高检测，得到主旋律信息。

音高是指各种音调高低不同的声音，即音的高度，是音的基本特征的一种。音的高低是由振动频率决定的，两者成正相关关系：频率(即单位时间内振动次数的多少)高则音“高”，反之则音“低”。由于生成的和声音频用于对人声进行应和，因此在生成和声音频时需要先确定人声音频的音高，即得到主旋律信息，以便基于主旋律信息生成能够与人声音频相配合、营造合适听感的和声音频。本实施例并不限定音高检测的具体方式，例如可以采用基频检测算法，即检测人声音频的基频频率，并利用基频频率和音高的对应关系确定对应的音高。

S103：对待处理歌曲进行节奏检测，得到节奏信息。

在对待处理歌曲进行节奏检测时，可以对人声音频进行节奏检测，或者可以对待处理歌曲经过声伴分离处理后得到的非人声音频进行节奏检测，或者可以对人声音频和非人声音频均进行节奏间。节奏(Rhythm)是指音乐中音的长短和强弱，其主要由四个要素组成，分别是Meter(节拍)、Tempo(速度)，Accent(重音)和Pattern。节拍是有规律地强拍(Strong Beats)和弱拍(Weak Beats)的反复。速度决定了一段音乐的快慢，通常用BPM(Beats per Minute即每分钟多少拍)进行衡量。节拍和速度相关。节拍中一个拍子(Beat)的音长是一个相对的时间概念，当速度为每分钟60拍时，每拍的音长为一秒，半拍为二分之一秒；当速度为每分钟120拍时，每拍的音长为半秒，半拍为四分之一秒，依此类推。重音是音乐中强度较大的音。Pattern是指如何把一个拍子划分为更小的单位。例如，一个拍子既可以被均匀地分成两个半拍的八分音符，也可以被不均匀地分成一个四分之三拍的附点八分音符(Dotted-Eighth Note)和一个四分之一拍的十六分音符，甚至还可以被均匀地或不均匀地分成三个或更多个音符。

在生成和声音频时，需要确定当前待处理歌曲的节奏，得到节奏信息，以便基于该节奏信息生成与人声音频相匹配的和声音频。本实施例并不限定获取节奏信息的具体获取方式，例如可以利用非人声音频获取节奏信息。在一种可行的实施方式中，在非人声音频具有鼓点的情况下，可以对非人声音频进行鼓点检测，得到节奏信息。在另一种可行的实施方式中，为了提高节奏信息的准确性，可以利用歌词时间戳信息得到节奏信息。

S104：获取配器参数，并基于主旋律信息和节奏信息，利用配器参数进行和声生成，得到和声音频。

不用的乐器具有不同的音色特点，适用于不同的歌曲风格，因此在歌曲风格转换时，获取配器参数并基于配器参数生成和声音频，可以起到更好的风格转换效果，使得风格转换所适用的范围更大。配器参数可以表明处理后歌曲的风格，其具体内容不做限定，例如，配器参数可以为转换后采用的乐器信息，即采用乐器信息对应的乐器重新生成和声音频。或者，配器参数可以为音频合成器所需的参数，音频合成器的具体形式和种类不做限定。

本实施例并不限定配器参数的具体获取方式，例如在一种实施方式中，可以预存多种配器参数，根据获取到的用户输入的配器参数信息从中确定并获取选择的配器参数。请参考图4，图4为本申请实施例提供的一种配器参数确定界面示意图，其具体为一种音乐APP(Application)的用户界面。由图4可以看到，共有三种预存的配器参数，分别为睡眠模式设置、跑步模式设置和办公模式设置，三种配器参数分别与标签一一对应，并以标签的方式在用户界面进行展示。用户可以通过手势操作在电子设备上生成配器参数信息，例如在屏幕上点击跑步模式的字样，生成与跑步模式对应的配器参数信息，并利用该配器参数信息获取跑步模式对应的配器参数。或者，可以根据当前时间、用户ID、用户历史选择等因素自动生成配器参数信息，例如当用户上午十点打开音乐APP时，根据用户ID确定用户历史选择，并利用当前时间对用户历史选择进行匹配，发现该用户在上述十点通常使用办公模式，此时可以自动生成办公模式设置对应的配器参数信息。

在另一种可行的实施方式中，配器参数并不是预存的，而是在需要时实时获取。在这种情况下，电子设备可以获取用户输入的配器参数或者由其他电子设备发送的配器参数，或者可以根据指令生成配器参数。请参考图5，图5为本申请实施例提供的另一种配器参数确定界面示意图，其具体为一种音乐APP的另一种用户界面。例如，激烈和舒缓的选项可以对应于鼓点的增强和弱化，欢快和忧伤的选项可以对应于音乐的增强和弱化。在使用时，可以通过调节上述选项生成对应的配器参数，例如可以通过手势操作调节配器参数。可以理解的是，采用这种配器参数获取方式可以允许用户对风格转换的过程进行更加精细和个性化的调整，使得转换后的处理后歌曲的风格更符合用户的需求。

在获取到配器参数后，基于主旋律信息和节奏信息，利用该配器参数生成非人声音频对应的和声音频，和声音频将会取代非人声音频在歌曲中的作用，与人声音频重新生成处理后歌曲，实现对待处理歌曲的风格转换。需要说明的是，非人声音频与和声音频相对应，指的是二者在待处理歌曲和处理后歌曲的作用相对应，都是为了与人声音频相配合组成歌曲，而不是说明和声音频必须基于非人声音频生成。

S105：对人声音频和和声音频进行歌曲合成处理，得到处理后歌曲。

在得到和声音频后，利用人声音频和和声音频进行歌曲合成处理，合成得到处理后音频。合成处理的具体方式不做限定，例如可以直接将两个音频进行叠加，得到处理后歌曲；或者可以将两个音频进行叠加，并在叠加后进行鼓点调整等后续处理，并在后续处理结束后得到处理后歌曲。

应用本申请实施例提供的歌曲处理方法，在对待处理歌曲进行风格转换时，先对其进行声伴分离处理，声伴分离处理可以将歌曲中的人声剥离，得到单纯的人声音频。对人声音频进行音高检测，可以得到待处理歌曲的主旋律信息，同时对待处理歌曲进行节奏检测，可以得到节奏信息。由于歌曲的风格通常和乐器的采用和搭配有直接关系，可以通过获取配器参数，并基于主旋律信息和节奏信息，利用配器参数生成和声音频，即可得到风格转换后的非人声音频。将和声音频和人声音频重新合成，即可得到风格转换后的处理后歌曲。通过声伴分离处理的方式将人声剥离，并根据主旋律信息、节奏信息和配器参数重新生成和声音频，可以使得待处理歌曲中的人声部分不直接参与风格转换处理的过程，避免在转换后造成歌曲中的人声消失。同时，利用和声音频替代原有的非人声音频，可以增大歌曲风格转换的幅度，保证了歌曲风格的转换效果，解决了相关技术会导致人声消失，歌曲处理效果差的问题。

在一种具体的实施方式中，本申请实施例提供了一种具体的歌曲处理过程。为了提高音高检测的准确性，保证得到准确的主旋律信息，S101步骤进一步可以包括：

步骤11：基于歌词时间戳信息对人声音频进行以单个字为粒度的切分处理，得到多个人声子音频。

歌词时间戳信息与歌曲相对应，其记录了歌词中每个字的开始时刻和结束时刻，其具体格式不做限定，例如可以为QRC格式的歌词文件。由于在歌曲演唱时，每个字对应的音高都可能不同，因此可以基于歌词时间戳信息对人声音频进行以单个字为粒度的切分处理，即按照歌词中每个字的开始时刻和结束时刻对人声音频进行切分，得到多个人声子音频，每个人声子音频对应于歌词中的一个字。

步骤12：分别对各个人声子音频进行音高检测，得到多个主旋律子信息。

在得到多个人声子音频后，分别对其进行音高检测。由于歌词中的每个字对应的音高可能不同，而同一个字对应的音高基本不变，因此对人声子音频进行音高检测得到的主旋律子信息的准确率较高。

步骤13：利用各个主旋律子信息生成主旋律信息。

在得到准确率较高的主旋律子信息后，可以利用其生成主旋律信息，具体可以按照人声子音频的时间先后顺序对主旋律子信息进行拼接，得到主旋律信息。利用该生成方式可以得到准确率较高的主旋律信息，有利于在后续生成与人声音频更加匹配的和声音频。

在另一种可行的实施方式中，可能不存在歌词时间戳信息。在这种情况下，可以按照预设的帧大小对人声音频进行分帧，并在各个帧内检测人声音频的音高，最后对各个帧对应的音高进行整合，得到主旋律信息。

基于上述实施例，在一种可行的实施方式中，为了提高节奏信息的准确性，可以利用歌词时间戳信息得到节奏信息。对待处理歌曲进行节奏检测，得到节奏信息的步骤可以包括：

步骤21：获取待处理歌曲对应的歌词时间戳信息。

步骤22：对歌词时间戳信息进行时间戳分析，得到节奏信息。

由于人声的演唱同样需要和节奏相对应，而歌词时间戳信息中记录了每句歌词每个字的开始时刻和结束时刻，因此在对人声音频进行节奏检测时，获取其对应的歌词时间戳信息，并对歌词时间戳信息进行时间戳分析，即可得到对应的节奏信息。时间戳分析的具体方式和过程不做限定，可以参考相关技术。

在另一种可行的实施方式中，在非人声音频具有鼓点的情况下，通过对非人声音频进行节奏检测完成对待处理歌曲的节奏检测，即对非人声音频进行鼓点检测，得到节奏信息。

在另一种可行的实施方式中，若不存在所述歌词时间戳信息，且待检测歌曲也不存在鼓点。在这种情况下，还可以检测音高变化时间点，并基于音高变化时间点得到节奏信息。需要说明的是，由于人声演唱和非人声的伴奏均会随着节奏而变化，因此在进行音高变化时间点检测时，可以对人声音频进行检测，也可以对非人声音频进行检测。即可以对人声音频进行检测，完成对待处理歌曲的节奏检测；或者对非人声音频进行检测，完成对待处理歌曲的节奏检测。在本申请中，可以采用上述四种节奏信息获取方式中的任意方式获取节奏信息。

进一步的，为了保证节奏信息的准确性，还可以采用上述四种方式中的任意两种或两种以上方式分别获取初始节奏信息，并基于各种方式获取的初始节奏信息得到节奏信息。具体的，对待处理歌曲进行节奏检测，得到节奏信息的步骤可以包括：

步骤31：对待处理歌曲经过声伴分离处理后得到的非人声音频进行鼓点起始点检测，得到第一节奏信息。

步骤32：对人声音频或非人声音频进行音高变化时间点检测，得到第二节奏信息。

步骤33：利用第二节奏信息对第一节奏信息进行修正，得到节奏信息。

步骤31和步骤32的具体说明请见上述实施例，本实施例再次在此不再赘述。在获取第一节奏信息和第二节奏信息后，可以利用第二节奏信息对第一节奏信息进行修正，得到节奏信息。修正的具体方式本实施例不做限定，例如可以将第一节奏信息对应的第一时间点和第二节奏信息对应的第二时间点取中间时间点，并利用中间时间点构建节奏信息。

具体的，由于第一节奏信息和第二节奏信息的获取方式不同，因此在进行修正时，为了防止因修正导致节奏信息的准确率下降，可以采用加权平均计算的方式进行信息修正。因此利用第二节奏信息对第一节奏信息进行修正，得到节奏信息的步骤可以包括：

步骤41：确定第一节奏信息对应的多个第一时间点和第二节奏信息对应的多个第二时间点。

节奏信息包括了各个节奏点的时间，即多个时间点。对第一节奏信息进行解析，即可得到其记录的各个节奏点对应的第一时间点。相应的，可以得到第二节奏信息记录的各个节奏点对应的第二时间点。

步骤42：利用各个第一时间点和与第一时间点对应的第二时间点进行加权平均计算，得到多个中心时间点。

在得到各个第一时间点和各个第二时间点后，将其对应起来，具体对应方式不做限定，例如可以将第一时间点按照时间先后顺序排序得到第一序列，将第二时间点按照时间先后顺序排序得到第二序列，并将第一序列和第二序列中序号相同的第一时间点和第二时间点确定为对应的时间点。在确定第一时间点和对应的第二时间点后，利用其进行加权平均计算，得到对应的中心时间点。加权平均计算采用的权重值的具体大小不做限定，在一种实施方式中，权重值固定不变，例如第一时间点对应的权重值为0.7，第二时间点对应的权重值为0.3。在另一种实施方式中，根据第一节奏信息和第二节奏信息的获取方式的不同，第一时间点和第二时间点分别对应的权重值也不同。例如当第一节奏信息基于歌词时间戳信息得到，第二节奏信息利用鼓点起始点检测的方式得到时，第一时间点对应的权重值为0.8，鼓点起始点检测对应的权重值为0.2；或者第一节奏信息利用人声音频的音高变化时间点检测的方式得到，第二节奏信息利用鼓点起始点检测的方式得到时，第一时间点对应的权重值为0.6，鼓点起始点检测对应的权重值为0.4。

步骤43：利用中心时间点生成节奏信息。

在得到各个第一时间点对应的中心时间点后，利用其生成节奏信息。

需要说明的是，为了更好地生成和声音频，在得到节奏信息后，还可以进一步进行Beat Detection(节奏检测)，以便得到更多有关节奏的信息，有利于在后续更好地生成和声音频。

基于上述实施例，为了准确获取配器参数，可以利用乐器识别模型对海量的已有歌曲的配器参数进行获取，进而得到准确的风格与配器对应关系。

具体的，获取配器参数之前，还可以包括：

步骤51：获取训练歌曲和对应的训练风格信息。

需要说明的是，本申请实施例中歌曲的风格具体指歌曲的流派风格，例如流行、古典、爵士、蓝调、摇滚、拉丁等。可以理解的是，不同乐器的音色等不同，其音色等特性决定了乐器对风格的表现具有局限性，一种乐器仅能表现少数几种风格，一种风格需要多种乐器搭配演奏，因此一种风格对应的乐器以及乐器组合是相对固定的。因此可以认为，风格与乐器种类以及乐器组合具有对应关系。在本实施例中，每个训练歌曲均具有对应的训练风格信息，训练风格信息具体可以为风格编号或风格名称。不同风格的歌曲对应的配器情况不同。

步骤52：将训练歌曲输入乐器识别模型，得到对应的训练配器参数。

将各个训练歌曲依次、分批次或全部输入乐器识别模型，可以得到各个训练音乐对应的配器信息，即训练配器参数。可以理解的是，训练配器参数不仅可以包括乐器的具体类型，还应当包括表现该乐器发出乐谱上各个音(例如do、re、mi、fa、sol、la、si，即C、D、E、F、G、A、B)的具体参数。例如训练配器参数可以包括乐器的种类以及各个乐器对应的基础音频，例如各个乐器演奏各个单个音得到的音频。或者可以为其他形式，例如利用音频和声器生成该乐器对应声音所需的具体参数，例如频率与单个音之间的对应关系，即利用什么样的频率和振幅可以生成什么样的音，例如130hz对应于C3音。

步骤53：利用训练配器参数和训练风格信息建立风格与配器对应关系。

在得到训练配器参数后，利用其与训练风格信息建立风格与配器对应关系。具体的，在一种可行的实施方式中，可以将各个训练风格信息对应的全部训练配器参数进行取交集处理，得到处理后训练配器参数，并将处理后训练配器参数与训练风格信息建立对应关系，得到风格与配器对应关系。

相应的，获取配器参数的步骤可以包括：

步骤54：获取目标歌曲的目标风格信息，并利用目标风格信息筛选风格与配器对应关系，得到配器参数。

在获取配器参数时，可以获取目标风格信息，目标风格信息可以由用户输入，用于表征处理后歌曲，即目标歌曲，的风格。利用目标风格信息筛选风格与配器对应关系，即可得到对应的配器参数。

在得到配器参数后，可以利用配器参数生成和声音频。为了使得和声音频能够准确地与人声音频配合，组成符合音乐规律的处理后歌曲，基于主旋律信息和节奏信息，利用配器参数进行和声生成，得到和声音频的步骤可以包括：

步骤61：将主旋律信息和节奏信息输入曲谱生成模型，得到和声曲谱。

在本实施例中，可以将主旋律信息和节奏信息输入曲谱生成模型，利用曲谱生成模型生成和声曲谱。具体的，由于主旋律信息基于人声音频得到，而节奏信息记录了和声音频的节奏，该节奏同样为人声音频的节奏。曲谱生成模型能够基于学习到的音乐规律构建和声曲谱，因此和声曲谱可以与人声音频相配合，同时符合音乐规律。

步骤62：将和声曲谱和配器参数输入音频合成器，生成和声音频。

在得到和声曲谱后，将其与配器参数输入音频合成器，即可得到和声音频。在本实施例中，配器参数为音频合成器所需的参数，例如可以为乐器编号。不同音频合成器对应的配器参数可以不同。音频合成器的具体选择不做限定，例如可以为Pro tools工具，是由Digidesign公司出品的工作站软件系统；或者可以为Adobe Audition软件。音频合成器所采用的合成算法不做限定，具体可以参考相关技术。

为了得到符合音乐规律的和声曲谱，在利用曲谱生成模型生成和声曲谱前，需要得到可靠地曲谱生成模型。在本实施例中，曲谱生成模型的生成过程可以包括：

步骤71：获取训练旋律信息和对应的训练曲谱信息.

训练旋律信息包括训练歌曲对应的主旋律信息和节奏信息，训练曲谱信息即为训练歌曲对应的曲谱信息。

步骤72：确定训练旋律信息和训练曲谱信息之间的标签关系。

步骤73：基于标签关系，利用训练旋律信息和训练曲谱信息对初始模型进行训练，得到曲谱生成模型。

在本实施例中，标签关系为训练旋律信息为训练曲谱信息的标签，或标签关系为训练旋律信息是训练曲谱信息的标签。根据曲谱生成模型采用的模型架构的不同，标签关系可以不同。例如在一种实施方式中，可以采用隐式马尔科夫模型作为曲谱生成模型，在训练时，将训练旋律信息作为标签，对其对应的训练曲谱信息进行推测，并根据推测结果对模型参数进行调整。在运行时，把主旋律信息和节奏信息作为观测值，将和声曲谱作为隐藏状态，基于主旋律信息和节奏信息对和声音频进行合理推测，即可得到和声曲谱。或者可以采用Transformer模型，其在训练时将训练曲谱信息作为标签。在运行时，根据给定的主旋律信息和节奏信息自动补全和声，得到和声音频。在确定标签关系后，基于标签关系对初始模型进行训练，即可得到对应的曲谱生成模型。该方法可以利用已有的音乐的训练旋律信息和对应的训练曲谱信息对初始模型进行训练，在训练的过程中使初始模型学习音乐规律，使得训练完成得到的曲谱生成模型可以生成符合音乐规律的和声曲谱。

请参考图7，图7为本申请实施例提供的一种歌曲处理方法的总体流程图。其中歌曲文件即为待处理歌曲，再对其进行声伴分离(即声伴分离)后得到人声音频和非人声音频，本实施例中，非人声音频共有两个，分别为鼓点音频和伴奏音频。人声音频用于进行音高检测，得到对应的主旋律，鼓点音频用于进行鼓点起始点检测，得到第一节奏，伴奏音频用于进行音高变化时间点检测，得到第二节奏。利用第一节奏和第二节奏生成节奏信息，并利用与主旋律信息共同进行算法作曲，得到和声曲谱。目标风格即为转换设置，根据其确定配器后获取配器参数，合成器按照和声曲谱利用配器参数生成和声音频，并将人声音频和和声音频进行混音，得到新风格歌曲，即处理后歌曲。合成器的具体类型不做限定，例如可以为Fluidsynth工具。

基于上述实施例，在一种可行的实施方式中，在生成处理后歌曲时，还可以对人声音频进行一定处理，以便处理后歌曲中的人声和伴奏更加匹配。具体的，对人声音频和和声音频进行歌曲合成处理，得到处理后歌曲的步骤可以包括：

步骤51：根据人声处理设置对人声音频进行处理，得到对应的第二音频。

步骤52：利用第二音频和和声音频进行歌曲合成处理，得到处理后歌曲。

人声处理设置的具体内容不做限定，例如可以参考图5，其中人声和伴奏的选项即为人声处理设置，包括人声强化、人声弱化等。在对人声音频进行处理后得到对应的第二音频，并利用其替代人声音频与和声音频进行歌曲合成处理，得到对应的处理后歌曲。

需要说明的是，本实施例中的人声处理设置不仅仅包括对人声的强化和弱化，还可以根据需要对人声音频进行男女人声转换等其他处理，具体处理方法可以参考相关技术，在此不再赘述。

需要说明的是，在需要时，歌曲合成处理还可以对人声音频进行替换，利用乐器声替代人声音频。具体的，可以对人声音频进行音高检测得到主旋律信息，并基于主旋律信息，利用配器参数生成乐器音频。乐器音频可以替代人声音频，使得处理后歌曲变成纯音乐歌曲。该方法中虽然处理后歌曲不存在人声，但是本实施例中的处理后歌曲还包括了用于替代人声的乐器主旋律，与相关技术在歌曲风格转换后仅剩伴奏而不具有主旋律的情况相比，该方法得到的处理后歌曲的听感更好。

下面对本申请实施例提供的歌曲处理装置进行介绍，下文描述的歌曲处理装置与上文描述的歌曲处理方法可相互对应参照。

请参考图7，图7为本申请实施例提供的一种歌曲处理装置的一种结构示意图，包括：

声伴分离模块，用于获取待处理歌曲，并对待处理歌曲进行声伴分离处理，得到人声音频；

音高检测模块，用于对人声音频进行音高检测，得到主旋律信息；

节奏检测模块，用于对待处理歌曲进行节奏检测，得到节奏信息；待处理歌曲为人声音频，和/或，待处理歌曲经过声伴分离处理后得到的非人声音频；

和声生成模块，用于获取配器参数，并基于主旋律信息和节奏信息，利用配器参数进行和声生成，得到和声音频；

歌曲合成模块，用于对人声音频和和声音频进行歌曲合成处理，得到处理后歌曲。

可选地，和声生成模块，包括：

曲谱生成单元，用于将主旋律信息和节奏信息输入曲谱生成模型，得到和声曲谱；

和声音频生成单元，用于将和声曲谱和配器参数输入音频合成器，生成和声音频。

可选地，包括：

第一获取模块，用于获取训练旋律信息和对应的训练曲谱信息；

标签关系确定模块，用于确定训练旋律信息和训练曲谱信息之间的标签关系；标签关系为训练旋律信息为训练曲谱信息的标签，或标签关系为训练旋律信息是训练曲谱信息的标签；

第一训练模块，用于基于标签关系，利用训练旋律信息和训练曲谱信息对初始模型进行训练，得到曲谱生成模型。

可选地，还包括：

第二获取模块，用于获取训练歌曲和对应的训练风格信息；

乐器识别模块，用于将训练歌曲输入乐器识别模型，得到对应的训练配器参数；

对应关系建立模块，用于利用训练配器参数和训练风格信息建立风格与配器对应关系；

相应的，和声生成模块，包括：

配器参数确定单元，用于获取目标歌曲对应的目标风格信息，并利用目标风格信息筛选风格与配器对应关系，得到配器参数。

可选地，音高检测模块，包括：

切分单元，用于基于歌词时间戳信息对人声音频进行以单个字为粒度的切分处理，得到多个人声子音频；

检测单元，用于分别对各个人声子音频进行音高检测，得到多个主旋律子信息；

主旋律信息生成单元，用于利用各个主旋律子信息生成主旋律信息。

可选地，节奏检测模块，包括：

第一检测单元，用于对待处理歌曲经过声伴分离处理后得到的非人声音频进行鼓点起始点检测，得到第一节奏信息；

第二检测单元，用于对人声音频或非人声音频进行音高变化时间点检测，得到第二节奏信息；

修正单元，用于利用第二节奏信息对第一节奏信息进行修正，得到节奏信息。

可选地，修正单元，包括：

时间点确定子单元，用于确定第一节奏信息对应的多个第一时间点和第二节奏信息对应的多个第二时间点；

加权平均子单元，用于利用各个第一时间点和与第一时间点对应的第二时间点进行加权平均计算，得到多个中心时间点；

生成子单元，用于利用中心时间点生成节奏信息。

可选地，节奏检测模块，包括：

时间戳信息获取单元，用于获取待处理歌曲对应的歌词时间戳信息；

时间戳分析单元，用于对歌词时间戳信息进行时间戳分析，得到节奏信息。

可选地，歌曲合成模块，包括：

人声处理单元，用于根据人声处理设置对人声音频进行处理，得到对应的第二音频；

合成单元，用于利用第二音频和和声音频进行歌曲合成处理，得到处理后歌曲。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的歌曲处理方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的歌曲处理方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种歌曲处理方法，其特征在于，包括：

对所述人声音频进行音高检测，得到主旋律信息；

对所述待处理歌曲进行节奏检测，得到节奏信息；

2.根据权利要求1所述的歌曲处理方法，其特征在于，所述基于所述主旋律信息和所述节奏信息，利用所述配器参数进行和声生成，得到和声音频，包括：

3.根据权利要求2所述的歌曲处理方法，其特征在于，所述曲谱生成模型的生成过程，包括：

获取训练旋律信息和对应的训练曲谱信息；

4.根据权利要求1所述的歌曲处理方法，其特征在于，所述获取配器参数之前，还包括：

获取训练歌曲和对应的训练风格信息；

相应的，所述获取配器参数，包括：

5.根据权利要求1所述的歌曲处理方法，其特征在于，所述对所述人声音频进行音高检测，得到主旋律信息，包括：

利用各个所述主旋律子信息生成所述主旋律信息。

6.根据权利要求1所述的歌曲处理方法，其特征在于，所述对所述待处理歌曲进行节奏检测，得到节奏信息，包括：

7.根据权利要求6所述的歌曲处理方法，其特征在于，所述利用所述第二节奏信息对所述第一节奏信息进行修正，得到所述节奏信息，包括：

利用所述中心时间点生成所述节奏信息。

8.根据权利要求1所述的歌曲处理方法，其特征在于，所述对所述待处理歌曲进行节奏检测，得到节奏信息，包括：

获取所述待处理歌曲对应的歌词时间戳信息；

9.根据权利要求1所述的歌曲处理方法，其特征在于，所述对所述人声音频和所述和声音频进行歌曲合成处理，得到处理后歌曲，包括：

10.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至9任一项所述的歌曲处理方法。

11.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的歌曲处理方法。