CN115064143A

CN115064143A - 一种伴奏音频生成方法、电子设备及可读存储介质

Info

Publication number: CN115064143A
Application number: CN202210743349.9A
Authority: CN
Inventors: 陆克松
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-16

Abstract

本申请公开了一种伴奏音频生成方法、电子设备及可读存储介质，该方法包括：获取原始伴奏的和弦信息；确定目标伴奏音频对应的伴奏风格信息；基于预设曲谱协议，利用伴奏风格信息和和弦信息生成多音轨的象征域伴奏数据；基于象征域伴奏数据，从预设素材库中确定目标音频素材，并依据目标音频素材，得到目标伴奏音频；该方法依据预设曲谱协议，可以生成多音轨的象征域伴奏数据，依据素材库可以实现象征域向音频域的转换，从而得到与原始伴奏风格迥异的目标伴奏音频，能够快速高效地自动生成各种风格的伴奏音频，快速丰富伴奏曲库，满足用户的需求，提高用户整体活跃度。

Description

一种伴奏音频生成方法、电子设备及可读存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种伴奏音频生成方法、电子设备及计算机可读存储介质。

背景技术

在传统的k歌过程中，同一首旋律的歌曲往往只存在创作时固有的一种伴奏，特别是经典歌曲，虽然其传唱度高，但时间久了单调风格的伴奏会导致用户新鲜度下降从而使得歌曲的点唱率下降。另一方面，k歌曲库中现有伴奏数量基本固定，即便会有新增伴奏入库，但整体数量仍旧只能缓慢增长，这就导致没有足够多的伴奏来满足用户与日俱增的k歌需求，进而影响到用户的整体活跃度。

发明内容

有鉴于此，本申请的目的在于提供一种伴奏音频生成方法、电子设备及计算机可读存储介质，能够快速高效地自动生成各种风格的伴奏音频，快速丰富伴奏曲库。

为解决上述技术问题，第一方面，本申请提供了一种伴奏音频生成方法，包括：

获取原始伴奏的和弦信息；

确定目标伴奏音频对应的伴奏风格信息；

基于预设曲谱协议，利用所述伴奏风格信息和所述和弦信息生成多音轨的象征域伴奏数据；

基于所述象征域伴奏数据，从预设素材库中确定目标音频素材，并依据所述目标音频素材，得到所述目标伴奏音频。

可选地，所述象征域伴奏数据包括乐器种类信息；

所述从预设素材库中确定目标音频素材，包括：

基于所述乐器种类信息，从所述预设素材库中获取由所述乐器种类信息对应乐器演奏得到的所述目标音频素材。

可选地，所述象征域伴奏数据包括拍子数信息；

所述从预设素材库中确定目标音频素材，包括：

基于所述乐器种类信息和所述拍子数信息，从所述预设素材库中获取所述目标音频素材。

可选地，所述象征域伴奏数据包括根音信息；

所述从预设素材库中确定目标音频素材，包括：

基于所述乐器种类信息、所述拍子数信息以及所述根音信息，从所述预设素材库中确定所述目标音频素材。

可选地，所述基于预设曲谱协议，利用所述伴奏风格信息和所述和弦信息生成多音轨的象征域伴奏数据，包括：

基于所述原始伴奏的原始拍子数和原始单位拍，确定小节时长；

利用所述小节时长、所述和弦信息和所述伴奏风格信息，确定各个小节对应的起止时刻和音频素材信息；

将所述起止时刻和所述音频素材信息按照所述预设曲谱协议进行封装，得到所述象征域伴奏数据。

基于预设曲谱协议，利用所述伴奏风格信息和所述和弦信息生成初始象征域数据；

获取象征域数据修改指令，并根据所述象征域数据修改指令修改所述初始象征域数据，得到所述象征域伴奏数据。

可选地，所述依据所述目标音频素材，得到所述目标伴奏音频，包括：

基于所述象征域伴奏数据，在所述目标音频素材中确定各个小节分别对应的待处理素材；

对各个小节分别对应的所述待处理素材进行基于音量上限抑制的混音处理，得到多个伴奏小节；

基于所述象征域伴奏数据，对所述伴奏小节进行拼接，得到所述目标伴奏音频。

可选地，所述目标音频素材包括鼓点音频素材、和弦音频素材和环境音频素材；

所述基于所述象征域伴奏数据，在所述目标音频素材中确定各个小节分别对应的待处理素材，包括：

按照周期时间间隔，确定所述鼓点音频素材的插入位置；将所述鼓点音频素材作为插入小节的待处理素材；其中，所述插入小节为所述插入位置所对应的小节；

基于所述象征域伴奏数据，在所述和弦音频素材中确定各个小节分别对应的待处理素材；

将所述环境音频素材随机确定为目标小节的待处理素材。

第二方面，本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的伴奏音频生成方法。

第三方面，本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的伴奏音频生成方法。

本申请提供的伴奏音频生成方法，获取原始伴奏的和弦信息；确定目标伴奏音频对应的伴奏风格信息；基于预设曲谱协议，利用伴奏风格信息和弦信息生成多音轨的象征域伴奏数据；基于象征域伴奏数据，从预设素材库中确定目标音频素材，并依据目标音频素材，得到目标伴奏音频。

可见，该方法利用预设曲谱协议，能够基于原始伴奏的和弦信息生成新风格的目标伴奏音频。具体的，在确定目标伴奏音频的伴奏风格信息后，基于预设曲谱协议，可以生成多音轨的象征域伴奏数据，依据素材库可以实现象征域向音频域的转换，从而得到与原始伴奏风格迥异的目标伴奏音频。通过该方法能够快速高效地自动生成各种风格的伴奏音频，快速丰富伴奏曲库，满足用户的需求，提高用户整体活跃度。

此外，本申请还提供了一种电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种伴奏音频生成方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种伴奏音频生成方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种伴奏音频生成方法的流程示意图；

图4为本申请实施例提供的一种用户终端界面示意图；

图5为本申请实施例提供的一种预设曲谱协议的示意图；

图6为本申请实施例提供的一种具体的伴奏音频生成方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，先对本申请实施例提供的伴奏音频生成方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种伴奏音频生成方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成伴奏音频生成方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

获取原始伴奏的和弦信息；

确定目标伴奏音频对应的伴奏风格信息；

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行伴奏音频生成方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成伴奏音频生成方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种伴奏音频生成方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是智能手机或其它智能终端，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高伴奏音频生成的处理效率。同时利用成本低，应用范围广的智能手机作为第一电子设备11，用于实现第二电子设备12与用户之间的交互。可以理解的是，该交互过程可以为：智能手机获取用于指定原始伴奏的信息和伴奏风格信息，并将用于指定原始伴奏的信息和伴奏风格信息发送至服务器，由服务器进行目标伴奏音频的生成。服务器将目标伴奏音频发送至智能手机，由智能手机对目标伴奏音频进行播放。

具体的，请参考图3，图3为本申请实施例提供的一种伴奏音频生成方法的流程示意图。该实施例中的方法包括：

S101：获取原始伴奏的和弦信息。

其中，原始伴奏，是指新风格的目标伴奏音频生成时作为基准的伴奏，其对应的和弦信息能够表征原始伴奏的和弦方面的情况。原始伴奏具体可以为一个歌曲在被创作时人工编曲得到的伴奏，或者也可以为利用本申请提供的伴奏音频生成方法或其他可选方式自动生成的伴奏。和弦信息的具体形式不做限定，例如可以为曲谱的形式，或者可以为其他预设好的能够被理解的数据形式，例如可以以列表的形式记录原始伴奏的和弦。

和弦信息的具体获取方式不做限定，在一种实施方式中，设置有和弦曲库，并对和弦曲库中的每个和弦音频预设有对应的和弦信息，并记录和弦音频和和弦信息的对应关系。通过获取用于指定原始伴奏的信息，例如原始伴奏的唯一标识信息(例如名称、编号等)，利用上述的对应关系即可选中其对应的和弦信息。在另一种实施方式中，为了减少数据存储的压力，可以在确定原始伴奏后，获取原始伴奏音频，并对该原始伴奏音频进行和弦分析，得到分析结果，即和弦信息。

需要说明的是，在一种实施方式中，除了获取和弦信息以外，还可以获取原始伴奏的其他一些基础信息，例如BPM(beats per minute)信息，BPM即每分钟节拍数的单位，可称为拍子数，例如BPM＝60，代表一分钟内出现60次拍子，BPM的数值越大代表越快的速度；或者还可以包括拍号信息(beat，拍子或单位拍，指计算乐音历时长短的基本单位)。这些基础信息可以为后续生成不同风格的目标伴奏音频作为参照基础。可以理解的是，由于伴奏风格的改变可能伴随着音乐节奏速度等的改变，因此目标伴奏音频生成时可能并不以上述基础信息作为参照，在这种情况下，则可以不获取基础信息。根据实际的需要和对预设曲谱协议的设置，可以灵活设置是否获取除和弦信息以外的其他基础信息。

S102：确定目标伴奏音频对应的伴奏风格信息。

伴奏风格信息，是指用于表明目标伴奏音频的具体音乐风格的信息，需要说明的是，音乐风格通常被称为音乐流派，是对于音乐作品归属的传统性分类，但是在同一音乐流派中，通常还能够进行更细粒度的分类。即便在同一音乐流派中，利用不同乐器组合、不同演奏方式演奏音乐，通常也会带来不同的表现效果。因此在本申请中，伴奏风格信息具体指代的音乐风格是哪一类并不做限定。例如在一种实施方式中，可以按照乐器组合不同划分多种音乐风格，例如民谣风格、电子风格。同一音乐风格可能存在多种表现效果，在这种情况下，可以进行进一步细分，例如以二胡为主的第一类中国风、以古筝为主的第二类中国风、以萧为主的第三类中国风等。

伴奏风格信息可以由用户指定，其数量可以为一个或多个。在一种实施方式中，可以预先设置表征各个伴奏风格的具体数据和对应的唯一标识信息之间的对应关系，并将该唯一标识信息展示给用户，以便用户在其中选择伴奏风格信息。此时，伴奏风格信息的形式即为唯一标识信息的形式。在另一种实施方式中，若用户的音乐素养较高，则可以根据个人喜好等自创伴奏风格，由于表征伴奏风格的数据未被预先设定，因此在这种情况下，需要由用户编辑生成表征伴奏风格的具体数据，并将这些数据作为伴奏风格信息。可以理解的是，表征伴奏风格的具体数据的数据内容、类型和形式需要符合预设曲谱协议的要求，以便在后续利用伴奏风格信息基于预设曲谱协议生成象征域伴奏数据。

请参考图4，图4为本申请实施例提供的一种用户终端界面示意图，可以通过用户终端与用户进行人机交互，通过显示可选的风格信息，例如图中的“钢琴”、“吉他”、“电子”等，由用户通过点击选中等交互方式选择伴奏风格信息。在一种实施方式中，“钢琴”、“吉他”、“电子”等按钮分别对应于一个伴奏风格信息，在另一种实施方式中，不同按钮之间的组合同样可以对应于一个伴奏风格信息，即当“钢琴”对应于A风格、“吉他”对应于B风格时，“钢琴+吉他”可以对应于C风格。

S103：基于预设曲谱协议，利用伴奏风格信息和和弦信息生成多音轨的象征域伴奏数据。

计算机承载和表示音乐的基本方法分为两类:音频域和象征域，象征域可视为音频域的抽象表达。具体的，音频域(Audio Domain)，通常表示方法有波形、频谱、梅尔谱等形式，象征域(Symbolic Domain)，通常的表示方法有MIDI(Musical Instrument DigitalInterface，乐器数字接口)、多音轨曲谱协议以及MusicXML等形式。本申请中，首先构建目标伴奏音频在象征域对应的象征域伴奏数据，在构建完毕后执行象征域至音频域的转换，最终得到目标伴奏音频。

可以理解的是，在象征域用数据记录音频，需要按照通用的格式，该格式即为预设曲谱协议。预设曲谱协议是一种多音轨的曲谱协议标准，因此生成的象征域伴奏数据是多音轨的象征域伴奏数据。预设曲谱协议的具体内容不做限定，根据对音乐表征的需要，其具体内容可以灵活设置。请参考图5，图5为本申请实施例提供的一种预设曲谱协议的示意图，其中包括了多项字段，每个字段具有规定好的数据含义(即存储信息)、存储形式(即数据形式)。在生成象征域伴奏数据时，可以直接利用伴奏风格信息或和弦信息对基于预设曲谱协议构建的空白数据结构进行填充，或者可以基于伴奏风格信息或和弦信息确定其他对应的预设信息，并利用预设信息对上述的空白数据结构进行填充。例如，当伴奏风格信息为某一预设的唯一标识信息时，则可以根据伴奏风格信息确定对应的用于表征伴奏风格的具体数据，该具体数据即可视为预设信息。

通常情况下，一个完整的歌曲中，随着时间变化，歌曲的伴奏形式会发生变化，而小节作为节拍的单位，其是乐曲强弱起伏的基本结构，而歌曲的变化通常也以小节为单位。因此，在生成象征域伴奏数据时，可以将伴奏以小节为单位进行拆分，每个小节生成单独对应的象征域伴奏数据。具体的，基于原始伴奏的原始拍子数和原始单位拍，确定小节时长，其中，具体的计算方式为：

T_bar＝(1/Bpm)*60*Beat

其中，Beat表示原始单位拍，例如4/4拍，T_bar为小节时长。在得到小节时长后，即可按照小节时长为粒度计算得到原始伴奏中各个小节的起止时刻，此外，根据各个小节的起止时刻和和弦信息，可以确定原始伴奏中各个小节的伴奏子信息。根据各个小节的伴奏子信息，以及伴奏风格信息，可以确定该小节在目标伴奏音频生成时所需的音频素材，进而确定对应的音频素材信息。即利用小节时长、和弦信息和伴奏风格信息，确定各个小节对应的起止时刻和音频素材信息。其中，音频素材信息，是指能够唯一表征一段音频素材的标识信息，音频素材的具体内容不做限定。将起止时刻和音频素材信息按照预设曲谱协议进行封装，即可得到象征域伴奏数据。可以理解的是，不同小节对应的象征域伴奏数据可以不同，在另一种实施方式中，可以利用一个象征域伴奏数据记录所有小节的情况，即象征域伴奏数据中存在多个重复的数据段，每个数据段对应于一个小节。

进一步的，对于音乐素养较高的用户，其可能并不满足象征域伴奏数据对目标伴奏音频的限制，想要根据个人喜好等对预设曲谱协议中的内容进行修改。在这种情况下，可以首先基于预设曲谱协议，利用伴奏风格信息和和弦信息生成初始象征域数据，初始象征域数据的生成过程可以参数上述说明。在得到初始象征域数据后，可以以人工可读的形式将其展示给用户，以便用户基于初始象征域数据执行修改操作，进而得到该修改操作对应的象征域修改指令。根据象征域数据修改指令修改初始象征域数据，即可得到满足用户要求的象征域伴奏数据。需要说明的是，修改指令可以为对预设曲谱协议本身进行的修改，例如在可选地范围内增加或删除协议中的字段，例如将预设曲谱协议中已设定但未启用的字段启用，或者将已启用的字段设置为未启用。此外，修改指令还可以为对初始象征域数据中某一字段的具体值的修改，例如修改BPM以改变伴奏速度，或者可以为修改伴奏风格信息原本对应的乐器种类、搭配、演奏方式等(可统称为乐器依赖关系)信息，例如将古风中的乐器由琵琶修改为古筝，或者可以修改和弦信息原本对应的和弦(例如和弦的根音)等信息，具体修改内容和修改方式不做限定。请参考图4，图4中右上角示出了升调和降调的按钮，用户通过点击该按钮，实现对和弦的升调或降调，当检测到该按钮被点击后生成的指令即为一种象征域数据修改指令。

总的来说，预设曲谱协议可以视为对打击乐/贝斯/弦乐/等多轨乐器间依赖关系的约束，可以表征为Restrain(GenreType,Instruments)，即约束(伴奏风格，乐谱)，进一步的，可以表征为G＝R(I,Dur,Bpm)，其中，G表示伴奏风格，不同编曲的风格依赖于I(Instruments，即乐谱)、Dur(Duration，持续时长)、Bpm。例如，对于古风风格，音轨鼓可以约定为编钟，音轨弦乐可以约定为琵琶，Bpm＝(50,70)。对于DJ风格，音轨鼓可以约定为说唱鼓点，音轨弦乐可以约定为电贝斯，Bpm＝(90,120)，以此类推。最后根据该约束，以小节单位组成和弦列表，该和弦列表对应的象征域伴奏数据可以如下：

需要说明的是，该象征域伴奏数据仅为一种具体的例子，具体基于如图5所示的预设曲谱协议构建，具体格式可以为json格式。

S104：基于象征域伴奏数据，从预设素材库中确定目标音频素材，并依据目标音频素材，得到目标伴奏音频。

预设素材库，是指由音频素材文件组成的集合，音频素材文件具体可以为不同乐器按照不同速度演奏的不同和弦音频文件、鼓点音频文件等。每个音频素材文件的长度不做限制，例如可以以小节为单位。

本实施例并不限定预设素材库中的具体内容，在一种实施方式中，预设素材库中可以包括鼓点音频素材、和弦音频素材和环境音频素材。其中，鼓点音频素材由于没有音高，因此可以按照演奏速度(BPM)进一步划分为不同速度的古典音频素材。此外，鼓点可以由不同的乐器演奏，因此鼓点音频素材可以受到乐器和演奏速度这两个因素的影响。环境音频素材是指渲染伴奏环境范围的音频，具体可以为海浪声、欢呼声、海鸥声、枪声等。和弦音频素材记录了各种和弦，由于不同乐器演奏的声音不同，按照不同速度演奏和弦得到的效果也不同，此外，和弦还对应于不同的根音，因此和弦音频素材收到演奏乐器、速度和根音三个因素的影响。

和弦音频素材可以被进一步划分为大三和弦音频素材和小三和弦音频素材。具体的，若不考虑演奏速度和演奏乐器，则和弦乐器按照大小三和弦在一个八度(12个半音)内可以划为24个根音，分别对应24类音频素材文件，例如可以为mp3格式的文件。具体划分方式如下表：

表1大小三和弦和根音的对应关系

具体的，在确定象征域伴奏数据的内容后，根据其对目标伴奏音频的表征，从预设素材库中选取用于生成目标伴奏音频的目标音频素材。具体的，根据象征域伴奏数据的具体内容，可以从多个角度选择目标音频素材。若象征域伴奏数据包括乐器种类信息，则可以基于乐器种类信息，从预设素材库中获取由乐器种类信息对应乐器演奏得到的目标音频素材；若象征域伴奏数据还包括拍子数信息，则可以基于乐器种类信息和拍子数信息，从预设素材库中获取目标音频素材；若象征域伴奏数据还包括根音信息，则可以基于乐器种类信息、拍子数信息以及根音信息，从预设素材库中确定目标音频素材。

例如，对于和弦音频素材来说，可以同时基于乐器种类信息、拍子数信息和根音信息进行选择，对于鼓点音频素材来说，可以基于乐器种类信息和拍子数信息进行选择。对于环境音频素材来说，其可以基于乐器种类信息进行选择，或者可以基于除上述信息以外的其他信息进行选择，例如象征域伴奏数据中可以存在用于指定环境音的字段。

在选定目标音频素材后，基于象征域伴奏数据，对各个目标音频素材进行混音，进而得到目标伴奏音频。具体的，在一种实施方式中，基于象征域伴奏数据，在目标音频素材中确定各个小节分别对应的待处理素材。由于目标伴奏音频随着时间变化而变化，因此在不同的小节中，选用的目标音频素材通常不同，在这种情况下，首先需要确定每个小节内所需的待处理素材，待处理素材可以被成为database。对各个小节分别对应的待处理素材进行基于音量上限抑制的混音处理，得到多个伴奏小节。通常情况下，混音处理为各个音轨上的音频素材叠加，然而，该方式容易导致叠加后的音量突破正常情况下的上限值。为了避免该问题，本实施方式中采用了音量上限抑制的混音方式。具体的，此处引出一个多音轨快速混音公式Mix(A,B)，其中，X(n)表示待混音轨道A中pcm(脉冲编码调制，Pulse CodeModulation)样点值(取值范围为-1到1)，Y(n)表示待混音轨道B中pcm样点值，Rlt(n)表示最后的混音结果(即伴奏小节)，则Mix(A,B)具体为：

在得到所有伴奏小节后，基于象征域伴奏数据，对伴奏小节进行拼接，即可得到目标伴奏音频。具体的，可以基于象征域伴奏数据确定各个伴奏小节之间的先后顺序，在各个伴奏小节之间，可以采用Cross-Fade的方式实现拼接，即两个音频片段首尾重叠部分通过交织淡入淡的方式拼接成完整片段，或者，可以采用其他拼接方式对伴奏小节进行拼接。拼接得到的目标伴奏饮品可以表示为：Multi_Track_Duration1|Multi_Track_Duration2|

Multi_Track_Duration3|…|Multi_Track_DurationN，其中Multi_Track_Durationi即为第i个伴奏小节。

可以理解的是，各个小节之间的区别仅在于和弦，若目标音频素材包括鼓点音频素材、和弦音频素材和环境音频素材。对于鼓点音频素材，可以按照周期时间间隔，确定鼓点音频素材的插入位置；将鼓点音频素材作为插入小节的待处理素材；其中，插入小节为插入位置所对应的小节。对于和弦音频素材，可以基于象征域伴奏数据，在和弦音频素材中确定各个小节分别对应的待处理素材。对于环境音频素材来说，其对整个目标伴奏音频的作用不是决定性的，仅起到烘托分为的作用，因此可以将环境音频素材随机确定为目标小节的待处理素材，目标小节可以为任意一个或多个小节。

请参考图6，图6为本申请实施例提供的一种具体的伴奏音频生成方法的流程示意图。获取原始伴奏的乐谱instruments，并基于原始伴奏的乐谱得到和弦列表(即和弦信息)、BPM、拍号等信息。并预先构建预设素材库，其中包括鼓点音频素材、和弦音频素材和环境音频素材，sound类(即环境音频素材)没有速度层级、不存在24个根音，不存在音高信息。drum类(即鼓点音频素材)存在速度层级，但是不存在24个根音，打击乐不存在音高信息。chord类(即和弦音频素材)存在速度层级，也存在24个根音，同时还收到乐器类型的影响。基于和弦列表，确定转换后伴奏(即目标伴奏音频)的风格，按照json格式的私有曲谱协议(即预设曲谱协议)构建对应的象征域伴奏数据(json曲谱文件)，即musical notation。

各个小节有其对应的起止时刻和音频素材信息。每个音频素材信息可以包含多个音轨对应的音频素材。一个音轨对应一种乐器，对于每个小节而言，其对应的音轨可以有多个，图6中是以其中一个小节包含N个音轨为例，N个音轨各自对应的音频通道分别为track1至track N。以一个小节为例，可以对json曲谱文件进行音频渲染，根据其中的音色字段从预设素材库中读取相应track_index.mp3的音频片段，构成DataBase(Track_1,Track_2,Track_3…Track_N)。由于该小节下各音轨对应的音频素材相互独立，需要对这些音频通道承载的音频素材进行多通道混音(Multi-Channel Mixer)处理，才能得到各小节对应的伴奏小节。通过对所有小节进行淡入淡出拼接(Cross-Fade)可以得到目标伴奏音频(MusicSignal)。

针对三类音频素材的音频片段搭配方式，首先在时间序列上对鼓点音频素材进行周期性插入，对和弦音频素材，按照和弦列表的规定插入，对于环境音频素材，进行单次插入。依靠多音轨曲谱协议中和弦列表中持续时间确定各个小节之间的先后顺序，进行最终的伴奏音频合成，得到目标伴奏音频。

应用本申请实施例提供的伴奏音频生成方法，在曲库伴奏现有存量的前提下，约定了一种多音轨的曲谱协议标准，该协议支持对和弦框架(和弦列表)/乐器选配等进行二次定制化调整。通过对应的风格约束公式，将和弦乐器进行多音轨的渲染合成，从而把伴奏作品重新编曲成古风、流行、摇滚、电子全新风格，几何倍数的扩充曲库伴奏数量。同时，不需要任何其他成本引入，满足用户更多的k歌需求，拉动平台用户的活跃度。另一方面，通过对经典老歌重新编曲生成风格迥异的全新伴奏，为老歌新唱重新创造价值。利用预设曲谱协议，能够基于原始伴奏的和弦信息生成新风格的目标伴奏音频。具体的，在确定目标伴奏音频的伴奏风格信息后，基于预设曲谱协议，可以生成多音轨的象征域伴奏数据，依据素材库可以实现象征域向音频域的转换，从而得到与原始伴奏风格迥异的目标伴奏音频。通过该方法能够快速高效地自动生成各种风格的伴奏音频，快速丰富伴奏曲库，满足用户的需求，提高用户整体活跃度。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的伴奏音频生成方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的伴奏音频生成方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种伴奏音频生成方法，其特征在于，包括：

获取原始伴奏的和弦信息；

确定目标伴奏音频对应的伴奏风格信息；

2.根据权利要求1所述的伴奏音频生成方法，其特征在于，所述象征域伴奏数据包括乐器种类信息；

所述从预设素材库中确定目标音频素材，包括：

3.根据权利要求2所述的伴奏音频生成方法，其特征在于，所述象征域伴奏数据还包括拍子数信息；

所述从预设素材库中确定目标音频素材，包括：

4.根据权利要求3所述的伴奏音频生成方法，其特征在于，所述象征域伴奏数据还包括根音信息；

所述从预设素材库中确定目标音频素材，包括：

5.根据权利要求1所述的伴奏音频生成方法，其特征在于，所述基于预设曲谱协议，利用所述伴奏风格信息和所述和弦信息生成多音轨的象征域伴奏数据，包括：

6.根据权利要求1所述的伴奏音频生成方法，其特征在于，所述基于预设曲谱协议，利用所述伴奏风格信息和所述和弦信息生成多音轨的象征域伴奏数据，包括：

7.根据权利要求1所述的伴奏音频生成方法，其特征在于，所述依据所述目标音频素材，得到所述目标伴奏音频，包括：

8.根据权利要求7所述的伴奏音频生成方法，其特征在于，所述目标音频素材包括鼓点音频素材、和弦音频素材和环境音频素材；

将所述环境音频素材随机确定为目标小节的待处理素材。

9.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的伴奏音频生成方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的伴奏音频生成方法。