CN112825244B

CN112825244B - 配乐音频生成方法和装置

Info

Publication number: CN112825244B
Application number: CN201911150284.1A
Authority: CN
Inventors: 邓俊祺
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2024-04-12
Anticipated expiration: 2039-11-21
Also published as: CN112825244A

Abstract

根据本公开的第一方面，提供了一种配乐音频生成方法和装置。该方法包括：获取需要进行配乐的音频；获取所述音频的节拍信息和旋律信息；基于所述节拍信息将所述音频分成多个小节；基于每个小节的所述节拍信息和旋律信息，生成与所述小节对应的配乐小节；将所述多个配乐小节合并以生成针对所述音频的配乐；以及基于所述音频和所述配乐合成配乐音频。由此，能够根据输入音频的节拍和旋律，自行匹配配乐小节，并由此合成与输入音频(例如，人声哼唱或说唱)高度匹配的独创性配乐作品。

Description

配乐音频生成方法和装置

技术领域

本公开涉及一种音频处理领域，尤其设置一种配乐音频生成方法和装置。

背景技术

随着人们对个性元素的追求，人们在听人演唱的同时，越来越多地希望能够制作由自己演唱的音乐作品，并以此作为自己的个性标识，如作为自己的手机铃声等。但是，音乐演唱。例如演唱说唱乐往往需要演唱者具有一定的乐理知识以及歌唱技巧，而这对普通消费者而言有一定难度。现有的歌唱声音合成技术通常会调整用户歌声的节拍和语调，并将其已有的曲库进行搭配，上述方法会更改用户输入声音的属性，并且曲库有限，无法实现人们彰显个性的需求。

因此，需要一种改进的配乐音频生成方案。

发明内容

本公开要解决的一个技术问题是提供一种改进的配乐音频生成方案，该方案能够根据输入音频的节拍和旋律，自行匹配配乐小节，并由此合成与输入音频(例如，人声哼唱或说唱)高度匹配的独创性配乐作品。

根据本公开的第一方面，提供了一种配乐音频生成方法，包括：获取需要进行配乐的音频；获取所述音频的节拍信息和旋律信息；基于所述节拍信息将所述音频分成多个小节；基于每个小节的所述节拍信息和旋律信息，生成与所述小节对应的配乐小节；将所述多个配乐小节合并以生成针对所述音频的配乐；以及基于所述音频和所述配乐合成配乐音频。

根据本公开的第一方面，提供了一种配乐音频生成装置，包括：音频获取单元，用于获取需要进行配乐的音频；信息获取单元，用于获取所述音频的节拍信息和旋律信息；小节划分单元，用于基于所述节拍信息将所述音频分成多个小节；配乐小节生成单元，用于基于每个小节的所述节拍信息和旋律信息，生成对应的配乐小节；配乐生成单元，用于将所述多个配乐小节合并以生成针对所述音频的配乐；以及配乐音频合成单元，用于基于所述音频和所述配乐合成配乐音频。

根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

由此，本发明的配乐音频生成方案能够根据输入音频的节拍和旋律，自行匹配配乐小节，并由此合成与输入音频(例如，人声哼唱或说唱)高度匹配的独创性配乐作品。上述配乐作品能够在保持例如用户人声原始特征的同时，给出独创配乐，由此满足用户的个性需求。进一步地，本发明的配乐方案还可以对输入音频的调性进行分析，由此实现更加契合的匹配。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一个实施例的配乐音频生成方法的示意性流程图。

图2示出了和弦的一个例子。

图3示出了根据本发明一个实施例的调性检测的示意性流程例。

图4示出了根据本发明一个实施例的配乐合成例。

图5示出了根据本发明一个实施例的配乐音频生成装置的组成示意图。

图6示出了根据本发明一个实施例可用于实现上述配乐音频生成方法的计算设备的结构示意图。

图7示出了利用本发明的配乐音频生成方法的一个具体应用场景的例子。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

随着人们对个性元素的追求，人们在听人演唱的同时，越来越多地希望能够制作由自己演唱的音乐作品，并以此作为自己的个性标识。例如，说唱(Rap)是目前流行的一种音乐形式，它是嘻哈(Hip-hop)音乐的核心元素之一。说唱音乐以在机械的节奏声背景下，快速地诉说ー连串押韵的词句为特征。说唱音乐常常以简单的打击乐为伴奏，并且歌词幽默、风趣，常带有讽刺性。因此目前，说唱音乐很受人们，尤其是年青人的喜爱。

但是由于演唱说唱乐通常需要演唱者具有一定的乐理知识以及歌唱技巧，而这对普通用户而言有一定难度。现有的说唱(或歌唱)声音合成技术通常会调整用户歌声的节拍和语调，并将其已有的曲库进行搭配，上述方法会更改用户输入声音的属性，并且曲库有限，无法实现人们彰显个性的需求。

为此，本方面提出了一种改进的音频配乐方案，该方案能够根据输入音频的节拍和旋律，自行匹配配乐小节，并由此合成与输入音频(例如，人声哼唱或说唱)高度匹配的独创性配乐作品。

在步骤S110，获取需要进行配乐的音频。在此，可以通过麦克风，例如，智能电话配置的麦克风获取音频，也可以读取已有的音频文件。在此，音频优选指代无配乐(无背景音乐)的音频，例如，人声、动物叫声、自然界的声音(例如，流水声和雨声等)。在步骤S110获取的音频可以是单个音频，也可以是多个音频。如下将详述，在获取多个音频的情况下，这些音频作为并列输出配乐音频的唯一音频；可被简单拼接成一个音频；根据后续的音频分析而被叠加；或是根据用户的选择而被处理。

在一个实施例中，需要进行配乐的音频尤其可以是人声的音频，例如，用户对着手机麦克风或是其他收音装置录入的人声。在此，人声音频可以是哼唱或是说唱。哼唱指带旋律的人声，例如，清唱的一段歌曲。说唱则是不带旋律的人声，例如，正常语速或是带节奏的说出一段词句。另外，无论是哼唱还是说唱，用户可以说出带有具体意义的词句，也可以是无意义的语气词或发音(例如，“呦呦呦”或是“啊～～～”)。

在步骤S120，获取所述音频的节拍信息和旋律信息。在此步骤中，可以对获取的音频进行分析，以获取相应的节拍信息和旋律信息。例如，可以对音频分别进行节拍检测和旋律检测，以分别获取节拍信息和旋律信息。

为了获取节拍信息，可以获取音频背景中包含的节拍器音频，并基于所述节拍器音频生成所述音频的节拍信息。例如，可以在人声输入的时候强制要求用户使用节拍器，用户根据节拍器的提示来进行人声输入。如果用户能够正确的理解节拍器，录制出来的人声的节拍信息便是节拍器隐含的信息，可以直接提取上述节拍信息，并且不需要做其他额外的节拍算法检测。

作为替换或者代替，可以基于节拍检测算法，检测出所述音频的节拍信息。例如，可以利用现有的开源算法，检测出人声的节拍信息。这些信息可以包括：BPM(拍每分钟)和拍号等。在某些实施例中，检测出的节拍信息还可以包括关键节拍信息，例如与重拍(downbeat)和/或其他拍子的信息，例如，重拍前面一拍的非重拍(upbeat)相关的信息，如重拍时间点等。在此，重拍(downbeat)指代是每小节第一拍。非重拍(upbeat)是紧邻下拍之前的上一小节最后一拍。可以利用现有或专门的算法找出输入语音或哼唱中的重拍。

上述关键节拍可以用于进行小节的划分。小节是音乐作品中最基本的有规律的节奏单位，表示乐曲强弱起伏的基本结构。每个小节内含有和拍号标明的拍子数相同的节拍。一个小节通常以强拍开始，称为完全小节。所有小节重复前面小节的节拍，如三拍子，一个小节内会有强-弱-弱三拍，四拍子一个小节内有强-弱-次强-弱四拍，其他小节反复进行。以弱拍开头的小节，叫做“弱起小节”。弱起小节开头的乐曲有两种，一种是直接以完全小节结尾，一种是在最后一个小节中加上一个强拍，使其和弱起小节的拍子总数合在一起成为一个完整的小节。这种结尾的小节称为“不完全小节”。

为了获取音频的旋律信息，需要对音频进行旋律检测。在此，旋律可以看作一个时间序列，该序列中每一个元素都包含音高、起始时间、结束时间三个要素。由于输入的音频通常可以包括人声的哼唱或说唱音频。针对有旋律的哼唱，可以直接获取人声的哼唱旋律作为音频的旋律信息。而对于通常没有旋律的说唱，则例如可以基于旋律检测算法，获取人声的说唱音高作为所述音频的旋律信息。可以使用已知的开源旋律检测算法来获取旋律信息。在实际操作中，可以对音频进行时间域的自相关操作，以获取旋律信息。

随后，在步骤S130，可以基于节拍信息将音频分成多个小节。在此，“小节”可以指代后续进行配乐素材匹配的一个基本单位。在一个实施例中，本申请所涉及的“小节”符合常规的“小节”定义，即，音乐作品中最基本的有规律的节奏单位。在更为广泛的应用场景中，本申请所涉及的“小节”可以具有更为广泛的定义，即，用于在后续步骤进行配乐素材匹配的一个基本单位，可以是若干常规意义上的小节(例如，每两个音乐小节组成本发明意义上的小节)，也可以是比音乐小节更小的单位，例如在四拍音乐小节中，以两拍的形式存在的小节。

在使用常规音乐小节定义时，由于一个小节通常以重拍(downbeat)开始，因此默认可以基于节拍信息中的重拍信息，例如重拍时间点，来实现小节的划分。

在步骤140，可以基于每个小节的节拍信息和旋律信息，生成与该小节对应的配乐小节。在此，配乐小节可以是与该音频小节的强弱起伏相配的、包含配乐信息的小节。在一个实施例中，配乐小节可以是单音小节，例如，四拍小节内，只有单个音进行变化，例如dorui so so(1255)的配乐小节。在更广泛的实施例中，配乐小节可以是和弦小节，例如，与音频小节的节拍、BPM相同的和弦小节。图2示出了和弦的一个例子。如图所示的和弦是包括六个音组成的和弦。每个音沿着时间轴(横轴)在相同或不同的时间上发出，彼此配合实现和谐的声音效果。应该理解的是，在本发明中，“配乐小节”是类似与图2所示和弦的包括音高、节奏、旋律等信息的小节，而非具体以特定乐器(例如，钢琴、小提琴或其结合)演奏出的具体乐音。

具体地，为此生成配乐小节，可以根据每个小节的关键节拍的旋律信息，生成与所述小节对应的配乐信息，并基于包括和弦信息和节奏型信息的配乐信息，来生成相应的配乐小节，例如，从现有的配乐小节库中选择相应的配乐小节。例如，可以选择音频小节中的重拍(downbeat)和/或其他拍子，例如非重拍(upbeat)的旋律，来确定配乐信息。可以考虑该小节的整体音高等来确定配乐信息，也可以考虑该小节的节奏型信息来确定配乐信息。在一个实施例中，可以计算每一个重拍附近旋律的音高分布，并基于所述音高分布，确定重拍所在小节的和弦素材作为所述配乐小节。具体地，可以基于音高分布，确定所述重拍所在小节的和弦，并基于上述重拍和弦，选择和弦小节。在一个优选实施例中，可以进行重拍旋律检测以及和弦进行预测。重拍旋律检测根据节拍检测和旋律检测的结果，计算在每一个重拍的附近出现的旋律的音高分布。随后，和弦进行预测根据重拍旋律检测的结果，利用时间序列相关的概率论方法，推算出最有可能的符合该重拍旋律的和弦进行以用作配乐小节，或确定配乐小节的和弦行进信息。在此，和弦进行(Chord progression)是和弦的时间序列，用于描述一段音乐的和声如何随着时间进行变化。

在其他特殊情况下，例如，用户选择了具有特殊节拍特征的曲风时，还可以根据该曲风的特点来选择关键节拍。例如，雷鬼乐(Reggae)是西印度群岛的一种舞曲，尤其是牙买加的多种舞曲的总称，它的一个显著特点是强拍在二、四拍上。因此，在用户选择雷鬼曲风时，可以按照雷鬼乐的特点，在获取节拍信息时选择至少部分的强拍(并非重拍)作为关键节拍或与重拍一并作为关键节拍，用于确定后续配乐信息以及进而得到的配乐小节的生成基础。

在其他实施例中，当前配乐小节的确定或调整，可以受到前后小节的影响，换句话说，各相邻音频小节的配乐小节存在一定的相关性。例如，可以基于某一小节的在前小节和/或在后小节的配乐小节，生成所述小节对应的配乐小节。例如，系统可以根据大数据分析，生成配乐小节衔接模型。上述衔接模型给出了配乐小节常见的衔接模式，并且可以在例如，基于关键节拍和旋律信息确定了配乐小节之后，再根据上述衔接模型进行调整。

在一个实施例中，还可以维护一个配乐小节素材库。在对用户的哼唱或是说唱选择进行和弦配乐时，该配乐小节素材库可以是和弦素材库。和弦素材库可以存放不同和弦在不同风格下的一些单位长度的真实演绎信息，例如，利用MIDI记录下来的某个和弦在单位音乐时间内被真实演绎的信息。随后，可以根据重拍附近旋律的音高分布和配乐小节衔接模型，共同确定从素材库中选择哪一个配乐小节。

进一步地，在本发明的优选实施例中，可以对对所述音频进行调性检测，并获取音频的调性信息。在此，调性用于描述一段旋律或一个音乐片段中的自然音阶组成。调性可以明确一段音乐中的主音是什么。调性检测使用算法分析输入的人声最有可能是出自哪一种调性(比如C大调、A大调、降B小调等等)，对于哼唱和说唱例如可以用同一种方法分析出调性。基于调性检测获取的音频的调性信息，可以生成某一小节所对应的配乐小节。换句话说，调性信息可以在本发明中用于帮助确定音频小节所对应的配乐小节。在涉及从配乐小节库中选择合适配乐小节的实施例中，可以从与所述调性信息相符合的配乐小节库中选择与所述小节对应的配乐小节。换句话说，调性信息可以起到缩小配乐小节候选池的作用。

对所述音频进行调性检测可以包括：对所述音频进行频谱变换；基于所述频谱变化进行基于音高的变换；以及根据所述基于音高的变换结果，生成所述调性信息。图3示出了根据本发明一个实施例的调性检测的示意性流程例。如图所示，在对输入的人声音频进行初步的例如降噪处理之后，可以对该音频片段进行恒定Q值变化，以得到CQT频谱。随后，在进行半音类变换(例如，基于十二平均律的变换)，由此得到半音类频谱。对上述半音类频谱进行时间维度上的均值处理，在将处理结果与调性音级模板进行匹配，由此确定该段音频的调性，例如，C大调、A大调、降B小调等等。

随后，在步骤S150，可以将所述多个配乐小节合并以生成针对所述音频的配乐，并且在步骤S160，基于所述音频和所述配乐合成配乐音频。

此时，可以在配乐小节合并之前，对音频的配乐进行全局优化，例如，根据大数据生成的全局优化模板等，调整已经生成的一个或多个配乐小节。在其他实施例中，甚至在配乐小节生成之前，进行上述全局优化。例如，基于全局优化模板，调整用于生成配乐小节的配乐信息，并使用全局调整后的模板进行配乐小节的确定和合并。随后，可以基于默认和/或用户选择的演奏乐器和/或演奏风格，生成针对所述音频的配乐。例如，配乐小节可以是仅包括和弦信息，最终的配乐则是具体的音乐(例如，钢琴演奏的巴萨诺瓦风格)，因此需要将和弦素材转化为具体的音乐。由此，可以基于配乐小节进行配乐编排，即，根据和弦进行预测的结果，结合和弦素材库，生成一段给定和弦进行和给定风格的配乐演绎，并将该演绎作用于软件音源，生成完整的配乐音频。在此，软件音源可以是一种能够被MIDI触发从而生成真实乐器演奏音频的程序。

在进行合成时，可以对音频和配乐进行调整，例如，可以调整所述音频和/或所述配乐的响度，以使得所述音频和所述配乐相互配合，另外，还可以对人声进行降噪和压缩等处理。随后，可以利用自动混音将输入的人声和生成的配乐以某种算法计算好的比例混合在一起，以生成最终的成品作品，例如，带伴奏的人声。

在此应该强调的时，本发明优选不对输入人声的特征进行任何处理，即，本发明的配乐生成方法是针对输入人声来灵活生成配乐的方法，不调整人声的音高、节拍，以最大程度上保持人声的原始特征，符合用户的个性化需求。

图4示出了根据本发明一个实施例的配乐合成例。如图所示，该方案包括音频分析和配乐合成两个阶段。首先，在分析阶段，在获取了人声信息之后，对上述音频进行节拍检测、调性检测和旋律检测，并基于节拍和旋律检测的结果，进行重拍旋律检测。随后，进入合成阶段，使用重拍旋律并结合调性检测的结果，进行和弦进行预测，以从和弦素材库中获取和弦素材，随后经过配乐编排和自动混音，合成带伴奏的人声。

本发明的配乐音频生成方法尤其适用于在终端设备，例如，智能终端设备上实现。例如，以智能手机上安装的APP的形式实现。上述APP例如可以在本地，或是与服务器通信的方式，实现本发明的配乐音频生成方法。具体地，手机麦克风可以采集音频(例如，人声)的输入，在手机本地、边缘计算设备或是服务器上执行如上涉及的一种或多种检测，并进行和弦进行预测，从本地或服务器上获取相应的和弦素材，以在本地或是服务器上完成合成，并在本地进行播放。

本发明利用节拍检测的信息来辅助配乐的生成，从而使用户不必懂得如何使用节拍器也能够使用，并且本发明并不需要一段预先编辑好的背景音乐，而只是需要一个和弦素材库，由此能够呈现更多多样的配乐。

如前所述，在步骤S110获取的音频可以是单个音频，也可以是多个音频。在获取多个音频的情况下，这些音频作为并列输出配乐音频的唯一音频；可被简单拼接成一个音频；根据后续的音频分析而被叠加；或是根据用户的选择而被处理。

同一用户可以一次性或分次输入多个音频，这些音频可以基于系统默认操作或是用户对合成按钮的点击而被合成为一个音频。例如，用户可以先输入一个10s音频，再输入一个15s音频。本发明的生成方法可以一次性获取这两个音频，将其合成为一个25s的音频(或是去除前后的静音时间)，并进行后续的分析和配乐生成操作。用户也可以先输入一个10s音频，经由系统处理得到一个10s的配乐音频之后，再接着输入一个15s音频，由系统基于在前10s配乐音频的处理结果再处理这个15s的音频，使得后续15s音频的配乐与在前10s的配乐风格和谐统一。

在其他实施例中，可以首先对这些音频进行初步的处理，例如，在步骤S120中获取所述多个音频各自的节拍信息和旋律信息，再根据初步处理的结果确定多个音频的相互关系。例如，在同时获取到多个音频的情况下，通过初步分析每个音频的节拍和旋律，可以确定各个音频的恰当叠加方式，例如，为了节奏和旋律的平滑变换，而使得两个输入的音频部分叠加。作为替换或是补充，也可以根据用户的选择确定多个音频的相互关系，例如，用户可以选择音频组合，顺序排列，还是基于分析结果叠加。在用户自由度更高的实现中，用户还可以对多个音频的时间线和配乐小节等细节进行编辑和操作。

本发明的配乐音频生成方法可以与社交平台相结合。在此，社交平台可以是外部社交平台，例如，通过提供分享接口而获取信息，也可以是例如音乐APP内部的社交平台。此时，本发明的配乐音频生成方法尤其适用于多音频的同时获取、叠加和合成，以实现例如同一聊天群内多个用户的合唱(包括哼唱和说唱)作品。此时，在步骤S110，可以直接从社交平台获取来自一个或多个用户的多个语音和/或文字输入作为所述多个音频。由于其他语音输入的存在为配乐小节的生成提供了节拍和旋律(甚至是音色)的线索，因此此时可以直接获取文字，以生成与其他哼唱或说唱输入风格统一的说唱或哼唱内容。针对获取的多个音频，可以为每个音频或是每个用户合成一个配乐音频作品，以方便用户之间的竞技或是游戏；也可以将这些音频的部分和全部进行叠加(例如，符合旋律和节奏的叠加)，以合成包括所有这些用户声音(或是输入文字)作品。

在配乐音频生成之后，可以将其分享至社交平台，例如，在前获取音频的聊天群等。

图5示出了根据本发明一个实施例的配乐音频生成装置的组成示意图。如图所示，配乐音频生成装置包括音频获取单元510、信息获取单元520、小节划分单元530、配乐小节生成单元540、配乐生成单元550以及配乐音频合成单元560。

音频获取单元510用于获取需要进行配乐的音频。信息获取单元520用于获取所述音频的节拍信息和旋律信息。小节划分单元530用于基于所述节拍信息将所述音频分成多个小节。配乐小节生成单元540用于基于每个小节的所述节拍信息和旋律信息，生成对应的配乐小节。配乐生成单元550用于将所述多个配乐小节合并以生成针对所述音频的配乐。配乐音频合成单元560用于基于所述音频和所述配乐合成配乐音频。

具体地，音频获取单元510可以获取所述音频背景中包含的节拍器音频，并基于所述节拍器音频生成所述音频的节拍信息；或者基于节拍检测算法，检测出所述音频的节拍信息。

配乐小节生成单元540可以根据某一小节的关键节拍的旋律信息，生成配乐小节信息；以及基于所述生成配乐小节信息，从现有的配乐小节库中选择配乐小节。

在一个实施例中，装置500还可以包括：配乐小节调整单元，用于根据大数据分析的配乐小节衔接模型，基于某一小节的在前小节和/或在后小节的配乐小节，调整述小节对应的配乐小节。

在一个实施例中，装置500还可以包括调性检测单元，用于对所述音频进行调性检测，并且配乐小节生成单元540用于基于所述调性检测获取的所述音频的调性信息，生成某一小节所对应的配乐小节。

具体地，调性检测单元可以对所述音频进行频谱变换；基于所述频谱变化进行基于音高的变换；以及根据所述基于音高的变换结果，生成所述调性信息。

进一步地，配乐生成单元550可以用于：对所述音频的配乐进行全局优化，调整一个或多个配乐小节。

在一个实施例中，音频获取单元510可以用于：获取需要进行配乐的多个音频，所述多个音频用于生成一个或多个配乐音频。信息获取单元520可以用于：获取所述多个音频各自的节拍信息和旋律信息。

在一个实施例中，装置500还可以包括多音频处理单元，用于如下至少一项：根据用户的选择确定所述多个音频的相互关系；根据所述多个音频各自的节拍信息和旋律信息确定所述多个音频的的相互关系。优选地，多音频处理单元用于：基于所述相互关系，将所述多个音频中的至少两个音频的至少部分叠加以生成叠加音频；以及基于所述相互关系，为所述叠加音频生成配乐并合成配乐音频。

作为替换或者补充，音频获取单元510可以用于：从社交平台获取来自一个或多个用户的多个语音和/或文字输入作为所述多个音频。相应地，该装置500可以包括：分析单元，用于将合成的配乐音频分享至社交平台。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的配乐音频生成方法。

图7示出了利用本发明的配乐音频生成方法的一个具体应用场景的例子。用户首先可以在自己的终端设备，例如，图示的智能手机中安装能够实现本发明配乐音频生成方法的软件，例如，音乐播放App。随后，用户可以按照App的提示或是自行找到App中的配乐功能。在点击进入配乐功能界面之后，用户可以如图左上所示，对着手机自带的麦克风输入自己的哼唱或是说唱。在其他实施例中，用户也可以通过例如接入耳机的麦克风，或是外接的麦克风进行音频输入。在某些实施例中，用户还可以根据节拍器的提示进行人声输入。

在获取到输入的人声之后，软件可以在后台进行如上所述的配乐音频生成方案，并向用户显示等待界面(如图右上所示)。该配乐音频生成方案可以包括对输入音频进行节拍检测，检测出人声的节拍信息，其中节拍信息可以包括BPM(拍每分钟)、拍号、重拍时间点；进行调性检测，通过算法分析输入的人声最有可能是出自哪一种调性，对于哼唱和说唱可以使用相同或不同的方法进行调性分析；进行旋律检测：分析输入人声的旋律，例如，获取哼唱音频中的哼唱旋律，对于说唱而言，假设人声里的每个字都包括一个或多个音高信息，于是同样可以分析出一段旋律；进行重拍旋律检测，根据节拍检测和旋律检测的结果，计算在每一个重拍的附近出现的旋律的音高分布。随后，进行和弦进行预测，根据重拍旋律检测的结果，利用时间序列相关的概率论方法，推算出最有可能的符合该重拍旋律的和弦进行，并从存放了不同和弦在不同风格下面的一些单位长度的真实演绎信息的和弦素材库中选择一段(例如，按小节长度)的和旋素材。之后进行配乐编排，根据和弦进行预测的结果，结合和弦素材库，生成一段给定和弦进行和给定风格的配乐演绎，并将该演绎作用于软件音源，并将输入的人声和生成的配乐以某种算法计算好的比例混合以进行自动混音，由此生成完整的配乐音频。

在配乐音频生成之后，软件可以调至图7下部所示页面。页面中可以显示配乐音频的BPM和音乐节拍(例如，图示的BPM 95和4/4拍)，显示配乐的乐器(或主要乐器，如图中示出的钢琴)并显示播放按钮。用户可以点击上述播放按钮进行配乐音频的播放，并通过点击页面上的对应部分，实现针对配乐音频本身的诸如删除文件和编辑名称的操作，还能够通过点击相应按钮，进行其他相关的操作，例如分享至社交平台。在其他实施例中，用户也可以事先选择配乐演奏乐器和/或曲风，本发明对此不作限制。在用户参与度更高的实施例中，该音乐播放App还可以包括更为专业的编辑界面，或是升级的音乐编辑App。此时，可以输入更多的音频进行叠加合成等。或者，音乐播放App还能与社交平台更紧密的对接，或是并入社交功能，例如，为一组用户开辟演唱室，对同一演唱室内的音频进行相关处理，并提供比赛等功能。

上文中已经参考附图详细描述了根据本发明的配乐音频生成方法和装置。本发明的配乐音频生成方案能够根据输入音频的节拍和旋律，自行匹配配乐小节，并由此合成与输入音频(例如，人声哼唱或说唱)高度匹配的独创性配乐作品。上述配乐作品能够在保持例如用户人声原始特征的同时，给出独创配乐，由此满足用户的个性需求。进一步地，本发明的配乐方案还可以对输入音频的调性进行分析，由此实现更加契合的匹配。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种配乐音频生成方法，包括：

获取需要进行配乐的音频，所述音频是人声哼唱或说唱音频；

获取所述音频的节拍信息和旋律信息；

基于所述节拍信息将所述音频分成多个小节；

基于每个小节的所述节拍信息和旋律信息，生成与所述小节对应的配乐小节；

将所述多个配乐小节合并以生成针对所述音频的配乐；以及

基于所述音频和所述配乐合成配乐音频，

其中，基于每个小节的所述节拍信息和旋律信息，生成与所述小节对应的配乐小节包括：

计算每一个重拍附近旋律的音高分布；以及

基于所述音高分布，确定所述重拍所在小节的和弦素材作为所述配乐小节。

2.如权利要求1所述的方法，其中，获取所述音频的节拍信息包括：

获取所述音频背景中包含的节拍器音频，并基于所述节拍器音频生成所述音频的节拍信息；或者

基于节拍检测算法，检测出所述音频的节拍信息。

3.如权利要求1所述的方法，其中，获取所述音频的旋律信息包括如下至少一项

基于旋律检测算法，获取所述人声的哼唱旋律作为所述音频的旋律信息；

基于旋律检测算法，获取所述人声的说唱音高作为所述音频的旋律信息。

4.如权利要求1所述的方法，其中，基于每个小节的所述节拍信息和旋律信息，生成与所述小节对应的配乐小节包括：

根据每个小节的关键节拍的旋律信息，生成与所述小节对应的配乐信息；以及

基于所述配乐信息，从现有的配乐小节库中选择相应的配乐小节。

5.如权利要求4所述的方法，其中，基于每个小节的所述节拍信息和旋律信息，生成与所述小节对应的配乐小节包括：

基于用户对曲风的选择，确定每个小节的关键节拍和/或旋律信息。

6.如权利要求1所述的方法，还包括：

基于某一小节的在前小节和/或在后小节的配乐小节，生成所述小节对应的配乐小节。

7.如权利要求6所述的方法，基于某一小节的在前小节和/或在后小节的配乐小节，生成所述小节对应的配乐小节：

根据大数据分析的配乐小节衔接模型，生成所述小节对应的配乐小节。

8.如权利要求1所述的方法，其中，所述配乐小节是如下的至少一项：

和弦小节；

单音小节。

9.如权利要求1所述的方法，还包括：

对所述音频进行调性检测；以及

基于所述调性检测获取的所述音频的调性信息，生成某一小节所对应的配乐小节。

10.如权利要求9所述的方法，其中，对所述音频进行调性检测包括：

对所述音频进行频谱变换；

基于所述频谱变换进行基于音高的变换；以及

根据所述基于音高的变换结果，生成所述调性信息。

11.如权利要求9所述的方法，其中，基于所述调性检测获取的所述音频的调性信息，生成某一小节所对应的配乐小节包括：

从与所述调性信息相符合的配乐小节库中选择与所述小节对应的配乐小节。

12.如权利要求1所述的方法，还包括：

对所述音频的配乐进行全局优化，生成一个或多个配乐小节。

13.如权利要求1所述的方法，其中，将所述多个配乐小节合并以生成针对所述音频的配乐包括：

基于默认和/或用户选择的演奏乐器和/或演奏风格，生成针对所述音频的配乐。

14.如权利要求1所述的方法，其中，基于所述音频和所述配乐合成配乐音频包括：

调整所述音频和/或所述配乐的响度，以使得所述音频和所述配乐相互配合。

15.如权利要求1所述的方法，其中，获取需要进行配乐的音频包括：

获取需要进行配乐的多个音频，所述多个音频用于生成一个或多个配乐音频，并且

获取所述音频的节拍信息和旋律信息包括：

获取所述多个音频各自的节拍信息和旋律信息。

16.如权利要求15所述的方法，还包括如下至少一项：

根据用户的选择确定所述多个音频的相互关系；

根据所述多个音频各自的节拍信息和旋律信息确定所述多个音频的相互关系。

17.如权利要求16所述的方法，还包括：

基于所述相互关系，将所述多个音频中的至少两个音频的至少部分叠加以生成叠加音频；以及

基于所述相互关系，为所述叠加音频生成配乐并合成配乐音频。

18.如权利要求15所述的方法，其中，获取需要进行配乐的多个音频包括：

从社交平台获取来自一个或多个用户的多个语音和/或文字输入作为所述多个音频。

19.如权利要求1所述的方法，还包括：

将合成的配乐音频分享至社交平台。

20.一种配乐音频生成装置，包括：

音频获取单元，用于获取需要进行配乐的音频，所述音频是人声哼唱或说唱音频；

信息获取单元，用于获取所述音频的节拍信息和旋律信息；

小节划分单元，用于基于所述节拍信息将所述音频分成多个小节；

配乐小节生成单元，用于基于每个小节的所述节拍信息和旋律信息，生成对应的配乐小节；

配乐生成单元，用于将所述多个配乐小节合并以生成针对所述音频的配乐；以及

配乐音频合成单元，用于基于所述音频和所述配乐合成配乐音频，

其中，所述配乐小节生成单元用于：

计算每一个重拍附近旋律的音高分布；以及

21.如权利要求20所述的装置，其中，所述音频获取单元用于：

基于节拍检测算法，检测出所述音频的节拍信息。

22.如权利要求20所述的装置，其中，所述配乐小节生成单元用于：

根据某一小节的关键节拍的旋律信息，生成配乐信息；以及

基于所述生成配乐信息，从现有的配乐小节库中选择配乐小节。

23.如权利要求20所述的装置，还包括：

配乐小节调整单元，用于根据大数据分析的配乐小节衔接模型，基于某一小节的在前小节和/或在后小节的配乐小节，调整述小节对应的配乐小节。

24.如权利要求20所述的装置，还包括：

调性检测单元，用于对所述音频进行调性检测，

并且，所述配乐小节生成单元用于基于所述调性检测获取的所述音频的调性信息，生成某一小节所对应的配乐小节。

25.如权利要求24所述的装置，其中，所述调性检测单元用于：

对所述音频进行频谱变换；

基于所述频谱变换进行基于音高的变换；以及

根据所述基于音高的变换结果，生成所述调性信息。

26.如权利要求20所述的装置，其中，所述配乐生成单元用于：

27.如权利要求20所述的装置，其中，所述音频获取单元用于：

所述信息获取单元用于：

获取所述多个音频各自的节拍信息和旋律信息。

28.如权利要求27所述的装置，还包括多音频处理单元，用于如下至少一项：

根据用户的选择确定所述多个音频的相互关系；

29.如权利要求28所述的装置，所述多音频处理单元用于：

30.如权利要求20所述的装置，其中，所述音频获取单元用于：

31.如权利要求20所述的装置，还包括：

分析单元，用于将合成的配乐音频分享至社交平台。

32.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-19中任一项所述的方法。

33.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-19中任一项所述的方法。