CN114299899A

CN114299899A - 目标音乐的生成方法、装置、终端及存储介质

Info

Publication number: CN114299899A
Application number: CN202111473056.5A
Authority: CN
Inventors: 范凌; 裴子龙; 王喆
Original assignee: Tezign Shanghai Information Technology Co Ltd
Current assignee: Tezign Shanghai Information Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-08

Abstract

本申请公开了一种目标音乐的生成方法、装置、终端及存储介质。方法包括：基于目标音频文件和初始模型，确定目标片段生成模型；基于目标片段生成模型和目标音频特征数据，得到多个音频片段；从多个音频片段中选取一个音乐片段作为目标音频片段；基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。本发明基于音频片段的音乐重组，能够使生产的AI音乐更加流畅，符合人类对音乐的听感需求，并且，可以根据需要生产不同时长的有版权音乐，能够为媒体创作者的生产提高效率。

Description

目标音乐的生成方法、装置、终端及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种目标音乐的生成方法、装置、终端及存储介质。

背景技术

在媒体信息时代，媒体的创作量与日俱增，其中配乐是媒体创作过程必要一环。这意味着，版权音乐具有大量的交易需求，往往媒体创作者还会对配乐进行二次剪辑以适配媒体时长。因此，在版权音乐的创作中，AI可以发挥其多样性和高效性的特点，提高版权音乐的生产力。

目前，市场上的AI音乐生成技术主要将音乐MIDI音符作为时序信号，借鉴NLG(Nature Language Generate)领域的语言生成思路，致力于让AI模型学习其时序分布规律，从而做到新的音符段落的生成。

但是，上述基于音符级别的音乐生成方法存在用户体验差的问题。

发明内容

本申请的主要目的在于提供一种视频的分幕节点预测方法、装置、终端及存储介质，以解决相关技术中对分割点进行预测存在准确度低的问题。

为了实现上述目的，第一方面，本申请提供了一种目标音乐的生成方法，包括：

基于目标音频文件和初始模型，确定目标片段生成模型；

基于目标片段生成模型和目标音频特征数据，得到多个音频片段；

从多个音频片段中选取一个音乐片段作为目标音频片段；

基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。

在一种可能的实现方式中，基于目标音频文件和初始模型，确定目标片段生成模型，包括：

对目标音频文件进行格式转换，得到目标音频文件对应的梅尔频谱图；

利用梅尔频谱图对初始模型进行训练，得到目标片段生成模型。

在一种可能的实现方式中，基于目标片段生成模型和目标音频特征数据，得到多个音频片段，包括：

确定目标音频特征数据；

将目标音频特征数据输入目标片段生成模型，得到多个音频片段。

在一种可能的实现方式中，基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐，包括：

基于目标音频片段对应的类型，确定目标排列方式；

利用目标排列方式对目标音频片段进行编排，生成目标音乐。

在一种可能的实现方式中，目标音频片段为贝斯轨道音频片段；

利用目标排列方式对目标音频片段进行编排，生成目标音乐，包括：

将贝斯轨道音频片段在第一预设时长内持续循环，得到目标音乐。

在一种可能的实现方式中，目标音频片段为鼓轨道音频片段、和弦轨道音频片段或旋律轨道音频片段；

按照预设概率确定第二预设时长；

将第一预设时长与第二预设时长作差，得到第三预设时长；

将鼓轨道音频片段、和弦轨道音频片段或旋律轨道音频片段在第三预设时长内持续循环，得到目标音乐。

在一种可能的实现方式中，基于目标音频文件和初始模型，确定目标片段生成模型之前，还包括：

从不同类型的音频文件中选取目标类型的音频文件；

选取预设数量的目标类型的音频文件作为目标音频文件。

第二方面，本发明实施例提供了一种目标音乐的生成装置，包括：

目标模型确定模块，用于基于目标音频文件和初始模型，确定目标片段生成模型；

初始片段确定模块，用于基于目标片段生成模型和目标音频特征数据，得到多个音频片段；

目标片段确定模块，用于从多个音频片段中选取一个音乐片段作为目标音频片段；

目标音乐生成模块，用于基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。

第三方面，本发明实施例提供了一种终端，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上任一种目标音乐的生成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上任一种目标音乐的生成方法的步骤。

本发明实施例提供了一种目标音乐的生成方法、装置、终端及存储介质，包括：先基于目标音频文件和初始模型，确定目标片段生成模型，然后基于目标片段生成模型和目标音频特征数据，得到多个音频片段，再从多个音频片段中选取一个音乐片段作为目标音频片段，最后基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。本发明基于音频片段的音乐重组，能够使生产的AI音乐更加流畅，符合人类对音乐的听感需求。并且，可以根据需要生产不同时长的有版权音乐，能够为媒体创作者的生产提高效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明实施例提供的一种目标音乐的生成方法的实现流程图；

图2是本发明实施例提供的对初始模型进行训练的实现流程图；

图3是本发明实施例提供的一种目标音乐的生成装置的结构示意图；

图4是本发明实施例提供的终端的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

在一个实施例中，如图1所示，提供了一种目标音乐的生成方法，包括以下步骤：

步骤S101：基于目标音频文件和初始模型，确定目标片段生成模型；

步骤S102：基于目标片段生成模型和目标音频特征数据，得到多个音频片段；

步骤S103：从多个音频片段中选取一个音乐片段作为目标音频片段；

步骤S104：基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。

具体的，初始模型是基于VAE(变分自动编码器)的深度学习模型，此模型对大量的Jazz Hiphop音乐分轨进行了学习，得到目标片段生成模型。其中初始模型分别学习了Drumtrack、Chord track、Melody track等不同音轨音乐的音高、音色、持续时间等分布特点，包含鼓、吉他、钢琴、贝斯、号、提琴等10余种乐器，使之具备不同轨道的生成能力。

本发明实施例提供了一种目标音乐的生成方法，包括：先基于目标音频文件和初始模型，确定目标片段生成模型，然后基于目标片段生成模型和目标音频特征数据，得到多个音频片段，再从多个音频片段中选取一个音乐片段作为目标音频片段，最后基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。本发明基于音频片段的音乐重组，能够使生产的AI音乐更加流畅，符合人类对音乐的听感需求。并且，可以根据需要生产不同时长的有版权音乐，能够为媒体创作者的生产提高效率。

在一实施例中，步骤S101之前包括确定目标音频文件的过程，即首先从不同类型的音频文件中选取目标类型的音频文件，然后选取预设数量的目标类型的音频文件作为目标音频文件。

具体的，音频文件的类型即下表1中的乐轨类型，即Drum Track、Bass Track、Chord Track、Melody Track等，不仅限于下表1中的类型，还可以为其他类型。

从100+Jazz与HipHop歌曲中，采集了不同乐器类型的固定BPM(Beat Per Minute-每分钟节拍数)音频WAV文件作为一个Track(乐轨)，其中每个WAV文件只具有一种乐器音乐，各乐器类型数据量如下：

表1乐轨类型表

在一实施例中，步骤S101包括：

步骤S201：对目标音频文件进行格式转换，得到目标音频文件对应的梅尔频谱图；

步骤S202：利用梅尔频谱图对初始模型进行训练，得到目标片段生成模型。

结合图2，对初始模型进行训练进行具体说明，具体的，对每一个Track我们都将训练一个VAE模型，我们将不同Track的WAV文件转换为梅尔频谱图，输入Audio VAE模型，该模型Encoder部分从pitch(音高)和timbre(音色)两个方面学习现有音乐片段的分布特征，Decoder来解码生成新的片段，新的片段将服从原WAV的音高和音色分布。

在一实施例中，步骤S102包括：

步骤S301：确定目标音频特征数据；

步骤S302：将目标音频特征数据输入目标片段生成模型，得到多个音频片段。

具体的，目标音频特征数据是指包括pitch(音高)和timbre(音色)两个特征的数据。当将目标音频特征数据输入目标片段生成模型中，会输出多个音频片段，然后再从中任意选取一个音频片段作为目标音频片段。

在一实施例中，步骤S104包括：

步骤S401：基于目标音频片段对应的类型，确定目标排列方式；

步骤S402：利用目标排列方式对目标音频片段进行编排，生成目标音乐。

具体的，当目标音频片段为贝斯轨道音频片段时，将贝斯轨道音频片段在第一预设时长内持续循环，得到目标音乐；当目标音频片段为鼓轨道音频片段、和弦轨道音频片段或旋律轨道音频片段，按照预设概率确定第二预设时长；将第一预设时长与第二预设时长作差，得到第三预设时长；将鼓轨道音频片段、和弦轨道音频片段或旋律轨道音频片段在第三预设时长内持续循环，得到目标音乐。其中，第一预设时长指目标音乐的整体时长，第二预设时长指目标第一预设时长的前一段时间，具体不做限定。

进一步地，以具体实施例说明不同类型的音频片段生成对应的目标音乐的过程：

人类创作Jazz Hiphop音乐具有如下特点：一段音乐，组成部分如下片段：Intro(前奏)-Verse(主歌)-Build up(情绪铺垫)-Drop/Chrous(高潮/副歌)-Bridge(桥段/过渡)-Verse(主歌)-Build up(情绪铺垫)-Drop/Chorus(高潮/副歌)-Outro(尾奏)。

一个音乐片段，包含其中几个部分：节奏乐器(鼓组)、配器(bass、钢琴、吉他、小号等)，其中鼓组决定了音乐的节奏型，配器组成了音乐的和弦走向，不同的音乐风格将搭配不同的配器。

一般节奏音乐首先确定的是鼓组节奏，鼓组包括：低鼓、snare军鼓、hihit镲，然后铺垫bass和其他和弦配器最终将不同的分轨合并，且平衡音量，进行混音。

本专利汇集如上特点，与市场音符级音乐生成方式不同的是，本专利采用生成小节片段，再编排小节排列的方式来生成音乐。因此，当我们设定好生成Jazz Hiphop音乐的时间长度(即第一预设时长)后，片段排列服从如下特征：

Bass Track(贝斯轨道)音频作为整体音乐的基础，将从开始到结束一直Loop(循环)；

Drum Track(鼓轨道)音频将按照一定的概率延迟几个八拍再进入；

Chord Track(和弦轨道)音频将按照一定概率在一个八拍内间隔填充空白进行重新采样，并按照一定概率延迟八拍进入；

Melody Track(旋律轨道)音频将按照一定概率在一个八拍内间隔填充空白进行重新采样，并按照一定概率延迟八拍进入。

需要说明的是，第二外结构模型的确定方式与第一外结构模型的确定方式类似，此处不再进行赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图3示出了本发明实施例提供的一种目标音乐的生成装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，一种目标音乐的生成装置包括目标模型确定模块31、初始片段确定模块32、目标片段确定模块33和目标音乐生成模块34，具体如下：

目标模型确定模块31，用于基于目标音频文件和初始模型，确定目标片段生成模型；

初始片段确定模块32，用于基于目标片段生成模型和目标音频特征数据，得到多个音频片段；

目标片段确定模块33，用于从多个音频片段中选取一个音乐片段作为目标音频片段；

目标音乐生成模块34，用于基于目标音频片段、目标音频片段对应的类型和目标排列方式，生成目标音乐。

在一种可能的实现方式中，目标模型确定模块31包括：

格式转换子模块，用于对目标音频文件进行格式转换，得到目标音频文件对应的梅尔频谱图；

模型训练子模块，用于利用梅尔频谱图对初始模型进行训练，得到目标片段生成模型。

在一种可能的实现方式中，初始片段确定模块32包括：

特征数据确定子模块，用于确定目标音频特征数据；

初始音频确定子模块，用于将目标音频特征数据输入目标片段生成模型，得到多个音频片段。

在一种可能的实现方式中，目标音乐生成模块34包括：

排列方式确定子模块，用于基于目标音频片段对应的类型，确定目标排列方式；

目标音乐生成子模块，用于利用目标排列方式对目标音频片段进行编排，生成目标音乐。

目标音乐生成子模块包括：

第一目标音乐生成单元，用于将贝斯轨道音频片段在第一预设时长内持续循环，得到目标音乐。

目标音乐生成子模块包括：

第一时长确定单元，用于按照预设概率确定第二预设时长；

第二时长确定单元，用于将第一预设时长与第二预设时长作差，得到第三预设时长；

第二目标音乐生成单元，用于将鼓轨道音频片段、和弦轨道音频片段或旋律轨道音频片段在第三预设时长内持续循环，得到目标音乐。

在一种可能的实现方式中，目标模型确定模块31之前，还包括：

文件选取子模块，用于从不同类型的音频文件中选取目标类型的音频文件；

目标模型确定子模块，用于选取预设数量的目标类型的音频文件作为目标音频文件。

图4是本发明实施例提供的终端的示意图。如图4所示，该实施例的终端4包括：处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。处理器40执行计算机程序42时实现上述各个目标音乐的生成方法实施例中的步骤，例如图1所示的步骤101至步骤104。或者，处理器40执行计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块/单元31至34的功能。

本发明还提供一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种目标音乐的生成方法，其特征在于，包括：

基于目标音频文件和初始模型，确定目标片段生成模型；

基于所述目标片段生成模型和目标音频特征数据，得到多个音频片段；

从所述多个音频片段中选取一个音乐片段作为目标音频片段；

基于所述目标音频片段、所述目标音频片段对应的类型和目标排列方式，生成目标音乐。

2.如权利要求1所述的目标音乐的生成方法，其特征在于，所述基于目标音频文件和初始模型，确定目标片段生成模型，包括：

对所述目标音频文件进行格式转换，得到所述目标音频文件对应的梅尔频谱图；

利用所述梅尔频谱图对所述初始模型进行训练，得到所述目标片段生成模型。

3.如权利要求2所述的目标音乐的生成方法，其特征在于，所述基于所述目标片段生成模型和目标音频特征数据，得到多个音频片段，包括：

确定所述目标音频特征数据；

将所述目标音频特征数据输入所述目标片段生成模型，得到所述多个音频片段。

4.如权利要求3所述的目标音乐的生成方法，其特征在于，所述基于所述目标音频片段、所述目标音频片段对应的类型和目标排列方式，生成目标音乐，包括：

基于所述目标音频片段对应的类型，确定所述目标排列方式；

利用所述目标排列方式对所述目标音频片段进行编排，生成所述目标音乐。

5.如权利要求4所述的目标音乐的生成方法，其特征在于，所述目标音频片段为贝斯轨道音频片段；

所述利用所述目标排列方式对所述目标音频片段进行编排，生成所述目标音乐，包括：

将所述贝斯轨道音频片段在第一预设时长内持续循环，得到所述目标音乐。

6.如权利要求4所述的目标音乐的生成方法，其特征在于，所述目标音频片段为鼓轨道音频片段、和弦轨道音频片段或旋律轨道音频片段；

按照预设概率确定第二预设时长；

将第一预设时长与第二预设时长作差，得到第三预设时长；

将所述鼓轨道音频片段、所述和弦轨道音频片段或所述旋律轨道音频片段在所述第三预设时长内持续循环，得到所述目标音乐。

7.如权利要求1-6中任一项所述的目标音乐的生成方法，其特征在于，所述基于目标音频文件和初始模型，确定目标片段生成模型之前，还包括：

从不同类型的音频文件中选取目标类型的音频文件；

选取预设数量的所述目标类型的音频文件作为所述目标音频文件。

8.一种目标音乐的生成装置，其特征在于，包括：

初始片段确定模块，用于基于所述目标片段生成模型和目标音频特征数据，得到多个音频片段；

目标片段确定模块，用于从所述多个音频片段中选取一个音乐片段作为目标音频片段；

目标音乐生成模块，用于基于所述目标音频片段、所述目标音频片段对应的类型和目标排列方式，生成目标音乐。

9.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述目标音乐的生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行所述计算机程序时实现如权利要求1至7中任一项所述目标音乐的生成方法的步骤。