CN117995139A

CN117995139A - 音乐生成方法、装置、计算设备及计算机存储介质

Info

Publication number: CN117995139A
Application number: CN202211337163.XA
Authority: CN
Inventors: 李星达; 舒景辰
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-05-07

Abstract

本申请公开了一种音乐生成方法、装置、计算设备及计算机存储介质。其中，该方法包括：获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐。本申请提供的方案，根据情感标签及BPM值来进行音乐的生成，针对不同的情感标签及BPM值所生成的音乐是不同的，由此实现了个性化地生成音乐，由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需进行内容制作，从而节约了音乐的生成成本。

Description

音乐生成方法、装置、计算设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种音乐生成方法、装置、计算设备及计算机存储介质。

背景技术

随着科学技术的发展及人民生活水平的提高，用户会存在音乐生成需求，音乐创作的门槛较高，而用户并不是专业人员，就导致所生成的成本较高，还需要在编曲过程中反复调整各种音乐效果，另外，用户可能会在生成音乐过程中进行借鉴，就导致侵权风险较高。

发明内容

本申请的目的是提供一种音乐生成方法、装置、计算设备及计算机存储介质，以解决现有技术存在的音乐生成成本高、侵权等问题。

根据本申请实施例的一个方面，提供了一种音乐生成方法，包括：

获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；

将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；

根据乐谱文件进行音频渲染，得到待生成音乐。

进一步地，获取待生成音乐的音乐特征，将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件进一步包括：

获取待处理的媒体文件的音乐特征，将音乐特征输入至预先训练的音乐生成模型，确定与音乐特征对应的乐谱信息，根据乐谱信息生成对应的乐谱文件。

进一步地，获取待处理的媒体文件的音乐特征进一步包括：

根据用户触发的音乐特征的标签输入操作，获取媒体文件的音乐特征。

进一步地，获取待处理的媒体文件的音乐特征进一步包括：

根据用户触发的媒体文件上传操作获取待处理的媒体文件，将媒体文件输入至预先训练的媒体文件理解模型进行预测，得到媒体文件对应的音乐特征。

进一步地，方法还包括：针对媒体文件，确定媒体文件的媒体文件特征。

进一步地，将音乐特征输入至预先训练的音乐生成模型，确定与音乐特征对应的乐谱信息进一步包括：

将音乐特征及媒体文件特征输入至预先训练的音乐生成模型，确定与音乐特征和媒体文件特征对应的乐谱信息。

进一步地，针对媒体文件，确定媒体文件的媒体文件特征进一步包括：

将媒体文件输入至预先训练的媒体文件理解模型，提取媒体文件的媒体文件特征。

进一步地，根据乐谱文件进行音频渲染，得到待生成音乐进一步包括：

将乐谱文件输入至预先训练的音频渲染模型进行音频渲染，得到待生成音乐。

进一步地，在根据乐谱文件进行音频渲染，得到待生成音乐之后，方法还包括：

在播放媒体文件时，播放待生成音乐。

进一步地，音乐生成模型训练过程包括：

获取至少一个维度的样本特征及标注乐谱信息；

根据至少一个维度的样本特征及标注乐谱信息进行模型训练，得到音乐生成模型，其中，至少一个维度的样本特征包括：音乐特征。

进一步地，至少一个维度的样本特征还包括：媒体文件特征。

进一步地，媒体文件理解模型训练过程包括：

获取样本媒体文件及样本媒体文件对应的标注情感标签、样本媒体文件对应的标注BPM值；

将样本媒体文件输入至深度学习模型，提取样本媒体文件对应的媒体文件特征；

基于媒体文件特征及标注情感标签、标注BPM值对深度学习模型进行训练，得到媒体文件理解模型。

进一步地，音频渲染模型训练过程包括：

获取样本乐谱文件及样本乐谱文件对应的演奏音频的标注演奏特征；

根据样本乐谱文件及标注演奏特征进行模型训练，得到音频渲染模型。

进一步地，媒体文件特征包括：媒体文件色调特征、媒体文件内容特征、媒体文件转场特征。

进一步地，乐谱信息包括：旋律信息、伴奏信息、配器信息。

根据本申请实施例的另一方面，提供了一种音乐生成方法，包括：

监测用户触发的音乐生成操作；

响应于音乐生成操作，向服务端发送音乐生成请求，以供服务端根据音乐生成请求获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐；

获取服务端响应音乐生成请求返回的待生成音乐。

进一步地，音乐生成操作为媒体文件上传操作和/或音乐特征的标签输入操作；

响应于音乐生成操作，向服务端发送音乐生成请求进一步包括：

响应于音乐生成操作，向服务端发送携带有媒体文件和/或音乐特征的音乐生成请求。

根据本申请实施例的另一方面，提供了一种音乐生成装置，包括：

音乐特征获取模块，适于获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；

生成模块，适于将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；

渲染模块，适于根据乐谱文件进行音频渲染，得到待生成音乐。

监测模块，适于监测用户触发的音乐生成操作；

发送模块，适于响应于音乐生成操作，向服务端发送音乐生成请求，以供服务端根据音乐生成请求获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐；

获取模块，适于获取服务端响应音乐生成请求返回的待生成音乐。

根据本申请实施例的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述音乐生成方法对应的操作。

根据本申请实施例的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述音乐生成方法对应的操作。

根据本申请实施例提供的方案，获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐。由于是根据情感标签及BPM值来进行音乐的生成，针对不同的情感标签及BPM值所生成的音乐是不同的，由此实现了个性化地生成音乐，由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需用户进行内容制作，从而节约了音乐的生成成本，实现了便捷、快速、高效地生成音乐。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请中的一个实施例的音乐生成方法的流程示意图；

图2A示出了根据本申请中的另一个实施例的媒体文件背景音乐的生成方法的流程示意图；

图2B为情感标签的四象限的示意图；

图3示出了根据本申请中的一个实施例的音乐生成方法的流程示意图；

图4示出了根据本申请中的另一个实施例的媒体文件背景音乐的生成方法的流程示意图；

图5示出了根据本申请中的一个实施例的音乐生成装置的结构示意图；

图6示出了根据本申请中的一个实施例的音乐生成装置的结构示意图；

图7示出了根据本申请中的一个实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1示出了根据本申请中的一个实施例的音乐生成方法的流程示意图。该方法应用于服务端，如图1所示，该方法包括以下步骤：

步骤S101，获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值。

具体地，当存在音乐生成需求时，可以获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值，情感标签是对媒体文件的内容所表达情感的说明或者是对用户情感的表达，因此，情感标签也反映了所生成的音乐需要表达的情感，情感标签对应着具体的情感，例如，快乐、愤怒、无聊等；BPM是每分钟节拍数量，是通过数值来表示音乐速度，例如，大致分为慢速、中速、快速。

步骤S102，将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件。

在根据步骤S101确定了媒体文件对应的音乐特征后，可以将音乐特征输入至预先训练的音乐生成模型中，其中，音乐生成模型是关于音乐特征与乐谱文件的模型，通过该音乐生成模型可以生成对应的乐谱文件。

步骤S103，根据乐谱文件进行音频渲染，得到待生成音乐。

在利用步骤S102生成乐谱文件后，根据乐谱文件进行音频渲染，这里渲染过程主要是录制待业技巧与情感等“人性化”特征演奏音频，最终录制的音频即为待生成音乐。

本申请提供的方案，获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐。由于是根据情感标签及BPM值来进行音乐的生成，针对不同的情感标签及BPM值所生成的音乐是不同的，由此实现了个性化地生成音乐，由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需进行内容制作或音乐筛选，从而节约了音乐的生成成本，实现了便捷、快速、高效地生成音乐。

图2A示出了根据本申请中的另一个实施例的媒体文件背景音乐的生成方法的流程示意图。本实施例主要是以生成媒体文件的背景音乐为例来说明背景音乐的生成方法，该方法应用于服务端，如图2A所示，该方法包括以下步骤：

步骤S201，根据用户触发的媒体文件上传操作获取待处理的媒体文件，将媒体文件输入至预先训练的媒体文件理解模型进行预测，得到媒体文件对应的音乐特征及媒体文件特征。

具体地，向用户提供媒体文件上传界面，用户可以通过媒体文件上传界面来上传待处理的媒体文件，例如，在该媒体文件上传界面中提供有上传按钮，用户点击上传按钮之后，会提示用户选择待处理的媒体文件，用户选择待处理的媒体文件之后，点击提交按钮或者确认按钮，视为用户触发了媒体文件上传操作，从而可以根据用户触发的媒体文件上传操作获取到待处理的媒体文件。为了使媒体文件具有更丰富的试听效果，而且使最终生成的背景音乐能够充分地反映媒体文件的内容，这里将媒体文件输入至预先训练的媒体文件理解模型中以进行模型预测，通过媒体文件理解模型可以预测得到媒体文件对应的音乐特征及媒体文件特征。

例如，媒体文件会被媒体文件理解模型转换成一个高维的媒体文件特征，然后，基于该媒体文件特征预测得到音乐特征，而媒体文件理解模型在输出时，会同时输出媒体文件对应的音乐特征及媒体文件特征。

其中，待处理的媒体文件是指需要生成背景音乐的媒体文件，媒体文件可以是视频、漫画、GIF图片等，其它未列举的且适于配置背景音乐的媒体文件也属于本实施例的保护范围，这里不再一一列举。音乐特征包括：情感标签及BPM值。情感标签是对媒体文件的内容所表达情感的说明或者是对用户情感的表达，因此，情感标签也反映了所生成的背景音乐需要表达的情感，情感标签对应着具体的情感，例如，快乐、愤怒、无聊等；BPM是每分钟节拍数量，是通过数值来表示音乐速度，例如，大致分为慢速、中速、快速，慢速对应的BPM范围为60以下，中速对应的BPM范围为(60～90)，快速对应的BPM范围为(90～160)，需要说明的是，这里仅是给出了一种划分举例，慢速、中速、快速所对应的BPM区间范围还可能是其他范围值。

图2B为情感标签的四象限的示意图。通常情况下，是用v-a平面来表示，情感标签为v-a平面中四象限的其中一个。用户可以使用更细致的描述性语言，例如快乐、伤心等来进行描述，但会经过映射最终落在v-a四象限中，以达成符合大众认知一致的情绪听感。

一般认知中，情感与BPM有对应关系，如v-a第一象限中，表达开心、激动等情感，BPM范围通常在120-150；第二象限对应的BPM范围为80-100；而第三象限情感更多的表达沮丧、伤感等，BPM范围可以是60-80；第四象限对应的BPM范围为80-120。由于所表达的情感还可以通过其他要素来体现，例如，配器等，因此不同象限的情感标签所对应的BPM范围可能存在重合。在本实施例中，当不同的媒体文件对应的情感标签相同时，其对应的BPM值可以相同，也可以不同。

媒体文件特征是从不同的角度来反映媒体文件的特征，例如，媒体文件特征包括：媒体文件色调特征、媒体文件内容特征、媒体文件转场特征，当然还可能包含一些其他特征，这里不再一一列举。其中，媒体文件色调特征可以包含：明暗特征、冷暖特征等；媒体文件内容特征可以包含：运动特征、vlog特征等；媒体文件转场特征可以包含：背景特征、特效特征等。

在本实施例中，媒体文件决定着情感标签，而情感标签进而又影响着BPM值。例如，媒体文件中包含了如下镜头：阴雨天中一人哭泣的特写长镜头，由此可以确定所对应的情感标签为悲伤，对应的BPM值可以是慢速范围中的某一数值(例如，50)，即，该媒体文件对应着慢速悲伤的音乐；再例如，媒体文件中包含了滑板、山地车、冲浪等混剪场景，由此可以确定所对应的情感标签为兴奋，对应的BPM值可以是快速范围中的某一数值(例如，150)，即，该媒体文件对应快速高燃的音乐。通过确定合适的BPM值，以使BPM值能契合不同运动的转场效果，使得“卡点”成功，最终呈现的效果会更好。

需要说明的是，本实施例中的媒体文件可能存在内容较为丰富的情况，因此，对于一个媒体文件而言，在将媒体文件输入至媒体文件理解模型之后，可能会预测得到多个音乐特征，其中，每个音乐特征均包含情感标签及BPM值。即，针对一个媒体文件最终可能会生成多个背景音乐。

在本申请一种可选实施方式中，用户可以选择不提供待处理的媒体文件，而是直接提供音乐特征，对于这种情况，会跳过媒体文件理解过程，针对媒体文件，确定媒体文件对应的音乐特征进一步可以通过如下方法来实现：根据用户触发的音乐特征的标签输入操作，获取媒体文件的音乐特征。

具体地，可以向用户提供音乐特征的标签输入界面，在该音乐特征的标签输入界面中提供有音乐特征的标签输入框，用户可以在输入框中输入具体的情感标签及BPM值；或者，音乐特征输入界面提供有情感标签菜单选项及BPM数值选项，用户可以在情感标签菜单选项中选择具体的情感标签，以及在BPM数值选项中选择具体的BPM值；又或者，用户可以通过语音方式录入具体的情感标签及BPM值。在音乐特征输入界面中还提供有提交按钮，用户在输入或者选择或者语音录入情感标签及BPM值之后，可以点击提交按钮，用户点击提交按钮，视为用户触发了音乐特征的标签输入操作，从而可以根据用户触发的音乐特征的标签输入操作，获取媒体文件的音乐特征，即，情感标签及BPM值。

需要说明的是，本申请还可以将用户输入音乐特征的标签与媒体文件理解模型相结合来获取媒体文件的音乐特征，例如，用户可以输入情感标签，并上传待处理的媒体文件，因此，可以根据用户触发的情感标签输入操作及媒体文件上传操作，获取媒体文件及情感标签，将情感标签与媒体文件输入至预先训练的媒体文件理解模型进行预测，得到媒体文件对应的BPM值，从而获取到媒体文件的音乐特征。

对于用户未上传待处理的媒体文件的情况，由于无法通过媒体文件来得到媒体文件特征，因此，针对这类媒体文件，可以随机生成媒体文件的媒体文件特征。

在本申请一种可选实施方式中，媒体文件理解模型训练过程包括：

具体地，在进行媒体文件理解模型训练时，需要先获取大量的样本媒体文件，针对每个媒体文件会标注其对应的情感标签、标注其对应的BPM值，为了与媒体文件理解模型进行预测所得到的情感标签及BPM值进行区分，这里将模型训练时，样本媒体文件的情感标签、BPM值称为标注情感标签、标注BPM值。然后，将样本媒体文件输入至深度学习模型，提取样本媒体文件对应的媒体文件特征，媒体文件特征是一个高维特征，深度学习模型可以自动抽取媒体文件的特征，基于媒体文件特征及标注情感标签、标注BPM值对深度学习模型进行训练，通过深度学习方法令模型学习媒体文件特征与标注情感标签、标注BPM值之间的关系。

在训练的过程中会通过深度学习模型训练得到样本媒体文件的训练情感标签及训练BPM值，计算训练情感标签及训练BPM值与标注情感标签、标注BPM值之间的损失，得到模型损失函数，根据模型损失函数更新模型参数，模型损失函数的输出值小于预设阈值时，模型训练结束，得到媒体文件理解模型。

此外，为了提升模型的精准性，可以在将样本媒体文件输入至深度学习模型进行训练之前，先通过多重投票/校验等方式消除标注过程中的主观因素与误差。

步骤S202，将音乐特征及媒体文件特征输入至预先训练的音乐生成模型，确定与音乐特征及媒体文件特征对应的乐谱信息，根据乐谱信息生成对应的乐谱文件，其中，乐谱信息包括：旋律信息、伴奏信息、配器信息。

为了使媒体文件具有更丰富的试听效果，而且使最终生成的背景音乐能够充分地反映媒体文件的内容，实现每个媒体文件所对应的背景音乐不同，本步骤是将音乐特征及媒体文件特征输入至预先训练的音乐生成模型，利用音乐生成模型来预测确定与音乐特征及媒体文件特征对应的乐谱信息，由于每个媒体文件的媒体文件特征不同，从而使得所确定的乐谱信息不同。

具体地，如果用户上传了视频，那么输入为【媒体文件特征、情感标签、BPM值】三元组，如果用户没有上传视频，那么媒体文件特征是随机生成的。然后音乐生成模型会根据这个输入三元组生成对应的旋律、伴奏与配器。当配器确定后，伴奏会被转换成适应每种乐器的特定演奏形式然后形成曲谱，旋律自身即为曲谱形式。为了避免生成侵权音乐，会将媒体文件特征作为“种子”，令生成曲谱的起点与训练用的曲谱都不同；同时，旋律与伴奏的生成是一个依赖上文的逐步生成过程，而不是一次性完整生成，因此即使是同一个视频，在两次生成过程中只要有一个音符不一样，后面的音符就会根据前面已经生成的不同旋律而得到不同的结果。

乐谱信息是生成乐谱文件所需的信息，其中，乐谱信息可以包括：旋律信息、伴奏信息、配器信息。配器信息主要指搭配哪些乐器来进行谱曲，每种乐器的音色均不同，因此，乐器因音色的不同，会天然更适合某种特定的情绪场景，例如合成器与失真效果的电吉他等更适合BPM较高的第一象限的情感，而婉转悠扬的大、小提琴更适合BPM较低的第三象限的情感。音乐生成模型会定期更新，以持续增加乐器与其适合的情感来达成最终配器组合的多样性。

旋律信息指若干长短、强弱不同的乐音经过艺术构思而形成的有组织、节奏的序列，旋律是音乐的基本要素，其是由许多音乐基本要素，例如调式、节奏、节拍、力度、音色表演方法方式等有机地结合而成。旋律可以表现出音乐的内容、风格、体裁。伴奏是指伴随衬托歌唱的器乐演奏。

在确定了音乐特征对应的乐谱信息，根据乐谱信息生成对应的乐谱文件，由于每个媒体文件对应的乐谱信息不同，从而使得根据乐谱信息生成的乐谱文件也不同，保证了每个媒体文件所对应的背景音乐不同。

在本申请一种可选实施方式中，音乐生成模型训练过程包括：

获取至少一个维度的样本特征及标注乐谱信息；

具体地，获取大量的样本乐谱，针对每个样本乐谱会获取至少一个维度的样本特征，例如，音乐特征，结合步骤S201中的描述，音乐特征包含：情感标签及BPM值，以及获取标注乐谱信息，其中，标注乐谱信息包含：旋律信息、伴奏信息、配器信息。在获取到至少一个维度的样本特征及标注乐谱信息之后，根据至少一个维度的样本特征及标注乐谱信息进行模型训练，得到音乐生成模型。这里主要是训练其学习在给定情感标签与BPM值条件下的音乐创作与编配能力。

在训练的过程中会通过模型训练得到至少一个维度的样本特征的训练乐谱信息，计算训练乐谱信息与标注乐谱信息之间的损失，得到模型损失函数，根据模型损失函数更新模型参数，模型损失函数的输出值小于预设阈值时，模型训练结束，得到音乐生成模型。

可选地，至少一个维度的样本特征还包括：媒体文件特征。在训练时，会根据媒体文件特征及音乐特征及标注乐谱信息进行模型训练，得到音乐生成模型。

步骤S203，将乐谱文件输入至预先训练的音频渲染模型进行音频渲染，得到媒体文件的背景音乐。

在生成乐谱文件后，需要根据乐谱文件进行音频渲染，具体地，将乐谱文件输入至预先训练的音频渲染模型进行音频渲染，渲染过程主要是录制待业技巧与情感等“人性化”特征演奏音频，最终录制的音频即为媒体文件的背景音乐。

在本申请一种可选实施方式中，音频渲染模型训练过程包括：获取样本乐谱文件及样本乐谱文件对应的演奏音频的标注演奏特征；根据样本乐谱文件及标注演奏特征进行模型训练，得到音频渲染模型。

具体地，获取训练所需的大量的样本乐谱文件，以及乐手根据样本乐谱文件所演奏的带有技巧与情感等“人性化”特征的演奏音频，获取演奏音频的演奏特征，这些演奏特征作为标注演奏特征用于训练音频渲染模型，然后，根据样本乐谱文件及标注演奏特征进行模型训练，得到音频渲染模型。

步骤S204，在播放媒体文件时，播放背景音乐。

在得到媒体文件的背景音乐后，可以在播放媒体文件时，播放所生成的背景音乐，从而使得媒体文件具有更丰富的试听效果。对于用户上传了媒体文件的情况，可以在生成背景音乐后，将背景音乐与媒体文件合成；对于用户提供情感标签及BPM值而未上传媒体文件的情况，可以向用户提供合成功能，用户可以利用该合成功能，将媒体文件与背景音乐合成。

需要说明的是，在本申请一种可选实施方式中，可以利用媒体文件理解模型仅输出音乐特征，即情感标签及BPM值，也就是说，针对待处理的媒体文件，确定媒体文件对应的音乐特征进一步通过如下方法实现：获取用户上传的待处理的媒体文件，将媒体文件输入至预先训练的媒体文件理解模型进行预测，得到媒体文件对应的音乐特征。具体实现过程与步骤S201类似，这里不再赘述。

对于这种情况，后续可能会出现两个不同的媒体文件输入至媒体文件理解模型后，输出相同的音乐特征，从而使得最后所生成的背景音乐是相同的，即，不同的媒体文件可能配置了相同的背景音乐，然而，由于背景音乐是结合媒体文件自主生成的，虽然不同的媒体文件配以相同的背景音乐，但是并不存在侵权的风险。

本申请提供的方案，实现了个性化地配置媒体文件的背景音乐，有效降低了不同媒体文件的配乐重复率，而且由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需进行内容制作或背景音乐筛选，从而节约了背景音乐的生成成本，同时也使得媒体文件具有更丰富的试听效果，在乐谱信息时考虑了媒体文件的媒体文件特征，从而实现了不同媒体文件所生成的背景音乐均不同，避免了媒体文件之间背景音乐重复的问题。

图3示出了根据本申请中的一个实施例的音乐生成方法的流程示意图。该方法应用于客户端，如图3所示，该方法包括以下步骤：

步骤S301，监测用户触发的音乐生成操作。

具体地，客户端可以向用户提供一个交互界面，在该交互界面，用户可以触发音乐生成操作，例如，交互界面中存在音乐生成按钮，用户触发了音乐生成按钮，即视为触发了音乐生成操作。

步骤S302，响应于音乐生成操作，向服务端发送音乐生成请求，以供服务端根据音乐生成请求获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐。

具体地，响应于音乐生成操作，客户端向服务端发送音乐生成请求，该音乐生成请求用于表征存在音乐生成的需求，服务端在接收到音乐生成请求后，可以生成相应的待生成音乐，其中，服务端生成待生成音乐的具体过程可以参见图1所示实施例或图2A所示实施例，这里不再赘述。

步骤S303，获取服务端响应音乐生成请求返回的待生成音乐。

具体地，服务端在生成音乐后，响应于音乐生成请求，将所生成的音乐返回给客户端，客户端可以获取服务端返回的待生成音乐。

本申请提供的方案，当存在音乐生成需求时，通过简单的音乐生成操作，便能够得到相应的音乐，操作简便，而且所生成的音乐是个性化的，而且由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需进行内容制作筛选，从而节约了音乐的生成成本。

图4示出了根据本申请中的一个实施例的媒体文件背景音乐的生成方法的流程示意图。该方法应用于客户端，如图4所示，该方法包括以下步骤：

步骤S401，监测用户触发的音乐生成操作，音乐生成操作为媒体文件上传操作和/或音乐特征的标签输入操作。

具体地，客户端可以向用户提供交互界面，其中，交互界面可以是媒体文件上传界面，用户可以通过媒体文件上传界面来上传待处理的媒体文件，例如，在该媒体文件上传界面中提供有上传按钮，用户点击上传按钮之后，会提示用户选择待处理的媒体文件，用户选择待处理的媒体文件之后，点击提交按钮或者确认按钮，视为用户触发了媒体文件上传操作。和/或

交互界面还可以是音乐特征的标签输入界面，在该音乐特征的标签输入界面中提供有音乐特征的标签输入框，用户可以在输入框中输入具体的情感标签及BPM值；或者，音乐特征的标签输入界面提供有情感标签菜单选项及BPM数值选项，用户可以在情感标签菜单选项中选择具体的情感标签，以及在BPM数值选项中选择具体的BPM值；又或者，音乐特征的标签输入界面提供有语音功能，用户可以通过语音方式录入具体的情感标签及BPM值。在音乐特征的标签输入界面中还提供有提交按钮，用户在输入或者选择或者语音录入情感标签及BPM值之后，可以点击提交按钮，用户点击提交按钮，视为用户触发了音乐特征的标签输入操作。

步骤S402，响应于音乐生成操作，向服务端发送携带有媒体文件和/或音乐特征的背景音乐生成请求，以供服务端根据背景音乐生成请求获取媒体文件的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，确定与音乐特征对应的乐谱信息，根据乐谱信息生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到媒体文件的背景音乐。

具体地，响应于音乐生成操作，客户端向服务端发送携带有媒体文件和/或音乐特征的背景音乐生成请求，以使服务端来生成媒体文件的背景音乐，其中，服务端生成媒体文件的背景音乐的具体过程可以参见图2A所示实施例，这里不再赘述。

步骤S403，获取服务端响应背景音乐生成请求返回的背景音乐。

具体地，服务端在生成背景音乐后，响应于背景音乐生成请求，将所生成的背景音乐返回给客户端，客户端可以获取服务端返回的背景音乐。

本申请提供的方案，当存在背景音乐生成需求时，通过简单的用户交互操作，例如，媒体文件上传操作和/或音乐特征的标签输入操作，便能够得到媒体文件的背景音乐，操作简便，而且所生成背景音乐是针对媒体文件个性化配置的，有效降低了不同媒体文件的配乐重复率，而且由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需进行内容制作或背景音乐筛选，从而节约了背景音乐的生成成本，同时也使得媒体文件具有更丰富的试听效果。

图5示出了根据本申请中的一个实施例的音乐生成装置的结构示意图。如图5所示，该装置包括：音乐特征获取模块501、生成模块502、渲染模块503。

音乐特征获取模块501，适于获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；

生成模块502，适于将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；

渲染模块503，适于根据乐谱文件进行音频渲染，得到待生成音乐。

可选地，音乐特征获取模块进一步适于：获取待处理的媒体文件的音乐特征；

生成模块进一步适于：将音乐特征输入至预先训练的音乐生成模型，确定与音乐特征对应的乐谱信息，根据乐谱信息生成对应的乐谱文件。

可选地，音乐特征获取模块进一步适于：根据用户触发的音乐特征的标签输入操作，获取媒体文件的音乐特征。

可选地，音乐特征获取模块进一步适于：根据用户触发的媒体文件上传操作获取待处理的媒体文件，将媒体文件输入至预先训练的媒体文件理解模型进行预测，得到媒体文件对应的音乐特征。

可选地，装置还包括：媒体文件特征确定模块，适于针对媒体文件，确定媒体文件的媒体文件特征。

可选地，生成模块进一步适于：将音乐特征及媒体文件特征输入至预先训练的音乐生成模型，确定与音乐特征和媒体文件特征对应的乐谱信息。

可选地，媒体文件特征确定模块进一步适于：将媒体文件输入至预先训练的媒体文件理解模型，提取媒体文件的媒体文件特征。

可选地，渲染模块进一步适于：将乐谱文件输入至预先训练的音频渲染模型进行音频渲染，得到待生成音乐。

可选地，装置还包括：播放模块，适于在播放媒体文件时，播放待生成音乐。

可选地，装置还包括：音乐生成模型训练模块，适于获取至少一个维度的样本特征及标注乐谱信息；

可选地，至少一个维度的样本特征包括：媒体文件特征。

可选地，装置还包括：媒体文件理解模型训练模块，适于获取样本媒体文件及样本媒体文件对应的标注情感标签、样本媒体文件对应的标注BPM值；

可选地，装置还包括：音频渲染模型训练模块，适于获取样本乐谱文件及样本乐谱文件对应的演奏音频的标注演奏特征；

可选地，媒体文件特征包括：媒体文件色调特征、媒体文件内容特征、媒体文件转场特征。

可选地，乐谱信息包括：旋律信息、伴奏信息、配器信息。

本申请提供的方案，获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐。由于是根据情感标签及BPM值来进行音乐的生成，针对不同的情感标签及BPM值所生成的音乐是不同的，由此实现了个性化地生成音乐，由于是利用音乐生成模型自动生成乐谱文件来渲染音频，从而降低了音乐侵权风险；由于无需进行内容制作或音乐筛选，从而节约了音乐的生成成本。

图6示出了根据本申请中的一个实施例的音乐生成装置的结构示意图。如图6所示，该装置包括：监测模块601、发送模块602、获取模块603。

监测模块601，适于监测用户触发的音乐生成操作；

发送模块602，适于响应于音乐生成操作，向服务端发送音乐生成请求，以供服务端根据音乐生成请求获取待生成音乐的音乐特征，其中，音乐特征包括：情感标签及BPM值；将音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据乐谱文件进行音频渲染，得到待生成音乐；

获取模块603，适于获取服务端响应音乐生成请求返回的待生成音乐。

可选地，音乐生成操作为媒体文件上传操作和/或音乐特征的标签输入操作；

发送模块进一步适于：响应于音乐生成操作，向服务端发送携带有媒体文件和/或音乐特征的音乐生成请求。

本申请实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音乐生成方法。

图7示出了根据本申请中的一个实施例的计算设备的结构示意图，本申请具体实施例并不对计算设备的具体实现做限定。

如图7所示，该计算设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器702，用于执行程序710，具体可以执行上述音乐生成方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行上述任意方法实施例中的音乐生成方法。程序710中各步骤的具体实现可以参见上述音乐生成实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种音乐生成方法，包括：

获取待生成音乐的音乐特征，其中，所述音乐特征包括：情感标签及BPM值；

将所述音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；

根据所述乐谱文件进行音频渲染，得到所述待生成音乐。

2.根据权利要求1所述的方法，所述获取待生成音乐的音乐特征，将所述音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件进一步包括：

获取待处理的媒体文件的音乐特征，将所述音乐特征输入至预先训练的音乐生成模型，确定与所述音乐特征对应的乐谱信息，根据所述乐谱信息生成对应的乐谱文件。

3.根据权利要求2所述的方法，其中，所述获取待处理的媒体文件的音乐特征进一步包括：

根据用户触发的音乐特征的标签输入操作，获取所述媒体文件的音乐特征。

4.根据权利要求2所述的方法，其中，所述获取待处理的媒体文件的音乐特征进一步包括：

根据用户触发的媒体文件上传操作获取待处理的媒体文件，将所述媒体文件输入至预先训练的媒体文件理解模型进行预测，得到所述媒体文件对应的音乐特征。

5.根据权利要求2-4中任一项所述的方法，其中，所述方法还包括：针对所述媒体文件，确定所述媒体文件的媒体文件特征。

6.根据权利要求5所述的方法，其中，所述将所述音乐特征输入至预先训练的音乐生成模型，确定与所述音乐特征对应的乐谱信息进一步包括：

将所述音乐特征及所述媒体文件特征输入至预先训练的音乐生成模型，确定与所述音乐特征和所述媒体文件特征对应的乐谱信息。

7.根据权利要求5或6所述的方法，其中，所述针对所述媒体文件，确定所述媒体文件的媒体文件特征进一步包括：

将所述媒体文件输入至预先训练的媒体文件理解模型，提取所述媒体文件的媒体文件特征。

8.根据权利要求1-7中任一项所述的方法，其中，所述根据所述乐谱文件进行音频渲染，得到待生成音乐进一步包括：

将所述乐谱文件输入至预先训练的音频渲染模型进行音频渲染，得到所述待生成音乐。

9.根据权利要求2-7中任一项所述的方法，其中，在根据所述乐谱文件进行音频渲染，得到所述待生成音乐之后，所述方法还包括：

在播放所述媒体文件时，播放所述待生成音乐。

10.根据权利要求1-9中任一项所述的方法，其中，所述音乐生成模型训练过程包括：

获取至少一个维度的样本特征及标注乐谱信息；

根据所述至少一个维度的样本特征及所述标注乐谱信息进行模型训练，得到音乐生成模型，其中，所述至少一个维度的样本特征包括：音乐特征。

11.根据权利要求10所述的方法，其中，所述至少一个维度的样本特征还包括：媒体文件特征。

12.根据权利要求4或7所述的方法，其中，所述媒体文件理解模型训练过程包括：

获取样本媒体文件及所述样本媒体文件对应的标注情感标签、所述样本媒体文件对应的标注BPM值；

将所述样本媒体文件输入至深度学习模型，提取所述样本媒体文件对应的媒体文件特征；

基于所述媒体文件特征及所述标注情感标签、所述标注BPM值对深度学习模型进行训练，得到媒体文件理解模型。

13.根据权利要求8所述的方法，其中，所述音频渲染模型训练过程包括：

获取样本乐谱文件及所述样本乐谱文件对应的演奏音频的标注演奏特征；

根据所述样本乐谱文件及所述标注演奏特征进行模型训练，得到音频渲染模型。

14.根据权利要求5-7或11中任一项所述的方法，其中，所述媒体文件特征包括：媒体文件色调特征、媒体文件内容特征、媒体文件转场特征。

15.根据权利要求2-7或9或12中任一项所述的方法，其中，所述乐谱信息包括：旋律信息、伴奏信息、配器信息。

16.一种音乐生成方法，包括：

监测用户触发的音乐生成操作；

响应于所述音乐生成操作，向服务端发送音乐生成请求，以供服务端根据所述音乐生成请求获取待生成音乐的音乐特征，其中，所述音乐特征包括：情感标签及BPM值；将所述音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据所述乐谱文件进行音频渲染，得到所述待生成音乐；

获取服务端响应所述音乐生成请求返回的待生成音乐。

17.根据权利要求16所述的方法，其中，所述音乐生成操作为媒体文件上传操作和/或音乐特征的标签输入操作；

所述响应于所述音乐生成操作，向服务端发送音乐生成请求进一步包括：

响应于所述音乐生成操作，向服务端发送携带有所述媒体文件和/或音乐特征的音乐生成请求。

18.一种音乐生成装置，包括：

音乐特征获取模块，适于获取待生成音乐的音乐特征，其中，所述音乐特征包括：情感标签及BPM值；

生成模块，适于将所述音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；

渲染模块，适于根据所述乐谱文件进行音频渲染，得到所述待生成音乐。

19.一种音乐生成装置，包括：

监测模块，适于监测用户触发的音乐生成操作；

发送模块，适于响应于所述音乐生成操作，向服务端发送音乐生成请求，以供服务端根据所述音乐生成请求获取待生成音乐的音乐特征，其中，所述音乐特征包括：情感标签及BPM值；将所述音乐特征输入至预先训练的音乐生成模型，生成对应的乐谱文件；根据所述乐谱文件进行音频渲染，得到所述待生成音乐；

获取模块，适于获取服务端响应所述音乐生成请求返回的待生成音乐。

20.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-15中任一项所述的音乐生成方法对应的操作或执行如权利要求16-17中任一项所述的音乐生成方法对应的操作。

21.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-15中任一项所述的音乐生成方法对应的操作或执行如权利要求16-17中任一项所述的音乐生成方法对应的操作。