CN113438547B

CN113438547B - 一种音乐生成方法、装置、电子设备及存储介质

Info

Publication number: CN113438547B
Application number: CN202110591759.1A
Authority: CN
Inventors: 杨宜坚
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-03-25
Anticipated expiration: 2041-05-28
Also published as: CN113438547A

Abstract

本公开关于一种音乐生成方法、装置、电子设备及存储介质，该方法包括：获取指示目标音源的音源信息和多个音乐关键点的信息，所述多个音乐关键点的信息表征多个目标视频片段中每个目标视频片段的转场时间，所述多个目标视频片段包括目标视频中的视频片段；根据多个音乐关键点的信息，确定多个音乐关键点中相邻两个音乐关键点之间的时间间隔；根据各时间间隔的公约数确定待生成音乐的节拍时间间隔；确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型；根据所述节拍时间间隔和目标音乐生成模型生成目标音乐。本公开能够确保每个视频片段的转场时间能在目标音乐对应的节拍点上，从而确保了目标音乐的节拍点与目标视频的高匹配性。

Description

一种音乐生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种音乐生成方法、装置、电子设备及存储介质。

背景技术

在视频的编辑过程中常常需要给视频添加配乐，相关技术中，一般是先选择合适的配乐，然后根据配乐的节拍点裁剪视频和添加转场效果以使得每段视频时间长度与配乐的节拍点对应上。但是，这种方式编辑出来的视频受配乐节拍点的限制，比如配乐两个节拍点之间的时间间隔为2秒，而视频素材的时长只有1秒，此时视频时间无法与配乐的节拍点对应上，或者视频素材中精彩画面的时长为3秒，此时只能牺牲一部分精彩画面时间来对应配乐的节拍点，影响了视频内容的完整性。可见，相关技术中配乐的节拍点与该视频的匹配性差，降低了视频的编辑效率和编辑效果。

发明内容

本公开提供一种音乐生成方法、装置、电子设备及存储介质，以至少解决相关技术中配乐的节拍点与视频的匹配性差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音乐生成方法，包括：

获取音源信息和多个音乐关键点的信息；所述音源信息指示目标音源，所述多个音乐关键点的信息表征多个目标视频片段中每个目标视频片段的转场时间，所述多个目标视频片段包括拆分目标视频中的视频片段；

根据所述多个音乐关键点的信息，确定所述多个音乐关键点中相邻两个音乐关键点之间的时间间隔；

根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔；

根据所述音源信息，确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型；所述音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，所述样本音源包括所述目标音源；

根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐。

在一示例性的实施方式中，所述根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐，包括：

将所述节拍时间间隔和所述多个音乐关键点的信息输入所述目标音乐生成模型进行音乐生成处理，得到输出的目标音乐；

其中，所述目标音乐在每个所述音乐关键点处的音量大于除所述多个音乐关键点之外的节拍点处的音量。

在一示例性的实施方式中，所述根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔，包括：

确定各所述时间间隔的公约数，得到至少一个公约数；

从所述至少一个公约数中选取目标公约数作为待生成音乐的节拍时间间隔。

在一示例性的实施方式中，在所述至少一个公约数包括多个公约数的情况下，所述从所述至少一个公约数中选取目标公约数作为待生成音乐的节拍时间间隔，包括：

针对所述多个公约数中的每个公约数，以所述公约数作为节拍时间间隔确定所述公约数对应的节拍点信息；

展示各所述公约数对应的所述节拍点信息；

响应于针对目标节拍点信息的选取指令，将所述目标节拍点信息对应的目标公约数作为待生成音乐的节拍时间间隔。

在一示例性的实施方式中，所述目标视频包括拆分视频或者组合视频；

在所述目标视频为拆分视频的情况下，所述多个目标视频片段包括拆分所述目标视频得到的视频片段；

在所述目标视频为组合视频的情况下，所述多个目标视频片段包括用于组合形成所述目标视频的视频片段。

在一示例性的实施方式中，所述方法还包括：

获取第一样本音乐数据，所述第一样本音乐数据包括对应所述样本音源的第一样本音乐；

根据所述第一样本音乐数据训练预设机器学习模型，得到初始音乐生成模型；

获取第二样本音乐数据，所述第二样本音乐数据包括样本节拍时间间隔、样本音乐关键点的信息和音量参数；所述样本节拍时间间隔、样本音乐关键点的信息和所述音量参数根据对应所述样本音源的第二样本音乐确定；所述第二样本音乐在所述样本音乐关键点处的音量大于除所述样本音乐关键点之外的节拍点处的音量；

将所述第二样本音乐数据输入所述初始音乐生成模型进行音乐生成处理，得到生成的训练音乐；

根据所述训练音乐与所述第二样本音乐之间的差异，调整所述初始音乐生成模型的模型参数直至满足预设训练结束条件，得到所述目标音乐生成模型。

根据本公开实施例的第二方面，提供一种音乐生成装置，包括：

第一获取单元，被配置为执行获取音源信息和多个音乐关键点的信息；所述音源信息指示目标音源，所述多个音乐关键点的信息表征多个目标视频片段中每个目标视频片段的转场时间，所述多个目标视频片段包括目标视频中的视频片段；

第一时间间隔确定单元，被配置为执行根据所述多个音乐关键点的信息，确定所述多个音乐关键点中相邻两个音乐关键点之间的时间间隔；

第二时间间隔确定单元，被配置为执行根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔；

模型确定单元，被配置为执行根据所述音源信息，确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型；所述音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，所述样本音源包括所述目标音源；

生成单元，被配置为执行根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐。

在一示例性的实施方式中，所述生成单元，具体被配置为执行将所述节拍时间间隔和所述多个音乐关键点的信息输入所述目标音乐生成模型进行音乐生成处理，得到输出的目标音乐；

在一示例性的实施方式中，所述第二时间间隔确定单元，包括：

公约数确定单元，被配置为执行确定各所述时间间隔的公约数，得到至少一个公约数；

选取单元，被配置为执行从所述至少一个公约数中选取目标公约数作为待生成音乐的节拍时间间隔。

在一示例性的实施方式中，在所述至少一个公约数包括多个公约数的情况下，所述选取单元，包括：

节拍点信息确定单元，被配置为执行针对所述多个公约数中的每个公约数，以所述公约数作为节拍时间间隔确定所述公约数对应的节拍点信息；

展示单元，被配置为执行展示各所述公约数对应的所述节拍点信息；

选取子单元，被配置为执行响应于针对目标节拍点信息的选取指令，将所述目标节拍点信息对应的目标公约数作为待生成音乐的节拍时间间隔。

在一示例性的实施方式中，所述装置还包括：

第二获取单元，被配置为执行获取第一样本音乐数据，所述第一样本音乐数据包括对应所述样本音源的第一样本音乐；

第一训练单元，被配置为执行根据所述第一样本音乐数据训练预设机器学习模型，得到初始音乐生成模型；

第三获取单元，被配置为执行获取第二样本音乐数据，所述第二样本音乐数据包括样本节拍时间间隔、样本音乐关键点的信息和音量参数；所述样本节拍时间间隔、样本音乐关键点的信息和所述音量参数根据对应所述样本音源的第二样本音乐确定；所述第二样本音乐在所述样本音乐关键点处的音量大于除所述样本音乐关键点之外的节拍点处的音量；

第二训练单元，被配置为执行将所述第二样本音乐数据输入所述初始音乐生成模型进行音乐生成处理，得到生成的训练音乐；

调整单元，被配置为执行根据所述训练音乐与所述第二样本音乐之间的差异，调整所述初始音乐生成模型的模型参数直至满足预设训练结束条件，得到所述目标音乐生成模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述各方面提供的音乐生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述各方面提供的音乐生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述各方面提供的音乐生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过确定多个音乐关键点中相邻两个音乐关键点之间的时间间隔，该多个音乐关键点包括多个目标视频片段中每个目标视频片段的转场时间，该多个目标视频片段包括目标视频中的视频片段，并根据各时间间隔的公约数确定待生成音乐的节拍时间间隔，进而基于与目标音源相匹配的目标音乐生成模型和上述的节拍时间间隔生成目标音乐，该目标音乐能够确保每个视频片段的转场时间一定能在其对应的节拍点上，从而确保了目标音乐的节拍点与目标视频的高匹配性，当以该目标音乐作为目标视频的配乐时，可以提高视频的编辑效率和编辑效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音乐生成方法的应用环境的示意图；

图2是根据一示例性实施例示出的一种音乐生成方法的流程图；

图3是根据一示例性实施例示出的另一种音乐生成方法的流程图；

图4是根据一示例性实施例示出的另一种音乐生成方法的流程图；

图5是根据一示例性实施例示出的另一种音乐生成方法的流程图；

图6是根据一示例性实施例示出的一种音乐生成装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其所示为根据一示例性实施例示出的一种音乐生成方法的应用环境的示意图，该应用环境可以包括终端110和服务器120，该终端110和服务器120之间可以通过有线网络或者无线网络连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以安装有提供音乐生成功能的客户端软件如应用程序(Application，简称为App)，该应用程序可以是专门提供音乐生成的应用程序，也可以是具有音乐生成功能的其他应用程序，例如具有音乐生成功能的视频编辑应用程序，可以理解的，该视频编辑应用程序也可以是具有视频编辑功能的应用程序，如短视频应用程序、直播应用程序等等。终端110的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器120可以是为终端110中的应用程序提供后台服务的服务器，也可以是与应用程序的后台服务器连接通信的其它服务器，可以是一台服务器，也可以是由多台服务器组成的服务器集群。

具体的，服务器120中配置有音乐生成模型库，该音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，该音乐生成模型可以用于生成卡点音乐，其中卡点音乐是指节拍点与目标视频的转场时间点相匹配的音乐，该目标视频以该卡点音乐为配乐。终端110在需要进行卡点音乐生成时，可以将相应数据发送给服务器120，由服务器120结合音乐生成模型库中的音乐生成模型生成目标卡点音乐，并将该目标卡点音乐返回给终端110。

可以理解的，终端110也可以从服务器120下载音乐生成模型库，并在本地存储，当需要进行卡点音乐生成操作时，终端110可以直接利用本地存储的音乐生成模型实施卡点音乐的生成。

其中，音源即音色资源，总共分为两大类，第一类是硬体音源，呈现方式以电子乐器最为常见，如钢琴、吉他、手风琴等等，内部硬体拥有庞大的声库支持；第二类群是软体音源，此类音源要在电脑上的MIDI介面运行，需要有宿主软体的支持，常见格式为VST，由宿主载入使用。

由此可见，本公开实施例的音乐生成方法可以由电子设备来执行，该电子设备可以是终端或者服务器，可以由终端或者服务器单独执行，也可以是终端和服务器相互配合执行。

图2是根据一示例性实施例示出的一种音乐生成方法的流程图，如图2所示，以音乐生成方法应用于电子设备为例，包括以下步骤。

在步骤S201中，获取音源信息和多个音乐关键点的信息。

其中，所述音源信息指示目标音源；所述多个音乐关键点的信息表征多个目标视频片段中每个目标视频片段的转场时间，所述多个目标视频片段包括目标视频中的视频片段。

在一个示例性的实施方式中，目标音源可以基于用户对音源表中音源的选取操作确定，示例性的，该音源表可以是包括多种乐器的乐器表，例如可以包括钢琴、小提琴、吉他、手风琴等等，当用户从音源表中选取了某个音源后就可以获取到指示目标音源的音源信息。例如，若用户选取了乐器表中的钢琴，则可以确定目标音源为钢琴，若用户选取了乐器表中吉他，则可以确定目标音源为吉他。

本公开实施例中，目标视频包括拆分视频或者组合视频，其中，拆分视频是指可以拆分为多个视频片段的视频，组合视频是指由多个视频片段组合而成的视频。在目标视频为拆分视频的情况下，所述多个目标视频片段可以包括拆分所述目标视频得到的视频片段；在目标视频为组合视频的情况下，所述多个目标视频片段可以包括用于组合形成所述目标视频的视频片段。

转场时间是指视频片段与视频片段之间转换的时间点，实际应用中，该转场时间可以是每个目标视频片段结束时的时间戳。

以目标视频是拆分视频为例，在一个具体的实施方式中，可以将目标视频拆分为多个目标视频片段，并记录每个目标视频片段的转场时间。例如，一个时长3秒的视频，将其拆分为3个时长为1秒的视频片段，则第一个视频片段的转场时间点为时间戳1秒处，第二个视频片段的转场时间点为时间戳2秒处，第三个视频片段的转场时间点为时间戳3秒处。通过记录每个目标视频片段的转场时间可以得到多个转场时间，进而得到多个音乐关键点的信息，也即可以将上述的多个转场时间作为本公开实施例中的多个音乐关键点的信息。

本公开实施例中的多个目标视频片段可以是拆分视频中的视频片段，也可以是组合视频中的视频片段，从而使得最终生成的音乐可以与拆分视频或者组合视频达到高匹配性，提高了生成音乐的灵活性。

在步骤S203中，根据所述多个音乐关键点的信息，确定所述多个音乐关键点中相邻两个音乐关键点之间的时间间隔。

具体的实施中，相邻两个音乐关键点之间的时间间隔可以是这两个音乐关键点对应的转场时间之间的差值。

在步骤S205中，根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔。

举例而言，假设有三个音乐关键点，相邻两个音乐关键点之间的时间间隔分别为3.2秒和4.8秒，而3.2和4.8的公约数为{0.1,0.2,0.4,0.8,1.6}，则在本公开实施例中可以根据{0.1,0.2,0.4,0.8,1.6}来确定待生成音乐的节拍时间间隔。具体的，待生成音乐的节拍时间间隔可以是各时间间隔的公约数中的任意一个公约数。

本公开实施例通过根据各相邻两个音乐关键点之间的时间间隔来确定待生成音乐的节拍时间间隔，可以确保每个视频片段的转场时间一定能在待生成音乐对应的节拍点上。例如多个转场时间为1秒、2秒、3秒，则相邻两个音乐关键点之间的时间间隔分别为1秒和1秒，则公约数为{0.1,0.2,0.5,1}，假设待生成音乐的节拍时间间隔为0.5秒，那么，待生成音乐的节拍点为0秒->0.5秒->1.0秒->1.5秒->2.0秒->2.5秒->3.0秒，显然，上述三个转场时间落在了待生成音乐的节拍点上。

基于此，在一个示例性的实施方式中，在根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔时，可以确定各时间间隔的公约数以得到至少一个公约数，然后从该至少一个公约数中选取目标公约数作为待生成音乐的节拍时间间隔，该目标公约数可以是上述至少一个公约数中的任意一个公约数，以此提高音乐生成的灵活性。

考虑到节拍的快慢影响了整首音乐节奏的快慢，为了提高音乐生成的灵活性以满足用户对音乐节奏的多种需求，在一个示例性的实施方式中，在所述至少一个公约数包括多个公约数的情况下，所述从所述至少一个公约数中选取目标公约数作为待生成音乐的节拍时间间隔可以包括：

展示各所述公约数对应的所述节拍点信息；

具体的，每个公约数对应的节拍点信息可以是标识了节拍点位置的波形图，通过终端将各公约数对应的节拍点信息展示给终端的用户，该终端的用户可以根据自身对音乐节奏的需求从展示的多个节拍点信息中选取一个目标节拍点信息，该被选取的目标节拍点信息对应的公约数即为目标公约数，从而提高了音乐生成的灵活性，可以满足用户对音乐节奏的多种需求。

在步骤S207中，根据所述音源信息，确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型。

其中，所述音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，所述样本音源包括所述目标音源。实际应用中，样本音源可以包括但不限于钢琴、小提琴、吉他、手风琴等等。

在步骤S209中，根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐。

在一示例性的实施方式中，可以将节拍时间间隔输入到目标音乐生成模型进行音乐生成处理，得到输出的目标音乐。针对该示例中，在训练音乐生成模型库中的音乐生成模型时，可以先获取某一样本音源的样本音乐如钢琴曲，并利用该样本音乐训练预设机器学习模型得到初始音乐生成模型，再利用上述样本音乐对应的节拍时间间隔作为初始音乐生成模型的输入训练该初始音乐生成模型直至满足预设训练结束条件，从而得到与上述某一样本音源相匹配的音乐生成模型，其中预设训练结束条件可以是初始音乐生成模型生成的结果与样本音乐之间的差异达到最小，或者训练迭代次数达到预设次数阈值如100次等；预设机器学习模型可以是卷积神经网络模型等。

本公开实施例由于多个音乐关键点的信息包括多个目标视频片段中每个目标视频片段的转场时间，且待生成音乐的节拍时间间隔是基于各相邻两个转场时间之间的时间间隔的公约数确定的，那么基于与目标音源相匹配的目标音乐生成模型和上述的节拍时间间隔生成的目标音乐的节拍点中一定能存在与每个目标视频片段的转场时间相对应的节拍点，从而使得生成的目标音乐与目标视频高度匹配，当以该目标音乐作为目标视频的配乐时，可以提高视频的编辑效率和编辑效果。

在一示例性的实施方式中，为了使得生成的目标音乐在转场时间处具有更强的节奏感，以提高对于目标音乐生成的灵活性，如图3提供的另一种音乐生成方法的流程图所示，上述步骤S209在根据所述节拍时间间隔和所述目标音乐生成模型生成目标音乐时可以具体包括：将所述节拍时间间隔和所述多个音乐关键点的信息输入所述目标音乐生成模型进行音乐生成处理，得到输出的目标音乐；其中，所述目标音乐在每个所述音乐关键点处的音量大于除所述多个音乐关键点之外的节拍点处的音量。

针对图3的示例，本公开实施例的音乐生成方法还可以包括训练音乐生成模型库中音乐生成模型的步骤，具体的该步骤可以包括：

获取第一样本音乐数据，该第一样本音乐数据包括对应样本音源的第一样本音乐，例如样本音源可以是钢琴，则第一样本音乐为钢琴曲。

根据第一样本音乐数据训练预设机器学习模型，得到初始音乐生成模型。其中，预设机器学习模型可以是卷积神经网络模型，具体的，可以将第一样本音乐输入该预设机器学习模型得到输出的训练结果，计算该训练结果与第一样本音乐之间的差异，并根据该差异反向调整预设机器学习模型的模型参数，直至训练结果与第一样本音乐之间的差异达到最小或者训练迭代次数达到预设迭代次数。

获取第二样本音乐数据，该第二样本音乐数据包括样本节拍时间间隔、样本音乐关键点的信息和音量参数；其中，所述样本节拍时间间隔、样本音乐关键点的信息和所述音量参数根据对应所述样本音源的第二样本音乐确定，且所述第二样本音乐在所述样本音乐关键点处的音量大于除所述样本音乐关键点之外的节拍点处的音量。具体的，针对对应样本音源的第二样本音乐，提取该第二样本音乐的节拍点，并获取相邻节拍点间的时间间隔得到样本节拍时间间隔，其中，第二样本音乐的节拍点中包括样本音乐关键点，该样本音乐关键点为第二样本音乐节拍点中音量大于其它节拍点的节拍点。

将所述第二样本音乐数据输入所述初始音乐生成模型进行音乐生成处理，得到生成的训练音乐。

根据所述训练音乐与所述第二样本音乐之间的差异，调整所述初始音乐生成模型的模型参数直至满足预设训练结束条件，得到所述目标音乐生成模型。具体的，预设训练结束条件可以是训练音乐与所述第二样本音乐之间的差异达到最小值或者训练迭代次数达到预设迭代次数。

本公开实施例通过上述步骤训练得到的音乐生成模型可以基于输入的节拍时间间隔和多个音乐关键点的信息进行音乐生成处理得到输出的目标音乐，且该目标音乐在每个音乐关键点处的音量大于除多个音乐关键点之外的节拍点处的音量，确保了生成的音乐在视频片段的转场时间点处具有更强的节奏感。

在一示例性的实施方式中，电子设备在根据节拍时间间隔和目标音乐生成模型生成目标音乐之后，该方法还可以包括：响应于新视频的导出指令，将所述目标音乐添加到目标视频的音频轨道中，得到编辑视频。该编辑视频中的每个转场时间都能对应到目标音乐的节拍点，提高了编辑视频制作效率以及播放效果。

下面以目标视频是拆分视频为例，从终端和服务器交互的角度介绍本公开实施例的音乐生成方法。

请参阅图4，其所示为本公开实施例提供的另一种音乐生成方法的流程图，如图4所示，该方法可以包括：

在步骤S401中，终端获取目标视频。具体的，该目标视频可以是用户从视频库存储视频中选取的视频，也可以是用户当前拍摄的视频。

在步骤S402中，终端响应于针对所述目标视频的拆分操作，将所述目标视频拆分为多个目标视频片段。具体的，用户可以根据实际需要对目标视频进行剪辑，终端可以响应于用户对目标视频的剪辑，将目标视频拆分为多个目标视频片段。

在步骤S403中，终端记录所述多个目标视频片段中每个目标视频片段的转场时间，得到多个音乐关键点的信息。

在步骤S404中，终端响应于针对音源表中音源的选择操作，确定指示目标音源的音源信息。

在步骤S405中，终端将所述音源信息和所述多个音乐关键点的信息发送给服务器。

在步骤S406中，服务器获取所述音源信息和所述多个音乐关键点的信息。

在步骤S407中，服务器根据所述多个音乐关键点的信息，确定所述多个音乐关键点中相邻两个音乐关键点之间的时间间隔。

在步骤S408中，服务器根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔。

示例性的，服务器可以确定各时间间隔的公约数，在该公约数为多个时，可以针对每个公约数，以该公约数作为节拍时间间隔确定该公约数对应的节拍点信息，并将各公约数对应的节拍点信息发送给终端，由终端将该多个节拍点信息展示给用户，从而用户可以根据自身对于节奏的需求从多个节拍点信息中选取一个目标节拍点信息，终端可以响应于对于目标节拍点信息的选取操作，将被选取的目标节拍点信息发送给服务器，从而服务器将该被选取的目标节拍点信息对应的目标公约数确定为待生成音乐的节拍时间间隔。例如，公约数为{0.1,0.2,0.5,1}，若用户选取了0.5秒对应的节拍点信息，则将该0.5秒确定为待生成音乐的节拍时间间隔。

在步骤S409中，服务器根据音源信息，确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型；根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐。

其中，所述音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，所述样本音源包括所述目标音源。

在一示例性的实施方式中，如图5所示，该方法还可以包括：

在步骤S410中，服务器将所述目标音乐发送给所述终端。

在步骤S411中，终端响应于新视频的导出指令，将所述目标音乐添加到目标视频的音频轨道中，得到编辑视频。

需要说明的是，上述图4和图5所示方法实施例中各步骤的具体内容可以参见前述图2和图3的相关内容，在此不再赘述。

本公开实施例生成的目标音乐能够确保每个视频片段的转场时间一定能在该目标音乐对应的节拍点上，从而确保了目标音乐的节拍点与目标视频的高匹配性，进而提高编辑视频的编辑效率和播放效果。

图6是根据一示例性实施例示出的一种音乐生成装置框图。参照图6，该音乐生成装置600包括第一获取单元610，第一时间间隔确定单元620，第二时间间隔确定单元630，模型确定单元640和生成单元650。

该第一获取单元610，被配置为执行获取音源信息和多个音乐关键点的信息；所述音源信息指示目标音源，所述多个音乐关键点的信息表征多个目标视频片段中每个目标视频片段的转场时间，所述多个目标视频片段包括目标视频中的视频片段；

该第一时间间隔确定单元620，被配置为执行根据所述多个音乐关键点的信息，确定所述多个音乐关键点中相邻两个音乐关键点之间的时间间隔；

该第二时间间隔确定单元630，被配置为执行根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔；

该模型确定单元640，被配置为执行根据所述音源信息，确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型；所述音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，所述样本音源包括所述目标音源；

该生成单元650，被配置为执行根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐。

在一示例性的实施方式中，所述生成单元650，具体被配置为执行

在一示例性的实施方式中，所述第二时间间隔确定单元630，包括：

在一示例性的实施方式中，所述装置还包括：

本公开实施例还提供了一种音乐生成系统，该音乐生成系统包括终端和服务器，其中，

所述终端，被配置为执行获取目标视频，响应于针对所述目标视频的拆分操作，将所述目标视频拆分为多个目标视频片段；记录所述多个目标视频片段中每个目标视频片段的转场时间，得到多个音乐关键点的信息；响应于针对音源表中音源的选择操作，确定指示目标音源的音源信息；将所述音源信息和所述多个音乐关键点的信息发送给服务器；

所述服务器，被配置为执行获取所述音源信息和所述多个音乐关键点的信息；确定所述多个音乐关键点中相邻两个音乐关键点之间的时间间隔；根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔；确定音乐生成模型库中与所述目标音源相匹配的目标音乐生成模型；根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐；其中，所述音乐生成模型库包括预先训练的与样本音源相对应的音乐生成模型，所述样本音源包括所述目标音源。

在一示例性的实施方式中，所述服务器还被配置为执行将所述目标音乐发送给所述终端；

所述终端还被配置为执行响应于新视频的导出指令，将所述目标音乐添加到目标视频的音频轨道中，得到编辑视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一示例性的实施方式中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现本公开实施例中提供的任意一种音乐生成方法。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图7是根据一示例性实施例示出的一种用于生成音乐的电子设备的框图，如图7所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作系统721，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，输入输出接口740包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在一示例性的实施方式中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器730，上述指令可由装置700的处理器710执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性的实施方式中，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本公开实施例中提供的任意一种音乐生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音乐生成方法，其特征在于，包括：

获取音源信息和多个音乐关键点的信息；所述音源信息指示目标音源，所述多个音乐关键点的信息表征多个目标视频片段中每个目标视频片段的转场时间，所述多个目标视频片段包括目标视频中的视频片段；

2.根据权利要求1所述的音乐生成方法，其特征在于，所述根据所述节拍时间间隔和所述目标音乐生成模型，生成目标音乐，包括：

3.根据权利要求1所述的音乐生成方法，其特征在于，所述根据各所述时间间隔的公约数，确定待生成音乐的节拍时间间隔，包括：

确定各所述时间间隔的公约数，得到至少一个公约数；

4.根据权利要求3所述的音乐生成方法，其特征在于，在所述至少一个公约数包括多个公约数的情况下，所述从所述至少一个公约数中选取目标公约数作为待生成音乐的节拍时间间隔，包括：

展示各所述公约数对应的所述节拍点信息；

5.根据权利要求1所述的音乐生成方法，其特征在于，所述目标视频包括拆分视频或者组合视频；

6.根据权利要求2所述的音乐生成方法，其特征在于，所述方法还包括：

7.一种音乐生成装置，其特征在于，包括：

8.根据权利要求7所述的音乐生成装置，其特征在于，所述生成单元，具体被配置为执行将所述节拍时间间隔和所述多个音乐关键点的信息输入所述目标音乐生成模型进行音乐生成处理，得到输出的目标音乐；

9.根据权利要求7所述的音乐生成装置，其特征在于，所述第二时间间隔确定单元，包括：

10.根据权利要求9所述的音乐生成装置，其特征在于，在所述至少一个公约数包括多个公约数的情况下，所述选取单元，包括：

11.根据权利要求7所述的音乐生成装置，其特征在于，所述目标视频包括拆分视频或者组合视频；

12.根据权利要求8所述的音乐生成装置，其特征在于，所述装置还包括：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的音乐生成方法。

14.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的音乐生成方法。