CN113488010A

CN113488010A - 一种音乐数据的生成方法、装置、设备以及存储介质

Info

Publication number: CN113488010A
Application number: CN202110711918.7A
Authority: CN
Inventors: 王振宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-08
Anticipated expiration: 2041-06-25
Also published as: CN113488010B

Abstract

本公开关于一种音乐数据的生成方法、装置、设备以及存储介质，涉及人工智能领域。本公开实施例至少解决相关技术中，生成说唱音乐的技术门槛较高，以及生成的说唱音乐效果不佳的问题。该方法包括：获取原始视频数据，以及预设的资源模板；资源模板包括每个伴奏片段的字符串数量、第一时长以及重音级别；根据原始视频数据的资源特征，以及每个伴奏片段的字符串数量，生成歌词，并基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据；语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串；合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据。

Description

一种音乐数据的生成方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能领域，尤其涉及一种音乐数据的生成方法、装置、设备以及存储介质。

背景技术

说唱音乐利用大量押韵技巧并加上动感的音乐节拍，往往更能够给人比较震撼的感受。相关技术中，通常将人工智能(Artificial Intelligence，AI)技术、语音合成技术应用于说唱音乐的创作。具体的，说唱音乐的创作模块用于根据用户输入的说唱歌词，为说唱歌词匹配合适的背景音乐；进一步的，该创作模块还将说唱歌词变换为语音谱，并将变换得到语音谱贴合到该背景音乐中，以生成说唱音乐。

但是在上述说唱音乐的创作过程中，需要用户创作说唱歌词并输入到创作模块中，就需要用户具备一定的说唱基础，对于不具备说唱基础的用户，仍然无法使用该创作模块。同时，由于上述创作模块在生成说唱音乐的过程中，直接将说唱歌词的语音谱贴合到背景音乐中，并不能很好的将歌词与背景音乐的节奏进行贴合，生成的说唱音乐较为机械，无法满足用户的需求。

发明内容

本公开提供一种音乐数据的生成方法、装置、设备以及存储介质，以至少解决相关技术中，生成说唱音乐的技术门槛较高，以及生成的说唱音乐效果不佳的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音乐数据的生成方法，包括：获取原始视频数据，以及预设的资源模板；资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别；第一时长为字符串在伴奏数据中占用的帧数，重音级别为字符串在伴奏数据中的重音级别；根据原始视频数据的资源特征，以及伴奏数据中每个伴奏片段的字符串数量，生成与原始视频的资源特征对应的歌词；歌词中的歌词片段与伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等；基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据；语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串；合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据。

可选的，上述“基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据”，包括：确定歌词中每个字符串所包括的音素以及每个音素的音调；确定每个音素在伴奏数据中的第二时长，以及每个音素的第一能量值；每个字符串中所有音素的第二时长之和为每个字符串的第一时长；每个音素的第一能量值为每个音素在伴奏数据中的能量值，且每个音素的第一能量值与每个音素所在的字符串的重音级别正相关；

根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征，生成语音数据。

可选的，上述“确定每个音素在伴奏数据中的第二时长，以及每个音素的第一能量值”，包括：对于第一字符串，确定第一字符串中音素的第三时长，以及第一字符串中音素的第二能量值；第一字符串为歌词中任意的一个字符串；每个音素的第三时长为每个音素在歌词的字符串中占用的帧数；每个音素的第二能量值为每个音素在歌词的字符串中的能量值；根据第一字符串中音素的第三时长，以及第一字符串的第一时长，确定第一字符串中音素的第二时长；基于第一字符串中音素的第二能量值，以及第一字符串的重音级别，确定第一字符串中音素的第一能量值。

可选的，上述“根据第一字符串中音素的第三时长，以及第一字符串的第一时长，确定第一字符串中音素的第二时长”，包括：确定第一字符串中音素的第三时长之和，与第一字符串的第一时长的比值，为第一字符串的调整比例；基于调整比例，分别调整第一字符串中音素的第三时长，以得到第一字符串中音素的第二时长。

可选的，上述“根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征，生成语音数据”，包括：对于第一音素，根据第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征，生成与第一音素对应的帧特征组；第一音素为歌词中的任意一个音素；每个音素对应的帧特征组包括多个帧特征，且多个帧特征的数量对应于每个音素的第二时长；每个音素对应的每个帧特征均包括每个音素、每个音素的音调、每个音素的第一能量值以及音色特征；合并歌词中所有音素分别对应的帧特征组，以得到歌词对应的语音谱参数，并将语音谱参数转换为语音数据。

可选的，上述“根据第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征，生成与第一音素对应的帧特征组”，包括：确定第一音素的第二时长占用的帧数，为第一音素对应的多个帧特征的数量；基于第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及音色特征，生成第一音素对应的多个帧特征；第一音素对应的多个帧特征中，每个帧特征均包括一个位置索引；位置索引用于标识帧特征在帧特征组中的位置；合并第一音素对应的多个帧特征，以得到第一音素对应的帧特征组。

可选的，在上述“合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据”之后，上述方法还包括：合并音乐数据以及原始视频数据，以生成原始视频数据对应的目标视频数据。

根据本公开实施例的第二方面，提供一种音乐数据的生成装置，包括获取单元、生成单元以及合并单元；获取单元，用于获取原始视频数据，以及预设的资源模板；资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别；第一时长为字符串在伴奏数据中占用的帧数，重音级别为字符串在伴奏数据中的重音级别；生成单元，用于根据原始视频数据的资源特征，以及伴奏数据中每个伴奏片段的字符串数量，生成与原始视频的资源特征对应的歌词；歌词中的歌词片段与伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等；生成单元，还用于基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据；语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串；合并单元，用于合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据。

可选的，上述生成单元，具体还用于：确定歌词中每个字符串所包括的音素以及每个音素的音调；确定每个音素在伴奏数据中的第二时长，以及每个音素的第一能量值；一个字符串中所有音素的第二时长之和为一个字符串的第一时长；一个音素的第一能量值为一个音素在伴奏数据中的能量值，且一个音素的第一能量值与一个音素所在的字符串的重音级别正相关；根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征，生成语音数据。

可选的，上述生成单元，具体还用于：对于第一字符串，确定第一字符串中音素的第三时长，以及第一字符串中音素的第二能量值；第一字符串为歌词中任意的一个字符串；一个音素的第三时长为一个音素在歌词的字符串中占用的帧数；一个音素的第二能量值为一个音素在歌词的字符串中的能量值；根据第一字符串中音素的第三时长，以及第一字符串的第一时长，确定第一字符串中音素的第二时长；基于第一字符串中音素的第二能量值，以及第一字符串的重音级别，确定第一字符串中音素的第一能量值。

可选的，上述生成单元，具体还用于：确定第一字符串中音素的第三时长之和，与第一字符串的第一时长的比值，为第一字符串的调整比例；基于调整比例，分别调整第一字符串中音素的第三时长，以得到第一字符串中音素的第二时长。

可选的，上述生成单元，具体用于：对于第一音素，根据第一音素、第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征，生成与第一音素对应的帧特征组；第一音素为歌词中的任意一个音素；一个音素对应的帧特征组包括多个帧特征，且多个帧特征的数量对应于一个音素的第二时长；一个音素对应的每个帧特征均均包括一个音素、一个音素的音调、一个音素的第一能量值以及音色特征；合并歌词中所有音素分别对应的帧特征组，以得到歌词对应的语音谱参数，并将语音谱参数转换为语音数据。

可选的，上述生成单元具体还用于：确定第一音素的第二时长占用的帧数，为第一音素对应的多个帧特征的数量；基于第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及音色特征，生成第一音素对应的多个帧特征；第一音素对应的多个帧特征中，每个帧特征均包括一个位置索引；位置索引用于标识帧特征在帧特征组中的位置；合并第一音素对应的多个帧特征，以得到第一音素对应的帧特征组。

可选的，上述合并单元，还用于在合并生成音乐数据之后，合并音乐数据以及原始视频数据，以生成原始视频数据对应的目标视频数据。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器、用于存储处理器可执行的指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所提供的音乐数据的生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面及其任一种可能的设计方式所提供的音乐数据的生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得该电子设备执行如第一方面及其任一种可能的设计方式所提供的音乐数据的生成方法。

本公开提供的技术方案至少带来以下有益效果：通过获取原始视频数据以及预设的资源模板，可以为用户匹配与原始视频数据的资源特征对应的歌词。同时，由于获取到的资源模板中包括字符段在伴奏数据中的第一时长及重音级别，因此，生成的语音数据中的说唱人声中的每个字符段都符合伴奏数据所要求的第一时长以及重音级别，且具有预设的音色特征。进一步的，可以将语音数据与伴奏数据合并为音乐数据。因此，通过上述技术手段，能够使用户无感知的输入视频数据即可，无需用户具备相应的音乐基础，在降低说唱歌曲创作的门槛的同时，还能使得生成得到语音数据满足伴奏数据的旋律、鼓点节奏，还满足预设的音色特征。同时，由于生成的音乐数据中包括上述语音数据以及伴奏数据，能够较好的满足用户的需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多多媒体系统的结构示意图；

图2是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之一；

图3是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之二；

图4是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之三；

图5是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之四；

图6是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之五；

图7是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之六；

图8是根据一示例性实施例示出的一种音乐数据的生成方法的流程示意图之七；

图9是根据一示例性实施例示出的一种音乐数据的生成装置的结构示意图；

图10是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

本公开实施例提供的音乐数据的生成方法可以适用于多媒体系统。图1示出了该多媒体系统的一种结构示意图。如图1所示，多媒体系统10用于解决相关技术中，生成说唱音乐的门槛高、且生成的说唱音乐效果不佳的问题。多媒体系统10包括音乐系统的生成装置(为便于描述，后续简称为生成装置)11以及电子设备12。生成装置11与电子设备12连接。生成装置11与电子设备12之间可以采用有线方式连接，也可以采用无线方式连接，本公开实施例对此不作限定。

需要说明的，本公开实施例涉及的多媒体系统可以应用于多个场景。例如，在第一场景下，生成装置11可以为用户设备，电子设备12可以为服务器。在第二场景下，生成装置11可以为具有相应功能的单元或者模块，电子设备23可以为用户设备。本公开实施例的以下描述中，以第二场景为例，对本公开涉及的多媒体系统以及音乐数据的生成方法进行描述。

生成装置11可以用于与电子设备12进行数据交互，例如，生成装置11可以用于接收电子设备发送的视频数据，并向电子设备发送生成的音乐数据。

生成装置11还可以执行本公开实施例中的音乐数据的生成方法，例如，用于对接收到的视频数据进行相应的处理，以得到语音数据与伴奏数据旋律、鼓点相对应的音乐数据。

电子设备12拍摄、采集视频数据或者接受其他类似设备发送的视频数据。

示例性的，电子设备12包括有拍摄模块以及通信模块。拍摄模块用于拍摄采集视频数据。通信模块用于与生成装置11进行数据交互。

需要说明的，在上述第二场景中，生成装置11和电子设备12可以为相互独立的设备，也可以集成于同一设备中，本公开对此不作具体限定。

当生成装置11和电子设备12集成于同一设备时，生成装置11和电子设备12之间的通信方式为该设备内部模块之间的通信。这种情况下，二者之间的通信流程与“生成装置11和电子设备12之间相互独立的情况下，二者之间的通信流程”相同。

在本公开提供的以下实施例中，本公开以生成装置11和电子设备12相互独立设置为例进行说明。

在实际应用中，本公开实施例提供的音乐数据的生成方法可以应用于生成装置，也可以应用于电子设备，下面结合附图，以音乐数据的生成方法应用于生成装置为例，对本公开实施例提供的音乐数据的生成方法进行描述。

如图2所示，本公开实施例提供的音乐数据的生成方法包括下述S201-S204。

S201、生成装置获取原始视频数据，以及预设的资源模板。

其中，资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别。第一时长为字符串在伴奏数据中占用的帧数，重音级别为字符串在伴奏数据中的重音级别。

作为一种可能的实现方式，生成装置可以接收电子设备或者其他类似设备发送的原始视频数据。

作为另一种可能的实现方式，生成装置本身具备采集或者拍摄功能，可以通过采集获取原始视频数据。

需要说明的，原始视频数据可以由用户上传至生成装置中。原始视频数据中可以包括人声信号，也可以不包括人声信号。

需要说明的，资源模板可以预先存储在生成装置的存储器中。预设的伴奏数据可以为用户指定或选择的伴奏数据。字符串的重音级别可以分为0-n级，其中，第0级表示字符串不需要重音，随着重音级别的增加，字符串的重音越重。资源模板中还可以包括背景音乐，伴奏数据可以为背景音乐中的片段或者部分。伴奏数据包括多个伴奏片段，每个伴奏片段可以包括至少一个节拍。在每个伴奏片段中，预设有该伴奏片段内每个字符串的第一时长，以及该伴奏片段内每个字符串的重音级别。

本公开实施例涉及到的字符串，具体可以为后续获取到的歌词中的文字。例如，在歌词中包括中文时，字符串可以为任意一个汉字或词语。在歌词中包括英文单词时，字符串可以为任意一个英文单词。

每个伴奏片段的字符串数量为每个伴奏片段中预先设置好的可容纳字符串的数量。

本公开实施例示出了涉及资源模板的一种示例，例如，资源模板可以为[aaa,bbb,ccc,ddd,eee，fff，……]，其中，aaa为伴奏数据所在的背景音乐的标识，bbb为伴奏数据在背景音乐中的起始时间，ccc为第一个字符串，ddd为第一个字符串的第一时长，eee为第一个字符串的重音级别，fff为歌词中的第二个字符串，以此类推。

S202、生成装置根据原始视频数据的资源特征，以及伴奏数据中每个伴奏片段的字符串数量，生成与原始视频的资源特征对应的歌词。

其中，歌词中的歌词片段与伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等。

作为一种可能的实现方式，生成装置对原始视频数据进行抽帧、OCR处理，以确定原始视频数据的资源特征。

需要说明的，原始视频数据的资源特征可以用于反映原始视频数据中的内容、场景、主题等信息。

进一步的，生成装置将确定到的资源特征以及每个伴奏片段的字符串数量输入到

预设的第一神经网络中，以得到与资源特征对应的歌词。

需要说明的，第一神经网络为有监督训练模型。在其训练过程中，训练样本的学生集为预设的视频数据的资源特征以及不同伴奏片段的字符串数量，训练样本的教师集为与预设的视频数据的资源特征对应的预设的歌词。

在一种情况下，为了保证经过第一神经网络确定的歌词为押韵的，训练样本中的歌词也具有相应的押韵效果。

示例性的，第一神经网络可以为GPT-3模型。

S203、生成装置基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据。

其中，语音数据用于按照对应的第一时长及对应的重音级别播放歌词中的每个字符串。

作为一种可能的实现方式，生成装置对歌词进行相应的处理，以得到歌词中每个字符串所包括的音素以及每个音素的音调。

需要说明的，每个字符串都包括至少一个音素。

进一步的，生成装置预测每个字符串中每个音素在字符串中的时长，以及每个音素在字符串中的能量值。其中，一个音素的能量值，用于反映该音素的语音特征。

更进一步，生成装置根据资源模板中的第一时长对每个音素在字符串的时长进行调整，以得到音素在伴奏数据中的时长。同时，生成装置还根据资源模板中每个字符串的重音级别对字符串中的音素的能量值进行调整，以得到每个音素在伴奏数据中的能量值。

最终，生成装置根据确定到每个音素在伴奏数据中的时长，以及每个音素在伴奏数据中的能量值，以及音色特征，生成语音数据。

需要说明的，预设的音色特征可以为生成装置中预设的，也可以是由用户在生成装置中选择确定的。与

此步骤的具体实施方式，可以参照本公开的后续描述，此处不再进行赘述。

S204、生成装置合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据。

作为一种可能的实现方式，生成装置基于资源模板中的伴奏数据在背景音乐中的起始时间以及背景音乐的标识，获取伴奏数据，并基于预设的数据合成算法，对语音数据以及伴奏数据进行合并，以得到与原始视频数据对应的音乐数据。

此步骤中对语音数据以及伴奏数据进行合并的具体实施方式，可以参照现有技术中的描述，此处不再进行赘述。

上述实施例提供的技术方案至少具有以下有益效果：通过获取原始视频数据以及预设的资源模板，可以为用户匹配与原始视频数据的资源特征对应的歌词。同时，由于获取到的资源模板中包括字符段在伴奏数据中的第一时长及重音级别，因此，生成的语音数据中的说唱人声中的每个字符段都符合伴奏数据所要求的第一时长以及重音级别，且具有预设的音色特征。进一步的，可以将语音数据与伴奏数据合并为音乐数据。因此，通过上述技术手段，能够使用户无感知的输入视频数据即可，无需用户具备相应的音乐基础，在降低说唱歌曲创作的门槛的同时，还能使得生成得到语音数据满足伴奏数据的旋律、鼓点节奏，还满足预设的音色特征。同时，由于生成的音乐数据中包括上述语音数据以及伴奏数据，能够较好的满足用户的需求。

在一种设计中，为了能够生成语音数据，如图3所示，本公开实施例提供的S203，具体包括下述S301-S303。

S301、生成装置确定歌词中每个字符串所包括的音素以及每个音素的音调。

作为一种可能的实现方式，生成装置可以根据预设的功能模块，将歌词进行分解，以得到歌词中每个字符串包括的音素以及每个音素的音调。

示例性的，上述预设的功能模块，具体可以为TN(token normlije)模块，以及注音模块。

其中TN模块用于确定歌词中字符串的发音(例如多音字、数字的口语等)，进而根据发音确定音素。注音模块用于为确定到的因素匹配音调。

此步骤中的关于TN模块以及注音模块的具体实施方式，可以参照现有技术中的描述，此处不再进行赘述。

S302、生成装置确定每个音素在伴奏数据中的第二时长，以及每个音素的第一能量值。

其中，一个字符串中所有音素的第二时长之和为一个字符串的第一时长。一个音素的第一能量值为一个音素在伴奏数据中的能量值，一个音素的第一能量值用于表示一个音素在伴奏数据中的语音特征，且一个音素的第一能量值与一个音素所在的字符串的重音级别正相关。

作为一种可能的实现方式，生成装置根据歌词中的所有音素，所有音素的音调，以及预设的第二神经网络，确定歌词中所有音素在歌词的字符串中的时长，以及所有音素在歌词的字符串中的能量值。

进一步的，生成装置根据每个音素在歌词的字符串中的时长，以及该字符串的第一时长，确定该字符串中每个音素在伴奏数据中的第一时长。

同时，生成装置还根据每个音素在歌词的字符串中的能量值，以及该字符串在伴奏数据中的重音级别，确定该字符串中每个音素的第一能量值。

此步骤的具体实施方式，可以参照本公开实施例的后续描述，此处不再进行赘述。

S303、生成装置根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征，生成语音数据。

作为一种可能的实现方式，生成装置根据预设的第三神经网络、歌词中的音素、歌词中的音素的第三时长、歌词中的音素的音调、歌词中的音素的第二能量值以及音色特征，生成与歌词对应的语音谱参数，并将语音普参数转换为采样点级别的语音数据。

此步骤的具体实现方式，可以参照本公开实施例的后续描述，此处不再进行赘述。

上述实施例提供的技术方案至少具有以下有益效果：将歌词中的字符串分解为发音的最小粒度音素，进一步通过为歌词中的每个音素配置相应的第二时长，以及第一能量值，能够使得生成的语音数据能够更加的贴合伴奏数据的旋律以及鼓点。

在一种设计中，为了能够确定歌词中每个音素在伴奏数据中的第二时长，以及每个音素的第一能量值，如图4所示，本公开实施例提供的S302，具体可以包括下述S3021-S3023。

S3021、对于第一字符串，生成装置确定第一字符串中音素的第三时长，以及第一字符串中音素的第二能量值。

其中，第一字符串为歌词中任意的一个字符串。一个音素的第三时长为一个音素在歌词的字符串中占用的帧数。一个音素的第二能量值为一个音素在歌词的字符串中的能量值。作为一种可能的实现方式，生成装置可以将歌词所包括的音素以及每个音素的音调输入预设的第二神经网络中，并从第二神经网络输出的结果中确定每个音素的第三时长，以及每个音素的第二能量值。

需要说明的，上述第二神经网络为有监督训练模型。第二神经网络在训练过程中，训练样本中的学生集为任意音素以及该音素的音调，训练样本中的教师集为该音素在字符串中占用的帧数，以及该音素在字符串中的能量值。

在一种情况下，生成装置还对第二神经网络模型输出的结果进行独热(onehot)编码以及归一化，以分别得到每个音素的第三时长，以及每个音素的第二能量值。

可以理解的，任意一个音素的第二能量值为经过归一化得到的数值，为0-1中的任意一个数值。

S3022、生成装置根据第一字符串中音素的第三时长，以及第一字符串的第一时长，确定第一字符串中音素的第二时长。

作为一种可能的实现方式，生成装置可以确定第一字符串中所有音素的第三时长之和，为第一字符串的默认时长，并基于第一字符串在伴奏数据中的第一时长，确定第一字符串中的音素在伴奏数据中的第二时长。

此步骤中的具体实现方式，可以参照本公开实施例的后续描述，此处不再进行赘述。

S3023、生成装置基于第一字符串中音素的第二能量值，以及第一字符串的重音级别，确定第一字符串中音素的第一能量值。

作为一种可能的实现方式，生成装置根据第一字符串的重音级别，对第一字符串中音素的第二能量值进行调整，以得到第一字符串中音素的第一能量值。

示例性的，对于任意一个音素，若该音素所在的字符串在伴奏数据中的重音级别为2，每一级重音对应的预设的单位能量值为0.1，且该音素的第二能量值为0.3，则在经过调整之后，该音素在伴奏数据中的第一能量值为0.3+2*0.1＝0.5。

需要说明的，在实际应用中，可以先执行S3022，后执行S3023，也可以先执行S3023，后执行S3022，还可以同时执行S3022以及S3023，本公开实施例对此不作限定。

上述实施例提供的技术方案至少具有以下有益效果：基于音素在字符串中的第三时长以及第二能量值，可以使得确定得到的第二时长以及第一能量值更加准确，更加贴合伴奏数据的旋律及鼓点。

在一种设计中，为了能够确定第一字符串中的音素在伴奏数据中的第二时长，如图5所示，本公开实施例提供的S3022，具体包括下述S401-S402。

S401、生成装置确定第一字符串中音素的第三时长之和，与第一字符串的第一时长的比值，为第一字符串的调整比例。

作为一种可能的实现方式，生成装置确定第一字符串中的音素的第三时长之和，为第一字符串的默认时长，并确定第一字符串的默认时长与第一字符串的第一时长的比值，为第一字符串的调整比例。

示例性的，对于字符串“好”，其在伴奏数据中的第一时长为0.4毫秒(ms)，其音素包括“h”及“ao”。其中，音素“h”的第三时长为0.2ms，音素“ao”的第三时长为0.3ms，。这样，即可确定字符串“好”的默认时长为0.5ms。进一步的，字符串“好”的调整比例为0.5ms/0.4ms＝1.25。

S402、生成装置基于调整比例，分别调整第一字符串中音素的第三时长，以得到第一字符串中音素的第二时长。

作为一种可能的实现方式，生成装置确定第一字符串中的音素的第三时长与调整比例的比值，为第一字符串中音素的第二时长。

以上述字符串“好”为例，在调整比例为1.250.2/1.25的情况下，生成装置可以确定音素“h”的第二时长为0.2ms/1.25＝0.16ms，音素“ao”的第二时长为0.3ms/1.25＝0.24ms。

由此，对于字符串“好”，其音素“h”、“ao”的第三时长之和为0.4ms，与字符串的第一时长相同。

上述实施例提供的技术方案至少具有以下有益效果：通过字符串中的音素的第三时长之和，与该字符串的第一时长的比值，能够更加准确的将字符串的第一时长分配到不同音素中，可以使得确定到每个音素的第二时长更加准确。

在一种设计中，为了能够生成语音数据，如图6所示，本公开实施例提供的S303，具体包括下述S501-S503。

S501、对于第一音素，生成装置根据第一音素、第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征，生成与第一音素对应的帧特征组。

其中，第一音素为歌词中的任意一个音素。一个音素对应的帧特征组包括多个帧特征，且多个帧特征的数量对应于一个音素的第二时长。一个音素对应的每个帧特征均包括一个音素、一个音素的音调、一个音素的第一能量值以及音色特征。

作为一种可能的实现方式，生成装置根据第一音素的第二时长，确定第一音素对应的帧特征的数量。

进一步的，生成装置根据第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及音色特征，生成第一音素对应的多个帧特征。

进一步的，生成装置将第一音素对应的多个帧特征进行合并，以得到第一音素对应的帧特征组。

示例性的，第一音素对应的帧特征组可以为一个第一矩阵。第一矩阵中的每一行均为第一音素对应的一个帧特征。第一音素对应的任意一个帧特征中均包括第一音素、第一音素的音调、第一音素的第一能量值以及音色特征。

S502、生成装置合并歌词中所有音素分别对应的帧特征组，以得到歌词对应的语音谱参数。

作为一种可能的实现方式，生成装置将歌词中所有音素对应的帧特征组进行合并，以得到帧特征组的合并结果。

示例性的，在歌词包括10个音素，且每个音素对应的帧特征组都为一个100*4的矩阵。因此，生成装置合并所有帧特征组得到的合并结果为一个1000*4的矩阵，该矩阵用于预测得到歌词对应的语音谱参数。

进一步的，生成装置将对帧特征组合并的合并结果输入到第三神经网络中，由第三神经网络对上述合并结果进行学习，以得到与歌词对应的语音谱参数。

需要说明的，语音谱参数的格式可以为线性预测编码(linear predictivecoding，LPC)格式，还可以mel格式。

示例性的，第三神经网络可以为一个由多个卷积层组成的预测模型。同时，在语音数据的采用率为16KHz的情况下，生成装置可以利用第三神经网络对上述1000*4的矩阵进行学习，以预测得到一个矩阵大小为1000*80的语音谱参数，进而可以满足语音数据的采样率要求。

S503、生成装置将语音谱参数转换为语音数据。

作为一种可能的实现方式，生成装置可以将语音谱参数输入到神经声码器wavernn或者声码器Ipcent中，以将语音谱参数转换为语音数据。

此步骤中将语音谱参数转换为语音数据的实现方式，可以参照现有技术中的描述，此处不再进行赘述。

上述实施例提供的技术方案至少具有以下有益效果：提供了一种可以根据歌词中的音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征生成语音数据的具体实现方式，能够将帧级别的数据转换为采样级别的语音数据。

在一种设计中，为了能够生成与第一音素对应的帧特征组，如图7所示，本公开实施实例提供的上述S501，具体包括下述S5011-S5013。

S5011、生成装置确定第一音素的第二时长占用的帧数，为第一音素对应的多个帧特征的数量。

示例性的，如果一个音素的第二时长占用了100个语音帧，则该音素对应的帧特征的数量为100。

S5012、生成装置基于第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及音色特征，生成第一音素对应的多个帧特征。

其中，第一音素对应的多个帧特征中，每个帧特征均包括一个位置索引。位置索引用于标识帧特征在帧特征组中的位置。

作为一种可能的实现方式，生成装置按照述第一音素对应的多个帧特征的数量，生成相同数量的位置索引，并根据第一音素、第一音素的音调、第一音素的第二能量值、音色特征以及上述相同数量的位置索引，生成相同数量的帧特征，作为第一音素对应的多个帧特征。

示例性的，对于第一音素对应的多个帧特征中的任意一个帧特征[aa,bb,cc,dd,ee]，其中，aa表示该第一音素，bb表示该第一音素的音调，cc表示该第一音素的第一能量值，dd表示音色特征的标识，ee表示该帧特征在第一音素对应的帧特征组中的位置索引。以第一音素对应的多个帧特征的数量为100为例，位置索引的数值为0-99。

S5013、生成装置合并第一音素对应的多个帧特征，以得到第一音素对应的帧特征组。

示例性的，以第一音素对应的多个帧特征的数量为100为例，第一音素对应的帧特征组为一个大小为100*5的矩阵。

可以理解的，在第一音素对应的帧特征组的100*5的矩阵中，前4列的数值相同，不同之处在于第5列的位置索引。

上述实施例提供的技术方案至少具有以下有益效果：能够在帧特征组为不同的帧特征设置不同的位置索引，可以使得生成的帧特征组更加准确，且对于语音数据而言，可以使得伴奏数据与语音数据在时间上等长且对齐。

在一种设计中，为了能够提高用户体验，如图8所示，本公开实施实例提供的音乐数据的生成方法，在S204之后，还包括下述S205。

S205、生成装置合并音乐数据以及原始视频数据，以生成原始视频数据对应的目标视频数据。

上述实施例提供的技术方案至少具有以下有益效果：能够在生成音乐数据的前提下，将音乐数据与原始视频数据合并，以得到目标视频数据。由于目标视频数据包括原始视频数据以及上述音乐数据，这样一来，能够最大程度的提高了用户体验。

图9是根据一示例性实施例示出的一种音乐数据的生成装置的结构示意图。参照图9所示，本公开实施例提供的音乐数据的生成装置60包括获取单元601、生成单元602以及合并单元603。

获取单元601，用于获取原始视频数据，以及预设的资源模板。资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别。第一时长为字符串在伴奏数据中占用的帧数，重音级别为字符串在伴奏数据中的重音级别。例如，如图2所示，获取单元601可以用于执行S201。

生成单元602，用于根据原始视频数据的资源特征，以及伴奏数据中每个伴奏片段的字符串数量，生成与原始视频的资源特征对应的歌词。歌词中的歌词片段与伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等。例如，如图2所示，生成单元602可以用于执行S202。

生成单元602，还用于基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据。语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串。例如，如图2所示，生成单元602可以用于执行S203。

合并单元603，用于合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据。例如，如图2所示，合并单元603可以用于执行S204。

可选的，如图9所示，本公开实施例提供的生成单元602，具体还用于：

确定歌词中每个字符串所包括的音素以及每个音素的音调。例如，如图3所示，生成单元602可以用于执行S301。

确定每个音素在伴奏数据中的第二时长，以及每个音素的第一能量值。一个字符串中所有音素的第二时长之和为一个字符串的第一时长。一个音素的第一能量值为一个音素在伴奏数据中的能量值，且一个音素的第一能量值与一个音素所在的字符串的重音级别正相关。例如，如图3所示，生成单元602可以用于执行S302。

根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征，生成语音数据。例如，如图3所示，生成单元602可以用于执行S303。

对于第一字符串，确定第一字符串中音素的第三时长，以及第一字符串中音素的第二能量值。第一字符串为歌词中任意的一个字符串。一个音素的第三时长为一个音素在歌词的字符串中占用的帧数。一个音素的第二能量值为一个音素在歌词的字符串中的能量值。例如，如图4所示，生成单元602可以用于执行S3021。

根据第一字符串中音素的第三时长，以及第一字符串的第一时长，确定第一字符串中音素的第二时长。例如，如图4所示，生成单元602可以用于执行S3022。

基于第一字符串中音素的第二能量值，以及第一字符串的重音级别，确定第一字符串中音素的第一能量值。例如，如图4所示，生成单元602可以用于执行S3023。

确定第一字符串中音素的第三时长之和，与第一字符串的第一时长的比值，为第一字符串的调整比例。例如，如图5所示，生成单元602可以用于执行S401。

基于调整比例，分别调整第一字符串中音素的第三时长，以得到第一字符串中音素的第二时长。例如，如图5所示，生成单元602可以用于执行S402。

可选的，如图9所示，本公开实施例提供的生成单元602，具体用于：

对于第一音素，根据第一音素、第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征，生成与第一音素对应的帧特征组。第一音素为歌词中的任意一个音素。一个音素对应的帧特征组包括多个帧特征，且多个帧特征的数量对应于一个音素的第二时长。一个音素对应的每个帧特征均均包括一个音素、一个音素的音调、一个音素的第一能量值以及音色特征。例如，如图6所示，生成单元602可以用于执行S501。

合并歌词中所有音素分别对应的帧特征组，以得到歌词对应的语音谱参数，并将语音谱参数转换为语音数据。例如，如图6所示，生成单元602可以用于执行S502-S503。

可选的，如图9所示，本公开实施例提供的生成单元602具体还用于：

确定第一音素的第二时长占用的帧数，为第一音素对应的多个帧特征的数量。例如，如图7所示，生成单元602可以用于执行S5011。

基于第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及音色特征，生成第一音素对应的多个帧特征。第一音素对应的多个帧特征中，每个帧特征均包括一个位置索引。位置索引用于标识帧特征在帧特征组中的位置。例如，如图7所示，生成单元602可以用于执行S5012。

合并第一音素对应的多个帧特征，以得到第一音素对应的帧特征组。例如，如图7所示，生成单元602可以用于执行S5013。

可选的，如图9所示，本公开实施例提供的合并单元603，还用于在合并生成音乐数据之后，合并音乐数据以及原始视频数据，以生成原始视频数据对应的目标视频数据。例如，如图8所示，合并单元603可以用于执行S205。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是本公开提供的一种电子设备的结构示意图。如图10，该电子设备70可以包括至少一个处理器701以及用于存储处理器可执行指令的存储器703。其中，处理器701被配置为执行存储器703中的指令，以实现上述实施例中的音乐数据的生成方法。

另外，电子设备70还可以包括通信总线702以及至少一个通信接口704。

处理器701可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线702可包括一通路，在上述组件之间传送信息。

通信接口704，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器703可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器703用于存储执行本公开方案的指令，并由处理器701来控制执行。处理器701用于执行存储器703中存储的指令，从而实现本公开方法中的功能。

作为一个示例，结合图9，音乐数据的生成装置60中的获取单元601、生成单元602、以及合并单元603实现的功能与图10中的处理器701的功能相同。

在具体实现中，作为一种实施例，处理器701可以包括一个或多个CPU，例如图10中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备70可以包括多个处理器，例如图10中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备70还可以包括输出设备705和输入设备706。输出设备705和处理器701通信，可以以多种方式来显示信息。例如，输出设备705可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备706和处理器701通信，可以以多种方式接受用户的输入。例如，输入设备706可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图10中示出的结构并不构成对电子设备70的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述实施例所提供的音乐数据的生成方法。

另外，本公开还提供一种计算机程序产品，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述实施例所提供的音乐数据的生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种音乐数据的生成方法，其特征在于，包括：

获取原始视频数据，以及预设的资源模板；所述资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别；所述第一时长为字符串在所述伴奏数据中占用的帧数，所述重音级别为字符串在所述伴奏数据中的重音级别；

根据所述原始视频数据的资源特征，以及所述伴奏数据中每个伴奏片段的字符串数量，生成与所述原始视频的资源特征对应的歌词；所述歌词中的歌词片段与所述伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等；

基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及预设的音色特征，生成具有所述音色特征的语音数据；所述语音数据用于按照对应的所述第一时长及所述重音级别播放所述歌词中的所述每个字符串；

合并所述语音数据以及所述伴奏数据，以生成所述原始视频数据对应的音乐数据。

2.根据权利要求1所述的音乐数据的生成方法，其特征在于，所述基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及预设的音色特征，生成具有所述音色特征的语音数据，包括：

确定所述歌词中所述每个字符串所包括的音素以及每个音素的音调；

确定所述每个音素在所述伴奏数据中的第二时长，以及所述每个音素的第一能量值；所述每个字符串中所有音素的所述第二时长之和为所述每个字符串的所述第一时长；每个音素的所述第一能量值为所述每个音素在所述伴奏数据中的能量值，且所述每个音素的所述第一能量值与所述每个音素所在的字符串的重音级别正相关；

根据所述每个音素、所述每个音素的音调、所述每个音素的所述第二时长、所述每个音素的所述第一能量值以及所述音色特征，生成所述语音数据。

3.根据权利要求2所述的音乐数据的生成方法，其特征在于，所述确定所述每个音素在所述伴奏数据中的第二时长，以及所述每个音素的第一能量值，包括：

对于第一字符串，确定所述第一字符串中音素的第三时长，以及所述第一字符串中音素的第二能量值；所述第一字符串为所述歌词中任意的一个字符串；每个音素的所述第三时长为所述每个音素在所述歌词的字符串中占用的帧数；所述每个音素的所述第二能量值为所述每个音素在所述歌词的字符串中的能量值；

根据所述第一字符串中音素的所述第三时长，以及所述第一字符串的所述第一时长，确定所述第一字符串中音素的所述第二时长；

基于所述第一字符串中音素的所述第二能量值，以及所述第一字符串的所述重音级别，确定所述第一字符串中音素的所述第一能量值。

4.根据权利要求3所述的音乐数据的生成方法，其特征在于，所述根据所述第一字符串中音素的所述第三时长，以及所述第一字符串的所述第一时长，确定所述第一字符串中音素的所述第二时长，包括：

确定所述第一字符串中音素的所述第三时长之和，与所述第一字符串的所述第一时长的比值，为所述第一字符串的调整比例；

基于所述调整比例，分别调整所述第一字符串中音素的所述第三时长，以得到所述第一字符串中音素的所述第二时长。

5.根据权利要求2所述的音乐数据的生成方法，其特征在于，所述根据所述每个音素、所述每个音素的音调、所述每个音素的所述第二时长、所述每个音素的所述第一能量值以及所述音色特征，生成所述语音数据，包括：

对于第一音素，根据所述第一音素的所述第二时长、所述第一音素的音调、所述第一音素的所述第一能量值以及所述音色特征，生成与所述第一音素对应的帧特征组；所述第一音素为所述歌词中的任意一个音素；每个音素对应的帧特征组包括多个帧特征，且所述多个帧特征的数量对应于所述每个音素的所述第二时长；所述每个音素对应的每个帧特征均包括所述每个音素、所述每个音素的音调、所述每个音素的所述第一能量值以及所述音色特征；

合并所述歌词中所有音素分别对应的帧特征组，以得到所述歌词对应的语音谱参数，并将所述语音谱参数转换为所述语音数据。

6.根据权利要求5所述的音乐数据的生成方法，其特征在于，所述根据所述第一音素的所述第二时长、所述第一音素的音调、所述第一音素的所述第一能量值以及所述音色特征，生成与所述第一音素对应的帧特征组，包括：

确定所述第一音素的所述第二时长占用的帧数，为所述第一音素对应的多个帧特征的数量；

基于所述第一音素对应的多个帧特征的数量、所述第一音素、所述第一音素的音调、所述第一音素的所述第一能量值以及所述音色特征，生成所述第一音素对应的多个帧特征；所述第一音素对应的多个帧特征中，每个帧特征均包括一个位置索引；所述位置索引用于标识帧特征在帧特征组中的位置；

合并所述第一音素对应的多个帧特征，以得到所述第一音素对应的帧特征组。

7.一种音乐数据的生成装置，其特征在于，包括获取单元、生成单元以及合并单元；

所述获取单元，用于获取原始视频数据，以及预设的资源模板；所述资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别；所述第一时长为字符串在所述伴奏数据中占用的帧数，所述重音级别为字符串在所述伴奏数据中的重音级别；

所述生成单元，用于根据所述原始视频数据的资源特征，以及所述伴奏数据中每个伴奏片段的字符串数量，生成与所述原始视频的资源特征对应的歌词；所述歌词中的歌词片段与所述伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等；

所述生成单元，还用于基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及预设的音色特征，生成具有所述音色特征的语音数据；所述语音数据用于按照对应的所述第一时长及所述重音级别播放所述歌词中的所述每个字符串；

所述合并单元，用于合并所述语音数据以及所述伴奏数据，以生成所述原始视频数据对应的音乐数据。

8.一种电子设备，其特征在于，包括：处理器、用于存储所述处理器可执行的指令的存储器；其中，所述处理器被配置为执行指令，以实现所述权利要求1-6中任一项所述的音乐数据的生成方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6中任一项所述的音乐数据的生成方法。

10.一种计算机程序产品，包括指令，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任意一项所述的音乐数据的生成方法。