CN115171629A

CN115171629A - 一种音乐生成方法、装置、电子设备及存储介质

Info

Publication number: CN115171629A
Application number: CN202110285915.1A
Authority: CN
Inventors: 张冉; 张昆; 王晓瑞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-10-11

Abstract

本公开关于一种音乐生成方法、装置、电子设备及存储介质，该方法包括：获取目标语音和背景音乐；从所述目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列；确定所述背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间；建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系；根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。本公开提高了说唱音乐生成的准确性和生成效率。

Description

一种音乐生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种音乐生成方法、装置、电子设备及存储介质。

背景技术

说唱音乐是一种音乐风格，又叫rap，是指有节奏地说话的特殊唱歌形式，它以在机械的节奏声的背景下，快速地诉说一连串押韵的语句为特征。

相关技术中，可以采用语音合成技术对文本进行语音合成，但是无法准确、高效的生成说唱音乐。因此，需要一种可靠或者有效的技术方案，以能够准确、高效的生成说唱音乐。

发明内容

本公开提供一种音乐生成方法、装置、电子设备及存储介质，以至少解决相关技术中无法准确、高效的生成说唱音乐的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音乐生成方法，包括：

获取目标语音和背景音乐；

从所述目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列；

确定所述背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间；

建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系；

根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。

在一示例性的实施方式中，所述建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系，包括：

确定所述词语语音片段序列中各词语语音片段的持续时长；

确定所述强节拍区间的区间时长；

根据所述持续时长和所述区间时长，将所述词语语音片段序列中的词语语音片段依次对应到所述强节拍区间；

其中，每个强节拍区间对应至少一个词语语音片段，所述至少一个词语语音片段的持续时长的和值小于所述强节拍区间的区间时长。

在一示例性的实施方式中，所述获取目标语音包括：

获取待合成文本；

将所述待合成文本输入语音合成模型，得到输出的合成音频；

将所述合成音频作为所述目标语音。

在一示例性的实施方式中，所述获取目标语音包括：

获取输入的用户语音；

将所述用户语音作为所述目标语音。

在一示例性的实施方式中，所述从所述目标语音中切分出每个词语对应的语音片段包括：

对所述待合成文本进行分词处理，得到所述待合成文本对应的词语序列；

确定所述词语序列中的每个词语在所述合成音频中的起始时刻和结束时刻；

根据每个词语在所述合成音频中的起始时刻和结束时刻，对所述合成音频进行切分，得到与每个词语对应的语音片段。

对所述用户语音进行语音识别，得到所述用户语音对应的识别文本；

对所述识别文本进行分词处理，得到所述识别文本对应的词语序列；

确定所述词语序列中的每个词语在所述用户语音中的起始时刻和结束时刻；

根据每个词语在所述用户语音中的起始时刻和结束时刻，对所述用户语音进行切分，得到与每个词语对应的语音片段。

在一示例性的实施方式中，所述确定所述背景音乐中位于纯音乐段落的强节拍点包括：

对所述背景音乐进行音频事件检测，确定所述背景音乐中的纯音乐段落；

对所述背景音乐进行节拍检测，确定所述背景音乐的强节拍点；

标记位于所述纯音乐段落的强节拍点。

根据本公开实施例的第二方面，提供一种音乐生成装置，包括：

第一获取单元，被配置为执行获取目标语音和背景音乐；

切分单元，被配置为执行从所述目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列；

强节拍点确定单元，被配置为执行确定所述背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间；

对应关系建立单元，被配置为执行建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系；

融合单元，被配置为执行根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。

在一示例性的实施方式中，所述对应关系建立单元包括：

第一时长确定单元，被配置为执行确定所述词语语音片段序列中各词语语音片段的持续时长；

第二时长确定单元，被配置为执行确定所述强节拍区间的区间时长；

对应单元，被配置为执行根据所述持续时长和所述区间时长，将所述词语语音片段序列中的词语语音片段依次对应到所述强节拍区间；

在一示例性的实施方式中，所述第一获取单元包括：

文本获取单元，被配置为执行获取待合成文本；

音频合成单元，被配置为执行将所述待合成文本输入语音合成模型，得到输出的合成音频；将所述合成音频作为所述目标语音。

在一示例性的实施方式中，所述第一获取单元包括：

用户语音获取单元，被配置为执行获取输入的用户语音；将所述用户语音作为所述目标语音。

在一示例性的实施方式中，所述切分单元包括：

第一分词单元，被配置为执行对所述待合成文本进行分词处理，得到所述待合成文本对应的词语序列；

第一时刻确定单元，被配置为执行确定所述词语序列中的每个词语在所述合成音频中的起始时刻和结束时刻；

第一切分子单元，被配置为执行根据每个词语在所述合成音频中的起始时刻和结束时刻，对所述合成音频进行切分，得到与每个词语对应的语音片段。

在一示例性的实施方式中，所述切分单元包括：

识别单元，被配置为执行对所述用户语音进行语音识别，得到所述用户语音对应的识别文本；

第二分词单元，被配置为执行对所述识别文本进行分词处理，得到所述识别文本对应的词语序列；

第二时刻确定单元，被配置为执行确定所述词语序列中的每个词语在所述用户语音中的起始时刻和结束时刻；

第二切分子单元，被配置为执行根据每个词语在所述用户语音中的起始时刻和结束时刻，对所述用户语音进行切分，得到与每个词语对应的语音片段。

在一示例性的实施方式中，所述强节拍点确定单元包括：

纯音乐段落确定单元，被配置为执行对所述背景音乐进行音频事件检测，确定所述背景音乐中的纯音乐段落；

节拍检测单元，被配置为执行对所述背景音乐进行节拍检测，确定所述背景音乐的强节拍点；

强节拍点标记单元，被配置为执行标记位于所述纯音乐段落的强节拍点。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的音乐生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面的音乐生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述第一方面的音乐生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取目标语音和背景音乐，从目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列，并确定背景音乐中位于纯音段落的强节拍点，相邻强节拍点构成强节拍区域，进而建立词语语音片段序列中词语语音片段与强节拍区间的对应关系，并根据该对应关系对词语语音片段和背景音乐进行融合得到目标说唱音乐，从而实现了对背景音乐中可以进行rap的段落的自动识别，并自动找出强节拍点进行词语语音片段的关联，使得词语语音片段能够准确的卡上强节拍点，提高了说唱音乐生成的准确性和生成效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音乐生成方法的应用环境示意图；

图2是根据一示例性实施例示出的一种音乐生成方法的流程图。

图3是根据一示例性实施例示出的确定背景音乐中位于纯音乐段落的强节拍点的一种流程图；

图4是根据一示例性实施例示出的对位于纯音乐段落的强节拍点进行标记的一个示例；

图5是根据一示例性实施例示出的建立词语语音片段序列中词语语音片段与强节拍区间的对应关系的一种流程图；

图6是根据一示例性实施例示出的建立词语语音片段序列中词语语音片段与强节拍区间的对应关系的一个示例；

图7是根据一示例性实施例示出的另一种音乐生成方法的流程图；

图8是根据一示例性实施例示出的另一种音乐生成方法的流程图；

图9是根据一示例性实施例示出的一种音乐生成装置的框图；

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其所示为根据一示例性实施例示出的一种音乐生成方法的应用环境示意图，该应用环境可以包括终端110和服务器120，该终端110和服务器120之间可以通过有线网络或者无线网络连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以安装有提供音乐处理功能的客户端软件如应用程序(Application，简称为App)，该应用程序可以是专门提供音乐处理的应用程序，也可以是具有音乐处理功能的其他应用程序，例如具有音乐处理功能的直播应用程序等等。终端110的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器120可以是为终端110中的应用程序提供后台服务的服务器，也可以是与应用程序的后台服务器连接通信的其它服务器，可以是一台服务器，也可以是由多台服务器组成的服务器集群。

示例性的，终端110可以通过其上运行的具有音乐处理功能的应用程序执行本公开实施例提供的说唱音乐生成方法。可以理解的是，终端110也可以通过上述应用程序将目标语音和背景音乐上传到服务器120，由服务器120执行本公开实施例提供的说唱音乐生成方法，并将结果返回给终端110，本公开实施例对此不进行具体限定。

由此可见，本公开实施例的说唱音乐生成方法可以由电子设备来执行，该电子设备可以是终端或者服务器，可以由终端或者服务器单独执行，也可以是终端和服务器相互配合执行。

图2是根据一示例性实施例示出的一种音乐生成方法的流程图，如图2所示，以音乐生成方法用于图1所示的终端为例，包括以下步骤：

在步骤S21中，获取目标语音和背景音乐。

其中，目标语音是指用于生成说唱音乐的包含文本内容的语音，该目标语音可以是通过声音采集设备对用户朗读文本的语音进行录制得到的用户语音，用户朗读的文本可以但不限于为歌词文本；该目标语音还可以是使用语音合成技术基于待合成文本得到的合成音频，该待合并文本可以是用户选择输入的文本，可以但不限于为歌词文本。

背景音乐的获取方式可以是响应于用户对终端中存储的音乐文件的选择操作，获取用户选择的音乐文件作为背景音乐；还可以是响应于用户在互联网上对音乐文件的搜索操作，获取用户从搜索结果中选取的音乐文件作为背景音乐。

在步骤S22中，从所述目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列。

其中，词语语音片段序列中的词语语音片段的排列顺序与相对应的词语在目标语音中出现的先后顺序相一致。

在步骤S23中，确定所述背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间。

本公开的实施例中，获取的背景音乐可以是无人声的音乐即该背景音乐可以完全是纯音乐，也可以是包含人声部分的音乐。当该背景音乐是包含人声部分的音乐时，由于人声部分不适合生成说唱音乐，因此可以确定该背景音乐中位于纯音乐段落的强节拍点，进而基于位于纯音乐段落的强节拍点来生成说唱音乐，从而可以提高所生成说唱音乐的准确性和质量。

基于此，在一示例性的实施方式中，上述步骤S23在确定背景音乐中位于纯音乐段落的强节拍点时可以包括图3中的以下步骤：

在步骤S231中，对背景音乐进行音频事件检测，确定所述背景音乐中的纯音乐段落。

纯音乐段落是指背景音乐中不包含歌词的音乐段落，我们可以根据音乐段落中是否包含人声来确定该音乐段落是否属于纯音乐段落。

示例性的，在对背景音乐进行音频事件检测时，可以对背景音乐进行人声检测，并确定包含人声的音乐段落，进而基于该包含人声的音乐段落可以确定不包含人声的纯音乐段落。具体的实施中，可以预先训练人声检测网络模型，通过将背景音乐输入到该人声检测网络模型中得到输出的包含人声的音乐段落标识，该音乐段落标识可以是包含人声的音乐段落在背景音乐中的位置信息，进而通过背景音乐与该位置信息的差值可以确定背景音乐中的纯音乐段落。其中，人声检测网络模型可以是深度学习模型。

在步骤S232中，对所述背景音乐进行节拍检测，确定所述背景音乐的强节拍点。

其中，强节拍点指示背景音乐中强节拍的起始时刻。本公开实施例中，为了提高对纯音乐段落中强节拍点确定的准确性，可以对背景音乐的整体进行节拍检测以确定背景音乐中的所有强节拍点，后续可以根据背景音乐中的所有强节拍点确定位于纯音乐段落的强节拍点。

示例性的，可以根据背景音乐的能量强度值确定候选节拍点，然后根据相邻两个候选节拍点所在帧之间的时间间隔从候选节拍点中选取强节拍点。

示例性的，还可以对背景音乐进行滤波，对滤波后的背景音乐进行傅里叶变换得到对应的频谱，然后根据该频谱确定各检测点的能量变化值，并根据能量变化值确定检测点中的强节拍点。

在步骤S233中，标记位于所述纯音乐段落的强节拍点。

其中，标记方式可以是记录纯音乐段落中各强节拍点对应的起始时刻，并按照纯音乐段落中各强节拍点对应的起始时刻在背景音乐的时间轴上标识出强节拍点的位置，相邻强节拍点构成强节拍区间。如图4所示的对位于纯音乐段落的强节拍点进行标记的一个示例，其中B1,B2,B3分别对应一个纯音乐段落中的强节拍点，[B1,B2]构成一个强节拍区间，[B2,B3]构成另一个强节拍区间。

本公开实施例通过自动检测出背景音乐中可以进行rap的纯音乐段落并自动找出纯音乐段落中的强节拍点，在提高说唱音乐的生成效率的同时还提高了所生成的说唱音乐的准确性。

可以理解的，实际应用中也可以先执行上述步骤S23再执行上述步骤S22，本公开实施例对步骤S22和步骤S23的执行顺序不作具体限定。

在步骤S24中，建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系。

具体的，可以按照词语语音片段序列中词语语音片段的排列顺序将各词语语音片段依次分配到相应的强节拍区间。

本公开实施例中为了提高对强节拍点卡点的准确性，进而提升说唱音乐的效果，要求词语语音片段不能跨越强节拍点，基于此，在一示例性的实施方式中，上述步骤S24在建立词语语音片段序列中词语语音片段与强节拍区间的对应关系时，可以包括图5中的以下步骤：

在步骤S241中，确定词语语音片段序列中各词语语音片段的持续时长。

在步骤S242中，确定强节拍区间的区间时长。

强节拍区间由相邻两个强节拍点构成，因此每个强节拍区间的区间时长可以通过构成该强节拍区间的两个强节拍点对应的时间戳的差值得到。

在步骤S243中，根据所述持续时长和区间时长，将所述词语语音片段序列中的词语语音片段依次对应到所述强节拍区间。

其中，每个强节拍区间对应至少一个词语语音片段，该至少一个词语语音片段的持续时长的和值小于该强节拍区间的区间时长。

具体的，可以沿着时间轴的方向从第一个强节拍区间开始，将词语语音片段中的词语语音片段依次对应到各强节拍区间，同时确保每个强节拍区间对应的至少一个词语语音片段的持续时长的和值小于该强节拍区间的区间时长，如此可以避免词语语音片段跨越强节拍点的情况出现。可以理解的，对应到每个强节拍区间的至少一个词语语音片段实质为一个词语语音片段子序列，对于每个强节拍区间，可以将该强节拍区间的第一个强节拍点作为其对应的词语语音片段子序列的开始时间点。

如图6所示为建立词语语音片段序列中词语语音片段与强节拍区间的对应关系的一个示例，词语语音片段序列为A1,A2,A3，图6中以方框的长度表示词语语音片段的持续时长，以相邻强节拍点的间隔距离表示相应强节拍区间的区间时长。从B1开始将词语语音片段序列A1,A2,A3依次对应到强节拍区间[B1,B2]和[B2,B3]，由于T_A1+T_A2<T_[B1,B2]<T_A1+T_A2+T_A3，其中，T_A表示词语语音片段的持续时长，T_[,]表示强节拍区间的区间时长。因此，可以将词语语音片段A1和A2对应到强节拍区间[B1,B2]，而如果将词语语音片段A3也对应到强节拍区间[B1,B2]则会使得词语语音片段A3跨域强节拍点B2，为了提高生成的说唱音乐的准确性，此时可以将词语语音片段A3对应到强节拍区间[B2,B3]，从而可以得到词语语音片段序列A1,A2,A3与强节拍区间的对应关系，即A1+A2->[B1,B2]，A3->[B2,B3]。

本公开的实施例在建立上述对应关系时通过使得每个强节拍区间对应的至少一个词语语音片段的持续时长的和值小于该强节拍区间的区间时长，避免了词语语音片段跨越强节拍点，提高了对强节拍点卡点的准确性，进而提高了所生成的说唱音乐的准确性。

在步骤S25中，根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。

具体的，按照词语语音片段序列中各词语语音片段与强节拍区间的对应关系对词语语音片段序列与背景音乐进行混音处理，从而可以得到目标说唱音乐，其中混音处理即将词语语音片段与背景音乐整合至一个立体音轨或单音音轨中。

由本公开实施例的上述技术方案可见，本公开实施例实现了对背景音乐中可以进行rap的段落的自动识别，并自动找出强节拍点进行词语语音片段的关联，使得词语语音片段能够准确的卡上纯音乐段落中的强节拍点，提高了说唱音乐生成的准确性和生成效率。

为了提高说唱音乐的生成灵活性，在一个示例性的实施方式中，如图7提供的另一种音乐生成方法的流程图，该方法可以包括：

在步骤S71中，获取待合成文本。

其中，待合成文本可以是用户从歌词文本列表中选取的歌词文本，也可以是用户输入的其它内容的文本。

在步骤S72中，将所述待合成文本输入语音合成模型，得到输出的合成音频。

其中，语音合成模型为预先训练好的机器学习模型，该语音合成模型可以将输入的文本转换为对应的合成音频。

示例性的，该语音合成模型可以是端到端语音合成模型，该端到端语音合成模型包括预测梅尔频谱模型部分和语音波形转换模型部分，其中预测梅尔频谱模型部分可以采用带有注意力机制的编码器-解码器模型结构根据待合成文本预测梅尔频谱，语音波形转换模型部分可以采用带有多层高速公路网络和双向门控循环单元的卷积单元(Convolutional Bank with Highway networks and Grated recurrent unit,CBHG)模块把梅尔频谱转换为频谱幅度，然后根据得到的频谱幅度使用Griffin-Lim算法进行相位预测，重构语音波形以得到合成音频。

在步骤S73中，对所述待合成文本进行分词处理，得到所述待合成文本对应的词语序列。

具体的，可以采用分词工具对待合成文本进行分词处理，该分词工具例如可以是JieBa分词工具，分词处理后可以得到待合成文本对应的词语序列，例如对文本“我要吃火锅”分词处理后，可以得到词语序列“我”、“要”、“吃火锅”。

在步骤S74中，确定所述词语序列中的每个词语在所述合成音频中的起始时刻和结束时刻。

具体的，可以将上述合成音频输入语音识别模型，通过语音识别模型确定词语序列中每个词语在合成音频中的起始时刻和结束时刻。其中语音识别模型可以是隐马尔可夫模型、深度神经网络模型等。

在步骤S75中，根据每个词语在所述合成音频中的起始时刻和结束时刻，对所述合成音频进行切分，得到与每个词语对应的词语语音片段。

例如上述词语序列中“我”在合成音频中的起始时刻和结束时刻分别为0秒、1秒，“要”在合成音频中的起始时刻和结束时刻分别为1秒、3秒，“吃火锅”在合成音频中的起始时刻和结束时刻分别为3秒、6秒，则根据每个词语在合成音频中的起始时刻和结束时刻对合成音频进行切分时可以分别切分出对应词语“我”的0-1秒的语音片段，对应词语“要”的1-3秒的语音片段和对应词语“吃火锅”的3-6秒的语音片段，从而可以得到按照词语序列排序的词语语音片段序列。

在步骤S76中，确定获取的背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间。

在步骤S77中，建立词语语音片段序列中词语语音片段与所述强节拍区间的对应关系。

在步骤S78中，根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。

其中，上述步骤S76至步骤S78的详细实施方式可以参见前述图2所示方法实施例中的相关内容部分，在此不再赘述。

本公开的实施例可以根据用户提供的文本自动生成一套说唱音乐，不仅提高了说唱音乐生成的准确性，还提高了说唱音乐的生成效率和灵活性。

为了进一步提高说唱音乐的生成灵活性，在另一个示例性的实施方式中，如图8提供的另一种音乐生成方法的流程图，该方法可以包括：

在步骤S81中，获取输入的用户语音。

具体的，可以通过声音采集设备采集用户朗读文本的语音，得到用户语音。

在步骤S82中，对所述用户语音进行语音识别，得到所述用户语音对应的识别文本。

在步骤S83中，对所述识别文本进行分词处理，得到所述识别文本对应的词语序列。

具体的，可以采用分词处理工具如JieBa对识别文本进行分词处理，得到识别文本对应的词语序列。

在步骤S84中，确定所述词语序列中的每个词语在所述用户语音中的起始时刻和结束时刻。

具体的，可以将上述用户语音输入语音识别模型，通过语音识别模型确定词语序列中每个词语在用户语音中的起始时刻和结束时刻。其中语音识别模型可以是隐马尔可夫模型、深度神经网络模型等。

在步骤S85中，根据每个词语在所述用户语音中的起始时刻和结束时刻，对所述用户语音进行切分，得到与每个词语对应的词语语音片段。

具体的，可以参见前述步骤S75中的相关描述，在此不再赘述。

在步骤S86中，确定获取的背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间。

在步骤S87中，建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系。

在步骤S88中，根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。

具体的，上述步骤S86至步骤S88的详细实施方式可以参见前述图2所示方法实施例中的相关内容部分，在此不再赘述。

本公开的实施例在用户提供文本的朗读版本时也能准确的生成说唱音乐，从而用户可以使用自己的声音自动生成用户自己的rap音乐，大大提高了说唱音乐的生成灵活性。

图9是根据一示例性实施例示出的一种音乐生成装置的框图。参照图9，该音乐生成装置900包括第一获取单元910，切分单元920，强节拍点确定单元930，对应关系建立单元940和融合单元950。

该第一获取单元910，被配置为执行获取目标语音和背景音乐；

该切分单元920，被配置为执行从所述目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列；

该强节拍点确定单元930，被配置为执行确定所述背景音乐中位于纯音乐段落的强节拍点，相邻所述强节拍节点构成强节拍区间；

该对应关系建立单元940，被配置为执行建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系；

该融合单元950，被配置为执行根据所述对应关系融合所述词语语音片段序列与所述背景音乐，得到目标说唱音乐。

在一示例性的实施方式中，该对应关系建立单元940包括：

在一示例性的实施方式中，该第一获取单元910包括：

文本获取单元，被配置为执行获取待合成文本；

在一示例性的实施方式中，该第一获取单元910包括：

在一示例性的实施方式中，该切分单元920包括：

在一示例性的实施方式中，该强节拍点确定单元930包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例的说唱音乐生成装置通过获取目标语音和背景音乐，从目标语音中切分出每个词语对应的语音片段，得到词语语音片段序列，并确定背景音乐中位于纯音段落的强节拍点，相邻强节拍点构成强节拍区域，进而建立词语语音片段序列中词语语音片段与强节拍区间的对应关系，并根据该对应关系对词语语音片段和背景音乐进行融合得到目标说唱音乐，从而实现了对背景音乐中可以进行rap的段落的自动识别，并自动找出强节拍点进行词语语音片段的关联，使得词语语音片段能够准确的卡上强节拍点，提高了说唱音乐生成的准确性和生成效率。

在一示例性的实施方式中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述任一实施方式中提供的音乐生成方法。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是终端为例，图10是根据一示例性实施例示出的一种用于生成音乐的电子设备的框图，具体来讲：

所述终端可以包括RF(Radio Frequency，射频)电路1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、WiFi(wireless fidelity，无线保真)模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1080处理；另外，将涉及上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1020还可以包括存储器控制器，以提供处理器1080和输入单元1030对存储器1020的访问。

输入单元1030可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的，触敏表面1031可覆盖显示面板1041，当触敏表面1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。其中，触敏表面1031与显示面板1041可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面1031与显示面板1041集成而实现输入和输出功能。

所述终端还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在所述终端移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与所述终端之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一终端，或者将音频数据输出至存储器1020以便进一步处理。音频电路1060还可能包括耳塞插孔，以提供外设耳机与所述终端的通信。

WiFi属于短距离无线传输技术，所述终端通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于所述终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行所述终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器1080可包括一个或多个处理核心；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

所述终端还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1090还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的音乐生成方法的指令。

在一示例性的实施方式中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1020，上述指令可由装置1000的处理器1080执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性的实施方式中，还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述任一实施方式中提供的音乐生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音乐生成方法，其特征在于，包括：

获取目标语音和背景音乐；

2.根据权利要求1所述的音乐生成方法，其特征在于，所述建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系，包括：

确定所述词语语音片段序列中各词语语音片段的持续时长；

确定所述强节拍区间的区间时长；

3.根据权利要求1所述的音乐生成方法，其特征在于，所述获取目标语音包括：

获取待合成文本；

将所述合成音频作为所述目标语音。

4.根据权利要求1所述的音乐生成方法，其特征在于，所述获取目标语音包括：

获取输入的用户语音；

将所述用户语音作为所述目标语音。

5.根据权利要求3所述的音乐生成方法，其特征在于，所述从所述目标语音中切分出每个词语对应的语音片段包括：

6.根据权利要求4所述的音乐生成方法，其特征在于，所述从所述目标语音中切分出每个词语对应的语音片段包括：

7.一种音乐生成装置，其特征在于，包括：

第一获取单元，被配置为执行获取目标语音和背景音乐；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的音乐生成方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的音乐生成方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述的音乐生成方法。