CN117012170A

CN117012170A - 一种音乐生成方法、装置、系统及存储介质

Info

Publication number: CN117012170A
Application number: CN202210475367.3A
Authority: CN
Inventors: 薛愉凡; 郑强; 牛栋; 徐良钦; 王晓婵; 陈纪同; 李博琛; 李乃寒
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-11-07
Also published as: WO2023211386A3; WO2023211386A2

Abstract

本公开实施例涉及一种音乐生成方法、装置、系统及存储介质。本公开的至少一个实施例中，通过响应用户触发音乐生成控件的操作，展示包括文本输入框、音乐生成控件和音乐配置项的音乐生成界面，以便用户在文本输入框中输入自定义文本和通过音乐配置项配置音乐旋律，进而响应用户触发音乐生成控件的操作，可以基于用户输入的自定义文本生成语音，并基于生成的语音和用户配置的音乐旋律，生成包括自定义文本对应语音的音乐，用户即使不具备音乐专业技能，也可以创作音乐，获取基于自定义文本生成的音乐，降低音乐创作的门槛，提升用户创作音乐的效率。

Description

一种音乐生成方法、装置、系统及存储介质

技术领域

本公开实施例涉及音乐生成技术领域，具体涉及一种音乐生成方法、装置、系统及存储介质。

背景技术

目前，随着互联网技术和智能移动设备(例如智能手机)的发展，音乐创作成为人们娱乐生活的重要组成部分。

然而音乐创作需要具备一定的音乐专业技能，对于普通用户而言难度较大，因此，亟需提供一种音乐生成方案，以便不具备音乐专业技能的普通用户也能自己创作音乐，从而降低音乐创作的门槛。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种音乐生成方法、装置、系统及存储介质。

第一方面，本公开实施例提供一种音乐生成方法，包括：

响应于音乐生成控件的触发操作，展示音乐生成界面，该音乐生成界面中包括文本输入框、音乐生成控件和至少一个音乐配置项；

响应于文本输入框的触发操作，获取用户输入的自定义文本，以及，响应于至少一个音乐配置项的触发操作，确定至少一个音乐配置项对应的配置信息；

响应于音乐生成控件的触发操作，基于自定义文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括自定义文本对应语音的音乐。

在一些实施例中，文本输入框中显示示例文本，音乐生成方法还包括：

若未获取到用户输入的自定义文本，则响应于音乐生成控件的触发操作，基于示例文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括示例文本对应语音的音乐。

在一些实施例中，音乐配置项可以预先设置有配置信息，音乐生成方法还包括：

若用户未触发至少一个音乐配置项，则响应于音乐生成控件的触发操作，基于自定义文本生成语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于语音和音乐旋律生成包括自定义文本对应语音的音乐。

在一些实施例中，文本输入框中显示示例文本，音乐配置项可以预先设置有配置信息，音乐生成方法还包括：

若未获取到用户输入的自定义文本且用户未触发至少一个音乐配置项，则响应于音乐生成控件的触发操作，基于示例文本生成语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于语音和音乐旋律生成包括示例文本对应语音的音乐。

在一些实施例中，音乐生成控件为第一控件；音乐生成界面为第一界面；文本输入框为歌词输入框；至少一个音乐配置项包括歌曲旋律配置项；

响应于音乐生成控件的触发操作，基于歌词输入框中输入的自定义文本生成歌词演唱的语音，并基于歌曲旋律配置项对应的配置信息确定歌曲旋律，基于歌词演唱的语音和歌曲旋律进行合成，生成包括歌词演唱的语音的歌曲。

在一些实施例中，基于歌词输入框中输入的自定义文本生成歌词演唱的语音，包括：

将自定义文本与歌曲旋律配置项对应的歌曲旋律进行对齐，确定自定义文本中的文本单元与歌曲旋律中的音符之间的对应关系；

将对齐后的自定义文本生成歌词演唱的语音。

在一些实施例中，至少一个音乐配置项还包括：音色配置项和音乐格式配置项；

基于音色配置项对应的音色，将歌词输入框中输入的自定义文本生成歌词演唱的语音，歌词演唱的语音的音色为音色配置项对应的音色；

基于音乐格式配置项对应的音乐格式，基于歌词演唱的语音和歌曲旋律生成音乐格式的歌曲。

在一些实施例中，音乐生成控件为第二控件；音乐生成界面为第二界面；文本输入框为标语输入框；至少一个音乐配置项包括音乐旋律配置项；

响应于音乐生成控件的触发操作，基于标语输入框中输入的自定义文本生成标语的语音，并基于音乐旋律配置项对应的配置信息确定音乐旋律，基于标语的语音和音乐旋律生成包括标语的语音的音乐。

在一些实施例中，基于标语的语音和音乐旋律生成包括标语的语音的音乐，包括：

确定音乐旋律中的音乐关键点，音乐旋律在音乐关键点的位置处存在突变；

基于音乐关键点的位置，将标语的语音与音乐旋律进行合成，得到合成音乐；在合成音乐中，标语的语音出现在音乐旋律的音乐关键点的位置处。

基于音色配置项对应的音色，将标语输入框中输入的自定义文本生成标语的语音，标语的语音的音色为音色配置项对应的音色；

基于音乐格式配置项对应的音乐格式，基于标语的语音和音乐旋律生成包括音乐格式的音乐。

第二方面，本公开实施例还提出一种音乐生成装置，包括：

展示单元，用于响应于音乐生成控件的触发操作，展示音乐生成界面，该音乐生成界面中包括文本输入框、音乐生成控件和至少一个音乐配置项；

收集单元，用于响应于文本输入框的触发操作，获取用户输入的自定义文本，以及，响应于至少一个音乐配置项的触发操作，确定至少一个音乐配置项对应的配置信息；

生成单元，用于响应于音乐生成控件的触发操作，基于自定义文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括自定义文本对应语音的音乐。

第三方面，本公开实施例还提出一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如第一方面任一实施例所述音乐生成方法的步骤。

第四方面，本公开实施例还提出一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，当所述程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如第一方面任一实施例所述音乐生成方法的步骤。

可见，本公开的至少一个实施例中，通过响应用户触发音乐生成控件的操作，展示包括文本输入框、音乐生成控件和音乐配置项的音乐生成界面，以便用户在文本输入框中输入自定义文本和通过音乐配置项配置音乐旋律，进而响应用户触发音乐生成控件的操作，可以基于用户输入的自定义文本生成语音，并基于生成的语音和用户配置的音乐旋律，生成包括自定义文本对应语音的音乐，用户即使不具备音乐专业技能，也可以创作音乐，获取基于自定义文本生成的音乐，降低音乐创作的门槛，提升用户创作音乐的效率。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种音乐生成方法的示例性流程图；

图2是本公开实施例提供的一种写词成曲的方法示例性流程图；

图3是本公开实施例提供的一种第一界面的示意图；

图4为本公开实施例提供的一种卡点歌曲生成方法的示例性流程图；

图5是本公开实施例提供的一种第二界面的示意图；

图6是本公开实施例提供的一种音乐生成装置的示例性框图；

图7是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

目前，普通用户由于不具备音乐专业技能，可能无法快速创作音乐，但是有灵感时，仍然可以创作出优秀的自定义歌词。因此，本公开实施例提供一种音乐生成方案，可以基于自定义歌词生成歌曲，以便普通用户的灵感汇聚成歌曲，使得普通用户也可以成为音乐家。

本公开实施例提供了一种音乐生成方法、装置、系统及存储介质，通过响应用户触发音乐生成控件的操作，展示包括文本输入框、音乐生成控件和音乐配置项的音乐生成界面，以便用户在文本输入框中输入自定义文本和通过音乐配置项配置音乐旋律，进而响应用户触发音乐生成控件的操作，可以基于用户输入的自定义文本生成语音，并基于生成的语音和用户配置的音乐旋律，生成包括自定义文本对应语音的音乐，用户即使不具备音乐专业技能，也可以创作音乐，获取基于自定义文本生成的音乐，降低音乐创作的门槛，提升用户创作音乐的效率。

图1为本公开实施例提供的一种音乐生成方法的示例性流程图。该音乐生成方法可以包括但不限于如下步骤101至103：

101、响应于音乐生成控件的触发操作，展示音乐生成界面，该音乐生成界面中包括文本输入框、音乐生成控件和至少一个音乐配置项。

其中，音乐生成控件为音乐工具箱提供的一种用于音乐生成的功能控件。而音乐工具箱为集合多种音乐生成功能的软件实现。音乐工具箱可以作为一个软件组件添加到不同的对象中，其中，对象可以为网页页面，也可以为应用程序(Application，APP)。

文本输入框可以显示提示语，例如，提示语为“点击输入用于生成音乐的自定义文本”，以便用户知晓在文本输入框中输入自定义文本，且自定义文本用于生成音乐，也即音乐中包括自定义文本对应的语音。

至少一个音乐配置项可以理解为音乐相关的配置项，例如，音乐旋律、音色、音乐格式等。

102、响应于文本输入框的触发操作，获取用户输入的自定义文本，以及，响应于至少一个音乐配置项的触发操作，确定至少一个音乐配置项对应的配置信息。

文本输入框中可以显示示例文本，以便用户不输入自定义文本，也不影响后续生成音乐，只是生成的音乐中包括的是示例文本对应的语音。

音乐配置项可以预先设置有配置信息，以便用户不对音乐配置项进行配置，也不影响后续生成音乐，只是生成的音乐是以音乐配置项预先设置的配置信息进行生成。

103、响应于音乐生成控件的触发操作，基于自定义文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括自定义文本对应语音的音乐。

若未获取到用户输入的自定义文本，也即，用户未在文本输入框中输入自定义文本，则响应于音乐生成控件的触发操作，基于文本输入框中显示的示例文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括示例文本对应语音的音乐。

若用户未在文本输入框中输入自定义文本且用户未触发至少一个音乐配置项，则响应于音乐生成控件的触发操作，基于文本输入框中显示的示例文本生成语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于语音和音乐旋律生成包括示例文本对应语音的音乐。

可见，本实施例中，通过响应用户触发音乐生成控件的操作，展示包括文本输入框、音乐生成控件和音乐配置项的音乐生成界面，以便用户在文本输入框中输入自定义文本和通过音乐配置项配置音乐旋律，进而响应用户触发音乐生成控件的操作，可以基于用户输入的自定义文本生成语音，并基于生成的语音和用户配置的音乐旋律，生成包括自定义文本对应语音的音乐，用户即使不具备音乐专业技能，也可以创作音乐，获取基于自定义文本生成的音乐，降低音乐创作的门槛，提升用户创作音乐的效率。

图2为本公开实施例提供的一种写词成曲的方法示例性流程图。该写词成曲的方法可以包括但不限于如下步骤201至203：

201、响应于第一控件的触发操作，展示第一界面，该第一界面中包括歌词输入框、音乐生成控件和至少一个音乐配置项。

第一控件为写词成曲生成控件，第一界面为写词成曲生成界面。

歌词输入框可以显示提示语，例如，提示语为“点击输入歌词”，以便用户知晓在歌词输入框中输入自定义歌词，且自定义歌词用于生成音乐，也即音乐中包括自定义歌词对应的语音。

至少一个音乐配置项可以理解为音乐相关的配置项，包括：歌曲旋律配置项、音色配置项和音乐格式配置项。

202、响应于歌词输入框的触发操作，获取用户输入的自定义歌词，以及，响应于至少一个音乐配置项的触发操作，确定至少一个音乐配置项对应的配置信息。

其中，用户输入的自定义歌词可以为任意一段文字，不需要用户会写歌词，进一步降低创作难度。

歌词输入框中可以显示示例歌词，以便用户不输入自定义歌词，也不影响后续生成音乐，只是生成的音乐中包括的是示例歌词对应的语音。

203、响应于音乐生成控件的触发操作，基于歌词输入框中输入的自定义歌词生成歌词演唱的语音，并基于歌曲旋律配置项对应的配置信息确定歌曲旋律，基于歌词演唱的语音和歌曲旋律进行合成，生成包括歌词演唱的语音的歌曲。

其中，歌唱合成(Singing Voice Synthesis，SVS)是根据歌词和歌曲旋律合成歌唱。相比于文本转语音(Text To Speech，TTS)使机器“开口说话”，歌唱合成则是让机器唱歌，因此更具有娱乐性。可以通过预先训练生成歌唱合成模型，这样只需要将音色、自定义文本、歌曲旋律输入歌唱合成模型，即可由歌唱合成模型输出包括自定义文本对应语音的音乐。其中，歌唱合成模型的训练可以沿用现有技术，不再赘述。

在一些实施例中，若用户未在歌词输入框中输入自定义歌词，则响应于音乐生成控件的触发操作，基于歌词输入框中显示的示例文本生成语音，并基于歌曲旋律配置项对应的配置信息确定歌曲旋律，基于语音和歌曲旋律进行合成，生成包括示例文本对应语音的音乐。

在一些实施例中，若用户未触发音乐配置项，则响应于音乐生成控件的触发操作，基于自定义歌词生成歌词演唱的语音，并基于歌曲旋律配置项预先设置的配置信息确定歌曲旋律，基于歌词演唱的语音和歌曲旋律进行合成，生成包括歌词演唱的语音的音乐。

在一些实施例中，若用户未在歌词输入框中输入自定义歌词且用户未触发音乐配置项，则响应于音乐生成控件的触发操作，基于歌词输入框中显示的示例文本生成语音，并基于歌曲旋律配置项预先设置的配置信息确定歌曲旋律，基于语音和歌曲旋律进行合成，生成包括示例文本对应语音的音乐。

在一些实施例中，至少一个音乐配置项还包括：音色配置项和音乐格式配置项。相应地，基于音色配置项对应的音色，将歌词输入框中输入的自定义文本生成歌词演唱的语音，歌词演唱的语音的音色为音色配置项对应的音色；基于音乐格式配置项对应的音乐格式，基于歌词演唱的语音和歌曲旋律生成音乐格式的歌曲。

在一些实施例中，步骤203中基于歌词输入框中输入的自定义文本生成歌词演唱的语音，具体包括如下步骤2031和2032：

2031、将自定义文本与歌曲旋律配置项对应的歌曲旋律进行对齐，确定自定义文本中的文本单元与歌曲旋律中的音符之间的对应关系。其中，文本单元可以是字、词、句、发音单元中的一种或多种的组合。对齐的方式属于音乐生成领域的成熟技术，不再赘述。

2032、将对齐后的自定义文本生成歌词演唱的语音。

可见，本实施例中，通过响应用户触发第一控件的操作，展示包括歌词输入框、音乐生成控件和音乐配置项的第一界面，以便用户在歌词输入框中输入自定义歌词和通过音乐配置项配置音乐旋律，进而响应用户触发音乐生成控件的操作，可以基于用户输入的自定义歌词生成歌词演唱的语音，并基于歌词演唱的语音和用户配置的歌曲旋律，生成包括自定义歌词对应语音的歌曲，用户即使不具备音乐专业技能，也可以创作音乐，获取基于自定义歌词生成的具有较高融合度的自然演唱效果的歌曲，实现写词成曲的效果，提升用户创作音乐的效率。

图3是本公开实施例提供的一种第一界面的示意图。如图3所示，第一界面中包括歌词输入框、“生成歌曲”控件(即音乐生成控件)和多个音乐配置项：歌曲旋律配置项、音色配置项、音乐格式配置项和效果器配置项。

在图3中，为了便于用户快速了解第一界面中各元素的功能，在第一界面中增加简介：“自定义旋律与音色，输入歌词文本即可收获魔性口水歌”，简介的内容可以根据需要进行修改。另外，在歌词输入框下方增加建议：“输入四句中文文本，每句8～17个中文字符，以标点或折行形式短句，效果最佳。输入文本过长会被智能改编。”，建议的内容可以根据需要进行修改。另外，在“生成歌曲”控件下发可以显示生成歌曲的歌词。

在图3中，歌曲旋律配置项设计为下拉列表，用户触发该歌曲旋律配置项后，以下拉列表方式显示多个歌曲旋律，以便用户选择一个歌曲旋律。该歌曲旋律配置项预先设置的配置信息为下拉列表中的第一首旋律，因此，若用户未触发该歌曲旋律配置项，也即用户未选择歌曲旋律就点击了“生成歌曲”控件，则响应于“生成歌曲”控件的点击操作，基于用户在歌词输入框中输入的自定义歌词和第一首旋律，生成包括自定义歌词对应语音的音乐。

在图3中，音色配置项设计为下拉列表，用户触发该音色配置项后，以下拉列表方式显示多个音色，以便用户选择一个音色。该音色配置项预先设置的配置信息为下拉列表中的第一个音色(例如清新女声)，因此，若用户未触发该音色配置项，也即用户未选择音色就点击了“生成歌曲”控件，则响应于“生成歌曲”控件的点击操作，基于用户在歌词输入框中输入的自定义歌词和清新女声，生成包括自定义歌词对应语音的音乐。

在图3中，音乐格式配置项设计为下拉列表，用户触发该音乐格式配置项后，以下拉列表方式显示多个音乐格式，以便用户选择一个音乐格式。该音乐格式配置项预先设置的配置信息为下拉列表中的第一个音乐格式(例如mp3格式)，因此，若用户未触发该音乐格式配置项，也即用户未选择音乐格式就点击了“生成歌曲”控件，则响应于“生成歌曲”控件的点击操作，生成格式为mp3格式的包括自定义歌词对应语音的音乐。

在图3中，效果器配置项设计为开关，用户点击该开关以打开效果器或关闭效果器，效果器配置项预先设置的配置信息为打开效果器。效果器用于改变原有声音的波形，调制或延迟声波的相位、增强声波的谐波成分等一系列措施，产生各种特殊声效，给音色施加effect(效果、影响)，使音色更加明亮。需要说明的是效果器可以实现为软件组件。

在一些实施例中，第一界面中还可以包括图3中未示出的播放器，用以播放生成的歌曲。播放器选项包括但不限于：下载、收藏。

图4为本公开实施例提供的一种卡点歌曲生成方法的示例性流程图。该卡点歌曲生成方法可以包括但不限于如下步骤401至403：

401、响应于第二控件的触发操作，展示第二界面，该第二界面中包括标语输入框、音乐生成控件和至少一个音乐配置项。

第二控件为卡点歌曲生成控件，第二界面为卡点歌曲生成界面。

标语(Slogan)输入框可以显示提示语，例如，提示语为“点击输入Slogan”，以便用户知晓在标语输入框中输入自定义标语，且自定义标语用于生成音乐，也即音乐中包括自定义标语对应的语音。

至少一个音乐配置项可以理解为音乐相关的配置项，包括：音乐旋律配置项、音色配置项和音乐格式配置项。

402、响应于标语输入框的触发操作，获取用户输入的自定义标语，以及，响应于至少一个音乐配置项的触发操作，确定至少一个音乐配置项对应的配置信息。

标语输入框中可以显示示例标语，以便用户不输入自定义标语，也不影响后续生成音乐，只是生成的音乐中包括的是示例标语对应的语音。

403、响应于音乐生成控件的触发操作，基于自定义标语生成标语的语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于标语的语音和音乐旋律生成包括自定义标语对应语音的音乐。

在一些实施例中，步骤403中基于标语的语音和音乐旋律生成包括标语的语音的音乐，包括：确定音乐旋律中的音乐关键点，音乐旋律在音乐关键点的位置处存在突变；基于音乐关键点的位置，将标语的语音与音乐旋律进行合成，得到合成音乐；在合成音乐中，标语的语音出现在音乐旋律的音乐关键点的位置处。

在一些实施例中，至少一个音乐配置项还包括：音色配置项和音乐格式配置项。相应地，基于音色配置项对应的音色，将标语输入框中输入的自定义文本生成标语的语音，标语的语音的音色为音色配置项对应的音色；基于音乐格式配置项对应的音乐格式，基于标语的语音和音乐旋律生成包括音乐格式的音乐。

在一些实施例中，若用户未在标语输入框中输入自定义标语，则响应于音乐生成控件的触发操作，基于标语输入框中显示的示例标语生成示例标语的语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于示例标语的语音和音乐旋律生成包括示例标语对应语音的音乐。

在一些实施例中，若用户未触发音乐配置项，则响应于音乐生成控件的触发操作，基于自定义标语生成标语的语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于标语的语音和音乐旋律生成包括自定义标语对应语音的音乐。

在一些实施例中，若用户未在标语输入框中输入自定义标语且用户未触发音乐配置项，则响应于音乐生成控件的触发操作，基于标语输入框中显示的示例标语生成示例标语的语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于示例标语的语音和音乐旋律生成包括示例标语对应语音的音乐。

在一些实施例中，步骤403中所述自定义标语对应语音为采用文本转语音(TextTo Speech，TTS)方式得到的语音。

可见，本实施例中，通过响应用户触发第二控件的操作，展示包括标语输入框、音乐生成控件和音乐配置项的第二界面，以便用户在标语输入框中输入自定义标语和通过音乐配置项配置音乐旋律，进而响应用户触发音乐生成控件的操作，可以基于用户输入的自定义标语生成标语的语音，并基于标语的语音和用户配置的音乐旋律，生成包括自定义标语对应语音的音乐，用户即使不具备音乐专业技能，也可以获取基于自定义文本生成的音乐，提升用户创作音乐的效率。

图5是本公开实施例提供的一种第二界面的示意图。如图5所示，第二界面中包括标语输入框、“生成歌曲”控件(即音乐生成控件)和多个音乐配置项：音色配置项和音乐格式配置项。

在图5中，为了便于用户快速了解写第二界面中各元素的功能，在第二界面中增加简介：“输入slogan，定制专属卡点歌曲”，简介的内容可以根据需要进行修改。另外，在标语输入框下方增加建议：“仅支持中英文输入，长度建议：中文＜＝4个单词。字符数过多会导致语速过快影响听感。”，建议的内容可以根据需要进行修改。

在图5中，音色配置项设计为下拉列表，用户触发该音色配置项后，以下拉列表方式显示多个音色，以便用户选择一个音色。该音色配置项预先设置的配置信息为下拉列表中的第一个音色，因此，若用户未触发该音色配置项，也即用户未选择音色就点击了“生成歌曲”控件，则响应于“生成歌曲”控件的点击操作，基于用户在标语输入框中输入的自定义标语和第一个音色，生成包括自定义标语对应语音的音乐。

在图5中，音乐格式配置项设计为下拉列表，用户触发该音乐格式配置项后，以下拉列表方式显示多个音乐格式，以便用户选择一个音乐格式。该音乐格式配置项预先设置的配置信息为下拉列表中的第一个音乐格式(例如mp3格式)，因此，若用户未触发该音乐格式配置项，也即用户未选择音乐格式就点击了“生成歌曲”控件，则响应于“生成歌曲”控件的点击操作，生成格式为mp3格式的包括自定义标语对应语音的音乐。

在一些实施例中，第二界面中还可以包括图5中未示出的播放器，用以播放生成的歌曲。播放器选项包括但不限于：下载、收藏。

图6为本公开实施例提供的一种音乐生成装置，该音乐生成装置包括但不限于：展示单元61、收集单元62和生成单元63。

展示单元61，用于响应于音乐生成控件的触发操作，展示音乐生成界面，该音乐生成界面中包括文本输入框、音乐生成控件和至少一个音乐配置项；

收集单元62，用于响应于文本输入框的触发操作，获取用户输入的自定义文本，以及，响应于至少一个音乐配置项的触发操作，确定至少一个音乐配置项对应的配置信息；

生成单元63，用于响应于音乐生成控件的触发操作，基于自定义文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括自定义文本对应语音的音乐。

在一些实施例中，文本输入框中显示示例文本，生成单元63还用于：若未获取到用户输入的自定义文本，则响应于音乐生成控件的触发操作，基于示例文本生成语音，并基于至少一个音乐配置项对应的配置信息确定音乐旋律，基于语音和音乐旋律生成包括示例文本对应语音的音乐。

在一些实施例中，音乐配置项可以预先设置有配置信息，生成单元63还用于：若用户未触发至少一个音乐配置项，则响应于音乐生成控件的触发操作，基于自定义文本生成语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于语音和音乐旋律生成包括自定义文本对应语音的音乐。

在一些实施例中，文本输入框中显示示例文本，音乐配置项可以预先设置有配置信息，生成单元63还用于：若未获取到用户输入的自定义文本且用户未触发至少一个音乐配置项，则响应于音乐生成控件的触发操作，基于示例文本生成语音，并基于至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于语音和音乐旋律生成包括示例文本对应语音的音乐。

生成单元63用于响应于音乐生成控件的触发操作，基于歌词输入框中输入的自定义文本生成歌词演唱的语音，并基于歌曲旋律配置项对应的配置信息确定歌曲旋律，基于歌词演唱的语音和歌曲旋律进行合成，生成包括歌词演唱的语音的歌曲。

在一些实施例中，生成单元63基于歌词输入框中输入的自定义文本生成歌词演唱的语音，包括：将自定义文本与歌曲旋律配置项对应的歌曲旋律进行对齐，确定自定义文本中的文本单元与歌曲旋律中的音符之间的对应关系；将对齐后的自定义文本生成歌词演唱的语音。

在一些实施例中，至少一个音乐配置项还包括：音色配置项和音乐格式配置项。生成单元63用于基于音色配置项对应的音色，将歌词输入框中输入的自定义文本生成歌词演唱的语音，歌词演唱的语音的音色为音色配置项对应的音色；基于音乐格式配置项对应的音乐格式，基于歌词演唱的语音和歌曲旋律生成音乐格式的歌曲。

在一些实施例中，音乐生成控件为第二控件；音乐生成界面为第二界面；文本输入框为标语输入框；至少一个音乐配置项包括音乐旋律配置项。生成单元63用于响应于音乐生成控件的触发操作，基于标语输入框中输入的自定义文本生成标语的语音，并基于音乐旋律配置项对应的配置信息确定音乐旋律，基于标语的语音和音乐旋律生成包括标语的语音的音乐。

在一些实施例中，生成单元63基于标语的语音和音乐旋律生成包括标语的语音的音乐，包括：确定音乐旋律中的音乐关键点，音乐旋律在音乐关键点的位置处存在突变；基于音乐关键点的位置，将标语的语音与音乐旋律进行合成，得到合成音乐；在合成音乐中，标语的语音出现在音乐旋律的音乐关键点的位置处。

在一些实施例中，至少一个音乐配置项还包括：音色配置项和音乐格式配置项。生成单元63用于基于音色配置项对应的音色，将标语输入框中输入的自定义文本生成标语的语音，标语的语音的音色为音色配置项对应的音色；基于音乐格式配置项对应的音乐格式，基于标语的语音和音乐旋律生成包括音乐格式的音乐。

在一些实施例中，音乐生成装置中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如音乐生成装置中的至少两个单元可以实现为一个单元；音乐生成装置中的各单元也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图7是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。在一些实施例中，该系统可用于大数据处理，至少一个计算装置和至少一个存储装置可以为分布式部署，使该系统为分布式数据处理集群。

如图7所示，系统包括：至少一个计算装置71、至少一个存储指令的存储装置72。可以理解，本实施例中的存储装置72可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储装置72存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础任务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用任务。实现本公开实施例提供的音乐生成方法的程序可以包含在应用程序中。

在本公开实施例中，至少一个计算装置71通过调用至少一个存储装置72存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，至少一个计算装置71用于执行本公开实施例提供的音乐生成方法各实施例的步骤。

本公开实施例提供的音乐生成方法可以应用于计算装置71中，或者由计算装置71实现。计算装置71可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过计算装置71中的硬件的集成逻辑电路或者软件形式的指令完成。上述的计算装置71可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的音乐生成方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储装置72，计算装置71读取存储装置72中的信息，结合其硬件完成方法的步骤。

本公开实施例还提出一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，当所述程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如音乐生成方法各实施例的步骤，为避免重复描述，在此不再赘述。其中，计算装置可以为图7所示的计算装置71。在一些实施例中，计算机可读存储介质为非暂态计算机可读存储介质。

本公开实施例还提出一种计算机程序产品，其中，该计算机程序产品包括计算机程序，该计算机程序存储在非暂态计算机可读存储介质中，计算机的至少一个处理器从存储介质读取并执行该计算机程序，使得计算机执行如音乐生成方法各实施例的步骤，为避免重复描述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种音乐生成方法，所述方法包括：

响应于所述文本输入框的触发操作，获取用户输入的自定义文本，以及，响应于所述至少一个音乐配置项的触发操作，确定所述至少一个音乐配置项对应的配置信息；

响应于所述音乐生成控件的触发操作，基于所述自定义文本生成语音，并基于所述至少一个音乐配置项对应的配置信息确定音乐旋律，基于所述语音和所述音乐旋律生成包括所述自定义文本对应语音的音乐。

2.根据权利要求1所述的方法，其中，所述文本输入框中显示示例文本，所述方法还包括：

若未获取到用户输入的自定义文本，则响应于所述音乐生成控件的触发操作，基于所述示例文本生成语音，并基于所述至少一个音乐配置项对应的配置信息确定音乐旋律，基于所述语音和所述音乐旋律生成包括所述示例文本对应语音的音乐。

3.根据权利要求1所述的方法，其中，所述音乐配置项可以预先设置有配置信息，所述方法还包括：

若用户未触发所述至少一个音乐配置项，则响应于所述音乐生成控件的触发操作，基于所述自定义文本生成语音，并基于所述至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于所述语音和所述音乐旋律生成包括所述自定义文本对应语音的音乐。

4.根据权利要求1所述的方法，其中，所述文本输入框中显示示例文本，所述音乐配置项可以预先设置有配置信息，所述方法还包括：

若未获取到用户输入的自定义文本且用户未触发所述至少一个音乐配置项，则响应于所述音乐生成控件的触发操作，基于所述示例文本生成语音，并基于所述至少一个音乐配置项预先设置的配置信息确定音乐旋律，基于所述语音和所述音乐旋律生成包括所述示例文本对应语音的音乐。

5.根据权利要求1至4任一项所述的方法，其中，所述音乐生成控件为第一控件；所述音乐生成界面为第一界面；所述文本输入框为歌词输入框；所述至少一个音乐配置项包括歌曲旋律配置项；

响应于所述音乐生成控件的触发操作，基于所述歌词输入框中输入的自定义文本生成歌词演唱的语音，并基于所述歌曲旋律配置项对应的配置信息确定歌曲旋律，基于所述歌词演唱的语音和所述歌曲旋律进行合成，生成包括所述歌词演唱的语音的歌曲。

6.根据权利要求5所述的方法，其中，所述基于所述歌词输入框中输入的自定义文本生成歌词演唱的语音，包括：

将所述自定义文本与所述歌曲旋律配置项对应的歌曲旋律进行对齐，确定所述自定义文本中的文本单元与所述歌曲旋律中的音符之间的对应关系；

将对齐后的自定义文本生成歌词演唱的语音。

7.根据权利要求5所述的方法，其中，所述至少一个音乐配置项还包括：音色配置项和音乐格式配置项；

基于所述音色配置项对应的音色，将所述歌词输入框中输入的自定义文本生成歌词演唱的语音，所述歌词演唱的语音的音色为所述音色配置项对应的音色；

基于所述音乐格式配置项对应的音乐格式，基于所述歌词演唱的语音和所述歌曲旋律生成所述音乐格式的歌曲。

8.根据权利要求1至4任一项所述的方法，其中，所述音乐生成控件为第二控件；所述音乐生成界面为第二界面；所述文本输入框为标语输入框；所述至少一个音乐配置项包括音乐旋律配置项；

响应于所述音乐生成控件的触发操作，基于所述标语输入框中输入的自定义文本生成标语的语音，并基于所述音乐旋律配置项对应的配置信息确定音乐旋律，基于所述标语的语音和所述音乐旋律生成包括所述标语的语音的音乐。

9.根据权利要求8所述的方法，其中，所述基于所述标语的语音和所述音乐旋律生成包括所述标语的语音的音乐，包括：

确定所述音乐旋律中的音乐关键点，所述音乐旋律在所述音乐关键点的位置处存在突变；

基于所述音乐关键点的位置，将所述标语的语音与所述音乐旋律进行合成，得到合成音乐；在所述合成音乐中，所述标语的语音出现在所述音乐旋律的所述音乐关键点的位置处。

10.根据权利要求8所述的方法，其中，所述至少一个音乐配置项还包括：音色配置项和音乐格式配置项；

基于所述音色配置项对应的音色，将所述标语输入框中输入的自定义文本生成标语的语音，所述标语的语音的音色为所述音色配置项对应的音色；

基于所述音乐格式配置项对应的音乐格式，基于所述标语的语音和所述音乐旋律生成包括所述音乐格式的音乐。

11.一种音乐生成装置，所述装置包括：

收集单元，用于响应于所述文本输入框的触发操作，获取用户输入的自定义文本，以及，响应于所述至少一个音乐配置项的触发操作，确定所述至少一个音乐配置项对应的配置信息；

生成单元，用于响应于所述音乐生成控件的触发操作，基于所述自定义文本生成语音，并基于所述至少一个音乐配置项对应的配置信息确定音乐旋律，基于所述语音和所述音乐旋律生成包括所述自定义文本对应语音的音乐。

12.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至10任一项所述音乐生成方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，当所述程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如权利要求1至10任一项所述音乐生成方法的步骤。