CN111862911B

CN111862911B - 歌曲即时生成方法和歌曲即时生成装置

Info

Publication number: CN111862911B
Application number: CN202010532245.4A
Authority: CN
Inventors: 赵文骁; 郭靖; 盛聪尔
Original assignee: Beijing Time Domain Technology Co ltd
Current assignee: Beijing Time Domain Technology Co ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2023-11-14
Anticipated expiration: 2040-06-11
Also published as: CN111862911A

Abstract

本发明公开了一种歌曲即时生成方法和歌曲即时生成装置。其中，该方法至少可以包括：获取待生成歌曲的歌词和伴奏音频；当检测到用户的操作时，基于待生成歌曲的歌词、伴奏音频和音高，生成目标歌曲；其中，用户的操作用于指示音高，音高与待生成歌曲的歌词相对应。通过本发明实施例，在检测到用户的操作的情况下，就生成目标歌曲，从而可以使得用户执行完操作后即可生成目标歌曲，由此解决了如何使得用户易于创作歌曲的技术问题，而且符合了大部分人的操作习惯。

Description

歌曲即时生成方法和歌曲即时生成装置

技术领域

本申请涉及音频技术领域，特别是涉及一种歌曲即时生成方法和歌曲即时生成装置。

背景技术

随着经济的发展，人民的文化需求越来越高，用户的创作热情也越来越高。通过短视频平台上用户创作的内容可看出，用户对音乐创作的需求越来越大。

针对用户的这种需求，各种歌曲创作软件涌现出来。

在现有技术中，歌曲的合成一般是将作词与作曲分开来完成的。其中，作曲部分一般使用数字音频工作站，先创作midi(乐器数字接口)音轨，再分别给予音色试听，最后，由人演唱主旋律部分，从而形成歌曲。

因此，现有技术因为将作词与作曲分开来进行而存在无法使得用户易于创作歌曲的缺陷。

发明内容

本公开实施例的主要目的是提供一种歌曲即时生成方法和歌曲即时生成装置，以至少部分地解决如何使得用户易于创作歌曲的技术问题。

根据本公开的一个方面，提供以下技术方案：

一种歌曲即时生成方法，所述方法包括：

获取待生成歌曲的歌词和伴奏音频；

当检测到用户的操作时，基于所述待生成歌曲的歌词、所述伴奏音频和音高，生成目标歌曲；其中，所述用户的操作用于指示所述音高，所述音高与所述待生成歌曲的歌词相对应。

进一步地，所述方法应用于终端；所述方法包括：

所述伴奏音频预置于所述终端，用于在检测到用户的操作时被调用。

进一步地，所述终端包括屏幕；所述屏幕包括若干个区域，各区域分别对应于一个音高；所述当检测到用户的操作时，基于所述待生成歌曲的歌词、所述伴奏音频和音高，生成目标歌曲的步骤具体包括：

如果所述用户的操作用于选定所述伴奏音频，则记录所述用户选定的伴奏音频的音阶；

使用所述音阶，更新所述屏幕上各区域所对应的所述音高。

进一步地，所述方法应用于终端，所述终端包括屏幕；所述方法还包括：

显示虚拟形象；

当检测到所述用户触摸所述屏幕时，根据所述待生成歌曲的歌词播放相应的音高，并触发所述虚拟形象进行动作；其中，所述虚拟形象的动作与所述相应的音高相同步。

当检测到所述用户使用手指或物体触摸所述屏幕，亦或通过鼠标点击所述屏幕时，触发所述虚拟形象转向所述手指或所述物体，亦或鼠标指针的方向，并同时显示所述虚拟形象演唱所述相应的音高的动作。

进一步地，所述终端包括节拍开关控件；所述方法还包括：

如果所述用户打开所述节拍开关控件，则获取当前目标歌曲的伴奏音频中各节拍的位置；

当检测到所述用户的当前操作时，记录所述用户的所述当前操作；

在所述当前动作所处节拍位置的下一节拍位置处，根据所述当前操作，播放相应的音高并且控制所述虚拟形象执行与所述用户的所述当前操作相应的动作。

进一步地，所述方法还包括：

展示所述目标歌曲的当前播放界面；其中，所述当前播放界面包括播放时间轴控件，所述播放时间轴控件包括时间滑块；

当检测到所述用户调整所述时间滑块在所述播放时间轴控件上位置的操作时，确定距离所述位置最近的所述伴奏音频中的最近节拍；

获取所述用户确定的当前音高；

将所述最近节拍之前预定时长内所述伴奏音频中的所有历史音高，替换为所述当前音高。

进一步地，所述方法应用于终端；所述终端与云端通信连接；所述方法还包括：

将生成的目标歌曲发送至所述云端；所述云端用于通过人工智能歌声合成模型对所述目标歌曲进行拟人化处理；

响应于所述云端对所述目标歌曲拟人化处理完成的指令，接收所述云端发送来的拟人化处理后的目标歌曲。

根据本公开的另一个方面，还提供了以下技术方案：

一种歌曲即时生成装置，所述装置包括：

第一获取单元，用于获取待生成歌曲的歌词和伴奏音频；

合成单元，用于在检测到用户的操作的情况下，基于所述待生成歌曲的歌词、所述伴奏音频和音高，合成目标歌曲；其中，所述用户的操作用于指示所述音高，所述音高与所述待生成歌曲的歌词相对应。

进一步地，所述装置应用于终端；所述伴奏音频预置于所述终端，用于在检测到用户的操作时被调用。

进一步地，所述终端包括屏幕；所述屏幕包括若干个区域，各区域分别对应于一个音高；所述合成单元具体用于：

使用所述音阶，更新所述屏幕上各区域所对应的所述音高。

进一步地，所述装置应用于终端，所述终端包括屏幕；所述装置还包括：

显示单元，用于显示虚拟形象；

第一触发单元，用于在检测到所述用户触摸所述屏幕时，根据所述待生成歌曲的歌词，播放相应的音高，并触发所述虚拟形象进行动作；其中，所述虚拟形象的动作与所述相应的音高相同步。

第二触发单元，用于在检测到所述用户使用手指或物体触摸所述屏幕，亦或通过鼠标点击所述屏幕时，触发所述虚拟形象转向所述手指或所述物体，亦或鼠标指针的方向，并同时显示所述虚拟形象演唱所述相应的音高的动作。

进一步地，所述终端包括节拍开关控件；所述装置还包括：

第二获取单元，用于在所述用户打开所述节拍开关控件的情况下，获取当前目标歌曲的伴奏音频中各节拍的位置；

记录单元，用于在检测到所述用户的当前操作时，记录所述用户的所述当前操作；

执行单元，用于在所述当前动作所处节拍位置的下一节拍位置处，根据所述当前操作，播放相应的音高并且控制所述虚拟形象执行与所述用户的所述当前操作相应的动作。

进一步地，所述装置还包括：

展示单元，用于展示所述目标歌曲的当前播放界面；其中，所述当前播放界面包括播放时间轴控件，所述播放时间轴控件包括时间滑块；

确定单元，用于在检测到所述用户调整所述时间滑块在所述播放时间轴控件上位置的操作时，确定距离所述位置最近的所述伴奏音频中的最近节拍；

第三获取单元，用于获取所述用户确定的当前音高；

替换单元，用于将所述最近节拍之前预定时长内所述伴奏音频中的所有历史音高，替换为所述当前音高。

进一步地，所述装置应用于终端；所述终端与云端通信连接；所述装置还包括：

发送单元，用于将合成的目标歌曲发送至所述云端；所述云端用于通过人工智能歌声合成模型对所述目标歌曲进行拟人化处理；

接收单元，用于响应于所述云端对所述目标歌曲拟人化处理完成的指令，接收所述云端发送来的拟人化处理后的目标歌曲；

播放单元，用于播放所述拟人化处理后的目标歌曲。

与现有技术相比，本申请至少具有以下有益效果：

本公开实施例提供一种歌曲即时生成方法和歌曲即时生成装置。其中，该方法至少可以包括：获取待生成歌曲的歌词和伴奏音频；当检测到用户的操作时，基于待生成歌曲的歌词、伴奏音频和音高，生成目标歌曲；其中，用户的操作用于指示音高，音高与待生成歌曲的歌词相对应。

本公开实施例通过采取上述技术方案，在检测到用户的操作的情况下，就生成目标歌曲，从而可以使得用户执行完操作(例如，滑动手指、点触屏幕、鼠标点击操作等)后即可及时地生成目标歌曲，由此使得用户易于创作歌曲。而且，用户可以通过诸如滑动手指、按键、点击等操作来实现目标歌曲的生成，符合了大部分人的操作习惯。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1示例性地示出了歌曲即时生成方法的流程示意图；

图2示例性地示出了分别具有不同音高的若干个区域的示意图；

图3示例性地示出了歌曲即时生成装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

为了满足用户对音乐创作的需求，各种歌曲合成技术不断涌现出来。例如：现有技术(一)首先产生midi音轨，再分别给予音色试听，最后，由人演唱主旋律部分，从而形成歌曲；现有技术(二)使用语音合成软件来生成歌曲，其与前一种方式不同的是，无需由人演唱就可以生成歌曲；现有技术(三)利用哼唱作曲技术，将人的哼唱识别为曲，并填词，最后再由人演唱成为歌曲。

上述现有技术(一)和现有技术(二)在生成歌曲的过程中，软件的操作难度高，由此导致了无法及时获得所生成的歌曲的问题。

上述现有技术(三)在合成歌曲的过程中，因为用户难以用准确的音高哼唱出旋律，且对哼唱走调的无感，而无法准确识别哼唱旋律，由此存在无法及时地获得所生成的歌曲的缺陷。

因此，现有技术因为将作词与作曲分开来进行而存在无法及时地获得所生成的歌曲的缺陷。

鉴于此，为了解决如何使得用户易于创作歌曲的技术问题，本公开实施例提出一种歌曲即时生成方法。该方法可以应用于终端。该终端包括但不限于平板电脑、智能手机、掌上阅读器、膝上型计算机、台式计算机、可穿戴设备等。如图1所示，该方法至少可以包括以下步骤：

S1000：获取待生成歌曲的歌词和伴奏音频；

S1010：当检测到用户的操作时，基于待生成歌曲的歌词、伴奏音频和音高，生成目标歌曲；其中，该用户的操作用于指示该音高，该音高与该待生成歌曲的歌词相对应。

其中，用户的操作可以为在手机上的触摸操作，也可以为在台式计算机上的鼠标操作，本公开对此不作限定。

在本实施例中，用户可以通过终端的屏幕输入歌词。通常，歌曲的歌词是以句为单位进行分割的。所以，用户能够以一句一行的方式向终端输入歌词。

举例来说，用户通过对屏幕的触摸动作来指示音高的方式可以通过下实施方式来实现：

预先将终端的屏幕划分为若干个区域。每个区域具有不同的音高。图2示例性地示出了分别具有不同音高的若干个区域的示意图。如图 2所示，不同的区域可以分别具有C1、D1、E1、F1、G1、A1、B1、 C2、D2音高。当用户对屏幕实施触摸动作时，例如，用户用手指滑动触摸、用户用手指点触摸等，以滑动触摸为例，如果用户的手指滑动至某个区域，并在该区域停留预定时长，则将该区域对应的音高确定为该用户选定的音高，以供与该用户输入的歌词和所选定的伴奏音频，合成目标歌曲。其中，预定时长可以根据实际情况进行设置，例如，可以为2秒、3秒等。

本公开实施例通过采取上述技术方案，可以使得用户执行完操作 (例如，滑动手指、点触屏幕、鼠标点击操作等)后即可合成目标歌曲。这与其他歌声合成软件需要先编辑完成后才能进行音频渲染的后渲染技术相比，降低了目标歌曲的合成难度，而且用户可以通过诸如滑动手指、按键等操作动作来实现目标歌曲的合成，符合了大部分人的操作习惯。

在上述实施例中，伴奏音频可以由用户导入终端，也可以预先存储在终端中，以用于歌曲的合成。

在一个可选的实施例中，在图1所示实施例的基础上，该歌曲即时生成方法应用于终端；该方法还可以包括：该伴奏音频预置于终端，用于在检测到用户的操作时被调用。

在具体实施过程中，可以按照不同的风格，将预置于终端的伴奏音频分类或通过标签标记为抒情、摇滚、电子、怀旧、说唱等。通过本实施例，用户在进行创作的时候，可以根据自己喜好的风格从终端中选择具有该风格的伴奏音频，以用于目标歌曲的合成。

在一个可选的实施例中，终端包括屏幕，该屏幕包括若干个区域，各区域分别对应于一个音高；步骤S1010具体可以包括：

Sa1：如果用户的操作用于选定伴奏音频，则记录该用户选定的伴奏音频的音阶；

Sa2：使用该音阶，更新屏幕上各区域所对应的音高。

用户选定伴奏音频的操作可以是用户在终端的屏幕上选定伴奏音频的触摸操作，也可以是用户在台式计算机上通过键盘或鼠标选定伴奏音频的操作。

在本实施例中，终端的屏幕上展示出不同风格的伴奏音频的选项，以供用户可以在屏幕上，以触摸、鼠标或键盘等方式选定伴奏音频。

通过本实施例，用户可以使用预置的伴奏音频，来实现先创作出样曲再进一步打磨成曲的技术效果。

在一个可选的实施例中，在图1所示实施例的基础上，该方法可以应用于终端，该终端包括屏幕；该歌曲即时生成方法还可以包括：

S1020：显示虚拟形象；

S1030：当检测到用户触摸屏幕时，根据待生成歌曲的歌词播放相应的音高，并触发虚拟形象进行动作；其中，虚拟形象的动作与相应的音高相同步。

其中，该虚拟形象可以为二次元歌姬虚拟形象、小萝莉形象、动物形象、怪兽形象等。虚拟形象的动作可以为舞蹈动作、武术动作等。

上述虚拟形象可以使用Live2D技术(一种绘图渲染技术，其通过一系列的连续图像和人物建模来生成类似三维模型的二维图像)生成，也可以使用3维模型来生成。

在本实施例中，当播放相应的音高时，触发所述虚拟形象进行动作，可以使虚拟形象跟着歌曲一起起舞。本实施例通过虚拟形象演唱的形式，增强与用户之间的互动性，可以更进一步的激发人的灵感，并且增加创作乐趣。

在一个可选的实施例中，该方法应用于终端，该终端包括屏幕；在上述实施例的基础上，该方法还可以包括：

当检测到用户使用手指或物体触摸屏幕，亦或使用鼠标点击屏幕时，触发虚拟形象转向手指或所述物体，亦或鼠标指针的方向，并同时显示虚拟形象演唱相应的音高的动作。

在本实施例中，因为虚拟形象的动作与歌曲相同步；所以，虚拟形象演唱歌词的动作与歌曲相同步。当用户使用手指或物体触摸屏幕，亦或鼠标点击屏幕时，虚拟形象转向该手指或物体亦或鼠标指针，并演唱相应的音高，例如，歌姬虚拟形象看向用户的手指，并跟着歌曲同步演唱相应的音高，由此实现了及时反馈的方式，让用户轻轻滑动手指或轻点鼠标就可以控制虚拟形象唱歌，降低了歌曲创作的门槛，使得普通人都可以做出自己的目标歌曲。

图3示例性地示出了节拍与时间窗口在时间上的关系示意图。图 3中的t表示时间。

在一个可选的实施例中，在上述实施例的基础上，终端可以包括节拍开关控件；该方法具体还可以包括：

S1040：如果用户打开节拍开关控件，则获取当前目标歌曲的伴奏音频中各节拍的位置；

S1050：当检测到用户的当前操作时，记录用户的当前操作；

S1060：在当前动作所处节拍位置的下一节拍位置处，根据当前操作，播放相应的音高并且控制虚拟形象执行与用户的当前操作相应的动作。

在本实施例中，当用户使用手指或物体触摸屏幕或从屏幕上抬起，亦或是通过鼠标点击屏幕或停止点击屏幕时，没有立刻进行歌曲反馈，而是记录用户的手指或所使用的物体亦或是点击鼠标的当前操作；并且，在当前动作所处节拍位置的下一节拍位置处，根据当前操作，作出响应，播放相应的音高并且控制虚拟形象执行与用户的操作相应的动作，例如，歌姬演唱歌曲的动作、歌姬停止演唱歌曲的动作等。

本实施例通过采取上述技术方案，实现了对用户输入的量化处理，使得无论用户如何操作，虚拟形象的演唱歌声总是符合歌曲的节奏韵律，而且，通过在当前动作所处节拍位置的下一节拍位置处对用户的动作作出响应而执行相应的操作，可以显著地减少用户在操作时感受到的延迟感，而且还保持了歌声的节奏韵律不变，实现了“用户随手一划”或“用户随手一点”就能产生用户期待结果的效果。

在一个可选的实施例中，在图1所示实施例的基础上，该方法还可以包括：

S1070：展示目标歌曲的当前播放界面；其中，当前播放界面包括播放时间轴控件，播放时间轴控件包括时间滑块；

S1080：当检测到用户调整时间滑块在播放时间轴控件上位置的操作时，确定距离位置最近的伴奏音频中的最近节拍；

S1090：获取用户确定的当前音高；

S1100：将最近节拍之前预定时长内伴奏音频中的所有历史音高，替换为当前音高。

其中，用户确定当前音高的方式可以参考前述实施例中相关描述，在此不再赘述。

在实际应用中，当用户即兴创作完歌曲后，可能会对该歌曲中的一部分不满意，而需要再对其进行修改，例如，可以修改歌曲中某一段的音高。

通过本实施例，可以使得用户实现“随手试一试或点击一下，以至于形成最终合格目标歌曲”的创作体验，提高了用户创作过程中的乐趣，避免了创作畏难情绪的产生。

为了避免目标歌曲带有生硬感，使之具有如真人演唱般地歌声，在一个可选的实施例中，在图1所示实施例的基础上，该方法应用于终端；该终端与云端通信连接；该方法还可以包括：

S1110：将生成的目标歌曲发送至云端；该云端用于通过人工智能歌声合成模型对该目标歌曲进行拟人化处理；

S1120：响应于云端对目标歌曲拟人化处理完成的指令，接收云端发送来的拟人化处理后的目标歌曲；

S1130：播放拟人化处理后的目标歌曲。

其中，人工智能歌声合成模型可以通过神经网络进行预训练而得到。

基于与上述方法实施例相同的技术构思，本公开实施例还提供一种歌曲即时生成装置，如图3所示，该装置至少可以包括：第一获取单元42和合成单元44。其中，第一获取单元42用于获取待生成歌曲的歌词和伴奏音频。合成单元44用于在检测到用户的操作的情况下，基于待生成歌曲的歌词、伴奏音频和音高，合成目标歌曲；其中，用户的操作用于指示音高，音高与待生成歌曲的歌词相对应。其中，用户的操作可以为在手机上的触摸操作，也可以为在台式计算机上的鼠标操作，本公开对此不作限定。本公开实施例通过采取上述技术方案，利用第一获取单元42和合成单元44，在检测到用户的操作的情况下，就合成目标歌曲，从而可以使得用户执行完操作(例如，滑动手指、点触屏幕、鼠标点击操作等)后即可合成目标歌曲。这与其他歌声合成软件需要先编辑完成后才能进行音频渲染的后渲染技术相比，降低了目标歌曲的合成难度，而且用户可以通过诸如滑动手指、按键等操作动作来实现目标歌曲的合成，符合了大部分人的操作习惯。

在一个可选的实施例中，该装置应用于终端；伴奏音频预置于终端，用于在检测到用户的操作时被调用。

在一个可选的实施例中，终端包括屏幕；屏幕包括若干个区域，各区域分别对应于一个音高；合成单元44具体用于：如果用户的操作用于选定伴奏音频，则记录用户选定的伴奏音频的音阶；使用音阶，更新屏幕上各区域所对应的音高。

在一个可选的实施例中，该装置应用于终端，该终端包括屏幕；该装置还可以包括：显示单元和第一触发单元。其中，显示单元用于显示虚拟形象。第一触发单元用于在检测到用户触摸屏幕时，根据待生成歌曲的歌词，播放相应的音高，并触发虚拟形象进行动作；其中，虚拟形象的动作与相应的音高相同步。

在一个可选的实施例中，该装置应用于终端，终端包括屏幕；装置还可以包括第二触发单元。该第二触发单元用于在检测到用户使用手指或物体触摸屏幕，亦或通过鼠标点击屏幕时，触发虚拟形象转向手指或物体，亦或鼠标指针的方向，并同时显示虚拟形象演唱相应的音高的动作。

在一个可选的实施例中，终端包括节拍开关控件；该装置还可以包括：第二获取单元、记录单元和执行单元。其中，第二获取单元用于在所述用户打开节拍开关控件的情况下，获取当前目标歌曲的伴奏音频中各节拍的位置。记录单元用于在检测到用户的当前操作时，记录用户的当前操作。执行单元用于在当前动作所处节拍位置的下一节拍位置处，根据当前操作，播放相应的音高并且控制虚拟形象执行与用户的当前操作相应的动作。

在一个可选的实施例中，该装置还可以包括：展示单元、确定单元、第三获取单元和替换单元。其中，展示单元用于展示目标歌曲的当前播放界面；其中，当前播放界面包括播放时间轴控件，播放时间轴控件包括时间滑块。确定单元用于在检测到用户调整时间滑块在播放时间轴控件上位置的操作时，确定距离位置最近的伴奏音频中的最近节拍。第三获取单元用于获取用户确定的当前音高。替换单元用于将最近节拍之前预定时长内伴奏音频中的所有历史音高，替换为当前音高。

在一个可选的实施例中，该装置应用于终端；终端与云端通信连接；该装置还可以包括：发送单元、接收单元和播放单元。其中，发送单元用于将合成的目标歌曲发送至云端；云端用于通过人工智能歌声合成模型对目标歌曲进行拟人化处理。接收单元用于响应于云端对目标歌曲拟人化处理完成的指令，接收云端发送来的拟人化处理后的目标歌曲。播放单元用于播放拟人化处理后的目标歌曲。

所属领域的技术人员应该能够理解，为了描述的方便和简洁，仅示出了与本公开实施例相关的部分，上述描述的装置实施例的具体工作过程及其解决的技术问题和取得的技术效果等细节，可以参考前述方法实施例中的对应过程及其解决的技术问题和取得的技术效果，在此不再赘述。

需要说明的是：术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

以上对本公开实施例所提供的技术方案进行了详细的介绍。在描述上述实施例时，详细描述了各个实施例的区别点，省略了相同的技术内容，各个实施例之间可以相互借鉴，在此不再赘述。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述，但是，上述实施例的说明仅适用于帮助理解本发明实施例的原理；同时，对于本领域技术人员来说，依据本发明实施例，在具体实施方式以及应用范围之内均会做出改变。在不背离本公开实质内容的情况下，本领域普通技术人员可以想到的任何变形、改进或替换均落入本公开的保护范围。

Claims

1.一种歌曲即时生成方法，其特征在于，所述方法包括：

获取待生成歌曲的歌词和伴奏音频；

当检测到用户的操作时，基于所述待生成歌曲的歌词、所述伴奏音频和音高，生成目标歌曲；其中，所述用户的操作用于指示所述音高，所述音高与所述待生成歌曲的歌词相对应；

所述方法还包括：

获取所述用户确定的当前音高；

2.根据权利要求1所述的方法，其特征在于，所述方法应用于终端；所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述终端包括屏幕；所述屏幕包括若干个区域，各区域分别对应于一个音高；所述当检测到用户的操作时，基于所述待生成歌曲的歌词、所述伴奏音频和音高，生成目标歌曲的步骤具体包括：

使用所述音阶，更新所述屏幕上各区域所对应的所述音高。

4.根据权利要求1所述的方法，其特征在于，所述方法应用于终端，所述终端包括屏幕；所述方法还包括：

显示虚拟形象；

5.根据权利要求4所述的方法，其特征在于，所述方法应用于终端，所述终端包括屏幕；所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述终端包括节拍开关控件；所述方法还包括：

在所述当前操作所处节拍位置的下一节拍位置处，根据所述当前操作，播放相应的音高并且控制所述虚拟形象执行与所述用户的所述当前操作相应的动作。

7.根据权利要求1所述的方法，其特征在于，所述方法应用于终端；所述终端与云端通信连接；所述方法还包括：

8.一种歌曲即时生成装置，其特征在于，所述装置包括：

第一获取单元，用于获取待生成歌曲的歌词和伴奏音频；

合成单元，用于在检测到用户的操作的情况下，基于所述待生成歌曲的歌词、所述伴奏音频和音高，合成目标歌曲；其中，所述用户的操作用于指示所述音高，所述音高与所述待生成歌曲的歌词相对应；

所述装置还包括：

第三获取单元，用于获取所述用户确定的当前音高；

9.根据权利要求8所述的装置，其特征在于，所述装置应用于终端；所述伴奏音频预置于所述终端，用于在检测到用户的操作时被调用。

10.根据权利要求9所述的装置，其特征在于，所述终端包括屏幕；所述屏幕包括若干个区域，各区域分别对应于一个音高；所述合成单元具体用于：

使用所述音阶，更新所述屏幕上各区域所对应的所述音高。

11.根据权利要求8所述的装置，其特征在于，所述装置应用于终端，所述终端包括屏幕；所述装置还包括：

显示单元，用于显示虚拟形象；

12.根据权利要求11所述的装置，其特征在于，所述装置应用于终端，所述终端包括屏幕；所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述终端包括节拍开关控件；所述装置还包括：

执行单元，用于在所述当前操作所处节拍位置的下一节拍位置处，根据所述当前操作，播放相应的音高并且控制所述虚拟形象执行与所述用户的所述当前操作相应的动作。

14.根据权利要求8所述的装置，其特征在于，所述装置应用于终端；所述终端与云端通信连接；所述装置还包括：

播放单元，用于播放所述拟人化处理后的目标歌曲。