CN108806656B

CN108806656B - 歌曲的自动生成

Info

Publication number: CN108806656B
Application number: CN201710284177.2A
Authority: CN
Inventors: 栾剑; 廖勤樱; 刘震; 杨南; 韦福如
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2022-01-28
Anticipated expiration: 2037-04-26
Also published as: CN108806656A; WO2018200267A1; EP3616190A1; EP3616190B1; US10891928B2; US20200035209A1

Abstract

根据本公开的实现，提供了一种支持机器自动生成歌曲的方案。在该方案中，用户的输入被用于确定用户关于待生成歌曲的创作意图。基于创作意图生成用于歌曲的歌词。然后，至少部分地基于该歌词，生成歌曲的模板。该模板指示与歌词匹配的旋律。由此，可以自动地创作出符合用户创作意图并且相互匹配的旋律和歌词。

Description

歌曲的自动生成

技术领域

本公开的示例实现涉及计算机技术，并且更具体地，涉及自动歌曲生成。

背景技术

歌曲是人们欣赏和喜爱的一种艺术形式，已经深入渗透到人们的生活中。然而，歌曲创作仍然是一个复杂的过程。总体上，歌曲创作过程包括作词(即，生成歌词)和作曲(即，生成旋律)两个主要部分。传统作曲需要作曲家具有一定的乐理知识，并且结合灵感和创作经验创作出完整的歌曲旋律。创作出悦耳的旋律在乐理上有较多要求，例如要求确保旋律和节奏统一、能够表现主题、体现各种音乐风格或风格的组合等。此外，歌词作为歌曲的重要组成部分，也要求能够表意、契合主题并且与歌曲旋律匹配。因此，要创作出具有特定风格和情感并且表现特定主题的歌曲对创作者的乐理要求很高。

发明内容

根据本公开的实现，提供了一种支持机器自动生成歌曲的方案。在该方案中，用户的输入被用于确定用户关于待生成歌曲的创作意图。基于创作意图生成用于歌曲的歌词。然后，至少部分地基于该歌词，生成歌曲的模板(template)。该模板指示与歌词匹配的旋律。由此，可以自动地创作出符合用户创作意图并且相互匹配的旋律和歌词。

提供发明内容部分是为了简化的形式来介绍对概念的标识，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够在其中实施本公开的多个实现的计算环境的框图；

图2示出了根据本公开的一些实现的自动歌曲生成系统的框图；

图3示出了根据本公开的一些实现的对用户输入的创作意图分析的示意图；

图4示出了根据本公开的另一些实现的自动歌曲生成系统的框图；以及

图5示出了根据本公开的一些实现的歌曲生成的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上讨论的，在歌曲创作过程中对于歌曲的旋律和/或歌词有诸多要求，这些要求限制了普通人或组织创作个性化歌曲的可能性。在很多情况中，普通人或组织如果想要获得定制的歌曲，往往需要求助于具有专业作词和作曲能力的人或组织。随着计算机时代的到来，特别是随着人工智能的不断进步，期望能够自动地生成期望的歌曲，例如生成歌曲的旋律和/或歌词。

根据本公开的一些实现，提供了一种支持机器自动生成歌曲的方案。在该方案中，用户的输入，诸如图像、文字、视频和/或音频等，被用于确定用户关于生成歌曲的创作意图。这样的输入用户的创作意图进一步被用于指导歌曲的歌词的生成，使得所生成的歌词能够表达创作意图。进一步地，基于歌词可以生成歌曲的模板，该模板指示与歌词匹配的旋律。通过本公开的方案，所生成的歌词与旋律已经相互匹配，因此可以直接与该旋律一起组合成能够被歌唱的歌曲。此外，基于用户的输入生成的歌词、旋律和/或歌曲均能够体现用户的创作意图，使得能够为用户提供个性化且高质量的歌曲、歌词和/或旋律。

以下参考附图来说明本公开的基本原理和若干示例实现。

示例环境

图1示出了能够在其中实施本公开的多个实现的计算环境100的框图。应当理解，图1所示出的计算环境100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算环境100包括通用计算设备形式的计算设备102。计算设备102的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备102可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端，包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备102能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备102的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备102通常包括多个计算机存储介质。这样的介质可以是计算设备102可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括一个或多个程序模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。模块122可以由处理单元110访问和运行，以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备102内被访问。

计算设备102的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备102可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。计算设备102还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如数据库170、其他存储设备、服务器、显示设备等，与一个或多个使得用户与计算设备102交互的设备进行通信，或者与使得计算设备102与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。在一些自动歌曲生成的实现中，输入设备150接收用户的输入104。取决于用户期望输入的内容的类型，不同类型的输入设备150可以被用于接收输入104。输入104被提供给模块122，以使模块122基于输入104确定用户关于歌曲的创作意图并且由此生成相应的歌曲的旋律和/或歌词。在一些实现中，模块122将生成的歌词、旋律和/或由歌词和旋律组成的歌曲作为输出106提供给输出设备160以供输出。输出设备160可以以文字、图像、音频和/或视频等一种或多种形式提供输出106。

以下将详细讨论在模块122中自动生成歌词、旋律和歌曲的示例实现。

歌词和旋律的生成

图2示出了根据本公开一些实现的自动歌曲生成系统的框图。在一些实现中，该系统可被实现为计算设备102中的模块122。在图2的实现中，模块122被用于实现自动歌词生成和旋律生成。如图所示，模块122包括创作意图分析模块210、歌词生成模块220和模板生成模块230。根据本公开的实现，创作意图分析模块210被配置为接收用户的输入104，并且基于该输入104确定用户关于待生成歌曲的创作意图202。输入104可以经由计算设备102的输入设备150从用户被接收到并且被提供给创作意图分析模块210。

在一些实现中，创作意图分析模块210可以基于特定类型的输入104或者多种不同类型的输入104来分析和确定创作意图202。输入104的示例可以是文字，例如用户输入的关键字、人物之间的对话、标签、包含文字的各种文档等。备选地或附加地，输入104可以包括各种格式的图像、各种长度和格式的视频和/或音频等等。可以经由输入设备150提供的用户界面接收用户的输入。因此，根据本公开的实现，可以允许用户通过简单的输入来控制待生成的歌曲(包括歌曲的歌词和/或旋律)，而不要求用户具备较多的乐理知识来引导歌词、旋律和/或歌曲的生成。

用户关于歌曲的创作意图指的是被体现在输入104中的用户期望生成的歌曲能够表达出的一个或多个特征，包括歌曲的主题、情感、基调、风格、关键元素等等。例如，如果输入104是一张全家福并且图像中的家庭成员的表情都很欢乐，那么创作意图分析模块210可以分析出用户的创作意图是要使得生成的歌曲主题为“家庭”并且整体要表达出“欢乐”的情感等等。

取决于输入104的类型，创作意图分析模块210可以采用不同分析技术来从输入104中提取出创作意图202。例如，如果输入104是文字，创作意图分析模块210可以采用自然语言处理或文本分析技术来分析输入的文字中所描述的主题、情感、关键元素等等。

在另一个示例中，如果输入104为图像，则创作意图分析模块210可以采用图像识别、人脸识别、姿态识别、表情检测、性别和年龄检测等图像分析技术来分析图像中包含的对象和人物以及这些对象和人物的表情、姿态和情感等信息，并且由此确定图像整体展现出的主题、情感、关键元素(例如图像包含人、物、环境、事件等)。

备选地或附加地，创作意图分析模块210还可以获取与图像相关联的其他特征，诸如图像的大小、格式、类型(例如油画、线条画、剪切画、黑白图像等)、整体色调、相关联的标签(可以由用户添加或自动添加的)和元数据等。然后，基于获取的信息来分析和确定创作意图202。

图3示出了对输入104的创作意图分析的示意图，在此例中输入104是图像。在接收到图像104后，创作意图分析模块210可以采用人脸识别和姿态识别技术来确定图像104中包含多个人物，并且由此确定图像104的类别属于“人群”，如图3中的标签302所指示的。进一步地，创作意图分析模块210还可以通过性别和年龄检测和人脸识别等分析图像104中每个人物的年龄和性别(如标签304所指示的)并且还可以基于年龄、性别以及其他信息(例如人脸相似度等)来确定图像104包含的人群为一个家庭。

此外，通过表情检测技术、图像识别技术、图像分析技术等，可以确定图像104中人物的情感是欢快的，并且处于户外环境中。因此，创作意图分析模块210可以确定用户的创作意图可能是要创作歌颂家庭的欢乐歌曲，这首歌曲可以出现“户外”、“紧密”、“个人”等元素。当然，创作意图分析模块210还可以继续确定图像104的类型、格式、大小等信息来进一步地辅助确定创作意图。

在其他示例中，如果输入104包括音频和/或视频，创作意图分析模块210可以采用语音分析(针对音频和视频)和图像分析(针对视频)技术来确定输入音频和/或视频中包含的具体内容。例如，可以通过将音频和/或视频中的语音转换为文字，并且进而采用以上提及的自然语言处理或文本分析技术进行分析。可以采用以上提及的图像分析技术对视频的一个或多个帧进行分析。此外，还可以对音频和/或视频中的语音的频谱特性进行分析来确定音频和/或视频中所表现的人物的情感或标识出语音所涉及的主题等。

应当理解，可以采用已有的或者将来待开发的各种对文字、图像、音频和/或视频中的分析技术来执行创作意图分析的任务，只要这样的技术可以从相应类型的输入中分析出能够影响歌曲创作的一个或多个方面即可。在一些实现中，输入104可以包含多种类型的输入，并且因此对于每种类型的输入均可以采用相应的分析技术进行分析。从不同类型的输入获得的分析结果可以被结合起来用于确定创作意图202。在一些实现中，如果输入104包含明确的创作意图的指示，例如指示歌曲的风格、情感等方面或者指示歌词的某些关键元素或者指示歌曲的一部分旋律，则可以从输入104中提取这些明确的创作意图。虽然列举了一些创作意图的示例，然而应该理解，还可以从用户的输入中分析出影响歌曲的特征的其他方面，本公开的范围在此方面不受限制。

继续参考图2，创作意图分析模块210确定的创作意图202可以作为关键字被传递给歌词生成模块220，以指导歌词生成模块220的歌词生成。具体地，歌词生成模块220被配置为基于创作意图202来生成歌曲的歌词。创作意图202可以指导歌词生成模块220生成的歌词表现创作意图所指示的相应主题、情感和/或各种关键元素中的一个或多个方面。

在一些实现中，歌词生成模块220可以从一个或多个已有的歌词中选择出与符合创作意图202的歌词204。已有的歌词可以包括各种已有歌曲中包含的歌词，或者已撰写的诗歌等能够被歌唱的文本。已有的歌词可以根据其主题、风格和内容而被分类为主题、情感和/或关键元素。分类结果可以作为标签信息与已有的歌词相关联的存储在例如计算设备102的本地存储设备130和/或外部存储设备、诸如数据库170中。在生成歌词的过程中，歌词生成模块220可以将创作意图202所指示的主题、情感和/或各种关键元素等信息与已有歌词的标签信息相比较，并且将匹配的歌词选择作为歌词204。在一些实现中，如果确定多个匹配的歌词，可以通过用户选择来选择其中一个或一些歌词作为输出的歌词204。

在另外一些实现中，歌词生成模块220可以使用预定义的歌词生成模型来生成歌词。这样的歌词生成模型可以被训练为能够基于创作意图的许多不同方面的输入来生成相应的歌词，使得歌词能够体现创作意图的一个或多个方面，例如符合相应的歌曲主题、表达出歌曲情绪和/或包含某些关键元素。在一些实现中，如果歌词生成模块220从创作意图分析模块210获得的创作意图202没有覆盖歌词生成模型所要求的全部创作意图的方面(因为用户的有限输入104)，那么可以将其他方面的取值设置为空，以使得歌词生成模块220可以利用有限的创作意图202作为歌词生成模型的输入来生成歌词。应当理解，在一些实现中，如果创作意图202中包括用户关于歌词的明确指示，例如歌词包含的关键元素或词语，歌词生成模块220在生成模板时也将这些考虑在内，以获得能明确体现这些创作意图的歌词。

在一些示例中，歌词生成模型可以基于神经网络、诸如循环神经网络(RNN)的模型或者其他学习模型而被构建。该歌词生成模型可以利用多个已有的歌词而被训练。已有的歌词可以包括各种已有歌曲中包含的歌词或者已撰写的诗歌等能够被歌唱的文本。在训练时，已有的歌词可以根据其主题、风格和内容而被分类为主题、情感和/或关键元素。该歌词生成模型被训练为当接收到创作意图202时，可以生成相应的歌词204。因此，特定的模板和创作意图也作为歌词生成模块的训练数据，从而使得歌词生成模型能够从训练数据中学习到为特定创作意图生成歌词的能力。已训练的歌词生成模型可以被部分或全部存储在计算设备102的本地存储设备130和/或可访问的外部设备、诸如数据库170。应当理解，可以采用各种已知的和/或将来待开发的模型结构和/或训练方法来获得歌词生成模块，本公开的范围在此方面不受限制。

在通过从已有歌词中选择的和/或由歌词生成模型生成歌词之后，在一些实现中，歌词生成模块220可以直接将该歌词提供给模板生成模块230或者作为模块122的输出106。备选地，可以为用户提供对自动生成的歌词的修改。歌词生成模块220可以首先将从已有歌词中选择的和/或由歌词生成模型生成的歌词作为候选歌词输出给用户，例如经由输出设备160以文本显示和/或以音频播放给用户。用户可以通过输入设备150输入对候选歌词的修改指示206。这样的修改指示206可以指示对候选歌词中的一个或多个词语的调整，例如用其他词语取代这些词语或者修改词语的顺序。在接收到用户关于歌词的修改指示206的输入之后，歌词生成模块220基于输入的修改指示206修改候选歌词以获得歌曲的歌词。

歌词生成模块220生成的歌词204被提供给模板生成模块230以用于指导歌曲的模板的生成。模板生成模块230被配置为基于歌词204生成用于歌曲的模板。歌曲的模板至少可以指示歌曲的旋律，而旋律可以被表示为音素的持续时间、音高轨迹、音强轨迹以及其它用于产生旋律的各种参数。由于歌曲的歌词已经被确定，因此模板生成模块230在生成歌曲的模板时能够使得模板与歌词相匹配。具体地，模板生成模块230可以确定歌词204的分布，例如每个小节的歌词字数等确定每个字的各个音素的持续时长、音高轨迹和音强轨迹等等，从而组合得到旋律。通过这样的旋律生成，使得旋律与歌词相匹配，从而由这样的歌词和旋律组成的歌曲可以容易地被歌唱。

在一些实现中，模板生成模块230可以基于歌词204来将一个或多个已有歌曲的旋律片段拼接成歌曲的旋律。具体地，模板生成模块230可以将一个或多个已有的歌曲旋律预先划分为多个旋律片段，称为候选旋律片段。这样的候选旋律片段的划分可以以旋律的一个或多个音节为基础，并且可以具有任何相同或不同的长度。由专业人员对已由歌曲进行人工划分也是可行的。划分得到的多个候选旋律片段可以被用作后续旋律生成的基础，并且可以被部分或全部存储在计算设备102的本地存储设备130和/或可访问的外部设备、诸如数据库170中。

模板生成模块230在从歌词生成模块220接收到歌词204之后，可以将歌词204划分为多个歌词片段，并且从多个候选旋律片段中为每个歌词片段选择候选旋律片段。歌词片段可以具有预定义的长度或者可以由歌词204本身包含的词语的结构来划分。在为每个歌词片段选择候选旋律片段的过程中，可以使得候选旋律片段能够匹配歌词片段中所包含的歌词的分布，以使得该歌词片段本身与旋律片段结合起来能够被歌唱。

在一些实现中，模板生成模块230可以使用预先定义或训练预选择模型来为每个歌词片段选择候选旋律片段。该预选择模型可以被训练为具备根据输入的歌词选择相应的候选旋律片段的能力。因此，可以采用不同的歌词片段以及已知与这些歌词片段相匹配的旋律片段作为训练数据来训练该预选择模型。此外，还可以用一些负样本(即，一些歌词片段以及与这些歌词片段不匹配的旋律片段)来训练该模型，以使得该模型具备判断正确和错误结果的能力。该预选择模型可以被部分或全部存储在计算设备102的本地存储设备130和/或可访问的外部设备、诸如数据库170中。

模板生成模块230可以为歌词204的每个歌词片段选择对应的一个候选旋律片段并且然后将选择的候选旋律片段按照歌词片段在歌词204中的顺序拼接起来以形成歌曲的旋律。在一些情况中，模板生成模块230可以为每个歌词片段选择匹配的多个候选旋律片段。为了构造歌词的旋律，在一些实现中，模块输出模块230可以从多个候选旋律片段中随机选择一个候选旋律片段作为该歌词片段对应的旋律片段。在其他实现中，由于旋律片段之间的平滑过渡对于所创造的歌曲质量而言是重要的，因此模板生成模块230还可以基于为多个歌词片段中的相邻歌词片段选择的候选旋律片段之间的平滑度来确定与多个歌词片段对应的相应候选旋律片段。然后，模板生成模块230将确定的候选旋律片段拼接成歌曲的旋律，从而使得旋律片段之间的过渡平滑并且因此获得整体更悦耳的旋律。

候选旋律片段之间的平滑度可以使用各种技术来确定，这样的技术的示例包括但不限于：通过分析旋律片段中的旋律的音高轨迹、对应的音高轨迹之间的连贯性和/或其他影响倾听者的感知的方面来度量。在一些实现中，模板生成模块230可以使用预先定义的平滑度判断模型来确定两个候选旋律片段是否在听觉上是平滑过渡的。该平滑度判断模型可以被设计为基于输入的候选旋律片段的各种声学参数(诸如频谱、频率、响度、持续时间等)输出平滑度。输出可以是以处于一定范围的平滑度度量或者可以表示两个输入的旋律片段是否平滑的指示(例如1或0的值)。

模板生成模块230可以将两个候选旋律片段输入到平滑度判断模型，并且基于模型输出的结果与预定阈值的比较(或者结果是否指示平滑)来确定两个候选旋律片段是否平滑并且因此确定它们是否可以被拼接。用于训练这样的平滑度判断模型的训练数据可以包括已有歌曲中的相邻旋律片段(作为正样本)和从已有歌曲的多个片段中随机挑选的旋律片段(作为负样本)。在一些示例中，这样的模型例如可以各种基于神经网络的模型(诸如基于DNN或长短期记忆(LSTM)的模型)或者任何其他能够完成平滑度判断的模型等等。

应当理解，除了通过选择已有的歌曲的旋律片段进行拼接来确定歌曲的旋律之外，在其他实现中，模板生成模块230还可以基于歌词204来直接创作模板，以指示待生成歌曲的旋律的一部分或全部。例如，模板生成模块230可以利用预定义的旋律生成模型来基于歌词生成旋律。这样的旋律生成模型可以基于已有的旋律和相对应的歌词来训练。在一些示例中，这样的旋律生成模型可以例如基于神经网络、诸如循环神经网络(RNN)的模型或者其他学习模型而被构建。

除了由歌词204之外，模板生成模块230还可以基于来自创作意图分析模块210的创作意图202生成歌曲的模板，以使得模板所指示的旋律能够体现创作意图202所指示的主题、情感和/或关键元素等等。在一些实现中，创作意图202可以被用于选择从已有歌曲中划分的候选旋律片段，以用于拼接成歌曲的旋律，从而使得所选择的旋律片段不仅能够匹配歌词204，而且还能够单独和/或结合起来表现创作意图202。例如，如果创作意图202指示待生成的歌曲的情感是“欢乐”，那么可以从候选旋律片段中为一个或多个歌词片段选择能够表达欢乐情绪的旋律片段。如果创作意图202还指示影响歌曲创作的其他方面，也可以相应地据此为一个或多个歌词片段选择候选旋律片段。

为了基于创作意图202选择候选旋律片段，可以将预先划分的候选旋律片段按照相应的创作意图,例如主题、情感和/或包含的关键元素进行分类，并且然后可以基于分类结果与创作意图202的比较来确定候选旋律片段。在另外的实现中，可以将以上提及的由模板生成模块230使用的预选择模型训练为不仅能够基于歌词片段、而且还能够基于创作意图来为每个歌词片段选择候选旋律片段。在这些实现中，预选择模型可以采用不同的训练创作意图和歌词以及已知与这些创作意图相匹配的旋律片段作为训练数据来训练该预选择模型。此外，还可以用一些负样本(即，一些创作意图以及与这些创作意图不匹配的旋律片段)来训练该模型，以使得该模型具备判断正确和错误结果的能力。应当可以理解，也可以训练单独的模型用于基于创作意图202选择候选旋律片段。例如，可以在基于歌词204的歌词片段选择出一个或多个候选旋律片段之后，再基于创作意图202进一步为该歌词片段筛选匹配的旋律片段，或者反之。

除了基于创作意图202选择已有的候选旋律片段来生成歌曲的模板之外，模板生成模块230还可以基于创作意图202直接创作模板中所指示的旋律的一部分或全部。例如，以上讨论的旋律生成模型可以被训练为基于创作意图202的输入(和/或歌词204的输入)而输出相应的旋律。在这种情况中，可以使用为已有歌曲的旋律标识的创作意图(例如，已有旋律的主题、情感和/或关键元素等)来训练旋律生成模型，从而使得旋律生成模型具备基于创作意图来创作旋律的能力。在一些实现中，如果创作意图202中包括用户关于旋律和/或歌词分布的明确指示，模板生成模块230在生成模板时也将这些考虑在内，以获得能明确体现这些创作意图的模板。

为了进一步提升用户体验，基于歌词和/或创作意图生成的模板可以首先作为中间模板被呈现给用户。模板生成模块230然后接收用户对于中间模板的旋律的修改，并且基于这些修改获得最终的模板。

由模板生成模块230生成的模板可以单独或者连同由歌词生成模块220生成的歌词一起作为输出106被提供给计算设备102的输出设备160，并且可以以文字和/或音频的形式被输出给用户。在一些示例中，模板的旋律可以被谱写为简谱和/或五线谱的形式显示给用户，而歌词可以以文本被显示和/或以音频的形式被播放被用户。

以上讨论的自动歌词和旋律生成。在一些备选实现中，由模板指示的旋律还可以与歌词组合以生成歌曲。这样的歌曲还可以被播放给用户。以下将详细讨论自动歌曲合成的示例实现。

歌曲的合成

图4示出了根据自动歌曲合成的实现的模块122的框图。在图4的示例中，除了自动歌词生成之外，模块122还可以用于实现基于歌词和旋律的自动歌曲合成。如图4所示，模块122进一步包括歌曲合成模块410。歌曲合成模块410从歌词生成模块220接收歌词并且从模板生成模块230接收模板指示的旋律，并且然后将接收到的歌词和旋律组合以生成可以被歌唱的歌曲。

应当理解，图4中示出的歌曲合成模块410是可选的。在一些情况中，模块122可以如图2所示的仅为提供分离的歌词和/或旋律。在另外的情况中，可以自动地或者响应于用户的输入(例如对于合成歌曲的用户指示)而由歌曲合成模块410将生成的歌词和旋律合成为歌曲。

在一些实现中，歌曲合成模块410可以将歌词和旋律简单地匹配在一起，然后将歌曲106输出给用户。例如，将旋律以简谱或五线谱的形式谱写和显示在显示设备上，并且将歌词与旋律相关联地显示。用户可以通过识别旋律和歌词来演唱歌曲。

在另外一些实现中，歌曲合成模块410还可以为歌曲确定对应的歌唱者的声音，从而使得歌曲106可以直接被播放。具体地，歌词合成模块410可以获得能够表示歌唱者的声音特征的声音模型，并且然后将歌词作为该声音模型的输入，以生成歌词的声音频谱轨迹。通过这种方式，歌词可以被该声音模型所表示的歌唱者诵读。为了使得歌唱者对歌词的诵读具有一定的韵律，歌词合成模块410进一步将声音频谱轨迹与模板指示的旋律合成为歌曲的演唱波形，该演唱波形即表示与旋律匹配的歌曲演唱。

在一些实现中，歌词合成模块410可以使用声码器(vocoder)来将声音频谱轨迹和旋律合成在一起。所得到的演唱波形可以被提供给计算设备102的输出设备160(例如扬声器)以用于播放歌曲。备选地，演唱波形也可以由计算设备102提供给其他外部设备来播放歌曲。

歌曲合成模块410用于生成歌词的声音频谱轨迹的声音模型可以是预先定义的声音模型，该声音模型可以使用若干声音片段来训练，以便能基于输入的文字或歌词而生成相应的声音频谱轨迹。声音模型可以基于例如隐马尔科夫(HMM)模型或者各种基于神经网络的模型(诸如基于DNN或长短期记忆(LSTM)的模型)等等来构造。在一些实现中，该声音模型可以使用某个歌唱者的多个声音片段来训练。在另外一些实现中，该声音模型可以使用多个不同歌唱者的声音片段来训练，从而使得声音模型能够表现出这些歌唱者的平均语音的特征。这样的声音模型也可以被称为平均声音模型。这些预定义的声音模型可以被部分或全部存储在计算设备102的本地存储设备130中和/或可访问的外部设备、诸如数据库170中。

在一些情况中，用户可能期望歌曲能够由个性化的声音来演唱歌曲。因此，在一些实现中，歌曲合成模块410可以接收用户输入的特定歌唱者的一个或多个声音片段402，并且基于该声音片段来训练声音模型。通常，用户输入的声音片段可能是有限的，不足以用于训练出可工作的声音模型。因此，歌曲合成模块410可以利用接收到的声音片段402来调整预定义的平均声音模型，从而使得调整后的平均声音模型也能表示声音片段402中的歌唱者的声音特征。当然，在其他实现中，也可以要求用户输入一个或多个特定歌唱者的足够多的声音片段，从而使得针对这个或这些歌唱者的声音训练出对应的声音模型。

示例过程

图5示出了根据本公开一些实现的自动歌曲生成的过程500的流程图。过程500可以由计算设备102来实现，例如可以被实现在计算设备102的模块122中。

在510，计算设备102响应于接收到用户的输入，基于输入确定用户关于待生成歌曲的创作意图。在520，计算设备102基于创作意图生成歌曲的歌词。在530，计算设备102至少部分地基于歌词生成用于歌曲的模板。该模板指示与歌词匹配的旋律。进一步地，在一些实现中，计算设备102可以进一步基于创作意图来生成模板。

在一些实现中，过程500可以进一步包括将歌词和模板指示的旋律组合以生成歌曲。

在一些实现中，生成模板可以包括：将歌词划分为多个歌词片段；针对多个歌词片段中的每一个，从多个候选旋律片段中选择与歌词片段匹配的至少一个候选旋律片段；基于为多个歌词片段中的相邻歌词片段选择的候选旋律片段之间的平滑度来确定与多个歌词片段对应的相应候选旋律片段；以及将确定的候选旋律片段拼接成模板指示的旋律。

在一些实现中，基于创作意图生成歌词可以包括：基于创作意图生成候选歌词；以及基于接收到的用户输入来修改候选歌词以获得歌词。

在一些实现中，基于创作意图生成歌词可以包括：获得预定义的歌词生成模型，歌词生成模型利用已有的歌词和包含词语的文档中的至少一项而获得；以及利用歌词生成模型，基于创作意图生成歌词。

在一些实现中，过程500可以进一步包括获得表示歌唱者的声音特征的声音模型；利用声音模型生成歌词的声音频谱轨迹；将声音频谱轨迹和模板指示的旋律合成为歌曲的演唱波形；以及基于演唱波形播放歌曲。

在一些实现中，获得声音模型包括：接收歌唱者的声音片段；以及通过利用接收到的声音片段调整预定义的平均声音模型来获得声音模型，平均声音模型利用多个不同歌唱者的声音片段而获得。

在一些实现中，用户的输入包括以下至少一项：图像、文字、视频或音频。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实施的方法，包括：响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；基于所述创作意图生成所述歌曲的歌词；以及至少部分地基于所述歌词生成用于所述歌曲的模板，所述模板指示与所述歌词匹配的旋律。

在一些实现中，该方法进一步包括：将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

在一些实现中，生成所述模板包括：将所述歌词划分为多个歌词片段；针对所述多个歌词片段中的每一个，从多个候选旋律片段中选择与所述歌词片段匹配的至少一个候选旋律片段；基于为所述多个歌词片段中的相邻歌词片段选择的候选旋律片段之间的平滑度来确定与所述多个歌词片段对应的相应候选旋律片段；以及将确定的候选旋律片段拼接成所述模板指示所述的旋律。

在一些实现中，生成所述模板还包括：进一步基于所述创作意图来生成所述模板。

在一些实现中，基于所述创作意图生成所述歌词包括：基于所述创作意图生成候选歌词；以及基于接收到的用户输入来修改所述候选歌词以获得所述歌词。

在一些实现中，基于所述创作意图生成所述歌词包括：获得预定义的歌词生成模型，所述歌词生成模型利用已有的歌词和包含词语的文档中的至少一项而获得；以及利用所述歌词生成模型，基于所述创作意图生成所述歌词。

在一些实现中，该方法进一步包括：获得表示歌唱者的声音特征的声音模型；利用所述声音模型生成所述歌词的声音频谱轨迹；将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及基于所述演唱波形播放所述歌曲。

在一些实现中，获得所述声音模型包括：接收歌唱者的声音片段；以及通过利用接收到的所述声音片段调整预定义的平均声音模型来获得所述声音模型，所述平均声音模型利用多个不同歌唱者的声音片段而获得。

在一些实现中，所述输入包括以下至少一项：图像、文字、视频或音频。

在另一方面，本公开提供了一种设备。该设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；基于所述创作意图生成所述歌曲的歌词；以及至少部分地基于所述歌词生成用于所述歌曲的模板，所述模板指示与所述歌词匹配的旋律。

在一些实现中，所述动作进一步包括：将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

在一些实现中，所述动作进一步包括：获得表示歌唱者的声音特征的声音模型；利用所述声音模型生成所述歌词的声音频谱轨迹；将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及基于所述演唱波形播放所述歌曲。

在另一方面，本公开提供了一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；基于所述创作意图生成所述歌曲的歌词；以及至少部分地基于所述歌词生成用于所述歌曲的模板，所述模板指示与所述歌词匹配的旋律。

在一些实现中，所述机器可执行指令在由设备执行时进一步使所述设备：将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：将所述歌词划分为多个歌词片段；针对所述多个歌词片段中的每一个，从多个候选旋律片段中选择与所述歌词片段匹配的至少一个候选旋律片段；基于为所述多个歌词片段中的相邻歌词片段选择的候选旋律片段之间的平滑度来确定与所述多个歌词片段对应的相应候选旋律片段；以及将确定的候选旋律片段拼接成所述模板指示所述的旋律。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：进一步基于所述创作意图来生成所述模板。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：基于所述创作意图生成候选歌词；以及基于接收到的用户输入来修改所述候选歌词以获得所述歌词。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：获得预定义的歌词生成模型，所述歌词生成模型利用已有的歌词和包含词语的文档中的至少一项而获得；以及利用所述歌词生成模型，基于所述创作意图生成所述歌词。

在一些实现中，所述机器可执行指令在由设备执行时进一步使所述设备：获得表示歌唱者的声音特征的声音模型；利用所述声音模型生成所述歌词的声音频谱轨迹；将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及基于所述演唱波形播放所述歌曲。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：接收歌唱者的声音片段；以及通过利用接收到的所述声音片段调整预定义的平均声音模型来获得所述声音模型，所述平均声音模型利用多个不同歌唱者的声音片段而获得。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实施的方法，包括：

响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；

基于所述创作意图生成所述歌曲的歌词；以及

至少部分地基于所述歌词生成用于所述歌曲的模板，所述模板指示与所述歌词匹配的旋律。

2.根据权利要求1所述的方法，进一步包括：

将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

3.根据权利要求1所述的方法，其中生成所述模板包括：

将所述歌词划分为多个歌词片段；

针对所述多个歌词片段中的每一个，从多个候选旋律片段中选择与所述歌词片段匹配的至少一个候选旋律片段；

基于为所述多个歌词片段中的相邻歌词片段选择的候选旋律片段之间的平滑度来确定与所述多个歌词片段对应的相应候选旋律片段；以及

将确定的候选旋律片段拼接成所述模板指示所述的旋律。

4.根据权利要求1所述的方法，其中生成所述模板还包括：

进一步基于所述创作意图来生成所述模板。

5.根据权利要求1所述的方法，其中基于所述创作意图生成所述歌词包括：

基于所述创作意图生成候选歌词；以及

基于接收到的用户输入来修改所述候选歌词以获得所述歌词。

6.根据权利要求1所述的方法，其中基于所述创作意图生成所述歌词包括：

获得预定义的歌词生成模型，所述歌词生成模型利用已有的歌词和包含词语的文档中的至少一项而获得；以及

利用所述歌词生成模型，基于所述创作意图生成所述歌词。

7.根据权利要求1所述的方法，进一步包括：

获得表示歌唱者的声音特征的声音模型；

利用所述声音模型生成所述歌词的声音频谱轨迹；

将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及

基于所述演唱波形播放所述歌曲。

8.根据权利要求7所述的方法，其中获得所述声音模型包括：

接收歌唱者的声音片段；以及

通过利用接收到的所述声音片段调整预定义的平均声音模型来获得所述声音模型，所述平均声音模型利用多个不同歌唱者的声音片段而获得。

9.根据权利要求1所述的方法，其中所述输入包括以下至少一项：图像、文字、视频或音频。

10.一种设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

基于所述创作意图生成所述歌曲的歌词；以及

11.根据权利要求10所述的设备，其中所述动作进一步包括：

将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

12.根据权利要求10所述的设备，其中生成所述模板包括：

将所述歌词划分为多个歌词片段；

将确定的候选旋律片段拼接成所述模板指示所述的旋律。

13.根据权利要求10所述的设备，其中生成所述模板还包括：

进一步基于所述创作意图来生成所述模板。

14.根据权利要求10所述的设备，其中基于所述创作意图生成所述歌词包括：

基于所述创作意图生成候选歌词；以及

15.根据权利要求10所述的设备，其中基于所述创作意图生成所述歌词包括：

利用所述歌词生成模型，基于所述创作意图生成所述歌词。

16.根据权利要求10所述的设备，其中所述动作进一步包括：

获得表示歌唱者的声音特征的声音模型；

利用所述声音模型生成所述歌词的声音频谱轨迹；

基于所述演唱波形播放所述歌曲。

17.根据权利要求16所述的设备，其中获得所述声音模型包括：

接收歌唱者的声音片段；以及

18.根据权利要求10所述的设备，其中所述输入包括以下至少一项：图像、文字、视频或音频。

19.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：

基于所述创作意图生成所述歌曲的歌词；以及

20.根据权利要求19所述的计算机程序产品，其中所述机器可执行指令在由设备执行时进一步使所述设备：

将所述歌词和所述模板指示的旋律组合以生成所述歌曲。