CN108806655A

CN108806655A - 歌曲的自动生成

Info

Publication number: CN108806655A
Application number: CN201710284144.8A
Authority: CN
Inventors: 廖勤樱; 杨南; 栾剑; 韦福如; 刘震; 杨子奇; 黄斌
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2018-11-13
Anticipated expiration: 2037-04-26
Also published as: WO2018200268A1; CN108806655B

Abstract

根据本公开的实现，提供了一种支持机器自动歌曲生成的方案。在该方案中，用户的输入被用于确定用户关于待生成歌曲的创作意图。基于创作意图生成用于歌曲的模板，该模板指示歌曲的旋律和歌词相对于旋律的分布。然后，至少部分基于该模板，生成歌曲的歌词。由此，可以自动地创作出符合用户创作意图并且相互匹配的旋律和歌词。

Description

歌曲的自动生成

背景技术

歌曲是人们欣赏和喜爱的一种艺术形式，已经深入渗透到人们的生活中。然而，歌曲创作仍然是一个复杂的过程。总体上，歌曲创作过程包括作词(即，生成歌词)和作曲(即，生成旋律)两个主要部分。传统作曲需要作曲家具有一定的乐理知识，并且结合灵感和创作经验创作出完整的歌曲旋律。创作出悦耳的旋律在乐理上有较多要求，例如要求确保旋律和节奏统一、能够表现主题、体现各种音乐风格或风格的组合等。此外，歌词作为歌曲的重要组成部分，也要求能够表意、契合主题并且与歌曲旋律匹配。因此，要创作出具有特定风格和情感并且表现特定主题的歌曲对创作者的乐理要求很高。

发明内容

提供发明内容部分是为了简化的形式来介绍对概念的标识，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够在其中实施本公开的多个实现的计算环境的框图；

图2示出了根据本公开的一些实现的自动歌曲生成系统的框图；

图3示出了根据本公开的一些实现的对用户输入的创作意图分析的示意图；

图4示出了根据本公开的另一些实现的自动歌曲生成系统的框图；以及

图5示出了根据本公开的一些实现的歌曲生成的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上讨论的，在歌曲创作过程中对于歌曲的旋律和/或歌词有诸多要求，这些要求限制了普通人或组织创作个性化歌曲的可能性。在很多情况中，普通人或组织如果想要获得定制的歌曲，往往需要求助于具有专业作词和作曲能力的人或组织。随着计算机时代的到来，特别是随着人工智能的不断进步，期望能够自动地生成期望的歌曲，例如生成歌曲的旋律和/或歌词。

根据本公开的一些实现，提供了一种由计算机实施的自动生成歌曲的方案。在该方案中，用户的输入，诸如图像、文字、视频和/或音频等，被用于确定用户关于生成歌曲的创作意图。这样的输入用户的创作意图进一步被用于指导歌曲的模板的生成，使得所生成的模板指示歌曲的旋律和歌词相对于旋律的分布。进一步地，基于模板所指示的旋律和歌词的分布，可以生成歌曲的歌词。通过本公开的方案，所生成的歌词已经匹配于歌曲的模板中的旋律，因此可以直接与该旋律一起组合成能够被歌唱的歌曲。此外，基于用户的输入生成的歌词、旋律和/或歌曲均能够体现用户的创作意图，使得能够为用户提供个性化且高质量的歌曲、歌词和/或旋律。

以下参考附图来说明本公开的基本原理和若干示例实现。

示例环境

图1示出了能够在其中实施本公开的多个实现的计算环境100的框图。应当理解，图1所示出的计算环境100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算环境100包括通用计算设备形式的计算设备102。计算设备102的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备102可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端，包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备102能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备102的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备102通常包括多个计算机存储介质。这样的介质可以是计算设备102可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括一个或多个程序模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。模块122可以由处理单元110访问和运行，以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备102内被访问。

计算设备102的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备102可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。计算设备102还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如数据库170、其他存储设备、服务器、显示设备等，与一个或多个使得用户与计算设备102交互的设备进行通信，或者与使得计算设备102与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。在一些自动歌曲生成的实现中，输入设备150接收用户的输入104。取决于用户期望输入的内容的类型，不同类型的输入设备150可以被用于接收输入104。输入104被提供给模块122，以使模块122基于输入104确定用户关于歌曲的创作意图并且由此生成相应的歌曲的旋律和/或歌词。在一些实现中，模块122将生成的歌词、旋律和/或由歌词和旋律组成的歌曲作为输出106提供给输出设备160以供输出。输出设备160可以以文字、图像、音频和/或视频等一种或多种形式提供输出106。

以下将详细讨论在模块122中自动生成歌词、旋律和歌曲的示例实现。

旋律和歌词的生成

图2示出了根据本公开一些实现的自动歌曲生成系统的框图。在一些实现中，该系统可被实现为计算设备102中的模块122。在图2的实现中，模块122被用于实现自动旋律生成和歌词生成。如图所示，模块122包括创作意图分析模块210、歌词生成模块220和模板生成模块230。根据本公开的实现，创作意图分析模块210被配置为接收用户的输入104，并且基于该输入104确定用户关于待生成歌曲的创作意图202。输入104可以经由计算设备102的输入设备150从用户被接收到并且被提供给创作意图分析模块210。

在一些实现中，创作意图分析模块210可以基于特定类型的输入104或者多种不同类型的输入104来分析和确定创作意图202。输入104的示例可以是文字，例如用户输入的关键字、人物之间的对话、标签、包含文字的各种文档等。备选地或附加地，输入104可以包括各种格式的图像、各种长度和格式的视频和/或音频等等。可以经由输入设备150提供的用户界面接收用户的输入。因此，根据本公开的实现，可以允许用户通过简单的输入来控制待生成的歌曲(包括歌曲的歌词和/或旋律)，而不要求用户具备较多的乐理知识来引导歌词、旋律和/或歌曲的生成。

用户关于歌曲的创作意图指的是被体现在输入104中的用户期望生成的歌曲能够表达出的一个或多个特征，包括歌曲的主题、情感、基调、风格、关键元素等等。例如，如果输入104是一张全家福并且图像中的家庭成员的表情都很欢乐，那么创作意图分析模块210可以分析出用户的创作意图是要使得生成的歌曲主题为“家庭”并且整体要表达出“欢乐”的情感等等。

取决于输入104的类型，创作意图分析模块210可以采用不同分析技术来从输入104中提取出创作意图202。例如，如果输入104是文字，创作意图分析模块210可以采用自然语言处理或文本分析技术来分析输入的文字中所描述的主题、情感、关键元素等等。

在另一个示例中，如果输入104为图像，则创作意图分析模块210可以采用图像识别、人脸识别、姿态识别、表情检测、性别和年龄检测等图像分析技术来分析图像中包含的对象和人物以及这些对象和人物的表情、姿态和情感等信息，并且由此确定图像整体展现出的主题、情感、关键元素(例如图像包含人、物、环境、事件等)。

备选地或附加地，创作意图分析模块210还可以获取与图像相关联的其他特征，诸如图像的大小、格式、类型(例如油画、线条画、剪切画、黑白图像等)、整体色调、相关联的标签(可以由用户添加或自动添加的)和元数据等。然后，基于获取的信息来分析和确定创作意图202。

图3示出了对输入104的创作意图分析的示意图，在此例中输入104是图像。在接收到图像104后，创作意图分析模块210可以采用人脸识别和姿态识别技术来确定图像104中包含多个人物，并且由此确定图像104的类别属于“人群”，如图3中的标签302所指示的。进一步地，创作意图分析模块210还可以通过性别和年龄检测和人脸识别等分析图像104中每个人物的年龄和性别(如标签304所指示的)并且还可以基于年龄、性别以及其他信息(例如人脸相似度等)来确定图像104包含的人群为一个家庭。

此外，通过表情检测技术、图像识别技术、图像分析技术等，可以确定图像104中人物的情感是欢快的，并且处于户外环境中。因此，创作意图分析模块210可以确定用户的创作意图可能是要创作歌颂家庭的欢乐歌曲，这首歌曲可以出现“户外”、“紧密”、“个人”等元素。当然，创作意图分析模块210还可以继续确定图像104的类型、格式、大小等信息来进一步地辅助确定创作意图。

在其他示例中，如果输入104包括音频和/或视频，创作意图分析模块210可以采用语音分析(针对音频和视频)和图像分析(针对视频)技术来确定输入音频和/或视频中包含的具体内容。例如，可以通过将音频和/或视频中的语音转换为文字，并且进而采用以上提及的自然语言处理或文本分析技术进行分析。可以采用以上提及的图像分析技术对视频的一个或多个帧进行分析。此外，还可以对音频和/或视频中的语音的频谱特性进行分析来确定音频和/或视频中所表现的人物的情感或标识出语音所涉及的主题等。

应当理解，可以采用已有的或者将来待开发的各种对文字、图像、音频和/或视频中的分析技术来执行创作意图分析的任务，只要这样的技术可以从相应类型的输入中分析出能够影响歌曲创作的一个或多个方面即可。在一些实现中，输入104可以包含多种类型的输入，并且因此对于每种类型的输入均可以采用相应的分析技术进行分析。从不同类型的输入获得的分析结果可以被结合起来用于确定创作意图202。在一些实现中，如果输入104包含明确的创作意图的指示，例如指示歌曲的风格、情感等方面或者指示歌词的某些关键元素或者指示歌曲的一部分旋律和/或歌词分布，则可以从输入104中提取这些明确的创作意图。虽然列举了一些创作意图的示例，然而应该理解，还可以从用户的输入中分析出影响歌曲的特征的其他方面，本公开的范围在此方面不受限制。

继续参考图2，创作意图分析模块210确定的创作意图202可以作为关键字被传递给模板生成模块230。模板生成模块230被配置为基于创作意图202生成用于歌曲的模板(template)204。歌曲的模板204至少可以指示歌曲的旋律，而旋律可以被表示为音素的持续时间、音高轨迹、音强轨迹以及其它用于产生旋律的各种参数。此外，歌曲的模板204还可以指示歌词相对于旋律的分布，包括每个小节的歌词字数，每个字的各个音素的持续时长、音高轨迹和音强轨迹等等。因此，模板204中的歌词分布与旋律相匹配，使得由此生成的歌词和旋律组成的歌曲可以容易地被歌唱。

在一些实现，可以实现确定和存储了多个预定义的歌曲模板，称为“候选模板”。此时，模板生成模块230可以被配置为基于创作意图202从这多个候选模板中选择模板204以用于当前歌曲的生成。多个候选模板可以是从已有歌曲中获得。例如，可以将已有歌曲的旋律以及已有歌曲的歌词相对于旋律的分布直接或者经过手动调整之后确定为一个或多个候选模板。在另外的示例中，一个或多个候选模板可以由具备乐理知识的人创作。此外，一个或多个候选模板也可以由用户提供，例如由用户创作或从其他来源获得。多个候选模板可以被预先获得并且存储在存储设备中以供使用。例如，多个候选模板可以被存储在计算设备102的存储设备130作为本地数据，和/或可以被存储在计算设备102可访问的外部数据库170中。

候选模板的音乐风格、曲调、节奏、情感是已知的，并且例如可以通过标签的形式被记录。由此，模板生成模块230可以基于创作意图202所包括的诸如主题、情感、元素等信息从多个候选模板中选择相匹配的候选模板作为模板204。模板生成模块230可以基于与候选模板相关联的标签信息(记录了候选模板的音乐风格、曲调、节奏、情感等)和创作意图202的比较，选择出要使用的模板204。例如，如果创作意图202指示待生成歌曲的主题是“家庭”并且情感要表现出“欢乐”，那么可以选择情感较为欢乐、曲调和节奏较为活泼的候选模板。在一些实现中，可以基于创作意图202确定两个或更多候选模块以供用户选择，并且通过接收到的用户选择确定要使用的模板204。

替代预定义的候选模板或者作为补充，在另外一些实现中，模板生成模块230还可以基于创作意图202来实时地生成要使用的模板204。具体地，模板生成模块230可以将一个或多个已有的歌曲旋律预先划分为多个旋律片段。这样的旋律片段的划分可以以旋律的一个或多个音节为基础，并且可以具有任何相同或不同的长度。由专业人员对已由歌曲进行人工划分也是可行的。划分得到的多个旋律片段可以被用作后续旋律生成的基础，并且可以被部分或全部存储在计算设备102的本地存储设备130和/或可访问的外部设备、诸如数据库170中。从创作意图分析模块210接收到创作意图202之后，模板生成模块230可以基于创作意图202来选择旋律片段用以组成完整的旋律。在组合旋律片段时，不仅要使得旋律能够符合创作意图202，而且还要让旋律片段之间的过渡平滑，以便使得整体旋律听起来更悦耳。关于“平滑”的标准和判定，将在下文具体描述。

具体地，模板生成模块230可以从预先划分的旋律片段中选择两个或更多候选旋律片段，并且然后基于候选旋律片段之间的平滑度来将其中的至少两个候选旋律片段拼接为旋律。候选旋律片段的选择可以以创作意图202为基础，从而使得所选择的一个或多个候选旋律片段均能够单独和/或结合起来表现该创作意图202。例如，如果创作意图202指示待生成的歌曲的情感是“欢乐”，那么可以从预先划分的旋律片段中选择能够表达欢乐情绪的旋律片段作为候选旋律片段。如果创作意图202还指示影响歌曲创作的其他方面，也可以相应地据此选择旋律片段。

在一些实现中，可以将预先划分的旋律片段进行分类和贴标签，并且然后可以基于分类和标签与创作意图202的比较来确定候选旋律片段。在另外一些实现中，还可以预先定义或训练预选择模型来执行候选旋律片段的选择。该预选择模型可以被训练为可以根据输入的创作意图202(例如，以关键字的形式)选择相应的候选旋律片段。可以采用不同的训练创作意图以及已知与这些创作意图相匹配的旋律片段作为训练数据来训练该预选择模型。此外，还可以用一些负样本(即，一些创作意图以及与这些创作意图不匹配的旋律片段)来训练该模型，以使得该模型具备判断正确和错误结果的能力。该预选择模型可以被部分或全部存储在计算设备102的本地存储设备130和/或可访问的外部设备、诸如数据库170中。

如上所述，旋律片段之间的平滑过渡对于所创造的歌曲质量而言是重要的。在候选旋律片段之中，模板生成模块230可以确定每两个候选旋律片段之间的平滑度来确定这两个候选旋律片段是否可以被拼接在一起。相邻候选旋律片段之间的平滑度可以使用各种技术来确定，这样的技术的示例包括但不限于：通过分析旋律片段中的旋律的音高轨迹、对应的音高轨迹之间的连贯性和/或其他影响倾听者的感知的方面来度量。

在一些实现中，模板生成模块230可以使用预先定义的平滑度判断模型来确定两个候选旋律片段是否在听觉上被平滑过渡。该平滑度判断模型可以被设计为基于输入的旋律片段的各种声学参数(诸如频谱、频率、响度、持续时间等)输出平滑度。输出可以是以处于一定范围的平滑度度量或者可以表示两个输入的旋律片段是否平滑的指示(例如1或0的值)。用于训练这样的平滑度判断模型的训练数据可以包括已有歌曲中的相邻旋律片段(作为正样本)和从已有歌曲的多个片段中随机挑选的旋律片段(作为负样本)。在一些示例中，这样的模型例如可以各种基于神经网络的模型(诸如基于DNN或长短期记忆(LSTM)的模型)或者任何其他能够完成平滑度判断的模型等等。模板生成模块230可以将两个候选旋律片段输入到平滑度判断模型，并且基于模型输出的结果与预定阈值的比较(或者结果是否指示平滑)来确定两个候选旋律片段是否平滑并且因此确定它们是否可以被拼接。

备选地或附加地，模板生成模块230还可以通过维特比搜索(viterbi searching)来规划候选旋律片段的拼接路径，即候选旋律片段的排列顺序。因此，模板生成模块230基于平滑度和/或维特比搜索的结果，可以确定要被拼接的两个或更多候选旋律片段以及它们的拼接顺序。这些拼接的候选旋律片段形成模板204所指示的旋律。

进一步地，在一些实现中，模板生成模块230还可以基于所生成的旋律来确定由模板204所指示的歌词的分布。在一些实现中，由于组成旋律的旋律片段均是从已有歌曲划分得到的，模板生成模块230可以分析被拼接的候选旋律片段所对应的歌曲中的歌词，以此确定模板所指示的歌词分布。将会理解，已有歌曲中的歌词与旋律片段之间可被认为是彼此匹配的。因此，可以容易地分析出与被拼接的候选旋律片段相匹配的歌词分布。在另外的实现中，也可以基于创作意图202和已形成的旋律来确定歌词相对于旋律的分布。在确定旋律以及歌词相对于旋律的分布之后，模板生成模块230可以获得相应的模板204。

在一些实现中，如果创作意图202中包括用户关于旋律和/或歌词分布的明确指示，模板生成模块230在生成模板时也将这些考虑在内，以获得能明确体现这些创作意图的模板204。为了进一步提升用户体验，基于创作意图202选择或生成的模板可以首先作为中间模板被呈现给用户。模板生成模块230然后接收用户对于中间模板的旋律和/或歌词分布的修改，并且基于这些修改获得最终的模板204。

由模板生成模块230确定的模板204被用于指导歌词生成模块220的歌词生成。具体地，歌词生成模块220被配置为基于模板204来生成歌曲的歌词。由于模板204指示了歌词相对于旋律的分布，因此歌词生成模块220可以将歌词生成为与该分布相匹配。例如，歌词中的每个小节的歌词字数，每个字的各个音素的持续时长、音高轨迹和音强轨迹都与该分布所指示的相匹配，从而使得所生成的歌词和旋律能够组成可以被歌唱的歌曲。另外，歌词生成模块220还可以从创作意图分析模块210获得创作意图202，并且进一步基于创作意图202来生成歌词。创作意图可以指导歌词生成模块220生成的歌词也表现相应的主题、情感和/或各种关键元素。

在一些实现中，歌词生成模块220可以将一个或多个已有的歌词与模板204中指示的分布进行比较。已有的歌词可以包括各种已有歌曲中包含的歌词，或者已撰写的诗歌等能够被歌唱的文本。如果某个已有的歌词与模板204所指示的分布相匹配，则可以选择该歌词。在一些情况中，歌词生成模块220还可以将一个或多个已有的歌词划分为多个歌词片段，并且确定相应的歌词片段是否与模板中指示一部分分布相匹配。然后，通过将匹配的多个歌词片段组合成歌曲的歌词。在另外考虑创作意图202时，歌词生成模块220还可以基于创作意图202来选择歌词片段，以使得选择的歌词片段单独或结合起来体现该创作意图202的一个或多个方面。

在另外一些实现中，歌词生成模块220可以使用预定义的歌词生成模型来生成歌词的生成。这样的歌词生成模型可以被训练为具备根据歌曲的不同模板(例如，不同的歌词分布)生成不同歌词的能力。利用这样的歌词生成模型，可以获得与模板204指示的歌词的分布相匹配的歌词。例如，歌词中的每个小节的歌词字数，每个字的各个音素的持续时长、音高轨迹和音强轨迹都与该分布所指示的相匹配，从而使得所生成的歌词和旋律能够组成可以被歌唱的歌曲。

备选地或附加地，歌词生成模型还可以被训练为基于创作意图202的许多不同方面的输入来生成相应的歌词，使得歌词能够体现创作意图的一个或多个方面，例如符合相应的歌曲主题、表达出歌曲情绪和/或包含某些关键元素。在一些实现中，如果歌词生成模块220从创作意图分析模块210获得的创作意图202没有覆盖歌词生成模型所要求的全部创作意图的方面(因为用户的有限输入104)，那么可以将其他方面的取值设置为空，以使得歌词生成模块220可以利用有限的创作意图202(以及歌曲的模板204)作为歌词生成模型的输入来生成歌词。应当理解，在一些实现中，如果创作意图202中包括用户关于歌词的明确指示，例如歌词包含的关键元素或词语，歌词生成模块220在生成模板时也将这些考虑在内，以获得能明确体现这些创作意图的歌词。

在一些示例中，歌词生成模型可以基于神经网络、诸如循环神经网络(RNN)的模型或者其他学习模型而被构建。该歌词生成模型可以利用多个已有的歌词而被训练。已有的歌词可以包括各种已有歌曲中包含的歌词或者已撰写的诗歌等能够被歌唱的文本。在训练时，已有的歌词可以被分类为不同的主题、风格和/或内容。该歌词生成模型被训练为当接收到特定的模板和/或创作意图时，可以生成相应的歌词。因此，特定的模板和创作意图也作为歌词生成模块的训练数据，从而使得歌词生成模型能够从训练数据中学习到为特定模板和/或创作意图生成歌词的能力。已训练的歌词生成模型可以被部分或全部存储在计算设备102的本地存储设备130和/或可访问的外部设备、诸如数据库170。应当理解，可以采用各种已知的和/或将来待开发的模型结构和/或训练方法来获得歌词生成模块，本公开的范围在此方面不受限制。

在通过从已有歌词中选择的和/或由歌词生成模型生成歌词之后，在一些实现中，歌词生成模块220可以直接将该歌词提供作为输出106。备选地，可以为用户提供对自动生成的歌词的修改。歌词生成模块220可以首先将从已有歌词中选择的和/或由歌词生成模型生成的歌词作为候选歌词输出给用户，例如经由输出设备160以文本显示和/或以音频播放给用户。用户可以通过输入设备150输入对候选歌词的修改指示206。这样的修改指示206可以指示对候选歌词中的一个或多个词语的调整，例如用其他词语取代这些词语或者修改词语的顺序。在接收到用户关于歌词的修改指示206的输入之后，歌词生成模块220基于输入的修改指示206修改候选歌词以获得歌曲的歌词106以供输出。

歌词106可以被提供给计算设备102的输出设备160，并且可以以文字和/或音频的形式被输出给用户。在一些实现中，模板生成模块230生成的模板204中的旋律也可以被提供给输出设备160以作为输出106。例如，旋律106可以被谱写为简谱和/或五线谱的形式输出给用户。

以上讨论的自动旋律和歌词生成。在一些备选实现中，歌词还可以被用于与模板204指示的旋律组合以生成歌曲。这样的歌曲还可以被播放给用户。以下将详细讨论自动歌曲合成的示例实现。

歌曲的合成

图4示出了根据自动歌曲合成的实现的模块122的框图。在图4的示例中，除了自动歌词生成之外，模块122还可以用于实现基于歌词和旋律的自动歌曲合成。如图4所示，模块122进一步包括歌曲合成模块410。歌曲合成模块410从歌词生成模块220接收歌词并且从模板生成模块230接收模板指示的旋律，并且然后将接收到的歌词和旋律组合以生成可以被歌唱的歌曲。

应当理解，图4中示出的歌曲合成模块410是可选的。在一些情况中，模块122可以如图2所示的仅为提供分离的歌词和/或旋律。在另外的情况中，可以自动地或者响应于用户的输入(例如对于合成歌曲的用户指示)而由歌曲合成模块410将生成的歌词和旋律合成为歌曲。

在一些实现中，歌曲合成模块410可以将歌词和旋律简单地匹配在一起，然后将歌曲106输出给用户。例如，将旋律以简谱或五线谱的形式谱写和显示在显示设备上，并且将歌词与旋律相关联地显示。用户可以通过识别旋律和歌词来演唱歌曲。

在另外一些实现中，歌曲合成模块410还可以为歌曲确定对应的歌唱者的声音，从而使得歌曲106可以直接被播放。具体地，歌词合成模块410可以获得能够表示歌唱者的声音特征的声音模型，并且然后将歌词作为该声音模型的输入，以生成歌词的声音频谱轨迹。通过这种方式，歌词可以被该声音模型所表示的歌唱者诵读。为了使得歌唱者对歌词的诵读具有一定的韵律，歌词合成模块410进一步将声音频谱轨迹与模板指示的旋律合成为歌曲的演唱波形，该演唱波形即表示与旋律匹配的歌曲演唱。

在一些实现中，歌词合成模块410可以使用声码器(vocoder)来将声音频谱轨迹和旋律合成在一起。所得到的演唱波形可以被提供给计算设备102的输出设备160(例如扬声器)以用于播放歌曲。备选地，演唱波形也可以由计算设备102提供给其他外部设备来播放歌曲。

歌曲合成模块410用于生成歌词的声音频谱轨迹的声音模型可以是预先定义的声音模型，该声音模型可以使用若干声音片段来训练，以便能基于输入的文字或歌词而生成相应的声音频谱轨迹。声音模型可以基于例如隐马尔科夫(HMM)模型或者各种基于神经网络的模型(诸如基于DNN或长短期记忆(LSTM)的模型)等等来构造。在一些实现中，该声音模型可以使用某个歌唱者的多个声音片段来训练。在另外一些实现中，该声音模型可以使用多个不同歌唱者的声音片段来训练，从而使得声音模型能够表现出这些歌唱者的平均语音的特征。这样的声音模型也可以被称为平均声音模型。这些预定义的声音模型可以被部分或全部存储在计算设备102的本地存储设备130中和/或可访问的外部设备、诸如数据库170中。

在一些情况中，用户可能期望歌曲能够由个性化的声音来演唱歌曲。因此，在一些实现中，歌曲合成模块410可以接收用户输入的特定歌唱者的一个或多个声音片段402，并且基于该声音片段来训练声音模型。通常，用户输入的声音片段可能是有限的，不足以用于训练出可工作的声音模型。因此，歌曲合成模块410可以利用接收到的声音片段402来调整预定义的平均声音模型，从而使得调整后的平均声音模型也能表示声音片段402中的歌唱者的声音特征。当然，在其他实现中，也可以要求用户输入一个或多个特定歌唱者的足够多的声音片段，从而使得针对这个或这些歌唱者的声音训练出对应的声音模型。

示例过程

图5示出了根据本公开一些实现的自动歌曲生成的过程500的流程图。过程500可以由计算设备102来实现，例如可以被实现在计算设备102的模块122中。

在510，计算设备102响应于接收到用户的输入，基于输入确定用户关于待生成歌曲的创作意图。在520，计算设备102基于创作意图生成用于歌曲的模板。该模板指示歌曲的旋律和歌词相对于旋律的分布。在530，计算设备102至少部分地基于模板生成歌曲的歌词。进一步地，在一些实现中，计算设备102可以进一步基于创作意图来生成歌词。

在一些实现中，过程500可以进一步包括将歌词和模板指示的旋律组合以生成歌曲。

在一些实现中，过程500可以进一步包括获得表示歌唱者的声音特征的声音模型；利用声音模型生成歌词的声音频谱轨迹；将声音频谱轨迹和模板指示的旋律合成为歌曲的演唱波形；以及基于演唱波形播放歌曲。

在一些实现中，获得声音模型包括：接收歌唱者的声音片段；以及通过利用接收到的声音片段调整预定义的平均声音模型来获得声音模型，平均声音模型利用多个不同歌唱者的声音片段而获得。

在一些实现中，基于创作意图生成模板包括：基于创作意图，从多个候选模板中选择模板。

在一些实现中，基于创作意图生成模板包括：将至少一个已有的歌曲旋律划分为多个旋律片段；基于创作意图从多个旋律片段中选择多个候选旋律片段；基于多个候选旋律片段之间的平滑度，将多个候选旋律片段中的至少两个候选旋律片段拼接，以形成模板指示的旋律；以及通过分析被拼接的至少两个候选旋律片段对应的歌曲中的歌词，来确定模板指示的歌词相对于旋律的分布。

在一些实现中，生成歌词包括：至少部分地基于模板生成候选歌词；以及基于接收到的用户输入来修改候选歌词以获得歌词。

在一些实现中，生成歌词包括：获得预定义的歌词生成模型，歌词生成模型利用多个已有的歌词而获得；以及利用歌词生成模型，基于模板生成歌词。

在一些实现中，用户的输入包括以下至少一项：图像、文字、视频或音频。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实施的方法，包括：响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；基于所述创作意图生成用于所述歌曲的模板，所述模板指示所述歌曲的旋律和歌词相对于所述旋律的分布；以及至少部分地基于所述模板生成所述歌曲的歌词。

在一些实现中，生成所述歌词还包括：进一步基于所述创作意图来生成所述歌词。

在一些实现中，该方法进一步包括：将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

在一些实现中，该方法进一步包括：获得表示歌唱者的声音特征的声音模型；利用所述声音模型生成所述歌词的声音频谱轨迹；将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及基于所述演唱波形播放所述歌曲。

在一些实现中，获得所述声音模型包括：接收歌唱者的声音片段；以及通过利用接收到的所述声音片段调整预定义的平均声音模型来获得所述声音模型，所述平均声音模型利用多个不同歌唱者的声音片段而获得。

在一些实现中，基于所述创作意图生成所述模板包括：基于所述创作意图，从多个候选模板中选择所述模板。

在一些实现中，基于所述创作意图生成所述模板包括：将至少一个已有的歌曲旋律划分为多个旋律片段；基于所述创作意图从所述多个旋律片段中选择多个候选旋律片段；基于所述多个候选旋律片段之间的平滑度，将所述多个候选旋律片段中的至少两个候选旋律片段拼接，以形成所述模板指示的所述旋律；以及通过分析被拼接的所述至少两个候选旋律片段对应的歌曲中的歌词，来确定所述模板指示的歌词相对于所述旋律的所述分布。

在一些实现中，生成所述歌词包括：至少部分地基于所述模板生成候选歌词；以及基于接收到的用户输入来修改所述候选歌词以获得所述歌词。

在一些实现中，生成所述歌词包括：获得预定义的歌词生成模型，所述歌词生成模型利用多个已有的歌词而获得；以及利用所述歌词生成模型，基于所述模板生成所述歌词。

在一些实现中，所述输入包括以下至少一项：图像、文字、视频或音频。

在另一方面，本公开提供了一种设备。该设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；基于所述创作意图生成用于所述歌曲的模板，所述模板指示所述歌曲的旋律和歌词相对于所述旋律的分布；以及至少部分地基于所述模板生成所述歌曲的歌词。

在一些实现中，所述动作进一步包括：将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

在一些实现中，所述动作进一步包括：获得表示歌唱者的声音特征的声音模型；利用所述声音模型生成所述歌词的声音频谱轨迹；将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及基于所述演唱波形播放所述歌曲。

在另一方面，本公开提供了一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；基于所述创作意图生成用于所述歌曲的模板，所述模板指示所述歌曲的旋律和歌词相对于所述旋律的分布；以及至少部分地基于所述模板生成所述歌曲的歌词。

在一些实现中，所述机器可执行指令在由设备执行时进一步使所述设备：进一步基于所述创作意图来生成所述歌词。

在一些实现中，所述机器可执行指令在由设备执行时进一步使所述设备：将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

在一些实现中，所述机器可执行指令在由设备执行时进一步使所述设备：获得表示歌唱者的声音特征的声音模型；利用所述声音模型生成所述歌词的声音频谱轨迹；将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及基于所述演唱波形播放所述歌曲。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：接收歌唱者的声音片段；以及通过利用接收到的所述声音片段调整预定义的平均声音模型来获得所述声音模型，所述平均声音模型利用多个不同歌唱者的声音片段而获得。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：基于所述创作意图，从多个候选模板中选择所述模板。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：将至少一个已有的歌曲旋律划分为多个旋律片段；基于所述创作意图从所述多个旋律片段中选择多个候选旋律片段；基于所述多个候选旋律片段之间的平滑度，将所述多个候选旋律片段中的至少两个候选旋律片段拼接，以形成所述模板指示的所述旋律；以及通过分析被拼接的所述至少两个候选旋律片段对应的歌曲中的歌词，来确定所述模板指示的歌词相对于所述旋律的所述分布。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：至少部分地基于所述模板生成候选歌词；以及基于接收到的用户输入来修改所述候选歌词以获得所述歌词。

在一些实现中，所述机器可执行指令在由设备执行时使所述设备：获得预定义的歌词生成模型，所述歌词生成模型利用多个已有的歌词而获得；以及利用所述歌词生成模型，基于所述模板生成所述歌词。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实施的方法，包括：

响应于接收到用户的输入，基于所述输入确定所述用户关于待生成歌曲的创作意图；

基于所述创作意图生成用于所述歌曲的模板，所述模板指示所述歌曲的旋律和歌词相对于所述旋律的分布；以及

至少部分地基于所述模板生成所述歌曲的歌词。

2.根据权利要求1所述的方法，其中生成所述歌词还包括：

进一步基于所述创作意图来生成所述歌词。

3.根据权利要求1所述的方法，进一步包括：

将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

4.根据权利要求1所述的方法，进一步包括：

获得表示歌唱者的声音特征的声音模型；

利用所述声音模型生成所述歌词的声音频谱轨迹；

将所述声音频谱轨迹和所述模板指示的旋律合成为所述歌曲的演唱波形；以及

基于所述演唱波形播放所述歌曲。

5.根据权利要求4所述的方法，其中获得所述声音模型包括：

接收歌唱者的声音片段；以及

通过利用接收到的所述声音片段调整预定义的平均声音模型来获得所述声音模型，所述平均声音模型利用多个不同歌唱者的声音片段而获得。

6.根据权利要求1所述的方法，其中基于所述创作意图生成所述模板包括：

基于所述创作意图，从多个候选模板中选择所述模板。

7.根据权利要求1所述的方法，其中基于所述创作意图生成所述模板包括：

将至少一个已有的歌曲旋律划分为多个旋律片段；

基于所述创作意图从所述多个旋律片段中选择多个候选旋律片段；

基于所述多个候选旋律片段之间的平滑度，将所述多个候选旋律片段中的至少两个候选旋律片段拼接，以形成所述模板指示的所述旋律；以及

通过分析被拼接的所述至少两个候选旋律片段对应的歌曲中的歌词，来确定所述模板指示的歌词相对于所述旋律的所述分布。

8.根据权利要求1所述的方法，其中生成所述歌词包括：

至少部分地基于所述模板生成候选歌词；以及

基于接收到的用户输入来修改所述候选歌词以获得所述歌词。

9.根据权利要求1所述的方法，其中生成所述歌词包括：

获得预定义的歌词生成模型，所述歌词生成模型利用多个已有的歌词而获得；以及

利用所述歌词生成模型，基于所述模板生成所述歌词。

10.根据权利要求1所述的方法，其中所述输入包括以下至少一项：图像、文字、视频或音频。

11.一种设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

至少部分地基于所述模板生成所述歌曲的歌词。

12.根据权利要求11所述的设备，其中生成所述歌词还包括：

进一步基于所述创作意图来生成所述歌词。

13.根据权利要求11所述的设备，其中所述动作进一步包括：

将所述歌词和所述模板指示的旋律组合以生成所述歌曲。

14.根据权利要求11所述的设备，其中所述动作进一步包括：

获得表示歌唱者的声音特征的声音模型；

利用所述声音模型生成所述歌词的声音频谱轨迹；

基于所述演唱波形播放所述歌曲。

15.根据权利要求14所述的设备，其中获得所述声音模型包括：

接收歌唱者的声音片段；以及

16.根据权利要求11所述的设备，其中基于所述创作意图生成所述模板包括：

基于所述创作意图，从多个候选模板中选择所述模板。

17.根据权利要求11所述的设备，其中基于所述创作意图生成所述模板包括：

将至少一个已有的歌曲旋律划分为多个旋律片段；

18.根据权利要求11所述的设备，其中生成所述歌词包括：

至少部分地基于所述模板生成候选歌词；以及

19.根据权利要求11所述的设备，其中生成所述歌词包括：

利用所述歌词生成模型，基于所述模板生成所述歌词。

20.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：

至少部分地基于所述模板生成所述歌曲的歌词。