CN110555126B

CN110555126B - 旋律的自动生成

Info

Publication number: CN110555126B
Application number: CN201810558917.1A
Authority: CN
Inventors: 黄绍晗; 崔磊; 葛涛; 韦福如; 周明
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2023-06-27
Anticipated expiration: 2038-06-01
Also published as: CN110555126A; WO2019231835A1; US20210158790A1; EP3803846B1; US11705096B2; EP3803846A1

Abstract

根据本公开的实现，提供了一种支持机器自动生成旋律的方案。在该方案中，用户情绪和/或环境信息被用于从多个旋律特征参数中选择第一旋律特征参数，其中该多个旋律特征参数中的每一个与多个参考旋律中的一个参考旋律的音乐风格相对应。该第一旋律特征参数进一步被用于生成符合该音乐风格的、与参考旋律不同的第一旋律。由此，可以自动地创作出与用户情绪和/或环境信息相匹配的旋律。

Description

旋律的自动生成

背景技术

音乐是人们欣赏和喜爱的一种艺术形式，已经深入渗透到人们的生活中。在不同的情境中，人们可能期望听到符合当前情境的音乐。然而，传统音乐播放一般是基于音乐列表的方式，难以根据用户情绪、所处环境等因素进行自动调整。此外，对音乐列表中的不同乐曲进行切换也往往需要用户的手动操作。

发明内容

根据本公开的实现，提供了一种支持机器自动创作旋律的方案。在该方案中，用户情绪和/或环境信息被用于从多个旋律特征参数中选择第一旋律特征参数，其中该多个旋律特征参数中的每一个与多个参考旋律中的一个参考旋律的音乐风格相对应。该第一旋律特征参数进一步被用于生成符合该音乐风格的、与参考旋律不同的第一旋律。由此，可以自动地创作出与用户情绪和/或环境信息相匹配的旋律。

提供发明内容部分是为了简化的形式来介绍对概念的标识，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够在其中实施本公开的多个实现的计算环境的框图；

图2示出了根据本公开的一些实现的旋律创作的过程的流程图；

图3示出了根据本公开的一些实现的利用VAE模型生成旋律的示意图；以及

图4示出了根据本公开的另一些实现的利用VAE模型生成旋律的示意图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上讨论的，传统音乐播放难以根据不同的情境而自动地调整所播放音乐的风格。在很多情况中，如果想播放与当前情境相匹配的音乐，往往需要进行人工选择。随着人工智能的不断进步，期望能够自动地生成与当前情境相匹配的音乐。

根据本公开的一些实现，提供了一种由计算机实施的自动生成旋律的方案。在该方案中，提供了预定的多个旋律特征参数，每一个旋律特征参数表征多个参考旋律中的一个参考旋律中的音符分布并且与该参考旋律的音乐风格相对应。用户情绪和/或环境信息，诸如物理环境的状况和用户的生理特性等，被检测以从多个旋律特征参数中选择一个旋律特征参数，用于生成符合相对应的音乐风格的旋律。通过本公开的方案，能够自动创作出与用户情绪和/或环境信息相匹配的旋律。

以下参考附图来说明本公开的基本原理和若干示例实现。

示例环境

图1示出了能够在其中实施本公开的多个实现的计算环境100的框图。应当理解，图1所示出的计算环境100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算环境100包括通用计算设备形式的计算设备102。计算设备102的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备102可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端，包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备102能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备102的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备102通常包括多个计算机存储介质。这样的介质可以是计算设备102可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括一个或多个程序旋律生成模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。旋律生成模块122可以由处理单元110访问和运行，以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备102内被访问。

计算设备102的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备102可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。计算设备102还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如数据库170、其他存储设备、服务器、显示设备等，与一个或多个使得用户与计算设备102交互的设备进行通信，或者与使得计算设备102与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。

计算设备102可以用于自动生成旋律。为了执行旋律生成，计算设备102通过输入设备150接收用户情绪和/或环境信息104。取决于具体的场景，不同类型的输入设备150可以被用于接收用户情绪和/或环境信息104。在一些实现中，还可以通过计算设备102外部的检测设备来获得用户情绪和/或环境信息104。例如，可以通过设备102外部的语音输入设备、相机、光强检测器来接收用户情绪和/或环境信息104。用户情绪和/或环境信息104被用作旋律生成模块122的输入。计算设备102的处理单元110能够运行旋律生成模块122，以基于用户情绪和/或环境信息104选择与上下文环境相匹配的旋律特征参数，并且由此生成相应的旋律106。在一些实现中，旋律生成模块122将生成的旋律106作为输出提供给输出设备160，并经由输出设备160输出(例如，通过扬声器演奏、和/或通过显示器呈现等)。

以下将详细讨论在旋律生成模块122中自动生成旋律的示例实现。

示例过程

图2示出了根据本公开一些实现的自动旋律生成的过程200的流程图。过程200可以由计算设备102来实现，例如可以被实现在计算设备102的旋律生成模块122中。

在210，计算设备102检测用户情绪和/或环境信息104。用户情绪和/或环境信息104指的是计算设备102的用户相关的情绪状态和/或与计算设备102所处的物理环境的状况。用户情绪和/或环境信息104可以由计算设备102或者相关联的设备实时检测、或者从外部设备直接接收到。在本公开的实现中，用户情绪和/或环境信息104可以用于引导旋律的生成。

用户情绪可以通过对用户的生理特性进行检测来确定。生理特性指的是与计算设备102的用户相关联的生理特点或具体的生理参数，包括但不限于以下一项或多项：用户的面部表情或全身姿态、用户心跳、用户脉搏、用户血压、用户当天步数、用户当天消耗热量等。在用户处于不同的生理状态下时，也适合播放不同风格的音乐。例如，当用户心跳较快时，可能适合播放较为动感的音乐；而当用户心跳较为平缓时，可能适合播放较为轻柔的音乐。在一些实现中，计算设备102可以通过一个或多个传感器(心跳传感器、脉搏传感器、血压传感器、步数传感器等)来检测用户的生理特性。用户的不同面部表情或姿态可能传达用户不同的情绪(例如，开心、难过等)，则也适合不同风格的旋律。

用户情绪还可以通过接收用户的输入来进行确定。在一些实现中，计算设备102可以接收用户输入的语音、文字、视频、图片、音乐等来确定。计算设备102可以采用自然语言处理等技术来对用户的输入进行分析，进而确定与用户的输入相匹配的音乐风格。例如，如果用户输入一段伤感的文字，可能适合播放比较轻柔的音乐；如果用户输入一段开心的文字，可能适合播放比较动感的音乐。例如，如果用户输入了一段朋友开心聚会的视频，则可以适合播放较为动感的音乐，计算设备102还可以向用户推荐这段音乐以作为所输入视频的背景音乐。

物理环境的状况指的是计算设备102所处的物理环境的状态，包括但不限于以下一项或多项：嘈杂程度、光照强度、环境湿度、环境温度、设备移动的速度、设备所处海拔高度、设备的位置等。不同的物理环境状况往往适合播放不同风格的音乐，例如，在嘈杂度较高的物理环境(例如，商场、游乐场、体育馆、餐馆等)中，往往适合播放诸如摇滚或舞曲等欢快或者动感的音乐；而在嘈杂度较低的环境(例如，图书馆、咖啡厅、等)中，则一般适合播放诸如古典或抒情等较为轻柔的音乐。在一些实现中，计算设备102可以通过一个或多个传感器(例如，图像传感器、声音传感器、光强传感器、湿度传感器、温度传感器、速度传感器、海拔传感器、位置传感器等)来检测物理环境的状况。

除了以上的用户情绪和/或环境信息或者作为补充，用户情绪和/或环境信息104还可以包括用户的日程信息、用户的历史音乐播放记录等信息，这些信息都可以用于单独或者补充确定适合播放何种风格的音乐，因此也可以被提取以便于引导后续的旋律生成。

在220，计算设备102基于用户情绪和/或环境信息104从多个旋律特征参数中选择旋律特征参数(为了方便描述，称为第一旋律特征参数)。多个旋律特征参数可以从多个参考旋律中获得，每个旋律特征参数与多个参考旋律中的一个参考旋律中的音乐风格相对应。因此，这样的旋律特征参数可以用于生成期望的旋律。

在一些实现中，计算设备102可以获取多种音乐风格的多个参考旋律，并且可以通过人工标注或者其他自动分析技术，确定多个参考旋律中的每个参考旋律对应的一个或多个音乐风格。由此，由每个参考旋律生成的旋律特征参数将与该参考旋律的音乐风格相对应。多个旋律特征参数可以被存储，并且可以用作后续旋律生成的依据。旋律特征参数的生成将在下文中详细描述。

在一些实现中，计算设备102可以基于用户情绪和/或环境信息104来确定与用户情绪和/或环境信息104相匹配的音乐风格，并且基于确定的音乐风格来选择与相同音乐风格对应的第一旋律特征参数。在一些实现中，音乐风格指的是不同的音乐流派，例如，摇滚、流行、爵士、蓝调、乡村音乐等。在一些实现中，音乐风格还可以指与旋律相对应的情绪标签，例如，欢快、忧伤、愤怒、喜悦、焦虑等。在一些实现中，音乐风格还可以基于不同的节奏类型来划分，例如将不同旋律划分为快速、中速或慢速等音乐风格。在一些实现中，一支旋律可以与单个音乐风格相关联。在一些实现中，一支旋律还可以同时拥有多个不同的音乐风格，例如，摇滚、欢快以及快速。应当理解，本文中音乐风格仅仅是对音乐或旋律进行分类的一种标签，可以采用任何合适分类依据对旋律的音乐风格进行分类。

取决于用户情绪和/或环境信息104的类型，计算设备102可以采用不同分析技术来确定与用户情绪和/或环境信息104相匹配的音乐风格。在一些实现中，如果用户情绪和/或环境信息104是环境的声音强度、光照强度、温度、湿度等信息，则计算设备102可以通过将检测值与预定的阈值进行比较，以确定与用户情绪和/或环境信息104相匹配的音乐风格。例如，如果设备102检测到声音强度大于预定的阈值，则可以确定与当前用户情绪和/或环境信息相匹配的音乐风格为“欢快”。

在另一个示例中，如果用户情绪和/或环境信息104为图像信息，则计算设备102可以采用图像识别、人脸识别、姿态识别、表情检测、性别和年龄检测等图像分析技术来分析图像中包含的对象和人物以及这些对象和人物的表情、姿态和情感等信息，并且由此确定与用户情绪和/或环境信息104相匹配的音乐风格。例如，如果计算设备102通过图像识别检测到用户当前表情较为伤心，则可以确定与当前用户情绪和/或环境信息相匹配的音乐风格为“蓝调”。

在又一个示例中，如果用户情绪和/或环境信息104为用户的日程信息，则计算设备可以通过自然语言处理或文本分析技术来对日程信息进行分析，来确定与用户情绪和/或环境信息104相匹配的音乐风格。例如，如果用户的日程信息为“16:00至18:00举办同学聚会”，则计算设备102可以对该日程信息进行语义分析，并确定在该时间段与用户情绪和/或环境信息104相匹配的音乐风格为“喜悦”。

在一些实现中，单个音乐风格可以与多个参考旋律相关联，即存在于单个音乐风格相对应的多个旋律特征参数。在一些实现中，计算设备102可以随机地从所存储的多个相对应的旋律特征参数中选择一个旋律特征参数以作为第一旋律特征参数。在一些实现中，计算设备102还可以从所存储的先前未被使用过的多个对应的旋律特征参数中随机选择一个旋律特征参数，以作为第一旋律特征参数，从而能够为用户带来新鲜的听觉感受。在一些实现中，计算设备102还可以从多个对应的旋律特征参数中选择先前被选择次数最多的旋律特征参数，以作为第一旋律特征参数。此外，在一些实现中，用户还可以对所选择的第一旋律特征参数进行修正，这些修正可以被存储，以作为后续确定“第一旋律特征参数”的依据，从而使得所生成旋律的音乐风格能够更加贴合用户的喜好。

在一些实现中，可以预先构建学习模型，用于确定用户情绪和/或环境信息与一个或多个预定音乐风格之间的映射或对应性。这例如可以使用带有特定音乐风格标签的用户情绪和/或环境信息对学习模型进行训练而获得。在使用时，计算设备102可以将所检测的用户情绪和/或环境信息104作为学习模型的输入，通过该学习模型获得与用户情绪和/或环境信息104相匹配的一个或多个音乐风格。

此外，在一些实现中，计算设备102可以向用户展示所确定的一个或多个音乐风格，并接受用户对所确定的音乐风格的修正。这些修正还可以被存储，以作为后续确定音乐风格的依据。

在一些实现中，可以利用变分自编码器(VAE)模型来确定多个旋律特征参数。VAE模型是一种重要的生成模型，其可以例如被用于图像的生成、旋律的生成等。图3示出了根据本公开的一些实现的VAE模型300的结构示意图。

如图3所示，VAE模型300包括编码器320和解码器340，其中编码器320和解码器340均为神经网络。编码器320可以将输入编码为隐向量Z，解码器340可以以隐向量Z作为输入，并产生与输入类似的输出。隐向量Z可以包含多个元素，这些元素可以组成均值为0、方差为1的正态分布。在旋律生成的实现中，编码器320的输入可以是旋律，并且编码器320可以提取旋律的特征作为隐向量，以作为旋律特征参数。解码器340可以基于输入的隐向量(即旋律特征参数)，生成另一旋律。因此，在旋律特征参数生成时，可以仅使用VAE模型300中的编码器320。解码器340可以在选定旋律特征参数的情况下生成相应的旋律，如下文将详细描述的。

为了使得VAE模型300获得特征提取和旋律生成的能力，需要在训练过程中对编码器320和解码器340的参数进行训练。在VAE模型的训练过程，可以使用不同类型的音乐风格的多个训练旋律作为模型输入，以得到与训练旋律类似的旋律以作为输出。在输出旋律的损失函数不再下降时，可以停止对VAE模型的训练，从而得到经训练的编码器320以及解码器340。可以使用多种训练方法来训练VAE模型的编码器320以及解码器340，本公开的范围在此方面不受限制。此外，在VAE模型的训练过程中所使用的训练旋律可以与后续用于提取旋律特征参数的参考旋律相同或不同。

在训练之后，可以利用经训练的编码器320来实现旋律特征参数的提取，以供后续使用。具体地，经训练的编码器320可以对与一个或多个音乐风格对应的多个参考旋律310中多个旋律单元322之间的关联性进行分析，并进而将其编码为相对应的多个旋律特征参数332(例如，隐向量Z1、Z2、Z3、Z4等)，从而建立多个参考旋律310的音乐风格与多个旋律特征参数332之间的关联性。每个旋律特征参数332表征相应的参考旋律310中的音符分布。这些旋律特征参数332可以被存储以供选择。

继续参考图2，在230，基于第一旋律特征参数，计算设备102生成符合音乐风格的第一旋律以作为计算设备102的输出旋律106。由于第一旋律特征参数表征多个参考旋律中的一个参考旋律中的音符分布并且与该参考旋律的音乐风格相对应，计算设备102可以使用多种旋律生成方法、基于所选择的第一旋律特征参数所表征的音符分布以及所指示的音乐风格来自动生成旋律。

在一些实现中，可以通过预先训练旋律生成模型来实现旋律生成。如以上提及的，VAE模型可以用于执行旋律生成。以下将继续结合图3所描绘的VAE模型300来详细描述这样的生成旋律过程。

在图3的VAE模型300中，经训练的解码器340可以被用于对特定旋律特征参数进行解码以生成第一旋律106。因此，计算设备102可以将基于用户情绪和/或环境信息从多个旋律特征参数332中选择出的第一旋律特征参数输入到解码器340，以生成对应的旋律106。VAE模型300被训练为使得解码器340具有生成与输入旋律不同的输出旋律。因此，解码器340生成的旋律106通常不同于用于提取第一旋律特征参数332的参考旋律310。

在一些实现中，为了生成与已知的参考旋律310差异更大或者生成更多不同的旋律，计算设备102还可以先对第一旋律特征参数332进行特定转换，以作为解码器340的输入。例如，计算设备102可以通过在第一旋律特征参数332中引入随机噪声，以获得新的旋律特征参数，并将其输入到解码器340。这样的旋律特征参数变换可以避免所生成的旋律与参考旋律过于相似。在一些实现中，对第一旋律特征参数的变化要确保变换后的旋律特征参数所对应的音乐风格不变。

在一些示例中，解码器340可以基于从第一旋律特征参数332或变换后的旋律特征参数，按旋律单元(例如，音符或音节)生成旋律106。在一些情况下，除了旋律特征参数之外，后一个旋律单元的生成还与前一个旋律单元相关。图3示出了解码器340按音符生成旋律106的示例。假设每个音符的生成函数可以表示为f(Z,H,O)，其中Z表示经转换的旋律特征参数(经转换的隐向量)，H表示经训练的解码器340的内部参数，O表示所生成的前一音符。如图3所示，对于要生成的旋律106中的第二个音符，其生成函数可以表达为f(Z,H,E5)，其中E5表示已确定的第一个音符。由此，可以确定第二个音符为例如G5。可以以类似方式生成旋律106中的后续音符。此外，对于起始音符的生成，生成函数中的前一音符O可以被设置为默认值。

在一些实现中，如图3所示，每个音符可以输出为特定音阶(例如E5、G5或C5)。在一些实现中，音符也可以输出为“持续”标记，以表示对前一音符的持续。基于这样的方式，符合特定音乐风格的第一旋律106可以被自动地生成，从而为用户提供与用户情绪和/或环境信息104相匹配的原创旋律。此外，基于VAE模型所带来的随机性以及对旋律特征参数的适当变换，所获得的旋律将保持参考旋律的音乐风格的前提下，仍区别于所使用的参考旋律。

在一些实现中，当完成第一旋律的生成后，计算设备102还可以基于第一旋律来生成与第一旋律风格相同的第二旋律以供输出。例如，第一旋律250可以为16个音符，与第一旋律的起始音符的生成过程不同，第二旋律的起始音符可以以第一旋律的最后一个音符(例如C5)作为输入参数之一，迭代地生成第二旋律。由于在第二旋律的生成过程中，音符生成函数中的输入旋律特征参数Z和解码器340的内部参数H保持不变，因此生成的第二旋律能够保持与第一旋律相同的音乐风格。通过这样的方式，计算设备102可以生成与用户情绪和/或环境信息相匹配的多个旋律用于播放给用户。通过类似于“无限”旋律生成和呈现的方法，可以克服旋律切换所带来的分割感。因此，这样的方案解决了传统基于模板生成旋律时只能生成定长音乐的问题。

以上描述了计算设备102基于用户情绪和/或环境信息选择单个旋律特征参数用于生成旋律的过程的示例实现。在一些实现中，计算设备102可能从一个或多个来源获得不同的用户情绪和/或环境信息，从而可以确定与用户情绪和/或环境信息相匹配的多个音乐风格。或者，计算设备102可以确定单个用户情绪和/或环境信息与多个音乐风格相匹配。在这些情况下，计算设备102可以选择与多个音乐风格分别对应的旋律特征参数(例如，第一旋律特征参数和第二旋律特征参数)。举例而言，计算设备102可以确定用户情绪和/或环境信息104与音乐风格“欢快”和“摇滚”均相匹配。在确定与音乐风格“欢快”相对应的第一旋律特征参数后，计算设备102还可以按照类似的方式，从多个旋律特征参数中选择音乐风格“摇滚”相对应的第二旋律特征参数。

在一些实现中，计算设备102可以基于第一旋律特征参数和第二旋律特征参数生成新的旋律特征参数(为了方便描述，称为“第三旋律特征参数”)，以用于旋律生成。在一些实现中，由于旋律特征参数可以被向量化表示，计算设备102可以通过对第一旋律特征参数和第二旋律特征参数进行线性组合，以获得第三旋律特征参数。在这些实现中，计算设备102可以使用经训练的解码器340对所获得的第三旋律特征参数进行解码，以生成第一旋律。由于第三旋律特征参数是第一旋律特征参数和第二旋律特征参数的组合，因此所产生的第一旋律将同时具有相对应的多种音乐风格，例如，具有“欢快”和“摇滚”的音乐风格。

在一些实现中，当计算设备102检测到用户情绪和/或环境信息104发生改变时，计算设备102可以确定关于新的用户情绪和/或环境信息104相对应的新的旋律特征参数，并基于新的旋律特征参数生成符合新的音乐风格的旋律。例如，当计算设备102检测到驾驶车辆的速度从慢速切换到快速时，音乐风格也可以从与慢速驾驶相对应的乡村音乐切换到与快速驾驶相对应的摇滚音乐，从而与新的用户情绪和/或环境信息104相匹配。

在一些实现中，为了使得旋律生成更丰富，可能期望生成与不同音轨(与不同乐器相对应)。在这样的实现中，可以利用VAE模型的编码器对参考旋律的不同音轨分别进行编码以及利用VAE模型的解码器生成与不同音轨对应的旋律。图4示出了可用于实现旋律的不同音轨的编码和解码的VAE模型300的示例。

如图4所示，编码器320可以被实施为多个音轨编码器，包括钢琴音轨编码器422、贝斯音轨编码器424和架子鼓音轨编码器426，分别以对旋律中所包含的多个音轨进行编码，以提取相应音轨特征。此外，解码器340可以被实施为多个音轨解码器，包括钢琴音轨解码器442、贝斯音轨解码器444和架子鼓音轨解码器446，以生成包含多个音轨的旋律。

针对图4的VAE模型300，在训练过程中，可以采用包括多个音轨(例如，钢琴音轨、架子鼓音轨和贝斯音轨)的训练旋律作为多层VAE模型的训练输入，以产生同样包括多个音轨的输出旋律。在输出旋律的损失函数不再下降时，可以停止对VAE模型的训练，从而得到经训练的编码器320中的多个音轨编码器422、424和426以及解码器340中多个音轨解码器442、444和446。

在训练完成之后，可以利用编码器320中的音轨编码器422、424和426分别对一个或多个参考旋律410中的相应音轨(例如，钢琴音轨、贝斯音轨和架子鼓音轨)中的多个旋律单元412、414和416进行编码，以获得对应的多个音轨特征。每个音轨特征表征对应的音轨中的音符分布。编码器320还可以对得到的多个音轨特征进行组合，以确定与参考旋律410相对应的旋律特征参数432(例如，隐向量Z5、Z6、Z7、Z8等)，并建立参考旋律410的音乐风格与旋律特征参数432之间的关联性。所提取的旋律特征参数432表征参考旋律410中各音轨的音符分布。如前文所述，当与用户情绪和/或环境信息104相关联的音乐风格被确定时，可以基于音乐风格与旋律特征参数432之间的关联性，从而从多个旋律特征参数中选择与用户情绪和/或环境信息104相匹配的旋律特征参数432。

类似地，在旋律生成过程中，如果旋律特征参数432被选择，该旋律特征参数可以被用于旋律生成(例如，可以被直接输入给编码器340，在经过适当变换后被输入给解码器340，或与其他旋律特征参数进行组合后被输入给解码器340)。然后，解码器340中的相应音轨解码器442、444、446对所输入的旋律特征参数进行解码，以生成相应的音轨(例如，钢琴音轨、贝斯音轨和架子鼓音轨)，这些音轨将组成旋律106。在一些实现中，与参照图3所讨论的解码过程不同，在图4的VAE模型中，多个音轨中的一个或多个音符434、436和438的生成函数不仅考虑所输入的旋律特征参数、解码器内部参数以及生成的前一音符，还考虑相对应的其他一个或多个音轨的音符输出。例如，与架子鼓音轨对应的解码器在解码过程中还将以所生成的钢琴音轨的音符和所生成的贝斯音轨的音符作为输入参数。基于这样的VAE模型，计算设备102能够自动创作更为丰富的旋律，从而提高用户的听觉感受。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实施的方法，包括：检测用户情绪和/或环境信息；基于用户情绪和/或环境信息，从多个旋律特征参数中选择第一旋律特征参数，多个旋律特征参数中的每一个与多个参考旋律中的一个参考旋律的音乐风格相对应；以及基于第一旋律特征参数，生成符合音乐风格的第一旋律，第一旋律不同于参考旋律。

在一些实现中，该方法还包括：基于第一旋律生成与第一旋律邻接的第二旋律，第二旋律不同于第一旋律，并且第一旋律的音乐风格与第一旋律的音乐风格相同。

在一些实现中，该方法还包括：通过使用变分自编码器VAE模型对多个参考旋律进行编码，确定多个旋律特征参数。

在一些实现中，确定多个旋律特征参数包括：针对每个旋律特征参数，使用VAE模型对参考旋律中的多个音轨分别进行编码，以确定与多个音轨对应的音轨特征，每个音轨特征表征对应的音轨中的音符分布；以及通过组合多个音轨特征来确定旋律特征参数。

在一些实现中，生成第一旋律包括：基于第一旋律特征参数，生成第一旋律中的多个音轨。

在一些实现中，基于第一旋律特征参数生成第一旋律还包括：基于用户情绪和/或环境信息，从多个旋律特征参数中选择第二旋律特征参数；基于第一旋律特征参数和第二旋律特征参数，生成第三旋律特征参数；以及基于第三旋律特征参数，生成第一旋律。

在一些实现中，音乐风格包括不同的音乐流派和/或不同的情绪标签。

在另一方面，本公开提供了一种设备。该设备包括：处理单元；以及存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：检测用户情绪和/或环境信息；基于用户情绪和/或环境信息，从多个旋律特征参数中选择第一旋律特征参数，多个旋律特征参数中的每一个与多个参考旋律中的一个参考旋律中的音乐风格相对应；以及基于第一旋律特征参数，生成符合音乐风格的第一旋律，第一旋律不同于参考旋律。

在一些实现中，动作还包括：基于第一旋律生成与第一旋律邻接的第二旋律，第二旋律不同于第一旋律，并且第一旋律的音乐风格与第一旋律的音乐风格相同。

在一些实现中，动作还包括：通过使用变分自编码器VAE模型对多个参考旋律进行编码，确定多个旋律特征参数。

在另一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备：检测用户情绪和/或环境信息；基于用户情绪和/或环境信息，从多个旋律特征参数中选择第一旋律特征参数，多个旋律特征参数中的每一个与多个参考旋律中的一个参考旋律的音乐风格相对应；以及基于第一旋律特征参数，生成符合音乐风格的第一旋律，第一旋律不同于参考旋律。

在一些实现中，机器可执行指令在由设备执行时进一步使设备：基于第一旋律生成与第一旋律邻接的第二旋律，第二旋律不同于第一旋律，并且第一旋律的音乐风格与第一旋律的音乐风格相同。

在一些实现中，机器可执行指令在由设备执行时进一步使设备：通过使用变分自编码器VAE模型对多个参考旋律进行编码，确定多个旋律特征参数。

在一些实现中，机器可执行指令在由设备执行时进一步使设备：针对每个旋律特征参数，使用VAE模型对参考旋律中的多个音轨分别进行编码，以确定与多个音轨对应的音轨特征，每个音轨特征表征对应的音轨中的音符分布；以及通过组合多个音轨特征来确定旋律特征参数。

在一些实现中，机器可执行指令在由设备执行时进一步使设备：基于第一旋律特征参数，生成第一旋律中的多个音轨。

在一些实现中，机器可执行指令在由设备执行时进一步使设备：基于用户情绪和/或环境信息，从多个旋律特征参数中选择第二旋律特征参数；基于第一旋律特征参数和第二旋律特征参数，生成第三旋律特征参数；以及基于第三旋律特征参数，生成第一旋律。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实施的方法，包括：

检测用户情绪和/或环境信息；

基于所述用户情绪和/或所述环境信息，从多个旋律特征参数中选择对应于第一参考旋律的第一旋律特征参数，所述多个旋律特征参数中的每一个与多个参考旋律中的相应的一个参考旋律的音乐风格相对应，其中每个参考旋律是经由变分自编码器VAE的编码器被编码的，所述VAE在所述多个参考旋律上被训练以生成所述多个旋律特征参数；以及

经由所述VAE的解码器，基于所述第一旋律特征参数，生成符合所述音乐风格的第一旋律，所述第一旋律不同于所述第一参考旋律。

2.根据权利要求1所述的方法，还包括：

基于所述第一旋律生成与所述第一旋律邻接的第二旋律，所述第二旋律不同于所述第一旋律，并且所述第二旋律的音乐风格与所述第一旋律的所述音乐风格相同。

3. 根据权利要求1所述的方法，其中确定所述多个旋律特征参数包括：针对每个旋律特征参数，

使用所述VAE模型对所述参考旋律中的多个音轨分别进行编码，以确定与所述多个音轨对应的音轨特征，每个音轨特征表征对应的音轨中的音符分布；以及

通过组合所述多个音轨特征来确定所述旋律特征参数。

4.根据权利要求1所述的方法，其中生成所述第一旋律包括：

基于所述第一旋律特征参数，生成所述第一旋律中的多个音轨。

5. 根据权利要求1所述的方法，其中基于所述第一旋律特征参数生成所述第一旋律还包括：基于所述用户情绪和/或环境信息，从所述多个旋律特征参数中选择第二旋律特征参数；

基于所述第一旋律特征参数和所述第二旋律特征参数，生成第三旋律特征参数；以及

基于所述第三旋律特征参数，生成所述第一旋律。

6.根据权利要求1所述的方法，其中所述音乐风格包括不同的音乐流派和/或不同的情绪标签。

7.根据权利要求1所述的方法，还包括：

在生成所述第一旋律之前向所述第一旋律特征参数添加噪声。

8.根据权利要求1所述的方法，其中所述第一旋律包括第一音符，并且所述方法还包括：

经由所述解码器生成后续音符，其中每个后续音符是基于所述第一旋律特征参数和先前生成的音符而生成的。

9. 一种设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

检测用户情绪和/或环境信息；

基于所述用户情绪和/或环境信息，从多个旋律特征参数中选择对应于第一参考旋律的第一旋律特征参数，所述多个旋律特征参数中的每一个与多个参考旋律中的相应的一个参考旋律的音乐风格相对应，其中每个参考旋律是经由变分自编码器VAE的编码器被编码的，所述VAE在所述多个参考旋律上被训练以生成所述多个旋律特征参数；以及

10.根据权利要求9所述的设备，所述动作还包括：

基于所述第一旋律生成与所述第一旋律邻接的第二旋律，所述第二旋律不同于所述第一旋律，并且所述第一旋律的音乐风格与所述第一旋律的所述音乐风格相同。

11. 根据权利要求9所述的设备，其中确定所述多个旋律特征参数包括：针对每个旋律特征参数，

通过组合所述多个音轨特征来确定所述旋律特征参数。

12.根据权利要求9所述的设备，其中生成所述第一旋律包括：

13.根据权利要求9所述的设备，其中基于所述第一旋律特征参数生成所述第一旋律还包括：

基于所述用户情绪和/或环境信息，从所述多个旋律特征参数中选择第二旋律特征参数；

基于所述第三旋律特征参数，生成所述第一旋律。

14.根据权利要求9所述的设备，其中所述音乐风格包括不同的音乐流派和/或不同的情绪标签。

15.根据权利要求9所述的设备，其中所述动作还包括：

16.根据权利要求9所述的设备，其中所述第一旋律包括第一音符，并且所述动作还包括：

经由所述解码器生成后续音符，其中每个后续音符是基于所述第一旋律特征参数和先前生成的音符来生成的。

17.一种计算机存储介质，存储机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：

检测用户情绪和/或环境信息；

基于所述用户情绪和/或环境信息，从多个旋律特征参数中选择对应于第一参考旋律的第一旋律特征参数，所述多个旋律特征参数中的每一个与多个参考旋律中的相应的一个参考旋律中的音乐风格相对应，其中每个参考旋律是经由变分自编码器VAE的编码器被编码的，所述VAE在所述多个参考旋律上被训练以生成所述多个旋律特征参数；以及

经由所述VAE的解码器基于所述第一旋律特征参数，生成符合所述音乐风格的第一旋律，所述第一旋律不同于所述参考旋律。

18.根据权利要求17的计算机存储介质，所述机器可执行指令在由设备执行时还使所述设备：

19. 根据权利要求17的计算机存储介质，所述机器可执行指令在由设备执行时使所述设备：针对每个旋律特征参数，

通过组合所述多个音轨特征来确定所述旋律特征参数。

20.根据权利要求17所述的计算机存储介质，所述机器可执行指令在由设备执行时使所述设备：

21.根据权利要求17所述的计算机存储介质，所述机器可执行指令在由设备执行时使所述设备：

基于所述第三旋律特征参数，生成所述第一旋律。

22.根据权利要求17所述的计算机存储介质，其中所述机器可执行指令在由所述设备执行时，还使所述设备：

23.根据权利要求17所述的计算机存储介质，其中所述第一旋律包括第一音符，并且其中所述机器可执行指令在由所述设备执行时，还使所述设备：