CN109346045A

CN109346045A - 基于长短时神经网络的多声部音乐生成方法及装置

Info

Publication number: CN109346045A
Application number: CN201811257165.1A
Authority: CN
Inventors: 刘奡智; 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-02-15
Anticipated expiration: 2038-10-26
Also published as: WO2020082573A1; CN109346045B

Abstract

本发明实施例提供了基于长短时神经网络的多声部音乐生成方法及装置，本发明涉及人工智能技术领域，该方法包括：构建音乐生成模型，通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。本发明实施例提供的技术方案能够解决现有技术中难以生成多个声部之间协调的音乐的问题。

Description

基于长短时神经网络的多声部音乐生成方法及装置

【技术领域】

本发明涉及人工智能技术领域，尤其涉及一种基于长短时神经网络的多声部音乐生成方法及装置。

【背景技术】

音乐通常由多个音轨组成，并具有各自的时间动态，音乐会随着时间的推移而相互依存地展开。自然语言生成和单音音乐生成的成功不容易普及到多音轨的音乐。现有的音乐生成方法通常是单旋律音乐，因为多个旋律之间的复杂的相互影响，很难生成多旋律的音乐。

因此，如何生成多个声部之间协调的音乐成为目前亟待解决的问题。

【发明内容】

有鉴于此，本发明实施例提供了一种基于长短时神经网络的多声部音乐生成方法及装置，用以解决现有技术中难以生成多个声部之间协调的音乐的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种基于长短时神经网络的多声部音乐生成方法，所述方法包括：构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。

进一步地，在所述通过包括多个声部的音乐样本数据训练所述音乐生成模型之前，所述方法还包括：获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。

进一步地，所述通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布，包括：向所述音乐生成模型中输入所述音乐样本数据；获取所述音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为所述节奏序列及延音序列；θ_i为所述依赖网络的参数；训练所述音乐生成模型使以下公式的值最大化：获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。

进一步地，所述向所述音乐生成模型中输入所述音乐样本数据之后，所述音乐生成模型的所述第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据所述第一音符序列输出第一参数至所述依赖网络；所述第二长短时神经网络接收每个声部的音符序列中所述当前时刻音符后的预设时长的第二音符序列，并根据所述第二音符序列输出第二参数至所述依赖网络；所述单隐藏层神经网络接收每个声部的音符序列中所述当前时刻音符并传递至所述依赖网络；所述依赖网络根据所述第一参数、所述第二参数及所述当前时刻音符输出所述每个声部的音符概率密度函数。

进一步地，所述向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐，包括：向所述训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；所述音乐生成模型基于第i声部的音符随机序列、所述网络参数、所述特征参数及所述第i声部的音符概率密度分布生成所述第i声部的多个音符，i依次取一、二、三、四；根据所述第i声部的多个音符生成所述第i声部的音符新序列；将所述第一声部的音符新序列、所述第二声部的音符新序列、所述第三声部的音符新序列、所述第四声部的音符新序列组合形成所述多声部音乐。

为了实现上述目的，根据本发明的一个方面，提供了一种基于长短时神经网络的多声部音乐生成装置，所述装置包括：构建单元，用于构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；第一获取单元，用于通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；第二获取单元，用于获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；生成单元，用于向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。

进一步地，所述装置还包括：第三获取单元，用于获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；提取单元，用于提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；处理单元，用于将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。

进一步地，所述第一获取单元，包括：输入子单元，用于向所述音乐生成模型中输入所述音乐样本数据；第一获取子单元，用于获取所述音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为所述节奏序列及延音序列；θ_i为所述依赖网络的参数；训练子单元，用于训练所述音乐生成模型使以下公式的值最大化：第二获取子单元，用于获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。

为了实现上述目的，根据本发明的一个方面，提供了一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于长短时神经网络的多声部音乐生成方法的步骤。

为了实现上述目的，根据本发明的一个方面，提供了一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现上述的基于长短时神经网络的多声部音乐生成方法的步骤。

在本方案中，通过构建包括长短时神经网络的音乐生成模型，利用长短时神经网络直接对音符序列进行处理，同时能够利用序列时间前后之间的相关性，得到音符概率密度分布；从而调整多个声部的音符序列，生成多声部之间协调的音乐，从而解决现有技术中难以生成多个声部之间协调的音乐的问题。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例的一种基于长短时神经网络的多声部音乐生成方法的流程图；

图2是根据本发明实施例的一种音乐生成模型的示意图；

图3是根据本发明实施例的一种基于长短时神经网络的多声部音乐生成装置的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端，但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一诊断结果也可以被称为第二诊断结果，类似地，第二诊断结果也可以被称为第一诊断结果。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1是根据本发明实施例的一种基于长短时神经网络的多声部音乐生成方法的流程图，如图1所示，该方法包括：

步骤S101，构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

步骤S102，通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；

步骤S103，获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

步骤S104，向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。

可选地，在通过包括多个声部的音乐样本数据训练音乐生成模型之前，方法还包括：获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：t∈[T]，T为音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；将多个声部的音符序列、音乐训练样本的节奏序列及延音序列作为音乐样本数据。

可以理解地，每首曲子包括多个声部的音符序列、这个曲子的节奏序列及延音序列。将每首曲子随时间序列化处理，有利于长短时神经网络学习音符之间随时间尺度的依赖关系。

例如，收集389首众赞歌的midi数据，其中，每首曲子包含四个声部：女高音、女低音、男高音和男低音。相对音高较低的女低音、男高音和男低音给音高最高的女高音作伴奏。将其中80％的midi数据用于音乐训练样本，其中20％的midi数据用于音乐评估样本。

可选地，获取多个音乐训练样本之后，方法还包括：剔除在一个声部内，有两个及以上的音符同时出现的曲子。

可选地，音符序列中用音符代码来表示音符，例如“C4，E5，C5”，音符序列中用“-”来表示音符的持续。延音序列M中，用“0”表示该处没有延音记号，用“1”则表示该处有延音记号。节奏序列S中，用“1，2，3，4”中的任意一个值来表示音符在这一拍中的位置。

可选地，通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布，包括：向音乐生成模型中输入音乐样本数据；获取音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为节奏序列及延音序列；θ_i为依赖网络的参数；训练音乐生成模型使以下公式的值最大化：获取当公式的值最大时音乐生成模型的网络参数及多个声部的音符概率密度分布。

长短时神经网络为循环神经网络，能够利用其内部的记忆来处理任意时序的输入序列。初始地，可以直接初始化音乐生成模型的各个网络参数，例如，随机生成并采集大数量的音乐样本数据，以对音乐生成模型进行训练。其后，可以通过随机梯度下降算法，使得其中的长短时神经网络的网络参数随之更新，如：层与层之间的连接权值和神经元偏置等，以达到音乐生成模型的音乐生成效果不断逼近最优的效果。

在训练期间，系统对长短时神经网络的参数值赋予约束条件，从而使其继续满足对神经网路的参数的要求。从而通过多次迭代，调节长短时神经网络的参数的值来对目标函数进行优化。

图2是根据本发明实施例的一种音乐生成模型的示意图，如图2所示，训练过程中，向音乐生成模型中输入音乐样本数据之后，音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

可选地，第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的16个时间节点的第一音符序列，第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的16个时间节点的第二音符序列。

具体地，每个声部的音符序列先通过嵌入层进行向量转换后输出至第一长短时神经网络或第二长短时神经网络；第一长短时神经网络输出的第一参数、第二长短时神经网络输出的第二参数及单隐藏层神经网络输出的当前时刻音符通过融合层进行融合后输入依赖网络中。

可选地，向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐，包括：向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

可选地，用户输入的预设音乐时长与预设节奏序列及预设延音序列的序列时长相同，例如为40个十六音符的时长。

本发明实施例提供了一种基于长短时神经网络的多声部音乐生成装置，该装置用于执行上述基于长短时神经网络的多声部音乐生成方法，如图3所示，该装置包括：构建单元10、第一获取单元20、第二获取单元30、生成单元40。

构建单元10，用于构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

第一获取单元20，用于通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；

第二获取单元30，用于获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

生成单元40，用于向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。

可选地，装置还包括：第三获取单元、提取单元、处理单元。

第三获取单元，用于获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取单元，用于提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：t∈[T]，T为音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；处理单元，用于将多个声部的音符序列、音乐训练样本的节奏序列及延音序列作为音乐样本数据。

可以理解地，每首曲子包括多个声部的音符序列、这个曲子的节奏序列及延音序列。将每首曲子随时间序列处理，有利于长短时神经网络学习音符之间随时间尺度的依赖关系。

可选地，第一获取单元20，包括输入子单元、第一获取子单元、训练子单元、第二获取子单元。

输入子单元，用于向音乐生成模型中输入音乐样本数据；第一获取子单元，用于获取音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为节奏序列及延音序列；θ_i为依赖网络的参数；训练子单元，用于训练音乐生成模型使以下公式的值最大化：第二获取子单元，用于获取当公式的值最大时音乐生成模型的网络参数及多个声部的音符概率密度分布。

可选地，音乐生成模型如图2所示，训练过程中，向音乐生成模型中输入音乐样本数据之后，音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

具体地，生成新音乐过程中，向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：

构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：t∈[T]，T为音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；将多个声部的音符序列、音乐训练样本的节奏序列及延音序列作为音乐样本数据。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：向音乐生成模型中输入音乐样本数据；获取音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为节奏序列及延音序列；θ_i为依赖网络的参数；训练音乐生成模型使以下公式的值最大化：获取当公式的值最大时音乐生成模型的网络参数及多个声部的音符概率密度分布。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：训练过程中，向音乐生成模型中输入音乐样本数据之后，音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

本发明实施例提供了一种服务器，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：

可选地，程序指令被处理器加载并执行时还实现以下步骤：获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：t∈[T]，T为音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；将多个声部的音符序列、音乐训练样本的节奏序列及延音序列作为音乐样本数据。

可选地，程序指令被处理器加载并执行时还实现以下步骤：向音乐生成模型中输入音乐样本数据；获取音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为节奏序列及延音序列；θ_i为依赖网络的参数；训练音乐生成模型使以下公式的值最大化：获取当公式的值最大时音乐生成模型的网络参数及多个声部的音符概率密度分布。

可选地，程序指令被处理器加载并执行时还实现以下步骤：向音乐生成模型中输入音乐样本数据之后，音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

可选地，程序指令被处理器加载并执行时还实现以下步骤：向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于长短时神经网络的多声部音乐生成方法，其特征在于，所述方法包括：

构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；

获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。

2.根据权利要求1所述的方法，其特征在于，在所述通过包括多个声部的音乐样本数据训练所述音乐生成模型之前，所述方法还包括：

获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；

提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；

将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。

3.根据权利要求2所述的方法，其特征在于，所述通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布，包括：

向所述音乐生成模型中输入所述音乐样本数据；

获取所述音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为所述节奏序列及延音序列；θ_i为所述依赖网络的参数；

训练所述音乐生成模型使以下公式的值最大化：

获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。

4.根据权利要求3所述的方法，其特征在于：

所述向所述音乐生成模型中输入所述音乐样本数据之后，所述音乐生成模型的所述第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据所述第一音符序列输出第一参数至所述依赖网络；

所述第二长短时神经网络接收每个声部的音符序列中所述当前时刻音符后的预设时长的第二音符序列，并根据所述第二音符序列输出第二参数至所述依赖网络；

所述单隐藏层神经网络接收每个声部的音符序列中所述当前时刻音符并传递至所述依赖网络；

所述依赖网络根据所述第一参数、所述第二参数及所述当前时刻音符输出所述每个声部的音符概率密度函数。

5.根据权利要求1所述的方法，其特征在于，所述向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐，包括：

向所述训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；

所述音乐生成模型基于第i声部的音符随机序列、所述网络参数、所述特征参数及所述第i声部的音符概率密度分布生成所述第i声部的多个音符，i依次取一、二、三、四；

根据所述第i声部的多个音符生成所述第i声部的音符新序列；

将所述第一声部的音符新序列、所述第二声部的音符新序列、所述第三声部的音符新序列、所述第四声部的音符新序列组合形成所述多声部音乐。

6.一种基于长短时神经网络的多声部音乐生成装置，其特征在于，所述装置包括：

构建单元，用于构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

第一获取单元，用于通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；

第二获取单元，用于获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

生成单元，用于向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；

提取单元，用于提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；为当前时刻t的音符；

处理单元，用于将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。

8.根据权利要求7所述的装置，其特征在于，所述第一获取单元，包括：

输入子单元，用于向所述音乐生成模型中输入所述音乐样本数据；

第一获取子单元，用于获取所述音乐生成模型输出的每个声部的音符概率密度函数：其中，为当前时刻t的音符，为音符序列中除去当前音符剩下的所有音符；为所述节奏序列及延音序列；θ_i为所述依赖网络的参数；

训练子单元，用于训练所述音乐生成模型使以下公式的值最大化：

第二获取子单元，用于获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基于长短时神经网络的多声部音乐生成方法。

10.一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至5任意一项所述的基于长短时神经网络的多声部音乐生成方法的步骤。