CN113470601B

CN113470601B - 一种自动作曲方法及系统

Info

Publication number: CN113470601B
Application number: CN202110767484.2A
Authority: CN
Inventors: 陈昊; 罗刚; 黎明; 王铭勋; 黄敏; 徐一晨; 张聪炫
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-04-07
Anticipated expiration: 2041-07-07
Also published as: CN113470601A

Abstract

本发明涉及了一种自动作曲方法及系统，所述方法包括如下步骤：构建音乐数据训练集；以所述音乐数据训练集中的音乐数据作为LSTM网络模型的输入，以所述音乐数据的质量数据作为LSTM网络模型的输出，利用所述音乐数据训练集训练LSTM网络模型，获得训练后的LSTM网络模型；以训练后的LSTM网络模型的输出的最大化为优化目标，采用优化算法，进行音乐生成。本发明结合LSTM网络模型和优化算法实现对生成音乐的自动评价和优化，实现了自动对生成音乐进行优化，自动生成优化后的音乐。

Description

一种自动作曲方法及系统

技术领域

本发明涉及自动作曲技术领域，特别是涉及一种自动作曲方法及系统。

背景技术

音乐是一门丰富人们生活的艺术，如今已成为社会生活不可或缺的一部分。而自动作曲技术，是一种利用计算机，以算法、规则或结构模型等主要技术手段为基础的作曲系统。自动作曲技术已成为人工智能技术研究的热点之一。

现有的基于进化算法等的作曲方法，生成的音乐参差不齐，需要人工的去对生成音乐进行评判和选择，无法自动对生成音乐进行优化，自动生成优化后的音乐。

发明内容

本发明的目的是提供一种自动作曲方法及系统，以自动对生成音乐进行优化，自动生成优化后的音乐。

为实现上述目的，本发明提供了如下方案：

本发明提供一种自动作曲方法，所述方法包括如下步骤：

构建音乐数据训练集；

以所述音乐数据训练集中的音乐数据作为LSTM网络模型的输入，以所述音乐数据的质量数据作为LSTM网络模型的输出，利用所述音乐数据训练集训练LSTM网络模型，获得训练后的LSTM网络模型；

以训练后的LSTM网络模型的输出的最大化为优化目标，采用优化算法，进行音乐生成。

可选的，所述构建音乐数据训练集，具体包括：

获取原始音乐数据集；

采用遗传算法对所述原始音乐数据集进行处理，获得生成音乐数据集；

将所述原始音乐数据集和所述生成音乐数据集合并到音乐数据训练集中；

采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据。

可选的，所述遗传算法中按照所述原始音乐数据集中每个音高的统计概率生成初始的父代种群中的随机音乐。

可选的，所述遗传算法中的适应度函数为M＝S_R-2-gram+S_R-3-gram-S_rule-N；其中，S_R-2-gram为随机音乐中连续相邻2个音高数据在原始音乐数据集中出现的次数、S_R-3-gram为随机音乐中连续相邻3个音高数据在原始音乐数据集中出现的次数及，S_rule-N为随机音乐中为音乐规则中不和谐音乐的音调出现的次数。

可选的，所述采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据，具体包括：

采用n-gram相似度评价方法，利用公式f₁＝S_2-gram+S_3-gram，对音乐数据训练集中的每个音乐数据进行评价，获得音乐数据训练集中的每个音乐数据的第一评价结果；

其中，f₁表示音乐数据训练集中的音乐数据的第一评价结果，S_2-gram表示音乐数据训练集中的音乐数据的相邻两个音高数据在原始音乐数据集中出现的次数，S_3-gram表示音乐数据训练集中的音乐数据的相邻三个音高数据在原始音乐数据集中出现的次数；

采用音乐规则评价方法，利用公式f₂＝∑S_rule，对音乐数据训练集中的每个音乐数据进行评价，获得音乐数据训练集中的每个音乐数据的第二评价结果；其中，f₂表示音乐数据训练集中的音乐数据的第二评价结果，S_rule表示音乐数据符合的音乐规则中的规则的得分；

以所述第一评价结果和所述第二评价结果的和为依据，对所述音乐数据训练集中的音乐数据进行分层；

分别从每层的音乐数据中获取小样本数据进行听觉感知评分，获得每层的音乐数据中的每个小样本数据的第三评价结果；

采用小样本学习技术，分别根据每层的音乐数据中的每个小样本数据的第三评价结果，对每层中的每个音乐数据进行评价，获得每层中的每个音乐数据的第三评价结果；

对音乐数据训练集中每个音乐数据的第一评价结果、第二评价结果和第三评价结果进行加权求和，得到音乐数据训练集中每个音乐数据的质量数据。

一种自动作曲系统，所述系统包括：

音乐数据训练集构建模块，用于构建音乐数据训练集；

LSTM网络模型训练模块，用于以所述音乐数据训练集中的音乐数据作为LSTM网络模型的输入，以所述音乐数据的质量数据作为LSTM网络模型的输出，利用所述音乐数据训练集训练LSTM网络模型，获得训练后的LSTM网络模型；

音乐生成模块，用于以训练后的LSTM网络模型的输出的最大化为优化目标，采用优化算法，进行音乐生成。

可选的，所述音乐数据训练集构建模块，具体包括：

原始音乐数据集获取子模块，用于获取原始音乐数据集；

音乐数据生成子模块，用于采用遗传算法对所述原始音乐数据集进行处理，获得生成音乐数据集；

数据集合并子模块，用于将所述原始音乐数据集和所述生成音乐数据集合并到音乐数据训练集中；

质量数据获取子模块，用于采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据。

可选的，所述遗传算法中的适应度函数为M＝S_R-2-gram+S_R-3-gram-S_rule-N；

其中，S_R-2-gram为随机音乐中连续相邻2个音高数据在原始音乐数据集中出现的次数、S_R-3-gram为随机音乐中连续相邻3个音高数据在原始音乐数据集中出现的次数及，S_rule-N为随机音乐中为音乐规则中不和谐音乐的音调出现的次数。

可选的，所述质量数据获取子模块，具体包括：

第一评价单元，用于采用n-gram相似度评价方法，利用公式f₁＝S_2-gram+S_3-gram，对音乐数据训练集中的每个音乐数据进行评价，获得音乐数据训练集中的每个音乐数据的第一评价结果；

第二评价单元，用于采用音乐规则评价方法，利用公式f₂＝∑S_rule，对音乐数据训练集中的每个音乐数据进行评价，获得音乐数据训练集中的每个音乐数据的第二评价结果；其中，f₂表示音乐数据训练集中的音乐数据的第二评价结果，S_rule表示音乐数据符合的音乐规则中的规则的得分；

分层单元，用于以所述第一评价结果和所述第二评价结果的和为依据，对所述音乐数据训练集中的音乐数据进行分层；

听觉感知评分单元，用于分别从每层的音乐数据中获取小样本数据进行听觉感知评分，获得每层的音乐数据中的每个小样本数据的第三评价结果；

第三评价单元，用于采用小样本学习技术，分别根据每层的音乐数据中的每个小样本数据的第三评价结果，对每层中的每个音乐数据进行评价，获得每层中的每个音乐数据的第三评价结果；

加权求和单元，用于对音乐数据训练集中每个音乐数据的第一评价结果、第二评价结果和第三评价结果进行加权求和，得到音乐数据训练集中每个音乐数据的质量数据。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种自动作曲方法，所述方法包括如下步骤：构建音乐数据训练集；以所述音乐数据训练集中的音乐数据作为LSTM网络模型的输入，以所述音乐数据的质量数据作为LSTM网络模型的输出，利用所述音乐数据训练集训练LSTM网络模型，获得训练后的LSTM网络模型；以训练后的LSTM网络模型的输出的最大化为优化目标，采用优化算法，进行音乐生成。本发明结合LSTM网络模型和优化算法实现对生成音乐的自动评价和优化，实现了自动对生成音乐进行优化，自动生成优化后的音乐。

本发明通过n-gram相似度评价模型和音乐规则评价模型从音乐数据训练集中选取不同层次的音乐，然后要求不同的观众对所选音乐进行评分。然后，利用小样本学习技术生成与音乐训练数据集相同规模的人为评分。然后，分别对n-gram评分、规则评分和人的评分三种评价权重，得到最终的综合评分，克服了现有的音乐生成方法中由于评价的原因，在音乐生成方面会存在一定的局限性的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种自动作曲方法的总体流程图；

图2为本发明提供的一种自动作曲方法的具体流程图；

图3为本发明提供的一种自动作曲方法的原理图；

图4为本发明提供的一种自动作曲系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1、2和3所示，本发明提供一种自动作曲方法，所述方法包括如下步骤：

步骤101，构建音乐数据训练集。

步骤101所述构建音乐数据训练集，具体包括：

S1获取原始音乐数据集。

S2采用遗传算法对所述原始音乐数据集进行处理，获得生成音乐数据集。

S21：统计原始音乐数据集中每个音高出现的概率；

S22：统计原始数据集相邻连续2个音高数据、相邻连续3个音高数据出现的次数；

S23：利用遗传算法根据所述每个音高出现的概率生成随机音乐，并以所述随机音乐中连续相邻2个音高数据、连续相邻3个音高数据在原始音乐数据集中出现的次数和，再与所述随机音乐符合音乐规则中不和谐音乐的次数的差，作为适应度函数，保留每一代生成音乐数据，并且之后剔除相同的音乐数据，获得生成音乐数据集。

S3将所述原始音乐数据集和所述生成音乐数据集合并到音乐数据训练集中。

S4采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据。

由于评价的原因，在音乐生成方面会存在一定的局限性。对于基于音乐语法规则的自动作曲技术，进化算法在搜索目标的过程中存在随机性，未与原始音乐数据集进行比较就可以获得最终的音乐数据。而对于相似度评价的自动作曲技术，由于受限于无法评估音乐的听觉感知，从而未能生成好的音乐作品。基于此，本发明提供了多准则评价算法。

S4所述采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据，具体包括：

S4具体包括如下步骤：

S41对音乐数据训练集进行相似度和音乐规则评价，选出代表性音乐进行人为评价，该步骤具体包括：

S411：统计音乐数据训练集在原始音乐数据集中2-gram、3-gram的出现的次数，作为评价1得分；

S22：统计音乐数据训练集中符合音乐规则的次数，作为评价2得分，所述音乐规则如下表1所述：

表1提出的音乐规则

所述小二度指的是连续两个音高数据的差的绝对值为1；小七度指的是连续两个音高数据的差的绝对值为10；超过一个八度指的是连续两个音高数据的差的绝对值大于12；非小二度、非小三度、非大三度指的连续两个音高数据的差的绝对值不为2、3、4。

S42：扩充人为评价结果规模，对三种评价归一化和加权处理，得到唯一评价，该步骤具体包括：

S421：根据每个听众打的分数，对所述选出的代表性音乐的每个分数进行概率统计；

S422：利用小样本学习技术，对每个层次的音乐数据训练集依据所述每个分数的概率进行随机生成分数；即，对每个层次的音乐数据按照每种分数的概率进行分数生成。

S423：分别对n-gram得到评价分数、音乐规则得到的评价分数、人为评价得到的分数按照公式

进行归一化处理，可以得到每首音乐归一化后的n-gram评价分数、音乐规则评价分数、人为评价分数；

S424：给予所述三种评价的归一化分数不同权重w₁、w₂、w₃，并根据公式f″＝w₁*f'₁+w₂*f'₂+w₃*f'₃获得每首音乐的唯一评价。

步骤102，以所述音乐数据训练集中的音乐数据作为LSTM网络模型的输入，以所述音乐数据的质量数据作为LSTM网络模型的输出，利用所述音乐数据训练集训练LSTM网络模型，获得训练后的LSTM网络模型；

步骤103，以训练后的LSTM网络模型的输出的最大化为优化目标，采用优化算法，进行音乐生成。所述优化算法可以但不限于粒子群算法、遗传算法等。

实施例2

自动作曲的过程具体如下：

S2-1、首先利用音乐数据生成模块进行音乐数据的生成，包括原始音乐数据集的处理和利用遗传算法生成音乐数据集，并使两者合并得到最终的音乐数据训练集，其中原始音乐数据集包括24首唢呐音乐数据。

S2-2、通过音乐评价模块对音乐数据训练集中每首音乐进行评价，包括根据n-gram评价与规则评价的综合得分，选出具有代表性的音乐进行人为打分。

S2-3、利用数据扩充模块对人为评价的分数进行扩充，使之规模与音乐数据训练集的规模一样。

S2-4、利用数据融合模块，将三种评价的归一化后的评价分数进行加权计算，在本实施例中，分别以0.7、0.2、0.1对应给予f₁、f₂、f₃权重。

S2-5、网络训练模块，分别以音乐数据X_k作为LSTM的输入，f″作为LSTM网络的输出，进行网络训练，设置训练次数为4200次，得到一个训练好的网络模型。

S2-6、音乐优化模块。以遗传算法随机生成的初始音乐作为输入，所述训练好的网络模型的输出作为目标函数，利用原子搜索优化方法进行音乐的优化，得到目标函数中数值最高的音乐，即最好的音乐。

S2-7、对所述最好的音乐进行人为评价。

本具体实施方式选用30名听众中，其中接受过专业音乐学习的听众和未接受过专业音乐学习的听众分别有15名。听众的平均年龄24.33±1.34岁，听众的年龄差异无统计学意义。

采用本发明的方法，首先通过S2-1、S2-2、S2-3、S2-4得到每首音乐以及对应的唯一评价分数，接着通过S2-5、S2-6得到最好的音乐，最后通过S2-7得到最好的音乐的人为评价分数，打分的分值区间为1至10，最后评价分数的平均分为8.233。说明使用基于多评价准则的自动作曲方法能够生成较好的唢呐音乐。

实施例3

如图4所示，本发明还提供一种自动作曲系统，所述系统包括：

音乐数据训练集构建模块401，用于构建音乐数据训练集；

所述音乐数据训练集构建模块，具体包括：

原始音乐数据集获取子模块，用于获取原始音乐数据集；

音乐数据生成子模块，用于采用遗传算法对所述原始音乐数据集进行处理，获得生成音乐数据集；所述遗传算法中按照所述原始音乐数据集中每个音高的统计概率生成初始的父代种群中的随机音乐。所述遗传算法中的适应度函数为M＝S_R-2-gram+S_R-3-gram-S_rule-N；其中，S_R-2-gram为随机音乐中连续相邻2个音高数据在原始音乐数据集中出现的次数、S_R-3-gram为随机音乐中连续相邻3个音高数据在原始音乐数据集中出现的次数及，S_rule-N为随机音乐中为音乐规则中不和谐音乐的音调出现的次数。

数据集合并子模块，用于将所述原始音乐数据集和所述生成音乐数据集合并到音乐数据训练集中。

所述质量数据获取子模块，具体包括：

LSTM网络模型训练模块402，用于以所述音乐数据训练集中的音乐数据作为LSTM网络模型的输入，以所述音乐数据的质量数据作为LSTM网络模型的输出，利用所述音乐数据训练集训练LSTM网络模型，获得训练后的LSTM网络模型；

音乐生成模块403，用于以训练后的LSTM网络模型的输出的最大化为优化目标，采用优化算法，进行音乐生成。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自动作曲方法，其特征在于，所述方法包括如下步骤：

构建音乐数据训练集；

所述构建音乐数据训练集，具体包括：

获取原始音乐数据集；

采用遗传算法对所述原始音乐数据集进行处理，获得生成音乐数据集；所述遗传算法中的适应度函数为M＝S_R-2-gram+S_R-3-gram-S_rule-N；

其中，S_R-2-gram为随机音乐中连续相邻2个音高数据在原始音乐数据集中出现的次数、S_R-3-gram为随机音乐中连续相邻3个音高数据在原始音乐数据集中出现的次数及，S_rule-N为随机音乐中为音乐规则中不和谐音乐的音调出现的次数，M表示适应度函数值；

采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据；

所述采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据，具体包括：

采用小样本学习技术，分别根据每层的音乐数据中的每个小样本数据的第三评价结果，对每层中的每个音乐数据进行评价，获得每层中的每个音乐数据的第三评价结果，具体包括：根据每个听众打的分数，对选出的每个小样本数据的第三评价结果进行概率统计；利用小样本学习技术，对每层的音乐数据依据所述层的每种第三评价结果的概率进行随机生成分数，即，对每层的音乐数据按照所述层的每种第三评价结果的概率进行分数生成；

对音乐数据训练集中每个音乐数据的第一评价结果、第二评价结果和第三评价结果进行加权求和，得到音乐数据训练集中每个音乐数据的质量数据；

2.根据权利要求1所述的自动作曲方法，其特征在于，所述遗传算法中按照所述原始音乐数据集中每个音高的统计概率生成初始的父代种群中的随机音乐。

3.一种自动作曲系统，其特征在于，所述系统包括：

音乐数据训练集构建模块，用于构建音乐数据训练集；

所述音乐数据训练集构建模块，具体包括：

原始音乐数据集获取子模块，用于获取原始音乐数据集；

音乐数据生成子模块，用于采用遗传算法对所述原始音乐数据集进行处理，获得生成音乐数据集；所述遗传算法中的适应度函数为M＝S_R-2-gram+S_R-3-gram-S_rule-N；

质量数据获取子模块，用于采用音乐质量评价算法对音乐数据训练集中的每个音乐数据进行评价，获得每个音乐数据的质量数据；

所述质量数据获取子模块，具体包括：

第三评价单元，用于采用小样本学习技术，分别根据每层的音乐数据中的每个小样本数据的第三评价结果，对每层中的每个音乐数据进行评价，获得每层中的每个音乐数据的第三评价结果，具体包括：根据每个听众打的分数，对选出的每个小样本数据的第三评价结果进行概率统计；利用小样本学习技术，对每层的音乐数据依据所述层的每种第三评价结果的概率进行随机生成分数，即，对每层的音乐数据按照所述层的每种第三评价结果的概率进行分数生成；

加权求和单元，用于对音乐数据训练集中每个音乐数据的第一评价结果、第二评价结果和第三评价结果进行加权求和，得到音乐数据训练集中每个音乐数据的质量数据；

4.根据权利要求3所述的自动作曲系统，其特征在于，所述遗传算法中按照所述原始音乐数据集中每个音高的统计概率生成初始的父代种群中的随机音乐。