CN110008373A

CN110008373A - 基于消息传递网络的音乐图结构信息提取与生成模型、构建方法及应用

Info

Publication number: CN110008373A
Application number: CN201910192306.4A
Authority: CN
Inventors: 季俊涛; 任宇凡; 黄怡璠; 邱兆林; 刘洪甫; 李灿晨; 张克俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-07-12
Anticipated expiration: 2039-03-14
Also published as: CN110008373B

Abstract

本发明公开了一种基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，包括：(1)将音乐表达成音乐无向图；(2)在获得音乐无向图后，对音乐无向图进行编码，即采用节点特征提取更新函数提取音乐无向图中节点的隐藏特征；(3)将获得的隐藏特征输入至解码器中，经解码输出预测的音乐无向图；(4)计算预测的音乐无向图与步骤(2)中的音乐无向图的交叉熵损失函数值，利用交叉熵损失函数值更新解码器参数和节点特征提取更新函数的权重参数，以实现对解码器和编码器的训练，训练好的编码器即为音乐图结构信息提取模型，训练好的解码器即为音乐图结构信息生成模型。还公开了一种生成的音乐图结构信息生成模型作为音乐生成器的应用。

Description

基于消息传递网络的音乐图结构信息提取与生成模型、构建方法及应用

技术领域

本发明涉及人工智能应用、音乐生成与对抗样本生成领域。尤其涉及一种基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，以及构建生成的音乐图结构信息提取与生成模型，及生成的音乐图结构信息生成模型生成音乐的应用。

背景技术

音乐是人们生活中不可缺少的一部分，无论是场景配乐，还是情绪表达，音乐都至关重要。与此同时，人工作曲虽说也能满足当下大部分市场需求，但是已经有些捉襟见肘。

在短视频市场急速膨胀的现代社会，可以发现大量重复的背景配乐，以及许多与内容不搭的人工配乐，这都是因为音乐数据集不足，以及人工作曲水平参差不齐所导致的。

申请公布号为CN 108062417 A的专利申请公开了一种基于复杂网络的图像生成音乐的方法，包括以下步骤：步骤1：提取灰度图像的感兴趣区域对应的灰度码，将灰度码数组中连续相邻的三个灰度码相乘获得灰度积数组；步骤2：根据MIDI音高的范围对灰度积数组中的元素进行模处理，得到音域区间和音高浮动数值，进而生成音高序列；步骤3：以现有音乐中音符的音高、音长和力度作为基本属性进行音符节点的编码，音符节点和节点连边构成音符网络；步骤4：将图像生成的音高序列在音符网络中进行节点游走，进而生成音乐。该音乐生成方法并没有考虑时间信息，造成生成的音乐听起来并不和谐，流畅性也不高。

因此，迫切地需要提供一种音乐生成方法，改善当前音乐资源不足的现状以及提升生成音乐的流畅性和和谐性。

发明内容

本发明的目的是提供一种基于消息传递网络的音乐图结构信息提取与生成模型及构建方法。该构建方法获得的音乐图结构信息提取与生成模型考虑了时间信息，及考虑音符之间的连接关系，在生成大量音乐的同时，还提升了生成音乐的和谐性和流畅性，带给用户悦耳的体验效果。

为实现上述发明目的，本发明提供以下技术方案：

一种基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，包括以下步骤：

(1)将音乐表达成时间与音符属性的连接关系，时间与音乐属性作为节点，时间节点顺序连接，音乐属性节点顺序连接，时间节点与音乐属性节点交错任意连接，形成音乐无向图；

(2)在获得音乐无向图后，对音乐无向图进行编码，即采用节点特征提取更新函数提取音乐无向图中节点的隐藏特征，其中节点特征提取更新函数为：

其中，表示第i个时间节点在第t+1次迭代时获得隐藏特征值，表示第i个音符属性节点在第t+1次迭代时获得隐藏特征值，与B_eji是边e_ji的权重参数；

(3)将获得的隐藏特征输入至解码器中，经解码输出预测的音乐无向图；

(4)计算预测的音乐无向图与步骤(2)中的音乐无向图的交叉熵损失函数值，将交叉熵损失函数值反向传播至解码器和编码器，以更新解码器参数和节点特征提取更新函数的权重参数，以实现对解码器和编码器的训练，训练好的编码器即为音乐图结构信息提取模型，训练好的解码器即为音乐图结构信息生成模型。

本发明将通过一种全新的对音乐结构的表达，将音乐转换为无向图，并使用了图学习的相关手段进行了另一个视角的特征提取，将音乐生成工作转为了更易理解的图节点连接关系预测。

本发明使用无向图的连接关系来表达音乐，以及使用无向图的特征提取方式去认知音乐，能够更好地结合音乐中的时序关系与前后文连接关系，且能够推动对音乐的认知。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的音乐无向图示意图；

图2是实施例提供的基于消息传递网络的音乐图结构信息提取与生成模型的构建方法的流程图；

图3是实施例提供的编码器的工作流程图；

图4是实施例提供的解码器的工作流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图2所示，本实施例提供了一种基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，包括以下步骤：

S101，将音乐表达成时间与音符属性的连接关系，时间与音乐属性作为节点，时间节点顺序连接，音乐属性节点顺序连接，时间节点与音乐属性节点交错任意连接，形成音乐无向图。

该步骤，主要是将音乐表达为两类图节点的连接关系。当前实现的是音乐属性-时间两维度的连接方式，形成音乐表达的音乐无向图，如图1所示。该过程借鉴了二维图像数据结构，将音乐属性-时间表达成一个而为矩阵，即所述音乐无向图用音符属性-时间二维矩阵表示，矩阵内是0,1分布的数据，表示某时间内是否有与某音符属性对应的音符存在。

这样的矩阵可以被视为两类图节点的邻接矩阵：一类是时间节点，一类音乐属性节点，其中，所述音符属性包括音符的音高、音长、力度中的至少一种。当音符属性为音高时，形成的二维矩阵中，纵向表示时间，横向表示音高的大小，二维矩阵中位置为(a，b)元素值为1时，则表示该a时刻音高为b的音符存在。

以这样得到的表达作为基础，再将这两类节点分别串联，形成如图1所示的音乐无向图，时间节点的串联代表着时序关系，音符属性节点的连接关系作为音符属性的平滑过渡以及和弦信息的连接关系。

S102，在获得音乐无向图后，利用编码器对音乐无向图进行编码，提取音乐无向图中节点的隐藏特征。

由于将音乐转化为了图结构，对音乐特征进行提取即转化成了对图结构中的节点隐藏特征的提取，本发明中，不再使用传统的深度学习方法，而是通过对节点间的消息互相吸收进行图节点的隐藏特征提取，进而实现对音乐特征的提取。

具体地，可以采用节点特征提取更新函数提取音乐无向图中节点的隐藏特征，其中节点特征提取更新函数为：

其中，表示第i个时间节点在第t+1次迭代时获得隐藏特征值，表示第i个音符属性节点在第t+1次迭代时获得隐藏特征值，与是边e_ji的权重参数，在训练的过程中，该权重参数是待更新的参数；与分别与边的类数拥有相同矩阵个数。在本实施例中，边的类型仅有两类：有与无，所以A，B各有两个矩阵备选。代表当e_ij的值所属的A矩阵。参数矩阵A和B在参数训练的过程中，反向传播时会进行迭代更新，以确保编码过程符合音乐实际特征提取过程，A，B还有平衡维度的作用，通过矩阵相乘，让两类不同维度的特征进行互相转换。

具体地，如图3所示，节点的隐藏特征的提取过程为：对于已知的图结构数据集，当更新步数不够时，利用上述节点特征提取更新函数获得图结构中节点的隐藏特征，直到更新步数达到阈值，输出节点的隐藏特征。

S103，将获得的隐藏特征输入至解码器中，经解码输出预测的音乐无向图。

解码器将被用于音乐的图节点连接关系预测。如图4所示，通过输入的潜在特征参数，预测各个节点之间的连接关系，通过与源文件的交叉熵计算得到损失函数的值，并进行反向传播。最后得到一个解码器，并将各类随机特征投入，将其输出转换为midi文件保存。

本实施例中，所述解码器是一种复杂映射关系，用映射函数F表达，

G^*＝F(T*C*M^T)

其中，T为时间节点的隐藏特征矩阵，M为音乐节点的隐藏特征矩阵，C为用于连接T，M维度的连接参数，模型训练即为优化连接参数C。

S104，计算预测的音乐无向图与步骤(2)中的音乐无向图的交叉熵损失函数值，将交叉熵损失函数值反向传播至解码器和编码器，以更新解码器参数和节点特征提取更新函数的权重参数，以实现对解码器和编码器的训练，训练好的编码器即为音乐图结构信息提取模型，训练好的解码器即为音乐图结构信息生成模型。

实施例还提供了一种基于消息传递网络的音乐图结构信息提取与生成模型，其中，音乐图结构信息提取模型和音乐图结构信息生成模型利用上述的构建方法构建获得。

构建获得的音乐图结构信息提取模型和音乐图结构信息生成模型能既能够快速准确地提取音乐图结构的信息，还能够生成和谐悦耳的音乐。

实施例还提供了一种上述的音乐图结构信息生成模型作为音乐生成器的应用，具体地，将随机特征向量输入至音乐图结构信息生成模型中，经计算生成音乐无向图，并将音乐无向图转化为音乐。

本发明中，基于无向图的音乐生成，能够更好地考虑到音乐节点之间的相互特征吸收过程，生成的音乐也能够更加有上下文连贯感。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，包括以下步骤：

其中，表示第i个时间节点在第t+1次迭代时获得隐藏特征值，表示第i个音符属性节点在第t+1次迭代时获得隐藏特征值，与是边e_ji的权重参数；

2.如权利要求1所述的基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，其特征在于，所述音乐无向图用音符属性-时间二维矩阵表示，矩阵内是0,1分布的数据，表示某时间内是否有与某音符属性对应的音符存在。

3.如权利要求1或2所述的基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，其特征在于，所述音符属性包括音符的音高、音长、力度中的至少一种。

4.如权利要求1所述的基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，其特征在于，所述解码器是一种复杂映射关系，用映射函数F表达，

G^*＝F(T*C*M^T)

5.如权利要求1所述的基于消息传递网络的音乐图结构信息提取与生成模型的构建方法，其特征在于，音乐在形成音乐无向图之前，还需要对音乐进行去噪平滑处理。

6.一种基于消息传递网络的音乐图结构信息提取与生成模型，其特征在于，音乐图结构信息提取模型和音乐图结构信息生成模型利用权利要求1～5任一项所述的构建方法构建获得。

7.一种如权利要求6所述的音乐图结构信息生成模型作为音乐生成器的应用，其特征在于，将随机特征向量输入至音乐图结构信息生成模型中，经计算生成音乐无向图，并将音乐无向图转化为音乐。