CN110853604A - 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法 - Google Patents

基于变分自编码器的具有特定地域风格的中国民歌自动生成方法 Download PDF

Info

Publication number
CN110853604A
CN110853604A CN201911047704.3A CN201911047704A CN110853604A CN 110853604 A CN110853604 A CN 110853604A CN 201911047704 A CN201911047704 A CN 201911047704A CN 110853604 A CN110853604 A CN 110853604A
Authority
CN
China
Prior art keywords
style
pitch
rhythm
hidden
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911047704.3A
Other languages
English (en)
Inventor
杨新宇
罗晶
李娟�
吉姝蕾
牛明轩
张与弛
贾根龙
张亦弛
魏洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911047704.3A priority Critical patent/CN110853604A/zh
Publication of CN110853604A publication Critical patent/CN110853604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/111Automatic composing, i.e. using predefined musical rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,该方法首先将音乐表示为与其对应的音高序列、音程序列和节奏序列,然后基于变分自编码器建立中国民歌生成模型,并将变分自编码器隐变量空间按音乐的音高、节奏、内容以及风格分割为四个子空间,同时采用对抗训练的方法将四个隐变量子空间进行分离,最后利用上述模型来生成具有特定地域标签的中国民歌。相较于其他对西方音乐的研究,本发明立足于中国民歌的地域风格,通过对变分自编码器隐空间的操控,成功地捕捉到中国民歌的地域风格信息。通过理论分析和实验分析,本发明能有效地分离变分自编码器的各个隐变量,成功生成具有特定地域风格的民歌。

Description

基于变分自编码器的具有特定地域风格的中国民歌自动生成 方法
技术领域
本发明属于深度学习与人工智能领域,具体涉及一种基于变分自编码器的具有特定地域风格的中国民歌自动生成方法。
背景技术
自动音乐创作是计算智能领域的前沿课题之一。随着深度学习的发展,深度生成模型及其变体在自动音乐生成中应用广泛。然而,大多数深度作曲方法都侧重于对西方音乐建模,而缺乏对中国音乐的深入研究。如何运用深度学习来塑造中国音乐的结构和风格,是一个充满挑战而又很新奇的课题。
中国民歌是中国传统音乐的重要组成部分,同一地区的民歌曲调风格相近,而不同地区的民歌曲调则呈现出不同的地域风格。例如,许多地区均有名为<茉莉花>的小曲,但他们曲调风格大相径庭。当前,中国民歌的地域特征没有得到很好的发掘,这些地域特性可以用于指导中国民歌的自动创作,同时可以为中国民族音乐的创作提供丰富素材,促进了中国民族音乐乃至中国文化在世界范围内的传播和发展。
中西方音乐有着明显的差异。与西方音乐注重音乐的纵向结构不同,中国音乐注重音乐的横向结构,即旋律的发展,同时中国民歌的地域风格主要体现在节奏和音高间隔模式上。而目前,大部分的深度音乐生成研究均基于西方音乐开展,而鲜有人关注使用深度生成模型进行中国音乐的创作。
发明内容
本发明的目的是探讨如何根据中国民歌的地域风格,产生具有特定地域标签的民歌,因此,提供了一种基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,本发明通过引入对抗训练方法分离了变分自编码器的音高、节奏、风格和内容等隐变量,成功生成了具有特定地域风格的民歌。
为达到上述目的,本发明采用如下的技术方案来实现:
基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,该方法首先将音乐表示为与其对应的音高序列、音程序列和节奏序列,然后基于变分自编码器建立中国民歌生成模型,并将变分自编码器的隐变量空间按音乐的音高、节奏、内容以及风格分割为四个子空间,同时采用对抗训练的方法将四个隐变量子空间进行分离,最后利用建立的中国民歌生成模型来生成具有特定地域标签的中国民歌。
本发明进一步的改进在于,具体包括以下步骤:
1)音乐表示:将一段中国民歌旋律M表示为由音高P、音程I和节奏R三部分组成的序列,各子序列表示如下:
1-1)音高序列P的表示:由中国民歌旋律中呈现的音高类型组成,休止符被分配了一个特殊的标记;
1-2)音程序列I的表示:以半音为步长,每个音程表示为下一个音高和当前音高之间的差值;
1-3)节奏序列R的表示:由中国民歌旋律中呈现的时长类型组成;
2)建立中国民歌生成模型:将音高、音程和节奏三个子序列作为变分自编码器的输入,同时将变分自编码器的隐变量空间按照音高、节奏、风格以及内容分割为音乐的音高风格隐变量、音高内容隐变量、节奏风格隐变量和节奏内容隐变量四个子空间,最后经过解码器得到旋律序列;
3)隐变量空间分离:引入对抗训练方法将音乐的音高、节奏、风格以及内容四个隐变量子空间进行分离,具体包括以下步骤:
3-1)采用对抗训练和时间监督方法分离音高和节奏子隐变量:将音高子隐变量输入节奏解码器,同时将节奏子隐变量输入音高解码器,迫使各自解码器输出错误的序列,即预测结果为全零序列;
3-2)采用对抗训练和标签监督方法分离风格和内容子隐变量:使用地域信息定义两个分类器:风格分类器和对抗分类器;其中风格分类器的训练目标是从风格子隐变量中正确识别地域风格;对抗分类器训练目标为从内容子隐变量中无法识别出地域风格信息;
4)具有特定地域标签的中国民歌生成:根据上述的变分自编码器建立方法和隐变量空间的分离方法训练模型,最后根据输入的地域风格信息生成具有相应地域风格的中国民歌。
本发明进一步的改进在于,所述步骤1)中使用的民歌数据均被转为C调下,并使用python MIDI音乐工具包提取每首歌曲的旋律信息表示为音高P、音程I和节奏R三种序列。
本发明进一步的改进在于,所述步骤2)的具体模型建立过程如下:
(i)给定一个中国民歌旋律序列M={m1,m2,…,mk,…,mn},其中mk表示第k个音符对应的音高标记pk、音程序列ik和节奏序列rk的特征组合,将音高、音程及节奏三种子序列分别输入至三个编码器,然后将三个编码器的输出向量拼接为一个向量;编码器采用带有残差连接的双向门限循环单元网络,双向门限循环单元网络以下简称为GRU;
(ii)从编码器输出的线性变换中分别采样得到音高风格隐变量
Figure BDA0002254535900000031
音高内容变量
Figure BDA0002254535900000032
节奏风格变量
Figure BDA0002254535900000033
和节奏内容变量然后,将
Figure BDA0002254535900000035
Figure BDA0002254535900000036
连接到总音高隐变量ZP中,用于预测音高序列在节奏变量中使用相同的操作来预测
Figure BDA0002254535900000038
最后,将所有隐变量连接起来用于预测整个旋律序列
Figure BDA0002254535900000039
解码器是一个普通的两层GRU模型;根据上述过程,变分自编码器的基本损失函数表示如下:
其中H(·,·)和BCE(·,·)分别表示预测值和目标值之间的交叉熵和二元交叉熵,KLtotal表示四个隐变量的Kullback-Leibler散度损失之和,β为KL散度项系数,用于改善模型的生成能力。
本发明进一步的改进在于,β<1。
本发明进一步的改进在于,所述步骤3-1)具体操作为:使用时间监督和对抗训练方式分离中国民歌的音高和节奏子隐变量,即将音高隐变量ZP输入到节奏解码器,节奏隐变量ZR输入到音高解码器,迫使两个解码器预测出全零序列,由此得到两个基于交叉熵的损失:
Figure BDA0002254535900000041
Figure BDA0002254535900000042
其中,0指全零序列,·指向量对应元素的乘积,
Figure BDA0002254535900000043
为节奏隐变量输入到音高解码器得到的序列,
Figure BDA0002254535900000044
为音高隐变量输入到节奏解码器得到的输出序列。
本发明进一步的改进在于,所述步骤3-2)具体操作为:将四部分子隐变量合并得到音乐风格子隐变量Zs和内容子隐变量Zc,然后使用标签监督和对抗训练方式分离中国民歌风格和内容子隐变量;具体地,利用中国民歌的地域信息定义风格分类器和对抗分类器,其中风格分类器和对抗分类器都是具有Softmax函数的线性层,风格分类器确保风格子隐变量对地域标签具有区分性,而对抗分类器确保内容子隐变量对于地域标签不具有区分性;
对于风格分类器,其损失函数定义为:
Figure BDA0002254535900000045
其中,y表示真实的风格标签,p(y|Zs)是来自风格分类器的预测概率分布;
对于对抗分类器,通过最大化对抗分类器预测的经验熵值进行训练,同时将对抗分类器的参数进行独立训练,确保分类器的梯度不会回传给变分自编码器的其他模块,其损失函数定义如下:
Figure BDA0002254535900000046
其中p(y|Zc)是来自对抗分类器的预测概率分布;
综上,模型的总体训练目标是最小化如下损失函数:
Figure BDA0002254535900000051
本发明进一步的改进在于,所述步骤4)具体操作为:根据给定的地域风格,将从已训练好的风格隐变量分布中采样得到给定风格的地域风格隐变量,与从随机标准正态分布中采样得到的内容隐变量拼接得到完整的隐变量,然后分别输入至训练后的音高解码器和节奏解码器生成音高序列和节奏序列,最后得到新的中国民歌旋律序列。
本发明至少具有如下有益的技术效果:
本发明提供的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,首先将中国民歌旋律表示为与其对应的音高序列、音程序列和节奏序列三种子序列,然后基于变分自编码器建立民歌生成模型,将三个子序列分别编码至隐变量空间,同时假设隐变量空间可分割为音高、节奏、内容以及风格四个子空间,接着采用对抗训练的方法将四个隐变量子空间进行分离,最后生成具有特定地域标签的中国民歌。本发明通过对变分自编码器隐空间的操控,成功地捕捉到中国民歌的地域风格信息。通过理论分析和实验分析,本发明能有效地分离变分自编码器的各个隐变量,成功生成具有特定地域风格的民歌。
附图说明
图1为本发明基于变分自编码器的中国民歌地域风格生成模型框架图。
图2为本发明方法中中国民歌旋律表示示意图。
图3为本发明方法中隐空间分离的细节示意图。
图4为给定地域标签的中国民歌生成样例图。
具体实施方式
下面结合附图对本发明做进一步详细描述。
参照图1,本发明提供的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,本发明首先将音乐表示为与其对应的音高序列、音程序列和节奏序列,然后基于变分自编码器建立中国民歌生成模型,并将变分自编码器隐变量空间按音乐的音高、节奏、内容以及风格分割为四个子空间,同时采用对抗训练的方法将四个隐变量子空间进行分离,最后利用上述模型来生成具有特定地域标签的中国民歌。
本发明具体包括以下步骤:
1)音乐表示:在基本音乐理论中,音高和节奏是音符的基本信息,而在中国民歌中,音程及其组合是区分不同地域民歌的重要参考。参照图2,本发明将一段中国民歌旋律M表示为由音高P、音程I和节奏R三部分组成的序列。各子序列表示如下:
1-1)音高序列P的表示:由中国民歌旋律中呈现的音高类型组成,休止符被分配了一个特殊的标记;
1-2)音程序列I的表示:以半音为步长,每个音程表示为下一个音高和当前音高之间的差值;
1-3)节奏序列R的表示:由中国民歌旋律中呈现的时长类型组成。
2)建立中国民歌生成模型:将三个子序列作为变分自编码器的输入,同时将变分自编码器隐变量空间按照音高、节奏、风格以及内容分割为音乐的音高风格隐变量、音高内容隐变量、节奏风格隐变量和节奏内容隐变量四个子空间,最后经过解码器得到旋律序列。参照图1,关键步骤描述如下:
(i)给定一个中国民歌旋律序列M={m1,m2,…,mk,…,mn},其中mk表示第k个音符对应的音高标记pk、音程序列ik和节奏序列rk的特征组合,将音高、音程及节奏三种子序列分别输入至三个编码器,然后将三个编码器的输出向量拼接为一个向量。编码器采用带有残差连接的双向门限循环单元网络(GRU)。
(ii)从编码器输出的线性变换中分别采样得到音高风格隐变量
Figure BDA0002254535900000061
音高内容变量
Figure BDA0002254535900000062
节奏风格变量
Figure BDA0002254535900000063
和节奏内容变量
Figure BDA0002254535900000064
然后,将
Figure BDA0002254535900000065
连接到总音高隐变量ZP中,用于预测音高序列
Figure BDA0002254535900000071
在节奏变量中使用相同的操作来预测
Figure BDA0002254535900000072
最后,将所有隐变量连接起来用于预测整个旋律序列
Figure BDA0002254535900000073
解码器是一个普通的两层GRU模型。根据上述过程,变分自编码器的基本损失函数表示如下:
其中H(·,·)和BCE(·,·)分别表示预测值和目标值之间的交叉熵和二元交叉熵,KLtotal表示四个隐变量的KL(Kullback-Leibler)散度损失之和,β为KL散度项系数,通过设置β<1,可以改善模型的生成能力。
3)隐变量空间分离:引入对抗训练方法将音乐的音高、节奏、风格以及内容四个隐变量子空间进行分离,具体包括以下步骤:
Step1采用对抗训练和时间监督方法分离音高和节奏子隐变量:音高子隐变量ZP输入到节奏解码器,节奏子隐变量ZR输入到音高解码器,使两个解码器预测出全零序列,由此得到两个基于交叉熵的损失:
Figure BDA0002254535900000075
Figure BDA0002254535900000076
其中,0指全零序列,·指向量对应元素的乘积,
Figure BDA0002254535900000077
为节奏隐变量输入到音高解码器得到的序列,
Figure BDA0002254535900000078
为音高隐变量输入到节奏解码器得到的输出序列。
Step2采用对抗训练和标签监督方法分离风格和内容子隐变量:将四部分子隐变量合并得到音乐风格子隐变量Zs和内容子隐变量Zc,然后使用标签监督和对抗训练方式分离中国民歌风格和内容子隐变量。具体地,利用中国民歌的地域信息定义风格分类器和对抗分类器,将隐空间中的风格和内容进行分离,参见图3。风格分类器和对抗分类器都是具有Softmax函数的线性层,风格分类器确保风格变量对地域标签具有区分性,而对抗分类器强制内容变量对于地域标签不具有区分性。
对于风格分类器,其损失函数定义为:
Figure BDA0002254535900000081
其中,y表示真实的风格标签,p(y|Zs)是来自风格分类器的预测概率分布。
对于对抗分类器,通过最大化对抗分类器预测的经验熵值进行训练,同时将对抗分类器的参数进行独立训练,确保分类器的梯度不会回传给变分自编码器的其他模块,其损失函数定义如下:
Figure BDA0002254535900000082
其中p(y|Zc)是来自对抗分类器的预测概率分布。
综上,模型的总体训练目标是最小化如下损失函数:
4)具有特定地域标签的中国民歌生成:根据上述的变分自编码器建立和隐空间的分离方法训练模型,最后根据输入的地域风格信息生成具有相应地域标签的中国民歌。具体生成过程如下:根据给定的地域风格,将从已训练好的风格隐变量分布中采样得到给定风格的地域风格隐变量,与从随机标准正态分布中采样得到的内容隐变量拼接得到完整的隐变量,然后分别输入到训练后的音高解码器和节奏解码器生成音高序列和节奏序列,最后可以得到新的中国民歌旋律序列。
为了验证本发明生成具有特定地域风格的中国民歌有效性,本发明采用了以下三种客观评估和主观评估指标:
(1)音符重建准确率:通过计算生成旋律中音符序列的准确率来评估模型音乐生成的质量;
(2)风格识别准确率:通过额外训练的独立风格分类器对模型生成的音乐进行风格判别来评估模型音乐风格生成的质量;
(3)专家测评:通过邀请三位中国民歌研究领域的专家对模型生成的音乐进行现场听测,并从音乐性(生成的音乐是否拥有清晰的音乐结构和音乐意味)、风格显著性(生成的音乐是否与给定的地域标签相匹配)两方面进行评分(5分制,分值越高代表效果越好)。
表1:客观评估结果。
Figure BDA0002254535900000091
参照表1,客观评估方面:本发明从音符重建准确率和风格识别准确率两个指标对采用不同损失函数的模型进行了自动评估。实验结果可以看出,本发明(即使用Jtotal为目标函数的模型)在风格识别准确率方面取得了最好的结果,在重建准确性方面取得了次优的结果。普通的变分自编码器模型在这两方面均表现不佳。Jadv,P和Jadv,R的加入提高了重建准确率,但未能对风格分类带来有意义的改进。随着Jadv,Zc或Jdis,Zs的加入,这三种识别精度都有了很大的提高,这表明隐空间按照预期被成功分解。
表2:主观评估结果。
参照表2,主观评估方面:关于音乐性,所有的测试模型都有相似的表现,说明额外损失函数的加入对原始变分自编码器的生成质量没有负面影响。此外,使用总目标Jtotal的模型在风格显著性方面明显优于其他模型,与表1的结果一致。
参照图4,本发明成功生成具有特定地域风格的中国民歌,例如生成的蒙古语歌曲中出现了蒙古族音乐中惯用的长音符和大音程;生成的湖南民歌出现了典型的大三度、小三度结合湖南特色等。

Claims (8)

1.基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,该方法首先将音乐表示为与其对应的音高序列、音程序列和节奏序列,然后基于变分自编码器建立中国民歌生成模型,并将变分自编码器的隐变量空间按音乐的音高、节奏、内容以及风格分割为四个子空间,同时采用对抗训练的方法将四个隐变量子空间进行分离,最后利用建立的中国民歌生成模型来生成具有特定地域标签的中国民歌。
2.根据权利要求1所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,具体包括以下步骤:
1)音乐表示:将一段中国民歌旋律M表示为由音高P、音程I和节奏R三部分组成的序列,各子序列表示如下:
1-1)音高序列P的表示:由中国民歌旋律中呈现的音高类型组成,休止符被分配了一个特殊的标记;
1-2)音程序列I的表示:以半音为步长,每个音程表示为下一个音高和当前音高之间的差值;
1-3)节奏序列R的表示:由中国民歌旋律中呈现的时长类型组成;
2)建立中国民歌生成模型:将音高、音程和节奏三个子序列作为变分自编码器的输入,同时将变分自编码器的隐变量空间按照音高、节奏、风格以及内容分割为音乐的音高风格隐变量、音高内容隐变量、节奏风格隐变量和节奏内容隐变量四个子空间,最后经过解码器得到旋律序列;
3)隐变量空间分离:引入对抗训练方法将音乐的音高、节奏、风格以及内容四个隐变量子空间进行分离,具体包括以下步骤:
3-1)采用对抗训练和时间监督方法分离音高和节奏子隐变量:将音高子隐变量输入节奏解码器,同时将节奏子隐变量输入音高解码器,迫使各自解码器输出错误的序列,即预测结果为全零序列;
3-2)采用对抗训练和标签监督方法分离风格和内容子隐变量:使用地域信息定义两个分类器:风格分类器和对抗分类器;其中风格分类器的训练目标是从风格子隐变量中正确识别地域风格;对抗分类器训练目标为从内容子隐变量中无法识别出地域风格信息;
4)具有特定地域标签的中国民歌生成:根据上述的变分自编码器建立方法和隐变量空间的分离方法训练模型,最后根据输入的地域风格信息生成具有相应地域风格的中国民歌。
3.根据权利要求2所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,所述步骤1)中使用的民歌数据均被转为C调下,并使用python MIDI音乐工具包提取每首歌曲的旋律信息表示为音高P、音程I和节奏R三种序列。
4.根据权利要求2所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,所述步骤2)的具体模型建立过程如下:
(i)给定一个中国民歌旋律序列M={m1,m2,…,mk,…,mn},其中mk表示第k个音符对应的音高标记pk、音程序列ik和节奏序列rk的特征组合,将音高、音程及节奏三种子序列分别输入至三个编码器,然后将三个编码器的输出向量拼接为一个向量;编码器采用带有残差连接的双向门限循环单元网络,双向门限循环单元网络以下简称为GRU;
(ii)从编码器输出的线性变换中分别采样得到音高风格隐变量音高内容变量
Figure FDA0002254535890000022
节奏风格变量
Figure FDA0002254535890000023
和节奏内容变量
Figure FDA0002254535890000024
然后,将
Figure FDA0002254535890000025
Figure FDA0002254535890000026
连接到总音高隐变量ZP中,用于预测音高序列
Figure FDA0002254535890000027
在节奏变量中使用相同的操作来预测
Figure FDA0002254535890000028
最后,将所有隐变量连接起来用于预测整个旋律序列
Figure FDA0002254535890000029
解码器是一个普通的两层GRU模型;根据上述过程,变分自编码器的基本损失函数表示如下:
Figure FDA00022545358900000210
其中H(·,·)和BCE(·,·)分别表示预测值和目标值之间的交叉熵和二元交叉熵,KLtotal表示四个隐变量的Kullback-Leibler散度损失之和,β为KL散度项系数,用于改善模型的生成能力。
5.根据权利要求4所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,β<1。
6.根据权利要求4所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,所述步骤3-1)具体操作为:使用时间监督和对抗训练方式分离中国民歌的音高和节奏子隐变量,即将音高隐变量ZP输入到节奏解码器,节奏隐变量ZR输入到音高解码器,迫使两个解码器预测出全零序列,由此得到两个基于交叉熵的损失:
Figure FDA0002254535890000031
Figure FDA0002254535890000032
其中,0指全零序列,·指向量对应元素的乘积,
Figure FDA0002254535890000033
为节奏隐变量输入到音高解码器得到的序列,
Figure FDA0002254535890000034
为音高隐变量输入到节奏解码器得到的输出序列。
7.根据权利要求6所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,所述步骤3-2)具体操作为:将四部分子隐变量合并得到音乐风格子隐变量Zs和内容子隐变量Zc,然后使用标签监督和对抗训练方式分离中国民歌风格和内容子隐变量;具体地,利用中国民歌的地域信息定义风格分类器和对抗分类器,其中风格分类器和对抗分类器都是具有Softmax函数的线性层,风格分类器确保风格子隐变量对地域标签具有区分性,而对抗分类器确保内容子隐变量对于地域标签不具有区分性;
对于风格分类器,其损失函数定义为:
Figure FDA0002254535890000035
其中,y表示真实的风格标签,p(y|Zs)是来自风格分类器的预测概率分布;
对于对抗分类器,通过最大化对抗分类器预测的经验熵值进行训练,同时将对抗分类器的参数进行独立训练,确保分类器的梯度不会回传给变分自编码器的其他模块,其损失函数定义如下:
Figure FDA0002254535890000036
其中p(y|Zc)是来自对抗分类器的预测概率分布;
综上,模型的总体训练目标是最小化如下损失函数:
Figure FDA0002254535890000041
8.根据权利要求7所述的基于变分自编码器的具有特定地域风格的中国民歌自动生成方法,其特征在于,所述步骤4)具体操作为:根据给定的地域风格,将从已训练好的风格隐变量分布中采样得到给定风格的地域风格隐变量,与从随机标准正态分布中采样得到的内容隐变量拼接得到完整的隐变量,然后分别输入至训练后的音高解码器和节奏解码器生成音高序列和节奏序列,最后得到新的中国民歌旋律序列。
CN201911047704.3A 2019-10-30 2019-10-30 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法 Pending CN110853604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911047704.3A CN110853604A (zh) 2019-10-30 2019-10-30 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911047704.3A CN110853604A (zh) 2019-10-30 2019-10-30 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法

Publications (1)

Publication Number Publication Date
CN110853604A true CN110853604A (zh) 2020-02-28

Family

ID=69599033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911047704.3A Pending CN110853604A (zh) 2019-10-30 2019-10-30 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法

Country Status (1)

Country Link
CN (1) CN110853604A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754962A (zh) * 2020-05-06 2020-10-09 华南理工大学 基于升降采样的民歌智能辅助作曲系统及方法
CN112102801A (zh) * 2020-09-04 2020-12-18 北京有竹居网络技术有限公司 一种主旋律的生成方法、装置、电子设备及存储介质
CN112489606A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
CN113053336A (zh) * 2021-03-17 2021-06-29 平安科技(深圳)有限公司 音乐作品的生成方法、装置、设备及存储介质
CN113077770A (zh) * 2021-03-22 2021-07-06 平安科技(深圳)有限公司 佛乐生成方法、装置、设备及存储介质
CN113077257A (zh) * 2021-04-07 2021-07-06 许昌学院 一种基于数据分析的区块链跨链管理方法及系统
CN113192472A (zh) * 2021-04-29 2021-07-30 北京灵动音科技有限公司 信息处理方法、装置、电子设备及存储介质
CN113611265A (zh) * 2021-07-07 2021-11-05 湖南师范大学 一种人工智能作曲方法和系统
WO2023065070A1 (zh) * 2021-10-18 2023-04-27 中国科学院深圳先进技术研究院 一种基于领域自适应的多域医学图像分割方法
WO2023080847A3 (en) * 2021-11-08 2023-07-06 Lemon Inc. Controllable music generation

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988008598A1 (en) * 1987-04-30 1988-11-03 Lui Philip Y F Computerized music notation system
US20140260909A1 (en) * 2013-03-15 2014-09-18 Exomens Ltd. System and method for analysis and creation of music
CN106652984A (zh) * 2016-10-11 2017-05-10 张文铂 一种使用计算机自动创作歌曲的方法
CN106875929A (zh) * 2015-12-14 2017-06-20 中国科学院深圳先进技术研究院 一种音乐旋律转化方法及系统
CN108172210A (zh) * 2018-02-01 2018-06-15 福州大学 一种基于歌声节奏的演唱和声生成方法
CN109584846A (zh) * 2018-12-21 2019-04-05 成都嗨翻屋科技有限公司 一种基于生成对抗网络的旋律生成方法
CN110189768A (zh) * 2019-05-13 2019-08-30 西安交通大学 一种基于条件随机场的中国民歌地域分类方法
CN110222226A (zh) * 2019-04-17 2019-09-10 平安科技(深圳)有限公司 基于神经网络的以词生成节奏的方法、装置及存储介质
CN110288965A (zh) * 2019-05-21 2019-09-27 北京达佳互联信息技术有限公司 一种音乐合成方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988008598A1 (en) * 1987-04-30 1988-11-03 Lui Philip Y F Computerized music notation system
US20140260909A1 (en) * 2013-03-15 2014-09-18 Exomens Ltd. System and method for analysis and creation of music
CN106875929A (zh) * 2015-12-14 2017-06-20 中国科学院深圳先进技术研究院 一种音乐旋律转化方法及系统
CN106652984A (zh) * 2016-10-11 2017-05-10 张文铂 一种使用计算机自动创作歌曲的方法
CN108172210A (zh) * 2018-02-01 2018-06-15 福州大学 一种基于歌声节奏的演唱和声生成方法
CN109584846A (zh) * 2018-12-21 2019-04-05 成都嗨翻屋科技有限公司 一种基于生成对抗网络的旋律生成方法
CN110222226A (zh) * 2019-04-17 2019-09-10 平安科技(深圳)有限公司 基于神经网络的以词生成节奏的方法、装置及存储介质
CN110189768A (zh) * 2019-05-13 2019-08-30 西安交通大学 一种基于条件随机场的中国民歌地域分类方法
CN110288965A (zh) * 2019-05-21 2019-09-27 北京达佳互联信息技术有限公司 一种音乐合成方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JING LUO .ETC: "MG-VAE: Deep Chinese Folk Songs Generation with Specific Regional Style", 《ARXIV》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754962A (zh) * 2020-05-06 2020-10-09 华南理工大学 基于升降采样的民歌智能辅助作曲系统及方法
CN111754962B (zh) * 2020-05-06 2023-08-22 华南理工大学 基于升降采样的民歌智能辅助作曲系统及方法
CN112102801B (zh) * 2020-09-04 2022-04-05 北京有竹居网络技术有限公司 一种主旋律的生成方法、装置、电子设备及存储介质
CN112102801A (zh) * 2020-09-04 2020-12-18 北京有竹居网络技术有限公司 一种主旋律的生成方法、装置、电子设备及存储介质
CN112489606A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
CN112489606B (zh) * 2020-11-26 2022-09-27 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
WO2022111242A1 (zh) * 2020-11-26 2022-06-02 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备
CN113053336A (zh) * 2021-03-17 2021-06-29 平安科技(深圳)有限公司 音乐作品的生成方法、装置、设备及存储介质
CN113077770A (zh) * 2021-03-22 2021-07-06 平安科技(深圳)有限公司 佛乐生成方法、装置、设备及存储介质
CN113077770B (zh) * 2021-03-22 2024-03-05 平安科技(深圳)有限公司 佛乐生成方法、装置、设备及存储介质
CN113077257B (zh) * 2021-04-07 2023-06-20 许昌学院 一种基于数据分析的区块链跨链管理方法及系统
CN113077257A (zh) * 2021-04-07 2021-07-06 许昌学院 一种基于数据分析的区块链跨链管理方法及系统
CN113192472A (zh) * 2021-04-29 2021-07-30 北京灵动音科技有限公司 信息处理方法、装置、电子设备及存储介质
CN113611265A (zh) * 2021-07-07 2021-11-05 湖南师范大学 一种人工智能作曲方法和系统
CN113611265B (zh) * 2021-07-07 2022-09-23 湖南师范大学 一种人工智能作曲方法和系统
WO2023065070A1 (zh) * 2021-10-18 2023-04-27 中国科学院深圳先进技术研究院 一种基于领域自适应的多域医学图像分割方法
WO2023080847A3 (en) * 2021-11-08 2023-07-06 Lemon Inc. Controllable music generation

Similar Documents

Publication Publication Date Title
CN110853604A (zh) 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法
CN112784130B (zh) 孪生网络模型训练、度量方法、装置、介质和设备
CN103823867B (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
CN110097085A (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
CN110110140A (zh) 基于注意力扩展编解码网络的视频摘要方法
CN106328121A (zh) 基于深度置信网络的中国传统乐器分类方法
Lerch et al. An interdisciplinary review of music performance analysis
CN108597535A (zh) 一种融合伴奏的midi钢琴曲风格分类方法
CN106847248B (zh) 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法
CN107993636B (zh) 基于递归神经网络的乐谱建模与生成方法
CN101409070A (zh) 基于运动图像解析的音乐重构方法
CN110164412A (zh) 一种基于lstm的音乐自动合成方法及系统
CN113813609A (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
CN113192471A (zh) 一种基于神经网络的乐曲主旋律音轨识别方法
CN102841932A (zh) 一种基于内容的音频语义特征相似度比较方法
Zhao et al. A review of intelligent music generation systems
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
Pérez-Sancho et al. Genre classification of music by tonal harmony
Glickman et al. (A) Data in the Life: Authorship Attribution of Lennon-McCartney Songs
Nagavi et al. Overview of automatic Indian music information recognition, classification and retrieval systems
Flexer et al. Probabilistic Combination of Features for Music Classification.
Van Balen Audio description and corpus analysis of popular music
CN110134823B (zh) 基于归一化音符显马尔可夫模型的midi音乐流派分类方法
Pikrakis et al. Unsupervised singing voice detection using dictionary learning
CN114842819B (zh) 基于深度强化学习的单音轨midi音乐生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228