CN106898341B - 一种基于共同语义空间的个性化音乐生成方法及装置 - Google Patents
一种基于共同语义空间的个性化音乐生成方法及装置 Download PDFInfo
- Publication number
- CN106898341B CN106898341B CN201710004391.8A CN201710004391A CN106898341B CN 106898341 B CN106898341 B CN 106898341B CN 201710004391 A CN201710004391 A CN 201710004391A CN 106898341 B CN106898341 B CN 106898341B
- Authority
- CN
- China
- Prior art keywords
- music
- semantic space
- characters
- common semantic
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/111—Automatic composing, i.e. using predefined musical rules
- G10H2210/115—Automatic composing, i.e. using predefined musical rules using a random process to generate a musical note, phrase, sequence or structure
- G10H2210/121—Automatic composing, i.e. using predefined musical rules using a random process to generate a musical note, phrase, sequence or structure using a knowledge base
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/145—Composing rules, e.g. harmonic or musical rules, for use in automatic composition; Rule generation algorithms therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/151—Music Composition or musical creation; Tools or processes therefor using templates, i.e. incomplete musical sections, as a basis for composing
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于共同语义空间的个性化音乐生成方法,包括以下步骤:S1、将文字映射到共同语义空间表示;S2、将共同语义空间表示转化为乐曲;S3、将文字蕴含的风格和意境隐含到语义空间表示中,并体现在生成的乐曲中。还公开了实现所述方法的装置。本发明的有益效果是:本发明生成乐曲时可以考虑全部的文字描述以及已经生成的音符;生成的乐曲会融入文字描述体现的风格和意境;可以针对某种类型的乐曲进行强化;良好的数据可移植性和可扩展性。
Description
技术领域
本发明涉及一种基于共同语义空间的个性化音乐生成方法及装置。
背景技术
音乐生成是让计算机自动创作音乐的技术。音乐创作一直被认为是一种高难度,依赖人类突发灵感的高级思维活动。另一方面,音乐创作又需要遵循严格的规律,如节拍性、强弱性等。这意味着创造音乐是一项既要循规蹈矩,又要寻求新意的艰苦劳动,仅有对音高、节拍等具有敏锐感觉,且思维活跃度极高的少数人能够胜任。幸运的是,这种在严格框架下进行有限创新的工作,计算机具有天然优势,它可以充分保证生成作品的合规性,同时在合规下探索各种可能的创新。让计算机自动生成音乐,可极大减少人类进行音乐创作的工作量,且有望产生挣脱传统思路束缚新颖音乐。即便用机器生成的音乐还不能与人类的音乐家相比,但机器作品可以为人类提供候选或初级作品,使作曲家创作更加容易;同时,计算机生成的音乐还可以为作曲家提供灵感和刺激,激发他们不断创造新的音乐,防止因长期创作带来的风格惰性和思维困顿,帮助作曲家永褒创作青春。因此,自动音乐生成具有非常广阔的应用前景。
音乐生成一般可以有以下两种方式:
1、经典的概率模型
该方法用语言模型或者HMM模型训练字符化的乐谱,然后生成一段乐谱,能取得比较不错的效果。
2、神经网络(NN)模型
该方法学习字符化的乐谱利用神经网络,相当于学习一个序列,然后用模型生成一个序列,这种方法一个时刻只能生成一个音符,不过可以获得一些令人满意的音乐片段。
目前的音乐生成方法无法细致指定生成音乐的风格。要生成不同风格的音乐,或者人为挑选不同风格的训练数据进行与风格相关(style-dependent)的模型训练,或者引入一个表示风格的指示变量,表示想要生成的风格方式。虽然这些是可行的,但这些方法无法对风格进行细致指定。比如,同样是田园风格,反应农耕生活和反应狩猎生活的音乐可能差距较大。再如,如果我们想反应复杂风格,既有田园风格,也有魔幻风格,则传统的方法无法实现。除了风格,音乐还包括意境、情景、叙事等复杂属性。这些复杂属性到相交叉组合,意味着对音乐的描述极为复杂,更别提依这些描述来生成音乐了。
本发明关注音乐生成任务,提出一种新的方法,可通过文字描述来指定生成音乐的风格和属性。例如,通过输入“牛和羊在青青的草地上吃草,旁边有小溪流过”来指定生成音乐所表述的内容,音乐生成器即可生成与这一田园风格相适应的音乐。
发明内容
本发明的目的在于克服现有技术的缺点,提供一种基于共同语义空间的个性化音乐生成方法及装置。该方法首先将已知的文字-乐曲对映射到共同的语义空间中,并同时将文字所表述的风格、意境等也体现在该语义空间表示中,然后学习在这种特定的风格、意境下的语义空间表示到乐曲的转换关系,这样,学习到的映射和转换关系就可以根据新的文字创作能体现出风格和意境的乐曲。对于给定的一段新文字,创作过程为先将其映射到该共同语义空间,然后再用学习到的转换方法来生产贴合该文字内容以及风格的乐曲。
本发明的目的通过以下技术方案来实现:一种基于共同语义空间的个性化音乐生成方法,包括以下步骤:
S1、将文字映射到共同语义空间表示(编码过程);
S2、将共同语义空间表示转化为乐曲(解码过程);
S3、将文字蕴含的风格和意境隐含到语义空间表示中,并体现在生成的乐曲中。由于在编码过程中,会考虑全部的文字描述,这就使得语义空间表示可以学习文字之间的相互关系以及这些文字共同所体现的风格和意境,而在解码的时候,除了文字描述,还会考虑该乐曲的已生成部分,使得整个乐曲除了能够与文字描述贴合之外,还能保证自身内容的完整性以及风格的整齐划一感。
优选的,所述的步骤S1和S2均可通过基于RNN的编码器来实现,但不限于该方法。
共同语义空间是指将文字和音乐映射到在同一个语义空间中,使得对于文字和音乐两个不同的体系,该语义空间不仅能够分别勾勒出单个体系内语义级别上纵横交错的隐含关系,还能够体现两个体系在语义级别上的联动性和一致性。对于本发明文字到音乐的生成,需要分别文字和音乐和共同语义空间的对应关系,只是操作的方向不同。对于文字,该方法主要通过一个编码器来学习如何将其映射到语义空间中,也就是学习其语义空间表示,而对于音乐,该方法主要学习如何从其文字的语义空间表示来转化成音乐。
基于RNN的编码-解码结构
本发明主要描述了用基于RNN的编码-解码结构来进行文字到音乐的生成,但实际并不仅限于该方法,其他一些序列到序列的模型也适用。编码时,从左到右依次将文字描述中的文字映射到共同语义空间中,在映射每一个文字的时候,不仅考虑之前的文字,还考虑之前文字的语义表示。解码时也是从左到右挨个生成乐符,首先根据文字描述的语义表示以及已生成部分乐曲的乐符序列及其语义表示来得到当前生成乐符的语义表示,再将该语义表示转化成相应的乐符。
下面以LSTM机制为例来描述基于RNN模型的编码阶段的文字到语义以及解码阶段的语义到乐符的转换过程。
1、输入输出格式如下:
文字对应的输入格式:
音符对应的输出格式:
其中:
Kx和Ky分别是文字和音符的字符个数,Tx和Ty分别是一段文字和对应音符的长度。
2、对于encoder:
其中:
3、对于decoder:
在Decoder阶段,生成隐层状态设为st的步骤,如下:
其中:
生成下一个音符条件概率的公式如下:
yt=argmaxyp(y|st,c,yt-1) (16)
4、代价函数:
使用交叉熵代价函数:
训练与生成
训练语料的格式为一首歌的每一个字对对应一个或者多个音符,这样,训练和生成过程就相当于一个翻译过程。在训练过程中,把整首歌作为输入在编码器阶段生成一个表征向量再由表征向量和上一个音符在解码器阶段生成对应的音乐(即一串音符),再根据生成的音符和本来正确的音符,设计一个损失函数,在训练阶段不断更新参数。在生成过程中,我们可以输入若干句话或者关键词,生成一段符合文字风格或者意境的音乐。
实现所述的一种基于共同语义空间的个性化音乐生成方法的装置,包括将文字映射到共同语义空间表示的影射模块和用于将共同语义空间表示转化为乐曲的转化模块。
本发明具有以下优点:
本发明生成乐曲时可以考虑全部的文字描述以及已经生成的音符;生成的乐曲会融入文字描述体现的风格和意境;可以针对某种类型的乐曲进行强化;良好的数据可移植性和可扩展性。
附图说明
图1为本发明的文字和音乐在共同语义空间的转换过程示意图。
图2为本发明的基于RNN的编码-解码模型示意图。
图3为本发明的训练示意图。
图4为本发明的生成示意图。
具体实施方式
下面结合附图对本发明做进一步的描述:
一种基于共同语义空间的个性化音乐生成方法,包括以下步骤:
S1、将文字映射到共同语义空间表示(编码过程);
S2、将共同语义空间表示转化为乐曲(解码过程);
S3、将文字蕴含的风格和意境隐含到语义空间表示中,并体现在生成的乐曲中。由于在编码过程中,会考虑全部的文字描述,这就使得语义空间表示可以学习文字之间的相互关系以及这些文字共同所体现的风格和意境,而在解码的时候,除了文字描述,还会考虑该乐曲的已生成部分,使得整个乐曲除了能够与文字描述贴合之外,还能保证自身内容的完整性以及风格的整齐划一感。
优选的,所述的步骤S1和S2均可通过基于RNN的编码器来实现,但不限于该方法。
共同语义空间是指将文字和音乐映射到在同一个语义空间中,使得对于文字和音乐两个不同的体系,该语义空间不仅能够分别勾勒出单个体系内语义级别上纵横交错的隐含关系,还能够体现两个体系在语义级别上的联动性和一致性。对于本发明文字到音乐的生成,需要分别文字和音乐和共同语义空间的对应关系,只是操作的方向不同。对于文字,该方法主要通过一个编码器来学习如何将其映射到语义空间中,也就是学习其语义空间表示,而对于音乐,该方法主要学习如何从其文字的语义空间表示来转化成音乐。
比如“我爱你中国”这一句歌词对应的音符为“C1D1A1C2F1E1D1F1C1”,如图1所示,虚线框所示就是歌词和音符的共同语义空间。
基于RNN的编码-解码结构
本发明主要描述了用基于RNN的编码-解码结构来进行文字到音乐的生成,但实际并不仅限于该方法,其他一些序列到序列的模型也适用。编码时,从左到右依次将文字描述中的文字映射到共同语义空间中,在映射每一个文字的时候,不仅考虑之前的文字,还考虑之前文字的语义表示。解码时也是从左到右挨个生成乐符,首先根据文字描述的语义表示以及已生成部分乐曲的乐符序列及其语义表示来得到当前生成乐符的语义表示,再将该语义表示转化成相应的乐符。比如“我爱你中国”这一句歌词对应的音符为“C1D1A1C2F1E1D1F1C1”,其对应的基于RNN的编码-解码结构如图2所示。
下面以LSTM机制为例来描述基于RNN模型的编码阶段的文字到语义以及解码阶段的语义到乐符的转换过程。
5、输入输出格式如下:
文字对应的输入格式:
音符对应的输出格式:
其中:
Kx和Ky分别是文字和音符的字符个数,Tx和Ty分别是一段文字和对应音符的长度。
6、对于encoder:
其中:
7、对于decoder:
在Decoder阶段,生成隐层状态设为st的步骤,如下:
其中:
生成下一个音符条件概率的公式如下:
yt=argmaxyp(y|st,c,yt-1) (16)
8、代价函数:
使用交叉熵代价函数:
训练与生成
如图3、图4所示,训练语料的格式为一首歌的每一个字对对应一个或者多个音符,这样,训练和生成过程就相当于一个翻译过程。在训练过程中,把整首歌作为输入在编码器阶段生成一个表征向量再由表征向量和上一个音符在解码器阶段生成对应的音乐(即一串音符),再根据生成的音符和本来正确的音符,设计一个损失函数,在训练阶段不断更新参数。在生成过程中,我们可以输入若干句话或者关键词,生成一段符合文字风格或者意境的音乐。
实现所述的一种基于共同语义空间的个性化音乐生成方法的装置,包括将文字映射到共同语义空间表示的影射模块和用于将共同语义空间表示转化为乐曲的转化模块。
Claims (3)
1.一种基于共同语义空间的个性化音乐生成方法,其特征在于:包括以下步骤:
S1、将文字映射到共同语义空间表示;
S2、将共同语义空间表示转化为乐曲;
S3、将文字蕴含的风格和意境隐含到语义空间表示中,并体现在生成的乐曲中;
所述的共同语义空间是指将文字和音乐映射到在同一个语义空间中;
具体包括以下步骤:
A、输入输出格式如下:
文字对应的输入格式:
音符对应的输出格式:
其中:
Kx和Ky分别是文字和音符的字符个数,Tx和Ty分别是一段文字和对应音符的长度;B、对于encoder;
其中:
C、对于decoder:
在Decoder阶段,生成隐层状态设为st的步骤,如下:
其中:
生成下一个音符条件概率的公式如下:
yt=arg maxyp(y|st,c,yt-1) (16)
D、代价函数:
使用交叉熵代价函数:
2.根据权利要求1所述的一种基于共同语义空间的个性化音乐生成方法,其特征在于:所述的步骤S1和S2均通过基于RNN的编码器来实现。
3.实现如权利要求l或2所述的一种基于共同语义空间的个性化音乐生成方法的装置,其特征在于,包括将文字映射到共同语义空间表示的影射模块和用于将共同语义空间表示转化为乐曲的转化模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710004391.8A CN106898341B (zh) | 2017-01-04 | 2017-01-04 | 一种基于共同语义空间的个性化音乐生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710004391.8A CN106898341B (zh) | 2017-01-04 | 2017-01-04 | 一种基于共同语义空间的个性化音乐生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106898341A CN106898341A (zh) | 2017-06-27 |
CN106898341B true CN106898341B (zh) | 2021-03-09 |
Family
ID=59198304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710004391.8A Active CN106898341B (zh) | 2017-01-04 | 2017-01-04 | 一种基于共同语义空间的个性化音乐生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106898341B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993636B (zh) * | 2017-11-01 | 2021-12-31 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN108492817B (zh) * | 2018-02-11 | 2020-11-10 | 北京光年无限科技有限公司 | 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统 |
CN109189974A (zh) * | 2018-08-08 | 2019-01-11 | 平安科技(深圳)有限公司 | 一种作曲模型的建立方法、系统、设备和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3932258B2 (ja) * | 2002-01-09 | 2007-06-20 | 株式会社ナカムラ | 緊急脱出用梯子 |
WO2007053917A2 (fr) * | 2005-11-14 | 2007-05-18 | Continental Structures Sprl | Procede de composition d’une œuvre musicale par un non-musicien |
CN1983253A (zh) * | 2005-12-15 | 2007-06-20 | 北京中科信利技术有限公司 | 一种提供音乐搜索服务的方法、设备和系统 |
CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
CN101694772B (zh) * | 2009-10-21 | 2014-07-30 | 北京中星微电子有限公司 | 将文本文字转换成说唱音乐的方法及装置 |
US8731943B2 (en) * | 2010-02-05 | 2014-05-20 | Little Wing World LLC | Systems, methods and automated technologies for translating words into music and creating music pieces |
CN101963972A (zh) * | 2010-07-01 | 2011-02-02 | 深港产学研基地产业发展中心 | 情感关键词提取方法及系统 |
US9171530B2 (en) * | 2011-04-25 | 2015-10-27 | Kel R. VanBuskirk | Methods and apparatus for creating music melodies using validated characters |
CN104391980B (zh) * | 2014-12-08 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 生成歌曲的方法和装置 |
CN104867489B (zh) * | 2015-04-27 | 2019-04-26 | 苏州大学张家港工业技术研究院 | 一种模拟真人朗读发音的方法及系统 |
CN105096962B (zh) * | 2015-05-22 | 2019-04-16 | 努比亚技术有限公司 | 一种信息处理方法及终端 |
CN105389356B (zh) * | 2015-11-04 | 2019-05-28 | 上海艺瓣文化传播有限公司 | 一种基于特征提取的音乐数据库检索系统 |
CN105976056A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向rnn的信息提取系统 |
-
2017
- 2017-01-04 CN CN201710004391.8A patent/CN106898341B/zh active Active
Non-Patent Citations (1)
Title |
---|
基于条件随机场的音乐共同语义标注;何晓梅;《电子测量技术》;20160831;第39卷(第8期);第70-74页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106898341A (zh) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783657A (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
CN108415977A (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN111651557B (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
WO2019237708A1 (zh) | 基于深度学习的人际交互肢体语言自动生成方法及系统 | |
CN109739370B (zh) | 一种语言模型训练方法、汉语拼音输入方法及装置 | |
CN109086270B (zh) | 基于古诗词语料向量化的自动作诗系统及其方法 | |
JP2021157193A (ja) | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN108153864A (zh) | 基于神经网络生成文本摘要的方法 | |
CN107077841A (zh) | 用于文本到语音的超结构循环神经网络 | |
CN104391980A (zh) | 生成歌曲的方法和装置 | |
CN106898341B (zh) | 一种基于共同语义空间的个性化音乐生成方法及装置 | |
CN101504643A (zh) | 声音处理系统、声音处理程序以及声音处理方法 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN112542155B (zh) | 歌曲合成方法及模型训练方法、装置、设备与存储介质 | |
KR102367772B1 (ko) | 딥러닝 기반 음악 생성장치 및 방법 | |
CN109902164A (zh) | 利用卷积双向自注意网络解决开放长格式视频问答的方法 | |
Solli et al. | Learning Jazz Language by Aural Imitation: A Usage-Based Communicative Jazz Theory (Part 2) | |
CN116052621A (zh) | 一种基于语言模型的音乐创作辅助方法 | |
Mo et al. | A user-customized automatic music composition system | |
Wang | Analysis of multimedia teaching path of popular music based on multiple intelligence teaching mode | |
Madhumani et al. | Automatic neural lyrics and melody composition | |
Lu et al. | Multi-dimensional fusion: transformer and GANs-based multimodal audiovisual perception robot for musical performance art | |
Liu et al. | From knowledge map to mind map: Artificial imagination | |
Huang et al. | Flexible entity marks and a fine-grained style control for knowledge based natural answer generation | |
CN113838445B (zh) | 歌曲创作方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |