CN112216257B - 音乐风格迁移方法、模型训练方法、装置和存储介质 - Google Patents

音乐风格迁移方法、模型训练方法、装置和存储介质 Download PDF

Info

Publication number
CN112216257B
CN112216257B CN202011046519.5A CN202011046519A CN112216257B CN 112216257 B CN112216257 B CN 112216257B CN 202011046519 A CN202011046519 A CN 202011046519A CN 112216257 B CN112216257 B CN 112216257B
Authority
CN
China
Prior art keywords
domain
sample
target domain
loss
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011046519.5A
Other languages
English (en)
Other versions
CN112216257A (zh
Inventor
郑锋
刘航晨
宋轩
张建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern University of Science and Technology
Original Assignee
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern University of Science and Technology filed Critical Southern University of Science and Technology
Priority to CN202011046519.5A priority Critical patent/CN112216257B/zh
Publication of CN112216257A publication Critical patent/CN112216257A/zh
Application granted granted Critical
Publication of CN112216257B publication Critical patent/CN112216257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种音乐风格迁移方法、模型训练方法、装置和存储介质,模型训练方法包括获取训练样本;根据训练样本和噪声样本获取生成器和鉴别器;将训练样本输入到生成器中,得到伪样本;将训练样本和伪样本输入到鉴别器中,获取生成损失和对比损失;将伪样本输入到生成器中,得到重建样本;计算训练样本和重建样本的重建损失;将干扰域样本和伪样本输入到鉴别器中,获取鉴别损失;利用梯度下降法,通过生成损失、对比损失、重建损失和鉴别损失训练生成器和鉴别器。通过将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。

Description

音乐风格迁移方法、模型训练方法、装置和存储介质
技术领域
本发明涉及音乐生成技术领域,尤其是涉及一种音乐风格迁移方法、模型训练方法、装置和存储介质。
背景技术
音乐作为现代计算机和算法数字化和处理的领域之一,在模仿这一核心音乐任务中,AI却仍然远不如生物系统。近年来音乐生成领域进展飞速,随着深度学习的再次兴起,音乐处理与生成重新进入大众的视野。在音乐领域中,同一个作品的不同风格改编具有很大的欣赏价值和商业价值,同时也能为艺术研究提供参考或灵感,这样的工作被称为音乐风格迁移、风格转换或风格间的域转换。以《卡农》为例,爵士风格和古典风格的作品在节奏和部分音调上有较大区别,音阶的组合形式上也非常不同,这样的区别可以为演奏家带来演奏的提示或改编的灵感,同时为研究音乐风格带来了更多研究对象。随着这样的需求越来越大,完全可以由算法来学习完成。因此,研究如何通过AI算法来学习音乐在不同风格间的生成和改编就成为了音乐领域一个有趣而重要的研究课题。
目前,风格迁移这类具有专业性的工作主要由专业的艺术家完成。因为此类工作需要深厚的专业背景和即兴改编的能力,所以训练成本非常高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明提出一种音乐风格迁移模型训练方法,该方法将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
根据本发明的第一方面实施例的一种音乐风格迁移模型训练方法,包括:
获取训练样本,所述训练样本包括起始域样本、目标域样本和干扰域样本,所述训练样本为音乐文件;
将所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,获取生成器,所述生成器包括正向生成器和反向生成器;
随机生成噪声样本,将所述噪声样本、所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,生成鉴别器,所述鉴别器包括目标域鉴别器;
将所述起始域样本输入到所述正向生成器中,得到目标域伪样本;
将所述目标域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取正向生成损失和目标域对比损失;
将所述目标域伪样本输入到所述反向生成器中,得到起始域重建样本;
计算所述起始域样本和所述起始域重建样本的起始域重建损失;
将所述干扰域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取目标域鉴别损失;
利用梯度下降法,通过所述正向生成损失、所述目标域对比损失、所述起始域重建损失和所述目标域鉴别损失训练所述正向生成器和所述目标域鉴别器。
根据本发明实施例的一种音乐风格迁移模型训练方法,至少具有如下有益效果:通过将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
根据本发明的一些实施例,所述音乐风格迁移模型训练方法,还包括:
将所述目标域样本输入到所述反向生成器中,得到起始域伪样本;
将所述起始域样本和所述起始域伪样本输入到起始域鉴别器中,获取反向生成损失和起始域对比损失;
将所述起始域伪样本输入到所述正向生成器中,得到目标域重建样本;
计算所述目标域样本和所述目标域重建样本的目标域重建损失;
将所述干扰域样本和所述起始域伪样本输入到所述起始域鉴别器中,获取起始域鉴别损失;
利用梯度下降法,通过所述反向生成损失、所述起始域对比损失、所述目标域重建损失和所述起始域鉴别损失训练所述反向生成器和所述起始域鉴别器;
其中,所述鉴别器还包括起始域鉴别器。
根据本发明的一些实施例,所述获取训练样本,包括:
获取起始域、目标域和干扰域的音乐文件;
提取所述音乐文件中的音乐信息,得到初始矩阵;
对所述初始矩阵进行采样,得到采样矩阵;
根据所述采样矩阵获取训练样本。
根据本发明的一些实施例,所述根据所述采样矩阵获取训练样本,包括:
删除所述采样矩阵中音高小于C1的变量和音高大于C8的变量,得到筛选采样矩阵;
根据所述筛选采样矩阵获取训练样本。
根据本发明的一些实施例,所述提取所述音乐文件中的音乐信息步骤之前,还包括:
删除所述音乐文件中的鼓点音轨。
根据本发明的第二方面实施例的一种音乐风格迁移方法,包括:
获取待处理音乐文件;
通过所述的方法训练得到的音乐风格迁移模型对所述待处理音乐文件进行风格迁移,得到目标音乐文件。
根据本发明实施例的一种音乐风格迁移方法,至少具有如下有益效果:将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
根据本发明的第三方面实施例的一种音乐风格迁移模型训练装置,包括:
样本获取模块,用于获取训练样本,所述训练样本包括起始域样本、目标域样本和干扰域样本,所述训练样本为音乐文件;
初始生成模块,用于将所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,获取生成器,所述生成器包括正向生成器和反向生成器;
初始鉴别模块,用于随机生成噪声样本,将所述噪声样本、所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,生成鉴别器,所述鉴别器包括目标域鉴别器;
正向生成模块,用于将所述起始域样本输入到所述正向生成器中,得到目标域伪样本;
目标损失模块,用于将所述目标域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取正向生成损失和目标域对比损失;
正向重建模块,用于将所述目标域伪样本输入到所述反向生成器中,得到起始域重建样本;
正向重建损失模块,用于计算所述起始域样本和所述起始域重建样本的起始域重建损失;
目标域鉴别损失模块,用于将所述干扰域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取目标域鉴别损失;
正向训练模块,用于利用梯度下降法,通过所述正向生成损失、所述目标域对比损失、所述起始域重建损失和所述目标域鉴别损失训练所述正向生成器和所述目标域鉴别器。
根据本发明实施例的一种音乐风格迁移模型训练装置,至少具有如下有益效果:将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
根据本发明的第四方面实施例的一种音乐风格迁移装置,包括:
获取模块,用于获取待处理音乐文件;
迁移模块,用于通过所述的方法训练得到的音乐风格迁移模型对所述待处理音乐文件进行风格迁移,得到目标音乐文件。
根据本发明实施例的一种音乐风格迁移装置,至少具有如下有益效果:将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
根据本发明的第五方面实施例的一种装置,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
根据本发明实施例的一种装置,至少具有如下有益效果:将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
根据本发明的第六方面实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行所述的方法。
根据本发明实施例的一种计算机可读存储介质,至少具有如下有益效果:将目标域对比损失运用到音频领域以提取并学习目标域的高级特征,实现将音乐风格迁移到不同音乐域的目标,大大降低了音乐风格迁移的训练成本。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一种音乐风格迁移模型训练方法的流程图。
具体实施方式
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本发明的实施例提供了一种音乐风格迁移模型训练方法,参照图1,包括:
S100、获取训练样本,所述训练样本包括起始域样本、目标域样本和干扰域样本,所述训练样本为音乐文件;
S200、将所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,获取生成器,所述生成器包括正向生成器和反向生成器;
S300、随机生成噪声样本,将所述噪声样本、所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,生成鉴别器,所述鉴别器包括目标域鉴别器;
S400、将所述起始域样本输入到所述正向生成器中,得到目标域伪样本;
S500、将所述目标域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取正向生成损失和目标域对比损失;
S600、将所述目标域伪样本输入到所述反向生成器中,得到起始域重建样本;
S700、计算所述起始域样本和所述起始域重建样本的起始域重建损失;
S800、将所述干扰域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取目标域鉴别损失;
S900、利用梯度下降法,通过所述正向生成损失、所述目标域对比损失、所述起始域重建损失和所述目标域鉴别损失训练所述正向生成器和所述目标域鉴别器。
具体地,通过引入对比损失,可以提取目标域的高级特征,实现将音乐风格迁移到目标域。音乐风格迁移模型的训练主要包括:生成器和鉴别器的生成;样本的生成;损失的计算;生成器和鉴别器的训练。首先通过将训练样本输入到音乐风格迁移模型中,可以生成初始的生成器;将训练样本和噪声样本输入到音乐风格迁移模型中,可以生成初始的鉴别器。接着,将起始域样本输入到正向生成器中,可以得到目标域伪样本;将目标域伪样本输入到反向生成器中,可以得到起始域重建样本。然后,将目标域样本和目标域伪样本输入到目标域鉴别器中,可以获取正向生成损失和目标域对比损失;计算起始域样本和起始域重建样本的起始域重建损失;将干扰域样本和目标域伪样本输入到目标域鉴别器中,获取目标域鉴别损失。最后,利用梯度下降法,通过正向生成损失、目标域对比损失、起始域重建损失和目标域鉴别损失训练正向生成器和目标域鉴别器。
音乐风格迁移模型用于对输入的音乐文件进行风格迁移,得到风格迁移后的音乐文件。
训练样本包括起始域样本、目标域样本和干扰域样本;起始域样本为模型输入对应的音乐域的样本,例如爵士风格音乐;目标域样本为模型输出对应的音乐域的样本,例如古典风格音乐;干扰域样本为与起始域和目标域均不相同的音乐域的样本,例如流行风格音乐或摇滚风格音乐。
生成器是生成式对抗网络中的生成模型,给定某种隐含信息,生成器随机产生观测数据。生成器包括正向生成器和反向生成器,正向生成器用于起始域到目标域的变换过程,反向生成器用于目标域到起始域的变换过程。
鉴别器是生成式对抗网络中的判别模型,判别模型需要输入变量,通过某种模型来预测。鉴别器包括起始域鉴别器和目标域鉴别器,起始域鉴别器用于起始域的鉴别,目标域鉴别器用于目标域的鉴别。
在生成式对抗网络训练过程中,生成器的目标就是尽量生成真实的输出去欺骗鉴别器。而鉴别器的目标就是尽量把生成器生成的输出和真实的输出分别开来。这样,生成器和鉴别器构成了一个动态的“博弈过程”。
噪声样本是随机生成的样本,用来生成处理鉴别器,由于噪声样本是随机生成的样本,导致由噪声样本获取得到的鉴别的精度较低,只能作为初始的鉴别器。
目标域伪样本是将起始域样本输入到正向生成器得到的样本,对于鉴别器来说该样本并非目标域样本,而是由生成器生成的目标域伪样本。
起始域重建样本是目标域伪样本输入到反向生成器得到的样本,其为起始域样本通过生成器正向和反向生成后得到的样本,为重建的起始域样本。
正向生成损失的计算公式如下,其中,DB为目标域鉴别器,xB为目标域样本,为目标域伪样本。
目标域对比损失的计算公式如下,其中GA→B为正向生成器。
起始域重建损失的计算公式如下,其中,xA为起始域样本,为起始域重建样本。
目标域鉴别损失的计算公式如下,其中,xM为干扰域样本。
在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来迭代求解,得到最小化的损失函数,和模型参数值。
在本发明的一些具体实施例中,所述音乐风格迁移模型训练方法,还包括:
将所述目标域样本输入到所述反向生成器中,得到起始域伪样本;
将所述起始域样本和所述起始域伪样本输入到起始域鉴别器中,获取反向生成损失和起始域对比损失;
将所述起始域伪样本输入到所述正向生成器中,得到目标域重建样本;
计算所述目标域样本和所述目标域重建样本的目标域重建损失;
将所述干扰域样本和所述起始域伪样本输入到所述起始域鉴别器中,获取起始域鉴别损失;
利用梯度下降法,通过所述反向生成损失、所述起始域对比损失、所述目标域重建损失和所述起始域鉴别损失训练所述反向生成器和所述起始域鉴别器;
其中,所述鉴别器还包括起始域鉴别器。
具体地,通过最小化反向生成损失、起始域对比损失、目标域重建损失和起始域鉴别损失,可以训练得到较为理想的反向生成器和起始域鉴别器。通过生成器和双鉴别器的结构,可以实现模型的循环一致性。
起始域伪样本是将目标域样本输入到反向生成器中得到的样本,对于鉴别器来说该样本并非起始域样本,而是由生成器生成的起始域伪样本。
目标域重建样本是将起始域伪样本输入到正向生成器中得到的样本,其为目标域样本通过生成器反向和正向生成后得到的样本,为重建的目标域样本。
反向生成损失的计算公式如下,其中DA为起始域鉴别器,为起始域伪样本。
起始域对比损失的计算公式如下:
目标域重建损失的计算公式如下,其中为目标域重建样本。
起始域鉴别损失的计算公式如下:
在本发明的一些具体实施例中,所述获取训练样本,包括:
获取起始域、目标域和干扰域的音乐文件;
提取所述音乐文件中的音乐信息,得到初始矩阵;
对所述初始矩阵进行采样,得到采样矩阵;
根据所述采样矩阵获取训练样本。
具体地,从起始域、目标域和干扰域获取音乐文件,音乐文件可以为MIDI文件,可以通过pretty_midi或pypianoroll在每一个音轨中遍历音符,并得到每个音符的音高、音符开始时间和音符结束时间,将音符开始时间和音符结束时间分别除以十六分音符的长度,就可以得到音符开始时间和音符结束时间在矩阵中对应的位置,即可以得到初始矩阵,对初始矩阵进行采样,可以得到采样矩阵,根据采样矩阵可以得到训练样本。
MIDI,即乐器数字接口,是一种类似于乐谱的象征性音乐表现形式,只存有每个音阶的音高、音长和起始时间,并在播放时进行系统级的基础渲染,是一种良好的轻量化存储格式。
通过将MIDI文件转换为矩阵,使得模型输入可以兼容MIDI文件。
在本发明的一些具体实施例中,所述根据所述采样矩阵获取训练样本,包括:
删除所述采样矩阵中音高小于C1的变量和音高大于C8的变量,得到筛选采样矩阵;
根据所述筛选采样矩阵获取训练样本。
具体地,删除采样矩阵的部分音符,可以减少训练样本中的数据量,从而提高训练效率。
MIDI文件音高数值范围在0~127,可以存储从A0到G9的横跨10个八度的音高,在这些音里面很多音符是几乎不会出现在真实的音乐中的。为了使得到的矩阵更为稠密,在处理的过程中忽略了过大和过小的数值,只提取了数值在24-108的音符,即C1-C8这84个音高,基本上与钢琴的音域相同。
在本发明的一些具体实施例中,所述提取所述音乐文件中的音乐信息步骤之前,还包括:
删除所述音乐文件中的鼓点音轨。
具体地,删除音乐文件中的鼓点音轨可以减少训练样本的数据量,提高模型的训练效率。
本发明的实施例还提供了一种音乐风格迁移方法,包括
获取待处理音乐文件;
通过所述的方法训练得到的对所述待处理音乐文件进行风格迁移,得到目标音乐文件。
具体地,获取待处理的音乐文件,将音乐文件输入到训练完成的音乐风格迁移模型中,可以得到风格迁移后的音乐文件,即目标音乐文件。
本发明的实施例还提供了一种音乐风格迁移模型训练装置,包括:
样本获取模块,用于获取训练样本,所述训练样本包括起始域样本、目标域样本和干扰域样本,所述训练样本为音乐文件;
初始生成模块,用于将所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,获取生成器,所述生成器包括正向生成器和反向生成器;
初始鉴别模块,用于随机生成噪声样本,将所述噪声样本、所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,生成鉴别器,所述鉴别器包括目标域鉴别器;
正向生成模块,用于将所述起始域样本输入到所述正向生成器中,得到目标域伪样本;
目标损失模块,用于将所述目标域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取正向生成损失和目标域对比损失;
正向重建模块,用于将所述目标域伪样本输入到所述反向生成器中,得到起始域重建样本;
正向重建损失模块,用于计算所述起始域样本和所述起始域重建样本的起始域重建损失;
目标域鉴别损失模块,用于将所述干扰域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取目标域鉴别损失;
正向训练模块,用于利用梯度下降法,通过所述正向生成损失、所述目标域对比损失、所述起始域重建损失和所述目标域鉴别损失训练所述正向生成器和所述目标域鉴别器。
具体地,方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
装置中所包含的层、模块、单元和/或平台等可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,装置中所包含的层、模块、单元和/或平台所对应执行的数据处理流程,其可按任何合适的顺序来执行,除非本文另外指示或以其他方式明显地与上下文矛盾。本发明实施例系统中所包含的层、模块、单元和/或平台所对应执行的数据处理流程可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。
本发明的实施例还提供了一种音乐风格迁移装置,包括:
获取模块,用于获取待处理音乐文件;
迁移模块,用于通过所述的方法训练得到的音乐风格迁移模型对所述待处理音乐文件进行风格迁移,得到目标音乐文件。
具体地,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
装置中所包含的层、模块、单元和/或平台等可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,装置中所包含的层、模块、单元和/或平台所对应执行的数据处理流程,其可按任何合适的顺序来执行,除非本文另外指示或以其他方式明显地与上下文矛盾。本发明实施例系统中所包含的层、模块、单元和/或平台所对应执行的数据处理流程可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。
本发明的实施例还提供了一种装置,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
具体地,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行所述的方法。
具体地,存储介质中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行上述方法实施例中任一个技术方案所述的一种交互信息处理方法步骤。对于所述存储介质,其可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。可见,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
存储介质可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明系统中所包含的层、模块、单元和/或平台所对应执行的数据处理流程可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种音乐风格迁移模型训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括起始域样本、目标域样本和干扰域样本,所述训练样本为音乐文件;
将所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,获取生成器,所述生成器包括正向生成器和反向生成器;
随机生成噪声样本,将所述噪声样本、所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,生成鉴别器,所述鉴别器包括目标域鉴别器;
将所述起始域样本输入到所述正向生成器中,得到目标域伪样本;
将所述目标域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取正向生成损失和目标域对比损失;
将所述目标域伪样本输入到所述反向生成器中,得到起始域重建样本;
计算所述起始域样本和所述起始域重建样本的起始域重建损失;
将所述干扰域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取目标域鉴别损失;
利用梯度下降法,通过所述正向生成损失、所述目标域对比损失、所述起始域重建损失和所述目标域鉴别损失训练所述正向生成器和所述目标域鉴别器。
2.根据权利要求1所述的音乐风格迁移模型训练方法,其特征在于,所述音乐风格迁移模型训练方法,还包括:
将所述目标域样本输入到所述反向生成器中,得到起始域伪样本;
将所述起始域样本和所述起始域伪样本输入到起始域鉴别器中,获取反向生成损失和起始域对比损失;
将所述起始域伪样本输入到所述正向生成器中,得到目标域重建样本;
计算所述目标域样本和所述目标域重建样本的目标域重建损失;
将所述干扰域样本和所述起始域伪样本输入到所述起始域鉴别器中,获取起始域鉴别损失;
利用梯度下降法,通过所述反向生成损失、所述起始域对比损失、所述目标域重建损失和所述起始域鉴别损失训练所述反向生成器和所述起始域鉴别器;
其中,所述鉴别器还包括起始域鉴别器。
3.根据权利要求1所述的音乐风格迁移模型训练方法,其特征在于,所述获取训练样本,包括:
获取起始域、目标域和干扰域的音乐文件;
提取所述音乐文件中的音乐信息,得到初始矩阵;
对所述初始矩阵进行采样,得到采样矩阵;
根据所述采样矩阵获取训练样本。
4.根据权利要求3所述的音乐风格迁移模型训练方法,其特征在于,所述根据所述采样矩阵获取训练样本,包括:
删除所述采样矩阵中音高小于C1的变量和音高大于C8的变量,得到筛选采样矩阵;
根据所述筛选采样矩阵获取训练样本。
5.根据权利要求3所述的音乐风格迁移模型训练方法,其特征在于,所述提取所述音乐文件中的音乐信息步骤之前,还包括:
删除所述音乐文件中的鼓点音轨。
6.一种音乐风格迁移方法,其特征在于,包括:
获取待处理音乐文件;
通过如权利要求1至5任一项所述的方法训练得到的音乐风格迁移模型对所述待处理音乐文件进行风格迁移,得到目标音乐文件。
7.一种音乐风格迁移模型训练装置,其特征在于,包括:
样本获取模块,用于获取训练样本,所述训练样本包括起始域样本、目标域样本和干扰域样本,所述训练样本为音乐文件;
初始生成模块,用于将所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,获取生成器,所述生成器包括正向生成器和反向生成器;
初始鉴别模块,用于随机生成噪声样本,将所述噪声样本、所述起始域样本和所述目标域样本输入到所述音乐风格迁移模型中,生成鉴别器,所述鉴别器包括目标域鉴别器;
正向生成模块,用于将所述起始域样本输入到所述正向生成器中,得到目标域伪样本;
目标损失模块,用于将所述目标域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取正向生成损失和目标域对比损失;
正向重建模块,用于将所述目标域伪样本输入到所述反向生成器中,得到起始域重建样本;
正向重建损失模块,用于计算所述起始域样本和所述起始域重建样本的起始域重建损失;
目标域鉴别损失模块,用于将所述干扰域样本和所述目标域伪样本输入到所述目标域鉴别器中,获取目标域鉴别损失;
正向训练模块,用于利用梯度下降法,通过所述正向生成损失、所述目标域对比损失、所述起始域重建损失和所述目标域鉴别损失训练所述正向生成器和所述目标域鉴别器。
8.一种音乐风格迁移装置,其特征在于,包括:
获取模块,用于获取待处理音乐文件;
迁移模块,用于通过如权利要求1至5任一项所述的方法训练得到的音乐风格迁移模型对所述待处理音乐文件进行风格迁移,得到目标音乐文件。
9.一种计算机装置,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的方法。
CN202011046519.5A 2020-09-29 2020-09-29 音乐风格迁移方法、模型训练方法、装置和存储介质 Active CN112216257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011046519.5A CN112216257B (zh) 2020-09-29 2020-09-29 音乐风格迁移方法、模型训练方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011046519.5A CN112216257B (zh) 2020-09-29 2020-09-29 音乐风格迁移方法、模型训练方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112216257A CN112216257A (zh) 2021-01-12
CN112216257B true CN112216257B (zh) 2023-08-15

Family

ID=74051379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011046519.5A Active CN112216257B (zh) 2020-09-29 2020-09-29 音乐风格迁移方法、模型训练方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112216257B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096675B (zh) * 2021-03-31 2024-04-23 厦门大学 一种基于生成式对抗网络的音频风格统一的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246472A (zh) * 2019-05-09 2019-09-17 平安科技(深圳)有限公司 一种音乐风格的转换方法、装置及终端设备
CN111026970A (zh) * 2019-12-20 2020-04-17 腾讯科技(深圳)有限公司 基于人工智能的迁移模型的训练方法、装置及存储介质
JP2020112907A (ja) * 2019-01-09 2020-07-27 凸版印刷株式会社 画像スタイル変換装置、画像スタイル変換方法、及びプログラム
CN111554255A (zh) * 2020-04-21 2020-08-18 华南理工大学 基于循环神经网络的midi演奏风格自动转换系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10854180B2 (en) * 2015-09-29 2020-12-01 Amper Music, Inc. Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine
US10803347B2 (en) * 2017-12-01 2020-10-13 The University Of Chicago Image transformation with a hybrid autoencoder and generative adversarial network machine learning architecture

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020112907A (ja) * 2019-01-09 2020-07-27 凸版印刷株式会社 画像スタイル変換装置、画像スタイル変換方法、及びプログラム
CN110246472A (zh) * 2019-05-09 2019-09-17 平安科技(深圳)有限公司 一种音乐风格的转换方法、装置及终端设备
CN111026970A (zh) * 2019-12-20 2020-04-17 腾讯科技(深圳)有限公司 基于人工智能的迁移模型的训练方法、装置及存储介质
CN111554255A (zh) * 2020-04-21 2020-08-18 华南理工大学 基于循环神经网络的midi演奏风格自动转换系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金思雨等.《基于计算机图像风格迁移的音乐可视化智能设计研究》.《包装工程》.2020,第41卷(第16期),第193-198页. *

Also Published As

Publication number Publication date
CN112216257A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN107123415B (zh) 一种自动编曲方法及系统
US20180277099A1 (en) Method and device for processing speech based on artificial intelligence
US20140080606A1 (en) Methods and systems for generating a scenario of a game on the basis of a piece of music
CN111554255B (zh) 基于循环神经网络的midi演奏风格自动转换系统
JP7106902B2 (ja) 学習プログラム、学習方法および学習装置
JP6617783B2 (ja) 情報処理方法、電子機器及びプログラム
CN112216257B (zh) 音乐风格迁移方法、模型训练方法、装置和存储介质
CN107239482A (zh) 一种将图像转换为音乐的处理方法及服务器
CN107633058A (zh) 一种基于深度学习的数据动态过滤系统及其方法
KR102128153B1 (ko) 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법
CN117057414B (zh) 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统
CN113299298A (zh) 残差单元及网络及目标识别方法及系统及装置及介质
Zhao et al. Progressive learning for neuronal population reconstruction from optical microscopy images
CN110516103A (zh) 基于分类器的歌曲节奏生成方法、设备、存储介质及装置
CN110070891A (zh) 一种歌曲识别方法、装置以及存储介质
García Automatic generation of sound synthesis techniques
CN109785818A (zh) 一种基于深度学习的音乐编曲方法和系统
Shier et al. Spiegelib: An automatic synthesizer programming library
JP6350048B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP3724873B1 (en) System and method for creation and recreation of a music mix, computer program product and computer system
CN115206270A (zh) 基于循环特征提取的音乐生成模型的训练方法、训练装置
Lan et al. RaveForce: A deep reinforcement learning environment for music
Carpentier et al. An evolutionary approach to computer-aided orchestration
Zhang Analysis of Guzheng Music Style Transformation Based on Generative Adversarial Networks
Cella et al. Dynamic Computer-Aided Orchestration in Practice with Orchidea

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant