CN113806584B - 基于自监督跨模态感知损失的乐队指挥动作生成方法 - Google Patents

基于自监督跨模态感知损失的乐队指挥动作生成方法 Download PDF

Info

Publication number
CN113806584B
CN113806584B CN202111090024.7A CN202111090024A CN113806584B CN 113806584 B CN113806584 B CN 113806584B CN 202111090024 A CN202111090024 A CN 202111090024A CN 113806584 B CN113806584 B CN 113806584B
Authority
CN
China
Prior art keywords
music
loss
action
motion
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111090024.7A
Other languages
English (en)
Other versions
CN113806584A (zh
Inventor
刘凡
陈德龙
潘艳玲
周睿志
许峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202111090024.7A priority Critical patent/CN113806584B/zh
Publication of CN113806584A publication Critical patent/CN113806584A/zh
Application granted granted Critical
Publication of CN113806584B publication Critical patent/CN113806584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明涉及人工智能技术领域,公开了一种基于自监督跨模态感知损失的乐队指挥动作生成方法。该方法首先进行自监督学的音频‑动作同步性学习,自动地采样正负样本对来训练一个两分支网络模型的参数;然后,将训练好的两个分支分别用于提取语义性的音乐控制信号和计算感知损失,再使用判别器计算对抗损失,根据输出动作标准差大小确定感知损失与对抗损失的最佳权重比并训练模型;最后,将测试音频输入至模型中,生成与音乐同步的指挥动作序列并可视化。本发明的重要意义在于使用了跨模态的自监督学习任务作为感知损失网络的预训练任务,可以避免了传统回归损失过度平滑的问题,从而生成自然、美观、多样、且与音乐高度同步的指挥动作。

Description

基于自监督跨模态感知损失的乐队指挥动作生成方法
技术领域
本发明基于自监督跨模态感知损失的乐队指挥动作生成方法涉及乐队指挥动作生成方法,特别是涉及以音乐为条件控制信号、生成与之节奏同步且语义相关的指挥动作的乐队指挥动作生成方法,属于人体动作条件生成领域。
背景技术
指挥是交响乐团的灵魂。自中世纪欧洲教堂唱诗班到二十一世纪的现代音乐,指挥技术与艺术不断发展,已经成为一门内容丰富的学科。指挥的肢体语言复杂多变,需要在乐团演奏时实时地传达节拍、力度、情感、演奏法等多种信息,且同时保持一定的风格与美感。近年来,随着深度学习算法理论的发展与计算性能的飞速提升,人工智能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多种人类艺术形式。
然而,学界对于指挥艺术的建模研究还比较初步,且主要面向判别类的任务,例如节拍跟踪、拍式识别、演奏法识别、情感识别等。对于生成式任务,即音乐驱动的指挥动作生成任务,Wang等人(T.Wang,N.Zheng,Y.Li,Y.-Q.Xu,and H.-Y.Shum,“Learning kernel-based HMMs for dynamic sequence synthesis,”Graph.Model.,vol.65,no.4,Art.no.4,2003.)在2003年提出了首个指挥动作生成方法。随后,几种基于规则的生成方法陆续被提出,但这些方法无法灵活地学习真实指挥动作的内在规律,导致生成动作重复性强,多样性差。Dansereau等人(D.G.Dansereau,N.Brock,and J.R.Cooperstock,“Predicting anOrchestral Conductor’s Baton Movements Using Machine Learning,”Comput.Music.J.,vol.37,no.2,Art.no.2,2013.)在2013年提出了一种基于机器学习的指挥动作预测方法以应对云合奏中的网络延迟问题,但该方法仅能向前预测很短的时间,目前,尚没有基于深度学习的指挥动作生成方法被提出。
感知损失于2016年被Johnson等人提出(J.Johnson,A.Alahi,and L.Fei-Fei,“Perceptual Losses for Real-Time Style Transfer and Super-Resolution,”inComputer Vision–ECCV 2016,Cham,2016,pp.694–711.),是面向生成任务的一种损失函数。与传统的在样本空间进行欧式距离度量的或损失不同,感知损失度量的是生成样本与真实样本在特征空间中的距离。这一特征空间是通过预训练的卷积神经网络所得到的,该网络也被称为感知损失网络。但是,现有的感知损失网络都有着各自的局限性。有学者指出,在使用传统的基于ImageNet预训练VGGNet的感知损失进行图像超分辨率时,会导致出现不自然的图像细节。类似地,面向低剂量CT去噪问题,在自然场景的图像分类数据集ImageNet上训练的网络不适合提取CT图像中的语义信息,因此,也有学者在CT数据集上训练了一个自编码器作为感知损失网络。本发明与传统的分类任务、判别任务、重建任务不同,将跨模态的自监督学习任务作为感知损失网络的预训练任务。
发明内容
本发明所要解决的技术问题是:以音乐为条件作为控制信号,如何生成与之节奏同步且语义相关的乐队指挥动作生成方法的问题。
本发明为解决上述技术问题采用以下技术方案:
一种基于自监督跨模态感知损失的乐队指挥动作生成方法,包括如下步骤:
步骤1,构建数据集,提取音乐会演出录像视频中的指挥动作,并计算对应音乐的梅尔频谱图;
步骤2,进行自监督的音乐-动作同步性学习,训练时自动地采样同步的正样本对与错位的负样本对,训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型;
步骤3,将步骤2得到的音乐编码器与动作编码器分别用于为生成器提取语义特征与计算生成动作的感知损失,使用对抗-感知损失训练生成器;
步骤4,在开发集上根据生成结果的平均标准差大小确定两项损失的最佳权重比;
步骤5,使用步骤4中得到的最佳权重比下训练的模型进行实际应用,从给定音乐中生成指挥动作并可视化。
作为本发明的一种优选方案,所述步骤1的具体过程为:
1-1、指挥动作提取,从网络视频平台中收集音乐会的指挥视角演出录像指挥动作的视频,在收集到的视频上进行基于迁移学习的指挥检测,并提取检测到的指挥的2维动作序列。
1-2、音频特征提取,提取视频中对应的梅尔频谱图。
1-3、数据集准备,将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集
Figure GDA0003823854230000031
其中
Figure GDA0003823854230000032
Figure GDA0003823854230000033
Figure GDA0003823854230000034
为时长为T的音频特征序列与指挥动作序列,xt和yt分别为第t个时间步上的p维音频特征xt∈Rp和q个关键点的2维骨架坐标yt∈R2q
作为本发明的一种优选方案,所述步骤2的具体过程为:
2-1、构建神经网络结构。使用一个基于卷积神经网络的音乐编码器Emusic(X)从梅尔频谱图中提取音乐特征,使用一个基于时空图卷积神经网络的动作编码器Emotion从指挥动作中提取动作特征Emotion(Y),将得到的两个特征拼接并输入全连接层f混合,并在最后经是sigmoid激活函数输出一个(0,1)之间的标量f[Emusic(X),Emotion(Y)]。
2-2、采样正样本对和负样本对。正样本对是同步的音乐和动作序列,负样本对是不匹配的音乐和动作序列。从同一乐曲中选取负样本,其错位距离至少为10秒。
2-3、计算交叉熵损失LCE和对比损失LCT,两个损失函数的定义如下,其中,(Xi,Yi)是从数据集D中采样得到的第i个样本对,li是该样本对的标签,当为正样本对时li=1,负样本对时li=0:
Figure GDA0003823854230000041
Figure GDA0003823854230000042
2-4、训练模型,使用交叉熵损失与对比损失之和L=LCE+LCT训练步骤2-1中构建的两分支神经网络模型,直至模型收敛。在损失函数中,交叉熵损失使网络具备预测给定样本正负的能力,对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中。在训练好的网络模型中,音乐编码器可以提取预测动作所需的语义性音乐特征,动作编码器可以提取音乐相关的动作特征。
作为本发明的一种优选方案,所述步骤3的具体过程为:
3-1、构建网络结构,构建一个带有四个模块的网络结构,包括生成器G,判别器D,以及步骤2中构建的两分支网络中的音乐编码器Emusic与动作编码器Emotion。其中,音乐编码器Emusic为生成器提供音乐的语义特征,生成器根据音乐特征生成指挥动作结果,并使生成样本的分布PG同时趋向于真实动作分布PG→Pdata以及动作关于音乐的条件分布PG→Pc;判别器D的任务是判断生成指挥动作序列的真实程度,并为生成器提供梯度,以使PG→Pdata;动作编码器Emotion作为感知损失网络计算感知使PG→Pc
3-2、初始化网络参数,对生成器G与判别器D进行随机初始化,将步骤2中训练好的两分支网络的参数迁移至音乐编码器Emusic与动作编码器Emotion
3-3、计算对抗-感知损失函数,对抗-感知损失函数包括一项对抗损失与一项感知损失,其具体定义如下,其中,<Emotion(Yi)>k是Emotion从动作序列Yi上提取到的第k层特征,而ωk是对应于第k层的权重。λper,λadv分别为感知损失与对抗损失的权重:
Figure GDA0003823854230000051
3-4、计算判别器的损失函数。其定义如下,其中,第二项为梯度惩罚(GradientPenalty,GP)项,ωGp是该项的权重。
Figure GDA0003823854230000052
是在PG与Pdata之间随机插值采样得到的动作序列,用于在pG与pdata之间施加Lipschitz限制:
Figure GDA0003823854230000053
3-5、训练模型,固定Emusic与Emotion的参数不动,使用LG与LD轮流训练生成器与判别器,直至模型收敛。
作为本发明的一种优选方案,所述步骤4的具体过程为:
4-1、使用不同的权重比λperadv训练步骤3中的生成器。例如,固定λadv=1,分别使用λper={0.001,0.01,0.1,1,10,100}训练模型表现。
4-2、在开发集上测试不同权重比λperadv下训练的生成器,计算生成动作的标准差。
4-3、绘制权重比-标准差曲线,找到生成动作标准差恰好升至真实动作标准差时的权重比,确定为最佳权重比。
作为本发明的一种优选方案,所述步骤5的具体过程为:
5-1、模型测试,使用步骤5中确定的最佳权重比训练步骤4中的生成器G,得到生成器G的参数,将音频特征序列输入至生成器G,得到预测的指挥动作序列。
5-2、可视化,将生成的指挥动作序列可视化,作为本发明的最终输出结果。
本发明采用以上技术方案与现有的基于规则的生成方法相比,具有以下技术效果:
1、本发明可以学习音乐与指挥动作之间的内在的高层的语义性关联,从而生成更加自然、美观、多样、且与音乐同步的指挥动作;
2、本发明提出的自监督跨模态感知损失,可以为生成器提供合理有效的音乐同步性监督信息,从而避免了传统回归损失过度平滑(over-smooth)的缺点;
3、本发明将经过跨模态自监督学习的音乐编码器用作为生成器提供语义特征,可以有效的加快生成器的收敛速度。
附图说明
图1是本发明基于自监督跨模态感知损失的乐队指挥动作生成方法的算法流程图。
图2是本发明中步骤2与步骤3中设计的网络结构图。
图3是本发明的最终可视化输出效果图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
近年来,有许多学者意识到互联网中广泛存在的多模态数据的巨大价值,并提出了许多跨模态的自监督学习方法。与单模态自监督学习不同,跨模态的自监督学习中两个模态的特征表示互相指导对方的学习,能从数据中挖掘到更丰富的信息。感知损失于2016年被Johnson等人提出,是面向生成任务的一种损失函数。与传统的在样本空间进行欧式距离度量的或损失不同,感知损失度量的是生成样本与真实样本在特征空间中的距离。这一特征空间是通过预训练的卷积神经网络所得到的,该网络也被称为感知损失网络(perceptuallossnetwork)。但是,现有的感知损失网络都有着各自的局限性。因此,有必要探寻一种新的感知损失网络预训练方式,提取高质量的特征以完成准确的监督约束。基于这一想法,本发明提出一种基于自监督跨模态感知损失的乐队指挥动作生成方法。
结合图1所示,本发明基于自监督跨模态感知损失的乐队指挥动作生成方法,包括以下步骤:
步骤1,构建数据集,提取音乐会演出录像视频中的指挥动作,并计算对应音乐的梅尔频谱图;
步骤2,进行自监督的音乐-动作同步性学习,训练时自动地采样同步的正样本对与错位的负样本对,训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型;
步骤3,将步骤2得到的音乐编码器与动作编码器分别用于为生成器提取语义特征与计算生成动作的感知损失,使用对抗-感知损失训练生成器;
步骤4,在开发集上根据生成结果的平均标准差大小确定两项损失的最佳权重比;
步骤5,使用步骤4中得到的最佳权重比下训练的模型进行实际应用,从给定音乐中生成指挥动作并可视化。
1-1、指挥动作提取。从网络视频平台中收集音乐会的指挥视角演出录像指挥动作的视频,在收集到的视频上进行基于迁移学习的指挥检测,并提取检测到的指挥的2维动作序列。
1-2、音频特征提取。提取视频中对应的梅尔频谱图。
1-3、数据集准备。将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集
Figure GDA0003823854230000081
其中
Figure GDA0003823854230000082
Figure GDA0003823854230000083
Figure GDA0003823854230000084
为时长为T的音频特征序列与指挥动作序列,xt和yt分别为第t个时间步上的p维音频特征xt∈Rp和q个关键点的2维骨架坐标yt∈R2q
2-1、构建神经网络结构。结合图2所示,使用一个基于卷积神经网络的音乐编码器Emusic(X)从梅尔频谱图中提取音乐特征,使用一个基于时空图卷积神经网络的动作编码器Emotion从指挥动作中提取动作特征Emotion(Y),将得到的两个特征拼接并输入全连接层f混合,并在最后经是sigmoid激活函数输出一个(0,1)之间的标量f[Emusic(X),Emotion(Y)]。
2-2、采样正样本对和负样本对。正样本对是同步的音乐和动作序列,负样本对是不匹配的音乐和动作序列。从同一乐曲中选取负样本,其错位距离至少为10秒。
2-3、计算交叉熵损失LCE和对比损失LCY。两个损失函数的定义如下,其中,(Xi,Yi)是从数据集D中采样得到的第i个样本对,li是该样本对的标签,当为正样本对时li=1,负样本对时li=0:
Figure GDA0003823854230000091
Figure GDA0003823854230000092
2-4、训练模型。使用交叉熵损失与对比损失之和L=LCE+LCT训练步骤2.1中构建的两分支神经网络模型,直至模型收敛。在损失函数中,交叉熵损失使网络具备预测给定样本正负的能力,对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中。在训练好的网络模型中,音乐编码器可以提取预测动作所需的语义性音乐特征,动作编码器可以提取音乐相关的动作特征。
3-1、构建网络结构。结合图2所示,构建一个带有四个模块的网络结构,包括生成器G,判别器D,以及步骤2中构建的两分支网络中的音乐编码器Emusic与动作编码器Emotion。其中,音乐编码器Emusic为生成器提供音乐的语义特征,生成器根据音乐特征生成指挥动作结果,并使生成样本的分布PG同时趋向于真实动作分布PG→Pdata以及动作关于音乐的条件分布PG→Pc。判别器D的任务是判断生成指挥动作序列的真实程度,并为生成器提供梯度,以使PG→Pdata。动作编码器Emotion作为感知损失网络计算感知使PG→Pc
3-2、初始化网络参数。对生成器G与判别器D进行随机初始化,结合图2所示,将步骤2中训练好的两分支网络的参数迁移至音乐编码器Emusic与动作编码器Emotion
3-3、计算对抗-感知损失函数。对抗-感知损失函数包括一项对抗损失与一项感知损失,其具体定义如下,其中,<Emotion(Yi)>k是Emotion从动作序列Yi上提取到的第k层特征,而ωk是对应于第k层的权重。λper,λadv分别为感知损失与对抗损失的权重:
Figure GDA0003823854230000101
3-4、计算判别器的损失函数。其定义如下,其中,第二项为梯度惩罚(GradientPenalty,GP)项,ωGP是该项的权重。
Figure GDA0003823854230000102
是在PG与Pdata之间随机插值采样得到的动作序列,用于在PG与Pdata之间施加Lipschitz限制:
Figure GDA0003823854230000103
3-5、训练模型。固定Emusic与Emotion的参数不动,使用LG与LD轮流训练生成器与判别器,直至模型收敛。
4-1、使用不同的权重比λperadv训练步骤3中的生成器。例如,固定λadv=1,分别使用λper={0.001,0.01,0.1,1,10,100}训练模型表现。
4-2、在开发集上测试不同权重比λperadv下训练的生成器,计算生成动作的标准差。
4-3、绘制权重比-标准差曲线,找到生成动作标准差恰好升至真实动作标准差时的权重比,确定为最佳权重比。
5-1、模型测试。使用步骤5中确定的最佳权重比训练步骤4中的生成器G,得到生成器G的参数,将音频特征序列输入至生成器G,得到预测的指挥动作序列。
5-2、可视化。结合图3所示,将生成的指挥动作序列可视化,作为本发明的最终输出结果。与现有的基于规则的生成方法相比,本发明专利生成的方法更加灵活,多样,美观。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (4)

1.一种基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,该方法包括如下步骤:
步骤1,提取音乐会演出录像视频中的指挥动作,并计算对应音乐的梅尔频谱图,构建含有N个音乐-动作样本对的数据集
Figure FDA0003823854220000011
其中Xi和Yi分别表示第i个样本的音乐数据和动作数据;
步骤2,进行自监督的音乐-动作同步性学习,训练时自动地采样同步的正样本对与错位的负样本对,训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型;所述步骤2的具体过程为:
2-1、构建神经网络结构;使用一个基于卷积神经网络的音乐编码器Emusic从梅尔频谱图中提取音乐特征Emusic(X),使用一个基于时空图卷积神经网络的动作编码器Emotion从指挥动作中提取动作特征Emotion(Y),将得到的两个特征拼接并输入全连接层f混合,并在最后经由sigmoid激活函数输出一个(0,1)之间的标量f[Emusic(X),Emotion(Y)];
2-2、采样正样本对和负样本对;正样本对是同步的音乐和动作序列,负样本对是不匹配的音乐和动作序列;从同一乐曲中选取负样本,其错位距离至少为10秒;
2-3、计算交叉熵损失LCE和对比损失LCT,两个损失函数的定义如下,其中,(Xi,Yi)是从数据集D中采样得到的第i个样本对,li是该样本对的标签,当为正样本对时li=1,负样本对时li=0:
Figure FDA0003823854220000012
Figure FDA0003823854220000013
Figure FDA0003823854220000021
2-4、训练模型,使用交叉熵损失与对比损失之和L=LCE+LCT训练步骤2-1中构建的两分支神经网络模型,直至模型收敛;在损失函数中,交叉熵损失使网络具备预测给定样本正负的能力,对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中;在训练好的网络模型中,音乐编码器可以提取预测动作所需的语义性音乐特征,动作编码器可以提取音乐相关的动作特征;
步骤3,构建一个生成器G和一个判别器D,使用对抗神经网络与步骤2得到的动作编码器分别计算对抗损失与生成动作的感知损失,再对感知损失和对抗损失加权,然后将加权后的两项损失相加,作为生成器G训练过程中的损失函数;计算判别器D的损失函数;利用生成器G和判别器D各自的损失函数轮流训练生成器G和判别器D,直至模型收敛;
步骤4,在开发集上根据生成结果的标准差大小确定感知损失和对抗损失的最佳权重比;
所述步骤4的具体过程为:
4-1、使用不同的权重比λperadv训练步骤3中的生成器;
4-2、在开发集上测试不同权重比λperadv下训练的生成器,计算生成动作的标准差;
4-3、绘制权重比-标准差曲线,找到生成动作标准差恰好升至真实动作标准差时的权重比,确定为最佳权重比;
λper,λadv分别为感知损失与对抗损失的权重;
步骤5,使用步骤4中得到的最佳权重比下训练的模型进行实际应用,从给定音乐中生成指挥动作并可视化。
2.根据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,所述步骤1的具体过程为:
1-1、指挥动作提取,从网络视频平台中收集乐团指挥的演出视频,在收集到的视频上进行基于迁移学习的指挥检测,并提取检测到的指挥的2维动作序列;
1-2、音频特征提取,提取视频中对应的梅尔频谱图;
1-3、数据集准备,将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集
Figure FDA0003823854220000031
其中
Figure FDA0003823854220000032
Figure FDA0003823854220000033
为时长为T的音频特征序列与指挥动作序列,xt和yt分别为第t个时间步上的p维音频特征xt∈Rp和q个关键点的2维骨架坐标yt∈R2q
3.据权利要求2所述的基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,所述步骤3的具体过程为:
3-1、构建网络结构,构建一个带有四个模块的网络结构,包括生成器G,判别器D,以及步骤2中构建的两分支网络中的音乐编码器Emusic与动作编码器Emotion;其中,音乐编码器Emusic为生成器提供音乐的语义特征,生成器根据音乐特征生成指挥动作结果,并使生成样本的分布PG同时趋向于真实动作分布PG→Pdata以及动作关于音乐的条件分布PG→Pc;判别器D的任务是判断生成指挥动作序列的真实程度,并为生成器提供梯度,以使PG→Pdata;动作编码器Emotion作为感知损失网络计算感知使PG→Pc
3-2、初始化网络参数,对生成器G与判别器D进行随机初始化,将步骤2中训练好的两分支网络的参数迁移至音乐编码器Emusic与动作编码器Emotion
3-3、计算对抗-感知损失函数,对抗-感知损失函数包括一项对抗损失与一项感知损失,其具体定义如下,其中,<Emotion(Yi)>k是Emotion从动作序列Yi上提取到的第k层特征,而ωk是对应于第k层的权重;λper和λadv分别为感知损失与对抗损失的权重:
Figure FDA0003823854220000041
3-4、计算判别器的损失函数;其定义如下,其中,第二项为梯度惩罚(GradientPenalty,GP)项,ωGP是该项的权重;
Figure FDA0003823854220000042
是在PG与Pdata之间随机插值采样得到的动作序列,用于在PG与Pdata之间施加Lipschitz限制:
Figure FDA0003823854220000043
3-5、训练模型,固定Emusic与Emotion的参数不动,使用LG与LD轮流训练生成器与判别器,直至模型收敛。
4.根据权利要求3所述的基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,所述步骤5的具体过程为:
5-1、模型测试,使用步骤5中确定的最佳权重比训练步骤4中的生成器G,得到生成器G的参数,将音频特征序列输入至生成器G,得到预测的指挥动作序列;
5-2、可视化,将生成的指挥动作序列可视化,作为最终输出结果。
CN202111090024.7A 2021-09-17 2021-09-17 基于自监督跨模态感知损失的乐队指挥动作生成方法 Active CN113806584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090024.7A CN113806584B (zh) 2021-09-17 2021-09-17 基于自监督跨模态感知损失的乐队指挥动作生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090024.7A CN113806584B (zh) 2021-09-17 2021-09-17 基于自监督跨模态感知损失的乐队指挥动作生成方法

Publications (2)

Publication Number Publication Date
CN113806584A CN113806584A (zh) 2021-12-17
CN113806584B true CN113806584B (zh) 2022-10-14

Family

ID=78895663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090024.7A Active CN113806584B (zh) 2021-09-17 2021-09-17 基于自监督跨模态感知损失的乐队指挥动作生成方法

Country Status (1)

Country Link
CN (1) CN113806584B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912500B (zh) * 2016-03-30 2017-11-14 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN109902780A (zh) * 2019-02-14 2019-06-18 广州番禺职业技术学院 基于多模态人脸识别的人证合一核验终端和系统及方法
US11501787B2 (en) * 2019-08-22 2022-11-15 Google Llc Self-supervised audio representation learning for mobile devices
AU2019101145A4 (en) * 2019-09-30 2019-10-31 Kaplan, Umit Emrah MR Method for determining ore grade using artificial neural network in a reserve estimation
CN111476294B (zh) * 2020-04-07 2022-03-22 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统

Also Published As

Publication number Publication date
CN113806584A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN101187990A (zh) 一种会话机器人系统
CN108596149A (zh) 基于条件对抗生成网络的运动序列生成方法
Bozkurt et al. Multimodal analysis of speech and arm motion for prosody-driven synthesis of beat gestures
CN110457661A (zh) 自然语言生成方法、装置、设备及存储介质
Xu Recognition and classification model of music genres and Chinese traditional musical instruments based on deep neural networks
Gong et al. A deep music recommendation method based on human motion analysis
Liu An improved particle swarm optimization-powered adaptive classification and migration visualization for music style
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及系统
Zhang et al. A survey on multimodal-guided visual content synthesis
Zeng et al. Expression-tailored talking face generation with adaptive cross-modal weighting
CN114170353A (zh) 一种基于神经网络的多条件控制的舞蹈生成方法及系统
CN117316129A (zh) 一种基于多模态特征融合的音乐生成舞蹈姿态的方法、设备及存储介质
CN113806584B (zh) 基于自监督跨模态感知损失的乐队指挥动作生成方法
Liu et al. Self-supervised music motion synchronization learning for music-driven conducting motion generation
Cai et al. An Automatic Music-Driven Folk Dance Movements Generation Method Based on Sequence-To-Sequence Network
CN114528762A (zh) 一种模型训练方法、装置、设备和存储介质
Zhang et al. Realistic Speech-Driven Talking Video Generation with Personalized Pose
Hu et al. The Psychological Education Strategy of Music Generation and Creation by Generative Confrontation Network under Deep Learning
CN113793582B (zh) 基于动态频域分解的音乐驱动的指挥动作生成方法
Wang Intelligent auxiliary system for music performance under edge computing and long short-term recurrent neural networks
Yuan et al. Research on the Evaluation Model of Dance Movement Recognition and Automatic Generation Based on Long Short-Term Memory
Jacob et al. Generation of genre-based dance sequences using Deep Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant