CN113806584B

CN113806584B - 基于自监督跨模态感知损失的乐队指挥动作生成方法

Info

Publication number: CN113806584B
Application number: CN202111090024.7A
Authority: CN
Inventors: 刘凡; 陈德龙; 潘艳玲; 周睿志; 许峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-10-14
Anticipated expiration: 2041-09-17
Also published as: CN113806584A

Abstract

本发明涉及人工智能技术领域，公开了一种基于自监督跨模态感知损失的乐队指挥动作生成方法。该方法首先进行自监督学的音频‑动作同步性学习，自动地采样正负样本对来训练一个两分支网络模型的参数；然后，将训练好的两个分支分别用于提取语义性的音乐控制信号和计算感知损失，再使用判别器计算对抗损失，根据输出动作标准差大小确定感知损失与对抗损失的最佳权重比并训练模型；最后，将测试音频输入至模型中，生成与音乐同步的指挥动作序列并可视化。本发明的重要意义在于使用了跨模态的自监督学习任务作为感知损失网络的预训练任务，可以避免了传统回归损失过度平滑的问题，从而生成自然、美观、多样、且与音乐高度同步的指挥动作。

Description

基于自监督跨模态感知损失的乐队指挥动作生成方法

技术领域

本发明基于自监督跨模态感知损失的乐队指挥动作生成方法涉及乐队指挥动作生成方法，特别是涉及以音乐为条件控制信号、生成与之节奏同步且语义相关的指挥动作的乐队指挥动作生成方法，属于人体动作条件生成领域。

背景技术

指挥是交响乐团的灵魂。自中世纪欧洲教堂唱诗班到二十一世纪的现代音乐，指挥技术与艺术不断发展，已经成为一门内容丰富的学科。指挥的肢体语言复杂多变，需要在乐团演奏时实时地传达节拍、力度、情感、演奏法等多种信息，且同时保持一定的风格与美感。近年来,随着深度学习算法理论的发展与计算性能的飞速提升，人工智能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多种人类艺术形式。

然而，学界对于指挥艺术的建模研究还比较初步，且主要面向判别类的任务，例如节拍跟踪、拍式识别、演奏法识别、情感识别等。对于生成式任务，即音乐驱动的指挥动作生成任务，Wang等人(T.Wang,N.Zheng,Y.Li,Y.-Q.Xu,and H.-Y.Shum,“Learning kernel-based HMMs for dynamic sequence synthesis,”Graph.Model.,vol.65,no.4,Art.no.4,2003.)在2003年提出了首个指挥动作生成方法。随后，几种基于规则的生成方法陆续被提出，但这些方法无法灵活地学习真实指挥动作的内在规律，导致生成动作重复性强，多样性差。Dansereau等人(D.G.Dansereau,N.Brock,and J.R.Cooperstock,“Predicting anOrchestral Conductor’s Baton Movements Using Machine Learning,”Comput.Music.J.,vol.37,no.2,Art.no.2,2013.)在2013年提出了一种基于机器学习的指挥动作预测方法以应对云合奏中的网络延迟问题，但该方法仅能向前预测很短的时间，目前，尚没有基于深度学习的指挥动作生成方法被提出。

感知损失于2016年被Johnson等人提出(J.Johnson,A.Alahi,and L.Fei-Fei,“Perceptual Losses for Real-Time Style Transfer and Super-Resolution,”inComputer Vision–ECCV 2016,Cham,2016,pp.694–711.)，是面向生成任务的一种损失函数。与传统的在样本空间进行欧式距离度量的或损失不同，感知损失度量的是生成样本与真实样本在特征空间中的距离。这一特征空间是通过预训练的卷积神经网络所得到的，该网络也被称为感知损失网络。但是，现有的感知损失网络都有着各自的局限性。有学者指出，在使用传统的基于ImageNet预训练VGGNet的感知损失进行图像超分辨率时，会导致出现不自然的图像细节。类似地，面向低剂量CT去噪问题，在自然场景的图像分类数据集ImageNet上训练的网络不适合提取CT图像中的语义信息，因此，也有学者在CT数据集上训练了一个自编码器作为感知损失网络。本发明与传统的分类任务、判别任务、重建任务不同，将跨模态的自监督学习任务作为感知损失网络的预训练任务。

发明内容

本发明所要解决的技术问题是：以音乐为条件作为控制信号，如何生成与之节奏同步且语义相关的乐队指挥动作生成方法的问题。

本发明为解决上述技术问题采用以下技术方案：

一种基于自监督跨模态感知损失的乐队指挥动作生成方法，包括如下步骤：

步骤1，构建数据集，提取音乐会演出录像视频中的指挥动作，并计算对应音乐的梅尔频谱图；

步骤2，进行自监督的音乐-动作同步性学习，训练时自动地采样同步的正样本对与错位的负样本对，训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型；

步骤3，将步骤2得到的音乐编码器与动作编码器分别用于为生成器提取语义特征与计算生成动作的感知损失，使用对抗-感知损失训练生成器；

步骤4，在开发集上根据生成结果的平均标准差大小确定两项损失的最佳权重比；

步骤5，使用步骤4中得到的最佳权重比下训练的模型进行实际应用，从给定音乐中生成指挥动作并可视化。

作为本发明的一种优选方案，所述步骤1的具体过程为：

1-1、指挥动作提取，从网络视频平台中收集音乐会的指挥视角演出录像指挥动作的视频，在收集到的视频上进行基于迁移学习的指挥检测，并提取检测到的指挥的2维动作序列。

1-2、音频特征提取，提取视频中对应的梅尔频谱图。

1-3、数据集准备，将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集

其中

与

为时长为T的音频特征序列与指挥动作序列，x_t和y_t分别为第t个时间步上的p维音频特征x_t∈R^p和q个关键点的2维骨架坐标y_t∈R^2q。

作为本发明的一种优选方案，所述步骤2的具体过程为：

2-1、构建神经网络结构。使用一个基于卷积神经网络的音乐编码器E_music(X)从梅尔频谱图中提取音乐特征，使用一个基于时空图卷积神经网络的动作编码器E_motion从指挥动作中提取动作特征E_motion(Y)，将得到的两个特征拼接并输入全连接层f混合，并在最后经是sigmoid激活函数输出一个(0,1)之间的标量f[E_music(X),E_motion(Y)]。

2-2、采样正样本对和负样本对。正样本对是同步的音乐和动作序列，负样本对是不匹配的音乐和动作序列。从同一乐曲中选取负样本，其错位距离至少为10秒。

2-3、计算交叉熵损失L_CE和对比损失L_CT，两个损失函数的定义如下，其中，(X_i,Y_i)是从数据集D中采样得到的第i个样本对，l_i是该样本对的标签，当为正样本对时l_i＝1，负样本对时l_i＝0：

2-4、训练模型，使用交叉熵损失与对比损失之和L＝L_CE+L_CT训练步骤2-1中构建的两分支神经网络模型，直至模型收敛。在损失函数中，交叉熵损失使网络具备预测给定样本正负的能力，对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中。在训练好的网络模型中，音乐编码器可以提取预测动作所需的语义性音乐特征，动作编码器可以提取音乐相关的动作特征。

作为本发明的一种优选方案，所述步骤3的具体过程为：

3-1、构建网络结构，构建一个带有四个模块的网络结构，包括生成器G，判别器D，以及步骤2中构建的两分支网络中的音乐编码器E_music与动作编码器E_motion。其中，音乐编码器E_music为生成器提供音乐的语义特征，生成器根据音乐特征生成指挥动作结果，并使生成样本的分布P_G同时趋向于真实动作分布P_G→P_data以及动作关于音乐的条件分布P_G→P_c；判别器D的任务是判断生成指挥动作序列的真实程度，并为生成器提供梯度，以使P_G→P_data；动作编码器E_motion作为感知损失网络计算感知使P_G→P_c。

3-2、初始化网络参数，对生成器G与判别器D进行随机初始化，将步骤2中训练好的两分支网络的参数迁移至音乐编码器E_music与动作编码器E_motion。

3-3、计算对抗-感知损失函数，对抗-感知损失函数包括一项对抗损失与一项感知损失，其具体定义如下，其中，<E_motion(Y_i)>_k是E_motion从动作序列Y_i上提取到的第k层特征，而ω_k是对应于第k层的权重。λ_per，λ_adv分别为感知损失与对抗损失的权重：

3-4、计算判别器的损失函数。其定义如下，其中，第二项为梯度惩罚(GradientPenalty,GP)项，ω_Gp是该项的权重。

是在P_G与P_data之间随机插值采样得到的动作序列，用于在p_G与p_data之间施加Lipschitz限制：

3-5、训练模型，固定E_music与E_motion的参数不动，使用L_G与L_D轮流训练生成器与判别器，直至模型收敛。

作为本发明的一种优选方案，所述步骤4的具体过程为：

4-1、使用不同的权重比λ_per/λ_adv训练步骤3中的生成器。例如，固定λ_adv＝1，分别使用λ_per＝{0.001,0.01,0.1,1,10,100}训练模型表现。

4-2、在开发集上测试不同权重比λ_per/λ_adv下训练的生成器，计算生成动作的标准差。

4-3、绘制权重比-标准差曲线，找到生成动作标准差恰好升至真实动作标准差时的权重比，确定为最佳权重比。

作为本发明的一种优选方案，所述步骤5的具体过程为：

5-1、模型测试，使用步骤5中确定的最佳权重比训练步骤4中的生成器G，得到生成器G的参数，将音频特征序列输入至生成器G，得到预测的指挥动作序列。

5-2、可视化，将生成的指挥动作序列可视化，作为本发明的最终输出结果。

本发明采用以上技术方案与现有的基于规则的生成方法相比，具有以下技术效果：

1、本发明可以学习音乐与指挥动作之间的内在的高层的语义性关联，从而生成更加自然、美观、多样、且与音乐同步的指挥动作；

2、本发明提出的自监督跨模态感知损失，可以为生成器提供合理有效的音乐同步性监督信息，从而避免了传统回归损失过度平滑(over-smooth)的缺点；

3、本发明将经过跨模态自监督学习的音乐编码器用作为生成器提供语义特征，可以有效的加快生成器的收敛速度。

附图说明

图1是本发明基于自监督跨模态感知损失的乐队指挥动作生成方法的算法流程图。

图2是本发明中步骤2与步骤3中设计的网络结构图。

图3是本发明的最终可视化输出效果图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

近年来，有许多学者意识到互联网中广泛存在的多模态数据的巨大价值，并提出了许多跨模态的自监督学习方法。与单模态自监督学习不同，跨模态的自监督学习中两个模态的特征表示互相指导对方的学习，能从数据中挖掘到更丰富的信息。感知损失于2016年被Johnson等人提出，是面向生成任务的一种损失函数。与传统的在样本空间进行欧式距离度量的或损失不同，感知损失度量的是生成样本与真实样本在特征空间中的距离。这一特征空间是通过预训练的卷积神经网络所得到的，该网络也被称为感知损失网络(perceptuallossnetwork)。但是，现有的感知损失网络都有着各自的局限性。因此，有必要探寻一种新的感知损失网络预训练方式，提取高质量的特征以完成准确的监督约束。基于这一想法，本发明提出一种基于自监督跨模态感知损失的乐队指挥动作生成方法。

结合图1所示，本发明基于自监督跨模态感知损失的乐队指挥动作生成方法，包括以下步骤：

1-1、指挥动作提取。从网络视频平台中收集音乐会的指挥视角演出录像指挥动作的视频，在收集到的视频上进行基于迁移学习的指挥检测，并提取检测到的指挥的2维动作序列。

1-2、音频特征提取。提取视频中对应的梅尔频谱图。

1-3、数据集准备。将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集

其中

与

2-1、构建神经网络结构。结合图2所示，使用一个基于卷积神经网络的音乐编码器E_music(X)从梅尔频谱图中提取音乐特征，使用一个基于时空图卷积神经网络的动作编码器E_motion从指挥动作中提取动作特征E_motion(Y)，将得到的两个特征拼接并输入全连接层f混合，并在最后经是sigmoid激活函数输出一个(0,1)之间的标量f[E_music(X),E_motion(Y)]。

2-3、计算交叉熵损失L_CE和对比损失L_CY。两个损失函数的定义如下，其中，(X_i,Y_i)是从数据集D中采样得到的第i个样本对，l_i是该样本对的标签，当为正样本对时l_i＝1，负样本对时l_i＝0：

2-4、训练模型。使用交叉熵损失与对比损失之和L＝L_CE+L_CT训练步骤2.1中构建的两分支神经网络模型，直至模型收敛。在损失函数中，交叉熵损失使网络具备预测给定样本正负的能力，对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中。在训练好的网络模型中，音乐编码器可以提取预测动作所需的语义性音乐特征，动作编码器可以提取音乐相关的动作特征。

3-1、构建网络结构。结合图2所示，构建一个带有四个模块的网络结构，包括生成器G，判别器D，以及步骤2中构建的两分支网络中的音乐编码器E_music与动作编码器E_motion。其中，音乐编码器E_music为生成器提供音乐的语义特征，生成器根据音乐特征生成指挥动作结果，并使生成样本的分布P_G同时趋向于真实动作分布P_G→P_data以及动作关于音乐的条件分布P_G→P_c。判别器D的任务是判断生成指挥动作序列的真实程度，并为生成器提供梯度，以使P_G→P_data。动作编码器E_motion作为感知损失网络计算感知使P_G→P_c。

3-2、初始化网络参数。对生成器G与判别器D进行随机初始化，结合图2所示，将步骤2中训练好的两分支网络的参数迁移至音乐编码器E_music与动作编码器E_motion。

3-3、计算对抗-感知损失函数。对抗-感知损失函数包括一项对抗损失与一项感知损失，其具体定义如下，其中，<E_motion(Y_i)>_k是E_motion从动作序列Y_i上提取到的第k层特征，而ω_k是对应于第k层的权重。λ_per，λ_adv分别为感知损失与对抗损失的权重：

3-5、训练模型。固定E_music与E_motion的参数不动，使用L_G与L_D轮流训练生成器与判别器，直至模型收敛。

5-1、模型测试。使用步骤5中确定的最佳权重比训练步骤4中的生成器G，得到生成器G的参数，将音频特征序列输入至生成器G，得到预测的指挥动作序列。

5-2、可视化。结合图3所示，将生成的指挥动作序列可视化，作为本发明的最终输出结果。与现有的基于规则的生成方法相比，本发明专利生成的方法更加灵活，多样，美观。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，该方法包括如下步骤：

步骤1，提取音乐会演出录像视频中的指挥动作，并计算对应音乐的梅尔频谱图，构建含有N个音乐-动作样本对的数据集

其中X_i和Y_i分别表示第i个样本的音乐数据和动作数据；

步骤2，进行自监督的音乐-动作同步性学习，训练时自动地采样同步的正样本对与错位的负样本对，训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型；所述步骤2的具体过程为：

2-1、构建神经网络结构；使用一个基于卷积神经网络的音乐编码器E_music从梅尔频谱图中提取音乐特征E_music(X)，使用一个基于时空图卷积神经网络的动作编码器E_motion从指挥动作中提取动作特征E_motion(Y)，将得到的两个特征拼接并输入全连接层f混合，并在最后经由sigmoid激活函数输出一个(0，1)之间的标量f[E_music(X)，E_motion(Y)]；

2-2、采样正样本对和负样本对；正样本对是同步的音乐和动作序列，负样本对是不匹配的音乐和动作序列；从同一乐曲中选取负样本，其错位距离至少为10秒；

2-3、计算交叉熵损失L_CE和对比损失L_CT，两个损失函数的定义如下，其中，(X_i，Y_i)是从数据集D中采样得到的第i个样本对，l_i是该样本对的标签，当为正样本对时l_i＝1，负样本对时l_i＝0：

2-4、训练模型，使用交叉熵损失与对比损失之和L＝L_CE+L_CT训练步骤2-1中构建的两分支神经网络模型，直至模型收敛；在损失函数中，交叉熵损失使网络具备预测给定样本正负的能力，对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中；在训练好的网络模型中，音乐编码器可以提取预测动作所需的语义性音乐特征，动作编码器可以提取音乐相关的动作特征；

步骤3，构建一个生成器G和一个判别器D，使用对抗神经网络与步骤2得到的动作编码器分别计算对抗损失与生成动作的感知损失，再对感知损失和对抗损失加权，然后将加权后的两项损失相加，作为生成器G训练过程中的损失函数；计算判别器D的损失函数；利用生成器G和判别器D各自的损失函数轮流训练生成器G和判别器D，直至模型收敛；

步骤4，在开发集上根据生成结果的标准差大小确定感知损失和对抗损失的最佳权重比；

所述步骤4的具体过程为：

4-1、使用不同的权重比λ_per/λ_adv训练步骤3中的生成器；

4-2、在开发集上测试不同权重比λ_per/λ_adv下训练的生成器，计算生成动作的标准差；

4-3、绘制权重比-标准差曲线，找到生成动作标准差恰好升至真实动作标准差时的权重比，确定为最佳权重比；

λ_per，λ_adv分别为感知损失与对抗损失的权重；

2.根据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，所述步骤1的具体过程为：

1-1、指挥动作提取，从网络视频平台中收集乐团指挥的演出视频，在收集到的视频上进行基于迁移学习的指挥检测，并提取检测到的指挥的2维动作序列；

1-2、音频特征提取，提取视频中对应的梅尔频谱图；

其中

与

3.据权利要求2所述的基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，所述步骤3的具体过程为：

3-1、构建网络结构，构建一个带有四个模块的网络结构，包括生成器G，判别器D，以及步骤2中构建的两分支网络中的音乐编码器E_music与动作编码器E_motion；其中，音乐编码器E_music为生成器提供音乐的语义特征，生成器根据音乐特征生成指挥动作结果，并使生成样本的分布P_G同时趋向于真实动作分布P_G→P_data以及动作关于音乐的条件分布P_G→P_c；判别器D的任务是判断生成指挥动作序列的真实程度，并为生成器提供梯度，以使P_G→P_data；动作编码器E_motion作为感知损失网络计算感知使P_G→P_c；

3-2、初始化网络参数，对生成器G与判别器D进行随机初始化，将步骤2中训练好的两分支网络的参数迁移至音乐编码器E_music与动作编码器E_motion；

3-3、计算对抗-感知损失函数，对抗-感知损失函数包括一项对抗损失与一项感知损失，其具体定义如下，其中，<E_motion(Y_i)>_k是E_motion从动作序列Y_i上提取到的第k层特征，而ω_k是对应于第k层的权重；λ_per和λ_adv分别为感知损失与对抗损失的权重：

3-4、计算判别器的损失函数；其定义如下，其中，第二项为梯度惩罚(GradientPenalty，GP)项，ω_GP是该项的权重；

4.根据权利要求3所述的基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，所述步骤5的具体过程为：

5-1、模型测试，使用步骤5中确定的最佳权重比训练步骤4中的生成器G，得到生成器G的参数，将音频特征序列输入至生成器G，得到预测的指挥动作序列；

5-2、可视化，将生成的指挥动作序列可视化，作为最终输出结果。