CN116484935A

CN116484935A - 模型训练方法、舞蹈生成方法、设备及介质

Info

Publication number: CN116484935A
Application number: CN202310453806.5A
Authority: CN
Inventors: 何艾莲; 林开来; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-25

Abstract

本申请提供了一种模型训练方法、舞蹈生成方法、设备及介质，其中，该模型训练方法包括：获取样本音乐的音乐特征以及样本舞蹈的动作特征；调用第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别；调用编解码网络模块对融合特征进行编解码处理，得到解码特征，调用第二映射网络模块对解码特征进行分类处理，得到第二多元舞蹈类别；基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。本申请实施例降低了跨模态学习的难度，提升了生成的舞蹈动作的准确度。

Description

模型训练方法、舞蹈生成方法、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法、舞蹈生成方法、电子设备及计算机可读存储介质。

背景技术

舞蹈，是一种能够有效分享情感的通用语言。舞蹈可以通过社交媒体、短视频应用等平台进行分享传播。然而，舞蹈的生成是一个极具创造性和艺术性的过程，因此编舞家通常会进行大量的专业训练，最终到达可以进行编舞并生成舞蹈的阶段。同时，不同的编舞家在进行编舞时，都有自己的习惯和编舞风格。随着人工智能和计算机技术的发展，不仅可以通过智能工具来进行编舞生成，还可以通过智能工具将不同编舞家的风格进行融合，生成融合不同编舞家风格的舞蹈。例如，可以根据用户提供的一段音乐，智能工具自动生成人体舞蹈动作对应的舞蹈。

目前，在音乐驱动的舞蹈生成的方面，有两大类方法：第一类方法为基于给定的初始舞蹈动作序列生成舞蹈；第二类方法是基于编排的形式给一段音乐生成舞蹈。但是，两大类方法都需要在音乐特征和舞蹈动作特征之间进行跨模态的学习，因为在跨模态学习中音乐特征和舞蹈动作特征之间存在域间差距，使得生成的舞蹈动作与音乐节拍不一致，导致生成的舞蹈动作的准确度低。

因此，如何提升生成的舞蹈动作的准确度是一个亟待解决的问题。

发明内容

针对上述技术问题，本申请提供一种模型训练方法、舞蹈生成方法、电子设备及计算机可读存储介质，能够降低了音乐特征和舞蹈特征之间跨模态学习的难度，提升生成的舞蹈动作的准确度。

一方面，本申请实施例提供了一种模型训练方法，该方法包括：获取样本音乐的音乐特征以及样本舞蹈的动作特征，样本音乐与样本舞蹈之间存在匹配关系；调用初始神经网络模型包括的第一映射网络模块，对音乐特征及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别，第一多元舞蹈类别包括至少一个舞蹈类别标签；调用初始神经网络模型包括的编解码网络模块对融合特征进行编解码处理，得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行分类处理，得到第二多元舞蹈类别，第二多元舞蹈类别包括至少一个舞蹈类别标签；基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。

一种可选的实施方式中，获取样本音乐的音乐特征以及样本舞蹈的动作特征，包括：基于样本音乐的鼓点将样本音乐划分为多个音乐片段，以及将样本舞蹈划分为多个舞蹈动作，多个音乐片段与多个舞蹈动作之间一一对应；调用初始神经网络模型包括的特征提取网络模块，对多个音乐片段进行特征提取得到样本音乐的音乐特征，以及对多个舞蹈动作进行特征提取得到样本舞蹈的动作特征。

一种可选的实施方式中，调用初始神经网络模型包括的第一映射网络模块对音乐特征以及动作特征进行处理，得到融合特征以及第一多元舞蹈类别，包括：调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征；调用第一映射网络模块的分类层对融合特征进行分类处理，得到第一多元舞蹈类别。

一种可选的实施方式中，调用初始神经网络模型包括的第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征，包括：调用第一映射网络模块包括的特征融合层，将音乐特征以及潜在编码进行结合，获得目标音乐特征；潜在编码用于降低音乐特征的噪声；调用特征融合层对目标音乐特征以及动作特征进行融合处理，得到融合特征。

一种可选的实施方式中，基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，包括：基于融合特征以及解码特征之间的差异数据确定第一损失；基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失；基于第一损失以及第二损失确定目标损失。

一种可选的实施方式中，基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失，包括：确定第一多元舞蹈类别包括的各个舞蹈类别标签与第二多元舞蹈类别包括的各个舞蹈类别标签之间的至少一个差异数据；基于至少一个差异数据之间的偏差信息确定第二损失。

一种可选的实施方式中，基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型，包括：基于目标损失对初始神经网络模型的模型参数进行调整，得到调整后的初始神经网络模型；基于调整后的初始神经网络模型更新目标损失，直到更新后的目标损失满足预测收敛条件，得到训练后的初始神经网络模型；基于训练后的初始神经网络模型中的特征提取网络模块以及编解码网络模块确定舞蹈生成模型。

一方面，本申请实施例提供了一种舞蹈生成方法，该方法包括：获取目标音乐；将目标音乐输入舞蹈生成模型，得到舞蹈生成模型输出的目标舞蹈动作，目标舞蹈动作包括与目标音乐相匹配；其中舞蹈生成模型基于上一方面中的模型训练方法训练得到。

一方面，本申请实施例提供了一种模型训练装置，该装置包括：

获取单元，用于获取样本音乐的音乐特征以及样本舞蹈的动作特征，样本音乐与样本舞蹈之间存在匹配关系；处理单元，用于调用初始神经网络模型包括的第一映射网络模块，对音乐特征及动作特征进行融合处理，得到融合特征并处理融合特征得到第一多元舞蹈类别，第一多元舞蹈类别包括至少一个舞蹈类别标签；处理单元，还用于调用初始神经网络模型包括的编解码网络模块对融合特征进行编解码处理，得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行分类处理，得到第二多元舞蹈类别，第二多元舞蹈类别包括至少一个舞蹈类别标签；处理单元，还用于基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。

获取单元，用于获取目标音乐；处理单元，用于将目标音乐输入舞蹈生成模型，得到舞蹈生成模型输出的目标舞蹈动作，目标舞蹈动作与目标音乐相匹配；其中所述舞蹈生成模型基于上一方面中的模型训练方法训练得到。

一方面，本申请实施例提供了一种电子设备，包括：处理器、用户接口、通信接口和存储器，所述处理器、所述用户接口、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行本申请实施例提供的方法。

相应地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现本申请实施例提供的方法。

相应地，本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。电子设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述电子设备执行本申请实施例提供的方法。

本申请实施例中，获取样本音乐的音乐特征以及样本舞蹈的动作特征，样本音乐与样本舞蹈之间存在对应关系；调用初始神经网络模型包括的第一映射网络模块对音乐特征以及动作特征进行处理，得到融合特征以及第一多元舞蹈类别，第一多元舞蹈类别包括至少一个舞蹈类别标签；调用初始神经网络模型包括的编解码网络模块对融合特征进行处理，得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行处理，得到第二多元舞蹈类别，第二多元舞蹈类别包括至少一个舞蹈类别标签；基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。一方面，该方法确定的舞蹈生成模型可对音乐特征和动作特征进行融合学习，降低了跨模态学习的难度，从而提升了生成的舞蹈动作的准确度；另一方面，在舞蹈生成模型的训练过程中还对融合特征对应的多元舞蹈类别进行了训练，使得生成的舞蹈动作对应的舞蹈类别更加多元化。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方法，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种舞蹈动作的示意图；

图2是本申请实施例提供的一种模型训练方法的流程示意图；

图3是本申请实施例提供的一种初始神经网络模型的示意图；

图4是本申请实施例提供的一种舞蹈生成方法的示意图；

图5是本申请实施例提供的一种模型训练装置的示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为更好地理解本申请实施例，下面先对本申请实施例所涉及的一些术语进行介绍：

舞蹈动作：指人体的24个3维(three-dimensions，3D)关键点，在网络中表示为24*3的矩阵，时序上表示为T*24*3(即表示在时序内有T个舞蹈动作)。请参见图1，图1是本申请实施例提供的一种舞蹈动作的示意图，如图1所示，左边的人体图像上有24个关键点。每个舞蹈动作对应的坐标点位置会随着24个关键点的改变而改变，图的右边展示有T(T为7)个舞蹈动作，该7个舞蹈动作构成一个舞蹈动作库，其表示为7*24*3。

连接(concat)：将两个特征向量连接成一个更长的特征。

全连接层(fully conneted layer，FC)：深度学习里面的全连接层，在整个卷积神经网络中起到“分类器”的作用。

为提升所生成舞蹈动作的准确度，现阶段包括如下几种方式，包括：

方式一：训练阶段，先分别利用特征学习网络模块对舞蹈动作特征和音乐特征进行学习，再利用特征学习网络模块对舞蹈动作特征和音乐特征进行跨模态学习，最终得到舞蹈动作特征与音乐特征的映射关系。使用阶段，利用特征学习网络模块对音乐特征进行学习，再利用长短期记忆网络模块对音乐特征进行解码，得到对应的舞蹈动作序列。

方式二：利用二阶段学习方法对音乐特征与舞蹈动作特征进行学习。第一阶段，只需要训练舞蹈动作到舞蹈动作的模型；第二阶段，将第一阶段的舞蹈动作替换为音乐输入，从而保证对于任意输入一段音乐可以得到对应序列的舞蹈序列。

方式三：利用舞蹈动作特征和音乐特征之间的特征相似度锁定N个最优的匹配舞蹈动作，再对这些舞蹈动作进行编排，得到需要的舞蹈动作序列。

但是，上面每种舞蹈动作的编排方式由于自身实现过程中存在的问题，使得所生成的舞蹈动作准确度均较低，所编排的舞蹈动作不能满足用户需求。具体来讲：

方式一中舞蹈动作特征与音乐特征之间没有直接的约束，很难生成高质量的舞蹈动作序列(舞蹈动作的准确度低)。

方式二直接将舞蹈动作生成网络替换为音乐生成舞蹈动作的网络，使得舞蹈动作特征与音乐特征之间的信息较少，导致第一阶段得到的舞蹈动作特征不能表达更多的音乐特征的信息，很难生成高质量的舞蹈动作序列(舞蹈动作的准确度低)。

方式三虽然关注了舞蹈动作特征与音乐特征之间映射关系，但忽略了对音乐特征的有效提取，导致编排的舞蹈动作容易出现风格混乱、卡点不准确的情况(舞蹈动作的准确度低)。同时，该方式是基于数据库里的动作进行编排，无法生成出新的舞蹈动作。

因此，为提升生成的舞蹈动作的准确度，本申请实施例提供一种模型训练方法。该方法中，获取样本音乐的音乐特征以及样本舞蹈的动作特征，样本音乐与样本舞蹈之间存在匹配关系；调用初始神经网络模型包括的第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别，第一多元舞蹈类别包括至少一个舞蹈类别标签；调用初始神经网络模型包括的编解码网络模块，对融合特征进行编解码处理，得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行分类处理，得到第二多元舞蹈类别，第二多元舞蹈类别包括至少一个舞蹈类别标签；基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。一方面，该方法确定的舞蹈生成模型可将音乐特征和动作特征进行融合处理得到融合特征，并对融合特征进行学习，降低了跨模态学习的难度，从而提升了生成的舞蹈动作的准确度；另一方面，在舞蹈生成模型的训练过程中对融合特征对应的多元舞蹈类别，及解码特征对应的多元舞蹈类别进行了联合训练，使得生成的舞蹈动作的舞蹈类别更加多元化。

需要说明的是，在具体实现中，上述方法中的舞蹈生成模型可以是电子设备，也可以是电子设备的一个模块，该电子设备可以是终端或者服务器；其中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能车载终端等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统等，但并不局限于此。当电子设备是服务器时，上述方法通过服务器后台进行处理，其处理效率高、运行速度快。

以下结合附图对模型训练方法进行详细阐述。

请参见图2，图2是本申请实施例提供的一种模型训练方法的流程示意图。如图2所示，该模型训练方法可以包括但不限于以下步骤：

S201、获取样本音乐的音乐特征以及样本舞蹈的动作特征。

其中，样本音乐与样本舞蹈之间存在匹配关系。即样本音乐和样本舞蹈是配套的。

一种可选的实施方式中，获取样本音乐的音乐特征以及样本舞蹈的动作特征，包括：基于样本音乐的鼓点将样本音乐划分为多个音乐片段，以及将样本舞蹈划分为多个舞蹈动作，多个音乐片段与多个舞蹈动作之间一一对应；调用初始神经网络模型包括的特征提取网络模块，对多个音乐片段进行特征提取得到样本音乐的音乐特征如梅尔谱特征，以及对多个舞蹈动作进行特征提取得到样本舞蹈的动作特征。

例如，某一样本音乐有5个鼓点，将该样本音乐按照5个鼓点划分为6个音乐片段；同时，将该样本音乐对应的样本舞蹈也按照该5个鼓点划分为6个舞蹈动作序列，该6个音乐片段与6个舞蹈动作序列之间一一对应，且每个舞蹈动作序列在时序维度上表示为T*24*3，T表示在时序内有T个舞蹈动作，调用初始神经网络模型包括的特征提取网络模块对6个音乐片段以及6个舞蹈动作序列进行特征提取，得到样本音乐的音乐特征以及样本舞蹈的动作特征。

需要说明的是，本申请实施例中，样本音乐的音乐特征以及样本舞蹈的动作特征的表现形式都是矩阵形式，且均是通过编码操作(如线性投影(linear projection))进行编码后的特征信息，有利于对样本音乐的音乐特征以及样本舞蹈的动作特征进行跨模态的学习。同时，本申请实施例中使用的训练样本来自不同编舞老师，包括具有各种风格及各种节奏的样本音乐和样本舞蹈，使用该训练样本得到的舞蹈生成模型具有更好的适应性，可以基于音乐生成准确率高且不同类型的舞蹈动作。

S202、调用初始神经网络模型包括的第一映射网络模块，对音乐特征及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别。

其中，为了便于与下文得到的其他多元舞蹈类别区分，可以将此处的多元舞蹈类别称为第一多元舞蹈类别。第一多元舞蹈类别包括至少一个舞蹈类别标签。例如，舞蹈动作类别标签有爵士对应的标签1、街舞对应的标签2、拉丁舞对应的标签3、霹雳舞对应的标签4等等，那么，第一多元舞蹈类别包括的舞蹈类别标签可以是标签1、标签2、标签3和标签4的任意组合，本申请实施例不对舞蹈类别标签进行限制。

初始神经网络模型包括映射网络模块，为了便于与其他映射网络模块区分，可以将此处的映射网络模块称为第一映射网络模型。在一种可选的实施方式中，调用初始神经网络模型包括的第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别，包括：调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征；调用第一映射网络模块的分类层对融合特征进行分类处理，得到第一多元舞蹈类别。

本申请实施例中，利用第一映射网络模块中的特征融合层将音乐特征以及动作特征进行融合处理，得到融合特征，该融合特征即可以表示音乐特征，也可以表示动作特征，降低了音乐特征到动作特征之间跨模态学习的难度。

本申请实施例中，第一映射网络模块包括4个FC层，通过这4个FC层对融合特征进行分类处理，得到第一多元舞蹈类别。本申请实施例对FC层的个数并不进行限定。

可选的，调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征，包括：调用第一映射网络模块包括的特征融合层，将音乐特征以及潜在编码进行结合，获得目标音乐特征；潜在编码用于降低音乐特征的噪声；调用特征融合层对目标音乐特征以及动作特征进行融合处理，得到融合特征。

其中，潜在编码是对原数据进行降维或者压缩后的特征数据，可以用更少的信息去表达原数据的本质，且根据该潜在编码可以完整的恢复出原数据。如本申请实施例中可以将一部分音乐特征作为原数据。

本申请实施例中，潜在编码用于降低噪声，融合特征是加入潜在编码后的信息，该信息的噪声更少，利用该信息进行学习得到的特征更加准确。

S203、调用初始神经网络模型包括的编解码网络模块，对融合特征进行编解码处理，得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行分类处理，得到第二多元舞蹈类别。

其中，为了便于与上文得到的多元舞蹈类别区分，可以将此处的多元舞蹈类别称为第二多元舞蹈类别。第二多元舞蹈类别包括至少一个舞蹈类别标签。为了便于与上文的映射网络模块区分，可以将此处的映射网络模块称为第二映射网络模型。

第二映射网络模块的相关内容请参照上述第一映射网络模块的相关内容，以及第二多元舞蹈类别的相关内容请参照上述第一多元舞蹈类别的相关内容，此处不再阐述。

S204、基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。

本申请实施例中，目标损失是通过第一损失和第二损失得到的，即目标损失是兼顾第一损失和第二损失分别对应的损失含义。如第一损失对应的损失含义为输入的融合特征与输出的解码特征之间的第一差异数据，第一差异数据对应的数值越小，即第一损失越小(第一损失越小说明输出的解码特征越准确)；第二损失对应的损失含义为输入时得到的第一多元舞蹈类别与输出时得到的第二多元舞蹈类别之间的第二差异数据，第二差异数据对应的数值越小，第二损失越小(第二损失越小说明预测的舞蹈类别越准确)。

在一种可选的实施方式中，基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，包括：基于融合特征以及解码特征之间的差异数据确定第一损失；基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失；基于第一损失以及第二损失确定目标损失。

可选的，基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失，包括：获取第一多元舞蹈类别包括的各个舞蹈类别标签以及第二多元舞蹈类别包括的各个舞蹈类别标签；确定第一多元舞蹈类别包括的各个舞蹈类别标签与第二多元舞蹈类别包括的各个舞蹈类别标签之间的至少一个差异数据；基于至少一个差异数据之间的偏差信息确定第二损失。

可选的，第一损失和第二损失可以是均方误差(L2 loss)值，该均方误差的求解公式如下：

其中，y_i表示预测值，如上述的解码特征、第二多元舞蹈类别分别对应的值；f(x_i)表示样本真实值，如上述的融合特征、第一多元舞蹈类别分别对应的值；y_i-f(x_i)表示偏差信息(即预测值与样本真实值之间的差值为偏差信息)；n表示样本数。

可选的，本申请实施例对模型参数进行调整的方法是：基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。其具体的过程为：基于目标损失对初始神经网络模型的模型参数进行调整，得到调整后的初始神经网络模型；基于调整后的初始神经网络模型更新目标损失，直到更新后的目标损失满足预测收敛条件，得到训练后的初始神经网络模型；基于训练后的初始神经网络模型中的特征提取网络模块以及编解码网络模块确定舞蹈生成模型。或者，当更新后的目标损失不满足预测收敛条件时，则可继续对该初始神经网络模型利用步骤S201至S204所述的方法进行训练。

可见，本申请实施例确定的舞蹈生成模型包括第一映射网络模块和编解码网络模块，相较于现有舞蹈生成模型(如循环神经网络(recurrent neural network,RNN)或自注意力模型(Transformer))利用固定的初始动作序列为音乐生成舞蹈动作序列来说，本申请实施例的舞蹈生成模型可以基于音乐对应的多元舞蹈类别生成出高质量的舞蹈动作序列。另外的，本申请实施例的舞蹈生成模型是对音乐特征和动作特征进行融合后训练得到的，使得本申请实施例确定的舞蹈生成模型在生成舞蹈动作序列时，减少了音乐和动作之间跨模态学习的难度，提升了舞蹈动作序列的质量。

请参见图3，图3是本申请实施例提供的一种初始神经网络模型的示意图。如图3所示，输入特征提取网络模块的舞蹈动作(x₁、x₂、…、x_m)和音乐片段(y₁、y₂、…、y_n)都是基于音乐的鼓点进行划分的，即舞蹈动作和音乐片段是一一对应的；特征提取网络模块对舞蹈动作和音乐片段进行特征提取(此处相关的内容请参照上述步骤S201中的相关内容)，获得动作特征和音乐特征(如梅尔谱特征信息)，将动作特征和音乐特征输入到第一映射网络模块(Mapping Network)中，利用特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征(此处还可以加入潜在编码，该相关内容请参照上述步骤S202中的相关内容)，并利用分类层中的4层全连接层(fc)对融合特征进行分类处理，得到第一多元舞蹈类别(第一多元舞蹈类别的相关内容请参照上述步骤S202中的相关内容)；利用编解码网络模块对融合特征信息进行编解码处理(该编解码网络模块包括卷积(conv)处理和谱范数正则(spectralnorm)处理)，得到解码特征；利用第二映射网络模块中分类层的4层全连接层(fc)对解码特征进行分类处理，得到第二多元舞蹈类别(第二多元舞蹈类别的相关内容请参照上述步骤S203中的相关内容)；基于融合特征以及解码特征之间的差异数据确定第一损失；基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失；基于第一损失以及第二损失确定目标损失，基于目标损失对初始神经网络模型的模型参数进行调整，得到调整后的初始神经网络模型；基于调整后的初始神经网络模型更新目标损失，直到更新后的目标损失满足预测收敛条件，得到训练后的初始神经网络模型。

请参见图4，图4是本申请实施例提供的一种舞蹈生成方法的示意图。如图4所示，将目标音乐输入舞蹈生成模型，可输出该目标音乐的目标舞蹈动作。其中，该舞蹈生成模型是基于上述模型训练方法训练得到的。可见，该舞蹈生成方法可以对目标音乐进行目标舞蹈动作生成，从而减少目标舞蹈动作生成过程中的人力成本，同时，舞蹈生成模型是对音乐特征和动作特征进行融合后训练得到的，使得舞蹈生成模型在给目标音乐确定目标舞蹈动作的过程中，减少了音乐和动作之间跨模态学习的难度，提升了目标舞蹈动作的质量。

请参见图5，图5是本申请实施例提供的一种模型训练装置的示意图。如图5所示，该模型训练装置可以包括但不限于：

获取单元501，用于样本音乐的音乐特征以及样本舞蹈的动作特征，样本音乐与样本舞蹈之间存在匹配关系；

处理单元502，用于调用初始神经网络模型包括的第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别，第一多元舞蹈类别包括至少一个舞蹈类别标签；

处理单元502，还用于调用初始神经网络模型包括的编解码网络模块对融合特征进行编解码处理，得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行分类处理，得到第二多元舞蹈类别，第二多元舞蹈类别包括至少一个舞蹈类别标签；

处理单元502，还用于基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。

在一种可选的实施方式中，获取单元501获取样本音乐的音乐特征以及样本舞蹈的动作特征，具体用于：处理单元502基于样本音乐的鼓点将样本音乐划分为多个音乐片段，以及将样本舞蹈划分为多个舞蹈动作，多个音乐片段与多个舞蹈动作之间一一对应；处理单元502调用初始神经网络模型包括的特征提取网络模块，对多个音乐片段进行特征提取得到样本音乐的音乐特征，以及对多个舞蹈动作进行特征提取得到样本舞蹈的动作特征。

在一种可选的实施方式中，处理单元502调用初始神经网络模型包括的第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理所述融合特征得到第一多元舞蹈类别，具体用于：调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征；调用第一映射网络模块的分类层对融合特征进行分类处理，得到第一多元舞蹈类别。

在一种可选的实施方式中，处理单元502调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征，具体用于：调用第一映射网络模块的特征融合层对音乐特征以及潜在编码进行结合，获得目标音乐特征；潜在编码用于降低音乐特征的噪声；调用特征融合层对目标音乐特征以及动作特征进行融合处理，得到融合特征。

在一种可选的实施方式中，处理单元502基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，具体用于：基于融合特征以及解码特征之间的差异数据确定第一损失；基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失；基于第一损失以及第二损失确定目标损失。

在一种可选的实施方式中，处理单元502基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失，具体用于：处理单元502确定第一多元舞蹈类别包括的各个舞蹈类别标签与第二多元舞蹈类别包括的各个舞蹈类别标签之间的至少一个差异数据；处理单元502基于至少一个差异数据之间的偏差信息确定第二损失。

在一种可选的实施方式中，处理单元502基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型，具体用于：基于目标损失对初始神经网络模型的模型参数进行调整，得到调整后的初始神经网络模型；基于调整后的初始神经网络模型更新目标损失，直到更新后的目标损失满足预测收敛条件，得到训练后的初始神经网络模型；基于训练后的初始神经网络模型中的特征提取网络模块以及编解码网络模块确定舞蹈生成模型。

可选的，本申请实施例还提供的一种舞蹈生成装置，该舞蹈生成装置用于获取目标音乐；将目标音乐输入舞蹈生成模型，得到舞蹈生成模型输出的目标舞蹈动作，目标舞蹈动作与目标音乐相匹配；其中舞蹈生成模型是图2所示模型训练方法中的舞蹈生成模型。

可以理解的是，本申请实施例所描述的模型训练装置中各个模块的具体实现以及可以达到的有益效果可参考前述方法实施例的描述，在此不再赘述。

请参见图6，图6是本申请实施例提供的一种电子设备的结构示意图。本申请实施例中所描述的电子设备包括：处理器601、用户接口602、通信接口603及存储器604。其中，处理器601、用户接口602、通信接口603及存储器604可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

其中，处理器601(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其可以解析电子设备内的各类指令以及处理电子设备的各类数据，例如：CPU可以用于解析对象向电子设备所发送的开关机指令，并控制电子设备进行开关机操作；再如：CPU可以在电子设备内部结构之间传输各类交互数据，等等。用户接口602是实现使用者与电子设备进行交互和信息交换的媒介，其具体体现可以包括用于输出的显示屏(Display)以及用于输入的键盘(Keyboard)等等，需要说明的是，此处的键盘既可以为实体键盘，也可以为触屏虚拟键盘，还可以为实体与触屏虚拟相结合的键盘。通信接口603可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等)，受处理器601的控制用于收发数据。存储器604(Memory)是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器604既可以包括电子设备的内置存储器，当然也可以包括电子设备所支持的扩展存储器。存储器604提供存储空间，该存储空间存储了电子设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在本申请实施例中，处理器601通过运行存储器604中的可执行程序代码，执行如下操作：

获取样本音乐的音乐特征以及样本舞蹈的动作特征，样本音乐与样本舞蹈之间存在匹配关系；调用初始神经网络模型包括的第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别，第一多元舞蹈类别包括至少一个舞蹈类别标签；调用初始神经网络模型包括的编解码网络模块对融合特征进行编解码处理得到解码特征，并调用初始神经网络模型包括的第二映射网络模块对解码特征进行处理得到第二多元舞蹈类别，第二多元舞蹈类别包括至少一个舞蹈类别标签；基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，并基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。

在一种可选的实施方式中，处理器601获取样本音乐的音乐特征以及样本舞蹈的动作特征，具体用于：基于样本音乐的鼓点将样本音乐划分为多个音乐片段，以及将样本舞蹈划分为多个舞蹈动作，多个音乐片段与多个舞蹈动作之间一一对应；调用初始神经网络模型包括的特征提取网络模块，对多个音乐片段进行特征提取得到样本音乐的音乐特征，以及对多个舞蹈动作进行特征提取得到样本舞蹈的动作特征。

在一种可选的实施方式中，处理器601调用初始神经网络模型包括的第一映射网络模块，对音乐特征以及动作特征进行融合处理得到融合特征并处理融合特征得到第一多元舞蹈类别，具体用于：调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征；调用第一映射网络模块的分类层对融合特征进行分类处理，得到第一多元舞蹈类别。

在一种可选的实施方式中，处理器601调用第一映射网络模块的特征融合层对音乐特征以及动作特征进行融合处理，得到融合特征，具体用于：调用第一映射网络模块包括的特征融合层对音乐特征以及潜在编码进行结合，获得目标音乐特征；潜在编码用于降低音乐特征的噪声；调用特征融合层对目标音乐特征以及动作特征进行融合处理，得到融合特征。

在一种可选的实施方式中，处理器601基于融合特征和解码特征之间的第一损失，以及第一多元舞蹈类别和第二多元舞蹈类别之间的第二损失确定目标损失，具体用于：基于融合特征以及解码特征之间的差异数据确定第一损失；基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失；基于第一损失以及第二损失确定目标损失。

在一种可选的实施方式中，处理器601基于第一多元舞蹈类别以及第二多元舞蹈类别之间的差异数据确定第二损失，具体用于：确定第一多元舞蹈类别包括的各个舞蹈类别标签与第二多元舞蹈类别包括的各个舞蹈类别标签之间的至少一个差异数据；基于至少一个差异数据之间的偏差信息确定第二损失。

在一种可选的实施方式中，处理器601基于目标损失对初始神经网络模型的模型参数进行调整，得到舞蹈生成模型，具体用于：基于目标损失对初始神经网络模型的模型参数进行调整，得到调整后的初始神经网络模型；基于调整后的初始神经网络模型更新目标损失，直到更新后的目标损失满足预测收敛条件，得到训练后的初始神经网络模型；基于训练后的初始神经网络模型中的特征提取网络模块以及编解码网络模块确定舞蹈生成模型。

具体实现中，本申请实施例中所描述的处理器601、用户接口602、通信接口603及存储器604可执行本申请实施例提供的模型训练方法中所描述的电子设备的实现方式，也可执行本申请实施例提供的模型训练装置中所描述的实现方式，在此不再赘述。

在本申请实施例中，处理器601通过运行存储器604中的可执行程序代码，还执行如下操作：

获取目标音乐；将目标音乐输入舞蹈生成模型，得到舞蹈生成模型输出的目标舞蹈地址，目标舞蹈地址与目标音乐相匹配；其中舞蹈生成模型是上一方面中的模型训练方法训练得到的。

具体实现中，本申请实施例中所描述的处理器601、用户接口602、通信接口603及存储器604可执行本申请实施例提供的舞蹈生成方法中所描述的电子设备的实现方式，也可执行本申请实施例提供的舞蹈生成装置中所描述的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现本申请实施例所提供的舞蹈生成方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得电子设备执行本申请实施例提供的音频质量评估方法。其具体实现方式可参考前文描述，此处不再赘述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请部分实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取样本音乐的音乐特征以及样本舞蹈的动作特征，所述样本音乐与所述样本舞蹈之间存在匹配关系；

调用初始神经网络模型包括的第一映射网络模块，对所述音乐特征及所述动作特征进行融合处理得到融合特征并处理所述融合特征得到第一多元舞蹈类别，所述第一多元舞蹈类别包括至少一个舞蹈类别标签；

调用所述初始神经网络模型包括的编解码网络模块，对所述融合特征进行编解码处理得到解码特征，并调用所述初始神经网络模型包括的第二映射网络模块对所述解码特征进行分类处理得到第二多元舞蹈类别，所述第二多元舞蹈类别包括至少一个舞蹈类别标签；

基于所述融合特征和所述解码特征之间的第一损失，以及所述第一多元舞蹈类别和所述第二多元舞蹈类别之间的第二损失确定目标损失，并基于所述目标损失对所述初始神经网络模型的模型参数进行调整，得到舞蹈生成模型。

2.根据权利要求1所述的方法，其特征在于，所述获取样本音乐的音乐特征以及样本舞蹈的动作特征，包括：

基于所述样本音乐的鼓点将所述样本音乐划分为多个音乐片段，以及将所述样本舞蹈划分为多个舞蹈动作，所述多个音乐片段与所述多个舞蹈动作之间一一对应；

调用所述初始神经网络模型包括的特征提取网络模块，对所述多个音乐片段进行特征提取得到所述样本音乐的音乐特征，以及对所述多个舞蹈动作进行特征提取得到所述样本舞蹈的动作特征。

3.根据权利要求1所述的方法，其特征在于，所述调用初始神经网络模型包括的第一映射网络模块，对所述音乐特征以及所述动作特征进行融合处理得到融合特征并处理所述融合特征得到第一多元舞蹈类别，包括：

调用所述第一映射网络模块的特征融合层对所述音乐特征以及所述动作特征进行融合处理，得到融合特征；

调用所述第一映射网络模块的分类层对所述融合特征进行分类处理，得到第一多元舞蹈类别。

4.根据权利要求3所述的方法，其特征在于，所述调用第一映射网络模块的特征融合层对所述音乐特征以及所述动作特征进行融合处理，得到融合特征，包括：

调用所述第一映射网络模块包括的特征融合层，将所述音乐特征以及潜在编码进行结合获得目标音乐特征；所述潜在编码用于降低所述音乐特征的噪声；

调用所述特征融合层对所述目标音乐特征以及所述动作特征进行融合处理，得到融合特征。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述融合特征、所述解码特征之间的第一损失，以及所述第一多元舞蹈类别、所述第二多元舞蹈类别之间的第二损失确定目标损失，包括：

基于所述融合特征以及所述解码特征之间的差异数据确定第一损失；

基于所述第一多元舞蹈类别以及所述第二多元舞蹈类别之间的差异数据确定第二损失；

基于所述第一损失以及所述第二损失确定目标损失。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一多元舞蹈类别以及所述第二多元舞蹈类别之间的差异数据确定第二损失，包括：

确定所述第一多元舞蹈类别包括的各个舞蹈类别标签与所述第二多元舞蹈类别包括的各个舞蹈类别标签之间的至少一个差异数据；

基于所述至少一个差异数据之间的偏差信息确定第二损失。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标损失对所述初始神经网络模型的模型参数进行调整，得到舞蹈生成模型，包括：

基于所述目标损失对所述初始神经网络模型的模型参数进行调整，得到调整后的初始神经网络模型；

基于所述调整后的初始神经网络模型更新所述目标损失，直到更新后的目标损失满足预测收敛条件，得到训练后的初始神经网络模型；

基于所述训练后的初始神经网络模型中的特征提取网络模块以及编解码网络模块确定舞蹈生成模型。

8.一种舞蹈生成方法，其特征在于，所述方法包括：

获取目标音乐；

将所述目标音乐输入舞蹈生成模型，得到所述舞蹈生成模型输出的目标舞蹈动作，所述目标舞蹈动作与所述目标音乐相匹配；其中所述舞蹈生成模型基于权利要求1至7任一项所述的模型训练方法训练得到。

9.一种电子设备，其特征在于，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1-7中任一项所述的方法，或者，执行如权利要求8所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7中任一项所述的方法或者，执行如权利要求8所述的方法。