CN111986295A

CN111986295A - 舞蹈合成方法、装置及电子设备

Info

Publication number: CN111986295A
Application number: CN202010817170.4A
Authority: CN
Inventors: 者雪飞; 暴林超; 庄文林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-24
Anticipated expiration: 2040-08-14
Also published as: CN111986295B

Abstract

本申请公开了一种舞蹈合成方法、装置及电子设备，涉及人工智能技术领域。其中，该方法包括：获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于合成舞蹈信息输出的判别数据；基于判别数据调整生成网络的网络参数，使调整后的生成网络基于音乐特征输出的合成舞蹈信息被判别网络识别为真实舞蹈信息；通过调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息。如此，既可以使合成舞蹈具有更多真实舞蹈的特征，更加自然，又可以使获得的合成舞蹈更具多样性。

Description

舞蹈合成方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种舞蹈合成方法、装置及电子设备。

背景技术

近年来，计算机视觉(Computer Vision，CV)技术在越来越多的领域得到广泛应用。作为计算机视觉领域的一个重要研究方向，音乐驱动的舞蹈生成具有丰富的应用前景。比如，可以将生成的人体舞蹈应用到虚拟人角色上，实现虚拟人“会跳”的功能，进而应用到虚拟直播、虚拟客服等常见中。又比如，还可以应用到舞蹈类游戏中，实现基于音乐的舞蹈自动编排。然而，现有的基于音乐合成舞蹈的方法，不够自然。

发明内容

本申请提出了一种舞蹈合成方法、装置及电子设备，可以改善上述问题。

一方面，本申请实施例提供了一种舞蹈合成方法，包括：获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于合成舞蹈信息输出的判别数据；基于判别数据调整生成网络的网络参数，使调整后的生成网络基于音乐特征输出的合成舞蹈信息被判别网络识别为真实舞蹈信息；通过调整后的生成网络，将待处理音乐信息合称为目标舞蹈信息。

另一方面，本申请实施例提供了一种舞蹈合成装置，包括：获取模块、训练模块以及合成模块。其中，获取模块用于获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于合成舞蹈信息输出的判别数据。训练模块用于基于判别数据调整生成网络的网络参数，使调整后的生成网络基于音乐特征输出的合成舞蹈信息被判别网络识别为真实舞蹈信息。合成模块用于通过调整后的生成网络，使待处理音乐信息合成为目标舞蹈信息。

另一方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储于所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

另一个方面，本申请实施例提供了一种计算机可读存储介质，其上存储有程序代码，该程序代码可被处理器调用执行上述的方法。

本申请提供的方案，通过获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于合成舞蹈信息输出的判别数据，可以基于判别数据调整生成网络的网络参数，使调整后的生成网络基于音乐特征输出的合成舞蹈信息被判别网络识别为真实舞蹈信息，从而可以通过调整后的生成网络，将待处理音乐信息合称为目标舞蹈信息。如此，既可以使合成舞蹈具有更多真实舞蹈的特征，更加自然，又可以使获得的合成舞蹈更具多样性。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请实施例提供的一种舞蹈合成方法的流程示意图。

图3A示出了本申请一实施例提供的一种生成对抗网络的架构示意图。

图3B示出了本申请实施例提供的一种生成网络的架构示意图。

图3C示出了本申请实施例提供的一种判别网络的架构示意图。

图4示出了本申请另一实施例提供的一种舞蹈合成方法的流程示意图。

图5示出了图4所示步骤S440的子步骤示意图。

图6示出了图5所示步骤S441的子步骤示意图。

图7示出了图4所示步骤S450的一种子步骤示意图。

图8示出了图7所示步骤S451的子步骤示意图。

图9示出了图4所示步骤S450的另一种子步骤示意图。

图10示出了图9所示步骤S453和S454的子步骤示意图。

图11示出了本申请实施例提供的声波、Mel频谱和Onset特征示意图。

图12示出了本申请实施例提供的三维骨架舞蹈动作示意图。

图13示出了本申请实施例提供的虚拟形象舞蹈动作示意图。

图14示出了本申请实施例提供的一种舞蹈合成装置的框图。

图15是本申请实施例的用于执行根据本申请实施例的舞蹈合成方法的电子设备的框图。

图16是本申请实施例的用于保存或者携带实现根据本申请实施例的舞蹈合成方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

音乐驱动的舞蹈合成方法是指从音乐信息直接生成舞蹈信息的方法，这里的音乐信息可以是指音乐文件，或者音乐文件转换得到的向量信息(又称音乐特征)。而舞蹈信息可以是舞蹈视频文件，或者是舞蹈视频文件转换得到的向量信息(又称舞蹈特征)。

音乐驱动的舞蹈合成可以有多种实现方式。第一种方式，可以通过基于检索的方法实现音乐驱动的舞蹈合成。详细地，这种方式可以通过两个阶段实现。第一个阶段是训练阶段：根据音乐划分节拍，分别划分音乐信息和舞蹈信息，得到匹配信息，匹配信息包括相互对应的音乐信息片段和舞蹈信息片段；根据匹配信息训练一个学习器，该学习器用于建模音乐信息和舞蹈信息之间的匹配质量；根据划分好的舞蹈信息构建运动图。第二个阶段是测试阶段：输入音乐划分节拍，获得运动图中的候选舞蹈片段后，根据学习器的匹配质量从各候选舞蹈片段中确定目标舞蹈片段，依次拼接目标舞蹈片段得到长序列舞蹈。

第二种方式，可以将音乐驱动舞蹈合成的过程视为一个自回归过程，其中，音乐信号或者从音乐信息中提取的音乐特征可以作为这个自回归过程的控制信号。详细地，可以采用基于卷积的方法来构建用于合成舞蹈的自回归模型，将音乐的旋律、节奏、风格作为该自回归模型的控制信号。具体地，音乐的旋律和节奏可以采用多种音乐特征来表示，并可以被作为自回归模型的局部控制信号；音乐的风格则可以采用独热(one-hot)码表示，并可以被作为自回归模型的全局控制信号。该自回归模型的输出为概率分布，具体可以是高斯混合模型(Gaussian Mixture Model，GMM)概率分布，因此在训练时可以采用高斯混合模型损失(GMM loss)作为自回归模型的监督信号。

但是，上述的方式均存在一些缺陷。比如，第一种方式和第二种方式，本质上都是学习具体的舞蹈信息和音乐信息之间的匹配关系，比如样本舞蹈A和样本音乐B之间的匹配关系，然后再基于匹配关系，根据音乐信息生成舞蹈。这种方式需要足够多的样本，而作为样本的舞蹈信息通常是由专业舞蹈演员根据样本音乐跳舞，进而采集获得。所以样本数据集通常是比较小的，这就导致最终训练出的映射关系，是小部分舞蹈与音乐之间的映射关系，训练效果不佳，该映射关系泛化性能较差，即，基于该映射关系合成的舞蹈相似度比较高。

因此，发明人经过长期的研究，提出了一种舞蹈合成方法、装置及电子设备，可以改善上述问题。下面对该内容进行详细描述。

请参照图1，图1是一种适用于本申请实施例的应用环境示意图。其中，终端设备100与服务器200通过网络300通信连接。终端设备100可以安装有客户端110，并可以通过客户端110等录至服务器200，从而通过与服务器200的配合为用户提供服务，如，舞蹈合成服务。

其中，终端设备100可以是智能手机、平板电脑、笔记本电脑、个人计算机(Personal Computer，PC)、便携式穿戴设备等。客户端110可以是舞蹈合成应用程序或者其他任意需要使用舞蹈合成服务的应用程序，例如虚拟直播应用程序、舞蹈游戏类应用程序等，本申请实施例对此没有限制。

服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算、大数据和人工智能平台等基础云计算服务的云服务器。

请参照图2，图2是本申请一实施例提供的一种舞蹈合成方法的流程示意图，该方法可以应用于电子设备，该电子设备例如可以是图1所示的服务器200或终端设备100。下面对该方法的步骤进行详细介绍。

S210，获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息。

其中，样本音乐信息可以是作为样本的音乐文件，样本音乐信息的音乐特征可以包括从样本音乐信息的每一音频帧提取或编码而成的特征向量，即，这里的音乐特征可以理解为一个特征向量序列，特征向量序列包括从音乐信息的每个音频帧中提取的音频特征向量。

生成网络可以视为一个解码器，用于对上述的音乐特征解码成对应的舞蹈特征。舞蹈特征可以是三维(3D)人体舞蹈所对应的特征，其可以是一个特征向量序列，其中的每一个特征向量表示一个对应的舞蹈动作。本实施例中，可以通过三维骨架来表示人体，三维骨架上具有多个关节点，舞蹈特征中的每个特征向量可以包括三维骨架的每个关节点的动作特征，该动作特征可以包括位置特征和旋转特征。三维骨架上的一个关节点是根节点，这个根节点是指没有父关节点的关节点。

根节点的旋转特征可以表示为(r_t，x，Δr_t，y，r_t，z)，其中，r_t，x表示第t个视频帧中的根节点绕上一视频帧(即，第t-1个视频帧)中坐标系的X轴的旋转角度，r_t,z表示第t个视频帧中的根节点绕第t-1个视频帧中坐标系的Z轴的旋转角度，而第t个视频帧中的根节点绕第t-1个视频帧中坐标系的Y轴的旋转角度，可以替换成：第t个视频帧与第t-1个视频帧的相对旋转角度Δr_t,y。

根节点的位置特征可以表示为(Δp_t,x,p_t,y,Δp_t,z)，其中，Δp_t,x表示第t个视频帧中的根节点与第t-1个视频帧中的根节点，在第t-1个视频帧的坐标系的X轴上的相对位置。Δp_t,z表示第t个视频帧中的根节点与第t-1个视频帧中的根节点，在第t-1个视频帧的坐标系的Z轴上的相对位置。p_t,y表示第t个视频帧中的根节点在第t-1个视频帧的坐标系的Y轴上的位置。

其余每个关节点的动作特征则可以包括该关节点相对该关节点的父关节点的旋转特征和位置特征。详细地，以第t个视频帧中除根节点之外的第j个关节点为例，其动作特征可以是表示为(r_t,jx,r_t,jy,r_t,jz,p_t,jx,p_t,jy,p_t,jz)。其中，(r_t,jx,r_t,jy,r_t,jz)表示第j个关节点相对于其父关节点的旋转向量，(p_t,jx，p_t,jy,p_t,jz)表示第j个关节点相对于上一视频帧(即，第t-1个视频帧)的坐标系的位置(即，三维空间坐标)。

基于此，第t个视频帧的特征向量可以表示如下：

其中，x_t表示第t个视频帧中舞蹈动作的特征向量，第t个视频帧可以和音乐信息中的第t个音频帧对应。

表示第t个视频帧中舞蹈动作的旋转特征，

表示第t个视频帧中舞蹈动作的位置特征。

基于上述对第t个视频帧中根节点和第j个关节点的描述，

可以表示为如下形式：

其中，(r_t,Nx,r_t,Ny,r_t,Nz)表示第t个视频帧中除根节点之外的第N个关节点相对于其父关节点的旋转向量。这里，1≤j≤N，N为大于1的正整数，j为正整数。示例性地，N为三维骨架上除根节点之外的关节点的数量，比如，如果三维骨架上存在55个关节点，则N可以为54。

进一步地，

可以通过如下形式表示：

其中，(p_t,Nx,p_t,Ny,p_t,Nz)表示第t个视频帧中除根节点之外的第N个关节点相对于第t-1个视频帧的坐标系的位置。其中，j和N的取值参上述对表达式(2)的描述。

可以理解，上述的x_t是一个一维特征向量。也就是，在此示例中，生成网络的输出是一个按时间顺序排列的一维特征向量的序列，其中的每个一维特征向量表是基于音乐信息的一个音频帧(如，第t个音频帧)的特征向量得到的舞蹈动作表示，如，第t个视频帧的舞蹈动作表示x_t。由于舞蹈动作表示x_t是一个一维特征向量，可以将从音频帧中提取的音频特征向量也处理成一维特征向量。示例性地，可以将从每个音频帧中提取的一种或多种特征拼接成一维特征向量，从而得到该音频帧的音频特征向量。然后，可以按照音频帧的时间顺序，将各音频帧的拼接而成的音频特征向量依次输入生成网络，从而得到舞蹈动作表示x_t的序列，也就是合成舞蹈信息。

可以理解，合成舞蹈信息最终可以用于合成舞蹈视频，合成舞蹈信息中的每个舞蹈动作表示，对应的是合成舞蹈视频中的一个视频帧。比如，舞蹈动作表示x_y对应的是合成舞蹈视频的第t个视频帧。

在未经训练的情况下，生成网络输出的合成舞蹈信息中的舞蹈动作表示通常与实际的舞蹈动作不符，因此可以对生成网络进行训练。本实施例中，可以通过一个判别网络来为生成网络的训练提供监督信号。

请参照图3A，其中示出了本申请实施例提供的一种生成对抗网络(GenerativeAdversarial Networks，GAN)300的架构示意图。其中，生成对抗网络300包括生成网络310和判别网络320，如上所述，生成网络310可以根据输入的音乐特征输出合成舞蹈信息。而判别网络320则可以用于在训练阶段为生成网络提供监督信号。详细地，判别网络320可以基于输入的舞蹈信息，输出这个舞蹈信息的真实性分数，真实性分数的正负可以用于表示舞蹈信息的真假，这里的假可以理解为舞蹈被判别为合成舞蹈，即非真实舞蹈。真实性分数的绝对值则可以用于表示判别结果的置信度。

本申请实施例中，生成网络310可以包括依次连接的时序卷积层和至少一个残差网络结构，这里的残差网络结构包括一空洞卷积层，空洞卷积层的输入信息被叠加至该空洞卷积层的输出信息。

请参照图3B，其中示例性地示出了生成网络310的一种架构示意图。生成网络310包括依次连接的时序卷积层311、4个卷积结构312、时序卷积层313，其中时序卷积层311和313可以具有相同尺寸的卷积核，比如为7。

卷积结构312可以包括时序卷积层312-1和一残差堆叠结构312-2，时序卷积层312-1的卷积核尺寸小于时序卷积层311和313，比如为3。其中，残差堆叠结构312-2可以包括至少一个空洞卷积层，比如，图3B示出的残差堆叠结构包括3个空洞卷积层，每个空洞卷积层的输入信息被叠加至其输出信息中。其中，每个空洞卷积层的卷积核尺寸可以是3。

判别网络320则可以包括多个判别器，如图3C所示，判别器D₁包括依次连接的时序卷积层L1、时序卷积层L21、下采样层L31以及时序卷积层L41。可以理解，时序卷积是指一维卷积。示例性地，时序卷积层L1的卷积核尺寸可以是15，时序卷积层L21的卷积核尺寸可以是3，时序卷积层L41的卷积核尺寸可以是3。可以理解，下采样是指对于一个样值序列间隔几个养殖取样一次，这样得到的新序列就是原序列的下采样。

判别器D₂包括依次连接的时序卷积层L1、下采样层L2、时序卷积层L32、下采样层L42以及时序卷积层L52。其中，时序卷积层L32的卷积核尺寸可以是3，时序卷积层L52的卷积核尺寸可以是3。

判别器D₃包括依次连接的时序卷积层L1、下采样层L2、下采样层L33、时序卷积层L43、下采样层L53以及时序卷积层L63。其中，时序卷积层L43的卷积核尺寸可以是3，时序卷积层L63的卷积核尺寸可以是3。

本实施例的一个例子中，舞蹈信息的真实程度可以与判别网络输出的真实性分数成正比。具体地，真实性分数为正数，可以表示输入的舞蹈信息被判别网络320识别为真实舞蹈，真实性分数的绝对值越大，该舞蹈信息的是真实舞蹈的可能性越大。真实性分数为负数，表示输入的舞蹈信息被判别网络320识别为合成舞蹈。真实性分数的绝对值越大(即，真实性分数越小)，表示输入的舞蹈信息是合成舞蹈的可能性越大。

另一个例子中，舞蹈信息的真实程度可以与真实性分数成反比。具体地，真实性分数为正数，可以表示输入的舞蹈信息被判别网络320识别为合成舞蹈，真实性分数的绝对值越大，该舞蹈信息是合成舞蹈的可能性越大。真实性分数是负数，表示输入的舞蹈信息被判别网络320识别成真实舞蹈，真实性分数的绝对值越大，表示舞蹈信息是真实舞蹈的可能性越大。

本实施例中，判别网络320可以是具有一定识别能力的网络，比如，可以是已训练网络，即，经过一定迭代次数的训练的网络。在此情况下，判别网络320基于舞蹈信息输出的真实性分数可信度较高。在此情况下，可以按照S230，对生成网络输出的合成舞蹈信息进行处理。

S230，获取判别网络基于所述合成舞蹈信息输出的判别数据。

其中，判别数据可以理解成上文描述的真实性分数，或者也可以是真实性概率，真实性概率可以通过对真实性分数进行归一化处理而得到。

实施过程中，在获得生成网络310基于任一样本音乐信息的音乐特征输出的合成舞蹈信息后，该合成舞蹈信息可以被输入到判别网络320中，则判别网络320可以对合成舞蹈信息的真实性进行判断，从而输出合成舞蹈信息对应的真实性分数或真实性概率。

S250，基于所述判别数据调整所述生成网络的网络参数，使调整后的生成网络基于所述音乐特征输出的合成舞蹈信息被所述判别网络识别为真实舞蹈信息。

本实施例中，判别网络320是具有一定识别能力的网络，其可以比较准确地识别真实舞蹈信息和合成舞蹈信息。在此情况下，可以按照如下目标调整生成网络的网络参数：

假设调整前的生成网络基于样本音乐信息输出合成舞蹈信息s1，调整后的生成网络基于样本音乐信息输出合成舞蹈信息s2，那么，判别网络320基于合成舞蹈信息s2输出的判别数据所表征的真实程度，应该要高于判别网络320基于合成舞蹈信息s1输出的判别数据所表征的真实程度。

这样，通过调整生成网络的网络参数，可以逐步提升生成网络输出的合成舞蹈信息的真实性，从而达到输出的合成舞蹈信息难以被识别能力较高的判别网络320识别出真假的目的。

可以理解，上述对生成网络310调参的过程，即为对生成网络310的训练过程。当生成网络310在经过一定的训练后，满足设置的优化条件时，可以停止训练。此时的生成网络310可以视为是S270中的调整后的生成网络。这里的优化条件可以是达到设定的迭代次数，或是损失函数收敛，或是损失函数的函数值不再减小，或是生成网络基于不同样本音乐信息输出的合成舞蹈信息均被所述判别网络识别为真实舞蹈信息。本实施例对此没有限制。当生成网络满足优化条件时，可以停止对生成网络的训练。

经过训练的生成网络，其基于音乐特征输出的合成舞蹈信息中的舞蹈动作表示与三维骨架的舞蹈动作比较接近。在此情况下，调整后的生成网络输出的合成舞蹈信息经过一定的处理，可以形成三维人体形象的舞蹈动作。

S270，通过所述调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息。

本实施例中，调整后的生成网络可以是停止训练时的生成网络，也就是满足优化条件的生成网络。一些例子中，电子设备可以是终端设备100，则用户通过终端设备100的客户端110输入的音乐信息可以视为待处理音乐信息。另一些例子中，电子设备可以是服务器200，客户端110可以将用户上传的音乐信息发送给服务器200，该音乐信息可以视为S270中的待处理音乐信息。

下面以电子设备是服务器200为例，对S270进行阐述。客户端110可以显示有音乐信息列表，并可以响应检测到的选取操作，从音乐信息列表中确定该选取操作对应的音乐信息，该选取操作对应的音乐信息可以视为待处理音乐信息。客户端110可以将待处理音乐信息的标识发送给服务器200，这里的标识信息可以包括音乐名称、歌手等，或者可以是待处理音乐的链接地址，只要服务器200可以基于标识信息获得该待处理音乐信息即可。

服务器200获得待处理音乐信息后，可以从待处理音乐信息中提取音乐特征，可以将从待处理音乐信息中提取的音乐特征输入调整后的生成网络，获取调整后的生成网络基于该待处理音乐信息输出的合成舞蹈信息，并将获取的合成舞蹈信息作为待处理音乐对应的目标舞蹈信息。可以理解，在电子设备是终端设备100的情况下，处理过程类似，在此不再赘述。

相较于上述的两种实施方式，本实施例提供的方案，随着生成网络的不断调整，可以基于同一样本音乐信息生成多个不同的合成舞蹈信息，而每一个合成舞蹈信息经过判别网络得到的判别数据都是可以用于生成网络的调参过程的，也就是，可以实现以小体量的训练数据集实现对生成网络的训练。

此外，还有一些实施方式，可以采用基于自编码器的方法来实现音乐驱动舞蹈合成。详细地，可以在音乐自编码器与舞蹈自编码器的特征空间共享特征。比如，通过模型中的编码器对音乐进行编码，那估计得到的音乐编码特征作为模型中的舞蹈解码器的输入，从而解码得到舞蹈。但是，这种方式，是强行将音乐空间的特征转换为舞蹈空间的特征，导致合成的舞蹈不自然，本实施例提供的方案所合成的舞蹈，相较于这种方式更加自然。

并且，通常是计算合成舞蹈与样本音乐对应的真实舞蹈之间的损失值来实现对编码器和解码器的参数调整，即，使得合成舞蹈尽可能和真实舞蹈一样。由于难以获得大量的样本舞蹈，这样训练出来的模型生成的舞蹈总是与样本舞蹈的相似度较高，最终可能出现合成舞蹈总是千篇一律的情况。而这一点通过本实施例提供的方案可以得到改善。

具体地，本实施例的方案中，已训练的判别网络具有较强的识别舞蹈真假的能力，其从输入的舞蹈信息中提取的特征将会是比较能够表达舞蹈信息的真实性的特征。对应地，以已训练的判别网络输出的判别数据为监督信号对生成网络进行训练，可以使得生成网络输出的合成舞蹈信息具有越来越多的真实性特征，而并非只是单纯地与作为样本的真实舞蹈信息相同，从而使得通过本实施例的方案合成的舞蹈信息在更加真实的情况下，还具有多样性，不再千篇一律。

请参照图4，图4示出了本申请另一实施例提供的舞蹈合成方法的流程示意图，该方法可以应用于电子设备，如图1所示的终端设备100或服务器200。下面以电子设备是服务器200为例，对本实施例提供的方法进行详细介绍。

S410，获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息。

S420，获取判别网络基于所述合成舞蹈信息输出的第一判别数据。

本实施例中，S410的详细实现过程与S210类似。详细地，这里的音乐特征可以包括频谱特征和节奏特征。频谱特征例如可以是梅尔频谱特征，节奏特征例如可以是onset(即，音符起始点)特征。这里的节奏特征在一些场景中也可以称为强度特征。如此，可以使得生成网络基于该音乐特征输出的合成舞蹈信息，与音乐节奏、音乐旋律的一致性更好。

S430，获取所述判别网络基于所述样本音乐信息对应的真实舞蹈信息输出的第二判别数据。

其中，第一判别数据是指判别网络320基于合成舞蹈信息输出的判别数据，第二判别数据是指判别网络320基于真实舞蹈信息输出的判别数据。可以理解，当第一判别数据是真实性分数时，第二判别数据也是真实性分数；当第一判别数据是真实性概率时，第二判别数据也是真实性概率。

S440，基于所述第一判别数据和所述第二判别数据调整所述判别网络的网络参数，使调整后的判别网络基于所述合成舞蹈信息输出的第一判别数据与基于所述真实舞蹈信息输出的第二判别数据之间的差距增大。

本实施例中，为了使得训练效果更好，可以对生成网络和判别网络交替训练，即不断提升判别网络对于真实舞蹈信息和合成舞蹈信息的识别能力，那么，以判别网络输出的判别数据作为监督信号训练出的生成网络，其合成的舞蹈信息由于是难以被判别网络识别出真假，也势必将具有更好的真实性。

基于此，可以先按照S440对判别网络320的网络参数进行调整。

实施过程中，对于每一样本音乐信息，可以采集真人(如，专业舞蹈演员等)跟随该样本音乐信息跳舞的视频，并可以将采集的视频按视频帧转换成对于的真实舞蹈信息。本实施例中，真实舞蹈信息的表示方式与上述的合成舞蹈信息类似，只是，真实舞蹈信息是根据采集的舞蹈视频的每一视频帧中的人体动作得到的。

详细地，真实舞蹈信息包括每个视频帧对应的舞蹈动作表示，而该舞蹈动作表示包括该视频帧中每个关节点的旋转特征和位置特征。其中，根节点和其余每个关节点的旋转特征和位置特征的表示方式与上述的合成舞蹈信息类似，在此不再赘述。值得说明的是，通过对真实舞蹈信息进行处理，可以生成一三维人体形象的舞蹈视频，而这个舞蹈视频中的舞蹈动作与采集的舞蹈视频中的人体动作是基本一致的。

为了使得判别网络320具有更好的识别真假舞蹈的能力，通常希望判别网络320基于真实舞蹈信息输出的判别数据和基于合成舞蹈信息输出的差距尽可能大，这样，基于判别网络320输出的判别数据才可以给出置信度较高的判别结果。因此，可以以增大判别网络320输出的第一判别数据与第二判别数据之间的差异为训练目标，对判别网络320的网络参数进行调整，以提升判别网络320对于真假舞蹈的判别能力。在实际应用中，判别网络320基于舞蹈信息输出的判别数据与该舞蹈信息的真实程度之间的关系有多种情况。一种情况下，判别数据的大小可以与舞蹈信息的真实程度成正比。另一种情况下，判别数据的大小可以与舞蹈信息的真实程度成反比。下面以判别数据的大小与舞蹈信息的真实程度成正比为例，结合图5对S440的实现过程进行举例说明。

S441，基于第一损失函数对第一判别数据和第二判别数据进行计算，其中，第一损失函数的函数值与第一判别数据成正比、与第二判别数据成反比。

S442，调整判别网络的网络参数，使第一损失函数的函数值减小。

这里的第一损失函数也可以理解成用于训练判别网络320的目标函数，训练目标是最小化该目标函数(即，第一损失函数)的函数值。要使第一损失函数的函数值减小，需要缩小判别网络320基于样本音乐信息的合成舞蹈信息输出的第二判别数据，增大判别网络320基于样本音乐信息的真实舞蹈信息输出的第一判别数据。因此，可以以第一损失函数的函数值最小化，作为判别网络320的网络参数的调整目标。

一个示例中，第一损失函数例如可以是合页损失函数，具体可以表示为如下形式：

其中，D表示判别网络320，G表示生成网络310。m表示样本音乐信息的音乐特征，z表示生成网络310的输入噪声，G(m，z)表示生成网络310输出的合成舞蹈信息。D(G(m，z))表示的是判别网络320基于合成舞蹈信息输出的第一判别数据。x表示样本音乐信息对应的真实舞蹈信息，D(x)表示判别网络320基于真实舞蹈信息输出的第二判别数据。

如果控制D(x)为正且尽可能大，D(G(m,z))为负且尽可能小，可以减小式(4)的值。因此，以减小式(4)的值为训练目标来对判别网络320的网络参数进行调整，可以使判别网络320基于真实舞蹈信息输出的真实性分数为正且呈增大趋势，基于合成舞蹈信息输出的真实性分数为负且呈减小趋势，即，可以提高判别网络320对于真假舞蹈的判别能力。

另一个示例中，判别网络320可以包括多个不同尺度的判别器，这里的不同尺度可以是指包括的采样层的数量不同。如图3C所示，其中示例性地示出了判别网络320包括三个不同尺度的判别器的情况。在此示例中，判别网络320中的每个判别器都可以基于输入的合成舞蹈信息输出一第一判别数据，或者根据输入的真实舞蹈信息输出一第二判别数据。以图3C所示的判别网络320为例，基于输入的合成舞蹈信息，可以获得三个第一判别数据；基于输入的真实舞蹈信息，可以获得三个第二判别数据。在此情况下，S441可以通过图6所示的流程实现。

S441-1，针对每一判别器，获取所述判别器基于所述样本音乐信息对应的合成舞蹈信息输出的第一判别数据以及基于所述样本音乐信息对应的真实舞蹈信息输出的第二判别数据。

本实施例中，对于每一样本音乐信息，生成网络310可以基于该样本音乐信息的音乐特征输出合成舞蹈信息，这个合成舞蹈信息与样本音乐信息对应。此外，还可以基于该样本音乐信息采集一真实舞蹈视频，从而从该真实舞蹈视频中提取舞蹈动作表示，得到真实舞蹈信息。

分别将一个样本音乐信息对应的合成舞蹈信息和真实舞蹈信息输入判别网络320，则判别网络320中的每个判别器都可以根据输入的合成舞蹈信息输出一第一判别数据，根据输入的真实舞蹈信息输出一第二判别数据。图3C所示的判别器D₁、D₂、D₃均可以输出一第一判别数据和一第二判别数据。

S441-2，将目标值与所述第一判别数据之和确定为第一值，将0和所述第一值中较小的一者确定为所述判别器的对应于所述样本音乐信息的第一损失值。

S441-3，将目标值与所述第二判别数据之差确定为第二值，将0和所述第二值中较小的一者确定为所述判别器的对应于所述样本音乐信息的第二损失值。

S441-4，获取至少两个所述样本音乐信息对应的第一损失值的第一平均值，以及至少两个所述样本音乐信息对应的第二损失值的第二平均值，并将所述第一平均值和所述第二平均值之和确定为所述第一损失函数的函数值。

本实施例中，每个判别器可以具有对应的第一损失值和第二损失值，判别器D_k的第一损失值可以用于表征判别器D_k对样本音乐信息对应的合成舞蹈信息的判别准确度，判别器D_k的第二损失值可以用于表征判别器D_k对样本音乐信息对应的真实舞蹈信息的判别准确度。其中，D_k表示判别网络320中的第k个判别器，k为整数，并且1≤k≤N，其中，N表示判别网络320中的判别器的数量。

详细地，判别器D_k的第一损失值可以通过如下表达式获得：

min(0,1+D_k(G(m,z)))， (5)

在表达式(5)中，1可以视为上述的目标值。可以理解，目标值还可以是其他值，视判别器输出的判别数据的取值范围而定。本申请实施例对此没有限制。

对应地，判别器D_k可以基于多个样本音乐信息对应的合成舞蹈信息输出多个第一判别数据，基于该多个第一判别数据可以分别得到多个第一损失值。然后，可以按照如下所示的表达式(6)对这多个第一损失值求平均，从而得到第一平均值：

表达式(6)中，

中的

表示期望，即平均值；“s,z”表示当前是在对基于合成舞蹈信息对应的第一判别数据计算得到的第一损失值求平均。如上文描述的，“s”表示合成舞蹈信息，“z”为生成该合成舞蹈信息所使用的输入噪声。

可选地，判别器D_k的第二损失值可以通过如下表达式获得：

min(0,1-D_k(x))， (7)

对应地，判别器D_k可以基于多个样本音乐信息对应的真实舞蹈信息输出多个第二判别数据，基于该多个第二判别数据分别得到多个第二损失值。然后可以按照如下所示的表达式(8)对所述多个第二损失值求平均，从而得到第二平均值：

表达式(8)中，

中的

表示期望，即平均值；“x”表示当前是在对基于真实舞蹈信息对应的第一判别数据计算得到的第一损失值求平均。

第一损失函数可以是如下表达式(9)：

由于对判别网络320的训练目标是使第一损失函数的函数值(如，表达式(9)的值)减小，因而，对判别网络320的判别器D_k的网络参数的调整，应该使第一平均值和第二平均值分别减小。而要使第一平均值减小，需要减小第一损失值，从而可以使第一损失值min(0,1+D_k(G(m,z)))可以取负值而非0，在此情况下，可以调整判别器D_k的网络参数，使min(0,1+D_k(G(m,z)))可以取负值且绝对值足够大(至少大于目标值，即1)。对应地，当第一损失值足够小时，表示判别器D_k对合成舞蹈信息的判别能力较优。

类似地，要使第二平均值减小，需要减小第二损失值，从而可以使第二损失值min(0,1-D_k(x))取负值而非0，在此情况下，可以调整判别器D_k的网络参数，使D_k(x)可以取正值且绝对值足够大(至少大于目标值，即1)。基于此，当第二损失值足够小时，表示判别器D_k对于真实舞蹈信息的判别能力较优。

值得说明的是，本申请实施例中，如果判别数据的大小与舞蹈信息的真实程度成反比，则可以选取函数值与第一判别数据成反比、与第二判别数据成正比的函数作为第一损失函数，这种情况下的详细实现原理与判别数据的大小和舞蹈信息的真实程度成正比的情况是类似的，在这里不再赘述。

本实施例中，基于式(9)中的第一损失函数，可以对判别网络320中的各个判别器进行训练，从而提升各判别器对真假舞蹈的判别能力，进而再将判别网络320应用于生成网络310的训练过程。

S450，基于所述第一判别数据调整所述生成网络的网络参数，使调整后的生成网络基于所述音乐特征输出的合成舞蹈信息被调整后的判别网络识别为真实舞蹈信息。

本实施例中，S450的详细实现过程与S250类似。值得说明的是，在S450中，也可以基于调整后的判别网络根据合成舞蹈信息输出的第一判别数据，来调整生成网络310的网络参数，本实施例对此没有限制。

可选地，本实施例中，S450可以通过图7所示的流程实现。详细介绍如下。

S451，基于第二损失函数对第一判别数据进行计算，其中，所述第二损失函数的函数值与所述第一判别数据成反比。

S452，调整所述生成网络的网络参数，使所述第二损失函数的函数值减小。

可以理解，图7所示流程是针对判别网络320输出的判别数据与舞蹈信息的真实程度成正比的情况，而给出的示例。在此情况下，以减小第二损失函数的函数值为训练目标，意味着对生成网络310的网络参数所做出的调整，需要使调整后的生成网络310输出的合成舞蹈信息更加容易被判别网络320错误地识别为真实舞蹈信息。也就是，使调整后的生成网络310输出的合成舞蹈信息具有更多真实舞蹈信息的特征。

对于判别网络320输出的判别数据与舞蹈信息的真实程度成反比的情况，其实现原理与图7所示流程类似，在此不再赘述。

一个示例中，S441中的第二损失函数例如可以是如下表达式：

其中，G表示生成网络310，G(m,z)表示生成网络310基于某一样本音乐信息的音乐特征m和输入噪声z输出的合成舞蹈信息，D(G(m,z))表示判别网络320(或调整后的判别网络)基于合成舞蹈信息G(m,z)输出的第一判别数据。

表示对基于不同合成舞蹈信息得到的第一判别数据求平均。

另一个示例中，判别网络320可以包括多个判别器，比如图3C所示的判别器D₁、D₂和D₃。每个判别器可以根据输入的舞蹈信息输出对应的判别数据。在此情况下，S451可以通过图8所示的流程实现。

S451-1，获取每个判别器针对合成舞蹈信息输出的第一判别数据的相反数，并对获取的各相反数求和，得到所述判别网络的第三损失值。

S451-2，获取至少两个所述合成舞蹈信息对应的第三损失值，对获取的第三损失值求平均，并将得到的平均值确定为第二损失函数的函数值。

本实施例中，针对每一合成舞蹈信息可以确定一第三损失值。任一合成舞蹈信息对应的第三损失值与各判别器分别针对该合成舞蹈信息输出的第一判别数据有关联，可以反映生成网络输出的该合成舞蹈信息的真实程度。具体地，第三损失值越小，表示生成网络输出的合成舞蹈信息的真实程度越高。

可选地，第二损失函数可以是如下所示的表达式：

表达式(11)中，D_k(G(m,z))表示的是判别网络中第k个判别器根据合成舞蹈信息G(m,z)输出的第一判别数据，-D_k(G(m,z))即为该第一判别数据的相反数。

表示对多个合成舞蹈信息各自对应的第三损失值求平均。这里的多个合成舞蹈信息可以是基于一个样本音乐信息得到的，在此情况下，可以在生成网络输出基于样本音乐信息输出一合成舞蹈信息sd1后，获取判别网络基于该合成舞蹈信息sd1输出的第一判别数据，进而根据该第一判别数据调整生成网络的网络参数。调整后的生成网络可以根据样本音乐信息输出合成舞蹈信息sd2，由于生成网络的网络参数已经改变，合成舞蹈信息sd2与sd1也有差异。这样，相当于可以利用少数的样本音乐信息获得大量的合成舞蹈信息，以用于对生成网络的训练，解决了样本数量少所带来的训练效果不佳的问题。

当然，上述的多个合成舞蹈信息也可以是生成网络分别基于至少两个样本音乐信息输出的合成舞蹈信息，本实施例对此没有限制。

考虑到判别网络是用于判别输入的舞蹈信息是否真实的网络，而经过训练的判别网络已经具有比较可信的判别能力，因而，经过训练的判别网络从输入的舞蹈信息中提取的是可以反映该舞蹈信息的真实性的特征。在此情况下，S450还可以包括图9所示的流程。

S453，获取判别网络从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，以及从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图。

本实施例中，这里的第一特征图和第二特征图均可以是判别网络的中间卷积层输出的特征图。

S454，基于第三损失函数对所述第二特征图与所述第一特征图进行计算，并调整所述生成网络的网络参数，使所述第三损失函数的函数值减小。

通过S454，可以缩小生成网络输出的合成舞蹈信息的真实性特征与真实舞蹈信息的真实性特征之间的差距，从而使合成舞蹈信息更具真实性，更自然。

可选地，判别网络可以包括多个判别器，在此情况下，S453可以包括图10所示的S453-1，S454则可以包括图10所示的S454-1和S454-2。

S453-1，针对判别网络中的每个判别器，获取所述判别器从样本音乐信息对应的真实舞蹈信息中提取的第一特征图，获取所述判别器从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图。

S454-1，针对每个样本音乐信息，分别获取每个判别器从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图与从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图之差的绝对值，并对获取的各绝对值求平均，得到第三平均值。

S454-2，对分别基于各样本音乐信息得到的第三平均值求平均，得到第四平均值，并根据第四平均值确定所述第三损失函数的函数值。

详细地，每个样本音乐信息i都具有对应的真实舞蹈信息，并且生成网络可以基于该样本音乐信息获得N_i个合成舞蹈信息。而对于该真实舞蹈信息，每个判别器都会输出一第二判别数据；对于N_i个合成舞蹈信息，每个判别器都会输出N_i个第一判别数据。基于此，第三损失函数可以通过如下表达式实现：

其中，G表示生成网络，D表示判别网络，x表示真实舞蹈信息，m表示音乐特征，z表示生成网络的输入噪声。pdata表示样本数据，每个样本数据包括一样本音乐信息及该样本音乐信息对应的真实舞蹈信息，T为样本数据的总量。针对每一样本音乐信息，基于对生成网络的网络参数的不断调整，可以获得一个或多个合成舞蹈信息，其中，针对第i个样本音乐信息获得的合成舞蹈信息的数量为N_i。

表示判别网络中的第k个判别器基于样本音乐信息i对应的真实舞蹈信息输出的第一特征图。

表示第k个判别器基于样本音乐信息i对应的任一合成舞蹈信息输出的第二特征图。“||||₁”表示L1范数。

表达式(12)的处理过程为：

对于样本音乐信息i，通过生成网络得到N_i个合成舞蹈信息。获取判别网络分别从N_i个合成舞蹈信息中提取的N_i个第二特征图D⁽ⁱ⁾(G(m，z))，及判别网络从样本音乐信息i对应的真实舞蹈信息中提取的第一特征图D⁽ⁱ⁾(x)，并分别获取N_i个第二特征图D⁽ⁱ⁾(G(m，z))各自与第一特征图D⁽ⁱ⁾(x)之差的绝对值，并对获取的绝对值求平均，即可得到S444-1中的第三平均值；如果样本音乐信息的数量为T，则按照前述流程可以获得T个第三平均值，通过对T个第三平均值进一步求平均，可以得第四平均值，这里的第四平均值可以视为第k个判别器的特征图损失；对应地，判别网络中的每个判别器都具有对应的特征图损失，通过对判别网络中多个判别器的特征图损失(即，第四平均值)求平均，即可得到判别网络中各判别器的特征图损失值的期望，该期望可以作为第三损失函数的函数值。

可选地，一些情况下，也可以将第二损失函数和第三损失函数加权求和为一个损失函数，再以减小这个损失函数的函数值为训练目标，对生成网络的网络参数进行调整。

实施过程可以按照S410-S440及其相关介绍中描述的针对判别网络的训练过程，以及S450及其相关介绍中描述的针对生成网络的训练过程，对判别网络和生成网络进行交替训练，直至生成网络满足相应的优化条件。这里的优化条件与上文类似。

在停止训练，获得调整后的生成网络后，可以对调整后的生成网络进行测试。详细地，可以获取一测试数据集，测试数据集包括多个测试音乐信息。测试过程中，可以提取每个测试音乐信息的音乐特征，并获取调整后的生成网络基于该音乐特征输出的合成舞蹈信息，从而可以根据合成舞蹈信息的效果来确定调整后的生成网络输出的合成舞蹈信息是否符合需求，这里的需求例如可以是逼真程度、多样化程度、与音乐节奏和旋律的契合程度等。

S460，通过所述调整后的生成网络，将待处理音乐合成为目标舞蹈信息。

本实施例中，S460的详细实现过程与上述实施例中的S270类似。详细地，S460可以按照如下流程实现：

针对待处理音乐信息的每一音频帧，从所述音频帧中提取频谱特征和节奏特征，并将提取的频谱特征和节奏特征拼接成所述音频帧对应的音乐特征；获取所述调整后的生成网络根据所述音频帧对应的音乐特征输出的舞蹈动作向量，所述舞蹈动作向量包括三维骨架上的关节点的旋转特征向量和位置特征向量；按照获取顺序将获取的各舞蹈动作向量拼接成目标舞蹈信息。

其中，频谱特征和节奏特征可以是从每一音频帧的声波信息中提取得到的，请参照图11，其中示出了待处理音乐信息的声波示意图、梅尔(Mel)频谱图和Onset示意图。

如此，基于待处理音乐信息的每一音频帧，生成网络可以输出对应视频帧中的舞蹈动作表示，将获取的各视频帧的舞蹈动作表示依次拼接，得到的就是舞蹈视频中按时间顺序排列的多个舞蹈动作表示。

可以理解，从样本音乐信息中提取音乐特征，并获取生成网络基于音乐特征输出的合成舞蹈信息的过程，与上述S460的流程类似。

通过S460得到的目标舞蹈信息还只是向量形式的舞动动作表示，如图12所示，直接按照目标舞蹈信息显示，呈现的将会是三维骨架形式的舞蹈动作。因而，在执行S460之后，本实施例提供的舞蹈合成方法还可以包括S470和S480。

S470，对所述目标舞蹈信息中与每一音频帧对应的舞蹈动作向量所表征的三维骨架进行渲染处理和蒙皮处理，得到该音频帧对应的虚拟形象视频帧。

S480，播放所述虚拟形象视频帧。

示例性地，可以按照设定的虚拟形象模板，对三维骨架进行渲染处理和蒙皮处理；也可以根据当前登录用户的用户信息所对应的虚拟形象模板，对三维骨架进行渲染处理和蒙皮处理。本实施例对此没有限制。可以理解，这里的播放可以是，服务器200向客户端110发送虚拟形象视频帧或者各虚拟形象视频帧组成的虚拟形象舞蹈视频，并在客户端110进行播放。如此，客户端110可以向用户展示如图13所示的虚拟形象舞蹈。

通过本实施例提供的舞蹈合成方法，一方面通过对判别网络和生成网络交替训练，采用经过训练的判别网络为生成网络的训练过程提供监督信号，既可以基于较少的样本音乐信息和真实舞蹈信息实现较佳的训练效果，又可以使训练得到的生成网络所输出的合成舞蹈信息具有多样性。并且，由于生成网络采用时序卷积和空洞卷积配合的结构，可以有效地利用长序列时序信息。而判别网络采用多个不同尺度的判别器的结构，可以在多个尺度上输出判别数据和隐特征(即，特征图)，从而可以一并基于判别数据和特征图来调整生成网络的网络参数，使得生成网络的训练更加容易。

请参阅图14，其示出了本申请实施例提供的一种舞蹈合成装置的结构框图。该装置1400可以包括获取模块1410、训练模块1420以及合成模块1430。

其中，获取模块1410用于获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于所述合成舞蹈信息输出的判别数据。

训练模块1420用于基于所述判别数据调整所述生成网络的网络参数，使调整后的生成网络基于所述音乐特征输出的合成舞蹈信息被所述判别网络识别为真实舞蹈信息。

合成模块1430用于通过调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息。

可选地，所述判别数据为第一判别数据。训练模块1420在基于所述判别数据调整所述生成网络的网络参数之前，还可以用于：获取所述判别网络基于所述样本音乐信息对应的真实舞蹈信息输出的第二判别数据；基于所述第一判别数据和所述第二判别数据调整所述判别网络的网络参数，使调整后的判别网络基于所述合成舞蹈信息输出的第一判别数据与基于所述真实舞蹈信息输出的第二判别数据之间的差距增大。

可选地，所述判别网络用于在基于任一舞蹈信息输出的判别数据为正时，输出表征该舞蹈信息是真实舞蹈信息的判别结果，且该判别结果的置信度与该判别数据的大小成正比。在此情况下，训练模块1420基于所述第一判别数据和所述第二判别数据调整所述判别网络的网络参数的方式可以是：

基于第一损失函数对所述第一判别数据和所述第二判别数据进行计算，其中，所述第一损失函数的函数值与所述第一判别数据成正比、与所述第二判别数据成反比；调整所述判别网络的网络参数，使所述第一损失函数的函数值减小。

可选地，所述判别网络包括至少两个不同尺度的判别器，每个判别器用于根据输入的合成舞蹈信息输出一第一判别数据或根据输入的真实舞蹈信息输出一第二判别数据。在此情况下，训练模块1420基于第一损失函数对所述第一判别数据和所述第二判别数据进行计算的方式可以是：

针对每一判别器，获取所述判别器基于所述样本音乐信息对应的合成舞蹈信息输出的第一判别数据以及基于所述样本音乐信息对应的真实舞蹈信息输出的第二判别数据；将目标值与所述第一判别数据之和确定为第一值，将0和所述第一值中较小的一者确定为所述判别器的对应于所述样本音乐信息的第一损失值；将目标值与所述第二判别数据之差确定为第二值，将0和所述第二值中较小的一者确定为所述判别器的对应于所述样本音乐信息的第二损失值；获取至少两个所述样本音乐信息对应的第一损失值的第一平均值，以及至少两个所述样本音乐信息对应的第二损失值的第二平均值，并将所述第一平均值和所述第二平均值之和确定为所述第一损失函数的函数值。

可选地，训练模块1420基于所述判别数据调整所述生成网络的网络参数的方式可以包括：

基于第二损失函数对所述第一判别数据进行计算，其中，所述第二损失函数的函数值与所述第一判别数据成反比；调整所述生成网络的网络参数，使所述第二损失函数的函数值减小。

可选地，所述判别网络包括至少两个不同尺度的判别器，每个判别器用于根据输入的合成舞蹈信息输出一第一判别数据。在此情况下，训练模块1420基于第二损失函数对所述第一判别数据进行计算的方式可以是：

获取每个判别器针对所述合成舞蹈信息输出的第一判别数据的相反数，并对获取的各相反数求和，得到所述判别网络的第三损失值；获取至少两个所述合成舞蹈信息对应的第三损失值，对获取的第三损失值求平均，并将得到的平均值确定为所述第二损失函数的函数值。

可选地，训练模块1420基于所述判别数据调整所述生成网络的网络参数还可以包括：

获取所述判别网络从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，以及从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图；基于第三损失函数对所述第二特征图与所述第一特征图进行计算，并调整所述生成网络的网络参数，使所述第三损失函数的函数值减小。

可选地，所述判别网络包括至少两个判别器，在此情况下，训练模块1420获取所述判别网络从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，以及从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图的方式可以是：

针对所述判别网络中的每个判别器，获取所述判别器从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，获取所述判别器从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图。

而训练模块1420基于第三损失函数对所述第二特征图与所述第一特征图进行计算，并调整所述生成网络的网络参数的方式可以是：

针对每个样本音乐信息，分别获取每个判别器从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图与从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图之差的绝对值，并对获取的各绝对值求平均，得到第三平均值；对分别基于各样本音乐信息得到的第三平均值求平均，得到第四平均值，并根据所述第四平均值确定所述第三损失函数的函数值。

可选地，合成模块1430通过调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息的方式可以是：

针对所述待处理音乐信息的每一音频帧，从所述音频帧中提取频谱特征和节奏特征，并将提取的频谱特征和节奏特征拼接成所述音频帧对应的音乐特征；获取所述调整后的生成网络根据所述音频帧对应的音乐特征输出的舞蹈动作向量，所述舞蹈动作向量包括三维骨架上的关节点的旋转特征向量和位置特征向量；按照获取顺序将获取的各舞蹈动作向量拼接成所述目标舞蹈信息。

可选地，生成网络可以包括依次连接的第一时序卷积层、至少两个残差网络结构以及第二时序卷积层，其中，每个残差网络结构包括一空洞卷积层，该空洞卷积层的输入信息被叠加至该空洞卷积层的输出信息，所述第一时序卷积层和所述第二时序卷积层具有相同尺寸的卷积核。

可选地，装置1400还可以包括播放模块。播放模块可以用于：对所述目标舞蹈信息中与每一音频帧对应的舞蹈动作向量所表征的三维骨架进行渲染处理和蒙皮处理，得到该音频帧对应的虚拟形象视频帧；播放所述虚拟形象视频帧。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图15，其示出了本申请实施例提供的一种电子设备1500的结构框图。本申请中的电子设备1500可以是图1所示的终端设备100或服务器200，电子设备1500可以包括一个或多个如下部件：处理器1510、存储器1520、以及一个或多个程序，其中一个或多个程序可以被存储在存储器1520中并被配置为由一个或多个处理器1510执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1510可以包括一个或者多个处理核。处理器1510利用各种接口和线路连接整个电子设备1500内的各个部分，通过运行或执行存储在存储器1520内的指令、程序、代码集或指令集，以及调用存储在存储器1520内的数据，执行电子设备1500的各种功能和处理数据。可选地，处理器1510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1510可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1510中，单独通过一块通信芯片进行实现。

存储器1520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1520可用于存储指令、程序、代码、代码集或指令集。存储器1520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1500在使用中所创建的数据(比如样本音乐信息、合成舞蹈信息)等。

请参考图16，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1600包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1600具有执行上述方法中的任何方法步骤的程序代码1610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1610可以例如以适当形式进行压缩。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质(如，1600)中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请上述实施例提供的舞蹈合成方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种舞蹈合成方法，其特征在于，包括：

获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于所述合成舞蹈信息输出的判别数据；

基于所述判别数据调整所述生成网络的网络参数，使调整后的生成网络基于所述音乐特征输出的合成舞蹈信息被所述判别网络识别为真实舞蹈信息；

通过所述调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息。

2.根据权利要求1所述的方法，其特征在于，所述判别数据为第一判别数据，在所述基于所述判别数据调整所述生成网络的网络参数之前，所述方法还包括：

获取所述判别网络基于所述样本音乐信息对应的真实舞蹈信息输出的第二判别数据；

基于所述第一判别数据和所述第二判别数据调整所述判别网络的网络参数，使调整后的判别网络基于所述合成舞蹈信息输出的第一判别数据与基于所述真实舞蹈信息输出的第二判别数据之间的差距增大。

3.根据权利要求2所述的方法，其特征在于，所述判别网络用于在基于任一舞蹈信息输出的判别数据为正时，输出表征该舞蹈信息是真实舞蹈信息的判别结果，且该判别结果的置信度与该判别数据的大小成正比；所述基于所述第一判别数据和所述第二判别数据调整所述判别网络的网络参数，包括：

基于第一损失函数对所述第一判别数据和所述第二判别数据进行计算，其中，所述第一损失函数的函数值与所述第一判别数据成正比、与所述第二判别数据成反比；

调整所述判别网络的网络参数，使所述第一损失函数的函数值减小。

4.根据权利要求3所述的方法，其特征在于，所述判别网络包括至少两个不同尺度的判别器，每个判别器用于根据输入的合成舞蹈信息输出一第一判别数据或根据输入的真实舞蹈信息输出一第二判别数据；所述基于第一损失函数对所述第一判别数据和所述第二判别数据进行计算，包括：

针对每一判别器，获取所述判别器基于所述样本音乐信息对应的合成舞蹈信息输出的第一判别数据以及基于所述样本音乐信息对应的真实舞蹈信息输出的第二判别数据；

将目标值与所述第一判别数据之和确定为第一值，将0和所述第一值中较小的一者确定为所述判别器的对应于所述样本音乐信息的第一损失值；

将目标值与所述第二判别数据之差确定为第二值，将0和所述第二值中较小的一者确定为所述判别器的对应于所述样本音乐信息的第二损失值；

获取至少两个所述样本音乐信息对应的第一损失值的第一平均值，以及至少两个所述样本音乐信息对应的第二损失值的第二平均值，并将所述第一平均值和所述第二平均值之和确定为所述第一损失函数的函数值。

5.根据权利要求2-4中任意一项所述的方法，其特征在于，所述基于所述判别数据调整所述生成网络的网络参数，包括：

基于第二损失函数对所述第一判别数据进行计算，其中，所述第二损失函数的函数值与所述第一判别数据成反比；

调整所述生成网络的网络参数，使所述第二损失函数的函数值减小。

6.根据权利要求5所述的方法，其特征在于，所述判别网络包括至少两个不同尺度的判别器，每个判别器用于根据输入的合成舞蹈信息输出一第一判别数据；所述基于第二损失函数对所述第一判别数据进行计算，包括：

获取每个判别器针对所述合成舞蹈信息输出的第一判别数据的相反数，并对获取的各相反数求和，得到所述判别网络的第三损失值；

获取至少两个所述合成舞蹈信息对应的第三损失值，对获取的第三损失值求平均，并将得到的平均值确定为所述第二损失函数的函数值。

7.根据权利要求5所述的方法，其特征在于，所述基于所述判别数据调整所述生成网络的网络参数，还包括：

获取所述判别网络从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，以及从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图；

基于第三损失函数对所述第二特征图与所述第一特征图进行计算，并调整所述生成网络的网络参数，使所述第三损失函数的函数值减小。

8.根据权利要求7所述的方法，其特征在于，所述判别网络包括至少两个判别器，所述获取所述判别网络从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，以及从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图，包括：

针对所述判别网络中的每个判别器，获取所述判别器从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图，获取所述判别器从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图；

所述基于第三损失函数对所述第二特征图与所述第一特征图进行计算，包括：

针对每个样本音乐信息，分别获取每个判别器从所述样本音乐信息对应的合成舞蹈信息中提取的第二特征图与从所述样本音乐信息对应的真实舞蹈信息中提取的第一特征图之差的绝对值，并对获取的各绝对值求平均，得到第三平均值；

对分别基于各样本音乐信息得到的第三平均值求平均，得到第四平均值，并根据所述第四平均值确定所述第三损失函数的函数值。

9.根据权利要求1-4中任意一项所述的方法，其特征在于，所述通过所述调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息，包括：

针对所述待处理音乐信息的每一音频帧，从所述音频帧中提取频谱特征和节奏特征，并将提取的频谱特征和节奏特征拼接成所述音频帧对应的音乐特征；

获取所述调整后的生成网络根据所述音频帧对应的音乐特征输出的舞蹈动作向量，所述舞蹈动作向量包括三维骨架上的关节点的旋转特征向量和位置特征向量；

按照获取顺序将获取的各舞蹈动作向量拼接成所述目标舞蹈信息。

10.根据权利要求9所述的方法，其特征在于，所述生成网络包括时序卷积层和至少一个残差网络结构，所述残差网络结构包括一空洞卷积层，该空洞卷积层的输入信息被叠加至该空洞卷积层的输出信息。

11.根据权利要求10所述的方法，其特征在于，在所述通过所述调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息之后，所述方法还包括：

对所述目标舞蹈信息中与每一音频帧对应的舞蹈动作向量所表征的三维骨架进行渲染处理和蒙皮处理，得到该音频帧对应的虚拟形象视频帧；

播放所述虚拟形象视频帧。

12.一种舞蹈合成装置，其特征在于，包括：

获取模块，用于获取生成网络根据样本音乐信息的音乐特征输出的合成舞蹈信息，获取判别网络基于所述合成舞蹈信息输出的判别数据；

训练模块，用于基于所述判别数据调整所述生成网络的网络参数，使调整后的生成网络基于所述音乐特征输出的合成舞蹈信息被所述判别网络识别为真实舞蹈信息；

合成模块，用于通过所述调整后的生成网络，将待处理音乐信息合成为目标舞蹈信息。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储于所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-11中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11中任意一项所述的方法。