CN115861491A

CN115861491A - 舞蹈动画的生成方法、电子设备、存储介质和程序产品

Info

Publication number: CN115861491A
Application number: CN202211439287.9A
Authority: CN
Inventors: 何艾莲; 曾裕斌; 黄均昕; 董治; 姜涛; 周文江
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-28

Abstract

本申请涉及一种舞蹈动画的生成方法、电子设备、存储介质和计算机程序产品。所述方法包括：获取目标音频的音频特征；音频特征用于表征目标音频的节奏类型和风格类型；获取对应于音频特征的多个初始动作特征；多个初始动作特征与音频特征之间的节奏类型和风格类型相同，且用于展示多个初始动作特征的图像帧的长度与用于展示音频特征的音频帧的长度相同；根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列；根据舞蹈动作序列，生成针对于目标音频的舞蹈动画。上述方法能够增强减少人力和时间成本的消耗，以及增强舞蹈动画的表现力和感染力，以提升用户体验。

Description

舞蹈动画的生成方法、电子设备、存储介质和程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种舞蹈动画的生成方法、电子设备、存储介质和计算机程序产品。

背景技术

随着互联网技术的发展，社交网络上的虚拟主播越来越火，虚拟人物的动态表演受到越来越多人的喜爱，因此，驱动3D虚拟人物随着音乐的旋律进行舞蹈也成为了非常热门的研究课题。

在传统的虚拟人物舞蹈动画的制作中，一般分为三个步骤，第一步，由音乐分析师解构音乐，专业编舞师依据现有音乐及解构结果进行舞蹈的动作设计和编排；第二步，由舞蹈演员进行舞蹈，并对舞蹈动作进行捕捉，并根据捕捉结果制作保存舞蹈动作对应的数字模型，第三步，由动画师对动作进行精修，根据精修后的动作和音乐生成音乐舞蹈动画。

然而，目前虚拟人物的编舞方式中需依赖于大量的专业人工操作，从而极大增加了人力和时间成本，并且真实的舞蹈动作在空间上有一定规则和范式，并非是所有物理上可行的3D人体姿势都适用于虚拟人物的舞蹈动作，从而生成的音乐舞蹈动画往往表现的不够稳定(比如经常会出现僵住或轻微的晃动动作)，导致虚拟人物的舞蹈动作缺乏表现力和感染力。

发明内容

本公开提供一种舞蹈动画的生成方法、电子设备、存储介质和计算机程序产品，以至少解决相关技术中人力和时间成本耗费过大和舞蹈动画表现不优的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种舞蹈动画的生成方法，包括：

获取目标音频的音频特征；所述音频特征用于表征所述目标音频的节奏类型和风格类型；

获取对应于所述音频特征的多个初始动作特征；所述多个初始动作特征与所述音频特征之间的节奏类型和风格类型相同，且用于展示所述多个初始动作特征的图像帧的长度与用于展示所述音频特征的音频帧的长度相同；

根据所述音频特征和所述多个初始动作特征之间表达内容的相关性，融合所述音频特征和所述多个初始动作特征，得到对应的舞蹈动作序列；

根据所述舞蹈动作序列，生成针对于所述目标音频的舞蹈动画。

在一示例性实施例中，所述根据所述音频特征和所述多个初始动作特征之间表达内容的相关性，融合所述音频特征和所述多个初始动作特征，得到对应的舞蹈动作序列，包括：

对所述音频特征和所述多个初始动作特征分别进行至少两次的卷积操作，以获取所述音频特征和所述多个初始动作特征各自对应的至少两个注意力区域；所述卷积操作包括对所述音频特征和所述多个初始动作特征进行局部特征增强，在每一所述注意力区域中包括对相应的所述音频特征或者所述多个初始动作特征进行局部特征增强的局部特征集合；

根据所述音频特征对应的各注意力区域内的局部特征集合和所述初始动作特征对应的各注意力区域内的局部特征集合之间的相似程度，确定所述音频特征和所述多个初始动作特征之间的模态距离；所述模态距离用于表征所述音频特征和所述多个初始动作特征之间表达内容的相关性；

根据所述模态距离，融合所述音频特征和所述多个初始动作特征，得到所述舞蹈动作序列。

在一示例性实施例中，所述对所述音频特征和所述多个初始动作特征分别进行至少两次的卷积操作，包括：

对所述音频特征和所述多个初始动作特征分别进行至少两次的拉远处理，得到拉远处理后的音频特征和初始动作特征；

对每一次拉远处理后的音频特征进行通道注意力增强处理和空间注意力增强处理，以及对每一次拉远处理后的初始动作特征进行通道注意力增强处理和空间注意力增强处理。

在一示例性实施例中，所述获取所述音频特征和所述多个初始动作特征各自对应的至少两个注意力区域，包括：

分别从各次进行所述卷积操作后的所述音频特征中提取出进行所述局部特征增强的局部特征集合，以获取针对于所述音频特征的至少两个注意力区域；以及

分别从各次进行所述卷积操作后的所述多个初始动作特征中提取出进行所述局部特征增强的局部特征集合，以获取针对于所述多个初始动作特征的至少两个注意力区域；

其中，所述音频特征和所述多个初始动作特征各自对应不同的所述注意力区域的局部特征集合不相同。

在一示例性实施例中，所述根据所述模态距离，融合所述音频特征和所述多个初始动作特征，得到所述舞蹈动作序列，包括：

将各次进行所述卷积操作后的音频特征进行特征融合，得到针对于所述目标音频的全局音频特征；以及

根据所述模态距离，对各所述注意力区域内的音频特征和初始动作特征进行关联处理，得到关联处理后的音频动作特征；

融合所述全局音频特征和所述关联处理后的音频动作特征，得到所述舞蹈动作序列。

在一示例性实施例中，所述根据所述模态距离，对各所述注意力区域内的音频特征和初始动作特征进行关联处理，包括：

在各注意力区域内，对所述模态距离大于预设距离值的音频特征和对应的初始动作特征进行拉近处理和对齐处理；以及

在各注意力区域内，对所述模态距离小于或者等于所述预设距离值的音频特征和对应的初始动作特征进行掩盖处理。

在一示例性实施例中，所述融合所述全局音频特征和所述关联处理后的音频动作特征，得到所述舞蹈动作序列，包括：

确定各所述注意力区域之间对应关联处理后的音频动作特征的平均音频特征和平均初始动作特征；

按照所述多个初始动作特征之间对应各图像帧的次序，将所述全局音频特征、所述平均音频特征和所述平均初始动作特征进行特征融合，得到所述舞蹈动作序列。

在一示例性实施例中，在得到对应的舞蹈动作序列之后，还包括：

在所述舞蹈动作序列的各舞蹈动作中，将所述音频特征和所述多个初始动作特征之间模态距离大于预设距离值所对应的舞蹈动作分类为动态舞蹈动作；以及

在所述舞蹈动作序列的各舞蹈动作中，将所述音频特征和所述多个初始动作特征之间模态距离小于或者等于所述预设距离值所对应的舞蹈动作分类为静态舞蹈动作。

在一示例性实施例中，所述根据所述舞蹈动作序列，生成针对于所述目标音频的舞蹈动画，包括：

按照所述舞蹈动作序列中各舞蹈动作之间的先后次序，对所述舞蹈动作序列中的动态舞蹈动作和静态舞蹈动作进行拼接，以生成针对于所述目标音频的舞蹈动画。

在一示例性实施例中，在所述获取目标音频的音频特征之后，还包括：

根据所述目标音频的各个节奏点对所述音频特征进行片段分割，得到多个音频特征片段；

所述获取对应于所述目标音频的多个初始动作特征，包括：

从预设的初始动作特征数据库中获取与每一所述音频特征片段的节奏类型和风格类型相同的至少一个初始动作特征。

在一示例性实施例中，所述音频特征为梅尔频谱特征；

在生成针对于所述目标音频的舞蹈动画之后，还包括：

根据所述舞蹈动作序列中各动态舞蹈动作所对应的梅尔频谱特征，确定各所述动态舞蹈动作对应的节奏类型和风格类型；

根据各所述动态舞蹈动作的节奏类型和风格类型，对预设的所述初始动作特征数据库进行更新。

根据本公开实施例的第二方面，提供一种舞蹈动画的生成装置，包括：

第一获取单元，被配置为执行获取目标音频的音频特征；所述音频特征用于表征所述目标音频的节奏类型和时序信息；

第二获取单元，被配置为执行获取对应于所述音频特征的多个初始动作特征；所述多个初始动作特征的节奏类型与所述音频特征的节奏类型相同，以及所述多个初始动作特征的总和时序信息与所述音频特征的时序信息相同；

特征融合单元，被配置为执行根据所述音频特征和所述多个初始动作特征之间表达内容的相关性，融合所述音频特征和所述多个初始动作特征，得到对应的舞蹈动作序列；

动画生成单元，被配置为执行根据所述舞蹈动作序列，生成针对于所述目标音频的舞蹈动画。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如上述任一项所述的舞蹈动画的生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，当所述计算机程序由电子设备的处理器执行时，使得所述电子设备能够执行如上述任一项所述的舞蹈动画的生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括程序指令，所述程序指令被电子设备的处理器执行时，使得所述电子设备能够执行如上述任一项所述的舞蹈动画的生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

该方法先通过获取目标音频的音频特征；其中，音频特征用于表征目标音频的节奏类型和风格类型；然后，再获取对应于音频特征的多个初始动作特征；其中，多个初始动作特征与音频特征之间的节奏类型和风格类型相同，且用于展示多个初始动作特征的图像帧的长度与用于展示音频特征的音频帧的长度相同；然后，再根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列；最后，根据舞蹈动作序列，生成针对于目标音频的舞蹈动画。这样，一方面，利用用户输入的音乐与对应的多个初始动作特征来生成舞蹈动画，能够使得舞蹈动画的动作不依赖于人工的动作捕捉，从而优化了舞蹈动画的制作流程，以增强减少了人力和时间成本的消耗；另一方面，通过将节奏类型、风格类型和长度相同的音频特征和初始动作特征进行融合，以生成针对于用户目标音频的舞蹈动画，能够提升舞蹈动作序列中音乐与舞蹈动作之间表达内容的一致性，从而增强了舞蹈动画的表现力和感染力，以提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种舞蹈动画的生成方法的应用环境图。

图2是根据一示例性实施例示出的一种舞蹈动画的生成方法的流程图。

图3是根据一示例性实施例示出的一种提取的梅尔频谱特征步骤的界面图。

图4是根据一示例性实施例示出的一种初始动作特征对应的虚拟对象的界面图。

图5是根据一示例性实施例示出的第一种融合音频特征和多个初始动作特征的流程示意图。

图6是根据另一示例性实施例示出的一种对音频特征和初始动作特征进行卷积操作步骤的流程示意图。

图7是根据另一示例性实施例示出的第二种融合音频特征和多个初始动作特征步骤的流程图。

图8为根据一示例性实施例示出的第三种融合音频特征和多个初始动作特征步骤的流程图。

图9是根据一示例性实施例示出的一种静态舞蹈动作的界面图。

图10是根据一示例性实施例示出的一种动态舞蹈动作的界面图。

图11为根据另一示例性实施例示出的一种舞蹈动画的生成方法的流程图。

图12是根据一示例性实施例示出的一种舞蹈动画的生成装置框图。

图13是根据一示例性实施例示出的一种用于舞蹈动画的生成的电子设备的框图。

图14是根据一示例性实施例示出的一种用于舞蹈动画的生成的计算机可读存储介质的框图。

图15是根据一示例性实施例示出的一种用于舞蹈动画的生成的计算机程序产品的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是：当用在本说明书中时，“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，本申请中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种数据)等，不过这些操作(或元件或应用或指令或数据)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或数据)和另一个操作(或元件或应用或指令或数据)。例如，第一注意力区域可以被称为第二注意力区域，第二注意力区域也可以被称为第一注意力区域，仅仅是其两者所包括的范围不同，而不脱离本申请的范围，第一注意力区域和第二注意力区域都是各种卷积网络层对应注意力区域的集合，只是二者并不是相同的卷积网络层对应注意力区域而已。

本申请实施例提供的舞蹈动画的生成方，可以应用于如图1所示的应用环境中。其中，终端102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。

在一些实施例中，参考图1，服务器104首先获取目标音频的音频特征；其中，音频特征用于表征目标音频的节奏类型和风格类型；然后，服务器104再获取对应于音频特征的多个初始动作特征；其中，多个初始动作特征与音频特征之间的节奏类型和风格类型相同，且用于展示多个初始动作特征的图像帧的长度与用于展示音频特征的音频帧的长度相同；然后，服务器104再根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列；最后，服务器104再根据舞蹈动作序列，生成针对于目标音频的舞蹈动画。

在一些实施例中，终端102(如移动终端、固定终端)可以以各种形式来实施。其中，终端102可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)等等的可以根据音频特征和初始动作特征之间的模态距离，来将音频特征和初始动作特征进行融合，以得到对应的舞蹈动作序列的移动终端，终端102也可以是自动柜员机(Automated Teller Machine，ATM)、自动一体机、数字TV、台式计算机、固式计算机等等的可以根据音频特征和初始动作特征之间的模态距离，来将音频特征和初始动作特征进行融合，以得到对应的舞蹈动作序列的固定终端。

下面，假设终端102是固定终端。然而，本领域技术人员将理解的是，若有特别用于移动目的的操作或者元件，根据本申请公开的实施方式的构造也能够应用于移动类型的终端102。

在一些实施例中，服务器104运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种，如包括HTTP(超文本传输协议)、FTP(文件传输协议)、CGI(通用网关界面)、RDBMS(关系型数据库管理系统)等。

在一些实施例中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104可以适于运行提供前述公开中描述的终端102的一个或多个应用服务或软件组件。

在一些实施例中，应用服务可以包括向用户提供舞蹈动画生成的服务界面(例如，用于选取目标音频的操作界面、用于根据舞蹈动作序列生成针对于目标音频的舞蹈动画的展示界面)，以及对应程序服务等等。其中，软件组件可以包括例如具有根据舞蹈动作序列，生成针对于目标音频的舞蹈动画功能的应用程序(SDK)或者客户端(APP)。

在一些实施例中，服务器104所提供的具有根据舞蹈动作序列，生成针对于目标音频的舞蹈动画功能的应用程序或者客户端包括一个在前台向用户提供一对一应用服务的门户端口和多个位于后台进行数据处理的业务系统，以将生成舞蹈动画的功能应用扩展到APP或者客户端，从而用户能够在任何时间任何地点进行生成舞蹈动画功能的使用和访问。

在一些实施例中，APP或者客户端的资源转移功能可为运行在用户模式以完成某项或多项特定工作的计算机程序，其可以与用户进行交互，且具有可视的用户界面。其中，APP或者客户端可以包括两部分：图形用户接口(GUI)和引擎(engine)，利用这两者能够以用户界面的形式向用户提供多种应用服务的数字化客户系统。

在一些实施例中，用户可以通过终端102中的输入装置向APP或者客户端输入相应的代码数据或者控制参数，以执行服务器104中的计算机程序的应用服务，以及显示用户界面中的应用服务。

作为一种示例，当用户需要在一终端102中进行一段音乐-舞蹈动画的生成操作时，则用户可以通过终端102中的输入装置向服务器104输入动画生成信息所对应的数据信息，在服务器104基于用户输入的数据信息生成对应的音乐-舞蹈动画之后，终端102获取该音乐-舞蹈动画，并且在显示装置对应的动画界面中，向用户实时地显示该音乐-舞蹈动画。可选地，输入装置所对应的输入方式可以为触屏输入、按键输入、语音输入或相关控制程序输入等等。

在一些实施例中，APP或者客户端运行的操作系统可以包括各种版本的Microsoft

Apple/>

和/或Linux操作系统、各种商用或类/>

操作系统(包括但不限于各种GNU/Linux操作系统、Google/>

OS等)和/或移动操作系统，诸如

Phone、/>

OS、/>

OS、/>

OS操作系统，以及其它在线操作系统或者离线操作系统，在这里不做具体的限制。

在一些实施例中，如图2所示，提供了一种舞蹈动画的生成方法，以该方法应用于图1中的服务器104为例进行说明，该方法包括以下步骤：

步骤S11，获取目标音频的音频特征。

在一实施例中，服务器可以根据用户账户基于一在线动画展示平台中选择的音乐歌曲，而从对应的音乐歌曲数据库中获取到相应的目标音频，然后，服务器再对该目标音频进行特征分析，以提取出对应的音频特征。

在一些实施例中，在线动画展示平台可以为各种具有3D虚拟对象的音视频播放功能和3D虚拟对象的音视频制作功能的在线客户端。例如，QQ音乐、腾讯直播间、抖音短视频等等。

在一些实施例中，服务器可以通过预设的音频特征提取模型来提取出目标音频对应的音频特征。其中，预设的音频特征提取模型可以基于神经网络(如CNN、RNN等等)训练得到。

在一些实施例中，预设的音频特征提取模型具体可以从目标音频的音乐节拍、音乐结构、音乐风格等方面进行乐理特征的分析，以提取出对应的音频特征。

在某些实施例中，预设的音频特征提取模型输出的音频特征可以为：该模型针对目标音频的音色信息、音调信息、节奏信息等低层次特征进行处理后得到的包含特征上下文等更多信息的高层次音频特征。

在一些实施例中，高层次音频特征可以包括如针对目标音频的音频冲击波的梅尔频谱特征(MelS pectrogram)来体现音频节奏的强弱，或者还可以提取其谐波的MFCC特征来体现音色的变化，或者针对目标音频的音频谐波的色谱恒Q变换特征(constant Qtransform)来体现音高的变化。

作为一示例，在目标音频输入音频特征提取模型后，该模型先将目标音频进行向量化，得到对应的向量矩阵，然后再对向量矩阵进行如采样频率、比特率、通道数和帧率等数据中一种或多种等方面的处理，以得到对应目标音频的梅尔频谱特征。

在一实施例中，目标音频的音频特征用于表征目标音频的节奏类型和风格类型。

如图3所示，图3为本申请中提取的梅尔频谱特征一实施例的画面示意图。其中，该梅尔频谱特征可以为一梅尔频谱图的形式来表达信息。在梅尔频谱图的横轴坐标中通过时间T来表示梅尔频谱图的时序信息，该时序信息可以表征梅尔频谱特征被分解在预设数量的图像帧(如100帧)中依次展示，也可以表征梅尔频谱特征被分解在预设长度(如90秒)的动态图像中依次展示。在梅尔频谱图的纵轴坐标中通过分贝dB来表示梅尔频谱图的节奏类型和风格类型，该纵轴坐标被划分为多个纵轴区间，在每一个纵轴区间内包括对应节奏强弱和风格特点的梅尔频谱特征范围，其中，快速度节奏类型和快速度风格类型的梅尔频谱特征范围位于纵轴区间A内，中等速度节奏类型和中等速度风格类型的梅尔频谱特征范围位于纵轴区间B内，慢速度节奏类型和慢速度风格类型的梅尔频谱特征范围位于纵轴区间C内。

在一实施例中，服务器可以根据目标音频的各个节奏点对音频特征进行片段分割，得到多个音频特征片段。

在一些实施例中，目标音频的节奏点可以是目标音频的各个鼓点或者是节拍点，并且相邻鼓点或者节拍点之间相互衔接。服务器在目标音频对应的音频特征(如，梅尔频谱图)中对每两个相邻的鼓点或者节拍点进行分割，以分割得到目标音频对应的多个音频特征片段。

继续如图3所示，服务器经过对目标音频进行乐理性分析，提取出目标音频的多个节奏点，其中，相邻节奏点之间上个节奏点的结束时刻(或者结束帧数)与下个节奏点的起始时刻(或者起始帧数)相同，每个节奏点所包括的时间范围(或者帧数范围)可以相同也可以不相同。在图3中，区域T1的起始点为第一节奏点，区域T1的结束点或者区域T2的起始点为第二节奏点，区域T2的结束点或者区域T3的起始点为第三节奏点，当然，在如图3中的梅尔频谱图得横轴坐标区间内，还可以按照其他预设规则来划分更多的节奏点，这里不做具体限定。

步骤S12：获取对应于音频特征的多个初始动作特征。

在一实施例中，服务器从预设的初始动作特征数据库中获取与目标音频的音频特征的节奏类型和风格类型相同的多个初始动作特征。

在另一实施例中，若目标音频是被分割为多个音频特征片段，则服务器从预设的初始动作特征数据库中，分别获取与每一音频特征片段的节奏类型和风格类型相同的所述至少一个初始动作特征。

需要说明的是，一个音频特征片段是构成一首音乐的具有特性的基本结构单位，其是拥有相对完整音乐形象的音乐旋律片段；一个初始动作特征是能够独立地相对完整地表达创作者动画意图的最小单位，其可以相对完整地表达对应音乐一定情感、美感、内涵的舞蹈动作。

在一实施例中，该多个初始动作特征的节奏类型与音频特征之间的节奏类型和风格类型相同，且用于展示多个初始动作特征的图像帧的长度与用于展示音频特征的音频帧的长度相同。

作为一示例，目标音频被分割为音频特征片段A1、音频特征片段A2、音频特征片段A3三个片段，其中，音频特征片段A1的节奏类型为快速度节奏以及对应音频帧的长度为65秒，音频特征片段A2的节奏类型为中等速度节奏以及对应音频帧的长度为55秒，音频特征片段A3的节奏类型为慢速度节奏以及对应音频帧的长度为75秒，则服务器从预设的初始动作特征数据库中，分别获取与音频特征片段A1的节奏类型和对应图像帧的长度相同的三个初始动作特征，获取与音频特征片段A2的节奏类型和对应图像帧的长度相同的两个初始动作特征，获取与音频特征片段A3的节奏类型和对应图像帧的长度相同的一个初始动作特征。

在一些实施例中，初始动作特征可以分类为动态初始动作特征和静态初始动作特征。

在一些实施例中，动态初始动作特征为在设定的帧数(或者时长)内，动态初始动作特征对应的虚拟对象保持运动状态的活动动作特征；静态初始动作特征为在设定的帧数(或者时长)内，动态初始动作特征对应的虚拟对象保持静止状态的固定动作特征。

在某些实施例中，该虚拟对象为一种可以动态也可以保持静态的3D虚拟对象。其中，该虚拟对象可以包括虚拟人物也可以包括虚拟物体(例如，各种3D形式的虚拟动物、虚拟环境、虚拟物品等等)。

在一些实施例中，虚拟对象可以通过一个3维的矩阵向量进行表示，在该虚拟对象中设置有预设个关键点，服务器通过在预定的帧数(或者时刻)控制预设的关键点进行活动，从而可以控制虚拟对象进行舞蹈。

如图4所示，图4为本申请中初始动作特征对应的虚拟对象一实施例的画面示意图。其中，该3D虚拟对象为一虚拟人物的形式来表达动作信息。在该虚拟人物设置有24个预设的关键点(类似于人体的24个可活动关节点)，假设该虚拟人物对应的某一初始动作特征设置有T帧(时序上)的动作，则虚拟人物对应于该初始动作特征可以通过T*24*3的矩阵向量来表示。

步骤S13：根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列。

在一实施例中，舞蹈动作序列中的各舞蹈动作包括相同长度的子动作特征与子音频特征，以及各舞蹈动作的子动作特征与对应的子音频特征之间的表达内容相关联。

在一实施例中，表达内容的相关性是指音频特征所表达呈现出的情感、美感、内涵与初始动作特征所表达呈现出的情感、美感、内涵两者之间的相关程度。

在一些实施例中，音频特征和初始动作特征之间的相关程度可以通过模态距离进行表征。其中，模态距离是指音频模态的特征与动作模态的特征两者之间所表达内容的相似距离。

在某些实施例中，音频特征和初始动作特征之间的模态距离可以通过预设的距离计算模型或者设计的距离算法来进行相似距离的计算。其中，距离计算模型或者距离算法可以基于如余弦匹配算法、欧式距离计算算法、皮尔森相关系数计算算法等设计得到。应当理解的是上述的计算算法仅为示例性说明，具体模态距离的计算方法可以根据用户需要灵活调整，并不以上述实施例给出的为限。

在一实施例中，融合音频特征和多个初始动作特征是指通过预设的融合网络将音频特征对应的向量矩阵和多个初始动作特征对应的向量矩阵进行融合，从而得到由多个舞蹈动作按照次序所组成的舞蹈动作序列。

在一些实施例中，融合得到的舞蹈动作序列中的每一舞蹈动作既可以表达出对应部分的音频特征，也可以表达对应部分的初始动作特征。

步骤S14：根据舞蹈动作序列，生成针对于目标音频的舞蹈动画。

在一实施例中，服务器根据舞蹈动作序列中各舞蹈动作的时间次序，以将各相邻的舞蹈动作进行拼接，以生成完整的针对于目标音频的舞蹈动画。

上述的舞蹈动画的生成过程中，服务器首先获取目标音频的音频特征；其中，音频特征用于表征目标音频的节奏类型和风格类型；然后，服务器再获取对应于音频特征的多个初始动作特征；其中，多个初始动作特征与音频特征之间的节奏类型和风格类型相同，且用于展示多个初始动作特征的图像帧的长度与用于展示音频特征的音频帧的长度相同；然后，服务器再根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列；最后，服务器再根据舞蹈动作序列，生成针对于目标音频的舞蹈动画。这样，一方面，利用用户输入的音乐与对应的多个初始动作特征来生成舞蹈动画，能够使得舞蹈动画的动作不依赖于人工的动作捕捉，从而优化了舞蹈动画的制作流程，以减少人力和时间成本的消耗；另一方面，通过将节奏类型、风格类型和长度相同的音频特征和初始动作特征进行融合，以生成针对于用户目标音频的舞蹈动画，能够提升舞蹈动作序列中音乐与舞蹈动作之间表达内容的一致性，从而增强了舞蹈动画的表现力和感染力，以提升用户体验。

本领域技术人员可以理解地，在具体实施方式的上述方法中，所揭露的方法可以通过更为具体的方式以实现。例如，以上所描述的根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列的实施方式仅仅是示意性的。

示例性地，服务器融合音频特征和多个初始动作特征的方式；或者生成针对于目标音频的舞蹈动画的方式等等，其仅仅为一种集合的方式，实际实现时可以有另外的划分方式，例如舞蹈动作序列中不同的舞蹈动作、部分舞蹈动作之间可以结合或者可以集合到另一个系统中，或一些特征可以忽略，或不执行。

在一示例性实施例中，参阅图5，图5为本申请中融合音频特征和多个初始动作特征第一实施例的流程示意图。在步骤S13中，服务器根据音频特征和多个初始动作特征之间表达内容的相关性，融合音频特征和多个初始动作特征，得到对应的舞蹈动作序列的过程，具体可以通过以下方式实现：

步骤S131，对音频特征和多个初始动作特征分别进行至少两次的卷积操作，以获取音频特征和多个初始动作特征各自对应的至少两个注意力区域。

在一些实施例中，服务器将获取得到的音频特征和多个初始动作特征同时输入预设的舞蹈动作生成模型中，以进行卷积操作。

在一些实施例中，该预设的舞蹈动作生成模型可以基于机器翻译中的编码器-解码器(encoder-decoder)网络架构训练得到。其中，encoder-decoder网络是一种序列转换模型，该网络的输入和输出都是长度可变的序列。其中，编码器(encoder)：可以接受一个长度可变的序列(如，量化的音频特征和量化的动作特征)作为输入，并将其转换为具有固定形状的编码状态。解码器(decoder)：可以将固定形状的编码状态映射到长度可变的序列(如，量化的舞蹈动作特征)。

在一实施例中，卷积操作包括对音频特征和多个初始动作特征分别进行局部特征增强，其中，在每一注意力区域中包括对相应的音频特征或者多个初始动作特征进行局部特征增强的局部特征集合。

在一些实施例中，服务器对音频特征和多个初始动作特征进行局部特征增强的目的在于其有利于确定两种模态特征之间表达内容的相关性。例如，音频特征中对应于音色、和声等弱信号的信息，其与动态的动作特征所表达内容的相关性不强，与静态的动作特征所表达内容的相关性较强；音频特征中对应于节奏、风格等强信号的信息，其与动态的动作特征所表达内容的相关性较强，与静态的动作特征所表达内容的相关性不强，通过对音频特征和多个初始动作特征进行局部特征增强能够有效确定音频特征和动作特征之间相关性较强的部分和相关性不强的部分。

在一示例性实施例中，参阅图6，图6为本申请中对音频特征和初始动作特征进行卷积操作一实施例的流程示意图。在步骤S131中，服务器对音频特征和多个初始动作特征分别进行至少两次的卷积操作的过程，具体可以通过以下方式实现：

步骤a1，对音频特征和多个初始动作特征分别进行至少两次的拉远处理，得到拉远处理后的音频特征和初始动作特征。

在一实施例中，服务器将音频特征和对应的多个初始动作特征输入一卷积层中，然后再对该卷积层进行至少两次的拉远处理，以得到对应数量(或者层数)拉远后的卷积层。

在一实施例中，服务器可以通过如下的算法对卷积层进行n次的拉远处理，以得到对应n层拉远处理后的卷积层：

其中，

代表处理后的第m层卷积层中的音频特征，/>

代表处理后的第m层卷积层中的初始动作特征。n为服务器对音频特征和多个初始动作特征所分别进行至少两次的拉远处理，即服务器对音频特征和多个初始动作特征所分别进行n(n≥2)次的拉远处理。

在一些实施例中，服务器将对应卷积层的音频特征和初始动作特征进行拉远处理，是为了在不同卷积层中，对音频特征和初始动作特征中的注意力区域(attention map)进行学习或者特征提取。

在一些实施例中，经过不同规格的拉远处理后的卷积层，其对应音频特征和初始动作特征中的注意力区域的位置将会不同，从而能够从音频特征和初始动作特征中学习或者提取出更多的局部特征信息，并且避免学习或者提取到的局部特征信息具有较多的数据冗余。

作为一示例，服务器将音频特征和对应的多个初始动作特征输入卷积层P1中，然后服务器再对卷积层P1进行一次的4倍距离的拉远处理，以得到对应拉远处理后的卷积层P2；服务器再对卷积层P2进行一次的8倍距离的拉远处理，以得到对应拉远处理后的卷积层P3；服务器再对卷积层P3进行一次的16倍距离的拉远处理，以得到对应拉远处理后的卷积层P4。其中，服务器进行4倍距离的拉远处理可以通过M¹：H/4+W/4×C₁来表示；服务器进行8倍距离的拉远处理可以通过M²：H/8+W/8×C₂来表示；服务器进行16倍距离的拉远处理可以通过M³：H/16+W/16×C₃来表示；其中，H表示对应拉远的高度(或者深度)，W表示对应拉远的长度(或者宽度)，C_i为对应拉远处理的比例系数。

步骤a2，对每一次拉远处理后的音频特征进行通道注意力增强处理和空间注意力增强处理，以及对每一次拉远处理后的初始动作特征进行通道注意力增强处理和空间注意力增强处理。

作为一示例，服务器将音频特征和对应的多个初始动作特征进行三次的拉远处理后，以得到对应拉远处理后的卷积层P2、卷积层P3和卷积层P4。然后，服务器，再对卷积层P2上的音频特征和初始动作特征分别进行通道注意力增强(Chanel Attention Module)处理和空间注意力增强(Spatial Attention Module)处理；以及对卷积层P3上的音频特征和初始动作特征分别进行通道注意力增强处理和空间注意力增强处理；以及对卷积层P4上的音频特征和初始动作特征分别进行通道注意力增强处理和空间注意力增强处理，从而服务器分别对卷积层P2、卷积层P3和卷积层P4上的音频特征和初始动作特征分别进行局部特征的增强。

在一些实施例中，服务器分别从各次进行卷积操作后的音频特征中提取出进行局部特征增强的局部特征集合，以获取针对于音频特征的至少两个注意力区域；以及，服务器分别从各次进行卷积操作后的多个初始动作特征中提取出进行局部特征增强的局部特征集合，以获取针对于多个初始动作特征的至少两个注意力区域。

其中，音频特征和多个初始动作特征各自对应不同的注意力区域的局部特征集合不相同。

作为一示例，服务器将音频特征和对应的多个初始动作特征分别进行三次的拉远处理，以及分别对每一拉远处理后的卷积层(包括针对于音频特征的卷积层P1、卷积层P2和卷积层P3，针对于初始动作特征的卷积层P4、卷积层P5和卷积层P6)上的音频特征和初始动作特征进行通道注意力增强处理和空间注意力增强处理之后，服务器从卷积层P1上获取音频特征进行局部特征增强后的第一注意力区域；以及从卷积层P2上获取音频特征进行局部特征增强后的第二注意力区域；以及从卷积层P3上获取音频特征进行局部特征增强后的第三注意力区域。服务器从卷积层P4上获取初始动作特征进行局部特征增强后的第四注意力区域；以及从卷积层P5上获取初始动作特征进行局部特征增强后的第五注意力区域；以及从卷积层P6上获取初始动作特征进行局部特征增强后的第六注意力区域。

步骤S132，根据音频特征对应的各注意力区域内的局部特征集合和初始动作特征对应的各注意力区域内的局部特征集合之间的相似程度，确定音频特征和多个初始动作特征之间的模态距离。

在一实施例中，相似程度用于表征音频特征和多个初始动作特征在对应同等拉远次数后得到的注意力区域之间，对应量化的音频特征和对应量化的初始动作特征之间的相似距离；模态距离用于表征音频特征和多个初始动作特征之间表达内容的相关性。

在某些实施例中，音频特征和多个初始动作特征在对应同等拉远次数后得到的注意力区域之间，对应量化的音频特征和对应量化的初始动作特征之间的相似距离可以通过预设的距离计算模型或者设计的距离算法来进行相似距离的计算。

其中，距离计算模型或者距离算法可以基于如余弦匹配算法、欧式距离计算算法、皮尔森相关系数计算算法等设计得到。应当理解的是上述的计算算法仅为示例性说明，具体模态距离的计算方法可以根据用户需要灵活调整，并不以上述实施例给出的为限。

步骤S133，根据模态距离，融合音频特征和多个初始动作特征，得到舞蹈动作序列。

在一示例性实施例中，参阅图7，图7为本申请中融合音频特征和多个初始动作特征第二实施例的流程示意图。在步骤S133中，服务器根据模态距离，融合音频特征和多个初始动作特征，得到舞蹈动作序列的过程，具体可以通过下述方式实现，其中，步骤b1和步骤b2之间没有必然的先后顺序，其可以按照任意的顺序或者同时完成，再立即进行步骤b3中。

步骤b1，将各次进行卷积操作后的音频特征进行特征融合，得到针对于目标音频的全局音频特征。

作为一示例，服务器将音频特征输入卷积层P1中，然后再进行三次的卷积操作(仅包括拉远处理)，以得到对应卷积操作后的卷积层P2、卷积层P3和卷积层P4。其中，在卷积层P1具有音频特征S1，在卷积层P1经过卷积操作之后得到的卷积层P2具有音频特征S2，然后，在卷积层P2经过卷积操作之后得到的卷积层P3具有音频特征S3，然后，在卷积层P3经过卷积操作之后得到的卷积层P4具有音频特征S4，最终，服务器将卷积层P4上的音频特征S4作为目标音频的全局音频特征。

作为另一示例，服务器也可以将上述示例中的音频特征S1、音频特征S2、音频特征S3和音频特征S4进行合并或者融合，以将得到的新的音频特征S5作为目标音频的全局音频特征。

步骤b2，根据模态距离，对各注意力区域内的音频特征和初始动作特征进行关联处理，得到关联处理后的音频动作特征。

在一实施例中，关联处理包括在音频特征和多个初始动作特征对应同等拉远次数后得到的注意力区域之间，服务器对相似距离大于预设距离值的音频特征和对应的初始动作特征进行拉近处理和对齐处理。

在一些实施例中，若相似距离大于预设距离值的音频特征和对应的初始动作特征，则表明对应两个注意力区域之间的音频特征和初始动作特征之间表达的内容具有一定的相关性。

在一些实施例中，服务器对卷积层进行拉近处理和对齐处理可以使得分别经过前述卷积操作的音频特征和初始动作特征能够在时序上相匹配。

在另一实施例中，关联处理包括在音频特征和多个初始动作特征对应同等拉远次数后得到的注意力区域之间，服务器对相似距离小于或者等于预设距离值的音频特征和对应的初始动作特征进行掩盖处理。

在一些实施例中，若相似距离小于或者等于预设距离值的音频特征和对应的初始动作特征，则表明对应两个注意力区域之间的音频特征和初始动作特征之间表达的内容的相关性不强。

在一些实施例中，服务器对卷积层进行掩盖处理可以使得分别表达内容的相关性不强的音频特征和初始动作特征中的至少一者进行静态处理，即对应的音频特征和/或初始动作特征保持对应起始时刻(或者帧数)的初始状态。

步骤b3，融合全局音频特征和关联处理后的音频动作特征，得到舞蹈动作序列。

在一示例性实施例中，参阅图8，图8为本申请中融合音频特征和多个初始动作特征第三实施例的流程示意图。在步骤b3中，服务器融合全局音频特征和关联处理后的音频动作特征，得到舞蹈动作序列的过程，具体可以通过下述方式实现：

步骤c1，确定各注意力区域之间对应关联处理后的音频动作特征的平均音频特征和平均初始动作特征。

作为一示例，服务器将音频特征输入卷积层P1中，然后再对卷积层P1分别进行三次的卷积操作(包括拉远处理、通道注意力增强和空间注意力增强)，以得到对应卷积操作后的卷积层P2上的第一注意力区域、卷积层P3上的第二注意力区域和卷积层P4上的第三注意力区域。其中，在第一注意力区域中具有音频特征M1，在第二注意力区域中具有音频特征M2，在第三注意力区域中具有音频特征M3。以及，服务器将初始动作特征输入卷积层P5中，然后再对卷积层P5分别进行三次的卷积操作(包括拉远处理、通道注意力增强和空间注意力增强)，以得到对应卷积操作后的卷积层P6上的第四注意力区域、卷积层P7上的第五注意力区域和卷积层P8上的第六注意力区域。其中，在第四注意力区域中具有音频特征N1，在第五注意力区域中具有音频特征N2，在第六注意力区域中具有音频特征N3。最终，服务器将音频特征M1、音频特征M2和音频特征M3之间的平均值作为对应关联处理后的音频动作特征的平均音频特征；以及服务器将初始动作特征N1、初始动作特征N2和初始动作特征N3之间的平均值作为对应关联处理后的音频动作特征的平均初始动作特征。

步骤c2，按照多个初始动作特征之间对应各图像帧的次序，将全局音频特征、平均音频特征和平均初始动作特征进行特征融合，得到舞蹈动作序列。

在一实施例中，服务器按照多个初始动作特征之间对应的时域顺序(或者图像帧顺序)，通过逐元素乘法将量化的平均音频特征和量化的平均初始动作特征之间的特征向量和，与量化的全局音频特征向量进行特征融合，得到舞蹈动作序列。

作为一示例，若量化的平均音频特征通过Avg1表示，量化的平均初始动作特征通过Avg2表示，量化的全局音频特征通过F4表示，则服务器按照多个初始动作特征之间对应的每一图像帧的帧数顺序，融合得到

即，首先第一帧的F4与第一帧的CMAP融合，再第二帧的F4与第二帧的CMAP融合，以此往复，直到最后一帧的F4与最后一帧的CMAP融合，以得到Fc。其中，Fc即为量化的全局音频特征与平均音频特征、量化的平均初始动作特征之间特征融合结果(即舞蹈动作序列)，/>

表示逐元素乘法，CMAP＝Avg1+Avg2。

在一实施例中，在得到对应的舞蹈动作序列之后，还包括：在舞蹈动作序列的各舞蹈动作中，服务器将音频特征和多个初始动作特征之间模态距离小于或者等于预设距离值所对应的舞蹈动作分类为静态舞蹈动作。

在一些实施例中，静态舞蹈动作为在设定的帧数(或者时长)内，静态舞蹈动作对应的虚拟对象保持静止状态的固定动作。如图9所示，图9为本申请中静态舞蹈动作一实施例的画面示意图。其中，在时间区域T1至T2中该虚拟人物持续地、静止地保持着如图9所示的动作。

在另一实施例中，在得到对应的舞蹈动作序列之后，还包括：在舞蹈动作序列的各舞蹈动作中，服务器将音频特征和多个初始动作特征之间模态距离大于预设距离值所对应的舞蹈动作分类为动态舞蹈动作。

在一些实施例中，动态舞蹈动作为在设定的帧数(或者时长)内，动态舞蹈动作对应的虚拟对象保持活动状态的运动动作。如图10所示，图10为本申请中动态舞蹈动作一实施例的画面示意图。其中，在时间区域T3-T6的过程中，该虚拟人物逐渐地由时间区域T3-T4所示的第一动作渐变为时间区域T4-T5所示的第二动作，再由时间区域T4-T5所示的第二动作渐变为时间区域T5-T6所示的第三动作。

在一实施例中，服务器根据舞蹈动作序列，生成针对于目标音频的舞蹈动画具体可以包括：按照舞蹈动作序列中各舞蹈动作之间的先后次序，对舞蹈动作序列中的动态舞蹈动作和静态舞蹈动作进行拼接，以生成针对于目标音频的舞蹈动画。

在一些实施例中，由于不同舞蹈动作(即舞蹈片段)的首尾之间不一定完全相接，因此可以按照舞蹈动作序列中各舞蹈动作之间的先后次序，采用混合算法计算各相邻目标舞蹈动作之间的过渡帧，该混合算法例如可以是线性算法，也可以是基于深度学习的方法，在此不做任何限制。其中，这种通过过渡帧对相邻目标舞蹈动作之间进行过渡的方式，使得得到的目标音乐舞蹈动画更加流畅，从而进一步提高了用户体验。

在一实施例中，目标音频的音频特征即为梅尔频谱特征。其中，梅尔频谱特征(MelS pectrogram)可以是针对目标音频的音频冲击波，以体现音频节奏的强弱。

在一实施例中，服务器在生成针对于目标音频的舞蹈动作序列之后，还包括：对该舞蹈动作序列中的各舞蹈动作按照其对应音频特征的音色、和声、节奏、风格，分为四个种类，并为每一种种贴上标签，以存入预设的初始动作特征数据库中。

在一些实施例中，节奏种类的舞蹈动作还可以再分类为快速度节奏种类、中等速度节奏种类和慢速度节奏种类；风格种类的舞蹈动作还可以再分类为古典风格种类、民族风格种类等等。

在一实施例中，服务器在生成针对于目标音频的舞蹈动画之后，还包括：服务器先根据舞蹈动作序列中各动态舞蹈动作所对应的梅尔频谱特征，确定各动态舞蹈动作对应的节奏类型和风格类型；然后，服务器再根据各动态舞蹈动作的节奏类型和风格类型，对预设的初始动作特征数据库进行更新。

在一些实施例中，通过舞蹈动作序列中各动态舞蹈动作对预设的初始动作特征数据库进行更新，能够实现后续舞蹈动画的自由创作，保证生成新的高质量的舞蹈动作。

为了更清晰阐明本公开实施例提供的舞蹈动画的生成方法，以下以一个具体的实施例对该舞蹈动画的生成方法进行具体说明。在一示例性实施例中，参考图11，图11为根据另一示例性实施例示出的一种舞蹈动画的生成方法的流程图，该舞蹈动画的生成方法用于服务器104中，具体包括如下内容：

步骤S21：获取任意一首音乐。

其中，该首音乐可以应用于任何需要进行舞蹈动画生成的场景，例如，特定的“游戏场景、虚拟直播场景或动画制作场景”等等。

步骤S22：将获取的音乐按照音乐鼓点进行切分，以分成多个音乐片段。

其中，音乐鼓点可以理解为该首音乐的节奏或者节拍，并且不同的音乐，其对应的节奏或者节拍可以完全相同，也可以有至少部分不相同。

例如，对于歌曲A，一共有20个节奏点，并且每一个节奏点的时间间隔相同，则歌曲A可以被切分为20个音乐片段，并且每个音乐片段的片段时长相同。对于歌曲B，一共有10个节奏点，并且每一个节奏点的时间间隔不相同，则歌曲B可以被切分为10个音乐片段，并且每个音乐片段的片段时长不相同。

步骤S23：提取出每个音乐片段对应的梅尔频谱特征。

其中，梅尔频谱特征用于表征音频的强弱信息，并且通过音频的强弱信息进一步地可以获取到对应音乐片段的音乐风格、音色、节奏、和声等乐理信息。

其中，可以通过预设的卷积神经网络模型(如，CNN、RNN等)来提取出音乐片段的梅尔频谱特征。

步骤S24：根据每一音乐片段的梅尔频谱特征，识别出各音乐片段对应的歌曲风格。

其中，不同歌曲风格对应的梅尔频谱特征的强弱信息不同。

步骤S25：从预设的舞蹈动作库中提取出与各个音乐片段的歌曲风格对应相同的多个基础动作。

其中，每一音乐片段的片段时长与对应的多个基础动作之间的动作时长的相同。

步骤S26：将各个音乐片段的梅尔频谱特征和对应的多个基础动作一起输入到encoder-decoder网络中进行各个音乐-动作的合成，以输出舞蹈动画。

具体地，步骤S26可以包括如下的步骤：

步骤d1：encoder网络分别对输入的梅尔频谱特征和对应风格的基础动作进行上采样，得到上采样后的梅尔频谱特征和上采样后的基础动作特征；

步骤d2：encoder网络将上采样后的梅尔频谱特征和上采样后的基础动作特征输入第一卷积层中，并对第一卷积层中上采样后的梅尔频谱特征进行特征提取，得到第一全局特征信息F1；

步骤d3：encoder网络将第一卷积层中的梅尔频谱特征和基础动作特征连接于第二卷积层中，并对第二卷积层进行4倍距离的拉远处理，得到拉远后的第二卷积层；

步骤d4：encoder网络对拉远后的第二卷积层中的梅尔频谱特征进行特征提取，得到融合第一全局特征信息F1的第二全局特征信息F2；

步骤d5：encoder网络对第二卷积层中的梅尔频谱特征和的基础动作特征进行局部特征加强，得到对应位置局部加强后的基础动作特征和对应位置局部加强后的梅尔频谱特征；

步骤d6：encoder网络确定第二卷积层上各局部加强后的基础动作特征和各局部加强后的梅尔频谱特征之间的相似度距离；

步骤d7：encoder网络将相似度距离大于预设值的局部加强后的基础动作特征和局部加强后的梅尔频谱特征进行对齐并拉近，以得到第一新的局部加强后的基础动作特征和第一新的局部加强后的梅尔频谱特征；将相似度距离小于或等于预设值的局部加强后的基础动作特征和局部加强后的梅尔频谱特征进行删除；

步骤d8：encoder网络将第二卷积层中的梅尔频谱特征和基础动作特征连接于第三卷积层中，并对第三卷积层进行8倍距离的拉远处理，得到拉远后的第三卷积层；

步骤d9：encoder网络对拉远后的第三卷积层中的梅尔频谱特征进行特征提取，得到融合第二全局特征信息F2的第三全局特征信息F3；

步骤d10：encoder网络对第三卷积层中的梅尔频谱特征和的基础动作特征进行局部特征加强，得到对应位置局部加强后的基础动作特征和对应位置局部加强后的梅尔频谱特征；

步骤d11：encoder网络确定第三卷积层上各局部加强后的基础动作特征和各局部加强后的梅尔频谱特征之间的相似度距离；

步骤d12：encoder网络将相似度距离大于预设值的局部加强后的基础动作特征和局部加强后的梅尔频谱特征进行对齐并拉近，以得到第二新的局部加强后的基础动作特征和二新的局部加强后的梅尔频谱特征；将相似度距离小于或等于预设值的局部加强后的基础动作特征和局部加强后的梅尔频谱特征进行删除；

步骤d13：encoder网络将第三卷积层中的梅尔频谱特征和基础动作特征连接于第四卷积层中，并对第四卷积层进行16倍距离的拉远处理，得到拉远后的第四卷积层；

步骤d14：encoder网络对拉远后的第四卷积层中的梅尔频谱特征进行特征提取，得到融合第三全局特征信息F3的第四全局特征信息F4；

步骤d15：encoder网络对第四卷积层中的梅尔频谱特征和的基础动作特征进行局部特征加强，得到对应位置局部加强后的基础动作特征和对应位置局部加强后的梅尔频谱特征；

步骤d16：encoder网络确定第四卷积层上各局部加强后的基础动作特征和各局部加强后的梅尔频谱特征之间的相似度距离；

步骤d17：encoder网络将相似度距离大于预设值的局部加强后的基础动作特征和局部加强后的梅尔频谱特征进行对齐并拉近，以得到第三新的局部加强后的基础动作特征和第三新的局部加强后的梅尔频谱特征；将相似度距离小于或等于预设值的局部加强后的基础动作特征和局部加强后的梅尔频谱特征进行删除；

步骤d18：encoder网络取第一新的局部加强后的基础动作特征、第二新的局部加强后的基础动作特征和第三新的局部加强后的基础动作特征之间的均值，以得到第四新的局部加强后的基础动作特征；以及取第一新的局部加强后的梅尔频谱特征、第二新的局部加强后的梅尔频谱特征和第三新的局部加强后的梅尔频谱特征之间的均值，以得到第四新的局部加强后的梅尔频谱特征；

步骤d19：encoder网络利用逐元素乘法将第四新的局部加强后的基础动作特征和第四新的局部加强后的梅尔频谱特征之间的和与第四全局特征信息F4相融合，得到融合后的梅尔频谱-舞蹈特征信息；

步骤d20：encoder网络将融合后的梅尔频谱-舞蹈特征信息映射到decoder网络中，以使decoder网络合成得到与每一帧梅尔频谱特征相关联的舞蹈动作。

上述方案，一方面，利用用户输入的音乐与对应的多个初始动作特征来生成舞蹈动画，能够使得舞蹈动画的动作不依赖于人工的动作捕捉，从而优化了舞蹈动画的制作流程，以增强减少了人力和时间成本的消耗；另一方面，通过将节奏类型、风格类型和长度相同的音频特征和初始动作特征进行融合，以生成针对于用户目标音频的舞蹈动画，能够提升舞蹈动作序列中音乐与舞蹈动作之间表达内容的一致性，从而增强了舞蹈动画的表现力和感染力，以提升用户体验。

应该理解的是，虽然图2-图11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图12是本申请实施例提供的一种舞蹈动画的生成装置框图。参照图12，该舞蹈动画的生成装置10包括：第一获取单元11、第二获取单元12、特征融合单元13和动画生成单元14。

其中，该第一获取单元11，被配置为执行获取目标音频的音频特征；所述音频特征用于表征所述目标音频的节奏类型和风格类型。

其中，该第二获取单元12，被配置为执行获取对应于所述音频特征的多个初始动作特征；所述多个初始动作特征与所述音频特征之间的节奏类型和风格类型相同，且用于展示所述多个初始动作特征的图像帧的长度与用于展示所述音频特征的音频帧的长度相同。

其中，该特征融合单元13，被配置为执行根据所述音频特征和所述多个初始动作特征之间表达内容的相关性，融合所述音频特征和所述多个初始动作特征，得到对应的舞蹈动作序列。

其中，该动画生成单元14，被配置为执行根据所述舞蹈动作序列，生成针对于所述目标音频的舞蹈动画。

在一些实施例中，在获取目标音频的音频特征的方面，该第一获取单元11具体用于：

根据所述目标音频的各个节奏点对所述音频特征进行片段分割，得到多个音频特征片段。

在一些实施例中，在获取对应于所述音频特征的多个初始动作特征的方面，该第二获取单元12具体用于：

在一些实施例中，在根据所述音频特征和所述多个初始动作特征之间表达内容的相关性，融合所述音频特征和所述多个初始动作特征，得到对应的舞蹈动作序列的方面，该特征融合单元13具体用于：

对所述音频特征和所述多个初始动作特征分别进行至少两次的卷积操作，以获取所述音频特征和所述多个初始动作特征各自对应的至少两个注意力区域；所述卷积操作包括分别对所述音频特征和所述多个初始动作特征进行局部特征增强，在每一所述注意力区域中包括对相应的所述音频特征或者所述多个初始动作特征进行局部特征增强的局部特征集合；

在一些实施例中，在对所述音频特征和所述多个初始动作特征分别进行至少两次的卷积操作的方面，该特征融合单元13具体还用于：

在一些实施例中，在获取所述音频特征和所述多个初始动作特征各自对应的至少两个注意力区域的方面，该特征融合单元13具体还用于：

在一些实施例中，在根据所述模态距离，融合所述音频特征和所述多个初始动作特征，得到所述舞蹈动作序列的方面，该特征融合单元13具体还用于：

在一些实施例中，在根据所述模态距离，对各所述注意力区域内的音频特征和初始动作特征进行关联处理的方面，该特征融合单元13具体还用于：

在一些实施例中，在融合所述全局音频特征和所述关联处理后的音频动作特征，得到所述舞蹈动作序列的方面，该特征融合单元13具体还用于：

在一些实施例中，在得到对应的舞蹈动作序列的方面，该特征融合单元13具体还用于：

在一些实施例中，在所述根据所述舞蹈动作序列，生成针对于所述目标音频的舞蹈动画的方面，该动画生成单元14具体还用于：

在一些实施例中，所述音频特征为梅尔频谱特征。

在一些实施例中，在生成针对于所述目标音频的舞蹈动画之后，资源转移装置10还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是本申请实施例提供的一种电子设备20的框图。例如，电子设备20可以为一种服务器、电子组件或者服务器阵列等等。参照图13，电子设备20包括处理器21，其进一步处理器21可以为处理器集合，其可以包括一个或多个处理器，以及服务器20包括由存储器22所代表的存储器资源，其中，存储器22上存储有可执行指令，例如各种应用程序的控制指令。在存储器22中存储的可执行指令可以包括一个或一个以上的对应于一组可执行指令的模块。此外，处理器21被配置为执行可执行指令，以实现如上述的舞蹈动画生成方法。

在一些实施例中，电子设备20为服务器，该服务器中的计算系统可以运行一个或多个操作系统，包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该电子设备20还可以运行各种附加服务器应用和/或中间层应用中的任何一种，包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。

在一些实施例中，处理器21通常控制电子设备20的整体操作，诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理器21可以包括一个或多个处理器来执行计算机程序，以完成上述的方法的全部或部分步骤。此外，处理器21可以包括一个或多个模块，便于处理器21和其他组件之间的交互。例如，处理器21可以包括多媒体模块，以方便利用多媒体组件控制用户电子设备20和处理器21之间的交互。

在一些实施例中，处理器21中的处理器组件还可以称为CPU(Central ProcessingUnit，中央处理单元)。处理器组件可能是一种电子芯片，具有信号的处理能力。处理器组件还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器组件也可以是任何常规的处理器等。另外，处理器组件可以由集成电路芯片共同实现。

在一些实施例中，存储器22被配置为存储各种类型的数据以支持在电子设备20的操作。这些数据的示例包括用于在电子设备20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

在一些实施例中，电子设备20还可以包括：电源组件23被配置为执行服务器20的电源管理，有线或无线网络接口24被配置为将电子设备20连接到网络，和输入输出(I/O)接口25。电子设备20可以操作基于存储在存储器22的操作系统，例如Windows Server，Mac OSX，Unix，Linux，FreeBSD或类似。

在一些实施例中，电源组件23为电子设备20的各种组件提供电力。电源组件23可以包括电源管理系统，一个或多个电源，及其他与为电子设备20生成、管理和分配电力相关联的组件。

在一些实施例中，有线或无线网络接口24被配置为便于电子设备20和其他设备之间有线或无线方式的通信。电子设备20可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。

在一些实施例中，有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，有线或无线网络接口24还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在一些实施例中，输入输出(I/O)接口25为处理器21和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

图14是本申请实施例提供的一种计算机可读存储介质30的框图。该计算机可读存储介质30上存储有计算机程序31，其中，当计算机程序31被电子设备的处理器执行时，使得电子设备能够实现如上述的舞蹈动画的生成方法。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读存储介质30中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机可读存储介质30在一个计算机程序31中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)、电子设备(例如MP3、MP4等，也可以是手机、平板电脑、可穿戴设备等智能终端，也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。

图15是本申请实施例提供的一种计算机程序产品40的框图。该计算机程序产品40中包括程序指令41，该程序指令41被电子设备的处理器执行时，使得电子设备能够实现如上述的舞蹈动画的生成方法。

本领域内的技术人员应明白，本申请的实施例可提供有舞蹈动画的生成方法、舞蹈动画的生成装置10、电子设备20、计算机可读存储介质30或计算机程序产品40。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的程序指令41(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品40的形式。

本申请是参照根据本申请实施例中舞蹈动画的生成方法、舞蹈动画的生成10、电子设备20、计算机可读存储介质30或计算机程序产品40的流程图和/或方框图来描述的。应理解可由计算机程序产品40实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品40到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令41产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种舞蹈动画的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频特征和所述多个初始动作特征之间表达内容的相关性，融合所述音频特征和所述多个初始动作特征，得到对应的舞蹈动作序列，包括：

根据所述模态距离融合所述音频特征和所述多个初始动作特征，得到所述舞蹈动作序列。

3.根据权利要求2所述的方法，其特征在于，所述对所述音频特征和所述多个初始动作特征分别进行至少两次的卷积操作，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取所述音频特征和所述多个初始动作特征各自对应的至少两个注意力区域，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述模态距离，融合所述音频特征和所述多个初始动作特征，得到所述舞蹈动作序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述模态距离，对各所述注意力区域内的音频特征和初始动作特征进行关联处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述融合所述全局音频特征和所述关联处理后的音频动作特征，得到所述舞蹈动作序列，包括：

8.根据权利要求1所述的方法，其特征在于，在得到对应的舞蹈动作序列之后，还包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述舞蹈动作序列，生成针对于所述目标音频的舞蹈动画，包括：

10.根据权利要求1所述的方法，其特征在于，在所述获取目标音频的音频特征之后，还包括：

所述获取对应于所述目标音频的多个初始动作特征，包括：

11.根据权利要求10所述的方法，其特征在于，所述音频特征为梅尔频谱特征；

在生成针对于所述目标音频的舞蹈动画之后，还包括：

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至11中任一项所述的舞蹈动画的生成方法。

13.一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，其特征在于，当所述计算机程序由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至11中任一项所述的舞蹈动画的生成方法。

14.一种计算机程序产品，所述计算机程序产品中包括程序指令，其特征在于，所述程序指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至11中任一项所述的舞蹈动画的生成方法。