CN110992449B

CN110992449B - 舞蹈动作合成方法、装置、设备及存储介质

Info

Publication number: CN110992449B
Application number: CN201911210482.2A
Authority: CN
Inventors: 戴威; 侯杰; 温翔; 秦嘉; 赵亦飞; 段颖琳
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-04-18
Anticipated expiration: 2039-11-29
Also published as: CN110992449A

Abstract

本申请提供一种舞蹈动作合成方法、装置、设备及存储介质，涉及游戏技术领域。该方法包括：获取输入音乐的音频特征；采用预设的音乐动作翻译模型，确定所述输入音乐的音频特征对应的动作特征曲线，其中，所述音乐动作翻译模型根据舞蹈视频训练获得，所述舞蹈视频中包含舞蹈音乐和舞蹈动作；根据所述动作特征曲线，获取所述动作特征曲线匹配的动作序列；根据所述动作序列生成舞蹈动画。相对于现有技术，避免了音乐舞蹈的匹配范围小，无法更好的适应于多种音乐风格和舞蹈类型的问题。

Description

舞蹈动作合成方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种舞蹈动作合成方法、装置、设备及存储介质。

背景技术

计算机动画是通过使用计算机制作动画的技术。在计算机动画领域中，根据指定的音乐生成合适的舞蹈动作具有丰富的应用场景。例如，在舞蹈类游戏中，根据音乐节奏、情绪、内涵等因素编排与音乐契合的舞蹈动作是此类游戏的核心所在。

传统的音乐舞蹈类游戏依赖舞蹈演员进行大量的舞蹈动作捕捉工作，并由专业编舞师根据舞曲特征对这些动作进行编排，使得舞蹈演员与专业编舞师在此过程中不可或缺。在游戏中添加一首新舞曲，需要新的动作与编排，直接导致了音乐舞蹈游戏开发的高成本与密集劳动力投入。

现有技术中为了减小舞蹈游戏的开发成本，提供了一种通过机器学习的方法对音乐和动作的匹配程度进行打分的技术，从而根据打分选择最匹配的音乐和舞蹈动作。然而，一方面，其训练学习器所使用的数据局限于已有的音乐与舞蹈动作数据(舞蹈动作数据指的是在动画制作或游戏制作过程中，由动画师制作或动作捕捉生成的3D动作数据，数据成本高，通常属于不公开的私有数据)，从而限制其音乐舞蹈匹配范围，无法做到更广泛的适应多种音乐风格与舞蹈类型；另一方向，其学习器建模目标为音乐特征与动作特征相关系数的子集，从而依赖于对动作特征与相关系数的人工设计与筛选过程。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种舞蹈动作合成方法、装置、设备及存储介质，以解决现有技术中音乐舞蹈的匹配范围小，无法更好的适应于多种音乐风格和舞蹈类型的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种舞蹈动作合成方法，所述方法包括：

获取输入音乐的音频特征；

采用预设的音乐动作翻译模型，确定所述输入音乐的音频特征对应的动作特征曲线，其中，所述音乐动作翻译模型根据舞蹈视频训练获得，所述舞蹈视频中包含舞蹈音乐和舞蹈动作；

根据所述动作特征曲线，获取所述动作特征曲线匹配的动作序列；

根据所述动作序列生成舞蹈动画。

可选地，所述获取输入音乐的音频特征，包括：

根据预设的音乐节拍对所述输入音乐进行切分，得到多个音乐片段；

根据时频分析方法，对各所述音乐片段进行处理，得到各所述音乐片段对应的音频特征；所述输入音乐的音频特征包括：多个所述音乐片段的音频特征。

可选地，所述采用预设的音乐动作翻译模型，确定所述输入音乐的音频特征对应的动作特征曲线，包括：

采用所述翻译模型，对各所述音乐片段的音频特征进行翻译，得到各所述音乐片段的音频特征对应的动作特征曲线。

可选地，所述根据所述动作特征曲线，获取所述动作特征曲线匹配的动作序列，包括：

根据各所述动作特征曲线，从预设动作库中，获取根据各所述动作特征曲线匹配的动作序列。

可选地，所述根据所述动作序列生成舞蹈动画之前，所述方法还包括：

采用预设的动作拼接混合方法，对各所述动作特征曲线匹配的动作序列中的舞蹈动作进行融合拼接，得到所述舞蹈动画。

可选地，所述音乐动作翻译模型采用下述步骤进行训练得到：

提取待训练音乐舞蹈视频的音频流和视频流；

获取所述音频流的音频特征；

对所述视频流中的帧图像进行人体姿态估计，确定所述视频流中舞者的动作特征曲线；

根据所述音频流的音频特征和所述视频流的动作特征曲线进行训练，得到所述音乐动作翻译模型。

可选地，所述对所述视频流中的帧图像进行人体姿态估计，确定所述视频流中舞者的动作特征曲线，包括：

对所述视频流中的帧图像进行人体姿态估计，得到所述视频流中的帧图像的人体骨骼关键点坐标；

根据各所述人体骨骼关键点坐标，生成动作姿态序列；

对所述动作姿态序列进行动作曲线分析，生成所述视频流的动作特征曲线。

可选地，所述获取所述音频流的音频特征，包括：

根据预设的音乐节拍对所述音频流进行切分，得到多个音乐片段；

根据时频分析方法，对各所述音乐片段进行处理，得到各所述音乐片段对应的音频特征；所述音频流的音频特征包括：多个所述音乐片段的音频特征。

可选地，所述音频特征包括下述至少一项：梅尔频谱特征和恒定Q变换特征。

可选地，所述动作特征曲线包括下述至少一项：速度曲线、角速度曲线、动作节奏强度曲线。

第二方面，本申请另一实施例提供了一种舞蹈动作合成装置，所述装置包括：获取模块、翻译模块和输出模块，其中：

所述获取模块，用于获取输入音乐的音频特征；

所述翻译模块，用于采用预设的音乐动作翻译模型，确定所述输入音乐的音频特征对应的动作特征曲线，其中，所述音乐动作翻译模型根据舞蹈视频训练获得，所述舞蹈视频中包含舞蹈音乐和舞蹈动作；

所述获取模块，用于根据所述动作特征曲线，获取所述动作特征曲线匹配的动作序列；

所述输出模块，用于根据所述动作序列生成舞蹈动画。

可选地，所述获取模块，还用于根据预设的音乐节拍对所述输入音乐进行切分，得到多个音乐片段；

根据所述时频分析方法，对各所述音乐片段进行处理，得到各所述音乐片段对应的音频特征；所述输入音乐的音频特征包括：多个所述音乐片段的音频特征。

可选地，所述翻译模块，还用于采用所述翻译模型，对各所述音乐片段的音频特征进行翻译，得到各所述音乐片段的音频特征对应的动作特征曲线。

可选地，所述获取模块，还用于根据各所述动作特征曲线，从预设动作库中，获取根据各所述动作特征曲线匹配的动作序列。

可选地，所述装置还包括融合模块，用于采用预设的动作拼接混合方法，对各所述动作特征曲线匹配的动作序列中的舞蹈动作进行融合拼接，得到所述舞蹈动画。

第三方面，本申请另一实施例提供了一种舞蹈动作合成设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当舞蹈动作合成设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面任一所述方法的步骤。

第四方面，本申请另一实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。

本申请的有益效果是：通过获取用户输入的待匹配舞蹈动画的音乐，根据输入音乐的音频特征，采用预设的音乐动作翻译模型，将输入音乐的音频特征翻译为动作特征曲线，并根据动作特征曲线获取动作特征曲线匹配的动作序列，随后将动作序列构成的舞蹈动画输出，从而完成自动获取与输入音乐匹配的舞蹈动画，减小了舞蹈游戏的开发成本的同时，扩大了音乐和舞蹈的匹配范围，可以更好的适应于多种音乐风格和舞蹈类型。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的舞蹈动作合成方法的流程示意图；

图2为本申请另一实施例提供的舞蹈动作合成方法的流程示意图；

图3为本申请一实施例提供的音乐动作翻译模型训练步骤的流程示意图；

图4为本申请一实施例提供的舞蹈动作合成装置的结构示意图；

图5为本申请另一实施例提供的舞蹈动作合成装置的结构示意图；

图6为本申请一实施例提供的舞蹈动作合成设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

本申请可适用于舞蹈动作合成场景，例如：需要对一段音乐进行分析匹配，得到与该音乐匹配的舞蹈动画。本申请提供的舞蹈动作合成方法，可由设备执行，该设备可以为计算机设备、服务器或者其它类型的设备，具体设备类型根据用户需要设计，本申请在此不做任何限制。

图1为本申请一实施例提供的一种舞蹈动作合成方法的流程示意图，如图1所示，该方法可包括：

S101：获取输入音乐的音频特征。

其中，输入音乐为用户预先输入的待匹配舞蹈动作的音乐。该输入音乐可从执行该方法的设备根据用户的操作，从内部存储器或外部存储器获取的音乐，或者，从云服务器获取的音乐。

S102：采用预设的音乐动作翻译模型，确定输入音乐的音频特征对应的动作特征曲线。

其中，音乐动作翻译模型根据舞蹈视频训练获得，舞蹈视频中包含舞蹈音乐和舞蹈动作。

本方法中，预设的音乐动作翻译模型为预先训练好的模型，该模型接收输入音乐的音频特征，输出该音频特征经过翻译处理后得到的对应的动作特征曲线。该音乐动作翻译模型是由音频特征与动作特征的对应关系进行训练得到的。

S103：根据动作特征曲线，获取动作特征曲线匹配的动作序列。

其中，匹配过程是根据动作特征曲线，在预设的动作库中搜索与其匹配的动作序列，并在匹配的动作序列中，获取与动作特征曲线匹配度最高的动作序列。

可选地，动作特征曲线可包括：速度曲线、角速度曲线、动作节奏强度曲线在内的至少一组曲线特征。若包括多组曲线特征，则该多组曲线特征可以在一张图上体现，也可以分别在三张图上体现，具体根据用户需要设计，本申请在此不做任何限制。

其中，角速度曲线中的角速度：是将4个肢体(左右手臂、左右腿)角速度合并后的整体肢体角速度，用于表示某一时刻的肢体角速度，其可以为4个肢体的角速度中的最大角速度即可。动作节奏强度曲线中的动作强度：表示从动作中抽取的动作节拍所在处的动作幅度大小，动作节拍(节奏)类似于音乐节拍，可以为在一个动作速度达到最小或加速度达到最大时刻；动作幅度为肢体移动距离与肢体大小的比值；动作节奏强度中的动作速度指的是各个肢体单独的角速度(不合并)，例如：在手肘角速度曲线上的一个局部最低点，即认为该点是手肘的一个动作节奏点。

S104：根据动作序列生成舞蹈动画。

其中，输出的舞蹈动画的时长与上述输入音乐的时长相等；舞蹈动画即为舞蹈动作构成的动画片段，输出的舞蹈动画可以为后续的游戏制作提供内容，具体制作过程中，动画师也可以在提供的舞蹈动画的基础上进行加工，得到最终的与输入音乐匹配的舞蹈动画。

本申请中，通过获取用户输入的待匹配舞蹈动画的音乐，根据输入音乐的音频特征，采用预设的音乐动作翻译模型，将输入音乐的音频特征翻译为动作特征曲线，并根据动作特征曲线获取动作特征曲线匹配的动作序列，随后将动作序列构成的舞蹈动画输出，从而完成自动获取与输入音乐匹配的舞蹈动画。相较于现有技术，一方面，本公开的实施例可以根据舞蹈视频而非舞蹈数据来训练模型，舞蹈视频获取渠道更加多样，获取的成本大大降低，减小了成本的同时，扩大了音乐和舞蹈的匹配范围，可以更好的适应于多种音乐风格和舞蹈类型；一方面，提高了自动化程度，减少了人工设计与筛选过程。

可选地，S101包括：根据预设的音乐节拍对输入音乐进行切分，得到多个音乐片段。

可选地，在本申请的一个实施例中，由于舞蹈动作与音乐均以八拍为基础长度单元，在该示例中，该预设的音乐节拍可以为十六拍，这样既可以满足八拍的倍数长度，又可以将音乐分为多段，从而分别匹配划分后的每对音乐片段对应的舞蹈动作，使得最终得到的舞蹈动画与输入音乐的匹配度更高。举例说明：输入音乐为一段64拍的音乐，则获取输入音乐后，根据预设的音乐节拍，将该输入音乐按照节拍顺序切分为4个十六拍的音乐片段。需要指出的是，预设的音乐节拍可以根据用户需要调整，也可以为八拍或者三十二拍或者任意八的倍数的整数节拍均可，具体根据用户需要设计，本申请在此不做任何限制。

根据时频分析方法，对音乐片段进行处理，得到各音乐片段对应的音频特征；输入音乐的音频特征包括：多个音乐片段的音频特征。

可选地，在本申请的一个实施例中，音频特征可以包括梅尔频谱(MelSpectrogram)特征与恒定Q变换(constant Q transform)特征。

可选地，得到各音乐片段对应的音频特征之后，对各音频特征中的所有特征进行特征长度对齐和特征归一化操作，特征归一化和特征长度对齐可以使得处理后的各特征更方便于后续的求解。

可选地，S102可包括：采用翻译模型，对各音乐片段的音频特征进行翻译，得到各音乐片段的音频特征对应的动作特征曲线，各动作特征曲线用于作为后续动作检索和匹配的指导特征。

对输入音乐进行分段后再获取各音乐片段的音频特征对应的动作特征曲线，再根据各动作特征曲线对后续的舞蹈动作进行检索和匹配，可以使得对舞蹈动作的检索更加精细，分段匹配输入音乐舞蹈动作，从而使得匹配到的各段舞蹈动作与各分段音乐更匹配，从而使得最终的舞蹈动作与输入音乐更匹配，匹配效果更好。

可选地，S103可包括：根据各动作特征曲线，从预设动作库中，获取根据各动作特征曲线匹配的动作序列。

其中，根据各动作特征曲线，在定制的舞蹈动作库中进行多分段检索，得到各动作特征曲线对应的动作序列，并通过分段首尾匹配机制确保匹配到的多个动作分段首尾衔接流畅。

其中，分段首尾匹配机制即为简单的阈值限制，举例说明：确定前序动作结尾姿势和后续动作起始姿势之间的差值，并将该差值与预设阈值进行比较，若该差值小于或等于在预设阈值，则确认前序动作与后续动作匹配成功；若该差值大于预设阈值范围，则确认前序动作与后续动作匹配失败。

图2为本申请另一实施例提供的舞蹈动作合成方法的流程示意图，如图2所示，S104之前，该方法还包括：

S105：采用预设的动作拼接混合方法，对各动作特征曲线匹配的动作序列中的舞蹈动作进行融合拼接，得到舞蹈动画。

其中，动作的表征为一个人体模型各个肢体部分的旋转或位移，因此两个动作的前后拼接混合，即使用插值方法对前序动作结尾姿势和后续动作起始姿势进行插值混合即可，将各动作序列融合后即输出切合输入音乐的舞蹈动画。

图3为本申请一实施例提供的音乐动作翻译模型训练步骤的流程示意图，该音乐动作翻译模型的核心组件包括：长短期记忆算子、一维卷积算子、最大池化算子和全连接算子。其中，一维卷积算子：用于对音频频谱特征在节拍内部进行整合分析与特征转化，转化为面向节拍分析的抽象特征；最大池化算子：用于对特征进行降采样以降低模型复杂度，增强模型鲁棒性；长短期记忆算子：用于对音频频谱特征在节拍与节拍间的整合分析与特征转化，转化为面向片段分析的抽象特征；全连接算子：用于将长短期记忆算子产出的抽象特征映射为所需要的特定动作特征输出。各算子结构上为先后关系，前一个算子的输出作为后一个算子的输入，其先后顺序为：一维卷积算子、最大池化算子、长短期记忆算子、全连接算子。

该方法中，可从舞蹈视频(例如:可以是在线舞蹈视频)中分别提取音乐与动作姿态，构建音乐-动作数据集，使用该数据集组成成对的音频特征和动作特征样本，用以训练基于深度神经网络的音乐-动作翻译模型，该模型可以将输入的音乐翻译为动作特征曲线输出，继而使用输出的动作特征曲线，从预设的动作库中进行检索匹配，形成与输入音乐契合的舞蹈动作序列，最终达到对任意音乐的自动化伴舞动作合成的目的。

该音乐动作翻译模型可以由模型训练设备实现，该模型训练设备可以为终端设备如计算机设备，或者服务器等。本申请不对模型训练设备的具体形态进行限定，该模型训练设备可以与执行上述舞蹈动作合成方法的设备为同一设备，也可以为不同设备。

如图3所示，音乐动作翻译模型采用下述步骤进行训练得到：

S201：提取待训练音乐舞蹈视频的音频流和视频流。

其中，音频流和视频流均为从同一待训练音乐舞蹈视频中提取的。

S202：获取音频流的音频特征。

可选地，可以通过时频分析方法，将获取的音频流转化为可用于模型输入的音频特征。

S203：对视频流中的帧图像进行人体姿态估计，确定视频流中舞者的动作特征曲线。

可选地，视频流的动作特征曲线可以为根据人体姿态估计算法获得的该视频流对应的舞者的动作姿态，并根据动作曲线分析对获得的舞者动作姿态进行分析，将逐帧的舞者动作姿态转化为可用于建模输出的动作特征曲线。

其中，视频流的动作特征曲线下述至少一组包括：总体速度曲线、角速度曲线、动作节奏强度曲线，将该动作特征曲线作为模型训练的因变量，同时也作为后续动作检索与匹配的指导特征。

S204：根据音频流的音频特征和视频流的动作特征曲线进行训练，得到音乐动作翻译模型。

其中，通过使用大量成对的音频特征和对应的动作特征曲线进行训练，得到基于深度神经网络的音乐-动作翻译模型。

可选地，S203包括：对视频流中的帧图像进行人体姿态估计，得到视频流中的帧图像的人体骨骼关键点坐标；根据各人体骨骼关键点坐标，生成动作姿态序列；对动作姿态序列进行动作曲线分析，生成视频流的动作特征曲线。

其中，人体骨骼关键点包括：左右两边的肩、肘、手腕、臀、膝、脚裸等多个关键点，关键点坐标即为每个关键点的二维坐标，通过二维坐标来表示这些关键点在各帧图像中的绝对位置。

可选地，S202包括：根据预设的音乐节拍对音频流进行切分，得到多个音乐片段；根据时频分析方法，对各音乐片段进行处理，得到各音乐片段对应的音频特征；音频流的音频特征包括：多个音乐片段的音频特征。

本申请中，通过获取用户输入的待匹配舞蹈动画的音乐，根据输入音乐的音频特征，采用预设的音乐动作翻译模型，将输入音乐的音频特征翻译为动作特征曲线，并根据动作特征曲线获取动作特征曲线匹配的动作序列，随后将动作序列构成的舞蹈动画输出，从而完成自动获取与输入音乐匹配的舞蹈动画，减小了舞蹈游戏的开发成本的同时，扩大了音乐和舞蹈的匹配范围，可以更好的适应于多种音乐风格和舞蹈类型。

图4为本申请一实施例提供的舞蹈动作合成装置的结构示意图，如图4所示，该装置包括：获取模块301、翻译模块302和输出模块303，其中：

获取模块301，用于获取输入音乐的音频特征。

翻译模块302，用于采用预设的音乐动作翻译模型，确定输入音乐的音频特征对应的动作特征曲线，其中，所述音乐动作翻译模型根据舞蹈视频训练获得，所述舞蹈视频中包含舞蹈音乐和舞蹈动作。

获取模块301，还用于根据动作特征曲线，获取动作特征曲线匹配的动作序列。

输出模块303，用于根据动作序列生成舞蹈动画。

可选地，获取模块301，还用于根据预设的音乐节拍对输入音乐进行切分，得到多个音乐片段；根据时频分析方法，对各音乐片段进行处理，得到各音乐片段对应的音频特征；输入音乐的音频特征包括：多个音乐片段的音频特征。

可选地，翻译模块302，还用于采用翻译模型，对各音乐片段的音频特征进行翻译，得到各音乐片段的音频特征对应的动作特征曲线。

可选地，获取模块301，还用于根据各动作特征曲线，从预设动作库中，获取根据各动作特征曲线匹配的动作序列。

图5为本申请一实施例提供的舞蹈动作合成装置的结构示意图，如图5所示，该装置还包括：融合模块304，用于采用预设的动作拼接混合方法，对各动作特征曲线匹配的动作序列中的舞蹈动作进行融合拼接，得到舞蹈动画。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图6为本申请一实施例提供的舞蹈动作合成设备的结构示意图，该舞蹈动作合成设备可以集成于终端设备或者终端设备的芯片。

该舞蹈动作合成设备包括：处理器501、存储介质502和总线503。

处理器501用于存储程序，处理器501调用存储介质502存储的程序，以执行上述图1-图3对应的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种程序产品，例如存储介质，该存储介质上存储有计算机程序，包括程序，该程序在被处理器运行时执行上述方法对应的实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种舞蹈动作合成方法，其特征在于，所述方法包括：

获取输入音乐的音频特征；

根据所述动作序列生成舞蹈动画。

2.如权利要求1所述的方法，其特征在于，所述获取输入音乐的音频特征，包括：

3.如权利要求2所述的方法，其特征在于，所述采用预设的音乐动作翻译模型，确定所述输入音乐的音频特征对应的动作特征曲线，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述动作特征曲线，获取所述动作特征曲线匹配的动作序列，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述动作序列生成舞蹈动画之前，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述音乐动作翻译模型采用下述步骤进行训练得到：

提取待训练音乐舞蹈视频的音频流和视频流；

获取所述音频流的音频特征；

7.如权利要求6所述的方法，其特征在于，所述对所述视频流中的帧图像进行人体姿态估计，确定所述视频流中舞者的动作特征曲线，包括：

根据各所述人体骨骼关键点坐标，生成动作姿态序列；

8.如权利要求6所述的方法，其特征在于，所述获取所述音频流的音频特征，包括：

9.如权利要求1-8中任一所述的方法，其特征在于，所述音频特征包括下述至少一项：梅尔频谱特征和恒定Q变换特征。

10.如权利要求1-8中任一所述的方法，其特征在于，所述动作特征曲线包括下述至少一项：速度曲线、角速度曲线、动作节奏强度曲线。

11.一种舞蹈动作合成装置，其特征在于，所述装置包括：获取模块、翻译模块和输出模块，其中：

所述获取模块，用于获取输入音乐的音频特征；

所述获取模块，还用于根据所述动作特征曲线，获取所述动作特征曲线匹配的动作序列；

所述输出模块，用于根据所述动作序列生成舞蹈动画。

12.如权利要求11所述的装置，其特征在于，所述装置还包括融合模块，用于采用预设的动作拼接混合方法，对各所述动作特征曲线匹配的动作序列中的舞蹈动作进行融合拼接，得到所述舞蹈动画。

13.一种舞蹈动作合成设备，其特征在于，所述设备包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当舞蹈动作合成设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述权利要求1-10任一所述方法的步骤。

14.一种存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行如上述权利要求1-10任一所述方法的步骤。