CN115375806A

CN115375806A - 舞蹈动作预测模型训练方法、舞蹈合成方法、设备和产品

Info

Publication number: CN115375806A
Application number: CN202211000661.5A
Authority: CN
Inventors: 何艾莲; 张悦; 赖师悦; 黄均昕; 何礼; 龚韬; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-22

Abstract

本申请涉及一种舞蹈动作预测模型训练方法、舞蹈合成方法、设备和产品，可以为任意时长的音乐编排流畅适配的舞蹈动作，包括：获取第一训练音乐的多个训练音乐片段，从与第一训练音乐的音乐风格关联的舞蹈动作集合中确定训练音乐片段匹配的舞蹈动作；根据训练音乐片段的频谱，获取频谱特征、旋律特征和节奏特征中的至少一项，将频谱特征、旋律特征和节奏特征中的至少一项输入到待训练的舞蹈动作预测模型，得到待训练的舞蹈动作预测模型输出的预测舞蹈动作；根据同一训练音乐片段对应的预测舞蹈动作与匹配的舞蹈动作，确定模型损失值；根据模型损失值调整待训练的舞蹈动作预测模型的模型参数，直到满足训练结束条件，得到训练好的舞蹈动作预测模型。

Description

舞蹈动作预测模型训练方法、舞蹈合成方法、设备和产品

技术领域

本申请涉及视频技术领域，特别是涉及一种舞蹈动作预测模型的训练方法、舞蹈合成方法、计算机设备和计算机程序产品。

背景技术

随着音乐特征提取、图像处理等计算机技术的不断发展，音乐驱动的舞蹈动作自动生成技术逐渐得到应用，例如，可以根据用户提供的一段音乐，将自动生成的人体舞蹈动作应用到虚拟角色上。

在相关技术中，可以基于小片段的预测方法预测音乐舞蹈，具体地，可以使用前两秒的音乐片段的舞蹈动作，预测后两秒的音乐片段的动作。但该方式仅能对音乐时长较短的音乐进行预测，针对时间较长的音乐难以取得流畅适配的舞蹈动作。

发明内容

基于此，有必要针对上述技术问题，提供一种舞蹈动作预测模型的训练方法、舞蹈合成方法、计算机设备和计算机程序产品。

第一方面，本申请提供了一种舞蹈动作预测模型的训练方法，所述方法包括：

获取第一训练音乐的多个训练音乐片段，并从与所述第一训练音乐的音乐风格关联的舞蹈动作集合中确定所述训练音乐片段各自匹配的舞蹈动作；

针对每个所述训练音乐片段，根据所述训练音乐片段的频谱，获取所述训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项，并将所述训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项输入到待训练的舞蹈动作预测模型，得到所述待训练的舞蹈动作预测模型针对所述训练音乐片段输出的预测舞蹈动作；

根据同一训练音乐片段对应的所述预测舞蹈动作与所述匹配的舞蹈动作，确定模型损失值；

根据所述模型损失值调整所述待训练的舞蹈动作预测模型的模型参数，直到满足训练结束条件，得到训练好的舞蹈动作预测模型。

第二方面，本申请还提供了一种舞蹈合成方法，所述方法包括：

获取待合成舞蹈的目标音乐，并对所述目标音乐进行切分，得到所述目标音乐的多个音乐片段；

将所述音乐片段输入到预先训练好的舞蹈动作预测模型，得到所述舞蹈动作预测模型针对所述目标音乐的各音乐片段输出的舞蹈动作；其中，所述舞蹈动作预测模型根据如上任一项所述的方法训练得到；

根据各音乐片段的舞蹈动作，获取所述目标音乐对应的舞蹈动作视频。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

第六方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述舞蹈动作预测模型的训练方法、舞蹈合成方法、计算机设备和计算机程序产品，可以获取第一训练音乐的多个训练音乐片段，并从与第一训练音乐的音乐风格关联的舞蹈动作集合中确定训练音乐片段各自匹配的舞蹈动作，进而可以根据训练音乐片段的频谱，获取训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项，并将训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项输入到待训练的舞蹈动作预测模型，得到待训练的舞蹈动作预测模型针对训练音乐片段输出的预测舞蹈动作，根据同一训练音乐片段对应的预测舞蹈动作与匹配的舞蹈动作，确定模型损失值，根据模型损失值调整所述待训练的舞蹈动作预测模型的模型参数，直到满足训练结束条件，得到训练好的舞蹈动作预测模型。在本申请的方案中，一方面，可以基于每个音乐片段自身的频谱特征、旋律特征和节奏特征中的至少一项，独立地预测与每个音乐片段相适配的舞蹈动作，避免基于已预测的舞蹈动作确定当前待预测的舞蹈动作，减少误差累加对预测效果带来的影响，另一方面，不同时刻音乐片段的舞蹈动作都可以与音乐的音乐风格相适配，保证舞蹈动作在整体上与整首音乐的音乐风格匹配，能够为任意时长的音乐编排流畅适配的舞蹈动作。

附图说明

图1为一个实施例中一种舞蹈动作预测模型的训练方法的流程示意图；

图2为一个实施例中一种编码器训练方法的流程示意图；

图3为一个实施例中一种舞蹈合成方法的流程示意图；

图4a为一个实施例中一种舞蹈动作示意图；

图4b为一个实施例中另一种舞蹈动作示意图；

图5为一个实施例中另一种舞蹈动作预测模型的训练方法的流程示意图；

图6为一个实施例中一种计算机设备的内部结构图；

图7为一个实施例中另一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种舞蹈动作预测模型的训练方法，本实施例以该方法应用于服务器进行举例说明，服务器可以通过本申请所提供的舞蹈动作预测模型的训练方法进行模型训练，并得到相应的舞蹈动作预测模型，后续可以将舞蹈动作预测模型部署在应用中，终端通过安装该应用可以使用其中的舞蹈动作预测模型。可以理解的是，上述应用场景仅是一种示例，并不能构成对本申请实施例的限制，例如，该方法也可以应用于终端，由终端训练得到舞蹈动作预测模型，当然，也可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现；终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。

在本实施例中，该方法可以包括以下步骤：

S101，获取第一训练音乐的多个训练音乐片段，并从与第一训练音乐的音乐风格关联的舞蹈动作集合中确定训练音乐片段各自匹配的舞蹈动作。

其中，训练音乐可以是用于进行模型训练的音乐，训练音乐可以是纯音乐，也可以是包含歌词的歌曲；为便于与后续的其他训练音乐进行区分，本实施例中将用于训练舞蹈动作预测模型的训练音乐称为第一训练音乐。

音乐风格也可以称为曲风，是音乐作品在整体上呈现出的具有代表性的风格和特点，例如古典音乐、乡村音乐和摇滚乐在演绎效果和演绎方式上都存在较大的差异，相似音乐作品在不同的音乐风格下所体现的效果也会存在差异，例如，某些基于古典音乐改编后的流行乐，相较于前者沉稳、华丽的特点，会显得更加轻快。示例性地，音乐风格可以基于音乐作品的以下任一种或多种信息确定：旋律、节奏、表演方式(如演唱者的演唱方式、音乐作品演绎过程中所使用的乐器)。

舞蹈动作集合也可以称为舞蹈动作库，舞蹈动作集合中可以包括多个舞蹈动作。在设置舞蹈动作集合时，可以为各种音乐风格设置相应的舞蹈动作集合，不同音乐风格的舞蹈动作集合中的舞蹈动作可以不相同，也可以存在部分相同的舞蹈动作。具体实现中，在编舞师编排舞蹈动作时，为了使舞蹈动作的演绎效果能够与音乐更加匹配，不同音乐风格的音乐作品的舞蹈动作会存在差异，例如一些激昂的音乐，针对其编排的舞蹈动作可以更加硬朗、具有节奏感，而一些轻柔舒缓的音乐，则可以编排一些更加优美的舞蹈动作。相应地，针对不同的音乐风格，可以预先配置相关联的舞蹈动作集合。

在实际应用中，可以获取第一训练音乐并确定第一训练音乐的音乐风格，并且可以对第一训练音乐进行切分，得到第一训练音乐的训练音乐片段，针对第一训练音乐的每个训练音乐片段，可以从第一训练音乐的音乐风格相关联的舞蹈动作集合中选取至少一个舞蹈动作，确定为与该训练音乐片段相匹配的舞蹈动作。

S102，针对每个训练音乐片段，根据训练音乐片段的频谱，获取训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项，并将训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项输入到待训练的舞蹈动作预测模型，得到待训练的舞蹈动作预测模型针对训练音乐片段输出的预测舞蹈动作。

由于训练音乐片段的频谱可以包含有训练音乐片段的各种信息，例如片段中的人声、乐器声音、音乐节奏和音乐旋律等，在本步骤中，可以对训练音乐片段的频谱进行特征提取，获取训练音乐片段的频谱特征、旋律特征和节奏特征中的至少一项，通过频谱特征、旋律特征和节奏特征中的至少一项，表征训练音乐片段在听觉上的特点。其中，频谱特征可以称为全局特征，是表征频谱整体上的特点的信息；旋律特征和节奏特征可以称为局部特征，旋律特征可以是综合反映音乐调式、音色表演方法方式等特点的信息，节奏特征可以是反映音乐在节奏或节拍特点的信息。

进而，可以将训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项输入到待训练的舞蹈动作预测模型，由待训练的舞蹈动作预测模型基于训练音乐片段的频谱特征、旋律特征和节奏特征中的至少一项，确定出与该训练音乐片段相适配的预测舞蹈动作，并作为结果输出。

相关技术中基于小片段的预测方法，虽然也可以针对音乐片段的舞蹈动作进行预测，但本申请发明人在实践过程中发现，该方法由于每次预测都需要依赖上一片段预测出的舞蹈动作来预测当前片段的舞蹈动作，随着预测的音乐内容增加，预测过程中每个片段的误差(预测的舞蹈动作与实际适配的舞蹈动作两者之间的差异)也会逐渐累加，导致后续音乐片段舞蹈动作的预测结果精度不断下降，最终舞蹈效果不佳。而本申请中的舞蹈动作预测模型可以基于每个音乐片段自身的频谱特征、旋律特征和节奏特征，直接预测相应音乐片段的舞蹈动作，不同音乐片段的舞蹈动作可以分别独立地预测，上一音乐片段预测得到的舞蹈动作并不影响下一音乐片段的舞蹈动作预测结果，有效避免误差累加对舞蹈动作预测效果带来的影响。

S103，根据同一训练音乐片段对应的预测舞蹈动作与匹配的舞蹈动作，确定模型损失值。

在获取到各个训练音乐片段的预测舞蹈动作后，可以根据同一训练音乐片段对应的预测舞蹈动作与匹配的舞蹈动作，确定模型损失值，具体例如，针对每个训练音乐片段，可以获取该训练音乐片段的预测舞蹈动作与该训练音乐片段相匹配的舞蹈动作的差异值，并根据多个训练音乐片段所对应的差异值确定模型损失值，该差异值与模型损失值成正相关。

S104，根据模型损失值调整待训练的舞蹈动作预测模型的模型参数，直到满足训练结束条件，得到训练好的舞蹈动作预测模型。

具体地，在确定模型损失值后，可以根据模型损失值调整待训练的舞蹈动作预测模型的模型参数，例如可以基于反向传播算法对模型参数进行调整，并再次返回执行步骤S101，重复上述步骤，迭代多次，直到满足训练结束条件，得到训练好的舞蹈动作预测模型。

在训练过程中，可以获取具有不同音乐风格的第一训练音乐训练舞蹈动作预测模型，针对不同音乐风格的第一训练音乐，由于训练音乐片段的舞蹈动作，是从与音乐风格相关联的舞蹈动作集合中选取的，随着模型不断训练，舞蹈动作预测模型输出的预测舞蹈动作与匹配的舞蹈动作越来越相似，换句话说，舞蹈动作预测模型可以逐渐预测出与第一训练音乐的音乐风格相适配的舞蹈动作，并且每个舞蹈动作也与对应时刻训练音乐片段的频率、训练音乐片段节奏或训练音乐片段旋律中的至少一种相匹配，从而后续利用训练好的舞蹈动作模型对音乐不同时刻的舞蹈动作进行预测时，可以确保预测出的各个舞蹈动作适配于同一音乐风格，保证整首音乐不同时刻下所演绎的舞蹈动作风格统一，提高最终针对整首音乐生成的舞蹈动作质量。

上述舞蹈动作预测模型的训练方法中，可以获取第一训练音乐的多个训练音乐片段，并从与第一训练音乐的音乐风格关联的舞蹈动作集合中确定训练音乐片段各自匹配的舞蹈动作，进而可以根据训练音乐片段的频谱，获取训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项，并将训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项输入到待训练的舞蹈动作预测模型，得到待训练的舞蹈动作预测模型针对训练音乐片段输出的预测舞蹈动作，根据同一训练音乐片段对应的预测舞蹈动作与匹配的舞蹈动作，确定模型损失值，根据模型损失值调整所述待训练的舞蹈动作预测模型的模型参数，直到满足训练结束条件，得到训练好的舞蹈动作预测模型。在本申请的方案中，一方面，可以基于每个音乐片段自身的频谱特征、旋律特征和节奏特征中的至少一项，独立地预测与每个音乐片段相适配的舞蹈动作，避免基于已预测的舞蹈动作确定当前待预测的舞蹈动作，减少误差累加对预测效果带来的影响，另一方面，不同时刻音乐片段的舞蹈动作都可以与音乐的音乐风格相适配，保证舞蹈动作在整体上与整首音乐的音乐风格匹配，能够为任意时长的音乐编排流畅适配的舞蹈动作。

在一个实施例中，S102根据训练音乐片段的频谱，获取训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项，可以包括如下步骤：

获取第一训练音乐片段的频谱，并将频谱输入到训练好的编码器，由编码器获取频谱对应的频谱特征、旋律特征以及节奏特征中的至少一项。

具体实现中，在获取到第一训练音乐的训练音乐片段后，可以获取训练音乐片段的频谱，例如获取训练音乐片段的梅尔谱图，进而可以将该频谱输入到预先训练的编码器，由编码器对输入的频谱进行编码，得到该频谱对应的频谱特征、旋律特征和节奏特征中的至少一项，其中，该编码器可以对固定长度或不固定长度的频谱进行处理，提高对不同训练音乐片段频谱的处理灵活性。

在一个实施例中，如图2所示，编码器可以通过如下步骤训练得到：

S201，获取第二训练音乐的频谱，并将第二训练音乐的频谱输入到待训练的编码器，由编码器获取第二训练音乐的频谱特征、旋律特征以及节奏特征。

在实际应用中，可以获取用于训练解码器的音乐，即第二训练音乐，第二训练音乐可以是完整音乐中的一个音乐片段，也可以是一首完整的音乐。在获取到第二训练音乐后，可以获取第二训练音乐的频谱，并将第二训练音乐的频谱输入到待训练的编码器，由待训练的编码器对输入的频谱进行编码，得到第二训练音乐频谱对应的频谱特征、旋律特征和节奏特征。

S202，将第二训练音乐的频谱特征输入到第一解码器，得到第一解码器针对第二训练音乐预测的频谱；将第二训练音乐的旋律特征输入到第二解码器，得到第二解码器针对第二训练音乐预测的音乐旋律；将第二训练音乐的节奏特征输入到第三解码器，得到第三解码器针对第二训练音乐预测的音乐节奏。

在本步骤中，可以获取预先训练好的解码器，该解码器可以包括第一解码器、第二解码器和第三解码器。其中，第一解码器用于根据输入的特征解码出相应的频谱，第二解码器用于根据输入的特征解码出相应的旋律，第三解码器可用于根据输入的特征解码出相应的节奏。

在获取到第二训练音乐的频谱特征、旋律特征和节奏特征后，可以将频谱特征、旋律特征和节奏特征分别输入到第一解码器、第二解码器和第三解码器，进而可以由第一解码器根据输入的频谱特征，预测第二训练音乐的频谱，由第二解码器根据输入的旋律特征，预测第二训练音乐的音乐旋律，以及，由第三解码器根据输入的节奏特征，预测第三训练音乐的音乐节奏。

S203，根据第二训练音乐、预测的第二训练音乐的频谱、音乐旋律和音乐节奏，确定编码器的模型损失值。

在获取到由各个解码器输出的预测结果后，则可以根据第二训练音乐以及预测得到的第二训练音乐的频谱、音乐旋律和音乐节奏，确定编码器的模型损失值。

S204，根据模型损失值调整编码器的模型参数，直到满足训练结束条件，得到训练好的编码器。

在获取到编码器的模型损失值后，可以根据该模型损失值对编码器的模型参数进行调整，然后再次返回执行步骤S201，重复上述步骤，多次迭代，直到满足训练结束条件，可以得到训练好的编码器。

在本实施例中，通过将待训练的编码器针对第二训练音乐输出的频谱特征、旋律特征以及节奏特征输入到解码器中解码，获取相应的解码结果并调整编码器的模型参数，能够强化编码器对频谱特征、旋律特征和节奏特征的识别，为后续更准确地识别出频谱特征、旋律特征以及节奏特征提供基础。

在一个实施例中，S203根据第二训练音乐、预测的第二训练音乐的频谱、音乐旋律和音乐节奏，确定编码器的模型损失值，可以包括如下步骤：

根据第二训练音乐的频谱与针对第二训练音乐预测的频谱之间的差异，确定第一损失值；根据第二训练音乐的音乐旋律与针对第二训练音乐预测的音乐旋律之间的差异，确定第二损失值；根据第二训练音乐的音乐节奏与针对第二训练音乐预测的音乐节奏之间的差异，确定第三损失值；根据第一损失值、第二损失值和第三损失值确定编码器的模型损失值。

具体实现中，可以将第二训练音频的频谱与解码器根据相应的频谱特征预测得到的频谱进行比较，根据两者之间的差异确定第一损失值，以及，可以将第二训练音频的音乐旋律与解码器根据相应的旋律特征预测得到的音乐旋律进行比较，根据两者之间的差异确定第二损失值，并且，还可以对比第二训练音乐的音乐节奏与解码器针对第二训练音乐预测的音乐节奏，并根据两个音乐节奏之间的差异，确定第三损失值。

进而，可以根据第一损失值、第二损失值和第三损失值确定编码器的模型损失值，例如，可以对第一损失值、第二损失值和第三损失值求和，将求和结果作为编码器的模型损失值；当然，也可以根据不同特征的重要性为各个损失值赋予相应的权重，重要性程度与权重呈正相关，然后可以加权求和，将加权求和结果作为编码器的模型损失值。

在本实施例中，可以结合与频谱特征关联的第一损失值、与旋律特征关联的第二损失值以及与节奏特征关联的第三损失值确定编码器的模型损失值，通过在训练过程中不断减小模型损失值，能够使编码器更准确地识别频谱的多种特征。

在一个实施例中，在从与第一训练音乐的音乐风格关联的舞蹈动作集合中确定训练音乐片段各自匹配的舞蹈动作之前，还可以包括如下步骤：获取第一训练音乐的训练音乐特征，并将训练音乐特征输入到训练好的风格识别模型，由风格识别模型根据训练音乐特征确定第一训练音乐的音乐风格。

作为一示例，第一训练音乐的音乐特征可以称为训练音乐特征，训练音乐特征可以是表征第一训练音乐的音乐内容各方面特点的信息，其可以体现第一训练音乐的节奏、旋律、音调、音色等多方面的特点。

示例性地，第一训练音乐的音乐特征可以包括以下至少一种类型的特征：能量特征、时域特征、频域特征、乐理特征、感知特征。其中，能量特征类型下的指标可以包括均方根能量；时域特征类型下的指标可以包括起音时间、过零率、自相关信息等指标；时域特征类型下的指标可以包括谱质心、梅尔频率倒谱系数、频谱平坦度、频谱通量等；乐理特征类型下的指标可以包括基音频率、失谐度等；乐理特征类型下的指标可以包括响度或尖锐度。

在本实施例中，在获取到第一训练音乐后，可以对第一训练音乐进行特征提取，获取第一训练音乐的训练音乐特征，例如，可以通过音乐特征提取工具(如librosa)从第一训练音乐提取训练音乐特征。

在得到训练音乐特征后，可以将训练音乐特征输入到预先训练好的风格识别模型，由风格识别模型根据输入的训练音乐特征，识别出第一训练音乐的音乐风格。示例性地，风格识别模型可以通过对卷积神经网络(Convolutional Neural Networks,CNN)进行分类训练得到，例如残差网络Resnet50，训练过程中风格识别模型可以根据输入的音乐特征确定一个预设长度的向量，如1*512，并将该向量输入到模型中的全连接层，由全连接根据输入的向量进行分类，得到相应的音乐风格。

在本实施例中，可以将第一训练音乐的训练音乐特征输入到风格识别模型，确定第一训练音乐的音乐风格，为快速确定整首音乐舞蹈动作的基调提供基础。

在一个实施例中，S101获取第一训练音乐的多个训练音乐片段，可以包括如下步骤：确定第一训练音乐中的鼓点，并根据鼓点对第一训练音乐进行切分，得到第一训练音乐的多个训练音乐片段。

作为一示例，鼓点可以是第一训练音乐中的节拍点，如一小节音乐中的重拍，在一些古典音乐或节奏感强的音乐中会存在明显的鼓点。

在获取到第一训练音乐后，可以确定第一训练音乐中的鼓点，由于鼓点和鼓点之间往往可以间隔一个完整的音乐小节或片段，本步骤中可以按照鼓点对第一训练音乐进行切分，例如可以在各个鼓点上进行切分，或者间隔一个或多个鼓点切分，由此可以得到第一训练音乐的多个训练音乐片段。

在本实施例，通过按照鼓点对第一训练音乐进行切分，能够使舞蹈动作的转换点与音乐鼓点相适配，增强最终得到的多个舞蹈动作的节奏感。

在另一个实施例中，S101获取第一训练音乐的多个训练音乐片段，可以包括如下步骤：获取预先设置的采样率，并根据采样率确定第一训练音乐的分割点；按照分割点对第一训练音乐进行切分，得到第一训练音乐的多个训练音乐片段。

在具体实现中，还可以确定预先设置的采样率，在获取到第一训练音乐片段后，可以按照采样率确定训练音乐中的多个分割点，进而可以按照该分割点对第一训练音乐进行切分，得到多个训练音乐片段。

在本实施例中，可以根据采样率确定第一训练音乐的分割点，并按照分割点对第一训练音乐进行切分，能够快速得到多个训练音乐片段。

在一个实施例中，如图3所示，本申请还提供了一种舞蹈合成方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

在本实施例中，该方法可以包括以下步骤：

S301，获取待合成舞蹈的目标音乐，并对目标音乐进行切分，得到目标音乐的多个音乐片段。

在本步骤中，可以获取待合成舞蹈的目标音乐，例如，在接收到舞蹈合成请求后，可以将舞蹈合成请求所携带的音乐作为目标音乐。进而可以对目标音乐进行切分，得到目标音乐的多个音乐片段，在对目标音乐进行切分时，可以按照目标音乐的鼓点进行切分，也可以按照预设的采样率确定出目标音乐的多个分割点，并根据各分割点进行切分。

S302，将音乐片段输入到预先训练好的舞蹈动作预测模型，得到舞蹈动作预测模型针对目标音乐的各音乐片段输出的舞蹈动作。

其中，舞蹈动作预测模型根据如上任一项舞蹈动作预测模型的训练方法训练得到。

在获取到目标音乐的各个音乐片段后，可以将各个音乐片段输入到预先训练好的舞蹈动作模型，由舞蹈动作预测模型确定每个音乐片段相应的舞蹈动作，由于各个音乐片段的音乐风格与完整的目标音乐风格相一致，最终舞蹈动作预测模型输出的各个舞蹈动作可以是针对同一音乐风格的舞蹈动作。

S303，根据各音乐片段的舞蹈动作，获取目标音乐对应的舞蹈动作视频。

在得到各个音乐片段的舞蹈动作后，可以对各个音乐片段的舞蹈动作进行拼接，得到整首目标音乐的舞蹈动作视频。具体实现中，在获取到每个音乐片段的舞蹈动作后，可以通过预设的虚拟对象演绎该舞蹈动作，生成对应的图像或视频片段，例如，图4a和图4b分别示出了由虚拟对象演绎的两个舞蹈动作，在生成虚拟对象针对各音乐片段所演绎的多个图像或视频后，则可以根据各个图像或视频生成对应的舞蹈动作视频。

上述舞蹈合成方法中，可以获取待合成舞蹈的目标音乐，并对目标音乐进行切分，得到所述目标音乐的多个音乐片段，并且可以将音乐片段输入到预先训练好的舞蹈动作预测模型，得到舞蹈动作预测模型针对目标音乐的各音乐片段输出的舞蹈动作，该舞蹈动作预测模型可以根据如上任一项所述的舞蹈动作预测模型的训练方法训练得到；进而可以根据各音乐片段的舞蹈动作，获取目标音乐对应的舞蹈动作视频。在本申请的方案中，一方面，可以基于每个音乐片段自身的频谱特征、旋律特征和节奏特征中的至少一项，独立地预测与每个音乐片段相适配的舞蹈动作，避免基于已预测的舞蹈动作确定当前待预测的舞蹈动作，减少误差累加对预测效果带来的影响，另一方面，不同时刻音乐片段的舞蹈动作都可以与音乐的音乐风格相适配，保证舞蹈动作在整体上与整首音乐的音乐风格匹配，能够为任意时长的音乐编排流畅适配的舞蹈动作。

为了使本领域技术人员能够更好地理解上述步骤，以下通过一个例子对本申请实施例加以示例性说明，但应当理解的是，本申请实施例并不限于此。

如图5所示，在编码器的预训练阶段，可以将输入的音乐作为第二训练音乐，并获取第二训练音乐的梅尔频谱，并结合第二训练音乐的梅尔频谱、旋律和节奏对编码器进行训练，使编码器对梅尔频谱中的频谱特征、旋律特征和节奏特征进行特征学习。

具体而言，可以将梅尔频谱输入到待训练的编码器进行编码，得到包括频谱特征、旋律特征和节奏特征在内的编码结果，然后，可以将其中的频谱特征输入到训练好的用于对频谱特征进行解码的解码器，即第一解码器，由第一解码器进行解码，得到针对第二训练音乐预测的梅尔频谱，进而可以根据预测的梅尔频谱和第二训练音乐实际的梅尔频谱确定第一损失值Lspe。类似地，可以将旋律特征输入到训练好的用于对旋律特征进行解码的第二解码器，由第二解码器对旋律特征进行解码，得到针对第二训练音乐预测的旋律，并根据预测的旋律和第二训练音乐实际的旋律确定第二损失值Lmld。并且，还可以将节奏特征输入到训练好的用于对节奏特征进行解码的第三解码器，由第三解码器进行解码，得到针对第二训练音乐预测的节奏，并根据预测的节奏和第二训练音乐实际的节奏确定第三损失值Lrym。然后，可以根据第一损失值Lspe、第二损失值Lmld和第三损失值Lrym调整编码器的模型参数，直到满足训练结束条件，得到训练好的编码器。

在微调阶段，可以将输入的音乐作为第一训练音乐，然后通过鼓点识别模型识别第一训练音乐中的鼓点，并按照该鼓点对第一训练音乐进行切分，得到第一训练音乐的训练音乐片段，并且，还可以通过训练好的风格识别模型确定第一训练音乐的音乐风格，然后针对每个训练音乐片段，可以从与该音乐风格关联的舞蹈动作集合中确定匹配的舞蹈动作。

进而，可以获取训练音乐片段的梅尔频谱，并将梅尔频谱输入到训练好的编码器进行编码，得到训练音乐片段的频谱特征、旋律特征和节奏特征，进而可以将训练音乐片段的频谱特征、旋律特征和节奏特征输入到待训练的舞蹈动作预测模型，得到该模型输出的预测舞蹈动作，并根据预测舞蹈动作和匹配的舞蹈动作两者之间的差异，调整舞蹈动作预测模型的模型参数，直到满足训练结束条件，得到训练好的舞蹈动作预测模型，后续可以利用该模型对提供的音乐进行舞蹈编排。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储舞蹈动作数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舞蹈动作预测模型的训练方法或一种舞蹈合成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种舞蹈动作预测模型的训练方法或一种舞蹈合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6和图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现上述其他实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现上述其他实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种舞蹈动作预测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练音乐片段的频谱，获取所述训练音乐片段的频谱特征、旋律特征以及节奏特征中的至少一项，包括：

获取所述第一训练音乐片段的频谱，并将所述频谱输入到训练好的编码器，由所述编码器获取所述频谱对应的频谱特征、旋律特征以及节奏特征中的至少一项。

3.根据权利要求2所述的方法，其特征在于，所述编码器通过如下步骤训练得到：

获取第二训练音乐的频谱，并将所述第二训练音乐的频谱输入到待训练的编码器，由所述编码器获取所述第二训练音乐的频谱特征、旋律特征以及节奏特征；

将所述第二训练音乐的频谱特征输入到第一解码器，得到所述第一解码器针对所述第二训练音乐预测的频谱；将所述第二训练音乐的旋律特征输入到第二解码器，得到所述第二解码器针对所述第二训练音乐预测的音乐旋律；将所述第二训练音乐的节奏特征输入到第三解码器，得到所述第三解码器针对所述第二训练音乐预测的音乐节奏；

根据所述第二训练音乐、预测的所述第二训练音乐的频谱、音乐旋律和音乐节奏，确定所述编码器的模型损失值；

根据所述模型损失值调整所述编码器的模型参数，直到满足训练结束条件，得到训练好的编码器。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二训练音乐、预测的所述第二训练音乐的频谱、音乐旋律和音乐节奏，确定所述编码器的模型损失值，包括：

根据所述第二训练音乐的频谱与针对所述第二训练音乐预测的频谱之间的差异，确定第一损失值；根据所述第二训练音乐的音乐旋律与针对所述第二训练音乐预测的音乐旋律之间的差异，确定第二损失值；根据所述第二训练音乐的音乐节奏与针对所述第二训练音乐预测的音乐节奏之间的差异，确定第三损失值；

根据所述第一损失值、第二损失值和第三损失值确定所述编码器的模型损失值。

5.根据权利要求1所述的方法，其特征在于，在所述从与所述第一训练音乐的音乐风格关联的舞蹈动作集合中确定所述训练音乐片段各自匹配的舞蹈动作之前，还包括：

获取所述第一训练音乐的训练音乐特征，并将所述训练音乐特征输入到训练好的风格识别模型，由所述风格识别模型根据所述训练音乐特征确定所述第一训练音乐的音乐风格。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取第一训练音乐的多个训练音乐片段，包括：

确定第一训练音乐中的鼓点，并根据所述鼓点对所述第一训练音乐进行切分，得到所述第一训练音乐的多个训练音乐片段。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述获取第一训练音乐的多个训练音乐片段，包括：

获取预先设置的采样率，并根据所述采样率确定第一训练音乐的分割点；

按照所述分割点对所述第一训练音乐进行切分，得到所述第一训练音乐的多个训练音乐片段。

8.一种舞蹈合成方法，其特征在于，所述方法包括：

将所述音乐片段输入到预先训练好的舞蹈动作预测模型，得到所述舞蹈动作预测模型针对所述目标音乐的各音乐片段输出的舞蹈动作；其中，所述舞蹈动作预测模型根据如权利要求1-7任一项所述的方法训练得到；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。