CN117750126A

CN117750126A - 视频处理方法及装置、电子设备及计算机可读存储介质

Info

Publication number: CN117750126A
Application number: CN202211648623.0A
Authority: CN
Inventors: 王浩帆
Original assignee: Shuhang Technology Beijing Co ltd
Current assignee: Shuhang Technology Beijing Co ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2024-03-22

Abstract

本申请公开了一种视频处理方法及装置、电子设备及计算机可读存储介质。该方法包括：获取待处理视频，所述待处理视频包括舞蹈；从所述待处理视频中确定出现人物的第一帧图像，作为起始帧；从所述待处理视频中确定出现人物的最后一帧图像，作为结束帧；通过从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，得到舞蹈视频；将所述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态。

Description

视频处理方法及装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频处理方法及装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能技术的兴起，基于人工智能技术实现的创作的应用也越来越广，其中，就包括对于给定的一段音乐，生成相应的三维舞蹈动作，并根据该三维舞蹈动作驱动三维模型跳舞。因此，如何获取三维舞蹈动作具有非常重要的意义。

目前的方法通常是通过用于采集三维人体姿态数据的设备采集三维舞蹈姿态，进而基于三维舞蹈姿态生成三维舞蹈动作。但该种方法获取三维舞蹈姿态的成本高，而且效率低。

发明内容

本申请提供一种视频处理方法及装置、电子设备及计算机可读存储介质。

第一方面，提供了一种视频处理方法，该方法包括：

获取待处理视频，所述待处理视频包括舞蹈；

从所述待处理视频中确定出现人物的第一帧图像，作为起始帧；

从所述待处理视频中确定出现人物的最后一帧图像，作为结束帧；

通过从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，得到舞蹈视频；

将所述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态。

结合本申请任一实施方式，所述从所述待处理视频中确定出现人物的第一帧图像，作为起始帧，包括：

在所述待处理视频中的人物数量小于或等于第一阈值的情况下，从所述待处理视频中确定出现人物的第一帧图像，作为起始帧，所述第一阈值大于1。

结合本申请任一实施方式，在所述待处理视频中的人物数量大于1且小于或等于所述第一阈值的情况下，所述通过从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，得到所述舞蹈视频，包括：

从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，作为所述第一待矫正视频；

从所述第一待矫正视频中截取包括同一个人物的视频帧，得到所述舞蹈视频。

结合本申请任一实施方式，所述从所述第一待矫正视频中截取包括同一个人物的视频帧，得到所述舞蹈视频，包括：

去除所述第一待矫正视频中不包括人物的视频帧，得到第二待矫正视频；

从所述第二待矫正视频中截取包括同一个人物的视频帧，得到所述舞蹈视频。

按时间戳的从小到大的顺序，依次对所述待处理视频中的视频帧进行人物检测；

在检测到所述待处理视频中的第一参考帧包括人物的情况下，确定所述第一参考帧为所述起始帧。

结合本申请任一实施方式，所述从所述待处理视频中确定出现人物的最后一帧图像，作为结束帧，包括：

按时间戳的从大到小的顺序，依次对所述待处理视频中的视频帧进行人物检测；

在检测到所述待处理视频中的第二参考帧包括人物的情况下，确定所述第二参考帧为所述结束帧。

结合本申请任一实施方式，所述将所述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态，包括：

从所述舞蹈视频的视频帧中截取人物区域，得到人物图像序列；

将所述人物图像序列中的二维人体姿态转换为三维人体姿态，得到所述三维舞蹈姿态。

结合本申请任一实施方式，在所述从所述舞蹈视频的视频帧中截取人物区域，得到人物图像序列之前，所述方法还包括：

在未从所述舞蹈视频中的第三参考帧中检测到人物的情况下，基于时间戳比所述第三参考帧的时间戳小的前视频帧中的人物，以及时间戳比所述第三参考帧的时间戳大的后视频帧中的人物，生成所述第三参考帧中的人物。

结合本申请任一实施方式，所述基于时间戳比所述第三参考帧的时间戳小的前视频帧中的人物，以及时间戳比所述第三参考帧的时间戳大的后视频帧中的人物，生成所述第三参考帧中的人物，包括：

基于所述前视频帧中的人物的二维姿态和所述后视频帧中的人物的二维姿态，对所述第三参考帧中的人物的二维姿态进行插值，得到所述第三参考帧中的人物的二维姿态；

基于所述前视频帧中的人物的位置和所述后视频帧中的人物的位置，对所述第三参考帧中的人物的位置进行插值，得到所述第三参考帧中的人物的位置；

基于所述第三参考帧中的人物的二维姿态和所述第三参考帧中的人物的位置，生成所述第三参考帧中的人物。

结合本申请任一实施方式，所述将所述人物图像序列中的二维人体姿态转换为三维人体姿态，得到所述三维舞蹈姿态，包括：

利用三维人体姿态估计方法，将所述人物图像序列中的二维人体姿态转换为三维人体姿态，得到所述三维舞蹈姿态。

结合本申请任一实施方式，在所述得到三维舞蹈姿态之后，所述方法还包括：

去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态，所述三维舞蹈姿态的质量表征基于所述三维舞蹈姿态生成的三维舞蹈动作的质量。

结合本申请任一实施方式，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

确定在所述舞蹈视频中的视频帧中，舞蹈者的人脸面积与舞蹈者的人体面积的比值；

在所述比值小于或等于第二阈值的情况下，确定所述三维舞蹈姿态的质量低于所述预期质量。

在舞蹈者在所述舞蹈视频中的朝向为背朝镜头的情况下，确定所述三维舞蹈姿态的质量低于所述预期质量。

在确定舞蹈者在所述舞蹈视频中处于静止状态的情况下，确定所述三维舞蹈姿态的质量低于所述预期质量。

基于所述三维舞蹈姿态，确定舞蹈者的第一朝向；

通过对所述舞蹈视频进行人脸识别，确定所述舞蹈者的第二朝向；

在所述第一朝向与所述第二朝向不同的情况下，确定所述三维舞蹈姿态的质量低于所述预期质量。

基于所述三维舞蹈姿态，确定舞蹈者在所述舞蹈视频的相邻两帧视频帧中的位移；

在所述位移大于或等于第三阈值的情况下，确定所述三维舞蹈姿态的质量低于所述预期质量。

在确定所述舞蹈视频为非音乐视频的情况下，确定所述三维舞蹈姿态的质量低于所述预期质量。

第二方面，提供了一种视频处理装置，该视频处理装置包括：

获取单元，用于获取待处理视频，所述待处理视频包括舞蹈；

第一处理单元，用于从所述待处理视频中确定出现人物的第一帧图像，作为起始帧；

所述第一处理单元，还用于从所述待处理视频中确定出现人物的最后一帧图像，作为结束帧；

第二处理单元，用于通过从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，得到舞蹈视频；

转换单元，用于将所述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态。

结合本申请任一实施方式，所述第一处理单元，具体用于：

结合本申请任一实施方式，所述第二处理单元，具体用于：

结合本申请任一实施方式，所述第一处理单元，具体用于：

结合本申请任一实施方式，所述转换单元，具体用于：

结合本申请任一实施方式，所述转换单元，还用于：

结合本申请任一实施方式，所述转换单元，具体用于：

结合本申请任一实施方式，所述第二处理单元，还用于：

基于所述三维舞蹈姿态，确定舞蹈者的第一朝向；

结合本申请任一实施方式，所述第二处理单元，还用于：

第三方面，提供了一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了另一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

本申请实施例中，视频处理装置通过从待处理视频中确定出现人物的第一帧图像，确定包括舞蹈的第一帧图像，得到起始帧。通过从待处理视频中确定出现人物的最后一帧图像，确定包括舞蹈的最后一帧图像，得到结束帧。通过从待处理视频中截取位于起始帧和结束帧之间的视频段，可得到舞蹈视频。于是通过将舞蹈视频中的二维人体姿态转换为三维人体姿态，可得到三维舞蹈姿态。由此可降低获得三维舞蹈姿态的成本，提高获得三维舞蹈姿态的效率。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种视频处理方法的流程示意图；

图2为本申请实施例提供的另一种视频处理方法的流程示意图；

图3为本申请实施例提供的一种视频处理装置的结构示意图；

图4为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”可表示前后关联对象是一种“或”的关系，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。字符“/”还可表示数学运算中的除号，例如，a/b＝a除以b；6/3＝2。“以下至少一项(个)”或其类似表达。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例的执行主体为视频处理装置，其中，视频处理装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的，视频处理装置可以是以下中的一种：手机、计算机、平板电脑、可穿戴智能设备。

应理解，本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图1，图1是本申请实施例提供的一种视频处理方法的流程示意图。

101、获取待处理视频。

本申请实施例中，待处理视频包括舞蹈，即待处理视频中包括舞蹈动作。待处理视频可以是离线视频，也可以是在线视频。其中，离线视频可以是通过摄像头或移动智能设备采集获得的视频。在线视频可以是摄像头实时采集到的视频。

在一种获取待处理视频的实现方式中，视频处理装置接收用户通过输入组件输入的待处理视频。上述输入组件包括以下至少一种：键盘、鼠标、触控屏、触控板、音频输入器。

在另一种获取待处理视频的实现方式中，视频处理装置接收终端发送的待处理视频。上述终端可以是以下任意一种：手机、计算机、平板电脑、服务器。

在又一种获取待处理视频的实现方式中，视频处理装置通过互联网下载包括舞蹈的视频得到待处理视频。

在又一种获取待处理视频的实现方式中，视频处理装置与摄像头之间具有通信连接，摄像头通过该通信连接获取摄像头对正在跳舞的舞蹈者进行拍摄得到待处理视频。

102、从上述待处理视频中确定出现人物的第一帧图像，作为起始帧。

由于待处理视频中可能存在不包括舞蹈的视频帧，而本申请实施例的后续处理均是对视频帧中的舞蹈动作进行处理，因此为减少后续处理的数据处理量，视频处理装置需尽可能的将不包括舞蹈的视频帧从待处理视频中去除。

因为舞蹈的存在必然有舞蹈者，即包括舞蹈的视频帧必然有舞蹈者，换句话说，包括舞蹈的视频帧中必然有人物，所以视频处理装置从待处理视频中确定出现人物的第一帧图像，作为包括舞蹈的第一帧图像，即为起始帧，也就是说起始帧为包括舞蹈的视频帧中时间戳最小的视频帧。此时可确定时间戳在起始帧之前的视频帧均不包括人物，即时间戳在起始帧之前的视频帧均不包括舞蹈。

在一种可能实现的方式中，视频处理装置通过对待处理视频进行人物检测，确定待处理视频中出现人物的第一帧图像，作为起始帧。例如，视频处理装置通过对待处理视频进行人物检测，确定第二帧、第三帧、第四帧、第七帧均包括人物，此时起始帧为第二帧。

可选的，视频处理装置通过目标检测算法(MMDetection)实现人物检测。

103、从上述待处理视频中确定出现人物的最后一帧图像，作为结束帧。

如上所述，包括舞蹈的视频帧中必然有人物，因此视频处理装置从待处理视频中确定出现人物的第一帧图像，作为包括舞蹈的最后一帧图像，即为结束帧，也就是说结束帧为包括舞蹈的视频帧中时间戳最大的视频帧。此时可确定时间戳在结束帧之后的视频帧均不包括人物，即时间戳在结束帧之后的视频帧均不包括舞蹈。

在一种可能实现的方式中，视频处理装置通过对待处理视频进行人物检测，确定待处理视频中出现人物的最后一帧图像，作为结束帧。例如，视频处理装置通过对待处理视频进行人物检测，确定第二帧、第三帧、第四帧、第七帧均包括人物，此时结束帧为第七帧。

104、通过从上述待处理视频中截取位于上述起始帧与所结束帧之间的视频段，得到舞蹈视频。

视频处理装置通过从待处理视频中截取位于起始帧与结束帧之间的视频段，可从待处理视频中截取包括舞蹈的视频段，即为舞蹈视频，由此还可达到去除不包括舞蹈的视频帧的效果。应理解，位于起始帧与结束帧之间的视频段，即为将起始帧作为第一帧，将结束帧作为最后一帧的视频段。

105、将上述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态。

舞蹈视频为二维视频，因此舞蹈视频中的人体姿态为二维人体姿态，又由于舞蹈视频包括舞蹈动作，舞蹈视频中的人体姿态即为舞蹈动作，也就是说，舞蹈视频中的二维人体姿态即为舞蹈动作的二维姿态。因此，视频处理装置通过将舞蹈视频中的二维人体姿态转换为三维人体姿态，可得到三维舞蹈姿态，即为舞蹈动作的三维姿态。

在一种可能实现的方式中，视频处理装置将舞蹈视频中的二维人体姿态输入至神经网络，得到三维舞蹈姿态。神经网络的训练过程包括：将第一训练数据输入至神经网络，得到三维舞蹈姿态的第一预测结果，其中，第一训练数据包括舞蹈动作的二维姿态。根据第一预测结果与训练数据的真值(ground truth，GT)的差异，得到第一损失，其中，第一训练数据的GT为与第一训练数据对应的三维舞蹈姿态。根据第一损失，调整神经网络的参数，直至第一损失收敛，完成神经网络的训练。

在另一种可能实现的方式中，视频处理装置利用三维人体姿态估计方法，将上述人物图像序列中的二维人体姿态转换为三维人体姿态，得到上述三维舞蹈姿态。用三维人体姿态估计方法包括：基于局部信息的人体姿态估计和人体形状估计算法(carryinglocation information in full frames into human pose and shape estimation，CLIFF)。

作为一种可选的实施方式，视频装置在执行步骤102的过程中执行以下步骤：

201、在上述待处理视频中的人物数量小于或等于第一阈值的情况下，从上述待处理视频中确定出现人物的第一帧图像，作为起始帧。

由于在待处理视频中的人物多时，一方面，待处理视频中的人物的尺寸小，导致确定待处理视频中的人物的姿态的误差大，进而导致基于待处理视频中的人物的姿态确定的三维舞蹈姿态的误差大，另一方面，待处理视频中的多个人物可能在跳团体舞，即所有人物的舞蹈动作均相同，此时基于舞蹈视频所得到的三维舞蹈姿态为多个相同的舞蹈姿态，进而导致获得三维舞蹈姿态的效率低，再一方面，不同人物之间可能存在遮挡，进而导致确定待处理视频中的人物的姿态的误差大，进而导致基于待处理视频中的人物的姿态确定的三维舞蹈姿态的误差大。

因此，视频处理装置在待处理视频中的人物数量少的情况下，对待处理视频进行处理，可提高获得的三维舞蹈姿态的准确度。本申请实施例中，以第一阈值为依据确定待处理视频中的人物的数量是多还是少，其中，第一阈值为大于1的整数。具体的，在待处理视频中的人物的数量大于或等于第一阈值的情况下，确定待处理视频中的人物的数量多，在待处理视频中的人物的数量小于第一阈值的情况下，确定待处理视频中的人物的数量少。

因此，视频处理装置在待处理视频中的人物的数量小于或等于第一阈值的情况下，从待处理视频中确定出现人物的第一帧图像，作为起始帧，可提高获得的三维舞蹈姿态的准确度。

可选的，视频处理装置在待处理视频中的人物的数量小于或等于第一阈值的情况下，从待处理视频中确定出现人物的最后一帧图像，作为结束帧。即视频处理装置在待处理视频中的人物的数量小于或等于第一阈值的情况下，才对待处理视频进行处理。

作为一种可选的实施方式，在上述待处理视频中的人物数量大于1且小于或等于上述第一阈值的情况下，视频处理装置在执行步骤104的过程中执行以下步骤：

301、从上述待处理视频中截取位于上述起始帧与所结束帧之间的视频段，作为上述第一待矫正视频。

本步骤的实现方式可参见步骤104的实现方式，但应理解的是，在本步骤中，通过截取得到的视频称为第一待矫正视频，而不是舞蹈视频。

302、从上述第一待矫正视频中截取包括同一个人物的视频帧，得到上述舞蹈视频。

由于不同人物的舞蹈动作可能不同，在第一待矫正视频中包括两个或两个以上的人物的情况下，分别基于各个人物的舞蹈动作确定三维舞蹈姿态，可提高三维舞蹈姿态的准确度。因此，视频处理装置从第一待矫正视频中截取包括同一个人物的视频帧，得到舞蹈视频。换句话说，一个舞蹈视频仅包括一个人物。

在一种可能实现的方式中，视频处理装置通过对第一待矫正视频进行人物跟踪处理，确定第一待矫正视频中不同人物的身份。从第一待矫正视频中截取包括相同身份的视频帧，得到舞蹈视频。可选的，视频处理装置通过目标检测算法(MMTracking)实现人物检测。

在该种实施方式中，视频处理装置在基于起始帧和结束帧从待处理视频中截取得到第一待矫正视频的情况下，从第一待矫正视频中截取包括同一个人物的视频帧，得到舞蹈视频，可提高后续基于舞蹈视频得到的三维舞蹈姿态的准确度。

作为一种可选的实施方式，视频处理装置在执行步骤302的过程中执行以下步骤：

401、去除上述第一待矫正视频中不包括人物的视频帧，得到第二待矫正视频。

402、从上述第二待矫正视频中截取包括同一个人物的视频帧，得到上述舞蹈视频。

在该种实施方式中，视频处理装置通过去除第一待矫正视频中不包括人物的视频帧得到第二待矫正视频，可进一步去除第一待矫正视频中不包括舞蹈的视频帧。这样再从第二待矫正视频中截取包括同一个人物的视频帧，得到舞蹈视频，可减少舞蹈视频中不包括舞蹈的视频帧。

作为一种可选的实施方式，视频处理装置在执行步骤102的过程中执行以下步骤：

501、按时间戳的从小到大的顺序，依次对上述待处理视频中的视频帧进行人物检测。

本申请实施例中，时间戳的大小表征视频帧的播放时间，具体的，时间戳越小的视频帧，播放顺序越靠前。

502、在检测到上述待处理视频中的第一参考帧包括人物的情况下，确定上述第一参考帧为上述起始帧。

例如，待处理视频包括5帧图像，视频处理装置首先对第一帧进行人物检测，此时第一帧即为第一参考帧，在确定第一帧包括人物的情况下，停止人物检测并确定第一帧为起始帧，即确定第一参考帧为起始帧。在确定第一帧不包括人物的情况下，继续对第二帧进行人物检测，此时第二帧为第一参考帧，在确定第二帧包括人物的情况下，停止人物检测并确定第二帧为起始帧，即确定第一参考帧为起始帧。在确定第二帧不包括人物的情况下，继续对第三帧进行人物检测，直至检测到人物。

在该种实施方式中，视频处理装置通过按时间戳从小到大的顺序，依次对待处理视频中的视频帧进行人物检测确定参考帧，可减少确定参考帧所产生的数据处理量。

作为一种可选的实施方式，视频处理装置在执行步骤103的过程中执行以下步骤：

601、按时间戳的从大到小的顺序，依次对上述待处理视频中的视频帧进行人物检测。

602、在检测到上述待处理视频中的第二参考帧包括人物的情况下，确定上述第二参考帧为上述结束帧。

例如，待处理视频包括5帧图像，视频处理装置首先对第五帧进行人物检测，此时第五帧即为第二参考帧，在确定第五帧包括人物的情况下，停止人物检测并确定第五帧为结束帧，即确定第二参考帧为结束帧。在确定第五帧不包括人物的情况下，继续对第四帧进行人物检测，此时第四帧为第二参考帧，在确定第四帧包括人物的情况下，停止人物检测并确定第四帧为结束帧，即确定第一参考帧为起始帧。在确定第四帧不包括人物的情况下，继续对第三帧进行人物检测，直至检测到人物。

在该种实施方式中，视频处理装置通过按时间戳从大到小的顺序，依次对待处理视频中的视频帧进行人物检测确定参考帧，可减少确定参考帧所产生的数据处理量。

作为一种可选的实施方式，视频处理装置在执行步骤104的过程中执行以下步骤：

701、从上述舞蹈视频的视频帧中截取人物区域，得到人物图像序列。

视频处理装置通过从舞蹈视频的视频帧中截取人物区域，得到人物图像序列，可去除非人物区域对后续确定二维人体姿态的干扰，并可减少后续确定二维人体姿态的数据处理量。

人物图像序列即为从舞蹈视频的视频帧中截取人物区域所得到的图像序列，例如，从舞蹈视频的第一帧中截取人物区域得到人物图像a，从舞蹈视频的第二帧中截取人物区域得到人物图像b，从舞蹈视频的第三帧中截取人物区域得到人物图像c。那么人物图像序列为人物图像a、人物图像b、人物图像c。

可选的，视频处理装置通过对舞蹈视频的视频帧进行人物检测得到包含人物的人物框，将人物框所包围的区域作为视频帧中的人物区域。

702、将上述人物图像序列中的二维人体姿态转换为三维人体姿态，得到上述三维舞蹈姿态。

在该种实施方式中，视频处理装置首先通过从舞蹈视频的视频帧中截取人物区域，可去除非人物区域，得到人物图像序列，然后将人物图像序列中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态，可减少非人物区域的干扰，进而提高三维舞蹈姿态的准确度，并可减少数据处理量，提高处理速度。

作为一种可选的实施方式，视频处理装置在执行步骤701之前，还执行以下步骤：

801、在未从上述舞蹈视频中的第三参考帧中检测到人物的情况下，基于时间戳比上述第三参考帧的时间戳小的前视频帧中的人物，以及时间戳比上述第三参考帧的时间戳大的后视频帧中的人物，生成上述第三参考帧中的人物。

由于在对舞蹈视频中的视频帧进行人物检测时，可能出现因人物被遮挡而无法检测到人物，这样就会导致该视频帧没有相对应的人物图像，进而无法确定该视频帧中的人物的二维姿态，从而导致最终得到的三维舞蹈动作不完整。

本申请实施例中，第三参考帧为舞蹈视频中未检测到人物的视频帧。视频处理装置在未从第三参考帧中检测到人物的情况下，可基于与第三参考帧相邻的视频帧中的人物，对第三参考帧中的人物进行插值，确定第三参考帧中的人物。

具体的，将舞蹈视频中时间戳比第三参考帧的时间戳小的视频帧称为前视频帧，将舞蹈视频中时间戳比第三参考帧的时间戳大的视频帧称为后视频帧，视频处理装置可基于前视频帧中的人物和后视频帧中的人物，估计第三参考帧中的人物的姿态和位置，进而确定第三参考帧中的人物。

在该种实施方式中，视频处理装置在未从舞蹈视频中的第三参考帧中检测到人物的情况下，基于时间戳比第三参考帧的时间戳小的前视频帧中的人物，以及时间戳比第三参考帧的时间戳大的后视频帧中的人物，生成第三参考帧中的人物，从而可使最终得到的三维舞蹈动作更完整。

作为一种可选的实施方式，视频处理装置在执行步骤801的过程中执行以下步骤：

901、基于上述前视频帧中的人物的二维姿态和上述后视频帧中的人物的二维姿态，对上述第三参考帧中的人物的二维姿态进行插值，得到上述第三参考帧中的人物的二维姿态。

可选的，视频处理装置将前视频帧中的人物的二维姿态和后视频帧中的人物的二维姿态的平均值，作为第三参考帧中的人物的二维姿态。

902、基于上述前视频帧中的人物的位置和上述后视频帧中的人物的位置，对上述第三参考帧中的人物的位置进行插值，得到上述第三参考帧中的人物的位置。

可选的，视频处理装置将前视频帧中的人物的位置和后视频帧中的人物的位置，作为第三参考帧中的人物的位置。

903、基于上述第三参考帧中的人物的二维姿态和上述第三参考帧中的人物的位置，生成上述第三参考帧中的人物。

在该种实施方式中，视频处理装置在基于前视频帧中的人物和后视频帧中的人物，分别确定第三参考帧中的人物的姿态和第三参考帧中的人物的姿态，进而可基于第三参考帧中的人物的二维姿态和第三参考帧中的人物的位置，生成第三参考帧中的人物。

作为一种可选的实施方式，视频处理装置在得到三维舞蹈姿态之后，还执行以下步骤：

1001、去除上述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态。

本申请实施例中，三维舞蹈姿态的质量表征基于三维舞蹈姿态生成的三维舞蹈动作的质量。具体而言，基于三维舞蹈姿态可生成与三维舞蹈姿态匹配的三维舞蹈动作，例如，基于三维舞蹈姿态，为三维虚拟人物生成三维舞蹈动作，进而驱动三维虚拟人物跳舞。

本申请实施例中，评价三维舞蹈动作的质量的依据包括以下至少一个：三维舞蹈动作的逼真度、三维舞蹈动作的连贯度、三维舞蹈动作的协调度。具体的，三维舞蹈动作的逼真度越高，三维舞蹈动作的质量越高，三维舞蹈动作的连贯度越高，三维舞蹈动作的质量越高，三维舞蹈动作的协调度越高，三维舞蹈动作的质量越高。而三维舞蹈姿态的质量即为基于三维舞蹈姿态生成的三维舞蹈动作的质量。

本申请实施例中，预期质量为确定三维舞蹈姿态的质量是高还是低的依据，具体的，三维舞蹈姿态的质量高于或等于预期质量，说明三维舞蹈姿态的质量高，三维舞蹈姿态的质量低于预期质量，说明三维舞蹈姿态的质量低。因此，视频处理装置通过去除三维舞蹈姿态中质量低于预期质量的姿态，可得到高质量的目标三维姿态。

作为一种可选的实施方式，视频处理装置通过执行以下步骤确定三维舞蹈姿态的质量低于预期质量：

1101、确定在上述舞蹈视频中的视频帧中，舞蹈者的人脸面积与舞蹈者的人体面积的比值。

本申请实施例中，舞蹈者即为跳舞的人。人体面积包括人脸面积和躯干面积。可选的，视频处理装置通过对舞蹈视频中的视频帧进行人脸检测，得到人脸框，进而将人脸框的面积作为人脸面积。视频处理装置通过对舞蹈视频中的视频帧进行人物检测，得到人物框，进而将人物框的面积作为人体面积。

1102、在上述比值小于或等于第二阈值的情况下，确定上述三维舞蹈姿态的质量低于上述预期质量。

人脸面积与人体面积的比值小，说明舞蹈视频中的舞蹈者的身体被遮挡，或舞蹈视频中的舞蹈者的身体不完整，而舞蹈视频中的舞蹈者的身体被遮挡，或舞蹈视频中的舞蹈者的身体不完整，显然均会降低三维舞蹈姿态的质量。因此，在比值小的情况下可确定三维舞蹈姿态的质量低于预期质量。

本申请实施例中，以第二阈值为依据确定比值是大还是小，具体的，比值小于或等于第二阈值说明比值小，比值大于第二阈值说明比值大。因此，视频处理装置在比值小于或等于第二阈值的情况下，确定第三舞蹈姿态的质量低于预期质量。

1201、在舞蹈者在上述舞蹈视频中的朝向为背朝镜头的情况下，确定上述三维舞蹈姿态质量低于上述预期质量。

本申请实施例中，舞蹈者的朝向为背朝镜头，即舞蹈者在成像设备采集舞蹈的过程中是背朝成像设备的。而在舞蹈者的朝向是背朝镜头的情况下，基于舞蹈者的二维姿态所生成的三维舞蹈姿态的准确度低，因此在舞蹈者的朝向是背朝镜头的情况下，可确定三维舞蹈姿态质量低于预期质量。

在一种可能实现的方式中，视频处理装置在确定舞蹈视频中的视频帧不包括人脸的情况下，确定舞蹈者在舞蹈视频中的朝向为背朝镜头，进而确定三维舞蹈姿态质量低于预期质量。

1301、在确定舞蹈者在上述舞蹈视频处于静止状态的情况下，确定上述三维舞蹈姿态的质量低于上述预期质量。

舞蹈者在舞蹈视频中处于静止状态，说明舞蹈者没有做出舞蹈动作，这显然可确定三维舞蹈姿态的质量低于预期质量。

可选的，视频处理装置在确定舞蹈者在舞蹈视频中的动作均相同的情况下，确定三维舞蹈姿态的质量低于预期质量。

1401、基于上述三维舞蹈姿态，确定舞蹈者的第一朝向。

本申请实施例中，第一朝向为以下中的一个：背朝镜头、面朝镜头，其中，背朝镜头即舞蹈者在成像设备采集舞蹈的过程中是背朝成像设备的，面镜头即舞蹈者在成像设备采集舞蹈的过程中是面朝成像设备的。

在一种可能实现的方式中，三维舞蹈姿态包括人脸关节点的三维位置和躯干关节点的三维位置，其中，人脸关节点包括以下中的一个：眉心关节点、眼睛关节点、鼻子关节点、嘴巴关节点、下巴关节点，躯干关节点包括以下中的一个：肩膀关节点、胸部关节点、胯部关节点。视频处理装置根据人脸关节点的三维位置和躯干关节点的三维位置，可确定人脸关节点与躯干关节点之间的向量，进而可根据该向量的方向，确定舞蹈者的第一朝向。

1402、通过对上述舞蹈视频进行人脸识别，确定上述舞蹈者的第二朝向。

本申请实施例中，第二朝向为以下中的一个：背朝镜头、面朝镜头。视频处理装置在通过对舞蹈视频进行人脸识别，确定舞蹈视频中存在人脸的情况下，确定舞蹈者的第二朝向为面朝镜头，在通过对舞蹈视频进行人脸识别，确定舞蹈视频中不存在人脸的情况下，确定舞蹈者的第二朝向为背朝镜头。

1403、在上述第一朝向与上述第二朝向不同的情况下，确定上述三维舞蹈姿态的质量低于上述预期质量。

由于通过人脸识别确定舞蹈视频中是否存在人脸的识别准确度高，通过对舞蹈视频进行人脸识别确定舞蹈者的朝向的准确度高，即第二朝向的准确度高。因此第二朝向可视为舞蹈者的正确朝向。于是第一朝向与第二朝向不同，说明第一朝向是错误的，即三维舞蹈姿态存在较大的误差，进而可确定三维舞蹈姿态的质量低于预期质量。

1501、基于上述三维舞蹈姿态，确定舞蹈者在上述舞蹈视频的相邻两帧视频帧中的位移。

例如，基于三维舞蹈姿态，确定舞蹈者在舞蹈视频的第一帧中的位置为p1、舞蹈者在舞蹈视频的第二帧中的位置为p2，进而可确定舞蹈者在第一帧和第二帧之间的位移为p1到p2的距离。

可选的，舞蹈者在舞蹈视频的相邻两帧视频帧中的位移为舞蹈者的关节点在相邻两帧视频帧中的位移，例如，基于三维舞蹈姿态，确定舞蹈者的左膝关节点在舞蹈视频的第一帧中的位置为p3、舞蹈者的左膝关节点在舞蹈视频的第二帧中的位置为p4，进而可确定舞蹈者在第一帧和第二帧之间的位移为p3到p4的距离。

1502、在上述位移大于或等于第三阈值的情况下，确定上述三维舞蹈姿态的质量低于上述预期质量。

由于采集相邻两帧的时间差短，舞蹈者在该时间差内的位移小，即舞蹈者在相邻两帧视频帧中的位移小。反之，若舞蹈者在相邻两帧视频帧中的位移大，说明三维舞蹈姿态的误差大，即三维舞蹈姿态的质量低于预期质量。

本申请实施例中，以第三阈值为依据确定舞蹈者在相邻两帧视频帧中的位移是大还是小，具体的，舞蹈者在相邻两帧视频帧中的位移大于或等于第三阈值，说明舞蹈者在相邻两帧视频帧中的位移大，舞蹈者在相邻两帧视频帧中的位移小于第三阈值，说明舞蹈者在相邻两帧视频帧中的位移小。因此，视频处理装置在舞蹈者在相邻两帧视频帧中的位移大于或等于第三阈值的情况下，确定三维舞蹈姿态的质量低于预期质量。

可选的，视频处理装置舞蹈者在舞蹈视频的相邻两帧视频帧中的位移，以及相邻两帧的时间戳的差，确定舞蹈者在舞蹈视频的相邻两帧视频帧中的速度。在速度大于或等于第四阈值情况下，确定三维舞蹈姿态的质量低于预期质量。

作为一种可选的实施方式，视频处理装置通过执行以下步骤确定三维舞蹈姿态的质量低于预期质量：1601、在确定上述舞蹈视频为非音乐视频的情况下，确定上述三维舞蹈姿态质量低于上述预期质量。

本申请实施例中，非音乐视频即视频中的声音不是音乐的视频，例如，非音乐视频可以是通话视频、演讲视频、小品视频、运动视频。

可选的，通过音乐识别模型可识别视频为音乐视频还是非音乐视频，其中，音乐识别模型的训练过程如下：将第二训练数据输入至神经网络，得到第二训练数据是否为音乐视频的第二预测结果，其中，第二训练数据为视频。根据第二预测结果与第二训练数据的GT的差异，得到第二损失，其中，第二训练数据的GT表征第二训练数据为音乐视频还是非音乐视频。根据第二损失，调整音乐识别模型的参数，直至第二损失收敛，完成音乐识别模型的训练。

基于三维舞蹈姿态所生成的三维舞蹈动作可能需要与音乐配合，例如，需要基于三维舞蹈姿态，生成与某首歌曲匹配的舞蹈动作。而在基于三维舞蹈姿态所生成的三维舞蹈动作需要与音乐配合的情况下，舞蹈视频为非音乐视频显然会导致基于三维舞蹈姿态所生成的三维舞蹈动作的质量低。因此，视频处理装置在确定舞蹈视频为非音乐视频的情况下，确定三维舞蹈姿态质量低于预期质量。

基于本申请实施例提供的技术方案，本申请实施例还提供了一种可能的应用场景。

而基于前文所提供的技术方案，可基于二维舞蹈视频生成三维舞蹈姿态，进而可基于三维舞蹈姿态生成三维舞蹈动作。由于二维舞蹈视频的获取难度低、成本低、数量大，基于前文所提供的技术方案获得的三维舞蹈动作的难度低、成本低、数量大。

请参阅图2，图2所示为基于前文所提供的技术方案生成三维舞蹈动作的流程示意图。在图2中，左上角示出了多张从舞蹈视频中截取的包括舞蹈动作的图像，这些图像用于表示源数据库(Raw database)中的视频均为包括舞蹈的视频，即源数据库中的视频均可作为待处理视频。

可选的，视频处理装置从短视频平台获取包括舞蹈的视频。可选的，视频处理装置从短视频平台中确定关注者超过第五阈值的第一用户，关注者超过第五阈值说明第一用户的活跃度高，例如，关注者为粉丝，第五阈值为100，那么第一用户为粉丝数量超过100的用户。从第一用户所发布的视频中选取包括舞蹈的视频作为源数据库中的视频。

可选的，视频处理装置从短视频平台中确定关注者超过第五阈值，且发布包括标签为舞蹈的视频的频率超过第六阈值的第二用户。关注者超过第五阈值说明第二用户的活跃度高，发布包括标签为舞蹈的视频的频率超过第六阈值说明第二用户发布的视频包括舞蹈的几率大，例如，关注者为粉丝，第五阈值为100，频率为过去90天内发布过2条及2条以上的标签为舞蹈的视频，那么第二用户的粉丝数量超过100，且第二用户在过去90天内发布过2条及2条以上的标签为舞蹈的视频。从第二用户所发布的视频中选取包括舞蹈的视频作为源数据库中的视频。

可选的，第二用户的用户标签与舞蹈匹配，即第二用户发布的视频与舞蹈的几率大，此时，从第二用户所发布的视频中获取到包括舞蹈的视频的几率大。

视频处理装置再基于前文提供的根据待处理视频得到舞蹈视频的实现方式，基于源数据库中的视频得到舞蹈视频(Dance video)。再基于前文提供的根据舞蹈视频得到三维舞蹈姿态的实现方式，得到三维舞蹈姿态(Pseudo-GT annotator)。然后可将三维舞蹈姿态可视化(Intermediate mesh)，即基于三维舞蹈姿态生成三维舞蹈动作，并在视频中显示。基于前文提供的去除三维舞蹈姿态中质量低于预期质量的姿态的实现方式，对三维舞蹈姿态进行数据清洗(Manually check)。最后基于清洗后的三维舞蹈姿态(即目标三维姿态)生成三维舞动动作，并可基于该三维舞动动作驱动三维模型跳舞。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图3，图3为本申请实施例提供的一种视频处理装置的结构示意图，该视频处理装置1包括：获取单元11、第一处理单元12、第二处理单元13、转换单元14，具体的：

获取单元11，用于获取待处理视频，所述待处理视频包括舞蹈；

第一处理单元12，用于从所述待处理视频中确定出现人物的第一帧图像，作为起始帧；

所述第一处理单元12，还用于从所述待处理视频中确定出现人物的最后一帧图像，作为结束帧；

第二处理单元13，用于通过从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，得到舞蹈视频；

转换单元14，用于将所述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态。

结合本申请任一实施方式，所述第一处理单元12，具体用于：

结合本申请任一实施方式，所述第二处理单元13，具体用于：

结合本申请任一实施方式，所述转换单元14，具体用于：

结合本申请任一实施方式，所述转换单元14，还用于：

结合本申请任一实施方式，所述转换单元14，具体用于：

结合本申请任一实施方式，所述第二处理单元13，还用于：

基于所述三维舞蹈姿态，确定舞蹈者的第一朝向；

结合本申请任一实施方式，所述第二处理单元13，还用于：

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图4为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备2包括处理器21，存储器22。可选的，该电子设备2还包括输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以包括是一个或多个处理器，例如包括一个或多个中央处理器(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。可选的，处理器21可以是多个CPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的待处理视频，又或者该存储器22还可用于存储通过处理器21得到的三维舞蹈姿态等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图4仅仅示出了一种电子设备的简化设计。在实际应用中，电子设备还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的电子设备都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理视频，所述待处理视频包括舞蹈；

2.根据权利要求1所述的方法，其特征在于，所述从所述待处理视频中确定出现人物的第一帧图像，作为起始帧，包括：

3.根据权利要求2所述，其特征在于，在所述待处理视频中的人物数量大于1且小于或等于所述第一阈值的情况下，所述通过从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，得到所述舞蹈视频，包括：

从所述待处理视频中截取位于所述起始帧与所结束帧之间的视频段，作为第一待矫正视频；

4.根据权利要求3所述的方法，其特征在于，所述从所述第一待矫正视频中截取包括同一个人物的视频帧，得到所述舞蹈视频，包括：

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述从所述待处理视频中确定出现人物的第一帧图像，作为起始帧，包括：

6.根据权利要求1至4中任意一项所述的方法，其特征在于，所述从所述待处理视频中确定出现人物的最后一帧图像，作为结束帧，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述舞蹈视频中的二维人体姿态转换为三维人体姿态，得到三维舞蹈姿态，包括：

8.根据权利要求7所述的方法，其特征在于，在所述从所述舞蹈视频的视频帧中截取人物区域，得到人物图像序列之前，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述基于时间戳比所述第三参考帧的时间戳小的前视频帧中的人物，以及时间戳比所述第三参考帧的时间戳大的后视频帧中的人物，生成所述第三参考帧中的人物，包括：

10.根据权利要求7至9中任意一项所述的方法，其特征在于，所述将所述人物图像序列中的二维人体姿态转换为三维人体姿态，得到所述三维舞蹈姿态，包括：

11.根据权利要求1所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

13.根据权利要求1所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

14.根据权利要求1所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

15.根据权利要求1所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

基于所述三维舞蹈姿态，确定舞蹈者的第一朝向；

16.根据权利要求1所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

17.根据权利要求1所述的方法，其特征在于，在所述得到三维舞蹈姿态之后，在所述去除所述三维舞蹈姿态中质量低于预期质量的姿态，得到目标三维姿态之前，所述方法还包括：

18.一种视频处理装置，其特征在于，所述装置包括：

19.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至17中任意一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至17中任意一项所述的方法。