CN117496409A

CN117496409A - 一种基于多视角三维人体重建的细粒度舞蹈动作评分方法

Info

Publication number: CN117496409A
Application number: CN202311517015.0A
Authority: CN
Inventors: 张超; 林锦卿; 叶仕承; 林凯欣
Original assignee: Guangdong Xinyu Information Technology Co ltd
Current assignee: Guangdong Xinyu Information Technology Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-02
Anticipated expiration: 2043-11-15
Also published as: CN117496409B

Abstract

本发明涉及一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，属于计算机技术领域，包括视频录制系统，所述视频录制系统包括相机组、转换器和计算机，所述相机组通过转换器与计算机通信连接；所述相机组用于获取用户的多角度跳舞视频，所述转换器用于实现相机组与计算机连接。本发明提供了一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，将跳舞视频实时与模板视频进行对比，获取每个评分模块的评价分数，再结合每个动作的权重向量得出总体评价，避免了人为因素对评分结果的影响。

Description

一种基于多视角三维人体重建的细粒度舞蹈动作评分方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于多视角三维人体重建的细粒度舞蹈动作评分方法。

背景技术

舞蹈考试或比赛中，评分老师按照比赛规则对运动员实施舞蹈质量进行评分，可实现考试或者比赛分数评价。而目前已有舞蹈考试或比赛裁判过程里，缺少统一、量化的动作评分系统，评分老师在舞蹈考试或者比赛里仅根据自己的主观经验对健美操难度进行评分，不能客观、准确地评价运动员竞技能力，评分结果缺乏公正性，饱受争议。评分老师对舞蹈动作评分的公正性、合理性对我国青少年舞蹈走向世界竞争存在直接影响。

因此，亟需提供一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，实现舞蹈科学性、合理性、规范性的自动评分。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，将跳舞视频实时与模板视频进行对比，获取每个评分模块的评价分数，再结合每个动作的权重向量得出总体评价，避免了人为因素对评分结果的影响。

本发明的目的可以通过以下技术方案实现：

一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，包括视频录制系统，所述舞蹈动作评分方法，包括以下步骤：

S1、获取实时分数：用户选取需要进行对比的标准模板视频，利用相机组获取用户的多角度的跳舞视频，将跳舞视频与模板视频进行实时对比，得出实时分数；

S2、通过粒子群迭代训练得到专家的评价权重，根据每个动作的权重向量以及每个评分模块的评价分数，获得该舞者的总体评价。

进一步地，所述视频录制系统，包括相机组、转换器和计算机，所述相机组通过转换器与计算机通信连接；所述相机组用于获取用户的多角度跳舞视频，所述转换器用于实现相机组与计算机连接。

进一步地，所述步骤S1中，标准模板视频包括舞蹈的动作、速度、加速度、曲率熟练度以及运动轨迹信息。

进一步地，所述步骤S1中，获取实时分数包括以下步骤：

S11、实时姿态估计：采用改进多视角人体3D重建姿态估计算法来提取的人体三维骨架，将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入，得到视频中人体3D精细骨骼点的坐标；

S12、在模板视频的第一帧中手工标记处主要舞蹈者的初始位置以及各个关键点的初始位置，并利用DSST跟踪算法来跟踪主要舞蹈者以及其相应的基准锚点；

S13、提取每帧视频中的关键角度，将这些关键角度作为特征向量，利用这些特征向量来计算模板视频的关键角度差异；

S14、计算前后关键帧的相似度，控制阈值来获取关键运动的状态，然后返回当前模板视频的时间戳与帧；

S15、采用ResNet18作为主干网络视频相似度计算；

S16、采用RNN回归网络对舞蹈动作进行完成度评分；

S17、利用视频相似度、舞蹈的完成度以及动作幅度这三个值作为评判结果，将这三个值的序列特征输入到LSTM网络中，进行与模板视频的相似度综合打分。

进一步地，所述步骤S11中，提取的人体三维骨架包括多视角人体自标定，具体包括以下步骤：

使用张正友标定法作为自标定算法框架，在场景中添加多个已知长度的标定棒，确保所有摄像机视角都可以观测到标定棒；

每隔一定时间间隔，同步捕获每个摄像机对标定棒的图像，检测各视角图片中的标定棒端点，提取2D图像坐标；

根据标定棒的已知尺寸以及不同视角下的2D观测，构建标定方程组；通过解方程组的方法，优化求解各摄像机的内参和外参；

将优化后的参数反馈到姿态网络中，改进多视角几何关系建模，在网络训练过程中，定期重复上述自标定过程，使摄像机参数不断更新；

设计参数更新的策略，控制网络收敛过程中参数变化的幅度，构建无标定棒的盲标定模型，使用人体运动自约束进行自标定。

进一步地，所述步骤S11中，提取的人体三维骨架还包括对视频的姿态进行平滑，具体包括以下步骤：

构建一个时空图模型，节点表示每一帧的人体关节点位置，对不同视角的2D关节点序列，分别用LSTM进行编码，得到视角间各自的时序特征；

将LSTM编码器的输出在时间维和视角维上拼接，作为整个时空图的节点特征输入；在图上构建时序连接边和视角连接边，定义图卷积运算；

通过GCN层，在图上进行特征传播和融合，综合多视角和时序信息，GCN的输出作为精炼的3D姿态特征，用于最终姿态回归；

通过端到端训练时空图卷积网络，进行多视角姿态估计。

进一步地，所述步骤S13中，关键角度包括：

头部、脖子、左肩；头部、脖子、右肩；脖子、右肩、右手肘；左肩、左手肘、左手腕；右肩、右手肘、右手腕；脖子、左臀、左膝盖；脖子、右臀、右膝盖；左臀、左膝盖、左脚腕；右臀、右膝盖、右脚腕。

进一步地，所述步骤S15中，相似度计算包括以下步骤：

数据输入：提取舞蹈视频中的关键帧，进行数据增强；

构建网络：使用预训练好的ResNet18作为主干特征提取网络，去掉最后的全连接层，接入3个全局平均池化层；

特征提取：输入舞蹈视频关键帧，经过ResNet18提取高级特征表示，再通过全局池化生成固定长度的特征向量；

特征融合：对同一视频不同关键帧的特征向量进行平均值融合，得到视频级别的特征表示；

距离计算：对两个视频的特征向量计算余弦距离。

进一步地，所述步骤S16中，完成度评分包括以下步骤：

将步骤S11中获取的3D姿态特征作为输入，构建视频动作RNN编码模块，对姿态估计结果进行编码，得到视频级别的姿态特征表示；

构建匹配模块，输入母案视频编码特征和待检测视频编码特征，计算两者的相似度分值；

设置回归目标，构建全连接回归层，输入是匹配模块输出的相似度分值，输出是完成度的回归值；

采用欧式损失作为回归任务的损失函数，通过端到端训练网络，学习将匹配相似度映射到完成度的回归值；

在训练过程中，使用舞蹈视频真实的完成度标注作为监督信号，训练完成后，直接输入视频获取完成度回归预测值，根据回归预测值输出连续的完成度评估结果。

进一步地，所述步骤S17中，舞蹈的完成度包括标准模板评分、速度评分、加速度评分、曲率熟练度评分、运动轨迹评分和整体数据偏差评分。

本发明的有益效果为：

本发明基于多视角三维人体重建的细粒度舞蹈动作评分方法，将跳舞视频实时与模板视频进行对比，获取每个评分模块的评价分数，再结合每个动作的权重向量得出总体评价，避免了人为因素对评分结果的影响；同时能够通过对比舞者的舞蹈动作、速度、加速度、曲率熟练度以及运动轨迹等指标来进行评分，使得更精确地描述舞者的表现水平和舞蹈质量，从而提高评分的准确性。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明实施例提供的视频录制系统的结构示意图；

图2为本发明实施例提供的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法的流程示意图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

请参阅图1-2，一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，包括视频录制系统，所述视频录制系统包括相机组、转换器和计算机，所述相机组通过转换器与计算机通信连接；所述相机组用于获取用户的多角度跳舞视频，所述转换器用于实现相机组与计算机连接。

需说明的是，本实施例中，相机组采用的相机数量为4个，相机环绕舞者进行架设，分别对舞者的正面、背面、左侧面和右侧面进行拍摄，实现舞蹈视频的录取。

所述舞蹈动作评分方法，包括以下步骤：

S1、获取实时分数：用户选取需要进行对比的标准模板视频，利用相机组获取用户的多角度的跳舞视频，将跳舞视频与模板视频进行实时对比，得出实时分数；其中标准模板视频包括舞蹈的动作、速度、加速度、曲率熟练度以及运动轨迹等信息。

所述获取实时分数还包括以下步骤：

S11、实时姿态估计：采用改进多视角人体3D重建姿态估计算法(XYMvP)来提取的人体三维骨架，将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入，得到视频中人体3D精细骨骼点的坐标；

需说明的是，XYMvP算法在多视角人体3D重建姿态估计算法(Direct Multi-viewMulti-person 3D Human Pose Estimation，MvP)的基础上进行改进，由于MvP方法过于依赖精确的多视角摄像机标定，需要进行手动标定，本实施例引入多视角人体自标定方法，包括以下步骤：

每隔一定时间间隔，同步捕获每个摄像机对标定棒的图像，检测各视角图片中的标定棒端点，提取2D图像坐标。

可理解的是，通过上述的定期自标定参数并反馈网络的方式，可以降低对精确手动标定的依赖，提高姿态估计的鲁棒性和实用性。

由于MvP方法在语义上下文方面理解较差，本身舞蹈视频是一个连续的时序动作，需要对整个视频的姿态进行平滑，本实施例在MvP的基础上引入LSTM和GCN结合的思路来使MvP更有时序一致性，具体包括以下步骤：

通过端到端训练时空图卷积网络，进行多视角姿态估计。

利用LSTM建模时间动态、GCN建模视角关系的优势，可以得到更好的3D姿态表示，进一步构建层次化的时空图卷积网络，提高姿态表示的学习能力。

通过以上改进利用XYMvP将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入，得到视频中人体3D精细骨骼点的坐标。

S12、在模板视频的第一帧中手工标记处主要舞蹈者的初始位置以及各个关键点的初始位置，并利用DSST跟踪算法来跟踪主要舞蹈者以及其相应的基准锚点。

需说明的是，DSST(Discriminative Scale Space Tracker)是一种基于判别尺度空间的目标跟踪算法，主要用于在视频序列中实时跟踪目标，并且在尺度变化和遮挡等复杂情况下表现良好。DSST算法将目标表示为特征响应图，并使用判别性尺度空间方法来估计目标的位置和尺度。具体的，DSST首先利用快速傅里叶变换(FFT)计算目标模板的特征响应图，然后在每一帧中，通过比较当前帧的特征响应图与目标模板的特征响应图，使用相关滤波器进行目标定位。

S13、提取每帧视频中的关键角度，将这些关键角度作为特征向量，利用这些特征向量来计算模板视频的关键角度差异，其中关键角度包括：

S14、计算前后关键帧的相似度，控制阈值来获取关键运动的状态，然后返回当前模板视频的时间戳与帧。

S15、采用ResNet18作为主干网络视频相似度计算，具体步骤如下：

数据输入：提取舞蹈视频中的关键帧，进行数据增强；

距离计算：对两个视频的特征向量计算距离，将提取的特征进行余弦距离计算。

S16、采用RNN回归网络对舞蹈动作进行完成度评分，包括以下步骤：

设置回归目标，比如相似度分值在0-1之间，分值越高表示完成度越高，构建全连接回归层，输入是匹配模块输出的相似度分值，输出是完成度的回归值；

在训练过程中，使用舞蹈视频真实的完成度标注作为监督信号，训练完成后，直接输入视频可以得到0-1之间的完成度回归预测值，根据回归预测值输出连续的完成度评估结果。

其中，舞蹈的完成度包括标准模板评分、速度评分、加速度评分、曲率熟练度评分、运动轨迹评分和整体数据偏差评分。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：包括视频录制系统，所述舞蹈动作评分方法，包括以下步骤：

S2、通过粒子群迭代训练得到专家的评价权重，根据每个动作的权重向量以及每个评分模块的评价分数，获得舞蹈者的总体评价。

2.根据权利要求1所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述视频录制系统，包括相机组、转换器和计算机，所述相机组通过转换器与计算机通信连接；所述相机组用于获取用户的多角度跳舞视频，所述转换器用于实现相机组与计算机连接。

3.根据权利要求1所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S1中，标准模板视频包括舞蹈的动作、速度、加速度、曲率熟练度以及运动轨迹信息。

4.根据权利要求1所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S1中，获取实时分数包括以下步骤：

S12、在模板视频的第一帧中手工标记处舞蹈者的初始位置以及各个关键点的初始位置，并利用DSST跟踪算法来跟踪舞蹈者以及其相应的基准锚点；

S15、采用ResNet18作为主干网络视频相似度计算；

S16、采用RNN回归网络对舞蹈动作进行完成度评分；

5.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S11中，提取的人体三维骨架包括多视角人体自标定，具体包括以下步骤：

使用张正友标定法作为自标定算法框架，在场景中添加多个已知长度的标定棒，确保所有摄像机视角均能观测到标定棒；

将优化后的参数反馈到姿态网络中，改进多视角几何关系建模，在网络训练过程中，定期重复自标定过程，使摄像机参数不断更新；

6.根据权利要求5所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S11中，提取的人体三维骨架还包括对视频的姿态进行平滑，具体包括以下步骤：

通过端到端训练时空图卷积网络，进行多视角姿态估计。

7.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S13中，关键角度包括：

8.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S15中，相似度计算包括以下步骤：

数据输入：提取舞蹈视频中的关键帧，进行数据增强；

距离计算：对两个视频的特征向量计算余弦距离。

9.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S16中，完成度评分包括以下步骤：

10.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法，其特征在于：所述步骤S17中，舞蹈的完成度包括标准模板评分、速度评分、加速度评分、曲率熟练度评分、运动轨迹评分和整体数据偏差评分。