CN117496409A - 一种基于多视角三维人体重建的细粒度舞蹈动作评分方法 - Google Patents
一种基于多视角三维人体重建的细粒度舞蹈动作评分方法 Download PDFInfo
- Publication number
- CN117496409A CN117496409A CN202311517015.0A CN202311517015A CN117496409A CN 117496409 A CN117496409 A CN 117496409A CN 202311517015 A CN202311517015 A CN 202311517015A CN 117496409 A CN117496409 A CN 117496409A
- Authority
- CN
- China
- Prior art keywords
- video
- view
- dance
- steps
- calibration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 40
- 238000013077 scoring method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 40
- 230000033001 locomotion Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 210000003127 knee Anatomy 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 210000003423 ankle Anatomy 0.000 claims description 6
- 210000001217 buttock Anatomy 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 210000000707 wrist Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,属于计算机技术领域,包括视频录制系统,所述视频录制系统包括相机组、转换器和计算机,所述相机组通过转换器与计算机通信连接;所述相机组用于获取用户的多角度跳舞视频,所述转换器用于实现相机组与计算机连接。本发明提供了一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,将跳舞视频实时与模板视频进行对比,获取每个评分模块的评价分数,再结合每个动作的权重向量得出总体评价,避免了人为因素对评分结果的影响。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种基于多视角三维人体重建的细粒度舞蹈动作评分方法。
背景技术
舞蹈考试或比赛中,评分老师按照比赛规则对运动员实施舞蹈质量进行评分,可实现考试或者比赛分数评价。而目前已有舞蹈考试或比赛裁判过程里,缺少统一、量化的动作评分系统,评分老师在舞蹈考试或者比赛里仅根据自己的主观经验对健美操难度进行评分,不能客观、准确地评价运动员竞技能力,评分结果缺乏公正性,饱受争议。评分老师对舞蹈动作评分的公正性、合理性对我国青少年舞蹈走向世界竞争存在直接影响。
因此,亟需提供一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,实现舞蹈科学性、合理性、规范性的自动评分。
发明内容
为解决现有技术中存在的上述问题,本发明提供了一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,将跳舞视频实时与模板视频进行对比,获取每个评分模块的评价分数,再结合每个动作的权重向量得出总体评价,避免了人为因素对评分结果的影响。
本发明的目的可以通过以下技术方案实现:
一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,包括视频录制系统,所述舞蹈动作评分方法,包括以下步骤:
S1、获取实时分数:用户选取需要进行对比的标准模板视频,利用相机组获取用户的多角度的跳舞视频,将跳舞视频与模板视频进行实时对比,得出实时分数;
S2、通过粒子群迭代训练得到专家的评价权重,根据每个动作的权重向量以及每个评分模块的评价分数,获得该舞者的总体评价。
进一步地,所述视频录制系统,包括相机组、转换器和计算机,所述相机组通过转换器与计算机通信连接;所述相机组用于获取用户的多角度跳舞视频,所述转换器用于实现相机组与计算机连接。
进一步地,所述步骤S1中,标准模板视频包括舞蹈的动作、速度、加速度、曲率熟练度以及运动轨迹信息。
进一步地,所述步骤S1中,获取实时分数包括以下步骤:
S11、实时姿态估计:采用改进多视角人体3D重建姿态估计算法来提取的人体三维骨架,将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入,得到视频中人体3D精细骨骼点的坐标;
S12、在模板视频的第一帧中手工标记处主要舞蹈者的初始位置以及各个关键点的初始位置,并利用DSST跟踪算法来跟踪主要舞蹈者以及其相应的基准锚点;
S13、提取每帧视频中的关键角度,将这些关键角度作为特征向量,利用这些特征向量来计算模板视频的关键角度差异;
S14、计算前后关键帧的相似度,控制阈值来获取关键运动的状态,然后返回当前模板视频的时间戳与帧;
S15、采用ResNet18作为主干网络视频相似度计算;
S16、采用RNN回归网络对舞蹈动作进行完成度评分;
S17、利用视频相似度、舞蹈的完成度以及动作幅度这三个值作为评判结果,将这三个值的序列特征输入到LSTM网络中,进行与模板视频的相似度综合打分。
进一步地,所述步骤S11中,提取的人体三维骨架包括多视角人体自标定,具体包括以下步骤:
使用张正友标定法作为自标定算法框架,在场景中添加多个已知长度的标定棒,确保所有摄像机视角都可以观测到标定棒;
每隔一定时间间隔,同步捕获每个摄像机对标定棒的图像,检测各视角图片中的标定棒端点,提取2D图像坐标;
根据标定棒的已知尺寸以及不同视角下的2D观测,构建标定方程组;通过解方程组的方法,优化求解各摄像机的内参和外参;
将优化后的参数反馈到姿态网络中,改进多视角几何关系建模,在网络训练过程中,定期重复上述自标定过程,使摄像机参数不断更新;
设计参数更新的策略,控制网络收敛过程中参数变化的幅度,构建无标定棒的盲标定模型,使用人体运动自约束进行自标定。
进一步地,所述步骤S11中,提取的人体三维骨架还包括对视频的姿态进行平滑,具体包括以下步骤:
构建一个时空图模型,节点表示每一帧的人体关节点位置,对不同视角的2D关节点序列,分别用LSTM进行编码,得到视角间各自的时序特征;
将LSTM编码器的输出在时间维和视角维上拼接,作为整个时空图的节点特征输入;在图上构建时序连接边和视角连接边,定义图卷积运算;
通过GCN层,在图上进行特征传播和融合,综合多视角和时序信息,GCN的输出作为精炼的3D姿态特征,用于最终姿态回归;
通过端到端训练时空图卷积网络,进行多视角姿态估计。
进一步地,所述步骤S13中,关键角度包括:
头部、脖子、左肩;头部、脖子、右肩;脖子、右肩、右手肘;左肩、左手肘、左手腕;右肩、右手肘、右手腕;脖子、左臀、左膝盖;脖子、右臀、右膝盖;左臀、左膝盖、左脚腕;右臀、右膝盖、右脚腕。
进一步地,所述步骤S15中,相似度计算包括以下步骤:
数据输入:提取舞蹈视频中的关键帧,进行数据增强;
构建网络:使用预训练好的ResNet18作为主干特征提取网络,去掉最后的全连接层,接入3个全局平均池化层;
特征提取:输入舞蹈视频关键帧,经过ResNet18提取高级特征表示,再通过全局池化生成固定长度的特征向量;
特征融合:对同一视频不同关键帧的特征向量进行平均值融合,得到视频级别的特征表示;
距离计算:对两个视频的特征向量计算余弦距离。
进一步地,所述步骤S16中,完成度评分包括以下步骤:
将步骤S11中获取的3D姿态特征作为输入,构建视频动作RNN编码模块,对姿态估计结果进行编码,得到视频级别的姿态特征表示;
构建匹配模块,输入母案视频编码特征和待检测视频编码特征,计算两者的相似度分值;
设置回归目标,构建全连接回归层,输入是匹配模块输出的相似度分值,输出是完成度的回归值;
采用欧式损失作为回归任务的损失函数,通过端到端训练网络,学习将匹配相似度映射到完成度的回归值;
在训练过程中,使用舞蹈视频真实的完成度标注作为监督信号,训练完成后,直接输入视频获取完成度回归预测值,根据回归预测值输出连续的完成度评估结果。
进一步地,所述步骤S17中,舞蹈的完成度包括标准模板评分、速度评分、加速度评分、曲率熟练度评分、运动轨迹评分和整体数据偏差评分。
本发明的有益效果为:
本发明基于多视角三维人体重建的细粒度舞蹈动作评分方法,将跳舞视频实时与模板视频进行对比,获取每个评分模块的评价分数,再结合每个动作的权重向量得出总体评价,避免了人为因素对评分结果的影响;同时能够通过对比舞者的舞蹈动作、速度、加速度、曲率熟练度以及运动轨迹等指标来进行评分,使得更精确地描述舞者的表现水平和舞蹈质量,从而提高评分的准确性。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明实施例提供的视频录制系统的结构示意图;
图2为本发明实施例提供的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法的流程示意图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。
请参阅图1-2,一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,包括视频录制系统,所述视频录制系统包括相机组、转换器和计算机,所述相机组通过转换器与计算机通信连接;所述相机组用于获取用户的多角度跳舞视频,所述转换器用于实现相机组与计算机连接。
需说明的是,本实施例中,相机组采用的相机数量为4个,相机环绕舞者进行架设,分别对舞者的正面、背面、左侧面和右侧面进行拍摄,实现舞蹈视频的录取。
所述舞蹈动作评分方法,包括以下步骤:
S1、获取实时分数:用户选取需要进行对比的标准模板视频,利用相机组获取用户的多角度的跳舞视频,将跳舞视频与模板视频进行实时对比,得出实时分数;其中标准模板视频包括舞蹈的动作、速度、加速度、曲率熟练度以及运动轨迹等信息。
所述获取实时分数还包括以下步骤:
S11、实时姿态估计:采用改进多视角人体3D重建姿态估计算法(XYMvP)来提取的人体三维骨架,将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入,得到视频中人体3D精细骨骼点的坐标;
需说明的是,XYMvP算法在多视角人体3D重建姿态估计算法(Direct Multi-viewMulti-person 3D Human Pose Estimation,MvP)的基础上进行改进,由于MvP方法过于依赖精确的多视角摄像机标定,需要进行手动标定,本实施例引入多视角人体自标定方法,包括以下步骤:
使用张正友标定法作为自标定算法框架,在场景中添加多个已知长度的标定棒,确保所有摄像机视角都可以观测到标定棒;
每隔一定时间间隔,同步捕获每个摄像机对标定棒的图像,检测各视角图片中的标定棒端点,提取2D图像坐标。
根据标定棒的已知尺寸以及不同视角下的2D观测,构建标定方程组;通过解方程组的方法,优化求解各摄像机的内参和外参;
将优化后的参数反馈到姿态网络中,改进多视角几何关系建模,在网络训练过程中,定期重复上述自标定过程,使摄像机参数不断更新;
设计参数更新的策略,控制网络收敛过程中参数变化的幅度,构建无标定棒的盲标定模型,使用人体运动自约束进行自标定。
可理解的是,通过上述的定期自标定参数并反馈网络的方式,可以降低对精确手动标定的依赖,提高姿态估计的鲁棒性和实用性。
由于MvP方法在语义上下文方面理解较差,本身舞蹈视频是一个连续的时序动作,需要对整个视频的姿态进行平滑,本实施例在MvP的基础上引入LSTM和GCN结合的思路来使MvP更有时序一致性,具体包括以下步骤:
构建一个时空图模型,节点表示每一帧的人体关节点位置,对不同视角的2D关节点序列,分别用LSTM进行编码,得到视角间各自的时序特征;
将LSTM编码器的输出在时间维和视角维上拼接,作为整个时空图的节点特征输入;在图上构建时序连接边和视角连接边,定义图卷积运算;
通过GCN层,在图上进行特征传播和融合,综合多视角和时序信息,GCN的输出作为精炼的3D姿态特征,用于最终姿态回归;
通过端到端训练时空图卷积网络,进行多视角姿态估计。
利用LSTM建模时间动态、GCN建模视角关系的优势,可以得到更好的3D姿态表示,进一步构建层次化的时空图卷积网络,提高姿态表示的学习能力。
通过以上改进利用XYMvP将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入,得到视频中人体3D精细骨骼点的坐标。
S12、在模板视频的第一帧中手工标记处主要舞蹈者的初始位置以及各个关键点的初始位置,并利用DSST跟踪算法来跟踪主要舞蹈者以及其相应的基准锚点。
需说明的是,DSST(Discriminative Scale Space Tracker)是一种基于判别尺度空间的目标跟踪算法,主要用于在视频序列中实时跟踪目标,并且在尺度变化和遮挡等复杂情况下表现良好。DSST算法将目标表示为特征响应图,并使用判别性尺度空间方法来估计目标的位置和尺度。具体的,DSST首先利用快速傅里叶变换(FFT)计算目标模板的特征响应图,然后在每一帧中,通过比较当前帧的特征响应图与目标模板的特征响应图,使用相关滤波器进行目标定位。
S13、提取每帧视频中的关键角度,将这些关键角度作为特征向量,利用这些特征向量来计算模板视频的关键角度差异,其中关键角度包括:
头部、脖子、左肩;头部、脖子、右肩;脖子、右肩、右手肘;左肩、左手肘、左手腕;右肩、右手肘、右手腕;脖子、左臀、左膝盖;脖子、右臀、右膝盖;左臀、左膝盖、左脚腕;右臀、右膝盖、右脚腕。
S14、计算前后关键帧的相似度,控制阈值来获取关键运动的状态,然后返回当前模板视频的时间戳与帧。
S15、采用ResNet18作为主干网络视频相似度计算,具体步骤如下:
数据输入:提取舞蹈视频中的关键帧,进行数据增强;
构建网络:使用预训练好的ResNet18作为主干特征提取网络,去掉最后的全连接层,接入3个全局平均池化层;
特征提取:输入舞蹈视频关键帧,经过ResNet18提取高级特征表示,再通过全局池化生成固定长度的特征向量;
特征融合:对同一视频不同关键帧的特征向量进行平均值融合,得到视频级别的特征表示;
距离计算:对两个视频的特征向量计算距离,将提取的特征进行余弦距离计算。
S16、采用RNN回归网络对舞蹈动作进行完成度评分,包括以下步骤:
将步骤S11中获取的3D姿态特征作为输入,构建视频动作RNN编码模块,对姿态估计结果进行编码,得到视频级别的姿态特征表示;
构建匹配模块,输入母案视频编码特征和待检测视频编码特征,计算两者的相似度分值;
设置回归目标,比如相似度分值在0-1之间,分值越高表示完成度越高,构建全连接回归层,输入是匹配模块输出的相似度分值,输出是完成度的回归值;
采用欧式损失作为回归任务的损失函数,通过端到端训练网络,学习将匹配相似度映射到完成度的回归值;
在训练过程中,使用舞蹈视频真实的完成度标注作为监督信号,训练完成后,直接输入视频可以得到0-1之间的完成度回归预测值,根据回归预测值输出连续的完成度评估结果。
S17、利用视频相似度、舞蹈的完成度以及动作幅度这三个值作为评判结果,将这三个值的序列特征输入到LSTM网络中,进行与模板视频的相似度综合打分。
其中,舞蹈的完成度包括标准模板评分、速度评分、加速度评分、曲率熟练度评分、运动轨迹评分和整体数据偏差评分。
S2、通过粒子群迭代训练得到专家的评价权重,根据每个动作的权重向量以及每个评分模块的评价分数,获得该舞者的总体评价。
本发明基于多视角三维人体重建的细粒度舞蹈动作评分方法,将跳舞视频实时与模板视频进行对比,获取每个评分模块的评价分数,再结合每个动作的权重向量得出总体评价,避免了人为因素对评分结果的影响;同时能够通过对比舞者的舞蹈动作、速度、加速度、曲率熟练度以及运动轨迹等指标来进行评分,使得更精确地描述舞者的表现水平和舞蹈质量,从而提高评分的准确性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:包括视频录制系统,所述舞蹈动作评分方法,包括以下步骤:
S1、获取实时分数:用户选取需要进行对比的标准模板视频,利用相机组获取用户的多角度的跳舞视频,将跳舞视频与模板视频进行实时对比,得出实时分数;
S2、通过粒子群迭代训练得到专家的评价权重,根据每个动作的权重向量以及每个评分模块的评价分数,获得舞蹈者的总体评价。
2.根据权利要求1所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述视频录制系统,包括相机组、转换器和计算机,所述相机组通过转换器与计算机通信连接;所述相机组用于获取用户的多角度跳舞视频,所述转换器用于实现相机组与计算机连接。
3.根据权利要求1所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S1中,标准模板视频包括舞蹈的动作、速度、加速度、曲率熟练度以及运动轨迹信息。
4.根据权利要求1所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S1中,获取实时分数包括以下步骤:
S11、实时姿态估计:采用改进多视角人体3D重建姿态估计算法来提取的人体三维骨架,将相机组获取的用户跳舞视频作为测试视频与模板视频同时作为卷积网络的输入,得到视频中人体3D精细骨骼点的坐标;
S12、在模板视频的第一帧中手工标记处舞蹈者的初始位置以及各个关键点的初始位置,并利用DSST跟踪算法来跟踪舞蹈者以及其相应的基准锚点;
S13、提取每帧视频中的关键角度,将这些关键角度作为特征向量,利用这些特征向量来计算模板视频的关键角度差异;
S14、计算前后关键帧的相似度,控制阈值来获取关键运动的状态,然后返回当前模板视频的时间戳与帧;
S15、采用ResNet18作为主干网络视频相似度计算;
S16、采用RNN回归网络对舞蹈动作进行完成度评分;
S17、利用视频相似度、舞蹈的完成度以及动作幅度这三个值作为评判结果,将这三个值的序列特征输入到LSTM网络中,进行与模板视频的相似度综合打分。
5.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S11中,提取的人体三维骨架包括多视角人体自标定,具体包括以下步骤:
使用张正友标定法作为自标定算法框架,在场景中添加多个已知长度的标定棒,确保所有摄像机视角均能观测到标定棒;
每隔一定时间间隔,同步捕获每个摄像机对标定棒的图像,检测各视角图片中的标定棒端点,提取2D图像坐标;
根据标定棒的已知尺寸以及不同视角下的2D观测,构建标定方程组;通过解方程组的方法,优化求解各摄像机的内参和外参;
将优化后的参数反馈到姿态网络中,改进多视角几何关系建模,在网络训练过程中,定期重复自标定过程,使摄像机参数不断更新;
设计参数更新的策略,控制网络收敛过程中参数变化的幅度,构建无标定棒的盲标定模型,使用人体运动自约束进行自标定。
6.根据权利要求5所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S11中,提取的人体三维骨架还包括对视频的姿态进行平滑,具体包括以下步骤:
构建一个时空图模型,节点表示每一帧的人体关节点位置,对不同视角的2D关节点序列,分别用LSTM进行编码,得到视角间各自的时序特征;
将LSTM编码器的输出在时间维和视角维上拼接,作为整个时空图的节点特征输入;在图上构建时序连接边和视角连接边,定义图卷积运算;
通过GCN层,在图上进行特征传播和融合,综合多视角和时序信息,GCN的输出作为精炼的3D姿态特征,用于最终姿态回归;
通过端到端训练时空图卷积网络,进行多视角姿态估计。
7.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S13中,关键角度包括:
头部、脖子、左肩;头部、脖子、右肩;脖子、右肩、右手肘;左肩、左手肘、左手腕;右肩、右手肘、右手腕;脖子、左臀、左膝盖;脖子、右臀、右膝盖;左臀、左膝盖、左脚腕;右臀、右膝盖、右脚腕。
8.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S15中,相似度计算包括以下步骤:
数据输入:提取舞蹈视频中的关键帧,进行数据增强;
构建网络:使用预训练好的ResNet18作为主干特征提取网络,去掉最后的全连接层,接入3个全局平均池化层;
特征提取:输入舞蹈视频关键帧,经过ResNet18提取高级特征表示,再通过全局池化生成固定长度的特征向量;
特征融合:对同一视频不同关键帧的特征向量进行平均值融合,得到视频级别的特征表示;
距离计算:对两个视频的特征向量计算余弦距离。
9.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S16中,完成度评分包括以下步骤:
将步骤S11中获取的3D姿态特征作为输入,构建视频动作RNN编码模块,对姿态估计结果进行编码,得到视频级别的姿态特征表示;
构建匹配模块,输入母案视频编码特征和待检测视频编码特征,计算两者的相似度分值;
设置回归目标,构建全连接回归层,输入是匹配模块输出的相似度分值,输出是完成度的回归值;
采用欧式损失作为回归任务的损失函数,通过端到端训练网络,学习将匹配相似度映射到完成度的回归值;
在训练过程中,使用舞蹈视频真实的完成度标注作为监督信号,训练完成后,直接输入视频获取完成度回归预测值,根据回归预测值输出连续的完成度评估结果。
10.根据权利要求4所述的一种基于多视角三维人体重建的细粒度舞蹈动作评分方法,其特征在于:所述步骤S17中,舞蹈的完成度包括标准模板评分、速度评分、加速度评分、曲率熟练度评分、运动轨迹评分和整体数据偏差评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311517015.0A CN117496409B (zh) | 2023-11-15 | 2023-11-15 | 一种基于多视角三维人体重建的细粒度舞蹈动作评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311517015.0A CN117496409B (zh) | 2023-11-15 | 2023-11-15 | 一种基于多视角三维人体重建的细粒度舞蹈动作评分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117496409A true CN117496409A (zh) | 2024-02-02 |
CN117496409B CN117496409B (zh) | 2024-05-07 |
Family
ID=89682557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311517015.0A Active CN117496409B (zh) | 2023-11-15 | 2023-11-15 | 一种基于多视角三维人体重建的细粒度舞蹈动作评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496409B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746513A (zh) * | 2024-02-19 | 2024-03-22 | 成都体育学院 | 基于视频运动目标检测与融合的运动技术教学方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110711374A (zh) * | 2019-10-15 | 2020-01-21 | 石家庄铁道大学 | 多模态舞蹈动作评价方法 |
CN111382679A (zh) * | 2020-02-25 | 2020-07-07 | 上海交通大学 | 帕金森病步态运动障碍严重程度的评估方法、系统及设备 |
CN113246147A (zh) * | 2021-04-30 | 2021-08-13 | 嘉应学院 | 一种基于视觉处理建立机器人舞蹈动作库的方法 |
CN113516005A (zh) * | 2021-03-30 | 2021-10-19 | 杭州电子科技大学 | 一种基于深度学习和姿态估计的舞蹈动作评价系统 |
US20220358310A1 (en) * | 2021-05-06 | 2022-11-10 | Kuo-Yi Lin | Professional dance evaluation method for implementing human pose estimation based on deep transfer learning |
CN116524586A (zh) * | 2023-02-21 | 2023-08-01 | 深圳市敏思跃动科技有限公司 | 基于cnn与gcn姿态估计与相似度匹配的舞蹈评分算法 |
-
2023
- 2023-11-15 CN CN202311517015.0A patent/CN117496409B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110711374A (zh) * | 2019-10-15 | 2020-01-21 | 石家庄铁道大学 | 多模态舞蹈动作评价方法 |
CN111382679A (zh) * | 2020-02-25 | 2020-07-07 | 上海交通大学 | 帕金森病步态运动障碍严重程度的评估方法、系统及设备 |
CN113516005A (zh) * | 2021-03-30 | 2021-10-19 | 杭州电子科技大学 | 一种基于深度学习和姿态估计的舞蹈动作评价系统 |
CN113246147A (zh) * | 2021-04-30 | 2021-08-13 | 嘉应学院 | 一种基于视觉处理建立机器人舞蹈动作库的方法 |
US20220358310A1 (en) * | 2021-05-06 | 2022-11-10 | Kuo-Yi Lin | Professional dance evaluation method for implementing human pose estimation based on deep transfer learning |
CN116524586A (zh) * | 2023-02-21 | 2023-08-01 | 深圳市敏思跃动科技有限公司 | 基于cnn与gcn姿态估计与相似度匹配的舞蹈评分算法 |
Non-Patent Citations (2)
Title |
---|
XUFENG QIAN 等: "Video Relation Detection with Spatio-Temporal Graph", 《MULTIMODAL FUSION & VISUAL RELATIONS》, 25 October 2019 (2019-10-25) * |
薛豪: "基于多层级LSTM的群组行为识别研究", 《万方数据知识服务平台》, 26 October 2020 (2020-10-26) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746513A (zh) * | 2024-02-19 | 2024-03-22 | 成都体育学院 | 基于视频运动目标检测与融合的运动技术教学方法及系统 |
CN117746513B (zh) * | 2024-02-19 | 2024-04-30 | 成都体育学院 | 基于视频运动目标检测与融合的运动技术教学方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117496409B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11967101B2 (en) | Method and system for obtaining joint positions, and method and system for motion capture | |
CN104167016B (zh) | 一种基于rgb彩色与深度图像的三维运动重建方法 | |
CN104700433B (zh) | 一种基于视觉的实时人体全身体运动捕捉方法及其系统 | |
CN108597578B (zh) | 一种基于二维骨架序列的人体运动评估方法 | |
US20230008567A1 (en) | Real-time system for generating 4d spatio-temporal model of a real world environment | |
CN106600626B (zh) | 三维人体运动捕获方法与系统 | |
CN111881887A (zh) | 基于多摄像头的运动姿态监测和指导方法及装置 | |
CN110544301A (zh) | 一种三维人体动作重建系统、方法和动作训练系统 | |
CN117496409B (zh) | 一种基于多视角三维人体重建的细粒度舞蹈动作评分方法 | |
WO2017092196A1 (zh) | 三维动画生成的方法和装置 | |
CN109859266B (zh) | 一种基于预变换的大视角变化下视觉同时定位与绘图方法 | |
CN112422946B (zh) | 一种基于3d重构的智能瑜伽动作指导系统 | |
CN107229920B (zh) | 基于整合深度典型时间规整及相关修正的行为识别方法 | |
CN110544302A (zh) | 基于多目视觉的人体动作重建系统、方法和动作训练系统 | |
WO2024094227A1 (zh) | 一种基于卡尔曼滤波和深度学习的手势姿态估计方法 | |
CN115376034A (zh) | 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置 | |
CN111401340A (zh) | 目标对象的运动检测方法和装置 | |
CN109684943B (zh) | 一种运动员辅助训练数据获取方法、装置及电子设备 | |
KR102181828B1 (ko) | 4d리깅정보 복원장치 및 방법 | |
CN116152928A (zh) | 基于轻量级人体姿态估计模型的防溺水预警方法和系统 | |
CN110490973A (zh) | 一种模型驱动的多视图鞋模型三维重建方法 | |
Li et al. | 3D human pose tracking approach based on double Kinect sensors | |
Huang et al. | An auxiliary training method for single-player badminton | |
Yu et al. | Semi-supervised Dense Keypointsusing Unlabeled Multiview Images | |
Joo | Sensing, Measuring, and Modeling Social Signals in Nonverbal Communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |