CN118037763A - 一种人体动作姿态跟踪方法及系统 - Google Patents
一种人体动作姿态跟踪方法及系统 Download PDFInfo
- Publication number
- CN118037763A CN118037763A CN202410191898.9A CN202410191898A CN118037763A CN 118037763 A CN118037763 A CN 118037763A CN 202410191898 A CN202410191898 A CN 202410191898A CN 118037763 A CN118037763 A CN 118037763A
- Authority
- CN
- China
- Prior art keywords
- data
- human body
- human
- depth
- pressure data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009471 action Effects 0.000 title abstract description 9
- 230000033001 locomotion Effects 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000008713 feedback mechanism Effects 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000037237 body shape Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 abstract description 6
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- A—HUMAN NECESSITIES
- A43—FOOTWEAR
- A43B—CHARACTERISTIC FEATURES OF FOOTWEAR; PARTS OF FOOTWEAR
- A43B17/00—Insoles for insertion, e.g. footbeds or inlays, for attachment to the shoe after the upper has been joined
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/1036—Measuring load distribution, e.g. podologic studies
- A61B5/1038—Measuring plantar pressure during gait
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/112—Gait analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/1126—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
- A61B5/1128—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6801—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
- A61B5/6802—Sensor mounted on worn items
- A61B5/6804—Garments; Clothes
- A61B5/6807—Footwear
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Dentistry (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明属于计算机视觉技术领域,公开一种人体动作姿态跟踪方法及系统,该方法包括实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项;基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果。本发明通过引入人体线性蒙皮模型,在深度数据、RGB数据等视觉输入的基础上加入脚底压力数据,改善在人体运动过程的全局视觉效果。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种人体动作姿态跟踪方法及系统。
背景技术
人体动作捕捉是运动分析、行为理解和姿态生成的重要基础,在AR/VR、疾病诊断、机器人操控、运动训练等领域有着广泛的应用。主流的动作捕捉技术有两种,一种是基于深度学习模型,利用其强大的拟合能力,推断人体的动作信息;另一种是基于优化算法,针对不同场景设计特定的能量项,利用梯度下降原理获取真实的人体动作信息。
基于深度学习或优化的方法大多使用RGB图像或深度图像作为输入,尽管可以获取合理的人体动作,在解决地面滑步、全局漂移等问题的表现较差,导致时序人体运动的可视化效果不理想。目前的一些方法通过增加相机数量或穿戴复杂传感设备的方法解决时序稳定性问题,但是这样会大大增加动作设备的成本。为改善时序运动的稳定性,同时保持动作捕捉设备的便捷,需要在视觉数据的基础上加入压力数据,设计基于多模态信号的单视角单人动作捕捉系统,针对快速运动场景,该系统的姿态跟踪结果具有较好的稳定性。
因此,如何提供一种人体动作姿态跟踪方法及系统,是目前亟待解决的问题。
发明内容
本发明实施例提供了一种人体动作姿态跟踪方法及系统,以解决现有技术中存在的上述技术问题。
为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种人体动作姿态跟踪方法。
在一个实施例中,所述人体动作姿态跟踪方法,包括:
实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;
通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;
基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数;
基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束。
在一个实施例中,所述通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据包括:
提取所述视频数据中包含的有效信息序列,其中,所述有效信息包括RGB图像序列、深度图像序列和人体深度掩膜序列;
基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据;
基于所述人体深度掩膜序列与深度图像序列,获取人体深度图像序列,并基于透视投影原理,将所述人体深度图像序列中的人体深度投影点反投影至三维深度空间,得到人体深度数据;
基于预训练的深度网络模型,逐帧获取所述RGB图像序列中的人体关节点及其置信度,合并关节点位置以及关节点置信度,作为人体关节数据。
在一个实施例中,所述基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据包括:
基于时间戳,对齐每一帧视频数据与鞋垫压力数据,得到压力-图像数据对;
对所述鞋垫压力数据进行归一化处理,按照预设压力阈值筛除因运动连续性产生的压力残留;
将筛选后保留的鞋垫压力数据合并为鞋垫压力序列,并转换为人体模型的表面点压力,作为人体的脚部压力数据。
在一个实施例中,所述基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数包括:
基于所述脚部压力数据,将脚部压力数据分配至所述人体线性蒙皮模型的脚面点,并统计压力值大于0的所有脚面点,合并形成脚面点集合,设定稠密地面接触约束;
基于所述人体深度数据,通过迭代最近点算法匹配所述人体线性蒙皮模型的表面点与人体深度数据点,设定人体表面点约束;
基于所述人体关节数据,基于透视投影,将所述人体线性蒙皮模型的关节点转换为RGB图像中的二维坐标,设定人体关节点约束。
在一个实施例中,所述基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束包括:
获取所述人体线性蒙皮模型输出的当前帧的人体动作信息,并将当前帧的人体动作信息,作为下一帧的姿态解的优化先验;
计算相邻帧之间脚部压力数据的分布交集,并结合所述人体线性蒙皮模型中相邻帧同一个表面点之间的距离,设定时序约束能量项,实现时序优化。
在一个实施例中,所述时序约束能量项的表达式为:
式中,Ec_temp表示时序约束能量项,If表示相邻帧之间脚部压力数据的分布交集;vi表示当前帧时人体线性蒙皮模型中第i个表面点;vi′表示当前帧时人体线性蒙皮模型中第i个表面点;||·||2表示L2距离。
根据本发明实施例的第二方面,提供了一种人体动作姿态跟踪系统。
在一个实施例中,所述人体动作姿态跟踪系统,包括:
数据采集模块,用于实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;
数据处理模块,用于通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;
姿态估计模块,用于基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数;
反馈优化模块,用于基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束。
在一个实施例中,所述数据处理模块包括:信息提取模块、压力转换模块、深度数据模块及关节数据模块,其中,
所述信息提取模块,用于提取所述视频数据中包含的有效信息序列,其中,所述有效信息包括RGB图像序列、深度图像序列和人体深度掩膜序列;
所述压力转换模块,用于基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据;
所述深度数据模块,用于基于所述人体深度掩膜序列与深度图像序列,获取人体深度图像序列,并基于透视投影原理,将所述人体深度图像序列中的人体深度投影点反投影至三维深度空间,得到人体深度数据;
所述关节数据模块,用于基于预训练的深度网络模型,逐帧获取所述RGB图像序列中的人体关节点及其置信度,合并关节点位置以及关节点置信度,作为人体关节数据。
在一个实施例中,所述姿态估计模块包括:脚面点模块、表面点模块及关节点模块,其中,
所述脚面点模块,用于基于所述脚部压力数据,将脚部压力数据分配至所述人体线性蒙皮模型的脚面点,并统计压力值大于0的所有脚面点,合并形成脚面点集合,设定稠密地面接触约束;
所述表面点模块,用于基于所述人体深度数据,通过迭代最近点算法匹配所述人体线性蒙皮模型的表面点与人体深度数据点,设定人体表面点约束;
所述关节点模块,用于基于所述人体关节数据,基于透视投影,将所述人体线性蒙皮模型的关节点转换为RGB图像中的二维坐标,设定人体关节点约束。
在一个实施例中,所述反馈优化模块包括:优化先验模块与时序优化模块,其中,
所述优化先验模块,用于获取所述人体线性蒙皮模型输出的当前帧的人体动作信息,并将当前帧的人体动作信息,作为下一帧的姿态解的优化先验;
所述时序优化模块,用于计算相邻帧之间脚部压力数据的分布交集,并结合所述人体线性蒙皮模型中相邻帧同一个表面点之间的距离,设定时序约束能量项,实现时序优化。
根据本发明实施例的第三方面,提供了一种计算机设备。
在一些实施例中,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明实施例提供的技术方案可以包括以下有益效果:
1、通过引入人体线性蒙皮模型,在深度数据、RGB数据等视觉输入的基础上加入脚底压力数据,改善在人体运动过程的全局视觉效果;相比仅依赖深度数据和RGB数据获取人体姿态的方法,本发明在解算结果的稳定性有显著提升,并且在处理脚与地面的接触情况时表现出更好的性能。
2、通过整合包含压力数据在内的多模态数据,在保持动作准确性的同时,改善脚部与地面的接触效果。另一方面,本发明通过引入反馈机制,并将上一帧的人体姿态解算结果作为解算约束,在解算当前帧的姿态时,作为启发式算法的合理初值,提高了算法的收敛速度,有效改善了人体运动的全局漂移和局部抖动问题;在实验环境下,本发明能够实现在快速运动场景下的单视角单人时序动作捕捉,并在计算机上还原真实平滑的人体运动。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种人体动作姿态跟踪方法的流程图;
图2是根据一示例性实施例示出的XX的结构示意图;
图3是根据一示例性实施例示出的人体动作姿态跟踪系统的系统原理框图;
图4是根据一示例性实施例示出的计算机设备的结构示意图。
具体实施方式
以下描述和附图充分地示出本文的具体实施方案,以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。本文中,术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来,而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素,反之亦然。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本文和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本文的描述中,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本文中,除非另有说明,术语“多个”表示两个或两个以上。
本文中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
本文中,术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请的装置或系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
图1示出了本发明的人体动作姿态跟踪方法的一个实施例。
在该可选实施例中,所述人体动作姿态跟踪方法,包括:
步骤S101、实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;
步骤S103、通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;
步骤S105、基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数;
步骤S107、基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束。
在该可选实施例中,当所述通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据时,可提取所述视频数据中包含的有效信息序列,其中,所述有效信息包括RGB图像序列、深度图像序列和人体深度掩膜序列;基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据;基于所述人体深度掩膜序列与深度图像序列,获取人体深度图像序列,并基于透视投影原理,将所述人体深度图像序列中的人体深度投影点反投影至三维深度空间,得到人体深度数据;基于预训练的深度网络模型,逐帧获取所述RGB图像序列中的人体关节点及其置信度,合并关节点位置以及关节点置信度,作为人体关节数据。
在该可选实施例中,当所述基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据时,可基于时间戳,对齐每一帧视频数据与鞋垫压力数据,得到压力-图像数据对;对所述鞋垫压力数据进行归一化处理,按照预设压力阈值筛除因运动连续性产生的压力残留;将筛选后保留的鞋垫压力数据合并为鞋垫压力序列,并转换为人体模型的表面点压力,作为人体的脚部压力数据。
在该可选实施例中,当所述基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数时,可基于所述脚部压力数据,将脚部压力数据分配至所述人体线性蒙皮模型的脚面点,并统计压力值大于0的所有脚面点,合并形成脚面点集合,设定稠密地面接触约束;基于所述人体深度数据,通过迭代最近点算法匹配所述人体线性蒙皮模型的表面点与人体深度数据点,设定人体表面点约束;基于所述人体关节数据,基于透视投影,将所述人体线性蒙皮模型的关节点转换为RGB图像中的二维坐标,设定人体关节点约束。
在该可选实施例中,当所述基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束时,可获取所述人体线性蒙皮模型输出的当前帧的人体动作信息(人体动作信息包括姿态参数和体型参数),并将当前帧的人体动作信息,作为下一帧的姿态解的优化先验;计算相邻帧之间脚部压力数据的分布交集,并结合所述人体线性蒙皮模型中相邻帧同一个表面点之间的距离,设定时序约束能量项,实现时序优化。
在该可选实施例中,所述时序约束能量项的表达式为:
式中,Ec_temp表示时序约束能量项,If表示相邻帧之间脚部压力数据的分布交集;vi表示当前帧时人体线性蒙皮模型中第i个表面点;vi′表示当前帧时人体线性蒙皮模型中第i个表面点;||·||2表示L2距离。
图3示出了本发明的一种人体动作姿态跟踪系统的一个实施例。
在该可选实施例中,所述人体动作姿态跟踪系统,包括:
数据采集模块201,用于实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;
数据处理模块203,用于通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;
姿态估计模块205,用于基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数;
反馈优化模块207,用于基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束。
在该可选实施例中,所述数据处理模块203包括:信息提取模块(图中未示出)、压力转换模块(图中未示出)、深度数据模块(图中未示出)及关节数据模块(图中未示出),其中,所述信息提取模块,用于提取所述视频数据中包含的有效信息序列,其中,所述有效信息包括RGB图像序列、深度图像序列和人体深度掩膜序列;所述压力转换模块,用于基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据;所述深度数据模块,用于基于所述人体深度掩膜序列与深度图像序列,获取人体深度图像序列,并基于透视投影原理,将所述人体深度图像序列中的人体深度投影点反投影至三维深度空间,得到人体深度数据;所述关节数据模块,用于基于预训练的深度网络模型,逐帧获取所述RGB图像序列中的人体关节点及其置信度,合并关节点位置以及关节点置信度,作为人体关节数据。
在该可选实施例中,所述姿态估计模块205包括:脚面点模块(图中未示出)、表面点模块(图中未示出)及关节点模块(图中未示出),其中,所述脚面点模块,用于基于所述脚部压力数据,将脚部压力数据分配至所述人体线性蒙皮模型的脚面点,并统计压力值大于0的所有脚面点,合并形成脚面点集合,设定稠密地面接触约束;所述表面点模块,用于基于所述人体深度数据,通过迭代最近点算法匹配所述人体线性蒙皮模型的表面点与人体深度数据点,设定人体表面点约束;所述关节点模块,用于基于所述人体关节数据,基于透视投影,将所述人体线性蒙皮模型的关节点转换为RGB图像中的二维坐标,设定人体关节点约束。
在该可选实施例中,所述反馈优化模块207包括:优化先验模块(图中未示出)与时序优化模块(图中未示出),其中,所述优化先验模块,用于获取所述人体线性蒙皮模型输出的当前帧的人体动作信息,并将当前帧的人体动作信息,作为下一帧的姿态解的优化先验;所述时序优化模块,用于计算相邻帧之间脚部压力数据的分布交集,并结合所述人体线性蒙皮模型中相邻帧同一个表面点之间的距离,设定时序约束能量项,实现时序优化。
在具体应用时,本发明旨在基于多模态信号实现单视角单人运动场景的姿态跟踪,主要包括以下步骤:
1.把单个微软的Azure Kinect工业相机架设到试验场地,距离地面高度约为1.2m。
2.在动作捕捉用鞋中放入压力鞋垫,并对两只脚的压力数据进行同步。受试者穿着带有压力鞋垫的运动鞋,站立在相机正前方1.5m-2m处的位置做规定动作。
3.在PC端同步记录视频数据和压力数据,分别记录视觉数据和压力数据的起始时间戳。
4.通过查阅Azure Kinect开发文档中的多个信息提取函数,设计视频信息加载方法,提取Azure Kinect工业相机所记录的视频数据信息,该信息包括RGB图像序列、深度图像序列和相机内参。再基于开源RVM人像分割方法,对深度图像序列的人体区域和背景区域进行分割,获取人体深度掩膜序列。
5.基于时间戳对齐压力数据和视觉数据,获取每秒30帧的压力-图像数据对。对压力数据进行归一化处理,通过设置阈值筛除因运动连续性产生的压力残留。将鞋垫压力序列转换为人体模型的表面点压力,获取脚部压力数据。
6.通过人体深度掩膜序列和深度图像序列获取人体深度图像序列,人体深度图像序列中的点称为人体深度投影点,将人体深度投影点基于透视投影原理反投影回三维深度空间,获取人体深度数据。
其中,透视投影是一种将三维坐标变换为二维坐标的方法,人体深度数据是指通过透视投影的逆操作,把人体深度图像的二维像素点转换为三维空间的点,该数据表示了相机视角方向可见的人体的表面点在真实空间中的位置。
7.基于预训练的深度网络模型处理RGB图像序列,可用的开源工具有openpose,RTM-pose等,逐帧获取人体2D关节点及其置信度。Openpose和RTM-pose是开源的人体二维关节点检测框架,输入是单帧RGB图像,经过深度神经网络模型回归出该RGB图像中对应的二维人体关节点位置和置信度,作为人体关节数据。
8.使用高斯-牛顿优化方法求解人体线性蒙皮模型(SMPL)的姿态参数和体型参数。
人体线性蒙皮模型是一种人体运动模型,简称SMPL模型。该模型定义人体表面由6890个顶点构成,该顶点由24个关节点约束。SMPL模型预设75维的姿态参数和10维的体型参数,通过预设的计算方法实现任意人体动作的表面顶点和身体关节驱动。脚部压力数据用于对SMPL模型的脚部表面顶点做约束;人体深度数据用于对SMPL模型的全身表面顶点做约束;人体关节数据用于对SMPL模型的关节点进行约束。
如图2所示,分别设计稠密地面接触约束、人体表面点约束和人体关节点约束。
稠密地面接触约束基于脚部压力数据设计,将压力鞋垫所测的压力数据进行归一化、阈值化处理,根据预设的转换关系将该压力分配到SMPL模型的脚面点,压力值大于0的SMPL模型脚面点集合为vf=(vf_0,vf_1,…,vf_n)。稠密地面接触约束能量项Ec_dense定义为:
其中∏floor指脚面点到地面的投影距离,||·||2表示L2距离。
人体表面点约束基于人体深度数据设计,通过迭代最近点算法匹配SMPL模型的表面点vsmpl=(vsmpl_0,vsmpl_1,…,vfspl_q)和人体深度数据点vdepth=(vdepth_0,vdepth_1,…,vdepth_q)。人体表面点约束能量项Edepth定义为:
人体关节点约束基于RGB图像中的二维人体关节点设计。将SMPL的关节点J=(j0,j1,…j23)通过透视投影转换为RGB图像的二维坐标,第7步获取的二维人体关节点为Jref=(jref_0,jref_1,…jref_23),通过计算L2距离获取人体关节点约束能量项E2d:
9.对姿态估计进行时序优化。
一方面,使用当前帧的人体动作信息θt=(θ0,…,θ23)作为下一帧的姿态解θt+1=(θ0',…,θ23')的优化先验,避免单帧姿态估计陷入局部最优解,姿态先验能量项设计为:
另一方面,计算相邻帧压力数据的分布交集。设t时刻压力值大于0的SMPL模型脚面点的序号集合为If_t=(If_0,If_1,…,If_n),而t+1时刻,压力值大于0的人体参数化模型SMPL的脚面点的序号集合定义为If_t+1=(If_0',If_1',…,If_p'),计算If_t和If_t+1的交集为:
If=(If_0,If_1,…,If_n)∩(If_0′,If_1′,…,If_p′)
设t时刻SMPL模型表面点定义为v=(v0,…v6889),t+1时刻SMPL模型表面点定义为v'=(v0',…v6889'),时序约束能量项设计为:
该时序约束能量项可以避免时序上存在连续压力的点的空间位置变化,同时改善全局漂移和脚部滑步等问题。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
此外,本发明还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
另外,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
本发明并不局限于上面已经描述并在附图中示出的结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种人体动作姿态跟踪方法,其特征在于,包括:
实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;
通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;
基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数;
基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束。
2.根据权利要求1所述的人体动作姿态跟踪方法,其特征在于,所述通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据包括:
提取所述视频数据中包含的有效信息序列,其中,所述有效信息包括RGB图像序列、深度图像序列和人体深度掩膜序列;
基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据;
基于所述人体深度掩膜序列与深度图像序列,获取人体深度图像序列,并基于透视投影原理,将所述人体深度图像序列中的人体深度投影点反投影至三维深度空间,得到人体深度数据;
基于预训练的深度网络模型,逐帧获取所述RGB图像序列中的人体关节点及其置信度,合并关节点位置以及关节点置信度,作为人体关节数据。
3.根据权利要求2所述的人体动作姿态跟踪方法,其特征在于,所述基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据包括:
基于时间戳,对齐每一帧视频数据与鞋垫压力数据,得到压力-图像数据对;
对所述鞋垫压力数据进行归一化处理,按照预设压力阈值筛除因运动连续性产生的压力残留;
将筛选后保留的鞋垫压力数据合并为鞋垫压力序列,并转换为人体模型的表面点压力,作为人体的脚部压力数据。
4.根据权利要求2所述的人体动作姿态跟踪方法,其特征在于,所述基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数包括:
基于所述脚部压力数据,将脚部压力数据分配至所述人体线性蒙皮模型的脚面点,并统计压力值大于0的所有脚面点,合并形成脚面点集合,设定稠密地面接触约束;
基于所述人体深度数据,通过迭代最近点算法匹配所述人体线性蒙皮模型的表面点与人体深度数据点,设定人体表面点约束;
基于所述人体关节数据,基于透视投影,将所述人体线性蒙皮模型的关节点转换为RGB图像中的二维坐标,设定人体关节点约束。
5.根据权利要求2所述的人体动作姿态跟踪方法,其特征在于,所述基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束包括:
获取所述人体线性蒙皮模型输出的当前帧的人体动作信息,并将当前帧的人体动作信息,作为下一帧的姿态解的优化先验;
计算相邻帧之间脚部压力数据的分布交集,并结合所述人体线性蒙皮模型中相邻帧同一个表面点之间的距离,设定时序约束能量项,实现时序优化。
6.根据权利要求5所述的人体动作姿态跟踪方法,其特征在于,所述时序约束能量项的表达式为:
式中,Ec_temp表示时序约束能量项,If表示相邻帧之间脚部压力数据的分布交集;vi表示当前帧时人体线性蒙皮模型中第i个表面点;vi′表示当前帧时人体线性蒙皮模型中第i个表面点;||·||2表示L2距离。
7.一种人体动作姿态跟踪系统,其特征在于,包括:
数据采集模块,用于实时采集受试者运动过程中的视频数据与鞋垫压力数据,并同步记录所述视频数据与所述鞋垫压力数据的起始时间戳;
数据处理模块,用于通过处理视频数据与鞋垫压力数据,分别得到有效信息序列与脚部压力数据,并基于所述有效信息序列,转换得到人体深度数据与人体关节数据;
姿态估计模块,用于基于脚部压力数据、人体深度数据及人体关节数据,设定人体线性蒙皮模型的约束能量项,并求解所述人体线性蒙皮模型的姿态参数与体型参数;
反馈优化模块,用于基于预先配置的反馈机制,利用所述人体线性蒙皮模型输出的当前帧的姿态解算结果,优化下一帧运动稳定性约束。
8.根据权利要求7所述的人体动作姿态跟踪系统,其特征在于,所述数据处理模块包括:信息提取模块、压力转换模块、深度数据模块及关节数据模块,其中,
所述信息提取模块,用于提取所述视频数据中包含的有效信息序列,其中,所述有效信息包括RGB图像序列、深度图像序列和人体深度掩膜序列;
所述压力转换模块,用于基于数据归一化与阈值化处理,将所述鞋垫压力数据转换为脚部压力数据;
所述深度数据模块,用于基于所述人体深度掩膜序列与深度图像序列,获取人体深度图像序列,并基于透视投影原理,将所述人体深度图像序列中的人体深度投影点反投影至三维深度空间,得到人体深度数据;
所述关节数据模块,用于基于预训练的深度网络模型,逐帧获取所述RGB图像序列中的人体关节点及其置信度,合并关节点位置以及关节点置信度,作为人体关节数据。
9.根据权利要求7所述的人体动作姿态跟踪系统,其特征在于,所述姿态估计模块包括:脚面点模块、表面点模块及关节点模块,其中,
所述脚面点模块,用于将脚部压力数据分配至所述人体线性蒙皮模型的脚面点,并统计压力值大于0的所有脚面点,合并形成脚面点集合,设定稠密地面接触约束;
所述表面点模块,用于通过迭代最近点算法匹配所述人体线性蒙皮模型的表面点与人体深度数据点,设定人体表面点约束;
所述关节点模块,用于基于所述人体关节数据,基于透视投影,将所述人体线性蒙皮模型的关节点转换为RGB图像中的二维坐标,设定人体关节点约束。
10.根据权利要求7所述的人体动作姿态跟踪系统,其特征在于,所述反馈优化模块包括:优化先验模块与时序优化模块,其中,
所述优化先验模块,用于获取所述人体线性蒙皮模型输出的当前帧的人体动作信息,并将当前帧的人体动作信息,作为下一帧的姿态解的优化先验;
所述时序优化模块,用于计算相邻帧之间脚部压力数据的分布交集,并结合所述人体线性蒙皮模型中相邻帧同一个表面点之间的距离,设定时序约束能量项,实现时序优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410191898.9A CN118037763A (zh) | 2024-02-21 | 2024-02-21 | 一种人体动作姿态跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410191898.9A CN118037763A (zh) | 2024-02-21 | 2024-02-21 | 一种人体动作姿态跟踪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118037763A true CN118037763A (zh) | 2024-05-14 |
Family
ID=90985520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410191898.9A Pending CN118037763A (zh) | 2024-02-21 | 2024-02-21 | 一种人体动作姿态跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118037763A (zh) |
-
2024
- 2024-02-21 CN CN202410191898.9A patent/CN118037763A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7177062B2 (ja) | 統計モデルを用いた画像データからの深度予測 | |
Tome et al. | Lifting from the deep: Convolutional 3d pose estimation from a single image | |
EP3644277B1 (en) | Image processing system, image processing method, and program | |
US10949649B2 (en) | Real-time tracking of facial features in unconstrained video | |
RU2713611C2 (ru) | Способ моделирования трехмерного пространства | |
US9292734B2 (en) | Method and system for head tracking and pose estimation | |
US20170330375A1 (en) | Data Processing Method and Apparatus | |
Kong et al. | Intrinsic depth: Improving depth transfer with intrinsic images | |
JP6207210B2 (ja) | 情報処理装置およびその方法 | |
Jeni et al. | The first 3d face alignment in the wild (3dfaw) challenge | |
KR20210058686A (ko) | 동시적 위치 추정 및 맵 작성을 구현하는 장치 및 방법 | |
Chen et al. | Pose estimation from multiple cameras based on Sylvester’s equation | |
Islam et al. | MVS‐SLAM: Enhanced multiview geometry for improved semantic RGBD SLAM in dynamic environment | |
CN113065506A (zh) | 一种人体姿态识别方法及系统 | |
CN117152228A (zh) | 基于通道自注意力机制的自监督图像深度估计方法 | |
Chen et al. | End-to-end multi-view structure-from-motion with hypercorrelation volume | |
CN118037763A (zh) | 一种人体动作姿态跟踪方法及系统 | |
Chen et al. | Accurate 3D motion tracking by combining image alignment and feature matching | |
JP2009048305A (ja) | 形状解析プログラム及び形状解析装置 | |
JP7326965B2 (ja) | 画像処理装置、画像処理プログラム、及び画像処理方法 | |
Cordea et al. | 3-D head pose recovery for interactive virtual reality avatars | |
Liu et al. | Deep learning for 3D human pose estimation and mesh recovery: A survey | |
Jian et al. | Realistic face animation generation from videos | |
Cordea et al. | 3D head pose recovery for interactive virtual reality avatars | |
CN118314162B (zh) | 一种面向时序性稀疏重建的动态视觉slam方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |