CN116434127B - 人体姿态估计方法、装置、设备及存储介质 - Google Patents
人体姿态估计方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116434127B CN116434127B CN202310701752.XA CN202310701752A CN116434127B CN 116434127 B CN116434127 B CN 116434127B CN 202310701752 A CN202310701752 A CN 202310701752A CN 116434127 B CN116434127 B CN 116434127B
- Authority
- CN
- China
- Prior art keywords
- sampling model
- lightweight
- module
- training
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000005070 sampling Methods 0.000 claims abstract description 136
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000017105 transposition Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 12
- 238000001514 detection method Methods 0.000 abstract description 5
- 230000036544 posture Effects 0.000 description 58
- 238000004458 analytical method Methods 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人体姿态估计技术领域,尤其涉及人体姿态估计方法、装置、设备及存储介质,所述方法包括:构建轻量级采样模型;获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;本申请公开的方法,通过构建轻量级采样模型对显示图像进行处理,可减少处理过程中的计算量和参数量,确保检测精度的同时,有效提高了处理效率。
Description
技术领域
本发明涉及人体姿态估计技术领域,尤其涉及一种人体姿态估计方法、装置、设备及存储介质。
背景技术
人体姿态估计是研究基于图像的观测数据恢复关节和躯干姿态的算法或系统,是计算机视觉领域最具挑战和研究意义的方向之一;人体姿态准确的自动识别,是人类活动识别、计算行为分析、人的再识别和人机交互等任务的基本步骤;根据人体姿态估计信息的空间维度,可以将人体姿态估计分为二维人体姿态估计和三维人体姿态估计,二维姿态估计算法通过获取二维图像上的人体关键点的位置信息以及肢体的位置和方向信息,最终得到的人体关节点坐标与骨骼信息可直接影响三维人体姿态估计的结果,所以颇具挑战。
人体姿态估计的准确度和快速性直接影响了后续的视频分析系统,现有技术一般采用神经网络分类器实现人体姿态估计,神经网络结构很大程度上影响着人体姿态估计的结果好坏,其强大的学习能力有助于解决图像中背景复杂和人体被遮挡的问题,因此研究人员总致力于设计出更好的网络结构;目前比较流行的网络模型主要是基于ResNet、Hourglass、HRNet和生成对抗网络(GAN)等骨干网络;而现阶段更具优越性的是采用并行融合多分辨率特征方法的HRNet网络。
HRNet网络通过卷积层和池化层的堆叠实现特征的提取,在图像输出网络后卷积层做特征的抽取,而池化做特征的聚合,并且让模型具有一定程度上的平移不变性,以降低后面卷积层的算力,最后到全连接层输出分类结果;然而堆叠就会导致参数和计算量不断增大,即现有的HRNet网络存在计算参数多、计算量大、计算效率低的问题,降低了后续的视频分析系统的反馈速度,影响了用户的使用体验。
可见,现有技术还有待改进和提高。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种人体姿态估计方法、装置、设备及存储介质,具有处理效率高的优点,可实现分析效果的快速反馈,提高用户的使用体验。
本发明第一方面提供了一种人体姿态估计方法,包括:构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块;获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标。
可选的,在本发明第一方面的第一种实施方式中,所述获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集,具体包括:获取教学视频,采用帧差法从教学视频中提取多个显示图像,并将所提取的显示图像存储在JSON生成的文件中;采用基于轮廓的算法对多个显示图像进行预处理,并将显示图像的尺寸设置为256×256,像素设置为400×400,通过关键点标注方法对显示图像的关节点坐标进行标注,得到多个特征图;根据7:3的比例划分多个特征图,以生成训练集和测试集。
可选的,在本发明第一方面的第二种实施方式中,所述将训练集输入至所构建的轻量级采样模型内,具体包括:获取训练集中的任一特征图输入至所构建的轻量级采样模型内;1×1卷积模块扩大特征图的通道数,以将低纬度信息转换为高纬度信息;空间卷积模块对每个通道进行空间转换,以提高特征图的分辨率;1×1卷积模块将空间转换后的通道恢复至原来的通道数;注意力模块动态地调整各个通道的权重,以将各通道信息融合,并将特征图压缩回原始维度。
可选的,在本发明第一方面的第三种实施方式中,所述以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型,具体包括:采用Adam 优化器以1e-5的学习率对轻量级采样模型进行迭代训练,每次迭代以指数方式衰减;当达到预设的迭代次数时,停止迭代,并输出完成训练的轻量级采样模型。
可选的,在本发明第一方面的第四种实施方式中,所述将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标,具体包括:获取测试集并输入至完成训练的轻量级采样模型内,生成采样结果;根据采样结果计算评价指标,所述评价指标为PCK指标。
本发明第二方面提供了一种人体姿态估计装置,包括:构建模块,用于构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块;获取模块,用于获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;训练模块,用于将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;评价模块,用于将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块包括:第一获取单元,用于获取教学视频,采用帧差法从教学视频中提取多个显示图像,并将所提取的显示图像存储在JSON生成的文件中;处理单元,用于采用基于轮廓的算法对多个显示图像进行预处理,并将显示图像的尺寸设置为256×256,像素设置为400×400,通过关键点标注方法对显示图像的关节点坐标进行标注,得到多个特征图;划分单元,用于根据7:3的比例划分多个特征图,以生成训练集和测试集。
可选的,在本发明第二方面的第二种实现方式中,所述训练模块包括:第二获取单元,用于获取训练集中的任一特征图输入至所构建的轻量级采样模型内;扩大单元,用于1×1卷积模块扩大特征图的通道数,以将低纬度信息转换为高纬度信息;转换单元,用于空间卷积模块对每个通道进行空间转换,以提高特征图的分辨率;恢复单元,用于1×1卷积模块将空间转换后的通道恢复至原来的通道数;融合单元,用于注意力模块动态地调整各个通道的权重,以将各通道信息融合,并将特征图压缩回原始维度。
可选的,在本发明第二方面的第三种实现方式中,所述训练模块还包括:迭代单元,用于采用Adam 优化器以1e-5的学习率对轻量级采样模型进行迭代训练,每次迭代以指数方式衰减;输出单元,用于当达到预设的迭代次数时,停止迭代,并输出完成训练的轻量级采样模型。
可选的,在本发明第二方面的第四种实现方式中,所述评价模块包括:第三获取单元,用于获取测试集并输入至完成训练的轻量级采样模型内,生成采样结果;计算单元,用于根据采样结果计算评价指标,所述评价指标为PCK指标。
本发明第三方面提供了一种人体姿态估计设备,所述人体姿态估计设备包括:存储器和至少一个处理器,所述存储器中存储有指令;至少一个所述处理器调用所述存储器中的所述指令,以使得所述人体姿态估计设备执行上述任一项所述的人体姿态估计方法的各个步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述任一项所述人体姿态估计方法的各个步骤。
本发明的技术方案中,通过构建轻量级采样模型;获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;本申请公开的方法,通过构建轻量级采样模型对显示图像进行处理,可减少处理过程中的计算量和参数量,确保检测精度的同时,有效提高了处理效率,使后续的视频分析系统可快速反馈分析结果,提高用户的使用体验。
附图说明
图1为本发明实施例提供的人体姿态估计方法的第一种流程图;
图2为本发明实施例提供的人体姿态估计方法的第二种流程图;
图3为本发明实施例提供的人体姿态估计方法的第三种流程图;
图4为本发明实施例提供的人体姿态估计方法的第四个流程图;
图5为本发明实施例提供的人体姿态估计装置的一种结构示意图;
图6为本发明实施例提供的人体姿态估计装置的另一种结构示意图;
图7为本发明实施例提供的人体姿态估计设备的结构示意图;
图8为本发明提供的轻量级采样模块的结构示意图。
具体实施方式
本发明提供了一种人体姿态估计方法、装置、设备及存储介质,本发明公开的技术方案中,通过构建轻量级采样模型;获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;本申请公开的方法,通过构建轻量级采样模型对显示图像进行处理,可减少处理过程中的计算量和参数量,确保检测精度的同时,有效提高了处理效率,使后续的视频分析系统可快速反馈分析结果,提高用户的使用体验。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中人体姿态估计方法的一个实施例包括:
101、构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块,所述注意力模块为SENet注意力模块;
在本实施例中,请参阅图8,图8为本实施例提供的轻量级采样模型的系统结构图;所述1×1卷积模块用于将低维度信息拓展为高纬度信息,并用于将拓展的通道数变为原来的通道数;所述空间转置卷积模块用于实现通道的空间转换,以产生高分辨率的特征图;由于轻量级采样模块的空间操作和通道操作分别通过空间转置卷积模块和1×1卷积模块实现,即分成了两个独立的步骤,因此,转置卷积的解码效果会被削弱,为了加强空间和通道间信息的融合,引入注意力模块,即使用通道注意力机制(SENet)作为通道编码器,实现各通道信息的融合,并将特征图压缩至原始维度。
102、获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;
本申请公开的人体姿态估计方法运用于太极拳运动汇总,即用于实现太极运动的人体姿态估计,通过判断学者的太极拳姿势是否标准,对不规范动作提出指导意见,使学者可做出更精准的动作,在提高竞技水平的同时能够有效预防运动损伤,提高运动质量;在本实施例中,所述教学视频包括12个一段完整学习太极拳视频序列。
103、将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;
104、将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标。
本申请公开了一种人体姿态估计方法,通过构建轻量级采样模型;获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;本申请公开的方法,通过构建轻量级采样模型对显示图像进行处理,可减少处理过程中的计算量和参数量,确保检测精度的同时,有效提高了处理效率,使后续的视频分析系统可快速反馈分析结果,提高用户的使用体验。
请参阅图2,本发明实施例中人体姿态估计方法的第二个实施例包括:
201、获取教学视频,采用帧差法从教学视频中提取多个显示图像,并将所提取的显示图像存储在JSON生成的文件中;
在本实施例中,采用帧差法提取显示图像,帧差法又称图像序列差分法,是采用视频序列中的相邻两帧图像做差的方法,来检测视频序列中的移动目标;但是受运动目标和背景变化的影响,检测过程中有可能出现伪目标或者目标中出现“空洞”,即帧差法在目标运动不是太快时可以有效的检测到目标;具体的,将帧差法的关键帧序列长度设为5,即从教学视频的关键帧序列图像中选择连续的5帧图像。
202、采用基于轮廓的算法对多个显示图像进行预处理,并将显示图像的尺寸设置为256×256,像素设置为400×400,通过关键点标注方法对显示图像的关节点坐标进行标注,得到多个特征图;
在本实施例中,采用基于轮廓的算法对显示图像进行预处理,可提高显示图像的曝光度、色彩饱和度和整体色调;所述基于轮廓的算法可以是E2EC轮廓分割领域算法,具体的,其工作原理为:首先输出heatmap,用于定位目标中心;然后通过回归offset学习初始轮廓;global deformation模块对初始轮廓进行优化,得到coarse轮廓;contour refinement模块继续对轮廓进行优化,得到最终的轮廓;E2EC具有3个亮点:
1.可学习的轮廓初始化,而非手工选取初始化轮廓;
2.multi-direction对齐策略(multi-direction alignment,MDA),用于降低学习难度;
3.动态匹配loss(dynamic matching loss,DML);
当完成显示图像的预处理后,对显示图像的尺寸大小和像素进行统一调整,方便后续进行轻量级采样模块的训练;最后通过关键点标注方法,采用0和1对显示图像上的关节点坐标进行标注,具体的,关节点位置标记为1,没有关节点的位置标记为0,得到多个特征图。
203、根据7:3的比例划分多个特征图,以生成训练集和测试集;具体的,训练集的占比为70%,测试集的占比为30%。
请参阅图3,本发明实施例中人体姿态估计方法的第三个实施例包括:
301、获取训练集中的任一特征图输入至所构建的轻量级采样模型内;
302、1×1卷积模块扩大特征图的通道数,以将低纬度信息转换为高纬度信息;在本实施例中,原始特征图的通道数为C,通过1×1卷积模块将通道数改为;
303、空间卷积模块对每个通道进行空间转换,以提高特征图的分辨率;
304、1×1卷积模块将空间转换后的通道恢复至原来的通道数,即将通道数恢复至C;
305、注意力模块动态地调整各个通道的权重,以将各通道信息融合,并将特征图压缩回原始维度;在本实施例中,注意力(SENet)模块通过网络根据loss去学习特征权重来动态地调整每个通道的权重。
在本实施例中,对于输入大小为Cin×Win×Hin的特征图,输出大小为 Cout×Wout×Hout的特征图,所述轻量级采样模型的计算量的计算公式以及参数量的计算公式分别为: (1)
(2)
其中,为高维度特征的通道数,设置/>;K为转置卷积的核大小,计算量主要是空间转置卷积和1×1卷积计算量的总和;
而对于传统的转置卷积模型而言,其计算量的计算公式以及参数量的计算公式分别为:
(3)
(4)
因此,传统的转置卷积模型与轻量级采样模型的计算量比值和参数量比值分别为:
(5)
(6)
由于,公式(5)和公式(6)简化后分别为公式(7)和公式(8):
(7)
(8)
从公式(7)以及公式(8)可知,与传统的转置卷积模块相比,本申请所构建的轻量级采样模块的计算量减少了72%,参数数量减少了64%,可有效提高轻量级采用模块对显示图像的处理速度,从而有效提高后续的视频分析系统的分析速度。
进一步地,对于输入的特征图为,通过轻量级采样模型处理后,其输出为:
(9);
其中,,/>为注意力模块的输入,/>,/>为注意力模块的输出,将注意力模块的输入和注意力模块的输出相乘并求和,得到最终的融合信息Y。
请参阅图3,本发明实施例中人体姿态估计方法的第四个实施例包括:
306、采用Adam 优化器以1e-5的学习率对轻量级采样模型进行迭代训练,每次迭代以指数方式衰减;
在本实施例中,采用Adam优化器对轻量级采样模型进行迭代训练,Adam优化器对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(SecondMoment Estimation,即梯度的未中心化的方差)进行综合考虑,计算出更新步长;其具有以下几个显著的优点:
1. 实现简单,计算高效,对内存需求少;
2. 参数的更新不受梯度的伸缩变换影响;
3. 超参数具有很好的解释性,且通常无需调整或仅需很少的微调;
4. 更新的步长能够被限制在大致的范围内(初始学习率);
5. 能自然地实现步长退火过程(自动调整学习率);
6. 很适合应用于大规模的数据及参数的场景;
7. 适用于不稳定目标函数;
8. 适用于梯度稀疏或梯度存在很大噪声的问题。
307、当达到预设的迭代次数时,停止迭代,并输出完成训练的轻量级采样模型;
在本实施例中,所述预设的迭代次数为100次,即显示图像包括100张关键帧图像;当完成100次迭代时,输出完成训练的轻量级采样模型。
请参阅图4,本发明实施例中人体姿态估计方法的第五个实施例包括: 401、获取测试集并输入至完成训练的轻量级采样模型内,生成采样结果,所述采样结果为根据二维节点序列进行的人体姿态估计结果;
在本实施例中,为了能够清楚地观察太极拳动作,即为了能够清楚地观察到太极拳动作中的骨骼、关节的位置、方向、角度等信息,对采样结果的各个关节点坐标进行可视化。
402、根据采样结果计算评价指标,所述评价指标为PCK指标,所述PCK指标对于一个关节点的计算公式如下:
其中,表示第k个阈值,p表示第p个人,i表示i第关节点,/>表示第p个人中第i个关节点预测值与人工标注的欧式距离。
表一 PCK指标对比表
表一的横向标题项分别为HRnet、SCnet以及本申请公开的轻量级采样模块三种人体姿态估计方法,表一的竖向标题项分别为与三种人体姿态估计方法对应的参数量,以及与三种人体姿态估计方法对应的各个位置的PCK指标;对比可知,相对于现有的HRnet和SCnet,本申请公开的轻量级采样模型,其参数量降低了15M,其预测精度提高了16.7%,即本申请公开的轻量级采样模块,不仅提高了降低了参数量和计算量,以提高计算效率,还提高了预测精度。
上面对本发明实施例中人体姿态估计方法进行了描述,下面对本发明实施例中人体姿态估计装置进行描述,请参阅图5,本发明实施例中人体姿态估计装置的一个实施例包括:构建模块501,用于构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块;获取模块502,用于获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;训练模块503,用于将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;评价模块504,用于将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标。
请参阅图6,本实施例中人体姿态估计装置的另一个实施例包括:
构建模块501,用于构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块;
获取模块502,用于获取教学视频,根据教学视频获取多个显示图像,并分别对多个显示图像进行预处理,得到多个特征图,根据预设的比例对多个特征图像进行分配,以生成训练集和测试集;
训练模块503,用于将训练集输入至所构建的轻量级采样模型内,以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;
评价模块504,用于将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;
在本实施例中,所述获取模块502包括:第一获取单元5021,用于获取教学视频,采用帧差法从教学视频中提取多个显示图像,并将所提取的显示图像存储在JSON生成的文件中;处理单元5022,用于采用基于轮廓的算法对多个显示图像进行预处理,并将显示图像的尺寸设置为256×256,像素设置为400×400,通过关键点标注方法对显示图像的关节点坐标进行标注,得到多个特征图;划分单元5023,用于根据7:3的比例划分多个特征图,以生成训练集和测试集;
在本实施例中,所述训练模块503包括:第二获取单元5031,用于获取训练集中的任一特征图输入至所构建的轻量级采样模型内;扩大单元5032,用于1×1卷积模块扩大特征图的通道数,以将低纬度信息转换为高纬度信息;转换单元5033,用于空间卷积模块对每个通道进行空间转换,以提高特征图的分辨率;恢复单元5034,用于1×1卷积模块将空间转换后的通道恢复至原来的通道数;融合单元5035,用于注意力模块动态地调整各个通道的权重,以将各通道信息融合,并将特征图压缩回原始维度;
在本实施例中,所述训练模块503还包括:迭代单元5036,用于采用Adam 优化器以1e-5的学习率对轻量级采样模型进行迭代训练,每次迭代以指数方式衰减;输出单元5037,用于当达到预设的迭代次数时,停止迭代,并输出完成训练的轻量级采样模型;
在本实施例中,所述评价模块504包括:第三获取单元5041,用于获取测试集并输入至完成训练的轻量级采样模型内,生成采样结果;计算单元5042,用于根据采样结果计算评价指标,所述评价指标为PCK指标。
上面图5和图6从模块化功能实体的角度对本发明实施例中的人体姿态估计装置进行详细描述,下面从硬件处理的角度对本发明实施例中人体姿态估计设备进行详细描述。
图7是本发明实施例提供的一种人体姿态估计设备的结构示意图,该人体姿态估计设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对人体姿态估计设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在人体姿态估计设备600上执行存储介质630中的一系列指令操作,以实现上述各方法实施例提供的人体姿态估计方法的步骤。
人体姿态估计设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,本申请示出的人体姿态估计设备结构并不构成对基于人体姿态估计设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行人体姿态估计方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种人体姿态估计方法,其特征在于,包括:
构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块;
获取教学视频,采用帧差法从教学视频中提取多个显示图像,并将所提取的显示图像存储在JSON生成的文件中;
采用基于轮廓的算法对多个显示图像进行预处理,并将显示图像的尺寸设置为256×256,像素设置为400×400,通过关键点标注方法对显示图像的关节点坐标进行标注,得到多个特征图;
根据7:3的比例划分多个特征图,以生成训练集和测试集;
获取训练集中的任一特征图输入至所构建的轻量级采样模型内;
1×1卷积模块扩大特征图的通道数,以将低纬度信息转换为高纬度信息;
空间转置卷积模块对每个通道进行空间转换,以提高特征图的分辨率;
1×1卷积模块将空间转换后的通道恢复至原来的通道数;
注意力模块动态地调整各个通道的权重,以将各通道信息融合,并将特征图压缩回原始维度;
以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;
将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;
对于输入大小为Cin×Win×Hin的特征图,输出大小为 Cout×Wout×Hout的特征图,所述轻量级采样模型的计算量的计算公式以及参数量的计算公式分别为:
;
;
其中,为高维度特征的通道数,设置/>;K为转置卷积的核大小;
传统的转置卷积模型的计算量的计算公式以及参数量的计算公式分别为:
;
;
传统的转置卷积模型与轻量级采样模型的计算量比值和参数量比值分别为:
;
;
由于,上述两个公式可分别简化为:
;
;
对于输入的特征图为,通过轻量级采样模型处理后,其输出为:
;
其中,,/>为注意力模块的输入,/>,/>为注意力模块的输出,Y为融合信息。
2.根据权利要求1所述的一种人体姿态估计方法,其特征在于,所述以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型,具体包括:
采用Adam 优化器以1e-5的学习率对轻量级采样模型进行迭代训练,每次迭代以指数方式衰减;
当达到预设的迭代次数时,停止迭代,并输出完成训练的轻量级采样模型。
3.根据权利要求1所述的一种人体姿态估计方法,其特征在于,所述将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标,具体包括:
获取测试集并输入至完成训练的轻量级采样模型内,生成采样结果;
根据采样结果计算评价指标,所述评价指标为PCK指标,所述PCK指标对于一个关节点的计算公式如下:
其中,表示第k个阈值,p表示第p个人,i表示i第关节点,/>表示第p个人中第i个关节点预测值与人工标注的欧式距离。
4.一种人体姿态估计装置,其特征在于,包括:
构建模块,用于构建轻量级采样模型,所述轻量级采样模型包括空间转置卷积模块、1×1卷积模块和注意力模块;
第一获取单元,用于获取教学视频,采用帧差法从教学视频中提取多个显示图像,并将所提取的显示图像存储在JSON生成的文件中;
处理单元,用于采用基于轮廓的算法对多个显示图像进行预处理,并将显示图像的尺寸设置为256×256,像素设置为400×400,通过关键点标注方法对显示图像的关节点坐标进行标注,得到多个特征图;
划分单元,用于根据7:3的比例划分多个特征图,以生成训练集和测试集;
第二获取单元,用于获取训练集中的任一特征图输入至所构建的轻量级采样模型内;
扩大单元,用于1×1卷积模块扩大特征图的通道数,以将低纬度信息转换为高纬度信息;
转换单元,用于空间转置卷积模块对每个通道进行空间转换,以提高特征图的分辨率;
恢复单元,用于1×1卷积模块将空间转换后的通道恢复至原来的通道数;
融合单元,用于注意力模块动态地调整各个通道的权重,以将各通道信息融合,并将特征图压缩回原始维度;
训练模块,用于以预设的迭代方式对轻量级采样模型进行迭代训练,得到完成训练的轻量级采样模型;
评价模块,用于将测试集输入至完成训练的轻量级采样模型中,根据采样结果计算评价指标;
对比模块,用于对于输入大小为Cin×Win×Hin的特征图,输出大小为 Cout×Wout×Hout的特征图,所述轻量级采样模型的计算量的计算公式以及参数量的计算公式分别为:
;
;
其中,为高维度特征的通道数,设置/>;K为转置卷积的核大小;
传统的转置卷积模型的计算量的计算公式以及参数量的计算公式分别为:
;
;
传统的转置卷积模型与轻量级采样模型的计算量比值和参数量比值分别为:
;
;
由于,上述两个公式可分别简化为:
;
;
输出模块,用于对于输入的特征图为,通过轻量级采样模型处理后,其输出为:
;
其中,,/>为注意力模块的输入,/>,/>为注意力模块的输出,Y为融合信息。
5.一种人体姿态估计设备,其特征在于,所述人体姿态估计设备包括:存储器和至少一个处理器,所述存储器中存储有指令;至少一个所述处理器调用所述存储器中的所述指令,以使得所述人体姿态估计设备执行如权利要求1-3中任一项所述的人体姿态估计方法的各个步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-3中任一项所述人体姿态估计方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310701752.XA CN116434127B (zh) | 2023-06-14 | 2023-06-14 | 人体姿态估计方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310701752.XA CN116434127B (zh) | 2023-06-14 | 2023-06-14 | 人体姿态估计方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434127A CN116434127A (zh) | 2023-07-14 |
CN116434127B true CN116434127B (zh) | 2023-11-07 |
Family
ID=87087669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310701752.XA Active CN116434127B (zh) | 2023-06-14 | 2023-06-14 | 人体姿态估计方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434127B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184809A (zh) * | 2014-05-26 | 2015-12-23 | 富士通株式会社 | 运动对象检测方法和运动对象检测装置 |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111259735A (zh) * | 2020-01-08 | 2020-06-09 | 西安电子科技大学 | 基于多级预测特征增强卷积神经网络的单人姿态估计方法 |
CN112528830A (zh) * | 2020-12-07 | 2021-03-19 | 南京航空航天大学 | 一种结合迁移学习的轻量级cnn口罩人脸姿态分类方法 |
CN112966546A (zh) * | 2021-01-04 | 2021-06-15 | 航天时代飞鸿技术有限公司 | 一种基于无人机侦察图像的嵌入式姿态估计方法 |
CN113705521A (zh) * | 2021-09-05 | 2021-11-26 | 吉林大学第一医院 | 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法 |
CN114140828A (zh) * | 2021-12-06 | 2022-03-04 | 西北大学 | 一种实时轻量级2d人体姿态估计方法 |
CN114155560A (zh) * | 2022-02-08 | 2022-03-08 | 成都考拉悠然科技有限公司 | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
CN114529982A (zh) * | 2022-01-14 | 2022-05-24 | 湖南大学 | 基于流式注意力的轻量级人体姿态估计方法及系统 |
CN115830179A (zh) * | 2022-12-29 | 2023-03-21 | 武汉大学 | 一种类别无关的遥感地物矢量拓扑结构提取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI717726B (zh) * | 2019-04-30 | 2021-02-01 | 財團法人國家實驗研究院 | 一種繞地衛星姿態資料融合系統及其方法 |
EP3933673A1 (en) * | 2020-07-01 | 2022-01-05 | Tata Consultancy Services Limited | System and method to capture spatio-temporal representation for video reconstruction and analysis |
TWI837557B (zh) * | 2020-12-12 | 2024-04-01 | 美商尼安蒂克公司 | 用於自監督多圖框單眼深度估計模型之電腦實施方法及非暫時性電腦可讀儲存媒體 |
-
2023
- 2023-06-14 CN CN202310701752.XA patent/CN116434127B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184809A (zh) * | 2014-05-26 | 2015-12-23 | 富士通株式会社 | 运动对象检测方法和运动对象检测装置 |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111259735A (zh) * | 2020-01-08 | 2020-06-09 | 西安电子科技大学 | 基于多级预测特征增强卷积神经网络的单人姿态估计方法 |
CN112528830A (zh) * | 2020-12-07 | 2021-03-19 | 南京航空航天大学 | 一种结合迁移学习的轻量级cnn口罩人脸姿态分类方法 |
CN112966546A (zh) * | 2021-01-04 | 2021-06-15 | 航天时代飞鸿技术有限公司 | 一种基于无人机侦察图像的嵌入式姿态估计方法 |
CN113705521A (zh) * | 2021-09-05 | 2021-11-26 | 吉林大学第一医院 | 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法 |
CN114140828A (zh) * | 2021-12-06 | 2022-03-04 | 西北大学 | 一种实时轻量级2d人体姿态估计方法 |
CN114529982A (zh) * | 2022-01-14 | 2022-05-24 | 湖南大学 | 基于流式注意力的轻量级人体姿态估计方法及系统 |
CN114155560A (zh) * | 2022-02-08 | 2022-03-08 | 成都考拉悠然科技有限公司 | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
CN115830179A (zh) * | 2022-12-29 | 2023-03-21 | 武汉大学 | 一种类别无关的遥感地物矢量拓扑结构提取方法 |
Non-Patent Citations (2)
Title |
---|
基于动态网络的任意倍数图像超分辨率方法;杜旭;《万方论文库》;正文第1-56页 * |
基于注意力机制的轻量型高分辨率人体姿态估计网络的研究;李坤;《万方论文库》;正文第1-54页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116434127A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN106600626B (zh) | 三维人体运动捕获方法与系统 | |
CN107016689A (zh) | 一种尺度自适应的相关滤波对冲目标跟踪方法 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN104200203B (zh) | 一种基于动作字典学习的人体动作检测方法 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN107229920A (zh) | 基于整合深度典型时间规整及相关修正的行为识别方法 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN112560757A (zh) | 端到端多视角三维人体姿态估计方法、系统及存储介质 | |
CN114821640A (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
CN108876776B (zh) | 一种分类模型生成方法、眼底图像分类方法及装置 | |
Liu | Aerobics posture recognition based on neural network and sensors | |
CN114036969A (zh) | 一种多视角情况下的3d人体动作识别算法 | |
CN112149645A (zh) | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 | |
CN116152926A (zh) | 基于视觉和骨架信息融合的手语识别方法、装置及系统 | |
CN117238026A (zh) | 一种基于骨骼和图像特征的姿态重建交互行为理解方法 | |
CN106971176A (zh) | 基于稀疏表示的红外人体目标跟踪方法 | |
CN108520205B (zh) | 一种基于Citation-KNN的人体动作识别方法 | |
CN114005046A (zh) | 基于Gabor滤波器和协方差池化的遥感场景分类方法 | |
CN113887385A (zh) | 一种基于多视角注意力卷积池化的三维点云分类方法 | |
CN116386089B (zh) | 运动场景下人体姿态估计方法、装置、设备及存储介质 | |
CN116434127B (zh) | 人体姿态估计方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |