CN116091596A - 一种自下而上的多人2d人体姿态估计方法及装置 - Google Patents
一种自下而上的多人2d人体姿态估计方法及装置 Download PDFInfo
- Publication number
- CN116091596A CN116091596A CN202211520839.9A CN202211520839A CN116091596A CN 116091596 A CN116091596 A CN 116091596A CN 202211520839 A CN202211520839 A CN 202211520839A CN 116091596 A CN116091596 A CN 116091596A
- Authority
- CN
- China
- Prior art keywords
- key point
- map
- image
- human body
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000010438 heat treatment Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 14
- 230000036544 posture Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种自下而上的多人2D人体姿态估计方法及装置。该方法包括如下步骤:获取原始图像,并对原始图像进行预处理;将预处理后的图像输入预设的网络模型中进行训练,得到训练好的网络模型,所述训练好的网络模型用于输出关键点热图和关键点偏移图;将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。本发明采用自下而上的多人姿态估计方法,通过多子空间注意力网络中每个子空间注意力模块学习到相对应关键点的个性化特征,从而提升整体关键点的检测精度。
Description
技术领域
本发明涉及人体姿态估计技术领域,尤其涉及一种自下而上的多人2D人体姿态估计方法及装置。
背景技术
人体姿态估计是计算机视觉领域的一个重要方向,在运动识别、人机交互、动画、监控安防等领域有着广泛应用。如今人体姿态估计已包含多个研究分支,包括2D人体姿态估计、3D人体姿态估计、视频人体姿态估计和多视角人体姿态估计等。其中,单图像的2D人体姿态估计是两段式3D人体姿态估计、视频人体姿态估计和多视角人体姿态估计的基础,2D姿态估计性能的提升对这些分支领域的发展也会带来很多的推进作用。
目前,2D人体姿态估计主要有两种检测模式:自上而下的检测方式,虽然输出精度高,但是运行时间与图像中人的数量成正比,在人群聚众的场景中,每一个单人检测框难免存在其他人的肢体部分,进行单人姿态估计也会造成干扰,且会根据检测出的人体数量来执行多少次单人姿态估计,且人框检测方面需要额外的计算成本,计算量大用时长;自下而上的检测方式,对全图进行关键点检测,经过筛选后,通过聚类将关节点正确匹配到每一个人,速度快但精度有待提高。
因此,亟需一种能够在确保检测速度的前提下,提高检测精度的2D人体姿态估计方法。
发明内容
为了解决上述技术问题,本发明提出一种自下而上的多人2D人体姿态估计方法及装置。在所述方法及装置中,采用自下而上的多人姿态估计方法,执行一次全图的关键点检测,采用关联式嵌入策略(Associative Embedding)的分组方式,通过NMS算法将关键点匹配到个人,计算用时短,避免额外的计算成本;通过多子空间注意力网络中每个子空间注意力模块学习到相对应关键点的个性化特征,改进回归结果,从而提升整体关键点的检测精度。
为了达到上述目的,本发明的技术方案如下:
一种自下而上的多人2D人体姿态估计方法,包括如下步骤:
获取原始图像,并对原始图像进行预处理;
构建网络模型,所述网络模型的训练过程:将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型;
将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;
基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。
优选地,所述预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整。
优选地,所述骨干网为HRNet-w32。
优选地,所述采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图,包括如下步骤:
将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射;
构建多子空间注意力网络,所述多子空间注意力网络中K个子空间注意力模块分别对应计算一个子特征映射;
将子特征映射回归到相应的关键点,并拼接所有的关键点偏移特征。
优选地,所述基于所述骨干网输出的特征映射获取关键点热图,包括如下步骤:
对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作,获取关键点热图。
优选地,所述激活操作采用ReLU激活函数。
式中⊙表示基本的乘积运算,Mh表示关键点热图掩码,Mc表示中心热图掩码,H表示关键点预测热值,H*表示关键点真实热值,C表示中心点预测热值,C*表示中心点真实热值。
优选地,基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息,包括如下步骤:
采用NMS算法对关键点热图和关键点偏移图进行姿态过滤,获取候选姿态;
基于候选姿态的中心热值、关键点热值和形状分数计算综合评分并排序,将综合评分满足评分阈值的人体关键点匹配至个人。
优选地,所述姿态过滤,包括如下步骤:
在待测图像的关键点热图上执行中心NMS算法,将非局部最大位置和中心热值不高于0.01的位置进行删除;
对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理,去除重叠的姿势。
基于上述内容,本发明还公开了一种自下而上的多人2D人体姿态估计装置,包括:获取模块、训练模块、输出模块和识别模块,其中,
所述获取模块,用于获取原始图像,并对原始图像进行预处理;
所述训练模块,用于构建网络模型,将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型;
所述输出模块,用于将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;
所述识别模块,用于基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。
基于上述技术方案,本发明的有益效果是:
1)本发明采用自下而上的方式,执行一次全图的关键点检测,采用关联式嵌入策略(Associative Embedding)的分组方式,通过NMS算法将关键点匹配到个人,计算用时短,避免额外的计算成本;
2)本发明准确回归关键点位置需要学习关注关键点区域的表示,采用多子空间注意力网络模块,通过每个关键点独立回归的多分支方案,每一个分支通过专门用于单一关键点检测的子空间注意力模块,激活位于关键点位置区域的像素,来学习一个关键点的表示,并回归相应关键点的位置。每个子空间注意力模块都可以学习到相对应关键点的个性化特征,从而提升整体关键点的检测精度。
附图说明
图1是一个实施例中一种自下而上的多人2D人体姿态估计方法的应用环境图;
图2是一个实施例中一种自下而上的多人2D人体姿态估计方法的流程示意图;
图3是一个实施例中一种自下而上的多人2D人体姿态估计装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供的一种自下而上的多人2D人体姿态估计方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取原始图像,并对原始图像进行预处理;计算机设备110可以构建网络模型,所述网络模型的训练过程:将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型;计算机设备110可以将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;计算机设备110可以基于关联式嵌入策略(Associative Embedding)将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种自下而上的多人2D人体姿态估计方法,包括如下步骤:
步骤202,获取原始图像,并对原始图像进行预处理。
计算机设备可以获取原始图像,原始图像用于预设的网络模型的训练。计算机设备可以对原始图像进行预处理,预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整,具体的,可以针对所有的图像进行随机仿射变换,将所有原始图像尺寸缩放到512*512像素,以50%概率对所有的图像进行横向翻转,然后采用gamma亮度调整针对所有图像进行随机亮度调整。
步骤204,构建网络模型,所述网络模型的训练过程:将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型。
本实施例中,将预处理后的图像输入预设的网络模型中进行训练,训练过程如下:将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作,获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型。
其中,骨干网选择的是HRNet-w32网络,输入512*512预处理后的图像,最后获取到128*128的特征映射。
Y=g(X)
式中X表示输入的原始图像,g表示HRNet-w32骨干网,Y表示输出的特征映射。
本实施例中,采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图,具体说明如下,
将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射[Y1,Y2,…,YK]。多子空间注意力网络设计了具有K个分支的子空间注意力模块[f1,f2,…,fk],每一个子空间注意力模块计算一个子特征映射,然后再将这一个子特征映射回归到相应的关键点,最后再拼接所有的关键点偏移特征。
[Y1,Y2,…,YK]=split(Y)
Oi=fi(Yi)
O=Concat(O1,O2,…,OK)
式中i∈(1,2,…K)。在子空间注意模块的设计中,其中fi具体操作如下所示:
式中DW1表示了具有1×1卷积核的深度卷积,maxpool3×3,1表示了核尺寸为3×3,填充为1的最大值池化,PW1是只有一个滤波器的逐点卷积。由于深度卷积是每个通道进行独立运算,因此后面利用单一滤波器的逐点卷积来实现单像素点的多通道特征提取,以实现多通道特征的加权组合。最后再与未经计算的Yi跳跃连接,形成新的特征图Oi。
本实施例中,对所述骨干网输出的特征映射依次进行卷积、归一化、ReLU激活操作,获取关键点热图,获取关键点热图的公式如下所示:
H=ReLU(BN(Conv(Y)))
式中⊙表示基本的乘积运算,Mh表示关键点热图掩码,Mc表示中心热图掩码,H表示关键点预测热值,H*表示关键点真实热值,C表示中心点预测热值,C*表示中心点真实热值。
步骤206,将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图。
在本阶段不会针对待测图像进行预处理,网络模型输入原始尺寸的待测图像,输出待测图像的关键点热图和关键点偏移图。
步骤208,基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。
计算机设备可以基于关联式嵌入策略(Associative Embedding)将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,首先可以先采用NMS算法对关键点热图和关键点偏移图进行姿态过滤,获取候选姿态,具体地,在待测图像的关键点热图上执行中心NMS算法,将非局部最大位置和中心热值不高于0.01的位置进行删除;对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理,去除重叠的姿势,并保持最多30个候选姿态。姿势NMS中使用的分数是回归的K个关键点的热值的平均值,这有助于保持候选姿势具有高度准确的局部关键点。然后在候选姿态中,通过联合考虑候选姿态相应的中心热值、关键点热值和形状分数来计算综合评分并排序,将综合评分满足评分阈值的人体关键点匹配至个人,获取人体姿态信息。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供一种自下而上的多人2D人体姿态估计装置300,包括:获取模块310、训练模块320、输出模块330和识别模块340,其中,
所述获取模块310,用于获取原始图像,并对原始图像进行预处理;
所述训练模块320,用于构建网络模型,将预处理后的图像输入所述网络模型的骨干网,输出特征映射,骨干网为HRNet-w32;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型,其中,计算损失的损失函数为关键点偏移图的损失函数和热图的损失函数之和;
所述输出模块330,用于将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;
所述识别模块340,用于基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。
在一个实施例中,预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整。
在一个实施例中,所述训练模块320,还用于对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作,获取关键点热图,其中,激活操作采用ReLU激活函数。
在一个实施例中,所述训练模块320,还用于将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射;构建多子空间注意力网络,所述多子空间注意力网络中K个子空间注意力模块分别对应计算一个子特征映射;将子特征映射回归到相应的关键点,并拼接所有的关键点偏移特征。
在一个实施例中,所述识别模块340,还用于采用NMS算法对关键点热图和关键点偏移图进行姿态过滤,获取候选姿态,其中,在待测图像的关键点热图上执行中心NMS算法,将非局部最大位置和中心热值不高于0.01的位置进行删除;对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理,去除重叠的姿势;基于候选姿态的中心热值、关键点热值和形状分数计算综合评分并排序,将综合评分满足评分阈值的人体关键点匹配至个人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种自下而上的多人2D人体姿态估计方法,其特征在于,包括如下步骤:
获取原始图像,并对原始图像进行预处理;
构建网络模型,所述网络模型的训练过程:将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型;
将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;
基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。
2.根据权利要求1所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述预处理包括随机仿射变换、缩放、按预定概率的横向翻转和随机亮度调整。
3.根据权利要求1所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述骨干网为HRNet-w32。
4.根据权利要求1所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图,包括如下步骤:
将骨干网输出的特征映射根据人体关键点的数量K划分为K个子特征映射;
构建多子空间注意力网络,所述多子空间注意力网络中K个子空间注意力模块分别对应计算一个子特征映射;
将子特征映射回归到相应的关键点,并拼接所有的关键点偏移特征。
5.根据权利要求1所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述基于所述骨干网输出的特征映射获取关键点热图,包括如下步骤:
对所述骨干网输出的特征映射依次进行卷积、归一化、激活操作,获取关键点热图。
6.根据权利要求5所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述激活操作采用ReLU激活函数。
式中⊙表示基本的乘积运算,Mh表示关键点热图掩码,Mc表示中心热图掩码,H表示关键点预测热值,H*表示关键点真实热值,C表示中心点预测热值,C*表示中心点真实热值。
8.根据权利要求1所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息,包括如下步骤:
采用NMS算法对关键点热图和关键点偏移图进行姿态过滤,获取候选姿态;
基于候选姿态的中心热值、关键点热值和形状分数计算综合评分并排序,将综合评分满足评分阈值的人体关键点匹配至个人。
9.根据权利要求8所述的一种自下而上的多人2D人体姿态估计方法,其特征在于,所述姿态过滤,包括如下步骤:
在待测图像的关键点热图上执行中心NMS算法,将非局部最大位置和中心热值不高于0.01的位置进行删除;
对中心NMS算法处理后剩余位置的关键点偏移信息进行位姿NMS处理,去除重叠的姿势。
10.一种自下而上的多人2D人体姿态估计装置,其特征在于,包括:获取模块、训练模块、输出模块和识别模块,其中,
所述获取模块,用于获取原始图像,并对原始图像进行预处理;
所述训练模块,用于构建网络模型,将预处理后的图像输入所述网络模型的骨干网,输出特征映射;采用多子空间注意力网络回归预测所述骨干网输出的特征映射中每个关键点的偏移量,获取关键点偏移图;基于所述骨干网输出的特征映射获取关键点热图;根据所述关键点热图和关键点偏移图的损失,优化模型参数并继续训练,直到模型收敛或达到最大迭代次数,得到训练好的网络模型;
所述输出模块,用于将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;
所述识别模块,用于基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520839.9A CN116091596A (zh) | 2022-11-29 | 2022-11-29 | 一种自下而上的多人2d人体姿态估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520839.9A CN116091596A (zh) | 2022-11-29 | 2022-11-29 | 一种自下而上的多人2d人体姿态估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116091596A true CN116091596A (zh) | 2023-05-09 |
Family
ID=86203402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211520839.9A Pending CN116091596A (zh) | 2022-11-29 | 2022-11-29 | 一种自下而上的多人2d人体姿态估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091596A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959120A (zh) * | 2023-09-15 | 2023-10-27 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784149A (zh) * | 2018-12-06 | 2019-05-21 | 北京飞搜科技有限公司 | 一种人体骨骼关键点的检测方法及系统 |
CN109948453A (zh) * | 2019-02-25 | 2019-06-28 | 华中科技大学 | 一种基于卷积神经网络的多人姿态估计方法 |
CN110135375A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院宁波材料技术与工程研究所 | 基于全局信息整合的多人姿态估计方法 |
CN113139620A (zh) * | 2021-05-14 | 2021-07-20 | 重庆理工大学 | 基于目标关联学习的端到端多目标检测与跟踪联合方法 |
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN114999002A (zh) * | 2022-08-04 | 2022-09-02 | 松立控股集团股份有限公司 | 一种融合人体姿态信息的行为识别方法 |
-
2022
- 2022-11-29 CN CN202211520839.9A patent/CN116091596A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN109784149A (zh) * | 2018-12-06 | 2019-05-21 | 北京飞搜科技有限公司 | 一种人体骨骼关键点的检测方法及系统 |
CN109948453A (zh) * | 2019-02-25 | 2019-06-28 | 华中科技大学 | 一种基于卷积神经网络的多人姿态估计方法 |
CN110135375A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院宁波材料技术与工程研究所 | 基于全局信息整合的多人姿态估计方法 |
CN113139620A (zh) * | 2021-05-14 | 2021-07-20 | 重庆理工大学 | 基于目标关联学习的端到端多目标检测与跟踪联合方法 |
CN114999002A (zh) * | 2022-08-04 | 2022-09-02 | 松立控股集团股份有限公司 | 一种融合人体姿态信息的行为识别方法 |
Non-Patent Citations (5)
Title |
---|
GEORGE PAPANDREOU 等: "PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model", 《COMPUTER VISION-ECCV 2018》, pages 282 - 299 * |
KE SUN 等: "Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive Keypoint Estimates", 《ARXIV》, pages 1 - 8 * |
LINWEI CHEN 等: "SAMKR: Bottom-up Keypoint Regression Pose Estimation Method Based On Subspace Attention Module", 《2022 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》, pages 1 - 9 * |
ZIGANG GENG 等: "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression", 《2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 14671 - 14681 * |
彭帅;黄宏博;陈伟骏;胡志颖;袁铭阳;: "基于卷积神经网络的人体姿态估计算法综述", 《北京信息科技大学学报(自然科学版)》, vol. 35, no. 03, pages 59 - 66 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959120A (zh) * | 2023-09-15 | 2023-10-27 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
CN116959120B (zh) * | 2023-09-15 | 2023-12-01 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444881B (zh) | 伪造人脸视频检测方法和装置 | |
CN112766244B (zh) | 目标对象检测方法、装置、计算机设备和存储介质 | |
US11842487B2 (en) | Detection model training method and apparatus, computer device and storage medium | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN109543627B (zh) | 一种判断驾驶行为类别的方法、装置、及计算机设备 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN110334587B (zh) | 人脸关键点定位模型的训练方法、装置及关键点定位方法 | |
WO2020228446A1 (zh) | 模型训练方法、装置、终端及存储介质 | |
CN111754541B (zh) | 目标跟踪方法、装置、设备及可读存储介质 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN111950329A (zh) | 目标检测及模型训练方法、装置、计算机设备和存储介质 | |
CN109492643A (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN111626123A (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN110942012A (zh) | 图像特征提取方法、行人重识别方法、装置和计算机设备 | |
CN111368672A (zh) | 一种用于遗传病面部识别模型的构建方法及装置 | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN110598638A (zh) | 模型训练方法、人脸性别预测方法、设备及存储介质 | |
CN111325766B (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN112329598B (zh) | 人脸关键点定位的方法、系统、电子装置和存储介质 | |
CN113569627B (zh) | 人体姿态预测模型训练方法、人体姿态预测方法及装置 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN112115860A (zh) | 人脸关键点定位方法、装置、计算机设备和存储介质 | |
CN112818821A (zh) | 基于可见光和红外光的人脸采集源检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230509 |