CN116524535A - 一种人体姿态估计的方法及系统 - Google Patents
一种人体姿态估计的方法及系统 Download PDFInfo
- Publication number
- CN116524535A CN116524535A CN202310387736.8A CN202310387736A CN116524535A CN 116524535 A CN116524535 A CN 116524535A CN 202310387736 A CN202310387736 A CN 202310387736A CN 116524535 A CN116524535 A CN 116524535A
- Authority
- CN
- China
- Prior art keywords
- offset
- predicted
- feature
- resolution
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012937 correction Methods 0.000 claims abstract description 36
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims 1
- 238000013139 quantization Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 29
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人体姿态估计的方法及系统。该方法包括:获取待处理的目标图像,将目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标;将主干网络中特征提取过程的多尺度特征图进行特征提取和融合,得到高分辨率特征图;将高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy;根据偏移特征图Hx和Hy计算得到预测偏移量Ox和Oy,并根据预测偏移量对预测关键点坐标进行偏移修正和误差补偿。在主干网络的基础上增加改进偏移引导网络,减小计算偏移过程中量化带来的误差,提高偏移修正的准确度,提高了预测精度。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种人体姿态估计的方法及系统。
背景技术
人体姿态估计是计算机视觉的重要且极具挑战性的研究领域,其目标是利用图像来定位人体的解剖学关键点或关键部位。人体姿态估计有许多实际应用,例如人体动作识别,人机交互,动画和影视制作等。人体姿态估计领域的研究重点,是提高人体关键点或关键部位的估计精度,以及提高人体姿态估计的运行速度。
现有的性能较好的人体姿态估计方法,都是基于深度学习的方法,典型的方法就是将图像输入一个网络中,网络大多是由从一系列从高分辨率到低分辨率的子网络连接而成,最后利用反卷积提高输出分辨率。
在主干网络中特征提取过程中,分辨率从高到低再到高的过程,不可避免会产生量化误差,这种误差是像素级的,会对最终结果产生较大影响。人体姿态估计中常用的数据增强方法,如对图像的裁剪,缩放,旋转,翻折,会因为图像坐标与像素坐标的差别,带来亚像素级别的误差,并且误差有一定规律可循。预测关键点与真实关键点之间误差带来的问题,对预测精度会产生较大影响。
发明内容
针对相关技术的缺陷,本发明的目的在于一种人体姿态估计的方法及系统,旨在解决现有人体姿态估计方法中预测关键点与真实关键点的偏差带来的预测精度误差的问题。
为实现上述目的,第一方面,本发明提供了一种人体姿态估计的方法,包括:
获取待处理的目标图像,将所述目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标;
将主干网络中特征提取过程的多尺度特征图进行特征提取和融合,得到高分辨率特征图;
将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy;
根据所述偏移特征图Hx和Hy计算得到预测偏移量Ox和Oy,并根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标。
可选的,将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy,包括:
将所述高分辨率特征图S0按通道数分为两部分,分别为Sx和Sy,其中,K为人体关键点数量;
利用卷积层改变分辨率大小,并将每个通道的二维特征拆分变形为一维,采用多层感知机聚合一维特征,将Sx和Sy分别变换为Hx和Hy,其中,W和H是输入网络的图像的宽度和高度。
可选的,所述根据所述偏移特征图Hx和Hy计算得到预测偏移量Ox和Oy,包括:
以预测关键点坐标为中心,r为区间半径选择所述偏移特征图Hx和Hy中的偏移特征hx和hy;
将所述偏移特征hx和hy输入线性层,得出的偏移量预测为和/>偏移量标签为:
可选的,根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标,包括:
根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿为:
其中,(xf,yf)为修正后的关键点坐标,为预测关键点坐标;
r为偏移量的计算范围,R为偏移特征的计算范围,满足:
rx=γRx,0<γ<1;
δ为偏移修正误差,取值为:
可选的,在所述获取待处理的目标图像,将所述目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标之前,还包括:
采用总损失函数对所述主干网络输出的预测热图和预测偏移特征图以及预测偏移量进行监督;其中,所述总损失函数为所述主干网络的损失函数预测偏移特征图的损失函数LH和预测偏移量的损失函数Lo之和。
可选的,所述主干网络的损失函数根据所述主干网络输出的预测热图/>和真实关键点坐标生成的热图S计算得到,所述主干网络训练过程中的损失函数表示为:
其中,真实关键点坐标表示为zk=(xk,yk),K为人体关键点数量。
可选的,预测偏移特征图的损失函数LH为:
其中,x方向的偏移特征图y方向的偏移特征图/>通道数均为K,/>和/>分别为在x方向和y方向的预测偏移特征图,Hkx和Hky为预测偏移特征图的标签,α1和β1为调整预测偏移特征损失函数的参数;
所述预测偏移特征图的标签Hkx和Hky分别为:
其中,预测的每一个关键点位置为关键点的真实位置为(xk,yk),R为预测偏移特征的计算范围。
可选的,所述预测偏移量的损失函数Lo根据所述预测偏移量Ox和Oy计算得到,所述预测偏移量的损失函数为:
其中,α2和β2为调整损失函数的参数,和/>分别为x方向和y方向的预测偏移量。
可选的,所述将主干网络中特征提取过程的多尺度特征图进行特征提取和融合,得到高分辨率特征图,包括:
选取主干网络中最后一个阶段中含有高层次语义信息的多个不同分辨率特征图;
按照分辨率大小,将最低分辨率的特征图通过反卷积上采样至高一级特征的分辨率大小,与高一级特征进行串联,再通过卷积将通道数减小到下一级特征的通道数,重复这一过程,直到将所有尺度的特征融合得到高分辨率特征图。
第二方面,本发明还提供了一种人体姿态估计的系统,包括:
关键点预测模块,用于输入目标图像,对目标图像进行特征提取,得到预测关键点坐标;
多尺度特征融合模块,用于将主干网络的特征提取过程中的多尺度特征图进行特征提取和融合,得到高分辨率特征图;
偏移特征图预测模块,用于将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy;
偏移修正模块,用于将所述偏移特征图Hx和Hy输入偏移引导网络,输出得到预测偏移量,并根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标。
总体而言,本发明所构思的以上技术方案与现有技术相比,有以下优点:
(1)本发明提出的人体姿态估计的方法,在现有的基于热图的人体姿态估计方法的基础上增加独立的改进偏移引导网络,聚合姿态估计网络中的多尺度特征对预测结果进行偏移修正,有效地减小了基于热图的人体姿态估计方法的量化误差。
(2)本发明提供的改进偏移引导网络结构在原有的基础上,融入了多尺度特征,在融合阶段,自下而上逐步融合中间特征图的同时,利用反卷积进行上采样。在提升分辨率阶段,不再直接将特征图分辨率提升至原图像分辨率,而是将特征图转化为一维特征图,在减小计算量的同时不影响精度,提升了效率。
(3)本发明提供的改进偏移引导网络中增加的偏移计算分支网络,避免了坐标量化带来的精度损失,并且将偏移特征的分布融入偏移计算中,可以提高偏移的预测精度。
(4)本发明提出的基于改进偏移引导网络的人体姿态估计的方法,改进了修正方法,引入了计算半径参数,在偏差较大的情况下,也能有效的将预测值修正到真实值,且修正的理论精度更高;并且引入了修正误差参数,能够有效的减小计算偏移过程中量化带来的误差。
附图说明
图1为本发明提供的一种人体姿态估计的方法的流程示意图;
图2为本发明中采用的主干网络结构示意图;
图3为本发明的融合多尺度特征的改进偏移引导网络结构示意图;
图4为将主干网络与偏移引导网络结合的整体结构示意图;
图5中的(a)和(b)分别为图像真实坐标生成的热图标签和主干网络根据输入的目标图像生成的预测的热图;
图6中的(a)、(b)、(c)和(d)分别是在训练集和验证集的损失和准确率的变化曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面结合一个优选实施例,对上述实施例中涉及的内容进行说明。
如图1所示,一种本发明提供了一种人体姿态估计的方法,包括:
S1、获取待处理的目标图像,将目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标;
S2、将主干网络中特征提取过程的多尺度特征图进行特征提取和融合,得到高分辨率特征图;
S3、将高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy;
S4、根据偏移特征图Hx和Hy计算得到预测偏移量Ox和Oy,并根据预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标。
采用现有的任意人体姿态检测网络作为预测的主干网络,在主干网络的基础上增加独立的改进偏移引导网络。以较为流行的基于热图的人体姿态估计网络为例,关键点的真实坐标表示为其中,zk=(xk,yk),K为关键点个数,根据关键点的真实坐标生成的热图S作为标签,热图S如图5中(a)所示,生成方式为:
Sk(p)~N(zk,Σ)
其中,代表位置坐标,Σ代表方差矩阵。
将待处理的目标图像输入主干网络中,主干网络输出的预测热图为通过输出的预测热图计算出的预测关键点坐标为/>计算方式为:
在主干网络进行热图预测的过程中,会产生不同尺寸的特征图,具有不同的分辨率。基础的偏移引导网络方法只在主干网络的输出末端增加偏移网络,缺乏尺度信息,本实施例提供的独立的改进偏移引导网络融合了主干网络中多个分辨率的特征图,提取了网络中的多尺度信息。
示例性的,高分辨率网络结构如图2所示,本实例中采用4阶段的高分辨率网络(High-Resolution Net,HRNet),网络的图像输入为输出热图为为了减小计算量,输出热图分辨率一般都比原始图像小,通常取
独立的改进偏移引导网络结构融合了主干网络中多尺度特征,选择主干网络中不同分辨率的中间特征图,将不同特征图的分辨率提升至最终输出热图的分辨率,通道数为K,再利用反卷积层将特征图提升至网络输入图像的分辨率,得到高分辨率特征图,通道数调整到2K,K为关键点个数。
其中,S2具体包括:
S21、选取主干网络中最后一个阶段中含有高层次语义信息的多个不同分辨率特征图。
主干网络中的特征图记为s代表阶段,r代表分辨率指数。/>的分辨率表示为w,通道数表示为c,/>的分辨率为该阶段第一个子网络/>的/>通道数为/>的2r -1,在本实施中,选取最终阶段的4个特征图,/>
S22、按照分辨率大小,将最低分辨率的特征图通过反卷积上采样至高一级特征的分辨率大小,与高一级特征进行串联,再通过卷积将通道数减小到下一级特征的通道数,重复这一过程,直到将所有尺度的特征融合得到高分辨率特征图。
具体为:利用改进偏移引导网络对多分辨率特征图进行融合,改进偏移引导网络结构如图3所示。将上采样到分辨率和通道数与/>相同,与/>堆叠得到的特征图表示为S3,分辨率和通道数为/>S3上采样到分辨率和通道数与/>相同,与/>堆叠得到的特征图表示为S2,分辨率和通道数为/>S2上采样到分辨率和通道数与/>相同,与/>堆叠得到的特征图表示为S1,分辨率和通道数为(w,2c)。S1融合了网络的多尺度中间特征信息,将S1进行上采样,提升分辨率和减少通道数,得到高分辨率特征图S0,分辨率和通道数调整为(2w,2K),K为检测的关键点个数。
在得到高分辨率特征图后,为避免偏差计算中的冗余信息带来的效率低下的问题,将高分辨率的特征图进行变形,将特征图按通道分为两部分,每一部分的通道数均为K,得到x方向和y方向的偏移特征图Hx和Hy。S3具体包括:
S31、将所述高分辨率特征图S0按通道数分为两部分,分别为Sx和Sy,K为人体关键点数量;
S32、利用卷积层改变分辨率大小,并将每个通道的二维特征拆分变形为一维,采用多层感知机聚合一维特征的长度,将Sx和Sy分别变换为Hx和Hy,其中,W和H是输入网络的图像的宽度和高度。
在利用偏移特征图计算偏移修正量的过程中,预测关键点坐标的量化误差会对精度造成损失,为解决偏移量计算中量化问题带来的误差,在改进偏移引导网络中引入偏移量计算预测分支,对偏移量进行预测。
主干网络的输出预测热图的关键点坐标为/>如图5中(b)所示,将偏移特征图Hx和Hy输入改进偏移引导网络的预测偏移量计算分支中,根据输出的预测偏移量对关键点坐标进行偏移修正,修正得到的关键点坐标为(xf,yf)。
其中,步骤S4具体包括:
S41、以预测关键点坐标为中心,r为区间半径选择所述偏移特征图Hx和Hy中的偏移特征hx和hy;
S42、将所述偏移特征hx和hy输入线性层,得出的偏移量预测为和/>偏移量标签为:
S43、根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿为:
其中,(xf,yf)为修正后的关键点坐标,为预测关键点坐标;
r为偏移量的计算范围,R为偏移特征的计算范围,满足:
rx=γRx,0<γ<1
δ为偏移修正误差,取值为:
本实施例的技术方案中,在现有的人体姿态估计网络的基础上增加独立的改进偏移引导网络,融合主干网络中的多尺度特征信息提高偏移修正的准确度,在进行偏移量计算过程中去除了重复的特征,将二维偏移特征降低至一维,提升了效率;改进偏移引导网络中还增加偏移量预测分支,利用线性网络计算偏移特征得出准确的偏移量,用于修正主干网络的预测,可以较好的减小量化误差的影响;原始的计算方法仅通过将偏移特征图中的值进行求和来计算偏移量,引入的线性层具有可学习参数,能学习到高层次特征信息,能将偏移特征图的分布特征融入计算过程,提高了偏移量修正的准确度。相比于现有基于热图的人体姿态估计方法,本发明的方法能够利用偏移修正来补偿下采样带来的量化误差,引入多尺度特征信息提高了偏移修正的适应性,提高预测精度。改进的修正方法引入了计算半径参数,在偏差较大的情况下,也能有效的将预测值修正到真实值,且修正的理论精度更高,并且引入了修正误差参数,能够有效的减小计算偏移过程中量化带来的误差。
进一步的,改进偏移引导网络采用独立的网络结构,可以与其他的基于热图的二阶段人体姿态估计方法进行融合,也可以方便地转移到其他框架中,用来解决其他深度学习机器视觉中的分辨率变换导致的量化误差的问题。
在上述实施例的基础上,可选的,在所述获取待处理的目标图像,将所述目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标之前,还包括:
采用总损失函数对所述主干网络输出的预测热图和预测偏移特征图以及预测偏移量进行监督。
其中,所述总损失函数与所述主干网络的损失函数预测偏移特征图的损失函数LH和预测偏移量的损失函数Lo的关系表示为:/>
改进偏移引导网络的整体结构如图4所示,训练过程中,主干网络的标签由数据集的关键点真实坐标生成热图S,由S和计算的损失函数为/>改进偏移引导网络的标签由数据集的关键点真实坐标生成,表示为Hx和Hy,由H和/>计算的损失函数为LH。偏移特征图偏移量计算的标签由关键点的预测坐标与真实坐标生成,偏移量预测的损失函数为Lo。
可选的,所述主干网络的损失函数根据所述主干网络输出的预测热图/>和真实关键点坐标生成的热图S计算得到,所述主干网络训练过程中的损失函数表示为:
其中,预测热图的关键点坐标表示为/>真实关键点坐标表示为zk=(xk,yk),K为人体关键点数量。
对于主干网络预测的每一个关键点位置和其对应的真实位置(xk,yk),预测偏移特征图的标签Hkx和Hky分别为:
其中,R为预测偏移特征的计算范围。
预测特征图的损失函数LH为:
其中,x方向的偏移特征图y方向的偏移特征图/>通道数均为K,/>和/>分别为x方向和y方向的预测偏移特征图,Hkx和Hky为预测偏移特征图的标签,α1和β1为调整预测偏移特征损失函数的参数。
可选的,预测偏移量的损失函数Lo根据所述预测偏移量Ox和Oy计算得到,所述偏移量预测的损失函数为:
其中,α2和β2为调整损失函数的参数,和/>分别为x方向和y方向的预测偏移量。
损失函数用于在训练的时候进行梯度的反向传播,让被监督的特征更接近实际特征。
为验证本发明的有效性,选取COCO数据集进行训练和测试。COCO数据集是一个大型的物体检测数据集,主要从复杂的日常场景中截取。
评价指标基于目标关键点相似性指标(Object Keypoint Similarity,OKS)
其中di为预测关键点与对应关键点实际坐标zk的欧氏距离,δ(vi)为关键点可视权重函数,s为目标尺度参数,ki是用于控制衰减的常数。报告指标采用精确度AP和召回率AR,AP50为OKS=0.50时的精确度,APM为中等尺寸的目标的精确度,APL为大尺寸目标的平均精确度,AR为平均召回率。
模型的训练在Ubuntu18.04系统上进行,模型使用的框架为pytorch1.7,训练210个epoch,模型在训练过程中在训练集和验证集上的损失和准确率曲线如图6中(a)、(b)、(c)和(d)所示。
模型在测试集上的对比结果如表1所示,采用本发明提出的改进偏移引导网络和偏移计算修正的方法,对比只有主干网络的热图方法,在精确度上有显著提高,参数量的增加和算力的增长并不高,本发明提供的方法有一定的实用价值。
表1
在上述实施例的基础上,本发明还提供了一种人体姿态估计的系统,包括:
关键点预测模块,用于输入目标图像,对目标图像进行特征提取,得到预测关键点坐标;
多尺度特征融合模块,用于将主干网络的特征提取过程中的多尺度特征图进行特征提取和融合,得到高分辨率特征图;
偏移特征图预测模块,用于将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy;
偏移修正模块,用于将所述偏移特征图Hx和Hy输入偏移引导网络,输出得到预测偏移量,并根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标。
本发明实施例所提供的一种人体姿态估计的系统可执行本发明任意实施例所提供的一种人体姿态估计的方法,具备执行方法相应的功能模块和有益效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种人体姿态估计的方法,其特征在于,包括:
获取待处理的目标图像,将所述目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标;
将主干网络中特征提取过程的多尺度特征图进行特征提取和融合,得到高分辨率特征图;
将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图HAX和Hy;
根据所述偏移特征图Hx和Hy计算得到预测偏移量Ox和Oy,并根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标。
2.如权利要求1所述的方法,其特征在于,将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy,包括:
将所述高分辨率特征图S0按通道数分为两部分,分别为Sx和Sy,其中,K为人体关键点数量;
利用卷积层改变分辨率大小,并将每个通道的二维特征拆分变形为一维,采用多层感知机聚合一维特征,将Sx和Sy分别变换为Hx和Hy,其中,W和H是输入网络的图像的宽度和高度。
3.如权利要求1所述的方法,其特征在于,所述根据所述偏移特征图Hx和Hy计算得到预测偏移量Ox和Oy,包括:
以预测关键点坐标为中心,r为区间半径选择所述偏移特征图Hx和Hy中的偏移特征hx和hy;
将所述偏移特征hx和hy输入线性层,得出的偏移量预测为和/>偏移量标签为:
4.如权利要求3所述的方法,其特征在于,根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标,包括:
根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿为:
其中,(xf,yf)为修正后的关键点坐标,为预测关键点坐标;
r为偏移量的计算范围,R为偏移特征的计算范围,满足:
rx=γRx,0<γ<1;
δ为偏移修正误差,取值为:
5.如权利要求1所述的方法,其特征在于,在所述获取待处理的目标图像,将所述目标图像输入至用于人体姿态估计的主干网络进行处理得到预测关键点坐标之前,还包括:
采用总损失函数对所述主干网络输出的预测热图和预测偏移特征图以及预测偏移量进行监督;其中,所述总损失函数为所述主干网络的损失函数预测偏移特征图的损失函数LH和预测偏移量的损失函数Lo之和。
6.如权利要求5所述的方法,其特征在于,所述主干网络的损失函数根据所述主干网络输出的预测热图/>和真实关键点坐标生成的热图S计算得到,所述主干网络训练过程中的损失函数表示为:
其中,真实关键点坐标表示为zk=(xk,yk),K为人体关键点数量。
7.如权利要求5所述的方法,其特征在于,预测偏移特征图的损失函数LH为:
其中,x方向的偏移特征图y方向的偏移特征图/>通道数均为K,/>和/>分别为在x方向和y方向的预测偏移特征图,Hkx和Hky为预测偏移特征图的标签,α1和β1为调整预测偏移特征损失函数的参数;
所述预测偏移特征图的标签Hkx和Hky分别为:
其中,预测的每一个关键点位置为关键点的真实位置为(xk,yk),R为预测偏移特征的计算范围。
8.如权利要求5所述的方法,其特征在于,所述预测偏移量的损失函数Lo根据所述预测偏移量Ox和Oy计算得到,所述预测偏移量的损失函数为:
其中,α2和β2为调整损失函数的参数,和/>分别为x方向和y方向的预测偏移量。
9.如权利要求1所述的方法,其特征在于,所述将主干网络中特征提取过程的多尺度特征图进行特征提取和融合,得到高分辨率特征图,包括:
选取主干网络中最后一个阶段中含有高层次语义信息的多个不同分辨率特征图;
按照分辨率大小,将最低分辨率的特征图通过反卷积上采样至高一级特征的分辨率大小,与高一级特征进行串联,再通过卷积将通道数减小到下一级特征的通道数,重复这一过程,直到将所有尺度的特征融合得到高分辨率特征图。
10.一种人体姿态估计的系统,其特征在于,包括:
关键点预测模块,用于输入目标图像,对目标图像进行特征提取,得到预测关键点坐标;
多尺度特征融合模块,用于将主干网络的特征提取过程中的多尺度特征图进行特征提取和融合,得到高分辨率特征图;
偏移特征图预测模块,用于将所述高分辨率特征图按通道分为两部分,分别将二维特征变形为一维特征,并采用多层感知机聚合特征,得到x方向和y方向的偏移特征图Hx和Hy;
偏移修正模块,用于将所述偏移特征图Hx和Hy输入偏移引导网络,输出得到预测偏移量,并根据所述预测偏移量对预测关键点坐标进行偏移修正和误差补偿,得到修正后的关键点坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310387736.8A CN116524535A (zh) | 2023-04-07 | 2023-04-07 | 一种人体姿态估计的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310387736.8A CN116524535A (zh) | 2023-04-07 | 2023-04-07 | 一种人体姿态估计的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524535A true CN116524535A (zh) | 2023-08-01 |
Family
ID=87393273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310387736.8A Pending CN116524535A (zh) | 2023-04-07 | 2023-04-07 | 一种人体姿态估计的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524535A (zh) |
-
2023
- 2023-04-07 CN CN202310387736.8A patent/CN116524535A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734723B (zh) | 一种基于自适应权重联合学习的相关滤波目标跟踪方法 | |
CN109712071B (zh) | 基于航迹约束的无人机图像拼接与定位方法 | |
CN112364931A (zh) | 基于元特征和权重调整的少样本目标检测方法及网络模型 | |
CN108292367B (zh) | 图像处理装置、半导体装置、图像识别装置、移动体装置以及图像处理方法 | |
CN102722697A (zh) | 一种无人飞行器视觉自主导引着陆的目标跟踪方法 | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN110348531B (zh) | 具有分辨率适应性的深度卷积神经网络构建方法及应用 | |
CN108335327B (zh) | 摄像机姿态估计方法和摄像机姿态估计装置 | |
CN116402850A (zh) | 一种面向智能驾驶的多目标跟踪方法 | |
CN110544202A (zh) | 一种基于模板匹配与特征聚类的视差图像拼接方法及系统 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114463636B (zh) | 一种改进的复杂背景遥感图像目标检测方法及系统 | |
CN115953371A (zh) | 一种绝缘子缺陷检测方法、装置、设备和存储介质 | |
CN109993772B (zh) | 基于时空采样的实例级别特征聚合方法 | |
CN110580462B (zh) | 一种基于非局部网络的自然场景文本检测方法和系统 | |
Zhang et al. | Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection | |
CN116524535A (zh) | 一种人体姿态估计的方法及系统 | |
CN111899284B (zh) | 一种基于参数化esm网络的平面目标跟踪方法 | |
CN116246064A (zh) | 一种多尺度空间特征增强方法及装置 | |
CN115410089A (zh) | 自适应局部上下文嵌入的光学遥感小尺度目标检测方法 | |
CN115035164A (zh) | 一种运动目标识别方法及装置 | |
Zhu et al. | New PCB Defect Identification and Classification Method Combining MobileNet Algorithm and Improved YOLOv4 Model | |
CN110660079A (zh) | 一种基于时空上下文的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |