CN112418070A - 一种基于解耦阶梯网络的姿态估计方法 - Google Patents
一种基于解耦阶梯网络的姿态估计方法 Download PDFInfo
- Publication number
- CN112418070A CN112418070A CN202011307337.9A CN202011307337A CN112418070A CN 112418070 A CN112418070 A CN 112418070A CN 202011307337 A CN202011307337 A CN 202011307337A CN 112418070 A CN112418070 A CN 112418070A
- Authority
- CN
- China
- Prior art keywords
- decoupling
- residual
- module
- group
- waterfall
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 26
- 230000001629 suppression Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Geometry (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了人体姿态估计技术领域的一种基于解耦阶梯网络的姿态估计方法,包括如下步骤:步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络;步骤S20、获取大量的人体样本图像,利用所述人体样本图像对解耦阶梯网络进行训练;步骤S30、将待测图像输入训练好的所述解耦阶梯网络,计算所述待测图像中各关节点的位置,进而基于各关节点的位置形成完整的人体姿态。本发明的优点在于:极大的提升了人体姿态估计的速度以及精度。
Description
技术领域
本发明涉及人体姿态估计技术领域,特别指一种基于解耦阶梯网络的姿态估计方法。
背景技术
人体姿态估计是计算机视觉进一步理解人体行为的关键步骤,通过一张RGB图像能有效预测出人体所有关节点并形成正确的姿态,而准确预测出人体姿态对更高级别的计算机视觉任务,如人的行为识别、人机交互、行人重识别、异常行为检测等具有重要的意义。
尽管人体姿态估计领域发展迅速,但目前不论是自顶向下还是自底向上的方法,均存在网络结构复杂且参数量大的问题,使得在训练网络时不知道哪一部分较为关键,导致网络训练速度变慢。为了降低网络结构的复杂度,减少参数量,传统的做法只是简单的把一些卷积核进行替换,丢失了对关节点的感受野的考虑;且传统的姿态估计方法对于不同尺度大小的任务区分程度不够,使得一些较小尺度的任务被忽略,进而导致降低了人体姿态估计的精度。
在网络结构设计方面,Cai Y,Wang Z,Luo Z等人(arXiv preprint arXiv:2003.04030,2020.)在论文“Learning Delicate Local Representations for Multi-Person Pose Estimation”中提出了一种残差阶梯块,每一个残差阶梯块都包含四个分支,每个分支的感受野大小并不相同,且输入的特征图大小一致,通过多个卷积将不同分支的感受野进行融合,最后再进行concat操作,虽然提高了网络的感受野,但由于多个分支融合再进行concat操作,增加了网络参数量,从而导致网络训练速度与推理速度低下。
在基于RGB图像的姿态估计方法中,Sun K,Xiao B,Liu D等人(19th Proceedingsof the IEEE conference on computer vision and pattern recognition.2019:5693-5703.)在论文“Deep high-resolution representation learning for human poseestimation”中提出一种基于ResNet的网络来进行姿态估计,通过源码发现该论文设计的网络参数量较大,不利于训练,同时复杂的网络结构导致推理和训练速度较慢,对于计算资源较少的用户而言,极大的提高了用户的训练成本。
专利公开号为CN104850845A的中国专利公开了一种基于非对称卷积神经网络的交通标志识别方法,采用两个不同结构的卷积神经网络并行地进行特征映射和提取,最后将特征进行合并,再经过全连接层和最后的分类器,完成整个分类过程。该方法确保了图像特征的多样性,提高了识别精度并加快了网络运算速度,对于人体姿态估计领域而言,虽然提高了网络运算速度,但是降低了人体姿态估计的精确度。
因此,如何提供一种基于解耦阶梯网络的姿态估计方法,实现提升人体姿态估计的速度以及精度,成为一个亟待解决的问题。
发明内容
本发明要解决的技术问题,在于提供一种基于解耦阶梯网络的姿态估计方法,实现提升人体姿态估计的速度以及精度。
本发明是这样实现的:一种基于解耦阶梯网络的姿态估计方法,包括如下步骤:
步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络;
步骤S20、获取大量的人体样本图像,利用所述人体样本图像对解耦阶梯网络进行训练;
步骤S30、将待测图像输入训练好的所述解耦阶梯网络,计算所述待测图像中各关节点的位置,进而基于各关节点的位置形成完整的人体姿态。
进一步地,所述步骤S10中,所述解耦阶梯网络包括:
一大小为3×3的第一卷积核、一第一解耦残差组、一第二解耦残差组、一第三解耦残差组、一第四解耦残差组、一第一瀑布组、一第二瀑布组、一第三瀑布组以及一第四瀑布组;
所述第一解耦残差组包括横向并行排列并连接的二十个解耦残差模块,依次用A1,1、A1,2、……、A1,20表示;所述第二解耦残差组包括横向并行排列并连接的十六个解耦残差模块,依次用A2,1、A2,2、……、A2,16表示;所述第三解耦残差组包括横向并行排列并连接的十一个解耦残差模块,依次用A3,1、A3,2、……、A3,11表示;所述第四解耦残差组包括横向并行排列并连接的六个解耦残差模块,依次用A4,1、A4,2、……、A4,6表示;
所述第一瀑布组包括横向并行排列的十九个瀑布模块;所述第二瀑布组包括横向并行排列的十五个瀑布模块;所述第三瀑布组包括横向并行排列的十个瀑布模块;所述第四瀑布组包括横向并行排列的五个瀑布模块;
所述第一卷积核的输出端与第一解耦残差组的输入端连接,用于提取图像特征并改变图像的通道数;所述第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组依次至上而下排列,且靠右对齐;所述第一瀑布组设于第一解耦残差组的解耦残差模块之间;所述第二瀑布组设于第二解耦残差组的解耦残差模块之间;所述第三瀑布组设于第三解耦残差组的解耦残差模块之间;所述第四瀑布组设于第四解耦残差组的解耦残差模块之间;
各所述瀑布模块均与位于正前方和正后方的解耦残差模块连接,用于为解耦残差模块补偿感受野;
所述解耦残差模块A1,4、解耦残差模块A2,5、解耦残差模块A3,5分别进行一次2倍下采样操作,将特征图的分辨率降低至与所述解耦残差模块A2,1、解耦残差模块A3,1、解耦残差模块A4,1一致,并进行元素求和;
所述解耦残差模块A1,9进行一次2倍下采样操作后,与解耦残差模块A2,6进行元素求和;所述解耦残差模块A1,9进行一次4倍下采样操作后,与解耦残差模块A3,1进行元素求和;
所述解耦残差模块A2,5进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,10一致,并进行元素求和;
所述解耦残差模块A2,10进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,15一致,并进行元素求和;所述解耦残差模块A2,10进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A3,6一致,并进行元素求和;所述解耦残差模块A2,10进行一次4倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,1一致,并进行元素求和;
所述解耦残差模块A2,15进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20一致,并进行元素求和;所述解耦残差模块A2,15进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A3,11一致,并进行元素求和;所述解耦残差模块A2,15进行一次4倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,6一致,并进行元素求和;
所述解耦残差模块A3,5进行2次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,15一致,并进行元素求和;所述解耦残差模块A3,5进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A2,11一致,并进行元素求和;
所述解耦残差模块A3,10进行2次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20一致,并进行元素求和;所述解耦残差模块A3,10进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A2,16一致,并进行元素求和;所述解耦残差模块A3,10进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,6一致,并进行元素求和;
所述解耦残差模块A4,5进行3次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20、A2,16、A3,11一致,并分别进行元素求和。
进一步地,所述步骤S10中,所述解耦残差模块包括:
一大小为1×1的第二卷积核、一大小为3×1的第三卷积核、一大小为1×3的第四卷积核、一大小为1×1的第五卷积核;
所述第二卷积核、第三卷积核、第四卷积核以及第五卷积核依次连接;所述第二卷积核用于提取图像特征并改变图像的通道数为64;所述第五卷积核用于提取图像特征并改变图像的通道数为256;输入所述第二卷积核的特征图使用恒等映射到第五卷积核进行元素相加。
进一步地,所述步骤S10中,所述瀑布模块包括:
一大小为3×3的第六卷积核、一大小为3×3的第七卷积核、一大小为3×3的第八卷积核、一大小为3×3的第九卷积核;
所述第六卷积核将特征图F进行卷积操作生成特征图F1;所述第七卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第八卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第九卷积核将特征图F和特征图F3进行元素相加后进行卷积操作生成特征图F4。
进一步地,所述步骤S20具体包括:
步骤S21、获取大量的人体样本图像,将所述人体样本图像调整为大小为256×256的RGB图像后,输入搭建好的所述解耦阶梯网络;
步骤S22、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图;
步骤S23、利用非极大值抑制算法查找所述位置热图中,各关节点的最大像素值位置;
步骤S24、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S25、利用均方误差损失函数以及关节点位置计算得到各关节点的损失值:
其中M表示损失值,用来训练解耦阶梯网络;i表示人体的编号,j表示关节点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个关节点的预测值;为预测的关节点的热图,尺度为λ×64×64,λ表示关节点的个数;Gi(pj)表示第i个人,第j个关节点的真值;G={g1,...,gλ},为高斯激活生成的各人体部位对应的真值热图。
进一步地,所述步骤S30具体包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为256×256的RGB图像后,输入训练好的所述解耦阶梯网络中;
步骤S32、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态。
本发明的优点在于:
1、通过解耦残差模块和瀑布模块搭建解耦阶梯网络用于人体姿态估计,有效减少了深度卷积神经网络的参数量,提升了深度卷积神经网络的训练与推理速度,进而极大的提升了人体姿态估计的速度。
2、通过在解耦阶梯网络中的第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组间进行下采样和双线性插值操作,使得解耦阶梯网络能够高效的进行信息流动,有利于空间信息与语义信息的融合,极大的提升了人体姿态估计的精度。
3、通过在每两个解耦残差模块间加入瀑布模块,解决解耦阶梯网络因为解耦残差模块代理的感受野缺失导致精度下降的问题,进一步提升了人体姿态估计的精度。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于解耦阶梯网络的姿态估计方法的流程图。
图2是本发明解耦残差组的结构示意图。
图3是本发明解耦残差模块的结构示意图。
图4是本发明瀑布模块的结构示意图。
图5是本发明人体姿态估计的效果示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:
首先,基于解耦残差模块搭建解耦阶梯网络,使得深度卷积神经网络的参数量大大减少,且降低的精度在可接受范围内;其次,在解耦阶梯网络的每个解耦残差组之间进行信息的流动,使得解耦阶梯网络能够有效利用和融合空间信息与语义信息,使得姿态估计结果更准确;然后,在解耦阶梯网络的每两个解耦残差模块中加入瀑布模块,有效补足因为解耦残差模块导致的感受野缺失,使得人体各关节点精度更加平衡,大大提高姿态估计的精度,为行为识别、行人重识别、异常行为检测等提供一个姿态参考。
请参照图1至图5所示,本发明一种基于解耦阶梯网络的姿态估计方法的较佳实施例,包括如下步骤:
步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络;
步骤S20、获取大量的人体样本图像,利用所述人体样本图像对解耦阶梯网络进行训练;
即事先获取大量的人体样本图像,对各人体样本图像的关节点进行标注后,划分为训练集,验证集和测试集,将训练集输入解耦阶梯网络进行训练,再利用验证集对训练后的解耦阶梯网络进行验证,判断损失值是否达到预设的阈值;所述解耦阶梯网络属于深度卷积神经网络;
步骤S30、将待测图像输入训练好的所述解耦阶梯网络,计算所述待测图像中各关节点的位置,进而基于各关节点的位置形成完整的人体姿态。
所述步骤S10中,所述解耦阶梯网络包括:
一大小为3×3的第一卷积核、一第一解耦残差组、一第二解耦残差组、一第三解耦残差组、一第四解耦残差组、一第一瀑布组、一第二瀑布组、一第三瀑布组以及一第四瀑布组;
所述第一解耦残差组包括横向并行排列并连接的二十个解耦残差模块,依次用A1,1、A1,2、……、A1,20表示;所述第二解耦残差组包括横向并行排列并连接的十六个解耦残差模块,依次用A2,1、A2,2、……、A2,16表示;所述第三解耦残差组包括横向并行排列并连接的十一个解耦残差模块,依次用A3,1、A3,2、……、A3,11表示;所述第四解耦残差组包括横向并行排列并连接的六个解耦残差模块,依次用A4,1、A4,2、……、A4,6表示;
所述第一瀑布组包括横向并行排列的十九个瀑布模块;所述第二瀑布组包括横向并行排列的十五个瀑布模块;所述第三瀑布组包括横向并行排列的十个瀑布模块;所述第四瀑布组包括横向并行排列的五个瀑布模块;
所述第一卷积核的输出端与第一解耦残差组的输入端连接,用于提取图像特征并改变图像的通道数;所述第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组依次至上而下排列,且靠右对齐;所述第一瀑布组设于第一解耦残差组的解耦残差模块之间;所述第二瀑布组设于第二解耦残差组的解耦残差模块之间;所述第三瀑布组设于第三解耦残差组的解耦残差模块之间;所述第四瀑布组设于第四解耦残差组的解耦残差模块之间;
各所述瀑布模块均与位于正前方和正后方的解耦残差模块连接,用于为解耦残差模块补偿感受野;
所述解耦残差模块A1,4、解耦残差模块A2,5、解耦残差模块A3,5分别进行一次2倍下采样操作,将特征图的分辨率降低至与所述解耦残差模块A2,1、解耦残差模块A3,1、解耦残差模块A4,1一致,并进行元素求和;
所述解耦残差模块A1,9进行一次2倍下采样操作后,与解耦残差模块A2,6进行元素求和;所述解耦残差模块A1,9进行一次4倍下采样操作后,与解耦残差模块A3,1进行元素求和;
所述解耦残差模块A2,5进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,10一致,并进行元素求和;
所述解耦残差模块A2,10进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,15一致,并进行元素求和;所述解耦残差模块A2,10进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A3,6一致,并进行元素求和;所述解耦残差模块A2,10进行一次4倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,1一致,并进行元素求和;
所述解耦残差模块A2,15进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20一致,并进行元素求和;所述解耦残差模块A2,15进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A3,11一致,并进行元素求和;所述解耦残差模块A2,15进行一次4倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,6一致,并进行元素求和;
所述解耦残差模块A3,5进行2次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,15一致,并进行元素求和;所述解耦残差模块A3,5进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A2,11一致,并进行元素求和;
所述解耦残差模块A3,10进行2次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20一致,并进行元素求和;所述解耦残差模块A3,10进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A2,16一致,并进行元素求和;所述解耦残差模块A3,10进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,6一致,并进行元素求和;
所述解耦残差模块A4,5进行3次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20、A2,16、A3,11一致,并分别进行元素求和。
所述步骤S10中,所述解耦残差模块包括:
一大小为1×1的第二卷积核、一大小为3×1的第三卷积核、一大小为1×3的第四卷积核、一大小为1×1的第五卷积核;
所述第二卷积核、第三卷积核、第四卷积核以及第五卷积核依次连接;所述第二卷积核用于提取图像特征并改变图像的通道数为64;所述第五卷积核用于提取图像特征并改变图像的通道数为256;输入所述第二卷积核的特征图使用恒等映射到第五卷积核进行元素相加。
所述步骤S10中,所述瀑布模块包括:
一大小为3×3的第六卷积核、一大小为3×3的第七卷积核、一大小为3×3的第八卷积核、一大小为3×3的第九卷积核;
所述第六卷积核将特征图F进行卷积操作生成特征图F1;所述第七卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第八卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第九卷积核将特征图F和特征图F3进行元素相加后进行卷积操作生成特征图F4。即所述瀑布模块的输入是特征图F,输出是特征图F4。
所述步骤S20具体包括:
步骤S21、获取大量的人体样本图像(RGB图像),将所述人体样本图像调整为大小为256×256的RGB图像后,输入搭建好的所述解耦阶梯网络;
步骤S22、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图;即通过所述第一卷积核提取特征图F,同时改变RGB图像的通道数,再将特征图F输入所述解耦阶梯网络的主干网络得到位置热图;
步骤S23、利用非极大值抑制算法查找所述位置热图中,各关节点的最大像素值位置;
步骤S24、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S25、利用均方误差损失函数以及关节点位置计算得到各关节点的损失值:
其中M表示损失值,用来训练解耦阶梯网络;i表示人体的编号,j表示关节点的编号,且i和j均为正整数;Pi(pj)表示第i个人,第j个关节点的预测值;为预测的关节点的热图,尺度为λ×64×64,λ表示关节点的个数;Gi(pj)表示第i个人,第j个关节点的真值;G={g1,...,gλ},为高斯激活生成的各人体部位对应的真值热图。
所述步骤S30具体包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为256×256的RGB图像后,输入训练好的所述解耦阶梯网络中;
步骤S32、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态。
综上所述,本发明的优点在于:
1、通过解耦残差模块和瀑布模块搭建解耦阶梯网络用于人体姿态估计,有效减少了深度卷积神经网络的参数量,提升了深度卷积神经网络的训练与推理速度,进而极大的提升了人体姿态估计的速度。
2、通过在解耦阶梯网络中的第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组间进行下采样和双线性插值操作,使得解耦阶梯网络能够高效的进行信息流动,有利于空间信息与语义信息的融合,极大的提升了人体姿态估计的精度。
3、通过在每两个解耦残差模块间加入瀑布模块,解决解耦阶梯网络因为解耦残差模块代理的感受野缺失导致精度下降的问题,进一步提升了人体姿态估计的精度。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种基于解耦阶梯网络的姿态估计方法,其特征在于:包括如下步骤:
步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络;
步骤S20、获取大量的人体样本图像,利用所述人体样本图像对解耦阶梯网络进行训练;
步骤S30、将待测图像输入训练好的所述解耦阶梯网络,计算所述待测图像中各关节点的位置,进而基于各关节点的位置形成完整的人体姿态。
2.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法,其特征在于:所述步骤S10中,所述解耦阶梯网络包括:
一大小为3×3的第一卷积核、一第一解耦残差组、一第二解耦残差组、一第三解耦残差组、一第四解耦残差组、一第一瀑布组、一第二瀑布组、一第三瀑布组以及一第四瀑布组;
所述第一解耦残差组包括横向并行排列并连接的二十个解耦残差模块,依次用A1,1、A1,2、……、A1,20表示;所述第二解耦残差组包括横向并行排列并连接的十六个解耦残差模块,依次用A2,1、A2,2、……、A2,16表示;所述第三解耦残差组包括横向并行排列并连接的十一个解耦残差模块,依次用A3,1、A3,2、……、A3,11表示;所述第四解耦残差组包括横向并行排列并连接的六个解耦残差模块,依次用A4,1、A4,2、……、A4,6表示;
所述第一瀑布组包括横向并行排列的十九个瀑布模块;所述第二瀑布组包括横向并行排列的十五个瀑布模块;所述第三瀑布组包括横向并行排列的十个瀑布模块;所述第四瀑布组包括横向并行排列的五个瀑布模块;
所述第一卷积核的输出端与第一解耦残差组的输入端连接,用于提取图像特征并改变图像的通道数;所述第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组依次至上而下排列,且靠右对齐;所述第一瀑布组设于第一解耦残差组的解耦残差模块之间;所述第二瀑布组设于第二解耦残差组的解耦残差模块之间;所述第三瀑布组设于第三解耦残差组的解耦残差模块之间;所述第四瀑布组设于第四解耦残差组的解耦残差模块之间;
各所述瀑布模块均与位于正前方和正后方的解耦残差模块连接,用于为解耦残差模块补偿感受野;
所述解耦残差模块A1,4、解耦残差模块A2,5、解耦残差模块A3,5分别进行一次2倍下采样操作,将特征图的分辨率降低至与所述解耦残差模块A2,1、解耦残差模块A3,1、解耦残差模块A4,1一致,并进行元素求和;
所述解耦残差模块A1,9进行一次2倍下采样操作后,与解耦残差模块A2,6进行元素求和;所述解耦残差模块A1,9进行一次4倍下采样操作后,与解耦残差模块A3,1进行元素求和;
所述解耦残差模块A2,5进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,10一致,并进行元素求和;
所述解耦残差模块A2,10进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,15一致,并进行元素求和;所述解耦残差模块A2,10进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A3,6一致,并进行元素求和;所述解耦残差模块A2,10进行一次4倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,1一致,并进行元素求和;
所述解耦残差模块A2,15进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20一致,并进行元素求和;所述解耦残差模块A2,15进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A3,11一致,并进行元素求和;所述解耦残差模块A2,15进行一次4倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,6一致,并进行元素求和;
所述解耦残差模块A3,5进行2次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,15一致,并进行元素求和;所述解耦残差模块A3,5进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A2,11一致,并进行元素求和;
所述解耦残差模块A3,10进行2次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20一致,并进行元素求和;所述解耦残差模块A3,10进行1次双线性插值后,将特征图的分辨率提升至与解耦残差模块A2,16一致,并进行元素求和;所述解耦残差模块A3,10进行一次2倍下采样操作后,将特征图的分辨率降低至与解耦残差模块A4,6一致,并进行元素求和;
所述解耦残差模块A4,5进行3次双线性插值后,将特征图的分辨率提升至与解耦残差模块A1,20、A2,16、A3,11一致,并分别进行元素求和。
3.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法,其特征在于:所述步骤S10中,所述解耦残差模块包括:
一大小为1×1的第二卷积核、一大小为3×1的第三卷积核、一大小为1×3的第四卷积核、一大小为1×1的第五卷积核;
所述第二卷积核、第三卷积核、第四卷积核以及第五卷积核依次连接;所述第二卷积核用于提取图像特征并改变图像的通道数为64;所述第五卷积核用于提取图像特征并改变图像的通道数为256;输入所述第二卷积核的特征图使用恒等映射到第五卷积核进行元素相加。
4.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法,其特征在于:所述步骤S10中,所述瀑布模块包括:
一大小为3×3的第六卷积核、一大小为3×3的第七卷积核、一大小为3×3的第八卷积核、一大小为3×3的第九卷积核;
所述第六卷积核将特征图F进行卷积操作生成特征图F1;所述第七卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2;所述第八卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3;所述第九卷积核将特征图F和特征图F3进行元素相加后进行卷积操作生成特征图F4。
5.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法,其特征在于:所述步骤S20具体包括:
步骤S21、获取大量的人体样本图像,将所述人体样本图像调整为大小为256×256的RGB图像后,输入搭建好的所述解耦阶梯网络;
步骤S22、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图;
步骤S23、利用非极大值抑制算法查找所述位置热图中,各关节点的最大像素值位置;
步骤S24、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S25、利用均方误差损失函数以及关节点位置计算得到各关节点的损失值:
6.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法,其特征在于:所述步骤S30具体包括:
步骤S31、获取待测图像,将所述待测图像调整为大小为256×256的RGB图像后,输入训练好的所述解耦阶梯网络中;
步骤S32、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图;
步骤S33、利用非极大值抑制算法查找所述位置热图中,各关节点的最大像素值位置;
步骤S34、以所述最大像素值位置为关节点位置的中心点,膨胀所述中心点生成半径为R个像素的圆,得到预测的关节点位置;
步骤S35、基于预先标定各关节点的序号以及预测的关节点位置,依次连接各关节点形成完整的人体姿态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011307337.9A CN112418070B (zh) | 2020-11-20 | 2020-11-20 | 一种基于解耦阶梯网络的姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011307337.9A CN112418070B (zh) | 2020-11-20 | 2020-11-20 | 一种基于解耦阶梯网络的姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418070A true CN112418070A (zh) | 2021-02-26 |
CN112418070B CN112418070B (zh) | 2023-06-02 |
Family
ID=74773835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011307337.9A Active CN112418070B (zh) | 2020-11-20 | 2020-11-20 | 一种基于解耦阶梯网络的姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418070B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610015A (zh) * | 2021-08-11 | 2021-11-05 | 华侨大学 | 基于端到端快速阶梯网络的姿态估计方法、装置及介质 |
CN115329800A (zh) * | 2022-07-07 | 2022-11-11 | 南京大学 | 一种基于解耦训练的卷积神经网络活动识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN109871800A (zh) * | 2019-02-13 | 2019-06-11 | 北京健康有益科技有限公司 | 一种人体姿态估计方法、装置和存储介质 |
US20200342270A1 (en) * | 2019-04-26 | 2020-10-29 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
-
2020
- 2020-11-20 CN CN202011307337.9A patent/CN112418070B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN109871800A (zh) * | 2019-02-13 | 2019-06-11 | 北京健康有益科技有限公司 | 一种人体姿态估计方法、装置和存储介质 |
US20200342270A1 (en) * | 2019-04-26 | 2020-10-29 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
Non-Patent Citations (3)
Title |
---|
DEWI YULIANA 等: "Fingermath – Arithmetic Hand Gesture Game to Improve Early Childhood Mathematics Learning" * |
徐志通 等: "一种基于时空HOG与级联SVM的行人检测算法" * |
王耀南;陈铁健;贺振东;吴成中;: "智能制造装备视觉检测控制方法综述" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610015A (zh) * | 2021-08-11 | 2021-11-05 | 华侨大学 | 基于端到端快速阶梯网络的姿态估计方法、装置及介质 |
CN113610015B (zh) * | 2021-08-11 | 2023-05-30 | 华侨大学 | 基于端到端快速阶梯网络的姿态估计方法、装置及介质 |
CN115329800A (zh) * | 2022-07-07 | 2022-11-11 | 南京大学 | 一种基于解耦训练的卷积神经网络活动识别方法 |
CN115329800B (zh) * | 2022-07-07 | 2023-08-22 | 南京大学 | 一种基于解耦训练的卷积神经网络活动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112418070B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188685B (zh) | 一种基于双注意力多尺度级联网络的目标计数方法及系统 | |
CN110503598B (zh) | 基于条件循环一致性生成对抗网络的字体风格迁移方法 | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN107316015B (zh) | 一种基于深度时空特征的高精度面部表情识别方法 | |
CN109410261B (zh) | 基于金字塔池化模块的单目图像深度估计方法 | |
CN109086722B (zh) | 混合车牌识别方法、装置、电子设备 | |
CN108399419A (zh) | 基于二维递归网络的自然场景图像中中文文本识别方法 | |
CN111695457B (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
Zhang et al. | Object detection with location-aware deformable convolution and backward attention filtering | |
CN107274378B (zh) | 一种融合记忆cnn的图像模糊类型识别及参数整定方法 | |
CN113222011B (zh) | 一种基于原型校正的小样本遥感图像分类方法 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
Chen et al. | Adaptive convolution for object detection | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN112418070A (zh) | 一种基于解耦阶梯网络的姿态估计方法 | |
CN110246148A (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN110009700B (zh) | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 | |
CN114092815B (zh) | 一种大范围光伏发电设施遥感智能提取方法 | |
CN110929685A (zh) | 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构 | |
CN110866490A (zh) | 一种基于多任务学习的人脸检测方法及装置 | |
CN113221852A (zh) | 一种目标识别方法及装置 | |
CN112464743A (zh) | 一种基于多尺度特征加权的小样本目标检测方法 | |
CN116310305A (zh) | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |