CN115512393A - 一种基于改进HigherHRNet的人体姿态估计方法 - Google Patents

一种基于改进HigherHRNet的人体姿态估计方法 Download PDF

Info

Publication number
CN115512393A
CN115512393A CN202211278177.9A CN202211278177A CN115512393A CN 115512393 A CN115512393 A CN 115512393A CN 202211278177 A CN202211278177 A CN 202211278177A CN 115512393 A CN115512393 A CN 115512393A
Authority
CN
China
Prior art keywords
feature
channel
feature map
network
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211278177.9A
Other languages
English (en)
Inventor
赵骥
李明旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Liaoning USTL
Original Assignee
University of Science and Technology Liaoning USTL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Liaoning USTL filed Critical University of Science and Technology Liaoning USTL
Priority to CN202211278177.9A priority Critical patent/CN115512393A/zh
Publication of CN115512393A publication Critical patent/CN115512393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于改进HigherHRNet的人体姿态估计方法,将HigherHRNet做了相关的改进,更加精准的定位图像中小人体和拥挤环境下的人体。包括:步骤一、设计一种新的通道增强特征提取网络,旨在解决多尺度特征融合时通道信息丢失问题;步骤二、设计一种基于CBAM的改进轻量级注意力机制,将通道注意力机制应用到每次融合之后生成的新特征图上,以解决多尺度特征融合时产生的混叠效应;将该注意力机制应用到网络末端,优化将要去预测热图的最终特征图,让网络对于人体难被检测到的关键点更加敏感;步骤三、引入Dupsampling并设计优化的热图聚合策略,生成与输入图像分辨率一致的预测热图,能够恢复出低分辨率热图中丢失的小人体关键点,加强网络对小尺度人体感知能力。

Description

一种基于改进HigherHRNet的人体姿态估计方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于改进HigherHRNet的人体姿态估计方法。
背景技术
人体姿态估计涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域,有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展,人们开始尝试着使用计算机视觉方法去处理、分析和理解图像、视频中的内容,模拟人类视觉感官实现图像、视频的检测,如行为识别,它指的是通过相关算法对图像或视频中的人体行为进行识别。而人体姿态估计恰恰可以作为行为识别的前置算法,为它提供基础的人体关键点的信息。在现有的行为识别算法中,有许多都是依靠人体姿态估计算法来实现的,比如把人体关键点当成图模型中的节点,骨骼之间的连线当成图模型中的节点之间的联系,然后使用GCN来整合所有的关节点信息来做动作行为识别。人体姿态估计取得了突破性的进展,成果显著。
人体姿态估计的主要任务是对给定的图像或视频中人体关节点进行检测,输出人体肢体的相关信息,如各关节点位置以及对应类别信息、肢体部件的连接关系甚至是人体轮廓等,以此让机器或者计算机自动检测并判断对应场景中人员的位置信息和理解人体的行为信息。其中包括卷积神经网络(Convolutional Neural Network,CNN)、图卷积神经网络(Graph Convolutional Network,GCN)等深度网络来建立人体姿态估计的网络模型是目前研究的热门话题。
基于深度学习的人体姿态估计方法在性能上相比于传统人体姿态估计方法有很大提升,但仍存在一些问题:1.现有的人体姿态估计是一个比较复杂的过程,图像中常常存在检测对象大小差异、遮挡、形变及复杂背景等情况,使网络模型学习过中不能够充分提取到图像中的特征及会导致模型不易拟合,进而影响人体姿态估计的效果。2.HigherHRNet使用的网络结构为HRNet网络,并行的多分辨率子网络上相互交互信息来进行多尺度反复融合,需要使用1*1卷积层来减少高级特征图的通道数,这会使得通道信息丢失进而造成语义信息的缺失。并且在进行跨尺度融合时,因为跨尺度特征图存在语义差异,因此线性插值之后直接融合会产生混叠效应。会混淆定位和识别任务,如果特征信息丢失严重的话会导致网络的优化十分困难。3.HigherHRNet使用反卷积模块构建特征金字塔进行人姿态估计,对于小人体检测十分困难。
发明内容
为了解决背景技术提出的技术问题,本发明提供一种基于改进HigherHRNet的人体姿态估计方法,将HigherHRNet做了相关的改进,使得网络处理尺度变化更加鲁棒以及处理拥挤环境的能力更强,使得网络更加精准的定位人体关键点,尤其是图像中的小人体和拥挤环境下的人体而言。
为了达到上述目的,本发明采用以下技术方案实现:
一种基于改进HigherHRNet的人体姿态估计方法,包括如下的步骤:
步骤一、设计一种新的通道增强特征提取网络,该特征提取网络研究如何在不大幅增加计算量的同时,用少量计算负担即可解决多尺度特征融合时产生的通道信息丢失的问题;
步骤二、设计一种基于CBAM的改进轻量级注意力机制,将通道注意力机制应用到每次融合之后生成的新特征图上,来优化每次融合之后的特征图,以消除多尺度特征融合之后产生的混叠效应影响;将通道和空间混合注意力机制应用到网络末端,以优化将要去预测热图的最终特征图,让网络对于人体难被检测到的关键点更加敏感,并且可以缓解模型的错检问题;
步骤三、针对HigherHRNet对于小人体尺度感知能力不强的问题,引入一种代替转置卷积的上采样方法,来生成与输入图像分辨率一致的预测热图,同时设计一个优化的热图聚合策略,能够恢复出在低分辨率热图中丢失的小尺度人体的关键点,加强网络的尺度感知能力,使得网络对于小人体的检测性能提高。
进一步地,所述的步骤一中,所述新的通道增强特征提取网络的设计包括如下:
使用Sub_Pixel Conv来代替HigherHRNet中的1*1卷积降低通道数和最近邻插值的上采样方法,Sub_Pixel Conv又称Pixel Shuffle,能够将形状为H1×W1×C1·r2的特征图转换成形状为rH2×rW2×C2的特征图,其中H表示该特征图的高度,W表示该特征图的宽度,C代表通道,H1表示转换前该特征图的高度,W1表示转换前该特征图的宽度,C1代表转换前通道,H2表示转换后该特征图的高度,W2表示转换后该特征图的宽度,C2代表转换后通道,公式在数学上可以定义为:
PS(F)x,y,c=F[x/r],[y/r],C·r·mod(y,r)+C·mod(x,r)+c
其中r为放大因子,F是输入的特征,表示坐标为(x,y,c)上的输出特征像素,x表示输出特征图高度方向上的坐标,y表示输出特征图宽度方向上的坐标,c代表输出特征图通道方向的坐标。
多尺度亚像素跳跃连接融合利用低分辨率特征图Ci中丰富的通道信息,将其合并到Fi中,公式如下所示:
Figure BDA0003897343170000031
其中,
Figure BDA0003897343170000032
表示的应用于减少通道的1×1卷积,i为高分辨率子网的索引,
Figure BDA0003897343170000033
为通道变换,将亚像素卷积的缩放因子r为2,以此来进行多尺度特征融合。
基于sub_pixel conv提出多尺度亚像素跳跃连接融合方法,首先通过Sub_PixelConv生成高分辨率特征图,之后引入跳跃连接,将前一阶段的特征图与生成的新特征图再次进行融合,二者特征重复交叠混合,保证网络可以兼顾空间位置信息和特征抽象信息并且可以增强网络特征信息传播能力以及降低训练的难度。
进一步地,所述的步骤二中,所述基于CBAM的改进轻量级注意力机制的设计包括如下:
为了消除多尺度特征融合时特征图产生的混叠效应,在多尺度特征融合时,提出了一个轻量级的通道注意力机制CAEM,取消原始CBAM中通道注意力机制的共享多层感知机mlp,选择分别用两个全连接层并行进行最大池化操作和全局平均池化操作来代替mlp,因为两种操作得到的特征各有不同,出于计算量的考量用两个全连接层分别处理即可;
CAEM利用特征通道之间的关系生成通道注意力图,由于特征图的每个通道都可以被看做特征检测器,CAEM的实际本质就是想要通道注意力机制就是关注这张输入图像上哪些内容是有意义的,可以以此来减轻生成特征图的混叠效应。
进一步地,所述的基于CBAM的改进轻量级注意力机制具体包括如下步骤:
1)首先将输入的特征图,分别使用基于输入特征图的宽和高的全局平均池化和全局最大池化来聚合特征映射的空间信息,生成两个不同的空间上下文信息的描述符
Figure BDA0003897343170000034
Figure BDA0003897343170000035
分别表示平均池化特征和最大池化特征;
2)然后,将全连接层输出特征向量通过对应元素element-wise求和操作合并输出的向量,在使用Sigmod函数进行激活操作,将合并向量映射到(0-1)的区间,生成最终的通道注意力图;
3)最后拿权重系数和原来的特征F做对应元素element-wise相乘的操作即可得到缩放后的新特征,这个过程用数学公式表达为:
CA(F)=σ(FC1(AvgPool(F))+FC2(MaxPool(F)))
其中CA(F)为通道注意力函数,σ为Sigmod函数。
进一步地,所述的步骤三包括如下:
在高分辨率特征金字塔中引入Dupsampling模块替换转置卷积模块,DUpsampling是一种数据相关型上采样方法,可以简单高效的代替转置卷积,同时可以减少模型因为使用转置卷积带来的计算量和内存占用;DUpsampling在对特征图的单个像素所对应的N个通道重构成一个1×N的向量,与N×M的权重矩阵相乘得到1×M的向量,再重新排列成r×r×M/r2的放大后的亚像素块,r是缩放因子,重组成放大后的特征图;计算损失的时候需要将F上采样至Y相同尺寸,loss公式如下所示:
L(F,Y)=LOSS(softmax(Dupsampling)(F)),Y)
F∈RH×W×N为特征提取网络的输出,Y∈[0,1]H×W×N为groundtruth,DUpsample(F)在进行线性上采样时,将K卷积核应用到输入特征图F的每一个特征上;这个上采样过程和在空间维度上应用深度可分离卷积中的逐点卷积工作原理一样,卷积核参数在K中存储。
进一步地,所述的步骤三的优化的热图聚合策略包括如下:
将反卷积替换成DUpsampling,以此来生成更高分辨率的用于预测热图的特征图;共有三种分辨率的特征图,分别是特征提取网络最终输出的160×160的特征图,以及通过DUpsampling生成的分辨率为320×320,640×640的特征图;借用了深度可分离卷积的思想,首先对一个像素点的所有通道进行reshape然后在通过网络学习到的K卷积核进行重新排列,然后在通过缩放因子r进行分辨率的扩大;
因为已经通过DUpsampling生成具有三种尺度的高分辨率特征金字塔,在热图聚合时,不采用双线性插值这一上采样方法,选择Sub_PixelConv对160×160和320×320两种分辨率的预测热图上采样至640×640即可;对所有尺度的预测热图进行平均后,能够生成相比于HigherHRNet更准确的预测热图,同时网络对于尺度变化更加的鲁棒。
与现有技术相比,本发明的有益效果是:
1)本发明的网络模型在人体姿态估计中鲁棒性强:无论是图像中存在严重的人体尺度不一、遮挡和复杂背景等恶劣的条件都不会对检测结果产生太大的影响,减少了漏检和误检情况的出现。
2)本发明提出新的通道增强特征提取网络,该特征提取网络引入sub_pixel conv旨在解决多尺度特征融合时,低分辨率特征图丰富的通道信息受到损害这一问题,并提出一个轻量级通道注意力机制应用于此特征提取网络中,使得网络模型提取出的特征图没有产生混叠效应。在提高网络训练效率的同时,也能更好的表达目标的特征。
3)本发明提出通道和空间混合注意力机制,将其应用到网络的末尾,顺序使用通道注意力模块和空间注意力模块,使得每个分支可以分别学习通道和空间上要重点关注的通道信息和位置信息。通道和空间混合的注意力机制通过学习强调或者抑制这些信息来有效帮助网络中的信息流动。最终精细化最终预测热图可以使得网络更加关注图像中大人体一些难以被检测的关键点和小人体。
4)本发明在高分辨率特征金字塔中引入Dupsampling模块代替反卷积模块,生成更高分辨率的预测热图,可以使得图像中消失的小人体在高分辨率特征图中被还原出来。使得本发明提出的网络模型成为一个对于小人体检测更加鲁棒的人体姿态检测器。
附图说明
图1本发明网络模型的训练流程图;
图2本发明的总体结构图;
图3本发明中采用的sub_pixel conv工作原理图;
图4本发明中提出的通道注意力机制结构图;
图5本发明中提出的多尺度亚像素卷积跳跃融合方法结构图;
图6本发明中采用的Dupsampling工作原理图;
图7本发明中提出的高分辨率特征金字塔结构图。
具体实施方式
以下结合附图对本发明提供的具体实施方式进行详细说明。
本发明提出了一种改进HigherHRNet的人体姿态估计方法,即在图像人体姿态估计中引入空间和通道混合的注意力机制方法,以此来解决多尺度特征融合是生成特征图产生混叠效应。之后高分辨率特征金字塔设计Dupsampling模块替换反卷积模块,增强模型对于图像中的小人体的检测性能。最终实现图像中的人体姿态估计。
第一步,为了解决多尺度特征融合时,包含最丰富通道信息特征图的通道信息受到损害这一问题。在发明中,提出一种新的通道增强特征提取网络,该特征提取网络主要研究如何在不大幅增加计算量的同时,可以用少量计算负担就可以解决多尺度特征融合时产生的通道信息丢失的问题。
第二步,针对在多尺度特征融合时,通道信息丢失的特征图进行融合会产生混叠效应的影响,会混淆定位和识别任务,如果特征信息丢失严重的话会导致网络的优化十分困难。所以本发明提出一种基于CBAM的改进轻量级注意力机制,将通道注意力机制应用到每次融合之后生成的新特征图上,来优化每次融合之后的特征图,以消除多尺度特征融合之后产生的混叠效应影响。将通道和空间混合注意力机制应用到网络末端,以优化将要去预测热图的最终特征图,让网络对于人体更难被检测到的关键点更加敏感,并且可以在一定程度上缓解模型的错检问题。
第三步,针对HigherHRNet对于小人体尺度感知能力不强的问题。本发明中引入一种比转置卷积计算量少很多的上采样方法,来生成与输入图像分辨率一致的预测热图,同时提出了一个优化的热图聚合策略,可以更好地恢复出在低分辨率热图中丢失的小尺度人体的关键点。加强了网络的尺度感知能力,使得网络对于小人体的检测性能更好。
具体内容包括如下:
所述第一步中,本发明使用Sub_PixelConv来代替HigherHRNet中的1*1卷积降低通道数和最近邻插值的上采样方法,在将低分辨率特征图转换成高分辨率特征图时,如果使用最近邻插值和反卷积作为上采样手段,会带入过多的人工因素进来,而Sub_PixelConv会极大的降低这个风险。Sub_PixelConv又称PixelShuffle,可以将形状为H1×W1×C1·r2的特征图转换成形状为rH2×rW2×C2的特征图,公式在数学上可以定义为:
PS(F)x,y,c=F[x/r],[y/r],C·r·mod(y,r)+C·mod(x,r)+c
其中r为放大因子,F是输入的特征,表示坐标为(x,y,c)上的输出特征像素,x表示输出特征图高度方向上的坐标,y表示输出特征图宽度方向上的坐标,c代表输出特征图通道方向的坐标。
本发明引入了并不涉及运算的Sub_PixelConv来替代HigherHRNet中的最近邻插值的上采样方法,这种融合方式的改动并不会增加模型计算量,但是会使得模型精度有效提升。多尺度亚像素跳跃连接融合利用低分辨率特征图C43,C44中丰富的通道信息,将其合并到Fi中,公式如下所示:
Figure BDA0003897343170000071
其中,
Figure BDA0003897343170000072
表示的应用于减少通道的1×1卷积,i为高分辨率子网的索引,
Figure BDA0003897343170000073
为通道变换,将亚像素卷积的缩放因子r为2,以此来进行多尺度特征融合。
基于sub_pixel conv提出多尺度亚像素跳跃连接融合方法,首先通过Sub_PixelConv生成高分辨率特征图,之后引入跳跃连接,将前一阶段的特征图与生成的新特征图再次进行融合,这样会使得融合得到的高分辨率特征图其中的空间位置信息更加准确、生成的低分辨率特征图的语义信息完备且表征能力更强。二者特征重复交叠混合,可以保证网络可以兼顾空间位置信息和特征抽象信息并且可以增强网络特征信息传播能力以及降低训练的难度。
所述第二步中,为了消除多尺度特征融合时特征图产生的混叠效应。本发明在多尺度特征融合时,提出了一个轻量级的通道注意力机制(Channel Attention EnhancementModule),下文简称CAEM,本发明取消了原始CBAM中通道注意力机制的共享多层感知机(mlp),选择分别用两个全连接层并行进行最大池化操作和全局平均池化操作来代替mlp,因为两种操作得到的特征各有不同,出于计算量的考量用两个全连接层分别处理即可。CAEM利用特征通道之间的关系生成通道注意力图。由于特征图的每个通道都可以被看做特征检测器,CAEM的实际本质就是想要通道注意力机制就是关注这张输入图像上哪些内容是有意义的,所以可以以此来减轻生成特征图的混叠效应。
首先将输入的特征图,分别使用基于输入特征图的宽和高的全局平均池化和全局最大池化来聚合特征映射的空间信息,生成两个不同的空间上下文信息的描述符
Figure BDA0003897343170000074
Figure BDA0003897343170000075
分别表示平均池化特征和最大池化特征。最后,将全连接层输出特征向量通过对应元素(element-wise)求和操作合并输出的向量,在使用Sigmod函数进行激活操作,将合并向量映射到(0-1)的区间,生成最终的通道注意力图,最后拿权重系数和原来的特征F做对应元素(element-wise)相乘的操作即可得到缩放后的新特征,这个过程用数学公式表达为:
CA(F)=σ(FC1(AvgPool(F))+FC2(MaxPool(F)))
其中CA(F)为通道注意力函数,σ为Sigmod函数
所述第三步中,本发明在高分辨率特征金字塔中引入Dupsampling模块替换反卷积模块,DUpsampling是一种数据相关型上采样方法,可以简单高效的代替转置卷积,同时可以减少模型因为使用转置卷积带来的计算量和内存占用。DUpsampling在对特征图的单个像素所对应的N个通道重构成一个1×N的向量,与N×M的权重矩阵相乘得到1×M的向量,再重新排列成r×r×M/r2(r就是缩放因子)的放大后的亚像素块,重组成放大后的特征图。计算损失的时候需要将F上采样至Y相同尺寸,loss公式如下所示:
L(F,Y)=LOSS(softmax(Dupsampling)(F)),Y)
F∈RH×W×N为特征提取网络的输出,Y∈[0,1]H×W×N为ground truth,DUpsample(F)在进行线性上采样时,将K卷积核应用到输入特征图F的每一个特征上;这个上采样过程和在空间维度上应用深度可分离卷积中的逐点卷积工作原理一样,卷积核参数在K中存储。
本发明将反卷积替换成DUpsampling,以此来生成更高分辨率的用于预测热图的特征图。本发明一共有三种分辨率的特征图,分别是特征提取网络最终输出的160×160的特征图,以及通过DUpsampling生成的分辨率为320×320,640×640的特征图。借用了深度可分离卷积的思想,首先对一个像素点的所有通道进行reshape然后在通过网络学习到的K卷积核进行重新排列,然后在通过缩放因子r进行分辨率的扩大,这样相对比反卷积来说计算成本是十分低廉的,即使使用第二个DUpsampling模块,总体的参数量也不如一个反卷积模块的参数量。并且DUpsampling并没有填零的操作,并不会使得生成的新特征图产生棋盘效应。本发明因为已经通过DUpsampling生成具有三种尺度的高分辨率特征金字塔,在热图聚合时,不采用双线性插值这一上采样方法,选择Sub_Pixel Conv对160×160和320×320两种分辨率的预测热图上采样至640×640即可。对所有尺度的预测热图进行平均后,可以生成相比于HigherHRNet更好的预测热图,同时网络对于尺度变化更加的鲁棒。
本发明采用CBAM的空间注意力机制,CBAM更加关注人体关键点和人体及其关键点的位置信息,与通道注意力不同的是,空间注意力机制将更加关注图像中有意义内容的位置,与通道信息形成互补。所以,本发明将通道和空间混合的注意力机制应用于网络的最后,生成预测热图部分。可以让网络更加关注与大人体一些难以被检测的关键点和图像中的小人体,并且使得本网络模型在人体姿态估计中鲁棒性强,无论是图像中存在严重的大小差异、遮挡和多目标等恶劣的条件都不会对检测结果产生太大的影响,减少了漏检和误检情况的出现。
为了计算空间注意力,首先将通道注意力机制输出的特征图作为空间注意力模块的输入特征图,基于通道的全局平均池化和全局最大池化聚合特征图通道信息,生成两个2D图:
Figure BDA0003897343170000091
Figure BDA0003897343170000092
然后将这两个2D特征图进行concat操作,经过7×7卷积操作,降维成只有一个通道,将其输入到Sigmod函数生成最终的空间注意力特征图。最后将生成的该特征图和空间注意力机制模块的输入特征图F′做对应元素相乘操作得到最终生成的特征F″。空间注意力机制的计算方式如下:
SA(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
其中σ代表sigmoid函数,f7×7代表一个卷积运算,卷积核大小为7x7。
本发明将通道和空间混合的注意力机制应用到网络的末尾,顺序使用通道注意力模块和空间注意力模块,使得每个分支可以分别学习通道和空间上要重点关注的通道信息和位置信息。最终,通道和空间混合的注意力机制通过学习强调或者抑制这些信息来有效帮助网络中的信息流动。
给定一个中间特征图F∈RC×H×W作为输入,CBAM会顺序的推断出一个一维的通道注意力图MC∈RC×1×1和一个2D空间注意力特征图,MS∈R1×H×W,整个注意力模块的运作过程可以概括为:
Figure BDA0003897343170000093
Figure BDA0003897343170000094
其中
Figure BDA0003897343170000095
表示element-wise乘法。在对应元素相乘的过程中,注意力的值会被相应的复制:通道注意力值会沿着空间维度进行复制。F″是最终的改善好的精细化特征输出。
将通道和空间混合的注意力机制应用于最终预测热图可以使得网络更加关注图像中大人体一些难以被检测的关键点和小人体。最后,本发明平均所有尺度的预测热图,使得本发明成为一个具有尺度感知的姿态估计器。
具体实施例:
图1是本发明网络模型的训练流程图,一种基于改进HigherHRNet的人体姿态估计方法的具体实现步骤如下:
步骤1、在相关网站上下载HigherHRNet预训练模型文件:hrnet_w48-8ef0771d.pth放到media/lmy/Linux_data_1/li/HigherHRNet-Human-Pose-Estimation-master/models/pytorch文件夹下,将其作为网络的初始化参数模型。
步骤2、在//http:images.cocodataset.org上下载MSCOCO训练集以及测试集,以及下载与人体关键点对应的标注文件:person_keypoints_train2017.json、
person_keypoints_val2017.json放到media/lmy/Linux_data_1/li/HigherHRNet-Human-Pose-Estimation-master/data/coco文件夹下。
步骤3、为了使得模型更具有鲁棒性,具有更强的泛化能力。本发明对与对数据集进行数据增强处理,对输入分辨率大小为640×640的图片进行随机旋转([-30°,30°]),随机缩放([0.75,1.5]),随机平移([-40,40])以及随即翻转的操作。
步骤4、图1为本发明网络模型的训练流程图。本发明对模型训练的参数进行如下设置:初始的学习率设置为1e-3,为了防止模型过拟合,并且出于提高泛化能力的考量,在第210个和第260个epochs分别降低到1e-4和1e-5。本发明实验结果mAP是OKS取0.50,0.55,...0.90,0.95得到的所有的AP结果再取平均(OKS表示在Ground truth和预测目标之间的匹配程度,)。经过300个epoch训练之后,模型训练结束后进行测试实验。
步骤5、将最终生成的网络模型命名为model_best.pth.tar,放在指定的/media/lmy/Linux_data_1/li/HigherHRNet-Human-Pose-Estimation-master/output/coco_kpt/pose_higher_hrnet文件夹下,编写测试文件Test.py对模型的性能进行测试,选取效果最好的网络模型进行人体姿态估计实验。
步骤6、图2是本发明的总体结构图,包括多尺度亚像素跳跃连接的融合方法(其中包括sub_pixel conv、通道注意力机制、跳跃连接三个组件);高分辨率特征金字塔;通道和空间混合注意力机制。
步骤7、图3是本发明中采用的sub_pixel conv工作原理图,旨在解决多尺度特征融合中特征图通道信息丢失问题。工作方式以改进HigherHRNet网络的C3层为例,假设想将C3层的特征图与C1层的特征图进行特征融合,C1层的特征图的分辨率为160×160,通道数为48,C3的特征图的通道数为192,分辨率为40×40,通过将r设置为2,再将C3的每个像素的192个通道重新排列成一个2×2×48的区域,从而可以将大小为40×40×192的低分辨率特征图转换成160×160×48的高分辨率特征图。这个转换虽然被称为Sub_Pixel Conv但是在实际运算过程中并没有进行卷积操作。所以它的效率会很高,计算速度可以与最近邻插值媲美,并且并不会破坏特征图的通道信息,可以完美的解决多尺度特征融合时生成特征图语义信息丢失的问题。
步骤8、图4是本发明中提出的通道注意力机制结构图,旨在解决多尺度特征融合时生成的特征图产生混叠效应的问题。因为要作用到每一层的特征融合中,所以必须使用轻量级的注意力机制。将输入的特征图,分别使用基于输入特征图的宽和高的全局平均池化和全局最大池化来聚合特征映射的空间信息,生成两个不同的空间上下文信息的描述符:
Figure BDA0003897343170000111
Figure BDA0003897343170000112
分别表示平均池化特征和最大池化特征。平均池化是对特征图上每一个像素点都有反馈,最大池化就是在进行反向传播梯度计算时候,只对于特征图中响应最大的地方有梯度的反馈。然后将这两个特征分别被送到全连接层。最后,将全连接层输出特征向量通过对应元素求和操作合并输出的向量,在使用Sigmod函数进行激活操作,将合并向量映射到(0-1)的区间,生成最终的通道注意力图,最后拿权重系数和原来的特征图做对应元素相乘的操作即可得到缩放后的新特征图。
步骤9、图5是本发明中提出的多尺度亚像素卷积跳跃融合方法结构图。以第四阶段的第一个子网为例。C44为最低分辨率特征图且具有最丰富的通道信息和语义信息,不希望对C43,C44进行任何会破坏其特征的操作,这样会损害C43,C44丰富的通道信息和语义信息。所以,直接对C43,C44进行1×1conv增维和Sub_Pixel Conv,使得C43,C44的特征图的分辨率和通道数与C41保持一致。之后引入跳跃连接,将C31与生成的新特征图再次进行融合,这样会使得融合得到的高分辨率特征图其中的空间位置信息更加准确、生成的低分辨率特征图的语义信息完备且表征能力更强。二者特征反复交叠混合,可以保证网络可以兼顾空间位置信息和特征抽象信息并且可以增强网络特征信息传播能力以及降低训练的难度。
步骤10、图6是本发明中采用的Dupsampling工作原理图,以C1为例,DUpsampling在对特征图的单个像素所对应的48个通道重构成一个1×48的向量,与48×96的权重矩阵相乘得到1×48的向量,再重新排列成2×2×48/22(2就是缩放因子)的放大后的亚像素块,重组成放大后的特征图。
步骤11、图7是本发明中提出的高分辨率特征金字塔结构图。本发明一共有三种分辨率的特征图,分别是backbone最终输出的160×160的特征图,以及通过DUpsampling生成的分辨率为320×320,640×640的特征图。对于DUpsampling来说,借用了深度可分离卷积的思想,首先对一个像素点的所有通道进行reshape然后在通过网络学习到的K进行重新排列,然后在通过缩放因子r进行分辨率的扩大,这样相对比反卷积来说计算成本是十分低廉的,即使使用第二个DUpsampling模块,总体的参数量也不如一个反卷积模块的参数量。并且DUpsampling并没有填零的操作,并不会使得生成的新特征图产生棋盘效应。然后将通道和空间混合的注意力机制应用于网络的最后,生成预测热图部分。可以让网络更加关注与大人体一些难以被检测的关键点和图像中的小人体。从实验效果可以看到,使用热图聚合进行推理时,大人体的精度并没有出现下降的情况反而略有提升,小目标的精度也有一定的提高。并且在复杂背景、拥挤环境下的检测效果更好。
步骤12、在网络的训练阶段,网络通过Heatmap Loss用于训练热图,使得网络可以平衡难易样本和正负样本的训练,指导网络生成更加精准的预测热图。使用AE Loss用于网络检测关键点之后进行人体骨骼建模时,它是一种端到端的关联嵌入方法,可以直接让网络直接预测图像中的各个关节点属于谁。
步骤13、通过预测热图生成最终的人体骨骼建模,完成最终的人体姿态估计。
从上述技术方案可以看出,本发明根据现实生活中图像人体姿态估计中面临的问题,如:交互对象之间存在严重的大小差异、遮挡、拥挤环境以及复杂背景等问题,对基于HigherHRNet的人体姿态估计方法进行了改进。采用Sub_Pixel Conv代替最近邻插值,这样可以保证多尺度特征融合时,深层的特征图的通道信息没有丢失。与此同时提出一种基于CBAM改进的注意力机制来优化每次融合之后的特征图。这样仅用少量计算负担就可以解决多尺度特征融合带来的混叠效应的影响和使得模型对于小人物不容易被检测到的关键点的定位和识别更加的敏感。同时引入跳跃连接,将上一层的输出特征图再次与多尺度亚像素跳跃连接融合方法生成的特征图再次融合,使得网络对于人体空间位置信息的识别更加鲁棒。同时为了加强网络的尺度感知能力,本发明在特征金字塔部分通过使用Dupsampling替换转置卷积,并在网络的末端加入通道和空间混合注意力机制,使得网络对于尺度变化更加的鲁棒、对于复杂背景的处理能力更强,可以更加精准的定位人体关键点,尤其是图像中的小人物而言。
本发明通过在两个数据集:COCO keypoint detection dataset和CrowdPose上进行人体姿态估计实验,在COCO数据集上取得了71.9%AP,相比于HigherHRNet提升了1.2%AP,在CrowdPose数据集上了取得了66.6%AP,相比于HigherHRNet提升了1.0%AP。
以上实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

Claims (6)

1.一种基于改进HigherHRNet的人体姿态估计方法,其特征在于,包括如下的步骤:
步骤一、设计一种新的通道增强特征提取网络,该特征提取网络研究如何在不大幅增加计算量的同时,用少量计算负担即可解决多尺度特征融合时产生的通道信息丢失的问题;
步骤二、设计一种基于CBAM的改进轻量级注意力机制,将通道注意力机制应用到每次融合之后生成的新特征图上,来优化每次融合之后的特征图,以消除多尺度特征融合之后产生的混叠效应影响;将通道和空间混合注意力机制应用到网络末端,以优化将要去预测热图的最终特征图,让网络对于人体难被检测到的关键点更加敏感,并且可以缓解模型的错检问题;
步骤三、针对HigherHRNet对于小人体尺度感知能力不强的问题,引入一种代替转置卷积的上采样方法,来生成与输入图像分辨率一致的预测热图,同时设计一个优化的热图聚合策略,能够恢复出在低分辨率热图中丢失的小尺度人体的关键点,加强网络的尺度感知能力,使得网络对于小人体的检测性能提高。
2.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法,,其特征在于,所述的步骤一中,所述新的通道增强特征提取网络的设计包括如下:
使用Sub_Pixel Conv来代替HigherHRNet中的1*1卷积降低通道数和最近邻插值的上采样方法,Sub_Pixel Conv又称Pixel Shuffle,能够将形状为H1×W1×C1·r2的特征图转换成形状为rH2×rW2×C2的特征图,其中H表示该特征图的高度,W表示该特征图的宽度,C代表通道,H1表示转换前该特征图的高度,W1表示转换前该特征图的宽度,C1代表转换前通道,H2表示转换后该特征图的高度,W2表示转换后该特征图的宽度,C2代表转换后通道,公式在数学上可以定义为:
PS(F)x,y,c=F[x/r],[y/r],C·r·mod(y,r)+C·mod(x,r)+c
其中r为放大因子,F是输入的特征,表示坐标为(x,y,c)上的输出特征像素;x表示输出特征图高度方向上的坐标,y表示输出特征图宽度方向上的坐标,c代表输出特征图通道方向的坐标;
多尺度亚像素跳跃连接融合利用低分辨率特征图Ci中丰富的通道信息,将其合并到Fi中,公式如下所示:
Figure FDA0003897343160000021
其中,
Figure FDA0003897343160000022
表示的应用于减少通道的1×1卷积,i为高分辨率子网的索引,
Figure FDA0003897343160000023
为通道变换,将亚像素卷积的缩放因子r为2,以此来进行多尺度特征融合;
基于sub_pixel conv提出多尺度亚像素跳跃连接融合方法,首先通过Sub_Pixel Conv生成高分辨率特征图,之后引入跳跃连接,将前一阶段的特征图与生成的新特征图再次进行融合,二者特征重复交叠混合,保证网络可以兼顾空间位置信息和特征抽象信息并且可以增强网络特征信息传播能力以及降低训练的难度。
3.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法,,其特征在于,所述的步骤二中,所述基于CBAM的改进轻量级注意力机制的设计包括如下:
为了消除多尺度特征融合时特征图产生的混叠效应,在多尺度特征融合时,提出了一个轻量级的通道注意力机制CAEM,取消原始CBAM中通道注意力机制的共享多层感知机mlp,选择分别用两个全连接层并行进行最大池化操作和全局平均池化操作来代替mlp,因为两种操作得到的特征各有不同,出于计算量的考量用两个全连接层分别处理即可;
CAEM利用特征通道之间的关系生成通道注意力图,由于特征图的每个通道都可以被看做特征检测器,CAEM的实际本质就是想要通道注意力机制就是关注这张输入图像上哪些内容是有意义的,可以以此来减轻生成特征图的混叠效应。
4.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法,,其特征在于,所述的基于CBAM的改进轻量级注意力机制具体包括如下步骤:
1)首先将输入的特征图,分别使用基于输入特征图的宽和高的全局平均池化和全局最大池化来聚合特征映射的空间信息,生成两个不同的空间上下文信息的描述符
Figure FDA0003897343160000024
Figure FDA0003897343160000025
分别表示平均池化特征和最大池化特征;
2)然后,将全连接层输出特征向量通过对应元素element-wise求和操作合并输出的向量,在使用Sigmod函数进行激活操作,将合并向量映射到(0-1)的区间,生成最终的通道注意力图;
3)最后拿权重系数和原来的特征F做对应元素element-wise相乘的操作即可得到缩放后的新特征,这个过程用数学公式表达为:
CA(F)=σ(FC1(AvgPool(F))+FC2(MaxPool(F)))
其中CA(F)为通道注意力函数,σ为Sigmod函数。
5.根据权利要求1所述的一种基于计算机视觉和深度学习的材料图像分割识别方法,其特征在于,所述的步骤三包括如下:
在高分辨率特征金字塔中引入Dupsampling模块替换转置卷积模块,DUpsampling是一种数据相关型上采样方法,可以简单高效的代替转置卷积,同时可以减少模型因为使用转置卷积带来的计算量和内存占用;DUpsampling在对特征图的单个像素所对应的N个通道重构成一个1×N的向量,与N×M的权重矩阵相乘得到1×M的向量,再重新排列成r×r×M/r2的放大后的亚像素块,r是缩放因子,重组成放大后的特征图;计算损失的时候需要将F上采样至Y相同尺寸,loss公式如下所示:
L(F,Y)=LOSS(softmax(Dupsampling)(F)),Y)
F∈RH×W×N为特征提取网络的输出,Y∈[0,1]H×W×N为groundtruth,DUpsample(F)在进行线性上采样时,将K卷积核应用到输入特征图F的每一个特征上;这个上采样过程和在空间维度上应用深度可分离卷积中的逐点卷积工作原理一样,卷积核参数在K中存储。
6.根据权利要求1所述的一种基于计算机视觉和深度学习的材料图像分割识别方法,其特征在于,所述的步骤三的优化的热图聚合策略包括如下:
将反卷积替换成DUpsampling,以此来生成更高分辨率的用于预测热图的特征图;共有三种分辨率的特征图,分别是特征提取网络最终输出的160×160的特征图,以及通过DUpsampling生成的分辨率为320×320,640×640的特征图;借用了深度可分离卷积的思想,首先对一个像素点的所有通道进行reshape然后在通过网络学习到的卷积核K对特征图进行重新排列,然后在通过缩放因子r进行分辨率的扩大;
因为已经通过DUpsampling生成具有三种尺度的高分辨率特征金字塔,在热图聚合时,不采用双线性插值这一上采样方法,选择Sub_Pixel Conv对160×160和320×320两种分辨率的预测热图上采样至640×640即可;对所有尺度的预测热图进行平均后,能够生成相比于HigherHRNet更准确的预测热图,同时网络对于尺度变化更加的鲁棒。
CN202211278177.9A 2022-10-19 2022-10-19 一种基于改进HigherHRNet的人体姿态估计方法 Pending CN115512393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211278177.9A CN115512393A (zh) 2022-10-19 2022-10-19 一种基于改进HigherHRNet的人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211278177.9A CN115512393A (zh) 2022-10-19 2022-10-19 一种基于改进HigherHRNet的人体姿态估计方法

Publications (1)

Publication Number Publication Date
CN115512393A true CN115512393A (zh) 2022-12-23

Family

ID=84510748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211278177.9A Pending CN115512393A (zh) 2022-10-19 2022-10-19 一种基于改进HigherHRNet的人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN115512393A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385548A (zh) * 2023-06-05 2023-07-04 长春大学 一种基于融合注意力机制和vibe网络的姿态识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385548A (zh) * 2023-06-05 2023-07-04 长春大学 一种基于融合注意力机制和vibe网络的姿态识别方法

Similar Documents

Publication Publication Date Title
Wang et al. Mixed transformer u-net for medical image segmentation
Fan et al. Balanced two-stage residual networks for image super-resolution
Chen et al. The face image super-resolution algorithm based on combined representation learning
Wang et al. Ultra-dense GAN for satellite imagery super-resolution
Hayat Multimedia super-resolution via deep learning: A survey
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN111696038A (zh) 图像超分辨率方法、装置、设备及计算机可读存储介质
Shi et al. CloudU-Netv2: A cloud segmentation method for ground-based cloud images based on deep learning
CN113627487B (zh) 一种基于深层注意力机制的超分辨率重建方法
CN115512393A (zh) 一种基于改进HigherHRNet的人体姿态估计方法
Zheng et al. Double-branch dehazing network based on self-calibrated attentional convolution
CN115272670A (zh) 一种基于掩膜注意交互的sar图像舰船实例分割方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
Chen et al. A lightweight iterative error reconstruction network for infrared image super-resolution in smart grid
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
CN117575915A (zh) 一种图像超分辨率重建方法、终端设备及存储介质
Zeng et al. Real-time video super resolution network using recurrent multi-branch dilated convolutions
Wang et al. Image super-resolution method based on attention aggregation hierarchy feature
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
CN115797181A (zh) 一种面向矿井模糊环境的图像超分辨率重建方法
Liu et al. Deep memory and prediction neural network for video prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination