CN111626159A

CN111626159A - 一种基于注意力残差模块和支路融合的人体关键点检测方法

Info

Publication number: CN111626159A
Application number: CN202010410104.5A
Authority: CN
Inventors: 刘峰; 龙芳芳; 干宗良; 崔子冠; 赵峥来
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-04
Anticipated expiration: 2040-05-15
Also published as: CN111626159B

Abstract

本发明公开了一种基于注意力残差模块和支路融合的人体关键点检测方法。属于计算机视觉技术领域，包括如下步骤：用特征提取网络对输入图片进行特征处理，得到特征图；将特征图输入区域生成网络得到目标建议框；进行区域池化操作，得到感兴趣区域特征图；再将其输入卷积层中进行特征提取操作得到特征图一；利用支路一、支路二进行特征提取和融合；将两支路的结果叠加，先用反卷积进行分辨率复原再进行两倍的线性插值上采样；将关键点的位置建模为独热二进制掩码进行训练。本发明使得网络输出的信息多样性有所改善，更好地捕捉不同视野，不仅在简单场景下有效解决了检测关键点混乱的问题，其准确性和效率性得到提高，且能够良好的适应复杂场景。

Description

一种基于注意力残差模块和支路融合的人体关键点检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于注意力残差模块和支路融合的人体关键点检测方法。

背景技术

现有技术中，对人体姿态的检测一直被国内外学者广泛关注，也是计算机视觉领域中的一项重要课题，其核心内容是通过图像处理与分析、机器学习、模式识别等技术从图片中检测出人体目标，区分人体部位，进而对人的关节点进行检测；近年来国内外的相关研究依据获取人体描述姿态的原始数据方式的不同，将检测人体姿态的研究方式分为基于穿戴式传感器和基于计算机视觉领域的方法；前者多为接触式的姿态分析系统，有较高的对人体分析能力，但是采集人体运动参数的传感器需要附置在人体或者配件上，存在穿戴不便的问题，给人带来不自然的感觉；而且其成本高、操作难、不适合远程控制，难以得到普及；目前最好的人体检测算法虽然已经得到了很好的效果，但是依然存在一些错误，这些错误会导致检测任务精确度不高；而后者以图像中的光流、人体剪影、轮廓、骨架、关节点等来表示人体姿态，不需要求解人体模型参数，简化了人体姿态的求解；深度学习算法的提出，给人体姿态的检测提供了一种新的思路，一般通过图像的全局特征进行匹配分析，可以有效的避免局部特征方法在复杂姿态和遮挡关系情况下出现的特征匹配歧义性问题，可以保证算法具有较好的鲁棒性。

发明内容

针对上述问题，本发明提供了本发明的目的在于提供一种基于注意力残差模块和支路融合的人体关键点检测方法，解决了现有技术中存在的检测效果不佳、准确性较低的问题。

本发明的技术方案是：一种基于注意力残差模块和支路融合的人体关键点检测方法，其检测方法具体包括以下步骤：

步骤(1.1)，使用特征提取网络对输入图片进行特征处理，得到特征图；将特征图输入区域生成网络得到目标建议框后，结合特征图进行区域池化操作，得到感兴趣区域特征图；

步骤(1.2)，将得到的感兴趣区域特征图输入卷积层中进行特征提取操作，得到的结果记为特征图一；

步骤(1.3)，将特征图一分别输入至支路一、支路二中进行特征处理；

步骤(1.4)，将特征图一通过支路一和支路二中处理的结果叠加，结果记为特征图二，再对特征图二反卷积后进行上采样，最后通过独热二进制掩码得到关节点信息。

进一步地，所述步骤(1.3)中支路一对特征图一进行特征处理的具体步骤如下：

(1.3.1)，在支路一的输入处设计两个一样的注意力残差模块，配合数据旁路连通网路中的前后层，将两个注意力残差模块进行两两连接和像素级的叠加，使用级联方式，使得网络中每一层模块都接受来自前几层模块的特征映射；

(1.3.2)，再经过卷积层降维后输入至全连接层；最后，对其进行形状重塑得到与支路一尺寸一致的卷积层。

进一步地，步骤(1.3.1)中所述注意力残差模块是由空洞卷积的残差小模块配合注意力机制组成：

其中，所述的空洞卷积的残差小模块：是由降维卷积层、空洞卷积层及升维卷积层三个卷积层组成，通过上述三个卷积层的卷积运算得到卷积权重，设卷积权重为V；

其注意力机制具体步骤：将V通过一个卷积层进行卷积运算后，再依次进行全局加权池化、点乘卷积及S型生长曲线，网络即可得到空间注意力权重；最后，空间注意力权重与V加权，以实现通道注意力的输出，得到空间注意力加权特征。

进一步地，所述步骤(1.3)中支路二对特征图一进行特征处理的操作如下：

将设置在支路二内部的三个空间卷积率不同的空洞卷积层一、空洞卷积层二及空洞卷积层三作为一个组合，通过该组合获得不同的感受野，从而获取多尺度信息。

进一步地，将两个支路的输出参数叠加得到特征图二；对特征图二使用反积卷层进行分辨率复原，再由两倍的线性插值进行上采样，生成高分辨率输出，最后将人体的关节点位置建模为独热二进制掩码，从而得到关节点信息。

本发明的有益效果是：本发明属于计算机视觉技术领域人体姿态检测方法，是自上而下的检测方法，具体涉及注意力残差模块和数据旁路进行特征融合，持久性、可用性更强，准确度更高；(1)、本发明在第一个支路处的注意力残差模块是对各个通道特征进行权重的分配，在空间和通道方面自适应地突出显示特征图的信息；同时注意力残差模块之间创建了两两的跨层连接来连通网路中前后层，使得信号可以在输入层和输出层之间高速流通，这种设计方式改善了层间的信息流，丰富了信息，为后续检测的高准确性和高效率性奠定了基础；(2)、本发明在第二个支路处采用的配合空洞卷积的全卷积网络(FullyConvolutional Networks，记为FCN)支路，使得卷积前后的每组结果能进行相互交错，相互依赖，扩大了感受野，又解决了空洞卷积局部信息丢失问题(栅格问题)；能够捕获多尺度上下文信息，获得局部信息依赖。有效避免了感受野单一，获取的上下文信息不够多，“看的”不够“全”；由此导致的检测关节点混乱的问题；(3)、本发明对所述两支路进行了相加融合操作，获得更加多样化的信息，更好地捕捉每个目标区域的不同视野；通过结合这两种视野的预测结果，网络输出的信息多样性有所改善，不仅在简单场景下有效地解决了检测关节点混乱的问题，其准确性和效率性得到提高，而且能够良好的适应复杂场景。

附图说明

图1是本发明的结构示意图；

图2是本发明中注意力残差模块的结构示意图；

图3是本发明中空洞卷积存在的栅格问题示例结构示意图；

图4是本发明的人体关节点示意图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面将对本发明中进行进一步地叙述；显而易见地，下面描述中的仅仅是一部分的实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些将本发明所述的技术方案应用于其它类似情景；为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步地详细说明：

一种基于注意力残差模块和支路融合的人体关键点检测方法，包括使用特征提取网络对输入图片进行特征处理，得到特征图；将特征图输入区域生成网络得到目标建议框；结合特征图进行区域池化操作，得到感兴趣区域特征图；将得到的感兴趣区域特征图输入卷积层中进行特征提取操作得到特征图一；利用全新的神经网络进行更深的特征提取和融合；将两支路的结果叠加后，先用反卷积进行分辨率复原再进行两倍的线性插值上采样；将关节点的位置建模为独热二进制掩码进行训练。

如图1所示，其检测方法具体包括以下步骤：

进一步地，所述步骤(1.2)中，所述的卷积层是指三个一样的卷积层；

为了便于叙述，在此处进行卷积层相关参数的定义，记输入特征图长、宽、维度分别为W、H、C，尺寸形式记为R^W×H×C；卷积核(kernel)尺寸为k，尺寸形式记为k×k；步长(stride)为s；填充(padding)为p；则经过卷积操作后的输出特征图的宽度为：

长度同理；

故此处卷积层尺寸为3×3，步长和填充都为1，则由公式得经过该卷积层后得到的特征图一和感兴趣区域特征图尺度一致，为R^W×H×C。

进一步地，所述步骤(1.3)中，所述支路一对特征图一进行特征处理的具体步骤如下：

(1.3.1)，在支路一的输入处设计两个一样的注意力残差模块，配合数据旁路连通网路中的前后层，将两个注意力残差模块进行两两连接和像素级的叠加，使用级联方式，使得网络中每一层模块都接受来自前几层模块的特征映射；其中：

(1)、所述的空洞卷积的残差小模块：是由降维卷积层、空洞卷积层及升维卷积层三个卷积层组成，通过上述三个卷积层的卷积运算得到卷积权重，设卷积权重为V；

(2)、其注意力机制具体步骤：将V通过一个卷积层进行卷积运算后，再依次进行全局加权池化、点乘卷积及S型生长曲线，网络即可得到空间注意力权重；最后，空间注意力权重与V加权，以实现通道注意力的输出，得到空间注意力加权特征；

具体地，1)，空洞卷积的残差小模块：空洞卷积有一个空洞卷积率(DilationRate，记为d)参数可以设置，具体含义就是在卷积核中填充(d-1)个0或者是跳过像素数；因此，当设置不同的Dilation Rate时，感受野就会不一样，也即获取了多尺度信息；延续前文参数定义，则空洞卷积的卷积核大小为：

n＝k+(k-1)*(d-1) (2)

因此输出特征图的宽度为：

长度同理；

空洞卷积可以任意扩大感受野，且不需要引入额外参数，但如果把分辨率增加了，算法整体计算量也会增加，故不可盲目增加；并且所述空洞卷积存在栅格问题，即会丢失信息，远距离获取的信息没有相关性(小目标比较明显)；

至此，为了增加感受野的同时减少计算量，降维卷积层、空洞卷积层及升维卷积层三个卷积层参数分别设置为：输入维度为C，输出维度为C/4，k＝1，s＝1；输入维度为C/4，输出维度为C/4，k＝3，s＝1，p＝2，d＝2；输入维度为C，输出维度为C/4，k＝1，s＝1；

2)、所述注意力机制具体步骤：设注意力残差模块的输入为V∈R^H×W×C，学习的残差映射为V′∈R^H×W×C，降维的倍数为r；所述注意力残差模块的输出为

则有：

其中，*表示空间上下文中的按元素相乘；空间注意权重α∈R^H×W由以下方式产生；首先通过卷积运算得到卷积权重W₁∈R^H×W×C；然后对所得特征图进行全局加权池化操作(Global Depthwise Convolution，记为GDC)，设卷积中分组数量为G，输出特征图数量为N，则当满足式(5)和式(6)时，达到GDC的效果：

k＝H＝W (6)

即分组数量和输出特征图数量皆等于输入特征图数量，同时卷积核的尺寸与输入特征图的尺寸相同；则学习到的卷积权重为W₂∈R^1×1×C/r，即长度为C/r的向量，GDC给每个位置赋予了可学习的权重，同时在空间范围内对整个网路在结构上做正则化防止过拟合；再对上述输出进行点乘，卷积核的尺寸为1×1×C/r，这里的运算会将所述W₂在深度方向上进行加权组合，生成W₃∈R^1×1×C；最后通过S型生长曲线，即得到空间注意力权重β＝Sigmoid(W₃V)，其中W₃表示卷积权重，Sigmoid表示S型生长曲线；最后，β在注意力残差模块的输入V上重新加权，以实现通道注意力的输出，得到在空间范围内，在第i,j个元素处的空间注意力加权特征：

其中，β_i.j、V_i.j表示β和V在空间范围内，在第i,j个元素处的值，*表示第i,j个元素之间的逐元素相乘；

作为举例，这里可设置为W＝W＝14，C＝512，r＝4。

(1.3.2)，将上述结果再经过卷积层降维后输入至全连接层；为了与支路一的最终结果进行叠加，最后，对其进行形状重塑得到与支路一尺寸一致的卷积层；具体地：

1)、将所述步骤(1.3.1)得到的特征，经过降维卷进行降维；作为举例，这里参数设置为：输入维度为C，输出维度为C/2，k＝3，s＝1；

2)、将1)得到的特征送入全卷积(FC)，FC层有和FCN不同的属性，FCN根据局部感受野在每个像素处进行预测，并且在不同的空间位置共享参数；FC层是位置敏感的，是通过改变参数组来实现不同空间位置的预测；因此，它们具有适应不同空间位置的能力，也利用整个方案的全局信息在每个空间位置进行预测，区分并识别属于同一对象的独立关节点部分很有帮助；不仅高效，而且还允许在FC层中使用更多样本训练参数，避免过拟合等，从而提高通用性；作为具体实施方式，使用的特征图尺寸为14×14，因此FC层会产生196×1×1的向量；为了与支路二的输出进行结果加融，需要保持与支路二的尺度一致，故将得到的向量进行形状重塑，重塑后的尺度和第一支路输出的尺度一致。

进一步地，步骤(1.3)中所述特征图一通过对支路二的输入具体步骤如下：将设置在支路二内部的三个空间卷积率不同的空洞卷积层一、空洞卷积层二及空洞卷积层三作为一个组合，通过该组合获得不同的感受野，从而获取多尺度信息；具体参数计算情况如下：

记第j层的感受野大小为rf_j，则计算公式为：

rf_j＝(n-1)*j+1 (8)

其中rf₀＝1；如附图3，从左到右属于top-bottom关系(从左依次卷积到右)；三个卷积核均为k＝3，d＝2，根据公式(2)可得n为5，再根据公式(8)可得第三层(最右边)的中心像素的感受野为13；然而参与实际计算的只有75％；为防止此问题，所述设计将3个卷积层形成一个组，然后每个组使用连续增加的空洞率，其他组重复；目标是让最后的感受野全覆盖整个区域(没有任何空洞或丢失边缘)；此时需要满足：

M_i＝Max[M_i+1-2r_i,2r_i-M_i+1] (9)

其中，Max[a,b]是指求取a和b中的最大值，M_i是指在i层的最大空洞卷积率，M_i+1是指在(i+1)层的最大空洞卷积率，r_i是第i层的空洞卷积率，设计的目标是让M₂≤k；

假设取k的值为3，则有第二层，k＝3，可以得出，如果r＝[1,2,5]则由(9)得

M₂＝Max[M₃-2r₂,-M₃+2r₂),

r₂＝Max[1,-1,2]＝2<3

满足条件；至此，按照以上所述，可选取r＝[1,2,5]作为一组。

进一步地，将两个支路的输出参数叠加得到特征图二；对特征图二使用反积卷层进行分辨率复原，再由两倍的线性插值进行上采样，生成高分辨率输出，将人体的关节点位置建模为独热二进制掩码，从而得到关节点信息；

具体地，1)，两支路相加，进一步地特征融合，通过结合这两种视野的预测结果，网络输出的信息多样性有所改善，输出掩码质量有所提升，以获得更好的关节点预测；

2)，对以上1)所述的融合后的最终特征，先用反卷积进行分辨率复原为，以长、宽、维度标记的尺寸，记为W×H×K(作为举例，可取28×28×17)，再由两倍的线性插值进行上采样，生成2W×2H×K(作为举例，可取56×56×17)的高分辨率输出；

3)，将关节点的位置建模为独热二进制掩码，并用以上5所述的2W×2H×K的高分辨率输出，对于实例的K个关节点中的每个关节点，都做独热M×M(作为举例，可取56×56)二进制掩码，二进制掩码中只有一个像素标记为前景，训练完成，即得所求K个关节点；

另外，在训练期间，对于每个带有标注的真实关节点，将M^2的softmax输出上的交叉熵损失最小化(这有助于检测到单个点)；K个关节点仍然被独立对待，对应一个关节点类型(例如有眼，左肩)。

经过上述步骤，最终可以明确标定需要检测是K(作为举例，可取17)个关节点，不仅在简单场景下有效地解决了检测关节点混乱的问题，其准确性和效率性得到提高，而且能够良好的适应复杂场景。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.一种基于注意力残差模块和支路融合的人体关键点检测方法，其特征在于，其检测方法具体包括以下步骤：

2.根据权利要求1所述的一种基于注意力残差模块和支路融合的人体关键点检测方法，其特征在于，步骤(1.3)中所述支路一对特征图一进行特征处理的具体步骤如下：

(1.3.2)，经过卷积层降维后输入至全连接层；最后，对其进行形状重塑得到与支路一尺寸一致的卷积层。

3.根据权利要求2所述的一种基于注意力残差模块和支路融合的人体关键点检测方法，其特征在于，步骤(1.3.1)中所述注意力残差模块是由空洞卷积的残差小模块配合注意力机制组成：

4.根据权利要求1所述的一种基于注意力残差模块和支路融合的人体关键点检测方法，其特征在于，所述步骤(1.3)中支路二对特征图一进行特征处理的操作如下：

5.根据权利要求1-4所述的一种基于注意力残差模块和支路融合的人体关键点检测方法，其特征在于，将两个支路的输出参数叠加得到特征图二；对特征图二使用反积卷层进行分辨率复原，再由两倍的线性插值进行上采样，生成高分辨率输出，最后将人体的关节点位置建模为独热二进制掩码，从而得到关节点信息。