CN114882585A

CN114882585A - 基于双流网络的人体姿态估计方法

Info

Publication number: CN114882585A
Application number: CN202210396540.0A
Authority: CN
Inventors: 张开生; 李昊晨
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-09

Abstract

本发明公开了基于双流网络的人体姿态估计方法，步骤1：加载数据集，强化训练数据集。步骤2：使用YOLO v3对输入图像进行人体检测，获得人体检测框，剪裁人体检测框得到固定的纵横比。步骤3：对剪裁后的人体图像采用MSR算法进行处理。步骤4：将获得的人体图像与MSR人体图像分别输入姿势细化网络与姿势校正网络进行特征提取。步骤5：将双流网络输出的两组特征图通过自适应特征融合进行融合。步骤6：对融合后的特征图进行通道压缩，生成人体热图，并回归关键点坐标。步骤7：通过opencv连接相对应的关键点。本发明拥有更好的准确度与泛化性，在不同的外部环境下能够保持较好的泛化性。

Description

基于双流网络的人体姿态估计方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于双流网络的人体姿态估计方法。

背景技术

人体姿态估计在机器视觉中具有重要的地位，其目的是从给定的图像或视频中确定一个人的身体关键点位置，是人体识别、行为识别、意图判断的基础，对于一些关于人类行为信息的计算机视觉应用来说是必不可少的，如动画、游戏、健康和运动等等。人体姿势估计的主要过程分为两个基本步骤：第一步定位人体关键点，例如：头部、肩部、手臂、手部、膝盖、脚踝；第二步将这些关节分组为有效的人类姿势配置，该配置决定了身体部位之间的成对项。然而由于背景场地的变化、光线亮度、拍摄角度、服装颜色以及人体遮挡诸多因素，彩色图像人体姿态估计一直是计算机视觉中难点，许多算法网络在不同环境下对人体关键点检测，其预测精度会出现不同程度的下降。

发明内容

本发明的目的是提供一种基于双流网络的人体姿态估计方法，解决了目前人体关键点检测在不同环境下泛化性弱的问题。

本发明所采用的技术方案是，

基于双流网络的人体姿态估计方法，具体包括以下步骤：

步骤1：加载MPII数据集或MS COCO2017数据集，对训练数据采用数据增强的方法强化训练，生成输入图像；

步骤2：使用YOLO v3对输入图像进行人体检测，获得人体检测框，并将人体检测框的高度或宽度剪裁到固定的纵横比，得到剪裁后的RGB人体图像；

步骤3：对剪裁后的RGB人体图像采用MSR算法进行处理并生成MSR图像，MSR算法从RGB图像中去除了低频成分，并保留部分高频成分，消除光照影响；

步骤4：将剪裁后的人体RGB图像与MSR图像输入双流网络进行特征提取，双流网络由姿势细化网络与姿势校正网络组成，RGB图像输入姿势细化网络，MSR图像输入姿势校正网络，生成两组特征图；

步骤5：将双流网络输出的两组特征图通过自适应特征融合算法进行进一步融合，得到特征融合后的特征图；

步骤6：对特征融合后的特征图通过conv1×1卷积层进行通道压缩，生成人体热图，并回归关键点坐标，得到人体关键点；

步骤7：通过opencv连接相对应的人体关键点。

步骤1中，数据增强包括裁剪、翻转、旋转和缩放；其中，旋转范围为-45°～+45°，缩放范围为0.7～1.35。

步骤3中，SSR为如下公式(1)：

r(x,y)＝log[S(x,y)]-log[S(x,y)*F(x,y)] (1)；

其中S(x，y)为原图像，r(x，y)为图像反射信息，*表示卷积运算，F(x，y)为环绕函数，取高斯环绕函数，如下公式(2)：

MSR在SSR的基础上，对多个SSR的输出同大、中、小尺度参数在一定权重下相叠加，得到如下公式(3)：

其中k＝3，ω_i为权重参数。

步骤4中，双流网络由姿势细化网络与姿势校正网络的支路网络组成，两个支路网络具有不同的结构：姿势细化网络由四个网络深度相同的残差阶梯网络串联组成；姿势校正网络采用四个网络深度由浅到深的残差阶梯网络串联组成，从多个尺度中提取特征。

步骤5中，自适应特征融合首先整合来自所有分支的信息，将两组特征图通过元素求和，融合多个分支的结果，如下公式(4)：

F'＝F_MSR+F_RGB (4)；

其中，F_MSR是MSR图像通过校正网络生成的特征图，F_RGB是RGB图像通过细化网络生成的特征图；将融合结果F’通过全局平均池化来嵌入全局信息，生成c个元素所组成的一维向量S，c是F’的通道数；之后将S通过全连接层降低通道数得到向量Z，通过降低通道数来提高效率，Z有d个元素组成，d为全连接产生的新的通道数，如下公式(5)：

d＝max{L,c/r} (5)；

其中，L表示d的最小值，r表示压缩比例，此处设置L＝32，r＝8；本算法采用跨通道的注意力机制，自适应地选择不同空间尺度的信息；将向量Z再通过全连接层恢复原通道数c得到A与B通道权重向量，生成结果通过Softmax在A、B权重向量间进行归一化处理，得到a、b如下公式(6)和(7)：

其中，i∈(1，2，…，c)，最终的特征图F是通过各组特征图上的注意力权重获得如下公式(8)和公式(9)：

F_i＝a_iF_MSRi+b_iF_RGBi (8)；

a_i+b_i＝1 (9)。

本发明的有益效果是，本发明基于双流网络的人体姿态估计方法，将MSR算法应用在人体姿态估计网络中，易分离光照信息与反射信息，最能直接表现对象的本质特征，使得网络在不同光照下提取出来的特征图稳定，弱化光照与背景对人体关键点预测的影响，增强网络对人体特征点预测的泛化性；

本发明采用一种双流网络模型，提出了姿势细化网络与姿势校正网络两个分支：姿势细化网络采用四个深度相同的深度残差阶梯网络，这种网络模型设计具有深度网络架构，可对关键点位置进行深度细化；姿势校正网络由四个深度逐渐加深的残差阶梯网络构成，多尺度的网络结构具有比姿势细化网络更广泛更准确的关键点定位，用于提取MSR空间图像特征，在特征融合时校正有关姿势细化网络可能预测错误的姿势信息；

本发明提出了一种基于注意力机制的自适应特征融合网络，更好的对姿势矫正网络与姿势细化网络生成的特征图进行融合，有效利用两组特征图的互补性，提高网络对人体关键点预测精度。

附图说明

图1是本发明基于双流网络的人体姿态估计方法的系统框架示意图；

图2是本发明基于双流网络的人体姿态估计方法的流程图；

图3是本发明基于双流网络的人体姿态估计方法中自适应特征融合网络的结构示意图；

图4是本发明基于双流网络的人体姿态估计方法中双流卷积网络的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明基于双流网络的人体姿态估计方法进行详细说明。

本发明提供一种基于双流网络的人体姿态估计方法，采用一种双流网络框架，网络由两个分支组成，一个分支用于姿势细化，用于在RGB空间对人体关键点定位，另一个分支用于姿势校正，在MSR空间对图像关键点特征提取，在特征融合时期校正细化网络关键点信息，这两个分支采用不同的架构进行设计，旨在对输入图像的MSR空间和RGB空间进行有效的特征提取，为了更好保留两个空间的互补信息，通过自适应特征融合达到更精确的关键点定位。相较于传统单流人体姿态估计网络，拥有更好的准确度与泛化性，在不同的外部环境下能够保持较好的泛化性。

如图1所述，是本发明的系统框图，由YOLO人体检测、MSR算法图像处理、姿势细化网络、姿势校正网络、自适应特征融合五部分组成人体姿态估计网络，基于该系统的实现方法，其流程图如图2所示，具体包括如下步骤：

步骤1，加载MPII数据集或MS COCO2017数据集，每张图像都经过一系列的数据增强操作，包括裁剪、翻转、旋转和缩放。旋转范围为-45°～+45°。缩放范围为0.7～1.35。

MPII数据集包括大约25k图像，其中包含与身体关节注释相关的超过40k人，具有挑战性身体姿势的各种人类活动，重叠和遮挡等等。除了MPII数据集提供的16个身体关节注释外，它还提供了定义每个图像样本中人的粗略位置的比例和中心。数据集分为三部分：22K用于训练，3K用于验证，7K用于测试。

MS COCO2017数据集是微软公司开发和维护的免费大型图像，可用于目标检测，实例分割，人体关键点检测，全景分割等等，包括超过20万张图像，25万个标有17个人体关键点的人物实例，80种类别。数据集分为三部分：训练数据集57K，验证数据集5K和测试开发集20K三部分。

步骤2，使用YOLO v3对步骤1加载的图像进行人体检测，获得人体检测框，并将人体检测框的高度或宽度剪裁到固定的纵横比，高度：宽度＝4：3，然后采用OpenCV从图像中裁剪框，将其调整为固定大小，256×192或384×288。YOLO是“You only look once”的首字母缩写词，是一种将图像划分为网格系统的对象检测算法，由于其速度和准确性，YOLO是最著名的目标检测算法之一。

步骤3，采用MSR算法，将步骤2得到的RGB空间人体图像转化到MSR空间。传统RGB空间图像包含丰富的人体纹理细节信息，有利于对人体姿态估计，但RGB空间采集到的图像对光照非常敏感，三色道之间具有很强的关联性，难以分离光照信息与反射信息，如阴暗的环境或人体服饰颜色与背景颜色相近等等，容易对关键点预测产生较大的偏差，因此RGB空间下学习到的特征往往受光照影响较大。相反，MSR空间图像对光照不敏感，在不同光照下提取出来的特征图稳定，最能直接表现对象的本质特征，容易分离光照信息与反射信息，但MSR空间图像损失了很多有利于人体姿态估计的纹理信息。MSR算法从RGB图像中去除了低频成分(光照信息)，并保留部分高频成分(纹理细节)，消除光照影响。

该理论将源图像S(x,y)分为反射图像R(x,y)与亮度图像L(x,y)：

S(x，y)＝R(x，y)·L(x，y)；

其中x与y指的是图像上像素点的坐标。L(x,y)由光源确定，倾向于低频分量，而R(x,y)由捕获对象的表面特性确定，侧重于高频分量。亮度图像对人体关键点回归任务无明显帮助，而反射图像对光照不敏感，常用于稳定光照的分类。便于计算，等式两边取对数：

log[S(x,y)]＝log[R(x,y)]+log[L(x,y)]；

方便表示，用s(x,y)、r(x,y)、l(x,y)分别表示log[S(x,y)]、log[R(x,y)]、log[L(x,y)]：；

s(x,y)＝r(x,y)+l(x,y)；

由于需要提取出反射图像R(x,y)，可通过计算l(x,y)得出r(x,y)，得到单尺度Retinex(Single Scale Retinex,SSR)：

r(x,y)＝s(x,y)-log[S(x,y)*F(x,y)] (1)；

其中F(x,y)为环绕函数，*表示卷积运算。SSR是一种中心环绕函数，其中输出由输入(中心)值与其邻域(环绕)的平均值之间的差值确定。此处环绕函数采用高斯滤波器：

其中σ为高斯环绕函数的尺度参数，控制保留空间细节量，K为归一化参数，其值需满足：

∫∫G(x,y)dxdy＝1；

然而SSR高斯环绕函数σ极大的影响算法性能，不同光照强度下采用同一σ可能会造成反射图像提取效果差。MSR在SSR的基础上，将SSR扩展为一种更平衡的方法，对多个SSR的输出同大、中、小尺度参数在一定权重下相叠加：

MSR在良好的局部动态范围和良好的颜色修复之间提供了稳定的平衡，为保证MSR兼有大中小三种尺度参数SSR的特点，本发明在此处k＝3，并且ω₁＝ω₂＝ω₃＝1/3，σ₁＝15，σ₂＝80，σ₃＝250。

步骤4，将步骤2得到的剪裁后的RGB空间人体图像(256*192*3)与步骤3得到的MSR空间人体图像(256*192*2)输入双流网络进行特征提取，RGB图像输入姿势细化网络，MSR图像输入姿势校正网络，生成两组特征图，特征图大小均为(64*48*64)。本发明的双流网络由两个支路网络组成，分别是姿势细化网络与姿势校正网络，两个网络结构有不同的结构：姿势细化网络由四个网络深度均为4的残差阶梯网络串联组成，这种网络模型设计具有深度网络架构，可对关键点位置进行深度细化；姿势校正网络采用四个网络深度从1递增到4的残差阶梯网络串联组成，从多个尺度中提取特征，具有比姿势细化网络更广泛更准确的关键点定位。

残差阶梯网络是旷世公司于2019年发布，并获得当年COCO Keypoint Challenge冠军，该网络由两阶段组成，第一阶段多次缩小特征图尺寸，并扩展通道数；第二阶段固定特征图的通道数，对输入特征图进行双线性插值进行上采样，扩展特征图尺寸，与第一阶段特征图具有相同尺寸的特征图采用逐元素求和进行跨层连接。进行n次跨层链接表示网络深度为n，根据相关研究，残差阶梯网络深度为4时网络性能最好，该网络能够有效地聚合具有相同空间大小的特征，保留丰富的低级空间信息，并引导精确的关键点定位。

步骤5：将步骤4中姿势细化网络与姿势校正网络生成的两组特征图进行自适应特征融合。本发明提出一种基于注意力机制的自适应特征融合算法，能更好的融合两组特征图，自适应特征融合网络结构图如图3。

自适应特征融合首先整合来自所有分支的信息，将两组特征图通过元素求和，融合多个分支的结果：

F'＝F_MSR+F_RGB (4)；

其中FMSR是MSR图像通过校正网络生成的特征图，FRGB是RGB图像通过细化网络生成的特征图。将融合结果F’通过全局平均池化来嵌入全局信息，生成c个元素所组成的一维向量S，c是F’的通道数。之后将S通过全连接层降低通道数得到向量Z，通过降低通道数来提高效率，Z有d个元素组成，d为全连接产生的新的通道数：

d＝max{L,c/r} (5)；

其中L表示d的最小值，r表示压缩比例，此处设置L＝32，r＝8。本算法采用跨通道的注意力机制，自适应地选择不同空间尺度的信息。将向量Z再通过全连接层恢复原通道数c得到A与B通道权重向量，生成结果通过Softmax在A、B权重向量间进行归一化处理，得到a、b：

其中i∈(1，2，…，c)。最终的特征图F是通过各组特征图上的注意力权重获得：

F_i＝a_iF_MSRi+b_iF_RGBi (8)；

a_i+b_i＝1 (9)；

图3中F＝[F1,F2,…,Fi,…,Fc]。

步骤6：对步骤5生成的特征图进行通道压缩，每个通道对应一个人体关节，MPII设置为16个通道，特征图大小为(64*48*16)，MS COCO设置17个通道，特征图大小为(64*48*17)，将特征图转换为热图，回归人体关键点。热图是一种概率图，此处描述人体关键点在图中位置概率，图中概率最大的点作为人体关键点坐标。

步骤7：步骤6得到的人体关键点坐标通过OpenCV连接相对应关节。

本发明基于双流网络的人体姿态估计方法，采用基于双流网络对两个空间图像进行特征提取方法，提出姿势细化、姿势校正两个分支，为权衡从MSR、RGB两个空间所提取到的特征信息，通过自适应特征融合方法达到更精确的关键点定位；能够在不同的外部环境下能够保持较高的预测精度与较好的泛化性，具有较好的实用意义。

Claims

1.基于双流网络的人体姿态估计方法，其特征在于，具体包括以下步骤：

步骤7：通过opencv连接相对应的人体关键点。

2.根据权利要求1所述的基于双流网络的人体姿态估计方法，其特征在于，所述步骤1中，数据增强包括裁剪、翻转、旋转和缩放；其中，旋转范围为-45°～+45°，缩放范围为0.7～1.35。

3.根据权利要求1所述的基于双流网络的人体姿态估计方法，其特征在于，所述步骤3中，SSR为如下公式(1)：

r(x,y)＝log[S(x,y)]-log[S(x,y)*F(x,y)] (1)；

其中S(x，y)为原图像，r(x，y)为图像反射信息，F(x，y)为环绕函数，取高斯环绕函数，如下公式(2)：

其中k＝3，ωi为权重参数。

4.根据权利要求1所述的基于双流网络的人体姿态估计方法，其特征在于，所述步骤4中，双流网络由姿势细化网络与姿势校正网络的支路网络组成，两个支路网络具有不同的结构：姿势细化网络由四个网络深度相同的残差阶梯网络串联组成；姿势校正网络采用四个网络深度由浅到深的残差阶梯网络串联组成，从多个尺度中提取特征。

5.根据权利要求1所述的基于双流网络的人体姿态估计方法，其特征在于，所述步骤5中，自适应特征融合首先整合来自所有分支的信息，将两组特征图通过元素求和，融合多个分支的结果，如下公式(4)：

F'＝F_MSR+F_RGB (4)；

其中，FMSR是MSR图像通过校正网络生成的特征图，FRGB是RGB图像通过细化网络生成的特征图；将融合结果F’通过全局平均池化来嵌入全局信息，生成c个元素所组成的一维向量S，c是F’的通道数；之后将S通过全连接层降低通道数得到向量Z，通过降低通道数来提高效率，Z有d个元素组成，d为全连接产生的新的通道数，如下公式(5)：

d＝max{L,c/r} (5)；

F_i＝a_iF_MSRi+b_iF_RGBi (8)；

a_i+b_i＝1 (9)。