CN107516316A

CN107516316A - 一种在fcn中引入聚焦机制对静态人体图像进行分割的方法

Info

Publication number: CN107516316A
Application number: CN201710594374.4A
Authority: CN
Inventors: 李涛; 李冬梅; 赵雪专; 裴利沈; 朱晓珺; 汪伟; 曲豪; 张栋梁; 郭航宇
Original assignee: Zhengzhou Zen Graphics Intelligent Technology Co Ltd
Current assignee: YANCHENG CHANTU INTELLIGENT TECHNOLOGY Co.,Ltd.
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-12-26
Anticipated expiration: 2037-07-19
Also published as: CN107516316B

Abstract

本发明提供了一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，包括以下步骤：A：对静态人体图像分割数据集的预处理以获取样本包含分割信息的辅助分割类标、分割类标以及注意力聚焦图；B：引入聚焦机制，改进FCN网络，具体做法是改进ResNet‑101网络结构，同时，利用定义具有聚焦机制的损失函数、辅助分割损失函数和分割损失函数引入聚焦机制；C:训练改进后的FCN的网络参数；D：对静态人体图像进行分割；本发明能够较为有效地提升人体分割的效果，特别是一些较难的区域，比如腿部、手部区域，在PASCAL‑Person‑Part测试集和LIP验证集上的结果对比表明了本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法的鲁棒性和有效性。

Description

一种在FCN中引入聚焦机制对静态人体图像进行分割的方法

技术领域

本发明涉及图像分割领域，尤其涉及一种在FCN中引入聚焦机制对静态人体图像进行分割的方法。

背景技术

图像分割是当前计算机视觉领域的热点和难点问题，它的目的是把图像中各种不同物体给用不同颜色分割出来，它的过程为根据一定的规则或算法将图像切分成含有不同语义的区域，图像分割技术广泛应用于行人检测、人脸识别、车牌识别和医学影像分析等领域。

当前针对图像分割的方法基于其语义信息的差别主要分为传统方法与非传统方法两大类；传统的图像分割方法有阈值分割、边缘检测和区域提取，该类方法主要是基于图像像素的颜色、纹理等低级的语义信息来实现分割，在复杂场景中，传统方法效果不佳；非传统的图像分割方法主要是利用图像中的高级语义信息来实现分割，该类方法大都利用深度卷积神经网络实现语义分割，但该类方案没有提供聚焦分割目标图像的机制，不能得到关于分割目标图像更多的位置信息。

发明内容

本发明的目的在于提供一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，能够将聚焦机制引入图像分割，不仅可以实现复杂场景的图像分割，还能够获取目标图像图像的位置信息。

为了实现上述目的，本发明采用以下技术方案：

一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，包括以下步骤：

A：对静态人体图像分割数据集的预处理，获取每一个样本包含分割信息的辅助分割类标，分割类标以及注意力聚焦图；

B：改进FCN网络，具体为改进ResNet-101的网络结构，并利用具有聚焦机制的损失函数、辅助分割损失函数和分割损失函数引入聚焦机制；

C:训练改进后的FCN的网络参数；

D:利用改进后的FCN网络对静态人体图像进行分割。

所述的步骤A包括以下步骤：

A1：计算当前样本(静态人体图像)当前分割区域的中心点；

A2：根据中心点生成高斯热力图，该图即为注意力聚焦图α；

A3：将分割的类标进行缩小，缩小之后的类标为辅助分割类标；

A4：将分割的类标直接保存，保存的类标即为最终的分割类标。

所述的步骤B包括以下步骤：

B1：改进ResNet-101网络结构，具体包括以下步骤：

B11：将ResNet-101网络全局池化层和最后的分类层去除；

B12：将conv5_x模块中第1个卷积层的步长设置为1；

B13：采用了黑洞卷积(Atrous Convolution)替换conv5_x中第1个卷积层的卷积操作；

B14：在最终的预测层加入了反卷积层；

B2：为改进后ResNet-101网络引入聚焦机制，定义聚焦机制的损失函数、辅助分割损失函数和分割损失函数，具体包括以下步骤：

B21：定义具有聚焦机制的损失函数；

B22：定义辅助分割损失函数；

B23：定义最终分割损失函数。

本发明的有益效果：

本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法能够较为有效地提升人体分割的效果，特别是一些较难的区域，比如腿部、手部区域，在PASCAL-Person-Part测试集和LIP验证集上的结果对比表明了本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法的鲁棒性和有效性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图；

图2为本发明所述的改进ResNet-101的网络结构后的效果示意图；

图3为本发明所述的四种残差结构的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于分割静态人体图像时受不同姿态、部分关节遮挡和光照等因素的影响而导致静态图像中人体无法准确分割，因此，本方案在FCN(全卷积神经网络，Fully Convolutional Networks,FCN)中引入聚焦机制，使FCN网络能够得到关于静态人体图像更多的位置信息，同时，设计较大神经元感受野，便于学习图片全局信息，通过全局信息推断遮挡部分区域的类别，进一步提高静态人体图像分割的精确度。

如图1所示：本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，包括以下步骤：

A：由于本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法所采用的改进的FCN网络需要获得静态人体图像的注意力聚焦图、辅助分割类标以及分割类标，所以需要对已经标注的训练集即静态人体图像数据集进行预处理，预处理具体过程如下所示：

对静态人体图像分割数据集的预处理，获取每一个样本包含分割信息的辅助分割类标，分割类标以及注意力聚焦图α；主要包括以下步骤：

A1：计算当前样本(静态人体图像)当前分割区域的中心点；

A2：根据中心点生成高斯热力图，该图即为注意力聚焦图α；

上述步骤采用以下算法实现：

输入：分割数据集。

输出：注意力聚焦图、辅助分割类标、最终分割类标。

for每个样本do

for每一样本中的每一个分割区域do

(1)计算当前样本当前分割区域的中心点；

(2)根据中心点生成高斯热力图，该图即为注意力聚焦图；

(3)将分割的类标进行缩小，缩小之后的类标为辅助分割类标；

(4)将分割的类标直接保存，该类标即为最终的分割类标；

end for

保存处理好的辅助分割类标，分割类标，注意力聚焦图；

end for。

B：改进FCN网络，具体为改进ResNet-101的网络结构，并利用具有聚焦机制的损失函数、辅助分割损失函数和分割损失函数引入聚焦机制,具体包含以下步骤：

B1：改进ResNet-101网络结构，具体包含以下步骤：

B11：将ResNet-101网络全局池化层和最后的分类层去除。

B12：将conv5_x模块中第1个卷积层的步长设置为1，防止预测结果的分辨率降低。

B13：采用了黑洞卷积(Atrous Convolution)替换conv5_x中第1个卷积层的卷积操作,保证感受野不会缩小。

B14：在最终的预测层加入了反卷积层，以提升预测结果的分辨率。

使用改进FCN后网络具体效果如图2和图3所示：图2中的conv1为7x7卷积，输出特征图的个数为64，卷积滑动的步长为2；Maxpooling为3x3最大池化层，滑动步长为2；deconv为反卷积层，反卷积层将输入的特征采样为原始特征的两倍大小并产生预测结果；conv2_x到conv5_x为残差构建块，其中conv2_x中包含图3中的第一个残差结构3个，conv3_x包含图3中第二个残差结构4个，conv4_x包含图3中第三个残差结构23个，conv5_x包含图3中第四个残差结构3个；在图3所示的四种不同的残差结构中，每个残差结构的第一个卷积都是1x1卷积，该层卷积用于降低输出特征的维度。其后为3x3卷积，位于残差结构的中间。最后为1x1卷积，该卷积层用于恢复特征的维度，通过使用这种残差结构降低训练与测试时间。

B2：为改进后ResNet-101网络引入聚焦机制，具体包括以下步骤：

B21：为了使改进后ResNet-101网络能够学习聚焦机制，定义具有聚焦机制的损失函数，损失函数记为loss_attention；conv4_x的输出特征经过1x1卷积和sigmoid激活函数处理之后的注意力聚焦图为步骤A的静态人体图像数据集生成的注意力聚焦类标为α，则具有聚焦机制的损失函数loss_attention为：

其中CrossEntropy(·,·)表示交叉熵损失函数，将注意力聚焦图与步骤A中的注意力聚焦图α相减，并使用交叉熵损失函数计算得到最终的聚焦损失函数loss_attention。

B22：为了使改进的ResNet-101网络能够学习到较为精准的分割结果，本方案使用了两个分割损失函数，即辅助分割损失函数和最终分割损失函数；conv5_x的输出特征经过1x1卷积和softmax多分类函数处理得到预测的辅助分割类标为由步骤A的静态人体图像数据集生成的辅助分割类标为p_aux，则辅助分割损失函数loss_seg1定义为：

B23：deconv的输出特征经过softmax多分类函数处理得到预测的最终的分割类标为由步骤A的静态人体图像数据集生成的最终的分割类标为p，则最终分割损失函数loss_seg2的定义为：

C：训练改进后ResNet-101网络的网络参数，具体的步骤为：在改进后ResNet-101网络上进行预训练，而后在步骤A的静态人体图像数据集上进行微调训练，以训练改进后ResNet-101网络的网络参数；具体的网络参数训练方法如下：

对改进后ResNet-101网络使用随机梯度下降算法进行优化：训练时的mini batch的大小为4；训练时，不同阶段采用不同的学习率，具体为：迭代次数在0-10000次时学习率是0.005，迭代次数在10000-430000次时学习率是0.02，迭代次数在430000以上的学习率为0.002，使用该学习率直至收敛。

D：利用改进后的FCN网络对静态人体图像进行分割。

本发明在PASCAL-Person-Part测试集上标准的IoU准确度与DeepLab-LargFOV、HAZN、Attention，LG+LSTM以及Attention+SSL进行对比，其结果如表1所示：在表1中的head表示头部，torso表示人的躯干，u-arms表示手臂上部，l-arms表示手臂下部，同理u-legs和l-legs分别表示腿的上部和下部，Bkg表示的是背景，Avg表示的是平均IoU准确度；从表1中发现本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法优于其

他方法；

方法	head	torso	u-arms	l-arms	u-legs	l-legs	Bkg	Avg
									DeepLab-LargeFOV	78.09	54.02	37.29	36.85	33.73	29.61	92.85	51.78
HAZN	80.79	59.11	43.05	42.76	38.99	34.46	93.59	56.11
									Attention	81.47	59.06	44.15	42.50	38.28	35.62	93.65	56.39
LG-LSTM	82.72	60.99	45.40	47.76	42.33	37.96	88.63	57.97
									Attention+SSL	83.26	62.40	47.80	45.58	42.32	39.48	94.68	59.36
本发明方法	84.12	63.71	47.43	46.22	42.53	40.17	94.98	59.88

表1不同方法在PASCAL-Person-Part测试集上的结果对比

如表2所示：将本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法与DeepLab-LargFOV、HAZN、Attention以及Attention+SSL在LIP验证集上的结果进行对比，本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法在LIP验证集在总体精确度上提升了0.42％，在平均精确度上提升了0.45％，平均IoU提升了0.37％。

表2不同方法在LIP验证集上的结果对比

如表3所示：此外本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法还给出了在各个服装类别上IoU结果对比，本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法在hat、hair、gloves、sunglasses、u-clothes、dress、coat、socks、pants、jumpsuits、scarf、skirt、face、l-arm、r-arm、l-leg、r-leg、Bkg优于最好的方法，此外平均准确度也比最好的方法提升了0.37％。

表3不同方法在各个服装类别上的IoU结果对比

表3不同方法在各个服装类别上的IoU结果对比(续)

由此可以看出，本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法能够较为有效地提升人体分割的效果，特别是一些较难的区域，比如腿部、手部区域，在PASCAL-Person-Part测试集和LIP验证集上的结果对比表明了本发明所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法的鲁棒性和有效性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，其特征在于，包括以下步骤：

C:训练改进后的FCN的网络参数；

D:利用改进后的FCN网络对静态人体图像进行分割。

2.根据权利要求1所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，其特征在于：所述的步骤A包括以下步骤：

A1：计算当前样本（静态人体图像）当前分割区域的中心点；

A2：根据中心点生成高斯热力图，该图即为注意力聚焦图；

3.根据权利要求1所述的一种在FCN中引入聚焦机制对静态人体图像进行分割的方法，其特征在于：所述的步骤B包括以下步骤：