CN109636804A

CN109636804A - 一种基于多粒度级联的人体图像分割方法

Info

Publication number: CN109636804A
Application number: CN201811176351.2A
Authority: CN
Inventors: 宋明黎; 雷杰; 叶静雯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-04-16

Abstract

一种基于多粒度级联的人体图像分割方法，包括：1)收集包含单个人体的图片以及对应的包含17种区域部位像素级标注的分割结果，划分训练集和测试集；2)对训练集中人体图片通过CPM模型计算人体姿态；3)构建多粒度级联的分割网络Finer‑Net，并使用训练集中的人体图片、人体姿态和分割结果进行训练；4)使用测试集的人体图片对Finer‑Net进行测试，得到对应的分割结果。

Description

一种基于多粒度级联的人体图像分割方法

技术领域

本发明属于计算机视觉领域，针对人体图像分割场景中分割精度不高的问题，提出了一种基于多粒度级联的人体图像分割方法。

背景技术

人体图像分割指在包含人体的图像中，将与人相关的各个部位分割开来，具体的表现形式是对于图中的每个像素赋予表征区域部位的类别标签或背景标签，如人脸、脖子等。在实际应用中，人体图像分割常常会用于搭配风格和流行学习上，因而分割的类别标签不仅仅局限在身体部位上，也会补充一部分服饰类别。

现有的解决人体图像分割的方式主要有两种：(1)基于低级特征的过分割；(2)基于卷积神经网络的语义分割。基于低级特征的过分割需要一些额外的预处理步骤，如模板字典学习，同时易受光照、背景和遮挡的影响。基于卷积神经网络的语义分割起初用于场景语义理解上，比如区分一个场景图片中的建筑物、道路、行人、车辆等。由于人体图像分割更关注于部位的细粒度，基于场景语义分割的卷积模型中的设置步长和池化的策略并不直接适用人体图像分割。

从人类观察包含人体的图像的角度来看，人体图像分割应是一个由粗到细的过程。起初，人类仅将图片中的人体和背景区分出来；接着会去关注几个比较大的区域，例如上衣和裤子；进而细化到细节上，比如携带的包包、佩戴的饰品等。

发明内容

针对人体图像分割场景中分割精度不高的现状，本发明提出了一种基于多粒度级联的人体图像分割方法，通过由粗到细的分割粒度逐层细化分割结果。

为实现上述目的，本发明所述的基于粒度级联的人体图像分割方法包括如下步骤：

1)收集包含单个人体的图片以及对应的包含17种区域部位像素级标注的分割结果，划分训练集和测试集；

2)对训练集中人体图片通过训练好的CPM模型计算人体姿态；

3)构建多粒度级联的分割网络Finer-Net，Finer-Net由三个级别的子网络连接构成，通过训练集中的人体图片、人体姿态和分割结果分三个阶段进行增量式训练；

4)使用测试集的人体图片对训练后的Finer-Net进行测试，输入人体图片，得到17种区域部位标签和背景标签的分割结果。

进一步，步骤1)所述的17种区域部位包括人体部位和服饰类别，具体为人脸、头发、帽子、眼镜、脖子、围巾、左臂、右臂、上衣、左腿、右腿、裤子、腰带、包包、左鞋、右鞋。

进一步，步骤2)所述的训练好的CPM模型对于每张人体图片会给出14个关节关键点在图像中的坐标，具体包括头部、颈部、肩部(左/右)、肘部(左/右)、手腕(左/右)、髋部(左/右)、膝部(左/右)、脚踝(左/右)。

进一步，所述的三个阶段中的每个阶段都通过增加一个预训过的ResNet-101模块来实现。

进一步，步骤3)所述的三个阶段中的第一个阶段接受原图放缩0.8倍后的图片和14个关键点位置构成的关节特征图作为输入，其中在关节特征图中，每个点对于第k个关节点的产生的特征值由下式得到：

其中，(i,j)和分别是该点和第k个关节点的位置，σ₁和σ₂是用来控制每个关节点位置对周围影响强度的超参数。最终，每个点的特征值第一阶段的监督信息是仅包含前背景区分的分割结果，即通过将完整分割结果的17种区域部位标签设为一种标签得到。

进一步，步骤3)所述的第二个阶段接受原图、14个单通道的关节特征图以及第一个阶段的输出，其中每个单通道的关节特征图对应14个关节点，各个位置的值由得到。第二阶段的监督信息通过将原始的17种区域部位合并为3种标签加上背景标签生成的分割结果，其中人脸、头发、帽子、眼镜、脖子、围巾为头部区域；左臂、右臂、上衣为上肢区域；裤子、腰带、包包、左鞋、右鞋为下肢区域。

进一步，步骤3)所述的第三个阶段接受原图放缩1.2倍后的图片和第二个阶段的输出，得到分割结果，分割结果与原图大小一致，每个像素分配为17种区域部位或背景的标签，不同标签采用不同的颜色可视化出来。

进一步，步骤3)所述的第三个阶段增量式训练是指先将第一阶段的输入和监督信息训练完成后，增加第二阶段的网络模块，使用第二阶段的输入和监督信息继续训练。类似地，增加第三阶段的训练过程。

本发明的有益效果如下：

本发明是一种基于多粒度级联的人体图像分割方法。它从人体图像分割粒度的角度出发，从仅区分前背景的粗粒度分割出发，逐步细化到可以区分17种部位的细粒度分割上。此外，本发明还引入了人体姿态信息作为额外的先验，有效缓解了分割的歧义性。

与传统方法相比，本发明能够由粗到细地逐级优化分割结果，并有效利用人体姿态信息作为先验，从而获得更高的分割精度。

附图说明

图1是本发明方法的多粒度级联分割网络Finer-Net框架图。

具体实施方式

下面对本发明的技术方案进行清晰、完整的解释和描述。

本发明提出了一种基于多粒度级联的人体图像分割方法，该方法能够通过由粗到细的分割粒度逐层细化分割结果。包括如下步骤：

步骤1，准备人体图片数据。采集单个人体的图片以及对应的包含权利要求2所述的17种区域部位像素级标注的分割结果。其中训练集和测试集上的数目分别为10000和3000。所有样本图像块放缩至500×625。

步骤2，生成三个阶段所需的额外输入和监督信息。对于训练集上的图片，使用CPM模型生成每张人体图片对应的14个关节关键点，并根据权利要求5和6所述的方式生成前两个阶段所需的关节特征信息和监督信息。

步骤3，构建Finer-Net网络。根据图1构建Finer-Net的网络结构，σ₁和σ₂均取为20。模型学习率设为0.01，批处理的大小为16。

步骤4，进行第一阶段的训练。使用人体图片、关节信息作为输入，使用仅区分前背景的分割结果作为监督信息进行训练。

步骤5，进行第二阶段的训练。使用人体图片、关节信息和第一阶段的前背景分割结果作为输入，使用区分权利要求6所述的3个主要区域和背景的分割结果作为监督信息进行训练。

步骤6，进行第二阶段的训练。使用人体图片和第二阶段的前背景分割结果作为输入，使用完整的分割结果作为监督信息进行训练。模型迭代直至误差变化小于1.0时终止。

步骤6，测试Finer-Net模型的效果。将训练集中的人体图片输入到Finer-Net模型中，得到包含17种区域标签和背景标签的分割结果，与真实值比较差异。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于多粒度级联的人体图像分割方法，包含如下步骤：

2)对训练集中人体图片通过训练好的CPM模型计算人体姿态；

2.根据权利要求1所述的一种基于多粒度级联的人体图像分割方法，其特征在于：步骤1)所述的17种区域部位包括人体部位和服饰类别，具体为人脸、头发、帽子、眼镜、脖子、围巾、左臂、右臂、上衣、左腿、右腿、裤子、腰带、包包、左鞋、右鞋。

3.根据权利要求1所述的一种基于多粒度级联的人体图像分割方法，其特征在于：步骤2)所述的训练好的CPM模型对于每张人体图片会给出14个关节关键点在图像中的坐标，具体包括头部、颈部、肩部(左/右)、肘部(左/右)、手腕(左/右)、髋部(左/右)、膝部(左/右)、脚踝(左/右)。

4.根据权利要求1所述的一种基于多粒度级联的人体图像分割方法，其特征在于：步骤3)所述的三个阶段中的每个阶段都通过增加一个预训过的ResNet-101模块来实现。

5.根据权利要求4所述的一种基于多粒度级联的人体图像分割方法，其特征在于：步骤3)所述的三个阶段中的第一个阶段接受原图放缩0.8倍后的图片和14个关键点位置构成的关节特征图作为输入，其中在关节特征图中，每个点对于第k个关节点的产生的特征值由下式得到：

其中，(i，j)和分别是该点和第k个关节点的位置，σ₁和σ₂是用来控制每个关节点位置对周围影响强度的超参数。最终，每个点的特征值第一阶段的监督信息是仅包含前背景区分的分割结果，即通过将完整分割结果的17种区域部位标签设为一种标签得到。

6.根据权利要求5所述的一种基于多粒度级联的人体图像分割方法，其特征在于：所述的第二个阶段接受原图、14个单通道的关节特征图以及第一个阶段的输出，其中每个单通道的关节特征图对应14个关节点，各个位置的值由得到。第二阶段的监督信息通过将原始的17种区域部位合并为3种标签加上背景标签生成的分割结果，其中人脸、头发、帽子、眼镜、脖子、围巾为头部区域；左臂、右臂、上衣为上肢区域；裤子、腰带、包包、左鞋、右鞋为下肢区域。

7.根据权利要求6所述的一种基于多粒度级联的人体图像分割方法，其特征在于：所述的第三个阶段接受原图放缩1.2倍后的图片和第二个阶段的输出，得到分割结果，分割结果与原图大小一致，每个像素分配为17种区域部位或背景的标签，不同标签采用不同的颜色可视化出来。

8.根据权利要求7所述的一种基于多粒度级联的人体图像分割方法，其特征在于：所述的第三个阶段增量式训练是指先将第一阶段的输入和监督信息训练完成后，增加第二阶段的网络模块，使用第二阶段的输入和监督信息继续训练。类似地，增加第三阶段的训练过程。