CN108509838B

CN108509838B - 一种在联合条件下进行群体着装解析的方法

Info

Publication number: CN108509838B
Application number: CN201810087639.6A
Authority: CN
Inventors: 苏卓; 郭佳明; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2022-03-25
Anticipated expiration: 2038-01-30
Also published as: CN108509838A

Abstract

本发明实施例公开了一种在联合条件下进行群体着装解析的方法。其中，该方法包括：获取原始图片，采用粗分割网络对原始图片进行初步的着装解析处理，获得粗略的分割结果图片；将原始图片使用群体姿势估计网络，获取图片中前景人物的姿势骨架，生成姿势估计热度图；将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理，获得精细化的服装分割结果及姿势估计结果。实施本发明实施例，不仅能够处理单人简单场景，更能够解决群体的、复杂场景下的着装解析问题，扩展了着装解析的应用场景。

Description

一种在联合条件下进行群体着装解析的方法

技术领域

本发明涉及机器视觉、着装解析技术领域，尤其涉及一种在联合条件下进行群体着装解析的方法。

背景技术

着装解析能够将图片中的所有着装部件以像素级的精度标注出来，它不仅能够有效地提高着装推荐和检索的精度和方便性，也有助于虚拟试衣等一系列基于着装解析的问题的研究。但是目前大多数着装解析方法都是针对单人场景，它们限制了服饰的种类和数量，忽视了群体中不同人之间的着装搭配关系，且存在着颜色相近着装识别难、衣物边缘处理差等问题。于是我们想到了去设计一个针对群体场景的着装解析方法。群体场景下的时装图片含有更多的信息，如服装相对位置、颜色搭配、遮挡影响等等。如果能够正确地利用这些信息，群体着装解析不仅能处理好群体场景，甚至能提升单人着装解析的精度。除此之外，群体着装解析能够同时处理群体和单人的时装图片，自然地也就有着比单人着装解析更广的应用范围，如社交场合分析、群体服饰搭配分析以及联合服饰检索等。

常见的服装解析方法可以分为一下三类：基于概率图模型的方法、基于条件随机场的方法以及基于深度神经网络的方法。基于概率图模型的方法应用场景比较局限，一般只能用于分割单一服装或者单一人物。基于条件随机场的方法可以分割多种服装，并且考虑到了姿势的影响，具有一定的可解释性。但是其鲁棒性不够高，在先验信息出错的情况下，效果较差。基于深度神经网络的方法，准确率高、鲁棒性好，可以处理群体场景，但是无法在数据量小的时候发挥最大作用。

基于概率图模型的方法主要有两个分支：基于图割的服装解析方法，以及基于与或图的着装解析方法。图割算法最开始被用于图像的前背景分割，近几年开始有研究人员将其应用在着装解析领域。图割算法需要一定的背景信息来建立背景的概率分布模型(如混合高斯模型)，从而判断每个像素属于前背景的概率，进而得到前背景分割的结果。使用图割算法进行着装解析即需要给定非服装区域的信息，建立对应的非服装像素的概率分布模型，从而完成服装、非服装区域的识别。基于图割的着装解析方法一般先进行人脸识别，根据人脸跟身体的关系，取得上半身区域。将上半身区域的像素看作背景，放入混合高斯模型中进行训练，即可完成上半身服装的解析。基于与或图的方法首先产生一组“解析块”，然后通过与或图对“解析块”进行分类、组合及筛选，最终产生分割结果。

基于条件随机场的方法可以处理多标签着装解析问题，并且具有良好的扩展性，可以简单地加入姿势估计、超像素分块、边缘分布等先验信息，使得方法具有良好的可解释性。有人将形状模型、颜色模型加入到了先验概率公式当中。另外也出现了第一次提出了利用姿势估计来进行全身着装解析，得到了更精确的结果。后来有些人对条件随机场模型进行了改进，在能量函数中加入了更多的先验项，如形状特征、“解析块”、姿势估计、前景背景信息、相似性等。也有人尝试了对场景更加复杂的图片的着装解析，包括背景颜色复杂、含有多个目标的情况，虽然模型与利用姿势估计来进行全身着装解析的方法类似，但是训练的数据集是非受限的图片，即场景复杂、色彩鲜艳、姿势不完整的图片，这是第一个在复杂场景下的着装解析研究。提出利用姿势估计来进行全身着装解析方法的发明人还尝试了借助相似图片来进行着装解析，他们设计了三个解析器来产生解析结果，其中一个解析器只使用目标图片本身的特征进行分割，另外两个解析器利用目标图片与检索出的相似图片进行联合分割。另外还有提出解决只使用图片级的标签完成着装解析的问题。还有些人同时使用了联合解析(co-parsing)的方法对图片进行着装解析，前者在视频帧之间建立了一个马尔科夫链模型；而后者在数据库中的全部图片之间建立了概率图模型。

目前的基于深度学习的着装解析方法只是训练了一种分类网络，没有充分利用人体姿势、局域颜色等先验信息；而基于条件随机场方法也只是使用了低级的特征，没有利用到深度学习强大的抽象能力。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种在联合条件下进行群体着装解析的方法，能够不仅能处理单人简单场景，更能够解决群体的、复杂场景下的着装解析问题，扩展了着装解析的应用场景。

为了解决上述技术问题，本发明提供了一种在联合条件下进行群体着装解析的方法，所述方法包括：

获取原始图片，采用粗分割网络对原始图片进行初步的着装解析处理，获得粗略的分割结果图片；

将原始图片使用群体姿势估计网络，获取图片中前景人物的姿势骨架，生成姿势估计热度图；

将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理，获得精细化的服装分割结果及姿势估计结果。

在本发明实施例中，能够不仅能处理单人简单场景，更能够解决群体的、复杂场景下的着装解析问题，扩展了着装解析的应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的一种在联合条件下进行群体着装解析的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种在联合条件下进行群体着装解析的方法流程示意图。如图1所示，所述方法包括：

S1，获取原始图片，采用粗分割网络对原始图片进行初步的着装解析处理，获得粗略的分割结果图片；

S2，将原始图片使用群体姿势估计网络，获取图片中前景人物的姿势骨架，生成姿势估计热度图；

S3，将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理，获得精细化的服装分割结果及姿势估计结果。

在具体实施例中，由于目前对群体着装解析的研究非常少，不存在公开的群体着装解析数据集，因此我们收集并制作了一个群体着装的数据集。此数据集主要分为两部分，一部分是通过对单人图片进行裁剪、融合得到的群体合成数据集，另一部分是从搜索引擎上爬取的街拍群体图片数据集。为了避免过拟合的现象，我们先在合成的群体数据集上进行预训练，然后在群体街拍数据集上进行正式的训练。使用正式训练后的模型并结合网络结构文件，即可完成群体着装解析，具体包括：

收集Clothing Co-Parsing(CCP)数据集、Fashionista数据集以及 ColorfulFashion Parsing Data(CFPD)数据集，并将三个数据集的标签转换为本发明使用的18个服装类别，它们分别是：背景、配件、手袋、外套、连衣裙、眼镜、头发、帽子、裤子、衬衫、鞋、皮肤、裙子、袜子、西装、上衣、背心、内衣。

将以上三个单人数据集的图片以及转换后的标签大小调整为300*300，作为训练网络使用的单人服装数据集。

从单人服装数据集中，随机选出2、3、4张图片，通过裁剪、缩放、拼接的方式合成群体图片。

通过必应、百度等搜索引擎，收集群体街拍服装图片，再通过手工标注的方法，获得群体街拍服装图片的标签。至此，即获得了群体街拍数据集。

直接在群体服装数据集上进行训练，可能会产生过拟合现象，使得网络的鲁棒性较差。于是本发明使用了由单人到群体的方式训练网络，具体步骤如下：

使用高斯方式初始化网络，初始化标准差为0.01，并在单人服装数据集上训练网络。

以上一步得到的网络参数作为初始化参数，在群体合成数据集上进行再次训练。

将在群体合成数据集上训练得到的网络参数作为初始参数，在群体街拍数据集上再训练网络。这次训练获得的网络参数，将作为最终的网络参数，用于群体着装解析。

对S1作具体说明：

粗分割网络由7个卷积结构加一个反卷积层组成，而其中每个卷积结构由卷积层、ReLu激活函数以及一个池化层组成。前面五层卷积结构的卷积核大小类似，都是2*2或者3*3，但是卷积核的数量逐渐增加，从一开始的64个卷积核到最后的1024个卷积核，这样的设计能够捕捉图像局部的高维特征；第六层卷积结构的卷积核大小为7*7，数量则是达到了2048个，卷积核感受野增大能够获取局部临近的高维特征，数量增多则能识别出更多的特征模式；第七层卷积结构的卷积核大小为1*1，数量则保持不变，为2048个，这里卷积核的减小主要是因为图片到这一层已经很小了，这里更需要学习的是特征到分类之间的关系；最后反卷积层则将网络学到的分类特征重新映射到原图大小，生成粗分割结果图片。

对S2作具体说明：

群体姿势估计网络部分，网络前半部分由4层卷积结构组成，每个卷积结构也是由一个卷积层、ReLu激活函数和池化层组成。后半部分的网络是一个循环的结构，在每个循环结构的开始部分，网络分出了两个通道，每个通道由5层卷积结构组成，分别用于识别关节点和肢干；在每个循环结构的结束部分，两个通道重新融合为一个网络层，作为下一个循环的输入。之所以同时预测肢干与部位的原因有两个：首先，在群体场景下，由于同一个部位可能会出现多次，姿势估计网络必须同时预测关节与肢干的位置，才能找到正确的姿势骨架。其次，肢干的位置与关节点的位置之间有很大的联系，对这两类标记同时进行预测能使网络学习到这种联系，从而取得更好的效果。

同时，为了实现在人数不定的场景下进行姿势估计，网络以热度图的方式输出每个像素属于某个关节点或者肢干的概率。即输出的结果为T_i，其中 i∈[1,2,3,......,n]，n为关节点与肢干种类的数量之和；T_i是一个二维图，长宽与输入图片一致，每一个元素代表对应位置的像素输入姿势i或者是肢干i 的概率。

对S3作具体的说明：

我们采用以高斯核的形式把原图的细节信息重新加入了条件随机场模型的高层的神经网络当中，将粗略的分割结果图片及姿势估计热度图同时输入该条件随机场模型。

实施本发明实施例，不仅能够处理单人简单场景，更能够解决群体的、复杂场景下的着装解析问题，扩展了着装解析的应用场景。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种在联合条件下进行群体着装解析的方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种在联合条件下进行群体着装解析的方法，所述方法包括：

将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理，获得精细化的服装分割结果及姿势估计结果；

其中，所述粗分割网络由7个卷积结构加一个反卷积层组成，而其中每个卷积结构由卷积层、ReLu激活函数以及一个池化层组成；前面五层卷积结构的卷积核大小都是2*2或者3*3，卷积核的数量逐渐增加，从一开始的64个卷积核到最后的1024个卷积核，以便能够捕捉图像局部的高维特征；第六层卷积结构的卷积核大小为7*7，数量达到2048个，卷积核感受野增大能够获取局部临近的高维特征，数量增多则能识别出更多的特征模式；第七层卷积结构的卷积核大小为1*1，数量同为2048个；最后反卷积层则将网络学到的分类特征重新映射到原图大小，生成粗略的分割结果图片；

其中，所述群体姿势估计网络，网络前半部分由4层卷积结构组成，每个卷积结构由一个卷积层、ReLu激活函数和池化层组成；后半部分的网络是一个循环的结构，在每个循环结构的开始部分，网络分出两个通道，每个通道由5层卷积结构组成，分别用于识别关节点和肢干；在每个循环结构的结束部分，两个通道重新融合为一个网络层，作为下一个循环的输入；为了实现在人数不定的场景下进行姿势估计，网络以热度图的方式输出每个像素属于某个关节点或者肢干的概率，即输出的结果为T_i，其中i∈[1,2,3,……,n]，n为关节点与肢干种类的数量之和；T_i是一个二维图，长宽与输入图片一致，每一个元素代表对应位置的像素输入姿势i或者是肢干i的概率；

其中，所述将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理，具体为：采用以高斯核的形式把原图的细节信息重新加入条件随机场模型的高层的神经网络当中，将粗略的分割结果图片及姿势估计热度图同时输入该条件随机场模型。