CN108509838B - 一种在联合条件下进行群体着装解析的方法 - Google Patents

一种在联合条件下进行群体着装解析的方法 Download PDF

Info

Publication number
CN108509838B
CN108509838B CN201810087639.6A CN201810087639A CN108509838B CN 108509838 B CN108509838 B CN 108509838B CN 201810087639 A CN201810087639 A CN 201810087639A CN 108509838 B CN108509838 B CN 108509838B
Authority
CN
China
Prior art keywords
convolution
picture
network
posture estimation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810087639.6A
Other languages
English (en)
Other versions
CN108509838A (zh
Inventor
苏卓
郭佳明
周凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810087639.6A priority Critical patent/CN108509838B/zh
Publication of CN108509838A publication Critical patent/CN108509838A/zh
Application granted granted Critical
Publication of CN108509838B publication Critical patent/CN108509838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种在联合条件下进行群体着装解析的方法。其中,该方法包括:获取原始图片,采用粗分割网络对原始图片进行初步的着装解析处理,获得粗略的分割结果图片;将原始图片使用群体姿势估计网络,获取图片中前景人物的姿势骨架,生成姿势估计热度图;将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理,获得精细化的服装分割结果及姿势估计结果。实施本发明实施例,不仅能够处理单人简单场景,更能够解决群体的、复杂场景下的着装解析问题,扩展了着装解析的应用场景。

Description

一种在联合条件下进行群体着装解析的方法
技术领域
本发明涉及机器视觉、着装解析技术领域,尤其涉及一种在联合条件下 进行群体着装解析的方法。
背景技术
着装解析能够将图片中的所有着装部件以像素级的精度标注出来,它 不仅能够有效地提高着装推荐和检索的精度和方便性,也有助于虚拟试衣 等一系列基于着装解析的问题的研究。但是目前大多数着装解析方法都是 针对单人场景,它们限制了服饰的种类和数量,忽视了群体中不同人之间的 着装搭配关系,且存在着颜色相近着装识别难、衣物边缘处理差等问题。于 是我们想到了去设计一个针对群体场景的着装解析方法。群体场景下的时 装图片含有更多的信息,如服装相对位置、颜色搭配、遮挡影响等等。如果 能够正确地利用这些信息,群体着装解析不仅能处理好群体场景,甚至能提 升单人着装解析的精度。除此之外,群体着装解析能够同时处理群体和单人 的时装图片,自然地也就有着比单人着装解析更广的应用范围,如社交场合 分析、群体服饰搭配分析以及联合服饰检索等。
常见的服装解析方法可以分为一下三类:基于概率图模型的方法、基 于条件随机场的方法以及基于深度神经网络的方法。基于概率图模型的方 法应用场景比较局限,一般只能用于分割单一服装或者单一人物。基于条 件随机场的方法可以分割多种服装,并且考虑到了姿势的影响,具有一定 的可解释性。但是其鲁棒性不够高,在先验信息出错的情况下,效果较 差。基于深度神经网络的方法,准确率高、鲁棒性好,可以处理群体场 景,但是无法在数据量小的时候发挥最大作用。
基于概率图模型的方法主要有两个分支:基于图割的服装解析方法, 以及基于与或图的着装解析方法。图割算法最开始被用于图像的前背景分 割,近几年开始有研究人员将其应用在着装解析领域。图割算法需要一定 的背景信息来建立背景的概率分布模型(如混合高斯模型),从而判断每 个像素属于前背景的概率,进而得到前背景分割的结果。使用图割算法进 行着装解析即需要给定非服装区域的信息,建立对应的非服装像素的概率 分布模型,从而完成服装、非服装区域的识别。基于图割的着装解析方法 一般先进行人脸识别,根据人脸跟身体的关系,取得上半身区域。将上半 身区域的像素看作背景,放入混合高斯模型中进行训练,即可完成上半身 服装的解析。基于与或图的方法首先产生一组“解析块”,然后通过与或 图对“解析块”进行分类、组合及筛选,最终产生分割结果。
基于条件随机场的方法可以处理多标签着装解析问题,并且具有良好 的扩展性,可以简单地加入姿势估计、超像素分块、边缘分布等先验信 息,使得方法具有良好的可解释性。有人将形状模型、颜色模型加入到了 先验概率公式当中。另外也出现了第一次提出了利用姿势估计来进行全身 着装解析,得到了更精确的结果。后来有些人对条件随机场模型进行了改 进,在能量函数中加入了更多的先验项,如形状特征、“解析块”、姿势 估计、前景背景信息、相似性等。也有人尝试了对场景更加复杂的图片的 着装解析,包括背景颜色复杂、含有多个目标的情况,虽然模型与利用姿 势估计来进行全身着装解析的方法类似,但是训练的数据集是非受限的图 片,即场景复杂、色彩鲜艳、姿势不完整的图片,这是第一个在复杂场景 下的着装解析研究。提出利用姿势估计来进行全身着装解析方法的发明人还尝试了借助相似图片来进行着装解析,他们设计了三个解析器来产生解 析结果,其中一个解析器只使用目标图片本身的特征进行分割,另外两个 解析器利用目标图片与检索出的相似图片进行联合分割。另外还有提出解 决只使用图片级的标签完成着装解析的问题。还有些人同时使用了联合解 析(co-parsing)的方法对图片进行着装解析,前者在视频帧之间建立了 一个马尔科夫链模型;而后者在数据库中的全部图片之间建立了概率图模型。
目前的基于深度学习的着装解析方法只是训练了一种分类网络,没有 充分利用人体姿势、局域颜色等先验信息;而基于条件随机场方法也只是 使用了低级的特征,没有利用到深度学习强大的抽象能力。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种在联合条 件下进行群体着装解析的方法,能够不仅能处理单人简单场景,更能够解决 群体的、复杂场景下的着装解析问题,扩展了着装解析的应用场景。
为了解决上述技术问题,本发明提供了一种在联合条件下进行群体着 装解析的方法,所述方法包括:
获取原始图片,采用粗分割网络对原始图片进行初步的着装解析处理, 获得粗略的分割结果图片;
将原始图片使用群体姿势估计网络,获取图片中前景人物的姿势骨架, 生成姿势估计热度图;
将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理,获 得精细化的服装分割结果及姿势估计结果。
在本发明实施例中,能够不仅能处理单人简单场景,更能够解决群体的、 复杂场景下的着装解析问题,扩展了着装解析的应用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下 面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的一种在联合条件下进行群体着装解析的方法 流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范 围。
图1是本发明实施例的一种在联合条件下进行群体着装解析的方法流 程示意图。如图1所示,所述方法包括:
S1,获取原始图片,采用粗分割网络对原始图片进行初步的着装解析处 理,获得粗略的分割结果图片;
S2,将原始图片使用群体姿势估计网络,获取图片中前景人物的姿势骨 架,生成姿势估计热度图;
S3,将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理, 获得精细化的服装分割结果及姿势估计结果。
在具体实施例中,由于目前对群体着装解析的研究非常少,不存在公开 的群体着装解析数据集,因此我们收集并制作了一个群体着装的数据集。此 数据集主要分为两部分,一部分是通过对单人图片进行裁剪、融合得到的群 体合成数据集,另一部分是从搜索引擎上爬取的街拍群体图片数据集。为了 避免过拟合的现象,我们先在合成的群体数据集上进行预训练,然后在群体 街拍数据集上进行正式的训练。使用正式训练后的模型并结合网络结构文 件,即可完成群体着装解析,具体包括:
收集Clothing Co-Parsing(CCP)数据集、Fashionista数据集以及 ColorfulFashion Parsing Data(CFPD)数据集,并将三个数据集的标签转 换为本发明使用的18个服装类别,它们分别是:背景、配件、手袋、外套、 连衣裙、眼镜、头发、帽子、裤子、衬衫、鞋、皮肤、裙子、袜子、西装、 上衣、背心、内衣。
将以上三个单人数据集的图片以及转换后的标签大小调整为300*300, 作为训练网络使用的单人服装数据集。
从单人服装数据集中,随机选出2、3、4张图片,通过裁剪、缩放、拼 接的方式合成群体图片。
通过必应、百度等搜索引擎,收集群体街拍服装图片,再通过手工标注 的方法,获得群体街拍服装图片的标签。至此,即获得了群体街拍数据集。
直接在群体服装数据集上进行训练,可能会产生过拟合现象,使得网络 的鲁棒性较差。于是本发明使用了由单人到群体的方式训练网络,具体步骤 如下:
使用高斯方式初始化网络,初始化标准差为0.01,并在单人服装数据 集上训练网络。
以上一步得到的网络参数作为初始化参数,在群体合成数据集上进行 再次训练。
将在群体合成数据集上训练得到的网络参数作为初始参数,在群体街 拍数据集上再训练网络。这次训练获得的网络参数,将作为最终的网络参数, 用于群体着装解析。
对S1作具体说明:
粗分割网络由7个卷积结构加一个反卷积层组成,而其中每个卷积结 构由卷积层、ReLu激活函数以及一个池化层组成。前面五层卷积结构的卷 积核大小类似,都是2*2或者3*3,但是卷积核的数量逐渐增加,从一开始 的64个卷积核到最后的1024个卷积核,这样的设计能够捕捉图像局部的 高维特征;第六层卷积结构的卷积核大小为7*7,数量则是达到了2048个, 卷积核感受野增大能够获取局部临近的高维特征,数量增多则能识别出更多的特征模式;第七层卷积结构的卷积核大小为1*1,数量则保持不变, 为2048个,这里卷积核的减小主要是因为图片到这一层已经很小了,这里 更需要学习的是特征到分类之间的关系;最后反卷积层则将网络学到的分 类特征重新映射到原图大小,生成粗分割结果图片。
对S2作具体说明:
群体姿势估计网络部分,网络前半部分由4层卷积结构组成,每个卷 积结构也是由一个卷积层、ReLu激活函数和池化层组成。后半部分的网络 是一个循环的结构,在每个循环结构的开始部分,网络分出了两个通道,每 个通道由5层卷积结构组成,分别用于识别关节点和肢干;在每个循环结 构的结束部分,两个通道重新融合为一个网络层,作为下一个循环的输入。 之所以同时预测肢干与部位的原因有两个:首先,在群体场景下,由于同一个部位可能会出现多次,姿势估计网络必须同时预测关节与肢干的位置,才 能找到正确的姿势骨架。其次,肢干的位置与关节点的位置之间有很大的联 系,对这两类标记同时进行预测能使网络学习到这种联系,从而取得更好的 效果。
同时,为了实现在人数不定的场景下进行姿势估计,网络以热度图的方 式输出每个像素属于某个关节点或者肢干的概率。即输出的结果为Ti,其中 i∈[1,2,3,......,n],n为关节点与肢干种类的数量之和;Ti是一个二维图,长宽 与输入图片一致,每一个元素代表对应位置的像素输入姿势i或者是肢干i 的概率。
对S3作具体的说明:
我们采用以高斯核的形式把原图的细节信息重新加入了条件随机场模型的 高层的神经网络当中,将粗略的分割结果图片及姿势估计热度图同时输入 该条件随机场模型。
实施本发明实施例,不仅能够处理单人简单场景,更能够解决群体的、 复杂场景下的着装解析问题,扩展了着装解析的应用场景。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分 步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算 机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种在联合条件下进行群体着装 解析的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实 施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及 其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具 体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理 解为对本发明的限制。

Claims (1)

1.一种在联合条件下进行群体着装解析的方法,所述方法包括:
获取原始图片,采用粗分割网络对原始图片进行初步的着装解析处理,获得粗略的分割结果图片;
将原始图片使用群体姿势估计网络,获取图片中前景人物的姿势骨架,生成姿势估计热度图;
将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理,获得精细化的服装分割结果及姿势估计结果;
其中,所述粗分割网络由7个卷积结构加一个反卷积层组成,而其中每个卷积结构由卷积层、ReLu激活函数以及一个池化层组成;前面五层卷积结构的卷积核大小都是2*2或者3*3,卷积核的数量逐渐增加,从一开始的64个卷积核到最后的1024个卷积核,以便能够捕捉图像局部的高维特征;第六层卷积结构的卷积核大小为7*7,数量达到2048个,卷积核感受野增大能够获取局部临近的高维特征,数量增多则能识别出更多的特征模式;第七层卷积结构的卷积核大小为1*1,数量同为2048个;最后反卷积层则将网络学到的分类特征重新映射到原图大小,生成粗略的分割结果图片;
其中,所述群体姿势估计网络,网络前半部分由4层卷积结构组成,每个卷积结构由一个卷积层、ReLu激活函数和池化层组成;后半部分的网络是一个循环的结构,在每个循环结构的开始部分,网络分出两个通道,每个通道由5层卷积结构组成,分别用于识别关节点和肢干;在每个循环结构的结束部分,两个通道重新融合为一个网络层,作为下一个循环的输入;为了实现在人数不定的场景下进行姿势估计,网络以热度图的方式输出每个像素属于某个关节点或者肢干的概率,即输出的结果为Ti,其中i∈[1,2,3,……,n],n为关节点与肢干种类的数量之和;Ti是一个二维图,长宽与输入图片一致,每一个元素代表对应位置的像素输入姿势i或者是肢干i的概率;
其中,所述将粗略的分割结果图片及姿势估计热度图同时进行深度卷积处理,具体为:采用以高斯核的形式把原图的细节信息重新加入条件随机场模型的高层的神经网络当中,将粗略的分割结果图片及姿势估计热度图同时输入该条件随机场模型。
CN201810087639.6A 2018-01-30 2018-01-30 一种在联合条件下进行群体着装解析的方法 Active CN108509838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810087639.6A CN108509838B (zh) 2018-01-30 2018-01-30 一种在联合条件下进行群体着装解析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810087639.6A CN108509838B (zh) 2018-01-30 2018-01-30 一种在联合条件下进行群体着装解析的方法

Publications (2)

Publication Number Publication Date
CN108509838A CN108509838A (zh) 2018-09-07
CN108509838B true CN108509838B (zh) 2022-03-25

Family

ID=63374591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810087639.6A Active CN108509838B (zh) 2018-01-30 2018-01-30 一种在联合条件下进行群体着装解析的方法

Country Status (1)

Country Link
CN (1) CN108509838B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460993B (zh) * 2020-03-31 2023-04-07 西安电子科技大学 基于与或图aog的人类图像生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123530A (zh) * 2013-04-27 2014-10-29 西门子(深圳)磁共振有限公司 受检对象姿势检测设备、方法和磁共振成像系统
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106650827A (zh) * 2016-12-30 2017-05-10 南京大学 基于结构指导深度学习的人体姿态估计方法和系统
CN107480720A (zh) * 2017-08-18 2017-12-15 成都通甲优博科技有限责任公司 人体姿态模型训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123530A (zh) * 2013-04-27 2014-10-29 西门子(深圳)磁共振有限公司 受检对象姿势检测设备、方法和磁共振成像系统
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106650827A (zh) * 2016-12-30 2017-05-10 南京大学 基于结构指导深度学习的人体姿态估计方法和系统
CN107480720A (zh) * 2017-08-18 2017-12-15 成都通甲优博科技有限责任公司 人体姿态模型训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human Pose Estimation;Wei Yang 等;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20161212;第3073-3082页 *
Look into Person: Self-Supervised Structure-Sensitive Learning and a New Benchmark for Human Parsing;Ke Gong 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;第6757-6765页 *
基于Hot-Target图和特征边缘保持的图像收缩方法;苏卓 等;《软件学报》;20110430;第22卷(第4期);第1-2页 *

Also Published As

Publication number Publication date
CN108509838A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN111291739B (zh) 面部检测、图像检测神经网络训练方法、装置和设备
US10152655B2 (en) Deep-learning network architecture for object detection
Li et al. Eac-net: A region-based deep enhancing and cropping approach for facial action unit detection
CN106709568B (zh) 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法
Liu et al. Fashion parsing with weak color-category labels
Gould et al. Decomposing a scene into geometric and semantically consistent regions
Vazquez et al. Virtual and real world adaptation for pedestrian detection
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN110110755B (zh) 基于ptgan区域差距与多重分支的行人重识别检测方法及装置
CN111027372A (zh) 一种基于单目视觉与深度学习的行人目标检测识别方法
JP2002203239A (ja) ディジタル画像中で人間の姿を検出する画像処理方法
CN109359527B (zh) 基于神经网络的头发区域提取方法及系统
CN110033007A (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
Ji et al. Human-centric clothing segmentation via deformable semantic locality-preserving network
Savian et al. Optical flow estimation with deep learning, a survey on recent advances
Wieschollek et al. Transfer learning for material classification using convolutional networks
Huo et al. Semisupervised learning based on a novel iterative optimization model for saliency detection
CN115205903B (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
Li et al. Cross-scenario clothing retrieval and fine-grained style recognition
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113420697B (zh) 基于表观和形状特征的换装视频行人重识别方法及系统
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
CN108509838B (zh) 一种在联合条件下进行群体着装解析的方法
CN110349176A (zh) 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统
Chen et al. Learning Physical-Spatio-Temporal Features for Video Shadow Removal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared