CN109636804A - 一种基于多粒度级联的人体图像分割方法 - Google Patents
一种基于多粒度级联的人体图像分割方法 Download PDFInfo
- Publication number
- CN109636804A CN109636804A CN201811176351.2A CN201811176351A CN109636804A CN 109636804 A CN109636804 A CN 109636804A CN 201811176351 A CN201811176351 A CN 201811176351A CN 109636804 A CN109636804 A CN 109636804A
- Authority
- CN
- China
- Prior art keywords
- human body
- stage
- picture
- granularities
- cascade
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于多粒度级联的人体图像分割方法,包括:1)收集包含单个人体的图片以及对应的包含17种区域部位像素级标注的分割结果,划分训练集和测试集;2)对训练集中人体图片通过CPM模型计算人体姿态;3)构建多粒度级联的分割网络Finer‑Net,并使用训练集中的人体图片、人体姿态和分割结果进行训练;4)使用测试集的人体图片对Finer‑Net进行测试,得到对应的分割结果。
Description
技术领域
本发明属于计算机视觉领域,针对人体图像分割场景中分割精度不高的问题,提出了一种基于多粒度级联的人体图像分割方法。
背景技术
人体图像分割指在包含人体的图像中,将与人相关的各个部位分割开来,具体的表现形式是对于图中的每个像素赋予表征区域部位的类别标签或背景标签,如人脸、脖子等。在实际应用中,人体图像分割常常会用于搭配风格和流行学习上,因而分割的类别标签不仅仅局限在身体部位上,也会补充一部分服饰类别。
现有的解决人体图像分割的方式主要有两种:(1)基于低级特征的过分割;(2)基于卷积神经网络的语义分割。基于低级特征的过分割需要一些额外的预处理步骤,如模板字典学习,同时易受光照、背景和遮挡的影响。基于卷积神经网络的语义分割起初用于场景语义理解上,比如区分一个场景图片中的建筑物、道路、行人、车辆等。由于人体图像分割更关注于部位的细粒度,基于场景语义分割的卷积模型中的设置步长和池化的策略并不直接适用人体图像分割。
从人类观察包含人体的图像的角度来看,人体图像分割应是一个由粗到细的过程。起初,人类仅将图片中的人体和背景区分出来;接着会去关注几个比较大的区域,例如上衣和裤子;进而细化到细节上,比如携带的包包、佩戴的饰品等。
发明内容
针对人体图像分割场景中分割精度不高的现状,本发明提出了一种基于多粒度级联的人体图像分割方法,通过由粗到细的分割粒度逐层细化分割结果。
为实现上述目的,本发明所述的基于粒度级联的人体图像分割方法包括如下步骤:
1)收集包含单个人体的图片以及对应的包含17种区域部位像素级标注的分割结果,划分训练集和测试集;
2)对训练集中人体图片通过训练好的CPM模型计算人体姿态;
3)构建多粒度级联的分割网络Finer-Net,Finer-Net由三个级别的子网络连接构成,通过训练集中的人体图片、人体姿态和分割结果分三个阶段进行增量式训练;
4)使用测试集的人体图片对训练后的Finer-Net进行测试,输入人体图片,得到17种区域部位标签和背景标签的分割结果。
进一步,步骤1)所述的17种区域部位包括人体部位和服饰类别,具体为人脸、头发、帽子、眼镜、脖子、围巾、左臂、右臂、上衣、左腿、右腿、裤子、腰带、包包、左鞋、右鞋。
进一步,步骤2)所述的训练好的CPM模型对于每张人体图片会给出14个关节关键点在图像中的坐标,具体包括头部、颈部、肩部(左/右)、肘部(左/右)、手腕(左/右)、髋部(左/右)、膝部(左/右)、脚踝(左/右)。
进一步,所述的三个阶段中的每个阶段都通过增加一个预训过的ResNet-101模块来实现。
进一步,步骤3)所述的三个阶段中的第一个阶段接受原图放缩0.8倍后的图片和14个关键点位置构成的关节特征图作为输入,其中在关节特征图中,每个点对于第k个关节点的产生的特征值由下式得到:
其中,(i,j)和分别是该点和第k个关节点的位置,σ1和σ2是用来控制每个关节点位置对周围影响强度的超参数。最终,每个点的特征值第一阶段的监督信息是仅包含前背景区分的分割结果,即通过将完整分割结果的17种区域部位标签设为一种标签得到。
进一步,步骤3)所述的第二个阶段接受原图、14个单通道的关节特征图以及第一个阶段的输出,其中每个单通道的关节特征图对应14个关节点,各个位置的值由得到。第二阶段的监督信息通过将原始的17种区域部位合并为3种标签加上背景标签生成的分割结果,其中人脸、头发、帽子、眼镜、脖子、围巾为头部区域;左臂、右臂、上衣为上肢区域;裤子、腰带、包包、左鞋、右鞋为下肢区域。
进一步,步骤3)所述的第三个阶段接受原图放缩1.2倍后的图片和第二个阶段的输出,得到分割结果,分割结果与原图大小一致,每个像素分配为17种区域部位或背景的标签,不同标签采用不同的颜色可视化出来。
进一步,步骤3)所述的第三个阶段增量式训练是指先将第一阶段的输入和监督信息训练完成后,增加第二阶段的网络模块,使用第二阶段的输入和监督信息继续训练。类似地,增加第三阶段的训练过程。
本发明的有益效果如下:
本发明是一种基于多粒度级联的人体图像分割方法。它从人体图像分割粒度的角度出发,从仅区分前背景的粗粒度分割出发,逐步细化到可以区分17种部位的细粒度分割上。此外,本发明还引入了人体姿态信息作为额外的先验,有效缓解了分割的歧义性。
与传统方法相比,本发明能够由粗到细地逐级优化分割结果,并有效利用人体姿态信息作为先验,从而获得更高的分割精度。
附图说明
图1是本发明方法的多粒度级联分割网络Finer-Net框架图。
具体实施方式
下面对本发明的技术方案进行清晰、完整的解释和描述。
本发明提出了一种基于多粒度级联的人体图像分割方法,该方法能够通过由粗到细的分割粒度逐层细化分割结果。包括如下步骤:
步骤1,准备人体图片数据。采集单个人体的图片以及对应的包含权利要求2所述的17种区域部位像素级标注的分割结果。其中训练集和测试集上的数目分别为10000和3000。所有样本图像块放缩至500×625。
步骤2,生成三个阶段所需的额外输入和监督信息。对于训练集上的图片,使用CPM模型生成每张人体图片对应的14个关节关键点,并根据权利要求5和6所述的方式生成前两个阶段所需的关节特征信息和监督信息。
步骤3,构建Finer-Net网络。根据图1构建Finer-Net的网络结构,σ1和σ2均取为20。模型学习率设为0.01,批处理的大小为16。
步骤4,进行第一阶段的训练。使用人体图片、关节信息作为输入,使用仅区分前背景的分割结果作为监督信息进行训练。
步骤5,进行第二阶段的训练。使用人体图片、关节信息和第一阶段的前背景分割结果作为输入,使用区分权利要求6所述的3个主要区域和背景的分割结果作为监督信息进行训练。
步骤6,进行第二阶段的训练。使用人体图片和第二阶段的前背景分割结果作为输入,使用完整的分割结果作为监督信息进行训练。模型迭代直至误差变化小于1.0时终止。
步骤6,测试Finer-Net模型的效果。将训练集中的人体图片输入到Finer-Net模型中,得到包含17种区域标签和背景标签的分割结果,与真实值比较差异。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (8)
1.一种基于多粒度级联的人体图像分割方法,包含如下步骤:
1)收集包含单个人体的图片以及对应的包含17种区域部位像素级标注的分割结果,划分训练集和测试集;
2)对训练集中人体图片通过训练好的CPM模型计算人体姿态;
3)构建多粒度级联的分割网络Finer-Net,Finer-Net由三个级别的子网络连接构成,通过训练集中的人体图片、人体姿态和分割结果分三个阶段进行增量式训练;
4)使用测试集的人体图片对训练后的Finer-Net进行测试,输入人体图片,得到17种区域部位标签和背景标签的分割结果。
2.根据权利要求1所述的一种基于多粒度级联的人体图像分割方法,其特征在于:步骤1)所述的17种区域部位包括人体部位和服饰类别,具体为人脸、头发、帽子、眼镜、脖子、围巾、左臂、右臂、上衣、左腿、右腿、裤子、腰带、包包、左鞋、右鞋。
3.根据权利要求1所述的一种基于多粒度级联的人体图像分割方法,其特征在于:步骤2)所述的训练好的CPM模型对于每张人体图片会给出14个关节关键点在图像中的坐标,具体包括头部、颈部、肩部(左/右)、肘部(左/右)、手腕(左/右)、髋部(左/右)、膝部(左/右)、脚踝(左/右)。
4.根据权利要求1所述的一种基于多粒度级联的人体图像分割方法,其特征在于:步骤3)所述的三个阶段中的每个阶段都通过增加一个预训过的ResNet-101模块来实现。
5.根据权利要求4所述的一种基于多粒度级联的人体图像分割方法,其特征在于:步骤3)所述的三个阶段中的第一个阶段接受原图放缩0.8倍后的图片和14个关键点位置构成的关节特征图作为输入,其中在关节特征图中,每个点对于第k个关节点的产生的特征值由下式得到:
其中,(i,j)和分别是该点和第k个关节点的位置,σ1和σ2是用来控制每个关节点位置对周围影响强度的超参数。最终,每个点的特征值第一阶段的监督信息是仅包含前背景区分的分割结果,即通过将完整分割结果的17种区域部位标签设为一种标签得到。
6.根据权利要求5所述的一种基于多粒度级联的人体图像分割方法,其特征在于:所述的第二个阶段接受原图、14个单通道的关节特征图以及第一个阶段的输出,其中每个单通道的关节特征图对应14个关节点,各个位置的值由得到。第二阶段的监督信息通过将原始的17种区域部位合并为3种标签加上背景标签生成的分割结果,其中人脸、头发、帽子、眼镜、脖子、围巾为头部区域;左臂、右臂、上衣为上肢区域;裤子、腰带、包包、左鞋、右鞋为下肢区域。
7.根据权利要求6所述的一种基于多粒度级联的人体图像分割方法,其特征在于:所述的第三个阶段接受原图放缩1.2倍后的图片和第二个阶段的输出,得到分割结果,分割结果与原图大小一致,每个像素分配为17种区域部位或背景的标签,不同标签采用不同的颜色可视化出来。
8.根据权利要求7所述的一种基于多粒度级联的人体图像分割方法,其特征在于:所述的第三个阶段增量式训练是指先将第一阶段的输入和监督信息训练完成后,增加第二阶段的网络模块,使用第二阶段的输入和监督信息继续训练。类似地,增加第三阶段的训练过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176351.2A CN109636804A (zh) | 2018-10-10 | 2018-10-10 | 一种基于多粒度级联的人体图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176351.2A CN109636804A (zh) | 2018-10-10 | 2018-10-10 | 一种基于多粒度级联的人体图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109636804A true CN109636804A (zh) | 2019-04-16 |
Family
ID=66066369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811176351.2A Pending CN109636804A (zh) | 2018-10-10 | 2018-10-10 | 一种基于多粒度级联的人体图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109636804A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112405530A (zh) * | 2020-11-06 | 2021-02-26 | 齐鲁工业大学 | 基于可穿戴视觉的机器人视觉跟踪控制系统及控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678241A (zh) * | 2015-12-30 | 2016-06-15 | 四川川大智胜软件股份有限公司 | 一种级联的二维图像人脸姿态估计方法 |
CN107993238A (zh) * | 2017-12-19 | 2018-05-04 | 中科视拓(北京)科技有限公司 | 一种基于注意力模型的头肩部分图像分割方法及装置 |
CN108010041A (zh) * | 2017-12-22 | 2018-05-08 | 数坤(北京)网络科技有限公司 | 基于深度学习神经网络级联模型的人体心脏冠脉提取方法 |
CN108197587A (zh) * | 2018-01-18 | 2018-06-22 | 中科视拓(北京)科技有限公司 | 一种通过人脸深度预测进行多模态人脸识别的方法 |
WO2018176186A1 (en) * | 2017-03-27 | 2018-10-04 | Intel Corporation | Semantic image segmentation using gated dense pyramid blocks |
-
2018
- 2018-10-10 CN CN201811176351.2A patent/CN109636804A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678241A (zh) * | 2015-12-30 | 2016-06-15 | 四川川大智胜软件股份有限公司 | 一种级联的二维图像人脸姿态估计方法 |
WO2018176186A1 (en) * | 2017-03-27 | 2018-10-04 | Intel Corporation | Semantic image segmentation using gated dense pyramid blocks |
CN107993238A (zh) * | 2017-12-19 | 2018-05-04 | 中科视拓(北京)科技有限公司 | 一种基于注意力模型的头肩部分图像分割方法及装置 |
CN108010041A (zh) * | 2017-12-22 | 2018-05-08 | 数坤(北京)网络科技有限公司 | 基于深度学习神经网络级联模型的人体心脏冠脉提取方法 |
CN108197587A (zh) * | 2018-01-18 | 2018-06-22 | 中科视拓(北京)科技有限公司 | 一种通过人脸深度预测进行多模态人脸识别的方法 |
Non-Patent Citations (1)
Title |
---|
JINGWEN YE ETC: "FINER-NET: CASCADED HUMAN PARSING WITH HIERARCHICAL GRANULARITY", 《2018 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112405530A (zh) * | 2020-11-06 | 2021-02-26 | 齐鲁工业大学 | 基于可穿戴视觉的机器人视觉跟踪控制系统及控制方法 |
CN112405530B (zh) * | 2020-11-06 | 2022-01-11 | 齐鲁工业大学 | 基于可穿戴视觉的机器人视觉跟踪控制系统及控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230326111A1 (en) | System and method for creating avatars or animated sequences using human body features extracted from a still image | |
CN109190578B (zh) | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 | |
CN105447466B (zh) | 一种基于Kinect传感器的身份综合识别方法 | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
CN105138954B (zh) | 一种图像自动筛选查询识别系统 | |
CN106778584A (zh) | 一种基于深层特征与浅层特征融合的人脸年龄估计方法 | |
Deora et al. | Indian sign language recognition | |
CN108288072A (zh) | 一种基于生成对抗网络的面部表情合成方法 | |
US20210248748A1 (en) | Multi-object image parsing using neural network pipeline | |
CN105787878A (zh) | 一种美颜处理方法及装置 | |
CN107169455A (zh) | 基于深度局部特征的人脸属性识别方法 | |
CN109063671A (zh) | 用于智能化妆的方法及装置 | |
CN108564012A (zh) | 一种基于人体特征分布的行人解析方法 | |
CN113569732B (zh) | 基于并行共享多任务网络的人脸属性识别方法及系统 | |
CN109614925A (zh) | 服饰属性识别方法和装置、电子设备、存储介质 | |
CN112001353A (zh) | 一种基于多任务联合监督学习的行人再识别方法 | |
CN109410119A (zh) | 面具图像变形方法及其系统 | |
CN108073851A (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
CN115345773B (zh) | 基于生成对抗网络的妆容迁移方法 | |
Li et al. | TCMINet: Face parsing for traditional Chinese medicine inspection via a hybrid neural network with context aggregation | |
CN109636804A (zh) | 一种基于多粒度级联的人体图像分割方法 | |
CN107977618A (zh) | 一种基于双层级联神经网络的人脸对齐方法 | |
CN108564058B (zh) | 一种图像处理方法、装置及计算机可读存储介质 | |
CN106446207A (zh) | 美妆库建库方法、个性化美妆辅助方法及其装置 | |
Cerezo et al. | Real-time facial expression recognition for natural interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190416 |