CN111462162B - 一种特定类别图片的前景分割算法 - Google Patents

一种特定类别图片的前景分割算法 Download PDF

Info

Publication number
CN111462162B
CN111462162B CN201910049156.1A CN201910049156A CN111462162B CN 111462162 B CN111462162 B CN 111462162B CN 201910049156 A CN201910049156 A CN 201910049156A CN 111462162 B CN111462162 B CN 111462162B
Authority
CN
China
Prior art keywords
picture
foreground
pictures
segmentation
foreground segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910049156.1A
Other languages
English (en)
Other versions
CN111462162A (zh
Inventor
李晓强
戴松民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910049156.1A priority Critical patent/CN111462162B/zh
Publication of CN111462162A publication Critical patent/CN111462162A/zh
Application granted granted Critical
Publication of CN111462162B publication Critical patent/CN111462162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种特定类别图片的前景分割算法,涉及图片处理领域,要解决的是现有方法的视觉质量较差的问题。本发明具体步骤如下:步骤一,准备充分多的包含目标类别的图片;步骤二,准备充分多并且真实的背景图片;步骤三,生成对抗训练学习前景分割。本发明使用对抗训练优化合成图片来优化目标前景分割,会有更好的视觉质量;本发明在合成图片中使用独立采样,确保前景和背景的外观独立,可以避免人工设计统计描述的不足,使用更为低廉的标注代价训练出能直接从图片中抠取高质量前景的神经网络模型,具有广阔的应用前景。

Description

一种特定类别图片的前景分割算法
技术领域
本发明涉及图片处理领域,具体是一种特定类别图片的前景分割算法。
背景技术
随着深度学习的发展,传统图像处理算法正被取代,深度神经网络能自动学习有利于处理特定任务的特征,用它们进行决策,相比利用传统手工设计的特征更通用,适应能力更强且能有较高泛化能力。正因如此,目前的算法在进行图像分割,也即对图片中的物体元素进行像素级提取和定位等任务上的效果都取得了很大的进步。只要用于训练神经网络模型的标注数据足够多,一般都能满足实际应用的需求。
但是由于图像分割的标注需要精确到每个像素点,这使得标注成本非常高昂,获取大量有标注数据显得极为困难。但庆幸的是,近几年来,生成模型取得了很大的进展,能有效训练的生成模型使得通过生成无标注数据来学习数据内部的知识成为可能。LR-GAN以及Image Generation from Scene Graphs向我们展示了,利用生成模型和无像素级标注的数据,网络可以学习到粗糙的物体掩模,LR-GAN通过神经网络凭空生成多个图层并通过对抗训练优化合成图片的质量,每个图层能无监督地学习到物体的外观和分割掩模,但由于其并没有训练出一个从图片中抠取物体的网络,因此并不能直接用于前景分割。并且其各图层之间存在相互依赖的变量,物体外观可能会相互补充缺失的内容,使得单个图层不需要看起来真实,因此分割质量可能受损。
有监督的分割算法需要对图片进行像素级别的标注,不仅代价高昂,而且由于基于判别模型,对标注进行拟合,拟合得到的分割即使与标注非常接近,仍有可能在与其他图片合成时有较差的视觉质量。
另外也有不基于深度学习的传统前景分割算法,如非常流行的GrabCut,其通过分析用户指定的前景框以外的区域,学习背景的统计特性以移除前景框中的剩余背景,但是GrabCut根据用户指定前景框,通过分析框外背景的人工设计的统计描述来区分前景背景,因此不仅需要和用户互动而且分割效果还严重依赖于人工设计的统计描述。
发明内容
本发明的目的在于提供一种特定类别图片的前景分割算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种特定类别图片的前景分割算法,具体步骤如下:
步骤一,准备充分多的包含目标类别的图片;
步骤二,准备充分多并且真实的背景图片;
步骤三,生成对抗训练学习前景分割。
作为本发明进一步的方案:步骤一中准备包含目标类别的图片的方式为在开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小;在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小。
作为本发明进一步的方案:开源数据集包括imagenet和coco。
作为本发明进一步的方案:步骤二中准备背景图片的方式为从检测框以外的区域随机选取尺寸相近的小块,并缩放到预设大小作为背景图片;根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块。
作为本发明进一步的方案:步骤三中生成对抗训练学习前景分割的方式如下:
第一,随机采样包含目标类别的图片并通过前景分割网络提取前景,将其贴到随机采样的背景图片中,得到合成样本;
第二,随机采样一个批量的真实样本和合成样本,对判别器执行一次梯度下降,以训练其二分类能力,降低分类损失;
第三,根据判别器的得分,对前景分割网络执行一次梯度上升,以使得合成样本被判别为真的得分更高,同时执行一次梯度下降,以减小前景掩模的面积,实现面积惩罚;
第四,重复第一至第三步,直到分割结果有足够好的视觉质量;
第五,根据实际情况,对第四步的结果进行数据蒸馏,以提升分割效果。
作为本发明进一步的方案:步骤一中还包括使用人工收集并切取该类别的图片,缩放到预设大小。
作为本发明进一步的方案:视觉质量包括视觉清晰度、视觉舒适度和视觉稳定性。
与现有技术相比,本发明的有益效果是:
本发明使用对抗训练优化合成图片来优化目标前景分割,会有更好的视觉质量;
本发明在合成图片中使用独立采样,确保前景和背景的外观独立,可以避免人工设计统计描述的不足,使用更为低廉的标注代价训练出能直接从图片中抠取高质量前景的神经网络模型,具有广阔的应用前景。
附图说明
图1为特定类别图片的前景分割算法的流程图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种特定类别图片的前景分割算法,具体步骤如下:
步骤一,准备充分多的包含目标类别的图片:在imagenet、coco等开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小;在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小;
步骤二,准备充分多并且真实的背景图片;
步骤三,生成对抗训练学习前景分割:第一,随机采样包含目标类别的图片并通过前景分割网络提取前景,将其贴到随机采样的背景图片中,得到合成样本;
第二,随机采样一个批量的真实样本和合成样本,对判别器执行一次梯度下降,以训练其二分类能力,降低分类损失;
第三,根据判别器的得分,对前景分割网络执行一次梯度上升,以使得合成样本被判别为真的得分更高,同时执行一次梯度下降,以减小前景掩模的面积,实现面积惩罚;
第四,重复第一至第三步,直到分割结果有足够好的视觉质量;
第五,根据实际情况,对第四步的结果进行数据蒸馏,以提升分割效果,可以避免人工设计统计描述的不足,使用更为低廉的标注代价,训练出能直接从图片中抠取高质量前景的神经网络模型。
实施例2
一种特定类别图片的前景分割算法,具体步骤如下:
步骤一,准备充分多的包含目标类别的图片:在imagenet、coco等开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小;在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小;使用人工收集并切取该类别的图片,缩放到预设大小;
步骤二,准备充分多并且真实的背景图片:从检测框以外的区域随机选取尺寸相近的小块,并缩放到预设大小作为背景图片;根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块;
步骤三,生成对抗训练学习前景分割:第一,随机采样包含目标类别的图片并通过前景分割网络提取前景,将其贴到随机采样的背景图片中,得到合成样本;
第二,随机采样一个批量的真实样本和合成样本,对判别器执行一次梯度下降,以训练其二分类能力,降低分类损失;
第三,根据判别器的得分,对前景分割网络执行一次梯度上升,以使得合成样本被判别为真的得分更高,同时执行一次梯度下降,以减小前景掩模的面积,实现面积惩罚;
第四,重复第一至第三步,直到分割结果有足够好的视觉质量,视觉质量包括视觉清晰度、视觉舒适度和视觉稳定性;
第五,根据实际情况,对第四步的结果进行数据蒸馏,以提升分割效果,由于背景图片集中几乎不包含目标前景,生成器必须从目标图片中分割出含前景的区域并贴到背景图片中,才能生成逼真的目标类别图片;但生成器可能直接将整个原图分割成前景并覆盖掉背景图片,以此得到逼真的输出结果,为解决这个问题,需要在对抗训练的同时使用前景面积惩罚,使其扣取不使目标区域破损的最小必要区域。
实施例3
一种特定类别图片的前景分割算法,具体步骤如下:
步骤一,准备充分多的包含目标类别的图片:在开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小;在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小;使用人工收集并切取该类别的图片,缩放到预设大小;
步骤二,准备充分多并且真实的背景图片:从检测框以外的区域随机选取尺寸相近的小块,并缩放到预设大小作为背景图片;根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块;
步骤三,生成对抗训练学习前景分割,通过对抗训练优化合成图片的真实程度,进而优化前景分割的质量。
生成对抗网络:生成对抗网络是通过对抗的方式来训练判别器网络和生成器网络,在只有真实样本的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成的样本的真实度.生成对抗训练可以用于学习样本的分布,或者优化图片质量。
判别器:在生成对抗训练中,用于鉴别真实样本和生成样本的二分类器,可以提供可微的梯度供生成器改善生成样本。
生成器:在生成对抗训练中,用于生成样本的结构.可以根据判别器提供的分类梯度逐步改善生成质量,以生成判别器甚至人类无法辨别真伪的样本。
本发明是基于生成对抗训练中自动学习到的统计特征来提取前景,因此适应能力比GrabCut更强,在人工统计描述难以处理的场景仍能发挥作用。
本发明的方法基于生成模型,并不需要对图片进行像素级别的标注;并且由于在对抗训练时,分割结果和大量自然背景复合成新图片,其合成质量被生成对抗训练所优化。因此相比于有监督的分割算法,本发明的方法不仅标注成本低,而且分割结果用于图片合成会有更好的视觉质量。
在生成合成图片的过程中,每个图层的对象的外观之间必须是相互独立的,这样可以有效避免图层之间的相互沟通,使得各自的缺陷无法被相互弥补,任一图层的缺陷最终一定有机会在合成图片中显现出来。因此在使用生成对抗训练来优化合成图片的同时,各个图层一定也会被优化,尽可能消除外观或者分割掩模上的任何缺陷,从而可以得到更高质量的分割掩模。
另外,为了能从自然图片中推理出感兴趣的物体的分割掩模并缓解生成复杂背景可能会带来的额外负担,我们的前景图层和背景图层并非像LR-GAN那样使用神经网络凭空生成,而是使用网络根据输入图片推理出的分割掩模来抠取出目标物体,做为前景图层,从物体周围或者语义相关的背景图片中采样相同尺寸的图片作为背景图层,通过对抗训练优化合成图片,实现对分割掩模的优化,因此本发明的算法可以从图片中推理出前景分割。
另外由于本发明的方法不需要像素标注的数据即可工作,因此可以从网络上爬取大量包含特定类别物体的图片,充分利用数据量的优势训练出一个泛化能力很强的分割算法。因此不仅代价低廉,通用性强还能充分发挥海量数据的价值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种特定类别图片的前景分割算法,其特征在于,具体步骤如下:
步骤一,准备包含目标类别的图片;
步骤二,准备真实的背景图片;
步骤三,生成对抗训练学习前景分割;
所述步骤一中准备包含目标类别的图片的方式为在开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小;在互联网上根据关键字爬取该类别的图片, 使用目标检测器进行选框预测切取并缩放到预设大小;
所述步骤二中准备背景图片的方式为从检测框以外的区域随机选取小块,并缩放到预设大小作为背景图片;根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块;
所述步骤三中生成对抗训练学习前景分割的方式如下:
第一,随机采样包含目标类别的图片并通过前景分割网络提取前景,将其贴到随机采样的背景图片中,得到合成样本;
第二,随机采样一个批量的真实样本和合成样本,对判别器执行一次梯度下降;
第三,根据判别器的得分,对前景分割网络执行一次梯度上升,同时执行一次梯度下降;
第四,重复第一至第三步,直到分割结果达到所需的视觉质量;
第五,对第四步的结果进行数据蒸馏,以提升分割效果。
2.根据权利要求1所述的特定类别图片的前景分割算法,其特征在于,所述开源数据集包括imagenet和coco。
3.根据权利要求1或2所述的特定类别图片的前景分割算法,其特征在于,所述步骤一中还包括使用人工收集并切取该类别的图片,缩放到预设大小。
4.根据权利要求3所述的特定类别图片的前景分割算法,其特征在于,所述视觉质量包括视觉清晰度、视觉舒适度和视觉稳定性。
CN201910049156.1A 2019-01-18 2019-01-18 一种特定类别图片的前景分割算法 Active CN111462162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910049156.1A CN111462162B (zh) 2019-01-18 2019-01-18 一种特定类别图片的前景分割算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910049156.1A CN111462162B (zh) 2019-01-18 2019-01-18 一种特定类别图片的前景分割算法

Publications (2)

Publication Number Publication Date
CN111462162A CN111462162A (zh) 2020-07-28
CN111462162B true CN111462162B (zh) 2023-07-21

Family

ID=71678195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910049156.1A Active CN111462162B (zh) 2019-01-18 2019-01-18 一种特定类别图片的前景分割算法

Country Status (1)

Country Link
CN (1) CN111462162B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001939B (zh) 2020-08-10 2021-03-16 浙江大学 基于边缘知识转化的图像前景分割算法
CN113269784B (zh) * 2021-05-07 2024-01-30 上海大学 一种用于小样本的前景分割方法
CN113255915B8 (zh) * 2021-05-20 2024-02-06 深圳思谋信息科技有限公司 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN114820685B (zh) * 2022-04-24 2023-01-31 清华大学 独立图层生成对抗网络的生成方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599892A (zh) * 2016-12-14 2017-04-26 四川长虹电器股份有限公司 基于深度学习的电视台标识别系统
CN107945204A (zh) * 2017-10-27 2018-04-20 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
CN108154518A (zh) * 2017-12-11 2018-06-12 广州华多网络科技有限公司 一种图像处理的方法、装置、存储介质及电子设备
CN108986058A (zh) * 2018-06-22 2018-12-11 华东师范大学 明度一致性学习的图像融合方法
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109146830A (zh) * 2018-07-17 2019-01-04 北京旷视科技有限公司 用于生成训练数据的方法、装置、系统和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599892A (zh) * 2016-12-14 2017-04-26 四川长虹电器股份有限公司 基于深度学习的电视台标识别系统
CN107945204A (zh) * 2017-10-27 2018-04-20 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
CN108154518A (zh) * 2017-12-11 2018-06-12 广州华多网络科技有限公司 一种图像处理的方法、装置、存储介质及电子设备
CN108986058A (zh) * 2018-06-22 2018-12-11 华东师范大学 明度一致性学习的图像融合方法
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109146830A (zh) * 2018-07-17 2019-01-04 北京旷视科技有限公司 用于生成训练数据的方法、装置、系统和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Data Augmentation with Improved Generative Adversarial Networks;hongjiang shi;IEEE Xplore;全文 *
基于深度学习的图像语义分割研究;肖旭;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN111462162A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462162B (zh) 一种特定类别图片的前景分割算法
CN110956185B (zh) 一种图像显著目标的检测方法
Li et al. A free lunch for unsupervised domain adaptive object detection without source data
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN112132197B (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN108829677A (zh) 一种基于多模态注意力的图像标题自动生成方法
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
US20130188866A1 (en) Method to assess aesthetic quality of photographs
US20110292051A1 (en) Automatic Avatar Creation
Zhao et al. Selective region-based photo color adjustment for graphic designs
CN110443763A (zh) 一种基于卷积神经网络的图像阴影去除方法
CN101477633A (zh) 自动估计图像和视频的视觉显著度的方法
CN109308324A (zh) 一种基于手绘风格推荐的图像检索方法及系统
US20220375223A1 (en) Information generation method and apparatus
CN108647696B (zh) 图片颜值确定方法及装置、电子设备、存储介质
CN109215047B (zh) 基于深海视频的运动目标检测方法和装置
CN111597978B (zh) 基于StarGAN网络模型实现行人重识别图片自动生成的方法
WO2024131565A1 (zh) 服装图像提取方法及其装置、设备、介质、产品
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
CN110287369B (zh) 一种基于语义的视频检索方法及系统
CN113361530A (zh) 使用交互手段的图像语义精准分割及优化方法
WO2024099026A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
Wang et al. MRF based text binarization in complex images using stroke feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant