CN111462162B

CN111462162B - 一种特定类别图片的前景分割算法

Info

Publication number: CN111462162B
Application number: CN201910049156.1A
Authority: CN
Inventors: 李晓强; 戴松民
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2023-07-21
Anticipated expiration: 2039-01-18
Also published as: CN111462162A

Abstract

本发明公开了一种特定类别图片的前景分割算法，涉及图片处理领域，要解决的是现有方法的视觉质量较差的问题。本发明具体步骤如下：步骤一，准备充分多的包含目标类别的图片；步骤二，准备充分多并且真实的背景图片；步骤三，生成对抗训练学习前景分割。本发明使用对抗训练优化合成图片来优化目标前景分割，会有更好的视觉质量；本发明在合成图片中使用独立采样,确保前景和背景的外观独立，可以避免人工设计统计描述的不足,使用更为低廉的标注代价训练出能直接从图片中抠取高质量前景的神经网络模型，具有广阔的应用前景。

Description

一种特定类别图片的前景分割算法

技术领域

本发明涉及图片处理领域，具体是一种特定类别图片的前景分割算法。

背景技术

随着深度学习的发展,传统图像处理算法正被取代,深度神经网络能自动学习有利于处理特定任务的特征,用它们进行决策,相比利用传统手工设计的特征更通用,适应能力更强且能有较高泛化能力。正因如此,目前的算法在进行图像分割,也即对图片中的物体元素进行像素级提取和定位等任务上的效果都取得了很大的进步。只要用于训练神经网络模型的标注数据足够多,一般都能满足实际应用的需求。

但是由于图像分割的标注需要精确到每个像素点,这使得标注成本非常高昂,获取大量有标注数据显得极为困难。但庆幸的是,近几年来,生成模型取得了很大的进展,能有效训练的生成模型使得通过生成无标注数据来学习数据内部的知识成为可能。LR-GAN以及Image Generation from Scene Graphs向我们展示了,利用生成模型和无像素级标注的数据,网络可以学习到粗糙的物体掩模，LR-GAN通过神经网络凭空生成多个图层并通过对抗训练优化合成图片的质量,每个图层能无监督地学习到物体的外观和分割掩模,但由于其并没有训练出一个从图片中抠取物体的网络,因此并不能直接用于前景分割。并且其各图层之间存在相互依赖的变量,物体外观可能会相互补充缺失的内容,使得单个图层不需要看起来真实,因此分割质量可能受损。

有监督的分割算法需要对图片进行像素级别的标注,不仅代价高昂,而且由于基于判别模型,对标注进行拟合,拟合得到的分割即使与标注非常接近,仍有可能在与其他图片合成时有较差的视觉质量。

另外也有不基于深度学习的传统前景分割算法,如非常流行的GrabCut,其通过分析用户指定的前景框以外的区域,学习背景的统计特性以移除前景框中的剩余背景，但是GrabCut根据用户指定前景框,通过分析框外背景的人工设计的统计描述来区分前景背景,因此不仅需要和用户互动而且分割效果还严重依赖于人工设计的统计描述。

发明内容

本发明的目的在于提供一种特定类别图片的前景分割算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种特定类别图片的前景分割算法，具体步骤如下：

步骤一，准备充分多的包含目标类别的图片；

步骤二，准备充分多并且真实的背景图片；

步骤三，生成对抗训练学习前景分割。

作为本发明进一步的方案：步骤一中准备包含目标类别的图片的方式为在开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小；在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小。

作为本发明进一步的方案：开源数据集包括imagenet和coco。

作为本发明进一步的方案：步骤二中准备背景图片的方式为从检测框以外的区域随机选取尺寸相近的小块,并缩放到预设大小作为背景图片；根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块。

作为本发明进一步的方案：步骤三中生成对抗训练学习前景分割的方式如下：

第一，随机采样包含目标类别的图片并通过前景分割网络提取前景,将其贴到随机采样的背景图片中,得到合成样本；

第二，随机采样一个批量的真实样本和合成样本,对判别器执行一次梯度下降，以训练其二分类能力,降低分类损失；

第三，根据判别器的得分,对前景分割网络执行一次梯度上升，以使得合成样本被判别为真的得分更高，同时执行一次梯度下降，以减小前景掩模的面积,实现面积惩罚；

第四，重复第一至第三步，直到分割结果有足够好的视觉质量；

第五，根据实际情况,对第四步的结果进行数据蒸馏，以提升分割效果。

作为本发明进一步的方案：步骤一中还包括使用人工收集并切取该类别的图片,缩放到预设大小。

作为本发明进一步的方案：视觉质量包括视觉清晰度、视觉舒适度和视觉稳定性。

与现有技术相比，本发明的有益效果是：

本发明使用对抗训练优化合成图片来优化目标前景分割，会有更好的视觉质量；

本发明在合成图片中使用独立采样,确保前景和背景的外观独立，可以避免人工设计统计描述的不足,使用更为低廉的标注代价训练出能直接从图片中抠取高质量前景的神经网络模型，具有广阔的应用前景。

附图说明

图1为特定类别图片的前景分割算法的流程图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

实施例1

一种特定类别图片的前景分割算法，具体步骤如下：

步骤一，准备充分多的包含目标类别的图片：在imagenet、coco等开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小；在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小；

步骤二，准备充分多并且真实的背景图片；

步骤三，生成对抗训练学习前景分割：第一，随机采样包含目标类别的图片并通过前景分割网络提取前景,将其贴到随机采样的背景图片中,得到合成样本；

第五，根据实际情况,对第四步的结果进行数据蒸馏，以提升分割效果，可以避免人工设计统计描述的不足,使用更为低廉的标注代价，训练出能直接从图片中抠取高质量前景的神经网络模型。

实施例2

一种特定类别图片的前景分割算法，具体步骤如下：

步骤一，准备充分多的包含目标类别的图片：在imagenet、coco等开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小；在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小；使用人工收集并切取该类别的图片,缩放到预设大小；

步骤二，准备充分多并且真实的背景图片：从检测框以外的区域随机选取尺寸相近的小块,并缩放到预设大小作为背景图片；根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块；

第四，重复第一至第三步，直到分割结果有足够好的视觉质量，视觉质量包括视觉清晰度、视觉舒适度和视觉稳定性；

第五，根据实际情况,对第四步的结果进行数据蒸馏，以提升分割效果，由于背景图片集中几乎不包含目标前景,生成器必须从目标图片中分割出含前景的区域并贴到背景图片中,才能生成逼真的目标类别图片；但生成器可能直接将整个原图分割成前景并覆盖掉背景图片,以此得到逼真的输出结果，为解决这个问题,需要在对抗训练的同时使用前景面积惩罚,使其扣取不使目标区域破损的最小必要区域。

实施例3

一种特定类别图片的前景分割算法，具体步骤如下：

步骤一，准备充分多的包含目标类别的图片：在开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小；在互联网上根据关键字爬取该类别的图片,使用目标检测器进行选框预测,切取该区域并缩放到预设大小；使用人工收集并切取该类别的图片,缩放到预设大小；

步骤三，生成对抗训练学习前景分割，通过对抗训练优化合成图片的真实程度,进而优化前景分割的质量。

生成对抗网络:生成对抗网络是通过对抗的方式来训练判别器网络和生成器网络,在只有真实样本的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成的样本的真实度.生成对抗训练可以用于学习样本的分布,或者优化图片质量。

判别器:在生成对抗训练中,用于鉴别真实样本和生成样本的二分类器,可以提供可微的梯度供生成器改善生成样本。

生成器:在生成对抗训练中,用于生成样本的结构.可以根据判别器提供的分类梯度逐步改善生成质量,以生成判别器甚至人类无法辨别真伪的样本。

本发明是基于生成对抗训练中自动学习到的统计特征来提取前景,因此适应能力比GrabCut更强,在人工统计描述难以处理的场景仍能发挥作用。

本发明的方法基于生成模型,并不需要对图片进行像素级别的标注；并且由于在对抗训练时,分割结果和大量自然背景复合成新图片,其合成质量被生成对抗训练所优化。因此相比于有监督的分割算法,本发明的方法不仅标注成本低,而且分割结果用于图片合成会有更好的视觉质量。

在生成合成图片的过程中,每个图层的对象的外观之间必须是相互独立的,这样可以有效避免图层之间的相互沟通,使得各自的缺陷无法被相互弥补,任一图层的缺陷最终一定有机会在合成图片中显现出来。因此在使用生成对抗训练来优化合成图片的同时,各个图层一定也会被优化,尽可能消除外观或者分割掩模上的任何缺陷,从而可以得到更高质量的分割掩模。

另外,为了能从自然图片中推理出感兴趣的物体的分割掩模并缓解生成复杂背景可能会带来的额外负担,我们的前景图层和背景图层并非像LR-GAN那样使用神经网络凭空生成,而是使用网络根据输入图片推理出的分割掩模来抠取出目标物体，做为前景图层,从物体周围或者语义相关的背景图片中采样相同尺寸的图片作为背景图层,通过对抗训练优化合成图片,实现对分割掩模的优化,因此本发明的算法可以从图片中推理出前景分割。

另外由于本发明的方法不需要像素标注的数据即可工作,因此可以从网络上爬取大量包含特定类别物体的图片,充分利用数据量的优势训练出一个泛化能力很强的分割算法。因此不仅代价低廉,通用性强还能充分发挥海量数据的价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种特定类别图片的前景分割算法，其特征在于，具体步骤如下：

步骤一，准备包含目标类别的图片；

步骤二，准备真实的背景图片；

步骤三，生成对抗训练学习前景分割；

所述步骤一中准备包含目标类别的图片的方式为在开源数据集中寻找是否有含该类别的图片,若有则使用提供的检测框标注信息进行切取,统一缩放到预设大小；在互联网上根据关键字爬取该类别的图片, 使用目标检测器进行选框预测切取并缩放到预设大小；

所述步骤二中准备背景图片的方式为从检测框以外的区域随机选取小块,并缩放到预设大小作为背景图片；根据人类经验,选择特定场景的描述关键字,从互联网上爬取该类别的图片,随机切取出预设大小的小块；

所述步骤三中生成对抗训练学习前景分割的方式如下：

第二，随机采样一个批量的真实样本和合成样本,对判别器执行一次梯度下降；

第三，根据判别器的得分,对前景分割网络执行一次梯度上升，同时执行一次梯度下降；

第四，重复第一至第三步，直到分割结果达到所需的视觉质量；

第五，对第四步的结果进行数据蒸馏，以提升分割效果。

2.根据权利要求1所述的特定类别图片的前景分割算法，其特征在于，所述开源数据集包括imagenet和coco。

3.根据权利要求1或2所述的特定类别图片的前景分割算法，其特征在于，所述步骤一中还包括使用人工收集并切取该类别的图片,缩放到预设大小。

4.根据权利要求3所述的特定类别图片的前景分割算法，其特征在于，所述视觉质量包括视觉清晰度、视觉舒适度和视觉稳定性。