CN111461150B

CN111461150B - 一种无监督学习物体外观的算法

Info

Publication number: CN111461150B
Application number: CN201910049159.5A
Authority: CN
Inventors: 李晓强; 戴松民
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2023-07-21
Anticipated expiration: 2039-01-18
Also published as: CN111461150A

Abstract

本发明公开了一种无监督学习物体外观的算法，涉及学习物体外观领域，要解决的是没有显式的学会该类物体的具体边界以及分割掩模的问题。本发明步骤如下：步骤一，准备一张包含充分多目标类别物体的图片；步骤二，对步骤一的图片进行数据预处理；步骤三，对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。本发明只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息，生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象，并且除了能学到生成物体的外观还能学到物体的分割掩模。

Description

一种无监督学习物体外观的算法

技术领域

本发明涉及学习物体外观的领域，具体是一种无监督学习物体外观的算法。

背景技术

无监督地学习物体的外观需要能对高维数据分布建立生成模型，这种技术直到最近几年才得到发展。现有方法主要有以下三种:生成对抗网络GAN通过对抗的方式来训练判别器网络和生成器网络,在只有真实图片的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成图片的真实度；变分自编码器VAE,通过训练自编码器并约束隐藏因子的分布实现以可控的隐藏分布和解码器来映射出真实分布；以及基于流的可逆生成模型Glow,通过可逆函数的雅克比矩阵直接算出映射分布的解析式,从而直接优化映射分布,以逼近真实分布。

但是GAN、VAE和Glow都需要大量样本来体现数据的真实分布,因此要想无监督地学习特定类别物体的外观并能生成该类物体的逼真图片都需要大量包含该类物体的图片。这些生成模型虽然能够生成逼真的图片,但其中的前景和背景是混合在一起输出的,具体哪些像素属于前景仍然不知道,因此即使模型见过大量的该类物体,但仍然没有显式的学会该类物体的具体边界,分割掩模。

发明内容

本发明的目的在于提供一种无监督学习物体外观的算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种无监督学习物体外观的算法，具体步骤如下：

步骤一，准备一张包含充分多目标类别物体的图片；

步骤二，对步骤一的图片进行数据预处理；

步骤三，对步骤二的图片生成对抗训练学习前景外观和分割。

作为本发明进一步的方案：步骤一中准备一张包含充分多目标类别物体图片的方式为从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好；人工将该目标类别物体大量堆放在背景上,尽量让目标类别物体空间分布随机并覆盖住背景。

作为本发明进一步的方案：背景采用纯色背景。

作为本发明进一步的方案：步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸。

作为本发明进一步的方案：窗口的大小为1.5倍最大目标类别物体的宽度，图片方块的数量不少于1万个。

作为本发明进一步的方案：生成对抗训练学习前景外观和分割的方式为：第一，人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N；

第二，从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度)；将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块；

第三，采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本，以二分类的方式训练判别器一次；

第四，根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度；

第五，重复第二至第四步，直到生成器生成的物体有可以接受的效果。

作为本发明进一步的方案：一个批次的合成图片块的数量为32张。

与现有技术相比，本发明的有益效果是：

本发明只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,因此不需要大量的数据,也不需要任何标注信息进行监督,人工成本几乎为零；

本发明生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象，并且除了能学到生成物体的外观还能学到物体的分割掩模。

附图说明

图1为无监督学习物体外观的算法的流程图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

实施例1

一种无监督学习物体外观的算法，具体步骤如下：

步骤一，准备一张包含充分多目标类别物体的图片：从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好；人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景；

步骤二，对步骤一的图片进行数据预处理：根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸；

步骤三，对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模，可以减小对训练图片数量的需求,并同时学得特定类别物体的分割掩模。

实施例2

一种无监督学习物体外观的算法，具体步骤如下：

步骤二，对步骤一的图片进行数据预处理：根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸，窗口的大小为1.5倍最大目标类别物体的宽度，图片方块的数量不少于1万个；

步骤三，对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模：第一，人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N；

第二，从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度)；将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块，因此能从目标物体高度堆叠遮挡的图像中学习,并且除了能学到生成物体的外观还能学到物体的分割掩模；

第三，采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本，以二分类的方式训练判别器一次，一个批次的合成图片块的数量为32张；

第五，重复第二至第四步，直到生成器生成的物体有可以接受的效果，通过每个图层生成一个对象,然后将这些图层符合成一张图片,本发明通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量，为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使其只覆盖单个对象的必要区域。

实施例3

一种无监督学习物体外观的算法，具体步骤如下：

步骤一，准备一张包含充分多目标类别物体的图片；

步骤二，对步骤一的图片进行数据预处理：根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸；

步骤三，对步骤二的图片生成对抗训练学习前景外观和分割：第一，人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N；

第五，重复第二至第四步，直到生成器生成的物体有可以接受的效果，本发明利用包含稠密且随机堆积的同类别物体的图片来学习该类别物体的外观和分割，分图层生成堆叠物体图片,并使用生成对抗训练来优化合成图片,从而优化每个图层学得的外观和分割。

生成对抗网络:生成对抗网络是通过对抗的方式来训练判别器网络和生成器网络,在只有真实样本的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成的样本的真实度。生成对抗训练可以用于学习样本的分布,或者优化图片质量。

判别器:在生成对抗训练中,用于鉴别真实样本和生成样本的二分类器,可以提供可微的梯度供生成器改善生成样本。

生成器:在生成对抗训练中,用于生成样本的结构.可以根据判别器提供的分类梯度逐步改善生成质量,以生成判别器甚至人类无法辨别真伪的样本。

本发明的基本依据是在这种特殊选取或者拍摄的图片中,包含了大量该类别物体的实例,足以体现该类别物体的外观和分割信息。但由于大量这样的物体随机分布并堆叠在一起,并没有人工标注的选框将单个对象一一切分出来,直接使用一般的生成模型不能分离地学习到单个对象的外观和分割。

本发明的基本思想是通过每个图层生成一个对象,然后将这些图层符合成一张图片,通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量。为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使其只覆盖单个对象的必要区域。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种无监督学习物体外观的算法，其特征在于，具体步骤如下：

步骤一，准备一张包含目标类别物体的图片；

步骤二，对步骤一的图片进行数据预处理；

步骤三，对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模；

所述步骤一中准备一张包含目标类别物体图片的方式为从互联网上找一张目标类别物体拥挤在一起的图片,人工将该目标类别物体堆放在背景上,让目标类别物体空间分布随机并覆盖住背景；

所述步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口, 从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸；

所述生成对抗训练学习前景外观和分割的方式为：

第一，人工观察所切出来的真实图片块中包含的目标类别物体数量,估计

目标类别物体数量上限N；

第二，从m维度标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片；将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块；

第五，重复第二至第四步，直到生成器生成的物体达到所需的效果。

2.根据权利要求1所述的无监督学习物体外观的算法，其特征在于，所述背景采用纯色背景。

3.根据权利要求1-2中任意一项所述的无监督学习物体外观的算法，其特征在于，所述窗口的大小为1.5倍最大目标类别物体的宽度，图片方块的数量不少于1万个。

4.根据权利要求3所述的无监督学习物体外观的算法，其特征在于，所述一个批次的合成图片块的数量为32张。