CN111461150B - 一种无监督学习物体外观的算法 - Google Patents
一种无监督学习物体外观的算法 Download PDFInfo
- Publication number
- CN111461150B CN111461150B CN201910049159.5A CN201910049159A CN111461150B CN 111461150 B CN111461150 B CN 111461150B CN 201910049159 A CN201910049159 A CN 201910049159A CN 111461150 B CN111461150 B CN 111461150B
- Authority
- CN
- China
- Prior art keywords
- picture
- appearance
- target class
- objects
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无监督学习物体外观的算法,涉及学习物体外观领域,要解决的是没有显式的学会该类物体的具体边界以及分割掩模的问题。本发明步骤如下:步骤一,准备一张包含充分多目标类别物体的图片;步骤二,对步骤一的图片进行数据预处理;步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。本发明只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象,并且除了能学到生成物体的外观还能学到物体的分割掩模。
Description
技术领域
本发明涉及学习物体外观的领域,具体是一种无监督学习物体外观的算法。
背景技术
无监督地学习物体的外观需要能对高维数据分布建立生成模型,这种技术直到最近几年才得到发展。现有方法主要有以下三种:生成对抗网络GAN通过对抗的方式来训练判别器网络和生成器网络,在只有真实图片的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成图片的真实度;变分自编码器VAE,通过训练自编码器并约束隐藏因子的分布实现以可控的隐藏分布和解码器来映射出真实分布;以及基于流的可逆生成模型Glow,通过可逆函数的雅克比矩阵直接算出映射分布的解析式,从而直接优化映射分布,以逼近真实分布。
但是GAN、VAE和Glow都需要大量样本来体现数据的真实分布,因此要想无监督地学习特定类别物体的外观并能生成该类物体的逼真图片都需要大量包含该类物体的图片。这些生成模型虽然能够生成逼真的图片,但其中的前景和背景是混合在一起输出的,具体哪些像素属于前景仍然不知道,因此即使模型见过大量的该类物体,但仍然没有显式的学会该类物体的具体边界,分割掩模。
发明内容
本发明的目的在于提供一种无监督学习物体外观的算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理;
步骤三,对步骤二的图片生成对抗训练学习前景外观和分割。
作为本发明进一步的方案:步骤一中准备一张包含充分多目标类别物体图片的方式为从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在背景上,尽量让目标类别物体空间分布随机并覆盖住背景。
作为本发明进一步的方案:背景采用纯色背景。
作为本发明进一步的方案:步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸。
作为本发明进一步的方案:窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个。
作为本发明进一步的方案:生成对抗训练学习前景外观和分割的方式为:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;
第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果。
作为本发明进一步的方案:一个批次的合成图片块的数量为32张。
与现有技术相比,本发明的有益效果是:
本发明只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,因此不需要大量的数据,也不需要任何标注信息进行监督,人工成本几乎为零;
本发明生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象,并且除了能学到生成物体的外观还能学到物体的分割掩模。
附图说明
图1为无监督学习物体外观的算法的流程图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片:从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景;
步骤二,对步骤一的图片进行数据预处理:根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模,可以减小对训练图片数量的需求,并同时学得特定类别物体的分割掩模。
实施例2
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片:从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景;
步骤二,对步骤一的图片进行数据预处理:根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸,窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;
第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块,因此能从目标物体高度堆叠遮挡的图像中学习,并且除了能学到生成物体的外观还能学到物体的分割掩模;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次,一个批次的合成图片块的数量为32张;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果,通过每个图层生成一个对象,然后将这些图层符合成一张图片,本发明通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量,为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使其只覆盖单个对象的必要区域。
实施例3
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理:根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸;
步骤三,对步骤二的图片生成对抗训练学习前景外观和分割:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;
第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果,本发明利用包含稠密且随机堆积的同类别物体的图片来学习该类别物体的外观和分割,分图层生成堆叠物体图片,并使用生成对抗训练来优化合成图片,从而优化每个图层学得的外观和分割。
生成对抗网络:生成对抗网络是通过对抗的方式来训练判别器网络和生成器网络,在只有真实样本的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成的样本的真实度。生成对抗训练可以用于学习样本的分布,或者优化图片质量。
判别器:在生成对抗训练中,用于鉴别真实样本和生成样本的二分类器,可以提供可微的梯度供生成器改善生成样本。
生成器:在生成对抗训练中,用于生成样本的结构.可以根据判别器提供的分类梯度逐步改善生成质量,以生成判别器甚至人类无法辨别真伪的样本。
本发明的基本依据是在这种特殊选取或者拍摄的图片中,包含了大量该类别物体的实例,足以体现该类别物体的外观和分割信息。但由于大量这样的物体随机分布并堆叠在一起,并没有人工标注的选框将单个对象一一切分出来,直接使用一般的生成模型不能分离地学习到单个对象的外观和分割。
本发明的基本思想是通过每个图层生成一个对象,然后将这些图层符合成一张图片,通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量。为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使其只覆盖单个对象的必要区域。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种无监督学习物体外观的算法,其特征在于,具体步骤如下:
步骤一,准备一张包含目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模;
所述步骤一中准备一张包含目标类别物体图片的方式为从互联网上找一张目标类别物体拥挤在一起的图片,人工将该目标类别物体堆放在背景上,让目标类别物体空间分布随机并覆盖住背景;
所述步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口, 从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸;
所述生成对抗训练学习前景外观和分割的方式为:
第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计
目标类别物体数量上限N;
第二,从m维度标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片;将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体达到所需的效果。
2.根据权利要求1所述的无监督学习物体外观的算法,其特征在于,所述背景采用纯色背景。
3.根据权利要求1-2中任意一项所述的无监督学习物体外观的算法,其特征在于,所述窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个。
4.根据权利要求3所述的无监督学习物体外观的算法,其特征在于,所述一个批次的合成图片块的数量为32张。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049159.5A CN111461150B (zh) | 2019-01-18 | 2019-01-18 | 一种无监督学习物体外观的算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049159.5A CN111461150B (zh) | 2019-01-18 | 2019-01-18 | 一种无监督学习物体外观的算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461150A CN111461150A (zh) | 2020-07-28 |
CN111461150B true CN111461150B (zh) | 2023-07-21 |
Family
ID=71684023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910049159.5A Active CN111461150B (zh) | 2019-01-18 | 2019-01-18 | 一种无监督学习物体外观的算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461150B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513070A (zh) * | 2015-12-07 | 2016-04-20 | 天津大学 | 一种基于前景背景优化的rgb-d显著物体检测方法 |
CN108010034A (zh) * | 2016-11-02 | 2018-05-08 | 广州图普网络科技有限公司 | 商品图像分割方法及装置 |
CN108460414A (zh) * | 2018-02-27 | 2018-08-28 | 北京三快在线科技有限公司 | 训练样本图像的生成方法、装置及电子设备 |
-
2019
- 2019-01-18 CN CN201910049159.5A patent/CN111461150B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513070A (zh) * | 2015-12-07 | 2016-04-20 | 天津大学 | 一种基于前景背景优化的rgb-d显著物体检测方法 |
CN108010034A (zh) * | 2016-11-02 | 2018-05-08 | 广州图普网络科技有限公司 | 商品图像分割方法及装置 |
CN108460414A (zh) * | 2018-02-27 | 2018-08-28 | 北京三快在线科技有限公司 | 训练样本图像的生成方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
Ayelet Heimowitz.Image Segmentation via Probabilistic Graph Matching.IEEE.2016,全文. * |
Data Augmentation with Improved Generative Adversarial Networks;Hongjiang Shi;IEEE;全文 * |
肖旭.基于深度学习的图像语义分割研究.中国优秀硕士学位论文全文数据库信息科技辑.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111461150A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830912B (zh) | 一种深度特征对抗式学习的交互式灰度图像着色方法 | |
CN107767413A (zh) | 一种基于卷积神经网络的图像深度估计方法 | |
CN108537743A (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN109712165A (zh) | 一种基于卷积神经网络的同类前景图像集分割方法 | |
CN105488472B (zh) | 一种基于样本模板的数字化妆方法 | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
CN105701493B (zh) | 基于阶层图形的图像提取以及前景估测的方法和系统 | |
CN108416751A (zh) | 一种基于深度辅助全分辨率网络的新视点图像合成方法 | |
CN111325661B (zh) | 一种名为msgan的图像的季节风格转换模型及方法 | |
CN113724354B (zh) | 基于参考图颜色风格的灰度图像着色方法 | |
CN111062432B (zh) | 一种语义上多模态图像生成的方法 | |
CN113255813A (zh) | 一种基于特征融合的多风格图像生成方法 | |
CN108055477A (zh) | 一种实现拖影特效的方法和装置 | |
CN110060286A (zh) | 一种单目深度估计方法 | |
CN110276753A (zh) | 基于特征空间统计信息映射的目标自适应隐藏方法 | |
CN111914617B (zh) | 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法 | |
CN111462162A (zh) | 一种特定类别图片的前景分割算法 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN111488951A (zh) | 一种基于rgb-d图像分类问题的对抗度量学习算法 | |
CN112802048B (zh) | 具有不对称结构的图层生成对抗网络生成方法及装置 | |
CN111461150B (zh) | 一种无监督学习物体外观的算法 | |
CN105338335B (zh) | 一种立体图像显著图提取方法 | |
CN113160028B (zh) | 基于彩色字符画的信息隐藏及恢复方法、设备及存储介质 | |
CN115496843A (zh) | 一种基于gan的局部写实感漫画风格迁移系统及方法 | |
CN111178163B (zh) | 基于立方体投影格式的立体全景图像显著区域预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |