CN111461150A - 一种无监督学习物体外观的算法 - Google Patents
一种无监督学习物体外观的算法 Download PDFInfo
- Publication number
- CN111461150A CN111461150A CN201910049159.5A CN201910049159A CN111461150A CN 111461150 A CN111461150 A CN 111461150A CN 201910049159 A CN201910049159 A CN 201910049159A CN 111461150 A CN111461150 A CN 111461150A
- Authority
- CN
- China
- Prior art keywords
- picture
- appearance
- objects
- algorithm
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无监督学习物体外观的算法,涉及学习物体外观领域,要解决的是没有显式的学会该类物体的具体边界以及分割掩模的问题。本发明步骤如下:步骤一,准备一张包含充分多目标类别物体的图片;步骤二,对步骤一的图片进行数据预处理;步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。本发明只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象,并且除了能学到生成物体的外观还能学到物体的分割掩模。
Description
技术领域
本发明涉及学习物体外观的领域,具体是一种无监督学习物体外观的算法。
背景技术
无监督地学习物体的外观需要能对高维数据分布建立生成模型,这种技术直到最近几年才得到发展。现有方法主要有以下三种:生成对抗网络GAN通过对抗的方式来训练判别器网络和生成器网络,在只有真实图片的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成图片的真实度;变分自编码器VAE,通过训练自编码器并约束隐藏因子的分布实现以可控的隐藏分布和解码器来映射出真实分布;以及基于流的可逆生成模型Glow,通过可逆函数的雅克比矩阵直接算出映射分布的解析式,从而直接优化映射分布,以逼近真实分布。
但是GAN、VAE和Glow都需要大量样本来体现数据的真实分布,因此要想无监督地学习特定类别物体的外观并能生成该类物体的逼真图片都需要大量包含该类物体的图片。这些生成模型虽然能够生成逼真的图片,但其中的前景和背景是混合在一起输出的,具体哪些像素属于前景仍然不知道,因此即使模型见过大量的该类物体,但仍然没有显式的学会该类物体的具体边界,分割掩模。
发明内容
本发明的目的在于提供一种无监督学习物体外观的算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理;
步骤三,对步骤二的图片生成对抗训练学习前景外观和分割。
作为本发明进一步的方案:步骤一中准备一张包含充分多目标类别物体图片的方式为从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在背景上,尽量让目标类别物体空间分布随机并覆盖住背景。
作为本发明进一步的方案:背景采用纯色背景。
作为本发明进一步的方案:步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸。
作为本发明进一步的方案:窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个。
作为本发明进一步的方案:生成对抗训练学习前景外观和分割的方式为:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;
第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果。
作为本发明进一步的方案:一个批次的合成图片块的数量为32张。
与现有技术相比,本发明的有益效果是:
本发明只用到了一张密集同类物体随机堆积的图片,利用了其中包含的丰富的该类别物体的外观信息,因此不需要大量的数据,也不需要任何标注信息进行监督,人工成本几乎为零;
本发明生成四通道图片进而合成多物体堆叠图像,通过对抗训练优化合成图像的真实程度,从而优化每个图层学习到的外观,惩罚每个图层分割掩模的面积,使得每个图层只学习单个对象,并且除了能学到生成物体的外观还能学到物体的分割掩模。
附图说明
图1为无监督学习物体外观的算法的流程图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片:从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景;
步骤二,对步骤一的图片进行数据预处理:根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模,可以减小对训练图片数量的需求,并同时学得特定类别物体的分割掩模。
实施例2
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片:从互联网上找一张目标类别物体大量拥挤在一起的图片,目标类别物体空间分布越随机,背景面积越小越好;人工将该目标类别物体大量堆放在纯色背景上,尽量让目标类别物体空间分布随机并覆盖住纯色背景;
步骤二,对步骤一的图片进行数据预处理:根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸,窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;
第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块,因此能从目标物体高度堆叠遮挡的图像中学习,并且除了能学到生成物体的外观还能学到物体的分割掩模;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次,一个批次的合成图片块的数量为32张;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果,通过每个图层生成一个对象,然后将这些图层符合成一张图片,本发明通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量,为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使其只覆盖单个对象的必要区域。
实施例3
一种无监督学习物体外观的算法,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理:根据图中物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸;
步骤三,对步骤二的图片生成对抗训练学习前景外观和分割:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N,理论上可以足够大,但出于计算资源和训练效果的考虑,应选择尽可能小的N;
第二,从m维度(视对象丰富度而定,越丰富维度应越多)标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片(前三个通道为RGB表示物体颜色外观,第四个通道A表示物体分割掩模,合成图片时对应于图层的不透明度);将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果,本发明利用包含稠密且随机堆积的同类别物体的图片来学习该类别物体的外观和分割,分图层生成堆叠物体图片,并使用生成对抗训练来优化合成图片,从而优化每个图层学得的外观和分割。
生成对抗网络:生成对抗网络是通过对抗的方式来训练判别器网络和生成器网络,在只有真实样本的情况下,生成器可以通过判别器提供的鉴别信息来逐渐优化生成的样本的真实度。生成对抗训练可以用于学习样本的分布,或者优化图片质量。
判别器:在生成对抗训练中,用于鉴别真实样本和生成样本的二分类器,可以提供可微的梯度供生成器改善生成样本。
生成器:在生成对抗训练中,用于生成样本的结构.可以根据判别器提供的分类梯度逐步改善生成质量,以生成判别器甚至人类无法辨别真伪的样本。
本发明的基本依据是在这种特殊选取或者拍摄的图片中,包含了大量该类别物体的实例,足以体现该类别物体的外观和分割信息。但由于大量这样的物体随机分布并堆叠在一起,并没有人工标注的选框将单个对象一一切分出来,直接使用一般的生成模型不能分离地学习到单个对象的外观和分割。
本发明的基本思想是通过每个图层生成一个对象,然后将这些图层符合成一张图片,通过对抗训练优化合成结果的真实程度,进而优化每个图层学习到的外观和分割掩模的质量。为避免每个图层直接生成多个物体,需要在对抗训练的同时使用掩模面积惩罚,使其只覆盖单个对象的必要区域。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种无监督学习物体外观的算法,其特征在于,具体步骤如下:
步骤一,准备一张包含充分多目标类别物体的图片;
步骤二,对步骤一的图片进行数据预处理;
步骤三,对步骤二的图片使用生成对抗网络训练学习前景外观和分割掩模。
2.根据权利要求1所述的无监督学习物体外观的算法,其特征在于,所述步骤一中准备一张包含充分多目标类别物体图片的方式为从互联网上找一张目标类别物体大量拥挤在一起的图片,人工将该目标类别物体大量堆放在背景上,让目标类别物体空间分布随机并覆盖住背景。
3.根据权利要求2所述的无监督学习物体外观的算法,其特征在于,所述背景采用纯色背景。
4.根据权利要求1所述的无监督学习物体外观的算法,其特征在于,所述步骤二中数据预处理的方式为根据图中目标类别物体的尺寸选择一个窗口,从原图中根据该窗口的大小随机采样出足够数量的图片方块并且统一缩放到固定尺寸。
5.根据权利要求4所述的无监督学习物体外观的算法,其特征在于,所述窗口的大小为1.5倍最大目标类别物体的宽度,图片方块的数量不少于1万个。
6.根据权利要求1所述的无监督学习物体外观的算法,其特征在于,所述生成对抗训练学习前景外观和分割的方式为:第一,人工观察所切出来的真实图片块中包含的目标类别物体数量,估计出目标类别物体数量上限N;
第二,从m维度标准正态分布中独立地随机采样N个向量,分别经过同一个四通道图片生成器进行解码,得到N个具有独立外观的四通道图片;将每个这样的图片进行在整个图像范围内随机平移后,按次序叠加成一张包含多个随机堆叠目标类别物体的合成图片块;
第三,采样一个批次的合成图片块作为负样本,同时采样同样多的真实图片块作为正样本,以二分类的方式训练判别器一次;
第四,根据判别器的分类得分,以对分类得分梯度上升和A通道面积梯度下降的方式对生成器执行一次权重更新,以提高合成图片块的真实程度;
第五,重复第二至第四步,直到生成器生成的物体有可以接受的效果。
7.根据权利要求6所述的无监督学习物体外观的算法,其特征在于,所述一个批次的合成图片块的数量为32张。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049159.5A CN111461150B (zh) | 2019-01-18 | 2019-01-18 | 一种无监督学习物体外观的算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049159.5A CN111461150B (zh) | 2019-01-18 | 2019-01-18 | 一种无监督学习物体外观的算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461150A true CN111461150A (zh) | 2020-07-28 |
CN111461150B CN111461150B (zh) | 2023-07-21 |
Family
ID=71684023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910049159.5A Active CN111461150B (zh) | 2019-01-18 | 2019-01-18 | 一种无监督学习物体外观的算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461150B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513070A (zh) * | 2015-12-07 | 2016-04-20 | 天津大学 | 一种基于前景背景优化的rgb-d显著物体检测方法 |
CN108010034A (zh) * | 2016-11-02 | 2018-05-08 | 广州图普网络科技有限公司 | 商品图像分割方法及装置 |
CN108460414A (zh) * | 2018-02-27 | 2018-08-28 | 北京三快在线科技有限公司 | 训练样本图像的生成方法、装置及电子设备 |
-
2019
- 2019-01-18 CN CN201910049159.5A patent/CN111461150B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513070A (zh) * | 2015-12-07 | 2016-04-20 | 天津大学 | 一种基于前景背景优化的rgb-d显著物体检测方法 |
CN108010034A (zh) * | 2016-11-02 | 2018-05-08 | 广州图普网络科技有限公司 | 商品图像分割方法及装置 |
CN108460414A (zh) * | 2018-02-27 | 2018-08-28 | 北京三快在线科技有限公司 | 训练样本图像的生成方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
"Image Segmentation via Probabilistic Graph Matching" * |
HONGJIANG SHI: "Data Augmentation with Improved Generative Adversarial Networks", IEEE * |
肖旭: "基于深度学习的图像语义分割研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111461150B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN111489287A (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
CN106599863A (zh) | 一种基于迁移学习技术的深度人脸识别方法 | |
CN112149459A (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN114445292A (zh) | 一种多阶段渐进式水下图像增强方法 | |
CN114549574A (zh) | 一种基于掩膜传播网络的交互式视频抠图系统 | |
CN111462149A (zh) | 一种基于视觉显著性的实例人体解析方法 | |
Li et al. | Data-driven affective filtering for images and videos | |
CN111914617B (zh) | 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法 | |
CN112991371A (zh) | 一种基于着色溢出约束的图像自动着色方法及系统 | |
CN110851627B (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN109492610A (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116402851A (zh) | 一种复杂背景下的红外弱小目标跟踪方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN114299101A (zh) | 图像的目标区域获取方法、装置、设备、介质和程序产品 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
KR102567128B1 (ko) | 개선된 적대적 어텐션 네트워크 시스템 및 이를 이용한 이미지 생성 방법 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN111489405A (zh) | 基于条件增强生成对抗网络的人脸草图合成系统 | |
CN111461150A (zh) | 一种无监督学习物体外观的算法 | |
CN115294424A (zh) | 一种基于生成对抗网络的样本数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |