CN110852937A - 基于内容与样式解耦的形变物品图像生成方法 - Google Patents
基于内容与样式解耦的形变物品图像生成方法 Download PDFInfo
- Publication number
- CN110852937A CN110852937A CN201910982440.4A CN201910982440A CN110852937A CN 110852937 A CN110852937 A CN 110852937A CN 201910982440 A CN201910982440 A CN 201910982440A CN 110852937 A CN110852937 A CN 110852937A
- Authority
- CN
- China
- Prior art keywords
- image
- content
- encoder
- style
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;构建网络鉴别器、编码器和生成器;训练网络,包含两次图像转换过程;将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
Description
技术领域
本发明涉及物品图像的自动生成方法,涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法。
背景技术
近些年兴起的深度学习技术在图像处理、语音处理、自然语言处理、自动驾驶等众多领域取得重大突破性进展,引发全球人工智能热潮。以图像处理中的人脸识别为例,基于深度学习的人脸识别甚至超过了人类的水平,大规模数据集的存在是深度学习技术在物体检测识别等领域取得巨大成功的原因之一。
目前国际上比较流行的用于深度学习视觉检测和识别研究的图像数据集有:MNIST、Caltech256、Tiny Images、PASCAL VOC、SUN、ImageNet、MS COCO、Places、OpenImages。这些数据集的图片数量从几千张到数百万张不等且都是针对特定的视觉检测和识别任务而构建,例如特定的手写字符数据集,典型城市场景图片集(包含建筑物、车辆、行人等)。但目前没有一个专门的日常生活物品数据集,这类数据集的应用需求非常大,例如无人超市购买物品自动结算系统、生活垃圾自动识别,物品自动配送等。但构建这类数据集难度非常大,原因在于:1)日常的生活物品种类多,至少有几千种;2)生活物品在使用过程中会出现各种无规律的扭曲形变。获得未使用过的规则的物品图像相对容易,但获取扭曲形变的物品图像非常困难。为此,本发明将采用计算机图像自动生成的方法生成高逼真的形变物品图像。
现有的计算机自动图像生成方法可分为两大类:有监督学习方法和无监督学习方法。PLDT(Pixel-level Domain Transfer)是一种经典的有监督学习方法,该方法通过鉴别器来判断不同域的一对图像是否相互关联。无监督的Cycle GAN方法主要考虑了循环重构损失。无监督的UNIT(Unsupervised Image-to-Image Translation)算法提出利用VAE(Variational Autoencode)和权重分享实现图像到图像的转换。这些方法主要在图像风格转换应用中表现较好,但风格转换生成的图像少,最多只有几张。而形变图像通常需要生成几十张到几百张不等,因此现有的图像生成方法都不能用于构建大规模虚拟生活物品数据集。
发明内容
为了构建大规模虚拟生活物品数据集,生成大量高逼真的形变物品图像,本发明提出一种基于内容与样式解耦的图像生成方法。该解耦方法可以将形变物体的形变风格特征和物体本身分离开来,通过不断改变风格参数,可生成大量同一类物品不同样式的形变图像,技术方案如下:
一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:
1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;
2)构建网络鉴别器、编码器和生成器。方法如下:
鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;
生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
优选地,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU 层以及谱归一化层。
内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d 包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个 ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层。
现有的图像生成方法主要用于图像风格转换,生成的图像数量很少。本发明方法将形变物体的样式特征和物体本身内容进行解耦处理,这样一方面可以通过变化样式特征参数,很容易生成大量形变的图像,另一方面这种解耦处理能保证生成的图像非常逼真。
利用本发明可构建大规模虚拟形变物品图像数据集,这类数据集将为计算机视觉研究的基本问题(如图像分类、目标检测)提供一类全新的且非常具有挑战性的测试数据集,这将有助于提高计算机视觉在特殊物体分类、识别等方面的准确性,并将有力地推动相关计算机视觉技术的升级与发展。
附图说明
图1为本发明算法的流程图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本专利的基于内容与样式解耦的高逼真形变物品图像生成方法的具体实施方案做出详细说明,具体的流程图由图1给出:
1)采集形变物体图像作为生成网络的数据集,所采用的数据集是采集的3000张日常生活中所遇到的物品图像,每张图像仅含有单个物体。依据图像是否发生形变将数据集分为X类和Y类(X指形变图像,Y指规范图像),将图像数据集按照9:1的比例分为训练集和测试集,即分别为trainX、trainY、testX 和testY;
2)构建网络鉴别器、编码器和生成器,方法如下:
鉴别器包括内容鉴别器以及域鉴别器,其中内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d 层组成,用于鉴别内容编码和风格编码是否分离;域鉴别器包括LeakyReLU层以及谱归一化层,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息,如撕裂、扭曲、破损等。其中内容编码器由LeakReLUConv2d块、ReLUINSConv2d 以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d 层以及Conv2d层,共14层;
生成器包括生成器X和生成器Y,依据内容编码器和风格编码器所提取到的编码信息来输出生成图像。两个生成器模型架构一致,包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,网络包含两次图像转换过程,具体图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。同时将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。又一次交叉各自编码信息,并输入到生成器中,得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
训练网络,具体网络参数设置如下:
预处理图像数据集,将图像裁剪为960*960尺寸并随机裁剪后输入到生成网络中,训练网络参数设置如下:batch_size设为2,每隔5个epoch保存一次生成图像,每隔10个epoch保存一次网络模型。域鉴别器采用谱归一化层,epoch设为1200,学习率设为0.0001,内容鉴别器的学习率设为0.0004,每隔3个 epoch更新一次内容鉴别器。优化器采用Adam优化器,损失函数采用L1损失。最终得到训练好的神经网络模型。
4)将待处理的规范图像输入到已训练好的神经网络模型中,由提取到的内容编码和高斯噪声生成的风格编码信息输入到生成器中,输出形变图像。输出图像数量可以自定义设置。
Claims (4)
1.一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:
1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;
2)构建网络鉴别器、编码器和生成器。方法如下:
鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;
生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
2.根据权利要求1所述的方法,其特征在于,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU层以及谱归一化层。
3.根据权利要求1所述的方法,其特征在于,内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
4.根据权利要求1所述的方法,其特征在于,两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及Tanh层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910982440.4A CN110852937B (zh) | 2019-10-16 | 2019-10-16 | 基于内容与样式解耦的形变物品图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910982440.4A CN110852937B (zh) | 2019-10-16 | 2019-10-16 | 基于内容与样式解耦的形变物品图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852937A true CN110852937A (zh) | 2020-02-28 |
CN110852937B CN110852937B (zh) | 2023-06-02 |
Family
ID=69596388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910982440.4A Expired - Fee Related CN110852937B (zh) | 2019-10-16 | 2019-10-16 | 基于内容与样式解耦的形变物品图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852937B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022088572A1 (zh) * | 2020-10-30 | 2022-05-05 | 上海商汤智能科技有限公司 | 模型训练方法、图像处理及配准方法、装置、设备、介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
-
2019
- 2019-10-16 CN CN201910982440.4A patent/CN110852937B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022088572A1 (zh) * | 2020-10-30 | 2022-05-05 | 上海商汤智能科技有限公司 | 模型训练方法、图像处理及配准方法、装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110852937B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pei et al. | Does haze removal help cnn-based image classification? | |
Nguyen et al. | Innovation engines: Automated creativity and improved stochastic optimization via deep learning | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN114882421B (zh) | 一种基于时空特征增强图卷积网络的骨架行为识别方法 | |
CN109902583B (zh) | 一种基于双向独立循环神经网络的骨架手势识别方法 | |
CN110728209A (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN110321910A (zh) | 面向点云的特征提取方法、装置及设备 | |
CN109218134B (zh) | 一种基于神经风格迁移的测试用例生成系统 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN107292249A (zh) | 一种基于结构化分段网络的时间动作检测方法 | |
CN109062811B (zh) | 一种基于神经风格迁移的测试用例生成方法 | |
CN110059769A (zh) | 用于街景理解的基于像素重排重建的语义分割方法及系统 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN109543744B (zh) | 一种基于龙芯派的多类别深度学习图像识别方法及其应用 | |
CN114821204A (zh) | 一种基于元学习嵌入半监督学习图像分类方法与系统 | |
CN111291695B (zh) | 人员违章行为识别模型训练方法、识别方法及计算机设备 | |
CN114463837A (zh) | 基于自适应时空卷积网络的人体行为识别方法及系统 | |
CN116309536A (zh) | 一种路面裂缝检测方法及存储介质 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN107967441A (zh) | 一种基于双通道3d-2d rbm模型的视频行为识别方法 | |
CN114255300A (zh) | 流程图的提取模型训练方法、获取方法、设备及介质 | |
CN110852937B (zh) | 基于内容与样式解耦的形变物品图像生成方法 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN113312924A (zh) | 一种基于nlp高精解析标签的风险规则分类方法及装置 | |
CN113378722B (zh) | 基于3d卷积和多级语义信息融合的行为识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230602 |