CN115496824B - 一种基于手绘的多类别对象级自然图像生成方法 - Google Patents
一种基于手绘的多类别对象级自然图像生成方法 Download PDFInfo
- Publication number
- CN115496824B CN115496824B CN202211184768.XA CN202211184768A CN115496824B CN 115496824 B CN115496824 B CN 115496824B CN 202211184768 A CN202211184768 A CN 202211184768A CN 115496824 B CN115496824 B CN 115496824B
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- vector
- hand
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 118
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000010422 painting Methods 0.000 claims abstract description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 19
- 238000013519 translation Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于手绘的多类别对象级自然图像生成方法,包括以下步骤,获取多类别对象级初始手绘以及对应的类别标签;根据所述初始手绘和所述类别标签,对预先构建的图像生成模型进行训练;所述训练步骤包括:将所述初始手绘和其对应的类别标签输入至条件编码器中进行编码,得到预测隐空间向量;将所述预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果,根据所述预测结果判断模型收敛情况;将实际手绘输入至训练好的图像生成模型中,生成自然图像;本发明通过预训练的生成器,解决了小规模训练数据集的图像域先验知识不足的问题。
Description
技术领域
本发明涉及计算机视觉图像生成技术领域,更具体的说是涉及一种基于手绘的多类别对象级自然图像生成方法。
背景技术
基于手绘的多类别图像生成旨在基于手绘和类别标签自动生成逼真的图像。该任务面临的挑战是手绘域与图像域的巨大域间差异,同一域内不同类别特征的域内差异以及同一类内图像的特征变化。由于手绘语义特征具有模糊性、抽象性、稀疏性,手绘和照片之间存在很大的域间差距。因此,生成逼真的照片,尤其是多个不同类别的图像,需要大量的图像域的先验知识。该任务对生成模型的学习泛化能力是一项巨大的考验。
现存的工作基本上都是基于生成对抗网络,完成手绘域到图像域的生成建模。它们大多数采用编码器-解码器结构,学习了从手绘域到潜在空间再到图像域的连续映射。有些工作会学习图像和边缘图到共享的隐空间的联合映射。有些工作采用循环生成对抗网络作为其网络的结构基础,并提出了一种开放域内的采样和优化策略。但是这些基于学习生成模型的方法严重依赖于手绘-图像训练集的数据规模,依靠现有的小规模手绘-图像数据集无法得到性能优良的生成模型(图像域的先验知识不足),生成的多类别图像质量难以达到照片级真实度和生成多样性。
因此,如何提供一种基于手绘的多类别对象级自然图像生成方法,来提高图像生成质量是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于手绘的多类别对象级自然图像生成方法,能够生成具有照片级真实度并且忠实于手绘特征的自然图像。
为了实现上述目的,本发明采用如下技术方案:
一种基于手绘的多类别对象级自然图像生成方法,其特征在于,包括以下步骤,
获取多类别对象级初始手绘以及对应的类别标签;
根据所述初始手绘和所述类别标签,对预先构建的图像生成模型进行训练;所述训练步骤包括:将所述初始手绘和其对应的类别标签输入至条件编码器中进行编码,得到预测隐空间向量;将所述预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果,根据所述预测结果判断模型收敛情况;训练至模型收敛;
将实际手绘输入至训练好的所述图像生成模型中,生成自然图像。
进一步的,所述训练步骤还包括:
将所述自然图像输入至图像-手绘转译网络,输出重建手绘;根据所述初始手绘与所述重建手绘,计算形状损失,约束所述自然图像忠实于所述初始手绘的形状特征。
进一步的,所述训练步骤还包括:
所述预训练生成器模型固定;
所述条件编码器根据真实隐空间向量和所述预测隐空间向量采用预设的第一损失函数计算向量重建损失,并进行参数更新;所述图像-手绘转译网络采用预设的第二损失函数计算形状损失,并进行参数更新。
进一步的,所述训练步骤还包括:使用真实手绘-图像数据集进行调优,即利用该数据集作为训练数据集,使用预设的调优损失函数和所述第二损失函数分别对所述条件编码器E和所述图像-手绘转译网络S的参数进行优化。
进一步的,
所述第一损失函数为:
其中,
所述第二损失函数为:
所述调优损失函数为:
其中,zGT为隐空间向量,xGT为训练图像,s为输入手绘,y为类别标签,E为条件编码器,S为图像-手绘转译网络,G为预训练图像生成器,F为预训练特征提取网络,λimage、λimage和、λimage为模型训练参数;指代模型E的参数更新的方向为损失函数/>收敛的梯度方向。
进一步的,所述条件编码器包括输入层、多个残差块、卷积层、下采样层和线性投影层;所述输入层、多个残差块、卷积层、下采样层和所述线性投影层依次连接;
通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化;
依次通过所述卷积层、所述下采样层和所述线性投影层,输出预测隐空间向量。
进一步的,通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化,步骤包括:
获取输入向量和所述类别标签;其中,所述输入向量为所述初始手绘或由所述残差块输出的中间向量;
通过1×1卷积层对所述输入向量进行特征提取,得到第一特征向量;对所述第一特征向量使用最大池化层进行下采样,得到第一采样向量;
通过三层线性投影层对所述类别标签分别进行投影,对应得到增益参数和偏差参数;
通过1×1卷积层对所述输入向量进行特征提取得到第二特征向量。
根据第一层线性投影层输出的所述增益参数和所述偏差参数对所述第二特征向量进行条件批量归一化,并经过激活函数,得到第三特征向量;
通过3×3卷积层对所述第三特征向量进行特征提取,缩小特征图的尺寸为所述第二特征向量的1/2,增加特征向量的通道深度为所述第二特征向量的2倍,得到第四特征向量;
根据第二层线性投影层输出的所述增益参数和所述偏差参数对所述第四特征向量进行批量归一化,并经过激活函数,得到第五特征向量;
通过1×1卷积层对所述第五特征向量进行特征提取,得到第六特征向量;
根据第三层线性投影层输出的所述增益参数和所述偏差参数对所述第六特征向量进行批量归一化,并与所述第一采样向量进行相加后,由激活函数进行激活,得到所述中间向量。
进一步的,所述图像-手绘转译网络包括,多个上采样残差模块和多个下采样残差模块和1个1×1卷积层;其中,多个所述上采样残差模块和多个所述下采样残差模块以及所述1×1卷积层依次连接。其中对应尺寸的残差块之间使用跳跃连接。
进一步的,所述上采样模块的残差网络由一个1×1卷积层和一个平均池化层构成;
所述上采样模块的主干网络接由两个3×3卷积层组成;其中,在输入所述3×3卷积层之前,经过激活函数层进行激活;在每个所述3×3卷积层之后接有一个谱归一化层。
进一步的,所述下采样模块的残差网络由上采样层和1×1卷积层连接构成;
所述下采样模块的主干网络由激活函数层、上采样层、3×3卷积层、批量归一化层、激活函数层、3×3卷积层和批量归一化层依次连接构成。
本发明的有益效果:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于手绘的多类别对象级自然图像生成方法,
1)本发明中通过预训练模型生成自然图像,使用在大规模图像数据集上训练得到的高性能生成对抗网络作为生成模块,弥补了图像域先验知识的不足;同时本发明将手绘通过条件编码器映射到预训练生成模型的隐空间中,再使用预训练的生成器生成图像,使生成图像的质量得到提升。
2)本发明使用条件生成对抗网络,通过引入类别标签作为条件,生成多类别对象级图像。因此,我们需要将多类别手绘映射到条件生成对抗网络的隐空间。本发明中的条件编码器,通过引入类别作为编码器的条件,使得映射更准确。现有的基于手绘的图像生成模型,生成图像并不能忠实于手绘的特征。本发明提出了形状损失函数,用于约束生成图像的形状、方向等特征与输入手绘对齐。
3)本发明中的模型训练需要规模较大的配对数据集。因此,我们使用随机采样的隐空间向量作为输入,通过预训练的生成器生成对应图像;再使用生成的所述自然图像作为输入,通过的图像-手绘转译网络,生成对应重建手绘。最终,由这三者构成训练使用的数据集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种基于手绘的多类别对象级自然图像生成方法示意图;
图2附图为本发明中条件编码器网络结构示意图;
图3附图为本发明中图像-手绘转移网络结构示意图;
图4附图为本发明与现有方法的可视化结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,本发明实施例公开了一种基于手绘的多类别对象级自然图像生成方法,包括以下步骤,
S1:获取多类别对象级初始手绘以及对应的类别标签;
S2:根据初始手绘和类别标签,对预先构建的图像生成模型进行训练;
S21:训练步骤包括:将初始手绘和其对应的类别标签输入至条件编码器中进行编码,得到预测隐空间向量;
S22:将预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果,根据预测结果判断模型收敛情况;训练至模型收敛
S3:将实际手绘输入至训练好的图像生成模型中,生成自然图像。
在一种实施例中,训练步骤还包括:
将自然图像输入至图像-手绘转译网络,输出重建手绘;根据初始手绘与重建手绘,计算形状损失,约束自然图像忠实于初始手绘的形状特征。
在本实施例中,训练步骤还包括:
预训练生成器模型固定;
条件编码器根据真实隐空间向量和预测隐空间向量采用预设的第一损失函数计算向量重建损失,并进行参数更新;图像-手绘转译网络采用预设的第二损失函数计算形状损失,并进行参数更新。
使用真实手绘-图像数据集进行调优,即利用该数据集作为训练数据集,使用预设的调优损失函数和第二损失函数分别对条件编码器E和图像-手绘转译网络S的参数进行优化。
第一损失函数为:
其中,第一损失函数的计算过程包括:
根据真实隐空间向量和预测隐空间向量计算重建损失:
根据真实图像和预训练生成器模型输出的自然图像预测结果计算图像重建损失:
第二损失函数为:
调优损失函数为:
其中,zGT为隐空间向量,xGT为训练图像,s为输入手绘,y为类别标签,E为条件编码器,S为图像-手绘转译网络,G为预训练图像生成器,F为预训练特征提取网络,λimage、λimage和、λimage为模型训练参数。
本发明的训练细节:
我们在训练数据集上训练200个周期,其中学习率设置为0.001。隐空间向量z为128维向量,经过预处理的手绘和图像的分辨率为128×128。我们使用Adam优化器,一次优化的批量大小设置为128。训练过程中损失函数中的参数设置为:λLPIPS=1,λz=10,λimage=1,λsh ape=1。
现有两种类型的反演方法:
第一,基于学习的反演,该方法首先生成具有随机采样隐空间向量的图像集合,然后将图像和隐空间向量分别用作输入和监督,训练将图像映射到隐空间向量的编码器;第二,基于优化的反演,该方法通过计算生成图像的像素级重建损失,直接优化隐空间向量。现存基于学习的反演方法存在一个问题:无法对条件生成对抗网络进行准确的反演映射以及最终还原图像。
现存大多数反演编码器仅将无条件图像映射到隐空间向量;少数条件生成对抗网络反演对同一输入图像使用两个编码器来预测隐空间向量和类别标签,但是,这两种方法都不适用于多类别手绘,因为手绘笔画稀疏且无色彩纹理填充,这经常导致类别编码器预测失败,而单独的无条件编码器不能准确地将手绘映射到隐空间向量。本发明提出的条件编码器包括一系列残差块,手绘的类别标签作为模型的条件,通过条件批量归一化层嵌入到编码器中,采用采样隐空间向量zGT和预测隐空间向量z之间的重建损失来监督条件编码器进行准确的映射。
基于手绘的多类别对象级图像生成任务本质上的核心任务是生成任务,生成图像的质量主要指多样性和逼真度等指标,取决于生成器的性能。传统的手绘-图像生成模型往往生成器结构简单,使用小规模的手绘-图像数据集训练,因此性能较差,生成图像质量并不能令人满意。因此,在本发明的框架中,引入了基于大规模图像数据集预训练的高性能生成器,该模型具有大量的图像域的先验知识,从而大幅提高了生成图像的质量,也使得优化训练过程节省了训练生成器的开销,简化了任务的训练目标。
在训练过程中,我们使用合成数据集替代真实数据。我们使用随机采样的噪声向量作为输入的真实隐空间向量,通过预训练的生成器生成对应图像替代真实图像;再使用生成的自然图像作为输入,通过预训练的图像-手绘转译网络,生成对应重建手绘。最终,由这三者构成训练使用的数据集。
在训练过程中,我们使用预训练生成器生成的自然图像预测结果x和真实图像xGT之间的像素级重建损失以及感知损失来监督条件编码器E进行准确的映射,最终忠实地重建图像。此训练过程中,预训练生成器模型的参数是固定的,只优化编码器的参数。
如图2,在另一实施例中,条件编码器包括输入层、多个残差块、卷积层、下采样层和线性投影层;输入层、多个残差块、卷积层、下采样层和线性投影层依次连接;
通过残差块对输入层输入的初始手绘和类别标签进行归一化;
依次通过卷积层、下采样层和线性投影层,输出预测隐空间向量。
条件编码器E将带有类别标签的手绘作为输入,并输出隐空间向量。它由五个残差块、一个卷积层、一个下采样(最大池化)层和一个线性投影层组成;其中卷积层通过滑动窗口在卷积核感知域内提取特征,归一化处理计算统计特征并加入条件向量的约束,激活函数用于将线性函数映射转化为非线性函数映射,残差连接预防模型在训练过程中梯度消失;使用共享的类嵌入作为模型的输入条件向量,每个残差块的条件向量被线性投影以产生批量归一化处理的增益和偏差参数。其中,偏置投影以零为中心,增益投影以一为中心。在每个残差块中,每个卷积层后接一个条件批量归一化层和激活函数层(ReLU)。表1提供了条件编码器E的内部张量处理过程。
表1条件编码器E各层张量处理过程
在另一实施例中,通过残差块对输入层输入的初始手绘和类别标签进行归一化,步骤包括:
获取输入向量和类别标签;其中,输入向量为初始手绘或由残差块输出的中间向量;
通过1×1卷积层对输入向量进行特征提取,得到第一特征向量;对第一特征向量使用最大池化层进行下采样,得到第一采样向量;
通过三层线性投影层对类别标签分别进行投影,对应得到增益参数和偏差参数;
通过1×1卷积层对输入向量进行特征提取得到第二特征向量。
根据第一层线性投影层输出的增益参数和偏差参数对第二特征向量进行条件批量归一化,并经过激活函数,得到第三特征向量;
通过3×3卷积层对第三特征向量进行特征提取,缩小特征图的尺寸为第二特征向量的1/2,增加特征向量的通道深度为第二特征向量的2倍,得到第四特征向量;
根据第二层线性投影层输出的增益参数和偏差参数对第四特征向量进行批量归一化,并经过激活函数,得到第五特征向量;
通过1×1卷积层对第五特征向量进行特征提取,得到第六特征向量;
根据第三层线性投影层输出的增益参数和偏差参数对第六特征向量进行批量归一化,并与第一采样向量进行相加后,由激活函数进行激活,得到中间向量。
在另一实施例中,图像-手绘转译网络包括,多个上采样残差模块(ResBlock-up)和多个下采样残差模块(ResBlock-down)和1个1×1卷积层;其中,多个上采样残差模块和多个下采样残差模块以及1×1卷积层依次连接。内部张量变化过程如表2所示。
表2图像-手绘转译网络S各层张量处理过程
如图3所示,我们展示了图像-手绘转译网络S中残差块的结构。如图3(a)所示,在每个下采样残差快中,主干连接由两个3×3卷积层组成,后接一个谱归一化层。在输入3×3卷积层之前,输入将首先经过激活函数层(LeakyReLU)。残差连接由一个1×1卷积层和一个平均池化层组成。主干连接和残差连接的输出将通过加法进行融合。上采样残差块的结构与下采样残差块的结构类似,唯一的区别是每个上采样残差块使用上采样层而不是平均池化层。
在另一实施例中,上采样模块的残差网络由一个1×1卷积层和一个平均池化层构成;
上采样模块的主干网络接由两个3×3卷积层组成;其中,在输入3×3卷积层之前,经过激活函数层进行激活;在每个3×3卷积层之后接有一个谱归一化层。
在另一实施例中,下采样模块的残差网络由上采样层和1×1卷积层连接构成;
下采样模块的主干网络由激活函数层、上采样层、3×3卷积层、批量归一化层、激活函数层、3×3卷积层和批量归一化层依次连接构成。
本发明的效果说明:
1.数值结果
如表3所示,第一列为参与对比的现存基线方法名称,最后一行是本发明提出的方法,第二列和第三列的指标用来度量生成图像的真实度,第四列的指标用来度量生成图像的多样性,第五列的指标用来度量生成图像的分类准确率,第六列的指标用来度量生成图像对比测试集中真实图像的相似度。表一是在Sketchy Database数据集上的对比结果,表4是在SketchyCOCO数据集上的对比结果。我们的方法在两个数据集上的各项指标均优于其他现存基线方法,尤其在FID指标上大幅提高。这说明我们的模型不仅保证多类别生成图像的多样性、分类准确率、重建度都领先于现有方法,而且大幅提高了生成图像的视觉真实度,即更逼真、更接近真实照片。
表3Sketchy Database数值结果对比
FID | KID | IS | Acc | |
Pix2pix-Sep | 170.06 | 0.081 | 6.94 | 0.125 |
Pix2pix-Mix | 219.39 | 0.17 | 4.89 | 0.123 |
EdgeGAN-S | 218.67 | 0.12 | 5.54 | 0.903 |
AODA | 315.46 | 0.2 | 3.1 | 0.11 |
Ours | 121.04 | 0.024 | 7.15 | 0.995 |
表4SketchyCOCO数值结果对比
2、可视化结果
可视化结果主要分为两部分,一部分是与现存基线方法的生成结果对比,另一部分是本发明方法的多类别生成图像展示。
现存基线方法的可视化结果对比如图4所示,每列代表的含义依次为:(a)手绘;(b)真实图像;(c)本发明;(d)Pix2pix-Sep;(e)Pix2pix-Mix;(f)EdgeGAN-S;(g)AODA。本发明的可视化结果要优于其他现存方法。使用本发明的方法获得的生成图像,不仅更逼真、更接近真实图像,而且与手绘的形状特征更相似。本方法更多类别生成图像结果展示如图4所示。本方法可以使用单模型实现多类别图像的生成,并忠实于手绘。即本发明提出的方法和模型既可以学习手绘域与图像域之间的跨模态映射,又可以处理图像域内不同类别的域间差异。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于手绘的多类别对象级自然图像生成方法,其特征在于,包括以下步骤,
获取多类别对象级初始手绘以及对应的类别标签;
根据所述初始手绘和所述类别标签,对预先构建的图像生成模型进行训练;训练步骤包括:将所述初始手绘和其对应的类别标签输入至条件编码器中进行编码,得到预测隐空间向量;将所述预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果,根据所述预测结果判断模型收敛情况;训练至模型收敛;
所述条件编码器包括输入层、多个残差块、卷积层、下采样层和线性投影层;所述输入层、多个残差块、卷积层、下采样层和所述线性投影层依次连接;通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化;依次通过所述卷积层、所述下采样层和所述线性投影层,输出预测隐空间向量;
所述通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化,步骤包括:
获取输入向量和所述类别标签;其中,所述输入向量为所述初始手绘或由前一残差块输出的中间向量;
通过1×1卷积层对所述输入向量进行特征提取,得到第一特征向量;对所述第一特征向量使用最大池化层进行下采样,得到第一采样向量;
通过三层线性投影层对所述类别标签分别进行投影,对应得到增益参数和偏差参数;
通过1×1卷积层对所述输入向量进行特征提取得到第二特征向量;
根据第一层线性投影层输出的所述增益参数和所述偏差参数对所述第二特征向量进行条件批量归一化,并经过激活函数,得到第三特征向量;
通过3×3卷积层对所述第三特征向量进行特征提取,缩小特征图的尺寸为所述第二特征向量的1/2,增加特征向量的通道深度为所述第二特征向量的2倍,得到第四特征向量;
根据第二层线性投影层输出的所述增益参数和所述偏差参数对所述第四特征向量进行批量归一化,并经过激活函数,得到第五特征向量;
通过1×1卷积层对所述第五特征向量进行特征提取,得到第六特征向量;
根据第三层线性投影层输出的所述增益参数和所述偏差参数对所述第六特征向量进行批量归一化,并与所述第一采样向量进行相加后,由激活函数进行激活并输出;
所述训练步骤还包括:
将所述自然图像输入至图像-手绘转译网络,输出重建手绘;根据所述初始手绘与所述重建手绘,计算形状损失,约束所述自然图像忠实于所述初始手绘的形状特征;所述图像-手绘转译网络包括,多个上采样残差模块和多个下采样残差模块和1个1×1卷积层;其中,多个所述上采样残差模块和多个所述下采样残差模块以及所述1×1卷积层依次连接;所述预训练生成器模型固定;所述条件编码器根据真实隐空间向量和所述预测隐空间向量采用预设的第一损失函数计算向量重建损失,并进行参数更新;所述图像-手绘转译网络采用预设的第二损失函数计算形状损失,并进行参数更新;使用真实手绘-图像数据集进行调优,即利用该数据集作为训练数据集,使用预设的调优损失函数和所述第二损失函数分别对所述条件编码器E和所述图像-手绘转译网络S的参数进行优化;
所述第一损失函数为:
其中,
所述第二损失函数为:
所述调优损失函数为:
其中,zGT为隐空间向量,xGT为训练图像,s为输入手绘,y为类别标签,E为条件编码器,S为图像-手绘转译网络,G为预训练图像生成器,F为预训练特征提取网络,λimage、λz和λshape为模型训练时的超参数;
将实际手绘输入至训练好的所述图像生成模型中,生成自然图像。
2.根据权利要求1所述的一种基于手绘的多类别对象级自然图像生成方法,其特征在于,所述上采样残差模块的残差网络由一个1×1卷积层和一个平均池化层构成;
所述上采样残差模块的主干网络接由两个3×3卷积层组成;其中,在输入所述3×3卷积层之前,经过激活函数层进行激活;在每个所述3×3卷积层之后接有一个谱归一化层。
3.根据权利要求1所述的一种基于手绘的多类别对象级自然图像生成方法,其特征在于,所述下采样残差模块的残差网络由上采样层和1×1卷积层连接构成;
所述下采样残差模块的主干网络由激活函数层、上采样层、3×3卷积层、批量归一化层、激活函数层、3×3卷积层和批量归一化层依次连接构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211184768.XA CN115496824B (zh) | 2022-09-27 | 2022-09-27 | 一种基于手绘的多类别对象级自然图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211184768.XA CN115496824B (zh) | 2022-09-27 | 2022-09-27 | 一种基于手绘的多类别对象级自然图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496824A CN115496824A (zh) | 2022-12-20 |
CN115496824B true CN115496824B (zh) | 2023-08-18 |
Family
ID=84471603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211184768.XA Active CN115496824B (zh) | 2022-09-27 | 2022-09-27 | 一种基于手绘的多类别对象级自然图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496824B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993590A (zh) * | 2023-08-09 | 2023-11-03 | 中国电信股份有限公司技术创新中心 | 图像处理方法及装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110175251A (zh) * | 2019-05-25 | 2019-08-27 | 西安电子科技大学 | 基于语义对抗网络的零样本草图检索方法 |
CN113112572A (zh) * | 2021-04-13 | 2021-07-13 | 复旦大学 | 基于隐空间搜索的手绘草图引导的图像编辑方法 |
CN114299218A (zh) * | 2021-12-13 | 2022-04-08 | 吉林大学 | 一种基于手绘素描寻找真实人脸的系统 |
CN114399668A (zh) * | 2021-12-27 | 2022-04-26 | 中山大学 | 基于手绘草图和图像样例约束的自然图像生成方法及装置 |
-
2022
- 2022-09-27 CN CN202211184768.XA patent/CN115496824B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110175251A (zh) * | 2019-05-25 | 2019-08-27 | 西安电子科技大学 | 基于语义对抗网络的零样本草图检索方法 |
CN113112572A (zh) * | 2021-04-13 | 2021-07-13 | 复旦大学 | 基于隐空间搜索的手绘草图引导的图像编辑方法 |
CN114299218A (zh) * | 2021-12-13 | 2022-04-08 | 吉林大学 | 一种基于手绘素描寻找真实人脸的系统 |
CN114399668A (zh) * | 2021-12-27 | 2022-04-26 | 中山大学 | 基于手绘草图和图像样例约束的自然图像生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于条件生成对抗网络的手绘图像检索;刘玉杰;窦长红;赵其鲁;李宗民;李华;;计算机辅助设计与图形学学报(第12期);第2336-2342 * |
Also Published As
Publication number | Publication date |
---|---|
CN115496824A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450066B2 (en) | 3D reconstruction method based on deep learning | |
CN112150425B (zh) | 一种基于神经网络的无监督血管内超声图像配准方法 | |
CN111523546B (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN105931179B (zh) | 一种联合稀疏表示与深度学习的图像超分辨率方法及系统 | |
US11836572B2 (en) | Quantum inspired convolutional kernels for convolutional neural networks | |
CN111242999B (zh) | 基于上采样及精确重匹配的视差估计优化方法 | |
CN109522831B (zh) | 一种基于微卷积神经网络的车辆实时检测方法 | |
CN114170088A (zh) | 一种基于图结构数据的关系型强化学习系统及方法 | |
CN111626994A (zh) | 基于改进U-Net神经网络的设备故障缺陷诊断方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
Son et al. | SAUM: Symmetry-aware upsampling module for consistent point cloud completion | |
CN115496824B (zh) | 一种基于手绘的多类别对象级自然图像生成方法 | |
CN113436237B (zh) | 一种基于高斯过程迁移学习的复杂曲面高效测量系统 | |
WO2024045285A1 (zh) | 基于多源异构数据的地质构造建模方法 | |
CN117333750A (zh) | 空间配准与局部全局多尺度的多模态医学图像融合方法 | |
CN116819615A (zh) | 一种地震数据重建方法 | |
CN116402766A (zh) | 一种结合卷积神经网络和Transformer的遥感影像变化检测方法 | |
CN114138919A (zh) | 一种基于非局部注意力卷积神经网络的地震数据重建方法 | |
CN115170622A (zh) | 基于transformer的医学图像配准方法及系统 | |
CN117788629B (zh) | 一种具有风格个性化的图像生成方法、装置及存储介质 | |
CN117173131A (zh) | 基于蒸馏和记忆库指引重建的异常检测方法 | |
CN115760807A (zh) | 一种视网膜眼底图像配准方法及系统 | |
CN112581626B (zh) | 一种基于非参数化和多注意力机制的复杂曲面测量系统 | |
CN114545494A (zh) | 基于稀疏约束的无监督地震数据重建方法及装置 | |
CN114972619A (zh) | 一种基于自对齐双重回归的单图像人脸三维重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |