CN114494499A - 一种基于注意力机制的草图上色方法 - Google Patents
一种基于注意力机制的草图上色方法 Download PDFInfo
- Publication number
- CN114494499A CN114494499A CN202210111517.2A CN202210111517A CN114494499A CN 114494499 A CN114494499 A CN 114494499A CN 202210111517 A CN202210111517 A CN 202210111517A CN 114494499 A CN114494499 A CN 114494499A
- Authority
- CN
- China
- Prior art keywords
- coloring
- sketch
- network
- picture
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004040 coloring Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 18
- 241001465754 Metazoa Species 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011056 performance test Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000003042 antagnostic effect Effects 0.000 abstract description 4
- 238000012795 verification Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明属于图片处理技术领域,具体涉及一种基于注意力机制的草图上色方法,不同于现有利用色块为草图上色的方法,该方法只需用户输入一张风格参考图片,即可快速为草图进行相似风格的高质量上色。本发明主要包括网络构架设计和训练算法两部分。本方法上色步骤如下:对输入草图和风格参考图片进行编码,得到神经网络提取后的特征数据;利用该发明提出的注意力机制将两个特征图进行空间对齐与语义融合;使用基于U‑net的解码器将特征图数据转化为上色图片;将生成式对抗神经网络作为正则项,使生成图片更加真实。本发明所生成的图片相比于现有同参数量模型具有更高的真实性与结构保真性,在验证数据集上生成效果平均有25%的提升。
Description
技术领域
本发明属于图片处理技术领域,具体涉及一种基于注意力机制的草图上色方法。
背景技术
草图自动上色是一个使用价值十分高的重要技术。如今,在平面设计、动画和其他内容创作领域中,上色往往需要消耗大量的人力、时间。通常我们通过研究草图自动上色技术可以很好的帮助产业提高生产力,将艺术设计工作者从繁琐的上色工作中解放。
在过去的几年中,关于上色的相关技术不断的涌现,但是它们都是基于语义掩码上色或色块引导上色。使用语义掩码上色虽然具有良好的上色效果,但是该方法上色流程与真实生产脱节,无法直接的帮助艺术从业者;使用色块引导上色虽然与实际应用中的上色流程一致,但是,在动漫影视中数以万计的关键帧上色等大批量的作业问题仍然无法得到有效的解决。
针对上述问题,Junsoo Lee等人(Lee J,Kim E,Lee Y,et al.Reference-BasedSketch Image Colorization using Augmented-Self Reference and Dense SemanticCorrespondence.2020.)提出使用风格参考图片对草图进行上色。这种方式即可完美嵌入在真实生产环境中辅助艺术工作者进行上色,还可以做到对大批量待上色线稿进行“一键上色”。但是该方法所生成的图片常常会出现不完全上色和颜色溢出等问题。
发明内容
本发明拟提供一种基于注意力机制的草图上色方法,拟解决采用现有技术中所提到的方法所生成的图片常常会出现不完全上色和颜色溢出等问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于注意力机制的草图上色方法,包括以下步骤:
步骤1:搭建草图上色模型;
步骤1.1:搭建对待上色草图进行特征编码的草图编码网络;所述草图编码网络采用n*n的2D卷积核堆叠M层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到草图特征,所述n和M均为正整数;
步骤1.2:搭建对参考草图进行特征编码的参考图编码网络,所述参考图编码网络采用n*n的2D卷积核堆叠M层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到参考图特征;
步骤1.3:基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络;所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;
步骤1.4:搭建生成网络,所述生成网络包括残差模块和解码器,解码器与草图编码构成U-net结构,通过跳转连接生成网络;所述生成网络基于步骤1.3中得到的融合特征图,生成上色图片;所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络;通过跳转连接生成网络可以利用待上色草图的不同层级的信息,从而保证生成网络所生成图片和待上色草图的轮廓一致;
步骤1.5:基于全卷积神经网络搭建判别网络,所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督,进而产生更加出众的上色结果;
步骤2:将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练,得到生成的上色图片。
本发明通过对输入的待上色草图和参考图片进行编码,得到草图特征和参考图特征;利用注意力机制网络将草图特征和参考图特征进行对齐及融合,得到融合特征图;再基于U-net的解码器将融合特征图转化为上色图片;将生成式对抗神经网络作为正则项,使生成的上色图片更加真实;并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性,在验证数据集上生成效果平均有25%的提升。
优选的,所述步骤2包括以下步骤:
步骤2.1:获取数据集内的彩色图片,使用XDOG方法对彩色图片进行滤波得到待上色草图;将数据集内的彩色图片进行颜色抖动增广,将进行颜色抖动增广后的图片作为待上色草图的预期上色结果,再对该增广图片使用薄板样条形变得到训练所需的风格参考图片;
步骤2.2:将待上色草图和参考图片分别输入草图编码网络和参考图编码网络,基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征;基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;最后通过生成网络,基于所述融合特征图,生成上色图片。
步骤2.3:将生成的上色图片和数据集内对应的彩色图片分别输入至预训练的VGG16模型中,并提取上色图片和对应的真实彩色图片的深度特征,并通过感知损失和风格损失约束两者的深度特征一直;并使用对抗损失和重构损失辅助上色网络和判别网络的训练;损失函数的总和具体如下:
优选的,所述步骤2.3中将待上色草图分别与增广后的图片和上色图片组合,形成第一组合图和第二组合图,并将第一组合图和第二组合图输入至判别网络,并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练:
其中F表示上色网络,D表示判别网络;Is表示待上色草图,Igt表示预期上色结果图片;F(Is,Ir)表示使用Is作为草图,Ir作为风格参考所得到的上色结果,即上文所提到的上色图片;(Igt,Is)代表第一组合图,(F(Is,Ir),Is)代表第二组合图。
优选的,还包括用于续接步骤2.3的步骤2.4:采用Adam算法优化步骤2.3中所述的损失函数的总和。
优选的,所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束,具体如下:
优选的,为了进一步的约束生成网络所生成的上色图片的内容和风格,采用如下公式约束上色网络所生成的图片的内容和风格:
优选的,所述步骤1.3中采用如下公式构建特征对齐的注意力图:
A=XYT;
优选的,所述步骤1.3中采用如下公式进行特征融合:
其中Z表示特征聚合输出;σ(·)表示Leaky ReLU激活函数;sg(·)表示停止该变量的反向传播;Wx和Wy表示特征调整矩阵。
进一步的,为了减少生成网络所生成的图片的棋盘伪影现象,所述步骤1.4还包括:当进行特征融合后的特征图需要进行上采样时,首先采用双线性插值将特征图尺寸放大,再使用2D卷积进行卷积操作压缩特征维度。
优选的,所述步骤1.1和步骤1.2中的n取值为3;M取值为10。
优选的,所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试,得到Frechet Inception距离得分(FID)和结构相似性(SSIM);并且所述步骤1.2中所指的数据集为Anime数据集和AFHQ数据集。
Anime:Anime数据集是Tseng等人(Tseng H Y,Fisher M,Lu J,et al.ModelingArtistic Workflows for Image Generation and Editing[J].2020.)提供的一个动漫人物肖像数据集。该数据内含有33323张训练图片和1000张测试图片。
AFHQ:AFHQ数据集是Choi等人(Choi Y,Uh Y,Yoo J,et al.StarGAN v2:DiverseImage Synthesis for Multiple Domains[J].2019.)提供的高清动物图片数据集。该数据集内包含3类动物:猫(Cat)、狗(Dog)和野生(Wild)。每一类均有5000张训练图片和500张测试图片。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明通过对输入的待上色草图和参考图片进行编码,得到草图特征和参考图特征;利用注意力机制网络将草图特征和参考图特征进行对齐及融合,得到融合特征图;再基于U-net的解码器将融合特征图转化为上色图片;将生成式对抗神经网络作为正则项,使生成的上色图片更加真实;并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性,在验证数据集上生成效果平均有25%的提升。
2.本发明相较于采用归一化的方法生成的上色图片来讲,真实性提升了37.58%,结构保真性提升了32.76%。
3.本发明相较于其他注意力机制方法所述生成的上色图片来讲,真实性提升了27.21%,结构保真性提升了25.67%。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的模型示意图(彩图见其他证明文件的图A)。
图2为本发明的流程示意图。
图3为本发明的实验效果示意图(彩图见其他证明文件的图B)。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1和附图2对本发明的实施例作详细描述;
一种基于注意力机制的草图上色方法,包括以下步骤:
步骤1:搭建草图上色模型;
步骤1.1:搭建对待上色草图进行特征编码的草图编码网络;所述草图编码网络采用3*3的2D卷积核堆叠10层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到草图特征;
步骤1.2:搭建对参考草图进行特征编码的参考图编码网络,所述参考图编码网络采用3*3的2D卷积核堆叠10层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到参考图特征;
步骤1.3:基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络;所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;
所述步骤1.3中采用如下公式构建特征对齐的注意力图:
A=XYT;
所述步骤1.3中采用如下公式进行特征融合:
其中Z表示特征聚合输出;σ(·)表示Leaky ReLU激活函数;sg(·)表示停止该变量的反向传播;Wx和Wy表示特征调整矩阵。
步骤1.4:搭建生成网络,所述生成网络包括残差模块和解码器,解码器与草图编码构成U-net结构,通过跳转连接生成网络;所述生成网络基于步骤1.3中得到的融合特征图,生成上色图片;所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络;通过跳转连接生成网络可以利用待上色草图的不同层级的信息,从而保证生成网络所生成图片和待上色草图的轮廓一致;为了减少生成网络所生成的图片的棋盘伪影现象,所述步骤1.4还包括:当进行特征融合后的特征图需要进行上采样时,首先采用双线性插值将特征图尺寸放大,再使用2D卷积进行卷积操作压缩特征维度。
所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试,得到Frechet Inception距离得分(FID)和结构相似性(SSIM);并且所述步骤1.2中所指的数据集为Anime数据集和AFHQ数据集。
Anime:Anime数据集是Tseng等人(Tseng H Y,Fisher M,Lu J,et al.ModelingArtistic Workflows for Image Generation and Editing[J].2020.)提供的一个动漫人物肖像数据集。该数据内含有33323张训练图片和1000张测试图片。
AFHQ:AFHQ数据集是Choi等人(Choi Y,Uh Y,Yoo J,et al.StarGAN v2:DiverseImage Synthesis for Multiple Domains[J].2019.)提供的高清动物图片数据集。该数据集内包含3类动物:猫(Cat)、狗(Dog)和野生(Wild)。每一类均有5000张训练图片和500张测试图片。
步骤1.5:基于全卷积神经网络搭建判别网络,所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督,进而产生更加出众的上色结果;
步骤2:将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练,得到生成的上色图片。
所述步骤2包括以下步骤:
步骤2.1:获取数据集内的彩色图片,使用XDOG方法对彩色图片进行滤波得到待上色草图;将数据集内的彩色图片进行颜色抖动增广,将进行颜色抖动增广后的图片作为待上色草图的预期上色结果,再对该增广图片使用薄板样条形变得到训练所需的风格参考图片;
步骤2.2:将待上色草图和参考图片分别输入草图编码网络和参考图编码网络,基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征;基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;最后通过生成网络,基于所述融合特征图,生成上色图片。
步骤2.3:将生成的上色图片和数据集内对应的彩色图片分别输入至预训练的VGG16模型中,并提取上色图片和对应的真实彩色图片的深度特征,并通过感知损失和风格损失约束两者的深度特征一直;并使用对抗损失和重构损失辅助上色网络和判别网络的训练;损失函数的总和具体如下:
所述步骤2.3中将待上色草图分别与增广后的图片和上色图片组合,形成第一组合图和第二组合图,并将第一组合图和第二组合图输入至判别网络,并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练:
其中F表示上色网络,D表示判别网络;Is表示待上色草图,Igt表示预期上色结果图片;F(Is,Ir)表示使用Is作为草图,Ir作为风格参考所得到的上色结果,即上文所提到的上色图片;(Igt,Is)代表第一组合图,(F(Is,Ir),Is)代表第二组合图。
所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束,具体如下:
为了进一步的约束生成网络所生成的上色图片的内容和风格,采用如下公式约束上色网络所生成的图片的内容和风格:
其中,其中,Igen代表生成的上色图片,Igt表示预期上色结果图片;φl(·)表示预训练模型VGG16的第l层卷积输出;表示Gram矩阵;其中代表感知损失,代表风格损失,为固定的数学符号,表示求期望。
步骤2.4:采用Adam算法优化步骤2.3中所述的损失函数的总和。
本发明通过对输入的待上色草图和参考图片进行编码,得到草图特征和参考图特征;利用注意力机制网络将草图特征和参考图特征进行对齐及融合,得到融合特征图;再基于U-net的解码器将融合特征图转化为上色图片;将生成式对抗神经网络作为正则项,使生成的上色图片更加真实;并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性,在验证数据集上生成效果平均有25%的提升。
为了进一步的说明本发明,基于本发明提供如下实验:
为了验证提出的基于注意力机制的草图上色方法的优越性,本发明在2个公开基准网络数据集上进行了草图上色的实验。本发明与其他基于参考图的草图上色方法进行比较。SPADE和UNITE所采用自适应归一化特征融合技术,而CoCosNet和SCFT所采用注意力机制特征融合技术。所有方法均采用相同的编码-解码结构,只有特征融合模块不同。这些结果的比较呈现在表1和图3中。图3(彩图请参见其他证明文件的图B)中第一列表示风格参考图片,第二列表示草图,第3~6列表示对比方法生成结果,最后一列表示本方法生成结果。所有实验均在具有Intel(R)Core(TM)i7-8700 3.20GHz CPU、GeForce GTX 1080Ti GPU和64GB RAM的计算机上进行。
表1:在Anime和AFHQ上的数值结果
从实验结果可以看出本发明有如下优点:
1)从生成图片的效果角度,本发明的上色效果明显好于其他方法,生成图片更真实,且与草图结构完全一致。
2)从量化指标角度,本方法所生成的上色图片FID较其他方法平均有27.21%的提升,SSIM得到平均25.67%的提升。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (10)
1.一种基于注意力机制的草图上色方法,其特征在于,包括以下步骤:
步骤1:搭建草图上色模型;
步骤1.1:搭建对待上色草图进行特征编码的草图编码网络;所述草图编码网络采用n*n的2D卷积核堆叠M层卷积层,卷积层均使用Leaky ReLU激活函数;并且通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到草图特征,所述n和M均为正整数;
步骤1.2:搭建对参考草图进行特征编码的参考图编码网络,所述参考图编码网络采用n*n的2D卷积核堆叠M层卷积层,卷积层均使用Leaky ReLU激活函数;并且通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到参考图特征;
步骤1.3:基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络;所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;
步骤1.4:搭建生成网络,所述生成网络包括残差模块和解码器,解码器与草图编码构成U-net结构,通过跳转连接生成网络;所述生成网络基于步骤1.3中得到的融合特征图,生成上色图片;所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络;
步骤1.5:基于全卷积神经网络搭建判别网络,所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督;
步骤2:将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练,得到生成的上色图片。
2.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1:获取数据集内的彩色图片,使用XDOG方法对彩色图片进行滤波得到待上色草图;将数据集内的彩色图片进行颜色抖动增广,将进行颜色抖动增广后的图片作为待上色草图的预期上色结果,再对该增广图片使用薄板样条形变得到训练所需的风格参考图片;
步骤2.2:将待上色草图和参考图片分别输入草图编码网络和参考图编码网络,基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征;基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;最后通过生成网络,基于所述融合特征图,生成上色图片;
步骤2.3:将生成的上色图片和数据集内对应的的彩色图片分别输入至预训练的VGG16模型中,并提取上色图片和对应的真实彩色图片的深度特征,并通过感知损失和风格损失约束两者的深度特征一直;并使用对抗损失和重构损失辅助上色网络和判别网络的训练;损失函数的总和具体如下:
4.根据权利要求2所述的一种基于注意力机制的草图上色方法,其特征在于,还包括用于续接步骤2.3的步骤2.4:采用Adam算法优化步骤2.3中所述的损失函数的总和。
9.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤1.4还包括:当进行特征融合后的特征图需要进行上采样时,首先采用双线性插值将特征图尺寸放大,再使用2D卷积进行卷积操作压缩特征维度。
10.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试,得到FrechetInception距离得分和结构相似性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111517.2A CN114494499B (zh) | 2022-01-26 | 2022-01-26 | 一种基于注意力机制的草图上色方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111517.2A CN114494499B (zh) | 2022-01-26 | 2022-01-26 | 一种基于注意力机制的草图上色方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494499A true CN114494499A (zh) | 2022-05-13 |
CN114494499B CN114494499B (zh) | 2023-07-18 |
Family
ID=81478509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210111517.2A Active CN114494499B (zh) | 2022-01-26 | 2022-01-26 | 一种基于注意力机制的草图上色方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494499B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117993480A (zh) * | 2024-04-02 | 2024-05-07 | 湖南大学 | 面向设计师风格融合和隐私保护的aigc联邦学习方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615252A (zh) * | 2018-05-03 | 2018-10-02 | 苏州大学 | 基于参考图像的线稿上色模型的训练方法以及装置 |
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN110223359A (zh) * | 2019-05-27 | 2019-09-10 | 浙江大学 | 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用 |
CN112767507A (zh) * | 2021-01-15 | 2021-05-07 | 大连理工大学 | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 |
CN113868448A (zh) * | 2021-05-08 | 2021-12-31 | 中国科学院软件研究所 | 一种细粒度场景级基于草图的图像检索方法及系统 |
CN113962893A (zh) * | 2021-10-27 | 2022-01-21 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
-
2022
- 2022-01-26 CN CN202210111517.2A patent/CN114494499B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615252A (zh) * | 2018-05-03 | 2018-10-02 | 苏州大学 | 基于参考图像的线稿上色模型的训练方法以及装置 |
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN110223359A (zh) * | 2019-05-27 | 2019-09-10 | 浙江大学 | 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用 |
CN112767507A (zh) * | 2021-01-15 | 2021-05-07 | 大连理工大学 | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 |
CN113868448A (zh) * | 2021-05-08 | 2021-12-31 | 中国科学院软件研究所 | 一种细粒度场景级基于草图的图像检索方法及系统 |
CN113962893A (zh) * | 2021-10-27 | 2022-01-21 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117993480A (zh) * | 2024-04-02 | 2024-05-07 | 湖南大学 | 面向设计师风格融合和隐私保护的aigc联邦学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114494499B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Swapping autoencoder for deep image manipulation | |
Zhang et al. | Semantic image inpainting with progressive generative networks | |
Deng et al. | Aesthetic-driven image enhancement by adversarial learning | |
CN107480206B (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN109584325B (zh) | 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法 | |
CN107644006A (zh) | 一种基于深度神经网络的手写体中文字库自动生成方法 | |
CN112991493B (zh) | 基于vae-gan和混合密度网络的灰度图像着色方法 | |
CN113837946B (zh) | 一种基于递进蒸馏网络的轻量化图像超分辨率重建方法 | |
CN113140023B (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN110895795A (zh) | 改进的语义图像修补模型方法 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN110458759A (zh) | 一种基于edsr单图超分辨率重建方法 | |
US11966849B2 (en) | Image processing network search for deep image priors | |
CN114494499A (zh) | 一种基于注意力机制的草图上色方法 | |
WO2023024653A1 (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
Ho et al. | Deep preset: Blending and retouching photos with color style transfer | |
Guérin et al. | Gradient terrain authoring | |
JP2023001926A (ja) | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN111260585A (zh) | 基于类凸集投影算法的图像恢复方法 | |
CN110321893A (zh) | 一种聚焦增强的场景文本识别网络 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN116662570A (zh) | 一种用于银行风险评估的异构图知识图谱补全方法及系统 | |
CN107221019B (zh) | 图表转换方法及装置 | |
CN114549314A (zh) | 一种提高图像分辨率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |