CN114494499A - 一种基于注意力机制的草图上色方法 - Google Patents

一种基于注意力机制的草图上色方法 Download PDF

Info

Publication number
CN114494499A
CN114494499A CN202210111517.2A CN202210111517A CN114494499A CN 114494499 A CN114494499 A CN 114494499A CN 202210111517 A CN202210111517 A CN 202210111517A CN 114494499 A CN114494499 A CN 114494499A
Authority
CN
China
Prior art keywords
coloring
sketch
network
picture
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210111517.2A
Other languages
English (en)
Other versions
CN114494499B (zh
Inventor
康昭
李泽坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210111517.2A priority Critical patent/CN114494499B/zh
Publication of CN114494499A publication Critical patent/CN114494499A/zh
Application granted granted Critical
Publication of CN114494499B publication Critical patent/CN114494499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明属于图片处理技术领域,具体涉及一种基于注意力机制的草图上色方法,不同于现有利用色块为草图上色的方法,该方法只需用户输入一张风格参考图片,即可快速为草图进行相似风格的高质量上色。本发明主要包括网络构架设计和训练算法两部分。本方法上色步骤如下:对输入草图和风格参考图片进行编码,得到神经网络提取后的特征数据;利用该发明提出的注意力机制将两个特征图进行空间对齐与语义融合;使用基于U‑net的解码器将特征图数据转化为上色图片;将生成式对抗神经网络作为正则项,使生成图片更加真实。本发明所生成的图片相比于现有同参数量模型具有更高的真实性与结构保真性,在验证数据集上生成效果平均有25%的提升。

Description

一种基于注意力机制的草图上色方法
技术领域
本发明属于图片处理技术领域,具体涉及一种基于注意力机制的草图上色方法。
背景技术
草图自动上色是一个使用价值十分高的重要技术。如今,在平面设计、动画和其他内容创作领域中,上色往往需要消耗大量的人力、时间。通常我们通过研究草图自动上色技术可以很好的帮助产业提高生产力,将艺术设计工作者从繁琐的上色工作中解放。
在过去的几年中,关于上色的相关技术不断的涌现,但是它们都是基于语义掩码上色或色块引导上色。使用语义掩码上色虽然具有良好的上色效果,但是该方法上色流程与真实生产脱节,无法直接的帮助艺术从业者;使用色块引导上色虽然与实际应用中的上色流程一致,但是,在动漫影视中数以万计的关键帧上色等大批量的作业问题仍然无法得到有效的解决。
针对上述问题,Junsoo Lee等人(Lee J,Kim E,Lee Y,et al.Reference-BasedSketch Image Colorization using Augmented-Self Reference and Dense SemanticCorrespondence.2020.)提出使用风格参考图片对草图进行上色。这种方式即可完美嵌入在真实生产环境中辅助艺术工作者进行上色,还可以做到对大批量待上色线稿进行“一键上色”。但是该方法所生成的图片常常会出现不完全上色和颜色溢出等问题。
发明内容
本发明拟提供一种基于注意力机制的草图上色方法,拟解决采用现有技术中所提到的方法所生成的图片常常会出现不完全上色和颜色溢出等问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于注意力机制的草图上色方法,包括以下步骤:
步骤1:搭建草图上色模型;
步骤1.1:搭建对待上色草图进行特征编码的草图编码网络;所述草图编码网络采用n*n的2D卷积核堆叠M层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到草图特征,所述n和M均为正整数;
步骤1.2:搭建对参考草图进行特征编码的参考图编码网络,所述参考图编码网络采用n*n的2D卷积核堆叠M层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到参考图特征;
步骤1.3:基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络;所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;
步骤1.4:搭建生成网络,所述生成网络包括残差模块和解码器,解码器与草图编码构成U-net结构,通过跳转连接生成网络;所述生成网络基于步骤1.3中得到的融合特征图,生成上色图片;所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络;通过跳转连接生成网络可以利用待上色草图的不同层级的信息,从而保证生成网络所生成图片和待上色草图的轮廓一致;
步骤1.5:基于全卷积神经网络搭建判别网络,所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督,进而产生更加出众的上色结果;
步骤2:将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练,得到生成的上色图片。
本发明通过对输入的待上色草图和参考图片进行编码,得到草图特征和参考图特征;利用注意力机制网络将草图特征和参考图特征进行对齐及融合,得到融合特征图;再基于U-net的解码器将融合特征图转化为上色图片;将生成式对抗神经网络作为正则项,使生成的上色图片更加真实;并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性,在验证数据集上生成效果平均有25%的提升。
优选的,所述步骤2包括以下步骤:
步骤2.1:获取数据集内的彩色图片,使用XDOG方法对彩色图片进行滤波得到待上色草图;将数据集内的彩色图片进行颜色抖动增广,将进行颜色抖动增广后的图片作为待上色草图的预期上色结果,再对该增广图片使用薄板样条形变得到训练所需的风格参考图片;
步骤2.2:将待上色草图和参考图片分别输入草图编码网络和参考图编码网络,基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征;基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;最后通过生成网络,基于所述融合特征图,生成上色图片。
步骤2.3:将生成的上色图片和数据集内对应的彩色图片分别输入至预训练的VGG16模型中,并提取上色图片和对应的真实彩色图片的深度特征,并通过感知损失和风格损失约束两者的深度特征一直;并使用对抗损失和重构损失辅助上色网络和判别网络的训练;损失函数的总和具体如下:
Figure BDA0003489916160000031
其中F表示上色网络,D表示判别网络;
Figure BDA0003489916160000032
代表对抗损失;
Figure BDA0003489916160000033
代表重构损失,其权重λ1=30:
Figure BDA0003489916160000034
代表感知损失,其权重λ2=0.01;
Figure BDA0003489916160000035
代表风格损失,其权重λ3=50。
优选的,所述步骤2.3中将待上色草图分别与增广后的图片和上色图片组合,形成第一组合图和第二组合图,并将第一组合图和第二组合图输入至判别网络,并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练:
Figure BDA0003489916160000036
其中F表示上色网络,D表示判别网络;Is表示待上色草图,Igt表示预期上色结果图片;F(Is,Ir)表示使用Is作为草图,Ir作为风格参考所得到的上色结果,即上文所提到的上色图片;(Igt,Is)代表第一组合图,(F(Is,Ir),Is)代表第二组合图。
优选的,还包括用于续接步骤2.3的步骤2.4:采用Adam算法优化步骤2.3中所述的损失函数的总和。
优选的,所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束,具体如下:
Figure BDA0003489916160000037
其中,F(Is,Ir)表示使用待上色草图Is和参考图片Ir的上色结果;Igt表示预期上色结果图片;
Figure BDA0003489916160000038
代表重构损失。
优选的,为了进一步的约束生成网络所生成的上色图片的内容和风格,采用如下公式约束上色网络所生成的图片的内容和风格:
Figure BDA0003489916160000039
Figure BDA00034899161600000310
其中,其中,Igen代表生成的上色图片,Igt表示预期上色结果图片;φl(·)表示预训练模型VGG16的第l层卷积输出;
Figure BDA00034899161600000311
表示Gram矩阵;其中
Figure BDA00034899161600000312
代表感知损失,
Figure BDA00034899161600000313
代表风格损失。
优选的,所述步骤1.3中采用如下公式构建特征对齐的注意力图:
A=XYT
Figure BDA0003489916160000041
Figure BDA0003489916160000042
其中,X和Y表示两个输入特征矩阵;在交叉-SGA中X为步骤1.1中的草图特征图,Y为步骤1.2中的参考图特征;在内联-SGA中X和Y均为交叉-SGA的输出;
Figure BDA0003489916160000043
代表注意力矩阵。
优选的,所述步骤1.3中采用如下公式进行特征融合:
Figure BDA0003489916160000044
其中Z表示特征聚合输出;σ(·)表示Leaky ReLU激活函数;sg(·)表示停止该变量的反向传播;Wx和Wy表示特征调整矩阵。
进一步的,为了减少生成网络所生成的图片的棋盘伪影现象,所述步骤1.4还包括:当进行特征融合后的特征图需要进行上采样时,首先采用双线性插值将特征图尺寸放大,再使用2D卷积进行卷积操作压缩特征维度。
优选的,所述步骤1.1和步骤1.2中的n取值为3;M取值为10。
优选的,所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试,得到Frechet Inception距离得分(FID)和结构相似性(SSIM);并且所述步骤1.2中所指的数据集为Anime数据集和AFHQ数据集。
Anime:Anime数据集是Tseng等人(Tseng H Y,Fisher M,Lu J,et al.ModelingArtistic Workflows for Image Generation and Editing[J].2020.)提供的一个动漫人物肖像数据集。该数据内含有33323张训练图片和1000张测试图片。
AFHQ:AFHQ数据集是Choi等人(Choi Y,Uh Y,Yoo J,et al.StarGAN v2:DiverseImage Synthesis for Multiple Domains[J].2019.)提供的高清动物图片数据集。该数据集内包含3类动物:猫(Cat)、狗(Dog)和野生(Wild)。每一类均有5000张训练图片和500张测试图片。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明通过对输入的待上色草图和参考图片进行编码,得到草图特征和参考图特征;利用注意力机制网络将草图特征和参考图特征进行对齐及融合,得到融合特征图;再基于U-net的解码器将融合特征图转化为上色图片;将生成式对抗神经网络作为正则项,使生成的上色图片更加真实;并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性,在验证数据集上生成效果平均有25%的提升。
2.本发明相较于采用归一化的方法生成的上色图片来讲,真实性提升了37.58%,结构保真性提升了32.76%。
3.本发明相较于其他注意力机制方法所述生成的上色图片来讲,真实性提升了27.21%,结构保真性提升了25.67%。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的模型示意图(彩图见其他证明文件的图A)。
图2为本发明的流程示意图。
图3为本发明的实验效果示意图(彩图见其他证明文件的图B)。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1和附图2对本发明的实施例作详细描述;
一种基于注意力机制的草图上色方法,包括以下步骤:
步骤1:搭建草图上色模型;
步骤1.1:搭建对待上色草图进行特征编码的草图编码网络;所述草图编码网络采用3*3的2D卷积核堆叠10层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到草图特征;
步骤1.2:搭建对参考草图进行特征编码的参考图编码网络,所述参考图编码网络采用3*3的2D卷积核堆叠10层卷积层,为了提高草图编码网络的非线性表达能力,卷积层均使用Leaky ReLU激活函数;为了利用不同层级的特征信息,通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到参考图特征;
步骤1.3:基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络;所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;
所述步骤1.3中采用如下公式构建特征对齐的注意力图:
A=XYT
Figure BDA0003489916160000061
Figure BDA0003489916160000062
其中,X和Y表示两个输入特征矩阵;在交叉-SGA中X为步骤1.1中的草图特征图,Y为步骤1.2中的参考图特征;在内联-SGA中X和Y均为交叉-SGA的输出;
Figure BDA0003489916160000063
代表注意力矩阵。
所述步骤1.3中采用如下公式进行特征融合:
Figure BDA0003489916160000064
其中Z表示特征聚合输出;σ(·)表示Leaky ReLU激活函数;sg(·)表示停止该变量的反向传播;Wx和Wy表示特征调整矩阵。
步骤1.4:搭建生成网络,所述生成网络包括残差模块和解码器,解码器与草图编码构成U-net结构,通过跳转连接生成网络;所述生成网络基于步骤1.3中得到的融合特征图,生成上色图片;所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络;通过跳转连接生成网络可以利用待上色草图的不同层级的信息,从而保证生成网络所生成图片和待上色草图的轮廓一致;为了减少生成网络所生成的图片的棋盘伪影现象,所述步骤1.4还包括:当进行特征融合后的特征图需要进行上采样时,首先采用双线性插值将特征图尺寸放大,再使用2D卷积进行卷积操作压缩特征维度。
所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试,得到Frechet Inception距离得分(FID)和结构相似性(SSIM);并且所述步骤1.2中所指的数据集为Anime数据集和AFHQ数据集。
Anime:Anime数据集是Tseng等人(Tseng H Y,Fisher M,Lu J,et al.ModelingArtistic Workflows for Image Generation and Editing[J].2020.)提供的一个动漫人物肖像数据集。该数据内含有33323张训练图片和1000张测试图片。
AFHQ:AFHQ数据集是Choi等人(Choi Y,Uh Y,Yoo J,et al.StarGAN v2:DiverseImage Synthesis for Multiple Domains[J].2019.)提供的高清动物图片数据集。该数据集内包含3类动物:猫(Cat)、狗(Dog)和野生(Wild)。每一类均有5000张训练图片和500张测试图片。
步骤1.5:基于全卷积神经网络搭建判别网络,所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督,进而产生更加出众的上色结果;
步骤2:将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练,得到生成的上色图片。
所述步骤2包括以下步骤:
步骤2.1:获取数据集内的彩色图片,使用XDOG方法对彩色图片进行滤波得到待上色草图;将数据集内的彩色图片进行颜色抖动增广,将进行颜色抖动增广后的图片作为待上色草图的预期上色结果,再对该增广图片使用薄板样条形变得到训练所需的风格参考图片;
步骤2.2:将待上色草图和参考图片分别输入草图编码网络和参考图编码网络,基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征;基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;最后通过生成网络,基于所述融合特征图,生成上色图片。
步骤2.3:将生成的上色图片和数据集内对应的彩色图片分别输入至预训练的VGG16模型中,并提取上色图片和对应的真实彩色图片的深度特征,并通过感知损失和风格损失约束两者的深度特征一直;并使用对抗损失和重构损失辅助上色网络和判别网络的训练;损失函数的总和具体如下:
Figure BDA0003489916160000071
其中F表示上色网络,D表示判别网络;
Figure BDA0003489916160000072
代表对抗损失;
Figure BDA0003489916160000073
代表重构损失,其权重λ1=30;
Figure BDA0003489916160000074
代表感知损失,其权重λ2=0.01;
Figure BDA0003489916160000075
代表风格损失,其权重λ3=50。
所述步骤2.3中将待上色草图分别与增广后的图片和上色图片组合,形成第一组合图和第二组合图,并将第一组合图和第二组合图输入至判别网络,并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练:
Figure BDA0003489916160000081
其中F表示上色网络,D表示判别网络;Is表示待上色草图,Igt表示预期上色结果图片;F(Is,Ir)表示使用Is作为草图,Ir作为风格参考所得到的上色结果,即上文所提到的上色图片;(Igt,Is)代表第一组合图,(F(Is,Ir),Is)代表第二组合图。
所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束,具体如下:
Figure BDA0003489916160000082
其中,F(Is,Ir)表示使用待上色草图Is和参考图片Ir的上色结果;Igt表示预期上色结果图片;
Figure BDA0003489916160000083
代表重构损失;
Figure BDA0003489916160000084
为固定的数学符号,表示求期望。
为了进一步的约束生成网络所生成的上色图片的内容和风格,采用如下公式约束上色网络所生成的图片的内容和风格:
Figure BDA0003489916160000085
Figure BDA0003489916160000086
其中,其中,Igen代表生成的上色图片,Igt表示预期上色结果图片;φl(·)表示预训练模型VGG16的第l层卷积输出;
Figure BDA0003489916160000087
表示Gram矩阵;其中
Figure BDA0003489916160000088
代表感知损失,
Figure BDA0003489916160000089
代表风格损失,
Figure BDA00034899161600000810
为固定的数学符号,表示求期望。
步骤2.4:采用Adam算法优化步骤2.3中所述的损失函数的总和。
本发明通过对输入的待上色草图和参考图片进行编码,得到草图特征和参考图特征;利用注意力机制网络将草图特征和参考图特征进行对齐及融合,得到融合特征图;再基于U-net的解码器将融合特征图转化为上色图片;将生成式对抗神经网络作为正则项,使生成的上色图片更加真实;并且通过上述方法本发明所生成的图片相比于现有的同参数情况下的模型具有更高的真实性和结构保真性,在验证数据集上生成效果平均有25%的提升。
为了进一步的说明本发明,基于本发明提供如下实验:
为了验证提出的基于注意力机制的草图上色方法的优越性,本发明在2个公开基准网络数据集上进行了草图上色的实验。本发明与其他基于参考图的草图上色方法进行比较。SPADE和UNITE所采用自适应归一化特征融合技术,而CoCosNet和SCFT所采用注意力机制特征融合技术。所有方法均采用相同的编码-解码结构,只有特征融合模块不同。这些结果的比较呈现在表1和图3中。图3(彩图请参见其他证明文件的图B)中第一列表示风格参考图片,第二列表示草图,第3~6列表示对比方法生成结果,最后一列表示本方法生成结果。所有实验均在具有Intel(R)Core(TM)i7-8700 3.20GHz CPU、GeForce GTX 1080Ti GPU和64GB RAM的计算机上进行。
表1:在Anime和AFHQ上的数值结果
Figure BDA0003489916160000091
从实验结果可以看出本发明有如下优点:
1)从生成图片的效果角度,本发明的上色效果明显好于其他方法,生成图片更真实,且与草图结构完全一致。
2)从量化指标角度,本方法所生成的上色图片FID较其他方法平均有27.21%的提升,SSIM得到平均25.67%的提升。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (10)

1.一种基于注意力机制的草图上色方法,其特征在于,包括以下步骤:
步骤1:搭建草图上色模型;
步骤1.1:搭建对待上色草图进行特征编码的草图编码网络;所述草图编码网络采用n*n的2D卷积核堆叠M层卷积层,卷积层均使用Leaky ReLU激活函数;并且通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到草图特征,所述n和M均为正整数;
步骤1.2:搭建对参考草图进行特征编码的参考图编码网络,所述参考图编码网络采用n*n的2D卷积核堆叠M层卷积层,卷积层均使用Leaky ReLU激活函数;并且通过自适应池化将每层卷积的输出调整到空间尺寸为16*16,按照特征维度拼接池化后的每层卷积,得到参考图特征;
步骤1.3:基于梯度终止式注意力模块-交叉SGA和内联SGA搭建注意力机制网络;所述注意力机制网络对步骤1.1和步骤1.2得到的草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;
步骤1.4:搭建生成网络,所述生成网络包括残差模块和解码器,解码器与草图编码构成U-net结构,通过跳转连接生成网络;所述生成网络基于步骤1.3中得到的融合特征图,生成上色图片;所述草图编码网络、参考图编码网络、注意力机制网络以及生成网络共同组成上色网络;
步骤1.5:基于全卷积神经网络搭建判别网络,所述判别网络基于待上色草图和上色图片对上色图片的真实性与待上色草图的匹配性进行监督;
步骤2:将待上色草图和风格参考图片输入至搭建好的草图上色模型中进行训练,得到生成的上色图片。
2.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1:获取数据集内的彩色图片,使用XDOG方法对彩色图片进行滤波得到待上色草图;将数据集内的彩色图片进行颜色抖动增广,将进行颜色抖动增广后的图片作为待上色草图的预期上色结果,再对该增广图片使用薄板样条形变得到训练所需的风格参考图片;
步骤2.2:将待上色草图和参考图片分别输入草图编码网络和参考图编码网络,基于草图编码网络和参考图编码网络分别得到草图特征和参考图特征;基于注意力机制网络对草图特征和参考图特征进行特征对齐和特征融合,得到融合特征图;最后通过生成网络,基于所述融合特征图,生成上色图片;
步骤2.3:将生成的上色图片和数据集内对应的的彩色图片分别输入至预训练的VGG16模型中,并提取上色图片和对应的真实彩色图片的深度特征,并通过感知损失和风格损失约束两者的深度特征一直;并使用对抗损失和重构损失辅助上色网络和判别网络的训练;损失函数的总和具体如下:
Figure FDA0003489916150000021
其中F表示上色网络,D表示判别网络;
Figure FDA0003489916150000022
代表对抗损失;
Figure FDA0003489916150000023
代表重构损失,其权重λ1=30;
Figure FDA0003489916150000024
代表感知损失,其权重λ2=0.01;
Figure FDA0003489916150000025
代表风格损失,其权重λ3=50。
3.根据权利要求2所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤2.3中将待上色草图分别与预期上色结果图片和生成的上色图片组合,形成第一组合图和第二组合图,并将第一组合图和第二组合图输入至判别网络,并采用如下公式来实现上色网络和判别网络的对抗损失和重构损失的训练:
Figure FDA0003489916150000026
其中F表示上色网络,D表示判别网络;Is表示待上色草图,Igt表示预期上色结果图片;F(Is,Ir)表示使用Is作为草图,Ir作为风格参考所得到的上色结果,即上文所提到的生成的上色图片;(Igt,Is)代表第一组合图,(F(Is,Ir),Is)代表第二组合图。
4.根据权利要求2所述的一种基于注意力机制的草图上色方法,其特征在于,还包括用于续接步骤2.3的步骤2.4:采用Adam算法优化步骤2.3中所述的损失函数的总和。
5.根据权利要求2所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤2中采用像素级的L1重构损失函数对上色网络进行约束,具体如下:
Figure FDA0003489916150000027
其中,F(Is,Ir)表示使用待上色草图Is和参考图片Ir的上色结果;Igt表示预期上色结果图片;
Figure FDA0003489916150000028
代表重构损失。
6.根据权利要求5所述的一种基于注意力机制的草图上色方法,其特征在于,采用如下公式约束上色网络所生成的图片的内容和风格:
Figure FDA0003489916150000029
Figure FDA00034899161500000210
其中,其中,Igen代表生成的上色图片,Igt代表预期上色结果图片;φl(·)表示预训练模型VGG16的第l层卷积输出;
Figure FDA0003489916150000031
表示Gram矩阵;其中
Figure FDA0003489916150000032
代表感知损失,
Figure FDA0003489916150000033
代表风格损失。
7.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤1.3中采用如下公式构建特征对齐的注意力图:
A=XYT
Figure FDA0003489916150000034
Figure FDA0003489916150000035
其中,X和Y表示两个输入特征矩阵;在交叉-SGA中X为步骤1.1中的草图特征图,Y为步骤1.2中的参考图特征;在内联-SGA中X和Y均为交叉-SGA的输出;
Figure FDA0003489916150000037
代表注意力矩阵。
8.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤1.3中采用如下公式进行特征融合:
Figure FDA0003489916150000036
其中Z表示特征聚合输出;σ(·)表示Leaky ReLU激活函数;sg(·)表示停止该变量的反向传播;Wx和Wy表示特征调整矩阵。
9.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述步骤1.4还包括:当进行特征融合后的特征图需要进行上采样时,首先采用双线性插值将特征图尺寸放大,再使用2D卷积进行卷积操作压缩特征维度。
10.根据权利要求1所述的一种基于注意力机制的草图上色方法,其特征在于,所述上色网络以及判别网络基于Anime数据集和AFHQ数据集进行性能测试,得到FrechetInception距离得分和结构相似性。
CN202210111517.2A 2022-01-26 2022-01-26 一种基于注意力机制的草图上色方法 Active CN114494499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210111517.2A CN114494499B (zh) 2022-01-26 2022-01-26 一种基于注意力机制的草图上色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210111517.2A CN114494499B (zh) 2022-01-26 2022-01-26 一种基于注意力机制的草图上色方法

Publications (2)

Publication Number Publication Date
CN114494499A true CN114494499A (zh) 2022-05-13
CN114494499B CN114494499B (zh) 2023-07-18

Family

ID=81478509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210111517.2A Active CN114494499B (zh) 2022-01-26 2022-01-26 一种基于注意力机制的草图上色方法

Country Status (1)

Country Link
CN (1) CN114494499B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993480A (zh) * 2024-04-02 2024-05-07 湖南大学 面向设计师风格融合和隐私保护的aigc联邦学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615252A (zh) * 2018-05-03 2018-10-02 苏州大学 基于参考图像的线稿上色模型的训练方法以及装置
CN109712203A (zh) * 2018-12-29 2019-05-03 福建帝视信息科技有限公司 一种基于自注意力生成对抗网络的图像着色方法
CN110223359A (zh) * 2019-05-27 2019-09-10 浙江大学 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
CN112767507A (zh) * 2021-01-15 2021-05-07 大连理工大学 基于动态记忆模块和生成对抗网络的动漫草图上色方法
CN113868448A (zh) * 2021-05-08 2021-12-31 中国科学院软件研究所 一种细粒度场景级基于草图的图像检索方法及系统
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615252A (zh) * 2018-05-03 2018-10-02 苏州大学 基于参考图像的线稿上色模型的训练方法以及装置
CN109712203A (zh) * 2018-12-29 2019-05-03 福建帝视信息科技有限公司 一种基于自注意力生成对抗网络的图像着色方法
CN110223359A (zh) * 2019-05-27 2019-09-10 浙江大学 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
CN112767507A (zh) * 2021-01-15 2021-05-07 大连理工大学 基于动态记忆模块和生成对抗网络的动漫草图上色方法
CN113868448A (zh) * 2021-05-08 2021-12-31 中国科学院软件研究所 一种细粒度场景级基于草图的图像检索方法及系统
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993480A (zh) * 2024-04-02 2024-05-07 湖南大学 面向设计师风格融合和隐私保护的aigc联邦学习方法

Also Published As

Publication number Publication date
CN114494499B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Park et al. Swapping autoencoder for deep image manipulation
Zhang et al. Semantic image inpainting with progressive generative networks
Deng et al. Aesthetic-driven image enhancement by adversarial learning
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN109584325B (zh) 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法
CN107644006A (zh) 一种基于深度神经网络的手写体中文字库自动生成方法
CN112991493B (zh) 基于vae-gan和混合密度网络的灰度图像着色方法
CN113837946B (zh) 一种基于递进蒸馏网络的轻量化图像超分辨率重建方法
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN110895795A (zh) 改进的语义图像修补模型方法
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN110458759A (zh) 一种基于edsr单图超分辨率重建方法
US11966849B2 (en) Image processing network search for deep image priors
CN114494499A (zh) 一种基于注意力机制的草图上色方法
WO2023024653A1 (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
Ho et al. Deep preset: Blending and retouching photos with color style transfer
Guérin et al. Gradient terrain authoring
JP2023001926A (ja) 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN111260585A (zh) 基于类凸集投影算法的图像恢复方法
CN110321893A (zh) 一种聚焦增强的场景文本识别网络
Liu et al. Facial image inpainting using multi-level generative network
CN116662570A (zh) 一种用于银行风险评估的异构图知识图谱补全方法及系统
CN107221019B (zh) 图表转换方法及装置
CN114549314A (zh) 一种提高图像分辨率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant