CN114897672A - 一种基于等形变约束的图像漫画风格迁移方法 - Google Patents

一种基于等形变约束的图像漫画风格迁移方法 Download PDF

Info

Publication number
CN114897672A
CN114897672A CN202210606566.3A CN202210606566A CN114897672A CN 114897672 A CN114897672 A CN 114897672A CN 202210606566 A CN202210606566 A CN 202210606566A CN 114897672 A CN114897672 A CN 114897672A
Authority
CN
China
Prior art keywords
image
style
cartoon
model
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210606566.3A
Other languages
English (en)
Inventor
马洁
陈梦瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Foreign Studies University
Original Assignee
Beijing Foreign Studies University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Foreign Studies University filed Critical Beijing Foreign Studies University
Priority to CN202210606566.3A priority Critical patent/CN114897672A/zh
Publication of CN114897672A publication Critical patent/CN114897672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于等形变约束的图像漫画风格迁移方法,该方法包括:将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,所述风格图像与内容图像从MSCOCO数据集中获取;构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型;将初始风格图像和初始内容图像输入所述漫画风格迁移模型中,对所述漫画风格迁移模型进行对抗训练,直至模型稳定;将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。解决了现有技术中,对于漫画风格迁移图像细节信息刻画的不够精确、对于不同对象的分离程度差,效果不佳的技术问题。

Description

一种基于等形变约束的图像漫画风格迁移方法
技术领域
本发明涉及人工智能计算机视觉技术领域,尤其是涉及一种基于等形变约束的图像漫画风格迁移方法。
背景技术
图像风格迁移旨在对于给定的风格图像和内容图像,将内容图像的风格替换为风格图像的风格,同时保留内容图像的语义信息。近年来来,神经风格迁移成为了学术研究和产业应用领域一个很受欢迎的主题,越来越多的学者提出诸多优秀的模型来提升和扩展风格迁移的性能。从商业价值来看,对图像漫画风格迁移算法的研究对于短视频制作、漫画创作、漫画电影特效制作等领域都大有裨益。从技术手段来看,前人提出的风格迁移方法虽在油画等纹理明显的风格迁移任务中已经做出了比较好的效果,但对漫画、素描等线条图像鲜有涉及。
目前的漫画风格迁移技术通常是通过构造深层卷积神经网络刻画内容图像与风格化后图像的映射。由于受限于无参考图像的问题,现有技术往往通过构造内容图像与风格化后图像高层特征的距离,完成内容损失函数的计算及模型训练,以保留图像的语义信息。但是高层特征的感受野较大,使用高层特征的距离构造损失函数完成网络的训练,往往会导致模型对于细节信息的刻画不够精确、对于不同对象的分离程度差,效果不佳。此外,考虑到自然景物图像与漫画风格图像间的视觉差异,即:自然景物图像细节丰富、层次感强、像素间的色彩变化柔和;漫画图像细节较少、色彩较为鲜明、物体边缘存在线条勾勒。现有的基于生成对抗网络的方法在漫画风格迁移中的表现的够不稳定,导致使用现有的图像风格迁移方法应用于漫画风格迁移任务中难以取得较好的视觉效果,生成图像往往表现出:在平滑区域会出现伪纹理(噪声)、无法很好地保留内容图像的语义信息,迁移后的图像难以很好的表现出漫画风格。
发明内容
本发明的目的是提供一种基于等形变约束的图像漫画风格迁移方法,生成的漫画风格图像细节刻画精确、对于不同对象的分离程度好,效果佳。
本发明提供了一种基于等形变约束的图像漫画风格迁移方法,包括:将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,内容图像从MSCOCO数据集中获取,风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取;构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型;将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定;将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。
在一种可能的实施方式中,将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像包括:将风格图像及内容图像的尺寸调整为286*286*3的第一风格图像和第一内容图像;将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像;将第二风格图像与第二内容图像进行归一化处理,得到初始风格图像和初始内容图像。
在一种可能的实施方式中,在将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像之后还包括:以0.5的概率将第二风格图像和第二内容图像水平翻转。
在一种可能的实施方式中,将第二风格图像与第二内容图像进行归一化处理包括:将第二风格图像与第二内容图像的像素范围由[0,255]归一化到[0,1]。
在一种可能的实施方式中,构建扭曲形变层的方法包括:在图像内部均匀选取k*k个控制点,获取控制点的坐标矩阵;在[-α,α]内随机采样,得到与控制点坐标矩阵维度大小相同的扭曲形变因子,其中,[-α,α]为控制点随机取值范围,扭曲形变因子中各个元素独立从[-α,α]中随机选取,α取值为0.15;根据薄板样条插值理论和扭曲形变因子计算得到仿射变换矩阵,再将仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层。
在一种可能的实施方式中,根据薄板样条插值理论计算图像中各个像素点的仿射变换。
在一种可能的实施方式中,根据扭曲形变层计算得到等形变损失函数,其中,等形变损失函数计算底层特征间损失,用于对细节的刻画。
在一种可能的实施方式中,将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定包括:计算风格迁移模型的生成器损失;计算风格迁移模型的鉴别器损失;固定鉴别器模型参数,使用Adam优化方法进行生成器模型的参数训练;固定生成器模型参数,使用Adam优化方法进行鉴别器模型的参数训练;将生成器模型的参数训练和鉴别器模型的参数训练交替执行,直至模型稳定。
在一种可能的实施方式中,生成器包括:编码器,利用卷积神经网络从输入图像中提取特征,并将图像压缩成特征向量;转换器,将图像在真实图像/漫画图像域中的特征向量转换为漫画图像/真实图像域中的特征向量,并使用残差模块,在进行风格转换的同时尽可能保留原始图像的特征;解码器,利用反卷积层完成从特征向量中还原出低级特征的工作,最后得到生成图像。
在一种可能的实施方式中,漫画风格迁移模型包括两个生成器及两个鉴别器,构成一环形网络。
本发明提供的一种基于等形变约束的图像漫画风格迁移方法,该方法包括:将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,内容图像从MSCOCO数据集中获取,风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取;构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型;将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定;将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。解决了现有技术中,对于漫画风格迁移图像细节信息刻画的不够精确、对于不同对象的分离程度差,效果不佳的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于等形变约束的图像漫画风格迁移方法流程示意图;
图2为本发明实施例中将风格图像与内容图像分别进行初始化处理的方法流程示意图;
图3为本发明实施例中构建扭曲形变层的方法流程示意图;
图4为本发明实施例中对漫画风格迁移模型进行对抗训练的方法流程示意图;
图5为本发明实施例提供的等形变损失函数构造示意图;
图6为本发明实施例提供的循环一致性损失函数构造示意图;
图7为本发明实施例提供的漫画风格迁移方法的对比实验效果示例图。
具体实施方式
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
在以下描述中,阐述了许多具体细节以提供对本发明的透彻理解。然而,对于本领域普通技术人员来说将明显的是,不需要采用具体细节来实践本发明。在其他情况下,未详细描述众所周知的步骤或操作,以避免模糊本发明。
目前的漫画风格迁移技术通常是通过构造深层卷积神经网络刻画内容图像与风格化后图像的映射。由于受限于无参考图像的问题,现有技术往往通过构造内容图像与风格化后图像高层特征的距离,完成内容损失函数的计算及模型训练,以保留图像的语义信息。但是高层特征的感受野较大,使用高层特征的距离构造损失函数完成网络的训练,往往会导致模型对于细节信息的刻画不够精确、对于不同对象的分离程度差,效果不佳。此外,考虑到自然景物图像与漫画风格图像间的视觉差异,现有的基于生成对抗网络的方法在漫画风格迁移中的表现的够不稳定,导致使用现有的图像风格迁移方法应用于漫画风格迁移任务中难以取得较好的视觉效果,生成图像往往在平滑区域会出现伪纹理(噪声)、无法很好地保留内容图像的语义信息,迁移后的图像难以很好的表现出漫画风格。
因此,本发明提供了一种基于等形变约束的图像漫画风格迁移方法,如图1所示,包括如下步骤:
步骤S101,将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,内容图像从MSCOCO数据集中获取,风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取。
如图2所示,将风格图像与内容图像分别进行初始化处理的步骤可以包括:
步骤S201,将风格图像及内容图像的尺寸调整为286*286*3的第一风格图像和第一内容图像。
步骤S203,将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像。
步骤S205,将第二风格图像与第二内容图像进行归一化处理,得到初始风格图像和初始内容图像。
具体的,在本方案中,可以将第二风格图像与第二内容图像的像素范围由[0,255]归一化到[0,1]。
优选的,在步骤S203,将第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像之后还可以包括:
步骤S204,以0.5的概率将第二风格图像和第二内容图像水平翻转。
本方案的有益效果是:可以通过提升样本的多样性,降低位置信息对于模型训练的干扰,增强特征提取的稳定性。
步骤S103,构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型。
如图3所示,构建扭曲形变层的方法可以包括:
步骤S301,在图像内部均匀选取k*k个控制点,获取控制点的坐标矩阵,其中,C=[C1,C2,…,CK]T,K=k2,Ci=[Ci x,Ci y]T为第i个控制点的坐标。
步骤S303,在[-α,α]内随机采样,得到与控制点坐标矩阵维度大小相同的扭曲形变因子,其中,[-α,α]为控制点随机取值范围,扭曲形变因子中各个元素独立从[-α,α]中随机选取,α取值为0.15。
步骤S305,根据扭曲形变因子计算得到仿射变换矩阵,再将仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层。
具体的,本方案中,根据控制点的随机扭曲形变因子,使用薄板样条插值理论计算图像中各个像素点的仿射变换(Φx(·),Φy(·)),对于像素点p,其在原始图像中的横纵坐标为(px,py),扭曲变换后,p点坐标为(Φx(px),Φy(py))。将根据扭曲形变因子计算得到的仿射变换嵌入网络中作为扭曲形变层,记该网络层为
Figure BDA0003671590930000071
优选的,在步骤S305,根据扭曲形变因子计算得到仿射变换矩阵,再将仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层之后可以包括:
步骤S307,根据扭曲形变层计算得到等形变损失函数,其中,等形变损失函数计算底层特征间损失,用于对细节的刻画。
具体的,在本方案中,可以根据如下公式计算等形变损失函数:
Ltrans(G,x)=||Φ°G(x)-G°Φ(x)||1
其中x为内容图像,Φ(·)为扭曲形变层,G(·)为风格迁移模型的生成器,°为两个算子的复合,||·||1为L1范数。
图5为本发明实施例提供的等形变损失函数构造示意图。如图5所示,基于“一个理想的风格迁移模型应该具备等形变性”的理论,即:风格迁移模型与扭曲变换的处理顺序是可交换的。具体地,先对风格图像做风格化,再对风格化后的图像进行扭曲形变得到的图像为Φ°G(x),先对图像做扭曲形变再对图像做风格化得到的图像为G°Φ(x);对于一个理想的风格迁移模型,Φ°G(x)与G°Φ(x)非常接近,因此,模型将Φ°G(x)与G°Φ(x)两幅图像逐点误差的L1范数,作为等形变损失函数,协助网络的训练。等形变损失计算底层特征(像素值)间的损失,有助于模型对于细节的刻画,如:边缘、纹理等。
漫画风格迁移模型包括:生成器、鉴别器及扭曲形变层。其中,生成器包括:编码器、转换器和解码器。编码器利用卷积神经网络从输入图像中提取特征,并将图像压缩成特征向量;转换器将图像在真实图像/漫画图像域中的特征向量转换为漫画图像/真实图像域中的特征向量,并使用残差模块,在进行风格转换的同时尽可能保留原始图像的特征;解码器利用反卷积层完成从特征向量中还原出低级特征的工作,最后得到生成图像。
具体的,在本方案中,生成器采用编码器-转换器-解码器结构,生成器的编码器包括一个输入采样块和两个下采样块;转换器包括9层ResNet残差网络模块,每个ResNet模块是由两个卷积层构成的神经网络层,能够在风格迁移的过程中保留原始图像特征;解码器包括两个上采样块和一个输出采样块,完成从特征向量中还原出低级特征的工作。其中每个采样块都遵循卷积/反卷积、归一化、激活层的结构;每个残差块都包含卷积、归一化、激活层、卷积、归一化和残差连接。结合具体网络结构,输入图片尺寸为256*256*3,首先进入编码器:经过采样块后图片尺寸变为256*256*64,经过第一个下采样块后变为128*128*128,经过第二个采样块后图片尺寸变为64*64*256;接下来特征图进入转换器的9层Resnet模块,图像尺寸不变,仍为64*64*256;最后进入解码器:经过第一个上采样模块后图像尺寸变为128*128*128,经过第二个上采样层后变为256*256*64,最后经过输出采样块之后图像尺寸转换为256*256*3并输出。本文发明包括两个结构相同但是参数不同的生成器,作用分别为:构建从自然景物图像到卡通图像的映射Gc->s(·);构建从卡通图像到自然景物图像的映射Gs->c(·)。
鉴别器使用的是70*70的Patch-GANs鉴别器,主要包括五个下采样卷积层,以及相应的归一化和激活函数层,其中激活函数选取的是LeakyReLU函数。鉴别器最后一层与普通二分类网络结构不同,不再使用sigmoid等激活函数去计算图像是否为真的概率,而是输出判别后的结果矩阵,将生成图像分为多个像素块,矩阵的每个元素都对应代表一个块的分类结果,充分考虑了全局感受野的信息差别,最后取输出矩阵的均值作为True/False的结果输出。本文发明包括两个结构相同但是参数不同的鉴别器,作用分别为:鉴别输入图像是否为真实的卡通图像Ds(·);鉴别输入图像是否为真实的自然景物图像Dc(·)。
扭曲形变层包括:控制点选取,随机扭曲因子生成,扭曲形变层构建。
1)控制点选取与径向基函数矩阵计算
首先选定k×k个基准点,在[-1,1]×[-1,1]内部以均匀间隔获得归一化后的基准点坐标:
Figure BDA0003671590930000091
其中K=k2
Figure BDA0003671590930000092
Ck x,Ck y分别表示第k个控制点的横、纵坐标。本方案选择k=5,则第(i,j)个点,归一化坐标为
Figure BDA0003671590930000093
i=1,...,5,j=1,...,5。
计算薄板样条插值的径向基函数矩阵S,
Figure BDA0003671590930000094
其中:
Sij=d2(Ci,Cj)·lnd2(Ci,Cj)
d(Ci,Cj)=||Ci-Cj||2
2)随机扭曲因子生成
构造形变扰动:Y=C+Δ,其中扭曲因子Δ矩阵维度大小与控制点坐标相同维度相同,Δ中各个元素独立从[-α,α]中随机选取,本发明中α取值为0.15。随后,将获取到的Δ与C逐点相加,得到形变后控制点的坐标。
3)扭曲形变层构建
结合径向基函数矩阵,构造全图的仿射变换Φθ
Figure BDA0003671590930000095
本方案使用仿射变换矩阵,对图像进行二维仿射变换后得到扭曲形变的结果,仿射变换矩阵用于刻画输入特征图与输出特征图之间坐标点的映射关系。具体计算方法如下:
Figure BDA0003671590930000101
其中,1k为全1的k维行向量,1k T为全1的k维列向量。
本技术将图像定义在规则的网格上,从而可以方便地得到各像素坐标,对于图像
Figure BDA0003671590930000102
H和W为图像的宽度和高度,Xi为图像中的第i个像素点。计算图像各像素点的径向基函数矩阵Ψ的表达式如下:
Ψij=d2(Xi x,Cj x)·lnd2(Xi y,Cj y)
其中Xi x表示输入图像中第i个点的横坐标,Xi y表示输入图像中第i个点的纵坐标。
定义
Figure BDA0003671590930000103
为扭曲变换层,对于输入图像X,其所有像素点的坐标矩阵记为[X1,X2,…,XHW]T,其中Xi=[Xi x,Xi y]T,扭曲变换层的前向传播方式为:
Φ(X)=O([Ψ 1i T X Y]·Φθ)
其中O(·)操作为按照变换后的坐标位置将图像各像素进行移动。
模型构建完成后,利用扭曲形变层,计算等形变损失函数:
Ltrans(G,x)=||Φ°G(x)-G°Φ(x)||1
其中x为内容图像,Φ(·)为扭曲形变层,G(·)为风格迁移模型的生成器,°为两个算子的复合,||·||1为L1范数。
在一个可选的实施例中,漫画风格迁移模型包括两个生成器及两个鉴别器,构成一环形网络。
步骤S105,将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定。
如图4所示,将初始风格图像和初始内容图像输入漫画风格迁移模型中,对漫画风格迁移模型进行对抗训练,直至模型稳定可以包括:
步骤S401,计算风格迁移模型的生成器损失。
步骤S403,计算风格迁移模型的鉴别器损失。
步骤S405,固定鉴别器模型参数,使用Adam优化方法进行生成器模型的参数训练。
步骤S407,固定生成器模型参数,使用Adam优化方法进行鉴别器模型的参数训练。
步骤S409,将生成器模型的参数训练和鉴别器模型的参数训练交替执行,直至模型稳定。
具体的,在本方案中,生成器损失函数包括等形变损失、循环一致性损失及对抗损失。
对于等形变损失,本发明构造了两个生成器Gc->s(·)与Gs->c(·)的等形变损失,可由下式计算:
Figure BDA0003671590930000111
其中,Xc与Xs分别表示内容和风格图像数据集,Ltrans(Gc->s,xc)为利用Gc->s(·)及内容图像构造的等形变损失,Ltrans(Gs->c,xs)为利用Gs->c(·)及风格图像构造的等形变损失。
需要说明的是,若只使用对抗性损失对网络结构进行约束,网络可能将源域的输入图像映射到目标域的风格图像中的任何随机排列中,所以在无监督的情况下,生成器学习到较为准确的风格迁移效果较为困难,耗时也相对较长。针对这种情况,本发明中引入循环一致性损失减少可能的映射空间,从而提升图像的迁移效果。
图6为本发明实施例提供的循环一致性损失函数构造示意图。如图6所示,循环一致性损失Lcyc由下式计算:
Figure BDA0003671590930000112
具体的,对抗损失用于计算生成图像与真实图像的分布差异,通过训练,使得生成器和鉴别器进行交替博弈对抗学习,使生成图像和真实图像分布的差异达到最小化,其中生成器的训练目标是极小化对抗损失。进一步的,对抗损失LGAN由下式计算:
Figure BDA0003671590930000121
生成器整体的损失函数为:
Ltotal=λ1Ltrans2Lcyc3LGAN
其中λ1,λ2,λ3为三个损失的权重。
鉴别器损失定义如下:
Figure BDA0003671590930000122
Figure BDA0003671590930000123
具体的,对于两个鉴别器,通过训练要达到的效果是鉴别器可以将真实图像鉴别为真,将生成器生成的图像鉴别为假,并对于预期结果和实际鉴别结果的差值采用均方误差进行计算。
图像风格迁移训练过程中使用Adam优化器作为梯度下降算法,更新网络参数时的学习率取0.0002,生成器和鉴别器的归一化方式采用实例归一化,批处理大小为1。训练时的每一步迭代中,先对生成器进行优化,再优化判别器。具体的,生成器的加权系数分别为λ1=20.0,λ2=10.0,λ3=2.0。训练的目标是尽可能使生成器的总损失函数和鉴别器的总损失函数同时达到最小,并采用反向传播梯度算法对整个生成器和鉴别器的网络模型进行优化。
步骤S107,将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。
本方案的有益效果在于:提出风格迁移模型应具备等形变性这一性质,根据扭曲形变层与风格迁移模型的可交换性构造等形变损失函数,从而更好地构造从内容图像到漫画风格图像间的映射关系。等形变损失在很大程度上解决了图像中平滑区域出现伪纹理、内容图像的语义信息没有得到很好保留等问题,提升了模型对于语义信息的保持与刻画能力。该方案在与近几年较为主流的图像风格迁移方法的对比实验中取得了更好的效果,在后面部分的对比实验中将会进行详细阐述。
接下来将结合对比实验的内容对本发明所提供的方案做进一步的验证:
对比实验中,内容图像来源于MSCOCO数据集,MSCOCO数据集是一个大型的、丰富的物体检测、风格与字幕数据集,其中的图像主要来自于复杂的日常场景。本文从MSCOCO数据集中随机选取了5116张作为训练集,100张作为测试集;风格图像来源于宫崎骏的《哈尔的移动城堡》动漫影片截图1020张,采用的是python argparse与OpenCV模块相结合的随机帧截取的方式,图像尺寸统一裁剪为800*432像素,其中917张作为训练集,103张作为测试集。
对比实验结果示例如图7所示,本实施例选取了近几年比较知名的图像风格迁移模型与本发明的网络模型进行对比实验,其中包括:SANET方法、Gatys方法、CartoonGAN方法、AdaIN方法,并主要从定性分析和定量分析两个方面对生成图像的质量进行评价:
定性分析主要是通过直观观察对生成图像的质量进行多方面的综合评估,如:是否保留了现实图片的细节特征、生成图片中是否存在不稳定的像素块、不稳定像素块所占比例、漫画风格是否显著、生成图片是否足够清晰等等,进而从直观的视觉角度对不同模型的漫画风格迁移效果做出合理且全面的评价;
由于定性分析存在的不确定性以及风格感知测试对参与者属性(如年龄、审美差异等)的依赖性,本发明引入Fréchet Inception距离得分(Fréchet Inception Distancescore,FID)作为模型更为精确的评估指标。FID是从原始图像的计算机视觉特征的统计方面的相似度,通过提取真实图片和生成图片的特征均值和协方差矩阵,来计算两组图片在特征空间的距离的一种度量,因而FID分数越低代表两组图片越相似,常用于评估生成图像的质量。
对比实验结果如下:
定性分析:从图7中可以看出,SANET方法中生成图像存在严重的模糊化问题,物体之间的分界比较模糊,并且画面色块明显分布较为混乱,其生成图像视觉效果较差;Gatys方法语义匹配方面完成得较好,如建筑结构等信息还原较好,但是并没有很好地学习到风格化特征,整体颜色普遍偏黄偏暗,视觉上无法感知到其漫画风格的存在;AdaIN方法存在比较严重的内容图像细节缺失的问题,画面整体存在较重的涂抹感,且色块分布不均,画面中物体出现一定程度的扭曲形变问题;CartoonGAN方法的漫画风格较为突出,但是对于颜色的捕捉不够准确,画面整体色调普遍偏红,且生成图像质量不够稳定,如在第二组图片中平滑区域出现了噪声,第三组图片颜色生成不稳定(见图第2行第5列、第3行第5列方框部分);CycleGAN方法风格化也较为显著,画面的伪纹理较多,对内容图像语义信息的保持不够好,如第一组生成图像中影子部分非常模糊,第二组生成图片中天空中出现较多内容图像中不存在的云、柱子上出现较多伪纹理和杂乱的色块,以及第三组图片中物体刻画出现较多阴影和内容图像中没有的细节(见图第2行第8列、第3行第8列方框部分)。因而在定性分析中,本发明的生成图像具有风格迁移效果好、颜色保持能力强、纹理细节等语义信息保留完整等优点。
定量分析:5种对比方案以及本实施例的方案的FID指标计算结果如表1所示,可以看出,本实施例使用的基于空间形变网络的图像漫画风格迁移方法在与内容图的FID指标上优于所有对比算法,在CycleGAN方法的基础上有大幅度改善,提升了84.216;而在与风格图的FID指标上,,比原有CycleGAN方法高了13.419,这是因为在大幅度提升语义信息的保持度的同时,几乎无法避免地牺牲掉了一小部分风格迁移的效果。综合两个指标的结果,参见表1可以得出结论,本实施例的方案优于其他5个对比算法。
Figure BDA0003671590930000141
Figure BDA0003671590930000151
以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述,但这些技术特征的任何组合都应当被认为由本说明书涵盖,只要这样的组合不存在矛盾。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于等形变约束的图像漫画风格迁移方法,其特征在于,包括:
将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像;其中,所述内容图像从MSCOCO数据集中获取,所述风格图像从宫崎骏的《哈尔的移动城堡》动漫影片截图中获取;
构建包括扭曲形变层、等形变损失函数、生成器及鉴别器在内的漫画风格迁移模型;
将初始风格图像和初始内容图像输入所述漫画风格迁移模型中,对所述漫画风格迁移模型进行对抗训练,直至模型稳定;
将待迁移图像输入至训练好的漫画风格迁移模型中,输出漫画风格图像。
2.根据权利要求1所述的方法,其特征在于,所述将风格图像与内容图像分别进行初始化处理,得到初始风格图像和初始内容图像包括:
将风格图像及内容图像的尺寸调整为286*286*3的第一风格图像和第一内容图像;
将所述第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像;
将所述第二风格图像与第二内容图像进行归一化处理,得到初始风格图像和初始内容图像。
3.根据权利要求2所述的方法,其特征在于,在将所述第一风格图像及第一内容图像随机剪裁为256*256*3的第二风格图像和第二内容图像之后还包括:
以0.5的概率将所述第二风格图像和第二内容图像水平翻转。
4.根据权利要求2所述的方法,其特征在于,所述将所述第二风格图像与第二内容图像进行归一化处理包括:
将所述第二风格图像与第二内容图像的像素范围由[0,255]归一化到[0,1]。
5.根据权利要求1所述的方法,其特征在于,构建所述扭曲形变层的方法包括:
在图像内部均匀选取k*k个控制点,获取控制点的坐标矩阵;
在[-α,α]内随机采样,得到与控制点坐标矩阵维度大小相同的扭曲形变因子,其中,[-α,α]为控制点随机取值范围,扭曲形变因子中各个元素独立从[-α,α]中随机选取,α取值为0.15;
根据所述扭曲形变因子计算得到仿射变换矩阵,再将所述仿射变换矩阵嵌入卷积神经网络,构建扭曲形变层。
6.根据权利要求5所述的方法,其特征在于,根据薄板样条插值理论计算图像中各个像素点的仿射变换。
7.根据权利要求5所述的方法,其特征在于,根据所述扭曲形变层计算得到等形变损失函数,其中,所述等形变损失函数计算底层特征间损失,用于对细节的刻画。
8.根据权利要求1所述的方法,其特征在于,所述将初始风格图像和初始内容图像输入所述漫画风格迁移模型中,对所述漫画风格迁移模型进行对抗训练,直至模型稳定包括:
计算所述风格迁移模型的生成器损失;
计算所述风格迁移模型的鉴别器损失;
固定鉴别器模型参数,使用Adam优化方法进行生成器模型的参数训练;
固定生成器模型参数,使用Adam优化方法进行鉴别器模型的参数训练;
将所述生成器模型的参数训练和所述鉴别器模型的参数训练交替执行,直至模型稳定。
9.根据权利要求1所述的方法,其特征在于,所述生成器包括:
编码器,利用卷积神经网络从输入图像中提取特征,并将图像压缩成特征向量;
转换器,将图像在真实图像/漫画图像域中的特征向量转换为漫画图像/真实图像域中的特征向量,并使用残差模块,在进行风格转换的同时尽可能保留原始图像的特征;
解码器,利用反卷积层完成从特征向量中还原出低级特征的工作,最后得到生成图像。
10.根据权利要求1所述的方法,其特征在于,所述漫画风格迁移模型包括两个生成器及两个鉴别器,构成一环形网络。
CN202210606566.3A 2022-05-31 2022-05-31 一种基于等形变约束的图像漫画风格迁移方法 Pending CN114897672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210606566.3A CN114897672A (zh) 2022-05-31 2022-05-31 一种基于等形变约束的图像漫画风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210606566.3A CN114897672A (zh) 2022-05-31 2022-05-31 一种基于等形变约束的图像漫画风格迁移方法

Publications (1)

Publication Number Publication Date
CN114897672A true CN114897672A (zh) 2022-08-12

Family

ID=82725319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210606566.3A Pending CN114897672A (zh) 2022-05-31 2022-05-31 一种基于等形变约束的图像漫画风格迁移方法

Country Status (1)

Country Link
CN (1) CN114897672A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427948A (zh) * 2019-07-29 2019-11-08 杭州云深弘视智能科技有限公司 字符样本的生成方法及其系统
US20200286273A1 (en) * 2018-06-29 2020-09-10 Boe Technology Group Co., Ltd. Computer-implemented method for generating composite image, apparatus for generating composite image, and computer-program product
CN111724299A (zh) * 2020-05-21 2020-09-29 同济大学 一种基于深度学习的超现实主义绘画图像风格迁移方法
CN112837210A (zh) * 2021-01-28 2021-05-25 南京大学 一种基于特征图分块的多形变风格人脸漫画自动生成方法
CN112883826A (zh) * 2021-01-28 2021-06-01 南京大学 一种基于学习几何和纹理风格迁移的人脸漫画生成方法
CN113658324A (zh) * 2021-08-03 2021-11-16 Oppo广东移动通信有限公司 图像处理方法及相关设备、迁移网络训练方法及相关设备
CN114118012A (zh) * 2021-11-24 2022-03-01 武汉大学 一种基于CycleGAN的个性字体生成方法
WO2022068451A1 (zh) * 2020-09-30 2022-04-07 北京字节跳动网络技术有限公司 风格图像生成方法、模型训练方法、装置、设备和介质
CN114493991A (zh) * 2021-12-16 2022-05-13 之江实验室 基于注意力循环对抗网络的风格迁移系统、方法、装置
CN114494789A (zh) * 2022-04-02 2022-05-13 中国科学技术大学 图像风格迁移模型的训练方法、系统、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200286273A1 (en) * 2018-06-29 2020-09-10 Boe Technology Group Co., Ltd. Computer-implemented method for generating composite image, apparatus for generating composite image, and computer-program product
CN110427948A (zh) * 2019-07-29 2019-11-08 杭州云深弘视智能科技有限公司 字符样本的生成方法及其系统
CN111724299A (zh) * 2020-05-21 2020-09-29 同济大学 一种基于深度学习的超现实主义绘画图像风格迁移方法
WO2022068451A1 (zh) * 2020-09-30 2022-04-07 北京字节跳动网络技术有限公司 风格图像生成方法、模型训练方法、装置、设备和介质
CN112837210A (zh) * 2021-01-28 2021-05-25 南京大学 一种基于特征图分块的多形变风格人脸漫画自动生成方法
CN112883826A (zh) * 2021-01-28 2021-06-01 南京大学 一种基于学习几何和纹理风格迁移的人脸漫画生成方法
CN113658324A (zh) * 2021-08-03 2021-11-16 Oppo广东移动通信有限公司 图像处理方法及相关设备、迁移网络训练方法及相关设备
CN114118012A (zh) * 2021-11-24 2022-03-01 武汉大学 一种基于CycleGAN的个性字体生成方法
CN114493991A (zh) * 2021-12-16 2022-05-13 之江实验室 基于注意力循环对抗网络的风格迁移系统、方法、装置
CN114494789A (zh) * 2022-04-02 2022-05-13 中国科学技术大学 图像风格迁移模型的训练方法、系统、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
QIQI SHANG; LINGXI HU; QUANFENG LI; WEI LONG; LINHUA JIANG: "A Survey of Research on Image Style Transfer Based on Deep Learning", 2021 3RD INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND ADVANCED MANUFACTURE (AIAM), 8 March 2022 (2022-03-08) *
吴航;徐丹;: "葫芦烙画的艺术风格迁移与模拟", 中国科技论文, no. 03, 15 March 2019 (2019-03-15) *
彭晏飞;王恺欣;梅金业;桑雨;訾玲玲;: "基于循环生成对抗网络的图像风格迁移", 计算机工程与科学, 30 April 2020 (2020-04-30), pages 699 - 706 *
彭晏飞;王恺欣;梅金业;桑雨;訾玲玲;: "基于循环生成对抗网络的图像风格迁移", 计算机工程与科学, no. 04, 15 April 2020 (2020-04-15) *
李君艺;尧雪娟;李海林;: "基于感知对抗网络的图像风格迁移方法研究", 合肥工业大学学报(自然科学版), no. 05, 28 May 2020 (2020-05-28) *
郭美钦;江健民;: "人脸图像风格迁移的改进算法", 深圳大学学报(理工版), no. 03, 28 May 2019 (2019-05-28) *

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN109712203B (zh) 一种基于自注意力生成对抗网络的图像着色方法
CN107767413B (zh) 一种基于卷积神经网络的图像深度估计方法
CN111652321A (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN110570363A (zh) 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法
CN110148088B (zh) 图像处理方法、图像去雨方法、装置、终端及介质
CN112750201B (zh) 三维重建方法及相关装置、设备
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111126412A (zh) 基于特征金字塔网络的图像关键点检测方法
CN111553949A (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN112991371B (zh) 一种基于着色溢出约束的图像自动着色方法及系统
CN112257727A (zh) 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
Li et al. Line drawing guided progressive inpainting of mural damages
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN111738099B (zh) 基于视频图像场景理解的人脸自动检测方法
CN111814884A (zh) 一种基于可变形卷积的目标检测网络模型的升级方法
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN114897672A (zh) 一种基于等形变约束的图像漫画风格迁移方法
CN115660980A (zh) 一种无监督的水下图像增强方法及相关设备
CN116452408A (zh) 一种基于风格迁移的透明液体感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination