CN115293955A - 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品 - Google Patents

基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品 Download PDF

Info

Publication number
CN115293955A
CN115293955A CN202210671839.2A CN202210671839A CN115293955A CN 115293955 A CN115293955 A CN 115293955A CN 202210671839 A CN202210671839 A CN 202210671839A CN 115293955 A CN115293955 A CN 115293955A
Authority
CN
China
Prior art keywords
branch
image
network
gating
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210671839.2A
Other languages
English (en)
Inventor
赵磊
陈嘉芙
吉柏言
褚天易
陈海博
王志忠
李艾琳
左智文
邢卫
许端清
鲁东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210671839.2A priority Critical patent/CN115293955A/zh
Publication of CN115293955A publication Critical patent/CN115293955A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品,多样性图像风格迁移方法利用多样性图像风格迁移网络实现,多样性图像风格迁移网络包括风格生成网络,风格生成网络包括依次连接的编码器和解码器,编码器用于输入内容图像,解码器用于输出风格化图像,解码器包括依次连接的解码门控块和解码主干网络,解码门控块包括至少包括相互独立且共用输入的第一分支和第二分支,第一分支和第二分支的输出传输到解码主干网络,第一分支和第二分支卷积核的大小和/或瓶颈层中残差块的数量不同;解码门控块包括的各个分支具有门控因子,门控因子用于调节解码门控块中各分支使用程度。

Description

基于门控块的多样性图像风格迁移方法、计算机设备、可读存 储介质和程序产品
技术领域
本申请涉及计算机视觉和深度学习领域,特别是涉及一种基于门控块的多 样性图像风格迁移方法、计算机设备、可读存储介质和程序产品。
背景技术
图像风格迁移是一种强大的图像编辑和艺术创作技术,它可以将照片以艺 术图像的风格呈现。由于其可观的科学和艺术价值,近年来对这一课题的研究 引起了广泛的关注。最近,Gatys等人在《Image Style Transfer Using Convolutional Neural Networks》中的开创性工作首次提出根据预训练深度卷积神经网络 (DCNN)的处理层次提取内容特征和风格相关性(Gram Matrix),使得分离和重组 任意图像的内容和风格成为可能。尽管有效且灵活,但它是一种基于优化的方 法,速度非常慢且不能实时处理风格迁移,这限制了它的应用范围。为了实现 实时风格化,前馈的风格迁移方法被提出,这些方法利用深度学习网络的优势, 将计算成本纳入训练过程。然而,这些方法在享受推断效率的同时,受到了为 每种风格训练一个网络的不必要要求的限制。
最近,通用的风格迁移方法被提出,它们通过利用一个单一的模型来迁移 任意的新风格来克服这种困境。与上面提到的效率性和通用性类似,多样性是 反映风格迁移方法的性能的另一个重要方面,并且在最近引起了更多的关注。 从本质上讲,风格迁移是一个多模态问题,一个单一的输入可以对应多个可能 的输出。这主要是因为很难定量和精确地定义艺术图像的风格是什么。相反, 人们被鼓励从不同的角度解读一件艺术图像的风格,这没有一个正确的答案。 因此,风格化结果应该充满多样性,而不是唯一性,这样才能捕捉到可能的输 出的完整分布。为了实现风格迁移的多样性,Li等人和Ulyanov等在《Diversified texture synthesis with feed-forward networks》、《Improved texturenetworks: Maximizing quality and diversity in feed-forward stylization andtexture synthesis》 中人将随机噪声向量与内容图像一起作为输入,利用随机噪声的可变性产生不 同的风格化结果。
然而,由于内容图像为输出图像提供了强结构先验信息,并且具有比输入 噪声向量更高的维数,因此网络倾向于更关注内容图像,而忽略输入的噪声向 量。为了减轻这一问题,在小批量中降低不同风格化结果的相似性方法被提出。 最近,Wang等人在《Diversified arbitrary style transfer via deep feature perturbation》 中引入了深度特征扰动(DFP)操作,该操作使用正交随机噪声矩阵来扰动深度图 像特征图,同时保持原始风格信息不变。尽管这些方法取得了巨大的进步,但 是难以兼顾多样性和质量。
发明内容
基于此,有必要针对上述技术问题,提供一种基于门控块的多样性图像风 格迁移方法。
本申请基于门控块的多样性图像风格迁移方法,利用多样性图像风格迁移 网络实现,所述多样性图像风格迁移网络包括风格生成网络,所述风格生成网 络包括依次连接的编码器和解码器,所述编码器用于输入内容图像,所述解码 器用于输出风格化图像,
所述解码器包括依次连接的解码门控块和解码主干网络,所述解码门控块 包括至少包括相互独立且共用输入的第一分支和第二分支,所述第一分支和所 述第二分支的输出传输到所述解码主干网络,所述第一分支和所述第二分支卷 积核的大小和/或瓶颈层中残差块的数量不同;
所述解码门控块包括的各个分支具有门控因子,所述门控因子用于调节所 述解码门控块中各分支使用程度。
可选的,所述第一分支和第二分支的卷积步长不同。
可选的,所述解码门控块的分支数量为3~5个。
可选的,所述多样性图像风格迁移网络包括损失网络,所述损失网络用于 输入所述内容图像、所述风格化图像、以及风格图像,
所述损失网络用于比较所述风格化图像相较于所述内容图像的损失、比较 所述风格化图像相较于所述风格图像的损失,用于将两种损失最小化,优化所 述风格生成网络。
可选的,所述编码器基于预先训练的VGG网络构建,所述编码器还用于 输入风格图像。
可选的,所述编码器包括依次连接的编码主干网络和编码门控块,所述编 码主干网络的输出传输至所述编码门控块,所述编码门控块至少包括相互独立 且共用输出的第六分支和第七分支,第六分支和所述和第七分支卷积核的大小 和/或瓶颈层中残差块的数量不同。
可选的,还包括对所述多样性图像风格迁移网络进行训练,训练过程包括:
将所述解码门控块包括的任意一个分支的门控因子赋值为1,将其余各分 支的门控因子赋值为0。
可选的,还包括利用所述多样性图像风格迁移网络生成不同风格的风格化 图像,具体包括:
对所述解码门控块包括的各个分支的门控因子赋值,所述门控因子的取值 范围是0~1,各个分支的门控因子的累加和为1;
利用门控因子赋值后的多样性图像风格迁移网络生成风格化图像。
可选的,所述编码门控块的分支数量为3~5个。
本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上的 计算机程序,所述处理器执行所述计算机程序以实现本申请所述的基于门控块 的多样性图像风格迁移方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算 机程序被处理器执行时实现本申请所述的基于门控块的多样性图像风格迁移方 法的步骤。
本申请还提供一种计算机程序产品,包括计算机指令,该计算机指令被处 理器执行时实现本申请所述的基于门控块的多样性图像风格迁移方法的步骤。
本申请基于门控块的多样性图像风格迁移方法至少具有以下效果:
本申请第一分支和第二分支通过卷积核和/或瓶颈层中残差块的差异化布 置,均能够独立实现数据的传输,各分支通过门控因子的作用使风格化图像具 有多样性,并保证了风格化图像的质量。
附图说明
图1为本申请一实施例中多样性图像风格迁移网络的结构示意图;
图2为本申请一实施例中多样性图像风格迁移网络的结构示意图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
多样化图像风格迁移任务的目标是根据艺术图像的风格将日常图像转换成 多样的风格化图像。尽管现有技术中通过噪声注入实现了一定的多样性,但是 它们仍然没有解决两个问题:1)相对有限的多样性,2)显著下降的质量。
参见图1,本申请一实施例中提供一种基于门控块的多样性图像风格迁移 方法,利用多样性图像风格迁移网络实现,多样性图像风格迁移网络包括风格 生成网络,风格生成网络包括依次连接的编码器和解码器,编码器用于输入内 容图像,解码器用于输出风格化图像。
解码器包括依次连接的解码门控块和解码主干网络,解码门控块包括至少 包括相互独立且共用输入的第一分支和第二分支,第一分支和第二分支的输出 传输到解码主干网络,第一分支和第二分支卷积核的大小和/或瓶颈层中残差块 的数量不同;
解码门控块包括的各个分支具有门控因子,门控因子用于调节解码门控块 中各分支使用程度。
本实施例中,基于不同分支的网络架构从相同的风格图像(艺术图像)中 获取不同的风格模式。解码门控块的分支数量为3~5个,其中包括第一分支和 第二分支。第一分支和第二分支通过卷积核和/或瓶颈层中残差块的差异化布置, 均能够独立实现数据的传输,各分支通过门控因子的作用使风格化图像具有多 样性。采样分支控制而非注入随机噪声,提高了风格化图像的质量。解码主干 网络即现有技术中解码器未改进的部分,不再赘述。门控因子的作用方式参见 下文相关内容。可以理解,在本实施例的技术场景中,门控因子的取值范围是 0~1。
解码门控块包括的各个分支还包括进行上采样,详见下文中相关实施例的 记载。解码门控块包括的第一分支和第二分支并不限定具体次序和数量,第一 分支和第二分支的卷积步长也可以设置为不同。
参见图1和图2,具体地,多样性图像风格迁移网络还包括损失网络,损 失网络用于输入内容图像、风格化图像、以及风格图像,损失网络用于比较风 格化图像相较于内容图像的损失、比较风格化图像相较于风格图像的损失,用 于将两种损失最小化,优化风格生成网络。关于损失网络的功能实现可参见下 文相关实施例以及现有技术。
大多数现有的前馈风格迁移方法采用编码器-解码器架构,该架构利用编码 器E从输入图像中提取语义信息,并利用解码器D将编码的语义特征图转换成 风格化图像。现有技术中某些方法中的编码器是可训练的(例如Johnson等人 在论文《Perceptual Lossesfor Real-Time Style Transfer and Super-Resolution》中 记载的),某些方法中的编码器是固定的(例如AdaIN和SANet等人论文 《Arbitrary Style Transfer with Style-Attentional Networks》中记载的)。本申请各 实施例中的解码门控块基于现有的风格生成网络进行改进,例如可以是前馈风 格迁移模型,具备兼容性。基于现有的风格生成网络例如可以是任意风格迁移 模型或单风格迁移模型。
参见图1,在一个实施例中,多样性图像风格迁移网络可以基于现有技术 中的单风格迁移模型改进得到,编码器不可训练。编码器同时输入内容图像和 风格图像,并进行内容特征和风格特征的对齐(如图1中所示标记的转换)。相 应地,编码器例如可以是基于预先训练的VGG网络(例如VGG-19)构建的, 编码器还用于输入风格图像。
参见图2,在一个实施例中,多样性图像风格迁移网络可以基于现有技术 中的任意风格迁移模型改进得到,编码器可训练。相应地,编码器包括依次连 接的编码主干网络和编码门控块,编码主干网络的输出传输至编码门控块,编 码门控块至少包括相互独立且共用输出的第六分支和第七分支,第六分支和和 第七分支卷积核的大小和/或瓶颈层中残差块的数量不同。
编码门控块包括的各个分支也具有门控因子,门控因子用于调节编码门控 块中各分支使用程度。编码门控块的分支数量为3~5个,包括第六分支和第七 分支。编码门控块不同分支的构建方式和解码门控块的构建方式相同。差异为 编码门控块的采样为下采样。编码门控块的不同分支、耦合解码器门控块的相 互作用,进一步增强风格化图像的多样性。可以理解,解码门控块的分支数量 和编码门控块的分支数量,如果过小,则多样性不满足,如果过大则影响模型 的训练和使用。
本申请各实施例中引入的“门控金字塔块Gating pattern pyramid”(缩写为GPP),简称为“门控块”。门控块包括本申请各实施例中提供的解码门控块DGPP (解码器门控金字塔块)和编码门控块EGPP(编码器门控金字塔块),二者相应 结合主干网络形成解码器和编码器。编码主干网络Eshare(编码器主干网络)参 考编码器中的前几层,学习输入图像的低级视觉信息。解码主干网络Dshare(解 码器主干网络)根据解码门控块的融合结果输出风格化图像。
现就解码门控块DGPP和编码门控块EGPP内中,卷积核大小、卷积步长大小、 瓶颈层中残差块的数量、以及采样方式进行功能性实现地解析。
具有不同卷积核或步长大小的卷积层对特征图的不同局部神经块进行卷积 时,能够从同一风格图像中提取不同的风格特征,赋予不同的图像感受野,影 响风格化图像的笔画大小。通过微调网络中的卷积核或步长大小,能够产生视 觉上合理但感觉上不同的风格化结果。
许多风格迁移方法经常在编码器和解码器内设置瓶颈层,以获取更多的图 像特征。瓶颈层通常包含许多残差块。直觉上,残差块越多,瓶颈层获取的风 格信息就越多。使用较少的残差块,网络关注显著的风格模式,产生干净整洁 的风格化结果;随着使用更多的残差块,网络学习更多的精细风格模式,产生 丰富多彩和生动的风格化结果。尽管有所不同,所有这些风格化的结果都是合 理且令人满意的风格迁移解决方案。
在深度学习网络中,可以通过跨步卷积、最大池化或平均池化对一个特征 图进行下采样。具体而言,跨步卷积通过采用可学习的卷积核对特征图进行下 采样,而最大池化或平均池化通过汇总特征图中的最大值或平均值对其进行下 采样。由于它们的不同特点,它们的风格化结果呈现出不同的颜色和纹理样式。
与下采样类似,在深度学习网络中有不同的方法来上采样特征图,例如去 卷积、最近邻插值和双线性插值。具体而言,去卷积通过采用可学习的去卷积 核对特征图进行上采样;最近邻插值法选择最近点的值来填充缺失的位置;双 线性插值使用四个最近点的距离加权平均值来填充缺失的位置。基于这些上采 样方法的不同特点,我们得到了不同的风格化结果。
接下来,结合公式对多样性图像风格迁移网络进行详细说明。
参见图2,在一个实施例中,编码器E依次包括编码主干网络Eshare和编码 门控块EGPP,编码门控块EGPP由n个具有不同网络架构的分支组成,n的取值 可以是3~5。例如可以包括上述第一分支和第二分支,用于获取不同的高级图 像特征
Figure BDA0003693518320000071
Figure BDA0003693518320000072
其中:
Ic表示内容图像;
Eshare(Ic)表示编码主干网络Eshare输入内容图像;
Figure BDA0003693518320000081
表示EGPP中的第i个分支处理Eshare的输出结果,以获得高级 图像特征
Figure BDA0003693518320000082
为了提供对编码门控块EGPP中各个分支的控制,为每个分支引入了门控函 数G:
Figure BDA0003693518320000083
Figure BDA0003693518320000084
其中,
Figure BDA0003693518320000085
表示αi的一个约束条件,另一个约束条件是取值范围零到一;
Figure BDA0003693518320000086
表示编码器门控块输出的高级图像特征;
αi表示门控因子,用于调节编码器门控块中各分支的使用程度;
Figure BDA0003693518320000087
表示编码器门控块中不同分支的使用叠加结果;
FE为编码器E的输出。
参见图1和图2,解码器D依次包括解码门控块DGPP和解码主干网络Dshare。 解码门控块DGPP由m个分支用不同的架构组成,以学习不同的风格模式
Figure BDA0003693518320000088
Figure BDA0003693518320000089
其中:
FE表示编码器E的输出;
Figure BDA00036935183200000810
表示解码门控块DGPP中的第i个分支;
Figure BDA00036935183200000811
表示第i个分支的风格模式。
m的取值例如可以是3~5。
解码门控块DGPP以产生风格模式融合结果Pf,具体通过下式完成:
Figure BDA0003693518320000091
其中,
Figure BDA0003693518320000092
表示第i个分支的风格模式,Pf表示不同分支风格模式的融合结 果。
解码主干网络Dshare用于增强融合结果以产生更合理的风格化图像ICS
ICS=Dshare(Pf)#(6)
其中,Dshare(Pf)表示解码主干网络,Dshare根据风格模式的融合结果输出风 格化图像。
为了提供对解码门控块DGPP中各个分支的控制,为每个分支引入了门控函 数G。可以理解,解码门控块DGPP的门控函数和编码门控块EGPP的门控函数一 致:
Figure BDA0003693518320000093
Figure BDA0003693518320000094
其中,
Figure BDA0003693518320000095
表示αi的一个约束条件,另一个约束条件是取值范围零到一;
Figure BDA0003693518320000096
表示解码门控块输出的高级图像特征;
αi表示门控因子,用于调节解码门控块中各分支的使用程度;
Figure BDA0003693518320000097
表示解码门控块中不同分支的使用叠加结果;
FE为解码门控块的输出。
在一个实施例中,还包括对多样性图像风格迁移网络进行训练,训练过程 包括:将解码门控块包括的任意一个分支的门控因子赋值为1,将其余各分支 的门控因子赋值为0,直至完成训练。
在一个实施例中,包括利用多样性图像风格迁移网络生成不同风格的风格 化图像,具体包括:对解码门控块包括的各个分支的门控因子赋值,门控因子 的取值范围是0~1,各个分支的门控因子的累加和为1;利用门控因子赋值后 的多样性图像风格迁移网络生成风格化图像。
可以理解,在训练阶段,αi被设置为0或1,即通过独立训练门控块的分 支,以防止它们相互干扰。在使用阶段,αi可以是分数,从而使得这些分支的 输出可以以任何比例融合,以产生更多样的结果。实验证明,多样性的实现并 非来自于多样性图像风格迁移网络在每次训练开始时的随机初始化,而是来自 于各实施例中提供的解码门控块和/或编码门控块。
根据实验过程和结果,进一步说明本申请各实施例的方案。将各实施例的 方法应用于三个现有的前馈风格迁移模型,包括Johnson等人、AdaIN和SANet (见上文引用信息)。各实施例提出的门控块增强原始网络架构,同时保持原 始目标函数和超参数。
对门控模式金字塔块中的不同分支,它们构建在原始编码器和/或解码器的 主干网络上,在卷积核大小、步长大小、瓶颈层中的残差块的数量、下采样或 上采样不同。
在所有实验中,我们设置超参数(分支数)m=5。对于门控因子αi,在训练 阶段的每次迭代中,随机选择一个分支,并设置其选通权重αi=1(其他设置为 0)。从均匀分布中采样αi的值,然后采样得到的值通过进行归一化(例如通过 L1规范),满足的约束
Figure BDA0003693518320000101
损失网络例如可以是预训练的VGG-19网络,它在现有的风格迁移方法中 被广泛使用。内容图像例如可以来源于MS-COCO数据集,风格图像例如可以 来源于WikiArt数据集。在训练过程中,首先使用原始图像比例将每个图像的 较小尺寸调整为512像素,然后随机裁剪大小为256×256的区域,输入图像 可以是任何大小。
实验性能评估:为了证明门控模式金字塔块(GPP)在加强风格化结果的多样 性方面的有效性。将所提出的方法与最先进的大量定性和定量评估进行比较。 并进行了全面的消融研究,以展示每个组成部分如何影响最终结果。为了探索 所提出的门控模式金字塔块的效果,我们将其应用于三种现有的前馈风格迁移 方法(即Johnson等人、AdaIN和SANet)。我们的GPP块成功地扩展了原有的 风格迁移方法,以产生显著不同的风格化结果。我们观察到不同风格化图像中 的水呈现不同的颜色和纹理。
对于质量,我们使用用户调查来比较使用和不使用GPP块的每种方法的风 格化结果。对于每一对方法,我们生成20对风格化的图像。其中每个目标随 机抽取15对,用户选出最具视觉效果的一对。我们最终从Amazon Mechanical Turk(AMT)平台为每一对方法收集了600个有效投票。
为简单起见,我们默认使用Johnson等人+GPP进行消融研究,这与 AdaIN+GPP和SANet+GPP类似。我们建议在训练阶段将方程(2)中的超参 数i设置为0或1,而不是随机分数。为了验证这种设置的有效性,我们进行 了一项消融研究,可以看到本文采用的设置获得了显著的多样性增益。原因可 能是将i设置为0或1可以防止不同分支在训练期间相互干扰,这有助于他们 独立学习不同风格的模式。当m=1时,正如预期的那样,样式化图像没有多 样性。当我们用多个网络分支放大m时,会学习不同的风格模式,风格化结 果变得越来越多样化。然而,值得注意的是,在m足够大后,多样性增长趋 于减弱。另一方面,m越大,该方法的运行时间t越长。最后,我们决定将 m=5作为多样性和效率之间的权衡。原始风格转换方法(m=1)与相应的多样 化风格转换方法(m=5)具有相似的视觉质量,分支数m并不影响风格化图像 的质量。
要应用GPP块的位置。最近的风格转换方法通常采用编码器-解码器架构 来合成艺术图像。对于某些方法(例如AdaIN和SANet),由于编码器是预先 训练的VGG-19网络,GPP块只能应用于解码器,而对于其他方法(例如Johnson 等人),GPP块可以应用于:(a)编码器,(b)解码器,或(c)两者。为了确 定模型在哪种情况下可以达到最佳性能,我们观察到,情况(c)(对编码器和 解码器应用GPP)获得最佳分集,其次是情况(b)(仅对解码器应用GPP), 情况(a)(仅对编码器应用GPP)表现最差。这也解释了为什么与AdaIN+GPP 和SANet+GPP相比,GPP可以生成更多种类的图像。
本申请各实施使用门控块,与许多现有的前馈风格迁移方法能够产生显著 不同的风格化结果,同时不会牺牲视觉质量。在对风格生成网络中影响风格化 图像颜色和纹理样式的因素进行详细分析后,相对于传统解码器而言,各实施 例引入了解码门控块,结合解码主干网络形成了新的解码器。新的编码器从同 一艺术图像中获取不同的风格模式,产生多样化和高质量的风格化结果。各实 施例提供的基于门控块的多样性图像风格迁移方法,与许多前馈风格迁移模型 兼容,并赋予它们生成不同风格化结果的能力。相较于现有技术中入随机噪声 来实现多样性的方式,为多模态转换的研究提供了一个新视角,具有优越性和 有效性。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、 存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控 制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失 性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存 储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用 于存储多样性图像风格迁移网络的数据。该计算机设备的网络接口用于与外部 的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于门控 块的多样性图像风格迁移方法。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
利用多样性图像风格迁移网络实现基于门控块的多样性图像风格迁移方法, 多样性图像风格迁移网络包括风格生成网络,风格生成网络包括依次连接的编 码器和解码器,编码器用于输入内容图像,解码器用于输出风格化图像,
解码器包括依次连接的解码门控块和解码主干网络,解码门控块包括至少 包括相互独立且共用输入的第一分支和第二分支,第一分支和第二分支的输出 传输到解码主干网络,第一分支和第二分支卷积核的大小和/或瓶颈层中残差块 的数量不同;
解码门控块包括的各个分支具有门控因子,门控因子用于调节解码门控块 中各分支使用程度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现以下步骤:
利用多样性图像风格迁移网络实现基于门控块的多样性图像风格迁移方法, 多样性图像风格迁移网络包括风格生成网络,风格生成网络包括依次连接的编 码器和解码器,编码器用于输入内容图像,解码器用于输出风格化图像,解码 器包括依次连接的解码门控块和解码主干网络,解码门控块包括至少包括相互 独立且共用输入的第一分支和第二分支,第一分支和第二分支的输出传输到解 码主干网络,第一分支和第二分支卷积核的大小和/或瓶颈层中残差块的数量不 同;解码门控块包括的各个分支具有门控因子,门控因子用于调节解码门控块 中各分支使用程度。
在一个实施例中,提供了一种计算机程序产品,包括计算机指令,该计算 机指令被处理器执行时实现以下步骤:
利用多样性图像风格迁移网络实现基于门控块的多样性图像风格迁移方法, 多样性图像风格迁移网络包括风格生成网络,风格生成网络包括依次连接的编 码器和解码器,编码器用于输入内容图像,解码器用于输出风格化图像,解码 器包括依次连接的解码门控块和解码主干网络,解码门控块包括至少包括相互 独立且共用输入的第一分支和第二分支,第一分支和第二分支的输出传输到解 码主干网络,第一分支和第二分支卷积核的大小和/或瓶颈层中残差块的数量不 同;解码门控块包括的各个分支具有门控因子,门控因子用于调节解码门控块 中各分支使用程度。
本实施例中,计算机程序产品包括程序代码部分,以用于当计算机程序产 品由一个或多个计算装置执行时,执行本申请各实施例中基于门控块的多样性 图像风格迁移方法的步骤。计算机程序产品可被存储在计算机可读记录介质上。 还可经由数据网络(例如,通过RAN、经由因特网和/或通过RBS)提供计算 机程序产品以便下载。备选地或附加地,该方法可被编码在现场可编程门阵列 (FPGA)和/或专用集成电路(ASIC)中,或者功能性可借助于硬件描述语言 被提供以便下载。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。 非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编 程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局 限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、 同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器 总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。不同实施例中的技 术特征体现在同一附图中时,可视为该附图也同时披露了所涉及的各个实施例 的组合例。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改 进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权 利要求为准。

Claims (10)

1.基于门控块的多样性图像风格迁移方法,利用多样性图像风格迁移网络实现,所述多样性图像风格迁移网络包括风格生成网络,所述风格生成网络包括依次连接的编码器和解码器,所述编码器用于输入内容图像,所述解码器用于输出风格化图像,其特征在于,
所述解码器包括依次连接的解码门控块和解码主干网络,所述解码门控块包括至少包括相互独立且共用输入的第一分支和第二分支,所述第一分支和所述第二分支的输出传输到所述解码主干网络,所述第一分支和所述第二分支卷积核的大小和/或瓶颈层中残差块的数量不同;
所述解码门控块包括的各个分支具有门控因子,所述门控因子用于调节所述解码门控块中各分支使用程度。
2.根据权利要求1所述的多样性图像风格迁移方法,其特征在于,所述第一分支和第二分支的卷积步长不同。
3.根据权利要求1所述的多样性图像风格迁移方法,其特征在于,所述多样性图像风格迁移网络包括损失网络,所述损失网络用于输入所述内容图像、所述风格化图像、以及风格图像,
所述损失网络用于比较所述风格化图像相较于所述内容图像的损失、比较所述风格化图像相较于所述风格图像的损失,用于将两种损失最小化,优化所述风格生成网络。
4.根据权利要求1所述的多样性图像风格迁移方法,其特征在于,所述编码器基于预先训练的VGG网络构建,所述编码器还用于输入风格图像。
5.根据权利要求1所述的多样性图像风格迁移方法,其特征在于,所述编码器包括依次连接的编码主干网络和编码门控块,所述编码主干网络的输出传输至所述编码门控块,所述编码门控块至少包括相互独立且共用输出的第六分支和第七分支,第六分支和所述和第七分支卷积核的大小和/或瓶颈层中残差块的数量不同。
6.根据权利要求1所述的多样性图像风格迁移方法,其特征在于,还包括对所述多样性图像风格迁移网络进行训练,训练过程包括:
将所述解码门控块包括的任意一个分支的门控因子赋值为1,将其余各分支的门控因子赋值为0。
7.根据权利要求1所述的多样性图像风格迁移方法,其特征在于,还包括利用所述多样性图像风格迁移网络生成不同风格的风格化图像,具体包括:
对所述解码门控块包括的各个分支的门控因子赋值,所述门控因子的取值范围是0~1,各个分支的门控因子的累加和为1;
利用门控因子赋值后的多样性图像风格迁移网络生成风格化图像。
8.计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1~7任一项所述的基于门控块的多样性图像风格迁移方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~7任一项所述的基于门控块的多样性图像风格迁移方法的步骤。
10.计算机程序产品,包括计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1~7任一项所述的基于门控块的多样性图像风格迁移方法的步骤。
CN202210671839.2A 2022-06-14 2022-06-14 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品 Pending CN115293955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210671839.2A CN115293955A (zh) 2022-06-14 2022-06-14 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210671839.2A CN115293955A (zh) 2022-06-14 2022-06-14 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品

Publications (1)

Publication Number Publication Date
CN115293955A true CN115293955A (zh) 2022-11-04

Family

ID=83820658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210671839.2A Pending CN115293955A (zh) 2022-06-14 2022-06-14 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN115293955A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546017A (zh) * 2022-11-30 2022-12-30 天津大学 一种多媒体换脸方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546017A (zh) * 2022-11-30 2022-12-30 天津大学 一种多媒体换脸方法及装置

Similar Documents

Publication Publication Date Title
CN111767979B (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN107767408B (zh) 图像处理方法、处理装置和处理设备
CN110322416B (zh) 图像数据处理方法、装置以及计算机可读存储介质
CN110706302B (zh) 一种文本合成图像的系统及方法
CN111275057B (zh) 图像处理方法、装置及设备
CN111814566A (zh) 图像编辑方法、装置、电子设备及存储介质
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN112686816A (zh) 一种基于内容注意力机制和掩码先验的图像补全方法
CN114663440A (zh) 一种基于深度学习的眼底图像病灶分割方法
CN113128527B (zh) 基于变换器模型和卷积神经网络的图像场景分类方法
CN113538608B (zh) 基于生成对抗网络的可控人物图像生成方法
CN114493991A (zh) 基于注意力循环对抗网络的风格迁移系统、方法、装置
CN114581992A (zh) 一种基于预训练StyleGAN的人脸表情合成方法及系统
CN109754357B (zh) 图像处理方法、处理装置以及处理设备
CN117635771A (zh) 一种基于半监督对比学习的场景文本编辑方法和装置
CN115293955A (zh) 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品
Luo et al. Styleface: Towards identity-disentangled face generation on megapixels
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
CN117292704A (zh) 基于扩散模型的语音驱动姿势动作生成方法及装置
CN113554047A (zh) 图像处理模型的训练方法、图像处理方法及对应的装置
US20210224947A1 (en) Computer Vision Systems and Methods for Diverse Image-to-Image Translation Via Disentangled Representations
CN112990123B (zh) 图像处理方法、装置、计算机设备和介质
CN114331894A (zh) 一种基于潜在特征重构和掩模感知的人脸图像修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination