CN108961350A

CN108961350A - 一种基于显著度匹配的画风迁移方法

Info

Publication number: CN108961350A
Application number: CN201810784714.4A
Authority: CN
Inventors: 孙安澜; 马伟; 祝玮
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-07
Anticipated expiration: 2038-07-17
Also published as: CN108961350B

Abstract

本发明涉及一种基于显著性匹配的画风迁移方法，核心为一个基于显著度匹配的画风迁移深度神经网络模型。该模型由特征抽取、子画风迁移、基于显著度的区域分解和画风图像合成，四个模块组成。在训练时，对所构建的画风迁移网络模型进行分支训练，使每个分支向目标作用优化。与现有技术相比，本发明具有以下优点：1)依据内容图中对象显著度和画风图中子画风显著度的一致性进行画风迁移，能够将显著的画风迁移到内容图的显著对象上，从而保证迁移风格后的内容图中的对象显著性顺序保持不变。同时，不同显著度的对象物继承单一子画风，不会因为同一对象继承不同子画风造成风格混乱；2)生成的带画风图像更加光滑、无噪声。

Description

一种基于显著度匹配的画风迁移方法

技术领域

本发明属于数字图像处理、计算机视觉、艺术等交叉领域，涉及一种基于显著性匹配的画风迁移方法。

背景技术

近年来，数字图像处理和计算机视觉领域内技术的快速发展带动了这些技术在其他领域的应用，这些应用又反向促使技术不断革新。画风迁移就是在这样的环境下产生的课题。画风迁移即给定一张艺术画的数字图像(称为画风图)，将用户拍摄的照片或其他方式制作的数字图像(统称为内容图)转换成该艺术画的风格。画风迁移能够大大降低艺术创作的门槛，让普通大众能够便捷制作带艺术风格的图像。

近年来，深度学习因其强大的特征学习能力、图像分析和理解能力受到广泛关注。众多研究者尝试将其引入画风迁移任务中，提出了一系列基于深度学习的画风迁移方法。例如，Johnson等人于2016年在European Conference on Computer Vision国际会议上提出了"Perceptual Losses for Real-Time Style Transfer and Super-Resolution"，采用感知损失函数训练一个带特定画风的图像变换网络。训练后的网络可接收照片并生成具有已训练风格的内容图。Li等人于2016年在Computer Vision and Pattern Recognition国际会议上发表的Combining Markov Random Fields and Convolutional NeuralNetworks for Image Synthesis，将卷积神经网络输出的特征图进行分块处理，计算每一特征块的Gram矩阵，寻找与画风图中最相近的特征块进行风格迁移，通过MRF约束迁移效果的平滑度。现有方法在实施画风迁移时，并没有考虑风格图和内容图之间的内部语义关联，仅仅参考了两图中底层纹理特征的匹配度，容易造成迁移风格后的内容图的子风格出现视觉混乱。例如，对于中国古画而言，画家倾向于使用墨色来突出画面中重要部分而对其他部分进行留白。现有画风迁移方法容易将留白部分迁移到内容图中的纯色区域，而不考虑该纯色区域是否位于重要的物体上。

发明内容

鉴于目前画风迁移方法存在局限性，本发明提出一种基于显著性匹配的画风迁移方法，能够将显著的子画风迁移到照片中的视觉重要部分，即达到显著度匹配的画风迁移，避免迁移风格后的照片子风格发生混乱。

为了实现上述目标，本发明的技术方案为：构造了一种基于显著度匹配的画风迁移深度神经网络模型。该模型将内容图按照显著度划分成不同区域，分别对应画风图中的显著度不同的子风格，以此为基础将子画风迁移到对应显著度的内容区域中。内容图和风格图中显著度的量化层级数目可自由指定。本发明实例中以两层级显著度为例，即内容图和风格图均划分为两类，分别为前景(强显著)和背景(弱显著)内容，以及前景子画风(强显著)和背景子画风(弱显著)。

一种基于显著度匹配的画风迁移方法包括以下模块和步骤：

模块一、特征抽取。给定一幅输入图像，通过特征抽取模块得到特征矩阵。

模块二、子画风迁移。该模块对特征矩阵表达的内容图进行处理使其具备不同的子画风，并解码生成带有不同子画风的多幅内容图。其中，子画风总数量M和子画风的显著度排序事先由用户自由指定。

模块三、基于显著度的区域分解。该模块以特征矩阵表达的内容图为输入，将其依据注意力机制按照重要性程度进行内容分解，并解码生成N张与内容图尺寸一致、显著度由高到低排序的区域分布图，每张图中像素取值表示该像素属于当前显著层级的概率。

模块四、画风图像合成模块。该模块对子画风内容图和内容区域分布图按显著度的一致性进行匹配，以区域分布图的像素值为权值，加权对应子画风图像的相应像素。所有加权后的子画风内容图加和生成最终的画风迁移图。

在训练时，对由上述模块组成的整体网络模型进行分支训练，使每个分支向目标作用优化。

与现有技术相比，本发明具有以下优点：1)依据内容图中对象显著度和画风图中子画风显著度的一致性进行语义迁移，能够将显著的画风迁移到内容图的显著对象上，从而保证迁移风格后的内容图中的对象显著性顺序保持不变。同时，不同显著度的对象物继承单一的子画风，不会因为同一对象继承不同子画风造成风格混乱；2)生成的带画风图像更加光滑、无噪声。

附图说明

图1为本发明方法的框架图；

图2为本发明方法中基于显著度的区域分解计算子网中涉及的卷积LSTM结构图；

图3为本发明训练时的分支训练策略：(a)、(b)、(c)、(d)分别为自编码训练分支，基于显著度的区域分解训练分支，整体画风风格化训练分支，以及子画风风格化训练分支。

图4为本发明应用实例实验结果：(a)为画风图及其子画风划分，白色为更显著子画风。(b)为内容图，右侧小图为本发明方法中显著度计算模块所获得的划分结果，白色为更显著对象，即前景。(c)和(d)分别为Johnson等人的方法和本发明方法获得的结果。

图5为本发明应用实例实验结果：(a)为画风图及其子画风划分，白色为更显著子画风。(b)为内容图及本发明方法中显著度计算模块所获得的内容图区域划分结果，白色为更显著部分。(c)和(d)分别为Johnson等人的方法和本发明方法获得的结果。

具体实施方式

下面结合附图和具体实施方式对本发明的各个模块，以及分支训练策略和本发明的使用方法做进一步说明。

本发明的模块组成和流程如图1所示，具体包括如下模块：

模块一，特征抽取。

特征抽取模块与Johnson等人"Perceptual Losses for Real-Time StyleTransfer and Super-Resolution"论文中给出的模块结构类似，由编码器和残差子网组成。编码器通过一个L层卷积神经网络实现多尺度特征提取和非线性映射计算，获取语义层次的特征表达，随后通过一个J层残差模块进行进一步特征凝练。采用残差子网能够在满足抽取语义信息的同时加快网络训练时的收敛速度。在本发明实例中，L＝3，J＝5。

模块二，子画风迁移。

本发明设计的子画风迁移模块包括两个部分，迁移子网和子画风解码器。迁移子网接收特征抽取模块所提取出来的特征，对特征进行卷积操作使其依据每个子画风进行风格化。本发明通过分支训练手段使得特征抽取模块和子画风解码器成为自动编码器的编码器和解码器，只发挥特征编码和特征解码作用，与画风无关。因此，只需要在迁移子网中并行M个参数不共享的卷积层分支即可以完成对M个子画风的风格迁移，与特征抽取模块和解码器无关，从而使得整体网络架构灵活度高。

子画风解码器为K层的尺度调整卷积网络，接收子画风风格化后的特征，并将其解码恢复到原始图片大小，得到M张带子画风风格的内容图。为了避免传统反卷积解码(例如Johnthon等的方法)所带来的棋盘格噪声，本发明引入尺度调整卷积来代替传统解码器中的反卷积。本发明实例中，K＝3。

模块三，基于显著度的图像分解。

基于显著度的图像分解模块由两个部分组成,包括区域分解卷积LSTM子网和分区图解码器。

区域分解卷积LSTM子网基于视觉注意力机制，将特征提取模块输出的特征转换为N(显著度量化层级)个显著度层级的、与输入特征同宽高的单通道区域分布矩阵，每个矩阵上每个元素的值表示该元素属于该显著度层级的概率。基于视觉注意力机制的区域分解思想和应用在现有工作中已多有体现。现有工作多对图像区域进行尝试性分区，然后基于RNN(LSTM是RNN的一种特殊结构)判断分解区域的显著性实现显著对象定位，例如Mnih等在Recurrent Models of Visual Attention文章中的方法。与现有工作不同，本发明对于基于视觉注意力机制的区域分解思想的具体实现为卷积LSTM网络，不需事先给予尝试性分区即可实现不同显著度区域的分解；同时，本发明首次将基于视觉注意力机制应用于画风迁移任务中。本发明所构建的区域分解卷积LSTM网络包含N个循环的卷积LSTM结构，第i个循环得到第i个显著度层级的区域概率图。每个循环的卷积LSTM(结构见附图2所示)是在传统LSTM结构上的改进：(1)传统LSTM在门处理的神经网络单元中使用的是全连接结构，无法在计算后保持输入数据中的空间关系。本发明中将LSTM的所有全连接结构设计成卷积的形式，如附图2所示，其中conv表示为卷积操作，其下标表示该卷积操作所使用的激活函数。本发明实例在相应卷积操作中采用如附图2所示激活函数，其中conv_tanh和conv_σ分别表示使用tanh和sigmoid激活函数的卷积操作；(2)传统LSTM本身自带遗忘门、记忆门和输出门机制实现信息传递，本发明在LSTM特征传递过程中引入前序循环已计算结果，即每个矩阵元素在前序显著度阶层上的概率值，借此进一步加强信息传递，告知当前循环的区域预测需与之前的结果进行互补。具体而言，用Amap_i，i＝1,...,t-1，表示第i个循环获得的与输入特征同等尺寸的单通道区域分布矩阵。Amap_i其中每个元素取值范围为[0，1]，表示每个元素在第i个显著度层级上的概率。设置当前t时刻的输入为累加矩阵，即AMap_sum＝∑_i∈SAMap_i，与特征提取模块输出的特征矩阵做哈达马积操作，在本发明实例附图2中被表示为Mask操作。其中,S为集合{1,...,t-1}的子集。为了方便训练，建议仅采用前一循环的输出强化信息传递，忽略t-1循环之前的输出结果，即S＝{t-1}，如附图2所示。

解码器为K层的尺度调整卷积网络，分别将N个区域矩阵解码为与内容图同等尺寸的N张概率图，表示第N个显著度阶层上每个像素所属概率。解码后的概率图在画风图像合成模块中，将作为对应显著度的子画风风格后的内容图的融合权重。本发明实例中，K＝3。

模块四，画风图像合成。

画风图像合成模块将N张带子画风风格的内容图融合生成一张带画风图风格的内容图。在M＝N情况下，子画风图与概率权值图一一对应。在M与N不相等情况下，做线性对应，即第m张子画风图取第n张权值图，n＝mN/M。本发明建议取M＝N，或是M/N或N/M为整数。在此情况下，如多张子画风对应同一权值图，可对该权值图按照像素值均分的方式做成多张权值图；如多张权值图对应一张子画风图，可对权值图像通过像素值相加叠加成一张权值图。总之，使得每张子画风图仅对应一张权值图。用表示第m张子画风内容图该像素位置处的值，用n(m)表示该画风图对应的显著度图编号，为第n(m)张概率度图中第i个像素位置处的值，合成图中第i个像素的值tⁱ为：

训练阶段。

在分类等任务中，网络通常被作为一个整体来优化，其内部每个结构作用难以控制。本发明对所提出架构进行分支训练(见附图3所示)，使每个分支向目标作用优化。

训练分支一，自动编码器分支(见附图3(a))。该分支的作用是保证特征抽取模块和解码器只起到特征编码和解码的作用，而不包含任何针对特定画风的变换。在本分支中，特征抽取模块和子画风解码器被直接连接在一起，输出一个自编码器生成图，记为Auto。Auto与输入图片I尺度一致。自编码损失Loss_auto度量了Auto和输入图片的二范式差异：

通过最小化该自编码损失，优化特征抽取模块和子画风解码器参数，使这两部分具备要求的特征编解码作用，与子画风无关。在此基础上，可将与画风相关的参数全部限制在迁移子网之中，从而使得整体网络的可扩展性强：仅通过在迁移子网中引入M个平行分支，即可实现M个子画风迁移。

训练分支二，基于显著度的区域分解训练分支(见附图3(b))。该分支的作用是基于显著度的图像分解模块能够生成合理的N个显著度层级的区域划分图。该分支输入为图片I，通过特征抽取模块抽取语义化的特征，随后将特征送入基于显著度的图像分解模块。在基于显著度的图像分解模块中，特征先通过区域分解卷积LSTM子网，被编码成N个显著度层级的、长宽与特征矩阵相等的特征层次的区域划分图。该图被解码器上采样至与输入图片等大的显著度概率图A₁,A₂,…A_N。本发明实例N＝2，即仅分为前背景两种显著度的区域，区域概率图记做A_f,A_b。显著度损失是A_f,A_b分别与训练集给出的前背景真值矩阵Gt_f,Gt_b之间的光滑L1损失之和。使用光滑L1损失代替传统L2损失的原因是显著度计算子网的LSTM结构在训练时容易出现瀑布式梯度变化导致模型难以优化。而在真值与输出结果相差较大时，L2损失函数导数值很大，会加剧LSTM结构优化的困难。损失值计算公式如下(W，H，C分别为注意力矩阵的宽高和通道数)：

其中，SmoothL1()为光滑L1损失函数，

训练分支三，风格化分支。该分支有两大作用：首先保证前背景子画风生成结果图在维持内容语义与输入图一致的基础上，能够具备各自对应的子画风。其次保证经过显著度匹配引导融合的最终生成结果具备全局和谐的画风。为了保证这两大作用，本发明将风格化分支划分成整体画风风格化和子画风风格化两个部分。

(a)整体画风风格化训练(见附图3(c))

在整体画风风格化分支中，使用Gatys等在文献Neural Algorithm of ArtisticStyle中提出的感知损失形式来优化模型。感知损失包括：内容损失和画风重建损失。内容损失描述了画风迁移后的图片在内容上与输入图之间的差异，画风重建损失描述了迁移风格后的内容图与画风图风格上的差异，即底层特征差异。本发明采用多层卷积神经网络，表示为Φ，实现内容信息和底层纹理信息分离，用于分别计算上述损失。本发明实例采用VGG19卷积神经网络(已经在ImageNet数据集上完成预训练，在本发明风格化优化过程中不再改变参数)。本发明实例中使用VGG19提取迁移结果图T和输入图I的各层特征。利用神经网络在对图片进行编码的过程中，存在从底层向高层语义信息转换的特性，使用不同层的特征达将内容与底层信息分离。发明实例中提取I和T在VGG19中高层(本发明实例采用relu4-2层)的特征，并计算两者间的欧式距离形成特征重建损失。用j表示VGG19的第j层，C，W，H分别表示特征的通道数宽度和高度，重建损失定义为

使用卷积神经网络的低层(本发明实例采用VGG19中relu1-2，relu2-2，relu3-3，relu4-3层)特征表示颜色、纹理底层特征。之后，使用各层特征矩阵变换得到的Gram矩阵表示画风信息。Gram矩阵G_j(x)的计算过程如下。首先，将j层的特征Φ(I)_j变形为C_j×W_jH_j的二维矩阵，表示成ψ_j。随后，计算对应层的Gram矩阵，G_j(x)

Gram矩阵尺寸为C_j×C_j。其效果与协方差相似，将特征矩阵转变成了通道与通道之间的相关矩阵。由于缺乏减去均值这个过程，Gram矩阵实质上是一种偏心的协方差矩阵。本发明将分别属于生成图T和画风图S的Gram矩阵，按照层层对应的方式，求其间的欧氏距离，并将各层欧式距离求和获得最终的画风重建损失，用J表示特征层总数，画风重建损失公式如下，

整体画风风格化分支训练即最小化以下损失，

该式中λ_c和λ_s分别表示内容重建和画风重建损失的组合权重。两权重的值根据用户需求确定，本发明实例中采用λ_s＝5、λ_c＝1。如需要更多维持原图样貌，则调大λ_c，如需要画风效果更强烈，调大λ_s的值。

(b)子画风风格化(见附图3(d))

子画风风格化需要针对每一个子画风所生成的结果，记为sub_i，进行约束，使其生成内容与输入图片I一致且画风与子画风一致的结果。相比于整体画风风格化，子画风风格化部分需要额外输入预先指定好的子画风划分矩阵SM(如附图5(a)所示)。SM是一组由用户预先指定的和画风图大小一致的单通道矩阵。本发明实例中，只有两个子画风(即前背景画风)，因此SM每个元素值为1或0，表示对应位置上的画风图像素是否属于前景或背景。

使用阶段。

给定一张画风图，按照前述方法网络。训练完成后，将内容图输入附图1中的已经训练好的整体网络中，输出为带该画风的内容图。更换画风图时，仅需重新训练风格化分支，其他部分的参数不变。

方法测试

本实验中使用了两张不同的画风图分别训练网络，分别输出带有不同画风的内容图。从显著度匹配和所生成的图像质量两方面验证本发明方法。除此之外，本发明对比了Johnson等人的方法。

测试一，显著度匹配测试。

显著度匹配即画风图中的显著子画风是否迁移至内容图中的显著对象物上。本发明选取了Johnson等人的方法进行对比，实验结果如附图4所示。

从图4可看出，Johnson等人的方法不区分画风与内容的匹配问题，不论是背景草地还是前景的马均部分继承了画风图中的星空子画风，导致对象物子画风完整性割裂，例如马的前半部分具备前景子画风，而马背上具备背景子画风。本发明方法无此问题。

测试二，生成的图像质量测试。

即测试生成图像中是否包含噪声。本发明同样选取了Johnson等人的方法进行对比，实验结果如附图5所示。

从图5可看出，Johnson等人的方法在局部区域有棋盘格噪声，本发明方法由于引入尺度调整卷积，在保持显著度匹配的画风迁移基础上，保证了输出图像的质量。

Claims

1.一种基于显著度匹配的画风迁移方法，其特征在于，包括以下模块：

模块一、特征抽取模块：给定一幅输入图像，通过特征抽取模块得到特征矩阵；

模块二、子画风迁移模块：对特征矩阵表达的内容图进行处理使其具备不同的子画风，并解码生成带有不同子画风的多幅内容图；其中，子画风总数量M和子画风的显著度排序事先由用户自由指定；

模块三、基于显著度的区域分解模块：该模块以特征矩阵表达的内容图为输入，将其依据注意力机制按照重要性程度进行内容分解，并解码生成N张与内容图尺寸一致、显著度由高到低排序的区域分布图，每张图中像素取值表示该像素属于当前显著层级的概率；

模块四、画风图像合成模块：对子画风内容图和内容区域分布图按显著度的一致性进行匹配，以区域分布图的像素值为权值，加权对应子画风图像的相应像素；所有加权后的子画风内容图加和生成最终的画风迁移图。

2.根据权利要求1所述的方法，其特征在于：

特征抽取模块由编码器和残差子网组成；编码器通过一个L层卷积神经网络实现多尺度特征提取和非线性映射计算，获取语义层次的特征表达，随后通过一个J层残差模块进行进一步特征凝练；其中，L＝3，J＝5。

3.根据权利要求1所述的方法，其特征在于：

子画风迁移模块包括两个部分，迁移子网和子画风解码器；迁移子网接收特征抽取模块所提取出来的特征，对特征进行卷积操作使其依据每个子画风进行风格化；只需要在迁移子网中并行M个参数不共享的卷积层分支完成对M个子画风的风格迁移；

子画风解码器为K层的尺度调整卷积网络，接收子画风风格化后的特征，并将其解码恢复到原始图片大小，得到M张带子画风风格的内容图；引入尺度调整卷积来代替传统解码器中的反卷积；其中，K＝3。

4.根据权利要求1所述的方法，其特征在于：

模块三，基于显著度的图像分解；

基于显著度的图像分解模块由两个部分组成,包括区域分解卷积LSTM子网和分区图解码器；

区域分解卷积LSTM子网基于视觉注意力机制，将特征提取模块输出的特征转换为N个显著度层级的、与输入特征同宽高的单通道区域分布矩阵，每个矩阵上每个元素的值表示该元素属于该显著度层级的概率；

构建的区域分解卷积LSTM网络包含N个循环的卷积LSTM结构，第i个循环得到第i个显著度层级的区域概率图，具体如下：(1)LSTM的所有全连接结构设计成卷积的形式，其中conv表示为卷积操作，其下标表示该卷积操作所使用的激活函数；

(2)在LSTM特征传递过程中引入前序循环已计算结果，即每个矩阵元素在前序显著度阶层上的概率值，用Amap_i，i＝1,...,t-1，表示第i个循环获得的与输入特征同等尺寸的单通道区域分布矩阵；Amap_i其中每个元素取值范围为[0，1]，表示每个元素在第i个显著度层级上的概率；设置当前t时刻的输入为累加矩阵，即AMap_sum＝∑_i∈SAMap_i，与特征提取模块输出的特征矩阵做哈达马积操作，即Mask操作；其中,S为集合{1,...,t-1}的子集；

解码器为K层的尺度调整卷积网络，分别将N个区域矩阵解码为与内容图同等尺寸的N张概率图，表示第N个显著度阶层上每个像素所属概率；解码后的概率图在画风图像合成模块中，将作为对应显著度的子画风风格后的内容图的融合权重；其中，K＝3。

5.根据权利要求1所述的方法，其特征在于：

画风图像合成模块将N张带子画风风格的内容图融合生成一张带画风图风格的内容图；在M＝N情况下，子画风图与概率权值图一一对应；在M与N不相等情况下，做线性对应，即第m张子画风图取第n张权值图，n＝mN/M；M＝N，或是M/N或N/M为整数；在此情况下，如多张子画风对应同一权值图，可对该权值图按照像素值均分的方式做成多张权值图；如多张权值图对应一张子画风图，可对权值图像通过像素值相加叠加成一张权值图；

总之，使得每张子画风图仅对应一张权值图；用表示第m张子画风内容图该像素位置处的值，用n(m)表示该画风图对应的显著度图编号，为第n(m)张概率度图中第i个像素位置处的值，合成图中第i个像素的值t_i为：

6.根据权利要求1所述的方法，其特征在于：

训练阶段对所提出架构进行分支训练，使每个分支向目标作用优化。

7.根据权利要求6所述的方法，其特征在于：

训练分支一，自动编码器分支：在本分支中，特征抽取模块和子画风解码器被直接连接在一起，输出一个自编码器生成图，记为Auto；Auto与输入图片I尺度一致；自编码损失Loss_auto度量了Auto和输入图片的二范式差异：

通过最小化该自编码损失，优化特征抽取模块和子画风解码器参数，使这两部分具备要求的特征编解码作用，与子画风无关；在此基础上，将与画风相关的参数全部限制在迁移子网之中，从而使得整体网络的可扩展性强：仅通过在迁移子网中引入M个平行分支，实现M个子画风迁移。

8.根据权利要求6所述的方法，其特征在于：

训练分支二，基于显著度的区域分解训练分支：该分支的作用是基于显著度的图像分解模块能够生成合理的N个显著度层级的区域划分图；该分支输入为图片I，通过特征抽取模块抽取语义化的特征，随后将特征送入基于显著度的图像分解模块；在基于显著度的图像分解模块中，特征先通过区域分解卷积LSTM子网，被编码成N个显著度层级的、长宽与特征矩阵相等的特征层次的区域划分图；该图被解码器上采样至与输入图片等大的显著度概率图A₁,A₂,…A_N；

其中N＝2，即仅分为前背景两种显著度的区域，区域概率图记做A_f,A_b；显著度损失是A_f,A_b分别与训练集给出的前背景真值矩阵Gt_f,Gt_b之间的光滑L1损失之和；损失值计算公式如下，W，H，C分别为注意力矩阵的宽高和通道数：

其中，SmoothL1()为光滑L1损失函数，

9.根据权利要求6所述的方法，其特征在于：

训练分支三，风格化分支；将风格化分支划分成整体画风风格化和子画风风格化两个部分；

(a)整体画风风格化训练

在整体画风风格化分支中，使；感知损失包括：内容损失和画风重建损失；内容损失描述了画风迁移后的图片在内容上与输入图之间的差异，画风重建损失描述了迁移风格后的内容图与画风图风格上的差异，即底层特征差异；采用多层卷积神经网络，表示为Φ，实现内容信息和底层纹理信息分离，用于分别计算上述损失；

使用VGG19卷积神经网络提取迁移结果图T和输入图I的各层特征；利用神经网络在对图片进行编码的过程中，存在从底层向高层语义信息转换的特性，使用不同层的特征达将内容与底层信息分离；提取I和T在VGG19中高层即relu4-2层的特征，并计算两者间的欧式距离形成特征重建损失；用j表示VGG19的第j层，C，W，H分别表示特征的通道数宽度和高度，重建损失定义为

使用卷积神经网络的低层即VGG19中relu1-2，relu2-2，relu3-3，relu4-3层特征表示颜色、纹理底层特征；不能用等这样不确定的词语，请写完整之后，使用各层特征矩阵变换得到的Gram矩阵表示画风信息；Gram矩阵G_j(x)的计算过程如下；首先，将j层的特征Φ(I)_j变形为C_j×W_jH_j的二维矩阵，表示成ψ_j；随后，计算对应层的Gram矩阵，G_j(x)

Gram矩阵尺寸为C_j×C_j；其效果与协方差相似，将特征矩阵转变成了通道与通道之间的相关矩阵；将分别属于生成图T和画风图S的Gram矩阵，按照层层对应的方式，求其间的欧氏距离，并将各层欧式距离求和获得最终的画风重建损失，用J表示特征层总数，画风重建损失公式如下，

整体画风风格化分支训练即最小化以下损失，

该式中λ_c和λ_s分别表示内容重建和画风重建损失的组合权重；

(b)子画风风格化

子画风风格化需要针对每一个子画风所生成的结果，记为sub_i，进行约束，使其生成内容与输入图片I一致且画风与子画风一致的结果；相比于整体画风风格化，子画风风格化部分需要额外输入预先指定好的子画风划分矩阵SM，SM是一组由用户预先指定的和画风图大小一致的单通道矩阵。