CN109712081B

CN109712081B - 一种融合深度特征的语义风格迁移方法和系统

Info

Publication number: CN109712081B
Application number: CN201811349865.3A
Authority: CN
Inventors: 王志忠; 赵磊; 王佶; 邢卫; 鲁东明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2021-01-29
Anticipated expiration: 2038-11-14
Also published as: CN109712081A

Abstract

本发明公开了一种融合深度特征的语义风格迁移方法和系统，其中方法包括：步骤1，针对内容图像和风格图像，分别处理得到对应的内容图像语义图和风格图像语义图；步骤2，计算表征内容图像和生成图像的内容特征差异的损失函数L_c；步骤3，计算表征最匹配区域对差异的损失函数L_p；步骤4，计算表征风格图像融合特征全局特征相关性矩阵和生成图像融合特征全局特征相关性矩阵差异的损失函数L_GR；步骤5，计算使生成图像更加平滑的总变差损失L_tv；步骤6，顺次重复步骤2～步骤5，迭代更新生成图像像素值，直至损失函数L_c、损失函数L_p、损失函数L_GR和总变差损失L_tv之和不再下降，得到最终的生成图像。本发明提供的语义风格迁移方法，能够兼顾局部和全局表现。

Description

一种融合深度特征的语义风格迁移方法和系统

技术领域

本发明涉及深度学习技术领域，特别是涉及一种融合深度特征的语义风格迁移方法和系统。

背景技术

首次将深度学习应用到风格迁移领域的是盖茨(Gatys)等人，他们在2015年提出了一种艺术风格神经算法，通过计算一个深度神经网络输出的各层特征的全局相关性来抽取风格图像的风格特征。但是这种方法仅考虑了特征之间的全局相关性，而忽略了局部像素之间的相似度，所以这种方法比较适用于艺术风格迁移，而对于以照片作为风格并且有严格的局部相似性要求的真实感风格迁移，往往不能得到令人满意的结果。

为了解决这个问题，在2016年，李(Li)和万德(Wand)等人结合了卷积神经网络和马尔科夫随机场(Markov Random Fields,MRFs)，通过从特征图中抽取若干个patch区域，然后再用最近邻的方法匹配最相似的patch来提高风格迁移过程中的局部相似性。后来，基于这种方法，尚帕达(Champandard)在patch匹配的过程中结合了语义图约束，并大大提升了语义风格迁移的效果。

再后来，也有一些新的方法被陆续提出，如陈(Chen)和徐(Hsu)等人提供了一种利用掩膜化过程来约束空间对应和高阶样式特征统计从而进一步改善结果的另类方法；而陆(Lu)等人主要致力于解决迁移过程中的计算瓶颈，提出了一种快速的语义风格迁移方法；更近地，迈尔雷兹(Mechrez)等人提出一种可替代的上下文损失，实现了无分割方式的语义风格迁移。

总结目前语义风格迁移领域的上述方法，仍然没有一种方法能够在保持精细的局部细节相似度迁移效果的基础上还能够在全局上得到很好的表现，而这方面的研究将更有助于我们创造更加精致的风格迁移作品。

发明内容

基于此，有必要提供一种融合深度特征的语义风格迁移方法，能够在保持精细的局部细节相似度迁移效果的基础上，还能够在全局上得到很好的表现。

一种融合深度特征的语义风格迁移方法，用于将风格图像的对应语义风格迁移至内容图像，得到生成图像，包括：

步骤1，针对内容图像和风格图像，分别依次进行图像风格种类识别和语义分割，得到对应的内容图像语义图和风格图像语义图；

步骤2，选择内容图像或风格图像作为生成图像的初始图像，利用融合深度特征的深度学习模型分别提取内容图像和生成图像的内容特征，并计算表征内容图像和生成图像的内容特征差异的损失函数L_c；

步骤3，利用融合深度特征的深度学习模型分别提取风格图像和生成图像融合特征，在通道维度连接风格图像融合特征和风格图像语义图，得到连接后的特征S_s，在通道维度连接生成图像融合特征和内容图像语义图，得到连接后的特征S_g；

针对特征S_s和特征S_g，分别按预定步长提取若干区域，在特征S_s的区域集合和特征S_g的区域集合中寻找最匹配的区域对，计算表征最匹配区域对差异的损失函数L_p；

步骤4，分别计算风格图像融合特征和生成图像融合特征的全局特征相关性矩阵，然后计算表征风格图像融合特征全局特征相关性矩阵和生成图像融合特征全局特征相关性矩阵差异的损失函数L_GR；

步骤5，计算使生成图像更加平滑的总变差损失L_tv；

步骤6，顺次重复步骤2～步骤5，迭代更新生成图像像素值，直至损失函数L_c、损失函数L_p、损失函数L_GR和总变差损失L_tv之和不再下降，得到最终的生成图像。

所述融合深度特征的语义风格迁移方法，能够克服传统风格迁移方法在局部和全局表现上不能兼顾的缺陷，同时也在局部细节的表现上有所提升，在深度学习和风格迁移的基础上将两者结合，设计并提出了一种集成完备、操作简单的语义风格迁移方法和系统，能够根据用户提交的任意内容图像和风格图像，通过少量的人机交互手段，高度自动化地生成十分精美的风格迁移结果，可辅助用户进行高质量的艺术创作。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

可选地，所述融合深度特征的深度学习模型基于VGG19模型构建，利用VGG19模型中的Conv1_1、Conv2_1、Conv3_1、Conv4_1四层卷积网络，(Convi_1表示第i个卷积块的第一个卷积层)，输入图像依次经Conv1_1、Conv2_1、Conv3_1、Conv4_1后，计算得到内容特征；

对输入图像经Conv1_1的计算结果进行双线性下采样，然后与Conv2_1的输出结果进行通道连接，得到第一融合特征；对第一融合特征进行双线性下采样，然后与Conv3_1的输出结果进行通道连接，得到第二融合特征；对第二融合特征进行双线性下采样，然后与Conv4_1的输出结果进行通道连接，得到最终输出的融合特征。

可选地，损失函数L_c的计算公式如下：

式中：Fcij为内容图像的内容特征中的某一位置处的特征点，i，j为内容图像的内容特征中的特征点位置编号；

F_gij为生成图像的内容特征中的某一位置处的特征点，i，j为生成图像的内容特征中的特征点位置编号。

可选地，步骤3中，针对特征S_s和特征S_g，按步长1分别提取若干3×3的区域。

可选地，针对特征S_g的区域集合中的每个区域，使用如下归一化互相关方法寻找最匹配的区域对：

式中：Θ_i(S_g)为特征S_g的区域集合中的第i个区域；

Θ_j(S_s)为特征S_s的区域集合中的第j个区域；

m_s为特征S_s的区域集合中的区域数量。

可选地，损失函数L_p的计算公式如下：

式中：Θ_i(S_g)为特征S_g的区域集合中的第i个区域；

Θ_BM(i)(S_s)为特征S_s的区域集合中与Θ_i(S_g)最匹配的区域；

m_g为特征S_g的区域集合中的区域数量。

可选地，风格图像融合特征的全局特征相关性矩阵和生成图像融合特征全局特征相关性矩阵计算方法相同，风格图像融合特征全局特征相关性矩阵计算方法如下：

将风格图像融合特征FS_s的大小调整为N×M，其中N＝c，M＝h×w，h为风格图像融合特征的高，w为风格图像融合特征的宽，c为风格图像融合特征的通道数，风格图像融合特征的全局特征相关性矩阵GR_s的计算公式如下：

GR_s＝<FS_s,FS_s ^T>。

可选地，损失函数L_GR的计算公式如下：

式中：GR_sij为风格图像融合特征的全局特征相关性矩阵GR_s中的第i行第j列的元素；

GR_gij为生成图像融合特征的全局特征相关性矩阵GR_g中的第i行第j列的元素；

N＝c，M＝h×w，h为风格图像融合特征的高，w为风格图像融合特征的宽，c为风格图像融合特征的通道数。

可选地，总变差损失L_tv的计算公式如下：

式中：M为完成风格迁移后的生成图像；

H为完成风格迁移后的生成图像的高，i为高度方向上的像素编号；

W为完成风格迁移后的生成图像的宽，j为宽度方向上的像素编号；

C为完成风格迁移后的生成图像的通道，k为通道的编号。

一种融合深度特征的语义风格迁移系统，包括客户端和服务器，所述服务器包括存储器和处理器，所述存储器内存储有计算机程序，所述服务器从客户端获取内容图像和风格图像；所述存储器自动按类存储内容图像、风格图像和风格迁移的中间生成图像；所述处理器执行所述计算机程序时，实现所述的融合深度特征的语义风格迁移方法。

本发明提供的融合深度特征的语义风格迁移方法和系统，能够针对用户提交的任意内容图像和风格图像自动进行语义分割和风格迁移，在用户可视和可控的范围内得到精美的语义风格迁移结果，其有益效果是：

1、本发明与传统的深度学习特征提取方法相比，使用了融合特征而非单层特征，不仅能够保留更多的特征信息，而且相比较于逐层处理，直接对最终的融合特征进行处理将节省更多的计算资源和运算时间。

2、本发明与传统的深度学习风格迁移方法相比，融合了局部和全局的特征信息，不仅能够在细节风格迁移上表现得更好，而且在整体风格迁移上也有很好的表现，能够生成更加精美的风格迁移结果图像。

3、本发明与其他风格迁移应用系统相比，将耗费时间和计算资源的语义分割和风格迁移任务移交到了服务器，用户只需在客户端提交一些简单的指令即可获得精美的语义风格迁移结果，对本地客户端硬件要求低，便于用户部署和使用。

4、本发明与其他语义风格迁移应用系统相比，集成了基于深度学习的自动语义分割模型和方法，用户可交替使用全自动或半自动的方式快速、精确地按照自身需求得到语义分割结果图像。

附图说明

图1为一个实施例中融合深度特征的语义风格迁移系统的流程图；

图2为一个实施例中语义风格迁移算法的流程图；

图3为一个实施例中融合深度特征的深度学习模型的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种融合深度特征的语义风格迁移系统，用于将风格图像的语义风格迁移至内容图像，包括：

步骤1，针对内容图像和风格图像，分别依次进行图像风格种类识别和语义分割，得到对应的内容图像语义图

和风格图像语义图

图像风格种类识别采用现有技术，即利用深度学习分类模型对图像风格进行自动分类，自动判断内容图像和风格图像所属的类别，然后进行语义分割。

语义分割采用现有技术，语义分割方式包括：

(1)全自动语义分割方式：针对多种全自动端到端的深度学习语义分割模型，分别按人物、动物、山水、植物、混合等类别进行预训练，针对不同类别的图像均能达到较好的语义分割效果。

(2)半自动语义分割方式：利用半自动深度学习语义分割模型对具有少量标注的图像进行语义分割，用户可以不断提交新的标注来完善语义分割结果，一方面可以更加方便用户进行个性化的语义分割，同时对于一些复杂的图像能够达到更加精确的语义分割效果。

用户通过发送指令完成全自动语义分割，也可以通过提供标注和指令完成半自动语义分割。全自动语义分割可以和半自动语义分割结合使用，以达到更加精确的语义分割效果。用户可根据当前语义分割结果不断提交新的标注来完善语义分割结果。

如图2所示，步骤2，选择内容图像或风格图像作为生成图像的初始图像，利用融合深度特征的深度学习模型分别提取内容图像的内容特征F_c和生成图像的内容特征F_g，并计算表征内容图像和生成图像的内容特征差异的损失函数L_c。

如图3所示，在其中一个实施例中，融合深度特征的深度学习模型基于VGG19模型构建，利用VGG19模型中的Conv1_1、Conv2_1、Conv3_1、Conv4_1四层卷积网络(Convi_1表示第i个卷积块的第一个卷积层)，输入图像依次经Conv1_1、Conv2_1、Conv3_1、Conv4_1后，计算得到内容特征；

融合深度特征的深度学习模型从最浅层开始，通过不断迭代融合深度神经网络中更深层次的输出特征，通过双线性插值的方式下采样中间特征，并将各层特征在通道维度连接起来从而得到融合特征。

所述的融合深度特征的深度学习模型在深度模型VGG19的基础上对其中的{Conv1_1,Conv2_1,Conv3_1,Conv4_1}四层的输出做了融合，由于各层输出的特征分辨率不同，所以使用了双线性下采样的方式来缩小浅层特征的尺寸，并通过迭代的方式不断与更深层的特征在通道维度上连接起来，从而得到最终的融合特征。同时，直接将Conv4_1层的输出特征作为内容特征，用于图2中的内容匹配过程。

利用损失函数L_c评价内容图像的内容特征F_c和生成图像的内容特征F_g的差异，损失函数L_c的计算公式如下：

式中：F_cij为内容图像的内容特征中的某一位置处的特征点，i，j为内容图像的内容特征中的特征点位置编号；

步骤3，利用融合深度特征的深度学习模型分别提取风格图像融合特征FS_s和生成图像融合特征FS_g，在通道维度连接风格图像融合特征FS_s和风格图像语义图

得到连接后的特征S_s，在通道维度连接生成图像融合特征FS_g和内容图像语义图

得到连接后的特征S_g；

针对特征S_s和特征S_g，分别按预定步长提取若干区域(即patch区域)，在特征S_s的区域集合和特征S_g的区域集合中寻找最匹配的区域对，计算表征最匹配区域对差异的损失函数L_p。

在其中一个实施例中，步骤3中，针对特征S_s和特征S_g，按步长1分别提取若干3×3的区域，特征S_s的区域集合记为Θ(S_s)，特征S_g的区域集合记为Θ(S_g)。

在其中一个实施例中，针对特征S_g的区域集合中的每个区域，使用如下归一化互相关方法寻找最匹配的区域对：

式中：Θ_i(S_g)为特征S_g的区域集合中的第i个区域；

Θ_j(S_s)为特征S_s的区域集合中的第j个区域；

m_s为特征S_s的区域集合中的区域数量。

利用损失函数L_p评价最匹配的区域对之间的差异，在其中一个实施例中，损失函数L_p的计算公式如下：

式中：Θ_i(S_g)为特征S_g的区域集合中的第i个区域；

Θ_BM(i)(S_s)为特征S_s的区域集合中与Θ_i(S_g)最匹配的区域；

m_g为特征S_g的区域集合中的区域数量。

步骤4，分别计算风格图像融合特征FS_g和生成图像融合特征FS_g的全局特征相关性矩阵，然后计算表征风格图像融合特征全局特征相关性矩阵和生成图像融合特征全局特征相关性矩阵差异的损失函数L_GR。

在其中一个实施例中，风格图像融合特征的全局特征相关性矩阵和生成图像融合特征全局特征相关性矩阵计算方法相同，风格图像融合特征全局特征相关性矩阵计算方法如下：

GR_s＝<FS_s,FS_s ^T>。

在其中一个实施例中，损失函数L_GR的计算公式如下：

步骤5，计算使生成图像更加平滑的总变差损失L_tv。

在其中一个实施例中，总变差损失L_tv的计算公式如下：

式中：M为完成风格迁移后的生成图像；

C为完成风格迁移后的生成图像的通道，k为通道的编号。

步骤6，顺次重复步骤2～步骤5，使用拟牛顿L-BFGS算法和反向传播算法迭代更新生成图像像素值，直至损失函数L_c、损失函数L_p、损失函数L_GR和总变差损失L_tv之和不再下降，即完成将风格图像的对应语义风格迁移至内容图像。

每次重复步骤2～步骤5时，会得到新的中间生成图像，再次进行步骤2～步骤5的操作时，各步骤中的生成图像均指前一次循环中得到的中间生成图像，从初始图像到最终的生成图像，会经历若干次对中间生成图像的迭代处理。

所述的融合深度特征的语义风格迁移方法可以在同一计算机设备中实现，也可以实现在具有交互的不同设备的客户端和服务器中。

在其中一个实施例中，提供了一种融合深度特征的语义风格迁移系统，包括客户端和服务器，服务器包括存储器和处理器，存储器内存储有计算机程序，服务器从客户端获取内容图像和风格图像；存储器自动按类存储内容图像、风格图像和风格迁移的中间生成图像；处理器执行计算机程序时，实现所述的融合深度特征的语义风格迁移方法。

如图1所示，每项操作后面括号内标记了执行该操作的对象(S表示服务器，C表示客户端)。当服务器机器运行服务器脚本后，允许多个客户端远程接入并同时执行操作。

所述融合深度特征的语义风格迁移系统在服务器中嵌入多种全自动或半自动端到端的深度学习语义分割模型，其中全自动的语义分割模型已分别按人物、动物、山水、植物、混合等类别进行了预训练，并可智能地根据内容图像和风格图像的种类识别结果进行对应种类的语义分割。这样做的好处是：一方面，可根据不同种类的图像单独训练语义分割模型，不仅在分割精度上有良好的保障，而且在后续系统的完善和再集成一些新种类语义分割模型上更加灵活；另一方面，对于半自动的语义分割模型，可结合用户提交的一些简单的标注来帮助完善语义分割效果，同时用户可通过观察当前结果并根据自身需求来提供新的标注从而不断提高分割精度。这种方法更加方便用户按照自身需求进行个性化的语义分割，同时对于结构复杂的图像也能够得到更加精确的分割结果。当然，用户也可以结合全自动和半自动的方式来进行更加方便和快速的语义分割。

所述融合深度特征的语义风格迁移系统的工作流程包括：

首先，客户端上传内容图像和风格图像，经过字节流传输后，服务器自动对客户端上传的内容图像和风格图像分别进行风格种类识别，并按识别后的种类将图像存储在对应数据库中；

其次，服务器根据客户端发送过来的指令或提交过来的标注进行全自动或半自动的语义分割操作，并循环执行上述操作直到满足客户端用户需求时停止，此时服务器进入等待阶段；

最后，待客户端用户发送开始指令后，服务器开始进行风格迁移操作，每经过若干轮的迭代后(此值可自行设置，一般为10)，服务器将迁移结果反馈到客户端，客户端可随时发送中断指令来中止风格迁移过程，并能将当前风格迁移结果导出到本地。

一台服务器可同时服务于多台客户端，用户在客户端在线提交本地的内容图像和风格图像，并向服务器发送指令，完成对风格迁移过程的控制，服务器接收到内容图像和风格图像后，执行所述的融合深度特征的语义风格迁移方法，并将风格迁移结果返回至客户端，用户可在客户端下载并保存风格迁移的结果。

图像风格种类识别和语义分割过程均在服务器执行，服务器接收到客户端发送的指令以及对图像的标注信息后，对图像进行图像风格种类识别和语义分割操作。

所述融合深度特征的语义风格迁移系统中集成了图像风格种类识别、全自动语义分割学习模型、半自动语义分割模型等深度学习模型，通过这些高效的模型和方法相互之间的协同合作，使得整个系统能够给用户提供一套完整的、有效的和高质量的风格迁移创作服务，帮助越来越多的艺术创作者们创造更加精致、更加光彩夺目的艺术作品。

所述融合深度特征的语义风格迁移系统使用套接字(socket)协议建立服务器和客户端之间的远程连接，客户端通过字节流向服务器传输内容图像和风格图像，还可发送指令或传输一些人工标注来控制服务器进行语义分割。服务器完成语义分割后实时返回结果到客户端，用户可观察客户端界面呈现的分割结果并根据需求不断提交新的标注来继续完善结果。完成语义分割后，客户端可发送开始指令控制服务器开始进行风格迁移，服务器每进行n轮迭代(n可自主设定，一般为10)，迭代结果都会返回并呈现在客户端界面，用户可随时发送中断指令来中止服务器的风格迁移过程，并且可保存当前已完成的迁移结果图到本地。

所述融合深度特征的语义风格迁移系统将耗费时间和计算资源的语义分割以及风格迁移任务交给服务器端，用户只需在客户端提交一些简单的指令即可获得精美的语义风格迁移结果。在易于用户部署和操作的基础上，能够高度自动化地生成十分精美的风格迁移结果，辅助用户进行高质量的艺术创作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种融合深度特征的语义风格迁移方法，用于将风格图像的对应语义风格迁移至内容图像，得到生成图像，其特征在于，包括：

针对特征S_s和特征S_g，分别按预定步长提取若干区域，在特征S_s的区域集合和特征S_g的区域集合中寻找最匹配的区域对，计算表征最匹配区域对差异的损失函数L_p，

损失函数L_p的计算公式如下：

式中：Θ_i(S_g)为特征S_g的区域集合中的第i个区域；

Θ_BM(i)(S_s)为特征S_s的区域集合中与Θ_i(S_g)最匹配的区域；

m_g为特征S_g的区域集合中的区域数量；

步骤5，计算使生成图像更加平滑的总变差损失L_tv；

2.如权利要求1所述的融合深度特征的语义风格迁移方法，其特征在于，所述融合深度特征的深度学习模型基于VGG19模型构建，利用VGG19模型中的Conv1_1、Conv2_1、Conv3_1、Conv4_1四层卷积网络，输入图像依次经Conv1_1、Conv2_1、Conv3_1、Conv4_1后，计算得到内容特征；

3.如权利要求1所述的融合深度特征的语义风格迁移方法，其特征在于，损失函数L_c的计算公式如下：

4.如权利要求1所述的融合深度特征的语义风格迁移方法，其特征在于，步骤3中，针对特征S_s和特征S_g，按步长1分别提取若干3×3的区域。

5.如权利要求1所述的融合深度特征的语义风格迁移方法，其特征在于，针对特征S_g的区域集合中的每个区域，使用如下归一化互相关方法寻找最匹配的区域对：

式中：Θ_i(S_g)为特征S_g的区域集合中的第i个区域；

Θ_j(S_s)为特征S_s的区域集合中的第j个区域；

m_s为特征S_s的区域集合中的区域数量。

6.如权利要求1所述的融合深度特征的语义风格迁移方法，其特征在于，风格图像融合特征的全局特征相关性矩阵和生成图像融合特征全局特征相关性矩阵计算方法相同，风格图像融合特征全局特征相关性矩阵计算方法如下：

GR_s＝<FS_s,FS_s ^T>。

7.如权利要求6所述的融合深度特征的语义风格迁移方法，其特征在于，损失函数L_GR的计算公式如下：

8.如权利要求1所述的融合深度特征的语义风格迁移方法，其特征在于，总变差损失L_tv的计算公式如下：

式中：M为完成风格迁移后的生成图像；

C为完成风格迁移后的生成图像的通道，k为通道的编号。

9.一种融合深度特征的语义风格迁移系统，包括客户端和服务器，所述服务器包括存储器和处理器，所述存储器内存储有计算机程序，其特征在于，所述服务器从客户端获取内容图像和风格图像；所述处理器执行所述计算机程序时，实现如权利要求1～8任一项所述的融合深度特征的语义风格迁移方法。