CN113344771A

CN113344771A - 基于深度学习的多功能图像风格迁移方法

Info

Publication number: CN113344771A
Application number: CN202110552692.0A
Authority: CN
Inventors: 肖春霞; 丁红
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-09-03
Anticipated expiration: 2041-05-20
Also published as: CN113344771B

Abstract

本发明公开了基于深度学习的多功能图像风格迁移方法包括图像的语义分割；图像的小波特征提取；图像风格迁移的损失函数的表示。图像的特征提取和损失函数的表示。本发明的有益效果一个算法具有艺术风格与逼真风格迁移的图像编辑效果，从而实现质量更高且更加丰富多彩的图像风格迁移效果。

Description

基于深度学习的多功能图像风格迁移方法

技术领域

本发明属于计算机图像处理技术领域，涉及基于深度学习的多功能图像风格迁移方法。

背景技术

现有的图像风格迁移技术，是指利用各类算法，将参考图像的风格(如果颜色等)迁移到输入图像的技术。图像风格迁移技术是根据参考图像的风格及输入图像的内容重新生成一张新的图像。现有图像风格迁移技术，多是对图像进行艺术风格迁移，或是逼真风格迁移，而不能同时实现艺术和逼真的风格迁移。如此限制了其应用范围。因此现有图像风格迁移方法不能满足用户对输入图像进行任意风格迁移的要求。

发明内容

本发明的目的在于提供艺术风格及逼真风格的多功能图像风格编辑方法，本发明的有益效果是根据用户需求，通过修改参数即可实现艺术与逼真风格的图像编辑。本发明基于深度学习的图像风格迁移系统，在进行逼真风格迁移前采用特征提取模块来去除输入图像原风格对最后风格迁移结果的影响，从而实现质量更高且更加丰富多彩的图像风格迁移效果。

本发明所采用的技术方案是包括以下步骤：

步骤1，将图像进行语义分割；

步骤2，对图像进行小波特征提取，如图2所示；

步骤3，设计损失函数，基于深度神经网络对步骤2的图像进行风格迁移编辑；

步骤1具体如下：图像的语义分割方法如下：采用DeepLab语义分割算法进行图像的语义分割。识别150个基础分类，采用合并简化的分类结果即合并了相似的分类，如，湖泊、江河、海洋和水流归为一类等，由此生成一组精简的分类，以产生更清晰，更简单的分割，最终生成更稳定的输出。

步骤2具体如下：

图像的小波分解过程如下

n和m分别为行下标和列下标；{h_k}_k∈Z满足小波尺度公式，

h，g是标准滤波器，

是h的共轭，c是低频系数，k是小波分解尺度。

图像小波系数处理如下

称序列

为c^k+1的一级二维小波变换，对于1000*1000像素的图像，小波变换尺度为8，当像素更大或更小时，小波变换尺度相应地调大或调小。将小波变换的高频部分(High frequency map,HFM)作为图像特征的初步提取结果，如图2所示。

设小波分解后的系数用w表示，低频系数用c表示，高频系数用d表示，对于输入图像的初步特征提取结果为：

w_HFM＝d

对于部分图像的小波特征提取结果HFM可能会有部分特征丢失，可进行特征修复。即，将原始输入图像作为输入，HFM作为参考风格图像，以及它们的语义分割进行风格迁移，可得到更完整特征的FHFM。

进一步，基于深度神经网络的图像风格迁移算法如下：

一般基于深度神经网络的图像风格迁移的损失函数主要由内容损失函数L_C、风格损失函数L_S和输入正则化λL_p三部分组成：

L＝L_C+L_S+λL_p

本发明提出的损失函数：L＝L'_C+L_HFM+L_S+λL_p

即增加了基于图像特征提取的损失函数：L_HFM

特征提取损失函数作用为去掉输入图像content的原始风格而最大程度保留其纹理特征，从而使风格迁移图像具有更多参考风格并保留其细节纹理。当使用图像特征提取模块，输入图像为真实图像，且参考图像为艺术图像时，风格迁移结果为逼真风格的图像；当忽略图像特征提取模块时，输入图像为真实图像，且参考图像为艺术图像时，风格迁移结果为艺术风格的图像。结果如图3所示。

具体的，损失函数是系统的总损失函数L为：

L＝L'_C+L_HFM+L_S+λL_p

其中

其中N为总的卷积层数，

是深度神经网络第l个卷积层的内容损失函数，

是深度神经网络第l个卷积层的风格损失函数，L_p是对输入进行逼真化处理表达式，B_C是控制内容损失的权值，B_HFM是控制风格损失的权值，B_S是控制风格损失的权值，a_l,c_l和b_l是配置层选项的权值，λ是控制逼真正则化的权值；

内容损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[I]

P_l,c[I]＝P_l,c[I]H_l,c[I]

其中P_l,c[·]是第l层c通道的特征矩阵，M_l,c[·]是与P_l,c[·]对应的Gram矩阵，H_l,c[·]是第l层的语义分割区域的通道c，W_C是语义分割的第c_th通道的权值，N_l,c表示第l层第c_th通道的滤波器总数；

特征提取损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[HFM]

P_l,c[HFM]＝P_l,c[HFM]H_l,c[HFM]

其中HFM是指输入图像的特征提取结果,W_{C_HFM}是特征提取的语义分割的第c_th通道的权值。

风格损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[S]

P_l,c[S]＝P_l,c[S]H_l,c[S]

其中S是指参考风格图像。

本发明的优点在于：现有图像风格算法仅具有艺术风格迁移或者逼真风格迁移的一种功能，而本发明提出的算法先对图像进行小波变化，再增加特征提取模块，使得编辑后的图像同时拥有艺术风格迁移以及逼真风格迁移的功能，且在实现风格迁移的同时能更多保持输入图像原有的纹理信息。从而该方法能输出更加丰富且高质量的图像风格效果。

附图说明

图1是图像特征提取示意图。

图2是本发明的图像艺术与逼真风格迁移功能的算法示意图。

图3是本发明的输入为真实图像，参考图像为艺术风格图像的艺术与逼真风格迁移效果展示。

图4是本发明的结果与近三年顶会顶刊方法比较迁移图。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

如图2所示的多功能图像风格迁移。Input是输入图像，Style是参考图像，SeI是输入图像的语义分割结果，SeS是参考图像的语义分割结果，Attention target是注意力机制关注的区域(可在1-6之间进行选择)。在编码过程，输入图像、参考图像进行语义分割，并将这4张图像及关注区域输入模型，由VGG19进行特征提取及风格迁移。解码过程将输出风格迁移结果，如图中第一行所示。

步骤1，图像的语义分割。语义分割是计算机视觉中十分重要的领域，是指像素级地识别图像，即标注出图像中每个像素所属的对象类别。其目标是预测出图像中每一个像素的类标签。本发明的语义分割采用扩张卷积的方法进行输入图像与参考风格图像的语义分割，能识别150个基础分类，采用的是合并简化的分类结果，以产生更清晰，更简单的分割，最终生成更稳定的输出。

步骤2，图像的特征提取。图像的小波特征提取方法如下：图像的小波分解过程如下

n和m分别为行下标和列下标；{h_k}_k∈Z满足小波尺度公式，

h，g是标准滤波器，

是h的共轭，c是低频系数，k是小波分解尺度。

图像小波系数处理如下

称序列

为c^k+1的一级二维小波变换，对于1000*1000像素的图像，小波变换尺度为8，当像素更大或更小时，小波变换尺度相应地调大或调小。将小波变换的高频部分(High frequency map,HFM)作为图像特征的初步提取结果。

步骤3，损失函数的表示。损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。在深度学习中，损失函数扮演着至关重要的角色。通过对最小化损失函数，使模型达到收敛状态，减少模型预测值的误差。

损失函数是系统的总损失函数L为：

L＝L'_C+L_HFM+L_S+λL_p

其中

其中N为总的卷积层数，

是深度神经网络第l个卷积层的内容损失函数，

内容损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[I]

P_l,c[I]＝P_l,c[I]H_l,c[I]

其中P_l,c[·]是第l层c通道的特征矩阵，M_l,c[·]是与P_l,c[·]对应的Gram矩阵，I是指输入图像，H_l,c[I]是输入图像第l层的语义分割区域的通道c，W_C是语义分割的第c_th通道的权值，N_l,c表示第l层第c_th通道的滤波器总数；

特征提取损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[HFM]

P_l,c[HFM]＝P_l,c[HFM]H_l,c[HFM]

其中HFM是指输入图像的特征提取结果,H_l,c[HFM]是特征提取图第l层的语义分割区域的通道c，W_{C_HFM}是特征提取的语义分割的第c_th通道的权值。

风格损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[S]

P_l,c[S]＝P_l,c[S]H_l,c[S]

其中S是指参考风格图像。

执行细节：采用预先训练的VGG-19作为特征提取器。选择conv1_1,conv2_1，conv3_1，conv4_1，conv5_1(这些层βl＝1/5，所有其他层βl＝0)作为风格、内容以及特征提取的表示。在艺术风格迁移过程中，Bc＝9,Bs＝10²,λ＝10⁴。在逼真风格迁移过程中，Bc＝9,Bs＝10²,B_HFM＝10²,λ＝10⁴。

图4是与近三年顶会顶刊方法比较结果。第1至2行，左起第1列至第7列分别为：输入图像(上)和参考图像(下)；方法1的结果，方法2的结果，方法3的结果，方法4的结果，本发明的结果。第3至4行，左起第1列至第6列分别为：输入图像(上)和参考图像(下)；方法1的结果，方法2的结果，方法3的结果，方法4的结果，方法5的结果，本发明的结果。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的多功能图像风格迁移方法，其特征在于，主要包括以下步骤：

步骤1，将图像进行语义分割；

步骤2，对语义分割后的图像进行小波特征提取，并将小波变换的高频部分(Highfrequency map,HFM)作为图像特征的初步提取结果，对部分图像的小波特征提取结果出现部分特征丢失的，进行特征修复；

其中，损失函数包括内容损失函数、基于图像特征提取的损失函数、风格损失函数和输入正则化。

2.根据权利要求1所述的基于深度学习的多功能图像风格迁移方法，其特征在于：

所述基于图像特征提取的损失函数

P_l,c[O]＝P_l,c[O]H_l,c[HFM]

P_l,c[HFM]＝P_l,c[HFM]H_l,c[HFM]

其中，若N为总的卷积层数，l表示第l个卷积层，HFM是指输入图像的特征提取结果,中P_l,c[·]是第l层c通道的特征矩阵，M_l,c[·]是与P_l,c[·]对应的Gram矩阵，H_l,c[HFM]是特征提取图第l层的语义分割区域的通道c，W_{C_HFM}是特征提取的语义分割的第c_th通道的权值。

3.根据权利要求1所述的基于深度学习的多功能图像风格迁移方法，其特征在于：采用DeepLab语义分割算法进行图像的语义分割，并按图像的类别合并简化分类结果。

4.根据权利要求1所述的基于深度学习的多功能图像风格迁移方法，其特征在于：图像特征采用小波特征提取。

5.根据权利要求2所述的基于深度学习的多功能图像风格迁移方法，其特征在于：内容损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[I]

P_l,c[I]＝P_l,c[I]H_l,c[I]

其中M_l,c[·]是与P_l,c[·]对应的Gram矩阵，I表述输入图像，H_l,c[I]是输入图像第l层的语义分割区域的通道c，W_C是语义分割的第cth通道的权值，N_l,c表示第l层第c_th通道的滤波器总数；

风格损失函数如下：

P_l,c[O]＝P_l,c[O]H_l,c[S]

P_l,c[S]＝P_l,c[S]H_l,c[S]

其中S是指参考风格图像。

6.根据权利要求1所述的基于深度学习的多功能图像风格迁移方法，其特征在于：采用VGG19进行特征提取及风格迁移。