CN115375601A

CN115375601A - 一种基于注意力机制的解耦表达国画生成方法

Info

Publication number: CN115375601A
Application number: CN202211307882.7A
Authority: CN
Inventors: 陈子涵; 李思颖; 张轶
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2022-11-22
Anticipated expiration: 2042-10-25
Also published as: CN115375601B

Abstract

本发明涉及一种基于注意力机制的解耦表达国画生成方法，属于计算机视觉技术领域，可以将图片映射到内容空间和属性空间进行重组，并通过内容判别器和交叉循环一致理论来保证转换过程的一致性。同时，本方法采用MS‑SSIM损失函数和Charbonnier损失函数提升模型的质量。本发明通过注意力机制和潜空间的解耦表示来实现，两者的结合能够生成高质量的中国传统绘画，通过Charbonnier损失函数以保证图像重建，同时利用交叉循环一致性约束来保证合成图像的质量，相较于现有方法，本发明在模型训练中能够将国画的风格特征与高斯分布进行对齐，因此本发明可以直接将随机高斯噪声作为特征向量，使合成的国画更具艺术性和多样性。

Description

一种基于注意力机制的解耦表达国画生成方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于注意力机制的解耦表达国画生成方法。

背景技术

得益于其优秀的观赏性和艺术性，中国传统绘画越来越受到广泛的关注和研究，中国传统绘画的风格和种类繁多，包括工笔、白描和写意画等等，出于对这些具有丰富艺术内涵的中国传统画作的艺术追求，或者研究其艺术特征以供机器建模，希望能够通过计算机自动生成中国传统绘画，然而，这些绘画各自有独特的风格，并且绘画中的中国风特征和复杂结构往往难以捕捉。

幸运的是，中国传统插画生成属于已经被广泛研究的图像到图像翻译工作，而且已有了许多杰出的研究成果。图像到图像翻译任务的本质都是让模型学习从源数据集到目标数据集的映射，使其能够将原数据集的样本转化为和目标数据集相似的样本。早期与图像翻译相关的工作主要以风格迁移为主。人们利用卷积神经网络强大的特征提取能力，发明的神经网络迁移方法能够强制将艺术绘画的颜色特征和艺术细节进入拍摄的真实照片中。后来，变分自动编码器被提出，为端到端的艺术图像生成任务提供了新的思路。

随着生成式对抗网络的提出，利用生成器和判别器对抗学习的理论，研究人员通过改进生成式对抗网络的模型结构和损失函数，得到了许多高质量的图像生成成果。从那开始，已经涌现了不少基于生成式对抗网络的中国传统绘画生成的研究。但是这些研究还存在生成的图片质量不高，在艺术细节的处理上较为生硬等问题。而且，关于中国传统绘画且规范的数据集非常少，大多不够规范和完整。

需要说明的是，在上述背景技术部分公开的信息只用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于注意力机制的解耦表达国画生成方法，解决了现有基于生成式对抗网络的中国传统绘画生成研究存在的不足。

本发明的目的通过以下技术方案来实现：一种基于注意力机制的解耦表达国画生成方法，其特征在于：所述国画生成方法包括：

步骤一、将白描画图像域设为X，工笔画图像域设为Y，并将样本x和y分别输入注意力感知网络中得到x _f的内容编码

和属性编码

，以及得到y _f的内容编码

和属性编码

；

步骤二、将内容编码器和属性编码器处理得到的隐向量进行交换并融合，得到X域和Y域的图像，并融合背景图得到最终图像x ^’和y ^’；

步骤三、将内容编码器和属性编码器处理得到的隐向量直接融合得到X域和Y域的重建图像

和

，将重建图像

和

与样本x和y的比较结果作为训练神经网络参数时的优化方向，以实现神经网络参数更新；

步骤四、通过判别器对生成的图像x ^’和y ^’进行判断以及内容编码进行判断，并对构建的基于注意力机制的解耦表达生成对抗模型进行训练；

步骤五、将步骤一中的样本x和y替换为最终图像x ^’和y ^’分别输入注意力感知网络中，将内容编码器和属性编码器处理得到的隐向量进行交换并融合，得到交叉循环一致重建图像

和

，将交叉循环一致重建图像

和

与样本x和y的比较结果作为训练神经网络参数时的优化方向；

步骤六、在训练满足约束条件后通过训练好的模型完成白描画、工笔画和水墨画不同风格中国传统绘画图像之间的转化。

所述将样本x和y分别输入注意力感知网络中得到x _f的内容编码

和属性编码

，以及到y _f的内容编码

和属性编码

包括：

分别将样本x和y输入注意力感知网络中得到注意力图x _a和y _a，注意力图x _a和y _a分别表示对样本x和y核心区域的提取；

将注意力图x _a和样本x、注意力图y _a和样本y融合后得到x的前景被强化后的图x _f和y的前景被强化后的图y _f；

把图x _f馈送入图像域X的属性编码器

和内容编码器

，得到x _f的属性编码

和内容编码

，把图y _f馈送入图像域Y的属性编码器

和内容编码器

，得到y _f的内容编码

和属性编码

。

所述得到X域和Y域的图像，并融合背景图得到最终图像包括：将

和

融合馈送到X域的生成器G _X以生成X域的前景图像

，将

和

也可以通过Y域的生成器G _Y生成Y域的前景图像

，并通过注意力模块将背景图和前景图进行融合得到最终图像x ^’和y ^’。

所述通过判别器对生成的图像x ^’和y ^’进行判断以及内容编码进行判断包括：通过域判别器D _X和D _Y判断生成的最终图像x ^’和y ^’是否属于图像域X和图像域Y，通过内容判别器D _C将接收的

和

两个内容编码以判断其是否属于同一分布。

所述基于注意力机制的解耦表达生成对抗模型包括由注意力模块、四个编码器、两个生成器和三个判别器；所述注意力模块由两个注意力网络组成，分别负责对图像域X和图像域Y的注意力图翻译；所述编码器用于得到图像域X和图像域Y的内容编码和属性编码；所述生成器用于对送入编码进行融合得到相应的图像；所述判别器用于对生成的图像x ^’和y ^’进行判断以及内容编码进行判断。

本发明具有以下优点：一种基于注意力机制的解耦表达国画生成方法，通过注意力机制和潜空间的解耦表示来实现，两者的结合能够生成高质量的中国传统绘画，通过Charbonnier损失函数以保证图像重建，同时利用交叉循环一致性约束来保证合成图像的质量，相较于现有方法本发明在模型训练中能够将国画的风格特征与高斯分布进行对齐，因此本发明可以直接将随机高斯噪声作为特征向量，使合成的国画更具艺术性和多样性，将合成图像的分辨率从256×256提高到了280×280。

附图说明

图1 为本发明的神经网络模型结构图；

图2 为神经网络模型中注意力模块的示意图；

图3 为神经网络模型中背景合成的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1-图3所示，本发明具体涉及一种基于注意力机制的解耦表达国画生成方法，首先，本方法整理收集了白描画、工笔画、水墨画样本各1000余幅，可以将图片映射到内容空间和属性空间进行重组，并通过内容判别器和交叉循环一致理论来保证转换过程的一致性。同时，采用MS-SSIM损失函数和Charbonnier损失函数提升模型的质量，使之生成的图像分辨率较传统方法的256×256提升至280×280，达到了生成高质量、富有艺术性的中国传统绘画的目的，同时也解决了其他艺术图像生成方法在生成中国国画任务上可能存在的色彩混乱，细节模糊等问题；具体包括的内容如下：

S1：以白描画到工笔画的转化为例，将白描画图像域设为X，工笔画图像域设为Y，以图像域X的到图像域Y的转化为例，首先本方法将样本x输入到注意力感知网络，得到注意力图x _a。注意力图x _a是对样本x核心区域的一个提取，结合注意力图x _a，神经网络能更加关注到图中的核心元素（花、鸟等），而更少地关注背景信息。

S2：接着，本方法将x _a与x融合后得到x的前景被强化后的图x _f，再把x _f同时馈送入图像域X的属性编码器

和内容编码器

，分别得到x _f的内容编码

和属性编码

。其中，属性编码器

可以将图像的风格提取，并映射为向量，也叫属性编码。而内容编码器可以将图像的内容提取（如图像中存在的花、鸟元素），并将其映射为向量，也叫内容编码；其中，x _a与x融合方式如下公式所示，其中，符号⊙表示x _a和x进行逐个矩阵元素相乘的乘法：

S3：同时，对于图像域Y的样本y也做类似的处理，用类似的属性编码器和内容编码器

、

得到y _f的内容编码

和属性编码

。由于现已将一幅图片分别映射到了内容空间和属性空间，可以用这两个编码（内容编码和属性编码）表达一张图片。

S4：把上述两个编码器处理得到的隐向量交换并融合。将

和

融合馈送到X域的生成器G _X以生成X域的图像。类似的，

和

也可以通过Y域的生成器G _Y生成Y域的图像。本发明用

和

来表示生成的仅具有前景元素的图像，即

，

。

S5：合成背景。由于引入了注意力机制，步骤S4中生成的图像只是前景图，还需要通过注意力模块融合背景图后得到最终图像。融合方式如下公式所示：

S6：为了保证训练的稳定性，将S4步骤中的隐向量直接融合以生成重建图像。以样本x为例，重建图像

，经过类似步骤S5的背景融合后得到

。而本方法中，重建图像应该和原始样本一致，即

。对Y域的样本同理。具体约束方法，即重建损失L _rec，本发明采用Charbonnier损失函数，如下公式所示，其中，h、w、c分别表示图像的高、宽、以及通道数，

为常数，一般取10^-3：

S7：域判别器D _X和D _Y则分别用于判断生成的图像是否属于图像域X和图像域Y。判别器D _X和D _Y会对生成的图片是否属于图像域X和图像域Y作出概率评分（分数），这个评分（分数）将分别指导对应的生成器G _X和G _Y的神经网络参数朝着“能够生成更加真实生动，且属于对应图像域的图片”的方向优化。

S8：内容判别器D _C将接收

和

两个编码以判断其是否属于同一分布，本方法认为中国国画的风格虽有差异，但是内容应该是能够编码到同一个潜在空间的。也就是说，无论是从白描画中提取的内容编码，还是工笔画中提取的内容编码，其应该属于同一个分布，模型将不断最小化这一项。为了将两个图片域图片的内容编码到同一个空间，内容判别器D _C将对内容编码

和

的分布距离给出一个评分，这个评分将指导两个内容编码器的神经网络参数朝着“能够提取出共同分布的内容编码”的方向优化。

S9：为了保证网络能够X域图像和Y域图像能够互相映射，引入交叉循环一致约束来保证这个过程。在步骤S3到S5中，图像已经被编码到共同的内容空间和独特的属性空间，并且彼此交换属性空间后再次解码得到新的图像x ^’和y ^’。在步骤S8中，将x ^’和y ^’将作为输入，经过与S3步骤提取属性空间和内容空间的隐向量。

S10：将步骤S8中提取的隐向量，以S4步骤和S5步骤交换并输入到生成器中并合成背景图，得到分别属于X域和Y域的图像

和

，

和

是交叉循环一致重建图像，其本质是将x ^’和y ^’将作为输入，重新映射回去，形成交叉循环映射。

S11：根据交叉循环一致理论，步骤S10中的交叉循环一致重建图像

和

应该和图像x和图像y一致，即

，

。具体约束方法，即交叉循环一致重建损失L _cc，如下公式所示，其中，F _ms-ssim表示计算两张图片的多尺度结构相似性指数，

表示计算中括号项中的数学期望：

S12：训练完成后，使用本方法的神经网络模型，即可完成白描画、工笔画、水墨画不同风格中国国画图像之间的转化。

进一步地，基于注意力机制的解耦表达生成对抗模型由注意力模块、4个编码器、2生成器和3个判别器组成。

其中，注意力模块由两个注意力网络组成，分别负责图像域X和图像域Y的注意力图翻译。网络整体是类似于编码器和解码器的结构，中间由卷积块和残差块组成。注意力模块输出的注意力图的大小等同于原始样本的大小，并且所有的值都被归一化到[0,1]。引入注意力网络能够让模型更加关注本方法需要的前景元素（例如花、鸟等）而更少关注背景元素。

3个判别器和4个编码器（

、

、

、

）、2生成器G _X和G _Y一并为生成网络，

、

分别为X域的属性编码器和内容编码器，

、

则分别为Y域的属性编码器和内容编码器。其中的判别器由2个域判别器D _X、D _Y和1个内容判别器D _C组成。对于两个域判别器D _X和D _Y，需要能判断G _X和G _Y生成的图像是否属于其对应目标域，所以需要常规的生成对抗损失L _ad。在本发明中采用了最小二乘法来减少训练中的不稳定。对抗损失包括内容对抗损失和属性对抗损失。对于两个内容编码器（

、

）和内容判别器D _C，内容对抗损失的表达如下所示，

和

表示计算中括号项中的数学期望：

内容判别器D _C用于判断两个域中的内容编码特征是否一致。因为本方法认为两个域中的图片仅仅是风格不同，在内容上（都包含花、鸟）的特征应该是相同的，所以它们在内容的表达上应该可以被编码到共同的隐向量空间。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于注意力机制的解耦表达国画生成方法，其特征在于：所述国画生成方法包括：

和属性编码

，以及得到y _f的内容编码

和属性编码

；

和

，将重建图像

和

和

，将交叉循环一致重建图像

和

2.根据权利要求1所述的一种基于注意力机制的解耦表达国画生成方法，其特征在于：所述将样本x和y分别输入注意力感知网络中得到x _f的内容编码

和属性编码

，以及到y _f的内容编码

和属性编码

包括：

把图x _f馈送入图像域X的属性编码器

和内容编码器

，得到x _f的属性编码

和内容编码

，把图y _f馈送入图像域Y的属性编码器

和内容编码器

，得到y _f的内容编码

和属性编码

。

3.根据权利要求1所述的一种基于注意力机制的解耦表达国画生成方法，其特征在于：所述得到X域和Y域的图像，并融合背景图得到最终图像包括：将

和

融合馈送到X域的生成器G _X以生成X域的前景图像

，将

和

也可以通过Y域的生成器G _Y生成Y域的前景图像

4.根据权利要求3所述的一种基于注意力机制的解耦表达国画生成方法，其特征在于：所述通过判别器对生成的图像x ^’和y ^’进行判断以及内容编码进行判断包括：通过域判别器D _X和D _Y判断生成的最终图像x ^’和y ^’是否属于图像域X和图像域Y，通过内容判别器D _C将接收的

和

两个内容编码以判断其是否属于同一分布。

5.根据权利要求1-4中任意一项所述的一种基于注意力机制的解耦表达国画生成方法，其特征在于：所述基于注意力机制的解耦表达生成对抗模型包括由注意力模块、四个编码器、两个生成器和三个判别器；所述注意力模块由两个注意力网络组成，分别负责对图像域X和图像域Y的注意力图翻译；所述编码器用于得到图像域X和图像域Y的内容编码和属性编码；所述生成器用于对送入编码进行融合得到相应的图像；所述判别器用于对生成的图像x ^’和y ^’进行判断以及内容编码进行判断。