CN110097615B

CN110097615B - 一种联合风格化和去风格化的艺术字编辑方法和系统

Info

Publication number: CN110097615B
Application number: CN201811487971.8A
Authority: CN
Inventors: 刘家瑛; 杨帅; 汪文靖; 郭宗明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2021-01-19
Anticipated expiration: 2038-12-06
Also published as: CN110097615A

Abstract

本发明为一种联合风格化和去风格化的艺术字编辑方法和系统，属于图像纹理合成技术领域。该方法的步骤包括：构造字形编码器，字形解码器，字效编码器，字效解码器，字形判别器和字效判别器，组成联合网络结构。在训练阶段，对网络从字形编解码，艺术字图片去风格化和文字图片风格化三个方面进行训练。在测试阶段，网络可以完成三个任务：去风格化，即输入艺术字图片，得到对应的文字图片；风格化，即输入参考艺术字图片和目标文字图片，得到对应的艺术字图片；风格创造：使用字效编码器对多种参考字效编码，对编码结果进行加权平均，解码后得到全新的字效。本发明通过联合考虑字形编解码、风格化和去风格化，能够生成高质量的艺术字图片。

Description

一种联合风格化和去风格化的艺术字编辑方法和系统

技术领域

本发明属于图像纹理合成技术领域，涉及一种联合风格化和去风格化的艺术字编辑方法和系统。

背景技术

艺术字在海报、杂志封面、广告设计等平面设计中广泛使用，然而艺术字的人工设计与编辑过程繁琐，需要一定的技术。全自动艺术字编辑方法具有巨大的商用价值。

艺术字合成的关键技术为纹理合成，将代表字效风格的纹理信息添加到目标字形上。尽管纹理合成被广泛使用，但是缺乏适用于艺术字生成的方法。基于统计的纹理合成方法，将纹理描述为全局统计量，不适合用来合成具有鲜明结构的艺术字纹理；而基于局部块的纹理合成方法，无法保证全局纹理的分布。

发明内容

针对上述问题，本发明提出一种联合风格化和去风格化的艺术字编辑方法和系统。本发明设计网络结构根据艺术字数据自动学习字效和字形的表示，同时考虑字形编解码，艺术字图片去风格化和文字图片风格化三个方面，使得提取的字效和字形表示更加准确，使得生成的艺术字具有更好的主观视觉质量，除此之外，同时还能完成去风格化和艺术字创造的编辑的功能。

为实现以上目的，本发明采用的技术方案如下：

一种联合风格化和去风格化的艺术字编辑方法，包括以下步骤：

1)构建字形编码器、字形解码器、字效编码器、字效解码器、字形判别器和字效判别器，组成联合网络结构；

2)从艺术字数据集中采样图片；

3)利用采样的图片，对所述联合网络结构从字形编解码、艺术字图片去风格化和文字图片风格化三个方面进行训练，直到达到最大迭代次数；

4)利用训练好的网络结构，根据输入进行艺术字编辑。

进一步地，步骤1)包括：

1.1)对文字图片集合X和艺术字图片集合Y构造字形编码器E_X和

分别将文字图片和艺术字图片编码到高维的字形特征空间；

1.2)构造字效编码器

将艺术字图片编码到高维的字效特征空间；

1.3)构造字形解码器G_X，将字形特征解码为文字图片；

1.4)构造字效解码器G_Y，将字形特征和字效特征融合并解码为艺术字图片；

1.5)构造字形判别器D_X，判别文字图片的真假；

1.6)构造字效判别器D_Y，判别艺术字图片的真假；

1.7)将构造的编码器、解码器和判别器组成联合网络结构，其中E_X和

的最后若干层共享相同的结构和参数，G_X和G_Y的最前若干层共享相同的结构和参数，G_X连接E_X和

的参数共享层，E_X和

的输出结果串联，然后与G_Y连接，D_X连接G_X，D_Y连接G_Y。

进一步地，步骤4)所述艺术字编辑包括文字图片风格化、艺术字图片去风格化、艺术字创造中的至少一种；

所述艺术字图片去风格化为：输入任意艺术字图片y，经过

和G_X，得到去除字效风格的文字图片

所述文字图片风格化为：输入任意参考艺术字图片y’和目标文字x，经过E_X，

和G_Y，得到为x添加y’风格的艺术字图片

所述艺术字创造为：输入任意不同字效的艺术字图片y₁,y₂,…,y_K和目标文字x，经过

得到不同字效特征，加权平均后，与E_X编码的字形特征串联，经过G_Y得到全新风格的艺术字图片

其中w_i是风格y_i的权重，由用户指定。

与上面方法对应地，本发明还提供一种联合风格化和去风格化的艺术字编辑系统，包括：

网络结构构建模块，负责构建字形编码器、字形解码器、字效编码器、字效解码器、字形判别器和字效判别器，组成联合网络结构；

采样模块，负责从艺术字数据集中采样图片；

训练模块，负责利用采样的图片，对所述联合网络结构从字形编解码，艺术字图片去风格化和文字图片风格化三个方面进行训练，直到达到最大迭代次数；

艺术字编辑模块，负责利用训练好的网络结构，根据输入进行艺术字编辑。所述艺术字编辑包括文字图片风格化、艺术字图片去风格化和艺术字创造中的至少一种。

本发明的有益效果如下：

本发明提出了一种联合风格化和去风格化的艺术字编辑方法和系统，能够根据艺术字数据自动学习字效和字形的表示，不但能够保证局部纹理细节，也能保证全局纹理分布，使得生成的艺术字具有更好的主观视觉质量，除此之外，同时还能完成去风格化和艺术字创造的编辑的功能。本发明通过联合考虑字形编解码，风格化和去风格化，让网络学习提取艺术字图片中的字形特征和字效特征，并组合两个特征，能够生成高质量的艺术字图片。

附图说明

图1为本发明的网络结构图，其中(a)为整体的网络结构图，(b)为字形编解码部分的网络结构，(c)为艺术字图片去风格化部分的网络结构，(d)为文字图片风格化部分的网络结构。

图2为本发明的方法的流程图。

图3A至图3C为通过本发明方法生成的艺术字结果，其中图3A为艺术字去风格化，图3B为艺术字生成，图3C为艺术字创造。

具体实施方式

下面对本发明的详细方法流程作进一步地描述。

步骤1：构建字形编码器，字形解码器，字效编码器，字效解码器，字形判别器和字效判别器，组成联合网络结构。

对于文字图片集合X和艺术字图片集合Y，构造字形编码器E_X和

分别将文字图片和艺术字图片编码到高维的字形特征空间；

构造字效编码器

将艺术字图片编码到高维的字效特征空间；

构造字形解码器G_X，将字形特征解码为文字图片；

构造字效解码器G_Y，将字形特征和字效特征融合并解码为艺术字图片；

构造字形判别器D_X，判别文字图片的真假；

构造字效判别器D_Y，判别艺术字图片的真假。

本实施例中，上述编码器采用现有的U-Net网络中的编码器结构，将一张图片通过卷积网络映射到一个高维向量。上述解码器采用现有的U-Net网络中的解码器结构，将一个高维向量用过卷积网络映射回一张图片。上述判别器采用现有的PatchGAN网络中的判别器结构，对图像中的每个部分通过卷积网络映射到一个数值，表示图片的真实程度。

将这些部件组合成如图1中(a)图所示的网络结构，其中E_X和

的参数共享层，E_X和

的输出结果串联，然后与G_Y连接，D_X连接G_X，D_Y连接G_Y。

步骤2：从艺术字图片集合Y中采样艺术字图片y，及其对应的不添加字效的文字图片x，同时采样与y具有相同字效但不同字形的艺术字图片y’。

步骤3：训练网络进行字形编解码。如图1中(b)图所示，E_X和G_X构成自编码器，将文字图片x编码为字形特征再解码回原始的文字图片，损失函数为：

L_rec＝||G_X(E_X(x))-x||₁

其中，‖‖₁表示L1范数，计算两张图片对应像素差异的绝对值之和。根据该损失函数，采用梯度下降法进行E_X和G_X参数的更新。

步骤4：训练网络进行艺术字图片去风格化。如图1中(c)图所示，

和G_X构成去风格化网络，将艺术字图片y编码为字形特征再解码回其对应的文字图片，损失函数为：

此外要求编码的字形特征与字形编码器E_X的编码结果一致，损失函数为：

最后，加入对抗损失，判别器D_X判断输入图片的真假，G_X生成的结果要让D_X判断为真。对抗损失可以为任意现有的定义方式(如LSGAN，WGAN，WGAN-GP)，下给出一例：

总的损失函数为：

L_desty＝λ₁L_dpix+λ₂L_dfeat+λ₃L_dadv

其中，λ₁，λ₂和λ₃是权重，由实验确定，一般λ₁＝1，λ₂＝1和λ₃＝0.01。根据该损失函数，采用梯度下降法进行

G_X和D_X参数的更新。

步骤5：训练网络进行文字图片风格化。如图1中(d)图所示，E_X，

和G_Y构成风格化网络，提取x的字形特征和y’的字效特征，串联起来后，解码为对应的艺术字图片，损失函数为：

最后，加入对抗损失，判别器D_Y判断输入图片的真假，G_Y生成的结果要让D_Y判断为真。对抗损失可以为任意现有的定义方式(如LSGAN，WGAN，WGAN-GP)，下给出一例：

总的损失函数为：

L_sty＝λ₄L_spix+λ₅L_sadv

其中，λ₄和λ₅是权重，由实验确定，一般λ₄＝1和λ₅＝0.01。根据该损失函数，采用梯度下降法进行E_X，

G_Y和D_Y参数的更新。

步骤6：重复步骤2到步骤5，直到达到最大迭代次数。最大迭代次数是指一个人为设定的数值，通过实验来确定，本实施例中，最大迭代次数为160,000。

步骤7：对于训练好的网络，根据输入进行如下艺术字编辑：

步骤7.1：艺术字去风格化，如图3A所示，输入任意艺术字图片y，经过

和G_X，得到去除字效风格的文字图片

)。

步骤7.2：艺术字生成(文字图片风格化)，如图3B所示，输入任意参考艺术字图片y’和目标文字x，经过E_X，

和G_Y，得到为x添加y’风格的艺术字图片

步骤7.3：艺术字创造，输入任意不同字效的艺术字图片y₁,y₂,…,y_K和目标文字x，经过

其中w_i是风格y_i的权重，由用户指定。图3C示意了K＝2时，通过本发明方法生成的艺术字结果。

上述网络结构中，编码器不局限于U-Net，可以是任意将图片映射到高维向量的网络结构；解码器不限于U-Net，可以是任意将高维向量映射到图片的网络结构；判别器不限于PatchGAN，可以是任意的分类网络结构；上述网络训练过程步骤3步骤4步骤5可以任意调整顺序。

本发明另一实施例提供一种联合风格化和去风格化的艺术字编辑系统，包括：

采样模块，负责从艺术字数据集中采样图片；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种联合风格化和去风格化的艺术字编辑方法，其特征在于，包括以下步骤：

2)从艺术字数据集中采样图片；

4)利用训练好的网络结构，根据输入进行艺术字编辑；

其中，步骤1)包括：

1.1)对文字图片集合X和艺术字图片集合Y构造字形编码器E_X和

分别将文字图片和艺术字图片编码到高维的字形特征空间；

1.2)构造字效编码器

将艺术字图片编码到高维的字效特征空间；

1.3)构造字形解码器G_X，将字形特征解码为文字图片；

1.5)构造字形判别器D_X，判别文字图片的真假；

1.6)构造字效判别器D_Y，判别艺术字图片的真假；

的参数共享层，E_X和

的输出结果串联，然后与G_Y连接，D_X连接G_X，D_Y连接G_Y；

其中，步骤3)训练所述联合网络结构进行字形编解码时，E_X和G_X构成自编码器，将文字图片x编码为字形特征再解码回原始的文字图片，损失函数为：

L_rec＝||G_X(E_X(x))-x||₁

其中，‖‖₁表示L1范数，计算两张图片对应像素差异的绝对值之和；根据该损失函数，采用梯度下降法进行E_X和G_X参数的更新；

步骤3)训练所述联合网络结构进行艺术字图片去风格化时，

并且，要求编码的字形特征与字形编码器E_X的编码结果一致，损失函数为：

然后加入对抗损失L_dadv，判别器D_X判断输入图片的真假，G_X生成的结果让D_X判断为真；总的损失函数为：

L_desty＝λ₁L_dpix+λ₂L_dfeat+λ₃L_dadv

其中，λ₁，λ₂和λ₃是权重，由实验确定；根据该损失函数，采用梯度下降法进行

G_X和D_X参数的更新；

步骤3)训练所述联合网络结构进行文字图片风格化时，E_X，

然后加入对抗损失L_sadv，判别器D_Y判断输入图片的真假，G_Y生成的结果要让D_Y判断为真；总的损失函数为：

L_sty＝λ₄L_spix+λ₅L_sadv

其中，λ₄和λ₅是权重，由实验确定；根据该损失函数，采用梯度下降法进行E_X，

G_Y和D_Y参数的更新。

2.根据权利要求1所述的方法，其特征在于，步骤2)对于文字图片集合X和艺术字图片集合Y，从Y中采样艺术字图片y，及其对应的不添加字效的文字图片x，同时采样与y具有相同字效但不同字形的艺术字图片y’。

3.根据权利要求1或2所述的方法，其特征在于，步骤4)所述艺术字编辑包括文字图片风格化、艺术字图片去风格化、艺术字创造中的至少一种；

所述艺术字图片去风格化为：输入任意艺术字图片y，经过

和G_X，得到去除字效风格的文字图片

和G_Y，得到为x添加y’风格的艺术字图片

其中w_i是风格y_i的权重，由用户指定。

4.一种采用权利要求1～3中任一权利要求所述方法的联合风格化和去风格化的艺术字编辑系统，其特征在于，包括：

采样模块，负责从艺术字数据集中采样图片；

艺术字编辑模块，负责利用训练好的网络结构，根据输入进行艺术字编辑，包括风格化、去风格化和风格创造。

5.根据权利要求4所述的系统，其特征在于，所述艺术字编辑模块进行文字图片风格化、艺术字图片去风格化、艺术字创造中的至少一种；

所述艺术字图片去风格化为：输入任意艺术字图片y，经过

和G_X，得到去除字效风格的文字图片

和G_Y，得到为x添加y’风格的艺术字图片

其中w_i是风格y_i的权重，由用户指定。