CN116823983A

CN116823983A - 基于风格收集机制的一对多风格书法图片生成方法

Info

Publication number: CN116823983A
Application number: CN202310713460.8A
Authority: CN
Inventors: 肖云; 董智强; 常晓军; 吕昊; 王宁; 张益朦; 陈红卫; 许鹏飞; 郑霞
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-29

Abstract

本申请涉及一种基于风格收集机制的一对多风格书法图片生成方法，本申请在模型训练过程中，通过风格收集机制收集每一种字体的风格特征，构成风格编码参数集并保存；基于保存的风格编码参数集为生成对抗网络提供风格指引，帮助生成对抗网络生成与目标风格更加相似的汉字图片；与现有技术相比，模型可以同时生成多种风格字体，并且显著降低重新训练的工作量。

Description

基于风格收集机制的一对多风格书法图片生成方法

技术领域

本申请涉及计算机图像处理技术领域，具体地，涉及一种基于风格收集机制的一对多风格书法图片生成方法。

背景技术

在书法作品修复领域，目前主要采用书法图片生成算法，通过改变输入图片的纹理特征与内容特征，将一种字体图片转换为另一种字体图片。书法图片的生成是风格迁移的子领域，而风格迁移方法在近些年取得了很大的成就。例如，StarGAN实现了多对多的图像翻译，CycleGAN是第一个实现了基于非配对数据的风格迁移方法。然而，一般图像的风格迁移只能对图像做简单的纹理变换，例如将橘子变成苹果，很难做到改变图像的几何结构特征。此外，汉字书法图片不同于一般的图片，例如风景和动物的照片。生成书法图片的方法需要对图像做到更加细微精细的控制，因为略微的结构变化会导致图片中汉字意义的改变。

目前大多数的汉字生成模型都不能生成多种字体，对于每一种新字体需要重新训练模型的映射关系。这些方法都只能转换结构简单的字体风格，对于风格结构更加复杂的字体，往往会转换失败，产生不必要的噪声，并且这些模型都缺乏从集合层次对风格特征建模的能力，这会使模型学习到的目标风格不够完整。

发明内容

为了克服现有技术中的至少一个不足，本申请提供一种基于风格收集机制的一对多风格书法图片生成方法。

第一方面，提供一种一对多风格书法图片生成模型构建方法，包括：

获取源域数据集和目标域数据集，源域数据集包括多张属于同一种风格的书法图片，目标域数据包括多张属于不同种目标风格的书法图片；

构建训练模型，训练模型包括风格收集机制和生成对抗网络，风格收集机制包括VGG16神经网络和风格特征编码网络，生成对抗网络包括生成器和判别器；

基于源域数据集和目标域数据集对训练模型进行迭代训练，得到训练后的生成器，并保留最后一次迭代训练中风格收集机制输出的风格编码参数集，风格编码参数集中包括每种目标风格对应的风格编码参数；训练后的生成器，即为一对多风格书法图片生成模型，保留的风格编码参数集作为一对多风格书法图片生成模型的输入；

在训练过程中，将目标域数据集输入到风格收集机制，得到风格编码参数集，将源域数据集和风格编码参数集输入到生成对抗网络。

在一个实施例中，将目标域数据集输入到风格收集机制，得到风格编码参数集，包括：

将目标域数据集中的图片分批次输入到VGG16神经网络，得到每个图片对应的图片特征；

风格特征编码网络包括两个多层感知机，每个多层感知机包括3个依次连接的全连接层，风格特征编码网络用于将每个图片对应的图片特征映射为风格编码参数；

求属于同一种目标风格的所有批次的图片对应的风格编码参数的平均值，得到每种目标风格对应的风格编码参数，每种目标风格对应的风格编码参数构成风格编码参数集。

在一个实施例中，生成器包括图像编码器、迁移网络和图像解码器，图像编码器包括多个下采样层，迁移网络包括多个残差网络层，图像解码器包括多个上采样层；图像编码器用于提取图片的内容特征，迁移网络用于将内容特征和风格编码参数集进行融合，得到融合后的特征；图像解码器用于将融合后的特征解码为多种目标风格的书法图片。

在一个实施例中，训练过程采用的损失函数包括生成损失和判别损失/>

其中，为生成器对抗损失，/>为生成器分类损失，/>为重构损失，/>为像素级别损失，λ_cls为分类损失权重，λ_rec为重构损失权重，λ_pixel为像素级别损失权重；为判别器对抗损失，/>为判别器分类损失。

在一个实施例中，生成器对抗损失采用以下公式计算：

其中，x表示源域的书法图片，c表示目标域的目标风格标签，θ^c表示风格标签为c的风格编码参数，G表示生成器的输出，D表示判别器判别真假的输出，E表示期望；

判别器对抗损失采用以下公式计算：

其中，t表示真实的目标域的书法图片；

生成器分类损失采用以下公式计算：

其中，D_cls表示判别器的分类输出；c|G(x,c,θ^c)表示G(x,c,θ^c)的风格标签为c；

判别器分类损失采用以下公式计算：

其中，c|t表示t的风格标签为c；

重构损失采用以下公式计算：

其中，c′表示源域的风格标签；

像素级别损失，采用以下公式计算：

第二方面，提供一种基于风格收集机制的一对多风格书法图片生成方法，包括：

获取待转换书法图片；

将待转换书法图片输入到一对多风格书法图片生成模型，得到多种目标风格的书法图片；

一对多风格书法图片生成模型为根据上述的一对多风格书法图片生成模型构建方法得到的。

第三方面，提供一种一对多风格书法图片生成模型构建装置，包括：

数据集获取模块，用于获取源域数据集和目标域数据集，源域数据集包括多张属于同一种风格的书法图片，目标域数据包括多张属于不同种目标风格的书法图片；

训练模型构建模块，用于构建训练模型，训练模型包括风格收集机制和生成对抗网络，风格收集机制包括VGG16神经网络和风格特征编码网络，生成对抗网络包括生成器和判别器；

训练模块，用于基于源域数据集和目标域数据集对训练模型进行迭代训练，得到训练后的生成器，并保留最后一次迭代训练中风格收集机制输出的风格编码参数集，风格编码参数集中包括每种目标风格对应的风格编码参数；训练后的生成器，即为一对多风格书法图片生成模型，保留的风格编码参数集作为一对多风格书法图片生成模型的输入；

在训练过程中，将目标域数据集输入到风格收集机制，得到风格编码参数集，将所述源域数据集和风格编码参数集输入到生成对抗网络。

在一个实施例中，训练模块，还用于：

第四方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，以实现上述的一对多风格书法图片生成模型构建方法。

第五方面，提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，以实现上述的一对多风格书法图片生成模型构建方法。

相对于现有技术而言，本申请具有以下有益效果：本申请在模型训练过程中，通过风格收集机制收集每一种字体的风格特征，构成风格编码参数集并保存；基于保存的风格编码参数集为生成对抗网络提供风格指引，帮助生成对抗网络生成与目标风格更加相似的汉字图片；与现有技术相比，模型可以同时生成多种风格字体，并且显著降低重新训练的工作量。

附图说明

本申请可以通过参考下文中结合附图所给出的描述而得到更好的理解，附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中：

图1示出了不同风格的书法图片示意图；

图2示出了训练模型的网络结构示意图；

图3示出了采用本申请的模型生成的汉字“书”不同风格的书法图片；

图4为汉字“书”不同风格的真实书法图片；

图5示出了采用本申请的模型生成的汉字“铝”不同风格的书法图片；

图6为汉字“铝”不同风格的真实书法图片。

具体实施方式

在下文中将结合附图对本申请的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的装置结构，而省略了与本申请关系不大的其他细节。

应理解的是，本申请并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

本申请实施例提供一种一对多风格书法图片生成模型构建方法，方法包括：

步骤S11，获取源域数据集和目标域数据集，源域数据集包括多张属于同一种风格的书法图片，目标域数据包括多张属于不同种目标风格的书法图片。

这里，源域数据集中的书法图片可以为柳公权楷体，目标域数据集中的书法图片可以为榜书、魏碑文、硬笔书、青华行楷、文征明小楷和艺楷，源域数据集中的书法图片中的文字例如可以为“书”字，目标域数据集中的书法图片中的文字也是“书”字，即源域和目标域数据集中的图片存在配对关系。图1示出了不同风格的书法图片示意图。

此外，源域数据集和目标域数据集中的图片均进行了预处理，预处理可以包括对图片进行统一尺寸操作，将所有图片的长宽都设置为128×128，并将图片灰度化从三通道转换为单通道，这一操作是为了统一图片尺寸方便神经网络进行读取，以及减少通道的数量减少计算量。

将源域数据集和目标域数据集均按照8:2的比例划分为训练集和测试集，用于模型训练。

步骤S12，构建训练模型，训练模型包括风格收集机制和生成对抗网络，风格收集机制包括VGG16神经网络和风格特征编码网络，生成对抗网络包括生成器和判别器；图2示出了训练模型的网络结构示意图。

步骤S13，基于源域数据集和目标域数据集对训练模型进行迭代训练，得到训练后的生成器，并保留最后一次迭代训练中风格收集机制输出的风格编码参数集，风格编码参数集中包括每种目标风格对应的风格编码参数；训练后的生成器，即为一对多风格书法图片生成模型，保留的风格编码参数集作为一对多风格书法图片生成模型的输入。

上述实施例，在模型训练过程中，通过风格收集机制收集每一种字体的风格特征，构成风格编码参数集并保存；基于保存的风格编码参数集为生成对抗网络提供风格指引，帮助生成对抗网络生成与目标风格更加相似的汉字图片；与现有技术相比，模型可以同时生成多种风格字体，并且显著降低重新训练的工作量。

首先，将目标域数据集中的图片分批次输入到VGG16神经网络，得到每个图片对应的图片特征；这里，VGG16神经网络为基于所有数据集训练得到的预训练后的特征提取器，VGG16神经网络能够准确分类数据集图片所属的书法风格时，便说明VGG16网络已具备提取书法图片风格特征的能力。

然后，风格特征编码网络包括两个多层感知机MLP，每个多层感知机包括3个依次连接的全连接层，风格特征编码网络用于将每个图片对应的图片特征映射为风格编码参数。这里，每个多层感知机MLP的网络结构如表1所示：

表1多层感知机MLP的网络结构

第一层	第二层	第三层
			全连接层	全连接层	全连接层
BatchNorm层	BatchNorm层	BatchNorm层
			ReLU激活函数层	ReLU激活函数层	ReLU激活函数层

然后，求属于同一种目标风格的所有批次的图片对应的风格编码参数的平均值，得到每种目标风格对应的风格编码参数，每种目标风格对应的风格编码参数构成风格编码参数集Style Bank。

这里，目标域数据集中的图片分批次输入风格收集机制，针对每个批次，风格特征编码网络输出不同目标风格对应的风格编码参数，求属于同一种目标风格的所有批次的图片对应的风格编码参数的平均值，得到每种目标风格对应的风格编码参数θ^c，c表示目标域的目标风格标签。

在一个实施例中，参见图2，生成器包括图像编码器、迁移网络和图像解码器，图像编码器包括多个下采样层，迁移网络包括多个残差网络层，图像解码器包括多个上采样层；图像编码器用于提取图片的内容特征，迁移网络用于将内容特征和风格编码参数集进行融合，得到融合后的特征；图像解码器用于将融合后的特征解码为多种目标风格的书法图片。

该实施例中，图像解码器输出的多种目标风格的书法图片输入到判别器，判别器用于判别输入图片的真实性，以及对图片进行书法风格分类，判断其属于哪一种字体的风格。

具体地，图像编码器可以包括4个下采样层，迁移网络可以包括3个残差网络层，图像解码器可以包括4个上采样层，还包括一个卷积层。表2示出了下采样层的网络结构，表3示出了残差网络层的网络结构，表4示出了上采样层的网络结构。

表2下采样层结构

表3残差网络层

表4上采样层结构

具体地，判别器的网络结构如表5所示。

表5判别器的网络结构

这里，判别器的最后一层有两个输出，即判别器判别真假的输出和判别器的分类输出，输出的两个值中一个值代表输入图片的真实性，数值越接近1代表越真实，数值越接近0代表越虚假；另一个值代表输入图片的所属风格类别。

其中，为生成器对抗损失，/>为生成器分类损失，/>为重构损失，为像素级别损失，λ_cls为分类损失权重，λ_rec为重构损失权重，λ_pixel为像素级别损失权重；/>为判别器对抗损失，/>为判别器分类损失。这里，λ_cls、λ_rec、λ_pixel均大于0；/>和/>对输入的图片进行真假性判别计算图片的真实性差异值；/>和/>计算判别器对输入图片进行分类得到的类别值与真实标签之间的差异值；/>计算从目标域图片生成源域图片时，与真实源域图片之间的相似度；/>计算生成的目标域图片与真实目标域图片之间像素级别的相似度。

具体的，为了使得生成的图片与真实图片更加相似，采用生成器对抗损失和判别器对抗损失，生成器对抗损失采用以下公式计算：

其中，x表示源域的书法图片，c表示目标域的目标风格标签，θ^c表示风格标签为c的风格编码参数，G表示生成器的输出，D表示判别器判别真假的输出，E表示期望；G(x,c,θ^c)表示生成器输入为x,θ^c时的输出；D(G(x,c,θ^c))表示判别器输入为G(x,c,θ^c)时的真假的输出。

判别器对抗损失采用以下公式计算：

其中，t表示真实的目标域的书法图片；D(t)表示判别器输入为t时的判别真假的输出。

这里，生成器致力于降低数值提升/>的数值，而判别器则致力于降低的数值提升/>的数值，生成器和判别器之间如此不断博弈，最终达到收敛。

由于本实施例基于一对多生成任务，需要对生成的图片进行分类，所以引入了生成器分类损失和判别器分类损失，使得判别器不光拥有对图片判别真假的能力，还拥有对图片进行分类的能力。生成器分类损失采用以下公式计算：

其中，D_cls表示判别器的分类输出；c|G(x,c,θ^c)表示G(x,c,θ^c)的风格标签为c；D_cls(c|G(x,c,θ^c))表示判别器输入为G(x,c,θ^c)时的分类输出。

判别器分类损失采用以下公式计算：

其中，c|t表示t的风格标签为c；

为了保留更多源域书法图片的内容特征，保证生成的书法图片中字符的正确性，采用重构损失，重构损失采用以下公式计算：

其中，c′表示源域的风格标签。这里，生成器将源域的书法图片x转换为目标域的书法图片G(x,c,θ^c)，再将目标域的书法图片G(x,c,θ^c)输入生成器中，生成源域风格的图片G(G(x,c,θ^c),c′)，并衡量x与G(G(x,c,θ^c),c′)之间的差异。

为了严格约束生成图片与真实目标图片之间的差异，采用了像素级别损失，像素级别损失采用以下公式计算：

其中，G(x,c,θ^c)为生成器生成的虚假书法图片，生成器努力缩小真实图片与生成的图片之间的像素差异。

本实施例采用上述训练方法，最终得到训练后的生成器，即的一对多风格书法图片生成模型。

采用测试集对一对多风格书法图片生成模型进行测试，在测试时，将柳公权楷书书法图片作为输入，其余六种书法风格作为目标输出。所有输入图片没有在训练时使用过，输出图片均由模型独立推理生成。

图3示出了采用本申请的模型生成的不同风格的书法图片，图4为不同风格的真实书法图片，图3和图4中均有6列图片，每一列代表一种不同的书法风格，分别是榜书、魏碑文、硬笔书、青华行楷、文征明小楷和艺楷。

图5示出了采用本申请的模型生成的汉字“铝”不同风格的书法图片；图6为汉字“铝”不同风格的真实书法图片。图5和图6中均有6列图片，每一列代表一种不同的书法风格，分别是榜书、魏碑文、硬笔书、青华行楷、文征明小楷和艺楷。

根据图3～图6可以看出，本申请可以同时生成六种不同的书法风格汉字图片，并且与真实目标书法图片相似程度非常高，几乎一模一样。并且在图中用红色圆圈标出了书法图片的细节部分，可以看出本申请生成的图片在细节方面和真实图片也非常相似，说明本申请有着很强的保留书法作品细节的能力。

本申请实施例还提供一种基于风格收集机制的一对多风格书法图片生成方法，包括：

获取待转换书法图片；

将待转换书法图片输入到一对多风格书法图片生成模型，得到多种目标风格的书法图片；一对多风格书法图片生成模型为根据前文实施例中的一对多风格书法图片生成模型构建方法得到的。

基于与一对多风格书法图片生成模型构建方法相同的发明构思，本实施例还提供与之对应的一种一对多风格书法图片生成模型构建装置，包括：

本实施例的一对多风格书法图片生成模型构建装置与上文的一对多风格书法图片生成模型构建方法具有相同的发明构思，因此该装置的具体实施方式可见前文中的一对多风格书法图片生成模型构建方法的实施例部分，且其技术效果与上述方法的技术效果相对应，这里不再赘述。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，以实现上述的一对多风格书法图片生成模型构建方法。

本申请实施例提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述的一对多风格书法图片生成模型构建方法。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种一对多风格书法图片生成模型构建方法，其特征在于，包括：

获取源域数据集和目标域数据集，所述源域数据集包括多张属于同一种风格的书法图片，所述目标域数据包括多张属于不同种目标风格的书法图片；

构建训练模型，所述训练模型包括风格收集机制和生成对抗网络，所述风格收集机制包括VGG16神经网络和风格特征编码网络，所述生成对抗网络包括生成器和判别器；

基于所述源域数据集和所述目标域数据集对所述训练模型进行迭代训练，得到训练后的生成器，并保留最后一次迭代训练中所述风格收集机制输出的风格编码参数集，所述风格编码参数集中包括每种目标风格对应的风格编码参数；所述训练后的生成器，即为所述一对多风格书法图片生成模型，所述保留的风格编码参数集作为所述一对多风格书法图片生成模型的输入；

在训练过程中，将所述目标域数据集输入到所述风格收集机制，得到风格编码参数集，将所述源域数据集和所述风格编码参数集输入到所述生成对抗网络。

2.如权利要求1所述的方法，其特征在于，其中，将所述目标域数据集输入到所述风格收集机制，得到风格编码参数集，包括：

将所述目标域数据集中的图片分批次输入到所述VGG16神经网络，得到每个图片对应的图片特征；

所述风格特征编码网络包括两个多层感知机，每个多层感知机包括3个依次连接的全连接层，所述风格特征编码网络用于将每个图片对应的图片特征映射为风格编码参数；

求属于同一种目标风格的所有批次的图片对应的风格编码参数的平均值，得到每种目标风格对应的风格编码参数，所述每种目标风格对应的风格编码参数构成所述风格编码参数集。

3.如权利要求1所述的方法，其特征在于，所述生成器包括图像编码器、迁移网络和图像解码器，所述图像编码器包括多个下采样层，所述迁移网络包括多个残差网络层，所述图像解码器包括多个上采样层；所述图像编码器用于提取图片的内容特征，所述迁移网络用于将所述内容特征和所述风格编码参数集进行融合，得到融合后的特征；所述图像解码器用于将所述融合后的特征解码为多种目标风格的书法图片。

4.如权利要求1所述的方法，其特征在于，训练过程采用的损失函数包括生成损失和判别损失/>

其中，为生成器对抗损失，/>为生成器分类损失，/>为重构损失，/>为像素级别损失，λ_cls为分类损失权重，λ_rec为重构损失权重，λ_pixel为像素级别损失权重；/>为判别器对抗损失，/>为判别器分类损失。

5.如权利要求4所述的方法，其特征在于，所述生成器对抗损失采用以下公式计算：

所述判别器对抗损失采用以下公式计算：

其中，t表示真实的目标域的书法图片；

所述生成器分类损失采用以下公式计算：

所述判别器分类损失采用以下公式计算：

其中，c|t表示t的风格标签为c；

所述重构损失采用以下公式计算：

其中，c′表示源域的风格标签；

所述像素级别损失，采用以下公式计算：

6.一种基于风格收集机制的一对多风格书法图片生成方法，其特征在于，包括：

获取待转换书法图片；

将所述待转换书法图片输入到一对多风格书法图片生成模型，得到多种目标风格的书法图片；

所述一对多风格书法图片生成模型为根据权利要求1-5中任意一项所述的一对多风格书法图片生成模型构建方法得到的。

7.一种一对多风格书法图片生成模型构建装置，其特征在于，包括：

数据集获取模块，用于获取源域数据集和目标域数据集，所述源域数据集包括多张属于同一种风格的书法图片，所述目标域数据包括多张属于不同种目标风格的书法图片；

训练模型构建模块，用于构建训练模型，所述训练模型包括风格收集机制和生成对抗网络，所述风格收集机制包括VGG16神经网络和风格特征编码网络，所述生成对抗网络包括生成器和判别器；

训练模块，用于基于所述源域数据集和所述目标域数据集对所述训练模型进行迭代训练，得到训练后的生成器，并保留最后一次迭代训练中所述风格收集机制输出的风格编码参数集，所述风格编码参数集中包括每种目标风格对应的风格编码参数；所述训练后的生成器，即为所述一对多风格书法图片生成模型，所述保留的风格编码参数集作为所述一对多风格书法图片生成模型的输入；

8.如权利要求7所述的装置，其特征在于，所述训练模块，还用于：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，以实现权利要求1-5任意一项所述的一对多风格书法图片生成模型构建方法。

10.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时，以实现权利要求1-5任意一项所述的一对多风格书法图片生成模型构建方法。