CN110335212B

CN110335212B - 基于条件对抗网络的缺损古籍汉字修复方法

Info

Publication number: CN110335212B
Application number: CN201910571713.6A
Authority: CN
Inventors: 张九龙; 郭铭涛; 屈晓娥
Original assignee: Xian University of Technology
Current assignee: Shaanxi Jida Chengde Wisdom Education Technology Co ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-01-15
Anticipated expiration: 2039-06-28
Also published as: CN110335212A

Abstract

本发明公开了一种基于条件对抗网络的缺损古籍汉字修复方法，首先建立n个文件夹，分别对应n个不同的手写汉字图像，每个文件夹内分别放入m个汉字图像，最终得到n*m张图片，作为手写汉字数据集；然后将得到的手写汉字图像数据进行训练，通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重；最后将待处理的缺损手写汉字图像数据样本带入更新的辨别器和生成器中进行迭代，得到修复后的手写汉字图像。本发明解决了现有技术中存在的大量破损的古籍文献中损毁字体的修复困难的问题。

Description

基于条件对抗网络的缺损古籍汉字修复方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于条件对抗网络的缺损古籍汉字修复方法。

背景技术

图像作为一个信息的载体，在文化传承中具有举足轻重的意义。目前很多的古籍文献由于受到不同温度、湿度和气候的影响均受到了不同程度的破坏，其中至关重要的部分就是文献中的汉字，承载着中华优秀的文明。令人惋惜的是有些汉字损毁严重，虽然能够靠人力根据上下文推断来修复，但是古籍文献数量众多，单靠人力来修复的成本和时间难以估量。因此，通过计算机技术替代人力来修复汉字图像是十分有必要的。

鉴于以上种种原因，如何精确地修复缺损汉字，同时又不破坏上下文语义信息，成为当下急需解决的一个问题。

发明内容

本发明的目的是提供一种基于条件对抗网络的缺损古籍汉字修复方法，解决了现有技术中存在的大量破损的古籍文献中损毁字体的修复困难的问题。

本发明所采用的技术方案是，基于条件对抗网络的缺损古籍汉字修复方法，具体按照以下步骤实施：

步骤1、建立n个文件夹，分别对应n个不同的手写汉字图像，每个文件夹内分别放入m个汉字图像，最终得到n*m张图片，作为手写汉字数据集；

步骤2、将步骤1中得到的手写汉字图像数据进行训练，通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重；

步骤3、将待处理的缺损手写汉字图像数据样本带入经步骤2更新的辨别器和生成器中进行迭代，得到修复后的手写汉字图像。

本发明的特点还在于，

步骤2具体按照以下步骤实施：

步骤2.1、随机从均值为μ，标准差为σ的高斯分布中取k维的向量z，同时在n个文件夹内随机选取其中一个文件夹内的某个图像，一个文件夹对应一个标签y，将向量z和标签y同时输入生成器G网络，随后输出标签y对应的汉字图像，该输入对应的生成结果fake_img＝G(z，y)；首先向量z先经过一个神经元个数为512×4×4的全连接层FC，然后分别经过四个生成器的残差模块G_ResBlock，四个残差模块的神经元个数分别为512，256，128和64，同时标签y也输入到上述四个残差模块中，把第四个残差模块的输出作为批量归一化层BN的输入，修正线性激活单元ReLU和卷积层Conv，最后将卷积层的输出作为Tanh激活函数的输入，经过激活函数后的所得即为生成的汉字图像；

步骤2.2、将步骤2.1得到的图像fake_img＝G(z，y)和取自文件夹内的汉字图像x，分别输入辨别器网络D，输出概率值D(x)和D(fake_img)，对抗网络损失函数如下：

其中，

表示x，y服从P_data真实数据概率分布的期望；

表示z服从p_z分布，y服从P_data真实数据概率分布的期望；

步骤2.3、公式(1)分解为：

其中，D(x，y)D(X)表示真实图像和该图像对应的标签输入辨别器后的输出值，D(x，y)表示该图像对是否为真的概率；D(G(z，y)，y)表示标签y对应的生成图像输入辨别器后的输出值，D(G(z，y)，y)表示该生成图像是否为真的概率，

表示生成器的损失函数，

表示辨别器的损失函数，w和θ分别表示为辨别器网络D的权重和生成器网络G的权重；

步骤2.4、计算步骤2.3中生成器的损失和辨别器的损失，使用Adam梯度下降方法依次更新辨别器网络权重

和生成器网络的权重

其中α表示梯度下降的学习率，α＝0.0002，当D(x，y)≈D(G(z，y)，y)，则G(z，y)～P_data，表示生成图像越来越接近于真实图像，即认为生成器G能够生成任意手写汉字图像，即训练完成。

步骤2.1具体为：取自高斯分布的k维随机向量z，先经过一个全连接层FC，然后将全连接层FC的输出结果重塑为512×4×4张量形状，然后经过4个生成器残差模块，生成器残差模块的输入经过两个路径，首先第一条路径先经过条件批量归一化CBN、ReLU激活函数、上采样层UP、卷积核大小为3×3的卷积层Conv，然后再经过条件批量归一化CBN、ReLU激活函数、卷积核大小为3×3的卷积层Conv后输出，同时标签y输入到条件批量归一化CBN中，第二条路径先经过一个上采样层，然后经过一个卷积核大小为3×3的卷积层Conv后输出，最终将两条路径的输出相加即为最终所得，然后将最终所得经过批量归一化BN、非线性激活函数ReLU和卷积核大小为3×3的卷积层，最后经过Tanh激活函数，输出手写汉字图像fake_img＝G(z，y)。

步骤2.1中的生成器网络结构图中：

G_ResBlock，512，256，128，64表示生成器残差模块，该模块输出特征图个数为512，256，128，64个；ReLU表示一个非线性激活函数；BN表示批量归一化操作；Conv表示卷积核为3×3的卷积操作；Tanh表示激活函数；y表示某个字的标签，输入每个生成器的残差模块中。

步骤2.1中的生成器网络结构图中：

CBN表示条件批量归一化，在批量归一化的基础上通过条件y指定生成器的生成；ReLU表示非线性激活函数；Up表示最近邻插值的上采样操作；Conv3×3表示卷积核大小为3×3的卷积操作。

步骤2.2中辨别器网络D具体为：生成图像fake_img或者取自文件夹的汉字图像x先后经过五个辨别器的残差模块D_ResBlock，五个残差模块的神经元个数分别为64，128，256，512和512，接着依次输入到修正线性激活单元ReLU、全局池化层Globalpooling和全连接层FC，同时标签y通过嵌入操作Embed，再经过内积Inner_product后输出，最终将内积Inner_product的输出和全连接层FC的输出相加即为所得，标签y经过嵌入Embed和内积Inner_product后输出与全连接层FC的输出相加得到一个概率值，表示该输入的图像为真的概率。

步骤2.2的辨别器网络D中：D_ResBlock，64，128，256，512，512表示辨别器残差模块，该模块输出特征图个数为64，128，256，512，512个；ReLU表示非线性激活函数；Globalpooling表示全局池化操作；FC表示全连接层；Embed表示将标签y转换成one_hot类型的向量；Inner_product表示Embed后的向量与一个内部随机初始化的矩阵相乘得到一个向量，然后向量内的元素求和。

D_ResBlock模块中输入经过两个路径，首先第一条路径先经过ReLU激活函数，然后再经过卷积核大小为3×3的卷积层Conv和ReLU激活函数，然后二次经过卷积核大小为3×3的卷积层Conv后经过下采样层Down，第二条路径先经过卷积核大小为3×3的卷积层Con，然后经过下采样层Down后输出，最终将两条路径的输出相加即为最终所得，ReLU表示一个非线性激活函数；Down表示最大池化下采样操作；Conv3×3表示卷积核大小为3×3的卷积操作。

步骤3具体按照以下步骤实施：

步骤3.1、将汉字的缺损部分标记为黑色，其余部分标记为白色，得到黑白图掩码mask；

步骤3.2，将步骤2训练得到的生成器G和辨别器D的权重重新初始化生成器G和辨别器D，将步骤3.1得到的黑白图掩码mask加入公式(4)，通过Adam梯度下降方法更新z变量Adam(z，Loss_z，α)，其中α表示梯度下降的学习率，此时令α＝0.1，

Loss_z＝||(G(z，y)-img).*mask||₂ (4)

其中，G(z，y)表示随机生成的汉字图像，img表示缺损的汉字图像，mask为步骤3.1中得到的黑白图掩码，运算符.*表示像素之间的点乘；

步骤3.3，将步骤3.2训练得到的生成器G和辨别器D的权重初始化生成器G和辨别器D，将步骤3.1得到的黑白图掩码mask加入公式(4)，通过Adam梯度下降方法更新z变量Adam(z，Loss_z，α)；

步骤3.4，将步骤3.3训练得到的z变量输入生成器G，得到生成图像G(z，y)，通过黑白图掩码mask将缺损位置从生成图像G(z，y)中取出，填入缺损图像img，即修复完成，如公式(5)所示：

img_complete＝G(z，y).*(1-mask)+img.*mask (5)

其中，img_complete表示修复后的手写汉字图像，G(z，y)表示生成的手写汉字图像，img表示缺损的手写汉字图像，mask表示黑白掩码图，运算符.*表示像素之间的点乘。

最终训练完后，能够得到一张修复后的字体图像。

本发明的有益效果是，本发明缺损古籍汉字修复方法主要是基于生成式对抗网络通过与大量手写汉字进行训练和图像生成，能够生成任意的手写汉字图像，并修复汉字的缺损部分；能够为大量破损古籍文献做一个自动修复，最大限度地摆脱人力修复，降低成本；本发明对于文献由于历史原因所造成的文字部分的缺损、破坏，能够有效地修复字体，对于数字化平台展览提供一个修复的操作；而且对于中国汉字书法的研究提供了一个很好的预处理操作，具有很高的使用价值。

附图说明

图1是本发明基于条件对抗网络的缺损古籍汉字修复方法中训练数据的流程图；

图2是本发明基于条件对抗网络的缺损古籍汉字修复方法中生成器网络结构内残差模块(G_ResBlock)结构图；

图3是本发明基于条件对抗网络的缺损古籍汉字修复方法中生成器网络结构图；

图4是本发明基于条件对抗网络的缺损古籍汉字修复方法中辨别器网络结构内残差模块(D_ResBlock)结构图；

图5是本发明基于条件对抗网络的缺损古籍汉字修复方法中辨别器网络结构图；

图6是本发明基于条件对抗网络的缺损古籍汉字修复方法的实施例修复图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于条件对抗网络的缺损古籍汉字修复方法，具体按照以下步骤实施：

步骤2、将步骤1中得到的手写汉字图像数据进行训练，通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重，如图1所示为训练的框架过程图，具体按照以下步骤实施：

步骤2.1、随机从均值为μ，标准差为σ的高斯分布中取k维的向量z，同时在n个文件夹内随机选取其中一个文件夹内的某个图像，一个文件夹对应一个标签y，将向量z和标签y同时输入生成器G网络，随后输出标签y对应的汉字图像，该输入对应的生成结果fake_img＝G(z，y，如图3所示，首先向量z先经过一个神经元个数为512×4×4的全连接层FC，然后分别经过四个生成器的残差模块G_ResBlock，四个残差模块的神经元个数分别为512，256，128和64，同时标签y也输入到上述四个残差模块中，把第四个残差模块的输出作为批量归一化层BN的输入，修正线性激活单元ReLU和卷积层Conv，最后将卷积层的输出作为Tanh激活函数的输入，经过激活函数后的所得即为生成的汉字图像；

其中，

表示x，y服从P_data真实数据概率分布的期望；

表示z服从p_z分布，y服从P_data真实数据概率分布的期望；

该损失函数包含两个操作，对于辨别器，其目的是要正确区分真伪，即区分真实数据x和生成数据G(z,y)，即要使得D(x，y)越大、让D(G(z,y),y)越小，此时损失函数值往变大的趋势发展，即表示为max。

然后对于生成器，其目的是要让辨别器区分不出它生成的样本与真实样本的区别，即要使得D(G(z,y),y)越大越好，此时损失函数的往变小的趋势发展，即表示为min。

步骤2.3、公式(1)分解为：

表示生成器的损失函数，

不同于对抗网络损失函数定义，对于辨别器的损失函数添加了一个负号，目的是为了统一两个损失函数均为求最小值，能够用梯度下降同时解决。

和生成器网络的权重

步骤2.1具体为：取自高斯分布的k维随机向量z，先经过一个全连接层FC，然后将全连接层FC的输出结果重塑为512×4×4张量形状，然后经过4个生成器残差模块，如图2所示，生成器残差模块的输入经过两个路径，首先第一条路径先经过条件批量归一化CBN、ReLU激活函数、上采样层UP、卷积核大小为3×3的卷积层Conv，然后再经过条件批量归一化CBN、ReLU激活函数、卷积核大小为3×3的卷积层Conv后输出，同时标签y输入到条件批量归一化CBN中，第二条路径先经过一个上采样层，然后经过一个卷积核大小为3×3的卷积层Conv后输出，最终将两条路径的输出相加即为最终所得，然后将最终所得经过批量归一化BN、非线性激活函数ReLU和卷积核大小为3×3的卷积层，最后经过Tanh激活函数，输出手写汉字图像fake_img＝G(z，y)。

步骤2.1中的生成器网络结构图中：

如图3所示，G_ResBlock，512，256，128，64表示生成器残差模块，该模块输出特征图个数为512，256，128，64个；ReLU表示一个非线性激活函数；BN表示批量归一化操作；Conv表示卷积核为3×3的卷积操作；Tanh表示激活函数；y表示某个字的标签，输入每个生成器的残差模块中。

步骤2.1中的生成器网络结构图中：

步骤2.2中辨别器网络D具体为：生成图像fake_img或者取自文件夹的汉字图像x先后经过五个辨别器的残差模块D_ResBlock，如图5所示，五个残差模块的神经元个数分别为64，128，256，512和512，接着依次输入到修正线性激活单元ReLU、全局池化层Globalpooling和全连接层FC，同时标签y通过嵌入操作Embed，再经过内积Inner_product后输出，最终将内积Inner_product的输出和全连接层FC的输出相加即为所得，标签y经过嵌入Embed和内积Inner_product后输出与全连接层FC的输出相加得到一个概率值，表示该输入的图像为真的概率。

如图5所示，步骤2.2的辨别器网络D中：

D_ResBlock，64，128，256，512，512表示辨别器残差模块，该模块输出特征图个数为64，128，256，512，512个；ReLU表示非线性激活函数；Global pooling表示全局池化操作；FC表示全连接层；Embed表示将标签y转换成one_hot类型的向量；Inner_product表示Embed后的向量与一个内部随机初始化的矩阵相乘得到一个向量，然后向量内的元素求和。

如图4所示，D_ResBlock模块中输入经过两个路径，首先第一条路径先经过ReLU激活函数，然后再经过卷积核大小为3×3的卷积层Conv和ReLU激活函数，然后二次经过卷积核大小为3×3的卷积层Conv后经过下采样层Down，第二条路径先经过卷积核大小为3×3的卷积层Con，然后经过下采样层Down后输出，最终将两条路径的输出相加即为最终所得，ReLU表示一个非线性激活函数；Down表示最大池化下采样操作；Conv3×3表示卷积核大小为3×3的卷积操作。

步骤3、将待处理的缺损手写汉字图像数据样本带入经步骤2更新的辨别器和生成器中进行迭代，得到修复后的手写汉字图像，具体按照以下步骤实施：

Loss_z＝||(G(z，y)-img).*mask||₂ (4)

img_complete＝G(z，y).*(1-mask)+img.*mask (5)

最终训练完后，能够得到一张修复后的字体图像。如图6所示是缺损图像经过步骤3后的修复后的图像。

本发明基于条件对抗网络的缺损古籍汉字修复方法，对于文献由于历史原因和数字化操作不当所造成的汉字缺损，能够有效地修复缺损区域，对于大规模的古籍文献资料修复具有很高的使用价值。

Claims

1.基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，具体按照以下步骤实施：

所述步骤2具体按照以下步骤实施：

步骤2.1、随机从均值为μ，标准差为σ的高斯分布中取k维的向量z，同时在n个文件夹内随机选取其中一个文件夹内的某个图像，一个文件夹对应一个标签y，将向量z和标签y同时输入生成器G网络，随后输出标签y对应的汉字图像，输入对应的生成结果fake_img＝G(z,y)；首先向量z先经过一个神经元个数为512×4×4的全连接层FC，然后分别经过四个生成器的残差模块G_ResBlock，四个残差模块的神经元个数分别为512，256，128和64，同时标签y也输入到上述四个残差模块中，把第四个残差模块的输出作为批量归一化层BN的输入，修正线性激活函数ReLU和卷积层Conv，最后将卷积层的输出作为Tanh激活函数的输入，经过激活函数后的所得即为生成的汉字图像；

步骤2.2、将步骤2.1得到的图像fake_img＝G(z,y)和取自文件夹内的汉字图像x，分别输入辨别器网络D，输出概率值D(x)和D(fake_img)，对抗网络损失函数如下：

其中，

表示x,y服从P_data真实数据概率分布的期望；

表示z服从p_z分布，y服从P_data真实数据概率分布的期望；

步骤2.3、公式(1)分解为：

其中，D(x,y)D(X)表示真实图像和该图像对应的标签输入辨别器后的输出值，D(x,y)表示该图像对是否为真的概率；D(G(z,y),y)表示标签y对应的生成图像输入辨别器后的输出值，

表示生成器的损失函数，

和生成器网络的权重

其中α表示梯度下降的学习率，α＝0.0002，当D(x,y)≈D(G(z,y),y)，则G(z,y)～P_data，表示生成图像越来越接近于真实图像，即认为生成器G能够生成任意手写汉字图像，即训练完成；

2.根据权利要求1所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述步骤2.1具体为：取自高斯分布的k维随机向量z，先经过一个全连接层FC，然后将全连接层FC的输出结果重塑为512×4×4张量形状，然后经过4个生成器残差模块，生成器残差模块的输入经过两个路径，首先第一条路径先经过条件批量归一化CBN、ReLU激活函数、上采样层UP、卷积核大小为3×3的卷积层Conv，然后再经过条件批量归一化CBN、ReLU激活函数、卷积核大小为3×3的卷积层Conv后输出，同时标签y输入到条件批量归一化CBN中，第二条路径先经过一个上采样层，然后经过一个卷积核大小为3×3的卷积层Conv后输出，最终将两条路径的输出相加即为最终所得，然后将最终所得经过批量归一化层BN、激活函数ReLU和卷积核大小为3×3的卷积层，最后经过Tanh激活函数，输出图像fake_img＝G(z,y)。

3.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述步骤2.1中：

G_ResBlock表示生成器残差模块，该模块输出特征图个数为512,256,128,64个；ReLU表示激活函数；BN表示批量归一化层；Conv表示卷积核为3×3的卷积层；Tanh表示激活函数；y表示某个字的标签，输入每个生成器的残差模块中。

4.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述CBN表示条件批量归一化，在批量归一化的基础上通过标签y指定生成器的生成；ReLU表示激活函数；Up表示最近邻插值的上采样层；Conv 3×3表示卷积核大小为3×3的卷积层。

5.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述步骤2.2中辨别器网络D具体为：图像fake_img或者取自文件夹的汉字图像x先后经过五个辨别器的残差模块D_ResBlock，五个残差模块的神经元个数分别为64，128，256，512和512，接着依次输入到激活函数ReLU、全局池化层Globalpooling和全连接层FC，同时标签y通过嵌入操作Embed，再经过内积Inner_product后输出，最终将内积Inner_product的输出和全连接层FC的输出相加即为所得，标签y经过嵌入Embed和内积Inner_product后输出与全连接层FC的输出相加得到一个概率值，表示该输入的图像为真的概率。

6.根据权利要求5所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述步骤2.2的辨别器网络D中：

D_ResBlock表示辨别器残差模块，该模块输出特征图个数为64,128,256,512,512个；ReLU表示激活函数；Globalpooling表示全局池化操作；FC表示全连接层；Embed表示将标签y转换成one_hot类型的向量；Inner_product表示Embed后的向量与一个内部随机初始化的矩阵相乘得到一个向量，然后向量内的元素求和。

7.根据权利要求6所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述D_ResBlock模块中输入经过两个路径，首先第一条路径先经过ReLU激活函数，然后再经过卷积核大小为3×3的卷积层Conv和ReLU激活函数，然后二次经过卷积核大小为3×3的卷积层Conv后经过下采样层Down，第二条路径先经过卷积核大小为3×3的卷积层Con，然后经过下采样层Down后输出，最终将两条路径的输出相加即为最终所得，ReLU表示一个激活函数；Down表示最大池化下采样层；Conv 3×3表示卷积核大小为3×3的卷积层。

8.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法，其特征在于，所述步骤3具体按照以下步骤实施：

步骤3.2，将步骤2训练得到的生成器G和辨别器D的权重重新初始化生成器G和辨别器D，将步骤3.1得到的黑白图掩码mask加入公式(4)，通过Adam梯度下降方法更新z向量Adam(z,Loss_z,α)，其中α表示梯度下降的学习率，此时令α＝0.1，

Loss_z＝||(G(z,y)-img).*mask||₂ (4)

其中，G(z,y)表示随机生成的汉字图像，img表示缺损的汉字图像，mask为步骤3.1中得到的黑白图掩码，运算符.*表示像素之间的点乘；

步骤3.3，将步骤3.2训练得到的生成器G和辨别器D的权重初始化生成器G和辨别器D，将步骤3.1得到的黑白图掩码mask加入公式(4)，通过Adam梯度下降方法更新z变量Adam(z,Loss_z,α)；

步骤3.4，将步骤3.3训练得到的z变量输入生成器G，得到生成图像G(z,y)，通过黑白图掩码mask将缺损位置从生成图像G(z,y)中取出，填入缺损图像img，即修复完成，如公式(5)所示：

img_complete＝G(z,y).*(1-mask)+img.*mask (5)

其中，img_complete表示修复后的手写汉字图像，G(z,y)表示生成的手写汉字图像，img表示缺损的手写汉字图像，mask表示黑白掩码图，运算符.*表示像素之间的点乘，最终训练完后，能够得到一张修复后的字体图像。