CN114742714A

CN114742714A - 一种基于骨架提取及对抗学习的汉字图像修复算法

Info

Publication number: CN114742714A
Application number: CN202111267383.5A
Authority: CN
Inventors: 潘刚; 潘香羽; 王家豪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-07-12

Abstract

本发明涉及一种基于骨架提取及对抗学习的汉字图像修复方法，包括：使用基于线条细化的骨架提取网络对汉字图像数据集进行处理，生成对应的文字骨架图像数据集，并使用随机遮罩图像进行处理，然后将成对的汉字图像及其文字骨架图像进行训练集和测试集的划分；构建汉字图像骨架提取及修复网络模型，分批次地使用创建的文字骨架图像数据集对网络模型进行训练，使得该网络具备从缺损汉字图像中提取完整文字骨架图像的能力；构建基于文字骨架的汉字图像修复网络模型，使用之前提取到的完整文字骨架图像作为先验知识指导汉字图像的修复过程；使用训练过程中所保存的模型，对之前创建的测试集中的图像进行测试。采用本发明所述方法，可以实现不需要提前知道遮罩信息的汉字图像修复任务，并且相较于其他修复算法，可以得到笔画更加清晰的汉字图像修复结果。

Description

一种基于骨架提取及对抗学习的汉字图像修复算法

技术领域

本发明涉及到的技术包括计算机视觉、计算机图像处理和深度学习等，其中本发明侧重于基于架提取及对抗学习的汉字图像修复算法研究。

背景技术

随着信息化时代的发展，各种多媒体设备的使用得到广泛的普及，大量的信息会以图像的形式存储在计算机中，图像也是生活中各个领域中最常见的信息形式之一，与人们的日常生活息息相关。社交媒体中的传播的图像信息中可能包含许多后来添加到这些图像中的对象，包括签名、水印、表情符号等等。这些对象的添加可以改变图像的语义，因此如何从图像中去除这些对象是计算机视觉研究的一个最新方向。同时图像信息的真实性非常重要，不留痕迹的图像编辑能力给公众信息安全带来隐患.因此，从给定图像恢复到原始图像的方法很大程度上取决于给定图像的生成机制，所以从图像中去除目标或图像修复技术是当今研究的重点之一，也是信息安全领域的一个热门话题[1]。

广义上的图像修复技术[2][3]是指通过用估计值填充缺损区域或目标区域来修复图像或者移除图像中的物体，以达到恢复不完整图像中受损部分的像素特征。图像修复技术在许多计算机视觉任务中起着关键作用[4][5]。现有的图像修复技术可分为两类：基于复制移动的方法(Copy-Move Methods)和基于机器学习的图像填充(Image Inpainting)的方法。基于复制移动的方法通过从同一幅或另一幅图像的某个区域提取一个部分，然后将其复制到想要移除的对象或缺损区域来修复图像。由于其简单性，该技术被广泛用于对象去除任务，但不适用于人脸图像或自然场景等复杂情况。为了消除划痕、噪声等问题来修复受损的旧图像。可以通过机器学习的方式用估计值填充目标区域米修复图像，这种方法也可用于消除任何类型的失真。

随着深度学习的发展，基于机器学习的图像修复工作已经可以得到不错的效果，但是大部分的研究都是针对自然风景图像进行的，这些方法在文字图像的修复任务中往往会产生随机模糊的线条。目前专门针对字符图像的研究比较少，大多数研究集中在英语这一类字符数量较小的文字中，例如大小写字符共52个的英文等语言可引入分类思想，但是中文汉字数量庞大，无法复用这类方法，专门针对汉字这样字符数量庞大的文字图像修复研究寥寥无几。同时传统修复算法多引入缺损区域的遮罩信息作为先验知识，这些条件都限制了上述方法在汉字图像修复中的应用。而在文物保护等领域，数字化建设极为重要，其中针对汉字书法、古籍、碑文等信息的数字化采集通常会通过扫描、摄影等方式获取计算机图像信息，其中的中文汉字字符图像信息，不但承载着内容信息，同时也有极高的文化价值和研究价值。除了文物数字化，中文汉字图像也大量存在于手写输入、文件扫描以及日常照片中。这些物品中的文字图像信息由于老化损坏、不当存贮等原因，会出现缺损的情况。对这汉字图像中些缺损信息进行填充的过程被称为汉字图像修复。修复这些中文信息可以更加清晰的表现文本内容，且更有利于文字识别任务。因此，针对汉字图像修复的研究工作在文物保护以及实际应用中都具有巨大的意义。

发明内容

为了解决现有技术中的问题，本发明提供一种基于骨架提取及对抗学习的汉字图像修复算法，解决现有开源数据集不足、现有修复算法在汉字图像修复上不适用等问题。

为了达到上述发明目的，本发明采用的技术方案如下：

一种基于骨架提取及对抗学习的汉字图像修复方法，利用文字骨架图像作为一种先验知识，并结合文字风格迁移的思想，将汉字图像中的笔画风格和文字骨架图像中的结构化信息进行融合，最终实现缺损汉字图像修复的修复任务，具体包括下列步骤：

(1)使用随机生成的成对线条图像(粗细不一的线条图像及粗细均匀线条图像)，来训练一个基于线条细化的骨架提取网络，用于制作汉字图像及其文字骨架图像数据集，并使用随机遮罩图像对数据集进行处理，制作并划分用于汉字修复任务的数据集。

(2)使用对抗学习的思想，使用上一个步骤中生成的汉字图像及其文字骨架图像数据集，训练一个汉字图像骨架提取及修复网络，该网络的输入是缺损的汉字图像，经过该网络模型的处理后，生成一个完整的文字骨架图像。该文字骨架图像剔除了汉字的笔画风格特征，只保留结构化的汉字笔画信息，可以作为一种先验知识指导后续修复任务。

(3)使用缺损的汉字图像及上一个步骤中生成的完整文字骨架图像，训练一个基于对抗学习的汉字图像修复网络，该网络通过两个编码器分别对文字骨架图像和缺损汉字图像进行特征提取，再使用一个解码器对两种特征进行融合，最终实现汉字图像的修复任务。

本发明的有益效果为：采用本发明所述方法，能够实现不需要提前知道遮罩区域信息的汉字图像修复任务。针对中文这一类字符数量庞大的文字系统，该算法的修复结果可以得到笔画更加流畅的修复结果。

附图说明

图1为本发明提出的基于线条细化的骨架提取网络Skeleton-Net的结构图。

图2为本发明提出的汉字图像骨架提取及修复网络SRGAN的结构图。

图3为本发明提出的基于文字骨架的汉字图像修复网络SCGAN的结构图。

图4为本发明提出的数据集中的汉字图像及其文字骨架图像展示（汉字图像及其文字骨架图像展示。第一行为完整汉字图像，第二行为对应的文字骨架图像）。

图5为本发明起提出方法的汉字图像修复结果展示图（汉字图像修复结果展示图。第一行为完整汉字图像，第二行为缺损的汉字图像，第三行为经过SRGAN的文字骨架提取及修复结果，第四行为SCGAN的最终汉字图像修复结果）。

具体实施方式

下面结合附图，对本发明的技术方案作进一步的描述。

本发明受到基于先验知识的图像修复技术和文字风格迁移技术的启发，使用文字骨架图像作为先验知识来指导文字图像的修复。文字骨架图像可以在剔除文字笔画风格的同时保留文字图像的结构信息，对文字图像的修复过程具有指导作用。鉴于以上内容，本发明提出一种基于骨架提取及对抗学习的中文图像修复算法，该算法由基于对抗学习的文字骨架提取及修复网络SRGAN和基于文字骨架图像的汉字图像修复网络SCGAN组成。SRGAN使用骨架提取的思想去除文字笔画风格，对输入的缺损文字图像进行骨架提取和修复，并得到完整的文字骨架图像。SCGAN借鉴风格迁移相关算法研究，将来自输入缺损文字图像的风格信息和来自SRGAN的文字骨架图像中的结构信息进行混合，最终得到完整的文字图像修复结果。同时本发明提出了一个基于线条细化的文字骨架提取算法 Skeleton-Net，并用于制作中文汉字图像及其骨架数据集，解决了数据集匮乏的问题。

本发明的具体实施过程如下：

1、训练基于线条细化的骨架提取网络SkeIeton-Net

因为文字图像与线条图像具有相似对的线条型结构，受到线条矢量化相关研究的启发，本发明使用随机生成的粗细不一的线条及对应均匀线条图像作为训练集，通过对抗性训练的方式来训练一个线条细化网络。然后将网络训练后的模型应用与文字图像，来生成相对应的文字骨架图像。

网络整体采用对抗式训练，对于生成器G采用长卷积的模式，共32层，包含11个卷积块，前10个卷积块都遵循Conv-BatchNorm-ReLU架构，第一层边缘填充大小为4，卷积核大小9×9，步长为1，这一层是为了扩大卷积的感受野，以保留图像的全局特征和并增强网络的适用性。后面9个卷积块不减小图像尺寸也不改变通道数，特征图尺寸保持不变，通道数维持在64，每个卷积层缘填充大小为1，卷积核大小3×3，步长为1。最后一层使用Sigmoid激活函数将结果映射回(0，1)的范围内。为了生成更加清晰的骨架图像，采用二值分类判别器D来判别图像的真假，判别器使用Conv-BatchNorm-LeakyReLu架构。

该网路模型的损失函数分为两个部分，包括生成器的L2损失和GAN的生成对抗损失。设x和x_gt分别为网络输入图像和目标图像，生成器输入为图像序列x＝{x₁，x₂，...x_n}，n为训练批次大小，生成器输出表示为x_pred＝G(x)。成对图像的像素间的差异使用L2范数来计算，公式如下：

其中||·||₂表示欧式距离。该算法使用生成对抗网络思想进行训练，对抗损失函数公式如下：

Skeleton-Net网络的目标损失函数公式如下：

L_G＝L₂+λ_advL_adv

其中，λ_adv是该项对总损失贡献的权重参数，这里希望弱化判别器的作用只起到辅助作用，本发明中选用较小值0.2作为判别损失权重。

2、汉字图像及其骨架图像数据集制作及划分

利用基于线条细化的骨架提取算法来处理汉字图像，来制作对用的文字骨架图像图像。本发明中的原始中文图像收集时，采用的是的根据收集到的字体文件来生成对应风格的文字图像，同时加入了部分来着CASIA-HWDB数据集中的手写汉字图像来增强数据集的普适性。实际实验中，为了平衡性能，对于建立的成对中文汉字图像及其骨架数据集进行了划分，如表1所示。

表1汉字图像及其骨架数据集总量及划分表

	训练集	验证集	测试集	数量总和
					打印字体	187750	56325	56325	300400
书法字体	37550	18775	18775	75100
					CASIA-HWDB	18755	11265	11265	41305
合计	244075	86365	86365	416805

数据集覆盖国标一级字库3755个汉字。不同字体按照6∶2∶2的比例依次划分为训练集、验证集和测试集合。训练集包含打印字体50种、书法及风格化字体10种以及手写字体5种，合计244075张图像。验证集与测试集合都包含打印字体15种、书法及风格化字体5种以及手写字体3种，合计86365张图像。数据制作中可以使用本文对图像进行标注方在其他任务中的使用。

3、汉字图像的骨架提取及骨架修复算法SRGAN

在这一部分，本发明提出一个基于GAN的文字图像骨架提取及骨架修复网络SRGAN，该模型由文字骨架提取及修复生成器G_r和判别器D_r组成，网络模型结构如图2所示。生成器G_r分成两个部分，第一个部分的网络结构使用与Skeleton-Net中一致的长卷积结构，作用是对输入的缺损汉字图像进行细化，得到缺损的文字骨架信息。第二个部分采用编码器-解码器结构，并加入U-Net网络中的跳跃链接结构，来生成更加清晰的文字骨架图像。

G_r的编码器部分称作E，由4个卷积块φ组成，共24个卷积层，可表示为

其中每个卷积块φ都具有相同的结构，其中含两个部分卷积块

每个部分卷积块都遵循Conv-BatchNorm-ELU结构。

只增加图像的通道数而不减小图像尺寸，使用大小为3×3的卷积核，边缘填充尺寸为1的卷积层，表示为C_3_1_1，

使用卷积核大小为2×2，步长为2的卷积层，表示为C_2_0_2来减小特征图尺寸，进一步提取特征。因此编码器部分的4个卷积块可表示为φ_l＝(C_3_1_1，C_2_0_2)。在编码器部分均使用ELU激活函数来代替ReLU激活函数使得特征图分布均值为0以此加快训练速度，同时该激活函数为单侧饱和可以更好的进行收敛。

在生成器G_r的解码器部分与编码器部分相对称，由4个反卷积块组成，每一块分别连接编码器部分相同尺寸特征图后再进行上采样，使用的是ReLU激活函数，并在最后一层使用Sigmoid激活函数将图像分布映射回(0，1)，得到最终输出的完整文字骨架图像。

在损失函数设计部分，设该网络的输入为x＝{x₁，x₂，...x_n}，生成网络的目标图像为x_gt。设训练批次大小为n，生成器最终输出表示为x_pred＝G(x)。因为生成器G_r分两个部分，分别执行对缺损文字图像的骨架提取和骨架修复任务，因此需要对两个部分别设置损失函数，来约束网络相对部分的功能。网络前半部分的输出是一个中间结果表示为

其目标图像表示为

使用L2范数来强调提到的骨架图像和目标图像之间对应像素之间的差异，如公如下：

生成器G_r的目的从缺损文字图像中提取并修复出完整的文字骨架图像，这里也使用L2损失来计算生成文字骨架图像和真实目标图像之间像素对应位置间的差异，公式如下：

除此之外，生成器G_r还采用了一个感知损失函数

引导网络生成在线条连续性等特征上更接近目图像的文字骨架图像，公式如下：

其中β_l表示每一项对总损失的贡献权重，φ_l表示经过与训练的VGG19 网络用来提取经过第1个卷积块后的特征图像，L是其中卷积块的数量。||·||₁表示L1范数，在实际的使用过程中，生成对抗网络的表现会与理论上存在一些差距，如果只使用传统的GAN损失函数，会导致GAN网络的训练不稳定，因此本文加入上述额外损失函数，用于稳定训练，因此该网络模型的对抗损失函数如公式如下：

在定义了以上不同的损失函数来对网络的性能进行评价后，就可以得到网络整体优化的目标函数方程式，公式如下：

这里对每一项使用不同的权重λ、

及λ_adv分别设置为0.05、 1.2、0.5、0.1。

4、基于文字骨架的汉字图像修复算法SCGAN

基于文字骨架这一先验知识的汉字图像修复网络模块在整体上也采用对抗式训练模型SCGAN，网络的详细结构图2所示。文字骨架图像可以看作完全剔除了汉字的笔画风格信息的标准文字结构，而初始的缺损汉字图像可以提供一定的笔画风格特征信息，因此网络的生成器G_c部分采用两个编码器E₁和E₂分别对输入缺损汉字图像和作为先验知识的文字骨架图像进行特征提取。

编码器E₂的作用是对文字骨架图像进行特征提取，它由3个卷积块φ组成，共24层，可表示为即

N表示编码器E₂中卷积块的数量，与SRGAN 类，每个卷积块中包含两个子块，这是为了将扩大通道数和图像尺寸下采样分开进行来增加网络的深度。子块

负责在不减小上一层输入特征图尺寸的同时将通道数进行扩展，使用卷核大小为3×3的卷积核进行卷积，边缘填充尺寸为1，步长为1，该卷积层可表示C_3_1_1，子块

使用卷积核尺寸2×2，步长为2的卷积层C_2_0_1来进行特征图的下采样，用卷积和ELU激活函数代替传统卷积神经网络中的池化层。这两个子块都使用Conv-BatchNorm-ELU的结构。

编码器E₁的作用是作为主编码器对输入的缺损文字图像进行特征提取，它与编码器E₂有着相似的网络结构，在层数上略有不同。同时E₂使用 Instance-Normalization(IN)而非Batch-Normalization(BN)进行归一化操作。

SCGAN网络的损失函数设计与SRGAN类似，包括L2损失和感知损。设该整个网络的输入x＝{x₁，x₂，...x_n}，生成网络的目标图像为x_gt，由生成器G_r所生成的文字骨架图像表示为

网络整体的最终输出表示为

生成器G_c通过两个编码器，分别对文字骨架图像

和输入缺损文字图像x进行特征的提取，并在解码器部分将来自两个编码器的特征进行混合上采样，最终完成对缺损文字图像的修复任务。使用L2范数即均方误差损失来计算生成的汉字图像与真实目标图像x_gt之间对应像素的差异，公式如下：

除此之外，本发明还给生成器G_c增加了一个感知损失

来增强细节特征的修复能力，使网络所修复出来的中文字体图像更接近目标图像，公式如下：

其中表示β_l每一项对总损失的贡献权重，φ_l表示经过与训练的VGG19 网络。DCGAN整体上也采用对抗学习的方式，生成对抗损失公式如下：

基于文字骨架的文字图像在修复网络整体的目标函数公式如下：

这里对每一项使用不同的权重λ_mse、

及λ_adv分别设置为1.2、1和0.1。

本发明中的网络模型是基于Pytorch框架下，使用Python语言进行搭建的。提供了一种基于骨架提取及对抗学习的汉字图像修复算法。其首先使用基于线条细化的骨架提取网络Skeleton-Net对汉字图像数据集进行处理，生成对用文字骨架图像数据集，该数据集解决了用于图像修复任务研究的汉字图像数据集匮乏问题。然后提出一个文字图像骨架提取及修复网络SRGAN，实现了从缺损汉字图像中剔除笔画风格特征，并对缺损的文字骨架进行修复的任务。该方法模型所生成的文字骨架图像结果，将作为一种先验知识去指导后续的修复任务。最后提出一个基于文字骨架的汉字图像修复算法网络SCGAN，受到文字风格迁移算法的启发，使用两个编码网络分别对文字骨架图像提供的结构特征和输入缺损汉字图像提供的文字笔画风格特征进行提取，再使用一个解码器网络进行特征混合，最终实现不需要提供缺损区域遮罩信息的汉字图像的修复工作。与其他图像修复算法相比，本发明更具挑战性，也更适用于汉字这一类字符数量庞大的语言体系的文字图像修复任务，是一个比较先进的汉字图像修复方法。

应理解，上述实施例仅用于说明本发明而不用于限制本发明的范围。对于本发明创造所属技术领域技术人员来说，在不脱离本发明创造构思的前提下，可以做出若干改动或替换，都应当视为属于本发明创造的保护范围。

参考文献：

[1]Isogawa M，Mikami D，Iwai D，et al.Mask Optimization for ImageInpainting[J].IEEE Access，2018，6：69728-69741.

[2]Criminisi A，P′erez P，Toyama K.Region filling and object removal byexemplarbased image inpainting[J].IEEE Transactions on image processing，2004，13(9)：1200-1212.

[3]Pathak D，Krahenbuhl P，Donahue J，et al.Context encoders：Featurelearning by inpainting[C].In IEEE Conference on Computer Vision and PatternRecognition，2016：2536-2544.

[4]Radford A，Metz L，Chintala S.Unsupervised Representation Learningwith Deep Convolutional Generative Adversarial Networks[C].In InternationalConference on Learning Representations，2016.

[5]Yang C，Lu X，Lin Z，et al.High-resolution image inpainting usingmulti-scale neural patch synthesis[C].In Proceedings of the IEEE conferenceon computer vision and pattern recognition，2017：6721-6729.

Claims

1.一种基于骨架提取及对抗学习的汉字图像修复算法，具体包括下列五个步骤：

步骤1：使用随机生成的成对线条图像来训练一个基于线条细化的骨架提取网络，并用于制作汉字图像及其文字骨架图像数据集，该步骤可分为以下三小步。

(i)制作随机线条图像对，使用直线、圆形和矩形来生成随机线条，用于模拟汉字中的横平竖直以及撇捺等曲线结构。作为输入的线条图像分辨率为128×128像素，线条宽度1到20像素，目标线条图像中线条均为2像素。生成用于训练骨架提取网络的线条对数据集共5000张。

(ii)执行骨架提取网络的训练操作，使用上一个小步生成数据来训练一个对抗学习网络。网络中生成器G采用长卷积的模式，共32层，包含11个卷积块，前10个卷积块都遵循Conv-BatchNorm-ReLU架构，第一层边缘填充大小为4，卷积核大小9×9，步长为1，这一层是为了扩大卷积的感受野，以保留图像的全局特征和并增强网络的适用性。后面9个卷积块不减小图像尺寸也不改变通道数，特征图尺寸保持不变，通道数维持在64，每个卷积层缘填充大小为1，卷积核大小3×3，步长为1。最后一层使用Sigmoid激活函数将结果映射回(0，1)的范围内。为了生成更加清晰的骨架图像，采用二值分类判别器D来判别图像的真假，判别器使用Conv-BatchNorm-LeakyReLu架构。

(iii)使用训练后的骨架提取网络处理汉字图像来制作文字骨架图像数据集。

步骤2：使用对抗学习的思想，使用上一个步骤中生成的汉字图像及其文字骨架图像数据集，训练一个汉字图像骨架提取及修复网络SRGAN，该网络的输入是缺损的汉字图像，经过该网络模型的处理后，生成一个完整的文字骨架图像。

该网络整体为生成对抗学习网络，生成器G_r的编码器部分称作E，由4个卷积块φ组成，表示为

其中每个卷积块φ都具有相同的结构含两个部分卷积块

每个部分卷积块都遵循Conv-BatchNorm-ELU结构。

使用卷积核大小为2×2，步长为2的卷积层，表示为C_2_0_2来减小特征图尺寸，进一步提取特征。编码器部分的4个卷积块可表示为φ₁＝(C_3_1_1，C_2_0_2)。在编码器部分均使用ELU激活函数来代替ReLU激活函数。

在损失函数设计部分，该网络的输入表示为x＝{x₁，x₂，...x_n}，生成网络的目标图像为x_gt。设训练批次大小为n，生成器最终输出表示为x_pred＝G(x)。因为生成器G_r分两个部分，分别执行对缺损文字图像的骨架提取和骨架修复任务，因此需要对两个部分别设置损失函数，来约束网络相对部分的功能。网络前半部分的输出是一个中间结果表示为

其目标图像表示为

除此之外，生成器G_r还采用了一个感知损失函数

其中β₁表示每一项对总损失的贡献权重，φ₁表示经过与训练的VGG19网络用来提取经过第1个卷积块后的特征图像，L是其中卷积块的数量。||·||₁表示L1范数，在实际的使用过程中，生成对抗网络的表现会与理论上存在一些差距，如果只使用传统的GAN损失函数，会导致GAN网络的训练不稳定，因此本文加入上述额外损失函数，用于稳定训练，因此该网络模型的对抗损失函数如公式如下：