CN114862721A

CN114862721A - 一种考虑汉字字形结构特征的汉字图像修复算法

Info

Publication number: CN114862721A
Application number: CN202210573664.1A
Authority: CN
Inventors: 刘岩; 潘刚; 周磊; 米红泽; 宋钊; 胡书豪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-05

Abstract

作为图像修复的分支，文字修复近几年受到了广泛重视，但现今的文字修复大多针对英文这种结构简单的文字，对于中文这种结构复杂且多样化的文字研究较少，同时目前包括文字修复在内的图像修复工作大多针对残损图像，对于被涂抹图像的修复目前没有特别多的研究。本发明提出了一种使用字型结构性特征注意力网络的文字修复算法。其可以针对残损、涂抹或二者兼有的汉字图像进行有效的结构性修复。其中字型结构性特征注意力网络是考虑到与英语不同，汉字种类繁多且结构千差万别，如果使用传统的图像修复技术，很难针对汉字的不同结构性特征进行特异性修复，故本发明从汉字的结构下手，提出了针对不同汉字进行特异性修复的字型结构性特征注意力网络。

Description

一种考虑汉字字形结构特征的汉字图像修复算法

技术领域

本发明涉及到的技术领域包括计算机视觉、人工智能、图像修复等，是一种考虑汉字字形结构特征的汉字图像修复算法。

背景技术

图像修复作为计算机视觉领域的热门研究方向之一，旨在恢复残缺图像中损坏部分的像素特征，在许多计算机视觉应用领域中发挥关键作用。近年来，作为图像修复的子分支——文字修复受到了持续关注。但因为文字的特殊性，修复结果与真实图像有一点结构性的差异就会导致视觉效果大大折扣，这也是文字修复的难点所在。

近年来，基于深度学习网络的图像修复技术发展迅速。在2016年的CVPR会议上，Pathak D等人[1]结合CNN和GAN网络首次提出图像修复算法，在此算法的基础上涌现了许多改进的算法。但此类方法的修复只是集中于图像中心的矩形区域。Iizuka[2]等人和Yu[3]等人突破了中心矩形框的干扰假设提出对不规则图案进行修复。但此类算法往往需要依赖复杂的后处理。NVIDIA公司Liu[4]等人所提出的PConv(PartialConvolution，PConv)层使用传统的卷积网络，不依赖额外的后处理，通过不断学习缺失区域和原始照片，对不规则的干扰部分进行修复。

随着图像修复技术的进步，对文字图像的修复技术也逐渐得到发展。文字修复更倾向于从视觉特征的角度还原局部线条。文献[5]和[6]适用于表音文字。但不适用于汉字等结构复杂的表意文字。随后，一些方法尝试引入字形特征。张等人[7]提出了一种名为HAN的分层学习网络来提取分层特征来重建印刷汉字的损坏笔画。李等人[8]提出了一个结合上下文损失的生成对抗网络，以提高手写汉字的修复效果。然而，上述方法往往会生成一些由看似合理但实际上并不存在的笔画组成的伪汉字。由于文本图像中相邻字符之间缺乏交互，这些方法很可能产生模糊字符。

显然，仅仅依靠字形信息并不能得到准确的文字图像。近年来，视觉和语义信息的交互取得了很大进展。STEFANN[9]旨在在字符级别修改图像中的文本内容，它使用标签嵌入来表示和编辑每个字符。一些跨模态任务[10][11]尝试从单词图像和文本标签中学习特征嵌入，用于单词定位和识别任务。最近，SEED[12]的想法是使用来自预训练语言模型的词嵌入来弥补上下文语义信息的不足。在SNR[13]中，引入了全局语义推理模块来捕获全局语义上下文以进行准确的场景文本识别。这些研究表明，处理上下文语义信息的语义模块可以应用于包括文字修复在内的图像处理任务。

自从注意力机制被提出，它越来越多地被用于改善深度学习算法的性能。与其他基于神经网络的方法一样，注意机制试图模仿人脑来处理数据。人类视觉不会一次处理整个图像，它只关注具体部分。通过这种方式，可以在“高分辨率”下感知人类视野空间的聚焦部分，而周围环境处于“低分辨率”下。换句话说，它赋予相关部分更高的权重，同时最小化不相关的部分，赋予它们更低的权重。这使得大脑能够精确、高效地处理和专注于最重要的部分，而不是处理整个视图空间。它最初是在2014年为自然语言处理应用程序开发的[14]，从那时起它已被广泛用于不同的应用程序[15]，特别是计算机视觉任务[16][17]。它增强大多数基于CNN的方法的潜力已得到广泛关注[18]。此外，它已与循环神经网络模型和图神经网络结合使用。注意力机制背后的主要思想是对不同的信息赋予不同的权重。目前，注意力机制已经开始应用于图像修复领域并取得了较好地效果[19][20]。但是目前将注意力机制应用于文字修复领域的研究较少。

综上，虽然对于使用深度神经网络修复文字已有较多研究，但对于修复汉字的研究很少，并且现有技术存在着生成字符模糊，等问题。针对这些问题，本发明从汉字的结构下手，提出了一种使用字型结构性特征注意力网络的文字污损下的文字修复算法。可以根据不同汉字的结构，针对汉字图像残损、涂抹或二者兼有的情况进行修复

发明内容

本发明为了修复不同现实场景中出现的残损或涂抹汉字图像，如碑帖、古籍、书法作品等文物，解决汉字结构复杂、数量庞大、形近字多而影响修复效果的问题。提出了字形结构性特征注意力网络TAN。本发明使用预处理网络，对输入的汉字图像进行初步的修复处理，用于降低噪声和增强汉字结构特征。VGG和全局语义监督网络用来对输入的汉字图像进行图像上下文特征监督和上下文语义监督，使修复结果符合全局的字体特征和上下文语义，减少形近字对修复结果的影响。本发明的主要修复对象是结构复杂的有残损或涂抹的汉字，在attention机制的启发下，本发明以汉字字形结构为灵感，提出了字形结构性特征注意力网络TAN，用来解决汉字字形结构复杂且多样化的问题，对图像特征进行切分和选择从而去除与字形结构无关的特征以及阻碍字形修复的特征，得到更好的修复效果。

考虑汉字字形结构特征的汉字图像修复算法，大致步骤如下：

在U-Net网络的基础上改进升级，搭建预处理网络，在编码器和解码器对称的网络层之间跳跃连接，将编码器卷积丢失的特征信息传递给解码器，使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。使用生成的数据集训练预处理网络；

使用卷积神经网络搭建字形结构性特征注意力网络TAN，以预处理输出与原始图片连接作为输入，将输入的特征进行四种不同的划分。分别为左右划分、左中右划分、上下划分、上中下划分，将输入的图像特征拆解成对应的特征块，特征块卷积和反卷积操作后，把得到的特征拼接还原特征的大小，把四个部分得到的图像特征进行加权平均，每个部分的权重由网络训练得来；

使用VGG和全局语义监督网络，监督字形结构注意网络的训练过程；

使用有残损或涂抹的汉字图像数据集进行测试，将残损图片经过预处理网络处理后输入字形结构性特征注意力网络TAN，可以得到相对不错的修复表现；

附图说明

图1是预处理网络。本发明能够对汉字图像残损、涂抹或二者兼有的情况进行修复很大程度上于该网络有关，通过对图片的预处理，提取复杂图片中的文字信息。

图2是本发明的主体网络结构图。

图3是字形结构性特征注意力网络TAN的结构图。针对汉字的结构特点，我们对图片进行四种不同的拆分，不同的字会训练得到不同的权重，以达到对不同字进行特异性修复的目的。

图4是结果的展示，每组的三张图分别是输入、本发明针对残损和涂抹文字进行修复的结果图即输出、真实图片。

具体实施方式

为了更加清楚明白的阐述本发明的目的、技术过程及优点，以下将结合附图进一步对本发明进行详细说明。

本发明提出了一种使用汉字结构性特征注意力网络的文字污损下的文字修复算法，其主要步骤包括：构建残损和涂抹汉字数据集、训练预训练网络、搭建主修复网络、测试修复网络对汉字图像的修复结果。

步骤1：构建残损和涂抹汉字数据集

本发明的发明目的是针对残损、涂抹汉字进行修复。其需要不同汉字的多张不同字体的残损或涂抹汉字图像作为输入，而满足此要求且还有完整的图片作为计算损失的真实数据集非常少不能满足训练要求。故此我们采用生成数据集的方式，我们通过生成掩码的方式生成了32种字体的数据集，该数据集有大约100万张文字图片，很好的覆盖到了大多数常用字。

步骤2：训练预处理网络

如图1所示，本发明使用的预处理网络在U-Net网络的基础上改进升级，在编码器和解码器对称的网络层之间跳跃连接，将编码器卷积丢失的特征信息传递给解码器。为了保留更多的空间生成更好的区域掩码并达到下采样的目的，使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。此外，还采用了更多的卷积和反卷积层以得到更好的预处理效果。通过预处理网络对输入的残损的汉字图像进行一些简单的去噪和修复并提取图片中文字信息，可以为后面的修复网络提供更好地输入。

步骤3：训练修复网络

如图2所示，将图1中已经训练好的预处理网络作为预训练网络，预处理网络得到的结果图将会与目标图计算L1和L2距离，将L1和L2距离加权组合在一起构成该网络的损失。考虑到预处理网络在修复过程中会损失一部分输入图像的信息，将预处理网络的结果和输入图像连接在一起传入后续网络。

如图3所示，字形结构性特征注意力网络TAN本质上是卷积层的组合，以起到与注意力机制类似的作用，能够对输入的图像特征进行选择，去除与字形结构无关的特征以及阻碍字形修复的特征。该创新网络的设计灵感主要来源于汉字的字形结构，因为汉字可以用左右、上下等结构划分，所以我们将输入的特征进行四种不同的划分。这四种划分分别为左右划分、左中右划分、上下划分、上中下划分，将输入的图像特征按照四种划分拆解成对应的特征块，这样的划分方式将汉字图像特征分割成更小的块，可以使不同汉字之间有更多的相似结构特征。然后对这些特征块卷积和反卷积操作，进行特征的选择和修复处理后，把得到的特征按照之前拆分进行拼接，还原特征的大小。最后，进一步的图像特征选择，把4种拆分得到的图像特征进行加权平均，每个部分的权重由网络训练得来。权重的设置是考虑到不同汉字的不同字形结构，所以需要给每个汉字都训练一组不同权重，赋予每个汉字特异性，这也为形近字的修复提供了一种约束条件。记字形结构性特征注意力网络TAN为

其表达式如下：

其中X_j代表输入特征图像，f_i为一种特征拆分自适应映射，在网络中我们一个采用了4种拆分方式，所以i的取值为1至4，而j为输入特征图像X的目的字符的编号，k_ij为对应f_i在编号j下的权值，简单的来说，就是每个字会有不同权值向量{k₁,k₂,k₃,k₄}。

为了保证字形结构注意网络训练的正确性，我们引入预训练的VGG网络，对其进行监督。目标图经过VGG网络的部分编码层得到与字形结构网络输出大小和数量相同的特征，将该特征与注意网络得到的特征计算L2距离作为该网络损失函数。记字形结构注意网络TAN的损失函数为L_attention，其表达式如下：

其中Xⁱⁿ，Xⁱⁿ²分别是输入的残损特征图像和修复网络第二次卷积输出，

为字形结构注意网络，

为预训练的VGG特征提取网络，

为修复网络中对应大小的反卷积输出。公式中使用到的MSE损失对应表达式如下：

其中，X和Y可以使任意形状，每个包含n个元素，对于图像来说，n为图像的像素数，即图像宽高的乘积，对n个元素对应的差值的绝对值的平方求和，再对得到的结果除以n即是MSE损失。

此发明的全局语义监督网络使用了王[21]提出的网络架构GSSM，学习借鉴了该论文中网络的想法与思路，给修复网络增加文字图像语义和上下文图像结构关联性的约束，设计了一个NLP网络结构即全局语义监督网络，和预训练好的bert网络进行计算，得到全局语义损失。其在某种程度上以隐含索引的形式强化了字形结构注意网络的训练效果，使得字形结构注意网络能够更好的训练出针对不同结构文体的权重，同时其和VGG分别作为语义损失和图像损失在语言和图像两个维度上强化了修复效果。记语义监督网络的损失函数为L_sem，其表达式如下：

L_sem＝1-cos(y,e)

其中e为预训练的bert模型对句子E＝{c₁,c₂,…,c_n}进行词嵌入得到，y为语义监督网络根据每个字c_i对应图像img_i进行处理得到。

在预处理网络和修复网络我们映入一致性损失L_consist，通过强化残损图像的特征图分别经预处理网络和修复网络处理前后的一致性来增强网络修复能力。L_consist表达式如下：

其中X^truth为残损输入图像Xⁱⁿ的未残损的目标图像，

为预处理网络，

为修复网络，λ为超参数可以根据实验结果调整。公式中使用到的SoothL1损失对应表达式如下：

当预测值和ground truth差别较小的时候(绝对值差小于1)，其实使用的是L2损失；而当差别大的时候，是L1损失的平移。SooothL1损失其实是L2损失和L1损失的结合，它同时拥有L2损失和L1损失的部分优点。

训练的总损失表达如下：

L_all＝L_consist+L_attention+L_sem

步骤4：测试修复网络对汉字图像的修复结果

如图4所示是本发明提出的使用考虑汉字字形结构特征的汉字图像修复算法的测试结果。可以看到其对于残损、涂抹或二者兼有的图像均有较好的修复效果。

参考文献

[1]Pathak D，Krahenbuhl P，Donahue J，et al.Context encoders:featurelearning by inpainting[C].IEEE Conference on Computer Vision and PatternRecognition(CVPR)，2016，56(42):2536-2544.

[2]Iizuka S，Simo-Serra E，Ishikawa H.Globally and locally consistentimage completion[J].ACM Transactions on Graphics，2017，36(4):1-14.

[3]Yu J，Lin Z，Yang J，et al.Generative image inpainting with con-textual attention[C].IEEE Conference on Computer Vision and PatternRecognition(CVPR)，2018 41(14):124-135.

[4]Liu G，Reda F A，Shih K J，et al.Image inpainting for irregular holesusing partial convolutions[C].International Conference on LearningRepresentations(ICLR)，2018，13(8):1726-1739.

[5]Kazuma Sasaki,Satoshi Iizuka,and Edgar Simo-Serra.2017.Joint gapdetection and inpainting of line drawings.In CVPR.IEEE Computer Society,USA,5725–5733

[6]Fang Miao and Li Feng.2020.Research on Character Image Inpaintingbased on Generative Adversarial Network.In ICCST.IEEE Computer Society,USA,137–140.

[7]Jie Chang,Yujun Gu,Ya Zhang,and Yan-Feng Wang.2018.ChineseHandwriting Imitation with Hierarchical Generative Adversarial Network.InBMVC.BMVA Press,UK,290.

[8]Jianwu Li,Ge Song,and Minhua Zhang.2020.Occluded offlinehandwritten Chinese character recognition using deep convolutional generativeadversarial network and improved GoogLeNet.Neural Computing and Applications32,9(2020),4805–4819.

[9].Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,and UmapadaPal.2020.STEFANN:scene text editor using font adaptive neural network.InCVPR.IEEE Computer Society,USA,13228–13237.

[10]Praveen Krishnan,Kartik Dutta,and C.V.Jawahar.2018.Word Spottingand Recognition Using Deep Embedding.In IAPRW.IEEE,USA,1–6

[11]Jose A.Rodriguez-Serrano,Albert Gordo,and FlorentPerronnin.2015.Label Embedding:A Frugal Baseline for Text Recognition.IJCV113,3(2015),193–207.

[12]Zhi Qiao,Yu Zhou,Dongbao Yang,Yucan Zhou,and WeipingWang.2020.SEED:Semantics Enhanced Encoder-Decoder Framework for Scene TextRecognition.In CVPR.IEEE Computer Society,USA,13528–13537.

[13]Deli Yu,Xuan Li,Chengquan Zhang,Tao Liu,Junyu Han,Jingtuo Liu,andErrui Ding.2020.Towards accurate scene text recognition with semanticreasoning networks.In CVPR.IEEE Computer Society,USA,12113–12122.

[14]Bahdanau,D.；Cho,K.；Bengio,Y.Neural machine translation by jointlylearning to align and translate.arXiv2014,arXiv:1409.0473.

[15]Galassi,A.；Lippi,M.；Torroni,P.Attention in Natural LanguageProcessing.IEEE T rans.Neural Netw.Learn.Syst.2020,1-18.

[16]Niu,Z.；Zhong,G.；Yu,H.A Review on the Attention Mechanism of DeepLearning.Neurocomputing.2021.

[17]

ˇcevi′c,K.；

i′c,M.；Lonˇcari′c,S.Attention-basedConvolutional Neural Network for Computer Vision Color Constancy.InProceedings of the 2019 11th International Symposium on Image and SignalProcessing and Analysis(ISPA),Dubrovnik,Croatia,23-25 September 2019；pp.372–377.

[18]Li,W.；Liu,K.；Zhang,L.；Cheng,F.Object detection based on anadaptive attention mechanism.Sci.Rep.2020,10,11307.

[19]Nazeri,K.；Ng,E.；Joseph,T.；Qureshi,F.；Ebrahimi,M.EdgeConnect:Structure Guided Image Inpainting using Edge Prediction.In Proceedings of theIEEE International Conference on Computer Vision Workshops,Seoul,Korea,27-28October 2019.

[20]Hong,X.；Xiong,P.；Ji,R.；Fan,H.Deep Fusion Network for ImageCompletion.InProceedings of the 27^th ACM International Conference onMultimedia；Association for Computing Machinery:New York,NY,USA,2019；pp.2033-2042.

[21]Wang J,Pan G,Sun D,et al.Chinese Character Inpainting withContextual Semantic Constraints[C].Proceedings of the 29th ACM InternationalConference on Multimedia.2021:1829-1837.

Claims

1.一种考虑汉字字形结构特征的汉字图像修复算法，大致步骤如下：

(1)步骤1：构建残损和涂抹汉字数据集

本修复算法需要使用残损和涂抹的汉字图像数据集，考虑到该数据集不好收集也没有公开的数据集，优先推荐采用合成的数据，也可以使用自己收集的数据。

(2)步骤2：训练预处理网络

使用深度学习搭建的预处理网络基于U-Net网络改进升级，在编码器和解码器对称的网络层之间跳跃连接，将编码器卷积丢失的特征信息传递给解码器。为了保留更多的空间生成更好的区域掩码并达到下采样的目的，使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。此外，还采用了更多的卷积和反卷积层以得到更好的预处理效果。通过预处理网络对输入的残损的汉字图像进行简单的去噪和修复并提取图片中文字信息，以为后面的修复网络提供更好地输入。

(3)步骤3：训练修复网络

字形结构性特征注意力网络TAN本质上是卷积层的组合，以起到与注意力机制类似的作用，能够对输入的图像特征进行选择，去除与字形结构无关的特征以及阻碍字形修复的特征。记字形结构性特征注意力网络TAN为