CN114862721A - 一种考虑汉字字形结构特征的汉字图像修复算法 - Google Patents
一种考虑汉字字形结构特征的汉字图像修复算法 Download PDFInfo
- Publication number
- CN114862721A CN114862721A CN202210573664.1A CN202210573664A CN114862721A CN 114862721 A CN114862721 A CN 114862721A CN 202210573664 A CN202210573664 A CN 202210573664A CN 114862721 A CN114862721 A CN 114862721A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- attention
- chinese character
- damaged
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008439 repair process Effects 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000006735 deficit Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
作为图像修复的分支,文字修复近几年受到了广泛重视,但现今的文字修复大多针对英文这种结构简单的文字,对于中文这种结构复杂且多样化的文字研究较少,同时目前包括文字修复在内的图像修复工作大多针对残损图像,对于被涂抹图像的修复目前没有特别多的研究。本发明提出了一种使用字型结构性特征注意力网络的文字修复算法。其可以针对残损、涂抹或二者兼有的汉字图像进行有效的结构性修复。其中字型结构性特征注意力网络是考虑到与英语不同,汉字种类繁多且结构千差万别,如果使用传统的图像修复技术,很难针对汉字的不同结构性特征进行特异性修复,故本发明从汉字的结构下手,提出了针对不同汉字进行特异性修复的字型结构性特征注意力网络。
Description
技术领域
本发明涉及到的技术领域包括计算机视觉、人工智能、图像修复等,是一种考虑汉字字形结构特征的汉字图像修复算法。
背景技术
图像修复作为计算机视觉领域的热门研究方向之一,旨在恢复残缺图像中损坏部分的像素特征,在许多计算机视觉应用领域中发挥关键作用。近年来,作为图像修复的子分支——文字修复受到了持续关注。但因为文字的特殊性,修复结果与真实图像有一点结构性的差异就会导致视觉效果大大折扣,这也是文字修复的难点所在。
近年来,基于深度学习网络的图像修复技术发展迅速。在2016年的CVPR会议上,Pathak D等人[1]结合CNN和GAN网络首次提出图像修复算法,在此算法的基础上涌现了许多改进的算法。但此类方法的修复只是集中于图像中心的矩形区域。Iizuka[2]等人和Yu[3]等人突破了中心矩形框的干扰假设提出对不规则图案进行修复。但此类算法往往需要依赖复杂的后处理。NVIDIA公司Liu[4]等人所提出的PConv(PartialConvolution,PConv)层使用传统的卷积网络,不依赖额外的后处理,通过不断学习缺失区域和原始照片,对不规则的干扰部分进行修复。
随着图像修复技术的进步,对文字图像的修复技术也逐渐得到发展。文字修复更倾向于从视觉特征的角度还原局部线条。文献[5]和[6]适用于表音文字。但不适用于汉字等结构复杂的表意文字。随后,一些方法尝试引入字形特征。张等人[7]提出了一种名为HAN的分层学习网络来提取分层特征来重建印刷汉字的损坏笔画。李等人[8]提出了一个结合上下文损失的生成对抗网络,以提高手写汉字的修复效果。然而,上述方法往往会生成一些由看似合理但实际上并不存在的笔画组成的伪汉字。由于文本图像中相邻字符之间缺乏交互,这些方法很可能产生模糊字符。
显然,仅仅依靠字形信息并不能得到准确的文字图像。近年来,视觉和语义信息的交互取得了很大进展。STEFANN[9]旨在在字符级别修改图像中的文本内容,它使用标签嵌入来表示和编辑每个字符。一些跨模态任务[10][11]尝试从单词图像和文本标签中学习特征嵌入,用于单词定位和识别任务。最近,SEED[12]的想法是使用来自预训练语言模型的词嵌入来弥补上下文语义信息的不足。在SNR[13]中,引入了全局语义推理模块来捕获全局语义上下文以进行准确的场景文本识别。这些研究表明,处理上下文语义信息的语义模块可以应用于包括文字修复在内的图像处理任务。
自从注意力机制被提出,它越来越多地被用于改善深度学习算法的性能。与其他基于神经网络的方法一样,注意机制试图模仿人脑来处理数据。人类视觉不会一次处理整个图像,它只关注具体部分。通过这种方式,可以在“高分辨率”下感知人类视野空间的聚焦部分,而周围环境处于“低分辨率”下。换句话说,它赋予相关部分更高的权重,同时最小化不相关的部分,赋予它们更低的权重。这使得大脑能够精确、高效地处理和专注于最重要的部分,而不是处理整个视图空间。它最初是在2014年为自然语言处理应用程序开发的[14],从那时起它已被广泛用于不同的应用程序[15],特别是计算机视觉任务[16][17]。它增强大多数基于CNN的方法的潜力已得到广泛关注[18]。此外,它已与循环神经网络模型和图神经网络结合使用。注意力机制背后的主要思想是对不同的信息赋予不同的权重。目前,注意力机制已经开始应用于图像修复领域并取得了较好地效果[19][20]。但是目前将注意力机制应用于文字修复领域的研究较少。
综上,虽然对于使用深度神经网络修复文字已有较多研究,但对于修复汉字的研究很少,并且现有技术存在着生成字符模糊,等问题。针对这些问题,本发明从汉字的结构下手,提出了一种使用字型结构性特征注意力网络的文字污损下的文字修复算法。可以根据不同汉字的结构,针对汉字图像残损、涂抹或二者兼有的情况进行修复
发明内容
本发明为了修复不同现实场景中出现的残损或涂抹汉字图像,如碑帖、古籍、书法作品等文物,解决汉字结构复杂、数量庞大、形近字多而影响修复效果的问题。提出了字形结构性特征注意力网络TAN。本发明使用预处理网络,对输入的汉字图像进行初步的修复处理,用于降低噪声和增强汉字结构特征。VGG和全局语义监督网络用来对输入的汉字图像进行图像上下文特征监督和上下文语义监督,使修复结果符合全局的字体特征和上下文语义,减少形近字对修复结果的影响。本发明的主要修复对象是结构复杂的有残损或涂抹的汉字,在attention机制的启发下,本发明以汉字字形结构为灵感,提出了字形结构性特征注意力网络TAN,用来解决汉字字形结构复杂且多样化的问题,对图像特征进行切分和选择从而去除与字形结构无关的特征以及阻碍字形修复的特征,得到更好的修复效果。
考虑汉字字形结构特征的汉字图像修复算法,大致步骤如下:
在U-Net网络的基础上改进升级,搭建预处理网络,在编码器和解码器对称的网络层之间跳跃连接,将编码器卷积丢失的特征信息传递给解码器,使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。使用生成的数据集训练预处理网络;
使用卷积神经网络搭建字形结构性特征注意力网络TAN,以预处理输出与原始图片连接作为输入,将输入的特征进行四种不同的划分。分别为左右划分、左中右划分、上下划分、上中下划分,将输入的图像特征拆解成对应的特征块,特征块卷积和反卷积操作后,把得到的特征拼接还原特征的大小,把四个部分得到的图像特征进行加权平均,每个部分的权重由网络训练得来;
使用VGG和全局语义监督网络,监督字形结构注意网络的训练过程;
使用有残损或涂抹的汉字图像数据集进行测试,将残损图片经过预处理网络处理后输入字形结构性特征注意力网络TAN,可以得到相对不错的修复表现;
附图说明
图1是预处理网络。本发明能够对汉字图像残损、涂抹或二者兼有的情况进行修复很大程度上于该网络有关,通过对图片的预处理,提取复杂图片中的文字信息。
图2是本发明的主体网络结构图。
图3是字形结构性特征注意力网络TAN的结构图。针对汉字的结构特点,我们对图片进行四种不同的拆分,不同的字会训练得到不同的权重,以达到对不同字进行特异性修复的目的。
图4是结果的展示,每组的三张图分别是输入、本发明针对残损和涂抹文字进行修复的结果图即输出、真实图片。
具体实施方式
为了更加清楚明白的阐述本发明的目的、技术过程及优点,以下将结合附图进一步对本发明进行详细说明。
本发明提出了一种使用汉字结构性特征注意力网络的文字污损下的文字修复算法,其主要步骤包括:构建残损和涂抹汉字数据集、训练预训练网络、搭建主修复网络、测试修复网络对汉字图像的修复结果。
步骤1:构建残损和涂抹汉字数据集
本发明的发明目的是针对残损、涂抹汉字进行修复。其需要不同汉字的多张不同字体的残损或涂抹汉字图像作为输入,而满足此要求且还有完整的图片作为计算损失的真实数据集非常少不能满足训练要求。故此我们采用生成数据集的方式,我们通过生成掩码的方式生成了32种字体的数据集,该数据集有大约100万张文字图片,很好的覆盖到了大多数常用字。
步骤2:训练预处理网络
如图1所示,本发明使用的预处理网络在U-Net网络的基础上改进升级,在编码器和解码器对称的网络层之间跳跃连接,将编码器卷积丢失的特征信息传递给解码器。为了保留更多的空间生成更好的区域掩码并达到下采样的目的,使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。此外,还采用了更多的卷积和反卷积层以得到更好的预处理效果。通过预处理网络对输入的残损的汉字图像进行一些简单的去噪和修复并提取图片中文字信息,可以为后面的修复网络提供更好地输入。
步骤3:训练修复网络
如图2所示,将图1中已经训练好的预处理网络作为预训练网络,预处理网络得到的结果图将会与目标图计算L1和L2距离,将L1和L2距离加权组合在一起构成该网络的损失。考虑到预处理网络在修复过程中会损失一部分输入图像的信息,将预处理网络的结果和输入图像连接在一起传入后续网络。
如图3所示,字形结构性特征注意力网络TAN本质上是卷积层的组合,以起到与注意力机制类似的作用,能够对输入的图像特征进行选择,去除与字形结构无关的特征以及阻碍字形修复的特征。该创新网络的设计灵感主要来源于汉字的字形结构,因为汉字可以用左右、上下等结构划分,所以我们将输入的特征进行四种不同的划分。这四种划分分别为左右划分、左中右划分、上下划分、上中下划分,将输入的图像特征按照四种划分拆解成对应的特征块,这样的划分方式将汉字图像特征分割成更小的块,可以使不同汉字之间有更多的相似结构特征。然后对这些特征块卷积和反卷积操作,进行特征的选择和修复处理后,把得到的特征按照之前拆分进行拼接,还原特征的大小。最后,进一步的图像特征选择,把4种拆分得到的图像特征进行加权平均,每个部分的权重由网络训练得来。权重的设置是考虑到不同汉字的不同字形结构,所以需要给每个汉字都训练一组不同权重,赋予每个汉字特异性,这也为形近字的修复提供了一种约束条件。记字形结构性特征注意力网络TAN为其表达式如下:
其中Xj代表输入特征图像,fi为一种特征拆分自适应映射,在网络中我们一个采用了4种拆分方式,所以i的取值为1至4,而j为输入特征图像X的目的字符的编号,kij为对应fi在编号j下的权值,简单的来说,就是每个字会有不同权值向量{k1,k2,k3,k4}。
为了保证字形结构注意网络训练的正确性,我们引入预训练的VGG网络,对其进行监督。目标图经过VGG网络的部分编码层得到与字形结构网络输出大小和数量相同的特征,将该特征与注意网络得到的特征计算L2距离作为该网络损失函数。记字形结构注意网络TAN的损失函数为Lattention,其表达式如下:
其中,X和Y可以使任意形状,每个包含n个元素,对于图像来说,n为图像的像素数,即图像宽高的乘积,对n个元素对应的差值的绝对值的平方求和,再对得到的结果除以n即是MSE损失。
此发明的全局语义监督网络使用了王[21]提出的网络架构GSSM,学习借鉴了该论文中网络的想法与思路,给修复网络增加文字图像语义和上下文图像结构关联性的约束,设计了一个NLP网络结构即全局语义监督网络,和预训练好的bert网络进行计算,得到全局语义损失。其在某种程度上以隐含索引的形式强化了字形结构注意网络的训练效果,使得字形结构注意网络能够更好的训练出针对不同结构文体的权重,同时其和VGG分别作为语义损失和图像损失在语言和图像两个维度上强化了修复效果。记语义监督网络的损失函数为Lsem,其表达式如下:
Lsem=1-cos(y,e)
其中e为预训练的bert模型对句子E={c1,c2,…,cn}进行词嵌入得到,y为语义监督网络根据每个字ci对应图像imgi进行处理得到。
在预处理网络和修复网络我们映入一致性损失Lconsist,通过强化残损图像的特征图分别经预处理网络和修复网络处理前后的一致性来增强网络修复能力。Lconsist表达式如下:
当预测值和ground truth差别较小的时候(绝对值差小于1),其实使用的是L2损失;而当差别大的时候,是L1损失的平移。SooothL1损失其实是L2损失和L1损失的结合,它同时拥有L2损失和L1损失的部分优点。
训练的总损失表达如下:
Lall=Lconsist+Lattention+Lsem
步骤4:测试修复网络对汉字图像的修复结果
如图4所示是本发明提出的使用考虑汉字字形结构特征的汉字图像修复算法的测试结果。可以看到其对于残损、涂抹或二者兼有的图像均有较好的修复效果。
参考文献
[1]Pathak D,Krahenbuhl P,Donahue J,et al.Context encoders:featurelearning by inpainting[C].IEEE Conference on Computer Vision and PatternRecognition(CVPR),2016,56(42):2536-2544.
[2]Iizuka S,Simo-Serra E,Ishikawa H.Globally and locally consistentimage completion[J].ACM Transactions on Graphics,2017,36(4):1-14.
[3]Yu J,Lin Z,Yang J,et al.Generative image inpainting with con-textual attention[C].IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018 41(14):124-135.
[4]Liu G,Reda F A,Shih K J,et al.Image inpainting for irregular holesusing partial convolutions[C].International Conference on LearningRepresentations(ICLR),2018,13(8):1726-1739.
[5]Kazuma Sasaki,Satoshi Iizuka,and Edgar Simo-Serra.2017.Joint gapdetection and inpainting of line drawings.In CVPR.IEEE Computer Society,USA,5725–5733
[6]Fang Miao and Li Feng.2020.Research on Character Image Inpaintingbased on Generative Adversarial Network.In ICCST.IEEE Computer Society,USA,137–140.
[7]Jie Chang,Yujun Gu,Ya Zhang,and Yan-Feng Wang.2018.ChineseHandwriting Imitation with Hierarchical Generative Adversarial Network.InBMVC.BMVA Press,UK,290.
[8]Jianwu Li,Ge Song,and Minhua Zhang.2020.Occluded offlinehandwritten Chinese character recognition using deep convolutional generativeadversarial network and improved GoogLeNet.Neural Computing and Applications32,9(2020),4805–4819.
[9].Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,and UmapadaPal.2020.STEFANN:scene text editor using font adaptive neural network.InCVPR.IEEE Computer Society,USA,13228–13237.
[10]Praveen Krishnan,Kartik Dutta,and C.V.Jawahar.2018.Word Spottingand Recognition Using Deep Embedding.In IAPRW.IEEE,USA,1–6
[11]Jose A.Rodriguez-Serrano,Albert Gordo,and FlorentPerronnin.2015.Label Embedding:A Frugal Baseline for Text Recognition.IJCV113,3(2015),193–207.
[12]Zhi Qiao,Yu Zhou,Dongbao Yang,Yucan Zhou,and WeipingWang.2020.SEED:Semantics Enhanced Encoder-Decoder Framework for Scene TextRecognition.In CVPR.IEEE Computer Society,USA,13528–13537.
[13]Deli Yu,Xuan Li,Chengquan Zhang,Tao Liu,Junyu Han,Jingtuo Liu,andErrui Ding.2020.Towards accurate scene text recognition with semanticreasoning networks.In CVPR.IEEE Computer Society,USA,12113–12122.
[14]Bahdanau,D.;Cho,K.;Bengio,Y.Neural machine translation by jointlylearning to align and translate.arXiv2014,arXiv:1409.0473.
[15]Galassi,A.;Lippi,M.;Torroni,P.Attention in Natural LanguageProcessing.IEEE T rans.Neural Netw.Learn.Syst.2020,1-18.
[16]Niu,Z.;Zhong,G.;Yu,H.A Review on the Attention Mechanism of DeepLearning.Neurocomputing.2021.
[17]ˇcevi′c,K.;i′c,M.;Lonˇcari′c,S.Attention-basedConvolutional Neural Network for Computer Vision Color Constancy.InProceedings of the 2019 11th International Symposium on Image and SignalProcessing and Analysis(ISPA),Dubrovnik,Croatia,23-25 September 2019;pp.372–377.
[18]Li,W.;Liu,K.;Zhang,L.;Cheng,F.Object detection based on anadaptive attention mechanism.Sci.Rep.2020,10,11307.
[19]Nazeri,K.;Ng,E.;Joseph,T.;Qureshi,F.;Ebrahimi,M.EdgeConnect:Structure Guided Image Inpainting using Edge Prediction.In Proceedings of theIEEE International Conference on Computer Vision Workshops,Seoul,Korea,27-28October 2019.
[20]Hong,X.;Xiong,P.;Ji,R.;Fan,H.Deep Fusion Network for ImageCompletion.InProceedings of the 27th ACM International Conference onMultimedia;Association for Computing Machinery:New York,NY,USA,2019;pp.2033-2042.
[21]Wang J,Pan G,Sun D,et al.Chinese Character Inpainting withContextual Semantic Constraints[C].Proceedings of the 29th ACM InternationalConference on Multimedia.2021:1829-1837.
Claims (1)
1.一种考虑汉字字形结构特征的汉字图像修复算法,大致步骤如下:
(1)步骤1:构建残损和涂抹汉字数据集
本修复算法需要使用残损和涂抹的汉字图像数据集,考虑到该数据集不好收集也没有公开的数据集,优先推荐采用合成的数据,也可以使用自己收集的数据。
(2)步骤2:训练预处理网络
使用深度学习搭建的预处理网络基于U-Net网络改进升级,在编码器和解码器对称的网络层之间跳跃连接,将编码器卷积丢失的特征信息传递给解码器。为了保留更多的空间生成更好的区域掩码并达到下采样的目的,使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。此外,还采用了更多的卷积和反卷积层以得到更好的预处理效果。通过预处理网络对输入的残损的汉字图像进行简单的去噪和修复并提取图片中文字信息,以为后面的修复网络提供更好地输入。
(3)步骤3:训练修复网络
字形结构性特征注意力网络TAN本质上是卷积层的组合,以起到与注意力机制类似的作用,能够对输入的图像特征进行选择,去除与字形结构无关的特征以及阻碍字形修复的特征。记字形结构性特征注意力网络TAN为其表达式如下:
其中Xj代表输入特征图像,fi为一种特征拆分自适应映射,在网络中我们一个采用了4种拆分方式,所以i的取值为1至4,而j为输入特征图像X的目的字符的编号,kij为对应fi在编号j下的权值,简单的来说,就是每个字会有不同权值向量{k1,k2,k3,k4}。
为了保证字形结构注意网络训练的正确性,我们引入预训练的VGG网络,对其进行监督。记字形结构注意网络TAN的损失函数为Lattention,其表达式如下:
此发明的全局语义监督网络在某种程度上以隐含索引的形式强化了字形结构注意网络的训练效果,使得字形结构注意网络能够更好的训练出针对不同结构文体的权重,同时其和VGG分别作为语义损失和图像损失在语言和图像两个维度上强化了修复效果。记语义监督网络的损失函数为Lsem,其表达式如下:
Lsem=1-cos(y,e)
其中e为预训练的bert模型对句子E={c1,c2,…,cn}进行词嵌入得到,y为语义监督网络根据每个字ci对应图像imgi进行处理得到。
在预处理网络和修复网络我们映入一致性损失Lconsist,通过强化残损图像的特征图分别经预处理网络和修复网络处理前后的一致性来增强网络修复能力。Lconsist表达式如下:
训练的总损失表达如下:
Lall=Lconsist+Lattention+Lsem
(4)步骤4:测试修复网络对汉字图像的修复结果
使用第三步搭建完成的网络在残损和涂抹的汉字图像数据集上进行测试,能够针对残损、涂抹或二者兼有的文字图像取得良好的修复效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210573664.1A CN114862721A (zh) | 2022-05-26 | 2022-05-26 | 一种考虑汉字字形结构特征的汉字图像修复算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210573664.1A CN114862721A (zh) | 2022-05-26 | 2022-05-26 | 一种考虑汉字字形结构特征的汉字图像修复算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114862721A true CN114862721A (zh) | 2022-08-05 |
Family
ID=82640076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210573664.1A Pending CN114862721A (zh) | 2022-05-26 | 2022-05-26 | 一种考虑汉字字形结构特征的汉字图像修复算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114862721A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385289A (zh) * | 2023-03-22 | 2023-07-04 | 齐鲁工业大学(山东省科学院) | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
-
2022
- 2022-05-26 CN CN202210573664.1A patent/CN114862721A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385289A (zh) * | 2023-03-22 | 2023-07-04 | 齐鲁工业大学(山东省科学院) | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
CN116385289B (zh) * | 2023-03-22 | 2024-03-19 | 齐鲁工业大学(山东省科学院) | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Revisiting single image depth estimation: Toward higher resolution maps with accurate object boundaries | |
Fu et al. | Clearing the skies: A deep network architecture for single-image rain removal | |
He et al. | Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline | |
Meng et al. | Single-image dehazing based on two-stream convolutional neural network | |
Kang et al. | Ddcolor: Towards photo-realistic image colorization via dual decoders | |
Hou et al. | BSNet: Dynamic hybrid gradient convolution based boundary-sensitive network for remote sensing image segmentation | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
Zeng et al. | Self-attention learning network for face super-resolution | |
Li et al. | Line drawing guided progressive inpainting of mural damages | |
Tang et al. | SRARNet: A unified framework for joint superresolution and aircraft recognition | |
Gao | A method for face image inpainting based on generative adversarial networks | |
CN114862721A (zh) | 一种考虑汉字字形结构特征的汉字图像修复算法 | |
Yuan et al. | A novel deep pixel restoration video prediction algorithm integrating attention mechanism | |
Zhang et al. | Brush your text: Synthesize any scene text on images via diffusion model | |
Wang et al. | Dual attribute adversarial camouflage toward camouflaged object detection | |
Zhang et al. | Semantic prior guided face inpainting | |
Liao et al. | TransRef: Multi-scale reference embedding transformer for reference-guided image inpainting | |
Ma et al. | Photorealistic face completion with semantic parsing and face identity-preserving features | |
Jiang et al. | Mask‐guided image person removal with data synthesis | |
Zhang | Image and Graphics: 8th International Conference, ICIG 2015, Tianjin, China, August 13-16, 2015, Proceedings, Part III | |
Luo et al. | Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection | |
Wolf et al. | Instance separation emerges from inpainting | |
Li et al. | A review of advances in image inpainting research | |
Deng et al. | MRS-Net: an image inpainting algorithm with multi-scale residual attention fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |