CN116385289B - 一种基于渐进式的碑文文字图像修复模型及修复方法 - Google Patents
一种基于渐进式的碑文文字图像修复模型及修复方法 Download PDFInfo
- Publication number
- CN116385289B CN116385289B CN202310280081.4A CN202310280081A CN116385289B CN 116385289 B CN116385289 B CN 116385289B CN 202310280081 A CN202310280081 A CN 202310280081A CN 116385289 B CN116385289 B CN 116385289B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- mask
- characteristic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000000750 progressive effect Effects 0.000 title claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 49
- 230000008439 repair process Effects 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 28
- 238000010586 diagram Methods 0.000 abstract description 18
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000001788 irregular Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于渐进式的碑文文字图像修复模型及修复方法,属于计算机视觉领域,模型包括预处理模块、特征推理模块和自适应门控特征融合模块,预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,并送到特征推理模块;特征推理模块与预处理模块进行连接重复处理4‑8次,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。本发明利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。
Description
技术领域
本发明涉及一种基于渐进式的碑文文字图像修复模型及修复方法,属于计算机视觉技术领域。
背景技术
图像修复起源于对艺术品的修复,尽可能地与原画相匹配。目的是使用合理的内容消除图像中不需要的区域或者以合理精细的内容填充图像中缺失的区域。基于深度学习的图像修复领域在近几年发展迅速,在2016年的CVPR的会议上,Pathak等人提出了一个基于上下文编码器的图像修复手段,结合了带有通道全连接层的卷积神经网络CNN以及对抗生成网络GAN,展示了卷积神经网络在图像修复的潜力。不过此类算法以及后续的算法改进都是基于图像中心矩形区域进行的图像修复工作,由于现实场景中图像的损坏区域很多都是不规则涂抹,中心矩形区域具有很大局限性。Iizuka等人和Yu等人提出了针对不规则图像涂抹的修复算法,不再局限在图像的中心矩形区域修复,但是这些算法的后处理比较繁琐。Liu等人在2018年的ECCV提出的PConv方法,不依靠繁琐的后处理,卷积的结果针对有效元素采用部分卷积的方式,不局限于中心缺失元素而可以处理不规则的孔洞。在现实场景下,图像修复需要处理大面积的受损图像。对于大面积不规则的涂抹,图像修复算法需要有效像素间的特征提取和周边区域进行学习。现有的算法对于大空洞的图片影响修复效果不够突出,Li等人提出了循环特征推理(Recurrent Feature Reasoning,RFR)模块,能多次循环递归式地完善特征图,提出的知识一致注意力模型对于背景纹理问题有极大改善。
碑文图像修复作为图像修复的一个分支,起步阶段较晚。目前针对文字图像修复,大多针对英文这种简单结构字体。中文具有拓扑结构以及数量众多的特点,针对中文图像修复具有很大的挑战。目前针对文字图像修复的工作不多,对于残缺的书法碑文作品需要人工的手动修复。对于不规则缺失的文本图像信息干扰,没有很好的修复方法。如Chen等人提出了一种基于双判别器的彝文手写体文字修复方法。这种方法可以有效修复彝文文字的结构,但是对于复杂的字体修复效果较差。汉字是具有拓扑结构,根据偏旁等汉字组件信息可以进行对汉字的修复工作。初期的研究工作很多结合了计算机图形学和字形的拓扑结构。由于汉字的变形、枯笔、残笔、笔画模糊等特点,这些算法会让字形失去原有的风格从而降低修复准确率。
近几年深度学习的快速发展,也使得图像修复发展在深度学习领域结合发展。目前已经提出的图像修复方法中,针对中文文字修复大多运用基于样本的图像修复、对抗生成网络和卷积神经网络。基于样本的图像修复受制于样本的数量,碑文文字图像没有公开的数据集。目前,大多研究者对于碑文等汉字图像的修复采用对抗生成网络,基于无监督的对抗生成网络没有根据周围信息进行图像修复,会产生一些错误的字符结构,令修复结果只是看起来像字但是错误的结果。卷积神经网络会利用掩码区域的周围信息来修复图像,然而随着网络结构的加深,它会产生错误的修复结构和一些不好的纹理信息。
发明内容
为了解决现有技术的不足,本发明提供一种基于渐进式的碑文文字图像修复模型及修复方法,利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。
发明概述:
收集和整理碑文文字数据集是深度学习中不可或缺的一环。
本发明为了修复碑文在现实场景中出现的不规则的残损和涂抹文本图像,现阶段的图像修复针对文本图像的中心矩形区域,本发明通过利用相邻像素间相关性加强预测深层像素的能力,用来渐进式修复不规则形状的缺失图像。现阶段的碑文修复算法主要追求视觉的一致性,但是现实场景中碑文的汉字结构性和风格性较强,文字图像并非简单等同于传统图像,它要求修复后图像中笔画拓扑结构保持正确,而不只是视觉一致性。其次当文字存在包含关键位置的大面积破损时,仅仅依赖存在的边缘信息很难完成正确修复。
本发明首先收集书法家的博物馆馆藏碑文的文本图像,然后进行图片降噪并且单字分割,将碑文文字分割为单字的数据集,碑文文字图像对于背景纹理要求不高,为了追求文字修复效果,我们将数据集进行二值化处理得到纯净文本图像,将文字结构信息都保留下来,使模型学习文字结构信息并生成风格一致的文本图像。
为了修复碑文文字图像的随机损坏区域,以及加强大区域缺失的修复能力,我们提出了渐进式的碑文文字图像修复模型,渐进式的碑文文字图像修复模型是有三个模块组成:预处理模块、特征推理模块、自适应门控特征融合模块。
在预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块。
特征推理模块是采用跳远连接的编码器和解码器,中间是一个KCA,输出是本轮的输出后的特征图,特征推理模块跟预处理模块进行连接重复处理六次,每次得到的结果都被记录最后作为特征融合的结果进行使用。
自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,解决了普通卷生成特征图会包含大量冗余信息,可以在深层的网络中,增加特征图的感受野,减少特征冗余,增强碑文文字图像的结构性修复,提高了修复效果。
本发明采用如下技术方案:
一种基于渐进式的碑文文字图像修复模型,包括依次连接的预处理模块、特征推理模块和自适应门控特征融合模块;
所述预处理模块包括两层部分卷积,用于根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新;
所述特征推理模块包括编码器、解码器以及位于编码器和解码器之间的知识一致性注意力机制(KCA),编码器包括6层普通卷积,解码器包括3层普通卷积;
所述自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;
预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块;特征推理模块用于根据需要修复的位置进行修复,得到修复后的特征图,然后将特征图反馈给预处理模块,预处理模块再输入特征推理模块输出特征图,特征推理模块跟预处理模块进行连接重复处理4-8次并保存每一次的特征图,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。
预处理模块由两层部分卷积构成,将更新后的掩膜和特征图经过归一化层和一层激活函数后,送到特征推理模块。部分卷积是更新二进制掩码,如果当前卷积的结果有至少一个有效输入值的条件,则对应的位置对于下一个部分卷积层是有效的。归一化层将特征图中让每个特征都有均值为0,方差为1的分布,使分布相对稳定。激活函数采用了Relu,激活层作用就是增加了神经网络各层之间的非线性关系。
特征推理模块是采用跳远连接的编码器和解码器,模块的输入是一个特征图和当前轮次的掩码图,模块的中间是一个现有的知识一致性注意力机制(KCA),知识一致性注意力机制融合了相邻两次循环中的信息来计算注意力来控制特征图的不连续性。输出是当前轮次修复后的特征图,特征推理模块与步骤1的预处理模块联合重复六次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。特征推理模块的目标是用尽可能高质量的特征值填充识别区域。
自适应门控特征融合模块中,特征图通过前两个模块已经迭代若干次,直接使用最后的特征图会出现梯度消失的情况,本发明采用多次门控卷积循环输出的多个特征图融合成一个特征图,然后输出特征图。
本发明利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。本发明的图像修复针对碑文文本图像,对碑文的随机涂抹区域的有效像素进行学习,加强了像素的联系性。传统的卷积生成特征图时会包含大量的冗余特征信息,不同的特征图业会出现相似的情况从而产生多余的信息,从而导致修复的效果很差,本发明在自适应门控特征融合模块中加入了门控卷积,利用门控卷积代替普通卷积对传入的特征图进行融合,减少了深层网络中的特征冗余,可以在深层的网络中,增加特征图的感受野,减少特征冗余,提高碑文文本图像的结构性修复效果。
优选的,预处理模块第一次接收的是传入的真实图和掩码图像,之后就是接收特征推理模块传入的特征图和掩码图,特征图是当前轮次特征推理模块修复后的特征图,掩码图为在修复一轮之后,前一轮掩码图收缩一圈后的结果。根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新,掩膜图像中,1表示有效像素,0表示无效像素。如果在一个卷积窗口中,该窗口掩膜值之和大于0,则卷积后的掩膜值置为1,否则仍置为0。通过每次在卷积过程中更新掩膜的方法,在经过多层卷积操作之后,最终掩膜将会全部置为1。部分卷积计算之后重新归一化特征图。碑文文字的结构信息不受彩色像素的影响,将预处理模块网络的输入层设置为单通道,可以有效地减少图像以及mask的更新的成本。
预处理模块中部分卷积在卷积的过程中,只对有效像素进行操作,输入的掩码在卷积层里更新完成,掩码也在部分卷积的层数加深之下不断进行收缩;
部分卷积层的计算公式如下:
公式中:表示在第z通道x,y像素位置的特征值;Wz是通道z的卷积核;fx,y和mx,y是以x,y为中心并且尺寸与卷积核一样的输入特征块和掩码块;b表示卷积层滤波器的偏差,/>为放缩因子。
优选的,预处理模块由部分卷积新生成位置i,j的掩码值公式为:
优选的,特征推理模块中,特征推理模块与预处理模块循环迭代优选为6次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。
优选的,在训练阶段,为计算出预测值和真实值之间的差异值,碑文文字图像修复模型总体更新所用的损失函数包括感知损失Lperceptual、风格损失Lstyle、待填充区域的L1损失Lmask以及非待填充区域的L1损失Lunmask四部分;
感知损失Lperceptual是真实图像生成的特征图与预测图像生成的特征图采用Vgg-16的特征输出,由于传入的特征图与预测图像都是灰度图,传统的Vgg16也是在彩色图像训练的,不适合碑文图像,Vgg-16改变为适合灰度图的输入层,感知损失Lperceptual如下所示:
其中Φ代表VGG16网络,i代表VGG16的第i层的特征图作为使用输出,将VGG16设置为训练单通道灰度图的网络层,Hi,Wi,Ci分别为VGG16的第i层的高、宽、通道数;N为在VGG的第i层的特征点数量;Iout为输出的特征图像,Igt为真实图像。
优选的,采用了VGG16是可以识别输入图像在特征图的像素级差别,风格损失保证了图像的颜色和图案的相似性,并且对转置卷积产生的棋盘效应有一定缓解效果;
计算风格损失Lstyle如下所示:
其中Φ代表VGG16网络,j代表VGG16的第j层的特征图作为使用输出,Cj,Hj,Wj分别代表高、宽、通道数,G代表计算格拉姆矩阵,是每个通道c的特征图和每个通道c′的特征图的内积。
优选的,待填充区域的L1损失如下所示
n表示训练样本数量,i表示当前样本,Mi表示当前样本的掩码图,Igt表示当前训练真实的图像,Iout表示当前模型训练后修复输出的特征图像;
非待填充区域的L1损失如下所示
n表示训练样本数量,i表示当前样本,Mi表示当前样本的掩码图,Igt表示当前训练真实的图像,Iout表示当前模型训练后修复输出的特征图像。
优选的,碑文文字图像修复模型总的损失函数为:
Ltotal=λmaskLmask+λunmaskLunmask+λstyleLstyle+λperceptualLperceptual
其中λmask、λunmask、λstyle、λperceptual分别代表对应损失函数的权重值,可根据时间需要取值,如权重值λstyle可为120。
本发明提供一种基于深度学习的碑文文字图像渐进式修复方法,针对现实场景下,碑文文字存在的破损以及涂抹不均匀以及自然风化等原因造成的不规则破坏等情况下,提出了基于渐进式的碑文文字图像修复模型;
一种基于渐进式的碑文文字图像修复模型的修复方法,包括如下步骤:
(1)碑文数据集收集;
收集书法家的博物馆馆藏碑文的文本图像;
(2)将收集的碑文数据集进行预处理,对碑文数据集的单字进行提取;
(3)利用Python生成相同图像大小的掩码数据集,将掩码图像和训练集的单字图像传入到碑文文字图像修复模型当中训练,保存训练之后得到的模型文件;
(4)将待修复的图像,利用步骤(3)训练好的碑文文字图像修复模型机进行修复。
优选的,碑文汉字间隔匀称、布局合理,单个汉字提取简单,如图3所示,步骤(2)的具体实现步骤为:
2.1、对碑文的汉字进行分割,分割后的每张图片代表一个汉字;
2.2、判断分割后的汉字是否破损,若破损则丢弃,反之进行步骤2.3;
2.3、利用OpenCV对单字图像进行预处理:
碑文由于时间以及保存条件的改变,字体周围会有腐蚀磨损,表现在数字图像上的是图像噪点,依次进行降噪、高斯滤波和阈值处理,利用反色将文字变成白底黑字;OpenCV作为开源的计算机视觉库,有丰富的python接口,提供了很多计算机视觉处理方法,本发明利用OpenCV的fastNlMeansDenoisingColored方法对分割后的头像进行
本发明进行了图片降噪并且单字分割,将碑文文字分割为单字的数据集,碑文文字图像对于背景纹理要求不高,为了追求文字修复效果,本发明将数据集进行二值化处理得到纯净文本图像,将文字结构信息都保留下来,使模型学习文字结构信息并生成风格一致的文本图像;
3.4、将单字图像设置大小为128像素的图片,然后利用欧阳询风格字体作为补充,将所有单字图像分为训练集和测试集。
本发明未详尽之处,均可参见现有技术。
本发明的有益效果为:
1、传统的对抗生成网络,对抗生成网络的模型会产生一些错误的字符结构,令修复结果只是看起来像字但是错误的结果,碑文是书法的一种表现形式,具有较强的字体风格。本发明利用的是带注意力机制的编码器和解码器结构,在对于掩码的网络边缘进行渐进性修复,是根据像素间的联系进行修复,不会产生错误的字符,并且针对碑文文本图像的风格化具有一定的修复和还原作用。
2、本发明的数据集利用的是单通道的二值图像,可以更好地针对碑文文字的特征提取,相较于彩色图像,更好地节省了图像修复模型的训练成本。由于碑文大多都是在黑灰色的碑石,利用二值图像可以更好地还原碑文,加强修复过程中的特征提取,从而提升修复效果。
3、利用的掩码图像是不规则的随机涂抹图像,可以针对碑文文字的不规则破损进行图像修复。现实情景中,碑文的损坏大多都是随机性的,本发明的掩码图像选用具有更好的现实性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的基于渐进式的碑文文字图像修复模型的结构示意图;
图2为本发明的整理收集到的碑文数据集收集的流程示意图;
图3为本发明的碑文单字文本图像提取过程图;
图4为本发明的自适应门控特征融合模块的改进示意图;
图5为掩码图像与碑文本文图像以及融合后的效果;
图6为碑文图像修复结果的展示。
具体实施方式:
为了使本技术领域的人员更好的理解本说明书中的技术方案,下面结合本说明书实施中的附图,对本发明书实施例中的技术方案进行清楚、完整的描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1
一种基于渐进式的碑文文字图像修复模型,包括依次连接的预处理模块、特征推理模块和自适应门控特征融合模块;
所述预处理模块包括两层部分卷积,用于根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新;
所述特征推理模块包括编码器、解码器以及位于编码器和解码器之间的知识一致性注意力机制(KCA),编码器包括6层普通卷积,解码器包括3层普通卷积;
所述自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;
预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块;特征推理模块用于根据需要修复的位置进行修复,得到修复后的特征图,然后将特征图反馈给预处理模块,预处理模块再输入特征推理模块输出特征图,特征推理模块跟预处理模块进行连接重复处理4-8次并保存每一次的特征图,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。
如图1所示,碑文文本图像和掩码图传入的两层是部分卷积,箭头表示与特征推理模块的连接。预处理模块由两层部分卷积构成,将更新后的掩膜和特征图经过归一化层和一层激活函数后,送到特征推理模块。部分卷积是更新二进制掩码,如果当前卷积的结果有至少一个有效输入值的条件,则对应的位置对于下一个部分卷积层是有效的。归一化层将特征图中让每个特征都有均值为0,方差为1的分布,使分布相对稳定。激活函数采用了Relu,激活层作用就是增加了神经网络各层之间的非线性关系。
特征推理模块是采用跳远连接的编码器和解码器,模块的输入是一个特征图和当前轮次的掩码图,模块的中间是一个现有的知识一致性注意力机制(KCA),知识一致性注意力机制融合了相邻两次循环中的信息来计算注意力来控制特征图的不连续性。输出是当前轮次修复后的特征图,特征推理模块与步骤1的预处理模块联合重复六次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。特征推理模块的目标是用尽可能高质量的特征值填充识别区域。
自适应门控特征融合模块中,特征图通过前两个模块已经迭代若干次,直接使用最后的特征图会出现梯度消失的情况,本发明采用多次门控卷积循环输出的多个特征图融合成一个特征图,然后输出特征图。
本发明利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。本发明的图像修复针对碑文文本图像,对碑文的随机涂抹区域的有效像素进行学习,加强了像素的联系性。传统的卷积生成特征图时会包含大量的冗余特征信息,不同的特征图业会出现相似的情况从而产生多余的信息,从而导致修复的效果很差,本发明在自适应门控特征融合模块中加入了门控卷积,利用门控卷积代替普通卷积对传入的特征图进行融合,减少了深层网络中的特征冗余,可以在深层的网络中,增加特征图的感受野,减少特征冗余,提高碑文文本图像的结构性修复效果。
本发明的自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;第3~8层的改变如图4所示,采用门控卷积代替普通卷积,在特征融合模块中减少由于网络深层网络带来的特征冗余,增强了碑文文字图像的结构性修复,加深网络,达到更好的修复效果,提高了修复效果,提升文字修复的图像质量。
普通卷积不适合深层的图像修复,普通卷积将每一个像素都当成有效值去计算的,普通卷积也会对特征图中缺失的区域进行计算,从而会造成特征冗余,门控卷积会通过使用卷积和sigmoid函数来使得网络去学习这种区分,保证卷积操作仅针对有效像素,经过第9层门控卷积将多次门控卷积循环输出的多个特征图融合成一个特征图,之后输出最后的修复结果。
此外,现有的方法大多是两级网络结构或基于GAN的网络结构。这种类型的网络结构消耗计算资源,并且网络没有经过良好的训练,容易过拟合。
自适应门控特征融合模块将特征推理模块的特征映射进行合并。由于保存的不同特征图的掩膜区域不相同,合并特征图可以有效避免某些位置的值过于突兀,导致预测图像的纹理或结构不一致。并且因为卷积生成特征图时会包含大量的冗余特征信息,不同的特征图业会出现相似的情况从而产生多余的信息,从而导致修复的效果很差,如图4所示,使用门控代替卷积,这样可以减少特征冗余。
实施例2
一种基于渐进式的碑文文字图像修复模型,如实施例1所述,所不同的是,预处理模块第一次接收的是传入的真实图和掩码图像,之后就是接收特征推理模块传入的特征图和掩码图,特征图是当前轮次特征推理模块修复后的特征图,掩码图为在修复一轮之后,前一轮掩码图收缩一圈后的结果。根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新,掩膜图像中,1表示有效像素,0表示无效像素。如果在一个卷积窗口中,该窗口掩膜值之和大于0,则卷积后的掩膜值置为1,否则仍置为0。通过每次在卷积过程中更新掩膜的方法,在经过多层卷积操作之后,最终掩膜将会全部置为1。部分卷积计算之后重新归一化特征图。碑文文字的结构信息不受彩色像素的影响,将预处理模块网络的输入层设置为单通道,可以有效地减少图像以及mask的更新的成本。
预处理模块中部分卷积在卷积的过程中,只对有效像素进行操作,输入的掩码在卷积层里更新完成,掩码也在部分卷积的层数加深之下不断进行收缩;
部分卷积层的计算公式如下:
公式中:fx*,y,z表示在第z通道x,y像素位置的特征值;Wz是通道z的卷积核;fx,y和mx,y是以x,y为中心并且尺寸与卷积核一样的输入特征块和掩码块;b表示卷积层滤波器的偏差,为放缩因子。
预处理模块由部分卷积新生成位置i,j的掩码值公式为:
特征推理模块中,特征推理模块与预处理模块循环迭代优选为6次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。
实施例3
一种基于渐进式的碑文文字图像修复模型,如实施例2所述,所不同的是,在训练阶段,为计算出预测值和真实值之间的差异值,碑文文字图像修复模型总体更新所用的损失函数包括感知损失Lperceptual、风格损失Lstyle、待填充区域的L1损失Lmask以及非待填充区域的L1损失Lunmask四部分;
感知损失Lperceptual是真实图像生成的特征图与预测图像生成的特征图采用Vgg-16的特征输出,由于传入的特征图与预测图像都是灰度图,传统的Vgg16也是在彩色图像训练的,不适合碑文图像,Vgg-16改变为适合灰度图的输入层,感知损失Lperceptual如下所示:
其中Φ代表VGG16网络,i代表VGG16的第i层的特征图作为使用输出,将VGG16设置为训练单通道灰度图的网络层,Hi,Wi,Ci分别为VGG16的第i层的高、宽、通道数;N为在VGG的第i层的特征点数量;Iout为输出的特征图像,Igt为真实图像。
采用了VGG16是可以识别输入图像在特征图的像素级差别,风格损失保证了图像的颜色和图案的相似性,并且对转置卷积产生的棋盘效应有一定缓解效果;
计算风格损失Lstyle如下所示:
其中Φ代表VGG16网络,j代表VGG16的第j层的特征图作为使用输出,Cj,Hj,Wj分别代表高、宽、通道数,G代表计算格拉姆矩阵,是每个通道c的特征图和每个通道c′的特征图的内积。
待填充区域的L1损失如下所示
n表示训练样本数量,i表示当前样本,Mi表示当前样本的掩码图,Igt表示当前训练真实的图像,Iout表示当前模型训练后修复输出的特征图像;
非待填充区域的L1损失如下所示
n表示训练样本数量,i表示当前样本,Mi表示当前样本的掩码图,Igt表示当前训练真实的图像,Iout表示当前模型训练后修复输出的特征图像。
碑文文字图像修复模型总的损失函数为:
Ltotal=λmaskLmask+λunmaskLunmask+λstyleLstyle+λperceptualLperceptual
其中λmask、λunmask、λstyle、λperceptual分别代表对应损失函数的权重值,可根据时间需要取值,如权重值λstyle可为120。
实施例4
一种基于渐进式的碑文文字图像修复模型的修复方法,包括如下步骤:
(1)碑文数据集收集;
收集书法家的博物馆馆藏碑文的文本图像,本实施例中主要收集了欧阳询的碑文文字数据集,包括了欧阳询的《九成宫醴泉铭》和《皇甫诞碑》,欧阳询的书法广采各家之长,书法成就以楷书为最,后人称为“欧体”。他的楷书特点严谨工整、平正峭劲,字体结构规整并且可认度高,其书法作品众多有利于构建用于模型训练的数据集;
(2)将收集的碑文数据集进行预处理,对碑文数据集的单字进行提取;
(3)利用Python生成相同图像大小的掩码数据集,如图5所示,最左边的图是生成的掩码图像,第2个图像为真实的碑文文本图像,将这两个图像传入模型之后会融合成为涂抹后的碑文文本图像如第3个图像,将掩码图像和训练集的单字图像传入到碑文文字图像修复模型当中训练,保存训练之后得到的模型文件;
(4)将待修复的图像,利用步骤(3)训练好的碑文文字图像修复模型机进行修复。
得到的修复效果如图6所示,其中,第一行是输入的碑文涂抹图片,第二行是本发明输出修复后的结果,第三到五行是其他算法修复的结果,第六行是真实图像。
从图6可看出,本发明的修复效果突出,方框标记出来的位置明显可以看到其他修复模型对于碑文文字的结构性修复效果不佳,有的存在笔划上的错误和缺少明显的结构特征,而本发明的修复效果对比之下效果良好。
实施例5
一种基于渐进式的碑文文字图像修复模型的修复方法,如实施例4所述,所不同的是,碑文汉字间隔匀称、布局合理,单个汉字提取简单,如图3所示,步骤(2)的具体实现步骤为:
2.1、对碑文的汉字进行分割,分割后的每张图片代表一个汉字;
2.2、判断分割后的汉字是否破损,若破损则丢弃,反之进行步骤2.3;
2.3、利用OpenCV对单字图像进行预处理:
碑文由于时间以及保存条件的改变,字体周围会有腐蚀磨损,表现在数字图像上的是图像噪点,依次进行降噪、高斯滤波和阈值处理,利用反色将文字变成白底黑字;OpenCV作为开源的计算机视觉库,有丰富的python接口,提供了很多计算机视觉处理方法,本发明利用OpenCV的fastNlMeansDenoisingColored方法对分割后的头像进行
本发明进行了图片降噪并且单字分割,将碑文文字分割为单字的数据集,碑文文字图像对于背景纹理要求不高,为了追求文字修复效果,本发明将数据集进行二值化处理得到纯净文本图像,将文字结构信息都保留下来,使模型学习文字结构信息并生成风格一致的文本图像;
3.4、将单字图像设置大小为128像素的图片,然后利用欧阳询风格字体作为补充,将所有单字图像分为训练集和测试集。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,包括如下步骤:
(1)碑文数据集收集;
收集书法家的博物馆馆藏碑文的文本图像;
(2)将收集的碑文数据集进行整理,对碑文数据集的单字进行提取;
(3)利用Python生成相同图像大小的掩码数据集,将掩码图像和训练集的单字图像传入到碑文文字图像修复模型当中训练,保存训练之后得到的模型文件;
(4)将待修复的图像,利用步骤(3)训练好的碑文文字图像修复模型机进行修复;
碑文文字图像修复模型包括依次连接的预处理模块、特征推理模块和自适应门控特征融合模块;
所述预处理模块包括两层部分卷积,用于根据掩码图对特征图进行有效像素的部分卷积并且对掩码图进行更新;
所述特征推理模块包括编码器、解码器以及位于编码器和解码器之间的知识一致性注意力机制,编码器包括6层普通卷积,解码器包括3层普通卷积;
所述自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;
预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块;特征推理模块用于根据需要修复的位置进行修复,得到修复后的特征图,然后将特征图反馈给预处理模块,预处理模块再输入特征推理模块输出特征图,特征推理模块跟预处理模块进行连接重复处理4-8次并保存每一次的特征图,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。
2.根据权利要求1所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,预处理模块中部分卷积在卷积的过程中,只对有效像素进行操作,输入的掩码在卷积层里更新完成,掩码也在部分卷积的层数加深之下不断进行收缩;
部分卷积层的计算公式如下:
公式中:表示在第z通道x,y像素位置的特征值;Wz是通道z的卷积核;fx,y和mx,y是以x,y为中心并且尺寸与卷积核一样的输入特征块和掩码块;b表示卷积层滤波器的偏差,为放缩因子。
3.根据权利要求2所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,预处理模块由部分卷积新生成位置i,j的掩码值公式为:
4.根据权利要求1所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,特征推理模块中,特征推理模块与预处理模块循环迭代为6次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。
5.根据权利要求1所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,碑文文字图像修复模型总体更新所用的损失函数包括感知损失Lperceptual、风格损失Lstyle、待填充区域的L1损失Lmask以及非待填充区域的L1损失Lunmask四部分;
感知损失Lperceptual是真实图像生成的特征图与预测图像生成的特征图采用Vgg-16的特征输出,Vgg-16改变为适合灰度图的输入层,感知损失Lperceptual如下所示:
其中Φ代表VGG16网络,i代表VGG16的第i层的特征图作为使用输出,将VGG16设置为训练单通道灰度图的网络层,Hi,Wi,Ci分别为VGG16的第i层的高、宽、通道数;N为在VGG的第i层的特征点数量;Iout为输出的特征图像,Igt为真实图像。
6.根据权利要求5所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,计算风格损失Lstyle如下所示:
其中Φ代表VGG16网络,j代表VGG16的第j层的特征图作为使用输出,Cj,Hj,Wj分别代表高、宽、通道数,G代表计算格拉姆矩阵,是每个通道c的特征图和每个通道c′的特征图的内积。
7.根据权利要求6所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,待填充区域的L1损失如下所示
n表示训练样本数量,i表示当前样本,Mi表示当前样本的掩码图,Igt表示当前训练真实的图像,Iout表示当前模型训练后修复输出的特征图像;
非待填充区域的L1损失如下所示
n表示训练样本数量,i表示当前样本,Mi表示当前样本的掩码图,Igt表示当前训练真实的图像,Iout表示当前模型训练后修复输出的特征图像。
8.根据权利要求7所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,碑文文字图像修复模型总的损失函数为:
Ltotal=λmaskLmask+λunmaskLunmask+λstyleLstyle+λperceptualLperceptual
其中λmask、λunmask、λstyle、λperceptual分别代表对应损失函数的权重值。
9.根据权利要求8所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,步骤(2)的具体实现步骤为:
2.1、对碑文的汉字进行分割,分割后的每张图片代表一个汉字;
2.2、判断分割后的汉字是否破损,若破损则丢弃,反之进行步骤2.3;
2.3、利用OpenCV对单字图像进行预处理:
依次进行降噪、高斯滤波和阈值处理,利用反色将文字变成白底黑字;
3.4、将单字图像设置大小为128像素的图片,将所有单字图像分为训练集和测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310280081.4A CN116385289B (zh) | 2023-03-22 | 2023-03-22 | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310280081.4A CN116385289B (zh) | 2023-03-22 | 2023-03-22 | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116385289A CN116385289A (zh) | 2023-07-04 |
CN116385289B true CN116385289B (zh) | 2024-03-19 |
Family
ID=86966724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310280081.4A Active CN116385289B (zh) | 2023-03-22 | 2023-03-22 | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385289B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455813B (zh) * | 2023-11-15 | 2024-06-21 | 齐鲁工业大学(山东省科学院) | 基于门控卷积和scpam注意力模块的遮挡手写病历汉字图像修复方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013098376A (ja) * | 2011-11-01 | 2013-05-20 | Denso Corp | 表面実装部品の補修方法およびこれに用いるマスク部材 |
CN114862721A (zh) * | 2022-05-26 | 2022-08-05 | 天津大学 | 一种考虑汉字字形结构特征的汉字图像修复算法 |
CN115797216A (zh) * | 2022-12-14 | 2023-03-14 | 齐鲁工业大学 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
-
2023
- 2023-03-22 CN CN202310280081.4A patent/CN116385289B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013098376A (ja) * | 2011-11-01 | 2013-05-20 | Denso Corp | 表面実装部品の補修方法およびこれに用いるマスク部材 |
CN114862721A (zh) * | 2022-05-26 | 2022-08-05 | 天津大学 | 一种考虑汉字字形结构特征的汉字图像修复算法 |
CN115797216A (zh) * | 2022-12-14 | 2023-03-14 | 齐鲁工业大学 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116385289A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN112308860B (zh) | 基于自监督学习的对地观测图像语义分割方法 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN111127346A (zh) | 基于部分到整体注意力机制的多层次图像修复方法 | |
Guo et al. | Shadowformer: Global context helps image shadow removal | |
Kang et al. | Ddcolor: Towards photo-realistic image colorization via dual decoders | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN113505772B (zh) | 基于生成对抗网络的车牌图像生成方法及系统 | |
CN114742714A (zh) | 一种基于骨架提取及对抗学习的汉字图像修复算法 | |
CN116385289B (zh) | 一种基于渐进式的碑文文字图像修复模型及修复方法 | |
CN114170088A (zh) | 一种基于图结构数据的关系型强化学习系统及方法 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN112837320A (zh) | 一种基于并行空洞卷积的遥感影像语义分割方法 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
Wang et al. | Image inpainting with edge-guided learnable bidirectional attention maps | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN116934613A (zh) | 一种用于文字修复的分支卷积通道注意力模块 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
CN116228576A (zh) | 基于注意力机制与特征增强的图像去雾方法 | |
Liu et al. | Old-Photo Restoration with Detail-and Structure-Enhanced Cascaded Learning | |
Yang et al. | Face inpainting via learnable structure knowledge of fusion network | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 | |
CN114898096A (zh) | 一种人物图像的分割和标注方法及系统 | |
CN111462006B (zh) | 一种多目标的图像补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |