CN115797216A - 一种基于自编码网络的碑文文字修复模型及修复方法 - Google Patents
一种基于自编码网络的碑文文字修复模型及修复方法 Download PDFInfo
- Publication number
- CN115797216A CN115797216A CN202211606317.0A CN202211606317A CN115797216A CN 115797216 A CN115797216 A CN 115797216A CN 202211606317 A CN202211606317 A CN 202211606317A CN 115797216 A CN115797216 A CN 115797216A
- Authority
- CN
- China
- Prior art keywords
- inscription
- model
- characters
- generator
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000004913 activation Effects 0.000 claims abstract description 24
- 230000008439 repair process Effects 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 239000003550 marker Substances 0.000 abstract 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 12
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000010339 dilation Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于自编码网络的碑文文字修复模型及修复方法,属于碑文文字修复领域。本发明采用上下文编码器,包括生成器和判别器,其中生成器采用变分自编码器,包括一个编码器和解码器;每一个卷积模块都有激活函数层,C2~C5层采用ReLU激活函数,C1层、C6~C9层和DC1~DC4层均采用ELU激活函数,C10层采用Tanh激活函数。本发明选择的基础模型是变分自编码器,变分自编码器的编码器不向解码器传递局部特征,降低了模型的复杂度。变分自编码器结合GAN网络使修复模型更稳定,模型易于训练,比较容找到模型的最优解。
Description
技术领域
本发明涉及一种基于自编码网络的碑文文字修复模型及修复方法,是一种端到端的修复网络,属于碑文文字修复技术领域。
背景技术
现有技术中,文字修复模型较多,但是目前没有针对碑文修复的神经网络模型,碑文修复属于文字修复的一个子问题,其过程更加复杂。
中国的汉字结构性强,传统的图像修复方法无法完成该任务。近几年人工智能领域特别是深度学习技术的迅速发展,尤其是数字图像处理技术的发展为文字的自动修复提供了可能。
传统的图像修复算法主要有偏微分方程和补丁匹配,这两类方法都不能成出图像缺失的部分。偏微分方程方法是根据周围已知像素分布规律建立抛物型方程,利用方程将像素值扩散到破损区域。这类方法只能修复一些老照片的划痕,不能修复大坑洞,并且求解高维抛物型方程的数值解也存在很大难度。
补丁匹配方法从图像角度去修复,用图像中未破损部分匹配度最高的像素块去填充坑洞,甚至可以从外部数据库去搜索匹配度高的像素块去填充。
这两类传统的图像修复方法都缺乏对图像语义信息的理解,无法根据语义信息生成出缺失的部分,更无法应用到文字修复。
以神经网络为基础的文字修复分为两类,一类是以提高不完整手写汉字的识别准确率为目标,另一类以数字化保护古籍文献为目的,第二类有GAN和U-net两种模型。基于GAN和U-net网络的两种模型都有缺陷,特别是基于GAN网络的模型。GAN模型的输入是随机噪声和标签,网络模型没有学习文字的语义结构信息,不能根据文字的语义信息进行图像生成,只能根据标签的信息进行定向图像生成。基于U-net网络的模型可以学习文字的语义结构信息,但U-net网络中每层编码器都向对应的解码器传递局部结构信息,导致U-net网络作为文字修复网络的生成器时稳定性低,不易训练。
发明内容
针对现有技术的不足,本发明提供一种基于自编码网络的碑文文字修复模型及修复方法。
本发明采用以下技术方案:
一种基于自编码网络的碑文文字修复模型,采用上下文编码器,包括生成器和判别器,其中生成器采用变分自编码器,包括一个编码器和解码器;
生成器包括卷积层C1层、4层扩张卷积C2~C5层,卷积层C6~C9层、4层反卷积DC1~DC4层以及卷积层C10层,判别器包括4层卷积层C11~C14层和一层全连接层;
每一个卷积模块都有激活函数层,C2~C5层采用ReLU激活函数,C1层、C6~C9层和DC1~DC4层均采用ELU激活函数,C10层采用Tanh激活函数。
本发明采用上下文编码器,结合GAN网络后稳定性高,易于训练,并且变分自编码器也可以学习碑文文字的语义结构信息。
此外,本发明在变分自编码网络前面加入4层扩张卷积,可以更准确的学习到破损碑文文字的语义特征信息。将除扩张卷积外的LeakyReLU和ReLU激活函数替换为ELU激活函数,可以增加模型的鲁棒性。
本发明生成器的详细参数如表1所示,生成器的输入是遮挡的碑文文字,输出是重建的碑文文字。判别器的参数如表2所示;
表1:生成器参数
表2:判别器参数
优选的,生成器的编码器负责学习遮挡碑文文字的结构语义特征,加上编码器前面的四层扩张卷积,编码器能学习到更准确的语义特征;编码器将学习到碑文文字的语义特征传递给生成器的解码器,解码器根据学习到的语义特征反卷积进行碑文文字的重建;将修复好的碑文文字和对应的原碑文文字输入到判别器,输出该文字为原碑文文字的概率;
前向传播完成后(前向传播就是数据集从模型输入到输出的过程。神经网络模型是一个非常复杂的嵌套函数f(x),数据集是x,将x根据函数映射到x’就是前向传播。反向传播就是根据模型输出的数据和原数据的差别优化模型,其实就是一个求导的过程。相当于根据x和x’的差别,调整f(x)的参数),通过均方差损失函数和交叉熵损失函数分别计算重建损失和对抗损失;将模型的梯度清零(梯度是一个向量,用来指明在函数的某一点,沿着哪个方向函数值上升最快,这个向量的模指明函数值上升程度(速度)的大小),反向传播,根据重建损失和对抗损失的联合损失使用Adam优化器优化模型的生成器和判别器;
模型的生成器和判别器不断优化,最后达到一种平衡,生成器生成出的碑文文字能骗过判别器的识别(在GAN网络中,生成器的图像生成能力和判别器的图像识别能力会达到一种纳什均衡,生成器生成出的碑文文字能骗过判别器是指判别器不能识别出一个文字是原文字还是生成器生成的),判别器能识别出生成器生成的碑文文字和原碑文文字。
优选的,模型的重建损失如下式所示:
其中,x是指原文字图像,M是掩码函数,将64*64大小的原图输入到掩码函数中,得到一张随机位置遮挡25%面积的遮挡图;G是模型的生成器,将遮挡图输入到生成器中,重建输出碑文文字;
模型的对抗损失如下式所示:
其中,D是判别器,判别输入的碑文文字是原碑文文字还是生成器重建的碑文文字;该损失函数的思想来自于GANs,加入该损失函数可以使重建的碑文文字看起来更真实一些;
联合损失函数是加权重建损失和对抗损失,如下所示:
Lloss(x)=(1-λ)Lrec+λLadv
其中,Lrec是重建损失,Ladv是对抗损失,λ是总的损失函数的权重。
优选的,λ=0.001。
优选的,数据集是神经网络中至关重要的一部分,本发明以柳公权的《玄秘塔碑》和《金钢经》中的碑文文字作为模型的训练集和测试集,其中模型训练集有4000张碑文文字图像。
由于人为因素或自然因素,大量现存碑文文字损毁严重,表面模糊不清,文字难以识别,导致传统的数字化技术难以得到较好的视觉效果。
数据集的预处理过程如图1所示,对预处理完的图像进行遮挡处理,模拟实际破坏的碑文文字,碑文文字在随机位置遮挡25%面积的矩形方块。然后图像的标准化,将像素值压缩到-1~1之间,然后按批次输入模型。
在模型训练时,将遮挡的碑文文字分批输入到生成器中,输出完整的碑文文字,然后把生成的碑文文字和对应的原碑文文字输入到判别器判别,不断循环训练,优化生成器和判别器。判别器的作用是辅助生成器的训练,使生成器生成出的碑文文字更真实。
生成器的编码器负责学习遮挡碑文文字的结构语义特征,加上编码器前面的四层扩张卷积,编码器能学习到更准确的语义特征(扩张卷积是在标准卷积的基础上增加了卷积核的坑洞,这样可以增加卷积核的感受野,卷积核的感受野大了就可以学习到更多的语义特征,相对学习到的语义特征更加准确。
编码器将学习到碑文文字的语义特征传递给生成器的解码器,解码器根据学习到的语义特征反卷积进行碑文文字的重建。
本发明的训练集有4000张图像,批大小为32,共训练300轮,每轮循环125次。每轮训练都将4000张碑文文字图像训练一遍。
模型训练完后,保存模型生成器的所有权重参数,以便后面测试。本发明用到的实验性神经网络框架为Tensorflow,训练模型的显卡是NVIDIA的GTX2080Ti,操作系统为Win11家庭版。
模型权重参数保存后,测试模型的碑文文字修复效果。模型输出重建碑文文字后,对其进行像素向上取整纠错。
本发明用到的数据集是单通道二值图像,只有0和255两个像素值,这是根据碑文文字的特点做地预处理。相比一般的图像,碑文文字没有丰富的色彩信息,但有更复杂的结构信息。因此两个像素值完全可以表示碑文文字,碑文文字的修复更要注重碑文文字的结构信息。
输入到模型中的碑文文字只有两个像素值,如果模型重建输出的碑文文字是正确的,那么也只有两个像素值。模型输出碑文文字的像素值即使是正确的,也会略有偏差,要么接近-1,要么接近1。
对输出的像素值进行向上取整,接近-1的像素值就能取到-1,接近1的像素值取到1,这样会大大减小碑文文字总体上的像素值损失。
一种基于自编码网络的碑文文字修复模型的修复方法,包括以下步骤:
(1)碑文数据集收集;
(2)将收集的碑文数据集借用Opencv工具包进行数据预处理,首先对截取出的碑文文字做去噪处理,调用Opencv的去噪函数和高斯滤波器去噪;然后阈值处理,将碑文文字处理成单通道二值图像;最后重置碑文文字的大小,重置成模型输入的大小64x64x1;
(3)将预处理后的图像进行标准化,并分配训练集和测试集;
(4)将训练集输入碑文文字修复模型,对模型进行训练、测试,得到训练后的碑文文字修复模型;
(5)将预处理后的待修复的碑文文字输入已训练好的碑文文字修复模型,遮挡碑文文字输入到生成器,经过编码器的学习和解码器的重建,模型的生成器输出修复好的碑文文字;
(6)在模型输出重建后的碑文文字后对其进行像素向上取整纠错。
优选的,神经网络用到的数据集图像大多是8位图,图像像素值的范围是0-255,标准化是将像素值的范围从0-255压缩到-1~1之间,修复完后再扩大到0-255,单通道二值图为一个二阶矩阵,即将像素值压缩到-1~1之间。
首先,本发明借用Opencv工具包对数据集进行了预处理,得到了比较好的视觉效果。其次,本发明对上下文编码器了改进,加入的扩张卷积能让编码器学习到更准确的语义特征,碑文文字没有色彩,有的只是结构和轮廓;其次用ELU激活函数替换LeakyReLU/ReLU激活函数,增加了模型的鲁棒性;最后对模型输出的碑文文字进行像素值向上取整,可以大大减少像素值的损失。
本发明未详尽之处,均可采用现有技术。
本发明的有益效果为:
本发明改进模型的重建输出为整个碑文文字,不仅仅是缺失部分,可以修复任意位置、任意大小补丁的碑文文字。输入为整张遮挡碑文文字,输出整张碑文文字,模型的输入和输出是对称的,语义信息也是对称的,输出相对更准确。
本发明用到的数据集是单通道二值图像,不仅降低了碑文文字修复的难度,也节省了模型优化时的计算资源。碑文文字就只有黑色石碑和文字,处理成二值图像有更好地视觉效果。模型的输入是二值图像,可以将模型扩展到二值图像修复。
本发明选择的基础模型是变分自编码器,变分自编码器的编码器不向解码器传递局部特征,降低了模型的复杂度。变分自编码器结合GAN网络使修复模型更稳定(对抗损失即结合GAN的体现,变分自编码器自身只有重建损失,而结合GAN网络后,上下文编码器有一个生成器,还有一个判别器,有重建损失,也有对抗损失),模型易于训练,比较容找到模型的最优解。
附图说明
图1为数据预处理的过程示意图;本发明截取出柳公权的《玄秘塔碑》和《金钢经》中的碑文文字组成数据集。该过程主要借助Opencv函数库对数据集进行预处理;
图2为预处理提取出的部分碑文文字,即经过预处理组成模型的训练;
图3为本发明的修复模型简图,由一个生成器和判别器组成,其中生成器是一个变分自编码器,有一个编码器和解码器;
图4为模型训练完所有参数已不再变化,在测试集上对中心区域遮挡25%面积的碑文文字进行修复;其中,第1、4、7行是原碑文文字,第2、5、8行是中心区域遮挡25%面积的碑文文字,第3、6、9行是模型修复的碑文文字;
图5为模型进行实际碑文修复测试结果,其中遮挡区域是根据碑文文字的缺失部分遮挡的,遮挡区域要和缺失区域匹配;
图6为卷积示意图,其中(a)为标准卷积,(b)为扩张率为2的扩张卷积;
图7为基于自编码网络的碑文文字修复模型的修复方法示意图。
具体实施方式:
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1
一种基于自编码网络的碑文文字修复模型,如图3所示,采用上下文编码器,包括生成器和判别器,其中生成器采用变分自编码器,包括一个编码器和解码器;
生成器包括卷积层C1层、4层扩张卷积C2~C5层,卷积层C6~C9层、4层反卷积DC1~DC4层以及卷积层C10层,判别器包括4层卷积层C11~C14层和一层全连接层;
每一个卷积模块都有激活函数层,C2~C5层采用ReLU激活函数,C1层、C6~C9层和DC1~DC4层均采用ELU激活函数,C10层采用Tanh激活函数。
本发明采用上下文编码器,结合GAN网络后稳定性高,易于训练,并且变分自编码器也可以学习碑文文字的语义结构信息。
此外,本发明在变分自编码网络前面加入4层扩张卷积,可以更准确的学习到破损碑文文字的语义特征信息。将除扩张卷积外的LeakyReLU和ReLU激活函数替换为ELU激活函数,可以增加模型的鲁棒性,总的模型简图如图3所示。
本发明生成器的详细参数如表1所示,生成器的输入是遮挡的碑文文字,输出是重建的碑文文字。判别器的参数如表2所示;
表1:生成器参数
表2:判别器参数
实施例2
一种基于自编码网络的碑文文字修复模型,如实施例1所述,所不同的是,生成器的编码器负责学习遮挡碑文文字的结构语义特征,加上编码器前面的四层扩张卷积,编码器能学习到更准确的语义特征;编码器将学习到碑文文字的语义特征传递给生成器的解码器,解码器根据学习到的语义特征反卷积进行碑文文字的重建;将修复好的碑文文字和对应的原碑文文字输入到判别器,输出该文字为原碑文文字的概率;
前向传播完成后(前向传播就是数据集从模型输入到输出的过程。神经网络模型是一个非常复杂的嵌套函数f(x),数据集是x,将x根据函数映射到x’就是前向传播。反向传播就是根据模型输出的数据和原数据的差别优化模型,其实就是一个求导的过程。相当于根据x和x’的差别,调整f(x)的参数),通过均方差损失函数和交叉熵损失函数分别计算重建损失和对抗损失;将模型的梯度清零(梯度是一个向量,用来指明在函数的某一点,沿着哪个方向函数值上升最快,这个向量的模指明函数值上升程度(速度)的大小),反向传播,根据重建损失和对抗损失的联合损失使用Adam优化器优化模型的生成器和判别器;
模型的生成器和判别器不断优化,最后达到一种平衡,生成器生成出的碑文文字能骗过判别器的识别(在GAN网络中,生成器的图像生成能力和判别器的图像识别能力会达到一种纳什均衡,生成器生成出的碑文文字能骗过判别器是指判别器不能识别出一个文字是原文字还是生成器生成的),判别器能识别出生成器生成的碑文文字和原碑文文字。
模型的重建损失如下式所示:
其中,x是指原文字图像,M是掩码函数,将64*64大小的原图输入到掩码函数中,得到一张随机位置遮挡25%面积的遮挡图;G是模型的生成器,将遮挡图输入到生成器中,重建输出碑文文字;
模型的对抗损失如下式所示:
其中,D是判别器,判别输入的碑文文字是原碑文文字还是生成器重建的碑文文字;该损失函数的思想来自于GANs,加入该损失函数可以使重建的碑文文字看起来更真实一些;
联合损失函数是加权重建损失和对抗损失,如下所示:
Lloss(x)=(1-λ)Lrec+λLadv
其中,Lrec是重建损失,Ladv是对抗损失,λ是总的损失函数的权重,本实施例中λ=0.001。
数据集是神经网络中至关重要的一部分,本发明以柳公权的《玄秘塔碑》和《金钢经》中的碑文文字作为模型的训练集和测试集,其中模型训练集有4000张碑文文字图像。
由于人为因素或自然因素,大量现存碑文文字损毁严重,表面模糊不清,文字难以识别,导致传统的数字化技术难以得到较好的视觉效果。
数据集的预处理过程如图1所示,对预处理完的图像进行遮挡处理,模拟实际破坏的碑文文字,碑文文字在随机位置遮挡25%面积的矩形方块。然后图像的标准化,将像素值压缩到-1~1之间,然后按批次输入模型。
图3的上半部分是模型的生成器,是一个变分自编码网络,图3的每个箭头代表一步卷积操作,对应表1中的每一行,每一行对应每一步操作的参数。
图3下半部分是模型的生成器,前4层是标准卷积,最后一层是全连接层。表2的每一行应判别器的每一步卷积操作。训练模型时,默认生成的碑文文字的标签为0,原碑文文字的标签为1,判别器不断提取碑文文字的特征,然后将提取到的特征打平成一维向量,经过一个全连接层将一维向量全连接到一个数,如果这个数接近0,就认为这个碑文文字是生成的,相反就认为这个文字是原碑文文字。
在模型训练时,将遮挡的碑文文字分批输入到生成器中,输出完整的碑文文字,然后把生成的碑文文字和对应的原碑文文字输入到判别器判别,不断循环训练,优化生成器和判别器。判别器的作用是辅助生成器的训练,使生成器生成出的碑文文字更真实。
生成器的编码器负责学习遮挡碑文文字的结构语义特征,加上编码器前面的四层扩张卷积,编码器能学习到更准确的语义特征(扩张卷积是在标准卷积的基础上增加了卷积核的坑洞,这样可以增加卷积核的感受野,卷积核的感受野大了就可以学习到更多的语义特征,相对学习到的语义特征更加准确。图6(a)展示了标准卷积,图6(b)展示了扩张率为2的扩张卷积。
编码器将学习到碑文文字的语义特征传递给生成器的解码器,解码器根据学习到的语义特征反卷积进行碑文文字的重建。
本发明的训练集有4000张图像,批大小为32,共训练300轮,每轮循环125次。每轮训练都将4000张碑文文字图像训练一遍。
模型训练完后,保存模型生成器的所有权重参数,以便后面测试。本发明用到的实验性神经网络框架为Tensorflow,训练模型的显卡是NVIDIA的GTX2080Ti,操作系统为Win11家庭版。
模型权重参数保存后,测试模型的碑文文字修复效果。模型输出重建碑文文字后,对其进行像素向上取整纠错。
本发明用到的数据集是单通道二值图像,只有0和255两个像素值,这是根据碑文文字的特点做地预处理。相比一般的图像,碑文文字没有丰富的色彩信息,但有更复杂的结构信息。因此两个像素值完全可以表示碑文文字,碑文文字的修复更要注重碑文文字的结构信息。
输入到模型中的碑文文字只有两个像素值,如果模型重建输出的碑文文字是正确的,那么也只有两个像素值。模型输出碑文文字的像素值即使是正确的,也会略有偏差,要么接近-1,要么接近1。
对输出的像素值进行向上取整,接近-1的像素值就能取到-1,接近1的像素值取到1,这样会大大减小碑文文字总体上的像素值损失。
实施例3
一种基于自编码网络的碑文文字修复模型的修复方法,如图7所示,包括以下步骤:
(1)碑文数据集收集;
(2)将收集的碑文数据集借用Opencv工具包进行数据预处理,首先对截取出的碑文文字做去噪处理,调用Opencv的去噪函数和高斯滤波器去噪;然后阈值处理,将碑文文字处理成单通道二值图像;最后重置碑文文字的大小,重置成模型输入的大小64x64x1;
(3)将预处理后的图像进行标准化,并分配训练集和测试集;
(4)将训练集输入碑文文字修复模型,对模型进行训练、测试,得到训练后的碑文文字修复模型;
(5)将预处理后的待修复的碑文文字输入已训练好的碑文文字修复模型,遮挡碑文文字输入到生成器,经过编码器的学习和解码器的重建,模型的生成器输出修复好的碑文文字;
(6)在模型输出重建后的碑文文字后对其进行像素向上取整纠错。
本实施例中神经网络用到的数据集图像大多是8位图,图像像素值的范围是0-255,标准化是将像素值的范围从0-255压缩到-1~1之间,修复完后再扩大到0-255,单通道二值图为一个二阶矩阵,即将像素值压缩到-1~1之间。
首先,本发明借用Opencv工具包对数据集进行了预处理,得到了比较好的视觉效果。其次,本发明对上下文编码器了改进,加入的扩张卷积能让编码器学习到更准确的语义特征,碑文文字没有色彩,有的只是结构和轮廓;其次用ELU激活函数替换LeakyReLU/ReLU激活函数,增加了模型的鲁棒性;最后对模型输出的碑文文字进行像素值向上取整,可以大大减少像素值的损失。
加载训练好的模型对测试集碑文文字进行测试,所有碑文文字中心遮挡25%面积,经过预处理输入模型,输出重建的碑文文字。如图4所示,模型可以修复出缺失的碑文文字部分,并且重建的碑文文字的像素值是连续的,没有偏移。碑文文字不仅有结构还有轮廓,模型重建的碑文文字结构大部分是正确的,模型没有输出不存在的碑文文字。
然后对模型进行实际测试,破损的碑文文字也来自《玄秘塔碑》和《金刚经》。针对破损的碑文文字进行遮挡处理,可以根据缺失区域遮挡任意位置、任意大小。如图5所示,模型可以重建碑文文字缺失的笔画。模型对遮挡区域非常敏感,一定要将破损区域遮挡住。值得注意的是,遮挡破损碑文文字的不同区域,修复的结果不同,模型会默认认为未遮挡区域是完整的。
以上所述是本发明的选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于自编码网络的碑文文字修复模型,其特征在于,采用上下文编码器,包括生成器和判别器,其中生成器采用变分自编码器,包括一个编码器和解码器;
生成器包括卷积层C1层、4层扩张卷积C2~C5层,卷积层C6~C9层、4层反卷积DC1~DC4层以及卷积层C10层,判别器包括4层卷积层C11~C14层和一层全连接层;
每一个卷积模块都有激活函数层,C2~C5层采用ReLU激活函数,C1层、C6~C9层和DC1~DC4层均采用ELU激活函数,C10层采用Tanh激活函数。
2.根据权利要求1所述的基于自编码网络的碑文文字修复模型,其特征在于,生成器的编码器负责学习遮挡碑文文字的结构语义特征;编码器将学习到碑文文字的语义特征传递给生成器的解码器,解码器根据学习到的语义特征反卷积进行碑文文字的重建;
前向传播完成后,通过均方差损失函数和交叉熵损失函数分别计算重建损失和对抗损失;将模型的梯度清零,反向传播,根据重建损失和对抗损失的联合损失使用Adam优化器优化模型的生成器和判别器;
模型的生成器和判别器不断优化,最后达到一种平衡,生成器生成出的碑文文字能骗过判别器的识别判别器能识别出生成器生成的碑文文字和原碑文文字。
4.根据权利要求3所述的基于自编码网络的碑文文字修复模型,其特征在于,λ=0.001。
5.根据权利要求4所述的基于自编码网络的碑文文字修复模型,其特征在于,以柳公权的《玄秘塔碑》和《金钢经》中的碑文文字作为模型的训练集和测试集,其中模型训练集有4000张碑文文字图像。
6.一种基于自编码网络的碑文文字修复模型的修复方法,其特征在于,包括以下步骤:
(1)碑文数据集收集;
(2)将收集的碑文数据集借用Opencv工具包进行数据预处理,首先对截取出的碑文文字做去噪处理,调用Opencv的去噪函数和高斯滤波器去噪;然后阈值处理,将碑文文字处理成单通道二值图像;最后重置碑文文字的大小,重置成模型输入的大小64x64x1;
(3)将预处理后的图像进行标准化,并分配训练集和测试集;
(4)将训练集输入碑文文字修复模型,对模型进行训练、测试,得到训练后的碑文文字修复模型;
(5)将预处理后的待修复的碑文文字输入已训练好的碑文文字修复模型,遮挡碑文文字输入到生成器,经过编码器的学习和解码器的重建,模型的生成器输出修复好的碑文文字;
(6)在模型输出重建后的碑文文字后对其进行像素向上取整纠错。
7.根据权利要求1所述的基于自编码网络的碑文文字修复模型的修复方法,其特征在于,步骤(3)中,图像像素值的范围是0-255,标准化是将像素值的范围从0-255压缩到-1~1之间,修复完后再扩大到0-255,单通道二值图为一个二阶矩阵,即将像素值压缩到-1~1之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211606317.0A CN115797216B (zh) | 2022-12-14 | 2022-12-14 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211606317.0A CN115797216B (zh) | 2022-12-14 | 2022-12-14 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115797216A true CN115797216A (zh) | 2023-03-14 |
CN115797216B CN115797216B (zh) | 2024-05-24 |
Family
ID=85420071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211606317.0A Active CN115797216B (zh) | 2022-12-14 | 2022-12-14 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115797216B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385289A (zh) * | 2023-03-22 | 2023-07-04 | 齐鲁工业大学(山东省科学院) | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
CN117079263A (zh) * | 2023-10-16 | 2023-11-17 | 内江师范学院 | 一种碑文文字提取方法、装置、设备及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191402A (zh) * | 2018-09-03 | 2019-01-11 | 武汉大学 | 基于对抗生成神经网络的图像修复方法和系统 |
CN109308689A (zh) * | 2018-10-15 | 2019-02-05 | 聚时科技(上海)有限公司 | 基于掩码生成对抗网络迁移学习的无监督图像修复方法 |
CN110309889A (zh) * | 2019-07-04 | 2019-10-08 | 西南大学 | 一种双判别器gan的古彝文字符修复方法 |
CN110335212A (zh) * | 2019-06-28 | 2019-10-15 | 西安理工大学 | 基于条件对抗网络的缺损古籍汉字修复方法 |
CN110413865A (zh) * | 2019-08-02 | 2019-11-05 | 知者信息技术服务成都有限公司 | 基于双向编码器表征模型的语义表示模型及其方法 |
CN110570481A (zh) * | 2019-07-31 | 2019-12-13 | 中国地质大学(武汉) | 基于风格迁移的书法字库自动修复方法及系统 |
CN111243045A (zh) * | 2020-01-10 | 2020-06-05 | 杭州电子科技大学 | 一种基于高斯混合模型先验变分自编码器的图像生成方法 |
CN111899191A (zh) * | 2020-07-21 | 2020-11-06 | 武汉工程大学 | 一种文本图像修复方法、装置及存储介质 |
CN113362255A (zh) * | 2021-07-01 | 2021-09-07 | 清华大学深圳国际研究生院 | 一种基于改进dcgan的文字图像修复方法及系统 |
CN113807497A (zh) * | 2021-09-02 | 2021-12-17 | 电子科技大学 | 一种增强纹理细节的非配对图像翻译方法 |
US20210397945A1 (en) * | 2020-06-18 | 2021-12-23 | Nvidia Corporation | Deep hierarchical variational autoencoder |
CN114612988A (zh) * | 2022-03-18 | 2022-06-10 | 齐鲁工业大学 | 基于改进的双向生成对抗网络的图像感知哈希方法及系统 |
CN114742714A (zh) * | 2021-10-29 | 2022-07-12 | 天津大学 | 一种基于骨架提取及对抗学习的汉字图像修复算法 |
CN115035366A (zh) * | 2022-06-09 | 2022-09-09 | 深圳市安软慧视科技有限公司 | 多模态变分自编码模型训练方法、系统及相关设备 |
CN115293144A (zh) * | 2022-06-13 | 2022-11-04 | 福建技术师范学院 | 一种基于零样本学习的白族文字的识别方法及装置 |
-
2022
- 2022-12-14 CN CN202211606317.0A patent/CN115797216B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191402A (zh) * | 2018-09-03 | 2019-01-11 | 武汉大学 | 基于对抗生成神经网络的图像修复方法和系统 |
CN109308689A (zh) * | 2018-10-15 | 2019-02-05 | 聚时科技(上海)有限公司 | 基于掩码生成对抗网络迁移学习的无监督图像修复方法 |
CN110335212A (zh) * | 2019-06-28 | 2019-10-15 | 西安理工大学 | 基于条件对抗网络的缺损古籍汉字修复方法 |
CN110309889A (zh) * | 2019-07-04 | 2019-10-08 | 西南大学 | 一种双判别器gan的古彝文字符修复方法 |
CN110570481A (zh) * | 2019-07-31 | 2019-12-13 | 中国地质大学(武汉) | 基于风格迁移的书法字库自动修复方法及系统 |
CN110413865A (zh) * | 2019-08-02 | 2019-11-05 | 知者信息技术服务成都有限公司 | 基于双向编码器表征模型的语义表示模型及其方法 |
CN111243045A (zh) * | 2020-01-10 | 2020-06-05 | 杭州电子科技大学 | 一种基于高斯混合模型先验变分自编码器的图像生成方法 |
US20210397945A1 (en) * | 2020-06-18 | 2021-12-23 | Nvidia Corporation | Deep hierarchical variational autoencoder |
CN111899191A (zh) * | 2020-07-21 | 2020-11-06 | 武汉工程大学 | 一种文本图像修复方法、装置及存储介质 |
CN113362255A (zh) * | 2021-07-01 | 2021-09-07 | 清华大学深圳国际研究生院 | 一种基于改进dcgan的文字图像修复方法及系统 |
CN113807497A (zh) * | 2021-09-02 | 2021-12-17 | 电子科技大学 | 一种增强纹理细节的非配对图像翻译方法 |
CN114742714A (zh) * | 2021-10-29 | 2022-07-12 | 天津大学 | 一种基于骨架提取及对抗学习的汉字图像修复算法 |
CN114612988A (zh) * | 2022-03-18 | 2022-06-10 | 齐鲁工业大学 | 基于改进的双向生成对抗网络的图像感知哈希方法及系统 |
CN115035366A (zh) * | 2022-06-09 | 2022-09-09 | 深圳市安软慧视科技有限公司 | 多模态变分自编码模型训练方法、系统及相关设备 |
CN115293144A (zh) * | 2022-06-13 | 2022-11-04 | 福建技术师范学院 | 一种基于零样本学习的白族文字的识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
MINA RAZGHANDI 等: "Variational Autoencoder Generative Adversarial Network for Synthetic Data Generation in Smart Home", 《2022 IEEE INTERNATIONAL CONFERENCE ON COMMUNICATIONS (ICC)》, 19 January 2022 (2022-01-19), pages 2 - 3 * |
伍旭: "基于变分自编码器的低照度图像增强方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2022 (2022-02-15) * |
雷文龙: "基于生成对抗网络的中国书法字生成研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》, 15 February 2021 (2021-02-15), pages 4 - 6 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385289A (zh) * | 2023-03-22 | 2023-07-04 | 齐鲁工业大学(山东省科学院) | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
CN116385289B (zh) * | 2023-03-22 | 2024-03-19 | 齐鲁工业大学(山东省科学院) | 一种基于渐进式的碑文文字图像修复模型及修复方法 |
CN117079263A (zh) * | 2023-10-16 | 2023-11-17 | 内江师范学院 | 一种碑文文字提取方法、装置、设备及介质 |
CN117079263B (zh) * | 2023-10-16 | 2024-01-02 | 内江师范学院 | 一种碑文文字提取方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115797216B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377448B (zh) | 一种基于生成对抗网络的人脸图像修复方法 | |
CN110543878B (zh) | 一种基于神经网络的指针仪表读数识别方法 | |
CN111047522B (zh) | 一种基于边缘生成的图像修复方法 | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN108230278B (zh) | 一种基于生成对抗网络的图像去雨滴方法 | |
CN115797216B (zh) | 一种基于自编码网络的碑文文字修复模型及修复方法 | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
CN107403130A (zh) | 一种字符识别方法及字符识别装置 | |
CN106228528B (zh) | 一种基于决策图与稀疏表示的多聚焦图像融合方法 | |
CN109993164A (zh) | 一种基于rcrnn神经网络的自然场景文字识别方法 | |
CN111582199A (zh) | 一种人脸识别模型训练方法和人脸识别方法 | |
CN108681689B (zh) | 基于生成对抗网络的帧率增强步态识别方法及装置 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN112712273B (zh) | 一种基于骨架相似度的手写体汉字美观度评判方法 | |
Visaniy et al. | Icdar 2013 music scores competition: Staff removal | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN113159045A (zh) | 一种结合图像预处理与卷积神经网络的验证码识别方法 | |
CN110610174A (zh) | 复杂条件下银行卡号识别方法 | |
CN112488935B (zh) | 基于纹理约束和泊松融合的生成对抗指静脉图像修复方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN114596290A (zh) | 缺陷检测方法及其装置、存储介质、程序产品 | |
CN111476727B (zh) | 一种面向换脸视频检测的视频运动增强方法 | |
CN113724354A (zh) | 基于参考图颜色风格的灰度图像着色方法 | |
CN114926892A (zh) | 一种基于深度学习的眼底图像匹配方法、系统和可读介质 | |
CN116958827A (zh) | 一种基于深度学习的撂荒区域提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |