CN110335212B - 基于条件对抗网络的缺损古籍汉字修复方法 - Google Patents

基于条件对抗网络的缺损古籍汉字修复方法 Download PDF

Info

Publication number
CN110335212B
CN110335212B CN201910571713.6A CN201910571713A CN110335212B CN 110335212 B CN110335212 B CN 110335212B CN 201910571713 A CN201910571713 A CN 201910571713A CN 110335212 B CN110335212 B CN 110335212B
Authority
CN
China
Prior art keywords
chinese character
image
generator
discriminator
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910571713.6A
Other languages
English (en)
Other versions
CN110335212A (zh
Inventor
张九龙
郭铭涛
屈晓娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Jida Chengde Wisdom Education Technology Co ltd
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201910571713.6A priority Critical patent/CN110335212B/zh
Publication of CN110335212A publication Critical patent/CN110335212A/zh
Application granted granted Critical
Publication of CN110335212B publication Critical patent/CN110335212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于条件对抗网络的缺损古籍汉字修复方法,首先建立n个文件夹,分别对应n个不同的手写汉字图像,每个文件夹内分别放入m个汉字图像,最终得到n*m张图片,作为手写汉字数据集;然后将得到的手写汉字图像数据进行训练,通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重;最后将待处理的缺损手写汉字图像数据样本带入更新的辨别器和生成器中进行迭代,得到修复后的手写汉字图像。本发明解决了现有技术中存在的大量破损的古籍文献中损毁字体的修复困难的问题。

Description

基于条件对抗网络的缺损古籍汉字修复方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于条件对抗网络的缺损古籍汉字修复方法。
背景技术
图像作为一个信息的载体,在文化传承中具有举足轻重的意义。目前很多的古籍文献由于受到不同温度、湿度和气候的影响均受到了不同程度的破坏,其中至关重要的部分就是文献中的汉字,承载着中华优秀的文明。令人惋惜的是有些汉字损毁严重,虽然能够靠人力根据上下文推断来修复,但是古籍文献数量众多,单靠人力来修复的成本和时间难以估量。因此,通过计算机技术替代人力来修复汉字图像是十分有必要的。
鉴于以上种种原因,如何精确地修复缺损汉字,同时又不破坏上下文语义信息,成为当下急需解决的一个问题。
发明内容
本发明的目的是提供一种基于条件对抗网络的缺损古籍汉字修复方法,解决了现有技术中存在的大量破损的古籍文献中损毁字体的修复困难的问题。
本发明所采用的技术方案是,基于条件对抗网络的缺损古籍汉字修复方法,具体按照以下步骤实施:
步骤1、建立n个文件夹,分别对应n个不同的手写汉字图像,每个文件夹内分别放入m个汉字图像,最终得到n*m张图片,作为手写汉字数据集;
步骤2、将步骤1中得到的手写汉字图像数据进行训练,通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重;
步骤3、将待处理的缺损手写汉字图像数据样本带入经步骤2更新的辨别器和生成器中进行迭代,得到修复后的手写汉字图像。
本发明的特点还在于,
步骤2具体按照以下步骤实施:
步骤2.1、随机从均值为μ,标准差为σ的高斯分布中取k维的向量z,同时在n个文件夹内随机选取其中一个文件夹内的某个图像,一个文件夹对应一个标签y,将向量z和标签y同时输入生成器G网络,随后输出标签y对应的汉字图像,该输入对应的生成结果fake_img=G(z,y);首先向量z先经过一个神经元个数为512×4×4的全连接层FC,然后分别经过四个生成器的残差模块G_ResBlock,四个残差模块的神经元个数分别为512,256,128和64,同时标签y也输入到上述四个残差模块中,把第四个残差模块的输出作为批量归一化层BN的输入,修正线性激活单元ReLU和卷积层Conv,最后将卷积层的输出作为Tanh激活函数的输入,经过激活函数后的所得即为生成的汉字图像;
步骤2.2、将步骤2.1得到的图像fake_img=G(z,y)和取自文件夹内的汉字图像x,分别输入辨别器网络D,输出概率值D(x)和D(fake_img),对抗网络损失函数如下:
Figure BDA0002111089270000021
Figure BDA0002111089270000031
其中,
Figure BDA0002111089270000032
表示x,y服从Pdata真实数据概率分布的期望;
Figure BDA0002111089270000033
表示z服从pz分布,y服从Pdata真实数据概率分布的期望;
步骤2.3、公式(1)分解为:
Figure BDA0002111089270000034
Figure BDA0002111089270000035
其中,D(x,y)D(X)表示真实图像和该图像对应的标签输入辨别器后的输出值,D(x,y)表示该图像对是否为真的概率;D(G(z,y),y)表示标签y对应的生成图像输入辨别器后的输出值,D(G(z,y),y)表示该生成图像是否为真的概率,
Figure BDA0002111089270000036
表示生成器的损失函数,
Figure BDA0002111089270000037
表示辨别器的损失函数,w和θ分别表示为辨别器网络D的权重和生成器网络G的权重;
步骤2.4、计算步骤2.3中生成器的损失和辨别器的损失,使用Adam梯度下降方法依次更新辨别器网络权重
Figure BDA0002111089270000038
和生成器网络的权重
Figure BDA0002111089270000039
其中α表示梯度下降的学习率,α=0.0002,当D(x,y)≈D(G(z,y),y),则G(z,y)~Pdata,表示生成图像越来越接近于真实图像,即认为生成器G能够生成任意手写汉字图像,即训练完成。
步骤2.1具体为:取自高斯分布的k维随机向量z,先经过一个全连接层FC,然后将全连接层FC的输出结果重塑为512×4×4张量形状,然后经过4个生成器残差模块,生成器残差模块的输入经过两个路径,首先第一条路径先经过条件批量归一化CBN、ReLU激活函数、上采样层UP、卷积核大小为3×3的卷积层Conv,然后再经过条件批量归一化CBN、ReLU激活函数、卷积核大小为3×3的卷积层Conv后输出,同时标签y输入到条件批量归一化CBN中,第二条路径先经过一个上采样层,然后经过一个卷积核大小为3×3的卷积层Conv后输出,最终将两条路径的输出相加即为最终所得,然后将最终所得经过批量归一化BN、非线性激活函数ReLU和卷积核大小为3×3的卷积层,最后经过Tanh激活函数,输出手写汉字图像fake_img=G(z,y)。
步骤2.1中的生成器网络结构图中:
G_ResBlock,512,256,128,64表示生成器残差模块,该模块输出特征图个数为512,256,128,64个;ReLU表示一个非线性激活函数;BN表示批量归一化操作;Conv表示卷积核为3×3的卷积操作;Tanh表示激活函数;y表示某个字的标签,输入每个生成器的残差模块中。
步骤2.1中的生成器网络结构图中:
CBN表示条件批量归一化,在批量归一化的基础上通过条件y指定生成器的生成;ReLU表示非线性激活函数;Up表示最近邻插值的上采样操作;Conv3×3表示卷积核大小为3×3的卷积操作。
步骤2.2中辨别器网络D具体为:生成图像fake_img或者取自文件夹的汉字图像x先后经过五个辨别器的残差模块D_ResBlock,五个残差模块的神经元个数分别为64,128,256,512和512,接着依次输入到修正线性激活单元ReLU、全局池化层Globalpooling和全连接层FC,同时标签y通过嵌入操作Embed,再经过内积Inner_product后输出,最终将内积Inner_product的输出和全连接层FC的输出相加即为所得,标签y经过嵌入Embed和内积Inner_product后输出与全连接层FC的输出相加得到一个概率值,表示该输入的图像为真的概率。
步骤2.2的辨别器网络D中:D_ResBlock,64,128,256,512,512表示辨别器残差模块,该模块输出特征图个数为64,128,256,512,512个;ReLU表示非线性激活函数;Globalpooling表示全局池化操作;FC表示全连接层;Embed表示将标签y转换成one_hot类型的向量;Inner_product表示Embed后的向量与一个内部随机初始化的矩阵相乘得到一个向量,然后向量内的元素求和。
D_ResBlock模块中输入经过两个路径,首先第一条路径先经过ReLU激活函数,然后再经过卷积核大小为3×3的卷积层Conv和ReLU激活函数,然后二次经过卷积核大小为3×3的卷积层Conv后经过下采样层Down,第二条路径先经过卷积核大小为3×3的卷积层Con,然后经过下采样层Down后输出,最终将两条路径的输出相加即为最终所得,ReLU表示一个非线性激活函数;Down表示最大池化下采样操作;Conv3×3表示卷积核大小为3×3的卷积操作。
步骤3具体按照以下步骤实施:
步骤3.1、将汉字的缺损部分标记为黑色,其余部分标记为白色,得到黑白图掩码mask;
步骤3.2,将步骤2训练得到的生成器G和辨别器D的权重重新初始化生成器G和辨别器D,将步骤3.1得到的黑白图掩码mask加入公式(4),通过Adam梯度下降方法更新z变量Adam(z,Lossz,α),其中α表示梯度下降的学习率,此时令α=0.1,
Lossz=||(G(z,y)-img).*mask||2 (4)
其中,G(z,y)表示随机生成的汉字图像,img表示缺损的汉字图像,mask为步骤3.1中得到的黑白图掩码,运算符.*表示像素之间的点乘;
步骤3.3,将步骤3.2训练得到的生成器G和辨别器D的权重初始化生成器G和辨别器D,将步骤3.1得到的黑白图掩码mask加入公式(4),通过Adam梯度下降方法更新z变量Adam(z,Lossz,α);
步骤3.4,将步骤3.3训练得到的z变量输入生成器G,得到生成图像G(z,y),通过黑白图掩码mask将缺损位置从生成图像G(z,y)中取出,填入缺损图像img,即修复完成,如公式(5)所示:
imgcomplete=G(z,y).*(1-mask)+img.*mask (5)
其中,imgcomplete表示修复后的手写汉字图像,G(z,y)表示生成的手写汉字图像,img表示缺损的手写汉字图像,mask表示黑白掩码图,运算符.*表示像素之间的点乘。
最终训练完后,能够得到一张修复后的字体图像。
本发明的有益效果是,本发明缺损古籍汉字修复方法主要是基于生成式对抗网络通过与大量手写汉字进行训练和图像生成,能够生成任意的手写汉字图像,并修复汉字的缺损部分;能够为大量破损古籍文献做一个自动修复,最大限度地摆脱人力修复,降低成本;本发明对于文献由于历史原因所造成的文字部分的缺损、破坏,能够有效地修复字体,对于数字化平台展览提供一个修复的操作;而且对于中国汉字书法的研究提供了一个很好的预处理操作,具有很高的使用价值。
附图说明
图1是本发明基于条件对抗网络的缺损古籍汉字修复方法中训练数据的流程图;
图2是本发明基于条件对抗网络的缺损古籍汉字修复方法中生成器网络结构内残差模块(G_ResBlock)结构图;
图3是本发明基于条件对抗网络的缺损古籍汉字修复方法中生成器网络结构图;
图4是本发明基于条件对抗网络的缺损古籍汉字修复方法中辨别器网络结构内残差模块(D_ResBlock)结构图;
图5是本发明基于条件对抗网络的缺损古籍汉字修复方法中辨别器网络结构图;
图6是本发明基于条件对抗网络的缺损古籍汉字修复方法的实施例修复图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于条件对抗网络的缺损古籍汉字修复方法,具体按照以下步骤实施:
步骤1、建立n个文件夹,分别对应n个不同的手写汉字图像,每个文件夹内分别放入m个汉字图像,最终得到n*m张图片,作为手写汉字数据集;
步骤2、将步骤1中得到的手写汉字图像数据进行训练,通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重,如图1所示为训练的框架过程图,具体按照以下步骤实施:
步骤2.1、随机从均值为μ,标准差为σ的高斯分布中取k维的向量z,同时在n个文件夹内随机选取其中一个文件夹内的某个图像,一个文件夹对应一个标签y,将向量z和标签y同时输入生成器G网络,随后输出标签y对应的汉字图像,该输入对应的生成结果fake_img=G(z,y,如图3所示,首先向量z先经过一个神经元个数为512×4×4的全连接层FC,然后分别经过四个生成器的残差模块G_ResBlock,四个残差模块的神经元个数分别为512,256,128和64,同时标签y也输入到上述四个残差模块中,把第四个残差模块的输出作为批量归一化层BN的输入,修正线性激活单元ReLU和卷积层Conv,最后将卷积层的输出作为Tanh激活函数的输入,经过激活函数后的所得即为生成的汉字图像;
步骤2.2、将步骤2.1得到的图像fake_img=G(z,y)和取自文件夹内的汉字图像x,分别输入辨别器网络D,输出概率值D(x)和D(fake_img),对抗网络损失函数如下:
Figure BDA0002111089270000081
其中,
Figure BDA0002111089270000082
表示x,y服从Pdata真实数据概率分布的期望;
Figure BDA0002111089270000083
表示z服从pz分布,y服从Pdata真实数据概率分布的期望;
该损失函数包含两个操作,对于辨别器,其目的是要正确区分真伪,即区分真实数据x和生成数据G(z,y),即要使得D(x,y)越大、让D(G(z,y),y)越小,此时损失函数值往变大的趋势发展,即表示为max。
然后对于生成器,其目的是要让辨别器区分不出它生成的样本与真实样本的区别,即要使得D(G(z,y),y)越大越好,此时损失函数的往变小的趋势发展,即表示为min。
步骤2.3、公式(1)分解为:
Figure BDA0002111089270000084
Figure BDA0002111089270000085
其中,D(x,y)D(X)表示真实图像和该图像对应的标签输入辨别器后的输出值,D(x,y)表示该图像对是否为真的概率;D(G(z,y),y)表示标签y对应的生成图像输入辨别器后的输出值,D(G(z,y),y)表示该生成图像是否为真的概率,
Figure BDA0002111089270000091
表示生成器的损失函数,
Figure BDA0002111089270000092
表示辨别器的损失函数,w和θ分别表示为辨别器网络D的权重和生成器网络G的权重;
不同于对抗网络损失函数定义,对于辨别器的损失函数添加了一个负号,目的是为了统一两个损失函数均为求最小值,能够用梯度下降同时解决。
步骤2.4、计算步骤2.3中生成器的损失和辨别器的损失,使用Adam梯度下降方法依次更新辨别器网络权重
Figure BDA0002111089270000093
和生成器网络的权重
Figure BDA0002111089270000094
其中α表示梯度下降的学习率,α=0.0002,当D(x,y)≈D(G(z,y),y),则G(z,y)~Pdata,表示生成图像越来越接近于真实图像,即认为生成器G能够生成任意手写汉字图像,即训练完成。
步骤2.1具体为:取自高斯分布的k维随机向量z,先经过一个全连接层FC,然后将全连接层FC的输出结果重塑为512×4×4张量形状,然后经过4个生成器残差模块,如图2所示,生成器残差模块的输入经过两个路径,首先第一条路径先经过条件批量归一化CBN、ReLU激活函数、上采样层UP、卷积核大小为3×3的卷积层Conv,然后再经过条件批量归一化CBN、ReLU激活函数、卷积核大小为3×3的卷积层Conv后输出,同时标签y输入到条件批量归一化CBN中,第二条路径先经过一个上采样层,然后经过一个卷积核大小为3×3的卷积层Conv后输出,最终将两条路径的输出相加即为最终所得,然后将最终所得经过批量归一化BN、非线性激活函数ReLU和卷积核大小为3×3的卷积层,最后经过Tanh激活函数,输出手写汉字图像fake_img=G(z,y)。
步骤2.1中的生成器网络结构图中:
如图3所示,G_ResBlock,512,256,128,64表示生成器残差模块,该模块输出特征图个数为512,256,128,64个;ReLU表示一个非线性激活函数;BN表示批量归一化操作;Conv表示卷积核为3×3的卷积操作;Tanh表示激活函数;y表示某个字的标签,输入每个生成器的残差模块中。
步骤2.1中的生成器网络结构图中:
CBN表示条件批量归一化,在批量归一化的基础上通过条件y指定生成器的生成;ReLU表示非线性激活函数;Up表示最近邻插值的上采样操作;Conv3×3表示卷积核大小为3×3的卷积操作。
步骤2.2中辨别器网络D具体为:生成图像fake_img或者取自文件夹的汉字图像x先后经过五个辨别器的残差模块D_ResBlock,如图5所示,五个残差模块的神经元个数分别为64,128,256,512和512,接着依次输入到修正线性激活单元ReLU、全局池化层Globalpooling和全连接层FC,同时标签y通过嵌入操作Embed,再经过内积Inner_product后输出,最终将内积Inner_product的输出和全连接层FC的输出相加即为所得,标签y经过嵌入Embed和内积Inner_product后输出与全连接层FC的输出相加得到一个概率值,表示该输入的图像为真的概率。
如图5所示,步骤2.2的辨别器网络D中:
D_ResBlock,64,128,256,512,512表示辨别器残差模块,该模块输出特征图个数为64,128,256,512,512个;ReLU表示非线性激活函数;Global pooling表示全局池化操作;FC表示全连接层;Embed表示将标签y转换成one_hot类型的向量;Inner_product表示Embed后的向量与一个内部随机初始化的矩阵相乘得到一个向量,然后向量内的元素求和。
如图4所示,D_ResBlock模块中输入经过两个路径,首先第一条路径先经过ReLU激活函数,然后再经过卷积核大小为3×3的卷积层Conv和ReLU激活函数,然后二次经过卷积核大小为3×3的卷积层Conv后经过下采样层Down,第二条路径先经过卷积核大小为3×3的卷积层Con,然后经过下采样层Down后输出,最终将两条路径的输出相加即为最终所得,ReLU表示一个非线性激活函数;Down表示最大池化下采样操作;Conv3×3表示卷积核大小为3×3的卷积操作。
步骤3、将待处理的缺损手写汉字图像数据样本带入经步骤2更新的辨别器和生成器中进行迭代,得到修复后的手写汉字图像,具体按照以下步骤实施:
步骤3.1、将汉字的缺损部分标记为黑色,其余部分标记为白色,得到黑白图掩码mask;
步骤3.2,将步骤2训练得到的生成器G和辨别器D的权重重新初始化生成器G和辨别器D,将步骤3.1得到的黑白图掩码mask加入公式(4),通过Adam梯度下降方法更新z变量Adam(z,Lossz,α),其中α表示梯度下降的学习率,此时令α=0.1,
Lossz=||(G(z,y)-img).*mask||2 (4)
其中,G(z,y)表示随机生成的汉字图像,img表示缺损的汉字图像,mask为步骤3.1中得到的黑白图掩码,运算符.*表示像素之间的点乘;
步骤3.3,将步骤3.2训练得到的生成器G和辨别器D的权重初始化生成器G和辨别器D,将步骤3.1得到的黑白图掩码mask加入公式(4),通过Adam梯度下降方法更新z变量Adam(z,Lossz,α);
步骤3.4,将步骤3.3训练得到的z变量输入生成器G,得到生成图像G(z,y),通过黑白图掩码mask将缺损位置从生成图像G(z,y)中取出,填入缺损图像img,即修复完成,如公式(5)所示:
imgcomplete=G(z,y).*(1-mask)+img.*mask (5)
其中,imgcomplete表示修复后的手写汉字图像,G(z,y)表示生成的手写汉字图像,img表示缺损的手写汉字图像,mask表示黑白掩码图,运算符.*表示像素之间的点乘。
最终训练完后,能够得到一张修复后的字体图像。如图6所示是缺损图像经过步骤3后的修复后的图像。
本发明基于条件对抗网络的缺损古籍汉字修复方法,对于文献由于历史原因和数字化操作不当所造成的汉字缺损,能够有效地修复缺损区域,对于大规模的古籍文献资料修复具有很高的使用价值。

Claims (8)

1.基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,具体按照以下步骤实施:
步骤1、建立n个文件夹,分别对应n个不同的手写汉字图像,每个文件夹内分别放入m个汉字图像,最终得到n*m张图片,作为手写汉字数据集;
步骤2、将步骤1中得到的手写汉字图像数据进行训练,通过梯度反向传播算法迭代更新辨别器神经网络权重和生成器神经网络权重;
所述步骤2具体按照以下步骤实施:
步骤2.1、随机从均值为μ,标准差为σ的高斯分布中取k维的向量z,同时在n个文件夹内随机选取其中一个文件夹内的某个图像,一个文件夹对应一个标签y,将向量z和标签y同时输入生成器G网络,随后输出标签y对应的汉字图像,输入对应的生成结果fake_img=G(z,y);首先向量z先经过一个神经元个数为512×4×4的全连接层FC,然后分别经过四个生成器的残差模块G_ResBlock,四个残差模块的神经元个数分别为512,256,128和64,同时标签y也输入到上述四个残差模块中,把第四个残差模块的输出作为批量归一化层BN的输入,修正线性激活函数ReLU和卷积层Conv,最后将卷积层的输出作为Tanh激活函数的输入,经过激活函数后的所得即为生成的汉字图像;
步骤2.2、将步骤2.1得到的图像fake_img=G(z,y)和取自文件夹内的汉字图像x,分别输入辨别器网络D,输出概率值D(x)和D(fake_img),对抗网络损失函数如下:
Figure FDA0002729064370000021
其中,
Figure FDA0002729064370000022
表示x,y服从Pdata真实数据概率分布的期望;
Figure FDA0002729064370000023
表示z服从pz分布,y服从Pdata真实数据概率分布的期望;
步骤2.3、公式(1)分解为:
Figure FDA0002729064370000024
Figure FDA0002729064370000025
其中,D(x,y)D(X)表示真实图像和该图像对应的标签输入辨别器后的输出值,D(x,y)表示该图像对是否为真的概率;D(G(z,y),y)表示标签y对应的生成图像输入辨别器后的输出值,
Figure FDA0002729064370000026
表示生成器的损失函数,
Figure FDA0002729064370000027
表示辨别器的损失函数,w和θ分别表示为辨别器网络D的权重和生成器网络G的权重;
步骤2.4、计算步骤2.3中生成器的损失和辨别器的损失,使用Adam梯度下降方法依次更新辨别器网络权重
Figure FDA0002729064370000028
和生成器网络的权重
Figure FDA0002729064370000029
其中α表示梯度下降的学习率,α=0.0002,当D(x,y)≈D(G(z,y),y),则G(z,y)~Pdata,表示生成图像越来越接近于真实图像,即认为生成器G能够生成任意手写汉字图像,即训练完成;
步骤3、将待处理的缺损手写汉字图像数据样本带入经步骤2更新的辨别器和生成器中进行迭代,得到修复后的手写汉字图像。
2.根据权利要求1所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述步骤2.1具体为:取自高斯分布的k维随机向量z,先经过一个全连接层FC,然后将全连接层FC的输出结果重塑为512×4×4张量形状,然后经过4个生成器残差模块,生成器残差模块的输入经过两个路径,首先第一条路径先经过条件批量归一化CBN、ReLU激活函数、上采样层UP、卷积核大小为3×3的卷积层Conv,然后再经过条件批量归一化CBN、ReLU激活函数、卷积核大小为3×3的卷积层Conv后输出,同时标签y输入到条件批量归一化CBN中,第二条路径先经过一个上采样层,然后经过一个卷积核大小为3×3的卷积层Conv后输出,最终将两条路径的输出相加即为最终所得,然后将最终所得经过批量归一化层BN、激活函数ReLU和卷积核大小为3×3的卷积层,最后经过Tanh激活函数,输出图像fake_img=G(z,y)。
3.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述步骤2.1中:
G_ResBlock表示生成器残差模块,该模块输出特征图个数为512,256,128,64个;ReLU表示激活函数;BN表示批量归一化层;Conv表示卷积核为3×3的卷积层;Tanh表示激活函数;y表示某个字的标签,输入每个生成器的残差模块中。
4.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述CBN表示条件批量归一化,在批量归一化的基础上通过标签y指定生成器的生成;ReLU表示激活函数;Up表示最近邻插值的上采样层;Conv 3×3表示卷积核大小为3×3的卷积层。
5.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述步骤2.2中辨别器网络D具体为:图像fake_img或者取自文件夹的汉字图像x先后经过五个辨别器的残差模块D_ResBlock,五个残差模块的神经元个数分别为64,128,256,512和512,接着依次输入到激活函数ReLU、全局池化层Globalpooling和全连接层FC,同时标签y通过嵌入操作Embed,再经过内积Inner_product后输出,最终将内积Inner_product的输出和全连接层FC的输出相加即为所得,标签y经过嵌入Embed和内积Inner_product后输出与全连接层FC的输出相加得到一个概率值,表示该输入的图像为真的概率。
6.根据权利要求5所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述步骤2.2的辨别器网络D中:
D_ResBlock表示辨别器残差模块,该模块输出特征图个数为64,128,256,512,512个;ReLU表示激活函数;Globalpooling表示全局池化操作;FC表示全连接层;Embed表示将标签y转换成one_hot类型的向量;Inner_product表示Embed后的向量与一个内部随机初始化的矩阵相乘得到一个向量,然后向量内的元素求和。
7.根据权利要求6所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述D_ResBlock模块中输入经过两个路径,首先第一条路径先经过ReLU激活函数,然后再经过卷积核大小为3×3的卷积层Conv和ReLU激活函数,然后二次经过卷积核大小为3×3的卷积层Conv后经过下采样层Down,第二条路径先经过卷积核大小为3×3的卷积层Con,然后经过下采样层Down后输出,最终将两条路径的输出相加即为最终所得,ReLU表示一个激活函数;Down表示最大池化下采样层;Conv 3×3表示卷积核大小为3×3的卷积层。
8.根据权利要求2所述的基于条件对抗网络的缺损古籍汉字修复方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、将汉字的缺损部分标记为黑色,其余部分标记为白色,得到黑白图掩码mask;
步骤3.2,将步骤2训练得到的生成器G和辨别器D的权重重新初始化生成器G和辨别器D,将步骤3.1得到的黑白图掩码mask加入公式(4),通过Adam梯度下降方法更新z向量Adam(z,Lossz,α),其中α表示梯度下降的学习率,此时令α=0.1,
Lossz=||(G(z,y)-img).*mask||2 (4)
其中,G(z,y)表示随机生成的汉字图像,img表示缺损的汉字图像,mask为步骤3.1中得到的黑白图掩码,运算符.*表示像素之间的点乘;
步骤3.3,将步骤3.2训练得到的生成器G和辨别器D的权重初始化生成器G和辨别器D,将步骤3.1得到的黑白图掩码mask加入公式(4),通过Adam梯度下降方法更新z变量Adam(z,Lossz,α);
步骤3.4,将步骤3.3训练得到的z变量输入生成器G,得到生成图像G(z,y),通过黑白图掩码mask将缺损位置从生成图像G(z,y)中取出,填入缺损图像img,即修复完成,如公式(5)所示:
imgcomplete=G(z,y).*(1-mask)+img.*mask (5)
其中,imgcomplete表示修复后的手写汉字图像,G(z,y)表示生成的手写汉字图像,img表示缺损的手写汉字图像,mask表示黑白掩码图,运算符.*表示像素之间的点乘,最终训练完后,能够得到一张修复后的字体图像。
CN201910571713.6A 2019-06-28 2019-06-28 基于条件对抗网络的缺损古籍汉字修复方法 Active CN110335212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571713.6A CN110335212B (zh) 2019-06-28 2019-06-28 基于条件对抗网络的缺损古籍汉字修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571713.6A CN110335212B (zh) 2019-06-28 2019-06-28 基于条件对抗网络的缺损古籍汉字修复方法

Publications (2)

Publication Number Publication Date
CN110335212A CN110335212A (zh) 2019-10-15
CN110335212B true CN110335212B (zh) 2021-01-15

Family

ID=68143607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571713.6A Active CN110335212B (zh) 2019-06-28 2019-06-28 基于条件对抗网络的缺损古籍汉字修复方法

Country Status (1)

Country Link
CN (1) CN110335212B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260570B (zh) * 2020-01-10 2023-03-14 西安理工大学 基于循环一致性对抗网络的碑帖二值化背景噪声模拟方法
CN111507937B (zh) * 2020-03-03 2024-05-10 平安科技(深圳)有限公司 一种图像数据的生成方法及装置
CN113570508A (zh) * 2020-04-29 2021-10-29 上海耕岩智能科技有限公司 图像修复方法及装置、存储介质、终端
CN112116601B (zh) * 2020-08-18 2023-04-28 河南大学 基于生成对抗残差网络的压缩感知采样重建方法及系统
CN112326276B (zh) * 2020-10-28 2021-07-16 北京航空航天大学 一种基于生成对抗网络的高铁转向系统故障检测lstm方法
CN112541576B (zh) * 2020-12-14 2024-02-20 四川翼飞视科技有限公司 Rgb单目图像的生物活体识别神经网络构建方法
CN113159122B (zh) * 2021-03-16 2022-03-15 重庆市地理信息和遥感应用中心 基于社交媒体图像数据的城市风貌分析方法
CN114511465B (zh) * 2022-02-21 2024-08-20 华东交通大学 一种基于改进dcgan的图像修复方法及系统
CN115797216B (zh) * 2022-12-14 2024-05-24 齐鲁工业大学 一种基于自编码网络的碑文文字修复模型及修复方法
CN116665217B (zh) * 2023-05-08 2024-09-24 苏州大学 基于双生成对抗网络的古籍文字修复方法和系统
CN118295559B (zh) * 2024-04-28 2024-09-06 中科合肥技术创新工程院 一种古籍修复专家系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609560A (zh) * 2017-09-27 2018-01-19 北京小米移动软件有限公司 文字识别方法及装置
CN108805833A (zh) * 2018-05-29 2018-11-13 西安理工大学 基于条件对抗网络的字帖二值化背景噪声杂点去除方法
CN109215349A (zh) * 2018-10-26 2019-01-15 同济大学 基于深度学习的长时交通流量预测方法
CN109584337A (zh) * 2018-11-09 2019-04-05 暨南大学 一种基于条件胶囊生成对抗网络的图像生成方法
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
US10275473B2 (en) * 2017-04-27 2019-04-30 Sk Telecom Co., Ltd. Method for learning cross-domain relations based on generative adversarial networks
CN109815928A (zh) * 2019-01-31 2019-05-28 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10290085B2 (en) * 2016-12-14 2019-05-14 Adobe Inc. Image hole filling that accounts for global structure and local texture
CN107644006B (zh) * 2017-09-29 2020-04-03 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN109522857B (zh) * 2018-11-26 2021-04-23 山东大学 一种基于生成式对抗网络模型的人数估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275473B2 (en) * 2017-04-27 2019-04-30 Sk Telecom Co., Ltd. Method for learning cross-domain relations based on generative adversarial networks
CN107609560A (zh) * 2017-09-27 2018-01-19 北京小米移动软件有限公司 文字识别方法及装置
CN108805833A (zh) * 2018-05-29 2018-11-13 西安理工大学 基于条件对抗网络的字帖二值化背景噪声杂点去除方法
CN109215349A (zh) * 2018-10-26 2019-01-15 同济大学 基于深度学习的长时交通流量预测方法
CN109584337A (zh) * 2018-11-09 2019-04-05 暨南大学 一种基于条件胶囊生成对抗网络的图像生成方法
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
CN109815928A (zh) * 2019-01-31 2019-05-28 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Image Inpainting Technique Based on Smart Terminal: A Case Study in CPS Ancient Image Data》;Wang Y et al;《IEEE》;20190610;正文第III、IV部分 *
《Self-Attention Generative Adversarial Networks》;Zhang H et al;《Proceedings of the International Conference on Machine Learning 2019》;20190505;全文 *
杨斌.《 基于深度卷积神经网络的非均匀光照人脸图像增强与识别》.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,(第2019年第04期),第I138-876页. *

Also Published As

Publication number Publication date
CN110335212A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110335212B (zh) 基于条件对抗网络的缺损古籍汉字修复方法
CN108062756B (zh) 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
Graese et al. Assessing threat of adversarial examples on deep neural networks
CN106022363B (zh) 一种适用于自然场景下的中文文字识别方法
CN109886121A (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
CN109920021B (zh) 一种基于正则化宽度学习网络的人脸素描合成方法
US11847400B2 (en) Methods and systems for generating shape data for electronic designs
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN110689495A (zh) 一种深度学习的图像修复方法
Hsu et al. Image super-resolution using capsule neural networks
Chen et al. RBPNET: An asymptotic Residual Back-Projection Network for super-resolution of very low-resolution face image
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN117274608A (zh) 基于空间细节感知和注意力引导的遥感图像语义分割方法
CN111274971A (zh) 一种基于颜色空间融合网络及空间变换网络的交通识别方法
Li et al. Braille recognition using deep learning
CN116563250A (zh) 一种复原式自监督疵点检测方法、装置及存储介质
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN113887270B (zh) 基于改进YOLOv4-tiny模型口罩佩戴检测方法
CN115439850A (zh) 基于审单的图文字符识别方法、装置、设备及存储介质
CN113128614B (zh) 基于图像梯度的卷积方法、基于方向卷积的神经网络及分类方法
Chen et al. Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow
Yang et al. A comprehensive end-to-end computer vision framework for restoration and recognition of low-quality engineering drawings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210329

Address after: 10449-020, unit 1, building 3, Huide Science Park, 32 Gaoxin 6th Road, Zhangba Street office, high tech Zone, Xi'an City, Shaanxi Province, 710000

Patentee after: Shaanxi Jida Chengde Wisdom Education Technology Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Patentee before: XI'AN University OF TECHNOLOGY