CN113033567A - 一种融合分割网络和生成网络的甲骨拓片图像字符提取方法 - Google Patents

一种融合分割网络和生成网络的甲骨拓片图像字符提取方法 Download PDF

Info

Publication number
CN113033567A
CN113033567A CN202110300152.3A CN202110300152A CN113033567A CN 113033567 A CN113033567 A CN 113033567A CN 202110300152 A CN202110300152 A CN 202110300152A CN 113033567 A CN113033567 A CN 113033567A
Authority
CN
China
Prior art keywords
oracle
character
image
oracle bone
bone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110300152.3A
Other languages
English (en)
Other versions
CN113033567B (zh
Inventor
刘国英
陈双浩
宋旭
葛文英
吕婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anyang Normal University
Original Assignee
Anyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyang Normal University filed Critical Anyang Normal University
Priority to CN202110300152.3A priority Critical patent/CN113033567B/zh
Publication of CN113033567A publication Critical patent/CN113033567A/zh
Application granted granted Critical
Publication of CN113033567B publication Critical patent/CN113033567B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合分割网络和生成网络的甲骨拓片图像字符提取方法,本发明构建的嵌入学习分支以实现特征嵌入空间中甲骨背景和甲骨字符的可判别特征表示学习,缓解了甲骨拓片图像中背景噪声和甲骨裂痕的干扰;字符生成分支使用残差块和多尺度特征通道连接,适应甲骨拓片图像中甲骨字符大小的变化并生成清晰完整的甲骨字符图像;空间注意力模型对两个分支的结果进行融合,在降低甲骨噪声和甲骨裂痕干扰的同时保证字符在空间结构上的完整性;本发明还基于全局判别器和局部判别器来评估生成的甲骨字符图像的一致性,保证生成的甲骨字符图像整体完整且细节清晰。

Description

一种融合分割网络和生成网络的甲骨拓片图像字符提取方法
技术领域
本发明属于甲骨文信息处理技术领域,具体涉及一种基于深度学习的字符提取网络,能够用于提取甲骨拓片图像中的甲骨字符。
背景技术
甲骨拓片,作为甲骨文字的重要载体,由于某些历史原因,长久的掩埋在安阳地下的废墟中,直到120年前才被发现。因此,在甲骨拓片表面,不可避免的发生一定的退化,例如:噪声、裂痕等,如图1所示。然而,这些不同程度的退化严重干扰了甲骨文字的可视性及可读性,对后续甲骨文字检测与识别等视觉任务带来极大的阻碍。考虑到甲骨字符是甲骨学研究的第一手资料,从甲骨拓片图像中自动提取甲骨字符将有助于甲骨学研究的开展,并对甲骨文活化与利用产生重大帮助。
甲骨学是一个极少数人参与的冷门学科,未见从甲骨拓片图像中自动提取甲骨字符的相关报道。然而,随着深度学习在诸多视觉领域的成功应用,出现了一些在理论上能够直接或间接的用于提取甲骨拓片图像中甲骨字符的方法。在这些方法大致分为两大类:基于图像生成的方法和基于图像分割的方法。图像生成的方法(如Pix2Pix)将甲骨字符的提取视为一个图像到图像转换任务,通过训练一个端到端的神经网络,学习甲骨拓片图像与相应甲骨字符图像间的映射。基于图像分割的方法(如U-Net)将甲骨字符提取视为像素分类任务,通过对甲骨拓片图像进行逐像素分类,预测出甲骨字符在甲骨拓片图像中的所在区域。然而,在实验中,我们发现上述方法提取的甲骨字符的效果往往存在一定的问题。比如,基于分割的方法具有较强的区分拓片图像背景和甲骨字符的能力,但得到的甲骨字符图像往往比较粗糙,存在字符笔画粘连、模糊等问题,如图3(b)所示;而基于生成的方法具有较强的结构信息描述能力,生成的甲骨字符在局部笔画细节上更为清晰,但往往会受背景噪声和裂痕的干扰,如图3(c)所示。
因此,一种既能够抑制背景噪声、裂痕干扰又能生成高质量甲骨字符图像的字符提取方法亟待提出。
发明内容
为解决高噪声背景下的甲骨字符提取问题,本发明融合图像分割和生成技术,构建了一个专门的字符提取网络,用于提取甲骨拓片图像中的甲骨字符。该字符网络能够自动的识别甲骨拓片图像中的字符特征和背景特征,生成高质量的甲骨字符图像。
本发明所采用的技术方案:本发明融合基于分割方法学习像素级特征的优势和基于生成方法的结构信息描述能力,构建了一个全新字符提取模型。该模型将甲骨字符提取任务视为图像到图像转换任务,以生成网络为模型的基础骨架,将分割网络嵌入编码器网络以消除拓片背景噪声的影响,以期建立更为准确的拓片图像与对应甲骨字符图像间的映射关系,最后,使用全局和局部判别器评估生成的甲骨字符图像的一致性,保证生成的甲骨字符图像整体完整且细节清晰。具体的,本发明提供了如下的技术方案:
本发明提供一种融合分割网络和生成网络的甲骨拓片图像字符提取方法,包括以下步骤:
S1、将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理,得到增广甲骨拓片和甲骨字符图像集合;
S2、构建甲骨字符提取网络,甲骨字符提取网络使用GAN(Generativeadversarial nets)作为基本骨架,由一个生成器和两个子判别器构成,生成器中包含两个共享相同特征编码的子分支:嵌入学习分支和甲骨字符生成分支,其中,嵌入学习分支用来在嵌入空间学习甲骨背景和甲骨字符的可判别特征,甲骨字符生成分支用来学习甲骨拓片图像与甲骨字符图像间的映射;
S3、将增广甲骨拓片图像输入到甲骨字符提取网络进行前向传播,直接生成对应的甲骨字符图像预测;
S4、在训练阶段,将S3中生成的甲骨字符图像预测分别送入全局判别器和局部判别器,评估其全局和局部特征的一致性。
作为本发明的进一步改进:步骤S3将增广甲骨拓片和甲骨字符图像集合输入到甲骨字符提取网络进行处理,包括以下步骤:1)甲骨拓片图像送入特征编码器进行编码处理,获取多个尺度的特征图;2)卷积层1、卷积层3、卷积层5中的特征图送入嵌入学习分支,分别输出嵌入特征图IE和字符区域得分图AC;3)卷积层1、卷积层3、卷积层4、卷积层5中的特征图送入字符生成分支并生成最终的甲骨字符图像预测。
作为本发明的进一步改进:所述将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理,包括以下几种:
(1)线性变换:缩放、裁剪、平移操作;
(2)仿射变换:随机旋转、翻转、变形操作;
(3)颜色变换:模糊、对比度提升、高斯滤波操作;
(4)甲骨拓片图像与甲骨字符图像重新组合;先利用工具软件从甲骨拓片图像中裁剪甲骨字符,构成甲骨字符字典;然后,选取若干张背景复杂的甲骨拓片图像并移除其中的甲骨字符,得到候选甲骨背景;最后将字符字典和甲骨背景进行随机重新组合,得到新的甲骨拓片图像集合。
作为本发明的进一步改进:所述嵌入学习分支的操作如下:1)对卷积层1、卷积层3、卷积层5中的特征图分别进行上采样操作还原到原始输入大小,并沿通道维度连接进行特征合并;2)对合并后的特征图执行两个连续的3x3卷积操作进行上下文融合;3)融合后的特征图分别经过两个并行的3x3卷积操作,得到特征嵌入图IE和字符区域得分图AC
作为本发明的进一步改进:所述甲骨字符生成分支的操作如下:1)对卷积层1、卷积层3、卷积层4、卷积层5中的特征图,分别依次执行用于压缩通道个数的1x1卷积、用于增大感受野的残差块、用于还原到原始输入大小的上采样操作,得到多个不同感受野的特征图;2)将得到的不同感受野的特征图,沿通道维度连接,经过一个3x3卷积操作,得到一个融合不同尺度特征的特征图;3)将得到的融合不同尺度的特征图和来自于嵌入学习分支的甲骨字符区域预测送入空间注意模块处理,最后经过一个3x3卷积,生成甲骨字符图像预测。
作为本发明的进一步改进:所述字符提取网络基于LSGAN(Least SquaresGenerative Adversarial Networks),使用最小二乘损失计算甲骨字符图像预测与对应真实甲骨字符图像间的差异,生成网络G,全局和局部判别DG,DL的损失函数表达如下:
Figure BDA0002985906220000031
Figure BDA0002985906220000032
其中,Pdata是训练数据的经验分布,IO表示原始的甲骨拓片图像输入,Ic表示甲骨拓片图像对应的真实甲骨字符图像,T表示裁剪和连接操作。
作为本发明的进一步改进:所述局部判别器以局部甲骨字符块作为输入,检查局部字符在笔画细节上是否完整,具体的,生成的甲骨字符图像预测首先被裁剪为若干个局部块,然后选择设定数量和真实甲骨字符块标记误差较大的块,沿着通道维度连接,作为局部判别器的输入,以强迫甲骨字符提取模型学习区分与甲骨字符特征比较相似的干扰特征。
作为本发明的进一步改进:所述空间注意模块处理如下:使用嵌入分支中的字符区域得分图对甲骨字符生成分支末尾得到的融合不同尺度特征的特征图执行点乘操作进行特征加权,然后将加权后的特征图与原始融合不同尺度特征的特征图相加,以突出融合特征图中的甲骨字符区域。
作为本发明的进一步改进:所述全局和局部判别器遵循PatchGAN(EnhancingPix2Pix for Remote Sensing Image Classification)的结构设计,通过预测一个N×N的评估矩阵,用于捕获更加清晰、细致的字符局部细节。
嵌入学习分支通过提高甲骨背景特征和甲骨字符特征的“类内一致性”来学习可判别特征表示;先对甲骨拓片图像进行逐像素分类,达到甲骨背景和甲骨字符特征初步可判别的目的,然后基于CenterLoss(Discriminative Feature Learning Approach forDeep Face Recognition)自适应性地为甲骨背景特征和甲骨字符特征学习特定的特征中心,并鼓励其朝着相应的特征中心逐渐靠。
所述字符生成分支用来学习甲骨拓片图像和甲骨字符图像间的映射,为适应拓片图像中甲骨字符大小的变化并生成清晰完整的甲骨字符图像,使用残差模块和多尺度特征通道连接融合不同尺度上下文特征,最后经过空间注意模块处理生成甲骨字符图像预测。
所述使用全局和局部判别器评估生成的甲骨字符图像预测的全局和局部一致性,其中,全局判别器以完整的甲骨字符图像作为输入,检查其是否引入了额外的噪声,裂痕干扰,而局部判别器以局部甲骨字符块作为输入,检查局部字符在笔画细节上是否完整。
所述空间注意模块用来融合两个分支的结果,空间注意模块使用来自嵌入学习分支的甲骨字符区域预测指导甲骨字符生成分支注重融合特征图中的甲骨字符区域。
本发明相较于现有技术,具有以下有益效果:
(1)本发明构建的嵌入学习分支(Embedding Learning Stream)以实现特征嵌入空间中甲骨背景和甲骨字符的可判别特征表示学习,缓解了甲骨拓片图像中背景噪声和甲骨裂痕的干扰;
(2)本发明还构建了一个甲骨字符生成分支(Char Generation Stream),该模型使用残差块(Residual Block)和多尺度特征通道连接,适应拓片图像中甲骨字符大小的变化并生成清晰完整的甲骨字符图像;
(3)本发明利用空间注意力模型(Spatial Attention Model,SAM)对两个分支的结果进行融合,利用嵌入分支中关于甲骨字符区域的预测,在甲骨字符生成分支末尾弱化融合特征图中的背景信息并突出其字符区域。
(4)本发明基于全局判别器和局部判别器来评估生成的甲骨字符图像的全局和局部一致性,保证生成的甲骨字符图像整体完整且细节清晰。
附图说明
图1是本发明背景技术中甲骨拓片图像样例示意图。
图2是本发明背景技术中甲骨拓片图像局部特征展示示意图。
图3是本发明背景技术中基于分割和生成方法的甲骨字符提取结果示意图。
图4是本发明甲骨字符提取模型的整体结构的工作流程图。
图5是本发明拓片图像与字符图像重新组合的示意图。
图6是本发明甲骨拓片图像和一流的图像生成模型的字符提取结果示意图。
图7是本发明甲骨拓片图像和一流的图像分割模型的字符提取结果示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
为了达到本发明的目的,如图4所示,在本发明的其中一种实施方式中提供一种融合分割网络和生成网络的甲骨拓片图像字符提取方法,包括以下步骤:
(一)训练阶段
S1、将设定数量成对的甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理,得到增广甲骨拓片和甲骨字符图像集合。
S2、构建甲骨字符提取网络。甲骨字符提取网络以GAN为基本骨架,由生成器和判别器组成。生成网络包含两个共享特征编码的子分支:嵌入学习分支和甲骨字符生成分支,一个用来学习可判别嵌入特征,另一个用来学习甲骨拓片图像与甲骨字符图像的映射。判别器包含全局和局部两个子判别器,全局判别器以完整的甲骨字符图像作为输入,检查其是否引入了额外的噪声、裂痕干扰;局部判别器以局部甲骨字符块作为输入,检查甲骨字符块在局部笔画细节上是否完整。
S3、获取甲骨拓片图像的特征编码。将S1得到的甲骨拓片图像送入一个基于VGG16骨架的自动编码器中进行特征编码,得到多个尺度的特征图。
S4、学习可判别嵌入特征。将S3中自动编码器中卷积层1、卷积层3、卷积层5中的特征图送入嵌入学习分支,得到一个嵌入特征图和甲骨字符区域得分图。嵌入学习分支将甲骨背景和甲骨字符视为不同的类别实例,通过提高甲骨背景特征和甲骨字符特征的“类内一致性”来学习其可判别特征表示。具体包括以下步骤:1)先利用分割网络学习像素级特征的能力,对甲骨拓片图像进行逐像素分类,达到甲骨背景特征和甲骨字符特征初步可判别的目的。2)基于CenterLoss自适应性地为甲骨背景特征和甲骨字符特征学习特定的特征中心,并鼓励其朝着相应的特征中心逐渐靠近。
具体的语义分割损失Lentropy和中心损失Lcenter表达如下:
Figure BDA0002985906220000061
其中,IM表示真实甲骨字符图像Ic的二进制掩模,i表示IM中的第i个位置的索引,N表示IM中的像素总数,Ac∈(0,1)表示嵌入分支预测出的字符区域预测图;
Figure BDA0002985906220000062
其中,
Figure BDA0002985906220000063
代表嵌入学习分支中特征嵌入图IE的第i个特征向量,
Figure BDA0002985906220000064
表示
Figure BDA0002985906220000065
所属类别yi的特征中心向量。
S5、学习甲骨拓片图像与甲骨字符图像之间的映射。将S3中自动编码器中卷积层1、卷积层3、卷积层4、卷积层5中的特征图送入甲骨字符生成分支,生成甲骨字符图像预测。
S6、对生成的甲骨字符图像预测进行评估。将S5中的甲骨字符图像预测分别送入全局和局部判别器中,评估其全局和局部特征的一致性。为使甲骨字符提取模型训练更加稳定,使用最小二乘损失计算甲骨字符图像预测与对应真实甲骨字符图像间的差异。生成网络G,全局和局部判别DG,DL的损失函数表达如下:
Figure BDA0002985906220000071
Figure BDA0002985906220000072
其中,Pdata是训练数据的经验分布,IO表示原始的甲骨拓片图像输入,Ic表示甲骨拓片图像对应的真实甲骨字符图像,T表示裁剪和连接操作。
S7、损失计算。根据生成网络的输出:甲骨字符区域得分图、嵌入特征图、甲骨字符图像预测,和判别网络的评估矩阵,分别计算相应的损失。总体上,甲骨字符提取模型的损失函数表示如下:
Lloss=λentropyLentropycenterLcenterglobalLgloballocalLloca1L1.
其中λentropy、λcenter、λglobal、λlocal、λ1分别表示Lentropy、Lcenter、Lglobal、λlocal、λ1的权重系数。L1表示像素内容损失,其计算如下:
Figure BDA0002985906220000073
其中,Ic表示真实的甲骨字符图像。
Figure BDA0002985906220000074
表示生成的甲骨字符图像预测。i表示Ic中的第i个位置的索引,N表示Ic中的像素总数。
S8、模型训练。根据S7计算的损失,使用Adam优化器更新模型权重参数。并重复S3-S8,直至总体损失函数收敛。
(一)测试阶段
S1.获取原始甲骨拓片图像输入。
S2.创建甲骨字符提取模型对象,并加载训练好的模型参数。
S3.将原始甲骨拓片图像输入送入甲骨字符提取网络,直接生成相应甲骨字符图像预测。
全局判别器和局部判别器具体的结构和参数设置如表1、表2所示。
表1全局判别器
Type Kernel Stride OutPuts
Conv 5x5 1x1 32
Conv 5x5 2x2 64
Conv 5x5 2x2 128
Conv 5x5 1x1 64
Conv 3x3 1x1 1
表2局部判别器
Type Kernel Stride OutPuts
Conv 3x3 1x1 32
Conv 3x3 2x2 64
Conv 3x3 2x2 128
Conv 3x3 1x1 1
下面,本发明基于甲骨拓片图像数据集进行实验说明。
甲骨拓片图像属于一种特殊的图像数据,其主要是利用扫描仪器从甲骨学典藏中扫描而来。尽管拓片图像表面存在严重的退化干扰问题,但甲骨拓片仅由甲骨背景(包括背景噪声和甲骨裂痕)和甲骨字符构成,在构成上相对简单。其次,从视觉纹理上看,甲骨背景、甲骨字符在外观上相对单一。因此,本发明的实验中,仅使用了少量具有代表性且退化严重的拓片图像进行训练和验证。
具体来说,本发明采用的甲骨拓片图像数据集包含了405对训练样例(甲骨拓片图像和对应的甲骨字符图像)、35对验证样例和300张测试样例。
为了确保模型能够学习准确的特征表示,根据上述的少量甲骨拓片图像训练样例,对样本进行简单扩充。扩充主要涉及以下操作:
(1)线性变换:缩放、裁剪、平移、操作;
(2)仿射变换:随机旋转、翻转、变形操作;
(3)颜色变换:模糊、对比度提升、高斯滤波等操作;
(4)甲骨拓片图像与甲骨字符图像重新组合。首先,利用工具软件从拓片图像中裁剪甲骨字符,构成甲骨字符字典;然后,选取若干张背景复杂的甲骨拓片图像并移除其中的甲骨字符,得到候选甲骨背景;最后根据字符字典和甲骨背景进行重新组合。
最终,得到了(405+2825)对训练样例、(35+165)对验证样例、(300+200)测试样例的一个混合甲骨拓片数据集。
本发明从两个角度对提出的甲骨字符提取模型的性能进行评估:图像生成角度和图像分割角度。
(1)从图像生成角度,使用峰值信噪比(PSNR)和结构相似性(SSIM)指标来测量预测值和真实值之间的差距。PSNR和SSIM是一种常见评估图像生成质量的客观标准。PSNR和SSIM的值越高,表明生成的甲骨字符图像质量越高,越接近真实值。PSNR、SSIM的计算如下:
Figure BDA0002985906220000091
Figure BDA0002985906220000092
其中,MSE为生成图像与对应真实图像的均方误差。MAX1表示图像颜色的最大值。
Figure BDA0002985906220000093
其中,x、y为测量的成对图像,μx、μy为x、y的平均值,
Figure BDA0002985906220000094
为x、y的方差,σxy为x、y的协方差。c1、c2分别为常数,用以避免分母为0。
(2)图像分割的角度,由于大多数甲骨字符的像素值(归一化后)趋向于1(字符边缘或者一些特殊字符除外),可近似的将生成的甲骨字符图像视为一种特殊的图像分割(二分类)。和图像分割模型的评估相似,使用平均交并比mIoU和单个字符类别的交并比IoU(char),分别测量生成的甲骨字符图像与真实甲骨字符图像之间的相关程度以及局部字符块与对应真实局部块的相关程度。其中,mIoU或IoU的值越高,说明像素被正确分类的比例就越高,生成的甲骨字符图像接近真实甲骨字符图像的概率就越大。此外,需要说明的是对于计算甲骨字符图像的IoU会存在一定程度的计算误差。其主要原因在于生成的甲骨字符图像的非字符区域像素值接近于0,但不为0。为了获得更加准确的IoU值,在IoU计算之前,需要对生成的甲骨字符图像进行阈值选择处理。具体的阈值根据经验设定,本实验中,该阈值设置为0.2,IoU的计算表达如下:
Figure BDA0002985906220000095
其中,TP、FP、FN表示分类结果为真正、假正、假负的像素个数。
表3和一流生成模型的量化比较结果
Models PSNR SSIM
BicyleGAN 17.90 86.40%
CycleGAN 18.03 88.25%
Pix2Pix 18.56 89.24%
Ours 23.83 95.17%
表4和一流的分割模型的量化比较结果
Models mIoU IoU(char)
ERFNet 80.9% 64.5%
FCN16 83.3% 68.7%
U-Net 87.48% 76.48%
SegNet 88.6% 78.5%
Ours 88.07% 78.28%
下面将本发明与不同的一流模型进行比较说明。
第一,本发明与一流图像生成模型进行比较。
甲骨字符的提取任务可以视为从甲骨拓片图像到对应甲骨字符图像的转换任务。本部分,将甲骨字符提取模型与一流的通用的图像到图像转换模(Pix2Pix(Image-to-Image Translation with Conditional Adversarial Networks),CycleGAN(UnpairedImage-to-Image Translation Using Cycle-Consistent Adversarial Networks),BicyCleGAN(Towards instance-level image-to-image translation))进行比较。为公平起见,直接使用了这些模型的官方代码和默认的超参数设置。相应的定量评估和定性评估结果如图6、表3所示。
从视觉上看,通用的图像到图像转换模型在一定程度上也可以提取甲骨拓片图像中的字符信息,并且生成的甲骨字符在局部细节上相对清晰。然而,生成甲骨字符图像在整体效果上也存在一些问题。如一些尺度较小、不太显著的字符容易忽略掉(如图6第一行所示)。其次,一些和甲骨字符特征比较相似的噪声或者裂痕容易误认为甲骨字符特征。(如图6第二、四行所示)。相反,本发明的的甲骨字符模型几乎将甲骨拓片图像中的甲骨字符完全生成出来,并且没有引入过多的噪声和裂痕干扰(如图6第五列)。这在一定程度上表明该甲骨字符模型具有较强的特征区分能力,能够很好的区分出甲骨字符特征和背景特征。
从表3的定性评估结果中可以看出,本发明的甲骨字符提取模型在PSNR和SSIM指标上是最佳的,并远远超越次优结果。这进一步表明,相比于通用的图像到图像转换模型,本发明的甲骨字符生成模型能够生成更高质量的甲骨字符图像。
第二,本发明与一流图像分割模型进行比较。
大多数甲骨字符特征的像素值(归一化后)趋向于1,因此,可近似的将生成的甲骨字符图像视为一种特殊的图像分割(二分类)。本部分将甲骨字符提取模型与一流的图像分割模型(FCN16(Fully Convolutional Adaptation Networks for SemanticSegmentation)、ERFNet(Efficient Residual Factorized ConvNet for Real-TimeSemantic Segmentation)、U-Net(U-net:Convolutional networks for biomedicalimage segmentation)、SegNet(A Deep Convolutional Encoder-Decoder Architecturefor Image Segmentation))进行比较。此外,由于甲骨拓片图像中字符像素和背景像素在比例存在严重的失衡,在模型训练期间,默认为每个分割模型使用相同的类别平衡策略,以获得更加的字符分割效果。类别平衡策略的具体表示如下:
Figure BDA0002985906220000111
其中,W(c)代表不同类别实例的权重系数,Nc和N分别代表类别c的像素个数和拓片图像中总的像素个数。
图7展示了甲骨字符提取模型和分割模型的字符提取效果。从视觉上看,分割模型几乎将所有的甲骨字符区域都预测出来,并且引入了较少的噪声或裂痕干扰。然而,通过分割的方式得到的甲骨字符图像,在字符的局部细节上往往比较模糊、粗糙,甚至存在部分笔画粘连的问题(如图7一、三、四列所示)。其次,由于分割的方法仅仅预测出甲骨字符在甲骨拓片图像上的区域信息,并没有对字符特征进行重建,因此,结果中存在与真实字符风格不一致的问题(如图7第二行所示)。相反,本发明的甲骨字符提取模型对甲骨拓片图像进行重建,生成的甲骨字符图像在结构上更为清晰、风格更为统一(如图7第五列所示)。
通过表2定量结果表明,本发明的甲骨字符生成模型在mIoU和IoU指标上仅次于最优的SegNet,并且仅仅存在0.53和0.22的差距。这间接表明本发明的的甲骨字符生成模型和一流的分割模型在甲骨字符区域预测上差距甚微。综合考虑生成模型和分割模型在视觉效果和定量结果可以看出,本发明的提出的甲骨字符生成模型在具备一流的分割性能的同时,能够生成更加清晰、真实的甲骨字符。
表5不同可判别损失的比较结果
Loss mIoU IoU PSNR SSIM
L<sub>E</sub> 87.03% 76.35% 23.25 94.73%
L<sub>D</sub> 86.4% 75.17% 22.74 94.3%
L<sub>E</sub>+L<sub>C</sub> 88.07% 78.28% 23.83 95.17%
表6字符提取模型关键模块的符号表示
符号 含义
E 嵌入学习分支
C 字符生成分支
G 全局判别器
L 局部判别器
A 空间注意模块
表7字符生成模型不同模块组合的评估结果
ID 组合 mIoU IoU PSNR SSIM
(a) CGL 82.60% 68.81% 19.46 89.04%
(b) ECGL 87.7% 77.6% 23.11 94.44%
(c) ECGA 87.63% 77.46% 23.52 95.00%
(d) ECGLA 88.07% 78.28% 23.83 95.17%
第三,消融实验。
(1)可判别损失函数
本发明提出的甲骨字符提取模型联合交叉熵损失LE和中心损失LC共同约束嵌入学习分支的甲骨背景和甲骨字符的可判别嵌入特征学习。为验证该联合损失的有效性,在这部分实验中我们分别使用交叉熵损失LE以及区别损失Disc Loss(Segmentation with aDiscriminative Loss Function)(LD)进行对比实验(注:LD的基本思想类似于聚类,在嵌入空间,强迫同簇的特征朝向相同的中心靠拢,反之相反)。在实验过程中,除了损失函数的不同之外,整个甲骨字符生成模型的结构及超参数设置均是相同的。表5展示了不同损失函数的比较结果。
从表5中可以看出,区别损失LD在各项指标上都是最差的。其原因可能是在鼓励同簇特征向中心靠拢过程中,丢失了某些视觉属性(例如,极端情况下,嵌入特征朝向零向量方向靠近)。相比于区别损失,交叉熵损失LE的表现更优(在mIoU、IoU、PSNR,SSIM指标上,分别提升了0.63、1.18、0.51、0.43)。最关键的是,在联合损失(LE+LC)的监督下,甲骨字符提取模型的表现最佳,在各项指标均是最优的。这表明联合交叉熵损失和中心损失能够更有利于甲骨字符可判别嵌入特征的学习和甲骨字符图像的生成。
(2)嵌入学习分支
为缓解甲骨拓片图像中噪声、裂痕对甲骨字符提取的影响,甲骨字符提取模型引入了额外的嵌入学习分支。为了验证嵌入学习分支的有效性,将嵌入学习分支从甲骨字符提取模型中移除。移除后的评估结果如表7中(a)所示(为了便于描述,甲骨字符提取模型的关键组成使用字母符号表示,符号含义如表6所示。)
从表7结果显示,移除嵌入分支后,甲骨字符提取模型的性能显著下降(如表7中,(a)和(b)(c)(d)的各项指标比较)。这充分表明嵌入学习分支的存在对甲骨字符提取模型的提取效果有显著的提升。
(3)空间注意力模型
给出一张甲骨拓片图像,甲骨字符提取模型的目标是生成对应的甲骨字符图像。在这个过程中,甲骨字符在甲骨拓片图像中的位置信息是未知的。为此,在生成网络的末尾,使用空间注意力模型(SAM)将甲骨字符生成分支的融合特征进行空间注意约束,以突出甲骨字符区域特征的重要性。为了证明使用SAM的有效性,本实验对甲骨字符提取模型中的SAM模块进行移除,移除后的评估结果如表7中(b)所示。
通过表7中(b)和(d)的比较可以看出,移除字符空间注意模块后,甲骨字符提取模型的性能出现小幅下降。相比于使用SAM,模型在mIoU、IoU、PSNR、SSIM指标上,分别降低了0.37、0.68、0.72和0.73。这在一定程度上表明,在生成网络的末尾,使用SAM对甲骨字符提取模型的性能是有利的。
(4)局部判别器
甲骨字符形状多样、结构复杂且随机的分布在甲骨拓片上的任意位置。为约束生成的甲骨字符在空间结构上的完整性,使用额外的局部判别器评估字符特征的局部一致性。为验证局部判别器空间约束的有效性,在训练期间,将局部判别器移除,移除后的评估结果如表7中(c)所示。
通过表7中(c)和d)的比较可以看出,移除局部判别器后,字符提取模型的性能出现一定的下降。相比于使用局部判别器,移除后模型在mIoU、IoU、PSNR、SSIM指标上分别降低了0.44、0.82、0.31和0.17。这意味着,使用局部判别器约束甲骨字符的局部细节的完整性是有效的。
一直以来,甲骨拓片图像中复杂的噪声和各种各样的裂痕干扰,是解决甲骨文相关视觉任务的重要阻碍。本发明的研究结果表明:在嵌入空间学习拓片图像的可判别特征,是一种更为简单且有效的方式。该方式不仅可以有效避免直接对拓片图像中复杂的噪声、裂痕等干扰进行处理,而且更有利于端到端方法的实现。
本发明首次基于深度学习技术,构建了一个专门的甲骨字符提取模型,能够用于自动的提取甲骨拓片图像中的甲骨字符信息,并生成甲骨字符图像。这对后续加速甲骨文的研究及推广具有重大意义。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,包括以下步骤:
S1、将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理,得到增广甲骨拓片和甲骨字符图像集合;
S2、构建甲骨字符提取网络,甲骨字符提取网络使用GAN作为基本骨架,由一个生成器和两个子判别器构成,生成器中包含两个共享相同特征编码的子分支:嵌入学习分支和甲骨字符生成分支,其中,嵌入学习分支用来在嵌入空间学习甲骨背景和甲骨字符的可判别特征,甲骨字符生成分支用来学习甲骨拓片图像与甲骨字符图像间的映射;
S3、将增广甲骨拓片图像输入到甲骨字符提取网络进行前向传播,直接生成对应的甲骨字符图像预测;
S4、在训练阶段,将S3中生成的甲骨字符图像预测分别送入全局判别器和局部判别器,评估其在全局和局部特征的一致性。
2.根据权利要求1所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,步骤S3将增广甲骨拓片和甲骨字符图像集合输入到甲骨字符提取网络进行处理,包括以下步骤:1)甲骨拓片图像送入特征编码器进行编码处理,获取多个尺度的特征图;2)卷积层1、卷积层3、卷积层5中的特征图送入嵌入学习分支,分别输出嵌入特征图IE和字符区域得分图AC;3)卷积层1、卷积层3、卷积层4、卷积层5中的特征图送入甲骨字符生成分支并生成最终的甲骨字符图像预测。
3.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理,包括以下几种:
(1)线性变换:缩放、裁剪、平移操作;
(2)仿射变换:随机旋转、翻转、变形操作;
(3)颜色变换:模糊、对比度提升、高斯滤波操作;
(4)甲骨拓片图像与甲骨字符图像重新组合;先利用工具软件从甲骨拓片图像中裁剪甲骨字符,构成甲骨字符字典;然后,选取若干张背景复杂的甲骨拓片图像并移除其中的甲骨字符,得到候选甲骨背景;最后对甲骨字符字典和甲骨背景进行随机重新组合,得到新的甲骨拓片图像集合。
4.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述嵌入学习分支的操作如下:1)对卷积层1、卷积层3、卷积层5中的特征图分别进行上采样操作还原到原始输入大小,并沿通道维度连接进行特征合并;2)对合并后的特征图执行两个连续的3x3卷积操作进行上下文融合;3)融合后的特征图分别经过两个并行的3x3卷积操作,得到特征嵌入图IE和字符区域得分图AC
5.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述字符生成分支的操作如下:1)对卷积层1、卷积层3、卷积层4、卷积层5中的特征图,分别依次执行用于压缩通道个数的1x1卷积、用于增大感受野的残差块、用于还原到原始输入大小的上采样操作,得到多个不同感受野的特征图;2)将得到的不同感受野的特征图,沿通道维度连接,经过一个3x3卷积操作,得到一个融合不同尺度特征的特征图;3)将得到的融合不同尺度的特征图和来自于嵌入学习分支的字符区域预测一同送入空间注意模块融合处理,最后经过一个3x3卷积,生成最终的甲骨字符图像预测。
6.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述甲骨字符提取网络基于LSGAN,使用最小二乘损失计算甲骨字符图像预测与对应真实甲骨字符图像间的差异,生成网络G,全局和局部判别DG,DL的损失函数表达如下:
Figure FDA0002985906210000021
Figure FDA0002985906210000022
其中,Pdata是训练数据的经验分布,IO表示原始的甲骨拓片图像输入,Ic表示甲骨拓片图像对应的真实甲骨字符图像,T表示裁剪和连接操作。
7.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述局部判别器以局部甲骨字符块作为输入,检查局部字符在笔画细节上是否完整,具体的,生成的甲骨字符图像预测首先被裁剪为若干个局部块,然后选择设定数量和真实甲骨字符块标记误差较大的块,沿着通道维度连接,作为局部判别器的输入,以强迫甲骨字符提取模型学习区分与甲骨字符特征比较相似的干扰特征。
8.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述空间注意模块处理如下:在甲骨字符生成分支的末尾,使用嵌入分支中的字符区域得分图对多尺度融合特征图执行点乘操作进行特征加权,然后将加权后的特征图与原始的多尺度融合特征图相加,以突出多尺度融合特征图中的甲骨字符区域。
9.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法,其特征在于,所述全局和局部判别器遵循PatchGAN的结构设计,通过预测一个N×N的评估矩阵,用于捕获更加清晰、细致的字符局部细节。
CN202110300152.3A 2021-03-22 2021-03-22 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法 Expired - Fee Related CN113033567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110300152.3A CN113033567B (zh) 2021-03-22 2021-03-22 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110300152.3A CN113033567B (zh) 2021-03-22 2021-03-22 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法

Publications (2)

Publication Number Publication Date
CN113033567A true CN113033567A (zh) 2021-06-25
CN113033567B CN113033567B (zh) 2022-11-01

Family

ID=76472058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110300152.3A Expired - Fee Related CN113033567B (zh) 2021-03-22 2021-03-22 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法

Country Status (1)

Country Link
CN (1) CN113033567B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627436A (zh) * 2021-08-06 2021-11-09 河南大学 一种表面压印字符图像的无监督分割方法
CN113628180A (zh) * 2021-07-30 2021-11-09 北京科技大学 一种基于语义分割网络的遥感建筑物检测方法及系统
CN113962885A (zh) * 2021-10-14 2022-01-21 东北林业大学 基于改进CycleGAN的图像高光处理方法
CN114037872A (zh) * 2021-11-09 2022-02-11 安阳师范学院 一种基于图卷积网络的甲骨字分类方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805223A (zh) * 2018-05-18 2018-11-13 厦门大学 一种基于Incep-CapsNet网络的篆文识别方法及系统
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN110473151A (zh) * 2019-07-04 2019-11-19 北京航空航天大学 基于分区卷积和关联损失的双阶段图像补全方法及系统
US20190370969A1 (en) * 2018-05-30 2019-12-05 Siemens Healthcare Gmbh Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
CN110598030A (zh) * 2019-09-26 2019-12-20 西南大学 一种基于局部cnn框架的甲骨拓片分类方法
CN111199522A (zh) * 2019-12-24 2020-05-26 重庆邮电大学 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111798400A (zh) * 2020-07-20 2020-10-20 福州大学 基于生成对抗网络的无参考低光照图像增强方法及系统
CN111833359A (zh) * 2020-07-13 2020-10-27 中国海洋大学 基于生成对抗网络的脑瘤分割数据增强方法
CN111915540A (zh) * 2020-06-17 2020-11-10 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质
CN112070658A (zh) * 2020-08-25 2020-12-11 西安理工大学 一种基于深度学习的汉字字体风格迁移方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805223A (zh) * 2018-05-18 2018-11-13 厦门大学 一种基于Incep-CapsNet网络的篆文识别方法及系统
US20190370969A1 (en) * 2018-05-30 2019-12-05 Siemens Healthcare Gmbh Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN110473151A (zh) * 2019-07-04 2019-11-19 北京航空航天大学 基于分区卷积和关联损失的双阶段图像补全方法及系统
CN110598030A (zh) * 2019-09-26 2019-12-20 西南大学 一种基于局部cnn框架的甲骨拓片分类方法
CN111199522A (zh) * 2019-12-24 2020-05-26 重庆邮电大学 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111915540A (zh) * 2020-06-17 2020-11-10 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质
CN111833359A (zh) * 2020-07-13 2020-10-27 中国海洋大学 基于生成对抗网络的脑瘤分割数据增强方法
CN111798400A (zh) * 2020-07-20 2020-10-20 福州大学 基于生成对抗网络的无参考低光照图像增强方法及系统
CN112070658A (zh) * 2020-08-25 2020-12-11 西安理工大学 一种基于深度学习的汉字字体风格迁移方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAO MUHAMMAD UMER等: "Deep Cyclic Generative Adversarial Residual Convolutional Networks for Real Image Super-Resolution", 《ARXIV》 *
焦清局等: "网络驱动的未识甲骨字特性及场景语义预测", 《浙江大学学报(理学版)》 *
范林龙等: "关键人脸轮廓区域卡通风格化生成算法", 《图学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628180A (zh) * 2021-07-30 2021-11-09 北京科技大学 一种基于语义分割网络的遥感建筑物检测方法及系统
CN113628180B (zh) * 2021-07-30 2023-10-27 北京科技大学 一种基于语义分割网络的遥感建筑物检测方法及系统
CN113627436A (zh) * 2021-08-06 2021-11-09 河南大学 一种表面压印字符图像的无监督分割方法
CN113627436B (zh) * 2021-08-06 2024-07-12 河南大学 一种表面压印字符图像的无监督分割方法
CN113962885A (zh) * 2021-10-14 2022-01-21 东北林业大学 基于改进CycleGAN的图像高光处理方法
CN113962885B (zh) * 2021-10-14 2024-05-28 东北林业大学 基于改进CycleGAN的图像高光处理方法
CN114037872A (zh) * 2021-11-09 2022-02-11 安阳师范学院 一种基于图卷积网络的甲骨字分类方法
CN114037872B (zh) * 2021-11-09 2024-09-17 安阳师范学院 一种基于图卷积网络的甲骨字分类方法

Also Published As

Publication number Publication date
CN113033567B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN113033567B (zh) 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法
CN108009520B (zh) 基于卷积变分自编码器网络的手指静脉识别方法及系统
Ansari et al. Intuitionistic fuzzy local binary pattern for features extraction
CN104156730B (zh) 一种基于骨架的抗噪声汉字特征提取方法
CN102663400B (zh) 一种结合预处理的lbp特征提取方法
CN105095880B (zh) 一种基于lgbp编码的手指多模态特征融合方法
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN107169504A (zh) 一种基于扩展非线性核残差网络的手写字符识别方法
CN113344933B (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN114187520B (zh) 一种建筑物提取模型的构建及应用方法
CN113920516B (zh) 一种基于孪生神经网络的书法字骨架匹配方法及系统
CN114882599A (zh) 基于双分支神经网络的离线手写签名分割系统和方法
CN114067915A (zh) 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法
Kessentini et al. Evidential combination of SVM classifiers for writer recognition
CN110781898A (zh) 一种中文ocr后处理的无监督学习方法
Rasooli et al. Farsi license plate detection based on element analysis and characters recognition
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
Lee et al. Fast object localization using a CNN feature map based multi-scale search
CN111597875A (zh) 一种交通标志识别方法、装置、设备及存储介质
CN117911437A (zh) 一种改进YOLOv5x的荞麦籽粒粘连分割方法
CN112070116A (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
Sarkar et al. A two-stage approach for segmentation of handwritten Bangla word images
JP2003216953A (ja) 画像から対象物を抽出する方法およびその装置
Antony et al. Segmentation and recognition of characters on Tulu palm leaf manuscripts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221101

CF01 Termination of patent right due to non-payment of annual fee