CN113033567A

CN113033567A - 一种融合分割网络和生成网络的甲骨拓片图像字符提取方法

Info

Publication number: CN113033567A
Application number: CN202110300152.3A
Authority: CN
Inventors: 刘国英; 陈双浩; 宋旭; 葛文英; 吕婧
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-25
Anticipated expiration: 2041-03-22
Also published as: CN113033567B

Abstract

本发明公开了一种融合分割网络和生成网络的甲骨拓片图像字符提取方法，本发明构建的嵌入学习分支以实现特征嵌入空间中甲骨背景和甲骨字符的可判别特征表示学习，缓解了甲骨拓片图像中背景噪声和甲骨裂痕的干扰；字符生成分支使用残差块和多尺度特征通道连接，适应甲骨拓片图像中甲骨字符大小的变化并生成清晰完整的甲骨字符图像；空间注意力模型对两个分支的结果进行融合，在降低甲骨噪声和甲骨裂痕干扰的同时保证字符在空间结构上的完整性；本发明还基于全局判别器和局部判别器来评估生成的甲骨字符图像的一致性，保证生成的甲骨字符图像整体完整且细节清晰。

Description

一种融合分割网络和生成网络的甲骨拓片图像字符提取方法

技术领域

本发明属于甲骨文信息处理技术领域，具体涉及一种基于深度学习的字符提取网络，能够用于提取甲骨拓片图像中的甲骨字符。

背景技术

甲骨拓片，作为甲骨文字的重要载体，由于某些历史原因，长久的掩埋在安阳地下的废墟中，直到120年前才被发现。因此，在甲骨拓片表面，不可避免的发生一定的退化，例如：噪声、裂痕等，如图1所示。然而，这些不同程度的退化严重干扰了甲骨文字的可视性及可读性，对后续甲骨文字检测与识别等视觉任务带来极大的阻碍。考虑到甲骨字符是甲骨学研究的第一手资料，从甲骨拓片图像中自动提取甲骨字符将有助于甲骨学研究的开展，并对甲骨文活化与利用产生重大帮助。

甲骨学是一个极少数人参与的冷门学科，未见从甲骨拓片图像中自动提取甲骨字符的相关报道。然而，随着深度学习在诸多视觉领域的成功应用，出现了一些在理论上能够直接或间接的用于提取甲骨拓片图像中甲骨字符的方法。在这些方法大致分为两大类：基于图像生成的方法和基于图像分割的方法。图像生成的方法(如Pix2Pix)将甲骨字符的提取视为一个图像到图像转换任务，通过训练一个端到端的神经网络，学习甲骨拓片图像与相应甲骨字符图像间的映射。基于图像分割的方法(如U-Net)将甲骨字符提取视为像素分类任务，通过对甲骨拓片图像进行逐像素分类,预测出甲骨字符在甲骨拓片图像中的所在区域。然而，在实验中，我们发现上述方法提取的甲骨字符的效果往往存在一定的问题。比如，基于分割的方法具有较强的区分拓片图像背景和甲骨字符的能力，但得到的甲骨字符图像往往比较粗糙，存在字符笔画粘连、模糊等问题，如图3(b)所示；而基于生成的方法具有较强的结构信息描述能力，生成的甲骨字符在局部笔画细节上更为清晰，但往往会受背景噪声和裂痕的干扰，如图3(c)所示。

因此，一种既能够抑制背景噪声、裂痕干扰又能生成高质量甲骨字符图像的字符提取方法亟待提出。

发明内容

为解决高噪声背景下的甲骨字符提取问题，本发明融合图像分割和生成技术，构建了一个专门的字符提取网络，用于提取甲骨拓片图像中的甲骨字符。该字符网络能够自动的识别甲骨拓片图像中的字符特征和背景特征，生成高质量的甲骨字符图像。

本发明所采用的技术方案：本发明融合基于分割方法学习像素级特征的优势和基于生成方法的结构信息描述能力，构建了一个全新字符提取模型。该模型将甲骨字符提取任务视为图像到图像转换任务，以生成网络为模型的基础骨架，将分割网络嵌入编码器网络以消除拓片背景噪声的影响，以期建立更为准确的拓片图像与对应甲骨字符图像间的映射关系，最后，使用全局和局部判别器评估生成的甲骨字符图像的一致性，保证生成的甲骨字符图像整体完整且细节清晰。具体的，本发明提供了如下的技术方案：

本发明提供一种融合分割网络和生成网络的甲骨拓片图像字符提取方法，包括以下步骤：

S1、将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理，得到增广甲骨拓片和甲骨字符图像集合；

S2、构建甲骨字符提取网络，甲骨字符提取网络使用GAN(Generativeadversarial nets)作为基本骨架，由一个生成器和两个子判别器构成，生成器中包含两个共享相同特征编码的子分支：嵌入学习分支和甲骨字符生成分支，其中，嵌入学习分支用来在嵌入空间学习甲骨背景和甲骨字符的可判别特征，甲骨字符生成分支用来学习甲骨拓片图像与甲骨字符图像间的映射；

S3、将增广甲骨拓片图像输入到甲骨字符提取网络进行前向传播，直接生成对应的甲骨字符图像预测；

S4、在训练阶段，将S3中生成的甲骨字符图像预测分别送入全局判别器和局部判别器，评估其全局和局部特征的一致性。

作为本发明的进一步改进：步骤S3将增广甲骨拓片和甲骨字符图像集合输入到甲骨字符提取网络进行处理，包括以下步骤：1)甲骨拓片图像送入特征编码器进行编码处理，获取多个尺度的特征图；2)卷积层1、卷积层3、卷积层5中的特征图送入嵌入学习分支，分别输出嵌入特征图I_E和字符区域得分图A_C；3)卷积层1、卷积层3、卷积层4、卷积层5中的特征图送入字符生成分支并生成最终的甲骨字符图像预测。

作为本发明的进一步改进：所述将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理，包括以下几种：

(1)线性变换：缩放、裁剪、平移操作；

(2)仿射变换：随机旋转、翻转、变形操作；

(3)颜色变换：模糊、对比度提升、高斯滤波操作；

(4)甲骨拓片图像与甲骨字符图像重新组合；先利用工具软件从甲骨拓片图像中裁剪甲骨字符，构成甲骨字符字典；然后，选取若干张背景复杂的甲骨拓片图像并移除其中的甲骨字符，得到候选甲骨背景；最后将字符字典和甲骨背景进行随机重新组合，得到新的甲骨拓片图像集合。

作为本发明的进一步改进：所述嵌入学习分支的操作如下：1)对卷积层1、卷积层3、卷积层5中的特征图分别进行上采样操作还原到原始输入大小，并沿通道维度连接进行特征合并；2)对合并后的特征图执行两个连续的3x3卷积操作进行上下文融合；3)融合后的特征图分别经过两个并行的3x3卷积操作，得到特征嵌入图I_E和字符区域得分图A_C。

作为本发明的进一步改进：所述甲骨字符生成分支的操作如下：1)对卷积层1、卷积层3、卷积层4、卷积层5中的特征图，分别依次执行用于压缩通道个数的1x1卷积、用于增大感受野的残差块、用于还原到原始输入大小的上采样操作，得到多个不同感受野的特征图；2)将得到的不同感受野的特征图，沿通道维度连接，经过一个3x3卷积操作，得到一个融合不同尺度特征的特征图；3)将得到的融合不同尺度的特征图和来自于嵌入学习分支的甲骨字符区域预测送入空间注意模块处理，最后经过一个3x3卷积，生成甲骨字符图像预测。

作为本发明的进一步改进：所述字符提取网络基于LSGAN(Least SquaresGenerative Adversarial Networks),使用最小二乘损失计算甲骨字符图像预测与对应真实甲骨字符图像间的差异，生成网络G,全局和局部判别D_G,D_L的损失函数表达如下:

其中，P_data是训练数据的经验分布，I_O表示原始的甲骨拓片图像输入，I_c表示甲骨拓片图像对应的真实甲骨字符图像，T表示裁剪和连接操作。

作为本发明的进一步改进：所述局部判别器以局部甲骨字符块作为输入,检查局部字符在笔画细节上是否完整，具体的，生成的甲骨字符图像预测首先被裁剪为若干个局部块，然后选择设定数量和真实甲骨字符块标记误差较大的块，沿着通道维度连接，作为局部判别器的输入，以强迫甲骨字符提取模型学习区分与甲骨字符特征比较相似的干扰特征。

作为本发明的进一步改进：所述空间注意模块处理如下：使用嵌入分支中的字符区域得分图对甲骨字符生成分支末尾得到的融合不同尺度特征的特征图执行点乘操作进行特征加权，然后将加权后的特征图与原始融合不同尺度特征的特征图相加，以突出融合特征图中的甲骨字符区域。

作为本发明的进一步改进：所述全局和局部判别器遵循PatchGAN(EnhancingPix2Pix for Remote Sensing Image Classification)的结构设计，通过预测一个N×N的评估矩阵，用于捕获更加清晰、细致的字符局部细节。

嵌入学习分支通过提高甲骨背景特征和甲骨字符特征的“类内一致性”来学习可判别特征表示；先对甲骨拓片图像进行逐像素分类，达到甲骨背景和甲骨字符特征初步可判别的目的，然后基于CenterLoss(Discriminative Feature Learning Approach forDeep Face Recognition)自适应性地为甲骨背景特征和甲骨字符特征学习特定的特征中心，并鼓励其朝着相应的特征中心逐渐靠。

所述字符生成分支用来学习甲骨拓片图像和甲骨字符图像间的映射，为适应拓片图像中甲骨字符大小的变化并生成清晰完整的甲骨字符图像，使用残差模块和多尺度特征通道连接融合不同尺度上下文特征，最后经过空间注意模块处理生成甲骨字符图像预测。

所述使用全局和局部判别器评估生成的甲骨字符图像预测的全局和局部一致性，其中，全局判别器以完整的甲骨字符图像作为输入,检查其是否引入了额外的噪声，裂痕干扰，而局部判别器以局部甲骨字符块作为输入,检查局部字符在笔画细节上是否完整。

所述空间注意模块用来融合两个分支的结果，空间注意模块使用来自嵌入学习分支的甲骨字符区域预测指导甲骨字符生成分支注重融合特征图中的甲骨字符区域。

本发明相较于现有技术，具有以下有益效果：

(1)本发明构建的嵌入学习分支(Embedding Learning Stream)以实现特征嵌入空间中甲骨背景和甲骨字符的可判别特征表示学习，缓解了甲骨拓片图像中背景噪声和甲骨裂痕的干扰；

(2)本发明还构建了一个甲骨字符生成分支(Char Generation Stream)，该模型使用残差块(Residual Block)和多尺度特征通道连接，适应拓片图像中甲骨字符大小的变化并生成清晰完整的甲骨字符图像；

(3)本发明利用空间注意力模型(Spatial Attention Model,SAM)对两个分支的结果进行融合，利用嵌入分支中关于甲骨字符区域的预测，在甲骨字符生成分支末尾弱化融合特征图中的背景信息并突出其字符区域。

(4)本发明基于全局判别器和局部判别器来评估生成的甲骨字符图像的全局和局部一致性，保证生成的甲骨字符图像整体完整且细节清晰。

附图说明

图1是本发明背景技术中甲骨拓片图像样例示意图。

图2是本发明背景技术中甲骨拓片图像局部特征展示示意图。

图3是本发明背景技术中基于分割和生成方法的甲骨字符提取结果示意图。

图4是本发明甲骨字符提取模型的整体结构的工作流程图。

图5是本发明拓片图像与字符图像重新组合的示意图。

图6是本发明甲骨拓片图像和一流的图像生成模型的字符提取结果示意图。

图7是本发明甲骨拓片图像和一流的图像分割模型的字符提取结果示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

为了达到本发明的目的，如图4所示，在本发明的其中一种实施方式中提供一种融合分割网络和生成网络的甲骨拓片图像字符提取方法，包括以下步骤：

(一)训练阶段

S1、将设定数量成对的甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理，得到增广甲骨拓片和甲骨字符图像集合。

S2、构建甲骨字符提取网络。甲骨字符提取网络以GAN为基本骨架，由生成器和判别器组成。生成网络包含两个共享特征编码的子分支：嵌入学习分支和甲骨字符生成分支，一个用来学习可判别嵌入特征，另一个用来学习甲骨拓片图像与甲骨字符图像的映射。判别器包含全局和局部两个子判别器，全局判别器以完整的甲骨字符图像作为输入，检查其是否引入了额外的噪声、裂痕干扰；局部判别器以局部甲骨字符块作为输入，检查甲骨字符块在局部笔画细节上是否完整。

S3、获取甲骨拓片图像的特征编码。将S1得到的甲骨拓片图像送入一个基于VGG16骨架的自动编码器中进行特征编码，得到多个尺度的特征图。

S4、学习可判别嵌入特征。将S3中自动编码器中卷积层1、卷积层3、卷积层5中的特征图送入嵌入学习分支，得到一个嵌入特征图和甲骨字符区域得分图。嵌入学习分支将甲骨背景和甲骨字符视为不同的类别实例，通过提高甲骨背景特征和甲骨字符特征的“类内一致性”来学习其可判别特征表示。具体包括以下步骤：1)先利用分割网络学习像素级特征的能力，对甲骨拓片图像进行逐像素分类，达到甲骨背景特征和甲骨字符特征初步可判别的目的。2)基于CenterLoss自适应性地为甲骨背景特征和甲骨字符特征学习特定的特征中心，并鼓励其朝着相应的特征中心逐渐靠近。

具体的语义分割损失L_entropy和中心损失L_center表达如下：

其中，I_M表示真实甲骨字符图像I_c的二进制掩模，i表示I_M中的第i个位置的索引，N表示I_M中的像素总数，A_c∈(0,1)表示嵌入分支预测出的字符区域预测图；

其中，

代表嵌入学习分支中特征嵌入图I_E的第i个特征向量，

表示

所属类别y_i的特征中心向量。

S5、学习甲骨拓片图像与甲骨字符图像之间的映射。将S3中自动编码器中卷积层1、卷积层3、卷积层4、卷积层5中的特征图送入甲骨字符生成分支，生成甲骨字符图像预测。

S6、对生成的甲骨字符图像预测进行评估。将S5中的甲骨字符图像预测分别送入全局和局部判别器中，评估其全局和局部特征的一致性。为使甲骨字符提取模型训练更加稳定，使用最小二乘损失计算甲骨字符图像预测与对应真实甲骨字符图像间的差异。生成网络G,全局和局部判别D_G,D_L的损失函数表达如下:

S7、损失计算。根据生成网络的输出：甲骨字符区域得分图、嵌入特征图、甲骨字符图像预测，和判别网络的评估矩阵，分别计算相应的损失。总体上，甲骨字符提取模型的损失函数表示如下：

L_loss＝λ_entropyL_entropy+λ_centerL_center+λ_globalL_global+λ_localL_loca+λ₁L₁.

其中λ_entropy、λ_center、λ_global、λ_local、λ₁分别表示L_entropy、L_center、L_global、λ_local、λ₁的权重系数。L₁表示像素内容损失，其计算如下：

其中，I_c表示真实的甲骨字符图像。

表示生成的甲骨字符图像预测。i表示I_c中的第i个位置的索引，N表示I_c中的像素总数。

S8、模型训练。根据S7计算的损失，使用Adam优化器更新模型权重参数。并重复S3-S8，直至总体损失函数收敛。

(一)测试阶段

S1.获取原始甲骨拓片图像输入。

S2.创建甲骨字符提取模型对象，并加载训练好的模型参数。

S3.将原始甲骨拓片图像输入送入甲骨字符提取网络，直接生成相应甲骨字符图像预测。

全局判别器和局部判别器具体的结构和参数设置如表1、表2所示。

表1全局判别器

Type	Kernel	Stride	OutPuts
				Conv	5x5	1x1	32
Conv	5x5	2x2	64
				Conv	5x5	2x2	128
Conv	5x5	1x1	64
				Conv	3x3	1x1	1

表2局部判别器

Type	Kernel	Stride	OutPuts
				Conv	3x3	1x1	32
Conv	3x3	2x2	64
				Conv	3x3	2x2	128
Conv	3x3	1x1	1

下面，本发明基于甲骨拓片图像数据集进行实验说明。

甲骨拓片图像属于一种特殊的图像数据，其主要是利用扫描仪器从甲骨学典藏中扫描而来。尽管拓片图像表面存在严重的退化干扰问题，但甲骨拓片仅由甲骨背景(包括背景噪声和甲骨裂痕)和甲骨字符构成，在构成上相对简单。其次，从视觉纹理上看，甲骨背景、甲骨字符在外观上相对单一。因此，本发明的实验中，仅使用了少量具有代表性且退化严重的拓片图像进行训练和验证。

具体来说，本发明采用的甲骨拓片图像数据集包含了405对训练样例(甲骨拓片图像和对应的甲骨字符图像)、35对验证样例和300张测试样例。

为了确保模型能够学习准确的特征表示，根据上述的少量甲骨拓片图像训练样例，对样本进行简单扩充。扩充主要涉及以下操作：

(1)线性变换：缩放、裁剪、平移、操作；

(2)仿射变换：随机旋转、翻转、变形操作；

(3)颜色变换：模糊、对比度提升、高斯滤波等操作；

(4)甲骨拓片图像与甲骨字符图像重新组合。首先，利用工具软件从拓片图像中裁剪甲骨字符，构成甲骨字符字典；然后，选取若干张背景复杂的甲骨拓片图像并移除其中的甲骨字符，得到候选甲骨背景；最后根据字符字典和甲骨背景进行重新组合。

最终，得到了(405+2825)对训练样例、(35+165)对验证样例、(300+200)测试样例的一个混合甲骨拓片数据集。

本发明从两个角度对提出的甲骨字符提取模型的性能进行评估：图像生成角度和图像分割角度。

(1)从图像生成角度，使用峰值信噪比(PSNR)和结构相似性(SSIM)指标来测量预测值和真实值之间的差距。PSNR和SSIM是一种常见评估图像生成质量的客观标准。PSNR和SSIM的值越高，表明生成的甲骨字符图像质量越高，越接近真实值。PSNR、SSIM的计算如下:

其中，MSE为生成图像与对应真实图像的均方误差。MAX₁表示图像颜色的最大值。

其中，x、y为测量的成对图像，μ_x、μ_y为x、y的平均值，

为x、y的方差，σ_xy为x、y的协方差。c₁、c₂分别为常数，用以避免分母为0。

(2)图像分割的角度，由于大多数甲骨字符的像素值(归一化后)趋向于1(字符边缘或者一些特殊字符除外)，可近似的将生成的甲骨字符图像视为一种特殊的图像分割(二分类)。和图像分割模型的评估相似，使用平均交并比mIoU和单个字符类别的交并比IoU(char),分别测量生成的甲骨字符图像与真实甲骨字符图像之间的相关程度以及局部字符块与对应真实局部块的相关程度。其中，mIoU或IoU的值越高,说明像素被正确分类的比例就越高，生成的甲骨字符图像接近真实甲骨字符图像的概率就越大。此外，需要说明的是对于计算甲骨字符图像的IoU会存在一定程度的计算误差。其主要原因在于生成的甲骨字符图像的非字符区域像素值接近于0，但不为0。为了获得更加准确的IoU值，在IoU计算之前，需要对生成的甲骨字符图像进行阈值选择处理。具体的阈值根据经验设定，本实验中，该阈值设置为0.2，IoU的计算表达如下：

其中，TP、FP、FN表示分类结果为真正、假正、假负的像素个数。

表3和一流生成模型的量化比较结果

Models	PSNR	SSIM
			BicyleGAN	17.90	86.40％
CycleGAN	18.03	88.25％
			Pix2Pix	18.56	89.24％
Ours	23.83	95.17％

表4和一流的分割模型的量化比较结果

Models	mIoU	IoU(char)
			ERFNet	80.9％	64.5％
FCN16	83.3％	68.7％
			U-Net	87.48％	76.48％
SegNet	88.6％	78.5％
			Ours	88.07％	78.28％

下面将本发明与不同的一流模型进行比较说明。

第一，本发明与一流图像生成模型进行比较。

甲骨字符的提取任务可以视为从甲骨拓片图像到对应甲骨字符图像的转换任务。本部分，将甲骨字符提取模型与一流的通用的图像到图像转换模(Pix2Pix(Image-to-Image Translation with Conditional Adversarial Networks),CycleGAN(UnpairedImage-to-Image Translation Using Cycle-Consistent Adversarial Networks),BicyCleGAN(Towards instance-level image-to-image translation))进行比较。为公平起见，直接使用了这些模型的官方代码和默认的超参数设置。相应的定量评估和定性评估结果如图6、表3所示。

从视觉上看，通用的图像到图像转换模型在一定程度上也可以提取甲骨拓片图像中的字符信息，并且生成的甲骨字符在局部细节上相对清晰。然而，生成甲骨字符图像在整体效果上也存在一些问题。如一些尺度较小、不太显著的字符容易忽略掉(如图6第一行所示)。其次，一些和甲骨字符特征比较相似的噪声或者裂痕容易误认为甲骨字符特征。(如图6第二、四行所示)。相反，本发明的的甲骨字符模型几乎将甲骨拓片图像中的甲骨字符完全生成出来，并且没有引入过多的噪声和裂痕干扰(如图6第五列)。这在一定程度上表明该甲骨字符模型具有较强的特征区分能力，能够很好的区分出甲骨字符特征和背景特征。

从表3的定性评估结果中可以看出，本发明的甲骨字符提取模型在PSNR和SSIM指标上是最佳的，并远远超越次优结果。这进一步表明，相比于通用的图像到图像转换模型，本发明的甲骨字符生成模型能够生成更高质量的甲骨字符图像。

第二，本发明与一流图像分割模型进行比较。

大多数甲骨字符特征的像素值(归一化后)趋向于1，因此，可近似的将生成的甲骨字符图像视为一种特殊的图像分割(二分类)。本部分将甲骨字符提取模型与一流的图像分割模型(FCN16(Fully Convolutional Adaptation Networks for SemanticSegmentation)、ERFNet(Efficient Residual Factorized ConvNet for Real-TimeSemantic Segmentation)、U-Net(U-net：Convolutional networks for biomedicalimage segmentation)、SegNet(A Deep Convolutional Encoder-Decoder Architecturefor Image Segmentation))进行比较。此外，由于甲骨拓片图像中字符像素和背景像素在比例存在严重的失衡，在模型训练期间，默认为每个分割模型使用相同的类别平衡策略，以获得更加的字符分割效果。类别平衡策略的具体表示如下：

其中，W^(c)代表不同类别实例的权重系数，N_c和N分别代表类别c的像素个数和拓片图像中总的像素个数。

图7展示了甲骨字符提取模型和分割模型的字符提取效果。从视觉上看，分割模型几乎将所有的甲骨字符区域都预测出来，并且引入了较少的噪声或裂痕干扰。然而，通过分割的方式得到的甲骨字符图像，在字符的局部细节上往往比较模糊、粗糙，甚至存在部分笔画粘连的问题(如图7一、三、四列所示)。其次，由于分割的方法仅仅预测出甲骨字符在甲骨拓片图像上的区域信息，并没有对字符特征进行重建，因此，结果中存在与真实字符风格不一致的问题(如图7第二行所示)。相反，本发明的甲骨字符提取模型对甲骨拓片图像进行重建，生成的甲骨字符图像在结构上更为清晰、风格更为统一(如图7第五列所示)。

通过表2定量结果表明，本发明的甲骨字符生成模型在mIoU和IoU指标上仅次于最优的SegNet，并且仅仅存在0.53和0.22的差距。这间接表明本发明的的甲骨字符生成模型和一流的分割模型在甲骨字符区域预测上差距甚微。综合考虑生成模型和分割模型在视觉效果和定量结果可以看出，本发明的提出的甲骨字符生成模型在具备一流的分割性能的同时，能够生成更加清晰、真实的甲骨字符。

表5不同可判别损失的比较结果

Loss	mIoU	IoU	PSNR	SSIM
					L<sub>E</sub>	87.03％	76.35％	23.25	94.73％
L<sub>D</sub>	86.4％	75.17％	22.74	94.3％
					L<sub>E</sub>+L<sub>C</sub>	88.07％	78.28％	23.83	95.17％

表6字符提取模型关键模块的符号表示

符号	含义
		E	嵌入学习分支
C	字符生成分支
		G	全局判别器
L	局部判别器
		A	空间注意模块

表7字符生成模型不同模块组合的评估结果

ID	组合	mIoU	IoU	PSNR	SSIM
						(a)	CGL	82.60％	68.81％	19.46	89.04％
(b)	ECGL	87.7％	77.6％	23.11	94.44％
						(c)	ECGA	87.63％	77.46％	23.52	95.00％
(d)	ECGLA	88.07％	78.28％	23.83	95.17％

第三，消融实验。

(1)可判别损失函数

本发明提出的甲骨字符提取模型联合交叉熵损失L_E和中心损失L_C共同约束嵌入学习分支的甲骨背景和甲骨字符的可判别嵌入特征学习。为验证该联合损失的有效性，在这部分实验中我们分别使用交叉熵损失L_E以及区别损失Disc Loss(Segmentation with aDiscriminative Loss Function)(L_D)进行对比实验(注：L_D的基本思想类似于聚类，在嵌入空间，强迫同簇的特征朝向相同的中心靠拢，反之相反)。在实验过程中，除了损失函数的不同之外，整个甲骨字符生成模型的结构及超参数设置均是相同的。表5展示了不同损失函数的比较结果。

从表5中可以看出，区别损失L_D在各项指标上都是最差的。其原因可能是在鼓励同簇特征向中心靠拢过程中，丢失了某些视觉属性(例如，极端情况下，嵌入特征朝向零向量方向靠近)。相比于区别损失，交叉熵损失L_E的表现更优(在mIoU、IoU、PSNR,SSIM指标上，分别提升了0.63、1.18、0.51、0.43)。最关键的是，在联合损失(L_E+L_C)的监督下，甲骨字符提取模型的表现最佳，在各项指标均是最优的。这表明联合交叉熵损失和中心损失能够更有利于甲骨字符可判别嵌入特征的学习和甲骨字符图像的生成。

(2)嵌入学习分支

为缓解甲骨拓片图像中噪声、裂痕对甲骨字符提取的影响，甲骨字符提取模型引入了额外的嵌入学习分支。为了验证嵌入学习分支的有效性，将嵌入学习分支从甲骨字符提取模型中移除。移除后的评估结果如表7中(a)所示(为了便于描述，甲骨字符提取模型的关键组成使用字母符号表示，符号含义如表6所示。)

从表7结果显示，移除嵌入分支后，甲骨字符提取模型的性能显著下降(如表7中，(a)和(b)(c)(d)的各项指标比较)。这充分表明嵌入学习分支的存在对甲骨字符提取模型的提取效果有显著的提升。

(3)空间注意力模型

给出一张甲骨拓片图像，甲骨字符提取模型的目标是生成对应的甲骨字符图像。在这个过程中,甲骨字符在甲骨拓片图像中的位置信息是未知的。为此，在生成网络的末尾，使用空间注意力模型(SAM)将甲骨字符生成分支的融合特征进行空间注意约束，以突出甲骨字符区域特征的重要性。为了证明使用SAM的有效性，本实验对甲骨字符提取模型中的SAM模块进行移除,移除后的评估结果如表7中(b)所示。

通过表7中(b)和(d)的比较可以看出，移除字符空间注意模块后，甲骨字符提取模型的性能出现小幅下降。相比于使用SAM，模型在mIoU、IoU、PSNR、SSIM指标上,分别降低了0.37、0.68、0.72和0.73。这在一定程度上表明，在生成网络的末尾，使用SAM对甲骨字符提取模型的性能是有利的。

(4)局部判别器

甲骨字符形状多样、结构复杂且随机的分布在甲骨拓片上的任意位置。为约束生成的甲骨字符在空间结构上的完整性，使用额外的局部判别器评估字符特征的局部一致性。为验证局部判别器空间约束的有效性，在训练期间，将局部判别器移除，移除后的评估结果如表7中(c)所示。

通过表7中(c)和d)的比较可以看出，移除局部判别器后，字符提取模型的性能出现一定的下降。相比于使用局部判别器，移除后模型在mIoU、IoU、PSNR、SSIM指标上分别降低了0.44、0.82、0.31和0.17。这意味着，使用局部判别器约束甲骨字符的局部细节的完整性是有效的。

一直以来，甲骨拓片图像中复杂的噪声和各种各样的裂痕干扰，是解决甲骨文相关视觉任务的重要阻碍。本发明的研究结果表明：在嵌入空间学习拓片图像的可判别特征，是一种更为简单且有效的方式。该方式不仅可以有效避免直接对拓片图像中复杂的噪声、裂痕等干扰进行处理，而且更有利于端到端方法的实现。

本发明首次基于深度学习技术，构建了一个专门的甲骨字符提取模型，能够用于自动的提取甲骨拓片图像中的甲骨字符信息，并生成甲骨字符图像。这对后续加速甲骨文的研究及推广具有重大意义。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，包括以下步骤：

S2、构建甲骨字符提取网络，甲骨字符提取网络使用GAN作为基本骨架，由一个生成器和两个子判别器构成，生成器中包含两个共享相同特征编码的子分支：嵌入学习分支和甲骨字符生成分支，其中，嵌入学习分支用来在嵌入空间学习甲骨背景和甲骨字符的可判别特征，甲骨字符生成分支用来学习甲骨拓片图像与甲骨字符图像间的映射；

S4、在训练阶段，将S3中生成的甲骨字符图像预测分别送入全局判别器和局部判别器，评估其在全局和局部特征的一致性。

2.根据权利要求1所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，步骤S3将增广甲骨拓片和甲骨字符图像集合输入到甲骨字符提取网络进行处理，包括以下步骤：1)甲骨拓片图像送入特征编码器进行编码处理，获取多个尺度的特征图；2)卷积层1、卷积层3、卷积层5中的特征图送入嵌入学习分支，分别输出嵌入特征图I_E和字符区域得分图A_C；3)卷积层1、卷积层3、卷积层4、卷积层5中的特征图送入甲骨字符生成分支并生成最终的甲骨字符图像预测。

3.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述将设定数量的成对甲骨拓片和甲骨字符图像输入甲骨拓片图像增广模块进行随机形态处理，包括以下几种：

(1)线性变换：缩放、裁剪、平移操作；

(2)仿射变换：随机旋转、翻转、变形操作；

(3)颜色变换：模糊、对比度提升、高斯滤波操作；

(4)甲骨拓片图像与甲骨字符图像重新组合；先利用工具软件从甲骨拓片图像中裁剪甲骨字符，构成甲骨字符字典；然后，选取若干张背景复杂的甲骨拓片图像并移除其中的甲骨字符，得到候选甲骨背景；最后对甲骨字符字典和甲骨背景进行随机重新组合，得到新的甲骨拓片图像集合。

4.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述嵌入学习分支的操作如下：1)对卷积层1、卷积层3、卷积层5中的特征图分别进行上采样操作还原到原始输入大小，并沿通道维度连接进行特征合并；2)对合并后的特征图执行两个连续的3x3卷积操作进行上下文融合；3)融合后的特征图分别经过两个并行的3x3卷积操作，得到特征嵌入图I_E和字符区域得分图A_C。

5.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述字符生成分支的操作如下：1)对卷积层1、卷积层3、卷积层4、卷积层5中的特征图，分别依次执行用于压缩通道个数的1x1卷积、用于增大感受野的残差块、用于还原到原始输入大小的上采样操作，得到多个不同感受野的特征图；2)将得到的不同感受野的特征图，沿通道维度连接，经过一个3x3卷积操作，得到一个融合不同尺度特征的特征图；3)将得到的融合不同尺度的特征图和来自于嵌入学习分支的字符区域预测一同送入空间注意模块融合处理，最后经过一个3x3卷积，生成最终的甲骨字符图像预测。

6.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述甲骨字符提取网络基于LSGAN,使用最小二乘损失计算甲骨字符图像预测与对应真实甲骨字符图像间的差异，生成网络G,全局和局部判别D_G,D_L的损失函数表达如下:

7.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述局部判别器以局部甲骨字符块作为输入,检查局部字符在笔画细节上是否完整，具体的，生成的甲骨字符图像预测首先被裁剪为若干个局部块，然后选择设定数量和真实甲骨字符块标记误差较大的块，沿着通道维度连接，作为局部判别器的输入，以强迫甲骨字符提取模型学习区分与甲骨字符特征比较相似的干扰特征。

8.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述空间注意模块处理如下：在甲骨字符生成分支的末尾，使用嵌入分支中的字符区域得分图对多尺度融合特征图执行点乘操作进行特征加权，然后将加权后的特征图与原始的多尺度融合特征图相加，以突出多尺度融合特征图中的甲骨字符区域。

9.根据权利要求2所述的融合分割网络和生成网络的甲骨拓片图像字符提取方法，其特征在于，所述全局和局部判别器遵循PatchGAN的结构设计，通过预测一个N×N的评估矩阵，用于捕获更加清晰、细致的字符局部细节。