CN116935411A

CN116935411A - 一种基于字符分解和重构的部首级古文字识别方法

Info

Publication number: CN116935411A
Application number: CN202311195904.XA
Authority: CN
Inventors: 李春桃; 徐昊; 曹伟; 韩育浩; 刁晓蕾; 史大千
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-10-24

Abstract

本发明公开了一种基于字符分解和重构的部首级古文字识别方法，包括：对待识别字符图像进行预处理；将所述预处理后的图像输入特征提取模块，获取包含语义信息的深度特征；将所述深度特征输入输出模块同时识别字体结构和部首，获取候选的部首组合及字体结构；基于字符匹配策略，对候选的部首组合及字体结构进行识别，获取部首级古文字识别结果。本发明可以对模型未曾见过的待发现古文字进行识别，并且准确率相较于传统方法有大幅度提高，极大地丰富了古文字识别的种类。

Description

一种基于字符分解和重构的部首级古文字识别方法

技术领域

本发明属于图像处理和文字识别技术领域，尤其涉及一种基于字符分解和重构的部首级古文字识别方法。

背景技术

OCR(光学字符识别)，是计算机视觉领域的基本任务之一。在过去的OCR研究中，使用基于过滤器技术进行字符特征识别。但是，随着深度学习技术的兴起，卷积神经网络（CNN）得到广泛应用，能够提取更深层次的特征，从而获得更好的识别性能。一些研究提出了利用上下文统计分析和Hopfield网络的模糊字符识别模型，以及使用全局加权平均池化的单个CNN级联模型，以在有限数量的参数下实现更高的识别精度。然而，这些基于深度学习的OCR方法需要大量的字符级注释数据集，并且由于字符使用频率的差异和字符类别数量的巨大，实际中的模型训练存在一定的限制。而且，在现实的文字识别任务中，常会出现对于训练集之外的数据进行识别，这也对传统的基于深度学习的OCR方法提出了考验。

发明内容

为解决上述技术问题，本发明提出一种基于字符分解和重构的部首级古文字识别方法，可以对模型未曾见过的待发现古文字进行识别，并且准确率相较于传统方法有大幅度提高，极大地丰富了古文字识别的种类。

为实现上述目的，本发明提供了一种基于字符分解和重构的部首级古文字识别方法，包括：

对待识别字符图像进行预处理；

将所述预处理后的图像输入特征提取模块，获取包含语义信息的深度特征；

将所述深度特征输入输出模块同时识别字体结构和部首，获取候选的部首组合及字体结构；

基于字符匹配策略，对候选的部首组合及字体结构进行识别，获取部首级古文字识别结果。

可选地，所述特征提取模块包括若干依次连接的部首-结构提取单元，每个所述部首-结构提取单元包括若干双重注意力层和一个批量归一化层。

可选地，所述输出模块包括：部首输出器和结构输出器；

获取候选的部首组合及字体结构包括：

将所述深度特征输入所述部首输出器，检测输入图像中的部首并对其进行分类和定位，获取候选的部首组合；

将所述深度特征输入所述结构输出器，预测字符的结构信息，获取候选的字体结构。

可选地，所述部首输出器包括：两个卷积层和一个预设大小的第一FC层。

可选地，所述结构输出器包括：五个卷积层和一个第二FC层；

所述结构输出器获取字体结构包括：利用浅层特征和深度特征来捕捉全局和局部结构信息；其中，所述浅层特征为首个所述部首-结构提取单元输出的特征。

可选地，对候选的部首组合及字体结构进行识别包括：

分别获取所述候选的部首组合的平均置信度和所述候选的字体结构的结构置信度；

将所述平均置信度和结构置信度的前t个候选部首和字体结构进行组合，并选取其中的预设组合，生成待查询的候选部首结构列表；

将所述候选部首结构列表与字符字典进行字符匹配，获取候选字符，基于所述候选字符构建字符预测列表；

当前t个候选部首和字体结构的组合中所有的部首和字体结构组合都进行过匹配之后，输出排序后的所述字符预测列表作为识别结果。

可选地，基于所述候选部首结构列表在字符字典匹配字符，获取候选字符包括：

若成功匹配到字符，则计算此字符的置信度；

将匹配成功的候选字符和对应的置信度存储在所述字符预测列表中；

若没有匹配到字符，则选取新的待查询的候选部首结构列表，重新进行字符匹配。

与现有技术相比，本发明具有如下优点和技术效果：

本发明通过文字部首的特性，解决了古文字识别领域数据的长尾分布问题。本方法通过部首和字体结构的信息进行推理识别，可以实现零样本识别，即可以对模型未曾见过的古文字进行识别。实际测试中，本发明在训练数据不足的情况下，识别效果显著优于所有基于字符的OCR方法和零样本方法。这表明本发明的零样本字符识别方法有效地利用了字符和知识图谱中的部首和字体结构信息，展现了其优越性。本发明的零样本识别方法将字符分解为部首的操作带来了更多的训练样本和更少的训练类别，缓解了少样本问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的一种基于字符分解和重构的部首级古文字识别方法示意图；

图2为本发明实施例的具体实时过程示意图；

图3为本发明实施例的RSE网络结构示意图；

图4为本发明实施例的CRCM算法流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例提出一种基于字符分解和重构的部首级古文字识别方法，利用字符分解和重构的技术。该方法的核心包括两个关键步骤，即结构和部首提取器（RSE）以及字符推理器（Character Reasoner）。

首先，在结构和部首提取器（RSE）阶段，输入的字符图像经过处理，从中提取出字体结构和部首的深度特征。这一步骤的目的是将输入字符分解为其组成部分，捕捉到每个部首的形态和结构信息。通过分析字符的结构特征和部首组成，RSE能够从输入字符图像中提取出具有高表征能力的特征向量。接下来，在字符推理器（Character Reasoner）阶段，基于RSE提取的特征向量，系统对目标字符的类别进行推理和识别。通过部首输出器（ROP）和结构输出器（SOP），CR能够获得待识别古文字的候选字体结构和候选部首集，之后CR采用CRCM（Confidence-based Radical Character Matching）算法来计算候选字符的置信度，从而确定目标字符所属的类别。

具体过程如下：

对待识别字符图像进行预处理，将其调整为固定大小的输入图像。

将待识别字符图像送入由多个双重注意力层和批量归一化层组成的RSEB中，图片经过多个RSEB，得到待识别图片的深度特征。

将RSEB的输出送入部首输出器（ROP）和结构输出器（SOP）中进行分类和定位。其中ROP用于检测输入图像中的部首并对其进行分类和定位，SOP用于预测字符的结构信息。得到候选的部首组合及字体结构。

使用基于置信度的部首的字符匹配策略(CRCM)。对于每一种可能的字体结构和部首的组合，先在知识图谱中匹配候选字符，对得到的每个候选字符计算其置信度。最后对所有候选字符的置信度进行匹配和排序。按置信度从高到低排列候选字符，从而给出识别结果。

东亚文字的字符，例如汉语、韩语和日语，字符通常由部首组成。部首按照不同排列方式构成不同的字符。字符之间可以共享使用相同的部首，部首数量远低于字符数量，而且相较于字符，部首种类间的数量差异更为均衡，可以有效地缓解古文字识别中训练数据不均衡的问题。基于以上观点，本实施例中的古文字识别模型采用具有部首级标注信息的数据集进行训练。

本实施例是一种基于字符分解和重构的部首级古文字识别方法。该方法一定程度上，通过文字部首的特性，解决了古文字识别领域数据的长尾分布问题。本方法通过部首和字体结构的信息进行推理识别，可以实现零样本识别，即可以对模型未曾见过的古文字进行识别。实际测试中，本发明在训练数据不足的情况下，识别效果显著优于所有基于字符的OCR方法和零样本方法。这表明本发明的零样本字符识别方法有效地利用了字符和知识图谱中的部首和字体结构信息，展现了其优越性。本发明的零样本识别方法将字符分解为部首的操作带来了更多的训练样本和更少的训练类别，缓解了少样本问题。

如图2，本实施例的具体实施过程如下：

1.对待识别字符图像进行预处理，将其调整为固定大小的输入图像：

对于输入的待识别的古文字字符图像，将其调整为416*416大小的图像，以符合模型的输入规格。

2.经过第一步预处理的待识别古文字图像，经过RSE网络进行深度特征提取：RSE网络结构如图3所示；

在RSE中，一组部首-结构提取块(RSEB)被设计为从输入图像中提取深度特征的骨干网络，其中每个RSEB由多个双重注意力层(DAL)和一个批量归一化层组成，如图3中所示。DAL旨在解决部首之间重叠和边界不清晰的问题，其中注意力权重是从两个计算中获得的，如图3中DAL所示。由于字符中的部首和结构相关且都包含语义信息，多层RSEB堆叠组成的RSE网络可以有效的学习部首和结构特征，以有效地提取它们。待识别的古文字图片经过RSE处理后，输出包含语义信息的深度特征，以便并行执行部首检测和字体结构提取。

Dual layer attention(DAL)机制是一种在目标检测和图像分割领域应用的注意力机制，它可以同时在特征图的空间维度和通道维度上进行注意力计算，以捕获不同通道和位置之间的交互和重要性。这样可以让网络同时利用空间和通道两个维度上的信息，实现了局部特征和全局表示的互补和相互增强，从而提升了网络对重叠和边界不清晰问题的处理能力。

3.RSE网络提取出的字符的深度特征经过部首输出器（ROP）和结构输出器（SOP），生成候选的部首组合以及候选字体结构：

设计了两个输出器，部首输出器（ROP）和结构输出器（SOP），用于同时识别字体结构和部首。其中ROP通过预测部首类别和定位来约束RSE的训练，而SOP则在约束RSE同时学习字体结构信息，从而促进ROP的部首提取。ROP由两个卷积层和一个大小为的FC层组成，其中/>指输入字符图像的分割网格数，/>表示每个网格中锚框的数量，/>是数据集中部首类别的数量，/>记录部首位置的坐标和部首检测的置信度，在此/>。需要注意的是，根据实验结果，本实施例设置了/>和/>。与此同时，本发明应用SOP来预测字体结构，其中利用浅层特征（首个RSEB输出的特征）和深层特征/>（经过多层RSEB提取的特征，包含部首位置信息）来捕捉全局和局部结构信息。SOP由五个卷积层和一个FC层组成，以进一步处理连接的浅层和深层特征，从而得到待识别字符的候选字体结构。在本实施例中，模型可以预测59种部首类型以及14种字体结构类型。其中，部分部首种类如表1所示，字体结构种类如表2所示。

表1

表2

4.在第三步中，通过ROP和SOP得到了若干候选的字体结构以及部首。对于每一组可能的字体结构和部首组合，使用CRCM算法：

通过ROP和SOP得到了若干候选的字体结构以及部首之后，在字符推理器(Character Reasoner)中利用字符字典进行候选字符识别。字典从公共的知识图谱ZiNet中提取，其中存储了字符类别及其对应的分解信息，包括部首和字体结构。为了增强字符和部首集之间的匹配，本实施例提出了一种基于置信度的部首字符匹配策略，称为CRCM（Confidence-based Radical Character Matching），旨在充分利用候选字体结构以及部首的置信度。所提出的CRCM表示为，其输入为从ZiNet中提取的Oracle字典/>、候选部首(R)和候选结构(S)，输出为候选字符及其置信度。CRCM算法如图4所示，匹配过程如下：

第一步，计算由ROP输出的可能的候选部首集的平均置信度，如下公式，其中n是RSE识别的部首数，/>是字符中第i个位置的第j个候选部首的预测置信度。结构置信度/>包括由SOP输出的第k个候选结构的预测置信度/>。

第二步，算法选择部首集平均置信度和结构置信度/>的前t个候选部首和字体结构进行组合，并从中选取某组合，生成待查询的候选部首结构列表List。

第三步，通过List在/>中匹配字符，以获取候选字符C，如下公式。

若成功匹配到字符c，即成功返回了某字符，则计算此字符的置信度，计算公式如下：

其中，置信度是通过/>和/>计算的，θ=0.7。匹配成功的候选字符C及其相应的置信度/>存储在字符预测列表PC中。

若没有匹配到字符c，即没有返回字符，则回到第二步当中选取新的待查询的候选部首结构列表List，然后重复第三步的匹配过程。

当中所有的部首和字体结构组合都进行过匹配之后，输出排序后的PC作为识别结果。至此本发明完成整个古文字识别过程。TopConf()表示：在候选部首置信度排名的前t个候选部首，以及在候选结构置信度排名中的前t个候选结构所构成的集合。/>：表示某部首Rj置信度。/>：表示某结构Sk置信度。t: 表示取置信度排名的前t个。

本实施例针对输入的文字图片，提取字符的部首特征和文字的结构特征。针对识别文字拆分结果识别的多种候选部首组合及结构，如何在知识图谱中进行推理查询并返回正确结果。实现零样本的古文字识别。

本实施例是人工智能技术结合古文字研究的又一次有意义的探索。与传统的古文字识别方法不同，本实施例的识别方法采用高质量标注的部首级数据集作为训练数据，构建出了具有实际应用价值的基于字符分解重构的古文字识别方法。本实施例中的识别方法，将文字识别从传统的分类问题，变为了推理问题，通过将文字拆分成部首再重组进行推理，可以一定程度上实现对于训练数据外的字符进行识别。是基于深度学习的古文字识别领域走向零样本训练识别的一次极有价值的尝试。相较于传统的古文字识别方法，本实施例中的方法能在较高准确率的前提下极大的丰富识别文字的种类。本实施例能够协助古文字相关从业人员更加高效的开展研究工作。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于字符分解和重构的部首级古文字识别方法，其特征在于，包括：

对待识别字符图像进行预处理；

2.根据权利要求1所述的基于字符分解和重构的部首级古文字识别方法，其特征在于，所述特征提取模块包括若干依次连接的部首-结构提取单元，每个所述部首-结构提取单元包括若干双重注意力层和一个批量归一化层。

3.根据权利要求2所述的基于字符分解和重构的部首级古文字识别方法，其特征在于，所述输出模块包括：部首输出器和结构输出器；

获取候选的部首组合及字体结构包括：

4.根据权利要求3所述的基于字符分解和重构的部首级古文字识别方法，其特征在于，所述部首输出器包括：两个卷积层和一个预设大小的第一FC层。

5.根据权利要求3所述的基于字符分解和重构的部首级古文字识别方法，其特征在于，所述结构输出器包括：五个卷积层和一个第二FC层；

6.根据权利要求3所述的基于字符分解和重构的部首级古文字识别方法，其特征在于，对候选的部首组合及字体结构进行识别包括：

7.根据权利要求6所述的基于字符分解和重构的部首级古文字识别方法，其特征在于，基于所述候选部首结构列表在字符字典匹配字符，获取候选字符包括：

若成功匹配到字符，则计算此字符的置信度；