CN117218667A

CN117218667A - 一种基于字根的中文文字识别方法及系统

Info

Publication number: CN117218667A
Application number: CN202311464573.5A
Authority: CN
Inventors: 黄冠杰; 骆翔宇; 王少伟; 陈祖希; 郑黎晓
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-12
Anticipated expiration: 2043-11-07
Also published as: CN117218667B

Abstract

本发明提供了一种基于字根的中文文字识别方法及系统，涉及文字识别技术领域，构建常用字字根集；获取包括有待识别汉字的待识别汉字图像；将待识别汉字图像输入到汉字识别模型中，识别待识别汉字图像中存在的字根，并根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字；本发明基于MAML算法以及ACE算法构建训练得到汉字识别模型，相较于传统的基于字根配合制定结构标签策略的方法，本发明所提出的方法可以减少一些复杂的处理步骤的同时，保证模型识别的准确率，使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力，并达到了高效识别且端化的目的。

Description

一种基于字根的中文文字识别方法及系统

技术领域

本发明涉及文字识别技术领域，特别是涉及中文文字识别领域，提出了一种基于字根的中文文字识别方法及系统。

背景技术

近几年来，文字识别技术蓬勃发展，相较于英文识别任务，对于更加具有挑战性的中文识别任务技术较少，一些研究者们打破了传统的单字作为整体进行识别的枷锁，利用了字根加结构标签的策略来对文字进行识别，为中文识别新思路奠定了一定的基础。其中，有研究者利用自己的字根拆解策略配合注意力机制以及制定结构标签形式的方法对打印体中文进行实验，取得了可观的成绩。然而该方法所面临的问题便是：1）注意力机制本身较为复杂，需要依赖一个注意力模块来进行标签对齐，因此会需要更多的存储和计算；2）这些技术主要都采用制定结构标签的策略来辅助模型进行识别，需要为每一个中文文字制定相对应的结构标签，如“叶”这类结构简单的文字，其结构标签为常见的左右结构，但更为麻烦的一些字，像“殿”这种包含多种结构的汉字，则需要耗费大量人力和时间去制定每个汉字对应的结构标签。

由于中文的特殊性，利用字根加制定结构标签的策略已普遍成为许多研究者采用的方法，然而该类方法比较费时且费力。

发明内容

本发明的目的是提供一种基于字根的中文文字识别方法及系统，实现了不需要汉字结构标签便可准确识别的能力，并达到了高效识别且端化的目的。

为实现上述目的，本发明提供了如下方案：

一种基于字根的中文文字识别方法，所述基于字根的中文文字识别方法包括以下步骤：

构建常用字字根集；所述常用字字根集中包括若干常用字和各常用字对应的字根集。

获取待识别汉字图像；所述待识别汉字图像中包括待识别汉字。

将所述待识别汉字图像输入到汉字识别模型中，确定并输出所述待识别汉字；所述汉字识别模型为基于MAML算法以及ACE算法训练得到的，所述汉字识别模型用于识别所述待识别汉字图像中存在的字根，并根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字。

可选地，在所述获取待识别汉字图像之前，所述中文文字识别方法还包括：

获取待识别图像；所述待识别图像中包括若干待识别汉字。

通过通用文字检测模型检测并定位所述待识别图像中的若干待识别汉字，得到各待识别汉字对应的待识别汉字图像。

可选地，在所述将所述待识别汉字图像输入到汉字识别模型中，确定并输出所述待识别汉字之前，所述中文文字识别方法还包括：

基于MAML算法，构建包括若干个任务的训练任务集和单个任务的测试任务集；所述任务包括训练资料和测试资料；所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集。

利用所述训练任务集训练得到一初始化模型；所述初始化模型对所述训练任务集中任一汉字均能识别。

利用所述测试任务集对所述初始化模型进行训练，得到汉字识别模型。

可选地，在所述基于MAML算法，构建包括若干个任务的训练任务集和单个任务的测试任务集之前，所述中文文字识别方法还包括：

获取若干类单字图像；单字图像总数为N1+N2。

基于N1个所述单字图像，建立若干个任务；所述若干个任务用于构建训练任务集。

基于N2个所述单字图像，构建单个任务；所述单个任务用于构建测试任务集。

可选地，所述汉字识别模型的结构为孪生网络结构。

可选地，根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字，具体包括：

针对所述待识别汉字图像中存在的每一不重复字根，计算所述字根在所述待识别汉字图像中出现的次数。

针对所述常用字字根集中的每一常用字，计算所述常用字各字根在所述常用字中出现的次数。

根据所述字根在所述待识别汉字图像中出现的次数和所述常用字各字根在所述常用字中出现的次数，确定所述待识别汉字。

另一方面，对应于前述的基于字根的中文文字识别方法，本发明还提供了一种基于字根的中文文字识别系统，所述基于字根的中文文字识别系统在被计算机运行时，执行如前文所述的基于字根的中文文字识别方法。

再另一方面，对应于前述的基于字根的中文文字识别方法和系统，本发明还提供了一种电子设备，所述电子设备包括存储器和处理器，存储器中存储有计算机程序，所述计算机程序在被处理器运行时，执行如前文所述的基于字根的中文文字识别方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的一种基于字根的中文文字识别方法及系统，中文文字识别方法包括：构建常用字字根集；获取包括有待识别汉字的待识别汉字图像；将待识别汉字图像输入到汉字识别模型中，识别待识别汉字图像中存在的字根，并根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字；本发明基于MAML算法以及ACE算法构建训练得到汉字识别模型，相较于传统的基于字根配合制定结构标签策略的方法，本发明所提出的方法可以减少一些复杂的处理步骤的同时，保证模型识别的准确率，使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力，并达到了高效识别且端化的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种基于字根的中文文字识别方法的流程图；

图2为本发明实施例1提供的中文文字识别方法中字根拆解流程图；

图3为本发明实施例1提供的中文文字识别方法中字根拆解示意图；

图4为本发明实施例1提供的中文文字识别方法中MAML训练策略图；

图5为本发明实施例1提供的中文文字识别方法中孪生网络的结构图；

图6为利用本发明实施例1提供的中文文字识别方法对文档中汉字识别的效果图；

图7为利用本发明实施例1提供的中文文字识别方法对票据中汉字识别的效果图；

图8为利用本发明实施例1提供的中文文字识别方法对报告单中汉字识别的效果图；

图9为本发明实施例2提供的一种基于字根的中文文字识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例提供了一种基于字根的中文文字识别方法，如图1所示，该基于字根的中文文字识别方法包括以下步骤：

A1、构建常用字字根集；所述常用字字根集中包括若干常用字和各常用字对应的字根集。可以理解的是，任一常用字的字根集中包括的若干字根图像刚好可以构成该常用字，且每一字根图像中隐含该字根在该常用字中的空间位置信息。

A2、获取待识别汉字图像；所述待识别汉字图像中包括待识别汉字。

A3、将待识别汉字图像输入到汉字识别模型中，确定并输出待识别汉字；所述汉字识别模型为基于MAML算法以及ACE算法训练得到的，所述汉字识别模型用于识别所述待识别汉字图像中存在的字根，并根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字。

在具体实施时，该中文文字识别方法在步骤A2之前还应包括：

获取待识别图像；所述待识别图像中包括若干待识别汉字；待识别图像可以为文档，身份证，票据，报告单等图像。

通过通用文字检测模型检测并定位所述待识别图像中的若干待识别汉字，得到各待识别汉字对应的待识别汉字图像。本发明中进行文字检测定位采用的是一个预训练的通用文字检测模型DB (Differentiable Binarization )，这是一种基于分割的文本检测算法，是一个较为通用的文本检测模型，当然在具体实施时，也可以使用其他文字检测定位模型。

具体应用中，在步骤A3将待识别汉字图像输入到汉字识别模型中，确定并输出待识别汉字之前，中文文字识别方法还包括：

获取若干类单字图像；单字图像总数为N1+N2。基于N1个所述单字图像，建立若干个任务；所述若干个任务用于构建训练任务集。基于N2个所述单字图像，构建一个测试任务；所述测试任务用于构建测试任务集。本实施例中，单字图像均取自Unicode编码官网，共下载了27484类单字图像，其中取1000个类别的单字图像用于构建训练任务集，17484个类别的单字图像用于构建测试任务集。

另外，在获取单字图像后，还包括采用独创的拆分策略对27484类中文文字进行字根的拆解，并以此作为整个模型识别的前提。字根拆解流程如图2所示，首先将收集到的27484个中文文字基于人工先验知识和现有网上拆分规则挨个进行拆分，但首次所拆分后的字根是灵活的，在训练期间，分析了一些实验中表现较差的文字及其字根的情况再对其进行改善，并于最终取得最好模型识别结果的条件下来确定最后版本的拆分策略。在图3中以“啊”为例，圆形节点为选定的字根，用于进行模型训练，而三角形节点为可用其他字根表示的文字表示，正方形节点则为弃置点(既不能用其他字根表现，也不作为字根进行训练)。

基于MAML算法，构建包括若干个任务的训练任务集Meta-train和单个任务的测试任务集Meta-test；所述任务包括训练资料和测试资料；所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集。具体来说，在借鉴MAML中的meta-learning思想所制定的训练策略包括，首先对采样的前10000个类别的汉字单字图像进行多个task的划分，每个task共有5个类别，每一类共有N个样本，即图4所示的MAML训练策略图中的5-way，N-shot，注：此处的N可任取。通过对这10000类汉字构建的训练任务集(meta-train)来得到一个较好的模型初始化参数，再将其应用到后17484个类别汉字的测试任务(即meta-test)中。

利用所述训练任务集训练得到一初始化模型；所述初始化模型对所述训练任务集中任一汉字图像均能识别出其对应的汉字。

在本实施例中，汉字识别模型的结构为孪生网络结构。图5展示了孪生网络的结构图，其输入为一对成对的样本对，在本申请中，成对的样本对具有类别相同但字体样式不同的特点，例如一对样本对“流”(黑体样式)，“流”(隶书样式)，通过孪生网络度量计算的方式来得到与目标字相似的特征向量。

在利用汉字识别模型确定待识别汉字时，根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字，具体包括：

可以理解的是，在本实施例的这种实施方式中，进行汉字识别模型的训练时，是以汉字图像的字根集作为标签，因此在使用该汉字识别模型时，得到的是待识别汉字图像的字根集，并依据每一字根出现的次数在常用字字根集确定各字根出现次数相匹配的常用字；在另一种可能的实施方式中，在进行汉字识别模型的训练时，可以汉字图像的空间字根特征作为标签，常用字字根集中包括每一汉字图像及其空间字根特征，并依据待识别汉字的空间字根特征在常用字字根集中确定空间字根特征相匹配的常用字。

在具体实施时，中文识别任务作为序列识别任务来处理，在全部时间步长内，对所有的第k类字根进行求概率和，得其预测后的第k类字根出现的次数；其次，将前一步中得到的预测后第k类字根出现次数进行标准化(除以所有字根的总和)，以及将标签中对应字根出现的真实次数进行标准化；最后将前一步中得到的两个标准化后的概率套用交叉熵损失函数(Aggregation Cross-Entropy Loss)进行计算。需要理解的是，在模型的训练阶段，需要根据上述损失函数调整汉字识别模型的参数。

最终识别效果如图6-图8所示，本实施例中，基于MAML算法以及ACE算法构建训练得到汉字识别模型，相较于传统的基于字根配合制定结构标签策略的方法，本发明所提出的方法可以减少一些复杂的处理步骤的同时，保证模型识别的准确率，使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力，并达到了高效识别且端化的目的。

实施例2：

此外，本发明实施例1的方法也可以借助于图9所示的基于字根的中文文字识别系统的架构来实现。如图9所示，该基于字根的中文文字识别系统可以包括常用字字根集构建模块M1、待识别汉字图像获取模块M2和待识别汉字确定模块M3；一些模块还可以有用于实现其功能的子单元，例如在待识别汉字图像获取模块M2中还包括待识别图像获取单元、文字检测单元和文字定位单元。当然，图9所示的架构只是示例性的，在实现不同的功能时，根据实际需要，可以省略图9示出的系统中的一个或至少两个组件。

实施例3：

此外，本实施例提供了一种电子设备，所述电子设备包括存储器和处理器，存储器中存储有计算机程序，所述计算机程序在被处理器运行时，执行如实施例1所述的基于字根的中文文字识别方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本文中应用了具体个例，但以上描述仅是对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；本领域的技术人员应该理解，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于字根的中文文字识别方法，其特征在于，所述中文文字识别方法包括以下步骤：

构建常用字字根集；所述常用字字根集中包括若干常用字和各常用字对应的字根集；

获取待识别汉字图像；所述待识别汉字图像中包括待识别汉字；

2.根据权利要求1所述的基于字根的中文文字识别方法，其特征在于，在所述获取待识别汉字图像之前，所述中文文字识别方法还包括：

获取待识别图像；所述待识别图像中包括若干待识别汉字；

3.根据权利要求1所述的基于字根的中文文字识别方法，其特征在于，在所述将所述待识别汉字图像输入到汉字识别模型中，确定并输出所述待识别汉字之前，所述中文文字识别方法还包括：

基于MAML算法，构建包括若干个任务的训练任务集和单个任务的测试任务集；所述任务包括训练资料和测试资料；所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集；

利用所述训练任务集训练得到一初始化模型；所述初始化模型对所述训练任务集中任一汉字均能识别；

4.根据权利要求3所述的基于字根的中文文字识别方法，其特征在于，在所述基于MAML算法，构建包括若干个任务的训练任务集和单个任务的测试任务集之前，所述中文文字识别方法还包括：

获取若干类单字图像；单字图像总数为N1+N2；

基于N1个所述单字图像，建立若干个任务；所述若干个任务用于构建训练任务集；

5.根据权利要求3所述的基于字根的中文文字识别方法，其特征在于，所述汉字识别模型的结构为孪生网络结构。

6.根据权利要求1所述的基于字根的中文文字识别方法，其特征在于，根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字，具体包括：

针对所述待识别汉字图像中存在的每一不重复字根，计算所述字根在所述待识别汉字图像中出现的次数；

针对所述常用字字根集中的每一常用字，计算所述常用字各字根在所述常用字中出现的次数；

7.一种基于字根的中文文字识别系统，其特征在于，所述基于字根的中文文字识别系统在被计算机运行时，执行如权利要求1-6任一项所述的基于字根的中文文字识别方法。

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，存储器中存储有计算机程序，所述计算机程序在被处理器运行时，执行如权利要求1-6任一项所述的基于字根的中文文字识别方法。