CN115512357A

CN115512357A - 一种基于部件拆分的零样本汉字识别方法

Info

Publication number: CN115512357A
Application number: CN202211142256.7A
Authority: CN
Inventors: 叶晨; 张琦磊; 杜承豪; 王彧飞
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-23

Abstract

一种基于部件拆分的零样本汉字识别方法，首先，构造数据集‘汉字数据集’以及‘原型数据集’：本发明从中国科学院自动化研究所脱机手写样本数据库CASIA‑HWDB数据集中的每一类汉字里挑选一张汉字图片组成‘原型数据集’，并将CASIA‑HWDB数据集中剩下的部分作为‘汉字数据集’，并按照8：1：1的比例将其分成训练集，验证集和测试集。最后，构建汉字识别模型：该模型拥有‘汉字编码器’、‘特征解码器’以及‘序列转换器’这三个结构。其主要意义在于：识别人们不认识的生僻汉字，并获取其语义信息；再者，摆脱传统数据集受限于大量样本均衡，生僻字数据集无法获取的局限性；最后，先拆分后识别的模型架构大幅提升模型的训练效率，同时识别的准确性得以保障。

Description

一种基于部件拆分的零样本汉字识别方法

技术领域

涉及汉字识别领域。

背景技术

汉字是博大中华文化中的重要一环。汉字作为承载信息的载体，每个汉字都具有其独特的语义信息。作为一种象形文字，汉字拥有极其庞大的数量。根据最新的信息技术中文编码字符集GB19030-2005，我国常用汉字有近3000个，整个数据集包含的汉字更是达到70244之多。识别其中每一个汉字对于常人而言十分困难，因此，藉由计算机实现汉字识别的想法应运而生。早期方法依赖于数据库样本的数量，而生僻字的存在造成了汉字样本分布的严重失衡从而导致了模型的训练结果产生偏差。在这种情况下，训练零样本识别汉字的模型成为大势所趋。

如今的汉字识别方法主要分为三类，其一是使用传统的机器学习方法进行识别，其二则是利用深度学习将每个汉字作为一个整体进行识别，其三是利用部件拆分的思想对汉字进行拆分后，再利用前两种方法进行识别，下面对三者进行详述。

第一，传统机器学习方法。这一类方法主要依赖于手动提取汉字的特征，并凭借一些数学方法和分类器进行特征归类并得到识别结果。传统机器学习方法作为机器学习最早期的一类算法模型，虽然容易实现且易于解释，但是其弊端十分突出：1)传统机器学习的方法需要人工提取汉字特征，特征设计的好坏会直接影响最终预测结果的准确率。2)大多数分类器在面对大量数据时会产出模型处理上的困难，往往会导致过拟合现象的产生。3)传统机器学习方法在面对多分类问题时会产生分类准确率低下的问题，而对于汉字识别问题又拥有大量的分类。

第二，基于深度学习的汉字整体识别。这一类方法主要依赖于卷积神经网络在图像特征提取上的优势，而这一优势使得深度学习在识别准确率上较传统方法取得了更好的结果。然而，此方法依旧拥有以下致命缺点：1)深度学习依赖于大量的数据，对数据集中每类的数量有较高的要求。作为一个多分类问题，汉字识别相较其他少分类问题需要更多数据。2)深度学习方法容易受到数据集中各类分布的影响，各个分类之间的样本数量是否平衡以及样本数据之间是否相似，都会影响最终识别的准确率。

第三，基于汉字拆分的识别方法。这一类方法通过增加特殊的结构，将每个汉字拆分到字根乃至笔画的层级上，再基于上文中提到的第一和第二种方法，进行字根与笔画的分类，再通过结果的重新组合，映射得到对应的识别结果。由于字根的数量仍极为丰富，在拆分字根的过程中容易出现某些字根没有出现在训练集中的现象，而最终导致整个汉字无法被正确识别。因此，如何制定一个能组成所有汉字的字根数据集，成为了本方法的一大痛点。

1.1相关的现有技术

“一种基于字根的零样本汉字识别方法”，专利公开号：CN112508108A。

CN112508108A利用了卷积神经网络技术以及递归神经网络技术，构建了一个双向平行的网络结构分别提取汉字的图像特征以及字根序列的属性特征，通过目标函数将二者相连，从而得到了汉字识别的模型。其具体步骤如下：

首先，该发明基于自然场景下的汉字数据集(Chinese Text Dataset in theWild，简称CTW)，根据汉字出现的频率构建了训练集和测试集，其中出现频率靠前的作为训练集，出现频率靠后的作为测试集，并在数据集中采集了图像包含的所有字根，并对每一个独特的字根进行了唯一编码。其次，该发明使用了两条并行的网络结构，其中一支通过卷积神经网络提取汉字图片之中的图像特征，另一支通过递归神经网络提取该汉字对应的字根序列的属性特征，两支网络结构通过损失函数项链，并在训练中优化网络使得二者特征向量相似。最终，在测试过程中，输入的汉字图片可以通过网络的特征提取以及最邻近距离函数定位到相关的字根序列，从而得到相应的结果。

CN112508108A技术的第一个主要缺点在于他的拆分方式。该发明使用了五笔字根表作为字根拆分的标准。五笔字根表中较多的相似字根，大大增加了字根分类的难度。同样的，五笔方式适用于构建汉字而非拆分汉字。以‘秦’字为例，人类通过五笔输入的先验知识得到其拆分序列为‘三、人、禾’，却没有相应先验知识的机器则可能将其拆分成‘一、夫、禾’这一序列。其中，‘一’、‘夫’、‘禾’三者皆是五笔输入中的合法字根。这一点无疑会导致识别结果的降低以及模型可解释性的丧失。

该发明的第二个缺点在于它所使用的方法是嵌入空间匹配的模式来匹配相近的特征向量。对于这种方式，模型需要提前存储所有的向量，而这一步需要大量的存储空间，继而导致了模型的臃肿。嵌入向量过于庞大的数量会导致模型匹配的过程中出现效率低下以及匹配成功率降低的情况。

发明内容

基于以上背景技术中提出的研究现状，本发明提出了一种崭新的基于部件拆分的零样本汉字识别方法，发明内容如下：

本发明针对汉字种类众多的现状，以及其样本分布不均的局限，提出了基于部件拆分的零样本识别方法，通过定义一种全新的汉字拆分方式，并结合先验知识设计部件识别的网络结构，得到了一个端到端的零样本汉字识别模型，相较现有方法在准确率和效率上具有明显优势。

技术方案

本发明提出的一种基于部件拆分的零样本汉字识别方法，概述如下：

首先，构造数据集‘汉字数据集’以及‘原型数据集’：本发明从中国科学院自动化研究所脱机手写样本数据库CASIA-HWDB(下文简称为HWDB)数据集中的每一类汉字里挑选一张汉字图片组成‘原型数据集’，并将HWDB数据集中剩下的部分作为‘汉字数据集’，并按照8：1：1的比例将其分成训练集，验证集和测试集。

其次，对部件进行了编码并构造汉字与汉字部件的映射字典(以下简称为字典)，该字典记录了汉字以及其对应的部件拆分序列。相较于基于五笔字根的拆分方式，本发明提出了一种基于汉字结构的层级拆分策略，具体策略如下：将汉字定义为十二种结构，对于每种结构，实行不同的拆分方式。对于依旧可以向下拆分的一个汉字部件，会将其继续迭代拆分直至无法拆分，在所有部件都无法进行更进一步的拆分之后，所有部件组成的序列便是最终的汉字拆分序列。

最后，构建汉字识别模型：该模型拥有‘汉字编码器’、‘特征解码器’以及‘序列转换器’这三个结构，它们各自的作用如下所示：

1.所述汉字编码器用于提取输入汉字的图像特征图，汉字编码器的结构由卷积神经网络构成，图像的特征矩阵用θ(x)来表示。

2.所述特征解码器用于将汉字编码器得到的特征矩阵输出为对应的汉字部件序列。这一部分结构分主要为基于注意力机制的递归神经网络层：该层通过提取局部的结构特征将汉字图片转化成部件的序列。

训练阶段，汉字的部件序列概率特征表示为P_x＝{p₁,p₂,p₃,……,p_N}，其中p_i向量代表了模型预测为每一种部件概率,i∈[1,N]，N为序列内部件的数量，而输入的汉字图片对应的部件序列表示为G_x＝{g₁,g₂,g₃,……,g_N}，其中N为序列内部件的数量。模型会通过损失函数对模型进行训练,损失函数计算方式为

p_ii为序列中预测准确的概率。

测试阶段，模型会根据汉字编码器得到的部件序列概率特征进行预测并得到预测序列

其中N为序列内部件的数量。该序列会在后续序列转换器中使用。

3.所述序列转换器仅在测试阶段使用，该结构用于将特征解码器得到的部件序列根据字典转换成为具体的汉字。转换过程可以分为三种情况：1)序列可以匹配上字典中特定的汉字时，转换器输出该汉字。2)序列无法匹配上字典中特定的汉字时，采用向量最邻近算法函数，最终得到结果，计算方式如下：

其中R_dic为字典中的候选向量集合，D(x₁,x₂)为距离计算公式。3)当序列匹配多个汉字时，将通过汉字编码器得到候选汉字的特征图，并根据最邻近算法与测试汉字图片的特征图进行比较得到最终的预测结果。其计算方式如下：

其中R_can为同一序列对应的中的候选向量集合。

其中距离计算公式如下：

本发明采用了其中的余弦距离。

因此，本发明提出的一种基于部件拆分的零样本汉字识别方法，其主要意义在于：首先，识别人们不认识的生僻汉字，并获取其语义信息；再者，摆脱传统数据集受限于大量样本均衡，生僻字数据集无法获取的局限性；最后，先拆分后识别的模型架构大幅提升模型的训练效率，同时识别的准确性得以保障。

附图说明

图1是本方案提出的汉字结构的层级拆分策略中的十种汉字结构

图2是本方案提出的基于汉字结构的层级拆分策略

图3是本方案提出的模型结构

图4是本方案提出的特征解码器得到的热图

图5是本方案的训练流程

图6是本方案测试流程中第一种情况的图示

图7是本方案测试流程中第二种情况的图示

图8是本方案测试流程中第三种情况的图示

具体实施方式

以下结合附图对本发明技术方案做进一步介绍。

一种基于部件拆分的零样本汉字识别方法，特征是通过重新设计汉字的拆分策略以通过拆分汉字来进行汉字识别。

第一部分，重新设计基于汉字结构的层级拆分策略并构造数据集

如图1、图2所示。

如图1的汉字结构示意图，本发明将汉字以及其部件分为一种基础结构和十种复合结构，其中基础结构为无法再分割的独体字，复合结构则是由多种部件组合而成的结构，每一种复合结构拥有其独特的拆分规则。当一个汉字或者其部件被划分为其中某一种复合结构时，该汉字或部件会按照拆分规则被拆分成几种组件。如图2的层级拆分策略示意图，一个汉字会被递归地调用如上的拆分策略，直到拆分得到的所有部件都是无法再进行分割的都基础结构。在这样的一套汉字层级拆分策略之下，构建了汉字到汉字构成的组件序列的映射字典，为后续识别的步骤打下基础。

本发明所提出的模型是用的数据集为HWDB数据集，我们通过对HWDB数据集的划分处理构造了数据集‘汉字数据集’以及‘原型数据集’：首先，我们HWDB数据集中每一类汉字中挑选一张汉字图片组成‘原型数据集’。其次，我们将HWDB数据集中剩下的部分作为‘汉字数据集’并按照比例分成训练集和测试集。

第二部分，模型结构介绍

如图3的模型结构图所示，本发明分模型结构主要分为三个模块，分别为：‘汉字编码器’、‘特征解码器’以及‘序列转换器’。

汉字编码器用于提取输入汉字的图像特征图，汉字编码器的结构由三个相连的带有残差结构的卷积块的构成。

特征解码器用于将汉字编码器得到的特征矩阵输出为对应的汉字部件序列。这一部分结构分主要为基于注意力机制的递归神经网络层：该层通过提取局部的结构特征将汉字图片转化成部件的序列。该层得到的注意力可视化图如图4所示。

序列转换器仅在测试阶段被使用，该结构用于将特征解码器得到的部件序列根据字典转换成为具体的汉字。转换过程可以分为三种情况：1)序列可以匹配上字典中特定的汉字时，转换器输出该汉字。2)序列无法匹配上字典中特定的汉字时，采用向量最邻近算法函数，在字典中匹配到最相似的部件序列。3)当序列匹配多个汉字时，我们将候选汉字送入汉字编码器并得到候选汉字的特征图，并根据最邻近算法将测试汉字的特征图依次与候选汉字的特征图进行比较得到最接近的结果。

第三部分，模型流程介绍

训练流程如图5训练流程图所示，训练流程中涉及了汉字编码器和特征解码器两大模块。对于训练样本x，训练汉字图片通过汉字编码器得到了其对应的汉字特征图θ(x)，特征图θ(x)再被传入特征解码器中，并得到向量序列P_x＝{p₁,p₂,p₃,……,p_N}，其中p_i向量代表了部件i被预测为各个部件的概率,N为序列内部件的数量。与此同时，将输入汉字在字典中对应的部件序列向量G_x＝{g₁,g₂,g₃,……,g_N}作为输入图片的实际标签，并以最小化交叉熵损失函数

为基准，通过反向传播算法训练并优化汉字编码器和特征解码器两部分，在交叉熵损失函数中P(g_k)为预测序列p_k中结果为g_k的概率。

测试流程如图6、图7、图8所示，上述图片分别对应了测试流程中的三个不同的场景。而三种情况下的共同部分如下：对于一个输入的测试汉字样本，该样本通过字编码器得到了其对应的汉字特征图θ(x)，特征图θ(x)再被传入特征解码器中，得到向量序列P_x＝{p₁,p₂,p₃,……,p_N}，根据向量序列P_x中每一个向量中的值，取其中概率最大的值对应的部件，并组成预测部件序列

其中N为序列内部件的数量。

而序列转换器对于预测部件序列

会有如下三种处理方式：

场景一：序列

可以匹配上字典中特定的汉字。此时，序列转换器便会根据字典输出匹配到的特定的汉字作为该测试汉字图片样例的测试结果。

场景二：序列

无法匹配上字典中的任意汉字。此时，序列转换器会通过最邻近算法对相同长度的部件序列进行匹配，并输出距离最近的部件序列。其中，最近距离的向量序列计算方式如下：

其中R_dic为字典中的同长度向量集合，D(x₁,x₂)为距离计算公式。最后，依据字典中匹配到的汉字数量再次分成两种情况：当匹配到的汉字仅有一个时，序列转换器会将匹配到的特定汉字作为该测试图片样例的测试结果，而当匹配到的汉字数量多于一个时，序列转换器会根据场景三的处理方式进行计算并输出结果。

场景三：序列

可以匹配上字典中的多个汉字。此时，我们将匹配到的汉字作为候选者序列以及候选者在原型数据集中对应的原型汉字图片序列c＝(x′₁,x′₂,x′₃,……,x′_M)挑选而出，其中M为候选者序列的长度。接着，我们将候选者对应的原型汉字图片送入已经训练完毕的汉字编码器中，得到特征图序列C＝(θ(x′₁),θ(x′₂),θ(x′₃),……,θ(x′_M))，其中M为特征序列的长度。序列转换器会通过最邻近算法对候选者特征图序列C与测试样例的特征图θ(x)之间的距离作比较，并输出距离最近的候选者特征图对应的汉字标签作为模型的最终输出。

在本发明中，距离计算公式如下：

其中本发明采用了其中的余弦距离。

本技术方案优势

本方案最终可以使用在汉字识别领域中，具有以下两种优势：

1、模型训练量小，需要训练的部分仅仅只有特征提取器和特征解码器。模型的运行速度较快。

2、通过拆分组件的方式识别汉字，可以达到零样本识别的效果，模型面对不在训练集中的汉字样例时，依旧可以根据模型中的特征提取器和特征解码器进行汉字到组件序列的转换过程，并最终根据字典得到结果。

Claims

1.一种基于部件拆分的零样本汉字识别方法，其特征在于，

首先，构造数据集‘汉字数据集’以及‘原型数据集’；

其次，对部件进行了编码并构造汉字与汉字部件的映射字典(简称为字典)，该字典记录了汉字以及其对应的部件拆分序列；采用基于汉字结构的层级拆分策略，具体策略如下：将汉字定义为十二种结构，对于每种结构，实行不同的拆分方式；对于依旧可以向下拆分的一个汉字部件，会将其继续迭代拆分直至无法拆分，在所有部件都无法进行更进一步的拆分之后，所有部件组成的序列便是最终的汉字拆分序列；

最后，构建汉字识别模型进行识别：该模型拥有‘汉字编码器’、‘特征解码器’以及‘序列转换器’这三个结构。

2.如权利要求1所述的识别方法，其特征在于：从中国科学院自动化研究所脱机手写样本数据库CASIA-HWDB(下文简称为HWDB)数据集中的每一类汉字里挑选一张汉字图片组成‘原型数据集’，并将HWDB数据集中剩下的部分作为‘汉字数据集’，并按照8：1：1的比例将其分成训练集，验证集和测试集。

3.如权利要求1所述的识别方法，其特征在于：所述汉字编码器用于提取输入汉字的图像特征图，汉字编码器的结构由卷积神经网络构成，图像的特征矩阵用θ(x)来表示。

4.如权利要求1所述的识别方法，其特征在于：所述特征解码器用于将汉字编码器得到的特征矩阵输出为对应的汉字部件序列；这一部分结构分主要为基于注意力机制的递归神经网络层：该层通过提取局部的结构特征将汉字图片转化成部件的序列；

训练阶段，汉字的部件序列概率特征表示为P_x＝{p₁,p₂,p₃,……,p_N}，其中p_i向量代表了模型预测为每一种部件概率,i∈[1,N]，N为序列内部件的数量，而输入的汉字图片对应的部件序列表示为G_x＝{g₁,g₂,g₃,……,g_N}，其中N为序列内部件的数量；模型会通过损失函数对模型进行训练,损失函数计算方式为

p_ii为序列中预测准确的概率；

其中N为序列内部件的数量；该序列会在后续序列转换器中使用。

5.如权利要求1所述的识别方法，其特征在于：所述序列转换器仅在测试阶段使用，该结构用于将特征解码器得到的部件序列根据字典转换成为具体的汉字；转换过程可以分为三种情况：

1)序列可以匹配上字典中特定的汉字时，转换器输出该汉字；

2)序列无法匹配上字典中特定的汉字时，采用向量最邻近算法函数，最终得到结果，计算方式如下：

其中R_dic为字典中的候选向量集合，D(x₁,x₂)为距离计算公式；

3)当序列匹配多个汉字时，将通过汉字编码器得到候选汉字的特征图，并根据最邻近算法与测试汉字图片的特征图进行比较得到最终的预测结果；

其计算方式如下：

其中R_can为同一序列对应的中的候选向量集合。

6.如权利要求5所述的识别方法，其特征在于：其中距离计算公式如下：

本发明采用了其中的余弦距离。