CN115497107B

CN115497107B - 一种基于笔画和部首分解的零样本汉字识别方法

Info

Publication number: CN115497107B
Application number: CN202211219592.7A
Authority: CN
Inventors: 曾锦山; 徐瑞英; 李海燕; 吴宇; 周杰
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-04-18
Anticipated expiration: 2042-09-30
Also published as: CN115497107A

Abstract

本发明公开了一种基于笔画和部首分解的零样本汉字识别方法，包括：步骤一、建立包含笔画模块和部首模块的训练模型，通过训练阶段能获得笔画特征、部首特征、笔画编码和部首编码；步骤二、将样本图片输入训练模型进行训练；步骤三、将待识别图片放入训练好的模型中，得到预测出的笔画编码和笔画特征后对预测的编码做出判断，判断结果存在唯一对应的汉字时将该汉字作为最终输出结果；否则经笔画修订后，通过将笔画编码对应的多个汉字支持样本与之前笔画特征进行匹配确定最终输出结果。本发明在训练部分采用笔画和部首两种模块，引入相似性损失，得到高相关性的字符特征；测试部分引入了一种笔画校正方案，扩大了最终推理所需的候选字符集。

Description

一种基于笔画和部首分解的零样本汉字识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于笔画和部首分解的零样本汉字识别方法。

背景技术

现有的汉字识别方法一般可以分为三类，即基于字符的方法，基于部首的方法和基于笔画的方法。

传统的基于字符的方法主要依赖于显性特征，如Gabor特征，方向性特征，以及矢量特征。然而，这样的特征提取程序通常是手工制作的，因此耗费时间和精力。随着深度学习的发展，特别是卷积神经网络。受益于深度神经网络强大的表达能力和逼近能力，特征提取和识别过程可以合并为一个过程，因此，汉字识别实现了通过端到端的训练。基于字符的方法将字符输入作为一个单一的图像，并试图学习输入图像和预先定义的类别之间的一致关系，例如，Dan Ciresan等人首次提出的多列深度神经网络方法，它的性能远远优于传统方法。DirectMap通过将传统的方向图与CNN模型相结合，在本次比赛中取得了新的技术水平。然而这些方法没有考虑不同字符之间的相似性和内部结构。因此，这些方法只能在常见的汉字上表现良好，但无法识别训练集未出现的汉字类别，即零样本问题。

为了填补这一空白，近年来提出了基于部首的方法。他们将汉字分解为部首和二维结构，使用深度学习的基于部首的方法中DenseRAN将每个汉字视为部首编码，将识别任务视为图像字幕。FewShotRAN将每个部首映射到一个潜在空间，并约束同一类的特征接近。HDE利用部首组成的知识为每个汉字设计了一个嵌入向量，学习了从样本空间到嵌入空间的转换，取得了显著的效果。这些方法能够解决汉字零样本的问题。然而，在渴求数据的条件下，一些部首分子可能不会出现在训练集中，这就导致了另一个被称为部首零样本的困境。因此，这些基于部首的方法并没有从根本上解决零样本问题。

最近，Chen等人将汉字笔画信息与深度学习相结合，他们将32种基本笔画分成五类，这样做可以保证每一类笔画都能被覆盖到。将汉字图片丢入网络中得到对应的预测笔画编码。将笔画方法与深度学习相结合的方式虽然对于零样本的情况下有较好的识别准确率，但是汉字中的部首信息没有利用，而由于汉字及其部首存在不同字却笔画种类顺序相同的情况，比如“己”、“已”，因此单纯依据笔画识别的正确率相对较低，汉字的识别率仍有提升空间。

发明内容

本发明的目的是提供消除静态特征误匹配的机器人定位方法，用于解决现有技术中无法有效实现对零样本汉字进行准确识别的技术问题。

所述的一种基于笔画和部首分解的零样本汉字识别方法，包括下列步骤：

步骤一、建立包含笔画模块和部首模块的训练模型，通过训练模型能获得笔画特征、部首特征、笔画编码和部首编码；

步骤二、将样本图片输入训练模型进行训练；

步骤三、将待识别图片放入已经训练好的模型中，得到模型预测出的笔画编码和笔画特征后对预测的编码做出判断，判断结果存在唯一对应的汉字时将该汉字作为最终输出结果；否则经笔画修订后，通过将该笔画编码对应的多个汉字的支持样本与之前获得的笔画特征进行笔画特征的匹配确定最终输出结果。

优选的，所述步骤二具体包括：所述笔画模块和所述部首模块均由编码器和解码器构成，输入图片后训练模型一方面将输入的图片放入笔画模块的笔画编码器中得到笔画特征F_s，再将笔画特征F_s放入笔画模块的笔画解码器中进行解码得到预测的笔画编码P_s；另一方面对于部首模块，将输入的图片放入部首模块的部首编码器中得到部首特征F_r，再将部首特征F_r放入部首模块的部首解码器中进行解码得到预测的部首编码P_r；训练中对笔画特征F_s和部首特征F_r进行了余弦距离的损失计算，对预测的笔画编码P_s和部首编码P_r分别与他们对应的真实标签进行了交叉熵的损失计算，通过余弦距离损失和交叉熵损失对模型进行优化。

优选的，采用余弦距离损失对模型进行优化的公式如下：

其中，T表示笔画特征F_s的转置，*和×均表示点乘；

本模型中，根据笔画编码P_s的真实标签

和部首编码P_r的真实标签

G_st和G_rt中的t均表示时间步长t处，T₀是编码标签长度即编码中t的最大值，因此相应交叉熵损失对模型进行优化的公式分别为：

T₀是编码标签长度，p(G_st)是指时间步长t处类别G_st的概率，p(G_rt)是指时间步长t处类别G_rt的概率。

优选的，所述步骤三具体包括：通过将待识别图片放入已经训练好的模型中，得到模型预测出的笔画编码P_s ^t和笔画特征F_s ^t，之后对预测的编码做出判断，判断的依据以笔画编码P_s ^t为主。首先对笔画编码进行编码是否唯一以及编码对应的汉字是否唯一的判断，若均满足则直接输出该编码对应的唯一汉字P_s ^t(char)；否则对笔画编码P_s ^t进行修订，

为修订后的笔画编码，将

对应多个汉字的支持样本图片

输入到上述训练后模型的笔画编码器得到对应的笔画特征

笔画特征

与待识别汉字的笔画特征F_s ^t进行字符层面的相似度度量，选择相似度最高的特征图所对应的汉字作为最终输出的结果。

优选的，所述步骤三中，笔画编码P_s ^t的修订公式如下：

其中

为修订后的笔画编码，N(P_s ^t)表示笔画编码的候选集合，D_s为笔画字典。

优选的，所述编码器均包括2个卷积层，1个最大池化层和16个残差模块；解码器使用的是transformer的原始解码器，主要由三个部分组成，包括掩蔽式多头注意模块、多头注意模块和前馈模块。

本发明具有以下优点：本发明由训练阶段和测试阶段组成。在训练阶段，我们采用两种类似的编码器-解码器结构的模块来产生笔画和部首编码的预测值，然后将其与真实编码一起用于正式化相关的笔画和部首损失进行训练。同时该阶段引入相似性损失，对笔画和部首编码器进行正则化，得到高相关性的相同字符特征。该阶段输出笔画编码的模型在训练时会结合部首特征进行优化，因此比单纯基于笔画编码进行优化的模型训练所需的时间和样本更少，并且输出的笔画编码的准确性克服了汉字或部首中存在不同字笔画种类顺序相同的问题，准确性更高。

在测试阶段，引入了笔画扫描模块和特征匹配模块两个关键模块，分别处理确定性和混淆性情况。特别地，我们在特征匹配模块中引入了一种有效的笔画校正方案，以扩大最终推理所需的候选字符集。通过将相对应多个汉字的支持样本图片通过训练好的模型中笔画编码器提取笔画特征，也能得到相对较可靠的笔画特征。再所得的笔画特征与之前由训练后模型获得的待识别图像的笔画特征匹配，便可以获得准确性相对较高的识别结果。由于识别时判断的依据以笔画编码为主，因此相比仅基于笔画或者部首特征的识别方法能有效完成零样本文字的识别。

附图说明

图1为本发明基于笔画和部首分解的零样本汉字识别方法的模型流程图。

图2为汉字分层分解得到的部首结构的分解图以及部首进一步分解得到的基本笔画的分解图。其中左图为“程”字分解为部首再分解为笔画的分解图，右图表示基于左侧分解过程得到的相应的部首编码和笔画编码。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

如图1-2所示，本发明提供了一种基于笔画和部首分解的零样本汉字识别方法。在汉字识别中基于不同特征进行编码的方式主要有以下两种。

一、笔画编码。

笔画是每个汉字的最小单位。根据《现代汉语通用字表》，五种基本笔画是横、竖、左捺、右捺和转折。如表1所示，每一类包含不同形状的笔画。所有汉字的笔画都被归入上述五种基本笔画。此外，《通用标准汉字笔顺》规定了每个字的书写顺序，通常是按照从左到右、从上到下、从外到内的顺序。总之，未见过的汉字可以通过笔画和笔顺来概括，例如，“程”的笔画编码表示为312342511121。因此能很好地用于零样本汉字的识别。具体分解示例如表1所示。

表1：汉字笔画分解时得到的基本笔画的分解表

二、部首编码

与西方文字不同，所有的汉字都可以被分解成有限的部首和空间结构。中国国家语言文字工作委员会发布的GB13000.1标准中指出，2万多个汉字有近500个部首。此外，部首是作为汉字一部分重复出现的笔画组合。我们使用cjkvi-ids1中的策略将汉字分解成IDS编码，以提供每个字符的描述，即由哪些子字组成以及它们是如何布局的。IDS使用了全部的汉字，所以每个字都有自己相应的表意描述编码，例如，如图2所示，“程”字由部首编码“

禾

口王”组成，部首编码为[332，169，239，401，180]。

基于上述两种编码方式，本零样本汉字识别方法包括下列步骤。

步骤一、建立包含笔画模块和部首模块的训练模型，训练模型的输出为笔画特征、部首特征、笔画编码和部首编码。

训练模型如图1所示，主要分为两条模块，一条模块是笔画模块，另一条是部首模块，每条模块都是由编码器和解码器构成，编码器包括2个卷积层，1个最大池化层和16个残差模块。这里若设置更多的最大池化层，特征图的大小将进一步减小附加，从而导致关键信息的丢失。如果移除所有的最大池化层，冗余特征将阻碍我们的模型更好地收敛。解码器使用的是transformer的原始解码器，主要由三个部分组成，包括掩蔽式多头注意模块(Masked MHA)、多头注意模块(MHA)和前馈模块。

对于笔画模块，将输入的图片放入笔画编码器中得到笔画特征F_s，再将笔画特征F_s放入笔画解码器中进行解码得到预测的笔画编码P_s。对于部首模块，将输入的图片放部首编码器中得到部首特征F_r，再将部首特征F_r放入部首解码器中进行解码得到预测的部首编码P_r。

训练部分总损失由三部分损失构成，我们对(1)笔画特征F_s和部首特征F_r进行了余弦距离的损失计算，以及对(2)预测的笔画编码P_s和部首编码P_r分别与他们对应的真实标签进行了交叉熵的损失计算。

(1)采用余弦距离损失对模型进行优化的公式如下：

其中，T表示笔画特征F_s的转置，*和×均表示点乘。

(2)数学上，真实标签为

T₀是编码标签长度，p(G_t)是指时间步长t处类别G_t的概率，采用交叉熵损失对模型进行优化的公式如下：

则在本模型中，根据笔画编码P_s的真实标签

和部首编码P_r的真实标签

G_st和G_rt中的t均表示时间步长t处，T₀是编码标签长度即编码中t的最大值，因此相中应交叉熵损失对模型进行优化的公式分别为：

步骤二、将样本图片输入训练模型进行训练。

如图1所示，以文字“叮”的图片为例，输入图片后训练模型一方面通过笔画模块的笔画编码器生成相应笔画特征F_s，另一方面通过部首模块的部首编码器生成部首特征F_r，训练时采用二者的余弦距离损失(余弦相似度损失)对模型进行优化，笔画特征F_s经笔画模块的笔画解码器处理得到预测的笔画编码P_s，部首特征F_s经部首模块的部首解码器处理得到预测的部首编码P_r，将预测得到的笔画编码P_s和对应的真实标签通过交叉熵损失对模型进行优化，并将预测得到的部首编码P_r和对应的真实标签通过交叉熵损失对模型进行优化，经过足够多样本的训练后得到训练好的模型，准备之后的识别测试。

上述步骤

步骤三、将待识别图片放入已经训练好的模型中，得到模型预测出的笔画编码和笔画特征之后对预测的编码做出判断，识别出汉字。

测试阶段的应用如图1所示，以文字“呐”的图片为例，通过将待识别图片放入已经训练好的模型中，得到模型预测出的笔画编码P_s ^t和笔画特征F_s ^t，之后在笔画扫描模块中对预测的编码做出判断，判断的依据以笔画编码P_s ^t为主。首先对笔画编码进行编码是否唯一以及编码对应的汉字是否唯一的判断，若均满足则直接输出该编码对应的唯一汉字P_s ^t(char)(即P_s ^t对应的汉字集合)；否则将笔画编码P_s ^t输入到特征匹配模块，先对笔画编码P_s ^t进行修订，笔画编码P_s ^t的修订公式如下：

其中

为修订后的笔画编码，N(P_s ^t)表示笔画编码的候选集合，D_s为笔画字典。然后将

对应多个汉字的支持样本图片

(即笔画编码

对应的汉字集合)输入到上述训练后模型的笔画编码器得到对应的笔画特征

笔画特征

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.一种基于笔画和部首分解的零样本汉字识别方法，其特征在于：包括下列步骤：

训练模型分为两条模块，一条模块是笔画模块，另一条是部首模块，每条模块都是由编码器和解码器构成，编码器包括2个卷积层，1个最大池化层和16个残差模块；解码器使用的是transformer的原始解码器，由三个部分组成，包括掩蔽式多头注意模块、多头注意模块和前馈模块；

步骤二、将样本图片输入训练模型进行训练；

所述步骤二具体包括：所述笔画模块和所述部首模块均由编码器和解码器构成，输入图片后训练模型一方面将输入的图片放入笔画模块的笔画编码器中得到笔画特征F_s，再将笔画特征F_s放入笔画模块的笔画解码器中进行解码得到预测的笔画编码P_s；另一方面对于部首模块，将输入的图片放入部首模块的部首编码器中得到部首特征F_r，再将部首特征F_r放入部首模块的部首解码器中进行解码得到预测的部首编码P_r；训练中对笔画特征F_s和部首特征F_r进行了余弦距离的损失计算，对预测的笔画编码P_s和部首编码P_r分别与他们对应的真实标签进行了交叉熵的损失计算，通过余弦距离损失和交叉熵损失对模型进行优化；

采用余弦距离损失对模型进行优化的公式如下：

其中，T表示笔画特征F_s的转置，*和×均表示点乘；

真实标签为

在本模型中，根据笔画编码P_s的真实标签

和部首编码P_r的真实标签

2.根据权利要求1所述的一种基于笔画和部首分解的零样本汉字识别方法，其特征在于：所述步骤三具体包括：通过将待识别图片放入已经训练好的模型中，得到模型预测出的笔画编码P_s ^t和笔画特征F_s ^t，之后对预测的编码做出判断，判断的依据以笔画编码P_s ^t为主；首先对笔画编码进行编码是否唯一以及编码对应的汉字是否唯一的判断，若均满足则直接输出该编码对应的唯一汉字P_s ^t(char)；否则对笔画编码P_s ^t进行修订，

为修订后的笔画编码，将

对应多个汉字的支持样本图片

输入到上述训练后模型的笔画编码器得到对应的笔画特征

笔画特征

3.根据权利要求2所述的一种基于笔画和部首分解的零样本汉字识别方法，其特征在于：所述步骤三中，笔画编码P_s ^t的修订公式如下：

其中