CN1474351A

CN1474351A - 一种基于结构模型的汉字识别方法

Info

Publication number: CN1474351A
Application number: CNA021259496A
Authority: CN
Inventors: 贾云得; 刘峡壁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2002-08-06
Filing date: 2002-08-06
Publication date: 2004-02-11
Anticipated expiration: 2022-08-06
Also published as: CN1186744C

Abstract

本发明涉及基于结构模型的汉字识别方法，属于模式识别、人工智能和中文信息处理领域。本发明采用笔段和笔划两种基元分别建立两种描述汉字结构的数学模型：笔段中心点模型和笔划关系矩阵模型，并建立了笔段中心点识别法和笔划关系矩阵识别法。将笔段中心点识别法和笔划矩阵识别法相结合，用笔段中心点识别法进行汉字识别粗分类，用笔划矩阵识别法进行汉字识别细分类，形成一套完整的汉字识别方法。该方法以统一的机制处理印刷体汉字识别和手写体汉字识别，既可用于脱机识别，也可用于联机识别，识别正确率高，性能稳定。

Description

一种基于结构模型的汉字识别方法

技术领域

本发明涉及基于结构模型的汉字识别方法，要求保护的技术方案属于模式识别、人工智能和中文信息处理领域。

背景技术

经过几十年的发展，汉字识别技术业已取得长足进步。但是，无限制的手写体汉字识别，特别是脱机手写体汉字识别，距离人们的期望还有一定的距离。为了解决脱机手写体汉字识别这一问题，目前多采用统计方法和神经网络方法，通过对大量手写体汉字样本的学习，达到适应汉字变形的目的。这种方法需要搜集海量样本和花费巨大的学习时间，但效果并不十分理想。结构方法对变形的适应能力强，没有搜集样本和进行学习的负担，但现有的结构方法虽然在联机手写体汉字识别中取得相当成功，却难以运用到脱机汉字识别领域中去。

发明内容

本发明所要解决的技术问题是提供一种有效识别汉字的结构方法，该方法识别正确率高，稳定性好，既可用于手写体汉字识别，也可用于印刷体汉字识别，既可用于脱机汉字识别，也可用于联机汉字识别。

用结构方法识别汉字的首要问题是建立汉字图像的结构模型。本发明提供两种用于描述汉字结构的数学模型：笔段中心点模型和笔划关系矩阵模型。

笔段中心点模型以笔段为组成汉字的基元，通过笔段的类型和位置来描述汉字。这里，笔段指汉字图像中与人们对横、竖、撇、捺四种基本笔划(其它笔划可由这四种基本笔划组合而成)的认识相符合的一个前景像素的集合。笔段中心点模型的表述如下：

1)笔段类型

根据笔段对应的方向向量，分为横、竖、撇、捺四种。

2)笔段位置

笔段位置由笔段的中点欧氏坐标来表示，称之为中心点坐标。该坐标是在规范化汉字图像上求得的。

3)模型构成

H＝(N，B_i|i＝0，1，2，.....N-1|)B_i＝(C_i，T_j)，C_i＝(X_i，Y_j) (1)

其中，H代表某一汉字，B_i代表某一笔段，C_i代表将汉字规范化到某一标准大小之后该笔段对应的几何中心点的坐标(X_i为横坐标值，Y_i为纵坐标值)，T_i代表该笔段的类型，N为组成汉字的笔段个数。

公式(1)说明，如果一个规范化汉字图像在所有确定位置上(由C_i确定)都有确定类型(由T_i确定)的笔段，则这个图像就是某一汉字(由H确定)，反之则不是。

以笔段中心点模型为基础，本发明提供如下的汉字识别方法，该方法被称为笔段中心点识别法。

首先确定每个汉字类别所对应的标准笔段中心点模型。识别时，计算待识别汉字所对应的笔段中心点模型与诸标准笔段中心点模型之间的距离，以距离最小者所属类别或次小的前N个所属类别为识别结果。距离的计算公式如下：

(1)

其中，D(SP，RP)表示标准中心点集合与待识中心点集合之间的距离，Q表示标准中心点集合与待识中心点集合之间可匹配的笔段的最大个数，I表示标准中心点集合的笔段个数，J表示待识中心点集合的笔段个数，J′表示从输入笔段集合中除去在匹配过程中被认为是连笔的笔段以后剩下的笔段个数。(G_iX，G_iY)为标准中心点集合的中心点坐标，(H_jX，H_jY)为待识中心点集合的中心点坐标，MS_i表示已经与标准中心点集合中前i-1个笔段相匹配的待识中心点集合中的笔段子集，Simi(ST_i，PT_j)表示标准中心点集合中第i个笔段的类型与待识中心点集合中第j个笔段的类型的相似度，V为所允许的笔段个数差异的阈值，T为给不能匹配的笔段所赋予的最大距离的阈值，W为允许匹配的笔段之间的最小距离的阈值。

笔段中心点识别法的具体步骤如下：

(1)建立每一个汉字的标准笔段中心点集合；

(2)将待识汉字规范化到标准大小，然后提取待识别汉字中的所有笔段，形成待识别中心点集合；

(3)按公式(1)计算每个标准中心点集合与待识别中心点集合之间的距离，并以之作为每个标准汉字与待识别汉字之间的距离；

(4)在所有标准汉字中，取与待识别汉字之间距离最小者或次小的前N个为识别结果。

笔划关系矩阵模型以笔划为组成汉字的基元，通过笔划的类型以及相互之间的位置关系来描述汉字。这里，笔划是指人们通常所认识的汉字笔划。笔划关系矩阵模型的具体形式为：(1)笔划的类型

见附图1(2)笔划之间的相互位置关系

为了尽可能的表示一个汉字各种形态之间的共性而忽略那些有可能产生剧烈变动的因素，我们将各笔划之间的相互位置关系模糊化为六种：上、下、左、右、交叉、相连。(3)组合模型

由于汉字图像是二维的，所以笔划及其相互位置关系用二维方式来表达能更精确地反映其结构特征。我们采用矩阵的形式来描述：

S₁ S₂ …… S_N-1 S_N

S₁ R₁₁ R₁₂ …… R_1(N-1) R_1N

S₂ R₂₁ R₂₂ …… R_2(N-1) R_2N

…… …… …… …… …… ……

S_N-1 R_(N-1)1 R_(N-1)2 …… R_(N-1)(N-1) R_(N-1)N

S_N R_N1 R_N2 …… R_N(N-1) R_NN

其中，S代表笔划，R代表关系，N代表笔划个数。S₁～S_N代表行或列的意义，即笔划类型，R₁₁～R_NN为矩阵元素，表示与之对应的行与列上两笔划之间的相互位置关系。

以笔划关系矩阵模型为基础，本发明提供如下的汉字识别方法，该方法被称为笔划关系矩阵识别法：

首先确定每个汉字类别所对应的标准笔划关系矩阵模型。识别时，计算待识别汉字所对应的笔段集合与诸标准笔划关系矩阵模型之间的相似度。以相似度值最大者所属类别为识别结果。相似度值的计算公式如下：

其中，S(SP，RP)表示标准矩阵与待识矩阵之间的相似度，BN(SP)表示与标准矩阵对应的笔段个数，BN(RP)表示与待识矩阵对应的笔段个数，BN(RP′)表示从待识矩阵对应的并且在匹配过程中除去被认为是连笔的笔段之后剩下的笔段个数，SS(Sk，T_k)表示标准矩阵中第k个笔划与待识矩阵中第k个笔划之间类型上的相似度(k为i或j)，RS(R_ij，G_ij)表示标准矩阵中第i行第j列元素与待识矩阵中第i行第j列元素之间的相似度，V为所允许的笔段个数差异的阈值。

笔划关系矩阵识别法的具体步骤如下：

(1)建立每一个汉字的标准笔划关系矩阵模型。

(2)将待识别汉字规范化到标准大小，然后提取待识别汉字中的所有笔段，形成输入笔段集合。

(3)按公式(2)计算每个标准矩阵与输入笔段集合之间的相似度，并以之作为每个标准汉字与待识别汉字之间的相似度。

(4)在所有标准汉字中，取与待识别汉字之间相似度最大的一个为识别结果。

笔段中心点识别法与笔划关系矩阵识别法各有特点，笔划关系矩阵识别法更精确，笔段中心点识别法速度更快。因此，本发明提供的汉字识别方法采用笔段中心点识别法进行粗分类，采用笔划关系矩阵识别法进行细分类。同时，笔段中心点识别法对形状比较规范的汉字进行识别的正确率也是令人满意的，因此，在实施本发明识别形状比较规范的汉字时，可以单独采用笔段中心点识别法进行细分类。

本发明具有以下优点：

1、本发明提供的汉字识别方法以统一的机制进行汉字识别，既可用于脱机识别，也可用于脱机识别，既可用于手写体识别，也可用于印刷体识别。

2、本发明提供的汉字识别方法识别正确率高，对变形的适应能力强，稳定性好。

附图说明

图1是笔划关系矩阵模型中的笔划类型图；

图2是笔段中心点模型的示意图；

图3是笔划关系矩阵模型的示意图；

图4是汉字识别方法的总体框图

图5是笔段中心识别法的汉字识别流程图；

图6是笔划关系矩阵识别法的汉字识别流程图；

具体实施方式

本发明可实施于需要进行汉字识别的各种场合，优选方式为联机手写体汉字识别系统及装置，脱机印刷体汉字识别系统及装置，脱机手写体汉字识别系统及装置。实施例，在GB2312-80规定的6763个汉字范围内，对无限制自由手写汉字进行识别，笔段中心点分类器识别前十位候选字的正确率为99％以上，平均识别速度为1秒/字，笔划关系矩阵分类器的识别正确率为91.2％以上，平均识别速度为0.2秒/字。

Claims

1、一种基于结构模型的汉字识别方法，其特征在于：它采用以笔段中心点模型为基础的笔段中心点识别法作粗分类，采用以笔划关系矩阵模型为基础的笔划关系矩阵识别法作细分类。

2、如权利要求1中所述的笔段中心点模型，其特征在于具有如下形式：首先将一个汉字图像规范化为标准大小，然后把它分解为笔段的集合，并将这些笔段确定为横、竖、撇、捺四种，最后用这些笔段的中心点的坐标和这些笔段的类型来构成表示一个汉字的模型。上述模型可归结为以下公式：

H＝(N，B_i|i＝0，1，2，.....N-1|)B_i＝(C_i，T_i)，C_i＝(X_i，Y_i)

3、如权利要求1中所述的笔段中心点识别法，其特征在于包含以下步骤：(1)建立标准模型库：根据权利要求2中所述的笔段中心点模型，建立每一个汉字的标准模型并保存在模型库中；(2)根据每一个标准模型确定与输入笔段集合对应的待识模型；(3)计算标准模型与待识模型的距离；(4)取距离值最小及次小的前N个标准模型所对应的汉字为识别结果。

4、如权利要求3中所述的根据标准模型和输入笔段集合确定待识模型的方法，其特征在于包含以下步骤：(1)对于标准模型中的每一个笔段，在输入的笔段集合中寻找与其距离最小的笔段；(2)如果该最小距离大于所限定的最大阈值，认为该标准笔段在输入的笔段集合中无可以匹配的笔段，否则将这两个笔段对应起来，并从各自的笔段集合中删除；(3)重复上述过程，直到标准模型中的每一个笔段都得到处理；(4)在上述计算过程中得到的与标准模型对应的笔段构成匹配集；(5)在没有被纳入匹配集的输入笔段中，除去连接了匹配集中两个笔段的笔段，剩下的笔段构成非匹配集；(6)确定匹配集和非匹配集中所有笔段的类型以及中心点坐标，形成待识模型。

5、如权利要求4中所述的计算标准模型与待识模型之间的距离的方法，其特征在于采用下面的公式进行计算：

其中，D(SP，RP)表示标准中心点集合与待识中心点集合之间的距离，Q表示标准中心点集合与待识中心点集合之间可匹配的笔段的最大个数，I表示标准中心点集合的笔段个数，J表示待识中心点集合的笔段个数，J′表示匹配集和非匹配集中所有笔段的个数。(G_iX，G_iY)为标准中心点集合的中心点坐标，(H_jX，H_jY)为待识中心点集合的中心点坐标，MS_i表示已经与标准中心点集合中前i-1个笔段相匹配的待识中心点集合中的笔段子集，Simi(ST_i，PT_j)表示标准中心点集合中第i个笔段的类型与待识中心点集合中第j个笔段的类型的相似度，V为所允许的笔段个数差异的阈值，T为给不能匹配的笔段所赋予的最大距离的阈值，W为允许匹配的笔段之间的最小距离的阈值。

6、如权利要求4中所述的计算标准笔段与待识别笔段之间的距离的方法，其特征在于包含以下步骤：(1)计算标准笔段的中心点与待识笔段的中心点之间的欧式距离；(2)根据标准笔段与待识笔段的类型，确定其类型相似度。横与竖之间、撇与捺之间的相似度为0，相同类型之间的相似度为1，其他情况下的相似度的确定则根据待识别笔段的角度偏离标准笔段的类型所允许的角度范围值的程度来定；(3)将步骤(1)中求出的距离除以步骤(2)中求出的类型相似度，得到最终的距离，如果类型相似度为0，则最终距离为所赋予的最大值。

7、如权利要求1中所述的笔划关系矩阵模型，其特征在于具有如下形式：首先将一个汉字图像规范化为标准大小，然后把它分解为预先定义的不同类型笔划的集合，并确定这些笔划之间的相互位置关系，最后用这些笔划及其相互位置关系组成矩阵来构成表示一个汉字的模型。该模型可归结为以下矩阵公式：

S₁ S₂ …… S_N-1 S_N

S₁ R₁₁ R₁₂ …… R_1(N-1) R_1N

S₂ R₂₁ R₂₂ …… R_2(N-1) R_2N

…… …… …… …… …… ……

S_N-1 R_(N-1)1 R_(N-1)2 …… R_(N-1)(N-1) R_(N-1)N

S_N R_N1 R_N2 …… R_N(N-1) R_NN

8、如权利要求1中所述的笔划关系矩阵识别法，其特征在于包含以下步骤：(1)建立标准模型库：根据权利要求8中所述的汉字的笔划关系矩阵模型，建立每一个汉字的标准模型并保存在模型库中；(2)根据每一个标准模型从输入的笔段集合中确定笔划及其相互位置关系，构成一个待识模型；(4)计算标准模型与待识模型的相似度值；(5)重复步骤(3)及(4)直到可以从标准模型导出的所有待识模型都已计算过，取其中最小的相似度值为该标准模型对应的最终相似度值；(6)取最终相似度值最小的标准模型所对应的汉字为识别结果。

9、如权利要求8中所述的根据标准模型从输入笔段集合中确定待识模型的方法，其特征在于包含以下步骤：(1)对于标准模型中的每一个笔划，在输入的笔段集合中寻找与之相同或相似的笔划，形成与之对应的一个笔段子集；(2)从标准模型的所有笔划对应的待识别笔划集合中各自取出一个(这些取出的笔划彼此之间不应矛盾，即不能共享笔段)，构成待识模型中的所有笔划；(3)从原始笔段集合中暂时删除那些没有被纳入待识模型但是连接了待识模型中两个笔划的笔段，剩下的笔段形成与待识模型对应的笔段集合；(4)根据所得到的待识模型中的所有笔划确定各自的类型以及相互之间的位置关系，形成待识别的笔划—关系矩阵模型。

10、如权利要求11中所述的计算标准模型与待识模型之间的相似度的方法，其特征在于采用下面的公式进行计算：

其中，S(SP，RP)表示标准模型与待识模型之间的相似度，BN(SP)表示与标准模型对应的笔段个数，BN(RP)表示与待识模型对应的笔段个数，BN(RP′)表示与待识模型对应的笔段集合中包含的笔段个数，SS(S_k，T_k)表示标准模型中第k个笔划与待识模型中第k个笔划之间类型上的相似度(k为i或j)，RS(R_ij，G_ij)表示标准模型中第i行第j列元素与待识模型中第i行第j列元素之间的相似度，V为所允许的笔段个数差异的阈值。

11、如权利要求9中所述的从输入笔段集合中寻找相同或相似笔划的方法，其特征在于包含以下步骤：(1)建立描述各个笔划的模板；(2)建立各个笔划之间的类型相似度值；(3)根据给定的相似度值的阈值，确定需要查找的笔划类型；(4)根据所要查找的笔划类型的模板在输入笔段集合中搜索，确定与之对应的笔段子集。