CN102968619A

CN102968619A - 一种汉字图片的部件识别方法

Info

Publication number: CN102968619A
Application number: CN2012104549362A
Authority: CN
Inventors: 梁晓辉; 于博文; 孙林嘉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-11-13
Filing date: 2012-11-13
Publication date: 2013-03-13
Anticipated expiration: 2032-11-13
Also published as: CN102968619B

Abstract

一种汉字图片的部件识别方法，属于图像处理与模式识别的领域，首先对特定字体的汉字部件图片进行预处理，对其进行骨架提取之后，依据检测出的端点和交叉点形成初始的笔段，人为交互的将某些笔段合并；其次，对标记好的笔段进行统计建模，利用4维向量描述笔段方向信息；然后根据最大生成树原则构建笔段邻居关系，完成部件建模过程。对于输入汉字，首先，将其分解为各个笔段；随后，对照库中每个部件生成一组相似性最大的笔段集合；最后通过最优选取策略，即解决变种的背包问题得到最优解，得到输入汉字的部件识别结果。本发明引入局部特征，并采取最优组合策略，形成一套完整的针对汉字图片的部件识别方法，能够有效的提高识别率。

Description

一种汉字图片的部件识别方法

技术领域

本发明属于计算机虚拟现实技术领域，特别是汉字图片的骨架提取、笔段生成的图像处理领域以及基于语义知识的部件识别的模式识别领域。

背景技术

作为表意文字的典型代表，中文书写和语音文字书写有较大的差别。象形文集结构研究表示，组成汉字的有着明确含义的各个部分被定义为部件，而汉字可以看成是由各个部件通过不同的组合方式组合而成。利用，像“桃”和“李”两个字，他们之中都有一个“木”的部件，实际上代表着有树的意思。因此，如何将一个汉字拆分成各个具有具体语义信息的部件的组合成为汉字学习中一个比较重要的部分。

目前，汉字图片的识别大致可以分为两类，基于统计方法和基于结构方法两种。基于统计的方法倾向于利用图片的图像特征，如像素布局等，将汉字的识别转换成目标图片与标准库图片的相似度计算。而结构识别方法倾向于描述汉字的结构关系和汉字的笔画特征，如利用笔画间的夹角、相对位置关系来描述结构，最后通过总体结构的相似度计算完成识别。

利用统计方法解决汉字识别问题，当前已经有了许多的研究工作。例如，k近邻分类器、k均值聚类、高斯分布、非线性形状模型以及上下文向量法。基于统计特征的方法是速度较快，且对噪声的抵抗能力较强，但对于像“王”和“玉”这样结构相近的两个字容易造成识别上的错误。

而结构方法倾向于将汉字分解为各个部分，通过对拆分出的部分的分析，进而得到识别的结果。可以用来表征汉字结构的常用的特征有轮廓、笔画等。事实上，对于结构识别而言，其实质实际上就是一个笔画匹配的过程。结构方法的特点就是可以区分细小的差别，从而识别出结构相似的不同汉字，但识别速度会有所限制。

发明内容

本发明的技术解决问题：克服现有技术的不足，提供一种汉字图片的部件识别方法，能够有效的提高识别率。

本发明技术解决方案：一种汉字图片的部件识别方法，实现步骤如下：

步骤（1）、汉字部件的笔画与结构关系描述：对已经有的标准的汉字514个部件图片进行骨架提取处理，并检测特征点，这里描述的特征点为笔画的端点和笔画之间的交叉点，这样可以通过这些特征点之间的连线来检测初始笔段；从一个特征点通过骨架上的其他点找到另外一个特征点的路径，将这个路径记录称之为初始笔段，所述特征点定义为交叉点或者是端点；然后通过人为的交互将所述初始笔段进行合并，得到标记好的汉字部件的笔画；对得到的部件笔画进行Gabor特征的提取，描述汉字部件笔画的方向特征，将每一个笔画描述为一个4维向量和一个4*4协方差矩阵的高斯分布，完成笔画的统计建模；通过最大熵原理，邻居笔画的选取可以让近似结构关系，即将部件中一个笔画与其他所有笔画的结构关系近似为相对于自己邻居的结构关系，这里的结构关系可以用条件概率描述，即在某个笔画邻居被匹配后，该笔画匹配时需要采用条件概率计算，所述邻居笔画是指除了本身以外，汉字部件中其他笔画中对该笔画影响值最大的一个笔画，这个影响值通过两个协方差矩阵的差的模取对数描述；然后提取互为邻居的两个笔画局部特征，所述局部特征为两个互为邻居的笔画的中心相对位置、长度比例和角度差，将这些计算好的局部特征的信息进行存储，这里所做的部件笔画标注和特征提取可以用来帮助识别输入汉字中的部件；

步骤（2）、部件候选笔画生成：对输入的汉字图片进行图像细化和骨架提取之后，检测细化和骨架提取之后的图片中的端点和交叉点作为特征点，通过寻找特征点间通过骨架的连线来寻找初始笔段，检测出初始笔段后，针对待匹配的部件的某个笔画，概率组合这些初始笔段，形成可能匹配对应部件这个笔画的一组笔画，称之为候选笔画（由初始笔段针对待匹配部件的对应笔画组合而成），之后便可以利用这些候选笔画去和目标部件的合并好的笔画进行匹配；

步骤（3）、基于目标部件生成可能解：重复的利用步骤2的方法，对步骤1中初始笔段合并为笔画做匹配，对于库中每一个部件，都得到一个可能的部件匹配的解，即针对各个部件生成可能解，这个匹配过程描述为一个矩阵，每一列表示目标部件中的各个笔画，某一列的每一行都存储着依据步骤（2）中方法得到的目标部件笔画的候选笔画，整个匹配过程就是寻找一个从第一列找到最后一列，每一列都找到一个可行节点的解中相似度最大的值，从而将得到输入汉字图片，对于库中所有部件生成的最可能匹配的结果；所述相似度描述为每一个笔画匹配时的由高斯函数计算出的概率值的累积。利用上述的方法，对于输入汉字的提取出的所有初始笔段，可以寻找到针对部件库中每一个部件的最可能的匹配解，为后续的步骤4的算法提供数据；

步骤（4）、基于部件最优组合原理得到识别结果：在得到步骤3生成的针对各个部件的可能解之后，利用最优选取的策略，将部件识别的问题转化为一个背包问题，即认为如果可以找到一组由步骤3中得到的各个部件的可能解，且互相之间没有在初始笔段的占用上存在冲突，且最大程度的占用了初始笔段，这样的一组部件解即为识别的最优解，输入汉字的初始笔段相当于是一个背包，背包的大小为检测出的初始笔段数目，而在步骤3中寻找部件匹配的可能的解时，标记该部件识别的可能解占用了哪些输入汉字的初始笔段，这样就可以完成整个识别的过程。

进一步的，所述步骤（1）中对汉字部件的笔画与结构关系描述的具体内容如下：

步骤（A1）、将部件图片进行图像细化和骨架提取，检测特征点，如笔画之间的交叉点和笔画端点，通过寻找特征点之间的路径提取出初始笔段。通过适当的人为交互，合并一些初始笔段，形成比较标准的笔画。

步骤（A2）、对已经合并好的笔画，对其进行Gabor滤波，得到每个点4个方向（0°，45°，90°，135°）的响应值，这样将每个笔画描述为一个具有4维向量和4*4协方差矩阵的高斯函数。随后利用最大熵的原理，计算每个笔画的邻居，这里的邻居定义为除了自身其他笔画对该笔画影响最大的笔画，影响值由两个协方差矩阵的差的模取对数描述，随后提取局部特征，将互为邻居的笔画的相对长度比例、中心相对位置等计算并存储。

进一步的，所述步骤（2）部件候选笔画生成的步骤具体如下：

步骤（B1）、将部件图片进行图像细化和骨架提取，检测特征点，如笔画之间的交叉点和笔画端点，通过寻找特征点之间的路径提取出初始笔段。

步骤（B2）、对某个目标部件进行识别时，目的是要将对应的部件的各个笔画得到，进而需要寻找的就是针对部件的每一个笔画，都会自动生成一组可能的解，这些解有可能是初始笔段，也有可能是一些初始笔段的组合结果。所以定义组合规则为两个笔段首尾相连且方向差不超过15°，或者其中一个笔段足够短小，这样就可以将两个笔段合成作为可能的笔画匹配解加入到候选笔画队列中。

进一步的，所述步骤（3）中基于目标部件生成可能解的步骤如下：

步骤（C1）、构建搜索图，这张图的描述如下，每一列表示待匹配的部件的各个标注好的笔画，而某一列中的每一行都表示着对于这个部件的笔画的由输入汉字的初始笔段生成的候选笔画，这样就将匹配问题转化成了一个图的搜索过程，目标变为要找一个每一列都找到一个点，从第一列找到最后一列的所有可行解中相似度最大的解。

步骤（C2）、图的搜索过程规则如下：第一，在匹配某一个笔画时，如果待匹配的候选笔画在对输入汉字的初始笔段占用上与前面已经选取的候选笔画相冲突，那么该候选笔画不能被选取。第二，在匹配某一个笔画时，如果作为这个笔画的邻居的笔画已经在前面的路径中被选取了，那么要采用条件概率计算，并引入之前存储的局部特征信息，计算这个待匹配的候选笔画和前面已经匹配的候选笔画的中心相对位置关系、笔画长度比例等。

进一步的，所述步骤（4）中基于部件最优组合原理得到识别结果的步骤如下：

步骤（D1）、利用步骤（3）中得到的对于各个部件生成的可能解，寻找最优的组合作为输入汉字的部件识别结果。这里将问题描述为寻找一组最优的组合，使得组合中这些部件可能解在对输入汉字的初始笔段的占用上不冲突，且最大程度上的消耗掉输入汉字的初始笔段。定义这样的组合为输入汉字的最优的部件识别的结果。利用动态规划思想，将上述问题转化为一个背包问题，背包的容量为输入汉字的初始笔段数目，每一个可能的部件识别解都有一个标记数组来标记这个可能解对输入汉字的初始笔段的占用情况，这样相当于选取不冲突的几件物品放入背包中，使得背包尽可能的放满。

本发明与现有技术相比的优点在于：

（1）本发明考虑到在输出汉字中识别部件是一个更趋向于局部识别的过程，加入条件概率的基础上，加入局部特征描述，例如互为邻居的两个笔画之间的中心相对位置、长度比例和角度差等，实验证明，本发明中局部特征的加入可以有效的提高识别率。

（2）本发明通过最优组合的策略选择结果，是为了避免在识别过程中不同的部件阈值不好统一的问题，可以得到一个最优的部件识别结果，提高的识别的准确率。

附图说明

图1为本发明的一种汉字图片的部件识别方法的整体过程示意图；

图2为本发明的部件候选笔画生成的结果图；

图3为本发明的基于部件最优组合原理得到识别结果的示意图；

图4为本发明的部分汉字部件识别的结果图。

具体实施方式

下面结合附图与实例对本发明作进一步详细描述：

本发明实施过程包括四个主要步骤：汉字部件的笔画与结构关系描述，部件候选笔画生成，基于目标部件生成可能解，基于部件最优组合原理得到识别结果。

如图1所示，本发明具体实现如下：

步骤一：汉字部件的笔画与结构关系描述：

利用统计结构建模方法，将部件和输入汉字都表示成一组笔画的集合。对于部件库中的部件，将由图像细化和笔画提取后得到的细碎笔段进行人为的符合语义的合并，这样做的目的一方面是为了符合汉字学笔画的规范要求，另一方面在后续的匹配过程中会大幅度的减少搜索次数，提高识别的效率。这里认为组成部件和汉字的笔画都服从一个4维的高斯分布，即X～N(μ，∑)。这个4维向量是由笔画上的每一个点的4维向量值加权得到，本发明采用Gabor滤波检测每个点在4个方向上（0°，45°，90°和135°）的响应值。在如此定义之后，可以看到对于一副输入的汉字图片S和一个待匹配的部件C，他们之间的相似度可以用公式（1）中表示的联合概率进行计算，这里r_i和s_i分别代表部件中的笔画和输入汉字中的笔画。

Pr(S＝C)≡Pr(s₁＝r₁,s₂＝r₂,...,s_n＝r_n) (1)

进而，公式（1）中的联合概率分布可以通过条件概率计算，如公式（2）所示：

\Pr (S) = \Pr (s_{1}, s_{2}, . . ., s_{n}) = \Pr (s_{1}) \Pr (s_{2}, . . ., s_{n} | s_{1}) = . . . = Π_{i = 1}^{n} \Pr (s_{i} | s_{1}, s_{2}, . . ., s_{i - 1}) - - - (2)

条件概率可以比较完整的体现出部件内部各个笔画之间的结构依赖关系，但是过多的条件概率选取会增加匹配的复杂度，这里考虑利用最大熵的原理选择对每个笔画影响最大的一个笔画作为邻居，用来近似的描述结构关系，这样公式（2）中的条件概率就被描述为公式（3）所示。

\Pr (S) \approx Π_{i = 1}^{n} \Pr (s_{i} | nei (s_{i})) - - - (3)

这样，通过邻居的选取，将多元的结构关系转化为了一组二元的结构关系，这里需要强调的是，要对互为邻居的两个笔画进行局部特征的提取，为后续的部件识别做附加的依据。局部特征描述如下：计算两个笔画包围盒，然后计算两个笔画的中心点横纵坐标比值、长度比值和角度差，作为匹配的依据，一样存入到部件库中。

除了上述的局部特征提取外，还要借助于条件概率来描述结构关系，条件概率的计算需要条件均值和条件协方差矩阵，其计算方法如下：假设一个多维高斯分布描述为X~N(μ，∑)，且这个高斯分布是由X_A~N(μ_A,∑_A)和X_B~N(μ_B,∑_B)组成，如公式（4）

X = (\begin{matrix} X_{A} \\ X_{B} \end{matrix}),

Σ = (\begin{matrix} Σ_{AA} & Σ_{AB} \\ Σ_{BA} & Σ_{BB} \end{matrix}) - - - (4)

那么条件概率下的均值向量和协方差矩阵计算公式如下：

μ_{B | A} = μ_{B} + Σ_{BA} Σ_{AA}^{- 1} (x_{A} - μ_{A}) - - - (5)

Σ_{B | A} = Σ_{BB} - Σ_{BA} Σ_{AA}^{- 1} Σ_{AB} - - - (6)

这样,通过公式（5）和（6）计算出的条件概率均值和协方差矩阵，就可以计算条件概率，这里的条件概率表示在某个笔画已经被匹配后，以这个已经匹配的笔画为邻居的笔画在匹配时需要考虑到结构关系，而不仅仅是简单的计算普通概率。

步骤二：部件候选笔画生成：

首先，对输入的汉字图片进行细化和骨架提取的处理，随后检查交叉点和端点等关键点，这样，通过寻找从一个关键点沿着骨架上的路径到另外一个关键点，而且途中不经过其他关键点的路径，就可以生成一系列笔段，将其定义为初始笔段，这些初始笔段比较细碎。所以，在进行部件识别的过程中，需要让计算机自动的生成一些可能的组合解去匹配目标部件的某个笔画，这个部件候选笔画生成就是要完成这样的工作。

在对某个目标部件进行识别时，将对应的部件的各个笔画得到，要计算的就是针对部件的每一个笔画，都会生成一组可能的解，这些解有可能是初始笔段，也有可能是一些初始笔段的组合结果。所以定义组合规则为两个笔段首尾相连且方向差不超过15°，或者其中一个笔段足够短小，这样就可以将两个笔段合成作为可能的笔画匹配解加入到候选笔画队列中。通过这样的算法，将会得到目标部件各个笔画的可能的匹配笔画的集合，为下一步的基于目标部件生成可能解做了预处理的工作，其结果如图2所示，图2表示了针对目标部件“巴”中的红色的横，输入汉字图片“吧”的候选笔画生成情况，所有标记为红色的都是加入到了候选笔画的队列中，为步骤三的基于目标部件生成可能解做准备。

步骤三：基于目标部件生成可能解：

在得到由步骤二生成的目标部件的各个笔画的候选笔画集合之后，需要做的就是通过一定的选取策略，选择一组候选笔画使其与目标部件的相似度最大，这里将描述整个匹配的过程。

首先将这个匹配过程定义为一个图的搜索过程，这张图的组成描述如下：每一列分别表示目标部件的各个笔画，某一列的每行都表示又输入汉字图片中产生的候选笔画，这样整个识别过程就变成了一个图的搜索过程，要做的就是从第一列搜到最后一列，并保存相似度最大的值。这里在图的搜索过程中，始终要注意，某一个候选笔画是否可以选取，首先看是否和本路径前面的候选笔画在初始笔段占用上有冲突，如果有冲突，则不可以被选择。其次，在搜索到某一个笔画时，如果作为该笔画邻居的笔画在路径前面已经被匹配，那么在计算该候选笔画相似度时就需要利用条件概率，这样就间接的反应了笔画间的结构依赖关系，保证在搜索过程中可以适当的保留汉字中部件的局部特征。

通过上述的搜索方式，可以得到输入汉字针对每一个目标部件的可能解的集合，为步骤四中德基于部件最优组合原理得到识别结果做准备。

步骤四：基于部件最优组合原理得到识别结果：

在经过步骤三的搜索之后，得到了输入汉字针对每一个部件生成的可能解，下面要考虑的就是如何选择，达到对输入汉字部件识别的目的。这里强调一下，在对输入汉字进行初始笔段提取之后，始终保留着一个标记数组，标记着这些初始笔段的使用情况，而在步骤三中的搜索过程中，对于每一个可能的解，都返回一个关于输入汉字初始笔段占用的标记数组。这样，定义寻找部件识别的解等价于选择这些可能的解，使得他们在初始笔段占用不冲突的情况下，尽量填满输入汉字初始笔段标记数组的组合，那么这个问题就转化成了一个变种的背包问题，通过最优选取的策略，将得到部件识别的结果。整个基于部件最优组合原理得到识别结果的示意图如图3所示，要得到输入汉字“果”的部件识别信息，那么针对几个部件“口”、“木”、“人”、“田”和“土”，将得到可能的解，最后通过选取最优的组合，将得到“田”和“木”是该输入汉字的最优的部件识别结果，从而达到对输入汉字的部件识别的目的。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种汉字图片的部件识别方法，其特征在于该方法步骤如下：

步骤（1）、对汉字部件中的笔画和结构关系描述，标注构造统计结构模型所需要的信息；

步骤（2）、根据步骤（1）的汉字部件的标注结果，对输入的汉字图片中检测出的笔段进行有选择性的概率合并，生成可能匹配部件中标注笔画的可能笔画，称为候选笔画生成；

步骤（3）、根据步骤（2）中得到的可能匹配部件中标注好的笔画的候选笔画，寻找一组最优的候选笔画，基于目标部件生成可能的解；

步骤（4）、根据步骤（3）中得到的针对各个目标部件的可能解，利用动态规划思想，寻找可能部件的最优组合结果，作为汉字部件识别的结果。

2.根据权利要求1所述一种汉字图片的部件识别方法，其特征在于：所述步骤（1）中对汉字部件中的笔画和结构关系描述的具体内容如下：

步骤(A1)、对已经有的标准部件库中的514个汉字部件图片进行骨架提取处理，并检测特征点，所述特征点为笔画的端点和笔画之间的交叉点；通过这些特征点之间的连线得到初始笔段，从一个特征点通过骨架上的其他点找到另外一个特征点的路径，将这个路径记录称之为初始笔段；

步骤(A2)、通过人为的交互将所述初始笔段进行合并，得到标记好的汉字部件的笔画；对得到的汉字部件笔画进行Gabor特征的提取，描述汉字部件笔画的方向特征，将每一个笔画描述为一个4维向量和一个4*4协方差矩阵的高斯分布，完成汉字部件笔画的统计建模；

步骤(A3)、通过最大熵原理，利用近似结构关系进行邻居笔画的选取，近似结构关系即将汉字部件中一个笔画与其他所有笔画的结构关系近似为相对于自己邻居的结构关系，结构关系采用条件概率描述，即在某个笔画邻居被匹配后，该笔画匹配时需要采用条件概率计算，所述邻居笔画是指除了本身以外，汉字部件中其他笔画中对该笔画影响值最大的一个笔画，这个影响值通过两个协方差矩阵的差的模取对数描述；

步骤(A4)、计算互为邻居的两个邻居笔画局部特征，局部特征包括中心相对位置、长度比例和角度差，将这些计算好的局部特征的信息进行存储，以用来帮助识别输入的汉字部件。

3.根据权利要求1所述一种汉字图片的部件识别方法，其特征在于：所述步骤（2）部件候选笔画生成的步骤具体如下：

步骤（B1）、将输入汉字图片进行图像细化和骨架提取，检测特征点，如笔画之间的交叉点和笔画端点，通过寻找特征点之间的路径提取出初始笔段；

步骤（B2）、对某个目标部件进行识别时，将对应的部件的各个笔画得到，要计算的就是针对部件的每一个笔画，都会生成一组可能的解，这些解有可能是初始笔段，也有可能是一些初始笔段的组合结果，定义组合规则为两个笔段首尾相连且方向差不超过15°，或者其中一个笔段足够短小，这样就将两个笔段合成作为可能的笔画匹配解加入到候选笔画队列中。

4.根据权利要求1所述一种汉字图片的部件识别方法，其特征在于：所述步骤（3）中基于目标部件生成可能解的步骤如下：

步骤（C1）、构建搜索图，这张图的描述如下，每一列表示待匹配的部件的各个标注好的笔画，而某一列中的每一行都表示着对于这个部件的笔画的由输入汉字的初始笔段生成的候选笔画，这样将匹配问题转化成了一个图的搜索过程，要找一个每一列都找到一个点，从第一列找到最后一列的所有可行解中相似度最大的解。

步骤（C2）、图的搜索过程规则如下：第一，在匹配某一个笔画时，如果待匹配的候选笔画在对输入汉字的初始笔段占用上与前面已经选取的候选笔画相冲突，那么该候选笔画不能被选取；第二，在匹配某一个笔画时，如果作为这个笔画的邻居的笔画已经在前面的路径中被选取了，则要采用条件概率计算，并引入之前存储的局部特征信息，计算这个待匹配的候选笔画和前面已经匹配的候选笔画的中心相对位置关系、笔画长度比例，并和存储的局部特征信息相比较，描述局部特征的相似度。

5.根据权利要求1所述一种汉字图片的部件识别方法，其特征在于：所述步骤（4）中基于部件最优组合原理得到识别结果的步骤如下：

步骤（D1）、利用步骤（3）中得到的对于各个汉字部件生成的可能解，寻找最优的组合作为输入汉字部件识别结果；这样将部件识别问题描述为寻找一组最优的组合，使得组合中这些部件可能解在对输入汉字的初始笔段的占用上不冲突，且最大程度上的消耗掉输入汉字的初始笔段；定义这样的组合为输入汉字的最优的部件识别的结果；利用动态规划思想，将上述问题转化为一个背包问题，背包的容量为输入汉字的初始笔段数目，每一个可能的部件识别解都有一个标记数组来标记这个可能解对输入汉字的初始笔段的占用情况，这样相当于选取不冲突的几件物品放入背包中，使得背包尽可能的放满。