CN104156721B

CN104156721B - 一种基于模板匹配的脱机汉字笔画提取方法

Info

Publication number: CN104156721B
Application number: CN201410375427.XA
Authority: CN
Inventors: 仇宏斌; 姜杰; 吴万紫; 王梦怡; 许静竹; 邓科扬; 李艺; 白晓东; 黄峰
Original assignee: Nanjing Normal University
Current assignee: Nanjing wenmu Education Technology Co.,Ltd.
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2017-06-23
Anticipated expiration: 2034-07-31
Also published as: CN104156721A

Abstract

本发明公开了一种基于模板匹配的脱机汉字笔画提取方法。其具体步骤为：对汉字的所有笔画分别建立笔画编码，作为模板；对给定汉字以其中所含笔画的种类及数量建立汉字编码，作为模板；提取给定脱机汉字的骨架线；将骨架线按横竖撇捺四类笔画的方向拆分成四种笔段；将所有可能通过尾首相接形成新的笔画的笔段连接成新的准笔画并根据其走向和笔段组成特征对其进行标识；将所得所有准笔画与该字的笔画编码模板和汉字编码模板进行匹配，确认该脱机汉字的每一笔画。本发明的通过骨架提取脱机汉字笔画的方法，能够帮助确认脱机汉字里的每个笔画，可以为赋予该脱机汉字的笔画乃至整字的动态书写属性，研发新的汉字字体库生成技术等应用提供支持。

Description

一种基于模板匹配的脱机汉字笔画提取方法

技术领域

本发明属于模式识别领域，具体涉及一种基于模板匹配的脱机汉字笔画提取方法。

背景技术

所谓脱机汉字是指业已在纸张或其他静态介质上存在的汉字，一般包括印刷品上的汉字、传统字帖、通常用户书写在纸张等介质上的汉字等。汉字笔画提取主要应用于脱机汉字识别领域。由于脱机汉字不能记录汉字的动态书写过程，难以把汉字的各笔画区分开来，使脱机汉字识别的难度远大于联机汉字的识别，部分脱机汉字的识别方案倾向于以笔画拆分为基础。

目前对脱机汉字的笔画提取分成以下几种：

1.采用水平极线段和垂直极线段描述汉字笔画结构把汉字拆分成“横”、“竖”、“撇”、“捺”四种基本笔画，如中国发明专利“汉字笔画自动抽取方法及其装置”(公开号：CN1271913A)；

2.大致保留被拆分的汉字里初始的笔画连接状态，把有交叉部分的两个或多个笔画在交叉处拆分开来。

上述的方法大多用于脱机汉字的识别，虽然能粗略提取汉字的结构信息，但不能实现以汉字笔画类型为标准来提取汉字的笔画信息。

发明内容

为了提取更准确的汉字笔画信息，便于汉字笔画学习，本发明提供一种基于模板匹配的脱机汉字笔画提取方法，该方法能够正确提取脱机汉字里的每个笔画。

本发明的提取方法提供了如下方案:

一种基于模板匹配的脱机汉字笔画的提取方法其步骤是：

1.对所有类型的笔画，按照其书写方向拆分笔段，以笔段书写方向和笔段组成为表征，建立《笔画编码表》，作为模板：

《笔画编码表》包括笔画类型名称(strDescription)、笔画类型编号(strokeType)、笔画类型链码(linkCode)等字段,其中笔画类型链码由笔画中每个笔段的方向码顺序组成，本方法中又称其为“笔段码”；

2.给定汉字，按照其笔画书写的书写方向拆分笔段，以笔段书写方向和笔段组成为表征，建立《汉字编码表》，作为模板：

《汉字编码表》包括以笔段书写方向和笔段组成为表征的汉字(word)、汉字的笔画链码(strokeInclude)等字段，其中汉字的笔画链码由该汉字中的每个笔画的笔画类型编号顺序组成；

3.对该汉字的脱机图像进行二值化和归一化处理，得到该脱机汉字的二值图，对该脱机汉字的二值图进行提取骨架线的处理；

二值化和归一化是对汉字图像的预处理过程，得到汉字二值图后，对图中的黑像素区域进行层层剥离，最后得到一像素宽的汉字骨架线；

4.将提取出的骨架线在其转折、分叉点处切分为段，再将方向相同且首尾相邻的段合并，将这些段视为笔段,以横、竖、撇、捺四种笔画的方向及走向对笔段的方向及走向特征进行标识，赋予其“首”“尾”的意义：

(1)以端点为起点，分叉点为终点，用像素跟踪的方法，将汉字进行切分为许多段，切分后对这些段用求最大距离法找拐点，并在拐点处将该段分成两段；

(2)将这些段中所有方向相邻且首尾相邻的段合并，这些段即为笔段；

(3)根据横、竖、撇、捺四种笔画对应的四种方向，对这些段按方向进行分类，并规定横和捺方向的段中像素点的排列顺序为从左至右，竖和撇方向的段中像素点的排列顺序为从上至下；

5.将骨架线中的笔段合成准笔画，建立准笔画集：

(1)笔段中，无与其他笔段首尾相邻者，直接视为准笔画，并以书写方向标识；

(2)若某笔段与其他笔段有首尾相邻，将它们按所有可能进行连接，遍历汉字的所有笔段，若笔段i的首点和笔段j的末点的距离小于给定阈值，则将笔段i和笔段j合并，经过合并后的笔段即为准笔画,以书写方向和笔段组成对其进行标识；

6.在准笔画集中标记潜在相连准笔画：

遍历汉字的所有准笔画，若准笔画的首点和准笔画的末点的距离小于给定阈值，则将准笔画和准笔画都标记为潜在相连准笔画；

7.以《笔画编码表》和《汉字编码表》作为模板，将所得脱机汉字的准笔画与该字对应的模板进行三轮匹配，确认哪些准笔画可以看成是该汉字的哪个笔画，三轮匹配分别为：

(1)第一轮，匹配准笔画，方法为：将待匹配汉字中所有笔段首尾相连后得到准笔画集，以《笔画编码表》和《汉字编码表》为依据，建立当前汉字的标准笔画集，再将准笔画集与该汉字的标准笔画集进行匹配；

(2)第二轮，匹配潜在准笔画，方法为：将成对的潜在相连准笔画相连，若标准笔画集中存在与相连后准笔画对应的笔画，则将潜在相连准笔画合并；若不存在，则取消该成对的潜在相连准笔画的合并；将经过合并判断以后的潜在相连准笔画与标准笔画集进行匹配；

(3)第三轮，将剩余准笔画拆分后再行匹配，方法为：将准笔画集中未能匹配成功的准笔画按照标准笔画集中没有匹配成功的笔画数进行拆分，再将拆分后的准笔画集与标准笔画集进行匹配。

每个准笔画的匹配过程为：如果在标准笔画集strokes1中能找到与当前准笔画s_i笔段码相同的笔画s_j，表明s_i为正确笔画，则将s_i存入最终正确的笔画集strokes中，并将其从strokes2中删除，将s_j从strokes1中删除。

本发明与现有技术相比的有益效果：

(1)本方法采用模式匹配的方法，以汉字的标准笔画类型为依据，从汉字图像中拆分出该汉字的所有笔画，对汉字练习过程中汉字书写评价有重要的应用价值。

(2)本方法中能够提取汉字图像中汉字的笔画信息里，笔画信息里包含了笔画中点的走向信息，对汉字书写学习具有重要的应用价值。

(3)本发明通过骨架提取脱机汉字笔画的方法，能够帮助确认脱机汉字里的每个笔画，可以为赋予该脱机汉字的笔画乃至整字的动态书写属性，为研发新的汉字字体库生成技术等应用提供支持。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1是本发明的处理操作流程图；

图2是《笔画编码表》；

图3是《汉字编码表》的一部分；

图4是汉字样本字体的二值图；(a)是汉字样本楷体“白”的二值图；(b)是汉字样本手写体“白”的二值图。

图5是最终得到的汉字骨架图；(a)是楷体“白”的骨架图；(b)是手写体“白”的汉字骨架图。

图6是图4样本字体骨架上的笔段划分结果；(a)是图4样本楷体“白”骨架上的笔段划分结果；(b)是图4样本手写体“白”骨架上的笔段划分结果。

图7是赋予笔段方向码的编码规则示意图。

图8是准笔画与标准笔画匹配的流程图。

图9是图4的最终笔画分解结果；(a)是图4楷体“白”的最终笔画分解结果；(b)是图4手写体“白”的最终笔画分解结果。

具体实施方式

一种基于模板匹配的脱机汉字笔画提取方法包括以下步骤，其流程图如图1所示：

1.对所有类型的笔画，将其拆分成横、竖、撇、捺四种方向的笔段，以笔段书写方向和笔段组成为表征，建立《笔画编码表》作为模板；

《笔画编码表》如图2所示，包括笔画类型名称(strDescrip tion)、笔画类型编号(strokeType)、笔画类型链码(linkCode)等字段,其中笔画类型链码由笔画中每个笔段的方向码顺序组成，本方法中又称其为“笔段码”,如“横折”的笔画类型编码为“13”。

笔段的方向码是指：将笔画拆分成横、竖、撇、捺四种方向的笔段，横、竖、撇、捺对应的方向码分别为1、3、4、2。

2.给定汉字，按照其笔画书写的书写方向拆分笔段，以笔段书写方向和笔段组成为表征，建立《汉字编码表》，作为模板，如图3所示：

《汉字编码表》包括以笔段书写方向和笔段组成为表征的汉字(word)、汉字的笔画链码(strokeInclude)等字段，其中汉字的笔画链码由该汉字中的每个笔画的笔画类型编号顺序组成例如“王”对应的笔画链码是“1_1_2_1”。

3.对汉字图像进行二值化和归一化处理，得到汉字的二值图，如图4所示，对该脱机汉字的二值图进行提取骨架线的处理。

(1)二值化:

①图像灰度化，采用加权平均值法，对R、G、B三个分量进行加权平均，得到合理的灰度图像，加权规则如下：

f(i,j)＝0.30R(i,j)+0.59G(i,j)+0.11B(i,j)

②求图像二值化阈值，步骤为：

A.建立图像的灰度直方图，即根据256种灰度值上像素点的数量建立灰度直方图；

B.求该图像的最大灰度Hmax和图像的最小灰度Hmin以及Hmax和Hmin的平均值Hmid；

C.将灰度直方图从Hmid处分开，Hmin到Hmid处的灰度平均值为新的Hmin,Hmid+1到Hmax处的灰度平均值为新的Hmax；

D.Hmid的值为Hmax和Hmin的平均值；

E.不断执行C和D，只到Hmid的值不再发生变化，Hmid的值即为二值化阈值。

③图像二值化，即将图像中灰度值大于阈值Hmid的像素点设置成黑像素点，灰度值小于Hmid的像素点设置为白像素点。

(2)图像归一化，包括对位置归一化和大小归一化。

①位置归一化的方法：先计算出汉字的重心，再将重心移到汉字点阵的指定处。

②大小归一化的方法：计算出汉字点阵上、下、左、右的边框，然后按比例将汉字线性缩放为指定大小。

(3)取骨架：

对汉字的二值图进行取骨架处理，图像取骨架又称图像细化，是指在保持原图像拓扑结构的情况下尽可能快地抽出一个单像素宽的骨架的过程。图像细化方面已有广泛的研究，细化算法有许多种，如Hilditch、Pavlidis、Rosenfeld、Zhang等细化算法、索引表细化算法、基于数学形态学的索引表细化算法，本实施方法以Zhang细化算法思想为基础并进行优化：在保留端点和孤立点、保持交叉处的连续的前提下，分析当前像素点的八邻域，进行第一次子迭代删除东南的边界点，第二次子迭代删除西北的边界点，执行完两个子迭代后，就完成了一次细化算法，多次迭代执行上述过程，就得到最终的骨架图。

4.将提取出的骨架线在其转折、分叉点处切分为段，以横、竖、撇、捺四种笔画的方向及走向对段的方向及走向特征进行标识，再将方向相同且首尾相邻的段合并，将这些段视为笔段，划分结果如图6所示。

(1)对骨架线进行跟踪，以端点为起点，分叉点为终点，将待处理汉字切分成由连续的像素点组成的段；

(2)遍历当前汉字中的所有段，用求最大距离法找到的拐点；

找到笔段中的拐点方法为：遍历该笔段中所有的点，找到与该笔段首末点连线l距离最远的点p，设定阈值D_th为以l为对角线的矩形中其他对角点到此对角线的距离的判断p到l的距离d(p)是否小于阈值D_th，若d(p)＞D_th,则p点为拐点。

(3)将有拐点的笔段在拐点处断开，分成两个段，对这两个段进行二次找拐点并分段；

(4)给所有段赋方向码，即根据段首尾点的连线与水平方向夹角来设置段的方向码，横、竖、撇、捺所在的方向分别对应1、3、4、2，并规定横和捺方向的段中，点的排列顺序为从左至右，竖和撇方向的段中，点的排列顺序为从上至下设置规则如图7所示；

(5)将这些段中所有方向相同且首尾相邻的段合并，这些段即为笔段。

5.笔段中，无与其他笔段首尾相邻者，直接视为准笔画，并以书写方向标识；若某笔段与其他笔段有首尾相邻，将它们按所有可能进行连接，合成准笔画，以书写方向和笔段组成对其进行标识,合并方法如下：

(1)将已拆分出的笔段集substrokes中的每个笔段进行走向标准化，横(方向码为1)和捺(方向码为2)笔段上点集S_i{p₀(x,y),p₁(x,y),p₂(x,y),Λ,p_n(x,y)}(i＝0,1,2,Λ,substrokes.count()-1)的走向为像素点的x坐标从小到大排列，即p₀.x＜p₁.x＜p₂.x＜Λ＜p_n.x；竖(方向码为3)和撇(方向码为4)笔段上点集S_i{p₀(x,y),p₁(x,y),p₂(x,y),Λ,p_n(x,y)}(i＝0,1,2,Λ,substrokes.count()-1)的走向为像素点的y坐标从小到大排列，即p₀.y＜p₁.y＜p₂.y＜Λ＜p_n.y；

(2)将笔段集substrokes中的笔段进行尾首相连合成准笔画str_i，这些准笔画组成准笔画集preStrokes{str₁,str₂,Λ,str_i}，每一个准笔画的合成步骤如下：

①找到笔段集substrokes中第一个可以作为起始笔段的笔段，即找到第一个其起点没有与其他笔段末点相邻的笔段：

按存储顺序获取笔段集substrokes中第一个笔段S_i；遍历笔段集substrokes中的笔段S_j(0≤j＜substrokes.count(),j≠i),若笔段集substrokes中存在S_j,S_i的第一点与S_j最后一点的距离小于阈值t，则将S_j设为当前笔段集的第一个笔段，即将S_j的值赋给S_i，重新执行步骤B，直到找不到符合条件的笔段S_j。

②合并笔段集substrokes中从S_i开始的所有首尾相邻的笔段，得到的笔段序列即为准笔画str_i：

遍历笔段集substrokes中的笔段S_j(0≤j＜substrokes.count(),且j≠i),若笔段集中存在S_j,使S_i的最后一点与S_j的第一点的距离小于阈值t，则将S_i存入当前准笔画str的最后一个笔段之后，并将S_i从笔段集substrokes中删除，把S_j的值赋给S_i，重新执行步骤C，直到找不到符合条件的S_j。

6.在准笔画集preStrokes中标记潜在相连的准笔画，即尾尾相连的准笔画：

遍历笔段集preStrokes中的笔段str_j(0≤j＜preStrokes.count(),且j≠i),令当前准笔画为str_i，若笔段集中存在str_j,使str_i的最后一点与str_j的最后一点的距离小于阈值t，则将str_i和str_j所在的准笔画都标记为潜在相连准笔画。

7.以《笔画编码表》和《汉字编码表》作为模板，把该字的准笔画与该字对应的模板进行匹配，提取出汉字的正确笔画信息，匹配流程图如图8所示。注：操作①将尾首相连的笔段合并、尾尾相连的笔段标记；操作②将匹配成功的准笔画和标准笔画分别从集合里删去；操作③将尾尾相连的笔段合并；操作④根据剩余笔画的笔段数对准笔画进行拆分。

(1)从《汉字编码表》中读取当前汉字的笔画类型链码strokeInclude，对strokeInclude中组成该汉字的每个笔画，从《笔画编码表》中查找该笔画类型的笔段码linkCode，由每个笔画的笔段码建立当前汉字的标准笔画集strokes1{s₁,s₂,s₃,Λ,s_m}，另外，建立strokes用于存储提取的正确笔画信息；

①若当前匹配为第一轮匹配，strokes1中存储的数据为：组成笔画类型链码的每个笔画类型的方向码，例如，“里”的strokeInclude为“2_11_1_1_2_1_1”,笔画类型编号strokeType为“2”的笔画对应的笔段码为“3”，strokeType为“11”的笔画对应的笔段码为“13”，strokeType为“1”的笔画对应的笔段码为“1”，所以标准笔画集为strokes1{"3","13","1","1","3","1","1"}；

②若当前匹配不为第一轮匹配，strokes1中存储的数据为：当前strokes1中剩余的笔画类型的笔段码；

(2)由分笔段后得到的准笔画集preStrokes，建立待匹配的准笔画集strokes2；

①若当前匹配为第一轮匹配，则strokes2中存储的数据为preStrokes中所有非潜在相连准笔画，例如，“里”中的准笔画“横折”和“竖折”是潜在相连准笔画，所以第一轮匹配中，这两个准笔画不加入strokes2中进行匹配；

②若当前匹配为第二轮匹配，则将preStrokes中所有潜在相连准笔画加入到strokes2中，把strokes2中所有相关联的两个潜在相连准笔画的笔段码合并，令合并后的笔段码为s₀，如果能在strokes1中找到与s₀笔段码相同的笔画，则将两个潜在相连准笔画合并成一个准笔画，得到新的strokes2；

③若当前匹配为第三轮匹配，则将中剩余的准笔画按照中剩余的笔画数进行拆分，得到新的strokes2，如准笔画集中剩余的准笔画的笔段编码为“31”，汉字笔画链码中剩余2个笔画的信息，则将准笔画拆成两个准笔画，这两个准笔画的的笔段码分别为“3”和“1”；

(3)每一轮准笔画集strokes2与标准笔画集strokes1的匹配，即对strokes2中的每一个准笔画进行遍历，在strokes1中查找笔段码与准笔画笔段码相同的笔画；

每个准笔画的匹配过程为：如果在标准笔画集strokes1中能找到与当前准笔画s_i笔段码相同的笔画s_j，表明s_i为正确笔画，则将s_i存入最终正确的笔画集strokes中，并将其从strokes2中删除，将s_j从strokes1中删除；

(4)strokes中存储的为汉字正确的笔画信息。

以上实施方式仅为体现本发明内容的较佳实施例，依据本发明的思想，在具体实施过程中实施流程会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于模板匹配的脱机汉字笔画提取方法，其特征在于包括以下步骤：

(1)对所有类型的笔画，按照其书写方向拆分笔段，以笔段书写方向和笔段组成为表征，建立《笔画编码表》，作为模板；

(2)给定汉字，按照其笔画书写的书写方向拆分笔段，以笔段书写方向和笔段组成为表征，建立关于该汉字笔画集的《汉字编码表》，作为模板；

(3)对该汉字的脱机图像进行二值化和归一化处理，得到该脱机汉字的二值图，对二值图中的黑像素区域进行层层剥离，最后提取得到一个像素宽度的汉字骨架线；

(4)将提取出的骨架线在其转折、分叉点处切分为段，再将方向相同且首尾相邻的所有段合并，将其视为笔段，以横、竖、撇、捺四种笔画的走向及书写运笔方向对这些笔段进行标识，赋予其“首”“尾”的意义；

(5)笔段中，无与其他笔段首尾相邻者，直接视为准笔画；若某笔段与其他笔段有首尾相邻，将它们进行连接，合成准笔画，以书写方向和笔段组成对其进行标识；

(6)在所得所有准笔画中，对尾尾相邻者进行标记，但暂不连接，将其认为是潜在可以相连而成的准笔画，即潜在相连准笔画；

(7)以《笔画编码表》和《汉字编码表》作为模板，将所得脱机汉字的准笔画特征集与该字对应的模板进行三轮匹配，确认哪些准笔画可以看成是该汉字的哪个笔画，三轮匹配分别为：第一轮，对准笔画进行匹配；第二轮，将潜在相连准笔画相连并进行匹配；第三轮，对剩余匹配不成功的准笔画拆分后的匹配。

2.根据权利要求1所述的一种基于模板匹配的脱机汉字笔画提取方法，其特征在于：所述步骤(4)的具体处理过程如下：

1)以端点为起点，分叉点为终点，用像素跟踪的方法，将汉字进行切分为许多段，切分后对这些段用求最大距离法找拐点，并在拐点处将该段分成两段；

2)将这些段中所有方向相邻且首尾相邻的段合并，这些段即为笔段；

3)根据横、竖、撇、捺四种笔画对应的四种方向，对这些段按方向进行分类，并规定横和捺方向的段中像素点的排列顺序为从左至右，竖和撇方向的段中像素点的排列顺序为从上至下。

3.根据权利要求1或2所述的一种基于模板匹配的脱机汉字笔画提取方法，其特征在于：所述步骤(7)中三轮匹配的具体过程如下：

(1)第一轮，匹配准笔画，方法为：将待匹配汉字中所有笔段首尾相连后得到准笔画集，从《汉字编码表》中读取当前汉字的笔画类型链码，对所述笔画类型链码中组成当前汉字的每个笔画，从《笔画编码表》中查找该笔画类型的笔段码，由每个笔画的笔段码建立当前汉字的标准笔画集，再将准笔画集与该汉字的标准笔画集进行匹配；