CN1016747B

CN1016747B - 脱机手写汉字识别系统及其识别方法

Info

Publication number: CN1016747B
Application number: CN 90110009
Authority: CN
Inventors: 夏莹; 吴智彪; 曾棋荣; 王世琴; 胡静芬; 孙承鉴; 张大华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 1990-12-29
Filing date: 1990-12-29
Publication date: 1992-05-20
Also published as: CN1052203A

Abstract

一种脱机手写汉字识别系统及其识别方法，属于模式识别人工智能领域。本发明提供的汉字识别系统由扫描、识别、编辑等部分组成，其特征在于所说的识别部分采用汉字统计和结构两类特征相结合的统计识别方法，汉字四边形状的稳定部分，经过模糊处理后作为结构特征的抽取方法和动态分类方法。具有手写汉字的自动识别、人一机交互式识别、边输入边学习、机器全自动学习等功能。该系统对书写者的限制较少，可以识别行书。

Description

本发明属于模式识别和人工智能领域。

脱机手写汉字识别是识别已经写在稿纸上、白纸上或表格中的手写汉字。按书写限制的程度，一般可分为三种，即限制性手写体（指规定某些限制，如规定拓朴特性不变或要求横平竖直等），手写印刷体（指手写工整的汉字）和书写限制较少的手写汉字。限制越少，识别难度越大。目前国内外已研制出若干种能识别手写印刷体汉字的识别系统，例如，本申请人于89年3月23日申请的中国发明专利《光照输入手写印刷体汉字识别系统》（CN10458859）就是其中的一种识别系统。该系统由扫描器和微机组成，配有手写印刷体汉字识别卡及接口板。该系统采用汉字四边形状特征进行粗分类，用快速合并法抽取笔段，用相关属性关系图启发式匹配法进行细分的手写印刷体汉字识别方法。该系统的识别字数为2000常用汉字，识别率达90%。其不足之处是对书写字有较多的限制及较严的要求，即书写汉字不丢失、不添加笔划;笔划写直，字的四边框笔划要写清楚;笔划成型，转折处尽量尖锐;用黑色墨水、优质钢笔、写在稿纸上等等要求。这些要求对使用者带来诸多不便，限制了该系统使用范围。

本发明的目的是构成一种识别书写限制较少汉字的识别系统，克服上述汉字识别系统的不足之处，将使用者按自己习惯写在纸上的字，高速输入计算机，经过计算机识别，并输出正式文件来，为达此目的，本发明提出一种新的手写汉字识别方法。

本发明提出一种交互式自学习脱机手写汉字识别系统，由扫描、识别、编辑等部分，其中，扫描部分包括驱动光电扫描仪完成对文稿的扫描录入以及文字切分、规格化予处理等步骤，识别部分包括对扫描得到的文字图象进行模式识别，得到汉字机内码表示的文本文件等步骤，编辑部分包括对识别后的文本文件进行编辑修改及输出正式文件等步骤，其特征在于所说的识别部分采用汉字统计和结构两类特征相结合的统计识别方法，即抽取汉字适当部位的横、竖、左斜、右斜四个扫描方向的笔道计数做为统计特征（HVLR），以及汉字四边形状的稳定部分，经过模糊处理后作为结构特征的抽取方法。以及动态分类方法，即将所述统计和结构特征作为粗分类特征，对各类特征取候选集，然后作与、或集合运算，得到最后的分类侯选集，再作进一步的匹配、细分，得到识别结果。该系统还包括用以识别书写工整、字迹清楚的手写汉字的通用特征库以及为适应不同用户的书写习惯，计算机采用自学习方式为用户建立的专用特征库，建立专用特征库可采用两种方法，一种是：用户按照自己的书写习惯写出一个常用字表，该系统全自动地学习该用户的字型特征;另一种是：边输入学习，在文稿交互输入过程中，计算机逐个学习汉字的字型特征。

本发明提供的上述交互式自学习脱机手写汉字识别系统，对输入的手写汉字文稿限制少，能适用连笔、断笔现象，具有自动识别，人一机交互式识别、边输入边学习全自动学习等功能。

附图简要说明：

图1 为本发明实施例的系统程序框图

图2 汉字切割原理图

图3 汉字图象切割流程图

图4 为“的”字的HVLR特征

图5 为四边框形状特征码

本发明提供的一种最佳实施例由扫描仪、微型计算机主机、显示器、打印机以及装在主机内的扫描仪与主机的接口板和汉字识别卡等组成。扫描仪可采用HP、RICON和DATACOPY等各种扫描仪，如HP9190，HP9195，is 30，is11等。计算机主机可采用IBM-PC/XT兼容机、各种286，386机和长城机，如8088，80286或80386 CPU具有内存640K以上20M以上硬盘的计算机。本实施例系统工作流程框图如图1所示，由扫描、识别、编辑、机器学习等部分组成。结合附图对其工作原理详细描述如下：

汉字和标点符号写在20×20稿纸上，用300dpi图文扫描器（如CS-220， IS-30等）扫描页面，按所选的灰度阈值，得到二值化（黑、白）点阵，经接口板送入计算机，得到一幅汉字图象，按图2所示的汉字切割原理图，将图象中的所有黑色象点横向相加，得到离散波形，则可确定行起始和行数。每行的纵向里象点相加，可确定字首和字数，经图3所示的汉字图象切割流程图，得到每个汉字，为96×96点阵，并显示该手写体字形，以便挑选和学习用。每个汉字经特征抽取及规格化后，得到被识汉字的粗分类特征和细分特征，并对特征进行处理，突出其字间差别。经动态分类判别，得到分类的候选集，然后对候选集作细分判别，并对候选集按相似度排序。在自动识别状态，则以最相似的字为识别结果。识别结果在屏幕上显示并存入磁盘。有分类特征库和细分特征库各一个，其特征是由计算机全自动学习（字表教授）或交互学习（人机对话教授），然后对特征空间的划分进行修改，进而改变分类特征库和细分特征库。为了尽量减少对书写人的限制，可以允许连笔和行书。除通用特征库外，对于行书、草书的用户可建立专人特征库。

本系统具有如下特点：

1.系统的予处理与一般常用的方法不同，对于书写大小不同的汉字所用的规格化方法，不是对96×96汉字点阵进行规格化，而是在特征抽取过程中对HVLR的原型特征进行规格化，是96×4数量的规格化，大大提高了速度。系统没有“细化”的过程就直接作特征抽取。避免了“细化”速度慢、畸变大的弱点。

2.识别方法主要包括特征的选择、抽取和分类判别两部分。其中特征的选择、抽取是根据限制较少手写汉字的多变、连笔、断笔、不稳定等特点，采用统计特征与结构特征相结合的识别特征。统计特征为适当部位的手写汉字横、竖、左斜、右斜（HVLR）特性，即适当部位的横、竖、左斜、右斜四个扫描方向的笔道计数，它们是反映汉字内部结构的笔道计数。结构特征是取汉字的四边形状特征的稳定部分，经模糊处理后得到的特征有序串。具体实现方法及步骤如下：

本发明人分析了汉字的结构特点，认为手写汉字最重要，也是相对稳定的特征是汉字的间架结构，能表达汉手写汉字的字形结构形状特征是HVLR特征，对于不同人写的相同的字，例如图4所示，使其HVLR特征比较稳定，关键在于在适当的部位去数所穿越的笔道数。

对于计算机而言，要确知在适当的部位去“数”所穿越的笔划数是困难的，本发明提出一种方法，可以比较精确、快速地抽取出HVLR特征。

HVLR特征的抽取方法包括两大步骤：

①HVLR特征的原形特征的抽取;

②对原形特征规格化，得到HVLR特征。

原形特征指手写体汉字在水平（H）、垂直（V）、+45°（L）、-45（R）方向笔划数目的投影。

原形特征的抽取方法如下：

一页手写体汉字文稿经过扫描输入、切割，得到一幅M×N的二值汉字点阵，G＝（Gij），其中i＝1，2……M，j＝1，2……N。对于黑色象素（Gij）＝1，对于白色象素Gij＝0。

1.扫描G，若G中的点已扫描完，则结束。

2.判断当前扫描点的邻接区m×n的状态：

2.1若m×n中的点非全白全黑，则转1

2.2若m×n中的点全白，则判断：

2.2.1若垂直方向置全黑标志，则当前位置的水平方向笔道数加1，并置此标志为全白。

2.2.2若水平方向置全黑标志，则当前位置的垂直方向笔道数加1，并置此标志为全白。

2.2.3若-45°方向置全黑标志，则当前位置的+45°方向笔道数加1，并置标志为全白。

2.2.4若+45°方向置全黑标志，则当前位置的-45°，方向笔道数加1，并置此标志并全白。

2.3若m×n中的点全黑，则置所有四个方向的标志并全黑。

3.转1

本特征提取方法的特点是：

①在水平、垂直、+45°、-45°四个方向对汉字点阵G各穿越了M-m、N-n、M+N-（m+n+1）、M+N-（m+n+1）条线，由于在穿线计数时考虑了每一点的m×n大小的邻域状态，因而所得原形特征比较真实地反映了手写体汉字在上述四个方向上笔道数目的投影数。

②由于只需遍历G一遍，就得到四个方向上的特征，因而速度极快。

③具有一定的抗干扰能力。只要G中的污点大小不能完全包含m×n，则此污点并不影响原形特征的抽取，m×n有多种，很灵活。最简明、直观的取法是2×2即∷，也可取

等。

对原形特征规格化是将各方向的原形特征

（水平方向为Ha[i]，i＝1，2……M-m;

垂直方向为 Va[i]，i＝1，2……M-N;

+45°方向为 La[i]，i＝1，2……M+N-（m+n）;

-45°方向为 Ra[i]，i＝1，……M+N-（m+n））

均匀映射到Hb[i]，Vb[i]，Lb[i]，Rb[i]，其中i＝1，……J。

J＝k· (min｛M，N｝)/(［R/25.4]) 式中[R/25.4]为扫描器每毫米的分辨率我们取K＝3/2，R＝300，则J＝12。

这里均匀映射包括按相似比例的放大或缩小，是离散值的放大或缩小。

由于这种规格化方法是近似了在“适当的部位”去“数”所穿越的笔道数。因此所得到的是HVLR特征的近似值。该方法比较精确地将二维汉字字形转化并多维向量。实验结果表明，这一特征较好的表达了汉字字形的本质特点。

结构特征是取汉字的四边形特征的稳定部分。汉字的四边形状特征包含的信息量大，相对地比较稳定。但也不是都稳定，尤其是在有连笔时，四边形状并不都稳定，因此仅取其经模糊处理后的稳定部分。例如“舞”字，由上往下看可以看到“丿一”，“不”字由上往下看的“一”。我们选择七种笔划形状作为基本特征元，如图5所示。即将“一”“丨”“丿”“丶”“┐”“└”“┴”的编码规定为1，2，3，4，5，6，7。在获得汉字图象的近似多角形之后得到四框形状线段，对这些线段由左向右分析它们的性质，以及它与邻近线段所构成的几何形状，可以从中得到形状的特征编码有序串。例如，对于顶部的具体步骤如下：

1.将顶部线段从左到右排序

2.取出一线段，判断它们的属性（一，丨，丿，丶等）

3.根据属性，取出邻近边分析两端点与邻近边所构成的形状从而得到特征码。

4.若线段取完则结束，否则转2。

例如：“舞”字取“/一”其编码有序串为31。

本实施例的分类判别部分采用动态分类法。

对于文字特征的分类判别是文字识别过程的主要环节，要根据特征的特点寻找恰当分类判别方法。

对于手写体汉字的特征本发明人曾进行过广泛的探讨和选择。可以说，没有绝对稳定的特征，只有相对比较稳定的特征，如前述的特征。对于这些不是很稳定的特征应如何使用呢？本发明人采用与传统分类方法不同的动态分类法。将上述的统计HVLR特征的四个分量：Hb[i]，Vb[i]，Lb[i]，Rb[i]（i＝1，……J）的平方和∑Lb²[i]，∑Rb²[i]，∑Hb²[i]，∑Vb²[i]及四边框特征作为粗分类特征，并设定各分量的△区间，使其都有一定的上下限，上下限的具体值由样本集进行训练得到。动态分类法，即对各类特征取候选集，然后求并集和交集。这种分类方法对同一字的不同写法得到的候选集是不同的，但总要包含被识字。它和树分类法相比，当特征不很稳定时，该方法可减少分类错误。它比动态兼容线性分类法更灵活，可更广泛地应用，因它不要求对特征进行排序，便于对各种特征求候选集，然后作与、或集合运算，得到最后的分类候选集。虽然动态分类法对待识字求候选集要在全分类库内寻找，但只要特征简单，也还是很快的，这样可在特征不很稳定的情况下，找到不太大的候选集。

3.本系统通过计算机全自动学习（指由字表教授）或交互学习（指人机对话教授）两种方式得到分类特征库和细分特征库。

计算机自动学习的过程是：事先准备好需要学习的扫描样张和与扫描样张次序相对应的字表文件。用图文扫描器扫描样张，经汉字切分后得到每个汉字的96×96点阵，和识别过程相同，也要经特征抽取和规格化后，得到要学习的汉字的分类特征和细分特征。在字表文件的指导下，汉字的分类特征经特征空间的划分操作后得到初始的分类特征库，细分特征则直接组成初始的细分特征库，粗分类库中的每个汉字有指针指向细分特征库中的相应汉字，以便于识别时调用。在已有初始特征库后，要继续学习样张，是将另外的多种样张扫描送入计算机，抽取分类特征和细分特征，用新的分类特征与分类特征库比较，若发现不合用，则修改特征空间的划分，用细分特征与细分特征库比较，若发现相距太远，则修改细分特征库的参数。

人机交互式学习过程是：在输入稿件时边输入边学习。

本系统的软件采用模块式结构，主要用汇编语言编程，在CCDOS 4.0操作系统下工作。

本实施例具有对限制少手写汉字的自动识别、人-机交互式识别、边输入边学习，机器全自动学习等功能，识别字数为国标一级汉字3755个，识别率80～95%（前十位候选识别率），识别速度为2～3字/秒。

Claims

1、一种交互式自学习脱机手写汉字识别方法，由扫描、识别、编辑等部分，其中，扫描部分包括驱动光电扫描仪完成对文稿的扫描录入以及文字切分、规格化予处理等步骤，识别部分包括对扫描得到的文字图象进行模式识别，得到汉字机内码表示的文本文件等步骤，编辑部分包括对识别后的文本文件进行编辑修改及输出正式文件等步骤，其特征在于所说的识别部分采用汉字统计和结构两类特征相结合的统计识别方法，即抽取汉字适当部位的横、竖、左斜、右斜四个扫描方向的笔道计数做为统计特征(HVLR)，以及汉字四边形状的稳定部分，经过模糊处理后作为结构特征的抽取方法；以及动态分类方法，即将所述统计和结构特征作为粗分类特征，对各类特征取侯选集，然后作与、或集合运算，得到最后的分类侯选集，再作进一步的匹配、细分，得到识别结果，该系统还包括通用特征库以及专用特征库。

2、如权利要求1所述的手写汉字识别方法，其特征在于所述的规格化予处理是在特征抽取过程中对所说的HVLR的原型特征进行的方法;所说的识别方法中的HVLR特征选择、抽取部分，包括HVLR特征的原形特征的抽取及对原形特征规格化、得到HVLR特征两大步骤的方法;所说的动态分类方法是将所说的HVLR特征的四个分量Hb[i]，Vb[i]，Lb[i]，Rb[i]（i＝1，……J）进行平方和突出差别后，做为HVLR特征，并将该特征与所说的四边框特征作为粗分类特征，再对所述的各类特征取候选集，然后作与、或集合运算，得到最后的分类候选集。