CN1252584A

CN1252584A - 在线手写中文字识别装置

Info

Publication number: CN1252584A
Application number: CN99119542A
Authority: CN
Inventors: 张忆文; 郭俊桔
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-10-26
Filing date: 1999-09-02
Publication date: 2000-05-10
Anticipated expiration: 2019-09-02
Also published as: TW446891B; SG74746A1; US6389166B1; CN1163841C

Abstract

一种以字形为基础的在线手写中文字识别装置,减少在线手写中文字识别系统所需的匹配样本数,降低匹配时间。输入的手写中文字被拆解为基本字形。然后参照输入法的取码规则,根据手写字字体组成方式取出用于比较的字根,接着利用压缩公式将字根代码压缩,再把压缩码与输入法参考文件的内容比较,得到候选字的序列码。最后通过后处理进一步比较决定最后识别的序列码,然后把字型文件中对应于该文字的序列码的文字作为识别结果并输出。

Description

在线手写中文字识别装置

本发明涉及一种以字形为基础的手写中文字在线解读方法，以及特别涉及以该文字的组成字形与输入法的文字压缩码-序列码参考文件作比较而识别文字的在线手写中文字识别装置。

常规的文字识别方法一般采用样本匹配(template matching，或“模板匹配”)的方式，将输入的未知文字图形与预先存储的文字笔迹样本一一匹配，以相似性最大、差异性最小的匹配样本作为识别的结果。由于这样的技术需要存储大量的文字笔迹样本数，才能达到较好的识别效果。而大多数文字识别的方法都使用分类方法或其他匹配方法来配合样本匹配技术，目的在于降低匹配大量文字笔迹样本时所耗费的时间，但是仍然必须存储大量的文字笔迹样本。

例如中国台湾专利公报公告第311201号专利《以前后字根为基础的手写中文字识别系统》，该发明的特征在于利用前字根和后字根将所有中文字分为三大类，即，前字根加后剩余字、后字根加前剩余字、以及独体字，然后利用该分类法建立一个中文识别系统。图13为该系统的模板建立部分的方框图，包括：

中文字迹数据库10，其用于存储80组中文字笔迹数据，每组5401字，且由不同人所书写；

中文字迹分类器11，其用于根据分类法来将中文字加以区分，以决定它们是属于前字根的字、后字根的字、还是独体字；

字根分离器12，其用于将前字根的字分为前字根部分和后剩余字，或是将后字根的字分为后字根部分和前剩余字；

独体字模板产生器13，其用于提取独体字的特征点，然后依笔画数目的顺序将这些特征存储在独体字模板16中；

字根模板产生器14，其用于提取前字根和后字根的特征，然后依字根笔画数目的顺序将这些特征存储在前字根模板17和后字根模板18中；

剩余字模板产生器15，其用于提取前剩余字和后剩余字的特征，然后依笔画数目的顺序将这些特征存储在前剩余字模板19和后剩余字模板20中。

图14显示该常规识别系统的方框图。该识别系统包括：

预处理器21，其用于对原始笔迹进行：除去噪声信号、平滑化、平移校正、旋转校正、尺寸正规化以及提取想要的特征等处理；

筛选器22，其利用输入笔迹的部分特征来筛选出可能的模板：

前字根比较器23，其用于从输入的笔迹中，分离出可能的前字根部分，然后与筛选过的前字根模板做详细比较，以计算出彼此间的相似度，并记录相似度最高的10个前字根；

后字根比较器24，其用于从输入的笔迹中，分离出可能的后字根部分，然后与筛选过的后字根模板做详细比较，以计算出彼此间的相似度，记录相似度最高的10个后字根；

后剩余字比较器25，其用于把当前输入笔迹与后剩余字模板进行比较，其中后剩余字模板所对应的前字根须在前字根比较器23中进入前10位；然后合并前字根比较器23操作中所得的相似度和在当前阶段所得的相似度，得到当前输出文字的相似度；

前剩余字比较器26，其用于把输入笔迹与前剩余字模板进行比较，其中前剩余字模板所对应的后字根必须在后字根比较器24中进入前10位，然后合并后字根比较器24操作中所得的相似度与在当前阶段所得的相似度，得到当前输出文字的相似度；

独体字比较器27，其用于计算筛选过的独体字模板和输入的笔迹之间的相似度；

优胜者决定器28，其用于排列比较后的相似度，并保留前10个最大相似度的字作为识别结果。

上述中国台湾专利公报公告号第311221号发明《以前后字根为基础的手写中文字识别系统》有以下几个缺点：

1、在模板建立阶段和文字识别阶段仍需要多组的中文字笔迹数据(每组包含作为认识对象的5401字)；

2、必须预先建立大量模板，耗费大量时间。

考虑到上述样本匹配需存储大量文字笔迹样本数，造成存储空间和样本匹配时间的浪费，本发明的目的在于提供一种以字形为基础的在线手写识别装置，以降低匹配样本的存储空间和匹配时间。

为解决上述缺点，本发明提供一种具有用于暂存数据的缓冲区和输出部分的在线手写中文字识别装置，其特征在于包括：

基本字形特征存储部分，其中包括基于字形拆字的输入法中所定义的基本字根(即，基础字根)或相关字根(即，派生字根)的特征；

输入法参考部分，其基于常规根据字形拆字的输入法，其包括用于文字压缩码与序列码查找信息的输入法系统数据文件；

例外字描述部分，其用于记录例外字的特征，辅助后处理部分从候选字中决定出最后识别结果；

输入部分，其中包括常规在线文字书写装置的数字化输入板和笔；

预处理部分，其用于对输入的手写文字做正规化与细线化处理，并抽取文字识别所需的特征存储于缓冲区中；

字形拆解部分，其用于参照基本字形特征存储部分，根据预处理部分所抽取手写文字的特征来拆解文字，以找出可组成该手写文字的基本字形；

比较部分，其用于以字形拆解部分找出的基本字形与输入法参考部分的内容相比较，找出差异值在阈值以下的文字作为候选字；

后处理部分，其用于参照例外字描述部分的内容，根据手写文字的其余特征，从候选字中决定最后识别结果，然后把最后识别结果传送到输出部分输出。

由上述构成，本发明的在线手写中文字识别装置通过字形拆解的方法将手写字拆解，以基本字形组合表示，能够直接利用常规以字形拆字的输入法的文字编码与序列码查找表得到识别结果，可减少在线手写识别系统所需的匹配样本数，减少匹配的时间。

在下文参照附图对优选实施例的描述中，本发明的其他特点和优点将变得更加清楚。

图1是本发明的一个优选实施例的系统方框图。

图2是本发明优选实施例的预处理部分的处理流程图。

图3是本发明优选实施例中的字形拆解部分的处理流程图。

图4是本发明优选实施例中的比较部分的处理流程图。

图5是本发明优选实施例中的后处理部分的处理流程图。

图6A、6B、6C和6D是本发明优选实施例中的基本字形样本特征存储部分的结构示意图。

图7是本发明优选实施例中的输入法参考部分的结构示意图。

图8是本发明优选实施例中的例外字描述部分的结构示意图。

图9是本发明优选实施例中的拆解“抓”字所得的基本字形组。

图10是本发明优选实施例中的输入法字码与序列码的关系示意图。

图11是本发明优选实施例中的文字分离的五种组合。

图12是本发明优选实施例中的基本字形样本组所含的二十四个仓颉基本字根、七十四个派生字根，以及10个复合字根。

图13是现有实例的模板建立部分的方框图。

图14是现有实例的识别系统部分的流程图。

在本优选实施例中，以字形拆字的仓颉输入法为文字识别的基础，以仓颉输入法定义的基本字根、派生字根以及复合字根作为本优选实施例所指的基本字形样本组，如图12所示。依据中文字的结构和组字原理，仓颉输入法将中文字归纳分成二十四个仓颉基本字根，以及七十四个派生字根。然后，根据仓颉取码原则，将中文字拆成仓颉码，且最多为5个码，接着输入正确的仓颉码，即可得到正确的字。

图1是本发明的在线手写中文字识别装置的一种优选实施例的方框图。输入部分100，例如数字化输入板，是供使用者进行在线文字书写。预处理部分200是将使用者输入的手写字做正规化与细线化处理后，利用切字技术将每个文字分离为外内、上下、左右、多列或独体等五个组(如图11所示)，然后对文字做特征抽取，且存入缓冲区700中。抽取的特征包括：每笔画之间的相交关系、笔画位置、笔画起始和终点方向、各笔画所属层级(level)等。其中各笔画所属层级由该文字笔画书写顺序和所属独体来决定。缓冲区700是用来存储输入笔画的相关数据和特征。

字形拆解部分300通过把文字特征与基本字形特征存储部分350的内容相比较以拆解文字，获得每一笔画可组成的基本字形组。然后，根据取码规则挑出可形成该文字的基本字形组所属的基本字根代码。基本字形特征存储部分350用于存储所有基本字形的特征，其详细构造如图6A至6D所示。每个基本字形的数据包括笔画数、笔画特征，如方向、长度等，以及笔画与笔画间的相交关系、相似的基本字形代码等。

比较部分400负责把对应于拆解文字所得的基本字形所属基本字根代码的压缩码与输入法参考部分450的内容作比较，找出候选字的序列码。输入法参考部分450是包括文字压缩码和序列码查找数据的输入法系统数据文件，用来辅助比较部分400取得候选字的序列码。用于本发明的该部分内容在图7中示出。

后处理部分500参考例外字描述部分550，进一步从多个候选字中挑出最后识别的结果。例外字描述部分550是辅助后处理部分500从多个候选字中选出最后识别结果的参考部分。例外字描述部分550的结构如图8所示。每一序列码(代表一文字)包括总笔画数，以及以13为基底将例外字各字码组成笔画数压缩后的数据。

结合上述装置的构成，图2示出预处理部分200对输入的手写文字作预处理与特征抽取的流程。图3示出字形拆解部分300拆解输入文字并挑出所属的基本字根代码的流程。图4示出比较部分400比较输入文字所属字码的压缩码与输入法参考文件450的内容来找出候选字的流程。图5示出后处理部分500从候选字中决定输出文字的流程。

如图2所示，在步骤S201中，预处理部分200读入手写文字的点座标。然后，在步骤S202中，对文字做正规化和细线化处理。在步骤S203中，利用切字技术将文字分离成由外内、上下、左右、多列或独体的组成。在步骤S204中，抽取文字各笔划方向和长度特征，以及彼此相交关系特征。最后，在步骤S205中，将抽出的特征输出至缓冲区700中暂存。

如图3所示，在步骤S301中，根据笔画顺序从缓冲区700读取由预处理部分200所抽取的每一笔画特征。在步骤S302中，参考基本字形特征存储部分350，以把该输入笔画的特征与基本字形特征存储部分350内的各基本字形特征相比较，找出与此输入笔画相似性高的基本字形组。在步骤S303中，将所找到的这些基本字形的代码存入缓冲区700中该笔画的位置。然后，在步骤S304，该输入笔画和与其相交的以前笔画相结合，在步骤S305，参考基本字形特征存储部分350，把结合后的字形与基本字形特征存储部分350内的各基本字形特征做比较，找出笔画结合后可共同组成的基本字形。在步骤S306中，把找到的这些基本字形的代码存入缓冲区700中关于该当前笔画及与它相交笔画的相关信息所在位置。在步骤S307中，把该输入笔画和以前同一层级笔画相结合，在步骤S308，参考基本字形特征存储部分350，把结合后的字形与基本字形特征存储部分350内的各基本字形特征做比较，找出结合后的笔画共同可组成的基本字形。在步骤S309，把找到的这些基本字形的代码存入缓冲区700中该输入笔画及与它同一层级的以前笔画的相关信息所在位置。由于基本字形的最多笔画数为为十三划(“鬼”)，因此执行与以前笔画结合的步骤时，最多检查十二划。在步骤S310中，在所有笔画检查后，在步骤S311中从缓冲区700中各笔画可组成的基本字形的信息找出各笔画由最多笔画数组成的基本字形组。在所有笔画都找出其最多笔画数组成的基本字形后，在步骤S312中从这些由最多画数组成的基本字形中，根据取码规则找出用于比较的基本字形及其所属基本字根的代码。在步骤S313中，把最终找到的基本字形所属基本字根的代码存入缓冲区700中。

以下将说明本发明与现有技术相比所具有的突破点，例如，比较部分400进行比较的技术，可加速比较速度和节省数据存储空间。本发明起源于：同一中文系统可能使用不同的输入法。也有不同的存储格式。但是，最后结果都是读取相同的字型文件。为了使中文字型文件适于这些情况，就有一种称为序列码的值产生。在输入法中，利用压缩公式把文字的代码压缩。然后参考包括用于压缩码和序列码的查找数据的输入法系统参考文件，并计算(加上序列码的初值)，以查找与该压缩码对应的序列码。这些序列码表示存储于各字型文件中的文字的顺序。得到序列码后，则可在字型文件读取字型，如图10所示。另外，由于在一些以字形拆解的输入法中，有部分文字的字码组成不是唯一的。即不同的字具有相同的代码组。因此，本发明的在线手写中文字识别装置对这种况进行后处理。

图4描述比较部分400的比较操作的流程图。在步骤S401中，比较部分400从缓冲区700取得由字形拆解部分300输出的用于比较的基本字根代码。在步骤S402中，利用仓颉输入法中的压缩公式将基本字根代码压缩。然后，在步骤S403中，参照输入法参考部分450找出与该压缩码差值在阈值T以下的文字的序列码。在步骤S404中，判断是否只找到一个序列码。如果为“是”，则在步骤S405中，从字型文件中输出对应于该序列码的文字作为识别结果。如果不只找到一个文字的序列码，则把候选字的序列码暂存在缓冲区700中，用于随后由后处理部分500进行后处理操作。

参见图5，在步骤S501中，从缓冲区700输入形成候选字的基本字形组的笔画数特征。然后，在步骤S502中，后处理部分500首先利用以5为基底把构成该手写文字的各个基本字形的笔画数压缩。在步骤S503中，把候选字的总笔画数和笔画数压缩后的值与例外字描述部分550的内容比较，找出差值最小的候选字。在步骤S504中，在字型文件中将对应于该文字序列码的文字作为识别结果输出至输出部分600中。

在下文中以在线手写中文字“抓”为例，结合图3的字形拆解处理流程图、图4的文字比较处理流程图、以及图5的文字后处理流程图，来详细说明本发明在线手写中文字识别装置的基本操作。其中仍旧以仓颉输入法的基本字根、派生字根、取码规则、编码压缩方法和其他相关原则作为本实施例的背景。

在输入部分100上输入手写字“抓”后，执行步骤S202，由预处理部分200进行正规化与细线化处理。在步骤S203，利用切字技术将每个文字分离为由左右两独体所组成：“扌”与“爪”。在步骤S204抽取文字各笔划方向、长度特征与彼此相交关系特征。在步骤S205把这些特征存储到缓冲区700中。

接着，参见图3，在步骤S301中，从缓冲区700取得第一笔画“一”的特征。在步骤S302中，参考基本字形特征存储部分350(参见图6A至6D)，与笔画数为1的基本字形特征做比较，找到相似性最大的基本字形“一”。在步骤S303中，把基本字形“一”的代码(例如，13)存到缓冲区700中记录第一笔画“一”的数据的位置。由于这是第一笔画，并且之前没有其他已检查过的笔画，因此步骤S304-S309不执行。流程再次转到步骤S301从缓冲区700取得第二笔画“丨”的特征。在步骤S302，参考基本字形特征存储部分350中与笔画数为1的基本字形特征做比较，找到相似性最高的基本字形“丨”。在步骤S303，由于该基本字形是派生字根，则把基本字形“丨”的代码与基本字根代码(例如，27，12)存到缓冲区700中记录第二笔画“丨”的数据的位置。然后，在步骤S304，把该第二笔画与它相交的第一笔画(“一”)相结合。在步骤S305，再次参考基本字形特征存储部分350，把结合后的字形“十”与基本字形特征存储部分350内笔画数为2的基本字形比较，找出相似性最高的基本字形“十”。在步骤S306，把“十”的代码(例如，10)存到缓冲区700中记录第二笔画“丨”与第一笔画“一”的数据位置中。在步骤S307-S309，为结合此笔画与之前检查过的其它笔画，找出结合后的字形可构成的基本字形并记录在缓冲区700中。所有笔画依上述步骤所找到的基本字形列于图9。

在所有笔画检查完后，在步骤S311，从图9所列记录在缓冲区700里各笔画的基本字形中，找出各笔画由最多画数组成的基本字形，依笔画输入顺序为：”扌”(基本字根为手，总笔画数为3)、“扌”(手，3)、“扌”(手，3)、“厂”(竹，2)、“厂”(竹，2)、“丨”(中，1)、“\”(人，1)。在步骤S312中，由于“抓”可切为左右两独体，根据仓颉取码规则，“扌”是首先被取为文字的左部分。它属于基本字根“手”，基本字根代码为17。文字的右部分取三个码：“′”、“/”、“\”，其分别属于基本字根“竹”、“中”、“人”，基本字根代码分别为8、12、15。最后，在步骤S313，基本字根代码17、8、12、15被存入缓冲区700中。

在步骤S401，比较部分400从字形拆解部分300取得用于比较的代码。在步骤S402，利用仓颉输入法的压缩公式将基本字根代码压缩：压缩码＝17×27⁴+12×27³+15×27²+8×27+0。在步骤S403，通过用该压缩码查找输入法参考部分450并计算(加上序列码初值)，找出两个与此压缩码差值在阈值T以下的两个文字：“抓”和”掀”的序列码。在步骤S404，判断找到不只一个序列码，接着输出两个序列码到后处理部分500进行后处理操作。

在步骤S502，后处理部分500利用以13为基底压缩构成各基本字形的笔画数。该笔画数分别为3(手…“扌”)、2(竹…“厂”)、1(中…“丨”、1(人…“\”)。压缩后的值F＝3×13⁴+2×13³+1×13²+1×13+0。接着，在步骤S503，F值和手写字的总笔画数(7)与例外字描述部分550中“抓”和“掀”的F值和总笔画数作比较，其中“抓”的平均差值最小。最后，在步骤S504，在字型文件中把对应于“抓”的序列码的文字作为识别结果输出到输出部分600中。

用于上述实施例的仓颉输入法是本发明的一种环境。本发明不限于上述实施例。只要基于拆解字形的输入法可用作本发明的实施环境。输入法中的字根是被用作为本发明拆解文字时的基本字形。对于输入法中所用的取码规则和代码压缩公式，只要不改变字形拆解和比较操作的技术，可以适当变形以实施。

以仓颉输入法所包含的所有文字为可能的识别对象，当利用本发明的以仓颉基本字形为基础的在线手写识别装置时，分解手写字为基本字形的技术可使文字前三位识别率达92％以上。由于本发明使用现有仓颉码来体现字根之间的关系，不须存储大量用于识别的文字笔迹样本，从而可降低数据库空间。

尽管本发明已经结合被认为是最实际和优选的实施例进行了描述，但是应当知道本发明不限于该公开的实施例，而是覆盖包括在最广意义上的精神和范围内的各种方案，从而包括所有这种改变和等价方案。

Claims

1.一种具有暂存数据的缓冲区及输出部分的在线手写中文字识别装置，其特征为在于，所述装置包括：

基本字形特征存储部分，包括基于字形拆解的输入法所定义的基本字根或派生字根的形状特征；

输入法参考部分，基于常规根据字形拆字的输入法，其包括用于文字压缩码和序列码查找信息的输入法系统数据文件；

例外字描述部分，用于记录例外字的特征，以辅助后处理部分从候选字中决定出最后识别结果；

输入部分，包括常规在线文字手写设备的数字化输入板和笔；

预处理部分，用于对输入的手写文字做正规化与细线化处理，并抽取文字识别所需的特征存储于缓冲区；

字形拆解部分，用于参照基本字形特征存储部分，根据预处理部分所抽取手写文字的特征来拆解文字，以找出可形成该手写文字的基本字形；

比较部分，用于把字形拆解部分找出的基本字形与输入法参考部分的内容做比较，找出差异值在阈值以下的文字作为候选字；

后处理部分，用于参照例外字描述部分的内容，根据手写文字的其余特征，从候选字中决定最后识别结果，并把该最后识别结果送到输出部分输出。