CN1059415A

CN1059415A - 页式联想汉字识别系统

Info

Publication number: CN1059415A
Application number: CN 90107382
Authority: CN
Inventors: 郭宝兰; 张彩录; 卫颖丽; 张宇桐
Original assignee: Hebei University
Current assignee: Hebei University
Priority date: 1990-08-29
Filing date: 1990-08-29
Publication date: 1992-03-11

Abstract

本发明属于采用光学方法的汉字识别技术领域是一种页式联想汉字识别系统。该系统判识汉字的应用软件以“双信源模型字典”为依据编制而成，并与特定的“计算机系统软件”组成本发明的软件部份，其硬件设备有配接汉卡的计算机主机和扫描仪、显示器、打印机等。该系统以实际文本中相邻汉字中的概率约束关系作为汉字的联想识别并辅之以汉字的特征判识。具有汉字识别率高、识别速度快、软件容量小和易于引入现有汉字识别系统等显著技术进步。

Description

本发明属于采用光学方法的汉字识别输入技术领域，是一种页式联想汉字识别系统。

目前，国内外诸多的汉字识别系统，无论是对单体、两种以上印刷体混排或联机手写汉字等文本进行识别，均着重于将文本中的字词、词和短语做为字符串图形，依据其笔段、笔划、字根等字形特征对各个汉字做孤立的配比、判识，而较少见利用文本中相邻汉字的相关性为主的汉字识别系统。如：清华大学的“印刷汉字识别装置”（CN85100085A），辽宁王雅延的“印刷汉字识别方法”（CN85105586A）和各种类型的“图文扫描仪”等。由于这些识别系统的汉字文本信源为无记忆的“单信原模型结构”，故其相应的“识别字典”的结构适应性差，容量大，这就限制了各识别系统在实际应用中的判识性能，致使其识别程序内存容量较大，识别率难以提高，识别速度一般仅在5字/秒以下。

本发明的目的在于提供一种以“双信源识别字典”结构为基础的联想汉字识别系统，该系统由于充分利用了实际文本中汉字间的概率约束关系作为汉字联想判识，使其具有机动灵活、容量小等显著特点，并易于引入现有的汉字识别系统，以提高汉字识别率、识别速度和减小应用软件的容量。

页式联想汉字识别系统的整体结构是：“以双信源模字典”为依据编制判识汉字的应用软件，并与特定的“计算机系统软件”组成该系统的软件部分;其硬件设备为配接有汉卡的计算机主机和扫描仪、显示器、打印机等。

该系统的应用软件结构是：

“双信源模型字典”以“联想识别树”、“特征识别树”为主构成，其中的“联想识别树”是对应单纯“MARKOV信源模型”的树状数据结构，即：对文本中某汉字的判识只依赖于其前或其后的一个汉字，分为“前导联想”和“后续联想”，以进行引导识别和相近字的识别;“特征识别树”是用于引导对汉字进行特征识别的树状数据结构，在该结构中使用了汉字的纵向、横向分块特征，长笔道分布特征，边框特征、二次白特征等;在该系统中以经过“联想识别处理”和“特征识别处理”做为汉字的一、二次背景特征对汉字进行最后判识;该系统以C语言编制识别程序，还采用“主菜单”提示方式完成整页文本的扫描输入或通过予扫描直接指定输入区域，其扫描文本的最大尺寸为A4页面，并可进行版面分析和行字切分等输入功能。

其硬件设备可以是：配接中科院计算所Ⅲ型汉卡的CHIPS-386主机，CC-1435型彩色显示器，东芝3070型打印机和理光IS-30扫描仪，其“计算机系统软件”为DOS3、3。

该系统识别的字体为6号以上的宋体印刷汉字，识别字域是以国际一级字为基础的开放式识别字域，字数大于3755。

本发明的附图有：

图1是：相关识别树示意图。

图2是汉字联想识别的程序框图。

图3是：识别系统的应用软件结构框图。

图4是：识别系统的硬件结构框图。

结合附图对本发明的汉字识别功能说明如下：

该系统的基本工作流程如图3所示，虚线框内为“双信源模字典结构”。

1、归一化及特征提取：

首先由扫描输入部分完成整页文本的输入，并通过予扫描确定输入区域。“版面分析和行切分”部分完成附属域的排除，实现文本块的“行切分”。

在对文本块完成行切分后，进行字切分处理。在字切分同时，区别出标点符号并将其送至标点识别部分。

归一化及特征提取部分是对汉字进展归一化处理并同时完成对汉字的特征提取。经过归一化和特征提取的汉字，根据标记，确定是否属联想汉字范围。

2、联想判别处理：

对属于联想范围的汉字送入联想判识处理，联想判识处理过程主要是循环联想识别树的路径进行的。联想识别树的“字典”结构如图1所示，在联想识别树中，“树根”对应联想功能始点，每个引导字在树上引出一个“枝”，一个终端联想字对应树上一个“叶子”，联想识别的处理程序如图2所示。在该页式联想汉字识别系统中，目前，只设计成单纯联想功能，即对某汉字的联想判识只取决于其前或其后的一个汉字进行前导联想和后续联想。其中，前导联想用于引导识别，而对相近字，则既使用前导联想，也使用后续联想。

3、特征判识处理：

对于本文中每段的第一个字，一句话的开头字或在一句话中某些与前、后字的约束关系不很强的汉字，也就是说，当一个字的联想判识超出了单纯一重马尔科夫信息源系统，而需要多重马尔科夫信息源处理系统才能准确判断时，如“使”与“便”两个相近字在文本中可以有“可以使”和“以便”两种可能。

以上情况则只有根据汉字的特征进行判识处理，或其在文本中出的概率去判识。在对文本中必须靠文字特征判识的汉字，则送入特征识别处理，其识别过程循特征识别树进行，本系统使用的特征识别树是以“树根”对应判识的特征，不同特征或不同特征值在树上引出不同的“枝”。一个字对应树上一个“叶子”，所使用的文字特征如前述。

4、依据汉字的一、二次背景特征对汉字作最后的判识：

在对文本中相关汉字进行引导识别并与汉字特征识别相匹配后，依据共同的汉字判识特征，通过相应字指针引导，完成对文本中汉字的最后判识。

图4是本系统所使用的硬件结构简图，其中：主机CHIP-386的主频为16MC，内存为640KBYTE，扩展内存为1MBYTE，，扫描仪的最高分辩率为300点/英寸。

该系统对应“双信源模型字典”应用软件的容量小于256KBYTE，识别程序总容量（包括输入、版面分析、行字切分、识别等）小于40KBYTE。

本发明的实质性特点的所取得的显著步是：

1、学习扩展功能：根据信息的观点，语言可以用马尔科夫信源来近似，即当状态经过多次迁移之后，在状态集合上的概率分布与初始状态的概率分布无关，故在其状态集合中存在着唯一的概率分布，这唯一的状态分布称为定常分布，这就从理论上保证了只要经过长时间的使用观测，进行大量的学习就可以使该系统的识别结果逐步接近到只受语言逻辑关系的约束，而与具体的识别特征和识别算法无关。这实质上是给“联想识别树”“增枝”、“增叶”的扩展过程。使所包含的汉字不仅能扩展至一级汉字之外，而且也可将二级以外的汉字追加进识别系统之中。

2、“双信源模型字典结构”具有广泛的适应性：由于该字典的联想识别树结构对文本中的汉字引导进行相关识别，而其中的特征识别树结构又对汉字引导进行特征识别，二者相互匹配，依据共同的汉字判识特征对汉字做最后的判识，因此只改变现有字典中与识别机制有关的部分，即把联想的识别树和特征识别树中相应字指针改成新的相应字指针值，便可更新汉字识别特征，这样，就可将此字典引入任何汉字识别系统中。

3、本发明可以提高汉字识别的各项指标：由于该系统以实文本汉字作为识别对象，其“联想识别树结构”充分利用了文本中相邻汉字间的约束关系，使系统在汉字判识过程中，大大减小了进行判识所需的汉字特征信息量，增强了识别的肯定性。这既可使识别系统应用软件总容量减小了17.8%-95.31%，又能使汉字识别率提高3-5%。在16M主频和使用C语言编制识别程序的条件下，其识别速度与其他常规识别系统相比可提高到6-8字/秒。若采用汇编语言并进一步优化程序，则识别率还能进一步提高。

Claims

1、页式联想汉字识别系统由计算机、扫描仪等硬件设备和相应的软件构成，其特征在于利用实际文本中相邻汉字中的相关性，配合汉字的结构特征，以“双信源模型字典”为依据编制判识汉字的应用软件，并与特定的“计算机系统软件”组成该系统的软件部分；其硬件设备为配接有汉卡的计算机主机和扫描仪、显示器、打印机等。

2、根据权利要求1所述的汉字识别系统，其特征在于“双信源模型字典”以“联想识别树”、“特征识别树”为主构成，其中的“联想识别树”是对应单纯“MARKOV信源模型”的树状数据结构，即：对文本中某汉字的判识只依赖于其前或其后的一个汉字，分为“前导联想”和“后续联想”以进行引导识别和相近字的识别;“特征识别树”是用于引导对汉字进行特征识别的树状数据结构，在该结构中使用了汉字的纵向、横向分块特征，长笔道分布特征，边框特征，二次白特征特;在该系统中以经过“联想识别处理”和“特征识别处理”做为汉字的一二次处理背景特征对汉字进行最后判识;该系统以C语言编制识别程序，还采用“主菜单”提示方式完成整页本文的扫描输入或通过予扫描直接指定输入区域，其扫描本文最大尺寸为A4页，并可进行版面分析和行字切分等输入功能。

3、根据权利要求1或2所述的汉字识别系统，其特征是该系统的各硬件设备分别是：配接中科院计算机所Ⅲ型汉卡的CHIPS-386主机，CC-1435型彩色显示器，东芝3070型打字机和理光IS-30扫描仪，其“计算机系统软件”为“DOS3、3”。

4、根据权利要求2或3所述的汉字识别系统，其特征是识别的字体为6号以上的宋体印刷汉字，识别字域是以国际一级字为基础的开放式识别字域，字数大于3755。