CN104156706A

CN104156706A - 一种基于光学字符识别技术的中文字符识别方法

Info

Publication number: CN104156706A
Application number: CN201410396208.XA
Authority: CN
Inventors: 吴克河; 崔文超; 陈飞; 乔俊峰
Original assignee: JURONG RESEARCH CENTER NORTH CHINA ELECTRIC POWER UNIVERSITY
Current assignee: Beijing Huadian Tianyi Information Technology Co., Ltd.
Priority date: 2014-08-12
Filing date: 2014-08-12
Publication date: 2014-11-19

Abstract

本发明公开了一种基于光学字符识别技术的中文字符识别方法，对于输入的灰度文本图像，采用基于连通区域的层次结构切分方法得到切分结果，再利用的基于像素点分布特征的区域增长算法对图像二值化和去噪音得到待识别字，然后送入普通的单字识别器进行识别，得到候选字集，再通过相似字分类识别方法得到最终的识别结果。与现有技术相比，本发明能够有效的提高文字识别准确率和效率，使得文本信息可以高速地输入计算机，解决了低速的信息输入与高速信息处理之间的矛盾，并能够简化繁重的键盘录入工作。

Description

一种基于光学字符识别技术的中文字符识别方法

技术领域

本发明涉及一种文字识别方法，尤其是一种基于光学字符识别技术的中文字符识别方法，属于文字识别技术领域。

背景技术

利用光学字符识别技术的意义在于将图像中的字符提取到计算机中，变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

光学字符识别技术的概念是由德国科学家最先提出来的，然而最早对印刷体汉字识别进行研究的是IBM公司，1996年，他们采用模板匹配法识别了1000个印刷体汉字。20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。中国在光学字符识别技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年，我国提出“863”高新科技研究计划，汉字识别的研究进入一个实质性的阶段，清华大学的丁晓青教授和中科院分别开发研究，相继推出了中文光学字符识别产品，现为中国最领先汉字光学字符识别技术。早期的光学字符识别软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用光学字符识别软件。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了光学字符识别技术的进一步发展，使光学字符识别的识别正确率、识别速度满足了广大用户的要求。光学字符识别技术可以分为印刷体识别及手写体识别，本文研究的是汉字印刷体识别。

光学字符识别过程是：字符文稿的光信号通过扫描仪的电荷耦合器件CCD转换为电信号，再经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像，其图像上的字符可以是英文，可以是中文，也可以是阿拉伯数字等，如果图像中的字符页面不够端正、字迹不够清楚、色彩复杂、笔画间断等都会影响字符识别的正确率，因此如果要进行高效的文字识别必须在图像源方面进行研究，例如图像的分辨率以及图像的对比度亮度等都会左右文字识别的准确率和效率，提高文字识别的准确率同时保证识别效率才能真正地满足市场需要。

现有的大多数基于光学字符识别技术的中文识别方法均是直接对图像进行二值化、噪声去除、倾斜校正、版面分析、字符切割等预处理，然而在二值化、字符切割等环节存在过度过滤有用数据、字符切割不合理、灰度特征的提取不合理以及相似汉字识别率较低等缺陷，同时受到图像分辨率等影响，这样下来，现有的一些识别方法的识别率是非常低的，面对市场环境下的快速实时要求，显得力不从心。

因此要想提高文字识别准确率和效率来更好地满足市场需求，提出一种对中文字符识别的改进方法并实现是十分有必要的。

发明内容

发明目的：本发明的目的是提高对图像文件中的中文字符识别的准确率和效率来更好地满足市场需求。

技术方案：本发明提出了一种基于光学字符识别技术的中文字符识别方法，包括如下步骤：

（1）接收包含中文字符的灰度文本图像数据；

（2）根据图像的灰度值对图像进行分级，按照灰度级别和连通区域构造树状结构，并基于树状结构对图像进行区域切分，得到单字图像；

（3）采用基于像素点分布特征的区域增长算法对单字图像进行二值化，得到待识别字；

（4）对待识别字进行识别得到识别结果。

所述步骤（2）的具体步骤为：

（2.1）将图像的灰度值分为n级，其中2<n<256；

（2.2）根据灰度级别把整个图像分成n层的树状结构，树状结构中的每一个节点代表一个连通域，每一层对应的一个灰度级别；

（2.3）根据树状结构中连通域的数目随灰度级别的变化情况，在连通域的数目由减少变增加的转折点对应的灰度级别所在的层次上进行切分操作；

（2.4）根据平均字宽，通过投影分析法对多个字符形成的连通域进行切割。

其中步骤（2.2）中根据灰度级别把整个图像分成n层的树状结构的步骤包括：

（a）搜索所有的像素点，具有相同灰度级别Gi的邻接点构成连通域，并将该连通域的灰度级别设置为Gi，其中i=0，1,2，…,n-1；

（b）所有G0级灰度的连通域作为第0层的节点构成树结构的最底层；

（c）采用自下向上的方法依次构造树结构的第i层，其中i=1,2，…,n-2，在树的第i层，如果i-1层的节点所代表的连通域不和任何Gi级灰度的连通域相邻，那么直接将该节点复制，作为第i层的节点，复制节点是i-1层被复制节点的父节点；如果i-1层的节点所代表的连通域和Gi级灰度的连通域相邻，那么将这些相邻的灰度级别小于等于Gi的连通域合并成一个新的连通域，并将新连通域的灰度界别设置为Gi，作为第i层的节点，同时这个节点也是所有参与这个新连通域合并的i-1层节点的父节点；与i-1层的节点不相邻的Gi灰度的连通域则直接作为第i层的节点，该节点是叶节点；

（d）构造树结构的根节点，在根节点所有的像素点都属于同一个连通域，树结构收缩至唯一的根节点。

所述步骤（3）中采用基于像素点分布特征的区域增长算法对单字图像进行二值化的具体步骤包括：

（3.1）将图像中灰度值小于等于LT的点标记为前景点，灰度值大于等于HT的点标记为背景点，其中LT=T*r，HT=255-（255-T）*r，T为切分操作所在层次的最大灰度值，r是经验值，r=0.6；

（3.2）将具有前景区域局部极值特征的点且灰度小于阈值Tb的点选为种子原点并且标记为前景点，将具有背景区域局部极值特征的点且灰度大于阈值Tw的点选为种子原点并且标记为背景点，其中Tb大于T，Tw小于T；

（3.3）从种子原点开始，在它所属的区域中选取距离种子原点最小的所有像素点，并把它们标识为已识别的点，然后重新计算距离已识别点最近的点，这样迭代下去，直到找到所有的像素点，得到初步二值化结果；

（3.4）对图像中的孤立的笔画或者黑色区域，进行噪音去除处理。

所述步骤（4）的具体步骤包括：

（4.1）将待识别字通过单字识别器进行识别，得到候选字集，若只有一个候选字则将其作为识别结果，结束，否则至步骤4.2；

（4.2）根据相似字类别字典判定第一、第二候选字是否是一对相似字，如果是并且符合进入相似字再识别的条件，则按其差异的部分空间所属类别进入相应的类别识别器提取不同的类别特征进行识别得到识别结果；若第一、第二候选字不是相似字或者不符合进入相似字再识别的条件，则将第一候选字作为识别结果。

有益效果：与现有技术相比，本发明提出的方法实现了对不同质量的图片进行文字识别的识别正确率和识别效率的提高，它的研究对模式识别、图像分析的进一步研究有很大的意义，使得文本信息可以高速地输入计算机，解决了低速的信息输入与高速信息处理之间的矛盾，并能够简化繁重的键盘录入工作，从而提高整个计算机系统的效率，在各行各业以及大部分人的学习工作中都有重要的意义。

附图说明

图1为本发明所述的文字识别方法的整体流程示意图；

图2为本发明所述的分级层次树状结构示意图；

图3为本发明所述的相似字识别流程示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

为了提高文字识别准确率，首先要选择较好的图像：光学字符识别技术处理的目标物必须通过光学仪器，例如扫描仪、传真机等其他器材，将图像转入计算机，在扫描过程中要选择合适的分辨率，分辨率的选择不能过高也不能过低，通过实际测试经验表明：一般来说，扫描仪提供的信息足够多，识别时比较容易得出识别结果，并不是分辨率设置的越高识别率就越高，根据文字的大小确定合适的分辨率，如果太高会导致识别过程中耗费过多时间，影响扫描效率。下面是通过反复识别，比较识别率，得到的结果，提供参考：

一、二、三号字体，推荐用200dpi；

四、小四、五号字体，推荐用300dpi；

小五、六号字的字体，推荐用400dpi；

小六、七、八号字体，推荐用600dpi。

同时，选择恰当的对比度和亮度值也能提高文字识别准确率，经过扫描仪或者其他摄影器材扫描过后的图像中的汉字的偏旁、部首的每一笔每一划尽可能地细但又不能断开。如果文字的笔画线条粗度不均，而且很黑或者笔画之间分割不清，中间有黑色斑点时，这说明对比度和亮度值太小了，需要调得更大一些；如果文字的笔画凹凸不平，笔画线条有间断或者笔画有残缺，说明对比度和亮度值太大了，需要调小一些。如果不对对比度和亮度值进行调整，例如文字的笔画残缺或者断裂就可能导致一个字被分成两个字来识别或者只识别了一个偏旁部首，再例如线条连在一起或者有黑斑，在将文字进行模板比对时，会进行错误比对，这些情况在识别时是很常见的，这样会导致识别正确率大大降低。

获取到合适的分辨率、对比度和亮度的文本图像文件后，在读取图像文件，把图像中的像素点提取出来以获得文字的笔画信息，并和模板进行比对时，应当尽可能地提高读取像素信息的速度，以加快识别过程。

如图1所示，本发明提出了一种基于光学字符识别技术的提高文字识别准确率和效率的方法, 主要思路为：对于输入的灰度文本图像，采用基于连通区域的层次结构切分方法得到切分结果，再利用的基于像素点分布特征的区域增长算法对单字图像二值化，然后送入普通的单字识别器进行识别，得到候选字集，再经过相似字处理后得到最终的识别结果，包括如下步骤：

步骤1：接收包含中文字符的灰度文本图像数据。为了更好地识别，图像需要具有合适的分辨率、对比度和亮度，图像中的汉字的偏旁、部首的每一笔每一划尽可能地细但又不能断开。

步骤2：根据图像的灰度值对图像进行分级，按照灰度级别和连通区域构造树状结构，并基于树状结构对图像进行区域切分，得到单字图像。

根据图像上的像素点分布情况，将图像分成多个区域，不同于以往的自顶向下，由大到小的切割方法，本发明采用自下向上，由小到大的方法来分割图像成多个区域。具体的步骤如下：

①跟据灰度进行分级：将源图像的灰度值进行分级，例如每级灰度值差别在20左右，由于二值化会不可避免地造成信息丢失，但原始的灰度图像中包含太多的无用信息，因此可以在保证算法有效性的情况下适当减少计算，忽略部分冗余信息。256级灰度是太高了，计算量会非常地大而且没有必要，因此对灰度进行分级后，根据实际情况可以采用远小于256的n级（如n=20）来进行处理。

②层次划分：根据分级后的图像信息，把整个图像分成多层次的树状结构。树状结构的每一层代表某一个灰度下的细节图像，不同层次代表不同的像素粒度和灰度级别。整个树状结构的构造过程如下：

（a）搜索所有的像素点，具有相同灰度级别Gi（i=0，1,2，…,n-1）的邻接点构成连通域，并将该连通域的灰度级别设置为Gi；

（c）在树的第i层（i=1,2，…,n-2），如果i-1层的节点所代表的连通域不和任何Gi级灰度的连通域相邻，那么直接将该节点复制，作为第i层的节点，用圆形节点表示（非复制节点都是三角形节点），圆形的节点即复制节点是i-1层被复制节点的父节点。如果i-1层的节点所代表的连通域和Gi级灰度的连通域相邻，那么将这些相邻的灰度级别小于等于Gi的连通域合并成一个新的连通域，并将新连通域的灰度界别设置为Gi，作为第i层的节点，同时这个节点也是所有参与这个新连通域合并的i-1层节点的父节点。与i-1层的节点不相邻的Gi灰度的连通域则直接作为第i层的节点，该节点是叶节点。

（d）当i=n-1时，所有的像素点都属于同一个连通域，树结构收缩至唯一的根节点。

按照以上步骤生成的树状结构如图2所示，整个树的构造过程是由底向上的，即由最初的级别最低的连通域开始，不断囊括进灰度级别更高的连通域。整个树结构实际上记录了随着灰度值选取范围的扩大，连通域的增长与合并的过程，树结构中的每一个节点都代表一个连通域，每一层所对应的灰度级别称为该层的层次级别。

③对层次进行主次划分：随着层次灰度级别的逐渐增加，连通域的数目会先减少再增加，这是由文本图像的特点导致的，由减少到增加的转折点处对应的层次中的连通域一般为完整的单个字符的表示，于是选择这个层次为主层次，在主层次上进行切分操作。如果灰度差选择太大，相邻级别间的灰度跨度太大，不容易发现主层次级别，如果太小，波谷太多，也不容易找到主层次级别，经过反复试验，一般选择20为灰度划分阈值。

④切分：汉字由一笔一划构成的，每一笔每一划都是由一些连通域内的像素点构成的，方正的汉字的连通域是有特征的，字符间笔画有粘连时，多个字符形成一个连通域，需要根据平均字宽，通过投影分析法进行切割，得到切分的结果。

步骤3：采用基于像素点分布特征的区域增长算法对每个单字图像进行二值化、去噪音处理，获得字符结构信息，即待识别字。

分别处理各个单字图像区域内的像素点，提取出有用信息，根据像素点的分部特征选择种子原点，从种子原点出发采用基于像素点分布特征的区域增长算法，逐渐向邻近像素点前进并读取，直至处理完所有的像素点。基于像素点分布特征的区域增长算法遍历像素点获取字符结构信息的步骤如下：

①标识确定点：图像中存在一部分相对比较黑或者相对比较白的点很容易被认为是前景或者是背景点，这部分点被称为确定点，在初始化阶段需要先将确定点标识出来，以减少计算耗时。假定T是主层次级别即切分操作所在的层次所对应的最大灰度值，r是经验值，r=0.6，令LT=T*r，HT=255-（255-T）*r，则灰度值小于等于LT的点是相对较黑的点，标记为前景点，灰度值大于等于HT的点是相对较白的点，标记为背景点。

②选择种子原点：种子原点的选择是非常关键的一步，在很大程度上决定了最终的结果。通过对图像特征的分析，具有局部极值特征的点恰好落在前景或者背景区域的典型位置，可以从总体上勾勒出文字的结构情况。具有前景或背景区域局部极值特征的点称为peak点和pit点，如果像素点P是peak点，并且P的灰度小于阈值Tb（Tb一般选择一个比T略大的值，如比T大20），那么P就是种子原点，并且被标识为前景点；如果像素点P是pit点，并且P的灰度大于阈值Tw（Tw一般选择一个比T略小的值，如比T小20），那么P就是种子点，并且被标记为背景点。

③区域增长：经过前两个步骤，图像中仍然有大量的不确定点没有给出标识，主要是区域内的背景和前景像素点依然存在，这些都会加大计算量，区域增长是一个迭代的过程，选择从某个种子原点开始，在它所属的区域开始遍历像素点，提取有用的字符结构信息，首先取出本区域中距离种子原点最小的所有像素点，并把它们标识为已识别的点，然后重新计算距离已识别点最近的点，这样迭代下去，直到找到所有的像素点，这一步就得到了一个初步的二值化结果。

④去除噪音处理：经过上一步的区域增长，得到了一个初步的二值结果，但是仍有一些比较特殊的情况需要处理。这是因为在选择种子原点时选择错误导致的，这是难免的，导致噪音和气泡的出现，而它们又与孤立笔画和有效背景区域非常相似，因此需要区分辨别、去除噪音，保留有效的字符结构信息。针对仍然存在的一些孤立的笔画或者黑色区域，首先算出平均笔画宽度，如果这些孤立的笔画或者黑色区域的面积小于平均笔画宽度的平方，则认为它是噪音，如果小于两倍的平均笔画宽度的平方，且从它们的中心像素点向八个方向出发到边界的长度均大于平均笔画的宽度，则认为它也是噪音，将噪音去除。

步骤4：将待识别字通过单字识别器进行识别，得到候选字集，再经过相似字分类识别处理后得到最终的识别结果。采用分类识别方法提高相似字的识别正确率，相似字的笔画以及结构是非常接近的，误识率非常高，必须找到对应的方法来解决这一问题，通过研究，将相似字按结构特点分成若干种类型，目前归纳出四个基本类型：（1）笔画数不同，例如口/日，白/自等；（2）笔画连接不同,例如已/己，儿/几等；（3）相差一个笔画，例如本/木，厂/广等；（4）笔画样式不同：例如，干/千，井/并等，也有一些特殊的相似字无法归类到这四种类别中，比如人/入，就把它们归为特殊类别，根据上述几种情况建立类别识别器和特殊类别识别器。识别时，发现相似字，就把它对应到某一类中，再提取相应的信息比对字符结构，最终得出识别结果，该方法提高了相似字的识别率。

如图3所示是相似字识别流程图。首先将待识别的字输入，由普通的识别器进行识别，得到候选字集；根据相似字类别字典判定第一和第二候选字是否是一对相似字，如果是并且符合进入相似字再识别的条件（即属于以上四种类别的相似字或者特殊类别相似字），按其差异的部分空间所属类别，进入相应的类别识别器，提取不同的类别特征进行识别得到最终的识别结果。其他情况则以第一候选字为识别结果。

Claims

1.一种基于光学字符识别技术的中文字符识别方法，其特征在于包括以下步骤：

（1）接收包含中文字符的灰度文本图像数据；

（4）对待识别字进行识别得到识别结果。

2.根据权利要求1所述的基于光学字符识别技术的中文字符识别方法，其特征在于：

所述步骤（2）根据图像的灰度值对图像进行分级，按照灰度级别和连通区域构造树状结构，并基于树状结构对图像进行区域切分，得到单字图像的具体步骤为：

（2.1）将图像的灰度值分为n级，其中2<n<256；

3.根据权利要求2所述的基于光学字符识别技术的中文字符识别方法，其特征在于：

所述步骤（2.2）中根据灰度级别把整个图像分成n层的树状结构的步骤包括：

4.根据权利要求2所述的基于光学字符识别技术的中文字符识别方法，其特征在于：步骤（2.1）中将图像的灰度值分为20级。

5.根据权利要求1所述的基于光学字符识别技术的中文字符识别方法，其特征在于：

6.根据权利要求1所述的基于光学字符识别技术的中文字符识别方法，其特征在于：

所述步骤（4）中对待识别字进行识别得到识别结果的具体步骤包括：