CN106022393A

CN106022393A - 一种基于笔划编码的印刷体汉字识别方法

Info

Publication number: CN106022393A
Application number: CN201610352919.6A
Authority: CN
Inventors: 尤新革; 李政; 陈鹏旭
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2016-10-12
Anticipated expiration: 2036-05-25
Also published as: CN106022393B

Abstract

本发明公开了一种基于笔划编码的印刷体汉字识别方法，包括如下步骤：(1)根据汉字笔划对汉字进行编码；根据编码结果建立笔划编码数据库；(2)提取汉字库中各字符图像的LBP特征；(3)使用svm分类器学习汉字的编码，以获得学习器；(4)使用所述学习器对待识别汉字的字符图像进行预判，获取笔划编码；(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配，匹配成功的笔划编码所对应的汉字即为识别结果；本发明公开的这种印刷体汉字识别方法，基于笔划编码进行汉字识别，使用特征学习的方法空间映射预判，笔划编码特征向量只由25位二进制编码表示，具有识别速度快，识别精度高的特点。

Description

一种基于笔划编码的印刷体汉字识别方法

技术领域

本发明属于印刷体汉字识别技术领域，更具体地，涉及一种基于笔划编码的印刷体汉字识别方法。

背景技术

现有技术的印刷体汉字识别多基于均匀网格特征、弹性网格方向分解特征、梯度特征，LBP特征进行分析识别。其中，基于均匀网格特征的方法是以网格为单位进行的，个别像素差异不会对结果有很大的影响，该方法识别速度快，简单易行，但是对图像的质量要求很高，不易满足。而弹性网格方向分解特征法对不同的字体之间，笔划宽度，大小不固定的情况有着比较好的适应能力，但是该方法增加了对字符划分弹性网格的步骤，从而增加了耗时；基于梯度特征的方法是基于灰度图像上提取的，可以避免信息的损失，获得较高的识别率，但是需要通过sobel算子检测边缘，耗时不能满足实时需求；LBP特征算法简单，识别速度快，能够满足实时性要求，但是其特征不能良好的表示汉字字符，导致识别精度不高。

目前，印刷体汉字识别技术的难点在于：其一，图像印刷质量较低、图像倾斜、以及字符粘连断裂等干扰都对特征提取造成了一定的影响，导致最后汉字识别率不高；其次，汉字的字符集非常庞大，常用的简体汉字集合大约为7000个，还不包括其他的大量生僻字的情况，大量的汉字使得一些简单的特征无法唯一的表示所有的汉字；这些特殊性都给汉字识别带来了较大的困难。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于笔划编码的印刷体汉字识别方法，其目的在于解决现有技术识别精度不高、实时性较差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于笔划编码的印刷体汉字识别方法，包括如下步骤：

(1)根据汉字笔划对汉字进行编码；根据编码结果建立笔划编码数据库；

(2)提取汉字库中各字符图像的LBP特征；

(3)使用svm分类器学习汉字的编码，以获得学习器；

(4)使用学习器对待识别汉字的字符图像进行预判，获取笔划编码；

(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配，匹配成功的笔划编码所对应的汉字即为识别结果。

优选地，上述基于笔划编码的印刷体汉字识别方法，步骤(1)中，根据汉字笔划，为每个汉字生成一个唯一对应的25位二进制编码。

优选地，上述基于笔划编码的印刷体汉字识别方法，根据汉字笔划对汉字进行编码的方法，具体如下：

(1.1)判断汉字是否包含横竖撇捺折这五个笔划，若是，则将对应笔划的编码位标记为1；若否，则将对应笔划的编码位标记为0；由此生成二进制编码的第0-4位的编码；

(1.2)将汉字图像区域均匀划分为2*2的区域；并按照从左到右，从上到下的顺序，依次判断各区域是否包含有横竖撇捺折这五个笔划；

若是，则将对应笔划的编码位标记为1；若否，则将对应笔划的编码位标记为0；获得各区域的5位编码；

按照上述各区域在汉字图像里从左到右，从上到下的顺序，将上述各区域的5位编码，依次对应到二进制编码的第5-9位、第10-14位、第15-19位、第20-24位；并与所述第0-4位二进制编码一起按照比特位顺序生成25位二进制编码；

这个步骤，将汉字图像划分为2*2的区域，对笔划编码加上了汉字的空间分布信息，提高了对于汉字的分辨能力。

优选地，上述基于笔划编码的印刷体汉字识别方法，其步骤(2)中对字符图像提取LBP特征向量的过程，包括如下子步骤：

(2.1)对字符图像进行灰度化处理；

(2.2)对灰度化处理后的字符图像进行图像分块，均匀划分为16*16个图像块；

(2.3)获取灰度化处理后的字符图像中各像素点的LBP特征值；

(2.4)根据各图像块内各像素的LBP特征值，获取LBP特征值直方图；

对直方图进行归一化处理，将所有256种LBP值均等量化为32个等级，根据LBP特征值在32个量级中出现的频率，获取各图像块的32维的LBP特征向量；其中，LBP值由8位二进制组成，共有256种不同的值；

(2.5)按照图像块在字符图像里从左到右，从上到下的顺序，依次将各图像块的LBP特征向量拼接起来，由此获得字符图像的16*16*32维的LBP特征向量。

优选地，上述基于笔划编码的印刷体汉字识别方法，获取字符图像中各像素点的LBP特征值方法，包括如下子步骤：

(2.3.1)在3*3的窗口内，以窗口中心像素点的灰度值为阈值，与相邻的8个像素的灰度值依次进行比较；若周围像素点的灰度值大于中心像素点灰度值，则将该像素点的位置标记为1，否则标记为0；

L B P (x_{c}, y_{c}) = Σ_{p = 0}^{P - 1} 2^{p} s (i_{p} - i_{c})

其中，(x_c，y_c)是指3x3邻域的中心元素，它的像素值为i_c，i_p是指邻域内其他像素的值；

符号函数

(2.3.2)对3*3邻域内的8个点进行比较，由此生成8位二进制数；将该8位二进制数转换为十进制；该十进制数即为该窗口中心像素点的LBP特征值，采用该LBP特征值来反映对应区域的纹理信息。

优选地，上述基于笔划编码的印刷体汉字识别方法，其步骤(3)中使用svm分类器学习步骤(1)中获得的汉字的编码，以获得学习器，具体为：

将步骤(2)获得的LBP特征向量，依次输入到25个svm分类器中，与汉字库中对应的笔划编码进行训练学习；使得每一位笔划编码对应的svm分类器形成对应的规则，可判断LBP特征向量对应的笔划编码位是0还是1，获得学习器。

优选地，上述基于笔划编码的印刷体汉字识别方法，其步骤(4)使用学习器对待识别汉字的字符图像进行预判，获取笔划编码的方法，具体包括如下子步骤；

(4.1)提取待识别汉字的字符图像的LBP特征向量；

(4.2)将上述LBP特征向量输入到学习器中，预判出该LBP特征向量对应的25位笔划编码；这串笔划编码即为待识别汉字的字符图像所对应的笔划编码。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明所提供的基于笔划编码的印刷体汉字识别方法，其步骤(3)中使用特征学习的方法训练获得学习器，步骤(4)中使用学习器进行空间映射预判获取字符图像的笔划编码，步骤(5)中基于匹配的思想，将待识别字符的笔划编码与汉字库中字符的笔划编码进行匹配；

对于拟搜索的汉字文本字符，可获得对应的笔划编码；然后将拟搜索的文本块图像进行字符切分，获得单个字符的图像，依次进行编号，获取每个字符图像的笔划编码，将拟搜索的字的笔划编码与文本块图像中字的笔划编码进行对比，匹配成功即为搜索结果；实现了以字搜图；

相比较而言，现有技术中的印刷体汉字识别方法是先进行简单的特征提取，然后进行训练分类，特征提取时的处理对象都是image图像，而无法获取一个txt文本字符的特征，因此无法进行后续的训练分类，进而无法实现以字搜图；

(2)本发明所提供的基于笔划编码的印刷体汉字识别方法，采用笔划特征，对汉字图像区域进行均匀划分，加入这种空间划分，使得每个汉字对应唯一的笔划编码；由于笔划特征本身就具有比其他统计特征更强的汉字表征能力；就加上空间划分之后，笔划编码特征加上了汉字的空间分布信息，其区分汉字的能力进一步增强，极大的提高了识别精度；

(3)本发明所提供的基于笔划编码的印刷体汉字识别方法，其笔划编码特征向量每一位都采用0或者1表示，而现有的特征算法，特征向量是采用浮点数表示的，而计算机处理0或1的布尔值类型速度远远快于处理浮点数的速度，因此本发明所提供的这种基于笔划编码的印刷体汉字识别方法，在识别过程中的耗时更短，极大的提高了识别的实时性。

附图说明

图1是本发明实施例的识别方法对应的流程图；

图2是本发明实施例的汉字编码示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供的一种基于笔划编码的印刷体汉字识别方法，其流程如图1所示，包括如下步骤：

(1)根据汉字笔划是否包含横竖撇捺折这五个笔划，对汉字进行二进制编码；将汉字图像区域均匀划分为2*2的区域；根据各区域是否包含有横竖撇捺折这五个笔划，对各区域进行编码，根据汉字整体的笔划编码，以及各子区域的编码，生成汉字对应的25位二进制编码；根据编码结果建立笔划编码数据库。

(2)提取汉字库中各字符图像的LBP特征；该步骤包括如下子步骤：

(2.1)对字符图像进行灰度化处理；

(2.3)获取灰度化处理后的字符图像中各像素点的LBP特征值；

(3)将步骤(2)获得的LBP特征向量，依次输入到25个svm分类器中，与汉字库中对应的笔划编码进行训练学习；使得每一位笔划编码对应的svm分类器形成对应的规则，可判断LBP特征向量对应的笔划编码位是0还是1，获得学习器。

(4)使用学习器对待识别汉字的字符图像进行预判，获取笔划编码，该步骤包括如下子步骤；

(4.1)提取待识别汉字的字符图像的LBP特征向量；

实施例中，对汉字“天”进行编码的细节如图2所示的，先判断整个天字是否包含横竖撇捺折五个基本笔划，若是，则将对应笔划的编码设为1，若否，则将对应笔划的编码设为0，由此，对“天”字整体进行编码后获得第0-4位笔划编码为10110；

然后将“天”字均匀划分为2*2的区域，根据各区域是否包含横竖撇捺折五个笔划，对各区域单独进行编码；并按照各区域从左到右，从上到下的顺序，将四个区域对应的笔划依次编码为：11000,10010,00100,00010；与上述汉字整体图像的笔划编码一起，由此获得“天”字对应的25位编码为“1011011000100100010000010”。

实施例中，采用笔划特征，对汉字图像区域进行均匀划分，加入这种空间划分，使得每个汉字对应唯一的笔划编码；由于笔划特征本身就具有比其他统计特征更强的汉字表征能力；加上空间划分之后，笔划编码特征加上了汉字的空间分布信息，其区分汉字的能力进一步增强，极大的提高了识别精度；而且笔划编码特征向量每一位都采用0或者1表示，与现有的特征算法的特征向量采用浮点数表示的方法相比，计算机处理0或1的布尔值类型速度远远快于处理浮点数的速度，因此这种基于笔划编码的印刷体汉字识别方法，可极大的降低识别耗时，提高识别的实时性。

将实施例提供的这种汉字识别方法应用于身份证识别系统，具体过程如下：

(1)采集获取统一的身份证图像；

(2)对上述身份证图像进行预处理，包括对身份证图像进行灰度化，版块分割，二值化；

采用加权平均法对图像进行灰度化，以保留较多的高频信息；由于身份证是一种具有规范格式的证件，个人信息总体布局是统一的，且各自有独立的含义，因此可将其划分为多个区域，以减少冗余信息或噪声对二值化的干扰，提高二值化的效果；身份证图像明显的被分为背景，底纹与字符三个部分，这三个部分之间的灰度值差距明显，因此采用二值化采用直方图谷点门限法可以得到一个较好的二值化效果；

(3)字符分割：采用投影法对字块进行行初次切分，然后使用改进的投影算法对初次划分获得的每一行字块进行字切分；

(4)字符识别:依次输入字符分割后的字符图像到本发明实施例中的学习器中进行预判编码，然后与词库中的笔划编码进行匹配，匹配成功的笔划编码对应的汉字即为识别结果；所有识别结果可保存至数据库中。

将本实施例提供的汉字识别方法用于身份证识别系统中的汉字识别，可快速录入身份证个人信息，避免手动录入可能带来的误差，以及能够快速、高效的完成识别工作。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于笔划编码的印刷体汉字识别方法，其特征在于，包括如下步骤：

(2)提取汉字库中各字符图像的LBP特征；

(3)使用svm分类器学习汉字的编码，获得学习器；

(4)使用所述学习器对待识别汉字的字符图像进行预判，获取笔划编码；

2.如权利要求1所述的印刷体汉字识别方法，其特征在于，所述步骤(1)中，根据汉字笔划，为每个汉字生成一个唯一对应的25位二进制编码。

3.如权利要求2所述的印刷体汉字识别方法，其特征在于，所述步骤(1)根据汉字笔划对汉字进行编码的方法，具体包括如下子步骤：

(1.1)判断汉字图像是否包含横竖撇捺折这五个笔划，若是，则将对应的笔划的编码位标记为1；若否，则将对应的笔划的编码位标记为0；由此生成二进制编码的第0-4位的编码；

若是，则将对应的笔划的编码位标记为1；若否，则将对应的笔划的编码位标记为0；获得各区域的5位编码；

按照所述各区域在汉字图像里从左到右，从上到下的顺序，将所述各区域的5位编码，依次对应到二进制编码的第5-9位、第10-14位、第15-19位、第20-24位；并与所述第0-4位二进制编码一起按照比特位顺序生成25位二进制编码。

4.如权利要求1所述的印刷体汉字识别方法，其特征在于，所述步骤(2)中对字符图像提取LBP特征向量的过程，包括如下子步骤：

(2.1)对字符图像进行灰度化处理；

(2.3)获取灰度化处理后的字符图像中各像素点的LBP特征值；

对直方图进行归一化处理，将所有256种LBP值均等量化为32个等级，根据LBP特征值在32个量级中出现的频率，获取各图像块的32维的LBP特征向量；

5.如权利要求4所述的印刷体汉字识别方法，其特征在于，其步骤(2.3)所述获取字符图像中像素点的LBP特征值方法，包括如下子步骤：

(2.3.2)对3*3邻域内的8个点进行比较，由此生成8位二进制数；将该8位二进制数转换为十进制数；所述十进制数即为所述窗口中心像素点的LBP特征值。

6.如权利要求1所述的印刷体汉字识别方法，其特征在于，所述步骤(3)中使用svm分类器学习步骤(1)中获得的汉字的编码以获得学习器的过程，具体为：

将步骤(2)获得的LBP特征向量，依次输入到25个svm分类器中，与汉字库中对应的笔划编码进行训练学习；使得每一位笔划编码对应的svm分类器形成对应的规则，获得学习器。

7.如权利要求1所述的印刷体汉字识别方法，其特征在于，所述步骤(4)使用学习器对待识别汉字的字符图像进行预判，获取笔划编码的方法，具体包括如下子步骤；

(4.1)提取待识别汉字的字符图像的LBP特征向量；