CN101447022A

CN101447022A - 一种手写汉字图像的特征提取方法

Info

Publication number: CN101447022A
Application number: CNA200810220333XA
Authority: CN
Inventors: 金连文; 张志毅; 丁凯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2008-12-24
Filing date: 2008-12-24
Publication date: 2009-06-03

Abstract

本发明提供一种手写汉字图像的特征提取方法，使用全局手写汉字图像作为特征提取区域，并通过弹性网格划分汉字图像区域，采用尺度不变性特征变换方法在每个网格动态统计相关区域的梯度方向信息，从而获取手写汉字的特征。本发明从HCL2000手写汉字样本数据库随机挑选500套样本进行训练，200套不重复的样本进行识别测试，使用本发明的方法获取的特征的识别结果是：首选字命中率是96.061％，前10个候选字的命中率为99.688％。

Description

一种手写汉字图像的特征提取方法

技术领域

本发明属于模式识别与人工智能技术领域，特别是涉及一种手写汉字图像识别处理方法。

技术背景

一个手写汉字识别系统分为预处理、特征提取、分类识别和后处理四个模块，其中特征提取被认为是汉字识别中一个关键的步骤之一，对整个系统的最终性能有着重要的影响。近年来，很多学者在如何获取有效的特征方面做了很多研究工作，取得了很多优秀的成果。Gabor特征是各种汉字特征中较为有效的一种，它应用的背后有着很好的生物视觉理论支持。事实上，模式识别与计算机视觉和生物视觉理论在一直以来都有着紧密的联系。

随着计算机视觉与生物视觉理论的发展，最近有越来越多先进的图像特征提取算法被提出。其中，David G.Lowe 2004年发表在International Journal ofComputer Vision的论文“Distinctive Image Features from Scale-InvariantKeypoints”提出的尺度不变性特征变换算法(Scale Invariant FeatureTransform，简称SIFT)被认为是最有代表性的特征提取算法之一，受到了计算机视觉领域广泛的关注。SIFT整套算法包括定位特征点与对特征区域提取特征向量两部分，提取出来的特征向量一般被称为SIFT描述子(SIFTdescriptor)。

所述SIFT描述子的构造过程如附图1所示，具体包括：(1)提取特征区域梯度；(2)对特征区域进行高斯加权处理；(3)切分子区域；(4)统计梯度方向直方图；(5)特征向量归一化。

SIFT描述子的构造示意图则如附图2所示，其中左边表示特征提取区域，每一小格表示一个像素，小格上面的箭头则代表该像素的梯度向量方向。粗线划分的区域为子区域。圆圈表示高斯权函数。右边的四个方格代表是对应子区域，方格中八个箭头表示对该区域相关的部分统计出的梯度方向直方图分布。

SIFT描述子是一种基于特征点邻域内的梯度方向统计直方图的特征描述向量，它的构造原理模拟了视觉皮层中复杂神经元细胞的一种响应特性，这种响应特性是：梯度刺激在可承受范围内的位移都不会让这些神经元产生的反应出现变化。

SIFT特征已经被广泛应用于图像配准、图像检测、目标识别等领域，并且有着出色的表现。但是，在汉字识别领域，特别是手写汉字识别领域，SIFT特征却无法成功的应用，这是因为自由书写汉字由于个人风格的差异，即使是同一个字的图形也有很大差别，同时还有加上笔画形变，噪声点等问题让这种差异性变得更大。因此，SIFT特征点定位方法对脱机手写汉字识别是不适合的，需要寻找更合适的特征定位策略。

发明内容

本发明的目的是为了克服直接应用SIFT特征点定位无法提取有效的适应不同书写风格的尺度不变特征的问题，结合手写汉字图像的特点，应用弹性网格技术与SIFT统计区域梯度信息来描述区域的原理，设计出基于弹性区域梯度信息的动态统计直方图的手写汉字特征提取方法。

为了实现上述发明目的，采用的技术方案为：使用全局手写汉字图像作为特征提取区域，并通过弹性网格划分汉字图像区域，采用尺度不变性特征变换算法在每个网格动态统计相关区域的梯度方向信息，从而获取手写汉字的特征。

本发明的具体的技术步骤为：

(1)、构造弹性网格划分汉字图像区域；

(2)、提取汉字图像各像素的梯度信息；

(3)、统计梯度信息，得到特征。

所述步骤(1)构造弹性网格划分汉字图像区域通过把汉字图像在水平和垂直两个方向上的直方图投影划分出8 x 8的全局弹性网格，划分的原理是使得每一列网格在水平方向上的直方图投影累积量相等，每一行网格在垂直方向上的直方图投影累积量相等，每个网格确定为一个子区域，于是划分出64个子区域。

所述步骤(2)提取汉字图像各像素的梯度信息通过SOBEL算子提取每个像素的梯度向量，并按平行四边形分解的方法，把该向量分解到临近的两个分解方向上，每个像素对应一个8维的梯度方向信息

，每一维代表对应的投影方向强度。

所述步骤(3)统计梯度信息通过先把每个子区域中心确定为该区域的种子点，每个种子点是一个8维的向量，每一维代表与该区域相关像素梯度信息在特定梯度方向的统计结果，然后每个像素点梯度信息

乘上权值w_x*w_y累加到邻接子区域的种子点上，w_x、w_y的值以以下规则确定：设为像素点(x，y)所属子区域为A，(x_A，y_A)是A区域种子点的坐标，W_A、H_A是子区域A的宽与高，那么：

累加结束后，对每个种子点向量进行归一化，并按顺序把8×8个向量拼接成512(8×8×8)维的特征向量，最后对特征向量每个元素进行x^0.4变换，变换后的特征向量作为最终结果输出。

所述步骤(3)所指的邻接子区域指：对于某像素点，位于其左上、左下、右上和右下方的种子点所代表的子区域。

本发明的基本原理是：对于手写汉字图像，要直接应用SIFT算法是很困难的。SIFT算法使用的特征点定位算法获得的特征点无论是位置还是数目都是非常不稳定的。其原因是自由书写汉字由于个人风格的差异，即使是同一个字的图形也有很大差别，同时还有加上笔画形变，噪声点等问题让这种差异性变得更大。因此，要把SIFT特征应用于手写汉字识别，必须改用更合适的特征定位策略。本发明在特征定位策略上，放弃寻找稳定的特征点而使用全局(整幅)汉字图像作为特征提取区域，通过弹性网格划分汉字图像区域，参照SIFT描述子的构造思想，在每个网格动态统计相关区域的梯度方向信息来获取手写汉字的特征。

本发明与已有的汉字特征提取方法相比，具有如下的优点和有益效果：

(1)、SIFT描述子是一种基于生物视觉原理构造的特征，大量实验证明其对图像仿射变换，3D视点变换和非刚性变形具有优秀的鲁棒性

(2)、使用弹性切分方法，能把汉字图像切分成一系列稳定的特征区域，对这些区域进行大小归一化后提取的一系列动态梯度描述子特征拼接组成了具有良好性能的特征向量；

(3)、对汉字图像整体提取动态梯度描述子，在提取过程中，把原来无视图像内容的规则划分改进为能适应不同手写风格的弹性网格划分有效改进了识别性能。

(4)、本发明的特征提取方法在手写汉字识别中具有良好的有效性：在数据库使用国家863计划采集到的HCL2000手写汉字样本数据库，随机挑选500套样本进行训练，200不重复的样本进行测试，分类器使用改进二次判决函数(MQDF)分类器，测试结果表明动态梯度特征提取方法获得的首选字命中率是97.556％，前10个候选字的命中率为99.688％。

附图说明

图1是SIFT描述子构造过程示意图；

图2是SIFT描述子构造示意图；

图3是本发明的动态梯度统计特征提取方法的流程框图；

图4是本发明的特征提取方法步骤(3)提及的邻接子区域示意图；

图5是本发明采用的汉字识别系统的结构框图。

具体实施方式

本发明的动态梯度统计特征提取方法的流程框图如附图3所示，具体为对输入的汉字图像一方面进行弹性网格划分，得出64个子区域，然后把子区域的中心点确定为种子点，对每个种子点赋予一个梯度统计向量，另一方面获取图像中每个像素的梯度方向向量，通过对梯度向量的分解，得出每个像素的梯度信息，然后按规则把每个像素点梯度信息加权累加到邻接子区域的种子点上，接着把各个统计向量进行归一化，最后把统计向量顺序拼接成最终的特征向量输出。

本发明的特征提取方法步骤(3)提及的邻接子区域示意图如附图2所示，邻接子区域指：对于某像素点，位于其左上、左下、右上和右下方的种子点(如果有的话)所代表的子区域，图4中圆点代表某像素点，方框代表其邻接子区域，阴影所示方框为其所属子区域A。

本发明的使用的手写汉字识别系统的结构框图如附图5所示，具体为手写汉字图像在输入后，先进行均值滤波的预处理，然后使用本发明的特征提取方法进行特征提取。提取出原始特征后，通过线性判决分析LDA进行降维，通过距离分类器计算降维后的特征矢量与模板中所有汉字的特征矢量的欧式距离，将模板中所有汉字按欧式距离从小到大排序，选取前30个汉字作为识别的候选字集，最后使用MQDF分类器进行识别，得出识别结果。本发明手写汉字识别系统的模板是经过HCL2000数据库的训练样本统计学习得到的。从HCL2000手写汉字样本数据库随机挑选500套样本进行训练，200套不重复的样本进行识别测试，使用本发明的方法获取的特征的识别结果是：首选字命中率是96.061％，前10个候选字的命中率为99.688％。

Claims

1、一种手写汉字图像的特征提取方法，其特征在于使用全局手写汉字图像作为特征提取区域，并通过弹性网格划分汉字图像区域，采用尺度不变性特征变换方法在每个网格动态统计相关区域的梯度方向信息，从而获取手写汉字的特征。

2、根据权利要求1所述的手写汉字图像的特征提取方法，其特征在于所述特征提取方法具体包括如下步骤：

(1)、构造弹性网格划分汉字图像区域；

(2)、提取汉字图像各像素的梯度信息；

(3)、统计梯度信息，得到特征。

3、根据权利要求2所述的手写汉字图像的特征提取方法，其特征在于所述步骤(1)弹性网格划分汉字图像区域通过把汉字图像在水平和垂直两个方向上的直方图投影划分全局弹性网格，使得每一列网格在水平方向上的直方图投影累积量相等，每一行网格在垂直方向上的直方图投影累积量相等，每个网格确定为一个子区域。

4、根据权利要求3所述的手写汉字图像的特征提取方法，其特征在于在水平和垂直两个方向上的直方图投影划分出8 x 8的全局弹性网格，从而划分出64个子区域。

5、根据权利要求2或4所述的手写汉字图像的特征提取方法，其特征在于所述步骤(2)提取汉字图像各像素的梯度信息通过SOBEL算子提取每个像素的梯度向量，并按平行四边形分解的方法，把该向量分解到临近的两个分解方向上，每个像素对应一个8维的梯度方向信息，每一维代表对应的投影方向强度。

6、根据权利要求5所述的手写汉字图像的特征提取方法，其特征在于所述步骤(3)统计梯度信息先把每个子区域中心确定为该区域的种子点，每个种子点是一个8维的向量，每一维代表与该区域相关像素梯度信息在特定梯度方向的统计结果，然后每个像素点梯度信息

乘上权值w_x*w_y累加到邻接子区域的种子点上，所述w_x、w_y的值以以下规则确定：

令像素点(x，y)所属子区域为A，(x_A，y_A)是A区域种子点的坐标，W_A、H_A是子区域A的宽与高，那么：

累加结束后，对每个种子点向量进行归一化，并按顺序把8×8个向量拼接成512维的特征向量，最后对特征向量每个元素进行x^0 4变换，变换后的特征向量作为最终结果输出；

所述邻接子区域为对于某像素点，位于其左上、左下、右上和右下方的种子点所代表的子区域。