CN101488182A

CN101488182A - 一种用于手写汉字识别的图像特征提取方法

Info

Publication number: CN101488182A
Application number: CNA2008102203344A
Authority: CN
Inventors: 金连文; 张志毅; 丁凯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2008-12-24
Filing date: 2008-12-24
Publication date: 2009-07-22
Anticipated expiration: 2028-12-24
Also published as: CN101488182B

Abstract

本发明提供一种用于手写汉字识别的图像特征提取方法，将手写汉字图像切分成一系列稳定的特征提取区域，再通过尺度不变性特征变换算法对这些区域进行特征提取。本发明克服了直接应用SIFT特征点定位无法提取有效的适应不同书写风格的尺度不变特征的问题，结合手写汉字图像的特点，应用弹性网格技术与SIFT特征，设计出基于二次局部弹性区域的SIFT特征的手写汉字特征提取方法。

Description

一种用于手写汉字识别的图像特征提取方法

技术领域

本发明属于模式识别与人工智能技术领域，特别是涉及一种手写汉字图像识别处理方法。

技术背景

一个手写汉字识别系统分为预处理、特征提取、分类识别和后处理四个模块，其中特征提取被认为是汉字识别中一个关键的步骤之一，对整个系统的最终性能有着重要的影响。近年来，很多学者在如何获取有效的特征方面做了很多研究工作，取得了很多优秀的成果。Gabor特征是各种汉字特征中的一种较为有效的特征，它应用的背后有着很好的生物视觉理论支持。事实上，模式识别与计算机视觉和生物视觉理论在一直以来都有着紧密的联系。

随着计算机视觉与生物视觉理论的发展，最近有越来越多先进的图像特征提取算法被提出。其中，David G.Lowe2004年发表在International Journal ofComputer Vision的论文“Distinctive Image Features from Scale-InvariantKeypoints”提出的尺度不变性特征变换算法(Scale Invariant FeatureTransform，简称SIFT)被认为是最有代表性的特征提取算法之一，受到了计算机视觉领域广泛的关注。SIFT整套算法包括定位特征点与对特征区域提取特征向量两部分，提取出来的特征向量一般被称为SIFT描述子(SIFTdescriptor)。SIFT特征已经被广泛应用于图像配准、图像检测、目标识别等领域，并且有着出色的表现。但是，在汉字识别领域，特别是手写汉字识别领域，SIFT特征却无法成功的应用，这是因为自由书写汉字由于个人风格的差异，即使是同一个字的图形也有很大差别，同时还有加上笔画形变，噪声点等问题让这种差异性变得更大。因此，SIFT特征点定位方法对脱机手写汉字识别是不适合的，需要寻找更合适的特征定位策略。

发明内容

本发明的目的是为了克服直接应用SIFT特征点定位无法提取有效的适应不同书写风格的尺度不变特征的问题，结合手写汉字图像的特点，应用弹性网格技术与SIFT特征，设计出基于二次局部弹性区域的SIFT特征的手写汉字特征提取方法。

为了实现发明目的，本发明采用的技术方案为：一种用于手写汉字识别的图像特征提取方法，将手写汉字图像切分成一系列稳定的特征提取区域，再通过尺度不变性特征变换算法对这些区域进行特征提取。

具体包括如下几个主要步骤：

(1)、先水平后垂直弹性切分手写汉字图像成局部子图像块；

(2)、对子图像块提取SIFT描述子特征；

(3)、先垂直后水平再次切分手写汉字图像成局部图像块，重复(2)；

(4)、拼接所有局部图像块SIFT特征形成最终特征向量。

所述步骤(1)弹性切分脱机手写汉字图像成子图像块的过程是：通过先对汉字图像在水平方向上非均匀弹性划分3个长方形，划分的原则是让每个长方形内具有相等的汉字像素，然后在垂直方向上在各个长方形图块内部进行非均匀弹性切分，使得每个长方形图块均切分出3个彼此间汉字像素相等的小长方形图块，最终得到9块子图像块。

所述步骤(2)通过对图像块提取SIFT描述子特征过程是：通过先将切分出的图块大小进行线性归一化，然后对每块图块区域提取SIFT描述子特征，提取中使用的SIFT描述子参数为：切分区域数目为2×2、统计方向为8，于是每块图块获得的特征向量维数为32。

所述步骤(2)提及的SIFT描述子特征通过在局部区域计算所有像素的梯度向量，然后用以区域中心为中心的二维高斯函数对所有梯度向量的幅值进行加权，接着把局部区域规则切分为N×N的子区域，在每个子区域上统计D个方向的梯度方向直方图，计算每个梯度方向累加值可形成一个种子点，每个种子点有8个方向的向量信息，最后组合各种子点形成输出的特征。具体做法是：第一步在特征提取区域使用SOBEL算子计算该区域内每个像素点的梯度的幅值和方向，第二步使用中心位于特征提取区域的中心二维高斯函数exp[-(x²+y²)/2σ²]与特征提取区域中每个像素的梯度幅值进行相乘(式中σ＝0.75×区域宽度)，第三步在特征区域内规则切分出N×N个子区域(图4中N＝2)，每个区域的中心赋予一个称为种子点的梯度方向直方图统计向量(统计方向共八个，彼此间隔为45度)，第四步统计区域的梯度方向直方图，具体过程为，若某个像素点梯度方向落在某一个统计方向的附近，则其相应的梯度幅值就累加在这个方向上，累加过程中，像素梯度幅值经过三线性插值后一一累加到毗连的各直方图块中，第五步将SIFT描述子向量进行归一化。

所述步骤(3)使用的切分方法为：通过先对汉字图像在垂直方向上进行弹性划分为3个长方形，划分的原则是让每个长方形内具有相等的汉字像素，然后再在水平方向上以相同的方法对每个长方形进行切分，切成3个彼此间汉字像素相等的图块，获取另外9块子图像块。

所述步骤(4)拼接所有图块特征形成最终特征向量：通过将步骤(2)、(3)获取的18个图块特征进行顺序拼接，获得一个576(18×32)维特征向量，接着对这个向量中每一个元素进行x^0.4的变换，变换后的特征向量为最终输出的特征向量。

与SIFT特征不同，本发明在特征定位上，使用了寻找稳定的特征区域的特征定位策略。弹性局部区域SIFT汉字特征提取方法使用了弹性切分方法，将汉字图像切分成一系列稳定的特征提取区域，再对这些区域提取了有效的尺度不变方向特征。

本发明与已有的汉字特征提取方法相比，具有如下的优点和有益效果：

(1)、本发明中应用的SIFT描述子是一种基于生物视觉原理构造的特征，大量实验证明其对图像仿射变换，3D视点变换和非刚性变形具有优秀的鲁棒性；

(2)、使用弹性切分方法，能把汉字图像切分成一系列稳定的特征区域，对这些区域进行大小归一化后提取的一系列SIFT描述子特征拼接组成了具有良好性能的特征；

(3)、对汉字图像整体提取SIFT描述子，在提取过程中，把原来无视图像内容的规则划分改进为能适应不同手写风格的弹性网格划分有效改进了识别性能；

(4)、本发明的两种特征提取方法在脱机汉字识别中具有良好的有效性：在数据库使用国家863计划采集到的HCL2000手写汉字样本数据库，随机挑选500套样本进行训练，200不重复的样本进行测试，分类器使用改进二次判决函数(MQDF)分类器，测试结果表明本发明的弹性局部区域尺度不变方向特征提取方法获取的特征首选字识别率是96.061％，前10个候选字的识别率为99.639％。

附图说明

图1是本发明的弹性局部区域SIFT汉字特征提取方法的流程框图；

图2是本发明采用的汉字识别系统的结构框图；

图3是SIFT描述子特征的提取流程框图；

图4是SIFT描述子的提取示意图。

具体实施方式

本发明的弹性局部区域SIFT汉字特征提取方法的流程图如附图1所示，具体为先将输入的汉字图像进行两种不同的弹性切分，获取一共18个不同的图像区域(图块)，然后把这些图块线性归一化为统一大小，再对它们提取SIFT描述子特征，最后把所有描述子特征顺序拼接成最终的特征向量。

本发明的弹性局部区域SIFT汉字特征提取过程中应用到的SIFT描述子特征的提取流程图如附图2，其构造示意图如附图3，具体为第一步在特征提取区域使用SOBEL算子计算该区域内每个像素点的梯度的幅值和方向，如图3右边所示，其中分别以每个方格内的箭头长度和箭头方向表示，第二步使用中心位于特征提取区域的中心二维高斯函数exp[-(x²+y²)/2σ²]与特征提取区域中每个像素的梯度幅值进行相乘(式中σ＝0.75×区域宽度)，第三步在特征区域内规则切分出N×N个子区域(图4中N＝2)，每个区域的中心赋予一个称为种子点的梯度方向直方图统计向量(统计方向共八个，彼此间隔为45度)，第四步统计区域的梯度方向直方图，具体过程为，若某个像素点梯度方向落在某一个统计方向的附近，则其相应的梯度幅值就累加在这个方向上，累加过程中，像素梯度幅值经过三线性插值后一一累加到毗连的各直方图块中，第五步将SIFT描述子向量进行归一化。

本发明的使用的手写汉字识别系统的结构框图如附图4所示，手写汉字图像在输入后，先进行均值滤波的预处理，然后使用本发明的两种特征提取方法之一进行特征提取。提取出原始特征后，通过线性判决分析LDA进行降维，通过距离分类器计算降维后的特征矢量与模板中所有汉字的特征矢量的欧式距离，将模板中所有汉字按欧式距离从小到大排序，选取前30个汉字作为识别的候选字集，最后使用MQDF分类器进行识别，得出识别结果。本发明手写汉字识别系统的模板是经过HCL2000数据库的训练样本统计学习得到的。从HCL2000手写汉字样本数据库随机挑选500套样本进行训练，200套不重复的样本进行识别测试，使用本发明的方法获取的特征的识别结果是：首选字命中率是97.556％，前10个候选字的命中率为99.639％。

Claims

1、一种用于手写汉字识别的图像特征提取方法，其特征在于将手写汉字图像切分成一系列稳定的特征提取区域，再通过尺度不变性特征变换算法对这些区域进行特征提取。

2、根据权利要求1所述的用于手写汉字识别的图像特征提取方法，其特征在于包括如下步骤：

(1)、首次切分手写汉字图像成局部图像块；

(2)、对子图像块提取尺度不变性特征变换描述子特征；

(3)、再次切分手写汉字图像成局部图像块，重复步骤(2)；

(4)、拼接所有局部图像块尺度不变性特征变换描述子特征，形成最终特征向量。

3、根据权利要求2所述的用于手写汉字识别的图像特征提取方法，其特征在于所述步骤(1)的切分方法为先水平后垂直弹性切分，具体先对汉字图像在水平方向上非均匀弹性划分3个长方形，使每个长方形内具有相等的汉字像素，然后在垂直方向上在各个长方形图块内部进行非均匀弹性切分，使得每个长方形图块均切分出3个彼此间汉字像素相等的小长方形图块，最终得到9块子图像块。

4、根据权利要求2所述的用于手写汉字识别的图像特征提取方法，其特征在于所述步骤(2)对局部图像块提取尺度不变性特征变换描述子特征过程是：先将切分出的局部图像块大小进行线性归一化，然后对每个局部图像块区域提取尺度不变性特征变换描述子特征，提取中使用的尺度不变性特征变换描述子参数为：切分区域数目为2×2、统计方向为8，于是每个局部图像块获得的特征向量维数为32。

5、根据权利要求2或4所述的用于手写汉字识别的图像特征提取方法，其特征在于所述步骤(2)提及的尺度不变性特征变换描述子特征通过在局部图像块区域计算所有像素的梯度向量，然后用以区域中心为中心的二维高斯函数对所有梯度向量的幅值进行加权，接着把局部区域规则切分为多个子区域，在每个子区域上统计每个方向的梯度方向直方图，计算每个梯度方向累加值形成一个种子点，每个种子点有8个方向的向量信息，最后组合各种子点形成输出的特征。

6、根据权利要求5所述的用于手写汉字识别的图像特征提取方法，其特征在于所述步骤(2)进一步细化如下：

第一步使用SOBEL算子计算局部图像块区域内每个像素点的梯度的幅值和方向；

第二步使用中心位于局部图像块区域的中心二维高斯函数exp[-(x²+y²)/2σ²]与区域中每个像素的梯度幅值进行相乘，其中σ＝0.75×区域宽度；

第三步在局部图像块区域内规则切分出N×N个子区域(N为常数)，每个区域的中心赋予一个称为种子点的梯度方向直方图统计向量，统计方向共八个，彼此间隔为45度；

第四步统计局部图像块区域的梯度方向直方图，具体过程为，若某个像素点梯度方向落在某一个统计方向的附近，则其相应的梯度幅值就累加在这个方向上，累加过程中，像素梯度幅值经过三线性插值后一一累加到毗连的各直方图块中；

第五步将尺度不变性特征变换描述子向量进行归一化。

7、根据权利要求2所述的用于手写汉字识别的图像特征提取方法，其特征在于所述步骤(3)使用的切分方法为：先对汉字图像在垂直方向上进行弹性划分为3个长方形，使每个长方形内具有相等的汉字像素，然后在水平方向上对每个长方形进行切分，切成3个彼此间汉字像素相等的图块，获取另外9块子图像块。

8、根据权利要求2所述的用于手写汉字识别的图像特征提取方法，其特征在于所述步骤(4)拼接所有局部图像块特征形成最终特征向量的具体操作为：通过将步骤(2)、(3)获取的18个图块特征进行顺序拼接，获得一个576维特征向量，接着对这个向量中每一个元素进行x^0.4的变换，变换后的特征向量为最终输出的特征向量。