CN104239872A

CN104239872A - 异态汉字识别方法

Info

Publication number: CN104239872A
Application number: CN201410502968.4A
Authority: CN
Inventors: 王恺
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2014-12-24

Abstract

本发明涉及一种异态汉字识别方法，其技术特点包括以下步骤：利用稀疏编码得到基向量和稀疏系数，通过重构图像滤除噪音、处理边缘柔化；利用梯度方向直方图抽取复原图像的汉字边缘梯度特征用以削弱倾斜和光照的影响；将获取的汉字边缘梯度特征送入分类器，进行异态汉字的识别。本发明设计合理，其采用稀疏编码和梯度方向直方图相结合的方式(SC-HOG方法)实现了复杂图像中的异态汉字识别功能，对于汉字倾斜、光照不均、噪音干扰和边缘柔化等异态情况有较强的鲁棒性，解决了复杂图像中汉字倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的汉字识别问题。

Description

异态汉字识别方法

技术领域

本发明属于文字识别技术领域，尤其是一种异态汉字识别方法。

背景技术

图像中的文字是图像的一种重要语义信息，正确定位和识别这些文字，对基于内容的图像检索及过滤应用有着重要意义。

待提取文字的图像可分为文档图像、场景图像和原生数字图像这3大类。早期的图像文字提取研究集中在文档图像方面，其研究内容包括预处理(如二值化、倾斜校正、字符分割等)、字符识别、版面分析、图形符号识别。现有OCR软件主要是处理文档图像，对于场景图像和原生数字图像处理效果不佳。最近的研究则集中在复杂图像文字提取方面(包括场景图像文字提取和原生数字图像文字提取)上：(1)场景图像是指用摄像头所拍摄到的图像，场景中的文字(如路牌、广告牌等)也会作为场景的一部分被拍摄到场景图像中，场景图像中的文字可能夹杂在复杂的背景区域中，也可能存在文本倾斜、光照不均等情况；(2)原生数字图像是指用计算机软件生成并一直以数字形式保存的图像，为了便于在网络传输，原生数字图像具有低分辨率的特点，且通常存在压缩损失和严重的边缘柔化问题。

复杂图像文字提取系统的框架如图1所示，包括文本定位、文字分割和文字识别模块。作为复杂图像文字提取的关键步骤之一，文字识别近年来已取得了一些研究成果，但是，目前复杂图像中的文字识别研究还主要集中在英文方面。在汉字识别领域，我国学者在印刷体汉字识别、手写体汉字识别(包括联机和脱机)方面取得了丰硕的成果，例如清华TH-OCR与汉王OCR在汉字识别方面也已达到很高的性能，能够满足实际应用需求，但是，复杂图像中的汉字识别研究工作还很少，尚处于起步阶段。与传统文档图像中的文字不同，复杂图像中的文字可能会存在倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况(如图2所示)，现有的汉字识别方法均不能准确识别，难以提升复杂图像汉字提取系统的性能。

发明内容

本发明的目的在于克服现有技术的不足，提供一种异态汉字识别方法，解决复杂图像中汉字倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的汉字识别问题。

本发明解决现有的技术问题是采取以下技术方案实现的：

一种异态汉字识别方法，包括以下步骤：

步骤1、利用稀疏编码得到基向量和稀疏系数，通过重构图像滤除噪音、处理边缘柔化；

步骤2、利用梯度方向直方图抽取复原图像的汉字边缘梯度特征用以削弱倾斜和光照的影响；

步骤3、将获取的汉字边缘梯度特征送入分类器，进行异态汉字的识别。

而且，所述步骤1利用稀疏编码得到基向量和稀疏系数是通过以下方法实现的：

在训练阶段，根据以下目标函数进行优化问题求解：

其中，X＝(x₁,x₂,…,x_m)∈R^k×m表示训练集中的m幅汉字图像减去各自的平均灰度值后得到的m个k维向量集合，k为每幅图像的像素数；B＝(b₁,b₂,…,b_n)∈R^k×n表示经稀疏编码计算得到的n个k维基向量；S＝[s_ij]_n×m∈R^n×m表示稀疏系数矩阵，每一列s_i＝(s_i1,s_i2,…,s_in)为一幅图像的n维稀疏系数向量；β是一个常量，用来平衡重构误差与系数的稀疏性；φ(s_ij)表示非线性的稀疏惩罚函数，该惩罚函数表示为：

φ (s_{ij}) = {(s_{ij}^{2} + ϵ)}^{\frac{1}{2}}

以上述目标函数为优化目标，基于整幅汉字图像求取所有的基向量B和对应的稀疏系数S。

而且，所述步骤1重构图像的方法为：根据基向量B对任意一幅输入图像I求取其稀疏系数S，再根据I_new(x，y)＝BS+t，进行重构可得到复原图像I_new，其中，t是图像I的平均灰度值。

而且，所述步骤2的具体处理过程为：

首先，按下式计算点(x,y)的梯度幅值G(x,y)和方向θ(x,y)：

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}}

θ (x, y) = \arctan [\frac{G_{y} (x, y)}{G_{x} (x, y)}]

其中，G_x(x,y),G_y(x,y)分别表示该点水平方向、垂直方向的梯度幅值，其计算方法如下：

G_x(x,y)＝I(x+1,y)-I(x-1,y)

G_y(x,y)＝I(x,y+1)-I(x,y-1)

然后，在块内基于单元格统计直方图：对于单元格内每个像素点的权值，根据其梯度幅值采用高斯加权统计到其梯度方向所属的直方图分组；

最后，通过滑动窗口密集扫描图像，将检测窗口中所有块的特征向量依次连接起来，构成汉字边缘梯度特征。

而且，所述在块内基于单元格统计直方图时，对同一块内所有单元格的特征向量采用L2-Hys归一化方式进行归一化处理。

而且，所述步骤3采用ILDA分类器进行分类训练和汉字识别。

本发明的优点和积极效果是：

本发明设计合理，其采用稀疏编码和梯度方向直方图相结合的方式(SC-HOG方法)实现了复杂图像中的异态汉字识别功能，对于汉字倾斜、光照不均、噪音干扰和边缘柔化等异态情况有较强的鲁棒性，解决了复杂图像中汉字倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的汉字识别问题。

附图说明

图1为复杂图像文字提取的系统框架图；

图2为四种异态汉字示例(从左至右分别为倾斜、光照不均、噪音干扰和边缘柔化)；

图3为经稀疏编码处理后的汉字图像(左侧为原图像，右侧为复原图像)；

图4为汉字图像的梯度图(从左至右分别为重构后的复原图像、水平方向的梯度图、垂直方向的梯度图和梯度图)；

图5为归一化处理结果示意图；

图6为SC-HOG方法及测试方法的流程图；

图7为倾斜汉字图像示例；

图8为光照不均汉字图像示例；

图9为噪音干扰汉字图像示例；

图10为边缘柔化汉字图像示例；

图11为HOG600和SC-HOG在真实数据集上的识别率示意图(左侧为原生数字图像，右侧为场景图像)。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种异态汉字识别方法，采用稀疏编码和梯度方向直方图相结合的方式来实现，在抗噪音干扰、光照不均和边缘柔化的同时，能够有效地识别适度倾斜的汉字图像，解决了复杂图像中的汉字倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的汉字识别问题。具体包括以下步骤：

步骤1、利用稀疏编码得到基向量和稀疏系数，通过重构图像滤除噪音、处理边缘柔化。

从数学角度讲，稀疏编码(sparse coding，简称SC)是对图像数据进行线性分解，得到基向量和稀疏系数的过程。建立稀疏编码模型，对于每个输入图像，只有少量几个基函数有较大的响应输出，能够消除数据之间的高阶相关冗余，因此可用在图像特征提取和滤噪等方面。本步骤是将稀疏编码用在图像去噪处理中。

在训练阶段，根据公式(1)所示目标函数进行优化问题求解：

其中，X＝(x₁,x₂,…,x_m)∈R^k×m表示训练集中的m幅汉字图像减去各自的平均灰度值后得到的m个k维向量集合(k为每幅图像的像素数)；B＝(b₁,b₂,…,b_n)∈R^k×n表示经稀疏编码计算得到的n个k维基向量；S＝[s_ij]_n×m∈R^n×m表示稀疏系数矩阵，每一列s_i＝(s_i1,s_i2,…,s_in)为一幅图像的n维稀疏系数向量；β是一个常量，用来平衡重构误差与系数的稀疏性；φ(s_ij)表示非线性的稀疏惩罚函数，反映了图像编码的稀疏程度。所述的惩罚函数采用公式(2)所示的epsilonL₁惩罚函数：

φ (s_{ij}) = {(s_{ij}^{2} + ϵ)}^{\frac{1}{2}} - - - (2)

以公式(1)为优化目标，基于整幅汉字图像(而不是分块)求取所有的基向量B和对应的稀疏系数S。所有的输入图像均匀地分布在基向量上，且所有基向量上稀疏系数的概率分布相同。

利用公式(1)计算得到的基向量B可对任意一幅输入图像I求取其稀疏系数S，再根据I_new(x，y)＝BS+t(t是图像I的平均灰度值)进行重构可得到复原图像I_new，如图3所示。从图3可以看出：通过稀疏编码处理，重构后的异态汉字图像与重构后的训练图像表现出了更强的相似性，噪音和边缘柔化问题已在这一阶段得到了很大程度的缓解，从而保证了系统对这两种异态情况的鲁棒性。

步骤2、利用梯度方向直方图抽取复原图像的汉字边缘梯度特征，削弱倾斜和光照的影响。

梯度方向直方图(histograms of oriented gradients，简称HOG)特征对光照变化、适当的倾斜和小位移具有鲁棒性。HOG特征由SIFT特征发展而来，是一种局部描述符。局部梯度或边缘方向的分布能够很好地表征目标的形状和外形。HOG通过提取局部区域的梯度方向直方图作为特征，无需考虑图像的整体信息。在实现的过程中，先将图像的检测窗口划分为小的单元格(cell)，计算单元格内所有像素点的一维梯度或边缘方向直方图，然后将若干单元格组成较大区域的块(block)，在块内进行对比度归一化，通过滑动窗口密集扫描图像，获取最终的HOG特征向量。HOG特征虽然在文字提取方面的应用，可以提高复杂环境下文本定位和文字识别的准确率，但是，复杂图像上存在较多影响文字识别准确率的干扰因素(如倾斜、光照不均、噪音干扰、边缘柔化等)，直接在图像上提取特征识别文字其性能，难以达到满意的效果。

为了抗噪音干扰和边缘柔化，本步骤在步骤1重构后的复原图像上提取HOG特征，具体处理步骤为：

首先，按公式(3)和公式(4)计算点(x,y)的梯度幅值G(x,y)和方向θ(x,y)，计算结果如图4所示，图像的梯度图表现了异态汉字的整体轮廓和梯度幅值。

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (3)

θ (x, y) = \arctan [\frac{G_{y} (x, y)}{G_{x} (x, y)}] - - - (4)

其中，G_x(x,y),G_y(x,y)分别表示该点水平方向、垂直方向的梯度幅值，其计算方法如公式(5)所示：

G_x(x,y)＝I(x+1,y)-I(x-1,y),G_y(x,y)＝I(x,y+1)-I(x,y-1) (5)

然后，在块内基于单元格统计直方图。对于单元格内每个像素点的权值，根据其梯度幅值采用高斯加权统计到其梯度方向所属的直方图分组(bin)中。直方图分组的方向范围为0～π。

为了提高识别性能，削弱图像中光照不均的影响(如图4最右侧图所示)，对同一块内所有单元格的特征向量进行归一化处理。本方法采用L2-Hys归一化方式，即，以0.2为上限值对L2-Hys(计算方法如公式(6)所示)归一化数据修剪后再次归一化：

v &RightArrow; v / \sqrt{{| | v | |}_{2}^{2} + ϵ^{2}}

其中，ν是未归一化的特征向量，ε是一个极小的常量。

归一化处理结果如图5所示。可见，虽然不同异态情况下的重构图像在光照(图3)和梯度幅值(图4)上存在明显差异，但对图像同一块内的特征向量(24个)进行归一化后，对应的每个特征值基本相等，从而体现了HOG特征对光照不均具有很强的适应能力。

最后，通过滑动窗口(移动间隔为单元格大小)密集扫描图像，将检测窗口中所有块的特征向量依次连接起来，构成HOG特征集合。

本步骤是将步骤2获得的HOG特征向量送入分类器中，由分类器进行训练然后进行识别，即采用ILDA进行汉字识别：将提取到的特征向量送入ILDA训练，得到最佳的变换矩阵，将利于分类识别的特征向量保留下来，消除冗余的非必要信息，最后进行汉字识别。

通过以上步骤，即可实现复杂图像下的异态汉字识别功能，解决了复杂图像中的汉字倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的汉字识别问题。

图6给出SC-HOG方法的具体处理流程，以设定的参数为例：

第1步：将训练样本归一化为48(48pixels的图像，利用稀疏编码算法对所有的训练样本图像进行重构。为了提高效率，同时使重构的图像尽可能清晰，实验参数设置为σ＝1,β＝0.4,ε＝0.01，基函数为192个，迭代次数为1000次(参见公式(1)和公式(2))。

第2步：提取复原图像的HOG特征向量。根据Dalal的理论，采用一定的重叠块(窗口滑动扫描图像时)，能大幅增强特征的鲁棒性，因此，实验参数分别为block＝16(16pixels，cell＝8(8pixels，bin＝6，检测窗口为图片大小，滑动窗口为block大小，以8pixels(单元格大小)的距离滑动，抽取到的特征向量维数为600维。

第3步：为了支持在线学习，采用ILDA进行汉字识别：将提取到的特征向量送入ILDA训练，得到最佳的变换矩阵，投影变换也是降维的过程，将利于分类识别的特征向量保留下来，消除冗余的非必要信息。降维后的特征向量为96维。

下面通过实验对本发明效果进行分析

通过“效果实验分析”与“综合实验结果”两方面验证本发明提出的基于SC-HOG的异态汉字识别方法。第1部分，通过在合成数据集上的实验，表明SC-HOG方法对于倾斜、光照不均、噪音干扰和边缘柔化等异态情况有较强的鲁棒性；第2部分，通过在真实数据集上的实验，表明SC-HOG方法在原生数字图像和场景图像上也能取得较好的结果。

1、效果实验分析：在合成样本集上做实验，用于验证SC-HOG方法对于倾斜、光照不均、噪音干扰和边缘柔化等异态情况的鲁棒性。

本实验字符集包括一级汉字和部分常用二级汉字(共3879类)，所使用的训练样本集包括无任何干扰因素的15516(＝3879类(4种字体)幅汉字图像，字体包括宋体、仿宋、黑体和楷体，测试样本集包括对训练样本做处理得到的4个合成样本集和实际采集的2个真实样本集。

在早期关于印刷体汉字识别的研究工作中，统计识别与结构识别相结合的网格化特征由于具有较强的抗干扰性，在实际中得到了广泛应用。近期研究工作已经通过实验表明，HOG在复杂图像文字识别中具有最好的性能。因此，在本比对实验中，选择网格化(grid)特征和HOG特征作为比对，对本方法进行校验，如表1所示。比对实验中均采用ILDA进行汉字识别。

表1比对实验中所用的方法

1.1关于倾斜问题

对训练集中的每一幅图像，按顺时针、逆时针两个方向每隔1°进行旋转，生成测试集。对训练集中的每一汉字图像，测试集中对应倾斜角度分别为1°～3°的汉字图像共6幅，如图7所示。表2分别列出了各方法对测试集的识别率。

表2各方法对倾斜汉字的识别率

从表2可以看出：Grid能够识别适度倾斜的汉字图像，但当倾斜角度增大时，其识别率有较大程度的下降；HOG则具有较强的抗倾斜能力；本方法利用了HOG的优势，对适度的倾斜具有较强的鲁棒性，同时，SC处理所造成的信息损失并没有对识别造成负面影响。

1.2关于光照不均问题

将原始样本图像和上述1.1部分(关于倾斜问题)生成的倾斜图像通过加深背景色、笔画像素灰度值，以每列2pixels递增的方法得到光照不均的汉字图像(其中，每一汉字无倾斜图像1幅，倾斜为1°～3°的图像共6幅)，如图8所示。表3分别列出了各方法对测试集的识别率。

表3各方法对光照不均汉字的识别率

从表3可以看出，Grid对光照不均的汉字图像识别性能明显下降。这是由于光照引起图像的前背景像素点灰度发生变化，从而使灰度特征失效；对于HOG特征，设置较大的滑动窗口(HOG96)识别率很低，通过调小滑动窗口，增加窗口之间的重叠度，可以削弱光照和倾斜的影响，性能得到大幅提升(HOG216和HOG600)；本方法利用了HOG的优势，对光照和适度的倾斜具有较强的鲁棒性，同时，SC处理所造成的信息损失对识别造成的负面影响较小。

1.3关于噪音干扰问题

将原始样本图像和上述1.1部分(关于倾斜问题)生成的倾斜图像分别加入方差σ²为0.10、0.20、0.50的高斯噪声，得到噪音干扰的汉字图像(其中，每一汉字无倾斜图像1幅，倾斜为1°～3°的图像共6幅)，如图9所示。表4分别列出了不同程度噪音下各方法对测试集的识别率。

表4各方法对噪音干扰汉字的识别率

从表4可以看出：Grid能够识别适度噪音干扰的汉字图像，但当噪音较多时，其性能下降明显；由于HOG表征的是汉字边缘特征，而噪音严重干扰了图像中边缘梯度变化，从而使该特征失效；本方法利用SC的滤噪能力，同时利用HOG的抗倾斜能力，保证了倾斜时噪音干扰图像的识别性能。

1.4关于边缘柔化问题

将原始样本图像和上述1.1部分(关于倾斜问题)生成的倾斜图像分别利用标准差σ为2，2，5，卷积模板τ为3×3，5×5，5×5的高斯模糊得到边缘柔化的汉字图像(其中，每一汉字无倾斜图像1幅，倾斜为1°～3°的图像共6幅)，如图10所示。表5分别列出了不同参数下各方法对测试集的识别率。

表5各方法对边缘柔化汉字的识别率

从表5可以看出：Grid能够识别边缘柔化的汉字图像；对于HOG特征，设置较大的滑动窗口(HOG96)识别率很低，通过调小滑动窗口，增加窗口之间的重叠度，可以削弱边缘柔化和倾斜的影响，性能得到大幅提升(HOG216和HOG600)；本方法利用了HOG的优势，对光照和适度的倾斜具有较强的鲁棒性，同时，SC处理所造成的信息损失并没有对识别造成负面影响。

通过以上实验分析，可以看出：

Gird：适合处理边缘柔化、轻度倾斜和轻度噪音的情况；当倾斜角度或噪音干扰增加时，处理效果下降明显；不适合识别有光照不均的汉字图像。

HOG：具有较强的抗倾斜能力，能较好处理光照不均和边缘柔化情况，对噪音较敏感。

SC-HOG：具有较强的抗倾斜能力，能较好处理光照不均和边缘柔化情况，噪音严重时也能得到较好的处理结果。

在合成数据集上的这些实验表明，SC-HOG方法对于倾斜、光照不均、噪音干扰和边缘柔化等异态情况有较强的鲁棒性。

2、综合实验结果是在现实世界的样本集上做综合实验，用于验证SC-HOG方法在实际应用中的有效性。

以原生数字图像和场景图像中的文字识别为例，对方法进行校验。实验中共采集了400幅原生数字图像和376幅场景图像，分别包括5320和8335个汉字。表6分别给出了HOG600和SC-HOG在真实数据集上的识别率，图11是其图形化表示。

表6HOG600和SC-HOG在真实数据集上的识别率

从表6和图11可以看出，SC-HOG方法在真实数据集上也展现出了较好的结果。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种异态汉字识别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的异态汉字识别方法，其特征在于：所述步骤1利用稀疏编码得到基向量和稀疏系数是通过以下方法实现的：

在训练阶段，根据以下目标函数进行优化问题求解：

φ (s_{ij}) = {(s_{ij}^{2} + ϵ)}^{\frac{1}{2}}

3.根据权利要求2所述的异态汉字识别方法，其特征在于：所述步骤1重构图像的方法为：根据基向量B对任意一幅输入图像I求取其稀疏系数S，再根据I_new(x，y)＝BS+t，进行重构可得到复原图像I_new，其中，t是图像I的平均灰度值。

4.根据权利要求1所述的异态汉字识别方法，其特征在于：所述步骤2的具体处理过程为：

首先，按下式计算点(x,y)的梯度幅值G(x,y)和方向θ(x,y)：

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}}

θ (x, y) = \arctan [\frac{G_{y} (x, y)}{G_{x} (x, y)}]

G_x(x,y)＝I(x+1,y)-I(x-1,y)

G_y(x,y)＝I(x,y+1)-I(x,y-1)

5.根据权利要求4所述的异态汉字识别方法，其特征在于：所述在块内基于单元格统计直方图时，对同一块内所有单元格的特征向量采用L2-Hys归一化方式进行归一化处理。

6.根据权利要求1所述的异态汉字识别方法，其特征在于：所述步骤3采用ILDA分类器进行分类训练和汉字识别。