CN100409251C

CN100409251C - 用于退化文字行的字符识别装置和方法

Info

Publication number: CN100409251C
Application number: CNB2005100935293A
Authority: CN
Inventors: 孙俊; 堀田悦伸; 藤本克仁; 胜山裕; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-08-26
Filing date: 2005-08-26
Publication date: 2008-08-06
Anticipated expiration: 2025-08-26
Also published as: JP2007066310A; JP5028911B2; CN1920855A

Abstract

用于退化文字行的字符识别装置和方法。该字符识别装置包括：特征提取单元，利用第一字典从所输入的归一化图像中提取特征；粗分类单元，通过将所提取的特征与存储在第二字典中的特征进行比较，来选择特定数量的字符候选类别；特征重构单元，通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为该特定数量的重构特征；精细识别单元，根据由该特征提取单元提取的特征与该重构特征来识别并输出最终的识别字符编码；图像重构单元，通过使用该第一字典以及由该特征重构单元生成的重构特征来重构数量为该特定数量的重构图像；识别距离计算单元，用于根据所输入的归一化图像和该图像重构单元生成的重构图像来计算并输出识别距离。

Description

用于退化文字行的字符识别装置和方法

技术领域

本发明总体上涉及用于字符识别的装置和方法，更具体地涉及用于退化文字行的字符识别装置和方法。

背景技术

随着数码相机和数码摄像机在文档图像拍摄方面的日益普及，退化文字行识别得到了越来越多的重视。对退化文字行的识别包括单个字符识别和文字行分割两个部分。这两个部分又是有机结合在一起的。

对于文字行分割来说，基于识别的分割方法是使用最为广泛的一种方法。图1是传统的基于识别的分割方法的原理图。首先对所输入的图像进行二值化处理，然后通过对二值图像的连接部分进行分析来获得字符的笔画(图1中的最上一行)。图像的连接部分的分析算法可以参见：Rafael C.Gonzalez和Richard E.Woods著，《数字图像处理(第二版)》，阮秋琦，阮宇智等译，电子工业出版社，第435页。每一个连接部分都可以看作是一个基本分割字符(图1中的中间一行)。连接部分的组合被看作是合成分割字符(图1中的最下面一行)。然后，对每一个基本分割字符和合成分割字符都进行字符识别，并给出一个识别距离。一个文本行可以被分解为多条由不同基本分割字符和合成分割字符组合在一起的分割路径，每一个分割路径的识别距离是构成它的基本分割字符和合成分割字符的识别距离之和。该文本行的正确分割结果是通过选择总的识别距离最小的分割路径来获得的。在实现了分割的同时，对每个基本分割字符和合成分割字符的识别结果也就是对字符的最后识别结果。

图1是传统的基于识别的分割方法的原理图。

如图1所示，由“ハ”、“リ”和“を”组成的分割路径具有最小的识别距离值72。因此它们被输出为最后的分割和识别的结果。

从上述的原理图我们可以看出识别距离的值不仅对于识别结果，而且对于正确分割也是非常重要的。例如，在图1中，对于“ハ”的最小识别距离是21，该字符的左右两个笔画的识别距离分别是19和22。如果这两个笔画的识别距离之和小于21，则即使“ハ”的识别结果是正确的，它仍然会被错误地分割为“丿”和“丶”两个部分。

目前已经有很多关于文本行分割的文章和专利，比如：

Y.Lu，“Machine Printed Character Segmentation-AnOverview”.Pattern Recognition，Vol.28，No.1，pp.67-80，Jan，1995。

S.W.Lee，D.J.Lee，H.S.Park，“A New Methodology forGray-Scale Character Segmentation and Recognition”.IEEEtransaction on pattern analysis and machine intelligence，Vol.18，No.10，pp.1045-1050，Oct，1996。

Kamitani“Character segmentation device and charactersegmentation system”.US Pat.No.6，327，385。

Hanson，“Apparatus for performing character segmentationusing slant histograms”.US Pat.No.5，692，069。

Tan，“Fast character segmentation of skewed text lines foroptical character recognition”.US Pat.No.5，172，422。

这些文献和专利中的大部分都是针对粘连文字的处理，而且大多的处理对象都是二值化图像，而对于退化的文本行图像，传统的二值化方法常常会引起严重的断笔(笔画像素点丢失)或者笔画的粘连。因此识别的效果不佳。

基于双子空间(dual eigenspace)的方法对于退化字符具有很好的识别效果。该方法从灰度字符图像中直接提取字符特征。图2是利用双子空间方法来进行字符识别的流程图。其输入是经过归一化的字符图像。首先，通过第一字典(图2中的字典一)来提取字符图像的特征。然后，通过第二字典(图2中的字典二)将该字符图像粗略分类为M个候选类别。随后，通过第三字典(图2中的字典三)将所输入的字符特征精细地分类为该M个候选类别中的某一类别。最后，输出识别出的字符编码和识别距离。

由于基于双子空间的方法从灰度图像中直接提取特征，避免了二值化的环节，因此它对于由于图像退化而引起的噪声具有更好的抵抗能力。但是，直接在基于识别的分割方法中利用双子空间方法存在一些问题。

如图3所示，第一行的图像是文本行图像。第二行是二值化的结果。二值化图像用来进行粗分割。所示的边框是粗分割的结果。第三行是经过归一化后的基本分割字符的灰度图像。在每一个分割图像的下面是识别字符和对应的识别距离。第四行是经过归一化后的合成分割字符“年”和“開”的归一化灰度字符图像，以及对应的识别结果和识别距离。如果使用传统的基于识别的分割方法，则不能正确地识别“開”，因为在第二行中，“開”会被分割为四个部分，这四个部分的识别距离之和是5.39+61.01+45.69+20.37＝132.46。由于“開”本身的识别距离是409.71，大于其四个部分的识别距离之和。因此整个文本行将被识别为“年1回I！II ㄑ”。

发明内容

本发明的目的在于提供一种针对退化文字行的字符识别装置和方法，其通过使用更好的特征来产生更合理的识别距离，从而解决了利用双子空间进行分割而出现的问题。

根据本发明的一个方面，提供了一种用于退化文字行的字符识别装置，该字符识别装置包括：特征提取单元，利用第一字典从所输入的归一化图像中提取特征；粗分类单元，通过将所提取的特征与存储在第二字典中的特征进行比较，来选择特定数量的字符候选类别；特征重构单元，通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征；精细识别单元，根据由所述特征提取单元提取的特征与所述重构特征来识别并输出最终的识别字符编码；图像重构单元，通过使用所述第一字典以及由所述特征重构单元生成的重构特征来重构数量为所述特定数量的重构图像；识别距离计算单元，用于根据所输入的归一化图像和所述图像重构单元生成的重构图像来计算并输出识别距离。

根据本发明的另一方面，提供了一种用于退化文字行的字符识别方法，该字符识别方法包括以下步骤：利用第一字典从所输入的归一化图像中提取特征；通过将所提取的特征与存储在第二字典中的特征进行比较，来选择特定数量的字符候选类别；通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征；根据所提取的特征与所述重构特征来识别并输出最终的识别字符编码；通过使用所述第一字典以及所述重构特征来重构数量为所述特定数量的重构图像；根据所输入的归一化图像和所述重构图像来计算并输出识别距离。

由于在本发明中，根据所提取的特征与重构特征来识别并输出最终的识别字符编码，并且根据所输入的归一化图像和重构图像来计算并输出识别距离，所以本发明使用更好的特征产生了更适用于分割的识别距离，使得能够正确地分割退化文本行的字符。

附图说明

图1是传统的基于识别的分割方法的原理图。

图2是利用双子空间方法来进行字符识别的流程图。

图3是利用双子空间方法来进行字符识别的示例。

图4是根据本发明实施例的字符识别装置中所使用的字符识别方法的流程图。

图5是根据本发明实施例的字符识别装置中所使用的字符识别方法的示例。

具体实施方式

下面将参照附图说明本发明的实施例。

如图4所示，根据本发明实施例的字符识别装置包括：特征提取单元402，其利用第一字典403从所输入的归一化图像401中提取特征；粗分类单元404，通过将所提取的特征和存储在第二字典405中的特征进行比较，来选择M个字符候选类别；特征重构单元406，通过使用第三字典407以及该M个字符候选类别来重构M个重构特征；图像重构单元408，通过使用第一字典403来重构M个重构图像；精细识别单元409，通过比较由特征提取单元提取的特征与重构特征之间的差异，来输出最终的识别字符编码411；识别距离计算单元410，用于输出识别距离412。

根据图4所示的流程图，对于所输入的经过归一化的字符图像401，特征提取单元402利用第一字典403提取该字符图像的特征：

Y＝U^T(X-X) (1)

其中

X = {[x_{1}, x_{2}, . . ., x_{w * h}]}^{T}

表示长度和宽度分别为w和h的经过归一化的字符图像。

\overset{&OverBar;}{X} = {[{\overset{&OverBar;}{x}}_{1}, {\overset{&OverBar;}{x}}_{2}, . . ., {\overset{&OverBar;}{x}}_{w * h}]}^{T}

是所有归一化字符图像的平均值。U＝[u₁，u₂，...，u_n]^T是转换矩阵，其中

u_{i} = {[u_{i 1}, u_{i 2}, . . ., u_{iw * h}]}^{T} .

第一字典403由U和X构成。公式(1)中所使用的特征提取方法称为主成份分析方法(Principal ComponentAnalysis，简称PCA)。关于PCA的具体实现参见R.O.Duda，P.E.Hart和D.G.Stork.A所著的“Pattern classification”，second edition，A Wiley-Interscience Publication John Wiley & Sons，Inc.2001.pp.115～117，568～569。

在特征提取之后，通过粗分类单元404将所提取的特征Y和预先存储在第二字典405中的每一个字符类别的特征进行比较。特征比较的算法很多，其中一种是基于欧式距离的比较方法：D_i＝|Y-Y_i|，其中D_i是特征Y与第i字符类别的特征Y_i的欧式距离。假设粗分类单元404输出的候选字符类别的数量是M，则选择具有最小欧式距离的M个字符类别作为粗分类的输出。

特征重构单元406利用第三字典407来重构出与该M个候选类别相对应的M个重构特征。该第三字典存储有每一个字符类别的转换矩阵

{\tilde{U}}_{i} = [u_{1}^{i}, u_{2}^{i}, . . ., u_{n_{1}}^{i}]

和平均特征向量C_i。通过公式(2)获得第i重构特征

η_{i} = {\tilde{U}}_{i}^{T} (Y - C_{i}),

{\hat{Y}}_{i} = {\tilde{U}}_{i}^{T} η_{i} + C_{i} - - - (2)

图4中的精细识别单元409计算原始特征Y与M个重构特征

之间的差异，选择具有最小差异的字符类别作为精细识别的最终结果，输出与该字符类别相对应的编码作为识别出的字符编码411。

与图2所示的传统的双子空间方法不同，本发明的识别距离不是提取特征Y和重构特征之差。在本发明中，提出了一个新的图像重构单元408，其利用第一字典403来计算M个重构图像

{\overset{\cdot \cdot}{X}}_{i} = U {\hat{Y}}_{i} + \overset{&OverBar;}{X} - - - (3)

{\hat{X}}_{i} (k) = \frac{255 * ({\overset{\cdot \cdot}{X}}_{i} (k) - m_{1})}{(m_{2} - m_{1})},

m_{1} = \min {{\overset{\cdot \cdot}{X}}_{i} (k)},

m_{2} = \max {{\overset{\cdot \cdot}{X}}_{i} (k)} - - - (4)

公式(3)可以从公式(1)推导出来。公式(4)用于将重构图像的像素点的取值范围归一化为0～255。该范围与原始图像的像素点的取值范围是一致的。

图4中的识别距离计算单元410计算原始归一化字符图像401与M个重构图像

之间的距离，将其中的最小距离作为最后输出的识别距离412。

图5示出了通过根据本发明实施例的字符识别装置中所使用的字符识别方法得到的识别距离。可以看出，图5中的识别距离对于分割来说更加合理。“開”的识别距离是104.78，而它的四个组成部分的识别距离之和是494.02，远远大于“開”本身的识别距离104.78。因此可以正确地分割和识别该字符。

尽管实施例中采用的示例字符是日文字符，但是本方法不仅仅限于日语，其还可以适用于中文和韩文等其它文字。

Claims

1. 一种用于退化文字行的字符识别装置，该字符识别装置包括：

特征提取单元，利用第一字典从所输入的归一化图像中提取特征；

粗分类单元，通过将所提取的特征与存储在第二字典中的特征进行比较，来选择特定数量的字符候选类别；

特征重构单元，通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征，

其特征在于，还包括：

精细识别单元，根据由所述特征提取单元提取的特征与所述重构特征来识别并输出最终的识别字符编码；

图像重构单元，通过使用所述第一字典以及由所述特征重构单元生成的重构特征来重构数量为所述特定数量的重构图像；

识别距离计算单元，用于根据所输入的归一化图像和所述图像重构单元生成的重构图像来计算并输出识别距离。

2. 根据权利要求1所述的字符识别装置，其中所述精细识别单元比较由所述特征提取单元提取的特征与所述重构特征之间的差异，并输出与差异最小的重构特征相对应的字符编码作为所述最终的识别字符编码。

3. 根据权利要求1所述的字符识别装置，其中所述图像重构单元将所述重构图像的像素点的取值范围归一化为0到255的范围。

4. 根据权利要求1所述的字符识别装置，其中所述识别距离计算单元计算所输入的归一化图像与所述图像重构单元生成的重构图像之间的距离，并将其中的最小距离输出为所述识别距离。

5. 根据权利要求1到4中的任何一个所述的字符识别装置，其中所述第一字典由一转换矩阵和所有归一化图像的平均值构成。

6. 根据权利要求1到4中的任何一个所述的字符识别装置，其中所述第二字典存储有每一个字符类别的特征。

7. 根据权利要求1到4中的任何一个所述的字符识别装置，其中所述第三字典存储有每一个字符类别的转换矩阵和平均特征向量。

8. 一种用于退化文字行的字符识别方法，该字符识别方法包括以下步骤：

利用第一字典从所输入的归一化图像中提取特征；

通过将所提取的特征与存储在第二字典中的特征进行比较，来选择特定数量的字符候选类别；

通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征；

根据所提取的特征与所述重构特征来识别并输出最终的识别字符编码；

通过使用所述第一字典以及所述重构特征来重构数量为所述特定数量的重构图像；

根据所输入的归一化图像和所述重构图像来计算并输出识别距离。

9. 根据权利要求8所述的字符识别方法，其中识别并输出最终的识别字符编码的所述步骤比较所提取的特征与所述重构特征之间的差异，并输出与差异最小的重构特征相对应的字符编码作为所述最终的识别字符编码。

10. 根据权利要求8所述的字符识别方法，其中重构图像的所述步骤将所述重构图像的像素点的取值范围归一化为0到255的范围。

11. 根据权利要求8所述的字符识别方法，其中计算并输出识别距离的所述步骤计算所输入的归一化图像与所述重构图像之间的距离，并将其中的最小距离输出为所述识别距离。

12. 根据权利要求8到11中的任何一个所述的字符识别方法，其中所述第一字典由一转换矩阵和所有归一化图像的平均值构成。

13. 根据权利要求8到11中的任何一个所述的字符识别方法，其中所述第二字典存储有每一个字符类别的特征。

14. 根据权利要求8到11中的任何一个所述的字符识别方法，其中所述第三字典存储有每一个字符类别的转换矩阵和平均特征向量。