CN101901333B

CN101901333B - 文本图像中切分词的方法及使用该方法的识别装置

Info

Publication number: CN101901333B
Application number: CN 200910085536
Authority: CN
Inventors: 王琛; 刘正珍
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2009-05-25
Filing date: 2009-05-25
Publication date: 2013-04-03
Anticipated expiration: 2029-05-25
Also published as: CN101901333A

Abstract

本发明提供了一种文本图像中切分词的方法及使用该方法的识别装置，属于图像处理领域。本方法包括：由参数分析单元对输入的字符信息进行参数分析；根据所述分析所得的字符信息进行预处理；计算字符间距数组；所述字符间距数组进行模板卷积平滑得到平滑数组；运算单元计算间距数组与平滑数组对应位置的差值，根据所述差值与预先设定的阈值相比进行空格的判断；对判断得到的空格进行后处理。对应识别装置由参数分析单元、字符识别单元、数据传输单元、预处理单元、运算单元、比较判断单元和后处理单元组成，该方法求取局部峰值作为选取依据，字符所在区域进行的预处理提高了倾斜字体的切分的准确性，在复杂的字符排版的过程中方便了通用阈值的选取。

Description

文本图像中切分词的方法及使用该方法的识别装置

技术领域

本发明属于图像处理领域，涉及一种在文本图像中的切分词的方法。

背景技术

OCR技术的一般流程为版面分析、行切分、字符切分、单字识别、后处理，如果进行识别的是以词为单位书写的语种，在进行单字识别之后还需进行单词的切分，进行单词切分主要是根据字符之间的间距来判断的，如果间距较大，则这个位置有可能是一个空格，空格之后的字符则是单词的首个字符。

通常情况下，我们可以根据字符间距的统计信息估计一个阈值，根据阈值来判断某个字符之前是否存在空格，如果某个字符之前的间距大于阈值，则认为该字符之前是空格，该字符是一个单词的起始字符，但在应用中可能会出现很多情况。

如果一行文字中存在倾斜字体，这时倾斜字体的文字所占的区域往往是重叠的，导致两个字符所占区域的间隔不真实，很难判断哪个间隔是一个空格。如图1第一行中的“of flight”，两个f之间的空格就被第一个f的顶部和第二个f的底部遮盖。

如果字符排版疏密程度不统一，这时通用阈值不容易选取，空格也较难判断。而且如果一行中可能有字体较大的字和字体较小的字，字体较大的字所在的词间的空格与字体较小的字所在的词间的空格差距较大时，容易造成混淆。如图2所示的文字中，左边较大字体的词间空格最小为10像素，右边较小字体的词间空格平均为5像素，而左边较大字体字符之间的间距很多都大于5像素，所以如果取统一阈值的话，将会得到错误的切分结果。

发明内容

本发明提供了文本图像中切分词的方法及使用该方法的识别装置，求取字符间隔值数列的局部峰值作为可能的空格位置，字符所在区域进行的预处理提高了倾斜字体的切分的准确性，在复杂的字符排版的过程中方便了通用阈值的选取。

本发明涉及文本图像中切分词的方法，包括如下步骤：

步骤(1)，由参数分析单元对输入的一行字符中的字符信息进行参数分析。

步骤(2)，分析所得的字符信息传输至预处理单元，由预处理单元根据所述分析所得的字符信息进行预处理。

步骤(3)，运算单元根据预处理后的字符信息计算字符间距，形成字符间距数组。

步骤(4)，运算单元对所述字符间距数组进行基于模板卷积的平滑滤波，得到平滑数组。

步骤(5)，运算单元计算字符间距数组与平滑数组对应位置的差值，由比较判断单元根据所述差值与预先设定的阈值相比进行空格的判断。

步骤(6)，由后处理单元对判断得到的空格进行后处理。

进一步，该方法还包括，步骤(1)中所述输入的一行字符由字符识别系统识别后输入。

进一步，该方法还包括，其特征在于，所述参数包括字符间距的平均值、字符宽高比的平均值和字符宽度的平均值。

进一步，该方法还包括，进一步，该装置还包括，所述预处理包括根据字符信息调整字符区域的左右边界。

进一步，该方法还包括，所述字符区域为能完全包含该字符的最小的矩形框。

进一步，该方法还包括，所述预处理包括：对于倾斜字体的字符，缩紧其矩形框，取字符在四线三格之中的中间格所占的区域作为新的字符区域。

进一步，该方法还包括，取字符在四线三格之中的中间格所占的区域的方法包括：首先得到小写字母a、c、e、m、n、o、r、s、t、u、v、w、x和z字符的上下轮廓，然后通过对所述字符的上轮廓点和下轮廓点进行最小二乘法拟合得到构成中间一格的四线中的第二条线和第三条线。

进一步，该方法还包括，所述预处理包括：对于窄字符，拉伸其矩形框，将其矩形框的左边界减去平均字符间距的1/3，其矩形框的右边界加上平均字符间距的1/3。

进一步，该方法还包括，该装置还包括，所述窄字符是宽高比小于平均宽高比的1/3的字符。

进一步，该方法还包括，步骤(3)中所述字符间距等于当前字符区域的左边界与前一字符区域右边界之间的距离。

进一步，该方法还包括，所述模板根据经验所得，优选的模板可以取(0.25，0.5，0.25)。

进一步，该方法还包括，如果步骤(5)中所述差值大于所述阈值，所述差值对应的位置即判断为一空格。

进一步，该方法还包括，所述后处理包括如下步骤：

步骤61由后处理单元计算差值数组中所有空格位置所对应差值的平均值，如果某个空格位置的差值小于平均值的2/3，则认为该位置不是一个空格。

步骤62由后处理单元计算间距数组中所有空格位置所对应间距的平均值，如果某个空格位置的间距小于平均值的2/3，则认为该位置不是一个空格，转回步骤61；如果所有空格位置的间距都大于或等于平均值的2/3，则返回切分结果。

文本图像识别的装置，该装置包括：字符识别单元，用于识别文本图像中的字符，并将识别的字符输出；还包括：

参数分析单元，对由所述字符识别单元输入的一行字符中的字符信息进行参数分析；

数据传输单元，将所述已分析的字符信息传输至预处理单元；

预处理单元，根据所述已分析的字符信息进行预处理；

运算单元，根据预处理后的字符信息计算字符间距，形成字符间距数组，对所述字符间距数组进行基于模板卷积的平滑滤波，得到平滑数组；计算所述字符间距数组与所述平滑数组对应位置的差值；

比较判断单元，根据所述差值与预先设定的阈值相比进行空格的判断；

后处理单元，对判断得到的空格进行后处理。

本发明所述的切分词的方法，与现有技术相比其优点在于：

1本发明所采用的预处理，对倾斜字体取其四线三格中间一格的字符所占的区域作为新的字符区域，这样防止了倾斜字符顶部或底部对字符间距的遮挡，有效的解决了倾斜字体带来的问题。

2本发明利用字符间距局部峰值的方法来确定空格，很好的解决了一行中字符排版过密和一行中多种字体所带来的问题。

附图说明

图1为一行中存在倾斜字体的文本图像；

图2为一行中有字体大小不同文字的文本图像；

图3为本发明实施例的文本行的二值图像；

图4为本发明一种图像中切分词的方法的流程图；

图5为本发明实施例中对字符信息进行预处理；

图6为本发明实施例中对切分结果进行后处理；

图7a为本发明实施例中文本区域的四线三格图；

图7b为本发明实施例中倾斜字符顶部或底部遮盖住空格的情况。

具体实施方式

为了能更清楚地理解本发明的技术内容，特举以下实施例详细说明。

本发明中文本图像中的切分词的方法，是为了与自然语言理解领域词语切分或分词区分。该方法适用于以词为单位书写的语种，如英文，德文等。

本发明的实施例为对如图3所示图像进行切分词，该实施例的工作流程如图4所示，其处理过程包括如下步骤：

步骤1，使用参数分析单元对由字符识别系统识别后输入的一行字符中的字符信息进行参数分析，所述参数包括字符间距的平均值、字符宽高比的平均值和字符宽度的平均值等。字符信息包括字符所在的矩形区域，是否是倾斜字体等信息。例如图3所示的文本区域，通过参数分析单元的分析可知其字符间距的平均值为3像素，字符宽高比的平均值为0.73，字符宽度的平均值为16像素。

步骤2，分析所得的字符信息传输至预处理单元，由预处理单元根据所述分析所得的字符信息进行预处理。预处理单元的预处理包括根据已分析的字符信息调整字符所占矩形区域的左右边界。

步骤21对于倾斜字体的字符，缩紧其字符区域。如图7a所示，取字符在四线三格之中的中间一格所占的区域作为新的字符区域，这样做可以避免倾斜字符顶部或底部遮盖住空格，如图7b中的‘f’和‘t’。其中求取四线三格中间一格的位置的方法可以如下，首先得到小写字母a、c、e、m、n、o、r、s、t、u、v、w、x和z的上下轮廓，然后通过对以上这些字符的上轮廓点和下轮廓点进行最小二乘法拟合得到构成中间一格的四线中的第二条线和第三条线。

步骤22对于窄字符，扩大其字符区域。对于窄字符，字符前后间隔的距离较大，容易被误认为字符之间的空格，对切分词结果造成影响。对窄字符的字符区域适当扩大，其左边界向左扩展平均字符间距的1/3，其右边界向右扩展平均字符间距的1/3。所述的窄字符指的是宽高比小于平均宽高比的1/3的字符，如“l”和“i”等。通过此步骤，可以解决由于这些字符的宽度较小而导致其他字符与这些窄字符之间的间距比一般字符大的问题，从而可以降低窄字符对后面空格判断的影响。

通过步骤21和步骤22，可以有效的解决倾斜字体中字符顶部或底部对空格的遮盖以及一些字符较窄导致与前后字符之间的间隔较大的情况。如图7b所示，字母“f”所占的矩形区域为能完全包含该字母“f”的最小的矩形框。以下字符所占的矩形区域也称为矩形框。如图5中流程图所示，该所述预处理可以包括以下两个步骤。

步骤3，运算单元根据预处理后的字符信息计算字符间距数组。在运行计算过程的硬件设备中划分出一段内存空间，并设定四个存储单元：第一存储单元、第二存储单元、第三存储单元、第四存储单元。字符间距等于当前字符的矩形区域的左边界减去前一个字符所占矩形区域的右边界，并将所述字符间距数组存入第一存储单元。针对本实施例，字符间距数组为表1中第一行数据。

步骤4，运算单元对所述字符间距数组进行模板卷积平滑得到平滑数组，其中模板根据经验所得，优选的模板取(0.25，0.5，0.25)，并将所述平滑数组存入第二存储单元。针对本实施例，平滑数组为表1中第二行数据。

步骤5，由运算单元读取并计算间距数组与平滑数组对应位置的差值，并将差值数组存入第三存储单元。间距数组与平滑数组的差值，可以反映出间距数组的变化程度，间距数组中局部的最大值所在的位置就有可能是一个空格。

由比较判断单元根据所述差值与预先设定的阈值来比较判断空格，如果所述差值大于所述阈值，所述差值对应的位置即判断为一空格，并将空格判断数组存入第四存储单元。

针对本实施例，差值数组为表1中第三行数据。空格判断数组为表2中第一行数据，其中1表示空格，0表示非空格。针对本实施例，阈值为字符平均宽度除以15，为1。差值数组中的数值大于阈值1的位置为一个局部峰值。

表1切分词过程中各存储单元存储的像素统计表

第一存储单元	02342934285473023847324212305231001238443113439382
		第二存储单元	123326332543521235353232721323611235332112336352
第三存储单元	10010301031121-100312001051-12004-10003111001103030

表2切分词过程中空格标识表

第四存储单元	000001000100100001010000100100100001000000001010
		后处理61	000001000100100001010000100100100001000000001010
后处理62	000001000100100001010000100000100001000000001010
		分词结果	000001000100100001010000100000100001000000001010

步骤5中的判断是根据局部峰值做出，局部峰值并不代表其所在位置的间隔值在整行字符间隔中都是峰值。如果某间隔本身并不大，但是该间隔两边的间隔值都很小，就会使得该位置成为一个局部峰值，但是这样的局部峰值并不代表一个真正的空格位置，这就需要对做出的判断进行后续处理。本实施例中局部峰值为表1中空格判断一行中所有等于1的位置，因为这些位置对应的差值均大于阈值1，但其中一些局部峰值可能并不代表一个真正的空格，如间距数组中的第27个间距5，这个位置并不是一个真正的空格位置，但是其前一个间距为0，后一个间距为2，可以得到该位置是一个局部峰值，所以需要对得到的空格判断进行进一步的处理，去除可疑的空格。

步骤6：由后处理单元对判断得到的空格进行后处理，通过整行的信息去除一些可疑的空格。如图6中流程图所示，后处理包括如下步骤：

步骤61：由后处理单元计算差值数组中所有空格位置所对应差值的平均值，如果某个空格位置的差值小于平均值的2/3，则认为该位置不是一个空格。这是因为整体的信息是较为可靠的，而某些可疑空格的局部峰值的变化程度要比整体局部峰值的变化程度的2/3小。针对本实施例，差值数组中所有空格位置的平均值为3，所有空格位置的差值均大于或等于平均值的2/3，在本步骤中没有检测出可疑的空格，处理结果见表1中的后处理61。

步骤62：由后处理单元计算间距数组中所有空格位置所对应间距的平均值，如果某个空格位置的间距小于平均值的2/3，则认为该位置不是一个空格，转回步骤61；如果所有空格位置的间距都大于或等于平均值的2/3，则返回切分结果。与步骤61一样，步骤62也是用可靠的整体信息来判断空格是否可疑。针对本实施例，差值数组中所有空格位置的平均值为9，而第7个空格对应位置的间隔值为5小于所有空格位置的平均值的2/3，则认为该位置不是一个空格，处理结果见表1中的后处理62。

转步骤61后，再继续步骤62，均没有发现可疑的空格，则输出最终的分词结果。在本实施例中最终结果为：scale does not start at zero.(Chart firstpublished by R.

本发明还涉及一种文本图像识别的装置，该装置包括：字符识别单元、参数分析单元、数据传输单元、预处理单元、运算单元、比较判断单元和后处理单元。

字符识别单元，用于识别文本图像中的字符，并将识别的一行行字符输出。

参数分析单元，对由所述字符识别单元输入的一行字符中的字符信息进行参数分析，所述参数分析单元中分析的所述输入的一行字符是由字符识别系统识别后输入，所述参数包括字符间距的平均值、字符宽高比的平均值和字符宽度的平均值等。

数据传输单元，将所述已分析的字符信息传输至预处理单元。

所述预处理单元，根据所述已分析的字符信息进行预处理，所述预处理包括根据字符信息调整字符所占矩形区域的左右边界，所述字符所占的矩形区域为能完全包含该字符的最小的矩形框。

运算单元，根据预处理后的字符信息计算字符间距数组，对所述字符间距数组进行模板卷积平滑得到平滑数组，计算所述间距数组与所述平滑数组对应位置的差值。

比较判断单元，根据所述差值与预先设定的阈值来比较判断空格。

后处理单元，对判断得到的空格进行后处理。

其中，所述预处理可以包括：对于倾斜字体的字符，缩紧其矩形框，取字符在四线三格之中的中间一格所占的区域作为新的字符区域，以避免倾斜字符顶部或底部遮盖住空格。求取四线三格中间一格的位置的方法可以如下，首先得到小写字母a、c、e、m、n、o、r、s、t、u、v、w、x和z的上下轮廓，然后通过对以上这些字符的上轮廓点和下轮廓点进行最小二乘法拟合得到构成中间一格的四线中的第二条线和第三条线。所述预处理还可以包括：对于窄字符，拉伸其矩形框，将其矩形框的左边界减去平均字符间距的1/3，其矩形框的右边界加上平均字符间距的1/3，从而可以降低窄字符对后面空格判断的影响。所述的窄字符指的是宽高比小于平均宽高比的1/3的字符。

其中，所述字符间距等于当前字符的矩形区域的左边界减去前一个字符所占矩形区域的右边界，得到的所述字符间距数组存入第一存储单元。针对本实施例，字符间距数组为表1中第一行数据。

其中，所述模板根据经验所得，优选的模板取(0.25，0.5，0.25)，得到的所述平滑数组存入第二存储单元。针对本实施例，平滑数组为表1中第二行数据。

如果所述比较判断单元判断所述差值大于所述阈值，所述差值对应的位置即判断为一空格，得到的空格判断数组存入第四存储单元。

所述后处理单元的后处理可以包括如下步骤：

1、后处理单元计算差值数组中所有空格位置所对应差值的平均值，如果某个空格位置的差值小于平均值的2/3，则认为该位置不是一个空格；

2、后处理单元计算间距数组中所有空格位置所对应间距的平均值，如果某个空格位置的间距小于平均值的2/3，则认为该位置不是一个空格，转回上一步骤；如果所有空格位置的间距都大于或等于平均值的2/3，则返回切分结果。

尽管已经示出并描述了本发明的实施例，但是本领域技术人员可以理解，在不偏离本发明的精神和原理的基础上，可以对此实施例改变，本发明的范围由所附权利要求和它们的等同变换限定。

Claims

1.一种文本图像中切分词的方法，其特征在于，包括：

步骤(1)，由参数分析单元对输入的一行字符中的字符信息进行参数分析；

步骤(2)，分析所得的字符信息传输至预处理单元，由预处理单元根据所述分析所得的字符信息进行预处理；所述预处理包括根据字符信息调整字符区域的左右边界，所述字符区域为能完全包含该字符的最小的矩形框；

步骤(3)，运算单元根据预处理后的字符信息计算字符间距，形成字符间距数组；

步骤(4)，运算单元对所述字符间距数组进行基于模板卷积的平滑滤波，得到平滑数组；

步骤(5)，运算单元计算字符间距数组与平滑数组对应位置的差值，由比较判断单元根据所述差值与预先设定的阈值相比进行空格的判断；

步骤(6)，由后处理单元对判断得到的空格进行后处理，所述后处理包括如下步骤：

步骤61由后处理单元计算差值数组中所有空格位置所对应差值的平均值，如果某个空格位置的差值小于平均值的2/3，则认为该位置不是一个空格；

2.根据权利要求1所述的切分词的方法，其特征在于，步骤(1)中所述输入的一行字符由字符识别系统识别后输入。

3.根据权利要求1所述的切分词的方法，其特征在于，所述参数包括字符间距的平均值、字符宽高比的平均值和字符宽度的平均值。

4.根据权利要求1所述的切分词的方法，其特征在于，所述预处理包括：对于倾斜字体的字符，缩紧其矩形框，取字符在四线三格之中的中间格所占的区域作为新的字符区域。

5.根据权利要求4所述的切分词的方法，其特征在于，取字符在四线三格之中的中间格所占的区域的方法包括：首先得到小写字母a、c、e、m、n、o、r、s、t、u、v、w、x和z字符的上下轮廓，然后通过对所述字符的上轮廓点和下轮廓点进行最小二乘法拟合得到构成中间一格的四线中的第二条线和第三条线。

6.根据权利要求1或4所述的切分词的方法，其特征在于，所述预处理包括：对于窄字符，拉伸其矩形框，将其矩形框的左边界减去平均字符间距的1/3，其矩形框的右边界加上平均字符间距的1/3。

7.根据权利要求6所述的切分词的方法，其特征在于，所述窄字符是宽高比小于平均宽高比的1/3的字符。

8.根据权利要求1所述的切分词的方法，其特征在于，步骤（3）中所述字符间距等于当前字符区域的左边界与前一字符区域右边界之间的距离。

9.根据权利要求1所述的切分词的方法，其特征在于，所述模板根据经验所得，模板取(0.25,0.5,0.25)。

10.根据权利要求1所述的切分词的方法，其特征在于，如果步骤（5）中所述差值大于所述阈值，所述差值对应的位置即判断为一空格。

11.一种文本图像识别的装置，包括：

字符识别单元，用于识别文本图像中的字符，并将识别的字符输出；其特征在于，该装置还包括：

预处理单元，根据所述已分析的字符信息进行预处理；所述预处理包括根据字符信息调整字符区域的左右边界，所述字符区域为能完全包含该字符的最小的矩形框；

后处理单元，对判断得到的空格进行后处理，所述后处理包括如下步骤：