CN100514355C - 指定文本行提取方法和装置 - Google Patents

指定文本行提取方法和装置 Download PDF

Info

Publication number
CN100514355C
CN100514355C CNB2005100986280A CN200510098628A CN100514355C CN 100514355 C CN100514355 C CN 100514355C CN B2005100986280 A CNB2005100986280 A CN B2005100986280A CN 200510098628 A CN200510098628 A CN 200510098628A CN 100514355 C CN100514355 C CN 100514355C
Authority
CN
China
Prior art keywords
text
line
stroke
threshold value
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100986280A
Other languages
English (en)
Other versions
CN1928891A (zh
Inventor
孙俊
堀田悦伸
藤本克仁
直井聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CNB2005100986280A priority Critical patent/CN100514355C/zh
Priority to JP2006239515A priority patent/JP4984756B2/ja
Publication of CN1928891A publication Critical patent/CN1928891A/zh
Application granted granted Critical
Publication of CN100514355C publication Critical patent/CN100514355C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

指定文本行提取方法和装置。本发明的在垂直方向上分离文本行图像的方法,包括:多行判断步骤,判断所述文本行图像是否包含多行文本;行间噪声去除步骤,在判断出所述文本行图像包含多行文本时,进行行间噪声去除。本发明还提供了一种提取指定文本行的方法。

Description

指定文本行提取方法和装置
技术领域
本发明涉及一种指定文本行的提取装置和方法,更具体地,涉及从诸如表格栏目等的多个文本行中提取指定文本行的装置和方法。
背景技术
指定文本行提取是表格识别等应用中非常重要的一个功能。它的目的是利用预先定义好的、标准的、用于指定文本行的信息(称为指定文本行描述信息),从混合在一起的若干行文本行图像中把指定的文本行提取出来。然而,检测表格的栏目中的目标文本行并不是一件容易的工作,首先,在一个栏目中可能有不止一行的文本行;其次,文本行之间可能有许多噪声。图1是表格识别的一个示例,在这个栏目中有5行文本信息,但只有第2行右边部分的数字字母串是需要提取的信息。图1中的灰色块代表中文字符,例如公司名称等,图中还有一些由于印章带来的背景噪声。
根据预先设定的标准指定文本行的一些信息(比如行的序号(第几行)、坐标信息等)可以准确地把该指定文本行提取出来。指定文本行提取的困难是如何有效地描述指定的文本行,以及如何去除背景噪声对提取带来的影响。同时,指定文本行和实际文本行之间可能有比较大的差异,标准指定文本行的位置和大小信息只能作为提取的一个参考。
在本专利申请之前已经有一些文章和专利涉及到了文本行提取,比如:
1.YMY Hasan,LJ Karam,“Morphological text extraction fromimages”,IEEE Transactions on Image Processing,2000 v9,iss.11.p1979~1983;
2.K.Fujimoto,H.Kamada,K.Kurokawa,“Document imagerecognition apparatus and computer-readable storage mediumstoring document image recognition program”.US 6,332,046 B1;
3.Stringa,“Automatic recognition of characters onstructured background by combination of the models of thebackground and of the characters”.US 6,690,824;
4.Lee,“Polygon-based technique for the automaticclassification of text and graphics components from digitizedpaper-based forms”.US 5,050,222。
这些方法的侧重点是如何把文本行从不同的背景图像中提取出来,但是它们不能有效地从若干个混合在一起的文本行中把指定的文本行提取出来。这些方法的另外一个问题就是它们对背景噪声的影响是非常敏感的。图2例举了美国专利US 6,332,046 B1对图1所示图像进行的提取的结果。总共提取出了6个文本行。但是指定文本行被分割成了两个部分,并且由于印章噪声所造成的影响,其中一个部分还由于噪声笔画而和其它文本行粘连在了一起。
发明内容
因此,本发明的一个目的是通过有效去除背景噪声,把表格栏目等中的包含指定文本行的所有文本行准确地提取出来。本发明的另一个目的是利用指定文本行描述信息的信息从若干个提取的文本行中把指定的文本行分离出来。
根据本发明的一个方面,提供了一种在垂直方向上分离文本行图像的方法,所述方法包括判断所述文本行图像是否包含多行文本的多行判断步骤,所述多行判断步骤判断该文本行图像高度是否大于文本行高度阈值,如果该文本行图像的高度大于所述文本行高度阈值,则判断其包含多行文本,否则判断其未包含多行文本,其特征在于,所述文本行图像为二值图像,所述方法还包括:笔画阈值获得步骤,用于获得表明有效文本行中的最少字符数的第一笔画阈值;行间噪声去除步骤,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除。
根据本发明的另一方面,提供了一种在垂直方向上分离文本行图像的装置,所述装置包括判断所述文本行图像是否包含多行文本的多行判断单元,所述多行判断单元判断该文本行图像高度是否大于文本行高度阈值,如果该文本行图像的高度大于所述文本行高度阈值,则判断其包含多行文本,否则判断其未包含多行文本,其特征在于,所述文本行图像为二值图像,所述装置还包括:笔画阈值获得单元,用于获得表明有效文本行中的最少字符数的第一笔画阈值;行间噪声去除单元,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除。
根据本发明的又一方面,提供了一种提取指定文本行的方法,所述文本行图像为二值图像,所述方法包括文本行预提取步骤,用于对包含所述指定文本行的文本行图像进行文本行的预提取,其特征在于,还包括:水平方向文本行分离步骤,用于分离在水平方向上相互粘连的两个或更多个文本行;垂直方向文本行分离步骤,用于分离在垂直方向粘连在一起的两个或者更多个文本行,包括:多行判断步骤,判断所述文本行图像是否包含多行文本;笔画阈值获得步骤,用于获得表明有效文本行中的最少字符数的第一笔画阈值;和行间噪声去除步骤,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除;分离判断步骤,判断在所述垂直方向文本行分离步骤和所述水平方向文本行分离步骤两者中后执行的步骤中是否对文本行进行了垂直方向或水平方向的分离;如果所述分离步骤判断在所述垂直方向文本行分离步骤和所述水平方向文本行分离步骤两者中后执行的步骤中对文本行进行了垂直方向或水平方向的分离,则对经分离后的文本行图像进行所述文本行预提取步骤、所述水平方向文本行分离步骤、垂直方向文本行分离步骤和分离判断步骤,并重复上述步骤,直到没有文本行在所述垂直方向文本行分离步骤和所述水平方向文本行分离步骤两者中后执行的步骤中被分离为止。
根据本发明的再一方面,提供了一种提取指定文本行的装置,所述文本行图像为二值图像,所述装置包括文本行预提取单元,用于对包含所述指定文本行的文本行图像进行预提取,其特征在于,还包括:水平方向文本行分离单元,用于分离在水平方向上相互粘连的两个或更多个文本行;垂直方向文本行分离单元,用于分离在垂直方向粘连在一起的两个或者更多个文本行,包括:多行判断单元,判断所述文本行图像是否包含多行文本;笔画阈值获得单元,用于获得表明有效文本行中的最少字符数的第一笔画阈值;行间噪声去除单元,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除;分离判断单元,判断在所述垂直方向文本行分离单元和所述水平方向文本行分离单元两者中后执行的单元中是否对文本行进行了垂直方向或水平方向的分离;如果所述分离单元判断在所述垂直方向文本行分离单元和所述水平方向文本行分离单元两者中后执行的单元中对文本行进行了垂直方向或水平方向的分离,则将经分离后的文本行图像输入所述文本行预提取单元,并进行所述文本行预提取单元、所述水平方向文本行分离单元、垂直方向文本行分离单元和分离判断单元的处理,并重复上述单元的处理,直到没有文本行在所述垂直方向文本行分离单元和所述水平方向文本行分离单元两者中后执行的单元中被分离为止。
附图说明
图1示出了表格识别的一个示例;
图2示出了现有技术的方法对图1中的示例的识别结果;
图3A是本发明一个实施例的指定文本行提取装置的功能框图;
图3B是本发明一个实施例的指定文本行提取装置的处理流程图;
图4A是水平方向文本行分离单元303的结构方框图;
图4B是水平方向文本行分离单元303的处理流程图;
图4C示出了如何计算字符水平间隙;
图5A是图3中垂直方向文本行分离单元的功能方框图;
图5B是图3中垂直方向文本行分离单元的处理流程图;
图6A是行间噪声去除单元503的功能方框图;
图6B是行间噪声去除单元503的处理流程图;
图7是图6中笔画直方图搜索单元603的处理流程图;
图8是第一笔画阈值估计单元的处理流程图;
图9是图3中文本行左右边缘位置调整单元307的流程图;
图10A和图10B示出了用于完成图9所示的左侧噪声字符去除处理和右侧噪声字符去除处理的边缘噪声字符去除单元;
图11是图3中文本行上下边缘位置调整单元308的功能方框图;
图12是指定文本行判别单元的处理流程图;
图13A—13D示意性地示出了本发明各步骤对图2中的各文本行进行处理之后的结果;
图13E中示意地显示了一个带噪声的文本行的笔画直方图;
图14示意性地示出了指定文本行描述信息存储单元中保存的指定文本行描述信息。
具体实施方式
下面结合附图具体描述本发明的优选实施例。这些实施例只是示例性和解释性的,不是对本发明保护范围的限制。
图3A是本发明一个实施例的指定文本行提取装置的功能框图。如图3A所示,本发明的一个实施例的指定文本行提取装置包括依次连接的输入单元301、文本行预提取单元302、水平方向文本行分离单元303、垂直方向文本行分离单元304、噪声点去除判断单元305、文本行左右边缘位置调整单元307、文本行上下边缘位置调整单元308、指定文本行判别单元309、输出单元310,以及与水平方向文本行分离单元303、垂直方向文本行分离单元304、文本行左右边缘位置调整单元307、指定文本行判别单元309相连接的指定文本行描述信息存储单元311。
图3B是本发明的一个实施例的指定文本行提取装置的处理流程图。
如图3B所示,依据本实施例,指定文本行提取装置在进行文本行提取时,在从输入单元301输入了表格栏目等的二值图像(步骤S301)之后,由文本行预提取单元302对该二值图像进行预提取,预提取可采用现有技术的方法(如专利US 6,332,046 B1所描述的方法,但本发明不限于此)来初步提取出该二值图像中的文本行(步骤S302)。文本行预提取步骤的输出包括提取出的文本行的数目、各文本行图像、以及其外接矩形的坐标、每个文本行内包含的字符的个数、每个字符的图像、以及每个字符图像外接矩形的坐标等。
如图2所示,在背景噪声的影响下,文本行预提取单元的效果是不能令人满意的。因此在本发明的实施例中,水平方向文本行分离单元303根据指定文本行描述信息存储单元中存储的文本行分离类型等信息来分离水平方向相互连接在一起的多个文本行(步骤S303)。然后由垂直方向文本行分离单元304通过去除行间噪声来分离两个或者更多个在垂直方向粘连在一起的文本行(步骤S304)。接着,在步骤S305中,噪声点去除判断单元305判断步骤S304中是否有噪声被去除(即判断是否进行了垂直方向的分离),如果有噪声被去除(步骤S306,是),则重复执行步骤S302到步骤S306,直到没有噪声被去除(步骤S306中的否)为止。
应该注意,在前面的描述中,在水平方向文本行分离之后进行垂直方向文本行分离,但也可以先进行垂直方向文本行分离,之后再进行水平方向文本行分离。
下面参照图13A-图13C说明本发明的各步骤的处理结果。
图13A是水平方向文本行分离单元303对图2中的各文本行进行水平方向文本行分离之后的结果。最上面的一行被正确分离为左右两个文本行(右边的文本行实际是由噪声组成的文本行)。但是水平方向文本行分离单元303无法直接分离图2中位于中间部分的被粘连在一起的3个文本行中的第一行。因为单元303假设文本行中只包含一行字符,它利用字符之间的间隙来判断该文本行是否应该被分离。但是在图2中被粘连在一起的3个文本行由于上下行之间的干扰,单元303无法正确估计出字符的间隙,因此无法正确地进行水平方向的分离。
图13B是第一次循环中垂直方向文本行分离单元304对经水平方向文本行分离单元303水平分离之后的图13A中的每个文本行进行垂直方向文本行分离之后的结果。图13A中3个粘连在一起的文本行之间的噪声被去除了,3个文本行被正确地上下分离了。但是这3个文本行的左右边界和垂直分离之前是一致的,即指定文本行仍然被左右分离为2个部分。
噪声点去除判断单元305通过比较输入到文本行预提取单元的二值图像和单元304输出的图像的差别,判断是否有噪声点被去除,如图13A和图13B所示,由于有噪声点被去除,所以原来提取的文本行可能发生改变,因此单元304输出的二值图像重新被送到文本行预提取单元302进行文本行的预提取。图13C是第二次循环后水平方向文本行分离单元303的输出结果,这时指定文本行已经被正确分离出来。由于在第二次循环中的垂直文本行分离单元没有噪声被去除,因此循环中止。此时获得了准确提取出来的文本行。
被分离出的文本行被输入到文本行左右边缘位置调整单元307和文本行上下边缘位置调整单元308来进一步调整文本行的上下左右边缘位置。单元307和308的作用是精确地定位文本行的上下左右的边界,因为指定文本行的提取依赖于文本行的长度和宽度信息。
最后,所有提取出来的文本行被输入到指定文本行判别单元309,该单元利用存储在指定文本行描述信息存储单元311中的信息(下面的一段说明了311中保存的信息)来找出指定的文本行。
指定文本行描述信息存储单元311中保存的信息包括指定文本行的行数、每个标准指定文本行图像的外接矩形的坐标信息、文本行分离类型、文本行数据类型、和文本行长度类型。如图14A所示,文本行的分离类型有3种:不可分离文本行、可分离文本行、带有间隔的不可分离的文本行。图14A是这3种文本行的一些例子。如图14B所示,文本行数据类型包括4种:数字文本行、符号文本行、金额文本行、和中文文本行;文本行长度类型有两种:可变长度文本行和固定长度文本行。
下面结合附图详细说明图3中各单元的功能和实现。
图4用来说明水平方向文本行分离单元303。
图4A是水平方向文本行分离单元303的结构方框图。如图4A所示,本实施例的水平方向文本行分离单元303包括依次连接的文本行分离类型判断单元402、分离间隙阈值估计单元403、水平文本行分离处理单元404。文本行分离类型判断单元402根据指定文本行描述信息存储单元311中存储的文本行分离类型判断输入的预提取文本行属于哪种文本行分离类型,即,是不可分离文本行、可分离文本行、带有间隔的不可分离的文本行中哪一种。分离间隙阈值估计单元403估计水平分离操作所使用的分离间隙阈值。水平文本行分离处理单元404利用该分离间隙阈值来进行水平方向的文本行分离。
图4B是水平方向文本行分离单元303的功能流程图。在输入了预提取的文本行(步骤S401)之后,首先由文本行分离类型判断单元402判断指定文本行的分离类型(步骤S402),如果文本行分离类型是带有间隔的不可分离的文本行(步骤S406,是),则直接返回输入的文本行。如果文本行分离类型是不可分离的文本行或者可分离文本行(步骤S406,否),则分离间隙阈值估计单元403估计水平分离操作所使用的分离间隙阈值(步骤S403)。然后水平文本行分离单元404利用该分离间隙阈值进行水平方向的文本行分离(S404),最后输出水平方向分离后的文本行(步骤S405)。
这里的文本行指的是从文本行预提取单元得到的文本行。如果指定文本行是一个紧密相连,行内字符之间没有明显间隔的文本行,这是不可分离类型。如果指定文本行包含明显的间隙,比如图14-A的2和3。这里分两种情况,一种情况是被间隙分开的2个紧密相连的文本行都是需要的(指定文本行),比如说图14-A的3,这种情况我们定义为带间隙的不可分离的文本行。另外一种情况是被间隙分开的2个文本行中只有一个是我们需要的,比如图14-A的2,这种情况我们定义为可分离的文本行。
在分离间隙阈值估计单元403中,对于每个输入的文本行,首先利用所有的相邻字符的水平间隙计算出文本行内的水平间隙直方图:H(S)=Ns。S是以像素点为单位的水平间隙的大小,Ns是具有对应S值的水平间隙的个数。比如H(10)=3表示间隙距离为10个像素点的间隙个数是3。从直方图中可以找到对应最大直方图数值(即Ns的最大值,它代表最有代表性的间隙,因为具有该间隙距离的间隙个数最多)的水平间隙Smax。分离间隙阈值是由以下两个数值的较大值来决定的:一个数值是保存在指定文本行描述信息中的指定文本行的高度;另一个数值是C×Smax,其中C是一个系数,比如C=3,这是根据经验得到的数值,大约在2~5之间。因为有时候文本行内的字符之间间隙非常小,比如有时候大多是间隙为1或者2个像素点,这时Smax可能就是1。但是如果直接根据这个数值定义阈值的话,这个阈值可能会很小(C=3的话也就是3)。因此还要把这个阈值和字符的高度进行比较,如果间隙太小的话就根据高度来定阈值。另外一种情况是间隔比较大,而且文本行内的字符数不多,此时估计出来的Smax可能不够精确(比如没有具有相同距离的间隙),这时利用高度来定阈值比较稳定。
在估计分离间隙阈值时利用了文本行预提取单元302输出的文本行中每个字符的位置信息。图4C示出了同一文本行中两个相邻的字符图像和对应的外接矩形坐标。假定第一个字符的外接矩形的左上和右下坐标分别是(XSi,YSi)和(XEi,YEi),第二个字符的外接矩形的左上和右下的坐标分别是(XSi+1,YSi+1)和(XEi+1,YEi+1),则这两个字符的水平间隙是XSi+1-XEi+1
在利用分离间隙阈值进行水平文本行分离的水平文本行分离处理单元404中,检查每个文本行中每两个字符之间的间隙。如果字符之间的水平间隙大于分离间隙阈值,则该文本行从这两个字符之间分离成两个文本行,以图4C中的情况为例,在分割时,第一个文本行的左边界是原文本行的左边界,右边界是XEi,第二个文本行的左边界是XSi+1,右边界是原文本行的右边界。上下边界和原文本行相同。如图13A中最上面一行所示,图2中最上面的一行被水平分离为两个文本行。
下面结合图5—图8说明图3中的垂直方向文本行分离单元304。
图5A是图3中垂直方向文本行分离单元304的功能方框图。如图5A所示,本发明的垂直方向文本行分离单元304包括判断单元502、文本行高度阈值估计单元506、第一笔画阈值估计单元507以及行间噪声去除单元503。文本行高度阈值估计单元506用于根据存储单元311中的信息计算文本行的高度阈值,多行判断单元502根据文本行高度阈值估计单元506所计算的文本行高度阈值判断是否存在多个文本行。行间噪声去除单元503在当多行判断单元502判断出存在多个文本行时,根据第一笔画阈值估计单元507估计出的第一笔画阈值去除行间的噪声,从而获得在垂直方向分离后的文本行。
图5B是图3中垂直方向文本行分离单元304的流程图。如图5B所示,在输入了经过水平方向分离后的文本行(步骤S501)之后,对于每一个经过水平方向分离后的文本行,将该文本行的高度和高度阈值进行比较,判断文本行高度是否大于文本行高度阈值(步骤S502)。该高度阈值是从文本行高度阈值估计单元506中得到的。如果文本行的高度小于等于高度阈值(步骤S502,否),则认为该文本行只包含一行文字,因此不进行垂直方向的文本行分离处理,直接输出(步骤S504)。这里,文本行高度阈值估计单元506计算高度阈值的公式如下:C1×H,其中C1是一个系数,H是保存在指定文本行描述信息中的标准文本行的高度。C1是一个略大于1的值,比如可以取C1=1.2。因为标准文本行的高度和实际指定文本行的高度有出入,因此,C1×H应大于最大的实际指定文本行高度。
如果输入的文本行高度大于高度阈值(步骤S502,是),则认为该文本行可能包含多行文本,则由行间噪声去除单元503利用从第一笔画阈值估计单元507(随后描述)得到的第一笔画阈值来分离该文本行垂直相连的多个文本行。图13B示出了经过行间噪声去除以后的结果。
图6A是行间噪声去除单元503的功能框图。如图6A所示,行间噪声去除单元503包括文本行划分单元601、有效文本行判断单元604、再分离判断单元605和再分离单元606。其中文本行划分单元601包括笔画直方图生成单元602、笔画直方图搜索单元603。
图6B是行间噪声去除单元503的处理流程图。在输入了文本行图像(S601)之后,笔画直方图生成单元602得到所输入的文本行图像的笔画直方图(步骤S602)。然后笔画直方图搜索单元603利用第一笔画阈值估计单元507(将随后描述)估计出的第一笔画阈值来搜索直方图,找出其中文本行的起点、终点、以及可能的两行文本行之间的分离点(S603)。之后,有效文本行判断单元604判断作为笔画直方图搜索单元603在步骤S603中的搜索结果的文本行是否为有效文本行(S604)。在这里,有效文本行就是高度足够大的文本行,如果高度不够大,可能是噪声造成的,不是所需的文本行。因此不需要进行处理。有效文本行包含两种情况,一种情况只包含一行文本,另外一种情况是包含多于一行的文本,这时候需要进行再分离。这里有效与否是通过比较文本行的高度和保存在存储单元中的指定文本行描述信息中的指定文本行的高度来实现的,如果文本行的高度小于C2×H(其中H是指定文本行的高度,C2是小于1的系数,比如可以取C2=0.6,C2×H必须小于实际指定文本行的高度),则该文本行不是有效的文本行。否则该文本行被判定为有效文本行。当其被判断为不是有效文本行时(S605,否),直接返回(在这种情况下,也就是说这个文本行从输出中删除了)。另一方面,当其被判断为是有效文本行时(步骤S605,是),通过再分离判断单元605判断该文本行是否可以被上下分离(S606),判断文本行是否可以再分离,可以如后面所述的那样利用直方图搜索的结果进行判断,也可采用前面所述的方法,判断其是否仍包含多行文本。如果该文本行不可以被再分离(步骤S607,否),则将该不可再被分离的文本行图像输出(S609),并返回。如果该文本行可以进行再分离,则由再分离单元对其进行分离,分成上下两部分(S608),并分别对该分成的两部分重复步骤S602—S607,直到文本行不可再继续分离为止。在输出之前,首先创建一个空白的输出图像块,每次搜索到一个有效的不可分离的文本行后都把该文本行的图像拷贝到输出图像块中。从而保存从文本行图像中提取出来的去除噪声以后的文本行。
笔画直方图生成单元602的原理如下:
输入到笔画直方图生成单元602的是文本行的二值图像,其中像素值点为1代表笔画像素点,像素点值为0代表背景像素点。直方图由下式表示:Hstr(S)=Nstr,其中S是二值图像中水平行的索引值,S的取值从0~h-1,代表图像的最上行到最下行,其中h是输入图像的高度(即行总数)。Nstr是第S行中的笔画段的个数。对于第S行,单元602从左向右找到第一个非0的像素点(笔画像素点),这个像素点代表一个笔画段的左边界,然后该单元从该点的下一个点继续搜索,找到第一个像素值为1,但是下一个点为0的像素点(也就是第一个像素值从1转换到0的像素点)。这个点代表笔画段的右边界。找到的一对左右边界代表一个笔画段。单元602扫描第S行,找出所有的笔画段,并把所得到的笔画段的总数赋值到Nstr中。
图7是图6中笔画直方图搜索单元603的处理流程图。在输入了笔画直方图Hstr(S)(步骤S701)之后,首先由起点搜索单元(末示出)按从0到h-1的顺序搜索直方图,找到第一个直方图取值(即Nstr)大于第一笔画阈值的点,并把这个点命名为起点(步骤S702)。如果找不到起点(步骤S703,否),该单元返回“未找到有效的文本行”信息。否则(步骤S703,是),终点搜索单元(未示出)按从h-1到0的顺序搜索第一个直方图取值大于第一笔画阈值的点,并把这个点命名为终点(步骤S704)。然后中间点搜索单元在起点和终点之间对直方图进行搜索,找到具有最小直方图取值的一个点,并命名为中间点(步骤S705)。如果中间点对应的笔画直方图值小于第一笔画阈值(步骤S706,是),则说明该文本行是可分离的,直方图搜索单元返回起点、终点和中间点的位置(步骤S708)。否则(步骤S706,否),该文本行是不可分离的,该单元返回起点和终点的位置(步骤S709)。
第一笔画阈值是一个非常重要的参数,在本文中,笔画阈值即一行中字符数的下限,它利用了文本行笔画的特性:如果一个文本行图像中只包含一行文本,那么对于这个文本图像的每一行进行扫描,它都至少应该穿过这个文本行中的每一个字符。也就是说,一个真正文本行的笔画直方图的取值都是应该大于该行中的字符个数的。如果一个文本行图像中包含了多于一行文本,文本之间由于噪声连接在一起,这时对于包含噪声的那些行来说,它们的笔画直方图的取值往往远远小于文本行笔画的个数。图13E中示意地显示了一个带噪声的文本行的笔画直方图。因此可以利用文本行的这个特性来去除噪声,分离这些文本行。
在实际操作中,不能仅仅依靠保存在指定文本行描述信息中的文本行中包含的字符个数来设置第一笔画阈值,因为如图12-B所示,指定的文本行可能在文本行预提取单元中被分割为几个部分,如果只利用标准文本行中包含的字符个数作为阈值,这几个部分可能都不会满足笔画阈值的要求。因此本发明利用第一笔画阈值估计单元507来计算第一笔画阈值。
图8是第一笔画阈值估计单元的处理流程图。在进行第一笔画阈值估计时,首先第一笔画阈值估计单元507的文本行字符计算单元(未示出)根据来自存储单元311的指定文本行描述信息,得到文本行中的字符个数Nchar(步骤S1402)。这个数值是通过统计标准文本行(即理想文本行)中的字符个数得到的。如果有超过一个的指定文本行,则Nchar的数值是该多个文本行中最短的文本行中包含的字符个数。接下来,由一判断单元判断文本行是否不可分离(步骤S1403)。此处的分离是指水平上可分离,可以利用311中的信息判断。如果指定文本行是不可分离的文本行(S1403,是),则在步骤S1404中,由字符密度估计单元(未示出)利用如下公式来估计字符的密度:
DEN=标准文本行中的字符个数/标准文本行的图像宽度(1)之后,在步骤1405,由第一阈值计算单元利用字符密度来计算第一笔画阈值THstrokel:
令d=DEN×输入文本行的宽度-1  (2)
如果d>Nchar-1则THstrokel=Nchar-1
否则THstrokel=d  (3)
注意,虽然在上面的计算中,使用了减1这一算法,但也可以减其他的数,比如2,或者按照一个比例(如90%)来乘以计算出来的字符数以得到最后的阈值,目的是为了防止由于断笔造成的笔画数目减少的现象。
另一方面,如果指定文本行是可分离的文本行,或者是带有间隙的不可分离的文本行(步骤S1403,否),则在步骤1406中,由第二阈值计算单元设置第二阈值,在一个示例中,其直接把阈值THstrokel指定为Nchar-1。
当指定文本行被分割成多个文本行的情况下,字符密度是非常重要的,公式(2)中的d可以准确地估计出输入的文本行中大约有多少个字符,公式(3)设置了第一笔画阈值的上限,因为一个指定文本行可能和其他水平文本行相连在一起(如图13A中所示)。公式(2)和(3)中的减1的操作是为了防止有些字符由于背景噪声的影响而出现的笔画断开的现象。这样,通过笔画阈值估计单元计算得到的阈值就可以有效处理指定文本行被水平分离为多个文本行的情况。
在再分离判断单元605中,如果笔画直方图搜索单元返回的结果表明一个文本行是可以再分离的,该单元把原始的文本行图像分为上下两个部分,上下图像的宽度和原始文本行的宽度是一致的。上半部分图像的上下边缘由笔画直方图搜索单元返回的起点和中间点来决定。下半部分图像的上下边缘由笔画直方图搜索单元返回的中间点和终点决定。
如果如图13B所示,一个文本行不能被再分离,笔画直方图搜索单元只返回起点和终点,这代表着该文本行的上下边界。在图6B中的步骤S609中,原图像中的一个文本图像块被拷贝到了输出的文本行图像中。这个文本图像块区域的上下范围由笔画直方图搜索单元返回的起点,终点决定,左右范围和原始输入的文本行的左右范围是一致的。这就是为什么图13B中中间3个经过分离后的文本行的左右范围和图13A中的中间文本行是一致的。
在图3中,当水平方向和垂直方向文本行分离操作结束以后,输出的文本行图像和原始的输入文本行图像在噪声去除判断单元305进行逐点的像素值比较。如果两个图像不是完全一致的,证明在分离操作中去除了噪声,因此原来的提取结果可能会发生变化,如图13B所示。因此,从302到306单元的操作将循环进行,直到没有噪声点被去除为止。
图9是图3中文本行左右边缘位置调整单元307的流程图。在输入了分离后的文本行(步骤S801)之后,首先利用左边缘噪声字符去除单元来去除文本行左侧的噪声字符(S802),然后利用右边缘噪声字符去除单元来去除文本行右侧的噪声字符(S803)。判断文本行的左右是否包含噪声字符,即是否在上面的处理中有噪声字符被去除(S804),这个过程不断重复直到文本行的左右不再包含噪声字符。
图10A和图10B示出了用于完成图9所示的左侧噪声字符去除处理和右侧噪声字符去除处理的左右边缘噪声字符去除单元。具体地,图10A示出了边缘噪声字符去除单元的功能框图。图10B示出该单元进行左侧噪声字符去除的处理的流程图。
如图10A所示,边缘噪声字符去除单元包括数字文本行判断单元901、最左侧字符确定单元902、最右侧字符确定单元903、单字符高度阈值估计单元905、单字符宽度阈值估计单元906、噪声字符判断单元904以及噪声字符去除单元907。其中最左侧字符确定单元902和最右侧字符确定单元903分别用于确定所输入的文本行的最左侧的字符和最右侧的字符,数字文本行判断单元根据来自指定文本行描述信息存储单元的信息判断所输入的文本行是否是数字文本行。单字符宽度阈值估计单元906和单字符高度阈值估计单元905分别利用文本行描述信息存储单元中保存的信息来估计单字符的宽度阈值和高度阈值。具体地,单字符宽度阈值估计单元906通过把文本行图像的宽度除以文本行内包含的字符个数得到单字符的宽度WIDTH,宽度的阈值定为Cw×WIDTH,Cw是一个取值在0到1之间的系数,比如可以取Cw=0.5。同样,单字符高度阈值估计单元905用来估计单字符高度阈值:Ch×HEIGHT,其中HEIGHT是标准文本行的高度,Ch是取值在0到1之间的系数,比如可以取Ch=0.6。噪声字符判断单元904根据数字文本行判断单元的信息,在文本行是数字文本行时,根据单字符高度阈值估计单元估计出来的高度阈值判断所考虑的字符是否为噪声字符,在文本行不是数字文本行时,根据单字符高度阈值估计单元估计出来的高度阈值和单字符宽度阈值估计单元估计出来的宽度阈值判断所考虑的字符是否为噪声字符。噪声字符去除单元去除被噪声字符判断单元判断为噪声字符的字符。
图10B是边缘噪声字符去除单元实现图9中左边缘噪声字符去除处理的流程图。首先利用输入的文本行的信息,可以得到文本行中每个字符的外接矩形的坐标,通过由最左侧字符确定单元搜索这些坐标,可以确定最左侧的字符(步骤S902)。然后判断字符是否为噪声字符,这可以通过把字符的长和宽与单字的宽度和高度信息进行比较来实现。具体地首先在步骤S903根据预先存在的文本行描述信息判断指定文本行是否是数字文本行,如果指定文本行是数字文本行(步骤S903,是),只把最左侧字符的高度和单字高度阈值相比较(步骤905),因为有些数字比如“1”的宽度是非常小的。如果字符高度小于阈值(步骤S905,是),则认为该字符是噪声字符并加以去除(步骤S906),这时文本行的左边界就是除去该噪声字符后的最左侧的字符的左边界。
如果指定文本行不是数字文本行(步骤S903,否),则最左侧的字符的高度和宽度都需要和对应的单字高度阈值和单字宽度阈值进行比较(步骤S904和S905),如果两个值都小于阈值,该字符被认为是噪声字符并加以去除(步骤S906)。
右边缘噪声字符去除处理的流程和左侧噪声字符去除处理的流程相同。唯一的区别是每次检查的是文本行中最右边的字符。
图11是图3中文本行上下边缘位置调整单元308的功能方框图。输入是经过左右噪声字符去除单元以后的文本行。首先笔画直方图生成单元1002对文本行的二值图像进行处理,获得对应的笔画直方图。这个单元和图6中的602单元是完全一致的。然后第二笔画阈值设置单元1003设置第二笔画阈值。具体地,可以将这个阈值设置成为Nchar-1。和图6中的直方图搜索单元603相似,起点搜索单元1004首先从上到下搜索笔画直方图以确定第一个笔画值大于第二笔画阈值的点,并命名为起点(即上边缘)。假设该点对应的笔画直方图的笔画值为S1,上边缘阈值再估计单元1005重新估计上边缘阈值:
THupper=Cupper×S1
其中Cupper是一个取值为0到1之间的系数,比如可以取Cupper=0.66。
然后起点位置调整单元1006利用重新估计出的上边缘的阈值,从起点开始向上搜索,找到第一个直方图取值小于上边缘阈值的点,然后把起点的位置调整到该点。
和上边缘相似,终点搜索单元1007从下到上搜索笔画直方图以确定第一个笔画值大于第二笔画阈值的点,并命名为终点(即下边缘)。然后一个下边缘阈值再估计单元1008重新估计下边缘的阈值:
THbottom=Cbottom×S2
其中Cbottom是一个取值在0~1之间的系数,比如可以取Cbottom=0.66。
然后由终点位置调整单元1009从该终点开始,向下搜索第一个直方图取值小于下边缘阈值的点,然后把终点的位置调整到该点。
上下边缘调整的目的是为了精确地确定文本行的上下位置。对于有些文本行比如符号行来说,可能有些符号是不能贯穿整个文本行的高度的,因此第二直方图阈值可能会导致一些字符的上下边缘被过度切割。通过放宽上下边缘的笔画阈值,可以确保字符的上下位置不至于被过度切割。当上下边缘位置经过调整以后,原文本行中位于上边缘以上以及下边缘以下的图像部分被认为是噪声,噪声去除单元1010通过把这些像素点的值设置成背景像素点的值来除去这些噪声。图13D显示了经过上下边缘调整以后的文本行图像。
虽然图13D中指定文本行被正确地提取出来,但是最后结果中仍然有很多其他的文本行。图3中的指定文本行判别单元用来最后确定哪个文本行是指定文本行。
图12是图3所示的指定文本行判别单元的流程图。在输入了经上下边缘调整和左右边缘调整后的文本行(S1101)之后,由噪声文本行去除单元利用保存在指定文本行描述信息中的信息来去除噪声文本行(S1102)(此处,噪声文本行即指明显不是指定文本行的文本行)。对于每一个输入的文本行,假设X1是文本行1101的左边缘位置,X0是标准指定文本行的左边缘位置。Wtstr是标准文本行的宽度,H1是输入文本行的高度,H0是标准文本行的高度。如果下述2个条件中的一个被满足,则这个文本行被认为是噪声文本行:
ABS(X1-X0)/Wtstr>TH1  (4)
H1/H0<TH2             (5)
TH1和TH2是相对偏差和相对高度的阈值,是经验值。
公式4的物理意义是实际文本行的左边缘和指定标准文本行的左边缘的位置偏差程度,如果大于一定的程度,该文本行不是指定的文本行。公式5的物理意义是实际文本行的高度和指定标准文本行的高度的比值,如果实际文本行的高度太小,也不是指定文本行。
在噪声文本行被去除之后,在步骤S1103判断指定文本行是否为可变长度文本行。这可以通过判断从标准描述符中得到的文本行长度信息来实现。如果指定文本行是定长的文本行(步骤S1103,否),则本发明的处理进入步骤S1104,利用文本行的面积重合率来找到指定的文本行,具有最大的面积重合率的文本行被认为是指定文本行。如果指定文本行是可变长度的文本行(步骤S1103,是),则本发明的处理进入步骤S1105,利用高度重合率来找到指定的文本行,具有最大高度重合率的文本行被认为是指定文本行,最后提取指定的文本行(S1106)。后文说明了如何计算面积重合率以及高度重合率,具有最大高度重合率或面积重合率的文本行就是指定文本行。
假设保存在指定文本行描述信息中的文本行的宽度和高度是W0和H0,输入的文本行的宽度和高度是W1和H1,面积重合率的计算公式如下:
min_w=min(W0,W1),min_h=min(H0,H1)
R=min_w×min_h/(W0×H0+W1×H1-min_w×min_h)
相似地,高度重合率的计算公式如下:
Rh=min_h/(H0+H1-min_h)
虽然结合具体实施例对本发明进行了描述,但很明显,本技术领域的技术人员可根据前述说明进行各种变型。因此,后附的权利要求旨在覆盖了落入本发明的精神和范围内的全部变型。

Claims (44)

1、一种在垂直方向上分离文本行图像的方法,所述方法包括判断所述文本行图像是否包含多行文本的多行判断步骤,所述多行判断步骤判断该文本行图像高度是否大于文本行高度阈值,如果该文本行图像的高度大于所述文本行高度阈值,则判断其包含多行文本,否则判断其未包含多行文本,其特征在于,所述文本行图像为二值图像,所述方法包括:
笔画阈值获得步骤,用于获得表明有效文本行中的最少字符数的第一笔画阈值;
行间噪声去除步骤,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除。
2、根据权利要求1所述的在垂直方向上分离文本行图像的方法,其特征在于,所述行间噪声去除步骤包括:
文本行划分的步骤,划分出所述文本行图像中的文本行;
有效文本行判断步骤,判断所述文本行划分步骤所划分出的文本行是有效文本行还是无效文本行;
输出步骤,输出所述有效文本行判断步骤判断为是有效文本行的文本行的图像。
3、根据权利要求2所述的在垂直方向上分离文本行图像的方法,其特征在于,所述行间噪声去除步骤还包括:
再分离判断步骤,判断被所述有效文本行判断步骤判断为是有效文本行的文本行是否是可再分离文本行;
文本行分离步骤,对所述再分离判断步骤判断为是可再分离文本行的文本行进行分离;
对文本行分离步骤分离出的文本行图像重复进行所述文本行划分步骤、有效文本行判断步骤、再分离判断步骤、文本行分离步骤,直到没有可再分离的有效文本行为止;
所述输出步骤输出不可再分离的有效文本行的图像。
4、根据权利要求3所述的在垂直方向上分离文本行图像的方法,其特征在于,所述文本行划分步骤包括:
笔画直方图生成步骤,生成所述文本行图像的笔画直方图;
笔画直方图搜索步骤,搜索所述笔画直方图生成步骤生成的笔画直方图,从而划分文本行;
所述笔画直方图搜索步骤包括:
起点搜索步骤,按一定的顺序搜索所述直方图,找到所述文本行的起点,即该搜索方向上第一个大于第一笔画阈值的点;
终点搜索步骤,按与所述起点搜索步骤的搜索顺序相反的顺序搜索所述直方图,找到文本行的终点,即该搜索方向上第一个大于第一笔画阈值的点。
5、根据权利要求4所述的在垂直方向上分离文本行图像的方法,其特征在于,所述笔画直方图搜索步骤还包括:
中间点搜索步骤,搜索所述起点和所述终点之间具有最小直方图取值的点,
所述再分离判断步骤在所述中间点对应的笔画直方图取值小于所述第一笔画阈值时,判断所述文本行为可再分离文本行,
所述文本行分离步骤将所述可再分离的有效文本行的图像分成两个部分,一个部分的上下边缘由所述起点和所述中间点决定,另一个部分的上下边缘由所述中间点和所述终点决定。
6、根据权利要求4所述的在垂直方向上分离文本行图像的方法,其特征在于,通过以下步骤估计所述第一笔画阈值:
图像文本行字符数计算步骤,用于计算所述文本行图像中一行的字符个数,当所述文本行图像中有多行文本行时,所计算出的字符数为最短的文本行的字符数;
判断步骤,判断所述文本行是否不可水平分离;
阈值估计步骤,当所述判断步骤判断所述文本行为不可水平分离文本行时,利用字符密度和所述图像文本行字符数计算步骤计算出来的字符数来估计所述第一笔画阈值,当所述判断步骤判断所述文本行是可水平分离文本行时,利用所述图像文本行字符数计算步骤计算出来的字符数来估计所述第一笔画阈值。
7、根据权利要求6所述的在垂直方向上分离文本行图像的方法,其特征在于,所述字符密度为标准文本行中的字符个数与标准文本行的图像宽度的比值,对于不可水平分离文本行,所述阈值估计步骤根据所述字符密度与输入的文本行的宽度的乘积和所述图像文本行字符数计算步骤计算出来的字符数两者中较小的一个确定第一笔画阈值。
8、一种在垂直方向上分离文本行图像的装置,所述装置包括判断所述文本行图像是否包含多行文本的多行判断单元,所述多行判断单元判断该文本行图像高度是否大于文本行高度阈值,如果该文本行图像的高度大于所述文本行高度阈值,则判断其包含多行文本,否则判断其未包含多行文本,其特征在于,所述文本行图像为二值图像,所述装置还包括:
笔画阈值获得单元,用于获得表明有效文本行中的最少字符数的第一笔画阈值;
行间噪声去除单元,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除。
9、根据权利要求8所述的在垂直方向上分离文本行图像的装置,其特征在于,所述行间噪声去除单元包括:
文本行划分单元,划分出所述文本行图像中的文本行;
有效文本行判断单元,判断所述文本行划分单元划分出的文本行是有效文本行还是无效文本行;
输出单元,输出所述有效文本行判断单元判断为是有效文本行的文本行的图像。
10、根据权利要求9所述的在垂直方向上分离文本行图像的装置,其特征在于,所述行间噪声去除单元还包括:
再分离判断单元,判断被所述有效文本行判断单元判断为是有效文本行的文本行是否是可再分离文本行;
文本行分离单元,对所述再分离判断单元判断为是可再分离文本行的文本行进行分离;
所述文本行分离单元分离出的文本行图像被输入到所述文本行划分单元,并被重复进行文本行划分单元、有效文本行判断单元、再分离判断单元、文本行分离单元的处理,直到没有可再分离的有效文本行为止;
所述输出单元输出不可再分离的有效文本行的图像。
11、根据权利要求10所述的在垂直方向上分离文本行图像的装置,其特征在于,所述文本行划分单元包括:
笔画直方图生成单元,生成所述文本行图像的笔画直方图;
笔画直方图搜索单元,搜索所述笔画直方图生成单元生成的笔画直方图,从而划分出文本行;
所述笔画直方图搜索单元包括:
起点搜索单元,按一定的顺序搜索所述直方图,找到所述文本行的起点,即该搜索方向上第一个大于第一笔画阈值的点;
终点搜索单元,按与所述起点搜索单元的搜索顺序相反的顺序搜索所述直方图,找到文本行的终点,即该搜索方向上第一个大于第一笔画阈值的点。
12、根据权利要求11所述的在垂直方向上分离文本行图像的装置,其特征在于,所述笔画直方图搜索单元还包括:
中间点搜索单元,搜索所述起点和所述终点之间具有最小直方图取值的点,
所述再分离判断单元在所述中间点对应的笔画直方图取值小于所述第一笔画阈值时,判断所述文本行为可分离文本行,否则,判断所述文本行为不可分离文本行,
所述文本行分离单元将所述可分离的有效文本行的图像分成两个部分,一个部分的上下边缘由所述起点和所述中间点决定,另一个部分的上下边缘由所述中间点和所述终点决定。
13、根据权利要求11所述的在垂直方向上分离文本行图像的装置,其特征在于,所述第一笔画阈值估计单元包括:
图像文本行字符数计算单元,用于计算所述文本行图像中一行的字符个数,当所述文本行图像中有多行文本行时,所计算出的字符数为最短的文本行的字符数;
判断单元,判断所述文本行是否不可水平分离;
阈值估计单元,当所述判断单元判断所述文本行为不可水平分离文本行时,利用字符密度和所述图像文本行字符数计算单元计算出来的字符数来估计所述第一笔画阈值,当所述判断单元判断所述文本行是可水平分离文本行时,利用所述图像文本行字符数计算单元计算出来的字符数来估计所述第一笔画阈值。
14、根据权利要求13所述的在垂直方向上分离文本行图像的装置,其特征在于,所述字符密度为标准文本行中的字符个数与标准文本行的图像宽度的比值,对于不可水平分离文本行,所述阈值估计单元根据所述字符密度与输入的文本行的宽度的乘积和所述图像文本行字符数计算单元计算出来的字符数两者中较小的一个确定第一笔画阈值。
15、一种提取指定文本行的方法,包括文本行预提取步骤,用于对包含所述指定文本行的文本行图像进行文本行的预提取,所述文本行图像是二值图像,其特征在于,还包括:
水平方向文本行分离步骤,用于分离在水平方向上相互粘连的两个或更多个文本行;
垂直方向文本行分离步骤,用于分离在垂直方向粘连在一起的两个或者更多个文本行,包括:多行判断步骤,判断所述文本行图像是否包含多行文本;笔画阈值获得步骤,用于获得表明有效文本行中的最少字符数的第一笔画阈值;和行间噪声去除步骤,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除;
分离判断步骤,判断在所述垂直方向文本行分离步骤和所述水平方向文本行分离步骤两者中后执行的步骤中是否对文本行进行了垂直方向或水平方向的分离;
如果所述分离判断步骤判断在所述垂直方向文本行分离步骤和所述水平方向文本行分离步骤两者中后执行的步骤中对文本行进行了垂直方向或水平方向的分离,则对经分离后的文本行图像进行所述文本行预提取步骤、所述水平方向文本行分离步骤、垂直方向文本行分离步骤和分离判断步骤,并重复上述步骤,直到没有文本行在所述垂直方向文本行分离步骤和所述水平方向文本行分离步骤两者中后执行的步骤中被分离为止。
16、根据权利要求15所述的指定文本行提取方法,其特征在于,所述水平方向文本行分离步骤包括:
文本行分离类型判断步骤,用于判断文本行是否是带有间隔的不可分离的文本行;
分离间隙阈值估计步骤,用于在所述文本行分离类型判断步骤判断文本行的分离类型不是带有间隔的不可分离的文本行时,进行分离间隙阈值估计;
水平文本行分离步骤,用于根据所述分离间隙阈值估计步骤所估计出来的分离间隙阈值进行水平文本行的分离。
17、根据权利要求16所述的指定文本行提取方法,其特征在于,所述水平文本行分离步骤假设文本行中只包含一行字符,并在字符之间的间隙大于所述分离间隙阈值时对该文本行进行分离。
18、根据权利要求16所述的指定文本行提取方法,其特征在于,所述分离间隙阈值估计步骤计算文本行内的水平间隙直方图,找出与最大直方图数值对应的水平间隙,将所述指定文本行的高度和根据与最大直方图数值对应的水平间隙计算出来的数值两者之中的较大值估计为分离间隙阈值。
19、根据权利要求15所述的指定文本行提取方法,其特征在于,所述行间噪声去除步骤包括:
文本行划分步骤,划分所述文本行图像中的文本行;
有效文本行判断步骤,判断所述文本行划分步骤划分出的文本行是有效文本行还是无效文本行;
输出步骤,输出所述有效文本行判断步骤判断为是有效文本行的文本行的图像。
20、根据权利要求19所述的指定文本行提取方法,其特征在于,所述行间噪声去除步骤还包括:
再分离判断步骤,判断被所述有效文本行判断步骤判断为是有效文本行的文本行是否是可再分离文本行;
文本行分离步骤,对所述再分离判断步骤判断为是可再分离文本行的文本行进行分离;
对文本行分离步骤分离出的文本行图像重复进行所述文本行划分步骤、有效文本行判断步骤、再分离判断步骤、文本行分离步骤,直到没有可再分离的有效文本行为止;
所述输出步骤输出不可再分离的有效文本行的图像。
21、根据权利要求19所述的指定文本行提取方法,其特征在于,所述文本行划分步骤包括:
笔画直方图生成步骤,生成所述文本行图像的笔画直方图;
笔画直方图搜索步骤,搜索所述笔画直方图生成步骤生成的笔画直方图,从而划分出文本行;
所述笔画直方图搜索步骤包括:
起点搜索步骤,按一定的顺序搜索所述直方图,找到所述文本行的起点,即该搜索方向上第一个大于第一笔画阈值的点;
终点搜索步骤,按与所述起点搜索步骤的搜索顺序相反的顺序搜索所述直方图,找到文本行的终点,即该搜索方向上第一个大于第一笔画阈值的点。
22、根据权利要求21所述的指定文本行提取方法,其特征在于,所述笔画直方图搜索步骤还包括:
中间点搜索步骤,搜索所述起点和所述终点之间具有最小直方图取值的点,
所述再分离判断步骤在所述中间点对应的笔画直方图取值小于所述第一笔画阈值时,判断所述文本行为可分离文本行,
所述文本行分离步骤将所述可分离的有效文本行的图像分成两个部分,一个部分的上下边缘由所述起点和所述中间点决定,另一个部分的上下边缘由所述中间点和所述终点决定。
23、根据权利要求21所述的指定文本行提取方法,其特征在于,通过以下步骤估计所述第一笔画阈值:
图像文本行字符数计算步骤,用于计算所述文本行图像中一行的字符个数,当所述文本行图像中有多行文本行时,所计算出的字符数为最短的文本行的字符数;
判断步骤,判断所述文本行是否不可水平分离;
阈值估计步骤,当所述判断步骤判断所述文本行为不可分离水平文本行时,利用字符密度和所述图像文本行字符数计算步骤计算出来的字符数来估计所述第一笔画阈值,当所述判断步骤判断所述文本行是可水平分离文本行时,利用所述图像文本行字符数计算步骤计算出来的字符数来估计所述第一笔画阈值。
24、根据权利要求23所述的指定文本行提取方法,其特征在于,所述字符密度为标准文本行中的字符个数与标准文本行的图像宽度的比值,对于不可水平分离文本行,所述阈值估计步骤根据所述字符密度与输入的文本行的宽度的乘积和所述图像文本行字符数计算步骤计算出来的字符数两者中较小的一个计算所述第一笔画阈值。
25、根据权利要求15到24任一项所述的指定文本行提取方法,其特征在于,还包括:
文本行左右边缘位置调整的步骤,去除经水平方向和垂直方向分离后的文本行的左右两侧的噪声字符;
文本行上下边缘位置调整的步骤,去除经水平方向和垂直方向分离后的文本行的上下边缘的噪声;
指定文本行判别步骤,用于从经水平方向和垂直方向分离后的文本行中确定指定文本行。
26、根据权利要求25所述的指定文本行提取方法,其特征在于,所述文本行左右边缘位置调整的步骤包括:
最左侧字符确定步骤,确定最左侧的字符;
最右侧字符确定步骤,确定最右侧的字符;
噪声字符判断步骤,判断所确定的最左侧字符和最右侧字符是否为噪声字符;
噪声字符去除步骤,去除所述文本行最左侧和/或最右侧的噪声字符。
27、根据权利要求26所述的指定文本行提取方法,其特征在于,所述噪声字符判断步骤将高度小于单字高度阈值的数字字符判断为噪声字符,将高度小于单字高度阈值、宽度小于单字宽度阈值的非数字字符判断为噪声字符。
28、根据权利要求25所述的指定文本行提取方法,其特征在于,所述文本行上下边缘位置调整的步骤包括:
第二笔画阈值设置步骤,设置第二笔画阈值;
笔画直方图生成步骤,生成所述文本行图像的笔画直方图;
上边缘搜索步骤,根据所述第二笔画阈值搜索所述笔画直方图,获得上边缘;
上边缘阈值调整步骤,根据所述上边缘对应的笔画值调整文本行的上边缘阈值;
上边缘调整步骤,根据经调整的上边缘阈值调整文本行的上边缘;
下边缘搜索步骤,根据所述第二笔画阈值搜索所述笔画直方图,获得下边缘;
下边缘阈值调整步骤,根据所述下边缘对应的笔画值调整文本行的下边缘阈值;
下边缘调整步骤,根据经调整的下边缘阈值调整文本行的下边缘;
噪声去除步骤,根据经调整的上边缘和下边缘,去除文本行噪声。
29、根据权利要求25所述的指定文本行提取方法,其特征在于,所述指定文本行判别步骤包括:
噪声文本行去除步骤,去除含指定文本行的多个文本行中的噪声文本行;
指定文本行提取步骤,从去除噪声文本行之后的文本行中提取高度重合率最大的可变长度文本行或面积重合率最大的固定长度文本行作为所述指定文本行。
30、一种提取指定文本行的装置,包括文本行预提取单元,用于对包含所述指定文本行的文本行图像进行预提取,所述文本行图像为二值图像,其特征在于,所述装置还包括:
水平方向文本行分离单元,用于分离在水平方向上相互粘连的两个或更多个文本行;
垂直方向文本行分离单元,用于分离在垂直方向粘连在一起的两个或者更多个文本行,包括:多行判断单元,判断所述文本行图像是否包含多行文本;笔画阈值获得单元,用于获得表明有效文本行中的最少字符数的第一笔画阈值;行间噪声去除单元,在判断出所述文本行图像包含多行文本时,使用所述第一笔画阈值,利用笔画直方图法,进行行间噪声去除;
分离判断单元,判断在所述垂直方向文本行分离单元和所述水平方向文本行分离单元两者中后执行的单元中是否对文本行进行了垂直方向或水平方向的分离;
如果所述分离判断单元判断在所述垂直方向文本行分离单元和所述水平方向文本行分离单元两者中后执行的单元中对文本行进行了垂直方向或水平方向的分离,则将经分离后的文本行图像输入所述文本行预提取单元,并进行所述文本行预提取单元、所述水平方向文本行分离单元、垂直方向文本行分离单元和分离判断单元的处理,并重复上述单元的处理,直到没有文本行在所述垂直方向文本行分离单元和所述水平方向文本行分离单元两者中后执行的单元中被分离为止。
31、根据权利要求30所述的指定文本行提取装置,其特征在于,所述水平方向文本行分离单元包括:
文本行分离类型判断单元,用于判断文本行是否是带有间隔的不可分离的文本行;
分离间隙阈值估计单元,用于在所述文本行分离类型判断单元判断文本行的分离类型不是带有间隔的不可分离的文本行时,进行分离间隙阈值估计;
水平文本行分离单元,用于根据所述分离间隙阈值估计单元所估计出来的分离间隙阈值进行水平文本行的分离。
32、根据权利要求31所述的指定文本行提取装置,其特征在于,所述水平文本行分离单元假设文本行中只包含一行字符,并在字符之间的间隙大于所述分离间隙阈值时对该文本行进行分离。
33、根据权利要求31所述的指定文本行提取装置,其特征在于,所述分离间隙阈值估计单元计算文本行内的水平间隙直方图,找出与最大直方图数值对应的水平间隙,将所述指定文本行的高度和根据与最大直方图数值对应的水平间隙计算出来的数值两者之中的较大值估计为分离间隙阈值。
34、根据权利要求30所述的指定文本行提取装置,其特征在于,所述行间噪声去除单元包括:
文本行划分单元,划分出文本行图像中的文本行;
有效文本行判断单元,判断所述文本行划分单元提取出的文本行是有效文本行还是无效文本行;
输出单元,输出所述有效文本行判断单元判断为是有效文本行的文本行的图像。
35、根据权利要求34所述的指定文本行提取装置,其特征在于,所述行间噪声去除单元还包括:
再分离判断单元,判断被所述有效文本行判断单元判断为是有效文本行的文本行是否是可再分离文本行;
文本行分离单元,对所述再分离判断单元判断为是可再分离文本行的文本行进行分离;
对文本行分离单元分离出的文本行图像重复进行所述文本行划分单元、有效文本行判断单元、再分离判断单元、文本行分离单元的处理,直到没有可再分离的有效文本行为止;
所述输出单元输出不可再分离的有效文本行的图像。
36、根据权利要求34所述的指定文本行提取装置,其特征在于,所述文本行划分单元包括:
笔画直方图生成单元,生成所述文本行图像的笔画直方图;
笔画直方图搜索单元,搜索所述笔画直方图生成单元生成的笔画直方图,从而划分出文本行;
所述笔画直方图搜索单元包括:
起点搜索单元,按一定的顺序搜索所述直方图,找到所述文本行的起点,即该搜索方向上第一个大于第一笔画阈值的点;
终点搜索单元,按与所述起点搜索单元的搜索顺序相反的顺序搜索所述直方图,找到文本行的终点,即该搜索方向上第一个大于第一笔画阈值的点。
37、根据权利要求36所述的指定文本行提取装置,其特征在于,所述笔画直方图搜索单元还包括:
中间点搜索单元,搜索所述起点和所述终点之间具有最小直方图取值的点,
所述再分离判断单元在所述中间点对应的笔画直方图取值小于所述第一笔画阈值时,判断所述文本行为可分离文本行,
所述文本行分离单元将所述可分离的有效文本行的图像分成两个部分,一个部分的上下边缘由所述起点和所述中间点决定,另一个部分的上下边缘由所述中间点和所述终点决定。
38、根据权利要求36所述的指定文本行提取装置,其特征在于,所述第一笔画阈值估计单元包括:
图像文本行字符数计算单元,用于计算所述文本行图像中一行的字符个数,当所述文本行图像中有多行文本行时,所计算出的字符数为最短的文本行的字符数;
判断单元,判断所述文本行是否不可水平分离;
阈值估计单元,当所述判断单元判断所述文本行为不可水平分离文本行时,利用字符密度和所述图像文本行字符数计算单元计算出来的字符数来估计所述第一笔画阈值,当所述判断单元判断所述文本行是可水平分离文本行时,利用所述图像文本行字符数计算单元计算出来的字符数来估计所述第一笔画阈值。
39、根据权利要求38所述的指定文本行提取装置,其特征在于,所述字符密度为标准文本行中的字符个数与标准文本行的图像宽度的比值,对于不可分离文本行,所述阈值估计单元根据所述字符密度与输入的文本行的宽度的乘积和所述图像文本行字符数计算单元计算出来的字符数两者中较小的一个确定所述第一笔画阈值。
40、根据权利要求30到39任一项所述的指定文本行提取装置,其特征在于,还包括:
文本行左右边缘位置调整单元,去除经水平方向和垂直方向分离后的文本行的左右两侧的噪声字符;
文本行上下边缘位置调整单元,去除经水平方向和垂直方向分离后的文本行的上下边缘的噪声;
指定文本行判别单元,用于从经水平方向和垂直方向分离后的文本行中确定指定文本行。
41、根据权利要求40所述的指定文本行提取装置,其特征在于,所述文本行左右边缘位置调整单元包括:
最左侧字符确定单元,确定最左侧的字符;
最右侧字符确定单元,确定最右侧的字符;
噪声字符判断单元,判断所确定的最左侧字符和最右侧字符是否为噪声字符;
噪声字符去除单元,去除所述文本行最左侧和/或最右侧的噪声字符。
42、根据权利要求41所述的指定文本行提取装置,其特征在于,所述噪声字符判断单元将高度小于单字高度阈值的数字字符判断为噪声字符,将高度小于单字高度阈值、宽度小于单字宽度阈值的非数字字符判断为噪声字符。
43、根据权利要求40所述的指定文本行提取装置,其特征在于,所述文本行上下边缘位置调整单元包括:
第二笔画阈值设置单元,设置第二笔画阈值;
笔画直方图生成单元,生成所述文本行图像的笔画直方图;
上边缘搜索单元,根据所述第二笔画阈值搜索所述笔画直方图,获得上边缘;
上边缘阈值调整单元,根据所述上边缘对应的笔画值调整文本行的上边缘阈值;
上边缘调整单元,根据经调整的上边缘阈值调整文本行的上边缘;
下边缘搜索单元,根据所述第二笔画阈值搜索所述笔画直方图,获得下边缘;
下边缘阈值调整单元,根据所述下边缘对应的笔画值调整文本行的下边缘阈值;
下边缘调整单元,根据经调整的下边缘阈值调整文本行的下边缘;
噪声去除单元,根据经调整的上边缘和下边缘,去除文本行噪声。
44、根据权利要求42所述的指定文本行提取装置,其特征在于,所述指定文本行判别单元包括:
噪声文本行去除单元,去除含指定文本行的多个文本行中的噪声文本行;
指定文本行提取单元,从去除噪声文本行之后的文本行中提取单元提取高度重合率最大的可变长度文本行或面积重合率最大的固定长度文本行作为所述指定文本行。
CNB2005100986280A 2005-09-05 2005-09-05 指定文本行提取方法和装置 Expired - Fee Related CN100514355C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2005100986280A CN100514355C (zh) 2005-09-05 2005-09-05 指定文本行提取方法和装置
JP2006239515A JP4984756B2 (ja) 2005-09-05 2006-09-04 文字列イメージを垂直に分離するプログラム、方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100986280A CN100514355C (zh) 2005-09-05 2005-09-05 指定文本行提取方法和装置

Publications (2)

Publication Number Publication Date
CN1928891A CN1928891A (zh) 2007-03-14
CN100514355C true CN100514355C (zh) 2009-07-15

Family

ID=37858849

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100986280A Expired - Fee Related CN100514355C (zh) 2005-09-05 2005-09-05 指定文本行提取方法和装置

Country Status (2)

Country Link
JP (1) JP4984756B2 (zh)
CN (1) CN100514355C (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314608A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 文字图像中行提取的方法和装置
CN102542279A (zh) * 2010-12-23 2012-07-04 汉王科技股份有限公司 维哈柯文文本图像的行提取方法及装置
RU2557461C2 (ru) * 2011-03-04 2015-07-20 Глори Лтд. Способ выделения строки знаков и устройство выделения строки знаков
CN103106405B (zh) * 2011-11-09 2017-05-03 佳能株式会社 用于文档图像的行分割方法及系统
JP6109020B2 (ja) * 2013-09-10 2017-04-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書の分割・結合方法、装置、プログラム。
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN106295486B (zh) * 2015-06-12 2019-11-05 富士通株式会社 文档图像的处理方法和处理装置
CN105447489B (zh) * 2015-11-13 2018-11-16 浙江传媒学院 一种图片ocr识别系统的字符与背景粘连噪声消除方法
CN107180239B (zh) * 2017-06-09 2020-09-11 科大讯飞股份有限公司 文本行识别方法及系统
CN109753953B (zh) * 2017-11-03 2022-10-11 腾讯科技(深圳)有限公司 图像中定位文本的方法、装置、电子设备和存储介质
CN109635718B (zh) * 2018-12-10 2021-02-02 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质
JP6869394B1 (ja) * 2020-03-23 2021-05-12 三菱電機Itソリューションズ株式会社 検証装置、検証方法、及び、検証プログラム
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04149685A (ja) * 1990-10-09 1992-05-22 Nec Corp 接触文字切出し方法
JPH08329190A (ja) * 1995-03-24 1996-12-13 Fuji Xerox Co Ltd 文字認識装置
JP2861860B2 (ja) * 1995-04-28 1999-02-24 日本電気株式会社 宛名行抽出装置
JP2003281468A (ja) * 2002-03-20 2003-10-03 Toshiba Corp 文字認識装置および文字認識方法
JP4111787B2 (ja) * 2002-09-11 2008-07-02 株式会社リコー 行切り出し装置、行切り出し方法、プログラム及び記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
用于机器翻译文本输入的文档分析系统的设计与实现. 袁险峰.. 1997
用于机器翻译文本输入的文档分析系统的设计与实现. 袁险峰.. 1997 *

Also Published As

Publication number Publication date
JP2007073048A (ja) 2007-03-22
JP4984756B2 (ja) 2012-07-25
CN1928891A (zh) 2007-03-14

Similar Documents

Publication Publication Date Title
CN100514355C (zh) 指定文本行提取方法和装置
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN106940799B (zh) 文本图像处理方法和装置
US9443145B2 (en) Person recognition apparatus, person recognition method, and non-transitory computer readable recording medium
JPH01292486A (ja) 文字認識装置及び方法
CN108197644A (zh) 一种图像识别方法和装置
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
JP2018081674A (ja) 手書きテキスト画像に対する行及び単語切り出し方法
CN101106716A (zh) 一种分水岭图象分割处理方法
KR20170004983A (ko) 라인 분할 방법
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN111626302B (zh) 乌金体藏文古籍文档图像的粘连文本行切分方法及系统
CN110309830A (zh) 基于数学形态学和区域连通性的甲骨文字自动分割方法
CN115223172A (zh) 文本提取方法、装置及设备
CN110533020B (zh) 一种文字信息的识别方法、装置及存储介质
CN106991753A (zh) 一种图像二值化方法及装置
Boulid et al. Segmentation of Arabic handwritten documents into text lines using watershed transform
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
WO2010113217A1 (ja) 文字認識装置及び文字認識方法
Rajithkumar et al. Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis
CN105069773B (zh) 基于掩膜与canny相结合的自适应边缘检测计算方法
CN104008382B (zh) 传感器指纹图像识别系统及方法
JPH04352295A (ja) 文字列方向判別装置
Mohana et al. Era identification and recognition of Ganga and Hoysala phase Kannada stone inscriptions characters using advance recognition algorithm
CN110363251A (zh) 一种sku图像分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090715

Termination date: 20180905

CF01 Termination of patent right due to non-payment of annual fee