CN105469026A - 针对文档图像的水平和垂直线检测和移除 - Google Patents
针对文档图像的水平和垂直线检测和移除 Download PDFInfo
- Publication number
- CN105469026A CN105469026A CN201510621476.1A CN201510621476A CN105469026A CN 105469026 A CN105469026 A CN 105469026A CN 201510621476 A CN201510621476 A CN 201510621476A CN 105469026 A CN105469026 A CN 105469026A
- Authority
- CN
- China
- Prior art keywords
- horizontal
- parts
- bounding box
- stroke width
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title abstract description 3
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims description 21
- 238000009434 installation Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 4
- 239000012634 fragment Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/273—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20061—Hough transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明涉及针对文档图像的水平和垂直线检测和移除。用于从文档图像移除垂直线和水平线的方法。水平线移除方法包括:针对沿着线的每个水平位置处的黑色像素的列,如果它们的最大笔划宽度小于以该水平位置为中心的小窗口中的最大笔划宽度的中间值,则移除它们;移除水平线边界框中余留的、不在边界框边界的上方或下方大幅延伸的连接成分;并执行闭运算以结合由下划线移除引起的断开的多条字符笔划。该方法在移除下划线的同时保留字符笔划。垂直线移除方法包括:针对高宽比大的垂直线,移除这样的线的不在与水平线或接近水平的线的交点处的部分;移除既不接触边界框的左边界、也不接触边界框的右边界的所有余留的连接成分。
Description
技术领域
本发明涉及文档图像处理,具体地,本发明涉及用于检测和移除文档图像中的水平线和垂直线的方法。
背景技术
文档图像通常指的是表示包含大量文本的文档的页面的数字图像。文档图像常常包含线,具体地,包含水平线和垂直线,诸如表格线、文本的下划线等。因为字符(字母和其它符号)通常是文档图像分析(诸如光学字符识别(OCR)、文档认证等)的焦点,所以常常期望移除线。这些线一般沿着一个方向很长,如果这些线未被明确地移除,则在之后进行的连接成分(connectedcomponent)分析中可能引起误差和错误。已经提出了用于线检测和移除的各种方法,诸如霍夫变换、游程长度编码、形态学分析等。然而,当这些方法应用于实际文档上时,它们通常受图像质量以及图像的二值化程度的影响。此外,在已知的线移除方法中,文本下划线的移除常常可能改变与该下划线交叉的字符的特征。许多已知的方法还遭受不完整的线移除。
发明内容
本发明针对一种线检测和移除方法以及相关设备,基本上消除由于现有技术的限制和缺点而导致的问题中的一个或多个。
本发明的目的是提供一种线检测和移除方法,可以完全移除线并保留与下划线交叉的字符的特征。
本发明的另外的特征和优点将在下面的描述中进行陈述,并且部分地根据本说明书将是清楚的,或者可以通过实施本发明来获悉。本发明的目标和其它优点将通过在撰写的说明书及其权利要求书以及附图中具体指出的结构来实现和达成。
为了实现这些和/或其它目的,如所实施的和广义地描述的,本发明提供一种用于从二值文档图像移除水平线的方法,该方法包括以下步骤:(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)获得表示检测到的水平线的边界框;(c)计算水平线的每个水平位置处的最大笔划宽度,其中,给定水平位置处的最大笔划宽度被定义为与位于该水平位置处的属于水平线的所有前景像素相关联的笔划宽度的最大值;(d)针对位于沿着边界框的水平位置处的每个前景像素列,如果该水平位置处的最大笔划宽度小于边界框的以该水平位置为中心的窗口内的所有水平位置处的最大笔划宽度的中间值,则将它们移除;(e)提取边界框中的在步骤(d)之后余留的所有连接成分,并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的任何连接成分;以及(f)使用水平线作为结构元素来对从步骤(e)得到的二值图像执行闭运算。
在另一方面,本发明提供一种用于从二值文档图像移除垂直线的方法,该方法包括以下步骤:(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)获得表示检测到的垂直线的边界框;(c)计算垂直线的每个垂直位置处的最大笔划宽度,其中,给定垂直位置处的最大笔划宽度被定义为与位于该垂直位置处的属于垂直线的所有前景像素相关联的笔划宽度的最大值;(d)计算垂直线的高宽比;(e)如果所述高宽比大于或等于阈值比,则移除垂直线中的最大笔划宽度小于线宽度阈值的任何部分;以及(f)提取边界框中的连接成分,并移除既不接触边界框的左边界、也不接触边界框的右边界的所有连接成分。
在另一方面,本发明提供一种用于从二值文档图像移除水平线的计算机装置,该计算机装置包括:(a)用于获得与二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)用于获得表示检测到的水平线的边界框的部件;(c)用于计算水平线的每个水平位置处的最大笔划宽度的部件,其中,给定水平位置处的最大笔划宽度被定义为与位于该水平位置处的属于水平线的所有前景像素相关联的笔划宽度的最大值;(d)用于针对位于沿着边界框的水平位置处的每个前景像素列进行如下处理的部件:如果该水平位置处的最大笔划宽度小于边界框的以该水平位置为中心的窗口内的所有水平位置处的最大笔划宽度的中间值,则将它们移除;(e)用于提取边界框中的在部件(d)的处理之后余留的所有连接成分、并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的任何连接成分的部件;以及(f)用于使用水平线作为结构元素来对从部件(e)得到的二值图像执行闭运算的部件。
另外,在以上计算机装置中,部件(c)可以包括:用于将边界框划分为多个水平布置的窗口的部件;针对每个窗口:用于通过水平地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的水平线段的垂直中心位置来获得所述垂直中心位置的部件;用于在该窗口的每个水平位置处,识别与所述垂直中心位置处的前景像素连接的所有连续的前景像素的部件;以及用于计算与在用于识别的部件的处理中识别的所有连续的前景像素相关联的笔划宽度中的最大一个的部件。
另外,在以上计算机装置中,还可以包括:用于在部件(d)的处理之前,确定边界框中的水平线的长宽比的部件,其中,仅当所述长宽比大于预定阈值时,才执行部件(d)、(e)和(f)。
另外,在以上计算机装置中,可以在部件(c)的处理之后执行用于确定的部件,并且其中,所述长宽比是边界框的长度与水平线的所有水平位置处的最大笔划宽度的中间值的比率。
另外,在以上计算机装置中,在部件(e)的处理之后,还可以包括:用于在顶边界和底边界处将边界框扩大第二预定量的部件;以及用于移除扩大的边界框中的既不接触边界框的顶边界、也不接触边界框的底边界的连接成分的部件。
另外,以上计算机装置还可以用于从二值文档图像移除垂直线,该计算机装置包括:(g)用于获得与二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(h)用于获得表示检测到的垂直线的边界框的部件;(i)用于计算垂直线的每个垂直位置处的最大笔划宽度的部件,其中,给定垂直位置处的最大笔划宽度被定义为与位于该垂直位置处的属于垂直线的所有前景像素相关联的笔划宽度的最大值;(j)用于计算垂直线的高宽比的部件;(k)用于如果所述高宽比大于或等于阈值比,则移除垂直线中的最大笔划宽度小于线宽度阈值的任何部分的部件;以及(l)用于提取边界框中的连接成分、并移除既不接触边界框的左边界、也不接触边界框的右边界的所有连接成分的部件。
另外,在以上计算机装置中,部件(j)可以包括:用于计算垂直线的所有垂直位置处的最大笔划宽度的中间值的部件;以及用于计算垂直线的高宽比的部件,该高宽比被定义为边界框的高度和最大笔划宽度的中间值的比率;并且其中,在部件(k)的处理中,所述线宽度阈值是最大笔划宽度的中间值的倍数。
另外,在以上计算机装置中,部件(i)可以包括:用于将边界框划分为多个垂直布置的窗口的部件;针对每个窗口:用于通过垂直地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的垂直线段的水平中心位置来获得所述水平中心位置的部件;用于在该窗口的每个垂直位置处,识别与水平中心位置处的前景像素连接的所有连续的前景像素的部件;以及用于计算与在用于识别的部件的处理中识别的所有连续的前景像素相关联的笔划宽度中的最大一个的部件。
应当理解,前面的大体描述和下面的详细描述都是示例性的和说明性的,并且意图提供如要求保护的本发明的进一步说明。
附图说明
图1至3示意性地例示根据本发明的实施例的垂直和水平线移除方法。
图4A至4D示出文档图像的例子和根据本发明的实施例的水平线移除处理的各个步骤的效果。
图5示意性地例示可以实现本发明的实施例的数据处理设备。
具体实施方式
本发明的实施例提供一种用于文档图像的垂直和水平线移除方法,被设计为尽可能完全地移除垂直线和水平线,同时保留文档的特征,特别是文本字符。对于垂直线移除,该方法被设计为保留文本字符的垂直笔划。对于水平线移除,特别是文本的水平下划线的移除,该方法被设计为完全地移除水平线,同时保留与水平下划线交叉的文本字符笔划。线移除是基于笔划宽度和成分分析的,其尝试在移除线的同时保持字符特征。
参照图1至图3来描述水平和垂直线检测和移除方法。输入文档图像是灰度图像,其中,每个像素具有多比特像素值,例如从0至255。如果原始图像(例如,由扫描仪产生的图像)是彩色图像,则可以首先将它转换为灰度图像;可替代地,可以将每个颜色通道看作灰度图像。
如图1所示,首先,可选地将预处理(包括偏斜校正、去噪声、下采样等)应用于灰度输入图像(步骤S11)。为了方便起见,进行了预处理的灰度图像仍被称为输入灰度图像。将垂直和水平线检测处理应用于输入灰度图像以检测图像中的垂直线和水平线(步骤S12)。线检测处理产生一组边界框,每个边界框对应于检测到的垂直线或水平线。对于线检测可以使用任何合适的方法。具体地,可以使用在标题为“HorizontalandVerticalLineDetectionandRemovalforDocumentImages”的共有的专利申请(基于美国专利申请No.14/502,796的中国专利申请)中描述的线检测方法。
对输入灰度图像进行二值化以产生二值图像(1比特图像)(步骤S13)。在本公开中,假定背景为白色,像素值为0,并假定前景(文本、图形等)为黑色,像素值为1。应当注意,针对黑色与白色以及文本与背景的像素值的定义是有关选择的问题;这里所描述的实现可以被容易地修改以适应不同的像素值定义。
进行笔划宽度分析以获得与二值图像的每个像素相关联的笔划宽度(步骤S14)。这里,与给定像素相关联的笔划宽度被定义为包括给定像素的连续黑色像素在水平方向和垂直方向上的游程长度中的较小者。白色像素(背景)的笔划宽度为零。如果黑色像素是线或字符笔划的一部分,则笔划宽度将趋向于与文档中的线或字符笔划的典型宽度相同。如果黑色像素是图形元素的一部分,则其笔划宽度将趋向于大得多。笔划宽度将被用在后面的线移除处理的各个步骤中。
下述步骤S15至S16关于垂直线移除,而S21至S25关于水平线移除。
对在步骤S12中识别的每个垂直线执行的接下来的一组步骤(图2中所示的步骤S151至S157,合称为步骤S15)对高宽比足够大的垂直线进行处理。这些步骤移除这样的垂直线的不在与水平线或接近水平的线的交点处的部分。在本公开中,“移除”像素指的是将该像素值从前景值(例如,1)设置为背景值(例如,0)。
在步骤S151中,将二值图像的由垂直线的边界框限定的块划分为不重叠的且垂直布置(堆叠)的一系列较小的窗口。在一种具体实现中,窗口高为60个像素,但是可以使用其它大小,诸如30和200个像素之间的大小。对于每个窗口,垂直地投影图像以产生垂直投影直方图,并获得直方图的最大值(峰)处的水平像素位置作为垂直线段在该窗口中的水平中心位置(步骤S152)。在每个垂直位置处,通过从水平中心位置开始并水平地向左和向右延伸、直到像素变为白色为止或者直到到达窗口的左边界或右边界为止来识别属于垂直线的黑色像素(即,识别与水平中心位置处的像素连接的所有连续的黑色像素)(步骤S153)。对于所有这些黑色像素,取回如在步骤S14中计算的与这些黑色像素相关联的笔划宽度,并计算这些笔划宽度的最大值(被称为垂直线在该垂直位置处的最大笔划宽度)(步骤S154)。
步骤S151至S154合起来是找到垂直线的所有垂直位置处的最大笔划宽度的步骤。可以使用替代方法来找到每个垂直位置处的水平中心位置,由此识别每个垂直位置处的属于线的黑色像素。例如,可以使用水平游程长度来找到每个垂直位置处的黑色像素。
应当指出,对于位于垂直线和水平线或接近水平的线的交点内的像素,相关联的笔划宽度可能相当大。因此,如果特定垂直位置位于垂直线和水平线或接近水平的线的交点内,则该垂直位置的最大笔划宽度将相当大。
在对所有窗口重复了步骤S152至S154之后,获得沿着垂直线的每个垂直位置的最大笔划宽度。然后,计算线的所有垂直位置的最大笔划宽度的中间值(步骤S155)。计算边界框高度和所有最大笔划宽度的中间值的比率(步骤S156)。如果该比率大于预定阈值,则确定边界框是长垂直线,并且处理进行到步骤S157(线移除);否则,跳过步骤S157,并且处理进行到步骤S16。在一个例子中,步骤S156中的预定阈值是20,但是可以使用其它值,诸如10和30之间的值。优选地,阈值应足够大,以使文本字符的垂直笔划不被视为要移除的长垂直线。
如果在步骤S156中,线被确定为是长垂直线,则在步骤S157中,将所有垂直位置处的最大笔划宽度的中间值(在步骤S155中计算)乘以乘数以获得线宽度阈值。该乘数可以例如为从2至3,以使线宽度阈值略宽于实际线宽度。然后,将线的每个垂直位置处的最大笔划宽度(在步骤S154中计算)与线宽度阈值进行比较。如果最大笔划宽度小于线宽度阈值,则将该垂直位置处的像素设置为0(即移除)(步骤S157)。作为步骤S157的结果,长垂直线的不位于水平线的交点处的部分被移除。
然后,在步骤S15之后余留的垂直线(是相对短的线)之中,移除连接成分既不接触线边界框的左边界、也不接触线边界框的右边界的那些垂直线(步骤S16)。具体地,对于每个垂直线,提取在边界框内部的连接成分;如果连接成分的左边缘不接触边界框的左边界并且其右边缘不接触边界框的右边界,则移除该垂直线。否则,保留该垂直线。因为在许多情况下,文本字符的垂直笔划具有与它们交叉的其它笔划,所以在步骤S16中不移除这些垂直笔划,而是移除不与其它线交叉的垂直线。
这使垂直线移除结束,处理继续进行水平线移除,步骤S21至S25(图3)。对在步骤S12中检测到的每个水平线重复步骤S21至S25。
应当指出,垂直和水平线移除是彼此独立的,并且这两者的顺序是不重要的。
因为水平线常常以文本下划线的形式出现在文档图像中,并且这样的下划线常常与文本字符的部分交叉,所以水平线移除处理被设计为在断开文本字符的情况下移除水平线。
首先,针对在步骤S12中识别的每个水平线,检查其长宽比,如果该比率小于预定阈值,则跳过该线(即,它不是实际的水平线而不执行其余的步骤S22至S25),并且处理继续进行到下一水平线(步骤S21)。更具体地,边界框长度用作线长度,而水平线的所有水平位置处的最大笔划宽度的中间值用作线宽度。水平线的水平位置处的最大笔划宽度指的是与位于该水平位置处的属于水平线的所有黑色像素相关联的笔划宽度的最大值。可以使用类似于步骤S151至S155的一组步骤(其中,垂直和水平交换,左和右变为上和下)来计算水平位置处的最大笔划宽度和所有水平位置处的最大笔划宽度的中间值。在一个例子中,预定阈值是20,但是可以使用其它值,诸如10和30之间的值。
如果线将不被跳过,则对于沿着水平线的每个水平位置,计算水平线的以该水平位置为中心的一小段(边界框中的小窗口)内的最大笔划宽度的局部中间值;如果该水平位置处的最大笔划宽度小于小窗口的局部中间值,则移除水平线的在该水平位置处的黑色像素的列(步骤S22)。步骤S22利用已经在步骤S21中计算出的每个水平位置处的最大笔划宽度。对沿着水平线的所有水平位置重复步骤S22,即,使用移动窗口。在该步骤之后,水平线的许多段将被移除,但是仍将余留许多段。
图4A示出二值文档图像的一部分的例子,该部分是具有下划线的一行文本。图4B示出步骤S22的结果;可以看出,水平下划线的大多数部分被移除,但是仍余留许多片段。
然后,提取至少部分位于水平线边界框内的连接成分,并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的那些连接成分(步骤S23)。预定量可以例如是10个像素;可以使用其它量,例如,从5至20个像素。对于在步骤S22中未被移除的并且不在与文本字符笔划的交点处的水平线的片段,连接成分将不会在边界框的边界上方或下方大幅延伸,因此将在步骤S23中被移除。另一方面,对于位于与字符笔划的交点处的水平线的片段,连接成分将包括字符笔划,因此将有可能在边界框的边界上方和/或下方大幅延伸;这些片段在步骤S23中将不被移除。
对于某些文本字符,以上水平线移除步骤仍将导致与下划线交叉的部分的断开。图4C中示出了例子,在该例子中,字符“g”的底部部分断开。因此,将闭运算应用于从步骤S23得到的文档图像以将在连接成分之间具有足够小的间隙的这些连接成分结合在一起(步骤S24)。闭是涉及使用相同结构元素的先膨胀、再腐蚀的形态学运算。闭运算的效果是,保留背景(这里,白色)中的结构元素可以放入的区域,并消除背景中的其它区域(例如,在该例子中的小间隙)。在步骤S24中,结构元素优选地是长度为例如20个像素的水平线;可以使用其它长度,诸如从10至30个像素。也可以使用其它合适的形状。作为步骤S24的结果,多条断开的字符笔划被结合。该效果可以在图4D中看到。
最后,在顶边界和底边界处略微扩大水平线边界框,例如每个扩大5个像素,但是可以使用其它量,诸如从2至15个像素;移除边界框内部的既不接触边界框的顶边界、也不接触边界框的底边界的连接成分(步骤S25)。该步骤的效果是移除没有被前面的步骤移除的水平线的片段。
这里所描述的水平和垂直线检测和移除方法可以在诸如如图4中所示的计算机120的数据处理系统中实现。计算机120包括处理器121、存储装置(例如,硬盘驱动器)122以及内部存储器(例如,RAM)123。存储装置122存储软件程序,该软件程序被读出到RAM123并被处理器121执行以实现所述方法。
在一个方面,本发明是一种由数据处理系统执行的方法。在另一方面,本发明是一种在计算机可用的非暂时性介质中具体化的计算机装置,所述计算机可用的非暂时性介质具有嵌入在其中的用于控制数据处理设备执行所述方法的计算机可读程序代码。在另一方面,本发明在数据处理系统中具体化。
本领域技术人员将清楚的是,在不脱离本发明的精神或范围的情况下,可以在本发明的水平和垂直线检测和移除方法以及相关设备中进行各种修改和变化。因此,意图是本发明覆盖落在所附权利要求及其等同的范围内的修改和变化。
Claims (16)
1.一种用于从二值文档图像移除水平线的方法,包括以下步骤:
(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;
(b)获得表示检测到的水平线的边界框;
(c)计算水平线的每个水平位置处的最大笔划宽度,其中,给定水平位置处的最大笔划宽度被定义为与位于该水平位置处的属于水平线的所有前景像素相关联的笔划宽度的最大值;
(d)针对位于沿着边界框的水平位置处的每个前景像素列,如果该水平位置处的最大笔划宽度小于边界框的以该水平位置为中心的窗口内的所有水平位置处的最大笔划宽度的中间值,则将它们移除;
(e)提取边界框中的在步骤(d)之后余留的所有连接成分,并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的任何连接成分;以及
(f)使用水平线作为结构元素来对从步骤(e)得到的二值图像执行闭运算。
2.根据权利要求1所述的方法,其中,步骤(c)包括以下步骤:
将边界框划分为多个水平布置的窗口;
针对每个窗口:
通过水平地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的水平线段的垂直中心位置来获得所述垂直中心位置;
在该窗口的每个水平位置处,识别与所述垂直中心位置处的前景像素连接的所有连续的前景像素;以及
计算与在识别步骤中识别的所有连续的前景像素相关联的笔划宽度中的最大一个。
3.根据权利要求1或2所述的方法,还包括以下步骤:
在步骤(d)之前,确定边界框中的水平线的长宽比,
其中,仅当所述长宽比大于预定阈值时,才执行步骤(d)、(e)和(f)。
4.根据权利要求3所述的方法,其中,确定步骤在步骤(c)之后执行,并且其中,所述长宽比是边界框的长度与水平线的所有水平位置处的最大笔划宽度的中间值的比率。
5.根据权利要求1至4中任一项所述的方法,在步骤(e)之后还包括以下步骤:
在顶边界和底边界处将边界框扩大第二预定量;以及
移除扩大的边界框中既不接触边界框的顶边界、也不接触边界框的底边界的连接成分。
6.一种用于从二值文档图像移除垂直线的方法,包括以下步骤:
(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;
(b)获得表示检测到的垂直线的边界框;
(c)计算垂直线的每个垂直位置处的最大笔划宽度,其中,给定垂直位置处的最大笔划宽度被定义为与位于该垂直位置处的属于垂直线的所有前景像素相关联的笔划宽度的最大值;
(d)计算垂直线的高宽比;
(e)如果所述高宽比大于或等于阈值比,则移除垂直线中的最大笔划宽度小于线宽度阈值的任何部分;以及
(f)提取边界框中的连接成分,并移除既不接触边界框的左边界、也不接触边界框的右边界的所有连接成分。
7.根据权利要求6所述的方法,其中,步骤(d)包括以下步骤:
计算垂直线的所有垂直位置处的最大笔划宽度的中间值;以及
计算垂直线的高宽比,该高宽比被定义为边界框的高度和最大笔划宽度的中间值的比率;并且
其中,在步骤(e)中,所述线宽度阈值是最大笔划宽度的中间值的倍数。
8.根据权利要求6或7所述的方法,其中,步骤(c)包括以下步骤:
将边界框划分为多个垂直布置的窗口;
针对每个窗口:
通过垂直地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的垂直线段的水平中心位置来获得所述水平中心位置;
在该窗口的每个垂直位置处,识别与水平中心位置处的前景像素连接的所有连续的前景像素;以及
计算与在识别步骤中识别的所有连续的前景像素相关联的笔划宽度中的最大一个。
9.一种用于从二值文档图像移除水平线的计算机装置,包括:
(a)用于获得与二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;
(b)用于获得表示检测到的水平线的边界框的部件;
(c)用于计算水平线的每个水平位置处的最大笔划宽度的部件,其中,给定水平位置处的最大笔划宽度被定义为与位于该水平位置处的属于水平线的所有前景像素相关联的笔划宽度的最大值;
(d)用于针对位于沿着边界框的水平位置处的每个前景像素列进行如下处理的部件:如果该水平位置处的最大笔划宽度小于边界框的以该水平位置为中心的窗口内的所有水平位置处的最大笔划宽度的中间值,则将它们移除;
(e)用于提取边界框中的在部件(d)的处理之后余留的所有连接成分、并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的任何连接成分的部件;以及
(f)用于使用水平线作为结构元素来对从部件(e)得到的二值图像执行闭运算的部件。
10.根据权利要求9所述的计算机装置,其中,部件(c)包括:
用于将边界框划分为多个水平布置的窗口的部件;
针对每个窗口:
用于通过水平地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的水平线段的垂直中心位置来获得所述垂直中心位置的部件;
用于在该窗口的每个水平位置处,识别与所述垂直中心位置处的前景像素连接的所有连续的前景像素的部件;以及
用于计算与在用于识别的部件的处理中识别的所有连续的前景像素相关联的笔划宽度中的最大一个的部件。
11.根据权利要求9或10所述的计算机装置,还包括:
用于在部件(d)的处理之前,确定边界框中的水平线的长宽比的部件,
其中,仅当所述长宽比大于预定阈值时,才执行部件(d)、(e)和(f)。
12.根据权利要11所述的计算机装置,其中,在部件(c)的处理之后执行用于确定的部件,并且其中,所述长宽比是边界框的长度与水平线的所有水平位置处的最大笔划宽度的中间值的比率。
13.根据权利要求9至12中任一项所述的计算机装置,在部件(e)的处理之后,还包括:
用于在顶边界和底边界处将边界框扩大第二预定量的部件;以及
用于移除扩大的边界框中的既不接触边界框的顶边界、也不接触边界框的底边界的连接成分的部件。
14.根据权利要求9至13中任一项所述的计算机装置,用于从二值文档图像移除垂直线,所述计算机装置包括:
(g)用于获得与二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;
(h)用于获得表示检测到的垂直线的边界框的部件;
(i)用于计算垂直线的每个垂直位置处的最大笔划宽度的部件,其中,给定垂直位置处的最大笔划宽度被定义为与位于该垂直位置处的属于垂直线的所有前景像素相关联的笔划宽度的最大值;
(j)用于计算垂直线的高宽比的部件;
(k)用于如果所述高宽比大于或等于阈值比,则移除垂直线中的最大笔划宽度小于线宽度阈值的任何部分的部件;以及
(l)用于提取边界框中的连接成分、并移除既不接触边界框的左边界、也不接触边界框的右边界的所有连接成分的部件。
15.根据权利要求14所述的计算机装置,其中,部件(j)包括:
用于计算垂直线的所有垂直位置处的最大笔划宽度的中间值的部件;以及
用于计算垂直线的高宽比的部件,该高宽比被定义为边界框的高度和最大笔划宽度的中间值的比率;并且
其中,在部件(k)的处理中,所述线宽度阈值是最大笔划宽度的中间值的倍数。
16.根据权利要求14或15所述的计算机装置,其中,部件(i)包括:
用于将边界框划分为多个垂直布置的窗口的部件;
针对每个窗口:
用于通过垂直地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的垂直线段的水平中心位置来获得所述水平中心位置的部件;
用于在该窗口的每个垂直位置处,识别与水平中心位置处的前景像素连接的所有连续的前景像素的部件;以及
用于计算与在用于识别的部件的处理中识别的所有连续的前景像素相关联的笔划宽度中的最大一个的部件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/502,820 | 2014-09-30 | ||
US14/502,820 US9275030B1 (en) | 2014-09-30 | 2014-09-30 | Horizontal and vertical line detection and removal for document images |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105469026A true CN105469026A (zh) | 2016-04-06 |
CN105469026B CN105469026B (zh) | 2019-04-09 |
Family
ID=55359972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510621476.1A Active CN105469026B (zh) | 2014-09-30 | 2015-09-25 | 针对文档图像的水平和垂直线检测和移除 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9275030B1 (zh) |
JP (1) | JP6377025B2 (zh) |
CN (1) | CN105469026B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600655A (zh) * | 2016-11-15 | 2017-04-26 | 昂纳自动化技术(深圳)有限公司 | 基于行程编码的任意结构元的快速区域腐蚀算法及装置 |
CN110147765A (zh) * | 2019-05-21 | 2019-08-20 | 新华三信息安全技术有限公司 | 一种图像处理方法及装置 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898653B2 (en) * | 2016-05-25 | 2018-02-20 | Konica Minolta Laboratory U.S.A. Inc. | Method for determining width of lines in hand drawn table |
US10083353B2 (en) * | 2016-10-28 | 2018-09-25 | Intuit Inc. | Identifying document forms using digital fingerprints |
JP6810892B2 (ja) * | 2017-06-05 | 2021-01-13 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
US10169650B1 (en) * | 2017-06-30 | 2019-01-01 | Konica Minolta Laboratory U.S.A., Inc. | Identification of emphasized text in electronic documents |
US10019772B1 (en) * | 2017-10-06 | 2018-07-10 | Vertifi Software, LLC | Document image orientation, assessment and correction |
CN109993161B (zh) * | 2019-02-25 | 2021-08-03 | 众安信息技术服务有限公司 | 一种文本图像旋转矫正方法及系统 |
CN110084117B (zh) * | 2019-03-22 | 2021-07-20 | 中国科学院自动化研究所 | 基于二值图分段投影的文档表格线检测方法、系统 |
US12056331B1 (en) | 2019-11-08 | 2024-08-06 | Instabase, Inc. | Systems and methods for providing a user interface that facilitates provenance tracking for information extracted from electronic source documents |
US11315353B1 (en) * | 2021-06-10 | 2022-04-26 | Instabase, Inc. | Systems and methods for spatial-aware information extraction from electronic source documents |
CN114926839B (zh) * | 2022-07-22 | 2022-10-14 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
US12067039B1 (en) | 2023-06-01 | 2024-08-20 | Instabase, Inc. | Systems and methods for providing user interfaces for configuration of a flow for extracting information from documents via a large language model |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254991A (ja) * | 1997-03-06 | 1998-09-25 | Ricoh Co Ltd | 罫線消去方法及び機械読み取り可能な媒体 |
CN1949249A (zh) * | 2005-10-11 | 2007-04-18 | 株式会社理光 | 表格提取方法和设备 |
CN101789122A (zh) * | 2009-01-22 | 2010-07-28 | 佳能株式会社 | 用于校正畸变文档图像的方法和系统 |
CN101981583A (zh) * | 2008-03-28 | 2011-02-23 | 智能技术Ulc公司 | 用于识别手绘表格的方法和工具 |
CN102289810A (zh) * | 2011-08-05 | 2011-12-21 | 上海交通大学 | 高分辨率大数量级图像的快速矩形检测方法 |
CN103258198A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种表格文档图像中字符提取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2908495B2 (ja) * | 1990-02-09 | 1999-06-21 | 沖電気工業株式会社 | 文字画像抽出装置 |
US5898795A (en) * | 1995-12-08 | 1999-04-27 | Ricoh Company, Ltd. | Character recognition method using a method for deleting ruled lines |
US6363162B1 (en) * | 1998-03-05 | 2002-03-26 | Ncr Corporation | System and process for assessing the quality of a signature within a binary image |
-
2014
- 2014-09-30 US US14/502,820 patent/US9275030B1/en active Active
-
2015
- 2015-07-27 JP JP2015148129A patent/JP6377025B2/ja active Active
- 2015-09-25 CN CN201510621476.1A patent/CN105469026B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254991A (ja) * | 1997-03-06 | 1998-09-25 | Ricoh Co Ltd | 罫線消去方法及び機械読み取り可能な媒体 |
CN1949249A (zh) * | 2005-10-11 | 2007-04-18 | 株式会社理光 | 表格提取方法和设备 |
CN101981583A (zh) * | 2008-03-28 | 2011-02-23 | 智能技术Ulc公司 | 用于识别手绘表格的方法和工具 |
CN101789122A (zh) * | 2009-01-22 | 2010-07-28 | 佳能株式会社 | 用于校正畸变文档图像的方法和系统 |
CN102289810A (zh) * | 2011-08-05 | 2011-12-21 | 上海交通大学 | 高分辨率大数量级图像的快速矩形检测方法 |
CN103258198A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种表格文档图像中字符提取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600655A (zh) * | 2016-11-15 | 2017-04-26 | 昂纳自动化技术(深圳)有限公司 | 基于行程编码的任意结构元的快速区域腐蚀算法及装置 |
CN110147765A (zh) * | 2019-05-21 | 2019-08-20 | 新华三信息安全技术有限公司 | 一种图像处理方法及装置 |
CN110147765B (zh) * | 2019-05-21 | 2021-05-28 | 新华三信息安全技术有限公司 | 一种图像处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105469026B (zh) | 2019-04-09 |
JP6377025B2 (ja) | 2018-08-22 |
JP2016072958A (ja) | 2016-05-09 |
US9275030B1 (en) | 2016-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469026A (zh) | 针对文档图像的水平和垂直线检测和移除 | |
US10896349B2 (en) | Text detection method and apparatus, and storage medium | |
CN105469027A (zh) | 针对文档图像的水平和垂直线检测和移除 | |
CN110033471B (zh) | 一种基于连通域分析和形态学操作的框线检测方法 | |
US8457403B2 (en) | Method of detecting and correcting digital images of books in the book spine area | |
CN104376318B (zh) | 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线 | |
US9070035B2 (en) | Document processing apparatus, document processing method and scanner | |
CN101453575B (zh) | 一种视频字幕信息提取方法 | |
US9330331B2 (en) | Systems and methods for offline character recognition | |
JP4694613B2 (ja) | 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 | |
CN105205488A (zh) | 基于Harris角点和笔画宽度的文字区域检测方法 | |
EP2605186A2 (en) | Method and apparatus for recognizing a character based on a photographed image | |
WO2017088479A1 (zh) | 台标识别方法及装置 | |
RU2581786C1 (ru) | Определение преобразований изображения для повышения качества оптического распознавания символов | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN107845068A (zh) | 图像视角变换装置以及方法 | |
CN108665495B (zh) | 图像处理方法及装置、移动终端 | |
CN105447508A (zh) | 一种字符图像验证码识别的方法及系统 | |
CN104700388A (zh) | 用于从图像中提取畸变的直线的方法和装置 | |
KR101377910B1 (ko) | 화상 처리 방법 및 화상 처리 장치 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN108960247B (zh) | 图像显著性检测方法、装置以及电子设备 | |
EP2545498B1 (en) | Resolution adjustment of an image that includes text undergoing an ocr process | |
RU2633182C1 (ru) | Определение направления строк текста | |
JP6341059B2 (ja) | 文字認識装置、文字認識方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |