CN101676930A - 一种识别扫描图像中表格单元的方法及装置 - Google Patents

一种识别扫描图像中表格单元的方法及装置 Download PDF

Info

Publication number
CN101676930A
CN101676930A CN200810222480A CN200810222480A CN101676930A CN 101676930 A CN101676930 A CN 101676930A CN 200810222480 A CN200810222480 A CN 200810222480A CN 200810222480 A CN200810222480 A CN 200810222480A CN 101676930 A CN101676930 A CN 101676930A
Authority
CN
China
Prior art keywords
line segment
intersection point
scan image
horizontal line
vertical line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810222480A
Other languages
English (en)
Inventor
亓文法
李晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN200810222480A priority Critical patent/CN101676930A/zh
Publication of CN101676930A publication Critical patent/CN101676930A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种识别扫描图像中表格单元的方法及装置,包括:获取表格文档的扫描图像中的水平线段和垂直线段;去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图像的分辨率设定;根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。使用本发明,不仅具有传统直线检测算法识别成功率高的特点,还能够在保证高识别率的前提下,提高扫描图像中表格单元识别速度。

Description

一种识别扫描图像中表格单元的方法及装置
技术领域
本发明属于图像识别技术领域,具体涉及一种识别扫描图像中表格单元的方法及装置。
背景技术
表格是文档中常用的数据资料载体,大量应用于各种场合。为了便于对纸质表格处理进行自动化和电子化,需要一种快速的表格自动识别方法来确定表格中各个单元的位置和大小,其目的是便于下一步获取表格单元中的内容,送交后续模块进行OCR(Optical Character Recognition,光字符识别)、自动填表等处理。
现有技术中常用的表格识别方法有投影法、搜索法、直线检测法等。
投影法是对表格图像纵、横向进行投影,根据得到的投影值中的峰值变化来判断表格线。这种方法的不足在于:很难处理表格线较细且稍有歪斜或复杂表格。
搜索法是沿表格线进行周游遍历,这种方法的不足在于:对毛刺、断线和字符粘连很难处理。
直线检测法是使用Hough变换、矢量化等方法检测表格中的直线,然后利用这些直线重构表格结构。这类方法的不足在于:对表格单元的识别成功率很高,但缺点是运算量大,运算速度慢,这限制了其应用场合。
因此,目前的现有技术中还没有一种对表格单元进行自动识别的方案能在保证高识别率的前提下,提高扫描图像中表格单元识别速度。
发明内容
本发明提供一种识别扫描图像中表格单元的方法及装置,用以在保证高识别率的前提下,提高扫描图像中表格单元识别速度。
本发明实施中提供了一种识别扫描图像中表格单元的方法,包括如下步骤:
获取表格文档的扫描图像中的水平线段和垂直线段;
去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图像的分辨率设定;
根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。
较佳地,在获取表格文档的扫描图像中的水平线段和垂直线段前,进一步包括:
获取扫描图像后,对扫描图像进行包括噪音去除操作、图像纠偏操作、图像二值化操作之一或者其组合的预处理操作。
较佳地,所述第一阈值为根据线状型噪音线段长度和/或表格内部文字图像区域线段长度进行设定。
较佳地,在获取剩余的水平线段和垂直线段的交点前,进一步包括:
合并线段有重叠的水平线段,和/或线段有重叠的垂直线段。
较佳地,在获取剩余的水平线段和垂直线段的交点前,进一步包括:
合并线段间距小于第二阈值的水平线段,和/或线段间距小于第二阈值的垂直线段,所述第二阈值大于断裂表格线之间的距离。
较佳地,获取剩余的水平线段和垂直线段的交点前,进一步包括:
去除扫描图像中小于第三阈值的水平线段和垂直线段,所述第三阈值小于最短的表格线的长度。
较佳地,根据剩余的水平线段和垂直线段识别扫描图像中的表格单元,具体为:
获取剩余的水平线段和垂直线段的交点;
根据表示交点在周围四个方向上的水平线段与垂直线段的存在与否的第一位置关系,以及表示交点是否属于同一水平线段和/或垂直线段的第二位置关系,识别扫描图像中的表格单元。
较佳地,根据第一位置关系及第二位置关系识别扫描图像中的表格单元,具体为:
确定一个交点;
确定与该交点相邻的交点,所述相邻的交点与该交点属于不同种类的第一位置关系,所述种类根据交点在周围四个方向上的水平线段与垂直线段的存在与否进行判断;
根据该交点及该交点相邻的交点识别出该交点的表格单元;
按所述确定该交点的表格单元的方式,根据第二位置关系确定该交点以外的其它交点的表格单元。
本发明实施中还提供了一种识别扫描图像中表格单元的装置,包括:
线段获取模块,用于获取表格文档的扫描图像中的水平线段和垂直线段;
第一线段去除模块,用于去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图像的分辨率设定;
表格识别模块,用于根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。
较佳地,进一步包括:
预处理模块,用于获取扫描图像后,在获取表格文档的扫描图像中的水平线段和垂直线段前,对扫描图像进行包括噪音去除操作、图像纠偏操作、图像二值化操作之一或者其组合的预处理操作。
较佳地,所述第一线段去除模块进一步用于根据线状型噪音线段长度和/或表格内部文字图像区域线段长度进行设定第一阈值。
较佳地,进一步包括:
第一合并模块,用于在获取剩余的水平线段和垂直线段的交点前,合并线段有重叠的水平线段,和/或线段有重叠的垂直线段。
较佳地,进一步包括:
第二合并模块,用于在获取剩余的水平线段和垂直线段的交点前,合并线段间距小于第二阈值的水平线段,和/或线段间距小于第二阈值的垂直线段,所述第二阈值大于断裂表格线之间的距离。
较佳地,进一步包括:
第二线段去除模块,用于在获取剩余的水平线段和垂直线段的交点前,去除扫描图像中小于第三阈值的水平线段和垂直线段,所述第三阈值小于最短的表格线的长度进行设定。
较佳地,所述表格识别模块包括:
交点获取单元,用于获取剩余的水平线段和垂直线段的交点;
位置确定单元,用于根据表示交点在周围四个方向上的水平线段与垂直线段的存在与否的第一位置关系,以及表示交点是否属于同一水平线段和/或垂直线段的第二位置关系,识别扫描图像中的表格单元;
表格识别单元,用于根据第一位置关系及第二位置关系识别扫描图像中的表格单元。
较佳地,所述表格识别单元包括:
交点确定子单元,用于根据第二位置关系确定未进行表格识别的交点,在确定一个交点后,交由表格识别子单元处理;
表格识别子单元,用于确定与该交点相邻的交点,所述相邻的交点与该交点属于不同种类的第一位置关系;并根据该交点及该交点相邻的交点识别出该交点的表格单元,所述种类根据交点在周围四个方向上的水平线段与垂直线段的存在与否进行判断。
本发明有益效果如下:
本发明在实施中,在获取表格文档的扫描图像中的水平线段和垂直线段以后,将会去除扫描图像中小于第一阈值的水平线段和垂直线段,然后根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。由于根据第一阈值使用了过滤的方案来获取表格中的直线,因此其计算速度比Hough变换、矢量化等直线检测方法快得多,这大大拓展了方法的适用范围。
进一步的,由于本发明实施中还采用了基于线段长度的阈值过滤方法,因此可以克服大部分的表格单元粘连情况。
进一步的,由于本发明通过检查相邻行的水平线段和垂直线段,若有重叠部分,则合并重叠线段为一条新的水平或者垂直线段,从而可以容忍由于扫描图像的小角度旋转而带来的误差问题。
进一步的,由于本发明实施中还采用了合并线段间距小于第二阈值的线段,因此可以解决小的表格单元线段出现断裂的情况。
综上,本发明实施例不仅具有传统直线检测算法识别成功率高的特点,还能够在保证高识别率的前提下,提高扫描图像中表格单元识别速度;进一步的,还能够获知表格的精确结构,可以解决大部分的表格单元粘连问题,对于小的断裂,也可以通过连接首尾相距较近的线段来解决,具备了抗粘连,抗断裂的优点。
进一步的,实施例中还在根据剩余的水平线段和垂直线段识别扫描图像中的表格单元时,获取剩余的水平线段和垂直线段的交点,并各交点与线段的位置关系,以及各交点之间的位置关系识别扫描图像中的表格单元。由于引入了交点这一特征,使得本发明实施例中的方案运算量更小,这也使得本发明实施例的各种方案在识别表格单元时的运算处理速度更快。
附图说明
图1为本发明实施例中所述识别扫描图像中表格单元的方法的实施流程示意图;
图2为本发明实施例中所述交点与线段的位置关系示意图;
图3为本发明实施例中所述根据第一位置关系及第二位置关系识别扫描图像中的表格单元的实施流程示意图;
图4为本发明实施例中所述表格单元识别实施流程示意图;
图5为本发明实施例中所述识别扫描图像中表格单元的装置结构示意图;
图6为本发明实施例中所述验货单的扫描图像示意图;
图7为本发明实施例中所述对验货单的扫描图像进行识别后的表格单元示意图。
具体实施方式
本发明在实施中提供了一种识别扫描图像中表格单元的方法,本发明在实施中的构思在于:从上至下、从左到右扫描图像区域,获得图像中的所有直线段,然后使用快速筛选算法来过滤掉表格中的其它内容,只保留较长的水平和垂直线段,这些线段构成了表格单元,然后利用这些线段识别出表格单元结构,通过获取到的表格单元的位置和大小,从而识别出扫描图像中的表格单元,具体的,是通过各线段以及它们的交点来识别表格单元的结构、位置的。
下面结合附图对本发明的具体实施方式进行说明。
图1为识别扫描图像中表格单元的方法的实施流程示意图,如图所示,在识别扫描图像中的表格单元时可以包括如下步骤:
步骤101、获取表格文档的扫描图像中的水平线段和垂直线段;
步骤102、去除扫描图像中小于第一阈值的水平线段和垂直线段;
步骤103、获取剩余的水平线段和垂直线段的交点;
步骤104、确定各交点的第一位置关系,以及第二位置关系;
第一位置关系表示交点在周围四个方向上的水平线段与垂直线段的存在与否,第二位置关系表示交点是否属于同一水平线段和/或垂直线段。
步骤105、根据第一位置关系及第二位置关系识别扫描图像中的表格单元。
下面对各步骤的具体实施进行说明。
在步骤101获取表格文档的扫描图像中的水平线段和垂直线段前,可以进一步包括:
在获取扫描图像后,先对扫描图像进行包括噪音去除操作、图像纠偏操作、图像二值化操作之一或者其组合的预处理操作。
对于扫描图像的获取,可以通过数字化设备来获取,并进行扫描图像预处理。由于通过扫描等方式获得的文档图像,或多或少都会存在噪声,而噪音大多数是以孤立点的形式存在。因此可以先进行预处理,比如噪音去除操作处理。噪音去除操作处理是预处理的一部分,主要是去除小的脏点。
具体实施中,可以通过移除小连通区域的方法进行噪音去除:首先通过基于区域生长算法,搜索版面中小的连通区域,并计算该区域中的前景象素点的个数Sum,然后将Sum小于一定阈值的连通区域视为噪音点而去除。
显然,在步骤101前进行预处理有助于更准确的获取表格文档的扫描图像中的水平线段和垂直线段。
而预处理中的图像纠偏操作也有助于提高获取表格文档的扫描图像中的水平线段和垂直线段的准确性,比如不会将因扫描时倾斜的水平或垂直线段误判为非水平或垂直线段。
同理,可以在获取扫描图像后,先对扫描图像进行其他类型的、有助于提高获取表格文档的扫描图像中的水平线段和垂直线段的准确性的预处理操作,除噪音去除操作、图像纠偏操作外,还可以是图像二值化操作等。
在步骤101中,可以简单的按照水平方向对表格图像进行扫描,计算连续象素点的个数,即为所述的水平直线段;同样地,按照垂直方向对表格图像进行列扫描,计算连续象素点的个数,即为所述的垂直直线段。这对本领域技术人员来说是容易理解的。
为便于描述,本发明实施中将按水平方向扫描所得的线段称为水平线段,将按与水平方向垂直的方向扫描所得的线段称为垂直线段。显然,水平、垂直方向的定义是本领域习惯称呼,并非指地理、数学、或其他领域中所述的水平与垂直。
在步骤101获得水平线段与垂直线段后,便可实施步骤102,去除扫描图像中小于第一阈值的水平线段和垂直线段。本步骤的目的在于:进一步去除一些线状的大噪音区域,同时过滤掉表格单元内部的文字区域图像的干扰。因此,本步骤中的第一阈值也是根据线状型噪音线段长度和/或表格内部文字图像区域线段长度进行设定的。具体实施中,第一阈值的选取主要是参考扫描图像中的最小字符的高度和扫描图像的分辨率。因为对于同一个字符大小而言,不同的扫描分辨率下图像的尺寸大小不同。比如600dpi下,5号字的最大字高为90个像素。在同一分辨率下,第一阈值可选为最小字符高度的2/3左右。表格单元线的长度一般都会比字符的高度要大一些,所以这么选择不会影响到表格单元线。下面进行说明。
为便于引用描述,将该步骤称为过滤表格图像步骤,其目的在于去除长度短的水平和垂直线段。具体的如下:
按照水平方向对表格图像进行扫描,计算连续象素点的个数,即为所述的水平直线段的长度,每条水平扫描线上只保留长度超过第一阈值的水平线段;同样地,按照垂直方向对表格图像进行列扫描,计算连续象素点的个数,即为所述的垂直直线段的长度,每条垂直扫描线上只保留长度超过第一阈值的垂直线段。在去除一般为点状的噪音后,还会与留一些线状的、较大的噪音区域,同时,单元表格内的文字区域内容也会表现为线段,因此有必要将一些与构成单元格无关的短长度的线段去除,通常这些线段都比较小,因此可以通过设定一个阈值,将长度小于该阈值的线段去除,显然,经过此步骤可以进一步去除一些线状的大噪音区域,同时过滤掉表格单元内部的文字区域图像的干扰。
具体实施中,第一阈值的取值可以根据图像分辨率的不同而不同,例如在图像分辨率为600dpi时,第一阈值可以取值为30个像素(pixel),通过第一阈值的作用本领域技术人员是容易根据实际需要确定出合适的取值的。
进一步的,由于现有的图像扫描机制,在实际的扫描图像中,水平或者垂直的线段并不会精确的表现为在一个水平、或者垂直坐标数值上,这时一根线段在扫描后会表现为两个有部分重叠的线段。因此,在获取剩余的水平线段和垂直线段的交点前,还可以进一步包括:合并线段有重叠的水平线段,和/或线段有重叠的垂直线段。
具体的,可以通过检查相邻行的水平线段,若有重叠部分,则合并两条线段为一条水平直线段;同样地,检查相邻列的垂直线段,若有重叠部分,则合并两条线段为一条垂直直线段。
进一步的,在实际的扫描图像中,还会出现一种情况,即出现单元格线段断裂的情况,这种情况主要是由于扫描或者打印过程而造成的。因此,在获取剩余的水平线段和垂直线段的交点前,还可以进一步包括:合并线段间距小于第二阈值的水平线段,和/或线段间距小于第二阈值的垂直线段,所述第二阈值根据断裂表格线的长度进行设定。显然,该步骤的主要目的是想保留部分由于扫描或者打印过程而造成的表格线断裂情况,也就是设定第二阈值要解决的问题。
具体的,设第二阈值为n个像素,那么实施中可以检查所有水平线段,如果两个线段头尾相距n个像素以内,则将该两个线段合并,也就是合并间距小于第二阈值的线段;同样地,检查所有垂直线段,合并头尾相距n个像素以内的线段。一般而言,图像分辨率越大,n也就越大。由于n主要是解决断裂表格线的合并问题,而表格线断裂部分一般不会太大,因此n一般比较小。如在图像分辨率为600dpi时,n可以取值为3个像素(pixel)。
进一步的,为了更好的过滤噪音线段或者粘连的字符图像区域,在获取剩余的水平线段和垂直线段的交点前,还可以进一步包括:去除扫描图像中小于第三阈值的水平线段和垂直线段,所述第三阈值根据最短的表格线的长度进行设定。之所以要采用第一阈值、第三阈值两个阈值来进行过滤,而不是直接采用较大的第三阈值,还有一个目的是想保留部分由于扫描或者打印过程而造成的表格线断裂情况,也就是第二阈值n要解决的问题。
具体的,可以检查所有水平线段,容易理解,该线段可以是步骤102中根据第一阈值去除后剩余的线段,也可以是合并有重叠部分的线段后剩余的线段、还可以是根据第二阈值合并后剩余的线段,也可以是同时经过上述几种处理后剩余的线段,然后在这些所有的线段中删除长度小于第三阈值的线段;同样地,检查所有垂直线段,删除长度小于第三阈值的线段。
相应地,第三阈值的取值也根据图像分辨率的不同而不同,一般而言,分辨率越大,该值一般越大;如可以在图像分辨率为600dpi时,水平方向上的第三阈值取值为200像素(pixel),垂直方向上的第三阈值取值为120像素(pixel)。需要说明的是,一般情况下来讲,由于最小的表格单元的水平宽度比最小的表格单元的竖直高度要大一些。因此在实施例中水平线段与垂直线段的第三阈值不相同,但是,这不是完全绝对的,它们之间也没有必然的联系,而是要根据具体的表格单元情况来定。
经过上述处理而剩余的线段,是比较准确的、可以用于识别单元格的水平线段与垂直线段,此时可以开始利用这些剩余线段进行表格单元的识别了。可见,在实施中,在获取表格文档的扫描图像中的水平线段和垂直线段以后,将会去除扫描图像中小于第一阈值的水平线段和垂直线段,然后根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。由于根据第一阈值使用了过滤的方案来获取表格中的直线,因此其计算速度比Hough变换、矢量化等直线检测算法快得多,这大大拓展了算法的适用范围。同时,实施例中可以获知表格的精确结构,可以解决大部分的表格单元粘连问题,对于小的断裂,也可以通过连接首尾相距较近的线段来解决,因此还具有传统直线检测算法识别成功率高,抗粘连,抗断裂的优点。
但是,为了进一步的提高识别速度,实施中还可以进一步的根据各交点与线段的位置关系,以及各交点之间的位置关系来识别扫描图像中的表格单元,下面进行说明。
首先执行步骤103,获取剩余的水平线段和垂直线段的交点。水平线段与垂直线段之间必然会相交,本步骤正是要获取这些交点,本步骤的作用以及实施对本领域技术人员来说是容易理解的。
获得各交点后,便可以在步骤105中根据第一位置关系及第二位置关系识别扫描图像中的表格单元,其中,第一位置关系、第二位置关系是在步骤104中确定的各交点与水平线段和垂直线段的位置关系,以及各交点之间的位置关系。第一位置关系表示交点在周围四个方向上的水平线段与垂直线段的存在与否,第二位置关系表示交点是否属于同一水平线段和/或垂直线段。
本领域技术人员容易知道,当获知构成整个表格单元的点及线段时,就可以识别出整个表格单元的形状,即可知其如何构成。本发明实施中,引入了交点这一特征,并利用交点与线段、交点与交点之间的位置关系来识别表格单元,显然,与现有技术直线检测法中所采用的、仅仅依靠线段这一元素的方式相比,本发明实施例中的方案运算量更小,这也使得本发明实施例的各种方案在识别表格单元时的运算处理速度更快。
下面对第一位置关系、第二位置关系及运用其来识别表格单元的实施方式进行说明。
第一位置关系是各交点与水平线段和垂直线段的位置关系,是表示该交点在周围四个方向上的水平线段与垂直线段的存在与否。
第二位置关系是各交点之间的位置关系,是表示各交点是否属于同一水平线段和/或垂直线段。
图2为交点与线段的位置关系示意图,下面对照图2先对第一位置关系进行说明。
如图2所示,图中有交点1、2、3、4、5、6、7、8、9,连接交点的是水平线段或者垂直线段。容易理解,无论表格单元中的哪一种交点,都必然与图中9种交点中的一个相同,显然,通过这9种交点与周围四个方向上的水平线段与垂直线段的存在与否便可以确定其种类。为便于描述,对照图实施例中使用了上、下、左、右的描述,但并不代表真实的图像处理中也使用上、下、左、右这样的关系。由图可见,9种交点与周围四个方向上的水平线段与垂直线段的关系为:
交点1、下面有垂直线段、右边有水平线段;
交点2、下面有垂直线段、左边有水平线段、右边有水平线段;
交点3、下面有垂直线段、左边有水平线段;
交点4、上面有垂直线段、下面有垂直线段、右边有水平线段;
交点5、上面有垂直线段、下面有垂直线段、左边有水平线段、右边有水平线段;
交点6、上面有垂直线段、下面有垂直线段、左边有水平线段;
交点7、上面有垂直线段、右边有水平线段;
交点8、上面有垂直线段、左边有水平线段、右边有水平线段;
交点9、上面有垂直线段、左边有水平线段。
事实上,在根据第一位置关系及第二位置关系识别扫描图像中的表格单元的过程中,可以通过上述9种关系便可以确定一个交点与该交点相邻的交点,但是,进一步的,还可以将9类交点进一步划分为四种类型,即:将其中1、2、4、5归为矩形表格单元的左上点集合,实施例中记为类型A;将2、3、5、6归为矩形表格单元的右上点集合,实施例中记为类型B;将4、5、7、8归为矩形表格单元的左下点集合,实施例中记为类型C;将5、6、8、9归为矩形表格单元的右下点集合,实施例中记为类型D。
需要说明的是,每一个交点时很可能同时具备多种属性,比如对于交点2,它既可能属于类型A,也可能属于类型B,这要视其在整个表格单元中的位置关系来确定;简单说,图2中的交点5,就同时具备A、B、C、D四种类型的属性。
通过以上方案便可以确定各交点与水平线段和垂直线段的第一位置关系,同时也可以通过第一位置关系的不同确定了各交点的种类。
第二位置关系是各交点之间的位置关系,可以根据各交点是否属于同一水平线段和/或垂直线段确定。第二位置关系的确定对本领域技术人员来说是比较简单的,一种确定第二位置关系的方式如下:
将计算得到的交点坐标{xi}和{yi}和上述定义的交点类型进行排序,保存到一个二维行列结构链表中,排序原则为:如果两个交点连线与水平线的角度在3度以内,则认为两点在同一行中。在同一行中的点,按照水平坐标递增的顺序排列。
在确定了第一位置关系、第二位置关系后,便可以执行步骤105的根据第一位置关系及第二位置关系识别扫描图像中的表格单元。本步骤之所以能够实施,其原因在于:每个单元格必然包括4类点中的各一个(上左、上右、下右、下左);确定所有单元格后便可以构成整个表格。
图3为根据第一位置关系及第二位置关系识别扫描图像中的表格单元的实施流程示意图,如图所示,可以包括以下步骤:
步骤301、确定一个交点;
步骤302、确定与该交点相邻的交点,所述相邻的交点与该交点属于不同种类的第一位置关系;
步骤303、根据该交点及该交点相邻的交点识别出该交点的表格单元;
步骤304、按所述确定该交点的表格单元的方式,根据第二位置关系确定该交点以外的其它交点的表格单元。
下面以一个实例再进行说明如何具体如何运用第一位置关系以及第二位置关系来进行识别,具体的,本实施例中对所有交点按行排序,利用交点顺序和交点类型,计算表格结构,识别出表格单元的位置和大小。
图4为表格单元识别实施流程示意图,如图所示,可以包括如下步骤:
步骤401、按照从左到右,从上到下的顺序,在交点行列中找寻第一个A类点;
本步骤在具体实施中也可以按照别的顺序寻找第一个交点,交点的类型也可以是别的类型,总之,在寻找到第一个交点后,在以下的步骤中需要实现的是确定该交点相邻的4类点中的各一个。
步骤402、在A类点所在行的右侧点中,找寻第一个B类点;
步骤403、在A类点所在行的下方的所有行中,检查所有的C类点,找到同A类点水平坐标差最小的一个;
步骤404、在C类点所在行的右侧点中,找寻第一个D类点;
步骤405、记录四点组成的内接矩形坐标;
步骤406、判断是否所有的A类型点都被处理过,若是执行步骤407,否则执行步骤401,
步骤407、识别出所有内接矩形。
显然,所有的内接矩形便是本发明实施例中所需识别出的表格单元。
基于同一发明构思,本发明还提供了一种识别扫描图像中表格单元的装置,下面结合附图对装置的具体实施方式进行说明。由于识别装置与识别方法是基于同一发明构思,二者有相同的原理,因此装置的实施过程中可以参考识别方法的实施,相同之处不再重复描述。
图5为识别扫描图像中表格单元的装置结构示意图,如图所示,装置中可以包括:
线段获取模块501,用于获取表格文档的扫描图像中的水平线段和垂直线段;
第一线段去除模块502,用于去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图像的分辨率设定;
表格识别模块503,用于根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。
还可以进一步包括:
预处理模块504,用于获取扫描图像后,在获取表格文档的扫描图像中的水平线段和垂直线段前,对扫描图像进行包括噪音去除操作、图像纠偏操作、图像二值化操作之一或者其组合的预处理操作。
第一线段去除模块502还可以进一步用于根据线状型噪音线段长度和/或表格内部文字图像区域线段长度进行设定第一阈值。
装置中还可以进一步包括:
第一合并模块505,用于在获取剩余的水平线段和垂直线段的交点前,合并线段有重叠的水平线段,和/或线段有重叠的垂直线段。
第二合并模块506,用于在获取剩余的水平线段和垂直线段的交点前,合并线段间距小于第二阈值的水平线段,和/或线段间距小于第二阈值的垂直线段,所述第二阈值大于断裂表格线的长度之间的距离。
第二线段去除模块507,用于在获取剩余的水平线段和垂直线段的交点前,去除扫描图像中小于第三阈值的水平线段和垂直线段,所述第三阈值根据最短的表格线的长度进行设定。
需要说明的是,由于第一合并模块505、第二合并模块506、第二线段去除模块507是进一步增加效果的,第一合并模块505、第二合并模块506、第二线段去除模块507是在获取剩余的水平线段和垂直线段的交点前实施,它们之间、以及它们与第一线段去除模块502之间并没有必然的因果关系,在进行识别处理时,既可以在第一线段去除模块实施后便交由表格识别模块处理,也可以进一步的交由第一合并模块505和/或第二合并模块506,或者直接交由第二线段去除模块处理,可以根据需要组合出各种连接关系以及执行顺序,这对本领域技术人员来说是容易理解的。因此,图中的连接关系仅示出了依次为第一线段去除模块、第一合并模块、第二合并模块、第二线段去除模块、表格识别模块的连接方式,但这不代表仅有该种连接方式、执行顺序和实施方式。
装置中的表格识别模块503中可以包括:
交点获取单元5031,用于获取剩余的水平线段和垂直线段的交点;
位置确定单元5032,用于表示交点在周围四个方向上的水平线段与垂直线段的存在与否的第一位置关系,以及表示交点是否属于同一水平线段和/或垂直线段的第二位置关系;
表格识别单元5033,用于根据第一位置关系及第二位置关系识别扫描图像中的表格单元。
位置确定单元5032可以进一步用于根据各交点在周围四个方向上的水平线段与垂直线段的存在与否确定第一位置关系。
位置确定模块5032也可以进一步用于根据各交点是否属于同一水平线段和/或垂直线段确定第二位置关系。
表格识别单元5033中可以包括:
交点确定子单元,用于根据第二位置关系确定未进行表格识别的交点,在确定一个交点后,交由表格识别子单元处理;
表格识别子单元,用于确定与该交点相邻的交点,所述相邻的交点与该交点属于不同种类的第一位置关系;并根据该交点及该交点相邻的交点识别出该交点的表格单元,所述种类根据交点在周围四个方向上的水平线段与垂直线段的存在与否进行判断。
由上述实施例可知,由于本发明实施中使用过滤的方法来获取表格中的直线,其计算速度比Hough变换、矢量化等直线检测算法快得多,这大大拓展了算法的适用范围。同时,本发明实施中可以获知表格的精确结构,可以解决大部分的表格单元粘连问题,对于小的断裂,也可以通过连接首尾相距较近的线段来解决,因此还具有传统直线检测算法识别成功率高,抗粘连,抗断裂的优点。
图6为验货单的扫描图像示意图,图7为对验货单的扫描图像进行识别后的表格单元示意图,如图6所示,验货单中包括表格单元,单元中有具体的文字内容。按本发明实施例中所述的方式识别后,得到具体的识别结果如图7所示,由图7可以明显地看出本发明实施例的效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1、一种识别扫描图像中表格单元的方法,其特征在于,包括如下步骤:
获取表格文档的扫描图像中的水平线段和垂直线段;
去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图像的分辨率设定;
根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。
2、如权利要求1所述的方法,其特征在于,在获取表格文档的扫描图像中的水平线段和垂直线段前,进一步包括:
获取扫描图像后,对扫描图像进行包括噪音去除操作、图像纠偏操作、图像二值化操作之一或者其组合的预处理操作。
3、如权利要求1所述的方法,其特征在于,所述第一阈值为根据线状型噪音线段长度和/或表格内部文字图像区域线段长度进行设定。
4、如权利要求1所述的方法,其特征在于,在获取剩余的水平线段和垂直线段的交点前,进一步包括:
合并线段有重叠的水平线段,和/或线段有重叠的垂直线段。
5、如权利要求1所述的方法,其特征在于,在获取剩余的水平线段和垂直线段的交点前,进一步包括:
合并线段间距小于第二阈值的水平线段,和/或线段间距小于第二阈值的垂直线段,所述第二阈值大于断裂表格线之间的距离。
6、如权利要求4或5所述的方法,其特征在于,获取剩余的水平线段和垂直线段的交点前,进一步包括:
去除扫描图像中小于第三阈值的水平线段和垂直线段,所述第三阈值小于最短的表格线的长度。
7、如权利要求1所述的方法,其特征在于,根据剩余的水平线段和垂直线段识别扫描图像中的表格单元,具体为:
获取剩余的水平线段和垂直线段的交点;
根据表示交点在周围四个方向上的水平线段与垂直线段的存在与否的第一位置关系,以及表示交点是否属于同一水平线段和/或垂直线段的第二位置关系,识别扫描图像中的表格单元。
8、如权利要求7所述的方法,其特征在于,根据第一位置关系及第二位置关系识别扫描图像中的表格单元,具体为:
确定一个交点;
确定与该交点相邻的交点,所述相邻的交点与该交点属于不同种类的第一位置关系,所述种类根据交点在周围四个方向上的水平线段与垂直线段的存在与否进行判断;
根据该交点及该交点相邻的交点识别出该交点的表格单元;
按所述确定该交点的表格单元的方式,根据第二位置关系确定该交点以外的其它交点的表格单元。
9、一种识别扫描图像中表格单元的装置,其特征在于,包括:
线段获取模块,用于获取表格文档的扫描图像中的水平线段和垂直线段;
第一线段去除模块,用于去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图像的分辨率设定;
表格识别模块,用于根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。
10、如权利要求9所述的装置,其特征在于,进一步包括:
预处理模块,用于获取扫描图像后,在获取表格文档的扫描图像中的水平线段和垂直线段前,对扫描图像进行包括噪音去除操作、图像纠偏操作、图像二值化操作之一或者其组合的预处理操作。
11、如权利要求9所述的装置,其特征在于,所述第一线段去除模块进一步用于根据线状型噪音线段长度和/或表格内部文字图像区域线段长度进行设定第一阈值。
12、如权利要求9所述的装置,其特征在于,进一步包括:
第一合并模块,用于在获取剩余的水平线段和垂直线段的交点前,合并线段有重叠的水平线段,和/或线段有重叠的垂直线段。
13、如权利要求9所述的装置,其特征在于,进一步包括:
第二合并模块,用于在获取剩余的水平线段和垂直线段的交点前,合并线段间距小于第二阈值的水平线段,和/或线段间距小于第二阈值的垂直线段,所述第二阈值大于断裂表格线之间的距离。
14、如权利要求12或13所述的装置,其特征在于,进一步包括:
第二线段去除模块,用于在获取剩余的水平线段和垂直线段的交点前,去除扫描图像中小于第三阈值的水平线段和垂直线段,所述第三阈值小于最短的表格线的长度。
15、如权利要求9所述的装置,其特征在于,所述表格识别模块包括:
交点获取单元,用于获取剩余的水平线段和垂直线段的交点;
位置确定单元,用于确定表示交点在周围四个方向上的水平线段与垂直线段的存在与否的第一位置关系,以及表示交点是否属于同一水平线段和/或垂直线段的第二位置关系;
表格识别单元,用于根据第一位置关系及第二位置关系识别扫描图像中的表格单元。
16、如权利要求15所述的装置,其特征在于,所述表格识别单元包括:
交点确定子单元,用于根据第二位置关系确定未进行表格识别的交点,在确定一个交点后,交由表格识别子单元处理;
表格识别子单元,用于确定与该交点相邻的交点,所述相邻的交点与该交点属于不同种类的第一位置关系;并根据该交点及该交点相邻的交点识别出该交点的表格单元,所述种类根据交点在周围四个方向上的水平线段与垂直线段的存在与否进行判断。
CN200810222480A 2008-09-17 2008-09-17 一种识别扫描图像中表格单元的方法及装置 Pending CN101676930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810222480A CN101676930A (zh) 2008-09-17 2008-09-17 一种识别扫描图像中表格单元的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810222480A CN101676930A (zh) 2008-09-17 2008-09-17 一种识别扫描图像中表格单元的方法及装置

Publications (1)

Publication Number Publication Date
CN101676930A true CN101676930A (zh) 2010-03-24

Family

ID=42029489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810222480A Pending CN101676930A (zh) 2008-09-17 2008-09-17 一种识别扫描图像中表格单元的方法及装置

Country Status (1)

Country Link
CN (1) CN101676930A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN102855232A (zh) * 2012-09-14 2013-01-02 同方光盘股份有限公司 一种表格分析编改加工方法
CN103377177A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
CN103577817A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 表单识别方法与装置
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN106126491A (zh) * 2016-06-29 2016-11-16 江苏中威科技软件系统有限公司 一种纸质表单转换为网页表单的方法及系统
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106951855A (zh) * 2017-03-16 2017-07-14 深圳市飘飘宝贝有限公司 一种图片中文档定位和拆切方法
CN107358232A (zh) * 2017-06-28 2017-11-17 中山大学新华学院 基于插件的发票识别方法、及识别与管理系统
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108776776A (zh) * 2018-05-25 2018-11-09 河南思维轨道交通技术研究院有限公司 一种针对图像中水平垂直线段的识别方法
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN109117814A (zh) * 2018-08-27 2019-01-01 北京京东金融科技控股有限公司 图像处理方法、装置、电子设备及介质
CN109753251A (zh) * 2018-12-27 2019-05-14 深圳中航打印技术有限公司 一种在特定纸张上输出证本复印件的方法
CN110210409A (zh) * 2019-06-04 2019-09-06 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
CN110210440A (zh) * 2019-06-11 2019-09-06 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110502985A (zh) * 2019-07-11 2019-11-26 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
CN110895690A (zh) * 2019-10-11 2020-03-20 南京邮电大学 一种基于openCV形态学的发票定位方法
CN111079697A (zh) * 2019-12-27 2020-04-28 湖南特能博世科技有限公司 表格提取方法、装置和电子设备
CN111414919A (zh) * 2020-03-26 2020-07-14 遥相科技发展(北京)有限公司 带表格印刷体图片文字提取方法、装置、设备及存储介质
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN112861736A (zh) * 2021-02-10 2021-05-28 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN113723362A (zh) * 2021-09-27 2021-11-30 上海合合信息科技股份有限公司 一种在图像中检测表格线的方法及装置
CN114739315A (zh) * 2022-03-09 2022-07-12 上海颢汉数字技术有限公司 彩塑扫描速率控制方法、装置、电子设备及存储介质

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335B (zh) * 2010-06-14 2012-12-12 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN103377177A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
US20130290376A1 (en) * 2012-04-27 2013-10-31 Beijing Founder Apabi Technology Ltd. Methods and apparatus for identifying tables in digital files
US9348848B2 (en) * 2012-04-27 2016-05-24 Peking University Founder Group Co., Ltd. Methods and apparatus for identifying tables in digital files
CN103577817A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 表单识别方法与装置
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
CN102855232A (zh) * 2012-09-14 2013-01-02 同方光盘股份有限公司 一种表格分析编改加工方法
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN106126491B (zh) * 2016-06-29 2018-12-28 江苏中威科技软件系统有限公司 一种纸质表单转换为网页表单的方法及系统
CN106126491A (zh) * 2016-06-29 2016-11-16 江苏中威科技软件系统有限公司 一种纸质表单转换为网页表单的方法及系统
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106951855A (zh) * 2017-03-16 2017-07-14 深圳市飘飘宝贝有限公司 一种图片中文档定位和拆切方法
CN106951855B (zh) * 2017-03-16 2020-04-10 深圳市六六六国际旅行社有限公司 一种图片中文档定位和裁切方法
CN107358232A (zh) * 2017-06-28 2017-11-17 中山大学新华学院 基于插件的发票识别方法、及识别与管理系统
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108446264B (zh) * 2018-03-26 2022-02-15 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108776776A (zh) * 2018-05-25 2018-11-09 河南思维轨道交通技术研究院有限公司 一种针对图像中水平垂直线段的识别方法
CN108805076B (zh) * 2018-06-07 2021-01-08 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN109117814A (zh) * 2018-08-27 2019-01-01 北京京东金融科技控股有限公司 图像处理方法、装置、电子设备及介质
CN109753251A (zh) * 2018-12-27 2019-05-14 深圳中航打印技术有限公司 一种在特定纸张上输出证本复印件的方法
CN110210409A (zh) * 2019-06-04 2019-09-06 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
CN110210409B (zh) * 2019-06-04 2021-04-20 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
CN110210440A (zh) * 2019-06-11 2019-09-06 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110210440B (zh) * 2019-06-11 2021-04-27 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和系统
CN110502985B (zh) * 2019-07-11 2022-06-07 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
CN110502985A (zh) * 2019-07-11 2019-11-26 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
CN110895690A (zh) * 2019-10-11 2020-03-20 南京邮电大学 一种基于openCV形态学的发票定位方法
CN111079697A (zh) * 2019-12-27 2020-04-28 湖南特能博世科技有限公司 表格提取方法、装置和电子设备
CN111414919A (zh) * 2020-03-26 2020-07-14 遥相科技发展(北京)有限公司 带表格印刷体图片文字提取方法、装置、设备及存储介质
CN111414919B (zh) * 2020-03-26 2023-12-12 广州市巨应信息科技有限公司 带表格印刷体图片文字提取方法、装置、设备及存储介质
CN112861736A (zh) * 2021-02-10 2021-05-28 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN112861736B (zh) * 2021-02-10 2022-08-09 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN113723362A (zh) * 2021-09-27 2021-11-30 上海合合信息科技股份有限公司 一种在图像中检测表格线的方法及装置
CN114739315A (zh) * 2022-03-09 2022-07-12 上海颢汉数字技术有限公司 彩塑扫描速率控制方法、装置、电子设备及存储介质
CN114739315B (zh) * 2022-03-09 2024-05-31 上海颢汉数字技术有限公司 彩塑扫描速率控制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101676930A (zh) 一种识别扫描图像中表格单元的方法及装置
US5889886A (en) Method and apparatus for detecting running text in an image
CN104516891B (zh) 一种版面分析方法及系统
CN107452035B (zh) 车道线图像分析方法、装置及其计算机可读取式媒体
JP2013114655A (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
CN102999758A (zh) 一种基于多边形检测的漫画图像版面理解系统和方法
JP2001109844A (ja) 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
CN109542276A (zh) 一种触控点识别方法及装置和显示设备
CN107633201B (zh) 一种答题卡智能识别方法和系统
CN1317664C (zh) 乱笔顺库建立方法及联机手写汉字识别评测系统
CN108717544A (zh) 一种基于智能图像分析的报纸样稿文字自动检测方法
CN112084103A (zh) 界面测试方法、装置、设备和介质
CN112288675A (zh) 车载式接触网部件成像处理方法
CN1035844C (zh) 在字符识别系统中选取候选字符的方法
CN109145916A (zh) 一种图像文字识别切割方法及一种存储设备
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP6107270B2 (ja) 画像処理装置およびコンピュータプログラム
CN102262614A (zh) 纵向校对方法和装置
JP7283756B2 (ja) 情報処理装置、及びプログラム
JP4720805B2 (ja) 画像処理装置及びプログラム
JPH09185726A (ja) 罫線除去方式
Cao et al. A fast thinning algorithm of square hmong character handwriting using template matching mechanism
CN113836878A (zh) 结合rpa和ai的表格生成方法、装置、电子设备及存储介质
JPS61196381A (ja) 文字切出し方式
Arias et al. Efficient interpretation of tabular documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100324