CN113947777A - 图像识别转换装置、方法及计算机可读取的记录媒介物 - Google Patents

图像识别转换装置、方法及计算机可读取的记录媒介物 Download PDF

Info

Publication number
CN113947777A
CN113947777A CN202111215548.4A CN202111215548A CN113947777A CN 113947777 A CN113947777 A CN 113947777A CN 202111215548 A CN202111215548 A CN 202111215548A CN 113947777 A CN113947777 A CN 113947777A
Authority
CN
China
Prior art keywords
boundary
image
straight line
converted
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111215548.4A
Other languages
English (en)
Inventor
顾炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Imaging Technology Shanghai Co Ltd
Original Assignee
Ricoh Imaging Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Imaging Technology Shanghai Co Ltd filed Critical Ricoh Imaging Technology Shanghai Co Ltd
Priority to CN202111215548.4A priority Critical patent/CN113947777A/zh
Publication of CN113947777A publication Critical patent/CN113947777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明的目的在于提供一种将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据的图像识别转换装置、图像识别转换方法以及计算机可读取的记录媒介物。本发明的图像识别转换装置包括:直线识别设定部,识别表格线并设定对应的表格直线;初始表格形成部,根据表格直线形成初始表格;分界线区域获取部,获取相邻两个网格之间的分界线区域;分界线判断部,判断各个分界线区域是否存在表格分界线;单元格设定部,在判断为存在表格分界线时将相邻两个网格分别设定为单元格,并在判断不存在时将相邻两个网格合并后设定为单元格;以及最终表格形成部,形成结构化数据表格作为最终表格。

Description

图像识别转换装置、方法及计算机可读取的记录媒介物
技术领域
本发明属于OCR识别领域,具体涉及一种图像识别转换装置、图像识别转换方法以及计算机可读取的记录媒介物。
背景技术
OCR(Optical Character Recognition,光学字符识别)是一种识别图像(例如扫描图像)中的文字并将其转换为计算机可识读文字的技术。当待识别的图像为报表、票据、证件等包含表格的图像时,不仅需要识别其中的文字,还需要正确地识别出其中的表格并将文字内容与表格对应。
现有技术中,表格的识别通常采用直线识别的方式获取表格线,根据获取的表格线绘制表格后再将图像分隔为与各单元格分别对应的小块进行文字识别,然后将文字识别的结果与表格中的单元格对应后形成结构化数据(如excel文档、html文档等)进行输出。在这种方法中,一旦图像中表格线出现扭曲、模糊或断裂等不清晰的情况,则无法准确获得表格线,导致识别出错。不仅如此,表格中还存在一些合并单元格的绘制方式,即将相邻单元格合并为一个后再在其中输入内容,这种表格在打印形成纸质文件后,常因为合并单元格内存在文字内容而难以准确直接判断表格的分界情况(例如,无法判断分界线位置处的像素是文字内容还是模糊的表格线),使得最终输出的数据化表格中,同一个合并单元格中的内容被误拆分为两个独立单元格,或者两个独立单元格的内容被误合并为同一个单元格。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据的图像识别转换装置、图像识别转换方法以及计算机可读取的记录媒介物。
本发明为了达到以上的目的,采用了以下方案:
<方案一>
作为第一种方案,本发明提供了一种图像识别转换装置,用于将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据,其特征在于,包括:直线识别设定部,识别待转换图像中存在的表格线并设定对应的表格直线;初始表格形成部,根据表格直线形成含有多个网格的初始表格;分界线区域获取部,根据预定顺序以及预定获取规则从初始表格中依次获取相邻两个网格之间的分界线所对应的分界线区域;分界线判断部,判断待转换图像中的各个分界线区域处是否存在对应的表格分界线;单元格设定部,在判断为分界线区域处存在表格分界线时将该分界线区域处的相邻两个网格分别设定为单元格,并在判断为分界线区域处不存在表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及最终表格形成部,根据单元格设定部所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
<方案二>
作为第二种方案,本发明提供了一种图像识别转换方法,用于将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据,其特征在于,包括如下步骤:直线识别设定步骤,识别待转换图像中存在的表格线并设定对应的表格直线;初始表格形成步骤,根据表格直线形成含有多个网格的初始表格;分界线区域获取步骤,根据预定顺序以及预定获取规则从初始表格中依次获取相邻两个网格之间的分界线所对应的分界线区域;分界线判断步骤,判断待转换图像中的各个分界线区域处是否存在对应的表格分界线;单元格设定步骤,在判断为分界线区域处存在表格分界线时将该分界线区域处的相邻两个网格分别设定为单元格,并在判断为分界线区域处不存在表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及最终表格形成步骤,根据单元格设定部所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
<方案三>
作为第三种方案,本发明提供了一种计算机可读取的记录媒介物,用于记录计算机程序,其特征在于,该计算机程序为了将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据而让图像转换装置执行以下步骤:直线识别设定步骤,识别待转换图像中存在的表格线并设定对应的表格直线;初始表格形成步骤,根据表格直线形成含有多个网格的初始表格;分界线区域获取步骤,根据预定顺序以及预定获取规则从初始表格中依次获取相邻两个网格之间的分界线所对应的分界线区域;分界线判断步骤,判断待转换图像中的各个分界线区域处是否存在对应的表格分界线;单元格设定步骤,在判断为分界线区域处存在表格分界线时将该分界线区域处的相邻两个网格分别设定为单元格,并在判断为分界线区域处不存在表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及最终表格形成步骤,根据单元格设定部所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
发明作用与效果
根据本发明提供的图像识别转换装置,由于分界线区域获取部能够在初始表格形成部形成初始表格后获取初始表格中相邻网格之间的分界线区域,分界线判断部能够判断各个分界线区域处是否存在表格分界线,单元格设定部在存在表格分界线时将网格分别设定为单元格并且在不存在表格分界线时将网格合并后设为单元格,因此,即使表格线存在模糊的情况,也能够准确地确定其中的表格分界线而对单元格进行准确的划分。
附图说明
图1是本发明实施例的待转换图像的示例图像。
图2是本发明实施例的图像识别转换装置的结构框图。
图3是本发明实施例的直线识别设定部的结构框图。
图4是本发明实施例的初始表格形成原理图。
图5是本发明实施例的初始表格中的分界线区域获取示意图。
图6是本发明实施例的与y轴方向平行的分界线区域线条连通率计算示意图。
图7是本发明实施例的与x轴方向平行的分界线区域线条连通率计算示意图。
图8是本发明实施例的图像识别转换装置的转换动作流程图。
具体实施方式
以下具体说明本发明的具体实施方式。
作为第一种实施形态,本发明提供了一种图像识别转换装置,用于将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据,其特征在于,包括:直线识别设定部,识别待转换图像中存在的表格线并设定对应的表格直线;初始表格形成部,根据表格直线形成含有多个网格的初始表格;分界线区域获取部,根据预定顺序以及预定获取规则从初始表格中依次获取相邻两个网格之间的分界线所对应的分界线区域;分界线判断部,判断待转换图像中的各个分界线区域处是否存在对应的表格分界线;单元格设定部,在判断为分界线区域处存在表格分界线时将该分界线区域处的相邻两个网格分别设定为单元格,并在判断为分界线区域处不存在表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及最终表格形成部,根据单元格设定部所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
在第一种实施形态中,还可以具有这样的特征,其中,分界线判断部包括:连通率计算单元,计算分界线区域内正交方向投影的非零像素个数占分界线区域的长边边长的百分比作为线条连通率;分界线判定单元,将线条连通率进行聚类,基于聚类结果以及线条连通率和预定的分界线判定规则判定分界线区域内是否存在表格分界线。
进一步,在上述第一种实施形态中,还可以具有这样的特征,其中,聚类结果是线条连通率的类别数量,分界线判定规则为:当类别数量为1时,将所有的分界线区域都判定为存在表格分界线;当类别数量为2时,将线条连通率数值较大的一个连通率类别下的线条连通率所对应的分界线区域都判定为存在表格分界线,同时将线条连通率数值较小的一个连通率类别下的线条连通率所对应的分界线区域都判定为不存在表格分界线;当类别数量大于2时,将大于0.5的线条连通率所对应的分界线区域都判定为存在表格分界线,同时将不大于0.5的线条连通率所对应的分界线区域都判定为不存在表格分界线。
另外,在第一种实施形态中,图像识别转换装置还可以包括:预处理部,用于对待转换图像进行预处理并将预处理后的待转换图像输出给初始表格形成部,具有:去噪处理单元,采用高斯平滑滤波对图像表格进行去噪处理;去印章污染单元,采用分离滤除印章颜色对应的色谱范围内成分的方式对图像表格进行去除印章污染处理;清晰度增强单元,对图像表格进行清晰度增强。
另外,在第一种实施形态中,还可以具有这样的特征,直线识别设定部包括:二值化单元,将待转换图像进行二值化,获得对应的二值化图像;直线段获取单元,获取二值化图像中的直线段作为待定直线段;直线段分组单元,根据待定直线段的倾斜角度将全部待定直线段分为多个直线段组;直线段去重单元,计算同一组内的各待定直线段之间的距离,将距离小于预定距离阈值的待定直线段合并为一根;平均角度计算单元,计算各组待定直线段的平均角度;正交直线段确定单元,将各组待定直线段中相互正交的两组待定直线段确定为正交直线段;倾斜校正单元,根据正交直线段的平均角度对待转换图像以及正交直线段进行倾斜校正;表格直线设定单元,分别设定与各正交直线段相对应的直线作为表格直线。
进一步,在上述第一种实施形态中,还可以具有这样的特征,其中,初始表格形成部包括:轮廓确定单元,根据正交直线段获取矩形边界框,并将符合预定尺寸条件的矩形边界框确定为图像表格的表格轮廓;网格形成单元,将表格轮廓内各根表格直线相交差形成多个网格,从而形成初始表格。
更进一步,上述实施形态中,还可以具有这样的特征,预定尺寸条件为:矩形边界框的长度大于待转换图像长度的5%,且宽度大于待转换图像宽度的5%。
另外,在第一种实施形态中,图像识别转换装置还可以包括:输出部,用于将最终表格输出为结构化数据表格文件。
作为第二种实施形态,本发明提供了一种图像识别转换方法,用于将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据,其特征在于,包括如下步骤:直线识别设定步骤,识别待转换图像中存在的表格线并设定对应的表格直线;初始表格形成步骤,根据表格直线形成含有多个网格的初始表格;分界线区域获取步骤,根据预定顺序以及预定获取规则从初始表格中依次获取相邻两个网格之间的分界线所对应的分界线区域;分界线判断步骤,判断待转换图像中的各个分界线区域处是否存在对应的表格分界线;单元格设定步骤,在判断为分界线区域处存在表格分界线时将该分界线区域处的相邻两个网格分别设定为单元格,并在判断为分界线区域处不存在表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及最终表格形成步骤,根据单元格设定部所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
作为第三种实施形态,本发明提供了一种计算机可读取的记录媒介物,用于记录计算机程序,其特征在于,该计算机程序为了将含有由表格线形成有多个单元格的图像表格以及含有与各个单元格相对应的表格内容的待转换图像转换为结构化数据而让图像转换装置执行以下步骤:直线识别设定步骤,识别待转换图像中存在的表格线并设定对应的表格直线;初始表格形成步骤,根据表格直线形成含有多个网格的初始表格;分界线区域获取步骤,根据预定顺序以及预定获取规则从初始表格中依次获取相邻两个网格之间的分界线所对应的分界线区域;分界线判断步骤,判断待转换图像中的各个分界线区域处是否存在对应的表格分界线;单元格设定步骤,在判断为分界线区域处存在表格分界线时将该分界线区域处的相邻两个网格分别设定为单元格,并在判断为分界线区域处不存在表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及最终表格形成步骤,根据单元格设定部所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
以下结合附图以及实施例说明本发明的具体实施方式。
<实施例>
本实施例提供了一种图像识别转换装置,用于将含有图像表格和表格内容的待转换图像转换为结构化数据。其中,待转换图像可以是由扫描仪等对纸质文件(票据、报表、证件等)扫描后形成的电子图像文档,图像表格是该图像中的以图像形式存在的表格(即以图像中的像素形式存在的表格),该图像表格与原纸质文件中的表格相对应。同时,图像表格的区域内还存在有不同单元格的预定表格内容(例如文字、数字等),其同样是以图像中的像素形式存在的。
图1是本发明实施例的待转换图像的示例图像。
如图1所示,本实施例的图像识别转换装置所处理的待转换图像是示例图像200这样的含有图像表格的图像。其中,图像表格含有多个单元格201,这些单元格201不仅包含常规单元格(例如单元格201A),也包含由两个常规单元格合并后形成的合并单元格(例如单元格201B,其实际上是由两个相邻的常规单元格合并形成)。同时,每个单元格201内都具有对应的表格内容,例如单元格201B的表格内容为“用户管理”。
从图1中可以看出,示例图像200中存在一些表格线不清晰的部分,例如箭头200A所指的表格线较为模糊,出现了倾斜断裂的情况;又如,箭头200B所指的表格线较粗,且存在撕裂情况,导致该处表格线看起来像是多条细平行线构成。另外,箭头200C所指的表格线本身就是双线型,即一根用于划分单元格的表格线包含两根相互平行的线条。
图2是本发明实施例的图像识别转换装置的结构框图。
如图2所示,本实施例的图像识别转换装置100包括预处理部1、直线识别设定部2、初始表格形成部3、分界线区域获取部4、分界线判断部5、单元格设定部6、最终表格形成部7、输出部8以及控制部9。
预处理部1用于对待转换图像进行预处理,包括去噪处理单元11、去印章污染单元12、清晰度增强单元13。
去噪处理单元11采用高斯平滑滤波算法去除待转换图像中的噪点。
去印章污染单元12采用分离去除噪点后待转换图像的HSV通道,并滤除红色色谱范围内成分,从而去除待转换图像中的红色印章内容。
清晰度增强单元13对去除红色印章后的待转换图像进行清晰度增强,具体方式可以采用现有技术中的图像清晰度增强方法,如直方图均衡化、Gamma变换、拉普拉斯变换中的任意一种。
图3是本发明实施例的直线识别设定部的结构框图。
如图3所示,直线识别设定部2包括二值化单元21、直线段获取单元22、直线段分组单元23、直线段去重单元24、平均角度计算单元25、正交直线段确定单元26、倾斜校正单元27、表格直线设定单元28以及识别设定控制单元29。
二值化单元21用于对待转换图像进行二值化,得到对应的二值化图像。本实施例中,二值化单元21采用opencv中自适应二值化方法adaptiveThreshold实现二值化,使得待转换图像中的表格线以及表格内容等前景内容的像素点统一转换为黑色像素点,白色背景的像素点则统一转换为白色像素点。
直线段获取单元22用于从二值化图像中检测并获取直线段,并将获取的直线段全部设为待定直线段。本实施例中,直线段获取单元22采用Hough变换来提取二值化图像中的直线段,其能够检测得到二值化图像中任意方向的直线段。本实施例中,获取到的直线段采用其两端点在待转换图像中坐标的方式进行表示,即每根直线段均可以表示为端点(x1,y1)、(x2,y2)的形式。
直线段分组单元23用于对直线段获取单元22获取到的全部待定直线段进行分组。具体地,直线段分组单元23根据待定直线段的倾斜角度,将倾斜角度相差在5°以内的待定直线段分为一组,保证同一组内的各待定直线段之间是基本平行的。
直线段去重单元24用于去除一组待定直线段内的重复直线段。
通常的图像表格中,当表格线较粗,尤其是还存在一些撕裂现象,如示例图像200中的箭头200A的情况时,直线段获取单元22所获取到的有可能是一簇较为密集的平行线束;同时,一些表格可能存在特殊格式,例如示例图像200中箭头200C内的双线型表格线,其虽然存在两条线,但实际上两条线靠得很近且二者之间并无表格内容,应当视为一条表格线看待。这些密集、紧靠且对应于同一表格线的线条对于单元格划分来说是重复的,因此需要去除重复的直线段。
本实施例中,直线段去重单元24计算同一组内各待定直线段之间的距离,将相互之间距离阈值小于5个像素的待定直线段都归入同一小组,并将每一小组的待定直线段合并为一根待定直线段。具体地,当被归为同一小组的待定直线段的中心位置存在待定直线段时,就将该中心位置的待定直线段保留,其他的则去除;当被归为同一小组的待定直线段的中心位置完全不存在待定直线段时,则在中心位置处画出一根新的直线段作为待定直线段保留,原本的待定直线段均去除。
平均角度计算单元25用于计算各组待定直线段的平均角度。即一组内各待定直线段的倾斜角度的平均值。本实施例中,直线段的倾斜角度是其相对于整个图像的x轴方向的夹角,平均角度计算单元25对一组待定直线段的倾斜角度计算平均值,即得到平均角度。
正交直线段确定单元26用于从各组待定直线段中找出相互正交的两组待定直线段。通常情况下,由于表格线是正交的,不属于表格线的其他直线段则不会产生与表格线正交的情况,因此,各组直线段中,若存在平均角度呈相互正交的两组直线段,则该两组直线段所对应的就是表格线。本实施例中,正交直线段确定单元26根据各组待定直线段的平均角度,依次计算两组待定直线段之间的交叉角度,并根据计算结果确定出两组正交的待定直线段,将该两组待定直线段确定为正交直线段。
倾斜校正单元27用于根据正交直线段的平均角度进行倾斜校正。
理想状态下,待转换图像中的表格线的长度方向均为横向或纵向,即分别与图像x轴平行或图像y轴平行。然而,实际应用时,待转换图像会因扫描时纸质件摆放不正等原因产生整体的倾斜,即待转换图像中的表格线相对于整个图像的x轴方向和y轴方向均存在一定的倾斜。例如,示例图像200中,图像表格的竖直表格线相对于y轴具有一定夹角(理想状态下二者应当是平行的),横向表格线相对于x轴也具有一个相同的夹角(理想状态下二者也应当是平行的)。
本实施例中,倾斜校正单元25根据两组正交直线段的平均角度计算出一个用以倾斜校正的2D旋转矩阵M,用现有技术中opencv的warpAffine进行待转换图像的倾斜校正;同时,将正交直线段的两端点坐标也进行相应的倾斜校正,使得各正交直线段的表示坐标(x1,y1)、(x2,y2)中,x1=x2(即该正交直线段与y轴平行)或者y1=y2(即该正交直线段与x轴平行)。
表格直线设定单元28用于设定与各正交直线段相对应的直线作为表格直线。由于经过倾斜校正后的正交直线段(x1,y1)、(x2,y2)中,x1=x2或者y1=y2,因此,每条正交直线段都可以用一个单一标量值表示出与之对应的直线。例如,当x1=x2=a时,可以将该正交直线段相对应的直线表示为x=a,相当于表示了x轴坐标为a的不具有两端的直线;又如,当y1=y2=b时,可以将该正交直线段相对应的直线表示为y=b,相当于表示了y轴坐标为b的不具有两端的直线。表格直线设定单元28将各正交直线段依次表示为对应的直线后,将这些直线设定为表格直线。
识别设定控制单元29用于对直线识别设定部2中各个构成部分的工作进行协调控制。
如图2所示,初始表格形成部3用于根据表格直线形成含有多个网格的初始表格,该初始表格形成部3包括轮廓确定单元31和网格形成单元32。
轮廓确定单元31用于根据正交直线段获取矩形边界框,并将符合预定尺寸条件的矩形边界框确定图像表格的外轮廓。
具体地,本实施例的轮廓确定单元31采用现有技术中opencv的findContours,先查找正交直线段交错连通形成的外轮廓并进行四边形拟合,得到矩形边界框(boundingbox);通常情况下,这样查找得到的边界框可能有多个,因此轮廓确定单元31进一步对得到的矩形边界框进行筛选,将符合预定尺寸要求的矩形边界框确定为表格轮廓,该预定尺寸条件为:矩形边界框的长度大于待转换图像整体长度的5%,且宽度大于待转换图像整体宽度的5%。
网格形成单元32用于将表格轮廓内各根表格直线相交差形成多个网格,从而得到初始表格。
本实施例中,网格形成单元32依次针对每一个表格轮廓,基于表格直线两两相交的交点形成每一个表格轮廓所包含的网格,从而得到该表格轮廓所对应的初始表格。以下以图1的示例图像200的表格轮廓中初始表格形成的过程为例进行说明。
图4是本发明实施例的初始表格形成原理图。
如图4所示,示例图像200中的图像表格的布局是左图所示的形式。这种布局形式经过预处理部1以及直线识别设定部2处理后,如右图所示,得到五根与x轴平行的表格直线y=b1、y=b2、y=b3、y=b4、y=b5,以及三根与y轴平行的表格直线x=a1、x=a2、x=a3,这些表格直线两两相交,形成了15个交点,以这些交点为顶点的8个矩形网格按四行两列分布,该8个矩形网格就构成了初始表格300。
分界线区域获取部4用于以预定顺序和预定获取方法从初始表格中依次获取相邻两个网格之间的表格分界线所对应的分界线区域。
如图4所示,初始表格300中,每个网格都存在至少一个相邻网格,例如左起第一列最上方的网格的右侧、下侧均存在相邻的网格;又如左起第一列第二行的网格的上侧、右侧和下侧均存在相邻的网格。各个相邻的网格之间均存在由表格直线形成的表格分界线,分界线区域获取部4用于获取这些表格分界线所对应的分界线区域。
本实施例中,分界线区域获取部4以从左到右、自上而下的顺序对分界线区域进行获取,并且不进行重复获取。例如,第一次获取的对象是左起第一行第一个网格,获取到的是该网格与右侧相邻网格的分界线区域以及该网格与下侧相邻网格的分界线区域;下一次获取第一行第二个网格与其下侧相邻网格的分界线区域;再下一次是第二行第一个网格与其右侧相邻、下侧相邻网格的分界线区域,以此类推。对于第二行第一个网格来说,由于其与上侧相邻网格的分界线区域已经在第一行第一个网格的过程中获取得到,因此不再进行重复获取。
图5是本发明实施例的初始表格中的分界线区域获取示意图。
如图5所示,本实施例中,分界线区域的获取规则是:获取与各个表格分界线相对应的具有预定宽度的细长条形区域,作为其对应的分界线区域,该预定宽度为5个像素。
例如,图5中示出的是与x轴平行的表格分界线,这种情况下所获取到的是宽度(y轴方向边长)为5个像素、长度(x轴方向边长)为表格分界线长度的条形区域(图5中虚线框内所示部分)。
另外,当获取与x轴平行的表格分界线时,所获取到的是宽度(y轴方向边长)为5个像素、长度(x轴方向边长)为表格分界线长度的条形区域。
分界线判断部5用于依次判断待转换图像中的各个分界线区域处是否存在对应的表格分界线。
如图2所示,分界线判断部5用于判断待转换图像中的各个分界线区域处是否存在对应的表格分界线,该分界线判断部5包括连通率计算单元51以及分界线判定单元52。
连通率计算单元51用于依次计算各个分界线区域在待转换图像中的线条连通率,该线条连通率为分界线区域在长边的正交方向上投影的非零像素数占该长边边长的百分比。
图6是本发明实施例的与y轴方向平行的分界线区域线条连通率计算示意图。图6中,箭头表示投影方向。
如图6所示,待转换图像中,对于与y轴方向平行且宽度为5个像素、长度为L1的分界线区域A,若存在较多断裂处,则其x轴方向的投影线A1长度为L1,且其中将存在较多零值。该分界线区域A与y轴方向平行,因此其长边方向也与y轴方向平行,连通率计算单元51将该分界线区域A沿长边方向的正交方向(即x轴方向)投影的非零像素值加和后除以长边边长L1,即可得到该分界线区域的线条连通率。
图7是本发明实施例的与x轴方向平行的分界线区域线条连通率计算示意图。
如图7所示,待转换图像中,对于与x轴方向平行且宽度为5个像素、长度为L2的分界线区域B,若不存在断裂,则其y轴方向的投影线B1将不存在零值。连通率计算单元51将投影线B1非零像素值加和后除以分界线区域的长边边长L2,即可得到该分界线区域的线条连通率。
如上所述,线条连通率通过将待转换图像中的分界线区域内的像素进行正交方向的投影后计算非零像素占长边边长的百分比,这样的线条连通率能够反映待转换图像的对应分界线区域中是否实际存在有表格分界线。例如,对于示例图像200,单元格201B是由两个相邻单元格合并而成,虽然经过初始表格形成部3处理后,该单元格201B处对应了两个上下方向相邻的网格,因此其中部存在一个分界线区域,但如图4所示,该分界线区域内所存在的并不是与x轴平行的、由连续像素构成的表格分界线,而是不连续的部分文字像素。这种情况下,连通率计算单元51所计算得到的线条连通率显然是小于0.5的。又如,示例图像200的箭头200B处的表格线存在倾斜断裂,若采用常规的方法该处表格线有可能被识别为多根分界线,但本实施例中,该处表格线所对应的表格直线只有一根,相应分界线区域内的线条连通率计算显然接近于1。
分界线判定单元52用于基于预定的分界线判定规则以及连通率计算单元51计算得到的线条连通率判定各个分界线区域内是否实际存在表格分界线。
本实施例中,分界线判定单元52采用线条连通率聚类的方法,并基于线条连通率聚类的结果进行判定。具体地,分界线判定单元52将全部分界线区域的线条连通率数值形成一个数值集合,对该数值集合采用DBSCAN算法进行聚类,得到全部线条连通率的聚类结果,即,这些线条连通率被聚类为N类,N为类别数量。
当N=1时,说明各个分界线区域的线条连通率都是接近的,这种情况下只可能是各分界线区域都存在表格分界线,此时分界线判定单元52将所有的分界线区域都判定为存在表格分界线。
当N=2时,说明一部分分界线区域的线条连通率数值相互接近且明显较大,另一部分则相互接近且明显较小,因而被分为两类。这种情况下,数值较大的线条连通率所对应的分界线区域存在表格分界线,数值较小的线条连通率所对应的分界线区域则不存在表格分界线。此时,分界线判定单元52将线条连通率数值较大的一个连通率类别下的线条连通率所对应的分界线区域都判定为存在表格分界线,同时,将另一个连通率类别(即线条连通率数值较小的连通率类别)下的线条连通率所对应的分界线区域都判定为不存在表格分界线。
当N>2时,说明分界线区域中线条连通率数值的情况较为复杂。此时,分界线判定单元52并不依据类别来进行判定处理,而是将大于0.5的线条连通率所对应的分界线区域都判定为存在表格分界线,同时将不大于0.5的线条连通率所对应的分界线区域都判定为不存在表格分界线。
以示例图像200为例,由于单元格201B中部的分界线区域的线条连通率计算结果小于0.5,其他分界线区域则均接近于1或等于1,因此聚类结果是N=2,单元格201B中部的分界线区域被聚类为一类,其他则被聚类为另一类。这种情况下,单元格201B中部的分界线区域是线条连通率数值较小的一类,分界线判定单元52将该分界线区域判定为不存在分界线,其他部位的分界线区域均属于线条连通率数值较大的一类,分界线判定单元52将这些分界线区域判定为存在分界线。
单元格设定部6用于根据分界线判断部5的判断结果,基于初始表格进行单元格设定。
具体地,单元格设定部6按照从左至右、自上而下的顺序进行设定,当判定两个相邻网格之间的分界线区域存在表格分界线时,将该两个相邻网格所对应的区域分别设为不同的单元格;当判定两个相邻网格之间的分界线区域不存在表格分界线时,则将该两个相邻网格所对应的区域合并后设为单元格。另外,在合并得到一个单元格后,该单元格对应区域所包含的网格与其他相邻网格之间的分界线区域也不存在表格分界线时,则再将该相邻网格合并,形成一个区域更大的单元格。以示例图像200为例,就是单元格201B处的两个网格被合并后形成一个单元格,其他部位的网格则被分别设定为单独的单元格。
最终表格形成部7用于根据单元格设定部6所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格。
具体地,最终表格形成部7根据各个单元格的位置信息,从倾斜校正后的待转换图像中获取与每个单元格相对应的图像内容并进行相应的文字提取识别,得出每个单元格中的预定表格内容,再将其与各个单元格对应后形成结构化数据表格。其中,最终表格形成部7对每个单元格图像内容进行文字提取识别采用现有技术的OCR方法进行,在此不再赘述。
输出部8用于将上述过程得到的结构化数据表格作为最终表格进行输出,其输出格式可以是常见的结构化数据表格文件形式,例如Excel文件、HTML文件等。
控制部9含用于图像识别转换装置100中各个构成部分运行的计算机程序,其用于对图像识别转换装置100中各个构成部分的工作进行协调和控制,使得图像识别转换装置100能够完成待转换图像的转换处理。以下结合附图说明本实施例的图像识别转换装置100的转换动作流程。
图8是本发明实施例的图像识别转换装置的转换动作流程图。
如图8所示,本实施例的图像识别转换装置100对待转换图像的转换处理包括如下步骤:
步骤S1,预处理部1对待转换图像进行预处理,然后进入步骤S2。
步骤S2,直线识别设定部2识别待转换图像中存在的表格线,并设定对应的表格直线,具体包含如下子步骤:
步骤S2-1,二值化单元21对待转换图像进行二值化,得到对应的二值化图像,然后进入步骤S2-2;
步骤S2-2,直线段获取单元22从二值化图像中检测并获取直线段,并将获取的直线段设为待定直线段,然后进入步骤S2-3;
步骤S2-3,直线段分组单元23用于对直线段获取单元22获取到的全部待定直线段进行分组,然后进入步骤S2-4;
步骤S-4,直线段去重单元24去除各组待定直线段内的重复直线段,然后进入步骤S2-5;
步骤2-5,平均角度计算单元25计算各组待定直线段的平均角度,然后进入步骤S2-6;
步骤S2-6,正交直线段确定单元26从各组待定直线段中找出相互正交的两组待定直线段作为正交直线段,然后进入步骤S2-7;
步骤S2-7,倾斜校正单元27根据正交直线段的平均角度对待转换图像以及正交直线段进行倾斜校正,然后进入步骤S2-8;
步骤S2-8,表格直线设定单元29设定与各正交直线段相对应的直线作为表格直线,然后进入步骤S3。
步骤S3,初始表格形成部3根据表格直线形成含有多个网格的初始表格,包含如下子步骤:
步骤S3-1,轮廓确定单元31根据正交直线段获取矩形边界框,并将符合预定尺寸条件的矩形边界框确定为图像表格的外轮廓,然后进入步骤S3-2;
步骤S3-2,网格形成单元32基于表格直线的交点形成每一个表格轮廓所包含的网格,从而得到该表格轮廓所对应的初始表格,然后进入步骤S4。
步骤S4,分界线区域获取部4以从左到右、自上而下的顺序和预定获取规则从初始表格中依次获取相邻两个网格之间的表格分界线所对应的分界线区域,然后进入步骤S5。
步骤S5,分界线判断部5判断待转换图像中的各个分界线区域处是否存在对应的表格分界线,包含如下子步骤:
步骤S5-1,连通率计算单元51依次计算待转换图像中各个分界线区域的线条连通率,然后进入步骤S5-2;
步骤S5-2,分界线判定单元52基于预定的分界线判定规则以及连通率计算单元51计算得到的线条连通率判定各个分界线区域内是否实际存在表格分界线,然后进入步骤S6。
步骤S6,单元格设定部6根据分界线判断部5的判断结果,基于初始表格进行单元格设定,然后进入步骤S7。
步骤S7,最终表格形成部7根据单元格设定部6所设定的单元格形成与待转换图像中的图像表格相对应的结构化数据表格作为最终表格,然后进入步骤S8。
步骤S8,输出部8将最终表格输出为结构化数据表格文件,然后进入结束状态。
另外,上述过程中,若步骤S3-1中轮廓确定单元31确定出了多个外轮廓,则步骤S3-2中,网格形成单元32通常也会得到多个初始表格。这种情况下,则控制部9按预定顺序选择一个(例如按照从左至右、自上而下的方向顺序选择第一个)初始表格,并控制其他各部件执行步骤S4至步骤S7从而得到该初始表格对应的最终表格;然后,控制部9按照前述预定顺序选定下一个初始表格,并控制其他各部件针对该被选定的初始表格重复执行步骤S4至步骤S7得到对应的最终表格。全部的外轮廓均执行完毕后,控制部9控制输出部8将这些最终表格输出为包含了各个最终表格的结构化数据表格文件,然后再进入结束状态。
实施例作用与效果
根据本实施例提供的图像识别转换装置100,由于分界线区域获取部4能够在初始表格形成部3形成初始表格后获取初始表格中相邻网格之间的分界线区域,分界线判断部5能够判断各个分界线区域处是否存在表格分界线,单元格设定部6在存在表格分界线时将网格分别设定为单元格并且在不存在表格分界线时将网格合并后设为单元格,因此,即使表格线存在模糊的情况,也能够准确地确定其中的表格分界线而对单元格进行准确的划分。
进一步,实施例中,由于分界线判断部5包括连通率计算单元51和分界线判定单元52,其中连通率计算单元51能够计算各分界线区域内的线条连通率,分界线判定单元52能够将线条连通率聚类后基于聚类结果以及线条连通率和分界线判定规则判定是否存在表格分界线,因此,表格分界线的判断过程中可以参考待转换图像中全部分界线位置处的线条连通率相似程度,例如,线条连通率均较低但线条连通率数值都接近、聚类所得的类别数量为1时,说明都存在表格线,但表格线均较为模糊,此时分界线判定单元52判定为均存在表格线,可以极大程度的避免因表格线模糊而造成各表格线识别错误的问题。
另外,实施例中,由于直线识别设定部2包括直线段去重单元24,其能够将小于预定距离阈值的待定直线段合并为一根,因此,在存在双线型表格线或者因较粗或模糊而被识别为多根直线段的表格线时,能够排除干扰,使得初始表格准确地反映出图像表格的实际布局。
实施例中,初始表格形成部3包括轮廓确定单元31以及网格形成单元32,轮廓确定单元31能够根据预定尺寸条件排除尺寸较小的矩形边界框后获得表格轮廓,因此,能够避免待转换图像中一些面积较小的非表格轮廓(例如“口”“国”等具有矩形边界框的汉字)造成干扰。

Claims (10)

1.一种图像识别转换装置,用于将含有由表格线形成有多个单元格的图像表格以及含有与各个所述单元格相对应的表格内容的待转换图像转换为结构化数据,其特征在于,包括:
直线识别设定部,识别所述待转换图像中存在的所述表格线并设定对应的表格直线;
初始表格形成部,根据所述表格直线形成含有多个网格的初始表格;
分界线区域获取部,根据预定顺序以及预定获取规则从所述初始表格中依次获取相邻两个所述网格之间的分界线所对应的分界线区域;
分界线判断部,判断所述待转换图像中的各个所述分界线区域处是否存在对应的表格分界线;
单元格设定部,在判断为所述分界线区域处存在所述表格分界线时将该分界线区域处的相邻两个网格分别设定为所述单元格,并在判断为所述分界线区域处不存在所述表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及
最终表格形成部,根据所述单元格设定部所设定的所述单元格形成与所述待转换图像中的所述图像表格相对应的结构化数据表格作为最终表格。
2.根据权利要求1所述的图像识别转换装置,其特征在于:
其中,所述分界线判断部包括:
连通率计算单元,计算所述分界线区域内正交方向投影的非零像素个数占所述分界线区域的长边边长的百分比作为线条连通率;
分界线判定单元,将所述线条连通率进行聚类,基于聚类结果以及所述线条连通率和预定的分界线判定规则判定所述分界线区域内是否存在所述表格分界线。
3.根据权利要求2所述的图像识别转换装置,其特征在于:
其中,所述聚类结果是所述线条连通率的类别数量,
所述分界线判定规则为:
当所述类别数量为1时,将所有的所述分界线区域都判定为存在所述表格分界线;
当所述类别数量为2时,将所述线条连通率数值较大的一个连通率类别下的所述线条连通率所对应的所述分界线区域都判定为存在所述表格分界线,同时将所述线条连通率数值较小的一个连通率类别下的所述线条连通率所对应的所述分界线区域都判定为不存在所述表格分界线;
当所述类别数量大于2时,将大于0.5的所述线条连通率所对应的所述分界线区域都判定为存在所述表格分界线,同时将不大于0.5的所述线条连通率所对应的所述分界线区域都判定为不存在所述表格分界线。
4.根据权利要求1所述的图像识别转换装置,其特征在于,还包括:
预处理部,用于对所述待转换图像进行预处理并将预处理后的所述待转换图像输出给所述初始表格形成部,具有:
去噪处理单元,采用高斯平滑滤波对所述图像表格进行去噪处理;
去印章污染单元,采用分离滤除印章颜色对应的色谱范围内成分的方式对所述图像表格进行去除印章污染处理;
清晰度增强单元,对所述图像表格进行清晰度增强。
5.根据权利要求1所述的图像识别转换装置,其特征在于:
其中,所述直线识别设定部包括:
二值化单元,将所述待转换图像进行二值化,获得对应的二值化图像;
直线段获取单元,获取所述二值化图像中的直线段作为待定直线段;
直线段分组单元,根据所述待定直线段的倾斜角度将全部所述待定直线段分为多个直线段组;
直线段去重单元,计算同一组内的各所述待定直线段之间的距离,将距离小于预定距离阈值的所述待定直线段合并为一根;
平均角度计算单元,计算各组所述待定直线段的平均角度;
正交直线段确定单元,将各组所述待定直线段中相互正交的两组所述待定直线段确定为正交直线段;
倾斜校正单元,根据所述正交直线段的平均角度对所述待转换图像以及所述正交直线段进行倾斜校正;
表格直线设定单元,分别设定与各所述正交直线段相对应的直线作为所述表格直线。
6.根据权利要求5所述的图像识别转换装置,其特征在于:
其中,所述初始表格形成部包括:
轮廓确定单元,根据所述正交直线段获取矩形边界框,并将符合预定尺寸条件的矩形边界框确定为所述图像表格的表格轮廓;
网格形成单元,将所述表格轮廓内各根所述表格直线相交差形成多个所述网格,从而形成所述初始表格。
7.根据权利要求6所述的图像识别转换装置,其特征在于:
其中,所述预定尺寸条件为:
所述矩形边界框的长度大于所述待转换图像长度的5%,且宽度大于所述待转换图像宽度的5%。
8.根据权利要求1所述的图像识别转换装置,其特征在于,还包括:
输出部,用于将所述最终表格输出为结构化数据表格文件。
9.一种图像识别转换方法,用于将含有由表格线形成有多个单元格的图像表格以及含有与各个所述单元格相对应的表格内容的待转换图像转换为结构化数据,其特征在于,包括如下步骤:
直线识别设定步骤,识别所述待转换图像中存在的所述表格线并设定对应的表格直线;
初始表格形成步骤,根据所述表格直线形成含有多个网格的初始表格;
分界线区域获取步骤,根据预定顺序以及预定获取规则从所述初始表格中依次获取相邻两个所述网格之间的分界线所对应的分界线区域;
分界线判断步骤,判断所述待转换图像中的各个所述分界线区域处是否存在对应的表格分界线;
单元格设定步骤,在判断为所述分界线区域处存在所述表格分界线时将该分界线区域处的相邻两个网格分别设定为所述单元格,并在判断为所述分界线区域处不存在所述表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及
最终表格形成步骤,根据所述单元格设定部所设定的所述单元格形成与所述待转换图像中的所述图像表格相对应的结构化数据表格作为最终表格。
10.一种计算机可读取的记录媒介物,用于记录计算机程序,其特征在于,该计算机程序为了将含有由表格线形成有多个单元格的图像表格以及含有与各个所述单元格相对应的表格内容的待转换图像转换为结构化数据而让图像转换装置执行以下步骤:
直线识别设定步骤,识别所述待转换图像中存在的所述表格线并设定对应的表格直线;
初始表格形成步骤,根据所述表格直线形成含有多个网格的初始表格;
分界线区域获取步骤,根据预定顺序以及预定获取规则从所述初始表格中依次获取相邻两个所述网格之间的分界线所对应的分界线区域;
分界线判断步骤,判断所述待转换图像中的各个所述分界线区域处是否存在对应的表格分界线;
单元格设定步骤,在判断为所述分界线区域处存在所述表格分界线时将该分界线区域处的相邻两个网格分别设定为所述单元格,并在判断为所述分界线区域处不存在所述表格分界线时将该分界线区域处的相邻两个网格合并后设定为单元格;以及
最终表格形成步骤,根据所述单元格设定部所设定的所述单元格形成与所述待转换图像中的所述图像表格相对应的结构化数据表格作为最终表格。
CN202111215548.4A 2021-10-19 2021-10-19 图像识别转换装置、方法及计算机可读取的记录媒介物 Pending CN113947777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111215548.4A CN113947777A (zh) 2021-10-19 2021-10-19 图像识别转换装置、方法及计算机可读取的记录媒介物

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111215548.4A CN113947777A (zh) 2021-10-19 2021-10-19 图像识别转换装置、方法及计算机可读取的记录媒介物

Publications (1)

Publication Number Publication Date
CN113947777A true CN113947777A (zh) 2022-01-18

Family

ID=79331586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215548.4A Pending CN113947777A (zh) 2021-10-19 2021-10-19 图像识别转换装置、方法及计算机可读取的记录媒介物

Country Status (1)

Country Link
CN (1) CN113947777A (zh)

Similar Documents

Publication Publication Date Title
US11335081B2 (en) Method for automatic extraction of data from graph
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US8548246B2 (en) Method and system for preprocessing an image for optical character recognition
CN107045634B (zh) 一种基于最大稳定极值区域与笔画宽度的文本定位方法
Shi et al. Text extraction from gray scale historical document images using adaptive local connectivity map
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别系统
US9104940B2 (en) Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
US9858476B1 (en) Method for recognizing table, flowchart and text in document images
CA2401065C (en) Document matching and annotation lifting
CN111353961A (zh) 一种文档曲面校正方法及装置
CN112507782A (zh) 文本图像的识别方法及装置
CN112329641B (zh) 一种表格识别方法、装置、设备及可读存储介质
CN116052152A (zh) 一种基于轮廓检测和深度神经网络的车牌识别系统
CN110321887B (zh) 文档图像处理方法、文档图像处理装置及存储介质
CN107798355B (zh) 一种基于文档图像版式自动分析与判断的方法
CN100489885C (zh) 图像识别方法及实现该方法的设备
US20100272359A1 (en) Method for resolving contradicting output data from an optical character recognition (ocr) system, wherein the output data comprises more than one recognition alternative for an image of a character
JP3936436B2 (ja) 表認識方法
CN113947777A (zh) 图像识别转换装置、方法及计算机可读取的记录媒介物
CN110070103A (zh) 身份证识别的方法及终端设备
Mei et al. A Chinese character segmentation algorithm for complicated printed documents
JP4492258B2 (ja) 文字・図形の認識方法および検査方法
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
CN114694147B (zh) 分割椭圆形图案中环绕文字的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination