CN109858468B - 一种表格线识别方法及装置 - Google Patents

一种表格线识别方法及装置 Download PDF

Info

Publication number
CN109858468B
CN109858468B CN201910161725.1A CN201910161725A CN109858468B CN 109858468 B CN109858468 B CN 109858468B CN 201910161725 A CN201910161725 A CN 201910161725A CN 109858468 B CN109858468 B CN 109858468B
Authority
CN
China
Prior art keywords
table line
line
suspicious
value
lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910161725.1A
Other languages
English (en)
Other versions
CN109858468A (zh
Inventor
张娜
刘正珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201910161725.1A priority Critical patent/CN109858468B/zh
Publication of CN109858468A publication Critical patent/CN109858468A/zh
Application granted granted Critical
Publication of CN109858468B publication Critical patent/CN109858468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种表格线识别方法,包括:根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;根据所述投影值,识别所述目标文档图像中的表格线;处理所述目标文档图像中的表格线,获得文字图像。解决了现有的表格线识别方法识别准确度欠佳,识别速度较慢的技术问题,从而取得了提高表格线识别准确度以及识别速度的有益效果。

Description

一种表格线识别方法及装置
技术领域
本发明涉及文档图像处理技术领域,具体涉及一种表格线识别方法及装置。
背景技术
随着计算机技术的快速发展,电子文档的使用越来越普及,而且由于纸质文档易损毁、不易保存等问题,经常需要将纸质文档转化为数字形式,并存储在计算机中。
例如,可以通过拍照或扫描等技术,将纸质文档转变为数字图像,再利用图像处理与光学字符识别(Optical Character Recognition,OCR)等技术,识别数字图像中的文字,以进行进一步的编辑或其它应用。而表格作为文档图像中一种常见的表达形式,经常会对文字识别结果造成影响。因此,在文档处理过程中,期望通过技术手段先去除文档图像中的表格线,以降低甚至消除表格对文字识别的影响。
目前已有的表格线识别技术包括利用游程信息、利用霍夫变换算法等技术判断直线位置并去除。但是,当表格直线为虚线,或者由于图像质量原因,表格直线出现断裂现象时,利用游程特征并不能准确的识别出文档图像中的表格线;而采用霍夫变换算法进行表格线识别的计算量较大,容易导致处理速度较慢。由此可见,现有的表格线识别方法存在识别准确度欠佳,识别速度较慢等问题。
发明内容
本发明实施例提供一种表格线识别方法及表格线识别装置,以解决现有的表格线识别准确度欠佳,识别速度较慢的技术问题。
第一方面,本发明实施例提供了一种表格线识别方法,包括:
根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;
根据所述投影值,识别所述目标文档图像中的表格线;
处理所述目标文档图像中的表格线,获得文字图像。
可选的,在所述识别维度包括行维度的情况下,所述根据所述投影值,识别所述目标文档图像中的表格线的步骤,包括:
根据每一行像素点的投影值,获取每一行像素点的投影差分值;
根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;
其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。
可选的,在所述识别维度包括列维度的情况下,所述根据所述投影值,识别所述目标文档图像中的表格线的步骤,包括:
根据每一列像素点的投影值,获取每一列像素点的投影差分值;
根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;
其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。
可选的,所述根据所述投影值,识别所述目标文档图像中的表格线的步骤,包括:
根据所述投影值,识别所述目标文档图像中的可疑表格线;
针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。
可选的,所述针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线的步骤,包括:
针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;
根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。
可选的,所述根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线的步骤,包括:
S1,针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线;
S2,以已确认的最后一个表格线为参照表格线,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置;
S3,获取在所述参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值;
S4,响应于所述可疑表格线到所述参照表格线的距离满足第一距离阈值,确认所述可疑表格线为表格线,然后返回S2,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
S5,响应于所述可疑表格线到所述参照表格线的距离不满足第一距离阈值,确认所述可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线返回S3,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
S6,在基于所述参照表格线以及所述第一距离阈值,未从所述识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回S3,M为大于1的实数,直至调整后的第一距离阈值的最小值与所述间距均值的和值超出所述识别维度的距离限度。
可选的,所述针对每个识别维度,按照预设的过滤数据,获取所述可疑表格线中首批已确认的表格线的步骤,包括:
S11,针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数;
S12,在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为表格线;
S13,在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为非表格线,并将所述第一个可疑表格线从相应识别维度下的可疑表格线中过滤掉,然后以当前过滤后的可疑表格线,返回S11。
可选的,所述处理所述目标文档图像中的表格线,获得文字图像的步骤,包括:
获取所述表格线中的有效笔画;
去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像。
可选的,所述获取所述表格线中的有效笔画的步骤,包括:
针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;
针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。
可选的,所述根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值的步骤,包括:
针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值;
根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
第二方面,本发明实施例提供了一种表格线识别装置,包括:
投影值获取模块,用于根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;
表格线识别模块,用于根据所述投影值,识别所述目标文档图像中的表格线;
表格线处理模块,用于处理所述目标文档图像中的表格线,获得文字图像。
可选的,在所述识别维度包括行维度的情况下,所述表格线识别模块,包括:
水平投影获取子模块,用于根据每一行像素点的投影值,获取每一行像素点的投影差分值;
水平表格线识别子模块,用于根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;
其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。
可选的,在所述识别维度包括列维度的情况下,所述表格线识别模块,包括:
垂直投影获取子模块,用于根据每一列像素点的投影值,获取每一列像素点的投影差分值;
垂直表格线识别子模块,用于根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;
其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。
可选的,所述表格线识别模块,包括:
可疑表格线识别子模块,用于根据所述投影值,识别所述目标文档图像中的可疑表格线;
可疑表格线过滤子模块,用于针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。
可选的,所述可疑表格线过滤子模块,包括:
间距均值获取单元,用于针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;
可疑表格线过滤单元,用于根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。
可选的,所述可疑表格线过滤单元,包括:
首批表格线确认子单元,用于针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线;
第一位置获取子单元,用于以已确认的最后一个表格线为参照表格线,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置;
可疑表格线判断子单元,用于获取在所述参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值;
表格线确认子单元,用于响应于所述可疑表格线到所述参照表格线的距离满足第一距离阈值,确认所述可疑表格线为表格线,然后返回第一位置获取子单元,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
非表格线确认子单元,用于响应于所述可疑表格线到所述参照表格线的距离不满足第一距离阈值,确认所述可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线返回可疑表格线判断子单元,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
第一距离阈值调整单元,用于在基于所述参照表格线以及所述第一距离阈值,未从所述识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回可疑表格线判断子单元,M为大于1的实数,直至调整后的第一距离阈值的最小值与所述间距均值的和值超出所述识别维度的距离限度。
可选的,所述首批表格线确认子单元,还用于执行以下步骤:
S11,针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数;
S12,在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为表格线;
S13,在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为非表格线,并将所述第一个可疑表格线从相应识别维度下的可疑表格线中过滤掉,然后以当前过滤后的可疑表格线,返回S11。
可选的,所述表格线处理模块,包括:
有效笔画获取子模块,用于获取所述表格线中的有效笔画;
表格线处理子模块,用于去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像。
可选的,所述有效笔画获取子模块,包括:
第一有效笔画获取单元,用于针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;
第二有效笔画获取单元,用于针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。
可选的,所述投影值获取模块,包括:
第一投影值确认子模块,用于针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值;
投影值获取子模块,用于根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述的表格线识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的表格线识别方法的步骤。
根据本发明的一种表格线识别方法,可以根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;根据所述投影值,识别所述目标文档图像中的表格线;处理所述目标文档图像中的表格线,获得文字图像,由此解决了现有技术中表格线识别方法识别准确度欠佳,识别速度较慢的技术问题。取得了提高表格线识别准确度以及识别速度的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例的一种表格线识别方法的步骤流程图之一;
图2示出了根据本发明实施例的一种表格线识别方法的步骤流程图之二;
图3A示出了根据本发明实施例的一种目标文档图像的示意图之一;
图3B示出了根据本发明实施例的一种目标文档图像的行投影图像示意图之一;
图3C示出了根据本发明实施例的一种目标文档图像的行投影差分图像示意图之一;
图3D示出了根据本发明实施例的一种目标文档图像的列投影图像示意图之一;
图3E示出了根据本发明实施例的一种目标文档图像的列投影差分图像示意图之一;
图3F示出了根据本发明实施例的一种针对图3A所示的目标文档图像去除水平表格线的文字图像示意图之一;
图3G示出了根据本发明实施例的一种针对图3A所示的目标文档图像去除表格线的文字图像示意图之一;
图4A示出了根据本发明实施例的一种目标文档图像的示意图之二;
图4B示出了根据本发明实施例的一种目标文档图像的行投影图像示意图之二;
图4C示出了根据本发明实施例的一种目标文档图像的行投影差分图像示意图之二;
图4D示出了根据本发明实施例的一种目标文档图像的列投影图像示意图之二;
图4E示出了根据本发明实施例的一种目标文档图像的列投影差分图像示意图之二;
图4F示出了根据本发明实施例的一种针对图4A所示的目标文档图像去除水平表格线的文字图像示意图之一;
图4G示出了根据本发明实施例的一种针对图4A所示的目标文档图像去除表格线的文字图像示意图之一;
图5示出了根据本发明实施例的一种表格线识别方法的步骤流程图之三;
图6示出了根据本发明实施例的一种表格线识别方法的步骤流程图之四;
图7示出了根据本发明实施例的一种子步骤252的流程图之一;
图8示出了根据本发明实施例的一种步骤S1的流程图之一;
图9示出了根据本发明实施例的一种表格线识别装置的结构示意图之一;以及
图10示出了根据本发明实施例的一种表格线识别装置的结构示意图之二。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
详细介绍本发明实施例提供的一种表格线识别方法。
参照图1,示出了本发明实施例中一种表格线识别方法的步骤流程图。
步骤110,根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
本发明实施例中,为了能够快速有效地去除文档图像中的各类表格线,例如直线表格线、虚线表格线、断裂的直线表格线等等,可以根据投影值判断文档图像中的表格线。
那么此时则需要先根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。其中的识别维度可以根据需求进行预先设置,对此本发明实施例不加以限定。而识别单位则可以设置为在相应识别维度方向上,且识别高度为预设高度,识别长度为目标文档图像中相应识别维度所对应长度。其中的预设高度可以根据需求进行预先设置,对此本发明实施例不加以限定。例如可以设置预设高度为一个像素点,等等。
例如,一般的表格线可以包括水平表格线和垂直表格线,那么则可以设置识别维度包括行维度和列维度,而识别单位则可以分别为以像素点为单位的一行和一列,那么此时则可以获取目标文档图像中每一行像素点的投影值和每一列像素点的投影值。
或者也可以设置识别维度包括45度倾斜维度,那么此时则可以获取目标文档图像在45度倾斜方向上的每个识别单位中像素点的投影值,此时的一个识别单位可以为以一个像素点为高度,且在45度倾斜方向上的每条像素点线段。
而且,在本发明实施例中,可以通过任何可用方法获取每个识别维度下的每个识别单位中像素点的投影值,对此本发明实施例不加以限定。在实际应用中,根据投影角度不同,那么得到的投影值也会有所不同,在本发明实施例中,每个识别维度下的投影值的投影角度则可以根据需求预先预先设置,对此本发明实施例也不加以限定。
例如,为了提高投影值的有效性以及准确性,可以获取每个识别单位中像素点的最大投影值。那么此时,对于目标文档图像中的每一行,则可以获取每一行像素点的水平投影值,对于每一列,则可以获取每一列像素点的垂直投影值,等等。
其中的目标文档图像可以为带有表格线的文档图像,其具体的存在格式可以为图片格式,也可以为文档格式等等,具体的目标文档图像可以根据需求进行预先设置,对此本发明实施例也不加以限定。例如,为了方便获取投影值,可以设置目标文档图像为二值化后的带有表格线的文字行图像。
步骤120,根据所述投影值,识别所述目标文档图像中的表格线。
在获取得到每个识别维度下的每个识别单位的投影值之后,则可以进一步根据所述投影值,识别所述目标文档图像中的表格线。其中表格线处对应的投影值的取值情况则可以根据经验或者是需求等进行预先设置,对此本发明实施例不加以限定。
例如,可以设置如果某一行像素点的水平投影值较高,为局部极大值,且水平投影差分值围绕该局部极大值所在行,在相隔较近的范围内,出现较大的正值与负值,则可以认定相应行为水平表格线;而某一列像素点的垂直投影值较高,且垂直投影差分值在相隔较近的范围内,出现较大的正值与负值,则可以认定相应列为垂直表格线;等等。
其中,任一识别维度下的投影差分值,可以理解为相应识别维度下的当前识别单位的投影值与前一识别单位的投影值的差值。
可选地,参照图2,在本发明实施例中,在所述识别维度包括行维度的情况下,所述步骤120进一步可以包括:
子步骤A121,根据每一行像素点的投影值,获取每一行像素点的投影差分值;
其中,每一行像素点的投影差分值可以为:
Figure BDA0001984882040000121
其中,DiffXj代表第j行的投影差分值,h表示目标文档图像的高度,ProjectXj表示第j行的投影值,ProjectXj-1表示第j-1行的投影值。
子步骤A122,根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。
在得到每一行的投影值以及投影差分值之后,则可以根据投影值和所述投影差分值,识别所述目标文档图像中的水平表格线。具体的可以根据水平表格线需要满足的条件,依次判断每行的投影值以及投影差分值是否满足相应的水平表格线条件,如果满足则可以认为相应行中存在水平表格线。
其中,局部极大值的判定条件,例如局部极大值的判定范围、极大值的取值范围等等,可以根据需求进行预先设置,而且第一预设条件、第一预设距离范围和第一预设阈值条件都可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以设置第一预设条件为局部极大值大于各行投影值的全局最大值与预设权重的乘积,其中的预设权重则可以根据需求进行预先设置。
例如,对于图3A所示的目标文档图像,假设目标文档图像的宽度w=1504,高度h=105。经步骤A121得到目标文档图像中每一行的投影值构成的投影图像以及每一行的投影差分值构成的投影差分图像分别如图3B、3C所示。
那么针对此案例,首先寻找投影值的全局最大值Pr ojectXMax,进而依次寻找局部极大值,并且投影值超过α×Pr ojectXMax的行,其中,α=0.5。针对图3A所示的目标文档图像,符合条件的行依次为:
Pr oject2=960
Pr oject98=1001
接着,在投影差分图像中判断上述第r行是否存在满足如下条件的行:
Figure BDA0001984882040000131
Figure BDA0001984882040000132
以第2行为例,第2行周围的投影差分值分别为:
Diff2=960
Diff3=-75
Diff4=-301
Diff5=-259
Diff6=-155
符合条件,因此第2-6行存在水平表格线。同理,在第98行周围也存在水平表格线。
另外,对于图4A所示的目标文档图像,假设目标文档图像的宽度w=1240,高度h=105。经步骤A121得到目标文档图像中每一行的投影值以及投影差分值分别如图4B、4C所示。
首先寻找每一行投影值的全局最大值Pr ojectXMax,依次寻找局部极大值,并且投影值超过α×Pr ojectXMax的行,其中,可以设置α=0.5。针对图4A所示的目标文档图像,选择符合条件的代表行为:
Pr oject3=290
Pr oject52=338
Pr oject97=447
接着,在投影差分图像中判断上述第r行是否存在满足如下条件的行:
Figure BDA0001984882040000133
Figure BDA0001984882040000134
以第97行为例,第97行周围的投影差分值为:
Diff97=230
Diff98=-134
Diff99=-122
Diff100=-102
符合条件,因此在第97-100行存在水平表格线。同理,在第3行周围也存在水平表格线。而在第52行周围的投影差分值正负交错,且绝对值最大值仅为22,不符合条件,因此,此处不存在水平表格线。
可选地,参照图2,在本发明实施例中,在所述识别维度包括列维度的情况下,所述步骤120进一步可以包括:
子步骤B121,根据每一列像素点的投影值,获取每一列像素点的投影差分值;
其中,每一列像素点的投影差分值为:
Figure BDA0001984882040000141
其中DiffYj代表第j列的投影差分值,w为目标文档图像的宽度,ProjectYj表示第j列的投影值。
子步骤B122,根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。
例如,对于图3A所示的目标文档图像,得到的投影图像可以投影差分图像分别如图3D和3E所示。
具体的,针对此案例,首先寻找每一列投影值的全局最大值Pr ojectYMax,依次寻找局部极大值,并且投影值超过2×Pr ojectYMax/3的列,针对图3D所示的投影值图像,以图中画圈部分的列为例,符合垂直表格线所在列的条件的列的投影值为:
Pr ojectY96=98
Pr ojectY125=89
接着,在投影差分图像中判断上述第c列是否存在满足如下条件的列:
Figure BDA0001984882040000151
Figure BDA0001984882040000152
由投影差分值可得:
DiffY96=98
DiffY98=-98
符合条件,因此在第96-97列处存在垂直表格线。而第125列相邻的投影差分值不满足上述条件,因此在125列处不存在垂直表格线。
相应地,对于图4A所示的目标文档图像,得到的投影图像可以投影差分图像分别如图4D和4E所示。
针对此案例,首先寻找水平投影的全局最大值Pr ojectYMax,依次寻找局部极大值,并且投影值超过2×Pr ojectYMax/3的列,针对图4D,以图中左侧画圈部分的列为例,符合条件的列的投影值为:
Pr ojectY280=55
Pr ojectY287=49
接着,在投影差分图像中判断上述第c列是否存在满足如下条件的列:
Figure BDA0001984882040000153
Figure BDA0001984882040000154
由垂直投影差分值可得:
DiffY280=35
DiffY281=-28
符合条件,因此在第280列处存在垂直表格线。而第287列相邻的投影差分值不满足条件,因此在第287列处不存在垂直表格线。
对于图4D中右侧画圈部分,其投影值与投影差分值均满足上述条件,因此可以初步认为此处理可能存在竖线。
步骤130,处理所述目标文档图像中的表格线,获得文字图像。
在识别得到目标文档图像中的表格线之后,则可以处理目标文档图像中的表格线,获得文字图像。当然,在本发明实施例中,优选的表格线处理方式是去除,而去除形式可以是删除,也可以是隐藏,等等,对此本发明实施例并不加以限定。
根据本发明的一种表格线识别方法,可以根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;根据所述投影值,识别所述目标文档图像中的表格线;处理所述目标文档图像中的表格线,获得文字图像,由此取得了提高表格线识别准确度以及识别速度的有益效果。
而且,在本发明实施例中,在所述识别维度包括行维度的情况下,根据每一行像素点的投影值,获取每一行像素点的投影差分值;根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。并且,在所述识别维度包括列维度的情况下,根据每一列像素点的投影值,获取每一列像素点的投影差分值;根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。从而可以进一步提高识别得到的表格线的准确性。
实施例二
详细介绍本发明实施例提供的一种表格线识别方法。
参照图5,示出了本发明实施例中一种表格线识别方法的步骤流程图。
步骤210,针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值。
在本发明实施例中,为了获取目标文档图像中每个识别单位的投影值,可以预先获取目标文档图像中每个像素点的投影值。而且,对于目标文档图像而言,一般可以包括前景区域和背景区域两部分。其中背景区域可以包括目标文档图像中的空白区域,而前景区域则可以包括目标文档图像中显示有文字、表格、图片等等输入内容的区域。
因此,在本发明实施例中,针对所述目标文档图像中的每个像素点,可以设置根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值。例如,可以设置如果所述像素点属于前景区域,则设置所述像素点的投影值为第一数值,而如果所述像素点属于背景区域,则设置所述像素点的投影值为第二数值。其中的第一数值和第二数值可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以设置第一数值为1,第二数值为0,等等。
步骤220,根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
在确定每个像素点的投影值之后,则可以根据目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
例如,可以设置每一行的投影值为:
Figure BDA0001984882040000171
每一列的投影值为:
Figure BDA0001984882040000172
其中,w为目标文档图像的宽度,也即每一行的长度,h为目标文档图像的高度。ProjectXj为第j行的投影值,Pixeli为j行第i列像素点的投影值。ProjectYj为第j列的投影值,Pixeli为第j列第i行的像素像素点的投影值。
那么在得到目标文档图像的各个像素点的投影值之后,则可以根据上述方式分别得到每一行以及每一列的投影值。
步骤230,根据所述投影值,识别所述目标文档图像中的可疑表格线。
根据上述的投影值可以识别目标文档图像中的表格线,但是此时识别得到的表格线中可能存在误判的情况。例如,对于图4D中右侧圆圈中所示位置,按照前述的方式可以判定此时存在一垂直表格线,但是实际此处并不存在垂直表格线。
因此,在本发明实施例中,可以将根据投影值识别得到的表格线为可疑表格线。在本发明实施例中,可以通过实施例一中的所述的任意一种方式根据投影值识别目标文档图像中的可疑表格线,在此不加以赘述。
步骤240,针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。
在实际应用中,同一识别维度下任意相邻的两个表格线之间的距离一般是有一定规律的,因此在本发明实施例中,可以针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到相应识别维度下的表格线。
例如,对于识别得到的每个可疑水平表格线,可以根据预设的每两个相邻的水平表格线之间的理论距离,以及每两个相邻的可疑水平表格线之间的实际距离,对可疑水平表格线进行过滤,从而得到行维度下的水平表格线。其中,每两个相邻的水平表格线之间的理论距离,可以根据需求或者是经验进行预先设置,对此本发明实施例不加以限定。
可选地,参照图6,在本发明实施例中,所述步骤240进一步可以包括:
子步骤241,针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;
在本发明实施例中,为了方便对可以表格线进行过滤,可以针对每个识别维度,获取相应识别维度下的可疑表格线之间的间距均值。其中间距均值的获取方式可以为直接计算同一识别维度下的每两个相邻的可疑表格线之间的距离平均值,进而得到相应识别维度下的间距均值;或者可以首先去掉已同一识别维度下的每两个相邻的可疑表格线之间距离的最大值与最小值,进而计算相应识别维度下余下可疑表格线之间的距离的平均值积即为间距均值,如下式:
Figure BDA0001984882040000181
其中,DisA表示估算的间距均值,m为某一识别维度下可疑表格线的总数量,Dism=Pm+1-Pm,表示两条相邻可疑表格线之间的距离,Max(Dis)表示相邻可疑表格线的最大间距,Min(Dis)表示相邻可疑表格线的最小间距。
子步骤242,根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。
在分别获取得到每个识别维度下的间距均值之后,则可以根据间距均值,确认相应每个识别维度下的可疑表格线中的非表格线并过滤掉,从而可以得到相应识别维度下的表格线。
例如,对于某一识别维度下的可疑表格线,如果某两个可疑表格线之间的距离远小于相应识别维度下的间距均值,那么则可以认定这两个可疑表格线中可能存在至少一个非表格线,等等。具体的识别原则可以根据需求进行预先设置,对此本发明实施例不加以限定。
可选地,参照图7,在本发明实施例中,所述子步骤242进一步可以包括:
步骤S1,针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线;
其中的过滤顺序可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,对于行维度,可以设置过滤顺序为从上至下,或者也可以设置过滤顺序为从下至上,等等;而对于列维度,则可以设置过滤顺序为从左至右,或者为从右至左,等等。
在本发明实施例中,对于之前识别得到的各个可疑表格线,为了对各个可疑表格线进行过滤,以得到最终的表格线,需要针对每个识别维度,确认相应识别维度下的至少一个真实的表格线,以作为参照对相应识别维度下的其他可疑表格线进行有效过滤。因此,可以针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线。
此时可以通过任何可用方式确认每个识别维度下的首批已确认的表格线,对此本发明实施例不加以限定。
可选地,参照图8,在本发明实施例中,所述步骤S1进一步可以包括:
S11,针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数;
S12,在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为表格线;
S13,在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为非表格线,并将所述第一个可疑表格线从相应识别维度下的可疑表格线中过滤掉,然后以当前过滤后的可疑表格线,返回S11,直至相应识别维度下的最后一个可疑表格线。
在本发明实施例中,为了确认每个识别维度下的首批表格线,可以针对每个识别维度,按照相应识别维度下的过滤顺序,在实际应用中,同一识别维度下的任意两个相邻表格线之间的距离一般是相同的,那么对于某一真实的表格线而言,其之后的可疑表格线也应该是真实的表格线。
因此,在本发明实施例中,在假设相应识别维度下的第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数。如果在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为真实的表格线,那么则可以认定第一个可疑表格线也为真实的表格线,而如果在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线,那么则可以确认第一个可疑表格线为非表格线,并且可以将相应的第一个可疑表格线从相应识别维度下的可疑表格线中删除,然后以当前过滤后的可疑表格线返回至步骤S11。
其中N的具体取值,以及预设比例的具体取值都可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可疑设置N为1,那么此时针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,只需判断第二个可疑表格线是否为表格线。而且此时可以设置预设比例为1,那么如果第二个可疑表格线也被确认为表格线,则可以确认第一个可疑表格线为表格线,而如果第二个可疑表格线被确认为非表格线,那么则可以确认第一个可疑表格线也为非表格线,进而将第一个可疑表格线从相应识别维度下的可疑表格线中删除,也即过滤掉,然后以当前过滤后的可疑表格线返回至步骤S11。
在本发明实施例中,可以采用任何可用方式确认各个识别维度下的各个可疑表格线是否为真实的表格线,对此本发明实施例不加以限定。例如,可以根据间距均值,通过后续的步骤S2-S5的方式确认每个可疑表格线是否为真实的表格线,等等。
步骤S2,以已确认的最后一个表格线为参照表格线,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置;
步骤S3,获取在所述参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值;
步骤S4,响应于所述可疑表格线到所述参照表格线的距离满足第一距离阈值,确认所述可疑表格线为表格线,然后返回S2,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
步骤S5,响应于所述可疑表格线到所述参照表格线的距离不满足第一距离阈值,确认所述可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线,返回S3,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线。
S6,在基于所述参照表格线以及所述第一距离阈值,未从所述识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回S3,M为大于1的实数,直至调整后的第一距离阈值的最小值与所述间距均值的和值超出所述识别维度的距离限度。
在确认得到至少一个表格线之后,则可以按照预设的过滤顺序,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置。进而获取在当前的参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值。
其中的第一距离阈值可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以设置第一预设阈值为
Figure BDA0001984882040000211
其中Disi即为当前判断的可疑表格线到当前的参照表格线的距离,DisA即为相应识别维度下的间距均值。
那么如果当前判断的可疑表格线到相应参照表格线的距离满足第一距离阈值,则可以确认相应的可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线,返回S3,直至当前可疑表格线为相应识别维度下的最后一个可疑表格线。
而如果当前判断的可疑表格线到相应的参照表格线的距离不满足第一距离阈值,则可以确认相应的可疑表格线为表格线,然后返回S2以重新确定参照表格线,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线。
例如,对于图4D中右侧圈中部分与其左侧的垂直表格线的距离过近,满足第一距离阈值,因此可以判定右侧圈中部分的可疑表格线为非表格线。
或者,在本发明实施例中,针对每个识别维度,也可以相应识别维度下的每个可疑表格线之前的一个已确定的表格线为参照,判断当前可疑表格线到其前一已确定的表格线的距离与相应识别维度下的间距均值之间的差值是否满足第二距离阈值,如果满足则可以确认当前可以表格线为表格线,否则可以确认当前表格线为非表格线。其中第二距离阈值也可以根据需求进行预先设置,对此本发明实施例不加以限定。例如可以设置第二距离阈值为差值的绝对值小于等于1/5*DisA,等等。
而在实际应用中,由于图像质量等方面的问题,可能针对某一参照表格线以及当前的第一距离阈值,依次确认相应识别维度下距离该参照表格线之后第一位置最近的各个可疑表格线均为非表格线,也即未从相应识别维度下的可疑表格线中确认得到新的表格线,也即无法获取得到新的参照表格线,进而导致针对相应识别维度下的表格线识别中断,容易影响表格线识别结果的准确性。
因此,在本发明实施例中,为了避免上述情况,可以在基于当前的参照表格线以及所述第一距离阈值,未从所述参照表格线所对应的识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回S3,M为大于1的实数。从而可以基于重新调整后的第一距离阈值,针对当前的参照表格线之后的可疑表格线进行进一步识别,以识别得到一个新的表格线,进而则可以基于新的表格线作为参照表格线,执行步骤S2,而如果仍然没有识别出新的表格线,那么则可以再次调整第一距离阈值。而如果调整后的第一距离阈值的最小值超出所述识别维度的距离限度,那么基于调整后的第一距离阈值也无法识别出可以表格线,此时则可以不以调整后的第一距离阈值返回步骤S3。
例如,如果调整后的第一距离阈值为
Figure BDA0001984882040000231
而相应识别维度下的距离限度为15DisA,那么由于
Figure BDA0001984882040000232
大于15DisA,也即第一距离阈值的最小值超出相应识别维度的距离限度,此时基于该第一距离阈值无法获取相应识别维度下的可疑表格线,因此也无法针对各个可疑表格线进行判断。
或者,在本发明实施例中,针对每个参照表格线,是判断距离该参照表格线之后第一位置处最近的可疑表格线是否为真的表格线,而且第一位置距离参照表格线的距离为间距均值DisA,因此,在本发明实施例中,也可以设置如果调整后的第一距离阈值的最小值与间距均值的和值超出所述识别维度的距离限度,那么基于调整后的第一距离阈值也无法识别出可以表格线,此时则可以不以调整后的第一距离阈值返回步骤S3。
其中,M的具体取值可以根据需求进行预先设置,对此本发明实施例不加以限定。而且,针对同一参照表格线,在每次调整第一距离阈值时M的具体取值可以不同,当然也可以相同,对此本发明实施例不加以限定。
例如,可以设置M的取值为2,那么在每次调整第一距离阈值时,可以将第一距离阈值调整为原有第一距离阈值的2倍,例如将上述原有的第一距离阈值
Figure BDA0001984882040000233
调整为
Figure BDA0001984882040000234
而在下一次调整时,则可以将第一距离阈值调整为
Figure BDA0001984882040000235
或者,还可以设置针对同一参照表格线,在第i次调整第一距离阈值时,将第一距离阈值调整为初始第一距离阈值的i+1倍。
例如,假设初始的第一距离阈值为
Figure BDA0001984882040000241
那么针对同一参照表格线,在第一次调整距离阈值时,可以将第一距离阈值调整为
Figure BDA0001984882040000242
而在第二次调整第一距离阈值时,则可以将第一距离阈值调整为
Figure BDA0001984882040000243
另外,在本发明实施例中,如果基于步骤S1确定的首批已确定的表格线,未从相应识别维度下的可疑表格线中确认得到新的表格线,那么则可以将首批确认的表格线过滤掉,进而以过滤后的可疑表格线重新执行S1-S5。
步骤250,获取所述表格线中的有效笔画。
在实际应用中,目标文档图像中可能存在一些有效笔画与表格线重合的情况,那么如果直接将目标文档图像中的表格线删除,也可能会删除与表格线重合的有效笔画。
因此,在本发明实施例中,为了避免上述情况,在删除表格线之前,可以先获取表格线中的有效笔画。具体的可以通过任何可用方法获取不同识别维度下的表格线中的有效笔画,对此本发明实施例不加以限定。
可选地,参照图6,在本发明实施例中,所述步骤250进一步可以包括:
子步骤251,针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;
针对已确认为水平表格线中的每个像素点,如果某一像素点为有效笔画,那么其应该与不在相应水平表格线范围内且非水平方向的笔画相连,因此,在本发明实施例中,针对每个水平表格线中的每个像素点,如果相应像素点与不在相应水平表格线范围内且非水平方向的笔画相连,则可以确认相应像素点为有效笔画,否则可以确认相应像素点不是有效笔画。
子步骤252,针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。
而针对每个垂直表格线中的每个像素点,如果相应像素点所在的笔画行在水平方向的宽度满足预设宽度阈值,则可以确认相应的像素点为有效笔画,否则确认相应像素点不是有效笔画。其中的预设宽度阈值可以根据需求进行预先设置,对此本发明实施例不加以限定。而且此时像素点所在的笔画行不包含水平表格线。
经过上述的子步骤251,可以将水平表格线与垂直表格线的交点也判定为有效笔画,而经过本步骤则可以重新将水平表格线与垂直表格线的交点确认为不是有效笔画,此时可以提高有效笔画的准确性。
步骤260,去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像。
在确认得到表格线中的有效笔画之后,则可以去除目标文档图像中的表格线,并且保留表格线中的有效笔画,从而得到目标文档图像对应的文字图像。
如图3F为针对图3A所示的目标文档图像去除水平表格线的示意图,如图3G为针对图3A所示的目标文档图像去除表格线的示意图;如图4F为针对图4A所示的目标文档图像去除水平表格线的示意图,如图4G为针对图4A所示的目标文档图像去除表格线的示意图。
根据本发明的一种表格线识别方法,可以根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;根据所述投影值,识别所述目标文档图像中的表格线;处理所述目标文档图像中的表格线,获得文字图像。由此取得了提高表格线识别准确度以及识别速度的有益效果。
而且,在本发明实施例中,还可以根据所述投影值,识别所述目标文档图像中的可疑表格线;针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。并且,针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。从而可以进一步提高表格线的识别准确性以及识别速度。
另外,在本发明实施例中,还可以获取所述表格线中的有效笔画;去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像。并且,针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。还可以提高表格线去除过程的准确性,避免去除正常笔画。
进一步地,在本发明实施例中,还可以针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值;根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。从而可以提高投影值的准确性。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
详细介绍本发明实施例提供的一种表格线识别装置。
参照图9,示出了本发明实施例中一种表格线识别装置的结构示意图。
投影值获取模块310,用于根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
表格线识别模块320,用于根据所述投影值,识别所述目标文档图像中的表格线。
表格线处理模块330,用于处理所述目标文档图像中的表格线,获得文字图像。
可选地,在本发明实施例中,在所述识别维度包括行维度的情况下,所述表格线识别模块320,包括:
水平投影获取子模块,用于根据每一行像素点的投影值,获取每一行像素点的投影差分值;
水平表格线识别子模块,用于根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;
其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。
可选地,在本发明实施例中,在所述识别维度包括列维度的情况下,所述表格线识别模块320,包括:
垂直投影获取子模块,用于根据每一列像素点的投影值,获取每一列像素点的投影差分值;
垂直表格线识别子模块,用于根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;
其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。
根据本发明的一种表格线识别方法,可以根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;根据所述投影值,识别所述目标文档图像中的表格线;处理所述目标文档图像中的表格线,获得文字图像,由此取得了提高表格线识别准确度以及识别速度的有益效果。
而且,在本发明实施例中,在所述识别维度包括行维度的情况下,根据每一行像素点的投影值,获取每一行像素点的投影差分值;根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。并且,在所述识别维度包括列维度的情况下,根据每一列像素点的投影值,获取每一列像素点的投影差分值;根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。从而可以进一步提高识别得到的表格线的准确性。
实施例四
详细介绍本发明实施例提供的一种表格线识别装置。
参照图10,示出了本发明实施例中一种表格线识别装置的结构示意图。
投影值获取模块410,用于根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
其中,所述投影值获取模块410,进一步可以包括:
第一投影值确认子模块411,用于针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值;
投影值获取子模块412,用于根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
表格线识别模块420,用于根据所述投影值,识别所述目标文档图像中的表格线。
其中,在本发明实施例中,所述表格线识别模块420,进一步可以包括:
可疑表格线识别子模块421,用于根据所述投影值,识别所述目标文档图像中的可疑表格线;
可疑表格线过滤子模块422,用于针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。
可选地,在本发明实施例中,所述可疑表格线过滤子模块422,进一步可以包括:
间距均值获取单元,用于针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;
可疑表格线过滤单元,用于根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。
可选地,在本发明实施例中,所述可疑表格线过滤单元,进一步可以包括:
首批表格线确认子单元,用于针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线;
第一位置获取子单元,用于以已确认的最后一个表格线为参照表格线,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置;
可疑表格线判断子单元,用于获取在所述参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值;
表格线确认子单元,用于响应于所述可疑表格线到所述参照表格线的距离满足第一距离阈值,确认所述可疑表格线为表格线,然后返回第一位置获取子单元,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
非表格线确认子单元,用于响应于所述可疑表格线到所述参照表格线的距离不满足第一距离阈值,确认所述可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线返回可疑表格线判断子单元,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
第一距离阈值调整单元,用于在基于所述参照表格线以及所述第一距离阈值,未从所述识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回可疑表格线判断子单元,M为大于1的实数,直至调整后的第一距离阈值的最小值与所述间距均值的和值超出所述识别维度的距离限度。
可选地,在本发明实施例中,所述首批表格线确认子单元,还用于执行以下步骤:
S11,针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数;
S12,在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为表格线;
S13,在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为非表格线,并将所述第一个可疑表格线从相应识别维度下的可疑表格线中过滤掉,然后以当前过滤后的可疑表格线,返回S11。
表格线处理模块430,用于处理所述目标文档图像中的表格线,获得文字图像。
其中,在本发明实施例中,所述表格线处理模块430,进一步可以包括:
有效笔画获取子模块431,用于获取所述表格线中的有效笔画;
表格线处理子模块432,用于去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像。
可选地,在本发明实施例中,所述有效笔画获取子模块431,进一步可以包括:
第一有效笔画获取单元,用于针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;
第二有效笔画获取单元,用于针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。
根据本发明的一种表格线识别方法,可以根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;根据所述投影值,识别所述目标文档图像中的表格线;处理所述目标文档图像中的表格线,获得文字图像。由此取得了提高表格线识别准确度以及识别速度的有益效果。
而且,在本发明实施例中,还可以根据所述投影值,识别所述目标文档图像中的可疑表格线;针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。并且,针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。从而可以进一步提高表格线的识别准确性以及识别速度。
另外,在本发明实施例中,还可以获取所述表格线中的有效笔画;去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像。并且,针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。还可以提高表格线去除过程的准确性,避免去除正常笔画。
进一步地,在本发明实施例中,还可以针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值;根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。从而可以提高投影值的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,在本发明实施例中还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述的任意一种表格线识别方法。
在本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的任意一种表格线识别方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的表格线识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (18)

1.一种表格线识别方法,其特征在于,包括:
根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;
根据所述投影值,识别所述目标文档图像中的表格线;
处理所述目标文档图像中的表格线,获得文字图像;其中,
所述处理所述目标文档图像中的表格线,获得文字图像的步骤,包括:
获取所述表格线中的有效笔画;去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像;
所述获取所述表格线中的有效笔画的步骤,包括:
针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;
针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。
2.根据权利要求1所述的方法,其特征在于,在所述识别维度包括行维度的情况下,所述根据所述投影值,识别所述目标文档图像中的表格线的步骤,包括:
根据每一行像素点的投影值,获取每一行像素点的投影差分值;
根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;
其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。
3.根据权利要求1所述的方法,其特征在于,在所述识别维度包括列维度的情况下,所述根据所述投影值,识别所述目标文档图像中的表格线的步骤,包括:
根据每一列像素点的投影值,获取每一列像素点的投影差分值;
根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;
其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述投影值,识别所述目标文档图像中的表格线的步骤,包括:
根据所述投影值,识别所述目标文档图像中的可疑表格线;
针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。
5.根据权利要求4所述的方法,其特征在于,所述针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线的步骤,包括:
针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;
根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。
6.根据权利要求5所述的方法,其特征在于,所述根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线的步骤,包括:
S1,针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线;
S2,以已确认的最后一个表格线为参照表格线,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置;
S3,获取在所述参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值;
S4,响应于所述可疑表格线到所述参照表格线的距离满足第一距离阈值,确认所述可疑表格线为表格线,然后返回S2,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
S5,响应于所述可疑表格线到所述参照表格线的距离不满足第一距离阈值,确认所述可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线返回S3,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
S6,在基于所述参照表格线以及所述第一距离阈值,未从所述识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回S3,M为大于1的实数,直至调整后的第一距离阈值的最小值与所述间距均值的和值超出所述识别维度的距离限度。
7.根据权利要求6所述的方法,其特征在于,所述针对每个识别维度,按照预设的过滤数据,获取所述可疑表格线中首批已确认的表格线的步骤,包括:
S11,针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数;
S12,在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认所述第一个可疑表格线为表格线;
S13,在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为非表格线,并将所述第一个可疑表格线从相应识别维度下的可疑表格线中过滤掉,然后以当前过滤后的可疑表格线,返回S11。
8.根据权利要求1所述的方法,其特征在于,所述根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值的步骤,包括:
针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值;
根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
9.一种表格线识别装置,其特征在于,包括:
投影值获取模块,用于根据预设的识别维度,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值;
表格线识别模块,用于根据所述投影值,识别所述目标文档图像中的表格线;
表格线处理模块,用于处理所述目标文档图像中的表格线,获得文字图像;其中,
所述表格线处理模块,包括:
有效笔画获取子模块,用于获取所述表格线中的有效笔画;
表格线处理子模块,用于去除所述目标文档图像中的表格线,并保留所述表格线中的有效笔画,得到所述文字图像;
所述有效笔画获取子模块,包括:
第一有效笔画获取单元,用于针对每个水平表格线中的每个像素点,如果所述像素点与不在所述水平表格线范围内且非水平方向的笔画相连,则确认所述像素点为有效笔画;
第二有效笔画获取单元,用于针对每个垂直表格线中的每个像素点,如果所述像素点所在笔画行在水平方向的宽度满足预设宽度阈值,则确认所述像素点为有效笔画。
10.根据权利要求9所述的装置,其特征在于,在所述识别维度包括行维度的情况下,所述表格线识别模块,包括:
水平投影获取子模块,用于根据每一行像素点的投影值,获取每一行像素点的投影差分值;
水平表格线识别子模块,用于根据所述投影值和所述投影差分值,识别所述目标文档图像中的水平表格线;
其中,所述水平表格线所在行的投影值为满足第一预设条件的局部极大值,且投影差分值围绕所述局部极大值所在行,在第一预设距离范围内出现满足第一预设阈值条件的正值与负值。
11.根据权利要求9所述的装置,其特征在于,在所述识别维度包括列维度的情况下,所述表格线识别模块,包括:
垂直投影获取子模块,用于根据每一列像素点的投影值,获取每一列像素点的投影差分值;
垂直表格线识别子模块,用于根据所述投影值和所述投影差分值,识别所述目标文档图像中的垂直表格线;
其中,所述垂直表格线所在列的投影值为满足第二预设条件的局部极大值,且投影差分值围绕所述局部极大值所在列,在第二预设距离范围内出现满足第二预设阈值条件的正值与负值。
12.根据权利要求9所述的装置,其特征在于,所述表格线识别模块,包括:
可疑表格线识别子模块,用于根据所述投影值,识别所述目标文档图像中的可疑表格线;
可疑表格线过滤子模块,用于针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,对所述识别维度下的可疑表格线进行过滤,得到所述识别维度下的表格线。
13.根据权利要求12所述的装置,其特征在于,所述可疑表格线过滤子模块,包括:
间距均值获取单元,用于针对每个识别维度,根据在所述识别维度下的每两个相邻的可疑表格线之间的距离,获取所述识别维度下的可疑表格线之间的间距均值;
可疑表格线过滤单元,用于根据所述间距均值,确认所述可疑表格线中的非表格线并过滤掉,得到所述识别维度下的表格线。
14.根据权利要求13所述的装置,其特征在于,所述可疑表格线过滤单元,包括:
首批表格线确认子单元,用于针对每个识别维度,按照预设的过滤顺序,获取所述可疑表格线中首批已确认的表格线;
第一位置获取子单元,用于以已确认的最后一个表格线为参照表格线,获取在所述参照表格线之后,且到所述参照表格线的距离为所述间距均值的第一位置;
可疑表格线判断子单元,用于获取在所述参照表格线之后,且距离所述第一位置最近的可疑表格线,并判断所述可疑表格线到所述参照表格线的距离是否满足第一距离阈值;
表格线确认子单元,用于响应于所述可疑表格线到所述参照表格线的距离满足第一距离阈值,确认所述可疑表格线为表格线,然后返回第一位置获取子单元,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
非表格线确认子单元,用于响应于所述可疑表格线到所述参照表格线的距离不满足第一距离阈值,确认所述可疑表格线为非表格线,然后针对所述非表格线之后的各个可疑表格线返回可疑表格线判断子单元,直至当前所述可疑表格线为相应识别维度下的最后一个可疑表格线;
第一距离阈值调整单元,用于在基于所述参照表格线以及所述第一距离阈值,未从所述识别维度下的可疑表格线中确认得到表格线的情况下,调整所述第一距离阈值为原有第一距离阈值的M倍,然后基于调整后的第一距离阈值返回可疑表格线判断子单元,M为大于1的实数,直至调整后的第一距离阈值的最小值与所述间距均值的和值超出所述识别维度的距离限度。
15.根据权利要求14所述的装置,其特征在于,所述首批表格线确认子单元,还用于执行以下步骤:
S11,针对每个识别维度,按照所述过滤顺序,在假设第一个可疑表格线为表格线的情况下,判断在所述第一个可疑表格线之后的N个可疑表格线是否为表格线,N为正整数;
S12,在所述N个可疑表格线中存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为表格线;
S13,在所述N个可疑表格线中不存在大于等于预设比例的可疑表格线确认为表格线的情况下,确认第一个可疑表格线为非表格线,并将所述第一个可疑表格线从相应识别维度下的可疑表格线中过滤掉,然后以当前过滤后的可疑表格线,返回S11。
16.根据权利要求9所述的装置,其特征在于,所述投影值获取模块,包括:
第一投影值确认子模块,用于针对所述目标文档图像中的每个像素点,根据所述像素点处于前景区域还是背景区域,确认所述像素点的投影值
第二投影值确认子模块,用于如果所述像素点属于背景区域,则设置所述像素点的投影值为第二数值;
投影值获取子模块,用于根据所述目标文档图像中每个像素点的投影值,获取目标文档图像在每个识别维度下的每个识别单位中像素点的投影值。
17.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的表格线识别方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项所述表格线识别方法。
CN201910161725.1A 2019-03-04 2019-03-04 一种表格线识别方法及装置 Active CN109858468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910161725.1A CN109858468B (zh) 2019-03-04 2019-03-04 一种表格线识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910161725.1A CN109858468B (zh) 2019-03-04 2019-03-04 一种表格线识别方法及装置

Publications (2)

Publication Number Publication Date
CN109858468A CN109858468A (zh) 2019-06-07
CN109858468B true CN109858468B (zh) 2021-04-23

Family

ID=66899736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910161725.1A Active CN109858468B (zh) 2019-03-04 2019-03-04 一种表格线识别方法及装置

Country Status (1)

Country Link
CN (1) CN109858468B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160234B (zh) * 2019-12-27 2020-12-08 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268545A (zh) * 2014-09-15 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN105184265A (zh) * 2015-09-14 2015-12-23 哈尔滨工业大学 一种基于自学习的手写表格数字字符串快速识别的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117334A2 (en) * 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
CN101315668A (zh) * 2008-07-01 2008-12-03 上海大学 试卷卷面表格自动检测方法
CN103377177B (zh) * 2012-04-27 2016-03-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
CN104484643B (zh) * 2014-10-27 2018-05-29 中国科学技术大学 一种手写表格的智能识别方法及系统
CN105426834B (zh) * 2015-11-17 2019-02-22 中国传媒大学 一种基于投影特征与结构特征进行表格图像检测的方法
CN109308465B (zh) * 2018-09-14 2020-01-17 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268545A (zh) * 2014-09-15 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN105184265A (zh) * 2015-09-14 2015-12-23 哈尔滨工业大学 一种基于自学习的手写表格数字字符串快速识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Registration and entire shape acquisition for grid based active one-shot scanning techniques;Hiroshi Kawasaki 等;《2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》;20170424;全文 *

Also Published As

Publication number Publication date
CN109858468A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
EP2536122B1 (en) Image processing method, image processing device and scanner
CN109635268B (zh) Pdf文件中表格信息的提取方法
EP3783564A1 (en) Image processing method, computer readable storage medium, and electronic device
US8285077B2 (en) Automatic correction of digital image distortion
CN108830133B (zh) 合同影像图片的识别方法、电子装置及可读存储介质
EP2662804A2 (en) Method and apparatus for detecting continuous road partition
WO2020258703A1 (zh) 障碍物检测方法、智能驾驶控制方法、装置、介质及设备
RU2631765C1 (ru) Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
CN111353961B (zh) 一种文档曲面校正方法及装置
JP2010171976A (ja) 歪み文書画像を補正する方法及びシステム
CN105225218B (zh) 用于文档图像的畸变校正方法和设备
US20180082456A1 (en) Image viewpoint transformation apparatus and method
CN111178150A (zh) 车道线检测方法、系统及存储介质
US10389936B2 (en) Focus stacking of captured images
CN109858468B (zh) 一种表格线识别方法及装置
CN107977649B (zh) 一种障碍物识别方法、装置及终端
CN109348084B (zh) 图像形成方法、装置、电子设备和可读存储介质
CN113177941B (zh) 一种钢卷边裂识别方法、系统、介质和终端
CN108335266B (zh) 一种文档图像畸变的矫正方法
WO2019242388A1 (zh) 一种基于深度图像的图书馆机器人障碍识别方法
CN109816709B (zh) 基于单目摄像头的深度估计方法、装置及设备
CN113744323B (zh) 点云数据处理方法和装置
CN108401563B (zh) 基于多尺度均值滤波和显著性检测的红外小目标检测方法
KR101524074B1 (ko) 영상 처리 방법
CN111739025B (zh) 一种图像处理方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant