CN111428700B - 表格识别方法、装置、电子设备、存储介质 - Google Patents

表格识别方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111428700B
CN111428700B CN202010522622.6A CN202010522622A CN111428700B CN 111428700 B CN111428700 B CN 111428700B CN 202010522622 A CN202010522622 A CN 202010522622A CN 111428700 B CN111428700 B CN 111428700B
Authority
CN
China
Prior art keywords
target
grid
intersection points
intersection
line segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010522622.6A
Other languages
English (en)
Other versions
CN111428700A (zh
Inventor
梁宇舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Institute Of Artificial Intelligence Shanghai Jiaotong University
Original Assignee
Suzhou Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Institute Of Artificial Intelligence Shanghai Jiaotong University filed Critical Suzhou Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority to CN202010522622.6A priority Critical patent/CN111428700B/zh
Publication of CN111428700A publication Critical patent/CN111428700A/zh
Application granted granted Critical
Publication of CN111428700B publication Critical patent/CN111428700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种表格识别方法、装置、电子设备、存储介质,该方法包括:提取待识别表格包含的交点,根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量;根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。根据交点数量确定目标网格在目标方向上是否存在线段,进而准确的识别出待识别表格中先验交点关联的表格线段,提高表格识别鲁棒性。

Description

表格识别方法、装置、电子设备、存储介质
技术领域
本申请实施例涉及图像识别技术,尤其涉及一种表格识别方法、装置、电子设备、存储介质。
背景技术
随着时代的发展,图像识别的需求越来越普遍。光学字符识别(OpticalCharacter Recognition,OCR)技术被应用于识别图像中的文字。OCR技术检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
OCR技术还被应用于识别表格图像,目前的OCR技术采用对表格全文进行识别的方式,但是当表格出现倾斜等形变时,无法准确识别出表格,进而无法准确识别表格中不同区域中的数据,表格识别鲁棒性差。
发明内容
本申请提供一种表格识别方法、装置、电子设备、存储介质,以提高表格识别鲁棒性。
第一方面,本申请实施例提供了一种表格识别方法,包括:
提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
第二方面,本申请实施例还提供一种表格识别装置,包括:
交点提取模块,用于提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
网格划分模块,用于根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
目标网格交点统计模块,用于查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
目标表格生成模块,用于根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如本申请实施例所示的表格识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所示的表格识别方法。
本申请实施例提供的表格识别方案,提取待识别表格包含的交点,根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量;根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。目前相关技术缺乏对表格本体的识别步骤,因此容易出现识别误差。本申请实施例提供的方案能够在提取待识别表格包含的交点后,根据表格边上交点之间的距离,合理的对待识别表格进行划分。根据先验交点所在的目标网格,以及目标网格的相邻网格,统计在目标方向上网格内交点数量。因此若表格倾斜,则表格线段上的交点可能出现在相邻网格在目标方向对应的网格中,进而识别具有一定倾斜度的表格线段。根据交点数量确定目标网格在目标方向上是否存在线段,进而准确的识别出待识别表格中先验交点关联的表格线段,提高表格识别鲁棒性。此外,本申请实施例对交点进行识别和统计,能够快速且低成本的实现准确识别表格。
附图说明
图1是本申请实施例一中的一种表格识别方法的流程示意图;
图2是本申请实施例二中的一种表格识别方法的流程示意图;
图3是本申请实施例二中的一种待识别表格的示意图;
图4是本申请实施例三中的一种表格识别装置的结构示意图;
图5是本申请实施例四中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的一种表格识别方法的流程示意图,该方法适用于OCR技术中识别表格的情况,该方法可以由用于识别图像的电子设备执行,电子设备可以为个人电脑、平板电脑或智能手机等,该方法包括:
步骤110、提取待识别表格包含的交点。
其中,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点。
待识别表格位于当前处理的图像中。本申请使用的场景可以为用户预先标记出规范表格中需要识别的内容所在的子表格的表格顶点,作为先验交点。然后由机器进行批量的表格内容提取,批量处理的图片中包含有相同子表格分布的表格。表格整体结构可以由矩形组成,进行由横向线段和纵向线段组成。
在一种实现方式中,横向(即水平方向),又称第一方向;纵向(即垂直方向),又称第二方向,此时第一方向与第二方向相互垂直,第一方向的线段包括相互平行的多条水平线段,第二方向的线段包括相互平行的多条垂直线段。在另一种实现方式中,表格可以为非矩形,如平行四边形等,此时第一方向和第二方向呈一定角度,该角度大于0度小于90度。第一方向的线段包括相互平行的多条沿第一方向延伸的水平线段,第二方向的线段包括相互平行的多条沿第二方向延伸的水平线段。
在一种实现方式中,可以通过下述方式确定待识别表格中的交点:提取待识别表格中第一方向的线段和第二方向的线段;将第一方向的线段和第二方向的线段进行与操作,确定交点。
可选的,利用形态变换可以将形似水平线段和竖直线段的内容从整张图像中提取出来,再将水平线段与竖直线段进行与操作即可获得图片中所有交点。实现通过第一方向的线段和第二方向的线段确定交点,称为以线寻点。
进一步的,假设待识别表格为矩形,正投影拍摄得到的图片为待识别表格的标准形状。但是若拍照角度发生偏差,则图片中的待识别表格则不是标准矩形,此时可以通过下述方式对待识别表格进行校正。在步骤110之后,还包括:
根据交点的位置信息确定待识别表格的四个顶点;根据四个顶点的位置信息对交点和顶点进行透视变换,透视变换用于将顶点和交点的分布校正为预设几何图形的坐标关系。
从交点中,根据交点信息中的纵坐标和横坐标的最大值和最小值从交点中查找到四个顶点。基于四个顶点的位置信息对交点和顶点进行透视变换。预设几何图形可以为矩形、顶角角度固定的平行四边形或其他多边形等。通过透视变换使得四个顶点的分布趋近于或形成矩形。根据顶点的透视变换规则,对各交点的位置信息进行相应调整。进而实现纠正因拍摄角度不正导致的图像扭曲的问题。
步骤120、根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点。
根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,可通过下述方式实施:分别获取待识别表格的各表格边上的交点;分别计算各表格边上交点之间的最短距离;根据最短距离确定网格的尺寸。
假设待识别表格的标准形状为矩形。可以利用共线特点查找待识别表格的表格边上的交点。例如,根据表格边两个顶点坐标,拟合出表格边的线性方程,判断某交点是否符合该线性方程,若符合则说明该交点位于该表格边上。又例如,分别计算某个交点与表格边的两个顶点所成的夹角,若该夹角趋近180度,则认为该交点位于该表格边上。通过上述方式能够提取表格边上的交点,表格边上的交点还包括表格边的顶点。
针对每个表格边,分别计算表格边上相邻两个交点之间的距离。从计算出的距离中,确定最短距离的两个相邻交点。然后根据最短距离确定网格的尺寸。
示例性的,根据最短距离确定网格的尺寸可以实施为,根据最短距离的预设倍数确定网格的尺寸,预设倍数小于二分之一。当预设倍数小于二分之一时,相邻的两个网格中不会连续出现两个顶点,进而实现每个网格最多包含一个交点,且每个网格的相邻网格不包含交点。
预设倍数越小,网格尺寸越小,计算精度越高,同时计算代价越高。为了平衡计算代价与计算精度,可以执行设备的计算能力以及计算等待时间需求调整预设倍数。可选的,设置预设倍数为四分之一。
步骤130、查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向。
目标网格的相邻网格可以目标网格在某一方向上相邻的一个或多个网格。例如,在水平方向左右相邻各一个相邻网格(即左侧一个,右侧一个)或者在水平方向左右相邻各两个相邻网格(即左侧两个,右侧两个)。相邻网格的数量与步骤120中网格大小有关。网格越小,相邻网格数量越多。
统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,可通过下述方式实施:
统计目标网格在目标方向上包含的网格中的第一交点数量;在目标方向的相交方向获取目标网格在预设距离内的相邻网格,分别统计相邻网格在目标方向上包含的网格中的第二交点数量;根据第一交点数量和第二交点数量的总和确定目标交点数量。
分别在第一方向和第二方向计算执行上述步骤,得到第一方向上目标交点的数量和第二方向上目标交点的数量。根据第一方向上目标交点的数量确定目标网格在第一方向上是否保存相应的目标方向线段;根据第二方向上目标交点的数量确定目标网格在第二方向上是否保存相应的目标方向线段。
步骤140、根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
如果目标交点数量大于等于阈值,则保留目标网格在目标方向线段;
如果目标交点数量小于阈值,则取消保留目标网格在目标方向线段。
本申请实施例提供的表格识别方法,提取待识别表格包含的交点,根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量;根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。目前相关技术缺乏对表格本体的识别步骤,因此容易出现识别误差。本申请实施例提供的方法能够在提取待识别表格包含的交点后,根据表格边上交点之间的距离,合理的对待识别表格进行划分。根据先验交点所在的目标网格,以及目标网格的相邻网格,统计在目标方向上网格内交点数量。因此若表格倾斜,则表格线段上的交点可能出现在相邻网格在目标方向对应的网格中,进而识别具有一定倾斜度的表格线段。根据交点数量确定目标网格在目标方向上是否存在线段,进而准确的识别出待识别表格中先验交点关联的表格线段,提高表格识别鲁棒性。此外,本申请实施例对交点进行识别和统计,能够快速且低成本的实现准确识别表格。
实施例二
图2为本申请实施例二提供的表格识别方法的流程示意图,作为上述实施例的一个实例,在本实例中,待识别表格为矩形表格,如图3所示,待识别表格具有四个顶点,分别为顶点A、顶点B、顶点C和顶点D,顶点A和顶点B构成表格边AB,顶点B、顶点D构成表格边BD,顶点C、顶点D构成表格边CD,顶点A、顶点C构成表格边AC。表格边上包括交点a、交点b、交点c、交点d、交点e和交点f。顶点A、顶点B、顶点C和顶点D也可视为交点。在识别该待提取表格时,该方法可通过下述步骤实施:
步骤201、利用形态学变换获取待识别表格中所有的交点。
识别到的所有交点包括:顶点A、顶点B、顶点C、顶点D、交点a、交点b、交点c、交点d、交点e和交点f。
步骤202、寻找所有的交点中左上、右上、左下、右下四个交点作为四个顶点。
根据所有交点的坐标,确定所有焦点中左上交点为顶点A,右上交点为顶点B、左下交点为顶点C、右下交点为顶点D。
步骤203、基于四个顶点进行透视变换校正扭曲表格。
顶点A、顶点B、顶点C以及顶点D进行透视变换,对待识别表格进行扭曲矫正,使得表格更加趋于矩形。若顶点A、顶点B、顶点C以及顶点D的分布符合矩形形状的分布,即表格边AB分别与表格边AC和表格边AD垂直,表格边CD分别与表格边AC和表格边AD垂直,则无需进行透视变换。若顶点A、顶点B、顶点C以及顶点D的分布不符合矩形形状的分布,但接近矩形分布,则进行透视变换。例如,表格边AB与表格边AC和表格边AD的夹角接近90度(如75度-105度),表格边CD与表格边AC和表格边AD的夹角接近90度(如75度-105度)等。
步骤204、根据共线特点分别找到待识别表格的四条表格边上的交点。在上述交点中查找交点间的最短距离。
根据顶点可确定顶点所在的直线方程。根据直线方程可确定位于直线方程上的交点。例如,交点a位于表格边AB上,交点b和交点e位于表格边AC上,交点d和交点f位于表格边BD上。分别计算线段Aa、线段aB、线段Ab、线段be、线段eC、线段CD、线段Df、线段df、线段Bd的长度,将长度最短的线段的长度作为最短距离。示例性的,本场景中以x为计量单位,线段Aa长度为2x、线段aB长度为2x、线段Ab长度为x、线段be长度为3x、线段eC长度为6x、线段CD长度为4x、线段Df长度为6x、线段df长度为3x、线段Bd长度为x。通过比较各线段长度,可确定最短距离为x。
步骤205、将最短距离的四分之一作为网格的边长,根据该长度确定正方形的网格划分单元。
在上例中,将最短距离x的四分之一作为网格划分单元的边长,网格边长为1/4x,构建边长为1/4x的正方形的网格划分单元。图3中示出了在顶点A、顶点B、交点d和交点b确定的区域中按照1/4x进行划分的示意图,其他区域以此类推。
步骤206、使用正方形的网格划分单元对待测试表格进行划分。
步骤207、将待识别表格的各交点填入对应的网格。
根据每个网格划分单元占用的坐标区域以及交点的坐标,可确定交点所在的网格。示例性的,顶点A所在网格为网格A’、顶点B所在网格为网格B’、顶点C所在网格为网格C’、顶点D所在网格为网格D’、 交点a所在网格为网格a’、 交点b所在网格为网格b’、交点c所在网格为网格c’、 交点d所在网格为网格d’、 交点e所在网格为网格e’、 交点f所在网格为网格f’。
步骤208、找到先验交点所在的目标网格。
在上例中,假设先验交点为交点b、交点d、交点e和交点f。则目标网格分比为网格b’、网格d’、网格e’和网格f’。
步骤209、针对先验交点所在的目标网格以及相邻网格统计同行、同列中的交点数量。
下面以先验交点b为例进行说明,其余交点可以按照相同方式进行处理。假设网格b’所在的行为m行,则统计m行、m+1行和m-1行存在交点的网格数量,将网格数量确定为交点数量。统计出的与网格b’同行的交点数量为3个。假设网格b’所在的列为n列,则统计n列、n+1列和n-1列存在交点的网格数量,将网格数量确定为交点数量。统计出的与网格b’同列的交点数量为4个。
步骤210、判断交点数量是否大于阈值。如果交点数量大于阈值,执行步骤211。如果交点数量小于阈值,执行步骤212。
在上述示例中,阈值可以为2。根据适用表格的不同,阈值可以根据使用需求进行调整。可选的,交点数量大于等于2,以保证先验交点所在的行或列中至少存在两个交点,已形成一个线段。
步骤211、如果交点数量大于阈值,则存在过该先验交点的相应表格线段,保留该表格线段。执行步骤213。
如果交点数量大于阈值,则说明过该先验交点的相应表格线段上存在足够的交点,进而保存该该表格线段。例如,保存过先验交点b的线段bd以及线段AC。
步骤212、如果交点数量小于阈值,则该交点为误差点,舍弃该先验交点。执行步骤213。
步骤213、判断是否遍历所有先验交点。如果是,执行步骤214。如果否,返回执行步骤209。
步骤214、如果是,则将保留的线连接成表格,提取各表格中的内容。
本申请实施例提供了一种对矩形待识别表格进行表格识别的技术方案,基于先验交点所在的目标网格及其相邻网格所在行或列包含的交点数,能够判定是否存在经过该先验交点的线。现实中的表格(尤其是扫描件)几乎不存在严格意义上的水平/竖直线,一般均会存在一定扭曲,因此采用网格形式量化地定义在何种范围内寻找一条水平/竖直线增加了算法的鲁棒性,与此同时对规则仍有量化的掌控(如调整划分单元的大小等)。此外,采取网格的形式可以用常数时间找出同行/同列的所有网格,提高了寻找交点的效率。
实施例三
图4为本申请实施例三提供的表格识别装置的结构示意图,该装置可以位于识别图像的电子设备中,电子设备可以为个人电脑、平板电脑或智能手机等,该装置包括:交点提取模块310、网格划分模块320、目标网格交点统计模块330以及目标表格生成模块340。其中:
交点提取模块310,用于提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
网格划分模块320,用于根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
目标网格交点统计模块330,用于查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
目标表格生成模块340,用于根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
进一步的,交点提取模块310用于:
提取待识别表格中第一方向的线段和第二方向的线段;
将第一方向的线段和第二方向的线段进行与操作,确定交点。
进一步的,交点提取模块310用于:
根据交点的位置信息确定待识别表格的四个顶点;
根据四个顶点的位置信息对交点和顶点进行透视变换,透视变换用于将顶点和交点的分布校正为预设几何图形的坐标关系。
进一步的,网格划分模块320用于:
分别获取待识别表格的各表格边上的交点;
分别计算各表格边上交点之间的最短距离;
根据最短距离确定网格的尺寸。
进一步的,网格划分模块320用于:
根据最短距离的预设倍数确定网格的尺寸,预设倍数小于二分之一。
进一步的,目标网格交点统计模块330用于:
统计目标网格在目标方向上包含的网格中的第一交点数量;
在目标方向的相交方向获取目标网格在预设距离内的相邻网格,分别统计相邻网格在目标方向上包含的网格中的第二交点数量;
根据第一交点数量和第二交点数量的总和确定目标交点数量。
进一步的,目标表格生成模块340用于:
如果目标交点数量大于等于阈值,则保留目标网格在目标方向线段;
如果目标交点数量小于阈值,则取消保留目标网格在目标方向线段。
本申请实施例提供的表格识别装置,交点提取模块310提取待识别表格包含的交点,网格划分模块320根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;目标网格交点统计模块330查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量;目标表格生成模块340根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。目前相关技术缺乏对表格本体的识别步骤,因此容易出现识别误差。本申请实施例提供的装置能够在提取待识别表格包含的交点后,根据表格边上交点之间的距离,合理的对待识别表格进行划分。根据先验交点所在的目标网格,以及目标网格的相邻网格,统计在目标方向上网格内交点数量。因此若表格倾斜,则表格线段上的交点可能出现在相邻网格在目标方向对应的网格中,进而识别具有一定倾斜度的表格线段。根据交点数量确定目标网格在目标方向上是否存在线段,进而准确的识别出待识别表格中先验交点关联的表格线段,提高表格识别鲁棒性。此外,本申请实施例对交点进行识别和统计,能够快速且低成本的实现准确识别表格。
上述装置可执行本申请前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请前述所有实施例所提供的方法。值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
实施例四
图5是本申请实施例提供的一种电子设备的结构示意图,如图5所示,该计算机设备包括处理器40、存储器41、输入装置42和输出装置43;计算机设备中处理器40的数量可以是一个或多个,图5中以一个处理器40为例;计算机设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的表格识别方法对应的程序指令/模块。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的表格识别方法。该方法包括:
提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
进一步的,提取待识别表格包含的交点,包括:
提取待识别表格中第一方向的线段和第二方向的线段;
将第一方向的线段和第二方向的线段进行与操作,确定交点。
进一步的,在提取待识别表格包含的交点之后,还包括:
根据交点的位置信息确定待识别表格的四个顶点;
根据四个顶点的位置信息对交点和顶点进行透视变换,透视变换用于将顶点和交点的分布校正为预设几何图形的坐标关系。
进一步的,根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,包括:
分别获取待识别表格的各表格边上的交点;
分别计算各表格边上交点之间的最短距离;
根据最短距离确定网格的尺寸。
进一步的,根据最短距离确定网格的尺寸,包括:
根据最短距离的预设倍数确定网格的尺寸,预设倍数小于二分之一。
进一步的,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,包括:
统计目标网格在目标方向上包含的网格中的第一交点数量;
在目标方向的相交方向获取目标网格在预设距离内的相邻网格,分别统计相邻网格在目标方向上包含的网格中的第二交点数量;
根据第一交点数量和第二交点数量的总和确定目标交点数量。
进一步的,根据目标交点数量确定是否保留目标网格在目标方向线段,包括:
如果目标交点数量大于等于阈值,则保留目标网格在目标方向线段;
如果目标交点数量小于阈值,则取消保留目标网格在目标方向线段。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序在由计算机处理器执行时用于执行一种表格识别方法。该方法包括:
提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;
根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据网格对待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
查找先验交点所在的目标网格,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,先验交点为预设待识别区域的区域顶点,目标方向包括第一方向或第二方向;
根据目标交点数量确定是否保留目标网格在目标方向线段;根据保留的目标方向线段生成目标表格。
进一步的,提取待识别表格包含的交点,包括:
提取待识别表格中第一方向的线段和第二方向的线段;
将第一方向的线段和第二方向的线段进行与操作,确定交点。
进一步的,在提取待识别表格包含的交点之后,还包括:
根据交点的位置信息确定待识别表格的四个顶点;
根据四个顶点的位置信息对交点和顶点进行透视变换,透视变换用于将顶点和交点的分布校正为预设几何图形的坐标关系。
进一步的,根据待识别表格的表格边上的交点之间的距离确定网格的尺寸,包括:
分别获取待识别表格的各表格边上的交点;
分别计算各表格边上交点之间的最短距离;
根据最短距离确定网格的尺寸。
进一步的,根据最短距离确定网格的尺寸,包括:
根据最短距离的预设倍数确定网格的尺寸,预设倍数小于二分之一。
进一步的,统计目标网格以及目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,包括:
统计目标网格在目标方向上包含的网格中的第一交点数量;
在目标方向的相交方向获取目标网格在预设距离内的相邻网格,分别统计相邻网格在目标方向上包含的网格中的第二交点数量;
根据第一交点数量和第二交点数量的总和确定目标交点数量。
进一步的,根据目标交点数量确定是否保留目标网格在目标方向线段,包括:
如果目标交点数量大于等于阈值,则保留目标网格在目标方向线段;
如果目标交点数量小于阈值,则取消保留目标网格在目标方向线段。
当然,本申请实施例所提供的存储有计算机程序的计算机可读存储介质,其计算机程序不限于如上的方法操作,还可以执行本申请任意实施例所提供的表格识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种表格识别方法,其特征在于,包括:
提取待识别表格包含的交点,所述待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,所述交点为第一方向的线段与第二方向的线段相交的点;
根据所述待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据所述网格对所述待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
查找先验交点所在的目标网格,统计所述目标网格以及所述目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,所述先验交点为预设待识别区域的区域顶点,所述目标方向包括所述第一方向或所述第二方向;
根据所述目标交点数量确定是否保留所述目标网格在所述目标方向线段;根据保留的目标方向线段生成目标表格。
2.根据权利要求1所述的表格识别方法,其特征在于,所述提取待识别表格包含的交点,包括:
提取待识别表格中第一方向的线段和第二方向的线段;
将所述第一方向的线段和所述第二方向的线段进行与操作,确定交点。
3.根据权利要求1所述的表格识别方法,其特征在于,在提取待识别表格包含的交点之后,还包括:
根据所述交点的位置信息确定所述待识别表格的四个顶点;
根据所述四个顶点的位置信息对所述交点和所述四个顶点进行透视变换,所述透视变换用于将所述四个顶点和所述交点的分布校正为预设几何图形的坐标关系。
4.根据权利要求1所述的表格识别方法,其特征在于,所述根据所述待识别表格的表格边上的交点之间的距离确定网格的尺寸,包括:
分别获取所述待识别表格的各表格边上的交点;
分别计算各表格边上交点之间的最短距离;
根据所述最短距离确定网格的尺寸。
5.根据权利要求4述的表格识别方法,其特征在于,所述根据所述最短距离确定网格的尺寸,包括:
根据所述最短距离的预设倍数确定网格的尺寸,所述预设倍数小于二分之一。
6.根据权利要求1所述的表格识别方法,其特征在于,所述统计所述目标网格以及所述目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,包括:
统计所述目标网格在目标方向上包含的网格中的第一交点数量;
在目标方向的相交方向获取所述目标网格在预设距离内的相邻网格,分别统计所述相邻网格在所述目标方向上包含的网格中的第二交点数量;
根据第一交点数量和第二交点数量的总和确定目标交点数量。
7.根据权利要求1所述的表格识别方法,其特征在于,根据所述目标交点数量确定是否保留所述目标网格在所述目标方向线段,包括:
如果所述目标交点数量大于等于阈值,则保留所述目标网格在所述目标方向线段;
如果所述目标交点数量小于阈值,则取消保留所述目标网格在所述目标方向线段。
8.一种表格识别装置,其特征在于,包括:
交点提取模块,用于提取待识别表格包含的交点,所述待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,所述交点为第一方向的线段与第二方向的线段相交的点;
网格划分模块,用于根据所述待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据所述网格对所述待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
目标网格交点统计模块,用于查找先验交点所在的目标网格,统计所述目标网格以及所述目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,所述先验交点为预设待识别区域的区域顶点,所述目标方向包括所述第一方向或所述第二方向;
目标表格生成模块,用于根据所述目标交点数量确定是否保留所述目标网格在所述目标方向线段;根据保留的目标方向线段生成目标表格。
9.一种电子设备,包括通用寄存器、存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的表格识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的表格识别方法。
CN202010522622.6A 2020-06-10 2020-06-10 表格识别方法、装置、电子设备、存储介质 Active CN111428700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010522622.6A CN111428700B (zh) 2020-06-10 2020-06-10 表格识别方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010522622.6A CN111428700B (zh) 2020-06-10 2020-06-10 表格识别方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111428700A CN111428700A (zh) 2020-07-17
CN111428700B true CN111428700B (zh) 2020-10-27

Family

ID=71551327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010522622.6A Active CN111428700B (zh) 2020-06-10 2020-06-10 表格识别方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111428700B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541435B (zh) * 2020-12-14 2023-03-28 贝壳技术有限公司 一种图像处理的方法、装置和存储介质
CN113688684B (zh) * 2021-07-26 2022-04-05 国网电商科技有限公司 一种基于聚类的表格重构方法及系统
CN116580415B (zh) * 2023-05-17 2023-11-28 深圳市四方智源科技有限公司 电子表格识别方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583841B2 (en) * 2005-12-21 2009-09-01 Microsoft Corporation Table detection in ink notes
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN111428700A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428700B (zh) 表格识别方法、装置、电子设备、存储介质
CN109657629B (zh) 一种文本行提取方法及装置
CN111325110B (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN101908136B (zh) 一种表格识别处理方法及系统
RU2412482C2 (ru) Способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое преобразование изображения на основании поиска текстовых строк
JP4395188B2 (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN113283355A (zh) 一种表格图像的识别方法、装置、计算机设备及存储介质
CN112149561A (zh) 图像处理方法和装置、电子设备和存储介质
CN110909816B (zh) 图片识别方法和装置
CN112507938A (zh) 一种文本图元的几何特征计算方法及识别方法、装置
CN110928441B (zh) 一种触摸物识别方法、系统、终端设备及存储介质
CN109871517B (zh) 文字块排序方法、装置、存储介质及电子设备
CN110956087A (zh) 一种图片中表格的识别方法、装置、可读介质和电子设备
CN113269153B (zh) 一种表格识别方法以及装置
CN113343797A (zh) 信息提取方法、装置、终端设备及计算机可读存储介质
CN114529922A (zh) 一种无线框表格图像表格结构识别方法
JP4418726B2 (ja) 文字列探索装置、探索方法およびこの方法のプログラム
CN112528761B (zh) 图像中特定目标提取方法、系统、电子设备及存储介质
KR20150047060A (ko) 명함 이미지 여부를 판별하는 장치 및 방법
CN114943973A (zh) 一种文本校正方法、装置、计算机设备及存储介质
CN113392811B (zh) 一种表格提取方法、装置、电子设备及存储介质
CN115063613B (zh) 一种验证商品标签的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant