CN116612487A - 表格识别方法、装置、电子设备及存储介质 - Google Patents

表格识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116612487A
CN116612487A CN202310899528.6A CN202310899528A CN116612487A CN 116612487 A CN116612487 A CN 116612487A CN 202310899528 A CN202310899528 A CN 202310899528A CN 116612487 A CN116612487 A CN 116612487A
Authority
CN
China
Prior art keywords
cells
original
cell
determining
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310899528.6A
Other languages
English (en)
Other versions
CN116612487B (zh
Inventor
王怀照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technology Nanjing Co ltd
Original Assignee
Asiainfo Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technology Nanjing Co ltd filed Critical Asiainfo Technology Nanjing Co ltd
Priority to CN202310899528.6A priority Critical patent/CN116612487B/zh
Publication of CN116612487A publication Critical patent/CN116612487A/zh
Application granted granted Critical
Publication of CN116612487B publication Critical patent/CN116612487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种表格识别方法、装置、电子设备及存储介质,涉及图像处理领域。该方法包括:确定待处理图像中的原始单元格;在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;确定每个细分单元格与原始单元格的面积重叠参数;根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格;对目标单元格进行文字识别操作。采用本公开实施例,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,提高了对原始单元格的格式复原概率,实现了对待处理图像中结构复杂的表格的识别准确性。

Description

表格识别方法、装置、电子设备及存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种表格识别方法、装置、电子设备及存储介质。
背景技术
在图像识别领域,可能会涉及到对图像中的文字、图形、表格等的识别。
相关技术中,在对表格进行识别时,通常会采用目标检测算法对图像中的表格进行定位,采用表格线识别算法,对定位得到的表格中的表格线进行识别,进一步根据识别得到的表格向对定位得到的表格进行结构分解,识别出表格中的单元格,并各单元格进行文字识别。
但采用该方式,所识别的各单元格的边缘线段可能会存在漏线、错线、重线等情况,导致最终对图像中的单元格识别不准确。
发明内容
本公开实施例提供了一种表格识别方法,以解决相关技术中,对图像中的单元格识别不准确的问题。
相应的,本公开实施例还提供了一种表格识别装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。
一方面,本公开实施例提供一种表格识别方法,该方法包括:
确定待处理图像中的原始单元格;
在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;
确定每个细分单元格与原始单元格的面积重叠参数;
根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格;
对目标单元格进行文字识别操作。
另一方面,本公开实施例提供了一种表格识别装置,该装置包括:
原始单元格确定模块,用于确定待处理图像中的原始单元格;
延长操作处理模块,用于在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;
面积重叠参数确定模块,用于确定每个细分单元格与原始单元格的面积重叠参数;
单元格合并模块,用于根据所述面积重叠参数,对细分单元格进行合并操作,得到目标单元格;
文字识别模块,用于对目标单元格进行文字识别操作。
另一方面,本公开实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
上述存储器用于存储计算机程序;
上述处理器被配置用于在调用上述计算机程序时,执行本公开实施例提供的表格识别方法。
另一方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本公开实施例提供的表格识别方法。
在本公开实施例中,通过对原始单元格的边框线段进行延长操作,将延长操作后的原始单元格在待处理图像上占据的单元格确定为细分单元格,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,避免所识别的单元格存在漏线、错线、重线等情况;再确定并细分单元格和原始单元格的包含关系,对细分单元格进行合并,得到目标单元格,提高了对原始单元格的格式复原概率。并进一步将目标单元格进行文字识别操作,实现了对待处理图像中结构复杂的表格的识别准确性。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开实施例提供的表格识别方法的流程示意图;
图2a示出了本公开实施例提供的表格识别方法的场景示意图之一;
图2b示出了本公开实施例提供的表格识别方法的场景示意图之二;
图2c示出了本公开实施例提供的表格识别方法的场景示意图之三;
图2d示出了本公开实施例提供的表格识别方法的场景示意图之四;
图2e示出了本公开实施例提供的表格识别方法的场景示意图之五;
图2f示出了本公开实施例提供的表格识别方法的场景示意图之六;
图2g示出了本公开实施例提供的表格识别方法的场景示意图之七;
图2h示出了本公开实施例提供的表格识别方法的场景示意图之六;
图2i示出了本公开实施例提供的表格识别方法的场景示意图之七;
图2j示出了本公开实施例提供的表格识别方法的场景示意图之六;
图2k示出了本公开实施例提供的表格识别方法的场景示意图之七;
图3示出了本公开实施例提供的表格识别方法的场景示意图之八;
图4示出了本公开实施例提供的表格识别方法的场景示意图之九;
图5a示出了本公开实施例提供的表格识别方法的场景示意图之十;
图5b示出了本公开实施例提供的表格识别方法的场景示意图之十一;
图6示出了本公开实施例提供的表格识别装置的结构示意图;
图7示出了本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对前述技术问题,本公开实施例提供了一种表格识别方法,该方法可以通过任一终端或服务器执行,本公开实施例对此不做限制。
可选地,终端可以为具有图像采集功能的电子设备,例如,电脑、pad、手机、扫描仪或数码相机等。服务器可以为本地服务器或云服务器等。其中,在通过服务器执行该方法时,可以预先接收待处理图像,并对待处理图像进行文字识别。
具体地,如图1所示,该方法包括:
步骤S110:确定待处理图像中的原始单元格。
在该实现方式中,可以基于任一种单元格检测方式,确定待处理图像中的原始单元格,在此不做具体限制。
作为一个示例,可以通过目标检测算法(例如,yolo深度学习算法),定位出待处理图像中表格的位置(例如,表格的左上顶点和右下顶点的坐标),并采用表格线检测算法(例如,传统CV(computer version,计算机视觉技术)图像处理算法或者图像分割深度学习算法),检测表格中的表格线,再基于表格线的方向,将表格线分类为表格横线和表格竖线,并基于表格横线与表格竖线的交叉点、表格横线和表格竖线,对表格进行结构分解,得到原始单元格。
作为一个示例,可以通过对图2a示出的第一待处理图像20进行识别,确定出图2b示出的第一原始单元格21。
可以理解的是,随着表格格式的多样性发展,所识别到的原始单元格可以是不同形状的单元格,例如,单元格的形状可以为矩形、三角形、圆形等,本公开实施例对此不做限制。对应地,原始单元格的边框线段可以为直线段、曲线段、弧线段、折线段等,本公开实施例对此不做限制。
在本公开实施例中,以原始单元格的形状为矩形、原始单元格的边框线段(在下文中,可以简称为线段)为直线段为例,对该表格识别方法进行说明。
步骤S120:在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格。
在对原始单元格的边框线段进行延长操作时,可以根据指定方向,分别对原始单元格中处于该指定方向的边框线段进行延长操作,直至实现对所识别到的所有原始单元格的边框线段的延长操作。
其中,在本公开实施例中,在原始单元格的边框线段包括处于不同方向的边框线段时,在不同方向下,对原始单元格执行延长操作的操作顺序不做限制。
例如,在原始单元格的形状为矩形的情况下,指定方向可以包括水平方向或竖直方向,对应的,可以先对原始单元格的边框线段执行水平方向的延长操作,使得水平方向相邻的不同单元格之间的水平边框线段连接起来,再执行竖直方向的延长操作,使得竖直方向相邻的不同单元格之间的竖直边框线段连接起来;也可以先对原始单元格的边框线段执行竖直方向的延长操作,再执行水平方向的延长操作;也可以同时对原始单元格的边框线段执行水平方向和竖直方向的延长操作。
作为一个示例,以对图2b示出的表格中的第一原始单元格21进行处理为例,可以先在水平方向下,对图2b示出的表格中的第一原始单元格21的水平方向的水平边框线段进行水平方向的延长操作,得到图2c出的表格,通过该操作,可以将第一原始单元格21划分为至少一个第一细分单元格211;再在竖直方向下,对图2c示出的表格中的第一原始单元格21的竖直方向的竖直边框线段进行竖直方向的延长操作,得到图2d示出的表格,即对第一原始单元格21中所有边框线段进行延长操作后的表格,通过该操作,可以将第一原始单元格21或第一细分单元格211划分为至少一个第二细分单元格212。
图2e为图2b中A处的局部放大图,图2f为图2c中A’处的局部放大图,A’处与A处相对应,在对图2e中A处的水平边框线段201进行水平方向的延长操作后,可以通过第一线段202将A处的相邻的不同单元格之间的水平边框线段201连接在一起,得到图2f。
图2g为图2c中B处的局部放大图,图2h为图2d中B’处的局部放大图,B’处与B处相对应,以对图2g中B处的竖直边框线段203进行竖直方向的延长操作为例,可以通过第二线段204将B处的相邻的不同单元格之间的竖直边框线段203连接在一起,得到图2h。
在本公开实施例中,在得到对原始单元格的边框线段进行延长操作的表格后,可以将原始单元格和进行延长操作后的表格中的单元格中相同区域的单元格,即延长操作后的原始单元格在待处理图像上占据的单元格,作为细分单元格。
可选地,为了更清晰地确定出细分单元格,在对原始单元格的边框线段进行延长操作后,还可以基于各边框线段的延长线,对各边框线段的延长线之间的间隙(即原始单元格中除进行延长操作后的表格中的单元格之外的区域)进行填充,并将填充后的单元格作为细分单元格。可选地,可以采用溶蚀膨胀法,对各边框线段之间的间隙进行填充,以更清晰的得到细分单元格,提高所确定的细分单元格的鲁棒性。
作为一个示例,在对图2d示出的表格中各边框线段的延长线形成之间的间隙(其中,如图2d所示,间隙可以具体包括水平方向的第一水平间隙2051和竖直方向的第一竖直间隙2061)进行填充后,可以得到图2i示出的表格(如图2i所示,第二水平间隙2052是对图2d中的第一水平间隙2051填充后得到的,第二竖直间隙2062是对图2d中的第一竖直间隙2061填充后得到的),在图2i中包括多个第二细分单元格212。
步骤S130:确定每个细分单元格与原始单元格的面积重叠参数。
在该实现方式中,可以根据细分单元格中各顶点的位置信息,以及原始单元格中各顶点的位置信息,确定出细分单元格与原始单元格的重叠区域,再将该重叠区域的面积与细分单元格的面积比例确定为面积重叠参数。
可选地,单元格中顶点的位置信息可以根据各顶点在待处理图像中的像素点的二维坐标确定。
其中,可以根据细分单元格的形状,确定细分单元格的面积函数,并进一步根据细分单元格中各顶点的位置信息以及细分单元格的面积函数,计算细分单元格的面积。同样的,可以根据重叠区域的形状,确定重叠区域的面积函数,并进一步以及重叠区域中各顶点的位置信息以及重叠区域的面积函数,计算重叠区域的面积。
步骤S140:根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格。
可选地,可以在面积重叠函数大于重叠阈值的情况下,确定细分单元格包含于原始单元格中,即该细分单元格在待处理图像上占据的单元格在原始单元格内。并对包含于同一原始单元格的细分单元格进行合并操作,得到目标单元格,即对原始单元格修正后的单元格。
步骤S150:对目标单元格进行文字识别操作。
可选地,可以采用OCR(Optical Character Recognition,光学字符识别)技术,对待处理图像中的目标单元格所在区域进行文字识别操作,并将所识别到的文字,确定为该目标单元格对应的文字。
其中,OCR是指通过电子设备检查纸上打印的字符上打印的字符,基于字符检测过程中出现的暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
在本公开实施例中,通过对原始单元格的边框线段进行延长操作,将延长操作后的原始单元格在待处理图像上占据的单元格确定为细分单元格,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,避免所识别的单元格存在漏线、错线、重线等情况;再确定并细分单元格和原始单元格的包含关系,对细分单元格进行合并,得到目标单元格,提高了对原始单元格的格式复原概率。并进一步将目标单元格进行文字识别操作,实现了对待处理图像中结构复杂的表格的识别准确性。
可选地,上述根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格,可以包括:
确定与原始单元格的面积重叠参数大于或等于第一预设阈值的目标细分单元格;
对各目标细分单元格进行合并操作,得到目标单元格。
可选地,可以在确定每个细分单元格与原始单元格/>的面积重叠参数后,根据以下方式判断细分单元格/>是否包含于原始单元格/>
其中,表示重叠区域的面积函数;/>表示细分单元格的面积函数,表示面积重叠参数,/>表示重叠阈值。即在面积重叠参数大于该重叠阈值的情况下,可以确定细分单元格/>归属于原始单元格/>
作为一个示例,通过对图2i示出的表格中的第二水平间隙2052和第二竖直间隙2062进行消除,并采用上述确定细分单元格和原始单元格之间的归属关系的方式,通过同一填充图案,对归属于同一第一原始单元格21且相邻的第二细分单元格212进行填充后,可以得到图2j示出的表格,在图2j中,同一第一原始单元格21(即图2j中虚线框所示)内包括多个相邻的第二细分单元格212。作为一个示例,如图2j所示,通过左斜线填充图案填充的两个第二细分单元格212归属于同一第一原始单元格21。通过上述合并方式,作为一个示例,在对图2j中通过左斜线填充图案填充的两个第二细分单元格212进行合并后,可以得到图2k示出的第一目标单元格22。
在本公开实施例中,通过对包含于同一原始单元格的细分单元格进行合并操作,可以精确的检测到目标单元格,避免由于所识别的单元格线存在漏线、错线、重线等情况,导致无法准确的识别单元格的情况发生。
可选地,上述对原始单元格的边框线段进行延长操作,可以包括:
采用单元格聚类算法,对原始单元格进行聚类,确定待处理图像中的原始表格;
其中,在原始表格中,原始单元格之间的间距小于或等于第二预设阈值;
对原始表格中的原始单元格的边框线段进行延长操作。
可选地,在待处理图像中,可能存在多个表格,为了避免多个表格之间出现重叠的情况发生,可以基于本公开实施例提供的单元格聚类算法,对同一表格中的单元格进行聚类。
在本公开实施例中,第二预设阈值可以为经验值或实验值,可以根据实际情况进行设置,在此不做限制。
可选地,在确定出待处理图像中的原始表格后,可以基于各原始表格中的原始单元格的形状,确定对不同的表格中的原始单元格的边框线段进行延长操作的方向顺序等。
在本公开实施例中,通过将间距小于或等于第二预设阈值的原始单元格聚类为同一原始表格,可以提高对待处理图像中不同表格的识别准确率。进一步的,对原始表格中的原始单元格的边框线段进行延长操作,便于基于不同表格中的原始单元格的边框线段类型进行后续操作。
可选地,上述采用单元格聚类算法,对原始单元格进行聚类,可以包括:
确定任意两个原始单元格之间的间距;
在上述间距小于或等于上述第二预设阈值的情况下,将上述任意两个原始单元格聚类为同一原始表格中的单元格。
在该实现方式,可以预先确定出同一原始表格中处于同一方向的原始单元格,再确定同一方向的任意两个原始单元格之间的间距。例如,在原始单元格为矩形的情况下,可以在水平方向的原始单元格或竖直方向的原始单元格后,再确定任意两个水平方向的原始单元格之间的间距,或者,确定任意两个竖直方向的原始单元格之间的间距。
可以理解的是,本公开实施例提供的确定任意两个原始单元格之间的间距的方式,也可以适用于对任意两个单元格之间的间距确定过程中。
可选地,上述确定任意两个原始单元格之间的间距,可以包括:
确定原始单元格的边框线段在目标方向下的第一距离;
确定任意两个原始单元格的任意两条边框线段在目标方向下的第二距离;
根据第一距离和第二距离,确定上述间距。
目标方向可以基于原始单元格的形状确定。例如,在原始单元格为矩形的情况下,目标方向可以为水平方向或竖直方向。
可选地,上述确定原始单元格的边框线段在目标方向下的第一距离,可以包括:
确定原始单元格中在目标方向的垂直方向下的两条目标边框线段;
根据原始单元格的顶点位置信息,分别确定两条目标边框线段中的一条目标边框线段中的每个第一端点到另一条目标线段的第三距离;
根据每个第一端点对应的第三距离的平均值,确定第一距离。
在原始单元格为矩形,且目标方向为水平方向的情况下,该原始单元格的目标边框线段即该原始单元格中处于竖直方向的边框线段(以下可以简称为竖线)。
作为一个示例,如图3所示,在目标方向为水平方向的情况下,原始单元格(单元格1)中的两条目标边框线段可以为/>(线段p)和/>(线段q)。其中,/>可以分别为该原始单元格/>的四个顶点对应的位置信息。
以计算到/>的间隔(/>)为例,第一距离的确定方式可以为:
其中,表示/>对应的顶点到/>的距离,/>表示/>对应的顶点到/>的距离,/>表示绝对值函数,/>表示向量叉积函数,/>表示向量长度函数。
在本公开实施例中,可以参照计算第一距离的方式,计算第二距离,在此不做赘述。
可选地,上述根据第一距离和第二距离,确定上述间距,可以包括:
确定第二距离中的最大距离;
在上述最大距离的基础上,减去上述任意两个原始单元格中每个原始单元格对应的第一距离,得到上述间距。
第二距离中的最大距离,可以为两个表格中最外侧的两条边框线段之间的距离。
作为一个示例,如图4所示,在目标方向为水平方向的情况下,原始单元格中的两条目标边框线段(即竖线)可以为/>和/>,原始单元格/>(单元格2)中的两条目标边框线段可以为/>(线段m)和/>(线段n)。第二距离可以为/>的距离、/>至/>的距离、/>至/>的距离或/>至/>的距离,最大距离可以为/>至/>的距离。
原始单元格和原始单元格/>之间在水平方向下的间距可以为:
其中,表示原始单元格/>和原始单元格/>之间的第二距离形成的集合,/>表示原始单元格/>的两条竖线之间的第一距离,表示原始单元格/>的两条竖线之间的第一距离。
在确定出任意两个原始单元格之间的间距之后,可以在该间距小于第二预设阈值的情况下,将这任意两个原始单元格聚类为同一原始表格中的单元格。
以图4示出的两个原始单元格和原始单元格/>为例,可以在满足以下条件的情况下,将原始单元格/>和原始单元格/>聚类为同一原始表格中的单元格。
其中,表示第二预设阈值。
在本申请实施例中,通过对待处理图像中的原始单元格进行识别,得到目标单元格时,可以将原始单元格所属的表格称为原始表格,将目标单元格所属的表格称为目标表格。
作为一个示例,如图5a所示,在该第二待处理图像50中包括两个原始表格,为了区分,在图5a中,分别用第一原始表格a1和第二原始表格b1表示所述两个原始表格。且如图5a所示,第一原始表格a1中包括多个第二原始单元格501,第二原始表格b1中包括多个第三原始单元格502。
通过根据本申请实施例提供的方法,在确定出第二待处理图像50中的第二原始单元格501和第三原始单元格502之后,可以将第二原始单元格501和第三原始单元格502进行聚类,确定出第二原始单元格501属于第一原始表格a1,第三原始单元格502属于第二原始表格b1;再对属于同一原始表格的原始单元格进行边框线段的延长操作、确定面积重叠参数等操作,确定出对第二原始单元格501进行处理后的第二目标单元格503(如图5b所示),对第三原始单元格502进行处理后的第三目标单元格504(如图5b所示)。进而,分别根据第二原始单元格501在第一原始表格a1中的相对位置,将所有第二目标单元格503聚类为第二目标表格a2(如图5b所示);分别根据第三原始单元格502在第二原始表格b1中的相对位置,将所有第三目标单元格504聚类为第三目标表格b2(如图5b所示)。
需要说明的是,在图5b中仅为所识别到的未填充文字的表格,在得到图5b所示出的第二目标表格a2和第三目标表格b2之后,可以对第二原始单元格501进行文字识别操作,并将所识别到的文字填充至该第二原始单元格501进行处理后的第二目标单元格503中;以及,对第三原始单元格502进行文字识别操作,并将所识别到的文字填充至该第三原始单元格502进行处理后的第三目标单元格504中。
在本公开实施例中,通过将间距小于或等于第二预设阈值的原始单元格聚类为同一原始表格,可以提高对待处理图像中不同表格的识别准确率。
基于与本公开实施例提供的表格识别方法相同的原理,本公开实施例中还提供了一种表格识别装置。如图6所示,该表格识别装置60包括:
原始单元格确定模块601,用于确定待处理图像中的原始单元格;
延长操作处理模块602,用于在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;
面积重叠参数确定模块603,用于确定每个细分单元格与原始单元格的面积重叠参数;
单元格合并模块604,用于根据所述面积重叠参数,对细分单元格进行合并操作,得到目标单元格;
文字识别模块605,用于对目标单元格进行文字识别操作。
可选地,上述单元格合并模块604在根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格时,可以具体用于:
确定与原始单元格的面积重叠参数大于或等于第一预设阈值的目标细分单元格;
对各目标细分单元格进行合并操作,得到目标单元格。
可选地,上述延长操作处理模块602在对原始单元格的边框线段进行延长操作时,可以具体用于:
采用单元格聚类算法,对原始单元格进行聚类,确定待处理图像中的原始表格;
其中,在原始表格中,原始单元格之间的间距小于或等于第二预设阈值;
对原始表格中的原始单元格的边框线段进行延长操作。
可选地,上述延长操作处理模块602在采用单元格聚类算法,对原始单元格进行聚类时,可以具体用于:
确定任意两个原始单元格之间的间距;
在上述间距小于或等于上述第二预设阈值的情况下,将上述任意两个原始单元格聚类为同一原始表格中的单元格。
可选地,上述延长操作处理模块602在确定任意两个原始单元格之间的间距时,可以具体用于:
确定原始单元格的边框线段在目标方向下的第一距离;
确定任意两个原始单元格的任意两条边框线段在目标方向下的第二距离;
根据第一距离和第二距离,确定上述间距。
可选地,上述延长操作处理模块602在确定原始单元格的边框线段在目标方向下的第一距离时,可以具体用于:
确定原始单元格中在目标方向的垂直方向下的两条目标边框线段;
根据原始单元格的顶点位置信息,分别确定两条目标边框线段中的一条目标边框线段中的每个第一端点到另一条目标线段的第三距离;
根据每个第一端点对应的第三距离的平均值,确定第一距离。
可选地,上述延长操作处理模块602在根据第一距离和第二距离,确定上述间距时,可以具体用于:
确定第二距离中的最大距离;
在上述最大距离的基础上,减去上述任意两个原始单元格中每个原始单元格对应的第一距离,得到上述间距。
本公开实施例的装置可执行本公开实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
在本公开实施例中,通过对原始单元格的边框线段进行延长操作,将延长操作后的原始单元格在待处理图像上占据的单元格确定为细分单元格,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,避免所识别的单元格存在漏线、错线、重线等情况;再确定并细分单元格和原始单元格的包含关系,对细分单元格进行合并,得到目标单元格,提高了对原始单元格的格式复原概率。并进一步将目标单元格进行文字识别操作,实现了对待处理图像中结构复杂的表格的识别准确性。
基于与本公开实施例提供的表格识别方法及装置相同的原理,本公开实施例中还提供了一种电子设备(如服务器),该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现:
确定待处理图像中的原始单元格;
在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;
确定每个细分单元格与原始单元格的面积重叠参数;
根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格;
对目标单元格进行文字识别操作。
在本公开实施例中,通过对原始单元格的边框线段进行延长操作,将延长操作后的原始单元格在待处理图像上占据的单元格确定为细分单元格,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,避免所识别的单元格存在漏线、错线、重线等情况;再确定并细分单元格和原始单元格的包含关系,对细分单元格进行合并,得到目标单元格,提高了对原始单元格的格式复原概率。并进一步将目标单元格进行文字识别操作,实现了对待处理图像中结构复杂的表格的识别准确性。
参见图7,图7示出了本公开实施例提供的一种电子设备的结构示意图。如图7所示,本实施例中的电子设备700可以包括:处理器701,网络接口704和存储器705,此外,上述电子设备700还可以包括:对象接口703,和至少一个通信总线702。其中,通信总线702用于实现这些组件之间的连接通信。其中,对象接口703可以包括显示屏(Display)、键盘(Keyboard),可选对象接口703还可以包括标准的有线接口、无线接口。网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器705可以是高速RAM存储器,也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示,作为一种计算机可读存储介质的存储器705中可以包括操作系统、网络通信模块、对象接口模块以及设备控制应用程序。
在图7所示的电子设备700中,网络接口704可提供网络通讯功能;而对象接口703主要用于为对象提供输入的接口;而处理器701可以用于调用存储器705中存储的设备控制应用程序,以实现:
在一些可行的实施方式中,上述处理器701用于:
应当理解,在一些可行的实施方式中,上述处理器701可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述电子设备700可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的表格识别装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart mediacard, SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本公开实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行图1中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
此外,本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种表格识别方法,其特征在于,所述方法包括:
确定待处理图像中的原始单元格;
在所述待处理图像上,对所述原始单元格的边框线段进行延长操作,确定细分单元格;其中,所述细分单元格包括延长操作后的原始单元格在所述待处理图像上占据的单元格;
确定每个所述细分单元格与所述原始单元格的面积重叠参数;
根据所述面积重叠参数,对所述细分单元格进行合并操作,得到目标单元格;
对所述目标单元格进行文字识别操作。
2.根据权利要求1所述的方法,其特征在于,所述根据所述面积重叠参数,对所述细分单元格进行合并操作,得到目标单元格,包括:
确定与所述原始单元格的面积重叠参数大于或等于第一预设阈值的目标细分单元格;
对各所述目标细分单元格进行合并操作,得到所述目标单元格。
3.根据权利要求1所述的方法,其特征在于,所述对所述原始单元格的边框线段进行延长操作,包括:
采用单元格聚类算法,对所述原始单元格进行聚类,确定待处理图像中的原始表格;
其中,在所述原始表格中,所述原始单元格之间的间距小于或等于第二预设阈值;
对所述原始表格中的所述原始单元格的边框线段进行延长操作。
4.根据权利要求3所述的方法,其特征在于,所述采用单元格聚类算法,对所述原始单元格进行聚类,包括:
确定任意两个所述原始单元格之间的间距;
在所述间距小于或等于所述第二预设阈值的情况下,将所述任意两个所述原始单元格聚类为同一原始表格中的单元格。
5.根据权利要求4所述的方法,其特征在于,所述确定任意两个所述原始单元格之间的间距,包括:
确定所述原始单元格的边框线段在目标方向下的第一距离;
确定所述任意两个所述原始单元格的任意两条边框线段在所述目标方向下的第二距离;
根据所述第一距离和所述第二距离,确定所述间距。
6.根据权利要求5所述的方法,其特征在于,所述确定所述原始单元格的边框线段在目标方向下的第一距离,包括:
确定所述原始单元格中在所述目标方向的垂直方向下的目标边框线段;
根据所述原始单元格的顶点位置信息,分别确定所述两条目标边框线段中的一条目标边框线段中的每个第一端点到另一条目标线段的第三距离;
根据每个所述第一端点对应的第三距离的平均值,确定所述第一距离。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第一距离和所述第二距离,确定所述间距,包括:
确定所述第二距离中的最大距离;
在所述最大距离的基础上,减去所述任意两个所述原始单元格中每个原始单元格对应的第一距离,得到所述间距。
8.一种表格识别装置,其特征在于,所述装置包括:
原始单元格确定模块,用于确定待处理图像中的原始单元格;
延长操作处理模块,用于在所述待处理图像上,对所述原始单元格的边框线段进行延长操作,确定细分单元格;其中,所述细分单元格包括延长操作后的原始单元格在所述待处理图像上占据的单元格;
面积重叠参数确定模块,用于确定每个所述细分单元格与所述原始单元格的面积重叠参数;
单元格合并模块,用于根据所述面积重叠参数,对所述细分单元格进行合并操作,得到目标单元格;
文字识别模块,用于对所述目标单元格进行文字识别操作。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
CN202310899528.6A 2023-07-21 2023-07-21 表格识别方法、装置、电子设备及存储介质 Active CN116612487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310899528.6A CN116612487B (zh) 2023-07-21 2023-07-21 表格识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310899528.6A CN116612487B (zh) 2023-07-21 2023-07-21 表格识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116612487A true CN116612487A (zh) 2023-08-18
CN116612487B CN116612487B (zh) 2023-10-13

Family

ID=87678711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310899528.6A Active CN116612487B (zh) 2023-07-21 2023-07-21 表格识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116612487B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
JP2017117111A (ja) * 2015-12-22 2017-06-29 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
US20190294641A1 (en) * 2018-03-26 2019-09-26 Kapow Technologies Determining functional and descriptive elements of application images for intelligent screen automation
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111259854A (zh) * 2020-02-04 2020-06-09 北京爱医生智慧医疗科技有限公司 一种文本图像中表格的结构化信息的识别方法及装置
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
CN113486848A (zh) * 2021-07-27 2021-10-08 平安国际智慧城市科技股份有限公司 文档表格识别方法、装置、设备及存储介质
CN113591746A (zh) * 2021-08-05 2021-11-02 上海金仕达软件科技有限公司 一种文档表格结构检测方法及装置
KR20210140844A (ko) * 2020-05-14 2021-11-23 지의소프트 주식회사 전자문서 내 테이블 정보 저장 시스템 및 그 방법
WO2021237909A1 (zh) * 2020-05-29 2021-12-02 深圳壹账通智能科技有限公司 一种表格还原方法、装置、设备及存储介质
CN114066868A (zh) * 2021-11-23 2022-02-18 北京大数元科技发展有限公司 一种表格图片数据解析方法、装置及存储介质
CN114581932A (zh) * 2022-01-28 2022-06-03 中国电建集团山东电力建设有限公司 一种图片表格线提取模型构建方法及图片表格提取方法
CN114627206A (zh) * 2021-01-05 2022-06-14 亚信科技(南京)有限公司 网格绘制方法、装置、电子设备及计算机可读存储介质
CN114743202A (zh) * 2022-04-26 2022-07-12 深延科技(北京)有限公司 表格结构识别方法、装置、设备及存储介质
US20220318224A1 (en) * 2021-04-02 2022-10-06 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
WO2023045277A1 (zh) * 2021-09-27 2023-03-30 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN116168404A (zh) * 2023-01-31 2023-05-26 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017117111A (ja) * 2015-12-22 2017-06-29 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
US20190294641A1 (en) * 2018-03-26 2019-09-26 Kapow Technologies Determining functional and descriptive elements of application images for intelligent screen automation
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111259854A (zh) * 2020-02-04 2020-06-09 北京爱医生智慧医疗科技有限公司 一种文本图像中表格的结构化信息的识别方法及装置
KR20210140844A (ko) * 2020-05-14 2021-11-23 지의소프트 주식회사 전자문서 내 테이블 정보 저장 시스템 및 그 방법
WO2021237909A1 (zh) * 2020-05-29 2021-12-02 深圳壹账通智能科技有限公司 一种表格还原方法、装置、设备及存储介质
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN114627206A (zh) * 2021-01-05 2022-06-14 亚信科技(南京)有限公司 网格绘制方法、装置、电子设备及计算机可读存储介质
US20220318224A1 (en) * 2021-04-02 2022-10-06 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
CN113486848A (zh) * 2021-07-27 2021-10-08 平安国际智慧城市科技股份有限公司 文档表格识别方法、装置、设备及存储介质
CN113591746A (zh) * 2021-08-05 2021-11-02 上海金仕达软件科技有限公司 一种文档表格结构检测方法及装置
WO2023045277A1 (zh) * 2021-09-27 2023-03-30 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN114066868A (zh) * 2021-11-23 2022-02-18 北京大数元科技发展有限公司 一种表格图片数据解析方法、装置及存储介质
CN114581932A (zh) * 2022-01-28 2022-06-03 中国电建集团山东电力建设有限公司 一种图片表格线提取模型构建方法及图片表格提取方法
CN114743202A (zh) * 2022-04-26 2022-07-12 深延科技(北京)有限公司 表格结构识别方法、装置、设备及存储介质
CN116168404A (zh) * 2023-01-31 2023-05-26 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANG Z 等: "Split, embed and merge: An accurate table structure recognizer", 《PATTERN RECOGNITION》, vol. 126, pages 108565 *
芮明 等: "基于视觉的表格自动识别方法", 《计算机应用研究》, no. 04, pages 256 - 257 *
陈优广 等: "一种新的表格单元格矩形识别算法", 《计算机工程》, no. 13, pages 9 - 11 *

Also Published As

Publication number Publication date
CN116612487B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN108446698B (zh) 在图像中检测文本的方法、装置、介质及电子设备
CN110309824B (zh) 文字检测方法、装置以及终端
CN109753953B (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN108960229B (zh) 一种面向多方向的文字检测方法和装置
EP3454250A1 (en) Facial image processing method and apparatus and storage medium
CN110502985B (zh) 表格识别方法、装置及表格识别设备
US8340433B2 (en) Image processing apparatus, electronic medium, and image processing method
CN109697414B (zh) 一种文本定位方法及装置
CN111027554B (zh) 商品价签文字精确检测定位系统及定位方法
CN111461070B (zh) 文本识别方法、装置、电子设备及存储介质
CN107229439B (zh) 一种显示图片的方法及装置
CN113362420A (zh) 道路标注生成方法、装置、设备以及存储介质
CN116844177A (zh) 一种表格识别方法、装置、设备及存储介质
CN112906532B (zh) 图像处理方法和装置、电子设备和存储介质
CN116612487B (zh) 表格识别方法、装置、电子设备及存储介质
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
CN112597940A (zh) 证件图像识别方法、装置及存储介质
JP4208520B2 (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
CN115311237A (zh) 一种图像检测方法、装置及电子设备
JP6883199B2 (ja) 画像処理装置、画像読み取り装置、および、プログラム
CN113744200B (zh) 一种摄像头脏污检测方法、装置及设备
CN114399617A (zh) 一种遮挡图案识别方法、装置、设备和介质
CN110662023B (zh) 视频数据丢失的检测方法、装置及存储介质
JP7370574B2 (ja) コマ抽出方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant