CN114782970B - 一种表格提取方法、系统及可读介质 - Google Patents

一种表格提取方法、系统及可读介质 Download PDF

Info

Publication number
CN114782970B
CN114782970B CN202210710460.8A CN202210710460A CN114782970B CN 114782970 B CN114782970 B CN 114782970B CN 202210710460 A CN202210710460 A CN 202210710460A CN 114782970 B CN114782970 B CN 114782970B
Authority
CN
China
Prior art keywords
cell
data
cells
longitudinal
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210710460.8A
Other languages
English (en)
Other versions
CN114782970A (zh
Inventor
邹辉
朱军
禤少茵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xinwensu Technology Co ltd
Original Assignee
Guangzhou Xinwensu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xinwensu Technology Co ltd filed Critical Guangzhou Xinwensu Technology Co ltd
Priority to CN202210710460.8A priority Critical patent/CN114782970B/zh
Publication of CN114782970A publication Critical patent/CN114782970A/zh
Application granted granted Critical
Publication of CN114782970B publication Critical patent/CN114782970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据处理领域,尤其涉及一种表格提取方法、系统及可读介质。一种表格提取方法,包括:获取表格图像中所有单元格的元素坐标数据;基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。通过识别表格图像中,每个单元格的元素坐标数据,进而判定单元格时独立单元格还是合并单元格,并按照不同格类型构建到表格矩阵中,最终形成表格数据,针对任意格式表格的处理,能够应对复杂的组成表格结构化表示和信息抽取,方便快捷。

Description

一种表格提取方法、系统及可读介质
技术领域
本发明涉及数据处理领域,尤其涉及一种表格提取方法、系统及可读介质。
背景技术
表格在大量文档内容处理应用中是普遍存在,目前的常见表格处理、信息抽取应用中只能对常规的标准式矩阵信息表格进行准确处理。而对于存在复杂合并单元格的表格或表单,传统方法只能是通过模板匹配或单纯的行内容查找的方法来进行信息提取,这使得在表格信息抽取的过程中,需要对不同的表格配置像对应的模板或忽视整个表格间的上下内容关系。而在人工智能领域中,通常是只需将表格元素的单元格坐标信息和对于文本信息作为输入就能进行表格信息的抽取,可是这需要大量的不同类型表格标注数据进行训练才可以达到理想的效果,可这在目前来说还并未出现能完全处理任意表格元素关系的人工智能处理方法。本专利通过提出一种针对任意有线表格的处理方案,解决任意有线表格数据无法包含与各单元格间准确位置、逻辑关系的问题。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种表格提取方法、系统及可读介质,能够快速提取表格数据。
为了达到上述目的,本发明采取了以下技术方案:
一方面,本发明提供一种表格提取方法,包括:
获取表格图像中所有单元格的元素坐标数据;
基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;
将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。
进一步的,所述的表格提取方法,确定格类型的操作包括:
基于所有单元格的元素坐标数据通过聚类分析,得到计算坐标数据;
针对每个单元格,基于其元素坐标数据和所述计算坐标数据判定其格类型。
进一步的,所述的表格提取方法,所述元素坐标数据包括横向数据和纵向数据;所述计算坐标数据包括计算坐标横向数组和计算坐标纵向数组;
所述聚类分析包括:
将所有的横向数据按照第一阈值进行聚类得到多组横向聚类数据;将所有的纵向数据按照第二阈值进行聚类得到多组纵向聚类数据;
通过对多组所述横向聚类数据分别求平均得到计算坐标横向数组,并根据所述计算坐标横向数组得到基本单元格横坐标矩阵;通过对多组纵向聚类数据分别求平均得到计算坐标纵向数组,并根据所述计算坐标纵向数组得到基本单元格纵坐标矩阵。
进一步的,所述的表格提取方法,判定单个单元格的格类型的步骤为:
基于所述单元格的所述横向数据与所述基本单元格横坐标矩阵得到多个横向重叠比,以大于第三阈值的横向重叠比作为横向标识比;基于所述单元格的所述纵向数据与所述基本单元格纵坐标矩阵得到多个纵向重叠比,以大于第四阈值的纵向重叠比作为纵向标识比;
当单元格存在超过一个的横向标识比或纵向标识比时,所述单元格为合并单元格,否则所述单元格为独立单元格。
进一步的,所述的表格提取方法,所述合并单元格构建到所述表格矩阵中的过程包括:
获取合并单元格的头坐标数据;所述头坐标数据包括最小坐标数据;所述最小坐标数据为横向标识比对应基本单元格横坐标矩阵中的最小横坐标、以及纵向标识比对应基本单元格纵坐标矩阵中的最小纵坐标;
按照所述头坐标数据、以及对应的横向标识比的数量、纵向标识比的数量,在所述表格矩阵构建合并表格作为所述合并单元格。
进一步的,所述的表格提取方法,构建表格矩阵的过程包括:
根据所述基本单元格横坐标矩阵获取横向基本表格数;根据所述基本单元格纵坐标矩阵获取纵向基本表格数;
根据所述横向基本表格数和所述纵向基本表格数构建所述表格矩阵。
进一步的,所述的表格提取方法,在获取每个单元格的元素坐标数据的同时,还同步获取每个单元格中对应的字符数据;
在将单元格构建到表格矩阵中的同时,还将对应的字符数据补充到构建的单元格中。
进一步的,所述的表格提取方法,在获取表格图像前,还执行步骤:
判定目标文件格式;
若所述目标文件格式为Excel格式,则获取每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据;
若所述目标文件格式为非Excel格式,则获取表格图像中所有单元格的元素坐标数据,并执行后续步骤;
在获取所述表格图像中的数据前,还包括:对所述表格图像进行预处理,调整所述表格图像的倾斜角度,将所述表格图像中的表格摆正。
另一方面,本发明提供一种表格提取系统,包括:
获取模块,用于获取表格图像中所有单元格的元素坐标数据;
处理模块,用于基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。
另一方面,本发明提供一种计算机可读介质,存储有计算机程序,所述计算机程序在被处理器执行时,实现前述任一所述的表格提取方法。
相较于现有技术,本发明提供的一种表格提取方法、系统及可读介质,具有以下有益效果:
本发明提供的表格提取方法,通过识别表格图像中,每个单元格的元素坐标数据,进而判定单元格时独立单元格还是合并单元格,并按照不同格类型构建到表格矩阵中,最终形成表格数据,针对任意格式表格的处理,能够应对复杂的组成表格结构化表示和信息抽取,方便快捷。
附图说明
图1是本发明提供的表格提取方法的流程图。
图2是本发明提供的一种实施方式中的表格提取方法的的流程图。
图3是本发明提供的一种实施例的图片示意图。
图4是本发明提供的针对图3的图片得到的元素坐标数据和字符数据的内容图。
图5是本发明提供的针对图3提取到的表格数据示意图。
图6是本发明提供的表格提取系统的结构框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本领域技术人员应当理解,前面的一般描述和下面的详细描述是本发明的示例性和说明性的具体实施例,不意图限制本发明。
本文中术语“包括”,“包含”或其任何其他变体旨在覆盖非排他性包括,使得包括步骤列表的过程或方法不仅包括那些步骤,而且可以包括未明确列出或此类过程或方法固有的其他步骤。同样,在没有更多限制的情况下,以“包含……一个”开头的一个或多个设备或子系统,元素或结构或组件也不会没有更多限制,排除存在其他设备或其他子系统或其他元素或其他结构或其他组件或其他设备或其他子系统或其他元素或其他结构或其他组件。在整个说明书中,短语“在一个实施例中”,“在另一个实施例中”的出现和类似的语言可以但不一定都指相同的实施例。
除非另有定义,否则本文中使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。
请参阅图1-图2,本发明提供一种表格提取方法,应用于表格提取场景。
格图像表格提取方法包括:
获取表格图像中所有单元格的元素坐标数据;具体的,获取所述元素坐标数据的方法使用表格元素检测算法,具体的算法应用过程,本领域的技术人员可以根据实际需求进行选择。
基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;具体的,在本实施例中,判定每个单元格的格类型的方法不做限定,可以使用长度比对法,例如可以使用简单的像素长度(坐标点之间的像素数)比对的方式进行确定,可以在一般情况下判定单元格的格类型。基本单元格的基本单元参数可以通过系统自动获取,也可以手动输入,本发明不做限定。
在本实施例中,所述表格矩阵也是基于所有的元素坐标数据和基本单元格参数得到,符合表格数据的基础特征,实现自动构建,方便快捷。构建的方式可以是使用所有单元格中的元素坐标数据中的横纵最大值来构建,其他可以构建的方式,本领域的技术人员可以根据实际需求生成,本发明不做限定。
将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。
在完成表格数据的处理后,可以直接通过处理数据,对任意复杂表格转化至准确的excel表格。
本发明提供的表格提取方法,通过识别表格图像中,每个单元格的元素坐标数据,进而判定单元格时独立单元格还是合并单元格,并按照不同格类型构建到表格矩阵中,最终形成表格数据,针对任意格式表格的处理,能够应对复杂的组成表格结构化表示和信息抽取,方便快捷。
进一步的,作为优选方案,本实施例中,提供一种确定格类型的方法,即使用对所有的元素坐标数据进行聚类分析后,确定格类型。确定格类型的操作包括:
基于所有单元格的元素坐标数据通过聚类分析,得到计算坐标数据;
针对每个单元格,基于其元素坐标数据和所述计算坐标数据判定其格类型。
在本实施例中,判定单元格的各类型是基于所有单元格的元素坐标数据进行聚类分析,得到计算坐标数据,进而精确判定对应的格类型,即使用单元格本身的元素坐标数据进行判断,准确性高,符合表格的基本构成原理。
进一步的,作为优选方案,本实施例中,所述元素坐标数据包括横向数据和纵向数据;所述计算坐标数据包括计算坐标横向数组和计算坐标纵向数组;
所述聚类分析包括:
将所有的横向数据按照第一阈值进行聚类得到多组横向聚类数据;将所有的纵向数据按照第二阈值进行聚类得到多组纵向聚类数据;具体的,所述第一阈值以及第二阈值的选择根据获取元素坐标数据的算法进行相应确定,例如使用表格元素检查算法,则所述第一阈值和第二阈值优选为15-30像素,进一步优选为20像素。同时,所述第一阈值和第二阈值可以相同,也可以不同,可以根据横、纵方向上的表格差值进行确定,例如横向格的长度普遍大于纵向格的长度,则第一阈值大于第二阈值。
具体操作中,在聚类分析时,会将所有单元格的横向数据(包括每个单元格的横向最大值x_right和横向最小值x_left),例如[1, 1, 2, 3, 1, 1, 41, 42, 40, 44, 47,88, 81, 92],以第一阈值C(选取20)进行聚类,得到将所有单元格水平数值的聚类数据x_cluster=[1,1,2,3,1,1]、[41, 42, 40, 44, 47]、[88, 81, 92]。
通过对多组所述横向聚类数据分别求平均得到计算坐标横向数组,并根据所述计算坐标横向数组得到基本单元格横坐标矩阵;通过对多组纵向聚类数据分别求平均得到计算坐标纵向数组,并根据所述计算坐标纵向数组得到基本单元格纵坐标矩阵。
进而将各组聚类数据求平均,得到理论上横向表格中各独立单元格的计算坐标横向数据point_x [1.5, 42.8, 87],此时所述基本单元格横坐标矩阵为[[1.5, 42.8],[42.8,87]],即该表格中横向上具有两个基本单元格。对于所述计算坐标纵向数据也使用相同的计算过程计算,此处不做赘述。
具体的,将所有的单元格的元素坐标数据分为横向数据和纵向数据,并进行分布聚类,可以方便后续步骤中分别判定单元格时横向合并单元格,还是纵向合并单元格,或者横向以及纵向均是合并单元格。
进一步的,作为优选方案,本实施例提供判定单个单元格的格类型的步骤,具体为:
基于所述单元格的所述横向数据与所述基本单元格横坐标矩阵得到多个横向重叠比,以大于第三阈值的横向重叠比作为横向标识比;基于所述单元格的所述纵向数据与所述基本单元格纵坐标矩阵得到多个纵向重叠比,以大于第四阈值的纵向重叠比作为纵向标识比;
当单元格存在超过一个的横向标识比或纵向标识比时,所述单元格为合并单元格,否则所述单元格为独立单元格。
具体的,所述重叠比的计算方法,本发明不做限定,可以使用本领域常用的重叠比算法进行计算即可。优选的重叠比(交并比)计算公式为:iou_n_m = max(0, min(td[m][1], t[n][1]) - max(td[m][0], t[n][0])) / ( td[m][1] - td[m][0] ),其中,iou_n_m为t[n]和td[m]的重叠比;t[n]为表格单元格横向(纵向)组合范围坐标t中第n个数据;td[m]为基本单元格横向(纵向)坐标矩阵td的第m个数据。
对于所述基本单元格横坐标矩阵和所述基本单元格纵坐标矩阵,具体的操作过程为:
假设,某一列的所有单元格的横向数据x_left、x_right为如下:
横向最小值x_left = [1, 10, 20, 30, 40];
横向最大值x_right = [10, 20, 30, 40, 50];
则该列的单元格横向组合t=[[1, 10], [10, 20], [20, 30], [30, 40], [40,50]];
在对表格图像提取后,得到的计算坐标横向数组point_x = [0, 5, 10, 20, 30,40, 50];
此时,可以得到基本单元格横坐标矩阵td=[[0, 5], [5, 10], [10, 20], [20,30], [30, 40], [40, 50]]。
基于前述公式计算,可以得到,该列中,每个单元格的在基本单元格的重叠比分别为:
单元格[1, 10]=[0.8, 1, 0, 0,0, 0];可以判定此为横向合并单元格。
单元格[10, 20]=[0, 0, 1, 0,0, 0];可以判定此为横向独立单元格。
单元格[20, 30]=[0, 0, 0, 1,0, 0];可以判定此为横向独立单元格。
单元格[30, 40]=[0, 0, 0, 0,1, 0];可以判定此为横向独立单元格。
单元格[40, 50]=[0, 0, 0, 0,0, 1];可以判定此为横向独立单元格。
具体的,判定单元格的各类型方式简单,计算量小,只要存在多个横向标识比,即意味着横向上是合并单元格,只要存在多个纵向标识比,即意味着纵向上是合并单元格,方便快捷。
在复杂表格信息抽取的应用中,可以直接使用处理后数据获取到各表格单元的上下左右表格关系,通过查询待判断单元格与单元格是否同为合并单元格、是否合并单元格头在同一行或列、合并单元格的形式是否同一,来判断该表格元素是否为相关元素。以实现复杂表格的元素关系判断。
进一步的,作为优选方案,本实施例中,所述合并单元格构建到所述表格矩阵中的过程包括:
获取合并单元格的头坐标数据;所述头坐标数据包括最小坐标数据;所述最小坐标数据为横向标识比对应基本单元格横坐标矩阵中的最小横坐标、以及纵向标识比对应基本单元格纵坐标矩阵中的最小纵坐标;
按照所述头坐标数据、以及对应的横向标识比的数量、纵向标识比的数量,在所述表格矩阵构建合并表格作为所述合并单元格。具体的,只要确定了该合并单元格的头坐标数据,即可确定头坐标数据中最小横坐标和最小纵坐标对应的基本单元格,进而在横向上将对应横向标识比的数量的基本单元格作为横向侧,在纵向上将对应纵向标识比的数量的基本单元格作为纵向侧,即可得到一组由基本单元格构成的小表格,将小表格内的连线融合,则构建得到合并表格作为所述合并单元格。
进一步的,若是单元格为独立单元格,则直接将对应的基本单元格作为所述独立单元格即可,方便快捷。
具体的,针对独立单元格和合并单元格,使用不同的构建方式,其中,在构建合并单元格时,会考虑其头坐标数据,进而按照头坐标数据进行构建,只要得到该单元格的所有横向标识比和所有纵向标识比,即可快速确定合并单元格在表格矩阵中的大小以及位置,方便快捷。
进一步的,作为优选方案,本实施例中,构建表格矩阵的过程包括:
根据所述基本单元格横坐标矩阵获取横向基本表格数;根据所述基本单元格纵坐标矩阵获取纵向基本表格数;具体的,只要得到所述计算坐标横/纵向数组或所述基本单元格横/纵坐标矩阵即可快速确定表格矩阵的横/纵方向上基本表格的数量,具体的:
当使用计算坐标横/纵向数组计算一个方向上基本表格的数量时,使用公式len_a= len(point_x) – 1,其中,len_a为横/纵方向上基本单元格的数量;len(point_x)为计算坐标横/纵向数组中的数据项数。
当使用基本单元格横/纵坐标矩阵计算一个方向上基本表格的数量时,使用公式len_b = len(point_x),其中,len_b为横/纵方向上基本单元格的数量;len(td)为计算坐标横/纵向数组中的数据项数。
根据所述横向基本表格数和所述纵向基本表格数构建所述表格矩阵。
具体的,表格矩阵是基于基本单元格横纵坐标矩阵得到横纵基本单元格数后构建生成,是基于所有单元格的元素坐标数据聚合得到,符合单元格的参数基础,且构建方便快捷,精准度高。
进一步的,作为优选方案,本实施例中,在获取每个单元格的元素坐标数据的同时,还同步获取每个单元格中对应的字符数据;
在将单元格构建到表格矩阵中的同时,还将对应的字符数据补充到构建的单元格中。
进一步的,基本单元格的横向长度与字符数据的长度相关。
具体的,在获取单元格的字符数据,可以保证表格针对表格图像中的字符内容不丢失,同时,在构建好对应的单元格后实现自动化补充字符数据内容,方便快捷。
进一步的,作为优选方案,本实施例中,在获取表格图像前,还执行步骤:
判定目标文件格式;
若所述目标文件格式为Excel格式,则获取每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据;在本实施例中,根据目标文件的格式采取不同的表格提取工作,若是目标文件就是表格文件,则简略步骤,直接确定单元格的格类型,进而构建表格矩阵,进而生成表格数据即可,方便快捷。
若所述目标文件格式为非Excel格式,则获取表格图像中所有单元格的元素坐标数据,并执行后续步骤;即,在本实施例中,本发明提供的表格提取方法适用于任何保存方式的表格数据,如可携带文档格式文件(pdf,Portable Document Format)、电子表格文件(例如excel格式文件)、文档文件(例如word格式文件)、超文本标记语言格式文件(html,Hyper Text Markup Language)。其中,针对excel数据类能直接提取出表格元素的合并、内容信息,则简略步骤,方便快捷。若是目标文件为非表格文件,例如pdf类能直接获取到表格元素框的位置坐标、内容信息,则执行本发明提供的表格提取方法的普通步骤。
在获取所述表格图像中的数据前,还包括:对所述表格图像进行预处理,调整所述表格图像的倾斜角度,将所述表格图像中的表格摆正。
具体的,摆正图像可以有效的获取表格的元素坐标数据,此时只需要得到横向最大值、横向最小值、纵向最大值、纵向最小值即可实现元素坐标数据的表达,同时摆正的表格更加符合表格的表现情形。
请一并参阅图3-图5,是采用本发明提供的一种实施例的提取前后对照图以及数据提取内容示意图,可以看出使用本发明提供的表格提取方法,可以方便的将复杂表格图形提取得到表格数据,且表格提取准确。
相应的,请参阅图6,本发明还提供一种表格提取系统,包括:
获取模块,用于获取表格图像中所有单元格的元素坐标数据;
处理模块,用于基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。
相应的,本发明还提供一种计算机可读介质,存储有计算机程序,所述计算机程序在被处理器执行时,实现前述任一实施例所述的表格提取方法。
计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种表格提取方法,其特征在于,包括:
获取表格图像中所有单元格的元素坐标数据;所述元素坐标数据包括横向数据和纵向数据;
基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;
基于所有单元格的元素坐标数据通过聚类分析,得到计算坐标数据;所述计算坐标数据包括计算坐标横向数组和计算坐标纵向数组;
基于所述计算坐标数据得到所述基本单元格参数;所述基本单元格参数包括基本单元格横坐标矩阵和基本单元格纵坐标矩阵;
基于所述单元格的所述横向数据与所述基本单元格横坐标矩阵得到多个横向重叠比,以大于第三阈值的横向重叠比作为横向标识比;基于所述单元格的所述纵向数据与所述基本单元格纵坐标矩阵得到多个纵向重叠比,以大于第四阈值的纵向重叠比作为纵向标识比;
当单元格存在超过一个的横向标识比或纵向标识比时,所述单元格为合并单元格,否则所述单元格为独立单元格;
将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。
2.根据权利要求1所述的表格提取方法,其特征在于,所述聚类分析包括:
将所有的横向数据按照第一阈值进行聚类得到多组横向聚类数据;将所有的纵向数据按照第二阈值进行聚类得到多组纵向聚类数据;
通过对多组所述横向聚类数据分别求平均得到计算坐标横向数组,并根据所述计算坐标横向数组得到基本单元格横坐标矩阵;通过对多组纵向聚类数据分别求平均得到计算坐标纵向数组,并根据所述计算坐标纵向数组得到基本单元格纵坐标矩阵。
3.根据权利要求2所述的表格提取方法,其特征在于,所述合并单元格构建到所述表格矩阵中的过程包括:
获取合并单元格的头坐标数据;所述头坐标数据包括最小坐标数据;所述最小坐标数据为横向标识比对应基本单元格横坐标矩阵中的最小横坐标、以及纵向标识比对应基本单元格纵坐标矩阵中的最小纵坐标;
按照所述头坐标数据、以及对应的横向标识比的数量、纵向标识比的数量,在所述表格矩阵构建合并表格作为所述合并单元格。
4.根据权利要求2所述的表格提取方法,其特征在于,构建表格矩阵的过程包括:
根据所述基本单元格横坐标矩阵获取横向基本表格数;根据所述基本单元格纵坐标矩阵获取纵向基本表格数;
根据所述横向基本表格数和所述纵向基本表格数构建所述表格矩阵。
5.根据权利要求1所述的表格提取方法,其特征在于,在获取每个单元格的元素坐标数据的同时,还同步获取每个单元格中对应的字符数据;
在将单元格构建到表格矩阵中的同时,还将对应的字符数据补充到构建的单元格中。
6.根据权利要求1所述的表格提取方法,其特征在于,在获取表格图像前,还执行步骤:
判定目标文件格式;
若所述目标文件格式为Excel格式,则获取每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据;
若所述目标文件格式为非Excel格式,则获取表格图像中所有单元格的元素坐标数据,并执行后续步骤;
在获取所述表格图像中的数据前,还包括:对所述表格图像进行预处理,调整所述表格图像的倾斜角度,将所述表格图像中的表格摆正。
7.一种表格提取系统,其特征在于,包括:
获取模块,用于获取表格图像中所有单元格的元素坐标数据;所述元素坐标数据包括横向数据和纵向数据;
处理模块,用于基于所述元素坐标数据以及基本单元格参数确定每个单元格的格类型,并构建表格矩阵;所述格类型包括独立单元格和合并单元格;基于所有单元格的元素坐标数据通过聚类分析,得到计算坐标数据;所述计算坐标数据包括计算坐标横向数组和计算坐标纵向数组;基于所述计算坐标数据得到所述基本单元格参数;所述基本单元格参数包括基本单元格横坐标矩阵和基本单元格纵坐标矩阵;基于所述单元格的所述横向数据与所述基本单元格横坐标矩阵得到多个横向重叠比,以大于第三阈值的横向重叠比作为横向标识比;基于所述单元格的所述纵向数据与所述基本单元格纵坐标矩阵得到多个纵向重叠比,以大于第四阈值的纵向重叠比作为纵向标识比;当单元格存在超过一个的横向标识比或纵向标识比时,所述单元格为合并单元格,否则所述单元格为独立单元格;将独立单元格和合并单元格根据对应元素坐标数据构建到所述表格矩阵中,形成表格数据。
8.一种计算机可读介质,其特征在于,存储有计算机程序,所述计算机程序在被处理器执行时,实现权利要求1-6任一所述的表格提取方法。
CN202210710460.8A 2022-06-22 2022-06-22 一种表格提取方法、系统及可读介质 Active CN114782970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210710460.8A CN114782970B (zh) 2022-06-22 2022-06-22 一种表格提取方法、系统及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210710460.8A CN114782970B (zh) 2022-06-22 2022-06-22 一种表格提取方法、系统及可读介质

Publications (2)

Publication Number Publication Date
CN114782970A CN114782970A (zh) 2022-07-22
CN114782970B true CN114782970B (zh) 2022-09-16

Family

ID=82422338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210710460.8A Active CN114782970B (zh) 2022-06-22 2022-06-22 一种表格提取方法、系统及可读介质

Country Status (1)

Country Link
CN (1) CN114782970B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658778B (zh) * 2022-07-27 2023-09-12 重庆忽米网络科技有限公司 用于可视化应用创建的基于Excel数据源的数据处理方法
CN115713775B (zh) * 2023-01-05 2023-04-25 达而观信息科技(上海)有限公司 一种从文档中提取表格的方法、系统和计算机设备
CN116127927B (zh) * 2023-04-04 2023-06-16 北京智麟科技有限公司 一种网页表格转pdf文件的方法
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213818A (zh) * 2018-08-15 2019-01-15 平安科技(深圳)有限公司 表格导出方法、装置、计算机设备及存储介质
CN112183511A (zh) * 2020-12-01 2021-01-05 江西博微新技术有限公司 一种图像导出表格的方法、系统、存储介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320914A (ja) * 1995-05-24 1996-12-03 Hitachi Ltd 表認識方法および装置
CN104636717B (zh) * 2014-12-24 2018-06-15 四川超凡知识产权服务股份有限公司 图表识别的方法及装置
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN110083810B (zh) * 2019-03-28 2023-05-09 东软集团股份有限公司 表单转换方法、装置、存储介质和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213818A (zh) * 2018-08-15 2019-01-15 平安科技(深圳)有限公司 表格导出方法、装置、计算机设备及存储介质
CN112183511A (zh) * 2020-12-01 2021-01-05 江西博微新技术有限公司 一种图像导出表格的方法、系统、存储介质及设备

Also Published As

Publication number Publication date
CN114782970A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114782970B (zh) 一种表格提取方法、系统及可读介质
CN110619333B (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN109493400A (zh) 手写样本生成方法、装置、计算机设备及存储介质
CN110503682B (zh) 矩形控件识别方法、装置、终端及存储介质
WO2023151237A1 (zh) 人脸位姿估计方法、装置、电子设备及存储介质
KR20220093187A (ko) 포지셔닝 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체
CN112651331B (zh) 文本表格提取方法、系统、计算机设备及存储介质
CN111814905A (zh) 目标检测方法、装置、计算机设备和存储介质
CN112001399B (zh) 基于局部特征显著化的图像场景分类方法和装置
CN113569968B (zh) 模型训练方法、目标检测方法、装置、设备及存储介质
CN113705286A (zh) 一种表格检测与识别方法和介质
CN112861595A (zh) 数据点的识别方法、装置和计算机可读存储介质
CN116259064B (zh) 表格结构识别方法、表格结构识别模型的训练方法及装置
CN110807286A (zh) 一种结构网格识别方法
CN114511862B (zh) 表格识别方法、装置及电子设备
CN113269153B (zh) 一种表格识别方法以及装置
CN113850265A (zh) Pdf文档的解析方法、装置、电子设备及存储介质
CN111241365B (zh) 表格图片解析方法及系统
CN115310505A (zh) 一种用于互感器二次回路接线端子的自动识别方法及系统
CN115082944A (zh) 表格的智能识别切分方法、系统和终端
CN114266879A (zh) 三维数据增强、模型训练检测方法、设备及自动驾驶车辆
JP2012226429A (ja) 画像検索および認識システム
CN112949494A (zh) 灭火器位置检测方法、装置、设备及存储介质
CN111143643A (zh) 元素识别方法、装置、可读存储介质和电子设备
CN111435537A (zh) 模型训练方法、装置及基于拼接图的位姿优化方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant