CN113297308B - 表格结构化信息提取方法、装置及电子设备 - Google Patents

表格结构化信息提取方法、装置及电子设备 Download PDF

Info

Publication number
CN113297308B
CN113297308B CN202110272444.0A CN202110272444A CN113297308B CN 113297308 B CN113297308 B CN 113297308B CN 202110272444 A CN202110272444 A CN 202110272444A CN 113297308 B CN113297308 B CN 113297308B
Authority
CN
China
Prior art keywords
line segments
cells
extracted
text content
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110272444.0A
Other languages
English (en)
Other versions
CN113297308A (zh
Inventor
李壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Seashell Housing Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seashell Housing Beijing Technology Co Ltd filed Critical Seashell Housing Beijing Technology Co Ltd
Priority to CN202110272444.0A priority Critical patent/CN113297308B/zh
Publication of CN113297308A publication Critical patent/CN113297308A/zh
Application granted granted Critical
Publication of CN113297308B publication Critical patent/CN113297308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请实施例公开了一种表格结构化信息提取方法、装置及电子设备,所述方法包括:提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将图片中的表格进行重建,得到重建后的表格;根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,进而发挥其应用价值。

Description

表格结构化信息提取方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种表格结构化信息提取方法、装置及电子设备。
背景技术
表格作为一种有效的数据组织与展现方法被广泛应用,在日常工作中会遇到图片包含了多个表格信息的情况,且每个表格的布局可能大不相同。
然而现有的数据抽取算法很难处理表格布局复杂多变的情况,无法有效的将图片中出现的表格信息转换成具有高度组织和整齐格式化的数据,因此导致图片中的表格信息无法发挥其应有的价值。
发明内容
由于现有方法存在上述问题,本申请实施例提供一种表格结构化信息提取方法、装置及电子设备。
具体的,本申请实施例提供了以下技术方案:
第一方面,本申请实施例提供一种表格结构化信息提取方法,包括:
提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;
根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
可选的,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
可选的,根据提取得到的线段和线段的位置,重建表格结构,包括:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。
可选的,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
可选的,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。
可选的,若确定当前单元格的四个顶点不都存在于所述线段交点集合中,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。
可选的,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
可选的,根据所述表格结构和还原的文字内容得到重建后的表格,包括:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。
可选的,所述根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息,包括:
根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的内容按照所述key-value解析对应关系进行结构化记录。
可选的,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
第二方面,本发明实施例还提供了一种表格结构化信息提取装置,所述装置包括:
第一处理模块,用于提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及文字内容的位置;
第二处理模块,用于根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
第三处理模块,用于根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
可选的,所述第二处理模块,具体用于:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
可选的,所述第二处理模块在用于执行根据提取得到的线段和线段的位置,重建表格结构时,具体用于:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。
可选的,所述第二处理模块在用于执行根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并时,具体用于:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
可选的,所述第二处理模块在用于执行当图片中的表格为直线表格或者弯曲表格时,重建表格结构时,具体用于:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。
可选的,若第二处理模块确定当前单元格的四个顶点不都存在于所述线段交点集合中时,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。
可选的,当第二处理模块以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中时,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
可选的,所述第二处理模块在用于执行当根据所述表格结构和还原的文字内容得到重建后的表格时,具体用于:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。
可选的,所述第三处理模块,具体用于:
根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的文字内容按照所述key-value解析对应关系进行结构化记录。
可选的,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的表格结构化信息提取方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的表格结构化信息提取方法。
由上面技术方案可知,本申请实施例根据提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置,对图片中的表格进行表格结构和文字内容的还原,得到重建后的表格,并利用预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。由此可知,本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,从而发挥其应用价值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本申请实施例提供的表格结构化信息提取方法的流程图之一;
图2是本申请实施例提供的表格结构化信息提取方法的流程图之二;
图3是本申请实施例提供的表格结构解析关系的示意图之一;
图4是本申请实施例提供的表格结构解析关系的示意图之二;
图5是本申请实施例提供的表格结构解析关系的示意图之三;
图6是本申请实施例提供的表格结构解析关系的示意图之四;
图7是本申请实施例提供的表格结构解析关系的示意图之五;
图8是本申请实施例提供的表格结构解析关系的示意图之六;
图9是本申请实施例提供的表格单元格推理算法的示意图之一;
图10是本申请实施例提供的表格单元格推理算法的示意图之二;
图11是本申请实施例提供的表格单元格推理算法的示意图之三;
图12是本申请实施例提供的表格单元格推理算法的示意图之四;
图13是本申请实施例提供的表格单元格推理算法的示意图之五;
图14是本申请实施例提供的表格结构化信息提取装置的结构示意图;
图15是本申请实施例的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。此外,需要说明的是,图中的文字的清晰度不影响对本申请方案的理解。
图1示出了本申请一实施例提供的一种表格结构化信息提取方法的流程图之一,图2是本申请一实施例提供的一种表格结构化信息提取方法的流程图之二,图3~图8是本申请实施例提供的表格结构解析关系的示意图,图9~12是本申请实施例提供的表格单元格推理算法的示意图。下面结合图1~图12对本申请实施例提供的表格结构化信息提取方法进行详细解释和说明。如图1所示,本申请实施例提供的一种表格结构化信息提取方法,具体包括:
步骤101:提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;
在本步骤中,可选的,可以采用文字光学字符识别OCR(Optical CharacterRecognition)技术提取图片中表格包含的文字内容和文字位置,并采用直线段检测技术提取图片中表格包含的线段、线段的位置。
步骤102:根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
在本步骤中,需要说明的是,在提取到图片表格中包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置后,需要对图片表格进行重建。这一步骤的目的是通过输入数据,具体包括图片中表格的文字位置及其对应的文字内容和图片表格中的所有线段及其位置坐标来把图片中的表格1:1还原出来。具体的,需要首先根据表格单元格推理算法完成表格中所有单元格的推理,得到空白表格。然后根据文字坐标位置与表格中各个单元格区域位置的关系,将与空白表格的各个单元格区域位置匹配的文字内容填入该单元格内部,遍历直到所有文字内容完成填入,完成表格的重建。
步骤103:根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
在本步骤中,需要说明的是,在通过上述步骤完成表格的重建后,需要根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,所述表格结构解析关系即为图3~图8中所示的6种解析单元,每一种解析单元对应一种表格结构解析关系。可以理解的是,表格中所有结构化信息的对应关系是固定的,这种固定关系称为一个解析单元。优选的,本申请实施例抽象出了6种解析单元,如图3~图8所示,将图3~图8的6种解析单元构成解析单元库,在得到重建后的表格后,在表格内容中匹配到结构化key,所述结构化key指的是需要获取的结构化信息是什么,解析单元为其对应的提取关系。信息提取是指现在表格内容中匹配到该key,匹配到后则使用相应的预设解析单元来提取value,匹配完表格中包含的所有结构化key,并且根据结构化key完成信息的全部提取后,即可得到与图片中的表格对应的结构化信息。
由上面技术方案可知,本申请实施例根据提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置,对图片中的表格进行表格结构和文字内容的还原,得到重建后的表格,并利用预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。由此可知,本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,从而发挥其应用价值。
基于上述实施例的内容,在本实施例中,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
在本实施例中,需要说明的是,在提取到图片表格中包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置后,需要对图片表格进行重建。这一步骤的目的是通过输入数据,具体包括图片中表格的文字位置及其对应的文字内容和图片表格中的所有线段及其位置坐标来把图片中的表格1:1还原出来。具体的,需要首先根据表格单元格推理算法完成表格中所有单元格的推理,得到空白表格。然后根据文字坐标位置与表格中各个单元格区域位置的关系,将与空白表格的各个单元格区域位置匹配的文字内容填入该单元格内部,遍历直到所有文字内容完成填入,完成表格的重建。
基于上述实施例的内容,在本实施例中,根据提取得到的线段和线段的位置,重建表格结构,包括:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建还原表格结构。
在本实施例中,需要说明的是,当图片中的表格为直线表格时,根据表格单元格推理算法完成表格中所有单元格的推理,得到空白表格,从而还原表格结构;当图片中的表格为弯曲表格时,判断所提取的线段能否合并为表格线的条件为:相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素。当满足该条件时,将当前两条线段进行合并,合并后根据表格单元格推理算法完成表格中所有单元格的推理,得到空白表格,从而还原表格结构。
基于上述实施例的内容,在本实施例中,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
在本实施例中,如图13所示,当图片中的表格为弯曲表格时,判断所提取的线段能否合并为表格线的条件为:相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素。当满足该条件时,将当前相邻的两条线段进行合并。
基于上述实施例的内容,在本实施例中,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历;
若确定当前单元格的四个顶点不都存在于所述线段交点集合中,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中;
其中,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
在本实施例中,优选的,可以根据直线段检测技术提取到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合。其中,水平线段集合中包含至少一条水平线段,竖直线段集合中包含至少一条竖直线段。
在本实施例中,可以理解的是,先根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段形成一个初步表格框架,然后为方便还原真实的表格,对所述初步表格框架中缺失的线进行补齐处理,使得补齐处理后表格成为一个完整的、没有缺失单元格的表格(参见图9中由虚线构成的表格),最后基于该补齐处理后的表格,确定表格结构的左上角位置以及表格结构的最小单元格(如图10中左上角由黑框线构成的最小单元格)。在本实施例中,按照从左上到右下的行列顺序,从所述左上角位置由黑框线构成的最小单元格开始,判断该最小单元格是否为有效单元格。判断方法为:判断当前最小单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。如图10所示,从左上角的最小单元格开始,该单元格的左上顶点存在线段交点集合中,左下顶点存在线段交点集合中,右上顶点不存在线段交点集合中,因此,此时需要向右扩张一列单元格进行判断,如图11所示,此时继续判断当前单元格的四个顶点是否存在与线段交点集合中,在图11中可以看到,扩张后的单元格左上顶点存在线段交点集合中,左下顶点存在线段交点集合中,右上顶点不存在线段交点集合中,因此继续向右扩张单元格直至扩张,如图12所示,此时当前单元格四个顶点均存在线段交点集合中,则确定当前单元格为有效单元格,并记录该单元格的坐标table_cell1=[开始行索引=1;终止行索引=1;开始列索引=1;终止列索引=14]。
在本实施例中,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则证明该行单元格为无效单元格,此时向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。重复上述过程遍历所有单元格顶点直至确定所有有效单元格,如下表1所示,遍历虚拟表格中的所有单元格后,得到118个有效单元格,则由118个单元格构成的表格即为有效表格,其单元格布局与图中表格的单元格布局一致。
表1
在本实施例中,单元格推理算法的代码如下:
/>
基于上述实施例的内容,在本实施例中,所述表格结构和还原的文字内容得到重建后的表格,包括:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。
在本实施例中,需要说明的是,在得到与图中表格一致的有效表格后,根据OCR技术提取得到的文字内容的位置,使用文字坐标,如果文字框包含单元格的区域内部,将文字追加到该单元格内部,填入所有文字内容至有效表格后得到重建后的表格。
基于上述实施例的内容,在本实施例中,所述根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息,包括:
根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的内容按照所述key-value解析对应关系进行结构化记录。
在本实施例中,需要说明的是,在通过上述步骤完成表格的重建后,需要根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取。可以理解的是,表格中所有结构化信息的对应关系是固定的,这种固定关系称为一个解析单元。优选的,本申请实施例抽象出了6种解析单元,如图3~图8所示,将图3~图8的6种解析单元构成解析单元库,在得到重建后的表格后,在表格内容中匹配到结构化key,所述结构化key指的是需要获取的结构化信息是什么,解析单元为其对应的提取关系。信息提取是指现在表格内容中匹配到该key,匹配到后则使用相应的预设解析单元来提取value,匹配完表格中包含的所有结构化key,并且根据结构化key完成信息的全部提取后,即可得到与图片中的表格对应的结构化信息,并将表格的结构化信息进行记录。例如下表2所示,表2为身份信息表,则当对该表进行结构化提取时,可拆分为两个解析单元:“解析单元extract_pair”和“解析单元extract_list”构成,二者的keys分别如下:pair_keys=[“性别”、“出生日期”、“婚姻状况”、“就业状况”、“数据发生机构名称”、“学历”、“学位”、“国籍”、“电子邮箱”、“通讯地址”、“户籍地址”];list_keys=[“编号”、“手机号码”、“信息更新日期”、“数据发生机构名称”]。因此,身份信息的表格结构化结果为result-身份信息=extract_pair(pair_keys)+extract_list(list_keys)。
表2
基于上述实施例的内容,在本实施例中,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
在本实施例中,如图3所示,解析关系中包含的单元格之间的key-value解析对应关系包括相邻的单元格中一个为key,另一个为value、如图4所示的呈列表的多个单元格中首个为key,其余均为value、如图5所示的以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value、如图6所示的同一个单元格中包含key和value,通过字符串进行切割、如图7所示的由两个单元格组成key,由两个单元格确定内容组成value、如图8所示的以多层单元格组成key,由多层单元格确定的内容组成value中的一种或多种。如图3所示,表格结构解析关系为相邻的单元格中一个为key,另一个为value例如:账户标识为key,位于账户标识单元格下方的单元格内容即为value,此时提取内容为:账户标识:6010055291687;表格结构解析关系为由两个单元格组成key,如图7所示的由两个单元格确定内容组成value,例如:账户数单元格为key1,垫款业务单元格为key2,由账户数单元格和垫款业务单元格确定的单元格内容“1”为value,此时提取内容为:账户数-垫款业务:1。上述其他key-value解析对应关系可参见图3~图8中的示例,此处不再赘述。
基于相同的发明构思,本发明另一实施例提供了一种表格结构化信息提取装置,如图14所示,本申请实施例提供的一种表格结构化信息提取装置,包括:
第一处理模块1,用于提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;
第二处理模块2,用于根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行表格结构和文字内容的还原,得到重建后的表格;
第三处理模块3,用于根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
在本实施例中,可以采用文字光学字符识别OCR(Optical CharacterRecognition)技术提取图片中表格包含的文字内容和文字位置,并采用直线段检测技术提取图片中表格包含的线段、线段的位置。
在本实施例中,需要说明的是,在提取到图片表格中包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置后,需要对图片表格进行重建。这一步骤的目的是通过输入数据,具体包括图片中表格的文字位置及其对应的文字内容和图片表格中的所有线段及其位置坐标来把图片中的表格1:1还原出来。具体的,需要首先根据表格单元格推理算法完成表格中所有单元格的推理,得到空白表格。然后根据文字坐标位置与表格中各个单元格区域位置的关系,将与空白表格的各个单元格区域位置匹配的文字内容填入该单元格内部,遍历直到所有文字内容完成填入,完成表格的重建。
在本实施例中,需要说明的是,在通过上述步骤完成表格的重建后,需要根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取。可以理解的是,表格中所有结构化信息的对应关系是固定的,这种固定关系称为一个解析单元。优选的,本申请实施例抽象出了6种解析单元,如图3~图8所示,将图3~图8的6种解析单元构成解析单元库,在得到重建后的表格后,在表格内容中匹配到结构化key,所述结构化key指的是需要获取的结构化信息是什么,解析单元为其对应的提取关系。信息提取是指现在表格内容中匹配到该key,匹配到后则使用相应的预设解析单元来提取value,匹配完表格中包含的所有结构化key,并且根据结构化key完成信息的全部提取后,即可得到与图片中的表格对应的结构化信息。
由上面技术方案可知,本申请实施例根据提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置,对图片中的表格进行表格结构和文字内容的还原,得到重建后的表格,并利用预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。由此可知,本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,从而发挥其应用价值。
基于上述实施例的内容,在本实施例中,所述第二处理模块,具体用于:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用于执行根据提取得到的线段和线段的位置,重建表格结构时,具体用于:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用于执行根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并时,具体用于:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用于执行当图片中的表格为直线表格或者弯曲表格时,重建表格结构时,具体用于:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。
基于上述实施例的内容,在本实施例中,若第二处理模块确定当前单元格的四个顶点不都存在于所述线段交点集合中时,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。
基于上述实施例的内容,在本实施例中,当第二处理模块以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中时,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用于执行当根据所述表格结构和还原的文字内容得到重建后的表格时,具体用于:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。
基于上述实施例的内容,在本实施例中,所述第三处理模块,具体用于:
根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的文字内容按照所述key-value解析对应关系进行结构化记录。
基于上述实施例的内容,在本实施例中,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
本实施例所述的表格结构化信息提取装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图15所述电子设备的结构示意图,具体包括如下内容:处理器1501、存储器1502、通信接口1503和通信总线1504;
其中,所述处理器1501、存储器1502、通信接口1503通过所述通信总线1504完成相互间的通信;所述通信接口1503用于实现各设备之间的信息传输;
所述处理器1501用于调用所述存储器1502中的计算机程序,所述处理器执行所述计算机程序时实现上述一种表格结构化信息提取方法的步骤,例如,提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行表格结构和文字内容的还原,得到重建后的表格;根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种表格结构化信息提取方法的步骤,例如,提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行表格结构和文字内容的还原,得到重建后的表格;根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的表格结构化信息提取方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (18)

1.一种表格结构化信息提取方法,其特征在于,包括:
提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;
根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息;
所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:
根据提取得到的线段和线段的位置,重建表格结构,具体包括:当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构;
所述根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息,包括:
根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的文字内容按照所述key-value解析对应关系进行结构化记录。
2.根据权利要求1所述的表格结构化信息提取方法,其特征在于,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,还包括:
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
3.根据权利要求1所述的表格结构化信息提取方法,其特征在于,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
4.根据权利要求1所述的表格结构化信息提取方法,其特征在于,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。
5.根据权利要求4所述的表格结构化信息提取方法,其特征在于,若确定当前单元格的四个顶点不都存在于所述线段交点集合中,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。
6.根据权利要求5所述的表格结构化信息提取方法,其特征在于,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
7.根据权利要求4所述的表格结构化信息提取方法,其特征在于,根据所述表格结构和还原的文字内容得到重建后的表格,包括:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。
8.根据权利要求1所述的表格结构化信息提取方法,其特征在于,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
9.一种表格结构化信息提取装置,其特征在于,包括:
第一处理模块,用于提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及文字内容的位置;
第二处理模块,用于根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;所述第二处理模块还用于执行根据提取得到的线段和线段的位置,重建表格结构时,具体用于:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构
第三处理模块,用于根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息;所述第三处理模块,具体用于:根据预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系,提取所述重建后的表格中对应单元格的文字内容,并将提取的单元格的文字内容按照所述key-value解析对应关系进行结构化记录。
10.根据权利要求9所述的表格结构化信息提取装置,其特征在于,所述第二处理模块,具体用于:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
11.根据权利要求9所述的表格结构化信息提取装置,其特征在于,所述第二处理模块在用于执行根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并时,具体用于:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
12.根据权利要求9所述的表格结构化信息提取装置,其特征在于,所述第二处理模块在用于执行当图片中的表格为直线表格或者弯曲表格时,重建表格结构时,具体用于:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。
13.根据权利要求12所述的表格结构化信息提取装置,其特征在于,若第二处理模块确定当前单元格的四个顶点不都存在于所述线段交点集合中时,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。
14.根据权利要求13所述的表格结构化信息提取装置,其特征在于,当第二处理模块以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中时,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
15.根据权利要求14所述的表格结构化信息提取装置,其特征在于,所述第二处理模块在用于执行当根据所述表格结构和还原的文字内容得到重建后的表格时,具体用于:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有效单元格内部,得到重建后的表格。
16.根据权利要求15所述的表格结构化信息提取装置,其特征在于,所述预先建立的表格结构解析关系中包含的单元格之间的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述表格结构化信息提取方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述表格结构化信息提取方法的步骤。
CN202110272444.0A 2021-03-12 2021-03-12 表格结构化信息提取方法、装置及电子设备 Active CN113297308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110272444.0A CN113297308B (zh) 2021-03-12 2021-03-12 表格结构化信息提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110272444.0A CN113297308B (zh) 2021-03-12 2021-03-12 表格结构化信息提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113297308A CN113297308A (zh) 2021-08-24
CN113297308B true CN113297308B (zh) 2023-09-22

Family

ID=77319252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110272444.0A Active CN113297308B (zh) 2021-03-12 2021-03-12 表格结构化信息提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113297308B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218233A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 一种年报的处理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093227A (zh) * 2013-01-14 2013-05-08 西南大学 提取表格特征的方法及装置
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
US9208403B1 (en) * 2014-06-16 2015-12-08 Qualcomm Incorporated Systems and methods for processing image data associated with line detection
CN107943968A (zh) * 2017-11-28 2018-04-20 北京筑业志远软件开发有限公司 施工资料表格数据的结构化处理方法
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110110248A (zh) * 2019-05-20 2019-08-09 徐书诚 一种实现电子地图沿线展示全景图像计算机系统
CN110163198A (zh) * 2018-09-27 2019-08-23 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、系统、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013166682A1 (en) * 2012-05-10 2013-11-14 Empire Technology Development Llc Meta-app to depict cloud environment dependencies
US10277836B2 (en) * 2016-03-07 2019-04-30 Ricoh Company, Ltd. Communication terminal, image management apparatus, image processing system, method for controlling display, and computer program product

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093227A (zh) * 2013-01-14 2013-05-08 西南大学 提取表格特征的方法及装置
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
US9208403B1 (en) * 2014-06-16 2015-12-08 Qualcomm Incorporated Systems and methods for processing image data associated with line detection
CN107943968A (zh) * 2017-11-28 2018-04-20 北京筑业志远软件开发有限公司 施工资料表格数据的结构化处理方法
CN110163198A (zh) * 2018-09-27 2019-08-23 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110110248A (zh) * 2019-05-20 2019-08-09 徐书诚 一种实现电子地图沿线展示全景图像计算机系统
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、系统、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
复杂表格文档预处理与文本提取算法研究;潘军;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-1313 *

Also Published As

Publication number Publication date
CN113297308A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN111047508B (zh) 图像处理方法、装置、计算机设备和存储介质
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
US9619657B2 (en) Method and apparatus for storing redeem code, and method and apparatus for verifying redeem code
CN110275940B (zh) 一种中文地址识别方法及设备
CN111435367B (zh) 知识图谱的构建方法、系统、设备及存储介质
CN113297308B (zh) 表格结构化信息提取方法、装置及电子设备
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN113032001B (zh) 一种智能合约分类方法及装置
US20220269820A1 (en) Artificial intelligence based data redaction of documents
CN117376632B (zh) 基于智能深度合成的数据恢复方法和系统
CN112184547B (zh) 红外图像的超分辨率方法及计算机可读存储介质
CN111144407A (zh) 一种目标检测方法、系统、装置及可读存储介质
CN117037136B (zh) 场景文本识别方法、系统、设备及存储介质
CN111414489B (zh) 知识图谱构建方法、装置、电子设备及可读存储介质
CN112541087A (zh) 基于百科的跨语言知识图谱构建方法及装置
CN115017877B (zh) 一种版式文件的储存方法及样本数据库本地重建方法
CN117115695A (zh) 一种基于虚拟增强的人-物交互检测方法
CN113744158B (zh) 图像生成方法、装置、电子设备和存储介质
CN115457581A (zh) 表格提取方法、装置及计算机设备
CN116226681A (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
JP2012043437A (ja) 画像処理方法及び画像処理装置
CN113496225B (zh) 图像处理方法、装置、计算机设备及存储介质
CN112417163B (zh) 基于实体线索片段的候选实体对齐方法及装置
CN115408997A (zh) 一种文本生成方法、文本生成装置和可读存储介质
CN111542837A (zh) 三维卷积神经网络计算装置及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230807

Address after: Room 102, 1st Floor, Building 1, No. 2 Chuangye Road, Haidian District, Beijing, 100080

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 101309 room 24, 62 Farm Road, Erjie village, Yangzhen, Shunyi District, Beijing

Applicant before: Beijing fangjianghu Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant