CN113297308A - 表格结构化信息提取方法、装置及电子设备 - Google Patents
表格结构化信息提取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113297308A CN113297308A CN202110272444.0A CN202110272444A CN113297308A CN 113297308 A CN113297308 A CN 113297308A CN 202110272444 A CN202110272444 A CN 202110272444A CN 113297308 A CN113297308 A CN 113297308A
- Authority
- CN
- China
- Prior art keywords
- line segments
- line segment
- extracted
- picture
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例公开了一种表格结构化信息提取方法、装置及电子设备,所述方法包括:提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将图片中的表格进行重建,得到重建后的表格;根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,进而发挥其应用价值。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种表格结构化信息提 取方法、装置及电子设备。
背景技术
表格作为一种有效的数据组织与展现方法被广泛应用,在日常工 作中会遇到图片包含了多个表格信息的情况,且每个表格的布局可能 大不相同。
然而现有的数据抽取算法很难处理表格布局复杂多变的情况,无 法有效的将图片中出现的表格信息转换成具有高度组织和整齐格式 化的数据,因此导致图片中的表格信息无法发挥其应有的价值。
发明内容
由于现有方法存在上述问题,本申请实施例提供一种表格结构化 信息提取方法、装置及电子设备。
具体的,本申请实施例提供了以下技术方案:
第一方面,本申请实施例提供一种表格结构化信息提取方法,包 括:
提取图片中表格包含的线段、所述线段的位置,表格中包含的文 字内容以及所述文字内容的位置;
根据提取得到的线段、线段的位置、文字内容和文字内容的位置, 将所述图片中的表格进行重建,得到重建后的表格;
根据预先建立的表格结构解析关系,对所述重建后的表格进行结 构化信息提取,得到与所述图片中的表格对应的结构化信息。
可选的,所述根据提取得到的线段、线段的位置、文字内容和文 字内容的位置,将所述图片中的表格进行重建,得到重建后的表格, 包括:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内 容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
可选的,根据提取得到的线段和线段的位置,重建表格结构,包 括:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置, 并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置, 并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻 线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线 段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格 结构。
可选的,所述根据提取到的相邻线段之间的夹角和距离判断所提 取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取 得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之 间的距离小于2像素时,将所述相邻两条线段进行合并。
可选的,当图片中的表格为直线表格或者弯曲表格时,所述重建 表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得 到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中, 所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包 含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点 集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小 单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格 开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中, 若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元 格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都 存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格 均被遍历。
可选的,若确定当前单元格的四个顶点不都存在于所述线段交点 集合中,则确定所述当前单元格为无效单元格,同时在所述当前单元 格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四 个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格 的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存 在于所述线段交点集合中。
可选的,当以列为单元向右扩张至表格结构的最右侧时仍未确定 扩张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增 加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的 四个顶点均存在于所述线段交点集合中。
可选的,根据所述表格结构和还原的文字内容得到重建后的表格, 包括:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含 在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有 效单元格内部,得到重建后的表格。
可选的,所述根据预先建立的表格结构解析关系,对所述重建后 的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化 信息,包括:
根据预先建立的表格结构解析关系中包含的单元格之间的 key-value解析对应关系,提取所述重建后的表格中对应单元格的文 字内容,并将提取的单元格的内容按照所述key-value解析对应关系 进行结构化记录。
可选的,所述预先建立的表格结构解析关系中包含的单元格之间 的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个 为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
第二方面,本发明实施例还提供了一种表格结构化信息提取装置, 所述装置包括:
第一处理模块,用于提取图片中表格包含的线段、所述线段的位 置,表格中包含的文字内容以及文字内容的位置;
第二处理模块,用于根据提取得到的线段、线段的位置、文字内 容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的 表格;
第三处理模块,用于根据预先建立的表格结构解析关系,对所述 重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的 结构化信息。
可选的,所述第二处理模块,具体用于:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内 容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
可选的,所述第二处理模块在用于执行根据提取得到的线段和线 段的位置,重建表格结构时,具体用于:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置, 并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置, 并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻 线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线 段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格 结构。
可选的,所述第二处理模块在用于执行根据提取到的相邻线段之 间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满 足合并条件时,将所提取得到的相邻线段进行合并时,具体用于:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之 间的距离小于2像素时,将所述相邻两条线段进行合并。
可选的,所述第二处理模块在用于执行当图片中的表格为直线表 格或者弯曲表格时,重建表格结构时,具体用于:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得 到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中, 所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包 含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点 集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小 单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格 开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中, 若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元 格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都 存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格 均被遍历。
可选的,若第二处理模块确定当前单元格的四个顶点不都存在于 所述线段交点集合中时,则确定所述当前单元格为无效单元格,同时 在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张 后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录 扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四 个顶点是否都存在于所述线段交点集合中。
可选的,当第二处理模块以列为单元向右扩张至表格结构的最右 侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集 合中时,则向下增加一行,并重新向右以列为单元逐次扩张直至确定 扩张后的单元格的四个顶点均存在于所述线段交点集合中。
可选的,所述第二处理模块在用于执行当根据所述表格结构和还 原的文字内容得到重建后的表格时,具体用于:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含 在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有 效单元格内部,得到重建后的表格。
可选的,所述第三处理模块,具体用于:
根据预先建立的表格结构解析关系中包含的单元格之间的 key-value解析对应关系,提取所述重建后的表格中对应单元格的文 字内容,并将提取的单元格的文字内容按照所述key-value解析对应 关系进行结构化记录。
可选的,所述预先建立的表格结构解析关系中包含的单元格之间 的key-value解析对应关系包括下述中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个 为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处 理器执行所述计算机程序时实现如第一方面所述的表格结构化信息 提取方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介 质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第 一方面所述的表格结构化信息提取方法。
由上面技术方案可知,本申请实施例根据提取图片中表格包含的 线段、线段的位置、表格中包含的文字内容以及文字内容的位置,对 图片中的表格进行表格结构和文字内容的还原,得到重建后的表格, 并利用预先建立的表格结构解析关系,对重建后的表格进行结构化信 息提取,得到与图片中的表格对应的结构化信息。由此可知,本申请 实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息 转换成结构化的信息,从而发挥其应用价值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下 面将对实施例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些图获得其他的附图。
图1是本申请实施例提供的表格结构化信息提取方法的流程图之 一;
图2是本申请实施例提供的表格结构化信息提取方法的流程图之 二;
图3是本申请实施例提供的表格结构解析关系的示意图之一;
图4是本申请实施例提供的表格结构解析关系的示意图之二;
图5是本申请实施例提供的表格结构解析关系的示意图之三;
图6是本申请实施例提供的表格结构解析关系的示意图之四;
图7是本申请实施例提供的表格结构解析关系的示意图之五;
图8是本申请实施例提供的表格结构解析关系的示意图之六;
图9是本申请实施例提供的表格单元格推理算法的示意图之一;
图10是本申请实施例提供的表格单元格推理算法的示意图之二;
图11是本申请实施例提供的表格单元格推理算法的示意图之三;
图12是本申请实施例提供的表格单元格推理算法的示意图之四;
图13是本申请实施例提供的表格单元格推理算法的示意图之五;
图14是本申请实施例提供的表格结构化信息提取装置的结构示 意图;
图15是本申请实施例的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本申请实施例或现有技术中的技术方案,下 面将对实施例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些图获得其他的附图。此外,需要说明的是,图中的文字的 清晰度不影响对本申请方案的理解。
图1示出了本申请一实施例提供的一种表格结构化信息提取方法 的流程图之一,图2是本申请一实施例提供的一种表格结构化信息提 取方法的流程图之二,图3~图8是本申请实施例提供的表格结构解析 关系的示意图,图9~12是本申请实施例提供的表格单元格推理算法的 示意图。下面结合图1~图12对本申请实施例提供的表格结构化信息提 取方法进行详细解释和说明。如图1所示,本申请实施例提供的一种 表格结构化信息提取方法,具体包括:
步骤101:提取图片中表格包含的线段、所述线段的位置,表格 中包含的文字内容以及所述文字内容的位置;
在本步骤中,可选的,可以采用文字光学字符识别OCR(Optical CharacterRecognition)技术提取图片中表格包含的文字内容和文字位 置,并采用直线段检测技术提取图片中表格包含的线段、线段的位置。
步骤102:根据提取得到的线段、线段的位置、文字内容和文字 内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
在本步骤中,需要说明的是,在提取到图片表格中包含的线段、 线段的位置、表格中包含的文字内容以及文字内容的位置后,需要对 图片表格进行重建。这一步骤的目的是通过输入数据,具体包括图片 中表格的文字位置及其对应的文字内容和图片表格中的所有线段及 其位置坐标来把图片中的表格1:1还原出来。具体的,需要首先根据 表格单元格推理算法完成表格中所有单元格的推理,得到空白表格。 然后根据文字坐标位置与表格中各个单元格区域位置的关系,将与空 白表格的各个单元格区域位置匹配的文字内容填入该单元格内部,遍 历直到所有文字内容完成填入,完成表格的重建。
步骤103:根据预先建立的表格结构解析关系,对所述重建后的 表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信 息。
在本步骤中,需要说明的是,在通过上述步骤完成表格的重建后, 需要根据预先建立的表格结构解析关系,对重建后的表格进行结构化 信息提取,所述表格结构解析关系即为图3~图8中所示的6种解析单元, 每一种解析单元对应一种表格结构解析关系。可以理解的是,表格中 所有结构化信息的对应关系是固定的,这种固定关系称为一个解析单元。优选的,本申请实施例抽象出了6种解析单元,如图3~图8所示, 将图3~图8的6种解析单元构成解析单元库,在得到重建后的表格后, 在表格内容中匹配到结构化key,所述结构化key指的是需要获取的结 构化信息是什么,解析单元为其对应的提取关系。信息提取是指现在 表格内容中匹配到该key,匹配到后则使用相应的预设解析单元来提 取value,匹配完表格中包含的所有结构化key,并且根据结构化key完 成信息的全部提取后,即可得到与图片中的表格对应的结构化信息。
由上面技术方案可知,本申请实施例根据提取图片中表格包含的 线段、线段的位置、表格中包含的文字内容以及文字内容的位置,对 图片中的表格进行表格结构和文字内容的还原,得到重建后的表格, 并利用预先建立的表格结构解析关系,对重建后的表格进行结构化信 息提取,得到与图片中的表格对应的结构化信息。由此可知,本申请 实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息 转换成结构化的信息,从而发挥其应用价值。
基于上述实施例的内容,在本实施例中,所述根据提取得到的线 段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格 进行重建,得到重建后的表格,包括:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内 容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
在本实施例中,需要说明的是,在提取到图片表格中包含的线段、 线段的位置、表格中包含的文字内容以及文字内容的位置后,需要对 图片表格进行重建。这一步骤的目的是通过输入数据,具体包括图片 中表格的文字位置及其对应的文字内容和图片表格中的所有线段及 其位置坐标来把图片中的表格1:1还原出来。具体的,需要首先根据 表格单元格推理算法完成表格中所有单元格的推理,得到空白表格。 然后根据文字坐标位置与表格中各个单元格区域位置的关系,将与空 白表格的各个单元格区域位置匹配的文字内容填入该单元格内部,遍 历直到所有文字内容完成填入,完成表格的重建。
基于上述实施例的内容,在本实施例中,根据提取得到的线段和 线段的位置,重建表格结构,包括:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置, 并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置, 并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻 线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线 段进行合并,根据合并后的线段以及合并后的线段的位置,重建还原 表格结构。
在本实施例中,需要说明的是,当图片中的表格为直线表格时, 根据表格单元格推理算法完成表格中所有单元格的推理,得到空白表 格,从而还原表格结构;当图片中的表格为弯曲表格时,判断所提取 的线段能否合并为表格线的条件为:相邻两条线段之间的夹角小于 15°,且两条线段之间的距离小于2像素。当满足该条件时,将当前 两条线段进行合并,合并后根据表格单元格推理算法完成表格中所有 单元格的推理,得到空白表格,从而还原表格结构。
基于上述实施例的内容,在本实施例中,所述根据提取到的相邻 线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条 件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之 间的距离小于2像素时,将所述相邻两条线段进行合并。
在本实施例中,如图13所示,当图片中的表格为弯曲表格时, 判断所提取的线段能否合并为表格线的条件为:相邻两条线段之间的 夹角小于15°,且两条线段之间的距离小于2像素。当满足该条件 时,将当前相邻的两条线段进行合并。
基于上述实施例的内容,在本实施例中,当图片中的表格为直线 表格或者弯曲表格时,所述重建表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得 到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中, 所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包 含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点 集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小 单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格 开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中, 若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元 格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都 存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格 均被遍历;
若确定当前单元格的四个顶点不都存在于所述线段交点集合中, 则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础 上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均 存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行 列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述 线段交点集合中;
其中,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩 张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增加 一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四 个顶点均存在于所述线段交点集合中。
在本实施例中,优选的,可以根据直线段检测技术提取到的线段 或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段 划分为水平线段集合和竖直线段集合。其中,水平线段集合中包含至 少一条水平线段,竖直线段集合中包含至少一条竖直线段。
在本实施例中,可以理解的是,先根据所述水平线段集合中所有 的水平线段与所述竖直线段集合中所有的竖直线段形成一个初步表 格框架,然后为方便还原真实的表格,对所述初步表格框架中缺失的 线进行补齐处理,使得补齐处理后表格成为一个完整的、没有缺失单 元格的表格(参见图9中由虚线构成的表格),最后基于该补齐处理 后的表格,确定表格结构的左上角位置以及表格结构的最小单元格 (如图10中左上角由黑框线构成的最小单元格)。在本实施例中,按 照从左上到右下的行列顺序,从所述左上角位置由黑框线构成的最小 单元格开始,判断该最小单元格是否为有效单元格。判断方法为:判 断当前最小单元格的四个顶点是否都存在于所述线段交点集合中,若 是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格 的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存 在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。如图10所示,从左上角的最小单元格开始,该单元格的左 上顶点存在线段交点集合中,左下顶点存在线段交点集合中,右上顶 点不存在线段交点集合中,因此,此时需要向右扩张一列单元格进行 判断,如图11所示,此时继续判断当前单元格的四个顶点是否存在与线段交点集合中,在图11中可以看到,扩张后的单元格左上顶点 存在线段交点集合中,左下顶点存在线段交点集合中,右上顶点不存 在线段交点集合中,因此继续向右扩张单元格直至扩张,如图12所 示,此时当前单元格四个顶点均存在线段交点集合中,则确定当前单 元格为有效单元格,并记录该单元格的坐标table_cell1=[开始行索引 =1;终止行索引=1;开始列索引=1;终止列索引=14]。
在本实施例中,当以列为单元向右扩张至表格结构的最右侧时仍 未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则 证明该行单元格为无效单元格,此时向下增加一行,并重新向右以列 为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述 线段交点集合中。重复上述过程遍历所有单元格顶点直至确定所有有 效单元格,如下表1所示,遍历虚拟表格中的所有单元格后,得到 118个有效单元格,则由118个单元格构成的表格即为有效表格,其 单元格布局与图中表格的单元格布局一致。
表1
在本实施例中,单元格推理算法的代码如下:
输入:交点集合P_SET,行个数M,列个数N,水平线集合 row_lines,竖向线集合col_lines;
基于上述实施例的内容,在本实施例中,所述表格结构和还原的 文字内容得到重建后的表格,包括:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含 在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有 效单元格内部,得到重建后的表格。
在本实施例中,需要说明的是,在得到与图中表格一致的有效表 格后,根据OCR技术提取得到的文字内容的位置,使用文字坐标, 如果文字框包含单元格的区域内部,将文字追加到该单元格内部,填 入所有文字内容至有效表格后得到重建后的表格。
基于上述实施例的内容,在本实施例中,所述根据预先建立的表 格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与 所述图片中的表格对应的结构化信息,包括:
根据预先建立的表格结构解析关系中包含的单元格之间的 key-value解析对应关系,提取所述重建后的表格中对应单元格的文 字内容,并将提取的单元格的内容按照所述key-value解析对应关系 进行结构化记录。
在本实施例中,需要说明的是,在通过上述步骤完成表格的重建 后,需要根据预先建立的表格结构解析关系,对重建后的表格进行结 构化信息提取。可以理解的是,表格中所有结构化信息的对应关系是 固定的,这种固定关系称为一个解析单元。优选的,本申请实施例抽 象出了6种解析单元,如图3~图8所示,将图3~图8的6种解析单元构成 解析单元库,在得到重建后的表格后,在表格内容中匹配到结构化key, 所述结构化key指的是需要获取的结构化信息是什么,解析单元为其 对应的提取关系。信息提取是指现在表格内容中匹配到该key,匹配 到后则使用相应的预设解析单元来提取value,匹配完表格中包含的所 有结构化key,并且根据结构化key完成信息的全部提取后,即可得到 与图片中的表格对应的结构化信息,并将表格的结构化信息进行记录。 例如下表2所示,表2为身份信息表,则当对该表进行结构化提取时, 可拆分为两个解析单元:“解析单元extract_pair”和“解析单元 extract_list”构成,二者的keys分别如下:pair_keys=[“性别”、“出 生日期”、“婚姻状况”、“就业状况”、“数据发生机构名称”、“学历”、 “学位”、“国籍”、“电子邮箱”、“通讯地址”、“户籍地址”];list_keys =[“编号”、“手机号码”、“信息更新日期”、“数据发生机构名称”]。 因此,身份信息的表格结构化结果为result-身份信息= extract_pair(pair_keys)+extract_list(list_keys)。
表2
基于上述实施例的内容,在本实施例中,所述预先建立的表格结 构解析关系中包含的单元格之间的key-value解析对应关系包括下述 中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个 为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
在本实施例中,如图3所示,解析关系中包含的单元格之间的 key-value解析对应关系包括相邻的单元格中一个为key,另一个为 value、如图4所示的呈列表的多个单元格中首个为key,其余均为 value、如图5所示的以行为对象单元,每一行包含多个单元格,相邻 的单元格中一个为key,另一个为value、如图6所示的同一个单元格 中包含key和value,通过字符串进行切割、如图7所示的由两个单 元格组成key,由两个单元格确定内容组成value、如图8所示的以多 层单元格组成key,由多层单元格确定的内容组成value中的一种或 多种。如图3所示,表格结构解析关系为相邻的单元格中一个为key, 另一个为value例如:账户标识为key,位于账户标识单元格下方的 单元格内容即为value,此时提取内容为:账户标识:6010055291687; 表格结构解析关系为由两个单元格组成key,如图7所示的由两个单 元格确定内容组成value,例如:账户数单元格为key1,垫款业务单 元格为key2,由账户数单元格和垫款业务单元格确定的单元格内容 “1”为value,此时提取内容为:账户数-垫款业务:1。上述其他 key-value解析对应关系可参见图3~图8中的示例,此处不再赘述。
基于相同的发明构思,本发明另一实施例提供了一种表格结构化 信息提取装置,如图14所示,本申请实施例提供的一种表格结构化 信息提取装置,包括:
第一处理模块1,用于提取图片中表格包含的线段、线段的位置、 表格中包含的文字内容以及文字内容的位置;
第二处理模块2,用于根据提取得到的线段、线段的位置、文字 内容和文字内容的位置,将所述图片中的表格进行表格结构和文字内 容的还原,得到重建后的表格;
第三处理模块3,用于根据预先建立的表格结构解析关系,对所 述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应 的结构化信息。
在本实施例中,可以采用文字光学字符识别OCR(Optical CharacterRecognition)技术提取图片中表格包含的文字内容和文字位 置,并采用直线段检测技术提取图片中表格包含的线段、线段的位置。
在本实施例中,需要说明的是,在提取到图片表格中包含的线段、 线段的位置、表格中包含的文字内容以及文字内容的位置后,需要对 图片表格进行重建。这一步骤的目的是通过输入数据,具体包括图片 中表格的文字位置及其对应的文字内容和图片表格中的所有线段及 其位置坐标来把图片中的表格1:1还原出来。具体的,需要首先根据 表格单元格推理算法完成表格中所有单元格的推理,得到空白表格。 然后根据文字坐标位置与表格中各个单元格区域位置的关系,将与空 白表格的各个单元格区域位置匹配的文字内容填入该单元格内部,遍 历直到所有文字内容完成填入,完成表格的重建。
在本实施例中,需要说明的是,在通过上述步骤完成表格的重建 后,需要根据预先建立的表格结构解析关系,对重建后的表格进行结 构化信息提取。可以理解的是,表格中所有结构化信息的对应关系是 固定的,这种固定关系称为一个解析单元。优选的,本申请实施例抽 象出了6种解析单元,如图3~图8所示,将图3~图8的6种解析单元构成 解析单元库,在得到重建后的表格后,在表格内容中匹配到结构化key, 所述结构化key指的是需要获取的结构化信息是什么,解析单元为其 对应的提取关系。信息提取是指现在表格内容中匹配到该key,匹配 到后则使用相应的预设解析单元来提取value,匹配完表格中包含的所 有结构化key,并且根据结构化key完成信息的全部提取后,即可得到 与图片中的表格对应的结构化信息。
由上面技术方案可知,本申请实施例根据提取图片中表格包含的 线段、线段的位置、表格中包含的文字内容以及文字内容的位置,对 图片中的表格进行表格结构和文字内容的还原,得到重建后的表格, 并利用预先建立的表格结构解析关系,对重建后的表格进行结构化信 息提取,得到与图片中的表格对应的结构化信息。由此可知,本申请 实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息 转换成结构化的信息,从而发挥其应用价值。
基于上述实施例的内容,在本实施例中,所述第二处理模块,具 体用于:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内 容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用 于执行根据提取得到的线段和线段的位置,重建表格结构时,具体用 于:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置, 并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置, 并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻 线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线 段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格 结构。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用 于执行根据提取到的相邻线段之间的夹角和距离判断所提取得到的 相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相 邻线段进行合并时,具体用于:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之 间的距离小于2像素时,将所述相邻两条线段进行合并。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用 于执行当图片中的表格为直线表格或者弯曲表格时,重建表格结构时, 具体用于:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得 到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中, 所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包 含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点 集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合 中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小 单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格 开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中, 若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元 格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都 存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格 均被遍历。
基于上述实施例的内容,在本实施例中,若第二处理模块确定当 前单元格的四个顶点不都存在于所述线段交点集合中时,则确定所述 当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列 为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述 线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并 继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点 集合中。
基于上述实施例的内容,在本实施例中,当第二处理模块以列为 单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四 个顶点均存在于所述线段交点集合中时,则向下增加一行,并重新向 右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在 于所述线段交点集合中。
基于上述实施例的内容,在本实施例中,所述第二处理模块在用 于执行当根据所述表格结构和还原的文字内容得到重建后的表格时, 具体用于:
根据提取得到的文字内容的位置,判断相应的文字内容是否包含 在所述有效单元格的内部,若是,则将相应的文字内容追加到所述有 效单元格内部,得到重建后的表格。
基于上述实施例的内容,在本实施例中,所述第三处理模块,具 体用于:
根据预先建立的表格结构解析关系中包含的单元格之间的 key-value解析对应关系,提取所述重建后的表格中对应单元格的文 字内容,并将提取的单元格的文字内容按照所述key-value解析对应 关系进行结构化记录。
基于上述实施例的内容,在本实施例中,所述预先建立的表格结 构解析关系中包含的单元格之间的key-value解析对应关系包括下述 中的一种或多种:
相邻的单元格中一个为key,另一个为value;
呈列表的多个单元格中首个为key,其余均为value;
以行为对象单元,每一行包含多个单元格,相邻的单元格中一个 为key,另一个为value;
同一个单元格中包含key和value,通过字符串进行切割;
由两个单元格组成key,由两个单元格确定内容组成value;
以多层单元格组成key,由多层单元格确定的内容组成value。
本实施例所述的表格结构化信息提取装置可以用于执行上述方 法实施例,其原理和技术效果类似,此处不再赘述。
基于相同的发明构思,本发明又一实施例提供了一种电子设备, 参见图15所述电子设备的结构示意图,具体包括如下内容:处理器 1501、存储器1502、通信接口1503和通信总线1504;
其中,所述处理器1501、存储器1502、通信接口1503通过所述通 信总线1504完成相互间的通信;所述通信接口1503用于实现各设备之 间的信息传输;
所述处理器1501用于调用所述存储器1502中的计算机程序,所述 处理器执行所述计算机程序时实现上述一种表格结构化信息提取方 法的步骤,例如,提取图片中表格包含的线段、线段的位置、表格中 包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的 位置、文字内容和文字内容的位置,将所述图片中的表格进行表格结 构和文字内容的还原,得到重建后的表格;根据预先建立的表格结构 解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图 片中的表格对应的结构化信息。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算 机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计 算机程序被处理器执行时实现上述一种表格结构化信息提取方法的 步骤,例如,提取图片中表格包含的线段、线段的位置、表格中包含 的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、 文字内容和文字内容的位置,将所述图片中的表格进行表格结构和文 字内容的还原,得到重建后的表格;根据预先建立的表格结构解析关 系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的 表格对应的结构化信息。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式 实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取 存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现 有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形 式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络 设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟 或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在 不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当 然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对 现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、 光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的表格结构化信息提取方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。
Claims (10)
1.一种表格结构化信息提取方法,其特征在于,包括:
提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;
根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
2.根据权利要求1所述的表格结构化信息提取方法,其特征在于,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:
根据提取得到的线段和线段的位置,重建表格结构;
根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;
根据所述表格结构和还原的文字内容得到重建后的表格。
3.根据权利要求2所述的表格结构化信息提取方法,其特征在于,根据提取得到的线段和线段的位置,重建表格结构,包括:
当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;
当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。
4.根据权利要求3所述的表格结构化信息提取方法,其特征在于,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:
当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。
5.根据权利要求3所述的表格结构化信息提取方法,其特征在于,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:
根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;
确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;
根据所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段,确定表格结构的左上角位置以及表格结构的最小单元格;
按照从左上到右下的行列顺序,从所述左上角位置的最小单元格开始,判断当前单元格的四个顶点是否都存在于所述线段交点集合中,若是,则确定所述当前单元格为有效单元格,同时记录所述当前单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中,直至所述表格结构中的所有最小单元格均被遍历。
6.根据权利要求5所述的表格结构化信息提取方法,其特征在于,若确定当前单元格的四个顶点不都存在于所述线段交点集合中,则确定所述当前单元格为无效单元格,同时在所述当前单元格的基础上向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,相应地,记录扩张后的单元格的起止行列索引,并继续判断下一个最小单元格的四个顶点是否都存在于所述线段交点集合中。
7.根据权利要求6所述的表格结构化信息提取方法,其特征在于,当以列为单元向右扩张至表格结构的最右侧时仍未确定扩张后的单元格的四个顶点均存在于所述线段交点集合中,则向下增加一行,并重新向右以列为单元逐次扩张直至确定扩张后的单元格的四个顶点均存在于所述线段交点集合中。
8.一种表格结构化信息提取装置,其特征在于,包括:
第一处理模块,用于提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及文字内容的位置;
第二处理模块,用于根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;
第三处理模块,用于根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述表格结构化信息提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述表格结构化信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272444.0A CN113297308B (zh) | 2021-03-12 | 2021-03-12 | 表格结构化信息提取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272444.0A CN113297308B (zh) | 2021-03-12 | 2021-03-12 | 表格结构化信息提取方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297308A true CN113297308A (zh) | 2021-08-24 |
CN113297308B CN113297308B (zh) | 2023-09-22 |
Family
ID=77319252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110272444.0A Active CN113297308B (zh) | 2021-03-12 | 2021-03-12 | 表格结构化信息提取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297308B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218233A (zh) * | 2022-02-22 | 2022-03-22 | 子长科技(北京)有限公司 | 一种年报的处理方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093227A (zh) * | 2013-01-14 | 2013-05-08 | 西南大学 | 提取表格特征的方法及装置 |
CN103258198A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种表格文档图像中字符提取方法 |
US20140351372A1 (en) * | 2012-05-10 | 2014-11-27 | Empire Technology Development Llc | Meta-app to depict cloud environment dependencies |
US9208403B1 (en) * | 2014-06-16 | 2015-12-08 | Qualcomm Incorporated | Systems and methods for processing image data associated with line detection |
US20170257576A1 (en) * | 2016-03-07 | 2017-09-07 | Satoshi Mitsui | Communication terminal, image management apparatus, image processing system, method for controlling display, and computer program product |
CN107943968A (zh) * | 2017-11-28 | 2018-04-20 | 北京筑业志远软件开发有限公司 | 施工资料表格数据的结构化处理方法 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110110248A (zh) * | 2019-05-20 | 2019-08-09 | 徐书诚 | 一种实现电子地图沿线展示全景图像计算机系统 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
-
2021
- 2021-03-12 CN CN202110272444.0A patent/CN113297308B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351372A1 (en) * | 2012-05-10 | 2014-11-27 | Empire Technology Development Llc | Meta-app to depict cloud environment dependencies |
CN103093227A (zh) * | 2013-01-14 | 2013-05-08 | 西南大学 | 提取表格特征的方法及装置 |
CN103258198A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种表格文档图像中字符提取方法 |
US9208403B1 (en) * | 2014-06-16 | 2015-12-08 | Qualcomm Incorporated | Systems and methods for processing image data associated with line detection |
US20170257576A1 (en) * | 2016-03-07 | 2017-09-07 | Satoshi Mitsui | Communication terminal, image management apparatus, image processing system, method for controlling display, and computer program product |
CN107943968A (zh) * | 2017-11-28 | 2018-04-20 | 北京筑业志远软件开发有限公司 | 施工资料表格数据的结构化处理方法 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110110248A (zh) * | 2019-05-20 | 2019-08-09 | 徐书诚 | 一种实现电子地图沿线展示全景图像计算机系统 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
潘军: "复杂表格文档预处理与文本提取算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1313 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218233A (zh) * | 2022-02-22 | 2022-03-22 | 子长科技(北京)有限公司 | 一种年报的处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113297308B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113434733B (zh) | 基于文本的视频文件生成方法、装置、设备及存储介质 | |
CN113158987B (zh) | 表格处理方法、装置、设备及计算机可读存储介质 | |
CN111047508B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN105930479A (zh) | 一种数据倾斜处理方法及装置 | |
JP2022160662A (ja) | 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム | |
CN111435367B (zh) | 知识图谱的构建方法、系统、设备及存储介质 | |
CN111143551A (zh) | 文本预处理方法、分类方法、装置及设备 | |
CN111240669A (zh) | 界面生成方法、装置、电子设备及计算机存储介质 | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN114359447A (zh) | 骨骼数据的建模方法、计算机设备及存储介质 | |
CN113535977A (zh) | 一种知识图谱融合方法和装置及设备 | |
CN113297308B (zh) | 表格结构化信息提取方法、装置及电子设备 | |
CN106569805A (zh) | 一种画布存储、图形绘制方法和设备 | |
CN115731313A (zh) | Svg格式的图片的处理方法、装置、设备、介质及产品 | |
JP2023543964A (ja) | 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN111144407A (zh) | 一种目标检测方法、系统、装置及可读存储介质 | |
CN117763644A (zh) | 设计图自适应调整的方法和装置 | |
CN112541087A (zh) | 基于百科的跨语言知识图谱构建方法及装置 | |
US20240303962A1 (en) | Method of determining image feature, electronic device, and storage medium | |
CN115457581A (zh) | 表格提取方法、装置及计算机设备 | |
US11604849B2 (en) | Rendering method, electronic device and storage medium | |
CN111542837A (zh) | 三维卷积神经网络计算装置及相关产品 | |
CN115017877A (zh) | 一种版式文件的储存方法及样本数据库本地重建方法 | |
CN114842153A (zh) | 从单幅二维线框图重建三维模型的方法、装置和电子设备 | |
CN112419178A (zh) | 破洞修复方法、终端设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230807 Address after: Room 102, 1st Floor, Building 1, No. 2 Chuangye Road, Haidian District, Beijing, 100080 Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd. Address before: 101309 room 24, 62 Farm Road, Erjie village, Yangzhen, Shunyi District, Beijing Applicant before: Beijing fangjianghu Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |