CN108446264A - Pdf文档中的表格矢量解析方法及装置 - Google Patents

Pdf文档中的表格矢量解析方法及装置 Download PDF

Info

Publication number
CN108446264A
CN108446264A CN201810254092.4A CN201810254092A CN108446264A CN 108446264 A CN108446264 A CN 108446264A CN 201810254092 A CN201810254092 A CN 201810254092A CN 108446264 A CN108446264 A CN 108446264A
Authority
CN
China
Prior art keywords
line
cell
coordinate
text
table area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810254092.4A
Other languages
English (en)
Other versions
CN108446264B (zh
Inventor
余宙
杨永智
汪贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A Bozzi De (beijing) Science And Technology Co Ltd
Original Assignee
A Bozzi De (beijing) Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A Bozzi De (beijing) Science And Technology Co Ltd filed Critical A Bozzi De (beijing) Science And Technology Co Ltd
Priority to CN201810254092.4A priority Critical patent/CN108446264B/zh
Priority to US15/984,224 priority patent/US10592184B2/en
Publication of CN108446264A publication Critical patent/CN108446264A/zh
Application granted granted Critical
Publication of CN108446264B publication Critical patent/CN108446264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1297Printer code translation, conversion, emulation, compression; Configuration of printer parameters
    • G06F3/1298Printer language recognition, e.g. programme control language, page description language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种PDF文档中的表格矢量解析方法及装置,所述方法包括步骤:接收包含表格区域的PDF文档;提取出表格区域中的水平线、垂直线和文本块,并判断表格区域中表格的类型;若表格为近全线表格,则根据表格区域内水平线和垂直线,并以表格区域内的文本块为辅助,确定出表格区域中近全线表格的结构;若表格为近无线表格,则根据表格区域内的文本块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区域中近无线表格的结构。根据本发明的方法及装置,综合表格区域内的直线和文本块,共同确定表格中的单元格,使得解析得到的单元格更加准确,为表格解析提供可靠的方法。

Description

PDF文档中的表格矢量解析方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种PDF文档中的表格矢量解析 方法及装置。
背景技术
PDF文档以PostScript语言图像模型为基础,对于任何打印机,PDF均能忠 实地再现原稿的每一个字符、颜色以及图像。PDF与生具有的与操作系统平台 无关的特点,使其成为电子文档发行和数字化信息传播中最为广泛使用的理想 文档格式。
PDF文档虽然能够精确的展现版面,然而对于PDF中结构信息,尤其是表 格信息却没有进行有效记录和存储,从而导致在对PDF中表格信息进行还原时 难度较大。目前采用的其中一种方法是直接从当前页面中收集表格区域内的裁 剪区,对裁剪区进行一些过滤处理,去掉重复和无效的裁剪区,将剩余的裁剪 区按1:1转换为对应的单元格。此种方法的缺陷是:剪裁区可能不完整,进而导 致解析得到的单元格存在缺失的情况;剪裁区可能存在包裹区域错误的情况, 比如将一个裁剪区切分成两个裁剪区或者把两个裁剪区合成一个裁剪区,进而 导致解析得出错误的单元格。针对于上述方法存在的弊端,另一种方法是对word 和非word生成的PDF都基于线的方法获取表格区域内的单元格,即首先收集表 格区域内所有的水平线和垂直线,获取所有的水平和垂直线的相交点,记录对 应点的坐标信息(包括x方向和y方向),根据所有坐标点的信息确定单元格 的四个点得到最终的单元格。但是由于绘制的线可能存在误差,所以得到的单 元格可能会出现缺失的情况。
发明内容
本发明的目的在于改善现有方法表格矢量解析的准确性较差的缺陷,提供 一种PDF文档中的表格矢量解析方法及装置。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例中提供了一种PDF文档中的表格矢量解析方法,包括 以下步骤:
接收包含表格区域的PDF文档;
提取出表格区域中的水平线、垂直线和文本块;
根据提取到的水平线、垂直线,判断表格区域中表格的类型,所述类型包 括近全线表格和近无线表格;
若表格为近全线表格,则根据表格区域内水平线和垂直线,并以表格区域 内的文本块为辅助,确定出表格区域中近全线表格的结构;
若表格为近无线表格,则根据表格区域内的文本块,并以表格区域内的水 平线和/或垂直线为辅助,确定出表格区域中近无线表格的结构。
另一方面,本发明实施例提供了一种PDF文档中的表格矢量解析装置,包括:
文档接收模块,用于接收包含表格区域的PDF文档;
直线提取模块,用于提取出表格区域中的水平线、垂直线;
文本块提取模块,用于提取出表格区域中的文本块;
表格类型判断模块,用于根据提取到的水平线、垂直线,判断表格区域中 表格的类型,所述类型包括近全线表格和近无线表格;
第一结构确定模块,用于在表格为近全线表格时,根据表格区域内水平线 和垂直线,并以表格区域内的文本块为辅助,确定出表格区域中近全线表格的 结构;
第二结构确定模块,用于在表格为近无线表格时,根据表格区域内的文本 块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区域中近无线表 格的结构。
再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可 读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所 述方法中的操作。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储 程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本 发明实施例中所述方法中的步骤。
与现有技术相比,本发明的有益效果:本发明方法及装置,首先判断表格 的类型,再根据表格的类型确定表格的行列索引信息,具有针对性,且结合直 线和文本块共同确定行列索引信息,对于近全线表格可以达到极高的准确率, 对近无线表格也可以达到很高的准确率,满足产品化要求,并且解析速度快。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使 用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例, 因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例中所述的一种PDF文档中的表格矢量解析方法的 流程图。
图2为已确定出表格区域的PDF文档。
图3为表格区域与坐标系的位置关系示意图。
图4为提取出文本块之后的PDF文档示意图。
图5a-c分别为直线提取重复的几种情况示意图。
图6为确定近全线表格的结构的流程图。
图7为直线和文本块穿过单元格的示意图。
图8为单元格预处理结果的示意图。
图9为存在遗漏的单元格的示意图。
图10为确定近无线表格的结构的流程图。
图11a-f分别为合并文本块的示意图。
图12为文本块聚类为文本行的示意图。
图13为确定出行区间和列区间之后的示意图。
图14为实施例中PDF文档中表格矢量解析装置的功能模块图。
图15为实施例中所述电子设备的组成框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部 的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不 同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细 描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施 例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所 获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例提供的一种PDF文档中的表格矢量解析方法,包括 以下步骤:
S101,接收待处理的PDF文档,此处的待处理的PDF文档为包含表格区域的 PDF文档,如图2所示。
S102,从待处理的PDF文档中提取出表格区域中的水平线、垂直线和文本块。
本步骤中,作为一种可实施方式的举例,可以提取PDF页面中所有路径绘制 信息,并合并为直线,即从PDF矢量流中筛选出表格线的直线段,然后再将筛选 出的相隔较近且方向一致的直线段合并为一条直线。PDF页面中的表格线采用矢 量流路径信息进行保存,具有“细、平直、长”的特点,根据此特点可以将PDF 矢量流中满足要求的直线段提取以及筛选出来,PDF的表格线在矢量流中并不是 一条完整的线条,而是由多个直线段组成,因此可以从筛选出来的直线段中将 相隔较近且方向一致的合并为整条直线,然后再从得到的直线中,根据直线的 方向,选择出水平线和垂直线。
如图3所示,以图3所示坐标为参考,若直线在y方向上的坐标大于等于 表格区域的上边框的y坐标并且小于等于表格区域下边框的y坐标,且x方向 上左端点坐标大于等于表格区域的左边框的x坐标并且小于表格的右边框的x 坐标,x方向上右端点坐标大于表格区域的左边框的x坐标并且小于等于表格的 右边框的x坐标,则将该直线作为水平线收集;
若直线在x方向上的坐标大于等于表格的左边框的x坐标并且小于等于表格 右边框的x坐标,且y方向上的上端点坐标大于等于表格的上边框的y坐标,y方 向上的下端点坐标小于等于表格的下边框的y坐标,则将该直线作为垂直线收 集。
直线提取的时候,可能会遇到两个问题:(1)由于坐标映射,可能存在精度 的问题,继而引起累计误差导致部分线不准确,如图5a-b所示;(2)根据PDF矢 量流提取直线时,阈值过小可能会导致部分矩形被识别为线,如图5c所示。因 此作为可选的较优实施方式,在提取出水平线和垂直线后,还可以进行去重和 融合处理,使得后续步骤所使用到的直线更准确。去重和融合处理的步骤中,
对于水平线:按y坐标从小到大进行排序,从第一条水平线开始,依次比较 邻近的两条水平线,若y坐标相同或者在垂直方向小于设定的高度阈值(例如全 文最小字符高度的0.5倍,可根据实际情况调整),或者水平方向满足投影相交 或者两水平线的最大左侧端点和最小右侧端点的x坐标小于设定的宽度阈值(例 如全文最小字符宽度的0.2倍,可根据实际情况调整),则水平方向取两条水平 线的四个端点的最小和最大的x坐标分别作为左端点和右端点,垂直方向取两条 水平线y坐标的平均值,构成新的水平线取代原来的两条水平线;将新的水平线 与后面邻近的水平线比较,重复上述操作,直至完成所有的水平线的比较。
对于垂直线:按x坐标从小到大进行排序,从第一条垂直线开始,依次比较 邻近的两条垂直线,若x坐标相同或者在水平方向小于设定的宽度阈值(例如全 文最小字符宽度的0.2倍,可根据实际情况调整),或者垂直方向满足相交或者 两垂直线的最大上端点和最小下端点的y坐标小于设定的高度阈值(例如全文最 小字符高度的0.5倍,可根据实际情况调整),则垂直方向取两条垂直线的四个 端点的最小和最大的y坐标分别作为上端点和下端点,垂直方向取两条垂直线y 坐标的平均值,构成新的垂直线取代原来的两条垂直线;将新的垂直线与后面 邻近的垂直线比较,重复上述操作,直至完成所有的垂直线的比较。经过上述 去重融合处理之后可以得到更为准确的水平线和垂直线。
针对于文本块的提取,可以先提取出PDF页面中所有的字符,然后再将相 邻字符根据字符流顺序和字符间距聚类为文本块,最后再从所有的文本块中提 取出表格区域所包含的文本块。字符流顺序也即PDF描绘页面信息时的矢量流 顺序,一般按照从上到下,从左到右的顺序进行绘制,然而PDF进行矢量流信 息绘制时并没有记录字符行以及段落的信息,因此实际中仅根据字符流顺序不 足以准确确定两个字符是否属于同一行以及同一个段落;字符间距是指两个字 符在页面水平方向上的字符间隔,通过同时结合字符流顺序和字符间距可以将 相邻字符合并为一个文本块。如图4中所示,灰色框区域为根据字符流顺序和 字符间距聚类的文本块。
S103,根据提取到的水平线、垂直线,判断表格区域中表格的类型,本文 中将表格分为近全线表格和近无线表格,即所述类型包括近全线表格和近无线 表格。近全线表格是指表格中所有单元格均由至少三条表格线围绕而成,也即 单元格可以通过表格线准确划分而成,近无线表格是指表格中存在少于三条表 格线包围而成的单元格,近无线表格包括完全没有表格线和有一部分表格线的 情况。在分类时,作为可实施方式的举例,例如基于表格线的分类策略进行分 类:若表格区域中水平线的数量为零,或垂直线的数量为零,或水平线和垂直 线均为一条及以上,但水平线与垂直线没有交叉点,则判断为近无线表格;除 近无线表格以外的表格判断为近全线表格。
当判断为近全线表格时,进入步骤S104,判断为近无线表格时,进入步骤 S105。
S104,根据表格区域内所有的水平线和垂直线,并以表格区域内的文本块 为辅助,确定出表格区域中近全线表格的结构。
在实现时,作为可实施方式的举例,请参阅图6,本步骤可以包括以下步骤:
S1041,求取表格区域中所有的水平线和垂直线相交点的集合。
例如,首先将表格区域内的所有的水平线按y坐标从小到大的顺序排列,将 表格区域内所有的垂直线按x坐标的从小到大排列。然后从第一条水平线开始, 依次求其与所有垂直线的交点,如存在交点,则记录交点坐标,包括x和y坐标 的值。当然,也可以第一条垂直线开始,依次求其与所有水平线的交点,如存 在交点,则记录交点坐标。
S1042,根据相交点确定表格区域内所有的单元格。以其中一个相交点为基 点,向上、下、左、右四个方向寻找另外三个点,四个点必须满足相连接的线 段构成矩形的四条边,该矩形是唯一的,该矩形即为单元格,并且形成的矩形 四条边若包含其它的交点,这些交点在矩形内不能形成子矩形。
S1043,对确定出的单元格在水平方向和垂直方向上做预处理,并结合文本 块进行有效性检查,去掉无效的单元格。
如果直线提取的精度不够,引起的累计误差可能会导致例如图7所示的情 况,即文本块或直线插入单元格中,通过本步骤去除这些无效的单元格,可以 提高表格解析的准确度。实现时,分别从水平方向和垂直方向进行处理。
水平方向:对所有的单元格按上边框的y坐标进行分组,将y坐标相同的所 有单元各归属于同一行;针对每一行的单元格,按左边框的x坐标从小到大排序, 依次检测单元格,检测并删除被直线和/或文本块穿过的单元格;对于保留下来 的单元格,从每一行的第一个单元格开始,依次和本行中邻近的单元格进行比 较,若两单元格有交集,且重合面积超过设定的重合阈值(例如80%),则检 测该两个单元格的左右边框是否存在垂直线,若存在,则保留跟垂直线吻合度 最高的垂直线作为左右边框,上下边框不变,构成新的单元格,用新的单元格 取代原来的两个单元格,如图8所示;将该新的单元格依次与后面邻近的单元 格作比较,重复上述操作,直至完成本行所有的单元格的比较。
垂直方向:对所有的单元格按左边框的x坐标进行分组,将x坐标相同的所 有单元格归属于同一列;对每一列的单元格,按上边框的y坐标从小到大排序, 依次检测单元格,检测并删除被直线和/或文本块穿过的单元格;对于保留下来 的单元格,从每一列的第一个单元格开始,依次和本列中邻近的单元格进行比 较,若两单元格有交集,且重合面积超过设定的重合阈值(例如80%),则检 测该两个单元格上下边框是否存在水平线,若存在,则保留跟水平线吻合度最 高的水平线作为上下边框,左右边框不变,构成新的单元格,用新的单元格取 代原来的两个单元格,如图8所示;将保留的单元格依次与后面邻近的单元格 作比较,重复上述操作,直至完成本列所有的单元格的比较。
上述步骤中,作为举例,所述检测并删除被直线和/或文本块穿过的单元格 的方式可以是:如果某条水平线的y坐标大于该单元格的上边框y坐标且小于下 边框y坐标,同时满足该水平线与单元格左右边框相交,则删除该单元格;或者, 如果某条垂直线的x坐标大于该单元格的左边框x坐标且小于右边框x坐标,同时 满足该垂直线与单元格上下边框相交,则删除该单元格;或者,如果某个文本 块与该单元格的四个边框中的任意一个边框相交,则删除该单元格。
需要说明的是,水平方向和垂直方向不是同时处理的,有先后之分,先进 行水平方向(或者垂直方向)处理,然后再以该处理结果为基础,再进行垂直 方向(或者水平方向)处理。如图8所示,处理之后的最终结果为图8中右侧 所示单元格。
S1044,对去掉无效的单元格之后保留下来的单元格,进行水平方向和垂直 方向的验证,检查是否存在遗漏的单元格,如果有,则补充遗漏的单元格。
上述步骤S1044中去除了无效的单元格,可能存在将正确的单元格也给误删 除了,如图9所示。本步骤是对误删除操作进行补充,填补遗漏的单元格,保 障单元格提取的精度。
单元格的补充主要从水平方向和垂直方向,用区域生长搜索法分别沿上、 下、左、右四个方向进行搜索。
针对于水平方向的搜索过程,包括以下步骤:
a.对每一行单元格,按左边框的x坐标从小到大排序,确定第一个单元格与 表格区域的左边框是否重合,若不重合,则向左搜索,找到最近的满足单元格 特征的线,确定单元格,并以此单元格为基准,继续和表格区域的左边框作比 较,以此类推,直到左侧所有单元格找到,即直至左侧找不到满足单元格特征 的线。此处的满足单元格特征的线是指:单元格的左边框线与上下边框线的左 端点相交,且满足上下边框线的左端点的x坐标小于等于左边框线的x坐标或 者在一个很小的阈值范围之内,比如2。
b.若第一个单元格与表格区域的左边框重合,假设当前单元格为cell1,本 行中邻近单元格为cell2,若cell1的右边框的x坐标与cell2的左边框的x坐标 之差超过一定的阈值(例如当前页面最小字符宽度,可根据实际情况调整), 则需要在两个单元格之间补充单元格,补充的单元格的左右边框分别与cell1的 右边框和cell2的左边框重合;若cell1的右边框的x坐标与cell2的左边框的x 坐标之差未超过一定的阈值,则不需要在该两个单元格之间补充单元格。然后 以cell2为基准,依次向右比较相邻的单元格,直至完成本行中所有的单元格的 比较及补充。
c.确定每一行的最后一个单元格与表格区域的右边框线是否有重合,如果 没有,则进行向右搜索,找到最近的满足单元格特征的线,确定单元格,并以 此单元格为基准,继续和表格区域的右边框作比较,以此类推,直到右侧所有 单元格找到。此处的满足单元格特征的线是指:单元格的右边框线与上下边框 线的右端点相交,且满足上下边框线的右端点的x坐标大于等于右边框线的x 坐标或者在一个很小的阈值范围之内,比如2。
针对于垂直方向的搜索过程,包括以下步骤:
a.对每一列单元格,按上边框的y坐标从小到大排序,确定第一个单元格 与表格区域的上边框是否重合,若不重合,则进行向上搜索,找到最近的满足 单元格特征的线,确定单元格,并以此单元格为基准,继续和表格区域的上边 框作比较,以此类推,直到上侧所有单元格找到。此处的满足单元格特征的线 是指:单元格的上边框线与左右边框线的同时存在相交,且满足左右边框线的 上端点的y坐标小于等于上边框线的y坐标或者在一个很小的阈值范围之内, 比如2。
b.若第一个单元格与表格区域的上边框重合,假设当前单元格为cell1,邻 近单元格为cell2,若cell1的下边框的y坐标与cell2的上边框的y坐标之差超 过一定的阈值(例如3.5,可根据实际情况调整),则需要在两个单元格之间补 充单元格,补充的单元格的上下边框分别与cell1的下边框和cell2的上边框重合; 若cell1的下边框的x坐标与cell2的上边框的y坐标之差未超过一定的阈值,则 不需要在该两个单元格之间补充单元格。然后以cell2为基准,依次向下比较相 邻的单元格,直至完成本列中所有的单元格的比较及补充。
c.确定每一列的最后一个单元格与表格区域的下边框线是否有重合,如果 没有,则进行向下搜索,找到最近的满足单元格特征的线,确定单元格,并以 此单元格为基准,继续和表格区域的下边框作比较,以此类推,直到下侧所有 单元格找到。此处的满足单元格特征的线是指:单元格的下边框线与左右边框 线的下端点相交,且满足左右边框线的下端点的y坐标大于等于下边框线的y坐 标或者在一个很小的阈值范围之内,比如2。
S1045,确定所有的单元格的行列索引信息和行列合并信息。经过前面的步 骤S1041-S1044,已经准确地确定出了近全线表格区域中组成表格的单元格,本 步骤即可以确定出表格的行列索引信息及行列合并信息。
例如,首先按单元格的上边框的y坐标从小到大进行排序,将y坐标在某个 阈值范围以内的设为同一行,这样从上到下,所有单元格的行索引即确定,如 果有N行,则单元格的行索引可以为0~(N-1);
然后,针对每一行单元格,按照单元格的左边框的x坐标从小到大进行排序, 依次确定每个单元格的列索引,如果该行有M个单元格,则单元格的列索引可以 为0~(M-1);
然后,针对每一个单元格进行垂直方向投影,如果覆盖n行,则行合并信息 为n,对该单元格进行水平方向投影,如果覆盖m列,则列合并信息为m;
最后,通过单元格的行列索引和行列合并信息即可确定表格的空间结构, 得到最终的结构化数据。
S105,根据表格区域内的所有文本块,并以表格区域内的水平线和/或垂直 线为辅助,确定出表格区域中近无线表格的结构。
在实现时,作为可实施方式的举例,请参阅图10,本步骤可以包括以下步 骤:
S1051,将表格区域内属于同一行的文本块聚类为文本行。
在聚类时,需要注意合并的文本块属于同一个文本行。如图9所示,3个文 本块在垂直方向上距离小于某个阈值(例如文本块字符的平均高度)并且存在 水平方向上的投影重叠区,则认为是一个合并的文本块。聚类时,将所有的独 立的文本块和合并的文本块向垂直方向投影,其中合并的文本块作为一个整体 进行投影,有交集的聚类为一个文本行。
S1052,针对于每一个文本行,根据该文本行中的文本块及表格区域内的水 平线和/或垂直线,确定出该文本行中单独的文本块的个数及合并的文本块的列 数,以两者之和作为该文本行的列数,保留列数最大的文本行;若存在多个最 大列数的文本行,则按y坐标从小到大排序,依次对相邻的文本行中的文本块进 行水平投影聚类,取水平方向上最小值为列区间的左边框,最大值为列区间的 右边框,表格区域的上、下边框分别作为列区间的上、下边框,确定出聚类的 列区间;若只存在一个最大列数的文本行,则直接以该文本行中的文本块的坐 标确定出列区间。
一般地,合并的文本块一般是在视觉上包含多行的文本块,如图11a-f所示 的几种情况。
对应图11a中的合并文本块,文本块1与文本块2、文本块3在水平方向上 的投影都存在重合区,文本块2、文本块3在水平方向上的投影不存在重合区, 且两者的距离大于设定的距离阈值,则该合并文本块的列数为2,以此类推,如 果文本块1覆盖了N’个文本块,且N’个文本块在水平方向没有投影重合区且 相互之间满足一定的距离,则该合并文本块的列数为N’。
对应图11b-e的合并文本块,文本块1与文本块2在水平方向有投影重合区, 则该合并文本块的列数为1,以此类推,如果文本块1覆盖了N’个文本块,且 N’个文本块在水平方向有投影重合区且任意两两之间都有投影重合区,则该合 并文本块的列数为1。
对应图11f中的合并文本块,文本块1与文本块2、文本块3整体之间有水 平线分割,文本块2、文本块3在水平方向上的投影不存在重合区,且满足一定 的距离,则该合并文本块的列数为2,以此类推,如果文本块1与N’个文本块 之间有直线隔开,且N’个文本块在水平方向没有投影重合区且相互之间满足一 定的距离,则该合并文本块的列数为N’。
对于一个文本行而言,确定合并文本块的列数为N1,非合并的文本块的个 数为N2,则可以确定该文本行的列数为(N1+N2)。
确定所有文本行的列数后,列数最大的文本行存在多个,如图12所示,列 数最大为4,有两个文本行的列数达到了4,分别为第一个和第二个,则都需要 保留下来,在后面做进一步的处理。
S1053,针对于每一个文本行,将文本行中的文本块进行垂直投影,以投影 区域的个数作为该文本行的行数,保留行数最大的文本行;若存在多个最大行 数的文本行,则按x坐标从小到大排序,依次对相邻的文本行中的文本块进行垂 直投影聚类,取垂直方向上最小值为行区间的上边框,最大值为行区间的下边 框,表格区域的左、右边框分别作为行区间的左、右边框,确定出聚类的行区 间;若只存在一个最大列数的文本行,则直接对该文本行进行投影,确定出列 区间。
如图12中所示的第一个文本行,包含3个文本块,其中中间的文本块为合 并文本块,两边的分别为独立的文本块,在垂直方向进行投影,一共有两个区 域,如图13显示的两个行区间。
S1054,根据确定出的行区间和列区间确定出单元格的行列索引信息和行列 合并信息,得到近无线表格的结构。例如将每一个文本行进行分析,取出当前 文本行中所有的文本块,依次与当前文本行的行区间作垂直投影,确定行索引 信息和行合并信息,与当前文本行的列区间作水平投影,确定列索引信息和列 合并信息。
例如,首先取出第一个文本行,对该文本行对应的行区间,按y坐标从小 到大排序,确定文本行中列区间的索引值,例如有N个列区间,索引值对应为 0~(N-1),取出该文本行里面所有的文本块,设定一个行偏移量rowOffset, 从0开始,后面每处理完一个文本行,行偏移量rowOffset的值就增加当前文本 行的行区间的个数。
然后,对每个文本块,首先检查是否存在有线单元格包含该文本块,若存 在,用该单元格在垂直方向做投影,否则用该文本块本身在垂直方向做投影, 最终得出对应有重合的行区间投影,如果该文本块的垂直投影与N个行区间在 垂直投影方向交集,则该文本块的行合并信息为N,否则为1。
当前处理的文本块,如果只与一个行区间有垂直投影交集,则该文本块的 行索引为rowOffset,如果该文本块与多个行区间有垂直投影交集,则该文本块 的行索引为rowOffset加上对应多个行区间中的第一个行区间的索引之和。
然后,再对每个文本块,首先检查是否存在有线单元格包含该文本块,如 存在,用该单元格进行水平投影,否则用该文本块本身进行水平投影,找到有 水平投影交集的列区间,若只存在一个列区间,则该文本块的列索引为对应列 区间的索引,列合并信息为1,如果存在多个列区间,则多个列区间中的第一个 列区间索引即为该文本块的列索引,列合并信息即为对应列区间的个数。
依此类推,处理下一个文本行,直到完成所有文本行的分析,最终得出表 格的空间结构。
基于相同的发明构思,本发明实施例同时提供了一种PDF文档中的表格矢 量解析装置,对于装置实施例中未描述之处,可以参见前述方法实施例中的相 应描述。
请参阅图14,所述PDF文档中的表格矢量解析装置,包括:
文档接收模块41,用于接收已确定出表格区域的PDF文档;
直线提取模块42,用于提取出表格区域中的水平线、垂直线;
去重处理模块43,用于对提取的水平线和垂直线进行去重和融合处理;
文本块提取模块44,用于提取出表格区域中的文本块;
表格类型判断模块45,用于根据提取到的水平线、垂直线,判断表格区域 中表格的类型,所述类型包括近全线表格和近无线表格;
近全线表格结构确定模块46,用于在表格为近全线表格时,根据表格区域 内所有的水平线和垂直线,并以表格区域内的文本块为辅助,确定出表格区域 中近全线表格的结构;
近无线表格结构确定模块47,用于在表格为近无线表格时,根据表格区域 内的所有文本块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区 域中近无线表格的结构。
在一个实施方案中,近全线表格结构确定模块46包括以下子模块:
交点确定子模块,用于求取表格区域中所有的水平线和垂直线相交点的集 合;
单元格初步确定子模块,用于根据相交点确定表格区域内所有的单元格;
近全线表格结构确定子模块,用于确定所有的单元格的行列索引信息和行 列合并信息,得到近全线表格的结构。
另外,在其他实施例中,可选的,近全线表格结构确定模块46还可以包括:
无效单元格去除子模块,用于对确定出的单元格在水平方向和垂直方向上 做预处理,并结合文本块进行有效性检查,去掉无效的单元格;和
遗漏单元格补充子模块,用于对去掉无效的单元格之后保留下来的单元格, 进行水平方向和垂直方向的验证,检查是否存在遗漏的单元格,如果有,则补 充遗漏的单元格。
在一个实施方案中,近无线表格结构确定模块47包括:
文本块聚类子模块,用于将表格区域内属于同一行的文本块聚类为文本行;
列区间确定子模块,用于针对于每一个文本行,确定该文本行包含的列区 间。例如,根据该文本行中的文本块及表格区域内的水平线和/或垂直线,确定 出该文本行中单独的文本块的个数及合并的文本块的列数,以两者之和作为该 文本行的列数,保留列数最大的文本行;若存在多个最大列数的文本行,则按y 坐标从小到大排序,依次对相邻的文本行中的文本块进行水平投影聚类,取水 平方向上最小值为列区间的左边框,最大值为列区间的右边框,表格区域的上、 下边框分别作为列区间的上、下边框,确定出聚类的列区间;若只存在一个最 大列数的文本行,则直接以该文本行中的文本块的坐标确定出列区间;
行区间确定子模块,用于针对于每一个文本行,确定该文本行包含的行区 间。例如,将文本行中的文本块进行垂直投影,以投影区域的个数作为该文本 行的行数,保留行数最大的文本行;若存在多个最大行数的文本行,则按x坐标 从小到大排序,依次对相邻的文本行中的文本块进行垂直投影聚类,取垂直方 向上最小值为行区间的上边框,最大值为行区间的下边框,表格区域的左、右 边框分别作为行区间的左、右边框,确定出聚类的行区间;若只存在一个最大 行数的文本行,则直接对该文本行进行垂直投影,确定出行区间;
近无线表格结构确定子模块,用于根据确定出的行区间和列区间确定出单 元格的行列索引信息和行列合并信息,得到近无线表格的结构。
在一个实施方案中,表格类型判断模块45具体用于:
若表格区域中水平线的数量为零,或垂直线的数量为零,或水平线和垂直 线均为一条及以上,但水平线与垂直线没有交叉点,则判断为近无线表格;除 近无线表格以外的表格判断为近全线表格。
在一个实施方案中,直线提取模块42具体用于:
提取PDF页面中所有路径绘制信息,并合并为直线;
若直线在y方向上的坐标大于等于表格区域的上边框的y坐标并且小于等 于表格区域下边框的y坐标,且x方向上左端点坐标大于等于表格区域的左边 框的x坐标并且小于表格的右边框的x坐标,x方向上右端点坐标大于表格区域 的左边框的x坐标并且小于等于表格的右边框的x坐标,则将该直线作为水平 线收集;
若直线在x方向上的坐标大于等于表格的左边框的x坐标并且小于等于表格 右边框的x坐标,且y方向上的上端点坐标大于等于表格的上边框的y坐标,y方 向上的下端点坐标小于等于表格的下边框的y坐标,则将该直线作为垂直线收 集。
如图15所示,本实施例同时提供了一种电子设备,该电子设备可以包括处 理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是 示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、 图表重绘、通信或其他功能。
如图15所示,该电子设备还可以包括:输入单元53、显示单元54和电源 55。值得注意的是,该电子设备也并不是必须要包括图15中显示的所有部件。 此外,电子设备还可以包括图15中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装 置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存 储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51 的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以 执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储 器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供待处理的PDF文档。显示单元54 用于显示图6-8,10-12所示的各种状态图,或者是从PDF文档中的表格中提取 的信息,或者是重构的表格,该显示单元例如可以为LCD显示器,但本发明并 不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述 指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计 算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着 执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本 发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地 描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决 于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用 来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描 述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过 程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方 法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性 的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另 外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或 一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接 耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也 可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本发明实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明 的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部 或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介 质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器, 或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、 随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以 存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 所述以权利要求的保护范围为准。

Claims (22)

1.一种PDF文档中的表格矢量解析方法,其特征在于,包括以下步骤:
接收包含表格区域的PDF文档;
提取出表格区域中的水平线、垂直线和文本块;
根据提取到的水平线、垂直线,判断表格区域中表格的类型,所述类型包括近全线表格和近无线表格;
若表格为近全线表格,则根据表格区域内水平线和垂直线,并以表格区域内的文本块为辅助,确定出表格区域中近全线表格的结构;以及
若表格为近无线表格,则根据表格区域内的文本块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区域中近无线表格的结构。
2.根据权利要求1所述的方法,其特征在于,在判断表格区域中表格的类型的步骤之前,所述方法还包括步骤:对提取的水平线和垂直线进行去重和融合处理。
3.根据权利要求2所述的方法,其特征在于,所述对提取的水平线和垂直线进行去重和融合处理的步骤包括:
对于水平线:按y坐标从小到大进行排序,从第一条水平线开始,依次比较邻近的两条水平线,若y坐标相同或者在垂直方向小于设定的高度阈值,或者水平方向满足投影相交或者两水平线的最大左侧端点和最小右侧端点的x坐标小于设定的宽度阈值,则水平方向取两条水平线的四个端点的最小和最大的x坐标分别作为左端点和右端点,垂直方向取两条水平线y坐标的平均值,构成新的水平线取代原来的两条水平线;
将新的水平线与邻近的水平线比较,重复上述操作,直至完成所有的水平线的比较;
对于垂直线:按x坐标从小到大进行排序,从第一条垂直线开始,依次比较邻近的两条垂直线,若x坐标相同或者在水平方向小于设定的宽度阈值,或者垂直方向满足相交或者两垂直线的最大上端点和最小下端点的y坐标小于设定的高度阈值,则垂直方向取两条垂直线的四个端点的最小和最大的y坐标分别作为上端点和下端点,垂直方向取两条垂直线y坐标的平均值,构成新的垂直线取代原来的两条垂直线;
将新的垂直线与邻近的垂直线比较,重复上述操作,直至完成所有的垂直线的比较。
4.根据权利要求1所述的方法,其特征在于,所述根据提取到的水平线、垂直线,判断表格区域中表格的类型的步骤包括:
若表格区域中水平线的数量为零,或垂直线的数量为零,或水平线和垂直线均为一条及以上,但水平线与垂直线没有交叉点,则判断为近无线表格;
除近无线表格以外的表格判断为近全线表格。
5.根据权利要求1所述的方法,其特征在于,所述确定出表格区域中近全线表格的结构的步骤包括:
求取表格区域中所有的水平线和垂直线相交点的集合;
根据所述相交点的集合确定表格区域内所有单元格;以及
确定所有单元格的行列索引信息和行列合并信息,得到近全线表格的结构。
6.根据权利要求5所述的方法,还包括如下的无效单元格去除步骤:
对确定出的单元格在水平方向和垂直方向上做预处理,并结合文本块进行有效性检查,去掉无效的单元格。
7.根据权利要求5所述的方法,还包括如下的遗漏单元格补充步骤:
对确定的单元格进行水平方向和垂直方向的验证,检查是否存在遗漏的单元格,如果有,则补充遗漏的单元格。
8.根据权利要求6所述的方法,其特征在于,所述去掉无效的单元格的步骤包括:
水平方向:对所有的单元格按上边框的y坐标进行分组,将y坐标相同的所有单元各归属于同一行;对每一行的单元格,按左边框的x坐标从小到大排序,依次检测单元格,检测并删除被直线和/或文本块穿过的单元格;对于保留下来的单元格,从每一行的第一个单元格开始,依次和邻近的单元格进行比较,若两单元格有交集,且重合面积超过设定的重合阈值,则检测该两个单元格的左右边框是否存在垂直线,若存在,则保留跟垂直线吻合度最高的垂直线作为左右边框,上下边框不变,构成新的单元格;
用新的单元格取代原来的两个单元格,将该新的单元格再与邻近的单元格作比较,重复上述操作,直至完成本行所有的单元格的比较;
垂直方向:对所有的单元格按左边框的x坐标进行分组,将x坐标相同的所有单元格归属于同一列;对每一列的单元格,按上边框的y坐标从小到大排序,依次检测单元格,检测并删除被直线和/或文本块穿过的单元格;对于保留下来的单元格,从每一列的第一个单元格开始,依次和邻近的单元格进行比较,若两单元格有交集,且重合面积超过设定的重合阈值,则检测该两个单元格上下边框是否存在水平线,若存在,则保留跟水平线吻合度最高的水平线作为上下边框,左右边框不变,构成新的单元格;
用新的单元格取代原来的两个单元格,将新的单元格再与邻近的单元格作比较,重复上述操作,直至完成本列所有的单元格的比较。
9.根据权利要求7所述的方法,其特征在于,所述检查是否存在遗漏的单元格,如果有,则补充遗漏的单元格的步骤包括:
水平方向:a.对每一行单元格,按左边框的x坐标从小到大排序,确定第一个单元格与表格区域的左边框是否重合,若不重合,则向左搜索,找到最近的满足单元格特征的线,确定单元格,并以此单元格为基准,继续和表格区域的左边框作比较,以此类推,直至左侧找不到满足单元格特征的线;此处的满足单元格特征的线是指:单元格的左边框线与上下边框线的左端点相交,且满足上下边框线的左端点的x坐标小于等于左边框线的x坐标或者在一个阈值范围之内;
b.若第一个单元格与表格区域的左边框重合,若第一个单元格的右边框的x坐标与本行邻近单元格的左边框的x坐标之差超过一定的宽度阈值,则在两个单元格之间补充一个单元格,补充的单元格的左右边框分别与第一个单元格的右边框和本行邻近单元格的左边框重合;然后以本行邻近单元格为基准,依次向右比较相邻的单元格,直至完成本行中所有的单元格的比较及补充;
c.确定每一行的最后一个单元格与表格区域的右边框线是否有重合,如果没有,则进行向右搜索,找到最近的满足单元格特征的线,确定单元格,并以此单元格为基准,继续和表格区域的右边框作比较,以此类推,直到右侧找不到满足单元格特征的线;此处的满足单元格特征的线是指:单元格的右边框线与上下边框线的右端点相交,且满足上下边框线的右端点的x坐标大于等于右边框线的x坐标或者在一个阈值范围之内;
垂直方向:a.对每一列单元格,按上边框的y坐标从小到大排序,确定第一个单元格与表格区域的上边框是否重合,若不重合,则进行向上搜索,找到最近的满足单元格特征的线,确定单元格,并以此单元格为基准,继续和表格区域的上边框作比较,以此类推,直到上侧找不到满足单元格特征的线;此处的满足单元格特征的线是指:单元格的上边框线与左右边框线的同时存在相交,且满足左右边框线的上端点的y坐标小于等于上边框线的y坐标或者在一个阈值范围之内;
b.若第一个单元格与表格区域的上边框重合,若第一个单元格的下边框的y坐标与本列邻近单元格的上边框的y坐标之差超过一定的高度阈值,则在两个单元格之间补充一个单元格,补充的单元格的上下边框分别与第一个单元格的下边框和本列邻近单元格的上边框重合;然后以本列邻近单元格为基准,依次向下比较相邻的单元格,直至完成本列中所有的单元格的比较及补充;
c.确定每一列的最后一个单元格与表格区域的下边框线是否有重合,如果没有,则进行向下搜索,找到最近的满足单元格特征的线,确定单元格,并以此单元格为基准,继续和表格区域的下边框作比较,以此类推,直到下侧找不到满足单元格特征的线;此处的满足单元格特征的线是指:单元格的下边框线与左右边框线的下端点相交,且满足左右边框线的下端点的y坐标大于等于下边框线的y坐标或者在一个阈值范围之内。
10.根据权利要求1所述的方法,其特征在于,所述确定出表格区域中近无线表格的结构的步骤包括:
将表格区域内属于同一行的文本块聚类为文本行;
针对于每一个文本行,根据该文本行中的文本块及表格区域内的水平线和/或垂直线,确定出该文本行中单独的文本块的个数及合并的文本块的列数,以两者之和作为该文本行的列数,保留列数最大的文本行;若存在多个最大列数的文本行,则按y坐标从小到大排序,依次对相邻的文本行中的文本块进行水平投影聚类,取水平方向上最小值为列区间的左边框,最大值为列区间的右边框,表格区域的上、下边框分别作为列区间的上、下边框,确定出聚类的列区间;若只存在一个最大列数的文本行,则直接以该文本行中的文本块的坐标确定出列区间;
针对于每一个文本行,将文本行中的文本块进行垂直投影,以投影区域的个数作为该文本行的行数,保留行数最大的文本行;若存在多个最大行数的文本行,则按x坐标从小到大排序,依次对相邻的文本行中的文本块进行垂直投影聚类,取垂直方向上最小值为行区间的上边框,最大值为行区间的下边框,表格区域的左、右边框分别作为行区间的左、右边框,确定出聚类的行区间;若只存在一个最大行数的文本行,则直接对该文本行进行垂直投影,确定出行区间;
根据确定出的行区间和列区间确定出单元格的行列索引信息和行列合并信息,得到近无线表格的结构。
11.根据权利要求10所述的方法,其特征在于,所述确定出所述文本行中合并的文本块的列数的步骤包括:
如果一个文本块覆盖了N个文本块,且N个文本块在水平方向没有投影重合区且相互之间满足一定的距离,则该合并文本块的列数为N’;和/或,
如果一个文本块覆盖了N’个文本块,且N’个文本块在水平方向有投影重合区且任意两两之间都有投影重合区,则该合并文本块的列数为1;
如果一个文本块与N”个文本块之间有直线隔开,且N”个文本块在水平方向没有投影重合区且相互之间满足一定的距离,则该合并文本块的列数为N”。
12.根据权利要求10所述的方法,其特征在于,所述根据确定出的行区间和列区间确定出单元格的行列索引信息和行列合并信息的步骤包括:
将每一个文本行进行分析,取出当前文本行中所有的文本块,依次与当前文本行的行区间作垂直投影,确定行索引信息和行合并信息,与当前文本行的列区间作水平投影,确定列索引信息和列合并信息。
13.根据权利要求1所述的方法,其特征在于,所述提取出表格区域中的水平线、垂直线的步骤包括:
提取PDF页面中所有路径绘制信息,并合并为直线;
若直线在y方向上的坐标大于等于表格区域的上边框的y坐标并且小于等于表格区域下边框的y坐标,且x方向上左端点坐标大于等于表格区域的左边框的x坐标并且小于表格的右边框的x坐标,x方向上右端点坐标大于表格区域的左边框的x坐标并且小于等于表格的右边框的x坐标,则将该直线作为水平线收集;
若直线在x方向上的坐标大于等于表格的左边框的x坐标并且小于等于表格右边框的x坐标,且y方向上的上端点坐标大于等于表格的上边框的y坐标,y方向上的下端点坐标小于等于表格的下边框的y坐标,则将该直线作为垂直线收集。
14.根据权利要求1所述的方法,其特征在于,所述提取出表格区域中的文本块的步骤包括:
提取出PDF页面中所有的字符;
将相邻字符根据字符流顺序和字符间距聚类为文本块;
从所有的文本块中提取出表格区域所包含的文本块。
15.一种PDF文档中的表格矢量解析装置,其特征在于,包括:
文档接收模块,用于接收包含表格区域的PDF文档;
直线提取模块,用于提取出表格区域中的水平线、垂直线;
文本块提取模块,用于提取出表格区域中的文本块;
表格类型判断模块,用于根据提取到的水平线、垂直线,判断表格区域中表格的类型,所述类型包括近全线表格和近无线表格;
近全线表格结构确定模块,用于在表格为近全线表格时,根据表格区域内水平线和垂直线,并以表格区域内的文本块为辅助,确定出表格区域中近全线表格的结构;
近无线表格结构确定模块,用于在表格为近无线表格时,根据表格区域内的文本块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区域中近无线表格的结构。
16.根据权利要求15所述的装置,其特征在于,所述近全线表格结构确定模块包括以下子模块:
交点确定子模块,用于求取表格区域中所有的水平线和垂直线相交点的集合;
单元格初步确定子模块,用于根据所述相交点的集合确定表格区域内所有单元格;以及
近全线表格结构确定子模块,用于确定所有的单元格的行列索引信息和行列合并信息,得到近全线表格的结构。
17.根据权利要求16所述的装置,所述近全线表格结构确定模块还包括:
无效单元格去除子模块,用于对确定出的单元格在水平方向和垂直方向上做预处理,并结合文本块进行有效性检查,去掉无效的单元格。
18.根据权利要求16所述的装置,所述近全线表格结构确定模块还包括:
遗漏单元格补充子模块,用于对去掉无效的单元格之后保留下来的单元格,进行水平方向和垂直方向的验证,检查是否存在遗漏的单元格,如果有,则补充遗漏的单元格。
19.根据权利要求15所述的装置,其特征在于,所述装置还包括去重处理模块,用于对提取的水平线和垂直线进行去重和融合处理。
20.根据权利要求15所述的装置,其特征在于,所述近无线表格结构确定模块包括:
文本块聚类子模块,用于将表格区域内属于同一行的文本块聚类为文本行;
列区间确定子模块,用于针对每一个文本行,确定该文本行所包含的列区间;
行区间确定子模块,用于针对每一个文本行,确定该文本行所包含的行区间;以及
近无线表格结构确定子模块,用于根据确定出的行区间和列区间确定出单元格的行列索引信息和行列合并信息,得到近无线表格的结构。
21.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-14任一所述方法中的操作。
22.一种电子设备,其特征在于,所述的设备包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-14任一所述方法中的步骤。
CN201810254092.4A 2018-03-26 2018-03-26 Pdf文档中的表格矢量解析方法及装置 Active CN108446264B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810254092.4A CN108446264B (zh) 2018-03-26 2018-03-26 Pdf文档中的表格矢量解析方法及装置
US15/984,224 US10592184B2 (en) 2018-03-26 2018-05-18 Method and device for parsing tables in PDF document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810254092.4A CN108446264B (zh) 2018-03-26 2018-03-26 Pdf文档中的表格矢量解析方法及装置

Publications (2)

Publication Number Publication Date
CN108446264A true CN108446264A (zh) 2018-08-24
CN108446264B CN108446264B (zh) 2022-02-15

Family

ID=63197242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810254092.4A Active CN108446264B (zh) 2018-03-26 2018-03-26 Pdf文档中的表格矢量解析方法及装置

Country Status (2)

Country Link
US (1) US10592184B2 (zh)
CN (1) CN108446264B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
CN109447007A (zh) * 2018-12-19 2019-03-08 天津瑟威兰斯科技有限公司 一种基于表格节点识别的表格结构补全算法
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN110032718A (zh) * 2019-04-12 2019-07-19 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN110188649A (zh) * 2019-05-23 2019-08-30 成都火石创造科技有限公司 基于tesseract-ocr的pdf文件解析方法
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN110413962A (zh) * 2019-06-28 2019-11-05 南京智录信息科技有限公司 文档图像中的无边框表格解析技术
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、系统、存储介质及电子设备
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN110598196A (zh) * 2019-09-16 2019-12-20 腾讯科技(深圳)有限公司 一种缺失外边框的表格数据提取方法、装置和存储介质
CN110705213A (zh) * 2019-08-23 2020-01-17 平安科技(深圳)有限公司 Pdf表格提取方法、装置、终端及计算机可读存储介质
CN111046636A (zh) * 2019-12-12 2020-04-21 深圳前海环融联易信息科技服务有限公司 筛选pdf文件信息的方法、装置、计算机设备及存储介质
CN111079756A (zh) * 2018-10-19 2020-04-28 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN111127339A (zh) * 2019-12-04 2020-05-08 北京华宇信息技术有限公司 一种文档图像的梯形畸变矫正方法及装置
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统
CN112380812A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
CN112668289A (zh) * 2020-12-25 2021-04-16 苏州开心盒子软件有限公司 一种嵌套表格的提取方法及装置、存储介质
CN113158987A (zh) * 2021-05-19 2021-07-23 中国科学技术信息研究所 表格处理方法、装置、设备及计算机可读存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113361257A (zh) * 2021-06-29 2021-09-07 深圳壹账通智能科技有限公司 Pdf文档解析方法、系统、电子装置及存储介质
CN113486638A (zh) * 2021-07-29 2021-10-08 浙江大华技术股份有限公司 表格的重构方法和装置、存储介质及电子装置
CN114022888A (zh) * 2022-01-06 2022-02-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
WO2022166833A1 (zh) * 2021-02-07 2022-08-11 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
WO2022166707A1 (zh) * 2021-02-07 2022-08-11 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6810892B2 (ja) * 2017-06-05 2021-01-13 京セラドキュメントソリューションズ株式会社 画像処理装置
US11205249B2 (en) * 2019-11-14 2021-12-21 Adobe Inc. Table shifting and skewing
US11182604B1 (en) * 2019-11-26 2021-11-23 Automation Anywhere, Inc. Computerized recognition and extraction of tables in digitized documents
CN111144282B (zh) * 2019-12-25 2023-12-05 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111079697A (zh) * 2019-12-27 2020-04-28 湖南特能博世科技有限公司 表格提取方法、装置和电子设备
KR102171325B1 (ko) * 2020-01-14 2020-10-28 티아이테크놀로지 주식회사 Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법
CN111259854B (zh) * 2020-02-04 2023-04-18 北京爱医生智慧医疗科技有限公司 一种文本图像中表格的结构化信息的识别方法及装置
CN111414919B (zh) * 2020-03-26 2023-12-12 广州市巨应信息科技有限公司 带表格印刷体图片文字提取方法、装置、设备及存储介质
CN111695553B (zh) * 2020-06-05 2023-09-08 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN111753706B (zh) * 2020-06-19 2024-02-02 西安工业大学 一种基于图像统计学的复杂表格交点聚类提取方法
CN114077830A (zh) * 2020-08-17 2022-02-22 税友软件集团股份有限公司 一种基于位置的pdf表格文档的解析方法、装置及设备
CN112149561B (zh) * 2020-09-23 2024-04-16 杭州睿琪软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112580500B (zh) * 2020-12-17 2023-07-11 国网山西省电力公司晋城供电公司 一种工程批复文件的信息提取方法、装置及电子设备
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
US11720541B2 (en) 2021-01-05 2023-08-08 Morgan Stanley Services Group Inc. Document content extraction and regression testing
US11887393B2 (en) * 2021-03-02 2024-01-30 Claritrics Inc. End-to-end system for extracting tabular data present in electronic documents and method thereof
CN113159201B (zh) * 2021-04-28 2023-04-25 上海德衡数据科技有限公司 基于云边缘计算智能融合信息的方法、装置及云端服务器
CN113705175B (zh) * 2021-08-18 2024-02-23 厦门海迈科技股份有限公司 一种电子表格行列精简的方法、服务器及存储介质
CN113836878A (zh) * 2021-09-02 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的表格生成方法、装置、电子设备及存储介质
CN114943978B (zh) * 2022-05-13 2023-10-03 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
CN115496050B (zh) * 2022-11-17 2023-05-19 宇动源(北京)信息技术有限公司 表头斜线的配置式绘制方法、装置、电子设备及存储介质
CN117350260B (zh) * 2023-12-06 2024-02-27 北京车主邦新能源科技有限公司 Pdf页面表格内容的重构方法及装置
CN117496545B (zh) * 2024-01-02 2024-03-15 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336094B1 (en) * 1995-06-30 2002-01-01 Price Waterhouse World Firm Services Bv. Inc. Method for electronically recognizing and parsing information contained in a financial statement
CN101010672A (zh) * 2004-10-07 2007-08-01 国际商业机器公司 处理电子表格中的单元格的方法、系统和计算机程序产品
US20080028291A1 (en) * 2006-07-26 2008-01-31 Xerox Corporation Graphical syntax analysis of tables through tree rewriting
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
US20100174980A1 (en) * 2009-01-02 2010-07-08 Philip Andrew Mansfield Identification of Regions of a Document
CN101833546A (zh) * 2009-03-10 2010-09-15 株式会社理光 从可移植电子文档中提取表格的方法和装置
CN101976232A (zh) * 2010-09-19 2011-02-16 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
CN103176956A (zh) * 2011-12-21 2013-06-26 北大方正集团有限公司 用于提取文档结构的方法和装置
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
CN103377177A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
US20130343658A1 (en) * 2012-06-22 2013-12-26 Xerox Corporation System and method for identifying regular geometric structures in document pages
CN104094282A (zh) * 2012-01-23 2014-10-08 微软公司 无边框表格检测引擎
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
US20170024365A1 (en) * 2015-01-28 2017-01-26 Box, Inc. Method and system for implementing a collaboration platform for structured objects in a document
CN106802884A (zh) * 2017-02-17 2017-06-06 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
US20170220858A1 (en) * 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Optical recognition of tables

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015004213A1 (de) * 2015-03-31 2016-10-06 Linde Aktiengesellschaft Verfahren und eine Anlage zur Erzeugung von Synthesegas

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336094B1 (en) * 1995-06-30 2002-01-01 Price Waterhouse World Firm Services Bv. Inc. Method for electronically recognizing and parsing information contained in a financial statement
CN101010672A (zh) * 2004-10-07 2007-08-01 国际商业机器公司 处理电子表格中的单元格的方法、系统和计算机程序产品
US20080028291A1 (en) * 2006-07-26 2008-01-31 Xerox Corporation Graphical syntax analysis of tables through tree rewriting
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
US20100174980A1 (en) * 2009-01-02 2010-07-08 Philip Andrew Mansfield Identification of Regions of a Document
US20100174982A1 (en) * 2009-01-02 2010-07-08 Philip Andrew Mansfield Identification of compound graphic elements in an unstructured document
CN101833546A (zh) * 2009-03-10 2010-09-15 株式会社理光 从可移植电子文档中提取表格的方法和装置
CN101976232A (zh) * 2010-09-19 2011-02-16 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
CN103176956A (zh) * 2011-12-21 2013-06-26 北大方正集团有限公司 用于提取文档结构的方法和装置
CN104094282A (zh) * 2012-01-23 2014-10-08 微软公司 无边框表格检测引擎
CN103377177A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
US20130343658A1 (en) * 2012-06-22 2013-12-26 Xerox Corporation System and method for identifying regular geometric structures in document pages
CN103258198A (zh) * 2013-04-26 2013-08-21 四川大学 一种表格文档图像中字符提取方法
US20170024365A1 (en) * 2015-01-28 2017-01-26 Box, Inc. Method and system for implementing a collaboration platform for structured objects in a document
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
US20170220858A1 (en) * 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Optical recognition of tables
CN106802884A (zh) * 2017-02-17 2017-06-06 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079756A (zh) * 2018-10-19 2020-04-28 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN111079756B (zh) * 2018-10-19 2023-09-19 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN112818812A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN112818812B (zh) * 2018-12-13 2024-03-12 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109447007A (zh) * 2018-12-19 2019-03-08 天津瑟威兰斯科技有限公司 一种基于表格节点识别的表格结构补全算法
CN109635268B (zh) * 2018-12-29 2023-05-05 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110032718A (zh) * 2019-04-12 2019-07-19 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN110032718B (zh) * 2019-04-12 2023-04-18 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN110188649B (zh) * 2019-05-23 2021-11-23 成都火石创造科技有限公司 基于tesseract-ocr的pdf文件解析方法
CN110188649A (zh) * 2019-05-23 2019-08-30 成都火石创造科技有限公司 基于tesseract-ocr的pdf文件解析方法
CN110287854B (zh) * 2019-06-20 2022-06-10 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、系统、存储介质及电子设备
CN110413962A (zh) * 2019-06-28 2019-11-05 南京智录信息科技有限公司 文档图像中的无边框表格解析技术
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN110516208B (zh) * 2019-08-12 2023-06-09 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN110705213B (zh) * 2019-08-23 2023-11-14 平安科技(深圳)有限公司 Pdf表格提取方法、装置、终端及计算机可读存储介质
WO2021036380A1 (zh) * 2019-08-23 2021-03-04 平安科技(深圳)有限公司 Pdf表格提取方法、装置、计算机设备及计算机可读存储介质
CN110705213A (zh) * 2019-08-23 2020-01-17 平安科技(深圳)有限公司 Pdf表格提取方法、装置、终端及计算机可读存储介质
CN110598196A (zh) * 2019-09-16 2019-12-20 腾讯科技(深圳)有限公司 一种缺失外边框的表格数据提取方法、装置和存储介质
CN111127339B (zh) * 2019-12-04 2020-10-30 北京华宇信息技术有限公司 一种文档图像的梯形畸变矫正方法及装置
CN111127339A (zh) * 2019-12-04 2020-05-08 北京华宇信息技术有限公司 一种文档图像的梯形畸变矫正方法及装置
CN111046636A (zh) * 2019-12-12 2020-04-21 深圳前海环融联易信息科技服务有限公司 筛选pdf文件信息的方法、装置、计算机设备及存储介质
CN111046636B (zh) * 2019-12-12 2024-04-12 深圳前海环融联易信息科技服务有限公司 筛选pdf文件信息的方法、装置、计算机设备及存储介质
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN112380812A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统
CN112668289A (zh) * 2020-12-25 2021-04-16 苏州开心盒子软件有限公司 一种嵌套表格的提取方法及装置、存储介质
WO2022166707A1 (zh) * 2021-02-07 2022-08-11 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
WO2022166833A1 (zh) * 2021-02-07 2022-08-11 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
CN113221743B (zh) * 2021-05-12 2024-01-12 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113158987A (zh) * 2021-05-19 2021-07-23 中国科学技术信息研究所 表格处理方法、装置、设备及计算机可读存储介质
CN113361257A (zh) * 2021-06-29 2021-09-07 深圳壹账通智能科技有限公司 Pdf文档解析方法、系统、电子装置及存储介质
CN113486638A (zh) * 2021-07-29 2021-10-08 浙江大华技术股份有限公司 表格的重构方法和装置、存储介质及电子装置
CN114022888B (zh) * 2022-01-06 2022-04-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN114022888A (zh) * 2022-01-06 2022-02-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108446264B (zh) 2022-02-15
US10592184B2 (en) 2020-03-17
US20190294399A1 (en) 2019-09-26

Similar Documents

Publication Publication Date Title
CN108446264A (zh) Pdf文档中的表格矢量解析方法及装置
US10853565B2 (en) Method and device for positioning table in PDF document
CN104516891B (zh) 一种版面分析方法及系统
CN102194123B (zh) 表格模板定义方法和装置
JPH06139404A (ja) 表認識装置
CN110008809A (zh) 表格数据的获取方法、装置和服务器
CN111259854B (zh) 一种文本图像中表格的结构化信息的识别方法及装置
CN106845383A (zh) 人头检测方法和装置
CN101676930A (zh) 一种识别扫描图像中表格单元的方法及装置
CN103455814B (zh) 用于文档图像的文本行分割方法和系统
WO2022012121A1 (zh) 版面分析方法、阅读辅助设备、电路和介质
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN107452035B (zh) 车道线图像分析方法、装置及其计算机可读取式媒体
CN112668289A (zh) 一种嵌套表格的提取方法及装置、存储介质
CN112329548A (zh) 一种文档章节分割方法、装置及存储介质
CN114863408A (zh) 文档内容分类方法、系统、装置及计算机可读存储介质
CN115618836A (zh) 无线表格的结构还原方法、装置、计算机设备及存储介质
CN110413962A (zh) 文档图像中的无边框表格解析技术
CN103176956B (zh) 用于提取文档结构的方法和装置
JPH1031716A (ja) 文字行抽出方法および装置
US20020085755A1 (en) Method for region analysis of document image
JPH05334490A (ja) 表認識装置
JP3922396B2 (ja) レイアウト装置および表示装置
CN113033541A (zh) 发行公告版面分析方法
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant