CN110163030A - 一种基于图像信息的pdf有边框表格抽取方法 - Google Patents

一种基于图像信息的pdf有边框表格抽取方法 Download PDF

Info

Publication number
CN110163030A
CN110163030A CN201810142924.3A CN201810142924A CN110163030A CN 110163030 A CN110163030 A CN 110163030A CN 201810142924 A CN201810142924 A CN 201810142924A CN 110163030 A CN110163030 A CN 110163030A
Authority
CN
China
Prior art keywords
line
information
vertical line
pdf
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810142924.3A
Other languages
English (en)
Other versions
CN110163030B (zh
Inventor
陈前力
王博远
吴雪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Data Technology (beijing) Co Ltd
Original Assignee
Dingfu Data Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Data Technology (beijing) Co Ltd filed Critical Dingfu Data Technology (beijing) Co Ltd
Priority to CN201810142924.3A priority Critical patent/CN110163030B/zh
Publication of CN110163030A publication Critical patent/CN110163030A/zh
Application granted granted Critical
Publication of CN110163030B publication Critical patent/CN110163030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于图像信息的PDF有边框表格抽取方法,该方法中先读取出PDF文件中记载的关于横竖线条的信息,并据此重新绘制图表,再对新绘制的图表做精细化处理,滤掉其中多余线条,滤掉其中背景色,找出构成表格的横线和竖线,再补全可能缺失的边框线,最后再读取PDF文件中记载的文本信息及文本位置信息,将之填写在新绘制的表格中,从而得到可编辑的与PDF文本中内容一致的表格。

Description

一种基于图像信息的PDF有边框表格抽取方法
技术领域
本发明涉及PDF文件处理方法领域,具体涉及一种基于图像信息的PDF有边框表格抽取方法。
背景技术
PDF全称Portable Document Format,是便携文档格式的意思,可以完美表现文件的原始样式(完美保真),不会因为使用的软件、系统,等等东西的不同而产生不同的显示效果,屏幕显示和打印输出就是发布者想要的样子。因此,目前网络上传播的文档大部分是PDF格式文件,但是这给很多从文档中整理表格数据的人群带来了困难,尤其是在金融领域,在财务报告、行业研究报告中,研究员需针对表格做进一步的深度处理,需将pdf中的表格转化成规则的行和列的形式,如Excel表格等可编辑的形式。
目前业内大多数pdf处理工具,基本上都是针对文本的处理,或者转化为doc格式,转化为doc后,虽然能提取出部分表格,但是由于原始pdf表格中的格式样式差异化较大,表格效果不理想,准确率较低,不能满足金融领域中高精度数据的需求。
由于上述原因,本发明人开发设计出一种全新的PDF文本提取方法,尤其是PDF文本中有边框表格的提取方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于图像信息的PDF有边框表格抽取方法,该方法中先读取出PDF文件中记载的关于横竖线条的信息,并据此重新绘制图表,再对新绘制的图表做精细化处理,滤掉其中多余线条,滤掉其中背景色,找出构成表格的横线和竖线,再补全可能缺失的边框线,最后再读取PDF文件中记载的文本信息及文本位置信息,将之填写在新绘制的表格中,从而得到可编辑的与PDF文本中内容一致的表格,从而完成本发明。
具体来说,本发明的目的在于提供一种基于图像信息的PDF有边框表格抽取方法,其特征在于,该方法包括如下步骤:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和颜色信息,并根据抽取出的信息绘制图片,
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中。
其中,所述步骤2包括如下子步骤:
子步骤1:在图片的上方中部根据读取的信息选择一条或多条竖线,沿着该竖线继续向下读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤2:找出所有与子步骤1中构成表格的竖线相交的横线,沿着该横线向左右两侧读取/识别每一个像素点,直至该横线截止,判断该横线是否为构成表格的横线;
子步骤3:找出所有与子步骤2中构成表格的横线相交的竖线,沿着该竖线向上下两侧读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤4:删除图片中除构成表格的竖线和构成表格的横线以外的信息。
其中,判断横线或者竖线截止的条件为:沿着该线的延伸方向,连续1~3个像素点长度区域中的像素点无颜色;
优选地,沿着该线的延伸方向,连续3个像素点长度区域中的像素点无颜色。
其中,所述竖线的长度超过预设值时判断其为构成表格的竖线;
所述横线的长度超过预设值时判断其为构成表格的横线;
优选地,所述预设值为40~100个像素点;
进一步优选地,所述预设值为52个像素点。
其中,若所述构成表格的竖线与任何一条构成表格的横线都无交点,则删除该构成表格的竖线;
若所述构成表格的横线与任何一条构成表格的竖线都无交点,则删除该构成表格的横线。
其中,所述步骤2还包括下述子步骤:
子步骤5:在子步骤4得到的表格边缘添加边界线,所述边界线包括位于最左侧和最右侧的竖线,还包括位于最上侧和最下侧的横线。
其中,添加的边界线如果与现有的线重叠,比较重叠的两条线的长度,并删除较短的线。
其中,在执行在步骤2以前,首先找出图片中的背景颜色,
在读取/识别每一个像素点时,将所述背景颜色认定为无颜色;
优选地,将所述背景颜色的边缘认定为构成表格的竖线和构成表格的横线。
其中,在图片上设置可移动的矩形框,判断矩形边框圈定的图片区域中所有像素点的颜色,若该区域中所有像素点的颜色都一致,记录该颜色为背景颜色。
其中,所述矩形边框的长度和宽度都为20~40个像素点;
优选地,所述矩形边框的长度和宽度都为26个像素点。
根据本发明提供的基于图像信息的PDF有边框表格抽取方法能够快速准确地将PDF文件中的表格提取出来,形成可编辑的表格文件,可以完全取代人工进行表格提取工作,并且该方法采用了全新的设计理念,能够大幅提高表格提取的准确率,能够适应并处理多种形式的复杂表格,具有良好的商业应用价值。
附图说明
图1示出根据本发明一种优选实施方式的基于图像信息的PDF有边框表格抽取方法整体流程图;
图2示出实施例中待处理的PDF文件页面;
图3示出步骤1处理后得到的包含横线信息、竖线信息和背景颜色的图片;
图4示出步骤2处理后得到的已消除多余线条和背景色的图片;
图5示出步骤3处理后得到的清晰完整并且与PDF文件中表格相对应的可编辑表格。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
根据本发明提供的基于图像信息的PDF有边框表格抽取方法,如图1中所示,该方法包括如下步骤:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和颜色信息,并根据抽取出的信息绘制图片,
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中。
其中,所述PDF文件中存储的信息包括字符信息、横线竖线信息、背景颜色信息及相应的位置信息。现有的系统软件是没办法直接判断出PDF文件中什么位置是表格、什么位置是图片,所以本发明中上述方法需要对PDF文件的每一页都做上述处理,如果步骤2中无法获得较为完整的表格,则认为该页中不存在表格,可以跳过该页继续处理下一页。
本发明中步骤1中绘制的图片是指在计算机的虚拟内存/缓存中绘制的可编辑修改的图像信息。
优选地,所述步骤2包括如下子步骤:
子步骤1:在图片的上方中部根据读取的信息选择一条或多条竖线,沿着该竖线继续向下读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;其中,具体选择几条竖线可以根据实际情况确定,一般选择1~5条,更优选为3条,选择的越多最终结果的准确率越高,但是运算速度就会相应降低;所述读取/识别像素点主要是通过比较该像素点的颜色与构成该线条像素点的颜色是否一致,如果一致则认为该像素点也是该线条的一部分;另外,每个线条都具有一定的宽度,其宽度方向也可以包含有多个像素点,所以在读取/识别像素点时要识别该宽度方向上的全部像素点。本发明中所述的图片就是由密集排布的、显示出多种色彩的多个像素点构成的,所述像素点也是本发明中的长度度量单位;
子步骤2:找出所有与子步骤1中构成表格的竖线相交的横线,沿着该横线向左右两侧读取/识别每一个像素点,直至该横线截止,判断该横线是否为构成表格的横线;
子步骤3:找出所有与子步骤2中构成表格的横线相交的竖线,沿着该竖线向上下两侧读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;对于特别复杂的表格,可以再次查询与该竖线相交的横线。
子步骤4:删除图片中除构成表格的竖线和构成表格的横线以外的信息,包括不能构成横线或竖线的短线条和背景颜色。
优选地,判断横线或者竖线截止的条件为:沿着该线的延伸方向,连续1~3个像素点长度区域中的像素点无颜色;
优选地,沿着该线的延伸方向,连续3个像素点长度区域中的像素点无颜色,该长度区域是指一个矩形区域,该矩形区域的一个边长是所述3个像素点,另一个边长是该线的宽度所对应的像素点。
优选地,所述竖线的长度超过预设值时判断其为构成表格的竖线;
所述横线的长度超过预设值时判断其为构成表格的横线;
优选地,若所述构成表格的竖线与任何一条构成表格的横线都无交点,则删除该构成表格的竖线;
若所述构成表格的横线与任何一条构成表格的竖线都无交点,则删除该构成表格的横线。
优选地,所述预设值为40~100个像素点;
进一步优选地,所述预设值为52个像素点。该预设值不能过大也不能过小,过大则导致最终制得的表格缺少必要线条,过小则导致最终制得的表格中含有干扰、错乱的线条。
在一个优选的实施方式中,所述步骤2还包括下述子步骤:
子步骤5:在子步骤4得到的表格边缘添加边界线,所述边界线包括位于最左侧和最右侧的竖线,还包括位于最上侧和最下侧的横线,即所述边界线为矩形框。优选地,所述边界线的添加位置是根据子步骤4得到的表格线条边缘点的坐标绝对值确定的,即在所有线条的最边缘添加各个边分别与页面平行的矩形框。在这个过程中也要删除/过滤掉明显不合理的点,以提高最终表格的准确性。
优选地,添加的边界线如果与现有的线重叠,比较重叠的两条线的长度,并删除较短的线。
在一个优选的实施方式中,在子步骤5执行完成以后,还任选地可以继续调整该表格,判断该表格中是否存在应连接而未连接的横线和竖线,具体方法为:假设每个线条都沿着其延伸方向向两侧延伸,延伸的长度为2倍的线宽,如果延伸后能够增加与其他线条垂直相交,则将该线条延伸至刚好与其他线条垂直相交的位置,如果延伸后不能与其他线条垂直相交,则不做延长处理;
在一个优选的实施方式中,在执行在步骤2以前,首先找出图片中的背景颜色,
在读取/识别每一个像素点时,将所述背景颜色认定为无颜色,即忽略该像素点,继续读取/识别下一个像素点,从而提高工作效率;
优选地,将所述背景颜色的边缘认定为构成表格的竖线和/或构成表格的横线。
在一个优选的实施方式中,在执行步骤2以前,在图片上设置可移动的矩形框,判断矩形边框圈定的图片区域中所有像素点的颜色,若该区域中所有像素点的颜色都一致,记录该颜色为背景颜色。该矩形框可以每次圈定互不重叠的区域,并且各个区域之间可以留有一定的间隔,如20~30个像素点。
优选地,所述矩形边框的长度和宽度都为20~40个像素点;
进一步优选地,所述矩形边框的长度和宽度都为26个像素点。
在本发明的描述中,需要说明的是,术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例:
图2中示出了一个PDF文件页面,其中包括表格、文字、横线和背景色;采用本发明提供的方法处理该PDF文件页面,具体来说:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和背景颜色信息,并根据抽取出的信息绘制图片,得到如图3中所示的图片,其中包含横线信息、竖线信息和背景颜色。
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格,得到如图4中所示的图片,其中已经没有了多余的线条和背景色,并且表格完整;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中,得到如图5中所示的表格,该表格与PDF文件中表格记载的信息一致,清晰完整,而且可编辑。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。

Claims (10)

1.一种基于图像信息的PDF有边框表格抽取方法,其特征在于,该方法包括如下步骤:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和颜色信息,并根据抽取出的信息绘制图片,
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中。
2.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述步骤2包括如下子步骤:
子步骤1:在图片的上方中部根据读取的信息选择一条或多条竖线,沿着该竖线继续向下读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤2:找出所有与子步骤1中构成表格的竖线相交的横线,沿着该横线向左右两侧读取/识别每一个像素点,直至该横线截止,判断该横线是否为构成表格的横线;
子步骤3:找出所有与子步骤2中构成表格的横线相交的竖线,沿着该竖线向上下两侧读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤4:删除图片中除构成表格的竖线和构成表格的横线以外的信息。
3.根据权利要求2所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
判断横线或者竖线截止的条件为:沿着该线的延伸方向,连续1~3个像素点长度区域中的像素点无颜色;
优选地,沿着该线的延伸方向,连续3个像素点长度区域中的像素点无颜色。
4.根据权利要求2所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述竖线的长度超过预设值时判断其为构成表格的竖线;
所述横线的长度超过预设值时判断其为构成表格的横线;
优选地,所述预设值为40~100个像素点;
进一步优选地,所述预设值为52个像素点。
5.根据权利要求4所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
若所述构成表格的竖线与任何一条构成表格的横线都无交点,则删除该构成表格的竖线;
若所述构成表格的横线与任何一条构成表格的竖线都无交点,则删除该构成表格的横线。
6.根据权利要求2所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述步骤2还包括下述子步骤:
子步骤5:在子步骤4得到的表格边缘添加边界线,所述边界线包括位于最左侧和最右侧的竖线,还包括位于最上侧和最下侧的横线。
7.根据权利要求6所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
添加的边界线如果与现有的线重叠,比较重叠的两条线的长度,并删除较短的线。
8.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
在执行在步骤2以前,首先找出图片中的背景颜色,
在读取/识别每一个像素点时,将所述背景颜色认定为无颜色;
优选地,将所述背景颜色的边缘认定为构成表格的竖线和构成表格的横线。
9.根据权利要求8所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
在图片上设置可移动的矩形框,判断矩形边框圈定的图片区域中所有像素点的颜色,若该区域中所有像素点的颜色都一致,记录该颜色为背景颜色。
10.根据权利要求9所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述矩形边框的长度和宽度都为20~40个像素点;
优选地,所述矩形边框的长度和宽度都为26个像素点。
CN201810142924.3A 2018-02-11 2018-02-11 一种基于图像信息的pdf有边框表格抽取方法 Expired - Fee Related CN110163030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810142924.3A CN110163030B (zh) 2018-02-11 2018-02-11 一种基于图像信息的pdf有边框表格抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810142924.3A CN110163030B (zh) 2018-02-11 2018-02-11 一种基于图像信息的pdf有边框表格抽取方法

Publications (2)

Publication Number Publication Date
CN110163030A true CN110163030A (zh) 2019-08-23
CN110163030B CN110163030B (zh) 2021-04-23

Family

ID=67635164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810142924.3A Expired - Fee Related CN110163030B (zh) 2018-02-11 2018-02-11 一种基于图像信息的pdf有边框表格抽取方法

Country Status (1)

Country Link
CN (1) CN110163030B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN110633660A (zh) * 2019-08-30 2019-12-31 盈盛智创科技(广州)有限公司 一种文档识别的方法、设备和存储介质
CN110807404A (zh) * 2019-10-29 2020-02-18 上海眼控科技股份有限公司 基于深度学习的表格线检测方法、装置、终端、存储介质
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN112069991A (zh) * 2020-09-04 2020-12-11 税友软件集团股份有限公司 一种pdf的表格信息提取方法及相关装置
CN113343658A (zh) * 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
WO2021237909A1 (zh) * 2020-05-29 2021-12-02 深圳壹账通智能科技有限公司 一种表格还原方法、装置、设备及存储介质
CN113762158A (zh) * 2021-09-08 2021-12-07 平安资产管理有限责任公司 无边框表格复原模型训练方法、装置、计算机设备和介质
CN116612487A (zh) * 2023-07-21 2023-08-18 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064007A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种表格图像几何畸变的数字校正方法
CN101833546A (zh) * 2009-03-10 2010-09-15 株式会社理光 从可移植电子文档中提取表格的方法和装置
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN103250180A (zh) * 2011-06-24 2013-08-14 乐天株式会社 图像提供装置、图像处理方法、图像处理程序以及记录介质
CN103377177A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
US20150248382A1 (en) * 2012-11-12 2015-09-03 Korea Institute Of Science 7 Technology Information Apparatus and method for converting an electronic form
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107085505A (zh) * 2017-04-21 2017-08-22 武汉印链科技有限公司 一种cdr文件自动处理和自动比对方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064007A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种表格图像几何畸变的数字校正方法
CN101833546A (zh) * 2009-03-10 2010-09-15 株式会社理光 从可移植电子文档中提取表格的方法和装置
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN103250180A (zh) * 2011-06-24 2013-08-14 乐天株式会社 图像提供装置、图像处理方法、图像处理程序以及记录介质
CN103377177A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 一种数字版式文件中识别表格的方法及装置
US20150248382A1 (en) * 2012-11-12 2015-09-03 Korea Institute Of Science 7 Technology Information Apparatus and method for converting an electronic form
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107085505A (zh) * 2017-04-21 2017-08-22 武汉印链科技有限公司 一种cdr文件自动处理和自动比对方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DIEU NI TRAN等: "Table Detection from Document Image using Vertical Arrangement of Text Blocks", 《INTERNATIONAL JOURNAL OF CONTENTS》 *
TANUSHREE DHIRAN等: "Table Detection and Extraction from Image Document", 《INTERNATIONAL JOURNAL OF COMPUTER & ORGANIZATION TRENDS 》 *
张艳: "表格型票据中框线检测与去除算法", 《计算机研究与发展》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN110633660B (zh) * 2019-08-30 2022-05-31 盈盛智创科技(广州)有限公司 一种文档识别的方法、设备和存储介质
CN110633660A (zh) * 2019-08-30 2019-12-31 盈盛智创科技(广州)有限公司 一种文档识别的方法、设备和存储介质
CN110807404A (zh) * 2019-10-29 2020-02-18 上海眼控科技股份有限公司 基于深度学习的表格线检测方法、装置、终端、存储介质
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN111160234B (zh) * 2019-12-27 2020-12-08 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
WO2021237909A1 (zh) * 2020-05-29 2021-12-02 深圳壹账通智能科技有限公司 一种表格还原方法、装置、设备及存储介质
CN112069991A (zh) * 2020-09-04 2020-12-11 税友软件集团股份有限公司 一种pdf的表格信息提取方法及相关装置
CN113343658A (zh) * 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113343658B (zh) * 2021-07-01 2024-04-09 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113762158A (zh) * 2021-09-08 2021-12-07 平安资产管理有限责任公司 无边框表格复原模型训练方法、装置、计算机设备和介质
CN116612487A (zh) * 2023-07-21 2023-08-18 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质
CN116612487B (zh) * 2023-07-21 2023-10-13 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110163030B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN110163030A (zh) 一种基于图像信息的pdf有边框表格抽取方法
KR101334483B1 (ko) 문서를 디지털화하는 장치 및 방법과, 컴퓨터 판독가능 기록 매체
US8593666B2 (en) Method and system for printing a web page
US8000529B2 (en) System and method for creating an editable template from a document image
CN107885848B (zh) 基于web技术的网页截屏方法
JP3950498B2 (ja) イメージ処理方法及び装置
DE60312572T2 (de) Verfahren und Gerät zum Konvertieren digitaler Bilder von Handzeichnungen zur weiteren Verwendung in einem strukturierten Text/Graphik Editor.
CN100578432C (zh) 一种直接写入手写体信息的方法
CN109933756A (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN103500118B (zh) 一种级联样式表优化方法和装置
CN110516221B (zh) 提取pdf文档中图表数据的方法、设备和存储介质
US20110289398A1 (en) Method of displaying data in a table with a fixed header
CN110765739B (zh) 一种从pdf文档中抽取表格数据和篇章结构的方法
US20110222776A1 (en) Form template definition method and form template definition apparatus
WO2013003679A2 (en) Method and system for webpage regression testing
CN104516867A (zh) 一种表格重排方法和系统
CN103279455A (zh) 电子表格的样式处理方法和装置
CN111694493A (zh) 一种网页截图方法、计算机设备及可读存储介质
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN105512096B (zh) 一种基于文档中内嵌字体的优化方法及装置
US20140281948A1 (en) Information displaying apparatus, information editing method and non-transitory computer-readable storage medium
CN112417826A (zh) Pdf在线编辑方法、装置、电子设备和可读存储介质
CN104424174A (zh) 文档处理系统和文档处理方法
CN109656652B (zh) 网页图表绘制方法、装置、计算机设备和存储介质
CN107066997A (zh) 一种基于图像识别的电气元件报价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210423

Termination date: 20220211

CF01 Termination of patent right due to non-payment of annual fee