CN110163030B - 一种基于图像信息的pdf有边框表格抽取方法 - Google Patents
一种基于图像信息的pdf有边框表格抽取方法 Download PDFInfo
- Publication number
- CN110163030B CN110163030B CN201810142924.3A CN201810142924A CN110163030B CN 110163030 B CN110163030 B CN 110163030B CN 201810142924 A CN201810142924 A CN 201810142924A CN 110163030 B CN110163030 B CN 110163030B
- Authority
- CN
- China
- Prior art keywords
- lines
- line
- vertical
- extraction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于图像信息的PDF有边框表格抽取方法,该方法中先读取出PDF文件中记载的关于横竖线条的信息,并据此重新绘制图表,再对新绘制的图表做精细化处理,滤掉其中多余线条,滤掉其中背景色,找出构成表格的横线和竖线,再补全可能缺失的边框线,最后再读取PDF文件中记载的文本信息及文本位置信息,将之填写在新绘制的表格中,从而得到可编辑的与PDF文本中内容一致的表格。
Description
技术领域
本发明涉及PDF文件处理方法领域,具体涉及一种基于图像信息的PDF有边框表格抽取方法。
背景技术
PDF全称Portable Document Format,是便携文档格式的意思,可以完美表现文件的原始样式(完美保真),不会因为使用的软件、系统,等等东西的不同而产生不同的显示效果,屏幕显示和打印输出就是发布者想要的样子。因此,目前网络上传播的文档大部分是PDF格式文件,但是这给很多从文档中整理表格数据的人群带来了困难,尤其是在金融领域,在财务报告、行业研究报告中,研究员需针对表格做进一步的深度处理,需将pdf中的表格转化成规则的行和列的形式,如Excel表格等可编辑的形式。
目前业内大多数pdf处理工具,基本上都是针对文本的处理,或者转化为doc格式,转化为doc后,虽然能提取出部分表格,但是由于原始pdf表格中的格式样式差异化较大,表格效果不理想,准确率较低,不能满足金融领域中高精度数据的需求。
由于上述原因,本发明人开发设计出一种全新的PDF文本提取方法,尤其是PDF文本中有边框表格的提取方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于图像信息的PDF有边框表格抽取方法,该方法中先读取出PDF文件中记载的关于横竖线条的信息,并据此重新绘制图表,再对新绘制的图表做精细化处理,滤掉其中多余线条,滤掉其中背景色,找出构成表格的横线和竖线,再补全可能缺失的边框线,最后再读取PDF文件中记载的文本信息及文本位置信息,将之填写在新绘制的表格中,从而得到可编辑的与PDF文本中内容一致的表格,从而完成本发明。
具体来说,本发明的目的在于提供一种基于图像信息的PDF有边框表格抽取方法,其特征在于,该方法包括如下步骤:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和颜色信息,并根据抽取出的信息绘制图片,
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中。
其中,所述步骤2包括如下子步骤:
子步骤1:在图片的上方中部根据读取的信息选择一条或多条竖线,沿着该竖线继续向下读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤2:找出所有与子步骤1中构成表格的竖线相交的横线,沿着该横线向左右两侧读取/识别每一个像素点,直至该横线截止,判断该横线是否为构成表格的横线;
子步骤3:找出所有与子步骤2中构成表格的横线相交的竖线,沿着该竖线向上下两侧读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤4:删除图片中除构成表格的竖线和构成表格的横线以外的信息。
其中,判断横线或者竖线截止的条件为:沿着该线的延伸方向,连续1~3个像素点长度区域中的像素点无颜色;
优选地,沿着该线的延伸方向,连续3个像素点长度区域中的像素点无颜色。
其中,所述竖线的长度超过预设值时判断其为构成表格的竖线;
所述横线的长度超过预设值时判断其为构成表格的横线;
优选地,所述预设值为40~100个像素点;
进一步优选地,所述预设值为52个像素点。
其中,若所述构成表格的竖线与任何一条构成表格的横线都无交点,则删除该构成表格的竖线;
若所述构成表格的横线与任何一条构成表格的竖线都无交点,则删除该构成表格的横线。
其中,所述步骤2还包括下述子步骤:
子步骤5:在子步骤4得到的表格边缘添加边界线,所述边界线包括位于最左侧和最右侧的竖线,还包括位于最上侧和最下侧的横线。
其中,添加的边界线如果与现有的线重叠,比较重叠的两条线的长度,并删除较短的线。
其中,在执行在步骤2以前,首先找出图片中的背景颜色,
在读取/识别每一个像素点时,将所述背景颜色认定为无颜色;
优选地,将所述背景颜色的边缘认定为构成表格的竖线和构成表格的横线。
其中,在图片上设置可移动的矩形框,判断矩形边框圈定的图片区域中所有像素点的颜色,若该区域中所有像素点的颜色都一致,记录该颜色为背景颜色。
其中,所述矩形边框的长度和宽度都为20~40个像素点;
优选地,所述矩形边框的长度和宽度都为26个像素点。
根据本发明提供的基于图像信息的PDF有边框表格抽取方法能够快速准确地将PDF文件中的表格提取出来,形成可编辑的表格文件,可以完全取代人工进行表格提取工作,并且该方法采用了全新的设计理念,能够大幅提高表格提取的准确率,能够适应并处理多种形式的复杂表格,具有良好的商业应用价值。
附图说明
图1示出根据本发明一种优选实施方式的基于图像信息的PDF有边框表格抽取方法整体流程图;
图2示出实施例中待处理的PDF文件页面;
图3示出步骤1处理后得到的包含横线信息、竖线信息和背景颜色的图片;
图4示出步骤2处理后得到的已消除多余线条和背景色的图片;
图5示出步骤3处理后得到的清晰完整并且与PDF文件中表格相对应的可编辑表格。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
根据本发明提供的基于图像信息的PDF有边框表格抽取方法,如图1中所示,该方法包括如下步骤:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和颜色信息,并根据抽取出的信息绘制图片,
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中。
其中,所述PDF文件中存储的信息包括字符信息、横线竖线信息、背景颜色信息及相应的位置信息。现有的系统软件是没办法直接判断出PDF文件中什么位置是表格、什么位置是图片,所以本发明中上述方法需要对PDF文件的每一页都做上述处理,如果步骤2中无法获得较为完整的表格,则认为该页中不存在表格,可以跳过该页继续处理下一页。
本发明中步骤1中绘制的图片是指在计算机的虚拟内存/缓存中绘制的可编辑修改的图像信息。
优选地,所述步骤2包括如下子步骤:
子步骤1:在图片的上方中部根据读取的信息选择一条或多条竖线,沿着该竖线继续向下读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;其中,具体选择几条竖线可以根据实际情况确定,一般选择1~5条,更优选为3条,选择的越多最终结果的准确率越高,但是运算速度就会相应降低;所述读取/识别像素点主要是通过比较该像素点的颜色与构成该线条像素点的颜色是否一致,如果一致则认为该像素点也是该线条的一部分;另外,每个线条都具有一定的宽度,其宽度方向也可以包含有多个像素点,所以在读取/识别像素点时要识别该宽度方向上的全部像素点。本发明中所述的图片就是由密集排布的、显示出多种色彩的多个像素点构成的,所述像素点也是本发明中的长度度量单位;
子步骤2:找出所有与子步骤1中构成表格的竖线相交的横线,沿着该横线向左右两侧读取/识别每一个像素点,直至该横线截止,判断该横线是否为构成表格的横线;
子步骤3:找出所有与子步骤2中构成表格的横线相交的竖线,沿着该竖线向上下两侧读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;对于特别复杂的表格,可以再次查询与该竖线相交的横线。
子步骤4:删除图片中除构成表格的竖线和构成表格的横线以外的信息,包括不能构成横线或竖线的短线条和背景颜色。
优选地,判断横线或者竖线截止的条件为:沿着该线的延伸方向,连续1~3个像素点长度区域中的像素点无颜色;
优选地,沿着该线的延伸方向,连续3个像素点长度区域中的像素点无颜色,该长度区域是指一个矩形区域,该矩形区域的一个边长是所述3个像素点,另一个边长是该线的宽度所对应的像素点。
优选地,所述竖线的长度超过预设值时判断其为构成表格的竖线;
所述横线的长度超过预设值时判断其为构成表格的横线;
优选地,若所述构成表格的竖线与任何一条构成表格的横线都无交点,则删除该构成表格的竖线;
若所述构成表格的横线与任何一条构成表格的竖线都无交点,则删除该构成表格的横线。
优选地,所述预设值为40~100个像素点;
进一步优选地,所述预设值为52个像素点。该预设值不能过大也不能过小,过大则导致最终制得的表格缺少必要线条,过小则导致最终制得的表格中含有干扰、错乱的线条。
在一个优选的实施方式中,所述步骤2还包括下述子步骤:
子步骤5:在子步骤4得到的表格边缘添加边界线,所述边界线包括位于最左侧和最右侧的竖线,还包括位于最上侧和最下侧的横线,即所述边界线为矩形框。优选地,所述边界线的添加位置是根据子步骤4得到的表格线条边缘点的坐标绝对值确定的,即在所有线条的最边缘添加各个边分别与页面平行的矩形框。在这个过程中也要删除/过滤掉明显不合理的点,以提高最终表格的准确性。
优选地,添加的边界线如果与现有的线重叠,比较重叠的两条线的长度,并删除较短的线。
在一个优选的实施方式中,在子步骤5执行完成以后,还任选地可以继续调整该表格,判断该表格中是否存在应连接而未连接的横线和竖线,具体方法为:假设每个线条都沿着其延伸方向向两侧延伸,延伸的长度为2倍的线宽,如果延伸后能够增加与其他线条垂直相交,则将该线条延伸至刚好与其他线条垂直相交的位置,如果延伸后不能与其他线条垂直相交,则不做延长处理;
在一个优选的实施方式中,在执行在步骤2以前,首先找出图片中的背景颜色,
在读取/识别每一个像素点时,将所述背景颜色认定为无颜色,即忽略该像素点,继续读取/识别下一个像素点,从而提高工作效率;
优选地,将所述背景颜色的边缘认定为构成表格的竖线和/或构成表格的横线。
在一个优选的实施方式中,在执行步骤2以前,在图片上设置可移动的矩形框,判断矩形边框圈定的图片区域中所有像素点的颜色,若该区域中所有像素点的颜色都一致,记录该颜色为背景颜色。该矩形框可以每次圈定互不重叠的区域,并且各个区域之间可以留有一定的间隔,如20~30个像素点。
优选地,所述矩形边框的长度和宽度都为20~40个像素点;
进一步优选地,所述矩形边框的长度和宽度都为26个像素点。
在本发明的描述中,需要说明的是,术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例:
图2中示出了一个PDF文件页面,其中包括表格、文字、横线和背景色;采用本发明提供的方法处理该PDF文件页面,具体来说:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和背景颜色信息,并根据抽取出的信息绘制图片,得到如图3中所示的图片,其中包含横线信息、竖线信息和背景颜色。
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格,得到如图4中所示的图片,其中已经没有了多余的线条和背景色,并且表格完整;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中,得到如图5中所示的表格,该表格与PDF文件中表格记载的信息一致,清晰完整,而且可编辑。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (14)
1.一种基于图像信息的PDF有边框表格抽取方法,其特征在于,该方法包括如下步骤:
步骤1:读取PDF文件信息,从读取到的信息中抽取出横线信息、竖线信息和颜色信息,并根据抽取出的信息绘制图片;
步骤2:滤掉步骤1绘制图片中的多余线条,并且补全表格;
步骤3:读取PDF文件信息,得到PDF文件中每个字符及每个字符所在位置信息,
扫描步骤2中得到的表格中各个单元格的位置信息,根据位置信息将PDF文件中的字符填写到表格的单元格中;
所述步骤2包括如下子步骤:
子步骤1:在图片的上方中部根据读取的信息选择一条或多条竖线,沿着该竖线继续向下读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤2:找出所有与子步骤1中构成表格的竖线相交的横线,沿着该横线向左右两侧读取/识别每一个像素点,直至该横线截止,判断该横线是否为构成表格的横线;
子步骤3:找出所有与子步骤2中构成表格的横线相交的竖线,沿着该竖线向上下两侧读取/识别每一个像素点,直至该竖线截止,判断该竖线是否为构成表格的竖线;
子步骤4:删除图片中除构成表格的竖线和构成表格的横线以外的信息。
2.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
判断横线或者竖线截止的条件为:沿着该线的延伸方向,连续1~3个像素点长度区域中的像素点无颜色。
3.根据权利要求2所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
沿着该线的延伸方向,连续3个像素点长度区域中的像素点无颜色。
4.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述竖线的长度超过预设值时判断其为构成表格的竖线;
所述横线的长度超过预设值时判断其为构成表格的横线。
5.根据权利要求4所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述预设值为40~100个像素点。
6.根据权利要求4所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述预设值为52个像素点。
7.根据权利要求4所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
若所述构成表格的竖线与任何一条构成表格的横线都无交点,则删除该构成表格的竖线;
若所述构成表格的横线与任何一条构成表格的竖线都无交点,则删除该构成表格的横线。
8.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述步骤2还包括下述子步骤:
子步骤5:在子步骤4得到的表格边缘添加边界线,所述边界线包括位于最左侧和最右侧的竖线,还包括位于最上侧和最下侧的横线。
9.根据权利要求8所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
添加的边界线如果与现有的线重叠,比较重叠的两条线的长度,并删除较短的线。
10.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
在执行在步骤2以前,首先找出图片中的背景颜色,
在读取/识别每一个像素点时,将所述背景颜色认定为无颜色。
11.根据权利要求10所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
将所述背景颜色的边缘认定为构成表格的竖线和构成表格的横线。
12.根据权利要求10所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
在图片上设置可移动的矩形框,判断矩形边框圈定的图片区域中所有像素点的颜色,若该区域中所有像素点的颜色都一致,记录该颜色为背景颜色。
13.根据权利要求12所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述矩形边框的长度和宽度都为20~40个像素点。
14.根据权利要求12所述的基于图像信息的PDF有边框表格抽取方法,其特征在于,
所述矩形边框的长度和宽度都为26个像素点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810142924.3A CN110163030B (zh) | 2018-02-11 | 2018-02-11 | 一种基于图像信息的pdf有边框表格抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810142924.3A CN110163030B (zh) | 2018-02-11 | 2018-02-11 | 一种基于图像信息的pdf有边框表格抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163030A CN110163030A (zh) | 2019-08-23 |
CN110163030B true CN110163030B (zh) | 2021-04-23 |
Family
ID=67635164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810142924.3A Expired - Fee Related CN110163030B (zh) | 2018-02-11 | 2018-02-11 | 一种基于图像信息的pdf有边框表格抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163030B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522816B (zh) * | 2018-10-26 | 2021-07-02 | 北京慧流科技有限公司 | 表格识别方法及装置、计算机存储介质 |
CN110633660B (zh) * | 2019-08-30 | 2022-05-31 | 盈盛智创科技(广州)有限公司 | 一种文档识别的方法、设备和存储介质 |
CN110807404A (zh) * | 2019-10-29 | 2020-02-18 | 上海眼控科技股份有限公司 | 基于深度学习的表格线检测方法、装置、终端、存储介质 |
CN111160234B (zh) * | 2019-12-27 | 2020-12-08 | 掌阅科技股份有限公司 | 表格识别方法、电子设备及计算机存储介质 |
CN111640130A (zh) * | 2020-05-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 表格还原方法及装置 |
CN112069991B (zh) * | 2020-09-04 | 2024-08-09 | 税友软件集团股份有限公司 | 一种pdf的表格信息提取方法及相关装置 |
CN113343658B (zh) * | 2021-07-01 | 2024-04-09 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113762158A (zh) * | 2021-09-08 | 2021-12-07 | 平安资产管理有限责任公司 | 无边框表格复原模型训练方法、装置、计算机设备和介质 |
CN116612487B (zh) * | 2023-07-21 | 2023-10-13 | 亚信科技(南京)有限公司 | 表格识别方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064007A (zh) * | 2006-04-29 | 2007-10-31 | 北大方正集团有限公司 | 一种表格图像几何畸变的数字校正方法 |
CN101833546A (zh) * | 2009-03-10 | 2010-09-15 | 株式会社理光 | 从可移植电子文档中提取表格的方法和装置 |
CN101866335A (zh) * | 2010-06-14 | 2010-10-20 | 深圳市万兴软件有限公司 | 一种文档转换中的表格处理方法及装置 |
CN103250180A (zh) * | 2011-06-24 | 2013-08-14 | 乐天株式会社 | 图像提供装置、图像处理方法、图像处理程序以及记录介质 |
CN103377177A (zh) * | 2012-04-27 | 2013-10-30 | 北大方正集团有限公司 | 一种数字版式文件中识别表格的方法及装置 |
CN104462044A (zh) * | 2014-12-16 | 2015-03-25 | 上海合合信息科技发展有限公司 | 表格图像识别编辑方法及装置 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN107085505A (zh) * | 2017-04-21 | 2017-08-22 | 武汉印链科技有限公司 | 一种cdr文件自动处理和自动比对方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101319966B1 (ko) * | 2012-11-12 | 2013-10-18 | 한국과학기술정보연구원 | 전자 서식 변환 장치 및 방법 |
-
2018
- 2018-02-11 CN CN201810142924.3A patent/CN110163030B/zh not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064007A (zh) * | 2006-04-29 | 2007-10-31 | 北大方正集团有限公司 | 一种表格图像几何畸变的数字校正方法 |
CN101833546A (zh) * | 2009-03-10 | 2010-09-15 | 株式会社理光 | 从可移植电子文档中提取表格的方法和装置 |
CN101866335A (zh) * | 2010-06-14 | 2010-10-20 | 深圳市万兴软件有限公司 | 一种文档转换中的表格处理方法及装置 |
CN103250180A (zh) * | 2011-06-24 | 2013-08-14 | 乐天株式会社 | 图像提供装置、图像处理方法、图像处理程序以及记录介质 |
CN103377177A (zh) * | 2012-04-27 | 2013-10-30 | 北大方正集团有限公司 | 一种数字版式文件中识别表格的方法及装置 |
CN104462044A (zh) * | 2014-12-16 | 2015-03-25 | 上海合合信息科技发展有限公司 | 表格图像识别编辑方法及装置 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN106897690A (zh) * | 2017-02-22 | 2017-06-27 | 南京述酷信息技术有限公司 | Pdf表格提取方法 |
CN107085505A (zh) * | 2017-04-21 | 2017-08-22 | 武汉印链科技有限公司 | 一种cdr文件自动处理和自动比对方法及系统 |
Non-Patent Citations (3)
Title |
---|
Table Detection and Extraction from Image Document;Tanushree Dhiran等;《International Journal of Computer & Organization Trends 》;20130831;第3卷(第4期);第6-9页 * |
Table Detection from Document Image using Vertical Arrangement of Text Blocks;Dieu Ni Tran等;《International Journal of Contents》;20151231;第11卷(第4期);第77-85页 * |
表格型票据中框线检测与去除算法;张艳;《计算机研究与发展》;20081231;第45卷(第5期);第909-914页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110163030A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163030B (zh) | 一种基于图像信息的pdf有边框表格抽取方法 | |
WO2020192391A1 (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
CN101876967B (zh) | 一种pdf文本段落生成的方法 | |
US8718364B2 (en) | Apparatus and method for digitizing documents with extracted region data | |
CN100578432C (zh) | 一种直接写入手写体信息的方法 | |
US9798925B2 (en) | Method for identifying PDF document | |
DE69916225T2 (de) | Verfahren und System zur Wartung von Freiformtinteannotationen auf ändernden Ansichten | |
EP2544099A1 (en) | Method for creating an enrichment file associated with a page of an electronic document | |
CN111626036B (zh) | 一种图文排版处理方法 | |
EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
CN110765739B (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
US20100153834A1 (en) | Business form creating system, network system using the same, and business form creating method | |
WO2019154197A1 (zh) | 电子书手写笔记的显示方法、计算设备及计算机存储介质 | |
WO2019041442A1 (zh) | 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质 | |
CN107679442A (zh) | 单证信息录入的方法、装置、计算机设备及存储介质 | |
CN116311259B (zh) | 一种pdf业务文档的信息抽取方法 | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN115223172A (zh) | 文本提取方法、装置及设备 | |
CN110413962A (zh) | 文档图像中的无边框表格解析技术 | |
CN112416340B (zh) | 基于草图的网页生成方法和系统 | |
US20080266606A1 (en) | Optimized print layout | |
CN112417826A (zh) | Pdf在线编辑方法、装置、电子设备和可读存储介质 | |
CN103488619B (zh) | 一种用于进行文档文件处理的方法及装置 | |
JPH08255160A (ja) | レイアウト装置および表示装置 | |
JP2024501735A (ja) | 図式でのグラフの自動配置およびマッチングのための方法およびコンピュータ読み取り可能媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210423 Termination date: 20220211 |