CN109635268A - Pdf文件中表格信息的提取方法 - Google Patents
Pdf文件中表格信息的提取方法 Download PDFInfo
- Publication number
- CN109635268A CN109635268A CN201811630768.1A CN201811630768A CN109635268A CN 109635268 A CN109635268 A CN 109635268A CN 201811630768 A CN201811630768 A CN 201811630768A CN 109635268 A CN109635268 A CN 109635268A
- Authority
- CN
- China
- Prior art keywords
- page
- line
- form cross
- line segment
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种PDF文件中表格信息的提取方法,其特征在于,包括:读取PDF文件;解析PDF文件的属性;找到并整理页面内所有横线以及竖线的集合;判断当前页面的横竖线集合能否组成完整的表格边框,若能则按照有边框表格处理,反之则按照无边框表格处理;得到表格的行列以及单元格的元信息;判断是否为跨页表格,如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。本发明实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。
Description
技术领域
本发明涉及图文处理技术领域,具体是一种PDF文件中表格信息的提取。
背景技术
现有的方法可以识别文本线段的组合并检测到表格,但是往往会有一些信噪比不高(因为有干扰线段存在)的情况错误地还原表格的行、列以及合并单元格的情况。
发明内容
本发明所要解决的技术问题是针对上述现有技术存在的不足,而提供一种能更正确的还原PDF文件中的表格信息的一种PDF文件中表格信息的提取方法。
为解决上述技术问题,本发明采用的技术方案是:
一种PDF文件中表格信息的提取方法,其特征在于,包括:
[S10]读取PDF文件到内存,读取x-refs以及所有的页面;
[S20]解析页面内所有x-objects(包括文字、线段、曲线以及矩形)的位置等属性;
[S30]找到并整理页面内所有横线(水平线)以及竖线(垂直线)的集合;
[S40]判断当前页面的横竖线集合能否组成完整的表格边框,若能则按照步骤[S50A]处理,反之则按照步骤[S50B]处理;
[S50]两种不同类型的表格处理方案;
[S50A]有边框表格处理:
[S50A1]提选出整理得到的原始线段;
[S50A2]合并横纵向距离小于某个小量的临近平行线段;
[S50A3]延长并连接端点之间距离小于某个小量的线段;
[S50A4]对于某些表格单元格横竖线不对齐的状况,如果不对齐的值小于某个小量,则强行将其对齐;否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格;
[S50B]无边框表格处理:
[S50B1]收集页面内的散落文本框;
[S50B2]确定文本框整体的边界,并将之作为当前表格的外边框;
[S50B3]分别通过三种方案获取表格的内分割线:
[S50B3I]根据文本框字符的对齐状况获得行和列的分割线;
[S50B3II]通过文本框的平均字符大小为单位,逐行逐列扫描得到文本的共同边界作为分割线;
[S50B3III]直接计算的到文本框之间的空白区域,并以此确定表格的内边框;
[S50B4]根据新增的辅助内边框线段重新尝试有边框表格的处理方案;
[S60]得到表格的行列以及单元格的元信息;
[S70]判断是否为跨页表格,如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;
[S80]存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。
判断是否跨页以及合并跨页表格的具体方法是:
[S701]将表格开始页面作为当前页,查看当前页面(去除页眉页脚以及水印等不相关信息后)是否为最底部一枚元素,若是则结束跨页表格合并;
[S702]如果当前表格是页面最底部的元素,则查看下一页的最上方的元素是否为表格,若否则提前结束表格的跨页合并过程;
[S703]若上一步为是,则对比开始页的表头和下一页的表格首行去除重复的表头;
[S704]归一化跨页表格的总宽度和高度,如果列数相同则采用等比例缩放后的宽度,若列数不同则采用相同的行总宽度作为缩放比例;
[S705]合并归一化后的跨页表格,并前进一页(将下一页设置为当前页);
对步骤[S30]中找到的集合进行预处理,具体步骤包括:
[S301]将矩形(左上角坐标[x1,y1],右下角坐标[x2,y2])拆分成四条单独的线段:([x1,y1],[x2,y1])、([x1,y2],[x2,y2])、([x1,y1],[x1,y2])、([x2,y1],[x2,y2]),其中x、y分别为以页面左上角为原点,以文字排版方向为坐标轴正方向计算得到的坐标值;
[S302]将某些厚度非常接近零的线段剔除掉;
[S303]将端点从坐标点[x1,y1]出发至终点[x2,y2]的非封闭曲线用最小的矩形包络,并把该矩形拆分成与[S301]类似的四条独立线段;
[S304]从每条线段的较长边两侧方向截取一段狭长的矩形,分析后去除周边颜色不为纯色(或者与线段相同颜色)的线段(比如一些透明或者纯白色的交叉线以及与文字重叠的线段);
[S305]在两个任意最近距离的横线段之间,若检测到一些竖线段,则在横线的左右两侧极值出分别增加一条辅助线段,竖线亦做类似处理;
[S306]计算页面内的平均字体大小以及平均行间距,并以此组值,合并一些间距小于此值的线段(并忽略后续识别出的高度或宽度小于它们的单元格);
与现有技术相比,本发明实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。
附图说明
图1是本发明PDF文件中表格信息提取方法流程图;
图2是对集合进行预处理的流程图;
图3是S50A有边框表格处理方法流程图;
图4是S50B无边框表格处理方法流程图;
图5是S80跨页表格处理方法流程图。
具体实施方式
下面结合附图,对本发明作详细说明:
本发明PDF文件中表格信息提取方法,流程图参考图1,详细的步骤如下:
[S10]读取PDF文件到内存,读取对象号、代号引用表(x-refs)以及所有的页面;
[S20]解析页面内所有x-objects即对象(包括文字、线段、曲线以及矩形)的位置等属性;
[S30]找到并整理页面内所有横线(水平线)以及竖线(垂直线)的集合,并对它们进行一些预处理;
预处理的具体流程参见图2,步骤包括:
[S301]将矩形([x1,y1],[x2,y2])拆分成四条单独的线段:([x1,y1],[x2,y1])、([x1,y2],[x2,y2])、([x1,y1],[x1,y2])、([x2,y1],[x2,y2]),其中x、y分别为以页面左上角为原点,以文字排版方向为坐标轴正方向计算得到的坐标值;
[S302]将某些厚度非常接近零的线段剔除掉,因为毫无粗度的线段完全无法在页面上被显示出来并识别为有效的表格分割线;
[S303]将从[x1,y1]出发至[x2,y2]的曲线同样拆分成四条独立的线段;
[S304]从每条线段的较长边两侧方向截取一段狭长的矩形,分析后去除周边颜色不为纯色(或者与线段相同颜色)的线段(比如一些透明或者纯白色的交叉线以及与文字重叠的线段);
[S305]在两个任意最近距离的横线段之间,若检测到一些竖线段,则在横线的左右两侧极值出分别增加一条辅助线段,竖线亦做类似处理;
[S306]计算页面内的平均字体大小以及平均行间距,并以此组值,合并一些间距小于此值的线段(并忽略后续识别出的高度或宽度小于它们的单元格);
[S40]判断当前页面的横竖线集合能否组成完整的表格边框,若能则采用有边框表格的处理方案[S50A],反之采用无边框表格的处理方案[S50B];
[S50]两种不同类型的表格处理方案,分别见图3以及图4;
[S50A]有边框表格处理(图3):
[S50A1]提选出整理得到的原始线段;
[S50A2]合并横纵向距离小于某个小量的临近平行线段;
[S50A3]延长并连接端点之间距离小于某个小量的线段;
[S50A4]对于某些表格单元格横竖线不对齐的状况,如果不对齐的值小于某个小量,则强行将其对齐;否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格。
[S50B]无边框表格处理(图4):
[S50B1]收集页面内的散落文本框(舍弃为段落所在的文本行);
[S50B2]确定文本框整体的边界,并将之作为当前表格的外边框;
[S50B3]分别通过三种方案获取表格的内分割线:
[S50B3I]更具文本框字符的对齐状况获得行和列的分割线(对文本排版要求严格);
[S50B3II]通过文本框的平均字符大小为单位,逐行逐列扫描得到文本的共同边界作为的分割线;
[S50B3III]直接计算的到文本框之间的空白区域,并以此确定变革的内边框;
[S50B4]根据新增的辅助内边框线段重新尝试有边框表格的处理方案;
[S60]得到表格的行列以及单元格(长宽以及文本等)的元信息;
[S70]判断是否为跨页表格如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;
[S80]具体的判断以及合并跨页表格的方案(见图5):
[S801]将表格开始页面作为当前页,查看当前页面(去除页眉页脚以及水印等不相关信息后)是否为最底部一枚元素,若是则结束跨页表格合并;
[S802]如果当前表格是页面最底部的元素,则查看下一页的最上方的元素是否为表格,若否则提前结束表格的跨页合并过程;
[S803]若上一步为是,则对比开始页的表头和下一页的表格首行去除重复的表头;
[S804]归一化跨页表格的总宽度和高度,如果列数相同则采用等比例缩放后的宽度,若列数不同则采用相同的行总宽度作为缩放比例;
[S805]合并归一化后的跨页表格,并前进一页(将下一页设置为当前页);
[S90]存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。
实施例1
采用本发明方法对如下PDF表格进行提取:
提取后的表格信息为:
上市公司 | 东华软件股份公司 |
上市地点 | 深圳证券交易所 |
股票简称 | 东华软件 |
股票代码 | 002065 |
从本实施例的提取结果来看,采用本发明提取方法,很好的实现了对线段的降噪处理。
实施例2
采用本发明方法对如下PDF表格进行提取:
提取后的表格信息为:
交易对方 | 住所地址 |
黄麟雏 | 西安市碑林区交大三村24舍506号 |
侯丹军 | 北京市东城区香河园街1号院7楼1911号 |
侯丹云 | 北京市朝阳区西坝河南路3号C座1807号 |
其他15名自然人交易对方 | 具体信息详见报告书之第三节交易对方基本情况 |
配套融资投资者 | 待定 |
从本实施例的提取结果来看,采用本发明提取方法,很好的实现了对线段的降噪处理。
Claims (4)
1.一种PDF文件中表格信息的提取方法,其特征在于,包括:
[S10] 读取PDF文件到内存,读取x-refs以及所有的页面;
[S20] 解析页面内所有对象的属性,其中对象包括文字、线段、曲线以及矩形;
[S30] 找到并整理页面内所有横线以及竖线的集合;
[S40] 判断当前页面的横竖线集合能否组成完整的表格边框,若能则按照步骤[S50A]处理,反之则按照步骤[S50B]处理;
[S50A] 有边框表格处理:
[S50A1] 提选出整理得到的原始线段;
[S50A2] 合并横纵向距离小于某个小量的临近平行线段;
[S50A3] 延长并连接端点之间距离小于某个小量的线段;
[S50A4] 对于某些表格单元格横竖线不对齐的状况,如果不对齐的值小于某个小量,则强行将其对齐;否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格;
[S50B] 无边框表格处理:
[S50B1] 收集页面内的散落文本框;
[S50B2] 确定文本框整体的边界,并将之作为当前表格的外边框;
[S50B3] 分别通过三种方案获取表格的内分割线:
[S50B3I] 根据文本框字符的对齐状况获得行和列的分割线;
[S50B3II] 通过文本框的平均字符大小为单位,逐行逐列扫描得到文本的共同边界作为分割线;
[S50B3III] 直接计算的到文本框之间的空白区域,并以此确定表格的内边框;
[S50B4] 根据新增的辅助内边框线段重新尝试有边框表格的处理方案;
[S60] 得到表格的行列以及单元格的元信息;
[S70] 判断是否为跨页表格,如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;
[S80] 存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。
2.根据权利要求1所述的提取方法,其特征在于:判断是否跨页以及合并跨页表格的具体方法是:
[S701] 将表格开始页面作为当前页,查看当前页面(去除页眉页脚以及水印等不相关信息后)是否为最底部一枚元素,若是则结束跨页表格合并;
[S702] 如果当前表格是页面最底部的元素,则查看下一页的最上方的元素是否为表格,若否则提前结束表格的跨页合并过程;
[S703] 若上一步为是,则对比开始页的表头和下一页的表格首行去除重复的表头;
[S704] 归一化跨页表格的总宽度和高度,如果列数相同则采用等比例缩放后的宽度,若列数不同则采用相同的行总宽度作为缩放比例;
[S705] 合并归一化后的跨页表格,并前进一页。
3.根据权利要求1所述的提取方法,其特征在于:对步骤[S30]中找到的集合进行预处理,具体步骤包括:
[S301] 将矩形 (左上角坐标[x1, y1], 右下角坐标[x2, y2])拆分成四条单独的线段:([x1, y1], [x2, y1])、([x1, y2], [x2, y2])、([x1, y1], [x1, y2])、([x2, y1],[x2, y2]),其中x、y分别为以页面左上角为原点,以文字排版方向为坐标轴正方向计算得到的坐标值;
[S302] 将某些厚度非常接近零的线段剔除掉;
[S303] 将端点从坐标点[x1, y1]出发至终点[x2, y2] 的非封闭曲线用最小的矩形包络,并把该矩形按照[S301]的方法拆分成四条独立线段;
[S304] 从每条线段的较长边两侧方向截取一段狭长的矩形,分析后去除周边颜色不为纯色的线段;
[S305] 在两个任意最近距离的横线段之间,若检测到一些竖线段,则在横线的左右两侧极值出分别增加一条辅助线段,竖线亦做类似处理;
[S306] 计算页面内的平均字体大小以及平均行间距,并以此组值,合并一些间距小于此值的线段。
4.根据权利要求1所述的提取方法,其特征在于:所述对象的属性包括位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811630768.1A CN109635268B (zh) | 2018-12-29 | 2018-12-29 | Pdf文件中表格信息的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811630768.1A CN109635268B (zh) | 2018-12-29 | 2018-12-29 | Pdf文件中表格信息的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635268A true CN109635268A (zh) | 2019-04-16 |
CN109635268B CN109635268B (zh) | 2023-05-05 |
Family
ID=66079169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811630768.1A Active CN109635268B (zh) | 2018-12-29 | 2018-12-29 | Pdf文件中表格信息的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635268B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN110704570A (zh) * | 2019-08-13 | 2020-01-17 | 北京众信博雅科技有限公司 | 一种连续页版式文档结构化信息提取方法 |
CN110765739A (zh) * | 2019-10-24 | 2020-02-07 | 中国人民大学 | 一种从pdf文档中抽取表格数据和篇章结构的方法 |
CN111310682A (zh) * | 2020-02-24 | 2020-06-19 | 民生科技有限责任公司 | 一种文本文件表格的通用检测分析及识别方法 |
CN111626145A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
CN112232048A (zh) * | 2020-11-12 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种基于神经网络的表格处理方法以及相关装置 |
CN112380812A (zh) * | 2020-10-09 | 2021-02-19 | 北京中科凡语科技有限公司 | Pdf不完整框线表格提取方法、装置、设备及存储介质 |
CN112580500A (zh) * | 2020-12-17 | 2021-03-30 | 国网山西省电力公司晋城供电公司 | 一种工程批复文件的信息提取方法、装置及电子设备 |
CN112632934A (zh) * | 2020-12-22 | 2021-04-09 | 上海精密计量测试研究所 | 基于比例计算还原表格图片为可编辑的word文件表格的方法 |
CN112800731A (zh) * | 2021-02-23 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种图像表格提取中应对畸变图形的表格修复方法 |
CN112906695A (zh) * | 2021-04-14 | 2021-06-04 | 数库(上海)科技有限公司 | 适配多类ocr识别接口的表格识别方法及相关设备 |
CN113158987A (zh) * | 2021-05-19 | 2021-07-23 | 中国科学技术信息研究所 | 表格处理方法、装置、设备及计算机可读存储介质 |
CN113343658A (zh) * | 2021-07-01 | 2021-09-03 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113688688A (zh) * | 2021-07-28 | 2021-11-23 | 达观数据(苏州)有限公司 | 图片中表格线条的补全方法与图片中表格的识别方法 |
WO2022105172A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 |
WO2022166707A1 (zh) * | 2021-02-07 | 2022-08-11 | 杭州睿胜软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN115019326A (zh) * | 2022-08-02 | 2022-09-06 | 北京杭升科技有限公司 | 档案录入系统、方法、装置以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104094282A (zh) * | 2012-01-23 | 2014-10-08 | 微软公司 | 无边框表格检测引擎 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN105786778A (zh) * | 2016-02-29 | 2016-07-20 | 四川长虹电器股份有限公司 | 远程阅读pdf文件的方法 |
US20180189560A1 (en) * | 2016-12-29 | 2018-07-05 | Factset Research Systems Inc. | Identifying a structure presented in portable document format (pdf) |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
-
2018
- 2018-12-29 CN CN201811630768.1A patent/CN109635268B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104094282A (zh) * | 2012-01-23 | 2014-10-08 | 微软公司 | 无边框表格检测引擎 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN105786778A (zh) * | 2016-02-29 | 2016-07-20 | 四川长虹电器股份有限公司 | 远程阅读pdf文件的方法 |
US20180189560A1 (en) * | 2016-12-29 | 2018-07-05 | Factset Research Systems Inc. | Identifying a structure presented in portable document format (pdf) |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
Non-Patent Citations (3)
Title |
---|
唐皓瑾: "一种面向PDF文件的表格数据抽取方法的研究与实现", 《CNKI》 * |
张伯: "基于PDF文字流的表格识别技术的研究", 《CNKI》 * |
马晶晶: "金融领域信息的自动抽取与分析方法", 《CNKI》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN110704570A (zh) * | 2019-08-13 | 2020-01-17 | 北京众信博雅科技有限公司 | 一种连续页版式文档结构化信息提取方法 |
CN110765739A (zh) * | 2019-10-24 | 2020-02-07 | 中国人民大学 | 一种从pdf文档中抽取表格数据和篇章结构的方法 |
CN110765739B (zh) * | 2019-10-24 | 2023-10-10 | 中国人民大学 | 一种从pdf文档中抽取表格数据和篇章结构的方法 |
CN111310682A (zh) * | 2020-02-24 | 2020-06-19 | 民生科技有限责任公司 | 一种文本文件表格的通用检测分析及识别方法 |
CN111310682B (zh) * | 2020-02-24 | 2023-05-12 | 民生科技有限责任公司 | 一种文本文件表格的通用检测分析及识别方法 |
CN111626145A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
CN111626145B (zh) * | 2020-05-08 | 2024-01-23 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
CN112380812A (zh) * | 2020-10-09 | 2021-02-19 | 北京中科凡语科技有限公司 | Pdf不完整框线表格提取方法、装置、设备及存储介质 |
CN112232048A (zh) * | 2020-11-12 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种基于神经网络的表格处理方法以及相关装置 |
CN112232048B (zh) * | 2020-11-12 | 2024-08-20 | 腾讯科技(深圳)有限公司 | 一种基于神经网络的表格处理方法以及相关装置 |
WO2022105172A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 |
CN112580500A (zh) * | 2020-12-17 | 2021-03-30 | 国网山西省电力公司晋城供电公司 | 一种工程批复文件的信息提取方法、装置及电子设备 |
CN112580500B (zh) * | 2020-12-17 | 2023-07-11 | 国网山西省电力公司晋城供电公司 | 一种工程批复文件的信息提取方法、装置及电子设备 |
CN112632934A (zh) * | 2020-12-22 | 2021-04-09 | 上海精密计量测试研究所 | 基于比例计算还原表格图片为可编辑的word文件表格的方法 |
WO2022166707A1 (zh) * | 2021-02-07 | 2022-08-11 | 杭州睿胜软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112800731A (zh) * | 2021-02-23 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种图像表格提取中应对畸变图形的表格修复方法 |
CN112800731B (zh) * | 2021-02-23 | 2023-04-07 | 浪潮云信息技术股份公司 | 一种图像表格提取中应对畸变图形的表格修复方法 |
CN112906695A (zh) * | 2021-04-14 | 2021-06-04 | 数库(上海)科技有限公司 | 适配多类ocr识别接口的表格识别方法及相关设备 |
CN112906695B (zh) * | 2021-04-14 | 2022-03-08 | 数库(上海)科技有限公司 | 适配多类ocr识别接口的表格识别方法及相关设备 |
CN113158987A (zh) * | 2021-05-19 | 2021-07-23 | 中国科学技术信息研究所 | 表格处理方法、装置、设备及计算机可读存储介质 |
CN113158987B (zh) * | 2021-05-19 | 2022-07-05 | 中国科学技术信息研究所 | 表格处理方法、装置、设备及计算机可读存储介质 |
CN113343658A (zh) * | 2021-07-01 | 2021-09-03 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113343658B (zh) * | 2021-07-01 | 2024-04-09 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113688688A (zh) * | 2021-07-28 | 2021-11-23 | 达观数据(苏州)有限公司 | 图片中表格线条的补全方法与图片中表格的识别方法 |
CN115019326B (zh) * | 2022-08-02 | 2023-08-22 | 北京杭升科技有限公司 | 档案录入系统、方法、装置以及存储介质 |
CN115019326A (zh) * | 2022-08-02 | 2022-09-06 | 北京杭升科技有限公司 | 档案录入系统、方法、装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109635268B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635268A (zh) | Pdf文件中表格信息的提取方法 | |
US20210256253A1 (en) | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium | |
CN110516208B (zh) | 一种针对pdf文档表格提取的系统及方法 | |
CN111178150B (zh) | 车道线检测方法、系统及存储介质 | |
EP2741233A2 (en) | Method and apparatus for detecting road | |
US20150095769A1 (en) | Layout Analysis Method And System | |
CN108132916A (zh) | 解析pdf表格数据的方法、存储介质 | |
CN112329641B (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
CN107644391B (zh) | 一种用于打印文档溯源的数字水印处理方法及装置 | |
CN111860489A (zh) | 一种证件图像校正方法、装置、设备及存储介质 | |
KR20140091762A (ko) | 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출 | |
CN112906695B (zh) | 适配多类ocr识别接口的表格识别方法及相关设备 | |
CN110516221A (zh) | 提取pdf文档中图表数据的方法、设备和存储介质 | |
CN102194117A (zh) | 文稿页面方向检测方法和装置 | |
Ezaki et al. | Dewarping of document image by global optimization | |
CN113140002B (zh) | 基于双目立体相机的道路状况检测方法、系统和智能终端 | |
JP4869841B2 (ja) | 画像処理装置、画像方向判別方法、および画像方向判別プログラム | |
CN110765739A (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
CN112380812B (zh) | Pdf不完整框线表格提取方法、装置、设备及存储介质 | |
CN115619656A (zh) | 数字化档案纠偏矫正方法及系统 | |
CN115690469A (zh) | 一种双目图像匹配方法、装置、设备和存储介质 | |
CN112053305A (zh) | 一种利于图像截取和校正的排版结构、页面、图书及图像截取和校正方法、装置、设备、介质 | |
Dori et al. | Segmentation and recognition of dimensioning text from engineering drawings | |
CN102760233A (zh) | 图像处理装置 | |
CN117765544A (zh) | 一种文档关键要素识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |