CN101976232A - 一种识别文档中数据表格的方法及装置 - Google Patents

一种识别文档中数据表格的方法及装置 Download PDF

Info

Publication number
CN101976232A
CN101976232A CN 201010293736 CN201010293736A CN101976232A CN 101976232 A CN101976232 A CN 101976232A CN 201010293736 CN201010293736 CN 201010293736 CN 201010293736 A CN201010293736 A CN 201010293736A CN 101976232 A CN101976232 A CN 101976232A
Authority
CN
China
Prior art keywords
text
data form
text block
document
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010293736
Other languages
English (en)
Other versions
CN101976232B (zh
Inventor
李譞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wondershare Technology Co ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN2010102937364A priority Critical patent/CN101976232B/zh
Publication of CN101976232A publication Critical patent/CN101976232A/zh
Application granted granted Critical
Publication of CN101976232B publication Critical patent/CN101976232B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明属于文档应用领域,公开了一种识别文档中数据表格的方法和装置,所述方法包括:提取PDF文档中的文本;根据提取的文本的属性对文本进行划分,得到一划分结果;对划分结果进行判断和处理,识别并生成数据表格;将数据表格保存至独立的中间数据结构中;根据目标文档格式将所述中间数据结构中的数据表格还原。本发明准确的对PDF中的表格数据进行转换,极大的提高了转换后的可编辑性,减少了转换后对文档再次手工处理的工作。

Description

一种识别文档中数据表格的方法及装置
技术领域
本发明属于文档应用领域,具体涉及一种识别文档中数据表格的方法及装置。
背景技术
随着电脑的不断普及,无纸化办公得到越来越多的应用,各种各样的文档也大量的出现在用户的面前。
在可移植文档格式(Portable Document Format,PDF)文档中,实际看到的表格是线条与文本叠加形成的。因此,在将PDF文件转换为其它较易于编辑的文档格式时,如果仅仅是从PDF文档中提取原始数据内容,就会得到分散的文本内容与线条;如果需要表格,需要手动删除线条,插入表格,并将文本内容重新填入表格中,费时费力。
同时,在PDF中,还存在一些文本内容是以类似表格的形式呈现,却没有相应的表格线来形成真正的表格。这些文本内容在提取后,若不经过特殊的处理,较难保持原有的排版。
从PDF文档中提取数据后,根据其中的线条识别出表格,再将文本内容填入表格中,由于表格识别受到线条制约,无法识别没有表格线的表格,表格的表格线缺失对其识别过程也有一定影响。同时,在对存在大量线条的文档进行表格识别时,处理也比较缓慢。
对于有数据表格或者类似表格的平面二维数据表的PDF,如果根据PDF中的线条进行表格识别,虽然可以还原表格,却可能会因为表格线缺失或无表格线,导致识别受到影响或不能进行。
如何准确的对PDF中的表格数据进行转换,提高转换后的可编辑性,减少转换后对文档再次手工处理的工作,是文档应用领域研究的方向之一。
发明内容
本发明的目的在于提供一种识别文档中数据表格的方法,目的在于准确的对PDF中的表格数据进行转换,提高转换后的可编辑性,减少转换后对文档再次手工处理的工作。
本发明实施例是这样实现的,一种识别文档中数据表格的方法,所述方法包括以下步骤:
提取PDF文档中的文本;
根据提取的文本的属性对文本进行划分,得到一划分结果;
对划分结果进行判断和处理,识别并生成数据表格;
将数据表格保存至独立的中间数据结构中;
根据目标文档格式将所述中间数据结构中的数据表格还原。
本发明实施例的另一目的在于提供一种识别文档中数据表格的装置,所述装置包括:
文本提取模块,用于提取PDF文档中的文本;
文本划分模块,用于根据提取的文本的属性对文本进行划分,得到一划分结果;
数据表格生成模块,用于对划分结果进行判断和处理,识别并生成数据表格;
数据表格存储模块,用于将数据表格保存至独立的中间数据结构中;
数据表格还原模块,用于根据目标文档格式将所述中间数据结构中的数据表格还原。
本发明实施例通过将提取出来的PDF文档元素中的文本,根据文本的大小、位置等属性,进行划分,通过对划分结果的判断与处理,进行数据表格的识别与生成,并将识别的结果保存至独立的中间数据结构中,通过对该结构的读取,在生成其它文档格式时还原数据表格,极大的提高了内容的还原度和阅读性,提高了可编辑性,减少了转换后对文档再次手工处理的工作。
附图说明
图1为本发明实施例提供的识别文档中数据表格的方法的流程图;
图2为本发明实施例提供的识别文档中数据表格的装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的识别文档中数据表格的方法的流程。
在步骤S101中,提取PDF文档中的文本;
在步骤S102中,根据提取的文本的属性对文本进行划分,得到一划分结果;
在步骤S103中,通过对所述划分结果的判断与处理,进行数据表格的识别与生成;
在步骤S104中,将识别的结果保存至独立的中间数据结构中;
在步骤S105中,根据目标文档格式将所述中间数据结构中的数据表格还原。
具体的,步骤S101描述如下:
PDF页面显示的内容均是由页面内容流中的一系列控制字来表示的。在具体实施过程中,根据PDF页面内容流控制字所指示的绘制指令,提取该绘制指令中指示的要绘制的文本块,并将提取的文本块保存至文本块集合中。其中,提取出的文本块保存有位置、外接矩形区域大小等基本信息。
具体的,步骤S102包括:步骤A、对文本块进行划分;步骤B、对文本间隙进行划分。
PDF中文本块的表示方式较复杂,除了通常理解的连续的几个文字之外,还能够根据参数调整文字间距,因此会出现一个文本块可能包含两块甚至数块文字块的情形。这种文本块在提取时仍将认为是一个文本块,但实际上其中应该包含数个文本块。为了简化识别的判断逻辑,同时排除中间空隙很大的文本块造成的影响,有必要将提取出的这种文本块进行分割。
其中,步骤A,对文本块进行划分描述如下:
A1)、判断是否包含子文本块,若不包含,继续进行下一个文本块的处理;若包含,则进行步骤A2)
A2)、对文本块中的每一个子文本块,都用下列规则进行处理:
判断当前子文本块与其前一个子文本块之间的间隙是否大于判断阀值,其中该判断阀值可以依据统计数据或经验来确定及调整;
若大于,则将文本块从当前子文本块位置进行分割,当前子文本块之前的所有子文本块为一个文本块,当前子文本块以及当前文本块之后的子文本块为另一个文本块
若不大于,则继续判断下一个子文本块。
A3)、若文本块被分割,则对分割出来的,还含有未处理过的子文本块的文本块继续按照步骤A1进行处理,若没有分割,则继续处理下一个文本块。
上述处理完成后,文本块集合中已经没有中间空白间隙很大的文本块,此时进行步骤B。
其中,步骤B、对文本块间隙进行划分描述如下:
通过对文本块之间的空白间隙进行划分,确定数据的网格分布,作为生成表格的依据。空白间隙划分分为行方向划分和列方向划分2种,2种划分的步骤是相同的。
B1)、对文本块集合按文本块位置进行另一方向的一次划分,即若是行方向间隙划分,则进行列划分;若是列方向间隙划分,则进行行划分;
B2)、对步骤B1中划分出的每一行(列),进行以下处理:
a)、再进行一次划分,即若是行方向间隙划分,则进行行划分;若是列方向间隙划分,则进行列划分;
b)、扫描步骤a中的划分结果,将划分出的块之间的空白间隙属性(在划分方向上的起始和结束位置)记录至一个空白属性集合中。其中,间隙属性按照间隙起始位置由小到大有序排列;
c)、将步骤b中记录的空白间隙属性集合合并到原有的空白间隙属性集合中。本发明实施例在此处定义2个游标:
当前间隙属性指针和新加间隙属性指针,标识遍历过程中当前操作的2个间隙属性;同时需要定义一个相交标志,标识前一次比较的2个属性是否相交。基于前面的定义,空白间隙合并的规则可以描述为包括:
i、若原有集合为空,直接并入;
ii、若原有集合非空,则初始化当前间隙属性指针指向原有集合的第一个元素,新加间隙属性指针也初始化为指向新的空白间隙属性集合的第一个元素;
iii、按下列规则合并当前间隙属性指针指向的间隙属性(以下简称当前间隙)与新加间隙属性指针指向的间隙属性(以下简称新加间隙):
(1)、若间隙属性指针已经移动到最后一个元素的后面,即已经访问完了原有间隙集合中的元素,则直接插入新加间隙到集合末尾;
(2)、若当前间隙与新加间隙相交,则取2个属性的交集,即起始位置取大值,结束位置取小值,将当前间隙属性指针指向的间隙属性修改为此交集的属性;同时置相交标志为真;
(3)、若新加间隙在当前间隙的前面,则依照下列规则处理:
①、若相交标志为假,则将新加间隙插入当前间隙之前
②、若相交标志为真,则将相交标志置为假。
处理完后将新加间隙属性指针移向下一个新加间隙属性。若此时新加间隙属性指针没有移动到最后一个元素的后面,即已经访问完了新加间隙集合中的元素,则回到步骤iii,否则合并结束。
(4)、其它情况直接将相交标志置为假。
iv、移动当前间隙属性指针指向下一个原有集合中的元素,并回到步骤iii。
其中,行间隙划分和列间隙划分的过程使用了同一个文本块集合作为输入数据,因此要正常执行这两个过程,必须复制一份相同的文本块集合,使这两个过程的数据不受另外一个过程的影响和破坏。同时,由于这两个过程的数据各自独立,互不影响,可以并行执行。
其中,步骤S103具体描述为:
根据步骤S102得出的间隙属性集合,计算出表格的行(列)方向的网格线。最终的间隙属性集合,实际已经将文本集合在间隙划分方向上的最小网格划分出来,生成的网格线只需要穿过每一个间隙即可。至于网格线相对于间隙中的位置,可以根据需要进行调整。
在本发明实施例中,网格线生成使用的是间隙的正中间。生成行(列)方向的网格线步骤为:对间隙属性集合中的每一个间隙,读取其起始和结束位置,根据需要计算出网格线的位置。这里使用的是间隙正中间,则计算公式为:网格线位置=起始+结束/2,存储得出的网格线并继续进行下一个间隙的计算。
根据生成的行方向和列方向的网格线,生成一张空表格。步骤即是取出整个文本块集合的边界,作为表格的外边框,表格线则是直接使用网格线的数据生成。步骤S102中的间隙也可以直接额外添加两个起始和结束位置相等的间隙,用于标识表格的边界,直接参与间隙合并,可以避免重复计算表格边界。
具体的,步骤S104描述如下:
对于文本块集合中的每一个文本块,根据其位置信息,结合网格线进行计算,确定其落在表格的哪一个单元格内,并将其填入该单元格。确定文本块属于哪个单元格的依据根据实际需求进行确定,此处不再详述。
经本发明实施例处理过的PDF数据表格,可以生成其它文档格式中的原生表格,还原度和可读性都得到了很大的提高,还减少了转换后对文档再次手工处理的工作;而且可以消除因依赖表格线识别表格,造成的无法识别无表格线的表格以及类似表格形式的平面二维数据的问题。
图2示出了本发明实施例提供的识别文档中数据表格的装置的结构。
其中,文本提取模块21,用于提取PDF文档中的文本;
文本划分模块22,用于根据提取的文本的属性对文本进行划分,得到一划分结果;
数据表格生成模块23,用于对划分结果进行判断和处理,识别并生成数据表格;
数据表格存储模块24,用于将数据表格保存至独立的中间数据结构中;
数据表格还原模块25,用于根据目标文档格式将所述中间数据结构中的数据表格还原。
优选的,所述文本提取模块21具体包括:
文本块提取模块211,用于根据PDF页面内容流控制字所指示的绘制指令,提取该绘制指令对应的要绘制的文本块;
文本块保存模块212,用于将提取的文本块保存至一文本块集合中,其中,提取出的文本块保存有该文本块的位置以及外接矩形区域大小信息。
优选的,所述文本划分模块22具体包括:
文本块划分模块221,用于对文本块集合中的文本块进行划分;
文本间隙划分模块222,用于对文本间隙进行划分,获取间隙属性集合。
优选的,所述数据表格生成模块23具体包括:
网格线计算模块231,用于根据获取的间隙属性集合计算出表格的网格线,所述网格线包括有行线和列线;
表格生成模块232,用于根据生成的网格线生成一表格。
优选的,所述数据表格存储模块24具体包括:
单元格确定模块241,用于对于文本块集合中的每一个文本块,根据该文本块的位置信息,结合网格线进行计算,确定该文本块所属的表格中的单元格;
填充模块242,用于将该文本块填至上述确定的单元格中。
本发明实施例通过将提取出来的PDF文档元素中的文本,根据文本的大小、位置等属性,进行划分,通过对划分结果的判断与处理,进行数据表格的识别与生成,并将识别的结果保存至独立的中间数据结构中,通过对该结构的读取,在生成其它文档格式时还原数据表格,极大的提高了内容的还原度和阅读性,提高了可编辑性,减少了转换后对文档再次手工处理的工作。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种识别文档中数据表格的方法,其特征在于,所述方法包括以下步骤:
提取PDF文档中的文本;
根据提取的文本的属性对文本进行划分,得到一划分结果;
对划分结果进行判断和处理,识别并生成数据表格;
将数据表格保存至独立的中间数据结构中;
根据目标文档格式将所述中间数据结构中的数据表格还原。
2.如权利要求1所述的识别文档中数据表格的方法,其特征在于,所述提取PDF文档中的文本的步骤具体包括:
根据PDF页面内容流控制字所指示的绘制指令,提取该绘制指令对应的要绘制的文本块;
将提取的文本块保存至一文本块集合中,其中,提取出的文本块保存有该文本块的位置以及外接矩形区域大小信息。
3.如权利要求2所述的识别文档中数据表格的方法,其特征在于,根据提取的文本的属性对文本进行划分,得到一划分结果的步骤具体包括:
对文本块集合中的文本块进行划分;
对文本间隙进行划分,获取间隙属性集合。
4.如权利要求3所述的识别文档中数据表格的方法,其特征在于,所述对划分结果进行判断和处理,识别并生成数据表格的步骤具体包括:
根据获取的间隙属性集合计算出表格的网格线,所述网格线包括有行线和列线;
根据生成的网格线生成一表格。
5.如权利要求4所述的识别文档中数据表格的方法,其特征在于,将数据表格保存至独立的中间数据结构中的步骤具体包括:
对于文本块集合中的每一个文本块,根据该文本块的位置信息,结合网格线进行计算,确定该文本块所属的表格中的单元格;
将该文本块填至上述确定的单元格中。
6.一种识别文档中数据表格的装置,其特征在于,所述装置包括:
文本提取模块,用于提取PDF文档中的文本;
文本划分模块,用于根据提取的文本的属性对文本进行划分,得到一划分结果;
数据表格生成模块,用于对划分结果进行判断和处理,识别并生成数据表格;
数据表格存储模块,用于将数据表格保存至独立的中间数据结构中;
数据表格还原模块,用于根据目标文档格式将所述中间数据结构中的数据表格还原。
7.如权利要求6所述的识别文档中数据表格的装置,其特征在于,所述文本提取模块具体包括:
文本块提取模块,用于根据PDF页面内容流控制字所指示的绘制指令,提取该绘制指令对应的要绘制的文本块;
文本块保存模块,用于将提取的文本块保存至一文本块集合中,其中,提取出的文本块保存有该文本块的位置以及外接矩形区域大小信息。
8.如权利要求7所述的识别文档中数据表格的装置,其特征在于,所述文本划分模块具体包括:
文本块划分模块,用于对文本块集合中的文本块进行划分;
文本间隙划分模块,用于对文本间隙进行划分,获取间隙属性集合。
9.如权利要求8所述的识别文档中数据表格的装置,其特征在于,所述数据表格生成模块具体包括:
网格线计算模块,用于根据获取的间隙属性集合计算出表格的网格线,所述网格线包括有行线和列线;
表格生成模块,用于根据生成的网格线生成一表格。
10.如权利要求9所述的识别文档中数据表格的装置,其特征在于,所述数据表格存储模块具体包括:
单元格确定模块,用于对于文本块集合中的每一个文本块,根据该文本块的位置信息,结合网格线进行计算,确定该文本块所属的表格中的单元格;
填充模块,用于将文本块填至所述单元格确定模块确定的单元格中。
CN2010102937364A 2010-09-19 2010-09-19 一种识别文档中数据表格的方法及装置 Expired - Fee Related CN101976232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102937364A CN101976232B (zh) 2010-09-19 2010-09-19 一种识别文档中数据表格的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102937364A CN101976232B (zh) 2010-09-19 2010-09-19 一种识别文档中数据表格的方法及装置

Publications (2)

Publication Number Publication Date
CN101976232A true CN101976232A (zh) 2011-02-16
CN101976232B CN101976232B (zh) 2012-06-20

Family

ID=43576118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102937364A Expired - Fee Related CN101976232B (zh) 2010-09-19 2010-09-19 一种识别文档中数据表格的方法及装置

Country Status (1)

Country Link
CN (1) CN101976232B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
WO2014146483A1 (zh) * 2013-03-19 2014-09-25 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108664458A (zh) * 2017-03-28 2018-10-16 华多九州科技股份有限公司 一种pdf文件表格解析方法及系统
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109558379A (zh) * 2018-12-03 2019-04-02 北京中网易企秀科技有限公司 一种数据审核方法及装置
CN109635172A (zh) * 2018-12-28 2019-04-16 天津字节跳动科技有限公司 在线文档检索方法、装置和电子设备
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质
CN110096682A (zh) * 2019-04-17 2019-08-06 武汉初心科技有限公司 基于modoc数据结构来实现文档中数据的实时协作处理方法
CN110147537A (zh) * 2018-02-11 2019-08-20 鼎复数据科技(北京)有限公司 一种基于位置关系的pdf表格抽取方法
CN110147697A (zh) * 2018-02-11 2019-08-20 鼎复数据科技(北京)有限公司 一种基于人机互助的pdf表格提取方法
CN110210440A (zh) * 2019-06-11 2019-09-06 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110413979A (zh) * 2019-08-05 2019-11-05 金税桥大数据科技股份有限公司 基于图像识别技术的行业表格数字化处理方法
WO2019237540A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 财政数据的获取方法、装置、终端设备及介质
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN111325110A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
WO2020233332A1 (zh) * 2019-05-20 2020-11-26 深圳壹账通智能科技有限公司 文本结构化信息提取方法、服务器及存储介质
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205081A1 (en) * 2003-04-10 2004-10-14 Hui Chao Method and apparatus for classifying elements of a document
EP1732012B1 (en) * 2005-06-09 2007-10-10 PDFlib GmbH Method of identifying redundant text in an electronic document
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205081A1 (en) * 2003-04-10 2004-10-14 Hui Chao Method and apparatus for classifying elements of a document
EP1732012B1 (en) * 2005-06-09 2007-10-10 PDFlib GmbH Method of identifying redundant text in an electronic document
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
US9798925B2 (en) 2013-03-19 2017-10-24 Fujian Foxit Software Development Joint Stock Co., Ltd. Method for identifying PDF document
WO2014146483A1 (zh) * 2013-03-19 2014-09-25 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN105912516B (zh) * 2016-04-01 2019-02-05 朗坤智慧科技股份有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN108664458B (zh) * 2017-03-28 2022-06-14 中科云投科技股份有限公司 一种pdf文件表格解析方法及系统
CN108664458A (zh) * 2017-03-28 2018-10-16 华多九州科技股份有限公司 一种pdf文件表格解析方法及系统
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN107977346B (zh) * 2017-11-23 2021-06-15 深圳市亿图软件有限公司 一种pdf文档编辑方法及终端设备
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN110147537A (zh) * 2018-02-11 2019-08-20 鼎复数据科技(北京)有限公司 一种基于位置关系的pdf表格抽取方法
CN110147697A (zh) * 2018-02-11 2019-08-20 鼎复数据科技(北京)有限公司 一种基于人机互助的pdf表格提取方法
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108470021B (zh) * 2018-03-26 2022-06-03 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
WO2019237540A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 财政数据的获取方法、装置、终端设备及介质
CN109284495B (zh) * 2018-11-03 2023-02-07 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109558379A (zh) * 2018-12-03 2019-04-02 北京中网易企秀科技有限公司 一种数据审核方法及装置
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质
CN109635172A (zh) * 2018-12-28 2019-04-16 天津字节跳动科技有限公司 在线文档检索方法、装置和电子设备
CN110096682A (zh) * 2019-04-17 2019-08-06 武汉初心科技有限公司 基于modoc数据结构来实现文档中数据的实时协作处理方法
CN110096682B (zh) * 2019-04-17 2023-03-24 武汉初心科技有限公司 基于modoc数据结构来实现文档中数据的实时协作处理方法
WO2020233332A1 (zh) * 2019-05-20 2020-11-26 深圳壹账通智能科技有限公司 文本结构化信息提取方法、服务器及存储介质
CN110210440B (zh) * 2019-06-11 2021-04-27 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110210440A (zh) * 2019-06-11 2019-09-06 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110390269B (zh) * 2019-06-26 2023-08-01 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110413979A (zh) * 2019-08-05 2019-11-05 金税桥大数据科技股份有限公司 基于图像识别技术的行业表格数字化处理方法
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN111325110A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN111325110B (zh) * 2020-01-22 2024-04-05 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN101976232B (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
CN101976232B (zh) 一种识别文档中数据表格的方法及装置
CN101770446B (zh) 一种版式文件中表格识别方法及系统
CN108415887A (zh) 一种pdf文件向ofd文件转化的方法
CN101853246B (zh) 一种文档格式的转换方法及装置
US11341322B2 (en) Table detection in spreadsheet
US20130174024A1 (en) Method and device for converting document format
CN101989256A (zh) 一种文书文件的排版方法及装置
US20130181995A1 (en) Handwritten character font library
CN104516867A (zh) 一种表格重排方法和系统
CN101206639A (zh) 一种基于pdf的复杂版面的标引方法
CN112651331A (zh) 文本表格提取方法、系统、计算机设备及存储介质
CN105488471A (zh) 一种字形识别方法及装置
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
KR101768899B1 (ko) 문단 내 메모 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
CN103970723A (zh) 基于图像检测和切割的电子文档屏幕显示方法
CN101686309B (zh) 一种图像路径生成陷印的方法及装置
CN112861485A (zh) 核电dcs控制逻辑图纸的处理方法、装置及设备
WO2020252931A1 (zh) 一种pdf文件数据提取方法和装置、设备及存储介质
CN106933783A (zh) 一种从文本中智能提取日期的方法及装置
CN114022888A (zh) 用于识别pdf表格的方法、设备和介质
CN113962193A (zh) 表格排版方法、装置、电子设备及存储介质
JP2011090524A (ja) 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム
CN111160265A (zh) 文件转换方法、装置、存储介质及电子设备
CN117217172B (zh) 表格信息获取方法、装置、计算机设备、存储介质
CN102298572A (zh) 电子文档生成设备及电子文档生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY CO., L

Free format text: FORMER NAME: SHENZHEN WONDERSHARE SOFTWARE CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL A building block 901

Patentee after: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL A building block 901

Patentee before: WONDERSHARE SOFTWARE Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 850000 Tibet autonomous region, Lhasa City, New District, west of the East Ring Road, 1-4 road to the north, south of 1-3 Road, Liu Dong building, east of the 8 unit 6, floor 2, No.

Patentee after: WONDERSHARE TECHNOLOGY CO.,LTD.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL A building block 901

Patentee before: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620