CN101866335A - 一种文档转换中的表格处理方法及装置 - Google Patents

一种文档转换中的表格处理方法及装置 Download PDF

Info

Publication number
CN101866335A
CN101866335A CN 201010206608 CN201010206608A CN101866335A CN 101866335 A CN101866335 A CN 101866335A CN 201010206608 CN201010206608 CN 201010206608 CN 201010206608 A CN201010206608 A CN 201010206608A CN 101866335 A CN101866335 A CN 101866335A
Authority
CN
China
Prior art keywords
line segment
document
obtains
line
table area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010206608
Other languages
English (en)
Other versions
CN101866335B (zh
Inventor
李莹莹
晏检平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wondershare Technology Co ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN 201010206608 priority Critical patent/CN101866335B/zh
Publication of CN101866335A publication Critical patent/CN101866335A/zh
Application granted granted Critical
Publication of CN101866335B publication Critical patent/CN101866335B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于文档应用领域,公开了一种文档转换中的表格处理方法及装置,所述方法包括:从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;对获取的线段进行表格识别预处理,确定各个表格区域;在划分出的各个表格区域内确定各个表格;在确定出的表格内填充原文档中对应的内容。本发明将PDF文档中由很多无逻辑关系的线段或多边形组成的表象为表格的对象,识别为能用逻辑关系的结构描述的表格对象,提高了转换出的文档的排版及编辑效果。

Description

一种文档转换中的表格处理方法及装置
技术领域
本发明属于文档应用领域,具体涉及一种文档转换中的表格处理方法及装置。
背景技术
随着电脑的不断普及,无纸化办公得到越来越多的应用,各种各样的文档也大量的出现在用户的面前。
以可移植文档格式(Portable Document Format,PDF)、office文档为例,PDF文件格式以其卓越的特性成为在Internet上进行电子文档发行和格式化信息传播的理想文件格式,在将PDF格式的文档转换office格式的文档时,面临较多的困难。
譬如PDF格式文档中的表象为表格的对象,在其内部是由很多彼此无任何逻辑关系的线条或多边形组成的。在将PDF转换为其他格式的文档,特别转换为office类的文档时,由于PDF没有表格元素,很难跟office类文档兼容,使转换出的文档的排版、及编辑效果都很差。
在将诸如PDF格式文档等原文档中的表格转换为其他文档格式的表格时,如何提高转换出的文档的排版及编辑效果,是文档应用领域研究的方向之一。
发明内容
本发明的目的在于提供一种文档转换中的表格处理方法,目的在于在将诸如PDF格式文档等原文档中的表格转换为其他文档格式的表格时,提高转换出的文档的排版及编辑效果。
本发明实施例是这样实现的,一种文档转换中的表格处理方法,所述方法包括以下步骤:
从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;
对获取的线段进行表格识别预处理,根据识别出的线段确定各个表格区域;
在划分出的各个表格区域内确定各个表格;
在确定出的表格内填充原文档中对应的内容。
本发明实施例的另一目的在于提供一种文档转换中的表格处理装置,所述装置包括:
线段获取模块,用于从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;
表格区域确定模块,用于对获取的线段进行表格识别预处理,根据识别出的线段确定各个表格区域;
表格确定模块,用于在划分出的各个表格区域内确定各个表格;
表格填充模块,用于在确定出的表格内填充原文档中对应的内容。
本发明实施例通过从原文档(PDF格式)中获取所有的线段,包括多边形的线段,对获取的线段进行表格识别预处理,根据识别出的线段确定各个表格区域,在划分出的各个表格区域内确定各个表格,在确定出的表格内填充原文档中对应的内容,将PDF文档中由很多无逻辑关系的线段或多边形组成的表象为表格的对象,识别为能用逻辑关系的结构描述的表格对象,提高了转换出的文档的排版及编辑效果。
附图说明
图1为本发明实施例提供的文档转换中的表格处理方法的流程图;
图2为本发明实施例中表象为线段的多边形;
图3为本发明实施例提供的文档转换中的表格处理装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的文档转换中的表格处理方法的流程。
在步骤S101中,从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段。
为便于说明,本发明实施例以原文档为PDF文档为例进行说明。
在步骤S102中,对获取的线段进行表格识别预处理,根据识别出的线段确定各个表格区域,该步骤具体的过程将在后文详述。
在步骤S103中,在划分出的各个表格区域内确定各个表格,该步骤具体的过程将在后文详述。
在步骤S104中,在确定出的表格内填充原文档中对应的内容,该步骤具体的过程将在后文详述。
在具体实施过程中,图1中的步骤S101具体包括:
从PDF文档中获取所有的线段和多边形,即解析PDF文档,从PDF文档中获取各种元素,包括文本、线段、多边形、图像等,并将获取的所有的线段存入线段集合Lines中,将获取的所有多边形存入多边形集合Polygons中。
在具体实施过程中,图1中的步骤S102具体包括:
(A)、将细的多边形识别为线段;(B)、提取多边形的边框,并去除细小的线段;(C)、从所有线段中提取水平和垂直线段;(D)、去除重叠及内含线段;(E)、将可连接的线段识别为一条线段;(F)、去除没有线段与其在两端点正交的线段;(G)、划分各个表格区域。下面将详细的描述上述各个步骤的算法:
(A)、将细的多边形识别为线段。
该步骤(A)即判断获取的多边形是否符合近似线段特征,若符合,将该多边形识别为线段;若不符合,则提取该多边形边框的线段。
在PDF文档中,有些表象是线段的对象,其实从PDF文档中提取出来是多边形。此类对象的特征是:组成多边形的线段中,有两条线段是彼此平行、且较其他的线段长的线段,而且多边形的顶点都分布在这两个线段的两个端点的附近,在坐标误差范围内,可视为重合的点(请参阅图2)。
而此类对象有可能是组成表格的元素,为了能使其表象与其描述结构对应,故要将此类多边形识别为线段。根据此类多变形的特点,本发明实施例提供算法如下:
A1、此多边形是否具有两条在平行误差范围内平行、且较其他线段特别长的线段,若有,则执行A3;否则,执行A2;
A2、判断此多边形是否是多边形集合Polygons中未处理的最后一个多边形,若是,则退出此算法,否则,取下一个多边形,执行A1;
A3、取此多边形的所有顶点,存入一个临时的顶点集合Points中;
A4、随意取顶点集合Points中的一个顶点P1,作为此轮处理的基准判断点;
A5、从顶点集合Points中剩下的顶点中再取一个顶点P2,判断P1与P2间的距离是否小于坐标误差,若是,则从顶点集合Points中删除顶点P2,否则,重复执行A5,至到将顶点集合Points中剩下的所有顶点处理一遍,然后从顶点集合Points中取出P1;
A6、再随意从顶点集合Points中剩下的顶点中取一个顶点P1`,作为此轮处理的基准判断点;
A7、从顶点集合Points中剩下的顶点中再取一个顶点P2`,判断P1`与P2`间的距离是否小于坐标误差,若是,则从顶点集合Points中删除顶点P2`,否则,重复执行A7,至到将顶点集合Points中剩下的所有顶点处理一遍,然后从顶点集合Points中取出P1`;
A8、执行A4、A5、A6、A7后,判断顶点集合Points中是否还剩有顶点,若无,则将P1、P1`作为新线段的两端点,新线段的宽度为P1与P1`横坐标之差,新线段的高度为P1与P1`纵坐标之差,新线段的颜色为此多边形的填充色,然后将此新线段存入线段集合Lines中,并从多边形集合Polygons中删除此多边形。
A9、重复A2。
在具体实施过程中,对多边形集合Polygons中的每个多边形都执行上述算法。
(B)、提取多边形的边框,并去除细小的线段。
在表格识别中,主要是用线段来进行特征分析,判断这些线段是否可以组合成表格。而多边形的边框是由线段组成的,这些线段也有可能是组成表格的线段,故要将多边形的边框中的线段提取出来存入线段集合Lines中,以便集体处理。
而细小的线段是那些宽度和高度都小于坐标误差的线段。在线段处理中,这些细小的线段是对表格识别毫无意义的,且会严重影响算法效率,故将它们删除,此(B)过程的算法如下:
B1、对多边形集合Polygons中每个多边形,从多边形中取出线段,存入线段集合Lines中,然后删除多边形集合Polygons;
B2、对线段集合Lines中每个线段,判断它的宽和高是否都小于坐标误差,如果是,则从线段集合Lines中删除此线段,否则,保留此线段。
(C)、从所有线段中提取水平和垂直线段。
根据对各种格式的文档中表格特征的分析可知,文档中的表格几乎都是由水平和垂直的线段组合而成的。故对其他非水平和非垂直的线段可以删除,只提取水平线段和垂直线段。此过程算法如下:
C1、构造一个新的线段集合HLines,里面存放水平线段;在构造一个新的线段集合VLines,里面存放垂直线段;
C2、对线段集合Lines中每个线段,判断在平行误差范围内,此线段是否和水平线平行,若平行,则将此线段存入水平线段集合HLines中,否则,判断在垂直误差范围内,此线段是否和水平线垂直,若垂直,则将此线段存入垂直线段集合VLines中,否则,不处理。
(D)、去除重叠及内含线段。
其中,重叠线段定义为:在坐标误差范围内,两个线段的两个端点是重合的。
内含线段定义为:在坐标误差范围内,此线段的两个端点都在另一个线段上。
几个重叠的线段在表象上,其实是一条线段,故为了跟表象相符,应该只取其中的一个线段,而将其他的线段删除,当一个线段处在另一个线段里时,其实在表象上,它们也只是一个线段,故为了跟表象相符,应该删除处在另外线段中的线段。此过程算法如下:
D1、取水平线段集合HLines中第一条线段L1,作为此轮处理的基准判断线段;
D2、从水平线段集合HLines中剩下的线段中取一条线段L,判断L1是否和L2重合,或者L1是否包含L,若是,则删除L,否则,重复B,至到水平线段集合HLines中剩下的线段都被处理过;
D3、取水平线段集合HLines中第二条线段L2,作为此轮处理的基准判断线段。执行D2;
D4、......;
D5、取水平线段集合HLines中第N条线段LN,作为此轮处理的基准判断线段。执行B;
D6、......;
D7、取水平线段集合HLines中最后一条线段LL,作为此轮处理的基准判断线段。执行B;
D8、算法结束。
同样对垂直线段集合VLines中的线段做上述同样处理。
(E)、将可连接的线段识别为一条线段。
可连接的线段的定义为:在斜率误差范围内,两条线段斜率相等,在坐标误差范围内,两条线段的首尾端点重合或两条线段部分重合,则这两条线段和连接在一起,作为一条线段。此过程算法如下:
E1、取水平线段集合HLines中一条线段L1,作为此轮处理的基准判断线段;
E2、取下一条线段L2,判断L1与L2是否可连接,若能连接,则用这两条线段构造一条新的线段LX,并删除此两条线段,并用新的线段LX取代L1;若L2是最后一条未处理线段,则重复E1;若L1是最后一条作为基准线段的的线段,则执行E4D
E3、重复E2。
E4、结束算法。
同样对垂直线段集合VLines中的线段做上述同样处理。
(F)、去除没有线段与其在两端点正交的线段。
根据组成表格的线段的条件,只有在两端点有与其正交的线段的线段才可能是组成表格的线段。故应去除没有线段与其在两端点正交的线段。该过程的算法如下:
F1、取水平线段集合HLines中一条线段L1,作为此轮处理的基准判断线段。并创建两个标志变量FA,FB,FA表示线段L1的A端点是否有交点,FB表示线段L1的B端点是否有交点,初始化都为false;
F2、取垂直线段集合VLines中一条线段L2;
F3、FA是否为false,若是,则执行F4。否则,执行F6;
F4、判断L1的A端点是否在L2上,若在,则执行F5;
F5、设置FA为true,并判断FB是否为true,若是,则重复F1,至到水平线段集合HLines中每条线段处理完毕,然后算法结束,否则重复F2,至到垂直线段集合VLines中每条线段都处理过。若至到垂直线段集合VLines中每条线段都处理过,且FA和FB不都为true,则删除L1;
F6、FB是否为false,若是,则执行F7;
F7、判断L1的B端点是否在L2上,若在,则执行F8;
F8、设置FB为true,并判断FA是否为true,若是,则重复F1,至到水平线段集合HLines中每条线段处理完毕,然后算法结束。否则重复F2,至到垂直线段集合VLines中每条线段都处理过。若至到垂直线段集合VLines中每条线段都处理过,且FA和FB不都为true,则删除L1。
同理,对垂直线段集合VLines中每条线段进行如上类似处理。
(G)、划分各个表格区域。
此算法如下:
G1、构造一个矩形区域集合Areas;
G2、取水平线段集合HLines中一条线段,在垂直线段集合VLines中寻找与它在端点相交的线段,根据此两条线段的坐标,可以构造一个矩形区域A,此矩形区域的左上点是这两线段的四个端点中最小点,矩形区域的右下点是这两线段的四个端点中最大点。将此矩形区域存入矩形区域集合Areas中;
G3、重复G2,至到不再有更多的矩形区域可以构造出来。
继续回到图1中,其中,步骤S103,在各个表格区域内识别各个表格。
需要说明的是,以下算法中的area为矩形区域集合Areas中的一个,为了识别出所有的表格,需要对矩形区域集合Areas中的每个矩形区域area进行以下的算法。
在本发明实施例中,用于描述表格的数据结构的属性包括:一个用于存储表格的基础单元格的二维数组,一个用于存储表格的逻辑单元格的一维链表,还有表格的位置及高宽信息。
步骤S103就是将表格区域中的一个表格,用此数据结构描述出来。故要获取表格的上述属性,才能完整的描述一个表格。
该过程主要包括以下的步骤:(H)、提取一个表格区域内的所有线段;(I)、去除在两端无交点的线段;(J)、确定表格的基础单元格,及行数,列数;(K)、确定表格的坐标位置及宽高;(L)、确定表格的逻辑单元格。下面详细的描述上述的步骤。
(H)、提取一个表格区域内的所有线段。
此过程算法如下:
H1、构造水平线段临时集合THLines,和垂直线段临时集合TVLines;
H2、对水平线段集合HLines中每条线段HL,根据坐标位置,在坐标误差范围内,判断HL是否在area中,若在,则将HL存入水平线段临时集合THLines;
H3、对垂直线段集合VLines中每条线段VL,根据坐标位置,在坐标误差范围内,判断VL是否在area中,若在,则将VL存入水平线段临时集合TVLines。
(I)、去除在两端无交点的线段。
去除水平线段集合HLines中和垂直线段集合VLines中,在两端无交点的线段,该算法在上文有述,此处不再赘述。
(J)、确定表格的基础单元格,及行数,列数。
该过程算法如下:
J1、在水平线段临时集合THLines中,统计所有的水平线段的纵坐标的不同个数M,则表格的行数就是M-1;
J2、在垂直线段临时集合TVLines中,统计所有的垂直线段的横坐标的不同个数N,则表格的列数就是N-1;
J3、统计水平线段临时集合THLines中的水平线段与垂直线段临时集合TVLines中的垂直线段的交点坐标,并存入一个二维数组中;
J4、则此表格的基础单元格的个数为(M-1)×(N-1),每个逻辑单元格的坐标信息都是对应编号的交点的坐标。宽度是对应交点和下一个水平相邻交点的横坐标之差,高度是对应交点和下一个垂直相邻交点的纵坐标之差。
(K)、确定表格的坐标位置及宽高。
此过程算法如下:
K1、表格的坐标既最小编号的交点的坐标;
K2、宽度是最大编号交点和最小编号交点的横坐标之差,高度是最大编号交点和最小编号交点的纵坐标之差。
(L)、确定表格的逻辑单元格。
此过程算法如下:
L1、计算每个基础单元格四个边框的中点坐标,并根据组成表格的实际线段的坐标,判断每个中点是实中点,还是虚中点,实中点就是处在实际线段上的中点,虚中点就是不处在实际线段上的中点;
L2、根据虚中点,合并相邻的基础单元格为一个逻辑单元格。
继续回到图1,其中,步骤S104确定表格的各个逻辑单元格的内容,具体包括:
将从PDF文档中解析的所有元素,与每个逻辑单元格对比,在坐标误差范围内,判断此元素是否在此逻辑单元格中,若在,则将此元素存入逻辑单元格的内容列表中,否则,不处理。
本发明实施例还提供一种文档转换中的表格处理装置,请参阅图3。
其中,线段获取模块31,用于从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;
表格区域确定模块32,用于对获取的线段进行表格识别,根据识别出的线段确定各个表格区域;
表格确定模块33,用于在划分出的各个表格区域内确定各个表格;
表格填充模块34,用于在确定出的表格内填充原文档中对应的内容。
所述线段获取模块31,还用于,获取原文档中的所有线段和多边形;判断获取的多边形是否符合近似线段特征,若符合,将该多边形识别为线段;若获取的多边形不符合近似线段特征,则提取该多边形边框的线段。
所述表格区域确定模块32,还用于,删除重叠及内含线段,以及在两端点无正交的线段;将可连接的线段识别为同一条线段;在剩余的线段中获取水平和垂直线段;根据获取的线段划分各个表格区域。
所述表格确定模块33还用于,获取一个表格区域内的所有线段;删除在两端无交点的线段;确定所述表格的基础单元格、行数以及列数;确定所述表格的坐标位置及宽高;确定所述表格的逻辑单元格。
所述表格填充模块34,还用于,从原文档中解析获取所有元素;将获取的元素与每个表格中的逻辑单元格进行对比,在坐标误差范围内,判断获取的元素是否在对应表格中的逻辑单元格中;若在,则将获取的元素填充进所述逻辑单元格的内容列表中。
本发明实施例通过从原文档(PDF格式)中获取所有的线段,包括多边形的线段,对获取的线段进行表格识别预处理,根据识别出的线段确定各个表格区域,在划分出的各个表格区域内确定各个表格,在确定出的表格内填充原文档中对应的内容,将PDF文档中由很多无逻辑关系的线段或多边形组成的表象为表格的对象,识别为能用逻辑关系的结构描述的表格对象,提高了转换出的文档的排版及编辑效果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种文档转换中的表格处理方法,其特征在于,所述方法包括以下步骤:
从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;
对获取的线段进行表格识别预处理,确定各个表格区域;
在划分出的各个表格区域内确定各个表格;
在确定出的表格内填充原文档中对应的内容。
2.如权利要求1所述的文档转换中的表格处理方法,其特征在于,所述从原文档中获取所有的线段的步骤具体包括:
获取原文档中的所有线段和多边形;
判断获取的多边形是否符合近似线段特征,若符合,将该多边形识别为线段;
若获取的多边形不符合近似线段特征,则提取该多边形边框的线段。
3.如权利要求1所述的文档转换中的表格处理方法,其特征在于,所述对获取的线段进行表格识别预处理,确定各个表格区域的步骤具体包括:
删除重叠及内含线段,以及在两端点无正交的线段;
将可连接的线段识别为同一条线段;
在剩余的线段中获取水平和垂直线段;
根据获取的线段划分各个表格区域。
4.如权利要求1所述的文档转换中的表格处理方法,其特征在于,所述在划分出的各个表格区域内确定各个表格的步骤具体包括:
从水平及垂直线段集合中,获取一个表格区域内的所有线段;
删除在两端无交点的线段;
确定所述表格的基础单元格、行数以及列数;
确定所述表格的坐标位置及宽高;
确定所述表格的逻辑单元格。
5.如权利要求1所述的文档转换中的表格处理方法,其特征在于,所述在确定出的表格内填充原文档中对应的内容的步骤具体包括:
从原文档中解析获取所有元素;
将获取的元素与每个表格中的逻辑单元格进行坐标对比,在坐标误差范围内,判断获取的元素是否在对应表格中的逻辑单元格中;
若在,则将获取的元素填充进所述逻辑单元格的内容列表中。
6.一种文档转换中的表格处理装置,其特征在于,所述装置包括:
线段获取模块,用于从原文档中获取所有的线段,其中,所述线段包括有组成多边形的线段;
表格区域确定模块,用于对获取的线段进行表格识别预处理,根据识别出的线段确定各个表格区域;
表格确定模块,用于在划分出的各个表格区域内确定各个表格;
表格填充模块,用于在确定出的表格内填充原文档中对应的内容。
7.如权利要求6所述的文档转换中的表格处理装置,其特征在于,所述线段获取模块,还用于,
获取原文档中的所有线段和多边形;
判断获取的多边形是否符合近似线段特征;
将多边形识别为线段;
提取多边形边框的线段。
8.如权利要求6所述的文档转换中的表格处理装置,其特征在于,所述表格区域确定模块,还用于,
删除重叠及内含线段,以及在两端点无正交的线段;
将可连接的线段识别为同一条线段;
在剩余的线段中获取水平和垂直线段;
根据获取的线段划分各个表格区域。
9.如权利要求6所述的文档转换中的表格处理装置,其特征在于,所述表格确定模块,还用于,
从水平及垂直线段集合中,获取一个表格区域内的所有线段;
删除在两端无交点的线段;
确定所述表格的基础单元格、行数以及列数;
确定所述表格的坐标位置及宽高;以及,
确定所述表格的逻辑单元格。
10.如权利要求6所述的文档转换中的表格处理装置,其特征在于,所述表格填充模块,还用于,
从原文档中解析获取所有元素;
将获取的元素与每个表格中的逻辑单元格进行坐标对比,在坐标误差范围内,判断获取的元素是否在对应表格中的逻辑单元格中;以及,
将获取的元素填充进所述逻辑单元格的内容列表中。
CN 201010206608 2010-06-14 2010-06-14 一种文档转换中的表格处理方法及装置 Expired - Fee Related CN101866335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010206608 CN101866335B (zh) 2010-06-14 2010-06-14 一种文档转换中的表格处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010206608 CN101866335B (zh) 2010-06-14 2010-06-14 一种文档转换中的表格处理方法及装置

Publications (2)

Publication Number Publication Date
CN101866335A true CN101866335A (zh) 2010-10-20
CN101866335B CN101866335B (zh) 2012-12-12

Family

ID=42958066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010206608 Expired - Fee Related CN101866335B (zh) 2010-06-14 2010-06-14 一种文档转换中的表格处理方法及装置

Country Status (1)

Country Link
CN (1) CN101866335B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及系统
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN104885095A (zh) * 2012-08-17 2015-09-02 株式会社东芝 手写文档处理设备和方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105760352A (zh) * 2016-02-02 2016-07-13 锐达互动科技股份有限公司 导入选中的Excel表格行列排列方式到白板软件中的方法
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质
CN109992759A (zh) * 2017-12-29 2019-07-09 珠海金山办公软件有限公司 表格对象编辑方法、装置、电子设备及存储介质
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN110377559A (zh) * 2019-06-17 2019-10-25 平安科技(深圳)有限公司 一种pdf文件数据提取方法、装置及存储介质
CN110874520A (zh) * 2018-09-03 2020-03-10 珠海金山办公软件有限公司 去除重叠路径的方法、装置及终端设备
CN111444452A (zh) * 2020-02-21 2020-07-24 广州杰赛科技股份有限公司 网页页面的转换方法、装置及存储介质
CN112016557A (zh) * 2020-08-26 2020-12-01 上海致宇信息技术有限公司 一种表格干扰线去除算法
CN112818894A (zh) * 2021-02-08 2021-05-18 深圳万兴软件有限公司 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
CN114926852A (zh) * 2022-03-17 2022-08-19 支付宝(杭州)信息技术有限公司 表格识别重构方法、装置、设备、介质及程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132916B (zh) * 2017-11-30 2022-02-11 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
CN101127081A (zh) * 2006-08-14 2008-02-20 富士通株式会社 表格数据处理方法和装置
WO2009117810A1 (en) * 2008-03-28 2009-10-01 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
CN101127081A (zh) * 2006-08-14 2008-02-20 富士通株式会社 表格数据处理方法和装置
WO2009117810A1 (en) * 2008-03-28 2009-10-01 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及系统
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
CN104885095A (zh) * 2012-08-17 2015-09-02 株式会社东芝 手写文档处理设备和方法
CN104885095B (zh) * 2012-08-17 2018-09-25 株式会社东芝 手写文档处理设备和方法
US9798925B2 (en) 2013-03-19 2017-10-24 Fujian Foxit Software Development Joint Stock Co., Ltd. Method for identifying PDF document
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
WO2014146483A1 (zh) * 2013-03-19 2014-09-25 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105988979B (zh) * 2015-02-16 2018-11-16 北京邮电大学 基于pdf文件的表格提取方法和装置
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105760352B (zh) * 2016-02-02 2018-07-20 锐达互动科技股份有限公司 导入选中的Excel表格行列排列方式到白板软件中的方法
CN105760352A (zh) * 2016-02-02 2016-07-13 锐达互动科技股份有限公司 导入选中的Excel表格行列排列方式到白板软件中的方法
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN109992759B (zh) * 2017-12-29 2023-12-01 珠海金山办公软件有限公司 表格对象编辑方法、装置、电子设备及存储介质
CN109992759A (zh) * 2017-12-29 2019-07-09 珠海金山办公软件有限公司 表格对象编辑方法、装置、电子设备及存储介质
CN110163030B (zh) * 2018-02-11 2021-04-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN110874520A (zh) * 2018-09-03 2020-03-10 珠海金山办公软件有限公司 去除重叠路径的方法、装置及终端设备
CN110874520B (zh) * 2018-09-03 2024-01-30 珠海金山办公软件有限公司 去除重叠路径的方法、装置及终端设备
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质
WO2020252931A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 一种pdf文件数据提取方法和装置、设备及存储介质
CN110377559A (zh) * 2019-06-17 2019-10-25 平安科技(深圳)有限公司 一种pdf文件数据提取方法、装置及存储介质
CN110377559B (zh) * 2019-06-17 2022-09-16 平安科技(深圳)有限公司 一种pdf文件数据提取方法、装置及存储介质
CN111444452A (zh) * 2020-02-21 2020-07-24 广州杰赛科技股份有限公司 网页页面的转换方法、装置及存储介质
CN112016557A (zh) * 2020-08-26 2020-12-01 上海致宇信息技术有限公司 一种表格干扰线去除算法
CN112016557B (zh) * 2020-08-26 2022-05-24 深圳致宇智能商业有限公司 一种表格干扰线去除方法
CN112818894A (zh) * 2021-02-08 2021-05-18 深圳万兴软件有限公司 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
CN112818894B (zh) * 2021-02-08 2023-12-15 深圳万兴软件有限公司 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
CN114926852A (zh) * 2022-03-17 2022-08-19 支付宝(杭州)信息技术有限公司 表格识别重构方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
CN101866335B (zh) 2012-12-12

Similar Documents

Publication Publication Date Title
CN101866335B (zh) 一种文档转换中的表格处理方法及装置
CN103838933B (zh) 一种基于数字化技术的三维模型集成标注方法
CN103793145B (zh) 一种基于AutoCAD的图框参数识别与图纸输出方法
CN101976232B (zh) 一种识别文档中数据表格的方法及装置
CN108052653A (zh) 图像特征描述符的获取方法、装置、存储介质、终端及图像检索方法
CN104516891A (zh) 一种版面分析方法及系统
CN105378792A (zh) 三维对象建模
CN101206639A (zh) 一种基于pdf的复杂版面的标引方法
CN103886023B (zh) Excel数据表的存储、提取方法及系统
CN104915334A (zh) 一种基于语义分析的招投标项目关键信息自动化提取方法
CN102467653A (zh) 一种图文识别方法及系统
CN104346405B (zh) 一种从网页中抽取信息的方法及装置
CN101840582B (zh) 一种地籍图地块的边界数字化方法
Prusty et al. Indiscapes: Instance segmentation networks for layout parsing of historical indic manuscripts
CN103745012A (zh) 一种根据产品标题智能匹配显示网页推荐信息的方法和系统
CN113158987B (zh) 表格处理方法、装置、设备及计算机可读存储介质
CN101833546A (zh) 从可移植电子文档中提取表格的方法和装置
CN106021718A (zh) 用于catia的工程制图中的绘图方法和装置
CN109345628A (zh) 一种模型轻量化处理方法、装置及电子设备
CN103310019B (zh) 面向检测机构标准信息与知识服务系统及方法
CN102479230A (zh) 提取地理特征词的方法和装置
CN107493370A (zh) 流量模板确定方法、流量信息识别方法及装置
CN104281562B (zh) 一种电子文档的处理方法及装置
Regnauld et al. Automatic amalgamation of buildings for producing ordnance survey® 1: 50 000 scale maps
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY CO., L

Free format text: FORMER NAME: SHENZHEN WONDERSHARE SOFTWARE CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL building A block 9 building 901

Patentee after: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL building A block 9 building 901

Patentee before: WONDERSHARE SOFTWARE Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 850000 Tibet autonomous region, Lhasa City, New District, west of the East Ring Road, 1-4 road to the north, south of 1-3 Road, Liu Dong building, east of the 8 unit 6, floor 2, No.

Patentee after: WONDERSHARE TECHNOLOGY CO.,LTD.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL building A block 9 building 901

Patentee before: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121212