CN112199929A - 表格处理方法、装置、存储介质及电子设备 - Google Patents
表格处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112199929A CN112199929A CN202011066448.5A CN202011066448A CN112199929A CN 112199929 A CN112199929 A CN 112199929A CN 202011066448 A CN202011066448 A CN 202011066448A CN 112199929 A CN112199929 A CN 112199929A
- Authority
- CN
- China
- Prior art keywords
- character
- target
- information
- determining
- characteristic line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003825 pressing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000013461 design Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 2
- 241000969729 Apteryx rowi Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请提供一种表格处理方法、装置、存储介质及电子设备。本申请实施例提供的表格处理方法,通过获取待处理表格内各个字符图形的特征信息,然后,根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围,在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格,并将该字符图形特征信息中的字符内容信息填充至该单元格中,以实现对待处理表格内字符图形的提取,并将提取后的数据所形成表格,在每行每列中都存储有待处理表格中对应行对应列的字符内容信息,以形成相匹配的结构化数据,可以为后续表格数据的应用与展示都提供数据基础,以避免转换后表格中的单元格数据发生错位。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种表格处理方法、装置、存储介质及电子设备。
背景技术
随着大数据技术的不断发展,对于各类文件中的表格数据提取需求也日益提高。
目前,对于可携带文档格式(Portable Document Format,简称PDF)文件中的表格内容的内容读取,通常是对文件中各个字符图形进行逐个提取。其中,PDF文件中相邻字符之间存在空格的情况,都是采用一个空格来替代的方式进行处理。
但是,对于存在多个空格作为单元格的表格,上述处理方式会导致字符之间相对位置的缺失,进而造成从PDF文件中所提取的表格内的单元格数据内容发生错位。
发明内容
本申请实施例提供一种表格处理方法、装置、存储介质及电子设备,以解决现有技术在对文件表格中字符图像进行内容提取时,由于字符之间空格的缺失所造成表格中单元格的内容发生错位的技术问题。
第一方面,本申请实施例提供一种表格处理方法,包括:
获取待处理表格内各个字符图形的特征信息,所述特征信息包括字符内容信息、字符位置信息以及字符形状信息,所述待处理表格为第一格式类型的表格;
根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围;
根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形在目标表格中所对应的目标单元格,并将相应的目标字符内容信息填充至所述目标单元格,所述目标字符图形为所述待处理表格中的任一字符图形,所述目标表格为第二格式类型的表格。
在一种可能的设计中,所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围,包括:
根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,以及每列的列宽;
根据每行的行高以及每列的列宽确定所述待处理表格中各个单元格的单元格范围。
在一种可能的设计中,所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,包括:
根据各个字符图形的所述字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的高度以及所述起点位置确定所述纵向特征线段的终点位置,所述纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围;
对任意相交的两条所述纵向特征线段进行合并,形成行高特征线段,所述行高特征线段包括所合并的所有纵向特征线段;
根据所述行高特征线段确定所述待处理表格中对应行的行高。
在一种可能的设计中,所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每列的列宽,包括:
根据各个字符图形的所述字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的宽度以及所述起点位置确定所述横向特征线段的终点位置,所述横向特征线段用于表征对应字符图形在横向方向上的像素分布范围;
对任意相交的两条所述横向特征线段进行合并,形成列宽特征线段,所述列宽特征线段包括所合并的所有横向特征线段;
根据所述列宽特征线段确定所述待处理表格中对应列的列宽。
在一种可能的设计中,在根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,以及每列的列宽之前,还包括:
将特征线段集合中的特征线段按照预设方向从小到大进行排序;
遍历所述特征线段集合中的所述特征线段,若当前的特征线段与目标栈中位于栈顶的特征线段相交,则将当前的特征线段压入所述目标栈;
遍历结束后,将所述目标栈中的特征线段输出为目标特征线段集合,其中,若所述特征线段为纵向特征线段,则所述目标特征线段集合为行高特征线段集合,若所述特征线段为横向特征线段,则所述目标特征线段集合为列宽特征线段集合。
在一种可能的设计中,所述根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形对应的目标单元格,包括:
根据所述目标字符位置信息以及所述目标字符形状信息确定所述目标字符图形的目标像素范围;
若确定所述目标像素范围在目标单元格范围之内,则确定所述目标单元格范围所对应的单元格为所述目标单元格。
在一种可能的设计中,所述确定所述目标单元格范围所对应的单元格为所述目标单元格,包括:
获取特征信息集合以及所述行高特征线段集合,所述特征信息集合包括:所述待处理表格内各个字符图形的特征信息;
根据所述特征信息集合中各个字符图形的纵坐标对所述特征信息集合中的特征信息进行从小到大进行排序;
遍历所述特征信息集合,若当前字符图像在纵向方向上的高度在当前行高范围内,则所述当前字符图像属于当前行,所述当前行高范围根据当前行游标以及所述行高特征线段集合进行确定;
确定当前行中的所有字符图像的特征信息以构成当前行特征信息集合;
根据所述当前行特征信息集合中各个字符图形的横坐标对所述当前行特征信息集合中的特征信息进行从小到大进行排序;
遍历所述当前行特征信息集合,若当前字符图像在横向方向上的宽度在当前列宽范围内,则所述当前字符图像属于当前列,所述当前列宽范围根据当前列游标以及所述列宽特征线段集合进行确定;
根据所述当前列以及所述当前行确定所述目标单元格。
在一种可能的设计中,在所述将相应的目标字符内容信息填充至所述目标单元格之后,还包括:
根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签,其中,所述目标结构化标签用于标识所述目标单元格的位置排列顺序;
根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成目标表格。
在一种可能的设计中,所述待处理表格为可携带文档格式PDF文件中的表格,所述目标表格为超文本标记格式HTML文件中的表格。
第二方面,本申请实施例还提供一种表格处理装置,包括:
获取模块,用于获取待处理表格内各个字符图形的特征信息,所述特征信息包括字符内容信息、字符位置信息以及字符形状信息,所述待处理表格为第一格式类型的表格;
处理模块,用于根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围;
所述处理模块,还用于根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形在目标表格中所对应的目标单元格,并将相应的目标字符内容信息填充至所述目标单元格,所述目标字符图形为所述待处理表格中的任一字符图形,所述目标表格为第二格式类型的表格。
在一种可能的设计中,所述处理模块,具体用于:
根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,以及每列的列宽;
根据每行的行高以及每列的列宽确定所述待处理表格中各个单元格的单元格范围。
在一种可能的设计中,所述处理模块,用于:
根据各个字符图形的所述字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的高度以及所述起点位置确定所述纵向特征线段的终点位置,所述纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围;
对任意相交的两条所述纵向特征线段进行合并,形成行高特征线段,所述行高特征线段包括所合并的所有纵向特征线段;
根据所述行高特征线段确定所述待处理表格中对应行的行高。
在一种可能的设计中,所述处理模块,用于:
根据各个字符图形的所述字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的宽度以及所述起点位置确定所述横向特征线段的终点位置,所述横向特征线段用于表征对应字符图形在横向方向上的像素分布范围;
对任意相交的两条所述横向特征线段进行合并,形成列宽特征线段,所述列宽特征线段包括所合并的所有横向特征线段;
根据所述列宽特征线段确定所述待处理表格中对应列的列宽。
在一种可能的设计中,所述处理模块,用于:
将特征线段集合中的特征线段按照预设方向从小到大进行排序;
遍历所述特征线段集合中的所述特征线段,若当前的特征线段与目标栈中位于栈顶的特征线段相交,则将当前的特征线段压入所述目标栈;
遍历结束后,将所述目标栈中的特征线段输出为目标特征线段集合,其中,若所述特征线段为纵向特征线段,则所述目标特征线段集合为行高特征线段集合,若所述特征线段为横向特征线段,则所述目标特征线段集合为列宽特征线段集合。
在一种可能的设计中,所述处理模块,用于:
根据所述目标字符位置信息以及所述目标字符形状信息确定所述目标字符图形的目标像素范围;
若确定所述目标像素范围在目标单元格范围之内,则确定所述目标单元格范围所对应的单元格为所述目标单元格。
在一种可能的设计中,所述处理模块,还用于根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签,其中,所述目标结构化标签用于标识所述目标单元格的位置排列顺序;
所述处理模块,还用于根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成目标表格。
在一种可能的设计中,所述处理模块,用于:
获取特征信息集合以及所述行高特征线段集合,所述特征信息集合包括:所述待处理表格内各个字符图形的特征信息;
根据所述特征信息集合中各个字符图形的纵坐标对所述特征信息集合中的特征信息进行从小到大进行排序;
遍历所述特征信息集合,若当前字符图像在纵向方向上的高度在当前行高范围内,则所述当前字符图像属于当前行,所述当前行高范围根据当前行游标以及所述行高特征线段集合进行确定;
确定当前行中的所有字符图像的特征信息以构成当前行特征信息集合;
根据所述当前行特征信息集合中各个字符图形的横坐标对所述当前行特征信息集合中的特征信息进行从小到大进行排序;
遍历所述当前行特征信息集合,若当前字符图像在横向方向上的宽度在当前列宽范围内,则所述当前字符图像属于当前列,所述当前列宽范围根据当前列游标以及所述列宽特征线段集合进行确定;
根据所述当前列以及所述当前行确定所述目标单元格。
所述待处理表格为可携带文档格式PDF文件中的表格,所述目标表格为超文本标记格式HTML文件中的表格。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种表格处理方法。
第四方面,本申请实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意一种表格处理方法。
本申请实施例提供的一种表格处理方法、装置、存储介质及电子设备,通过获取待处理表格内各个字符图形的特征信息,然后,根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围,在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格,并将该字符图形特征信息中的字符内容信息填充至该单元格中,以实现对于特定文件中待处理表格内字符图形的提取,并将提取后的数据所形成表格数据,在每行每列中都存储有待处理表格中对应行对应列的字符内容信息,以形成与待处理表格内容相匹配的结构化数据,可以为后续表格数据的应用与展示都提供数据基础,进而可以在将第一格式类型的表格转化为第二格式类型的表格时,避免转换后表格中的单元格数据发生错位。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请PDF文件中一示例性表格的示意图;
图2是通过现有技术对图1中表格进行处理后的结果示意图;
图3是本申请根据一示例实施例示出的表格处理方法的流程示意图;
图4是图3所示实施例中字符图像的特征信息示意图;
图5是本申请根据另一示例实施例示出的表格处理方法的流程示意图;
图6是图5所示实施例中步骤202的一种实现方式流程示意图;
图7是图6所示实施例中特征线段集合的一种实现方式流程示意图;
图8是图5所示实施例中步骤204的一种实现方式流程示意图;
图9是利用图5所示实施例对图1中表格进行处理后的结果示意图;
图10是本申请根据一示例实施例示出的表格处理装置的结构示意图;
图11是本申请根据一示例实施例示出的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
PDF是用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础,可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。可见,在PDF文件中的表格其实质是一张图像,其并不包含表格中的单元格概念,而是将各个字符以像素点的形式进行存储,将表格的单元格边框也是通过像素点的形式进行存储。因此,在需要对PDF文件中表格进行提取时,当前只能获取到各个字符图像所对应的字符内容信息以及字符位置信息,但是,并无法获知每个字符所属的具体单元格。
其中,图1是本申请PDF文件中一示例性表格的示意图。如图1所示,该表格可以为PDF文件中某班级同学考试成绩表,其中,在各个单元格之间存在较多的空格,例如“姓名”与“语文”中间存在一串空格字符,“黄小明”与“89”之间也存在一串空格字符。若采用当前对于PDF文件中表格内容的提取方式对该表格进行内容提取,则由于当前PDF文件中相邻字符之间的多个空格会被一个空格来替代,因此,结果会造成表格中单元格的数据内容错位。
具体的,图2是通过现有技术对图1中表格进行处理后的结果示意图。如图2所示,通过现有对于PDF文件中表格内容的提取方式之后,所生成的文本文档中,原先处于同一列对齐的内容(例如“语文”与“89”、“数学”与“70”、“90”与“78”),会发生明显的错位,这样的数据结果不利于后续对于数据的处理以及展示。
针对上述各个技术问题,本申请实施例中提供的一种表格处理方法,通过获取待处理表格内各个字符图形的特征信息,然后,根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围,在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格,并将该字符图形特征信息中的字符内容信息填充至该单元格中,以实现对于特定文件中待处理表格内字符图形的提取,并将提取后的数据所形成表格数据,在每行每列中都存储有待处理表格中对应行对应列的字符内容信息,以形成与待处理表格内容相匹配的结构化数据,可以为后续表格数据的应用与展示都提供数据基础,进而可以在将第一格式类型的表格转化为第二格式类型的表格时,避免转换后表格中的单元格数据发生错位。
图3是本申请根据一示例实施例示出的表格处理方法的流程示意图。如图3所示,本实施例提供的表格处理方法,包括:
步骤101、获取待处理表格内各个字符图形的特征信息。
在本步骤中,可以通过对字符图像进行定位与识别的方式,获取待处理表格内各个字符图形的特征信息,其中,特征信息可以包括字符内容信息、字符位置信息以及字符形状信息,并且,待处理表格为第一格式类型的表格,例如,待处理表格可以为PDF文件中的表格。
在一种可能的实现方式中,可以通过Pdfbox工具读取PDF文件中表格内各个字符图形的相关特征信息。具体的,可以从PDF文件中根据像素来读取各个字符,返回结果为各个字符图形的特征信息,该特征信息包含几个重要属性为:字符内容信息、字符横坐标、字符纵坐标、字符宽度以及字符高度。图4是图3所示实施例中字符图像的特征信息示意图。如图4所示,可以将PDF文件中的每个字符表示为C(char,x,y,width,height),其中,char为字符内容信息,x为字符横坐标,y为字符纵坐标,width为字符宽度,height为字符高度。
步骤102、根据各个字符图形的字符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围。
在确定各个字符图形的字符位置信息以及字符形状信息之后,可以根据字符图形的字符位置信息以及字符形状信息确定出字符的相邻关系以及各个字符之间的相对位置关系。
此处,可以参照图1所示表格进行说明,根据“姓”与“名”的字符位置信息以及字符形状信息可以确定“姓”与“名”是处于同一行相邻的字符,而根据“姓”与“黄”的字符位置信息以及字符形状信息可以确定“姓”与“黄”是处于同一列相邻的字符。此外,还可以确定“姓”与“语”以及“黄”与“8”之间的相对位置关系。
确定出字符的相邻关系以及各个字符之间的相对位置关系之后,可以根据每一行中相邻字符串的最大宽度确定该相邻字符串所在列的宽度,而根据每一列中相邻字符串的最大高度确定该相邻字符串所在行的高度,最后,根据每一列的宽度以及每一行的宽度确定出待处理表格中各个单元格的单元格范围。
步骤103、根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个单元格范围确定目标字符图形对应的目标单元格。
然后,根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个单元格范围确定目标字符图形在目标表格中所对应的目标单元格,其中,目标字符图形为待处理表格中的任一字符图形,而目标表格可以为第二格式类型的表格。其中,待处理表格与目标表格的表格为不同格式,例如,待处理表格可以为PDF文件中的表格,而目标表格为HTML文件中的表格。
步骤104、将相应的目标字符内容信息填充至目标单元格。
最后,可以将相应的目标字符内容信息填充至目标单元格,从而形成多行多列的表格数据,在每行每列中都存储有待处理表格中对应行对应列的字符内容。
在本实施例中,通过获取待处理表格内各个字符图形的特征信息,然后,根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围,在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格,并将该字符图形特征信息中的字符内容信息填充至该单元格中,以实现对于特定文件中待处理表格内字符图形的提取,并将提取后的数据所形成表格数据,在每行每列中都存储有待处理表格中对应行对应列的字符内容信息,以形成与待处理表格内容相匹配的结构化数据,可以为后续表格数据的应用与展示都提供数据基础,进而可以在将第一格式类型的表格转化为第二格式类型的表格时,避免转换后表格中的单元格数据发生错位。
图5是本申请根据另一示例实施例示出的表格处理方法的流程示意图。如图5所示,本实施例提供的表格处理方法,包括:
步骤201、获取待处理表格内各个字符图形的特征信息。
当待处理表格为可携带文档格式PDF文件中的表格时,可以读取PDF文件中的每个字符的特征信息(char,x,y,width,height),其中,char为字符内容信息,x为字符横坐标,y为字符纵坐标,width为字符宽度,height为字符高度。
步骤202、根据各个字符图形的字符位置信息以及字符形状信息确定待处理表格每行的行高,以及每列的列宽。
在确定各个字符图形的字符位置信息以及字符形状信息之后,可以根据字符图形的字符位置信息以及字符形状信息确定出字符的相邻关系以及各个字符之间的相对位置关系。
此处,可以参照图1所示表格进行说明,根据“姓”与“名”的字符位置信息以及字符形状信息可以确定“姓”与“名”是处于同一行相邻的字符,而根据“姓”与“黄”的字符位置信息以及字符形状信息可以确定“姓”与“黄”是处于同一列相邻的字符。此外,还可以确定“姓”与“语”以及“黄”与“8”之间的相对位置关系。
确定出字符的相邻关系以及各个字符之间的相对位置关系之后,可以根据每一行中相邻字符串的最大宽度确定该相邻字符串所在列的宽度,而根据每一列中相邻字符串的最大高度确定该相邻字符串所在行的高度,最后,根据每一列的宽度以及每一行的宽度确定出待处理表格中各个单元格的单元格范围。
在一种可能的实现方式中,图6是图5所示实施例中步骤202的一种实现方式流程示意图。如图6所示,本实施例中步骤202,包括:
步骤2021、获取PDF文件中待处理表格内每个字符图形的特征信息,以构成特征信息集合。
继续参照图1,可以读取图1所示表格中每个字符的特征信息,可以构成特征信息集合,具体如下:
第一行:姓(姓,0,0,2,2);名(名,2,0,2,2);语(语,10,0,2,2);文(文,12,0,2,2);数(数,20,0,2,2);学(学,22,0,2,2);英(英,30,0,2,2);语(语,32,0,2,2);
第二行:黄(黄,0,4,2,2);小(小,2,4,2,2);明(明,4,4,2,2);8(8,10,4,1,2);9(9,11,4,1,2);7(7,20,4,1,2);0(0,21,4,1,2);
第三行:赵(赵,0,8,2,2);小(小,2,8,2,2);刀(刀,4,8,2,2);7(7,20,8,1,2);8(9,21,8,1,2);9(9,30,8,1,2);0(0,31,8,1,2);
第四行:季(季,0,12,2,2);中(中,2,12,2,2);时(时,4,12,2,2);8(8,10,12,1,2);5(5,11,12,1,2);6(6,30,12,1,2);9(9,31,12,1,2);
第五行:何(何,0,16,2,2);瑞(瑞,2,16,2,2);东(东,4,16,2,2);9(9,10,16,1,2);0(0,11,16,1,2);7(7,20,16,1,2);8(9,21,16,1,2);7(7,30,16,1,2);8(8,31,16,1,2)。
步骤2022、根据纵坐标从小到大对特征信息集合进行排序。
可以根据纵坐标对从小到大对特征信息集合进行排序,即可以得到:
姓(姓,0,0,2,2);名(名,2,0,2,2);语(语,10,0,2,2);文(文,12,0,2,2);数(数,20,0,2,2);学(学,22,0,2,2);英(英,30,0,2,2);语(语,32,0,2,2);黄(黄,0,4,2,2);小(小,2,4,2,2);明(明,4,4,2,2);8(8,10,4,1,2);9(9,11,4,1,2);7(7,20,4,1,2);0(0,21,4,1,2);赵(赵,0,8,2,2);小(小,2,8,2,2);刀(刀,4,8,2,2);7(7,20,8,1,2);8(9,21,8,1,2);9(9,30,8,1,2);0(0,31,8,1,2);季(季,0,12,2,2);中(中,2,12,2,2);时(时,4,12,2,2);8(8,10,12,1,2);5(5,11,12,1,2);6(6,30,12,1,2);9(9,31,12,1,2);何(何,0,16,2,2);瑞(瑞,2,16,2,2);东(东,4,16,2,2);9(9,10,16,1,2);0(0,11,16,1,2);7(7,20,16,1,2);8(9,21,16,1,2);7(7,30,16,1,2);8(8,31,16,1,2)。
步骤2023、对于每个字符图形,进行纵向特征线段合并,得到行高特征线段集合。
值得说明的,对于特征线段的合并,可以先结合下述例子进行原理性地说明:
可以定义线段l[ll,lr],表示线段的左端点为ll和右端点为lr。对于线段A[al,ar],B[bl,br],例如,按照左端点大小排序后,可以方便判断两条线段是否相交。设排序后,如果al<=bl,并且bl<=ar,则说明线段A与线段B相交,否则线段不相交。如果线段A与线段B相交,则定义线段合并操作,该操作将两条线段合为新的一段N[nl,nr],其中nl=min{al,bl},nr=max{ar,br}。
图7是图6所示实施例中特征线段集合的一种实现方式流程示意图。如图7所示,对于特征线段集合的确定方式,包括:
步骤301、将特征线段集合中的特征线段按照预设方向从小到大进行排序。
步骤302、将目标栈初始化成空栈。
步骤303、从头到尾遍历特征线段集合中的特征线段。
步骤304、判断是否遍历结束。
步骤305、判断目标栈是否为空。
步骤306、将特征线段直接压入目标栈。
步骤307、判断当前特征线段同目标栈中位于栈顶的特征线段是否相交。
步骤308、合并特征线段,将合并后的新的特征线段压入目标栈。
步骤309、将特征线段直接压入目标栈。
步骤310、输出目标特征线段集合。
具体的,在本步骤中,可以根据各个字符图形的字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置,然后,根据各个字符图形的字符形状信息中的高度以及起点位置确定纵向特征线段的终点位置,纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围,对任意相交的两条纵向特征线段进行合并,形成行高特征线段,行高特征线段包括所合并的所有纵向特征线段,最后,根据行高特征线段确定待处理表格中对应行的行高。
继续参照图1所示,可以以第一行的行高特征线段的确定进行举例说明:第一行:姓(姓,0,0,2,2);名(名,2,0,2,2);语(语,10,0,2,2);文(文,12,0,2,2);数(数,20,0,2,2);学(学,22,0,2,2);英(英,30,0,2,2);语(语,32,0,2,2)。
对于“姓”所对应的纵向特征线段为R1[0,2],“名”所对应的纵向特征线段为R2[0,2],“语”所对应的纵向特征线段也为R3[0,2],对R1、R2、R3进行合并,可得第一行的行高特征线段RT1[0,2]。
同理可得,第二行的行高特征线段RT2[4,6]、第三行的行高特征线段RT3[8,10]、第四行的行高特征线段RT4[12,14]以及第五行的行高特征线段RT5[16,18]。
值得说明的,每一行对应的行高特征线段可以用于表征每一行在纵向方向上的覆盖范围。
步骤2024、根据横坐标从小到大对特征信息集合进行排序。
可以根据横坐标对从小到大对特征信息集合进行排序,以第一列与第二列内容为例,即可以得到:
姓(姓,0,0,2,2);黄(黄,0,4,2,2);赵(赵,0,8,2,2);季(季,0,12,2,2);何(何,0,16,2,2);名(名,2,0,2,2);小(小,2,4,2,2);小(小,2,8,2,2);中(中,2,12,2,2);瑞(瑞,2,16,2,2);明(明,4,4,2,2);刀(刀,4,8,2,2);时(时,4,12,2,2);东(东,4,16,2,2);语(语,10,0,2,2);8(8,10,4,1,2);8(8,10,12,1,2);9(9,10,16,1,2);9(9,11,4,1,2);5(5,11,12,1,2);0(0,11,16,1,2);文(文,12,0,2,2)。
步骤2025、对于每个字符图形,进行横向特征线段合并,得到列宽特征线段集合。
在本步骤中,根据各个字符图形的字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置,根据各个字符图形的字符形状信息中的宽度以及起点位置确定横向特征线段的终点位置,横向特征线段用于表征对应字符图形在横向方向上的像素分布范围,对任意相交的两条横向特征线段进行合并,形成列宽特征线段,列宽特征线段包括所合并的所有横向特征线段,最后,根据列宽特征线段确定待处理表格中对应列的列宽。
继续参照图1所示,可以以第一列的列宽特征线段的确定进行举例说明:
第一列:姓(姓,0,0,2,2);黄(黄,0,4,2,2);赵(赵,0,8,2,2);季(季,0,12,2,2);何(何,0,16,2,2);名(名,2,0,2,2);小(小,2,4,2,2);小(小,2,8,2,2);中(中,2,12,2,2);瑞(瑞,2,16,2,2);明(明,4,4,2,2);刀(刀,4,8,2,2);时(时,4,12,2,2);东(东,4,16,2,2)。
对于“姓”所对应的横向特征线段为L1[0,2],“名”所对应的横向特征线段为L2[2,4],则L1与L2合并之后,形成线段LX1[0,4],其中,LT1可以用于表征第一列第一行单元格中范围。
对于“黄”所对应的横向特征线段为L3[0,2],“小”所对应的横向特征线段为L4[2,4],“明”所对应的横向特征线段为L5[4,6],则LX1与L3合并、LX1与L4合并之后仍然为LX1,而当LX1与L5合并之后,形成线段LX2[0,6]。继续合并其他横向特征线段,最后获得第一行的列宽特征线段LT1[0,6]即为LX2[0,6]。
同理可得,第二列的列宽特征线段LT2[10,14]、第三列的列宽特征线段LT3[20,14]以及第四列的列宽特征线段LT4[30,14]。
值得说明的,每一列对应的列宽特征线段可以用于表征每一列在横向方向上的覆盖范围。
步骤2026、根据行高列表集合中的各条行高特征线段确定对应列的行高,根据列宽列表集合中的各条列宽特征线段确定对应列的列宽。
具体的,行高列表集合包括:第一行的行高特征线段RT1[0,2]、第二行的行高特征线段RT2[4,6]、第三行的行高特征线段RT3[8,10]、第四行的行高特征线段RT4[12,14]以及第五行的行高特征线段RT5[16,18]。
列宽列表集合包括:第一行的列宽特征线段LT1[0,6]、第二列的列宽特征线段LT2[10,14]、第三列的列宽特征线段LT3[20,14]以及第四列的列宽特征线段LT4[30,14]。
步骤203、根据每行的行高以及每列的列宽确定待处理表格中各个单元格的单元格范围。
具体的,可以根据上述确定的每行的行高以及每列的列宽确定待处理表格中各个单元格的单元格范围。
步骤204、根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个单元格范围确定目标字符图形对应的目标单元格。
在本步骤中,可以是根据目标字符位置信息以及目标字符形状信息确定目标字符图形的目标像素范围,然后,若确定目标像素范围在目标单元格范围之内,则确定目标单元格范围所对应的单元格为目标单元格。
在一种可能的实现方式中,图8是图5所示实施例中步骤204的一种实现方式流程示意图。如图8所示,本实施例中步骤204,包括:
步骤401、获取特征信息集合以及行高特征线段集合。
在本步骤中,行高特征线段集合中的各条行高特征线段所对应的字符图形,表示这些字符图形位于待处理表格的同一行。例如:
第一行的行高特征线段RT1[0,2],对应:姓(姓,0,0,2,2);名(名,2,0,2,2);语(语,10,0,2,2);文(文,12,0,2,2);数(数,20,0,2,2);学(学,22,0,2,2);英(英,30,0,2,2);语(语,32,0,2,2)。
步骤402、设置字符游标,用于标遍历特征信息集合,设置行游标,用于遍历行高特征线段集合。
步骤403、初始化当前行。
当行游标的数值指向第一行时,先初始化当前行的内容。
步骤404、根据纵坐标从小到大对特征信息集合进行排序。
步骤405、判断是否结束遍历特征信息集合。
步骤406、根据当前行游标获取当前行高范围。
根据当前行游标获取当前行高范围,例如,第一行对应的行高范围为[0,2]。
步骤407、根据当前字符游标获取当前字符图像。
步骤408、判断当前字符图像在纵向方向上的高度是否在当前行高范围内。
遍历特征信息集合中的各个字符图形,如果当前字符图像在纵向方向上的高度在当前行高范围内,例如,“姓(姓,0,0,2,2)”,即R1[0,2],在行高范围为[0,2]之内,则说明“姓”属于第一行。而“黄(黄,0,4,2,2)”,即,RN[4,6],不在行高范围为[0,2]之内,则说明“黄”不属于第一行。
步骤409、将当前字符内容信息加入当前行,字符游标向后推移。
步骤410、确定当前行中的所有字符图像的特征信息以构成当前行特征信息集合。
通过遍历特征信息集合中的各个字符图形,可以获得各行所包含的字符图像。例如,第一行特征信息集合包括:姓(姓,0,0,2,2);名(名,2,0,2,2);语(语,10,0,2,2);文(文,12,0,2,2);数(数,20,0,2,2);学(学,22,0,2,2);英(英,30,0,2,2);语(语,32,0,2,2)。
步骤411、获取当前行特征信息集合以及列宽特征线段集合。
列宽列表集合包括:第一行的列宽特征线段LT1[0,6]、第二列的列宽特征线段LT2[10,14]、第三列的列宽特征线段LT3[20,14]以及第四列的列宽特征线段LT4[30,14]。
步骤412、设置行字符游标,用于标遍历当前行特征信息集合,设置列游标,用于遍历列宽特征线段集合。
步骤413、初始化当前列。
当行游标的数值指向第一列时,先初始化当前列的内容。
步骤414、根据横坐标从小到大对当前行特征信息集合进行排序。
对于第一列,排序后为:姓(姓,0,0,2,2);名(名,2,0,2,2);语(语,10,0,2,2);文(文,12,0,2,2);数(数,20,0,2,2);学(学,22,0,2,2);英(英,30,0,2,2);语(语,32,0,2,2)
步骤415、判断是否结束遍历当前行特征信息集合。
步骤416、根据当前列游标获取当前列宽范围。
根据当前行游标获取当前行高范围,例如,第一列对应的列宽范围为[0,6]。
步骤417、根据当前行字符游标获取当前字符图像。
步骤418、判断当前字符图像在横向方向上的宽度是否在当前列宽范围内。
步骤419、将当前字符内容信息加入当前列,行字符游标向后推移。
步骤420、确定当前行以及当前列所构成单元格中的字符内容信息。
遍历当前行特征信息集合中的各个字符图形,如果当前字符图像在纵向方向上的高度在当前列宽范围内,例如,“姓(姓,0,0,2,2)”即“L1[0,2]”在列宽范围为[0,6]之内,则说明“姓”属于第一列。而“语(语,10,0,2,2)”即“LM[10,12]”不在列宽范围为[0,6]之内,则说明“语”不属于第一列。
步骤421、确定当前行所有单元格中的字符内容信息,行字符游标向后推移。
在确定每个字符图形的所属的行,以及所属的列之后,即可以根据行列关系确定所属的单元格。
步骤205、将相应的目标字符内容信息填充至目标单元格。
最后,通过依次遍历每行以及每列的方式,将相应的目标字符内容信息填充至目标单元格。
步骤206、根据目标单元格范围与其他单元格范围的相对位置关系确定目标单元格所对应的目标结构化标签。
其中,可以根据目标单元格范围与其他单元格范围的相对位置关系确定目标单元格所对应的目标结构化标签,例如,赋予每个单元格(i,j)的编号。其中,目标结构化标签用于标识目标单元格的位置排列顺序。
步骤207、根据目标结构化标签以及目标单元格中填充的字符内容生成目标表格。
通过上面的方法可以得到表格中第(i,j)个单元格的内容,以及第i行的单元格列表,通过拼接表格中的字符内容信息C,可以得到每个单元格的内容。即一个表格可以表示为:
Table{rowi}i=0,1,2,3,…
row{cellj}j=0,1,2,3,..
获得这两个信息后便可以构造为超文本标记格式HTML格式。由于HTML是格式化的的结构,模板格式为:
其中,<td>xxx</td>表示一个单元格,xxx为单元格中的内容;
<tr></tr>表示一行,中间有多少个<td></td>则表示有多少列;
<tdable></table>标签固定。
图9是利用图5所示实施例对图1中表格进行处理后的结果示意图。如图9所示,通过遍历行以及各行中的单元格列表,即可生成目标表格,其中,目标表格为HTML文件中的表格。
图10是本申请根据一示例实施例示出的表格处理装置的结构示意图。如图10所示,本实施例提供的表格处理装置500,包括:
获取模块501,用于获取待处理表格内各个字符图形的特征信息,所述特征信息包括字符内容信息、字符位置信息以及字符形状信息;
处理模块502,用于根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围;
所述处理模块502,还用于根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形对应的目标单元格,并将相应的目标字符内容信息填充至所述目标单元格,所述目标字符图形为所述待处理表格中的任一字符图形。
在一种可能的设计中,所述处理模块502,具体用于:
根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,以及每列的列宽;
根据每行的行高以及每列的列宽确定所述待处理表格中各个单元格的单元格范围。
在一种可能的设计中,所述处理模块502,用于:
根据各个字符图形的所述字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的高度以及所述起点位置确定所述纵向特征线段的终点位置,所述纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围;
对任意相交的两条所述纵向特征线段进行合并,形成行高特征线段,所述行高特征线段包括所合并的所有纵向特征线段;
根据所述行高特征线段确定所述待处理表格中对应行的行高。
在一种可能的设计中,所述处理模块502,用于:
根据各个字符图形的所述字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的宽度以及所述起点位置确定所述横向特征线段的终点位置,所述横向特征线段用于表征对应字符图形在横向方向上的像素分布范围;
对任意相交的两条所述横向特征线段进行合并,形成列宽特征线段,所述列宽特征线段包括所合并的所有横向特征线段;
根据所述列宽特征线段确定所述待处理表格中对应列的列宽。
在一种可能的设计中,所述处理模块502,用于:
根据所述目标字符位置信息以及所述目标字符形状信息确定所述目标字符图形的目标像素范围;
若确定所述目标像素范围在目标单元格范围之内,则确定所述目标单元格范围所对应的单元格为所述目标单元格。
在一种可能的设计中,所述处理模块502,还用于根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签,其中,所述目标结构化标签用于标识所述目标单元格的位置排列顺序;
所述处理模块502,还用于根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成目标表格。
所述待处理表格为可携带文档格式PDF文件中的表格,所述目标表格为超文本标记格式HTML文件中的表格。
本实施例提供表格处理装置,可以用于执行上述方法实施例中的步骤。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图11是本申请根据一示例实施例示出的电子设备的结构示意图。如图11所示,本实施例提供的一种电子设备600,包括:
处理器601;以及,
存储器602,用于存储所述处理器的可执行指令,该存储器还可以是flash(闪存);
其中,所述处理器601配置为经由执行所述可执行指令来执行上述方法中的各个步骤。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当所述存储器602是独立于处理器601之外的器件时,所述电子设备600,还可以包括:
总线603,用于连接所述处理器601以及所述存储器602。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述方法中的各个步骤。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述方法中的各个步骤。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (12)
1.一种表格处理方法,其特征在于,包括:
获取待处理表格内各个字符图形的特征信息,所述特征信息包括字符内容信息、字符位置信息以及字符形状信息,所述待处理表格为第一格式类型的表格;
根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围;
根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形在目标表格中所对应的目标单元格,并将相应的目标字符内容信息填充至所述目标单元格,所述目标字符图形为所述待处理表格中的任一字符图形,所述目标表格为第二格式类型的表格。
2.根据权利要求1所述的表格处理方法,其特征在于,所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围,包括:
根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,以及每列的列宽;
根据每行的行高以及每列的列宽确定所述待处理表格中各个单元格的单元格范围。
3.根据权利要求2所述的表格处理方法,其特征在于,所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,包括:
根据各个字符图形的所述字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的高度以及所述起点位置确定所述纵向特征线段的终点位置,所述纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围;
对任意相交的两条所述纵向特征线段进行合并,形成行高特征线段,所述行高特征线段包括所合并的所有纵向特征线段;
根据所述行高特征线段确定所述待处理表格中对应行的行高。
4.根据权利要求2所述的表格处理方法,其特征在于,所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每列的列宽,包括:
根据各个字符图形的所述字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置;
根据各个字符图形的所述字符形状信息中的宽度以及所述起点位置确定所述横向特征线段的终点位置,所述横向特征线段用于表征对应字符图形在横向方向上的像素分布范围;
对任意相交的两条所述横向特征线段进行合并,形成列宽特征线段,所述列宽特征线段包括所合并的所有横向特征线段;
根据所述列宽特征线段确定所述待处理表格中对应列的列宽。
5.根据权利要求3或4所述的表格处理方法,其特征在于,在根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高,以及每列的列宽之前,还包括:
将特征线段集合中的特征线段按照预设方向从小到大进行排序;
遍历所述特征线段集合中的所述特征线段,若当前的特征线段与目标栈中位于栈顶的特征线段相交,则将当前的特征线段压入所述目标栈;
遍历结束后,将所述目标栈中的特征线段输出为目标特征线段集合,其中,若所述特征线段为纵向特征线段,则所述目标特征线段集合为行高特征线段集合,若所述特征线段为横向特征线段,则所述目标特征线段集合为列宽特征线段集合。
6.根据权利要求5所述的表格处理方法,其特征在于,所述根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形对应的目标单元格,包括:
根据所述目标字符位置信息以及所述目标字符形状信息确定所述目标字符图形的目标像素范围;
若确定所述目标像素范围在目标单元格范围之内,则确定所述目标单元格范围所对应的单元格为所述目标单元格。
7.根据权利要求6所述的表格处理方法,其特征在于,所述确定所述目标单元格范围所对应的单元格为所述目标单元格,包括:
获取特征信息集合以及所述行高特征线段集合,所述特征信息集合包括:所述待处理表格内各个字符图形的特征信息;
根据所述特征信息集合中各个字符图形的纵坐标对所述特征信息集合中的特征信息进行从小到大进行排序;
遍历所述特征信息集合,若当前字符图像在纵向方向上的高度在当前行高范围内,则所述当前字符图像属于当前行,所述当前行高范围根据当前行游标以及所述行高特征线段集合进行确定;
确定当前行中的所有字符图像的特征信息以构成当前行特征信息集合;
根据所述当前行特征信息集合中各个字符图形的横坐标对所述当前行特征信息集合中的特征信息进行从小到大进行排序;
遍历所述当前行特征信息集合,若当前字符图像在横向方向上的宽度在当前列宽范围内,则所述当前字符图像属于当前列,所述当前列宽范围根据当前列游标以及所述列宽特征线段集合进行确定;
根据所述当前列以及所述当前行确定所述目标单元格。
8.根据权利要求1-4中任意一项所述的表格处理方法,其特征在于,在所述将相应的目标字符内容信息填充至所述目标单元格之后,还包括:
根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签,其中,所述目标结构化标签用于标识所述目标单元格的位置排列顺序;
根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成所述目标表格。
9.根据权利要求1-4中任意一项所述的表格处理方法,其特征在于,所述待处理表格为可携带文档格式PDF文件中的表格,所述目标表格为超文本标记格式HTML文件中的表格。
10.一种表格处理装置,其特征在于,包括:
获取模块,用于获取待处理表格内各个字符图形的特征信息,所述特征信息包括字符内容信息、字符位置信息以及字符形状信息,所述待处理表格为第一格式类型的表格;
处理模块,用于根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围;
所述处理模块,还用于根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形在目标表格中所对应的目标单元格,并将相应的目标字符内容信息填充至所述目标单元格,所述目标字符图形为所述待处理表格中的任一字符图形,所述目标表格为第二格式类型的表格。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器被配置为通过执行所述计算机程序来实现权利要求1至9任一项所述的表格处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的表格处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011066448.5A CN112199929A (zh) | 2020-09-30 | 2020-09-30 | 表格处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011066448.5A CN112199929A (zh) | 2020-09-30 | 2020-09-30 | 表格处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112199929A true CN112199929A (zh) | 2021-01-08 |
Family
ID=74012955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011066448.5A Pending CN112199929A (zh) | 2020-09-30 | 2020-09-30 | 表格处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199929A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343658A (zh) * | 2021-07-01 | 2021-09-03 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113688693A (zh) * | 2021-07-29 | 2021-11-23 | 上海浦东发展银行股份有限公司 | 相邻表格处理方法、装置、计算机设备和存储介质 |
CN117973334A (zh) * | 2024-04-02 | 2024-05-03 | 南京安夏电子科技有限公司 | 基于文件表格的自动识别导入方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866335A (zh) * | 2010-06-14 | 2010-10-20 | 深圳市万兴软件有限公司 | 一种文档转换中的表格处理方法及装置 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN107832676A (zh) * | 2017-10-16 | 2018-03-23 | 平安科技(深圳)有限公司 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN110705213A (zh) * | 2019-08-23 | 2020-01-17 | 平安科技(深圳)有限公司 | Pdf表格提取方法、装置、终端及计算机可读存储介质 |
-
2020
- 2020-09-30 CN CN202011066448.5A patent/CN112199929A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866335A (zh) * | 2010-06-14 | 2010-10-20 | 深圳市万兴软件有限公司 | 一种文档转换中的表格处理方法及装置 |
CN105988979A (zh) * | 2015-02-16 | 2016-10-05 | 北京邮电大学 | 基于pdf文件的表格提取方法和装置 |
CN107832676A (zh) * | 2017-10-16 | 2018-03-23 | 平安科技(深圳)有限公司 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110472208A (zh) * | 2019-06-26 | 2019-11-19 | 上海恒生聚源数据服务有限公司 | Pdf文档中表格解析的方法、系统、存储介质及电子设备 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN110705213A (zh) * | 2019-08-23 | 2020-01-17 | 平安科技(深圳)有限公司 | Pdf表格提取方法、装置、终端及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343658A (zh) * | 2021-07-01 | 2021-09-03 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113343658B (zh) * | 2021-07-01 | 2024-04-09 | 湖南四方天箭信息科技有限公司 | 一种pdf文件信息抽取方法、装置以及计算机设备 |
CN113688693A (zh) * | 2021-07-29 | 2021-11-23 | 上海浦东发展银行股份有限公司 | 相邻表格处理方法、装置、计算机设备和存储介质 |
CN117973334A (zh) * | 2024-04-02 | 2024-05-03 | 南京安夏电子科技有限公司 | 基于文件表格的自动识别导入方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2343670B1 (en) | Apparatus and method for digitizing documents | |
CN112199929A (zh) | 表格处理方法、装置、存储介质及电子设备 | |
CN101593186B (zh) | 可视化网站编辑方法及可视化网站编辑系统 | |
CN104516867A (zh) | 一种表格重排方法和系统 | |
US8804139B1 (en) | Method and system for repurposing a presentation document to save paper and ink | |
CN113128457A (zh) | 一种建筑模型的识别方法、系统及相关装置 | |
CN103620589A (zh) | 文档文件显示装置、方法和程序 | |
JPWO2018016552A1 (ja) | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム | |
CN110765739A (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
CN110990010A (zh) | 一种软件界面代码的生成方法及装置 | |
CN106650720A (zh) | 基于文字识别技术的网上评卷方法、装置及系统 | |
CN101655835B (zh) | 电子文档中文字信息处理、输出和字符检索的方法及装置 | |
CN112347742B (zh) | 基于深度学习生成文档图像集的方法 | |
CN113283231A (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN113011129A (zh) | 一种通用doc和docx及indd文档排版引擎及方法 | |
CN115830599B (zh) | 工业字符识别方法、模型训练方法、装置、设备和介质 | |
CN116702703A (zh) | 自动排版方法和电子设备 | |
CN113779482B (zh) | 一种生成前端代码的方法及装置 | |
CN116052195A (zh) | 文档解析方法、装置、终端设备和计算机可读存储介质 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
CN109145266B (zh) | 一种从图片快速生成动态pdf文件的方法 | |
CN113569161A (zh) | 试题答案标注方法、装置、电子设备及计算机可读介质 | |
CN112287742A (zh) | 文件中的流程图解析方法及装置、计算设备、存储介质 | |
CN111046096A (zh) | 用于生成图文结构化信息的方法和装置 | |
CN115202542B (zh) | 基于ocr技术的电子图纸内线路端口自动链接及跳转方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |