CN112199929A

CN112199929A - 表格处理方法、装置、存储介质及电子设备

Info

Publication number: CN112199929A
Application number: CN202011066448.5A
Authority: CN
Inventors: 陈晓丹; 殷凇; 李宗波; 邬秋元; 杨永帮; 张卓韬
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08

Abstract

本申请提供一种表格处理方法、装置、存储介质及电子设备。本申请实施例提供的表格处理方法，通过获取待处理表格内各个字符图形的特征信息，然后，根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围，在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格，并将该字符图形特征信息中的字符内容信息填充至该单元格中，以实现对待处理表格内字符图形的提取，并将提取后的数据所形成表格，在每行每列中都存储有待处理表格中对应行对应列的字符内容信息，以形成相匹配的结构化数据，可以为后续表格数据的应用与展示都提供数据基础，以避免转换后表格中的单元格数据发生错位。

Description

表格处理方法、装置、存储介质及电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种表格处理方法、装置、存储介质及电子设备。

背景技术

随着大数据技术的不断发展，对于各类文件中的表格数据提取需求也日益提高。

目前，对于可携带文档格式(Portable Document Format，简称PDF)文件中的表格内容的内容读取，通常是对文件中各个字符图形进行逐个提取。其中，PDF文件中相邻字符之间存在空格的情况，都是采用一个空格来替代的方式进行处理。

但是，对于存在多个空格作为单元格的表格，上述处理方式会导致字符之间相对位置的缺失，进而造成从PDF文件中所提取的表格内的单元格数据内容发生错位。

发明内容

本申请实施例提供一种表格处理方法、装置、存储介质及电子设备，以解决现有技术在对文件表格中字符图像进行内容提取时，由于字符之间空格的缺失所造成表格中单元格的内容发生错位的技术问题。

第一方面，本申请实施例提供一种表格处理方法，包括：

获取待处理表格内各个字符图形的特征信息，所述特征信息包括字符内容信息、字符位置信息以及字符形状信息，所述待处理表格为第一格式类型的表格；

根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围；

根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形在目标表格中所对应的目标单元格，并将相应的目标字符内容信息填充至所述目标单元格，所述目标字符图形为所述待处理表格中的任一字符图形，所述目标表格为第二格式类型的表格。

在一种可能的设计中，所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围，包括：

根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高，以及每列的列宽；

根据每行的行高以及每列的列宽确定所述待处理表格中各个单元格的单元格范围。

在一种可能的设计中，所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高，包括：

根据各个字符图形的所述字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置；

根据各个字符图形的所述字符形状信息中的高度以及所述起点位置确定所述纵向特征线段的终点位置，所述纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围；

对任意相交的两条所述纵向特征线段进行合并，形成行高特征线段，所述行高特征线段包括所合并的所有纵向特征线段；

根据所述行高特征线段确定所述待处理表格中对应行的行高。

在一种可能的设计中，所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每列的列宽，包括：

根据各个字符图形的所述字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置；

根据各个字符图形的所述字符形状信息中的宽度以及所述起点位置确定所述横向特征线段的终点位置，所述横向特征线段用于表征对应字符图形在横向方向上的像素分布范围；

对任意相交的两条所述横向特征线段进行合并，形成列宽特征线段，所述列宽特征线段包括所合并的所有横向特征线段；

根据所述列宽特征线段确定所述待处理表格中对应列的列宽。

在一种可能的设计中，在根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高，以及每列的列宽之前，还包括：

将特征线段集合中的特征线段按照预设方向从小到大进行排序；

遍历所述特征线段集合中的所述特征线段，若当前的特征线段与目标栈中位于栈顶的特征线段相交，则将当前的特征线段压入所述目标栈；

遍历结束后，将所述目标栈中的特征线段输出为目标特征线段集合，其中，若所述特征线段为纵向特征线段，则所述目标特征线段集合为行高特征线段集合，若所述特征线段为横向特征线段，则所述目标特征线段集合为列宽特征线段集合。

在一种可能的设计中，所述根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形对应的目标单元格，包括：

根据所述目标字符位置信息以及所述目标字符形状信息确定所述目标字符图形的目标像素范围；

若确定所述目标像素范围在目标单元格范围之内，则确定所述目标单元格范围所对应的单元格为所述目标单元格。

在一种可能的设计中，所述确定所述目标单元格范围所对应的单元格为所述目标单元格，包括：

获取特征信息集合以及所述行高特征线段集合，所述特征信息集合包括：所述待处理表格内各个字符图形的特征信息；

根据所述特征信息集合中各个字符图形的纵坐标对所述特征信息集合中的特征信息进行从小到大进行排序；

遍历所述特征信息集合，若当前字符图像在纵向方向上的高度在当前行高范围内，则所述当前字符图像属于当前行，所述当前行高范围根据当前行游标以及所述行高特征线段集合进行确定；

确定当前行中的所有字符图像的特征信息以构成当前行特征信息集合；

根据所述当前行特征信息集合中各个字符图形的横坐标对所述当前行特征信息集合中的特征信息进行从小到大进行排序；

遍历所述当前行特征信息集合，若当前字符图像在横向方向上的宽度在当前列宽范围内，则所述当前字符图像属于当前列，所述当前列宽范围根据当前列游标以及所述列宽特征线段集合进行确定；

根据所述当前列以及所述当前行确定所述目标单元格。

在一种可能的设计中，在所述将相应的目标字符内容信息填充至所述目标单元格之后，还包括：

根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签，其中，所述目标结构化标签用于标识所述目标单元格的位置排列顺序；

根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成目标表格。

在一种可能的设计中，所述待处理表格为可携带文档格式PDF文件中的表格，所述目标表格为超文本标记格式HTML文件中的表格。

第二方面，本申请实施例还提供一种表格处理装置，包括：

获取模块，用于获取待处理表格内各个字符图形的特征信息，所述特征信息包括字符内容信息、字符位置信息以及字符形状信息，所述待处理表格为第一格式类型的表格；

处理模块，用于根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围；

所述处理模块，还用于根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形在目标表格中所对应的目标单元格，并将相应的目标字符内容信息填充至所述目标单元格，所述目标字符图形为所述待处理表格中的任一字符图形，所述目标表格为第二格式类型的表格。

在一种可能的设计中，所述处理模块，具体用于：

在一种可能的设计中，所述处理模块，用于：

在一种可能的设计中，所述处理模块，还用于根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签，其中，所述目标结构化标签用于标识所述目标单元格的位置排列顺序；

所述处理模块，还用于根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成目标表格。

在一种可能的设计中，所述处理模块，用于：

根据所述当前列以及所述当前行确定所述目标单元格。

所述待处理表格为可携带文档格式PDF文件中的表格，所述目标表格为超文本标记格式HTML文件中的表格。

第三方面，本申请实施例还提供一种电子设备，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种表格处理方法。

第四方面，本申请实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任意一种表格处理方法。

本申请实施例提供的一种表格处理方法、装置、存储介质及电子设备，通过获取待处理表格内各个字符图形的特征信息，然后，根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围，在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格，并将该字符图形特征信息中的字符内容信息填充至该单元格中，以实现对于特定文件中待处理表格内字符图形的提取，并将提取后的数据所形成表格数据，在每行每列中都存储有待处理表格中对应行对应列的字符内容信息，以形成与待处理表格内容相匹配的结构化数据，可以为后续表格数据的应用与展示都提供数据基础，进而可以在将第一格式类型的表格转化为第二格式类型的表格时，避免转换后表格中的单元格数据发生错位。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请PDF文件中一示例性表格的示意图；

图2是通过现有技术对图1中表格进行处理后的结果示意图；

图3是本申请根据一示例实施例示出的表格处理方法的流程示意图；

图4是图3所示实施例中字符图像的特征信息示意图；

图5是本申请根据另一示例实施例示出的表格处理方法的流程示意图；

图6是图5所示实施例中步骤202的一种实现方式流程示意图；

图7是图6所示实施例中特征线段集合的一种实现方式流程示意图；

图8是图5所示实施例中步骤204的一种实现方式流程示意图；

图9是利用图5所示实施例对图1中表格进行处理后的结果示意图；

图10是本申请根据一示例实施例示出的表格处理装置的结构示意图；

图11是本申请根据一示例实施例示出的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

PDF是用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础，可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。可见，在PDF文件中的表格其实质是一张图像，其并不包含表格中的单元格概念，而是将各个字符以像素点的形式进行存储，将表格的单元格边框也是通过像素点的形式进行存储。因此，在需要对PDF文件中表格进行提取时，当前只能获取到各个字符图像所对应的字符内容信息以及字符位置信息，但是，并无法获知每个字符所属的具体单元格。

其中，图1是本申请PDF文件中一示例性表格的示意图。如图1所示，该表格可以为PDF文件中某班级同学考试成绩表，其中，在各个单元格之间存在较多的空格，例如“姓名”与“语文”中间存在一串空格字符，“黄小明”与“89”之间也存在一串空格字符。若采用当前对于PDF文件中表格内容的提取方式对该表格进行内容提取，则由于当前PDF文件中相邻字符之间的多个空格会被一个空格来替代，因此，结果会造成表格中单元格的数据内容错位。

具体的，图2是通过现有技术对图1中表格进行处理后的结果示意图。如图2所示，通过现有对于PDF文件中表格内容的提取方式之后，所生成的文本文档中，原先处于同一列对齐的内容(例如“语文”与“89”、“数学”与“70”、“90”与“78”)，会发生明显的错位，这样的数据结果不利于后续对于数据的处理以及展示。

针对上述各个技术问题，本申请实施例中提供的一种表格处理方法，通过获取待处理表格内各个字符图形的特征信息，然后，根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围，在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格，并将该字符图形特征信息中的字符内容信息填充至该单元格中，以实现对于特定文件中待处理表格内字符图形的提取，并将提取后的数据所形成表格数据，在每行每列中都存储有待处理表格中对应行对应列的字符内容信息，以形成与待处理表格内容相匹配的结构化数据，可以为后续表格数据的应用与展示都提供数据基础，进而可以在将第一格式类型的表格转化为第二格式类型的表格时，避免转换后表格中的单元格数据发生错位。

图3是本申请根据一示例实施例示出的表格处理方法的流程示意图。如图3所示，本实施例提供的表格处理方法，包括：

步骤101、获取待处理表格内各个字符图形的特征信息。

在本步骤中，可以通过对字符图像进行定位与识别的方式，获取待处理表格内各个字符图形的特征信息，其中，特征信息可以包括字符内容信息、字符位置信息以及字符形状信息，并且，待处理表格为第一格式类型的表格，例如，待处理表格可以为PDF文件中的表格。

在一种可能的实现方式中，可以通过Pdfbox工具读取PDF文件中表格内各个字符图形的相关特征信息。具体的，可以从PDF文件中根据像素来读取各个字符，返回结果为各个字符图形的特征信息，该特征信息包含几个重要属性为：字符内容信息、字符横坐标、字符纵坐标、字符宽度以及字符高度。图4是图3所示实施例中字符图像的特征信息示意图。如图4所示，可以将PDF文件中的每个字符表示为C(char，x，y，width，height)，其中，char为字符内容信息，x为字符横坐标，y为字符纵坐标，width为字符宽度，height为字符高度。

步骤102、根据各个字符图形的字符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围。

在确定各个字符图形的字符位置信息以及字符形状信息之后，可以根据字符图形的字符位置信息以及字符形状信息确定出字符的相邻关系以及各个字符之间的相对位置关系。

此处，可以参照图1所示表格进行说明，根据“姓”与“名”的字符位置信息以及字符形状信息可以确定“姓”与“名”是处于同一行相邻的字符，而根据“姓”与“黄”的字符位置信息以及字符形状信息可以确定“姓”与“黄”是处于同一列相邻的字符。此外，还可以确定“姓”与“语”以及“黄”与“8”之间的相对位置关系。

确定出字符的相邻关系以及各个字符之间的相对位置关系之后，可以根据每一行中相邻字符串的最大宽度确定该相邻字符串所在列的宽度，而根据每一列中相邻字符串的最大高度确定该相邻字符串所在行的高度，最后，根据每一列的宽度以及每一行的宽度确定出待处理表格中各个单元格的单元格范围。

步骤103、根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个单元格范围确定目标字符图形对应的目标单元格。

然后，根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个单元格范围确定目标字符图形在目标表格中所对应的目标单元格，其中，目标字符图形为待处理表格中的任一字符图形，而目标表格可以为第二格式类型的表格。其中，待处理表格与目标表格的表格为不同格式，例如，待处理表格可以为PDF文件中的表格，而目标表格为HTML文件中的表格。

步骤104、将相应的目标字符内容信息填充至目标单元格。

最后，可以将相应的目标字符内容信息填充至目标单元格，从而形成多行多列的表格数据，在每行每列中都存储有待处理表格中对应行对应列的字符内容。

在本实施例中，通过获取待处理表格内各个字符图形的特征信息，然后，根据特征信息中的符位置信息以及字符形状信息确定待处理表格中各个单元格的单元格范围，在根据各个字符图形的字符位置信息以及字符形状信息确定该字符图形所在的单元格，并将该字符图形特征信息中的字符内容信息填充至该单元格中，以实现对于特定文件中待处理表格内字符图形的提取，并将提取后的数据所形成表格数据，在每行每列中都存储有待处理表格中对应行对应列的字符内容信息，以形成与待处理表格内容相匹配的结构化数据，可以为后续表格数据的应用与展示都提供数据基础，进而可以在将第一格式类型的表格转化为第二格式类型的表格时，避免转换后表格中的单元格数据发生错位。

图5是本申请根据另一示例实施例示出的表格处理方法的流程示意图。如图5所示，本实施例提供的表格处理方法，包括：

步骤201、获取待处理表格内各个字符图形的特征信息。

当待处理表格为可携带文档格式PDF文件中的表格时，可以读取PDF文件中的每个字符的特征信息(char，x，y，width，height)，其中，char为字符内容信息，x为字符横坐标，y为字符纵坐标，width为字符宽度，height为字符高度。

步骤202、根据各个字符图形的字符位置信息以及字符形状信息确定待处理表格每行的行高，以及每列的列宽。

在一种可能的实现方式中，图6是图5所示实施例中步骤202的一种实现方式流程示意图。如图6所示，本实施例中步骤202，包括：

步骤2021、获取PDF文件中待处理表格内每个字符图形的特征信息，以构成特征信息集合。

继续参照图1，可以读取图1所示表格中每个字符的特征信息，可以构成特征信息集合，具体如下：

第一行：姓(姓，0，0，2，2)；名(名，2，0，2，2)；语(语，10，0，2，2)；文(文，12，0，2，2)；数(数，20，0，2，2)；学(学，22，0，2，2)；英(英，30，0，2，2)；语(语，32，0，2，2)；

第二行：黄(黄，0，4，2，2)；小(小，2，4，2，2)；明(明，4，4，2，2)；8(8，10，4，1，2)；9(9，11，4，1，2)；7(7，20，4，1，2)；0(0，21，4，1，2)；

第三行：赵(赵，0，8，2，2)；小(小，2，8，2，2)；刀(刀，4，8，2，2)；7(7，20，8，1，2)；8(9，21，8，1，2)；9(9，30，8，1，2)；0(0，31，8，1，2)；

第四行：季(季，0，12，2，2)；中(中，2，12，2，2)；时(时，4，12，2，2)；8(8，10，12，1，2)；5(5，11，12，1，2)；6(6，30，12，1，2)；9(9，31，12，1，2)；

第五行：何(何，0，16，2，2)；瑞(瑞，2，16，2，2)；东(东，4，16，2，2)；9(9，10，16，1，2)；0(0，11，16，1，2)；7(7，20，16，1，2)；8(9，21，16，1，2)；7(7，30，16，1，2)；8(8，31，16，1，2)。

步骤2022、根据纵坐标从小到大对特征信息集合进行排序。

可以根据纵坐标对从小到大对特征信息集合进行排序，即可以得到：

姓(姓，0，0，2，2)；名(名，2，0，2，2)；语(语，10，0，2，2)；文(文，12，0，2，2)；数(数，20，0，2，2)；学(学，22，0，2，2)；英(英，30，0，2，2)；语(语，32，0，2，2)；黄(黄，0，4，2，2)；小(小，2，4，2，2)；明(明，4，4，2，2)；8(8，10，4，1，2)；9(9，11，4，1，2)；7(7，20，4，1，2)；0(0，21，4，1，2)；赵(赵，0，8，2，2)；小(小，2，8，2，2)；刀(刀，4，8，2，2)；7(7，20，8，1，2)；8(9，21，8，1，2)；9(9，30，8，1，2)；0(0，31，8，1，2)；季(季，0，12，2，2)；中(中，2，12，2，2)；时(时，4，12，2，2)；8(8，10，12，1，2)；5(5，11，12，1，2)；6(6，30，12，1，2)；9(9，31，12，1，2)；何(何，0，16，2，2)；瑞(瑞，2，16，2，2)；东(东，4，16，2，2)；9(9，10，16，1，2)；0(0，11，16，1，2)；7(7，20，16，1，2)；8(9，21，16，1，2)；7(7，30，16，1，2)；8(8，31，16，1，2)。

步骤2023、对于每个字符图形，进行纵向特征线段合并，得到行高特征线段集合。

值得说明的，对于特征线段的合并，可以先结合下述例子进行原理性地说明：

可以定义线段l[ll，lr]，表示线段的左端点为ll和右端点为lr。对于线段A[al，ar]，B[bl，br]，例如，按照左端点大小排序后，可以方便判断两条线段是否相交。设排序后，如果al<＝bl，并且bl<＝ar，则说明线段A与线段B相交，否则线段不相交。如果线段A与线段B相交，则定义线段合并操作，该操作将两条线段合为新的一段N[nl，nr]，其中nl＝min{al，bl}，nr＝max{ar，br}。

图7是图6所示实施例中特征线段集合的一种实现方式流程示意图。如图7所示，对于特征线段集合的确定方式，包括：

步骤301、将特征线段集合中的特征线段按照预设方向从小到大进行排序。

步骤302、将目标栈初始化成空栈。

步骤303、从头到尾遍历特征线段集合中的特征线段。

步骤304、判断是否遍历结束。

步骤305、判断目标栈是否为空。

步骤306、将特征线段直接压入目标栈。

步骤307、判断当前特征线段同目标栈中位于栈顶的特征线段是否相交。

步骤308、合并特征线段，将合并后的新的特征线段压入目标栈。

步骤309、将特征线段直接压入目标栈。

步骤310、输出目标特征线段集合。

具体的，在本步骤中，可以根据各个字符图形的字符位置信息中的纵坐标确定各个字符图形所对应的纵向特征线段的起点位置，然后，根据各个字符图形的字符形状信息中的高度以及起点位置确定纵向特征线段的终点位置，纵向特征线段用于表征对应字符图形在纵向方向上的像素分布范围，对任意相交的两条纵向特征线段进行合并，形成行高特征线段，行高特征线段包括所合并的所有纵向特征线段，最后，根据行高特征线段确定待处理表格中对应行的行高。

继续参照图1所示，可以以第一行的行高特征线段的确定进行举例说明：第一行：姓(姓，0，0，2，2)；名(名，2，0，2，2)；语(语，10，0，2，2)；文(文，12，0，2，2)；数(数，20，0，2，2)；学(学，22，0，2，2)；英(英，30，0，2，2)；语(语，32，0，2，2)。

对于“姓”所对应的纵向特征线段为R1[0，2]，“名”所对应的纵向特征线段为R2[0，2]，“语”所对应的纵向特征线段也为R3[0，2]，对R1、R2、R3进行合并，可得第一行的行高特征线段RT1[0，2]。

同理可得，第二行的行高特征线段RT2[4，6]、第三行的行高特征线段RT3[8，10]、第四行的行高特征线段RT4[12，14]以及第五行的行高特征线段RT5[16，18]。

值得说明的，每一行对应的行高特征线段可以用于表征每一行在纵向方向上的覆盖范围。

步骤2024、根据横坐标从小到大对特征信息集合进行排序。

可以根据横坐标对从小到大对特征信息集合进行排序，以第一列与第二列内容为例，即可以得到：

姓(姓，0，0，2，2)；黄(黄，0，4，2，2)；赵(赵，0，8，2，2)；季(季，0，12，2，2)；何(何，0，16，2，2)；名(名，2，0，2，2)；小(小，2，4，2，2)；小(小，2，8，2，2)；中(中，2，12，2，2)；瑞(瑞，2，16，2，2)；明(明，4，4，2，2)；刀(刀，4，8，2，2)；时(时，4，12，2，2)；东(东，4，16，2，2)；语(语，10，0，2，2)；8(8，10，4，1，2)；8(8，10，12，1，2)；9(9，10，16，1，2)；9(9，11，4，1，2)；5(5，11，12，1，2)；0(0，11，16，1，2)；文(文，12，0，2，2)。

步骤2025、对于每个字符图形，进行横向特征线段合并，得到列宽特征线段集合。

在本步骤中，根据各个字符图形的字符位置信息中的横坐标确定各个字符图形所对应的横向特征线段的起点位置，根据各个字符图形的字符形状信息中的宽度以及起点位置确定横向特征线段的终点位置，横向特征线段用于表征对应字符图形在横向方向上的像素分布范围，对任意相交的两条横向特征线段进行合并，形成列宽特征线段，列宽特征线段包括所合并的所有横向特征线段，最后，根据列宽特征线段确定待处理表格中对应列的列宽。

继续参照图1所示，可以以第一列的列宽特征线段的确定进行举例说明：

第一列：姓(姓，0，0，2，2)；黄(黄，0，4，2，2)；赵(赵，0，8，2，2)；季(季，0，12，2，2)；何(何，0，16，2，2)；名(名，2，0，2，2)；小(小，2，4，2，2)；小(小，2，8，2，2)；中(中，2，12，2，2)；瑞(瑞，2，16，2，2)；明(明，4，4，2，2)；刀(刀，4，8，2，2)；时(时，4，12，2，2)；东(东，4，16，2，2)。

对于“姓”所对应的横向特征线段为L1[0，2]，“名”所对应的横向特征线段为L2[2，4]，则L1与L2合并之后，形成线段LX1[0，4]，其中，LT1可以用于表征第一列第一行单元格中范围。

对于“黄”所对应的横向特征线段为L3[0，2]，“小”所对应的横向特征线段为L4[2，4]，“明”所对应的横向特征线段为L5[4，6]，则LX1与L3合并、LX1与L4合并之后仍然为LX1，而当LX1与L5合并之后，形成线段LX2[0，6]。继续合并其他横向特征线段，最后获得第一行的列宽特征线段LT1[0，6]即为LX2[0，6]。

同理可得，第二列的列宽特征线段LT2[10，14]、第三列的列宽特征线段LT3[20，14]以及第四列的列宽特征线段LT4[30，14]。

值得说明的，每一列对应的列宽特征线段可以用于表征每一列在横向方向上的覆盖范围。

步骤2026、根据行高列表集合中的各条行高特征线段确定对应列的行高，根据列宽列表集合中的各条列宽特征线段确定对应列的列宽。

具体的，行高列表集合包括：第一行的行高特征线段RT1[0，2]、第二行的行高特征线段RT2[4，6]、第三行的行高特征线段RT3[8，10]、第四行的行高特征线段RT4[12，14]以及第五行的行高特征线段RT5[16，18]。

列宽列表集合包括：第一行的列宽特征线段LT1[0，6]、第二列的列宽特征线段LT2[10，14]、第三列的列宽特征线段LT3[20，14]以及第四列的列宽特征线段LT4[30，14]。

步骤203、根据每行的行高以及每列的列宽确定待处理表格中各个单元格的单元格范围。

具体的，可以根据上述确定的每行的行高以及每列的列宽确定待处理表格中各个单元格的单元格范围。

步骤204、根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个单元格范围确定目标字符图形对应的目标单元格。

在本步骤中，可以是根据目标字符位置信息以及目标字符形状信息确定目标字符图形的目标像素范围，然后，若确定目标像素范围在目标单元格范围之内，则确定目标单元格范围所对应的单元格为目标单元格。

在一种可能的实现方式中，图8是图5所示实施例中步骤204的一种实现方式流程示意图。如图8所示，本实施例中步骤204，包括：

步骤401、获取特征信息集合以及行高特征线段集合。

在本步骤中，行高特征线段集合中的各条行高特征线段所对应的字符图形，表示这些字符图形位于待处理表格的同一行。例如：

第一行的行高特征线段RT1[0，2]，对应：姓(姓，0，0，2，2)；名(名，2，0，2，2)；语(语，10，0，2，2)；文(文，12，0，2，2)；数(数，20，0，2，2)；学(学，22，0，2，2)；英(英，30，0，2，2)；语(语，32，0，2，2)。

步骤402、设置字符游标，用于标遍历特征信息集合，设置行游标，用于遍历行高特征线段集合。

步骤403、初始化当前行。

当行游标的数值指向第一行时，先初始化当前行的内容。

步骤404、根据纵坐标从小到大对特征信息集合进行排序。

步骤405、判断是否结束遍历特征信息集合。

步骤406、根据当前行游标获取当前行高范围。

根据当前行游标获取当前行高范围，例如，第一行对应的行高范围为[0，2]。

步骤407、根据当前字符游标获取当前字符图像。

步骤408、判断当前字符图像在纵向方向上的高度是否在当前行高范围内。

遍历特征信息集合中的各个字符图形，如果当前字符图像在纵向方向上的高度在当前行高范围内，例如，“姓(姓，0，0，2，2)”，即R1[0，2]，在行高范围为[0，2]之内，则说明“姓”属于第一行。而“黄(黄，0，4，2，2)”，即，RN[4，6]，不在行高范围为[0，2]之内，则说明“黄”不属于第一行。

步骤409、将当前字符内容信息加入当前行，字符游标向后推移。

步骤410、确定当前行中的所有字符图像的特征信息以构成当前行特征信息集合。

通过遍历特征信息集合中的各个字符图形，可以获得各行所包含的字符图像。例如，第一行特征信息集合包括：姓(姓，0，0，2，2)；名(名，2，0，2，2)；语(语，10，0，2，2)；文(文，12，0，2，2)；数(数，20，0，2，2)；学(学，22，0，2，2)；英(英，30，0，2，2)；语(语，32，0，2，2)。

步骤411、获取当前行特征信息集合以及列宽特征线段集合。

步骤412、设置行字符游标，用于标遍历当前行特征信息集合，设置列游标，用于遍历列宽特征线段集合。

步骤413、初始化当前列。

当行游标的数值指向第一列时，先初始化当前列的内容。

步骤414、根据横坐标从小到大对当前行特征信息集合进行排序。

对于第一列，排序后为：姓(姓，0，0，2，2)；名(名，2，0，2，2)；语(语，10，0，2，2)；文(文，12，0，2，2)；数(数，20，0，2，2)；学(学，22，0，2，2)；英(英，30，0，2，2)；语(语，32，0，2，2)

步骤415、判断是否结束遍历当前行特征信息集合。

步骤416、根据当前列游标获取当前列宽范围。

根据当前行游标获取当前行高范围，例如，第一列对应的列宽范围为[0，6]。

步骤417、根据当前行字符游标获取当前字符图像。

步骤418、判断当前字符图像在横向方向上的宽度是否在当前列宽范围内。

步骤419、将当前字符内容信息加入当前列，行字符游标向后推移。

步骤420、确定当前行以及当前列所构成单元格中的字符内容信息。

遍历当前行特征信息集合中的各个字符图形，如果当前字符图像在纵向方向上的高度在当前列宽范围内，例如，“姓(姓，0，0，2，2)”即“L1[0，2]”在列宽范围为[0，6]之内，则说明“姓”属于第一列。而“语(语，10，0，2，2)”即“LM[10，12]”不在列宽范围为[0，6]之内，则说明“语”不属于第一列。

步骤421、确定当前行所有单元格中的字符内容信息，行字符游标向后推移。

在确定每个字符图形的所属的行，以及所属的列之后，即可以根据行列关系确定所属的单元格。

步骤205、将相应的目标字符内容信息填充至目标单元格。

最后，通过依次遍历每行以及每列的方式，将相应的目标字符内容信息填充至目标单元格。

步骤206、根据目标单元格范围与其他单元格范围的相对位置关系确定目标单元格所对应的目标结构化标签。

其中，可以根据目标单元格范围与其他单元格范围的相对位置关系确定目标单元格所对应的目标结构化标签，例如，赋予每个单元格(i，j)的编号。其中，目标结构化标签用于标识目标单元格的位置排列顺序。

步骤207、根据目标结构化标签以及目标单元格中填充的字符内容生成目标表格。

通过上面的方法可以得到表格中第(i，j)个单元格的内容，以及第i行的单元格列表，通过拼接表格中的字符内容信息C，可以得到每个单元格的内容。即一个表格可以表示为:

Table{rowi}i＝0,1,2,3,…

row{cellj}j＝0,1,2,3,..

获得这两个信息后便可以构造为超文本标记格式HTML格式。由于HTML是格式化的的结构，模板格式为:

其中，<td>xxx</td>表示一个单元格，xxx为单元格中的内容；

<tr></tr>表示一行，中间有多少个<td></td>则表示有多少列；

<tdable></table>标签固定。

图9是利用图5所示实施例对图1中表格进行处理后的结果示意图。如图9所示，通过遍历行以及各行中的单元格列表，即可生成目标表格，其中，目标表格为HTML文件中的表格。

图10是本申请根据一示例实施例示出的表格处理装置的结构示意图。如图10所示，本实施例提供的表格处理装置500，包括：

获取模块501，用于获取待处理表格内各个字符图形的特征信息，所述特征信息包括字符内容信息、字符位置信息以及字符形状信息；

处理模块502，用于根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围；

所述处理模块502，还用于根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形对应的目标单元格，并将相应的目标字符内容信息填充至所述目标单元格，所述目标字符图形为所述待处理表格中的任一字符图形。

在一种可能的设计中，所述处理模块502，具体用于：

在一种可能的设计中，所述处理模块502，用于：

在一种可能的设计中，所述处理模块502，还用于根据所述目标单元格范围与其他单元格范围的相对位置关系确定所述目标单元格所对应的目标结构化标签，其中，所述目标结构化标签用于标识所述目标单元格的位置排列顺序；

所述处理模块502，还用于根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成目标表格。

本实施例提供表格处理装置，可以用于执行上述方法实施例中的步骤。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图11是本申请根据一示例实施例示出的电子设备的结构示意图。如图11所示，本实施例提供的一种电子设备600，包括：

处理器601；以及，

存储器602，用于存储所述处理器的可执行指令，该存储器还可以是flash(闪存)；

其中，所述处理器601配置为经由执行所述可执行指令来执行上述方法中的各个步骤。

可选地，存储器602既可以是独立的，也可以跟处理器601集成在一起。

当所述存储器602是独立于处理器601之外的器件时，所述电子设备600，还可以包括：

总线603，用于连接所述处理器601以及所述存储器602。

本实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子设备执行上述方法中的各个步骤。

本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述方法中的各个步骤。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种表格处理方法，其特征在于，包括：

2.根据权利要求1所述的表格处理方法，其特征在于，所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格中各个单元格的单元格范围，包括：

3.根据权利要求2所述的表格处理方法，其特征在于，所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高，包括：

4.根据权利要求2所述的表格处理方法，其特征在于，所述根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每列的列宽，包括：

5.根据权利要求3或4所述的表格处理方法，其特征在于，在根据各个字符图形的所述字符位置信息以及所述字符形状信息确定所述待处理表格每行的行高，以及每列的列宽之前，还包括：

6.根据权利要求5所述的表格处理方法，其特征在于，所述根据目标字符图形的目标字符位置信息、目标字符形状信息以及各个所述单元格范围确定所述目标字符图形对应的目标单元格，包括：

7.根据权利要求6所述的表格处理方法，其特征在于，所述确定所述目标单元格范围所对应的单元格为所述目标单元格，包括：

根据所述当前列以及所述当前行确定所述目标单元格。

8.根据权利要求1-4中任意一项所述的表格处理方法，其特征在于，在所述将相应的目标字符内容信息填充至所述目标单元格之后，还包括：

根据所述目标结构化标签以及所述目标单元格中填充的字符内容生成所述目标表格。

9.根据权利要求1-4中任意一项所述的表格处理方法，其特征在于，所述待处理表格为可携带文档格式PDF文件中的表格，所述目标表格为超文本标记格式HTML文件中的表格。

10.一种表格处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器被配置为通过执行所述计算机程序来实现权利要求1至9任一项所述的表格处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的表格处理方法。