CN116911268B

CN116911268B - 一种表格信息处理方法、装置、处理设备及可读存储介质

Info

Publication number: CN116911268B
Application number: CN202311160752.XA
Authority: CN
Inventors: 吴秦龙
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-01-26
Anticipated expiration: 2043-09-11
Also published as: CN116911268A

Abstract

本发明提供一种表格信息处理方法、装置、处理设备及可读存储介质，涉及人工智能技术领域。该方法包括：获取目标表格中至少一个单元格的起止行列信息，所述起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息；基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类。本发明的方案，解决了现有方法难以准确抽取表格要素信息的问题。

Description

一种表格信息处理方法、装置、处理设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，特别是指一种表格信息处理方法、装置、处理设备及可读存储介质。

背景技术

表格是较为常见的数据展示形式，其结构清晰、时效性强，通常可作为搜索引擎和智能对话系统的重要答案来源。

在具体应用中，为了智能化理解表格信息，可以通过抽取表格要素信息，来提取表格的单元格表头和数据属性，以及判断表头之间的层级关系。

然而，现有的表格信息处理方法难以对表格中丰富的结构关系进行处理，导致抽取得到的表格要素信息的准确率较低。

发明内容

本发明的目的是提供一种表格信息处理方法、装置、处理设备及可读存储介质，解决了现有方法难以准确抽取表格要素信息的问题。

为达到上述目的，本发明的实施例提供一种表格信息处理方法，包括：

获取目标表格中至少一个单元格的起止行列信息，所述起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息；

基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类。

为达到上述目的，本发明的实施例提供一种表格信息处理装置，包括：

第一获取模块，用于获取目标表格中至少一个单元格的起止行列信息，所述起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息；

第一提取模块，用于基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类。

为达到上述目的，本发明的实施例提供一种处理设备，包括处理器和收发机，其中，所述处理器用于：

为达到上述目的，本发明的实施例提供一种处理设备，包括收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；所述处理器执行程序或指令时实现如上所述的表格信息处理方法。

为达到上述目的，本发明的实施例提供一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时实现如上所述的表格信息处理方法中的步骤。

本发明的上述技术方案的有益效果如下：

本发明实施例的方法，起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息，通过获取目标表格中至少一个单元格的起止行列信息，可以明确表格中单元格之间丰富的结构关系，进一步的，可以基于起止行列信息，对每一单元格进行特征提取，从而获得每一单元格对应的第一特征信息，如此，能够有效地利用表格结构关系，从而更为准确地抽取表格要素信息。

附图说明

图1为本发明实施例的表格信息处理方法的流程图；

图2为本发明实施例进行特征提取的示意图；

图3为本发明实施例的基于图模型进行特征增强的示意图；

图4为本发明实施例的位置相关维度信息示意图；

图5为本发明实施例的表格信息处理过程示意图；

图6为本发明实施例的表格信息处理装置的模块示意图；

图7为本发明实施例的表格信息处理装置的结构图；

图8为本发明实施例的处理设备的结构图；

图9为本发明另一实施例的处理设备的结构图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常可互换使用。

在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

如图1所示，本发明实施例的一种表格信息处理方法，包括：

步骤101，获取目标表格中至少一个单元格的起止行列信息，所述起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息。

需要说明的是，起止行列信息除了能够表征单元格的坐标位置，还能够表征单元格之间的包含关系（例如目标表格中有合并单元格、拆分单元格等情况时，可以通过起止行列信息获知单元格之间的关系）。而且，起止行列信息中的取值固定，更易提取出单元格相应的特征。

步骤102，基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类。

该步骤中，基于起止行列信息进行特征提取，可增强第一特征信息的位置特征表达能力，从而有效提高对复杂表格的信息处理能力。

需要说明的是，通过特征提取得到的第一特征信息也就是单元格特征，具体可以包含单元格的文本、图像、位置、属性等特征信息，第一特征信息能够表征单元格的属性特点以及与其他单元格的关联关系，因此可以用于对单元格进行分析、分类，从而对表格中单元格的属性和关系进行识别（例如提取单元格表头和数据属性，以及判断表头间的层级关系等）。这样，通过上述表格信息处理方法，能够提高对表格文档内容的识别能力，智能化理解目标表格，该方法可以用于对财务报表、统计数据等表格的智能化理解，还可以用于基于表格的智能问答系统等应用场景。

该实施例中，起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息，通过获取目标表格中至少一个单元格的起止行列信息，可以明确表格中单元格之间丰富的结构关系，进一步的，可以基于起止行列信息，对每一单元格进行特征提取，从而获得每一单元格对应的第一特征信息，如此，能够有效地利用表格结构关系，从而更为准确地抽取表格要素信息。

还需要说明的是，在获取目标表格中至少一个单元格的起止行列信息之前，所述方法还可以包括：对目标表格进行数据处理，获得所述目标表格对应的表格信息和所述目标表格中至少一个单元格的单元格信息，其中，所述表格信息包括以下至少一项：表格图像、总行数和总列数；所述单元格信息包括以下至少一项：文本信息、文本属性信息、坐标信息和起止行列信息。

其中，坐标信息具体可以是单元格左上顶点的坐标和右下顶点的坐标；起止行列信息包括：起始行信息（col_start）、终止行信息（col_end）、起始列信息（row_start）和终止列信息（row_end），起止行列信息能够反映目标表格的布局特征；文本属性信息具体可以包括：文本类型（例如文本、数字）、是否为日期、文本格式（例如加粗、缩进）等，能够反映文本特征，这些文本属性信息可以辅助判断表格属性和结构关系。

下面，对基于起止行列信息，进行特征提取的过程进行说明。

在一些实施例中，所述基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，包括：

获取所述目标表格的表格图像和所述至少一个单元格的坐标信息；

根据所述坐标信息，对所述表格图像进行预处理，获得每一所述单元格对应的单元格图像；

基于所述单元格图像和所述起止行列信息，针对每一所述单元格进行特征编码，获得每一所述单元格对应的第一特征信息。

该实施例中，基于起止行列信息进行特征编码，能够有效地利用表格结构关系，从而更为准确地抽取表格要素信息，使得第一特征信息的位置特征表达能力更好。

具体的，如图2所示，可以基于所述起止行列信息，利用预训练二维命名实体识别模型layoutLM模型进行文本特征、位置特征和表格图像的抽取和融合，能够减小模型训练难度，加快模型训练收敛速度。其中，可以通过R-CNN方法实现表格图像特征的提取。图2中，部分编码即Segment Embeddings，位置编码即1D Position Embeddings，起始行编码即Column Start Embeddings，起始列编码即Row Start Embeddings，终止行编码即ColumnEnd Embeddings，终止列编码即Row End Embeddings，视觉/文本编码即Visual/TextEmbeddings，属性编码即Attribute Embeddings。

如图3所示，在得到第一特征信息（即input embedding）之后，可以将关系权重矩阵（即edge embedding）和第一特征信息输入至图模型中，进行特征增强与融合，具体过程说明如下：

在一些可选实施例中，在所述获得每一所述单元格对应的第一特征信息之后，所述方法还包括：

获取所述目标表格的总行数和总列数；

根据所述总行数、总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息；

根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息。

该实施例中，具体可以基于图模型，对第一特征信息进行特征增强处理，进一步增强位置特征表达能力，实现了单元格关系信息的增强，从而有效提高对复杂结构表格的识别分析处理能力。

可选地，所述根据所述总行数、总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息，包括：

根据所述总行数、总列数和所述起止行列信息，确定第一单元格和第二单元格之间的D个位置相关维度信息，其中，所述第一单元格和所述第二单元格为所述目标表格中的任意两个单元格，D为正整数；

根据所述位置相关维度信息，生成N*N*D的关系权重矩阵，将所述关系权重矩阵作为文档结构信息，N为所述目标表格中的单元格总数，N为正整数；

其中，所述位置相关维度信息包括以下至少一项：

（1）起始行维度信息，用于指示所述第一单元格的起始行和所述第二单元格的起始行之间的关系。

（2）终止行维度信息，用于指示所述第一单元格的终止行和所述第二单元格的终止行之间的关系。

（3）起始列维度信息，用于指示所述第一单元格的起始列和所述第二单元格的起始列之间的关系。

（4）终止列维度信息，用于指示所述第一单元格的终止列和所述第二单元格的终止列之间的关系。

（5）行维度信息，用于指示所述目标表格中，所述第一单元格所在的行和所述第二单元格所在的行之间的关系。

具体的，行维度信息可用于指示第一单元格和第二单元格是否在同一行。

（6）列维度信息，用于指示所述目标表格中，所述第一单元格所在的列和所述第二单元格所在的列之间的关系。

具体的，行维度信息可用于指示第一单元格和第二单元格是否在同一列。

如图4所示，假设目标表格为3行3列的表格，第一行和第一列的单元格为表头，其他单元格中为内容。下面，以第一单元格为图5中的单元格A1，第二单元格为单元格B1为例，对位置相关维度信息进行举例说明。

在一些实施例中，所述根据所述总行数、总列数和所述起止行列信息，确定第一单元格和第二单元格之间的D个位置相关维度信息，包括以下至少一项：

（1）根据所述第一单元格的起始行和所述第二单元格的起始行之间的差值及所述总行数，确定所述起始行维度信息。

在一可选示例中，可以用公式：(max_row - (row_start_A1 - row_start_B1)) /max_row，计算第一单元格（即单元格A1）和第二单元格（即单元格B1）之间的起始行维度信息。

其中，max_row表示最大行（也即总行数），row_start_A1表示第一单元格的起始行，row_start_B1表示第二单元格的起始行。

（2）根据所述第一单元格的终止行和所述第二单元格的终止行之间的差值及所述总行数，确定所述终止行维度信息。

在一可选示例中，可以用公式：(max_row - (row_end_A1 - row_end_B1)) /max_row，计算第一单元格和第二单元格之间的终止行维度信息。

其中， row_end_A1表示第一单元格的终止行，row_end_B1表示第二单元格的终止行。

（3）根据所述第一单元格的起始列和所述第二单元格的起始列之间的差值及所述总列数，确定所述起始列维度信息。

在一可选示例中，可以用公式：(max_col - (col_start_A1 - col_start_B1)) /max_col，计算第一单元格和第二单元格之间的起始列维度信息。

其中，col_start_A1表示第一单元格的起始列，col_start_B1表示第二单元格的起始列。

（4）根据所述第一单元格的终止列和所述第二单元格的终止列之间的差值及所述总列数，确定所述终止列维度信息。

在一可选示例中，可以用公式：(max_col - (col_end_A1 - col_end_B1)) /max_col，计算第一单元格和第二单元格之间的终止列维度信息。

其中，col_end_A1表示第一单元格的终止列，col_end_B1表示第二单元格的终止列。

（5）在所述第一单元格和所述第二单元格在所述目标表格中位于同一行的情况下，将所述行维度信息确定为第一预设值。

（6）在所述第一单元格和所述第二单元格在所述目标表格中位于不同行的情况下，将所述行维度信息确定为第二预设值。

例如，第一预设值为1，第二预设值为2，则可以在第一单元格和第二单元格位于同一行时，将行维度信息设为1，在第一单元格和第二单元格位于不同行时，将行维度信息设为0。

（7）在所述第一单元格和所述第二单元格在所述目标表格中位于同一列的情况下，将所述列维度信息确定为第一预设值。

（8）在所述第一单元格和所述第二单元格在所述目标表格中位于不同列的情况下，将所述列维度信息确定为第二预设值。

例如，第一预设值为1，第二预设值为2，则可以在第一单元格和第二单元格位于同一列时，将列维度信息设为1，在第一单元格和第二单元格位于不同列时，将列维度信息设为0。

该实施例中，通过上述方式，可以计算得到两两单元格之间的关系权重矩阵，从而可以利用系权重矩阵对第一特征信息进行特征增强处理，获得对目标表格的特征表达能力能好的第二特征信息。

可选地，所述根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息，包括：

（1）对所述关系权重矩阵进行线性变换和归一化处理，得到第一结果。

该步骤可以用第一公式表示，第一公式为：。

其中，表示第一结果，其维度为，N表示单元格的数量；表示归一化函数；表示线性变化，其维度为；表示关系权重矩阵，是N*N*D的三维矩阵向量，D表示位置相关维度信息的数量，比如，D的取值可以是6。

（2）对所述第一特征信息进行横向复制和纵向复制，分别得到横向复制结果和纵向复制结果。

该步骤中，第一特征信息（用n表示）的维度为，则对n进行横向复制得到横向复制结果（用表示），的维度为，对n进行纵向复制得到纵向复制结果（用表示），的维度为。

（3）对所述横向复制结果、所述纵向复制结果和所述第一结果进行拼接，得到拼接结果。

该步骤中，对第一结果（）、横向复制结果（用表示）和纵向复制结果（用表示）进行拼接，得到拼接结果（用表示），其维度为。该步骤可以用第二公式表示，第二公式为：。

其中，表示拼接结果；表示横向复制结果；表示第一结果；表示纵向复制结果。

（4）对所述拼接结果进行线性变化，得到第二结果。

该步骤可以用第三公式表示，第三公式为：。

其中，表示第二结果，维度为；表示线性全连接层；表示拼接结果。

（5）对所述第二结果进行归一化处理（即进行softmax计算），得到目标关系权重矩阵。

该步骤可以用第四公式表示，第四公式为：。

其中，表示目标关系权重矩阵（即l阶段归一化后的关系权重矩阵）；表示第二结果；k=0，1，…，N-1，且k。

需要说明的是，图模型可以有多层，每层的结构相同，这里，以其中任意一层l为例进行说明，这里，将在l层的处理过程称为l阶段。

（6）对所述目标关系权重矩阵和所述第一特征信息进行融合处理，获得所述第二特征信息。

具体的，可以将目标关系权重矩阵和相乘，并通过线性变换和激活函数之后，加入到原先的特征信息（也即层的输出特征）上，得到层的输出特征。特别的，层为最后一层时，该输出特征即第二特征信息（即output embedding）；第0阶段的输入特征为（即第一特征信息）。

上述步骤（6）可以用第五公式表示，第五公式为：

。

其中，表示l阶段第i个节点（即单元格）对应的特征向量，其维度为；蟊硎¾ ReLU激活函数；表示线性全连接层，其维度为；表示目标关系权重矩阵；表示l阶段、和的拼接结果。

该实施例中，通过上述图模型可以联合单元格之间的行列关系和第一特征信息进行特征关系融合，对第一特征信息进行特征增强处理，进一步增强位置特征表达能力，实现了单元格关系信息的增强，从而有效提高了表格信息抽取准确率，提高了对复杂结构表格的识别分析处理能力。

如图5-图6所示，本发明实施例提供的表格信息处理方法具体可以由表格信息处理装置执行，该表格信息处理装置主要包括数据处理模块、特征提取模块和特征增强模块。

这里，以目标表格为execl文档格式为例，将目标表格输入数据处理模块中，数据处理模块读取目标表格，先将目标表格转换为PDF文件，再将PDF文件转为表格图像数据，并且将目标表格中的单元格文本内容（即文本信息）和单元格属性信息（即文本属性信息、坐标信息和起止行列信息）提取出来。

之后，特征提取模块可以根据数据处理模块输出的信息，进行特征编码，该过程中，利用了单元格的起止行列信息进行特征提取，可以适用于对单元格之间丰富的结构关系的特征提取，能够充分提取特征，从而更为准确地抽取表格要素信息。另外，该特征提取过程中，还可以利用文本属性信息进行特征编码，这样，能够补充丰富的单元格的特征，从而增强第一特征信息的特征表征能力。

最后，位置增强模块可以对从而第一特征信息进行特征增强处理，增强单元格结构关系表征能力，从而提高对表格属性和关系识别的准确率。

该实施例的表格信息处理方法，通过目标表格中单元格的起止行列信息，可以明确表格中单元格之间丰富的结构关系，这样，可以基于起止行列信息，对每一单元格进行特征提取，从而获得每一单元格对应的第一特征信息，如此，能够有效地利用表格结构关系，从而更为准确地抽取表格要素信息。此外，利用关系权重矩阵对第一特征信息进行特征增强处理，获得的第二特征信息，能够更好地表征目标表格的特征，使得，表格特征识别的准确率更高，且提高了表格信息处理的效率。

如图7所示，本发明实施例的一种表格信息处理装置，包括：

第一获取模块710，用于获取目标表格中至少一个单元格的起止行列信息，所述起止行列信息包括以下至少一项：起始行信息、终止行信息、起始列信息和终止列信息；

第一提取模块720，用于基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类。

可选地，所述第一提取模块720包括：

第一获取子模块，用于获取所述目标表格的表格图像和所述至少一个单元格的坐标信息；

第一处理子模块，用于根据所述坐标信息，对所述表格图像进行预处理，获得每一所述单元格对应的单元格图像；

特征编码子模块，用于基于所述单元格图像和所述起止行列信息，针对每一所述单元格进行特征编码，获得每一所述单元格对应的第一特征信息。

可选地，所述表格信息处理装置还包括：

第一获取模块，用于获取所述目标表格的总行数和总列数；

第一处理模块，用于根据所述总行数、总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息；

第二处理模块，用于根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息。

可选地，所述第一处理模块包括：

第二处理子模块，用于根据所述总行数、总列数和所述起止行列信息，确定第一单元格和第二单元格之间的D个位置相关维度信息，其中，所述第一单元格和所述第二单元格为所述目标表格中的任意两个单元格，D为正整数；

第三处理子模块，用于根据所述位置相关维度信息，生成N*N*D的关系权重矩阵，将所述关系权重矩阵作为文档结构信息，N为所述目标表格中的单元格总数，N为正整数；

其中，所述位置相关维度信息包括以下至少一项：

起始行维度信息，用于指示所述第一单元格的起始行和所述第二单元格的起始行之间的关系；

终止行维度信息，用于指示所述第一单元格的终止行和所述第二单元格的终止行之间的关系；

起始列维度信息，用于指示所述第一单元格的起始列和所述第二单元格的起始列之间的关系；

终止列维度信息，用于指示所述第一单元格的终止列和所述第二单元格的终止列之间的关系；

行维度信息，用于指示所述目标表格中，所述第一单元格所在的行和所述第二单元格所在的行之间的关系；

列维度信息，用于指示所述目标表格中，所述第一单元格所在的列和所述第二单元格所在的列之间的关系。

可选地，所述第二处理子模块包括：

第一处理单元，用于根据所述第一单元格的起始行和所述第二单元格的起始行之间的差值及所述总行数，确定所述起始行维度信息；

第二处理单元，用于根据所述第一单元格的终止行和所述第二单元格的终止行之间的差值及所述总行数，确定所述终止行维度信息；

第三处理单元，用于根据所述第一单元格的起始列和所述第二单元格的起始列之间的差值及所述总列数，确定所述起始列维度信息；

第四处理单元，用于根据所述第一单元格的终止列和所述第二单元格的终止列之间的差值及所述总列数，确定所述终止列维度信息；

第五处理单元，用于在所述第一单元格和所述第二单元格在所述目标表格中位于同一行的情况下，将所述行维度信息确定为第一预设值；

第六处理单元，用于在所述第一单元格和所述第二单元格在所述目标表格中位于不同行的情况下，将所述行维度信息确定为第二预设值；

第七处理单元，用于在所述第一单元格和所述第二单元格在所述目标表格中位于同一列的情况下，将所述列维度信息确定为第一预设值；

第八处理单元，用于在所述第一单元格和所述第二单元格在所述目标表格中位于不同列的情况下，将所述列维度信息确定为第二预设值。

可选地，所述第二处理模块包括：

第四处理子模块，用于对所述关系权重矩阵进行线性变换和归一化处理，得到第一结果；

第五处理子模块，用于对所述第一特征信息进行横向复制和纵向复制，分别得到横向复制结果和纵向复制结果；

第六处理子模块，用于对所述横向复制结果、所述纵向复制结果和所述第一结果进行拼接，得到拼接结果；

第七处理子模块，用于对所述拼接结果进行线性变化，得到第二结果；

第八处理子模块，用于对所述第二结果进行归一化处理，得到目标关系权重矩阵；

第九处理子模块，用于对所述目标关系权重矩阵和所述第一特征信息进行融合处理，获得所述第二特征信息。

在此需要说明的是，本发明实施例提供的上述表格信息处理装置，能够实现上述的表格信息处理方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

如图8所示，本发明实施例的一种处理设备800，包括处理器810和收发机820，其中，所述处理器810用于：

可选地，所述处理器810在基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息时，具体用于：

可选地，所述处理器810还用于：

获取所述目标表格的总行数和总列数；

可选地，所述处理器810在根据所述总行数、总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息时，具体用于：

其中，所述位置相关维度信息包括以下至少一项：

可选地，所述处理器810在根据所述总行数、总列数和所述起止行列信息，确定第一单元格和第二单元格之间的D个位置相关维度信息时，具体用于：

根据所述第一单元格的起始行和所述第二单元格的起始行之间的差值及所述总行数，确定所述起始行维度信息；

根据所述第一单元格的终止行和所述第二单元格的终止行之间的差值及所述总行数，确定所述终止行维度信息；

根据所述第一单元格的起始列和所述第二单元格的起始列之间的差值及所述总列数，确定所述起始列维度信息；

根据所述第一单元格的终止列和所述第二单元格的终止列之间的差值及所述总列数，确定所述终止列维度信息；

在所述第一单元格和所述第二单元格在所述目标表格中位于同一行的情况下，将所述行维度信息确定为第一预设值；

在所述第一单元格和所述第二单元格在所述目标表格中位于不同行的情况下，将所述行维度信息确定为第二预设值；

在所述第一单元格和所述第二单元格在所述目标表格中位于同一列的情况下，将所述列维度信息确定为第一预设值；

在所述第一单元格和所述第二单元格在所述目标表格中位于不同列的情况下，将所述列维度信息确定为第二预设值。

可选地，所述处理器810在根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息时，具体用于：

对所述关系权重矩阵进行线性变换和归一化处理，得到第一结果；

对所述第一特征信息进行横向复制和纵向复制，分别得到横向复制结果和纵向复制结果；

对所述横向复制结果、所述纵向复制结果和所述第一结果进行拼接，得到拼接结果；

对所述拼接结果进行线性变化，得到第二结果；

对所述第二结果进行归一化处理，得到目标关系权重矩阵；

对所述目标关系权重矩阵和所述第一特征信息进行融合处理，获得所述第二特征信息。

在此需要说明的是，本发明实施例提供的上述处理设备，能够实现上述的表格信息处理方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

本发明另一实施例的一种处理设备，如图9所示，包括收发器910、处理器900、存储器920及存储在所述存储器920上并可在所述处理器900上运行的程序或指令；所述处理器900执行所述程序或指令时实现上述的表格信息处理方法。

所述收发器910，用于在处理器900的控制下接收和发送数据。

其中，在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器900代表的一个或多个处理器和存储器920代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发器910可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的处理设备，用户接口930还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器900负责管理总线架构和通常的处理，存储器920可以存储处理器900在执行操作时所使用的数据。

本发明实施例的一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时实现如上所述的表格信息处理方法中的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-OnlyMemory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等。

进一步需要说明的是，此说明书中所描述的终端包括但不限于智能手机、平板电脑等，且所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上（包括在不同存储设备上），并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成（VLSI）电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

上述范例性实施例是参考该些附图来描述的，许多不同的形式和实施例是可行而不偏离本发明精神及教示，因此，本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说，这些范例性实施例被提供以使得本发明会是完善又完整，且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中，组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的，并无意成为限制用。如在此所使用地，除非该内文清楚地另有所指，否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时，表示所述特征、整数、步骤、操作、构件及/或组件的存在，但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示，陈述时，一值范围包含该范围的上下限及其间的任何子范围。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种表格信息处理方法，其特征在于，包括：

基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类；

所述方法还包括：

获取所述目标表格的总行数和总列数；

根据所述总行数、所述总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息，所述文档结构信息是一个关系权重矩阵；

根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息；

其中，所述根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息，包括：

对所述拼接结果进行线性变化，得到第二结果；

对所述第二结果进行归一化处理，得到目标关系权重矩阵；

2.根据权利要求1所述的方法，其特征在于，所述基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述总行数、所述总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息，包括：

其中，所述位置相关维度信息包括以下至少一项：

4.根据权利要求3所述的方法，其特征在于，所述根据所述总行数、总列数和所述起止行列信息，确定第一单元格和第二单元格之间的D个位置相关维度信息，包括以下至少一项：

5.一种表格信息处理装置，其特征在于，包括：

第一提取模块，用于基于所述起止行列信息，对每一所述单元格进行特征提取，获得每一所述单元格对应的第一特征信息，所述第一特征信息用于对所述单元格进行分类；

所述装置还包括：

第一获取模块，用于获取所述目标表格的总行数和总列数；

第一处理模块，用于根据所述总行数、所述总列数和所述起止行列信息，生成所述目标表格对应的文档结构信息，所述文档结构信息是一个关系权重矩阵；

第二处理模块，用于根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息；

其中，所述第二处理模块包括：

6.一种处理设备，其特征在于，包括：收发机和处理器；所述处理器用于：

所述处理器还用于：

获取所述目标表格的总行数和总列数；

其中，所述处理器在根据所述文档结构信息，对所述第一特征信息进行特征增强处理，获得第二特征信息时，具体用于：

对所述拼接结果进行线性变化，得到第二结果；

对所述第二结果进行归一化处理，得到目标关系权重矩阵；

7.一种处理设备，包括：收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；其特征在于，所述处理器执行所述程序或指令时实现如权利要求1-4任一项所述的表格信息处理方法。

8.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1-4任一项所述的表格信息处理方法中的步骤。