CN115577688B

CN115577688B - 表格结构化处理方法、设备、存储介质及装置

Info

Publication number: CN115577688B
Application number: CN202211576176.2A
Authority: CN
Inventors: 李舟军; 舒代昕; 覃维; 陈小明; 肖武魁; 刘俊杰
Original assignee: Shenzhen Intelligent Strong Technology Co ltd
Current assignee: Shenzhen Intelligent Strong Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-28
Anticipated expiration: 2042-12-09
Also published as: CN115577688A

Abstract

本发明公开了一种表格结构化处理方法、设备、存储介质及装置，该方法包括：对表格信息进行预处理，获得待重组表格；根据预设语言处理模型提取待重组表格的信息，并对信息进行分类；根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。本发明根据预设语言处理模型对待重组表格进行分类并根据预设结构化处理方式对分类后的信息进重组，获得具有结构化特征的表格，从而不需要通过人工对表格进行分析并获取其中的信息，进而减少了成本的消耗。

Description

表格结构化处理方法、设备、存储介质及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种表格结构化处理方法、设备、存储介质及装置。

背景技术

表格是最常用的数据处理方式之一，在网页、图像、PDF等媒介中都占有重要的位置。表格在处理数字信息、对比信息等数据时，具有很大的优势。电子表格文档（EXCEL）可以标注出表格内部单元格之间的关系，方便使用人员快速查找所需数据。而以网页、图像、PDF等形式给出的表格数据的结构只存在于视觉感知上，存在结构不严谨，不完整的特点，并且此类表格的结构更加复杂多变。

现阶段针对表格的常用处理方式，仍为人工观察表格并进行信息抽取的工作。但人工处理存在诸多问题，人工处理是一个长期的、持续的、并且工作量相当大的一个工程，需要耗费大量成本。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种表格结构化处理方法、设备、存储介质及装置，旨在解决因人工获取表格信息而浪费大量成本的技术问题。

为实现上述目的，本发明提供一种表格结构化处理方法，所述表格结构化处理方法包括以下步骤：

对表格信息进行预处理，获得待重组表格；

根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类；

根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。

可选地，所述根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类的步骤，包括：

根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分；

根据所述待重组表格的特征对拆分结果进行分类。

可选地，所述根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分的步骤，包括：

根据预设语言处理模型的分隔符和位置序号将所述待重组表格拆分成多个单元格；

根据所述多个单元格的文本信息和所述分隔符生成待重组表格的特征序列。

可选地，所述根据所述待重组表格的特征对拆分结果进行分类的步骤，包括：

将所述待重组表格的特征序列和所述位置序号输入至所述预设语言处理模型，获得所述待重组表格的特征向量；

将所述待重组表格的特征向量输入至下游网络进行分类。

可选地，所述根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格的步骤，包括：

基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格。

可选地，所述基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格的步骤，还包括：

将分类后的信息和所述表格信息存储至预设结构化表格；

根据预设结构化处理方式对所述预设结构化表格进行处理，获得具有结构化特征的表格。

可选地，所述对表格信息进行预处理，获得待重组表格的步骤，包括：

对表格信息进行版面分割，并基于OCR对版面分割的结果进行处理获得待重组表格。

此外，为实现上述目的，本发明还提出一种表格结构化处理设备，所述表格结构化处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行表格结构化处理程序，所述表格结构化处理程序配置为实现如上文所述的表格结构化处理方法。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有表格结构化处理程序，所述表格结构化处理程序被处理器执行时实现如上文所述的表格结构化处理方法。

此外，为实现上述目的，本发明还提出一种表格结构化处理装置，所述表格结构化处理装置包括：处理模块、分类模块及重组模块；

所述处理模块，用于对表格信息进行预处理，获得待重组表格；

所述分类模块，用于根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类；

所述重组模块，用于根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的表格结构化处理设备的结构示意图；

图2为本发明表格结构化处理方法第一实施例的流程示意图；

图3为本发明表格结构化处理方法第二实施例的流程示意图；

图4为本发明表格结构化处理方法第三实施例的流程示意图；

图5为本发明表格结构化处理装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的表格结构化处理设备结构示意图。

如图1所示，该表格结构化处理设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display），可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，Wi-Fi）接口）。存储器1005可以是高速的随机存取存储器（Random Access Memory，RAM），也可以是稳定的存储器（Non-volatileMemory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对表格结构化处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及表格结构化处理程序。

在图1所示的表格结构化处理设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述表格结构化处理设备通过处理器1001调用存储器1005中存储的表格结构化处理程序，并执行本发明实施例提供的表格结构化处理方法。

基于上述硬件结构，提出本发明表格结构化处理方法的实施例。

参照图2，图2为本发明表格结构化处理方法第一实施例的流程示意图，提出本发明表格结构化处理方法第一实施例。

步骤S10：对表格信息进行预处理，获得待重组表格。

需要说明的是，本实施例的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算机服务设备，例如，表格结构化处理等，或者是其他能够实现相同或相似功能的电子设备，本实施例对此不加限制。

应理解的是，表格是最常用的数据处理方式之一，在网页、图像、PDF等媒介中都占有重要的位置。表格在处理数字信息、对比信息等数据时，具有很大的优势。电子表格文档（EXCEL）可以标注出表格内部单元格之间的关系，方便使用人员快速查找所需数据。而以网页、图像、PDF等形式给出的表格数据的结构只存在于视觉感知上，存在结构不严谨，不完整的特点，并且此类表格的结构更加复杂多变。表格信息结构化任务利用已知的表格内容信息和结构信息，分析表格内部单元格之间的关系，进而将表格转变为结构化数据，但目前对于表格内部单元格之间关系抽取的技术研究仍然不足。现阶段针对表格的常用处理方式，仍为人工观察表格并进行信息抽取的工作。但人工处理存在诸多问题，一是人工处理是一个长期的、持续的、并且工作量相当大的一个工程，需要耗费大量成本；二是由于各种原因人工处理不可避免地会出现部分错误，同时表格信息抽取的结果会受不同人主观判断的影响，而人工检查仍然是一个耗费巨大的工程。

目前表格结构化的方案主要集中在基于规则的传统算法和基于深度学习的表格结构化算法。基于规则的方法先对数据库中的表格进行分析，总结出能够匹配数据库中所有表格结构的模板库（如表格的第一行为表头，其余部分为表体的结构即为一种表格结构模板），以及在该场景下表格内容的知识库。再使用规则，将输入数据与表格结构模板一一比对，获取表格的结构特征，区分出表头与表体区域，进而将表格转换为结构化数据。

基于深度学习的方案主要目标是对表格中每个单元格的文本信息和坐标信息进行编码，通过预训练语言模型结合两种类型的信息对每个单元格类别进行分类，主要分为“表头”和“表体”两类，“表头”是指具有一定描述性质的属性名，其内容描述的若干对象的某一共通属性，比如“金额”指代的就是一定的金额数值；而“表体”是属性名对应的属性值。通常情况下，“表头”和它所描述的“表体”在同一行或者同一列上。

不同类型的表格对于表头和表体的描述会有出入，为了适配这些差异化的信息，模型将采用基于BERT (Bidirectional Encoder Representations from Transformers)的预训练模型，再根据业务提供的大量标注数据对模型进行微调，达到契合行内专有分析场景的效果。由于BERT 本身是在大量通用自然语言领域语料上预训练而来的模型，模型缺乏对于坐标特征的处理限制了其处理表格数据的能力。为了解决这个问题，现有技术方案通常是对坐标特征进行特殊的编码，将神经网络提取出的文本特征和布局特征进行某种方式的融合，再通过神经网络获取融合后的特征，进而为每个单元格进行分类。表格数据中存在不同模态特征的维度不同、意义不同以及对于任务结果贡献不同。针对这个问题，现有方法设计出相应的混合融合算法，用以合理地融合多模态的特征，进而提取出整个表格的特征。

需要说明的是，传统的规则方法，主要利用表格的结构信息制定一定范围内的表格模板，利用表格内容信息制定特定领域下的知识库。通过规则匹配等方式，寻找出表头与表体之间的边界。但传统的规则方法只适合处理特定领域下简单结构的表格，局限性很大。

现有多模态模型大多是基于整个文档的模型，对于单个表格的信息抽取精度不足，并且现有的表格信息抽取模型都是针对英文表格的，针对中文内容表格的信息抽取模型领域仍然是一片空白。

现有的方法均止步于表格和单元格的特征的抽取，在抽取出特征后利用该特征构造出相应的结构化数据的方法并未提出以及实现。

为了克服上述缺陷，本实施例首先对表格信息进行预处理获得待重组表格，再根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类，最后，根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。

可以理解的是，本实施例是基于预设语言处理模型来实现的，通过预设语言处理模型能够提取表格特征，根据表格特征重新生成具有结构化特征的表格，从而不需要人工进行处理，不仅节约了大量成本，还提高了工作效率。

进一步地，为了提高获取表格信息的精确度，因此本实施例步骤S10可包括：

可以理解的是，对表格信息进行版面分割可以是将表格分割成几个板块，可以是将表格分割成多个单元格，本实施例对比不加以限制。

可以理解的是，OCR是用来提取表格信息，通过识别进行版面分割后的表格信息，从而获得待重组表格。

需要说的是，对表格信息进行预处理是根据表格的特征进行的预处理操作的，例如，关系表分为横向关系表和纵向关系表。以横向关系表为例，其特征为：在表格中存在若干行（属性名），该行每一列的内容（属性值）都与其下方若干行单元格内容存在语义上的描述关系，关系表包含以下两种特征：表格中的键值对关系通常体现在同一行或同一列上，并且一个关系表只会出现一种位置关系；横向关系表中，一行只会出现一种类型的单元格，要么全是表头，要么全是表体。纵向关系表中的每一列同理。又例如，在矩阵表中，两个方向都存在属性名和属性值无法完全对应的情况。无法对应的情况通常是某个实体和该实体的某个属性的关系，矩阵表包含以下两种特征：关系表中的键值对关系包含属性名和属性值的关系以及实体和实体属性的关系；在不包含纵向表头的区域中，一行只会出现一种类型的单元格，要么全是表头，要么全是表体。在不包含横向表头的区域中，一列只会出现一种类型的单元格。

步骤S20：根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类。

需要说明的是，预设语言处理模型可以是BERT模型，通过BERT模型提取待重组表格的信息并对其进行分类。

可以理解的是，本实施例通过BERT模型的Fine-tune部分对表格信息进行处理，即Fine-tune主要内容是在BERT模型的基础上在小规模数据集上进行微调，从而能够在保持BERT模型的高准确度的基础上大大减少训练时间。

需要说明的是，提取待重组表格信息可以是获取待重组表格中每个单元格信息，再根据待重组表格的特征对每个单元格进行分类。

步骤S30：根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。

可以理解的是，根据预设语言处理模型对待重组表格的信息进行分类后，通过预设结构化处理方式对分类后的信息进行重组。

可以理解的是，预设结构化处理方式可以是人工编写的处理流程，例如，通过以编写代码的形式将分类后的信息进行重组。

需要说明的是，为了便于理解，参照表1和表2进行说明，表1为初始表格，表2为结构化表格。

表1_初始化表格

姓名	职务	获授的限制性股票数量（万股）	本次可解锁数量（万股）	本次上市流通数量（万股）	剩余未解锁数量（万股）
						张三	财务总监	30	21	16.8	20
李四	运营总监	80	21	13.5	26
						王五	董事长特别助理	40	7	11	10.1

表2_结构化表格

Obj1:

{<KEY:NULL;TITLE:“姓名”;VALUE:“张三”>;

<KEY:NULL;TITLE:“职务”;VALUE:“财务总监”>;

...

}

Obj1:

{<KEY:NULL;TITLE:“姓名”;VALUE:“李四”>;

<KEY:NULL;TITLE:“职务”;VALUE:“运营总监”>;

...

}

本实施例通过对表格信息进行预处理，获得待重组表格；根据预设语言处理模型提取待重组表格的信息，并对信息进行分类；根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。本发明根据预设语言处理模型对待重组表格进行分类并根据预设结构化处理方式对分类后的信息进重组，获得具有结构化特征的表格，从而不需要通过人工对表格进行分析并获取其中的信息，进而减少了成本的消耗。

参照图3，图3为本发明表格结构化处理方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明表格结构化处理方法的第二实施例。

在第二实施例中，所述步骤S20，包括：

步骤S201：根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分。

需要说明的是，预设语言处理模型的位置序号可以是position id信息，通过position id信息对每个单元格进行标号进行区分。

进一步地，为了获得具有结构化表格，因此本实施例步骤S20可包括：

需要说明的是，预设语言处理模型中具有特殊含义的分隔符，通过分隔符将待重组表格划分成一个一个单元格，将表格的结构信息融入文本的前后序列之中，每个单元格都包含其位置信息。

需要说明的是，通过使用单元格文本和分隔符构造出表格特征序列，能够使构造出的表格特征序列具备表格的结构特征。

步骤S202：根据所述待重组表格的特征对拆分结果进行分类。

需要说明的是，对拆分结果进行分类是根据表格特征进行分类，以表格中的一行和一列作为分类对象，再根据单元格所在的行和列的类别判断每个单元格最终的类别。

可以理解的是，表格可以是关系表或者是矩阵表，不管是关系表还是矩阵表都是根据表格行和列对单元格进行分类。

进一步地，为了防止因人工获取表格信息而导致出现错误的情况，因此本实施例步骤S202可包括：

将所述待重组表格的特征向量输入至下游网络进行分类。

可以理解的是，预设语言处理模型根据待重组表格的特征序列和位置序号获得待重组表格的向量序列，需要通过下游网络对待重组表格的向量序列进行分析。

可以理解的是，下游网络可以是在预设语言处理模型内加入全连接层，将重组表格的向量序列传输至全连接层进行分析。

应理解的是，作为表头的单元格的属性是不一样的，根据不同表头的属性对单元格进行分类，例如，其中一个表头的单元格的属性是“姓名”，则将其它具有“姓名”这个属性的单元格分类到该表头单元下。

本实施例根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分；根据所述待重组表格的特征对拆分结果进行分类。本实施例通过预处理模型的对待重组表格拆分成单个单元格，再根据表格的特征对多个单元格进行分类。从而防止因人工对表格信息进行分析存在主观判断的因素而导致出现分析错误的情况。

参照图4，图4为本发明表格结构化处理方法第三实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明表格结构化处理方法的第三实施例。

在第三实施例中，所述步骤S30，还包括：

步骤S301：基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格。

可以理解是，表格信息是表格最原始的信息，结合分类后的表格信息和初始的表格信息通过人工编写的处理流程进行处理，最终获得具有结构化的表格。

为了便于理解，参照上述表2进行说明，表2中每个表体的单元格对应着其相应属性的表体单元格。

进一步地，为了获得具有结构化的表格，因此本实施例步骤S301可包括：

将分类后的信息和所述表格信息存储至预设结构化表格；

需要说明的是，在关系表中，每个单元格只存在一个表头，而在矩阵表中，每个单元格存在两个表头。为了统一结构化方式，在关系表中不存在表头的那个方向构造一个虚拟表头，其内容为NULL。定义表格左边的表头为KEY，表格上方的表头为TITLE。

可以理解的是，预设结构化表格即为上述中构造出的表格，其中包含虚拟表头，将分类后的信息和表格信息存储至预设结构化表格以便统一表格的结构。

本实施例基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格，从而不需要人工对表格进行分析，提高了工作效率。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有表格结构化处理程序，所述表格结构化处理程序被处理器执行时实现如上文所述的表格结构化处理方法。

此外，参照图5，本发明实施例还提出一种表格结构化处理装置，所述表格结构化处理装置包括：处理模块10、分类模块20及重组模块30；

所述处理模块10，用于对表格信息进行预处理，获得待重组表格；

所述分类模块20，用于根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类；

所述重组模块30，用于根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格。

基于本发明上述表格结构化处理装置第一实施例，提出本发明表格结构化处理装置的第二实施例。

在本实施例中，所述分类模块20，用于根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分。

进一步地，所述分类模块20，还用于根据所述待重组表格的特征对拆分结果进行分类。

进一步地，所述分类模块20，还用于根据预设语言处理模型的分隔符和位置序号将所述待重组表格拆分成多个单元格。

进一步地，所述分类模块20，还用于根据所述多个单元格的文本信息和所述分隔符生成待重组表格的特征序列。

进一步地，所述分类模块20，还用于将所述待重组表格的特征序列和所述位置序号输入至所述预设语言处理模型，获得所述待重组表格的特征向量。

进一步地，所述分类模块20，还用于将所述待重组表格的特征向量输入至下游网络进行分类。

进一步地，所述重组模块30，还用于基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格。

进一步地，所述重组模块30，还用于将分类后的信息和所述表格信息存储至预设结构化表格。

进一步地，所述重组模块30，还用于根据预设结构化处理方式对所述预设结构化表格进行处理，获得具有结构化特征的表格。

进一步地，所述处理模块10，还用于对表格信息进行版面分割，并基于OCR对版面分割的结果进行处理获得待重组表格。

本发明所述表格结构化处理装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像（Read Only Memory image，ROM）/随机存取存储器（Random AccessMemory，RAM）、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种表格结构化处理方法，其特征在于，所述表格结构化处理方法包括以下步骤：

对表格信息进行预处理，获得待重组表格；

根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格；

进一步地，所述根据预设语言处理模型提取所述待重组表格的信息，并对所述信息进行分类的步骤，包括：

根据所述待重组表格的特征对拆分结果进行分类；

进一步地，所述根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格的步骤，包括：

2.如权利要求1所述的表格结构化处理方法，其特征在于，所述根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分的步骤，包括：

3.如权利要求2所述的表格结构化处理方法，其特征在于，所述根据所述待重组表格的特征对拆分结果进行分类的步骤，包括：

将所述待重组表格的特征向量输入至下游网络进行分类。

4.如权利要求1所述的表格结构化处理方法，其特征在于，所述基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格的步骤，包括：

将分类后的信息和所述表格信息存储至预设结构化表格；

5.如权利要求1至4任一项所述的表格结构化处理方法，其特征在于，所述对表格信息进行预处理，获得待重组表格的步骤，包括：

6.一种计算机设备，其特征在于，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格结构化处理程序，所述表格结构化处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的表格结构化处理方法的步骤。

7.一种存储介质，其特征在于，所述存储介质上存储有表格结构化处理程序，所述表格结构化处理程序被处理器执行时实现如权利要求1至5中任一项所述的表格结构化处理方法的步骤。

8.一种表格结构化处理装置，其特征在于，所述表格结构化处理装置包括：处理模块、分类模块及重组模块；

所述重组模块，用于根据预设结构化处理方式对分类后的信息进行重组，获得具有结构化特征的表格；

所述分类模块，还用于根据预设语言处理模型的分隔符和位置序号对所述待重组表格进行拆分；

根据所述待重组表格的特征对拆分结果进行分类；

所述重组模块，还用于基于预设结构化处理方式并根据分类后的信息和所述表格信息进行重组，获得具有结构化特征的表格。