CN114818627A

CN114818627A - 一种表格信息抽取方法、装置、设备及介质

Info

Publication number: CN114818627A
Application number: CN202210577025.2A
Authority: CN
Inventors: 张晨; 蒲柯锐; 王全礼; 李昱
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-07-29

Abstract

本申请涉及数据挖掘技术领域，具体涉及一种表格信息抽取方法、装置、设备及介质，用于提高表格信息抽取的准确性。该方法包括：对包括表格的目标文档进行分词，获得多个词；对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；位置向量用于指示每个词在目标文档的页面中的位置，特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，目标知识图谱为目标领域的知识图谱；将每个词的序列向量输入神经网络，输出每个词的信息类型；神经网络是基于大量样本数据集训练获得的，样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型；从多个词中抽取信息类型为关键信息类型的词，获得表格的关键信息。

Description

一种表格信息抽取方法、装置、设备及介质

技术领域

本申请涉及数据挖掘技术领域，具体涉及一种表格信息抽取方法、装置、设备及介质。

背景技术

表格是文档中一种重要的数据表现形式，各行各业均存在大量的表格数据，如何从这些表格数据中挖掘出关键信息十分重要。

现有的表格信息抽取方法中，确定信息名key和对应的信息值value，得到表格信息抽取模板，基于该模板中的信息名key和信息值value，对表格进行信息抽取。然而对于一些特殊领域例如金融领域的专业数据，以及复杂的表格数据格式，例如跨行等，现有的表格信息抽取方法仅利用模板信息，忽略了表格的格式信息和视觉信息，其抽取结果的准确性较低。

发明内容

本申请实施例提供一种表格信息抽取方法、装置、设备及介质，用于提高表格信息抽取的准确性。

第一方面，本申请提供一种表格信息抽取方法，所述方法包括：

对包括表格的目标文档进行分词，获得多个词；

对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；其中，每个词的位置向量用于指示每个词在所述目标文档的页面中的位置，每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，所述目标知识图谱为目标领域的知识图谱；

将每个词的序列向量输入神经网络，输出每个词的信息类型；其中，所述神经网络是基于大量样本数据集训练获得的，所述样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型，所述信息类型包括关键信息类型和非关键信息类型；

从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息。

在本申请实施例中，对包括表格的目标文档进行分词，获得多个词，对每个词的位置向量和特征向量进行拼接后，输入神经网络，输出每个词的信息类型，从多个词中抽取信息类型为关键信息类型的词，获得表格的关键信息。该方法结合了目标领域的知识图谱，学习表格的文本信息和格式信息，通过神经网络获得属于关键信息的词，从而实现对表格的关键信息的抽取，提高表格信息抽取的准确性。

在一种可能的实施例中，所述多个词具有排列顺序，从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息，包括：

若所述多个词中第一词的信息类型为关键信息类型且所述第一词为词首，则将排列在所述第一词和第三词之间的至少一个词确定为第二词；其中，所述第三词的信息类型为关键信息类型且所述第三词为词首，或者，所述第三词的信息类型为非关键信息类型；

若所述第二词的信息类型为关键信息类型且所述第二词为非词首，则将从所述多个词中抽取所述第一词和所述第二词，将所述第一词和所述第二词合并为一个关键信息。

在本申请实施例中，确定属于关键信息的词首的第一词和属于关键信息的非词首的第二词，将第一词和相邻的第二词进行合并，从而将零散的多个词合并为多个完整的关键信息，更有利于后续数据分析。

在一种可能的实施例中，在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，所述方法还包括：

将每个词的四元组信息转换为向量，获得每个词的位置向量；其中，所述四元组信息包括每个词在所述目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在所述表格内的特征值。

在本申请实施例中，采用四元组信息来准确地表示每个词的内容以及每个词在目标文档的页面中的具体位置，从而尽可能利用表格信息的格式特征以及内容特征，使后续的信息抽取结果更准确。

获取所述目标知识图谱；其中，所述知识图谱包括实体集合和所述实际集合中各个实体之间的关系；

根据所述目标知识图谱，确定每个词的第一特征向量和第二特征向量；其中，每个词的第一特征向量用于指示每个词是否属于所述实体集合，每个词的第二特征向量用于指示每个词与所述实体集合中的实体是否存在关系；

将每个词的第一特征向量和第二特征向量进行拼接，获得每个词的特征向量。

在本申请实施例中，利用目标领域的知识图谱来构建每个词的特征向量，从而充分地学习目标领域的信息特征，针对目标领域的表格，后续的信息抽取结果会更加准确。

在一种可能的实施例中，在对包括表格的目标文档进行分词，获得多个词之前，所述方法还包括：

获取初始文档；

若所述初始文档为PDF文本，则通过PDF解析工具对所述PDF文本进行解析，获得所述目标文档；或者，

若所述初始文档为图片，则通过光学字符识别OCR工具对所述图片进行识别，获得所述目标文档。

在本申请实施例中，根据初始文档为PDF文本或图片，采用对应的工具对初始文档进行解析识别，获得目标文档，目标文档可以直接用于后续的分词处理，从而提高信息抽取效率。

第二方面，本申请提供一种表格信息抽取装置，所述装置包括：

分词模块，用于对包括表格的目标文档进行分词，获得多个词；

获得模块，用于对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；其中，每个词的位置向量用于指示每个词在所述目标文档的页面中的位置，每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，所述目标知识图谱为目标领域的知识图谱；

输出模块，用于将每个词的序列向量输入神经网络，输出每个词的信息类型；其中，所述神经网络是基于大量样本数据集训练获得的，所述样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型，所述信息类型包括关键信息类型和非关键信息类型；

抽取模块，用于从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息。

在一种可能的实施例中，所述多个词具有排列顺序，所述抽取模块具体用于：

在一种可能的实施例中，所述获得模块还用于：

在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，将每个词的四元组信息转换为向量，获得每个词的位置向量；其中，所述四元组信息包括每个词在所述目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在所述表格内的特征值。

在一种可能的实施例中，所述获得模块还用于：

在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，获取所述目标知识图谱；其中，所述知识图谱包括实体集合和所述实际集合中各个实体之间的关系；

在一种可能的实施例中，所述获得模块还用于：

在对包括表格的目标文档进行分词，获得多个词之前，获取初始文档；

第三方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行第一方面中任一项所述的方法。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行第一方面中任一项所述的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种表格信息抽取方法的应用场景图；

图2为本申请实施例提供的一种表格信息抽取方法的流程图一；

图3为本申请实施例提供的一种表格信息抽取方法的流程图二；

图4为本申请实施例提供的一种表格信息抽取装置的结构图；

图5为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以按不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

本申请技术方案中，对数据的采集、传播、使用等，均符合国家相关法律法规要求。

在介绍本申请实施例所提供的表格信息抽取方法之前，为了便于理解，首先对本申请实施例中所提到的一些概念进行简单介绍。

1、光学字符识别(Optical Character Recognition，OCR)。

OCR是指电子设备检查初始文档中的字符，通过检测暗、亮的模式确定其形状，用字符识别方法将形状翻译成计算机文字的过程。

2、知识图谱(Knowledge Graph)。

知识图谱是由实体、关系和属性组成的一种数据结构，知识图谱的节点代表实体，边代表两个实体之间的关系，其中实体也可以是属性值，这两个实体之间的边也称之为属性。

3、one-hot向量。

one-hot向量为有且只有一个元素为1、其余元素都为0的向量。例如one-hot向量表示为{0,0,0,...,1,...0}。

为了提高表格信息抽取的准确性，本申请实施例提供一种表格信息抽取方法，该方法可以由电子设备执行。电子设备可以通过终端或服务器实现，终端例如移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、笔记本计算机、平板计算机、个人通信系统(PCS)设备、定位设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

请参照图1，为本申请实施例提供的一种表格信息抽取方法的应用场景示意图，该应用场景包括待处理的文档110和电子设备120。

具体来说，电子设备120获取待处理的文档110之后，对该文档中的表格进行信息抽取，从而获得信息抽取结果，其中，电子设备120具体如何进行信息抽取的过程将在下文进行详细介绍。

如上介绍了本申请实施例的应用场景，下面以图1中的电子设备执行表格信息抽取方法为例进行介绍。请参照图2，为本申请实施例提供的一种表格信息抽取方法的流程图一。

S201、对包括表格的目标文档进行分词，获得多个词。

任意包括表格的文档都可以称为初始文档，在实际业务场景中，初始文档的类型有多种，因此，在一种可能的实施例中，电子设备获取到初始文档之后，可以确定初始文档的类型，采用该类型对应的方式对初始文档进行处理，从而获得目标文档。

由于初始文档的类型不同，获得目标文档的方式不同，下面分情况进行介绍。

第一种，初始文档的类型为PDF类型，例如文档名的后缀为“.pdf”。

若初始文档为PDF文本，则电子设备可以通过PDF解析工具对PDF文本进行解析，获得目标文档。

第二种，初始文档的类型为图片类型，例如文档名的后缀为“.png”、“.jpg”、“.gif”、“.bmp”等。

若初始文档为图片，则电子设备可以通过OCR工具对该图片进行识别，获得目标文档。

第三种，初始文档的类型为Word类型或Excel类型，例如文档名的后缀为“.doc”、“.docx”、“.xlsx”等。

若初始文档为Word文本或者Excel文本，则电子设备直接将初始文档作为目标文档。

进一步，电子设备获得目标文档之后，可以采用现有的分词工具对目标文档进行分词，获得多个词。分词就是将一个字序列切分成多个单独的词，现有的分词工具例如jieba、SnowNLP、THULAC等，本申请实施例不做具体限制。应当说明的是，分词工具是从头到尾依次扫描目标文档中的词，因此，得到的多个词是具有排列顺序的。

S202、对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量。

电子设备获得多个词之后，可以执行如S1.1-S1.3所述的步骤，获得每个词的序列向量。

S1.1、获取每个词的位置向量。

每个词的位置向量用于指示每个词在目标文档的页面中的位置，位置向量的表达方式有多种，下面分别进行介绍。

方式一、将每个词的三元组信息转换为向量，获得每个词的位置向量。其中，每个词的三元组信息包括每个词在目标文档的页面中的横坐标和纵坐标、每个词。

例如，某个词为w，词w的三元组信息为(xw,yw,w)，xw表示词w在目标文档的页面中的横坐标，yw表示词w在目标文档的页面中的纵坐标。电子设备可以分别将三元组信息中的xw、yw、w转换为one-hot向量，获得位置向量。

方式二、将每个词的四元组信息转换为向量，获得每个词的位置向量。其中，每个词的四元组信息包括每个词在目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在表格内的特征值。

例如，某个词为w，词w的四元组信息为(xw,yw,w,f)，xw表示词w在目标文档的页面中的横坐标，yw表示词w在目标文档的页面中的纵坐标，f为指示词w是否在表格内的特征值，f的取值为1或0，当f＝1时，表示w在表格内，当f＝0时，表示词在表格外。电子设备可以分别将四元组信息中的xw、yw、w、f转换为one-hot向量，获得位置向量。

电子设备无论采用方式一还是方式二来获得每个词的位置向量，都涉及到如何确定每个词在目标文档的页面中的位置坐标，即横坐标和纵坐标，下面进行详细介绍。

若目标文档仅包括一个页面，则以该页面为参考面建立坐标系，具体例如以该页面的中心点为原点建立平面直角坐标系。电子设备可以根据该坐标系，确定每个词在该页面中的位置坐标。若目标文档包括多个页面，则将这多个页面按页码从小到大的顺序进行拼接，获得拼接后的页面，以拼接后的页面为参考面建立坐标系，具体例如以拼接后的页面的中心点为原点建立平面直角坐标系。电子设备可以根据该坐标系，确定每个词在拼接后的页面中的位置坐标。

当电子设备采用方式二获得每个词的位置向量时，其中涉及到如何确定四元组信息中的特征值f的取值。在一种可能的实施例中，表格线包括多个点，电子设备可以确定这多个点的三元组信息，根据多个点的三元组信息确定表格的边界线，根据每个词在目标文档的页面中的横坐标和纵坐标、以及表格的边界线，确定每个词是否在表格内，即确定四元组信息中的特征值f的取值。

具体的，电子设备确定表格线的多个点的三元组信息，每个点的三元组信息包括每个点在目标文档的页面中的横坐标和纵坐标、指示每个点是否隐藏的特征值。表格线的点是可以隐藏的，例如表两侧没有竖线的三线表，具体可以根据每个点的像素值确定每个点是否隐藏。

例如，以表格线上的点p为例，点p的三元组信息为(x,y,n)，x为点p的横坐标，y为点p的纵坐标，v为指示点p是否隐藏的特征值，n的取值为1或0，当n＝1时，表示点p显示，当n＝0时，表示点p隐藏。具体可以根据该点p的像素值，确定n的取值，当点p的像素值为255时，则n＝1，当点p的像素值为0时，则n＝0。

进一步，电子设备根据多个点的三元组信息，可以获得这多个点在目标文档的页面中的横坐标和纵坐标，也就是获得多个横坐标和多个纵坐标，将这多个横坐标中的最大值所在的线，确定为表格的右边界线，将这多个横坐标中的最小值，确定为表格的左边界线，将这多个纵坐标中的最大值，确定为表格的上边界线，将这多个纵坐标中的最小值，确定为表格的下边界线。若某个词的横坐标在表格的左边界线和右边界线之间，且该词的纵坐标在表格的下边界线和上边界线之间，则确定该词在表格内，例如四元组信息中的特征值f的取值为1，其他情况则确定该词在表格外，例如四元组信息中的特征值f的取值为0。

例如，电子设备获得的多个横坐标中的最大值为x1，则表格的右边界线为(x1，0)，多个横坐标中的最小值为x2，则表格的左边界线为(x2，0)。电子设备获得的多个纵坐标中的最大值为y1，则表格的上边界线为(0，y1)，多个纵坐标中的最小值为y2，则表格的下边界线为(0，y2)。若词w的横坐标xw在(x2，x1)之间，词w的纵坐标yw在(y2，x1)之间，则确定词w在表格内，即f＝1，其他情况则确定词w在表格外，即f＝0。

在本申请实施例中，考虑到表格的某些表格线可能是隐藏的，用三元组信息来表示表格线上的点，充分学习了表格的格式信息，基于该三元组信息可以准确地确定每个词是否在表格内，从而获得准确的四元组信息，可以进一步提高表格信息抽取的准确性。

S1.2、获取每个词的特征向量。

每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，目标知识图谱为目标领域的知识图谱，目标领域例如金融领域。下面介绍如何获得每个词的特征向量的具体过程。

在一种可能的实施例中，电子设备获取目标知识图谱，根据该目标知识图谱，确定每个词的第一特征向量和第二特征向量，将每个词的第一特征向量和第二特征向量进行拼接，获得每个词的特征向量。

具体的，电子设备可以预先获取目标知识图谱，知识图谱包括实体集合和实际集合中各个实体之间的关系，并利用目标知识图谱预先构造特征模板。电子设备获得多个词之后，根据该特征模板对每个词的特征向量进行构造，分别获得第一特征向量和第二特征向量，每个词的第一特征向量用于指示每个词是否属于实体集合，每个词的第二特征向量用于指示每个词与实体集合中的实体是否存在关系。最后将每个词的第一特征向量和第二特征向量进行拼接，获得每个词的特征向量。

例如，定义图谱G、实体集合E、关系R，定义如下特征模板v＝(v₁,v₂)：

若某个词c属于E，则特征v₁为1，否则为0，将特征1或0转换为one-hot向量，获得词c的第一特征向量v₁。

若某个词c属于E，且词c的邻接实体

与词c存在关系r，则第二特征向量

否则为0。其中v₂为关系r的向量，可由任何图表示算法例如TransE等进行参数构建。

S1.3、对每个词的位置向量和特征向量进行拼接，获得每个词的序列向量。

电子设备获得每个词的位置向量和特征向量之后，可以对每个词的位置向量和特征向量进行拼接，获得每个词的序列向量，进而获得多个词的序列向量。

例如，词w的位置向量为(xw，yw，w)，词w的特征向量为v，则词w的序列向量为(xw，yw，w，v)。或者例如，词w的位置向量为(xw，yw，w，f)，词w的特征向量为v，则词w的序列向量为(xw，yw，w，f，v)。

应当说明的是，S1.2和S1.3的顺序是任意的。可以先执行S1.2再执行S1.3，或者先执行S1.3再执行S1.2，或者同时执行S1.2和S1.3。

S203、将每个词的序列向量输入神经网络，输出每个词的信息类型。

电子设备获得每个词的序列向量之后，可以将每个词的序列向量输入神经网络，输出每个词的信息类型，进而获得多个词的信息类型。神经网路例如卷积神经网络，神经网络是基于大量样本数据集训练获得的，样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型。其中，如何获得多个样本词的序列向量的过程请参照前文论述的S1.1-S1.3的内容，此处不再赘述。

信息类型包括关键信息类型和非关键信息类型，若某个词的信息类型为关键信息类型，则说明该词属于表格的关键信息，若某个词的信息类型为非关键信息类型，则说明该词属于目标文档中除表格的关键信息之外的非关键信息，例如该词属于表格的非关键信息，或者该词属于表格之外的非关键信息。

神经网络中网络参数的取值可以是其他设备训练后发送给电子设备的，也可以是直接由电子设备训练得到的。下面以电子设备训练获得神经网络的网络参数为例，对神经网络的训练过程进行示例介绍。

具体的，电子设备构建好神经网络之后，将每个样本词的序列向量作为神经网络的输入，将该神经网络输出的目标信息类型与每个样本词的信息类型之间的误差作为该神经网络的反馈数据，通过反馈数据，不断调整网络参数的取值。经过大量样本词的序列向量的训练，不断更新该神经网络的网络参数，使该神经网络确定出的目标信息类型与每个样本词的信息类型之间的误差在预设范围内，从而获得训练好的神经网络。

进一步，针对前文论述的方式一，若电子设备将每个词的三元组信息转换为向量，获得每个词的位置向量，则神经网络具有四个输入通道，分别输入(xw，yw，w，v)。针对前文论述的方式二，若电子设备将每个词的四元组信息转换为向量，获得每个词的位置向量，则神经网络具有五个输入通道，分别输入(xw，yw，w，f，v)。

下面以五个输入通道为例，介绍神经网络的处理过程。

例如，第一个通道输入i₁，i₁为xw转换而来的one-hot向量，长度为多个词的横坐标中的最大值，第二个通道输入i₂，i₂为yw转换而来的one-hot向量，长度为多个词的纵坐标中的最大值，此处的多个词指的是S201分词获得的多个词，第三个通道输入i₃，i₃为词w转换而来的one-hot向量，第四个通道输入i₄，i₄为f转换而来的one-hot向量，第五个通道输入i₅，i₅为w的特征向量v。第一个通道至第四个通道分别接300维的嵌入(embeding)层，然后接卷积核(kernel)为3、数量为100的一维卷积层，第五个通道接kernel为3、数量为100的一维卷积层，将五个通道的输入经过卷积层运算后的特征向量做拼接后，最后经过全连接层，输出标签，该标签用于表示每个词的信息类型。其中，xw、yw、w、f、v的含义请参照前文论述的内容，此处不再赘述。

S204、从多个词中抽取信息类型为关键信息类型的词，获得表格的关键信息。

电子设备获得多个词的信息类型之后，可以直接从多个词中，抽取信息类型为关键信息类型的词，获得表格的关键信息。

例如，神经网络可以输出两类标签K和O，其中，K表示该词属于关键信息，O表示属于非关键信息。若神经网络依次输出8个词w₁～w₈的信息类型为O、K、K、K、K、K、O、O，则将第二个词w₂至第六个词w₆分别抽取出来，作为表格的关键信息。

考虑到直接抽取的词可能是一些零散的词，在一种可能的实施例中，电子设备可以根据信息类型，以及每个词是否为关键信息的词首，从多个词中抽取对应的词进行合并，获得多个的关键信息。

具体的，若多个词中第一词的信息类型为关键信息类型且第一词为词首，则将排列在第一词和第三词之间的至少一个词确定为第二词。若第二词的信息类型为关键信息类型且第二词为非词首，则将从多个词中抽取第一词和第二词，将第一词和第二词合并为一个关键信息。其中，第三词的信息类型为关键信息类型且第三词为词首，或者，第三词的信息类型为非关键信息类型。

例如，神经网络可以输出三类标签B、I和O，其中，B表示该词属于关键信息的词首，I表示该词属于关键信息的非词首，O表示该词属于非关键信息。若神经网络依次输出8个词w₁～w₈的信息类型为O、B、I、B、I、I、O、O，则第二个词w₂为第一个关键信息的词首，第三个词w₃为第一个关键信息的非词首，将w₂和w₃合并为第一个关键信息。第四个词w₄为第二个关键信息的词首，第五个词w₅和第六个词w₆为第二个关键信息的非词首，则将第w₄、w₅和w₆合并为第二个关键信息。

为了更加清楚地说明表格信息抽取方法，请参照图3，为本申请实施例提供的表格信息抽取方法的流程图二。下面结合图3对本申请提供的表格信息抽取方法进行进一步介绍。

流程开始，首先执行S301，即获取目标文档的多个词。

S301、获取目标文档的多个词。

电子设备获取包括表格的目标文档，对目标文档进行分词，获得多个词。其中如何获取目标文档、如何分词的过程请参照前文论述的内容，此处不再赘述。

S302、表格边界识别。

电子设备确定表格线的多个点的三元组信息，根据这多个点在目标文档的页面中的横坐标和纵坐标，确定表格的边界线。其中，每个点的三元组信息的含义、如何确定表格的边界线的过程请参照前文论述的内容，此处不再赘述。

进一步，电子设备根据每个词在目标文档的页面中的横坐标和纵坐标、以及表格的边界线，确定每个词是否在表格内，进而获得每个词的四元组信息。将每个词的四元组信息转换为向量，获得多个词中每个词的位置向量。其中，如何确定每个词是否在表格内、每个词的四元组信息的含义、如何转换为向量的过程请参照前文论述的内容，此处不再赘述。

S303、特征模板构建。

电子设备预先根据目标知识图谱构建特征模板，根据特征模板确定多个词中每个词的特征向量。其中，目标知识图谱的含义、如何构建特征模板、如何确定特征向量的过程请参照前文论述的内容，此处不再赘述。

S304、表格信息抽取识别。

电子设备对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量，将每个词的序列向量输入神经网络，输出每个词的信息类型，从多个词中抽取信息类型为关键信息类型的词。其中，如何拼接向量的过程、神经网络的训练过程、信息类型的含义、如何抽取词的过程请参照前文论述的内容，此处不再赘述。

S305、表格信息合并。

电子设备从抽取的词中确定出第一词和第二词，将第一词和第二词合并为一个关键信息，直到所有词合并完毕，获得表格的多个关键信息。其中第一词和第二词的含义、如何确定第一词和第二词的过程请参照前文论述的内容，此处不再赘述。

执行S305之后，流程结束。

应当说明的是，S302和S303的执行顺序是任意的。可以先执行S302再执行S303，或者先执行S303再执行S302，或者同时执行S302和S303。

综上所述，本申请提供的表格信息抽取方法，利用自然语言处理和计算机视觉技术，结合知识图谱灵活构造特征模板，以及四元组信息的数据表示方法，学习表格文本信息和格式信息，通过神经网络对表格的关键信息进行抽取，获得准确的表格信息抽取结果。

基于同一发明构思，本申请实施例提供一种表格信息抽取装置，请参照图4，该装置包括：

分词模块401，用于对包括表格的目标文档进行分词，获得多个词；

获得模块402，用于对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；其中，每个词的位置向量用于指示每个词在目标文档的页面中的位置，每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，目标知识图谱为目标领域的知识图谱；

输出模块403，用于将每个词的序列向量输入神经网络，输出每个词的信息类型；其中，神经网络是基于大量样本数据集训练获得的，样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型，信息类型包括关键信息类型和非关键信息类型；

抽取模块404，用于从多个词中抽取信息类型为关键信息类型的词，获得表格的关键信息。

在一种可能的实施例中，多个词具有排列顺序，抽取模块404具体用于：

若多个词中第一词的信息类型为关键信息类型且第一词为词首，则将排列在第一词和第三词之间的至少一个词确定为第二词；其中，第三词的信息类型为关键信息类型且第三词为词首，或者，第三词的信息类型为非关键信息类型；

若第二词的信息类型为关键信息类型且第二词为非词首，则将从多个词中抽取第一词和第二词，将第一词和第二词合并为一个关键信息。

在一种可能的实施例中，获得模块402还用于：

在对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，将每个词的四元组信息转换为向量，获得每个词的位置向量；其中，四元组信息包括每个词在目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在表格内的特征值。

在一种可能的实施例中，获得模块402还用于：

在对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，获取目标知识图谱；其中，知识图谱包括实体集合和实际集合中各个实体之间的关系；

根据所述目标知识图谱，确定每个词的第一特征向量和第二特征向量；其中，每个词的第一特征向量用于指示每个词是否属于实体集合，每个词的第二特征向量用于指示每个词与实体集合中的实体是否存在关系；

在一种可能的实施例中，获得模块402还用于：

若初始文档为PDF文本，则通过PDF解析工具对PDF文本进行解析，获得目标文档；或者，

若初始文档为图片，则通过光学字符识别OCR工具对图片进行识别，获得目标文档。

作为一种实施例，图4论述的装置可以用于执行图2-图3所示的实施例中所述的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图2-图3所示的实施例的描述，此处不再赘述。

应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

基于同一发明构思，本申请实施例提供一种电子设备，该设备可以实现前文论述的电子设备的功能，请参照图5，该设备包括处理器501和存储器502。

存储器502，用于存储程序指令；

处理器501，用于调用所述存储器502中存储的程序指令，按照获得的程序指令执行前文论述任一的表格信息抽取方法。处理器501可以实现图4所示的装置中各个模块的功能。

本申请实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器501也可以称为控制器，对于名称不做限制。

其中，处理器501是该装置的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。

在一种可能的设计中，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的表格信息抽取方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对处理器501进行设计编程，可以将前述实施例中介绍的数据表分片方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图2-图3所示的实施例的表格信息抽取方法的步骤。如何对处理器501进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，计算机程序产品包括：计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如前文论述任一的表格信息抽取方法。由于上述计算机可读存储介质解决问题的原理与表格信息抽取方法相似，因此上述计算机可读存储介质的实施可以参见方法的实施，重复之处不再赘述。

基于同一发明构思，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行如前文论述任一的表格信息抽取方法。由于上述计算机程序产品解决问题的原理与表格信息抽取方法相似，因此上述计算机程序产品的实施可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列用户操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种表格信息抽取方法，其特征在于，包括：

对包括表格的目标文档进行分词，获得多个词；

2.如权利要求1所述的方法，其特征在于，所述多个词具有排列顺序，从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息，包括：

3.如权利要求1所述的方法，其特征在于，在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，所述方法还包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，在对包括表格的目标文档进行分词，获得多个词之前，所述方法还包括：

获取初始文档；

6.一种表格信息抽取装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述多个词具有排列顺序，所述抽取模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述获得模块还用于：

9.如权利要求6所述的装置，其特征在于，所述获得模块还用于：

10.如权利要求6-9中任一项所述的装置，其特征在于，所述获得模块还用于：

11.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-5中任一项所述的方法包括的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行如权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述如权利要求1-5中任一项所述的方法。