CN115661844A

CN115661844A - 模型训练以及表格信息提取的方法及电子设备

Info

Publication number: CN115661844A
Application number: CN202211384931.7A
Authority: CN
Inventors: 郝东; 姚贡之
Original assignee: Shanghai Hongji Information Technology Co Ltd
Current assignee: Shanghai Hongji Information Technology Co Ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-01-31

Abstract

本申请属于信息处理技术领域，公开了模型训练以及表格信息提取的方法及电子设备，该方法包括，按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格；获取待提取单元格和关联单元格分别对应的位置信息和文本信息；采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息。这样，采用信息提取模型基于筛选出的待提取单元格以及关联单元格进行表格信息提取，提高了表格信息提取的效率以及准确率。

Description

模型训练以及表格信息提取的方法及电子设备

技术领域

本申请涉及信息处理技术领域，具体而言，涉及模型训练以及表格信息提取的方法及电子设备。

背景技术

在一些场景中，通常需要提取表格中部分单元格的全部或者部分信息。现有技术下，通常采用神经网络模型对整个表格中的所有单元格进行数据处理，以提取表格中部分单元格中的目标内容。

但是，采用这种方式，需要对整个表格的所有单元格进行处理，表格信息提取的效率以及准确度均较低。

发明内容

本申请实施例的目的在于提供模型训练以及表格信息提取的方法及电子设备，用以在提取表格信息时，提高表格信息提取的准确率和效率。

一方面，提供一种模型训练的方法，包括：

获取各表格样本的单元格样本数据以及提取信息样本数据；

采用信息提取初始模型，基于各表格样本的单元格样本数据，获得各表格的表格提取信息；信息提取初始模型是基于神经网络和注意力机制构建的；

根据各表格样本的提取信息样本数据以及表格提取信息，确定模型损失；

根据模型损失，对信息提取初始模型的参数进行调整，获得训练好的信息提取模型。

在上述实现过程中，基于训练数据进行模型训练，可以获得信息提取模型。

一种实施方式中，单元格样本数据包括：单元格样本的位置信息和文本信息，以及单元格样本的关联单元格的位置信息和文本信息；

提取信息样本数据包括：提取文本样本，或者，提取文本样本以及以下信息中的至少一种：提取文本位置和文本类别。

在上述实现过程中，进行数据提取，获得训练数据。

一种实施方式中，根据各表格样本的提取信息样本数据以及表格提取信息，确定模型损失，包括：

根据信息提取初始模型还输出的提取文本位置，表格提取信息中的提取文本和文本类别，以及提取信息样本数据中的提取文本位置、提取文本样本，以及文本类别，确定模型损失。

在上述实现过程中，可以基于提取文本位置、提取文本和文本类别确定模型损失。

一方面，提供一种表格信息提取的方法，包括：

按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格；

获取待提取单元格和关联单元格分别对应的位置信息和文本信息；

采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息，信息提取模型是采用如上述任一种模型训练的各种可选实现方式中提供的方法训练获得的。

在上述实现过程中，对单元格进行筛选，采用基于神经网络和注意力机制构建的信息提取模型，基于筛选出的待提取单元格以及关联单元格进行表格信息提取，提高了表格信息提取的效率以及准确率。

一种实施方式中，采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息，包括：

基于待提取单元格和关联单元格分别对应的位置信息，生成各单元格的单元格位置向量，并采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得表格提取信息；

或者，基于待提取单元格和关联单元格分别对应的位置信息，生成各单元格的单元格位置标记，并基于各单元格位置标记，更新各单元格分别对应的文本信息，以及采用注意力机制，基于更新后的文本信息，获得表格提取信息。

在上述实现过程中，可以采用不同方式，基于单元格位置、单元格文本对应的各字符位置，提取表格信息，提高了信息提取的效率和准确率。

一种实施方式中，位置信息包括单元格的起始行、结束行、起始列以及结束列；基于待提取单元格和关联单元格分别对应的位置信息，生成各单元格的单元格位置向量，包括：

针对各单元格中的目标单元格，基于目标单元格的起始行、结束行、起始列以及结束列，分别生成起始行向量、结束行向量、起始列向量以及结束列向量；目标单元格为待提取单元格和关联单元格中的任一单元格；单元格位置向量包括起始行向量、结束行向量、起始列向量以及结束列向量；

或者，针对各单元格中的目标单元格，基于目标单元格的起始行和结束行，生成平均行向量，并基于目标单元格的起始列以及结束列，生成平均列向量；目标单元格为待提取单元格和关联单元格中的任一单元格；单元格位置向量包括平均行向量和平均列向量。

在上述实现过程中，可以采用不同方式，指示单元格位置。

一种实施方式中，文本信息包括单元格文本以及单元格文本中每一字符的字符序号；采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得表格提取信息，包括：

针对文本信息中的目标文本，基于目标文本中的字符及其对应的字符序号，生成目标文本的字符位置向量，目标文本为文本信息中各单元格文本中的任一单元格文本；

采用注意力机制，基于各单元格的单元格位置向量，以及各单元格文本的字符位置向量，获得表格提取信息。

在上述实现过程中，基于单元格和字符的位置向量的方式，提取表格信息。

一种实施方式中，文本信息包括单元格文本以及单元格文本中每一字符的字符序号；采用注意力机制，基于更新后的文本信息，获得表格提取信息，包括：

针对更新后的文本信息中的目标文本，基于目标文本中的字符及其对应的字符序号，生成目标文本的字符位置向量，目标文本为更新后的文本信息中的单元格文本中的任一单元格文本；

采用注意力机制，基于各单元格文本的字符位置向量，获得表格提取信息。

在上述实现过程中，采用单元格文本结合单元格标记的方式，进行表格信息提取。

一种实施方式中，表格提取信息中包括提取文本，或者，提取文本及其对应的文本类别。

一种实施方式中，按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格，包括：

从表格中，按照以下方式中的至少一种筛选出待提取单元格：筛选出指定位置的待提取单元格；筛选出与设定关键词匹配的待提取单元格；以及，筛选出符合正则表达式的待提取单元格；

将与待提取单元格位于同一行的单元格以及同一列的单元格，确定为关联单元格。

在上述实现过程中，可以按照预设筛选规则，进行单元格筛选。

一方面，提供一种模型训练的装置，包括：

获取单元，用于获取各表格样本的单元格样本数据以及提取信息样本数据；

获得单元，用于采用信息提取初始模型，基于各表格样本的单元格样本数据，获得各表格的表格提取信息；信息提取初始模型是基于神经网络和注意力机制构建的；

确定单元，用于根据各表格样本的提取信息样本数据以及表格提取信息，确定模型损失；

调整单元，用于根据模型损失，对信息提取初始模型的参数进行调整，获得训练好的信息提取模型。

一种实施方式中，确定单元用于：

一方面，提供一种表格信息提取的装置，包括：

筛选单元，用于按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格；

获取单元，用于获取待提取单元格和关联单元格分别对应的位置信息和文本信息；

提取单元，用于采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息，信息提取模型是采用如上述任一种模型训练的各种可选实现方式中提供的方法训练获得的。

一种实施方式中，提取单元用于：

一种实施方式中，位置信息包括单元格的起始行、结束行、起始列以及结束列；提取单元用于：

一种实施方式中，文本信息包括单元格文本以及单元格文本中每一字符的字符序号；提取单元用于：

一种实施方式中，筛选单元用于：

一方面，提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上述任一种模型训练或者表格信息提取的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述任一种模型训练或者表格信息提取的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种计算机程序产品，计算机程序产品在计算机上运行时，使得计算机执行如上述任一种表格信息提取的各种可选实现方式中提供的方法的步骤。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种模型训练的方法的流程图；

图2为本申请实施例提供的一种表格信息提取的方法的流程图；

图3为本申请实施例提供的一种单元格的示例图；

图4为本申请实施例提供的一种表格信息提取的方法的详细实施流程图；

图5为本申请实施例提供的一种合同信息提取的方法的示例图；

图6为本申请实施例提供的一种模型训练的装置的结构框图；

图7为本申请实施例提供的一种表格信息提取的装置的结构框图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些应用场景中，通常需要提取表格中的部分信息。传统技术下，通常采用以下几种方式进行表格信息提取:

方式1：采用光学字符识别(Optical Character Recognition，OCR)技术，进行表格信息提取。

但是，采用这种方式，仅能对固定格式的表格进行信息提取，适用范围较小。

方式2：采用键值对(key-value)的方式进行表格信息提取。

但是，采用这种方式，仅能对包含固定的key，且value取值方向固定的表格进行提取，难以适用于表格样式灵活，key不固定、value取值方向不固定以及value为合并单元格中的部分内容的场景。

方式3：通过模型进行表格信息提取。

但是，采用这种方式，需要将整个表格信息作为模型输入，数据处理量较大，信息提取的效率和准确率均较低。

因此，需要一种表格信息提取的技术方案，在提取表格中的部分信息时，可以适用于多种场景，如，表格样式不固定、表格内容多、表格尺寸大以及提取信息多的场景，并可以提高表格信息提取的准确率和效率。为了解决上述问题，本申请实施例提供了模型训练以及表格信息提取的方法及电子设备。

本申请实施例应用于电子设备，电子设备可以为服务器，也可以为终端设备。

本申请实施例中，在进行表格信息提取之前，先进行模型训练，以获得用于表格信息提取的信息提取模型。参阅图1所示，为本申请实施例提供的一种模型训练的方法的流程图，该方法的具体实施流程如下：

步骤100：获取各表格样本的单元格样本数据以及提取信息样本数据。

一种实施方式中，单元格样本数据包括：单元格样本的位置信息和文本信息，以及单元格样本的关联单元格的位置信息和文本信息。

位置信息包括单元格的起始行、结束行、起始列以及结束列。文本信息包括单元格文本以及单元格文本中每一字符的字符序号。

提取文本位置用于指示提取文本或提取文本样本在单元格文本中位置。

作为一个示例，提取文本位置为(起始字符序号，结束字符序号)。起始字符序号为提取文本或提取文本样本的第一个字符在单元格文本中的字符序号，结束字符序号为提取文本或提取文本样本的最后一个字符在单元格文本中的字符序号。

实际应用中，文本类别可以根据实际应用场景进行设置，在此不作限制。

一种实施方式中，针对表格中的单元格样本进行标注时，可以采用以下步骤：

S1001：根据业务需求，从表格中查找出业务需要的目标内容，作为提取文本样本。

可选的，目标内容可以为一个文本，也可以为多个文本，可以位于一个或多个单元格中。同一单元格中可以包含目标内容中的一个或多个文本。

S1002：从表格中筛选出提取文本样本所在的单元格，作为单元格样本，并标注单元格样本的位置信息。

S1003：标注提取文本样本在单元格文本中的提取文本位置。

S1004：标注提取文本样本的文本类别。

这样，就可以获得包含单元格样本的位置信息、提取文本位置以及文本类别的提取信息样本数据。

作为一个示例，在海运托书中，业务需要提取的目标内容为：“发货人”、“收货人”、“货物英文名”以及“净重”，则将“发货人”、“收货人”、“货物英文名”以及“净重”，作为提取文本样本，并筛选出“发货人”、“收货人”、“货物英文名”以及“净重”分别所在的单元格，作为单元格样本，以及，标注单元格样本的起始行、结束行、起始列以及结束列(即单元格样本的位置信息)，“发货人”、“收货人”、“货物英文名”和“净重”分别对应的起始字符序号和结束字符序号(即提取文本位置)，以及，发货人”、“收货人”、“货物英文名”和“净重”分别对应的文本类别。

这样，就可以按照业务需求，对表格中的部分内容进行标注，而不是对整个单元格进行标注，减少了模型训练耗费的人力成本和时间成本。

一种实施方式中，根据单元格样本的位置信息，从表格中，筛选出与单元格样本同行或者同列的单元格，作为单元格样本的关联单元格。

需要说明的是，若单元格样本为非合并单元格，则单元格样本的起始行和结束行为同一行，起始列和结束列为同一列。若单元格样本为合并单元格，则单元格样本对应多行和/或多列。

其中，被表格中的同一行穿过的所有单元格为同行的单元格，被表格中的同一列穿过的所有单元格为同列的单元格。

这样，就可以按照表格的行列结构，构造十字交叉训练样本，即将单元格样本同行或者同列的关联单元格的文本信息，作为单元格样本的文本信息的上下文。

步骤101：采用信息提取初始模型，基于各表格样本的单元格样本数据，获得各表格的表格提取信息。

具体的，将各表格样本的单元格样本数据输入到信息提取初始模型，获得各表格分别对应的表格提取信息。

其中，信息提取初始模型是基于神经网络和注意力机制构建的。

作为一个示例，基于转换(Transformer)模型以及序列标注模块，构建信息提取初始模型。序列标注模块用于构建文本或者单元格的位置向量。表格提取信息包括提取文本和文本类别。

这样，采用同行同列单元格的方式，构造单元格样本的上下文信息，并基于Transformer，形成十字交叉的注意力机制，将单元格文本以及单元格位置作为模型输入，从而将原本用于自然文本的Transformer网络，转变为针对表格的Transformer网络。

进一步的，信息提取初始模型还可以输出提取文本位置。

一种实施方式中，执行步骤101时，可以采用以下任一方式：

方式1：基于单元格样本和关联单元格分别对应的位置信息，生成各单元格的单元格位置向量，并采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得表格提取信息。

方式2：基于单元格样本和关联单元格分别对应的位置信息，生成各单元格的单元格位置标记，并基于各单元格位置标记，更新各单元格分别对应的文本信息，以及采用注意力机制，基于更新后的文本信息，获得表格提取信息。

其中，文本信息包括单元格文本以及单元格文本中每一字符的字符序号；更新后的文本信息中的单元格文本中包含单元格位置标记。

一种实施方式中，生成单元格位置向量时，可以采用以下任一方式：

方式一：针对各单元格中的目标单元格，基于目标单元格的起始行、结束行、起始列以及结束列，分别生成起始行向量、结束行向量、起始列向量以及结束列向量。

其中，目标单元格为单元格样本和关联单元格中的任一单元格；单元格位置向量包括起始行向量、结束行向量、起始列向量以及结束列向量。

方式二：针对各单元格中的目标单元格，基于目标单元格的起始行和结束行，生成平均行向量，并基于目标单元格的起始列以及结束列，生成平均列向量。

其中，目标单元格为单元格样本和关联单元格中的任一单元格；单元格位置向量包括平均行向量和平均列向量。

一种实施方式中，采用平均池化(average pooling)的方式，计算起始行向量至结束行向量的所有行向量的平均值，获得平均行向量。采用average pooling的方式，计算起始列向量至结束列向量的所有列向量的平均值，获得平均列向量。

一种实施方式中，采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得表格提取信息时，可以采用以下步骤：

针对文本信息中的目标文本，基于目标文本中的字符及其对应的字符序号，生成目标文本的字符位置向量，目标文本为文本信息中各单元格文本中的任一单元格文本；采用注意力机制，基于各单元格的单元格位置向量，以及各单元格文本的字符位置向量，获得表格提取信息。

本申请实施例中，采用采用位置嵌入(position embedding)的方式表示目标文本的字符位置关系，position embedding是通过一个数值向量表示一个对象，由于各个单元格文本并不像自然语言一样有线性的顺序，因此，每一单元格文本的字符位置向量(position embedding)都从0开始计算，即各单元格文本中的字符序号都是独立计算的。

一种实施方式中，基于各单元格位置标记，更新各单元格分别对应的文本信息时，可以采用以下步骤：

针对目标单元格，将目标单元格的起始行、结束行、起始列以及结束列，确定为目标单元格的四个单元格位置标记(token)，并将各单元格位置标记插入到目标单元格的单元格文本中(如，插入到单元格文本的开头位置)，获得更新后的单元格文本，即获得更新后的文本信息。

一种实施方式中，采用注意力机制，基于更新后的文本信息，获得表格提取信息，包括：

步骤102：根据各表格样本的提取信息样本数据以及表格提取信息，确定模型损失。

一种实施方式中，执行步骤102时，可以采用以下任一方式:

方式1：表格提取信息中包括提取文本，提取信息样本数据中包括提取文本样本，则根据表格样本的提取文本以及提取文本样本，确定模型损失。

方式2：表格提取信息中包括提取文本和文本类别，提取信息样本数据中包括提取文本样本和文本类别，则根据表格样本的提取文本和文本类别，以及提取文本样本和文本类别，确定模型损失。

方式3：表格提取信息中包括提取文本和提取文本位置，提取信息样本数据中包括提取文本样本和提取文本位置，则根据表格样本的提取文本和提取文本位置，以及提取文本样本和提取文本位置，确定模型损失。

方式4：表格提取信息中包括提取文本、提取文本位置和文本类别，提取信息样本数据中包括提取文本样本、提取文本位置和文本类别，则根据表格样本的提取文本、提取文本位置和文本类别，以及提取文本样本、提取文本位置和文本类别，确定模型损失。

步骤103：根据模型损失，对信息提取初始模型的参数进行调整，获得训练好的信息提取模型。

一种实施方式中，若确定模型损失高于设定损失，则循环执行步骤101-步骤103，直至确定模型损失低于设定损失，获得训练好的信息提取模型。

实际应用中，设定损失可以根据实际应用场景进行设置，在此不作限制。

参阅图2所示，为本申请实施例提供的一种表格信息提取的方法的流程图，图2结合图1获得的信息提取模型进行表格信息提取，该方法的具体实施流程如下：

步骤200：按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格。

一种实施方式中，执行步骤200时，可以采用以下步骤：

S2001：从表格中，按照以下方式中的至少一种筛选出待提取单元格：

方式1：筛选出指定位置的待提取单元格。

作为一个示例，将表格中最后一行的表格，作为待提取单元格。

方式2：筛选出与设定关键词匹配的待提取单元格。

作为一个示例，将设定关键词分别与表格中每一单元格文本进行匹配，并将匹配单元格文本对应的单元格，作为待提取单元格。

作为另一个示例，针对包含键值对的单元格，筛选出设定键(key)(如，姓名)匹配的单元格文本对应的单元格，作为待提取单元格。

需要说明的是，匹配可以是完全相同，也可以是语义或文本等相似度高于设定相似度(如，0.8)，在此不作限制。

例如：海运托书中要提取诸如“发货人”、“货物英文名”，其常见名称有“Shipper”、“SHIPPER(发货)”、“Description of Goods”、“GOOD DESC”、“DESC”等，虽然名称叫法并不固定，但我们收集这些名称后，可以这些名称作为设定关键词，并通过相似性匹配算法，从表格中找到匹配的单元格文本所在的单元格，并将筛选出的单元格(即待提取单元格)作为锚点。

这样，就可以采用相似度匹配的方式，从表格中，筛选出与键值对(key-value)中的key或者有特征的valve匹配的单元格文本所在的单元格。

方式3：筛选出符合正则表达式的待提取单元格。

实际应用中，预设筛选规则、指定位置、设定关键词、设定相似度以及正则表达式均可以根据实际应用场景进行设置，在此不作限制。

需要说明的是，根据需要提取的内容，对表格中的单元格进行筛选(即单元格召回)，目的是减少不必要的推理，提高表格信息提取的效率，若不做召回，则需要分别将每一单元格作为锚点，进行十字交叉推理。以获得每一个单元格的上下文(即关联单元格的文本信息)。

S2002：将与待提取单元格位于同一行的单元格以及同一列的单元格，确定为关联单元格。

步骤201：获取待提取单元格和关联单元格分别对应的位置信息和文本信息。

这样，就可以基于表格的行列信息，采用十字交叉的方式，获得待提取单元格同行同列的上下文单元格数据。

步骤202：采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息。

其中，信息提取模型是基于神经网络和注意力机制构建的。

一种实施方式中，将待提取单元格和关联单元格分别对应的位置信息和文本信息，输入信息提取模型，分别获得每一待提取单元格的提取文本，或者，提取文本和文本类别，若提取文本为多个，则将各提取文本进行合并。

进一步的，若针对某一业务信息(如，某一学生的年龄)的识别结果(即提取文本不同)不同，则可以按照设定业务筛选规则(如，保留被业务信息集合包含的提取文本)或者文本置信概率(保留文本置信概率的提取文本)进行文本筛选。

实际应用中，文本置信概率可以是信息提取模型输出的，设定业务筛选规则可以根据实际应用场景进行设置，在此不作限制。

一种实施方式中，执行步骤202时，可以采用以下任一方式：

方式1：基于待提取单元格和关联单元格分别对应的位置信息，生成各单元格的单元格位置向量，并采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得表格提取信息。

方式2：基于待提取单元格和关联单元格分别对应的位置信息，生成各单元格的单元格位置标记，并基于各单元格位置标记，更新各单元格分别对应的文本信息，以及采用注意力机制，基于更新后的文本信息，获得表格提取信息。

具体的，上述方式1和方式2的具体步骤，参见上述步骤101，在此不做赘述。

下面采用一个具体的应用场景，对待信息提取的表格进行示例说明。在海运行业，需要从客户提交的托书中提取各种信息，诸如货物英文名、箱型箱量、货物件数、净重、毛重、体积、危险品等级以及联合国编号等，以及将提取的信息会被录入到系统中，如，企业管理解决方案(System Applications and Products，SAP)系统。

这些托书有如下特点：托书以文档(word)、表格(excel)为主；要提取的信息主要存放在表格中；表格的形式完全不固定，几乎每个客户都有自己的表格样式，且跨行跨列很普遍；表格中一个单元格包含多个信息、需分别提取的情况比较常见(不能只提取一整个单元格，必须从一个单元格的内容中分拆出不同信息进行提取)。要提取的信息中，有些信息是没有对应key的，依靠key-value形式也走不通。

参阅图3所示，为一种单元格的示例图。一个单元格要分别提取出多个信息：货物英文名、件数、危险品等级以及联合国编号，其中，件数、危险品等级以及联合国编号都没有对应的key。

参阅图4所示，为一种表格信息提取的方法的详细实施流程图，结合图4的表格信息提取的方法对图3所示的单元格进行信息提取，以对图2中的表格信息提取的方法进行示例说明，该方法的具体流程如下：

步骤400：对目标文件进行解析，获取待信息提取的表格。

可选的，目标文件可以为word或者excel，作为一个示例，解析目标文件，获得便于后续数据处理的数据交换格式(JavaScript Object Notatio，JSON)格式的表格数据。

步骤401：按照预设筛选规则，从表格中筛选出待提取单元格。

具体的，可以针对不同的情况，采用不同的方式筛选待提取单元格。

情况1：对于货品英文名称，通常会有对应的key，如“Description of Good”以及“DESC”，则可以根据key进行相似度匹配，获得待提取单元格。

例如：针对货品英文名称，将收集的常见名称[“Description of Good”，“DESC”]，作为设定关键词，并将表格中的各单元格文本分别与[“Description of Good”，“DESC”]进行匹配，由于图3所示的单元格中包含“Packages/Description of Goods”，因此，确定图3所示的单元格为[“Description of Good”，“DESC”]匹配的待提取单元格。

情况2：对于危险品等级以及联合国编号，通常是没有key的，但其值分别为X[.Y]以及XXXX之类的数字，因此，可以通过规则匹配(即正则表达式)的方式，筛选待提取单元格。

例如：设置正则表达式，以查找单元格文本中含有4位数字、1位数字、两位数字且中间含有“.”的单元格，作为待提取单元格。

这样，就可以通过待提取单元格，提取表格中真正的危险品等级以及联合国编号。

情况3：对于件数，由于可能有key，也可能没有key，因此，可以先用key查找待提取单元格，若没有找到，考虑到其值往往含有drum/carton/CTN之类的单位，因此，可以基于drum/carton/CTN构建正则表达式，并通过正则表达式，查找待提取单元格。

例如：件数的常见名称为[“件数”，“数量或尺码”，“No.of Containers orPackage(箱数或件数)”，“P’KGS(箱数)”]。因此，我们将常用名称，作为设定关键词，并采用关键词匹配的方式，查找待提取单元格，若没有找到，则可以利用正则表达式，在表格中查找含有[“DRUM”，“CARTON”，“CTN”]之类的待提取单元格。

步骤402：获取待提取单元格及其对应的关联单元格的位置信息和文本信息。

步骤403：采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得各提取文本及其对应的文本类别。

步骤404：将各提取文本及其对应的文本类别进行合并，获得表格提取信息。

具体的，步骤400-步骤404的具体步骤，可以参见上述步骤200-步骤202，在此不做赘述。

下面采用另一个应用场景，对上述实施例进行举例说明。

银行在对公信贷业务中，有一类业务是根据申请贷款客户的业务合同(买卖购销合同)进行授信以及贷款。因此，银行需要从买卖购销合同中提取必要的信息录入其系统中，通常包含购销的甲乙双方名称、货物名称、数量以及金额等。这些信息在买卖购销合同中，有的存在与买卖购销合同内的普通文本中，有的存在于买卖购销合同内的表格中(如，货物名称、数量以及金额等)。由于是买卖双方的合同，银行对此类合同的格式并无约束力，因此，合同样式通常多种多样，合同内表格的样式也多种多样，且表格内通常存在跨行跨列的单元格。则可以提取合同内普通文本中的目标内容，并采用图2的表格信息提取方法，提取合同内表格中的目标内容。

参阅图5所示，为一种合同信息提取的方法的示例图。

步骤500：对目标文件进行解析，获得目标文件中的文本内容以及表格，并分别执行步骤501和步骤503。

步骤501：将文本内容进行切分，获得多个文本信息。

步骤502：采用关键词匹配的方式，分别对每一文本信息进行提取，获得文本提取信息，执行步骤506。

步骤503：按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格。

步骤504：获取待提取单元格和关联单元格分别对应的位置信息和文本信息。

步骤505：采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息。

步骤506：将文本提取信息和表格提取信息进行合并，获得合同提取结果。

本申请实施例中，从表格中筛选待提取单元格，并采用信息提取模型，基于待提取单元格及其对应的关联单元格的位置信息和文本信息，进行表格信息提取，不需要采用信息提取模型对整个表格进行数据处理，这样，即使是一张较大的表格(如，占满一整张A4纸)，模型输入数据的大小(如，待提取单元格及其对应的关联单元格的尺寸)通常也不会超过信息提取模型的最大输入量(如，最大输入尺寸＝512)，从而使得大表格也可以得到较好的信息提取，提高了表格信息提取的适用范围。

再者，利用构造锚点的同行同列的上下文的方式，在信息提取模型中实现十字交叉的注意力机制，从而减少了不相干的单元格的输入，提升了注意力机制的效率，降低了模型训练的难度，提高了表格信息提取的准确性。以及，采用序列标注的方式，定位各字符分别在单元格中的字符位置，以在表格信息提取的时候，仅提取单元格中的部分内容，而不是提取单元格的整个文本内容，进一步提高了表格信息提取的效率和准确率。再者，可以适用于包含跨行跨列的合并单元格的表格，且可以适用于多种样式的表格，适用范围广。

基于同一发明构思，本申请实施例中还提供了一种模型训练的装置，由于上述装置及设备解决问题的原理与一种模型训练的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，其为本申请实施例提供的一种模型训练的装置的结构示意图，包括：

获取单元601，用于获取各表格样本的单元格样本数据以及提取信息样本数据；

获得单元602，用于采用信息提取初始模型，基于各表格样本的单元格样本数据，获得各表格的表格提取信息；信息提取初始模型是基于神经网络和注意力机制构建的；

确定单元603，用于根据各表格样本的提取信息样本数据以及表格提取信息，确定模型损失；

调整单元604，用于根据模型损失，对信息提取初始模型的参数进行调整，获得训练好的信息提取模型。

一种实施方式中，确定单元用于603：

基于同一发明构思，本申请实施例中还提供了一种表格信息提取的装置，由于上述装置及设备解决问题的原理与一种表格信息提取的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图7所示，其为本申请实施例提供的一种表格信息提取的装置的结构示意图，包括：

筛选单元701，用于按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格；

获取单元702，用于获取待提取单元格和关联单元格分别对应的位置信息和文本信息；

提取单元703，用于采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息，信息提取模型是采用上述实施例中提供的方法训练获得的。

一种实施方式中，提取单元703用于：

一种实施方式中，位置信息包括单元格的起始行、结束行、起始列以及结束列；提取单元703用于：

一种实施方式中，文本信息包括单元格文本以及单元格文本中每一字符的字符序号；提取单元703用于：

一种实施方式中，筛选单元701用于：

本申请实施例提供的模型训练以及表格信息提取的方法及电子设备中，按照预设筛选规则，从表格中筛选出待提取单元格，以及待提取单元格的关联单元格；获取待提取单元格和关联单元格分别对应的位置信息和文本信息；采用预先训练好的信息提取模型，基于位置信息和文本信息，进行表格信息提取，获得表格提取信息，信息提取模型是基于神经网络和注意力机制构建的。这样，采用基于神经网络和注意力机制构建的信息提取模型，基于筛选出的待提取单元格以及关联单元格进行表格信息提取，提高了表格信息提取的效率以及准确率。

图8示出了一种电子设备8000的结构示意图。参阅图8所示，电子设备8000包括：处理器8010以及存储器8020，可选的，还可以包括电源8030、显示单元8040、输入单元8050。

处理器8010是电子设备8000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器8020内的软件程序和/或数据，执行电子设备8000的各种功能，从而对电子设备8000进行整体监控。

本申请实施例中，处理器8010调用存储器8020中存储的计算机程序时执行上述实施例中的各个步骤。

可选的，处理器8010可包括一个或多个处理单元；优选的，处理器8010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器8010中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器8020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据电子设备8000的使用所创建的数据等。此外，存储器8020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

电子设备8000还包括给各个部件供电的电源8030(比如电池)，电源可以通过电源管理系统与处理器8010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元8040可用于显示由用户输入的信息或提供给用户的信息以及电子设备8000的各种菜单等，本发明实施例中主要用于显示电子设备8000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元8040可以包括显示面板8041。显示面板8041可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

输入单元8050可用于接收用户输入的数字或字符等信息。输入单元8050可包括触控面板8051以及其他输入设备8052。其中，触控面板8051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板8051上或在触控面板8051附近的操作)。

具体的，触控面板8051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器8010，并接收处理器8010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板8051。其他输入设备8052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板8051可覆盖显示面板8041，当触控面板8051检测到在其上或附近的触摸操作后，传送给处理器8010以确定触摸事件的类型，随后处理器8010根据触摸事件的类型在显示面板8041上提供相应的视觉输出。虽然在图8中，触控面板8051与显示面板8041是作为两个独立的部件来实现电子设备8000的输入和输出功能，但是在某些实施例中，可以将触控面板8051与显示面板8041集成而实现电子设备8000的输入和输出功能。

电子设备8000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述电子设备8000还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图8中没有示出，且不再详述。

本领域技术人员可以理解，图8仅仅是电子设备的举例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例中，一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得通信设备可以执行上述实施例中的各个步骤。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取各表格样本的单元格样本数据以及提取信息样本数据；

采用信息提取初始模型，基于各表格样本的单元格样本数据，获得各表格的表格提取信息；所述信息提取初始模型是基于神经网络和注意力机制构建的；

根据所述模型损失，对所述信息提取初始模型的参数进行调整，获得训练好的信息提取模型。

2.如权利要求1所述的方法，其特征在于，所述单元格样本数据包括：单元格样本的位置信息和文本信息，以及所述单元格样本的关联单元格的位置信息和文本信息；

所述提取信息样本数据包括：提取文本样本，或者，提取文本样本以及以下信息中的至少一种：提取文本位置和文本类别。

3.如权利要求2所述的方法，其特征在于，所述根据各表格样本的提取信息样本数据以及表格提取信息，确定模型损失，包括：

根据所述信息提取初始模型还输出的提取文本位置，所述表格提取信息中的提取文本和文本类别，以及所述提取信息样本数据中的提取文本位置、提取文本样本，以及文本类别，确定模型损失。

4.一种表格信息提取的方法，其特征在于，包括：

按照预设筛选规则，从表格中筛选出待提取单元格，以及所述待提取单元格的关联单元格；

获取所述待提取单元格和所述关联单元格分别对应的位置信息和文本信息；

采用预先训练好的信息提取模型，基于所述位置信息和所述文本信息，进行表格信息提取，获得表格提取信息，所述信息提取模型是采用如权利要求1-3任一项所述的模型训练的方法训练获得的。

5.如权利要求4所述的方法，其特征在于，所述采用预先训练好的信息提取模型，基于所述位置信息和所述文本信息，进行表格信息提取，获得表格提取信息，包括：

基于所述待提取单元格和所述关联单元格分别对应的位置信息，生成各单元格的单元格位置向量，并采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得所述表格提取信息；

或者，基于所述待提取单元格和所述关联单元格分别对应的位置信息，生成各单元格的单元格位置标记，并基于各单元格位置标记，更新各单元格分别对应的文本信息，以及采用注意力机制，基于更新后的文本信息，获得所述表格提取信息。

6.如权利要求5所述的方法，其特征在于，所述位置信息包括单元格的起始行、结束行、起始列以及结束列；所述基于所述待提取单元格和所述关联单元格分别对应的位置信息，生成各单元格的单元格位置向量，包括：

针对各单元格中的目标单元格，基于所述目标单元格的起始行、结束行、起始列以及结束列，分别生成起始行向量、结束行向量、起始列向量以及结束列向量；所述目标单元格为所述待提取单元格和所述关联单元格中的任一单元格；所述单元格位置向量包括所述起始行向量、所述结束行向量、所述起始列向量以及所述结束列向量；

或者，针对各单元格中的目标单元格，基于所述目标单元格的起始行和结束行，生成平均行向量，并基于所述目标单元格的起始列以及结束列，生成平均列向量；所述目标单元格为所述待提取单元格和所述关联单元格中的任一单元格；所述单元格位置向量包括所述平均行向量和所述平均列向量。

7.如权利要求5所述的方法，其特征在于，所述文本信息包括单元格文本以及所述单元格文本中每一字符的字符序号；所述采用注意力机制，基于各单元格的单元格位置向量和文本信息，获得所述表格提取信息，包括：

针对所述文本信息中的目标文本，基于所述目标文本中的字符及其对应的字符序号，生成所述目标文本的字符位置向量，所述目标文本为所述文本信息中各单元格文本中的任一单元格文本；

采用注意力机制，基于各单元格的单元格位置向量，以及各单元格文本的字符位置向量，获得所述表格提取信息。

8.如权利要求5所述的方法，其特征在于，所述文本信息包括单元格文本以及所述单元格文本中每一字符的字符序号；所述采用注意力机制，基于更新后的文本信息，获得所述表格提取信息，包括：

针对所述更新后的文本信息中的目标文本，基于所述目标文本中的字符及其对应的字符序号，生成所述目标文本的字符位置向量，所述目标文本为所述更新后的文本信息中的单元格文本中的任一单元格文本；

采用注意力机制，基于各单元格文本的字符位置向量，获得所述表格提取信息。

9.如权利要求4-8任一项所述的方法，其特征在于，所述表格提取信息中包括提取文本，或者，提取文本及其对应的文本类别。

10.如权利要求4-8任一项所述的方法，其特征在于，所述按照预设筛选规则，从表格中筛选出待提取单元格，以及所述待提取单元格的关联单元格，包括：

从所述表格中，按照以下方式中的至少一种筛选出所述待提取单元格：筛选出指定位置的待提取单元格；筛选出与设定关键词匹配的待提取单元格；以及，筛选出符合正则表达式的待提取单元格；

将与所述待提取单元格位于同一行的单元格以及同一列的单元格，确定为所述关联单元格。

11.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-3或者4-10任一所述方法。