CN116110056B

CN116110056B - 信息抽取方法及装置、电子设备和存储介质

Info

Publication number: CN116110056B
Application number: CN202211710611.6A
Authority: CN
Inventors: 李煜林; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-09-26
Anticipated expiration: 2042-12-29
Also published as: CN116110056A

Abstract

本公开公开了一种信息抽取方法及装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及图像处理领域。具体实现方案为：获取文档图像对应的视觉文本特征；采用单元压缩Transformers网络对所述视觉文本特征进行编码，得到处理后的特征，以使任一层Transformer的输入特征长度与输出特征长度相同；根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果。采用上述方案的本公开可以降低模型计算量的同时提高信息抽取的准确性。

Description

信息抽取方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及图像处理领域，具体涉及一种信息抽取方法及装置、电子设备和存储介质。

背景技术

随着科学技术的发展，人们生活水平的不断提高，文档作为一种重要的信息载体，被广泛用于各种商业和办公场景。例如可以对文档进行识别，得到文档的文字内容。然后基于结构化信息提取技术将文档的文本信息转化为结构化信息。最后由用户基于专业知识和需要从中提取出关键信息。例如，可以采用Transformers网络或者External attention对文档进行识别，得到结构化信息。但是Transformers网络需要对文档图像和文档单元中的每一个进行特征编码，使得资源消耗巨大，External attention可以通过调整模型参数量来降低计算量，但是信息抽取的准确性较差。

发明内容

本公开提供了一种信息抽取方法及装置、电子设备和存储介质，主要目的在于降低模型计算量的同时提高信息抽取的准确性。

根据本公开的一方面，提供了一种信息抽取方法，包括：

获取文档图像对应的视觉文本特征；

采用单元压缩Transformers网络对所述视觉文本特征进行编码，得到处理后的特征，以使任一层Transformer的输入特征长度与输出特征长度相同；

根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果。

根据本公开的另一方面，提供了一种信息抽取装置，包括：

特征获取单元，用于获取文档图像对应的视觉文本特征；

特征编码单元，用于采用单元压缩Transformers网络对所述视觉文本特征进行编码，得到处理后的特征，以使任一层Transformer的输入特征长度与输出特征长度相同；

信息抽取单元，用于根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。

在本公开一个或多个实施例中，通过获取文档图像对应的视觉文本特征；采用单元压缩Transformers网络对所述视觉文本特征进行特征长度压缩处理和特征长度复原处理，得到处理后的特征；根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果。因此，可以通过单元压缩Transformers网络对视觉文本特征的特征长度进行调整，减少每个Transformer层中的计算量，无需对Transformers网络中的文档图像和文档单元中的每一个单元进行特征编码处理，可以降低计算量，且可以减少通过调整模型参数量来降低计算量的同时使得信息抽取的准确性较差的情况，进而可以降低模型计算量的同时提高信息抽取的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的信息抽取方法的流程示意图；

图2是根据本公开第二实施例的信息抽取方法的流程示意图；

图3是根据本公开一个实施例的信息抽取方法的举例示意图；

图4是根据本公开第三实施例的信息抽取方法的流程示意图；

图5是用来实现本公开实施例的信息抽取方法的一种信息抽取装置的结构示意图；

图6是用来实现本公开实施例的信息抽取方法的自动驾驶车辆的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在信息技术飞速发展的今天，文档是一种重要的信息载体，被广泛用于各种商业和办公场景。实际业务中对纸质文档进行信息录入一个最普遍且费时流程之一。例如在差旅报销场景中，需要对增值税发票、出租车票、通行费、火车票、行程单等票据进行分类。例如针对保险理赔场景，首先，需要保险单、检查报告等文档进行扫描上传。相关的自动化办公系统一般通过OCR(光学字符识别)技术，首先识别出文档的文字内容，对文档信息进行电子化。然后基于结构化信息提取技术将文档的文本信息转化为结构化信息。最后由用户基于专业知识和需要从中提取出关键信息。相关的结构化信息提取技术基于深度学习，例如可以采用Transformers网络结构进行。

根据一些实施例，相关的文档图像信息抽取技术，可以将文档图像和文档文本拆分成一个个单元(图像块以及文本字符)并映射成特征向量，并串联序列特征。然后通过一个Transformers网络进行特征编码。Transformers有多层Transformer-layer堆叠组合而成。为了保持文档的原始信息结构，每层Transformer-layer的输入输出特征的大小和维度保持不变。序列特征经过层层编码后输出。由于文档图像进过拆分后的数量巨大，Transformers在中间编码时候不改变特征的大小，导致整个模型计算量巨大，难以支持密集文本文档的处理。因此这类基于字符粒度进行编码和学习的方案，开销巨大。一般需要对文档长度有限制要求(一般限制在1000个文字以下)。无法处理存在数千字符长对文档如合同或者报表。

在一些实施例之中，External attention用于缩减Transformer-layer的计算量。External attention通过外挂参数以及矩阵分解将Transformer-layer中，计算量与token数量成固定正比self-attention模块改进为可控制计算规模，从而降低Transformers使用成本。然而External attention是通过调整模型参数量来调整计算量，计算量小模型也小，相对效果也会随之下降，因此，使得降低计算量的同时信息抽取的准确性较差。

下面结合具体的实施例对本公开进行详细说明。

在第一个实施例中，如图1所示，图1是根据本公开第一实施例的信息抽取方法的流程示意图，该方法可依赖于计算机程序实现，可运行于进行信息抽取的装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

其中，信息抽取装置可以是具有文档图像处理的终端，该终端包括但不限于：可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personaldigital assistant，PDA)、第五代移动通信技术(5th Generation Mobile CommunicationTechnology，5G)网络、第四代移动通信技术(the 4th generation mobile communicationtechnology，4G)网络、第三代移动通信技术(3rd-Generation，3G)网络或未来演进网络中的终端等。

具体的，该信息抽取方法包括：

S101，获取文档图像对应的视觉文本特征；

根据一些实施例，文档图像是指针对文档采集的图像。该文档图像并不特指某一固定图像。例如，当文本图像对应的文档内容发生变化时，该文档图像也可以相应变化。例如，当文本图像对用的采集时间点发生变化时，该文档图像也可以相应变化。

在一些实施例之中，该文档图像可以是密集文本对应的文档图像。该文档图像的获取方式并不作限定。例如，电子设备可以控制摄像头采集该文档图像，电子设备还可以从服务器获取该文档图像，。

易于理解的是，视觉文本特征是指与文档图像对应的特征。该视觉文本特征例如可以包括视觉特征和文本特征。该视觉特征例如可以是根据文档图像的像素确定的。该文本特征例如可以是根据文档图像对应的文本中国的每个字确定的。该视觉文本特征并不特指某一固定特征。例如，当文本图像发生变化时，该视觉文本特征也可以相应变化。

可选的，电子设备执行信息抽取方法时，电子设备可以获取文档图像对应的视觉文本特征。

S102，采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征；

根据一些实施例，单元压缩Transformers网络是指可以对Transformers中任一层的单元进行压缩和复原的Transformers。单元压缩Transformers网络对应的压缩比例不同时，单元压缩Transformers网络也可以相应变化。单元压缩Transformers网络对应的层数发生变化时，该单元压缩Transformers网络也可以相应变化。

根据一些实施例，当电子设备获取到文档图像对应的视觉文本特征时，可以采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征，以使任一层Transformer的输入特征长度与输出特征长度相同。即每个Transformer层输出的特征长度均相同。

S103，根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果。

根据一些实施例，结构信息是指视觉文本特征的结构信息。该结构信息例如可以是维度信息。该结构信息并不特指某一固定信息。例如，当文档图像发生变化时，该文档图像对应的维度信息也可以相应变化，该视觉文本特征对应的结构信息也可以相应变化。

易于理解的是，信息抽取是指用于获取文档图像中所需信息的抽取操作，该所需信息例如可以根据任务环境确定。该信息抽取并不特指某一固定抽取方式。例如，信息抽取可以用于抽取文档图像中的人物名称，该信息抽取也可以用于抽取文档图像中的文档结构。

在一些实施例之中，信息抽取结果是指对处理后的特征进行信息抽取之后，得到与文档图像的信息抽取结果。该信息抽取结果并不特指某一固定结果。例如，抽取信息发生变化时，该信息抽取结果也可以相应变化。例如，当文档图像发生变化时，该信息抽取结果也可以相应变化。

根据一些实施例，当电子设备获取到文档图像对应的视觉文本特征时，可以采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征。电子设备可以根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果。

请参见图2，图2是根据本公开第二实施例的信息抽取方法的流程示意图。具体的，

S201，采用光学字符识别技术获取文档图像对应的文本信息；

根据一些实施例，光学字符识别(Optical Character Recognition，OCR)是指光学字符识别，具体是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

在一些实施例中，文本信息是指一种数据媒体和其上所记录的数据。它具有永久性并可以由人或机器阅读。本公开实施例的文本信息是指对文档图像进行识别得到的文本信息。该文本信息并不特指某一固定信息。例如，当文档图像对应的文档内容发送变化时，该文本信息也可以相应变化。

根据一些实施例，当电子设备获取到文档图像时，电子设备可以采用光学字符识别技术获取文档图像对应的文本信息。

S202，采用卷积神经网络对文档图像进行编码处理，得到视觉编码特征；

根据一些实施例，当电子设备获取到文档图像时，电子设备可以采用卷积神经网络对文档图像进行编码处理，得到视觉编码特征。其中，视觉编码特征是指根据文档图像的像素对文档图像进行处理，得到的特征。该视觉编码特征对应的维度与文档图像的像素对应。也就是说，文档图像对应的像素发生变化时，该视觉编码特征对应的维度也可以相应变化。

可选的，电子设备获取视觉编码特征时，可以对视觉编码特征的维度进行修改，得到维度修改后的视觉编码特征。

在一些实施例之中，电子设备例如可以获取到一张宽为w像素，高为h像素的文档图像I∈R^h×w×3，电子设备例如可以通过一层卷积神经网络(Convolutional NeuralNetworks，CNN)对文档进行处理。卷积神经网络的参数核(kernel)大小K∈R^r×r×3×d，输出的视觉特征维度为电子设备例如还可以将视觉编码的前两维进行拉直，得到

S203，采用BERT模型对文本信息对应的特征向量进行编码处理，得到文本编码特征；

根据一些实施例，当电子设备获取到文本信息时，电子设备可以采用BERT模型对文本信息对应的特征向量进行编码处理，得到文本编码特征。该文本编码特征对应的维度和文本信息对应的向量对应。

易于理解的是，电子设备可以采用OCR提取出文档图像中的所有n行文本。电子设备例如可以先使用word2vector将文档中每个字编码成d维的向量。然后，使用BERT模型对文本行的特征向量序列进行编码以获取文本编码T∈R^n×d。

T＝{BERT(t_i),i∈[1,n]}

S204，将视觉编码特征和文本编码特征进行拼接，得到视觉文本特征；

根据一些实施例，电子设备获取到视觉编码特征和文本编码特征时，可以将视觉编码特征和文本编码特征进行拼接，得到视觉文本特征。电子设备将视觉编码特征和文本编码特征进行拼接例如可以是将将视觉编码特征和文本编码特征进行串联，得到视觉文本特征。

易于理解的是，电子设备可以将视觉编码特征和文本编码特征进行串联，得到视觉文本特征F＝concat(V,T)，其中，

S205，采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征；

具体过程如上所述，此处不再赘述。

根据一些实施例，其中，采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征时可以在单元压缩Transformers网络中第一Transformer层的编码阶段，对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征，其中，第一Transformer层为单元压缩Transformers网络中任一层，第二Transformer层为第一Transformer层的上一层；在第一Transformer层的解码阶段，对第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到第一特征长度的复原后的视觉文本特征；将第一特征长度的视觉文本特征与第一特征长度的复原后的视觉文本特征相加，得到处理后的特征；将处理后的特征传输至第三Transformer层，其中，第三Transformer层为第一Transformer层的下一层。因此，可以在编码阶段对视觉文本特征进行压缩，可以减少模型的计算量，提高模型处理效率，提高信息抽取效率。

根据一些实施例，第一Transformer层为单元压缩Transformers网络中任一层，第二Transformer层为第一Transformer层的上一层。即第一Transformer层并不特指某一固定层。第一Transformer层中的第一仅用于第二Transformer层进行区分。

在一些实施例中，第二特征长度小于第一特征长度。第二特征长度例如可以根据压缩比例确定。

根据一些实施例，电子设备可以通过将特征F在深度网络中进行编码，将视觉信息与文本信息进行深层的交互和融合。电子设备例如可以基于U型结构的Transformers对视觉文本特征F进行编码。电子设备例如可以构建具有L个阶段的Transformers网络。每个阶段内有K层Transformer-layer，阶段中的特征大小不产生变化，阶段过渡会改变特征的大小。

根据一些实施例，视觉文本特征包括视觉编码特征和文本编码特征，对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征时，可以分别对第二Transformer层输出的视觉编码特征和文本编码特征特征长度压缩处理，得到压缩后的视觉编码特征和压缩后的文本编码特征，其中，视觉编码特征和文本编码特征的第一总特征长度为第一特征长度；将压缩后的视觉编码特征和压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征。因此，可以减少视觉编码特征和文本编码特征混合使得信息抽取结果不准确的情况，可以提高信息抽取的准确性。

根据一些实施例，第一总特征长度用于指示视觉编码特征和文本编码特征的总长度。在未对视觉编码特征和文本编码特征进行处理之前，该第一总特征长度为第一特征长度。

在一些实施例之中，当电子设备分别对第二Transformer层输出的视觉编码特征和文本编码特征特征长度压缩处理，得到压缩后的视觉编码特征和压缩后的文本编码特征时，例如可以是电子设备对第二Transformer层输出的视觉编码特征特征长度压缩处理，得到压缩后的视觉编码特征，对第二Transformer层输出的文本编码特征特征长度压缩处理，得到压缩后的文本编码特征。

根据一些实施例，将压缩后的视觉编码特征和压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征时，可以在压缩后的视觉编码特征和压缩后的文本编码特征的第二特征总长度不满足压缩比例的情况下，分别对压缩后的视觉编码特征和压缩后的文本编码特征进行特征单元补充，得到第二特征长度的压缩后的视觉文本特征。因此，可以减少特征长度不满足要求时，使得特征压缩出现误差的情况，提高特征复原的准确性，提高信息抽取的准确性。

在一些实施例之中，压缩比例可以是基于预先设置的，还可以是基于用户的比例设置指令设置的。该压缩比例并不特指某一固定比例。例如该压缩比例可以是1/2，还可以是1/3。

根据一些实施例，对第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到第一特征长度的复原后的视觉文本特征时，可以对第二特征长度的压缩后的视觉文本特征中的非补充特征单元进行复制，得到第二特征长度的复原后的视觉文本特征；在第三特征长度与第一特征长度不一致的情况下，对第三特征长度的编码后特征中的最后一个特征单元进行重复复制，直至得到第一特征长度的解码后特征。因此，可以使得同一Transformer层输入输出的特征长度一致，减少信息抽取结果不准确的情况，提高信息抽取的准确性。

在一些实施例之中，图3是根据本公开一个实施例的信息抽取方法的举例示意图。如图3所示，展示了一个L＝3，K＝1的单元压缩Transformers网络网络示意图。在任一层的编码阶段，通过一个参数核大小为3，步长为2的线性变换将上一阶段的特征长度压缩成1/2。其中，视觉特征和文本特征单元不做重叠。如果特征长度不满足压缩比例，则在前后添加0向量做为补充(padding)单元。其中，补充单元例如可以是P向量。其中，V为视觉编码特征；T为文本编码特征。

在该任一层的解码阶段，可以将上一阶段的特征序列中的非补充单元复制为原来2倍，如果复制后的特征长度不满足对应编码阶段的长度，则最后一个单元都复制多次直到与编码阶段的特征长度相同。进过单元压缩网络处理后的特征记作同时，将编码阶段的特征直接与复制后的解码特征相加，保证单元特征语义的完整性。

S206，根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果。

具体过程如上所述，此处不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开一个或多个实施例中，采用光学字符识别技术获取文档图像对应的文本信息，采用卷积神经网络对文档图像进行编码处理，得到视觉编码特征，采用BERT模型对文本信息对应的特征向量进行编码处理，得到文本编码特征，将视觉编码特征和文本编码特征进行拼接，得到视觉文本特征，可以提高视觉编码特征和文本编码特征获取的准确性，可以提高视觉文本特征获取的准确性，提高信息抽取结果获取的准确性。其次，采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征，根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果，可以通过单元压缩Transformers网络对视觉文本特征的特征长度进行调整，减少每个Transformer层中的计算量，无需对Transformers网络中的文档图像和文档单元中的每一个单元进行特征编码处理，可以降低计算量，且可以减少通过调整模型参数量来降低计算量的同时使得信息抽取的准确性较差的情况，进而可以降低模型计算量的同时提高信息抽取的准确性。

请参见图4，图4是根据本公开第三实施例的信息抽取方法的流程示意图。具体的，

S401，获取文档图像对应的视觉文本特征；

具体过程如上所述，此处不再赘述。

S402，采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征；

具体过程如上所述，此处不再赘述。

S403，根据视觉文本特征对应的结构信息，获取处理后的特征对应的至少一个文本单元特征；

根据一些实施例，至少一个文本单元特征是指对处理后的特征进行拆分，得到的文本单元特征。该至少一个文本单元特征并不特指某一固定特征。例如，当至少一个文本单元特征对应的特征数量发生变化时，该至少一个文本单元特征也可以相应变化。

易于理解的是，当处理后的特征发生变化时，该至少一个文本单元特征也可以相应变化。

可选的，根据视觉文本特征F的结构信息，可以从M拆分出至少一个文本单元特征T^′＝∈R^n×d。

S404，根据任务环境对应的实体标记类型信息集合，获取至少一个文本单元特征对应的标记信息；

根据一些实施例，电子设备可以采用命名实体技术对文档图像进行信息抽取。例如，可以基于T^′对文档图像中每个文本单元特征预测出一个实体标记。

在一些实施例中，电子设备根据任务环境对应的实体标记类型信息集合，获取至少一个文本单元特征对应的标记信息。电子设备可以获取到任务环境对应的实体标记类型信息集合。其中，不同的任务环境对应不同的实体标记类型信息集合。该实体标记类型信息集合是指由至少一个实体标记类型信息汇聚而成的集体。该实体标记类型信息集合并不特指某一固定集合。例如，当实体标记类型信息集合包括的信息数量发生变化时，该时标记类型信息集合也可以相应变化。

S405，对至少一个文本单元特征对应的标记信息进行切分转化，获取文档图像对应的信息抽取结果。

根据一些实施例，电子设备获取到至少一个文本单元特征对应的标记信息时，可以对至少一个文本单元特征对应的标记信息进行切分转化，获取文档图像对应的信息抽取结果。

在一些实施例之中，例如人名标记为PER、公司名标记为COM，地名标记为LOC、日期标记为DATE，金额标记为MON等。对于文本中的每个实体采用BIO格式标记，其中B表示实体文本的起始字符，I表示实体文本的非起始字符，O表示为其他非关键信息字符。举例“A公司在B地成立”标记为：

我

查

到

A

公

司

在

B

地

成

立

B-PER

O

B-COM

I-COM

O

B-LOC

I-LOC

O

其中“我”为人名，“A公司”为公司，“B地”为地名。具体预测方式例如可以是将特征T′经过一层全连接网络，对每个字符进行BIO分类。即可得出文本各个字符对应的BIO标记。电子设备可以将BIO标记的结果进行切分转换，即可得到文档中的实体关系信息。

在本公开一个或多个实施例中，获取文档图像对应的视觉文本特征，采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征，根据视觉文本特征对应的结构信息，获取处理后的特征对应的至少一个文本单元特征，根据任务环境对应的实体标记类型信息集合，获取至少一个文本单元特征对应的标记信息，对至少一个文本单元特征对应的标记信息进行切分转化，获取文档图像对应的信息抽取结果，可以通过单元压缩Transformers网络对视觉文本特征的特征长度进行调整，减少每个Transformer层中的计算量，无需对Transformers网络中的文档图像和文档单元中的每一个单元进行特征编码处理，可以降低计算量，且可以减少通过调整模型参数量来降低计算量的同时使得信息抽取的准确性较差的情况，进而可以降低模型计算量的同时提高信息抽取的准确性。其次，可以通过任务环境对应的实体标记类型信息集合，获取文档图像对应的信息抽取结果，减少信息抽取结果与文本图像不匹配的情况，可以提高信息抽取结果获取的准确性。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

请参见图5，其示出了用来实现本公开实施例的信息抽取方法的一种信息抽取装置的结构示意图。该信息抽取装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该信息抽取装置500包括特征获取单元501、特征编码单元502和信息抽取单元503，其中：

特征获取单元501，用于获取文档图像对应的视觉文本特征；

特征编码单元502，用于采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征，以使任一层Transformer的输入特征长度与输出特征长度相同；

信息抽取单元503，用于根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果。

根据一些实施例，其中，特征获取单元501，用于获取文档图像对应的视觉文本特征时，具体用于：

采用光学字符识别技术获取文档图像对应的文本信息；

采用卷积神经网络对文档图像进行编码处理，得到视觉编码特征；

采用BERT模型对文本信息对应的特征向量进行编码处理，得到文本编码特征；

将视觉编码特征和文本编码特征进行拼接，得到视觉文本特征。

根据一些实施例，其中，特征编码单元502，用于采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征时，具体用于：

在单元压缩Transformers网络中第一Transformer层的编码阶段，对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征，其中，第一Transformer层为单元压缩Transformers网络中任一层，第二Transformer层为第一Transformer层的上一层；

在第一Transformer层的解码阶段，对第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到第一特征长度的复原后的视觉文本特征；

将第一特征长度的视觉文本特征与第一特征长度的复原后的视觉文本特征相加，得到处理后的特征；

将处理后的特征传输至第三Transformer层，其中，第三Transformer层为第一Transformer层的下一层。

根据一些实施例，其中，视觉文本特征包括视觉编码特征和文本编码特征，特征编码单元502，用于对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征时，具体用于：

分别对第二Transformer层输出的视觉编码特征和文本编码特征特征长度压缩处理，得到压缩后的视觉编码特征和压缩后的文本编码特征，其中，视觉编码特征和文本编码特征的第一总特征长度为第一特征长度；

将压缩后的视觉编码特征和压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征。

根据一些实施例，其中，特征编码单元502，用于将压缩后的视觉编码特征和压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征时，具体用于：

在压缩后的视觉编码特征和压缩后的文本编码特征的第二特征总长度不满足压缩比例的情况下，分别对压缩后的视觉编码特征和压缩后的文本编码特征进行特征单元补充，得到第二特征长度的压缩后的视觉文本特征。

根据一些实施例，其中，特征编码单元502，用于对第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到第一特征长度的复原后的视觉文本特征时，具体用于：

对第二特征长度的压缩后的视觉文本特征中的非补充特征单元进行复制，得到第二特征长度的复原后的视觉文本特征；

在第三特征长度与第一特征长度不一致的情况下，对第三特征长度的编码后特征中的最后一个特征单元进行重复复制，直至得到第一特征长度的解码后特征。

根据一些实施例，其中，信息抽取单元503，用于根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果时，具体用于：

根据视觉文本特征对应的结构信息，获取处理后的特征对应的至少一个文本单元特征；

根据任务环境对应的实体标记类型信息集合，获取至少一个文本单元特征对应的标记信息；

对至少一个文本单元特征对应的标记信息进行切分转化，获取文档图像对应的信息抽取结果。

要说明的是，上述实施例提供的信息抽取装置在执行信息抽取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的信息抽取装置与信息抽取方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

综上，本公开实施例提供的装置，通过特征获取单元获取文档图像对应的视觉文本特征；特征编码单元采用单元压缩Transformers网络对视觉文本特征进行编码，得到处理后的特征；信息抽取单元根据视觉文本特征对应的结构信息，对处理后的特征进行信息抽取，获取文档图像对应的信息抽取结果。因此，可以通过单元压缩Transformers网络对视觉文本特征的特征长度进行调整，减少每个Transformer层中的计算量，无需对Transformers网络中的文档图像和文档单元中的每一个单元进行特征编码处理，可以降低计算量，且可以减少通过调整模型参数量来降低计算量的同时使得信息抽取的准确性较差的情况，进而可以降低模型计算量的同时提高信息抽取的准确性。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。其中，本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如信息抽取方法。例如，在一些实施例中，信息抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的信息抽取方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或电子设备上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据电子设备)、或者包括中间件部件的计算系统(例如，应用电子设备)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和电子设备。客户端和电子设备一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-电子设备关系的计算机程序来产生客户端和电子设备的关系。电子设备可以是云电子设备，又称为云计算电子设备或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。电子设备也可以为分布式系统的电子设备，或者是结合了区块链的电子设备。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息抽取方法，包括：

获取文档图像对应的视觉文本特征；

采用单元压缩Transformers网络对所述视觉文本特征进行特征长度压缩处理和特征长度复原处理，得到处理后的特征，以使任一层Transformer的输入特征长度与输出特征长度相同；

根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果；

其中，所述采用单元压缩Transformers网络对所述视觉文本特征进行特征长度压缩和特征长度复原处理，得到处理后的特征，包括：

在所述单元压缩Transformers网络中第一Transformer层的编码阶段，对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征，其中，所述第一Transformer层为所述单元压缩Transformers网络中任一层，所述第二Transformer层为所述第一Transformer层的上一层；

在所述第一Transformer层的解码阶段，对所述第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到所述第一特征长度的复原后的视觉文本特征；

将所述第一特征长度的视觉文本特征与所述第一特征长度的复原后的视觉文本特征相加，得到处理后的特征；

其中，所述视觉文本特征包括视觉编码特征和文本编码特征，所述视觉编码特征和所述文本编码特征的第一总特征长度为所述第一特征长度。

2.根据权利要求1所述的方法，其中，所述获取文档图像对应的视觉文本特征，包括：

采用光学字符识别技术获取文档图像对应的文本信息；

采用卷积神经网络对所述文档图像进行编码处理，得到视觉编码特征；

采用BERT模型对所述文本信息对应的特征向量进行编码处理，得到文本编码特征；

将所述视觉编码特征和所述文本编码特征进行拼接，得到视觉文本特征。

3.根据权利要求1所述的方法，其中，所述采用单元压缩Transformers网络对所述视觉文本特征进行特征长度压缩和特征长度复原处理，得到处理后的特征之后，还包括：

将所述处理后的特征传输至第三Transformer层，其中，所述第三Transformer层为所述第一Transformer层的下一层。

4.根据权利要求3所述的方法，所述对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征，包括：

分别对所述第二Transformer层输出的所述视觉编码特征和所述文本编码特征特征长度压缩处理，得到压缩后的视觉编码特征和压缩后的文本编码特征；

将所述压缩后的视觉编码特征和所述压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征。

5.根据权利要求4所述的方法，其中，所述将所述压缩后的视觉编码特征和压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征，包括：

在所述压缩后的视觉编码特征和压缩后的文本编码特征的第二特征总长度不满足压缩比例的情况下，分别对所述压缩后的视觉编码特征和所述压缩后的文本编码特征进行特征单元补充，得到第二特征长度的压缩后的视觉文本特征。

6.根据权利要求3所述的方法，其中，所述对所述第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到所述第一特征长度的复原后的视觉文本特征，包括：

对所述第二特征长度的压缩后的视觉文本特征中的非补充特征单元进行复制，得到第二特征长度的复原后的视觉文本特征；

在所述第二特征长度的复原后的视觉文本特征的长度与所述第一特征长度不一致的情况下，对所述第二特征长度的复原后的视觉文本特征长度的编码后特征中的最后一个特征单元进行重复复制，直至得到所述第一特征长度的解码后特征。

7.根据权利要求1所述的方法，其中，所述根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果，包括：

根据所述视觉文本特征对应的结构信息，获取所述处理后的特征对应的至少一个文本单元特征；

根据任务环境对应的实体标记类型信息集合，获取所述至少一个文本单元特征对应的标记信息；

对所述至少一个文本单元特征对应的标记信息进行切分转化，获取所述文档图像对应的信息抽取结果。

8.一种信息抽取装置，包括：

特征获取单元，用于获取文档图像对应的视觉文本特征；

信息抽取单元，用于根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果；

其中，所述特征编码单元，用于采用单元压缩Transformers网络对所述视觉文本特征进行编码，得到处理后的特征时，具体用于：

9.根据权利要求8所述的装置，其中，所述特征获取单元，用于获取文档图像对应的视觉文本特征时，具体用于：

采用光学字符识别技术获取文档图像对应的文本信息；

10.根据权利要求8所述的装置，其中，所述采用单元压缩Transformers网络对所述视觉文本特征进行编码，得到处理后的特征之后，还包括：

11.根据权利要求10所述的装置，所述特征编码单元，用于对第二Transformer层输出的第一特征长度的视觉文本特征特征长度压缩处理，得到第二特征长度的压缩后的视觉文本特征时，具体用于：

12.根据权利要求11所述的装置，其中，所述特征编码单元，用于将所述压缩后的视觉编码特征和压缩后的文本编码特征作为第二特征长度的压缩后的视觉文本特征时，具体用于：

13.根据权利要求10所述的装置，其中，所述特征编码单元，用于对所述第二特征长度的压缩后的视觉文本特征特征长度复原处理，得到所述第一特征长度的复原后的视觉文本特征时，具体用于：

14.根据权利要求8所述的装置，其中，所述信息抽取单元，用于根据所述视觉文本特征对应的结构信息，对所述处理后的特征进行信息抽取，获取所述文档图像对应的信息抽取结果时，具体用于：

15. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其特征在于，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。