CN114419642A

CN114419642A - 一种文档图像中键值对信息的抽取方法、装置及系统

Info

Publication number: CN114419642A
Application number: CN202111528389.3A
Authority: CN
Inventors: 宋佳奇; 王勇; 朱军民
Original assignee: Beijing Yidao Boshi Technology Co ltd
Current assignee: Beijing Yidao Boshi Technology Co ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-29

Abstract

本发明公开了一种文档图像中键值对信息的抽取方法、装置及系统，涉及计算机视觉领域。该方法包括：针对输入信息进行编码，输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量；以每个文字为节点，聚合相邻节点的图像+内容+坐标拼接特征向量，得到每个文字的文字特征向量；基于每个文字的文字特征向量，按照实体类型对各文本块进行分类，基于最终实体类型名称特征向量和每个文字的文字特征向量，通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。该方法把多个任务融合到一个模型中，使用transformer等神经网络结构构建模型，做到端到端的训练和预测，最终输出文档中所有键值对信息。

Description

一种文档图像中键值对信息的抽取方法、装置及系统

技术领域

本发明涉及计算机视觉领域，尤其是一种文档图像中键值对信息的抽取方法、装置及系统。

背景技术

现实中通常会遇到很多文档中存在键值对这种信息表现方式，比如图1银行支票中“出票日期(大写)”和“贰零零柒年零叁月壹拾玖日”就是一个键值对，前者是关键字，后者是真值，关键字是对真值的说明，两者一起构成一个有用的信息。一个文档中可能存在多个类似的键值对信息结构，通常需要把对应的真值全部抽取出来。

传统的方法是对每一种文档版式生成一种模板，先在模板里存储各个关键字的位置，找到关键字后在其后面或者下面的值就是相应的真值。这种方法对于固定模板可以很好的解决，准确率较高，但是版式稍有不同就会出错。所以对于每一种版式都要维护一套模板，所需处理的版式较多时就会耗费大量的时间和精力来创建和维护大量的模板，且每有一种新版式都要再创建一套新模板，泛化能力很差。随着深度学习的发展，一些以神经网络为基础的模型开始逐渐取代传统的模板方法。此类方法不用为每一种版式人工创建模板，而是将大量具有不同版式的数据输入模型，让神经网络自己学习隐藏在不同版式中的通用特征，从而大大提高了泛化能力。代表方法有将整张文本拼接成一个字符串送进模型，然后做NER将需要的实体抽取出来。但是此类方法只是利用了文档中的文字信息，完全忽略了文档的图像信息和键值对之间特殊的对应关系，这些信息对于提升精度有很大的帮助。

为了更好地利用文档的文本特征和图像特征，以及包含在键值对中特殊的位置对应关系，本团队创新性的提出了将文本、图像以及位置特征结合在一起的多模态模型。模型中主要用到了图像和文本的预训练模型、图神经网络以及问答系统。下面分别介绍一下这几个方面的背景。

进入大数据时代后，可以得到的数据成指数级增长，但这些数据绝大部分都是未标注的，而且和需要解决的具体任务可能关联不大。那么如何从这些海量的数据中学习到有用的知识，从而应用到具体任务上呢？这就需要用到预训练模型，预训练模型的训练通常都会设计一些无监督的训练任务，旨在学习到数据中的通用信息，比如图像的分类、语言中的语法和句法等知识。预训练模型最初在计算机视觉领域的ImageNet上取得了突破性的进展。随着BERT的出现及其展现出来的优秀性能，让预训练模型在NLP领域迅速发展，并且取得了很好的成绩。得到预训练模型后，可以通过改变其输出层来应用到不同的下游任务上，比如问答系统、文本分类、目标检测、命名体识别等等。对比从零训练的模型，预训练模型可以提供很好的预备知识，而且这些知识对于下游任务有极大的帮助，可以让模型收敛的更快，精度更高。

尽管传统的深度学习方法被应用在提取欧式空间数据的特征方面取得了巨大的成功，但许多实际应用场景中的数据是从非欧式空间生成的，传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意。例如，在电子商务中，一个基于图的学习系统能够利用用户和产品之间的交互来作出非常精确的推荐，但图的复杂性使得现有的深度学习算法在处理时面临着巨大的挑战。这是因为图是不规则的，每个图都有一个大小可变的无序节点，图中的每个节点都有不同数量的相邻节点，导致一些重要的操作(例如卷积)在图像上很容易计算，但不适合直接用于图。此外，现有深度学习算法的一个核心假设是数据样本之间彼此独立。然而，对于图来说，情况并非如此，图中的每个数据样本(节点)都会有边与图中其他数据样本(节点)相关，这些信息可用于捕获实例之间的相互依赖关系。为了充分利用这些信息，研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想，定义和设计了用于处理图数据的图神经网络。节点之间的信息通过连接它们的边进行传播，通过信息传播，每个节点的信息是它相邻节点信息的聚合，这就将相邻节点之间的关系展现了出来，从而能充分利用文档中键值对之间的位置关系，帮助模型获得更好的效果。

问答系统作为自然语言处理中经典的任务，是信息检索系统的一种高级形式，目标是用准确、简洁的自然语言回答用户用自然语言提出的问题。对于问答系统的研究最早可追溯到19世纪60年代，当时的方法是基于模板和规则，不管是模型的鲁棒性和精度都是比较差的。现在的问答系统的方法和技术很多，这里按照处理方法的不同分为两种种：基于知识图谱的问答系统和基于阅读理解的问答系统。第一种以知识图谱构建事实性问答系统，从知识图谱中寻找答案，准确率比较高。缺点是过于依赖知识图谱，无法给出知识图谱之外的答案。这就要求有充足的资源来建立比较大规模的知识图谱。第二种是对非结构化的文章进行阅读理解得到答案。数据形式是给出一篇文章，围绕这个文章提出一些问题，任务是直接从文章中将答案抽取出来。比较常见的模型有FastQAExt、BERT、RoBERTa等等。

发明内容

本发明涉及一种文档图像中键值对信息的抽取方法、装置及系统。该方法把图像和文本的预训练模型、图神经网络以及问答系统多个任务融合到一个模型中。使用transformer等神经网络结构构建模型，做到端到端的训练和预测，最终输出文档中所有键值对信息。

根据本发明的第一方面，提供一种文档图像中键值对信息的抽取方法，所述文档图像包括多个由关键字和真值构成的键值对，输入信息包括：文档图像、文档图像中各文本块内的文字、每个文本块对应的位置坐标以及待抽取的实体类型名称，所述抽取方法包括以下步骤：

特征编码步骤，针对输入信息进行编码，输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量；

图像卷积步骤，以每个文字为节点，聚合相邻节点的图像+内容+坐标拼接特征向量，得到每个文字的文字特征向量；

任务推理步骤，基于每个文字的文字特征向量，按照实体类型对各文本块进行分类，同时基于最终实体类型名称特征向量和每个文字的文字特征向量，通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。

进一步地，所述特征编码步骤具体包括：

针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码，得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量；

拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量，得到图像+内容+坐标拼接特征向量；

将初步实体类型名称特征向量输入Transformer模型中，输出最终实体类型名称特征向量。

进一步地，所述针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码，得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量具体包括：

针对所述文档图像进行编码，得到文档图像特征向量；

针对文档图像中各文本块内的文字和待抽取的实体类型名称，分别输入预训练好的中文BERT(Bidirectional Encoder Representations from Transformers，来自变换器的双向编码器表征量)模型，输出文本块内容特征向量和初步实体类型名称特征向量；

针对每个文本块对应的位置坐标进行编码，得到文本块坐标特征向量。

进一步地，所述拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量，得到图像+内容+坐标拼接特征向量具体包括：

拼接文档图像特征向量和文本块坐标特征向量后输入ROIAlign模型中，输出文本块图像特征向量；

拼接文本块坐标特征向量和文本块内容特征向量后输入Transformer模型中，输出内容+坐标拼接特征向量；

拼接内容+坐标拼接特征向量和文本块图像特征向量，得到图像+内容+坐标拼接特征向量。

ROIAlign是一种区域特征聚集方式，很好地解决了传统ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示，在检测任务中将ROI Pooling替换为ROI Align可以提升检测模型的准确性。ROI Align的思路很简单：取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。

进一步的，所述图像+内容+坐标拼接特征向量和最终实体类型名称特征向量的维度均为512。

进一步的，所述针对所述文档图像进行编码具体包括：

针对文档图像，采用预训练的深度卷积神经网络对文本块及其周边的图像特征进行编码，得到样本图像特征向量。

此处，周边的图像特征是通过卷积得到的。

进一步的，所述预训练的深度卷积神经网络为经过ImageNet海量图像预训练的ResNet-50。

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象；在至少一百万个图像中，还提供了边界框。

Resnet是残差网络(Residual Network)的缩写,该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分。ResNet-50是一种典型的Resnet网络，包含50个conv2d操作。

进一步的，针对每个文本块对应的位置坐标进行编码具体包括：

针对每个文本块，取四个顶点的坐标及该文本块的长和宽拼在一起，作为该文本块的文本块坐标特征向量[x1,y1,x2,y2,x3,y3,x4,y4,w,h]，其中，[x1,y1]、[x2,y2]、[x3,y3]、[x4,y4]分别是四个顶点的坐标，[w,h]是该文本块的长和宽数值。

这里，样本图片上的每个文本块都可以看作是一个四边形。

进一步的，所述图像卷积步骤具体包括：

以文字作为节点，文字之间的链接关系代表图的边，根据各个节点的图像+内容+坐标拼接特征向量之间的欧式距离计算每一个节点与其他节点之间边的权重，获取一个软的图邻接矩阵；

根据所述软的图邻接矩阵，对相邻节点的图像+内容+坐标拼接特征向量进行加权聚合，得到聚合后的邻居节点特征；

针对某一节点的图像+内容+坐标拼接特征向量与聚合的邻居节点特征进行拼接；

采用多层感知机对拼接后的特征进行变换，得到每个文字的文字特征向量。

进一步地，图卷积神经网络的层数为2。

进一步地，每个文字的文字特征向量维度为512。

进一步地，所述任务推理步骤具体包括两个并行处理的任务：

节点分类：将每个文字的文字特征向量输入经训练的线性神经网络构成的分类器中，输出N类待抽取的实体类型和“关键字”类别；

问答系统：拼接每个文字的文字特征向量，得到所有文本块组成的文章特征向量；将最终实体类型名称特征向量和所有文本块组成的文章特征向量分别作为问题和文章输入至问答系统；输出所有实体类型和其所对应的文本块构成的键值对。

进一步的，所述问答系统为经训练的RoBERTa_wwm_ext_large模型。

RoBERTa_wwm_ext_large模型是一种基于BERT模型的表征模型。

进一步地，所述RoBERTa_wwm_ext_large模型中，去除下一句预测任务，利用动态掩码替换静态掩码，并在文本编码阶段使用50265字符的词汇表，且没有对输入作任何额外的预处理或分词。

根据本发明的第二方面，提供一种文档图像中键值对信息的抽取装置，所述装置基于前述任一方面提供的方法进行操作，所述装置包括：

特征编码模块，用于输入信息进行编码，输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量；

图像卷积模块，用于以每个文字为节点，聚合相邻节点的图像+内容+坐标拼接特征向量，得到每个文字的文字特征向量；

任务推理模块，用于基于每个文字的文字特征向量，按照实体类型对各文本块进行分类，同时基于最终实体类型名称特征向量和每个文字的文字特征向量，通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。

根据本发明的第三方面，提供一种文档图像中键值对信息的抽取系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如以上任一方面所述的文档图像中键值对信息的抽取方法。

根据本发明的第四方面，提供一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一方面所述的文档图像中键值对信息的抽取方法。

本发明的有益效果：

1.将实体类型名称单独拿出来做为问答系统的问题使得实体的抽取更有针对性，同时利用实体类型名称与文档中关键字的语义相似性，可以使模型更好地学习到键值对之间的对应关系，从而使抽取实体的精度更高；

2.将节点分类和问答系统通过多任务学习的方法放到一个模型，实现了端到端的训练和预测。两个任务相互之间有积极的影响，使得学习效率有很大的提升；

3.模型的泛化能力强。模型充分且高效地利用文档特征，包括文本内的语法和语义、句子内文本之间的关系、文本在图像上的位置信息等，使得模型对于版式的依赖很小。文档中包含键值对的情况很多而且版式不尽相同，通过一个模型可以很好地解决这些情况，避免了要针对不同情况训练多个模型的工作；

4.应用了Resnet-50、BERT、RoBERTa等当下流行且效果优秀的预训练模型，使得模型所能学到的信息更丰富，学习的速度更快，精度也会更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1示出现有技术中键值对银行支票示例。

图2示出根据本发明实施例的文档图像中键值对信息的抽取算法流程图。

图3示出根据本发明实施例的文档图像中键值对信息的抽取算法结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本发明涉及一种精确的文档图像关键信息抽取方法。针对键值对信息抽取这一问题，本申请人提出将键值对信息抽取任务转换成问答系统任务，来更有针对性的抽取文档中的每个实体。将节点分类和问答系统放到一个模型中，充分利用文档的图像、文本和位置特征，实现端到端的训练和预测，避免了多个模型带来的误差传播的问题。由于任务之间有依赖性，将它们放进一个模型训练可以充分利用两个任务之间的关系相互促进、加快学习效率，最终使信息抽取的精度大大提升。

申请人将节点分类和问答系统放在一个模型中构成一个有机的整体，这里的节点是OCR识别出来的文本框。为了便于理解，本发明可以将模型内的工作看成两个任务：第一个任务将每个经过神经网络编码后的节点进行分类，这里的类别就是事先定义好的要抽取的实体类型再加上“关键字”实体；第二个任务是问答系统。和第一个任务是同时进行的，问答系统的文章特征输入是将神经网络编码过后的节点拼接在一起得到的，问题特征是经过编码过后实体的类别。这里，本发明针对每个实体类别做一次问答系统任务来抽取出该实体。

实施例

1.特征编码模块

模型的输入为整张样本的图像、OCR识别出来的文本框内的文字、文本框的位置坐标和需要抽取的实体名称。本模块的主要任务是对这些输入进行编码，生成可输入到后续模块的特征向量。

对于输入的图像，最重要的是做长宽比不变的尺寸归一化以及边界补0，使得图像的尺寸能够支持编码模块中神经网络要求的卷积和下采样等操作，并最大化的保留全局和局部特征信息。图像特征编码主要是采用深度卷积神经网络对文本块及其周边的图像特征进行编码。该步骤采用经过ImageNet海量图像预训练的ResNet-50作为特征编码网络，该模型具有对图像强大的表示能力，可以将图像的关键特征很好的提取和表示出来。该步骤目标是输出各个文本框对应的图像特征编码，因此，需要结合文本框的位置应用ROIAlign在网络输出特征图的对应位置上来获取对应的图像特征编码。该特征的维度为512。

本模型输入的文本分成两部分：一部分是OCR识别出来的文本框内的文本；另一部分是事先定义好的要抽取的实体类型名称，这就相当于键值对里的关键字。首先利用在中文维基百科等大量文本上预训练好的中文BERT模型来对文本进行编码，该模型经过预训练已经具有解析语法和语义的能力，可以让编码出来的特征更丰富，让后续的模块能更快地学习到更高层次的特征。这里将两部分文本分别送进BERT模型进行编码。第一部分文本的输出是以文本框为单位的，和位置特征进行拼接送入后续网络结构；第二部分文本的输出以每个实体类型为单位，有N个实体类型，就对应输出N个特征送入后续的网络结构。

OCR识别出来的文本框可以看作是一个四边形，对应每个文本框输入的位置坐标就是四个顶点的坐标。这里本实施例取四边形的四个顶点、长和宽拼在一起作为该文本框的位置向量，即[x1,y1,x2,y2,x3,y3,x4,y4,w,h]。然后将位置向量和该文本框内的文字经过BERT编码过后输出的文本特征拼在一起输入Transformer3进行编码。本实施例也会将第二部分文本的输出送入Transformer进行再编码。利用Transformer里强大的多层多头自注意力机制，学习到文字之间的语法、语义以及各个部分对于后续任务的影响力，这对于后续任务的准确率有着重要的影响。从Transformer输出的特征向量维度为512。

至此，分别得到了每个文本框的图像特征、每个文本框位置特征和文本特征的融合特征以及每个实体类型名称对应的编码后的特征。本实施例在特征空间的维度将文本框的图像特征和融合特征相加作为该文本框新的特征向量输入到后续模块，相加之后的特征向量的维度仍为512。每个实体类型名称对应的特征会在后续模块中当作问题特征输入到问答系统中。经过特征编码模块得到的这些特征向量不仅包含图像特征、文字本身的语法和语义的信息，以及此类样本特有的语句特征，还有文本框之间的相互位置关系，这使本实施例的模型可以学习到多种信息，更好地完成后面的任务。

2.图卷积模块

这一模块的功能是将特征编码模块输出的特征向量通过多层图卷积神经网络，充分学习文档特有的相对位置关系。

该模块定义的图为一个无向图，其中文字作为图的节点，文字之间的链接关系代表图的边。特征编码模块输出的特征向量经过图卷积网络骤层的卷积操作，各个节点不断地向邻居节点传播本节点的特征，同时融合相邻节点的特征，以达到增强本节点的表示，并且学习到内在的局部和全局图结构的目的。图卷积操作可分为三个步骤，第一步，根据各个节点之间特征的欧式距离计算每一个节点与其他节点之间边的权重，以获取到一个软的图邻接矩阵。根据该邻接矩阵，对相邻节点的特征进行加权聚合，得到聚合后的邻居节点特征；第二步，把本节点的特征与聚合的邻居节点的特征进行拼接；第三步，采用多层感知机对拼接后的特征进行变换，得到该节点最终的特征。经过实验发现，图卷积神经网络的层数为2时效果相对较好。图卷积神经网络输出的特征向量维度为512。

3.任务推理模块

任务推理模块中，本实施例设计了两个任务。一个为辅助任务，不参与推理预测过程，但是会参与训练过程；另一个为主要任务，推理和训练都会参与。

第一个任务是做节点分类，这是辅助任务。从图卷积模块得到每个文本框对应的特征向量，将这些特征向量送入一个由线性神经网络构成的分类器中，每个节点可以被分成N+1类中的一类(N为事先定义好的要抽取的实体类型数，多出来的一类是“关键字”)。这个任务可以让模型能更好地学到各个不同类实体以及“关键字”之间的特征差异，从而让主要任务抽取实体时更加准确。

第二个任务是问答系统，这是主要任务。问答系统的输入需要问题和文章两部分：问题为步骤1中实体类型名称经过特征编码模块后的输出，每个实体类型名称对应一个问题；文章为图卷积模块输出的各个文本框特征拼接在一起得到的。问答系统的任务就是针对每个问题，在文章中找到某个文本框做为这个问题的答案。这里本实施例使用在大量中文数据上训练得到的RoBERTa_wwm_ext_large模型，其中RoBERTa是在BERT的基础上改进得到的，主要的改进有三点：一是去掉了下一句预测任务，实验证明去掉此任务后模型性能会提升；二是用动态掩码替换静态掩码，优点在于大量数据不断输入的过程中，模型会逐渐适应不同的掩码策略，学习不同的语言表征；三是在文本编码阶段使用更大的词汇表，且没有对输入作任何额外的预处理或分词。此模型是在原来RoBERTa模型的基础上，针对中文问答系统这一任务选取大量相关的样本再次训练得到的，所以对于问答系统任务有更好的表现。

两个任务看似构成不同，但其实都是为了一个目标服务，就是能更好的将实体和其他节点、实体之间以及键值对之间的关系找到，从而能更准确的将实体抽取出来。所以能够相互促进，加快学习效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种文档图像中键值对信息的抽取方法，所述文档图像包括多个由关键字和真值构成的键值对，输入信息包括：文档图像、文档图像中各文本块内的文字、每个文本块对应的位置坐标以及待抽取的实体类型名称，其特征在于，所述抽取方法包括以下步骤：

2.根据权利要求1所述的抽取方法，其特征在于，所述特征编码步骤具体包括：

3.根据权利要求2所述的抽取方法，其特征在于，所述针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码，得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量具体包括：

针对所述文档图像进行编码，得到文档图像特征向量；

针对文档图像中各文本块内的文字和待抽取的实体类型名称，分别输入预训练好的中文BERT模型，输出文本块内容特征向量和初步实体类型名称特征向量；

4.根据权利要求2所述的抽取方法，其特征在于，所述拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量，得到图像+内容+坐标拼接特征向量具体包括：

5.根据权利要求1所述的抽取方法，其特征在于，所述图像卷积步骤具体包括：

6.根据权利要求1所述的抽取方法，其特征在于，所述任务推理步骤具体包括两个并行处理的任务：

7.根据权利要求1所述的抽取方法，其特征在于，所述问答系统为经训练的RoBERTa_wwm_ext_large模型；其中，所述RoBERTa_wwm_ext_large模型中，去除下一句预测任务，利用动态掩码替换静态掩码，并在文本编码阶段使用50265字符的词汇表，且没有对输入作任何额外的预处理或分词。

8.一种文档图像中键值对信息的抽取装置，其特征在于，所述装置基于根据权利要求1至7中任一项所述的文档图像中键值对信息的抽取方法进行操作，所述装置包括：

9.一种文档图像中键值对信息的抽取系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如权利要求1至7中任一项所述的文档图像中键值对信息的抽取方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文档图像中键值对信息的抽取方法。