CN115131801A

CN115131801A - 基于多模态的文档识别方法、装置、设备和存储介质

Info

Publication number: CN115131801A
Application number: CN202210386897.0A
Authority: CN
Inventors: 胡益清; 毛中杰; 曹浩宇; 李倩玉; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-09-30

Abstract

本申请提供一种基于多模态的文档识别方法、装置、设备和存储介质，涉及人工智能领域，可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，方法包括：对待识别文档对应的文档图像进行图像分割处理，得到文本图像块、非文本图像块和分块位置信息；分别对文本图像块和非文本图像块进行特征提取，得到文本分词的分词特征、分词位置信息、第二图像特征和分词位置特征，以及非文本图像块的第一图像特征和分块位置特征；基于分词位置信息和分块位置信息，对分词特征、第一图像特征、第二图像特征、分词位置特征和分块位置特征进行特征融合处理，对得到的多模态融合特征进行实体识别，得到文档识别结果。本申请显著提高识别准确率，泛化性强。

Description

基于多模态的文档识别方法、装置、设备和存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种基于多模态的文档识别方法和装置。

背景技术

文档识别是文档处理领域的重要基础任务，能够为摘要生成和知识问答等高阶文档处理任务提供有价值的输入数据。目前，在文档识别任务中，通常利用先验知识(如专家知识或规则库等)构建知识库，进而通过匹配输入文本和知识库中对象的相似度来实现文档识别，或者，基于传统机器学习方法识别不同文本词汇间的转移概率，以得到识别结果。然而，前一种方式受限于知识库中的知识量和知识广度，泛化性较差，后一种方法仅适用于简单文本识别场景，在复杂文本结构场景中，由于难以捕捉长距离依赖和相关关系，文档识别精度差。

因此，需要提供一种可靠的文档识别方案，以解决上述现存问题。

发明内容

本申请提供了一种基于多模态的文档识别方法、装置、设备和存储介质，显著提高文档识别精度和准确率，泛化性强。

一方面，本申请提供了一种基于多模态的文档识别方法，所述方法包括：

获取待识别文档对应的文档图像，所述待识别文档中包括至少一种文档元素；

对所述待识别文档对应的文档图像进行图像分割处理，得到所述待识别文档对应的文本图像块、非文本图像块和分块位置信息；

分别对所述文本图像块和所述非文本图像块进行分词特征提取，得到所述待识别文档对应的文本分词的分词特征和分词位置信息；

对所述文档图像进行所述非文本图像块和所述文本分词的图像特征提取，得到所述非文本图像块的第一图像特征和所述文本分词的第二图像特征；

分别对所述文本分词的分词位置信息和所述分块位置信息进行特征映射处理，得到所述文本分词的分词位置特征和所述非文本图像块的分块位置特征；

基于所述分词位置信息和所述分块位置信息，对所述分词特征、所述第一图像特征、所述第二图像特征、所述分词位置特征和所述分块位置特征进行特征融合处理，得到所述待识别文档的多模态融合特征；

对所述多模态融合特征进行实体识别，得到所述待识别文档的文档识别结果，所述文档识别结果包括所述待识别文档对应的文本分词和非文本图像块的实体类别。

另一方面提供了一种基于多模态的文档识别装置，所述装置包括：

文档数据获取模块：用于获取待识别文档对应的文档图像，所述待识别文档中包括至少一种文档元素；

图像分割模块：用于对所述待识别文档对应的文档图像进行图像分割处理，得到所述待识别文档对应的文本图像块、非文本图像块和分块位置信息；

分词特征提取模块：用于分别对所述文本图像块和所述非文本图像块进行分词特征提取，得到所述待识别文档对应的文本分词的分词特征和分词位置信息；

图像特征提取模块：用于对所述文档图像进行所述非文本图像块和所述文本分词的图像特征提取，得到所述非文本图像块的第一图像特征和所述文本分词的第二图像特征；

位置特征映射模块：用于分别对所述文本分词的分词位置信息和所述分块位置信息进行特征映射处理，得到所述文本分词的分词位置特征和所述非文本图像块的分块位置特征；

特征融合模块：用于基于所述分词位置信息和所述分块位置信息，对所述分词特征、所述第一图像特征、所述第二图像特征、所述分词位置特征和所述分块位置特征进行特征融合处理，得到所述待识别文档的多模态融合特征；

实体识别模块：用于对所述多模态融合特征进行实体识别，得到所述待识别文档的文档识别结果，所述文档识别结果包括所述待识别文档对应的文本分词和非文本图像块的实体类别。

另一方面提供了一种基于多模态的文档识别设备，所述设备包括处理器和存储器，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的基于多模态的文档识别方法。

另一方面提供了一种计算机设备，所述设备包括处理器和存储器，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的基于多模态的文档识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的基于多模态的文档识别方法。

另一方面提供了一种终端，所述终端包括处理器和存储器，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的基于多模态的文档识别方法。

另一方面提供了一种服务器，所述服务器包括处理器和存储器，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的基于多模态的文档识别方法。

另一方面提供了计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令被处理器执行时实现如上述的基于多模态的文档识别方法。

本申请提供的基于多模态的文档识别方法、装置、设备、终端、服务器、存储介质和计算机程序，具有如下技术效果：

本申请首先获取待识别文档对应的文档图像，该待识别文档中包括至少一种文档元素；对待识别文档对应的文档图像进行图像分割处理，得到待识别文档对应的文本图像块、非文本图像块和分块位置信息；然后，分别对文本图像块和非文本图像块进行分词特征提取，得到待识别文档对应的文本分词的分词特征和分词位置信息，对文档图像进行非文本图像块和文本分词的图像特征提取，得到非文本图像块的第一图像特征和文本分词的第二图像特征，分别对文本分词的分词位置信息和分块位置信息进行特征映射处理，得到文本分词的分词位置特征和非文本图像块的分块位置特征，进而得到待识别文档的多种模态的细粒度特征；进一步的，基于分词位置信息和分块位置信息，对分词特征、第一图像特征、第二图像特征、分词位置特征和分块位置特征进行特征融合处理，得到待识别文档的多模态融合特征，对包含多层次、多模态文档信息的多模态融合特征进行实体识别，得到待识别文档的文档识别结果，实现精确的文档元素的细粒度属性识别，显著提高元素属性识别和位置标记的准确率，能够为高阶文档识别任务提供高价值输入。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种基于多模态的文档识别方法的流程示意图；

图3是本申请实施例提供的另一种基于多模态的文档识别方法的流程示意图；

图4是本申请实施例提供的另一种基于多模态的文档识别方法的流程示意图；

图5是本申请实施例提供的另一种基于多模态的文档识别方法的流程示意图；

图6是一个实施例提供的文档识别结果的可视化示意图；

图7是一个实施例提供的修正前后的文档识别结果示意图；

图8是一个实施例提供的一种文档识别系统的结构框架图；

图9是一个实施例提供的一种文档识别方法的原理流程图；

图10是本申请实施例提供的基于多模态的文档识别装置的框架示意图；

图11是本申请实施例提供的基于多模态的文档识别方法的电子设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

OCR：Optical Character Recognition，光学字符识别，利用图像算法提取出图像中文字的过程。

NER：Named Entity Recognition，命名实体识别，识别文本中具有特定意义的实体。在本申请场景内，实体类型可以对应文档元素类别，包括普通文本/标题/章节/题注等。

Bert：Bidirectional Encoder Representations from Transformers，基于变换器的双向编码器表示技术，用于自然语言处理的预训练技术。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及人工智能的机器学习/深度学习和自然语言处理等技术，具体通过如下实施例进行说明：

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，如图1所示，该应用环境可以至少包括服务器01和终端02，服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中，服务器01可以包括一个独立运行的服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。此外，多个服务器也可组成为一区块链，而服务器为区块链上的节点。具体的，服务器01可以包括有网络通信单元、处理器和存储器等等。

具体的，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。其中，人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

具体的，服务器01可以为分布式系统100中的一个节点，其中该分布式系统可以为区块链系统，该区块链系统可以是由多个节点通过网络通信的形式连接形成的分布式系统，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算机设备，比如服务器01、客户端02等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点，其中区块链包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

本申请实施例中，终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备、车载终端等类型的实体设备，但并不局限于此，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中终端02上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

本申请实施例中，服务器01可以用于提供文档识别服务，以生成对应的文档识别结果，还可以提供初始识别网络的预训练服务，以得到预训练识别网络，以及提供预训练识别网络的实体识别的约束训练服务，得到目标实体识别网络。终端02可以用于向服务器01发送文档识别指令和待识别文档，以使服务器01执行对应的文档识别。

此外，需要说明的是，图1所示的仅仅是一种基于多模态的文档识别方法和装置的应用环境，实际应用中，应用环境可以包括更多或更少的节点，本申请不做限制。

以下结合图2介绍本申请提供的一种基于多模态的文档识别方法，图2是本申请实施例提供的一种基于多模态的文档识别方法的流程示意图，本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。具体的如图2所示，方法可以包括：

S201：获取待识别文档对应的文档图像。

本申请实施例中，待识别文档可以为纯文本文档，也可以为包括多模态文档元素的文档，例如可以为公文文档、图文文档或票据文档等。待识别文档中包括至少一种文档元素，文档元素可以包括但不限于图片元素和文本元素等，一些情况下，文档元素还可以包括题注、页眉和页脚等。文档图像为待识别文档的图像化数据，可以通过拍摄、扫描或格式转换等方式获得。

S203：对待识别文档对应的文档图像进行图像分割处理，得到待识别文档对应的文本图像块、非文本图像块和分块位置信息。

本申请实施例中，可以通过语义分割方法实现文档图像的图像分割，以得到待识别文档中文本对象对应的至少一个文本图像块，非文本对象对应的至少一个非文本图像块，以及分块位置信息。其中，非文本对象可以包括但不限于附图、表格、题注、页眉和页脚等，相应的，非文本图像块可以包括但不限于附图图像块、表格图像块、题注图像块、页眉图像块和页脚图像块等，分块位置信息包括每一文本图像块的位置信息和每一非文本图像块的位置信息。通过图像分割处理实现待识别文档的版面分析，提取出待识别文档中的文本、图、表、题注等各种文档元素的图像块，有利于为后续特征提取和文档识别提供细粒度信息，进而提高文档识别准确率和泛化性。

实际应用中，语义分割方法可以基于语义分割模型实现，语义分割模型可以包括但不限于U-Net、FCN、ResNet和SegNet等，例如ResNet-101。

S205：分别对文本图像块和非文本图像块进行分词特征提取，得到待识别文档对应的文本分词的分词特征和分词位置信息。

本申请实施例中，针对文本图像块进行文本识别，以得到待识别文档中每一文本图像块的第一文本数据，同时，基于文本图像块的位置信息，在文本识别过程中可以确定第一文本数据的位置信息，对第一文本数据进行分词处理和特征提取，进而得到第一文本数据中每一文本分词的分词特征，以及根据第一文本数据的位置信息确定每一文本分词的分词位置信息。针对非文本图像块，可以先将非文本图像块映射为对应的第二文本数据，对每一非文本图像块的第二文本数据进行分词处理和特征提取，得到第二文本数据中每一文本分词的分词特征，并将非文本图像块的位置信息作为对应文本分词的分词位置信息。可以理解的，上述的文本分词可以为词粒度、字粒度或以预设字符长度为分词粒度，分词粒度可以基于实际需求设定，在此不做限定。

一些实施例中，可以通过预设图像指纹算法对非文本图像块进行图像指纹计算，得到每一非文本图像块的图像指纹ID，对图像指纹ID进行分词处理，得到对应的文本分词，并对文本分词进行特征嵌入处理，得到每一非文本图像块的分词特征。可以理解的，图像指纹ID的分词处理可以得到一个分词，也可以得到多个分词。如此，得到的分词特征包含非文本图像块的内容信息，有利于后续目标实体识别网络的训练，使其学习到非文本对象内容的特征提取和与其它文本元素间的关系，进一步细化识别粒度和提高准确性。

另一些实施例中，可以预存各种文档元素类别的非文本图像块的元素块标识文本，例如，题注类非文本图像块的元素块标识文本为30，附图类非文本图像块的元素块标识文本为50。一些实施例中，不同文档元素类别的非文本图像块的语义特征不同，基于语义特征识别非本文图像块的文档元素类别，进而根据预设对应关系确定识别到的文档元素类别对应的元素块标识文本，其中，预设对应关系表征多种文档元素类别和多个元素块标识文本间的关联关系。相应的，元素块标识文本表征非文本图像块的文档元素类别，请参考图3，S205可以包括下述步骤S2051-S2055。

S2051：获取非文本图像块对应的元素块标识文本。

S2052：对文本图像块进行字符识别，得到文本图像块对应的文本行和文本行的位置信息。

S2053：分别对文本行和元素块标识文本进行分词处理，得到待识别文档对应的文本分词。

S2054：基于文本行的位置信息和分块位置信息，确定文本分词的分词位置信息。

S2055：对文本分词进行特征嵌入处理，得到文本分词的分词特征。

具体的，可以通过字符识别方法识别出文本图像块中的文本数据，如采用光学字符识别(OCR)得到文本图像块中的文本行，得到文本块的细粒度信息。在字符识别过程中，可以根据文本行在所属文本图像块中的行数和所属文本图像块的位置信息确定文本行的位置信息，例如可以基于文本图像块的总行数对文本图像块进行等距分割，根据文本图像块的整体位置信息，确定分割得到的每一文本行图像块的位置信息，即得到文本行的位置信息。一个实施例中，OCR方法为基于CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)的序列识别方法。

进一步的，在得到每一文本图像块的各文本行后，基于预设分词方法分别对各文本行进行分词处理，得到每一文本行的文本分词，以及对每一元素块标识文本进行分词处理，得到每一非文本图像块的文本分词，分别对待识别文档对应的全部文本分词进行特征嵌入，得到每一文本分词的分词特征。其中，预设分词方法可以基于实际需求采用自然语言处理的现有分词算法，如Bert方法提供的分词器(tokenizer)，本申请在此不做限定。此外，将非文本图像块的位置信息作为其对应的文本分词的位置信息，基于文本行的位置信息确定该文本行对应的文本分词的位置信息。一些情况下，直接将文本行的位置信息确定为对应文本分词的位置信息，另一些情况下，可以根据文本行对应的文本分词数对该文本行的坐标范围进行平均分割，以得到每一文本分词的位置信息。一个实施例中，分词特征为利用分词器(tokenizer)对文本行或元素块标识文本进行分词处理和自然语言转换的文本向量嵌入处理得到的，每一文本分词对应至少一个token，每一token对应一个分词特征，分词特征的特征维度为1x512。

需要说明的是，上述的各种位置信息可以包括区域坐标信息，能够表征一个区域的坐标范围，如一个矩形区域的位置信息可以包括矩形区域中顶点的坐标、宽度和高度，或者矩形区域的中心点坐标、宽度和高度。

示例性的，以文本“如果”为例，对其进行分词处理后得到字粒度分词“如”和“果”，“如”的位置信息包括其左上顶点的坐标(x₁,y₁)和右下顶点的坐标(x₂,y₂)，“果”的位置信息包括其左上顶点的坐标(x₁+10,y₁+10)和右下顶点的坐标(x₂+10,y₂+10)。

S207：对文档图像进行非文本图像块和文本分词的图像特征提取，得到非文本图像块的第一图像特征和文本分词的第二图像特征。

本申请实施例中，可以基于预设图像特征提取网络实现上述图像特征提取，具体的，在利用预设图像特征提取网络进行特征提取前，对需输入的文档图像或者区域图像进行预处理，将其分辨率缩放至预设尺寸(H*W)，得到归一化图像，然后将归一化图像输入预设图像特征提取网络，得到对应的特征图，进而分别对每一非文本图像块和每一文本分词对应的特征图进行特征提取，得到第一图像特征和第二图像特征。其中，预设图像特征提取网络可以基于卷积神经网络(CNN)构建，如ResNet-101，相应的，将每一输入的图像处理为分辨率为H/32*W/32，通道数为16的特征图。一个实施例中，针对每一文本分词或非文本图像块对应的特征图，采用RoiAlign算法进行区域特征提取，得到第一图像特征或第二图像特征，第一图像特征和第二图像特征的特征维度为1x512。

实际应用中，请参考图4，S207可以包括下述步骤S2071-S2072。

S2071：分别获取非文本图像块和文本分词在文档图像中对应的图像区域的特征图。

S2072：分别对非文本图像块对应的特征图和文本分词对应的特征图进行特征提取，得到第一图像特征和第二图像特征。

一些实施例中，S2071可以具体包括：对文档图像进行卷积处理，得到文档图像对应的文档特征图；基于分词位置信息和分块位置信息，从文档特征图中确定出文本分词对应的特征图和非文本图像块对应的特征图。

具体的，对文档图像进行预处理后，对归一化的文档图像进行卷积处理，然后基于文本分词的分词位置信息，确定每一文本分词在文档特征图中对应的第一区域，将文档特征图的第一区域确定为文本分词对应的特征图；基于非文本图像块的分块位置信息，确定每一非文本图像块在文档特征图中对应的第二区域，将文档特征图中的第二区域确定为非文本图像块对应的特征图，如此，得到每一文本分词的特征图和每一非文本图像块的特征图。

另一些实施例中，S2071可以具体包括：分别获取文本分词和非文本图像块在文档图像中对应的图像区域；对文本分词和非文本图像块对应的图像区域进行卷积处理，得到文本分词对应的特征图和非文本图像块对应的特征图。

具体的，根据分词位置信息和分块位置信息，确定每一文本分词和每一非文本分块在文档图像中对应的图像区域，对每一图像区域对应的归一化图像进行卷积处理，得到每一文本分词的特征图和每一非文本图像块的特征图。

进一步的，分别对每一文本分词的特征图和每一非文本图像块的特征图进行特征提取，得到每一文本分词的第一图像特征和每一非文本图像块的第二图像特征。

S209：分别对文本分词的分词位置信息和分块位置信息进行特征映射处理，得到文本分词的分词位置特征和非文本图像块的分块位置特征。

本申请实施例中，对每一文本分词的分词位置信息进行向量嵌入，以及对每一非文本图像块的分块位置信息进行向量嵌入，得到每一分词位置信息的分词位置特征和每一非文本图像块的分块位置特征。一个实施例中，分词位置特征和分块位置特征的特征维度为1x512。

S211：基于分词位置信息和分块位置信息，对分词特征、第一图像特征、第二图像特征、分词位置特征和分块位置特征进行特征融合处理，得到待识别文档的多模态融合特征。

本申请实施例中，多模态融合特征融合了文本、图像和位置的特征信息，能够提供文档的细粒度属性特征，有利于实现文档的细粒度实体识别，并提高文档实体识别的准确率。并且，在文档存在模糊区域的情况下，易导致字符识别错误，通过叠加图像特征能够纠正字符识别错误，提高识别系统的鲁棒性。

实际应用中，请参考图，S211可以包括下述步骤S2111-S2112。

S2111：基于分词位置信息和分块位置信息，分别进行分词特征的特征拼接处理，第一图像特征和第二图像特征的特征拼接处理，以及分词位置特征和分块位置特征的特征拼接处理，得到待识别文档的文本拼接特征、图像拼接特征和位置拼接特征。

S2112：对待识别文档的文本拼接特征、图像拼接特征和位置拼接特征进行特征融合，得到多模态融合特征。

具体的，基于每一文本分词的分词位置信息和每一非文本图像块的分块位置信息，确定待识别文档对应的全部文本分词和非文本图像块的位置排序；进而以该位置排序作为特征拼接顺序，对文本分词的分词特征进行拼接，得到文本拼接特征，对各第一图像特征和各第二图像特征进行拼接，得到图像拼接特征，以及对各分词位置特征和各分块位置特征进行拼接，得到位置拼接特征；然后通过特征融合处理得到多模态融合特征，这里的特征融合处理可以为特征相加，如简单相加。一些情况下，在第一方向上对文本拼接特征和图像拼接特征进行相加处理，得到第一融合特征，然后在第二方向上进行位置拼接特征和第一融合特征的相加处理，得到多模态融合特征。

S213：对多模态融合特征进行实体识别，得到待识别文档的文档识别结果。

本申请实施例中，文档识别结果包括待识别文档对应的文本分词和非文本图像块的实体类别。实体类别可以包括但不限于普通文本、标题、章节、题注、页眉、页脚和公式等，通过对多模态融合特征进行实体识别，得到待识别文档中各文本分词的实体类别和各非文本图像块的实体类别，不同实体类别可以采用不同的类别标记，如不同的颜色或形状等，进而可以在文档图像上进行类别标记的可视化处理，以显示待识别文档的细粒度类别识别结果。请参考图6，图6为一个实施例提供的文档识别结果的可视化示意图，图6中的类型标记M1-M6分别代表的实体类别中的页眉/页脚、普通文本、行尾位、行首位、附图和题注。

综上，通过对包含多层次、多模态文档信息的多模态融合特征进行实体识别，得到待识别文档的文档识别结果，实现精确的文档元素的细粒度属性识别，显著提高元素属性识别和位置标记的准确率，能够为高阶文档识别任务提供高价值输入。

实际应用中，可以调用目标实体识别网络对多模态融合特征进行实体识别，得到文档识别结果。其中，目标实体识别网络是基于第一样本文档图像对应的样本融合特征和实体类别标签对预训练识别网络进行实体识别的约束训练得到的，预训练识别网络为基于第二样本文档图像对应的样本融合特征和文档类别标签对初始识别网络进行特征遮盖预测和文档分类识别的联合训练得到的。

具体的，获取对初始识别网络进行联合训练的训练样本集和对预训练识别网络进行实体识别训练的训练样本集，两个训练样本集中的样本文档图像可以相同、不同或者部分重叠。

具体的，第一样本文档图像和第二样本文档图像可以为纯文本文档，也可以为包括多模态文档元素的文档，包括但不限于公文文档、图文文档或票据文档等，文档中可以包括多种文档元素。第一样本文档图像和第二样本文档图像对应的样本融合特征的获取方式，与前述的多模态融合特征的获取方式相类似，在此不再赘述。实体类别标签表征第一样本文档图像对应的每一文本分词和非文本图像块的实体类别，文档类别标签表征第二样本文档的文档类别，文档类别可以包括但不限于票据、公文、论文和网页等。

一个实施例中，目标实体识别网络可以为NER网络，NER网络中采用变换器(Transformer)架构作为基础网络，以进行多模态融合特征的特征提取，示例性的，变换器可以包括12层编码器和12层解码器。

具体实施例中，可以采用下述方法获取预训练识别网络。

S301：获取训练数据集和初始识别网络，训练数据集包括第二样本文档图像和对应的文档类别标签。

S303：对第二样本文档图像进行特征提取，得到第二样本文档图像对应的样本融合特征。

S305：对样本融合特征进行特征遮盖处理，得到目标样本特征。

具体的，样本融合特征是基于文本特征、图像特征和位置特征进行融合处理得到的，遮盖处理是指以一定概率遮盖图像/位置/文本特征信息中的至少一维，以未被遮盖的信息来推断被遮盖的信息，进而实现多模态特征遮盖的预测任务。示例性的，对文本特征进行部分遮盖，如将第二样本文档中的文本行“对样本融合特征进行特征遮盖处理”中的“特征”替换为“Mask”，得到遮盖后的文本行“对样本融合MaskMask进行特征遮盖处理”，进而对遮盖处理后的第二样本文档图像进行特征提取，得到目标样本特征，或者直接对样本融合特征中“特征”两个字对应的分词特征进行遮盖处理，得到目标样本特征。

S307：以目标样本特征作为初始识别网络的输入，分别以遮盖特征和文档类别标签作为期望输出，对初始识别网络进行特征遮盖预测和文档分类识别的联合训练，得到预训练识别网络。

一些实施例中，初始识别网络和预训练识别网络的基础网络都为变换器，初始识别网络所执行的训练任务和预训练识别网络所执行的训练任务不同，所采用的损失计算方法也不同。具体实施例中，基于特征遮盖预测任务和文档分类识别任务对初始识别网络进行联合训练，其中，文档分类识别任务为基于文档特征对文档的类别进行识别和分类，可以具体为多标签文档分类任务。

具体的，以基础网络对样本融合特征进行特征提取，并基于提取到的特征预测遮盖特征，以及基于提取到的特征进行文档类别识别，以分别得到遮盖特征预测结果和文档类别识别结果；利用特征遮盖预测任务的损失函数对遮盖特征预测结果和遮盖特征进行损失计算，得到第一损失，利用文档分类识别任务的损失函数对文档类别识别结果和文档类别标签进行损失计算，得到第二损失；对第一损失和第二损失进行相加处理，得到模型总损失，若模型总损失或当前迭代次数满足模型收敛条件，则将当前的初始识别网络作为预训练识别网络，反之，则基于模型总损失调整初始识别网络的网络参数，得到更新的初始识别网络；将第二样本文档图像的样本融合特征输入更新的初始识别网络，进行特征提取、预测遮盖特征、文档类别识别和损失计算，以进行更新的初始识别网络的迭代训练，至得到的模型总损失或迭代次数满足模型收敛条件，得到预训练识别网络。其中，满足模型收敛条件可以为总损失小于等于预设损失，或迭代次数达到预设次数。一个实施例中，特征遮盖预测任务和文档分类识别任务所采用的损失函数均为交叉熵函数。

如此，基于大量不同类型的样本文档生成包括多模态信息的融合特征，进而对初始识别网络的进行多任务联合训练，能够充分利用文档的多层次、多模态信息，使识别网络学习输入文档的全局特征的同时，充分学习文档元素的特征和相互关系，显著提升网络学习效果，降低后续预训练识别网络的训练成本，以及提高最终目标实体识别网络的模型效果。

实际应用中，以第一样本文档图像对应的样本融合特征作为输入，对前述得到的预训练识别网络进行实体识别的迭代训练，得到目标实体识别网络。具体的，可以对第一样本文档中的文档元素对象进行实体类别标注，标记该文档元素对象为普通文本、标题、章节或题注等，通过前述的预训练过程，预训练识别网络已学习到文档元素间的相互关系，能够降低实体识别训练过程中所需求的样本数据量，仅基于少量标注训练数据对预训练识别模型的模型参数进行调优，即可完成实体识别训练，得到目标实体识别网络，以执行复杂的文档细粒度实体识别任务，得到文档的细粒度属性类别。此外，通过上述预训练过程能够提高文档识别方法的泛化性和可迁移性。

实际应用中，采用搭载GPU芯片的硬件环境实现上述的预训练和实体识别训练，GPU芯片支持GPU并行计算，能够提高训练效率。

基于上述部分或全部实施方式，本申请实施例中，方法还可以包括下述文档识别结果的修正步骤，具体包括下述S401-S407。

S401：根据文档识别结果，从待识别文档对应的文本行中确定出目标文本行，目标文本行中存在至少两种实体类别的文本分词。

S403：对至少两种实体类别进行分词数统计，得到至少两种实体类别中每一实体类别的文本分词数。

S405：将文本分词数最多的实体类别作为目标文本行的目标实体类别。

S407：基于目标实体类别，更新目标文本行中各文本分词的实体类别。

实际应用中，文档识别结果可能存在识别错误，基于上述修正步骤能够对该结果进行修正，以提高识别准确率和系统鲁棒性。具体的，文档识别结果中包括每一文本分词和非文本图像块的实体类别，以文本行和非文本图像块作为锚点，将包括两种或两种以上实体类别的文本行作为目标文本行，对每一目标文本行中各文本分词的实体类别进行投票处理，将投票数最多的，即文本分词数最多的实体类别确定为文本行的目标实体类别，即将相应目标文本行中的其它实体类别的文本分词均更新为目标实体类别。在一些实施例中，还可以将包括两种或两种以上实体类别的非文本图像块确定为目标图像块，基于前述的投票处理方式，确定目标图像块的实际实体类别，并进行实体类别更新。如此，可以避免文档识别的局部错误，提高识别结果的准确率和鲁棒性。

具体的，也可以对每一文本行和每一非文本图像块进行前述的投票操作，得到各自的实体类别，然后对每一文本行和每一非文本图像块进行整体实体类别标记。请参考图7，图7为一个实施例提供的修正前后的文档识别结果示意图，左图为修正前的文档识别结果，图7中箭头标记的文本分词的实体类别结果为附图，而文本行中其它文本分词的实体类别结果为普通文本，显然存在识别错误，对该文本行进行投票后，确定箭头标记的文本分词的实体类别为普通文本，并对其进行更新，得到右图中的实体识别结果。

本申请实施例中，请参考图8和图9，图8示出了一种文档识别系统的结构框架图，图9示出了一个实施例提供的文档识别方法的原理流程图。文档识别系统包括对象提取模块、字符识别模块、特征提取模块、特征融合模块和目标实体识别网络；其中，对象提取模块用于对待识别文档图像或样本文档图像进行图像分割处理，以实现文档版面分析，得到文本图像块、非文本图像块和分块位置信息；字符识别模块用于对文本图像块进行字符识别，以得到对应的文本行和文本行的位置信息；特征提取模块可以包括分词子模块、分词特征提取网络、图像特征提取网络和位置特征嵌入子模块，分别用于对字符识别模块输出的文本行和非文本图像块进行分词处理和分词特征提取，对文本分词和非文本图像块的图像区域进行图像特征提取，对位置信息进行位置特征嵌入处理，以及对得到的多种模态特征进行拼接，得到文本拼接特征、图像拼接特征和位置拼接特征；特征融合模块用于对文本拼接特征、图像拼接特征和位置拼接特征进行相加处理，得到多模态融合特征，并将其输入至目标实体识别网络，以进行文档识别处理，得到文档识别结果。如此，通过系统设计实现端到端的结果输出，简化操作成本。

现有文档识别方案主要包括以下三种方式：1)基于专家知识/规则库，基于通用文档的常见元素类别，构建知识库，通过匹配输入文本和知识库中的对象的相似度来完成实体识别。例如输入“2.1XXX”，“2.1”是常见章节序号，故将“2.1XXX”识别为“章节”；2)基于传统机器学习方法，如隐马尔可夫模型，叠加条件随机场，通过隐马尔可夫模型建立不同文本词汇间的转移概率，并进一步通过条件随机场进行约束学习和结果优化；3)基于深度学习的方法，如长短时间记忆网络或注意力网络，通过神经网络的强大建模能力，建立更强更紧密的词/词或句子/句子关系来完成NER。然而，方法1)受限于库知识的多寡，泛化性较差，方法2)虽然能在简单场景上达到良好效果，但在复杂文本结构场景上，由于难以捕捉长距离依赖和相关关系，难以达到满意效果，方法3)能在指定文档场景上达到较好效果，但受限于训练数据的量级，难以在通用文档场景上达到良好的泛化性。而基于本申请的上述技术方案无需构建知识库，降低所需的标注训练数据量，提高方法泛化性，以及结合多模态特征实现文档的细粒度属性识别，提高识别准确率。

本申请实施例还提供了一种基于多模态的文档识别装置700，如图10所示，装置包括：

文档数据获取模块10：用于获取待识别文档对应的文档图像，待识别文档中包括至少一种文档元素；

图像分割模块20：用于对待识别文档对应的文档图像进行图像分割处理，得到待识别文档对应的文本图像块、非文本图像块和分块位置信息；

分词特征提取模块30：用于分别对文本图像块和非文本图像块进行分词特征提取，得到待识别文档对应的文本分词的分词特征和分词位置信息；

图像特征提取模块40：用于对文档图像进行非文本图像块和文本分词的图像特征提取，得到非文本图像块的第一图像特征和文本分词的第二图像特征；

位置特征映射模块50：用于分别对文本分词的分词位置信息和分块位置信息进行特征映射处理，得到文本分词的分词位置特征和非文本图像块的分块位置特征；

特征融合模块60：用于基于分词位置信息和分块位置信息，对分词特征、第一图像特征、第二图像特征、分词位置特征和分块位置特征进行特征融合处理，得到待识别文档的多模态融合特征；

实体识别模块70：用于对多模态融合特征进行实体识别，得到待识别文档的文档识别结果，文档识别结果包括待识别文档对应的文本分词和非文本图像块的实体类别。

在一些实施例中，实体识别模块70可以具体用于：调用目标实体识别网络对多模态融合特征进行实体识别，得到文档识别结果；

其中，目标实体识别网络是基于第一样本文档图像对应的样本融合特征和实体类别标签对预训练识别网络进行实体识别的约束训练得到的，预训练识别网络为基于第二样本文档图像对应的样本融合特征和文档类别标签对初始识别网络进行特征遮盖预测和文档分类识别的联合训练得到的。

在一些实施例中，装置还可以包括：

训练数据获取模块：用于获取训练数据集和初始识别网络，训练数据集包括第二样本文档图像和对应的文档类别标签；

样本特征提取模块：用于对第二样本文档图像进行特征提取，得到第二样本文档图像对应的样本融合特征；

特征遮盖模块：用于对样本融合特征进行特征遮盖处理，得到目标样本特征；

预训练模块：用于以目标样本特征作为初始识别网络的输入，分别以遮盖特征和文档类别标签作为期望输出，对初始识别网络进行特征遮盖预测和文档分类识别的联合训练，得到预训练识别网络。

在一些实施例中，分词特征提取模块30可以包括：

标识文本获取子模块：用于获取非文本图像块对应的元素块标识文本，元素块标识文本表征非文本图像块的文档元素类别；

字符识别子模块：用于对文本图像块进行字符识别，得到文本图像块对应的文本行和文本行的位置信息；

分词处理子模块：用于分别对文本行和元素块标识文本进行分词处理，得到待识别文档对应的文本分词；

分词位置确定子模块：用于基于文本行的位置信息和分块位置信息，确定文本分词的分词位置信息；

分词特征嵌入子模块：用于对文本分词进行特征嵌入处理，得到文本分词的分词特征。

在一些实施例中，图像特征提取模块40可以包括：

特征图获取子模块：用于分别获取非文本图像块和文本分词在文档图像中对应的图像区域的特征图；

图像特征提取子模块：用于分别对非文本图像块对应的特征图和文本分词对应的特征图进行特征提取，得到第一图像特征和第二图像特征。

在一些实施例中，特征图获取子模块可以包括：

第一卷积处理单元：用于对文档图像进行卷积处理，得到文档图像对应的文档特征图；

特征图确定单元：用于基于分词位置信息和分块位置信息，从文档特征图中确定出文本分词对应的特征图和非文本图像块对应的特征图。

在另一些实施例中，特征图获取子模块可以包括：

图像区域获取单元：用于分别获取文本分词和非文本图像块在文档图像中对应的图像区域；

第二卷积处理单元：用于对文本分词和非文本图像块对应的图像区域进行卷积处理，得到文本分词对应的特征图和非文本图像块对应的特征图。

在一些实施例中，特征融合模块60可以包括：

特征拼接子模块：用于基于分词位置信息和分块位置信息，分别进行分词特征的特征拼接处理，第一图像特征和第二图像特征的特征拼接处理，以及分词位置特征和分块位置特征的特征拼接处理，得到待识别文档的文本拼接特征、图像拼接特征和位置拼接特征；

特征融合子模块：用于对待识别文档的文本拼接特征、图像拼接特征和位置拼接特征进行特征融合，得到多模态融合特征。

在一些实施例中，装置还可以包括：

目标文本行确定模块：用于根据文档识别结果，从待识别文档对应的文本行中确定出目标文本行，目标文本行中存在至少两种实体类别的文本分词；

分词数统计模块：用于对至少两种实体类别进行分词数统计，得到至少两种实体类别中每一实体类别的文本分词数；

目标实体类别确定模块：用于将文本分词数最多的实体类别作为目标文本行的目标实体类别；

实体类别更新模块：用于基于目标实体类别，更新目标文本行中各文本分词的实体类别。

上述装置实施例中的装置与方法实施例基于同样的申请构思。

本申请实施例提供了一种基于多模态的文档识别设备，该基于多模态的文档识别设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的基于多模态的文档识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的电子设备中执行。图11是本申请实施例提供的一种用于执行多模态的文档识别方法的电子设备的硬件结构框图。如图11所示，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830，一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中，存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质820通信，在电子设备800上执行存储介质820中的一系列指令操作。电子设备800还可以包括一个或一个以上电源860，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口840，和/或，一个或一个以上操作系统821，例如Windows Server^TM，Mac OS X^TM，Unix^TM,LinuxTM，FreeBSDTM等等。

输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备800的通信供应商提供的无线网络。在一个实例中，输入输出接口840包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口840可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备800还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

本申请的实施例还提供了一种存储介质，存储介质可设置于电子设备之中以保存用于实现方法实施例中一种图像的加噪处理方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的图像的加噪处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络电子设备中的至少一个网络电子设备，如多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

由上述本申请提供的基于多模态的文档识别方法、装置、设备、终端、服务器、存储介质或计算机程序的实施例可见，本申请首先获取待识别文档对应的文档图像，该待识别文档中包括至少一种文档元素；对待识别文档对应的文档图像进行图像分割处理，得到待识别文档对应的文本图像块、非文本图像块和分块位置信息；然后，分别对文本图像块和非文本图像块进行分词特征提取，得到待识别文档对应的文本分词的分词特征和分词位置信息，对文档图像进行非文本图像块和文本分词的图像特征提取，得到非文本图像块的第一图像特征和文本分词的第二图像特征，分别对文本分词的分词位置信息和分块位置信息进行特征映射处理，得到文本分词的分词位置特征和非文本图像块的分块位置特征，进而得到待识别文档的多种模态的细粒度特征；进一步的，基于分词位置信息和分块位置信息，对分词特征、第一图像特征、第二图像特征、分词位置特征和分块位置特征进行特征融合处理，得到待识别文档的多模态融合特征，对包含多层次、多模态文档信息的多模态融合特征进行实体识别，得到待识别文档的文档识别结果，实现精确的文档元素的细粒度属性识别，显著提高元素属性识别和位置标记的准确率，能够为高阶文档识别任务提供高价值输入。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多模态的文档识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述多模态融合特征进行实体识别，得到所述待识别文档的文档识别结果包括：

调用目标实体识别网络对所述多模态融合特征进行实体识别，得到所述文档识别结果；

其中，所述目标实体识别网络是基于第一样本文档图像对应的样本融合特征和实体类别标签对预训练识别网络进行实体识别的约束训练得到的，所述预训练识别网络为基于第二样本文档图像对应的样本融合特征和文档类别标签对初始识别网络进行特征遮盖预测和文档分类识别的联合训练得到的。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练数据集和初始识别网络，所述训练数据集包括第二样本文档图像和对应的文档类别标签；

对所述第二样本文档图像进行特征提取，得到所述第二样本文档图像对应的样本融合特征；

对所述样本融合特征进行特征遮盖处理，得到目标样本特征；

以所述目标样本特征作为所述初始识别网络的输入，分别以遮盖特征和文档类别标签作为期望输出，对所述初始识别网络进行特征遮盖预测和文档分类识别的联合训练，得到所述预训练识别网络。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述分别对所述文本图像块和所述非文本图像块进行分词特征提取，得到所述待识别文档对应的文本分词的分词特征和分词位置信息包括：

获取所述非文本图像块对应的元素块标识文本，所述元素块标识文本表征所述非文本图像块的文档元素类别；

对所述文本图像块进行字符识别，得到所述文本图像块对应的文本行和所述文本行的位置信息；

分别对所述文本行和所述元素块标识文本进行分词处理，得到所述待识别文档对应的文本分词；

基于所述文本行的位置信息和所述分块位置信息，确定所述文本分词的分词位置信息；

对所述文本分词进行特征嵌入处理，得到所述文本分词的分词特征。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述文档图像进行所述非文本图像块和所述文本分词的图像特征提取，得到所述非文本图像块的第一图像特征和所述文本分词的第二图像特征包括：

分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特征图；

分别对所述非文本图像块对应的特征图和所述文本分词对应的特征图进行特征提取，得到所述第一图像特征和所述第二图像特征。

6.根据权利要求5所述的方法，其特征在于，所述分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特征图包括：

对所述文档图像进行卷积处理，得到所述文档图像对应的文档特征图；

基于所述分词位置信息和所述分块位置信息，从所述文档特征图中确定出所述文本分词对应的特征图和所述非文本图像块对应的特征图。

7.根据权利要求5所述的方法，其特征在于，所述分别获取所述非文本图像块和所述文本分词在所述文档图像中对应的图像区域的特征图包括：

分别获取所述文本分词和所述非文本图像块在所述文档图像中对应的图像区域；

对所述文本分词和所述非文本图像块对应的图像区域进行卷积处理，得到所述文本分词对应的特征图和所述非文本图像块对应的特征图。

8.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于所述分词位置信息和所述分块位置信息，对所述分词特征、所述第一图像特征、所述第二图像特征、所述分词位置特征和所述分块位置特征进行特征融合处理，得到所述待识别文档的多模态融合特征包括：

基于所述分词位置信息和所述分块位置信息，分别进行所述分词特征的特征拼接处理，所述第一图像特征和所述第二图像特征的特征拼接处理，以及所述分词位置特征和所述分块位置特征的特征拼接处理，得到所述待识别文档的文本拼接特征、图像拼接特征和位置拼接特征；

对所述待识别文档的文本拼接特征、图像拼接特征和位置拼接特征进行特征融合，得到所述多模态融合特征。

9.根据权利要求4所述的方法，其特征在于，在所述对所述目标文档特征进行实体识别，得到文档识别结果之后，所述方法还包括：

根据所述文档识别结果，从所述待识别文档对应的文本行中确定出目标文本行，所述目标文本行中存在至少两种实体类别的文本分词；

对所述至少两种实体类别进行分词数统计，得到所述至少两种实体类别中每一实体类别的文本分词数；

将所述文本分词数最多的实体类别作为所述目标文本行的目标实体类别；

基于所述目标实体类别，更新所述目标文本行中各文本分词的实体类别。

10.一种基于多模态的文档识别装置，其特征在于，所述装置包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9中任一项所述的基于多模态的文档识别方法。

12.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-9中任一项所述的基于多模态的文档识别方法。

13.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1-9中任一项所述的基于多模态的文档识别方法。