CN114792424B

CN114792424B - 文档图像的处理方法、装置及电子设备

Info

Publication number: CN114792424B
Application number: CN202210619581.1A
Authority: CN
Inventors: 王文瑾; 黄正杰; 罗斌; 彭启明; 尹维冲; 冯仕堃; 黄世维; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2024-08-30
Anticipated expiration: 2042-05-30
Also published as: US20230222827A1; CN114792424A

Abstract

本公开提供了一种文档图像的处理方法、装置及电子设备，涉及突出处理技术领域，尤其涉人工智能、自然语义处理等技术领域。具体实现方案为：获取待处理的文档图像；获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；根据多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。本方案可以结合不同粒度元素，使获得语义特征信息更加丰富全面。

Description

文档图像的处理方法、装置及电子设备

技术领域

本公开涉及图像处理技术领域，具体涉及人工智能、自然语言处理等技术领域，尤其涉及一种文档图像的处理方法、装置及电子设备。

背景技术

视觉丰富文档理解是文档智能的重要环节，是处理、分析扫描文档、数字文档等的关键技术。然而，要准确理解视觉丰富文档的内容，需要全面地考虑文档中的文本和视觉元素信息，以及这些元素间的布局关系。所以，如何全面地对文档图像进行视觉丰富的文档信息表示，已成为亟需解决的问题。

发明内容

本公开提供了一种文档图像的处理方法、装置及电子设备。

根据本公开的第一方面，提供了一种文档图像的处理方法，包括：

获取待处理的文档图像；

获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；

根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；

根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息。

在本公开的一些实施例中，所述获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，包括：

将所述文档图像以文字为粒度进行文本识别，获得所述细粒度文本结点及其结点信息；

将所述文档图像以文本段为粒度进行文本识别，获得所述粗粒度文本结点及其结点信息；

将所述文档图像进行图像切分，获得所述细粒度视觉结点及其结点信息；

将所述文档图像进行显著性视觉区域识别，获得所述粗粒度视觉结点及其结点信息。

在本公开的一些实施例中，所述根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图，包括：

根据所述细粒度文本结点及其结点信息和所述细粒度视觉结点及其结点信息，在所有细粒度结点之间构建两两互连的全连接细粒度边；

根据所述粗粒度文本结点及其结点信息和所述粗粒度视觉结点及其结点信息，在所有粗粒度结点之间构建两两互连的全连接粗粒度边；

根据所述细粒度文本结点的结点信息和所述粗粒度文本结点的结点信息，构建所述细粒度文本结点与其所属的粗粒度文本结点之间的第一跨粒度边；

根据所述细粒度视觉结点的结点信息和所述粗粒度视觉结点的结点信息，构建所述细粒度视觉结点与其所属粗粒度视觉结点之间的第二跨粒度边；

根据所述细粒度文本结点、所述粗粒度文本结点、所述细粒度视觉结点、所述粗粒度视觉结点、所述全连接细粒度边、所述全连接粗粒度边、所述第一跨粒度边和所述第二跨粒度边，获得所述多粒度多模态文档图。

作为一种可能的实现方式，所述根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息，包括：

基于所述全连接细粒度边，对所述细粒度文本结点的结点信息和所述细粒度视觉结点的结点信息分别进行编码，获取所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息；

根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息；

基于所述全连接粗粒度边，根据所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息；

根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息；

将所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，作为所述文档图像对应的多粒度语义特征信息。

其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，包括：

基于所述第一跨粒度边，确定与所述粗粒度文本结点连接的目标细粒度文本结点，并将所述目标细粒度文本结点的语义特征信息进行聚合，获得所述粗粒度文本结点的第一语义特征信息；

基于所述第二跨粒度边，确定与所述粗粒度视觉结点连接的目标细粒度视觉结点，并将所述目标细粒度视觉结点的语义特征信息进行聚合，获得所述粗粒度视觉结点的第一语义特征信息。

其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，包括：

基于所述第一跨粒度边，确定所述细粒度文本结点所属的目标粗粒度文本结点，并将所述细粒度文本结点的语义特征信息和所述目标粗粒度文本结点的第二语义特征信息进行融合处理，获得所述细粒度文本结点的目标语义特征信息；

基于所述第二跨粒度边，确定所述细粒度视觉结点所属的目标粗粒度视觉结点，并将所述细粒度视觉结点的语义特征信息和所述目标粗粒度视觉结点的第二语义特征信息进行融合处理，获得所述细粒度视觉结点的目标语义特征信息。

作为另一种可能的实施方式，所述方法还包括：

确定所述粗粒度文本结点对应的文本段中是否存在实体；

响应于所述文本段中存在实体，确定所述文本段中的实体类型；

将所述文本段中的实体类型对应的特征信息增加到所述粗粒度文本结点的第一语义特征信息中，获得所述粗粒度文本结点的增强语义特征信息；

其中，所述基于所述全连接粗粒度边，根据所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息，包括：

基于所述全连接粗粒度边，根据所述粗粒度文本结点的增强语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息。

根据本公开的第二方面，提供了一种文档图像的处理装置，包括：

第一获取模块，用于获取待处理的文档图像；

第二获取模块，用于获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；

构建模块，用于根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；

确定模块，用于根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息。

在本公开的一些实施例中，所述第二获取模块具体用于：

作为一种可能的实施方式，所述构建模块具体用于：

在本公开的一些实施例中，所述确定模块包括：

第一获取单元，用于基于所述全连接细粒度边，对所述细粒度文本结点的结点信息和所述细粒度视觉结点的结点信息分别进行编码，获取所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息；

第二获取单元，用于根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息；

第三获取单元，用于基于所述全连接粗粒度边，根据所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息；

第四获取单元，用于根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息；

第一确定单元，用于将所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，作为所述文档图像对应的多粒度语义特征信息。

其中，所述第二获取单元具体用于：

作为一种实施方式，所述第四获取单元具体用于：

在本公开的另一些实施例中，所述确定模块还包括：

第二确定单元，用于确定所述粗粒度文本结点对应的文本段中是否存在实体；

第三确定单元，用于响应于所述文本段中存在实体，确定所述文本段中的实体类型；

第五获取单元，用于将所述文本段中的实体类型对应的特征信息增加到所述粗粒度文本结点的第一语义特征信息中，获得所述粗粒度文本结点的增强语义特征信息；

其中，所述第三获取单元具体用于：

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述第一方面所述的方法。

根据本公开的技术方案，通过获取待处理的文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，并基于各结点和各结点信息构建多粒度多模态文档图，以根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。本方案通过考虑了文档图像中的多粒度元素，并通过多粒度多模态文档图来表示不同粒度不同模态元素间的复杂关系，以使获得的语义特征信息更加丰富全面，从而可以实现全面地对文档图像进行视觉丰富的文档信息表示，以提升文档理解的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开实施例中一种语义特征提取模型的结构示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是用来实现本公开实施例的文档图像的处理方法的电子设备的结构框图；

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。所涉及的用户个人信息是在争得用户同意的情况下获取、存储和应用的。

需要说明的是，视觉丰富文档理解是文档智能的重要环节，是处理、分析扫描文档、数字文档等的关键技术。然而，要准确理解视觉丰富文档的内容，需要全面地考虑文档中的文本和视觉元素信息，以及这些元素间的布局关系。所以，如何全面地对文档图像进行视觉丰富的文档信息表示，已成为亟需解决的问题。

为了解决上述问题，本公开提供了一种文档图像的处理方法、装置及电子设备。

图1为本公开实施例提供的一种文档图像的处理方法的流程图。需要说明的是，本公开实施例中的文档图像的处理方法可用于本公开实施例中的文档图像的处理装置，且本公开实施例中的文档图像的处理装置可配置于电子设备中。如图1所示，该方法可以包括以下步骤：

步骤101，获取待处理的文档图像。

在本公开的一些实施例中，文档图像是指图像格式的文档，可以为通过某种方式将纸质文档转为图像格式的文档，比如文档的扫描文件等。文档图像中可以包括文字、图表等内容，且文档图像可以为任何领域下的文档，比如学术文章、公司内部的项目书、发票、收据等。

在本公开的一些实施例中，本方法的执行主体可以为膝上型计算机、台式计算机、工作台等电子设备。待处理的文档图像可以为用户通过电子设备的交互界面选择的需要处理的文档图像，这样，待处理的文档图像可以基于交互界面的用户提交信息来获取。此外，待处理的文档图像也可以基于预设的程序进行自动获取，比如，可以自动按照预设路径获取经过扫描后得到的文档图像。

步骤102，获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息。

相关技术中用于对文档图像语义进行表达的实现方式主要考虑了文档中的单词和图片分片元素，即某一粒度下的文本结点和视觉结点。本公开的发明人发现，类似短语、多词表达的自然语义单元和对理解文档占主导地位的显著视觉区域等，通常包含丰富且一致的语义信息，对理解文档有重要的作用，所以本公开提出了考虑多粒度的多模态文档元素，以获取文档图像中的语义特征信息。

在本公开的一些实施例中，多粒度文本结点是指不同细分程度的文本结点，即不同粒度的文本结点。比如多粒度文本结点可以包括以图像中的文字或者单词为细分程度的文本结点，也可以包括以图像中的词语和短语为细分程度的文本结点，也可以包括以图像中的句子为细分程度的结点等。此外，各粒度的文本结点对应文档图像中按照细分程度进行划分后的文本，各粒度的文本结点的结点信息中包括该文本结点对应的文本内容和对应的文本内容相当于文档图像的位置信息。

作为一种示例，多粒度文本结点可以包括粗粒度文本结点和细粒度文本结点，其中，细粒度文本结点对应文档图像中的文字或者单词，比如：“电”、“话”等。粗粒度文本结点对应文档图像中类似短语、多词表达等文本段，比如：“电话”、“邮箱”、“日期”等。可以通过OCR(Optical Character Recognition，光学字符识别)技术对文档图像进行文本识别，以识别到文档图像中的文本及对应的位置信息和文档图像中的文本段及对应的位置信息；将识别到的每个文本作为一个细粒度文本结点，将每个细粒度文本结点对应的文本内容和其对应的位置信息作为细粒度文本结点的结点信息；将识别到的每个文本段作为一个粗粒度文本结点，将每个粗粒度文本结点对应的文本内容和其对应的位置信息作为粗粒度文本结点的结点信息；

在本公开的一些实施例中，多粒度视觉结点是指不同细分程度的视觉信息结点，即不同粒度的视觉信息结点。比如多粒度视觉结点可以包括以图像进行切分后的图像分片为细分程度的视觉结点，也可以包括以图像中的文档布局中各组成区域作为细分程度的视觉结点，也可以包括以图像中的显著性区域为细分程度的视觉结点等。此外，各粒度的视觉结点对应文档图像中按照细分程度进行划分后的图像内容信息，各粒度的视觉结点的结点信息中包括该视觉结点对应的图像内容信息和对应的图像内容相对于文档图像的位置信息。

作为一种示例，多粒度视觉结点可以包括粗粒度视觉结点和细粒度视觉结点，其中，细粒度视觉结点对应文档图像中的图像分片，比如按照预设的图像切分方式对文档图像进行切分处理后的图像分片，粗粒度视觉结点对应文档图像中的显著视觉区域，比如文档图像中的标题区域、图表区域等。可以通过预设的图像切分方式对文档图像进行切分处理，获得多个图像分片和每个图像分片相对于文档图像的位置信息；将每个图像分片作为一个细粒度视觉结点，每个细粒度视觉结点对应的图像分片中的内容信息和相对于文档图像的位置信息为该细粒度视觉结点的结点信息。此外，可以基于相关技术中的文档布局解析方法，获得图像文档中的多个分区，并将每个分区作为一个显著视觉区域，将每个显著视觉区域作为一个粗粒度视觉结点，每个粗粒度视觉结点对应的显著视觉区域中的内容及位置信息为该粗粒度视觉结点的结点信息。

步骤103，根据多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图。

在本公开的一些实施例中，多粒度多模态文档图用于表示文档图像中不同粒度、不同模态结点间的关系。也就是说，多粒度多模态文档图中包括多粒度文本结点、多粒度视觉结点，以及各个多粒度文本结点之间的位置关系、各个多粒度视觉结点之间的位置关系，以及各个多粒度文本结点与各个多粒度视觉结点之间的位置关系。

作为一种实施方式，可以按照预设的方式对不同粒度不同模态的结点进行边连接，其中，每个边可以用于表示两个结点之间的距离，这样可以通过边的长度来表示不同结点间的位置关系，即由各结点及对应的边组成多粒度多模态文档图。

步骤104，根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。

也就是说，结合各结点之间的关系以及各结点的结点信息，对文档图像中的语义信息进行提取，以得到文档图像的多粒度语义特征信息。

其中，多粒度语义特征信息是指结合了不同粒度的元素得到的文档图像的语义表达信息。且多粒度语义特征信息中包括文档图像的文本方面的语义特征、视觉方面的语义特征及布局方面的语义特征。

在本公开的一些实施例中，可以通过预设的语义特征提取模型来确定文档图像的多粒度语义特征信息，且语义特征提取模型已基于多粒度多模态文档图学到到了各结点之间的关系，且该模型已经学习得到基于文档图像的结点信息及关系信息，进行语义特征提取的能力；将多粒度文本结点的结点信息、多粒度视觉结点的结点信息组成序列输入至语义特征提取模型，获得文档图像的多粒度语义特征信息。

在本公开的另一些实施例中，若多粒度文本结点包括细粒度文本结点和粗粒度文本结点，多粒度视觉结点包括细粒度视觉结点和粗粒度视觉结点；可以基于细粒度文本结点和细粒度视觉结点的结点信息和细粒度结点之间的关系，获得细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息；由于粗粒度结点与细粒度结点之间存在位置包含关系，所以可以根据粗粒度结点与细粒度结点之间的位置关系，确定每个粗粒度结点中包含的细粒度结点，并将对应的细粒度结点的语义特征信息的平均值作为该粗粒度结点的语义特征信息，从而得到粗粒度文本结点的语义特征信息和粗粒度视觉结点的语义特征信息；对粗粒度文本结点和粗粒度视觉结点的语义特征信息进行编码，可以得到粗粒度文本结点目标语义特征信息和粗粒度视觉结点的目标语义特征信息；可以根据细粒度结点与粗粒度结点之间的关系，将粗粒度结点的目标语义特征信息融合至细粒度结点的语义特征信息中，最终得到文档图像的多粒度语义特征信息。

根据本公开实施例的文档图像的处理方法，通过获取待处理的文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，并基于各结点和各结点信息构建多粒度多模态文档图，以根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。本方案通过考虑了文档图像中的不同粒度元素，并通过多粒度多模态文档图来表示不同粒度不同模态元素间的复杂关系，以使获得的语义特征信息更加丰富全面，从而可以实现全面地对文档图像进行视觉丰富的文档信息表示，以提升文档理解的准确性。

接下来，将针对获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息的实现过程进行详细介绍。

图2为本公开实施例中获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息得到实现过程的流程图。如图2所示，该过程包括以下步骤：

步骤201，将文档图像以文字为粒度进行文本识别，获得细粒度文本结点及其结点信息。

作为一种实施方式，可以通过OCR技术对文档图像以文字为粒度进行文本识别，获得识别到的文字或者单词及其各自相对于图像文档的位置信息，其中每个文字或者单词均作为一个细粒度文本结点，并将细粒度文本结点对应的文字或者单词的向量表达和对应的文字或者单词在图像文档中的位置信息作为该细粒度文本结点的结点信息。

步骤202，将文档图像以文本段为粒度进行文本识别，获得粗粒度文本结点及其结点信息。

作为一种实施方式，可以通过OCR技术对文档图像以文字段为粒度进行文本识别，获得识别到的文本段及各自相对于图像文档的位置信息；将每个文本段作为一个粗粒度文本结点；将每个粗粒度文本结点对应的文本段的向量表达，和对应的文本段在图像文档中的位置信息作为该粗粒度文本结点的结点信息。

步骤203，将文档图像进行图像切分，获得细粒度视觉结点及其结点信息。

作为一种实施方式，可以通过预设的图像切分方式对文档图像进行切分处理，获得多个图像分片和每个图像分片相对于文档图像的位置信息；将每个图像分片作为一个细粒度视觉结点；通过视觉编码器对文档图像进行视觉信息提取，获取每个图像分片的视觉信息；将每个细粒度视觉结点对应的图像分片的视觉信息和对应的图像分片在文档图像中的位置信息作为细粒度视觉结点的结点信息。

步骤204，将文档图像进行显著性视觉区域识别，获得粗粒度视觉结点及其结点信息。

在本公开的一些实施例中，可以从图像文档中探测显著视觉区域及各区域在图像文档中的位置信息；根据每个显著视觉区域中的包含的图像分片的视觉信息，确定每个显著视觉区域的视觉信息；将每个显著视觉区域作为一个粗粒度视觉结点；将每个粗粒度视觉结点对应的显著视觉区域的时间信息和位置信息作为粗粒度视觉结点的结点信息。

作为一种示例，从图像文档获取显著视觉区域的方法可以包括：基于粗粒度文本结点进行两两互联，构造粗粒度文本图，其中，每个结点间的边表示两个结点的距离；通过图分割算法将粗粒度文本图分割为多个子图；将每个子图作为一个显著视觉区域，并将其所包含的所有粗粒度文本结点的位置信息的并集作为该显著视觉区域的位置信息。

作为另一种示例，从图像文档获取显著视觉区域的方法可以包括：基于粗粒度文本结点进行两两互联，构造粗粒度文本图，其中，每个结点间的边表示两个结点的距离；应用基于密度的聚类算法将粗粒度文本图划分为多个高密度区域，并将每个高密度区域作为一个显著视觉区域，并将其所包含的所有粗粒度文本结点的位置信息的并集作为该显著视觉区域的位置信息。

作为又一种示例，可以基于相关技术中的文档布局解析方法，获得图像文档中的多个分区，并将每个分区作为一个显著视觉区域，每个分区的位置信息即为显著视觉区域的位置信息。

根据本公开实施例的文档图像的处理方法，通过获得细粒度文本结点、粗粒度文本结点、细粒度视觉结点、粗粒度视觉结点及各个结点的结点信息，来构建多粒度多模态文档图，以基于多粒度多模态文档图及粗粒度结点和细粒度结点的结点信息，来确定文档图像的多粒度语义特征信息。本方案可以结合细粒度元素和粗粒度元素，及不同粒度不同模态的元素间的关系，获得更加丰富全面的语义特征信息，从而提升文档理解的准确性。

接下来将针对构建多粒度多模态文档图的过程进行详细介绍。

图3为本公开实施例中构建多粒度多模态文档图的流程图。如图3所示，基于上述实施例，图1中的步骤103的实现过程包括以下步骤：

步骤301，根据细粒度文本结点及其结点信息和细粒度视觉结点及其结点信息，在所有细粒度结点之间构建两两互连的全连接细粒度边。

也就是说，在每个细粒度文本结点之间构建两两互连的全连接细粒度边，在每个细粒度视觉结点之间构建两两互连的全连接细粒度边，并在每个细粒度文本结点与每个细粒度视觉结点之间构建两两互连的全连接细粒度边。

步骤302，根据粗粒度文本结点及其结点信息和粗粒度视觉结点及其结点信息，在所有粗粒度结点之间构建两两互连的全连接粗粒度边。

也就是说，在每个粗粒度文本结点之间构建两两互连的全连接粗粒度边，在每个粗粒度视觉结点之间构建两两互连的全连接粗粒度边，并在每个粗粒度文本结点与每个粗粒度视觉结点之间构建两两互连的全连接粗粒度边。

步骤303，根据细粒度文本结点的结点信息和粗粒度文本结点的结点信息，构建细粒度文本结点与其所属的粗粒度文本结点之间的第一跨粒度边。

可以理解，由于细粒度文本结点以文字为颗粒度，而粗粒度文本结点以文本段为颗粒度，所以细粒度文本结点对应的文字或者单词也可以属于某个粗粒度文本结点，这样，可以基于细粒度文本结点与粗粒度文本结点的结点信息，构建细粒度文本结点与其所属的粗粒度文本结点之间的第一跨粒度边，以基于第一跨粒度边表达细粒度文本结点与粗粒度文本结点之间的从属关系。

在本公开的一些实施例中，可以针对每个细粒度文本结点，根据该细粒度文本结点的结点信息和粗粒度文本结点的结点信息，确定该细粒度文本所属的目标粗粒度文本结点，其中该细粒度文本结点对应的文字属于目标粗粒度文本结点的文本段，且该细粒度文本结点的位置信息包含于目标粗粒度文本结点的位置信息，则在该细粒度文本结点与目标粗粒度文本结点之间构建第一跨粒度边。

步骤304，根据细粒度视觉结点的结点信息和粗粒度视觉结点的结点信息，构建细粒度视觉结点与其所属粗粒度视觉结点之间的第二跨粒度边。

可以理解，由于细粒度文本结点对应图像分片，而粗粒度视觉结点对应显著视觉区域，所以细粒度视觉结点对应的图像分片也可以属于某个粗粒度视觉结点对应的显著视觉区域，这样，可以基于细粒度视觉结点与粗粒度视觉结点间的位置关系，构建细粒度视觉结点与其所属的粗粒度视觉结点之间的第二跨粒度边，以基于第二跨粒度边表达细粒度视觉结点与粗粒度视觉结点之间的从属关系。

在本公开的一些实施例中，可以针对每个细粒度视觉结点，根据该细粒度视觉结点的结点信息和粗粒度视觉结点的结点信息，确定细粒度视觉结点的位置信息对应的边界框与每个粗粒度视觉结点的位置信息对应的边界框的IoU(Intersection over Union，重叠度)值，并将IoU值最大时对应的粗粒度视觉结点作为该细粒度视觉结点所属的目标粗粒度视觉结点；在该细粒度视觉结点与目标粗粒度视觉结点之间构建第二跨粒度边。

步骤305，根据细粒度文本结点、粗粒度文本结点、细粒度视觉结点、粗粒度视觉结点、全连接细粒度边、全连接粗粒度边、第一跨粒度边和第二跨粒度边，获得多粒度多模态文档图。

也就是说，将细粒度文本结点、粗粒度文本结点、细粒度视觉结点、粗粒度视觉结点、全连接细粒度边、全连接粗粒度边、第一跨粒度边和第二跨粒度边组成多粒度多模态文档图。

根据本公开实施例的文档图像的处理方法，通过在所有细粒度结点之间构建两两互连的全连接细粒度边、在所有粗粒度结点之间构建两两互连的全连接粗粒度边，以由全连接粗粒度边和全连接细粒度边表示各粗粒度结点之间及各细粒度结点之间的相对位置关系。通过在细粒度文本结点与其所属的粗粒度文本结点之间的构建第一跨粒度边，在细粒度视觉结点与其所属的粗粒度视觉结点之间构建第二跨粒度边，以通过跨粒度边来表示细粒度结点与粗粒度结点之间的从属关系，使构成的多粒度多模态文档图可以表征各结点间的复杂关系。

基于上述实施例，接下来将针对确定文档图像的多粒度语义特征信息的过程进行详细介绍。

图4为本公开实施例提供的一种确定文档图像的多粒度语义特征信息的流程图。如图4所示，基于上述实施例，图1中的步骤104的实现过程可以包括以下步骤：

步骤401，基于全连接细粒度边，对细粒度文本结点的结点信息和细粒度视觉结点的结点信息分别进行编码，获取细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息。

也就是说，基于各细粒度结点之间的相对位置关系，对各细粒度文本结点的结点信息和各细粒度视觉结点的结点信息分别进行编码，以结合各细粒度结点的结点信息，获取每个细粒度文本结点的语义特征信息和每个细粒度视觉结点的语义特征信息。

在本公开的一些实施例中，可以通过基于多粒度多模态文档图中的全连接细粒度边学习到各细粒度结点之间的相对位置关系的Transformer模型，对各细粒度文本结点的结点信息和各细粒度视觉结点的结点信息进行编码，并结合各细粒度结点之间的位置关系和各细粒度结点的结点信息，生成每个细粒度文本结点的语义特征信息和每个细粒度视觉结点的语义特征信息。

步骤402，根据第一跨粒度边、第二跨粒度边、细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息，获取粗粒度文本结点的第一语义特征信息和粗粒度视觉结点的第一语义特征信息。

可以理解，第一跨粒度边可以表达各细粒度文本结点与粗粒度文本结点之间的从属关系，第二跨粒度边可以表达各细粒度视觉结点与粗粒度视觉结点之间的从属关系，这样每个粗粒度文本结点可以认为是由多个细粒度文本结点组成，每个粗粒度视觉结点可以认为是由多个细粒度视觉结点组成，所以可以基于每个粗粒度文本结点中的多个细粒度文本结点的语义特征信息来确定粗粒度文本结点的第一语义特征信息，基于每个粗粒度视觉结点中的多个细粒度视觉结点的语义特征信息来确定粗粒度视觉结点的第一语义特征信息。

在本公开的一些实施例中，步骤402的实现过程可以包括：基于第一跨粒度边，确定与粗粒度文本结点连接的目标细粒度文本结点，并将目标细粒度文本结点的语义特征信息进行聚合，获得粗粒度文本结点的第一语义特征信息；基于第二跨粒度边，确定与粗粒度视觉结点连接的目标细粒度视觉结点，并将目标细粒度视觉结点的语义特征信息进行聚合，获得粗粒度视觉结点的第一语义特征信息。

也就是说，针对每个粗粒度文本结点，可以基于第一跨粒度边，确定与该粗粒度文本结点连接的目标细粒度文本结点，其中目标细粒度文本结点可以为一个或者多个；并将目细粒度文本结点的语义特征信息进行聚合，比如可以将所有目标细粒度文本结点的语义特征信息进行求平均计算，得到该粗粒度文本结点的第一语义特征信息。针对每个粗粒度视觉结点，可以基于第二跨粒度边，确定与该粗粒度视觉结点连接的目标细粒度视觉结点，其中目标细粒度视觉结点可以为一个或者多个；并将目细粒度视觉结点的语义特征信息进行聚合，比如可以将所有目标细粒度视觉结点的语义特征信息进行求平均计算，得到该粗粒度视觉结点的第一语义特征信息。

步骤403，基于全连接粗粒度边，根据粗粒度文本结点的第一语义特征信息和粗粒度视觉结点的第一语义特征信息，获取粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息。

可以理解，粗粒度文本结点的第一语义特征信息和粗粒度视觉结点的第一语义特征信息均是基于细粒度结点的语义特征信息聚合得到的，不一定能完全表示各粗粒度结点的语义特征信息，所以基于各粗粒度结点之间的相对位置关系，根据各粗粒度文本结点的第一特征信息和各粗粒度视觉结点的第一特征信息进行特征提取，来获取每个粗粒度文本结点的第二语义特征信息和每个粗粒度视觉结点的第二语义特征信息，以通过第二语义特征信息对粗粒度结点进行更准确的语义表达。

在本公开的一些实施例中，可以通过基于多粒度多模态文档图中的全连接粗粒度边学习到各粗粒度结点之间的相对位置关系的Transformer模型，对各粗粒度文本结点的第一语义特征信息和各粗粒度视觉结点的第二语义特征信息进行编码，生成每个粗粒度文本结点的第二语义特征信息和每个粗粒度视觉结点的第二语义特征信息。

步骤404，根据第一跨粒度边、第二跨粒度边、粗粒度文本结点的第二语义特征信息、粗粒度视觉结点的第二语义特征信息、细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息，获取细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息。

可以理解，第一跨粒度边可以表达各细粒度文本结点与粗粒度文本结点之间的从属关系，第二跨粒度边可以表达各细粒度视觉结点与粗粒度视觉结点之间的从属关系，这样每个细粒度文本结点均属于与其通过第一跨粒度边连接的粗粒度文本结点，每个细粒度视觉结点均属于与其通过第二跨粒度边连接的粗粒度视觉结点。由于具备从属关系的细粒度结点和粗粒度结点的语义特征信息应该具有一致性，可以根据细粒度结点的语义特征信息和与其对应的粗粒度结点的语义特征信息，来确定细粒度结点的目标语义特征信息，以使细粒度结点的目标语义特征信息中同时包含有细粒度结点的语义特征信息和对应的粗粒度结点的第二语义特征信息。

在本公开的一些实施例中，步骤404的实现过程可以包括：基于第一跨粒度边，确定细粒度文本结点所属的目标粗粒度文本结点，并将细粒度文本结点的语义特征信息和目标粗粒度文本结点的第二语义特征信息进行融合处理，获得细粒度文本结点的目标语义特征信息；基于第二跨粒度边，确定细粒度视觉结点所属的目标粗粒度视觉结点，并将细粒度视觉结点的语义特征信息和目标粗粒度视觉结点的第二语义特征信息进行融合处理，获得细粒度视觉结点的目标语义特征信息。

也就是说，针对每个细粒度文本结点，可以基于第一跨粒度边，确定与该细粒度文本结点连接的目标粗粒度文本结点，其中目标粗粒度文本结点可以为一个或者多个；并将该细粒度文本结点的语义特征信息与目粗粒度文本结点的第二语义特征信息进行融合处理，比如可以将该细粒度文本结点的语义特征信息与目标粗粒度文本结点的第二语义特征信息进行叠加计算，得到该细粒度文本结点的目标语义特征信息。针对每个细粒度视觉结点，可以基于第二跨粒度边，确定与该细粒度视觉结点连接的目标粗粒度视觉结点，其中目标粗粒度视觉结点可以为一个或者多个；并将该细粒度视觉结点的语义特征信息与目标粗粒度视觉结点的第二语义特征信息进行融合处理，比如可以将该细粒度视觉结点的语义特征信息与目标粗粒度视觉结点的第二语义特征信息进行叠加计算，得到该细粒度视觉结点的目标语义特征信息。

步骤405，将细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息，作为文档图像对应的多粒度语义特征信息。

可以理解，由于细粒度文本结点的目标语义特征信息中引入了粗粒度文本结点的语义特征信息，细粒度视觉结点的目标语义特征信息中引入了粗粒度视觉结点的语义特征信息，即细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息中均结合了粗粒度结点的语义特征信息，所以可以将细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息作为文档图像对应的多粒度语义特征信息，以便于提升对文档理解的准确性，为后续进行文档图像的信息提取、分类等提供语义更加丰富的多模态信息表达。

根据本公开实施例的文档图像的处理方法，通过基于全连接细粒度边对细粒度结点的结点信息进行编码，获得细粒度结点的语义特征信息，并根据跨粒度边和细粒度结点的语义特征信息，获取粗粒度文本结点的第一语义特征信息，并通过对粗粒度文本结点的第一语义特征信息进行处理，获得粗粒度结点的第二语义特征信息，再基于跨粒度边、粗粒度结点的第二语义特征信息和细粒度结点的语义特征信息，获得细粒度结点的目标语义特征信息，以使得到的细粒度结点的目标语义特征信息结合有细粒度结点的语义特征信息和粗粒度结点的语义特征信息，从而得到文档图像对应的多粒度语义特征信息，以便于提升对文档理解的准确性，为后续进行文档图像的信息提取、分类等提供语义更加丰富的多模态信息表达。

为了提升语义特征信息表达的准确性，本公开提供了又一个实施例。

图5为本公开实施例提供的一种确定文档图像的多粒度语义特征信息的流程图。如图5所示，基于上述实施例，图1中的步骤104的实现过程可以包括以下步骤：

步骤501，基于全连接细粒度边，对细粒度文本结点的结点信息和细粒度视觉结点的结点信息分别进行编码，获取细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息。

步骤502，根据第一跨粒度边、第二跨粒度边、细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息，获取粗粒度文本结点的第一语义特征信息和粗粒度视觉结点的第一语义特征信息。

步骤503，确定粗粒度文本结点对应的文本段中是否存在实体。

在本公开的一些实施例中，可以通过相关技术中的实体识别算法来确定粗粒度文本结点对应的文本段中是否存在实体，其中实体可以为属于姓名、电话、邮箱等实体类型对应的内容。

步骤504，响应于文本段中存在实体，确定文本段中的实体类型。

步骤505，将文本段中的实体类型对应的特征信息增加到粗粒度文本结点的第一语义特征信息中，获得粗粒度文本结点的增强语义特征信息。

可以理解，由于粗粒度文本结点的第一语义特征信息均是基于粗粒度文本结点中包含的细粒度文本结点的语义特征信息得到的，但是细粒度文本结点的语义特征信息不能体现出实体关系，为了提升粗粒度文本结点的语义特征信息的准确性，可以将粗粒度文本结点对应的实体特征信息添加到第一语义特征信息中，以对粗粒度文本结点的第一语义特征信息进行增强，得到粗粒度文本结点的增强语义特征信息。

在本公开的一些实施例中，可以为各实体类型预设对应的向量表示，文本段中的实体类型对应的特征信息即文本段中的实体类型对应的向量表示。

步骤506，基于全连接粗粒度边，根据粗粒度文本结点的增强语义特征信息和粗粒度视觉结点的第一语义特征信息，获取粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息。

步骤507，根据第一跨粒度边、第二跨粒度边、粗粒度文本结点的第二语义特征信息、粗粒度视觉结点的第二语义特征信息、细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息，获取细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息。

步骤508，将细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息，作为文档图像对应的多粒度语义特征信息。

根据本公开实施例的文档图像的处理方法，增加了对粗粒度文本结点对应的文本段进行实体识别，以将对应的文本段中的实体类型的特征信息增加到粗粒度文本结点的第一语义特征信息中，以得到粗粒度文本结点的增强语义特征信息，从而可以提升得到的粗粒度文本结点和粗粒度视觉结点的第二语义特征信息的准确性，也可以进一步提升得到的文档图像对应的多粒度语义特征信息的准确性。

在本公开的另一些实施例中，图1中的步骤104也可以通过预设的语义特征提取模型来实现。图6为本公开实施例中的一种语义特征提取模型的结构示意图。如图6所示，该模型中包括：细粒度编码器601、跨粒度聚合层602、粗粒度编码器603和跨粒度融合层604，该特征提取模型已基于多粒度多模态文档图学习到了各结点之间的关系，且该特征提取模型已学习得到了基于文档图像的结点信息对文档图像进行语义特征提取的能力。

作为一种实施方式，图7为本公开实施例中的又一种获得文档图像对应的多粒度语义特征信息的流程图。如图7所示，基于上述实施例，图1中的步骤104的实现过程可以包括：

步骤701,将细粒度文本结点的结点信息和细粒度视觉结点的结点信息均输入至细粒度编码器，获得细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息。

在本公开的一些实施例中，细粒度编码器可以为transformer编码器，或者可以实现该编码过程的其他模型。可以将细粒度文本结点的结点信息和细粒度视觉结点的结点信息组成序列输入至细粒度编码器中，以对细粒度文本结点进行编码，并结合各细粒度结点的结点信息，获取每个细粒度文本结点的语义特征信息和每个细粒度视觉结点的语义特征信息。

步骤702，细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息输入至跨粒度聚合层，获得粗粒度文本结点的增强语义特征信息和粗粒度视觉结点的第一语义特征信息。

在本公开的一些实施例中，跨粒度聚合层可以基于第一跨粒度边和第二跨粒度边，确定每个粗粒度文本结点中包含的目标细粒度文本结点和每个粗粒度视觉结点中包含的目标细粒度视觉结点，并将目标细粒度文本结点的语义特征信息进行聚合，目标细粒度视觉结点的语义特征信息进行聚合，得到每个粗粒度文本结点的第一语义特征信息和每个粗粒度视觉结点的第一语义特征信息。同时，跨粒度聚合层还可以通过对每个粗粒度文本结点对应的文本段进行实体识别，以对每个粗粒度文本结点的第一语义特征信息进行增强处理，得到每个粗粒度文本结点的增强语义特征信息。

步骤703，将粗粒度文本结点的增强语义特征信息和粗粒度视觉结点的第一语义特征信息输入至粗粒度编码器，获得粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息。

在本公开的一些实施例中，粗粒度编码器可以为标准的Transformer编码器，用于对粗粒度文本结点增强语义特征信息和粗粒度视觉结点的第一语义特征信息进行编码，以提取到粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息。

步骤704，将细粒度文本结点的语义特征信息、细粒度视觉结点的语义特征信息、粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息输入至跨粒度融合层，获得文档图像对应的多粒度语义特征信息。

在本公开的一些实施例中，跨粒度融合层可以基于第一跨粒度边和第二跨粒度边确定每个细粒度文本结点所属的粗粒度文本结点，以及每个细粒度视觉结点所属的粗粒度视觉结点，并将每个细粒度文本结点的语义特征信息和对应的粗粒度文本结点的第二语义特征信进行融合处理，得到每个细粒度文本结点的目标语义特征信息，同时将么细粒度视觉结点的语义特征信息和对应的粗粒度视觉结点的第二语义特征信进行融合处理，得到每个细粒度视觉结点的目标语义特征信息，并将细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息作为文档图像对应的多粒度语义特征信息。

为了实现上述实施例，本公开提供了一种文档图像的处理装置。

图8为本公开实施例提供的一种文档图像的处理装置的结构框图。如图8所示，该装置包括：

第一获取模块810，用于获取待处理的文档图像；

第二获取模块820，用于获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；

构建模块830，用于根据多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；

确定模块840，用于根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。

在本公开的一些实施例中，第二获取模块820具体用于：

将文档图像以文字为粒度进行文本识别，获得细粒度文本结点及其结点信息；

将文档图像以文本段为粒度进行文本识别，获得粗粒度文本结点及其结点信息；

将文档图像进行图像切分，获得细粒度视觉结点及其结点信息；

将文档图像进行显著性视觉区域识别，获得粗粒度视觉结点及其结点信息。

作为一种可能的实施方式，构建模块830具体用于：

根据细粒度文本结点及其结点信息和细粒度视觉结点及其结点信息，在所有细粒度结点之间构建两两互连的全连接细粒度边；

根据粗粒度文本结点及其结点信息和粗粒度视觉结点及其结点信息，在所有粗粒度结点之间构建两两互连的全连接粗粒度边；

根据细粒度文本结点的结点信息和粗粒度文本结点的结点信息，构建细粒度文本结点与其所属的粗粒度文本结点之间的第一跨粒度边；

根据细粒度视觉结点的结点信息和粗粒度视觉结点的结点信息，构建细粒度视觉结点与其所属粗粒度视觉结点之间的第二跨粒度边；

根据细粒度文本结点、粗粒度文本结点、细粒度视觉结点、粗粒度视觉结点、全连接细粒度边、全连接粗粒度边、第一跨粒度边和第二跨粒度边，获得多粒度多模态文档图。

在本公开的一些实施例中，确定模块840包括：

第一获取单元841，用于基于全连接细粒度边，对细粒度文本结点的结点信息和细粒度视觉结点的结点信息分别进行编码，获取细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息；

第二获取单元842，用于根据第一跨粒度边、第二跨粒度边、细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息，获取粗粒度文本结点的第一语义特征信息和粗粒度视觉结点的第一语义特征信息；

第三获取单元843，用于基于全连接粗粒度边，根据粗粒度文本结点的第一语义特征信息和粗粒度视觉结点的第一语义特征信息，获取粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息；

第四获取单元844，用于根据第一跨粒度边、第二跨粒度边、粗粒度文本结点的第二语义特征信息、粗粒度视觉结点的第二语义特征信息、细粒度文本结点的语义特征信息和细粒度视觉结点的语义特征信息，获取细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息；

第一确定单元845，用于将细粒度文本结点的目标语义特征信息和细粒度视觉结点的目标语义特征信息，作为文档图像对应的多粒度语义特征信息。

其中，第二获取单元842具体用于：

基于第一跨粒度边，确定与粗粒度文本结点连接的目标细粒度文本结点，并将目标细粒度文本结点的语义特征信息进行聚合，获得粗粒度文本结点的第一语义特征信息；

基于第二跨粒度边，确定与粗粒度视觉结点连接的目标细粒度视觉结点，并将目标细粒度视觉结点的语义特征信息进行聚合，获得粗粒度视觉结点的第一语义特征信息。

作为一种实施方式，第四获取单元844具体用于：

基于第一跨粒度边，确定细粒度文本结点所属的目标粗粒度文本结点，并将细粒度文本结点的语义特征信息和目标粗粒度文本结点的第二语义特征信息进行融合处理，获得细粒度文本结点的目标语义特征信息；

基于第二跨粒度边，确定细粒度视觉结点所属的目标粗粒度视觉结点，并将细粒度视觉结点的语义特征信息和目标粗粒度视觉结点的第二语义特征信息进行融合处理，获得细粒度视觉结点的目标语义特征信息。

在本公开的另一些实施例中，确定模块840还包括：

第二确定单元846，用于确定粗粒度文本结点对应的文本段中是否存在实体；

第三确定单元847，用于响应于文本段中存在实体，确定文本段中的实体类型；

第五获取单元848，用于将文本段中的实体类型对应的特征信息增加到粗粒度文本结点的第一语义特征信息中，获得粗粒度文本结点的增强语义特征信息；

其中，第三获取单元843具体用于：

基于全连接粗粒度边，根据粗粒度文本结点的增强语义特征信息和粗粒度视觉结点的第一语义特征信息，获取粗粒度文本结点的第二语义特征信息和粗粒度视觉结点的第二语义特征信息。

根据本公开实施例的文档图像的处理装置，通过获取待处理的文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，并基于各结点和各结点信息构建多粒度多模态文档图，以根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。本方案通过考虑了文档图像中的不同粒度元素，并通过多粒度多模态文档图来表示不同粒度不同模态元素间的复杂关系，以使获得的语义特征信息更加丰富全面，从而可以实现全面地对文档图像进行视觉丰富的文档信息表示，以提升文档理解的准确性。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如文档图像的处理方法。例如，在一些实施例中，文档图像的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的文档图像的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档图像的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档图像的处理方法，包括：

获取待处理的文档图像；

获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，所述多粒度文本结点包括细粒度文本结点和粗粒度文本结点，所述多粒度视觉结点包括细粒度视觉结点和粗粒度视觉结点；

根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息、和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息；

其中，所述根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图，包括：

根据所述细粒度文本结点、所述粗粒度文本结点、所述细粒度视觉结点、所述粗粒度视觉结点、所述全连接细粒度边、所述全连接粗粒度边、所述第一跨粒度边和所述第二跨粒度边，获得所述多粒度多模态文档图；

其中，所述根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息，包括：

根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息；

2.根据权利要求1所述的方法，其中，所述获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，包括：

将所述文档图像以文字为粒度进行文本识别，获得细粒度文本结点及其结点信息；

将所述文档图像以文本段为粒度进行文本识别，获得粗粒度文本结点及其结点信息；

将所述文档图像进行图像切分，获得细粒度视觉结点及其结点信息；

将所述文档图像进行显著性视觉区域识别，获得粗粒度视觉结点及其结点信息。

3.根据权利要求2所述的方法，其中，所述根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，包括：

根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本节点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息；

基于所述全连接粗粒度边，根据所述粗粒度文本节点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息；

根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息。

4.根据权利要求3所述的方法，其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，包括：

5.根据权利要求3所述的方法，其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，包括：

6.根据权利要求3所述的方法，还包括：

确定所述粗粒度文本结点对应的文本段中是否存在实体；

7.一种文档图像的处理装置，包括：

第一获取模块，用于获取待处理的文档图像；

第二获取模块，用于获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，所述多粒度文本结点包括细粒度文本结点和粗粒度文本结点，所述多粒度视觉结点包括细粒度视觉结点和粗粒度视觉结点；

确定模块，用于根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息；

其中，所述构建模块具体用于：

其中，所述确定模块具体用于：

8.根据权利要求7所述的装置，其中，所述第二获取模块具体用于：

9.根据权利要求8所述的装置，其中，所述确定模块包括：

第四获取单元，用于根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息。

10.根据权利要求9所述的装置，其中，所述第二获取单元具体用于：

11.根据权利要求9所述的装置，其中，所述第四获取单元具体用于：

12.根据权利要求9所述的装置，所述确定模块还包括：

其中，所述第三获取单元具体用于：

13. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。