CN116486420B

CN116486420B - 文档图像的实体抽取方法、装置及存储介质

Info

Publication number: CN116486420B
Application number: CN202310389021.6A
Authority: CN
Inventors: 李煜林; 钦夏孟; 谢群义; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2024-01-12
Anticipated expiration: 2043-04-12
Also published as: CN116486420A

Abstract

本公开提供了一种文档图像的实体抽取方法及装置，涉及人工智能技术领域，具体涉及计算机视觉、OCR、深度学习等技术领域，可应用于智慧金融、智慧政务等场景。具体实现方案为：获取待分析文档图像，并获取待分析文档图像的多模态特征编码；将多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征；根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记；根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征具有更强语义表示的融合特征，从而提升了文档图像中实体抽取的准确率。

Description

文档图像的实体抽取方法、装置及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、OCR、深度学习等技术领域，可应用于智慧金融、智慧政务等场景。

背景技术

随着数字化时代的来临，许多行业都在进行数字化转型，文档数据从传统的文本文档逐渐转变为电子文档。其中，在一些场景中，需要对文本或者文档图像进行信息识别，并需要对识别到的关键信息进行抽取，以便自动提取到文档中的信息进行录入。例如，在差旅报销或者保险理赔场景中，需要对用户上传的文档图像(例如增值税发票、水单、行程单或者保险单、检查报告等)进行扫描和信息抽取，通过提取到的信息进行不同处理。

现有技术中，通过基于文本的实体抽取模型，对文本中实体进行抽取，但是该方法对纯文本进行分类，忽略了文档内容中的视觉排版以及文档图像中会的视觉信息，使得实体抽取结果的精确度较低；或者基于多模态特征融合模型，分别获取文档的图像特征和文本特征，并将图像特征和文本特征进行合并后进行实体预测，但是该方法中图像特征和文本特征的使用相互独立，没有对该两种模态信息的相关性进行学习和监督，使得实体抽取结果不准确。

发明内容

本公开提供了一种文档图像的实体抽取方法、装置及存储介质。

根据本公开的一方面，提供了一种文档图像的实体抽取方法，所述方法包括：获取待分析文档图像，并获取所述待分析文档图像的多模态特征编码；将所述多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征；根据所述语义表示融合特征，得到所述待分析文档图像中每个文字对应的序列标记和实体标记；根据所述每个文字对应的序列标记和实体标记，得到所述待分析文档图像的实体抽取结果。

根据本公开的另一方面，提供了一种文档图像的实体抽取装置，所述装置，包括：获取模块，用于获取待分析文档图像，并获取所述待分析文档图像的多模态特征编码；生成模块，用于将所述多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征；第一处理模块，用于根据所述语义表示融合特征，得到所述待分析文档图像中每个文字对应的序列标记和实体标记；第二处理模块，用于根据所述每个文字对应的序列标记和实体标记，得到所述待分析文档图像的实体抽取结果。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少个处理器执行，以使所述至少一个处理器能够执行本公开的文档图像的实体抽取方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开的文档图像的实体抽取方法。

根据本公开的另一方面，提供了一种计算机程序产品，所述计算机程序被处理器执行时实现本公开的文档图像的实体抽取方法。

本公开相比于现有技术具备以下有益效果：

利用动态交互Transformer网络生成文档图像的多模态特征编码对应的语义表示融合特征，也即是，利用该动态交互Transformer网络中交互的动态自注意力机制和双向交互注意力机制使得多模态特征编码中的视觉特征编码和文字特征编码进行充分的信息交互，从而使得生成的语义表示融合特征具有更强语义表示的融合特征，进而提升了文档图像中实体抽取的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种文档图像的实体抽取方法的流程示意图；

图2是根据本公开实施例提供的一种文档图像的实体抽取方法的流程示意图；

图3是根据本公开实施例提供的一种文档图像的实体抽取方法的流程示意图；

图4是根据本公开实施例提供的一种文档图像的实体抽取方法的流程示意图；

图5是根据本公开实施例提供的一种文档图像的实体抽取方法的流程示意图；

图6是根据本公开实施例提供的一种文档图像的实体抽取装置的结构示意图；

图7是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的文档图像的实体抽取方法及装置。

图1是根据本公开第一实施例的示意图。

如图1所示，该文档图像的实体抽取方法可以包括：

步骤101，获取待分析文档图像，并获取待分析文档图像的多模态特征编码。

其中，需要说明的是，上述文档图像的实体抽取方法的执行主体为文档图像的实体抽取装置，该文档图像的实体抽取装置可以由软件和/或硬件的方式实现，该实施例中的文档图像的实体抽取装置可以配置在电子设备中。

其中，本示例实施例中电子设备可以包括终端设备和服务器等设备，该实施例对电子设备不作限定。

本公开实施例中，上述文档图像可以是对纸质文档进行扫描后生成，或者由计算机生成。

本公开实施例中，上述获取待分析文档图像之后，可以根据待分析文档图像，获取该待分析文档图像的多模态特征编码。

本公开实施例中，模态是指信息形式，比如，文本、图像等。文档图像中包括多种模态的信息，比如包括文本信息、图像信息等。具体地，文本信息是指文档图像中包括的具体的文本内容，比如为“住宿费”；图像信息，可以对图像文档进行图像信息提取。

本公开实施例中，可以根据待分析文档图像中包含的多种模态信息，得到对应的多模态特征编码。具体地，本公开实施例中，上述获取待分析文档图像的多模态特征编码的方法可以包括：根据待分析文档图像，获取待分析文档图像的视觉特征编码，并根据待分析文档图像，获取待分析文档图像的文本特征编码，基于视觉特征编码和文本特征编码，得到待分析文档图像的多模态特征编码。关于这部分内容，会在后续实施例中进行详细介绍。

本公开实施例中，可以获取待分析文档图像的多个模态的特征编码，后续可以基于多个模态的特征编码进行实体抽取，从而可以提高抽取实体的准确度。

步骤102、将多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征。

本公开实施例中，上述动态交互Transformer网络由动态自注意力机制和双向交互注意力机制交错构成，其中，动态交互Transformer网络中可以包括L层，且L层中的奇数层为动态自注意力机制，L层中的偶数层为双向交互注意力机制，L≥2，L为整数。其中，每层动态自注意力机制中的参数和每层双向交互注意力机制的参数均是通过训练的得到，且每层动态自注意力机制中的参数不同，每层双向交互注意力机制的参数也不相同。

示例的，本公开实施例中，假设上述动态交互Transformer网络中包括5层，其中，第1层、第3层和第5层分别为第一动态自注意力机制层、第二动态自注意力机制层和第三动态自注意力机制层，第2层和第4层分别为第一双向动态自注意力机制层和第二双向动态自注意力机制层。其中，第一动态自注意力机制层输入为多模态特征编码，且第一动态自注意力机制的输出为第一双向动态自注意力机制的输入，通过上述动态交互Transformer网络，可以生成语义表示融合特征。关于这部分内容会在后续实施例中进行详细介绍。

本公开实施例中，通过上述动态交互Transformer网络可以使得文档图像中的视觉特征编码和文字特征编码进行充分的信息交互，从而使得生成的语义表示融合特征具有更强语义表示的融合特征，进而提升了文档图像实体抽取的精度。

步骤103、根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记。

本公开实施例中，实体是指可独立存在的事物或概念，比如人名、地名、机构名、概念(比如简介)等。

本公开实施例中，序列标记可以是文字在序列中位置标记。其中，序列标记可以包括起始字符，非起始字符、非关键信息字符。

本公开实施例中，上述根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记的方法可以包括：根据语义表示融合特征，利用条件随机场得到待分析文档图像中每个文字对应的实体标记，根据语义表示融合特征，利用全连接网络得到待分析文档图像中每个文字对应的序列标记。关于这部分内容会在后续实施例中进行详细介绍。

本公开实施例中，得到待分析文档图像中每个文字对应的序列标记和实体标记后，可以通过待分析文档图像中每个文字对应的序列标记和实体标记，抽取待分析文档图像中的实体。

步骤104、根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。

本公开实施例中，得到每个文字对应的序列标记和实体标记之后，可以根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。

本公开实施例中，上述根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果的方法可以包括：依次遍历每个文字的实体标记和序列标记，从同一实体标记的序列标记为起始字符开始直至序列标记为非关键信息字符，抽取起始字符和非关键信息字符之前的文本，作为待分析文档图像的实体抽取结果。关于这部分内容会在后续实施例中进行详细介绍。

本公开实施例中，利用动态交互Transformer网络生成文档图像的多模态特征编码对应的语义表示融合特征，也即是，利用该动态交互Transformer网络中交互的动态自注意力机制和双向交互注意力机制使得多模态特征编码中的视觉特征编码和文字特征编码进行充分的信息交互，从而使得生成的语义表示融合特征具有更强语义表示的融合特征，进而提升了文档图像中实体抽取的准确率。

图2是根据本公开第二实施例的示意图。

如图2所示，该文档图像的实体抽取方法可以包括：

步骤201、获取待分析文档图像。

其中，关于步骤201的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

步骤202、根据待分析文档图像，获取待分析文档图像的视觉特征编码。

本公开实施例中，上述根据待分析文档图像，获取该待分析文档图像的视觉特征编码的方法可以包括以下步骤：

步骤2021、将待分析文档图像进行缩放，并将缩放后的图像输入至卷积神经网络中，得到初始视觉特征编码；

本公开实施例中，可以根据需求将待分析文档图像进行缩放。示例的，将待分析文档图像进行缩放，得到缩放后的图像为缩放后的图像的维度为fⅹwⅹ3。

本公开实施例中，上述卷积神经网络可以为训练完成的一层卷积神经网络，且卷积神经网络的参数核大小则将缩放后的图像输入至该一层卷积神经网络中通过该一层卷积神经网络，得到初始视觉特征编码，且该初始视觉特征编码的维度为

步骤2022、将初始视觉特征编码进行变换，得到待分析文档图像的视觉特征编码。

本公开实施例中，通过上述步骤2021得到初始视觉特征编码后，还需对该初始视觉特征编码进行变换，得到待分析文档图像的视觉特征编码。

本公开实施例中，上述将初始视觉特征编码进行变换，得到待分析文档图像的视觉特征编码的方法可以包括：将初始视觉特征编码的前两维进行拉直，得到待分析文档图像的视觉特征编码。示例的，本公开实施例中，若上述初始视觉特征编码的维度为将该视觉编码的前两维进行拉直后，得到待分析文档图像的视觉特征编码/>其中，视觉特征编码为特征向量序列，/>为该特征向量序列的长度，d为该特征向量序列中每个序列元素的维度。

本公开实施例中，上述通过步骤202提取待分析文档图像中的视觉信息，以获取待分析文档图像的视觉特征编码，以便后续可以利用该视觉特征编码对应的视觉信息对待分析文档图像中的实体进行抽取。

步骤203、根据待分析文档图像，获取待分析文档图像的文本特征编码。

本公开实施例中，上述根据待分析文档图像，获取待分析文档图像的文本特征编码的方法可以包括以下步骤：

步骤2031、提取待分析文档图像中所有文字，并利用第一模型得到所有文字对应的字向量；

本公开实施例中，在获取待分析文档图像的文本特征编码之前，需要提取该待分析文档图像中所有文字，然后利用第一模型得到该所有文字中每个文字对应的字向量。其中，上述第一模型可以为训练完的word2vector模型。

具体地，本公开实施例中，上述提取待分析文档图像中所有文字，并利用第一模型得到所有文字对应的字向量的方法可以包括：通过OCR(Optical Character Recognition，光学字符识别)提取待分析文档图像中所有文字，并将所有文字输入至word2vector模型中，得到该所有文字中每个文字对应的字向量。其中，每个文字对应的字向量与上述视觉特征编码的维度相同。

步骤2032、将所有文字对应的字向量输入至第二模型中，得到待分析文档图像的文本特征编码。

本公开实施例中，得到所有文字对应的字向量后，还需得到每个字向量之前的相关性，基于此，需要将所有文字中每个文字对应的字向量输入第二模型中，得到待分析文档图像的文本特征编码。其中，上述第二模型可以为训练完成的BERT模型。

具体地，本公开实施例中，上述将所有文字对应的字向量输入至第二模型中，得到待分析文档图像的文本特征编码的方法可以包括：将所有文字中每个文字对应的字向量输入至BERT模型中，得到待分析文档图像的文本特征编码。

示例的，本公开实施例中，假设上述通过步骤2031提取待分析文档图像中m个文字，每个文字对应字向量的维度为d，则将所有文字对应的字向量输入至BERT模型中，得到待分析文档图像的文本特征编码

本公开实施例中，上述通过步骤203提取待分析文档图像中的所有文字，以获取待分析文档图像的文本特征编码，以便后续可以利用该文本特征编码对应的文本信息对待分析文档图像中的实体进行抽取。

步骤204、基于视觉特征编码和文本特征编码，得到待分析文档图像的多模态特征编码。

本公开实施例中，获取待分析文档图像的视觉特征编码和文本特征编码之后，可以将视觉特征编码和文本特征编码作为该待分析文档图像的多模态特征编码，以便后续可以基于多个模态的特征编码进行实体抽取，从而提升了文档图像中实体抽取的准确率。

步骤205、将多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征。

步骤206、根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记。

步骤207、根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。

本公开实施例中，根据待分析文档图像，获取该待分析文档图像的视觉特征编码和文本特征编码，并基于视觉特征编码和文本特征编码，得到待分析文档图像的多模态特征编码，以便后续可以基于多个模态的特征编码进行实体抽取，从而提升了文档图像中实体抽取的准确率。

图3是根据本公开第三实施例的示意图。

如图3所示，该文档图像的实体抽取方法可以包括：

步骤301、获取待分析文档图像，并获取待分析文档图像的多模态特征编码，其中，多模态特征编码包括视觉特征编码和文本特征编码。

其中，关于步骤301的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

步骤302、将视觉特征编码和文本特征编码进行拼接，并将拼接后的特征编码输入动态自注意力机制中，得到第一融合特征。

其中，本公开实施例中，动态交互Transformer网络的第1层网络为动态自注意力机制，基于此，得到多模态特征编码后，可以将视觉特征编码和文本特征编码进行拼接，并将拼接后的特征编码输入动态自注意力机制中，得到第一融合特征。本公开实施例中，上述动态自注意力机制可以包括第一全连接层、第二全连接层、第三全连接层。

以及，本公开实施例中，上述将视觉特征编码和文本特征编码进行拼接，并将拼接后的特征编码输入动态自注意力机制中，得到第一融合特征的方法可以包括以下步骤：

步骤3021、将拼接后的特征编码输入动态自注意力机制中，分别利用第一全连接层、第二全连接层和第三全连接层，得到对应的第一查询特征向量、第一键特征向量和第一值特征向量；

本公开实施例中，通过第一全连接层、第二全连接层和第三全连接层分别得到该拼接后的特征编码不同的特征向量。其中，上述第一查询特征向量、第一键特征向量和第一值特征向量的维度相同。

示例的，本公开实施例中，假设视觉特征编码为和文本特征编码将该视觉特征编码和文本特征编码进行拼接后，得到拼接后的特征编码为其中，s为拼接后的特征编码的长度，/>d为拼接后的特征编码的维度，将X输入动态自注意力机制中，利用第一全连接层得到对应的第一查询特征向量Q₁＝W₁×X，利用第二全连接层得到对应的第一键特征向量K₁＝W₂×X，利用第三全连接层得到对应的第一值特征向量V₁＝W₃×X。其中，W₁、W₂和W₃分别为第一全连接层、第二全连接层和第三全连接层对应的网络参数，Q₁、K₁和V₁对应的维度相同均为/>

步骤3022、将第一查询特征向量、第一键特征向量和第一值特征向量均拆分成第一预设组数，分别得到第一预设组数的第二查询特征向量、第二键特征向量和第二值特征向量；

本公开实施例中，上述第一预设组数可以根据需要进行设定。

示例的，本公开实施例中，假设上述第一预设组数为h，则将Q₁，K₁，V₁拆分成h组，使得第i组中第二查询特征向量Q_i、第二键特征向量K_i和第二值特征向量V_i的维度大小是原来的1/h，也即是Q_i,_i,

步骤3023、提取每组第二查询特征向量中的关键查询特征向量；

本公开实施例中，得到第一预设组数的第二查询特征向量、第二键特征向量和第二值特征向量后，可以引入动态计算对每组中的第二查询特征向量进行可学习采样，以提取出该第二查询特征向量中的重要信息，减少了第二查询特征向量的序列长度，以使得计算资源用在到关键的查询特征上，从而降低了计算量。

其中，本公开实施例中，上述动态自注意力机制还可以包括第四全连接层，上述提取每组第二查询特征向量中的关键查询特征向量的方法可以包括以下步骤：

步骤a、利用第四全连接层得到每组第二查询特征向量中对应预设数量的采样点；

本公开实施例中，上述预设数量可以根据需求进行设定。

示例的，本公开实施例中，假设预设数量为n，则利用第四全连接层得到第i组第二查询特征向量Q_i中的n个采样点为其中，W_r为第四全连接层的网络参数。

步骤b、利用采样函数从每组第二查询特征向量的采样点中，提取每组第二查询特征向量中的关键查询特征向量。

本公开实施例中，上述采样函数可以为Sampling采样函数。

本公开实施例中，上述利用采样函数从每组第二查询特征向量的采样点中，提取每组第二查询特征向量中的关键查询特征向量的方法可以包括：利用Sampling采样函数从第i组第二查询特征向量Q_i的R_i采样点中，提取第i组第二查询特征向量Q_i中的关键查询特征向量

步骤3024、基于每组关键查询特征向量、第二键特征向量和第二值特征向量进行Attention计算，得到每组关键查询特征向量、第二键特征向量和第二值特征向量对应的第一特征；

本公开实施例中，上述基于每组关键查询特征向量、第二键特征向量和第二值特征向量进行Attention计算，得到每组关键查询特征向量、第二键特征向量和第二值特征向量对应的第一特征的方法可以包括：通过第一公式基于每组关键查询特征向量Q′_i、第二键特征向量K_i和第二值特征向量V_i进行Attention计算，得到每组关键查询特征向量、第二键特征向量和第二值特征向量对应的第一特征head_i，其中第一公式为：

其中，W_q、W_k、W_v分别为关键查询特征向量、第二键特征向量和第二值特征向量对应的参数矩阵，t为矩阵转置。

步骤3025、将所有第一特征进行拼接，并将拼接后的特征进行还原得到第一融合特征。

本公开实施例中，将上述每个第一特征的维度为n×d/h，将所有第一特征进行拼接后得到的维度为n×d，基于此，需要将拼接后的特征进行还原，以使得第一融合特征与输入的拼接后的特征编码的维度相同均为n×d，以便后续双向交互注意力机制可以对还原后的第一融合特征进行处理。

其中，本公开实施例中，上述动态自注意力机制还可以包括第五全连接层，上述将拼接后的特征进行还原得到第一融合特征的方法可以包括以下步骤：

步骤1、利用还原函数将拼接后的特征的维度进行还原至第一查询特征向量的维度，得到第二特征；

本公开实施例中，还原函数可以为Resize函数。

其中，本公开实施例中，利用还原函数将拼接后的特征的维度进行还原至第一查询特征向量的维度，得到第二特征的方法可以包括：利用Resize函数将拼接后的特征的维度进行还原至第一查询特征向量的维度，得到第二特征/>

步骤2、将第二特征输入至第五全连接层中，得到第一融合特征。

本公开实施例中，上述将第二特征输入至第五全连接层中，得到的第一融合特征为其中，W_o为第五全连接层的网络参数。

本公开实施例中，利用上述动态自注意力机制基于拼接后的视觉特征编码和文字特征编码得到第一融合特征，以便后续与双向交互注意力机制交互处理，生成文档图像的语义表示融合特征，从而使得语义表示融合特征具有更强语义表示的融合特征，进而提升了文档图像中实体抽取的准确率。

步骤303、将第一融合特征进行拆分得到第一视觉融合特征和第一文本融合特征。

本公开实施例中，动态交互Transformer网络是由动态自注意力机制和双向交互注意力机制交互构成，且双向交互注意力机制需要输入视觉编码特征和文本编码特征进行交互学习，使得视觉特征编码和文字特征编码进行充分的信息交互，基于此，通过步骤302得到动态自注意力机制输出的第一融合特征后，需要将该将第一融合特征根据视觉特征编码和文本特征编码的维度进行拆分得到第一视觉融合特征和第一文本融合特征，以便后续将第一视觉融合特征和第一文本融合特征输入双向交互注意力机制。

步骤304、将第一视觉融合特征和第一文本融合特征输入双向交互注意力机制，得到第二视觉融合特征和第二文本融合特征。

本公开实施例中，上述双向交互注意力机制包括第六全连接层、第七全连接层、第八全连接层，上述将第一视觉融合特征和第一文本融合特征输入双向交互注意力机制，得到第二视觉融合特征和第二文本融合特征的方法可以包括：将第一视觉融合特征输入第六全连接层得到对应的第三查询特征向量，将第一文本融合特征分别输入第七全连接层和第八全连接层，得到对应的第三键特征向量和第三值特征向量，并基于第三查询特征向量、第三键特征向量和第三值特征向量，得到第二视觉融合特征；将第一文本融合特征输入第六全连接层得到对应的第四查询特征向量，将第一视觉融合特征分别输入第七全连接层和第八全连接层，得到对应的第四键特征向量和第四值特征向量，并基于第四查询特征向量、第四键特征向量和第四值特征向量，得到第二文本融合特征。

具体地，本公开实施例中，利用第六全连接层对第一视觉融合特征进行处理得到第三查询特征向量，利用第七全连接层和第八全连接层分别对第一文本融合特征进行处理分别得到第三键特征向量和第三值特征向量。基于此，第三查询特征向量的维度与第一视觉融合特征的维度相同，第三键特征向量和第三值特征向量的维度相同为第一文本融合特征的维度，与第三查询特征向量的维度不同。

示例的，本公开实施例中，假设第一视觉融合特征为和第一文本融合特征/>将该第一视觉融合特征和第一文本融合特征(Y，Z)输入双向交互注意力机制中，利用第六全连接层得到对应的第三查询特征向量Q₂＝W₄×Y，利用第七全连接层得到对应的第三键特征向量K₂＝W₅×Z，利用第八全连接层得到对应的第三值特征向量V₂＝W₆×Z。其中，W₄、W₅和W₆分别为第六全连接层、第七全连接层和第八全连接层对应的网络参数，Q₂对应的维度相同为/>K₂和V₂对应的维度相同均为/>

以及，本公开实施例中，利用第六全连接层对第一文本融合特征进行处理得到第四查询特征向量，利用第七全连接层和第八全连接层分别对第一视觉融合特征进行处理分别得到第四键特征向量和第四值特征向量。基于此，第四查询特征向量的维度与第一文本融合特征的维度相同，第四键特征向量和第四值特征向量的维度相同为第一视觉融合特征的维度，与第四查询特征向量的维度不同。

基于此，通过上述双向交互注意力机制使得视觉特征编码和文字特征编码进行充分的信息交互，从而使得生成的语义表示融合特征具有更强语义表示的融合特征，进而提升了文档图像中实体抽取的准确率。

本公开实施例中，上述基于第三查询特征向量、第三键特征向量和第三值特征向量，得到第二视觉融合特征的方法可以包括以下步骤：

步骤3041、将第三查询特征向量、第三键特征向量和第三值特征向量均拆分成第二预设组数，分别得到第二预设组数的第五查询特征向量、第五键特征向量和第五值特征向量；

本公开实施例中，上述第二预设组数可以根据需要进行设定，其中，上述第二预设组数和第一预设组数可以相同，也可以不同。

示例的，本公开实施例中，假设上述第二预设组数为h₁，则将Q₂，K₂，V₂拆分成h₁组，使得第j组中第五查询特征向量Q_j、第五键特征向量K_j和第五值特征向量V_j的维度大小是原来的1/h₁，也即是

步骤3042、基于每组第五查询特征向量、第五键特征向量和第五值特征向量进行Attention计算，得到每组第五查询特征向量、第五键特征向量和第五值特征向量对应的第三特征；

本公开实施例中，上述基于每组第五查询特征向量、第五键特征向量和第五值特征向量进行Attention计算，得到每组第五查询特征向量、第五键特征向量和第五值特征向量对应的第三特征的方法可以包括：通过第二公式基于每组第五查询特征向量Q_j、第五键特征向量K_j和第五值特征向量V_j进行Attention计算，得到每组第五查询特征向量、第五键特征向量和第五值特征向量对应的第三特征head′_j，其中第二公式为：

其中，W′_q、W′_k、W′_v分别为第五查询特征向量、第五键特征向量和第五值特征向量的参数矩阵。

步骤3043、将所有第三特征进行拼接，并将拼接后的特征进行变换得到第二视觉融合特征。

本公开实施例中，上述双向交互注意力机制包括第九全连接层。

以及，本公开实施例中，上述将第三特征进行拼接得到将拼接后的O₁输入至第九全连接层中，得到的第二视觉融合特征为/>其中，W′_o为第九全连接层的网络参数。

其中，本公开实施例中，上述基于第四查询特征向量、第四键特征向量和第四值特征向量，得到第二文本融合特征。该方法的具体过程与上述步骤3041～3043相同，本公开实施例在此不做赘述。

步骤305、基于第二视觉融合特征和第二文本融合特征，重复上述步骤，直至动态交互Transformer网络完成，生成语义表示融合特征。

本公开实施例中，得到第二视觉融合特征和第二文本融合特征后，可以利用第二视觉融合特征和第二文本融合特征重复上述步骤302～步骤304，直至动态交互Transformer网络中所有动态交互注意力机制和双向交互注意力机制完成，动态交互Transformer网络输出融合特征。以及，若动态交互Transformer网络的最后一层为动态交互注意力机制则将融合特征进行拆分得到文本编码特征对应语义表示融合特征；若动态交互Transformer网络的最后一层为双向交互注意力机制则直接将对应文本融合特征作为语义表示融合特征。

步骤306、根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记。

步骤307、根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。

图4是根据本公开第四实施例的示意图。

如图4所示，该文档图像的实体抽取方法可以包括：

步骤401、获取待分析文档图像，并获取待分析文档图像的多模态特征编码。

步骤402、将多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征。

其中，关于步骤401～步骤402的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

步骤403、根据语义表示融合特征，利用条件随机场得到待分析文档图像中每个文字对应的实体标记。

本公开实施例中，可以基于文档图像所需的关键信息，利用条件随机场对每个实体定义一个标记类型。示例的，将人名标记为PER、公司名标记为COM，地名标记为LOC、日期标记为DATE，金额标记为MON。

步骤404、根据语义表示融合特征，利用全连接网络得到待分析文档图像中每个文字对应的序列标记。

本公开实施例中，通过上述步骤获取语义表示融合特征后，可以根据根据语义表示融合特征，利用全连接网络得到待分析文档图像中每个文字对应的序列标记。

其中，本公开实施例中，上述序列标记可以包括起始字符，非起始字符、非关键信息字符。

以及，本公开实施例中，上述利用全连接网络得到待分析文档图像中每个文字对应的BIO序列标记。具体的，B表示实体文本的起始字符，I表示实体文本的非起始字符，O表示为非关键信息字符。

示例的，本公开实施例中，假设待分析文档图像中的文本内容为“我查到A公司在北京成立”，则通过上述步骤403～步骤404得到该待分析文档图像中每个文字对应的序列标记和实体标记如表1所示。

表1

我

查

到

A

公

司

在

北

京

成

立

B-PER

O

B-COM

I-COM

O

B-LOC

I-LOC

O

步骤405、根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。

本公开实施例中，根据语义表示融合特征，利用条件随机场得到待分析文档图像中每个文字对应的实体标记，并利用全连接网络得到待分析文档图像中每个文字对应的序列标记，其中，语义表示融合特征为具有更强语义表示的融合特征，从而使得基于该语义表示融合特征得到待分析文档图像中的每个文字的序列标记和实体标记更加准确，进而提升了文档图像中实体抽取的准确率。

图5是根据本公开第五实施例的示意图。

如图5所示，该文档图像的实体抽取方法可以包括：

步骤501、获取待分析文档图像，并获取待分析文档图像的多模态特征编码。

步骤502、将多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征。

步骤503、根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记，其中，序列标记包括起始字符，非起始字符、非关键信息字符。

其中，关于步骤501～步骤503的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

步骤504、依次遍历每个文字的实体标记和序列标记，从同一实体标记的序列标记为起始字符开始直至序列标记为非关键信息字符，抽取起始字符和非关键信息字符之前的文本，作为待分析文档图像的实体抽取结果。

示例的，通过上述步骤504对上述表1中的实体进行抽取，“我”为实体人名PER的起始字符，之后“查”为非关键信息字符，由此抽取实体为“我”，依次类推，得到待分析文档图像的实体抽取结果为“我”、“A公司”、“北京”。

图6是根据本公开第六实施例的示意图。

如图6所示，该文档图像的实体抽取装置600可以包括：获取模块601、生成模块602、第一处理模块603、第二处理模块604，其中：

获取模块601，用于获取待分析文档图像，并获取待分析文档图像的多模态特征编码；

生成模块602，用于将多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征；

第一处理模块603，用于根据语义表示融合特征，得到待分析文档图像中每个文字对应的序列标记和实体标记；

第二处理模块604，用于根据每个文字对应的序列标记和实体标记，得到待分析文档图像的实体抽取结果。

其中，需要说明的是，前述对文档图像的实体抽取方法实施例的解释说明也适用于本实施例，本实施例对此不再赘述。

本公开实施例的文档图像的实体抽取装置，利用动态交互Transformer网络生成文档图像的多模态特征编码对应的语义表示融合特征，也即是，利用该动态交互Transformer网络中交互的动态自注意力机制和双向交互注意力机制使得多模态特征编码中的视觉特征编码和文字特征编码进行充分的信息交互，从而使得生成的语义表示融合特征具有更强语义表示的融合特征，进而提升了文档图像中实体抽取的准确率。

在本公开的一个实施例中，上述获取模块601，具体用于：

根据待分析文档图像，获取待分析文档图像的视觉特征编码；

根据待分析文档图像，获取待分析文档图像的文本特征编码；

基于视觉特征编码和文本特征编码，得到待分析文档图像的多模态特征编码。

在本公开的一个实施例中，上述获取模块601，还用于：

将待分析文档图像进行缩放，并将缩放后的图像输入至卷积神经网络中，得到初始视觉特征编码；

将初始视觉特征编码进行变换，得到待分析文档图像的视觉特征编码。

在本公开的一个实施例中，上述获取模块601，还用于：

提取待分析文档图像中所有文字，并利用第一模型得到所有文字对应的字向量；

将所有文字对应的字向量输入至第二模型中，得到待分析文档图像的文本特征编码。

在本公开的一个实施例中，上述动态交互Transformer网络由动态自注意力机制和双向交互注意力机制交错构成，其中，动态交互Transformer网络中包括L层，L层中的奇数层为动态自注意力机制，L层中的偶数层为交互注意力机制，L≥2，L为整数

在本公开的一个实施例中，上述多模态特征编码包括视觉特征编码和文本特征编码；上述生成模块602，具体用于：

将视觉特征编码和文本特征编码进行拼接，并将拼接后的特征编码输入动态自注意力机制中，得到第一融合特征；

将第一融合特征进行拆分得到第一视觉融合特征和第一文本融合特征；

将第一视觉融合特征和第一文本融合特征输入双向交互注意力机制，得到第二视觉融合特征和第二文本融合特征；

基于第二视觉融合特征和第二文本融合特征，重复上述步骤，直至动态交互Transformer网络完成，生成语义表示融合特征。

在本公开的一个实施例中，上述动态自注意力机制包括第一全连接层、第二全连接层、第三全连接层；上述生成模块602，还用于：

将拼接后的特征编码输入动态自注意力机制中，分别利用第一全连接层、第二全连接层和第三全连接层，得到对应的第一查询特征向量、第一键特征向量和第一值特征向量，其中第一查询特征向量、第一键特征向量和第一值特征向量的维度相同；

将第一查询特征向量、第一键特征向量和第一值特征向量均拆分成第一预设组数，分别得到第一预设组数的第二查询特征向量、第二键特征向量和第二值特征向量；

提取每组第二查询特征向量中的关键查询特征向量；

基于每组关键查询特征向量、第二键特征向量和第二值特征向量进行Attention计算，得到每组关键查询特征向量、第二键特征向量和第二值特征向量对应的第一特征；

将所有第一特征进行拼接，并将拼接后的特征进行还原得到第一融合特征。

在本公开的一个实施例中，上述动态自注意力机制还包括第四全连接层；上述生成模块602，还用于：

利用第四全连接层得到每组第一查询特征向量中对应预设数量的采样点；

利用采样函数从所述每组第一查询特征向量的采样点中，提取每组第一查询特征向量中的关键查询特征向量。

在本公开的一个实施例中，上述动态自注意力机制还包括第五全连接层；上述生成模块602，还用于：

利用还原函数将拼接后的特征的维度进行还原至第一查询特征向量的维度，得到第二特征；

将第二特征输入至第五全连接层中，得到第一融合特征。

在本公开的一个实施例中，上述双向交互注意力机制包括第六全连接层、第七全连接层、第八全连接层；上述生成模块602，还用于：

将第一视觉融合特征输入第六全连接层得到对应的第三查询特征向量，将第一文本融合特征分别输入第七全连接层和第八全连接层，得到对应的第三键特征向量和第三值特征向量，并基于第三查询特征向量、第三键特征向量和第三值特征向量，得到第二视觉融合特征，其中第三键特征向量和第三值特征向量的维度相同，与第三查询特征向量的维度不同；

将第一文本融合特征输入第六全连接层得到对应的第四查询特征向量，将第一视觉融合特征分别输入第七全连接层和第八全连接层，得到对应的第四键特征向量和第四值特征向量，并基于第四查询特征向量、第四键特征向量和第四值特征向量，得到第二文本融合特征，其中第四键特征向量和第四值特征向量的维度相同，与第四查询特征向量的维度不同。

在本公开的一个实施例中，上述生成模块602，具体用于：

将第三查询特征向量、第三键特征向量和第三值特征向量均拆分成第二预设组数，分别得到第二预设组数的第五查询特征向量、第五键特征向量和第五值特征向量；

基于每组第五查询特征向量、第五键特征向量和第五值特征向量进行Attention计算，得到每组第五查询特征向量、第五键特征向量和第五值特征向量对应的第三特征；

将所有第三特征进行拼接，并将拼接后的特征进行变换得到第二视觉融合特征。

在本公开的一个实施例中，上述第一处理模块603，具体用于：

根据语义表示融合特征，利用条件随机场得到待分析文档图像中每个文字对应的实体标记；

根据语义表示融合特征，利用全连接网络得到待分析文档图像中每个文字对应的序列标记。

在本公开的一个实施例中，序列标记包括起始字符，非起始字符、非关键信息字符。

在本公开的一个实施例中，上述第二处理模块，具体用于：

依次遍历每个文字的实体标记和序列标记，从同一实体标记的序列标记为起始字符开始直至序列标记为非关键信息字符，抽取起始字符和非关键信息字符之前的文本，作为待分析文档图像的实体抽取结果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如文档图像的实体抽取方法。例如，在一些实施例中，文档图像的实体抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的文档图像的实体抽取方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档图像的实体抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档图像的实体抽取方法，所述方法包括：

获取待分析文档图像，并获取所述待分析文档图像的多模态特征编码，其中，所述多模态特征编码包括视觉特征编码和文本特征编码；

将所述多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征；

根据所述语义表示融合特征，得到所述待分析文档图像中每个文字对应的序列标记和实体标记；

根据所述每个文字对应的序列标记和实体标记，得到所述待分析文档图像的实体抽取结果；

其中，所述动态交互Transformer网络由动态自注意力机制和双向交互注意力机制交错构成，其中，动态交互Transformer网络中包括L层，L层中的奇数层为动态自注意力机制，L层中的偶数层为双向交互注意力机制，L≥2，L为整数。

2.如权利要求1所述的方法，其中，所述获取所述待分析文档图像的多模态特征编码，包括：

根据所述待分析文档图像，获取所述待分析文档图像的视觉特征编码；

根据所述待分析文档图像，获取所述待分析文档图像的文本特征编码；

基于所述视觉特征编码和所述文本特征编码，得到所述待分析文档图像的多模态特征编码。

3.如权利要求2所述的方法，其中，所述根据所述待分析文档图像，获取所述待分析文档图像的视觉特征编码，包括：

将所述待分析文档图像进行缩放，并将缩放后的图像输入至卷积神经网络中，得到初始视觉特征编码；

将所述初始视觉特征编码进行变换，得到所述待分析文档图像的视觉特征编码。

4.如权利要求2所述的方法，其中，所述根据所述待分析文档图像，获取所述待分析文档图像的文本特征编码，包括：

提取所述待分析文档图像中所有文字，并利用第一模型得到所述所有文字对应的字向量；

将所述所有文字对应的字向量输入至第二模型中，得到所述待分析文档图像的文本特征编码。

5.如权利要求1所述的方法，所述将所述多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征，包括：

将所述视觉特征编码和文本特征编码进行拼接，并将所述拼接后的特征编码输入动态自注意力机制中，得到第一融合特征；

将所述第一融合特征进行拆分得到第一视觉融合特征和第一文本融合特征；

将所述第一视觉融合特征和所述第一文本融合特征输入所述双向交互注意力机制，得到第二视觉融合特征和第二文本融合特征；

基于所述第二视觉融合特征和所述第二文本融合特征，重复上述步骤，直至所述动态交互Transformer网络完成，生成语义表示融合特征。

6.如权利要求5所述的方法，其中，所述动态自注意力机制包括第一全连接层、第二全连接层、第三全连接层；所述将所述拼接后的特征编码输入动态自注意力机制中，得到第一融合特征，包括：

将所述拼接后的特征编码输入所述动态自注意力机制中，分别利用所述第一全连接层、所述第二全连接层和所述第三全连接层，得到对应的第一查询特征向量、第一键特征向量和第一值特征向量，其中所述第一查询特征向量、第一键特征向量和第一值特征向量的维度相同；

将所述第一查询特征向量、所述第一键特征向量和所述第一值特征向量均拆分成第一预设组数，分别得到第一预设组数的第二查询特征向量、第二键特征向量和第二值特征向量；

提取每组第二查询特征向量中的关键查询特征向量；

基于每组关键查询特征向量、第二键特征向量和第二值特征向量进行Attention计算，得到所述每组关键查询特征向量、第二键特征向量和第二值特征向量对应的第一特征；

7.如权利要求6所述的方法，其中，所述动态自注意力机制还包括第四全连接层；所述提取每组第二查询特征向量中的关键查询特征向量，包括：

利用所述第四全连接层得到所述每组第二查询特征向量中对应预设数量的采样点；

利用采样函数从所述每组第二查询特征向量的采样点中，提取每组第二查询特征向量中的关键查询特征向量。

8.如权利要求6所述的方法，其中，所述动态自注意力机制还包括第五全连接层；所述将拼接后的特征进行还原得到第一融合特征，包括：

利用还原函数将所述拼接后的特征的维度进行还原至所述第一查询特征向量的维度，得到第二特征；

将所述第二特征输入至所述第五全连接层中，得到第一融合特征。

9.如权利要求5所述的方法，其中，所述双向交互注意力机制包括第六全连接层、第七全连接层、第八全连接层；将所述第一视觉融合特征和所述第一文本融合特征输入所述双向交互注意力机制，得到第二视觉融合特征和第二文本融合特征，包括：

将所述第一视觉融合特征输入所述第六全连接层得到对应的第三查询特征向量，将所述第一文本融合特征分别输入所述第七全连接层和所述第八全连接层，得到对应的第三键特征向量和第三值特征向量，并基于所述第三查询特征向量、所述第三键特征向量和所述第三值特征向量，得到第二视觉融合特征，其中所述第三键特征向量和所述第三值特征向量的维度相同，与所述第三查询特征向量的维度不同；

将所述第一文本融合特征输入所述第六全连接层得到对应的第四查询特征向量，将所述第一视觉融合特征分别输入所述第七全连接层和所述第八全连接层，得到对应的第四键特征向量和第四值特征向量，并基于所述第四查询特征向量、所述第四键特征向量和所述第四值特征向量，得到第二文本融合特征，其中所述第四键特征向量和所述第四值特征向量的维度相同，与所述第四查询特征向量的维度不同。

10.如权利要求9所述的方法，其中，所述基于所述第三查询特征向量、所述第三键特征向量和所述第三值特征向量，得到第二视觉融合特征，包括：

将所述第三查询特征向量、所述第三键特征向量和所述第三值特征向量均拆分成第二预设组数，分别得到所述第二预设组数的第五查询特征向量、第五键特征向量和第五值特征向量；

基于每组所述第五查询特征向量、所述第五键特征向量和所述第五值特征向量进行Attention计算，得到所述每组第五查询特征向量、第五键特征向量和第五值特征向量对应的第三特征；

11.如权利要求1所述的方法，其中，所述根据所述语义表示融合特征，得到所述待分析文档图像中每个文字对应的序列标记和实体标记，包括：

根据所述语义表示融合特征，利用条件随机场得到所述待分析文档图像中每个文字对应的实体标记；

根据所述语义表示融合特征，利用全连接网络得到所述待分析文档图像中每个文字对应的序列标记。

12.如权利要求1所述的方法，其中，所述序列标记包括起始字符，非起始字符、非关键信息字符。

13.如权利要求12所述的方法，其中，所述根据所述每个文字对应的序列标记和实体标记，得到所述待分析文档图像的实体抽取结果，包括：

依次遍历所述每个文字的实体标记和序列标记，从同一实体标记的序列标记为起始字符开始直至序列标记为非关键信息字符，抽取所述起始字符和所述非关键信息字符之前的文本，作为所述待分析文档图像的实体抽取结果。

14.一种文档图像的实体抽取装置，所述装置包括：

获取模块，用于获取待分析文档图像，并获取所述待分析文档图像的多模态特征编码，其中，多模态特征编码包括视觉特征编码和文本特征编码；

生成模块，用于将所述多模态特征编码输入至动态交互Transformer网络，生成语义表示融合特征；

第一处理模块，用于根据所述语义表示融合特征，得到所述待分析文档图像中每个文字对应的序列标记和实体标记；

第二处理模块，用于根据所述每个文字对应的序列标记和实体标记，得到所述待分析文档图像的实体抽取结果；

其中，所述动态交互Transformer网络由动态自注意力机制和双向交互注意力机制交错构成，其中，动态交互Transformer网络中包括L层，L层中的奇数层为动态自注意力机制，L层中的偶数层为交互注意力机制，L≥2，L为整数。

15.如权利要求14所述的装置，其中，所述获取模块，具体用于：

16.如权利要求15所述的装置，其中，所述获取模块，还用于：

17.如权利要求15所述的装置，其中，所述获取模块，还用于：

18.如权利要求14所述的装置，所述生成模块，具体用于：

19.如权利要求18所述的装置，所述动态自注意力机制包括第一全连接层、第二全连接层、第三全连接层；所述生成模块，还用于：

提取每组第二查询特征向量中的关键查询特征向量；

20.如权利要求19所述的装置，其中，所述动态自注意力机制还包括第四全连接层；所述生成模块，还用于：

21.如权利要求19所述的装置，其中，所述动态自注意力机制还包括第五全连接层；所述生成模块，还用于：

22.如权利要求18所述的装置，其中，所述双向交互注意力机制包括第六全连接层、第七全连接层、第八全连接层；所述生成模块，还用于：

23.如权利要求22所述的装置，其中，所述生成模块，具体用于：

24.如权利要求14所述的装置，其中，所述第一处理模块，具体用于：

25.如权利要求14所述的装置，其中，所述序列标记包括起始字符，非起始字符、非关键信息字符。

26.如权利要求25所述的装置，其中，所述第二处理模块，具体用于：

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。