CN116401357A

CN116401357A - 基于跨模态互注意力机制的多模态文档检索方法及装置

Info

Publication number: CN116401357A
Application number: CN202310337398.7A
Authority: CN
Inventors: 黄永峰; 黄颖卓; 陈泽平; 何亮
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-07

Abstract

本申请涉及文档检索技术领域，特别涉及一种基于跨模态互注意力机制的多模态文档检索方法及装置，其中，方法包括：建模文档的多模态表示，基于多模态互注意力机制得到目标文档感知的多模态文档表示，融合文档的自注意力向量化表示和多模态增强向量化表示，得到文档的多模态增强统一表示，计算目标文档和至少一个候选文档相关性分数并进行排序，检索到相关的文档。本申请实施例可以基于跨模态互注意力机制，通过获取文档多模态增强的统一表示，计算相关性分数以检索获得匹配文档，从而实现了文档多模态信息的充分利用，增强了文档各模态间的相关性，进而提升了文档检索结果的匹配度，使检索结果更加准确可靠。

Description

基于跨模态互注意力机制的多模态文档检索方法及装置

技术领域

本申请涉及文档检索技术领域，特别涉及一种基于跨模态互注意力机制的多模态文档检索方法及装置。

背景技术

文档检索是自然语言处理领域的重要研究内容，指从众多文档中检索出和给定文档或搜索最相关的文档，是众多下游任务的研究基础。

随着互联网技术的不断发展，文档中所包含的信息逐渐增加，文档中包括文本、图像在内的多种信息，可分别对各模态进行单独建模，以实现多模态文档的检索。

然而，相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现文档内多模态信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性，亟待解决。

发明内容

本申请提供一种基于跨模态互注意力机制的多模态文档检索方法及装置，以解决相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现文档内多模态信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性等问题。

本申请第一方面实施例提供一种基于跨模态互注意力机制的多模态文档检索方法，包括以下步骤：建模文档的多模态表示，分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列；基于所述第一向量化表示序列和第二向量化表示序列，对所述文本模态和所述图片模态进行联合建模，分别得到文本的多模态向量化表示和图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示；基于互注意力机制，建模所述文档和目标文档相同和不同模态之间的相关性，得到所述目标文档感知的多模态文档表示；建模文档模态内的自相关性，融合文档的自注意力向量化表示和所述多模态增强向量化表示，得到所述文档的多模态增强统一表示；基于所述多模态增强统一表示，计算所述目标文档和至少一个候选文档相关性分数，并基于所述相关性分数对至少一个候选文档进行排序，检索到相关的文档。

可选地，在本申请的一个实施例中，在建模所述文档的多模态表示之前，还包括：对所述文档的文本数据进行预处理，过滤不满足预设条件的文本，并将过滤之后的文本转换为文字序列，得到用于建模的文本数据；对于所述文档的图片数据进行预处理，将图片转换为像素序列，对于图片的均值和方差进行归一化，得到用于建模的图片数据。

可选地，在本申请的一个实施例中，所述建模文档的多模态表示，分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列，包括：基于词向量嵌入矩阵，编码所述文档中文本的词向量表示，得到所述文档的第一向量化表示序列；基于预训练的Mask-RCNN网络，对于所述文档的图片生成图片候选框；基于ResNet-50网络抽取所述图片候选框的特征，得到所述文档的第二向量化表示序列。

可选地，在本申请的一个实施例中，所述基于所述第一向量化表示序列和第二向量化表示序列，对所述文本模态和所述图片模态进行联合建模，分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示，包括：基于VilBERT(Vision-and-LanguageBERT)对所述文本模态和所述图片模态进行联合建模，得到所述文本的多模态向量化表示和所述图片的多模态向量化表示；基于所述多模态互注意力机制建模文档不同模态之间的交互，并基于相关性矩阵建模文档内不同模态之间的相互关系，以获取所述文档内不同模态之间的交互，建模所述文档的多模态增强向量化表示。

可选地，在本申请的一个实施例中，所述基于互注意力机制建模所述文档和目标文档相同和不同模态之间的相关性，得到所述目标文档感知的多模态文档表示，包括：基于所述互注意力机制，对于所述文档和所述目标文档的同模态内容进行交互，建模所述文档和所述目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示；基于文档间跨模态互注意力机制，对于所述文档和所述目标文档的不同模态内容进行交互，建模多文档多模态之间的相关性，得到所述目标文档感知的多模态文档表示。

可选地，在本申请的一个实施例中，所述建模文档模态内的自相关性，融合文档的自注意力向量化表示和所述多模态增强的向量化表示，得到文档的多模态增强统一表示，包括：基于多头自注意力机制，建模文档模态内的自相关性，得到所述文档的自注意力向量化表示；融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示，得到文档模态的多模态增强统一表示；基于文档的不同模态的多模态增强统一表示，融合得到所述多模态增强统一表示。

可选地，在本申请的一个实施例中，所述基于所述多模态增强统一表示，计算所述目标文档和至少一个候选文档相关性分数，并基于所述相关性分数对至少一个候选文档进行排序，检索到相关的文档，包括：基于所述多模态增强统一表示，计算所述目标文档和所述至少一个候选文档相关性分数；基于每个候选文档的相关性分数，对所述至少一个候选文档进行排序，确定所述相关的文档。

本申请第二方面实施例提供一种基于跨模态互注意力机制的多模态文档检索装置，包括：第一建模模块，用于建模文档的多模态表示，分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列；第二建模模块，用于基于所述第一向量化表示序列和第二向量化表示序列，对所述文本模态和所述图片模态进行联合建模，分别得到文本的多模态向量化表示和图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示；第三建模模块，用于基于互注意力机制，建模所述文档和目标文档相同和不同模态之间的相关性，得到所述目标文档感知的多模态文档表示；第四建模模块，用于建模文档模态内的自相关性，融合文档的自注意力向量化表示和所述多模态增强向量化表示，得到所述文档的多模态增强统一表示；检索模块，用于基于所述多模态增强统一表示，计算所述目标文档和至少一个候选文档相关性分数，并基于所述相关性分数对至少一个候选文档进行排序，检索到相关的文档。

可选地，在本申请的一个实施例中，还包括：第一转换模块，用于在建模所述文档的多模态表示之前，对所述文档的文本数据进行预处理，过滤不满足预设条件的文本，并将过滤之后的文本转换为文字序列，得到用于建模的文本数据；第二转换模块，用于对于所述文档的图片数据进行预处理，将图片转换为像素序列，对于图片的均值和方差进行归一化，得到用于建模的图片数据。

可选地，在本申请的一个实施例中，所述第一建模模块包括：编码单元，用于基于词向量嵌入矩阵，编码所述文档中文本的词向量表示，得到所述文档的第一向量化表示序列；生成单元，用于基于预训练的Mask-RCNN网络，对于所述文档的图片生成图片候选框；抽取单元，用于基于ResNet-50网络抽取所述图片候选框的特征，得到所述文档的第二向量化表示序列。

可选地，在本申请的一个实施例中，所述第二建模模块包括：第一建模单元，用于基于VilBERT对所述文本模态和所述图片模态进行联合建模，得到所述文本的多模态向量化表示和所述图片的多模态向量化表示；第二建模单元，用于基于所述多模态互注意力机制建模文档不同模态之间的交互，并基于相关性矩阵建模文档内不同模态之间的相互关系，以获取所述文档内不同模态之间的交互，建模所述文档的多模态增强向量化表示。

可选地，在本申请的一个实施例中，所述第三建模模块包括：第一交互单元，用于基于所述互注意力机制，对于所述文档和所述目标文档的同模态内容进行交互，建模所述文档和所述目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示；第二交互单元，用于基于文档间跨模态互注意力机制，对于所述文档和所述目标文档的不同模态内容进行交互，建模多文档多模态之间的相关性，得到所述目标文档感知的多模态文档表示。

可选地，在本申请的一个实施例中，所述第四建模模块包括：第三建模单元，用于基于多头自注意力机制，建模文档模态内的自相关性，得到所述文档的自注意力向量化表示；第一融合单元，用于融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示，得到文档模态的多模态增强统一表示；第二融合单元，用于基于文档的不同模态的多模态增强统一表示，融合得到所述多模态增强统一表示。

可选地，在本申请的一个实施例中，所述检索模块包括：计算单元，用于基于所述多模态增强统一表示，计算所述目标文档和所述至少一个候选文档相关性分数；排序单元，用于基于每个候选文档的相关性分数，对所述至少一个候选文档进行排序，确定所述相关的文档。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的基于跨模态互注意力机制的多模态文档检索方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的基于跨模态互注意力机制的多模态文档检索方法。

本申请实施例可以通过建模文档多模态表示，以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示，得到文档多模态增强的统一表示，计算相关性分数以检索获得匹配文档，从而实现了文档多模态信息的充分利用，增强了文档各模态间的相关性，进而提升了文档检索结果的匹配度，使检索结果更加准确可靠。由此，解决了相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现文档内多模态信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于跨模态互注意力机制的多模态文档检索方法的流程图；

图2为本申请一个实施例的基于跨模态互注意力机制的文档检索的过程示意图；

图3为本申请一个实施例的基于跨模态互注意力机制的文档检索的原理示意图；

图4为根据本申请实施例的基于跨模态互注意力机制的多模态文档检索装置的结构示意图；

图5为根据本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于跨模态互注意力机制的多模态文档检索方法及装置。针对上述背景技术中提到的相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现文档内多模态信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性的问题，本申请提供了一种基于跨模态互注意力机制的多模态文档检索方法，可以通过建模文档多模态表示，以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示，得到文档多模态增强的统一表示，计算相关性分数以检索获得匹配文档，从而实现了文档多模态信息的充分利用，增强了文档各模态间的相关性，进而提升了文档检索结果的匹配度，使检索结果更加准确可靠。由此，解决了相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现文档内多模态信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性等问题。

具体而言，图1为本申请实施例所提供的一种基于跨模态互注意力机制的多模态文档检索方法的流程示意图。

如图1所示，该基于跨模态互注意力机制的多模态文档检索方法包括以下步骤：

在步骤S101中，建模文档的多模态表示，分别得到文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列。

可以理解的是，本申请实施例中第一向量化表示序列可由文档的文本模态获取，第二向量化表示序列可由文档的图片模态获取，文档多模态表示的建模结果可包含文档的文本内容和图片内容。

本申请实施例可以建模文档的多模态表示，分别得到文档文本模态的第一向量化表示序列和图片模态的第二向量化表示序列，从而实现针对文档内文本模态和图片模态的分别建模。

可选地，在本申请的一个实施例中，在建模文档的多模态表示之前，还包括：对文档的文本数据进行预处理，过滤不满足预设条件的文本，并将过滤之后的文本转换为文字序列，得到用于建模的文本数据；对于文档的图片数据进行预处理，将图片转换为像素序列，对于图片的均值和方差进行归一化，得到用于建模的图片数据。

可以理解的是，本申请实施例中可以通过文本数据预处理后得到处理后的文字序列，通过图片数据预处理后得到处理后的像素序列，以用于上述步骤中文档多模态表示的建模。

需要说明的是，预设条件由本领域技术人员根据实际情况进行设置，在此不作具体限定。

可选地，在本申请的一个实施例中，建模文档的多模态表示，分别得到文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列，包括：基于词向量嵌入矩阵，编码文档中文本的词向量表示，得到文档的第一向量化表示序列；基于预训练的Mask-RCNN网络，对于文档的图片生成图片候选框；基于ResNet-50网络抽取图片候选框的特征，得到文档的第二向量化表示序列。

举例而言，可通过词向量嵌入矩阵对文本的词向量表示进行编码，得到文档的文本向量化表示，通过预训练的Mask-RCNN网络为文档中的所有图片生成候选框，通过ResNet50网络对于生成的图片候选框进行建模，得到文档的图片向量化表示。

在实际执行过程中，对于给定文档，可由文字序列w＝[w₁,w₂,…,w_M]表示文档的文本，其中M为文本序列的长度。文本序列中的每个单词w_i通过字符嵌入矩阵

映射到一个向量序列/>

其中，V_w为词汇量大小，D_w为嵌入维度，得到的向量序列/>

即为文档文本的向量化表示，即文档的第一向量化表示序列。

另外，对于给定文档中的每一个图片，可视为一个二维的像素点数组p＝[p₁,p₂,…,p_M]，其中M是图片像素点序列的长度。Mask-RCNN网络为图片中的每个对象生成候选框，以候选框的形式表达图片中重要的部分。对于每张图片，Mask-RCNN网络为其生成K个候选框，候选框序列可以被表示为p＝[p₁,p₂,…,p_K]，其中，K为ROI的个数。进而通过ResNet50网络对于生成的图片候选框进行建模，抽取出候选框的特征，得到图片候选框序列的向量化表示

由/>

得到向量序列/>

即为文档图片的向量化表示，即文档的第二向量化表示序列。

本申请实施例可以编码文档中文本的词向量表示得到文档的第一向量化表示序列，并对文档的图片生成图片候选框，抽取图片候选框的特征，得到文档的第二向量化表示序列，由此实现了文档各模态的向量化表示的建模过程。

在步骤S102中，基于第一向量化表示序列和第二向量化表示序列，对文本模态和图片模态进行联合建模，分别得到文本的多模态向量化表示和图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示。

可以理解的是，本申请实施例中联合建模可指针对文档的文本序列和图片序列进行跨模态建模，以获取文档文本模态的多模态向量化表示和文档图片模态的多模态向量化表示。多模态互注意力机制的建模可在文档内执行，针对文档不同模态的输入进行交互，从而最终得到文档的多模态增强向量化表示，即多模态增强的文本矩阵与多模态增强的图片矩阵。

可选地，在本申请的一个实施例中，基于第一向量化表示序列和第二向量化表示序列，对文本模态和图片模态进行联合建模，分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示，包括：基于VilBERT对文本模态和图片模态进行联合建模，得到文本的多模态向量化表示和图片的多模态向量化表示；基于多模态互注意力机制建模文档不同模态之间的交互，并基于相关性矩阵建模文档内不同模态之间的相互关系，以获取文档内不同模态之间的交互，建模文档的多模态增强向量化表示。

可以理解的是，本申请实施例中ViLBERT网络模型可用于多模态联合建模，可基于多模态互注意力机制的Transformer层，在不同深度上针对不同模态进行交互，得到多模态增强的文档文本和文档图片表示。

例如，可以基于文档内多模态互注意力机制建模文档不同模态之间的交互，基于相关性矩阵使用归一化指数函数计算得到归一化相关性分数作为归一化的权重系数，并基于归一化的相关性分数对于文档的表示进行加权，得到文档的多模态增强表示。

具体而言，可将上述步骤中文档的文本序列和图片序列的向量化表示

作为ViLBERT的共同输入，同时输入ViLBERT网络模型：

所得

为文档的文本序列向量化表示，/>

为文档的图片序列向量化表示。进而将文档文本模态的向量化表示序列进行拼接，得到文档的文本表示矩阵，即：

其中，

为文档的文本表示矩阵，/>

为文档的文本序列向量化表示，

M_w为文本序列的长度，E为模型输出的序列向量化表示维度。将文档图片模态的向量化表示序列进行拼接，得到文档的图片表示矩阵，即：

其中，

为文档的图片表示矩阵，/>

为文档的图片序列向量化表示，/>

M_p为文档图片序列的长度，E为模型输出的序列向量化表示维度，由此分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示。

进而，可基于相关性矩阵C^XY表征不同模态内容之间的相关性，X,Y分别表示文档的不同模态。相关性矩阵C^XY每个位置的元素

代表文档模态X第i个位置的向量与文档模态Y第j个位置的向量的相关系数，以表征两个向量之间的相关联程度，计算所得相关性矩阵C^XY可表征文档模态X和模态Y间各个位置元素的相关性。对于文档文本模态的表示矩阵与图片模态的表示矩阵，相关性矩阵具体为：

C^WP＝(S^W)^TW^WPS^P，

C^PW＝(S^P)^TW^PWS^W，

其中，C^WP为文档的文本模态与图片模态的相关性矩阵，S^W为文档文本模态的表示矩阵，W^WP为文档的文本模态与图片模态的权重矩阵，S^P为图片模态的表示矩阵，C^PW为文档的图片模态与文本模态的相关性矩阵，W^PW为文档的图片模态与文本模态的权重矩阵。W^WP、W^PW可针对对应位置的向量内积进行加权，C^WP∈R^P×E，C^PW∈R^E×E，E为模型输出的序列向量化表示维度。由归一化指数函数作用在相关性矩阵C^WP上，计算得到文档文本模态与图片模态的归一化相关性分数矩阵，即：

α^WP＝Softmax(C^WP)，

其中，α^WP为文档文本模态与图片模态的归一化相关性分数矩阵，C^WP为文档的文本模态与图片模态的相关性矩阵，α^WP∈R^E×E，E为模型输出的序列向量化表示维度。由归一化指数函数作用在文档的图片模态与文本模态的相关性矩阵C^PW上，计算得到文档图片模态与文本模态的归一化相关性分数矩阵，即：

α^PW＝Softmax(C^PW)，

其中，α^PW为文档图片模态与文本模态的归一化相关性分数矩阵，C^PW为文档的图片模态与文本模态的相关性矩阵，α^PW∈R^E×E，E为模型输出的序列向量化表示维度。基于所得归一化相关性分数，可对文档表示进行加权，计算得到跨模态增强的文本模态表示，即：

其中，S^W为跨模态增强的文本模态表示，

为文档的文本表示矩阵，α^WP为文档文本模态与图片模态的归一化相关性分数矩阵，/>

即为文档文本模态的增强表示，M_w为文本序列的长度，E为模型输出的序列向量化表示维度。计算得到跨模态增强的图片模态表示，即：

其中，S^P为跨模态增强的图片模态表示，

为文档的图片模态表示矩阵，α^PW为文档图片模态与文本模态的归一化相关性分数矩阵，/>

M_p为文档图片序列的长度，E为模型输出的序列向量化表示维度。

在步骤S103中，基于互注意力机制，建模文档和目标文档相同和不同模态之间的相关性，得到目标文档感知的多模态文档表示。

可以理解的是，本申请实施例中的跨模态互注意力机制在文档间执行，可针对上述步骤所得当前文档的文档内各模态的向量化表示，以及目标文档的文档内各模态的向量化表示，分别根据当前文档和目标文档相同和不同模态之间的相关性，以获取目标文档所感知得到的多模态文档表示。

本申请实施例可以基于互注意力机制，建模文档和目标文档相同和不同模态之间的相关性，得到目标文档感知的多模态文档表示，通过建模当前文档与目标文档之间的相关性，以进一步实现文档间的匹配关系建立，

可选地，在本申请的一个实施例中，基于互注意力机制建模文档和目标文档相同和不同模态之间的相关性，得到目标文档感知的多模态文档表示，包括：基于互注意力机制，对于文档和目标文档的同模态内容进行交互，建模文档和目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示；基于文档间跨模态互注意力机制，对于文档和目标文档的不同模态内容进行交互，建模多文档多模态之间的相关性，得到目标文档感知的多模态文档表示。

举例而言，可以基于互注意力机制对于文档和目标文档的同一模态内容进行交互，由相关性矩阵使用归一化指数函数计算得到归一化相关性分数矩阵作为归一化的权重系数，建模当前文档和目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示。同时基于文档间跨模态互注意力机制对于当前文档和目标文档的不同模态内容进行交互，由相关性矩阵使用归一化指数函数计算得到归一化相关性分数矩阵作为归一化的权重系数，基于归一化的相关性分数矩阵对于文档表示进行加权，建模当前文档给定模态和目标文档另一模态之间的跨文档跨模态交互，得到目标文档感知的跨模态文档表示。

具体地，可以基于相关性矩阵C^AB表征不同文档的同一模态内容之间的相关性，以A，B分别表示当前文档与目标文档。相关性矩阵C^AB每个位置的元素

代表文档A模态第i个位置的向量与文档B同一模态第j个位置的向量的相关系数，表征两个向量之间的相关联程度，计算得到的相关性矩阵C^AB表征文档A和文档B对应模态各个位置元素的相关性，具体为：

C^AB＝(S^A)^TW^ABS^B，

C^BA＝(S^B)^TW^BAS^A，

其中，C^AB为文档文本模态与文档图片模态的相关性分数矩阵，S^A为文档A的表示矩阵，W^AB为文档文本模态与文档图片模态的权重矩阵，S^B为目标文档B的表示矩阵，C^BA为文档的图片模态与文本模态的相关性分数矩阵，W^BA为文档的图片模态与文本模态的权重矩阵。W^AB、W^BA可为对应位置的向量内积进行加权，计算得到C^AB∈R^E×E和C^BA∈R^E×E代表文档文本模态W与文档图片模态P之间的相关性，E为模型输出的序列向量化表示维度。可由化指数函数作用在文档的文本模态与图片模态的相关性矩阵C^AB，计算得到文档文本模态与图片模态的归一化相关性分数矩阵，即有：

α^AB＝Softmax(C^AB)，

其中，α^AB为文档文本模态与图片模态的归一化相关性分数矩阵，C^AB为文档文本模态与文档图片模态的相关性分数矩阵，α^AB∈R^E×E，E为模型输出的序列向量化表示维度。可由归一化指数函数作用在文档的图片模态与文本模态的相关性矩阵C^BA，计算得到文档图片模态与文本模态的归一化相关性分数矩阵，即：

α^BA＝Softmax(C^BA)，

其中，α^BA为文档图片模态与文本模态的归一化相关性分数矩阵，C^BA为文档的图片模态与文本模态的相关性分数矩阵，α^BA∈R^E×E，E为模型输出的序列向量化表示维度。对于当前文档A给定模态的矩阵表示，基于其与目标文档B的同一模态的归一化的相关性分数矩阵进行加权，计算得到跨模态增强的文档表示，即：

其中，S^A为当前文档的目标文档感知增强表示，

为当前文档A给定模态的矩阵表示，α^AB为文档文本模态与图片模态的归一化相关性分数矩阵，/>

X为当前交互模态，E为模型输出的序列向量化表示维度。

同时，基于相关性矩阵C^XY表征不同文档的不同模态内容之间的相关性，X，Y分别表示当前文档的给定模态与目标文档的另一模态。相关性矩阵C^XY每个位置的元素

代表当前文档给定模态第i个位置的向量与目标文档另一模态第j个位置的向量的相关系数，表征两个向量之间的相关联程度，计算得到的相关性矩阵C^XY表征当前文档的给定模态和目标文档的另一模态各个位置元素的相关性，相关性矩阵C^XY为：

C^XY＝(S^X)^TW^XYS^Y，

其中，C^XY为文档的文本模态与图片模态的相关性矩阵，S^X为当前文档给定模态X的表示矩阵，W^XY为文档的文本模态与图片模态的权重矩阵，S^Y为目标文档另一模态Y的表示矩阵，C^XY∈R^E×E，E为模型输出的序列向量化表示维度，W^XY可为对应位置的向量内积进行加权。对于文档的文本模态与图片模态的相关性矩阵C^XY，可由归一化指数函数作用在相关性矩阵C^XY上，计算得到两个模态间的归一化相关性分数矩阵，即：

α^XY＝Softmax(C^XY)，

其中，α^XY为目标文档的另一模态的归一化的相关性分数矩阵，C^XY为文档的文本模态与图片模态的相关性矩阵，α^XY∈R^E×E，E为模型输出的序列向量化表示维度。对于当前文档给定模态的矩阵表示，基于其与目标文档的另一模态的归一化的相关性分数矩阵进行加权，计算得到跨模态增强的文档表示，即：

其中，S^X为到跨模态增强的文档表示，

为当前文档给定模态的矩阵表示，α^XY为目标文档的另一模态的归一化的相关性分数矩阵，/>

X表示当前交互的模态，E为模型输出的序列向量化表示维度。

在步骤S104中，建模文档模态内的自相关性，融合文档的自注意力向量化表示和多模态增强向量化表示，得到文档的多模态增强统一表示。

可以理解的是，本申请实施例中文档的多模态增强统一表示可以实现文档文本与文档图片的统一表达，可通过融合文档内多个模态的增强向量化表示得到文档多模态增强的统一表示，以此进一步实现文档相关性的衡量基础，从而完善检索结果的匹配程度。

可选地，在本申请的一个实施例中，建模文档模态内的自相关性，融合文档的自注意力向量化表示和多模态增强的向量化表示，得到文档的多模态增强统一表示，包括：基于多头自注意力机制，建模文档模态内的自相关性，得到文档的自注意力向量化表示；融合文档的自注意力向量化表示和文档的多种多模态增强的向量化表示，得到文档模态的多模态增强统一表示；基于文档的不同模态的多模态增强统一表示，融合得到多模态增强统一表示。

举例而言，可以基于多头自注意力机制建模文档模态内的自相关性，得到文档模态的自注意力向量化表示，使用归一化指数函数计算得到归一化相关性分数，对文档的表示进行加权，建模当前文档给定模态的自相关注意力交互，得到目标文档感知的跨模态文档表示，基于注意力池化机制，融合文档的自相关注意力增强向量化表示矩阵和文档的多种多模态增强的向量化表示矩阵，得到文档模态的多模态增强统一表示，对多模态互注意力增强表示矩阵进行融合，得到文档模态的多模态增强的注意力融合向量，基于前馈神经网络融合文档不同模态的多模态增强的注意力融合向量，最终得到文档的统一表示。

在实际执行过程中，多头自注意力机制可以计算出序列中每个元素的重要程度，对于文档的模态表示矩阵，可使用自相关性矩阵C^X表征文档模态内部的自相关性，X代表文档的不同模态，C^X的每个位置的元素可表征文档不同模态间各个位置元素的相关性，为：

C^X＝(S^X)^TW^XS^X，

其中，C^X为文档X模态的表示矩阵，S^X为文档X模态的表示矩阵，W^X为文档X模态的权重矩阵，W^X为可学习的变量，由训练时学习获取，C^X每个位置的数值

代表第i个位置的向量与第j个位置的向量的相关系数，表征两个向量之间的相关联程度。对于文档给定模态的相关性矩阵C^X，可由归一化指数函数作用在相关性矩阵C^X上，计算得到文档文本模态与图片模态的归一化相关性分数，即：

α^X＝Softmax(C^X)，

其中，α^X为文档的自相关归一化相关性分数，C^X为文档X模态的表示矩阵。对于当前文档的给定模态的矩阵表示，基于其自相关归一化相关性分数矩阵α^XY进行加权，计算得到跨模态增强的文档表示，即：

其中，S^X为跨模态增强的文档表示，

为前文档的给定模态的矩阵表示，α^X为自相关归一化相关性分数矩阵，/>

X为当前交互模态，E为模型输出的序列向量化表示维度。

对于文档的每一个模态，计算得到4个基于注意力机制的多模态互注意力增强表示，分别为：基于自注意力机制的自相关注意力增强表示、基于跨模态互注意力机制的跨模态增强表示、基于跨文档互注意力机制的目标文档感知的跨文档互注意力增强表示、基于跨文档跨模态互注意力机制的目标文档感知的跨文档跨模态互注意力增强表示。对于文档的模态X，其原始向量化表示矩阵为S₀，则它的多模态互注意力增强表示矩阵分别为：基于自注意力机制的自相关注意力增强表示矩阵S_self、基于跨模态互注意力机制的跨模态增强表示矩阵S_multimodal、基于跨文档互注意力机制的目标文档感知的跨文档互注意力增强表示矩阵S_multdoc、基于跨文档跨模态互注意力机制的目标文档感知的跨文档跨模态互注意力增强表示矩阵S_{multidoc-multimodal}，基于注意力池化机制对于其进行融合，得到模态的多模态增强的注意力融合向量，即：

其中，k为模态的多模态增强的注意力融合向量，

为注意力查询矩阵，W₁、W₂、W₃、W₄分别为对于不同的多模态互注意力增强表示矩阵进行加权的权重矩阵，tanh为双曲正切激活函数。分别计算得到文本模态W的多模态增强的注意力融合向量、图片模态P的多模态增强的注意力融合向量，进行拼接得到统一的联合向量，即：

k_c＝[k_W；k_P]

其中，k_c为联合向量，k_W为文本模态W的多模态增强的注意力融合向量，k_P为图片模态P的多模态增强的注意力融合向量。对于所得联合向量，将其送入前馈神经网络，进一步融合文档不同模态的表示特征。即：

k＝FFNN(k_c)

其中，k为文档统一表示，k_c为联合向量，FFNN代表前馈神经网络，最终输出文档的多模态增强统一表示。

在步骤S105中，基于多模态增强统一表示，计算目标文档和至少一个候选文档相关性分数，并基于相关性分数对至少一个候选文档进行排序，检索到相关的文档。

可以理解的是，本申请实施例中目标文档和当前文档的匹配分数可代表两个文档之间的相关联程度，可以根据上述步骤所得文档的多模态增强统一表示，计算相关性分数，根据分数的排序结果选择相关性最强的文档作匹配结果的输出，以此实现文档多模态信息的充分利用，进而提升了文档检索结果的匹配度，使检索结果更加准确可靠。

可选地，在本申请的一个实施例中，基于多模态增强统一表示，计算目标文档和至少一个候选文档相关性分数，并基于相关性分数对至少一个候选文档进行排序，检索到相关的文档，包括：基于多模态增强统一表示，计算目标文档和至少一个候选文档相关性分数；基于每个候选文档的相关性分数，对至少一个候选文档进行排序，确定相关的文档。

在实际执行过程中，针对需要进行匹配的当前文档A和目标文档B，分别计算出A文档的统一表示k^A、B文档的统一表示k^B，计算A文档图片模态与B文档图片模态的内积，将两个内积分数相加得到最终的匹配分数，即

其中，

为当前文档和目标文档的匹配分数，k^A为A文档的统一表示，k^B为B文档的统一表示。对于每个候选文档，随机采样多个负样本，分别计算和目标文档的匹配分数，并采用BPR(Bayesian Personalized Ranking)损失进行模型学习：

其中，L为损失函数，H为训练样本的大小，

为第i个正样本的匹配分数，/>

为第i个负样本的匹配分数，φ为Sigmoid函数，进而通过RMSProp优化器对损失函数L优化训练模型，得到对于文档建模最优化的参数。

下面以一个具体实施例对本申请实施例的工作内容进行详细阐述。

如图2-3所示，可将文本转换为文字序列，过滤文本，图片转换为像素序列，均值方差进行归一化，基于文档向量化编码器，建模文档各模态的向量化表示，基于文档内跨模态互注意力机制，建模文档多模态表示基于文档间跨模态互注意力机制，建模目标文档感知的文档多模态表示，融合文档多个模态的多模态增强向量化表示，得到文档多模态增强的统一表示，基于多模态增强的文档建模表示结果，检索最相关的匹配文档。

根据本申请实施例提出的基于跨模态互注意力机制的多模态文档检索方法，可以通过建模文档多模态表示，以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示，得到文档多模态增强的统一表示，计算相关性分数以检索获得匹配文档，从而实现了文档多模态信息的充分利用，增强了文档各模态间的相关性，进而提升了文档检索结果的匹配度，使检索结果更加准确可靠。由此，解决了相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现多模态文档内信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性等问题。本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

其次参照附图描述根据本申请实施例提出的基于跨模态互注意力机制的多模态文档检索装置。

图4是本申请实施例的基于跨模态互注意力机制的多模态文档检索装置的结构示意图。

如图4所示，该基于跨模态互注意力机制的多模态文档检索装置10包括：第一建模模块100、第二建模模块200、第三建模模块300、第四建模模块400和检索模块500。

其中，第一建模模块100，用于建模文档的多模态表示，分别得到文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列。

第二建模模块200，用于基于第一向量化表示序列和第二向量化表示序列，对文本模态和图片模态进行联合建模，分别得到文本的多模态向量化表示和图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示。

第三建模模块300，用于基于互注意力机制，建模文档和目标文档相同和不同模态之间的相关性，得到目标文档感知的多模态文档表示。

第四建模模块400，用于建模文档模态内的自相关性，融合文档的自注意力向量化表示和多模态增强向量化表示，得到文档的多模态增强统一表示。

检索模块500，用于基于多模态增强统一表示，计算目标文档和至少一个候选文档相关性分数，并基于相关性分数对至少一个候选文档进行排序，检索到相关的文档。

可选地，在本申请的一个实施例中，装置10还包括：第一转换模块和第二转换模块。

其中，第一转换模块，用于在建模文档的多模态表示之前，对文档的文本数据进行预处理，过滤不满足预设条件的文本，并将过滤之后的文本转换为文字序列，得到用于建模的文本数据。

第二转换模块，用于对于文档的图片数据进行预处理，将图片转换为像素序列，对于图片的均值和方差进行归一化，得到用于建模的图片数据。

可选地，在本申请的一个实施例中，第一建模模块100包括：编码单元、生成单元和抽取单元。

其中，编码单元，用于基于词向量嵌入矩阵，编码文档中文本的词向量表示，得到文档的第一向量化表示序列。

生成单元，用于基于预训练的Mask-RCNN网络，对于文档的图片生成图片候选框。

抽取单元，用于基于ResNet-50网络抽取图片候选框的特征，得到文档的第二向量化表示序列。

可选地，在本申请的一个实施例中，第二建模模块200包括：第一建模单元和第二建模单元。

其中，第一建模单元，用于基于VilBERT对文本模态和图片模态进行联合建模，得到文本的多模态向量化表示和图片的多模态向量化表示。

第二建模单元，用于基于多模态互注意力机制建模文档不同模态之间的交互，并基于相关性矩阵建模文档内不同模态之间的相互关系，以获取文档内不同模态之间的交互，建模文档的多模态增强向量化表示。

可选地，在本申请的一个实施例中，第三建模模块300包括：第一交互单元和第二交互单元。

其中，第一交互单元，用于基于互注意力机制，对于文档和目标文档的同模态内容进行交互，建模文档和目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示。

第二交互单元，用于基于文档间跨模态互注意力机制，对于文档和目标文档的不同模态内容进行交互，建模多文档多模态之间的相关性，得到目标文档感知的多模态文档表示。

可选地，在本申请的一个实施例中，第四建模模块400包括：第三建模单元、第一融合单元和第二融合单元。

其中，第三建模单元，用于基于多头自注意力机制，建模文档模态内的自相关性，得到文档的自注意力向量化表示。

第一融合单元，用于融合文档的自注意力向量化表示和文档的多种多模态增强的向量化表示，得到文档模态的多模态增强统一表示。

第二融合单元，用于基于文档的不同模态的多模态增强统一表示，融合得到多模态增强统一表示。

可选地，在本申请的一个实施例中，检索模块500包括：计算单元和排序单元。

其中，计算单元，用于基于多模态增强统一表示，计算目标文档和至少一个候选文档相关性分数。

排序单元，用于基于每个候选文档的相关性分数，对至少一个候选文档进行排序，确定相关的文档。

需要说明的是，前述对基于跨模态互注意力机制的多模态文档检索方法实施例的解释说明也适用于该实施例的基于跨模态互注意力机制的多模态文档检索装置，此处不再赘述。

根据本申请实施例提出的基于跨模态互注意力机制的多模态文档检索装置，可以通过建模文档多模态表示，以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示，得到文档多模态增强的统一表示，计算相关性分数以检索获得匹配文档，从而实现了文档多模态信息的充分利用，增强了文档各模态间的相关性，进而提升了文档检索结果的匹配度，使检索结果更加准确可靠。由此，解决了相关技术中，各模态建模时忽略了不同模态之间的相关性，未考虑文档内与不同文档间的多模态内容交互，无法实现多模态文档内信息的有效利用，使文档的检索效果受到影响，降低了文档检索的准确性与针对性等问题。本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的基于跨模态互注意力机制的多模态文档检索方法。

进一步地，电子设备还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的基于跨模态互注意力机制的多模态文档检索方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于跨模态互注意力机制的多模态文档检索方法，其特征在于，包括以下步骤：

建模文档的多模态表示，分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列；

基于所述第一向量化表示序列和第二向量化表示序列，对所述文本模态和所述图片模态进行联合建模，分别得到文本的多模态向量化表示和图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示；

基于互注意力机制，建模所述文档和目标文档相同和不同模态之间的相关性，得到所述目标文档感知的多模态文档表示；

建模文档模态内的自相关性，融合文档的自注意力向量化表示和所述多模态增强向量化表示，得到所述文档的多模态增强统一表示；

基于所述多模态增强统一表示，计算所述目标文档和至少一个候选文档相关性分数，并基于所述相关性分数对至少一个候选文档进行排序，检索到相关的文档。

2.根据权利要求1所述的方法，其特征在于，在建模所述文档的多模态表示之前，还包括：

对所述文档的文本数据进行预处理，过滤不满足预设条件的文本，并将过滤之后的文本转换为文字序列，得到用于建模的文本数据；

对于所述文档的图片数据进行预处理，将图片转换为像素序列，对于图片的均值和方差进行归一化，得到用于建模的图片数据。

3.根据权利要求1所述的方法，其特征在于，所述建模文档的多模态表示，分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列，包括：

基于词向量嵌入矩阵，编码所述文档中文本的词向量表示，得到所述文档的第一向量化表示序列；

基于预训练的Mask-RCNN网络，对于所述文档的图片生成图片候选框；

基于ResNet-50网络抽取所述图片候选框的特征，得到所述文档的第二向量化表示序列。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一向量化表示序列和第二向量化表示序列，对所述文本模态和所述图片模态进行联合建模，分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示，包括：

基于VilBERT对所述文本模态和所述图片模态进行联合建模，得到所述文本的多模态向量化表示和所述图片的多模态向量化表示；

基于所述多模态互注意力机制建模文档不同模态之间的交互，并基于相关性矩阵建模文档内不同模态之间的相互关系，以获取所述文档内不同模态之间的交互，建模所述文档的多模态增强向量化表示。

5.根据权利要求1所述的方法，其特征在于，所述基于互注意力机制建模所述文档和目标文档相同和不同模态之间的相关性，得到所述目标文档感知的多模态文档表示，包括：

基于所述互注意力机制，对于所述文档和所述目标文档的同模态内容进行交互，建模所述文档和所述目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示；

基于文档间跨模态互注意力机制，对于所述文档和所述目标文档的不同模态内容进行交互，建模多文档多模态之间的相关性，得到所述目标文档感知的多模态文档表示。

6.根据权利要求1所述的方法，其特征在于，所述建模文档模态内的自相关性，融合文档的自注意力向量化表示和所述多模态增强的向量化表示，得到文档的多模态增强统一表示

基于多头自注意力机制，建模文档模态内的自相关性，得到所述文档的自注意力向量化表示；

融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示，得到文档模态的多模态增强统一表示；

基于文档的不同模态的多模态增强统一表示，融合得到所述多模态增强统一表示。

7.根据权利要求1所述的方法，其特征在于，所述基于所述多模态增强统一表示，计算所述目标文档和至少一个候选文档相关性分数，并基于所述相关性分数对至少一个候选文档进行排序，检索到相关的文档，包括：

基于所述多模态增强统一表示，计算所述目标文档和所述至少一个候选文档相关性分数；

基于每个候选文档的相关性分数，对所述至少一个候选文档进行排序，确定所述相关的文档。

8.一种基于跨模态互注意力机制的多模态文档检索装置，其特征在于，包括：

第一建模模块，用于建模文档的多模态表示，分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列；

第二建模模块，用于基于所述第一向量化表示序列和第二向量化表示序列，对所述文本模态和所述图片模态进行联合建模，分别得到文本的多模态向量化表示和图片的多模态向量化表示，以基于多模态互注意力机制建模文档不同模态之间的交互，建模文档的多模态增强向量化表示；

第三建模模块，用于基于互注意力机制，建模所述文档和目标文档相同和不同模态之间的相关性，得到所述目标文档感知的多模态文档表示；

第四建模模块，用于建模文档模态内的自相关性，融合文档的自注意力向量化表示和所述多模态增强向量化表示，得到所述文档的多模态增强统一表示；

检索模块，用于基于所述多模态增强统一表示，计算所述目标文档和至少一个候选文档相关性分数，并基于所述相关性分数对至少一个候选文档进行排序，检索到相关的文档。

9.根据权利要求8所述的装置，其特征在于，还包括：

第一转换模块，用于在建模所述文档的多模态表示之前，对所述文档的文本数据进行预处理，过滤不满足预设条件的文本，并将过滤之后的文本转换为文字序列，得到用于建模的文本数据；

第二转换模块，用于对于所述文档的图片数据进行预处理，将图片转换为像素序列，对于图片的均值和方差进行归一化，得到用于建模的图片数据。

10.根据权利要求8所述的装置，其特征在于，所述第一建模模块包括：

编码单元，用于基于词向量嵌入矩阵，编码所述文档中文本的词向量表示，得到所述文档的第一向量化表示序列；

生成单元，用于基于预训练的Mask-RCNN网络，对于所述文档的图片生成图片候选框；

抽取单元，用于基于ResNet-50网络抽取所述图片候选框的特征，得到所述文档的第二向量化表示序列。

11.根据权利要求8所述的装置，其特征在于，所述第二建模模块包括：

第一建模单元，用于基于VilBERT对所述文本模态和所述图片模态进行联合建模，得到所述文本的多模态向量化表示和所述图片的多模态向量化表示；

第二建模单元，用于基于所述多模态互注意力机制建模文档不同模态之间的交互，并基于相关性矩阵建模文档内不同模态之间的相互关系，以获取所述文档内不同模态之间的交互，建模所述文档的多模态增强向量化表示。

12.根据权利要求8所述的装置，其特征在于，所述第三建模模块包括：

第一交互单元，用于基于所述互注意力机制，对于所述文档和所述目标文档的同模态内容进行交互，建模所述文档和所述目标文档相同模态之间的相关性，得到目标文档感知的跨文档同模态文档增强表示；

第二交互单元，用于基于文档间跨模态互注意力机制，对于所述文档和所述目标文档的不同模态内容进行交互，建模多文档多模态之间的相关性，得到所述目标文档感知的多模态文档表示。

13.根据权利要求8所述的装置，其特征在于，所述第四建模模块包括：

第三建模单元，用于基于多头自注意力机制，建模文档模态内的自相关性，得到所述文档的自注意力向量化表示；

第一融合单元，用于融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示，得到文档模态的多模态增强统一表示；

第二融合单元，用于基于文档的不同模态的多模态增强统一表示，融合得到所述多模态增强统一表示。

14.根据权利要求8所述的装置，其特征在于，所述检索模块包括：

计算单元，用于基于所述多模态增强统一表示，计算所述目标文档和所述至少一个候选文档相关性分数；

排序单元，用于基于每个候选文档的相关性分数，对所述至少一个候选文档进行排序，确定所述相关的文档。

15.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7任一项所述的基于跨模态互注意力机制的多模态文档检索方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-7任一项所述的基于跨模态互注意力机制的多模态文档检索方法。