CN116401357A - 基于跨模态互注意力机制的多模态文档检索方法及装置 - Google Patents

基于跨模态互注意力机制的多模态文档检索方法及装置 Download PDF

Info

Publication number
CN116401357A
CN116401357A CN202310337398.7A CN202310337398A CN116401357A CN 116401357 A CN116401357 A CN 116401357A CN 202310337398 A CN202310337398 A CN 202310337398A CN 116401357 A CN116401357 A CN 116401357A
Authority
CN
China
Prior art keywords
document
representation
mode
modeling
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310337398.7A
Other languages
English (en)
Inventor
黄永峰
黄颖卓
陈泽平
何亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310337398.7A priority Critical patent/CN116401357A/zh
Publication of CN116401357A publication Critical patent/CN116401357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及文档检索技术领域,特别涉及一种基于跨模态互注意力机制的多模态文档检索方法及装置,其中,方法包括:建模文档的多模态表示,基于多模态互注意力机制得到目标文档感知的多模态文档表示,融合文档的自注意力向量化表示和多模态增强向量化表示,得到文档的多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数并进行排序,检索到相关的文档。本申请实施例可以基于跨模态互注意力机制,通过获取文档多模态增强的统一表示,计算相关性分数以检索获得匹配文档,从而实现了文档多模态信息的充分利用,增强了文档各模态间的相关性,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。

Description

基于跨模态互注意力机制的多模态文档检索方法及装置
技术领域
本申请涉及文档检索技术领域,特别涉及一种基于跨模态互注意力机制的多模态文档检索方法及装置。
背景技术
文档检索是自然语言处理领域的重要研究内容,指从众多文档中检索出和给定文档或搜索最相关的文档,是众多下游任务的研究基础。
随着互联网技术的不断发展,文档中所包含的信息逐渐增加,文档中包括文本、图像在内的多种信息,可分别对各模态进行单独建模,以实现多模态文档的检索。
然而,相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性,亟待解决。
发明内容
本申请提供一种基于跨模态互注意力机制的多模态文档检索方法及装置,以解决相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性等问题。
本申请第一方面实施例提供一种基于跨模态互注意力机制的多模态文档检索方法,包括以下步骤:建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列;基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示;基于互注意力机制,建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示;建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强向量化表示,得到所述文档的多模态增强统一表示;基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档。
可选地,在本申请的一个实施例中,在建模所述文档的多模态表示之前,还包括:对所述文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据;对于所述文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。
可选地,在本申请的一个实施例中,所述建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列,包括:基于词向量嵌入矩阵,编码所述文档中文本的词向量表示,得到所述文档的第一向量化表示序列;基于预训练的Mask-RCNN网络,对于所述文档的图片生成图片候选框;基于ResNet-50网络抽取所述图片候选框的特征,得到所述文档的第二向量化表示序列。
可选地,在本申请的一个实施例中,所述基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示,包括:基于VilBERT(Vision-and-LanguageBERT)对所述文本模态和所述图片模态进行联合建模,得到所述文本的多模态向量化表示和所述图片的多模态向量化表示;基于所述多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取所述文档内不同模态之间的交互,建模所述文档的多模态增强向量化表示。
可选地,在本申请的一个实施例中,所述基于互注意力机制建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示,包括:基于所述互注意力机制,对于所述文档和所述目标文档的同模态内容进行交互,建模所述文档和所述目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示;基于文档间跨模态互注意力机制,对于所述文档和所述目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到所述目标文档感知的多模态文档表示。
可选地,在本申请的一个实施例中,所述建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强的向量化表示,得到文档的多模态增强统一表示,包括:基于多头自注意力机制,建模文档模态内的自相关性,得到所述文档的自注意力向量化表示;融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示;基于文档的不同模态的多模态增强统一表示,融合得到所述多模态增强统一表示。
可选地,在本申请的一个实施例中,所述基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档,包括:基于所述多模态增强统一表示,计算所述目标文档和所述至少一个候选文档相关性分数;基于每个候选文档的相关性分数,对所述至少一个候选文档进行排序,确定所述相关的文档。
本申请第二方面实施例提供一种基于跨模态互注意力机制的多模态文档检索装置,包括:第一建模模块,用于建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列;第二建模模块,用于基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示;第三建模模块,用于基于互注意力机制,建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示;第四建模模块,用于建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强向量化表示,得到所述文档的多模态增强统一表示;检索模块,用于基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档。
可选地,在本申请的一个实施例中,还包括:第一转换模块,用于在建模所述文档的多模态表示之前,对所述文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据;第二转换模块,用于对于所述文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。
可选地,在本申请的一个实施例中,所述第一建模模块包括:编码单元,用于基于词向量嵌入矩阵,编码所述文档中文本的词向量表示,得到所述文档的第一向量化表示序列;生成单元,用于基于预训练的Mask-RCNN网络,对于所述文档的图片生成图片候选框;抽取单元,用于基于ResNet-50网络抽取所述图片候选框的特征,得到所述文档的第二向量化表示序列。
可选地,在本申请的一个实施例中,所述第二建模模块包括:第一建模单元,用于基于VilBERT对所述文本模态和所述图片模态进行联合建模,得到所述文本的多模态向量化表示和所述图片的多模态向量化表示;第二建模单元,用于基于所述多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取所述文档内不同模态之间的交互,建模所述文档的多模态增强向量化表示。
可选地,在本申请的一个实施例中,所述第三建模模块包括:第一交互单元,用于基于所述互注意力机制,对于所述文档和所述目标文档的同模态内容进行交互,建模所述文档和所述目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示;第二交互单元,用于基于文档间跨模态互注意力机制,对于所述文档和所述目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到所述目标文档感知的多模态文档表示。
可选地,在本申请的一个实施例中,所述第四建模模块包括:第三建模单元,用于基于多头自注意力机制,建模文档模态内的自相关性,得到所述文档的自注意力向量化表示;第一融合单元,用于融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示;第二融合单元,用于基于文档的不同模态的多模态增强统一表示,融合得到所述多模态增强统一表示。
可选地,在本申请的一个实施例中,所述检索模块包括:计算单元,用于基于所述多模态增强统一表示,计算所述目标文档和所述至少一个候选文档相关性分数;排序单元,用于基于每个候选文档的相关性分数,对所述至少一个候选文档进行排序,确定所述相关的文档。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于跨模态互注意力机制的多模态文档检索方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的基于跨模态互注意力机制的多模态文档检索方法。
本申请实施例可以通过建模文档多模态表示,以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示,得到文档多模态增强的统一表示,计算相关性分数以检索获得匹配文档,从而实现了文档多模态信息的充分利用,增强了文档各模态间的相关性,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。由此,解决了相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性等问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种基于跨模态互注意力机制的多模态文档检索方法的流程图;
图2为本申请一个实施例的基于跨模态互注意力机制的文档检索的过程示意图;
图3为本申请一个实施例的基于跨模态互注意力机制的文档检索的原理示意图;
图4为根据本申请实施例的基于跨模态互注意力机制的多模态文档检索装置的结构示意图;
图5为根据本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于跨模态互注意力机制的多模态文档检索方法及装置。针对上述背景技术中提到的相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性的问题,本申请提供了一种基于跨模态互注意力机制的多模态文档检索方法,可以通过建模文档多模态表示,以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示,得到文档多模态增强的统一表示,计算相关性分数以检索获得匹配文档,从而实现了文档多模态信息的充分利用,增强了文档各模态间的相关性,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。由此,解决了相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性等问题。
具体而言,图1为本申请实施例所提供的一种基于跨模态互注意力机制的多模态文档检索方法的流程示意图。
如图1所示,该基于跨模态互注意力机制的多模态文档检索方法包括以下步骤:
在步骤S101中,建模文档的多模态表示,分别得到文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列。
可以理解的是,本申请实施例中第一向量化表示序列可由文档的文本模态获取,第二向量化表示序列可由文档的图片模态获取,文档多模态表示的建模结果可包含文档的文本内容和图片内容。
本申请实施例可以建模文档的多模态表示,分别得到文档文本模态的第一向量化表示序列和图片模态的第二向量化表示序列,从而实现针对文档内文本模态和图片模态的分别建模。
可选地,在本申请的一个实施例中,在建模文档的多模态表示之前,还包括:对文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据;对于文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。
可以理解的是,本申请实施例中可以通过文本数据预处理后得到处理后的文字序列,通过图片数据预处理后得到处理后的像素序列,以用于上述步骤中文档多模态表示的建模。
需要说明的是,预设条件由本领域技术人员根据实际情况进行设置,在此不作具体限定。
可选地,在本申请的一个实施例中,建模文档的多模态表示,分别得到文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列,包括:基于词向量嵌入矩阵,编码文档中文本的词向量表示,得到文档的第一向量化表示序列;基于预训练的Mask-RCNN网络,对于文档的图片生成图片候选框;基于ResNet-50网络抽取图片候选框的特征,得到文档的第二向量化表示序列。
举例而言,可通过词向量嵌入矩阵对文本的词向量表示进行编码,得到文档的文本向量化表示,通过预训练的Mask-RCNN网络为文档中的所有图片生成候选框,通过ResNet50网络对于生成的图片候选框进行建模,得到文档的图片向量化表示。
在实际执行过程中,对于给定文档,可由文字序列w=[w1,w2,…,wM]表示文档的文本,其中M为文本序列的长度。文本序列中的每个单词wi通过字符嵌入矩阵
Figure BDA0004156882970000061
映射到一个向量序列/>
Figure BDA0004156882970000062
其中,Vw为词汇量大小,Dw为嵌入维度,得到的向量序列/>
Figure BDA0004156882970000063
即为文档文本的向量化表示,即文档的第一向量化表示序列。
另外,对于给定文档中的每一个图片,可视为一个二维的像素点数组p=[p1,p2,…,pM],其中M是图片像素点序列的长度。Mask-RCNN网络为图片中的每个对象生成候选框,以候选框的形式表达图片中重要的部分。对于每张图片,Mask-RCNN网络为其生成K个候选框,候选框序列可以被表示为p=[p1,p2,…,pK],其中,K为ROI的个数。进而通过ResNet50网络对于生成的图片候选框进行建模,抽取出候选框的特征,得到图片候选框序列的向量化表示
Figure BDA0004156882970000064
由/>
Figure BDA0004156882970000065
得到向量序列/>
Figure BDA0004156882970000066
即为文档图片的向量化表示,即文档的第二向量化表示序列。
本申请实施例可以编码文档中文本的词向量表示得到文档的第一向量化表示序列,并对文档的图片生成图片候选框,抽取图片候选框的特征,得到文档的第二向量化表示序列,由此实现了文档各模态的向量化表示的建模过程。
在步骤S102中,基于第一向量化表示序列和第二向量化表示序列,对文本模态和图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示。
可以理解的是,本申请实施例中联合建模可指针对文档的文本序列和图片序列进行跨模态建模,以获取文档文本模态的多模态向量化表示和文档图片模态的多模态向量化表示。多模态互注意力机制的建模可在文档内执行,针对文档不同模态的输入进行交互,从而最终得到文档的多模态增强向量化表示,即多模态增强的文本矩阵与多模态增强的图片矩阵。
可选地,在本申请的一个实施例中,基于第一向量化表示序列和第二向量化表示序列,对文本模态和图片模态进行联合建模,分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示,包括:基于VilBERT对文本模态和图片模态进行联合建模,得到文本的多模态向量化表示和图片的多模态向量化表示;基于多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取文档内不同模态之间的交互,建模文档的多模态增强向量化表示。
可以理解的是,本申请实施例中ViLBERT网络模型可用于多模态联合建模,可基于多模态互注意力机制的Transformer层,在不同深度上针对不同模态进行交互,得到多模态增强的文档文本和文档图片表示。
例如,可以基于文档内多模态互注意力机制建模文档不同模态之间的交互,基于相关性矩阵使用归一化指数函数计算得到归一化相关性分数作为归一化的权重系数,并基于归一化的相关性分数对于文档的表示进行加权,得到文档的多模态增强表示。
具体而言,可将上述步骤中文档的文本序列和图片序列的向量化表示
Figure BDA0004156882970000071
作为ViLBERT的共同输入,同时输入ViLBERT网络模型:
Figure BDA0004156882970000072
所得
Figure BDA0004156882970000073
为文档的文本序列向量化表示,/>
Figure BDA0004156882970000074
为文档的图片序列向量化表示。进而将文档文本模态的向量化表示序列进行拼接,得到文档的文本表示矩阵,即:
Figure BDA0004156882970000075
其中,
Figure BDA0004156882970000076
为文档的文本表示矩阵,/>
Figure BDA0004156882970000077
为文档的文本序列向量化表示,
Figure BDA0004156882970000078
Mw为文本序列的长度,E为模型输出的序列向量化表示维度。将文档图片模态的向量化表示序列进行拼接,得到文档的图片表示矩阵,即:
Figure BDA0004156882970000079
其中,
Figure BDA00041568829700000710
为文档的图片表示矩阵,/>
Figure BDA00041568829700000711
为文档的图片序列向量化表示,/>
Figure BDA00041568829700000712
Mp为文档图片序列的长度,E为模型输出的序列向量化表示维度,由此分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示。
进而,可基于相关性矩阵CXY表征不同模态内容之间的相关性,X,Y分别表示文档的不同模态。相关性矩阵CXY每个位置的元素
Figure BDA0004156882970000081
代表文档模态X第i个位置的向量与文档模态Y第j个位置的向量的相关系数,以表征两个向量之间的相关联程度,计算所得相关性矩阵CXY可表征文档模态X和模态Y间各个位置元素的相关性。对于文档文本模态的表示矩阵与图片模态的表示矩阵,相关性矩阵具体为:
CWP=(SW)TWWPSP
CPW=(SP)TWPWSW
其中,CWP为文档的文本模态与图片模态的相关性矩阵,SW为文档文本模态的表示矩阵,WWP为文档的文本模态与图片模态的权重矩阵,SP为图片模态的表示矩阵,CPW为文档的图片模态与文本模态的相关性矩阵,WPW为文档的图片模态与文本模态的权重矩阵。WWP、WPW可针对对应位置的向量内积进行加权,CWP∈RP×E,CPW∈RE×E,E为模型输出的序列向量化表示维度。由归一化指数函数作用在相关性矩阵CWP上,计算得到文档文本模态与图片模态的归一化相关性分数矩阵,即:
αWP=Softmax(CWP),
其中,αWP为文档文本模态与图片模态的归一化相关性分数矩阵,CWP为文档的文本模态与图片模态的相关性矩阵,αWP∈RE×E,E为模型输出的序列向量化表示维度。由归一化指数函数作用在文档的图片模态与文本模态的相关性矩阵CPW上,计算得到文档图片模态与文本模态的归一化相关性分数矩阵,即:
αPW=Softmax(CPW),
其中,αPW为文档图片模态与文本模态的归一化相关性分数矩阵,CPW为文档的图片模态与文本模态的相关性矩阵,αPW∈RE×E,E为模型输出的序列向量化表示维度。基于所得归一化相关性分数,可对文档表示进行加权,计算得到跨模态增强的文本模态表示,即:
Figure BDA0004156882970000082
其中,SW为跨模态增强的文本模态表示,
Figure BDA0004156882970000083
为文档的文本表示矩阵,αWP为文档文本模态与图片模态的归一化相关性分数矩阵,/>
Figure BDA0004156882970000084
即为文档文本模态的增强表示,Mw为文本序列的长度,E为模型输出的序列向量化表示维度。计算得到跨模态增强的图片模态表示,即:
Figure BDA0004156882970000085
其中,SP为跨模态增强的图片模态表示,
Figure BDA0004156882970000091
为文档的图片模态表示矩阵,αPW为文档图片模态与文本模态的归一化相关性分数矩阵,/>
Figure BDA0004156882970000092
Mp为文档图片序列的长度,E为模型输出的序列向量化表示维度。
在步骤S103中,基于互注意力机制,建模文档和目标文档相同和不同模态之间的相关性,得到目标文档感知的多模态文档表示。
可以理解的是,本申请实施例中的跨模态互注意力机制在文档间执行,可针对上述步骤所得当前文档的文档内各模态的向量化表示,以及目标文档的文档内各模态的向量化表示,分别根据当前文档和目标文档相同和不同模态之间的相关性,以获取目标文档所感知得到的多模态文档表示。
本申请实施例可以基于互注意力机制,建模文档和目标文档相同和不同模态之间的相关性,得到目标文档感知的多模态文档表示,通过建模当前文档与目标文档之间的相关性,以进一步实现文档间的匹配关系建立,
可选地,在本申请的一个实施例中,基于互注意力机制建模文档和目标文档相同和不同模态之间的相关性,得到目标文档感知的多模态文档表示,包括:基于互注意力机制,对于文档和目标文档的同模态内容进行交互,建模文档和目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示;基于文档间跨模态互注意力机制,对于文档和目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到目标文档感知的多模态文档表示。
举例而言,可以基于互注意力机制对于文档和目标文档的同一模态内容进行交互,由相关性矩阵使用归一化指数函数计算得到归一化相关性分数矩阵作为归一化的权重系数,建模当前文档和目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示。同时基于文档间跨模态互注意力机制对于当前文档和目标文档的不同模态内容进行交互,由相关性矩阵使用归一化指数函数计算得到归一化相关性分数矩阵作为归一化的权重系数,基于归一化的相关性分数矩阵对于文档表示进行加权,建模当前文档给定模态和目标文档另一模态之间的跨文档跨模态交互,得到目标文档感知的跨模态文档表示。
具体地,可以基于相关性矩阵CAB表征不同文档的同一模态内容之间的相关性,以A,B分别表示当前文档与目标文档。相关性矩阵CAB每个位置的元素
Figure BDA0004156882970000093
代表文档A模态第i个位置的向量与文档B同一模态第j个位置的向量的相关系数,表征两个向量之间的相关联程度,计算得到的相关性矩阵CAB表征文档A和文档B对应模态各个位置元素的相关性,具体为:
CAB=(SA)TWABSB
CBA=(SB)TWBASA
其中,CAB为文档文本模态与文档图片模态的相关性分数矩阵,SA为文档A的表示矩阵,WAB为文档文本模态与文档图片模态的权重矩阵,SB为目标文档B的表示矩阵,CBA为文档的图片模态与文本模态的相关性分数矩阵,WBA为文档的图片模态与文本模态的权重矩阵。WAB、WBA可为对应位置的向量内积进行加权,计算得到CAB∈RE×E和CBA∈RE×E代表文档文本模态W与文档图片模态P之间的相关性,E为模型输出的序列向量化表示维度。可由化指数函数作用在文档的文本模态与图片模态的相关性矩阵CAB,计算得到文档文本模态与图片模态的归一化相关性分数矩阵,即有:
αAB=Softmax(CAB),
其中,αAB为文档文本模态与图片模态的归一化相关性分数矩阵,CAB为文档文本模态与文档图片模态的相关性分数矩阵,αAB∈RE×E,E为模型输出的序列向量化表示维度。可由归一化指数函数作用在文档的图片模态与文本模态的相关性矩阵CBA,计算得到文档图片模态与文本模态的归一化相关性分数矩阵,即:
αBA=Softmax(CBA),
其中,αBA为文档图片模态与文本模态的归一化相关性分数矩阵,CBA为文档的图片模态与文本模态的相关性分数矩阵,αBA∈RE×E,E为模型输出的序列向量化表示维度。对于当前文档A给定模态的矩阵表示,基于其与目标文档B的同一模态的归一化的相关性分数矩阵进行加权,计算得到跨模态增强的文档表示,即:
Figure BDA0004156882970000101
其中,SA为当前文档的目标文档感知增强表示,
Figure BDA0004156882970000102
为当前文档A给定模态的矩阵表示,αAB为文档文本模态与图片模态的归一化相关性分数矩阵,/>
Figure BDA0004156882970000103
X为当前交互模态,E为模型输出的序列向量化表示维度。
同时,基于相关性矩阵CXY表征不同文档的不同模态内容之间的相关性,X,Y分别表示当前文档的给定模态与目标文档的另一模态。相关性矩阵CXY每个位置的元素
Figure BDA0004156882970000104
代表当前文档给定模态第i个位置的向量与目标文档另一模态第j个位置的向量的相关系数,表征两个向量之间的相关联程度,计算得到的相关性矩阵CXY表征当前文档的给定模态和目标文档的另一模态各个位置元素的相关性,相关性矩阵CXY为:
CXY=(SX)TWXYSY
其中,CXY为文档的文本模态与图片模态的相关性矩阵,SX为当前文档给定模态X的表示矩阵,WXY为文档的文本模态与图片模态的权重矩阵,SY为目标文档另一模态Y的表示矩阵,CXY∈RE×E,E为模型输出的序列向量化表示维度,WXY可为对应位置的向量内积进行加权。对于文档的文本模态与图片模态的相关性矩阵CXY,可由归一化指数函数作用在相关性矩阵CXY上,计算得到两个模态间的归一化相关性分数矩阵,即:
αXY=Softmax(CXY),
其中,αXY为目标文档的另一模态的归一化的相关性分数矩阵,CXY为文档的文本模态与图片模态的相关性矩阵,αXY∈RE×E,E为模型输出的序列向量化表示维度。对于当前文档给定模态的矩阵表示,基于其与目标文档的另一模态的归一化的相关性分数矩阵进行加权,计算得到跨模态增强的文档表示,即:
Figure BDA0004156882970000111
其中,SX为到跨模态增强的文档表示,
Figure BDA0004156882970000112
为当前文档给定模态的矩阵表示,αXY为目标文档的另一模态的归一化的相关性分数矩阵,/>
Figure BDA0004156882970000113
X表示当前交互的模态,E为模型输出的序列向量化表示维度。
在步骤S104中,建模文档模态内的自相关性,融合文档的自注意力向量化表示和多模态增强向量化表示,得到文档的多模态增强统一表示。
可以理解的是,本申请实施例中文档的多模态增强统一表示可以实现文档文本与文档图片的统一表达,可通过融合文档内多个模态的增强向量化表示得到文档多模态增强的统一表示,以此进一步实现文档相关性的衡量基础,从而完善检索结果的匹配程度。
可选地,在本申请的一个实施例中,建模文档模态内的自相关性,融合文档的自注意力向量化表示和多模态增强的向量化表示,得到文档的多模态增强统一表示,包括:基于多头自注意力机制,建模文档模态内的自相关性,得到文档的自注意力向量化表示;融合文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示;基于文档的不同模态的多模态增强统一表示,融合得到多模态增强统一表示。
举例而言,可以基于多头自注意力机制建模文档模态内的自相关性,得到文档模态的自注意力向量化表示,使用归一化指数函数计算得到归一化相关性分数,对文档的表示进行加权,建模当前文档给定模态的自相关注意力交互,得到目标文档感知的跨模态文档表示,基于注意力池化机制,融合文档的自相关注意力增强向量化表示矩阵和文档的多种多模态增强的向量化表示矩阵,得到文档模态的多模态增强统一表示,对多模态互注意力增强表示矩阵进行融合,得到文档模态的多模态增强的注意力融合向量,基于前馈神经网络融合文档不同模态的多模态增强的注意力融合向量,最终得到文档的统一表示。
在实际执行过程中,多头自注意力机制可以计算出序列中每个元素的重要程度,对于文档的模态表示矩阵,可使用自相关性矩阵CX表征文档模态内部的自相关性,X代表文档的不同模态,CX的每个位置的元素可表征文档不同模态间各个位置元素的相关性,为:
CX=(SX)TWXSX
其中,CX为文档X模态的表示矩阵,SX为文档X模态的表示矩阵,WX为文档X模态的权重矩阵,WX为可学习的变量,由训练时学习获取,CX每个位置的数值
Figure BDA0004156882970000121
代表第i个位置的向量与第j个位置的向量的相关系数,表征两个向量之间的相关联程度。对于文档给定模态的相关性矩阵CX,可由归一化指数函数作用在相关性矩阵CX上,计算得到文档文本模态与图片模态的归一化相关性分数,即:
αX=Softmax(CX),
其中,αX为文档的自相关归一化相关性分数,CX为文档X模态的表示矩阵。对于当前文档的给定模态的矩阵表示,基于其自相关归一化相关性分数矩阵αXY进行加权,计算得到跨模态增强的文档表示,即:
Figure BDA0004156882970000122
其中,SX为跨模态增强的文档表示,
Figure BDA0004156882970000123
为前文档的给定模态的矩阵表示,αX为自相关归一化相关性分数矩阵,/>
Figure BDA0004156882970000124
X为当前交互模态,E为模型输出的序列向量化表示维度。
对于文档的每一个模态,计算得到4个基于注意力机制的多模态互注意力增强表示,分别为:基于自注意力机制的自相关注意力增强表示、基于跨模态互注意力机制的跨模态增强表示、基于跨文档互注意力机制的目标文档感知的跨文档互注意力增强表示、基于跨文档跨模态互注意力机制的目标文档感知的跨文档跨模态互注意力增强表示。对于文档的模态X,其原始向量化表示矩阵为S0,则它的多模态互注意力增强表示矩阵分别为:基于自注意力机制的自相关注意力增强表示矩阵Sself、基于跨模态互注意力机制的跨模态增强表示矩阵Smultimodal、基于跨文档互注意力机制的目标文档感知的跨文档互注意力增强表示矩阵Smultdoc、基于跨文档跨模态互注意力机制的目标文档感知的跨文档跨模态互注意力增强表示矩阵Smultidoc-multimodal,基于注意力池化机制对于其进行融合,得到模态的多模态增强的注意力融合向量,即:
Figure BDA0004156882970000125
其中,k为模态的多模态增强的注意力融合向量,
Figure BDA0004156882970000126
为注意力查询矩阵,W1、W2、W3、W4分别为对于不同的多模态互注意力增强表示矩阵进行加权的权重矩阵,tanh为双曲正切激活函数。分别计算得到文本模态W的多模态增强的注意力融合向量、图片模态P的多模态增强的注意力融合向量,进行拼接得到统一的联合向量,即:
kc=[kW;kP]
其中,kc为联合向量,kW为文本模态W的多模态增强的注意力融合向量,kP为图片模态P的多模态增强的注意力融合向量。对于所得联合向量,将其送入前馈神经网络,进一步融合文档不同模态的表示特征。即:
k=FFNN(kc)
其中,k为文档统一表示,kc为联合向量,FFNN代表前馈神经网络,最终输出文档的多模态增强统一表示。
在步骤S105中,基于多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数,并基于相关性分数对至少一个候选文档进行排序,检索到相关的文档。
可以理解的是,本申请实施例中目标文档和当前文档的匹配分数可代表两个文档之间的相关联程度,可以根据上述步骤所得文档的多模态增强统一表示,计算相关性分数,根据分数的排序结果选择相关性最强的文档作匹配结果的输出,以此实现文档多模态信息的充分利用,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。
可选地,在本申请的一个实施例中,基于多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数,并基于相关性分数对至少一个候选文档进行排序,检索到相关的文档,包括:基于多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数;基于每个候选文档的相关性分数,对至少一个候选文档进行排序,确定相关的文档。
在实际执行过程中,针对需要进行匹配的当前文档A和目标文档B,分别计算出A文档的统一表示kA、B文档的统一表示kB,计算A文档图片模态与B文档图片模态的内积,将两个内积分数相加得到最终的匹配分数,即
Figure BDA0004156882970000131
其中,
Figure BDA0004156882970000132
为当前文档和目标文档的匹配分数,kA为A文档的统一表示,kB为B文档的统一表示。对于每个候选文档,随机采样多个负样本,分别计算和目标文档的匹配分数,并采用BPR(Bayesian Personalized Ranking)损失进行模型学习:
Figure BDA0004156882970000133
其中,L为损失函数,H为训练样本的大小,
Figure BDA0004156882970000134
为第i个正样本的匹配分数,/>
Figure BDA0004156882970000135
为第i个负样本的匹配分数,φ为Sigmoid函数,进而通过RMSProp优化器对损失函数L优化训练模型,得到对于文档建模最优化的参数。
下面以一个具体实施例对本申请实施例的工作内容进行详细阐述。
如图2-3所示,可将文本转换为文字序列,过滤文本,图片转换为像素序列,均值方差进行归一化,基于文档向量化编码器,建模文档各模态的向量化表示,基于文档内跨模态互注意力机制,建模文档多模态表示基于文档间跨模态互注意力机制,建模目标文档感知的文档多模态表示,融合文档多个模态的多模态增强向量化表示,得到文档多模态增强的统一表示,基于多模态增强的文档建模表示结果,检索最相关的匹配文档。
根据本申请实施例提出的基于跨模态互注意力机制的多模态文档检索方法,可以通过建模文档多模态表示,以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示,得到文档多模态增强的统一表示,计算相关性分数以检索获得匹配文档,从而实现了文档多模态信息的充分利用,增强了文档各模态间的相关性,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。由此,解决了相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现多模态文档内信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性等问题。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
其次参照附图描述根据本申请实施例提出的基于跨模态互注意力机制的多模态文档检索装置。
图4是本申请实施例的基于跨模态互注意力机制的多模态文档检索装置的结构示意图。
如图4所示,该基于跨模态互注意力机制的多模态文档检索装置10包括:第一建模模块100、第二建模模块200、第三建模模块300、第四建模模块400和检索模块500。
其中,第一建模模块100,用于建模文档的多模态表示,分别得到文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列。
第二建模模块200,用于基于第一向量化表示序列和第二向量化表示序列,对文本模态和图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示。
第三建模模块300,用于基于互注意力机制,建模文档和目标文档相同和不同模态之间的相关性,得到目标文档感知的多模态文档表示。
第四建模模块400,用于建模文档模态内的自相关性,融合文档的自注意力向量化表示和多模态增强向量化表示,得到文档的多模态增强统一表示。
检索模块500,用于基于多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数,并基于相关性分数对至少一个候选文档进行排序,检索到相关的文档。
可选地,在本申请的一个实施例中,装置10还包括:第一转换模块和第二转换模块。
其中,第一转换模块,用于在建模文档的多模态表示之前,对文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据。
第二转换模块,用于对于文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。
可选地,在本申请的一个实施例中,第一建模模块100包括:编码单元、生成单元和抽取单元。
其中,编码单元,用于基于词向量嵌入矩阵,编码文档中文本的词向量表示,得到文档的第一向量化表示序列。
生成单元,用于基于预训练的Mask-RCNN网络,对于文档的图片生成图片候选框。
抽取单元,用于基于ResNet-50网络抽取图片候选框的特征,得到文档的第二向量化表示序列。
可选地,在本申请的一个实施例中,第二建模模块200包括:第一建模单元和第二建模单元。
其中,第一建模单元,用于基于VilBERT对文本模态和图片模态进行联合建模,得到文本的多模态向量化表示和图片的多模态向量化表示。
第二建模单元,用于基于多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取文档内不同模态之间的交互,建模文档的多模态增强向量化表示。
可选地,在本申请的一个实施例中,第三建模模块300包括:第一交互单元和第二交互单元。
其中,第一交互单元,用于基于互注意力机制,对于文档和目标文档的同模态内容进行交互,建模文档和目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示。
第二交互单元,用于基于文档间跨模态互注意力机制,对于文档和目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到目标文档感知的多模态文档表示。
可选地,在本申请的一个实施例中,第四建模模块400包括:第三建模单元、第一融合单元和第二融合单元。
其中,第三建模单元,用于基于多头自注意力机制,建模文档模态内的自相关性,得到文档的自注意力向量化表示。
第一融合单元,用于融合文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示。
第二融合单元,用于基于文档的不同模态的多模态增强统一表示,融合得到多模态增强统一表示。
可选地,在本申请的一个实施例中,检索模块500包括:计算单元和排序单元。
其中,计算单元,用于基于多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数。
排序单元,用于基于每个候选文档的相关性分数,对至少一个候选文档进行排序,确定相关的文档。
需要说明的是,前述对基于跨模态互注意力机制的多模态文档检索方法实施例的解释说明也适用于该实施例的基于跨模态互注意力机制的多模态文档检索装置,此处不再赘述。
根据本申请实施例提出的基于跨模态互注意力机制的多模态文档检索装置,可以通过建模文档多模态表示,以基于文档间跨模态互注意力机制建模目标文档感知的文档多模态表示,得到文档多模态增强的统一表示,计算相关性分数以检索获得匹配文档,从而实现了文档多模态信息的充分利用,增强了文档各模态间的相关性,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。由此,解决了相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现多模态文档内信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性等问题。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
处理器502执行程序时实现上述实施例中提供的基于跨模态互注意力机制的多模态文档检索方法。
进一步地,电子设备还包括:
通信接口503,用于存储器501和处理器502之间的通信。
存储器501,用于存放可在处理器502上运行的计算机程序。
存储器501可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
处理器502可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的基于跨模态互注意力机制的多模态文档检索方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种基于跨模态互注意力机制的多模态文档检索方法,其特征在于,包括以下步骤:
建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列;
基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示;
基于互注意力机制,建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示;
建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强向量化表示,得到所述文档的多模态增强统一表示;
基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档。
2.根据权利要求1所述的方法,其特征在于,在建模所述文档的多模态表示之前,还包括:
对所述文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据;
对于所述文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。
3.根据权利要求1所述的方法,其特征在于,所述建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列,包括:
基于词向量嵌入矩阵,编码所述文档中文本的词向量表示,得到所述文档的第一向量化表示序列;
基于预训练的Mask-RCNN网络,对于所述文档的图片生成图片候选框;
基于ResNet-50网络抽取所述图片候选框的特征,得到所述文档的第二向量化表示序列。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示,包括:
基于VilBERT对所述文本模态和所述图片模态进行联合建模,得到所述文本的多模态向量化表示和所述图片的多模态向量化表示;
基于所述多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取所述文档内不同模态之间的交互,建模所述文档的多模态增强向量化表示。
5.根据权利要求1所述的方法,其特征在于,所述基于互注意力机制建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示,包括:
基于所述互注意力机制,对于所述文档和所述目标文档的同模态内容进行交互,建模所述文档和所述目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示;
基于文档间跨模态互注意力机制,对于所述文档和所述目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到所述目标文档感知的多模态文档表示。
6.根据权利要求1所述的方法,其特征在于,所述建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强的向量化表示,得到文档的多模态增强统一表示
基于多头自注意力机制,建模文档模态内的自相关性,得到所述文档的自注意力向量化表示;
融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示;
基于文档的不同模态的多模态增强统一表示,融合得到所述多模态增强统一表示。
7.根据权利要求1所述的方法,其特征在于,所述基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档,包括:
基于所述多模态增强统一表示,计算所述目标文档和所述至少一个候选文档相关性分数;
基于每个候选文档的相关性分数,对所述至少一个候选文档进行排序,确定所述相关的文档。
8.一种基于跨模态互注意力机制的多模态文档检索装置,其特征在于,包括:
第一建模模块,用于建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列;
第二建模模块,用于基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示;
第三建模模块,用于基于互注意力机制,建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示;
第四建模模块,用于建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强向量化表示,得到所述文档的多模态增强统一表示;
检索模块,用于基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档。
9.根据权利要求8所述的装置,其特征在于,还包括:
第一转换模块,用于在建模所述文档的多模态表示之前,对所述文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据;
第二转换模块,用于对于所述文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。
10.根据权利要求8所述的装置,其特征在于,所述第一建模模块包括:
编码单元,用于基于词向量嵌入矩阵,编码所述文档中文本的词向量表示,得到所述文档的第一向量化表示序列;
生成单元,用于基于预训练的Mask-RCNN网络,对于所述文档的图片生成图片候选框;
抽取单元,用于基于ResNet-50网络抽取所述图片候选框的特征,得到所述文档的第二向量化表示序列。
11.根据权利要求8所述的装置,其特征在于,所述第二建模模块包括:
第一建模单元,用于基于VilBERT对所述文本模态和所述图片模态进行联合建模,得到所述文本的多模态向量化表示和所述图片的多模态向量化表示;
第二建模单元,用于基于所述多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取所述文档内不同模态之间的交互,建模所述文档的多模态增强向量化表示。
12.根据权利要求8所述的装置,其特征在于,所述第三建模模块包括:
第一交互单元,用于基于所述互注意力机制,对于所述文档和所述目标文档的同模态内容进行交互,建模所述文档和所述目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示;
第二交互单元,用于基于文档间跨模态互注意力机制,对于所述文档和所述目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到所述目标文档感知的多模态文档表示。
13.根据权利要求8所述的装置,其特征在于,所述第四建模模块包括:
第三建模单元,用于基于多头自注意力机制,建模文档模态内的自相关性,得到所述文档的自注意力向量化表示;
第一融合单元,用于融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示;
第二融合单元,用于基于文档的不同模态的多模态增强统一表示,融合得到所述多模态增强统一表示。
14.根据权利要求8所述的装置,其特征在于,所述检索模块包括:
计算单元,用于基于所述多模态增强统一表示,计算所述目标文档和所述至少一个候选文档相关性分数;
排序单元,用于基于每个候选文档的相关性分数,对所述至少一个候选文档进行排序,确定所述相关的文档。
15.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7任一项所述的基于跨模态互注意力机制的多模态文档检索方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任一项所述的基于跨模态互注意力机制的多模态文档检索方法。
CN202310337398.7A 2023-03-31 2023-03-31 基于跨模态互注意力机制的多模态文档检索方法及装置 Pending CN116401357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310337398.7A CN116401357A (zh) 2023-03-31 2023-03-31 基于跨模态互注意力机制的多模态文档检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310337398.7A CN116401357A (zh) 2023-03-31 2023-03-31 基于跨模态互注意力机制的多模态文档检索方法及装置

Publications (1)

Publication Number Publication Date
CN116401357A true CN116401357A (zh) 2023-07-07

Family

ID=87011762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310337398.7A Pending CN116401357A (zh) 2023-03-31 2023-03-31 基于跨模态互注意力机制的多模态文档检索方法及装置

Country Status (1)

Country Link
CN (1) CN116401357A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788628A (zh) * 2024-02-27 2024-03-29 厦门众联世纪股份有限公司 一种基于aigc的创意素材生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788628A (zh) * 2024-02-27 2024-03-29 厦门众联世纪股份有限公司 一种基于aigc的创意素材生成方法

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
US11093560B2 (en) Stacked cross-modal matching
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
CN107066464B (zh) 语义自然语言向量空间
US10474758B2 (en) Method and apparatus for machine translation using neural network and method of training the apparatus
CN112559784B (zh) 基于增量学习的图像分类方法及系统
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111368993A (zh) 一种数据处理方法及相关设备
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
WO2021203865A1 (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN112015868A (zh) 基于知识图谱补全的问答方法
CN111368656A (zh) 一种视频内容描述方法和视频内容描述装置
Xiao et al. Multi-sensor data fusion for sign language recognition based on dynamic Bayesian network and convolutional neural network
CN112883149A (zh) 一种自然语言处理方法以及装置
CN114661933A (zh) 基于胎儿先心病超声图像—诊断报告的跨模态检索方法
CN113221882B (zh) 一种面向课程领域的图像文本聚合方法及系统
CN111898636A (zh) 一种数据处理方法及装置
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN116401357A (zh) 基于跨模态互注意力机制的多模态文档检索方法及装置
WO2020108808A1 (en) Method and system for classification of data
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
CN117012370A (zh) 多模态疾病辅助推理系统、方法、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination