CN117648429B

CN117648429B - 基于多模态自适应检索式增强大模型的问答方法及系统

Info

Publication number: CN117648429B
Application number: CN202410121781.3A
Authority: CN
Inventors: 吴建龙; 丁沐河; 张贤; 聂礼强; 宋雪萌; 甘甜
Original assignee: Shandong University; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shandong University; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-30
Anticipated expiration: 2044-01-30
Also published as: CN117648429A

Abstract

本发明属于问答模型技术领域，为解决现有生成答案的准确率低的问题，提供一种基于多模态自适应检索式增强大模型的问答方法及系统。其中，基于多模态自适应检索式增强大模型的问答方法包括接收待回答的问题；基于多模态自适应检索式增强大模型及多模态知识库，生成预测答案；多模态自适应检索式增强大模型包括检索器、检索排序器和生成器；检索器提取问题及多模态知识库中的每个知识对应的多模态融合特征，计算每个知识和问题的相似度，选取TOP‑K知识；根据问题及知识标签，利用检索排序器从TOP‑K知识中判定出与问题相关的知识，得到检索的相关知识；生成器生成预测答案，其能够大大提高了模态问答的检索和生成答案的准确率。

Description

基于多模态自适应检索式增强大模型的问答方法及系统

技术领域

本发明属于问答模型技术领域，尤其涉及一种基于多模态自适应检索式增强大模型的问答方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着互联网的诞生，信息迅速暴增。根据问题从大量信息中有效地找到答案已成为一项重大挑战。开放式多模态问答可以基于问题去检索外部知识库并生成正确答案来帮助缓解信息过载问题。近年来，人们对一些先进的多模态大语言模型，例如BLIP-2和GPT-4等，都进行了深入探索，通过在模型参数中隐式存储大量外部知识来提高其性能，这些参数现在已扩展到数千亿。虽然这些模型在各种任务上取得了令人兴奋的结果，但它们存储方式不仅可解释性差，计算成本高昂，而且存储的信息量固定，如果下游任务推理的知识依赖超出当前知识范畴，大模型很难给出正确答案。

为了缓解这一挑战，许多研究人员提出了检索式增强技术，将模型分为两个关键部分：检索器和生成器。检索器根据问题从多模态知识库中检索相关知识，而生成器则利用这些知识来生成文本输出答案。文本单模态检索式增强大模型，例如，REALM已经被提出用来解决文本模态检索式问答任务。这些模型从维基百科等广泛的文本知识库构建密集索引作为非参数文档存储器，以进行有效的知识检索。然后，再用预训练的生成器根据检索到的知识生成文本答案。MuRAG、Solar和 SKURG多模态检索式增强大模型相继出现，这些大模型将知识库扩展到文本视觉等多模态，采用预训练视觉语言大模型根据问题去检索相关的多模态知识库来生成答案。

尽管上述方法取得了成功，但仍存在下列问题：

（1）现有方法对视觉和语言模态之间的信息融合和交互不足。一方面，现有方法缺乏对多模态信息的显式融合，阻碍了语义空间中问题文本和多模态知识的对齐。以前的方法采用单独的视觉编码器和文本编码器对不同模态单独编码，并采用对比学习来对齐多个模态，这可能会导致针对特定模态的不平衡和多模态检索和推理过程存在偏见。另一方面，现有方法没有利用问题作为提示来指示视觉编码器选择性提取视觉特征，导致此类方法缺乏相互指导，并且无法对多个模态之间的关系进行建模。此外，图像中的冗余信息会产生干扰和噪声，影响检索和推理结果。

（2）现有方法在生成阶段没有检查检索知识的相关性。检索的知识包含了错误的内容和大量噪声，导致模型推理阶段抗干扰性和鲁棒性较差。现有方法假设检索的多模态知识全部是相关的，然后直接将问题和检索的知识一起输入到生成器中进行推理。生成器没有仔细检查检索到的知识，导致生成器使用了不正确、混乱或不相关的信息进行推理生成，降低了准确率。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于多模态自适应检索式增强大模型的问答方法及系统，其能够大大提高了模态问答的检索和生成答案的准确率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多模态自适应检索式增强大模型的问答方法。

一种基于多模态自适应检索式增强大模型的问答方法，包括：

接收待回答的问题；

基于多模态自适应检索式增强大模型及多模态知识库，生成所述问题的预测答案；

其中，多模态自适应检索式增强大模型包括检索器、检索排序器和生成器；

生成所述问题的预测答案的过程包括：

利用检索器提取问题及多模态知识库中的每个知识对应的特征，并映射到统一的多模态语义空间中，计算多模态知识库中的每个知识和问题的相似度，选取相似度排名前K名的知识作为TOP-K知识；其中，K为大于或等于2的正整数；

根据问题及知识标签，利用检索排序器从检索器检索的TOP-K知识中判定出与问题相关的知识，得到检索的相关知识；

根据问题和检索排序器检索的相关知识，利用生成器生成预测答案。

作为本发明第一个方面的一种实施方式，所述检索器的训练过程为：

以问题和多模态知识库为输入，相关知识为正样本，一个批次内的不相关知识为负样本，计算对比学习损失，拉进问题和相关知识的距离，远离不相关知识，训练得到检索器。

作为本发明第一个方面的一种实施方式，所述检索排序器的训练过程为：

以问题、知识正负例标签和检索器检索的TOP-K知识为输入，计算交叉熵损失，排除掉干扰知识，训练得到检索排序器。

作为本发明第一个方面的一种实施方式，所述生成器的训练过程为：

以问题、答案和检索排序器检索的相关知识为输入，再采用自适应知识选择策略对数据进行扩充，基于原始问答数据和扩充数据计算生成损失，训练得到生成器。

作为本发明第一个方面的一种实施方式，所述相似度采用最大内积相似度来表征。

作为本发明第一个方面的一种实施方式，所述多模态知识库中的知识包括文本、图像和图文。

作为本发明第一个方面的一种实施方式，所述检索器包括视觉编码器、Q-Former结构及多模态自适应融合模块；所述视觉编码器用于提取多模态知识库中图像的图像特征；所述Q-Former结构用于提取多模态知识库中图像的文本特征，并将其与图像特征对齐后再传送至多模态自适应融合模块，以进行特征融合，得到多模态融合特征；所述Q-Former结构还用于提取问题及多模态知识库中文本的文本特征。

本发明的第二个方面提供一种基于多模态自适应检索式增强大模型的问答系统。

一种基于多模态自适应检索式增强大模型的问答系统，其包括：

问题接收模块，其用于接收待回答的问题；

答案生成模块，其基于多模态自适应检索式增强大模型及多模态知识库，生成所述问题的预测答案；

生成所述问题的预测答案的过程包括：

作为本发明第二个方面的一种实施方式，所述检索器的训练过程为：

作为本发明第二个方面的一种实施方式，所述检索排序器的训练过程为：

与现有技术相比，本发明的有益效果是：

（1）本发明的多模态自适应检索式增强引导语言图像预训练大模型通过融合图像和文本模态，并将其投影到统一的语义空间中来实现问题文本到多模态检索，利用问题作为提示来指示视觉编码器提取视觉特征，减少了图像中的冗余信息和噪声。

（2）本发明的检索排序器根据问题及知识标签，从检索器检索的TOP-K知识中判定出与问题相关的知识，得到检索的相关知识，排除不相关知识来进行答案推理，最后根据问题和检索排序器检索的相关知识，生成预测答案，大大提高了多模态问答的检索和生成答案的准确率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于多模态自适应检索式增强大模型的问答方法的推理流程图。

图2是本发明实施例的检索器训练框架图。

图3是本发明实施例的生成器训练框架图。

图4是本发明实施例的多模态自适应融合模块预训练示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

结合图1，本实施例提供了一种基于多模态自适应检索式增强大模型的问答方法，其具体包括如下步骤：

步骤1：接收待回答的问题。

步骤2：基于多模态自适应检索式增强大模型及多模态知识库，生成所述问题的预测答案。

其中，多模态自适应检索式增强大模型包括检索器、检索排序器和生成器。

在具体实施过程中，生成所述问题的预测答案的过程包括：

检索阶段和生成阶段。

具体地，检索阶段包括步骤2.1和步骤2.2。

步骤2.1：利用检索器提取问题及多模态知识库中的每个知识对应的特征，并映射到统一的多模态语义空间中，计算多模态知识库中的每个知识和问题的相似度，选取相似度排名前K名的知识作为TOP-K知识。其中，K为大于或等于2的正整数。

例如，所述相似度采用最大内积相似度来表征。

其中，所述多模态知识库中的知识包括文本、图像和图文。

在具体实施过程中，如图2所示，所述检索器包括视觉编码器、Q-Former结构及多模态自适应融合模块；所述视觉编码器用于提取多模态知识库中图像的图像特征；所述Q-Former结构用于提取多模态知识库中图像的文本特征，并将其与图像特征对齐后再传送至多模态自适应融合模块，以进行特征融合，得到多模态融合特征；所述Q-Former结构还用于提取问题及多模态知识库中文本的文本特征。

其中Q-Former结构是一种基于自然语言处理的模型，用于将问题转化为答案。Q-Former结构的核心是基于Transformer的编码-解码结构，其中，编码器用于理解问题，解码器用于生成答案。具体地，Q-Former结构通过多层自注意力机制将问题中的关键信息进行建模，并通过位置编码处理序列信息。在解码阶段，Q-Former结构通过自注意力机制和前馈神经网络生成答案的概率分布。Q-Former结构具备指令感知的视觉特征提取能力，可以基于问题指示提取视觉信息。输入N个可学习的查询变量到Q-Former的视觉模块，这些可学习查询变量通过跨注意力层与冻结的视觉特征交互得到视觉表示。使用Q-Former结构中的文本模块编码文本，将类别标志作为文本表示/>。此外，引入多模态自适应融合模块编码图像和文本得到多模态表示/>。

其中，所述检索器的训练过程为：

具体地，为了融合图像和文本的特征以进行融合模态的检索，在检索阶段引入多模态自适应融合模块并进行预训练。由于Q-Former结构已经对齐了视觉和文本特征表示，采用图像文本生成损失函数和图像文本匹配损失函数预训练融合模块。如图4所示，固定视觉编码器以及Q-Former结构的参数，仅训练多模态融合模块的参数，图像和文本由Q-Former结构编码后输入到融合模型。图文对匹配建模用以融合视觉文本表示，给定训练集，损失函数如下所示：

其中标签集合为，/>为样本的总数，/>为Q-Former对图像/>的编码，/>为Q-Former对文本/>的编码，/>是softmax函数，/>表示融合模块参数，/>表示Q-Former的参数。图像文本生成损失函数用以促进视觉与文本的跨模态对齐，给定训练集/>，损失函数如下所示：

其中，表示Q-Former的生成器，/>表示第/>个词，/>为文本长度。

检索编码器将问题和知识编码到统一的语义空间，找出语义相近的前K个知识。知识库中主要包含文本，图像/>以及图文/>。将数据集中第/>个样本记为，其中/>是第/>个正样本知识（相关知识），/>是第/>个负样本知识（不相关知识）。对于一个批次/>内的数据，将对应的正例和负例知识聚集到一起，采用对比学习损失训练，拉近问题与相关知识的距离，远离不相关知识。

此处需要说明的是，相关知识和不相关知识是人为提前标注好的标签。

目标函数如下：

其中是主干网络编码器，/>表示对应的一个批次/>的知识库。

训练检索器学习到统一的多模态语义空间后，计算问题和知识的最大内积相似度，并从大到小进行排序，采用主干网络编码器/>,选择其中相似度值排名前K个知识作为检索的知识/>：

其中，所述检索排序器的训练过程为：

在一个或多个实施例中，检索排序器采用分类器作为检索排序器判断知识是否相关。

具体地，在开放式多模态知识库中有相当一部分知识在特征语义层面与问题比较相近，但它们不能为问题提供准确的参考，甚至干扰回答和导致产生错误的答案。因此，虽然检索器在大多数检索任务上已经充分有效，但它在开放式多模态问答领域检索的准确率依然较低。为此，训练了一个检索排序器，利用检索排序器来筛选在多模态语义空间中相近的候选知识项，以排除干扰知识。引入固定参数的大语言模型编码器以及可学习的分类器作为检索排序器。

具体来说，采用检索器对问题和知识计算相似度，例如，选择相似度前10名知识作为候选知识，基于真实标签划分为正例和负例，作为训练数据集计算交叉熵损失（CrossEntropy），交叉熵损失函数定义如下：

其中是正负例标签，/>，/>是可学习的分类器。

步骤2.2：根据问题及知识标签，利用检索排序器从检索器检索的TOP-K知识中判定出与问题相关的知识，得到检索的相关知识。

生成阶段为步骤2.3，其具体过程为：根据问题和检索排序器检索的相关知识，利用生成器生成预测答案。

如图3生成阶段所示，生成器由视觉编码器、Q-Former结构和编码器-解码器结构的大语言模型构成。生成器将问题和图像标题作为提取视觉特征的指令，以获得可学习的查询特征减少图像冗余信息的干扰，并将它们与所有文本一起输入到大语言模型进行生成。Q-Former结构对每张图像单独学习一套视觉查询特征，这导致需要将多组查询特征输入到大语言模型进行内容生成，这样的处理会导致低效率的计算并难以编码不同图像知识之间的关系。

为此，首次尝试仅使用一套可学习的查询变量直接与多张图像交互并提取特征，可以简化视觉信息提取过程，增强信息提取的效率。这套统一的交互方案使得多模态模型能够深入理解并整合多图的视觉信息。

其中，所述生成器的训练过程为：

在生成阶段，将检索到的多模态知识与问题一起输入到编码器得到多模态特征表示。现有的检索式增强方法直接依赖检索结果而不区分知识与问题内容的是否相关，导致很多干扰的内容和错误的内容也被用来进行推理，降低了推理的效果。引入自适应知识选择策略以引导大模型对检索的干扰知识进行过滤。具体地，自适应知识选择策略的过程为：

构造包含问题和正负例知识的问题-答案对，引导模型回答与问题内容相关的正例知识；同时采用一套查询变量一次性从多张图像学习，提取与问答一致的视觉信息。

在利用自适应知识选择策略引导大模型对检索的干扰知识进行过滤的实施过程中，人工构造问答数据促使模型区分多模态知识的相关度，即利用大语言模型的隐含能力筛选知识。根据原始的开放式多模态问答数据集，选择相关的知识作为正例，不相关的知识作为负例，按照模版拼接正负例知识形成选择性问题，正例标识作为问题的答案，即给模型输入问题和知识集合，让模型判别哪些知识是相关的。构造问题的模版如下：

“需要你根据输入的问题与参考知识的相关度回答依据哪个参考知识能够回答该问题。输入的形式为‘问题:[问题内容]，参考知识[知识标识]:[知识内容]…，需要输出的内容：相关的内容是[知识标识]’，答案的形式为“相关的参考知识为[知识标识] ”。

将按照以上模版构造的问题和答案数据分别记为，其中/>是文本长度。给定检索式问答数据/>，其中/>是文本长度，以及人工构造的/>和/>，生成器/>利用注意力机制迭代生成文本输出训练得到生成器。生成损失函数如下所示：

其中，是检索的相关知识。

本实施例利用自适应知识选择策略来帮助训练生成器，利用大语言模型的隐式能力进行知识过滤，实现对干扰信息的抗噪能力以及对图像知识提取视觉信息的有效性。一方面，利用个可学习的查询变量与多张图像的视觉特征交互，这有助于根据问题指示从相关的参考图像中提取信息。另一方面，基于问答形式构造去噪样本，辅助大模型判别知识的相关度，以提高回答的准确性。

本实施例的检索和生成的两阶段检索式增强模型框架有效地减少了多模态问答的复杂度，提高了可解释性，可以动态检索信息来提高生成答案的准确率。

在表1中，在Evaluating state-of-the-art in AI挑战赛WebQA数据集对比了本发明（RA-BLIP）与其他方法的检索准确率和问答生成准确率，可以观察到本方法在检索准确率和生成准确率均达到了最优的结果。

表 1 本发明（RA-BLIP）和现有方法在WebQA数据集上检索准确率和生成准确率的对比

其中，具体评测指标包括Retrieval、QA-FL、QA-Acc和QA，其计算方法参考WebQA数据集。

Retrieval：检索准确率；

QA-FL：question answering fluency，问题答案的流畅度；

QA-Acc：question answering accuracy，问题答案的精确度；

QA：question answering，问题答案的生成准确率；

VLP：Unified vision-language pre-training，视觉语言预训练模型

VLP+VinVL：

Unified vision-language pre-training + Making visual representationsmatter in vision-language models，视觉语言预训练模型+视觉特征表示方法；

MuRAG：

Multimodal retrieval-augmented generator for open question answering，多模态检索式增强大模型；

SKURG：

Enhancing multi-modal and multi-hop question answering via structuredknowledge and unified retrieval-generation，基于增强的结构化知识的检索式增强大模型；

Solar：Unified language representation for question answering，基于统一语言表示检索式增强大模型；

RA-BLIP：Retrieval-Augmented Bootstrapping Language-Image Pre-training，多模态自适应检索式增强引导语言图像预训练大模型。

本实施例的基于多模态自适应检索式增强大模型的问答可应用于开放式多模态问答系统、检索式增强技术、多模态预训练大模型或跨模态检索系统等。

实施例二

本实施例提供了一种基于多模态自适应检索式增强大模型的问答系统，其具体包括如下模块：

问题接收模块，其用于接收待回答的问题；

生成所述问题的预测答案的过程包括：

其中，检索器的训练过程为：

其中，检索排序器的训练过程为：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同。

本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态自适应检索式增强大模型的问答方法，其特征在于，包括：

接收待回答的问题；

生成所述问题的预测答案的过程包括：

根据问题和检索排序器检索的相关知识，利用生成器生成预测答案；

其中，所述检索器包括视觉编码器、Q-Former结构及多模态自适应融合模块；所述视觉编码器用于提取多模态知识库中图像的图像特征；所述Q-Former结构用于提取多模态知识库中图像的文本特征，并将其与图像特征对齐后再传送至多模态自适应融合模块，以进行特征融合，得到多模态融合特征；所述Q-Former结构还用于提取问题及多模态知识库中文本的文本特征；

采用图像文本生成损失函数和图像文本匹配损失函数预训练多模态自适应融合模块；给定训练集，其中，图像文本匹配损失函数为：

其中为标签，/>为样本的总数，/>为Q-Former对图像/>的编码，/>为Q-Former对文本/>的编码，/>是softmax函数，/>表示融合模块参数；

图像文本生成损失函数为：

其中，表示Q-Former的生成器，/>表示第/>个词，/>为文本长度；

训练检索器的目标函数为：

其中是主干网络编码器，/>表示对应的一个批次/>的知识库；/>为文本，/>为图像，/>为图文；/>为问题。

2.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索器的训练过程为：

3.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索排序器的训练过程为：

4.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述生成器的训练过程为：

5.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述相似度采用最大内积相似度来表征。

6.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述多模态知识库中的知识包括文本、图像和图文。

7.一种基于多模态自适应检索式增强大模型的问答系统，其特征在于，包括：

问题接收模块，其用于接收待回答的问题；

生成所述问题的预测答案的过程包括：

图像文本生成损失函数为：

训练检索器的目标函数为：

8.如权利要求7所述的基于多模态自适应检索式增强大模型的问答系统，所述检索器的训练过程为：

9.如权利要求7所述的基于多模态自适应检索式增强大模型的问答系统，所述检索排序器的训练过程为：