CN116595151A

CN116595151A - 基于先验知识启发大语言模型的图像推理问答方法

Info

Publication number: CN116595151A
Application number: CN202310744506.2A
Authority: CN
Inventors: 余宙; 邵镇炜; 俞俊; 郑力祥
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-08-15

Abstract

本发明提出一种基于先验知识启发大语言模型的图像推理问答方法。本发明其核心在于通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型，更好地激发大模型的潜力以解决视觉知识推理任务。本方法首次提出基于先验知识启发的方法，通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型，构建先验知识启发向大语言模型输入更多图片的细节和关键信息，充分激发大语言模型的潜能，进而得到更好的结果，相比于先前的基于大语言模型的方法性能有了很大提升。

Description

基于先验知识启发大语言模型的图像推理问答方法

技术领域

本发明属于图像推理问答领域，具体涉及一种基于先验知识启发大语言模型的图像推理问答方法。

背景技术

视觉问答(Visual Question Answering)是一种涉及计算机视觉和自然语言处理的学习任务，它以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，经过视觉问答系统，输出一条自然语言作为答案。因此，需要让机器对图片的内容、问题的含义和意图有一定的理解。

视觉知识推理是视觉问答的一个子任务。与视觉问答任务一样，视觉知识推理任务同样也有一张图片和一个对应的问题作为输入，但它要求模型不仅能够分析图片和问题，还需要结合图像外部的知识(生活常识、科学知识等世界知识)来推理得到答案。例如，如果问一张狮子图片“这种动物最喜欢吃什么？”，那么模型就需要知道狮子是食肉动物，它们通常捕食羚羊、斑马等。

在实际应用方面，视觉知识推理任务的未来应用潜力巨大，如搜索引擎问答。视觉问答任务作为一种交互性任务，特别是现实场景中的问答往往需要先验与常识知识的引入，模型不仅需要完成视觉和语言模态上的表征学习，还需要对外部知识进行整合，对逻辑关系进行推理，以此模拟人类在回答问题的过程中对自己所积累知识的记忆与搜索。视觉与语言模态的特征表示与融合在业界已有十分成熟的技术。但是，视觉与语言模态的特征表示与融合方法仅仅适用于回答针对图像中可见信息的感知理解问题，却不能更好关联图像外部的知识从而推理得到正确答案。本发明所提出的视觉问答方法，使得计算机系统可以更智能地回答视觉问题，即在回答图片相关的问题时，能更好的结合图像之外的知识和常识，得到更合理和可信的答案，因此具有巨大的科学意义和应用价值。

学术界已有使用大语言模型技术解决视觉问答任务的方法。PICa提出使用图像描述模型将图片转化为概括图片内容的文本描述，然后将其和视觉问题按一定格式拼接，继而输入给大语言模型以生成问题的答案。该方法在OK-VQA测试数据集上超越了过去的方法。参见以下文献：Yang Z,Gan Z,Wang J,et al.An empirical study of gpt-3for few-shot knowledge-based vqa[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2022,36(3):3081-3089.

但是由于文本描述未必能覆盖问题所关心的视觉信息，导致大模型无法理解图片或问题，因此这一方法存在性能瓶颈。本发明使用较小的视觉问答模型抽取更有针对性的视觉信息，以先验知识启发的形式提供给大语言模型，使语言大模型更充分理解所需推理的图片和视觉问题，进而生成更准确的答案。

本发明还使用两个现有模型OSCAR+模型和MCAN模型。

这两个模型分别参见以下两篇文献：Zhang P,Li,X,Hu X et al.Vinvl:Revisiting visual representations in vision-language models[C]//Proceedingsof the IEEE/CVF conference on computer vision and pattern recognition.2021:5579-5588.和Yu Z,Yu J,Cui Y,etal.Deep modular co-attention networks forvisual question answering[C]//Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition.2019:6281-6290.

OSCAR+是通过跨模态预训练技术得到的图像描述模型，在本发明中用于提取图像的概括性描述。MCAN模型是以Transformer模块为主干架构的高精度的视觉问答模型，本发明使用MCAN模型做为上游视觉问答模型用以提取先验知识启发。

综上所述，视觉知识推理是一个值得深入研究的课题，本专利就视觉知识推理问题提供了一个高准确率的技术方案，本专利具有较大的创新性和应用价值。

发明内容

本发明目的在于，提出一种基于先验知识启发大语言模型的图像推理问答方法，其核心在于通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型，更好地激发大模型的潜力以解决视觉知识推理任务。本方法首次提出基于先验知识启发的方法，通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型，构建先验知识启发向大语言模型输入更多图片的细节和关键信息，充分激发大语言模型的潜能，进而得到更好的结果。

本发明中定义了两种先验知识启发：

1、答案候选(answer candidates)：问题的候选答案及其置信度得分。

2、答案感知示例(answer-aware examples)：选择答案相近的示例样本(来自训练数据集)作为提示语中的示例。

本发明提供一种基于先验知识启发大语言模型的图像推理问答方法，包括如下步骤：

步骤(1)：构建用于视觉问答模型训练的有标注的数据集其中q_i表示问题，v_i表示问题所询问的图片，a_i为标注的答案短语，N_D为数据集中的训练样本数量，收集数据集D中，出现次数大于设定值N_f的答案短语构建为答案词表其中N_a为答案词表的大小；

步骤(2)：构建上游视觉问答模型；

使用预先训练好的BERT-large模型得到步骤(1)中所述问题的文本特征其中d_t为模型表征的维度；使用预先训练好的CLIP模型得到所述问题所询问的图片的视觉特征/>其中n为视觉特征在平面上的区块数，d_f为视觉特征的维度；

将上述文本特征T和视觉特征F输入MCAN模型，输出答案潜在向量和预测置信度向量/>d_z是该向量的维度；p中的每一个元素值代表答案词表中相应答案的置信度；

步骤(3)：训练上游视觉问答模型；

步骤(4)：获取图像描述模型OSCAR+，并结合训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集；

步骤(5)：获取待推理的图片和待推理的问题，将其输入训练好的上游视觉问答模型，利用所述示例集，提取先验知识启发；

步骤(6)：将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述，结合所述待推理的问题及所述先验知识启发构建提示语；

步骤(7)：将提示语输入大语言模型，提示其完成视觉问题的回答。

作为优选，所述步骤(2)中，

所述答案潜在向量z是从MCAN的主干模型输出继而输入到MCAN的分类层的向量；所述预测置信度向量p是d_z输入分类层之后输出的向量，p中的第i个值p[i]代表答案是答案词表A中的第i个答案短语a_i的置信度。

作为优选，所述步骤(4)具体如下：

4-1.取数据集D中每一个样本(q_i,v_i,a_i)作为示例样本，将图片v_i输入图像描述模型OSCAR+得到图片的文本描述C_i；将问题q_i和图片v_i输入训练好的MCAN，得到相应的输出答案潜在向量和预测置信度向量/>

4-2.构建示例样本的答案候选和文本表示

选取p_i中置信度最高的K个元素值对应的答案短语构成示例样本的答案候选：

AC_i＝{(a_k,p_i[k])|k∈argTOP_K(p_i),a_k∈A}

其中argTOP_K函数表示向量或集合中值最大的K个值的下标构成的集合；然后将训练样本构造为如下文本表示

e_i＝″context：″C_i，″question：″q_i，″candidates：″AC_i，″answer：″a_i

4-3.将数据集D中所有样本构造成示例集

作为优选，所述步骤(5)中，将所述待推理的图片和待推理的问题输入训练好的上游视觉问答模型，提取先验知识启发的过程具体如下：

5-1.将待推理的图像v_t和待推理的问题q_t，即推理样本，输入经步骤(3)完成训练的所述MCAN模型，获得相应的答案潜在向量z_t和预测置信度向量p_t；

5-2.构建推理样本的答案候选

选取p_t中置信度最高的K个元素值对应的答案短语构成推理样本的答案候选

AC_t＝{(a_k，p_t[k])|k∈argTOP_K(p_t)，a_k∈A}

5-3.构建推理样本的答案感知示例

以答案潜在向量的余弦距离为度量，选取所述示例集E中与推理样本最接近的N个样本构成答案感知示例：

作为优选，所述步骤(6)具体如下：

6-1.将所述待推理的图片v_t输入图像描述模型OSCAR+得到图片的文本描述C_t；

6-2.将推理样本表示成如下文本形式

e_t＝″context：″C_t，″question：″q_t，″candidates：″AC_t，″answer：″

6-3.构建M个完整的提示语

将答案感知示例AE_t平均随机分割为M个子集每一条提示语由提示头h，答案感知示例集合/>和推理样例的文本表示e_t拼接而成，所述提示头h使用自然语言描述视觉知识推理任务。

作为优选，所述步骤(7)具体如下：

采用多查询集成策略，将步骤(6)中构建的M个文本形式的提示语句输入任意预训练好的大语言模型，提示其完成视觉知识推理任务，大语言模型以自回归生成的方式补全出答案；M个提示语相应可获得M个预测答案，对M个预测答案进行多数投票，选取票数最高的答案作为最终结果。

作为优选，所述步骤(3)具体如下：

以数据集D为训练数据，根据MCAN模型的损失函数产生损失值，利用Adam梯度下降算法和反向传播算法对MCAN模型进行优化，直至收敛。

本发明有益效果如下：

本发明所提出的一种算法，通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型，更好地激发大模型的潜力，更好地解决视觉知识推理任务，相比于先前的大语言模型的方法PICa性能有了很大提升。在公用的测试集OK-VQA测试集上，该方法的评测性能显著超过了PICa，具体实验结果如下表。

表1所发明方法在公共的OK-VQA测试集上的实验结果

方法	准确率(％)
		PICa	48.0
本发明	61.1

附图说明

图1：基于先验知识启发的视觉知识推理网络架构

图2：上游视觉问答模型网络架构

图3：提示语组成示意图

具体实施方式

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)：构建用于视觉问答模型训练的有标注的数据集，并构造答案词表。

步骤(2)：构建上游视觉问答模型。

步骤(3)：训练上游视觉问答模型。

步骤(4)：利用训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集。

步骤(5)：获取待推理的图片和待推理的问题，将其输入训练好的上游视觉问答模型，提取先验知识启发。

步骤(6)：将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述，结合所述待推理的问题及所述先验知识启发构建提示语。

步骤(1)所描述的构建用于视觉问答模型训练的有标注的数据集，并构造答案词表，具体如下：

构建有标注数据集其中q_i表示问题，v_i表示问题所询问的图片，a_i为标注的答案短语，N_D为数据集中的样本数量。考虑不同的样本可能共享了相同的答案，故可以统计数据集中每个答案短语对应的样本数，即该答案短语出现的次数，收集出现次数大于设定值N_f的所有答案短语构建为答案词表/>其中N_a为答案词表的大小。

步骤(2)所述的构建上游视觉问答模型，具体如下：

一个问题q最大长度设置为l，当问题的单词个数大于l时保留前l个单词，当问题的单词数量小于l时用空格补全至l个单词。对于处理后的问题，使用预先训练好的BERT-large模型得到文本特征其中d_t为模型表征的维度。对于一张输入图像，使用预先训练好的CLIP模型得到视觉特征/>其中n为视觉特征在平面上的区块数，d_f为视觉特征的维度。将上述文本特征T和视觉特征F输入MCAN模型，输出答案潜在向量和预测置信度向量/>其中，答案潜在向量z是从MCAN的主干模型输出继而输入到MCAN的分类层的向量，d_z是该向量的维度。预测置信度向量p是d_z输入分类层之后输出的向量，p中的每一个元素值代表答案词表中相应答案的置信度，例如，p中的第i个值p[i]代表答案是答案词表A中的第i个答案短语a_i的置信度。

步骤(3)所述的训练上游视觉问答模型，具体如下：

以数据集D为训练数据，根据MCAN模型的损失函数产生损失值，利用Adam梯度下降算法和反向传播算法对MCAN模型进行优化，直至整个网络模型收敛。

步骤(4)所述的利用训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集，具体如下：

4-1.取数据集D中每一个样本(q_i,v_i,a_i)作为示例样本，将图片v_i输入图像描述模型OSCAR+得到图片的文本描述C_i。将问题q_i和图片v_i输入训练好的MCAN，得到相应的输出答案潜在向量和预测置信度向量/>

4-2.构建示例样本的答案候选和文本表示

选取p_i中置信度最高的K个元素值对应的答案短语构成示例样本的答案候选，即如下形式：

AC_i＝{(a_k，p_i[k])|k∈argTOP_K(p_i)，a_k∈A} (公式1)

其中argTOP_K函数表示向量或集合中值最大的K个值的下标构成的集合。然后将示例样本构造为如下文本表示：

e_i＝″context：″C_i，″question：″q_i，″candidates：″AC_i，″answer：″a_i (公式2)

4-3.将数据集D中所有样本构造成示例集

步骤(5)所述的获取待推理的图片和待推理的问题，将其输入训练好的上游视觉间答模型，提取先验知识启发，具体如下：

5-1.将待推理的图像v_t和待推理的问题q_t，即推理样本，输入经步骤(3)完成训练的所述MCAN模型，获得相应的答案潜在向量z_t和预测置信度向量p_t。

5-2.构建推理样本的答案候选

AC_t＝{(a_k，p_t[k])|k∈argTOP_K(p_t)，a_k∈A} (公式3)

5-3.构建推理样本的答案感知示例

步骤(6)所述的将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述，结合所述待推理的问题及所述先验知识启发构建提示语，具体如下：

6-1.将所述待推理的图片v_t输入图像描述模型OSCAR+得到图片的文本描述C_t。

6-2.将推理样本表示成如下文本形式

e_t＝″context：″C_t，″question：″q_t，″candidates：″AC_t，″answer：″ (公式5)

6-3.构建M个完整的提示语

步骤(7)所述的将提示语输入大语言模型，提示其完成视觉问题的回答，具体如下：

下面对本发明的详细参数做进一步具体说明。

如图1，2，3所示，本发明提供一种基于先验知识启发大语言模型的图像推理问答方法。

步骤(1)所描述的构建用于视觉问答训练模型的有标注的数据集，并构造答案词表，具体如下：

以OK-VQA训练集作为数据集D，该数据集的规模为9009个有标注样本。统计数据集中每个答案短语出现的次数，收集出现次数大于8的所有答案短语，共2794个答案，构建为答案词表

步骤(2)所述的构建上游视觉问答模型，具体如下：

一个问题q最大长度设置为32，使用预先训练好的BERT-large模型得到文本特征对于一张输入图像，使用预先训练好的CLIP模型得到视觉特征如图2所示，将上述文本特征T和视觉特征F输入MCAN模型，输出答案潜在向量/>和预测置信度向量/>

步骤(3)所述的训练上游视觉问答模型，具体如下：

4-1.取数据集D中每一个样本(q_i，v_i，a_i)作为示例样本，将图片v_i输入图像描述模型OSCAR+得到图片的文本描述C_i。将问题q_i和图片vi输入训练好的MCAN，得到相应的输出答案潜在向量和预测置信度向量/>

4-2.构建示例样本的答案候选和文本表示

选取p_i中置信度最高的10个元素值对应的答案短语构成示例样本的答案候选。然后将示例样本构造为文本表示。

4-3.将数据集D中所有样本构造成示例集

步骤(5)所述的获取待推理的图片和待推理的问题，将其输入训练好的上游视觉问答模型，提取先验知识启发，具体如下：

5-2.构建推理样本的答案候选

选取p_t中置信度最高的10个元素值对应的答案短语构成推理样本的答案候选。

5-3.构建推理样本的答案感知示例

以答案潜在向量的余弦距离为度量，选取所述示例集E中与推理样本最接近的100个样本构成答案感知示例AE_t。

6-2.将推理样本表示成文本形式。

6-3.构建5个完整的提示语

将答案感知示例AE_t平均随机分割为5个子集如图3所示，每一条提示语由提示头h，答案感知示例集合/>和推理样例的文本表示e_t拼接而成，所述提示头h使用自然语言描述视觉知识推理任务，具体内容如下：

Please answer the question according to tthe context and candidateanswers.Each candidate answer is associated with a confidence score within abracket.The true answer may not be included in the candidate answers.

采用多查询集成策略，将步骤(6)中构建的5个文本形式的提示语句输入任意预训练好的大语言模型，获得5个预测答案，对5个预测答案进行多数投票，选取票数最高的答案作为最终结果。

Claims

1.基于先验知识启发大语言模型的图像推理问答方法，其特征在于包括如下步骤：

步骤(1)：构建用于视觉问答模型训练的有标注的数据集D＝其中q_i表示问题，v_i表示问题所询问的图片，a_i为标注的答案短语，N_D为数据集中的训练样本数量，收集数据集D中，出现次数大于设定值N_f的答案短语构建为答案词表/>其中N_a为答案词表的大小；

步骤(2)：构建上游视觉问答模型；

步骤(3)：训练上游视觉问答模型；

2.如权利要求1所述的基于先验知识启发大语言模型的图像推理问答方法，其特征在于，所述步骤(2)中，

3.如权利要求2所述的基于先验知识启发大语言模型的图像推理问答方法，其特征在于，所述步骤(4)具体如下：

4-2.构建示例样本的答案候选和文本表示

AC_i＝{(a_k,p_i[k])|k∈argTOP_K(p_i),a_k∈A}

e_i＝"context:"C_i,

"question:"q_i,

"candidates:"AC_i,

″answer:″a_i

4-3.将数据集D中所有样本构造成示例集

4.如权利要求3所述的基于先验知识启发大语言模型的图像推理问答方法，其特征在于，所述步骤(5)中，将所述待推理的图片和待推理的问题输入训练好的上游视觉问答模型，提取先验知识启发的过程具体如下：

5-2.构建推理样本的答案候选

AC_t＝{(a_k,p_t[k])|k∈argTOP_K(p_t),a_k∈A}

5-3.构建推理样本的答案感知示例

5.如权利要求4所述的基于先验知识启发大语言模型的图像推理问答方法，其特征在于，所述步骤(6)具体如下：

6-2.将推理样本表示成如下文本形式

e_t＝"context:"C_t,

"question:"q_t,

"candidates:"AC_t,

″answer:″

6-3.构建M个完整的提示语

6.如权利要求5所述的基于先验知识启发大语言模型的图像推理问答方法，其特征在于，所述步骤(7)具体如下：

7.如权利要求6所述的基于先验知识启发大语言模型的图像推理问答方法，其特征在于，所述步骤(3)具体如下：