CN116595151A - 基于先验知识启发大语言模型的图像推理问答方法 - Google Patents
基于先验知识启发大语言模型的图像推理问答方法 Download PDFInfo
- Publication number
- CN116595151A CN116595151A CN202310744506.2A CN202310744506A CN116595151A CN 116595151 A CN116595151 A CN 116595151A CN 202310744506 A CN202310744506 A CN 202310744506A CN 116595151 A CN116595151 A CN 116595151A
- Authority
- CN
- China
- Prior art keywords
- answer
- model
- question
- visual
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000000007 visual effect Effects 0.000 claims abstract description 89
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 27
- 241000501754 Astronotus ocellatus Species 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 13
- 230000008447 perception Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 241001482237 Pica Species 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- ADHFMENDOUEJRK-UHFFFAOYSA-N 9-[(4-fluorophenyl)methyl]-n-hydroxypyrido[3,4-b]indole-3-carboxamide Chemical compound C1=NC(C(=O)NO)=CC(C2=CC=CC=C22)=C1N2CC1=CC=C(F)C=C1 ADHFMENDOUEJRK-UHFFFAOYSA-N 0.000 description 3
- 241000282320 Panthera leo Species 0.000 description 2
- 241000282817 Bovidae Species 0.000 description 1
- 241001466804 Carnivora Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于先验知识启发大语言模型的图像推理问答方法。本发明其核心在于通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,更好地激发大模型的潜力以解决视觉知识推理任务。本方法首次提出基于先验知识启发的方法,通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,构建先验知识启发向大语言模型输入更多图片的细节和关键信息,充分激发大语言模型的潜能,进而得到更好的结果,相比于先前的基于大语言模型的方法性能有了很大提升。
Description
技术领域
本发明属于图像推理问答领域,具体涉及一种基于先验知识启发大语言模型的图像推理问答方法。
背景技术
视觉问答(Visual Question Answering)是一种涉及计算机视觉和自然语言处理的学习任务,它以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,经过视觉问答系统,输出一条自然语言作为答案。因此,需要让机器对图片的内容、问题的含义和意图有一定的理解。
视觉知识推理是视觉问答的一个子任务。与视觉问答任务一样,视觉知识推理任务同样也有一张图片和一个对应的问题作为输入,但它要求模型不仅能够分析图片和问题,还需要结合图像外部的知识(生活常识、科学知识等世界知识)来推理得到答案。例如,如果问一张狮子图片“这种动物最喜欢吃什么?”,那么模型就需要知道狮子是食肉动物,它们通常捕食羚羊、斑马等。
在实际应用方面,视觉知识推理任务的未来应用潜力巨大,如搜索引擎问答。视觉问答任务作为一种交互性任务,特别是现实场景中的问答往往需要先验与常识知识的引入,模型不仅需要完成视觉和语言模态上的表征学习,还需要对外部知识进行整合,对逻辑关系进行推理,以此模拟人类在回答问题的过程中对自己所积累知识的记忆与搜索。视觉与语言模态的特征表示与融合在业界已有十分成熟的技术。但是,视觉与语言模态的特征表示与融合方法仅仅适用于回答针对图像中可见信息的感知理解问题,却不能更好关联图像外部的知识从而推理得到正确答案。本发明所提出的视觉问答方法,使得计算机系统可以更智能地回答视觉问题,即在回答图片相关的问题时,能更好的结合图像之外的知识和常识,得到更合理和可信的答案,因此具有巨大的科学意义和应用价值。
学术界已有使用大语言模型技术解决视觉问答任务的方法。PICa提出使用图像描述模型将图片转化为概括图片内容的文本描述,然后将其和视觉问题按一定格式拼接,继而输入给大语言模型以生成问题的答案。该方法在OK-VQA测试数据集上超越了过去的方法。参见以下文献:Yang Z,Gan Z,Wang J,et al.An empirical study of gpt-3for few-shot knowledge-based vqa[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2022,36(3):3081-3089.
但是由于文本描述未必能覆盖问题所关心的视觉信息,导致大模型无法理解图片或问题,因此这一方法存在性能瓶颈。本发明使用较小的视觉问答模型抽取更有针对性的视觉信息,以先验知识启发的形式提供给大语言模型,使语言大模型更充分理解所需推理的图片和视觉问题,进而生成更准确的答案。
本发明还使用两个现有模型OSCAR+模型和MCAN模型。
这两个模型分别参见以下两篇文献:Zhang P,Li,X,Hu X et al.Vinvl:Revisiting visual representations in vision-language models[C]//Proceedingsof the IEEE/CVF conference on computer vision and pattern recognition.2021:5579-5588.和Yu Z,Yu J,Cui Y,etal.Deep modular co-attention networks forvisual question answering[C]//Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition.2019:6281-6290.
OSCAR+是通过跨模态预训练技术得到的图像描述模型,在本发明中用于提取图像的概括性描述。MCAN模型是以Transformer模块为主干架构的高精度的视觉问答模型,本发明使用MCAN模型做为上游视觉问答模型用以提取先验知识启发。
综上所述,视觉知识推理是一个值得深入研究的课题,本专利就视觉知识推理问题提供了一个高准确率的技术方案,本专利具有较大的创新性和应用价值。
发明内容
本发明目的在于,提出一种基于先验知识启发大语言模型的图像推理问答方法,其核心在于通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,更好地激发大模型的潜力以解决视觉知识推理任务。本方法首次提出基于先验知识启发的方法,通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,构建先验知识启发向大语言模型输入更多图片的细节和关键信息,充分激发大语言模型的潜能,进而得到更好的结果。
本发明中定义了两种先验知识启发:
1、答案候选(answer candidates):问题的候选答案及其置信度得分。
2、答案感知示例(answer-aware examples):选择答案相近的示例样本(来自训练数据集)作为提示语中的示例。
本发明提供一种基于先验知识启发大语言模型的图像推理问答方法,包括如下步骤:
步骤(1):构建用于视觉问答模型训练的有标注的数据集 其中qi表示问题,vi表示问题所询问的图片,ai为标注的答案短语,ND为数据集中的训练样本数量,收集数据集D中,出现次数大于设定值Nf的答案短语构建为答案词表其中Na为答案词表的大小;
步骤(2):构建上游视觉问答模型;
使用预先训练好的BERT-large模型得到步骤(1)中所述问题的文本特征其中dt为模型表征的维度;使用预先训练好的CLIP模型得到所述问题所询问的图片的视觉特征/>其中n为视觉特征在平面上的区块数,df为视觉特征的维度;
将上述文本特征T和视觉特征F输入MCAN模型,输出答案潜在向量和预测置信度向量/>dz是该向量的维度;p中的每一个元素值代表答案词表中相应答案的置信度;
步骤(3):训练上游视觉问答模型;
步骤(4):获取图像描述模型OSCAR+,并结合训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集;
步骤(5):获取待推理的图片和待推理的问题,将其输入训练好的上游视觉问答模型,利用所述示例集,提取先验知识启发;
步骤(6):将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述,结合所述待推理的问题及所述先验知识启发构建提示语;
步骤(7):将提示语输入大语言模型,提示其完成视觉问题的回答。
作为优选,所述步骤(2)中,
所述答案潜在向量z是从MCAN的主干模型输出继而输入到MCAN的分类层的向量;所述预测置信度向量p是dz输入分类层之后输出的向量,p中的第i个值p[i]代表答案是答案词表A中的第i个答案短语ai的置信度。
作为优选,所述步骤(4)具体如下:
4-1.取数据集D中每一个样本(qi,vi,ai)作为示例样本,将图片vi输入图像描述模型OSCAR+得到图片的文本描述Ci;将问题qi和图片vi输入训练好的MCAN,得到相应的输出答案潜在向量 和预测置信度向量/>
4-2.构建示例样本的答案候选和文本表示
选取pi中置信度最高的K个元素值对应的答案短语构成示例样本的答案候选:
ACi={(ak,pi[k])|k∈argTOPK(pi),ak∈A}
其中argTOPK函数表示向量或集合中值最大的K个值的下标构成的集合;然后将训练样本构造为如下文本表示
ei=″context:″Ci,″question:″qi,″candidates:″ACi,″answer:″ai
4-3.将数据集D中所有样本构造成示例集
作为优选,所述步骤(5)中,将所述待推理的图片和待推理的问题输入训练好的上游视觉问答模型,提取先验知识启发的过程具体如下:
5-1.将待推理的图像vt和待推理的问题qt,即推理样本,输入经步骤(3)完成训练的所述MCAN模型,获得相应的答案潜在向量zt和预测置信度向量pt;
5-2.构建推理样本的答案候选
选取pt中置信度最高的K个元素值对应的答案短语构成推理样本的答案候选
ACt={(ak,pt[k])|k∈argTOPK(pt),ak∈A}
5-3.构建推理样本的答案感知示例
以答案潜在向量的余弦距离为度量,选取所述示例集E中与推理样本最接近的N个样本构成答案感知示例:
作为优选,所述步骤(6)具体如下:
6-1.将所述待推理的图片vt输入图像描述模型OSCAR+得到图片的文本描述Ct;
6-2.将推理样本表示成如下文本形式
et=″context:″Ct,″question:″qt,″candidates:″ACt,″answer:″
6-3.构建M个完整的提示语
将答案感知示例AEt平均随机分割为M个子集每一条提示语由提示头h,答案感知示例集合/>和推理样例的文本表示et拼接而成,所述提示头h使用自然语言描述视觉知识推理任务。
作为优选,所述步骤(7)具体如下:
采用多查询集成策略,将步骤(6)中构建的M个文本形式的提示语句输入任意预训练好的大语言模型,提示其完成视觉知识推理任务,大语言模型以自回归生成的方式补全出答案;M个提示语相应可获得M个预测答案,对M个预测答案进行多数投票,选取票数最高的答案作为最终结果。
作为优选,所述步骤(3)具体如下:
以数据集D为训练数据,根据MCAN模型的损失函数产生损失值,利用Adam梯度下降算法和反向传播算法对MCAN模型进行优化,直至收敛。
本发明有益效果如下:
本发明所提出的一种算法,通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,更好地激发大模型的潜力,更好地解决视觉知识推理任务,相比于先前的大语言模型的方法PICa性能有了很大提升。在公用的测试集OK-VQA测试集上,该方法的评测性能显著超过了PICa,具体实验结果如下表。
表1所发明方法在公共的OK-VQA测试集上的实验结果
方法 | 准确率(%) |
PICa | 48.0 |
本发明 | 61.1 |
附图说明
图1:基于先验知识启发的视觉知识推理网络架构
图2:上游视觉问答模型网络架构
图3:提示语组成示意图
具体实施方式
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1):构建用于视觉问答模型训练的有标注的数据集,并构造答案词表。
步骤(2):构建上游视觉问答模型。
步骤(3):训练上游视觉问答模型。
步骤(4):利用训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集。
步骤(5):获取待推理的图片和待推理的问题,将其输入训练好的上游视觉问答模型,提取先验知识启发。
步骤(6):将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述,结合所述待推理的问题及所述先验知识启发构建提示语。
步骤(7):将提示语输入大语言模型,提示其完成视觉问题的回答。
步骤(1)所描述的构建用于视觉问答模型训练的有标注的数据集,并构造答案词表,具体如下:
构建有标注数据集其中qi表示问题,vi表示问题所询问的图片,ai为标注的答案短语,ND为数据集中的样本数量。考虑不同的样本可能共享了相同的答案,故可以统计数据集中每个答案短语对应的样本数,即该答案短语出现的次数,收集出现次数大于设定值Nf的所有答案短语构建为答案词表/>其中Na为答案词表的大小。
步骤(2)所述的构建上游视觉问答模型,具体如下:
一个问题q最大长度设置为l,当问题的单词个数大于l时保留前l个单词,当问题的单词数量小于l时用空格补全至l个单词。对于处理后的问题,使用预先训练好的BERT-large模型得到文本特征其中dt为模型表征的维度。对于一张输入图像,使用预先训练好的CLIP模型得到视觉特征/>其中n为视觉特征在平面上的区块数,df为视觉特征的维度。将上述文本特征T和视觉特征F输入MCAN模型,输出答案潜在向量和预测置信度向量/>其中,答案潜在向量z是从MCAN的主干模型输出继而输入到MCAN的分类层的向量,dz是该向量的维度。预测置信度向量p是dz输入分类层之后输出的向量,p中的每一个元素值代表答案词表中相应答案的置信度,例如,p中的第i个值p[i]代表答案是答案词表A中的第i个答案短语ai的置信度。
步骤(3)所述的训练上游视觉问答模型,具体如下:
以数据集D为训练数据,根据MCAN模型的损失函数产生损失值,利用Adam梯度下降算法和反向传播算法对MCAN模型进行优化,直至整个网络模型收敛。
步骤(4)所述的利用训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集,具体如下:
4-1.取数据集D中每一个样本(qi,vi,ai)作为示例样本,将图片vi输入图像描述模型OSCAR+得到图片的文本描述Ci。将问题qi和图片vi输入训练好的MCAN,得到相应的输出答案潜在向量和预测置信度向量/>
4-2.构建示例样本的答案候选和文本表示
选取pi中置信度最高的K个元素值对应的答案短语构成示例样本的答案候选,即如下形式:
ACi={(ak,pi[k])|k∈argTOPK(pi),ak∈A} (公式1)
其中argTOPK函数表示向量或集合中值最大的K个值的下标构成的集合。然后将示例样本构造为如下文本表示:
ei=″context:″Ci,″question:″qi,″candidates:″ACi,″answer:″ai (公式2)
4-3.将数据集D中所有样本构造成示例集
步骤(5)所述的获取待推理的图片和待推理的问题,将其输入训练好的上游视觉间答模型,提取先验知识启发,具体如下:
5-1.将待推理的图像vt和待推理的问题qt,即推理样本,输入经步骤(3)完成训练的所述MCAN模型,获得相应的答案潜在向量zt和预测置信度向量pt。
5-2.构建推理样本的答案候选
选取pt中置信度最高的K个元素值对应的答案短语构成推理样本的答案候选
ACt={(ak,pt[k])|k∈argTOPK(pt),ak∈A} (公式3)
5-3.构建推理样本的答案感知示例
以答案潜在向量的余弦距离为度量,选取所述示例集E中与推理样本最接近的N个样本构成答案感知示例:
步骤(6)所述的将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述,结合所述待推理的问题及所述先验知识启发构建提示语,具体如下:
6-1.将所述待推理的图片vt输入图像描述模型OSCAR+得到图片的文本描述Ct。
6-2.将推理样本表示成如下文本形式
et=″context:″Ct,″question:″qt,″candidates:″ACt,″answer:″ (公式5)
6-3.构建M个完整的提示语
将答案感知示例AEt平均随机分割为M个子集每一条提示语由提示头h,答案感知示例集合/>和推理样例的文本表示et拼接而成,所述提示头h使用自然语言描述视觉知识推理任务。
步骤(7)所述的将提示语输入大语言模型,提示其完成视觉问题的回答,具体如下:
采用多查询集成策略,将步骤(6)中构建的M个文本形式的提示语句输入任意预训练好的大语言模型,提示其完成视觉知识推理任务,大语言模型以自回归生成的方式补全出答案;M个提示语相应可获得M个预测答案,对M个预测答案进行多数投票,选取票数最高的答案作为最终结果。
下面对本发明的详细参数做进一步具体说明。
如图1,2,3所示,本发明提供一种基于先验知识启发大语言模型的图像推理问答方法。
步骤(1)所描述的构建用于视觉问答训练模型的有标注的数据集,并构造答案词表,具体如下:
以OK-VQA训练集作为数据集D,该数据集的规模为9009个有标注样本。统计数据集中每个答案短语出现的次数,收集出现次数大于8的所有答案短语,共2794个答案,构建为答案词表
步骤(2)所述的构建上游视觉问答模型,具体如下:
一个问题q最大长度设置为32,使用预先训练好的BERT-large模型得到文本特征对于一张输入图像,使用预先训练好的CLIP模型得到视觉特征如图2所示,将上述文本特征T和视觉特征F输入MCAN模型,输出答案潜在向量/>和预测置信度向量/>
步骤(3)所述的训练上游视觉问答模型,具体如下:
以数据集D为训练数据,根据MCAN模型的损失函数产生损失值,利用Adam梯度下降算法和反向传播算法对MCAN模型进行优化,直至整个网络模型收敛。
步骤(4)所述的利用训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集,具体如下:
4-1.取数据集D中每一个样本(qi,vi,ai)作为示例样本,将图片vi输入图像描述模型OSCAR+得到图片的文本描述Ci。将问题qi和图片vi输入训练好的MCAN,得到相应的输出答案潜在向量和预测置信度向量/>
4-2.构建示例样本的答案候选和文本表示
选取pi中置信度最高的10个元素值对应的答案短语构成示例样本的答案候选。然后将示例样本构造为文本表示。
4-3.将数据集D中所有样本构造成示例集
步骤(5)所述的获取待推理的图片和待推理的问题,将其输入训练好的上游视觉问答模型,提取先验知识启发,具体如下:
5-1.将待推理的图像vt和待推理的问题qt,即推理样本,输入经步骤(3)完成训练的所述MCAN模型,获得相应的答案潜在向量zt和预测置信度向量pt。
5-2.构建推理样本的答案候选
选取pt中置信度最高的10个元素值对应的答案短语构成推理样本的答案候选。
5-3.构建推理样本的答案感知示例
以答案潜在向量的余弦距离为度量,选取所述示例集E中与推理样本最接近的100个样本构成答案感知示例AEt。
步骤(6)所述的将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述,结合所述待推理的问题及所述先验知识启发构建提示语,具体如下:
6-1.将所述待推理的图片vt输入图像描述模型OSCAR+得到图片的文本描述Ct。
6-2.将推理样本表示成文本形式。
6-3.构建5个完整的提示语
将答案感知示例AEt平均随机分割为5个子集如图3所示,每一条提示语由提示头h,答案感知示例集合/>和推理样例的文本表示et拼接而成,所述提示头h使用自然语言描述视觉知识推理任务,具体内容如下:
Please answer the question according to tthe context and candidateanswers.Each candidate answer is associated with a confidence score within abracket.The true answer may not be included in the candidate answers.
步骤(7)所述的将提示语输入大语言模型,提示其完成视觉问题的回答,具体如下:
采用多查询集成策略,将步骤(6)中构建的5个文本形式的提示语句输入任意预训练好的大语言模型,获得5个预测答案,对5个预测答案进行多数投票,选取票数最高的答案作为最终结果。
Claims (7)
1.基于先验知识启发大语言模型的图像推理问答方法,其特征在于包括如下步骤:
步骤(1):构建用于视觉问答模型训练的有标注的数据集D=其中qi表示问题,vi表示问题所询问的图片,ai为标注的答案短语,ND为数据集中的训练样本数量,收集数据集D中,出现次数大于设定值Nf的答案短语构建为答案词表/>其中Na为答案词表的大小;
步骤(2):构建上游视觉问答模型;
使用预先训练好的BERT-large模型得到步骤(1)中所述问题的文本特征其中dt为模型表征的维度;使用预先训练好的CLIP模型得到所述问题所询问的图片的视觉特征/>其中n为视觉特征在平面上的区块数,df为视觉特征的维度;
将上述文本特征T和视觉特征F输入MCAN模型,输出答案潜在向量和预测置信度向量/>dz是该向量的维度;p中的每一个元素值代表答案词表中相应答案的置信度;
步骤(3):训练上游视觉问答模型;
步骤(4):获取图像描述模型OSCAR+,并结合训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集;
步骤(5):获取待推理的图片和待推理的问题,将其输入训练好的上游视觉问答模型,利用所述示例集,提取先验知识启发;
步骤(6):将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述,结合所述待推理的问题及所述先验知识启发构建提示语;
步骤(7):将提示语输入大语言模型,提示其完成视觉问题的回答。
2.如权利要求1所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(2)中,
所述答案潜在向量z是从MCAN的主干模型输出继而输入到MCAN的分类层的向量;所述预测置信度向量p是dz输入分类层之后输出的向量,p中的第i个值p[i]代表答案是答案词表A中的第i个答案短语ai的置信度。
3.如权利要求2所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(4)具体如下:
4-1.取数据集D中每一个样本(qi,vi,ai)作为示例样本,将图片vi输入图像描述模型OSCAR+得到图片的文本描述Ci;将问题qi和图片vi输入训练好的MCAN,得到相应的输出答案潜在向量和预测置信度向量/>
4-2.构建示例样本的答案候选和文本表示
选取pi中置信度最高的K个元素值对应的答案短语构成示例样本的答案候选:
ACi={(ak,pi[k])|k∈argTOPK(pi),ak∈A}
其中argTOPK函数表示向量或集合中值最大的K个值的下标构成的集合;然后将训练样本构造为如下文本表示
ei="context:"Ci,
"question:"qi,
"candidates:"ACi,
″answer:″ai
4-3.将数据集D中所有样本构造成示例集
4.如权利要求3所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(5)中,将所述待推理的图片和待推理的问题输入训练好的上游视觉问答模型,提取先验知识启发的过程具体如下:
5-1.将待推理的图像vt和待推理的问题qt,即推理样本,输入经步骤(3)完成训练的所述MCAN模型,获得相应的答案潜在向量zt和预测置信度向量pt;
5-2.构建推理样本的答案候选
选取pt中置信度最高的K个元素值对应的答案短语构成推理样本的答案候选
ACt={(ak,pt[k])|k∈argTOPK(pt),ak∈A}
5-3.构建推理样本的答案感知示例
以答案潜在向量的余弦距离为度量,选取所述示例集E中与推理样本最接近的N个样本构成答案感知示例:
5.如权利要求4所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(6)具体如下:
6-1.将所述待推理的图片vt输入图像描述模型OSCAR+得到图片的文本描述Ct;
6-2.将推理样本表示成如下文本形式
et="context:"Ct,
"question:"qt,
"candidates:"ACt,
″answer:″
6-3.构建M个完整的提示语
将答案感知示例AEt平均随机分割为M个子集每一条提示语由提示头h,答案感知示例集合/>和推理样例的文本表示et拼接而成,所述提示头h使用自然语言描述视觉知识推理任务。
6.如权利要求5所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(7)具体如下:
采用多查询集成策略,将步骤(6)中构建的M个文本形式的提示语句输入任意预训练好的大语言模型,提示其完成视觉知识推理任务,大语言模型以自回归生成的方式补全出答案;M个提示语相应可获得M个预测答案,对M个预测答案进行多数投票,选取票数最高的答案作为最终结果。
7.如权利要求6所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(3)具体如下:
以数据集D为训练数据,根据MCAN模型的损失函数产生损失值,利用Adam梯度下降算法和反向传播算法对MCAN模型进行优化,直至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744506.2A CN116595151A (zh) | 2023-06-25 | 2023-06-25 | 基于先验知识启发大语言模型的图像推理问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744506.2A CN116595151A (zh) | 2023-06-25 | 2023-06-25 | 基于先验知识启发大语言模型的图像推理问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595151A true CN116595151A (zh) | 2023-08-15 |
Family
ID=87590192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310744506.2A Pending CN116595151A (zh) | 2023-06-25 | 2023-06-25 | 基于先验知识启发大语言模型的图像推理问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595151A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272052A (zh) * | 2023-11-22 | 2023-12-22 | 北京壹永科技有限公司 | 大语言模型训练方法、装置、设备以及存储介质 |
CN117573841A (zh) * | 2024-01-12 | 2024-02-20 | 北京一平方科技有限公司 | 基于大语言模型的知识引导问答方法和装置 |
-
2023
- 2023-06-25 CN CN202310744506.2A patent/CN116595151A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272052A (zh) * | 2023-11-22 | 2023-12-22 | 北京壹永科技有限公司 | 大语言模型训练方法、装置、设备以及存储介质 |
CN117272052B (zh) * | 2023-11-22 | 2024-02-09 | 北京壹永科技有限公司 | 大语言模型训练方法、装置、设备以及存储介质 |
CN117573841A (zh) * | 2024-01-12 | 2024-02-20 | 北京一平方科技有限公司 | 基于大语言模型的知识引导问答方法和装置 |
CN117573841B (zh) * | 2024-01-12 | 2024-05-03 | 北京一平方科技有限公司 | 基于大语言模型的知识引导问答方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
JP5687269B2 (ja) | 知識発見のための方法およびシステム | |
JP2021166046A (ja) | 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 | |
CN116595151A (zh) | 基于先验知识启发大语言模型的图像推理问答方法 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN108304587B (zh) | 一种社区问答平台回答排序方法 | |
CN109614480B (zh) | 一种基于生成式对抗网络的自动摘要的生成方法及装置 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN114254208A (zh) | 薄弱知识点的识别方法、学习路径的规划方法与装置 | |
CN110688489A (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
CN114595306A (zh) | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN113742445B (zh) | 文本识别样本获取、文本识别方法及装置 | |
Aliyanto et al. | Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level | |
CN115391534A (zh) | 文本情感原因识别方法、系统、设备及存储介质 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning | |
Luo | Automatic short answer grading using deep learning | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
CN114528381A (zh) | 一种问答识别方法以及相关设备 | |
JP2019164669A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Romero-Gómez et al. | Natural Language Processing Approach for Learning Process Analysis in a Bioinformatics Course | |
CN113656548B (zh) | 基于数据包络分析的文本分类模型解释方法及系统 | |
CN117668562B (zh) | 文本分类模型的训练和使用方法、装置、设备和介质 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |