CN116431793B

CN116431793B - 一种基于知识生成的视觉问答方法、装置及存储介质

Info

Publication number: CN116431793B
Application number: CN202310702075.3A
Authority: CN
Inventors: 杜卿; 杜雯靖; 谭明奎; 李利
Original assignee: Guangdong Guangwu Internet Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangdong Guangwu Internet Technology Co ltd; South China University of Technology SCUT
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-22
Anticipated expiration: 2043-06-14
Also published as: CN116431793A

Abstract

本发明公开了一种基于知识生成的视觉问答方法、装置及存储介质，属于视觉问答领域。其中方法包括以下步骤：基于问题引导的图像描述，将图片信息转化为问题相关的文本描述；构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识；将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得多模态表征；对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。本发明通过知识生成，只需少量的学习样本即可将预训练模型的积累的知识迁移到新的下游任务中，可广泛应用于开放场景下的知识视觉问答。

Description

一种基于知识生成的视觉问答方法、装置及存储介质

技术领域

本发明涉及视觉问答领域，尤其涉及一种基于知识生成的视觉问答方法、装置及存储介质。

背景技术

当前基于知识的视觉问答研究通常将问题文本和图像的物体标签作为检索关键词，在知识库中（如ConceptNet 和 Wikipedia）进行知识检索，并且将检索到的知识用于答案推理。由于现有的静态知识库通常是人工标注的，无法覆盖多样的关系类型，这也导致实体间关系类型比较局限。由于人工标注的静态知识库所构建的知识体系覆盖面较少，且其关系类型也较为局限，因此难以在开放场景下应用于知识视觉问答任务。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于知识生成的视觉问答方法、装置及存储介质。

本发明所采用的技术方案是：

一种基于知识生成的视觉问答方法，包括以下步骤：

基于问题引导的图像描述，将图片信息转化为问题相关的文本描述；

构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识；

将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得知识感知的多模态表征；

对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。

进一步地，所述基于问题引导的图像描述，将图片信息转化为问题相关的文本描述，包括：

计算场景图区域与问题文本的相关性，根据所述相关性提取Top-K个图像区域，输入到预设的图像描述生成模型，将场景图转化为文本描述，以便语言模型理解视觉内容。

进一步地，所述场景图区域与问题文本的相关性通过以下方式计算获得：

记场景图区域为视觉对象，计算问题文本与视觉对象的相似度分数：

（1）

（2）

其中，和/>是视觉问答模型的可学习参数，/>是问题文本特征，/>表示转置，/>是问题句子长度，/>是场景图特征，/>是视觉对象个数；是问题文本和视觉对象的相似度矩阵，/>表示问题文本中第/>个单词与第/>个视觉对象之间的相似度分数；

根据公式（2），得到第个视觉对象的在问题引导下的注意力得分，对注意力得分进行归一化处理，得到每个视觉对象和问题文本的相关性，计算方式如下：

其中，是温度系数，是超参数，/>是第/>个视觉对象和问题文本的相关性。

进一步地，所述构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识，包括：

构建提示模板；所述提示模板由任务指令和情境示例组成，每个情境示例由该情境示例对应的图像描述和问题文本以及标注的知识组成；

当为新问题生成知识时，向语言模型输入所述提示模板，并拼接上新问题及该新问题对应的图像描述，同时输入一个占位符，引导语言模型从占位符后生成符合样式的文本；

根据生成的文本获取多条候选知识。

进一步地，所述语言模型为GPT-3等超大规模预训练语言模型。

进一步地，所述提示模板包括任务提示头/>和/>个情境示例（/>），表达式如下：

设新问题为，假设生成的文本y由多个时间步的输入组成，即/>，因此，解码时间步/>的输出可表示为：

其中，表示语言模型。

进一步地，所述统一编码器为多层Transformer编码器；

所述将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得知识感知的多模态表征，包括：

将候选知识和问题文本进行拼接，获得文本序列：

其中，表示拼接操作，/>指示序列的开始，/>表示分割符号，/>表示问题文本，/>表示为生成的知识语句；

将文本序列输入统一编码器的词嵌入层，得到对应的文本特征/>；

根据图像获取图像特征，图像特征/>经过线性变换后投影到与文本特征相同的特征空间中，获得视觉特征/>；

将文本特征和视觉特征/>拼接，得到输入特征/>；

引入位置嵌入和模态嵌入/>，将输入特征/>位置嵌入/>和模态嵌入/>进行相加，得到词嵌入层输出特征/>；

多层Transformer编码器对词嵌入层输出特征处理，获得/>；/>表示第/>层Transformer的输出特征；

采取[CLS]位置的特征作为问题-知识-图像的全局联合表征，获得最终的多模态表征：

其中，为可学习参数，/>表示第/>层中[CLS]位置对应的特征；

对于条候选知识，分别将/>条候选知识和问题文本进行拼接，再与图像一起编码，得到/>个知识增强的多模态特征/>。

进一步地，所述对多条候选知的多模态表征识进行融合，获得知识增强特征，包括：

将每个多模态特征和图像的视觉知识特征/>进行拼接，并输入知识推理模块中，输出/>，具体表达式如下：

根据知识推理模块的输出，通过求平均的操作获得全局的知识增强特征：

其中，是第/>层的输出，/>表示拼接操作，/>表示多头注意力机制层，/>表示层标准化，/>表示前馈子层，/>表示求平均。

进一步地，所述根据知识增强特征进行答案预测，包括：

以全局的知识增强特征作为输入，构建多层感知器分类器来预测答案，具体表达式如下：

其中，是答案集合/>上的计算得分；Q是输入的问题，/>是输入的图像，/>是生成的候选知识，/>是预测答案。

进一步地，所述知识推理模块和多层感知器分类器组成推理模型；

采用以下方式对推理模型进行训练：

将问题、场景图/>与生成的候选知识/>记为正样本，即/>；随机抽取非该问题和场景图生成的知识作为负样本，即/>；

将正负样本分别输入到知识推理模块中进行答案预测的过程中，采用的损失函数如下：

采用负对数似然损失来学习多层感知器分类器：

最终推理模型学习的损失函数为：

其中，是标注的正确答案，/>是整个数据集，/>是数据集/>的期望，/>是/>损失函数的权重系数。

本发明所采用的另一技术方案是：

一种基于知识生成的视觉问答装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过知识生成，只需少量的学习样本即可将预训练模型的积累的知识迁移到新的下游任务中，可广泛应用于开放场景下的知识视觉问答。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于知识生成的视觉问答方法的步骤流程图；

图2是本发明实施例中一种基于知识生成的视觉问答方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

术语解释：

GPT-3：是一个大规模预训练语言模型，与传统知识库不同，GPT-3并不需要人工构建和整理，而是在领域广泛的文本数据集上进行无监督学习，从中抽取并捕捉到大量的隐式知识。这些隐式知识通过阅读网络的文本、书籍、文章、博客等进行获取。

现有的基于知识的视觉问答研究中，通常需要从外部知识库中检索相关知识进行知识推理。然而现有的静态知识库多为人工标注，所构建的知识体系覆盖面较少，且其关系类型也较为局限，因此难以在开放场景下应用于知识视觉问答任务。基于上述问题，本申请从如何获取高效且关系类型广泛的知识角度出发，提出一种基于隐式知识提取的视觉问答方法。

如图1所示，本实施例提供一种基于知识生成的视觉问答方法，包括以下步骤：

S1、基于问题引导的图像描述，将图片信息转化为问题相关的文本描述。

首先进行知识生成，将隐含于预训练语言模型的知识进行显式生成。采用问题引导的图像描述生成策略，将图片信息转化为问题相关的文本描述，让语言模型能够理解问题相关的场景内容。

S2、构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识。

S3、将候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得多模态表征。

S4、对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。

以下结合图2及具体实施例对上述方法进行详细解释说明。

1、问题引导的图像描述生成

大规模预训练语言模型仅能处理自然语言描述的输入。因此，要使用大规模预训练语言模型生成与视觉问题相关的知识，必须克服一个问题：如何更好地让语言模型理解问题相关的视觉内容。为了解决上述问题，本申请方法提出问题引导的图像描述生成策略。具体而言，本申请方法使用视觉问答模型计算问题文本与场景图视觉对象的注意力分数，然后基于注意力矩阵得到每个视觉对象在问题引导下的注意力得分。具体计算如下：

（1）

（2）

其中，和/>是视觉问答模型中可学习参数，/>问题文本特征，/>表示转置，/>是问题句子长度，/>场景图特征，/>是视觉对象个数。是问题和视觉对象的相似度矩阵，/>表示问题文本中第i个单词与第j个视觉对象之间的相似度分数。

通过公式（2），我们得到第j个视觉对象的在问题引导下的注意力得分，然后我们对得分进行归一化，得到每个视觉对象和问题的相关性。具体计算方式如下：

（3）

其中，是温度系数，是超参数，/>是第/>个视觉对象和问题的相关性。

最后，本申请方法将上述计算方式得到的Top-K个视觉对象输入到图像描述生成模型，生成问题相关的图像描述。

2、基于情境学习的知识生成

（1）情境学习

以往的研究通常采用预训练-微调学习框架，旨在将预训练模型中学到的知识迁移到下游任务中。该框架首先在大规模的通用数据集上对模型进行预训练，然后在目标任务中微调模型。在微调阶段，通常会冻结底层的预训练参数，只训练高层参数以更新与目标任务相关的部分。然而，为了达到理想的微调效果，通常需要使用大量已标注的目标任务样本，这使得模型在少样本场景下表现不佳。随着GPT-3等超大规模预训练模型的成功应用，情境学习的方式逐渐兴起。这是一种不同于微调的方法，只需少量的学习样本即可将预训练模型的积累的知识迁移到新的下游任务中，无需进行模型训练和参数调整。

具体而言，情境学习可以看作一个条件文本序列生成任务，目标可以直接基于给定的提示模板/>以及新任务的输入/>进行预测。假设目标y是由多个时间步的输入组成，即。因此，解码时间步/>的输出可表示为

（4）

其中，是提示模板，/>为任务输入。/>表示预训练语言模型。

在情景学习中，对于所有下游任务而言，预训练语言模型权重均为冻结状态，即模型参数无需针对特定任务进行调整。提示模板由一个可选的任务提示头/>和/>个情境示例（/>）组成，即提示模板/>。

（2）知识模板构建

为了生成具体的支撑知识以辅助模型进行推理回答，构建合适的提示模板C对于引导大规模预训练语言模型学习生成符合样式的知识来说至关重要。为此，本申请方法构建了知识提示模板，以引导大规模预训练语言模型生成一个短文本序列，揭示视觉问题和答案之间的概念关系。这些生成的短文本序列被称为知识(Knowledge Statements)，后续将被输入到推理模型中，辅助模型的推理过程。

本申请方法通过使用少量训练样本构成情境示例，以构建知识提示模版以提示GPT-3生成相关的知识。提示模板是由一条任务指令和少量的情境示例组成。其中每个情境示例会由它对应的图像描述和问题文本以及人工标注的知识组成。当为新问题生成知识时，向模型输入提示模板/>并拼接上新问题及其对应的图像描述，同时输入一个占位符，引导模型从占位符后生成符合样式的文本。具体而言，本方法的操作步骤如下：首先给定一个问题和对应的图像，通过问题引导图像描述模块生成图像描述Context。然后将视觉问答问题Question和一个占位符Knowledge:{}与图像描述拼接起来，形成一个文本序列，例如“Context: People are standing in a parking lot with some umbrellas as itsnows. Question: What is the warmest temperature at which this weather canhappen? Knowledge:{}”。最后，将上述内容与提示模板拼接后输入到大规模预训练语言模型，引导模型从占位符后生成问题相关的知识。

为了产生更加丰富多样的知识，本方法采用Top-K解码方式生成多条知识语句，构成候选知识集合。模型每当生成停止符或生成长度超过设置的最大文本长度，即停止生成。

3、统一编码器

由于语言模型无法直接处理视觉特征，这会导致部分视觉信息丢失。为了缓解这一问题，本文采用了联合编码策略，将GPT-3生成的知识、视觉信息以及问题进行联合编码，实现跨模态推理，以弥补知识生成阶段导致的视觉信息丢失的问题。实际上，除了外部知识的引入，捕捉视觉信息以及跨模态关系对于视觉推理任务也起到重要的作用。为了更好地利用生成的外部知识以及场景图中的视觉线索，并且能够跨模态地利用问题与视觉信息之间的关系进行视觉推理，本文采用了统一编码器对视觉内容、问题文本和外部知识进行联合编码。这种早期融合的方法整合了视觉信息、问题和外部知识，以生成具有知识感知的问题-图像联合表征。

本申请方法采用多层Transformer的编码器作为统一编码器，首先将描述统一编码器的输入预处理。统一编码器包括了三种类型的输入，分别是问题文本序列，图像以及知识语句。具体来说，对于每条知识语句，本方法会将它与问题文本序列进行拼接，在问题序列前添加两个特殊字符，分别是和/>。以/>表示输入的文本序列，知识序列会拼接在问题文本序列后，表示为：

（5）

其中，表示拼接操作，/>指示序列的开始，/>表示分割符号，/>表示问题序列，/>表示为前文生成的知识语句。

然后，将文本序列输入统一编码器的词嵌入层，得到对应的文本特征。其中，/>表示为输入文本序列的单词个数，/>表示为特征维度。同时，对于图像特征/>经过线性变换后投影到与文本特征相同的特征空间中,记为/>。其中，/>表示为像素块个数或者视觉对象个数，/>为特征维度。上述过程可形式化为：

（6）

其中，为线性变换的可学习参数。

接着，将文本特征和视觉特征拼接得到输入特征。

（7）

其中，表示拼接操作。

在序列中，位置特征常常起到重要作用。因此，本方法引入位置嵌入来学习输入的位置特性。此外，还有模态嵌入/>，以指示当前输入是文本模态还是视觉模态。最后，将三者特征进行相加，得到词嵌入层输出特征，即形式化为：

（8）

然后，本方法基于Transformer编码器建模输入特征之间的上下文关系。具体而言，编码器由层Transformer组成，每层包含一个多头自注意力层(MSA)和一个前馈网络层(FFN)。此外，每个子层之间包含了层标准化(LN)和残差连接以缓解梯度消失问题，具体的操作如下：

（9）

（10）

（11）

其中，表示第/>层Transformer的输出特征。

最后，本方法取[CLS]位置的特征作为问题-知识-图像的全局联合表征，以进一步执行知识感知的推理。具体操作如下：

（12）

其中，为可学习参数，/>表示第/>层中[CLS]位置对应的特征，输出特征/>为知识增强的视觉语言联合表征。

前文所述的知识生成模块会对每个问题生成条候选的知识语句。然而，由于编码器的最大文本长度限制，我们不能将/>条候选的知识语句同时输入到编码器。为了解决上述问题，本方法会分别将这/>条候选知识和问题进行拼接，并与图像一起编码，最终得到了/>个知识增强的多模态特征/>。

4、知识感知推理模块

统一知识编码器只是将每条生成的知识和问题文本与图像线索独立进行编码，忽略了候选知识之间的上下文关系。实际上，生成的候选知识之间存在关联以及有着不同的推理线索，单独使用一条候选知识进行决策并不足够。为了建模候选知识之间的联系，本方法进一步采用基于Transformer的推理模块来整合多个知识增强的多模态特征。除此之外，实际应用场景中，并非所有问题都需要依赖外部知识才能得出答案。有些问题的答案可以直接从场景图中获得。为了让模型在实际场景中学会何时利用外部知识或者直接利用场景图信息进行推理，方法采用基于Transformer的知识推理模块自适应聚合推理线索，以进一步提高模型在开放场景下的推理能力。

首先，再次使用统一知识编码器，对图像和问题进行编码，但不引入知识语句，以迫使模型注意视觉内容线索，获得视觉知识表征。为了整合多条候选知识以及视觉知识，本文将每个知识增强的多模态特征/>和视觉知识特征/>进行拼接，然后输入知识推理模块中自适应捕捉知识之间的推理线索。具体过程如下：

（13）

（14）

（15）

（16）

最终，根据知识推理模块的输出，通过取平均的操作获得全局的知识增强特征：

（17）

其中，是第/>层的输出，即最后一层的输出，本文设置/>。/>融合了外部知识和视觉线索，用于答案预测。

5、答案预测

答案预测模块使用上述的全局的知识增强特征作为输入，构建多层感知器(MLP)分类器来预测答案，该过程可形式化为：

（18）

（19）

其中，是答案集合/>上的计算得分;Q是输入的问题，/>是输入的图像，/>是生成的候选知识集合。

6、知识感知的辅助学习任务

为了让推理模型更关注于知识模态的信息，本方法提出一种辅助任务，最大化正确知识预测和错误知识的预测结果差异。具体而言，我们将问题和场景图/>与生成的知识记为正样本，即/>。随机从batch中抽取非该问题和场景图生成的知识作为负样本，即/>，然后正负样本分别输入到推理模型中进行答案预测。我们希望推理模型在输入匹配知识的情况下，标注答案的预测置信度高，当输入不匹配的知识时，标注答案的预测置信度尽可能低，使得正负样本预测结果的置信度差异尽可能大。上述过程可形式化为：

（20）

通过使用log函数转化，我们将上述的最大化问题转化为最小化问题，我们记上述的损失函数为，具体可表示为：

（21）

总的学习目标：

答案预测采用负对数似然损失来学习分类器：

（22）

其中，是标注的正确答案，/>是整个数据集。

因此，最终模型学习的损失函数为：

（23）

本实施例还提供一种基于知识生成的视觉问答装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如图1所示方法。

本实施例的一种基于知识生成的视觉问答装置，可执行本发明方法实施例所提供的一种基于知识生成的视觉问答方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于知识生成的视觉问答方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于知识生成的视觉问答方法，其特征在于，包括以下步骤：

将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得多模态表征；

对多条候选知识的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测；

所述构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识，包括：

根据生成的文本获取多条候选知识；

所述提示模板包括任务提示头/>和n个情境示例/>表达式如下：

设新问题为，假设生成的文本/>由多个时间步的输入组成，即/>，因此，解码时间步t的输出可表示为：

其中，表示语言模型；

所述对多条候选知识的多模态表征识进行融合，获得知识增强特征，包括：将每个多模态特征和图像的视觉知识特征/>进行拼接，并输入知识推理模块中，输出/>，具体表达式如下：

其中，是第l层的输出，/>表示拼接操作，/>表示多头注意力机制层，/>表示层标准化，/>表示前馈子层，/>表示求平均。

2.根据权利要求1所述的一种基于知识生成的视觉问答方法，其特征在于，所述基于问题引导的图像描述，将图片信息转化为问题相关的文本描述，包括：

3.根据权利要求2所述的一种基于知识生成的视觉问答方法，其特征在于，所述场景图区域与问题文本的相关性通过以下方式计算获得：

其中，和/>是视觉问答模型的可学习参数，/>是问题文本特征，/>表示转置，是问题句子长度，/>是场景图特征；/>是问题文本和视觉对象的相似度矩阵，/>表示问题文本中第/>个单词与第/>个视觉对象之间的相似度分数；根据公式(2)，得到第j个视觉对象的在问题引导下的注意力得分，对注意力得分进行归一化处理，得到每个视觉对象和问题文本的相关性，计算方式如下：

其中，是温度系数，/>是第/>个视觉对象和问题文本的相关性。

4.根据权利要求1所述的一种基于知识生成的视觉问答方法，其特征在于，所述统一编码器为多层Transformer编码器；

将候选知识和问题文本进行拼接，获得文本序列T：

将文本序列T输入统一编码器的词嵌入层，得到对应的文本特征；

将文本特征和视觉特征/>拼接，得到输入特征/>；

多层Transformer编码器对词嵌入层输出特征处理，获得/>；/>表示第l层Transformer的输出特征；

其中，为可学习参数，/>表示第l层中[CLS]位置对应的特征；

对于条候选知识，分别将/>条候选知识和问题文本进行拼接，再与图像一起编码，得到M个知识增强的多模态特征/>。

5.根据权利要求1所述的一种基于知识生成的视觉问答方法，其特征在于，所述根据知识增强特征进行答案预测，包括：

其中，是答案集合/>上的计算得分；/>是输入的问题，/>是输入的图像，/>是生成的候选知识，/>是预测的答案。

6.根据权利要求5所述的一种基于知识生成的视觉问答方法，其特征在于，所述知识推理模块和多层感知器分类器组成推理模型；

采用以下方式对推理模型进行训练：

将问题、输入的图像/>与生成的候选知识/>记为正样本，即/>；随机抽取非该问题和场景图生成的知识作为负样本，即/>；

采用负对数似然损失来学习多层感知器分类器：

最终推理模型学习的损失函数为：

其中，是标注的正确答案，/>是整个数据集，/>是数据集/>上的期望，λ是权重系数。

7.一种基于知识生成的视觉问答装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-6任一项所述方法。