CN116542995A

CN116542995A - 一种基于区域表示和视觉表示的视觉问答方法及系统

Info

Publication number: CN116542995A
Application number: CN202310768905.2A
Authority: CN
Inventors: 徐昊; 高玲; 盛楠; 石立达; 张洪达
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-08-04
Anticipated expiration: 2043-06-28
Also published as: CN116542995B

Abstract

本申请公开了一种基于区域表示和视觉表示的视觉问答方法及系统，其中方法步骤包括：基于Faster R‑CNN模型学得的图像区域特征，为每张待问答图像构建图像区域特征图；基于图像区域特征图，生成邻居增强的区域表示；基于GRU模型学得的问题特征对邻居增强的区域表示进行指导，得到最终的视觉特征；基于区域表示、视觉特征和问题特征，得到预测答案，完成视觉问答。本申请为每张图像构建区域特征图，以表示该图像中所有区域之间的关联和特征。同时，基于带重启的随机行走方法，在区域特征图中学习邻域增强区域表示。此外，还提出一个问题指导的纵横双重注意力机制。机制以问题特征表示作为指导，从区域层面和特征层面增强区域表示。

Description

一种基于区域表示和视觉表示的视觉问答方法及系统

技术领域

本申请涉及视觉问答领域，具体涉及一种基于区域表示和视觉表示的视觉问答方法及系统。

背景技术

视觉问答是一个跨越多种学科的研究任务，其需要同时且深刻地学习图像的视觉信息、问题的文本特征、和外部补充知识的表示，以进行答案的推理。目前视觉问答领域的工作主要关注3个方面：图像中视觉特征和问题中自然语言特征的提取、学习问题和图像之间的关系以发现最值得关注的图像区域、致力于更好地融合视觉特征和自然语言特征。然而，视觉问答任务中存在一些需要关注图像的多个区域才能作答的问题。这些区域在图中的位置有很近的，也有相距很远的。

总而言之，视觉问答任务不仅需要关注图像中的某个区域，还得能够整合多个距离近或者远的区域，以作答。如何实现图像中多个区域之间的信息增强，以及如何通过问题信息指导对图中各个区域的关注，是至关重要的。

发明内容

为解决上述背景中的技术问题，本申请提出了一个新颖的视觉问答方法，来学习图像中由远距离邻居增强的区域特征表示。然后问题引导视觉表示，最后预测答案。

为实现上述目的，本申请提供了一种基于区域表示和视觉表示的视觉问答方法，步骤包括：

基于Faster R-CNN模型学得的图像区域特征，为每张待问答图像构建图像区域特征图；

基于所述图像区域特征图，生成邻居增强的区域表示；

基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导，得到最终的视觉特征；

基于所述区域表示、所述视觉特征和所述问题特征，得到预测答案，完成视觉问答。

优选的，将待问答图像的每个区域作为所述图像区域特征图中的节点，并将每个所述待问答图像的区域特征作为节点属性；所述图像区域特征图由加权边组成；其中，图像区域之间关联的计算过程包括：

其中，v _m和v _n分别表示区域m和区域n的低维特征；的值越大，表示第m个和第n个区域节点之间的关联性越强。

优选的，生成所述邻居增强的区域表示的方法包括：在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合，生成所述邻居增强的区域表示；采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示：对于的关联矩阵/>被行归一化为概率转移矩阵/>，所述带重启的随机游走机制包括：

其中，表示/>的转置矩阵；/>和/>分别表示t和t+1时刻步行者到达各个节点的概率；/>表示一个对角矩阵；所述随机游走机制结束后，迭代过程停止；收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系，所述最终结果向量即为所述邻居增强区域表示。

优选的，得到所述视觉特征的方法包括：利用问题引导的纵横双注意力机制，增强与问题相关的区域表征，并在区域和表征层面保留关键特征，得到所述视觉特征。

本申请还提供了一种基于区域表示和视觉表示的视觉问答系统，包括：构建模块、生成模块、增强模块和预测模块；

所述构建模块用于基于Faster R-CNN模型学得的图像区域特征，为每张待问答图像构建图像区域特征图；

所述生成模块用于基于所述图像区域特征图，生成邻居增强的区域表示；

所述增强模块用于基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导，得到最终的视觉特征；

所述预测模块用于基于所述区域表示、所述视觉特征和所述问题特征，得到预测答案，完成视觉问答。

优选的，所述构建模块的工作流程包括：将待问答图像的每个区域作为所述图像区域特征图中的节点，并将每个所述待问答图像的区域特征作为节点属性；所述图像区域特征图由加权边组成；其中，图像区域之间关联的计算过程包括：

优选的，所述生成模块的工作流程包括：在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合，生成所述邻居增强的区域表示；采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示：对于的关联矩阵/>被行归一化为概率转移矩阵/>，所述带重启的随机游走机制包括：

优选的，所述增强模块的工作流程包括：利用问题引导的纵横双注意力机制，增强与问题相关的区域表征，并在区域和表征层面保留关键特征，得到所述视觉特征。

与现有技术相比，本申请的有益效果如下：

本申请为每张图像构建区域特征图，以表示该图像中所有区域之间的关联和特征。同时，基于带重启的随机行走方法，在区域特征图中学习邻域增强区域表示。此外，还提出一个问题指导的纵横双注意力机制。机制以问题特征表示作为指导，从区域层面和特征层面增强区域表示。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的方法流程示意图；

图2为本申请实施例的系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

如图1所示，为本实施例的方法流程示意图，步骤包括：

S1.基于Faster R-CNN模型学得的图像区域特征，为每张待问答图像构建图像区域特征图。

预训练模型Faster R-CNN网络为每个图像输入预测前k个候选区域。在该任务中，k=36。对于第m个区域，向量表示Faster R-CNN学习到的该区域的低维特征。最终，第i张图像的所有区域特征被表示为/>:

为了方便捕获区域之间的距离关系进行答案推理建模，图像区域特征图被构建。将图像的每个区域作为图像区域特征图中的节点，并将每个区域低维表示作为节点属性。图像区域特征图由加权边组成，以嵌入区域之间的相关性。具体步骤包括：

为图像I _i构建的图像区域特征图被记为。其中/>表示I _i的区域特征图中所有节点的集合。每个节点是图像中的各个区域。/>是区域特征图中所有区域节点的特征表示。/>包含I _i的36个区域的特征，/>是第一个节点的。关联矩阵/>包含所有节点之间的关联，/>的每一行和每一列都分别代表各个区域。

特征分布更相似的两个区域通常具用更高的关联性。因此，是根据区域节点的低维特征计算得到的。所有区域之间的余弦相似度被视为/>。此处以/>为例。/>表示区域m和区域n之间的关联，其计算过程如下：

其中v _m和v _n分别表示区域m和区域n的低维特征。的值越大，表示第m个和第n个区域节点之间的关联性越强。

S2.基于图像区域特征图，生成邻居增强的区域表示。

利用随机行走算法在图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合，以生成邻居增强的区域表示。具体步骤包括：

在随机游走机制中，步行者从图中的一个节点开始，在图中随机行走t次。节点对的关联值越大，步行者越有可能向该节点移动。此外，在带重启的随机游走机制中，每次t时刻的行走者既可以选择步行到邻居节点，也可以选择返回到t=0的起始节点重新开始。本实施例采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强区域表示。

对于的关联矩阵/>被行归一化为概率转移矩阵。上述带重启的随机游走机制包括：

其中，表示/>的转置矩阵；/>和/>分别表示t和t+1时刻步行者到达各个节点的概率；/>表示一个对角矩阵。随机游走机制结束后，迭代过程停止；收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系，最终结果向量即为邻居增强区域表示。

步行者从选定的节点开始。本实施例假设步行者在t=0时刻的起始节点是图像区域特征图中第m个节点。则和/>分别表示在t和t+1时刻步行者从第m个节点到达其他节点的概率。向量/>的第m个元素被设置为1，其余元素被设置为0。/>表示步行者在任意时刻返回起始节点的概率。

当p ^t和p ^t+1之间的L2正则化小于等于10^-6时，游走过程开始收敛，迭代过程停止。在收敛时，步行者到达某一节点的概率越大，说明起始节点与当前节点有较强的关联。收敛后的最终结果涵盖了起始节点与随机游走后所有节点之间的关联关系。/>被记为。图像区域特征图被更新为/>，其然后被用于获得邻居增强的区域表示/>。

S3.基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导，得到最终的视觉特征。

GRU模型学得问题特征的步骤包括：

对于第j个问题Q _j，首先应用one-hot编码来表示Q _j的第m个单词。则Q _j被表示为，其中q _m是每个单词的表示，L _q是Q _j中的单词总数。由于q _m过于稀疏，本实施例使用权重矩阵/>来获得密集的嵌入/>：

为了学习Q _j的语义信息，采用门控循环单元（GRU）。将Q _j的第m个单词的降维嵌入表示(即)作为GRU的输入。GRU的更新门u_m、重置门r_m、输出o_m如下:

其中W _u1，W _u2，W _r1，W _r2，W _o1，W _o2，b_u，b_r和b_o是可学习的参数。为sigmoid激活函数，/>表示Hadamard乘积。GRU经过L _q步后的最终输出/>作为问题Q _j的语义信息。

面对问题特征表示，问题引导的纵横双注意力机制增强了与问题相关的区域表征，并在区域和表征层面保留了其关键特征。具体步骤包括：

以问题作为指导，提出了纵横双注意力机制。I _i中不同区域对问题回答任务的贡献通常是不同的。因此，纵横双注意力机制的第一部分衡量了每个区域对最终任务的重要性。

首先F ^Q和分别作为全连接神经网络的输入，

其中，和/>表示问题引导的区域层面注意力机制中学习图像特征的权重矩阵和偏置向量；/>和/>表示学习问题特征的权重矩阵和偏置向量；/>表示relu激活函数；/>表示/>的第m行，其包含了第m个区域的所有特征；F ^Q表示问题的低维特征；/>的维度被扩展为/>，扩展后的结果被记为/>。/>和/>被整合，然后被喂入全连接神经网络中：

其中，和/>为权重矩阵和偏置向量；/>表示两个矩阵中相应元素相乘；通过softmax归一化方法，/>被列归一化为问题引导的区域层面注意力得分/>。/>和/>分别表示/>和/>的第i行第j列元素。最终，区域层面注意力增强的区域表示被记为/>：

考虑到区域节点的不同类型的特征对答案的贡献不同。纵横双注意力机制的第二个部分是问题引导的特征层面的注意力机制，其自适应地融合一个区域的所有特征。的第n列被记为/>，其与F ^Q一起被喂入全连接神经网络：

其中，和/>分别表示问题指导的特征层面注意力机制中问题表示和图像表示挖掘的权重矩阵；/>和/>是偏置向量。/>包含了所有区域的第n种特征。/>在维度上展开并表示为/>。/>和/>相应的元素相乘并将结果作为全连接神经网络的输入：

其中，表示权重矩阵，/>表示偏置向量。/>通过softmax函数被归一化为/>；表示/>的第i行第j列元素，/>表示/>的第i行第j列元素。通过学得的/>，特征层面注意力增强的区域表示被标记为/>：

。

S4.基于区域表示、视觉特征和问题特征，得到预测答案，完成视觉问答。

分类器根据问题特征和邻居增强及问题指导的视觉特征，预测答案。根据损失、学习率、epoch和优化器，模型被优化。具体步骤包括：

区域层面注意力增强的区域表示和特征层面注意力增强的区域表示/>，被拉平为/>和/>，并被连接为/>。/>包含了经过邻居增强和问题指导的I _i的视觉表示。它和编码后的问题特征表示/>分别通过全连接神经网络：

其中，和/>进行元素乘法运算，然后喂入到一个两层的全连接神经网络中：

、/>、/>和/>分别表示答案预测过程的权重矩阵；/>、/>、/>和/>分别表示偏置向量；/>表示sigmoid激活函数；然后使用交叉熵损失函数来测量p与真实标签a之间的损失：

其中，n _i和n _c分别表示样本数量和类别数量。的取值分别为0或1，代表第i个样本的标签。第i个样本属于类的预测得分为/>。Adamax算法根据对模型进行优化。

实施例二

如图2所示，为本申请实施例的系统结构示意图，包括：构建模块、生成模块、增强模块和预测模块；其中，构建模块用于基于现有的预训练模型学得的图像区域特征，为每张待问答图像构建图像区域特征图；生成模块用于基于图像区域特征图，生成邻居增强的区域表示；增强模块用于基于现有的预训练模型学得的问题特征对邻居增强的区域表示进行指导，得到最终的视觉特征；预测模块用于基于区域表示、视觉特征和问题特征，得到预测答案，完成视觉问答。

下面将结合本实施例，详细说明本申请如何解决实际生活中的技术问题。

首先，利用构建模块基于Faster R-CNN模型学得的图像区域特征，为每张待问答图像构建图像区域特征图。

为了方便捕获区域之间的距离关系进行答案推理建模，图像区域特征图被构建。将图像的每个区域作为图像区域特征图中的节点，并将每个区域低维表示作为节点属性。图像区域特征图由加权边组成，以嵌入区域之间的相关性。具体流程包括：

生成模块基于图像区域特征图，生成邻居增强的区域表示。

利用随机行走算法在图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合，以生成邻居增强的区域表示。具体流程包括：

当p ^t和p ^t+1之间的L2正则化小于等于10^-6时，游走过程开始收敛，迭代过程停止。在收敛时，步行者到达某一节点的概率越大，说明起始节点与当前节点有较强的关联。收敛后的最终结果涵盖了起始节点与随机游走后所有节点之间的关联关系。/>被记为/>。图像区域特征图被更新为/>，其然后被用于获得邻居增强的区域表示/>。

增强模块基于GRU模型学得的问题特征对邻居增强的区域表示进行指导，得到最终的视觉特征。

GRU模型学得问题特征的流程包括：

对于第j个问题Q _j，首先应用one-hot编码来表示Q _j的第m个单词。则Q _j被表示为，其中q _m是每个单词的表示，L _q是Q _j中的单词总数。由于q _m过于稀疏，本实施例使用权重矩阵/>来获得密集的嵌入表示/>：

面对问题特征表示，问题引导的纵横双注意力机制增强了与问题相关的区域表征，并在区域和表征层面保留了其关键特征。具体流程包括：

首先F ^Q和分别作为全连接神经网络的输入，

其中，和/>分别表示问题指导的特征层面注意力机制中问题表示和图像表示挖掘的权重矩阵；/>和/>是偏置向量。/>包含了所有区域的第n种特征。/>在维度上展开并表示为/>。/>和/>相应的元素相乘并将结果作为全连接神经网络的输入：/>

。

最后，预测模块基于区域表示、视觉特征和问题特征，得到预测答案，完成视觉问答。

分类器根据问题特征和邻居增强及问题指导的视觉特征，预测答案。根据损失、学习率、epoch和优化器，模型被优化。具体流程包括：

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于区域表示和视觉表示的视觉问答方法，其特征在于，步骤包括：

基于所述图像区域特征图，生成邻居增强的区域表示；

2.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法，其特征在于，将待问答图像的每个区域作为所述图像区域特征图中的节点，并将每个所述待问答图像的区域特征作为节点属性；所述图像区域特征图由加权边组成；其中，图像区域之间关联的计算过程包括：

其中，v _m和v _n分别表示区域m和区域n的低维特征；/>的值越大，表示第m个和第n个区域节点之间的关联性越强。

3.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法，其特征在于，生成所述邻居增强的区域表示的方法包括：在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合，生成所述邻居增强的区域表示；采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示：对于的关联矩阵/>被行归一化为概率转移矩阵/>，所述带重启的随机游走机制包括：

其中，/>表示/>的转置矩阵；/>和/>分别表示t和t+1时刻步行者到达各个节点的概率；/>表示一个对角矩阵；所述随机游走机制结束后，迭代过程停止；收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系，所述最终结果向量即为所述邻居增强区域表示。

4.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法，其特征在于，得到所述视觉特征的方法包括：利用问题引导的纵横双注意力机制，增强与问题相关的区域表征，并在区域和表征层面保留关键特征，得到所述视觉特征。

5.一种基于区域表示和视觉表示的视觉问答系统，其特征在于，包括：构建模块、生成模块、增强模块和预测模块；

6.根据权利要求5所述的基于区域表示和视觉表示的视觉问答系统，其特征在于，所述构建模块的工作流程包括：将待问答图像的每个区域作为所述图像区域特征图中的节点，并将每个所述待问答图像的区域特征作为节点属性；所述图像区域特征图由加权边组成；其中，图像区域之间关联的计算过程包括：

7.根据权利要求5所述的基于区域表示和视觉表示的视觉问答系统，其特征在于，所述生成模块的工作流程包括：在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合，生成所述邻居增强的区域表示；采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示：对于的关联矩阵/>被行归一化为概率转移矩阵/>，所述带重启的随机游走机制包括：

8.根据权利要求5所述的基于区域表示和视觉表示的视觉问答系统，其特征在于，所述增强模块的工作流程包括：利用问题引导的纵横双注意力机制，增强与问题相关的区域表征，并在区域和表征层面保留关键特征，得到所述视觉特征。