CN116542995B - 一种基于区域表示和视觉表示的视觉问答方法及系统 - Google Patents

一种基于区域表示和视觉表示的视觉问答方法及系统 Download PDF

Info

Publication number
CN116542995B
CN116542995B CN202310768905.2A CN202310768905A CN116542995B CN 116542995 B CN116542995 B CN 116542995B CN 202310768905 A CN202310768905 A CN 202310768905A CN 116542995 B CN116542995 B CN 116542995B
Authority
CN
China
Prior art keywords
region
representation
image
visual
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310768905.2A
Other languages
English (en)
Other versions
CN116542995A (zh
Inventor
徐昊
高玲
盛楠
石立达
张洪达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310768905.2A priority Critical patent/CN116542995B/zh
Publication of CN116542995A publication Critical patent/CN116542995A/zh
Application granted granted Critical
Publication of CN116542995B publication Critical patent/CN116542995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于区域表示和视觉表示的视觉问答方法及系统,其中方法步骤包括:基于Faster R‑CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;基于图像区域特征图,生成邻居增强的区域表示;基于GRU模型学得的问题特征对邻居增强的区域表示进行指导,得到最终的视觉特征;基于区域表示、视觉特征和问题特征,得到预测答案,完成视觉问答。本申请为每张图像构建区域特征图,以表示该图像中所有区域之间的关联和特征。同时,基于带重启的随机行走方法,在区域特征图中学习邻域增强区域表示。此外,还提出一个问题指导的纵横双重注意力机制。机制以问题特征表示作为指导,从区域层面和特征层面增强区域表示。

Description

一种基于区域表示和视觉表示的视觉问答方法及系统
技术领域
本申请涉及视觉问答领域,具体涉及一种基于区域表示和视觉表示的视觉问答方法及系统。
背景技术
视觉问答是一个跨越多种学科的研究任务,其需要同时且深刻地学习图像的视觉信息、问题的文本特征、和外部补充知识的表示,以进行答案的推理。目前视觉问答领域的工作主要关注3个方面:图像中视觉特征和问题中自然语言特征的提取、学习问题和图像之间的关系以发现最值得关注的图像区域、致力于更好地融合视觉特征和自然语言特征。然而,视觉问答任务中存在一些需要关注图像的多个区域才能作答的问题。这些区域在图中的位置有很近的,也有相距很远的。
总而言之,视觉问答任务不仅需要关注图像中的某个区域,还得能够整合多个距离近或者远的区域,以作答。如何实现图像中多个区域之间的信息增强,以及如何通过问题信息指导对图中各个区域的关注,是至关重要的。
发明内容
为解决上述背景中的技术问题,本申请提出了一个新颖的视觉问答方法,来学习图像中由远距离邻居增强的区域特征表示。然后问题引导视觉表示,最后预测答案。
为实现上述目的,本申请提供了一种基于区域表示和视觉表示的视觉问答方法,步骤包括:
基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;
基于所述图像区域特征图,生成邻居增强的区域表示;
基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导,得到最终的视觉特征;
基于所述区域表示、所述视觉特征和所述问题特征,得到预测答案,完成视觉问答。
优选的,将待问答图像的每个区域作为所述图像区域特征图中的节点,并将每个所述待问答图像的区域特征作为节点属性;所述图像区域特征图由加权边组成;其中,图像区域之间关联的计算过程包括:
其中,v m v n 分别表示区域m和区域n的低维特征;的值越大,表示第m个和第n个区域节点之间的关联性越强。
优选的,生成所述邻居增强的区域表示的方法包括:在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,生成所述邻居增强的区域表示;采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示:对于的关联矩阵/>被行归一化为概率转移矩阵/>,所述带重启的随机游走机制包括:
其中,表示/>的转置矩阵;/>和/>分别表示tt+1时刻步行者到达各个节点的概率;/>表示一个对角矩阵;所述随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,所述最终结果向量即为所述邻居增强区域表示。
优选的,得到所述视觉特征的方法包括:利用问题引导的纵横双注意力机制,增强与问题相关的区域表征,并在区域和表征层面保留关键特征,得到所述视觉特征。
本申请还提供了一种基于区域表示和视觉表示的视觉问答系统,包括:构建模块、生成模块、增强模块和预测模块;
所述构建模块用于基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;
所述生成模块用于基于所述图像区域特征图,生成邻居增强的区域表示;
所述增强模块用于基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导,得到最终的视觉特征;
所述预测模块用于基于所述区域表示、所述视觉特征和所述问题特征,得到预测答案,完成视觉问答。
优选的,所述构建模块的工作流程包括:将待问答图像的每个区域作为所述图像区域特征图中的节点,并将每个所述待问答图像的区域特征作为节点属性;所述图像区域特征图由加权边组成;其中,图像区域之间关联的计算过程包括:
其中,v m v n 分别表示区域m和区域n的低维特征;的值越大,表示第m个和第n个区域节点之间的关联性越强。
优选的,所述生成模块的工作流程包括:在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,生成所述邻居增强的区域表示;采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示:对于的关联矩阵/>被行归一化为概率转移矩阵/>,所述带重启的随机游走机制包括:
其中,表示/>的转置矩阵;/>和/>分别表示tt+1时刻步行者到达各个节点的概率;/>表示一个对角矩阵;所述随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,所述最终结果向量即为所述邻居增强区域表示。
优选的,所述增强模块的工作流程包括:利用问题引导的纵横双注意力机制,增强与问题相关的区域表征,并在区域和表征层面保留关键特征,得到所述视觉特征。
与现有技术相比,本申请的有益效果如下:
本申请为每张图像构建区域特征图,以表示该图像中所有区域之间的关联和特征。同时,基于带重启的随机行走方法,在区域特征图中学习邻域增强区域表示。此外,还提出一个问题指导的纵横双注意力机制。机制以问题特征表示作为指导,从区域层面和特征层面增强区域表示。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请实施例的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
如图1所示,为本实施例的方法流程示意图,步骤包括:
S1.基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图。
预训练模型Faster R-CNN网络为每个图像输入预测前k个候选区域。在该任务中,k=36。对于第m个区域,向量表示Faster R-CNN学习到的该区域的低维特征。最终,第i张图像的所有区域特征被表示为/>:
为了方便捕获区域之间的距离关系进行答案推理建模,图像区域特征图被构建。将图像的每个区域作为图像区域特征图中的节点,并将每个区域低维表示作为节点属性。图像区域特征图由加权边组成,以嵌入区域之间的相关性。具体步骤包括:
为图像I i 构建的图像区域特征图被记为。其中表示I i 的区域特征图中所有节点的集合。每个节点是图像中的各个区域。/>是区域特征图中所有区域节点的特征表示。/>包含I i 的36个区域的特征,是第一个节点的。关联矩阵/>包含所有节点之间的关联,/>的每一行和每一列都分别代表各个区域。
特征分布更相似的两个区域通常具用更高的关联性。因此,是根据区域节点的低维特征计算得到的。所有区域之间的余弦相似度被视为/>。此处以/>为例。/>表示区域m和区域n之间的关联,其计算过程如下:
其中v m v n 分别表示区域m和区域n的低维特征。的值越大,表示第m个和第n个区域节点之间的关联性越强。
S2.基于图像区域特征图,生成邻居增强的区域表示。
利用随机行走算法在图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,以生成邻居增强的区域表示。具体步骤包括:
在随机游走机制中,步行者从图中的一个节点开始,在图中随机行走t次。节点对的关联值越大,步行者越有可能向该节点移动。此外,在带重启的随机游走机制中,每次t时刻的行走者既可以选择步行到邻居节点,也可以选择返回到t=0的起始节点重新开始。本实施例采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强区域表示。
对于的关联矩阵/>被行归一化为概率转移矩阵。上述带重启的随机游走机制包括:
其中,表示/>的转置矩阵;/>和/>分别表示tt+1时刻步行者到达各个节点的概率;/>表示一个对角矩阵。随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,最终结果向量即为邻居增强区域表示。
步行者从选定的节点开始。本实施例假设步行者在t=0时刻的起始节点是图像区域特征图中第m个节点。则和/>分别表示在tt+1时刻步行者从第m个节点到达其他节点的概率。向量/>的第m个元素被设置为1,其余元素被设置为0。/>表示步行者在任意时刻返回起始节点的概率。
p t p t+1之间的L2正则化小于等于10-6时,游走过程开始收敛,迭代过程停止。在收敛时,步行者到达某一节点的概率越大,说明起始节点与当前节点有较强的关联。收敛后的最终结果涵盖了起始节点与随机游走后所有节点之间的关联关系。/>被记为。图像区域特征图被更新为/>,其然后被用于获得邻居增强的区域表示/>
S3.基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导,得到最终的视觉特征。
GRU模型学得问题特征的步骤包括:
对于第j个问题Q j ,首先应用one-hot编码来表示Q j 的第m个单词。则Q j 被表示为,其中q m 是每个单词的表示,L q Q j 中的单词总数。由于q m 过于稀疏,本实施例使用权重矩阵/>来获得密集的嵌入/>
为了学习Q j 的语义信息,采用门控循环单元(GRU)。将Q j 的第m个单词的降维嵌入表示(即)作为GRU的输入。GRU的更新门um、重置门rm、输出om如下:
其中W u1W u2W r1W r2W o1W o2,bu,br和bo是可学习的参数。为sigmoid激活函数,/>表示Hadamard乘积。GRU经过L q 步后的最终输出/>作为问题Q j 的语义信息。
面对问题特征表示,问题引导的纵横双注意力机制增强了与问题相关的区域表征,并在区域和表征层面保留了其关键特征。具体步骤包括:
以问题作为指导,提出了纵横双注意力机制。I i 中不同区域对问题回答任务的贡献通常是不同的。因此,纵横双注意力机制的第一部分衡量了每个区域对最终任务的重要性。
首先F Q 分别作为全连接神经网络的输入,
其中,和/>表示问题引导的区域层面注意力机制中学习图像特征的权重矩阵和偏置向量;/>和/>表示学习问题特征的权重矩阵和偏置向量;/>表示relu激活函数;/>表示/>的第m行,其包含了第m个区域的所有特征;F Q 表示问题的低维特征;/>的维度被扩展为/>,扩展后的结果被记为/>。/>和/>被整合,然后被喂入全连接神经网络中:
其中,和/>为权重矩阵和偏置向量;/>表示两个矩阵中相应元素相乘;通过softmax归一化方法,/>被列归一化为问题引导的区域层面注意力得分/>。/>和/>分别表示/>和/>的第i行第j列元素。最终,区域层面注意力增强的区域表示被记为/>
考虑到区域节点的不同类型的特征对答案的贡献不同。纵横双注意力机制的第二个部分是问题引导的特征层面的注意力机制,其自适应地融合一个区域的所有特征。的第n列被记为/>,其与F Q 一起被喂入全连接神经网络:
其中,和/>分别表示问题指导的特征层面注意力机制中问题表示和图像表示挖掘的权重矩阵;/>和/>是偏置向量。/>包含了所有区域的第n种特征。/>在维度上展开并表示为/>。/>和/>相应的元素相乘并将结果作为全连接神经网络的输入:
其中,表示权重矩阵,/>表示偏置向量。/>通过softmax函数被归一化为/>表示/>的第i行第j列元素,/>表示/>的第i行第j列元素。通过学得的/>,特征层面注意力增强的区域表示被标记为/>
S4.基于区域表示、视觉特征和问题特征,得到预测答案,完成视觉问答。
分类器根据问题特征和邻居增强及问题指导的视觉特征,预测答案。根据损失、学习率、epoch和优化器,模型被优化。具体步骤包括:
区域层面注意力增强的区域表示和特征层面注意力增强的区域表示/>,被拉平为/>和/>,并被连接为/>。/>包含了经过邻居增强和问题指导的I i 的视觉表示。它和编码后的问题特征表示/>分别通过全连接神经网络:
其中,和/>进行元素乘法运算,然后喂入到一个两层的全连接神经网络中:
、/>、/>和/>分别表示答案预测过程的权重矩阵;/>、/>、/>和/>分别表示偏置向量;/>表示sigmoid激活函数;然后使用交叉熵损失函数来测量p与真实标签a之间的损失:
其中,n i n c 分别表示样本数量和类别数量。的取值分别为0或1,代表第i个样本的标签。第i个样本属于类的预测得分为/>。Adamax算法根据对模型进行优化。
实施例二
如图2所示,为本申请实施例的系统结构示意图,包括:构建模块、生成模块、增强模块和预测模块;其中,构建模块用于基于现有的预训练模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;生成模块用于基于图像区域特征图,生成邻居增强的区域表示;增强模块用于基于现有的预训练模型学得的问题特征对邻居增强的区域表示进行指导,得到最终的视觉特征;预测模块用于基于区域表示、视觉特征和问题特征,得到预测答案,完成视觉问答。
下面将结合本实施例,详细说明本申请如何解决实际生活中的技术问题。
首先,利用构建模块基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图。
预训练模型Faster R-CNN网络为每个图像输入预测前k个候选区域。在该任务中,k=36。对于第m个区域,向量表示Faster R-CNN学习到的该区域的低维特征。最终,第i张图像的所有区域特征被表示为/>:
为了方便捕获区域之间的距离关系进行答案推理建模,图像区域特征图被构建。将图像的每个区域作为图像区域特征图中的节点,并将每个区域低维表示作为节点属性。图像区域特征图由加权边组成,以嵌入区域之间的相关性。具体流程包括:
为图像I i 构建的图像区域特征图被记为。其中表示I i 的区域特征图中所有节点的集合。每个节点是图像中的各个区域。/>是区域特征图中所有区域节点的特征表示。/>包含I i 的36个区域的特征,是第一个节点的。关联矩阵/>包含所有节点之间的关联,/>的每一行和每一列都分别代表各个区域。
特征分布更相似的两个区域通常具用更高的关联性。因此,是根据区域节点的低维特征计算得到的。所有区域之间的余弦相似度被视为/>。此处以/>为例。/>表示区域m和区域n之间的关联,其计算过程如下:
其中v m v n 分别表示区域m和区域n的低维特征。的值越大,表示第m个和第n个区域节点之间的关联性越强。
生成模块基于图像区域特征图,生成邻居增强的区域表示。
利用随机行走算法在图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,以生成邻居增强的区域表示。具体流程包括:
在随机游走机制中,步行者从图中的一个节点开始,在图中随机行走t次。节点对的关联值越大,步行者越有可能向该节点移动。此外,在带重启的随机游走机制中,每次t时刻的行走者既可以选择步行到邻居节点,也可以选择返回到t=0的起始节点重新开始。本实施例采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强区域表示。
对于的关联矩阵/>被行归一化为概率转移矩阵。上述带重启的随机游走机制包括:
其中,表示/>的转置矩阵;/>和/>分别表示tt+1时刻步行者到达各个节点的概率;/>表示一个对角矩阵。随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,最终结果向量即为邻居增强区域表示。
步行者从选定的节点开始。本实施例假设步行者在t=0时刻的起始节点是图像区域特征图中第m个节点。则和/>分别表示在tt+1时刻步行者从第m个节点到达其他节点的概率。向量/>的第m个元素被设置为1,其余元素被设置为0。/>表示步行者在任意时刻返回起始节点的概率。
p t p t+1之间的L2正则化小于等于10-6时,游走过程开始收敛,迭代过程停止。在收敛时,步行者到达某一节点的概率越大,说明起始节点与当前节点有较强的关联。收敛后的最终结果涵盖了起始节点与随机游走后所有节点之间的关联关系。/>被记为。图像区域特征图被更新为/>,其然后被用于获得邻居增强的区域表示/>
增强模块基于GRU模型学得的问题特征对邻居增强的区域表示进行指导,得到最终的视觉特征。
GRU模型学得问题特征的流程包括:
对于第j个问题Q j ,首先应用one-hot编码来表示Q j 的第m个单词。则Q j 被表示为,其中q m 是每个单词的表示,L q Q j 中的单词总数。由于q m 过于稀疏,本实施例使用权重矩阵/>来获得密集的嵌入表示/>
为了学习Q j 的语义信息,采用门控循环单元(GRU)。将Q j 的第m个单词的降维嵌入表示(即)作为GRU的输入。GRU的更新门um、重置门rm、输出om如下:
其中W u1W u2W r1W r2W o1W o2,bu,br和bo是可学习的参数。为sigmoid激活函数,/>表示Hadamard乘积。GRU经过L q 步后的最终输出/>作为问题Q j 的语义信息。
面对问题特征表示,问题引导的纵横双注意力机制增强了与问题相关的区域表征,并在区域和表征层面保留了其关键特征。具体流程包括:
以问题作为指导,提出了纵横双注意力机制。I i 中不同区域对问题回答任务的贡献通常是不同的。因此,纵横双注意力机制的第一部分衡量了每个区域对最终任务的重要性。
首先F Q 分别作为全连接神经网络的输入,
其中,和/>表示问题引导的区域层面注意力机制中学习图像特征的权重矩阵和偏置向量;/>和/>表示学习问题特征的权重矩阵和偏置向量;/>表示relu激活函数;/>表示/>的第m行,其包含了第m个区域的所有特征;F Q 表示问题的低维特征;/>的维度被扩展为/>,扩展后的结果被记为/>。/>和/>被整合,然后被喂入全连接神经网络中:
其中,和/>为权重矩阵和偏置向量;/>表示两个矩阵中相应元素相乘;通过softmax归一化方法,/>被列归一化为问题引导的区域层面注意力得分/>。/>和/>分别表示/>和/>的第i行第j列元素。最终,区域层面注意力增强的区域表示被记为/>
考虑到区域节点的不同类型的特征对答案的贡献不同。纵横双注意力机制的第二个部分是问题引导的特征层面的注意力机制,其自适应地融合一个区域的所有特征。的第n列被记为/>,其与F Q 一起被喂入全连接神经网络:
其中,和/>分别表示问题指导的特征层面注意力机制中问题表示和图像表示挖掘的权重矩阵;/>和/>是偏置向量。/>包含了所有区域的第n种特征。/>在维度上展开并表示为/>。/>和/>相应的元素相乘并将结果作为全连接神经网络的输入:/>
其中,表示权重矩阵,/>表示偏置向量。/>通过softmax函数被归一化为/>表示/>的第i行第j列元素,/>表示/>的第i行第j列元素。通过学得的/>,特征层面注意力增强的区域表示被标记为/>
最后,预测模块基于区域表示、视觉特征和问题特征,得到预测答案,完成视觉问答。
分类器根据问题特征和邻居增强及问题指导的视觉特征,预测答案。根据损失、学习率、epoch和优化器,模型被优化。具体流程包括:
区域层面注意力增强的区域表示和特征层面注意力增强的区域表示/>,被拉平为/>和/>,并被连接为/>。/>包含了经过邻居增强和问题指导的I i 的视觉表示。它和编码后的问题特征表示/>分别通过全连接神经网络:
其中,和/>进行元素乘法运算,然后喂入到一个两层的全连接神经网络中:
、/>、/>和/>分别表示答案预测过程的权重矩阵;/>、/>、/>和/>分别表示偏置向量;/>表示sigmoid激活函数;然后使用交叉熵损失函数来测量p与真实标签a之间的损失:
其中,n i n c 分别表示样本数量和类别数量。的取值分别为0或1,代表第i个样本的标签。第i个样本属于类的预测得分为/>。Adamax算法根据对模型进行优化。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (6)

1.一种基于区域表示和视觉表示的视觉问答方法,其特征在于,步骤包括:
基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;
基于所述图像区域特征图,生成邻居增强的区域表示;生成所述邻居增强的区域表示的方法包括:在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,生成所述邻居增强的区域表示;采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示:为图像I i 构建的图像区域特征图被记为,其中/>表示I i 的区域特征图中所有节点的集合,是区域特征图中所有区域节点的特征表示,对于/>的关联矩阵/>被行归一化为概率转移矩阵/>,所述带重启的随机游走机制包括:
其中,/>表示步行者在任意时刻返回起始节点的概率;/>表示步行者在t=0时刻时,处于初始节点;/>和/>分别表示在tt+1时刻步行者从第m个节点到达其他节点的概率;/>表示/>的转置矩阵;/>和/>分别表示tt+1时刻步行者到达各个节点的概率;表示一个对角矩阵;所述随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,所述最终结果向量即为所述邻居增强区域表示;
基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导,得到最终的视觉特征;
基于所述区域表示、所述视觉特征和所述问题特征,得到预测答案,完成视觉问答。
2.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法,其特征在于,将待问答图像的每个区域作为所述图像区域特征图中的节点,并将每个所述待问答图像的区域特征作为节点属性;所述图像区域特征图由加权边组成;其中,图像区域之间关联的计算过程包括:
其中,v m v n 分别表示区域m和区域n的低维特征;/>的值越大,表示第m个和第n个区域节点之间的关联性越强。
3.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法,其特征在于,得到所述视觉特征的方法包括:利用问题引导的纵横双注意力机制,增强与问题相关的区域表征,并在区域和表征层面保留关键特征,得到所述视觉特征。
4.一种基于区域表示和视觉表示的视觉问答系统,其特征在于,包括:构建模块、生成模块、增强模块和预测模块;
所述构建模块用于基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;
所述生成模块用于基于所述图像区域特征图,生成邻居增强的区域表示;所述生成模块的工作流程包括:在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,生成所述邻居增强的区域表示;采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示:为图像I i 构建的图像区域特征图被记为,其中/>表示I i 的区域特征图中所有节点的集合,是区域特征图中所有区域节点的特征表示,对于/>的关联矩阵/>被行归一化为概率转移矩阵/>,所述带重启的随机游走机制包括:
其中,/>表示步行者在任意时刻返回起始节点的概率;/>表示步行者在t=0时刻时,处于初始节点;/>和/>分别表示在tt+1时刻步行者从第m个节点到达其他节点的概率;/>表示/>的转置矩阵;/>和/>分别表示tt+1时刻步行者到达各个节点的概率;表示一个对角矩阵;所述随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,所述最终结果向量即为所述邻居增强区域表示;
所述增强模块用于基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导,得到最终的视觉特征;
所述预测模块用于基于所述区域表示、所述视觉特征和所述问题特征,得到预测答案,完成视觉问答。
5.根据权利要求4所述的基于区域表示和视觉表示的视觉问答系统,其特征在于,所述构建模块的工作流程包括:将待问答图像的每个区域作为所述图像区域特征图中的节点,并将每个所述待问答图像的区域特征作为节点属性;所述图像区域特征图由加权边组成;其中,图像区域之间关联的计算过程包括:
其中,v m v n 分别表示区域m和区域n的低维特征;/>的值越大,表示第m个和第n个区域节点之间的关联性越强。
6.根据权利要求4所述的基于区域表示和视觉表示的视觉问答系统,其特征在于,所述增强模块的工作流程包括:利用问题引导的纵横双注意力机制,增强与问题相关的区域表征,并在区域和表征层面保留关键特征,得到所述视觉特征。
CN202310768905.2A 2023-06-28 2023-06-28 一种基于区域表示和视觉表示的视觉问答方法及系统 Active CN116542995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310768905.2A CN116542995B (zh) 2023-06-28 2023-06-28 一种基于区域表示和视觉表示的视觉问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310768905.2A CN116542995B (zh) 2023-06-28 2023-06-28 一种基于区域表示和视觉表示的视觉问答方法及系统

Publications (2)

Publication Number Publication Date
CN116542995A CN116542995A (zh) 2023-08-04
CN116542995B true CN116542995B (zh) 2023-09-22

Family

ID=87452752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310768905.2A Active CN116542995B (zh) 2023-06-28 2023-06-28 一种基于区域表示和视觉表示的视觉问答方法及系统

Country Status (1)

Country Link
CN (1) CN116542995B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255359A (zh) * 2018-09-27 2019-01-22 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN112905762A (zh) * 2021-02-05 2021-06-04 南京航空航天大学 一种基于同等注意力图网络的视觉问答方法
CN115730059A (zh) * 2022-12-08 2023-03-03 安徽建筑大学 视觉问答方法、装置、设备及存储介质
EP4148631A1 (en) * 2021-09-08 2023-03-15 Cambridge Quantum Computing Limited Method for reducing quantum circuit depth for amplitude estimation
CN116127319A (zh) * 2023-01-16 2023-05-16 北京百度网讯科技有限公司 多模态负样本构建、模型预训练方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
CN111782840B (zh) * 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255359A (zh) * 2018-09-27 2019-01-22 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN112905762A (zh) * 2021-02-05 2021-06-04 南京航空航天大学 一种基于同等注意力图网络的视觉问答方法
EP4148631A1 (en) * 2021-09-08 2023-03-15 Cambridge Quantum Computing Limited Method for reducing quantum circuit depth for amplitude estimation
CN115730059A (zh) * 2022-12-08 2023-03-03 安徽建筑大学 视觉问答方法、装置、设备及存储介质
CN116127319A (zh) * 2023-01-16 2023-05-16 北京百度网讯科技有限公司 多模态负样本构建、模型预训练方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering;Peter Anderson 等;《arXiv:1707.07998v3 [cs.CV]》;第1-15页 *
增强视觉特征的视觉问答任务研究;秦淑婧;杨关;;中原工学院学报(第01期);全文 *

Also Published As

Publication number Publication date
CN116542995A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
KR102234850B1 (ko) 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
CN110399518B (zh) 一种基于图卷积的视觉问答增强方法
CN111460121B (zh) 视觉语义对话方法及系统
CN109241834A (zh) 一种基于隐变量的嵌入的群体行为识别方法
CN111897913A (zh) 基于语义树增强的复杂文本查询到视频的跨模态检索方法
Kim et al. Predicting the success of bank telemarketing using deep convolutional neural network
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
CN111598118B (zh) 一种视觉问答任务实现方法及系统
CN114186568B (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN113505924B (zh) 一种基于级联时空特征的信息传播预测方法及系统
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN112307982A (zh) 基于交错增强注意力网络的人体行为识别方法
CN113298816A (zh) 一种遥感图像语义分割方法、装置和计算机设备
CN113111814B (zh) 基于正则化约束的半监督行人重识别方法及装置
CN115688879A (zh) 一种基于知识图谱的智能客服语音处理系统及方法
CN115936069A (zh) 一种基于时空注意力网络的交通流预测方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN116542995B (zh) 一种基于区域表示和视觉表示的视觉问答方法及系统
Shen et al. Dual self-guided attention with sparse question networks for visual question answering
CN112860856B (zh) 一种算数应用题智能解题方法及系统
CN111079900B (zh) 一种基于自适应连接神经网络的图像处理方法及装置
CN116030537A (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN113010712B (zh) 一种基于多图融合的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant