CN113010656B - 一种基于多模态融合和结构性控制的视觉问答方法 - Google Patents

一种基于多模态融合和结构性控制的视觉问答方法 Download PDF

Info

Publication number
CN113010656B
CN113010656B CN202110292144.9A CN202110292144A CN113010656B CN 113010656 B CN113010656 B CN 113010656B CN 202110292144 A CN202110292144 A CN 202110292144A CN 113010656 B CN113010656 B CN 113010656B
Authority
CN
China
Prior art keywords
feature vector
answer
question
visual
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110292144.9A
Other languages
English (en)
Other versions
CN113010656A (zh
Inventor
孟敏
郑进怀
郑伟金
莫怡静
武继刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110292144.9A priority Critical patent/CN113010656B/zh
Publication of CN113010656A publication Critical patent/CN113010656A/zh
Application granted granted Critical
Publication of CN113010656B publication Critical patent/CN113010656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本发明涉及视觉问答技术领域,提供一种基于多模态融合和结构性控制的视觉问答方法,包括以下步骤:S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。本发明增强了视觉问答方法的泛化性,提高了视觉问答方法的性能。

Description

一种基于多模态融合和结构性控制的视觉问答方法
技术领域
本发明涉及视觉问答技术领域,具体涉及一种基于多模态融合和结构性控制的视觉问答方法。
背景技术
现今视觉问答技术(Visual Question Answering,VQA)是一个结合计算机视觉和自然语言处理两大技术的研究方向,可用于图像检索、帮助视力受损人群获取信息和提升人机交互体验等方面。视觉问答技术指根据给定的一张图像和一个与图像相关的自然语言问题,预测出关于图像对应问题的答案。
传统的视觉问答方法通常通过卷积网络提取图像的全局视觉特征向量,而忽略了视觉特征向量的局部空间信息,同时通过特征向量乘法或拼接等方式对问题语义特征向量和视觉特征向量进行特征向量融合,忽略了视觉特征向量和问题语义特征向量之间的联系,上述问题将会导致模型对基于局部图像特征向量的自然语言问题预测效果欠佳,且存在泛化能力较弱的问题。针对上述问题,基于注意力机制的视觉问答方法将视觉特征向量与问题语义特征向量输入到相同空间,反复迭代计算图像空间的注意力权值分布过程,以获取图像中与问题相关的特征向量空间信息。此外,传统的视觉问答方法未充分考虑答案语义之间的相似性,以及图像、问题和答案三者语义之间的关联性。
近年来,视觉问答领域中运用了深度学习模型,但尚未出现与生成模型相关的应用方法。变分自编码器(Variational Auto-Encoder,VAE)是一种生成模型,其在常规的自编码器的基础上,对编码器的结果加上高斯噪声,使得解码器网络能够对噪声具有鲁棒性。因此,通过VAE拟合样本答案特征向量的分布,进而实现正确答案与错误答案之间的结构性控制。
中国发明专利公开号CN110377710A(公开日为2019年10月25日),公开了一种基于多模态融合的视觉问答融合增强方法。该发明步骤如下:1、利用GRU结构构建时序模型,获得问题的特征向量表示学习、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征向量表示;2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片-问题-答案这个三元组进行多模态融合,建立推理关系;3、针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。该发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也应用于图片检索系统,提高图片检索的准确性和多样性。但是现有技术存在视觉特征向量空间信息丢失和在多路分类过程答案之间语义关系被消除的缺陷。
发明内容
本发明的目的是解决现有技术中视觉特征向量空间信息丢失和在多路分类过程答案之间语义关系被消除的缺陷,提供一种包括协同注意力机制、多模态信息融合、结构性控制的视觉问答方法。
为了实现上述目的,本发明提供了一种基于多模态融合和结构性控制的视觉问答方法。
视觉问答方法需要进行视觉问答的训练,视觉问答的训练需要图像数据集、问题数据集、答案数据集,并从中选取图像样本及其对应的问题样本、答案样本,得到图像样本数据集、问题样本数据集、答案样本数据集。
一种基于多模态融合和结构性控制的视觉问答方法,包括以下步骤:
步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;
步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;
步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;
步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。
作为优选方案:步骤S1中,训练时输入的图像样本数据集和问题样本数据集构成的并集为
Figure GDA0003923196200000031
其中V=[v1,v2,…,vm]为所述并集的视觉特征向量组,d为图像样本中的区域数,l为每个区域的特征向量的维度,Q=[q1,q2,…,qm]为所述并集的问题语义特征向量组,r为样本中每个问题语义特征向量的维度,m为数据集中样本的总数,视觉特征向量vi是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵,问题语义特征向量qj则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM,即bi-LSTM,提取的特征向量。
作为优选方案:步骤S1中,计算答案样本数据集中的答案语义特征向量,答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量,先使用词表示的全局向量GloVe获取答案的嵌入向量;然后将答案特征向量输入到指定的多层感知器模型gφ(answers)获取输出正确答案特征向量组A,其中A=[a1,a2,…,am],
Figure GDA0003923196200000041
ai表示正确答案特征向量。
作为优选方案:步骤S2中,通过嵌入函数fθ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络,获取图像中与问题文本相关的注意力加权特征向量,最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间,计算多模态信息融合特征向量组Ui,其中Ui=[u1,u2,…,um],
Figure GDA0003923196200000042
u为多模态信息融合特征向量,n为多模态融合特征向量的维度。
具体的,步骤S2中多模态融合特征向量的相关计算公式如下:
Figure GDA0003923196200000043
Figure GDA0003923196200000044
Figure GDA0003923196200000045
Figure GDA0003923196200000051
其中,k表示多模态融合特征向量迭代计算过程中的第k层注意力机制,融合特征向量hA是利用注意力机制融合vi和uk-1得到的特征向量,
Figure GDA0003923196200000052
分别表示图像特征、问题特征到注意力机制的线性变换矩阵,
Figure GDA0003923196200000053
表示在图像上加权后得到的视觉特征向量,u为多模态信息融合特征向量,bA为注意力机制的偏置项,pI表示通过线性变化和多项逻辑斯蒂回归softmax得到融合特征向量hA在图像上的概率分布,
Figure GDA0003923196200000054
和bP分别表示计算概率分布过程中的权值矩阵、偏置项,j为权值矩阵的维度,l为每个区域的特征向量的维度,d为图像的区域数,
Figure GDA0003923196200000055
表示矩阵和向量的加法;I或者i作为下标,起到编号的作用,用于区分不同样本的对应参数。
作为优选方案:步骤S3中对多模态信息融合特征向量进行结构性控制的表达式为:
Figure GDA0003923196200000056
其中,λ表示权衡系数,S表示与正确答案相似的答案的个数,ec表示错误答案语义特征向量,
Figure GDA0003923196200000057
表示计算数学期望,KL表示计算相对熵;变分自编码器VAE将多模态融合特征向量ui作为识别模型φ的输入,生成近似服从于隐空间分布z的先验概率qφ(z∣ui),接着通过解码器ψ生成后验近似概率pθ(ui|z),进而缩小先验概率分布qφ与隐分布pψ的差异;L1表示损失函数,用于衡量变分自编码器在结构性控制中的表现。
具体的,变分自编码器VAE是一种生成模型,其在常规的自编码器的基础上,对编码器的结果加上高斯噪声,使得解码器网络能够对噪声具有鲁棒性;通过变分自编码器VAE拟合样本答案特征向量的分布,进而实现正确答案与错误答案之间的结构性控制。
步骤S3中,引入对多模态信息融合特征向量ui和错误答案语义特征向量ec的所述结构性控制,保留图像、问题和答案三者之间的关联性,确保视觉问答模型对噪声的鲁棒性。
作为优选方案:步骤S4中,结合步骤S3中的答案样本数据集中的答案语义特征向量和多模态信息融合特征向量进行答案预测,其表达式为:
L2=-∑yi log y′i
y′i=softmax(f(ui,ai))
其中,yi为正确答案的独热one-hot向量,y′i为预测答案的向量,ui为多模态信息融合特征向量,ai为正确答案特征向量,f(ui,ai)表示余弦相似度计算;L2表示交叉熵损失函数,用于衡量实际输出和期望输出的相似性。
作为优选方案:步骤S4中,L=βL1+L2,其中β为权重参数,L为本发明方法提供的损失函数。
与现有技术相比,本发明的有益效果在于:
本发明的多模态融合特征向量的方法能够克服传统视觉问答方法中视觉特征向量空间信息丢失问题,同时能够获取视觉特征向量和问题语义特征向量之间的联系。本发明设计的基于多模态融合和结构性控制的视觉问答方法有效地解决多路分类过程答案之间语义关系被消除的问题,获取答案语义之间的关系。此外,本发明通过使用多模态融合特征向量实现正确答案与错误答案之间的结构性控制,充分考虑了图像、问题和答案三者之间的关联性,因此本发明增强了视觉问答方法的泛化性,也有效地提高了视觉问答方法的性能,提高了视觉问答方法预测答案的准确度。
附图说明
图1是本发明实施例的基于多模态融合和结构性控制的视觉问答方法的流程示意图。
图2是本发明实施例的基于多模态融合和结构性控制的视觉问答方法的答案特征向量可视化示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
具体的,如图1,本发明一种基于多模态融合和结构性控制的视觉问答方法的一个实施例。
视觉问答方法需要进行视觉问答的训练,视觉问答的训练需要图像数据集、问题数据集、答案数据集,并从中选取图像样本及其对应的问题样本、答案样本,得到图像样本数据集、问题样本数据集、答案样本数据集。
其中,Visual Genome是基于YFCC100M和COCO数据集生成的视觉问答数据集,包含108077张图片,平均每张图片有17个问题和答案。Visual7W是Visual Genome的子数据集,主要图片来源于COCO数据集。问题分为what、when、why、who、where和how六个类型,且每个问题都有四个候选答案。通过文本描述和图像区域之间建立关联性进行视觉问答任务。本实施使用Visual7W数据集对本发明提出的方法进行实例性说明。
具体的,一种基于多模态融合和结构性控制的视觉问答方法,包括如下步骤:
步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;
步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;
步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;
步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。
作为优选方案:步骤S1中,训练时输入的图像样本数据集和问题样本数据集构成的并集为
Figure GDA0003923196200000091
其中V=[v1,v2,…,vm]为所述并集的视觉特征向量组,d为图像样本中的区域数,l为每个区域的特征向量的维度,Q=[q1,q2,…,qm]为所述并集的问题语义特征向量组,r为样本中每个问题语义特征向量的维度,m为数据集中样本的总数,视觉特征向量vi是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵,问题语义特征向量qj则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM,即bi-LSTM,提取的特征向量。
作为优选方案:步骤S1中,计算答案样本数据集中的答案语义特征向量,答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量,先使用词表示的全局向量GloVe获取答案的嵌入向量;然后将答案特征向量输入到指定的多层感知器模型gφ(answers)获取输出正确答案特征向量组A,其中A=[a1,a2,…,am],
Figure GDA0003923196200000092
ai表示正确答案特征向量。
作为优选方案:步骤S2中,通过嵌入函数fθ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络,获取图像中与问题文本相关的注意力加权特征向量,最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间,计算多模态信息融合特征向量组Ui,其中Ui=[u1,u2,…,um],
Figure GDA0003923196200000101
u为多模态信息融合特征向量,n为多模态融合特征向量的维度。
具体的,步骤S2中多模态融合特征向量的相关计算公式如下:
Figure GDA0003923196200000102
Figure GDA0003923196200000103
Figure GDA0003923196200000104
Figure GDA0003923196200000105
其中,k表示多模态融合特征向量迭代计算过程中的第k层注意力机制,融合特征向量hA是利用注意力机制融合vi和uk-1得到的特征向量,
Figure GDA0003923196200000106
分别表示图像特征、问题特征到注意力机制的线性变换矩阵,
Figure GDA0003923196200000107
表示在图像上加权后得到的视觉特征向量,u为多模态信息融合特征向量,bA为注意力机制的偏置项,pI表示通过线性变化和多项逻辑斯蒂回归softmax得到融合特征向量hA在图像上的概率分布,
Figure GDA0003923196200000108
和bP分别表示计算概率分布过程中的权值矩阵、偏置项,j为权值矩阵的维度,l为每个区域的特征向量的维度,d为图像的区域数,
Figure GDA0003923196200000109
表示矩阵和向量的加法;I或者i作为下标,起到编号的作用,用于区分不同样本的对应参数。
作为优选方案:步骤S3中对多模态信息融合特征向量进行结构性控制的表达式为:
Figure GDA0003923196200000111
其中,λ表示权衡系数,S表示与正确答案相似的答案的个数,ec表示错误答案语义特征向量,
Figure GDA0003923196200000112
表示计算数学期望,KL表示计算相对熵;变分自编码器VAE将多模态融合特征向量ui作为识别模型φ的输入,生成近似服从于隐空间分布z的先验概率qφ(z∣ui),接着通过解码器ψ生成后验近似概率pθ(ui|z),进而缩小先验概率分布qφ与隐分布pψ的差异;L1表示损失函数,用于衡量变分自编码器在结构性控制中的表现。
具体的,变分自编码器VAE是一种生成模型,其在常规的自编码器的基础上,对编码器的结果加上高斯噪声,使得解码器网络能够对噪声具有鲁棒性;通过变分自编码器VAE拟合样本答案特征向量的分布,进而实现正确答案与错误答案之间的结构性控制。
步骤S3中,引入对多模态信息融合特征向量ui和错误答案语义特征向量ec的所述结构性控制,保留图像、问题和答案三者之间的关联性,确保视觉问答模型对噪声的鲁棒性。
作为优选方案:步骤S4中,结合步骤S3中的答案样本数据集中的答案语义特征向量和多模态信息融合特征向量进行答案预测,其表达式为:
L2=-∑yi log y′i
y′i=softmax(f(ui,ai))
其中,yi为正确答案的独热one-hot向量,y′i为预测答案的向量,ui为多模态信息融合特征向量,ai为正确答案特征向量,f(ui,ai)表示余弦相似度计算;L2表示交叉熵损失函数,用于衡量实际输出和期望输出的相似性。
作为优选方案:步骤S4中,L=βL1+L2,其中β为权重参数,L为本发明方法提供的损失函数。
如图2,图2为本实例提供的一种基于多模态融合和结构性控制的视觉问答方法的答案特征向量可视化示意图,图中不同的符号对应不同类别的答案特征向量。
本发明的工作过程为:步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。
综上,本发明实施例提供一种基于多模态融合和结构性控制的视觉问答方法。本发明的多模态融合特征向量的方法能够克服传统视觉问答方法中视觉特征向量空间信息丢失问题,同时能够获取视觉特征向量和问题语义特征向量之间的联系。除此之外,本发明中通过使用多模态融合特征向量进行正确答案与错误答案的结构性控制考虑了图像、问题和答案三者之间的关联性,因此本发明增强了视觉问答方法的泛化性,也有效地提高了视觉问答方法的性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (6)

1.一种基于多模态融合和结构性控制的视觉问答方法,视觉问答方法需要进行视觉问答的训练,视觉问答的训练需要图像数据集、问题数据集、答案数据集,并从中选取图像样本及其对应的问题样本、答案样本,得到图像样本数据集、问题样本数据集、答案样本数据集,其特征在于:包括以下步骤:
步骤S1:计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量;
训练时输入的图像样本数据集和问题样本数据集构成的并集为
Figure FDA0003923196190000011
其中V=[v1,v2,…,vm]为所述并集的视觉特征向量组,d为图像样本中的区域数,l为每个区域的特征向量的维度,Q=[q1,q2,…,qm]为所述并集的问题语义特征向量组,r为样本中每个问题语义特征向量的维度,m为数据集中样本的总数,视觉特征向量vi是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵,问题语义特征向量qj则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM,即bi-LSTM,提取的特征向量;
计算答案样本数据集中的答案语义特征向量,答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量,先使用词表示的全局向量GloVe获取答案的嵌入向量;然后将答案特征向量输入到指定的多层感知器模型gφ(answers)获取输出正确答案特征向量组A,其中A=[a1,a2,…,am],
Figure FDA0003923196190000012
ai表示正确答案特征向量;
步骤S2:将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络,计算多模态信息融合特征向量;
通过嵌入函数fθ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络,获取图像中与问题文本相关的注意力加权特征向量,最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间,计算多模态信息融合特征向量组Ui,其中Ui=[u1,u2,…,um],
Figure FDA0003923196190000021
ui 为多模态信息融合特征向量,n为多模态融合特征向量的维度;
多模态融合特征向量的相关计算公式如下:
Figure FDA0003923196190000022
Figure FDA0003923196190000023
Figure FDA0003923196190000024
Figure FDA0003923196190000025
其中,k表示多模态融合特征向量迭代计算过程中的第k层注意力机制,融合特征向量hA是利用注意力机制融合vi和uk-1得到的特征向量,
Figure FDA0003923196190000026
分别表示图像特征、问题特征到注意力机制的线性变换矩阵,
Figure FDA0003923196190000027
表示在图像上加权后得到的视觉特征向量,u为多模态信息融合特征向量,bA为注意力机制的偏置项,pI表示通过线性变化和多项逻辑斯蒂回归softmax得到融合特征向量hA在图像上的概率分布,
Figure FDA0003923196190000028
和bP分别表示计算概率分布过程中的权值矩阵、偏置项,j为权值矩阵的维度,l为每个区域的特征向量的维度,d为图像的区域数,
Figure FDA0003923196190000029
表示矩阵和向量的加法;I或者i作为下标,起到编号的作用,用于区分不同样本的对应参数;
步骤S3:对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制,缩小多模态信息融合特征向量和答案语义特征向量的概率分布;
步骤S4:根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。
2.根据权利要求1所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S3中对多模态信息融合特征向量进行结构性控制的表达式为:
Figure FDA0003923196190000031
其中,λ表示权衡系数,S表示与正确答案相似的答案的个数,ec表示错误答案语义特征向量,
Figure FDA0003923196190000032
表示计算数学期望,KL表示计算相对熵;变分自编码器VAE将多模态融合特征向量ui作为识别模型φ的输入,生成近似服从于隐空间分布z的先验概率qφ(z∣ui),接着通过解码器ψ生成后验近似概率pθ(ui|z),进而缩小先验概率分布qφ与隐分布pψ的差异;L1表示损失函数,用于衡量变分自编码器在结构性控制中的表现。
3.根据权利要求2所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:变分自编码器VAE是一种生成模型,其在常规的自编码器的基础上,对编码器的结果加上高斯噪声;通过变分自编码器VAE拟合样本答案特征向量的分布,进而实现正确答案与错误答案之间的结构性控制。
4.根据权利要求3所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S3中,引入对多模态信息融合特征向量ui和错误答案语义特征向量ec的所述结构性控制,保留图像、问题和答案三者之间的关联性,确保视觉问答模型对噪声的鲁棒性。
5.根据权利要求4所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S4中,结合步骤S3中的答案样本数据集中的答案语义特征向量和多模态信息融合特征向量进行答案预测,其表达式为:
L2=-∑yilog y′i
y′i=softmax(f(ui,ai))
其中,yi为正确答案的独热one-hot向量,y′i为预测答案的向量,ui为多模态信息融合特征向量,ai为正确答案特征向量,f(ui,ai)表示余弦相似度计算;L2表示交叉熵损失函数,用于衡量实际输出和期望输出的相似性。
6.根据权利要求5所述的基于多模态融合和结构性控制的视觉问答方法,其特征在于:步骤S4中,L=βL1+L2,其中β为权重参数,L为损失函数。
CN202110292144.9A 2021-03-18 2021-03-18 一种基于多模态融合和结构性控制的视觉问答方法 Active CN113010656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110292144.9A CN113010656B (zh) 2021-03-18 2021-03-18 一种基于多模态融合和结构性控制的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110292144.9A CN113010656B (zh) 2021-03-18 2021-03-18 一种基于多模态融合和结构性控制的视觉问答方法

Publications (2)

Publication Number Publication Date
CN113010656A CN113010656A (zh) 2021-06-22
CN113010656B true CN113010656B (zh) 2022-12-20

Family

ID=76402509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110292144.9A Active CN113010656B (zh) 2021-03-18 2021-03-18 一种基于多模态融合和结构性控制的视觉问答方法

Country Status (1)

Country Link
CN (1) CN113010656B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113297370B (zh) * 2021-07-27 2021-11-16 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统
WO2023024412A1 (zh) * 2021-08-25 2023-03-02 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN114398471A (zh) * 2021-12-24 2022-04-26 哈尔滨工程大学 一种基于深层推理注意力机制的视觉问答方法
CN114936901A (zh) * 2022-05-21 2022-08-23 山东大学 基于跨模态语义推理与融合的视觉感知推荐方法及系统
CN114821245B (zh) * 2022-05-30 2024-03-26 大连大学 一种基于全局视觉信息干预的医学视觉问答方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180045165A (ko) * 2016-10-25 2018-05-04 네이버 주식회사 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
WO2019148315A1 (en) * 2018-01-30 2019-08-08 Intel Corporation Visual question answering using visual knowledge bases
CN110647897A (zh) * 2018-06-26 2020-01-03 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
CN111598118A (zh) * 2019-12-10 2020-08-28 中山大学 一种视觉问答任务实现方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11573991B2 (en) * 2018-11-30 2023-02-07 Samsung Electronics Co., Ltd. Deep reinforcement learning-based multi-step question answering systems
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110851760B (zh) * 2019-11-12 2022-12-27 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN112036276B (zh) * 2020-08-19 2023-04-07 北京航空航天大学 一种人工智能视频问答方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180045165A (ko) * 2016-10-25 2018-05-04 네이버 주식회사 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
WO2019148315A1 (en) * 2018-01-30 2019-08-08 Intel Corporation Visual question answering using visual knowledge bases
CN110647897A (zh) * 2018-06-26 2020-01-03 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
CN111598118A (zh) * 2019-12-10 2020-08-28 中山大学 一种视觉问答任务实现方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习下的计算成像:现状、挑战与未来;左超等;《光学学报》;20200131(第01期);全文 *

Also Published As

Publication number Publication date
CN113010656A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113010656B (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112015868B (zh) 基于知识图谱补全的问答方法
CN111831789B (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN113094484A (zh) 基于异质图神经网络的文本视觉问答实现方法
CN109858015A (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN115098620A (zh) 一种注意力相似度迁移的跨模态哈希检索方法
CN114595306B (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN112417097A (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN114201592A (zh) 面向医学图像诊断的视觉问答方法
CN115858847A (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN112949628B (zh) 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
CN117332117A (zh) 一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法及系统
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant