CN116484042A - 一种结合自相关与交互引导式注意力机制的视觉问答方法 - Google Patents

一种结合自相关与交互引导式注意力机制的视觉问答方法 Download PDF

Info

Publication number
CN116484042A
CN116484042A CN202310549904.9A CN202310549904A CN116484042A CN 116484042 A CN116484042 A CN 116484042A CN 202310549904 A CN202310549904 A CN 202310549904A CN 116484042 A CN116484042 A CN 116484042A
Authority
CN
China
Prior art keywords
attention
image
features
feature
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310549904.9A
Other languages
English (en)
Inventor
郑传钦
洪艳坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Medical College
Original Assignee
Xiamen Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Medical College filed Critical Xiamen Medical College
Priority to CN202310549904.9A priority Critical patent/CN116484042A/zh
Publication of CN116484042A publication Critical patent/CN116484042A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合自相关与交互引导式注意力机制的视觉问答方法,包括以下步骤:S1、将图像和问题文本分别输入到视觉问答模型中,进行基础特征提取;S2、利用模态内自相关注意力模块更新图像区域特征和单词文本特征;S3、利用图像问题交互引导式注意力模块估计模态内自相关联系的重要性,并通过在两种不同模态之间建立语义关联关系,进一步更新图像区域特征和单词文本特征;S4、利用注意力模型堆叠连接,逐步细化所要处理的图像特征和问题特征;S5、将更新和细化后的图像特征和问题特征进行特征融合,预测出图像中与问题对应的答案;该方法有效增强视觉图像与问题信息的高层语义交互,从而提升模型的整体泛化能力。

Description

一种结合自相关与交互引导式注意力机制的视觉问答方法
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种结合自相关与交互引导式注意力机制的视觉问答方法。
背景技术
随着计算机视觉和自然语言处理的快速发展,基于视觉和语言的多模态任务引起研究者越来越多的关注。视觉问答(visual question answering,VQA)旨在自动回答一个与给定图像内容相关的自然语言问题,其任务涉及计算机视觉、自然语言处理和人工智能交叉的新兴交叉学科研究。通过模拟真实世界的情景,视觉问答任务在实践中有非常广泛及有意义的应用,如视觉问答可以帮助存在视觉障碍的用户进行实时的人机交互,也可以为查询视觉相关内容提供一种自然语言方式来改善人机交互的过程等。与其他多模态任务相比,视觉问答需要对图像和问题进行细致的语义理解,并结合一定的信息融合策略和推理方法来预测准确的答案,是一项极具挑战性的研究工作。
作为计算机视觉与自然语言处理的多模态交叉学习任务,有效的视觉问答方法吸引了国内外研究学者的广泛关注。伴随着深度学习在计算机视觉和自然语言处理领域的成功,基于深度网络的视觉问答方法是目前主流的发展方向。该方法通常分别采用卷积神经网络和递归神经网络提取图像和问题文本的高层语义特征,最后将这两种模态特征进行融合并输入到分类器中完成联合推理及答案预测,但这种方法以图像的全局特征作为视觉输入,缺少对图像在更细尺度上的理解,并在预测阶段会引入大量无用信息,且在视觉问答任务中,被提出的问题通常只关注到图像中的部分目标区域。
因此,目前的视觉问答方法一般是在整个图像和文本的基础上生成全局特征,无法关注到与需要回答的问题最相关的图像区域和文本单词,在推测答案的过程中会引入大量噪声,从而影响模型对答案的分析和判断。此外,这些联合嵌入模型往往仅能学习到数据集中有限的知识,而对一些开放性更强的问题表现很差,所以基于传统联合嵌入模型的方法在视觉问答预测方面仍具有较大的优化空间。
发明内容
本发明的目的在于提供一种结合自相关与交互引导式注意力机制的视觉问答方法,该结合自相关与交互引导式注意力机制的视觉问答方法使视觉问答模型能学习到更具细粒度的深层语义特征,有效增强视觉图像与问题信息的高层语义交互,从而提升模型的整体泛化能力。
为实现上述目的,本发明采用以下技术方案:
一种结合自相关与交互引导式注意力机制的视觉问答方法,包括以下步骤:
S1、将图像和问题文本分别输入到视觉问答模型中,进行基础特征提取;
S2、利用模态内自相关注意力模块更新图像区域特征和单词文本特征;
S3、利用图像问题交互引导式注意力模块估计模态内自相关联系的重要性,并通过在两种不同模态之间建立语义关联关系,进一步更新图像区域特征和单词文本特征;
S4、利用注意力模型堆叠连接,逐步细化所要处理的图像特征和问题特征;
S5、将更新和细化后的图像特征和问题特征进行特征融合,预测出图像中与问题对应的答案。
优选地,步骤S1中所述图像的基础特征提取过程为:给定输入图像样本I,通过在VisualGenome数据集进行Faster-RCNN模型训练来获得图像区域特征,处理过程的公式为X=FasterRCNN(I);所得到的图像区域特征为X={r1,r2,r3...rμ}∈Rμ×2048,其中,μ代表总的区域特征数目,第i个区域特征表达为ri∈R2048,对于每个输入图像样本,提取若干个目标区域的局部特征;
步骤S1中所述问题文本的基础特征提取过程为:给定问题Q,采用Glove词嵌入编码方法对文本特征进行表征,词嵌入将一个单词映射到一个高维的词向量中来代表这个单词,再通过门控循环单元GRU学习提取这个词向量的特征,处理过程的公式为Y=GRU(Q);对于每个问题Q,问题Q通过截断,填充的方法规范到τ的长度,采用Glove模型将这些单词嵌入到一个向量空间中,得到的问题特征为Y={e1,e2,e3...eτ}∈Rτ×1280,第j个词的特征词向量表达为ej∈R1280
优选地,步骤S2的具体过程为:
S21、在视觉问答模型中,通过自相关学习捕捉图像区域间和单词间特征对的语义自相关性,自注意力模块输入由Q、K和V组成,其表示形式为:
其中,Q、K和V都是由输入特征集经过变换映射产生得到,Q为查询向量,K为关键字向量,V为相关性向量,KT为关键字向量的转置,dk为K中向量的维度;
S22、针对输入的图像特征X和文本特征Y,其自注意力模型的输入可以由以下式子得到:
其中,和/>分别为图像和问题的注意力映射权重,再通过自注意力模块建立单一特征之间的权重矩阵,自注意力模型根据学习到的权重矩阵在两种模态之内建立自相关联系,从而进一步更新每个单词特征和图像区域特征。
优选地,步骤S22的具体过程为:
S221、使用图像的自注意力区域特征XQ与图像区域特征本身特征XK计算内积,得到图像区域特征间的自相关相似度:使用问题的自注意力文本特征YQ与文本特征本身特征YK计算内积,得到问题单词特征间的自相关相似度:/>
S222、计算得到模态内特征的自相关内积结果后,使用内积结果除以维度dim的平方根,再使用softmax函数将权重规范到(0,1)区间内:
图像和问题文本的自相关注意力权重图AttenM通过以下式子计算:
AttenMX←X=softmax(WX←XaX←X)
AttenMY←Y=softmax(WY←YaY←Y)
其中,WX←X和WY←Y是softmax层的参数矩阵,AttenMX←X∈Rμ×μ是图像区域特征间的自相关注意力权重,AttenMY←Y∈Rτ×τ是问题词向量特征间的自相关注意力权重;
S223、针对上述得到的图像和问题的自相关注意力权重,分别与图像特征XV和单词特征YV相乘,进行加权求和,得到更新后的图像和文本数据特征,公式表达分别为:
Xupdate=AttenMX←X×XV,Yupdate=AttenMY←Y×YV
在获取更新后的视觉和文字特征后,将其与原始的图像特征X和单词特征Y进行拼接,利用全连接层FC将拼接后的特征分别更新为新的图像自注意力特征和文本自注意力特征:
优选地,步骤S3的具体过程为:
S31、图像问题交互引导式注意力模块由问题引导图像的自注意力模块与图像引导问题的自注意力模块两部分组成,图像问题交互引导式注意力模块的输入由Q、K和V组成;
S32、针对输入的图像自注意力特征和文本自注意力特征/>其交互式注意力模型的输入由变换影射得到图像交互注意力模型输入/>和问题文本交互注意力模型输入/>
S33、在问题引导图像的自注意力模型内计算不同模态之间,图像区域特征与单词特征/>的内积:/>在图像引导问题的注意模块,计算问题特征/>与图像区域的特征/>的内积:/>
S34、计算得到模态间内积结果,使用内积结果除以维度dim的平方并与softmax函数对原始的权值进行归一化到(0,1)区间:
图像和问题文本的交互式注意力权重图通过以下式子计算得到:
AttenMX←Y=softmax(WX←YaX←Y)
AttenMY←X=softmax(WY←XaY←X)
其中,WX←Y和WY←X分别是注意力模型中softmax层的网络参数,AttenMX←Y∈Rμ×τ是问题引导的图像区域注意力权重,而AttenMY←X∈Rτ×μ是由图像引导的问题注意力权重,这两个权重矩阵学习了每个图像区域和单词之间的特征关系,得到的权重矩阵分别将其与图像区域特征及单词的值value特征/>进行加权,得到新特征:
S35、在获取更新后的视觉和文字特征后,将其与自相关注意力模块获取的图像自注意力特征和文本自注意力特征/>进行拼接,利用全连通层将拼接后的特征分别更新为新的图像区域和文字特征进行输出:
得到加权特征继续输入到下一层的级联注意单元中,进一步更新视觉区域与单词特征。
优选地,步骤S4的具体过程为:在特征更新的过程中使用级联的方法实现多个注意层的叠加,前一个注意层的输出直接提供给下一个注意层,并利用随机梯度下降法训练出更有深度的模型;多层注意力模型的连接以及较深的模型引导嵌入注意模型逐步细化所要处理的图像特征和问题特征,发现并放大每个重要关系,从而提升模型的表征能力,级联方式的公式表达如下:
其中,第一层X0和Y0分别表示为输入的图像区域特征X和问题特征Y,SA·CA是共同关注的自我注意力机制,l是模型级联的层数。
优选地,步骤S5的具体过程为:
S51、采取特征乘法将将更新和细化后的图像特征和问题特征进行特征融合,以此获得融合后的统一特征;
S52、将融合后的特征通过由ReLU非线性函数组成的的多层感知层和最终的softmax函数转化为概率向量;
S53、利用Sigmoid将最终得分规范化为(0,1),最后预测阶段看作是预测每个候选答案正确性的逻辑回归,其目标函数是:
其中,指数z和k分别覆盖M个训练问题的N个候选答案,Szk是问题的真实答案,基本答案表是从出现超过5次的带注释的答案中提取出来的,分类模型采用交叉熵损失函数作为训练视觉问答模型的目标函数,整个视觉问答模型利用端到端方式进行训练。
采用上述技术方案后,本发明具有如下有益效果:本发明的结合自相关与交互引导式注意力机制的视觉问答方法一方面可以动态地关注模态内和跨模态之间的信息关联关系,找出并建立特征间的相关性;另一方面抑制了无用信息并减少了噪声的输入,深化了跨模态数据间的影响,有效地提高了模型预测的准确率。在公开的数据集上的实验结果表明,本发明的视觉问答方法能够取得较高的视觉问答准确率,其消融性实验表明了本发明提出的自相关注意力模块和交互引导式注意力模块能够有效的学习多模态数据之间的信息交互关系,并在推理答案的过程中减少冗余信息的输入,较好缩小问题与图像之间的语义鸿沟,有效提高了视觉问答的准确率,还采取注意力模型堆叠连接进行网络优化,以实现更好的视觉答案预测。
附图说明
图1为本发明的视觉问答模型的框架图;
图2为本发明的交互引导式注意力模块示意图;
图3为本发明的级联连接示意图;
图4为本发明的视觉问答模型准确率的周期变化示意图;
图5为本发明的视觉问答模型损失值的周期变化示意图;
图6为本发明的代表方法准确率变化对比图;
图7为本发明的可视化交互引导注意力模块对于相应的问题模态内的权重表现示例一;
图8为本发明的可视化交互引导注意力模块对于相应的问题模态内的权重表现示例二;
图9为本发明的可视化交互引导注意力模块对于相应的问题模态内的权重表现示例三;
图10为本发明的不同注意模块组成准确率对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1至图10所示,一种结合自相关与交互引导式注意力机制的视觉问答方法,包括以下步骤:
S1、将图像和问题文本分别输入到视觉问答模型中,进行基础特征提取;
S2、利用模态内自相关注意力模块更新图像区域特征和单词文本特征;
S3、利用图像问题交互引导式注意力模块估计模态内自相关联系的重要性,并通过在两种不同模态之间建立语义关联关系,进一步更新图像区域特征和单词文本特征;
S4、利用注意力模型堆叠连接,逐步细化所要处理的图像特征和问题特征;
S5、将更新和细化后的图像特征和问题特征进行特征融合,预测出图像中与问题对应的答案。
步骤S1中所述图像的基础特征提取过程为:给定输入图像样本I,通过在VisualGenome数据集进行Faster-RCNN模型训练来获得图像区域特征,处理过程的公式为X=FasterRCNN(I);所得到的图像区域特征为X={r1,r2,r3...rμ}∈Rμ×2048,其中,μ代表总的区域特征数目,第i个区域特征表达为ri∈R2048,对于每个输入图像样本,提取若干个目标区域的局部特征;
步骤S1中所述问题文本的基础特征提取过程为:给定问题Q,采用Glove词嵌入编码方法对文本特征进行表征,词嵌入将一个单词映射到一个高维的词向量中来代表这个单词,再通过门控循环单元GRU学习提取这个词向量的特征,处理过程的公式为Y=GRU(Q);对于每个问题Q,问题Q通过截断,填充的方法规范到τ的长度,采用Glove模型将这些单词嵌入到一个向量空间中,得到的问题特征为Y={e1,e2,e3...eτ}∈Rτ×1280,第j个词的特征词向量表达为ej∈R1280
步骤S2的具体过程为:
S21、在视觉问答模型中,通过自相关学习捕捉图像区域间和单词间特征对的语义自相关性,自注意力模块输入由Q、K和V组成,其表示形式为:
其中,Q、K和V都是由输入特征集经过变换映射产生得到,Q为查询向量,K为关键字向量,V为相关性向量,KT为关键字向量的转置,dk为K中向量的维度;
S22、针对输入的图像特征X和文本特征Y,其自注意力模型的输入可以由以下式子得到:
其中,和/>分别为图像和问题的注意力映射权重,再通过自注意力模块建立单一特征之间的权重矩阵,自注意力模型根据学习到的权重矩阵在两种模态之内建立自相关联系,从而进一步更新每个单词特征和图像区域特征。
步骤S22的具体过程为:
S221、使用图像的自注意力区域特征XQ与图像区域特征本身特征XK计算内积,得到图像区域特征间的自相关相似度:使用问题的自注意力文本特征YQ与文本特征本身特征YK计算内积,得到问题单词特征间的自相关相似度:/>
S222、计算得到模态内特征的自相关内积结果后,使用内积结果除以维度dim的平方根,再使用softmax函数将权重规范到(0,1)区间内:
图像和问题文本的自相关注意力权重图AttenM通过以下式子计算:
AttenMX←X=softmax(WX←XaX←X)
AttenMY←Y=softmax(WY←YaY←Y)
其中,WX←X和WY←Y是softmax层的参数矩阵,AttenMX←X∈Rμ×μ是图像区域特征间的自相关注意力权重,AttenMY←Y∈Rτ×τ是问题词向量特征间的自相关注意力权重;
S223、针对上述得到的图像和问题的自相关注意力权重,分别与图像特征XV和单词特征YV相乘,进行加权求和,得到更新后的图像和文本数据特征,公式表达分别为:
Xupdate=AttenMX←X×XV,Yupdate=AttenMY←Y×YV
在获取更新后的视觉和文字特征后,将其与原始的图像特征X和单词特征Y进行拼接,利用全连接层FC将拼接后的特征分别更新为新的图像自注意力特征和文本自注意力特征:
步骤S3的具体过程为:
S31、图像问题交互引导式注意力模块由问题引导图像的自注意力模块与图像引导问题的自注意力模块两部分组成,图像问题交互引导式注意力模块的输入由Q、K和V组成;
S32、针对输入的图像自注意力特征和文本自注意力特征/>其交互式注意力模型的输入由变换影射得到图像交互注意力模型输入/>和问题文本交互注意力模型输入/>
S33、在问题引导图像的自注意力模型内计算不同模态之间,图像区域特征与单词特征/>的内积:/>在图像引导问题的注意模块,计算问题特征/>与图像区域的特征/>的内积:/>
S34、计算得到模态间内积结果,使用内积结果除以维度dim的平方并与softmax函数对原始的权值进行归一化到(0,1)区间:
图像和问题文本的交互式注意力权重图通过以下式子计算得到:
AttenMX←Y=softmax(WX←YaX←Y)
AttenMY←X=softmax(WY←XaY←X)
其中,WX←Y和WY←X分别是注意力模型中softmax层的网络参数,AttenMX←Y∈Rμ×τ是问题引导的图像区域注意力权重,而AttenMY←X∈Rτ×μ是由图像引导的问题注意力权重,这两个权重矩阵学习了每个图像区域和单词之间的特征关系,得到的权重矩阵分别将其与图像区域特征YV及单词的值value特征进行加权,得到新特征:
S35、在获取更新后的视觉和文字特征后,将其与自相关注意力模块获取的图像自注意力特征和文本自注意力特征/>进行拼接,利用全连通层将拼接后的特征分别更新为新的图像区域和文字特征进行输出:
得到加权特征继续输入到下一层的级联注意单元中,进一步更新视觉区域与单词特征。
步骤S4的具体过程为:在特征更新的过程中使用级联的方法实现多个注意层的叠加,前一个注意层的输出直接提供给下一个注意层,并利用随机梯度下降法训练出更有深度的模型;多层注意力模型的连接以及较深的模型引导嵌入注意模型逐步细化所要处理的图像特征和问题特征,发现并放大每个重要关系,从而提升模型的表征能力,级联方式的公式表达如下:
其中,第一层X0和Y0分别表示为输入的图像区域特征X和问题特征Y,SA·CA是共同关注的自我注意力机制,l是模型级联的层数。
步骤S5的具体过程为:
S51、采取特征乘法将将更新和细化后的图像特征和问题特征进行特征融合,以此获得融合后的统一特征;
S52、将融合后的特征通过由ReLU非线性函数组成的的多层感知层和最终的softmax函数转化为概率向量;
S53、利用Sigmoid将最终得分规范化为(0,1),最后预测阶段看作是预测每个候选答案正确性的逻辑回归,其目标函数是:
其中,指数z和k分别覆盖M个训练问题的N个候选答案,Szk是问题的真实答案,基本答案表是从出现超过5次的带注释的答案中提取出来的,分类模型采用交叉熵损失函数作为训练视觉问答模型的目标函数,整个视觉问答模型利用端到端方式进行训练。
一、实验及结果分析
1.1视觉问答标准数据集
为验证本发明提出的视觉问答模型的有效性,实验选取公开的VQAv2.0视觉问答数据集来进行对比实验。该数据集包含MSCOCO 2015数据集图像和超过110万个问题,广泛用于视觉问答的各项任务评估和测试。特别的,该数据集中的测试开发(test-dev)数据部分用来进行实验评估,该部分包含大约2万张图片。本实施例使用一种投票机制来计算预测的答案的准确率:
其中,ans为视觉问答模型预测的答案。本实施例在VQAv2.0的验证集上来验证本发明提出的视觉问答模型的有效性,并进行消融模型实验分析,同时在test-dev测试集测试本发明视觉问答模型的准确度,并和相关工作进行实验对比和定量分析。
1.2实验设置
图像特征使用Faster-RCNN提取区域特征,维度2048,问题文本特征利用门控循环单元(GRU)方式提取,维度1280,然后通过全连接层分别将图像特征与文字特征嵌入到512共同维度空间。在自相关注意力模块内,将答案词汇表大小设置为3129,筛选出答案出现频率前3129的词汇组成答案表。堆叠连接的层数量设置为{1,2,4,6,8},问题规范化长度τ的值设置为14。同时,每个全连接层后面都设置有dropout=0.1的dropout层,以及权重归一化层,层下降率设置为0.25,优化器使用Adamax solver,其中参数为β1=0.9,β2=0.98,batch-size值设置为512,基础学习率设置为0.001,在10个学习周期后,学习率每个周期衰减1/5。
1.3实验结果
本发明提出的视觉问答模型在VQAv2.0数据集上进行训练和评估,图4展示了训练过程中准确率的变化。由图4可以看出,模型在训练过程中,随着epoch次数的增加,模型的准确率呈现不断上升趋势,并逐渐趋于平稳。实验测试发现,当epoch为13时,模型在验证集上取得最好的准确率。
同时,实验记录了函数损失(loss)值的变化情况,图5所示,函数损失值也随着epoch的增加保持稳定下降。经过epoch为13次的训练的模型在test-dev测试集上进行测试,得到总体问题以及在Yes/No、Number、Other三种类别问题上的测试准确度结果如表1所示。同时,将本实施例得到的实验结果与目前主流的方法进行比较。
表1不同方法在数据集VQAv2.0上的实验结果对比
表1中的自底向上(UP-Down)的注意力模型方法是由Anderson等在2018年提出,该方法使用Faster-RCNN方法并结合自下而上的关注模型提取图像视觉特征。多模态分解高阶池化(MFHP)方法是较为鲁棒性的双线性池多模态数据融合方法,该方法提高了跨模态数据的高层次语义结合的可解释性,可以有效用于视觉问答。特征协同注意力模型(FWCA)方法利用多层密集叠加的协同注意机制,显著优于已有的传统注意力模型方法。外部支持补充模型法(AEK)提出结合外部数据库来对模型预测进行补充,可以显著提升计数问题的准确度;共同注意网络(CAN)考虑两种模态之间的共同注意力机制,学习了多模态输入之间的相互作用,是表现最好的的共同注意方法。由对比实验可以看出,本发明提出的结合自相关与交互引导式注意力机制的视觉问答方法在总体准确率方面还优于CAN方法得到的结果,其中在是否(Y/N)类问题上提高了1.51%,比回答计数(Numer)问题的准确率提高了1.42%,回答其他(Other)类问题的准确率提高了0.72%。
图6列举出了几种先进的注意力模型方法在8次周期训练后的结果,从图中可以看出本发明的视觉问答的准确率在经过4次周期训练之后,能够达到较好的准确率,并优于现有对比的代表性方法,实验结果验证了本发明提出的结合自相关与交互引导式注意力机制的视觉问答方法的有效性。
1.4可视化交互注意力
图7至图9可视化了结合自相关和交互注意力所产生的权重值。从图7至图9中可以了解到由问题引导的图像区域之间的权重关系。实线框是对应问题模型关注到的主要模块。由此可以看出在交互注意模块中,不相关的图像区域会根据问题特征被赋予的权重很小,从而可以达到冗余信息过滤的目的,以方便视觉问答模型能更好地推理出正确的答案。
二、消融分析
本实施例对视觉问答模型使用的VQAv2.0数据集进行了消融分析实验。为了分析提出的注意力模型每个模块对预测模型的贡献,并证明本发明结合自相关与交互引导式注意力机制的视觉问答方法的优越性,进一步对完整的注意力模型进行消融分析,进一步探讨模型每个部分的作用。本实验将注意模型分为自注意力模块和引导注意模块两个部分,其中自注意力模块由问题自相关注意力模型和图像自相关注意力模型组成,引导注意模块由图像引导问题的自相关注意力模块和问题引导图像的自相关注意力模块组成。模型的默认输入设置是使用Faster-RCNN提取出的2048维图像区域特征和采用Glove模型提取1024维的问题单词特征,在最后的融合层中,使用串联的方法拼接特征。
消融分析结果如表2所示,从表2中可以清晰看出,仅使用自我注意力模型的方法取得了与表1中Up-Down可比的结果。因此,本发明采取的模态自相关注意力模型可以有效的提取语义自相关性特征,增强特征表征的判别性。同时,使用提出的图像和文本交互引导式注意力模型取得了较好的视觉问答效果,实验结果表明本发明提出的交互引导式注意力模块可以根据来自其它模块的信息估计模态内的重要特性,并通过在两种不同模态之间建立语义关联关系,来更新图像区域特征和单词文本特征,以获取更细粒度的语义相关特征。值得注意的是,仅适用单一引导注意力模型对视觉问答的准确度提升效果非常有限。相比之下,本文提出的视觉问答模型取得了令人满意的视觉问答效果,模型预测准确率有显著提高。
表2本发明提出的视觉问答模型在标准数据集VQAv2.0上面的消融实验对比结果
进一步,如图10所示,消融实验中准确记录了本发明视觉问答学习框架在使用不同注意模块情况下的准确率变化过程,其中Main折线表示本发明提出的结合自相关和交互引导式注意力视觉问答模型,OSA是指仅使用自相关注意模型,SA+IGT是指由自相关注意模块与仅使用图像引导问题自我注意模块组成的模型,SA+TGI是指由自相关注意模块与仅使用问题引导图像的自我注意模块组成的模型,横坐标Epoch表示训练的周期次数。
此外,从图中10可以进一步发现,如果使用的注意模块只包含图像自相关注意模块与问题自相关注意模块,模型的准确率在不同周期训练情况下表现较弱,主要原因在于图像特征和问题特征的语义关联较弱,一些冗余信息干扰了学习的过程。特别地,模型使用图像引导问题自相关注意模块后,模型的准确率表现有显著提升;进一步,结合自相关注意力模块和问题语义引导图像自相关注意力模块时,模型预测的结果准确率接近本发明提出的完整模型得到的准确率结果;最后,模型在加入图像引导问题注意力模块后合并完成的交互引导式注意力模块得到准确率为70.35%,为模型最优表现,实验结果验证了本发明提出方法的有效性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,包括以下步骤:
S1、将图像和问题文本分别输入到视觉问答模型中,进行基础特征提取;
S2、利用模态内自相关注意力模块更新图像区域特征和单词文本特征;
S3、利用图像问题交互引导式注意力模块估计模态内自相关联系的重要性,并通过在两种不同模态之间建立语义关联关系,进一步更新图像区域特征和单词文本特征;
S4、利用注意力模型堆叠连接,逐步细化所要处理的图像特征和问题特征;
S5、将更新和细化后的图像特征和问题特征进行特征融合,预测出图像中与问题对应的答案。
2.如权利要求1所述的一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,
步骤S1中所述图像的基础特征提取过程为:给定输入图像样本I,通过在VisualGenome数据集进行Faster-RCNN模型训练来获得图像区域特征,处理过程的公式为X=FasterRCNN(I);所得到的图像区域特征为X={r1,r2,r3...rμ}∈Rμ×2048,其中,μ代表总的区域特征数目,第i个区域特征表达为ri∈R2048,对于每个输入图像样本,提取若干个目标区域的局部特征;
步骤S1中所述问题文本的基础特征提取过程为:给定问题Q,采用Glove词嵌入编码方法对文本特征进行表征,词嵌入将一个单词映射到一个高维的词向量中来代表这个单词,再通过门控循环单元GRU学习提取这个词向量的特征,处理过程的公式为Y=GRU(Q);对于每个问题Q,问题Q通过截断,填充的方法规范到τ的长度,采用Glove模型将这些单词嵌入到一个向量空间中,得到的问题特征为Y={e1,e2,e3...eτ}∈Rτ×1280,第j个词的特征词向量表达为ej∈R1280
3.如权利要求2所述的一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,步骤S2的具体过程为:
S21、在视觉问答模型中,通过自相关学习捕捉图像区域间和单词间特征对的语义自相关性,自注意力模块输入由Q、K和V组成,其表示形式为:
其中,Q、K和V都是由输入特征集经过变换映射产生得到,Q为查询向量,K为关键字向量,V为相关性向量,KT为关键字向量的转置,dk为K中向量的维度;
S22、针对输入的图像特征X和文本特征Y,其自注意力模型的输入可以由以下式子得到:
其中,和/>分别为图像和问题的注意力映射权重,再通过自注意力模块建立单一特征之间的权重矩阵,自注意力模型根据学习到的权重矩阵在两种模态之内建立自相关联系,从而进一步更新每个单词特征和图像区域特征。
4.如权利要求3所述的一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,步骤S22的具体过程为:
S221、使用图像的自注意力区域特征XQ与图像区域特征本身特征XK计算内积,得到图像区域特征间的自相关相似度:使用问题的自注意力文本特征YQ与文本特征本身特征YK计算内积,得到问题单词特征间的自相关相似度:/>
S222、计算得到模态内特征的自相关内积结果后,使用内积结果除以维度dim的平方根,再使用softmax函数将权重规范到(0,1)区间内:
图像和问题文本的自相关注意力权重图AttenM通过以下式子计算:
AttenMX←X=softmax(WX←XaX←X)
AttenMY←Y=softmax(WY←YaY←Y)
其中,WX←X和WY←Y是softmax层的参数矩阵,AttenMX←X∈Rμ×μ是图像区域特征间的自相关注意力权重,AttenMY←Y∈Rτ×τ是问题词向量特征间的自相关注意力权重;
S223、针对上述得到的图像和问题的自相关注意力权重,分别与图像特征XV和单词特征YV相乘,进行加权求和,得到更新后的图像和文本数据特征,公式表达分别为:
Xupdate=AttenMX←X×XV,Yupdate=AttenMY←Y×YV
在获取更新后的视觉和文字特征后,将其与原始的图像特征X和单词特征Y进行拼接,利用全连接层FC将拼接后的特征分别更新为新的图像自注意力特征和文本自注意力特征:
5.如权利要求4所述的一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,步骤S3的具体过程为:
S31、图像问题交互引导式注意力模块由问题引导图像的自注意力模块与图像引导问题的自注意力模块两部分组成,图像问题交互引导式注意力模块的输入由Q、K和V组成;
S32、针对输入的图像自注意力特征和文本自注意力特征/>其交互式注意力模型的输入由变换影射得到图像交互注意力模型输入/>和问题文本交互注意力模型输入/>
S33、在问题引导图像的自注意力模型内计算不同模态之间,图像区域特征与单词特征/>的内积:/>在图像引导问题的注意模块,计算问题特征/>与图像区域的特征/>的内积:/>
S34、计算得到模态间内积结果,使用内积结果除以维度dim的平方并与softmax函数对原始的权值进行归一化到(0,1)区间:
图像和问题文本的交互式注意力权重图通过以下式子计算得到:
AttenMX←Y=softmax(WX←YaX←Y)
AttenMY←X=softmax(WY←XaY←X)
其中,WX←Y和WY←X分别是注意力模型中softmax层的网络参数,AttenMX←Y∈Rμ×τ是问题引导的图像区域注意力权重,而AttenMY←X∈Rτ×μ是由图像引导的问题注意力权重,这两个权重矩阵学习了每个图像区域和单词之间的特征关系,得到的权重矩阵分别将其与图像区域特征及单词的值value特征/>进行加权,得到新特征:
S35、在获取更新后的视觉和文字特征后,将其与自相关注意力模块获取的图像自注意力特征X和文本自注意力特征进行拼接,利用全连通层将拼接后的特征分别更新为新的图像区域和文字特征进行输出:
得到加权特征继续输入到下一层的级联注意单元中,进一步更新视觉区域与单词特征。
6.如权利要求5所述的一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,步骤S4的具体过程为:在特征更新的过程中使用级联的方法实现多个注意层的叠加,前一个注意层的输出直接提供给下一个注意层,并利用随机梯度下降法训练出更有深度的模型;多层注意力模型的连接以及较深的模型引导嵌入注意模型逐步细化所要处理的图像特征和问题特征,发现并放大每个重要关系,从而提升模型的表征能力,级联方式的公式表达如下:
其中,第一层X0和Y0分别表示为输入的图像区域特征X和问题特征Y,SA·CA是共同关注的自我注意力机制,l是模型级联的层数。
7.如权利要求6所述的一种结合自相关与交互引导式注意力机制的视觉问答方法,其特征在于,步骤S5的具体过程为:
S51、采取特征乘法将将更新和细化后的图像特征和问题特征进行特征融合,以此获得融合后的统一特征;
S52、将融合后的特征通过由ReLU非线性函数组成的的多层感知层和最终的softmax函数转化为概率向量;
S53、利用Sigmoid将最终得分规范化为(0,1),最后预测阶段看作是预测每个候选答案正确性的逻辑回归,其目标函数是:
其中,指数z和k分别覆盖M个训练问题的N个候选答案,Szk是问题的真实答案,基本答案表是从出现超过5次的带注释的答案中提取出来的,分类模型采用交叉熵损失函数作为训练视觉问答模型的目标函数,整个视觉问答模型利用端到端方式进行训练。
CN202310549904.9A 2023-05-16 2023-05-16 一种结合自相关与交互引导式注意力机制的视觉问答方法 Withdrawn CN116484042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310549904.9A CN116484042A (zh) 2023-05-16 2023-05-16 一种结合自相关与交互引导式注意力机制的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310549904.9A CN116484042A (zh) 2023-05-16 2023-05-16 一种结合自相关与交互引导式注意力机制的视觉问答方法

Publications (1)

Publication Number Publication Date
CN116484042A true CN116484042A (zh) 2023-07-25

Family

ID=87221446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310549904.9A Withdrawn CN116484042A (zh) 2023-05-16 2023-05-16 一种结合自相关与交互引导式注意力机制的视觉问答方法

Country Status (1)

Country Link
CN (1) CN116484042A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法
CN117422704A (zh) * 2023-11-23 2024-01-19 南华大学附属第一医院 一种基于多模态数据的癌症预测方法、系统及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法
CN117422704A (zh) * 2023-11-23 2024-01-19 南华大学附属第一医院 一种基于多模态数据的癌症预测方法、系统及设备
CN117422704B (zh) * 2023-11-23 2024-08-13 南华大学附属第一医院 一种基于多模态数据的癌症预测方法、系统及设备

Similar Documents

Publication Publication Date Title
Cheng et al. Facial expression recognition method based on improved VGG convolutional neural network
CN116484042A (zh) 一种结合自相关与交互引导式注意力机制的视觉问答方法
CN110163299A (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111695779A (zh) 一种知识追踪方法、装置及存储介质
Guo et al. Sparse co-attention visual question answering networks based on thresholds
CN112036276B (zh) 一种人工智能视频问答方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111242197A (zh) 基于双视域语义推理网络的图像文匹配方法
CN114201592A (zh) 面向医学图像诊断的视觉问答方法
CN116975776B (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN114021722A (zh) 一种融合认知刻画的注意力知识追踪方法
Zheng et al. BDLA: Bi-directional local alignment for few-shot learning
CN116662591A (zh) 一种基于对比学习的鲁棒视觉问答模型训练方法
Hussain et al. Robotics and automation with artificial intelligence: improving efficiency and quality
CN114840649A (zh) 一种基于跨模态互注意力神经网络的学生认知诊断方法
Chen et al. STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos
CN117829298A (zh) 一种多跳时序知识图谱问答方法及系统
CN113761337A (zh) 基于事件隐式要素与显式联系的事件预测方法和装置
CN116541507A (zh) 一种基于动态语义图神经网络的视觉问答方法及系统
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
CN116932778A (zh) 一种基于vr技术的教学知识挖掘方法及系统
CN114781352B (zh) 一种基于语法依赖类型和方面间关联的情感分析方法
Li AI-Assisted Emotion Recognition: Impacts on Mental Health Education and Learning Motivation
CN114048361A (zh) 基于深度学习的众包软件开发者推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230725