CN113094484A - 基于异质图神经网络的文本视觉问答实现方法 - Google Patents

基于异质图神经网络的文本视觉问答实现方法 Download PDF

Info

Publication number
CN113094484A
CN113094484A CN202110370266.5A CN202110370266A CN113094484A CN 113094484 A CN113094484 A CN 113094484A CN 202110370266 A CN202110370266 A CN 202110370266A CN 113094484 A CN113094484 A CN 113094484A
Authority
CN
China
Prior art keywords
text
attention
heterogeneous graph
features
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110370266.5A
Other languages
English (en)
Inventor
高晨雨
朱琪
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110370266.5A priority Critical patent/CN113094484A/zh
Publication of CN113094484A publication Critical patent/CN113094484A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出一种基于异质图神经网络的文本视觉问答实现方法。该方法中网络结构分为问题自我注意力模型、异质图注意力模型和全局‑局部注意力应答模型三部分。问题自我注意力模型将一个具有T个单词的问题Q,通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量;异质图注意力模型从图像中构建异质图,采用注意力机制,使用不同的问题特征更新异质图的不同部分,得到问题条件下对象和文本的异质图特征;全局‑局部注意力应答模型采用迭代的方式,得到函数预测答案。本方法中,二分支评价函数使得生成的答案可以同时兼顾OCR标记和一般文本标记,从而提高了应答的准确率,最终达到高精度的效果。

Description

基于异质图神经网络的文本视觉问答实现方法
技术领域
本发明属基于文本视觉问答领域,具体为采用问题自我注意模块-异质图注意力模型-全局局部注意力应答模型结构的高精度文本视觉问答实现方法。
背景技术
视觉问答(visual Question answer,VQA)是计算机视觉和自然语言处理领域的一个交叉领域,自大规模的VQA数据集发布以来,该领域引起了越来越多的关注。随着深度神经网络的发展,视觉问答技术已经取得了很大的进步。文本视觉问答(TextVQA)是近年来提出的一项挑战,它要求机器读取图像中的文本,并通过对问题、光学字符识别(OCR)标记和视觉内容的联合推理来回答自然语言问题。大多数最先进的VQA方法无法回答这些问题,原因是:1)文本阅读能力差;2)缺乏文视推理能力;3)应答机制在最终应答中难以同时覆盖OCR标记和一般文本标记。
因此,本专利主要为了解决上述问题而设计。本专利使得文本视觉应答算法能够在高文本阅读能力和文视推理能力,以及同时兼顾OCR标记和一般文本标记的前提下,达到高精确度的效果。
发明内容
为了解决上述问题,本发明提供了一种基于异质图神经网络的文本视觉问答实现方法。
本发明的技术方案如下:一种基于异质图神经网络的文本视觉问答实现方法,所述网络结构分为问题自我注意力模型、异质图注意力模型和全局-局部注意力应答模型三部分(如图1所示)。问题自我注意力模型(如图2所示)基于BERT网络,获取文本问题的词向量特征,再通过六分类网络将问题特征分解为六个子组件,包括对象(object,o),对象-对象关系(object-object,oo),对象-文本关系(object-text,ot),文本(text,t),文本-文本关系(text-text,tt),文本-对象关系(text-object,to),并提取每个组件的分解的问题特征和自我注意力权重。异质图注意力模型(如图3所示)受图卷积网络的启发而设计,从输入图像中提取对象和文本相关信息并构建异质图,使用前一步得到的分解的问题特征采用注意力机制对异质图进行推理,得到结点和边的注意力权重和异质图问题特征。全局-局部注意力应答模型(如图4所示)受M4C模型启发,使用transformer将分解的问题特征和异质图问题特征进行特征融合,在解码部分使用我们设计的二分支评价函数以迭代的方式生成同时兼顾OCR标记和一般文本标记的答案。
所述文本视觉问答实现方法包括以下主要步骤:
(1)问题自我注意力模型将一个具有T个单词的问题Q表示为词向量
Figure BDA0003009001050000021
通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量
Figure BDA0003009001050000022
词向量
Figure BDA0003009001050000023
通过六个单独的三层MLP网络,同时每个网络后紧接着softmax层,从而生成T个单词对应六种组件的注意力权重的集合
Figure BDA0003009001050000024
结合词向量
Figure BDA0003009001050000025
从而得到六个组件的分解的问题特征so,soo,sot,st,stt,sto。此外,将词向量
Figure BDA0003009001050000026
直接通过全连接层和softmax层得到六个组件的自我注意权重wo,woo,wot,wt,wtt,wto
(2)异质图注意力模型从图像中构建异质图
Figure BDA0003009001050000027
其中
Figure BDA0003009001050000028
是图像中N个对象结点的集合,
Figure BDA0003009001050000029
是图像中M个文本结点的集合,ε={eij}是两个独立结点之间的关系的集合。之后采用注意力机制,使用不同的问题特征更新异质图的不同部分。根据分解的问题特征so,soo,sot,st,stt,sto得到六个组件的异质图注意力权重po,poo,pot,pt,ptt,pto和从单独对象中提取的特征
Figure BDA00030090010500000210
从文本区域提取的特征
Figure BDA00030090010500000211
(3)将六个组件的自我注意权重wo,woo,wot,wt,wtt,wto和异质图注意力权重po,poo,pot,pt,ptt,pto结合得到对象的综合注意力权重
Figure BDA00030090010500000212
和文本的综合注意力权重
Figure BDA00030090010500000213
将对象和文本的综合注意力权重和从对象和文本中提取的特征
Figure BDA00030090010500000214
Figure BDA00030090010500000215
结合得到问题条件下对象和文本的异质图特征gobj和gtext
(4)全局-局部注意力应答模型采用迭代的方式,每次将问题的分解的问题特征so,soo,sot,st,stt,sto,对象的异质图特征gobj,文本的异质图特征gtext和OCR特征输入到transformer层进行特征融合,融合后的特征输入到二元分支评价函数预测答案。答案空间是两部分的结合:包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征。选择最高的分数作为结果。在第一次迭代中,将融合特征作为输入,而在剩下迭代步骤中,使用前一个更新的输出作为输入进行迭代解码。考虑到最终的答案有两个来源,采用多标签sigmoid损失代替softmax。
本发明的有益效果是:在阅读方面,本发明使用异质图表示的方法去编码图像中的对象-对象、对象-文本、文本-文本、文本-对象关系,从而增强了图像的文本阅读能力;在推理方面,设计使用异质图注意力网络,采用注意力机制进行推理,从而增强了模型的文视推理能力。在应答方面,二分支评价函数使得生成的答案可以同时兼顾OCR标记和一般文本标记,从而提高了应答的准确率,最终达到高精度的效果。
Figure BDA0003009001050000031
表1:ablation study实验结果
为了验证本发明在阅读和推理方面的效果,我们进行了一项ablation study,在没有丰富的OCR表示和迭代应答模块的情况下,我们在Text VQA数据集上对其进行了评价。测试结构的变换及其结果如表1所示。实验结果表明:四种模型关系都提高了精度。特别是,文本-对象关系(to)相对于其他关系的应用对精确度有着更大的提高。总的来说,源于文本(to和tt)的关系比对象(oo和ot)的关系更重要,这验证了文本在textVQA任务中的关键作用。
Figure BDA0003009001050000041
表2:不同文本视觉问答实现方法实验对比结果
为了验证本发明的应答准确率和精度的效果,我们和优秀的文本视觉问答实现方法LoRRA、DCD、MSFT_VTI以及目前最新并且精度最高的M4C算法在Text VQA数据集上进行了对比。实验的结果如表2所示。对比6和7行,我们可以发现,我们提出的迭代式应答模块(decoder)比基于区分分类器的应答模块(classifier)有很大的优势(验证集准确率提升为4%),这表明生成可变长度答案的能力对文本VQA具有重要意义。对比7和8行,对编码问题的GloVe和BERT特征进行了评估,后者在验证准确率方面优于前者0.55%。通过比较表2中的第8行和第9行,我们可以看到通过添加OCRs的RecogCNN特征,精确度进一步提高了0.47%。通过对比所有算法的精确度,可以看到本发明的算法具有高精度的效果。整个模型结构如图1所示。
附图说明
图1是本发明中异质图网络整体结构图;
图2是本发明中问题自我注意力模型结构图
图3是本发明中异质图注意力模型结构图
图4是本发明中全局-局部注意力应答模型结构图
图5是实施例中可视化的结果
具体实施方式
下面是本发明文本视觉问答实现方法的一个具体实施例,考虑到中间结果为高维空间数据,难以直接展示,我们将通过可视化的角度来介绍具体的实施例,可视化的结果如图5所示。
本发明提供了一种基于异质图神经网络的文本视觉问答实现方法,具体过程如下:
1、分解的问题特征和问题自我注意权重的生成
问题自我注意力模型首先将一个具有T个单词的问题Q表示为词向量
Figure BDA0003009001050000051
通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量
Figure BDA0003009001050000052
词向量
Figure BDA0003009001050000053
通过六个单独的三层MLP网络,同时每个网络后紧接着softmax层,从而生成T个单词对应六种组件的注意力权重的集合
Figure BDA0003009001050000054
Figure BDA0003009001050000055
结合词向量
Figure BDA0003009001050000056
得到六个组件的分解的问题特征so,soo,sot,st,stt,sto。以
Figure BDA0003009001050000057
和so为例,其计算公式如下:
Figure BDA0003009001050000058
将词向量
Figure BDA0003009001050000059
直接通过全连接层和softmax层得到六个组件的自我注意权重wo,woo,wot,wt,wtt,wto,其计算公式如下:
Figure BDA00030090010500000510
其中
Figure BDA00030090010500000511
Figure BDA00030090010500000512
以图5问题(a)为例,输入文本问题“what number is on the bike on theright?”,经过模型处理之后提取到的六个组件的分解的问题特征在问题的下方进行了可视化展示。其中颜色的深浅表示该问题特征对该单词的关注程度,颜色越深,关注度越强。so表示对象的问题特征,可视化的结果显示so更关注单词“number”和“bike”,根据我们人的认知,数字和摩托车的对象特征确实相对更加明显。st表示文本的问题特征,可视化的结果显示st更关注单词“number”,数字确实具有很强的文本特征。sto表示文本-对象关系的问题特征,可视化的结果显示sto关注整个语句“what number on the bike on the right”、更关注“on the bike”和“the right”,并且最关注单词“what”,从人的理解来看,该语句表示了一个由对象(bike)到文本(number)的关系,而可视化的结果以及关注程度的强弱也映射了该关系。其他的问题特征也具有相似性,在此不做一一解释。
2、异质图的构建和异质图注意力权重的生成
2.1异质图的构建
异质图注意力模型从图像中构建异质图
Figure BDA0003009001050000061
其中
Figure BDA0003009001050000062
是图像中N个对象结点的集合,
Figure BDA0003009001050000063
是图像中M个文本结点的集合,ε={eij}是两个独立结点之间的关系的集合。“异质”意味着我们明确地使用每个结点的角色信息来构建图。在构建的异质图中,每个结点可以连接k=5个对象结点加k=5个文本结点。我们可以根据不同的角色将边进一步划分为四个集合:εoo对应oo边,εot对应ot边,εtt对应tt边,εto对应to边。这里我们展示εoo是如何构建:对于一个对象结点oi,我们将剩余的对象结点按其到oi的空间距离的顺序进行排序,并将其邻域
Figure BDA0003009001050000064
定义为排在前k位的对象结点。
我们根据两个结点之间的相对空间关系,建立它们之间的边的表示。这里以oo边的构建为例:假设一个结点oi的中心坐标、宽度和高度表示为
Figure BDA0003009001050000065
另一个结点oj的左上角坐标、右下角坐标、宽度和高度表示为
Figure BDA0003009001050000066
则结点oi和结点oj相对应的边定义为
Figure BDA0003009001050000067
2.2异质图注意力权重的生成
对于生成的异质图,将前面生成的分解的问题特征so,soo,sot,st,stt,sto作为指导信号,采用注意力机制,对异质图进行推理。在推理的过程中,使用不同的问题特征更新异质图的不同部分。例如,与对象相关的问题特征so被用来指导对象结点的注意力权重的生成,与对象-文本关系的问题特征sot被用来指导对象-文本边的注意力权重的生成。因此,可以得到关于对象结点的注意力权重(po),文本结点的注意力权重(pt),对象-对象的边的注意力权重(poo),对象-文本的边的注意力权重(pot),文本-文本的边的注意力权重(ptt),文本-对象的边的注意力权重(pto),注意力权重的计算公式如下:
pm=Attm({xobj},{xtext},{eij},sm) (3)
其中m={o,oo,ot,t,tt,to},Attm是一种注意力机制,使用问题特征和图中的特定结点或边来计算注意力权重,将会在后面介绍。xobj和xtex2分别代表从单独对象和文本区域中提取的特征。
(1)对象结点注意力权重的计算
对象结点由来自Faster R-CNN检测器生成的2048维外观特征
Figure BDA0003009001050000071
和4维相对边界框坐标
Figure BDA0003009001050000072
(即
Figure BDA0003009001050000073
)表示。在与对象相关的问题特征so的指导下,对象结点的注意力权重的计算如下:
Figure BDA0003009001050000074
其中LN(o)是正则化层;
Figure BDA0003009001050000075
和wo是要学习的线性变换参数。最终通过将
Figure BDA0003009001050000076
输入到softmax层得到对象结点的注意力权重
Figure BDA0003009001050000077
(2)文本结点注意力权重的计算
对于文本结点,使用多个特征的结合丰富OCR的表示。使用预训练的FastText生成300维的FastText特征
Figure BDA0003009001050000078
Faster R-CNN检测器生成的2048维外观特征
Figure BDA0003009001050000079
604维的PHOC(Pyramidal Histogram of Characters)特征
Figure BDA00030090010500000710
RecogCNN生成的512维CNN特征
Figure BDA0003009001050000081
和4维相对边界框特征
Figure BDA0003009001050000082
表示。在与文本相关的问题特征st的指导下,文本结点的注意力权重的计算如下:
Figure BDA0003009001050000083
其中
Figure BDA0003009001050000084
和wt是要学习的线性变换参数。最终通过将
Figure BDA0003009001050000085
输入到softmax层得到文本结点的注意力权重
Figure BDA0003009001050000086
(3)边注意力权重的计算
边的注意力权重的计算需要考虑两个结点的关系。因为不同类型的边的注意力权重poo,pot,ptt,pto的计算过程相似,所以下面只介绍poo的计算方法。
其计算方法分两步,首先,对于每一个结点oi,通过所有连接到结点oi的oo边计算其注意力权重
Figure BDA0003009001050000087
计算方法如下:
Figure BDA0003009001050000088
其中foo是一个MLP,用于编码初始化oo边特征(由关系特征eij和连接结点特征
Figure BDA0003009001050000089
拼接);
Figure BDA00030090010500000810
Figure BDA00030090010500000811
分别将oo边相关的问题特征soo和边特征
Figure BDA00030090010500000812
映射到相同维度的向量中。注意力权重
Figure BDA00030090010500000813
通过softmax层在结点oi的领域
Figure BDA00030090010500000814
上进行归一化。
在第二步中,通过所有对象结点计算oo边的注意力权重
Figure BDA00030090010500000815
计算方法如下:
Figure BDA00030090010500000816
Figure BDA0003009001050000091
其中
Figure BDA0003009001050000092
是在问题条件下结点oi的oo边特征。因此,使用与上述相似的公式,通过单独的初始边特征,问题特征和变换参数可以得到注意力权重pot,ptt,pto的结果。
以图5问题(a)为例,将图像输入到模型之中通过构建异质图以及特征推理,对六类注意力权重po,poo,pot,pt,ptt,pto选取每个种类中权重值最大的结果进行了可视化,可视化结果如六张图所示。其中黄色目标框是对对象结点的标注,蓝色目标框是对文本结点的标注,对象与文本之间的关系使用箭头来表示。po表示对输入图片中对象的关注程度,其受so的指导推理而生成,根据第一张图的可视化结果,po更关注于图像中的最右边的对象(摩托车)。pt表示对输入图片中文本的关注程度,其受st的指导推理而生成,根据第二张图的可视化结果,pt更关注于图像中的最右边的文本(数字317)。pto表示对输入图片中文本的关注程度,其受sto的指导推理而生成,根据第六张图的可视化结果,pto更关注于图像中的最右边的由文本(数字317)到对象(摩托车)的关系。其他的问题特征也具有相似性,在此不做一一解释。
3、问题条件下对象和文本的异质图特征的计算
对于每个对象结点oi,有其异质图注意力权重
Figure BDA0003009001050000093
对于每个文本结点ti,有其异质图注意力权重
Figure BDA0003009001050000094
使用问题自我注意力权重(wo,woo,wot,wt,wtt,wto)和他们结合,对于每一个对象结点,最终的权重分数通过三部分的权重和计算:
Figure BDA0003009001050000095
每一个文本结点,最终d额权重为:
Figure BDA0003009001050000096
因为wo+woo+wot=1,
Figure BDA0003009001050000097
Figure BDA0003009001050000098
同理
Figure BDA0003009001050000099
权重
Figure BDA00030090010500000910
Figure BDA00030090010500000911
衡量了对象和文本结点与问题的相关性,因此用他们来生成问题条件下目标和文本的异质图特征,计算公式如下:
Figure BDA0003009001050000101
4、最终答案的生成
在全局局部注意力应答模型中,异质图特征gobj和gtext不是直接和全局问题特征so,soo,sot,st,stt,sto融合,而是通过和局部的OCR特征输入到transformer的应答模块进行更新。与对象相关的和与文本相关的问题特征拼接在一起:
Figure BDA0003009001050000102
Figure BDA0003009001050000103
gobj,gtext一起输入到transformer层更新为
Figure BDA0003009001050000104
在这个过程中这些全局特征和局部OCR特征可以自由融合。
然后,将更新的特征
Figure BDA0003009001050000105
和他们各自的问题特征
Figure BDA0003009001050000106
融合在一起,如下所示:
Figure BDA0003009001050000107
在第一次迭代,预测答案概率
Figure BDA0003009001050000108
Figure BDA0003009001050000109
其中Wg是一个线性变换,fpred是一个二分支评价函数,它解决了文本视觉问答任务中答案可能是动态文本在不同问题中发生变化的难题。答案空间是两部分的结合:一个包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征。两个分支计算各自的分数。一个分支是一个简单的线性层,把输入映射到5000维的分数向量,另一个分支计算输入和每一个更新的OCR特征的点积。然后两个分支的分数拼接在一起,选择最高的分数作为结果。
在第一次迭代中,将融合特征的拼接作为输入,而在剩下迭代步骤中,使用前一个更新的输出作为输入迭代解码:
Figure BDA00030090010500001010
其中gdec是前一个输出gdec作为输入的应答模块的输出。如果前一个输出来自OCR分支,则gdec作为OCR特征在下一次迭代中输入到应答模块中,如果来自线性层分支,那么将通用词汇表的线性层权重替换为gdec。此外,还将位置特征和类型特征添加到解码输入中,其中类型特征表示次输入是固定词汇还是OCR特征。考虑到最终的答案有两个来源,采用多标签sigmoid损失代替softmax。
以图5问题(a)为例,在该部分综合了由问题自我注意力模型提取的分解的问题特征和异质图注意力模型提取的问题条件下的对象和文本的特征,通过迭代预测出最有可能的答案317,和问题最终的正确答案相同。
在此给出模型的训练方法:
我们的模型使用PyTorch框架实现。训练过程使用了6个NVIDIA GeForce GTX1080Ti GPU,每个batch大小为128。对象和OCR的基于区域的外观特征是从fc6层提取的,fc6层紧跟在Faster R-CNN模型的Rol-Pooling层之后。模型在Visual Genome上进行预训练,然后在TextVQA上对fc7层进行微调。对象区域的最大数目是36。对于文本结点,我们运行一个独立的Rosetta OCR系统来识别单词字符串,它有两个版本:多语言(Rosetta-ml)和纯英语(Rosetta-en)。我们最多可以识别图像中的50个OCR标记,并基于它们生成丰富的OCR特征。如果以上任何一项低于最大值,我们将对其余部分应用零填充。我们将问题的最大长度设置为20,并通过预训练的BERT的前三层将其编码为768维的特征序列,其参数在训练过程中进一步微调。我们的应答模块使用4层transformer和12个注意力头。其他超参数与BERT-BASE相同。最大解码步数设置为12。
除了用于问题编码的三层BERT网络和用于区域特征编码fc7层(学习率为1e-5),其他所有层的学习率都为1e-4。在14000和19000次迭代中,我们将学习率乘以0.1,优化器是Adam。在每1000次迭代中,我们计算验证集上的VQA精确度,根据所有这些度选择性能最佳的模型。为了捕捉文本识别中的错误,ST-VQA数据集采用Average NormalizedLevenshtein Similarity(ANLS)作为其官方评估度量。我们对ST-VQA数据集也应用此度量。我们所有的实验结果由相关在线平台生成。
模型应用:
在经过上面的训练过程后可以得到多个模型,选取其中最优的模型(损失函数值最小)用于应用。在模型的应用过程中,整个的网络模型的参数都固定不动,只要输入文本问题和图像数据并进行网络模型的正向推理即可。输入内容经过问题自我注意模块,异质图注意力模型,全局局部注意力应答模型,最终得到输入的文本问题的答案。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均在本发明的保护范围之内。

Claims (1)

1.基于异质图神经网络的文本视觉问答实现方法,其特征在于,所述网络结构分为问题自我注意力模型、异质图注意力模型和全局-局部注意力应答模型三部分;
所述问题自我注意力模型基于BERT网络,获取文本问题的词向量特征,再通过六分类网络将问题特征分解为六个子组件,包括对象(object,o),对象-对象关系(object-object,oo),对象-文本关系(object-text,ot),文本(text,t),文本-文本关系(text-text,tt),文本-对象关系(text-object,to),并提取每个组件的分解的问题特征和自我注意力权重;
所述异质图注意力模型受图卷积网络的启发而设计,从输入图像中提取对象和文本相关信息并构建异质图,使用前一步得到的分解的问题特征采用注意力机制对异质图进行推理,得到结点和边的注意力权重和异质图问题特征;
所述全局-局部注意力应答模型使用transformer将分解的问题特征和异质图问题特征进行特征融合,在解码部分使用我们设计的二分支评价函数以迭代的方式生成同时兼顾OCR标记和一般文本标记的答案;
所述文本视觉问答实现方法包括以下主要步骤:
(1)问题自我注意力模型将一个具有T个单词的问题Q表示为词向量
Figure FDA0003009001040000011
通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量
Figure FDA0003009001040000012
词向量
Figure FDA0003009001040000013
通过六个单独的三层MLP网络,同时每个网络后紧接着softmax层,从而生成T个单词对应六种组件的注意力权重的集合
Figure FDA0003009001040000014
结合词向量
Figure FDA0003009001040000015
从而得到六个组件的分解的问题特征so,soo,sot,st,stt,sto;此外,将词向量
Figure FDA0003009001040000016
直接通过全连接层和softmax层得到六个组件的自我注意权重wo,woo,wot,wt,wtt,wto
(2)异质图注意力模型从图像中构建异质图
Figure FDA0003009001040000017
其中
Figure FDA0003009001040000018
是图像中N个对象结点的集合,
Figure FDA0003009001040000021
是图像中M个文本结点的集合,ε={eij}是两个独立结点之间的关系的集合;之后采用注意力机制,使用不同的问题特征更新异质图的不同部分;根据分解的问题特征so,soo,sot,st,stt,sto得到六个组件的异质图注意力权重po,poo,pot,pt,ptt,pto和从单独对象中提取的特征
Figure FDA0003009001040000022
从文本区域提取的特征
Figure FDA0003009001040000023
(3)将六个组件的自我注意权重wo,woo,wot,wt,wtt,wto和异质图注意力权重po,poo,pot,pt,ptt,pto结合得到对象的综合注意力权重
Figure FDA0003009001040000024
和文本的综合注意力权重
Figure FDA0003009001040000025
将对象和文本的综合注意力权重和从对象和文本中提取的特征
Figure FDA0003009001040000026
Figure FDA0003009001040000027
结合得到问题条件下对象和文本的异质图特征gobj和gtext
(4)全局-局部注意力应答模型采用迭代的方式,每次将问题的分解的问题特征so,soo,sot,st,stt,sto,对象的异质图特征gobj,文本的异质图特征gtext和OCR特征输入到transformer层进行特征融合,融合后的特征输入到二元分支评价函数预测答案;答案空间是两部分的结合:包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征;选择最高的分数作为结果;在第一次迭代中,将融合特征作为输入,而在剩下迭代步骤中,使用前一个更新的输出作为输入进行迭代解码。
CN202110370266.5A 2021-04-07 2021-04-07 基于异质图神经网络的文本视觉问答实现方法 Pending CN113094484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110370266.5A CN113094484A (zh) 2021-04-07 2021-04-07 基于异质图神经网络的文本视觉问答实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110370266.5A CN113094484A (zh) 2021-04-07 2021-04-07 基于异质图神经网络的文本视觉问答实现方法

Publications (1)

Publication Number Publication Date
CN113094484A true CN113094484A (zh) 2021-07-09

Family

ID=76674192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110370266.5A Pending CN113094484A (zh) 2021-04-07 2021-04-07 基于异质图神经网络的文本视觉问答实现方法

Country Status (1)

Country Link
CN (1) CN113094484A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420833A (zh) * 2021-07-21 2021-09-21 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113792177A (zh) * 2021-08-05 2021-12-14 杭州电子科技大学 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113792617A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN114117060A (zh) * 2021-10-26 2022-03-01 苏州浪潮智能科技有限公司 评论数据的质量分析方法、装置、电子设备及存储介质
CN114254618A (zh) * 2021-12-14 2022-03-29 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
CN115062208A (zh) * 2022-05-30 2022-09-16 苏州浪潮智能科技有限公司 数据处理方法、系统及计算机设备
CN115130663A (zh) * 2022-08-30 2022-09-30 中国海洋大学 基于图神经网络和注意力机制的异质网络属性补全方法
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
WO2023207059A1 (zh) * 2022-04-29 2023-11-02 山东海量信息技术研究院 一种视觉问答任务处理方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN111897974A (zh) * 2020-08-12 2020-11-06 吉林大学 一种基于多层注意力机制的异质知识图谱学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111897974A (zh) * 2020-08-12 2020-11-06 吉林大学 一种基于多层注意力机制的异质知识图谱学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENYU GAO 等: "Structured Multimodal Attentions for TextVQA", ARXIV, 1 June 2020 (2020-06-01), pages 1 - 19 *
秦先祥;余旺盛;王鹏;陈天平;邹焕新: "基于复值卷积神经网络样本精选的极化SAR图像弱监督分类方法", 雷达学报, vol. 9, no. 003, 31 December 2020 (2020-12-31) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420833A (zh) * 2021-07-21 2021-09-21 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113792177A (zh) * 2021-08-05 2021-12-14 杭州电子科技大学 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113792177B (zh) * 2021-08-05 2023-02-03 杭州电子科技大学 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN113792617A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN114117060A (zh) * 2021-10-26 2022-03-01 苏州浪潮智能科技有限公司 评论数据的质量分析方法、装置、电子设备及存储介质
CN114117060B (zh) * 2021-10-26 2023-11-17 苏州浪潮智能科技有限公司 评论数据的质量分析方法、装置、电子设备及存储介质
CN114254618A (zh) * 2021-12-14 2022-03-29 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
CN114254618B (zh) * 2021-12-14 2024-09-20 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
WO2023207059A1 (zh) * 2022-04-29 2023-11-02 山东海量信息技术研究院 一种视觉问答任务处理方法、系统、电子设备及存储介质
CN115062208A (zh) * 2022-05-30 2022-09-16 苏州浪潮智能科技有限公司 数据处理方法、系统及计算机设备
CN115062208B (zh) * 2022-05-30 2024-01-23 苏州浪潮智能科技有限公司 数据处理方法、系统及计算机设备
CN115130663B (zh) * 2022-08-30 2023-10-13 中国海洋大学 基于图神经网络和注意力机制的异质网络属性补全方法
CN115130663A (zh) * 2022-08-30 2022-09-30 中国海洋大学 基于图神经网络和注意力机制的异质网络属性补全方法
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN113094484A (zh) 基于异质图神经网络的文本视觉问答实现方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Sun et al. Discriminative triad matching and reconstruction for weakly referring expression grounding
CN113010656B (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN114092707A (zh) 一种图像文本视觉问答方法、系统及存储介质
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN113191357B (zh) 基于图注意力网络的多层次图像-文本匹配方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN111428443A (zh) 一种基于实体上下文语义交互的实体链接方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN109271632B (zh) 一种监督的词向量学习方法
CN111368197A (zh) 一种基于深度学习的评论推荐系统及方法
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
Wang et al. A text-guided generation and refinement model for image captioning
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Qi et al. Cogcom: Train large vision-language models diving into details through chain of manipulations
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN117609536A (zh) 基于语言引导的指称表达理解推理网络系统及推理方法
CN117271748A (zh) 一种基于语言图模型的法案智能分析方法及系统
CN118014077A (zh) 一种基于知识蒸馏的多模态思维链推理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination