CN108170816B - 一种基于深度神经网络的智能视觉问答方法 - Google Patents

一种基于深度神经网络的智能视觉问答方法 Download PDF

Info

Publication number
CN108170816B
CN108170816B CN201711494024.7A CN201711494024A CN108170816B CN 108170816 B CN108170816 B CN 108170816B CN 201711494024 A CN201711494024 A CN 201711494024A CN 108170816 B CN108170816 B CN 108170816B
Authority
CN
China
Prior art keywords
visual
feature
image
question
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711494024.7A
Other languages
English (en)
Other versions
CN108170816A (zh
Inventor
纪荣嵘
周奕毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanqiang Zhishi (Xiamen) Technology Co.,Ltd.
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201711494024.7A priority Critical patent/CN108170816B/zh
Publication of CN108170816A publication Critical patent/CN108170816A/zh
Application granted granted Critical
Publication of CN108170816B publication Critical patent/CN108170816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度神经网络的智能视觉问答模型,涉及人工智能领域中的智能视觉问答。包括以下步骤:智能问答数据预处理;图像深度卷积特征抽取;文本问题深度特征抽取;智能视觉问题处理;基于枢纽通道的视觉智能问答。采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。设计了一新型的深度学习网络结构,该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明,该网络结构包含一视觉描述模块,可根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计,能将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。

Description

一种基于深度神经网络的智能视觉问答方法
技术领域
本发明涉及人工智能领域中的智能视觉问答,尤其是涉及一种基于深度神经网络的智能视觉问答方法。
背景技术
视觉智能问答(Visual Question Answering)是今年来计算机科学届提出的一个机器终极智能任务。它的任务内容为基于一张给定图像的内容来回答由人类提出的自然语言问题。该任务在2010年由卡耐基梅隆大象的Bigham等人在《User Interface Softwareand Technology》进行首次提出[1]。2015年,佛吉尼亚理工学院的Stanislaw Antol等人在国际视觉会议ICCV发布了第一个针对视觉智能问答的大规模数据集,该数据集在亚马逊线上平台上由人工制作而成,数据内容包含了人类自然的问答习惯[2]。随着此数据集的发布,视觉智能问答从2015年起至今获得了学术界和工业届的巨大关注。
智能视觉问答代表这人工智能研究的一个新顶峰,是人类逼近人类智慧的一个重要体现。由于智能视觉问答任务内容的特殊性,该研究方向的发展往往基于计算机视觉和自然语言处理等两大领域的最新研究进展。与传统的文本问答或者多模态研究问题相比,视觉智能问答往往要求机器模型对视觉和文本内容进行了解,并能在内容获取的基础上做出逻辑推理以完成最终的人类问答。视觉智能问答同时具有巨大的工业应用场景,这些场景包括了:智能在线问答、无人驾驶、智能装备以及视觉残疾人障碍辅助。
2015年,Antol等人对智能视觉问答任务提出了一个基准模型,该模型通过深度卷积神经网络获取图片的高级视觉语义特征,并将该视觉语义特征作为递归神经网络的初始输入与文本特征进行传递与学习[2]。Ma等人采用卷积网络对图像与文本特征进行高级语义特征抽取,并用卷积方式对两个模态的特征进行融合,用最终的融合特征进行答案预测[3]。2016年,Yang等人[4]在国际视觉与模式识别会议上提出了基于多步骤推理的智能视觉问答模型,该模型采用了2015年Benjio[5]提出的视觉注意力机制对图像重要内容进行关注,并首次使用了多步关注的设计获得更好的任务特征。Lu等人对该问答注意力机制进行了拓展,提出了对图像内容和问题内容进行架构化关注的模型[6]。Fukui等人采用了紧凑双线性池化操作对视觉特征和问题特征进行融合,并通过扩大训练数据的方式极大的提高了视觉智能问答的性能。
虽然智能视觉问答在近两年中获得了极大的发展,但仍然存在有两大问题。首先是训练数据的不足:现有的智能视觉问答数据集的数据规模虽然达到了100万左右,但与传统的图像分类、目标检测等任务相比仍具有巨大的差距;此外,智能视觉问答的模型参数往往数以千万级,小量的训练数据往往未能充分发挥模型的性能。另一个问题是机器提供的问题答案不具备解释性:由于深度学习模型的黑盒设计,导致机器的做出回答的理由与原因往往难以给出;该情形会极大限制智能视觉问答在工业届中的推广与使用。
参考文献:
[1]Bigham J P,Jayant C,Ji H,et al.VizWiz:nearly real-time answers tovisual questions[C].user interface software and technology,2010:333-342.
[2]Antol S,Agrawal A,Lu J,et al.VQA:Visual Question Answering[C].international conference on computer vision,2015:2425-2433.
[3]Lin Ma,Zhengdong Lu,and Hang Li.2015.Learning to answer questionsfrom image using convolutional neural network.arXiv preprint arXiv:1506.00333(2015).
[4]Yang Z,He X,Gao J,et al.Stacked Attention Networks for ImageQuestion Answering[C].computer vision and pattern recognition,2015:21-29.
[5]Kelvin Xu,Jimmy Ba,Ryan Kiros,Kyunghyun Cho,Aaron C Courville,Ruslan Salakhutdinov,Richard S Zemel,and Yoshua Bengio.2015.Show,Attend andTell:Neural Image Caption Generation with Visual Attention..In ICML,Vol.14.77–81.
[6]Jiasen Lu,Jianwei Yang,Dhruv Batra,and DeviParikh.2016.Hierarchical question-image co-attention for visual questionanswering.In Advances In Neural Information Processing Systems.289–297.
[7]Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,TrevorDarrell,and Marcus Rohrbach.2016.Multimodal compact bilinear pooling forvisual question.
发明内容
本发明的目的是提供采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题的一种基于深度神经网络的智能视觉问答方法。
本发明包括以下步骤:
1、智能问答数据预处理;
2、图像深度卷积特征抽取;
3、文本问题深度特征抽取;
4、智能视觉问题处理;
5、基于枢纽通道的视觉智能问答。
在步骤1中,所述智能问答数据预处理的具体步骤可为:
(1)将所有图像尺度调整为448×448规格的分辨率;
(2)对所有训练数据中的文本内容进行去停用词处理,将所有英文词汇进行小写化;然后对文本内容进行分词,从中选取出现频率最高的8000个作为答案字典,并选取出现频率最高的20000个词汇作为图像描述词典。
在步骤2中,所述图像深度卷积特征抽取的具体步骤可为:
使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征地图,表示为FI∈R14×14×2048;此处14×14为图像的特征区域,2048表示为每个特征块的特征维度。
在步骤3中,所述文本问题深度特征抽取的具体步骤可为:
使用双向递归神经网络对问题特征进行抽取,双向递归神经网络中的处理单位为LSTM单位;用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的表征fq,该特征表示为:
Figure GDA0002720322390000031
α=Softmax(hf||hb).
其中,N表示为递归网络对每个问题处理的最大步数。
在步骤4中,所述智能视觉问题处理的具体步骤可为:
(1)视觉内容堵塞处理:由于一张图像的视觉表现内容丰富,为了让机器更加关注与问题相关的视觉内容从而提升问题回答的准确性,采取了视觉内容堵塞操作;在获取了图像的卷积特征地图FI和问题特征fq后,将两个模态的特征投影到相同的语义空间中,然后使用点乘的方式进行特征融合;随后使用Sigmoid激活函数对特征进行计算获取图像每个特征区域的权重值,并根据该权重值将卷积特征值进行更新获取内容过滤后的新特征Fa1
Fa1=A⊙FI
Figure GDA0002720322390000041
Figure GDA0002720322390000042
(2)图像内容注意力机制操作:为了获取有效的图像特征,采用视觉注意力机制,根据所给定的文本内容锁定图像中最相关的视觉特征;在给定新的视觉卷积特征地图Fa1和问题特征fq后,进行与步骤1相似的操作,获取图像精准视觉特征va2
Figure GDA0002720322390000043
Figure GDA0002720322390000044
(3)图像内容推理操作:在获得了图像精准视觉特征后,再次根据问题内容采用注意力机制进行问题逻辑推理;用精准视觉特征va2和问题特征fq进行融合,获得进行的任务背景信息特征fj,用任务背景信息特征fj与视觉卷积特征地图Fa1进行相互结合获取新的特征块权重值,然后加权获取最终的视觉特征va3;可用如下公式表示:
Figure GDA0002720322390000045
Figure GDA0002720322390000046
fj=σ(Ujfq⊙Vjva2).
(4)多模态特征结合并分类:在获取最终的视觉特征va3和问题特征fq后,用上述的语义映射方法将两种特征结合获得图像与问题的共同表征fj,并将该特征输入一多层感知机,然后用Softmax方法对最后的特征进行答案预测;获得智能视觉通道下的预测答案。
在步骤5中,所述基于枢纽通道的视觉智能问答的具体步骤可为:
(1)基于问题内容的图像内容描述;
a)解析网络初始特征生产:在获取问题特征fq和内容过滤后的视觉卷积特征地图Fa1后,使用单向的LSTM网络对相关的视觉内容进行解析,并生成模型问题作答的文本解释;使用va3特征生成LSTM网络的初始隐层特征
Figure GDA0002720322390000047
和初始背景特征
Figure GDA0002720322390000048
具体公式表示如下:
Figure GDA0002720322390000051
Figure GDA0002720322390000052
其中σ(·)为激活函数tanh;
b)图像内容描述生成:使用LSTM网络对特定的图像内容进行解析;在生成的每一步当中,网络的背景特征由图像特征Fa1、问题特征fq和上一步网络的隐层特征
Figure GDA0002720322390000053
所决定,具体可由公式表示为:
Figure GDA0002720322390000054
Figure GDA0002720322390000055
Figure GDA0002720322390000056
将当前的隐层特征、背景特征、文字的嵌入特征和问题特征映射到同一空间中,并根据特征的当前信息进行加权结合,随后使用Softmax方法进行下一个单词的预测,具体公式可为:
βq=Sigmoid(Wqfq),
βc=Sigmoid(Wcci),
βe=Sigmoid(Weei-1),
Figure GDA0002720322390000057
wi=Softmax(Wsfh).
(2)基于问题视觉描述内容的答案生成:在获取针对问题图像内容的描述后,将这些文字输入给一个双向的LSTM网络,获取最终的描述特征fc;并将该特征与问题特征fq进行映射融合,然后进行答案的预测,获取答案;可用公式表示为:
fm=σ(Utfq⊙Vtfc)
Figure GDA0002720322390000058
本发明采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。具体而言,本发明设计了一新型的深度学习网络结构,该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明。该网络结构包含了一新式的视觉描述模块,可以根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计,能够将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。
附图说明
图1为模型示例图。在给定问题和图像后,模型进行问题回答并给出回答的依据。
图2为模型框架图。
图3为模型智能问答通道结构图。
图4为模型图像描述模块结构图。
图5为模型输出可视化效果案例。
具体实施方式
本发明实施例包括以下步骤:
一、智能问答数据预处理
1.1将所有图像尺度调整为448*448规格的分辨率。
1.2对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化。然后对文本内容进行分词,并从中选取出现频率最高的8000个作为答案字典,并选取出现频率最高的20000个词汇作为图像描述词典。
二、图像深度卷积特征抽取
使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征地图,表示为FI∈R14×14×2048。此处14×14为图像的特征区域,2048表示为每个特征块的特征维度。
三、文本问题深度特征抽取
使用双向递归神经网络对问题特征进行抽取,起着递归网络中的处理单位为LSTM单位。用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的表征fq,该特征表示为:
Figure GDA0002720322390000061
α=Softmax(hf||hb).
其中,N表示为递归网络对每个问题处理的最大步数。
四、智能视觉问题处理通道
4.1视觉内容堵塞处理。由于一张图像的视觉表现内容丰富,为了让机器更加关注与问题相关的视觉内容从而提升问题回答的准确性,采取了视觉内容堵塞操作。具体而言,在获取了图像的卷积特征地图FI和问题特征fq后,将两个模态的特征投影到相同的语义空间中,然后使用点乘的方式进行特征融合。随后使用Sigmoid激活函数对特征进行计算获取图像每个特征区域的权重值,并根据该权重值将卷积特征值进行更新获取内容过滤后的新特征Fa1
Fa1=A⊙FI,
Figure GDA0002720322390000071
Figure GDA0002720322390000072
4.2图像内容注意力机制操作。为了获取有效的图像特征,此处采用视觉注意力机制,根据所给定的文本内容锁定图像中最相关的视觉特征。具体而言,在给定新的视觉卷积特征地图Fa1和问题特征fq后,进行与步骤1相似的操作,获取图像精准视觉特征va2
Figure GDA0002720322390000073
Figure GDA0002720322390000074
4.3图像内容推理操作。在获得了图像精准视觉特征后,再次根据问题内容采用注意力机制进行问题逻辑推理。具体而言,用精准视觉特征va2和问题特征fq进行融合,获得进行的任务背景信息特征fj.然后用任务背景信息特征fj与视觉卷积特征Fa1进行相互结合获取新的特征块权重值,然后加权获取最终的视觉特征va3,可用如下公式表示:
Figure GDA0002720322390000075
Figure GDA0002720322390000076
fj=σ(Ujfq⊙Vjva2).
4.4多模态特征结合并分类。在获取最终的视觉特征va3和问题特征fq后,用上诉的语义映射方法将两种特征结合获得图像与问题的共同表征fj,并将该特征输入一多层感知机,然后用Softmax方法对最后的特征进行答案预测。获得智能视觉通道下的预测答案。
五、基于枢纽通道的视觉智能问答
5.1基于问题内容的图像内容描述。
5.1.1解析网络初始特征生产。在获取问题特征fq和内容过滤后的视觉卷积特征地图Fa1后,使用单向的LSTM网络对相关的视觉内容进行解析,并生成模型问题作答的文本解释。具体而言,后面先使用va3特征生成LSTM网络的初始隐层特征
Figure GDA0002720322390000077
和初始背景特征
Figure GDA0002720322390000078
具体公式表示如下:
Figure GDA0002720322390000081
Figure GDA0002720322390000082
其中σ(·)为激活函数tanh。
5.1.2图像内容描述生成。随后使用LSTM网络对特定的图像内容进行解析。在生成的每一步当中,网络的背景特征由图像特征Fa1、问题特征fq和上一步网络的隐层特征
Figure GDA0002720322390000083
所决定,具体可由公式表示为:
Figure GDA0002720322390000084
Figure GDA0002720322390000085
Figure GDA0002720322390000086
然后,将当前的隐层特征、背景特征、文字的嵌入特征和问题特征映射到同一空间中,并根据特征的当前信息进行加权结合,随后使用Softmax方法进行下一个单词的预测,具体可由公式表示为:
βq=Sigmoid(Wqfq),
βc=Sigmoid(Wcci),
βe=Sigmoid(Weei-1),
Figure GDA0002720322390000087
wi=Softmax(Wsfh)
5.2基于问题视觉描述内容的答案生成。在获取针对问题图像内容的描述后,将这些文字输入给一个双向的LSTM网络,获取最终的描述特征fc。并将该特征与问题特征fq进行映射融合,然后进行答案的预测,获取答案,可用公式表示为:
fm=σ(Utfq⊙Vtfc),
Figure GDA0002720322390000088
本发明的模型示例图见图1。在给定问题和图像后,模型进行问题回答并给出回答的依据。模型框架图见图2。模型智能问答通道结构图见图3。模型图像描述模块结构图见图4。模型输出可视化效果案例见图5。
模型在VQA数据集上与现有方法性能比较情况见表1。
表1
Figure GDA0002720322390000091
表2
Figure GDA0002720322390000092
模型在Visual7W数据集上与现有方法性能比较情况如表2。

Claims (1)

1.一种基于深度神经网络的智能视觉问答方法,其特征在于包括以下步骤:
步骤1、智能问答数据预处理,具体步骤为:
(1)将所有图像尺度调整为448×448规格的分辨率;
(2)对所有训练数据中的文本内容进行去停用词处理,将所有英文词汇进行小写化;然后对文本内容进行分词,从中选取出现频率最高的8000个作为答案字典,并选取出现频率最高的20000个词汇作为图像描述词典;
步骤2、图像深度卷积特征抽取,具体步骤为:
使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征地图,表示为FI∈R14×14×2048;此处14×14为图像的特征区域,2048表示为每个特征块的特征维度;
步骤3、文本问题深度特征抽取,具体步骤为:
使用双向递归神经网络对问题特征进行抽取,双向递归神经网络中的处理单位为LSTM单位;用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的特征fq,该特征表示为:
Figure FDA0002737358570000011
α=Soft max(hf||hb)
其中,N表示为递归网络对每个问题处理的最大步数;
步骤4、智能视觉问题处理,具体步骤为:
(1)视觉内容堵塞处理:由于一张图像的视觉表现内容丰富,为了让机器更加关注与问题相关的视觉内容从而提升问题回答的准确性,采取了视觉内容堵塞操作;在获取了图像的卷积特征地图FI和问题特征fq后,将两个模态的特征投影到相同的语义空间中,然后使用点乘的方式进行特征融合;随后使用Sigmoid激活函数对特征进行计算获取图像每个特征区域的权重值,并根据该权重值将卷积特征值进行更新获取内容过滤后的新特征Fa1
Fa1=A⊙FI
Figure FDA0002737358570000012
Figure FDA0002737358570000013
(2)图像内容注意力机制操作:为了获取有效的图像特征,采用视觉注意力机制,根据所给定的文本内容锁定图像中最相关的视觉特征;在给定新的视觉卷积特征地图Fa1和问题特征fq后,进行与步骤1相似的操作,获取图像精准视觉特征va2
Figure FDA0002737358570000021
Figure FDA0002737358570000022
(3)图像内容推理操作:在获得了图像精准视觉特征后,再次根据问题内容采用注意力机制进行问题逻辑推理;用精准视觉特征va2和问题特征fq进行融合,获得进行的任务背景信息特征fj,用任务背景信息特征fj与视觉卷积特征地图Fa1进行相互结合获取新的特征块权重值,然后加权获取最终的视觉特征va3;用如下公式表示:
Figure FDA0002737358570000023
Figure FDA0002737358570000024
fj=σ(Ujfq⊙Vjva2)
(4)多模态特征结合并分类:在获取最终的视觉特征va3和问题特征fq后,用语义映射方法将两种特征结合获得图像与问题的共同特征fz,并将该特征输入一多层感知机,然后用Softmax方法对最后的特征进行答案预测;获得智能视觉通道下的预测答案;
步骤5、基于枢纽通道的视觉智能问答,具体步骤为:
(1)基于问题内容的图像内容描述;
a)解析网络初始特征生产:在获取问题特征fq和内容过滤后的视觉卷积特征地图Fa1后,对LSTM网络进行隐层特征和背景特征生成方式进行修改,使用va3特征生成LSTM网络的初始隐层特征
Figure FDA0002737358570000025
和初始背景特征
Figure FDA0002737358570000026
具体公式表示如下:
Figure FDA0002737358570000027
Figure FDA0002737358570000028
其中σ(·)为激活函数tanh;
b)图像内容描述生成:使用LSTM网络对特定的图像内容进行解析;在生成的每一步当中,网络的背景特征由图像特征Fa1、问题特征fq和上一步网络的隐层特征
Figure FDA0002737358570000029
所决定,具体由公式表示为:
Figure FDA0002737358570000031
Figure FDA0002737358570000032
Figure FDA0002737358570000033
将当前的隐层特征、背景特征、文字的嵌入特征和问题特征映射到同一空间中,并根据特征的当前信息进行加权结合,随后使用Softmax方法进行下一个单词的预测,具体公式为:
βq=Sigmoid(Wqfq)
βc=Sigmoid(Wcci)
βe=Sigmoid(Weei-1)
Figure FDA0002737358570000034
wi=Soft max(Wsfh)
(2)基于问题视觉描述内容的答案生成:在获取针对问题图像内容的描述后,将这些文字输入给一个双向的LSTM网络,获取最终的描述特征fc;并将该特征与问题特征fq进行映射融合,然后进行答案的预测,获取答案;用公式表示为:
fm=σ(Utfq⊙Vtfc)
Figure FDA0002737358570000035
CN201711494024.7A 2017-12-31 2017-12-31 一种基于深度神经网络的智能视觉问答方法 Active CN108170816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711494024.7A CN108170816B (zh) 2017-12-31 2017-12-31 一种基于深度神经网络的智能视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711494024.7A CN108170816B (zh) 2017-12-31 2017-12-31 一种基于深度神经网络的智能视觉问答方法

Publications (2)

Publication Number Publication Date
CN108170816A CN108170816A (zh) 2018-06-15
CN108170816B true CN108170816B (zh) 2020-12-08

Family

ID=62516564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711494024.7A Active CN108170816B (zh) 2017-12-31 2017-12-31 一种基于深度神经网络的智能视觉问答方法

Country Status (1)

Country Link
CN (1) CN108170816B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086303B (zh) * 2018-06-21 2021-09-28 深圳壹账通智能科技有限公司 基于机器阅读理解的智能对话方法、装置、终端
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置
CN109145970B (zh) * 2018-08-06 2021-01-12 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
CN109214006B (zh) * 2018-09-18 2020-10-27 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109344404B (zh) * 2018-09-21 2020-08-25 中国科学技术大学 情境感知的双重注意力自然语言推理方法
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110175231B (zh) * 2019-05-31 2022-03-15 北京市商汤科技开发有限公司 视觉问答方法、装置和设备
CN110659398A (zh) * 2019-07-11 2020-01-07 电子科技大学 一种基于数学图表类数据集的视觉问答方法
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110414684A (zh) * 2019-07-23 2019-11-05 清华大学 基于知识感知的模块化视觉推理方法及装置
CN110598713B (zh) * 2019-08-06 2022-05-06 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110598573B (zh) * 2019-08-21 2022-11-25 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN111464738A (zh) * 2020-04-01 2020-07-28 西安邮电大学 基于深度神经网络和注意力机制的图像问答用指挥装置
CN111984772B (zh) * 2020-07-23 2024-04-02 中山大学 一种基于深度学习的医疗影像问答方法及系统
CN111898678A (zh) * 2020-07-30 2020-11-06 北京嘀嘀无限科技发展有限公司 一种对样本进行分类的方法及系统
CN112309528B (zh) * 2020-10-27 2023-04-07 上海交通大学 一种基于视觉问答方法的医疗影像报告生成方法
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113297370B (zh) * 2021-07-27 2021-11-16 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解系统
CN117237834A (zh) * 2022-06-08 2023-12-15 华为技术有限公司 图像描述方法、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350336A1 (en) * 2015-05-31 2016-12-01 Allyke, Inc. Automated image searching, exploration and discovery
US10997233B2 (en) * 2016-04-12 2021-05-04 Microsoft Technology Licensing, Llc Multi-stage image querying

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SCA-CNN: Spatial and Channel-Wise Attention in Convolutional Networks for Image Captioning;Long Chen等;《2017 IEEE International Conference on Computer Vision (ICCV)》;20170726;全文 *
Stacked Attention Networks for Image Question Answering;Zichao Yang等;《IEEE Conference on Computer Vision and Pattern Recognition》;20161231;第21-25页 *
VQA: Visual Question Answering;Stanislaw Antol等;《ICCV》;20151231;全文 *
基于Spatial-DCTHash动态参数网络的视觉问答算法;孟祥申等;《中国科学:信息科学》;20170820;全文 *

Also Published As

Publication number Publication date
CN108170816A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108170816B (zh) 一种基于深度神经网络的智能视觉问答方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
Andreas et al. Learning with latent language
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
Likhar et al. Deep learning methods for indian sign language recognition
CN112036276A (zh) 一种人工智能视频问答方法
Aftf et al. Indoor object c1assification for autonomous navigation assistance based on deep CNN model
CN114241458B (zh) 一种基于姿态估计特征融合的驾驶员行为识别方法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Sethia et al. Gesture recognition for American sign language using Pytorch and Convolutional Neural Network
Tolba et al. A proposed graph matching technique for Arabic sign language continuous sentences recognition
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN117690098A (zh) 一种基于动态图卷积的开放驾驶场景下多标签识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Hossain et al. A novel approach to classify bangla sign digits using capsule network
CN110197521A (zh) 基于语义结构表示的视觉文本嵌入方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114357166A (zh) 一种基于深度学习的文本分类方法
Wu et al. Question-driven multiple attention (dqma) model for visual question answer
Chu et al. Sign Language Action Recognition System Based on Deep Learning
Moustafa et al. Arabic Sign Language Recognition Systems: A Systematic Review
Mallika et al. Hand Gesture Recognition using Convolutional Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210519

Address after: 361000 Building 2, Xiamen University, Siming District, Xiamen City, Fujian Province

Patentee after: Xiamen University Asset Management Co.,Ltd.

Patentee after: Zhou Yiyi

Address before: Xiamen City, Fujian Province, 361005 South Siming Road No. 422

Patentee before: XIAMEN University

Effective date of registration: 20210519

Address after: 403-a, zone a, innovation building, software park, torch hi tech Zone, Xiamen City, Fujian Province, 361000

Patentee after: Nanqiang Zhishi (Xiamen) Technology Co.,Ltd.

Address before: 361000 Building 2, Xiamen University, Siming District, Xiamen City, Fujian Province

Patentee before: Xiamen University Asset Management Co.,Ltd.

Patentee before: Zhou Yiyi