CN108108771A - 基于多尺度深度学习的图像问答方法 - Google Patents
基于多尺度深度学习的图像问答方法 Download PDFInfo
- Publication number
- CN108108771A CN108108771A CN201810004239.4A CN201810004239A CN108108771A CN 108108771 A CN108108771 A CN 108108771A CN 201810004239 A CN201810004239 A CN 201810004239A CN 108108771 A CN108108771 A CN 108108771A
- Authority
- CN
- China
- Prior art keywords
- question
- scale
- feature
- image
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度深度学习的图像问答方法,该方法受人类在图像问答中的认知行为启发,包括以下步骤:1)首先将同一图片按照需要设定为不同尺度大小的三幅图片,并采用预训练好的卷积神经网络提取图片特征,获取多尺度图片特征;2)利用递归神经网络来得到问句的特征表示,并接一个带不同卷积核大小的卷积层来获取n元问句特征表示;3)采用注意力转移机制来探索不同尺度的图片特征与n元问句表示之间的内在关联关系,即相似性度量;4)最后,融合不同尺度图片特征和n元问句特征,并使用层次网络结构,从大尺度到中尺度再到小尺度来推理预测问题的答案。本发明模拟人类在图像问答中的认知行为,并且在基准数据集上取得较高精度。
Description
技术领域
本发明涉及图像处理和自然语言处理的多模态技术领域,具体涉及一种基于多尺度深度学习的图像问答方法。
背景技术
图像问答是近年来兴起的一个有挑战性的任务,给定一张图片以及与图片相关的问句,图像问答任务能够自动地产生答案。图像问答有很多潜在的应用,例如帮助盲人或者视觉障碍的人获取网站或者现实世界的信息。此外,还能用于人机交互来询问视觉内容等。
目前大部分已经被提出用来解决图像问答任务的算法,采用了卷积神经网络来提取整幅图片特征和用递归神经网络来提取问句特征,然后学习两者之间的关系来生成答案。然而,当人类尝试回答图像问答中的问题时,会首先浏览图片以及读问句,然后根据问句中提到的物体来从图片中找到正确答案。此时,用户将首先看到图片中较大尺度的物体或者区域,然后会尝试放大图片聚焦到较小尺度的物体或者区域,进一步推断出问题的正确答案。但是目前已有的图像问答系统中,尚无模型尝试探索多尺度图片特征在图像问答中的有效性,并且解释用于图像问答的深度神经网络模型是如何预测答案的。
发明内容
本发明的目的是为了克服现有的图像问答模型的不足,以及模拟人类在图像问答中的认知行为,提供一种基于多尺度深度学习的图像问答方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于多尺度深度学习的图像问答方法,所述的图像问答方法包括如下步骤:
S1、对训练数据集中的图像,设定为大、中、小三种尺度图像,得到不同尺度的图像;
S2、对不同尺度的图像,用预先训练好的卷积神经网络分别提取各个尺度的图像特征,得到大、中、小三种尺度图像特征,然后对每个尺度的特征采用二范数归一化;
S3、对训练数据集中图像对应的问句,使用双向门循环神经网络获得问句特征表示;
S4、将上述的问句特征表示,使用带有不同卷积核大小的单层卷积层,获得n元问句特征表示,包括一元问句特征、二元问句特征、三元问句特征;
S5、采用注意力转移机制,计算各个尺度图像特征与n元问句特征之间的相似度,得到各个尺度图像特征的权重分布,以及n元问句特征的权重分布;
S6、将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量;
S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量进行融合得到融合特征;
S8、将上述的融合特征,从大尺度到中等尺度再到小尺度进行融合,使用层次多层感知机结构,推理预测问句的答案;
S9、在训练数据集上不断重复S1到S8,直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛;
S10、将训练好的网络在测试集上进行测试。
进一步地,所述的步骤S1中不同尺度的图像是通过以下过程得到:将原始图片缩放到某个设定的尺度,作为大尺度图像,然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。
进一步地,所述的步骤S4具体如下:
将所述的步骤S3中得到的问句特征表示,使用卷积核窗口大小分别为1*k,2*k,3*k,卷积操作过程沿着问句的单词顺序分别得到一元问句特征、二元问句特征、三元问句特征,其中,k是词向量的长度。
进一步地,所述的步骤S5包括下列子步骤:
S501、将大、中、小尺度的图像特征和一元问句特征、二元问句特征、三元问句特征分别线性映射到相同的低维度特征表示,特征维度为d,且d<k;
S502、计算小尺度图像特征与一元问句特征之间,中尺度图像特征与二元问句特征之间,大尺度图像特征与三元问句特征之间的相似矩阵C:
C=tanh(QWVT)
其中,相似矩阵C∈RT×N,T是问句中的单词数,N是图片特征块数,Q是问句特征,Q∈RT×d,W是d×d维度参数矩阵,V是图像特征,V∈RN×d;
S503、计算各个尺度图像特征和n元问句特征的权重分布,取相似矩阵C中每一行的最大值作为问句特征的权重分布αq,取相似矩阵C中每一列的最大值作为图像特征的权重分布βv,并用Softmax函数归一化:
αq=softmax(maxj(Ct,j));
βv=softmax(maxi(Ci,n));
其中,αq∈RT,βv∈RN,q取值1、2、3,分别表示一元问句、二元问句、三元问句,v取值1,2,3分布表示小尺度图像特征,中尺度图像特征,大尺度图像特征。
进一步地,所述的步骤S6中将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量,计算方式如下:
进一步地,所述的步骤S7中注意力图像特征向量与注意力文本特征向量之间的融合,采用向量逐元素相乘的方式,融合大尺度图像特征与三元注意力问句特征,融合中尺度图像特征与二元注意力问句特征,融合小尺度图像特征与一元注意力问句特征。
进一步地,所述的步骤S8中将步骤S7中得到的融合特征,从大尺度到中等尺度再到小尺度融合不同尺度特征,使用层次多层感知机结构,推理预测问句的答案,得到预测答案的概率值,具体计算方式为:
h1=tanh(W1(Q3⊙V3))
h2=tanh(W2(Q2⊙V2),h1)
h3=tanh(W3(Q1⊙V1),h2)
p=softmax(Whh3)
其中,W1,W2,W3,Wh是需要训练的模型参数,⊙表示逐元素相乘,p表示问句的答案预测的概率,h1是大尺度融合的第一层特征,h2是大尺度特征与中等尺度特征融合的第二层尺度特征,h3是大尺度与中尺度融合后与小尺度特征融合的第三层尺度特征,tanh(·)表示双曲正切函数。
本发明相对于现有技术具有如下的优点及效果:
本发明基于多尺度深度学习的图像问答方法通过将注意力转移机制得到的权重分布可视化,有效地模拟了人类回答图像问答任务的认知行为,并且提高了预测精度。
附图说明
图1是本发明中公开的基于多尺度深度学习的图像问答方法的流程示意图;
图2是本发明中多尺度特征的融合推理过程。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如附图1所示,图1是本发明中公开的基于多尺度深度学习的图像问答方法的流程示意图,具体的技术方案包括以下步骤:
步骤S1、对训练数据集中的图像,设定为大、中、小三种尺度图像,得到不同尺度的图像。不同尺度的图像是通过,将原始图片缩放到某个设定的尺度,作为大尺度图像,然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。本实施例中,将原始尺寸不同的图片统一尺寸为448*448,作为大尺度图片,中等尺度图片大小为352*352,小尺度图片大小为224*224。
步骤S2、对不同尺度的图像,用预先训练好的卷积神经网络分别提取各个尺度的图像特征,得到大、中、小三种尺度图像特征,然后对每个尺度的特征采用二范数归一化。本实施例中,卷积神经网络结构采用VGG16。
步骤S3、对训练数据集中图像对应的问句,使用双向门循环神经网络获得问句特征表示。本实施例中,维度为T*512。在输入问句前,对问句进行预处理,方法为:在训练数据集上进行词汇统计,将单词出现次数少于5次的词用‘UNK’替代,对训练数据集中图像对应的问句,首先去除出现次数过于频繁而又不影响句子表达的单词:‘the’,‘a’,‘an’。问句中的每一个单词用word2vector表示为300维度的词向量。
步骤S4、将步骤S3中得到的问句特征表示,使用带有不同卷积核大小的单层卷积层,其中卷积核窗口大小分别为1*k、2*k、3*k,卷积操作过程是沿着问句的单词顺序分别得到一元问句特征、二元问句特征、三元问句特征,其中k(本实施例中,k=300)是词向量的长度。
步骤S5、采用注意力转移机制,计算各个尺度图像特征与n元问句特征之间的相似度,得到各个尺度图像特征的权重分布,以及n元问句特征的权重分布。注意力转移机制的各个尺度的图像特征和n元问句特征之间的权重分布计算具体方法如下:
步骤S501、将大、中、小尺度的图像特征和一元问句特征、二元问句特征、三元问句特征分别线性映射到相同的低维度特征表示,特征维度为d(本实施例中,d=300),且d<k;
步骤S502、计算小尺度图像特征与一元问句特征之间,中尺度图像特征与二元问句特征之间,大尺度图像特征与三元问句特征之间的相似矩阵C:
C=tanh(QWVT)
其中,相似矩阵C∈RT×N,T是问句中的单词数,N是图片特征块数,Q是问句特征,Q∈RT×d,W是d×d维度参数矩阵,V是图像特征,V∈RN×d;
步骤S503、计算各个尺度图像特征和n元问句特征的权重分布,取相似矩阵C中每一行的最大值作为问句特征的权重分布αq,取相似矩阵C中每一列的最大值作为图像特征的权重分布βv,并用Softmax函数归一化:
αq=softmax(maxj(Ct,j));
βv=softmax(maxi(Ci,n));
其中,αq∈RT,βv∈RN,q取值1、2、3,分别表示一元问句、二元问句、三元问句,v取值1,2,3分布表示小尺度图像特征,中尺度图像特征,大尺度图像特征。
步骤S6、将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量。将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量Vv,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量Qq,计算方式如下:
步骤S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量,采用向量逐元素相乘的方式进行融合。
步骤S8、将步骤S7中得到的融合特征,从大尺度到中等尺度再到小尺度融合特征,使用层次多层感知机结构,推理预测问句的答案,具体计算方式为:
h1=tanh(W1(Q3⊙V3));
h2=tanh(W2(Q2⊙V2),h1);
h3=tanh(W3(Q1⊙V1),h2);
p=softmax(Whh3);
其中,W1,W2,W3,Wh是需要训练的模型参数,⊙表示逐元素相乘。p表示问句的答案预测的概率,h1是大尺度融合的第一层特征,h2是大尺度特征与中等尺度特征融合的第二层尺度特征,h3是大尺度与中尺度融合后与小尺度特征融合的第三层尺度特征。tanh(·)表示双曲正切函数。
步骤S9、在训练数据集上不断重复步骤S1到步骤S8,直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛。
步骤S10、将训练好的网络在测试集上进行测试。
综上所述,本发明模拟了人类在图像问答中的认知行为,通过将注意力转移机制得到的权重分布可视化,并且在基准数据集上取得较高的预测精度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于多尺度深度学习的图像问答方法,其特征在于,所述的图像问答方法包括如下步骤:
S1、对训练数据集中的图像,设定为大、中、小三种尺度图像,得到不同尺度的图像;
S2、对不同尺度的图像,用预先训练好的卷积神经网络分别提取各个尺度的图像特征,得到大、中、小三种尺度图像特征,然后对每个尺度的特征采用二范数归一化;
S3、对训练数据集中图像对应的问句,使用双向门循环神经网络获得问句特征表示;
S4、将上述的问句特征表示,使用带有不同卷积核大小的单层卷积层,获得n元问句特征表示,包括一元问句特征、二元问句特征、三元问句特征;
S5、采用注意力转移机制,计算各个尺度图像特征与n元问句特征之间的相似度,得到各个尺度图像特征的权重分布,以及n元问句特征的权重分布;
S6、将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量;
S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量进行融合得到融合特征;
S8、将上述的融合特征,从大尺度到中等尺度再到小尺度进行融合,使用层次多层感知机结构,推理预测问句的答案;
S9、在训练数据集上不断重复S1到S8,直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛;
S10、将训练好的网络在测试集上进行测试。
2.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S1中不同尺度的图像是通过以下过程得到:将原始图片缩放到某个设定的尺度,作为大尺度图像,然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。
3.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S4具体如下:
将所述的步骤S3中得到的问句特征表示,使用卷积核窗口大小分别为1*k,2*k,3*k,卷积操作过程沿着问句的单词顺序分别得到一元问句特征、二元问句特征、三元问句特征,其中,k是词向量的长度。
4.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S5包括下列子步骤:
S501、将大、中、小尺度的图像特征和一元问句特征、二元问句特征、三元问句特征分别线性映射到相同的低维度特征表示,特征维度为d,且d<k;
S502、计算小尺度图像特征与一元问句特征之间,中尺度图像特征与二元问句特征之间,大尺度图像特征与三元问句特征之间的相似矩阵C:
C=tanh(QWVT)
其中,相似矩阵C∈RT×N,T是问句中的单词数,N是图片特征块数,Q是问句特征,Q∈RT×d,W是d×d维度参数矩阵,V是图像特征,V∈RN×d;
S503、计算各个尺度图像特征和n元问句特征的权重分布,取相似矩阵C中每一行的最大值作为问句特征的权重分布αq,取相似矩阵C中每一列的最大值作为图像特征的权重分布βv,并用Softmax函数归一化:
αq=softmax(maxj(Ct,j));
βv=softmax(maxi(Ci,n));
其中,αq∈RT,βv∈RN,q取值1、2、3,分别表示一元问句、二元问句、三元问句,v取值1,2,3分布表示小尺度图像特征,中尺度图像特征,大尺度图像特征。
5.根据权利要求4所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S6中将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量,计算方式如下:
<mrow>
<msup>
<mi>Q</mi>
<mi>q</mi>
</msup>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<msubsup>
<mi>&alpha;</mi>
<mi>t</mi>
<mi>q</mi>
</msubsup>
<msubsup>
<mi>q</mi>
<mi>t</mi>
<mi>q</mi>
</msubsup>
<mo>;</mo>
</mrow>
<mrow>
<msup>
<mi>V</mi>
<mi>v</mi>
</msup>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msubsup>
<mi>&beta;</mi>
<mi>t</mi>
<mi>v</mi>
</msubsup>
<msubsup>
<mi>v</mi>
<mi>n</mi>
<mi>v</mi>
</msubsup>
<mo>.</mo>
</mrow>
6.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S7中注意力图像特征向量与注意力文本特征向量之间的融合,采用向量逐元素相乘的方式,融合大尺度图像特征与三元注意力问句特征,融合中尺度图像特征与二元注意力问句特征,融合小尺度图像特征与一元注意力问句特征。
7.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S8中将步骤S7中得到的融合特征,从大尺度到中等尺度再到小尺度融合不同尺度特征,使用层次多层感知机结构,推理预测问句的答案,得到预测答案的概率值,具体计算方式为:
h1=tanh(W1(Q3⊙V3))
h2=tanh(W2(Q2⊙V2),h1)
h3=tanh(W3(Q1⊙V1),h2)
p=softmax(Whh3)
其中,W1,W2,W3,Wh是需要训练的模型参数,⊙表示逐元素相乘,p表示问句的答案预测的概率,h1是大尺度融合的第一层特征,h2是大尺度特征与中等尺度特征融合的第二层尺度特征,h3是大尺度与中尺度融合后与小尺度特征融合的第三层尺度特征,tanh(·)表示双曲正切函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810004239.4A CN108108771A (zh) | 2018-01-03 | 2018-01-03 | 基于多尺度深度学习的图像问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810004239.4A CN108108771A (zh) | 2018-01-03 | 2018-01-03 | 基于多尺度深度学习的图像问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108108771A true CN108108771A (zh) | 2018-06-01 |
Family
ID=62218740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810004239.4A Pending CN108108771A (zh) | 2018-01-03 | 2018-01-03 | 基于多尺度深度学习的图像问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108771A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN108833173A (zh) * | 2018-06-22 | 2018-11-16 | 中国科学技术大学 | 丰富结构信息的深度网络表征方法 |
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN109214006A (zh) * | 2018-09-18 | 2019-01-15 | 中国科学技术大学 | 图像增强的层次化语义表示的自然语言推理方法 |
CN109522920A (zh) * | 2018-09-18 | 2019-03-26 | 义语智能科技(上海)有限公司 | 基于结合语义特征的同义判别模型的训练方法及设备 |
CN109614613A (zh) * | 2018-11-30 | 2019-04-12 | 北京市商汤科技开发有限公司 | 图像的描述语句定位方法及装置、电子设备和存储介质 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN109740515A (zh) * | 2018-12-29 | 2019-05-10 | 科大讯飞股份有限公司 | 一种评阅方法及装置 |
CN109816039A (zh) * | 2019-01-31 | 2019-05-28 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN110232141A (zh) * | 2019-05-31 | 2019-09-13 | 三角兽(北京)科技有限公司 | 资源获取方法、资源获取装置、存储介质和电子设备 |
CN110263644A (zh) * | 2019-05-21 | 2019-09-20 | 华南师范大学 | 基于三胞胎网络的遥感图像分类方法、系统、设备及介质 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110533725A (zh) * | 2019-09-06 | 2019-12-03 | 西南交通大学 | 一种基于结构推理网络的高铁接触网多种零部件定位方法 |
CN111159419A (zh) * | 2019-12-09 | 2020-05-15 | 浙江师范大学 | 基于图卷积的知识追踪数据处理方法、系统和存储介质 |
CN111246256A (zh) * | 2020-02-21 | 2020-06-05 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
CN113761153A (zh) * | 2021-05-19 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 基于图片的问答处理方法、装置、可读介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3166049A1 (en) * | 2015-11-03 | 2017-05-10 | Baidu USA LLC | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
-
2018
- 2018-01-03 CN CN201810004239.4A patent/CN108108771A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3166049A1 (en) * | 2015-11-03 | 2017-05-10 | Baidu USA LLC | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
Non-Patent Citations (6)
Title |
---|
AKIRA FUKUI ET AL.: "Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding", 《CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
HEDI BEN-YOUNES ET AL.: "Mutan: Multimodal tucker fusion for visual question answering", 《ICCV》 * |
JIASEN LU ET AL.: "Hierarchical Question-Image Co-Attention for Visual Question Answering", 《30TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2016)》 * |
JIN-HWA KIM ET AL.: "Hadamard product for low-rank bilinear pooling", 《ARXIV:1610.04325V4》 * |
ZHOU YU ET AL.: "multi-model factorized bilinear pooling co-attention learning for visual question answering", 《ICCV》 * |
熊志勇等: "基于多尺度特征提取的图像语义分割", 《中南民族大学学报(自然科学版)》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN108804677B (zh) * | 2018-06-12 | 2021-08-31 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN108833173A (zh) * | 2018-06-22 | 2018-11-16 | 中国科学技术大学 | 丰富结构信息的深度网络表征方法 |
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN108846130B (zh) * | 2018-06-29 | 2021-02-05 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN109214006A (zh) * | 2018-09-18 | 2019-01-15 | 中国科学技术大学 | 图像增强的层次化语义表示的自然语言推理方法 |
CN109522920A (zh) * | 2018-09-18 | 2019-03-26 | 义语智能科技(上海)有限公司 | 基于结合语义特征的同义判别模型的训练方法及设备 |
CN109522920B (zh) * | 2018-09-18 | 2020-10-13 | 义语智能科技(上海)有限公司 | 基于结合语义特征的同义判别模型的训练方法及设备 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN109670576B (zh) * | 2018-11-29 | 2022-09-13 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
US11455788B2 (en) | 2018-11-30 | 2022-09-27 | Beijing Sensetime Technology Development Co., Ltd. | Method and apparatus for positioning description statement in image, electronic device, and storage medium |
CN109614613B (zh) * | 2018-11-30 | 2020-07-31 | 北京市商汤科技开发有限公司 | 图像的描述语句定位方法及装置、电子设备和存储介质 |
CN109614613A (zh) * | 2018-11-30 | 2019-04-12 | 北京市商汤科技开发有限公司 | 图像的描述语句定位方法及装置、电子设备和存储介质 |
CN109740515A (zh) * | 2018-12-29 | 2019-05-10 | 科大讯飞股份有限公司 | 一种评阅方法及装置 |
CN109816039A (zh) * | 2019-01-31 | 2019-05-28 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN109816039B (zh) * | 2019-01-31 | 2021-04-20 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
TWI785301B (zh) * | 2019-01-31 | 2022-12-01 | 大陸商深圳市商湯科技有限公司 | 一種跨模態訊息檢索方法、裝置和儲存介質 |
JP2022510704A (ja) * | 2019-01-31 | 2022-01-27 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | クロスモーダル情報検索方法、装置及び記憶媒体 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110263912B (zh) * | 2019-05-14 | 2021-02-26 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110263644B (zh) * | 2019-05-21 | 2021-08-10 | 华南师范大学 | 基于三胞胎网络的遥感图像分类方法、系统、设备及介质 |
CN110263644A (zh) * | 2019-05-21 | 2019-09-20 | 华南师范大学 | 基于三胞胎网络的遥感图像分类方法、系统、设备及介质 |
CN110232141A (zh) * | 2019-05-31 | 2019-09-13 | 三角兽(北京)科技有限公司 | 资源获取方法、资源获取装置、存储介质和电子设备 |
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN110222770B (zh) * | 2019-06-10 | 2023-06-02 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN110533725A (zh) * | 2019-09-06 | 2019-12-03 | 西南交通大学 | 一种基于结构推理网络的高铁接触网多种零部件定位方法 |
CN110533725B (zh) * | 2019-09-06 | 2022-04-29 | 西南交通大学 | 一种基于结构推理网络的高铁接触网多种零部件定位方法 |
CN111159419B (zh) * | 2019-12-09 | 2021-05-25 | 浙江师范大学 | 基于图卷积的知识追踪数据处理方法、系统和存储介质 |
CN111159419A (zh) * | 2019-12-09 | 2020-05-15 | 浙江师范大学 | 基于图卷积的知识追踪数据处理方法、系统和存储介质 |
CN111246256A (zh) * | 2020-02-21 | 2020-06-05 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
CN113761153A (zh) * | 2021-05-19 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 基于图片的问答处理方法、装置、可读介质及电子设备 |
CN113761153B (zh) * | 2021-05-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 基于图片的问答处理方法、装置、可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108771A (zh) | 基于多尺度深度学习的图像问答方法 | |
CN109918671B (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN111046668B (zh) | 多模态文物数据的命名实体识别方法与装置 | |
KR101865102B1 (ko) | 시각 문답을 위한 시스템 및 방법 | |
CN109992780B (zh) | 一种基于深度神经网络特定目标情感分类方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN109145304B (zh) | 一种基于字的中文观点要素情感分析方法 | |
CN109492223B (zh) | 一种基于神经网络推理的中文缺失代词补全方法 | |
CN112257966B (zh) | 模型处理方法、装置、电子设备及存储介质 | |
WO2022161470A1 (zh) | 内容的评价方法、装置、设备及介质 | |
CN114186568B (zh) | 一种基于关系编码和层次注意力机制的图像段落描述方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
Cai | Automatic essay scoring with recurrent neural network | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN112906398A (zh) | 句子语义匹配方法、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180601 |