CN107480206A - 一种基于多模态低秩双线性池化的图像内容问答方法 - Google Patents
一种基于多模态低秩双线性池化的图像内容问答方法 Download PDFInfo
- Publication number
- CN107480206A CN107480206A CN201710611041.8A CN201710611041A CN107480206A CN 107480206 A CN107480206 A CN 107480206A CN 201710611041 A CN201710611041 A CN 201710611041A CN 107480206 A CN107480206 A CN 107480206A
- Authority
- CN
- China
- Prior art keywords
- image
- formula
- follows
- answer
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 58
- 238000011176 pooling Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 239000000835 fiber Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态低秩双线性池化的图像内容问答方法。本发明包括以下步骤:1、对图像和以自然语言描述的问题,答案文本进行数据预处理,2、多模态低秩双线性池化模型,进行特征融合。3、基于MFB池化模型和协同关注点模型的神经网络结构。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种针对图像问答的神经网络模型,特别是提出一种图像问答领域中对图像‑问题的跨媒体数据进行统一建模的方法,以及在图像和问题细粒度特征上学习“协同关注点”进行建模表达的网络结构,并且获得了目前在图像问答领域中的最好效果。
Description
技术领域
本发明涉及一种针对图像内容问答(Image Question Answer,IQA)的深度神经网络,尤其涉及一种对图像-问题的跨媒体数据进行统一建模的方法以及在图像和问题细粒度特征上学习“协同关注点”进行建模表达。
背景技术
“跨媒体”统一表达是一个计算机视觉与自然语言处理研究领域之间的交叉方向,旨在打通不同媒体(如图像和文本)之间的“语义鸿沟”,建立统一的语义表达。基于跨媒体统一表达的理论方法,衍生出一些目前热门的研究方向,如自然描述生成(ImageCaptioning)、图像-文本跨媒体检索(Image-Text Cross-media Retrieval)以及图像内容的自动问答(Image Question Answering,IQA)等。图像自然描述生成的目标是给一张图像使用一句或几句自然语言对其内容进行概述;图像-文本的跨媒体检索旨在给一张图像从数据库中找到最匹配的文本描述,或给一个文本描述寻找最匹配的图像;图像内容的自动问答的目标在于输入一张图片和一个自然语言描述的问题,算法自动输出一个自然语言描述的答案
随着近年来深度学习的迅速发展,使用深度神经网络,如深度卷积神经网络(Convolutional Neural Networks,CNN)和深度循环神经网络(Recurrent NeuralNetworks,RNN)进行端到端(end-to-end)地问题建模成为目前计算机视觉、自然语言处理方向上的主流研究方向。在图像内容问答算法中,引入端到端建模的思想,同时对图像和问题的文本使用适当的网络结构进行端到端建模,直接输出自然语言描述的答案是一个值得深入探索的研究问题。
在实际应用方面,图像内容自动问答算法具有非常广泛的应用场景。基于文本的问答系统已经被广泛应用在智能手机和PC的操作系统中,作为人机交互的一种重要方式,如苹果的Siri,微软的Cortana,亚马逊的Alexa等。随着可穿戴智能硬件(如Googleglasses和微软的HoloLens)以及增强现实技术的快速发展,在不久的将来,基于视觉感知的图像内容自动问答系统可能会成为人机交互的一种重要方式,改变人们目前的交流。在这项技术可以帮助我们,尤其是那些有视觉障碍的残疾人更好地感知和理解世界
综上所述,基于端到端建模的图像内容问答算法是一个值得深入研究的方向,本课题拟从该任务中几个关键的难点问题切入,解决目前方法存在的问题,并最终形成一套完整的图像内容问答系统。
由于自然场景下的图像内容复杂,主体多样;自然语言描述的问题自由度高,这使得图像内容的问答算法面临巨大的挑战。具体而言,主要存在如下两方面的难点:
(1)对图像问题的跨媒体数据进行统一建模,如何进行有效地特征融合:多模态特征融合问题是跨媒体表达中一个经典且基础的问题,常用的方法有特征拼接、特征加和,或使用多层神经网络的特征融合等。此外,基于双线性模型的特征融合模型,在很多领域,如图像细粒度分类、自然语言处理、推荐系统中都发挥了非常好的效果,但是由于其计算复杂度高,给模型的训练带来了很大的挑战。因此,在跨媒体数据特征融合时选择合适的策略,在保证计算的高效性地同时,提高融合特征的表达能力是一个值得深入研究的方向。
(2)如何在图像和问题细粒度特征上学习“协同关注点”进行建模表达:图像内容自动问答算法的输入包含自然语言描述的问题和内容复杂的图像。要正确地回答图像内容相关的问题,既要抽取文本中的关键信息,对问题进行正确地理解(例如,针对“图片中有几个女人?”和“图片中有几个男人?”这两个截然不同的问题,算法要理解“男人”和“女人”是问题中的关键词),同时还要聚焦图像中和问题相关的主体。因此,如何让算法自动学习到图像和问题中的“协同关注点”(co-attention),即问题中的关键词和图像中对应区域,从而进行细粒度特征的融合,形成更为准确地跨媒体表达,是图像内容问答算法中的难点问题,同时也是影响算法结果性能的至关重要的环节。
本发明提出了一种针对图像内容自动问答任务的深度神经网络架构,以解决如上两个难点问题。1、提出一种多模态低秩双线性池化模型,实现不同模态特征之间的有效融合;2.在神经网络框架下,提出一种协同关注点模型,同时对问题和图像中的共同关注区域进行有效学习。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于多模态低秩双线性池化的图像内容问答方法。
本发明解决其技术问题所采用的技术方案如下:
给定图像i、相应的问题q和答案a,构成三元组i,q,a作为训练集。
步骤(1)、数据预处理,对图像和文本数据提取特征
对图像i预处理:先将图像i缩放到统一的尺寸大小,再使用现有的深度神经网络提取图像的特征if。
对问题q和答案a的文本数据的预处理:
问题q文本数据:首先分词,构建问题文本字典,将问题文本保留前l个词语并把词语替换成字典中的索引值,得到文本索引向量;
答案a文本数据:不分词,构建答案字典并截取频率最高的υ个答案。并将给定的答案转换成答案字典中的索引值,最后转换成υ维的一位有效编码(One-Hot)答案向量;
步骤(2)、创建多模态低秩双线性池化(Multi-modal Factorized BilinearPooling,MFB)模型,进行特征融合。
本文在现有的原始双线性池化模型(Bilinear Pooling Model)的基础上,提出了一种多模态低秩双线性池化(MFB)模型,克服了原始双线性模型参数量过大的问题,并且基于神经网络实现该模型步骤(3)、基于协同关注点建模的神经网络模型
对于问题文本,首先将问题文本的一位有效编码(One-Hot)特征利用词语向量化(word embedding)技术转换成矩阵qe。将转换后的问题矩阵qe输入到长短期记忆网络(LongShort Term Memory,LSTM)并输出l×d维向量qf,其中l是问题的词语个数,d是LSTM输出特征维度。对问题生成注意点区域特征attq,并生成带注意点信息的问题特征qa,如图2中的Question Attention部分所示。将生成的qa和图像的特征if输入步骤(2)描述的模型(MFB)得到输出特征z1。如图2中Image Attention部分所示,对图像提取注意点区域特征atti,其中atti是一个多通道特征矩阵,其中每个通道代表一个图像注意点区域特征。将图像特征if同atti的每一个通道做SoftAttention操作,其中SoftAttention将在之后具体介绍,并将结果拼接起来生成输出ia,将ia同qa一起输入到步骤(2)的模型(MFB)并输出z2。对z2做全连接操作后产生一个v维向量(其中v是上述构建的答案字典的大小),再经过一个softmax产生概率输出作为网络的输出预测值。
步骤(4)、模型训练
根据产生的预测值同该问题的实际答案的差异,并利用反向传播算法(Back-Propagation,BP)对步骤(3)定义的神经网络的模型参数进行训练,直至整个网络模型收敛。
步骤(1)所述的数据预处理及对图像和文本进行特征提取:
1-1.对图像i进行特征提取,使用现有的深度神经网络提取图像特征,形成图像特征if,其中c是图像特征的通道数,h和w分别是图像特征的高和宽。
1-2.对于问题文本首先将问题文本拆分成固定单词个数的单词列表qw,其具体公式如下:
qw=(w1,w2,...,wl) (公式1)
其中wi是单词字符串,l为单词数;
根据单词字典将单词列表qw中的词语转化成索引值,得到固定长度的索引值向量qi,其具体公式如下:
其中是wk在单词字典中的索引值;
1-3.将答案文本记为as,直接将答案替换成答案字典中的索引ai,之后将答案转化成一个v维且只在ai元素上值为1,其余元素全为0的一位有效编码(One-Hot)向量ao,其中v是答案字典的大小,其具体公式如下:
ai=dict(as) (公式3)
ao=onehot(ai) (公式4)
其中dict(as)表示查找as在答案字典中的索引值,onehot(ai)是一位有效编码函数作用是将ai转换成向量ao,其中ao中索引为ai的元素为1,其余全为0。
步骤(2)所述的多模态低秩双线性池化模型(Multi-modal FactorizedBilinear,MFB)对特征融合,具体如下:
首先叙述原始双线性池化模型(Bilinear Pooling Model),以及在双线性模型基础上利用矩阵分解推导MFB模型的具体过程如下:
2-1.原始双线性池化模型(Bilinear Pooling Model)公式如下:
其中m,n是输入维度,为了得到的输出,有公式如下:
其中W=[W1,W2,..,Wi,..,Wo],可得模型参数量为m×n×o。
在双线性模型基础上推导MFB模型的具体过程如下:
将公式(5)中的Wi近似表示成两个低秩矩阵相乘Wi≈UiVi T;其中k是Ui和Vi的秩可得公式如下:
并且公式(7)可进一步推导成如下形式:
其中是元素全为1的向量。○表示Hadamard product,即对两个向量相应元素进行点乘操作其具体公式如下:设
为了得到的输出,得到公式如下:
进一步推出:
其中
可得MFB模型总的参数量为k×(m+n),相较于原始双线性模型大大的减少了参数量。
接下来叙述MFB模型基于神经网络的具体实现如下:
2-3.利用映射矩阵将输入的特征映射到k×o维,具体公式如下:
x1=UTx;y1=VTy (公式12)
其中m,n是输入特征维度;
2-4.对两个相同维度的向量做Hadamard product,其具体公式如下:
2-5.对Hadamard product输出做sum pooling操作,其具体公式如下:
其中是元素全为1的向量。
2-6.对于z进行归一化操作,具体归一化公式如下:
zo=Normalize(z) (公式15)
综上,MFB函数的公式如下:
步骤(3)所述的构建深度神经网络,具体如下:
3-1.为了把文本转换成网络需要的文本特征矩阵,将步骤(1)输出的索引向量qi中的索引值通过word embedding转换成词向量,得到文本词向量特征其中l是文本词语个数,e是每个词语的词向量维度,其具体公式如下:
其中是同过word embedding技术生成的词向量。
将问题词向量特征qe输入到LSTM,输出特征其中l是问题的词语个数,d是LSTM输出特征维度。具体公式如下:
qf=LSTM(qe) (公式18)
3-2.如图2中所示的Question Attention部分,对问题文本特征qf提取注意点特征(question attention)attq,具体的,将qf依次进过Conv1,ReLU,Conv2,Softmax操作生成attq,其中Conv1,Conv2表示卷积操作,ReLU表示非线性激活函数,并将attq和问题特征qf融合,输出带关注点信息的问题特征qa,具体公式如下:
attq=Softmax(Conv(ReLU(Conv(qf)))) (公式19)
qa=SoftAttention(attq,qf) (公式20)
其中Softmax公式如下:
SoftAttention公式表述如下:设att=[att1,att2,...,attn]; x=[x1,x2,...,xn],
sa=SoftAttention(att,x)=att1·x1+att2·x2+...+attn·xn (公式22)
3-3.对步骤(1)产生的图像特征if提取图像注意点区域特征(image attention)atti。其中首先将qa复制h×w份,得到其中h,w分别是图像特征if的高和宽,之后将图像特征if和产生的qt输入到步骤(2)描述的MFB模块产生输出z1,并依次进过Conv3,Relu,Conv4,Softmax操作得到图像注意点区域特征atti,并通过Slice切分成G个注意点特征g=1,2,..,G。之后将得到的G个图像关注点区域特征和图像特征if融合输出带关注点信息的图像特征之后将生成的各其中拼接得到ia,具体公式如下:
z1=MFB(if,qt) (公式23)
atti=Softmax(Conv(ReLU(Conv(z1)))) (公式24)
其中g=1,2,...,G,g=1,2,...,G。Concat函数是指对特征进行拼接操作,ia是向量且gc=g×c。
3-4.将3-2输出的带关注点信息的问题文本特征qa和3-3输出的带关注点信息的图像特征ia输入到步骤(2)描述的MFB模块产生输出z2,并依次进过FC和Softmax操作,其中FC是神经网络全连接操作,最终输出答案预测向量具体公式如下:
z2=MFB(ia,qa) (公式27)
p=Softmax(FC(z2)) (公式28)
步骤(4)所述的训练模型,具体如下:
将步骤(3)产生的预测向量p同步骤(1)产生的答案向量ao输入到定义的损失函数KLDLoss,得到损失值loss,具体公式如下:
loss=KLDLoss(ao,p) (公式29)
其中KLDLoss公式如下:
其中
根据计算得到的损失值loss,利用反向传播算法(Back-Propagation,BP)调整网络中的参数。
本发明有益效果如下:
本发明所提出的方法在针对图像内容问答(Image Question Answer,IQA)的问题上相比于其他方法在准确率上取得了目前最好的成绩;大大减少了模型参数量,有效地防止模型过拟合并降低了模型训练时间;并且相比于其他模型更加简单易于实现。
本发明提出一种针对图像问答的神经网络模型,特别是提出一种图像问答领域中对图像-问题的跨媒体数据进行统一建模的方法,以及在图像和问题细粒度特征上学习“协同关注点”进行建模表达的网络结构,并且获得了目前在图像问答领域中的最好效果。
附图说明
图1为多模态低秩双线性池化模型的结构示意图。
图2为本发明的总体流程图。
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1所示,本发明提供一种针对图像内容问答(Image Question Answer,IQA)的深度神经网络结构,具体步骤如下:
步骤(1)所述的数据预处理及对图像和文本进行特征抽取,具体如下:
这里使用COCO-VQA数据集作为训练和测试数据。
1-1.对于图像数据,这里使用现有的152层深度残差网络(Resnet-152)模型抽取图像特征。具体的,我们把图像数据统一缩放到448×448并输入到深度残差网络中,抽取其res5c层的输出作为图像特征
1-2.对于问题文本数据,我们先对问题分词,并且构建问题的单词字典。并且每个问题只取前15个单词,若问题不满15个单词则补充空字符。之后,将每个单词用该单词在单词字典中的索引值代替,得到问题文本的单词索引向量特征
1-3.对于答案文本数据不做分词。这里统计每个答案的频率并取出现频率最高的3000个答案,同样的对这3000个答案建立答案字典。
步骤(2)所述的多模态低秩双线性池化模型(Multi-modal FactorizedBilinear,MFB)对特征融合,具体如下:
2-1.对于输入特征和分别使用映射矩阵将其分别映射到5000维向量。
2-2.我们使用Hadamard product对映射后的向量进行融合操作,其中Hadamardproduct表示两个向量间对应元素相乘,得到5000维输出特征。
2-3.为方便操作,将上一步骤产生的5000维特征重排,形成5行1000列的矩阵,并用矩阵1与该矩阵相乘,其中且其元素都为1,得到输出特征之后依次经过Sqrt和L2Normalizz对z正则化,其具体公式如下:
设x=[x1,x2,...,xn]
至此完成多模态低秩双线性池化(MFB)操作。
步骤(3)所述的构建深度神经网络,具体如下:
3-1.对于问题文本特征,输入是步骤(1)产生的15维索引向量,经过wordembedding技术将每个单词索引转换成300维词向量,得到问题词向量特征之后将该矩阵作为长短期记忆网络(Long Short Term Memory,LSTM)的输入,得到输出特征
3-2.如图2中的Question Attention部分所示,提取问题文本的注意点(Attention)特征。对LSTM的输出向量qf依次进行Conv1,ReLU,Conv2,以及Softmax操作,其中Conv1,Conv2的核大小为1×1,输出通道(channel)分别为512和1。得到问题文本的注意点特征我们使用该向量同LSTM的输出qf做SoftAttention操作得到带关注点信息的文本特征至此,问题文本注意点处理部分Question Attention完成。
3-3.如图2中Image Attention部分所示,提取图像的注意点(Attention)特征,。我们将上一步得到的带注意点信息的问题特征复制196(14×14)份,并变形成1024×14×14维的矩阵,将其和步骤(1)中的图像特征if一起输入到步骤(2)描述MFB模块,将其输出依次进过Conv3,ReLU,Conv4,Softmax操作得到G个图像注意点特征g=1,2,...,G,这里G为2。之后将图像特征if分别与图像注意点特征做SoftAttention操作,产生2个2048维的向量,并将两个向量拼接成至此,图像注意点特征提取(Image Attention)操作完成。
3-4.我们将上述生成的带注意点信息的问题特征与带注意点信息的图像特征再次使用步骤(2)描述的MFB模块进行特征融合,产生1000维的输出特征。之后将该向量依次进过输出通道为3000的FC操作(其中FC表示全连接),以及Softmax操作,得到输出特征其中该输出中每一个元素表示预测该元素索引对应的答案是给定问题的答案的概率值。
步骤(4)所述的训练模型,具体如下:
对于步骤(3)产生的预测3000维向量,将其与该问题的正确答案做比较,通过定义的损失函数KLDLoss计算得出预测值与实际正确值之间的差异并形成损失值,之后根据该损失值利用反向传播算法(Back-Propagation,BP)调整整个网络的参数值,直到网络收敛。
表1是本文所述的方法在COCO-VQA数据集中准确率。其中OE表示开放式答案(Open-Ended,OE)任务,MC表示多选式答案(Multi-Choice)任务,All表示在所有问题的上的准确率,Y/N表示在判断式问题上的准确率,Num表示需回答数量的问题上的准确率,Others表示在其他问题上的准确率。
Claims (5)
1.一种基于多模态低秩双线性池化的图像内容问答方法,其特征在于包括以下步骤:
给定图像i、相应的问题q和答案a,构成三元组i,q,a作为训练集;
步骤(1)、数据预处理,对图像和文本数据提取特征
对图像i预处理:先将图像i缩放到统一的尺寸大小,再使用现有的深度神经网络提取图像的特征if;
对问题q和答案a的文本数据的预处理:
问题q文本数据:首先分词,构建问题文本字典,将问题文本保留前l个词语并把词语替换成字典中的索引值,得到文本索引向量;
答案a文本数据:不分词,构建答案字典并截取频率最高的υ个答案;并将给定的答案转换成答案字典中的索引值,最后转换成υ维的一位有效编码答案向量;
步骤(2)、创建多模态低秩双线性池化模型,进行特征融合;
输入不同模态的图像的视觉特征向量和问题的文本特征向量,使用提出的基于神经网络实现的多模态低秩双线性池化模型进行图像和文本特征有效融合,输出指定维度的融合特征;
步骤(3)、基于协同关注点建模的神经网络模型
针对问题文本:首先将问题文本的一位有效编码特征利用词语向量化技术转换成矩阵qe;将转换后的问题矩阵qe输入到长短期记忆网络并输出l×d维向量qf,其中l是问题的词语个数,d是LSTM输出特征维度;对问题生成注意点区域特征attq,并生成带注意点信息的问题特征qa;将生成的qa和图像的特征if输入步骤(2)描述的多模态低秩双线性池化模型,得到输出特征z1;对图像提取注意点区域特征atti,其中atti是一个多通道特征矩阵,其中每个通道代表一个图像注意点区域特征;将图像特征if同atti的每一个通道做SoftAttention操作,并将结果拼接起来生成输出ia,将ia同qa一起输入到步骤(2)的多模态低秩双线性池化模型,并输出z2;对z2做全连接操作后产生一个v维向量,再经过一个softmax产生概率输出作为网络的输出预测值;其中v是构建的答案字典的大小;
步骤(4)、模型训练
根据产生的预测值同该问题的实际答案的差异,并利用反向传播算法对步骤(3)定义的神经网络的模型参数进行训练,直至整个网络模型收敛。
2.根据权利要求1所述的一种基于多模态低秩双线性池化的图像内容问答方法,其特征在于步骤(1)所述的数据预处理及对图像和文本进行特征提取,具体如下:
1-1.对图像i进行特征提取,使用现有的深度神经网络提取图像特征,形成图像特征if,其中c是图像特征的通道数,h和w分别是图像特征的高和宽;
1-2.对于问题文本首先将问题文本拆分成固定单词个数的单词列表qw,其具体公式如下:
qw=(w1,w2,...,wl) (公式1)
其中wi是单词字符串,l为单词数;
根据单词字典将单词列表qw中的词语转化成索引值,得到固定长度的索引值向量qi,其具体公式如下:
其中是wk在单词字典中的索引值;
1-3.将答案文本记为as,直接将答案替换成答案字典中的索引ai,之后将答案转化成一个υ维且只在ai元素上值为1,其余元素全为0的一位有效编码向量ao,其中υ是答案字典的大小,其具体公式如下:
ai=dict(as) (公式3)
ao=onehot(ai) (公式4)
其中dict(as)表示查找as在答案字典中的索引值,onehot(ai)是一位有效编码函数作用是将ai转换成向量ao,其中ao中索引为ai的元素为1,其余全为0。
3.根据权利要求2所述的一种基于多模态低秩双线性池化的图像内容问答方法,其特征在于步骤(2)所述的多模态低秩双线性池化模型对特征融合,具体如下:
首先叙述原始双线性池化模型,以及在双线性模型基础上利用矩阵分解推导MFB模型的具体过程如下:
2-1.原始双线性池化模型公式如下:
其中,m,n是输入维度,为了得到的输出,有公式如下:
其中W=[W1,W2,..,Wi,..,Wo],可得模型参数量为m×n×o;
2-2.在双线性模型基础上推导MFB模型的具体过程如下:
将公式(5)中的Wi近似表示成两个低秩矩阵相乘其中k是Ui和Vi的秩可得公式如下:
并且公式(7)可进一步推导成如下形式:
其中是元素全为1的向量;ο表示Hadamardproduct,即对两个向量相应元素进行点乘操作其具体公式如下:设
sοt=[s1·t1,s2·t2,...,sr·tr] (公式9)
为了得到的输出,得到公式如下:
进一步推出:
其中
可得MFB模型总的参数量为k×(m+n);
2-3.MFB模型基于神经网络的具体实现如下:
利用映射矩阵将输入的特征映射到k×o维,具体公式如下:
x1=UTx;y1=VTy (公式12)
其中m,n是输入特征维度;
2-4.对两个相同维度的向量做Hadamardproduct,其具体公式如下:
2-5.对Hadamardproduct输出做sumpooling操作,其具体公式如下:
其中是元素全为1的向量;
2-6.对于z进行归一化操作,具体归一化公式如下:
zo=Normalize(z) (公式15)
综上,MFB函数的公式如下:
4.根据权利要求3所述的一种基于多模态低秩双线性池化的图像内容问答方法,其特征在于步骤(3)所述的构建深度神经网络模型,具体如下:
3-1.为了把文本转换成网络需要的文本特征矩阵,将步骤(1)输出的索引向量qi中的索引值通过word embedding转换成词向量,得到文本词向量特征其中l是文本词语个数,e是每个词语的词向量维度,其具体公式如下:
其中是同过word embedding技术生成的词向量;
将问题词向量特征qe输入到LSTM,输出特征其中l是问题的词语个数,d是LSTM输出特征维度;具体公式如下:
qf=LSTM(qe) (公式18)
3-2.对问题文本特征qf提取注意点特征attq,具体的:将qf依次进行Conv1,ReLU,Conv2,Softmax操作生成attq,其中Conv1,Conv2表示卷积操作,ReLU表示非线性激活函数,并将attq和问题特征qf融合,输出带关注点信息的问题特征qa,具体公式如下:
attq=Softmax(Conv(ReLU(Conv(qf)))) (公式19)
qa=SoftAttention(attq,qf) (公式20)
其中Softmax公式如下:
SoftAttention公式表述如下:设
sa=SoftAttention(att,x)=att1·x1+att2·x2+...+attn·xn (公式22)
3-3.对步骤(1)产生的图像特征if提取图像注意点区域特征atti;其中首先将qa复制h×w份,得到其中h,w分别是图像特征if的高和宽,之后将图像特征if和产生的qt输入到步骤(2)描述的MFB模块产生输出z1,并依次进行Conv3,Relu,Conv4,Softmax操作得到图像注意点区域特征atti,并通过Slice切分成G个注意点特征之后将得到的G个图像关注点区域特征和图像特征if融合输出带关注点信息的图像特征之后将生成的各其中拼接得到ia,具体公式如下:
z1=MFB(if,qt) (公式23)
atti=Softmax(Conv(ReLU(Conv(z1)))) (公式24)
其中 Concat函数是指对特征进行拼接操作,ia是向量且gc=g×c;
3-4.将3-2输出的带关注点信息的问题文本特征qa和3-3输出的带关注点信息的图像特征ia输入到步骤(2)描述的MFB模块产生输出z2,并依次进行FC和Softmax操作,其中FC是神经网络全连接操作,最终输出答案预测向量具体公式如下:
z2=MFB(ia,qa) (公式27)
p=Softmax(FC(z2)) (公式28)。
5.根据权利要求4所述的一种基于多模态低秩双线性池化的图像内容问答方法,其特征在于步骤(4)所述的训练模型,具体如下:
将步骤(3)产生的预测向量p同步骤(1)产生的答案向量ao输入到定义的损失函数KLDLoss,得到损失值loss,具体公式如下:
loss=KLDLoss(ao,p) (公式29)
其中KLDLoss公式如下:
其中
根据计算得到的损失值loss,利用反向传播算法调整网络中的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611041.8A CN107480206B (zh) | 2017-07-25 | 2017-07-25 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611041.8A CN107480206B (zh) | 2017-07-25 | 2017-07-25 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480206A true CN107480206A (zh) | 2017-12-15 |
CN107480206B CN107480206B (zh) | 2020-06-12 |
Family
ID=60595808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710611041.8A Active CN107480206B (zh) | 2017-07-25 | 2017-07-25 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480206B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN108376558A (zh) * | 2018-01-24 | 2018-08-07 | 复旦大学 | 一种多模态核磁共振影像病历报告自动生成方法 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108416323A (zh) * | 2018-03-27 | 2018-08-17 | 百度在线网络技术(北京)有限公司 | 用于识别人脸的方法和装置 |
CN108491421A (zh) * | 2018-02-07 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种生成问答的方法、装置、设备和计算存储介质 |
CN108680911A (zh) * | 2018-05-17 | 2018-10-19 | 电子科技大学 | 一种基于神经网络的雷达目标测向方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN109979558A (zh) * | 2017-12-27 | 2019-07-05 | 中国科学院沈阳自动化研究所 | 基于新型人工智能技术的症状药物关联关系分析方法 |
CN110322011A (zh) * | 2018-03-28 | 2019-10-11 | 普天信息技术有限公司 | 面向推理模型的对象关系构造方法及装置 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110379225A (zh) * | 2018-04-12 | 2019-10-25 | 百度(美国)有限责任公司 | 互动式语言习得的系统和方法 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110993094A (zh) * | 2019-11-19 | 2020-04-10 | 中国科学院深圳先进技术研究院 | 一种基于医学图像的智能辅助诊断方法及终端 |
CN111104832A (zh) * | 2018-10-29 | 2020-05-05 | 百度在线网络技术(北京)有限公司 | 图像标签获取方法、图像标签获取装置以及电子设备 |
CN111159472A (zh) * | 2018-11-08 | 2020-05-15 | 微软技术许可有限责任公司 | 多模态聊天技术 |
CN111192278A (zh) * | 2019-12-31 | 2020-05-22 | 北京迈格威科技有限公司 | 语义分割方法、装置、计算机设备和计算机可读存储介质 |
CN111767461A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN111782833A (zh) * | 2020-06-09 | 2020-10-16 | 南京理工大学 | 基于多模型网络的细粒度跨媒体检索方法 |
CN111797811A (zh) * | 2020-07-20 | 2020-10-20 | 广东工业大学 | 一种基于图像理解的盲人导航系统 |
CN111967487A (zh) * | 2020-03-23 | 2020-11-20 | 同济大学 | 一种用于视觉问答模型训练的增量型数据增强方法及应用 |
CN112527962A (zh) * | 2020-12-17 | 2021-03-19 | 云从科技集团股份有限公司 | 基于多模态融合的智能应答方法、装置、机器可读介质及设备 |
CN112580636A (zh) * | 2020-12-30 | 2021-03-30 | 杭州电子科技大学 | 一种基于跨模态协同推理的图像美学质量评价方法 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113095331A (zh) * | 2021-04-22 | 2021-07-09 | 合肥工业大学 | 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质 |
CN113762319A (zh) * | 2021-03-04 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279756A1 (en) * | 2013-03-18 | 2014-09-18 | The Echo Nest Corporation | Cross media recommendation |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN106909905A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的多模态人脸识别方法 |
-
2017
- 2017-07-25 CN CN201710611041.8A patent/CN107480206B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279756A1 (en) * | 2013-03-18 | 2014-09-18 | The Echo Nest Corporation | Cross media recommendation |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
EP3166049A1 (en) * | 2015-11-03 | 2017-05-10 | Baidu USA LLC | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN106909905A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的多模态人脸识别方法 |
Non-Patent Citations (1)
Title |
---|
FUKUI,AKIRA: ""Multimodel Compact Bilinear Pooling for Visual Question Answering and Visual Grounding"", 《EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979558B (zh) * | 2017-12-27 | 2022-12-20 | 中国科学院沈阳自动化研究所 | 基于人工智能技术的症状药物关联关系分析方法 |
CN109979558A (zh) * | 2017-12-27 | 2019-07-05 | 中国科学院沈阳自动化研究所 | 基于新型人工智能技术的症状药物关联关系分析方法 |
CN108170816B (zh) * | 2017-12-31 | 2020-12-08 | 厦门大学 | 一种基于深度神经网络的智能视觉问答方法 |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN108376558A (zh) * | 2018-01-24 | 2018-08-07 | 复旦大学 | 一种多模态核磁共振影像病历报告自动生成方法 |
CN108376558B (zh) * | 2018-01-24 | 2021-08-20 | 复旦大学 | 一种多模态核磁共振影像病历报告自动生成方法 |
CN108491421A (zh) * | 2018-02-07 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种生成问答的方法、装置、设备和计算存储介质 |
CN108491421B (zh) * | 2018-02-07 | 2021-04-16 | 北京百度网讯科技有限公司 | 一种生成问答的方法、装置、设备和计算存储介质 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108416323A (zh) * | 2018-03-27 | 2018-08-17 | 百度在线网络技术(北京)有限公司 | 用于识别人脸的方法和装置 |
CN110322011A (zh) * | 2018-03-28 | 2019-10-11 | 普天信息技术有限公司 | 面向推理模型的对象关系构造方法及装置 |
CN110379225A (zh) * | 2018-04-12 | 2019-10-25 | 百度(美国)有限责任公司 | 互动式语言习得的系统和方法 |
CN110379225B (zh) * | 2018-04-12 | 2021-08-31 | 百度(美国)有限责任公司 | 互动式语言习得的系统和方法 |
US11074829B2 (en) | 2018-04-12 | 2021-07-27 | Baidu Usa Llc | Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game |
CN108680911A (zh) * | 2018-05-17 | 2018-10-19 | 电子科技大学 | 一种基于神经网络的雷达目标测向方法 |
CN111104832A (zh) * | 2018-10-29 | 2020-05-05 | 百度在线网络技术(北京)有限公司 | 图像标签获取方法、图像标签获取装置以及电子设备 |
CN111104832B (zh) * | 2018-10-29 | 2023-05-26 | 百度在线网络技术(北京)有限公司 | 图像标签获取方法、图像标签获取装置以及电子设备 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN111159472A (zh) * | 2018-11-08 | 2020-05-15 | 微软技术许可有限责任公司 | 多模态聊天技术 |
CN111159472B (zh) * | 2018-11-08 | 2024-03-12 | 微软技术许可有限责任公司 | 多模态聊天技术 |
US11921782B2 (en) | 2018-11-08 | 2024-03-05 | Microsoft Technology Licensing, Llc | VideoChat |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110490254B (zh) * | 2019-08-20 | 2023-04-18 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110993094A (zh) * | 2019-11-19 | 2020-04-10 | 中国科学院深圳先进技术研究院 | 一种基于医学图像的智能辅助诊断方法及终端 |
CN111192278A (zh) * | 2019-12-31 | 2020-05-22 | 北京迈格威科技有限公司 | 语义分割方法、装置、计算机设备和计算机可读存储介质 |
CN111192278B (zh) * | 2019-12-31 | 2023-10-24 | 北京迈格威科技有限公司 | 语义分割方法、装置、计算机设备和计算机可读存储介质 |
CN111967487B (zh) * | 2020-03-23 | 2022-09-20 | 同济大学 | 一种用于视觉问答模型训练的增量型数据增强方法及应用 |
CN111967487A (zh) * | 2020-03-23 | 2020-11-20 | 同济大学 | 一种用于视觉问答模型训练的增量型数据增强方法及应用 |
CN111782833B (zh) * | 2020-06-09 | 2023-12-19 | 南京理工大学 | 基于多模型网络的细粒度跨媒体检索方法 |
CN111782833A (zh) * | 2020-06-09 | 2020-10-16 | 南京理工大学 | 基于多模型网络的细粒度跨媒体检索方法 |
CN111767461B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN111767461A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN111797811A (zh) * | 2020-07-20 | 2020-10-20 | 广东工业大学 | 一种基于图像理解的盲人导航系统 |
CN111797811B (zh) * | 2020-07-20 | 2023-09-12 | 广东工业大学 | 一种基于图像理解的盲人导航系统 |
CN112527962A (zh) * | 2020-12-17 | 2021-03-19 | 云从科技集团股份有限公司 | 基于多模态融合的智能应答方法、装置、机器可读介质及设备 |
CN112580636A (zh) * | 2020-12-30 | 2021-03-30 | 杭州电子科技大学 | 一种基于跨模态协同推理的图像美学质量评价方法 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113762319A (zh) * | 2021-03-04 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
CN113095331A (zh) * | 2021-04-22 | 2021-07-09 | 合肥工业大学 | 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107480206B (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480206B (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN111340814B (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN110032635B (zh) | 一种基于深度特征融合神经网络的问题对匹配方法和装置 | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112348191B (zh) | 一种基于多模态表示学习的知识库补全方法 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN113191357A (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN111598979A (zh) | 虚拟角色的面部动画生成方法、装置、设备及存储介质 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN113313173A (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
CN113096001A (zh) | 图像处理方法、电子设备及可读存储介质 | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
CN110110775A (zh) | 一种基于超连接网络的匹配代价计算方法 | |
CN116595133A (zh) | 一种基于堆叠注意力与门控融合的视觉问答方法 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 | |
CN116167014A (zh) | 一种基于视觉和语音的多模态关联型情感识别方法及系统 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN114818739A (zh) | 一种利用位置信息优化的视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |