CN110288665B - 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 - Google Patents
基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 Download PDFInfo
- Publication number
- CN110288665B CN110288665B CN201910393359.2A CN201910393359A CN110288665B CN 110288665 B CN110288665 B CN 110288665B CN 201910393359 A CN201910393359 A CN 201910393359A CN 110288665 B CN110288665 B CN 110288665B
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- word
- coding
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 230000000306 recurrent effect Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题。该方法包括以下步骤:1)将卷积神经网络预训练好;2)提取图像的全局特征和局部特征,将图像的全局特征和局部特征投影到多模态映射空间中;3)对步骤2)中多模态映射空间下的图像表达进行卷积编码;4)单词特征表达;5)对步骤4)的描述语句进行卷积编码,6)计算注意力,得到输入图像对应生成单词的概率;7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;8)将测试图像输入训练的神经网络系统,得到测试图片对应的描述性自然语句。
Description
技术领域
本发明涉及图像与文本多模态融合技术,具体涉及一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,可用于儿童早教、人机交互、视觉障碍人群的辅助视觉等。
背景技术
随着科技的发展,人工智能已逐步成为推动人类进入智能时代的决定性力量。人工智能研究如何让机器模拟人的思维过程和智能行为,让计算机从自然图像中自动生成一段描述性文字,用一句话描述图像的内容。近几年,深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大突破,在图像描述领域也获得广泛关注。
目前,图像描述的方法主要有两大类:
一是基于检索的图像描述方法,该方法在深度学习广泛应用之前较为流行。M.Hodosh等人在文献“M.Hodosh,P.Young,and J.Hockenmaier.Framing imagedescription as a ranking task:Data,models and evaluation metrics.Journal ofArtificial Intelligence Research,2013,47:853–899”中提出了一种基于检索的图像描述方法,即给定一张待描述的图像,在图像-文本数据库中检索出相似的图像,然后根据对应的描述语句生成新的语句来描述该图像。该方法存在的不足之处是,产生的语句缺乏变化,而且描述性语句和图像之间存在较大的偏差,描述精度不理想。
二是基于多模态神经网络的图像描述方法,该方法运用计算机视觉领域和自然语言处理领域取得极大成功的卷积神经网络和递归神经网络。J.Mao等人在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille,“Deep captioning with multimodalrecurrent neural networks(m-rnn).in International Conference on LearningRepresentations(ICLR),2015.”中提出了一种基于多模态递归神经网络的方法,利用卷积神经网络提取图像全局特征,利用递归神经网络对图像特征和自然语句特征进行融合,最后实现图像描述。然而,该方法中多模态融合模块和语言模块使用的是递归神经网络(Recurrent Neural Network,RNN),与卷积神经网络(Convolutional Neural Network,CNN)相比,RNN有许多不足之处。首先,RNN对序列处理是串行处理,即逐词顺序处理,这大大增加了运算复杂度(或时间),这和CNN并行计算隐层状态相反;其次,RNN在处理有单词构成的自然语句中,假设句子长度为T,那么RNN对第一个单词处理次数为T,而对最后一个单词的处理为1次,因此,RNN对序列中的每一个元素处理是不平衡的,而CNN对每一个元素的处理却是平等的。此外,很多研究成果表明,注意力机制对于图像描述任务具有重要的作用,那么当RNN换为CNN时,如何实现注意力机制也需要进一步研究。
发明内容
本发明的目的是解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题,提出一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备。该方法改变传统“CNN-RNN”范式(即用CNN提取图像特征后,使用RNN作为多模态融合和语句生成模块),提供一种新的“CNN-CNN”范式(图像特征和自然语句生成均用CNN来实现)。同时,探索了新的计算注意力方案,巧妙的将注意力机制融入到“CNN-CNN”范式中。
本发明的技术解决方案是:
一种基于卷积神经网络的图像描述方法,包括以下步骤:
1)将卷积神经网络在数据集ImageNet预训练好;
2)利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,然后将图像的全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达v′i,所述图像包括训练集图像和测试集图像;
3)对步骤2)中多模态映射空间下的图像表达进行卷积编码,得到图像编码信息cI;
cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]
4)单词特征表达;
给定步骤2)中图像对应的描述语句,对描述语句的单词进行特征表达,然后经过映射矩阵将其投影到多模态映射空间中,得到描述语句中每个单词的特征表达;
st=Ws·wt,t∈{1,2,…,N}
其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的映射矩阵;
5)对步骤4)的描述语句进行卷积编码,得到相应文本编码信息cs;
cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]
6)计算注意力,得到输入图像对应生成单词的概率;
6.1)将解码器的隐层状态hl和步骤5)中文本编码信息cs通过解码器加权,得到单词的解码向量,然后通过解码向量和步骤3)中的图像编码cI做内积,计算注意力权重,计算公式如下:
6.2)将步骤6.1)得到注意力权重与步骤3)得到的图像信息编码加权求和,得到基于注意力加权的图像信息编码;
6.3)将步骤6.1)得到注意力权重与步骤5)得到的文本信息编码加权求和,得到基于注意力加权的文本信息编码;
假定解码CNN的深度为L,每一层的隐层状态可表示为:
h0=cs+cI
其中,hl是第l层的隐层状态,输入层h0是图像编码和单词编码加权;
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;
解码网络的隐层输出hL,计算每次生成单词的概率pj+1:
(wj+1|w0:j,I;θ)~pj+1
其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数,条件概率(wj+1|w0:j,I;θ)表示已知前j个单词情况下第j+1单词出现的概率;
7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;
7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率,
7.2)使步骤7.1)的损失函数达到最小,初始化网络参数,通过优化算法迭代θ,得到最优的网络参数,完成神经网络训练过程;
8)将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句。
进一步地,步骤2)具体如下:
2.1)将卷积神经网络VGG-19全连接层fc-7的输出作为图像的全局特征;
2.2)将卷积神经网络VGG-19卷积层Conv5-4的输出经过flatten操作后作为图像的局部特征;
v={v1,v2,…,vm}=flatten(Conv(I))
其中,v是图像局部特征,I表示输入图像,Conv()表示利用VGG-19网络提取图像特征;
2.3)将步骤2.1)和步骤2.2)中得到的图像全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达;
v′i=WI·vi,i∈{1,2,…,m}
其中,v′i表示多模态映射空间下的图像表达,WI是图像的映射投影矩阵,vi表示第i个图像局部特征。
进一步地,步骤7.2)中,通过使用随时间反向传播算法优化网络参数。
同时,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
此外,本发明提供一种电子设备,包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行上述方法的步骤。
与现有方法相比,本发明具有以下有益效果:
本发明方法由于利用CNN作为多模态融合和语句生成模块,因此可以并行处理序列信息,提高运算效率;同时运用注意力机制,可以更加精细、精确的描述图像内容。
附图说明
图1为本发明基于卷积神经网络的图像描述方法流程图;
图2为本发明实验中图像描述结果示意图;其中,CNN+MemAttn表示本发明方法生成的描述语句,LSTM表示使用长短期记忆LSTM(Long Short-Term Memory,LSTM))作为语言生成器生成的描述语句,LSTM+Attn表示用LSTM作为语言生成器、使用注意力机制生成的描述语句,GT表示数据集标注的文本描述。
具体实施方式
以下结合附图和具体实施例对本发明的内容作进一步详细描述:
本发明公开了一种基于卷积神经网络的图像描述(图说生成或语句生成)方法,从图片中自动生成一段描述性文字,主要解决了现有递归神经网络(Recurrent NeuralNetwork,RNN)方法不能并行处理序列信号问题。其实现步骤是:(1)将卷积神经网络在数据集ImageNet预训练好;(2)用预训练好的卷积神经网络提取图像-文本数据集中的全局特征和局部特征;(3)将图像-文本训练集的图像特征和描述语句特征输入到多模态递归神经网络,学习图像文本之间的映射关系;(4)构建损失函数,使损失函数达到最小,通过使用随时间反向传播(Backpropagation through time,BPTT)算法优化网络参数;(5)将测试数据集的图像特征通过训练好的网络,产生测试集图像对应的描述性自然语句,并和对应真实标注的语句进行比较,得到相关指标分数。本发明与现有方法相比,使用卷积神经网络(Convolutional Neural Network,CNN)作为语言生成模型,克服已有图像文本描述方法中使用RNN不能并行处理导致的计算效率低的问题,可用于人机交互、虚拟现实等方面。
如图1所示,本发明基于卷积神经网络的图像描述方法具体包括如下步骤:
步骤1、将卷积神经网络在数据集ImageNet预训练好;
本发明使用卷积神经网络VGG-19作为特征提取器,不参与后续网络的训练,而是提前在ImageNet上预训练好;
步骤2、利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,并对图像特征再表达,上述图像包括训练集图像和测试集图像;其中,将VGG-19的全连接层fc-7输出作为图像的全局特征,将VGG-19的卷积层Conv5-4输出经过flatten操作后作为图像的局部特征,对全局特征和局部特征进行再表达,投影到多模态映射空间中;
2.1)提取图像全局特征;
用步骤1)预训练好的卷积神经网络进行特征提取,预训练VGG-19的全连接层fc-7作为图像的全局特征;
2.2)提取图像局部特征;
将卷积神经网络VGG-19的卷积层conv5-4输出向量作为图像局部特征;具体来说,本方法主要利用文献“K.Xu,J.L.Ba,R.Kiros,K.Cho,A.Courville,R.Salakhutdinov,R.Zemel,and Y.Bengio.Show,attend and tell:neural image caption generationwith visual attention.in Proceedings of the International Conference onMachine Learning(ICML),2015”提出的方法,即将VGG-19在ImageNet上预训练好,将图像经过VGG-19网络,得到Conv5-4的输出feature map,然后经过flatten操作,即:
v={v1,v2,…,vm}=flatten(Conv(I))
其中,v是图像局部特征,由m个特征图(feature map)经过flatten操作组成;I表示输入图像,Conv()表示利用VGG-19网络提取图像特征,选择VGG-19的Conv5-4层特征图作为图像的局部特征;
2.3)将步骤2.2)中得到的图像局部特征和全局特征投影到多模态映射空间中,得到多模态映射空间的图像表达,其计算公式为:
v′i=WI·vi,i∈{1,2,…,m}
其中,v′i表示多模态映射空间下的图像表达,WI是图像的映射投影矩阵,vi表示第i个图像局部特征;
步骤3、将2.3)中多模态映射空间下的图像表达输入到卷积神经网络中进行编码,不改变每幅图像局部特征的数目,得到图像编码信息cI;
即将v′=[v′1,v′2,…,v′m]输入到预定义的CNN中,计算公式如下:
cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]
其中,cI图像编码,CNN表示预定义的卷积神经网络,用来对图像表达进行编码;
步骤4、单词特征表达;
给定步骤2)中图像I及其对应的描述语句S=(w1,w2,…,wN),对相应描述语句的单词进行特征表达,表示该描述语句的第i个单词,N0为数据库中单词总数,wi是一个one-hot向量,即wi这个单词在词汇表的位置处取值为1,其他维数的值均为0,然后通过投影映射矩阵对这些单词进行编码,投影到多模态映射空间中,得到描述语句中每个单词的特征表达,即:
st=Ws·wt,t∈{1,2,…,N}
其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的投影映射矩阵;
步骤5、将步骤4)的描述语句输入到卷积神经网络中进行卷积编码,得到相应文本编码信息;
将s={s1,s2,…,sT}输入到预定义的CNN中,计算公式如下:
cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]
其中,cs文本编码,CNN表示预定义的卷积神经网络,用来对单词特征表达进行编码;
步骤6、计算注意力,对步骤5中的编码信息进行解码,计算每次生成单词的概率;
6.1)计算注意力权重将解码器的隐层状态hl和步骤5)中相应文本编码信息cs通过解码器加权,得到单词的解码向量d,然后通过解码向量d和步骤3)中的图像编码cI做内积,
6.2)计算经过注意力机制后的图像信息编码;
得到6.1)中的注意力权重后,对图像特征v和编码信息cI加权求和,得到基于注意力加权的图像信息编码,具体计算公式为:
6.3)对文本信息进行卷积解码,得到基于注意力加权的文本信息编码;
假定解码CNN的深度为L,每一层的隐层状态可表示为:
h0=cs+cI
其中,hl是第l层的隐层状态,CNN表示预定义解码卷积网络,输入层h0是图像编码和单词编码加权;
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;
解码网络的隐层输出hL,计算每次生成单词的概率pj+1:
(wj+1|w0:j,I;θ)~pj+1
其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数;条件概率(wj+1|w0:j,I;θ)表示已知前j个单词情况下第j+1单词出现的概率;
步骤7、构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;
7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
模仿语言概率模型,仍然使产生的目标语句概率达到最大,因此损失公式可写为:
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率。
7.2),使步骤7.1)的损失函数达到最小,初始化网络参数,通过使用随时间反向传播(Backpropagation through time,BPTT)算法迭代训练参数θ,得到最优的网络参数,完成神经网络训练过程;
步骤8、将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句;
具体的,将步骤2中得到的测试图像特征输入到步骤7训练得到的系统中,得到相应测试图像的描述性语句,并和对应真实标注的语句进行比较,得到相关指标分数。
本发明的效果可以通过以下实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为Intel(R)Xeon(R)E5-2697 2.60GHZ、内存4G、GPU K40、Ubuntu 14操作系统上,运用Python及其他相关工具包进行的仿真。实验中使用的训练和测试的数据库为flickr8K、flickr30K和MSCOCO,其样例如图2所示。
2.仿真内容
按如下步骤用本发明方法进行实验:
首先用训练数据训练网络,在测试集上进行测试,生成测试集图像的描述语句。
其次,将生成的图像描述和相应的真实标注语句做比较,计算出相关指标的分数并记录,同其他方法的对比结果如表1所示:
表1:不同方法的B-N分数对比
上表中,选取了目前最好的三种方法m-RNN、DeVS和Google-NIC进行对比。其中m-RNN在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille.Deepcaptioning withmultimodal recurrent neural networks(m-rnn).inInternational Conference onLearning Representations(ICLR),2015.”中提出的。DeVS在文献“A.Karpathy and Fei-Fei Li.Deep visual-semantic alignments for generating image descriptions.inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pages:3128–3137,2015.”中提出。Google-NIC在文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan,Show and tell:Aneural image caption generator,inProceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),pages:3156–3164,2015”中提出。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现基于卷积神经网络的图像描述方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。
用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
Claims (5)
1.一种基于卷积神经网络的图像描述方法,其特征在于,包括以下步骤:
1)将卷积神经网络在数据集ImageNet预训练好;
2)利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,然后将图像的全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达v′i,所述图像包括训练集图像和测试集图像;
3)对步骤2)中多模态映射空间下的图像表达进行卷积编码,得到图像编码信息cI;
cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]
4)单词特征表达;
给定步骤2)中图像对应的描述语句,对描述语句的单词进行特征表达,然后经过映射矩阵将其投影到多模态映射空间中,得到描述语句中每个单词的特征表达;
st=Ws·wt,t∈{1,2,…,N}
其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的映射矩阵;
5)对步骤4)的描述语句进行卷积编码,得到相应文本编码信息cs;
cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]
6)计算注意力,得到输入图像对应生成单词的概率;
6.1)将解码器的隐层状态hl和步骤5)中文本编码信息cs通过解码器加权,得到单词的解码向量,然后通过解码向量和步骤3)中的图像编码cI做内积,计算注意力权重,计算公式如下:
6.2)将步骤6.1)得到注意力权重与步骤3)得到的图像信息编码加权求和,得到基于注意力加权的图像信息编码;
6.3)将步骤6.1)得到注意力权重与步骤5)得到的文本信息编码加权求和,得到基于注意力加权的文本信息编码;
假定解码CNN的深度为L,每一层的隐层状态可表示为:
h0=cs+cI
其中,hl是第l层的隐层状态,输入层h0是图像编码和单词编码加权;
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;
解码网络的隐层输出hL,计算每次生成单词的概率pj+1:
(wj+1|w0:j,I;θ)~pj+1
其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数,条件概率(wj+1|w0:j,I;θ)表示已知前j个单词情况下第j+1单词出现的概率;
7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;
7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率,
7.2)使步骤7.1)的损失函数达到最小,初始化网络参数,通过优化算法迭代θ,得到最优的网络参数,完成神经网络训练过程;
8)将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句。
2.根据权利要求1所述的基于卷积神经网络的图像描述方法,其特征在于:步骤2)具体如下:
2.1)将卷积神经网络VGG-19全连接层fc-7的输出作为图像的全局特征;
2.2)将卷积神经网络VGG-19卷积层Conv5-4的输出经过flatten操作后作为图像的局部特征;
v={v1,v2,…,vm}=flatten(Conv(I))
其中,v是图像局部特征,I表示输入图像,Conv()表示利用VGG-19网络提取图像特征;
2.3)将步骤2.1)和步骤2.2)中得到的图像全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达;
v′i=WI·vi,i∈{1,2,…,m}
其中,v′i表示多模态映射空间下的图像表达,WI是图像的映射投影矩阵,vi表示第i个图像局部特征。
3.根据权利要求1或2所述的基于卷积神经网络的图像描述方法,其特征在于:步骤7.2)中,通过使用随时间反向传播算法优化网络参数。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一所述方法的步骤。
5.一种电子设备,其特征在于:包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行权利要求1至3任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910393359.2A CN110288665B (zh) | 2019-05-13 | 2019-05-13 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910393359.2A CN110288665B (zh) | 2019-05-13 | 2019-05-13 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110288665A CN110288665A (zh) | 2019-09-27 |
CN110288665B true CN110288665B (zh) | 2021-01-15 |
Family
ID=68001804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910393359.2A Active CN110288665B (zh) | 2019-05-13 | 2019-05-13 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110288665B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102234097B1 (ko) * | 2019-07-17 | 2021-04-01 | 부산대학교 산학협력단 | 딥러닝을 위한 이미지 처리 방법 및 이미지 처리 시스템 |
CN110674790B (zh) * | 2019-10-15 | 2021-11-23 | 山东建筑大学 | 一种视频监控中异常场景处理方法及系统 |
CN112732965A (zh) * | 2019-10-28 | 2021-04-30 | 中国银联股份有限公司 | 基于图像描述生成的异常事件检测方法及检测系统 |
CN111368898B (zh) * | 2020-02-28 | 2022-10-25 | 同济大学 | 一种基于长短时记忆网络变体的图像描述生成方法 |
CN111444367B (zh) * | 2020-03-24 | 2022-10-14 | 哈尔滨工程大学 | 一种基于全局与局部注意力机制的图像标题生成方法 |
CN111597877A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于无线信号的跌倒检测方法 |
CN111914854A (zh) * | 2020-07-21 | 2020-11-10 | 同济大学 | 一种基于神经网络的喷雾特征提取方法、设备及存储介质 |
CN111967515B (zh) * | 2020-08-14 | 2024-09-06 | Oppo广东移动通信有限公司 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
CN112733866B (zh) * | 2021-01-27 | 2023-09-26 | 湖南千里云医疗科技有限公司 | 一种提高可控图像文本描述正确性的网络构建方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN113283551B (zh) * | 2021-07-22 | 2021-10-29 | 智者四海(北京)技术有限公司 | 多模态预训练模型的训练方法、训练装置及电子设备 |
CN114022735B (zh) * | 2021-11-09 | 2023-06-23 | 北京有竹居网络技术有限公司 | 视觉语言预训练模型的训练方法、装置、设备及介质 |
CN114049501B (zh) * | 2021-11-22 | 2024-06-21 | 江苏科技大学 | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
CN114723843B (zh) * | 2022-06-01 | 2022-12-06 | 广东时谛智能科技有限公司 | 多模态融合生成虚拟服装方法、装置、设备及存储介质 |
CN116132756B (zh) * | 2023-01-06 | 2024-05-03 | 重庆大学 | 一种基于深度学习的端到端视频字幕生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016013487A1 (de) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Semantischer Vektorraum mit natürlicher Sprache |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108665055A (zh) * | 2017-03-28 | 2018-10-16 | 上海荆虹电子科技有限公司 | 一种图说生成方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11042782B2 (en) * | 2017-03-20 | 2021-06-22 | Intel Corporation | Topic-guided model for image captioning system |
CN107038221B (zh) * | 2017-03-22 | 2020-11-17 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107688821B (zh) * | 2017-07-11 | 2021-08-06 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
CN109190619A (zh) * | 2018-08-23 | 2019-01-11 | 重庆大学 | 一种基于目标掩膜的图像描述方法 |
-
2019
- 2019-05-13 CN CN201910393359.2A patent/CN110288665B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016013487A1 (de) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Semantischer Vektorraum mit natürlicher Sprache |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108665055A (zh) * | 2017-03-28 | 2018-10-16 | 上海荆虹电子科技有限公司 | 一种图说生成方法及装置 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Non-Patent Citations (2)
Title |
---|
Natural language description of remote sensing images based on deep learning;Zhang xiangrong 等;《2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)》;20170723;4798-4801 * |
图像检索中的图像表达方法研究;杜彬彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170115(第01期);I138-516 * |
Also Published As
Publication number | Publication date |
---|---|
CN110288665A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288665B (zh) | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 | |
CN112560503B (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
EP4024232A1 (en) | Text processing model training method, and text processing method and apparatus | |
Lu et al. | Sound active attention framework for remote sensing image captioning | |
Guo et al. | Hierarchical recurrent deep fusion using adaptive clip summarization for sign language translation | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
Le et al. | An overview of deep learning in industry | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN113361278A (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
Agrawal et al. | Image caption generator using attention mechanism | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. | |
CN114495118A (zh) | 基于对抗解耦的个性化手写文字生成方法 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN111666375B (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116561533B (zh) | 一种教育元宇宙中虚拟化身的情感演化方法及终端 | |
CN115712739B (zh) | 舞蹈动作生成方法、计算机设备及存储介质 | |
Jain et al. | Recurrent Memory Addressing for Describing Videos. | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |