CN110288665B - 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 - Google Patents

基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN110288665B
CN110288665B CN201910393359.2A CN201910393359A CN110288665B CN 110288665 B CN110288665 B CN 110288665B CN 201910393359 A CN201910393359 A CN 201910393359A CN 110288665 B CN110288665 B CN 110288665B
Authority
CN
China
Prior art keywords
image
neural network
word
coding
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910393359.2A
Other languages
English (en)
Other versions
CN110288665A (zh
Inventor
郑向涛
卢孝强
吴思远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN201910393359.2A priority Critical patent/CN110288665B/zh
Publication of CN110288665A publication Critical patent/CN110288665A/zh
Application granted granted Critical
Publication of CN110288665B publication Critical patent/CN110288665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题。该方法包括以下步骤:1)将卷积神经网络预训练好;2)提取图像的全局特征和局部特征,将图像的全局特征和局部特征投影到多模态映射空间中;3)对步骤2)中多模态映射空间下的图像表达进行卷积编码;4)单词特征表达;5)对步骤4)的描述语句进行卷积编码,6)计算注意力,得到输入图像对应生成单词的概率;7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;8)将测试图像输入训练的神经网络系统,得到测试图片对应的描述性自然语句。

Description

基于卷积神经网络的图像描述方法、计算机可读存储介质、电 子设备
技术领域
本发明涉及图像与文本多模态融合技术,具体涉及一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,可用于儿童早教、人机交互、视觉障碍人群的辅助视觉等。
背景技术
随着科技的发展,人工智能已逐步成为推动人类进入智能时代的决定性力量。人工智能研究如何让机器模拟人的思维过程和智能行为,让计算机从自然图像中自动生成一段描述性文字,用一句话描述图像的内容。近几年,深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大突破,在图像描述领域也获得广泛关注。
目前,图像描述的方法主要有两大类:
一是基于检索的图像描述方法,该方法在深度学习广泛应用之前较为流行。M.Hodosh等人在文献“M.Hodosh,P.Young,and J.Hockenmaier.Framing imagedescription as a ranking task:Data,models and evaluation metrics.Journal ofArtificial Intelligence Research,2013,47:853–899”中提出了一种基于检索的图像描述方法,即给定一张待描述的图像,在图像-文本数据库中检索出相似的图像,然后根据对应的描述语句生成新的语句来描述该图像。该方法存在的不足之处是,产生的语句缺乏变化,而且描述性语句和图像之间存在较大的偏差,描述精度不理想。
二是基于多模态神经网络的图像描述方法,该方法运用计算机视觉领域和自然语言处理领域取得极大成功的卷积神经网络和递归神经网络。J.Mao等人在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille,“Deep captioning with multimodalrecurrent neural networks(m-rnn).in International Conference on LearningRepresentations(ICLR),2015.”中提出了一种基于多模态递归神经网络的方法,利用卷积神经网络提取图像全局特征,利用递归神经网络对图像特征和自然语句特征进行融合,最后实现图像描述。然而,该方法中多模态融合模块和语言模块使用的是递归神经网络(Recurrent Neural Network,RNN),与卷积神经网络(Convolutional Neural Network,CNN)相比,RNN有许多不足之处。首先,RNN对序列处理是串行处理,即逐词顺序处理,这大大增加了运算复杂度(或时间),这和CNN并行计算隐层状态相反;其次,RNN在处理有单词构成的自然语句中,假设句子长度为T,那么RNN对第一个单词处理次数为T,而对最后一个单词的处理为1次,因此,RNN对序列中的每一个元素处理是不平衡的,而CNN对每一个元素的处理却是平等的。此外,很多研究成果表明,注意力机制对于图像描述任务具有重要的作用,那么当RNN换为CNN时,如何实现注意力机制也需要进一步研究。
发明内容
本发明的目的是解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题,提出一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备。该方法改变传统“CNN-RNN”范式(即用CNN提取图像特征后,使用RNN作为多模态融合和语句生成模块),提供一种新的“CNN-CNN”范式(图像特征和自然语句生成均用CNN来实现)。同时,探索了新的计算注意力方案,巧妙的将注意力机制融入到“CNN-CNN”范式中。
本发明的技术解决方案是:
一种基于卷积神经网络的图像描述方法,包括以下步骤:
1)将卷积神经网络在数据集ImageNet预训练好;
2)利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,然后将图像的全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达v′i,所述图像包括训练集图像和测试集图像;
3)对步骤2)中多模态映射空间下的图像表达进行卷积编码,得到图像编码信息cI
cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]
4)单词特征表达;
给定步骤2)中图像对应的描述语句,对描述语句的单词进行特征表达,然后经过映射矩阵将其投影到多模态映射空间中,得到描述语句中每个单词的特征表达;
st=Ws·wt,t∈{1,2,…,N}
其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的映射矩阵;
5)对步骤4)的描述语句进行卷积编码,得到相应文本编码信息cs
cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]
6)计算注意力,得到输入图像对应生成单词的概率;
6.1)将解码器的隐层状态hl和步骤5)中文本编码信息cs通过解码器加权,得到单词的解码向量,然后通过解码向量和步骤3)中的图像编码cI做内积,计算注意力权重,计算公式如下:
Figure GDA0002726431950000031
Figure GDA0002726431950000032
其中,
Figure GDA0002726431950000033
表示注意力权重,
Figure GDA0002726431950000034
是第l层的第i个隐层状态,csi是第i个单词编码,cIj是第j个图像编码,
Figure GDA0002726431950000035
表示第i个单词的解码向量,
Figure GDA0002726431950000036
Figure GDA0002726431950000037
是解码器的加权参数和偏移参数;
6.2)将步骤6.1)得到注意力权重与步骤3)得到的图像信息编码加权求和,得到基于注意力加权的图像信息编码;
Figure GDA0002726431950000041
其中,
Figure GDA0002726431950000042
是基于注意力加权的图像信息编码,vj是第j个图像特征;
6.3)将步骤6.1)得到注意力权重与步骤5)得到的文本信息编码加权求和,得到基于注意力加权的文本信息编码;
假定解码CNN的深度为L,每一层的隐层状态可表示为:
Figure GDA0002726431950000043
h0=cs+cI
其中,hl是第l层的隐层状态,输入层h0是图像编码和单词编码加权;
编码器隐层状态更新,利用步骤6.2)中计算得到的经注意力机制后的图像信息
Figure GDA0002726431950000044
对编码器隐层状态
Figure GDA0002726431950000045
进行更新,更新公式为:
Figure GDA0002726431950000046
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;
解码网络的隐层输出hL,计算每次生成单词的概率pj+1
Figure GDA0002726431950000047
(wj+1|w0:j,I;θ)~pj+1
其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数,条件概率(wj+1|w0:j,I;θ)表示已知前j个单词情况下第j+1单词出现的概率;
7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;
7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
Figure GDA0002726431950000048
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率,
7.2)使步骤7.1)的损失函数达到最小,初始化网络参数,通过优化算法迭代θ,得到最优的网络参数,完成神经网络训练过程;
8)将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句。
进一步地,步骤2)具体如下:
2.1)将卷积神经网络VGG-19全连接层fc-7的输出作为图像的全局特征;
2.2)将卷积神经网络VGG-19卷积层Conv5-4的输出经过flatten操作后作为图像的局部特征;
v={v1,v2,…,vm}=flatten(Conv(I))
其中,v是图像局部特征,I表示输入图像,Conv()表示利用VGG-19网络提取图像特征;
2.3)将步骤2.1)和步骤2.2)中得到的图像全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达;
v′i=WI·vi,i∈{1,2,…,m}
其中,v′i表示多模态映射空间下的图像表达,WI是图像的映射投影矩阵,vi表示第i个图像局部特征。
进一步地,步骤7.2)中,通过使用随时间反向传播算法优化网络参数。
同时,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
此外,本发明提供一种电子设备,包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行上述方法的步骤。
与现有方法相比,本发明具有以下有益效果:
本发明方法由于利用CNN作为多模态融合和语句生成模块,因此可以并行处理序列信息,提高运算效率;同时运用注意力机制,可以更加精细、精确的描述图像内容。
附图说明
图1为本发明基于卷积神经网络的图像描述方法流程图;
图2为本发明实验中图像描述结果示意图;其中,CNN+MemAttn表示本发明方法生成的描述语句,LSTM表示使用长短期记忆LSTM(Long Short-Term Memory,LSTM))作为语言生成器生成的描述语句,LSTM+Attn表示用LSTM作为语言生成器、使用注意力机制生成的描述语句,GT表示数据集标注的文本描述。
具体实施方式
以下结合附图和具体实施例对本发明的内容作进一步详细描述:
本发明公开了一种基于卷积神经网络的图像描述(图说生成或语句生成)方法,从图片中自动生成一段描述性文字,主要解决了现有递归神经网络(Recurrent NeuralNetwork,RNN)方法不能并行处理序列信号问题。其实现步骤是:(1)将卷积神经网络在数据集ImageNet预训练好;(2)用预训练好的卷积神经网络提取图像-文本数据集中的全局特征和局部特征;(3)将图像-文本训练集的图像特征和描述语句特征输入到多模态递归神经网络,学习图像文本之间的映射关系;(4)构建损失函数,使损失函数达到最小,通过使用随时间反向传播(Backpropagation through time,BPTT)算法优化网络参数;(5)将测试数据集的图像特征通过训练好的网络,产生测试集图像对应的描述性自然语句,并和对应真实标注的语句进行比较,得到相关指标分数。本发明与现有方法相比,使用卷积神经网络(Convolutional Neural Network,CNN)作为语言生成模型,克服已有图像文本描述方法中使用RNN不能并行处理导致的计算效率低的问题,可用于人机交互、虚拟现实等方面。
如图1所示,本发明基于卷积神经网络的图像描述方法具体包括如下步骤:
步骤1、将卷积神经网络在数据集ImageNet预训练好;
本发明使用卷积神经网络VGG-19作为特征提取器,不参与后续网络的训练,而是提前在ImageNet上预训练好;
步骤2、利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,并对图像特征再表达,上述图像包括训练集图像和测试集图像;其中,将VGG-19的全连接层fc-7输出作为图像的全局特征,将VGG-19的卷积层Conv5-4输出经过flatten操作后作为图像的局部特征,对全局特征和局部特征进行再表达,投影到多模态映射空间中;
2.1)提取图像全局特征;
用步骤1)预训练好的卷积神经网络进行特征提取,预训练VGG-19的全连接层fc-7作为图像的全局特征;
2.2)提取图像局部特征;
将卷积神经网络VGG-19的卷积层conv5-4输出向量作为图像局部特征;具体来说,本方法主要利用文献“K.Xu,J.L.Ba,R.Kiros,K.Cho,A.Courville,R.Salakhutdinov,R.Zemel,and Y.Bengio.Show,attend and tell:neural image caption generationwith visual attention.in Proceedings of the International Conference onMachine Learning(ICML),2015”提出的方法,即将VGG-19在ImageNet上预训练好,将图像经过VGG-19网络,得到Conv5-4的输出feature map,然后经过flatten操作,即:
v={v1,v2,…,vm}=flatten(Conv(I))
其中,v是图像局部特征,由m个特征图(feature map)经过flatten操作组成;I表示输入图像,Conv()表示利用VGG-19网络提取图像特征,选择VGG-19的Conv5-4层特征图作为图像的局部特征;
2.3)将步骤2.2)中得到的图像局部特征和全局特征投影到多模态映射空间中,得到多模态映射空间的图像表达,其计算公式为:
v′i=WI·vi,i∈{1,2,…,m}
其中,v′i表示多模态映射空间下的图像表达,WI是图像的映射投影矩阵,vi表示第i个图像局部特征;
步骤3、将2.3)中多模态映射空间下的图像表达输入到卷积神经网络中进行编码,不改变每幅图像局部特征的数目,得到图像编码信息cI
即将v′=[v′1,v′2,…,v′m]输入到预定义的CNN中,计算公式如下:
cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]
其中,cI图像编码,CNN表示预定义的卷积神经网络,用来对图像表达进行编码;
步骤4、单词特征表达;
给定步骤2)中图像I及其对应的描述语句S=(w1,w2,…,wN),对相应描述语句的单词进行特征表达,
Figure GDA0002726431950000081
表示该描述语句的第i个单词,N0为数据库中单词总数,wi是一个one-hot向量,即wi这个单词在词汇表的位置处取值为1,其他维数的值均为0,然后通过投影映射矩阵对这些单词进行编码,投影到多模态映射空间中,得到描述语句中每个单词的特征表达,即:
st=Ws·wt,t∈{1,2,…,N}
其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的投影映射矩阵;
步骤5、将步骤4)的描述语句输入到卷积神经网络中进行卷积编码,得到相应文本编码信息;
将s={s1,s2,…,sT}输入到预定义的CNN中,计算公式如下:
cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]
其中,cs文本编码,CNN表示预定义的卷积神经网络,用来对单词特征表达进行编码;
步骤6、计算注意力,对步骤5中的编码信息进行解码,计算每次生成单词的概率;
6.1)计算注意力权重将解码器的隐层状态hl和步骤5)中相应文本编码信息cs通过解码器加权,得到单词的解码向量d,然后通过解码向量d和步骤3)中的图像编码cI做内积,
计算注意力权重,其具体计算公式如下:
Figure GDA0002726431950000091
Figure GDA0002726431950000092
其中,
Figure GDA0002726431950000093
表示注意力权重,
Figure GDA0002726431950000094
是第l层的第i个隐层状态,csi是第i个单词编码(文本编码信息),cIj是图像编码,
Figure GDA0002726431950000095
表示第i个单词的解码向量,
Figure GDA0002726431950000096
Figure GDA0002726431950000097
是解码器的加权参数和偏移参数;
6.2)计算经过注意力机制后的图像信息编码;
得到6.1)中的注意力权重后,对图像特征v和编码信息cI加权求和,得到基于注意力加权的图像信息编码,具体计算公式为:
Figure GDA0002726431950000098
其中,
Figure GDA0002726431950000099
是基于注意力加权的图像编码,
Figure GDA00027264319500000910
是步骤6.1)计算的注意力,vj是第j个图像特征;
6.3)对文本信息进行卷积解码,得到基于注意力加权的文本信息编码;
假定解码CNN的深度为L,每一层的隐层状态可表示为:
Figure GDA00027264319500000911
h0=cs+cI
其中,hl是第l层的隐层状态,CNN表示预定义解码卷积网络,输入层h0是图像编码和单词编码加权;
编码器隐层状态更新,利用步骤6.2)中计算得到的经注意力机制后的图像信息
Figure GDA00027264319500000912
对编码器隐层状态
Figure GDA00027264319500000913
进行更新,更新公式为:
Figure GDA00027264319500000914
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;
解码网络的隐层输出hL,计算每次生成单词的概率pj+1
Figure GDA0002726431950000101
(wj+1|w0:j,I;θ)~pj+1
其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数;条件概率(wj+1|w0:j,I;θ)表示已知前j个单词情况下第j+1单词出现的概率;
步骤7、构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;
7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
模仿语言概率模型,仍然使产生的目标语句概率达到最大,因此损失公式可写为:
Figure GDA0002726431950000102
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率。
7.2),使步骤7.1)的损失函数达到最小,初始化网络参数,通过使用随时间反向传播(Backpropagation through time,BPTT)算法迭代训练参数θ,得到最优的网络参数,完成神经网络训练过程;
步骤8、将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句;
具体的,将步骤2中得到的测试图像特征输入到步骤7训练得到的系统中,得到相应测试图像的描述性语句,并和对应真实标注的语句进行比较,得到相关指标分数。
本发明的效果可以通过以下实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为Intel(R)Xeon(R)E5-2697 2.60GHZ、内存4G、GPU K40、Ubuntu 14操作系统上,运用Python及其他相关工具包进行的仿真。实验中使用的训练和测试的数据库为flickr8K、flickr30K和MSCOCO,其样例如图2所示。
2.仿真内容
按如下步骤用本发明方法进行实验:
首先用训练数据训练网络,在测试集上进行测试,生成测试集图像的描述语句。
其次,将生成的图像描述和相应的真实标注语句做比较,计算出相关指标的分数并记录,同其他方法的对比结果如表1所示:
表1:不同方法的B-N分数对比
Figure GDA0002726431950000111
上表中,选取了目前最好的三种方法m-RNN、DeVS和Google-NIC进行对比。其中m-RNN在文献“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille.Deepcaptioning withmultimodal recurrent neural networks(m-rnn).inInternational Conference onLearning Representations(ICLR),2015.”中提出的。DeVS在文献“A.Karpathy and Fei-Fei Li.Deep visual-semantic alignments for generating image descriptions.inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pages:3128–3137,2015.”中提出。Google-NIC在文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan,Show and tell:Aneural image caption generator,inProceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),pages:3156–3164,2015”中提出。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现基于卷积神经网络的图像描述方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。
用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

Claims (5)

1.一种基于卷积神经网络的图像描述方法,其特征在于,包括以下步骤:
1)将卷积神经网络在数据集ImageNet预训练好;
2)利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,然后将图像的全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达v′i,所述图像包括训练集图像和测试集图像;
3)对步骤2)中多模态映射空间下的图像表达进行卷积编码,得到图像编码信息cI
cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]
4)单词特征表达;
给定步骤2)中图像对应的描述语句,对描述语句的单词进行特征表达,然后经过映射矩阵将其投影到多模态映射空间中,得到描述语句中每个单词的特征表达;
st=Ws·wt,t∈{1,2,…,N}
其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的映射矩阵;
5)对步骤4)的描述语句进行卷积编码,得到相应文本编码信息cs
cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]
6)计算注意力,得到输入图像对应生成单词的概率;
6.1)将解码器的隐层状态hl和步骤5)中文本编码信息cs通过解码器加权,得到单词的解码向量,然后通过解码向量和步骤3)中的图像编码cI做内积,计算注意力权重,计算公式如下:
Figure FDA0002726431940000011
Figure FDA0002726431940000012
其中,
Figure FDA0002726431940000021
表示注意力权重,
Figure FDA0002726431940000022
是第l层的第i个隐层状态,csi是第i个单词编码,cIj是第j个图像编码,
Figure FDA0002726431940000023
表示第i个单词的解码向量,
Figure FDA0002726431940000024
Figure FDA0002726431940000025
是解码器的加权参数和偏移参数;
6.2)将步骤6.1)得到注意力权重与步骤3)得到的图像信息编码加权求和,得到基于注意力加权的图像信息编码;
Figure FDA0002726431940000026
其中,
Figure FDA0002726431940000027
是基于注意力加权的图像信息编码,vj是第j个图像特征;
6.3)将步骤6.1)得到注意力权重与步骤5)得到的文本信息编码加权求和,得到基于注意力加权的文本信息编码;
假定解码CNN的深度为L,每一层的隐层状态可表示为:
Figure FDA0002726431940000028
h0=cs+cI
其中,hl是第l层的隐层状态,输入层h0是图像编码和单词编码加权;
编码器隐层状态更新,利用步骤6.2)中计算得到的经注意力机制后的图像信息
Figure FDA0002726431940000029
对编码器隐层状态
Figure FDA00027264319400000210
进行更新,更新公式为:
Figure FDA00027264319400000211
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;
解码网络的隐层输出hL,计算每次生成单词的概率pj+1
Figure FDA00027264319400000212
(wj+1|w0:j,I;θ)~pj+1
其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数,条件概率(wj+1|w0:j,I;θ)表示已知前j个单词情况下第j+1单词出现的概率;
7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;
7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
Figure FDA0002726431940000031
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率,
7.2)使步骤7.1)的损失函数达到最小,初始化网络参数,通过优化算法迭代θ,得到最优的网络参数,完成神经网络训练过程;
8)将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句。
2.根据权利要求1所述的基于卷积神经网络的图像描述方法,其特征在于:步骤2)具体如下:
2.1)将卷积神经网络VGG-19全连接层fc-7的输出作为图像的全局特征;
2.2)将卷积神经网络VGG-19卷积层Conv5-4的输出经过flatten操作后作为图像的局部特征;
v={v1,v2,…,vm}=flatten(Conv(I))
其中,v是图像局部特征,I表示输入图像,Conv()表示利用VGG-19网络提取图像特征;
2.3)将步骤2.1)和步骤2.2)中得到的图像全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达;
v′i=WI·vi,i∈{1,2,…,m}
其中,v′i表示多模态映射空间下的图像表达,WI是图像的映射投影矩阵,vi表示第i个图像局部特征。
3.根据权利要求1或2所述的基于卷积神经网络的图像描述方法,其特征在于:步骤7.2)中,通过使用随时间反向传播算法优化网络参数。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一所述方法的步骤。
5.一种电子设备,其特征在于:包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行权利要求1至3任一所述方法的步骤。
CN201910393359.2A 2019-05-13 2019-05-13 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 Active CN110288665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393359.2A CN110288665B (zh) 2019-05-13 2019-05-13 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393359.2A CN110288665B (zh) 2019-05-13 2019-05-13 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN110288665A CN110288665A (zh) 2019-09-27
CN110288665B true CN110288665B (zh) 2021-01-15

Family

ID=68001804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393359.2A Active CN110288665B (zh) 2019-05-13 2019-05-13 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN110288665B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102234097B1 (ko) * 2019-07-17 2021-04-01 부산대학교 산학협력단 딥러닝을 위한 이미지 처리 방법 및 이미지 처리 시스템
CN110674790B (zh) * 2019-10-15 2021-11-23 山东建筑大学 一种视频监控中异常场景处理方法及系统
CN112732965A (zh) * 2019-10-28 2021-04-30 中国银联股份有限公司 基于图像描述生成的异常事件检测方法及检测系统
CN111368898B (zh) * 2020-02-28 2022-10-25 同济大学 一种基于长短时记忆网络变体的图像描述生成方法
CN111444367B (zh) * 2020-03-24 2022-10-14 哈尔滨工程大学 一种基于全局与局部注意力机制的图像标题生成方法
CN111597877A (zh) * 2020-04-02 2020-08-28 浙江工业大学 一种基于无线信号的跌倒检测方法
CN111914854A (zh) * 2020-07-21 2020-11-10 同济大学 一种基于神经网络的喷雾特征提取方法、设备及存储介质
CN111967515B (zh) * 2020-08-14 2024-09-06 Oppo广东移动通信有限公司 图像信息提取方法、训练方法及装置、介质和电子设备
CN112733866B (zh) * 2021-01-27 2023-09-26 湖南千里云医疗科技有限公司 一种提高可控图像文本描述正确性的网络构建方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN114022735B (zh) * 2021-11-09 2023-06-23 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114049501B (zh) * 2021-11-22 2024-06-21 江苏科技大学 融合集束搜索的图像描述生成方法、系统、介质及设备
CN114723843B (zh) * 2022-06-01 2022-12-06 广东时谛智能科技有限公司 多模态融合生成虚拟服装方法、装置、设备及存储介质
CN116132756B (zh) * 2023-01-06 2024-05-03 重庆大学 一种基于深度学习的端到端视频字幕生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016013487A1 (de) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantischer Vektorraum mit natürlicher Sprache
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108665055A (zh) * 2017-03-28 2018-10-16 上海荆虹电子科技有限公司 一种图说生成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042782B2 (en) * 2017-03-20 2021-06-22 Intel Corporation Topic-guided model for image captioning system
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107688821B (zh) * 2017-07-11 2021-08-06 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN109190619A (zh) * 2018-08-23 2019-01-11 重庆大学 一种基于目标掩膜的图像描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016013487A1 (de) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantischer Vektorraum mit natürlicher Sprache
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108665055A (zh) * 2017-03-28 2018-10-16 上海荆虹电子科技有限公司 一种图说生成方法及装置
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Natural language description of remote sensing images based on deep learning;Zhang xiangrong 等;《2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)》;20170723;4798-4801 *
图像检索中的图像表达方法研究;杜彬彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170115(第01期);I138-516 *

Also Published As

Publication number Publication date
CN110288665A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110288665B (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN112560503B (zh) 融合深度特征和时序模型的语义情感分析方法
EP4024232A1 (en) Text processing model training method, and text processing method and apparatus
Lu et al. Sound active attention framework for remote sensing image captioning
Guo et al. Hierarchical recurrent deep fusion using adaptive clip summarization for sign language translation
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN111859954A (zh) 目标对象识别方法、装置、设备及计算机可读存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
Le et al. An overview of deep learning in industry
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN113361278A (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
Agrawal et al. Image caption generator using attention mechanism
Elleuch et al. The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN.
CN114495118A (zh) 基于对抗解耦的个性化手写文字生成方法
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN111666375B (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116561533B (zh) 一种教育元宇宙中虚拟化身的情感演化方法及终端
CN115712739B (zh) 舞蹈动作生成方法、计算机设备及存储介质
Jain et al. Recurrent Memory Addressing for Describing Videos.
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant