CN110276396A - 基于物体显著性和跨模态融合特征的图片描述生成方法 - Google Patents

基于物体显著性和跨模态融合特征的图片描述生成方法 Download PDF

Info

Publication number
CN110276396A
CN110276396A CN201910544985.7A CN201910544985A CN110276396A CN 110276396 A CN110276396 A CN 110276396A CN 201910544985 A CN201910544985 A CN 201910544985A CN 110276396 A CN110276396 A CN 110276396A
Authority
CN
China
Prior art keywords
picture
moment
word
network
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910544985.7A
Other languages
English (en)
Other versions
CN110276396B (zh
Inventor
何立火
张怡
高新波
路文
屈琳子
钟炎喆
邢志伟
李琪琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910544985.7A priority Critical patent/CN110276396B/zh
Publication of CN110276396A publication Critical patent/CN110276396A/zh
Application granted granted Critical
Publication of CN110276396B publication Critical patent/CN110276396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法,主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题,其实现步骤为:1.采用Faster R‑CNN+ResNet‑101网络,检测图片显著性区域的视觉特征和物体类别信息;2.采用特征融合算法生成文字特征和图片视觉特征的融合特征;3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权;4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确,语句流畅的优点,可用于社交多媒体检索、盲人读图和辅助视频监控。

Description

基于物体显著性和跨模态融合特征的图片描述生成方法
技术领域
本发明属于图像处理技术领域,更进一步是一种图片描述生成方法,可用于社交多媒体检索、盲人读图和辅助视频监控。
背景技术
随着社交多媒体的发展,以图片为载体的信息传递方式占越来越重要的比重。图片描述生成利用图像中丰富的视觉信息,生成语义明确、语法准确的文字描述,在很大程度上可以完善社交多媒体网络。
相较于传统的计算机视觉问题,图片描述生成问题涉及图片与自然语言多模态信息的融合。这是人工智能时代发展的必然产物,它教会机器‘交流’。
目前,图片自然语言生成主要包括两类:一类是基于模板或者检索的传统图片描述生成方法,第二类方法是基于深度学习的图片描述生成方式。其中:
基于模板的方法,是一类利用图片信息填充有固定格式的语句模板生成图片描述的方法。2011年,Siming Li等人基于此思路进行研究,提出一种利用图片中物体信息,生成位置短语填补模板生成图片描述的方法。
基于检索的图片描述生成方法,检索数据库中的图片,并根据图片相似性使用已有的语句生成图片的描述。传统的图片描述生成方式生成的语句虽然方法简单,但其生成语句结构单一,描述刻板,并且准确率不高。
近几年,基于深度学习的图片描述生成方法逐渐被广泛应用。编码器-译码器网络结构是基于深度学习的图片描述生成方法的一种通用结构。编码器网络通常指的是卷积神经网络,卷积神经网络的作用是提取图片中丰富的视觉语义信息。译码器网络通常使用循环神经网络,循环神经网络利用编码器所提供的信息时序地生成准确的自然语言描述。谷歌研究院首先提出使用这种结构的方法,利用卷积神经网络得到的图片的特征向量编码图片视觉信息,利用长短时记忆网络生成相应的文字描述。在此之后,为使网络更加接近人类视觉系统,Kelvin Xu等在编码器-译码器网络中加入注意力模块模拟人眼视觉注意力机制。注意力机制的引入使得网络在生成图片描述时选择性关注图片的不同区域,使得描述更准确。另外考虑到生成描述时存在非视觉词语例如冠词、介词等,在生成这类词语时并不需要图片信息的辅助。基于此思路,Jiasen Lu等提出了一种基于哨兵的图片描述生成方式,主要思想是利用哨兵决定是否需要图片信息辅助描述生成。目前基于深度学习的方法虽然是图片描述生成领域的主流方法,但它仍然存在需要改进的地方。缺点之一,在提取图片特征的时候,物体类别信息不够明确,导致描述类别时不够准确。另外在生成描述的过程中,网络需要涉及图片和文字处于不同模态的两类信息,其跨模态融合问题有待进一步研究。
综上所述,现有技术存在两方面问题:一是在生成描述时不能准确识别图片中的物体,二是在生成描述时不能充分利用网络中的文字特征和图片视觉特征信息,造成生成的图片描述存在语义不明确,语句不流畅的不足。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于物体显著性和跨模态特征融合的图片描述生成方法,以通过利用物体类别信息,并改进图片特征信息与文字特征的跨模态融合,提高生成语句物体描述的准确性和语言的流畅性。
为实现上述目的,本发明目的技术方案如下:
(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
(2)统计MSCOCO数据库中所有单词出现次数,用出现次数大于5次的单词构建词典并将其表示成独热编码形式,词典中单词总数记为L;
(3)对数据库中的图片,生成其对应的内容描述A:
(3a)针对一张图片,采用时序的方式生成当前图片对应的文字描述A={y1,…,yt-1,...,yT},其中yt表示t时刻生成的单词,T表示该幅图片对应的描述的总单词数;
(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域,提取这些域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(3c)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为译码器网络生成单词为wt-1
(3d)采用跨模态特征融合算法,利用该图片的视觉特征S和t-1时刻生成单词wt-1计算当前时刻的融合特征zt
(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征zt与视觉特征S及其对应的物体类别B的词嵌入向量C级联,计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重αt
(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重αt计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量
(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入,计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词yt
(4)将训练集中图片每10张划分为一组,以组为单位按照(3)生成训练集Q图片描述,并与数据库中该组图片对应的人工标注的描述进行对比,使用交叉熵函数计算损失,优化网络参数;
(5)按照(3)生成验证集V所有图片对应的描述,并与数据库中对应人工标注的描述对比,利用验证指标,测试当前网络的性能;
(6)重复(4)-(5),直到前后两次网络性能的指标值变化在±0.2%的范围内时,得到训练好的网络;
(7)将测试集E所有图片输入到训练好的网络中,时序地生成对图片的自然语言描述。
本发明与现有技术相比具有以下优点:
第一、本发明结合Faster R-CNN+ResNet-101网络,检测图片中显著性区域的视觉特征及其对应的物体类别信息,并对图片的视觉特征及物体类别进行加权,提高网络对图片物体的表征能力,生成图片描述更加准确。
第二、本发明考虑到文字特征与图片视觉特征的融合问题,使用跨模态特征融合算法生成文字/图片融合特征,使得网络能够更好地利用文字特征与图片视觉特征,提高了网络的图片描述能力,生成的图片描述更加流畅。
综上,本发明在图片描述生成网络中加入物体类别信息,并设计跨模态特征融合算法,通过这两个手段有效地提高了生成语句物体描述的准确性和语言的流畅性。实验仿真结果表明:本发明与谷歌基于卷积神经网络和长短时记忆网络的图片描述算法和基于Hard-Attention的算法相比,在各指标上均有很大的提升。具体结果对比如表1所示。
表1不同方法结果对比
评价指标 Bleu_1 Bleu_4 CIDEr METEOR SPICE
Google NIC - 32.1 99.8 25.7 6.3
Hard-Attention 71.8 25 - 23.9 6.1
本发明 76.9 36.5 114.0 27.3 20.3
附图说明
图1是本发明的实现流程图;
图2是本发明中图片描述生成的流程示意图。
具体实施方式:
下面结合附图对本发明实施例作进一步的描述。
参照图1,本实例的实现步骤如下:
步骤1,统计MSCOCO单词,建立词典。
统计MSCOCO数据库中所有单词出现次数,统计出现次数大于5次的单词,使用这些单词构成词典;并将词典中的单词表示成独热编码形式,记词典中单词总数为L。
步骤2,将MSCOCO数据集划分为训练集、验证集和测试集。
MSCOCO数据库原始训练集包含82,783张图片,验证集包含40,504张图片,依据‘Karpathy’Splits规则,对MSCOCO数据库验证集图片重新划分,即随机不重复地取验证集5,000张图片作为测试集E,将30,504张图片加入现有训练集Q,保留剩余5,000张图片作为验证集V,划分后,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
步骤3,生成训练集图片的自然语言描述,训练网络。
参照图2,本步骤具体实现如下:
(3.1)取训练集10张图片为一组训练网络,使用Faster R-CNN+ResNet-101网络检测第m张图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数s,m的取值范围是1到10;
(3.2)设第m张图片生成文字描述为Am={y1,...,yt-1,...,yT},则t-1时刻生成单词为yt-1,将单词yt-1转化成其对应的独热编码,并将该独热编码输入到一个有512个神经元的全连接层,得到该单词的词嵌入向量Πt-1,其中,T表示该幅图片生成描述的总单词数;
(3.3)将(3.1)提取的图片显著区域的视觉特征S={v1,v2,...,vi,...,vn}平均池化,得到图片全局特征
(3.4)使用图片全局特征和单词的词嵌入向量Πt-1的外积,作为t时刻融合特征zt
其中,表示对图片全局特征和单词的词嵌入向量Πt-1外积,表示对图片全局特征进行傅里叶变换,FFT(Πt-1)表示对单词的词嵌入向量Πt-1进行傅里叶变换,表示对和FFT(Πt-1)相乘的结果进行逆傅里叶变换;
(3.5)将图片物体类别B的第i个区域的类别bi使用它对应的独热编码表示,并输入到一个有512个神经元的全连接层生成第i个区域的词嵌入向量oi,用所有词嵌入向量构成词嵌入集合:C={o1,o2,...,oi,…,on};
(3.6)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为将t时刻的融合特征zt和t-1时刻译码器状态向量级联作为注意力长短时记忆网络的输入,计算当前时刻注意力长短时记忆网络的隐藏层状态向量
其中,为t-1时刻注意力长短时记忆网络的隐藏层状态向量,该注意力长短时记忆网络,是一个两层的长短时记忆网络,每层神经元个数均为512;
(3.7)使用t时刻注意力长短时记忆网络的隐藏层状态向量与图片的视觉特征S的第i个区域的特征vi及其对应的词嵌入词向量oi,共同计算t时刻第i个区域的权重ai,t
其中,Wv、Wo、Wha、Wa分别表示四个神经元个数均为512的全连接层,tanh(·)表示正切函数;
(3.8)用softmax分类器将权重ai,t归一化,得到t时刻第i个区域归一化权重βi,t
βi,t=softmax(ai,t);
(3.9)利用图片第i个区域的视觉特征vi及其对应词嵌入向量oi和t时刻的共享权重βi,t,计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量
(3.10)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络的隐藏层状态向量级联进行,作为译码器的输入,计算t时刻译码器长短时记忆网络的隐藏层状态向量
该译码器长短时记忆网络是一个隐藏层神经元个数是512,层数为2的长短时记忆网络;
(3.11)计算t时刻生成各单词yq,t的条件概率:
其中,y1:t-1表示1到t-1时刻生成的t-1个单词,Wp表示一个神经元个数为词典长度L的全连接层,q的取值范围是1到L;
(3.13)将(3.13)中条件概率最大位置对应的单词作为t时刻生成的单词yt
(3.14)计算第m张图片的交叉熵损失Lm(θ):
其中,表示第m张图片t时刻期望生成的单词,表示第m张图片从1到t-1时刻期生成的t-1个单词,θ表示网络中所有可训练的参数,T表示第m张图片对应的描述的长度;
(3.15)计算该组图片的平均交叉熵损失
(3.16)利用梯度下降算法,反向传播更新网络参数θ;
(3.17)重复(3.1)-(3.16),使用训练集全部图片更新网络参数θ,得到更新后的网络。
步骤4,生成验证集图片的自然语言描述
(4.1)使用Faster R-CNN+ResNet-101网络检测,验证集图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,…,vi,…,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(4.2)将提取的图片视觉特征信息S及其对应的物体类别信息B,输入到参数更新后的网络中,时序地生成对测试集图片的自然语言描述。
步骤5,根据性能指标,判断网络是否终止训练。
(5.1)根据当前网络生成的验证集V所有图片的自然语言描述,根据论文《Bleu:amethod for automatic evaluation of machine translation》、《Cider:Consensus-based image description evaluation》、《Meteor universal:Language specifictranslation evaluation for any target language》、《Spice:Semantic propositionalimage caption evaluation》所述方法,分别计算当前网络的性能指标Bleu_1/Bleu_4、CIDEr、METEOR、SPICE;
(5.2)比较前后两次指标值变化情况,当所有指标值变化在±0.2%的范围内时,停止训练,得到训练好的网络;否则,重复步骤3继续训练网络。
步骤6,使用训练好的网络,生成测试集E图片的自然语言描述。
(6.1)使用Faster R-CNN+ResNet-101网络,检测测试集E图片的显著性区域提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(6.2)将提取的图片视觉特征信息S及其对应的物体类别信息B,输入到训练好的网络中,时序地生成对测试集图片的自然语言描述。
以上所述仅为本发明的较佳实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于物体显著性和跨模态融合特征的图片描述生成方法,其特征在于,包括如下:
(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
(2)统计MSCOCO数据库中所有单词出现次数,用出现次数大于5次的单词建词典并将其表示成独热编码形式,词典中单词总数记为L;
(3)对数据库中的图片,生成其对应的内容描述A:
(3a)针对一张图片,采用时序的方式生成当前图片对应的文字描述A={y1,...,yt-1,...,yT},其中yt表示t时刻生成的单词,T表示该幅图片对应的描述的总单词数;
(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(3c)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为译码器网络生成单词为wt-1
(3d)采用跨模态特征融合算法,利用该图片的视觉特征S和t-1时刻生成单词wt-1计算当前时刻的融合特征zt
(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征zt与视觉特征S及其对应的物体类别B的词嵌入向量C级联,计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重αt
(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重αt计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量
(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入,计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词yt
(4)将训练集中图片每10张划分为一组,以组为单位按照(3)生成训练集Q图片描述,并与数据库中该组图片对应的人工标注的描述进行对比,使用交叉熵函数计算损失,优化网络参数;
(5)按照(3)生成验证集V所有图片对应的描述,并与数据库中对应人工标注的描述对比,利用验证指标,测试当前网络的性能;
(6)重复(4)-(5),直到前后两次网络性能的指标值变化在±0.2%的范围内时,得到训练好的网络;
(7)将测试集E所有图片输入到训练好的网络中,时序地生成对图片的自然语言描述。
2.如权利要求1所述的方法,其中对于(3d)计算当前时刻的融合特征zt,实现如下:
(3d1)将t-1时刻生成单词wt-1转化成其对应的独热编码,将该独热编码输入到一个有512个神经元的全连接层,得到该单词的词嵌入向量Πt-1
(3d2)将(3b)提取的图片显著区域的视觉特征S={v1,v2,...,vi,...,vn}平均池化得到图片全局特征
其中,vi表示第i个显著性区域对应的视觉特征;
(3d3)使用图片全局特征和单词的词嵌入向量Πt-1的外积,作为t时刻融合特征zt,公式如下:
其中,表示外积操作,FFT-1(·)表示逆傅里叶变换操作,FFT(·)表示傅里叶变换操作。
3.如权利要求1所述的方法,其中于(3e)中计算t时刻共享权重αt,实现如下:
(3e1)将图片物体类别B的第i个区域的类别bi使用它对应的独热编码表示,并输入到一个有512个神经元的全连接层生成第i个区域的词嵌入向量oi,用所有词嵌入向量构成词嵌入集合:C={o1,o2,…,oi,...,on};
(3e3)将t时刻的融合特征zt和t-1时刻译码器长短时记忆网络隐藏层状态向量级联作为注意力长短时记忆网络的输入,并与t-1时刻的注意力长短时记忆网络隐藏层状态向量共同计算当前时刻注意力长短时记忆网络的隐藏层状态向量
所述注意力长短时记忆网络,是一个两层的长短时记忆网络,每层神经元个数均为512;
(3e4)使用t时刻注意力长短时记忆网络的隐藏层状态向量与图片的视觉特征S的第i个区域的特征vi及其对应的词嵌入词向量oi,共同计算t时刻第i个区域的权重ai,t
其中,Wv、Wo、Wha、Wa表示四个神经元个数均为512的全连接层,tanh(·)表示正切函数;
(3e5)用softmax分类器将权重ai,t归一化,得到t时刻第i个区域归一化权重βi,t
βi,t=soft max(ai,t)。
4.如权利要求1所述的方法,其中于(3f)中计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量通过如下公式计算:
5.如权利要求1所述的方法,其中于(3g)中计算t时刻译码器长短时记忆网络的隐藏层状态向量和t时刻译码器生成的单词yt,实现如下:
(3g1)使用如下公式计算t时刻译码器长短时记忆网络的隐藏层状态向量
该译码器长短时记忆网络是一个隐藏层神经元个数是512,层数为2的长短时记忆网络;
(3g2)计算t时刻生成各单词yq,t的条件概率:
其中,y1:t-1表示1到t-1时刻生成的t-1个单词,Wp表示一个神经元个数为词典长度L的全连接层,q的取值范围是1到L;
(3g3)将(3g2)中条件概率最大位置对应的单词作为t时刻生成的单词yt
6.如权力要求1所述的方法,其中于(4)中计算交叉熵函数计算损失,优化网络参数,实现如下:
(4a)计算第m张图片其交叉熵损失Lm(θ):
其中,表示第m张图片t时刻期望生成的单词,表示第m张图片从1到t-1时刻期生成的t-1个单词,θ表示网络中所有可训练的参数,T表示第m张图片对应的描述的长度,m的取值范围为1到10;
(4b)计算平均交叉熵损失
(4c)利用梯度下降算法,反向传播更新网络参数θ。
CN201910544985.7A 2019-06-21 2019-06-21 基于物体显著性和跨模态融合特征的图片描述生成方法 Active CN110276396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544985.7A CN110276396B (zh) 2019-06-21 2019-06-21 基于物体显著性和跨模态融合特征的图片描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544985.7A CN110276396B (zh) 2019-06-21 2019-06-21 基于物体显著性和跨模态融合特征的图片描述生成方法

Publications (2)

Publication Number Publication Date
CN110276396A true CN110276396A (zh) 2019-09-24
CN110276396B CN110276396B (zh) 2022-12-06

Family

ID=67961721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544985.7A Active CN110276396B (zh) 2019-06-21 2019-06-21 基于物体显著性和跨模态融合特征的图片描述生成方法

Country Status (1)

Country Link
CN (1) CN110276396B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750663A (zh) * 2019-10-08 2020-02-04 浙江工业大学 一种面向生活记录的跨模态图像检索方法
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN112926616A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 图像匹配方法和装置、电子设备、计算机可读存储介质
CN113298748A (zh) * 2020-02-21 2021-08-24 安徽大学 一种基于注意力机制的图像协同显著目标检测模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
US20180129938A1 (en) * 2016-11-04 2018-05-10 Salesforce.Com, Inc. Dynamic coattention network for question answering
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129938A1 (en) * 2016-11-04 2018-05-10 Salesforce.Com, Inc. Dynamic coattention network for question answering
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750663A (zh) * 2019-10-08 2020-02-04 浙江工业大学 一种面向生活记录的跨模态图像检索方法
CN110750663B (zh) * 2019-10-08 2021-11-23 浙江工业大学 一种面向生活记录的跨模态图像检索方法
CN112926616A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 图像匹配方法和装置、电子设备、计算机可读存储介质
CN112926616B (zh) * 2019-12-06 2024-03-05 顺丰科技有限公司 图像匹配方法和装置、电子设备、计算机可读存储介质
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113298748A (zh) * 2020-02-21 2021-08-24 安徽大学 一种基于注意力机制的图像协同显著目标检测模型
CN113298748B (zh) * 2020-02-21 2022-11-18 安徽大学 一种基于注意力机制的图像协同显著目标检测模型

Also Published As

Publication number Publication date
CN110276396B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110276396A (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
Jiang et al. Fingerspelling identification for Chinese sign language via AlexNet-based transfer learning and Adam optimizer
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN109447242A (zh) 基于迭代学习的图像描述重生成系统及方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN103942191B (zh) 一种基于内容的恐怖文本识别方法
CN109063724A (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN110069778A (zh) 中文融入嵌入词位置感知的商品情感分析方法
CN109508400A (zh) 图文摘要生成方法
CN106529503A (zh) 一种集成卷积神经网络人脸情感识别方法
CN109783641A (zh) 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109711465A (zh) 基于mll和asca-fr的图像字幕生成方法
CN105809201A (zh) 一种生物启发式自主提取图像语义概念的识别方法及装置
CN103473555A (zh) 基于多视角多示例学习的恐怖视频场景识别方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN108920586A (zh) 一种基于深度神经映射支持向量机的短文本分类方法
CN105404865A (zh) 基于概率态受限玻尔兹曼机级联的人脸检测方法
CN113642621A (zh) 基于生成对抗网络的零样本图像分类方法
CN111598252B (zh) 基于深度学习的大学计算机基础知识解题方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Lippmann et al. LNKnet: neural network, machine-learning, and statistical software for pattern classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant