CN111368898A - 一种基于长短时记忆网络变体的图像描述生成方法 - Google Patents

一种基于长短时记忆网络变体的图像描述生成方法 Download PDF

Info

Publication number
CN111368898A
CN111368898A CN202010129973.0A CN202010129973A CN111368898A CN 111368898 A CN111368898 A CN 111368898A CN 202010129973 A CN202010129973 A CN 202010129973A CN 111368898 A CN111368898 A CN 111368898A
Authority
CN
China
Prior art keywords
image
description
network
lstm
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010129973.0A
Other languages
English (en)
Other versions
CN111368898B (zh
Inventor
王瀚漓
杨龙雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010129973.0A priority Critical patent/CN111368898B/zh
Publication of CN111368898A publication Critical patent/CN111368898A/zh
Application granted granted Critical
Publication of CN111368898B publication Critical patent/CN111368898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。与现有技术相比,本发明具有能显著提升图像描述的质量和准确性等优点。

Description

一种基于长短时记忆网络变体的图像描述生成方法
技术领域
本发明涉及图像理解和自然语言处理的交叉领域,尤其是涉及一种基于长短时记忆网络变体的图像描述生成方法。
背景技术
图像描述任务是近年来机器学习领域一大热点。该任务通过机器学习模型,将图像信息自动转换为自然语言描述,在人机交互、盲人导航、图片检索等领域有着广泛的应用前景,因此吸引了国内外大量学者的研究兴趣。同时,该任务也是机器学习领域的一大难点问题,因其不仅需要模型准确地识别图片、视频中的目标物体,还需要模型对物体与物体之间、物体与背景之间等关系有较为深刻地理解,并生成一段生动的自然语言描述,因此这一任务对计算机视觉和自然语言处理两大领域都有着较大的考验。
目前,大部分学者主要使用深度学习方法来实现视觉描述任务。最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视觉特征送入长短期记忆网络(LSTM)来生成自然语言描述,如专利申请CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制,注意力网络(Attention Network)也被引入视觉描述任务,如CN108052512A。但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的图像描述生成方法,能显著提升图像描述的质量和准确性。
本发明的目的可以通过以下技术方案来实现:
一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
进一步地,所述图像特征编码模块的处理过程具体为:
将初始图像特征变换为序列图像特征,按照序列次序依次将所述序列图像特征输入至第一LSTM中,获取带有语义信息的全局图像特征。
进一步地,所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。
进一步地,所述第一LSTM中,在时间步j,第一LSTM的隐藏层
Figure BDA0002395536360000021
和细胞层
Figure BDA0002395536360000022
的计算方式为:
Figure BDA0002395536360000023
Figure BDA0002395536360000024
其中,vj为序列图像特征中的元素。
进一步地,所述卷积神经网络输出的初始图像特征经维数变换后输入所述描述生成模块。
进一步地,所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息,生成前面时间步词特征,所述注意力网络用于生成局部注意力图像特征,所述CaptionNet网络为LSTM变体,其输入门和细胞输入仅以所述局部注意力图像特征作为输入,其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。
进一步地,所述第二LSTM中,在时间步t,第二LSTM的隐藏层
Figure BDA0002395536360000025
和细胞层
Figure BDA0002395536360000026
的计算方式为:
Figure BDA0002395536360000027
Figure BDA0002395536360000028
其中,xt=ReLU(Weωt-1)是词嵌入向量,ωt-1是上一个词的one-hot向量。
进一步地,在时间步t,所述局部注意力图像特征的计算公式为:
Figure BDA0002395536360000029
其中,Vt a是局部注意力图像特征,αti是概率分布,Vi h是经维数变换后的初始图像特征中的元素,K是图像特征的个数。
进一步地,所述CaptionNet网络中,在时间步t,第二LSTM的隐藏层
Figure BDA0002395536360000031
和细胞层
Figure BDA0002395536360000032
的计算方式为:
Figure BDA0002395536360000033
Figure BDA0002395536360000034
其中,
Figure BDA0002395536360000035
是第二LSTM的隐藏层
Figure BDA0002395536360000036
Figure BDA0002395536360000037
是上一个时间步CaptionNet网络的隐藏层和细胞层,Vt a是局部注意力图像特征,
Figure BDA0002395536360000038
是图像特征编码模块的输出。
进一步地,所述图像描述模型的训练过程具体为:
使用交叉损失函数对所述图像描述模型进行M轮训练,其中前N轮训练中,卷积神经网络的参数固定,其他部分进行学习,后M-N轮训练中,卷积神经网络进行学习,其他部分的参数固定;
使用强化学习方法优化所述图像描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
与现有技术相比,本发明具有如下有益效果:
1、本发明图像特征变换为序列图像特征(Sequential Image Features)并依次输入到长短期记忆(LSTM)中,可以获得语义信息更加丰富的全局图像特征,进而提高图像描述准确性。
2、本发明引用注意力网络,模型能根据当前的描述和视觉内容在视觉特征的维度上生成一个概率分布,这一分布能够反应当前即将生成的词与视觉特征中的哪一个区域最为相关,从而帮助模型更加准确地生成描述信息。
3、本发明针对LSTM每一个时间步只能接收一个输入,而基于注意力的图像描述生成模型往往有两个输入这一问题,对LSTM进行改进,使其能同时接收两个输出,以获得更多图像信息,减少前面时间步的词对当前时间步输出的不利影响,显著提升图像描述的质量和准确性。
附图说明
图1为本发明模型的整体框架图;
图2为本发明中图像特征编码的框架图;
图3为本发明中每个时间步使用注意力网络生成词的框架图;
图4为本发明中LSTM变体,即CaptionNet的内部示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,如图1所示,所述图像描述模型包括卷积神经网络(CNN)、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
如图2所示,所述图像特征编码模块的处理过程具体为:将初始图像特征变换为序列图像特征,按照序列次序依次将所述序列图像特征输入至第一LSTM(记作LSTM1)中,获取带有语义信息的全局图像特征。所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。
图像特征编码模块的具体过程包括:
11)将图像描述数据集MS COCO中的图像一致调整为576×576大小,再随机裁剪成512×512大小,输入到已在ImageNet上提前训练好的ResNet152中,取其最后一个卷积层的输出记为V∈RD×K,其中K=256为图像特征的个数,D=2048为每个图像特征的维数;
12)使用两个全连接层(FC)和一个ReLU激活函数,将V变换为“序列图像特征”(Sequential Image Features)Vs,具体表示为:
Vs=ReLU(Wk(WdV+bd)T+bk)
其中Wd∈RE×D,bd∈RE,Wk∈RS×K,bk∈RS是待学习的参数,E=512是用户预设的LSTM输入维数,S=10是用户预设的序列图像特征的序列长度;
13)将Vs=[v1,v2,···,vs]一步一步输入到一个一层的LSTM1中。在每个时间步j,LSTM1的隐藏层
Figure BDA0002395536360000041
和细胞层
Figure BDA0002395536360000042
的计算方式为:
Figure BDA0002395536360000043
Figure BDA0002395536360000044
其中LSTM内部的计算方式为:
ij=σ(Wivvj+Wihhj-1+bi)
fj=σ(Wfvvj+Wfhhj-1+bf)
oj=σ(Wovvj+Wohhj-1+bo)
gj=tanh(Wgvvj+Wghhj-1+bg)
cj=ij⊙gj+fj⊙cj-1
hj=oj⊙tanh(cj)
这里,ij,fj,oj,gj分别为LSTM的输入门、遗忘门、输出门和细胞输入。
描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息,生成前面时间步词特征,所述注意力网络用于生成局部注意力图像特征,所述CaptionNet网络为LSTM变体,其输入门和细胞输入仅以所述局部注意力图像特征作为输入,其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。
为了使得V的维数与注意力网络的维数一致,作以下变换:
Vh=ReLU(WvhV+bvh)
其中Wvh∈RH×D,bvh∈RH是待学习的参数,H=1024是LSTM或CaptionNet隐藏层的维数大小。
如图3所示,生成时间步t的词时,包括步骤:
21)使用LSTM2来表示前面时间步生成的句子信息,LSTM2的隐藏层
Figure BDA0002395536360000051
和细胞层
Figure BDA0002395536360000052
的计算方式为:
Figure BDA0002395536360000053
Figure BDA0002395536360000054
其中xt=ReLU(Weωt-1)是词嵌入向量,ωt-1是上一个词的one-hot向量,We是待学习的参数;
22)使用注意力网络生成在V上的一个概率分布αt
Figure BDA0002395536360000055
αt=softmax(zt)
其中wa∈RH,Wva,Wha,Wca∈RH×H是待学习的参数,
Figure BDA0002395536360000056
是上一个时间步CaptionNet的细胞层,之后,计算时间步t的局部注意力图像特征Vt a
Figure BDA0002395536360000061
23)使用预测当前时间步生成的词,CaptionNet的输入输出为:
Figure BDA0002395536360000062
Figure BDA0002395536360000063
其中
Figure BDA0002395536360000064
是CaptionNet的隐藏层和细胞层。如图4所示,CaptionNet的内部的更新方式是只允许局部注意力图像特征Vt a进入输入门i′t和细胞输入g′t,具体表示为:
Figure BDA0002395536360000065
Figure BDA0002395536360000066
对于CaptionNet的遗忘门f′t,需要局部图像特征Vt a和表示前面时间步生成的句子信息的
Figure BDA00023955363600000615
共同输入,以此训练模型忘记那些已经生成的图像信息,具体表示为:
Figure BDA0002395536360000067
对于CaptionNet的输出门o′t,也同样需要局部图像特征Vt a和表示前面时间步生成的句子信息的
Figure BDA0002395536360000068
共同输入,以此训练模型决定哪些图像特征输出到本时间步:
Figure BDA0002395536360000069
之后,CaptionNet细胞层和隐藏层的更新方式与LSTM相同:
Figure BDA00023955363600000610
Figure BDA00023955363600000611
24)使用
Figure BDA00023955363600000612
来预测下一个词的概率,具体表示为:
Figure BDA00023955363600000613
其中Wp∈RG×H,bp∈RG是待学习的参数,G是词典的大小。
上述图像描述模型搭建完毕后的训练过程具体为:
31)使用交叉损失函数对所述图像描述模型进行M轮训练,其中前N轮训练中,卷积神经网络的参数固定,其他部分进行学习,后M-N轮训练中,卷积神经网络进行学习,其他部分的参数固定。
本实施例中,设一个图像描述真实的词序列是
Figure BDA00023955363600000614
模型的全部待学习参数是θ,训练轮数为25轮,其中前10轮CNN的参数固定,剩余模型的学习率为5e-4,后15轮CNN参与训练,学习率为1e-5,剩余模型的学习率不变。
交叉损失函数具体表示为:
Figure BDA0002395536360000071
32)使用强化学习方法优化所述图像描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
本实施例中,CNN的参数固定,剩余模型的学习率为5e-5。设
Figure BDA0002395536360000072
是采样得到的词序列,使用以下损失函数对CIDEr指标进行优化,其梯度的近似计算方式为:
Figure BDA0002395536360000073
其中r(·)是CIDEr指标的计算函数,
Figure BDA0002395536360000074
是贪心解码获得的词序列,用来约束梯度的变化幅度。
为了验证本申请方法的性能,设计了以下实验。
在公开数据集MS COCO上使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L、CIDEr和SPICE标准来对生成的句子进行评价。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子;
表1本发明在MS COCO数据集上性能表现
方法 B-1 B-4 METEOR ROUGE_L CIDEr SPICE
基准模型 79.8 36.3 27.7 56.9 120.1 21.4
本发明 80.0 37.6 28.2 57.8 123.9 21.9
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (10)

1.一种基于长短时记忆网络变体的图像描述生成方法,其特征在于,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
2.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述图像特征编码模块的处理过程具体为:
将初始图像特征变换为序列图像特征,按照序列次序依次将所述序列图像特征输入至第一LSTM中,获取带有语义信息的全局图像特征。
3.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。
4.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述第一LSTM中,在时间步j,第一LSTM的隐藏层
Figure FDA0002395536350000011
和细胞层
Figure FDA0002395536350000012
的计算方式为:
Figure FDA0002395536350000013
Figure FDA0002395536350000014
其中,vj为序列图像特征中的元素。
5.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述卷积神经网络输出的初始图像特征经维数变换后输入所述描述生成模块。
6.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息,生成前面时间步词特征,所述注意力网络用于生成局部注意力图像特征,所述CaptionNet网络为LSTM变体,其输入门和细胞输入仅以所述局部注意力图像特征作为输入,其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。
7.根据权利要求6所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述第二LSTM中,在时间步t,第二LSTM的隐藏层
Figure FDA0002395536350000021
和细胞层
Figure FDA0002395536350000022
的计算方式为:
Figure FDA0002395536350000023
Figure FDA0002395536350000024
其中,xt=ReLU(Weωt-1)是词嵌入向量,ωt-1是上一个词的one-hot向量。
8.根据权利要求6所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,在时间步t,所述局部注意力图像特征的计算公式为:
Figure FDA0002395536350000025
其中,Vt a是局部注意力图像特征,αti是概率分布,Vi h是经维数变换后的初始图像特征中的元素,K是图像特征的个数。
9.根据权利要求6所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述CaptionNet网络中,在时间步t,第二LSTM的隐藏层
Figure FDA0002395536350000026
和细胞层
Figure FDA0002395536350000027
的计算方式为:
Figure FDA0002395536350000028
Figure FDA0002395536350000029
其中,
Figure FDA00023955363500000210
是第二LSTM的隐藏层
Figure FDA00023955363500000211
是上一个时间步CaptionNet网络的隐藏层和细胞层,Vt a是局部注意力图像特征,
Figure FDA00023955363500000212
是图像特征编码模块的输出。
10.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述图像描述模型的训练过程具体为:
使用交叉损失函数对所述图像描述模型进行M轮训练,其中前N轮训练中,卷积神经网络的参数固定,其他部分进行学习,后M-N轮训练中,卷积神经网络进行学习,其他部分的参数固定;
使用强化学习方法优化所述图像描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
CN202010129973.0A 2020-02-28 2020-02-28 一种基于长短时记忆网络变体的图像描述生成方法 Active CN111368898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129973.0A CN111368898B (zh) 2020-02-28 2020-02-28 一种基于长短时记忆网络变体的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010129973.0A CN111368898B (zh) 2020-02-28 2020-02-28 一种基于长短时记忆网络变体的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN111368898A true CN111368898A (zh) 2020-07-03
CN111368898B CN111368898B (zh) 2022-10-25

Family

ID=71206524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010129973.0A Active CN111368898B (zh) 2020-02-28 2020-02-28 一种基于长短时记忆网络变体的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN111368898B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911338A (zh) * 2021-01-28 2021-06-04 山东大学 一种基于编码解码网络的交通场景描述方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110288665A (zh) * 2019-05-13 2019-09-27 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
US20190377979A1 (en) * 2017-08-30 2019-12-12 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
US20190377979A1 (en) * 2017-08-30 2019-12-12 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN109359214A (zh) * 2018-10-15 2019-02-19 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、存储介质及终端设备
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110288665A (zh) * 2019-05-13 2019-09-27 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAM MANOHAR ORUGANTI等: ""Image description through fusion based recurrent multi-modal learning"", 《2016 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
WENLIANG CAI等: ""Visual question answering algorithm based on image caption"", 《2019 IEEE 3RD INFORMATION TECHNOLOGY, NETWORKING,ELECTRONIC AND AUTOMATION CONTROL CONFERENCE》 *
邓珍荣等: "融合word2vec和注意力机制的图像描述模型", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911338A (zh) * 2021-01-28 2021-06-04 山东大学 一种基于编码解码网络的交通场景描述方法及系统

Also Published As

Publication number Publication date
CN111368898B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
CN110188331A (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
US20210019599A1 (en) Adaptive neural architecture search
CN113254599A (zh) 一种基于半监督学习的多标签微博文本分类方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN115858847B (zh) 基于跨模态注意力保留的组合式查询图像检索方法
US20230368500A1 (en) Time-series image description method for dam defects based on local self-attention
CN112070114A (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN111339407A (zh) 一种信息抽取云平台的实现方法
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
Zhang et al. Image caption generation with adaptive transformer
CN111368898B (zh) 一种基于长短时记忆网络变体的图像描述生成方法
CN116610795B (zh) 文本检索方法及装置
CN111079964B (zh) 基于人工智能的在线教育课程分配平台
CN111818397B (zh) 一种基于长短时记忆网络变体的视频描述生成方法
CN113722536B (zh) 基于双线性自适应特征交互与目标感知的视频描述方法
CN114896450B (zh) 一种基于深度学习的视频时刻检索方法与系统
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN113408267B (zh) 一种基于预训练模型的词对齐性能提升方法
CN115810128A (zh) 一种基于贪心策略的图像分类模型的压缩方法
CN114048296A (zh) 基于语义门的闲聊型多轮对话方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant