CN111144553A - 一种基于时空记忆注意力的图像描述方法 - Google Patents

一种基于时空记忆注意力的图像描述方法 Download PDF

Info

Publication number
CN111144553A
CN111144553A CN201911384977.7A CN201911384977A CN111144553A CN 111144553 A CN111144553 A CN 111144553A CN 201911384977 A CN201911384977 A CN 201911384977A CN 111144553 A CN111144553 A CN 111144553A
Authority
CN
China
Prior art keywords
model
image
time
output
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911384977.7A
Other languages
English (en)
Other versions
CN111144553B (zh
Inventor
徐骋
冀俊忠
张晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911384977.7A priority Critical patent/CN111144553B/zh
Publication of CN111144553A publication Critical patent/CN111144553A/zh
Application granted granted Critical
Publication of CN111144553B publication Critical patent/CN111144553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空记忆注意力的图像描述方法,步骤(1)获取MS COCO图像描述数据集并预处理;步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V;步骤(3)构建解码器,对图像特征V进行解码;步骤(4)模型训练。本方法搭建的模型在原有的注意力模型中采用长短时记忆网络中门控制和记忆。相比较于传统的注意力模型,时空记忆注意力模型中新添加了一个记忆矩阵,用于动态地存储过去时刻注意力特征,并在在输入门、输出门、遗忘门的控制作用下不断自我更新,最终输出时序空间上相关的注意力特征。基于STMA模型,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。

Description

一种基于时空记忆注意力的图像描述方法
技术领域
本发明属于计算机视觉和自然语言处理的交叉研究领域,具体地说,本发明设计了一种基于时空记忆注意力的图像描述方法。
背景技术
图像描述,简而言之就是用一句话描述图像中的主要内容,这需要机器有对图像内容的理解能力以及与人类相似的内容表达能力。图像描述是连接计算机视觉和自然语言处理两个研究领域的难题,确定图像中物体对象的存在、属性和关系已非易事,用合适的语句描述这些信息使这项任务变得更加困难。如何用流畅的语句,准确地描述图像中的内容是图像描述领域的研究目标。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步,也有助于带动计算机视觉、自然语言处理等相关领域的发展,更加有助于推动人工智能相关应用的实现,例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。
最初的图像描述研究受限于计算能力、模型方法、数据大小等原因,对图像的描述范围进行了限定,直到最近才提出生成更加通用、实际的生活图像的描述。图像描述的早期工作主要沿着基于检索和基于模板两个研究方向,然而这两类方法通常利用训练数据集中的现有描述或依赖于语言结构模板来完成图像描述任务,导致图像描述不够灵活,描述质量在很大程度上受到了限制。近几年,由于计算机硬件计算能力的提高,数据量的爆发式增长,深度神经网络技术得到了发展,在计算机视觉、自然语言处理等研究领域表现出巨大的应用前景。强大的深度神经网络为视觉和语言建模提供了有效的解决方案,基于深度神经网络的编码器-解码器框架方法使图像描述取得了巨大的进步。
目前,基于编码器-解码器框架的方法一般先使用编码器模型提取图像中的特征,再由解码器模型从编码特征中逐步解码生成描述语句。这类方法通常先采用卷积神经网络(Convolutional Neural Network,CNN)作为编码器对图像进行特征编码,再使用循环神经网络(Recurrent Neural Network,RNN)对特征解码生成描述语句。其中,结合注意力模型的编码器-解码器图像描述方法也成为该类方法中的主流方法。注意力机制(AttentionMechanism)源于对人脑视觉的研究,由于信息处理的瓶颈,人脑会选择性地关注所有信息的一部分,同时忽略其他可见的信息。基于注意力机制构建的模型结构称为注意力模型,该模型的引入让解码器具有重点关注部分编码特征的能力,即关注原图像中的局部区域,促进了图像描述方法的巨大进步,但是目前引入的注意力模型中也存在着问题。
一般认为语言描述是一种时序表示,而目前图像描述方法在结合的注意力模型仅实现了对图像空间特征进行提取,忽视了语言表达中的时序性,即每一时刻注意力模型获得的注意力特征在时序上相互独立,这与人类观察事物的过程存在区别,直接造成注意力特征获取的不够准确,阻碍了图像描述效果的进一步提高。
发明内容
为了解决注意力模型在图像描述任务中时序上相互独立的问题,本发明公开了一种具有循环结构的时空记忆注意力模型(Spatio-temporal Memory Attention,STMA),能够同时完成时间和空间上特征提取。该模型在原有的注意力模型中采用长短时记忆网络(Long Short-Term Memory,LSTM)中门控制和记忆的思想。相比较于传统的注意力模型,时空记忆注意力模型中新添加了一个记忆矩阵,用于动态地存储过去时刻注意力特征,并在在输入门、输出门、遗忘门的控制作用下不断自我更新,最终输出时序空间上相关的注意力特征。基于STMA模型,本发明提出了E-D-STMA(Encoder-Decoder Spatio-temporal MemoryAttention Model)图像描述方法,相比于Up-Down等传统注意力模型方法,本方法不仅在图像关注的位置上更为准确,图像描述结果更加准确。
本发明采用的技术方案为一种基于时空记忆注意力的图像描述方法,该方法包括如下步骤:
步骤(1)获取MS COCO图像描述数据集并预处理:
步骤(1.1)获取MS COCO图像描述数据集,包含图像数据I及其对应的标准描述数据
Figure BDA0002343332700000031
步骤(1.2)对MS COCO中的描述数据
Figure BDA0002343332700000032
进行预处理。
步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V:
步骤(2.1)采用深度卷积神经网络或目标检测模型构建编码器模型。
步骤(2.2)对构建好的编码器模型进行预训练。
步骤(2.3)将MS COCO图像数据I输入到编码器中,完成图像数据的分类或目标检测任务,使用编码器模型倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征V。
步骤(3)构建解码器,对图像特征V进行解码。解码器是一种三层的循环神经网络,包括两层LSTM模型和一层STMA模型,输入为图像特征V,输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度:
步骤(3.1)构建第一层解码器LSTM。第一层解码器LSTM模型在t时刻的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出yt-1线性变换得到,初始为零向量),图像的全局特征
Figure BDA0002343332700000041
(可由图像特征V平均池化得到)以及第三层解码器LSTM在t-1时刻的输出
Figure BDA0002343332700000042
在t时刻的输出为
Figure BDA0002343332700000043
步骤(3.2)构建第二层解码器STMA模型。第二层解码器STMA模型中的图像记忆矩阵
Figure BDA0002343332700000044
和输出向量
Figure BDA0002343332700000045
作为内部循环变量不断参与到模型的计算中,体现出模型在时序空间上的连续性。第二层解码器STMA模型在t时刻的输入包括图像特征V和第一层解码器LSTM在t时刻的输出
Figure BDA0002343332700000046
在t时刻的输出为
Figure BDA0002343332700000047
步骤(3.3)构建第三层解码器LSTM。第三层解码器LSTM模型在t时刻的输入包括第一层解码器LSTM的输出
Figure BDA0002343332700000048
和第二层解码器STMA的输出
Figure BDA0002343332700000049
在t时刻的输出为
Figure BDA00023433327000000410
步骤(3.4)解码器输出。对第三层解码器在t时刻的输出
Figure BDA00023433327000000411
进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出yt,不同时刻的输出组成最后的产生的图像描述结果Y。
步骤(4)模型训练。基于产生的描述Y与标准的描述数据
Figure BDA00023433327000000412
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。
附图说明
图1:MS COCO数据展示图。
图2:STMA模型结构图。
图3:E-D-STMA图像描述方法框架图。
图4:注意力图像对比图。
具体实施方式
下面以MS COCO图像描述数据集为例,说明本发明的具体实施步骤:
步骤(1)获取MS COCO图像描述数据集并预处理:
步骤(1.1)获取MS COCO图像描述数据集,其中包含图像数据I及其对应的标准描述数据
Figure BDA0002343332700000051
MS COCO数据集下载地址为http://cocodataset.org/#download,数据集共包含164062张图片,其中训练集、验证集和测试集大小分别为82783,40504和40775,除测试集外,每张图片还包含至少5句对应的标准描述作为标签,部分样例如图1所示。
步骤(1.2)对MS COCO中的描述数据
Figure BDA0002343332700000052
进行预处理。设置图像描述最大长度为16,将词频小于6的单词替换为“UNK”,减少少数噪声单词的干扰,最终数据中包含的单词数量为9487。
步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V:
步骤(2.1)采用深度卷积神经网络或目标检测模型构建编码器模型。构建编码器模型,可以采用深度卷积神经网络,例如ResNet-101,也可以采用目标检测模型,例如RCNN、Faster RCNN等。
步骤(2.2)对构建好的编码器模型进行预训练。采用ImageNet、MS COCO等数据集,对编码器进行预训练,使其具有一定的分类或者目标检测能力。
步骤(2.3)把MS COCO图像数据I输入到编码器中,对图像数据进行分类或目标检测任务,使用编码器倒数第二层神经网络中的特征作为图像编码,编码后的图像特征记为V。公式表达为:
V=Encoder(I)
步骤(3)构建解码器,对图像特征V进行解码。解码器是一种三层的循环神经网络,包括两层LSTM模型和一层STMA模型,输入为图像特征V,输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻,即描述的最大长度:
步骤(3.1)构建第一层解码器LSTM。第一层解码器LSTM模型在t时刻的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出yt-1线性变换得到,初始为零向量),图像的全局特征
Figure BDA0002343332700000061
(可由图像特征V平均池化得到)以及第三层解码器LSTM在t-1时刻的输出
Figure BDA0002343332700000062
在t时刻的输出为
Figure BDA0002343332700000063
词编码xt,图像的全局特征
Figure BDA0002343332700000064
的公式如下所示:
xt=Wxyyt-1
Figure BDA0002343332700000065
其中xt是对t-1时刻输出yt-1的编码,
Figure BDA0002343332700000066
是对图像特征的平均池化。
步骤(3.2)构建第二层解码器STMA模型。时空记忆注意力模型(Spatio-temporalMemory Attention,STMA)包含五个重要部分,如图2:图像记忆矩阵、输入门、遗忘门、更新门和输出门,如图2所示。整个STMA模型的在t时刻的输入由第一层解码器LSTM输出
Figure BDA0002343332700000067
图像特征V、t-1时刻的图像记忆矩阵
Figure BDA0002343332700000068
以及t-1时刻的输出向量
Figure BDA0002343332700000069
组成,输出向量
Figure BDA00023433327000000610
作为t时刻的注意力模型的输出。模型中的图像记忆矩阵
Figure BDA00023433327000000611
和输出向量
Figure BDA00023433327000000612
作为内部循环变量不断参与到模型的计算中,体现出模型在时序空间上的连续性。
输入门和遗忘门均使用Sigmoid激活,值域为(0,1),可以用于控制图像记忆矩阵的动态变化。输入门主要用于控制记忆矩阵对上一时刻输出
Figure BDA00023433327000000613
的接受程度;而遗忘门则主要用于控制记忆矩阵的遗忘程度。在输入门和遗忘门的共同作用下,记忆矩阵中动态存储着过去时刻所有的注意力特征,充分考虑到注意力特征的时序性,体现出时空记忆的特点。输入门和遗忘的公式如下所示:
Figure BDA0002343332700000071
Figure BDA0002343332700000072
其中it与ft分别表示输入门向量与输出门向量,σ表示Sigmoid激活函数,tanh表示tanh激活函数,所有的W**表示线性变换的参数。
更新门不是直接用于控制注意力矩阵的变化,而是产生新的注意力信息,在与输入门的共同作用下,实现注意力矩阵的动态更新。更新门与注意力矩阵变化公式如下所示:
Figure BDA0002343332700000073
Figure BDA0002343332700000074
其中
Figure BDA00023433327000000711
表示更新门产生的新注意力信息。
输出门控制整个时空记忆注意力模型的输出,采用与传统注意力模型相似的结构,不同之处在于添加了记忆矩阵,实现图像空间注意力的同时,保证了注意力特征间的时序性。输出门与模型最后输出的公式如下所示:
Figure BDA0002343332700000075
Figure BDA0002343332700000076
其中ot表示输出门向量,Softmax为Softmax函数,用来产生注意力特征的概率。
步骤(3.3)构建第三层解码器LSTM。第三层解码器LSTM模型在t时刻的输入包括第一层解码器LSTM的输出
Figure BDA0002343332700000077
和第二层解码器STMA的输出
Figure BDA0002343332700000078
在t时刻的输出为
Figure BDA0002343332700000079
步骤(3.4)解码器输出。对第三层解码器在t时刻的输出
Figure BDA00023433327000000710
进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出yt,不同时刻的输出组成最后的产生的图像描述结果Y。解码器整体表达式如下所示:
Figure BDA0002343332700000081
Figure BDA0002343332700000082
Figure BDA0002343332700000083
Figure BDA0002343332700000084
步骤(4)模型训练:整个方法的框图如图3所示。可以基于交叉熵损失或者强化学习进行优化,两种损失函数的定义分别如下所示:
Figure BDA0002343332700000085
Figure BDA0002343332700000086
使用随机梯度下降算法,例如ADAM对整个方法进行优化,训练参数,得到最终的模型。
为了充分验证本方法的优越性,采用定量分析和定性分析两种评价方式。定量分析包含离线和在线两种,将其与Google NIC,gLSTM,m-RNN,Soft-Attention,Hard-Attention,Adaptive-Attention,SCA-CNN,SCST,ALT-ALTM,Up-Down等已有的方法进行了效果比较,使用BLEU,METEOR,ROUGE和CIDEr四个评价指标对结果进行了评价,这四种评价指标已经广泛应用于图像描述结果的定量评价中。定性分析采用可视化注意力区域的方式,主要与Up-Down方法的进行了对比。
首先对方法进行定量分析。离线测试采用Karpathy划分,将原有的训练集和验证集数据重新划分,生成113287张训练数据、5000张验证数据、5000张测试数据。在线方式则将本方法在原测试集上的结果提交到MS COCO测试服务器上。表1为离线测试结果,从表1可以看到,本发明所提出的方法在各项指标均取得了最好的效果。表一前三种方法GoogleNIC,gLSTM,m-RNN未结合注意力模型,在效果上均明显低于其他方法,体现了注意力模型在图像描述中的重要性。本发明所提出的时空记忆注意力模型相比较于其他的注意力模型在提取注意力特征时充分考虑了时序空间上的连续性,使得注意力特征会更加准确,图像描述效果提升明显,尤其CIDEr指标。表2和表3分别为MS COCO参考描述数量为5和40时的在线测试结果,与部分已公开的方法结果相比,本方法效果明显,在绝大部分指标上具有绝对优势,尤其CIDEr指标,相比较其它方法至少提升了5。
表1 MS COCO数据集上离线测试
方法 BLUE1 BLEU2 BLEU3 BLEU4 METTOR ROUGLE CIDER
Google NIC 66.6 46.1 32.9 24.6 - - -
gLSTM 67.0 49.1 35.8 26.4 22.7 - -
m-RNN 67.0 49.0 35.0 25.0 - - -
Soft-Attention 70.7 49.2 34.4 24.3 23.9 - -
Hard-Attention 71.8 50.4 35.7 25.0 - - -
SCA-CNN 71.9 54.8 41.1 31.1 25.0 - -
Adaptive-Attention 73.4 56.6 41.8 30.4 25.7 - 102.9
SCST - - - 31.3 26.0 54.3 101.3
ALT-ALTM 75.1 59.0 45.7 35.5 27.4 55.9 110.7
Up-Down 79.7 63.9 49.3 37.4 27.7 57.7 123.2
E-D-STMA 80.2 64.4 49.7 37.7 28.2 58.1 125.9
w
表2 MS COCO数据集上在线测试(c5)
Figure BDA0002343332700000091
Figure BDA0002343332700000101
表3 MS COCO数据集上在线测试(c40)
方法 BLUE1 BLEU2 BLEU3 BLEU4 METTOR ROUGLE CIDER
Google NIC 89.5 80.2 69.4 58.7 34.6 68.2 94.6
m-RNN 89.0 79.8 68.7 57.5 32.5 66.6 93.5
Hard-Attention 88.1 77.9 65.8 53.7 32.2 65.4 89.3
SCA-CNN 89.4 80.2 69.1 57.9 33.1 67.4 92.1
Adaptive-Attention 92.0 84.5 74.4 63.7 35.9 70.5 105.9
ALT-ALTM 92.2 84.3 74.3 63.9 37.0 71.2 105.9
SCST 93.7 86.0 75.9 64.5 35.5 70.7 116.7
Up-Down 95.2 88.8 79.4 68.5 36.7 72.4 120.5
E-D-STMA 94.8 88.8 79.5 68.6 37.1 72.8 125.5
从上述评价指标定量评价来看,本发明提出结合时空记忆注意力模型的E-D-STMA方法具有很强的优越性。为了进行定性分析,我们通过可视化方法展示了注意力模型的在图像描述过程中所关注的区域,如图4所示。Up-Down模型描述语句较短,部分单词描述不够准确,描述质量整体上不如结合时空记忆注意力模型的E-D-STMA方法。第一列为原始图像,红色框标记出的是可以作为关注的区域;其余图像为产生单词描述时所对应的注意力图像,注意力图像中的区域越亮,表示该区域越受到关注。在前三个时刻,两种方法产生的描述一样,关注的图像区域也很相似。但是从第三个时刻开始,由于缺少注意力间时序空间上的联系,Up-Down方法中的关注点逐渐扩散,没有重点关注的区域,无良好顺序;E-D-STMA方法在描述刷牙动作时,始终保证手部为重点关注区域,而在描述房间信息时注意力区域自动转变为洗手间内的盥洗台等物体,逻辑顺序明显。
无论是定量评价中的离线测试和在线测试,还是定性分析中展示的注意力图像,本发明提出的E-D-STMA图像描述方法取得了较好的效果,体现时空记忆注意力模型的强大能力,在未来的实际应用中具有良好的应用前景。

Claims (4)

1.一种基于时空记忆注意力的图像描述方法,其特征在于:该方法包括如下步骤:
步骤(1)获取MS COCO图像描述数据集并预处理:
步骤(2)构建编码器模型,对编码器模型进行预训练,完成MS COCO图像数据I的编码,得到图像特征V:
步骤(3)构建解码器,对图像特征V进行解码;解码器是一种三层的循环神经网络,包括两层LSTM模型和一层STMA模型,输入为图像特征V,输出为图像描述结果Y,Y={y0,y1,...,yT},T为描述的最长时刻,即描述的最大长度:
步骤(4)模型训练;基于产生的描述Y与标准的描述数据
Figure FDA0002343332690000011
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。
2.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(1)中,步骤(1.1)获取MS COCO图像描述数据集,包含图像数据I及其对应的标准描述数据
Figure FDA0002343332690000012
步骤(1.2)对MS COCO中的描述数据
Figure FDA0002343332690000013
进行预处理。
3.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(2)中,步骤(2.1)采用深度卷积神经网络或目标检测模型构建编码器模型;
步骤(2.2)对构建好的编码器模型进行预训练;
步骤(2.3)将MS COCO图像数据I输入到编码器中,完成图像数据的分类或目标检测任务,使用编码器模型倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征V。
4.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(3)中,步骤(3.1)构建第一层解码器LSTM;第一层解码器LSTM模型在t时刻的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出yt-1线性变换得到,初始为零向量),图像的全局特征
Figure FDA0002343332690000021
(可由图像特征V平均池化得到)以及第三层解码器LSTM在t-1时刻的输出
Figure FDA0002343332690000022
在t时刻的输出为
Figure FDA0002343332690000029
步骤(3.2)构建第二层解码器STMA模型;第二层解码器STMA模型中的图像记忆矩阵
Figure FDA00023433326900000210
和输出向量
Figure FDA0002343332690000023
作为内部循环变量不断参与到模型的计算中,体现出模型在时序空间上的连续性;第二层解码器STMA模型在t时刻的输入包括图像特征V和第一层解码器LSTM在t时刻的输出
Figure FDA0002343332690000024
在t时刻的输出为
Figure FDA0002343332690000025
步骤(3.3)构建第三层解码器LSTM;第三层解码器LSTM模型在t时刻的输入包括第一层解码器LSTM的输出
Figure FDA0002343332690000026
和第二层解码器STMA的输出
Figure FDA0002343332690000027
在t时刻的输出为
Figure FDA00023433326900000211
步骤(3.4)解码器输出;对第三层解码器在t时刻的输出
Figure FDA0002343332690000028
进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出yt,不同时刻的输出组成最后的产生的图像描述结果Y。
CN201911384977.7A 2019-12-28 2019-12-28 一种基于时空记忆注意力的图像描述方法 Active CN111144553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911384977.7A CN111144553B (zh) 2019-12-28 2019-12-28 一种基于时空记忆注意力的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911384977.7A CN111144553B (zh) 2019-12-28 2019-12-28 一种基于时空记忆注意力的图像描述方法

Publications (2)

Publication Number Publication Date
CN111144553A true CN111144553A (zh) 2020-05-12
CN111144553B CN111144553B (zh) 2023-06-23

Family

ID=70521332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911384977.7A Active CN111144553B (zh) 2019-12-28 2019-12-28 一种基于时空记忆注意力的图像描述方法

Country Status (1)

Country Link
CN (1) CN111144553B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069328A (zh) * 2020-09-08 2020-12-11 中国人民解放军国防科技大学 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN112819012A (zh) * 2021-01-29 2021-05-18 厦门大学 一种基于多源协同特征的图像描述生成方法
CN113095405A (zh) * 2021-04-13 2021-07-09 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113420834A (zh) * 2021-07-21 2021-09-21 北京工业大学 一种基于关系约束自注意力的图像描述自动生成方法
CN113673535A (zh) * 2021-05-24 2021-11-19 重庆师范大学 一种多模态特征融合网络的图像描述生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016077797A1 (en) * 2014-11-14 2016-05-19 Google Inc. Generating natural language descriptions of images
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
US20180260698A1 (en) * 2017-03-10 2018-09-13 Adobe Systems Incorporated Recurrent neural network architectures which provide text describing images
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN109919221A (zh) * 2019-03-04 2019-06-21 山西大学 基于双向双注意力机制图像描述方法
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110288029A (zh) * 2019-06-27 2019-09-27 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016077797A1 (en) * 2014-11-14 2016-05-19 Google Inc. Generating natural language descriptions of images
US20180260698A1 (en) * 2017-03-10 2018-09-13 Adobe Systems Incorporated Recurrent neural network architectures which provide text describing images
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN109919221A (zh) * 2019-03-04 2019-06-21 山西大学 基于双向双注意力机制图像描述方法
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110288029A (zh) * 2019-06-27 2019-09-27 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUBO MA 等: "DESCRIBING IMAGES BY FEEDING LSTM WITH STRUCTURALWORDS", 2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME) *
罗锋 等: "一种基于多级LSTM 解码器的细粒度图像描述方法", 软件导刊 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069328A (zh) * 2020-09-08 2020-12-11 中国人民解放军国防科技大学 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112529857B (zh) * 2020-12-03 2022-08-23 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN112819012A (zh) * 2021-01-29 2021-05-18 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112819012B (zh) * 2021-01-29 2022-05-03 厦门大学 一种基于多源协同特征的图像描述生成方法
CN113095405A (zh) * 2021-04-13 2021-07-09 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113095405B (zh) * 2021-04-13 2024-04-30 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113673535A (zh) * 2021-05-24 2021-11-19 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113673535B (zh) * 2021-05-24 2023-01-10 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113420834A (zh) * 2021-07-21 2021-09-21 北京工业大学 一种基于关系约束自注意力的图像描述自动生成方法
CN113420834B (zh) * 2021-07-21 2024-05-28 北京工业大学 一种基于关系约束自注意力的图像描述自动生成方法

Also Published As

Publication number Publication date
CN111144553B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111144553A (zh) 一种基于时空记忆注意力的图像描述方法
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
CN109800294B (zh) 基于物理环境博弈的自主进化智能对话方法、系统、装置
CN107133224B (zh) 一种基于主题词的语言生成方法
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112541063B (zh) 一种基于自学习对话模型的人机对话方法及系统
WO2019056628A1 (zh) 关注点文案的生成
CN110837548A (zh) 答案匹配方法、装置、电子设备及存储介质
CN112364148B (zh) 一种基于深度学习方法的生成型聊天机器人
CN109271629A (zh) 基于强化学习的生成式文本摘要方法
CN115858847B (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN112488055A (zh) 一种基于渐进图注意力网络的视频问答方法
CN110069611A (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN116561265A (zh) 个性化对话生成方法和模型训练方法以及设备
CN109800295A (zh) 基于情感词典和词概率分布的情感会话生成方法
Li et al. Irregular mask image inpainting based on progressive generative adversarial networks
CN113436224B (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN113779224A (zh) 一种基于用户对话历史的个性化对话生成方法与系统
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及系统
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
Huang et al. Fine-grained talking face generation with video reinterpretation
CN110851580B (zh) 一种基于结构化用户属性描述的个性化任务型对话系统
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
CN116977509A (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant