CN108875807B - 一种基于多注意力多尺度的图像描述方法 - Google Patents

一种基于多注意力多尺度的图像描述方法 Download PDF

Info

Publication number
CN108875807B
CN108875807B CN201810551875.9A CN201810551875A CN108875807B CN 108875807 B CN108875807 B CN 108875807B CN 201810551875 A CN201810551875 A CN 201810551875A CN 108875807 B CN108875807 B CN 108875807B
Authority
CN
China
Prior art keywords
layer
neural network
attention
model
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810551875.9A
Other languages
English (en)
Other versions
CN108875807A (zh
Inventor
吴晓军
张钰
陈龙杰
张玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201810551875.9A priority Critical patent/CN108875807B/zh
Publication of CN108875807A publication Critical patent/CN108875807A/zh
Application granted granted Critical
Publication of CN108875807B publication Critical patent/CN108875807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多注意力多尺度的图像描述方法,由选取用以提取图像特征的图像检测模型、划分网络训练集和验证集以及测试集、提取图像特征、构建注意力循环神经网络模型、训练注意力循环神经网络模型、图像描述步骤组成。由于本发明构建了一个由提取原始图像特征、多注意力多尺度特征映射、循环神经网络残差连接、循环神经网络语言解码组成的图像描述生成网络模型,提高了图像描述的质量并丰富了图像描述的细节。本发明可以在仅拥有图像的情况下,采用该神经网络模型生成高质量的图像进行描述。

Description

一种基于多注意力多尺度的图像描述方法
技术领域
本发明图像处理技术领域,具体涉及多注意力多尺度的图像描述的方法。
技术背景
在诸如机器人问答、行人导盲、儿童辅助教育等领域,常常遇到要求对图像含义理解并通过文字语言传达给人的问题。图像描述是结合自然语言处理与计算机视觉两个领域,通过输入自然图像来生成与图像内容相对的语言文字。
因图像不仅仅含有指示物体类型、位置的基础信息,还拥有一些关系和情感等高层次的信息,如果只对图像物体进行检测识别,则会损失了大量的包含相互关系、情感等的上下文信息,因此如何通过对图像的特征有效利用,并生成相对应的文字描述一直是研究的难点。
近年来基于深度学习的技术在图像处理及语音分析领域取得了较大的进展,其中,卷积神经网络因其权值共享和稀疏连接的特点,使得网络模型复杂度大大降低。同时残差网络的出现,让构建一个更深的网络模型变得可能。长短期记忆网络的出现允许循环神经网络模型处理较长的序列,在文字序列解码上效果显著。
目前图像描述生成中主流的基于深度学习的算法主要是以卷积神经网络提取图像特征作为语言解码模型的输入,然后输入长短期记忆网络中并通过调整语言模型结构输出相对应的描述文字。常用的描述生成模型通过输入图像经由卷积神经网络提取的特征,并结合语言序列的向量特征作为长短期记忆网络的输入。以上方法虽然利用了输入图像中的上下文信息,但语言解码模型只使用单个注意力模型使用提取的图像特征,并且输入的图像只使用了高层语义特征,浅层卷积层提取的特征在网络模型中未被利用,浅层的特征对于图像描述的贡献被忽略。
注意力机制借鉴了人类视觉的选择性注意力机制。人类视觉通过快速浏览图像,重点关注图像中目标区域,即注意力焦点,并获取更多的目标细节,抑制其他无用信息,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。从本质上讲,注意力机制和人类视觉的选择性注意力类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息,即突出对应于某个生成单词的图像空间特征。通过引入多个注意力模型,使模型可以使用图像不同层次的特征。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种描述效果更好的基于多注意力多尺度的图像描述方法。
解决上述技术问题所采用的技术方案是由以下步骤组成:
(1)选取用以提取图像特征的图像检测模型
选取卷积神经网络区域目标检测方法构建成目标检测模型,使用帕斯卡视觉目标分类2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。
(2)划分网络训练集、验证集、测试集
将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在数据集中随机抽取总样本的90%作为网络训练集,总样本的5%作为验证集,总样本的剩余5%作为测试集。
(3)提取图像特征
将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图。
(4)构建注意力循环神经网络模型
注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型。
本发明的循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt
Figure BDA0001680462270000021
三部分,
Figure BDA0001680462270000022
表示上一时刻第n层,即最终层,长短期记忆网络的输出状态,其中t表示当前时刻,t-1表示前一时刻,xt表示经过热独编码后的词向量,
Figure BDA0001680462270000023
是图像高层平均池化特征,
Figure BDA0001680462270000024
为:
Figure BDA0001680462270000025
其中vi为第i个区域的特征。将xt
Figure BDA0001680462270000026
三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块。
(5)训练注意力循环神经网络模型
将网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中,提取数据集中所有描述构成单词表以及单词向量,通过使用自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:
Figure BDA0001680462270000031
其中
Figure BDA0001680462270000032
θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,
Figure BDA0001680462270000033
是长短期记忆网络解码器输出单词
Figure BDA0001680462270000034
的概率。
训练注意力循环神经网络模型时,采用集束搜索方法训练注意力循环神经网络模型,再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型。
训练完成后,使用图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型。
(6)图像描述
将步骤(2)得到的测试集输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。
在本发明的构建多注意力神经网络步骤(3)中,本发明的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征。
卷积数值特征的提取方法为:
V′={v1,…,vk},
式中V′表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个显著区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为有限的正整数。
在本发明的构建注意力神经网络步骤(4)中,本发明的注意力特征映射模块为:
注意力特征映射模块分为两个部分,包括网络状态
Figure BDA0001680462270000035
和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:
Figure BDA0001680462270000041
αt=softmax(at)
式中参数
Figure BDA0001680462270000042
Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:
Figure BDA0001680462270000043
式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果,i、t为有限的正整数。
不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中。
在本发明构建多注意力多尺度循环神经网络步骤(4)中,本发明的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连。
本发明的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。
本发明与现有的技术相比具有以下优点:
由于本发明构建了一个由提取原始图像特征、多注意力多尺度特征映射、循环神经网络残差连接、循环神经网络语言解码组成的图像描述生成网络模型,提高了图像描述的质量并丰富了图像描述的细节。本发明可以在仅拥有图像的情况下,采用该神经网络模型生成高质量的图像描述结果。
附图说明
图1是本发明实施例1的流程图。
图2是图1中构建多注意力多尺度神经网络中语言生成模块的流程图。
图3是采用自上而下网络模型处理方法与实施例1方法对图像描述的结果对比图。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于下述的实施例。
实施例1
以在微软上下文常见对象2014数据集选取100000张图像为例,基于多注意力多尺度的图像描述生成方法由以下步骤组成:
(1)选取用以提取图像特征的图像检测模型
选取卷积神经网络区域目标检测方法构建成目标检测模型,卷积神经网络区域目标检测方法为已知的方法,已在《In Advances in neural information process ingsystems.2015》公开。使用帕斯卡视觉目标分类比赛的2007数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。
(2)划分网络训练集、验证集、测试集
将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在100000张图象数据集中随机抽取90000张图像即90%作为网络训练集,5000张图象即5%作为验证集,5000张图象即5%作为测试集。
(3)提取图像特征
将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,101层残差结构为已知的结构,已在《Deep Residual Learning forImage Recognition》,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图,平均池化方法为已知的唯一的一种方法。
上述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征。
卷积数值特征的提取方法为:
V′={v1,…,vk}
式中V′表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为14。
(4)构建注意力循环神经网络模型
注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块为:
注意力特征映射模块分为两个部分,包括网络状态
Figure BDA0001680462270000061
和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:
Figure BDA0001680462270000062
αt=softmax(at)
式中参数
Figure BDA0001680462270000063
Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:
ct=∑iαtvi
式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果。
循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt
Figure BDA0001680462270000064
三部分,
Figure BDA0001680462270000065
表示上一时刻第n层(即最终层)长短期记忆网络的输出状态,其中t表示当前时刻,t-1表示前一时刻,xt表示经过热独编码后的词向量,
Figure BDA0001680462270000066
是图像高层平均池化特征,
Figure BDA0001680462270000067
为:
Figure BDA0001680462270000068
其中vi为第i个区域的特征。将xt
Figure BDA0001680462270000069
三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块。
注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型。
不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中。
该步骤中的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连。
该步骤中的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。
(5)训练注意力循环神经网络模型
将90000张图像作为网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中。
提取数据集中所有描述构成单词表以及单词向量,提取方法为:对微软上下文常见对象2014数据集中的所有描述,取句子中出现五次及其以上的单词组合为单词表,对单词表中每个单词采用独热编码方式进行编码,将数据集中的描述句子中每个单词的独热编码映射为一个嵌入式向量。通过使用《Adam:A Method for Stochastic Optimization》中自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:
Figure BDA0001680462270000071
其中
Figure BDA0001680462270000072
θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,
Figure BDA0001680462270000073
是长短期记忆网络解码器输出单词
Figure BDA0001680462270000074
的概率。
训练注意力循环神经网络模型时,采用《Speech Understanding Systems:ASummary of Results of the Five-Year Research Effort.》中的集束搜索方法,设定长短期记忆网络层的隐藏节点以及注意力层隐藏节点数目为1000,使用学习率为1×10-4训练注意力循环神经网络模型,再使用《Self-critical Sequence Training for ImageCaptioning》中自鉴别序列训练强化学习方法,并使用学习率为1×10-5、1×10-6依次训练注意力循环神经网络模型。训练完成后,用5000张图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型。
(6)图像描述
将步骤(2)得到的测试集5000张图像输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。
注意力循环神经网络模型训练完成后,采用基于一致性的图像描述评价标准(CIDEr:Consensus-based Image Description Evaluation)对图像描述进行评价,得分为1.167。
实施例2
以在微软上下文常见对象2014数据集选取100000张图像为例,基于多注意力多尺度的图像描述生成方法由以下步骤组成:
在选取用以提取图像特征的图像检测模型步骤(1),选取卷积神经网络区域目标检测方法构建成目标检测模型,卷积神经网络区域目标检测方法为已知的方法,已在《InAdvances in neural information processing systems.2015》公开。使用帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。
其它步骤与实施例1相同。完成图像描述。
为了验证本发明的有益效果,发明人采用本发明实施例1的方法进行了仿真实验,实验情况如下:
1、仿真条件
硬件条件为:1块Nvidia TITAN Xp显卡,128G内存。
软件平台为:Pytorch框架。
2、仿真内容与结果
用本发明方法在上述仿真条件下进行实验,结果见图3,在图3中,第一行文字为采用自上而下网络模型的描述,第二行为本方法的描述,与现有技术相比,本发明具有以下优点:
本发明提出了一种构建多个层次注意力的方法,在同一时刻能够分别提取图像不同等级的特征,提高生成语句的表达能力。在多层长短期记忆网络中引入了残差学习机制,通过加法原理,将不同层次长短期记忆网络的输入、输出连接到一起,保证模型低层参数不会因为梯度弥散产生难以有效更新的问题。将多个注意力结构分层次融入网络中,并通过引入强化学习的方法训练模型,其输出的单词语句更加准确,进一步提升了系统性能。注意力循环神经网络模型训练完成后,采用基于一致性的图像描述评价标准(CIDEr:Consensus-based Image Description Evaluation)对图像描述进行评价,得分为1.167,取得了较好的效果。

Claims (3)

1.一种基于多注意力和多尺度的图像描述方法,其特征在于由以下步骤组成:
(1)选取用以提取图像特征的图像检测模型
选取卷积神经网络区域目标检测方法构建成目标检测模型,使用帕斯卡视觉目标分类2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型;
(2)划分网络训练集、验证集、测试集
将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在数据集中随机抽取总样本的90%作为网络训练集,总样本的5%作为验证集,总样本的剩余5%作为测试集;
(3)提取图像特征
将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图;
(4)构建注意力循环神经网络模型
注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型;
所述的注意力特征映射模块为:
注意力特征映射模块分为两个部分,包括网络状态
Figure FDA0003502208650000011
和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:
Figure FDA0003502208650000012
αt=softmax(at)
式中参数
Figure FDA0003502208650000013
Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:
Figure FDA0003502208650000014
式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果,i、t为有限的正整数;
不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中;
所述的循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt
Figure FDA0003502208650000021
三部分,
Figure FDA0003502208650000022
表示上一时刻第n层,即最终层,长短期记忆网络的输出状态,其中t表示当前时刻,t-1表示前一时刻,xt表示经过热独编码后的词向量,
Figure FDA0003502208650000023
是图像高层平均池化特征,
Figure FDA0003502208650000024
为:
Figure FDA0003502208650000025
其中vi为第i个区域的特征,将xt
Figure FDA0003502208650000026
三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块;
(5)训练注意力循环神经网络模型
将网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中,提取数据集中所有描述构成单词表以及单词向量,通过使用自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:
Figure FDA0003502208650000027
其中
Figure FDA0003502208650000028
θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,
Figure FDA0003502208650000029
是长短期记忆网络解码器输出单词
Figure FDA00035022086500000210
的概率;
训练注意力循环神经网络模型时,采用集束搜索方法训练注意力循环神经网络模型,再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型;
训练完成后,使用图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型;
(6)图像描述
将步骤(2)得到的测试集输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。
2.根据权利要求1所述的基于多注意力和多尺度的图像描述方法,其特征在于在构建多注意力神经网络步骤(3)中,所述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征;
卷积数值特征的提取方法为:
V′={v1,…,vk},
式中V*表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个显著区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为有限的正整数。
3.根据权利要求1所述的基于多注意力和多尺度的图像描述方法,其特征在于:在构建多注意力多尺度循环神经网络步骤(4)中,所述的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连;
所述的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。
CN201810551875.9A 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法 Active CN108875807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810551875.9A CN108875807B (zh) 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810551875.9A CN108875807B (zh) 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法

Publications (2)

Publication Number Publication Date
CN108875807A CN108875807A (zh) 2018-11-23
CN108875807B true CN108875807B (zh) 2022-05-27

Family

ID=64336183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810551875.9A Active CN108875807B (zh) 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法

Country Status (1)

Country Link
CN (1) CN108875807B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310518B (zh) * 2018-12-11 2023-12-08 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN111325068B (zh) * 2018-12-14 2023-11-07 北京京东尚科信息技术有限公司 基于卷积神经网络的视频描述方法及装置
CN109344920B (zh) * 2018-12-14 2021-02-02 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN111339340A (zh) * 2018-12-18 2020-06-26 顺丰科技有限公司 图像描述模型的训练方法、图像搜索方法及装置
CN109376804B (zh) * 2018-12-19 2020-10-30 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109784197B (zh) * 2018-12-21 2022-06-07 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109620205B (zh) * 2018-12-26 2022-10-28 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质
CN109726696B (zh) * 2019-01-03 2023-04-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
US11087175B2 (en) * 2019-01-30 2021-08-10 StradVision, Inc. Learning method and learning device of recurrent neural network for autonomous driving safety check for changing driving mode between autonomous driving mode and manual driving mode, and testing method and testing device using them
CN109919221B (zh) * 2019-03-04 2022-07-19 山西大学 基于双向双注意力机制图像描述方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110084128B (zh) * 2019-03-29 2021-12-14 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110097136A (zh) * 2019-05-09 2019-08-06 杭州筑象数字科技有限公司 基于神经网络的图像分类方法
CN110633610B (zh) * 2019-05-17 2022-03-25 西南交通大学 一种基于yolo的学员状态检测方法
CN110188775B (zh) * 2019-05-28 2020-06-26 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110188765B (zh) 2019-06-05 2021-04-06 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质
CN112101395A (zh) * 2019-06-18 2020-12-18 上海高德威智能交通系统有限公司 一种图像的识别方法及装置
CN110288029B (zh) * 2019-06-27 2022-12-06 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
CN110321962B (zh) * 2019-07-09 2021-10-08 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
CN110427836B (zh) * 2019-07-11 2020-12-01 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 一种基于多尺度优化的高分辨率遥感影像水体提取方法
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN111013149A (zh) * 2019-10-23 2020-04-17 浙江工商大学 一种基于神经网络深度学习的卡牌设计生成方法及系统
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111126282B (zh) * 2019-12-25 2023-05-12 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111240486B (zh) * 2020-02-17 2021-07-02 河北冀联人力资源服务集团有限公司 一种基于边缘计算的数据处理方法及系统
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN111611373B (zh) * 2020-04-13 2021-09-10 清华大学 一种面向机器人的具身主动场景描述方法
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN112529857B (zh) * 2020-12-03 2022-08-23 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112668608B (zh) * 2020-12-04 2024-03-15 北京达佳互联信息技术有限公司 一种图像识别方法、装置、电子设备及存储介质
CN112699915B (zh) * 2020-12-07 2024-02-02 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112784848B (zh) * 2021-02-04 2024-02-27 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN113591874B (zh) * 2021-06-01 2024-04-26 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113822383B (zh) * 2021-11-23 2022-03-15 北京中超伟业信息安全技术股份有限公司 一种基于多域注意力机制的无人机检测方法及系统
CN115936073B (zh) * 2023-02-16 2023-05-16 江西省科学院能源研究所 一种语言导向卷积神经网络及视觉问答方法
CN115984296B (zh) * 2023-03-21 2023-06-13 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2545661A (en) * 2015-12-21 2017-06-28 Nokia Technologies Oy A method for analysing media content
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LSTM 逐层多目标优化及多层概率融合的图像描述;汤鹏杰 等;《自动化学报》;20171211;第43卷;第1-13页 *
Show and Tell: A Neural Image Caption Generator;Oriol Vinyals 等;《arXiv:1411.4555》;20150420;第1-9页 *
Show,attend and tell: Neural image caption generation with visual attention;Kelvin Xu 等;《arXiv:1502.03044》;20160419;第1-22页 *

Also Published As

Publication number Publication date
CN108875807A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109242090B (zh) 一种基于gan网络的视频描述及描述一致性判别方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN107679225A (zh) 一种基于关键词的回复生成方法
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN116975347A (zh) 图像生成模型训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant