CN108875807A - 一种基于多注意力多尺度的图像描述方法 - Google Patents

一种基于多注意力多尺度的图像描述方法 Download PDF

Info

Publication number
CN108875807A
CN108875807A CN201810551875.9A CN201810551875A CN108875807A CN 108875807 A CN108875807 A CN 108875807A CN 201810551875 A CN201810551875 A CN 201810551875A CN 108875807 A CN108875807 A CN 108875807A
Authority
CN
China
Prior art keywords
recognition
neural network
layer
recurrent neural
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810551875.9A
Other languages
English (en)
Other versions
CN108875807B (zh
Inventor
吴晓军
张钰
陈龙杰
张玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201810551875.9A priority Critical patent/CN108875807B/zh
Publication of CN108875807A publication Critical patent/CN108875807A/zh
Application granted granted Critical
Publication of CN108875807B publication Critical patent/CN108875807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Abstract

一种基于多注意力多尺度的图像描述方法,由选取用以提取图像特征的图像检测模型、划分网络训练集和验证集以及测试集、提取图像特征、构建注意力循环神经网络模型、训练注意力循环神经网络模型、图像描述步骤组成。由于本发明构建了一个由提取原始图像特征、多注意力多尺度特征映射、循环神经网络残差连接、循环神经网络语言解码组成的图像描述生成网络模型,提高了图像描述的质量并丰富了图像描述的细节。本发明可以在仅拥有图像的情况下,采用该神经网络模型生成高质量的图像进行描述。

Description

一种基于多注意力多尺度的图像描述方法
技术领域
本发明图像处理技术领域,具体涉及多注意力多尺度的图像描述的方法。
技术背景
在诸如机器人问答、行人导盲、儿童辅助教育等领域,常常遇到要求对图像含义理解并通过文字语言传达给人的问题。图像描述是结合自然语言处理与计算机视觉两个领域,通过输入自然图像来生成与图像内容相对的语言文字。
因图像不仅仅含有指示物体类型、位置的基础信息,还拥有一些关系和情感等高层次的信息,如果只对图像物体进行检测识别,则会损失了大量的包含相互关系、情感等的上下文信息,因此如何通过对图像的特征有效利用,并生成相对应的文字描述一直是研究的难点。
近年来基于深度学习的技术在图像处理及语音分析领域取得了较大的进展,其中,卷积神经网络因其权值共享和稀疏连接的特点,使得网络模型复杂度大大降低。同时残差网络的出现,让构建一个更深的网络模型变得可能。长短期记忆网络的出现允许循环神经网络模型处理较长的序列,在文字序列解码上效果显著。
目前图像描述生成中主流的基于深度学习的算法主要是以卷积神经网络提取图像特征作为语言解码模型的输入,然后输入长短期记忆网络中并通过调整语言模型结构输出相对应的描述文字。常用的描述生成模型通过输入图像经由卷积神经网络提取的特征,并结合语言序列的向量特征作为长短期记忆网络的输入。以上方法虽然利用了输入图像中的上下文信息,但语言解码模型只使用单个注意力模型使用提取的图像特征,并且输入的图像只使用了高层语义特征,浅层卷积层提取的特征在网络模型中未被利用,浅层的特征对于图像描述的贡献被忽略。
注意力机制借鉴了人类视觉的选择性注意力机制。人类视觉通过快速浏览图像,重点关注图像中目标区域,即注意力焦点,并获取更多的目标细节,抑制其他无用信息,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。从本质上讲,注意力机制和人类视觉的选择性注意力类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息,即突出对应于某个生成单词的图像空间特征。通过引入多个注意力模型,使模型可以使用图像不同层次的特征。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种描述效果更好的基于多注意力多尺度的图像描述方法。
解决上述技术问题所采用的技术方案是由以下步骤组成:
(1)选取用以提取图像特征的图像检测模型
选取卷积神经网络区域目标检测方法构建成目标检测模型,使用帕斯卡视觉目标分类2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。
(2)划分网络训练集、验证集、测试集
将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在数据集中随机抽取总样本的90%作为网络训练集,总样本的5%作为验证集,总样本的剩余5%作为测试集。
(3)提取图像特征
将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图。
(4)构建注意力循环神经网络模型
注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型。
本发明的循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt三部分,表示上一时刻第n层,即最终层,长短期记忆网络的输出状态,其中t表示当前时刻,t-1表示前一时刻,xt表示经过热独编码后的词向量,是图像高层平均池化特征,为:
其中vi为第i个区域的特征。将xt三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块。
(5)训练注意力循环神经网络模型
将网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中,提取数据集中所有描述构成单词表以及单词向量,通过使用自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:
其中θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,是长短期记忆网络解码器输出单词的概率。
训练注意力循环神经网络模型时,采用集束搜索方法训练注意力循环神经网络模型,再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型。
训练完成后,使用图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型。
(6)图像描述
将步骤(2)得到的测试集输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。
在本发明的构建多注意力神经网络步骤(3)中,本发明的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征。
卷积数值特征的提取方法为:
V′={v1,…,vk},
式中V′表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个显著区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为有限的正整数。
在本发明的构建注意力神经网络步骤(4)中,本发明的注意力特征映射模块为:
注意力特征映射模块分为两个部分,包括网络状态和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:
αt=softmax(at)
式中参数Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:
式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果,i、t为有限的正整数。
不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中。
在本发明构建多注意力多尺度循环神经网络步骤(4)中,本发明的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连。
本发明的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。
本发明与现有的技术相比具有以下优点:
由于本发明构建了一个由提取原始图像特征、多注意力多尺度特征映射、循环神经网络残差连接、循环神经网络语言解码组成的图像描述生成网络模型,提高了图像描述的质量并丰富了图像描述的细节。本发明可以在仅拥有图像的情况下,采用该神经网络模型生成高质量的图像描述结果。
附图说明
图1是本发明实施例1的流程图。
图2是图1中构建多注意力多尺度神经网络中语言生成模块的流程图。
图3是采用自上而下网络模型处理方法与实施例1方法对图像描述的结果对比图。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于下述的实施例。
实施例1
以在微软上下文常见对象2014数据集选取100000张图像为例,基于多注意力多尺度的图像描述生成方法由以下步骤组成:
(1)选取用以提取图像特征的图像检测模型
选取卷积神经网络区域目标检测方法构建成目标检测模型,卷积神经网络区域目标检测方法为已知的方法,已在《In Advances in neural information process ingsystems.2015》公开。使用帕斯卡视觉目标分类比赛的2007数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。
(2)划分网络训练集、验证集、测试集
将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在100000张图象数据集中随机抽取90000张图像即90%作为网络训练集,5000张图象即5%作为验证集,5000张图象即5%作为测试集。
(3)提取图像特征
将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,101层残差结构为已知的结构,已在《Deep Residual Learning forImage Recognition》,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图,平均池化方法为已知的唯一的一种方法。
上述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征。
卷积数值特征的提取方法为:
V′={v1,…,vk}
式中V′表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为14。
(4)构建注意力循环神经网络模型
注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块为:
注意力特征映射模块分为两个部分,包括网络状态和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:
αt=softmax(at)
式中参数Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:
ct=∑iαtvi
式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果。
循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt三部分,表示上一时刻第n层(即最终层)长短期记忆网络的输出状态,其中t表示当前时刻,t-1表示前一时刻,xt表示经过热独编码后的词向量,是图像高层平均池化特征,为:
其中vi为第i个区域的特征。将xt三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块。
注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型。
不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中。
该步骤中的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连。
该步骤中的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。
(5)训练注意力循环神经网络模型
将90000张图像作为网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中。
提取数据集中所有描述构成单词表以及单词向量,提取方法为:对微软上下文常见对象2014数据集中的所有描述,取句子中出现五次及其以上的单词组合为单词表,对单词表中每个单词采用独热编码方式进行编码,将数据集中的描述句子中每个单词的独热编码映射为一个嵌入式向量。通过使用《Adam:A Method for Stochastic Optimization》中自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:
其中θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,是长短期记忆网络解码器输出单词的概率。
训练注意力循环神经网络模型时,采用《Speech Understanding Systems:ASummary of Results of the Five-Year Research Effort.》中的集束搜索方法,设定长短期记忆网络层的隐藏节点以及注意力层隐藏节点数目为1000,使用学习率为1×10-4训练注意力循环神经网络模型,再使用《Self-critical Sequence Training for ImageCaptioning》中自鉴别序列训练强化学习方法,并使用学习率为1×10-5、1×10-6依次训练注意力循环神经网络模型。训练完成后,用5000张图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型。
(6)图像描述
将步骤(2)得到的测试集5000张图像输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。
注意力循环神经网络模型训练完成后,采用基于一致性的图像描述评价标准(CIDEr:Consensus-based Image Description Evaluation)对图像描述进行评价,得分为1.167。
实施例2
以在微软上下文常见对象2014数据集选取100000张图像为例,基于多注意力多尺度的图像描述生成方法由以下步骤组成:
在选取用以提取图像特征的图像检测模型步骤(1),选取卷积神经网络区域目标检测方法构建成目标检测模型,卷积神经网络区域目标检测方法为已知的方法,已在《InAdvances in neural information processing systems.2015》公开。使用帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。
其它步骤与实施例1相同。完成图像描述。
为了验证本发明的有益效果,发明人采用本发明实施例1的方法进行了仿真实验,实验情况如下:
1、仿真条件
硬件条件为:1块Nvidia TITAN Xp显卡,128G内存。
软件平台为:Pytorch框架。
2、仿真内容与结果
用本发明方法在上述仿真条件下进行实验,结果见图3,在图3中,第一行文字为采用自上而下网络模型的描述,第二行为本方法的描述,与现有技术相比,本发明具有以下优点:
本发明提出了一种构建多个层次注意力的方法,在同一时刻能够分别提取图像不同等级的特征,提高生成语句的表达能力。在多层长短期记忆网络中引入了残差学习机制,通过加法原理,将不同层次长短期记忆网络的输入、输出连接到一起,保证模型低层参数不会因为梯度弥散产生难以有效更新的问题。将多个注意力结构分层次融入网络中,并通过引入强化学习的方法训练模型,其输出的单词语句更加准确,进一步提升了系统性能。注意力循环神经网络模型训练完成后,采用基于一致性的图像描述评价标准(CIDEr:Consensus-based Image Description Evaluation)对图像描述进行评价,得分为1.167,取得了较好的效果。

Claims (4)

1.一种基于多注意力和多尺度的图像描述方法,其特征在于由以下步骤组成:
(1)选取用以提取图像特征的图像检测模型
选取卷积神经网络区域目标检测方法构建成目标检测模型,使用帕斯卡视觉目标分类2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练,选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型;
(2)划分网络训练集、验证集、测试集
将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集,数据集划分方法为:在数据集中随机抽取总样本的90%作为网络训练集,总样本的5%作为验证集,总样本的剩余5%作为测试集;
(3)提取图像特征
将经过预训练的目标检测模型,使用101层残差结构的区域目标检测模型提取图像卷积数值特征,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图;
(4)构建注意力循环神经网络模型
注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块,注意力特征映射模块与循环神经网络语言解码模块相连,构建成注意力循环神经网络模型;
所述的循环神经网络语言解码模块为:该模块包括六层长短期记忆网络和一层Softmax网络,其中第一层长短期记忆网络的输入包括xt三部分,表示上一时刻第n层,即最终层,长短期记忆网络的输出状态,其中t表示当前时刻,t-1表示前一时刻,xt表示经过热独编码后的词向量,是图像高层平均池化特征,为:
其中vi为第i个区域的特征。将xt三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块;
(5)训练注意力循环神经网络模型
将网络训练集输入步骤(1)的目标检测模型,经过步骤(3)提取图像在不同深度卷积层上的数值特征图,输入步骤(4)构建的注意力循环神经网络模型中,提取数据集中所有描述构成单词表以及单词向量,通过使用自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型,使用交叉熵损失函数LXE(θ)作为损失函数:
其中θ分别为目标语言的真实序列和图像描述生成模型解码器的参数,是长短期记忆网络解码器输出单词的概率;
训练注意力循环神经网络模型时,采用集束搜索方法训练注意力循环神经网络模型,再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型;
训练完成后,使用图像验证集测试训练好的注意力循环神经网络模型效果,并调整模型参数,得到注意力循环神经网络模型;
(6)图像描述
将步骤(2)得到的测试集输入步骤(5)训练好的注意力循环神经网络模型中,在该模型中,依次选取每个时间步概率最大的单词作为当前时间步的结果,将以上单词按照产生顺序连接并作为网络最后的输出,完成图像描述。
2.根据权利要求1所述的基于多注意力多尺度的图像描述生成方法,其特征在于在构建多注意力神经网络步骤(3)中,所述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为:在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征,并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征;
卷积数值特征的提取方法为:
V′={v1,…,vk},
式中V′表示以上k个区域的k个特征的集合,其中每一个特征代表了图像的一个显著区域,vk表示图像卷积层中分割出的第k个区域平均池化卷积特征,k为有限的正整数。
3.根据权利要求1所述的基于多注意力多尺度的图像描述方法,其特征在于在构建注意力神经网络步骤(4)中,所述的注意力特征映射模块为:
注意力特征映射模块分为两个部分,包括网络状态和提取的卷积层中各个数值特征Vi,注意力特征映射模块如下式所示:
αt=softmax(at)
式中参数Wva、Wha均为待学习的参数,αt为注意力权重,输入注意力特征映射模块,输出带有参数的如下所示的图像特征:
式中vi表示图像卷积层中分割出的第i个区域平均池化卷积特征,ct为最后的输出结果,i、t为有限的正整数;
不同层次的数值特征输入不同的注意力模型的方法为:低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中,高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中。
4.根据权利要求1所述的基于多注意力多尺度的图像描述方法,其特征在于:在构建多注意力多尺度循环神经网络步骤(4)中,所述的注意力特征映射模块与循环神经网络语言解码模块相连方式为:依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络,第一层循环神经网络的输出与第一层注意力网络的输入相连,第一层注意力网络的输出与第二层循环神经网络的输入相连,第二层循环神经网络的输出与第二层注意力网络的输入相连,第二层注意力网络的输出与第三层循环神经网络的输入相连,第三层循环神经网络的输出与第三层注意力网络的输入相连,第三层注意力网络的输出与第四层循环神经网络的输入相连,第四层循环神经网络的输出与第四层注意力网络的输入相连,第四层注意力网络的输出与第五层循环神经网络的输入相连,第五层循环神经网络的输出与第五层注意力网络的输入相连,第五层注意力网络的输出与第六层循环神经网络的输入相连;
所述的残差连接每一层循环神经网络的方法为:第一层循环神经网络的输出与第三层循环神经网络的输入相连,第二层循环神经网络的输出与第四层循环神经网络的输入相连,第三层循环神经网络的输出与第五层循环神经网络的输入相连,第四层循环神经网络的输出与第六层循环神经网络的输入相连。
CN201810551875.9A 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法 Active CN108875807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810551875.9A CN108875807B (zh) 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810551875.9A CN108875807B (zh) 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法

Publications (2)

Publication Number Publication Date
CN108875807A true CN108875807A (zh) 2018-11-23
CN108875807B CN108875807B (zh) 2022-05-27

Family

ID=64336183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810551875.9A Active CN108875807B (zh) 2018-05-31 2018-05-31 一种基于多注意力多尺度的图像描述方法

Country Status (1)

Country Link
CN (1) CN108875807B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109376804A (zh) * 2018-12-19 2019-02-22 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109620205A (zh) * 2018-12-26 2019-04-16 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109784197A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109919221A (zh) * 2019-03-04 2019-06-21 山西大学 基于双向双注意力机制图像描述方法
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110097136A (zh) * 2019-05-09 2019-08-06 杭州筑象数字科技有限公司 基于神经网络的图像分类方法
CN110188775A (zh) * 2019-05-28 2019-08-30 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110288029A (zh) * 2019-06-27 2019-09-27 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
CN110321962A (zh) * 2019-07-09 2019-10-11 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
CN110427836A (zh) * 2019-07-11 2019-11-08 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 一种基于多尺度优化的高分辨率遥感影像水体提取方法
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN110633610A (zh) * 2019-05-17 2019-12-31 西南交通大学 一种基于yolo的学员状态检测算法
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111013149A (zh) * 2019-10-23 2020-04-17 浙江工商大学 一种基于神经网络深度学习的卡牌设计生成方法及系统
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111240486A (zh) * 2020-02-17 2020-06-05 河北冀联人力资源服务集团有限公司 一种基于边缘计算的数据处理方法及系统
CN111310518A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN111325068A (zh) * 2018-12-14 2020-06-23 北京京东尚科信息技术有限公司 基于卷积神经网络的视频描述方法及装置
CN111339340A (zh) * 2018-12-18 2020-06-26 顺丰科技有限公司 图像描述模型的训练方法、图像搜索方法及装置
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN111507163A (zh) * 2019-01-30 2020-08-07 斯特拉德视觉公司 用于切换驾驶模式的rnn方法和设备
CN111522986A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN111611373A (zh) * 2020-04-13 2020-09-01 清华大学 一种面向机器人的具身主动场景描述方法
WO2020244108A1 (en) * 2019-06-05 2020-12-10 Boe Technology Group Co., Ltd. Methods and apparatuses for semantically segmenting input image, and computer-program product
CN112101395A (zh) * 2019-06-18 2020-12-18 上海高德威智能交通系统有限公司 一种图像的识别方法及装置
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112668608A (zh) * 2020-12-04 2021-04-16 北京达佳互联信息技术有限公司 一种图像识别方法、装置、电子设备及存储介质
CN112699915A (zh) * 2020-12-07 2021-04-23 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112784848A (zh) * 2021-02-04 2021-05-11 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN113591874A (zh) * 2021-06-01 2021-11-02 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113822383A (zh) * 2021-11-23 2021-12-21 北京中超伟业信息安全技术股份有限公司 一种基于多域注意力机制的无人机检测方法及系统
CN115936073A (zh) * 2023-02-16 2023-04-07 江西省科学院能源研究所 一种语言导向卷积神经网络及视觉问答方法
CN115984296A (zh) * 2023-03-21 2023-04-18 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及系统
CN113591874B (zh) * 2021-06-01 2024-04-26 清华大学 长时记忆增强的段落级别图像描述生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177972A1 (en) * 2015-12-21 2017-06-22 Nokia Technologies Oy Method for analysing media content
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
US20180144208A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177972A1 (en) * 2015-12-21 2017-06-22 Nokia Technologies Oy Method for analysing media content
US20180144208A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KELVIN XU 等: "Show,attend and tell: Neural image caption generation with visual attention", 《ARXIV:1502.03044》 *
ORIOL VINYALS 等: "Show and Tell: A Neural Image Caption Generator", 《ARXIV:1411.4555》 *
汤鹏杰 等: "LSTM 逐层多目标优化及多层概率融合的图像描述", 《自动化学报》 *

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310518B (zh) * 2018-12-11 2023-12-08 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN111310518A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN111325068B (zh) * 2018-12-14 2023-11-07 北京京东尚科信息技术有限公司 基于卷积神经网络的视频描述方法及装置
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109344920B (zh) * 2018-12-14 2021-02-02 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN111325068A (zh) * 2018-12-14 2020-06-23 北京京东尚科信息技术有限公司 基于卷积神经网络的视频描述方法及装置
CN111339340A (zh) * 2018-12-18 2020-06-26 顺丰科技有限公司 图像描述模型的训练方法、图像搜索方法及装置
CN109376804B (zh) * 2018-12-19 2020-10-30 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109376804A (zh) * 2018-12-19 2019-02-22 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109784197A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109784197B (zh) * 2018-12-21 2022-06-07 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109620205A (zh) * 2018-12-26 2019-04-16 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质
CN109726696B (zh) * 2019-01-03 2023-04-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN111507163B (zh) * 2019-01-30 2023-10-17 斯特拉德视觉公司 用于切换驾驶模式的rnn方法和设备
CN111507163A (zh) * 2019-01-30 2020-08-07 斯特拉德视觉公司 用于切换驾驶模式的rnn方法和设备
CN109919221A (zh) * 2019-03-04 2019-06-21 山西大学 基于双向双注意力机制图像描述方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN109948691A (zh) * 2019-03-14 2019-06-28 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110084128B (zh) * 2019-03-29 2021-12-14 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110097136A (zh) * 2019-05-09 2019-08-06 杭州筑象数字科技有限公司 基于神经网络的图像分类方法
CN110633610B (zh) * 2019-05-17 2022-03-25 西南交通大学 一种基于yolo的学员状态检测方法
CN110633610A (zh) * 2019-05-17 2019-12-31 西南交通大学 一种基于yolo的学员状态检测算法
CN110188775B (zh) * 2019-05-28 2020-06-26 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110188775A (zh) * 2019-05-28 2019-08-30 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
US11244196B2 (en) 2019-06-05 2022-02-08 Boe Technology Group Co., Ltd. Method of semantically segmenting input image, apparatus for semantically segmenting input image, method of pre-training apparatus for semantically segmenting input image, training apparatus for pre-training apparatus for semantically segmenting input image, and computer-program product
WO2020244108A1 (en) * 2019-06-05 2020-12-10 Boe Technology Group Co., Ltd. Methods and apparatuses for semantically segmenting input image, and computer-program product
CN112101395A (zh) * 2019-06-18 2020-12-18 上海高德威智能交通系统有限公司 一种图像的识别方法及装置
CN110288029B (zh) * 2019-06-27 2022-12-06 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
CN110288029A (zh) * 2019-06-27 2019-09-27 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
CN110321962A (zh) * 2019-07-09 2019-10-11 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
CN110321962B (zh) * 2019-07-09 2021-10-08 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
CN110427836B (zh) * 2019-07-11 2020-12-01 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 一种基于多尺度优化的高分辨率遥感影像水体提取方法
CN110427836A (zh) * 2019-07-11 2019-11-08 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 一种基于多尺度优化的高分辨率遥感影像水体提取方法
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN111013149A (zh) * 2019-10-23 2020-04-17 浙江工商大学 一种基于神经网络深度学习的卡牌设计生成方法及系统
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111240486A (zh) * 2020-02-17 2020-06-05 河北冀联人力资源服务集团有限公司 一种基于边缘计算的数据处理方法及系统
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN111611373A (zh) * 2020-04-13 2020-09-01 清华大学 一种面向机器人的具身主动场景描述方法
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN111522986A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112529857B (zh) * 2020-12-03 2022-08-23 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112668608A (zh) * 2020-12-04 2021-04-16 北京达佳互联信息技术有限公司 一种图像识别方法、装置、电子设备及存储介质
CN112668608B (zh) * 2020-12-04 2024-03-15 北京达佳互联信息技术有限公司 一种图像识别方法、装置、电子设备及存储介质
CN112699915A (zh) * 2020-12-07 2021-04-23 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112699915B (zh) * 2020-12-07 2024-02-02 杭州电子科技大学 基于改进的图注意力网络识别cad模型装配接口的方法
CN112784848A (zh) * 2021-02-04 2021-05-11 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN112784848B (zh) * 2021-02-04 2024-02-27 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN113591874A (zh) * 2021-06-01 2021-11-02 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113591874B (zh) * 2021-06-01 2024-04-26 清华大学 长时记忆增强的段落级别图像描述生成方法
CN113822383A (zh) * 2021-11-23 2021-12-21 北京中超伟业信息安全技术股份有限公司 一种基于多域注意力机制的无人机检测方法及系统
CN115936073A (zh) * 2023-02-16 2023-04-07 江西省科学院能源研究所 一种语言导向卷积神经网络及视觉问答方法
CN115984296A (zh) * 2023-03-21 2023-04-18 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及系统
CN115984296B (zh) * 2023-03-21 2023-06-13 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及系统

Also Published As

Publication number Publication date
CN108875807B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
Wu et al. Are you talking to me? reasoned visual dialog generation through adversarial learning
Alonso et al. Adversarial generation of handwritten text images conditioned on sequences
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN109657041A (zh) 基于深度学习的问题自动生成方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN107330444A (zh) 一种基于生成对抗网络的图像自动文本标注方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
Fang et al. Triple-GAN: Progressive face aging with triple translation loss
CN106529503A (zh) 一种集成卷积神经网络人脸情感识别方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN110009057A (zh) 一种基于深度学习的图形验证码识别方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
CN110263232A (zh) 一种基于广度学习和深度学习的混合推荐方法
CN113657380A (zh) 融合多模态注意力机制的图像美学质量评价方法
CN110309510B (zh) 一种基于c-s和gru的看画题诗方法
CN110347853A (zh) 一种基于循环神经网络的图像哈希码生成方法
Vahdati et al. Facial beauty prediction from facial parts using multi-task and multi-stream convolutional neural networks
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN109190703A (zh) 基于dnn的多态蠕虫特征码自动提取方法
Li et al. Generating anime characters and experimental analysis based on DCGAN model
CN110796150B (zh) 一种基于情感显著性区域检测的图片情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant