CN108959512B - 一种基于属性增强注意力模型的图像描述网络及技术 - Google Patents

一种基于属性增强注意力模型的图像描述网络及技术 Download PDF

Info

Publication number
CN108959512B
CN108959512B CN201810684426.1A CN201810684426A CN108959512B CN 108959512 B CN108959512 B CN 108959512B CN 201810684426 A CN201810684426 A CN 201810684426A CN 108959512 B CN108959512 B CN 108959512B
Authority
CN
China
Prior art keywords
attribute
image
model
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810684426.1A
Other languages
English (en)
Other versions
CN108959512A (zh
Inventor
丁贵广
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810684426.1A priority Critical patent/CN108959512B/zh
Publication of CN108959512A publication Critical patent/CN108959512A/zh
Application granted granted Critical
Publication of CN108959512B publication Critical patent/CN108959512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于属性增强注意力模型的图像描述网络及技术,通过对属性词之间的相关关系和共生关系进行建模,使模型在预测属性时,不仅能利用图像的信息预测属性词,而且还能通过理解属性词之间的关系进行预测;同时在属性预测的基础上,引入相对于属性的图像信息特征,解决了目前注意力模型中存在的图像特征冗余以及存在和图像内容信息不相关特征的问题,提高了模型预测属性及图像描述的能力。

Description

一种基于属性增强注意力模型的图像描述网络及技术
技术领域
本发明属于神经网络技术领域,尤其涉及一种基于属性增强注意力模型的图像描述网络及技术。
背景技术
基于属性和基于注意力模型是现有的图像描述方法中的两种重要的方法。基于属性的图像描述方法首先识别出图像中的一些关键信息,比如人物,地点,特征等等信息,然后编码成一个向量,输入给由循环神经网络构成的解码器中进行解码,得到最终的描述性语句。这种方法可以让解码器感知图像的关键信息,但是十分依赖属性词的预测模型,如果属性词提取不够准确,会误导解码器进行句子生成。基于视觉注意力模型的图像描述方法从视觉信息的角度解决句子生成过程中视觉特征自适应的问题,其原理受人在描述真实场景情况的启发。人类在观察一个场景的时候,并不是只观察这个整体,而是会在不同的区域进行观察,最后用一句话来描述,因此将视觉注意力模型引入到图像描述方法中,可以提高了句子描述的质量。
目前的基于属性的描述方法中,属性的预测模型通常用一个卷积神经网络完成,只考虑了属性词和图像之间的关系,并没有考虑属性词和属性词之间的相关性和共生关系。但是这种属性词之间的关系是有助于帮助句子描述模型生成更好的句子的。比如,汽车只能在陆地上行驶,不可能在海里行驶,轮船则反过来。这种相关关系和共生关系可以让句子生成模型生成更加合适的句子。
其次,由于卷积神经网络只能提取网格状区域的特征这个局限性,目前的基于注意力模型的图像描述方法还具有提升的空间。卷积神经网络的特征图中的每个特征只和固定区域内的图像信息有关,并没有考虑到这个区域里是否有关键信息,同时由于固定感受野的限制,区域的特征是有冗余的,导致注意力模型中权重分散的问题。如果能够打破视觉特征固定区域化的限制,就可以提高图像描述的能力。
发明内容
为了解决上述技术问题,本发明提供一种基于属性增强注意力模型的图像描述网络,包括:
属性预测模型:用于使用注意力技术将图像特征作为输入,得到属性词的预测结果;所述图像特征为使用卷积神经网络抽取的图像的网格区域特征;
句子生成模型:用于通过注意力技术将属性预测模型的预测结果作为输入,生成句子;所述属性预测模型的预测结果包括属性词分布信息以及每个属性词对应的视觉特征。
进一步的,在属性预测模型中,使用循环神经网络捕捉属性词之间的关联关系和共生关系,使用卷积神经网络获取图像的网格区域特征,并使用编码器-解码器架构,进行模型的训练和使用。
进一步的,对于每个图像的属性词,根据属性词出现的频次大小进行排序,得到属性序列;同时使用交叉熵损失函数对属性预测模型进行训练,损失函数如下所示:
Figure BDA0001711350110000031
上述公式中,V是使用卷积神经网络抽取到的网格区域特征,st(t=0,...,T)表示属性词,T是图片所对应的属性词序列长度。
进一步的,在句子生成模型中,将属性预测模型当作编码器,用于提取图像的属性分布信息和属性词对应的视觉特征来表征图片信息,并利用注意力技术,使得在句子生成的过程中能够自适应地根据不同方面的特征生成词,最终生成句子。
进一步的,句子生成模型使用交叉熵损失函数进行训练,损失函数如下:
Figure BDA0001711350110000032
上述公式中,C是属性预测模型输出的属性词视觉特征集合,yt(t=0,...,T)表示句子的每个单词,T是句子的长度。
进一步的,在使用训练得到的图像描述网络对待描述图像进行描述时,将待描述图像输入到属性预测模型中,使用贪心策略生成属性词分布,以及得到属性词对应的视觉特征;然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中,使用束搜索的方式生成句子。
本发明还提供一种基于属性增强注意力模型的图像描述技术,,包括:
S1.获取用于图像描述的数据集并对数据集进行数据预处理;所述数据集包括图像和用于描述图像的句子;所述数据预处理包括对图像进行属性词的抽取以及对句子进行预处理;
S2.利用卷积神经网络和循环神经网络,构建基于属性增强注意力模型的图像描述网络,所述图像描述网络包括属性预测模型以及句子生成模型;
S3.首先使用注意力技术将图像信息和属性词信息输入到属性预测模型进行训练,最大化属性词的似然概率,得到属性预测模型的预测结果,预测结果包括图像的属性词分布信息以及每个属性词对应的视觉特征;然后使用注意力技术将属性预测模型的预测结果和句子信息输入句子生成模型中进行训练;
S4.使用训练得到的图像描述网络对待描述图像进行描述。
进一步的,使用交叉熵损失函数对属性预测模型进行训练,损失函数如下所示:
Figure BDA0001711350110000041
上述公式中,V是使用卷积神经网络抽取到的网格区域特征,st(t=0,...,T)表示属性词,T是图片所对应的属性词序列长度。
进一步的,使用交叉熵损失函数对句子生成模型进行训练,损失函数如下:
Figure BDA0001711350110000042
上述公式中,C是属性预测模型输出的属性词视觉特征集合,yt(t=0,...,T)表示句子的每个单词,T是句子的长度。
进一步的,所述步骤S4包括:将待描述图像输入到属性预测模型中,使用贪心策略生成属性词分布,以及得到属性词对应的视觉特征;然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中,使用束搜索的方式生成句子。
与现有技术相比,本发明的有益效果在于:
本发明通过对属性词之间的相关关系和共生关系进行建模,使模型在预测属性时,不仅能利用图像的信息预测属性词,而且还能通过理解属性词之间的关系进行预测;同时在属性预测的基础上,引入相对于属性的图像信息特征,解决了目前注意力模型中存在的图像特征冗余以及存在和图像内容信息不相关特征的问题,提高了模型预测属性及图像描述的能力。
附图说明
图1为本发明的基于属性增强注意力模型的图像描述技术的原理图。
具体实施方式
实施例1
一种基于属性增强注意力模型的图像描述网络,包括:
属性预测模型:用于使用注意力技术将图像特征作为输入,得到属性词的预测结果;所述图像特征为使用卷积神经网络抽取的图像的网格区域特征;
句子生成模型:用于通过注意力技术将属性预测模型的预测结果作为输入,生成句子;所述属性预测模型的预测结果包括属性词分布信息以及每个属性词对应的视觉特征。
在本实施例提供的图像描述网络中,在构建和训练图像描述网络之前,先要获取可以用于图像描述的数据集并对数据集进行数据预处理。数据集包括图像和用于描述图像的句子。数据预处理包括对图像进行预处理以及对句子进行预处理。
对图像进行预处理包括:对数据集中的图像进行属性词的抽取,具体的做法是将数据集中的单词去掉a,the,an等单词之后,按照频次选取最频繁出现的前1000个单词作为属性词表,然后为每一张图像根据所对应的句子进行属性词的抽取,并对于每张图像的属性词列表,根据其频次大小进行排序,得到属性词序列,频次越大越靠前。
对句子进行预处理首先将所有的单词都小写化,然后根据单词出现的频次对单词进行Id化,即对不同的单词赋予不同的数字,这个过程中会将出现次数小于5词的词替换为同一个的单词UNK。
在本实施例中,在属性预测模型中,使用循环神经网络捕捉属性词之间的关联关系和共生关系,使用卷积神经网络获取图像的网格区域特征,并使用编码器-解码器架构,进行模型的训练和使用。
在本实施例中,使用交叉熵损失函数对属性预测模型进行训练,损失函数如下所示:
Figure BDA0001711350110000061
上述公式中,V是使用卷积神经网络抽取到的网格区域特征,st(t=0,...,T)表示属性词,T是图片所对应的属性词序列长度。
在本实施例中,在句子生成模型中,将属性预测模型当作编码器,用于提取图像的属性分布信息和属性词对应的视觉特征来表征图片信息,并利用注意力技术,使得在句子生成的过程中能够自适应地根据不同方面的特征生成词,最终生成句子。
在本实施例中,句子生成模型使用交叉熵损失函数进行训练,损失函数如下:
Figure BDA0001711350110000071
上述公式中,C是属性预测模型输出的属性词视觉特征集合,yt(t=0,...,T)表示句子的每个单词,T是句子的长度,即句子中单词的个数。
在本实施例中,在使用训练得到的图像描述网络对待描述图像进行描述时,将待描述图像输入到属性预测模型中,使用贪心策略生成属性词分布,以及得到属性词对应的视觉特征;然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中,使用束搜索的方式生成句子。
实施例2
一种基于属性增强注意力模型的图像描述技术,包括:
S1.获取用于图像描述的数据集并对数据集进行数据预处理;数据集包括图像和用于描述图像的句子;数据预处理包括对图像进行属性词的抽取以及对句子进行预处理;
S2.利用卷积神经网络和循环神经网络,构建如实施例1所述的基于属性增强注意力模型的图像描述网络,图像描述网络包括属性预测模型以及句子生成模型;
S3.首先使用注意力技术将图像信息和属性词信息输入到属性预测模型,通过如下所示的交叉熵损失函数对属性预测模型进行训练,
Figure BDA0001711350110000081
上述公式中,V是使用卷积神经网络抽取到的网格区域特征,st(t=0,...,T)表示属性词,T是图片所对应的属性词序列长度;
通过训练最大化属性词的似然概率,得到属性预测模型的预测结果,预测结果包括图像的属性词分布信息以及每个属性词对应的视觉特征;
然后使用注意力技术将属性预测模型的预测结果和句子信息输入句子生成模型中,通过如下所示的交叉熵损失函数对句子生成模型进行训练,
Figure BDA0001711350110000082
上述公式中,C是属性预测模型输出的属性词视觉特征集合,yt(t=0,...,T)表示句子的每个单词,T是句子的长度,即句子中单词的个数;
S4.使用训练得到的图像描述网络对待描述图像进行描述,具体包括:将待描述图像输入到属性预测模型中,使用贪心策略生成属性词分布,以及得到属性词对应的视觉特征;然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中,使用束搜索的方式生成句子。
下面以图像描述公开数据集MS COCO作为训练和测试的数据集对本实施例提供的基于属性增强注意力模型的图像描述技术进行详细说明。
COCO数据集有82783张图像用于训练,40504张图像用于测试,每张图像都至少有5个人工标记的英文句子。将数据集重新划分,用其中的5000张图像做模型验证,5000张图像做模型测试,剩余的图像全部用来训练模型。
(1)对数据集进行数据预处理,主要包括以下两个数据预处理过程:
第一是针对数据集中的图像进行属性词的抽取,便于后面对属性预测模型进行训练。具体的做法是将训练集中的单词去掉a、the、an等词之后,按照频次选取最频繁出现的前1000个词作为属性词表,然后为每一张图片根据所对应的句子进行属性词的抽取,并对于每张图片的属性词列表,根据其频次大小进行排序,得到属性词序列,频次越大越靠前。
第二是针对数据集中的句子进行预处理,首先将所有的单词都小写化,然后根据单词出现的频次对单词进行Id化,即对于不同的词赋予不同的数字,这个过程中会将出现次数小于5词的词替换为同一个的单词UNK。
(2)构建包括属性预测模型和句子生成模型的基于属性增强注意力模型的图像描述网络。
本发明提供的图像描述网络采用编码器-解码器架构作为属性预测模型以及句子生成模型的基础架构,并在此基础上嵌入注意力技术,具体如图1所示。
具体来说,给定图像信息I以及一段序列X={x0,x1,x2,...,xT},编码器需要能够根据已知的图像信息I和已经生成的序列片段{x0,x1,x2,...,xt},预测出下一个词xt+1。本发明采用resent101卷积神经网络(CNN)作为编码器,将图像信息编码成一个向量或是一组向量,用I表示,然后采用长短时记忆网络(LSTM,一种循环神经网络)作为解码器,从图像信息I中解码出序列。训练时,模型要优化的损失函数是交叉熵损失函数,如下所示:
Figure BDA0001711350110000101
其中,T是句子的长度,θ是要学习的模型参数,θ*是取得损失函数最小的模型参数。
上式中的条件概率项由循环神经网络得到:
logp(xt+1|Ix0,x1,...,xt)=f(zt,xt,ht-1,mt-1)
其中,fO表示循环神经网络函数,zt和x_t表示t时刻输入到循环神经网络的数据,而ht-1和mt-1是上一个时刻(t-1)循环神经网络更新后的隐藏状态向量(hidden statevector)和细胞状态向量(cell state vector)。
此处采用长短时记忆网络来构造fO:
it=σ(Wizzt+Wixxt+Wihht-1+bi)
ft=σ(Wfzzt+Wfxxt+Wfhht-1+bf)
ot=σ(Wozzt+Woxxt+Wohht-1+bo)
ct=it⊙σ(Wczzt+Wcxxt+Wchht-1+bc)+ft⊙ct-1
ht=ot⊙tanh(ct)
Pt=softmax(Wlhht+bl)
其中,W是要学习的参数,it,ft,ot分别表示长短时记忆网络中输入门、遗忘门、输出门,c_t和ht是更新之后的隐藏状态向量和细胞状态向量,pt是当前时刻的词的概率分布。
在属性预测模型中,首先通过数据驱动的方式,从图像和属性以及属性和属性之间两种不同的角度利用循环神经网络进行建模,使得预测的属性之间更加相关;然后将属性预测的结果,即属性词信息以及和属性词对应的视觉信息通过注意力模块应用到句子生成模型中,得到最终的图像描述性语句,实现了属性增强的图像描述技术。具体如下:
1)属性预测模型对图像和属性之间以及属性和属性之间的关系建立模型,从而提高属性词预测的准确度。为了捕捉属性词之间的共生关系,采用长短时记忆网络来建模。同时结合视觉注意力技术,使得属性预测模型能够根据模型学到的知识自适应地关注下一个属性词所关联的视觉特征。利用resent101卷积神经网络的卷积特性,将图像分割成网格状区域,并提取了最后一个卷积层的输出当作图像区域的视觉特征,用V={vi|i=0,1,2,...,k,vi∈RD}表示,k表示区域的数量。将图像信息编码成V后,我们用长短时记忆网络来解码生成属性,具体如下式所示:
Figure BDA0001711350110000121
其中st是t时刻输入长短时记忆网络的属性词,用于生成下一个属性词,ht-1和mt-1表示隐藏状态向量和记忆状态向量,
Figure BDA0001711350110000126
是由视觉注意力模型产生的图像信息,由下式决定:
αt=softmax(Watanh(WavV+(Wahht-1)1T))
Figure BDA0001711350110000122
Figure BDA0001711350110000123
首先,根据当前的隐藏向量的状态信息ht-1,在每个区域特征上面产生一个权重值,形成t时刻注意点在区域上的一个权重分布αt,然后根据权重分布,对区域特征进行加权求和,并经过非线性变换σ形成最终的自适应图像特征。
隐藏状态向量和细胞状态向量的更新如下:
Figure BDA0001711350110000124
属性词的预测函数根据更新后的隐藏状态向量构造属性词的概率分布:
Figure BDA0001711350110000125
2)句子生成模型利用属性增强的注意力技术,通过感知句子中词和词之间的跳转关系逐词生成句子。首先把集合了视觉注意力模型的属性预测模型当作编码器,产生属性级别的图像特征,包括两个方面的特征,一是属性词的信息,用二值0-1向量Is表示,0表示该属性词和图像无关,1表示该属性词和图像有关;二是和属性词关联的视觉特征,用C={c0,c1,...,cl}表示,l是预测的属性词的个数,其中
Figure BDA0001711350110000136
的计算与属性预测模型中相同。选用另一个长短时记忆网络作为解码器,生成句子。这个过程可以用
Figure BDA0001711350110000137
表示,其中yt是t时刻输入给长短时记忆网络的词,用于生成下一个词,
Figure BDA0001711350110000138
Figure BDA0001711350110000139
表示隐藏状态向量和记忆状态向量,
Figure BDA00017113501100001310
是由视觉注意力模型产生的图像信息,由下式决定:
Figure BDA0001711350110000131
Figure BDA0001711350110000132
Figure BDA0001711350110000133
首先,根据当前的隐藏向量的状态信息
Figure BDA00017113501100001311
在每个属性词的视觉特征上面产生一个权重值,形成t时刻注意点在区域上的一个权重分布βt,然后根据权重分布,对属性视觉特征进行加权求和,并经过非线性变换σ形成最终的自适应图像特征。
隐藏状态向量和细胞状态向量的更新如下:
Figure BDA0001711350110000134
属性词的预测函数根据更新后的隐藏状态向量构造属性词的概率分布:
Figure BDA0001711350110000135
(3)对图像描述网络进行训练,包括以下两个阶段:
第一个阶段是对属性预测模型进行训练,具体步骤如下:首先使用resent101卷积神经网络抽取图像的网格区域特征,过程中没有对图像进行裁剪或者放缩;对于经resent101抽取得到的特征图,使用空间平均池化技术,使得特征图的大小为14×14×2048(2048是特征的维度);然后使用注意力技术将图像信息和属性词的信息输入到长短时记忆网络中去最大化属性词的似然概率。
属性预测模型的训练过程中,优化的交叉熵损失函数如下:
Figure BDA0001711350110000141
训练过程中,t+1时刻输入给长短时记忆网络的词是图像的真实属性词,经过最小化上述损失函数,网络学习到了属性词和属性词之间的共生关系,使得从t时刻得到的属性词的概率分布中采样得到的词尽可能是和图像相关的真实属性词。在属性生成的过程中,模型将根据t时刻属性词的概率分布中选取最大概率的词输入到网络中,从而达到预测下一个属性词的目的。
第二个阶段是对句子生成模型进行训练,具体步骤如下:使用注意力技术将属性预测模型训练得到图像的属性词分布信息和每个属性词对应的视觉特征以及句子的信息输入到另一个长短时记忆网络中,并通过交叉熵的损失函数进行训练,具体如下所示:
Figure BDA0001711350110000142
在句子生成的过程中,模型将根据t时刻属性词的概率分布中采样出一个词输入到网络中,从而达到预测下一个属性词的目的。同时为了提高句子生成的质量,通常使用束搜索(Beam search)进行生成句子。
在训练属性预测模型和句子生成模型的过程中的两种循环神经网络的隐藏向量的维度、词向量的维度以及注意力技术中的潜藏空间特征维度都固定为1000。
属性预测模型训练阶段和句子生成模型训练阶段都使用Adam算法进行更新梯度,初始学习率设置为5×10e-4,每完整训练两次数据集,学习率降低为原来的0.9,整个训练过程持续30轮结束。
(4)对训练得到的图像描述网络进行测试。在测试过程中,对属性预测模型使用贪心策略生成属性词分布;对于句子生成模型采用大小为3的束搜索方式生成句子。
本发明提供的基于属性增强注意力模型的图像描述技术结合了目前基于属性和基于视觉注意力的两大类算法,提高了图像描述算法生成的句子质量。本发明提供的图像描述技术在目前主流的图像描述公开数据集MS COCO获得了性能上的提升。相比于对比的模型,本发明提供的图像描述技术可以达到104.4%的CIDEr值,提高了4.2%。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于属性增强注意力模型的图像描述网络装置,其特征在于,包括:
属性预测模型:用于使用循环神经网络捕捉属性词之间的关联关系和共生关系,使用卷积神经网络获取图像的网格区域特征,并使用编码器-解码器架构,进行模型的训练和使用,将图像特征作为输入,得到属性词的预测结果;所述图像特征为使用卷积神经网络抽取的图像的网格区域特征;
输入图像特征为
Figure FDA0003549597820000011
公式表示如下:
at=soft max(Watanh(WavV+(Wahht-1)1T));
Figure FDA0003549597820000012
Figure FDA0003549597820000013
其中,V为图像信息编码;V={vi|i=0,1,2....,k,vi∈RD},k表示区域的数量;
句子生成模型:用于通过感知句子中词和词之间的跳转关系逐词生成句子;首先把集合了视觉注意力模型的属性预测模型当作编码器,产生属性级别的图像特征,包括两个方面的特征,一是属性词的信息,用二值0-1向量Is表示,0表示该属性词和图像无关,1表示该属性词和图像有关;二是和属性词关联的视觉特征,用C={c0,c1,.....,c1}表示,l是预测的属性词的个数,其中
Figure FDA0003549597820000014
Figure FDA0003549597820000015
的计算与属性预测模型中相同;选用另一个长短时记忆网络作为解码器,生成句子;所述属性预测模型的预测结果包括属性词分布信息以及每个属性词对应的视觉特征;
预测结果为:
Figure FDA0003549597820000016
由下式决定:
Figure FDA0003549597820000021
Figure FDA0003549597820000022
Figure FDA0003549597820000023
C为属性词关联的视觉特征;用c={c0,c1,...,c1}表示,σ为非线性变换。
2.根据权利要求1所述的图像描述网络装置,其特征在于,对于每个图像的属性词,根据属性词出现的频次大小进行排序,得到属性序列;同时使用交叉熵损失函数对属性预测模型进行训练,损失函数如下所示:
Figure FDA0003549597820000024
上述公式中,V是使用卷积神经网络抽取到的网格区域特征,st=(t=0,....,T)表示属性词,T是图片所对应的属性词序列长度。
3.根据权利要求2所述的图像描述网络装置,其特征在于,句子生成模型使用交叉熵损失函数进行训练,损失函数如下:
Figure FDA0003549597820000025
上述公式中,C是属性预测模型输出的属性词视觉特征集合,yt=(t=0,....,T)表示句子的每个单词,T是句子的长度。
4.根据权利要求1和3中任一所述的图像描述网络装置,其特征在于,在使用训练得到的图像描述网络装置对待描述图像进行描述时,将待描述图像输入到属性预测模型中,使用贪心策略生成属性词分布,以及得到属性词对应的视觉特征;然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中,使用束搜索的方式生成句子。
5.一种基于属性增强注意力模型的图像描述方法,其特征在于,包括:
S1.获取用于图像描述的数据集并对数据集进行数据预处理;所述数据集包括图像和用于描述图像的句子;所述数据预处理包括对图像进行属性词的抽取以及对句子进行预处理;
S2.利用卷积神经网络和循环神经网络,构建如权利要求1-4任一所述的基于属性增强注意力模型的图像描述网络装置,所述图像描述网络装置包括属性预测模型以及句子生成模型;
S3.首先使用注意力技术将图像信息和属性词信息输入到属性预测模型进行训练,最大化属性词的似然概率,得到属性预测模型的预测结果,预测结果包括图像的属性词分布信息以及每个属性词对应的视觉特征;然后使用注意力技术将属性预测模型的预测结果和句子信息输入句子生成模型中进行训练;
S4.使用训练得到的图像描述网络装置对待描述图像进行描述。
6.根据权利要求5所述的图像描述方法,其特征在于,使用交叉熵损失函数对属性预测模型进行训练,损失函数如下所示:
Figure FDA0003549597820000031
上述公式中,V是使用卷积神经网络抽取到的网格区域特征,st=(t=0,....,T)表示属性词,T是图片所对应的属性词序列长度。
7.根据权利要求5或6所述的图像描述方法,其特征在于,使用交叉熵损失函数对句子生成模型进行训练,损失函数如下:
Figure FDA0003549597820000041
上述公式中,C是属性预测模型输出的属性词视觉特征集合,yt=(t=0,....,T)表示句子的每个单词,T是句子的长度。
8.根据权利要求7所述的图像描述方法,其特征在于,所述步骤S4包括:将待描述图像输入到属性预测模型中,使用贪心策略生成属性词分布,以及得到属性词对应的视觉特征;然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中,使用束搜索的方式生成句子。
CN201810684426.1A 2018-06-28 2018-06-28 一种基于属性增强注意力模型的图像描述网络及技术 Active CN108959512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810684426.1A CN108959512B (zh) 2018-06-28 2018-06-28 一种基于属性增强注意力模型的图像描述网络及技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810684426.1A CN108959512B (zh) 2018-06-28 2018-06-28 一种基于属性增强注意力模型的图像描述网络及技术

Publications (2)

Publication Number Publication Date
CN108959512A CN108959512A (zh) 2018-12-07
CN108959512B true CN108959512B (zh) 2022-04-29

Family

ID=64487223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810684426.1A Active CN108959512B (zh) 2018-06-28 2018-06-28 一种基于属性增强注意力模型的图像描述网络及技术

Country Status (1)

Country Link
CN (1) CN108959512B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298436B (zh) * 2019-06-28 2023-05-09 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110824142B (zh) * 2019-11-13 2022-06-24 杭州鲁尔物联科技有限公司 一种地质灾害的预测方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Show, Attend and Tell: Neural Image Caption;Kelvin Xu等;《Computer Science》;20160419;全文 *

Also Published As

Publication number Publication date
CN108959512A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
Fonseca et al. Unsupervised contrastive learning of sound event representations
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN112685597B (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN110706303B (zh) 基于GANs的人脸图像生成方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN110728629A (zh) 一种用于对抗攻击的图像集增强方法
CN114550223B (zh) 人物交互检测方法、装置及电子设备
Mukherjee et al. Predicting video-frames using encoder-convlstm combination
CN108959512B (zh) 一种基于属性增强注意力模型的图像描述网络及技术
CN108538283B (zh) 一种由唇部图像特征到语音编码参数的转换方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
CN115797952B (zh) 基于深度学习的手写英文行识别方法及系统
CN111814693A (zh) 一种基于深度学习的海上船舶识别方法
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN116168197A (zh) 一种基于Transformer分割网络和正则化训练的图像分割方法
CN113822790B (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN115601257A (zh) 一种基于局部特征和非局部特征的图像去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181207

Assignee: CSIC PRIDE(Nanjing)Intelligent Equipment System Co.,Ltd

Assignor: TSINGHUA University

Contract record no.: X2023320000119

Denomination of invention: An Image Description Network and Technology Based on Attribute Enhanced Attention Model

Granted publication date: 20220429

License type: Common License

Record date: 20230323