CN110135567A - 基于多注意力生成对抗网络的图像字幕生成方法 - Google Patents
基于多注意力生成对抗网络的图像字幕生成方法 Download PDFInfo
- Publication number
- CN110135567A CN110135567A CN201910443476.5A CN201910443476A CN110135567A CN 110135567 A CN110135567 A CN 110135567A CN 201910443476 A CN201910443476 A CN 201910443476A CN 110135567 A CN110135567 A CN 110135567A
- Authority
- CN
- China
- Prior art keywords
- attention
- shot
- long term
- term memory
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 230000007787 long-term memory Effects 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 235000019987 cider Nutrition 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000002860 competitive effect Effects 0.000 abstract 1
- 238000012795 verification Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Abstract
本发明公开了基于多注意力生成对抗网络的图像字幕生成方法,它属于图像字幕生成技术领域,解决了基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部点,而没有捕捉到全局信息的问题。本发明首次提出了基于局部和全局信息的多注意力机制用于图像字幕生成,并在此基础上,提出了多注意力生成对抗图像字幕生成网络,它包括多注意力生成器和判别器。多注意力生成器用于生成更精确的句子,多注意力判别器用于判断生成的句子是人工描述还是机器生成的。本发明在MSCOCO基准数据集上对所提出的框架进行了大量的实验验证,并通过MSCOCO字幕挑战评价服务器的评估,取得了非常有竞争力的评价结果。
Description
技术领域
本发明涉及计算机视觉和自然语言处理的技术领域,特别是涉及到基于多注意力生成对抗网络的图像字幕生成方法。
背景技术
图像字幕生成技术的目标是生成给定图像的人性化的描述语句。图像字幕生成技术在学术界掀起了一股研究热潮,它被广泛应用于视频检索和婴幼儿教育等领域。不同于其他的计算机视觉任务(图像分类、目标检测等),训练有效的图像字幕模型更具有挑战性,因为它需要全面理解图像中基本实体及其关系。传统的图像字幕生成模型采用编码器-解码器框架作为核心,它利用基于卷积神经网络的编码器将像素级的信息编码成密集维度的图像信息,而解码器被用于将这些高维信息翻译成自然语言。与先前的方法相比,基于编码器-解码器的图像字幕生成方法在基准数据集上取得了较好的效果。最近,卷积神经网络特征图上的空间注意力机制被应用到图像字幕生成方法中,注意力机制通常会生成一个空间图,从而显示出图像区域与每个生成词之间的对应关系。然而,大多数现有的编码器-解码器图像字幕生成模型利用交叉熵最小化进行训练,这通常会导致曝光偏差问题。
为了解决曝光偏差问题,最近的研究建议将强化学习技术应用到传统的图像字幕生成技术中。在大多数基于强化学习的模型中,生成句子的度量分数作为奖励信号,并且直接将此奖励信号最大化。自我批评序列训练(SCST)利用传统的强化学习算法进行图像字幕生成,它在测试时以贪婪编码算法作为基线函数,对当前模型的奖励进行标准化。然而,基于强化学习的方法还不够全面,因为它们只考虑评价指标的得分,而对生成句子的多样性有所欠缺。
为了解决生成句子缺乏多样性的问题,R.Shetty以及A.Vaswani等人提出了利用条件生成对抗网络生成图像字幕。这些方法在生成多样性和自然性句子方面取得了巨大的成功,并且其生成器和判别器将低级卷积特征作为视觉输入。然而,由于卷积神经网络中的层具有接收域,低层的卷积特征只能构建局部(简单结构)对象,而全局(复杂结构)对象很难区别,这种问题被称为“建模长期依赖性”问题。自注意力机制能够有效的建立长期依赖关系模型,并提高计算和统计效率。然而,自注意力机制存在缺乏捕捉与时间维度相关联的局部信息的问题。
为了解决以上问题,本发明首先提出了一种基于自注意力模块的多注意力机制,并利用时间信息捕捉更多的局部信息。在此基础上,本发明提出了基于多注意力生成对抗网络的图像字幕生成方法。
发明内容
本发明的目的是为了解决基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部条件,而缺乏捕捉全局信息的问题。
本发明为解决上述技术问题采取的技术方案是:
S1.构建多注意力机制模块。
S2.结合S1的多注意力机制模块,构建多注意力生成器模型。
S3.结合S1的多注意力机制模块,构建多注意力判别器模型。
S4.结合S2和S3中的多注意力生成器以及判别器,构建多注意力生成对抗网络架构。
S5.多注意力生成对抗网络的训练。
其中,所述的多注意力机制模块包括一个全局注意力模块和一个局部注意力模块:
(1)全局注意力模块:
全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:
其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:
其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。
(2)局部注意力模块:
局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t:
αt=softmax(at) (4)
其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:
基于全局和局部注意力模块的输入,多注意力模块的最终输出为:
其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.
进一步地,所述的多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:
ht=(xt,ht-1) (7)
其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。
(1)注意力长短期记忆网络:
在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:
其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:
最后,将注意力长短期记忆网络的输出特征应用于多注意力层:
其中,是施加注意力图像特征。
(2)语言长短期记忆网络:
在语言长短期记忆网络中,本发明首先构建了包括施加注意力图像特征的输入向量,并且与注意力长短期记忆网络的输出相连接:
然后将输入到语言长短期记忆网络中:
最后,给出真实句子y1:T,并使用softmax函数得到词汇表中单词的概率分布:
其中,Wg和bg是可学习的矩阵。
进一步地,所述的多注意力判别器基于序列循环神经网络,由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先,给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中:
随后,长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成,公式如下:
其中,Wd∈RE×∑是词汇表∑中的单词嵌入矩阵,wt(t∈1,2,...,T)是在t时刻输入词的独热编码向量。然后,这个长短期记忆网络的数学表达公式为:
最后有一个全连接层和softmax层,给定的句子是图像的真实描述的概率可以计算为:
其中,WK∈R2*k,bK∈Rk,k代表了特向特征的卷积核个数。
进一步地,所述的多注意力生成对抗网络包含两个多注意力生成器(交叉熵-生成器和强化学习-生成器)和一个多注意力判别器,其中交叉熵-生成器和强化学习-生成器都是多注意力生成器,其结构相同,但是有不同的训练策略。
最后,所述的多注意力生成对抗网络的训练训练方法如下:
(1)交叉熵-生成器:
在交叉熵-生成器中,它的训练目标是通过最小化交叉熵损失来学习模型参数:
其中,是真实生成的句子,θ是模型参数。
(2)强化学习-生成器:
在强化学习-生成器中,本发明对CIDEr进行了优化,并初始化强化学习-生成器模型,其损失函数为:
其中,是采样描述,通过贪婪编码当前模型获得的基准分数。
(3)多注意力判别器:
多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假,并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数
其中v是真实图像特征,x1:T是生成的图像描述,是真实的图像描述。
与现有的技术相比,本发明的有益效果是:
1.本发明提出了一种基于全局和局部条件的多注意力机制,使图像描述中的特征表达和推理更有效。
2.本发明提出了多注意力生成对抗网络的图像字幕框架,该框架包括多注意力生成器和多注意力判别器。它不仅可以对长期依赖关系进行建模,而且可以更加准确地区分机器生成的句子和人工描述的句子。
附图说明
图1为多注意力生成对抗网络结构示意图。
图2为多注意力机制网络结构示意图。
图3为多注意力生成器模型结构示意图。
图4为多注意力判别器模型结构示意图。
图5为多注意力对抗生成网络算法结构图。
图6为多注意力对抗生成网络生成的字幕与自上而下方法生成的字幕和真实字幕的对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施例对本发明做进一步的阐述。
图1为多注意力生成对抗网络结构示意图。如图1所示,多注意力生成对抗网络包括两个多注意力生成器(XE-Generator,RL-Generator)和一个多注意力判别器,其中交叉熵-生成器(XE-Generator)和强化学习-生成器(RL-Generator)都是多注意力生成器,结构相同,但是训练策略不同,并且两种训练策略都是基于所提出的多注意力生成器结构进行训练的。
图2为多注意力机制网络结构示意图。如图2所示,图的顶部是全局注意力模块,底部是局部注意力模块。
(1)全局注意力模块:
全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:
其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:
其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。
(2)局部注意力模块:
局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t:
αt=softmax(at) (4)
其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:
基于全局和局部注意力模块的输入,多注意力模块的最终输出为:
其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.
图3为多注意力生成器模型结构示意图。如图3所示,多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:
ht=(xt,ht-1) (7)
其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。
(1)注意力长短期记忆网络:
在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:
其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:
最后,将注意力长短期记忆网络的输出特征应用于多注意力层:
其中,是施加注意力图像特征。
(2)语言长短期记忆网络:
在语言长短期记忆网络中,本发明首先构建了包括施加注意力图像特征的输入向量,并且与注意力长短期记忆网络的输出相连接:
然后将输入到语言长短期记忆网络中:
最后,给出真实句子y1:T,并使用softmax函数得到词汇表中单词的概率分布:
其中,Wg和bg是可学习的矩阵。
图4为多注意力判别器模型结构示意图。如图4所示,多注意力判别器基于序列循环神经网络,由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先,给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中:
随后,长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成,公式如下:
其中,Wd∈RE×∑是词汇表∑中的单词嵌入矩阵,wt(t∈1,2,...,T)是在t时刻输入词的独热编码向量。然后,这个长短期记忆网络的数学表达公式为:
最后有一个全连接层和softmax层,给定的句子是图像的真实描述的概率可以计算为:
其中,WK∈R2*k,bK∈Rk,k代表了特向特征的卷积核个数。
图5为多注意力对抗生成网络算法结构图。如图5所示,算法1详细的描述了本发明提出的多注意力生成对抗网络的字幕生成框架,本发明根据标准的生成对抗网络训练过程对交叉熵-生成器和强化学习-生成器以及其对应的判别器进行了微调。其具体的训练过程为:
(1)交叉熵-生成器:
在交叉熵-生成器中,它的训练目标是通过最小化交叉熵损失来学习模型参数:
其中,是真实生成的句子,θ是模型参数。
(2)强化学习-生成器:
在强化学习-生成器中,本发明对CIDEr进行了优化,并初始化强化学习-生成器模型,其损失函数为:
其中,是采样描述,通过贪婪编码当前模型获得的基准分数。
(3)多注意力判别器:
多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假,并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数
其中v是真实图像特征,x1:T是生成的图像描述,是真实的图像描述。
图6为多注意力生成对抗网络生成的字幕与自上而下方法生成的字幕和真实字幕的对比图。如图6所示,多注意力生成对抗网络生成的句子要比自上而下模型更加准确以及人性化。
实验结果如下表所示:
在这项工作中,本发明提出了一种基于自注意力模块的多注意力机制,并在此基础上提出了基于多注意力的生成器和判别器,即基于多注意力生成对抗网络的图像字幕生成方法。多注意力生成器采用了编码器-解码器框架,并包含三个阶段(编码、融合和解码)。本发明将多注意力机制应用到融合阶段,在不增加卷积核大小的情况下,构建了长期依赖关系模型。同时,多注意力判别器也是一个具有多注意力机制的编码器一解码器架构。从而使得生成的图像字幕表达准确流畅,能够很好的反应图像中的内容。
最后,本发明的上述实施例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述方法包括以下步骤:
S1.构建多注意力机制模块。
S2.结合S1的多注意力机制模块,构建多注意力生成器模型。
S3.结合S1的多注意力机制模块,构建多注意力判别器模型。
S4.结合S2和S3中的多注意力生成器以及判别器,构建多注意力生成对抗网络架构。
S5.多注意力生成对抗网络的训练。
2.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S1的具体过程为:
多注意力机制模块包括一个全局注意力模块和一个局部注意力模块:
(1)全局注意力模块:
全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:
其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:
其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。
(2)局部注意力模块:
局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t:
αt=soffmax(at)(4)
其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:
基于全局和局部注意力模块的输入,多注意力模块的最终输出为:
其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.
3.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S2的具体过程为:
多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:
ht=(xt,ht-1) (7)
其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。
(1)注意力长短期记忆网络:
在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:
其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:
最后,将注意力长短期记忆网络的输出特征应用于多注意力层:
其中,是施加注意力图像特征。
(2)语言长短期记忆网络:
在语言长短期记忆网络中,本发明首先构建了包括施加注意力图像特征的输入向量,并且与注意力长短期记忆网络的输出相连接:
然后将输入到语言长短期记忆网络中:
最后,给出真实句子y1:T,并使用softmax函数得到词汇表中单词的概率分布:
其中,Wg和bg是可学习的矩阵。
4.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S3的具体过程为:
多注意力判别器基于序列循环神经网络,由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先,给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中:
随后,长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成,公式如下:
其中,Wd∈RE×∑是词汇表∑中的单词嵌入矩阵,wt(t∈1,2,...,T)是在t时刻输入词的独热编码向量。然后,这个长短期记忆网络的数学表达公式为:
最后有一个全连接层和softmax层,给定的句子是图像的真实描述的概率可以计算为:
其中,WK∈R2*k,bK∈Rk,k代表了特向特征的卷积核个数。
5.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S4的具体过程为:
多注意力生成对抗网络包含两个多注意力生成器(交叉熵-生成器和强化学习-生成器)和一个多注意力判别器,其中交叉熵-生成器和强化学习-生成器都是多注意力生成器,其结构相同,但是有不同的训练策略。
6.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S5的具体过程为:
多注意力生成对抗网络的训练训练方法如下:
(1)交叉熵-生成器:
在交叉熵-生成器中,它的训练目标是通过最小化交叉熵损失来学习模型参数:
其中,是真实生成的句子,θ是模型参数。
(2)强化学习-生成器:
在强化学习-生成器中,本发明对CIDEr进行了优化,并初始化强化学习-生成器模型,其损失函数为:
其中,是采样描述,通过贪婪编码当前模型获得的基准分数。
(3)多注意力判别器:
多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假,并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数
其中v是真实图像特征,x1:T是生成的图像描述,是真实的图像描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910443476.5A CN110135567A (zh) | 2019-05-27 | 2019-05-27 | 基于多注意力生成对抗网络的图像字幕生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910443476.5A CN110135567A (zh) | 2019-05-27 | 2019-05-27 | 基于多注意力生成对抗网络的图像字幕生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110135567A true CN110135567A (zh) | 2019-08-16 |
Family
ID=67581784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910443476.5A Pending CN110135567A (zh) | 2019-05-27 | 2019-05-27 | 基于多注意力生成对抗网络的图像字幕生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135567A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619313A (zh) * | 2019-09-20 | 2019-12-27 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN110929640A (zh) * | 2019-11-20 | 2020-03-27 | 西安电子科技大学 | 一种基于目标检测的宽幅遥感描述生成方法 |
CN111079805A (zh) * | 2019-12-03 | 2020-04-28 | 浙江工业大学 | 一种结合注意力机制及信息熵最小化的异常图像检测方法 |
CN111445484A (zh) * | 2020-04-01 | 2020-07-24 | 华中科技大学 | 一种基于图像级标注的工业图像异常区域像素级分割方法 |
CN111563367A (zh) * | 2020-05-06 | 2020-08-21 | 首都师范大学 | 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质 |
CN111639547A (zh) * | 2020-05-11 | 2020-09-08 | 山东大学 | 基于生成对抗网络的视频描述方法及系统 |
CN111738940A (zh) * | 2020-06-02 | 2020-10-02 | 大连理工大学 | 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法 |
CN112069397A (zh) * | 2020-08-21 | 2020-12-11 | 三峡大学 | 自注意力机制与生成对抗网络相结合的谣言检测方法 |
CN112084841A (zh) * | 2020-07-27 | 2020-12-15 | 齐鲁工业大学 | 跨模态的图像多风格字幕生成方法及系统 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN113052090A (zh) * | 2021-03-30 | 2021-06-29 | 京东数字科技控股股份有限公司 | 用于生成字幕器以及输出字幕的方法和装置 |
CN113706388A (zh) * | 2021-09-24 | 2021-11-26 | 上海壁仞智能科技有限公司 | 图像超分辨率重建方法及装置 |
CN113918754A (zh) * | 2021-11-01 | 2022-01-11 | 中国石油大学(华东) | 基于场景图更新与特征拼接的图像字幕生成方法 |
CN114239725A (zh) * | 2021-12-17 | 2022-03-25 | 四川大学 | 一种面向数据投毒攻击的窃电检测方法 |
CN114422859A (zh) * | 2020-10-28 | 2022-04-29 | 贵州省广播电视信息网络股份有限公司 | 基于深度学习的有线电视运营商的排序推荐系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
US20180373979A1 (en) * | 2017-06-22 | 2018-12-27 | Adobe Systems Incorporated | Image captioning utilizing semantic text modeling and adversarial learning |
CN109711465A (zh) * | 2018-12-26 | 2019-05-03 | 西安电子科技大学 | 基于mll和asca-fr的图像字幕生成方法 |
-
2019
- 2019-05-27 CN CN201910443476.5A patent/CN110135567A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180373979A1 (en) * | 2017-06-22 | 2018-12-27 | Adobe Systems Incorporated | Image captioning utilizing semantic text modeling and adversarial learning |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109711465A (zh) * | 2018-12-26 | 2019-05-03 | 西安电子科技大学 | 基于mll和asca-fr的图像字幕生成方法 |
Non-Patent Citations (1)
Title |
---|
SHIYANG YAN ET AL.: "Image Captioning using Adversarial Networks and Reinforcement Learning", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619313A (zh) * | 2019-09-20 | 2019-12-27 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN110619313B (zh) * | 2019-09-20 | 2023-09-12 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN110929640A (zh) * | 2019-11-20 | 2020-03-27 | 西安电子科技大学 | 一种基于目标检测的宽幅遥感描述生成方法 |
CN110929640B (zh) * | 2019-11-20 | 2023-04-07 | 西安电子科技大学 | 一种基于目标检测的宽幅遥感描述生成方法 |
CN111079805A (zh) * | 2019-12-03 | 2020-04-28 | 浙江工业大学 | 一种结合注意力机制及信息熵最小化的异常图像检测方法 |
CN111445484A (zh) * | 2020-04-01 | 2020-07-24 | 华中科技大学 | 一种基于图像级标注的工业图像异常区域像素级分割方法 |
CN111563367A (zh) * | 2020-05-06 | 2020-08-21 | 首都师范大学 | 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质 |
CN111639547A (zh) * | 2020-05-11 | 2020-09-08 | 山东大学 | 基于生成对抗网络的视频描述方法及系统 |
CN111738940A (zh) * | 2020-06-02 | 2020-10-02 | 大连理工大学 | 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法 |
CN112084841B (zh) * | 2020-07-27 | 2023-08-04 | 齐鲁工业大学 | 跨模态的图像多风格字幕生成方法及系统 |
CN112084841A (zh) * | 2020-07-27 | 2020-12-15 | 齐鲁工业大学 | 跨模态的图像多风格字幕生成方法及系统 |
CN112069397B (zh) * | 2020-08-21 | 2023-08-04 | 三峡大学 | 自注意力机制与生成对抗网络相结合的谣言检测方法 |
CN112069397A (zh) * | 2020-08-21 | 2020-12-11 | 三峡大学 | 自注意力机制与生成对抗网络相结合的谣言检测方法 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112215017B (zh) * | 2020-10-22 | 2022-04-29 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN114422859A (zh) * | 2020-10-28 | 2022-04-29 | 贵州省广播电视信息网络股份有限公司 | 基于深度学习的有线电视运营商的排序推荐系统及方法 |
CN114422859B (zh) * | 2020-10-28 | 2024-01-30 | 贵州省广播电视信息网络股份有限公司 | 基于深度学习的有线电视运营商的排序推荐系统及方法 |
CN113052090B (zh) * | 2021-03-30 | 2024-03-05 | 京东科技控股股份有限公司 | 用于生成字幕器以及输出字幕的方法和装置 |
CN113052090A (zh) * | 2021-03-30 | 2021-06-29 | 京东数字科技控股股份有限公司 | 用于生成字幕器以及输出字幕的方法和装置 |
CN113706388A (zh) * | 2021-09-24 | 2021-11-26 | 上海壁仞智能科技有限公司 | 图像超分辨率重建方法及装置 |
CN113918754A (zh) * | 2021-11-01 | 2022-01-11 | 中国石油大学(华东) | 基于场景图更新与特征拼接的图像字幕生成方法 |
CN114239725B (zh) * | 2021-12-17 | 2023-04-21 | 四川大学 | 一种面向数据投毒攻击的窃电检测方法 |
CN114239725A (zh) * | 2021-12-17 | 2022-03-25 | 四川大学 | 一种面向数据投毒攻击的窃电检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135567A (zh) | 基于多注意力生成对抗网络的图像字幕生成方法 | |
Chen et al. | Motion guided spatial attention for video captioning | |
Vu et al. | Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation | |
Liang et al. | Transcrowd: weakly-supervised crowd counting with transformers | |
Tian et al. | Cctrans: Simplifying and improving crowd counting with transformer | |
Yu et al. | End-to-end concept word detection for video captioning, retrieval, and question answering | |
CN110458216A (zh) | 基于条件生成对抗网络的图像风格迁移方法 | |
CN111666919B (zh) | 一种对象识别方法、装置、计算机设备和存储介质 | |
CN110210335A (zh) | 一种行人重识别学习模型的训练方法、系统和装置 | |
CN110413838A (zh) | 一种无监督视频摘要模型及其建立方法 | |
Cai et al. | Deep historical long short-term memory network for action recognition | |
CN109492627A (zh) | 一种基于全卷积网络的深度模型的场景文本擦除方法 | |
Guo et al. | Self-supervised GANs with similarity loss for remote sensing image scene classification | |
CN108389239A (zh) | 一种基于条件多模式网络的微笑脸部视频生成方法 | |
Zhang et al. | Semi-supervised action quality assessment with self-supervised segment feature recovery | |
Lu et al. | Dynamic weighted cross entropy for semantic segmentation with extremely imbalanced data | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
Zhao et al. | Best: Bert pre-training for sign language recognition with coupling tokenization | |
Zhu et al. | An adaptive post-processing network with the global-local aggregation for semantic segmentation | |
CN108573197A (zh) | 视频动作检测方法及装置 | |
Fu et al. | Cooperative attention generative adversarial network for unsupervised domain adaptation | |
CN110738099B (zh) | 一种基于自适应双分支网络的低分辨率行人再识别方法 | |
Zhang et al. | Learning time-aware features for action quality assessment | |
CN116148864A (zh) | 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法 | |
Liu et al. | Improving Image Paragraph Captioning with Dual Relations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240112 |
|
AD01 | Patent right deemed abandoned |