CN110135567A - 基于多注意力生成对抗网络的图像字幕生成方法 - Google Patents

基于多注意力生成对抗网络的图像字幕生成方法 Download PDF

Info

Publication number
CN110135567A
CN110135567A CN201910443476.5A CN201910443476A CN110135567A CN 110135567 A CN110135567 A CN 110135567A CN 201910443476 A CN201910443476 A CN 201910443476A CN 110135567 A CN110135567 A CN 110135567A
Authority
CN
China
Prior art keywords
attention
shot
long term
term memory
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910443476.5A
Other languages
English (en)
Inventor
曹海文
魏燚伟
吴春雷
王雷全
邵明文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910443476.5A priority Critical patent/CN110135567A/zh
Publication of CN110135567A publication Critical patent/CN110135567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Abstract

本发明公开了基于多注意力生成对抗网络的图像字幕生成方法,它属于图像字幕生成技术领域,解决了基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部点,而没有捕捉到全局信息的问题。本发明首次提出了基于局部和全局信息的多注意力机制用于图像字幕生成,并在此基础上,提出了多注意力生成对抗图像字幕生成网络,它包括多注意力生成器和判别器。多注意力生成器用于生成更精确的句子,多注意力判别器用于判断生成的句子是人工描述还是机器生成的。本发明在MSCOCO基准数据集上对所提出的框架进行了大量的实验验证,并通过MSCOCO字幕挑战评价服务器的评估,取得了非常有竞争力的评价结果。

Description

基于多注意力生成对抗网络的图像字幕生成方法
技术领域
本发明涉及计算机视觉和自然语言处理的技术领域,特别是涉及到基于多注意力生成对抗网络的图像字幕生成方法。
背景技术
图像字幕生成技术的目标是生成给定图像的人性化的描述语句。图像字幕生成技术在学术界掀起了一股研究热潮,它被广泛应用于视频检索和婴幼儿教育等领域。不同于其他的计算机视觉任务(图像分类、目标检测等),训练有效的图像字幕模型更具有挑战性,因为它需要全面理解图像中基本实体及其关系。传统的图像字幕生成模型采用编码器-解码器框架作为核心,它利用基于卷积神经网络的编码器将像素级的信息编码成密集维度的图像信息,而解码器被用于将这些高维信息翻译成自然语言。与先前的方法相比,基于编码器-解码器的图像字幕生成方法在基准数据集上取得了较好的效果。最近,卷积神经网络特征图上的空间注意力机制被应用到图像字幕生成方法中,注意力机制通常会生成一个空间图,从而显示出图像区域与每个生成词之间的对应关系。然而,大多数现有的编码器-解码器图像字幕生成模型利用交叉熵最小化进行训练,这通常会导致曝光偏差问题。
为了解决曝光偏差问题,最近的研究建议将强化学习技术应用到传统的图像字幕生成技术中。在大多数基于强化学习的模型中,生成句子的度量分数作为奖励信号,并且直接将此奖励信号最大化。自我批评序列训练(SCST)利用传统的强化学习算法进行图像字幕生成,它在测试时以贪婪编码算法作为基线函数,对当前模型的奖励进行标准化。然而,基于强化学习的方法还不够全面,因为它们只考虑评价指标的得分,而对生成句子的多样性有所欠缺。
为了解决生成句子缺乏多样性的问题,R.Shetty以及A.Vaswani等人提出了利用条件生成对抗网络生成图像字幕。这些方法在生成多样性和自然性句子方面取得了巨大的成功,并且其生成器和判别器将低级卷积特征作为视觉输入。然而,由于卷积神经网络中的层具有接收域,低层的卷积特征只能构建局部(简单结构)对象,而全局(复杂结构)对象很难区别,这种问题被称为“建模长期依赖性”问题。自注意力机制能够有效的建立长期依赖关系模型,并提高计算和统计效率。然而,自注意力机制存在缺乏捕捉与时间维度相关联的局部信息的问题。
为了解决以上问题,本发明首先提出了一种基于自注意力模块的多注意力机制,并利用时间信息捕捉更多的局部信息。在此基础上,本发明提出了基于多注意力生成对抗网络的图像字幕生成方法。
发明内容
本发明的目的是为了解决基于生成对抗网络的图像字幕生成方法中提取的特征只包含局部条件,而缺乏捕捉全局信息的问题。
本发明为解决上述技术问题采取的技术方案是:
S1.构建多注意力机制模块。
S2.结合S1的多注意力机制模块,构建多注意力生成器模型。
S3.结合S1的多注意力机制模块,构建多注意力判别器模型。
S4.结合S2和S3中的多注意力生成器以及判别器,构建多注意力生成对抗网络架构。
S5.多注意力生成对抗网络的训练。
其中,所述的多注意力机制模块包括一个全局注意力模块和一个局部注意力模块:
(1)全局注意力模块:
全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:
其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:
其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。
(2)局部注意力模块:
局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t
αt=softmax(at) (4)
其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:
基于全局和局部注意力模块的输入,多注意力模块的最终输出为:
其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.
进一步地,所述的多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:
ht=(xt,ht-1) (7)
其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。
(1)注意力长短期记忆网络:
在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:
其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:
最后,将注意力长短期记忆网络的输出特征应用于多注意力层:
其中,是施加注意力图像特征。
(2)语言长短期记忆网络:
在语言长短期记忆网络中,本发明首先构建了包括施加注意力图像特征的输入向量,并且与注意力长短期记忆网络的输出相连接:
然后将输入到语言长短期记忆网络中:
最后,给出真实句子y1:T,并使用softmax函数得到词汇表中单词的概率分布:
其中,Wg和bg是可学习的矩阵。
进一步地,所述的多注意力判别器基于序列循环神经网络,由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先,给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中:
随后,长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成,公式如下:
其中,Wd∈RE×∑是词汇表∑中的单词嵌入矩阵,wt(t∈1,2,...,T)是在t时刻输入词的独热编码向量。然后,这个长短期记忆网络的数学表达公式为:
最后有一个全连接层和softmax层,给定的句子是图像的真实描述的概率可以计算为:
其中,WK∈R2*k,bK∈Rk,k代表了特向特征的卷积核个数。
进一步地,所述的多注意力生成对抗网络包含两个多注意力生成器(交叉熵-生成器和强化学习-生成器)和一个多注意力判别器,其中交叉熵-生成器和强化学习-生成器都是多注意力生成器,其结构相同,但是有不同的训练策略。
最后,所述的多注意力生成对抗网络的训练训练方法如下:
(1)交叉熵-生成器:
在交叉熵-生成器中,它的训练目标是通过最小化交叉熵损失来学习模型参数:
其中,是真实生成的句子,θ是模型参数。
(2)强化学习-生成器:
在强化学习-生成器中,本发明对CIDEr进行了优化,并初始化强化学习-生成器模型,其损失函数为:
其中,是采样描述,通过贪婪编码当前模型获得的基准分数。
(3)多注意力判别器:
多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假,并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数
其中v是真实图像特征,x1:T是生成的图像描述,是真实的图像描述。
与现有的技术相比,本发明的有益效果是:
1.本发明提出了一种基于全局和局部条件的多注意力机制,使图像描述中的特征表达和推理更有效。
2.本发明提出了多注意力生成对抗网络的图像字幕框架,该框架包括多注意力生成器和多注意力判别器。它不仅可以对长期依赖关系进行建模,而且可以更加准确地区分机器生成的句子和人工描述的句子。
附图说明
图1为多注意力生成对抗网络结构示意图。
图2为多注意力机制网络结构示意图。
图3为多注意力生成器模型结构示意图。
图4为多注意力判别器模型结构示意图。
图5为多注意力对抗生成网络算法结构图。
图6为多注意力对抗生成网络生成的字幕与自上而下方法生成的字幕和真实字幕的对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施例对本发明做进一步的阐述。
图1为多注意力生成对抗网络结构示意图。如图1所示,多注意力生成对抗网络包括两个多注意力生成器(XE-Generator,RL-Generator)和一个多注意力判别器,其中交叉熵-生成器(XE-Generator)和强化学习-生成器(RL-Generator)都是多注意力生成器,结构相同,但是训练策略不同,并且两种训练策略都是基于所提出的多注意力生成器结构进行训练的。
图2为多注意力机制网络结构示意图。如图2所示,图的顶部是全局注意力模块,底部是局部注意力模块。
(1)全局注意力模块:
全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:
其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:
其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。
(2)局部注意力模块:
局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t
αt=softmax(at) (4)
其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:
基于全局和局部注意力模块的输入,多注意力模块的最终输出为:
其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.
图3为多注意力生成器模型结构示意图。如图3所示,多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:
ht=(xt,ht-1) (7)
其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。
(1)注意力长短期记忆网络:
在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:
其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:
最后,将注意力长短期记忆网络的输出特征应用于多注意力层:
其中,是施加注意力图像特征。
(2)语言长短期记忆网络:
在语言长短期记忆网络中,本发明首先构建了包括施加注意力图像特征的输入向量,并且与注意力长短期记忆网络的输出相连接:
然后将输入到语言长短期记忆网络中:
最后,给出真实句子y1:T,并使用softmax函数得到词汇表中单词的概率分布:
其中,Wg和bg是可学习的矩阵。
图4为多注意力判别器模型结构示意图。如图4所示,多注意力判别器基于序列循环神经网络,由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先,给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中:
随后,长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成,公式如下:
其中,Wd∈RE×∑是词汇表∑中的单词嵌入矩阵,wt(t∈1,2,...,T)是在t时刻输入词的独热编码向量。然后,这个长短期记忆网络的数学表达公式为:
最后有一个全连接层和softmax层,给定的句子是图像的真实描述的概率可以计算为:
其中,WK∈R2*k,bK∈Rk,k代表了特向特征的卷积核个数。
图5为多注意力对抗生成网络算法结构图。如图5所示,算法1详细的描述了本发明提出的多注意力生成对抗网络的字幕生成框架,本发明根据标准的生成对抗网络训练过程对交叉熵-生成器和强化学习-生成器以及其对应的判别器进行了微调。其具体的训练过程为:
(1)交叉熵-生成器:
在交叉熵-生成器中,它的训练目标是通过最小化交叉熵损失来学习模型参数:
其中,是真实生成的句子,θ是模型参数。
(2)强化学习-生成器:
在强化学习-生成器中,本发明对CIDEr进行了优化,并初始化强化学习-生成器模型,其损失函数为:
其中,是采样描述,通过贪婪编码当前模型获得的基准分数。
(3)多注意力判别器:
多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假,并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数
其中v是真实图像特征,x1:T是生成的图像描述,是真实的图像描述。
图6为多注意力生成对抗网络生成的字幕与自上而下方法生成的字幕和真实字幕的对比图。如图6所示,多注意力生成对抗网络生成的句子要比自上而下模型更加准确以及人性化。
实验结果如下表所示:
在这项工作中,本发明提出了一种基于自注意力模块的多注意力机制,并在此基础上提出了基于多注意力的生成器和判别器,即基于多注意力生成对抗网络的图像字幕生成方法。多注意力生成器采用了编码器-解码器框架,并包含三个阶段(编码、融合和解码)。本发明将多注意力机制应用到融合阶段,在不增加卷积核大小的情况下,构建了长期依赖关系模型。同时,多注意力判别器也是一个具有多注意力机制的编码器一解码器架构。从而使得生成的图像字幕表达准确流畅,能够很好的反应图像中的内容。
最后,本发明的上述实施例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述方法包括以下步骤:
S1.构建多注意力机制模块。
S2.结合S1的多注意力机制模块,构建多注意力生成器模型。
S3.结合S1的多注意力机制模块,构建多注意力判别器模型。
S4.结合S2和S3中的多注意力生成器以及判别器,构建多注意力生成对抗网络架构。
S5.多注意力生成对抗网络的训练。
2.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S1的具体过程为:
多注意力机制模块包括一个全局注意力模块和一个局部注意力模块:
(1)全局注意力模块:
全局注意力由局部注意力派生而来,首先要提取输入图片的特征v∈RH×L嵌入到两个新的特征空间(f,g)中计算全局注意力的权重:
其中,f(v)=Wfv,g(v)=Wgv,β表示第kj区域的全局注意力权重,因此全局注意力模块的输出为:
其中,Wf∈RH/4×H,Wg∈RH/4×H,Wh∈RH×H是从1*1卷积层中学习到的权重矩阵。
(2)局部注意力模块:
局部注意力模块由空间注意力机制派生而来,给定LSTM网络中在t时刻的反馈信息(h(t)),可以得到每个图像特征vi的局部注意力权重αi,t
αt=soffmax(at)(4)
其中,Wva∈RV×H,Wha∈RV×M以及Wa∈RV都是学习参数,因此,局部注意力模块的输出为:
基于全局和局部注意力模块的输入,多注意力模块的最终输出为:
其中是全局注意力模块输出进行平均池化的结果,λ是一个可学习的参数,并且λ初始化为0.
3.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S2的具体过程为:
多注意力生成器采用了编码器-解码器架构,其中编码器被用于获取图像特征,解码器将编码特征转化为描述语句。多注意力生成器模型类似于自上而下的方法,它包括了两种不同的长短期记忆网络(LSTM):注意力长短期记忆网络和语言长短期记忆网络。LSTM在单一时间步长的条件下的公式为:
ht=(xt,ht-1) (7)
其中,xt是长短期记忆网络的输入向量,ht是长短期记忆网络的输出向量。
(1)注意力长短期记忆网络:
在注意力长短期记忆网络中在每个时刻的输入向量是由语言长短期记忆网络中的最后一个隐状态、图像特征的平均池化结果以及先前嵌入的生成单词串联而成的:
其中,wt是输入单词在t时间步骤时的独热向量,We∈RV×∑代表了从没有预训练就随机初始化中学习的一个单词嵌入矩阵。然后我们将输入向量输入到注意力长短期记忆网络中,如下:
最后,将注意力长短期记忆网络的输出特征应用于多注意力层:
其中,是施加注意力图像特征。
(2)语言长短期记忆网络:
在语言长短期记忆网络中,本发明首先构建了包括施加注意力图像特征的输入向量,并且与注意力长短期记忆网络的输出相连接:
然后将输入到语言长短期记忆网络中:
最后,给出真实句子y1:T,并使用softmax函数得到词汇表中单词的概率分布:
其中,Wg和bg是可学习的矩阵。
4.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S3的具体过程为:
多注意力判别器基于序列循环神经网络,由标准的长短期记忆网络、一个全连接层、一个softmax输出层以及一个多注意力层组成。本发明提出的多注意力判别器的输入为图像特征v和之前嵌入生成的句子。首先,给定图像特征v和长短期记忆网络的隐状态并将它们输入到多注意力层中:
随后,长短期记忆网络在每个时刻的输入向量由施加注意力特征和先前生成词的编码特征组成,公式如下:
其中,Wd∈RE×∑是词汇表∑中的单词嵌入矩阵,wt(t∈1,2,...,T)是在t时刻输入词的独热编码向量。然后,这个长短期记忆网络的数学表达公式为:
最后有一个全连接层和softmax层,给定的句子是图像的真实描述的概率可以计算为:
其中,WK∈R2*k,bK∈Rk,k代表了特向特征的卷积核个数。
5.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S4的具体过程为:
多注意力生成对抗网络包含两个多注意力生成器(交叉熵-生成器和强化学习-生成器)和一个多注意力判别器,其中交叉熵-生成器和强化学习-生成器都是多注意力生成器,其结构相同,但是有不同的训练策略。
6.根据权利要求1所述的基于多注意力生成对抗网络的图像字幕生成方法,其特征在于,所述S5的具体过程为:
多注意力生成对抗网络的训练训练方法如下:
(1)交叉熵-生成器:
在交叉熵-生成器中,它的训练目标是通过最小化交叉熵损失来学习模型参数:
其中,是真实生成的句子,θ是模型参数。
(2)强化学习-生成器:
在强化学习-生成器中,本发明对CIDEr进行了优化,并初始化强化学习-生成器模型,其损失函数为:
其中,是采样描述,通过贪婪编码当前模型获得的基准分数。
(3)多注意力判别器:
多注意力判别器采用条件生成对抗网络判别器的训练方式来判断目标对象(图像、描述)的真假,并且同时应用于交叉熵-生成器和强化学习-生成器。将最大化判别器的损失函数来学习模型参数
其中v是真实图像特征,x1:T是生成的图像描述,是真实的图像描述。
CN201910443476.5A 2019-05-27 2019-05-27 基于多注意力生成对抗网络的图像字幕生成方法 Pending CN110135567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910443476.5A CN110135567A (zh) 2019-05-27 2019-05-27 基于多注意力生成对抗网络的图像字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910443476.5A CN110135567A (zh) 2019-05-27 2019-05-27 基于多注意力生成对抗网络的图像字幕生成方法

Publications (1)

Publication Number Publication Date
CN110135567A true CN110135567A (zh) 2019-08-16

Family

ID=67581784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910443476.5A Pending CN110135567A (zh) 2019-05-27 2019-05-27 基于多注意力生成对抗网络的图像字幕生成方法

Country Status (1)

Country Link
CN (1) CN110135567A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619313A (zh) * 2019-09-20 2019-12-27 西安电子科技大学 遥感图像判别性描述生成方法
CN110929640A (zh) * 2019-11-20 2020-03-27 西安电子科技大学 一种基于目标检测的宽幅遥感描述生成方法
CN111079805A (zh) * 2019-12-03 2020-04-28 浙江工业大学 一种结合注意力机制及信息熵最小化的异常图像检测方法
CN111445484A (zh) * 2020-04-01 2020-07-24 华中科技大学 一种基于图像级标注的工业图像异常区域像素级分割方法
CN111563367A (zh) * 2020-05-06 2020-08-21 首都师范大学 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质
CN111639547A (zh) * 2020-05-11 2020-09-08 山东大学 基于生成对抗网络的视频描述方法及系统
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112084841A (zh) * 2020-07-27 2020-12-15 齐鲁工业大学 跨模态的图像多风格字幕生成方法及系统
CN112116685A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113706388A (zh) * 2021-09-24 2021-11-26 上海壁仞智能科技有限公司 图像超分辨率重建方法及装置
CN113918754A (zh) * 2021-11-01 2022-01-11 中国石油大学(华东) 基于场景图更新与特征拼接的图像字幕生成方法
CN114239725A (zh) * 2021-12-17 2022-03-25 四川大学 一种面向数据投毒攻击的窃电检测方法
CN114422859A (zh) * 2020-10-28 2022-04-29 贵州省广播电视信息网络股份有限公司 基于深度学习的有线电视运营商的排序推荐系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN109711465A (zh) * 2018-12-26 2019-05-03 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN109711465A (zh) * 2018-12-26 2019-05-03 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIYANG YAN ET AL.: "Image Captioning using Adversarial Networks and Reinforcement Learning", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619313A (zh) * 2019-09-20 2019-12-27 西安电子科技大学 遥感图像判别性描述生成方法
CN110619313B (zh) * 2019-09-20 2023-09-12 西安电子科技大学 遥感图像判别性描述生成方法
CN110929640A (zh) * 2019-11-20 2020-03-27 西安电子科技大学 一种基于目标检测的宽幅遥感描述生成方法
CN110929640B (zh) * 2019-11-20 2023-04-07 西安电子科技大学 一种基于目标检测的宽幅遥感描述生成方法
CN111079805A (zh) * 2019-12-03 2020-04-28 浙江工业大学 一种结合注意力机制及信息熵最小化的异常图像检测方法
CN111445484A (zh) * 2020-04-01 2020-07-24 华中科技大学 一种基于图像级标注的工业图像异常区域像素级分割方法
CN111563367A (zh) * 2020-05-06 2020-08-21 首都师范大学 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质
CN111639547A (zh) * 2020-05-11 2020-09-08 山东大学 基于生成对抗网络的视频描述方法及系统
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN112084841B (zh) * 2020-07-27 2023-08-04 齐鲁工业大学 跨模态的图像多风格字幕生成方法及系统
CN112084841A (zh) * 2020-07-27 2020-12-15 齐鲁工业大学 跨模态的图像多风格字幕生成方法及系统
CN112069397B (zh) * 2020-08-21 2023-08-04 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112116685A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112215017B (zh) * 2020-10-22 2022-04-29 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN114422859A (zh) * 2020-10-28 2022-04-29 贵州省广播电视信息网络股份有限公司 基于深度学习的有线电视运营商的排序推荐系统及方法
CN114422859B (zh) * 2020-10-28 2024-01-30 贵州省广播电视信息网络股份有限公司 基于深度学习的有线电视运营商的排序推荐系统及方法
CN113052090B (zh) * 2021-03-30 2024-03-05 京东科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113706388A (zh) * 2021-09-24 2021-11-26 上海壁仞智能科技有限公司 图像超分辨率重建方法及装置
CN113918754A (zh) * 2021-11-01 2022-01-11 中国石油大学(华东) 基于场景图更新与特征拼接的图像字幕生成方法
CN114239725B (zh) * 2021-12-17 2023-04-21 四川大学 一种面向数据投毒攻击的窃电检测方法
CN114239725A (zh) * 2021-12-17 2022-03-25 四川大学 一种面向数据投毒攻击的窃电检测方法

Similar Documents

Publication Publication Date Title
CN110135567A (zh) 基于多注意力生成对抗网络的图像字幕生成方法
Chen et al. Motion guided spatial attention for video captioning
Vu et al. Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation
Liang et al. Transcrowd: weakly-supervised crowd counting with transformers
Tian et al. Cctrans: Simplifying and improving crowd counting with transformer
Yu et al. End-to-end concept word detection for video captioning, retrieval, and question answering
CN110458216A (zh) 基于条件生成对抗网络的图像风格迁移方法
CN111666919B (zh) 一种对象识别方法、装置、计算机设备和存储介质
CN110210335A (zh) 一种行人重识别学习模型的训练方法、系统和装置
CN110413838A (zh) 一种无监督视频摘要模型及其建立方法
Cai et al. Deep historical long short-term memory network for action recognition
CN109492627A (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
Guo et al. Self-supervised GANs with similarity loss for remote sensing image scene classification
CN108389239A (zh) 一种基于条件多模式网络的微笑脸部视频生成方法
Zhang et al. Semi-supervised action quality assessment with self-supervised segment feature recovery
Lu et al. Dynamic weighted cross entropy for semantic segmentation with extremely imbalanced data
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
Zhao et al. Best: Bert pre-training for sign language recognition with coupling tokenization
Zhu et al. An adaptive post-processing network with the global-local aggregation for semantic segmentation
CN108573197A (zh) 视频动作检测方法及装置
Fu et al. Cooperative attention generative adversarial network for unsupervised domain adaptation
CN110738099B (zh) 一种基于自适应双分支网络的低分辨率行人再识别方法
Zhang et al. Learning time-aware features for action quality assessment
CN116148864A (zh) 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法
Liu et al. Improving Image Paragraph Captioning with Dual Relations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240112

AD01 Patent right deemed abandoned