CN108960338A - 基于注意力反馈机制的图像自动语句标注方法 - Google Patents

基于注意力反馈机制的图像自动语句标注方法 Download PDF

Info

Publication number
CN108960338A
CN108960338A CN201810792426.3A CN201810792426A CN108960338A CN 108960338 A CN108960338 A CN 108960338A CN 201810792426 A CN201810792426 A CN 201810792426A CN 108960338 A CN108960338 A CN 108960338A
Authority
CN
China
Prior art keywords
attention
image
text
sentence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810792426.3A
Other languages
English (en)
Other versions
CN108960338B (zh
Inventor
胡伏原
吕凡
李林燕
付保川
吴征天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN201810792426.3A priority Critical patent/CN108960338B/zh
Publication of CN108960338A publication Critical patent/CN108960338A/zh
Application granted granted Critical
Publication of CN108960338B publication Critical patent/CN108960338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明涉及一种基于注意力反馈机制的图像自动语句标注方法,包括:构建输入数据,给定一系列的图像χ={x1,x2,...,xN}作为训练集,其中N是样本数量;图像xi对应的语句表述为si={si,1,si,2,...,si,T},T代表句子Si的长度;构建CNN‑RNN模型,进行正向文本成:从生成的文本中提取关键词注意力反向矫正图像注意力:利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题,采用反馈式CNN‑RNN结构,利用反馈机制将生文本中的关键信息反向传给图像,将有利于在提取图像特征的过程中,更加关注文本中的信息所对应的显著目标,从而有利于使得图像关键信息和文本关键信息更加匹配。

Description

基于注意力反馈机制的图像自动语句标注方法
技术领域
本发明涉及图像自动语句标注,特别是涉及基于注意力反馈机制的图像自动语句标注方法。
背景技术
一直以来,很多研究者希望能够得到图像关注域上更多的反馈指导以便更加准确地生成标注语句,所以提出了注意力机制。基于注意力机制的图像自动语句标注分为两类,分别是基于全图的注意力机制和基于显著目标的注意力机制。Xu等人提出一种soft的注意力模型和一种hard的注意力模型,利用循环神经网络记录语句中的信息,并计算图像中的关注点来指导接下来的单词预测。You等人在Xu等人的研究基础上,提出利用一系列的属性检测来获得视觉的属性特征标签,然后将其融入循环神经网络的hidden state中。但是,这种注意力机制在图像中能反应的仅有关键词的区域,对于一些修饰语的区域无法定位,使得图像注意力分散并导致生成语句错乱。因此提出注意力反馈机制研究能够更好地解决这些问题的方法。
传统技术存在以下技术问题:
传统的图像自动语句标注在生成图像文本的过程中很容易出现注意力的区分,在对图像进行特征提取时,很容易为了关注前景而忽视背景的重要性,导致文本中修饰语出现错误或者信息缺失。而后来提出的的注意力机制在分析处理图像时,仅仅关注一个或几个特定区域,并不能关注和目标相关的修饰区域,这就造成了注意力分散和生成语句错乱的问题,影响了结果的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种基于注意力反馈机制的图像自动语句标注方法,能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题,采用反馈式CNN-RNN结构,利用反馈机制将生文本中的关键信息反向传给图像,将有利于在提取图像特征的过程中,更加关注文本中的信息所对应的显著目标,从而有利于使得图像关键信息和文本关键信息更加匹配。
一种基于注意力反馈机制的图像自动语句标注方法,包括:
构建输入数据,给定一系列的图像x={x1,x2,...,xN}作为训练集,其中N是样本数量;图像xi对应的语句表述为Si={si,1,si,2,...,si,T},T代表句子Si的长度;
构建CNN-RNN模型,进行正向文本成;
从生成的文本中提取关键词注意力反向矫正图像注意力;
利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。
在另外的一个实施例中,输入数据为RGB三通道图像,缩放为预定大小。
在另外的一个实施例中,所述预定大小是256*256。
在另外的一个实施例中,“构建CNN-RNN模型,进行正向文本成;”具体包括:
采用VGG-16模型,从第二个全连接层提取长度为4096的图像特征fconv={a1,a2,...,aL}
利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:
gt=tanh(Wxcyt+Whcht-1+Wzczt+bc), (2)
it=σ(Wxiyt+Whiht-1+Wzizt+bi), (3)
ft=σ(Wxfyt+Whfht-1+Wzfzt+bf), (4)
ot=σ(Wxoyt+Whoht-1+Wzozt+bo), (5)
ct=ft⊙ct-1+it⊙gt, (6)
ht=ot⊙tanh(ct), (7)
si,t+1=softmax(Whht+bh), (8)
计算t步骤的时候图像中的注意力αt={αt,1,αt,2,...,αt,L}的第i个元素可由下式计算得出:
计算αt中每一个元素的能量大小et={et,1,et,2,...,et,L};g(·)代表一个简单的多层感知机(Multi-Layer Perception,MLP):
et={et,1,et,2,...,et,L}
计算基于文本内容的注意力的图像关注特征zt,带入“利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:”中计算
利用包含关注信息的图像特征来初始化模型,包括初始化图像中的关注区域和初始化LSTM;
初始化图像中的关注区域需对每个区域进行注意力均匀初始化:
其中1代表第一个循环;利用初始化的注意力,对从图像中提取的特征fconv进行加权可得:
在每一次循环中利用加了关注的图像特征,可以初始化LSTM的记忆单元c和隐藏状态h:
经由正向文本生成过程,LSTM的每一步都将产生一个单词,生成句子。
在另外的一个实施例中,“从生成的文本中提取关键词注意力反向矫正图像注意力;”具体包括:
在文本上的注意力β={β1,β2,...,βT},在βt上的注意力计算如下
模型从生成文本中提取出文本上的关注特征,该特征包含了对每个单词的重要性分析,对模型认为是关键词的单词加大权重,反之减小权重。
在另外的一个实施例中,“利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。”
利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本
的联合关注特征:
H=Whaai+Whrr+bh, (18)
重新计算图像中的注意力可得:
λk=softmax(tanh(H)) (19)
利用公式(13),更新关注特征利用该信息在下一个循环中初始化LSTM以指导文本的生成。
上述基于注意力反馈机制的图像自动语句标注,能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题,采用反馈式CNN-RNN结构,利用反馈机制将生文本中的关键信息反向传给图像,将有利于在提取图像特征的过程中,更加关注文本中的信息所对应的显著目标,从而有利于使得图像关键信息和文本关键信息更加匹配。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
图1为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的关注区域和文本中的关键字可视化的示意图。
图2为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的基于注意力反馈机制的图像自动语句标注模型的示意图。
图3为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的文本的生成与反馈的示意图。
图4为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的图像关注区域的示意图。
图5为本申请实施例提供的一种基于注意力反馈机制的图像自动语句标注方法的中的图像中的关注区域更新的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于注意力机制的图像自动语句标注分为两类,分别是基于全图的注意力机制和基于显著目标的注意力机制。基于全图的注意力机制中,将图像整体作为输入,寻找图像中的关注区域。基于显著目标的注意力机制中,利用目标检测方法提取图像中的目标,重点关注该目标以生成对应的文本。基于全图的注意力机制直接利用全图信息指导文本的生成,预测的关注区域的准确性无法保证。基于显著目标的注意力机制虽然利用了局部信息来指导生成语句,但是目标提取的算法提高了运算成本。
上述两种方法都会对语句进行按单词顺序解析,在生成每一个单词的时候估计图像上的关注区域(和预测单词最相关的图像子区域),此信息被用来指导单词的预测。该过程是一个单向传播的操作,一直持续至生成一个完整的句子。这类方法存在注意力分散问题和生成的语句错乱问题。该过程中,注意力机制在图像中能反应的仅有关键词的区域,对于一些修饰语的区域无法定位,使得图像中的注意力极易发散(无法找到单词对应的确切物体所在区域),生成的语句产生错乱。
参阅图1到图5,一种基于注意力反馈机制的图像自动语句标注方法,包括:
构建输入数据,给定一系列的图像χ={x1,x2,...,xN}作为训练集,其中N是样本数量;图像xi对应的语句表述为Si={si,1,si,2,...,si,T},T代表句子Si的长度;
构建CNN-RNN模型,进行正向文本成;
从生成的文本中提取关键词注意力反向矫正图像注意力;
利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。
在另外的一个实施例中,输入数据为RGB三通道图像,缩放为预定大小。
在另外的一个实施例中,所述预定大小是256*256。
在另外的一个实施例中,“构建CNN-RNN模型,进行正向文本成;”具体包括:
采用VGG-16模型,从第二个全连接层提取长度为4096的图像特征fconv={a1,a2,...,aL}
利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:
gt=tanh(Wxcyt+Whcht-1+Wzczt+bc), (2)
it=σ(Wxtyt+Whiht-1+Wzizt+bi), (3)
ft=σ(Wxfyt+Whfht-1+Wzfzt+bf), (4)
ot=σ(Wxoyt+Whoht-1+Wzozt+bo), (5)
ct=ft⊙ct-1+it⊙gt, (6)
ht=ot⊙tanh(ct), (7)
si,t+1=softmax(Whht+bh), (8)
计算t步骤的时候图像中的注意力αt={αt,1,αt,2,...,αt,L}的第i个元素可由下式计算得出:
计算αt中每一个元素的能量大小et={et,1,et,2,...,et,L};g(·)代表一个简单的多层感知机(Multi-Layer Perception,MLP):
et={et,1,et,2,...,et,L}
计算基于文本内容的注意力的图像关注特征zt,带入“利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:”中计算
利用包含关注信息的图像特征来初始化模型,包括初始化图像中的关注区域和初始化LSTM;
初始化图像中的关注区域需对每个区域进行注意力均匀初始化:
其中1代表第一个循环;利用初始化的注意力,对从图像中提取的特征fconv进行加权可得:
在每一次循环中利用加了关注的图像特征,可以初始化LSTM的记忆单元c和隐藏状态h:
经由正向文本生成过程,LSTM的每一步都将产生一个单词,生成句子。
在另外的一个实施例中,“从生成的文本中提取关键词注意力反向矫正图像注意力;”具体包括:
在文本上的注意力β={β1,β2,...,βT},在βt上的注意力计算如下
模型从生成文本中提取出文本上的关注特征,该特征包含了对每个单词的重要性分析,对模型认为是关键词的单词加大权重,反之减小权重。
在另外的一个实施例中,“利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。”
利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本
的联合关注特征:
H=Whaai+Whrr+bh, (18)
重新计算图像中的注意力可得:
λk=softmax(tanh(H)) (19)
利用公式(13),更新关注特征利用该信息在下一个循环中初始化LSTM以指导文本的生成。
上述基于注意力反馈机制的图像自动语句标注,能够解决注意力机制在图像自动语句标注过程中的注意力分散问题及生成语句错乱的问题,采用反馈式CNN-RNN结构,利用反馈机制将生文本中的关键信息反向传给图像,将有利于在提取图像特征的过程中,更加关注文本中的信息所对应的显著目标,从而有利于使得图像关键信息和文本关键信息更加匹配。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
下面介绍本发明的一个具体应用场景:
基于注意力反馈的图像自动语句标注方法分为训练和测试两部分。训练时,给定一系列的图像x={x1,x2,...,xN}作为训练集,其中N是样本数量。图像xi对应的语句表述为Si={si,1,si,2,...,si,T},T代表句子Si的长度。训练过程的主要目标是让构建的模型学习一种映射,即h∶χ→S,其中S代表了所有的训练语句。我们将每一个生成语句的过程看成是一个序列产生的过程,即
测试时,将训练好的模型映射h,生成来自测试集中图片的语句标注。
正向文本生成
利用RNN处理序列的能力,即可指导每个单词的生成,从而生成完整的句子。该过程如图3所示。对于图像,本发明中采用长短期记忆模型(Long Short-Term Memory,LSTM),按照文献中的LSTM的表达,在LSTM的t时刻该过程可以表述为:
gt=tanh(Wxcyt+Whcht-1+Wzczt+bc), (2)
it=σ(Wxiyt+Whiht-1+Wzizt+bi), (3)
ft=σ(Wxfyt+Whfht-1+Wzfzt+bf), (4)
ot=σ(Wxoyt+Whoht-1+Wzozt+bo), (5)
ct=ft⊙ct-1+it⊙gt, (6)
ht=ot⊙tanh(ct), (7)
si,t+1=softmax(Whht+bh), (8)
其中所有的w和b都代表待训练参数,yt代表t时刻的输入。it,ft和ot分别代表了LSTM中的输入门、遗忘门和输出门。ct和ht分别表示了LSTM的记忆单元和隐藏状态。σ(x)=1/(1+e-x)为sigmoid激活函数。zt代表了利用了基于文本内容的注意力的图像关注特征,其计算方式如下
其中,利用CNN从图像中提取出的特征为fconv={a1,a2,...,aL},对于t步骤的时候图像中的注意力αt={αt,1,αt,2,...,αt,L}的第i个元素可由下式计算得出:
et,j=g(aj,ht-1) (11)
et={et,1,et,2,...,et,L}代表αt中每一个元素的能量大小,同时反映了来自图像特征fconv和上一个隐藏状态ht-1的信息。g(·)代表一个简单的多层感知机(Multi-LayerPerception,MLP)。
利用包含关注信息的图像特征来初始化模型,包括初始化图像中的关注区域和初始化LSTM。因为图像中初始关注区域是未知的,初始化图像中的关注区域需对每个区域进行注意力均匀初始化:
其中1代表第一个循环。利用初始化的注意力,对从图像中提取的特征fconv进行加权可得:
在每一次循环中利用加了关注的图像特征,可以初始化LSTM的记忆单元c和隐藏状态和h:
对于图像xi,经由正向文本生成过程,LSTM的每一步都将产生一个单词,生成句子s={si,1,si,2,...,si,T}。
生成文本反馈
在正向文本生成的过程中,图像中的某些区域会对应文本中的某几个单词,同时也存在无法很好配对的问题。即存在注意力分散和生成语句错乱问题。在此过程中,本发明提出从生成的文本中提取关键词注意力反向矫正图像注意力。
在利用LSTM生成文本的过程中,每一步的隐藏状态的集合记为H={h1,h2,...,hT},那么利用类似于正向生成文本时图像中注意力的计算方式,我们有在文本上的注意力β={β1,β2,...,βT},在βt上的注意力计算如下
其中Ct=gc(ht-1),代表每个单词的能量。gc(·)代表一个浅层的MLP。由上述计算可以得到LSTM中每一步的隐藏状态的关注特征集合:
模型从生成文本中提取出文本上的关注特征,该特征包含了对每个单词的重要性分析,对模型认为是关键词的单词加大权重,反之减小权重。
图像关注区域更新
利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正,该过程如图5所示。利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本的联合关注特征:
H=Whaai+Wbrr+bh, (18)
重新计算图像中的注意力可得:
λk=softmax(tanh(H)) (19)
利用公式(13),更新关注特征利用该信息在下一个循环中初始化LSTM以指导文本的生成。
本发明具有以下关键点:
(1)在利用反馈式CNN-RNN结构训练提高图像和生成文本中的关键信息的匹配程度;
(2)迭代过程中生成文本反馈,从生成的文本中提取关键词注意力反向矫正图像注意力。
本发明在Flickr8K和Flickr30K上验证我们的模型有效性。用以对比的实验方法主要包括Mind’s Eye、BRNN、Google NIC、Multimodal、Soft-Attention和Hard-attention。Mind’s Eye提出了一种双向表达方式可以从图像生成语句,也可以从语句中生成图像信息表达。BRNN利用一种多模态循环神经网络结合文本图像匹配信息来生成新的文本。GoogleNIC利用CNN从图像中提取特征结合RNN生成新的语句。Multimodal利用了多模态信息生成语句。Soft-Attention和Hard-attention都利用了注意力机制使得在生成句子的时候能集中在关键区域。
表1在Flickr8K上的实验结果对比
表2在Flickr30K上的实验结果对比
在Flickr8K数据集上,本发明的方法比对比模型有更好的效果,在BLEU-1,BLEU-2,BLEU-3,BLEU-4和METEOR指标上的循环过程Ours-f3结果分别是68.3、46.5、32.1、22.1和23.0,所有指标都比对比方法都有所提升。同样,在Flickr30K数据集上,在BLEU-1,BLEU-2,BLEU-3,BLEU-4和METEOR指标上的循环过程Ours-f3结果分别是67.5、44.5、30.0、20.3和20.1,所有指标都比对比方法都有所提升。同时,每一次的反馈过程,效果都有一定提升,这说明本发明提出的基于注意力反馈机制的图像自动语句标注模型在经过多次迭代更新图像的关注区域,同时使得图像自动语句标注过程中可以优化生成的语句。本发明在Flickr8K上对图像中的关注区域和文本中的关键字进行可视化。计算图像的关注区域时,本发明利用高斯滤波器进行上采样,放大因子(Upscale factor)为24=16。计算文本上的注意力,本发明通过比较β={β1,β2,...,βT},即每个单词的权重,用红色代表权重大的单词,蓝色为较大,其余为黑色。如图1所示,经由几次反馈迭代过程,图像的关注区域明显更加准确,生成语句更加通顺。
综上,本发明提出了一种基于注意力反馈机制的图像自动语句标注模型,迭代地修正图像中的关注区域、强化图像和文本中的关键信息匹配、优化生成语句。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于注意力反馈机制的图像自动语句标注方法,其特征在于,包括:
构建所述输入数据,给定一系列的图像χ={x1,x2,...,xN}作为训练集,其中N是样本数量;图像xi对应的语句表述为Si={si,1,si,2,...,si,T},T代表句子Si的长度;
构建CNN-RNN模型,进行正向文本成;
从生成的文本中提取关键词注意力反向矫正图像注意力;
利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。
2.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,输入数据为RGB三通道图像,缩放为预定大小。
3.根据权利要求2所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,所述预定大小是256*256。
4.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“构建CNN-RNN模型,进行正向文本成;”具体包括:
采用VGG-16模型,从第二个全连接层提取长度为4096的图像特征fconv={a1,a2,...,aL}
利用采用长短期记忆模型(Long Short-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:
gt=tanh(Wxcyt+Whcht-1+Wzczt+bc), (2)
it=σ(Wxiyt+Whiht-1+Wzizt+bi),(3)
ft=σ(Wxfyt+Whfht-1+Wzfzt+bf), (4)
ot=σ(Wxoyt+Whoht-1+Wzozt+bo),(5)
ct=ft⊙ct-1+it⊙gt, (6)
ht=ot⊙tanh(ct), (7)
si,t+1=softmax(Whht+bh), (8)
计算t步骤的时候图像中的注意力αt={αt,1,αt,2,...,αt,L}的第i个元素可由下式计算得出:
计算αt中每一个元素的能量大小et={et,1,et,2,...,et,L};g(·)代表一个简单的多层感知机(Multi-Layer Perception,MLP):
et={et,1,et,2,...,et,L}
计算基于文本内容的注意力的图像关注特征zt,带入“利用采用长短期记忆模型(LongShort-Term Memory,LSTM)处理序列的能力,指导每个单词的生成,生成完整的句子:”中计算
利用包含关注信息的图像特征来初始化模型,包括初始化图像中的关注区域和初始化LSTM;
初始化图像中的关注区域需对每个区域进行注意力均匀初始化:
其中1代表第一个循环;利用初始化的注意力,对从图像中提取的特征fconv进行加权可得:
在每一次循环中利用加了关注的图像特征,可以初始化LSTM的记忆单元c和隐藏状态h:
经由正向文本生成过程,LSTM的每一步都将产生一个单词,生成句子。
5.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“从生成的文本中提取关键词注意力反向矫正图像注意力;”具体包括:
在文本上的注意力β={β1,β2,...,βT},在βt上的注意力计算如下
模型从生成文本中提取出文本上的关注特征,该特征包含了对每个单词的重要性分析,对模型认为是关键词的单词加大权重,反之减小权重。
6.根据权利要求1所述的基于注意力反馈机制的图像自动语句标注方法,其特征在于,“利用上述从文本中提取出的关注特征,对原本的图像关注特征进行注意力矫正。”
利用图像的关注特征和来自文本中的关注特征r可以计算出图像和文本的联合关注特征:
H=Whaai+Whrr+bh,(18)
重新计算图像中的注意力可得:
λk=softmax(tanh(H)) (19)
利用公式(13),更新关注特征利用该信息在下一个循环中初始化LSTM以指导文本的生成。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。
CN201810792426.3A 2018-07-18 2018-07-18 基于注意力反馈机制的图像自动语句标注方法 Active CN108960338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810792426.3A CN108960338B (zh) 2018-07-18 2018-07-18 基于注意力反馈机制的图像自动语句标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810792426.3A CN108960338B (zh) 2018-07-18 2018-07-18 基于注意力反馈机制的图像自动语句标注方法

Publications (2)

Publication Number Publication Date
CN108960338A true CN108960338A (zh) 2018-12-07
CN108960338B CN108960338B (zh) 2021-10-08

Family

ID=64496222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810792426.3A Active CN108960338B (zh) 2018-07-18 2018-07-18 基于注意力反馈机制的图像自动语句标注方法

Country Status (1)

Country Link
CN (1) CN108960338B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947920A (zh) * 2019-03-14 2019-06-28 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN110008900A (zh) * 2019-04-02 2019-07-12 北京市遥感信息研究所 一种由区域到目标的可见光遥感图像候选目标提取方法
CN110008899A (zh) * 2019-04-02 2019-07-12 北京市遥感信息研究所 一种可见光遥感图像候选目标提取与分类方法
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具
CN110765359A (zh) * 2019-10-30 2020-02-07 北京速途网络科技股份有限公司 新媒体内容推荐方法和系统
CN111507333A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN112084274A (zh) * 2020-08-24 2020-12-15 浙江云合数据科技有限责任公司 一种基于数据的时空频谱地图构建和预测方法
CN112819052A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、系统、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANG FANG;ET AL: "《Looking deeper and transferring attention for image captioning》", 《MULTIMEDIA TOOLS & APPLICATIONS》 *
张延琪: "《基于深度学习的图像中文语义理解》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
徐守坤,等: "《一种结合空间特征的图像注意力标注算法改进研究》", 《计算机应用研究》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947920A (zh) * 2019-03-14 2019-06-28 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN110008899B (zh) * 2019-04-02 2021-02-26 北京市遥感信息研究所 一种可见光遥感图像候选目标提取与分类方法
CN110008900A (zh) * 2019-04-02 2019-07-12 北京市遥感信息研究所 一种由区域到目标的可见光遥感图像候选目标提取方法
CN110008899A (zh) * 2019-04-02 2019-07-12 北京市遥感信息研究所 一种可见光遥感图像候选目标提取与分类方法
CN110008900B (zh) * 2019-04-02 2023-12-12 北京市遥感信息研究所 一种由区域到目标的可见光遥感图像候选目标提取方法
CN110298033B (zh) * 2019-05-29 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取系统
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具
CN110765359A (zh) * 2019-10-30 2020-02-07 北京速途网络科技股份有限公司 新媒体内容推荐方法和系统
CN110765359B (zh) * 2019-10-30 2022-09-16 北京速途网络科技股份有限公司 新媒体内容推荐方法和系统
CN111507333A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111507333B (zh) * 2020-04-21 2023-09-15 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN112084274A (zh) * 2020-08-24 2020-12-15 浙江云合数据科技有限责任公司 一种基于数据的时空频谱地图构建和预测方法
CN112819052A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、系统、设备和存储介质

Also Published As

Publication number Publication date
CN108960338B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108960338A (zh) 基于注意力反馈机制的图像自动语句标注方法
Zeng et al. Aspect based sentiment analysis by a linguistically regularized CNN with gated mechanism
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
CN108733792B (zh) 一种实体关系抽取方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN108595601A (zh) 一种融入Attention机制的长文本情感分析方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
Yuan et al. 3G structure for image caption generation
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN112560505A (zh) 一种对话意图的识别方法、装置、电子设备及存储介质
Sun et al. Video question answering: a survey of models and datasets
Chi et al. Enhancing joint entity and relation extraction with language modeling and hierarchical attention
Pan et al. AMAM: an attention-based multimodal alignment model for medical visual question answering
Song et al. avtmNet: adaptive visual-text merging network for image captioning
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
Bao et al. Question generation with doubly adversarial nets
CN110781666A (zh) 基于生成式对抗网络的自然语言处理文本建模
Yan et al. Image captioning based on a hierarchical attention mechanism and policy gradient optimization
Li et al. Magdra: a multi-modal attention graph network with dynamic routing-by-agreement for multi-label emotion recognition
Mnih et al. Improving a statistical language model through non-linear prediction
Xu et al. Residual spatial graph convolution and temporal sequence attention network for sign language translation
Liu et al. A simple but effective way to improve the performance of RNN-based encoder in neural machine translation task
CN116982054A (zh) 使用前瞻树搜索的序列到序列神经网络系统
Wang et al. A span-based model for joint entity and relation extraction with relational graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant