CN109919221B - 基于双向双注意力机制图像描述方法 - Google Patents
基于双向双注意力机制图像描述方法 Download PDFInfo
- Publication number
- CN109919221B CN109919221B CN201910159878.2A CN201910159878A CN109919221B CN 109919221 B CN109919221 B CN 109919221B CN 201910159878 A CN201910159878 A CN 201910159878A CN 109919221 B CN109919221 B CN 109919221B
- Authority
- CN
- China
- Prior art keywords
- hidden layer
- term memory
- bidirectional
- short term
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
基于双向双注意力机制图像描述方法,基于双向双注意力机制图像描述方法,图片经过卷积神经网络提取图像特征;卷积神经网络将最后一层卷积层的图像特征作为注意力机制的输入,输入到含有注意力机制的双向长短期记忆网络中;注意力机制得到上一次双向长短期记忆网络的隐层状态,双向长短期记忆网络使用上一次的隐层状态,显著图像信息以及本次的输入预测出当前的隐层状态,再将和输入到注意力机制中得到当前显著信息;双向注意力网络根据前向隐层状态,显著图像信息,后向隐层状态,显著信息一起进行预测并进行图像描述。
Description
技术领域
本发明涉及一种图像描述方法。
背景技术
近些年,基于计算机视觉和自然语言处理的基础,在图像描述研究方面进行了大量研究。图像描述的过程是将图像输入到“编码-解码模型”中生成语言描述。编码将输入图像转化成一个固定长度向量的过程,解码将生成的向量转化成输出语言序列。在图像描述中常用的编码器模型是卷积神经网络(Convolutional Neural Network,简称CNN),解码器是各种变体循环神经网络(Recurrent Neural Network,简称RNN),如长短期记忆网络(Long Short-Term Memory Network,简称LSTM)。近几年,Kelvin Xu等人将注意力机制引入其中,在生成描述时关注图像的显著部分,从而提高描述的准确率;Justin Johnson等人提出了密集描述,对图片生成多句描述,句子之间并无联系;Jonathan Krause等人提出了段落描述,该任务对图片生成一段描述,这段描述在语义上是连通的。这些工作在生成当前描述时只考虑图像与上文信息,并没有考虑下文信息。在当前描述与前后信息相关性较高的情况时,模型只考虑图片与生成的上文信息将使描述的准确率降低。
发明内容
本发明所要解决的技术问题是:如何将双注意力机制模型与双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,简称Bi-LSTM)结合构成双向双注意力网络,并将其应用于图像描述模型中。
本发明所采用的技术方案是:基于双向双注意力机制图像描述方法,按照如下步骤进行
步骤一、图片经过卷积神经网络提取图像特征;
步骤二、卷积神经网络将最后一层卷积层的图像特征V作为注意力机制的输入,输入到含有注意力机制的双向长短期记忆网络中;
步骤三、前向长短期记忆网络中,注意力机制得到上一次双向长短期记忆网络的隐层状态ht-1,双向长短期记忆网络使用上一次的隐层状态ht-1,显著图像信息Cft-1以及本次的输入xt预测出当前的隐层状态ht,再将ht和V输入到注意力机制中得到当前显著信息Cbt;
步骤四、后向长短期记忆网络过程与以上相同;
步骤五、双向注意力网络根据前向隐层状态ht,显著图像信息Cft,后向隐层状态gt,显著信息Cbt一起进行预测并进行图像描述。
作为一种优选方式:双向长短期记忆网络中评价标准为损失函数
双向长短期记忆网络中前向训练过程公式如下:
it=σ(Wxixt+Whiht-1+CiCft-1+bi);
ft=σ(Wxfxt+Whfht-1+CfCft-1+bf);
ot=σ(Wxoxt+Whoht-1+CoCft-1+bo);
ct=ftct-1+ittanh(Wcxt+hcht-1+CcCft-1+bc);
ht=ot tanh(ct);
双向长短期记忆网络中后向训练过程公式与双向长短期记忆网络中前向训练过程公式一致,结合前向后向的显著信息与隐层状态,预测概率公式为
pt+1=Softmax(Whht+Wggt+WfCft+WbCbt+b)
其中,it,ft,ot,ct,ht,gt分别是指双向长短期记忆网络中的输入门状态,遗忘门状态,输出门状态,记忆单元状态,前向隐层状态,后向隐层状态,pt+1详细展开是p(xt+1|V,x1,...,xt),指在图像信息与上文信息的条件下,当前输出xt+1的概率,当前时刻的输入xt是上一时刻的输出yt-1,p(xt+1|V,x1,...,xt)可表示为p(yt|V,y0,...,yt-1),简写为pt+1。
本发明的有益效果是:双向双注意力网络模型准确率高于只含有注意力机制网络和双向长短期记忆网络,而且具有很好的泛化性。
附图说明
图1是循环神经网络展开图;
图2是双向循环神经网络图;
图3是长短时记忆网络内部结构图;
图4是注意力机制内部结构图;
图5是单注意力机制与双注意力机制对比图;
图6是含有双向双注意力网络的图像描述模型结构。
具体实施方式
循环神经网络RNN是一类用于处理序列数据的神经网络,主要处理和预测序列数据。图1展示了一个典型的循环神经网络。在每一时刻,输入xt和上一时刻隐层状态ht-1作为循环神经网络的输入,循环神经网络产生输出ot并更新ht传入下一时刻。由于循环神经网络中的变量与运算在不同的时刻是相同的,循环神经网络可以看作是同一神经网络被复制无限次数的结果。A代表隐层内部其他所有状态。
循环神经网络只有一个“因果”结构,在当前时刻的状态只能从过去的状态和当前的输入获取信息。但是在许多应用任务中,输出量很有可能是依赖于整个序列的。为解决该问题,从而提出了双向循环神经网络(Bidirectional Recurrent Neural Network,简称Bi-RNN),Bi-RNN结合时间从序列起点开始移动的RNN和时间上从序列末尾开始移动的RNN。其网络结构如图2所示。
循环神经网络模型只能应用于依照短期信息预测的任务。当任务更复杂时,例如,当前的预测信息与相关信息之间的文本间隔巨大时,图1中简单的循环神经网络就无法学习到如此远间隔的信息。
长短期记忆网络LSTM可解决该问题。RNN只包含简单的tanh单元,而LSTM内部含有三种门,分别是输入门、遗忘门、输出门。LSTM依靠这些门结构让信息有选择性地影响循环神经网络的每个状态。LSTM内部结构如图2。σ是sigmod函数,可以将一个实数映射到(0,1)的区间。C是LSTM的记忆单元,是记忆内容更新单元。ct-1与ct是记忆单元具体的输入与输出。Softmax函数是归一化函数。
本实施例采用Bi-RNN和LSTM相结合的双向长短期记忆网络,该网络既可以克服无法获取下文信息问题,又可以学习到间隔时间较长的信息。
注意力机制
在一般图像描述任务中,解码部分在不同的时刻对全部信息等同处理。但是对于人类视觉行为,关注的信息是有选择的,有注意焦点的。因此模型在生成单词时关注的信息也应是不一样的。注意力机制就是为了实现在生成一个词时去关注当前所应该关注的显著信息这一目的而设计的。通过对输入信息的各个局部赋予权重来实现注意力机制方法。注意力机制结构网络如图4所示。
首先,空间注意力机制的上下文向量Ct,它的定义为:
g是注意力机制函数。原始的图像特征V来自于卷积神经网络的卷积层,而不是最后的全连接层。通过压缩原始图像特征V的宽W和高H,得到V=[v1,v2,...vL]图像特征集合。其中L=W·H,vi∈RD。vi是D维度的空间图像特征,同时代表着图片中的某个区域。ht-1是在t-1时刻LSTM隐层状态。
我们将图像特征和LSTM的隐层状态传入一个单层的神经网络层,之后再通过一个softmax函数去产生图片K个区域的注意力分布。
αt=softmax(zt) (3)
wv,wta和wh是一组需要学习的权重参数,α是图像特征的注意权重。基于注意力分布,图像显著信息为:
双向双注意力网络
单注意力机制在LSTM上的实现是用过去的隐层信息ht-1去预测当前图像的显著信息Ct,如图5(a)所示。不同于当前语言描述与过去信息和未来信息相关性极大的特点,图像显著信息与当前隐层状态ht显著相关。于是,我们进一步提出双注意力机制。如图5(b)所示,我们将(a)中由ht-1和V得到的Ct对应作为双注意力机制中的Ct-1,为LSTM的输入,并且在框架中加入新的注意力机制。该机制的输入是当前隐层状态ht和图像特征V。
双向双注意力网络图像描述模型如图6所示。图片经过卷积神经网络提取特征,将最后一层卷积层的图像特征V作为注意力机制的输入。在描述生成时,模型首先使用上一次的隐层状态ht-1,显著图像信息Cft-1以及本次的输入xt预测出当前的隐层状态ht,再将ht和V输入到注意力机制中得到当前显著信息Cft。后向循环神经网络过程相同。最后的预测则是同时考虑了前向隐层状态ht,显著信息Cft,后向隐层状态gt,显著信息Cbt一起进行预测。
模型的评价标准为损失函数:
模型中前向训练过程公式如下:
it=σ(Wxixt+Whiht-1+CiCft-1+bi) (6)
ft=σ(Wxfxt+Whfht-1+CfCft-1+bf) (7)
ot=σ(Wxoxt+Whoht-1+CoCft-1+bo) (8)
ct=ftct-1+it tanh(Wcxt+hcht-1+CcCft-1+bc) (9)
ht=ot tanh(ct) (10)
后向LSTM训练过程公式与前向公式(6)到(10)一致。结合前向后向的显著信息与隐层状态,预测概率公式为
pt+1=Softmax(Whht+Wggt+WfCft+WbCbt+b) (11)
其中,it,ft,ot,ct,ht,gt分别是LSTM中的输入门状态,遗忘门状态,输出门状态,记忆单元状态,前向隐层状态,后向隐层状态。pt+1详细展开是p(xt+1|V,x1,...,xt),指在图像信息与上文信息的条件下,当前输出xt+1的概率。因为当前时刻的输入xt是上一时刻的输出yt-1,p(xt+1|V,x1,...,xt)可表示为p(yt|V,y0,...,yt-1),简写为pt+1。
值得注意的是,在训练阶段,xt是有监督地输入正确的描述词向量。测试阶段xt则是之前的状态产生的预测词向量。
实验采用数据集MSCOCO数据集与Flickr30k数据集。MSCOCO数据集是图像描述中最大的数据集,拥有训练样本82,783张,验证样本40,504张和测试样本40,775张。每张图片拥有5个人的描述。在训练时,验证和测试图片都是5000张。Flickr30k数据集中含有31783张图像,模型在该数据集上测试泛化性。
双向双注意力网络图像描述模型如图6所示。图片经过卷积神经网络提取特征,将最后一层卷积层的图像特征V作为注意力机制的输入。在描述生成时,模型首先使用上一次的隐层状态ht-1,显著图像信息Cft-1以及本次的输入xt预测出当前的隐层状态ht,再将ht和V输入到注意力机制中得到当前显著信息Cft。后向循环神经网络过程相同。最后的预测则是同时考虑了前向隐层状态ht,显著信息Cft,后向隐层状态gt,显著信息Cbt一起进行预测。
实验结果如表1。表1是本实施例模型与其他模型评估分数对比表,使用的评估指标有双语评估替换分数(Bilingual Evaluation Understudy,简称BLEU),机器翻译评价方法(Machine Translation Evaluation System,简称METEOR)。
表1本实施例模型与其他模型评估分数对比表
表1中,双向单注意力机制网络模型相对于只有注意力机制的Hard-Attention模型和只有双向长短期记忆网络的Deep-Bi-LSTM模型,准确率获得了提高。并且双向双注意力机制进一步提高了准确率,说明当前图像显著信息与当前隐层状态显著相关,由过去隐层状态筛选出的图像显著信息应该只作为长短期记忆网络的输入。模型在Flickr30k数据集上验证,表明模型具有较好的泛化性。
本实施例首先在经典注意力机制基础上提出一种双注意力机制,将双注意力机制与双向长短期记忆网络相结合生成图像描述。实验结果表明双向双注意力网络模型准确率高于只含有注意力机制网络和双向长短期记忆网络,而且具有很好的泛化性。
Claims (2)
1.基于双向双注意力机制图像描述方法,其特征在于:按照如下步骤进行
步骤一、图片经过卷积神经网络提取图像特征;
步骤二、卷积神经网络将最后一层卷积层的图像特征V作为注意力机制的输入,输入到含有注意力机制的双向长短期记忆网络中;
步骤三、前向长短期记忆网络中,注意力机制得到上一次双向长短期记忆网络的隐层状态ht-1,双向长短期记忆网络使用上一次的隐层状态ht-1,显著图像信息Cft-1以及本次的输入xt预测出当前的隐层状态ht,再将ht和V输入到注意力机制中得到当前显著信息Cbt;
步骤四、后向长短期记忆网络过程与以上相同;
步骤五、双向注意力网络根据前向隐层状态ht,显著图像信息Cft,后向隐层状态gt,显著信息Cbt一起进行预测并进行图像描述。
2.根据权利要求1所述的基于双向双注意力机制图像描述方法,其特征在于:
双向长短期记忆网络中前向训练过程公式如下:
it=σ(Wxixt+Whiht-1+CiCft-1+bi);
ft=σ(Wxfxt+Whfht-1+CfCft-1+bf);
ot=σ(Wxoxt+Whoht-1+CoCft-1+bo);
ct=ft×ct-1+it×tanh(Wc×xt+hc×ht-1+Cc×Cft-1+bc);
ht=ot×tanh(ct);
双向长短期记忆网络中后向训练过程公式与双向长短期记忆网络中前向训练过程公式一致,结合前向后向的显著信息与隐层状态,预测概率公式为
pt+1=Softmax(Whht+Wggt+WfCft+WbCbt+b)
其中,it,ft,ot,ct,ht,gt分别是指双向长短期记忆网络中的输入门状态,遗忘门状态,输出门状态,记忆单元状态,前向隐层状态,后向隐层状态,pt+1详细展开是p(xt+1|V,x1,...,xt),指在图像信息与上文信息的条件下,当前输出xt+1的概率,当前时刻的输入xt是上一时刻的输出yt-1,p(xt+1|V,x1,...,xt)可表示为p(yt|V,y0,...,yt-1),简写为pt+1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910159878.2A CN109919221B (zh) | 2019-03-04 | 2019-03-04 | 基于双向双注意力机制图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910159878.2A CN109919221B (zh) | 2019-03-04 | 2019-03-04 | 基于双向双注意力机制图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109919221A CN109919221A (zh) | 2019-06-21 |
CN109919221B true CN109919221B (zh) | 2022-07-19 |
Family
ID=66963051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910159878.2A Active CN109919221B (zh) | 2019-03-04 | 2019-03-04 | 基于双向双注意力机制图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919221B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599443A (zh) * | 2019-07-02 | 2019-12-20 | 山东工商学院 | 一种使用双向长短期记忆网络的视觉显著性检测方法 |
CN110750669B (zh) * | 2019-09-19 | 2023-05-23 | 深思考人工智能机器人科技(北京)有限公司 | 一种图像字幕生成的方法及系统 |
CN110851644A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像检索方法及装置、计算机可读存储介质、电子设备 |
CN111144553B (zh) * | 2019-12-28 | 2023-06-23 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111612254B (zh) * | 2020-05-22 | 2022-12-23 | 中国科学院合肥物质科学研究院 | 基于改进注意力双向长短期记忆网络的道路机动车尾气排放预测方法 |
CN112560454B (zh) * | 2020-12-22 | 2023-06-13 | 广东工业大学 | 双语图像字幕生成方法、系统、储存介质及计算机设备 |
CN116543289B (zh) * | 2023-05-10 | 2023-11-21 | 南通大学 | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900B (zh) * | 2018-02-05 | 2021-06-08 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108875807B (zh) * | 2018-05-31 | 2022-05-27 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
-
2019
- 2019-03-04 CN CN201910159878.2A patent/CN109919221B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
基于双重注意力模型的微博情感分析方法;张仰森;《清华大学学报 ( 自然科学版)》;20180215;第58卷(第2期);第122-130页 * |
融合词性的双注意力 Bi-LSTM 情感分析;赵富;《计算机应用》;20181225;第38卷;第103-106页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109919221A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919221B (zh) | 基于双向双注意力机制图像描述方法 | |
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN110598779B (zh) | 摘要描述生成方法、装置、计算机设备和存储介质 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
WO2021037113A1 (zh) | 一种图像描述的方法及装置、计算设备和存储介质 | |
CN109902750A (zh) | 基于双向单注意力机制图像描述方法 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
WO2020238353A1 (zh) | 数据处理方法和装置、存储介质及电子装置 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
WO2021057884A1 (zh) | 语句复述方法、训练语句复述模型的方法及其装置 | |
Li et al. | A deep reinforcement learning framework for Identifying funny scenes in movies | |
Du et al. | Full transformer network with masking future for word-level sign language recognition | |
CN113240115A (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
CN113822125A (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN113656563A (zh) | 一种神经网络搜索方法及相关设备 | |
CN111582287B (zh) | 一种基于充足视觉信息与文本信息的图像描述方法 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |