CN112329794A - 一种基于双重自注意力机制的图像描述方法 - Google Patents

一种基于双重自注意力机制的图像描述方法 Download PDF

Info

Publication number
CN112329794A
CN112329794A CN202011235688.3A CN202011235688A CN112329794A CN 112329794 A CN112329794 A CN 112329794A CN 202011235688 A CN202011235688 A CN 202011235688A CN 112329794 A CN112329794 A CN 112329794A
Authority
CN
China
Prior art keywords
attention
layer
output
image
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011235688.3A
Other languages
English (en)
Other versions
CN112329794B (zh
Inventor
杨金福
李智勇
李明爱
李亚萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011235688.3A priority Critical patent/CN112329794B/zh
Publication of CN112329794A publication Critical patent/CN112329794A/zh
Application granted granted Critical
Publication of CN112329794B publication Critical patent/CN112329794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重自注意力机制的图像描述网络,包括特征提取器、双重自注意力模块、解码器。其中,Faster R‑CNN网络作为特征提取器用于提取图像的重要特征。双重自注意力模块由两个自注意力分支组成,利用自注意力机制能够捕获长范围依赖关系的特性分别从空间和通道维度捕获特征的依赖性。解码器由两层LSTM构成,分别为注意层和语言层,注意层来预测生成当前词汇在图像上的注意力分布,语言层生成描述。本发明能自适应地将局部特征与全局相关性结合起来,从而获得图像的上下文信息,有利于生成更精确的描述,提高了描述语句的准确性。

Description

一种基于双重自注意力机制的图像描述方法
技术领域
本发明涉及图像识别领域,尤其涉及一种基于双重自注意力机制的图像描述方法,使机器理解图像内容并用自然语言来描述。
技术背景
随着科学技术的飞速发展,如何使计算机快速准确地理解图像内容,对计算机分析处理图像数据具有重要意义。图像描述技术已经成为理解图像内容一种重要的解决方案。近年来,图像描述在人工智能领域受到了广泛的关注,并且在视障辅助、人机交互等领域有着广泛的应用。而用自然语言表达图像内容是一项非常具有挑战性的任务。
现有的图像描述工作通常采用编码-解码架构,其中编码器为卷积神经网络(Convolutional Neural Network,CNN),用于提取图像特征,解码器为递归神经网络(Recurrent Neural Network,RNN)用于生成描述,即根据视觉信息逐字构造图像描述。现有的研究已经取得了令人印象深刻的结果,但仍然存在较高的误识别问题。目前,研究者们为解决上述问题,通常针对生成端提出改进方案。例如2017年Dai,B.,Fidle,r S.,Urtasun,R.,Lin,D.:Towards Diverse and Natural Image Descriptions via aConditional GAN.In:Proceedings of the International Conference on ComputerVision,pp.2989-2998(2017)在条件生成对抗网络的基础上,提出了一个新的网络构架,同时学习两个网络。一个是用来生成描述的生成网络,另一个是用来评价生成句子是否和图像对应的评价网络,两个网络相互对抗,不断提高生成描述的准确性。2019年Fan,Z.,Wei,Z.,Wang,S.,Huang,X.:Bridging by Word:Image Grounded Vocabulary Constructionfor Visual Captioning.In:Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics,pp.6514-6524(2019)通过构建语义词汇表的方式,限制生成单词的选择空间,以减少误识别问题。虽然上述方法利用对抗、词表限制等手段在一定程度上减少了误识别问题,但却忽视了图像本身所包含的上下文信息,这种做法会限制描述对图像的概括程度,即由于生成过程受限,导致生成的描述不足以完全概括图像内容。2020年Longteng Guo,Jing Liu,Xinxin Zhu,Peng Yao,Shichen Lu,Hanqing Lu,Normalized and Geometry-Aware Self-Attention Network for ImageCaptioning,CVPR(2020)提出了一种用于图像描述自注意力网络,该网络利用自注意力机制捕获图像中对象的空间几何关系,考虑了图像特征的空间特性,但忽略了图像特征的多通道特性。
发明内容
针对上述问题,本发明利用自注意力机制能够捕获长程依赖的特性,设计了用于图像描述的双重自注意力模型,目的在于提供一种基于双重自注意力机制的图像描述方法,以减少错误识别的问题。与现有方法不同,本发明注重对图像信息的挖掘,通过自注意力机制建立图像特征的内在关系,充分利用图像的上下文信息提高特征表达,从而减少错误识别的问题。
为了达到上述目的,本发明所采用的技术方案为提供一种基于双重自注意力机制的图像描述方法。考虑到图像特征具有空间和多通道特性,本发明从空间和通道两个维度捕获图像特征的依赖关系,利用图像的上下文信息增强特征表达,然后通过解码器逐步生成描述,解码器由两层长短期记忆网络(缩写为LSTM)构成,利用LSTM的循环特性每一时刻生成一个单词,直至生成终止符<end>结束循环。具体包括以下步骤:
1)利用Faster R-CNN提取输入图像的特征图
Figure BDA0002765678600000021
2)将步骤1)中得到的特征图输入至本发明的双重自注意力模型,通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系,增强特征表达,从而得到新的特征图;
3)将步骤2)中得到的特征图输入至解码器的注意力层,解码器由两层LSTM构成,如图4所示,第一层LSTM为注意力层,第二层LSTM为生成层。注意力层用于预测t时刻在图像上的注意力分布,加权求和得到最终用于解码的特征向量Ct
4)将步骤3)中的特征向量输入至解码器的第二层生成层,根据特征向量Ct以及注意力层t时刻输出的隐藏状态
Figure BDA0002765678600000022
预测出当前时刻的单词wt。利用LSTM的循环特性重复步骤3)和步骤4)逐步生成单词,直至生成终止符<end>结束循环。描述语言由每一时刻生成的单词构成。
所述步骤1)中利用Faster R-CNN提取输入图像的特征,只选取所有类检测概率超过置信阈值的区域的特征,对于区域i,vi表示该区域的卷积平均池化特征。
所述步骤2)中的双重自注意力模型,如图2所示,包括空间分支、通道分支、调节单元。自注意力机制可以被描述为一个查询(query)到一系列键(key)-值(value)对的映射,其中查询、键和值都是向量,输出为值的加权和,其中分配给每个值的权重由查询和键的相关性决定。本文中使用Q、K和V分别表示查询、键和值,并下角标S和C表示空间自注意力分支和通道自注意力分支。在本发明中使用点乘计算相关性。
空间分支工作过程如下:
空间自注意力分支将全局空间上下文信息编码到局部特征。如图3(a)所示,将步骤1)中得到特征
Figure BDA0002765678600000031
输入至三路1*1的卷积层中将通道数将为C/2,然后通过reshape函数分别对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图
Figure BDA0002765678600000032
其中N=H×W为像素数量。然后对
Figure BDA0002765678600000033
Figure BDA0002765678600000034
做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵
Figure BDA0002765678600000035
可表示为:
SATT=softmax(Ks TQs)
Figure BDA0002765678600000036
Figure BDA0002765678600000037
做矩阵乘法得到最后的输出
Figure BDA0002765678600000038
可表示为:
Figure BDA0002765678600000039
通道分支工作过程如下:
如图3(b)所示,通道自注意力分支用于建模各通道间的映射关系。将步骤1)中得到的图像特征
Figure BDA00027656786000000310
输入至三路1*1的卷积层,分别将通道数降为C/2,然后利用reshape函数分别对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图
Figure BDA00027656786000000311
其中N=H×W为像素数量。然后对
Figure BDA00027656786000000312
Figure BDA00027656786000000313
做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵
Figure BDA00027656786000000314
可表示为:
CATT=softmax(QcKc T)
Figure BDA00027656786000000315
Figure BDA00027656786000000316
做矩阵乘法得到最后的输出
Figure BDA00027656786000000317
可表示为:
Figure BDA00027656786000000318
调节单元
调节单元的作用是通过调节双重自注意力模型的输出系数α和β来融合两个自注意力支路的输出,以获得更好的特征表达。调整单元的输出可以表示为:
AOUT=αSOUT+βCOUT
其中α和β是可学习的标量,初始值为0,在网络训练的过程中逐渐学习到更优的输出系数。最后,双重自注意力模型应用了残差连接,该模块的输出可表示为:
DOUT=AOUT+V=(αSOUT+βCOUT)+V
所述步骤3)中解码器由两层LSTM构成,如图4所示,第一层LSTM为注意力层,第二层LSTM为生成层,在本方法中使用上标A和G区分注意力层与生成层的输入输出。如图4所示,注意力层t时刻的输入包括t-1时刻生成的单词wt-1,双重自注意力模型的输出DOUT,以及生成层t-1时刻输出的隐藏状态
Figure BDA0002765678600000041
公式表达如下:
Figure BDA0002765678600000042
Figure BDA0002765678600000043
At=softmax(at)
Ct=DOUTsoftmax(at)
其中,Ww
Figure BDA0002765678600000044
WD和WA是可学习参数,
Figure BDA0002765678600000045
表示向量拼接操作。注意力层t时刻的输入为
Figure BDA0002765678600000046
其输出为
Figure BDA0002765678600000047
表示注意力层在t时刻输出的隐藏状态。at表示在t时刻图像上注意力分布,由
Figure BDA0002765678600000048
和DOUT计算而来。对at使用softmax进行指数归一化以产生注意力权重At。最终通过加权求和的方式得到特征向量Ct
所述步骤4)中解码器的第二层为生成层,如图4所示,其输入包括t时刻注意力层得到的特征向量Ct以及注意力层输出的隐藏状态
Figure BDA0002765678600000049
可表示为:
Figure BDA00027656786000000410
生成层的输入为
Figure BDA00027656786000000411
其输出为
Figure BDA00027656786000000412
表示生成层在t时刻输出的隐藏状态。最后利用
Figure BDA00027656786000000413
预测当前时刻的单词。在每一时间步t,生成单词的条件概率分布如下式:
Figure BDA00027656786000000414
取概率最大的单词作为当前时刻的输出。其中w1:t-1表示已生成的单词序列(w1,w2,...,wt-1)。WG和b均为待训练参数。
与现有方法相比,本发明的优势是,通过双重自注意力模型,能够有效捕获图像特征的长程依赖关系,增强特征表达。这为解码阶段提供了丰富的上下文信息,有利于生成更精确的描述,提高了描述语句的准确性。
附图说明
图1是本发明提供的一种基于双重自注意力机制的图像描述方法的流程图。
图2是双重自注意力模型结构图。
图3a是空间自注意力分支示意图。
图3b是通道自注意力分支示意图。
图4是解码器示意图。
图5a、5b是效果图。
具体实施方式
如图1所示,本发明提供一种基于双重自注意力机制的图像描述方法,包含以下步骤:
1)选择数据集并构建词库。选择MS COCO数据集训练网络,该数据集包括82783个训练图像,40504个验证图像和40775个测试图像,每个图像都包含人工标注的图像描述(ground truth)。统计数据集中所有人工标注的描述单词,词库由出现五次以上的单词以及开始/结束标志符<star>/<end>构成。
2)提取特征。利用Faster R-CNN算法提取输入图像的重要特征。Faster R-CNN是一种目标检测算法,在本实施列中只选取所有类检测概率超过置信阈值0.2的区域特征,对于区域i,vi表示该区域的平均池化特征。
3)特征增强。将步骤1)中得到的特征图输入至双重自注意力模型,通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系,增强特征表达,得到新的特征图。
在本实施例中,对于每幅图像,通过特征提取器能够得到特征
Figure BDA0002765678600000051
捕获空间依赖关系具体过程下:
如图3(a)所示,将V输入至三路1*1的卷积层中将通道数降为1024。然后对三路1*1卷积层的输出做reshape操作,将输出维度由1024×6×6维变成1024×36维完成矩阵变换,得到三个新的特征图
Figure BDA0002765678600000052
然后对
Figure BDA0002765678600000053
Figure BDA0002765678600000054
做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵
Figure BDA0002765678600000055
可表示为:
SATT=softmax(Ks TQs)
Figure BDA0002765678600000056
Figure BDA0002765678600000057
做矩阵乘法得到最后的输出
Figure BDA0002765678600000058
可表示为:
Figure BDA0002765678600000061
捕获空间依赖关系具体过程下:
如图3(b)所示,将V输入至三个1*1的卷积层中将通道数将为1024。然后对三路1*1卷积层的输出做reshape操作,将输出维度由1024×6×6维变成1024×36维完成矩阵变换,得到三个新的特征图
Figure BDA0002765678600000062
然后对
Figure BDA0002765678600000063
Figure BDA0002765678600000064
做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵
Figure BDA0002765678600000065
可表示为:
CATT=softmax(QcKc T)
Figure BDA0002765678600000066
Figure BDA0002765678600000067
做矩阵乘法得到最后的输出
Figure BDA0002765678600000068
可表示为:
Figure BDA0002765678600000069
然后经调节单元将空间自注意力分支和通道自注意力分支的输出融合,如下式:
AOUT=αSOUT+βCOUT
其中输出系数α和β是可学习标量,初始值为0,在网络训练的过程中逐渐学习到更优的输出系数。
最后,双重自注意力模型应用了残差连接,该模块最终输出的特征图可表示为:
DOUT=AOUT+V=(αSOUT+βCOUT)+V
4)解码阶段。将步骤2)中得到的特征图输入至解码器的注意力层,如图4所示,所述的解码器由两层LSTM构成,第一层LSTM为注意力层。注意力层t时刻的输入包括t-1时刻生成的单词wt-1,双重自注意力模型的输出DOUT,以及生成层的t-1时刻的隐藏状态
Figure BDA00027656786000000612
且在t=1时刻输入的单词为开始标志符<star>,生成层的隐藏状态初始化为0。预测生成当前词汇在图像上的注意力分布,公式表达如下:
Figure BDA00027656786000000610
Figure BDA00027656786000000611
At=softmax(at)
Ct=DOUTsoftmax(at)
其中,Ww,Wc T,WD和WA是可学习参数,
Figure BDA0002765678600000071
表示向量拼接操作。注意力层t时刻的输入记为
Figure BDA0002765678600000072
其输出为
Figure BDA0002765678600000073
表示注意力层在t时刻输出的隐藏状态。at表示在t时刻图像上注意力分布,由
Figure BDA0002765678600000074
和DOUT计算而来。对at使用softmax进行指数归一化以产生注意力权重。最终通过对DOUT加权求和的方式得到上下文向量Ct
将在注意力层中得到的特征向量Ct输入至解码器的生成层。如图4所示,该层输入包括t时刻注意力层的得到的特征向量Ct以及注意力层输出的隐藏状态
Figure BDA0002765678600000075
可表示为:
Figure BDA0002765678600000076
注意力层的输入为
Figure BDA0002765678600000077
其输出为
Figure BDA0002765678600000078
表示注意力层在t时刻输出的隐藏状态。最后利用生成层输出的隐藏状态
Figure BDA0002765678600000079
预测当前时刻的单词。在每一时间步t,生成当前单词的条件概率分布如下式:
Figure BDA00027656786000000710
取概率最大的单词作为当前时刻的输出。其中w1:t-1表示已生成的单词序列(w1,w2,...,wt-1)。5)损失函数:
通过最小化交叉熵损失函数训练网络,交叉熵损失函数能够表示模型预测的分布和真实分布之间的差异,差异越小交叉熵就越小。在本方法中,将每一个单词的预测过程看做是预测该单词在词库中的概率分布。所述交叉熵损失函数如下式:
Figure BDA00027656786000000711
其中,θ表示网络中待学习参数,
Figure BDA00027656786000000712
表示真实标注的描述中第t个单词,
Figure BDA00027656786000000713
表示真是标注的描述中的第1至t个单词,T表示真实标注的描述的单词数量。
Figure BDA00027656786000000714
表示生成层softmax函数输出的第t个单词的概率分布中,与真实标注的第t个单词得到的置信度。例如假设第一步构建的词库由三个单词构成[W1,W2,W3],在t时刻生成层输出的概率分布为[0.3,0.1,0.6],表示第t个单词是W1,W2,W3的概率分别为0.3,0.1,0.6。其真实分布为[0,0,1],则预测第t个单词的置信度为0.6,即损失函数中取0.6计算。
实验结果表明本发明生成的描述更为准确。如图5a、b所示,Xu K,Ba J,Kiros R,et al.Show,Attend and Tell:Neural Image Caption Generation with VisualAttention[J].Computer Science,2015:2048-2057.的方法将第一幅图片中的“路”描述为“桥”,将第二副图片中的“面包”描述为“披萨”。两幅图像均出现了错误识别的问题。本发明能够准确的将第一幅图片描述为“一个年轻女子骑着自行车沿着海边的一条路走”,将第二幅图片描述为“一个女人站在一桌食物前”。

Claims (6)

1.一种基于双重自注意力机制的图像描述方法,其特征在于,利用特征提取器提取图像的特征,然后通过双重自注意力模型捕获图像特征依赖关系,获得图像的上下文信息提高特征表达,然后通过解码器逐步生成描述,解码器由两层长短期记忆网络(缩写为LSTM)构成,利用LSTM的循环特性每一时刻生成一个单词,直至生成终止符<end>结束循环,描述语言由每一时刻生成的单词构成,具体包括以下步骤:
1)利用Faster R-CNN提取输入图像的特征图;
2)将步骤1)中得到的特征图输入至双重自注意力模型,通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系,增强特征表达,从而得到新的特征图;
3)将步骤2)中得到的特征图输入至解码器的注意力层,所述的解码器由两层LSTM构成,第一层LSTM为注意力层,预测t时刻在输入图像上的注意力分布,加权求和得到最终用于解码的特征向量Ct
4)将步骤3)中的特征向量输入至解码器的生成层,根据特征向量Ct以及注意力层t时刻输出的隐藏状态
Figure FDA0002765678590000017
预测出当前时刻的单词wt;利用LSTM的循环特性重复步骤3)和步骤4)逐一生成单词,直至生成终止符<end>结束循环,描述语言由每一时刻生成单词构成。
2.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤1)中利用目标检测算法Faster R-CNN提取输入图像的重要特征
Figure FDA0002765678590000016
只选取所有类检测概率超过置信阈值的区域的特征vi,对于区域i,vi表示该区域的平均池化特征。
3.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤2)中的双重自注意力模型,包括空间分支、通道分支、调节单元;
空间分支工作过程如下:
将步骤1)中得到的特征
Figure FDA0002765678590000011
输入至三路1*1的卷积层中,分别将通道数降为C/2;然后对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图表示为
Figure FDA0002765678590000012
其中N=H×W为像素数量;然后对
Figure FDA0002765678590000013
Figure FDA0002765678590000014
做矩阵乘法得到空间相关矩阵,并将其输入至softmax函数得到空间注意力矩阵
Figure FDA0002765678590000015
可表示为:
SATT=softmax(Ks TQs)
Figure FDA0002765678590000021
Figure FDA0002765678590000022
做矩阵乘法得到最后的输出
Figure FDA0002765678590000023
可表示为:
Figure FDA0002765678590000024
通道分支工作过程如下:
通道自注意力分支用于建模各通道间的映射关系,将步骤1)中得到的特征
Figure FDA0002765678590000025
输入至三路1*1的卷积层中,分别将通道数降为C/2,然后对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图
Figure FDA0002765678590000026
其中N=H×W为像素数量;然后对
Figure FDA0002765678590000027
Figure FDA0002765678590000028
做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵
Figure FDA0002765678590000029
可表示为:
CATT=softmax(QcKc T)
Figure FDA00027656785900000210
Figure FDA00027656785900000211
做矩阵乘法得到最后的输出
Figure FDA00027656785900000212
可表示为:
Figure FDA00027656785900000213
调节单元
调节单元的作用是通过调节双重自注意力模型的输出系数α和β来融合两个自注意力支路的输出,调整单元的输出表示为:
AOUT=αSOUT+βCOUT
其中α和β是可学习的标量,初始值为0,在网络训练的过程中逐渐学习到更优的输出系数;最后,双重自注意力模型应用了残差连接,所述双重自注意力模型的输出可表示为:
DOUT=AOUT+V=(αSOUT+βCOUT)+V
4.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤3)中解码器由两层LSTM构成,第一层LSTM为注意力层,第二层LSTM为生成层,在本方法中使用上标A和G区分注意力层与生成层的输入输出;注意力层t时刻的输入包括t-1时刻生成的单词wt-1,双重自注意力模型的输出DOUT,以及生成层t-1时刻输出的隐藏状态
Figure FDA00027656785900000214
公式表达如下:
Figure FDA0002765678590000031
Figure FDA0002765678590000032
At=softmax(at)
Ct=DOUTAt
其中,Ww
Figure FDA0002765678590000033
WD和WA是可学习参数,
Figure FDA0002765678590000034
表示向量拼接操作,注意力层t时刻的输入记为
Figure FDA0002765678590000035
其输出为
Figure FDA0002765678590000036
表示注意力层在t时刻输出的隐藏状态,at表示在t时刻图像上注意力分布,由
Figure FDA0002765678590000037
和DOUT计算而来;对at使用softmax进行指数归一化以得到最终的注意力权重At,最后通过对DOUT加权求和的方式得到特征向量Ct
5.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤4)中解码器的第二层为生成层,其输入包括t时刻注意力层得到的特征向量Ct以及注意力层输出的隐藏状态
Figure FDA0002765678590000038
可表示为:
Figure FDA0002765678590000039
生成层的输入为
Figure FDA00027656785900000310
其输出为
Figure FDA00027656785900000311
表示生成层在t时刻输出的隐藏状态,最后利用
Figure FDA00027656785900000312
预测当前时刻的单词,在t时刻,生成单词的条件概率分布如下式:
Figure FDA00027656785900000313
取概率最大的单词作为当前时刻的输出,其中w1:t-1表示已生成的单词序列(w1,w2,...,wt-1),WG和b均为待训练参数。
6.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,由双重自注意力模型和解码器构成的网络,训练过程如下:
给定一个真实标注的描述
Figure FDA00027656785900000314
网络参数为θ,通过最小化交叉熵损失函数训练网络,所述交叉熵损失函数如下式:
Figure FDA00027656785900000315
其中,
Figure FDA00027656785900000316
表示真实标注的描述中第t个单词,
Figure FDA00027656785900000317
表示真是标注的描述中的第1至t个单词,T表示真实标注的描述的单词数量。
CN202011235688.3A 2020-11-06 2020-11-06 一种基于双重自注意力机制的图像描述方法 Active CN112329794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011235688.3A CN112329794B (zh) 2020-11-06 2020-11-06 一种基于双重自注意力机制的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011235688.3A CN112329794B (zh) 2020-11-06 2020-11-06 一种基于双重自注意力机制的图像描述方法

Publications (2)

Publication Number Publication Date
CN112329794A true CN112329794A (zh) 2021-02-05
CN112329794B CN112329794B (zh) 2024-03-12

Family

ID=74316548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011235688.3A Active CN112329794B (zh) 2020-11-06 2020-11-06 一种基于双重自注意力机制的图像描述方法

Country Status (1)

Country Link
CN (1) CN112329794B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949553A (zh) * 2021-03-22 2021-06-11 陈懋宁 基于自注意力级联生成对抗网络的人脸图像修复方法
CN113095431A (zh) * 2021-04-27 2021-07-09 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113158791A (zh) * 2021-03-15 2021-07-23 上海交通大学 一种以人为中心的图像描述标注方法、系统、终端及介质
CN113469260A (zh) * 2021-07-12 2021-10-01 天津理工大学 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158791A (zh) * 2021-03-15 2021-07-23 上海交通大学 一种以人为中心的图像描述标注方法、系统、终端及介质
CN112949553A (zh) * 2021-03-22 2021-06-11 陈懋宁 基于自注意力级联生成对抗网络的人脸图像修复方法
CN113095431A (zh) * 2021-04-27 2021-07-09 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113095431B (zh) * 2021-04-27 2023-08-18 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113469260A (zh) * 2021-07-12 2021-10-01 天津理工大学 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN113762251B (zh) * 2021-08-17 2024-05-10 慧影医疗科技(北京)股份有限公司 一种基于注意力机制的目标分类方法及系统
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117036967B (zh) * 2023-10-08 2024-01-19 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法

Also Published As

Publication number Publication date
CN112329794B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN112329794A (zh) 一种基于双重自注意力机制的图像描述方法
Papastratis et al. Continuous sign language recognition through cross-modal alignment of video and text embeddings in a joint-latent space
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN113657124B (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN113392288A (zh) 视觉问答及其模型训练的方法、装置、设备及存储介质
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN114998673B (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
Zhang et al. Temporal sentence grounding in videos: A survey and future directions
CN112801068A (zh) 一种视频多目标跟踪与分割系统和方法
Zhang et al. The elements of temporal sentence grounding in videos: A survey and future directions
CN115346261A (zh) 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN115599954B (zh) 一种基于场景图推理的视频问答方法
Chen et al. Multi-dimensional attention with similarity constraint for weakly-supervised temporal action localization
CN112101154A (zh) 视频分类方法、装置、计算机设备和存储介质
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN114511813A (zh) 视频语义描述方法及装置
Zhu Video captioning in compressed video
Peng et al. Temporal pyramid transformer with multimodal interaction for video question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant