CN112329794B - 一种基于双重自注意力机制的图像描述方法 - Google Patents
一种基于双重自注意力机制的图像描述方法 Download PDFInfo
- Publication number
- CN112329794B CN112329794B CN202011235688.3A CN202011235688A CN112329794B CN 112329794 B CN112329794 B CN 112329794B CN 202011235688 A CN202011235688 A CN 202011235688A CN 112329794 B CN112329794 B CN 112329794B
- Authority
- CN
- China
- Prior art keywords
- attention
- layer
- output
- image
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009977 dual effect Effects 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims description 38
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 239000012633 leachable Substances 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双重自注意力机制的图像描述网络,包括特征提取器、双重自注意力模块、解码器。其中,Faster R‑CNN网络作为特征提取器用于提取图像的重要特征。双重自注意力模块由两个自注意力分支组成,利用自注意力机制能够捕获长范围依赖关系的特性分别从空间和通道维度捕获特征的依赖性。解码器由两层LSTM构成,分别为注意层和语言层,注意层来预测生成当前词汇在图像上的注意力分布,语言层生成描述。本发明能自适应地将局部特征与全局相关性结合起来,从而获得图像的上下文信息,有利于生成更精确的描述,提高了描述语句的准确性。
Description
技术领域
本发明涉及图像识别领域,尤其涉及一种基于双重自注意力机制的图像描述方法,使机器理解图像内容并用自然语言来描述。
技术背景
随着科学技术的飞速发展,如何使计算机快速准确地理解图像内容,对计算机分析处理图像数据具有重要意义。图像描述技术已经成为理解图像内容一种重要的解决方案。近年来,图像描述在人工智能领域受到了广泛的关注,并且在视障辅助、人机交互等领域有着广泛的应用。而用自然语言表达图像内容是一项非常具有挑战性的任务。
现有的图像描述工作通常采用编码-解码架构,其中编码器为卷积神经网络(Convolutional Neural Network,CNN),用于提取图像特征,解码器为递归神经网络(Recurrent Neural Network,RNN)用于生成描述,即根据视觉信息逐字构造图像描述。现有的研究已经取得了令人印象深刻的结果,但仍然存在较高的误识别问题。目前,研究者们为解决上述问题,通常针对生成端提出改进方案。例如2017年Dai,B.,Fidle,r S.,Urtasun,R.,Lin,D.:Towards Diverse and Natural Image Descriptions via aConditional GAN.In:Proceedings of the International Conference on ComputerVision,pp.2989-2998(2017)在条件生成对抗网络的基础上,提出了一个新的网络构架,同时学习两个网络。一个是用来生成描述的生成网络,另一个是用来评价生成句子是否和图像对应的评价网络,两个网络相互对抗,不断提高生成描述的准确性。2019年Fan,Z.,Wei,Z.,Wang,S.,Huang,X.:Bridging by Word:Image Grounded Vocabulary Constructionfor Visual Captioning.In:Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics,pp.6514-6524(2019)通过构建语义词汇表的方式,限制生成单词的选择空间,以减少误识别问题。虽然上述方法利用对抗、词表限制等手段在一定程度上减少了误识别问题,但却忽视了图像本身所包含的上下文信息,这种做法会限制描述对图像的概括程度,即由于生成过程受限,导致生成的描述不足以完全概括图像内容。2020年Longteng Guo,Jing Liu,Xinxin Zhu,Peng Yao,Shichen Lu,Hanqing Lu,Normalized and Geometry-Aware Self-Attention Network for ImageCaptioning,CVPR(2020)提出了一种用于图像描述自注意力网络,该网络利用自注意力机制捕获图像中对象的空间几何关系,考虑了图像特征的空间特性,但忽略了图像特征的多通道特性。
发明内容
针对上述问题,本发明利用自注意力机制能够捕获长程依赖的特性,设计了用于图像描述的双重自注意力模型,目的在于提供一种基于双重自注意力机制的图像描述方法,以减少错误识别的问题。与现有方法不同,本发明注重对图像信息的挖掘,通过自注意力机制建立图像特征的内在关系,充分利用图像的上下文信息提高特征表达,从而减少错误识别的问题。
为了达到上述目的,本发明所采用的技术方案为提供一种基于双重自注意力机制的图像描述方法。考虑到图像特征具有空间和多通道特性,本发明从空间和通道两个维度捕获图像特征的依赖关系,利用图像的上下文信息增强特征表达,然后通过解码器逐步生成描述,解码器由两层长短期记忆网络(缩写为LSTM)构成,利用LSTM的循环特性每一时刻生成一个单词,直至生成终止符<end>结束循环。具体包括以下步骤:
1)利用Faster R-CNN提取输入图像的特征图
2)将步骤1)中得到的特征图输入至本发明的双重自注意力模型,通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系,增强特征表达,从而得到新的特征图;
3)将步骤2)中得到的特征图输入至解码器的注意力层,解码器由两层LSTM构成,如图4所示,第一层LSTM为注意力层,第二层LSTM为生成层。注意力层用于预测t时刻在图像上的注意力分布,加权求和得到最终用于解码的特征向量Ct;
4)将步骤3)中的特征向量输入至解码器的第二层生成层,根据特征向量Ct以及注意力层t时刻输出的隐藏状态预测出当前时刻的单词wt。利用LSTM的循环特性重复步骤3)和步骤4)逐步生成单词,直至生成终止符<end>结束循环。描述语言由每一时刻生成的单词构成。
所述步骤1)中利用Faster R-CNN提取输入图像的特征,只选取所有类检测概率超过置信阈值的区域的特征,对于区域i,vi表示该区域的卷积平均池化特征。
所述步骤2)中的双重自注意力模型,如图2所示,包括空间分支、通道分支、调节单元。自注意力机制可以被描述为一个查询(query)到一系列键(key)-值(value)对的映射,其中查询、键和值都是向量,输出为值的加权和,其中分配给每个值的权重由查询和键的相关性决定。本文中使用Q、K和V分别表示查询、键和值,并下角标S和C表示空间自注意力分支和通道自注意力分支。在本发明中使用点乘计算相关性。
空间分支工作过程如下:
空间自注意力分支将全局空间上下文信息编码到局部特征。如图3(a)所示,将步骤1)中得到特征输入至三路1*1的卷积层中将通道数将为C/2,然后通过reshape函数分别对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图/>其中N=H×W为像素数量。然后对/>和/>做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵/>可表示为:
SATT=softmax(Ks TQs)
对和/>做矩阵乘法得到最后的输出/>可表示为:
通道分支工作过程如下:
如图3(b)所示,通道自注意力分支用于建模各通道间的映射关系。将步骤1)中得到的图像特征输入至三路1*1的卷积层,分别将通道数降为C/2,然后利用reshape函数分别对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图/>其中N=H×W为像素数量。然后对/>和/>做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵/>可表示为:
CATT=softmax(QcKc T)
对和/>做矩阵乘法得到最后的输出/>可表示为:
调节单元
调节单元的作用是通过调节双重自注意力模型的输出系数α和β来融合两个自注意力支路的输出,以获得更好的特征表达。调整单元的输出可以表示为:
AOUT=αSOUT+βCOUT
其中α和β是可学习的标量,初始值为0,在网络训练的过程中逐渐学习到更优的输出系数。最后,双重自注意力模型应用了残差连接,该模块的输出可表示为:
DOUT=AOUT+V=(αSOUT+βCOUT)+V
所述步骤3)中解码器由两层LSTM构成,如图4所示,第一层LSTM为注意力层,第二层LSTM为生成层,在本方法中使用上标A和G区分注意力层与生成层的输入输出。如图4所示,注意力层t时刻的输入包括t-1时刻生成的单词wt-1,双重自注意力模型的输出DOUT,以及生成层t-1时刻输出的隐藏状态公式表达如下:
At=softmax(at)
Ct=DOUTsoftmax(at)
其中,Ww,WD和WA是可学习参数,/>表示向量拼接操作。注意力层t时刻的输入为/>其输出为/>表示注意力层在t时刻输出的隐藏状态。at表示在t时刻图像上注意力分布,由/>和DOUT计算而来。对at使用softmax进行指数归一化以产生注意力权重At。最终通过加权求和的方式得到特征向量Ct。
所述步骤4)中解码器的第二层为生成层,如图4所示,其输入包括t时刻注意力层得到的特征向量Ct以及注意力层输出的隐藏状态可表示为:
生成层的输入为其输出为/>表示生成层在t时刻输出的隐藏状态。最后利用/>预测当前时刻的单词。在每一时间步t,生成单词的条件概率分布如下式:
取概率最大的单词作为当前时刻的输出。其中w1:t-1表示已生成的单词序列(w1,w2,...,wt-1)。WG和b均为待训练参数。
与现有方法相比,本发明的优势是,通过双重自注意力模型,能够有效捕获图像特征的长程依赖关系,增强特征表达。这为解码阶段提供了丰富的上下文信息,有利于生成更精确的描述,提高了描述语句的准确性。
附图说明
图1是本发明提供的一种基于双重自注意力机制的图像描述方法的流程图。
图2是双重自注意力模型结构图。
图3a是空间自注意力分支示意图。
图3b是通道自注意力分支示意图。
图4是解码器示意图。
图5a、5b是效果图。
具体实施方式
如图1所示,本发明提供一种基于双重自注意力机制的图像描述方法,包含以下步骤:
1)选择数据集并构建词库。选择MS COCO数据集训练网络,该数据集包括82783个训练图像,40504个验证图像和40775个测试图像,每个图像都包含人工标注的图像描述(ground truth)。统计数据集中所有人工标注的描述单词,词库由出现五次以上的单词以及开始/结束标志符<star>/<end>构成。
2)提取特征。利用Faster R-CNN算法提取输入图像的重要特征。Faster R-CNN是一种目标检测算法,在本实施列中只选取所有类检测概率超过置信阈值0.2的区域特征,对于区域i,vi表示该区域的平均池化特征。
3)特征增强。将步骤1)中得到的特征图输入至双重自注意力模型,通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系,增强特征表达,得到新的特征图。
在本实施例中,对于每幅图像,通过特征提取器能够得到特征捕获空间依赖关系具体过程下:
如图3(a)所示,将V输入至三路1*1的卷积层中将通道数降为1024。然后对三路1*1卷积层的输出做reshape操作,将输出维度由1024×6×6维变成1024×36维完成矩阵变换,得到三个新的特征图然后对/>和/>做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵/>可表示为:
SATT=softmax(Ks TQs)
对和/>做矩阵乘法得到最后的输出/>可表示为:
捕获空间依赖关系具体过程下:
如图3(b)所示,将V输入至三个1*1的卷积层中将通道数将为1024。然后对三路1*1卷积层的输出做reshape操作,将输出维度由1024×6×6维变成1024×36维完成矩阵变换,得到三个新的特征图然后对/>和/>做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵/>可表示为:
CATT=softmax(QcKc T)
对和/>做矩阵乘法得到最后的输出/>可表示为:
然后经调节单元将空间自注意力分支和通道自注意力分支的输出融合,如下式:
AOUT=αSOUT+βCOUT
其中输出系数α和β是可学习标量,初始值为0,在网络训练的过程中逐渐学习到更优的输出系数。
最后,双重自注意力模型应用了残差连接,该模块最终输出的特征图可表示为:
DOUT=AOUT+V=(αSOUT+βCOUT)+V
4)解码阶段。将步骤2)中得到的特征图输入至解码器的注意力层,如图4所示,所述的解码器由两层LSTM构成,第一层LSTM为注意力层。注意力层t时刻的输入包括t-1时刻生成的单词wt-1,双重自注意力模型的输出DOUT,以及生成层的t-1时刻的隐藏状态且在t=1时刻输入的单词为开始标志符<star>,生成层的隐藏状态初始化为0。预测生成当前词汇在图像上的注意力分布,公式表达如下:
At=softmax(at)
Ct=DOUTsoftmax(at)
其中,Ww,Wc T,WD和WA是可学习参数,表示向量拼接操作。注意力层t时刻的输入记为/>其输出为/>表示注意力层在t时刻输出的隐藏状态。at表示在t时刻图像上注意力分布,由/>和DOUT计算而来。对at使用softmax进行指数归一化以产生注意力权重。最终通过对DOUT加权求和的方式得到上下文向量Ct。
将在注意力层中得到的特征向量Ct输入至解码器的生成层。如图4所示,该层输入包括t时刻注意力层的得到的特征向量Ct以及注意力层输出的隐藏状态可表示为:
注意力层的输入为其输出为/>表示注意力层在t时刻输出的隐藏状态。最后利用生成层输出的隐藏状态/>预测当前时刻的单词。在每一时间步t,生成当前单词的条件概率分布如下式:
取概率最大的单词作为当前时刻的输出。其中w1:t-1表示已生成的单词序列(w1,w2,...,wt-1)。5)损失函数:
通过最小化交叉熵损失函数训练网络,交叉熵损失函数能够表示模型预测的分布和真实分布之间的差异,差异越小交叉熵就越小。在本方法中,将每一个单词的预测过程看做是预测该单词在词库中的概率分布。所述交叉熵损失函数如下式:
其中,θ表示网络中待学习参数,表示真实标注的描述中第t个单词,/>表示真是标注的描述中的第1至t个单词,T表示真实标注的描述的单词数量。/>表示生成层softmax函数输出的第t个单词的概率分布中,与真实标注的第t个单词得到的置信度。例如假设第一步构建的词库由三个单词构成[W1,W2,W3],在t时刻生成层输出的概率分布为[0.3,0.1,0.6],表示第t个单词是W1,W2,W3的概率分别为0.3,0.1,0.6。其真实分布为[0,0,1],则预测第t个单词的置信度为0.6,即损失函数中取0.6计算。
实验结果表明本发明生成的描述更为准确。如图5a、b所示,Xu K,Ba J,Kiros R,et al.Show,Attend and Tell:Neural Image Caption Generation with VisualAttention[J].Computer Science,2015:2048-2057.的方法将第一幅图片中的“路”描述为“桥”,将第二副图片中的“面包”描述为“披萨”。两幅图像均出现了错误识别的问题。本发明能够准确的将第一幅图片描述为“一个年轻女子骑着自行车沿着海边的一条路走”,将第二幅图片描述为“一个女人站在一桌食物前”。
Claims (6)
1.一种基于双重自注意力机制的图像描述方法,其特征在于,利用特征提取器提取图像的特征,然后通过双重自注意力模型捕获图像特征依赖关系,获得图像的上下文信息提高特征表达,然后通过解码器逐步生成描述,解码器由两层长短期记忆网络(缩写为LSTM)构成,利用LSTM的循环特性每一时刻生成一个单词,直至生成终止符<end>结束循环,描述语言由每一时刻生成的单词构成,具体包括以下步骤:
1)利用Faster R-CNN提取输入图像的特征图;
2)将步骤1)中得到的特征图输入至双重自注意力模型,通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系,增强特征表达,从而得到新的特征图;
3)将步骤2)中得到的特征图输入至解码器的注意力层,所述的解码器由两层LSTM构成,第一层LSTM为注意力层,预测t时刻在输入图像上的注意力分布,加权求和得到最终用于解码的特征向量Ct;
4)将步骤3)中的特征向量输入至解码器的生成层,根据特征向量Ct以及注意力层t时刻输出的隐藏状态预测出当前时刻的单词wt;利用LSTM的循环特性重复步骤3)和步骤4)逐一生成单词,直至生成终止符<end>结束循环,描述语言由每一时刻生成单词构成。
2.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤1)中利用目标检测算法Faster R-CNN提取输入图像的重要特征只选取所有类检测概率超过置信阈值的区域的特征vi,对于区域i,vi表示该区域的平均池化特征。
3.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤2)中的双重自注意力模型,包括空间分支、通道分支、调节单元;
空间分支工作过程如下:
将步骤1)中得到的特征输入至三路1*1的卷积层中,分别将通道数降为C/2;然后对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图表示为/>其中N=H×W为像素数量;然后对/>和做矩阵乘法得到空间相关矩阵,并将其输入至softmax函数得到空间注意力矩阵可表示为:
SATT=softmax(Ks TQs)
对和/>做矩阵乘法得到最后的输出/>可表示为:
通道分支工作过程如下:
通道自注意力分支用于建模各通道间的映射关系,将步骤1)中得到的特征输入至三路1*1的卷积层中,分别将通道数降为C/2,然后对三路1*1卷积层的输出做矩阵变换,输出维度由C/2×H×W维变成C/2×N维,得到三个新的特征图/>其中N=H×W为像素数量;然后对/>和/>做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵/>可表示为:
CATT=softmax(QcKc T)
对和/>做矩阵乘法得到最后的输出/>可表示为:
调节单元,
调节单元的作用是通过调节双重自注意力模型的输出系数α和β来融合两个自注意力支路的输出,调整单元的输出表示为:
AOUT=αSOUT+βCOUT
其中α和β是可学习的标量,初始值为0,在网络训练的过程中逐渐学习到更优的输出系数;最后,双重自注意力模型应用了残差连接,所述双重自注意力模型的输出可表示为:
DOUT=AOUT+V=(αSOUT+βCOUT)+V。
4.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤3)中解码器由两层LSTM构成,第一层LSTM为注意力层,第二层LSTM为生成层,在本方法中使用上标A和G区分注意力层与生成层的输入输出;注意力层t时刻的输入包括t-1时刻生成的单词wt-1,双重自注意力模型的输出DOUT,以及生成层t-1时刻输出的隐藏状态公式表达如下:
At=softmax(at)
Ct=DOUTAt
其中,Ww,WD和WA是可学习参数,/>表示向量拼接操作,注意力层t时刻的输入记为/>其输出为/>表示注意力层在t时刻输出的隐藏状态,at表示在t时刻图像上注意力分布,由和DOUT计算而来;对at使用softmax进行指数归一化以得到最终的注意力权重At,最后通过对DOUT加权求和的方式得到特征向量Ct。
5.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,所述步骤4)中解码器的第二层为生成层,其输入包括t时刻注意力层得到的特征向量Ct以及注意力层输出的隐藏状态可表示为:
生成层的输入为其输出为/>表示生成层在t时刻输出的隐藏状态,最后利用/>预测当前时刻的单词,在t时刻,生成单词的条件概率分布如下式:
取概率最大的单词作为当前时刻的输出,其中w1:t-1表示已生成的单词序列(w1,w2,...,wt-1),WG和b均为待训练参数。
6.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法,其特征在于,由双重自注意力模型和解码器构成的网络,训练过程如下:
给定一个真实标注的描述网络参数为θ,通过最小化交叉熵损失函数训练网络,所述交叉熵损失函数如下式:
其中,表示真实标注的描述中第t个单词,/>表示真是标注的描述中的第1至t个单词,T表示真实标注的描述的单词数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011235688.3A CN112329794B (zh) | 2020-11-06 | 2020-11-06 | 一种基于双重自注意力机制的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011235688.3A CN112329794B (zh) | 2020-11-06 | 2020-11-06 | 一种基于双重自注意力机制的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329794A CN112329794A (zh) | 2021-02-05 |
CN112329794B true CN112329794B (zh) | 2024-03-12 |
Family
ID=74316548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011235688.3A Active CN112329794B (zh) | 2020-11-06 | 2020-11-06 | 一种基于双重自注意力机制的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329794B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158791B (zh) * | 2021-03-15 | 2022-08-16 | 上海交通大学 | 一种以人为中心的图像描述标注方法、系统、终端及介质 |
CN112949553A (zh) * | 2021-03-22 | 2021-06-11 | 陈懋宁 | 基于自注意力级联生成对抗网络的人脸图像修复方法 |
CN113095431B (zh) * | 2021-04-27 | 2023-08-18 | 中山大学 | 一种基于注意力机制的图像描述方法、系统及装置 |
CN113469260B (zh) * | 2021-07-12 | 2022-10-04 | 天津理工大学 | 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 |
CN113762251B (zh) * | 2021-08-17 | 2024-05-10 | 慧影医疗科技(北京)股份有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN114898121B (zh) * | 2022-06-13 | 2023-05-30 | 河海大学 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
CN116152623B (zh) * | 2023-04-04 | 2023-07-18 | 江西财经大学 | 基于多粒度特征融合的全景图像描述方法与系统 |
CN117036967B (zh) * | 2023-10-08 | 2024-01-19 | 江西师范大学 | 一种非视觉感知区域通道注意力的遥感图像描述方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
-
2020
- 2020-11-06 CN CN202011235688.3A patent/CN112329794B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112329794A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329794B (zh) | 一种基于双重自注意力机制的图像描述方法 | |
CN113657124B (zh) | 基于循环共同注意力Transformer的多模态蒙汉翻译方法 | |
CN110909673B (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Gao et al. | RNN-transducer based Chinese sign language recognition | |
CN108829677A (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
CN111859912A (zh) | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 | |
CN110348447B (zh) | 一种具有丰富空间信息的多模型集成目标检测方法 | |
CN110929092A (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
CN111259940A (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
Oluwasanmi et al. | Fully convolutional captionnet: Siamese difference captioning attention model | |
CN111523378A (zh) | 一种基于深度学习的人体行为预测方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN116343334A (zh) | 融合关节捕捉的三流自适应图卷积模型的动作识别方法 | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
CN115311598A (zh) | 基于关系感知的视频描述生成系统 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |