CN113837230A - 基于自适应注意力机制的图像描述生成方法 - Google Patents

基于自适应注意力机制的图像描述生成方法 Download PDF

Info

Publication number
CN113837230A
CN113837230A CN202111005878.0A CN202111005878A CN113837230A CN 113837230 A CN113837230 A CN 113837230A CN 202111005878 A CN202111005878 A CN 202111005878A CN 113837230 A CN113837230 A CN 113837230A
Authority
CN
China
Prior art keywords
grid
visual
image description
adaptive attention
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111005878.0A
Other languages
English (en)
Inventor
纪荣嵘
纪家沂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111005878.0A priority Critical patent/CN113837230A/zh
Publication of CN113837230A publication Critical patent/CN113837230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

基于自适应注意力机制的图像描述生成方法,属于人工智能技术领域。提出一个网格增强模块,引入网格位置之间的相对几何关系来增强网格特征。首先构造基于BERT的语言模型用于提取生成序列的语言信息,接着在transformer的解码器上方构造一个自适应注意力模块,用于在每个单词预测前充分度量视觉信息和语言信息的贡献,来生成更有区分度的图像描述。为证明提出的方法具有通用性,将这两个模型添加到初始的transformer结构上构造RSTNet,并在图像描述的基准数据集MS‑COCO上进行测试。提出的模型在线下MS‑COCO的Karpathy划分测试集和线上的MS‑COCO测试服务器上均取得最先进的性能。

Description

基于自适应注意力机制的图像描述生成方法
技术领域
本发明涉及人工智能领域中的视觉和语言多模态任务,具体是涉及对给定图像中视觉内容进行建模并用自然语言描述出来的一种基于可区分视觉词和非视觉词的自适应注意力机制的图像描述生成模型。
背景技术
图像描述旨在自动地生成自然语言来描述给定图像的视觉内容,这就要求图像描述模型不仅要能够确定给定图像中有哪些视觉对象,还要能够用捕获到这些视觉对象之间的关系并用自然语言表示出来。图像描述相当于模仿人类将大量显著的视觉信息压缩为描述性语言的非凡能力,因此是人工智能领域研究的一个重要的挑战。结合图像和语言理解,图像描述持续地启发很多突破计算机视觉和自然语言处理的界限的研究。
源自于机器翻译领域的编码器-解码器框架在众多图像描述模型[1,2]中得到广泛的应用。其中,编码器通常是一个基于卷积神经网络[3]的图像特征提取器,解码器通常是一个基于循环神经网络[4]的序列模型。此外,注意力机制[1,5,6,7]也被引入来帮助模型在序列化生成自然语言序列时关注相关联地图像位置。例如,[1]将软注意力和硬注意力引入到基于长短期记忆单元的解码器模块,[6]提出动态注意力机制在基于循环神经网络的解码器模块上动态地决定生成当前词时是否关注视觉信号,Anderson et al.[7]提出自底向上和自顶向下地注意力机制来关注区域级别的视觉内容,此外,[8,9,10,11,12]将transformer结构引入到图像描述模型中并且取得最优异的性能。
基于编码器-解码器框架,改进图像描述模型主要通过以下两种途径,一是优化从给定图像中提取的视觉特征,二是改进用于处理这些视觉特征的模型结构。对于目前最受欢迎的基于transformer结构的图像描述模型,有两个严重的问题尚未解决,一是将网格特征送入transformer结构前需要做展平处理,这两不可避免地造成空间信息的损失,二是在transformer结构中,单词序列堆叠在一起,所有单词的预测都按照相同的方式进行,没有有效的措施来区分视觉词和非视觉词。
涉及的参考文献如下:
[1].Xu,K.,Ba,J.,Kiros,R.,Cho,K.,Courville,A.C.,Salakhudinov,R.,Zemel,R.,Bengio,Y.:Show,attend and tell:Neural image caption generation with visualattention.In:ICML.pp.2048{2057(2015).
[2]A.Karpathy and L.Fei-Fei.Deep visual-semantic alignments forgenerating image descriptions.In CVPR,2015.1,4,5.
[3]Simonyan,K.,Zisserman,A.:Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv:1409.1556(2014).
[4]Hochreiter,S.,Schmidhuber,J.:Long short-term memory.NeuralComputation 9(8),1735{1780(nov 1997).https://doi.org/10.1162/ neco.1997.9.8.1735.
[5]Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,Kaiser,L.,Polosukhin,I.:Attention is all you need.In:NeurIPS.pp.5998{6008(2017).
[6]Jiasen Lu,Caiming Xiong,Devi Parikh,and Richard Socher.Knowingwhen to look:Adaptive attention via a visual sentinel for image captioning.InProceedings of the IEEE conference on computer vision and patternrecognition,pages 375–383,2017.1,2,4.
[7].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
[8]Simao Herdade,Armin Kappeler,Kofi Boakye,and Joao Soares.Imagecaptioning:Transforming objects into words.In Advances in Neural InformationProcessing Systems,pages 11137–11147,2019.1,3,4,7.
[9]Lun Huang,Wenmin Wang,Jie Chen,and Xiao-Yong Wei.Attention onattention for image captioning.In Proceedings of the IEEE InternationalConference on Computer Vision,pages 4634–4643,2019.2,3,7,8.
[10]Guang Li,Linchao Zhu,Ping Liu,and Yi Yang.Entangled transformerfor image captioning.In Proceedings of the IEEE International Conference onComputer Vision,pages 8928–8937,2019.3,8.
[11]Marcella Cornia,Matteo Stefanini,Lorenzo Baraldi,and RitaCucchiara.Meshed-memory transformer for image captioning.In Proceedings oftheIEEE/CVF Conference on Computer Vision and Pattern Recognition,pages 10578–10587,2020.1,2,3,6,7,8.
[12]Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.X-linear attentionnetworks for image captioning.In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,pages 10971–10980,2020.1,2,3,7,8.
[13]Steven J Rennie,Etienne Marcheret,Youssef Mroueh,Jerret Ross,andVaibhava Goel.Self-critical sequence training for image captioning.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 7008–7024,2017.6,7,8.
[14]Wenhao Jiang,Lin Ma,Yu-Gang Jiang,Wei Liu,and TongZhang.Recurrent fusion network for image captioning.In Proceedings of theEuropean Conference on Computer Vision(ECCV),pages 499–515,2018.1,7,8.
[15]Ting Yao,Yingwei Pan,Yehao Li,and Tao Mei.Exploring visualrelationship for image captioning.In Proceedings ofthe European conference oncomputer vision(ECCV),pages 684–699,2018.7,8.
[16]Xu Yang,Kaihua Tang,Hanwang Zhang,and Jianfei Cai.Auto-encodingscene graphs for image captioning.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 10685–10694,2019.1,7,8.
发明内容
本发明的目的在于提供一种基于自适应注意力机制的图像描述生成方法。针对之前的基于transformer结构的图像描述模型存在的视觉特征空间信息损失问题以及不能区分视觉词和非视觉词的缺陷,一方面构建网格增强模,将网格与网格之间的相对几何关系作为特征的空间信息引入到网格特征中用以弥补空间信息的损失,另一方面,构建一个自适应注意力模型,在预测每个词前,充分度量视觉信息和语言信息的贡献,最终生成更加准确和更有区分度的图像描述。
本发明包括以下步骤:
1)给定一张图片,使用ResNext101作为特征提取器提取特征,并且将与Faster-RCNN提取区域特征完全相同结构的网格特征作为这张图片的特征表示;
2)根据网格特征的尺寸构造一个二维坐标系,对坐标系做归一化处理得到每个网格的相对位置;
3)根据网格的相对位置计算出网格与网格之间的相对几何关系特征,用来作为网格特征的空间信息表示;
4)将网格特征展平,送入到transformer的编码器结构中,并用网格与网格之间的相对几何关系特征来弥补特征展平操作造成的空间信息损失;
5)将已经生成的序列(初始为一个开始字符)送入到一个预训练的语言模型,提取生成序列的语言信息表示;
6)在transformer的解码器结构上方,使用一个注意力模型度量视觉信息和语言信息对当前词预测的贡献,以便有区分地生成视觉词和非视觉词;
7)用visualness指标对单词的视觉化程度进行量化。
在步骤1)中,所述与Faster-RCNN提取区域特征完全相同结构的网格特征,直接提取网格特征,不需要生成候选区域,以提高特征提取速度。
在步骤2)中,所述二维坐标系构造完成后,每个网格的位置由其左上角和右下角的坐标唯一确定。
在步骤3)中,所述网格与网格之间的相对几何关系特征包括每个网格的相对中心位置、相对长度和宽度等。
在步骤5)中,所述提取生成序列的语言信息表示,首先预训练一个基于BERT的语言模型,固定其参数,然后用该语言模型提取已生成的序列的语言信息。
在步骤6)中,所述transformer的解码器结构上方,可构建一个自适应注意力模块,基于transformer解码器输出的隐含状态,度量视觉信息和语言信息对当前词预测的贡献,有区分地生成视觉词和非视觉词。
在步骤7)中,所述用visualness指标对单词的视觉化程度进行量化,基于自适应注意力模块的输出。
本发明的突出优点如下:
(1)本发明提出一个网格增强模块作为经过展平操作的网格特征的一个扩展,通过集成提取自给定图像的原始视觉特征的空间几何信息来弥补网格特征空间信息的损失,生成更加准确的注意力图谱,提升图像描述模型的性能。
(2)本发明提出一个自适应注意力模块,在预测每个单词之前,充分度量视觉信息和语言信息对当前预测的贡献,促进生成更有区分度,更加细粒度的图像描述。
(3)本发明提出一个量化词典中每个词视觉性的指标visualness,并基于这个量化指标挑选出测试集中高视觉性的图片和低视觉性的图片。
(4)本发明把网格增强模块和自适应注意力模型应用到原始的transformer结构上构建图像描述模型RSTNet,在基准数据集的线上和线下测试中均取得最先进的性能。
附图说明
图1是本发明所需解决的问题展示。(a)表示视觉特征的空间信息损失,(b)表示图像描述中既有视觉词又有非视觉词的例子。
图2是本发明构建的基于transformer结构的图像描述模型RSTNet的总体结构图。
图3是本发明构建的用于提取序列语言信息的语言模型结构图。
图4是本发明构建的用于度量视觉信息和语言信息贡献的自适应注意力模块的结构图。
图5是基于本发明中提出单词视觉程度量化指标visualness在Karpathy划分的MS-COCO测试集中挑选出的代表性图片。
图6是本发明提出的RSTNet和原始transformer结构生成图像描述的对比。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对之前的基于transformer结构的图像描述模型存在的两个缺陷:视觉特征展平造成的空间信息损失和不能区分视觉词和非视觉词,提出引入相对空间几何关系的网格增强模块和度量视觉信息和语言信息贡献的自适应注意力模块,生成更加准确,更有区分度的图像描述,极大生成图像描述模型的性能。
本发明实施例基于自适应注意力机制的图像描述生成方法包括以下步骤:
1)给定一张图片,使用ResNext101作为特征提取器提取特征,并且将与Faster-RCNN提取区域特征完全相同结构的网格特征作为这张图片的特征表示。在与Faster-RCNN完全相同的结构中,直接提取网格特征,不需要生成候选区域,能显著提高特征提取速度。
2)根据网格特征的尺寸构造一个二维坐标系,对坐标系做归一化处理便可以得到每个网格的相对位置。二维相对位置坐标系构建完成以后,每个网格的位置由其左上角和右下角的坐标唯一确定。
3)根据网格的相对位置计算出网格与网格之间的相对几何关系特征,用来作为网格特征的空间信息表示。所述相对几何关系特征包括每个网格的相对中心位置,相对长度和宽度,
4)将网格特征展平,送入到transformer的编码器结构中,并用网格与网格之间的相对几何关系特征来弥补特征展平操作造成的空间信息损失。网格特征和网格之间的相对几何关系一起参与到transformer中注意力的计算,用于生成更加准确的注意力图谱。
5)将已经生成的序列(初始为一个开始字符)送入到一个预训练的语言模型,提取生成序列的语言信息表示。首先预训练一个基于BERT的语言模型,固定其参数,然后用这个语言模型提取已生成的序列的语言信息。
6)在transformer的解码器上方,构建一个自适应注意力模块,基于transformer解码器输出的隐含状态,度量视觉信息和语言信息对当前词预测的贡献,有区分地生成视觉词和非视觉词。
7)基于自适应注意力模块的输出,提出量化单词的可视化程度的指标visualness,用visualness指标对单词的视觉化程度进行量化。
基于上述基于自适应注意力机制的描述方法,本发明提供一种图像描述生成模型,图2是本发明构建的基于transformer结构的图像描述模型RSTNet的总体结构图,所述图像描述生成模型依次包括网格增强模块、语言特征表示模块、自适应注意力模块和视觉化程度指标四个部分。
1、网格增强模块
这一部分主要包含步骤1)~4)。首先,在一个与Faster-RCNN完全相同的结构中提取网格特征,这个特征提取过程以ResNext101作为特征提取器。然后,根据网格特征的尺寸构建一个如图1(a)所示的二维坐标系,并确定每个网格的左上角坐标和右下角坐标,比如第i个网格的左上角坐标为
Figure BDA0003237197870000061
右下角坐标为
Figure BDA0003237197870000062
接下来,按下式计算每个网格的相对中心位置,相对宽度,相对高度。其中,第i个网格的中心位置(cxi,cyi),的计算公式(1)所示,相对宽度wi的计算如公式(2)所示,相对高度hi的计算如公式(3)所示。
Figure BDA0003237197870000063
Figure BDA0003237197870000064
Figure BDA0003237197870000071
其中,是第i个网格的左上角坐标,是第i个网格的。
然后基于网格的相对中心位置,相对宽度和相对高度,计算出两两网格之间的相对空间几何关系rij,如公式(4)所示。
Figure BDA0003237197870000072
为了应用网格之间的相对几何关系rij,将其进行如公式(5)和公式(6)所示的变换,得到网格之间的相对空间几何特征
Figure BDA0003237197870000073
作为视觉特征的全局位置信息的表示。
Gij=FC(rij), (5)
Figure BDA0003237197870000074
其中,公式(5)中的FC一个神经网络全连接层,将相对空间几何关系转化为相对空间几何特征。公式(6)中
Figure BDA0003237197870000075
是一个权重矩阵,进行线性变换,ReLU是一个神经网络激活函数。最后,把全局位置信息λg加入到transformer编码器中的注意力计算,如公式(7)所示。
Figure BDA0003237197870000076
其中Q,K,V是transformer编码器的注意力模块中的查询,键和值,dk是K的维度,
Figure BDA0003237197870000077
度量每个序列元素与其他元素之间全局语义关系,与全局位置关系λg互相补充,进而得到更加准确的注意力值。
2、语言特征表示模块
这一部分主要包含步骤5),首先,基于目前自然语言处理领域最受欢迎的BERT模型构建一个语言模型,用于获取单词序列的语言信息,如公式(8)所示。在做序列中每个单词的预测时,只知道已经生成的单词序列的信息,因此在BERT模型的上方添加一个遮蔽自注意力模块,如公式(9)所示。然后,使用MS-COCO训练集中的图像描述序列通过优化交叉熵的方式训练发明中的语言模型,如公式(10)所示。最后,使用遮蔽自注意力模块的输出作为语言信息的表示,如公式(11)所示。
lf=BERT(W),
(8)S=MaskedAttentionModule(FF1(lf)+pos), (9)
Figure BDA0003237197870000081
Figure BDA0003237197870000082
其中,BERT是预训练的语言模型,MaskedAttentionModule是遮蔽子注意力模块,BBLM是本专利中使用的基于BERT的语言模型,其结构是BERT上方添加MaskedAttentionModule,log_softmax是一个神经网络激活函数,W是单词序列,lf表示单词序列对应的语言特征,FF1和FF2为两个线性变换层,pos为序列中单词的位置信息,S为遮蔽自注意力模块输出的序列特征,st即为序列中当前单词的语言信息表示。
3、自适应注意力模块
这一部分主要包含步骤6),之前基于transformer结构的图像描述模型都是直接使用解码器输出的单词的隐含状态来做单词预测,隐含状态的计算过程如公式(12)所示:
ht=Decoder(U,W<t), (12)
而本发明在transformer的解码器上方构建一个自适应注意力模型,如图4所示,使得模型在做单词预测前,再思考一次,度量视觉信息和语言信息对当前单词预测的贡献,以便动态地生成视觉词或者非视觉词。本发明的自适应注意力模块是一个多头注意力模块,其输入有三个:transformer编码器输出的视觉特征U,语言模型输出的语言信息wt,transformer解码器输出的隐含状态ht,计算过程如下:
Figure BDA0003237197870000083
Figure BDA0003237197870000084
headi=Concate(headi,1,...,headi,M), (15)
att=Concate(head1,...,headh)WO, (16)
其中,
Figure BDA0003237197870000085
Figure BDA0003237197870000086
是三个权重矩阵,qi,t,ki,t和vi,t是自适应注意力模块的第i个头的第t个时间步的查询,键和值,headi,t是第i个头的第t个时间步计算出的注意力值,headi是第i个头计算出的注意力值,att是自适应注意力模块输出的注意力值。Concate表示拼接操作,softmax是一个多分类任务中的神经网络激活函数。最后使用att做序列中所有单词的预测。
4、视觉化程度指标部分
这一部分主要包含步骤7),本发明基于自适应注意力模块输出的视觉信息和语言信息的权重,提出visualness量化每个单词的视觉化程度,计算过程如下:
Figure BDA0003237197870000091
Figure BDA0003237197870000092
Figure BDA0003237197870000093
γt=1-βt, (20)
其中,αi,t是自适应注意力模块的第i个头的第t个时间步对视觉信息和相关语言信息关注程度的权重分布,βi,t是自适应注意力模块的第i个头的第t个时间步对当前语言信息的关注程度,βt是自适应注意力模块的第t个时间步对当前语言信息的关注程度,γt为第t个时间步单词的视觉化程度。
具体实验结果如下:为验证提出的模型的可行性和先进性,本发明在图像描述的基准数据集MS-COCO上对提出的模型进行评估。为证明本发明提出的方法具有通用性,实验分别在ResNext101和ResNext152两种特征提取器提取的特征下进行。
本发明中不同模块的分解实验如表1和表2所示,可以看到本发明提出的两个模块均能有效提高图像描述的性能,融合两个模块可以带来更大的性能提升。
表1本发明中不同模块在ResNext101特征上的分解实验
Figure BDA0003237197870000094
表2本发明中不同模块在ResNext152特征上的分解实验
Figure BDA0003237197870000095
本发明中的RSTNet与其他最先进方法在线下测试的对比实验如表3所示。
本发明中的RSTNet与其他最先进方法在同一特征下的对比实验如表4所示。本发明中的RSTNet与其他最先进方法在线上测试的对比实验如表5所示。
图5和图6展示定性分析的结果。
表3本发明方法与其他先进方法线下测试的比较
Figure BDA0003237197870000101
表4本发明方法与其他先进方法在ResNext101特征下的比较
Figure BDA0003237197870000102
表5本发明方法与其他先进方法线上测试的比较
Figure BDA0003237197870000103
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.基于自适应注意力机制的图像描述生成方法,其特征在于包括以下步骤:
1)给定一张图片,使用ResNext101作为特征提取器提取特征,并且将与Faster-RCNN提取区域特征完全相同结构的网格特征作为这张图片的特征表示;
2)根据网格特征的尺寸构造一个二维坐标系,对坐标系做归一化处理得到每个网格的相对位置;
3)根据网格的相对位置计算出网格与网格之间的相对几何关系特征,用来作为网格特征的空间信息表示;
4)将网格特征展平,送入到transformer的编码器结构中,并用网格与网格之间的相对几何关系特征来弥补特征展平操作造成的空间信息损失;
5)将已经生成的序列(初始为一个开始字符)送入到一个预训练的语言模型,提取生成序列的语言信息表示;
6)在transformer的解码器结构上方,使用一个注意力模型度量视觉信息和语言信息对当前词预测的贡献,以便有区分地生成视觉词和非视觉词;
7)用visualness指标对单词的视觉化程度进行量化。
2.如权利要求1所述基于自适应注意力机制的图像描述生成方法,其特征在于在步骤1)中,所述与Faster-RCNN提取区域特征完全相同结构的网格特征,直接提取网格特征,不需要生成候选区域,以提高特征提取速度。
3.如权利要求1所述基于自适应注意力机制的图像描述生成方法,其特征在于在步骤2)中,所述二维坐标系构造完成后,每个网格的位置由其左上角和右下角的坐标唯一确定。
4.如权利要求1所述基于自适应注意力机制的图像描述生成方法,其特征在于在步骤3)中,所述网格与网格之间的相对几何关系特征包括每个网格的相对中心位置、相对长度和宽度。
5.如权利要求1所述基于自适应注意力机制的图像描述生成方法,其特征在于在步骤5)中,所述提取生成序列的语言信息表示,首先预训练一个基于BERT的语言模型,固定其参数,然后用该语言模型提取已生成的序列的语言信息。
6.如权利要求1所述基于自适应注意力机制的图像描述生成方法,其特征在于在步骤6)中,所述transformer的解码器结构上方,可构建一个自适应注意力模块,基于transformer解码器输出的隐含状态,度量视觉信息和语言信息对当前词预测的贡献,有区分地生成视觉词和非视觉词。
7.如权利要求1所述基于自适应注意力机制的图像描述生成方法,其特征在于在步骤7)中,所述用visualness指标对单词的视觉化程度进行量化是基于自适应注意力模块的输出。
CN202111005878.0A 2021-08-30 2021-08-30 基于自适应注意力机制的图像描述生成方法 Pending CN113837230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005878.0A CN113837230A (zh) 2021-08-30 2021-08-30 基于自适应注意力机制的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005878.0A CN113837230A (zh) 2021-08-30 2021-08-30 基于自适应注意力机制的图像描述生成方法

Publications (1)

Publication Number Publication Date
CN113837230A true CN113837230A (zh) 2021-12-24

Family

ID=78961612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005878.0A Pending CN113837230A (zh) 2021-08-30 2021-08-30 基于自适应注意力机制的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN113837230A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612891A (zh) * 2022-03-09 2022-06-10 华南理工大学 基于对比学习和自适应注意力的图像描述生成方法及介质
CN115049844A (zh) * 2022-06-29 2022-09-13 厦门大学 一种增强视觉信息流的图像描述生成方法
CN115049844B (zh) * 2022-06-29 2024-06-04 厦门大学 一种增强视觉信息流的图像描述生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN112052906A (zh) * 2020-09-14 2020-12-08 南京大学 一种基于指针网络的图像描述优化方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN112052906A (zh) * 2020-09-14 2020-12-08 南京大学 一种基于指针网络的图像描述优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUAIZU JIANG, ISHAN MISRA, MARCUS ROHRBACH, ERIK LEARNED-MILLER AND XINLEI CHEN: "n defense of grid features for visual question answering", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION *
XUYING ZHANG; XIAOSHUAI SUN; YUNPENG LUO; JIAYI JI; YIYI ZHOU; YONGJIAN WU; FEIYUE HUANG; RONGRONG JI: "RSTNet: Captioning with Adaptive Attention on Visual and Non-Visual Words", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 1 - 9 *
李敬: "基于多模态注意力学习的图像描述方法", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 04 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612891A (zh) * 2022-03-09 2022-06-10 华南理工大学 基于对比学习和自适应注意力的图像描述生成方法及介质
CN114612891B (zh) * 2022-03-09 2024-05-28 华南理工大学 基于对比学习和自适应注意力的图像描述生成方法及介质
CN115049844A (zh) * 2022-06-29 2022-09-13 厦门大学 一种增强视觉信息流的图像描述生成方法
CN115049844B (zh) * 2022-06-29 2024-06-04 厦门大学 一种增强视觉信息流的图像描述生成方法

Similar Documents

Publication Publication Date Title
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN112883231B (zh) 短视频流行度预测方法、系统、电子设备及存储介质
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN113837230A (zh) 基于自适应注意力机制的图像描述生成方法
CN114821770A (zh) 文本到图像的跨模态行人再识别方法、系统、介质和设备
CN117315244A (zh) 融合多尺度特征的医学图像分割方法、设备、存储介质
CN114387524B (zh) 基于多层级二阶表征的小样本学习的图像识别方法和系统
CN108959512B (zh) 一种基于属性增强注意力模型的图像描述网络及技术
CN116403237A (zh) 一种基于关联信息与注意力机制的遮挡行人重识别方法
CN116309364A (zh) 变电站异常巡检方法及装置、存储介质、计算机设备
CN116484224A (zh) 一种多模态预训练模型的训练方法、装置、介质及设备
CN115331081A (zh) 图像目标检测方法与装置
CN114359786A (zh) 一种基于改进时空卷积网络的唇语识别方法
He et al. MTRFN: Multiscale temporal receptive field network for compressed video action recognition at edge servers
CN111061774B (zh) 搜索结果准确性判断方法、装置、电子设备及存储介质
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN116821724B (zh) 多媒体处理网络生成方法、多媒体处理方法及装置
CN113642549B (zh) 快速目标检测系统和电子设备
CN110189272B (zh) 用于处理图像的方法、装置、设备和存储介质
Wang et al. End-to-End Object Detection with Location-Sensitive Cues
Wang et al. Channel Attention for No-Reference Image Quality Assessment in DCT domain
Ling et al. EPCA-ENet facilitates robotic hand recognition accuracy with flexible pressure sensor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination