CN114186568A - 一种基于关系编码和层次注意力机制的图像段落描述方法 - Google Patents

一种基于关系编码和层次注意力机制的图像段落描述方法 Download PDF

Info

Publication number
CN114186568A
CN114186568A CN202111541714.XA CN202111541714A CN114186568A CN 114186568 A CN114186568 A CN 114186568A CN 202111541714 A CN202111541714 A CN 202111541714A CN 114186568 A CN114186568 A CN 114186568A
Authority
CN
China
Prior art keywords
attention
relationship
semantic
relation
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111541714.XA
Other languages
English (en)
Other versions
CN114186568B (zh
Inventor
李睿凡
刘云
石祎晖
冯方向
马占宇
王小捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111541714.XA priority Critical patent/CN114186568B/zh
Publication of CN114186568A publication Critical patent/CN114186568A/zh
Application granted granted Critical
Publication of CN114186568B publication Critical patent/CN114186568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于关系编码和层次注意力机制的图像段落描述方法,方法模型由关系编码模块和层次注意解码模块组成。关系编码模块通过两个编码器捕获编码空间关系信息和语义关系信息,其中语义关系编码时通过训练有监督的语义分类器来学习语义关系的先验知识。层次注意解码模块的层次注意力使用带有关系门和视觉门的层次注意力来动态的融合关系信息和物体区域特征,关系门用于在空间关系信息和语义关系信息之间切换,视觉门用于决定是否嵌入使用视觉信息,模型采用从粗粒度区域到细粒度的空间和语义关系的策略在段落生成过程中融合视觉信息。通过在斯坦福段落描述数据集上的大量实验表明,本发明方法在本领域的多个评价指标上显著优于现有方法。

Description

一种基于关系编码和层次注意力机制的图像段落描述方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于关系编码和层次注意力机制的图像段落描述方法。
背景技术
图像描述是为给定图像自动生成一个描述性句子的任务,也叫做图像单句描述。这项基本的跨模态任务可能有多种应用,如图像/视频检索、幼儿教育和帮助视力受损者理解图像内容。因此,这项任务引起了人工智能界的极大关注。
在过去的几年中,许多研究在生成一个句子的图像描述任务上取得了令人印象深刻的进步。然而,由于一句话描述一幅图像的局限性,一句话对概括一幅图像中的各种细节通常是不够的,因为“一图胜千言”。为了解决一句话描述图像的局限性,Li Fei-Fei等人提出了图像段落描述的任务。一般来说,图像段落描述任务的目标是生成一个连贯的、细粒度的段落(通常包含四到六个句子)来描述给定的图像。
以往关于图像段落描述的研究工作可分为两类:层次的方法和非层次的方法。层次的方法通过显式推断生成句子主题,然后通过句子主题生成句子组成段落。近年以来,人们提出了各种模型方法来改进图像段落描述任务,这些方法在很大程度上遵循编码器-解码器的框架。在最早期的工作中,Li Fei-Fei等人提出了一种层次的循环神经网络(Recurrent Neural Network,RNN)解码器来生成描述段落。该解码器由一个句子RNN和一个单词RNN组成,句子RNN负责生成句子的主题,单词RNN则根据已经生成的主题生成由单词组成的一句话,最后拼接所有的单词RNN生成的句子形成最终的描述段落。在之后的几年中,许多研究都提出了对层次解码结构的改进。另一方面,一些研究如把段落描述作为一个句子的词序列来进行生成段落,也实现了相似的性能和效果。
然而,在以前的模型和方法中,图像中的单个物体通常由预训练的Faster R-CNN检测,之后表示为物体的区域特征。然后把图像中物体的区域特征输入后续的语言解码器来隐式地学习这些物体之间的关系,最终生成段落描述。因此,物体之间的关系对于生成准确、合理的描述非常有利,但这在之前的方法中没有得到充分的利用和编码。在图1中,给出了一个示例来显示用于图像段落描述的物体之间的细粒度关系(包括空间和语义关系)。在图中提到了多个物体,包括“beach”、“kite”、“water”、“man”和“clouds”。并给出了这些物体之间的空间关系(“kite-above-beach”和“kite-in-sky”)和语义关系(“man-flying-kite”和“man-standing on-beach”)。直观地说,物体之间的关系(包括空间关系和语义关系)可以丰富生成的段落描述的细节。
在获得了物体间的关系信息之后,如何合理、有效的利用关系信息呢?一个简单的解决方案是将关系信息与物体特征结合(通过拼接或者是相加的方式)起来,然后将其放入语言解码器中,并以单层注意力的方式生成段落。然而,这种简单的融合方法存在着一个严重的问题。那就是关系信息和物体信息的融合纠缠可能会在生成段落时分散语言解码器的注意力,比如语言解码器需要去隐式地学习这些物体之间的关系。此外,这种简单的解决方案与人类的层次认知过程不一致。具体来说,当一个人描述一幅图像时,他/她首先会注意到一个比较显著的物体,然后在描述这个物体时,他/她会进一步关注该物体与其他物体的关系,再进行描述,然后重复这个过程直到描述完成。在图1中,以第一句描述“A man isstanding on the beach.”为例;我们首先注意到图像中有一个人,然后进一步注意到他“standing on”海滩上。这个例子表明,人类通过这种层次化的注意力机制,可以生成包含详细信息(比如关系信息)的句子并形成一个信息丰富的段落。因此,需要一种新的用于显式地利用更细粒度的空间和语义关系信息进行图像段落描述方法。
发明内容
本发明针对上述技术问题,提供一种基于关系编码和层次注意力机制的图像段落描述方法。
为了实现上述目的,本发明提供如下技术方案:
一种基于关系编码和层次注意力机制的图像段落描述方法,包括关系编码过程和层次注意力解码过程;
关系编码过程输入区域特征V、区域位置B和区域类别o,通过空间关系编码器和语义关系编码器分别生成空间关系编码特征VP和语义关系编码特征Vs,在语义关系编码时,从外部数据中收集语义物体关系对进行监督,通过训练有监督的语义关系分类器来学习语义关系编码的先验知识;
层次注意力解码过程使用两个LSTM和一个层次注意力动态融合关系信息和物体区域信息,层次注意力由具有关系门和视觉门的层次注意力组成,层次注意力分为一层区域注意力和一层关系注意力,区域注意力负责在生成当前单词时关注一个显著的物体,关系注意力由空间关系注意力和语义关系注意力组成,用于提取与被注意对象可能相关的关系信息。
进一步地,对于重叠物体对,空间关系编码器通过拼接其视觉特征和相对位置坐标嵌入表示来获取空间关系编码的特征向量。
进一步地,空间关系编码过程的步骤为:
首先,根据物体框的几何结构得到相对坐标信息嵌入特征表示;给定两个物体框,bi={xi,yi,wi,hi}和bj={xj,yj,wj,hj},它们的几何关系表示为四维向量λ(i,j),即:
Figure BDA0003414459650000031
然后,使用一个线性层将λ(i,j)投影到一个高维空间中,该高维空间嵌入了两个物体框之间的相对坐标,如下式:
Eb(i,j)=ReLU(Wbλ(i,j)+bb)
其中
Figure BDA0003414459650000032
Figure BDA0003414459650000033
是可学习的参数;
通过相对坐标编码,空间关系信息编码
Figure BDA0003414459650000034
由下式得到:
v′k=ReLU(Wpvk+bp)
Figure BDA0003414459650000035
其中,
Figure BDA0003414459650000036
Figure BDA0003414459650000037
是可学习的权重,v′k是物体区域特征向量vk的低维投影,可学习的非线性函数fp(·)在实践中设置为一个两层的MLP,MLP的第一层和第二层设置相同,均具有一个ReLU激活函数、一个批量规范化和一个Dropout层。
进一步地,语义关系编码过程的步骤为:
首先,两个物体oi和oj的Eo(i,j)的类别嵌入表示定义为:
Eo(i,j)=ReLU(WoConcat(Wgoi,Wgoj)+bo)
其中,
Figure BDA0003414459650000041
Figure BDA0003414459650000042
是可学习的权重和偏差,
Figure BDA0003414459650000043
是一个固定的物体类别嵌入矩阵,该矩阵由GloVE向量初始化,在训练过程中保持不变;
然后,语义关系信息
Figure BDA0003414459650000044
如下列公式所示:
v″k=ReLU(Wsvk+bs)
Figure BDA0003414459650000045
其中,
Figure BDA0003414459650000046
Figure BDA0003414459650000047
是可学习的权重和偏差;可学习的非线性函数fp(·)在实践中设置为一个两层的MLP,MLP的第一层具有一个ReLU激活函数、一个批量规范化和一个Dropout层,第二层只具有单独的线性投影层。
进一步地,语义关系分类器的步骤为:首先,从Visual Genome数据集的视觉关系标注中收集语义关系三元组数据,两个物体oi,oj以及他们的语义关系
Figure BDA0003414459650000048
表示为语义关系三元组(oi,oj,rij);然后将编码为
Figure BDA0003414459650000049
的语义关系输入一个线性层,以获得语义关系的类别分数,即:
Figure BDA00034144596500000410
其中
Figure BDA00034144596500000411
Figure BDA00034144596500000412
是可学习的权重和偏差。
进一步地,语义关系分类使用了多标签分类。
进一步地,层次注意力的步骤为:
首先,通过如下公式获得物体区域注意力ao
Figure BDA00034144596500000413
αt=Softmax(at)
Figure BDA00034144596500000414
其中,
Figure BDA00034144596500000415
Figure BDA00034144596500000416
是可学习的参数,αit表示每个对象特征vi归一化注意力注意权重;
然后,并行生成空间关系上下文向量ap和语义关系上下文向量as
进一步地,空间关系上下文向量ap生成方法为:在每一个时间步t中,通过采用空间注意力来生成空间关系注意力向量ap
Figure BDA0003414459650000051
αt=Softmax(at)
Figure BDA0003414459650000052
其中,
Figure BDA0003414459650000053
Figure BDA0003414459650000054
是可学习的参数,ait表示空间关系特征
Figure BDA0003414459650000055
的归一化注意权重;公式中
Figure BDA0003414459650000056
是对应物体区域g的第i个空间关系特征,通过获取第一层区域注意力对应物体的最大注意权重αit来获得物体区域g;语义关系注意力向量as以与空间关系注意力向量ap同样的方式得到。
进一步地,关系门gr控制空间关系注意力向量ap和语义关系注意力向量as,如下式所示:
Figure BDA0003414459650000057
其中,三个可学习的权重Wrp、Wrh和Wrs属于
Figure BDA0003414459650000058
σ(·)表示sigmoid激活函数;
据此得到最终的关系注意力向量ar,该向量表示同时包含了空间关系信息和语义关系信息,如下式所示:
ar=ap⊙gr+as⊙(1-gr)
其中⊙表示逐个元素相乘的运算符号;
得到关系注意力向量ar之后,将其输入一个线性层投影层,并将结果和到物体区域注意力向量ao相加并使用LayerNorm归一化,最终得到视觉上下文表示向量av,如下式所示:
av=LayerNorm(ao+Wr(ar))
其中,
Figure BDA0003414459650000059
是可学习的权重。
进一步地,视觉门定义如下:
Figure BDA00034144596500000510
其中,
Figure BDA0003414459650000061
Figure BDA0003414459650000062
是可学习的权重,
Figure BDA0003414459650000063
是解码网络在每个时间步t时对Attention LSTM的输入;
据此得到了注意向量a,如下式所示:
a=av⊙gl+tanh(mt)⊙(1-gl)
其中,mt表示Attention LSTM的记忆单元在每个时间步t的输出;
最后通过将a与Attention LSTM的输出
Figure BDA0003414459650000064
拼接起来输入Language LSTM生成一个单词yt,重复上述的过程直到生成结束符号为止,将生成的所有词拼接组成最终的段落即可。
与现有技术相比,本发明的有益效果为:
本发明提供的基于关系编码和层次注意力机制的图像段落描述方法(DualRel),是一种用于图像段落字幕的任务的新方法,DualRel模型的动机是有效地利用图像中存在的细粒度的空间和语义关系。为此,DualRel模型由关系编码模块和层次注意解码模块组成。关系编码模块通过两个编码器捕获图像中物体之间的空间关系信息和语义关系信息,利用细粒度的空间和语义关系信息,在编码过程中,语义关系编码时我们通过训练有监督的语义分类器来学习和语义关系有关的先验知识。层次注意解码模块以Top-Down注意力网络为原型。层次注意力使用带有关系门和视觉门的层次注意力来动态的融合关系信息和物体区域特征,我们设计的关系门用于在两种关系信息(空间关系信息和语义关系信息)之间切换,设计的视觉门用于决定是否嵌入使用视觉信息,采用从粗粒度区域到细粒度的空间和语义关系的策略在段落生成过程中融合视觉信息。通过在斯坦福段落描述数据集(Stanford Benchmark Dataset)上的大量实验表明,本发明的方法在本领域的多个评价指标上显著优于现有的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为图像描述段落中的空间和语义关系展示,物体之间的空间关系如“kite-above-beach”和语义关系如“man-standing on-beach;
图2为本发明实施例提供的DualRel模型的架构图;
图3为本发明实施例提供的关系编码模块的架构图,包含空间编码器,语义编码器和语义关系分类器。
图4为本发明实施例提供的层次注意力解码模块的架构图,包含区域注意力,两个关系注意力和两个门控(关系门和视觉门)。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图和实施例对本发明作进一步的详细介绍。
本发明的基于关系编码和层次注意力机制的图像段落描述方法(DualRel),DualRel模型详情如图2所示。我们的DualRel模型包含两个主要模块,一个关系编码模块和一个层次注意力解码模块。关系编码模块输入区域特征V,区域位置B和区域类别O,通过空间关系编码器和语义关系编码器分别生成空间关系编码特征VP和语义关系编码特征Vs,此外为了监督模型学习到有关语义关系的先验知识,我们提出了一个新颖的语义关系分类损失,该损失用于前期帮助模型学习到通用的先验语义关系信息。为了更好的利用学习到的特征V,VP和Vs,让他们在解码过程中更好的交互融合,我们提出了一个层次注意力解码模块,该模块通过使用层次注意力和门控机制来生成最终的段落P。接下来,我们将详细的介绍关系编码模块和层次注意解码模块。
对于图像段落描述来说,我们的目标是为任何给定的图像I生成一个段落P={y1,…,yT},其中T表示生成描述的长度。本文中图像特征使用预训练的Faster R-CNN提取。使用O={o1,…,oN}表示检测到的N个物体,检测到的物体个数取决于输入图像。让
Figure BDA0003414459650000071
作为它们的视觉特征表示,而B={b1,…,bN},bi={xi,yi,wi,hi}∈R4作为它们物体边界框。其中(x,y)表示物体框的中心坐标,(w,h)表示物体框的宽度和高度。此外,图像的全局表示
Figure BDA0003414459650000072
包含了总体的图像特征。
关系编码模块概述如图3所示。
空间关系编码器(Spatial Relation Encoder):如前所述所述,为了生成详细的段落描述,我们需要获取物体之间的空间关系信息(例如“above”和“on”)。我们观察到,许多描述场景中物体的句子通常只包含附近物体的空间位置关系。因此,在本文中我们只考虑一个物体与另一个物体重叠的情况来进行空间关系信息的编码。对于重叠物体对,我们通过拼接其视觉特征和相对位置坐标嵌入表示来获取空间关系编码的特征向量。
具体地,空间关系编码器的步骤为:
首先,根据物体框的几何结构得到相对坐标信息嵌入特征表示;给定两个物体框,bi={xi,yi,wi,hi}和bj={xj,yj,wj,hj},它们的几何关系表示为四维向量λ(i,j),即:
Figure BDA0003414459650000081
然后,使用一个线性层将λ(i,j)投影到一个高维空间中,该高维空间嵌入了两个物体框之间的相对坐标,如下式:
Eb(i,j)=ReLU(Wbλ(i,j)+bb)
其中
Figure BDA0003414459650000082
Figure BDA0003414459650000083
是可学习的参数;
通过相对坐标编码,空间关系信息编码
Figure BDA0003414459650000084
由下式得到:
v′k=ReLU(Wpvk+bp)
Figure BDA0003414459650000085
其中,
Figure BDA0003414459650000086
Figure BDA0003414459650000087
是可学习的权重,v′k是物体区域特征向量vk的低维投影,可学习的非线性函数fp(·)在实践中设置为一个两层的MLP(Multi-layerPerceptron),MLP的第一层和第二层设置相同,均具有一个ReLU激活函数、一个批量规范化和一个Dropout层。
语义关系编码器(Semantic Relation Encoder):语义关系编码器用于编码两个物体之间另一种类型的关系信息(例如,“flying”和“eating”),这对于生成描述至关重要。如前文所述,与空间关系不同,语义关系需要一定的先验知识学习才能推断出来。并且我们观察到,在对象类别和它们的语义关系之间存在着很强的相关性,比如“human”和“bike”之间的关系大概率是“riding”或者“push”,而不会是“eating”或者“flying”这些关系,因此在编码物体之间的语义关系时,我们会显式的加入两个物体的类别信息O。
具体地,语义关系编码过程的步骤为:
首先,两个物体oi和oj的Eo(i,j)的类别嵌入表示定义为:
Eo(i,j)=ReLU(WoConcat(Wgoi,Wgoj)+bo)
其中,
Figure BDA0003414459650000091
Figure BDA0003414459650000092
是可学习的权重和偏差,
Figure BDA0003414459650000093
是一个固定的物体类别嵌入矩阵,该矩阵由GloVE向量初始化,在训练过程中保持不变;
然后,语义关系信息
Figure BDA0003414459650000094
如下列公式所示:
v″k=ReLU(Wsvk+bs)
Figure BDA0003414459650000095
其中,
Figure BDA0003414459650000096
Figure BDA0003414459650000097
是可学习的权重和偏差;可学习的非线性函数fp(·)在实践中设置为一个两层的MLP,MLP的第一层具有一个ReLU激活函数、一个批量规范化和一个Dropout层,第二层只具有单独的线性投影层。
语义关系分类器(Semantic Relation Classifier):对于语义关系编码器来说,直接从段落标注中直接学习语义关系是困难的,因为语义关系学习需要大量的先验知识监督,而段落的解码生成过程距离语义关系编码器太远,可能无法在模型早期训练时实现有效的学习。
因此我们设计了一个语义关系分类器,利用先验知识对语义关系编码器进行显式监督。
具体地,语义关系分类器的步骤为:首先,从Visual Genome数据集的视觉关系标注中收集语义关系三元组数据,两个物体oi,oj以及他们的语义关系
Figure BDA0003414459650000098
表示为语义关系三元组(oi,oj,rij);然后将编码为
Figure BDA0003414459650000099
的语义关系输入一个线性层,以获得语义关系的类别分数,即:
Figure BDA00034144596500000910
其中
Figure BDA00034144596500000911
Figure BDA00034144596500000912
是可学习的权重和偏差。
值得注意的是语义关系分类使用了多标签分类任务,因为两个物体之间可能存在多个关系,因为我们没有真实的两个物体之间关系的标注。
层次注意力解码模块(Hierarchical Attention Decoding Module):如前文所述,我们在关系编码模块中提取了空间关系特征VP和语义关系特征VS,并提取对象区域特征V。为了融合这三个特征,生成包含更多关系的段落。基于人类层次的认知过程,我们提出了层次注意解码模块。具体来说,当人类描述一个图像时,我们首先会观察并注意到一个显著的物体,然后在描述这个物体的过程中,我们会进一步关注这个物体与其他物体之间的关系信息(包括空间和语义关系信息),从而生成一个信息性和描述性的段落。层次注意力解码模块如图4所示。我们的解码模块基于Top-Down注意力网络设计。我们设计了具有关系门和视觉门的空间和语义关系注意力的层次注意力模块来替换原模型的注意力模块。接下来我们将详细描述我们设计的层次注意力和门控机制的详细情况。
层次注意力(Hierarchical Attention):Top-Down注意力网络包括一个Attention LSTM、一个Language LSTM和一个注意力模块。在生成段落期间的每个时间步t时,可将其形式化为:
Figure BDA0003414459650000101
Figure BDA0003414459650000102
Figure BDA0003414459650000103
其中,
Figure BDA0003414459650000104
是Attention LSTM的输出,
Figure BDA0003414459650000105
是词汇表的词嵌入矩阵,yt-1是输入单词在每个时间步时间t的一个独热编码。
Figure BDA0003414459650000106
是注意力向量,
Figure BDA0003414459650000107
是Language LSTM的输出。
具体地,层次注意力的步骤为:
首先,通过如下公式获得物体区域注意力ao
Figure BDA0003414459650000108
αt=Softmax(at)
Figure BDA0003414459650000109
其中,
Figure BDA00034144596500001010
Figure BDA00034144596500001011
是可学习的参数,αit表示每个对象特征vi归一化注意力注意权重;
然后,并行生成空间关系上下文向量ap和语义关系上下文向量as
空间关系上下文向量ap生成方法为:在每一个时间步t中,通过采用空间注意力来生成空间关系注意力向量ap
Figure BDA0003414459650000111
αt=Softmax(at)
Figure BDA0003414459650000112
其中,
Figure BDA0003414459650000113
Figure BDA0003414459650000114
是可学习的参数,αit表示空间关系特征
Figure BDA0003414459650000115
的归一化注意权重;公式中
Figure BDA0003414459650000116
是对应物体区域g的第i个空间关系特征,通过获取第一层区域注意力对应物体的最大注意权重αit来获得物体区域g;以同样的方式,我们可以得到语义关系注意力向量as
关系门(Relational Gate):在前文中我们通过层次的注意力机制获取了空间关系注意力向量ap和语义关系注意力向量as。为了控制这两类关系信息在解码过程中如何融合使用,我们设计了一个关系门gr来控制两种信息如何使用,具体地:
关系门gr控制空间关系注意力向量ap和语义关系注意力向量as,如下式所示:
Figure BDA0003414459650000117
其中,三个可学习的权重Wrp、Wrh和Wrs属于
Figure BDA0003414459650000118
σ(·)表示sigmoid激活函数;
据此得到最终的关系注意力向量ar,该向量表示同时包含了空间关系信息和语义关系信息,如下式所示:
ar=ap⊙gr+as⊙(1-gr)
其中⊙表示逐个元素相乘的运算符号;
得到关系注意力向量ar之后,将其输入一个线性层投影层,并将结果和到物体区域注意力向量ao相加并使用LayerNorm归一化,最终得到视觉上下文表示向量av,如下式所示:
av=LayerNorm(ao+Wr(ar))
其中,
Figure BDA0003414459650000119
是可学习的权重。
视觉门(Visual Gate):我们定义了一个视觉门来决定在解码时使用视觉信息还是使用语言上下文信息。直观来说,解码器在生成一些词的时比如“the”和“is”,可能只需要需要很少的视觉信息来生成这些单词。视觉门定义如下:
Figure BDA0003414459650000121
其中,
Figure BDA0003414459650000122
Figure BDA0003414459650000123
是可学习的权重,
Figure BDA0003414459650000124
是解码网络在每个时间步t时对Attention LSTM的输入;
据此得到了注意向量a,如下式所示:
a=av⊙gl+tanh(mt)⊙(1-gl)
其中,mt表示Attention LSTM的记忆单元在每个时间步t的输出;
最后通过将a与Attention LSTM的输出
Figure BDA0003414459650000125
拼接起来输入Language LSTM生成一个单词yt,重复上述的过程直到生成结束符号为止,将生成的所有词拼接组成最终的段落即可。
此外,关于随时函数(Loss Function)的说明如下:
语义关系分类损失(Semantic Relation Classification Loss):语义关系分类损失的目的是鼓励模型利用先验知识学习语义关系编码。我们应用了多标签分类损失函数,即:
Figure BDA0003414459650000126
其中
Figure BDA0003414459650000127
是语义关系分类器输出的某一个语义关系的类别分数。集合Ωneg表示两个物体oi和oj没有特定的某一类语义关系t(即
Figure BDA0003414459650000128
),集合Ωpos表示两个对象具有某一类特定的语义关系。
词级损失(Word-level Loss):给定一幅图像和真实标注的段落对(I,P),我们通过最大化和真实标注段落P的相似性来训练DualRel模型,这等价于最小化交叉熵(XE)损失:
Figure BDA0003414459650000129
总体损失(Total Loss):最终损失函数定义为语义关系分类损失和词级损失的线性组合。具体而言,总体损失L定义如下:
L=ζLR+ηLXE
其中ζ和η是不同损失的权重。该权重通过实验确定,在模型实现细节里我们会进一步介绍这两个权重的取值。
SCST(Self-critical Sequence Training):为了提升模型的效果,我们进一步使用自我批评序列训练(SCST)的方式优化了我们的模型。指标的期望梯度计算如下:
Figure BDA0003414459650000131
其中,ws和wg分别表示依据概率采样的段落和贪婪地采样段落。r(·)表示来自段落评价指标的奖励,pθ表示DualRel模型的参数。此外,我们采用了两种类型的奖励的SCST训练模型。其中一种是只使用CIDEr,这用于公平比较。另一种是CIDEr,METEOR和BLEU-4三种指标的混合训练模型。
综上,我们提出了一个新颖的名为DualRel的新模型,用于显式地利用更细粒度的空间和语义关系信息进行图像段落描述。
首先,我们设计了一个关系编码模块,由空间关系编码器和语义关系编码器两个部分组成。空间关系编码器强调重叠物体之间的空间位置关系的编码。而语义关系编码器则用于编码物体之间的语义关系信息。为了有效地学习语义关系相关的先验知识,我们提出使用从外部数据中收集语义物体关系对,然后构造语义关系分类器来显式的监督模型学习语义关系的先验知识。
其次,我们设计了一个层次注意解码模块,该模块使用两个LSTM和一个层次注意力动态融合关系信息和物体区域信息。层次注意力分为一层区域注意力和一层关系注意力,区域注意力负责在生成当前单词时关注一个显著的物体。关系注意力由空间关系注意力和语义关系注意力组成,用于提取与被注意对象可能相关的关系信息。
此外,关系门控制所需的关系信息类型(语义关系还是空间关系信息)。视觉门决定输出特征是依赖于视觉信息还是语言上下文信息。
我们的主要贡献如下:
1、我们提出了DualRel模型用于图像段落描述,该模型由关系编码模块和层次注意解码模块组成。关系编码模块通过两个编码器编码空间和语义关系信息。在编码过程中,语义关系编码时我们通过训练有监督的语义分类器来学习和语义关系有关的先验知识。
2、我们设计了一个层次化的注意力解码模块来动态地融合利用细粒度的关系信息和物体区域信息。层次注意力由具有关系门和视觉门的层次注意力组成。
3、我们在斯坦福段落描述数据集(Stanford Benchmark Dataset)上进行了广泛的实验。我们采用了七种流行的评估指标,包括BLEU-1,BLEU-2,BLEU-3,BLEU-4,METEOR和CIDEr以及BERTScore的F值指标。我们的模型在BLEU-1,BLEU-2,BLEU-3,BLEU-4上分别实现了45.30,28.91,18.46,11.30的分数,在CIDEr值上实现了34.02的分数,达到了84.37的FBERT(idf)BERTScore分数,现有基础方法的BLEU-1,BLEU-2,BLEU-3,BLEU-4,CIDEr和FBERT(idf)分数分别为43.54,27.44,17.33,10.58,30.64和83.85,这些实验结果表明,我们提出的DualRel在本领域的多个评价指标上显著优于现有的方法,并且具有实用性和创新性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,包括关系编码过程和层次注意力解码过程;
关系编码过程输入区域特征V、区域位置B和区域类别O,通过空间关系编码器和语义关系编码器分别生成空间关系编码特征VP和语义关系编码特征Vs,在语义关系编码时,从外部数据中收集语义物体关系对进行监督,通过训练有监督的语义关系分类器来学习语义关系编码的先验知识;
层次注意解码过程使用两个LSTM和一个层次注意力动态融合关系信息和物体区域信息,层次注意力由具有关系门和视觉门的层次注意力组成,层次注意力分为一层区域注意力和一层关系注意力,区域注意力负责在生成当前单词时关注一个显著的物体,关系注意力由空间关系注意力和语义关系注意力组成,用于提取与被注意对象可能相关的关系信息。
2.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,对于重叠物体对,空间关系编码器通过拼接其视觉特征和相对位置坐标嵌入表示来获取空间关系编码的特征向量。
3.根据权利要求2所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,空间关系编码过程的步骤为:
首先,根据物体框的几何结构得到相对坐标信息嵌入特征表示;给定两个物体框,bi={xi,yi,wi,hi}和bj={xj,yj,wj,hj},它们的几何关系表示为四维向量λ(i,j),即:
Figure FDA0003414459640000011
然后,使用一个线性层将λ(i,j)投影到一个高维空间中,该高维空间嵌入了两个物体框之间的相对坐标,如下式:
Eb(i,j)=ReLU(Wbλ(i,j)+bb)
其中
Figure FDA0003414459640000012
Figure FDA0003414459640000013
是可学习的参数;
通过相对坐标编码,空间关系信息编码
Figure FDA0003414459640000014
由下式得到:
v′k=ReLU(Wpvk+bp)
Figure FDA0003414459640000015
其中,
Figure FDA0003414459640000016
Figure FDA0003414459640000017
是可学习的权重,v′k是物体区域特征向量vk的低维投影,可学习的非线性函数fp(·)在实践中设置为一个两层的MLP,MLP的第一层和第二层设置相同,均具有一个ReLU激活函数、一个批量规范化和一个Dropout层。
4.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,语义关系编码过程的步骤为:
首先,两个物体oi和oj的Eo(i,j)的类别嵌入表示定义为:
Eo(i,j)=ReLU(WoConcat(Wgoi,Wgoj)+bo)
其中,
Figure FDA0003414459640000021
Figure FDA0003414459640000022
是可学习的权重和偏差,
Figure FDA0003414459640000023
是一个固定的物体类别嵌入矩阵,该矩阵由GloVE向量初始化,在训练过程中保持不变;
然后,语义关系信息
Figure FDA0003414459640000024
如下列公式所示:
v″k=ReLU(Wsvk+bs)
Figure FDA0003414459640000025
其中,
Figure FDA0003414459640000026
Figure FDA0003414459640000027
是可学习的权重和偏差;可学习的非线性函数fp(·)在实践中设置为一个两层的MLP,MLP的第一层具有一个ReLU激活函数、一个批量规范化和一个Dropout层,第二层只具有单独的线性投影层。
5.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,语义关系分类器的步骤为:首先,从Visual Genome数据集的视觉关系标注中收集语义关系三元组数据,两个物体oi,oj以及他们的语义关系
Figure FDA0003414459640000028
表示为语义关系三元组(oi,oj,rij);然后将编码为
Figure FDA0003414459640000029
的语义关系输入一个线性层,以获得语义关系的类别分数,即:
Figure FDA00034144596400000210
其中
Figure FDA00034144596400000211
Figure FDA00034144596400000212
是可学习的权重和偏差。
6.根据权利要求5所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,语义关系分类使用了多标签分类。
7.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,层次注意力的步骤为:
首先,通过如下公式获得物体区域注意力ao
Figure FDA00034144596400000312
αt=Softmax(at)
Figure FDA0003414459640000031
其中,
Figure FDA0003414459640000032
Figure FDA0003414459640000033
是可学习的参数,αit表示每个对象特征vi归一化注意力注意权重;
然后,并行生成空间关系上下文向量ap和语义关系上下文向量as
8.根据权利要求7所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,空间关系上下文向量ap生成方法为:在每一个时间步t中,通过采用空间注意力来生成空间关系注意力向量ap
Figure FDA0003414459640000034
αt=Softmax(at)
Figure FDA0003414459640000035
其中,
Figure FDA0003414459640000036
Figure FDA0003414459640000037
是可学习的参数,αit表示空间关系特征
Figure FDA0003414459640000038
的归一化注意权重;公式中
Figure FDA0003414459640000039
是对应物体区域g的第i个空间关系特征,通过获取第一层区域注意力对应物体的最大注意权重αit来获得物体区域g;语义关系注意力向量as以与空间关系注意力向量ap同样的方式得到。
9.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,关系门gr控制空间关系注意力向量ap和语义关系注意力向量as,如下式所示:
Figure FDA00034144596400000310
其中,三个可学习的权重Wrp、Wrh和Wrs属于
Figure FDA00034144596400000311
σ(·)表示sigmoid激活函数;
据此得到最终的关系注意力向量ar,该向量表示同时包含了空间关系信息和语义关系信息,如下式所示:
ar=ap⊙gr+as⊙(1-gr)
其中⊙表示逐个元素相乘的运算符号;
得到关系注意力向量ar之后,将其输入一个线性层投影层,并将结果和到物体区域注意力向量ao相加并使用LayerNorm归一化,最终得到视觉上下文表示向量av,如下式所示:
av=LayerNorm(ao+Wr(ar))
其中,
Figure FDA0003414459640000041
是可学习的权重。
10.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,视觉门定义如下:
Figure FDA0003414459640000042
其中,
Figure FDA0003414459640000043
Figure FDA0003414459640000044
是可学习的权重,
Figure FDA0003414459640000045
是解码网络在每个时间步t时对Attention LSTM的输入;
据此得到了注意向量a,如下式所示:
a=av⊙gl+tanh(mt)⊙(1-gl)
其中,mt表示Attention LSTM的记忆单元在每个时间步t的输出;
最后通过将a与Attention LSTM的输出
Figure FDA0003414459640000046
拼接起来输入Language LSTM生成一个单词yt,重复上述的过程直到生成结束符号为止,将生成的所有词拼接组成最终的段落即可。
CN202111541714.XA 2021-12-16 2021-12-16 一种基于关系编码和层次注意力机制的图像段落描述方法 Active CN114186568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111541714.XA CN114186568B (zh) 2021-12-16 2021-12-16 一种基于关系编码和层次注意力机制的图像段落描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111541714.XA CN114186568B (zh) 2021-12-16 2021-12-16 一种基于关系编码和层次注意力机制的图像段落描述方法

Publications (2)

Publication Number Publication Date
CN114186568A true CN114186568A (zh) 2022-03-15
CN114186568B CN114186568B (zh) 2022-08-02

Family

ID=80544115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111541714.XA Active CN114186568B (zh) 2021-12-16 2021-12-16 一种基于关系编码和层次注意力机制的图像段落描述方法

Country Status (1)

Country Link
CN (1) CN114186568B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693790A (zh) * 2022-04-02 2022-07-01 江西财经大学 基于混合注意力机制的自动图像描述方法与系统
WO2024007619A1 (zh) * 2022-07-06 2024-01-11 京东科技信息技术有限公司 解码器的训练方法、目标检测方法、装置以及存储介质
CN117610562A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合组合范畴语法和多任务学习的关系抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
CN110135441A (zh) * 2019-05-17 2019-08-16 北京邮电大学 一种图像的文本描述方法及装置
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN113095431A (zh) * 2021-04-27 2021-07-09 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113591874A (zh) * 2021-06-01 2021-11-02 清华大学 长时记忆增强的段落级别图像描述生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
CN110135441A (zh) * 2019-05-17 2019-08-16 北京邮电大学 一种图像的文本描述方法及装置
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN113095431A (zh) * 2021-04-27 2021-07-09 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113591874A (zh) * 2021-06-01 2021-11-02 清华大学 长时记忆增强的段落级别图像描述生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TING YAO 等: "Hierarchy Parsing for Image Captioning", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 27 February 2020 (2020-02-27), pages 2621 - 2629 *
李睿凡 等: "全卷积神经结构的段落式图像描述算法", 《北京邮电大学学报》, vol. 42, no. 6, 31 December 2019 (2019-12-31), pages 155 - 161 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693790A (zh) * 2022-04-02 2022-07-01 江西财经大学 基于混合注意力机制的自动图像描述方法与系统
WO2024007619A1 (zh) * 2022-07-06 2024-01-11 京东科技信息技术有限公司 解码器的训练方法、目标检测方法、装置以及存储介质
CN117610562A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合组合范畴语法和多任务学习的关系抽取方法

Also Published As

Publication number Publication date
CN114186568B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN114186568B (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN107608943B (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN106777125B (zh) 一种基于神经网络及图像关注点的图像描述生成方法
CN109885671B (zh) 基于多任务学习的问答方法
CN109902293A (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
CN110717431A (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN109543820B (zh) 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN111680484A (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
Huang et al. Vqabq: Visual question answering by basic questions
CN115080715B (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
Farazi et al. Reciprocal attention fusion for visual question answering
Agrawal et al. Image Caption Generator Using Attention Mechanism
Hossain et al. Bi-SAN-CAP: Bi-directional self-attention for image captioning
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
Mazaheri et al. Video fill in the blank using lr/rl lstms with spatial-temporal attentions
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant