CN111241326A - 基于注意力金字塔图网络的图像视觉关系指代定位方法 - Google Patents

基于注意力金字塔图网络的图像视觉关系指代定位方法 Download PDF

Info

Publication number
CN111241326A
CN111241326A CN201911370245.2A CN201911370245A CN111241326A CN 111241326 A CN111241326 A CN 111241326A CN 201911370245 A CN201911370245 A CN 201911370245A CN 111241326 A CN111241326 A CN 111241326A
Authority
CN
China
Prior art keywords
attention
network
image
entity
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911370245.2A
Other languages
English (en)
Other versions
CN111241326B (zh
Inventor
王瀚漓
朱健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911370245.2A priority Critical patent/CN111241326B/zh
Publication of CN111241326A publication Critical patent/CN111241326A/zh
Application granted granted Critical
Publication of CN111241326B publication Critical patent/CN111241326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。与现有技术相比,本发明具有定位精度高、鲁棒性高等优点。

Description

基于注意力金字塔图网络的图像视觉关系指代定位方法
技术领域
本发明涉及一种图像视觉关系指代定位方法,尤其是涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法。
背景技术
近年来,表达指代理解得到了计算机视觉和自然语言处理领域越来越多的关注。该任务旨在定位特定的指代实体,这项技术可以帮助消除相同类别实体之间的歧义,从而在安防领域图像检索和机器人人机交互等应用场景发挥重要作用。但是,传统的表达指代理解任务需要对模型的自然语言和计算机视觉模块分别进行评估,因此很难判断错误是由语言模块还是由视觉模块引起的。为了减轻对复杂自然语言建模的需求,研究者提出了视觉关系指代定位任务,它根据更结构化的视觉关系三元组<subject,relationship,traget>,在图像中定位指代的实体。
先前的工作探索了使用实体共现统计方法、空间转移模型、基于语言先验的卷积神经网络模型,效果都不是非常理想。目前最先进的技术是一种称为对称堆叠注意力转移的方法。该方法基于视觉关系中的一个实体,通过对视觉关系进行建模来迭代地学习将模型注意力从该实体转移到另一个实体,并且能取得优于上述方法的结果。尽管如此,由于视觉关系三元组中往往包含大量具有小尺寸和难以区分特征的实体。对称堆叠注意力转移方法利用单一小尺度的注意力特征图可能无法有效定位这些小尺寸实体。另外,对称堆叠注意力转移方法基于图像中的视觉特征对关系进行建模,而视觉关系三元组中某一特定的关系类别的视觉特征类内方差较大,使用视觉特征使模型的学习难度较大,且难以对视觉关系进行区分。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种定位精度高的基于注意力金字塔图网络的图像视觉关系指代定位方法。
本发明的目的可以通过以下技术方案来实现:
一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;
所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。
进一步地,所述多尺度注意力特征图的获取过程具体为:
以基于ResNet-50网络的特征金字塔对输入图像进行特征提取,基于特征金字塔的输出形成各实体的多尺度特征图,使用实体类别嵌入特征对每一张特征图进行软注意力机制,得到多尺度注意力特征图。
进一步地,选取所述特征金字塔的最后三个卷积模块的输出形成各实体的所述多尺度特征图。
进一步地,所述关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括:
101)基于多尺度注意力特征图生成注意力特征图网络,该网络中每一个节点代表一张注意力特征图;
102)构建注意力特征图网络的权重矩阵;
103)使用权重矩阵在注意力特征图网络中进行关系信息传递,对网络中的各节点进行聚合与提纯;
104)对提纯后的实体多尺度注意力特征进行拼接,映射成与图像尺寸一致的特征权重,与图像特性相乘,生成新图像特征;
105)对新图像特征使用基于实体嵌入特征的注意力机制得到最后的视觉关系指代实体定位图。
进一步地,基于视觉关系三元组嵌入特征获得所述权重矩阵。
进一步地,对所述注意力金字塔图网络模型进行训练的过程具体为:
生成基准定位图,以构建的注意力金字塔图网络模型对训练样本获得的视觉关系指代实体定位图与基准定位图进行对比,并计算损失函数进行回传以更新模型。
进一步地,所述基准定位图中,每一张定位图对应一组视觉关系三元组中的一个实体,具体生成过程包括:
1a)选取一张图像和图像中的一对视觉关系三元组,在图中寻找视觉关系指代实体的检测框的标注。
1b)定义一张与上述图像尺寸相同的定位图,在检测框中的位置的像素置1,检测框外的置0;
1c)若一张图像中有完全一致的若干组视觉关系三元组,则将它们叠加在首次出现该三元组的定位图中;
1d)重复步骤1a)、1b)和1c)多次,将数据集中所有视觉关系都生成视觉关系指代实体定位图。
进一步地,所述损失函数的表达式为:
Figure BDA0002339491930000031
式中,N为训练批次数,Θ为网络参数,D(xi;Θ)为输入图片xi经注意力金字塔图网络模型处理后生成的定位图,D(xi)GT为输入图片xi的基准定位图。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过特征金字塔提取特征,可以利用注意力金字塔网络能较为有效地为视觉关系中尺度迥异的实体进行建模,更好地区分视觉关系,以提高定位精度。
2、本发明采用的关系传导图网络基于视觉关系三元组嵌入特征进行建模,能有效地避免模型被视觉关系中视觉特征较大的类内方差影响。此外,该结构还能为视觉关系三元组的主客体进行尺寸匹配,进一步提升模型精度。
附图说明
图1为本发明的流程示意图;
图2为本发明在CLVER、Visual Genome和VRD数据集中的部分结果可视化图示。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位。
该方法中,注意力金字塔图网络模型的结构如图1所示,包括注意力特征金字塔网络(Attentipn Pyramid Networks)和关系传导图网络(Relationship Conduction GraphNetworks),注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。
1、注意力特征金字塔网络
本实施例中,注意力特征金字塔网络采用基于ResNet-50网络的特征金字塔,对输入图像进行特征提取,并选取特征金字塔的最后三个卷积模块的输出形成各实体的多尺度特征图;将视觉关系三元组的实体类别进行向量嵌入,其后使用一层全连接网络得到实体类别嵌入特征(s_emb_f、o_emb_f),再使用实体类别嵌入特征对每一张特征图进行软注意力机制(soft attention),得到多尺度注意力特征图。
2、关系传导图网络
关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括:
101)基于维度规范化(dimension normalization)后的多尺度注意力特征图生成注意力特征图网络,该网络中每一个节点代表一张注意力特征图;
102)将视觉关系三元组的实体类别、关系类别进行向量嵌入,经过全连接层处理后将特征连接,得到视觉关系三元组嵌入特征(rt_emb_f)。将D维嵌入特征复制N*N次,形成一张N*N*D维的特征图,其后使用一系列卷积层学习得到注意力特征图网络的维度为N*N的权重矩阵(Weight matrix);
103)使用权重矩阵在注意力特征图网络中进行关系信息传递,对网络中的各节点进行聚合与提纯;
104)对提纯后的实体多尺度注意力特征进行拼接,映射成与图像尺寸一致的特征权重,与图像特性相乘,生成新图像特征;
105)对新图像特征使用基于实体嵌入特征的注意力机制(subject attention和object attention)得到最后的视觉关系指代实体定位图。
3、注意力金字塔图网络模型的训练
对所述注意力金字塔图网络模型进行训练的过程包括:
201)对数据集进行预处理,生成相应的视觉关系指代实体定位图作为基准定位图。
每一张定位图对应一组视觉关系三元组中的一个实体,具体过程如下:
21a)选取一张图像和图像中的一对视觉关系三元组,在图中寻找视觉关系指代实体的检测框的标注。
21b)定义一张与上述图像尺寸相同的定位图,在检测框中的位置的像素置1,检测框外的置0;
21c)若一张图像中有完全一致的若干组视觉关系三元组,则将它们叠加在首次出现该三元组的定位图中;
21d)重复步骤21a)、21b)和21c)多次,将数据集中所有视觉关系都生成视觉关系指代实体定位图。
202)以数据集对注意力金字塔图网络模型进行训练。
输入图像的大小为224×224,输出的定位图的触发阈值为0.5。该注意力金字塔图网络模型通过RMSprop优化算法在数据集上进行训练。如果训练中反向传播的梯度的值超过3,则对其进行裁剪。学习率将初始化为0.0001,当连续3个周期的验证损失不再下降时,学习率将下降20%。在将多尺度注意力特征图送入关系传导图网络之前,首先会将其映射到512维特征向量。此外,所有实体和关系的类别都被嵌入到一个512维特征空间中。
训练过程中,以网络得到的视觉关系指代实体定位图与基准定位图进行对比并计算相关损失函数进行回传。所述损失函数的表达式为:
Figure BDA0002339491930000051
式中,N为训练批次数,Θ为网络参数,D(xi;Θ)为输入图片xi的生成的定位图,D(xi)GT为输入图片xi的基准定位图。
203)在测试集上,使用步骤202)获得的注意力金字塔图网络模型对图片进行视觉关系指代定位图生成。
为了验证上述方法的性能,设计了以下实验,测试结果使用Mean IoU(MeanIntersection over Union,平均重叠度)进行评价,Mean IoU定义如下:
Figure BDA0002339491930000052
其中,N为样本数目,Area of Overlap为模型预测生成的定位图与基准定位图的集合部分,Area of Union为模型预测生成的定位图与基准定位图的重合部分,Mean IoU越大代表结果越好。
实验选取CLEVR、Visual Genome和Vrd数据集将注意力金字塔图网络模型与其他模型进行了对比实验,实验结果如图2和表1所示。其中SSAS是目前效果最好的方法,由表1可知,本发明方法与其相比仍具有一定的精度优势。
表1 CLEVR、Visual Genome和Vrd数据集注意力金字塔图网络模型与其他模型的对比实验结果
Figure BDA0002339491930000061
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (8)

1.一种基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;
所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。
2.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,所述多尺度注意力特征图的获取过程具体为:
以基于ResNet-50网络的特征金字塔对输入图像进行特征提取,基于特征金字塔的输出形成各实体的多尺度特征图,使用实体类别嵌入特征对每一张特征图进行软注意力机制,得到多尺度注意力特征图。
3.根据权利要求2所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,选取所述特征金字塔的最后三个卷积模块的输出形成各实体的所述多尺度特征图。
4.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,所述关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括:
101)基于多尺度注意力特征图生成注意力特征图网络,该网络中每一个节点代表一张注意力特征图;
102)构建注意力特征图网络的权重矩阵;
103)使用权重矩阵在注意力特征图网络中进行关系信息传递,对网络中的各节点进行聚合与提纯;
104)对提纯后的实体多尺度注意力特征进行拼接,映射成与图像尺寸一致的特征权重,与图像特性相乘,生成新图像特征;
105)对新图像特征使用基于实体嵌入特征的注意力机制得到最后的视觉关系指代实体定位图。
5.根据权利要求4所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,基于视觉关系三元组嵌入特征获得所述权重矩阵。
6.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,对所述注意力金字塔图网络模型进行训练的过程具体为:
生成基准定位图,以构建的注意力金字塔图网络模型对训练样本获得的视觉关系指代实体定位图与基准定位图进行对比,并计算损失函数进行回传以更新模型。
7.根据权利要求6所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,所述基准定位图中,每一张定位图对应一组视觉关系三元组中的一个实体,具体生成过程包括:
1a)选取一张图像和图像中的一对视觉关系三元组,在图中寻找视觉关系指代实体的检测框的标注。
1b)定义一张与上述图像尺寸相同的定位图,在检测框中的位置的像素置1,检测框外的置0;
1c)若一张图像中有完全一致的若干组视觉关系三元组,则将它们叠加在首次出现该三元组的定位图中;
1d)重复步骤1a)、1b)和1c)多次,将数据集中所有视觉关系都生成视觉关系指代实体定位图。
8.根据权利要求6所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,所述损失函数的表达式为:
Figure FDA0002339491920000021
式中,N为训练批次数,Θ为网络参数,D(xi;Θ)为输入图片xi经注意力金字塔图网络模型处理后生成的定位图,D(xi)GT为输入图片xi的基准定位图。
CN201911370245.2A 2019-12-26 2019-12-26 基于注意力金字塔图网络的图像视觉关系指代定位方法 Active CN111241326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911370245.2A CN111241326B (zh) 2019-12-26 2019-12-26 基于注意力金字塔图网络的图像视觉关系指代定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911370245.2A CN111241326B (zh) 2019-12-26 2019-12-26 基于注意力金字塔图网络的图像视觉关系指代定位方法

Publications (2)

Publication Number Publication Date
CN111241326A true CN111241326A (zh) 2020-06-05
CN111241326B CN111241326B (zh) 2023-09-26

Family

ID=70877586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911370245.2A Active CN111241326B (zh) 2019-12-26 2019-12-26 基于注意力金字塔图网络的图像视觉关系指代定位方法

Country Status (1)

Country Link
CN (1) CN111241326B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN115276784A (zh) * 2022-07-26 2022-11-01 西安电子科技大学 基于深度学习的轨道角动量模态识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁文博,许玥: "深度学习的视觉关系检测方法研究进展" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN115276784A (zh) * 2022-07-26 2022-11-01 西安电子科技大学 基于深度学习的轨道角动量模态识别方法
CN115276784B (zh) * 2022-07-26 2024-01-23 西安电子科技大学 基于深度学习的轨道角动量模态识别方法

Also Published As

Publication number Publication date
CN111241326B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
US20190325342A1 (en) Embedding multimodal content in a common non-euclidean geometric space
He et al. Visual semantics allow for textual reasoning better in scene text recognition
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN111027576A (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
Li et al. DAHP: Deep attention-guided hashing with pairwise labels
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN111523586B (zh) 一种基于噪声可知的全网络监督目标检测方法
CN112765370A (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN111461175A (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN112036511A (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN115408536A (zh) 一种基于上下文信息融合的知识图谱补全方法
Zhu et al. Quadruplet-based deep hashing for image retrieval
CN116486101B (zh) 一种基于窗口注意力的图像特征匹配方法
CN115809432B (zh) 人群社会关系提取方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant