CN110991532A - 基于关系视觉注意机制的场景图产生方法 - Google Patents

基于关系视觉注意机制的场景图产生方法 Download PDF

Info

Publication number
CN110991532A
CN110991532A CN201911217909.1A CN201911217909A CN110991532A CN 110991532 A CN110991532 A CN 110991532A CN 201911217909 A CN201911217909 A CN 201911217909A CN 110991532 A CN110991532 A CN 110991532A
Authority
CN
China
Prior art keywords
relation
graph
target
relationship
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911217909.1A
Other languages
English (en)
Other versions
CN110991532B (zh
Inventor
刘芳
李玲玲
王思危
焦李成
陈璞华
古晶
刘旭
郭雨薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911217909.1A priority Critical patent/CN110991532B/zh
Publication of CN110991532A publication Critical patent/CN110991532A/zh
Application granted granted Critical
Publication of CN110991532B publication Critical patent/CN110991532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关系视觉注意机制的场景图产生方法,主要解决现有技术中冗余的关系预测与可解释性较差的问题。其实现方案是:1)通过目标检测得到图像中的目标的类别与边界框,并进行全连接关系图建立;2)通过分析数据集,对关系图进行稀疏化,得到稀疏关系图表示;3)通过交替迭代学习关系注意力转移函数,分别从主语、宾语依靠并集特征转移到发生关系处,学习到准确的关系表征;4)对于学习到的关系表征进行分类,并组合成最终的场景图。本发明利用两目标发生关系的内在联系,建立关系注意力机制准确地关注于发生关系的区域,实现了场景图的准确产生,提高了网络的可解释化性,可用于图像描述与视觉问答任务。

Description

基于关系视觉注意机制的场景图产生方法
技术领域
本发明属于计算机视觉领域,特别涉及一种场景图产生方法,可用于图像描述与视觉问答任务。
背景技术
随着深度学习的发展,目前计算机对于图像的理解已经达到新的高度。从目标检测到语义分割,再到实例检测,计算机视觉已经取得非常大的进步。但对于更深层次的图像理解仍然有许多问题。由于图像中的目标间关系并不是独立存在的,目标检测等任务并不能掌握实例间的关系,比如人背着包与人拿着包,虽然通过目标检测出的类别可能相同,但是他们之间的关系类别是不同的。为了使计算机进一步像人类一样理解图像,Johnsn等人提出了场景图任务。并提供了一种场景图的评估方法。简单来说,场景图任务用于产生两目标间的关系。不仅需要检测出图中包含的目标,而且需要能够推理出目标间的关系。在此基础上,进一步可以将场景图的结果运用于更高层级图像理解任务。场景图任务是将图像映射到一组关系的拓扑结构中,它在目标检测任务的基础上,对图像中复杂多样的目标间关系进行检测。随着深度学习的发展,尽管在图像分类,目标检测方面取得了很大的进展,但是对图像的认知不能仅仅满足于识别图像,需要进一步去理解图像中丰富的语义信息。并且其关系不受实例的图像特征,类别变换影响,很难仅根据提取到的实例信息掌握目标间存在的关系特征。
早期,人们将不同的短语视为单独的一类,这样会导致类别数很大,学习困难。所以,现在更多将每一种谓词作为一类,尽管主宾的类别不同,但在对关系进行预测时可以从数据集中获取大量的先验信息。
目前,产生场景图的方法是:先通过目标检测得到目标框,再提取框内特征进行信息传递与更新,最后进行关系的分类。具体方法可分为两种:
第一种是对检测出的关系进行两两组合,并在交互信息时只利用两两组合的目标特征,即先通过目标检测,检测出图像中存在的所有目标;再通过建立一个信息传递网络,对一个关系中的主语、宾语进行特征交互与更新;最终利用特征进行关系的分类。
第二种是首先利用目标检测出的所有目标,通过LSTM或self-attention机制,将所有目标对应的图像特征作为输入,进行所有目标特征的同时更新;然后将特征两两组合进行关系分类。
上述两种方法由于都没有建立一个合适的注意力机制,使得网络用于最终分类关系的特征没有真正的关注于两目标发生关系的区域,导致网络的可解释性较差。
发明内容
本发明目的在于针对上述现有技术的不足,提供一种基于关系视觉注意机制的场景图产生方法,以将冗余关系检测与最终用于分类的特征关注于图像的合理区域,提高网络的可解释性。
为了达到上述目的,本发明采用的技术方案包括如下步骤:
(1)输入包含K张图像和标签集合Y的数据集X,利卷积神经网络VGG16得到K张图像的特征集合:S={s1,s2,...,si,...,sK},其中si是第i张图像的特征,i∈{1,2,...,K};
(2)对(1)中的特征集合S进行目标检测,得到目标类别L,目标框B与目标特征T:
L={l1,l2,...,li,...,lK},B={b1,b2,…,bi,…,bK},T={t1,t2,…,ti,…,tK},
其中:
Figure BDA0002300001710000021
为第i张图像中目标类别集合,
Figure BDA0002300001710000022
为第i张图像中目标框集合,
Figure BDA0002300001710000023
为第i张图像中目标特征集合;
Figure BDA0002300001710000024
Figure BDA0002300001710000025
分别表示第i张图像中第j个目标的类别、目标框和特征,j∈{1,2,...,n},n为图像中目标的数量;
(3)将目标特征集合ti中的每个元素
Figure BDA0002300001710000026
作为节点,并对这些节点进行两两连接,建立全连接关系图gi
(4)根据(2)中得到的第i张图像的目标类别集合li和目标框集合bi,对全连接关系图gi进行稀疏化,建立稀疏关系图g′i
(5)将稀疏关系图g′i中每一条边相连的两个节点分别标记为主语节点和宾语节点,构建稀疏关系图g′i中所有边的主宾对集合:ri={(s1,o1),(s2,o2),...,(se,oe),...,(sM,oM)},其中se表示稀疏关系图g′i中第i条边的主语节点,oe表示稀疏关系图g′i中第i条边的宾语节点,M为稀疏关系图gi′中边的条数,e∈{1,2,...,M};
(6)利用主宾对集合ri中的每个元素(se,oe)和目标框集合bi中对应的目标框得到并集特征ue,并建立关系集合r′i={(s1,o1,u1),(s2,o2,u2),...,(se,oe,ue),...,(sM,oM,uM)};
(7)对数据集X中的所有图像执行(3)-(6),得到数据集关系集合R:R={r′1,r′2,...,r′i,...,r'K},并将其划分为训练集Rz与测试集Rs,按照同样的划分方式将标签集合Y划分为训练集标签集合Yz与测试集标签集合Ys
(8)构造基于关系视觉注意机制的场景图生成网络,其中,场景图生成网络包括主语关系注意力函数Atts,宾语关系注意力函数Atto,主语关系注意力转移函数FS→R和宾语注意力转移函数FO→R
(9)将(7)中训练集Rz与训练集标签Yz按批次进行划分,得到训练批次集合Rb与标签批次集合Yb:
Figure BDA0002300001710000031
Figure BDA0002300001710000032
其中
Figure BDA0002300001710000033
表示训练集Rz的第h个批次,
Figure BDA0002300001710000034
表示训练集标签Yz的第h个批次,h∈{1,2,...,V},
Figure BDA0002300001710000035
Γ表示批次大小,|Rz|表示训练集Rz的数量,V表示批次数量;
(10)按批次将
Figure BDA0002300001710000036
输入到(8)构建的场景图生成网络中,生成关系预测总集合:
P={p1,p2,...,pa,...,pΓ},
其中,pa为第a张图像的关系预测集合,
Figure BDA0002300001710000037
Figure BDA0002300001710000038
表示第a张图像的第e个关系预测,a∈{1,2,...,Γ};
(11)根据pa和标签批次集合
Figure BDA0002300001710000039
计算交叉熵损失:
Figure BDA00023000017100000310
并通过随机梯度下降优化方法最小化交叉熵损失Λ,得到训练好的场景图生成网络,其中,M表示批次中第a张图像的关系数量,标签批次集合
Figure BDA00023000017100000311
ya表示第a张图像的标签集合,
Figure BDA00023000017100000312
Figure BDA00023000017100000313
表示第a张图像的第j个关系的标签;
(12)将测试集Rs输入到(11)训练好的场景图生成网络中,生成测试集Rs对应的关系预测集合Ps,并根据该关系预测集合Ps构造出场景图。
与现有技术相比,本发明的有益效果是:
1)本发明通过利用数据集中存在的先验信息与目标检测得到的目标类别信息、目标框信息,对全连接关系图进行稀疏化,并且在不减少准确率的情况下,可以在很大程度上去掉无效边,与现有方法相比,避免了对无效边的预测与特征冗余交互,提高了场景图分类评价指标与关系分类评价指标的准确率。
2)本发明由于构建了基于关系视觉注意机制的场景图生成网络,并通过学习两个关系注意力转移函数,使得用于分类的特征真正关注于关系发生的区域,学习到准确的关系表征,相较于现有方法,本发明构造的场景图生成网络具有较强的可解释性。
附图说明
图1为本发明的实现流程图;
图2为现有技术的目标检测结果图;
图3为本发明中利用图2的目标检测结果产生的全连接关系图;
图4为本发明中产生的稀疏关系图;
图5为本发明中基于关系视觉注意机制的场景图生成网络;
图6为用现有方法学习到的关系表征进行可视化产生的结果图;
图7为输入的测试集图像;
图8为产生的全连接关系图;
图9为产生的稀疏关系图;
图10为本发明最终产生的场景图。
具体实施方式
下面通过附图,对本发明的实施例和效果做进一步详细描述。
本发明在注意力机制的基础上,结合场景图任务中产生每对关系需要有主语和宾语交互的特点,考虑发生关系的地方必定在两目标间有所接触或相接近的区域;在目标检测的基础上提出了关系注意力转移函数,通过交替迭代的学习关系注意力转移函数,使得最终不仅能够学习到较好的关系表征,并且该关系表征能够较好的对应于两目标真正发生关系的区域。其实施方案是先构建数据集的图像特征;获取目标类别,目标框与目标特征;再构造全连接关系图,并对进行稀疏化得到稀疏关系图;再构建关系对集合,构造并训练基于关系视觉注意机制的场景图生成网络,该网络包括,场景图生成网络包括主语关系注意力函数,宾语关系注意力函数,关系注意力转移函数和注意力转移函数;然后输入关系对集合,得到关系的分类结果;最终由各个目标作为节点,目标间的关系作为边,产生场景图。
参照图1,本实施例的实现步骤如下:
步骤1,获取图像特征。
1.1)从公开网址下载coco数据集、Image Genome数据集、Image Genome数据集标签集合Y和VGG16网络模型;
1.2)利用coco数据集对VGG16网络模型进行训练:
(1.2a)使用VGG16网络模型默认的初始学习率,并设置迭代次数D=3000,批次大小为8;
(1.2b)将coco数据集按批次输入到VGG16网络模型中;
(1.2c)利用批次随机梯度下降算法进行VGG16网络模型训练;
(1.2d)重复执行(1.2b)-(1.2c),直到达到迭代次数,得到训练好的VGG16网络模型;
(1.3)将包含k张图像的Image Genome数据集输入到训练好的VGG16网络模型中,得到k张图像的特征集合:S={s1,s2,…,si,…,sK},其中si是第i张图像的特征,i∈{1,2,...,K}。
步骤2,进行目标检测。
从公开网址下载训练好的Faster-Rcnn网络模型,将特征集合S输入到训练好的Faster-Rcnn网络模型中进行目标检测,得到目标类别L,目标框B与目标特征T,分别表示如下:
L={l1,l2,…,li,...,lK},
B={b1,b2,...,bi,...,bK},
T={t1,t2,...,ti,...,tK},
其中:
Figure BDA0002300001710000051
为第i张图像中目标类别集合,
Figure BDA0002300001710000052
为第i张图像中目标框集合,
Figure BDA0002300001710000053
为第i张图像中目标特征集合;
Figure BDA0002300001710000054
Figure BDA0002300001710000055
分别表示第i张图像中第j个目标的类别、目标框和特征,j∈{1,2,...,n},n为图像中目标的数量,每个目标框由{{x1,y1,x2,y2}}四个坐标进行标注,如图2所示,其中目标框即根据四个坐标产生。
步骤3,建立全连接关系图。
将图2中的每个目标框标注出的目标作为节点,对这些节点进行两两连接作为边,得到全连接关系图gi,如图3所示,其中每条边表示目标间的关系。
步骤4,建立稀疏关系图。
4.1)从全连接关系图gi中取一条边e以及对应的两节点,将该边标记为已访问;
4.2)判定为两节点是否存在关系:
若两节点对应的目标框不存在交集,或两节点中没有作为一对关系中的主语、宾语出现过,则在全连接关系图gi中将边e去掉;
否则,在全连接关系图gi中保留边e;
4.3)重复4.1)-4.3)直到全连接关系图gi中每条边都标记为已访问,得到稀疏关系图g′i,如图4所示;
对比稀疏关系图4与全连接关系图3可知,图4去掉的边即被认为两节点间不存在关系,不需要再进行检测。
步骤5,获取主宾对集合。
5.1)从稀疏关系图g′i取一条边e以及对应的两节点,将该边标记为已访问;
5.2)对两节点进行主语和宾语标记,若节点对应的类别属于人这一类别时,则将该节点标记为主语,否则,标记为宾语;
5.3)判断两节点的标记是否相同:
若两节点标记相同,则每个节点分别被标记为一次主语和一次宾语,即边e产生两个主宾对;否则,边e产生一个主宾对;
5.4)重复5.1)-5.3),直到稀疏关系图g′i中每条边都标记为已访问,得到主宾对集合ri
步骤6,获取并集区域特征。
由于两个目标发生关系处肯定存在于两目标框的并集区域,所以只需要在并集区域特征内建立关系注意力机制即可学习到准确的关系表征;
本实例利用主宾对集合ri中的每个元素(se,oe)和目标框集合bi中对应的目标框得到并集特征ue,并建立关系集合r′i,具体步骤如下:
6.1)从主宾对集合r′i中取出一个主宾对(se,oe),标记该主宾对已访问;
6.2)从目标框集合bi中取出与对应主宾对(se,oe)的两个目标框
Figure BDA0002300001710000071
Figure BDA0002300001710000072
6.3)计算两目标框
Figure BDA0002300001710000073
Figure BDA0002300001710000074
的并集框
Figure BDA0002300001710000075
6.4)利用并集框
Figure BDA0002300001710000076
对图像特征si进行ROI-Pooling操作,得到并集区域特征ue
6.5)重复6.1)-6.4)直到ri中的主宾对都被标记为已访问,得到关系集合ri′:
r′i={(s1,o1,u1),(s2,o2,u2),...,(se,oe,ue),...,(sM,oM,uM)}。
步骤7,得到数据集关系集合R。
7.1)对Image Genome数据集中的所有图像执行步骤3-步骤6,得到数据集关系集合R:
R={r′1,r′2,...,r′i,...,r'K},
7.2)将关系集合R按照7:3的比例划分为训练集Rz与测试集Rs,按照同样的划分方式将Image Genome数据集中的标签集合Y划分为训练集标签集合Yz与测试集标签集合Ys
步骤8,构造基于关系视觉注意机制的场景图生成网络。
8.1)构造主语关系注意力函数Atts和宾语关系注意力函数Atto,该Atts和Atto各包括一个卷积层和内积操作,卷积层的卷积核大小为3×3,步长为1,特征映射图数目为512,Atts输入为se,输出为主语关系注意力矩阵集合
Figure BDA0002300001710000077
Atto输入为oe,输出为宾语关系注意力矩阵集合
Figure BDA0002300001710000078
8.2)构造主语关系注意转移函数FS→R和宾语注意转移函数FO→R,FS→R表示从主语转移到发生关系处,FO→R表示从宾语转移到发生关系处,这两个转移函数分别利用主语,宾语特征与并集特征学习不同的注意力转移机制,使得学习到的转移权重关注于发生关系处,其中,函数FS→R和FO→R各包括第一卷积层、第二卷积层、第三卷积层,滤波器尺寸分别为3,3,3,步长分别为1,1,1,特征映射图数目分别为512,512,512,FS→R函数的输入为(8.1)中的主语关系注意力矩阵集合
Figure BDA0002300001710000079
输出为t+1时刻的主语转移表征集合
Figure BDA00023000017100000710
FO→R函数的输入为(8.1)中的宾语关系注意力矩阵集合
Figure BDA00023000017100000711
输出为t+1时刻的宾语转移表征集合
Figure BDA00023000017100000712
8.3)将se和8.2)中得到的主语关系表征集合
Figure BDA00023000017100000713
输入到Atts,输出为宾语关系注意力矩阵集合
Figure BDA0002300001710000081
将oe和8.2)中得到的宾语关系表征集合
Figure BDA0002300001710000082
输入到Atto,输出为主语关系注意力矩阵集合
Figure BDA0002300001710000083
其中,t∈{1,2,...,T},T表示设定的迭代次数;
8.4)执行8.2)-8.3)共T次,共产生T个迭代结果;
8.5)对第T个迭代输出的两个结果先进行通道拼接操作,再进行卷积操作与池化操作,最后进行全连接操作,构成场景图生成网络,如图5所示。
步骤9,进行批次划分。
将训练集Rz与训练集标签Yz按批次进行划分,得到训练批次集合Rb与标签批次集合Yb:
Figure BDA0002300001710000084
Figure BDA0002300001710000085
其中
Figure BDA0002300001710000086
表示训练集Rz的第h个批次,
Figure BDA0002300001710000087
表示训练集标签Yz的第h个批次,h∈{1,2,...,V},
Figure BDA0002300001710000088
Γ表示批次大小,|Rz|表示训练集Rz的数量,V表示批次数量;
步骤10,得到关系预测。
将训练集批次
Figure BDA0002300001710000089
输入到(8)构建的场景图生成网络中,生成关系预测总集合:
P={p1,p2,...,pa,...,pΓ},
其中,pa为第a张图像的关系预测集合,
Figure BDA00023000017100000810
Figure BDA00023000017100000811
表示第a张图像的第e个关系预测,a∈{1,2,...,Γ}。
步骤11,对场景图生成网络进行训练。
11.1)设置迭代次数D=20000,初始学习率lr=0.0001;
11.2)根据预测结果集合P与标签批次集合
Figure BDA00023000017100000812
计算交叉熵损失Λ:
Figure BDA00023000017100000813
其中,M表示批次中第a张图像的关系数量,pa表示第a张图像的预测集合;
Figure BDA00023000017100000814
表示第a张图像的标签集合,
Figure BDA00023000017100000815
表示标签批次集合
Figure BDA00023000017100000816
中第a张图像的第j个关系的标签;
11.3)通过随机梯度下降优化方法最小化交叉熵损失Λ,更新场景图生成网络;
11.4)重复11.1)-11.3),直到达到迭代次数D。
步骤12,产生场景图。
12.1)从测试集Rs中抽取一个关系集合ri,并标记该关系集合为已访问;
12.2)将关系集合ri输入到训练好的场景图生成网络中,得到关系预测
Figure BDA0002300001710000091
12.3)利用关系预测
Figure BDA0002300001710000092
与关系集合ri,构建拓扑结构并画出场景图;
12.4)重复执行步骤12.1)-(12.3),直到测试集中所有的关系集合标记为已访问,得到测试集Rs中所有关系集合的场景图,即最终的场景图。
本发明的效果可通过以下仿真结果进一步说明。
1.仿真条件
仿真的硬件平台为一台HP Z840工作站,其操作系统为Ubuntu 16.04,并搭载一块显存为12G的Nvidia-TianX GPU;软件平台为cuda 8.0、cudnn 7.0和Tensorflow 1.10。
仿真所使用的数据集为Image Genome数据集,数据集中包含108,007张图像,平均每张图像包含38个目标和33关系对。由于数据集标签的混淆,需要对数据集进行清理。清理后的数据集中的每张图像平均包含25个目标和22个关系对,本仿真只利用出现频率最高的150类实例和50类关系,最终,每张图像平均包含11.5个目标和6.2个关系对。
2.仿真内容与结果:
仿真1,在上述仿真条件下进行如下步骤的仿真实验:
首先,利用训练集图像对场景图生成网络进行训练得到训练好的场景图生成网络;
其次,将图7的测试集图像输入目标检测网络中,建立全连接图,如图8所示;
然后,对全连接图进行稀疏化,得到稀疏关系图,如图9所示;
最后,通过训练好的场景图生成网络预测稀疏关系图中的每一条边,构建出场景图,结果如图10所示。
仿真2,对测试集图像,分别利用现有方法和本发明产生的关系分类特征进行可视化,结果如图6所示,其中图6(a)为输入的图像,图6(b)为用现有方法对6(a)可视化产生的效果图,图6(c)为用本发明对6(a)可视化产生效果图。
仿真3,对测试集中所有图像进行场景图生成,并通过关系分类评价指标和场景图分类评价指标计算准确率,结果如表1所示,其中R@20,R@50,R@100分别表示取按预测置信度进行排序的前20个,前50个,前100个计算的准确率。
表1
任务名称 R@20 R@50 R@100
关系分类 59.3% 64.8% 67.8%
场景图分类 33.4% 36.3% 37.2%
2.仿真结果分析:
由仿真1可以看出,本发明可以对全连接关系图进行合理的稀疏化,并能的产生较好的场景图;
由仿真2可以看出,本发明的关系分类特征相比于现有方法的关系分类特征能够更好地关注到两个目标发生关系的区域,从而提高了网络的可解释性;
由仿真3可以看出,在关系分类与场景图分类两种评价标准中,本发明均取得了较好的结果。
综上所述,本发明不仅通过对全连接关系图的稀疏化减少了计算量,而且通过场景图生成网络使得用于最终分类的特征关注到真正发生关系的区域,提高了网络的可解释性。

Claims (6)

1.一种基于关系视觉注意机制的场景图产生方法,其特征在于,包括如下:
(1)输入包含K张图像和标签集合Y的数据集X,利卷积神经网络VGG16得到K张图像的特征集合:S={s1,s2,...,si,...,sK},其中si是第i张图像的特征,i∈{1,2,...,K};
(2)对(1)中的特征集合S进行目标检测,得到目标类别L,目标框B与目标特征T:
L={l1,l2,...,li,...,lK},B={b1,b2,...,bi,...,bK},T={t1,t2,...,ti,...,tK},
其中:
Figure FDA0002300001700000011
为第i张图像中目标类别集合,
Figure FDA0002300001700000012
为第i张图像中目标框集合,
Figure FDA0002300001700000013
为第i张图像中目标特征集合;
Figure FDA0002300001700000014
Figure FDA0002300001700000015
分别表示第i张图像中第j个目标的类别、目标框和特征,j∈{1,2,...,n},n为图像中目标的数量;
(3)将目标特征集合ti中的每个元素
Figure FDA0002300001700000016
作为节点,并对这些节点进行两两连接,建立全连接关系图gi
(4)根据(2)中得到的第i张图像的目标类别集合li和目标框集合bi,对全连接关系图gi进行稀疏化,建立稀疏关系图g′i
(5)将稀疏关系图g′i中每一条边相连的两个节点分别标记为主语节点和宾语节点,构建稀疏关系图g′i中所有边的主宾对集合:ri={(s1,o1),(s2,o2),...,(se,oe),...,(sM,oM)},其中se表示稀疏关系图g′i中第i条边的主语节点,oe表示稀疏关系图g′i中第i条边的宾语节点,M为稀疏关系图gi′中边的条数,e∈{1,2,...,M};
(6)利用主宾对集合ri中的每个元素(se,oe)和目标框集合bi中对应的目标框得到并集特征ue,并建立关系集合ri′={(s1,o1,u1),(s2,o2,u2),...,(se,oe,ue),...,(sM,oM,uM)};
(7)对数据集X中的所有图像执行(3)-(6),得到数据集关系集合R:R={r1′,r2′,...,ri′,...,r′K},并将其划分为训练集Rz与测试集Rs,按照同样的划分方式将标签集合Y划分为训练集标签集合Yz与测试集标签集合Ys
(8)构造基于关系视觉注意机制的场景图生成网络,其中,场景图生成网络包括主语关系注意力函数Atts,宾语关系注意力函数Atto,主语关系注意力转移函数FS→R和宾语注意力转移函数FO→R
(9)将(7)中训练集Rz与训练集标签Yz按批次进行划分,得到训练批次集合Rb与标签批次集合Yb:
Figure FDA0002300001700000021
Figure FDA0002300001700000022
其中
Figure FDA0002300001700000023
表示训练集Rz的第h个批次,
Figure FDA0002300001700000024
表示训练集标签Yz的第h个批次,h∈{1,2,...,V},
Figure FDA0002300001700000025
Γ表示批次大小,|Rz|表示训练集Rz的数量,V表示批次数量;
(10)按批次将
Figure FDA0002300001700000026
输入到(8)构建的场景图生成网络中,生成关系预测总集合:
P={p1,p2,...,pa,...,pΓ},
其中,pa为第a张图像的关系预测集合,
Figure FDA0002300001700000027
Figure FDA0002300001700000028
表示第a张图像的第e个关系预测,a∈{1,2,...,Γ};
(11)根据pa和标签批次集合
Figure FDA0002300001700000029
计算交叉熵损失:
Figure FDA00023000017000000210
并通过随机梯度下降优化方法最小化交叉熵损失Λ,得到训练好的场景图生成网络,其中,M表示批次中第a张图像的关系数量,标签批次集合
Figure FDA00023000017000000211
ya表示第a张图像的标签集合,
Figure FDA00023000017000000212
Figure FDA00023000017000000213
表示第a张图像的第j个关系的标签;
(12)将测试集Rs输入到(11)训练好的场景图生成网络中,生成测试集Rs对应的关系预测集合Ps,并根据该关系预测集合Ps构造出场景图。
2.根据权利要求1所述的方法,其特征在于,(4)中对全连接关系图gi进行稀疏化得到稀疏关系图g′i,具体步骤如下:
(4a)从全连接关系图gi中取一条边e以及对应的两节点,将该边标记为已访问;
(4b)判定为两节点是否存在关系:
若两节点对应的目标框不存在交集,或两节点中没有作为一对关系中的主语、宾语出现过,则在全连接关系图gi中将边e去掉;
否则,在全连接关系图gi中保留边e;
(4d)重复(4a)-(4c),直到全连接关系图gi中每条边都标记为已访问,得到稀疏关系图g′i
3.根据权利要求1所述的方法,其特征在于,(5)中构建稀疏关系图g′i中所有边的主宾对集合ri,具体步骤如下:
(5a)从稀疏关系图g′i取一条边e以及对应的两节点,将该边标记为已访问;
(5b)对两节点进行主语和宾语标记,若节点对应的类别属于人这一类别时,则将该节点标记为主语,否则,标记为宾语;
(5c)判断两节点的标记是否相同:
若两节点标记相同,则每个节点分别被标记为一次主语和一次宾语,即边e产生两个主宾对;否则,边e产生一个主宾对;
(5d)重复(5a)-(5c),直到稀疏关系图g′i中每条边都标记为已访问,得到主宾对集合ri
4.根据权利要求1所述的方法,其特征在于,(6)中利用主宾对集合ri中的每个元素(se,oe)和目标框集合bi中对应的目标框得到关系集合r′i,实现步骤如下:
(6a)从主宾对集合bi中取出一个主宾对(se,oe),标记该主宾对已访问;
(6b)从目标框集合bi中取出与对应主宾对(se,oe)的两个目标框
Figure FDA0002300001700000031
Figure FDA0002300001700000032
(6c)计算两目标框
Figure FDA0002300001700000033
Figure FDA0002300001700000034
的并集框
Figure FDA0002300001700000035
(6d)利用并集框
Figure FDA0002300001700000036
对图像特征si进行ROI-Pooling操作,得到并集区域特征ue
(6f)重复(6a)-(6d)直到ri中的主宾对都被标记为已访问,得到关系集合ri′。
5.根据权利要求1所述的方法,其特征在于,(8)中构造基于关系视觉注意机制的场景图生成网络,具体步骤如下:
(8a)构造主语关系注意力函数Atts和宾语关系注意力函数Atto,Atts和Atto各包括一个卷积操作和内积操作,在时刻t=0时,Atts和Atto的输入为从(9)得到的批次训练集
Figure FDA0002300001700000041
输出分别为主语关系注意力矩阵集合
Figure FDA0002300001700000042
与宾语关系注意力矩阵集合
Figure FDA0002300001700000043
(8b)构造主语关系注意转移函数FS→R和宾语注意转移函数FO→R,其中,函数FS→R和FO→R各包括3层卷积操作,FS→R函数的输入为(8a)中的主语关系注意力矩阵集合
Figure FDA0002300001700000044
输出为t+1时刻的主语转移表征集合
Figure FDA0002300001700000045
FO→R函数的输入为(8a)中的宾语关系注意力矩阵集合
Figure FDA0002300001700000046
输出为t+1时刻的宾语转移表征集合
Figure FDA0002300001700000047
(8c)将
Figure FDA0002300001700000048
和(8b)中得到的主语转移表征集合
Figure FDA0002300001700000049
输入到Atts,输出为宾语关系注意力矩阵集合
Figure FDA00023000017000000410
Figure FDA00023000017000000411
和(8b)中得到的宾语转移表征集合
Figure FDA00023000017000000412
输入到Atto,输出为主语关系注意力矩阵集合
Figure FDA00023000017000000413
其中,t∈{1,2,...,T},T表示设定的迭代次数;
(8c)执行(8b)-(8c)共T次,共产生T个迭代模块;
(8d)对第T个迭代模块的输出进行通道拼接操作,然后进行卷积操作与池化操作,最后进行全连接操作,构成场景图生成网络。
6.根据权利要求1所述的方法,其特征在于,(12)中生成测试集Rs对应的关系预测集合Ps,并根据该关系预测集合Ps构造出最终的场景图,具体步骤如下:
(12a)从步骤(7)获得的测试集Rs中抽取一个关系集合ri,并标记该关系集合为已访问;
(12b)将关系集合ri输入到训练好的场景图生成网络中,得到关系预测
Figure FDA00023000017000000414
(12c)利用关系预测
Figure FDA00023000017000000415
关系集合ri,构建拓扑结构并画出场景图;
(12d)重复执行步骤(12a)-(12c),直到测试集Rs中所有的关系集合标记为已访问,得到测试集Rs中所有关系集合的场景图,即最终的场景图。
CN201911217909.1A 2019-12-03 2019-12-03 基于关系视觉注意机制的场景图产生方法 Active CN110991532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911217909.1A CN110991532B (zh) 2019-12-03 2019-12-03 基于关系视觉注意机制的场景图产生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911217909.1A CN110991532B (zh) 2019-12-03 2019-12-03 基于关系视觉注意机制的场景图产生方法

Publications (2)

Publication Number Publication Date
CN110991532A true CN110991532A (zh) 2020-04-10
CN110991532B CN110991532B (zh) 2022-03-04

Family

ID=70089366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911217909.1A Active CN110991532B (zh) 2019-12-03 2019-12-03 基于关系视觉注意机制的场景图产生方法

Country Status (1)

Country Link
CN (1) CN110991532B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置
CN111611420A (zh) * 2020-05-26 2020-09-01 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN112329879A (zh) * 2020-11-16 2021-02-05 浙江大学 基于反事实多智能体学习的图像场景图的生成方法和系统
CN112990202A (zh) * 2021-05-08 2021-06-18 中国人民解放军国防科技大学 基于稀疏表示的场景图生成方法及系统
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
TWI748720B (zh) * 2020-07-28 2021-12-01 新加坡商商湯國際私人有限公司 程式場景資訊的檢測方法、電子設備和儲存介質
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN114814776A (zh) * 2022-06-24 2022-07-29 中国空气动力研究与发展中心计算空气动力研究所 基于图注意力网络和迁移学习的pd雷达目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229272A (zh) * 2017-02-23 2018-06-29 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229272A (zh) * 2017-02-23 2018-06-29 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGSHI QI等: "Attentive relational networks for mapping images to scene graphs", 《HTTPS://ARXIV.ORG/ABS/1811.10696V1》 *
林欣等: "一种残差置乱上下文信息的场景图生成方法", 《计算机研究与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置
CN111612070B (zh) * 2020-05-13 2024-04-26 清华大学 基于场景图的图像描述生成方法及装置
CN111611420A (zh) * 2020-05-26 2020-09-01 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
TWI748720B (zh) * 2020-07-28 2021-12-01 新加坡商商湯國際私人有限公司 程式場景資訊的檢測方法、電子設備和儲存介質
CN112329879A (zh) * 2020-11-16 2021-02-05 浙江大学 基于反事实多智能体学习的图像场景图的生成方法和系统
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN112990202A (zh) * 2021-05-08 2021-06-18 中国人民解放军国防科技大学 基于稀疏表示的场景图生成方法及系统
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN113836339B (zh) * 2021-09-01 2023-09-26 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN114814776A (zh) * 2022-06-24 2022-07-29 中国空气动力研究与发展中心计算空气动力研究所 基于图注意力网络和迁移学习的pd雷达目标检测方法
CN114814776B (zh) * 2022-06-24 2022-10-14 中国空气动力研究与发展中心计算空气动力研究所 基于图注意力网络和迁移学习的pd雷达目标检测方法

Also Published As

Publication number Publication date
CN110991532B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
US11853903B2 (en) SGCNN: structural graph convolutional neural network
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN111489358A (zh) 一种基于深度学习的三维点云语义分割方法
WO2019001070A1 (zh) 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
CN105718952A (zh) 使用深度学习网络对断层医学影像进行病灶分类的方法
WO2019001071A1 (zh) 一种基于邻接矩阵的图特征提取系统、图分类系统和方法
JP2018200685A (ja) 完全教師あり学習用のデータセットの形成
WO2022001123A1 (zh) 关键点检测方法、装置、电子设备及存储介质
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111325243B (zh) 一种基于区域注意力学习机制的视觉关系检测方法
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN111126459A (zh) 一种车辆细粒度识别的方法及装置
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN104751463A (zh) 一种基于草图轮廓特征的三维模型最佳视角选取方法
CN113836339A (zh) 一种基于全局信息和位置嵌入的场景图生成方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Lonij et al. Open-world visual recognition using knowledge graphs
Zhang et al. Learning from multiple annotators for medical image segmentation
CN105426836A (zh) 一种基于分部式模型和稀疏成分分析的单样本人脸识别方法
CN115019133A (zh) 基于自训练和标签抗噪的图像中弱目标的检测方法及系统
CN113255892B (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
Yuan et al. Research on simulation of 3D human animation vision technology based on an enhanced machine learning algorithm
Wang et al. LiDAR–camera fusion for road detection using a recurrent conditional random field model
CN116258937A (zh) 基于注意力机制的小样本分割方法、装置、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant