CN113065587A - 一种基于超关系学习网络的场景图生成方法 - Google Patents
一种基于超关系学习网络的场景图生成方法 Download PDFInfo
- Publication number
- CN113065587A CN113065587A CN202110309285.7A CN202110309285A CN113065587A CN 113065587 A CN113065587 A CN 113065587A CN 202110309285 A CN202110309285 A CN 202110309285A CN 113065587 A CN113065587 A CN 113065587A
- Authority
- CN
- China
- Prior art keywords
- target
- network
- relationship
- relation
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000006870 function Effects 0.000 claims abstract description 43
- 230000003993 interaction Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000012546 transfer Methods 0.000 claims abstract description 12
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims description 44
- 230000009466 transformation Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 19
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于超关系学习的场景图生成方法。本发明包括以下步骤:1、通过目标自注意力网络加强目标交互,融合目标的特征。2、通过目标‑关系注意力网络加强目标和关系的交互,融合目标和关系之间的特征。3、通过超关系注意力网络去整合超关系的传递推理。4、模型训练,将目标损失函数和关系损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对场景图生成的深度神经网络,特别是提出一种超关系学习网络,充分利用目标和关系之间的交互和传递推理,提高了场景图生成中关系的推理能力,并且在场景图生成领域中的性能得到了很大的提升。
Description
技术领域
本发明提出一种基于超关系学习(Hyper-relationship Learning Network)的场景图生成方法(HLN)。HLN起源于超图,使用多层的注意力网络是目标之间相互作用。进一步提出了目标关系注意力网络(OR-GAT)去自主在目标和关系之间相互作用,融合特征。本发明首次提出了超关系注意力网络去整合超关系的传递推理。其中超关系指的是三个目标之间关系的子集。通过目标之间相互作用,目标和关系之间的相互作用以及超关系的传递推理明显的提升了关系的预测效果。
背景技术
场景图生成(SGG)目的是为了检测物体并预测对象关系。然后,这些检测到的对象和关系构成图像的场景图。场景图生成不仅能基于视觉内容提供去理解图像的关系,也同样有益于那些高层次的视觉应用的知识表示,例如视觉问答。场景图生成任务的目标就是让计算机能自动生成一种语义化的图结构,从而作为图像的表示。图像中的目标对应场景图中的节点,目标间的关系对应场景图中的边,边也能表示目标的各种属性,如颜色等。相对于向量表示来说,这种结构化表示的方法显得更加直观,场景图也可以看成是小型的知识图谱,因此能广泛的应用于知识管理、推理、检索、推荐等领域。除此之外,场景图的表示方法是模态无关的,自然语言、视频、语音等数据同样可以表示成类似结构,因此对于融合多模态信息很有潜力。
早期的视觉关系检测工作将视觉关系三元组作为整体进行检测,即同时预测主语-谓语-宾语。然而由于视觉关系类别众多,这类方法需要大量的训练数据,且受限于早期标注数据规模和模型计算能力,其预测关系类别有限、精度不高,比如Sadeghi等人提出的视觉关系检测方法仅能对13种常见的简单关系进行预测,而Desai等人提出的人与周围环境互动方法仅能检测8种简单的人的动作。2016年, Lu等人将视觉关系检测任务拆分为目标检测和谓语检测两个子任务,并分别采用不同的模块进行处理。此时,目标检测模块仅需要获取目标类别的训练数据,而谓语检测模块仅需要获取谓语类别的训练数据。这种策略将原本的乘积式训练标注空间,转换为相加式的训练标注空间,不仅降低了视觉关系检测方法对数据标注的依赖,并且由于不同模块负责不同的子任务,有效地提升了检测结果。Lu等人的方法将视觉关系检测类别提升到了70类。直到现在,几乎所有的视觉关系检测方法均采用这种做法。
另一类视觉关系检测方法则注重于挖掘主语和宾语信息本身的关联。Zhang等人提出的VTransE方法中,利用VGG-16网络提取主语和宾语的视觉特征,利用Faster R-CNN目标识别网络获取主语和宾语的类别信息,同时结合主语和宾语在图像中的位置提取空间信息,然后采用文本中的词嵌入模型,将主语和宾语进行嵌入组合获取最终的关系预测。而Zoom-Net网络则充分利用主语和宾语之间的空间特性,构建多尺度金字塔网络,对主语、宾语、以及主语宾语联合目标提取视觉信息并融合,充分利用主语和宾语的视觉特性获取最终的预测结果。而Liang等人则利用张量理论对现有的关系对进行分解,从而在获取主语和宾语目标类别基础上,直接预测两者之间的关系。Jae 等人则构建了强化学习网络,同时利用目标属性这一额外信息联合训练预测关系。Dai等人构建深度神经网络对目标的关系进行深度融合,从而获取最终的预测结果。
随着科技的不断发展,计算机视觉应用和需求的愈加深入和广泛,当前的计算机视觉研究已经不仅限于识别视觉数据个体自身信息,如图像分类(Image Classification)和目标检测(Object Detection) 等,同时扩展到理解数据和数据之间的关联推理研究,如图像场景描述(Image Captioning)和视觉问答(Visual Question Answering)等。视觉关系检测(Visual Relationship Detection)指检测视觉场景中两个不同目标之间的关系,这些被检测的关系不仅可以作为视觉场景信息表示以辅助并加深视觉场景的理解,同时可以作为视觉的关联性知识指导并应用于计算机视觉领域中其他的相关任务,如细粒度目标检测、图像描述、视觉问答等。随着卷积神经网络(Convolutional Neural Network,CNN)、图神经网络(Graph Neural Network,GNN) 等深度学习方法的不断进步,视觉基因数据库(Visual Genome,VG)、开放图像库(Open Image)等大规模跨媒体知识库的逐步建立,视觉关系检测得到了飞速地发展,且已经成为了当前计算机视觉领域中一项基本且重要的研究。在视觉关系检测方法中,视觉关系通常以三元组的形式表示,即主语-谓语-宾语(Subject-Predicate-Object)。主语和宾语表示两个不同的目标,而谓语则描述主语和宾语这一目标对之间的关系,比如人-穿-衣服、人-骑-马等。
综上所述,场景图生成领域是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的场景图生成方法。
场景图生成提供了整个图像的简要图。因此,场景图生成的一个关键点就是建模并且利用目标与目标之间的关系。但是,大多数场景图生成方法无法理解关系和目标的交互。相对很少有工作探讨了关系交互,不幸的是,这些方法都丢失了有价值信息并且需要很高的时间复杂度。具体而言,主要存在如下两方面的难点:
(1)当前大多数场景图生成方法利用目标之间相互作用进行关系预测,但这些方法仅是利用对象之间的简单交互。所以,如何更好的利用目标与目标之间的相互作用去融合目标之间的特征,为之后的关系预测传递更有效的特征是一个影响关系预测算法性能的重要因素。
(2)最近关于无偏差场景图生成的研究将关系预测问题归咎于训练集的偏差。这些研究提出了采用无偏策略的无偏场景图生成方法。然而,现有的无偏SGG方法仍然忽略关系连接。因为大多数他们忽略了关系的内在联系,在需要考虑周围关系的关系预测中,大多数场景图生成方法可以利用对象的交互作用,并且表现不佳。但是,他们无法理解关系交互。相对很少有工作探讨了关系交互,不幸的是,这些方法都丢失了有价值信息并且需要很高的时间复杂度。所以,如何利用关系和目标之间的内在联系是关系预测中的一个难点问题。
(3)目前,没有任何的方法考虑关系的高层次连接,即传递的推断。传递推断是指通过合并两个目标和另一个中间目标之间的关系来推断两个目标之间的关系。利用传递推理可以更好地组织和整合周围的关系。但是,关系的高层次连接对关系预测的性能影响尤为显著。所以如何进行关系的高层次连接也是关系预测中的一个难点。
发明内容
本发明提供了一种基于超关系学习网络的场景图生成方法。本发明主要包含三点:1、使用目标自注意力网络作为目标分类的方法。选择注意力网络是因为注意力机制能对输入的目标的交互进行建模。能够考虑全局的目标的影响,将关系隐含在目标当中。
2、提出目标-关系注意力网络使目标和关系交互。首先通过目标 -关系注意力机制使关系的信息传递给目标,其中使用遮掩机制,只传递和该目标有关的关系的信息。之后,使用目标-关系注意力网络将目标的信息传递给关系。通过这种目标和关系的信息的相互传递,能有效的融合目标和关系的特征。
3、以往的场景图生成方法一般忽略了关系之间的交互和传递推断。所以我们在关系预测网络中考虑了目标和关系之间的交互和传递推断,然后预测关系。
本发明解决其技术问题所采用的的技术方案包括如下步骤:
构建超关系学习网络,超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络;具体的:超关系学习网络首先通过目标框生成网络得到目标框;然后目标分类网络基于目标之间的相互作用,使用自注意力机制预测每个目标的位置和类别;最后在关系预测网络中,先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理。
步骤(1)、构建目标框生成网络
使用Faster R-CNN作为目标框生成网络;给定一幅图像I,目标框生成网络生成目标框的集合B={bi},i∈[N];对于每个目标框bi,目标框生成网络提供一个空间特征pi∈R9、一个视觉特征和一个目标类别概率空间特征pi包括相对边界的目标框坐目标框的中心坐标和相对比例其中(xit,yit,xi2,yi2)是目标框bi的左上角和右下角的坐标;w和h是图像I的宽和高;dv表示视觉特征的维度;c0+1是目标的类别总数,其中包括一个背景类;R9表示一个9 维的实数矩阵;表示dv维度的实数矩阵。
步骤(2)、构建目标分类网络
使用自注意力机制预测每个目标的位置和类别,选择自注意力层是因为自注意力机制能对输入的目标的交互进行建模。
步骤(3)、构建关系预测网络
先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理。
步骤(4)、对超关系学习网络模型进行训练
将图像标注的真实目标类别和目标分类网络预测的64个目标类别,放入softmax交叉熵损失中计算损失;并计算真实目标框和预测目标框的回归损失,由L2损失计算;将给定的真实关系和预测得到的256个预测关系,放入二值交叉熵损失中计算损失;并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传,不断优化,直至整个超关系学习网络模型收敛。
进一步的,步骤(1)所述的构建目标框生成网络,具体实现如下:
1-1、首先使用FPN多尺度结构提取图像中各个候选框的特征, FPN结构自顶向下共有4层,每层提取2000个候选框;
1-2、然后使用Roi Align操作提取每个候选框在图像上对应的特征,再使用非极大值抑制方法筛选出1000个候选框及其对应的特征;
进一步的,步骤(2)所述的构建目标分类网络,具体如下:
2-1、目标初始化
其中FCo(*)=Wo(*)+bo表示一个线性变换函数,Wo和bo分别是权重矩阵这偏置;σ表示一个非线性变换函数,使用ReLU函数;”||”表示连接符号;Embo(*)是基于预先训练好的word2vec 模型的词嵌入参数。
2-2、使用目标自注意力网络进行目标的交互
X′=FFNo(SAo(X)) (2)
其中X′表示更新后的目标的特征集合;SAo(*)就是进行目标之间交互的一个自注意力网络层;这个自注意力网络层被定义为:
其中Qo(*)、Ko(*)、Vo(*)是三个同维度的线性变换函数,分别表示自注意力机制过程中的query、key、value;是Qo(*)和 Ko(*)输出的维度,则是一个比例因子;FFNo(*)是一个由两个全连接层组成的前馈神经网络:
自注意力网络中采用了多头的策略,同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中,即:
X=X+LN(Fun(X)) (5)
其中,公式(5)右边的X是输入的目标的特征集合,公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合,LN(*)表示层归一化方法,Fun(*)代表的是每一个注意力网络或者前馈神经网络。
2-3、目标分类
在经过多层自注意力网络层后,最后使用交叉熵损失函数进行目标分类。
进一步的,步骤(3)所述的构建关系预测网络,具体如下:
3-1、目标和关系的初始化
其中,和分别是目标oi的视觉特征和空间特征,是目标分类网络中经过最后一层自注意力网络得到的语义特征;Embr(l'i)是基于目标分类网络中预测每一个类别l′i的词嵌入向量,并且它是一个 one-hot向量;
其中,FCv3,FCv1,FCv2均表示线性变换函数;yi表示目标oi经过初始化后的特征,yj表示目标oj经过初始化后的特征。
3-2、目标-关系注意力网络
首先,目标-关系注意力网络将信息从关系传递到目标来更新目标的特征,这个过程表示为:
Y′=FFNr1(MAr1(Y,Z,Mr1)) (8)
其中,Y′就是被更新之后目标的特征集合,FFNr1是一个由两个全连接层组成的前馈神经网络;MAr1(*)是一个带掩盖的注意力网络,而这个掩盖注意力网络表示为:
其中,Mr1就是一个N×N2的掩盖函数,它的作用就是让关系的特征集合Z中只和目标的特征集合Y有关的关系向目标的特征集合Y传递信息,其他的关系不向该目标传递信息;与公式(3)类似, Qr1(*)是对目标的特征集合Y的线性变换函数,Kr1(*)和Vr1(*)是对关系的特征集合Z的线性变换函数,则是目标和关系特征集合的一个比例因子。
然后,目标-关系注意力网络再通过更新特征之后的目标向关系传递信息去更新关系的特征集合,这个信息传递的过程表示为:
Z'=FFNr2(ATr2(Y′,Z)) (10)
其中Z′是被更新之后的关系特征集合,FFNr2(*)是一个由两个全连接层组成的前馈神经网络,ATr2(*)是一个注意力网络,该网络表示为:
而从目标到关系传递信息的注意力网络不需要掩盖函数,是将所有目标的信息都传递给每一个关系;类似公式(9),Qr2(*)是对关系的特征集合Z的线性变换函数,Kr2(*)和Vr2(*)是对更新后的目标特征集合Y′的线性变换函数,则是关系和目标特征集合的一个比例因子。
通过目标-关系注意力网络这种可选择的自主选择融合方式,既融合了目标的特征也融合了关系的特征,最重要的是还加强了关系和目标之间的相互作用;相比于直接使用关系-关系的注意力网络,目标-关系-的注意力网络极大的降低了网络的时间复杂度,从N2×N2的时间复杂度降低为N×N2的时间复杂度。
3-3、超关系注意力网络
在经过目标-关系注意力网络的特征融合之后,通过超关系注意力网络整合目标和关系的信息进行传递推理;具体来说,对于一个给定的关系rij,超关系注意力网络首先要获得相对应的超关系Eijk,其中k∈[N];根据传递推理方法,基于两个目标oi和oj的关系以及一个中间目标ok就可以组成超关系进行从Eijk到rij的传递推理;所以从Eijk到rij的传递推理过程表示为:
其中σ是LeakyReLU函数;其中,超关系表示3个目标oi,oj,ok组成的关系子集;表示目标oi为主语,目标ok为宾语的关系对,表示目标ok为主语,目标oi为宾语的关系对;表示目标oj为主语,目标ok为宾语的关系对;表示ok为主语,目标oj为宾语的关系对;通过组成的超关系传递推理关系目标oi和目标oj的关机,即关系和关系FCh(*)表示一个线性变换函数。
其中ffNh(*)是一个由两个全连接层组成的前馈神经网络, ATh(*)是一个关于超关系的注意力网络,定义为:
所述的目标-关系注意力网络和超关系注意力网络均采用多头的策略以及残差连接方式。
3-4、关系预测
在经过了目标-关系注意力网络融合目标和关系的特征以及超关系注意力网络去传递推理关系特征之后,最后去预测关系的类别;在关系预测中,将两个目标的联合框生成的联合特征以及频率偏差添加到关系预测中;在目标-关系注意力网络和超关系注意力网络之后使用联合特征以及频率偏差,主要是因为计算联合特征和频率偏差需要消耗很大的空间,也有很大的时间复杂度;最后使用二值交叉熵损失进行关系预测。
进一步的,步骤(4)所述的训练模型,具体如下:
在目标分类的训练过程中,根据图像标注的真实目标类别和我们预测的64个目标类别,将其放入softmax交叉熵损失中计算损失,该损失可表示为:
计算真实目标框和预测的框的回归损失,由L2损失计算,该损失表示为:
Lloss2=(y-f(x))2 (16)
其中,y是真实目标框空间坐标集合,f(x)是预测目标框的空间位置集合,Lloss2表示真实目标框和预测的框的L2损失。
在关系预测的过程中,根据给定的真实关系和预测的256个关系,将其放入二值交叉熵损失中计算损失,该损失可表示为:
所以,最终的损失函数为这三个损失之和:
Lloss=Lloss1+Lloss2+Lloss3 (18)
利用反向传播算法,在每次迭代获取步骤(2)和步骤(3)中神经网络的模型的各个参数进行梯度回传,在不断迭代中训练至网络模型收敛。
本发明有益效果如下:
本发明提出一种超关系学习网络去探索和利用场景图中目标之间的交互,关系和目标的交互以及超关系的传递推理。具体来说,超关系学习网络将场景图建模成超图,设计目标-关系注意力网络去结合目标和关系的交互,然后在设计超关系注意力网络去整合超关系的传递推理。我们在Visual Genome数据集上进行了综合的实验和分析。实验结果证明了当关系预测需要推断周围环境的关系时,超关系学习网络具有很高的推理和整合能力。例如“Walking In,Playing, Painted on”,这些关系在其他的方法中基本不会出现,但是超关系学习网络能够很好的预测这些复杂的关系。
本发明参数量,效果显著,通过高效的分布式训练实现,有利于部署于内存受限的特定硬件。
附图说明
图1:超关系学习网络流程图
图2:目标自注意力网络图
图3:目标-关系注意力网络图
图4:超关系注意力网络图
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1、2、3和4所示,本发明提供一种基于超关系学习 (Hyper-relationshipLearning Network)的场景图生成方法 (HLN)。
步骤(1)所述的目标框生成网络,具体如下:
1-1.主干网络采用ResNetXt-101-FPN的方法。通过主干网络提取的特征维度为256。并且不采用数据增强的效果,即不采用图片翻转的方式。
1-2.区域生成网络(Region Proposal Network)的候选框尺寸在(32,64,128,256,512)中选取。在训练和测试中的FPN的每层都选取1000个候选框,共4层。经过区域生成网络后的框提取的特征维度为256。
1-3.在目标框的采样过程中,从1000个候选框中按照正负样本 1:3的比例采样64个目标框。以IOU>0.5表示为正样本,IOU<0.3为负样本,在此期间,去除重复的框。
步骤(2)基于超关系学习方法(Hyper-relationship Learning Network)对目标的特征相互融合,具体如下:
2-1.首先初始64个目标框的视觉特征维度为256,初始的空间特征维度为9,初始的语义特征维度为200。将空间特征的维度使用一个线性变换函数将维度变成32,之后使用归一化操作,再使用一个线性变换将维度升至128,最后加上一个非线性函数ReLU得到变换后的空间特征。将其与视觉特征和语义特征连接起来得到的融合维度为584,之后通过线性变换操作,并加上ReLU和Dropout操作, Dropout采用0.1,得到融合特征的维度为768。
2-2.将2-1中得到的特征先进行三个同维度的线性变换操作。得到Query、Key和Value,维度都是768。将Query和Key进行点乘操作,得到64×64的相似度矩阵,再把相似度矩阵和Value做矩阵乘法,就得到了768维的新的特征。在此,我们使用多头机制,头数为8。接着通过层归一化和Dropout操作(Dropout=0.1)以及残差连接操作。最后使用一个前馈神经网络,即两层的线性层,第一层的维度为1536,第二层的维度为768。就得到了目标自注意力网络后的特征。
2-3.将2-2中得到的特征进行一层线性变换操作,维度为151,之后直接进行目标的分类。
步骤(3)所述的关系预测网络,具体如下:
3-1.和目标分类的初始化相似,首先初始64个目标框的视觉特征维度为256,初始的空间特征维度为9,初始的语义特征维度为200。将空间特征的维度使用一个线性变换函数将维度变成32,之后使用归一化操作,再使用一个线性变换将维度升至128,最后加上一个非线性函数ReLU得到变换后的空间特征。将其与视觉特征和语义特征以及目标自注意力网络得到的特征连接起来得到的融合维度为1352。再初始化一个关系特征为4096×768的大小。
3-2.将3-1中的目标特征和关系特征输入目标-关系注意力网络中得到新的目标特征为768维。再将新的目标特征和初始化的关系特征输入目标-关系注意力网络中得到新的关系特征,维度为768。
3-3.将3-2中的关系特征输入到超关系注意力网络中,在4096 个关系中取出其中的256个关系。得到更新后的关系特征,维度为 768。
3-4.将3-3中的关系特征先使用一个线性层,得到维度为256,之后和联合特征做点乘得到视觉特征,维度为256。之后视觉特征再经过一个线性层得到一个关系特征,维度为50,经过超关系注意力网络得到的关系特征也经过一个线性层得到另一个关系特征,维度为 50,两个关系特征相加后直接进行分类操作。
3-5.我们在目标分类使用softmax交叉熵损失,在关系预测中使用二值交叉熵损失。在训练阶段使用动量为0.9的SGD优化器。学习率设置为0.001,并在前5000个轮次使用warm-up策略,在18000 和26000个轮次学习率乘以0.1,总轮次为34000。Batch size的大小为12。
步骤(4)所述的训练模型,具体如下:
4-1、在目标分类的训练过程中,根据图像标注的真实目标类别和我们预测的64个目标类别,将其放入softmax交叉熵损失中计算损失,该损失可表示为:
计算真实目标框和预测的框的回归损失,由L2损失计算,该损失表示为:
Lloss2=(y-f(x))2 (16)
4-2、在关系预测的过程中,根据给定的真实关系和预测的256 个关系,将其放入二值交叉熵损失中计算损失,该损失可表示为:
4-3、所以,最终的损失函数为这三个损失之和:
Lloss=Lloss1+Lloss2+Lloss3 (18)
利用反向传播算法,在每次迭代获取步骤(2)和步骤(3)中神经网络的模型的各个参数进行梯度回传,在不断迭代中训练至网络模型收敛。
Claims (5)
1.一种基于超关系学习的场景图生成方法,其特征在于:
构建超关系学习网络,超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络;超关系学习网络首先通过目标框生成网络得到目标框;然后目标分类网络基于目标之间的相互作用,使用自注意力机制预测每个目标的位置和类别;最后在关系预测网络中,先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理;具体的:
步骤(1)、构建目标框生成网络
使用Faster R-CNN作为目标框生成网络;给定一幅图像I,目标框生成网络生成目标框的集合B={bi},i∈[N];对于每个目标框bi,目标框生成网络提供一个空间特征pi∈R9、一个视觉特征和一个目标类别概率空间特征pi包括相对边界的目标框坐目标框的中心坐标和相对比例其中(xi1,yi1,xi2,yi2)是目标框bi的左上角和右下角的坐标;w和h是图像I的宽和高;dv表示视觉特征的维度;c0+1是目标的类别总数,其中包括一个背景类;R9表示一个9维的实数矩阵;表示dv维度的实数矩阵;
步骤(2)、构建目标分类网络
使用自注意力机制预测每个目标的位置和类别,选择自注意力层是因为自注意力机制能对输入的目标的交互进行建模;
步骤(3)、构建关系预测网络
先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理;
步骤(4)、对超关系学习网络模型进行训练
将图像标注的真实目标类别和目标分类网络预测的64个目标类别,放入softmax交叉熵损失中计算损失;并计算真实目标框和预测目标框的回归损失,由L2损失计算;将给定的真实关系和预测得到的256个预测关系,放入二值交叉熵损失中计算损失;并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传,不断优化,直至整个超关系学习网络模型收敛。
3.根据权利要求1所述的一种基于超关系学习的场景图生成方法,其特征在于步骤(2)所述的构建目标分类网络,具体如下:
2-1、目标初始化
其中FCo(*)=Wo(*)+bo表示一个线性变换函数,Wo和bo分别是权重矩阵这偏置;σ表示一个非线性变换函数,使用ReLU函数;”||”表示连接符号;Embo(*)是基于预先训练好的word2vec模型的词嵌入参数;
2-2、使用目标自注意力网络进行目标的交互
X′=FFNo(SAo(X)) (2)
其中X′表示更新后的目标的特征集合;SAo(*)就是进行目标之间交互的一个自注意力网络层;这个自注意力网络层被定义为:
其中Qo(*)、Ko(*)、Vo(*)是三个同维度的线性变换函数,分别表示自注意力机制过程中的query、key、value;是Qo(*)和Ko(*)输出的维度,则是一个比例因子;FFNo(*)是一个由两个全连接层组成的前馈神经网络:
自注意力网络中采用了多头的策略,同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中,即:
X=X+LN(Fun(X)) (5)
其中,公式(5)右边的X是输入的目标的特征集合,公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合,LN(*)表示层归一化方法,Fun(*)代表的是每一个注意力网络或者前馈神经网络;
2-3、目标分类
在经过多层自注意力网络层后,最后使用交叉熵损失函数进行目标分类。
4.根据权利要求1所述的一种基于超关系学习的场景图生成方法,其特征在于步骤(3)所述的构建关系预测网络,具体如下:
3-1、目标和关系的初始化
其中,和分别是目标oi的视觉特征和空间特征,是目标分类网络中经过最后一层自注意力网络得到的语义特征;Embr(l′i)是基于目标分类网络中预测每一个类别l′i的词嵌入向量,并且它是一个one-hot向量;
其中,FCv3,FCv1,FCv2均表示线性变换函数;yi表示目标oi经过初始化后的特征,yj表示目标oj经过初始化后的特征;
3-2、目标-关系注意力网络
首先,目标-关系注意力网络将信息从关系传递到目标来更新目标的特征,这个过程表示为:
Y′=FFNr1(MAr1(Y,Z,Mr1)) (8)
其中,Y′就是被更新之后目标的特征集合,FFNr1是一个由两个全连接层组成的前馈神经网络;MAr1(*)是一个带掩盖的注意力网络,而这个掩盖注意力网络表示为:
其中,Mr1就是一个N×N2的掩盖函数,它的作用就是让关系的特征集合Z中只和目标的特征集合Y有关的关系向目标的特征集合Y传递信息,其他的关系不向该目标传递信息;与公式(3)类似,Qr1(*)是对目标的特征集合Y的线性变换函数,Kr1(*)和Vr1(*)是对关系的特征集合Z的线性变换函数,则是目标和关系特征集合的一个比例因子;
然后,目标-关系注意力网络再通过更新特征之后的目标向关系传递信息去更新关系的特征集合,这个信息传递的过程表示为:
Z′=FFNr2(ATr2(Y′,Z)) (10)
其中Z′是被更新之后的关系特征集合,FFNr2(*)是一个由两个全连接层组成的前馈神经网络,ATr2(*)是一个注意力网络,该网络表示为:
而从目标到关系传递信息的注意力网络不需要掩盖函数,是将所有目标的信息都传递给每一个关系;类似公式(9),Qr2(*)是对关系的特征集合Z的线性变换函数,Kr2(*)和Vr2(*)是对更新后的目标特征集合Y′的线性变换函数,则是关系和目标特征集合的一个比例因子;
通过目标-关系注意力网络这种可选择的自主选择融合方式,既融合了目标的特征也融合了关系的特征,最重要的是还加强了关系和目标之间的相互作用;相比于直接使用关系-关系的注意力网络,目标-关系-的注意力网络极大的降低了网络的时间复杂度,从N2×N2的时间复杂度降低为N×N2的时间复杂度;
3-3、超关系注意力网络
在经过目标-关系注意力网络的特征融合之后,通过超关系注意力网络整合目标和关系的信息进行传递推理;具体来说,对于一个给定的关系rij,超关系注意力网络首先要获得相对应的超关系Eijk,其中k∈[N];根据传递推理方法,基于两个目标oi和oj的关系以及一个中间目标ok就可以组成超关系进行从Eijk到rij的传递推理;所以从Eijk到rij的传递推理过程表示为:
其中σ是LeakyReLU函数;其中,超关系表示3个目标oi,oj,ok组成的关系子集;表示目标oi为主语,目标ok为宾语的关系对,表示目标ok为主语,目标oi为宾语的关系对;表示目标oj为主语,目标ok为宾语的关系对;表示ok为主语,目标oj为宾语的关系对;通过组成的超关系传递推理关系目标oi和目标oj的关机,即关系和关系FCh(*)表示一个线性变换函数;
其中FFNh(*)是一个由两个全连接层组成的前馈神经网络,ATh(*)是一个关于超关系的注意力网络,定义为:
所述的目标-关系注意力网络和超关系注意力网络均采用多头的策略以及残差连接方式;
3-4、关系预测
在经过了目标-关系注意力网络融合目标和关系的特征以及超关系注意力网络去传递推理关系特征之后,最后去预测关系的类别;在关系预测中,将两个目标的联合框生成的联合特征以及频率偏差添加到关系预测中;在目标-关系注意力网络和超关系注意力网络之后使用联合特征以及频率偏差,主要是因为计算联合特征和频率偏差需要消耗很大的空间,也有很大的时间复杂度;最后使用二值交叉熵损失进行关系预测。
5.根据权利要求1所述的一种基于超图关系学习的场景图生成方法,其特征在于步骤(4)所述的训练模型,具体如下:
在目标分类的训练过程中,根据图像标注的真实目标类别和我们预测的64个目标类别,将其放入softmax交叉熵损失中计算损失,该损失可表示为:
计算真实目标框和预测的框的回归损失,由L2损失计算,该损失表示为:
Lloss2=(y-f(x))2 (16)
其中,y是真实目标框空间坐标集合,f(x)是预测目标框的空间位置集合,Lloss2表示真实目标框和预测的框的L2损失;
在关系预测的过程中,根据给定的真实关系和预测的256个关系,将其放入二值交叉熵损失中计算损失,该损失可表示为:
所以,最终的损失函数为这三个损失之和:
Lloss=Lloss1+Lloss2+Lloss3 (18)
利用反向传播算法,在每次迭代获取步骤(2)和步骤(3)中神经网络的模型的各个参数进行梯度回传,在不断迭代中训练至网络模型收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110309285.7A CN113065587B (zh) | 2021-03-23 | 2021-03-23 | 一种基于超关系学习网络的场景图生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110309285.7A CN113065587B (zh) | 2021-03-23 | 2021-03-23 | 一种基于超关系学习网络的场景图生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065587A true CN113065587A (zh) | 2021-07-02 |
CN113065587B CN113065587B (zh) | 2022-04-08 |
Family
ID=76563170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110309285.7A Active CN113065587B (zh) | 2021-03-23 | 2021-03-23 | 一种基于超关系学习网络的场景图生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065587B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627557A (zh) * | 2021-08-19 | 2021-11-09 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113836339A (zh) * | 2021-09-01 | 2021-12-24 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
CN114782791A (zh) * | 2022-04-14 | 2022-07-22 | 华南理工大学 | 基于transformer模型和类别关联的场景图生成方法 |
CN115050374A (zh) * | 2022-04-29 | 2022-09-13 | 思必驰科技股份有限公司 | 特征融合方法、电子设备和存储介质 |
CN115546589A (zh) * | 2022-11-29 | 2022-12-30 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
WO2023065033A1 (en) * | 2021-10-21 | 2023-04-27 | The Toronto-Dominion Bank | Co-learning object and relationship detection with density aware loss |
CN118171732A (zh) * | 2024-05-15 | 2024-06-11 | 北京邮电大学 | 一种基于微调大模型的超关系知识抽取方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146786A (zh) * | 2018-08-07 | 2019-01-04 | 北京市商汤科技开发有限公司 | 场景图生成方法及装置、电子设备和存储介质 |
CN109359564A (zh) * | 2018-09-29 | 2019-02-19 | 中山大学 | 一种图像场景图生成方法及装置 |
CN110084128A (zh) * | 2019-03-29 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN110991532A (zh) * | 2019-12-03 | 2020-04-10 | 西安电子科技大学 | 基于关系视觉注意机制的场景图产生方法 |
CN111461190A (zh) * | 2020-03-24 | 2020-07-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
CN111860403A (zh) * | 2020-07-28 | 2020-10-30 | 商汤国际私人有限公司 | 场景信息的检测方法和装置、电子设备 |
CN111931928A (zh) * | 2020-07-16 | 2020-11-13 | 成都井之丽科技有限公司 | 场景图的生成方法、装置和设备 |
CN112163490A (zh) * | 2020-09-21 | 2021-01-01 | 杭州电子科技大学 | 一种基于场景图片的目标检测方法 |
CN112464016A (zh) * | 2020-12-17 | 2021-03-09 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
-
2021
- 2021-03-23 CN CN202110309285.7A patent/CN113065587B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146786A (zh) * | 2018-08-07 | 2019-01-04 | 北京市商汤科技开发有限公司 | 场景图生成方法及装置、电子设备和存储介质 |
CN109359564A (zh) * | 2018-09-29 | 2019-02-19 | 中山大学 | 一种图像场景图生成方法及装置 |
CN110084128A (zh) * | 2019-03-29 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN110991532A (zh) * | 2019-12-03 | 2020-04-10 | 西安电子科技大学 | 基于关系视觉注意机制的场景图产生方法 |
CN111461190A (zh) * | 2020-03-24 | 2020-07-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
CN111931928A (zh) * | 2020-07-16 | 2020-11-13 | 成都井之丽科技有限公司 | 场景图的生成方法、装置和设备 |
CN111860403A (zh) * | 2020-07-28 | 2020-10-30 | 商汤国际私人有限公司 | 场景信息的检测方法和装置、电子设备 |
CN112163490A (zh) * | 2020-09-21 | 2021-01-01 | 杭州电子科技大学 | 一种基于场景图片的目标检测方法 |
CN112464016A (zh) * | 2020-12-17 | 2021-03-09 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
Non-Patent Citations (4)
Title |
---|
JIANWEI YANG ET AL.: ""Graph R-CNN for Scene Graph Generation"", 《ECCV 2018》 * |
KAIHUA TANG ET AL.: ""Unbiased Scene Graph Generation from Biased Training"", 《ARXIV》 * |
YIBING ZHAN ET AL.: ""On Exploring Undetermined Relationships for Visual Relationship Detection"", 《ARXIV》 * |
兰红 等: ""图注意力网络的场景图到图像生成模型"", 《中国图象图形学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627557A (zh) * | 2021-08-19 | 2021-11-09 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113627557B (zh) * | 2021-08-19 | 2023-10-03 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113836339A (zh) * | 2021-09-01 | 2021-12-24 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
CN113836339B (zh) * | 2021-09-01 | 2023-09-26 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
WO2023065033A1 (en) * | 2021-10-21 | 2023-04-27 | The Toronto-Dominion Bank | Co-learning object and relationship detection with density aware loss |
CN114782791A (zh) * | 2022-04-14 | 2022-07-22 | 华南理工大学 | 基于transformer模型和类别关联的场景图生成方法 |
CN114782791B (zh) * | 2022-04-14 | 2024-03-22 | 华南理工大学 | 基于transformer模型和类别关联的场景图生成方法 |
CN115050374A (zh) * | 2022-04-29 | 2022-09-13 | 思必驰科技股份有限公司 | 特征融合方法、电子设备和存储介质 |
CN115546589A (zh) * | 2022-11-29 | 2022-12-30 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
CN118171732A (zh) * | 2024-05-15 | 2024-06-11 | 北京邮电大学 | 一种基于微调大模型的超关系知识抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113065587B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065587B (zh) | 一种基于超关系学习网络的场景图生成方法 | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN113158033A (zh) | 一种基于知识图谱偏好传播的协同推荐模型构建方法 | |
US20220171760A1 (en) | Data processing method and apparatus, computer-readable storage medium, and electronic device | |
CN111368197B (zh) | 一种基于深度学习的评论推荐系统及方法 | |
Huang et al. | Large-scale semantic web image retrieval using bimodal deep learning techniques | |
Xu et al. | Scene graph inference via multi-scale context modeling | |
Zhang et al. | Hierarchical scene parsing by weakly supervised learning with image descriptions | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
CN113011172A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
Wang et al. | An enhanced multi-modal recommendation based on alternate training with knowledge graph representation | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
Pise et al. | Relational reasoning using neural networks: a survey | |
Reddy et al. | Convolutional recurrent neural network with template based representation for complex question answering | |
Cheng et al. | Knowledge graph representation learning with multi-scale capsule-based embedding model incorporating entity descriptions | |
CN115098646B (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
Li et al. | Guided graph attention learning for video-text matching | |
CN113516118B (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 | |
Wu et al. | Spatial-Channel Attention Transformer with Pseudo Regions for Remote Sensing Image-Text Retrieval | |
CN114676228A (zh) | 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法 | |
CN114117159A (zh) | 一种多阶图像特征与问题交互的图像问答方法 | |
Han et al. | Sequential recommendation with a pre-trained module learning multi-modal information | |
Qazanfari et al. | Advancements in Content-Based Image Retrieval: A Comprehensive Survey of Relevance Feedback Techniques | |
CN114168769A (zh) | 基于gat关系推理的视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |