CN113627557B - 一种基于上下文图注意力机制的场景图生成方法 - Google Patents

一种基于上下文图注意力机制的场景图生成方法 Download PDF

Info

Publication number
CN113627557B
CN113627557B CN202110954631.7A CN202110954631A CN113627557B CN 113627557 B CN113627557 B CN 113627557B CN 202110954631 A CN202110954631 A CN 202110954631A CN 113627557 B CN113627557 B CN 113627557B
Authority
CN
China
Prior art keywords
target
targets
vector
relation
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110954631.7A
Other languages
English (en)
Other versions
CN113627557A (zh
Inventor
张栗粽
田玲
解修蕊
段贵多
罗光春
张雨林
李濛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110954631.7A priority Critical patent/CN113627557B/zh
Publication of CN113627557A publication Critical patent/CN113627557A/zh
Application granted granted Critical
Publication of CN113627557B publication Critical patent/CN113627557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域中的视觉关系检测技术,其公开了一种基于上下文图注意力机制的场景图生成方法,通过充分挖掘外部知识以及目标的上下文信息,从而提高场景图生成的准确率。该方法通过上下文融合目标的外部知识向量、空间特征以及视觉特征,获得融合后的特征向量;根据目标的邻接矩阵,并结合融合后的特征向量进行图注意力网络的初始化;利用样本数据集中的统计信息计算目标关系的频率系数,并利用目标上下文特征计算图注意力系数;通过图注意力网络的信息迭代获得目标的最终向量表示并计算目标之间的关系,利用目标之间的关系以及目标的损失函数进行梯度下降更新,从而生成视觉关系检测模型;针对待检测图像,根据视觉关系检测模型生成场景图。

Description

一种基于上下文图注意力机制的场景图生成方法
技术领域
本发明涉及计算机视觉领域中的视觉关系检测技术,具体涉及一种基于上下文图注意力机制的场景图生成方法。
背景技术
场景图是图像内容的结构化表示,它是一种以图像目标为顶点、物体间关系为连接边的图形结构。场景图不仅编码场景中的各个目标的语义和空间信息,还表示每对目标之间的关系,作为目标及其成对关系的抽象表示,包含更高级别的场景理解知识。尽管目前使用深度学习技术在目标检测等方面取得了一定成就,但是从可视化数据推断出图像的结构化表示仍然是一个具有挑战性的任务,因此场景图生成相关技术的研究有着较大的价值,从而支撑更多下游的视觉理解应用。
现有的场景图生成方法主要分为目标与视觉关系联合推理的单阶段生成方法以及目标与关系分别检测的两阶段方法。IMP(Iterative Message Passing,迭代信息传递)算法是被广泛采用的单阶段场景图算法。其通过卷积神经网络提取图像中的目标特征与目标关系特征,再将这些特征分别输入至代表目标和关系的GRU(Gated Recurrent Unit,门控循环单元)中,分别代表场景图中的结点和边的表示,然后根据场景图的拓扑结构,利用相邻结点或者边的隐藏状态生成消息,在结点和边的GRU中进行消息的迭代传播,最后通过GRU的特征表示进行关系预测,从而生成场景图。
IMP通过信息的迭代传递来捕捉目标之间的视觉关系,但是它仅仅通过图像中的视觉信息完成关系的检测,而没有利用外部知识来辅助场景图的推理,并且IMP仅使用局部的特征(目标特征、目标关系特征)进行信息传递,没有充分利用图像的全局上下文信息,造成场景图生成的准确率不高。
KERN(Knowledge-Embedded Routing Networks,知识嵌入的路由网络)是具有代表性的目标和关系分别检测的两阶段场景图生成方法。其通过目标对之间的统计相关性的先验知识获得一个图形结构,在使用目标检测算法生成一系列目标候选区域后,使用图神经网络来传播图形结构上结点的信息,以捕捉更多的上下文特征,从而预测这些目标的类别。然后再使用另一个图形结构将识别出来的目标对与可能存在的关系进行关联,并且使用图神经网络来推断这些目标之间的关系以生成场景图。
KERN通过结合目标之间的统计信息对关系检测进行建模,但是模型仅仅通过统计信息中的概率信息来初始化图结构,而没有充分挖掘这些统计信息中的语义信息,从而没有能够较好的缓解数据集中样本分布不平衡的问题。
发明内容
本发明所要解决的技术问题是:提出一种基于上下文图注意力机制的场景图生成方法,通过充分挖掘外部知识以及目标的上下文信息,从而提高场景图生成的准确率。
本发明解决上述技术问题采用的技术方案是:
一种基于上下文图注意力机制的场景图生成方法,包括以下步骤:
A、训练视觉关系检测模型:
A1、对样本数据集中的样本图像进行目标检测,获取图像中目标的类别分布信息、空间特征以及视觉特征;
A2、通过目标的类别分布信息从词向量工具中获取对应目标的外部知识向量;
A3、对所述目标的外部知识向量、空间特征以及视觉特征进行上下文融合,获得融合后的特征向量;
A4、根据目标的类别分布信息生成图像中目标的邻接矩阵,并结合步骤A3中融合后的特征向量进行图注意力网络的初始化;
A5、利用样本数据集中的统计信息计算目标关系的频率系数,并利用目标上下文特征计算图注意力系数;
A6、通过图注意力网络的信息迭代获得目标的最终向量表示并计算目标之间的关系;
A7、通过计算出来的目标之间的关系以及目标的损失函数进行梯度下降更新,从而生成视觉关系检测模型;
B、针对待检测图像,根据视觉关系检测模型生成场景图:
通过视觉关系检测模型预测图像中目标的关系,将图像中的目标形式化为图形结构的结点,将目标之间的关系形式化为图形结构的边,最后生成图像的场景图表示。
作为进一步优化,步骤A1中,采用Faster R-CNN模型对样本图像进行目标检测。
作为进一步优化,步骤A2中,所述词向量工具采用GloVe词向量模型;
所述获取对应目标的外部知识向量的方法为:向GloVe词向量模型输入目标类别分布信息,所述目标类别分布信息为目标分类概率向量,并从目标分类概率向量中获取最大值概率的类别,然后根据目标分类概率向量的维度以及最大值概率的类别将其转换成One-hot编码,通过One-hot编码与Glove词向量做向量乘法得到相应目标类别的词向量。
作为进一步优化,步骤A3中,所述对所述目标的外部知识向量、目标空间特征以及目标的视觉特征进行上下文融合,获得融合后的特征向量,具体包括:
分别对目标空间特征和目标的视觉特征进行编码;
将目标的外部知识向量、编码后的目标空间特征和编码后的目标视觉特征输入双向GRU网络中进行视觉语义信息融合,输出上下文特征向量。
作为进一步优化,步骤A4中,所述根据目标的类别分布信息生成图像中目标的邻接矩阵,并结合步骤A3中融合后的特征向量进行图注意力网络的初始化,具体包括:
根据目标的类别分布信息,生成目标结点之间的全连接图,获得目标结点之间的邻接矩阵;然后根据邻接矩阵信息,采用各目标的上下文特征向量对相应的目标结点进行初始化,获得特征初始化的图形网络结构。
作为进一步优化,步骤A5中,所述利用样本数据集中的统计信息计算目标关系的频率系数,并利用目标上下文特征计算图注意力系数,具体包括:
计算目标关系的频率系数:
根据样本数据集中的标签信息,统计出当样本数据集中目标i出现时,与目标j之间存在关系的概率pij,并输出fij=1-pij作为目标i与目标j之间的频率系数;
计算图注意力系数:
首先,对各目标的上下文特征hi进行线性化:
zi=w1hi,其中,w1为非线性变换的权重,zi为线性化之后的目标上下文特征;
然后,通过LeakyReLU函数对目标i和目标j进行非线性变换:
eij=LeakyReLU(w2[zi,zj]),其中eij为目标i和目标j的非线性变换特征,w2为非线性变换的权重;
接着,通过softmax函数求出目标i与其相邻结点之间的图注意力系数:
其中N(i)表示目标结点i的邻接目标结点,k为N(i)的子节点,eik为目标i和目标k的非线性变换特征。
作为进一步优化,步骤A6中,所述通过图注意力网络的信息迭代获得目标的最终向量表示并计算目标之间的关系,具体包括:
基于各目标线性化后的上下文特征zi、频率系数fij和图注意力系数αij,通过聚合邻接目标结点的信息更新上下文特征的特征表示:
其中,l表示第l次迭代;
从而获得经过信息迭代后的各目标的最终特征向量;
然后,将每两个目标的最终特征向量输入至全连接层,通过softmax函数得到每两个目标的关系分类,将获得的所述关系分类中最高的关系类别作为此两个目标之间的关系。
作为进一步优化,步骤A7中,所述通过计算出来的目标之间的关系以及目标的损失函数进行梯度下降更新,从而生成视觉关系检测模型,具体包括:
以图像中目标之间的关系预测结果、目标的分类结果以及样本数据集中目标的标签和目标间的关系标签作为输入,通过目标和目标间关系的交叉熵计算损失,进行梯度更新,从而进行模型的迭代训练,最后输出视觉关系检测模型。
本发明的有益效果是:
(1)本发明通过图注意力机制来计算目标特征之间的注意力系数,并且将统计信息融合到信息传递过程中,通过注意力系数和统计信息的频率系数进行上下文信息的迭代传递,从而使模型更加关注少数类别以缓解数据集中的样本分布不平衡的问题。
(2)本发明使用目标检测的结果来初始化图神经网络的图形结构,保留了所有目标潜在的连接边,以充分挖掘图像中目标之间的关系,使得目标之间关系识别的准确率也得到了提高,进而提高场景图生成的准确率。
(3)本发明结合外部知识,通过多特征融合来充分挖掘视觉特征、空间特征、外部知识中的上下文信息,以捕捉上下文特征中的语义信息来辅助场景图生成的关系推理,,从而提高场景图生成的准确率。
附图说明
图1为本发明实施例中的视觉关系检测模型训练流程图。
具体实施方式
本发明旨在提出一种基于上下文图注意力机制的场景图生成方法。该方法首先训练视觉关系检测模型,具体为首先对样本数据集中的样本图像进行目标检测,获取图像中目标视觉特征、目标空间特征以及目标的分类信息;其次,通过目标分类信息从词向量工具中获取相应目标的外部知识向量,并对目标视觉特征、目标空间特征进行编码,使用双向的GRU网络融合外部知识、视觉特征以及空间特征。然后,通过目标分类信息生成图像中目标的邻接矩阵,再结合目标的上下文特征进行图神经网络的初始化,接着利用样本数据集中的统计信息计算目标关系的频率系数以及基于目标上下文特征计算图注意力系数,通过图神经网络的信息迭代获得目标的最终向量表示用于计算目标之间的关系。最后通过关系和目标损失进行梯度下降,生成视觉关系检测模型。对于待检测图像,通过视觉关系检测模型获取图像中目标之间的关系。将图像中的目标形式化为图形结构的结点,目标之间的关系形式化为图形结构的边,最后生成图像的场景图表示。
实施例:
本实施例中的基于上下文图注意力机制的场景图生成方法包括训练视觉关系检测模型以及针对待检测图像,根据视觉关系检测模型生成场景图两个部分。
视觉关系检测模型的训练流程如图1所示,其包括以下步骤:
S1、输入样本图像进行目标检测:
本步骤中,对样本数据集中的样本图像进行目标检测,获取图像中目标的类别分布信息、空间特征以及视觉特征;具体实现包括以下子步骤:
S11、特征图提取:
输入长为N宽为M的样本图像至Faster R-CNN模型中;
Faster R-CNN模型的目标检测网络的主干网络由VGG-16组成,其包括5个卷积池化层:
前两个卷积池化层的结构均为采用依次连接的:conv_layer(卷积层)、relu(激活函数)、conv_layer(卷积层)、relu(激活函数)、pooling_layer(池化层);
第三、第四个卷积池化层的结构均为采用依次连接的:conv_layer(卷积层)、relu(激活函数)、conv_layer(卷积层)、relu(激活函数)、conv_layer(卷积层)、relu(激活函数)、pooling_layer(池化层)。
第五个卷积池化层的结构为采用依次连接的:conv_layer(卷积层)、relu(激活函数)、conv_layer(卷积层)、relu(激活函数)、conv_layer(卷积层)、relu(激活函数)。
其中,所有的卷积操作使用3*3的滑动窗口,步长为1,padding(填充)为1;
所有的池化操作使用2*2的滑动窗口,步长为2,padding(填充)为0;
对于N*M*1大小的图像,因为卷积操作的padding为1,所以卷积层不改变特征图的长度和宽度,而池化操作会使特征图的长宽减少为原来的一半。所以样本图像经过VGG-16主干网络处理后,输出大小为(N/16)*(M/16)*512的特征图。
S12、候选区域提取:
本部分以维度是(N/16)*(M/16)*512的特征图作为输入,首先通过一个3*3的卷积层,再分别通过两个1*1的卷积层分别得到18维和36维的向量。18维的向量代表9个anchor(边框)是否为背景的概率,36维的向量表示为9个anchor的四个坐标值信息。这两个向量再加上之前提取的特征图通过RoI Pooling(感兴趣区域)层,输出每个候选区域的7*7*512维的目标视觉特征。
S13、目标分类与边界框回归:
本部分以各候选区域7*7*512维的目标特征作为输入,首先输入至两个包含4096个单元的全连接层中,再分别输入包含C个单元的全连接层和包含C*4个单元的全连接层,从而分别输出C维的目标分类概率向量和C*4维的坐标回归值(空间特征)。其中C是目标的类别个数,采用的数据集为视觉基因组(Visual Genome,VG)其包含150类目标,所以C=151(包含一个背景类)。
S2、获取对应目标的外部知识向量:
本步骤中,通过目标的类别分布信息从词向量工具Glove中获取对应目标的外部知识向量,具体为:
输入C维的目标分类概率向量,并从目标分类概率向量中获取最大值概率的类别,然后根据目标分类概率向量的维度以及最大值概率的类别将其转换成One-hot编码,通过One-hot编码与Glove词向量做向量乘法得到相应目标类别的词向量,词向量维度为300维,故可以总共输出151*300维的词向量。
S3、进行上下文融合,获得融合后的特征向量:
本步骤中,对所述目标的外部知识向量、空间特征以及视觉特征进行上下文融合,获得融合后的特征向量,具体为:
S31、视觉特征编码:
输入每个候选区域7*7*512维的目标特征,取7*7维度上的均值,输出每个候选区域512维的目标特征;
S32、空间信息编码:
输入4维的坐标信息,依次通过包含32个单元的全连接层和包含128个单元的全连接层编码,输出128维的空间特征;
S33、多特征融合:
输入512维的视觉特征、300维的知识向量以及128维的空间特征的连接向量,输入至两个双向的GRU中以融合视觉语义信息,输出2048维的上下文特征向量hi
S4、图注意力传播:
本步骤中,首先根据目标的类别分布信息生成图像中目标的邻接矩阵,并结合融合后的特征向量进行图注意力网络的初始化;再利用样本数据集中的统计信息计算目标关系的频率系数,并利用目标上下文特征计算图注意力系数;最后进行图注意力网络的信息迭代传递。
具体为:
S41、生成邻接矩阵:
本部分输入C维的目标分类概率向量,根据目标的分类结果,生成目标结点之间的全连接图,输出目标结点之间的邻接矩阵。
S42、特征初始化:
本部分输入目标结点之间的邻接矩阵与每个目标的2048维上下文特征向量,根据邻接矩阵的信息,使用相应目标的上下文特征对相应的目标结点进行初始化,输出特征初始化的图形网络结构。
S43、频率系数计算:
本部分输入样本数据集VG中的标签信息,统计当数据集中目标i出现时,与j之间存在关系的概率pij,为了使数据集中的少数样本获得更多的注意力,输出fij=1-pij作为目标i与目标j之间的频率系数。
S44、图注意力系数计算:
本部分输入目标结点之间的邻接矩阵与每个目标的2048维上下文特征向量hi,首先通过包含128个单元的全连接层对每个目标上下文特征进行线性化zi=w1hi,其中w1为非线性变换的权重,zi为线性化之后的目标上下文特征。其次通过LeakyReLU函数对目标结点i和目标结点j进行非线性变换eij=LeakyReLU(w2[zi,zj]),其中eij为目标结点i和目标结点j的非线性变换特征,w2为非线性变换的权重。再通过softmax函数求出目标i与其相邻结点之间的图注意力系数其中N(i)表示目标结点的邻接目标结点,最后输出图注意力系数αij
S45、信息迭代传递:
本部分输入每个目标上下文特征的线性化表示zi、频率系数fij、图注意力系数αij。通过聚合邻接结点的信息更新上下文特征的特征表示/>其中上标l表示第l次迭代过程。最后输出信息迭代后每个目标的2048维特征向量hi~
S5、关系分类:
本步骤中,是通过图注意力网络的信息迭代所获得的目标的最终向量表示计算目标之间的关系,具体为:
输入每个目标的2048维特征向量hi~,将每两个目标的特征向量依次输入至包含512个单元和51个单元的全连接层,最后通过softmax函数得到每两个目标在51类关系中的分类,并取关系分类最高的关系类别作为该目标对之间的关系。最后输出图像中目标之间的关系。
S6、梯度更新:
本步骤中,是通过计算出来的目标之间的关系以及目标的损失函数进行梯度下降更新,从而生成视觉关系检测模型;具体为:
输入图像中目标之间的关系预测结果、目标的分类结果以及数据集中目标的标签与关系标签。通过目标和关系的交叉熵计算损失,进行梯度更新,从而进行模型的迭代训练。最后输出视觉关系检测模型。
在获得训练完成的视觉关系检测模型后,就可以利用该模型进行图像目标和目标关系检测生成场景图,具体为:输入待检测图像到视觉关系检测模型,输出目标之间的关系分布;将目标形式化为图形结构的结点,目标之间的关系形式化为图形结构的边,通过将图像中所有的目标和关系形式化为节点和边,最后输出图像的场景图表示。

Claims (6)

1.一种基于上下文图注意力机制的场景图生成方法,其特征在于,包括以下步骤:
A、训练视觉关系检测模型:
A1、对样本数据集中的样本图像进行目标检测,获取图像中目标的类别分布信息、空间特征以及视觉特征;
A2、通过目标的类别分布信息从词向量工具中获取对应目标的外部知识向量;所述词向量工具采用GloVe词向量模型;所述获取对应目标的外部知识向量的方法为:向GloVe词向量模型输入目标类别分布信息,所述目标类别分布信息为目标分类概率向量,并从目标分类概率向量中获取最大值概率的类别,然后根据目标分类概率向量的维度以及最大值概率的类别将其转换成One-hot编码,通过One-hot编码与Glove词向量做向量乘法得到相应目标类别的词向量;
A3、对所述目标的外部知识向量、空间特征以及视觉特征进行上下文融合,获得融合后的特征向量;
A4、根据目标的类别分布信息生成图像中目标的邻接矩阵,并结合步骤A3中融合后的特征向量进行图注意力网络的初始化;
A5、利用样本数据集中的统计信息计算目标关系的频率系数,并利用目标上下文特征计算图注意力系数;具体包括:
计算目标关系的频率系数:
根据样本数据集中的标签信息,统计出当样本数据集中目标i出现时,与目标j之间存在关系的概率pij,并输出fij=1-pij作为目标i与目标j之间的频率系数;
计算图注意力系数:
首先,对各目标的上下文特征hi进行线性化:
zi=w1hi,其中,w1为非线性变换的权重,zi为线性化之后的目标上下文特征;
然后,通过LeakyReLU函数对目标i和目标j进行非线性变换:
eij=LeakyReLU(w2[zi,zj]),其中eij为目标i和目标j的非线性变换特征,w2为非线性变换的权重;
接着,通过softmax函数求出目标i与其相邻结点之间的图注意力系数:
其中,其中N(i)表示目标结点i的邻接目标结点,k为N(i)的子节点,eik为目标i和目标k的非线性变换特征;
A6、通过图注意力网络的信息迭代获得目标的最终向量表示并计算目标之间的关系;
A7、通过计算出来的目标之间的关系以及目标的损失函数进行梯度下降更新,从而生成视觉关系检测模型;
B、针对待检测图像,根据视觉关系检测模型生成场景图:
通过视觉关系检测模型预测图像中目标的关系,将图像中的目标形式化为图形结构的结点,将目标之间的关系形式化为图形结构的边,最后生成图像的场景图表示。
2.如权利要求1所述的方法,其特征在于,
步骤A1中,采用Faster R-CNN模型对样本图像进行目标检测。
3.如权利要求1所述的方法,其特征在于,
步骤A3中,所述对所述目标的外部知识向量、目标空间特征以及目标的视觉特征进行上下文融合,获得融合后的特征向量,具体包括:
分别对目标空间特征和目标的视觉特征进行编码;
将目标的外部知识向量、编码后的目标空间特征和编码后的目标视觉特征输入双向GRU网络中进行视觉语义信息融合,输出上下文特征向量。
4.如权利要求1所述的方法,其特征在于,
步骤A4中,所述根据目标的类别分布信息生成图像中目标的邻接矩阵,并结合步骤A3中融合后的特征向量进行图注意力网络的初始化,具体包括:
根据目标的类别分布信息,生成目标结点之间的全连接图,获得目标结点之间的邻接矩阵;然后根据邻接矩阵信息,采用各目标的上下文特征向量对相应的目标结点进行初始化,获得特征初始化的图形网络结构。
5.如权利要求1所述的方法,其特征在于,
步骤A6中,所述通过图注意力网络的信息迭代获得目标的最终向量表示并计算目标之间的关系,具体包括:
基于各目标线性化后的上下文特征zi、频率系数fij和图注意力系数αij,通过聚合邻接目标结点的信息更新上下文特征的特征表示:
其中,l表示第l次迭代;
从而获得经过信息迭代后的各目标的最终特征向量;
然后,将每两个目标的最终特征向量输入至全连接层,通过softmax函数得到每两个目标的关系分类,将获得的所述关系分类中最高的关系类别作为此两个目标之间的关系。
6.如权利要求1-5任意一项所述的方法,其特征在于,
步骤A7中,所述通过计算出来的目标之间的关系以及目标的损失函数进行梯度下降更新,从而生成视觉关系检测模型,具体包括:
以图像中目标之间的关系预测结果、目标的分类结果以及样本数据集中目标的标签和目标间的关系标签作为输入,通过目标和目标间关系的交叉熵计算损失,进行梯度更新,从而进行模型的迭代训练,最后输出视觉关系检测模型。
CN202110954631.7A 2021-08-19 2021-08-19 一种基于上下文图注意力机制的场景图生成方法 Active CN113627557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954631.7A CN113627557B (zh) 2021-08-19 2021-08-19 一种基于上下文图注意力机制的场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954631.7A CN113627557B (zh) 2021-08-19 2021-08-19 一种基于上下文图注意力机制的场景图生成方法

Publications (2)

Publication Number Publication Date
CN113627557A CN113627557A (zh) 2021-11-09
CN113627557B true CN113627557B (zh) 2023-10-03

Family

ID=78386640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954631.7A Active CN113627557B (zh) 2021-08-19 2021-08-19 一种基于上下文图注意力机制的场景图生成方法

Country Status (1)

Country Link
CN (1) CN113627557B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546626B (zh) * 2022-03-03 2024-02-02 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统
CN115546589B (zh) * 2022-11-29 2023-04-07 浙江大学 一种基于图神经网络的图像生成方法
CN116152647B (zh) * 2023-04-18 2023-07-18 中国科学技术大学 基于多轮迭代策略和差异性感知的场景图生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886066A (zh) * 2018-12-17 2019-06-14 南京理工大学 基于多尺度和多层特征融合的快速目标检测方法
CN110188182A (zh) * 2019-05-31 2019-08-30 中国科学院深圳先进技术研究院 模型训练方法、对话生成方法、装置、设备及介质
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN112163608A (zh) * 2020-09-21 2021-01-01 天津大学 一种基于多粒度语义融合的视觉关系检测方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113221613A (zh) * 2020-12-14 2021-08-06 国网浙江宁海县供电有限公司 生成场景图辅助建模上下文信息的电力场景预警方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373390B2 (en) * 2019-06-21 2022-06-28 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886066A (zh) * 2018-12-17 2019-06-14 南京理工大学 基于多尺度和多层特征融合的快速目标检测方法
CN110188182A (zh) * 2019-05-31 2019-08-30 中国科学院深圳先进技术研究院 模型训练方法、对话生成方法、装置、设备及介质
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN112163608A (zh) * 2020-09-21 2021-01-01 天津大学 一种基于多粒度语义融合的视觉关系检测方法
CN113221613A (zh) * 2020-12-14 2021-08-06 国网浙江宁海县供电有限公司 生成场景图辅助建模上下文信息的电力场景预警方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Alireza Zareian等.Learning Visual Commonsense for Robust Scene Graph Generation.European Conference on Computer Vision, ECCV 2020.2020,642–657. *
Jiuxiang Gu等.Scene Graph Generation With External Knowledge and Image Reconstruction.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.2019,1969-1978. *
Lizong Zhang等.Hierarchical Knowledge-Based Graph Embedding Model for Image–Text Matching in IoTs.IEEE Internet of Things Journal.2021,第9卷(第12期),9399 - 9409. *
李志欣等.图像描述生成研究进展.计算机研究与发展.2021,第58卷(第09期),1951-1974. *
林欣.基于上下文的场景图生成.中国优秀硕士学位论文全文数据库 信息科技辑.2021,I138-2316. *

Also Published As

Publication number Publication date
CN113627557A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113627557B (zh) 一种基于上下文图注意力机制的场景图生成方法
CN109359564B (zh) 一种图像场景图生成方法及装置
CN110084296B (zh) 一种基于特定语义的图表示学习框架及其多标签分类方法
Han et al. Semisupervised and weakly supervised road detection based on generative adversarial networks
CN111476181B (zh) 一种人体骨架动作的识别方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN110222140B (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
CN109711463B (zh) 基于注意力的重要对象检测方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN114969405B (zh) 一种跨模态图文互检方法
CN113254648A (zh) 一种基于多层次图池化的文本情感分析方法
CN110677284B (zh) 一种基于元路径的异构网络链路预测的方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN113806746B (zh) 基于改进cnn网络的恶意代码检测方法
CN110399518A (zh) 一种基于图卷积的视觉问答增强方法
CN113628294A (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN112801063B (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
CN109785409B (zh) 一种基于注意力机制的图像-文本数据融合方法和系统
CN112508041A (zh) 基于分类结果标签的用于喷雾控制的神经网络的训练方法
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN115455171A (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
Jemilda et al. Moving object detection and tracking using genetic algorithm enabled extreme learning machine
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant