CN112464016A - 一种基于深度关系自注意力网络的场景图生成方法 - Google Patents

一种基于深度关系自注意力网络的场景图生成方法 Download PDF

Info

Publication number
CN112464016A
CN112464016A CN202011500013.7A CN202011500013A CN112464016A CN 112464016 A CN112464016 A CN 112464016A CN 202011500013 A CN202011500013 A CN 202011500013A CN 112464016 A CN112464016 A CN 112464016A
Authority
CN
China
Prior art keywords
features
candidate
relation
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011500013.7A
Other languages
English (en)
Other versions
CN112464016B (zh
Inventor
俞俊
李娉
余宙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011500013.7A priority Critical patent/CN112464016B/zh
Publication of CN112464016A publication Critical patent/CN112464016A/zh
Application granted granted Critical
Publication of CN112464016B publication Critical patent/CN112464016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于深度关系自注意力网络的场景图生成方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用预训练的目标检测网络对图像提取特征,3、构建目标的空间特征,4、构建目标的语言特征,5、构建相对关系特征,6、构建深度神经网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

Description

一种基于深度关系自注意力网络的场景图生成方法
技术领域
本发明提出一种基于深度关系自注意力网络(Relational Self-AttentionNetworks)的场景图生成方法(Scene Graph Generation)。
背景技术
场景图生成是一项多媒体领域的新兴任务,该任务旨在建模目标和目标之间关系的上下文信息,并生成图像对应的场景图。具体来讲是输入一张图片,通过模型后生成这个图像抽象出来的场景图,场景图中包含结点和边信息,结点和边分别表示目标和目标间的关系。例如,图像内容为一个带着帽子的人提着木桶在喂马,其中可能包含有“人戴着眼镜”、“人喂马”、“人提着木桶”、“马从木桶中吃食物”、“人站在地上”等语义信息。当给出一个图像时,场景图生成模型需要根据图像的语义信息生成该图像对应的场景图。为了得到更准确的预测,机器需要深入理解图像的内容,并在此基础上对目标上下文信息和目标之间的关系上下文信息进行融合以最大程度地挖掘目标之间的关系。对比单纯的关系检测,场景图可以被理解为具有同时建模目标上下文信息和关系上下文信息的任务,如何同时建模好它们的上下文信息,并利用好上下文信息进行场景图生成也是研究场景图领域的关键。
深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。目标检测的丰富研究支撑起场景图的研究,使得场景图相关任务逐渐成为一个主流研究方向。同时场景图更符合真实的生活场景,具有丰富的研究意义和实际价值。场景图作为近几年来逐渐兴起的研究媒体,结合语义信息预测,形成了图像语义信息理解的研究方向,其中场景图生成是其中一个较为丰富的方向,在目标检测的同时完成场景图生成,让计算机根据输入的图像自动预测出包含丰富语义关系的场景图是一个值得深入探索的研究问题。
多年来,在图像研究领域中已经认识到理解场景图的重要性,并尝试挖掘图像中丰富的上下文信息。在场景图生成任务中,主要的模型分为两类,一类是基于卷积神经网络的模型,一类是基于循环神经网络的模型,也有部分研究开始注意到基于注意力机制的模型。由于场景图生成需要建立在对目标上下文信息和关系上下文信息的充分利用的基础上,无论是目标上下文信息或者关系上下文信息,都存在更多值得挖掘的有效信息,对上下文信息的建模无疑有助于加深场景图的理解进而增强最终场景图生成的表达能力。
在实际应用方面,场景图生成算法具有广泛的应用场景。在娱乐场景下,如用户输入一张图片,机器就能生成这个图片对应的场景图,便于用户更加深入理解的图片场景。在银行系统中,在根据大量用户的消费记录及信用记录,建立用户和用户之间的关系,预测某类用户贷款还款能力以及银行贷款风险,在一定的准确度下,可大大节省人力及时间成本,具有十分良好的研究前景及重要的研究意义。
综上所述,场景图生成是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的场景图生成系统。
场景图的标签一般来自不同的标注者,具有较高的自由度,不具备统一固定的语义信息。同时,自然场景下的图片载体主题多样,内容复杂富于变化,目标与目标间可能具有较高的差异性,而这使得场景图生成面临巨大的挑战。具体而言,主要存在如下两方面的难点:
(1)如何对目标上下文信息进行有效建模:目标和目标之间一般具有较高的差异性,该问题主要是通过注意力机制进行处理,得到有效的目标上下文特征表达。建模有效的富含上下文信息的目标特征一直是场景图领域中一个必不可少的环节,通过注意力机制特征建模将目标和所有其他的目标之间的信息进行交互,得到可有效表达目标上下文的特征,参与场景图生成的结果预测。基于深度学习理论提出了一系列的建模目标上下文信息的方法包括循环神经网络、卷积神经网络和基于此的注意力机制等。因此,如何让算法自动学习到目标和其他目标之间的关系,并生成更有效的目标上下文的表达特征,是场景图生成算法中的难点,也是影响结果性能的根本原因。
(2)如何对场景图语义信息更加深层次的进行建模,以更好获得丰富的上下文信息:大部分的方法是分开建模目标上下文信息和关系上下文信息,并且没有对建模上下文信息的网络进行深度堆叠处理,该方式可能会出现的问题是不能很好的有效的建模目标上下文信息和关系上下文信息,因为目标上下文信息和关系上下文信息是相互影响的,所以我们这里采用的是同时建模目标上下文信息和关系上下文信息,并且通过将网络深度堆叠来获得更丰富的上下文信息。由于上下文信息对场景图的正确生成尤为重要,因此该任务对上下文信息的有效性更加敏感,对上下文信息的建模依赖性更高。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于注意力机制的场景图生成方法。本发明主要包含两点:
1、将目标上下文信息和关系上下文信息的特征同时进行建模,充分发掘上下文的信息,并引入相对空间关系特征,得到更有效的上下文信息。
2、提出深层的关系注意力方法,将网络通过深度堆叠来更好的对上下文信息进行充分建模,充分理解场景图的上下文信息和目标相关性,得到包含目标上下文信息和关系上下文信息的有效表达。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)、数据集的预处理及划分
首先对数据集中的图像进行预处理,然后划分数据集;
步骤(2):使用训练好的目标检测网络(FasterRCNN)对预处理后的数据集中图像提取特征;
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的m个候选框;针对每一个候选框,将该候选框在图像中对应的区域输入到目标检测网络中,并提取目标检测网络中某一层的输出作为该候选框的视觉特征
Figure BDA0002843327530000041
将一张图像中所有候选框的特征拼接成总体视觉特征
Figure BDA0002843327530000042
Figure BDA0002843327530000043
表示自然实数集,dv代表候选框的特征维度;
步骤(3):构建候选框的空间特征
针对每张图像,根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征
Figure BDA0002843327530000044
将每张图像中所有候选框的空间特征拼接成总空间特征为
Figure BDA0002843327530000045
ds代表候选框的特征维度;
步骤(4):构建候选框的语言特征
根据预先训练好的词向量模型,将候选框对应的分类转换为包含语义信息的词向量
Figure BDA0002843327530000046
也就是将离散的候选框的分类转换为连续语言特征,将每张图像中的所有候选框的语言特征拼接成总语言特征为
Figure BDA0002843327530000047
步骤(5):构建相对关系特征
根据图像中的任意两个候选框生成相对关系特征
Figure BDA0002843327530000048
将一张图像中所有的候选框都构建成总相对关系特征为
Figure BDA0002843327530000049
步骤(6):构建深度神经网络
将图像的视觉特征V、位置特征S、语言特征L拼接成最终的图像特征
Figure BDA00028433275300000410
将该图像特征输入到深度神经网络,结合相对关系特征F,根据自注意力机制将图像特征和相对关系特征F一起映射到隐藏特征空间,产生特征向量
Figure BDA00028433275300000411
最后将图像特征Z输入到全连接函数及激活函数中,输出的预测值是m个候选框的分类分数向量
Figure BDA0002843327530000051
同时预测m×m对候选框之间的关系分类分数向量
Figure BDA0002843327530000052
步骤(7):损失函数
将步骤(6)中输出的两个预测的分类分数向量和关系分类分数向量分别同对应的标签向量一起输入到相应的损失函数中,并分别输出两个损失值;
所述的标签向量是步骤(1)数据集自带;
步骤(8):训练深度神经网络模型
根据步骤(7)中的损失函数产生的损失值,利用反向传播算法对步骤(6)中构建的深度神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(9):深度神经网络模预测值计算
将候选框的分类分数向量进行排序,选择最高分数对应的分类作为其预测分类;将候选框的关系分类分数向量进行排序,选择最高分数对应的关系作为其关系分类。
进一步的,步骤(1)具体实现如下:
剔除一些低质量的图片数据,并且使用最常见的150个目标类别和50个关系类别;还有数据集的划分,将数据集中70%的数据用于训练,剩下的30%用于测试。
进一步的,步骤(2)所述的用目标检测网络对图像提取特征,具体如下:
提取目标检测网络中某一层的输出作为该候选框的特征
Figure BDA0002843327530000053
每张图像选取m个候选框,将图像中所有的候选框拼接成总体视觉特征
Figure BDA0002843327530000054
具体公式如下:
V=[υ1,υ2,...,υi,...,υm] (公式1)。
进一步的,步骤(3)所述的构建目标的空间特征,具体如下:
每个候选框的空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,每个候选框的空间特征s公式如下:
Figure BDA0002843327530000061
其中,W、H表示图像的宽和高;w、h表示对应的候选框的宽和高;
将一张图像中的所有候选框的空间特征拼接成总体空间特征
Figure BDA0002843327530000062
具体公式如下:
S=[s1,s2,...,si,...,sm] (公式3)。
进一步的,步骤(4)所述的构建目标的语言特征,具体如下:
根据预先训练好的词向量模型,将候选框对应的分类转换为包含语义信息的词向量
Figure BDA0002843327530000063
每张图像中的所有候选框的语言特征拼接成总语言特征为
Figure BDA0002843327530000064
具体公式如下:
L=[l1,l2,...,li,...,lm] (公式4)。
进一步的,步骤(5)所述的构建相对关系特征,具体如下:
由于候选框的空间特征建模了单个候选框的位置信息,因此通过任意两个候选框之间的相对位置信息进行建模生成关系特征
Figure BDA0002843327530000065
将第i个候选框的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示候选框的中心点横坐标、纵坐标、宽、高;第i个候选框和第j个候选框之间的关系特征定义为:
Figure BDA0002843327530000066
将图像中的所有候选框的关系特征拼接成总关系特征为
Figure BDA0002843327530000067
具体公式如下:
Figure BDA0002843327530000068
进一步的,步骤(6)所述的构建深度神经网络,具体如下:
6-1.融合视觉特征、空间特征、语言特征;
视觉特征V、空间特征S、语言特征L是候选框的多种角度的特征,它们自然对齐所以方便融合;将空间特征S、语言特征L先经过全连接层转换到和视觉特征V一样的维度,然后三种特征拼接后的融合特征
Figure BDA0002843327530000071
公式如下:
Z=[V,S,L] (公式7)
6-2.构建关系自注意力网络(RSA)
融合特征Z经过全连接映射转化为融合特征向量
Figure BDA0002843327530000072
公式如下:
X=Linear(Z) (公式8)
将为融合特征向量X和关系特征F作为关系自注意力网络RSA的输入,输出特征向量
Figure BDA0002843327530000073
B′=LN(X+RMHA(X,X,X,F)) (公式9)
B=LN(B′+FFN(B′)) (公式10)
其中,RMHA的输入是融合特征向量X和关系特征F,输出是富含上下文信息特征向量
Figure BDA0002843327530000074
公式如下:
Q=Linear(X) (公式11)
K=Linear(X) (公式12)
V=Linear(X) (公式13)
Figure BDA0002843327530000075
其中Q、K、V分别由融合特征Z经过全连接层映射得到,其中,
Figure BDA0002843327530000076
φ(F)=log(MIP(F)+∈),∈=1e-6,MLP是两层感知机,ReLU是激活函数;
其中,FFN结构,输入是上下文信息特征向量B′,公式如下:
FFN(B′)=FCd(Drop(ReLU(FC4d(B′)))) (公式15)
其中,LN是归一化函数;
6-3.深度堆叠RSA网络
以融合特征Z和关系特征F作为深度堆叠RSA网络[RSA(1),RSA(2),...,RSA(N)]的输入;将第n层RSA(n)的输出特征Z(n)和关系特征F作为第n+1层RSA(n+1)的输入,迭代往复,公式如下:
Z(n)=RSA(n)(Z(n-1),F) (公式16)
其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变;
6-4.候选框分类优化
将输出特征Z(n)经过全连接层映射到分类分数向量
Figure BDA0002843327530000081
c代表选框的分类数目,公式如下:
O=Linear(Z(n)) (公式17)
6-5.多头注意力关系预测
将输出特征Z(n)作为输入,经过全连接层映射输出单头pj,公式如下:
pj=Linear(Z(n))Linear(Z(n))T (公式18)
将输出特征Z(n)和关系特征F作为多头注意力关系预测器的输入,关系分类分数向量
Figure BDA0002843327530000082
作为其输出,r代表关系分类数目,公式如下:
P=([p1,p2,...,pj,...,phead]+MLP(F))Wr (公式19)
其中,head代表注意力头的数目,MLP代表二层感知机,
Figure BDA0002843327530000083
进一步的,步骤(7)所述的损失函数,具体如下:
7-1.计算候选框预测分类分数oi与真实标签oi *之间的差距,使用交叉熵计算如下:
Figure BDA0002843327530000084
7-2.计算候选框的预测关系分类分数与标签向量中真实值之间的差距,使用交叉熵计算如下:
Figure BDA0002843327530000085
7-3.深度神经网络的总损失,具体公式如下:
Loss=Lossobj+λLossrel (公式23)
本发明有益效果如下:
本发明核心方法为提出深层关系自注意力网络(RSAN),用来对目标上下文信息和目标间的关系上下文信息的有效建模,并在场景图生成这一深度学习任务中验证该模型的优越性。本方法首次提出在对目标上下文信息和目标间关系上下文信息进行建模,由此得到的上下文信息不仅获得了目标间的上下文信息,同时建立了关系间的上下文信息的深层次理解和交互。在RSAN模型表现优异的前提下,本发明进一步地提出深度关系自注意力机制的方法,该方法将自注意力机制延伸到场景图生成,不再局限于机器翻译等应用。实验中将图像的目标特征和相对关系特征输入RSAN模型,在RSAN模型中完成了目标和关系上下文信息的深层理解和交互,进而得到了更好的实验结果,这证明了该方法的普适通用性,可在其他关系推理的任务中充分发挥价值。
本发明所提出的一种算法,尤其是用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。
附图说明
图1:关系自注意力模块
图2:关系自注意力网络架构(RSAN)
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1、2所示,本发明提供一种基于深度关系自注意力网络的场景图生成方法。
步骤(1)具体实现如下:
剔除一些低质量的图片数据,并且使用最常见的150个目标类别和50个关系类别;还有数据集的划分,将数据集中70%的数据用于训练,剩下的30%用于测试。
步骤(2)所述使用训练好的目标检测网络对图像提取特征,具体如下:
每个候选框对应图像区域的特征pf,其中
Figure BDA0002843327530000101
,每张图片选取64个候选框,将一张图片中所有的候选框拼接成总体特征
Figure BDA0002843327530000102
步骤(3)所述根据目标的空间位置坐标来构建空间特征,具体如下:
每个回归框的空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示目标框的左上角点的位置坐标,(xmax,ymax)表示目标框的右下角点的位置坐标。
将一张图片中的所有目标空间特征拼接成总体空间特
Figure BDA0002843327530000103
步骤(4)所述构建目标语言特征,具体如下:
使用预训练好的词向量嵌入模型来将离散的目标分类转换为连续语言特征
Figure BDA0002843327530000104
将m个候选框的语言特征拼接成总体语言特征向量
Figure BDA0002843327530000105
步骤(5)所述的构建相对关系特征,具体如下:
目标的空间特征建模了单个目标的位置信息,则任意两个候选框之间的相对位置进行建模来生成关系特征
Figure BDA0002843327530000106
将第i个目标空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示目标的中心点横纵坐标、宽、高。
将一张图片中的所有目标关系对特征拼接成总关系特征为
Figure BDA0002843327530000107
具体公式如下:
步骤(6)所述的构建深度神经网络,具体如下:
6-1.融合视觉特征、空间特征、语言特征;
视觉特征V、空间特征S、语言特征L是候选框的多种角度的特征,它们自然对齐所以方便融合;将空间特征S、语言特征L先经过全连接层转换到和视觉特征V一样的维度,然后三种特征拼接后的融合特征
Figure BDA0002843327530000111
6-2.构建关系自注意力网络(RSA)
将为融合特征向量X和关系特征F作为关系自注意力网络RSA的输入,输出特征向量,其中Q、K、V分别由Z经过全连接层映射得到,
Figure BDA0002843327530000112
以Q、K、V、F作为输入,经过RSA网络输出为富含上下文信息的特征向量
Figure BDA0002843327530000113
6-3.深度堆叠RSA网络
以融合后的特征Z和关系特征F作为输入,深度堆叠RSA网络[RSA(1),RSA(2),...,RSA(n)],这里的n可以取1,2,3,4。将第n层RSA(n)的输出特征和关系特征F作为第n+1层RSA(n +1)的输入,迭代往复.
其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变。
6-4.目标分类优化
将6-3.的输出Z(n)经过全连接层映射到
Figure BDA0002843327530000114
6-5.多头注意力关系预测
将6-3.的输出Z(n)作为输入,经过全连接层输出单头pj
以6-3.的输出Z(n)和关系特征F作为多头注意力关系预测器的输入,关系预测结果P作为其输出,
Figure BDA0002843327530000115
其中,MLP代表二层感知机,
Figure BDA0002843327530000116
步骤(7)所述的损失函数,具体如下:
7-1.计算目标预测分类分数oi与真实标签oi *之间的差距,这里使用交叉熵(softmax cross entropy)。
7-2.计算目标关系对的预测分数与真实值之间的差距,这里使用交叉熵(sigmoidcross entropy)。
7-3.模型总损失,具体公式如下:
Loss=Lossobj+λLossrel (公式18)
其中,λ是用来平衡两个损失值的超参数,可以取0.1、1、10或100。
步骤(8)所述的训练模型,具体如下:
根据步骤(7)中的损失函数产生的损失值利用反向传播算法对步骤(6)中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛。
步骤(9)所述网络预测值,具体如下:
9-1.根据步骤(6)的6-4输出的候选框的分类分数向量O进行排序,选择最高分数对应的分类作为其预测分类;。
9-2.根据步骤(6)的6-5输出的候选框的关系分类分数向量P进行排序,选择最高分数对应的关系作为其关系分类。。

Claims (7)

1.一种基于深度关系自注意力网络的场景图生成方法,其特征在于包括如下步骤:
步骤(1)、数据集的预处理及划分
首先对数据集中的图像进行预处理,然后划分数据集;
步骤(2):使用训练好的目标检测网络对预处理后的数据集中图像提取特征;
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的m个候选框;针对每一个候选框,将该候选框在图像中对应的区域输入到目标检测网络中,并提取目标检测网络中某一层的输出作为该候选框的视觉特征
Figure FDA0002843327520000011
将一张图像中所有候选框的特征拼接成总体视觉特征
Figure FDA0002843327520000012
Figure FDA0002843327520000013
表示自然实数集,dv代表候选框的特征维度;
步骤(3):构建候选框的空间特征
针对每张图像,根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征
Figure FDA0002843327520000014
将每张图像中所有候选框的空间特征拼接成总空间特征为
Figure FDA0002843327520000015
ds代表候选框的特征维度;
步骤(4):构建候选框的语言特征
根据预先训练好的词向量模型,将候选框对应的分类转换为包含语义信息的词向量
Figure FDA0002843327520000016
也就是将离散的候选框的分类转换为连续语言特征,将每张图像中的所有候选框的语言特征拼接成总语言特征为
Figure FDA0002843327520000017
步骤(5):构建相对关系特征
根据图像中的任意两个候选框生成相对关系特征
Figure FDA0002843327520000018
将一张图像中所有的候选框都构建成总相对关系特征为
Figure FDA0002843327520000019
步骤(6):构建深度神经网络
将图像的视觉特征V、位置特征
Figure FDA00028433275200000110
语言特征L拼接成最终的图像特征
Figure FDA00028433275200000111
将该图像特征输入到深度神经网络,结合相对关系特征F,根据自注意力机制将图像特征和相对关系特征F一起映射到隐藏特征空间,产生特征向量
Figure FDA00028433275200000112
最后将图像特征Z输入到全连接函数及激活函数中,输出的预测值是m个候选框的分类分数向量
Figure FDA0002843327520000021
同时预测m×m对候选框之间的关系分类分数向量
Figure FDA0002843327520000022
步骤(7):损失函数
将步骤(6)中输出的两个预测的分类分数向量和关系分类分数向量分别同对应的标签向量一起输入到相应的损失函数中,并分别输出两个损失值;
所述的标签向量是步骤(1)数据集自带;
步骤(8):训练深度神经网络模型
根据步骤(7)中的损失函数产生的损失值,利用反向传播算法对步骤(6)中构建的深度神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(9):深度神经网络模预测值计算
将候选框的分类分数向量进行排序,选择最高分数对应的分类作为其预测分类;将候选框的关系分类分数向量进行排序,选择最高分数对应的关系作为其关系分类。
2.根据权利要求1所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(2)所述的用目标检测网络对图像提取特征,具体如下:
提取目标检测网络中某一层的输出作为该候选框的特征
Figure FDA0002843327520000023
每张图像选取m个候选框,将图像中所有的候选框拼接成总体视觉特征
Figure FDA0002843327520000024
具体公式如下:
V=[v1,v2,...,vi,....,vm] (公式1)。
3.根据权利要求2所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(3)所述的构建目标的空间特征,具体如下:
每个候选框的空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,每个候选框的空间特征s公式如下:
Figure FDA0002843327520000025
其中,W、H表示图像的宽和高;w、h表示对应的候选框的宽和高;
将一张图像中的所有候选框的空间特征拼接成总体空间特征
Figure FDA0002843327520000031
具体公式如下:
Figure FDA0002843327520000032
4.根据权利要求书3所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(4)所述的构建目标的语言特征,具体如下:
根据预先训练好的词向量模型,将候选框对应的分类转换为包含语义信息的词向量
Figure FDA0002843327520000033
每张图像中的所有候选框的语言特征拼接成总语言特征为
Figure FDA0002843327520000034
具体公式如下:
L=[l1,l2,...,li,...,lm] (公式4)。
5.根据权利要求书4所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(5)所述的构建相对关系特征,具体如下:
由于候选框的空间特征建模了单个候选框的位置信息,因此通过任意两个候选框之间的相对位置信息进行建模生成关系特征
Figure FDA0002843327520000035
将第i个候选框的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示候选框的中心点横坐标、纵坐标、宽、高;第i个候选框和第j个候选框之间的关系特征定义为:
Figure FDA0002843327520000036
将图像中的所有候选框的关系特征拼接成总关系特征为
Figure FDA0002843327520000037
具体公式如下:
Figure FDA0002843327520000038
6.根据权利要求书5所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(6)所述的构建深度神经网络,具体如下:
6-1.融合视觉特征、空间特征、语言特征;
视觉特征V、空间特征S、语言特征L是候选框的多种角度的特征,它们自然对齐所以方便融合;将空间特征S、语言特征L先经过全连接层转换到和视觉特征V一样的维度,然后三种特征拼接后的融合特征
Figure FDA0002843327520000041
公式如下:
Z=[V,S,L] (公式7)
6-2.构建关系自注意力网络(RSA)
融合特征Z经过全连接映射转化为融合特征向量
Figure FDA0002843327520000042
公式如下:
X=Linear(Z) (公式8)
将为融合特征向量X和关系特征F作为关系自注意力网络RSA的输入,输出特征向量
Figure FDA0002843327520000043
B′=LN(X+RMHA(X,X,X,F)) (公式9)
B=LN(B′+FFN(B′)) (公式10)
其中,RMHA的输入是融合特征向量X和关系特征F,输出是富含上下文信息特征向量
Figure FDA0002843327520000044
公式如下:
Q=Linear(X) (公式11)
K=Linear(X) (公式12)
V=Linear(X) (公式13)
Figure FDA0002843327520000045
其中Q、K、V分别由融合特征Z经过全连接层映射得到,其中,
Figure FDA0002843327520000046
φ(F)=log(MLP(F)+∈),∈=1e-6,MLP是两层感知机,ReLU是激活函数;
其中,FFN结构,输入是上下文信息特征向量B′,公式如下:
FFN(B′)=FCd(Drop(ReLU(FC4d(B′)))) (公式15)
其中,LN是归一化函数;
6-3.深度堆叠RSA网络
以融合特征Z和关系特征F作为深度堆叠RSA网络
[RSA(1),RSA(2),...,RSA(N)]的输入;将第n层RSA(n)的输出特征Z(n)和关系特征F作为第n+1层RSA(n+1)的输入,迭代往复,公式如下:
Z(n)=RSA(n)(Z(n-1),F) (公式16)
其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变;
6-4.候选框分类优化
将输出特征Z(n)经过全连接层映射到分类分数向量
Figure FDA0002843327520000051
c代表选框的分类数目,公式如下:
O=Linear(Z(n)) (公式17)
6-5.多头注意力关系预测
将输出特征Z(n)作为输入,经过全连接层映射输出单头pj,公式如下:
pj=Linear(Z(n))Linear(Z(n))T (公式18)
将输出特征Z(n)和关系特征F作为多头注意力关系预测器的输入,关系分类分数向量
Figure FDA0002843327520000052
作为其输出,r代表关系分类数目,公式如下:
P=([p1,p2,...,pj,...,phead]+MLP(F))Wr (公式19)
其中,head代表注意力头的数目,MLP代表二层感知机,
Figure FDA0002843327520000053
7.根据权利要求书6所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(7)所述的损失函数,具体如下:
7-1.计算候选框预测分类分数Oi与真实标签oi *之间的差距,使用交叉熵计算如下:
Figure FDA0002843327520000054
7-2.计算候选框的预测关系分类分数与标签向量中真实值之间的差距,使用交叉熵计算如下:
Figure FDA0002843327520000055
7-3.深度神经网络的总损失,具体公式如下:
Loss=Lossobj+λLossrel (公式23)
其中,λ是用来平衡两个损失的超参数。
CN202011500013.7A 2020-12-17 2020-12-17 一种基于深度关系自注意力网络的场景图生成方法 Active CN112464016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500013.7A CN112464016B (zh) 2020-12-17 2020-12-17 一种基于深度关系自注意力网络的场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500013.7A CN112464016B (zh) 2020-12-17 2020-12-17 一种基于深度关系自注意力网络的场景图生成方法

Publications (2)

Publication Number Publication Date
CN112464016A true CN112464016A (zh) 2021-03-09
CN112464016B CN112464016B (zh) 2022-04-01

Family

ID=74803638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500013.7A Active CN112464016B (zh) 2020-12-17 2020-12-17 一种基于深度关系自注意力网络的场景图生成方法

Country Status (1)

Country Link
CN (1) CN112464016B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113344181A (zh) * 2021-05-31 2021-09-03 北京市商汤科技开发有限公司 神经网络的结构搜索方法、装置、计算机设备及存储介质
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN113627557A (zh) * 2021-08-19 2021-11-09 电子科技大学 一种基于上下文图注意力机制的场景图生成方法
CN113689514A (zh) * 2021-06-29 2021-11-23 杭州电子科技大学 一种面向主题的图像场景图生成方法
CN113792177A (zh) * 2021-08-05 2021-12-14 杭州电子科技大学 基于知识引导深度注意力网络的场景文字视觉问答方法
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582993A (zh) * 2018-06-20 2019-04-05 长安大学 城市交通场景图像理解与多视角群智优化方法
CN109712108A (zh) * 2018-11-05 2019-05-03 杭州电子科技大学 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582993A (zh) * 2018-06-20 2019-04-05 长安大学 城市交通场景图像理解与多视角群智优化方法
CN109712108A (zh) * 2018-11-05 2019-05-03 杭州电子科技大学 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIKOLAOS GKANATSIOS等: ""Attention-Translation-Relation Network for Scalable Scene Graph Generation", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP(ICCVW)》 *
黄勇韬等: ""结合注意力机制与特征融合的场景图生成模型"", 《计算机科学》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113344181B (zh) * 2021-05-31 2022-10-18 北京市商汤科技开发有限公司 神经网络的结构搜索方法、装置、计算机设备及存储介质
CN113344181A (zh) * 2021-05-31 2021-09-03 北京市商汤科技开发有限公司 神经网络的结构搜索方法、装置、计算机设备及存储介质
CN113689514B (zh) * 2021-06-29 2024-04-09 杭州电子科技大学 一种面向主题的图像场景图生成方法
CN113689514A (zh) * 2021-06-29 2021-11-23 杭州电子科技大学 一种面向主题的图像场景图生成方法
CN113792177B (zh) * 2021-08-05 2023-02-03 杭州电子科技大学 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113792177A (zh) * 2021-08-05 2021-12-14 杭州电子科技大学 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113627557A (zh) * 2021-08-19 2021-11-09 电子科技大学 一种基于上下文图注意力机制的场景图生成方法
CN113627557B (zh) * 2021-08-19 2023-10-03 电子科技大学 一种基于上下文图注意力机制的场景图生成方法
CN113554129B (zh) * 2021-09-22 2021-12-10 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114612767B (zh) * 2022-03-11 2022-11-15 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备

Also Published As

Publication number Publication date
CN112464016B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN112464016B (zh) 一种基于深度关系自注意力网络的场景图生成方法
WO2023093574A1 (zh) 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN112989927B (zh) 一种基于自监督预训练的场景图生成方法
CN113590849A (zh) 多媒体资源分类模型训练方法和多媒体资源推荐方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
CN111339818A (zh) 一种人脸多属性识别系统
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN115098675A (zh) 一种基于多类别表格填充的情感三元组生成方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
Huang et al. Intangible cultural heritage management using machine learning model: A case study of northwest folk song Huaer
Ding et al. Joint qos prediction for web services based on deep fusion of features
Li et al. KBHN: A knowledge-aware bi-hypergraph network based on visual-knowledge features fusion for teaching image annotation
CN117556067A (zh) 数据检索方法、装置、计算机设备和存储介质
Bodria et al. Explaining Black Box with Visual Exploration of Latent Space.
CN116467415A (zh) 基于GCNsformer混合网络和多通道语义的双向跨域会话推荐方法
CN115423016A (zh) 多任务预测模型的训练方法、多任务预测方法及装置
Wang et al. Hierarchical multimodal fusion network with dynamic multi-task learning
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
Su et al. Soft regression of monocular depth using scale-semantic exchange network
CN112256917A (zh) 用户兴趣识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant