CN111626291A - 一种图像视觉关系检测方法、系统及终端 - Google Patents

一种图像视觉关系检测方法、系统及终端 Download PDF

Info

Publication number
CN111626291A
CN111626291A CN202010264805.2A CN202010264805A CN111626291A CN 111626291 A CN111626291 A CN 111626291A CN 202010264805 A CN202010264805 A CN 202010264805A CN 111626291 A CN111626291 A CN 111626291A
Authority
CN
China
Prior art keywords
predicate
sub
graph
label
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010264805.2A
Other languages
English (en)
Other versions
CN111626291B (zh
Inventor
张重阳
周昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010264805.2A priority Critical patent/CN111626291B/zh
Publication of CN111626291A publication Critical patent/CN111626291A/zh
Application granted granted Critical
Publication of CN111626291B publication Critical patent/CN111626291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection

Abstract

本发明公开了一种图像视觉关系检测方法、系统及终端,其中在物体对生成阶段:将原始图像进行目标检测,得到物体检测框;将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分;将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对;在关系谓词识别阶段:将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;将初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率。本发明可以有效去除冗余的物体对,提高多个语义相似谓词的置信率,从而提高在Top‑N指标上的召回率。

Description

一种图像视觉关系检测方法、系统及终端
技术领域
本发明涉及图像理解技术领域,具体地说,涉及的是一种图像视觉关系检测方法、系统及终端。
背景技术
随着人工智能及深度学习技术的发展,目前的深度学习模型已经在多个领域取得良好性能,例如图像检测和图像识别等。作为图像理解领域的一个分支,视觉关系检测存在着更大的挑战:不仅需要识别物体,而且需要理解图像中的深层语义信息。具体而言,视觉关系可以表示为三元组的形式<sub-pred-ob>,其中,sub、pred和ob分别表示主体、关系谓词和客体。在图像目标检测的基础上,视觉关系检测尝试识别物体对之间的交互关系。对于视觉关系检测任务的研究亦可为其他相关领域带来助益。
一般而言,视觉关系检测方法可以分成两个阶段,包括物体对生成阶段和关系谓词识别阶段。每一阶段都存在着亟待解决的问题。
在物体对生成阶段,目前的主流方法基本都遵循一种简单的机制:基于检测到的N个物体,两两组合产生N(N-1)个物体对。这使得方法的性能严重依赖保留的物体个数。为了能够覆盖更多可能性的关系对,大部分的方法都倾向于保留大量物体框。然而,这种机制会造成严重的计算资源浪费问题。因此,近年来一些优秀的方法在如何挑选物体对的方面做了一些工作,其中包括:2017年YikangLi等提出了triplet NMS算法,其中基于物体对中两物体分类概率的乘积来筛选物体对、2019年Yibing Zhan等提出了underminedrelationship的概念,其中将undermined confidence引入到最终的预测得分上,从而产生对于物体对的排序效果。这些工作虽然取得了一定的效果,但是仍然没有很好的解决筛选物体对的问题。Triplet NMS仅考虑了物体分类的置信率,忽略了物体对存在关系可能性的大小亦依赖于潜在的相对位置关联性;undermined confidence仅是在预测层面对物体对排序,并没有直接解决物体对冗余的问题,还是会存在计算资源浪费的问题,对于视觉关系检测的结果存在影响。
在关系谓词识别阶段,近年来有着很多优秀的研究工作,例如2016年Cewu Lu等在视觉特征的基础上引入语言先验,从而使得模型预测概率与人类的感知保持一致。除此之外,2017年Hanwang Zhang等提出VtransE(visual translation embedding)方法、2017年Ruichi Yu等提出LKD(linguistic knowledge distillation)方法以及2017年BohanZhuang等提出TCIR(towards contest-aware interaction recognition)方法。其分别验证了文本信息和位置信息对于关系谓词识别的重要性,然而对于关系谓词识别阶段标签的语义重叠问题则很少有深入研究。具体而言,关系谓词的标签具有模糊特性,对于特定的物体对,存在着多个合理的关系谓词类别,称之为存在一个合理类别集,该集合内的标签互相有着潜在的语义关联性,
发明内容
针对现有技术中基于深度模型的视觉关系检测方法存在的上述不足,本发明的目的是提出一种图像视觉关系检测方法、系统及终端,分别在物体对生成阶段挖掘位置关联性,在关系谓词识别阶段挖掘语义关联性,可以有效去除冗余的物体对,提高多个语义相似谓词的置信率,一方面减少计算量,一方面提高在Top-N指标上的召回率。
根据本发明的第一方面,提供一种图像视觉关系检测中物体对生成方法,包括:
将原始图像进行目标检测,得到物体检测框;
基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;
将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。
可选地,所述基于位置嵌入的打分,包括:
将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):
Figure BDA0002440859710000031
Figure BDA0002440859710000032
其中,
Figure BDA0002440859710000033
表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接。
进一步的,该位置嵌入打分模块的标签是根据原始图像数据集中的关系标注自动生成,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率
Figure BDA0002440859710000034
Figure BDA0002440859710000035
Figure BDA0002440859710000036
其中,
Figure BDA0002440859710000037
表示物体对<bsub,bob>与第m个关系对标注的重叠比率IoU。
进一步的,根据每个物体对对应的
Figure BDA0002440859710000038
的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数
Figure BDA00024408597100000313
为:
Figure BDA0002440859710000039
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
可选地,将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,包括:
联合考虑所述物体对的打分值s(sub,ob)和目标检测网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数
Figure BDA00024408597100000310
Figure BDA00024408597100000311
根据参数
Figure BDA00024408597100000312
对物体对进行排序,通过极大值抑制去除冗余物体对。
根据本发明的第二方面,提供一种图像视觉关系检测中关系谓词识别方法,包括:
将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;
将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
可选地,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:
将物体对共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:
Figure BDA0002440859710000041
其中,⊙表示点乘操作;Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得;
Figure BDA0002440859710000042
分别表示两层全连接网络;再经过线性操作以及softmax函数将Rfusion映射为关系谓词的初级分类概率pfusion
可选地,将所述初级分类概率送入到基于标签关联的图模块,包括:
将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G。
具体的,所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联性用连接矩阵A表示,A是自适应的,在训练过程中自动习得;在初始化阶段,
Figure BDA0002440859710000043
每一比特数据送入对应的每一个图节点,最终得到基于标签关联的图模块的输出为
Figure BDA0002440859710000044
Figure BDA0002440859710000045
pgraph=softmax([o1,…,o|V|])
其中,O为一层的前向神经网络,|V|表示谓词类别数目,h v表示图中第v个节点的特征;
Figure BDA0002440859710000046
表示向量的维度为|V|维;
所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签
Figure BDA0002440859710000047
其中
Figure BDA0002440859710000048
用来当作谓词图模型GGNN的训练标签,G表示相似矩阵G的转置;相似矩阵G采用渐进式方式自动更新,G(0)=I代表相似矩阵被初始化为单位矩阵;训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别v的统计分布
Figure BDA0002440859710000051
并对其进行平滑处理:
Figure BDA0002440859710000052
其中,T代表平滑程度值,|V|表示谓词类别数目;gv表示平滑处理后的第v个谓词类别的统计分布;
每个迭代轮次t,相似矩阵更新为:
Figure BDA0002440859710000053
α为平衡参数,取值范围为[0.1,0.5];
根据每一轮次更新后的相似矩阵G,自动生成基于标签关联的图模块的离散分布标签
Figure BDA0002440859710000054
基于标签关联的图模块的损失函数
Figure BDA0002440859710000055
为:
Figure BDA0002440859710000056
Figure BDA0002440859710000057
其中:N为样本数量;
Figure BDA0002440859710000058
为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,
Figure BDA0002440859710000059
Figure BDA00024408597100000510
的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
可选地,将所述初级分类概率和所述分类修正概率进行融合,包括:
联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,取值范围为[0.5,0.8];;
该分类概率ppred的损失函数
Figure BDA00024408597100000511
是:
Figure BDA00024408597100000512
其中,
Figure BDA0002440859710000061
表示交叉熵损失函数,N为样本数量,yn表示第n个样本的独热标签;
最终,在测试阶段物体对<bsub,bob>构成关系三元组“主体-关系谓词-客体”的概率值为:
Figure BDA0002440859710000062
其中,P(sub,ob|<bsub,bob>)为物体对<bsub,bob>;pobn(sub)、pobn(ob)为目标检测网络得到的物体置信率;ppred为关系谓词的最终分类概率;
Figure BDA0002440859710000063
代表物体对<bsub,bob>存在潜在关系可能性大小。
根据本发明的第三方面,提供一种图像视觉关系检测方法,包括物体对生成阶段和关系谓词识别阶段,其中:所述物体对生成阶段采用上述任一项物体对生成方法;所述关系谓词识别阶段采用上述任一项关系谓词识别方法;所述物体对生成阶段挖掘关系物体的位置关联性,有效去除冗余的物体对;所述关系谓词识别阶段挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
根据本发明的第四方面,提供一种图像视觉关系检测系统,包括物体对生成单元和关系谓词识别单元,其中:所述物体对生成单元采用上述任一项物体对生成方法;所述关系谓词识别单元采用上述任一项关系谓词识别方法;所述物体对生成单元挖掘关系物体的位置关联性,有效去除冗余的物体对;所述关系谓词识别单元挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
根据本发明的第五方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项物体对生成方法,或者,用于执行上述任一项所述关系谓词识别方法,或者上述的图像视觉关系检测方法。
与现有技术相比,本发明实施例至少具有以下一种有益效果:
本发明上述的物体对生成方法,通过挖掘关系物体的位置关联性,可以有效去除冗余的物体对,节约计算计算资源和提高合理物体对的召回率。
本发明上述的关系谓词识别方法,挖掘关系谓词的语义关联性,可以提高多个语义相似谓词的置信率,从而进一步提高模型在Top-N指标上的召回率。
本发明上述图像视觉关系检测方法、系统和终端,采用两阶段式的视觉关系检测框架,在物体对生成阶段挖掘位置关联性,在关系谓词识别阶段挖掘语义关联性,从而一方面减少计算量,一方面提高在Top-N指标上的召回率,能够输出合理类别集内的多个预测结果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中图像视觉关系检测中物体对生成方法流程图;
图2为本发明一实施例中图像视觉关系检测中关系谓词识别方法流程图;
图3为本发明一实施例中图像视觉关系检测方法的原理图;
图4为本发明图像视觉关系检测方法一应用实例的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
图1为本发明一实施例中图像视觉关系检测中物体对生成方法流程图。参照图1所示,图像视觉关系检测中物体对生成方法可以包括以下步骤:
S101,将原始图像进行目标检测,得到物体检测框;目标检测可以采用现有的目标检测网络实现;
S102,将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分;此处的物体对是由检测网络得到的检测目标两两组合而成,即物体对包含两个检测目标;
S103,将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对,该候选物体对更为合理。
本发明上述实施例中的物体对生成方法,通过挖掘位置关联性,可以有效去除冗余的物体对,节约计算计算资源和提高合理物体对的召回率。
作为一优选实施例,S101中对原始图像进行目标检测可以采用目标检测网络Faster RCNN网络进行,检测结果为得到物体检测框、和物体置信率pobn。在其他实施例中也可以采用其他检测网络,比如亦可选用其他如SSD,Fast RCNN等。优选采用Faster RCNN具有检测精度高且速度快好的效果。
作为另一优选实施例,S102中物体视觉信息,可以通过如下方法获取:根据得到的物体检测框,利用ROI-Align在其骨干网络的最后一层提取得到视觉特征。ROI-Align为现有网络。
相应的,物体区域特征Rvis(sub)、Rvis(ob),可以通过以下方法获得:在利用ROI-Align在其骨干网络的最后一层提取得到视觉特征后,进一步通过两层全连接层得到最终的各自物体区域特征Rvis(sub)、Rvis(ob)。
作为另一优选实施例,S102中物体对相对位置编码信息Rloc(sub,ob),可以通过以下方法获得:
根据目标检测网络(比如Faster RCNN网络)得到物体检测框,分别表示为:
bsub=(xsub,ysub,wsub,hsub)
bob=(xob,yob,wob,hob)
其中,sub,ob用于区分组成物体对的两个检测目标;(x,y)表示每个目标检测框的左上角点坐标,(w,h)表示每个目标检测框的宽与高;给定两个目标检测框,Wu、Hu和Su分别表示共同区域的宽、高和面积;Rloc(sub,ob)包括三部分:
Rloc(sub,ob)=norm[insub,inob,mu]
Figure BDA0002440859710000081
Figure BDA0002440859710000082
其中,norm表示L2归一化,insub,inob分别表示两个目标检测框相对于原始图片的位置编码;mu表示两个目标检测框之间的位置编码。
作为另一优选实施例,S102中基于位置嵌入的打分,可以采用下述方式实现:将目标检测网络(比如Faster RCNN网络)得到的物体区域特征Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob),进行位置嵌入的打分进行打分,得到代表物体对的打分值s(sub,ob)。具体的,该打分值s(sub,ob)为:
Figure BDA0002440859710000083
Figure BDA0002440859710000084
其中,
Figure BDA0002440859710000085
表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值,Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接。该打分值s(sub,ob)与现有技术相比,考虑了位置关联性。
作为另一优选实施例,S103中,通过极大值抑制去除冗余物体对时,联合考虑物体对的打分值s(sub,ob)和Faster RCNN网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数
Figure BDA0002440859710000091
再进一步根据参数
Figure BDA0002440859710000092
对物体对进行排序,通过极大值抑制去除冗余物体对,筛选出更加合理的候选物体对,即生成的最终物体对。
在上述实施例的基础上,为了进一步提升图像视觉关系检测效果,在另一优选实施例中,图像视觉关系检测中物体对生成方法还可以包括训练过程:
位置嵌入打分模块的标签根据原始图像数据集中的人工标注的关系标注自动生成位置嵌入的打分的标签,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率
Figure BDA0002440859710000093
Figure BDA0002440859710000094
Figure BDA0002440859710000095
其中,
Figure BDA0002440859710000096
表示物体对<bsub,bob>与第m个关系对标注的重叠比率(IoU);
根据每个物体对对应的
Figure BDA0002440859710000097
的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数
Figure BDA0002440859710000098
为:
Figure BDA0002440859710000099
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
图2为本发明一实施例中图像视觉关系检测中关系谓词识别方法流程图。参照图2所示,该实施例中的图像视觉关系检测中关系谓词识别方法,可以包括如下步骤:
S201,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
S202,将初级分类概率送入到基于标签关联的图模块(LGM模块),得到关系谓词的分类修正概率;
S203,将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
本发明上述实施例的关系谓词识别方法,通过挖掘关系谓词的语义关联性,可以提高多个语义相似谓词的置信率,从而进一步提高模型在Top-N指标上的召回率。基于标签关联的图模块会对初级分类概率中的每一个元素做图结构的连接,产生对应每个元素的修正值。
作为一优选实施例,上述S201中的物体对的共同区域,可以通过以下方法获取:采用目标检测网络(比如Faster RCNN网络)得到物体检测框,两两组合得到物体对共同区域的检测框;利用ROI-Align在其骨干网络的最后一层提取得到共同视觉特征,并通过两层全连接层得到共同区域特征R′vis(sub,ob)。
作为一优选实施例,上述S201中,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:将共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:
Figure BDA0002440859710000101
其中,⊙表示点乘操作;Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得;
Figure BDA0002440859710000102
分别表示两层全连接网络;再经过线性操作以及softmax函数将Rfusion映射为关系谓词的初级分类概率pfusion
作为一优选实施例,上述物体对类别标签的语义编码Rlan(sub,ob),可以利用基于维基百科数据预训练得到的词向量,其中每个单词被映射为150~450维的向量,并经过L2归一化处理得到:
Rlan(sub,ob)=[word2vec(sub),word2vec(ob)];
其中:word2vec(sub)、word2vec(ob)为物体对<bsub,bob>中的检测目标的词向量。
作为一优选实施例,S202中,将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G,所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,对初级概率中的每一个元素做图结构的连接,得到对应每个元素的修正值;所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签
Figure BDA0002440859710000111
其中
Figure BDA0002440859710000112
用来当作谓词图模型GGNN的训练标签,G为相似矩阵G的转置;相似矩阵G在训练阶段使用,测试阶段舍弃。
对于权重自适应的谓词图模型GGNN,图中的每个节点代表一类谓词,在初始化阶段,
Figure BDA0002440859710000113
每一比特数据送入每一个对应图节点,其中|V|表示图中节点数目;连接矩阵A是自适应的,对于图中任两个节点特征hi、hj,利用系数cij表示其节点间关联性:
Figure BDA0002440859710000114
其中,
Figure BDA0002440859710000115
表示前向传播网络,Θ4为网络参数,在训练过程中自动习得;
通过对每行节点系数cij做归一化处理,连接矩阵
Figure BDA0002440859710000116
被定义为:
Figure BDA0002440859710000117
基于标签关联的图模块的输出为
Figure BDA0002440859710000118
Figure BDA0002440859710000119
pgraph=softmax([o1,…,o|V|])
其中,O为一层的前向神经网络,h v表示图中第v个节点特征。
Figure BDA00024408597100001110
表示向量的维度为|V|维。
对于自动更新的相似矩阵G,采用渐进式更新的方式,G(0)=I代表相似矩阵被初始化为单位矩阵;
训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别的统计分布
Figure BDA00024408597100001111
并对其进行平滑处理:
Figure BDA00024408597100001112
其中,v、T分别代表谓词类别及平滑程度值,gv为平滑处理后的第v个谓词类别的统计分布;
每个迭代轮次t,相似矩阵更新为:
Figure BDA00024408597100001113
α为平衡参数,取值范围为[0.1,0.5];
根据每一轮次更新后的相似矩阵G,自动生成基于标签关联的图模块的离散分布标签
Figure BDA0002440859710000121
其中y代表人工标注的独热标签,G为相似矩阵G的转置;基于标签关联的图模块的损失函数
Figure BDA0002440859710000122
为:
Figure BDA0002440859710000123
Figure BDA0002440859710000124
其中:N为样本数量;
Figure BDA0002440859710000125
为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,
Figure BDA0002440859710000126
Figure BDA0002440859710000127
的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
在另一实施例中,S203中,将初级分类概率和分类修正概率进行融合,其中:联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,一般取值范围为[0.5,0.8];
该分类概率ppred的损失函数
Figure BDA0002440859710000128
是:
Figure BDA0002440859710000129
其中,
Figure BDA00024408597100001210
表示交叉熵损失函数(Cross Entropy Loss),N为样本数量,yn表示第n个样本的独热标签。
参照图3所示,在另一实施例中,本发明还提供一种图像视觉关系检测方法,该方法包括物体对生成阶段和关系谓词识别阶段,这两个阶段对应采用上述图1、2所示的物体对生成方法和关系谓词识别方法来实现。
在物体对生成阶段,将原始图像送入基础目标检测模型得到物体检测框;基于检测框,将物体视觉信息和物体对的相对位置编码送入位置嵌入打分模块(Location-embedded Rating Module,LRM),得到物体对的打分值;将物体检测框和物体对的打分值送入极大值抑制(Non-Maximum Suppression,NMS),筛选出更加合理的候选物体对。如图3左侧所示。
在关系谓词识别阶段,将物体对的共同区域、语义编码和相对位置编码送入到多模态融合模块,得到关系谓词的初级分类概率;将初级分类概率送入到标签关联图模块(Label-correlation Graph Module,LGM),得到关系谓词的分类修正概率;将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率。如图3右侧所示。
本发明上述实施例的图像视觉关系检测方法,作为两阶段式的视觉关系检测框架,在第一阶段通过利用LRM模块挖掘关系物体的位置关联性,可以有效去除冗余的物体对,节约计算计算资源和提高合理物体对的召回率;在第二阶段通过利用LGM模块挖掘关系谓词的语义关联性,可以提高多个语义相似谓词的置信率,从而进一步提高模型在Top-N指标上的召回率。
具体的,针对图像关系检测等应用,提供一种基于挖掘两阶段潜在关联性的图像视觉关系检测方法的优选实施例,以下以Faster RCNN网络作为目标检测网络来进行说明。参照图4所示,包括物体对生成阶段和关系谓词识别阶段:
1、物体对生成阶段
第一步,构造物体对生成阶段网络。
本步骤中,基于Faster RCNN网络以及位置嵌入的打分模块(LRM)构造出视觉关系检测框架的物体对生成阶段网络。
将原始图像送入Faster RCNN网络得到物体检测框、物体置信率等;根据物体检测框从Faster RCNN网络提取区域特征Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)送入LRM模块,得到代表物体对的打分值s(sub,ob)。参照图4左侧所示。
第二步,筛选合理物体对。
本步骤中,联合考虑LRM模块的输出s(sub,ob)和Faster RCNN网络得到物体置信率pobn(sub)、pobn(ob),最终得到代表物体对<bsub,bob>存在潜在关系可能性大小的
Figure BDA0002440859710000131
并根据
Figure BDA0002440859710000132
对物体对进行排序,通过极大值抑制(NMS)去除冗余物体对,筛选出更加合理的候选物体对。参照图4中间所示。
2、关系谓词识别阶段
第一步,构造关系谓词识别阶段网络。
本步骤中,基于多模态融合模块以及标签关联的图模块(LGM)构造出视觉关系检测框架的关系谓词识别阶段网络。
第二步,关系谓词识别。
将基于Faster RCNN网络得到的物体对共同区域特征R′vis(sub,ob)、基于物体框编码的物体对相对位置编码信息Rloc(sub,ob)和物体对类别标签的语义编码Rlan(sub,o)送入多模态融合模块,得到关系谓词的初级分类概率pfusion;将初级分类概率pfusion送入LGM模块得到关系谓词的分类修正概率pgraph;融合初级分类概率pfusion和分类修正概率pgraph得到最终的关系谓词分类概率ppred。参照图4右侧所示。
物体对生成阶段采用与上述物体对生成方法对应的技术,具体如下:
将原始图片送入Faster RCNN网络中得到物体的检测框以及物体置信率,根据Faster RCNN网络得到的物体检测框,利用ROI-Align在其骨干网络的最后一层提取得到视觉特征,并通过两层全连接层得到最终的各自物体区域Rvis(sub)、Rvis(ob);根据FasterRCNN网络得到物体检测框,分别表示为:
bsub=(xsub,ysub,wsub,hsub)
bob=(xob,yob,wob,hob)
其中,sub,ob用于区分组成物体对的两个检测目标,(x,y)表示每个目标检测框的左上角点坐标,(w,h)表示每个目标检测框的宽与高。给定两个目标检测框,Wu、Hu和Su分别表示共同区域的宽、高和面积。Rloc(sub,ob)包括三部分:
Rloc(sub,ob)=norm[insub,inob,mu]
Figure BDA0002440859710000141
Figure BDA0002440859710000142
其中,norm表示L2归一化,insub,inob分别表示两个目标检测框相对于原始图片的位置编码;mu表示两个目标检测框之间的位置编码。
将Faster RCNN网络得到的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob),进行位置嵌入的打分进行打分,得到代表物体对的打分值s(sub,ob)。具体的,该打分值s(sub,ob)为:
Figure BDA0002440859710000143
Figure BDA0002440859710000144
其中,
Figure BDA0002440859710000151
表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值,Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接。
根据训练集中的关系标注自动生成LRM模块的标签,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率
Figure BDA00024408597100001510
Figure BDA0002440859710000152
Figure BDA0002440859710000153
其中,
Figure BDA0002440859710000154
表示物体对<bsub,bob>与第m个关系对标注的重叠比率(IoU)。
根据每个物体对对应的
Figure BDA00024408597100001511
的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃。最终LRM模块的损失函数为:
Figure BDA0002440859710000155
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
最终,代表物体对存在潜在关系可能性大小的
Figure BDA0002440859710000156
联合考虑LRM模块的输出s(sub,ob)和基础Faster RCNN网络得到物体置信率pobn(sub)、pobn(ob),具体为:
Figure BDA0002440859710000157
根据
Figure BDA0002440859710000158
的大小排序,将物体对NMS筛选出合理的物体候选对。
参照图3右侧所示,多模态融合模块的输入包括共同物体区域R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob),并得到输出Rfusion
Figure BDA0002440859710000159
其中,⊙表示点乘操作,Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得。
最终经过线性操作以及softmax函数将Rfusiion映射为关系谓词的初级分类概率pfusion。物体对类别标签的语义编码Rlan(sub,ob)是利用基于维基百科数据预训练得到的词向量,其中每个单词被映射为150~450维的向量,并经过L2归一化处理得到:
Rlan(sub,ob)=[word2vec(sub),word2vec(ob)]
其中:word2vec(sub)、word2vec(ob)为物体对<bsub,bob>中的检测目标的词向量。
将关系谓词的初级分类概率pfusion送入LGM模块中,LGM模块包括了一个权重自适应的谓词图模型(GGNN)以及一个自动更新的相似矩阵G。谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,对初级概率中的每一个元素做图结构的连接,得到对应每个元素的修正值;所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签
Figure BDA0002440859710000161
其中
Figure BDA0002440859710000162
用来当作谓词图模型GGNN的训练标签,G′为相似矩阵G的转置;相似矩阵G在训练阶段使用,测试阶段舍弃。
对于权重自适应的谓词图模型GGNN,图中的每个节点代表一类谓词,在初始化阶段,
Figure BDA0002440859710000163
每一比特数据送入每一个对应图节点,其中|V|表示图中节点数目;连接矩阵A是自适应的,对于图中任两个节点特征hi、hj,利用系数cij表示其节点间关联性:
Figure BDA0002440859710000164
其中,
Figure BDA0002440859710000165
表示前向传播网络,Θ4为网络参数,在训练过程中自动习得;
通过对每行节点系数做归一化处理,连接矩阵
Figure BDA0002440859710000166
被定义为:
Figure BDA0002440859710000167
LGM模块的输出为
Figure BDA0002440859710000168
Figure BDA0002440859710000169
pgraph=softmax([o1,…,o|V|])
其中,O为一层的前向神经网络,h v表示图中第v个节点特征。
对于LGM模块中的自动更新的相似矩阵G,采用渐进式更新的方式,G(0)=I代表相似矩阵被初始化为单位矩阵。训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别的统计分布
Figure BDA00024408597100001610
并对其进行平滑处理(soft):
Figure BDA00024408597100001611
其中,v、T分别代表谓词类别及平滑程度值,gv为平滑处理后的第v个谓词类别的统计分布。
每个迭代轮次t,相似矩阵更新为:
Figure BDA0002440859710000171
α为平衡参数,取值范围为[0.1,0.5];
根据每一轮次更新后的相似矩阵G,自动生成LGM模块的离散分布标签
Figure BDA0002440859710000172
Figure BDA0002440859710000173
其中y代表人工标注的独热标签(one-hot),G为相似矩阵G的转置。基于标签关联的图模块的损失函数
Figure BDA0002440859710000174
为:
Figure BDA0002440859710000175
Figure BDA0002440859710000176
其中:N为样本数量;
Figure BDA0002440859710000177
为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,
Figure BDA0002440859710000178
Figure BDA0002440859710000179
的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
通过联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,一般取值范围为[0.5,0.8]。
该分类概率ppred的损失函数
Figure BDA00024408597100001710
是:
Figure BDA00024408597100001711
其中,
Figure BDA00024408597100001712
表示交叉熵损失函数(Cross Entropy Loss),N为样本数量,yn表示第n个样本的独热标签。
在本发明上述实例中,采用的是各个模块损失之和。两阶段关系检测模型的训练分两次进行,首先优化物体对生成阶段:
Figure BDA00024408597100001713
其中,
Figure BDA0002440859710000181
代表基础Faster RCNN网络的损失函数,
Figure BDA0002440859710000182
为LRM模块的损失函数,λ1为平衡参数,一般取1。特别值得注意,在训练过程,固定Faster RCNN网络的骨干网络部分。
然后优化关系谓词识别阶段:
Figure BDA0002440859710000183
其中,
Figure BDA0002440859710000184
代表分类概率ppred的损失函数,
Figure BDA0002440859710000185
为于标签关联的图模块的损失函数,λ2为平衡参数,一般取1。
两阶段所有模块共享Faster RCNN网络的骨干网络部分。
最终,在测试阶段物体对<bsub,bob>构成关系三元组“主体-关系谓词-客体”的概率值为:
Figure BDA0002440859710000187
其中,P(sub,ob|<bsub,bob>)为物体对<bsub,bob>;pobn(sub)、pobn(ob)为目标检测网络得到的物体置信率;ppred为关系谓词的最终分类概率;
Figure BDA0002440859710000186
代表物体对<bsub,bob>存在潜在关系可能性大小。
在本发明另一实施例中,对应于上述的图像视觉关系检测方法,还提供一种图像视觉关系检测系统,该系统用于实现上述的图像视觉关系检测方法。具体的,该系统包括物体对生成单元和关系谓词识别单元,其中:物体对生成单元采用上述任一项实施例中的物体对生成方法;关系谓词识别单元采用上述任一项实施例中关系谓词识别方法;物体对生成单元挖掘关系物体的位置关联性,有效去除冗余的物体对;关系谓词识别单元挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
在本发明另一实施例中,还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时可用于执行上述任一实施例中的物体对生成方法,或者,用于执行上述任一实施例中的关系谓词识别方法,或者用于执行上述任一实施例中的图像视觉关系检测方法。
本发明上述实施例的图像视觉关系检测方法和系统,通过分别在物体对生成阶段利用位置关联性实现合理物体对的筛选、在关系谓词识别阶段利用语义关联性实现预测多个合理谓词,从而实现了在整体降低计算量的情况下,提高了模型在Top-N指标上的提高,大大提升模型在视觉关系检测任务上的检测能力。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种图像视觉关系检测中物体对生成方法,其特征在于,包括:
将原始图像进行目标检测,得到物体检测框;
基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;
将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。
2.根据权利要求1所述的图像视觉关系检测中物体对生成方法,其特征在于,所述基于位置嵌入的打分,包括:
将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):
Figure FDA0002440859700000011
Figure FDA0002440859700000012
其中,
Figure FDA0002440859700000013
表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接;
该位置嵌入打分模块的标签是根据原始图像数据集中的关系标注自动生成,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率
Figure FDA0002440859700000014
Figure FDA0002440859700000015
Figure FDA0002440859700000016
其中,
Figure FDA0002440859700000017
表示物体对<bsub,bob>与第m个关系对标注的重叠比率IoU;
根据每个物体对对应的
Figure FDA0002440859700000018
的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数
Figure FDA0002440859700000019
为:
Figure FDA0002440859700000021
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
3.根据权利要求2所述的图像视觉关系检测中物体对生成方法,其特征在于,将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,包括:
联合考虑所述物体对的打分值s(sub,ob)和目标检测网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数
Figure FDA0002440859700000022
Figure FDA0002440859700000023
根据参数
Figure FDA0002440859700000024
对物体对进行排序,通过极大值抑制去除冗余物体对。
4.一种图像视觉关系检测中关系谓词识别方法,其特征在于,包括:
将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;
将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
5.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:
将物体对共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:
Figure FDA0002440859700000025
其中,⊙表示点乘操作;Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得;
Figure FDA0002440859700000026
分别表示两层全连接网络;再经过线性操作以及softmax函数将Rfusion映射为关系谓词的初级分类概率pfusion
6.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将所述初级分类概率送入到基于标签关联的图模块,包括:
将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G;
所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联性用连接矩阵A表示,A是自适应的,在训练过程中自动习得;在初始化阶段,
Figure FDA0002440859700000031
每一比特数据送入对应的每一个图节点,最终得到基于标签关联的图模块的输出为
Figure FDA0002440859700000032
Figure FDA0002440859700000033
pgraph=softmax([o1,…,o|V|])
其中,O为一层的前向神经网络,|V|表示谓词类别数目,h′v表示图中第v个节点的特征;
Figure FDA0002440859700000034
表示向量维度为|V|维;
所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签
Figure FDA0002440859700000035
其中
Figure FDA0002440859700000036
用来当作谓词图模型GGNN的训练标签,G′表示相似矩阵G的转置;相似矩阵G采用渐进式方式自动更新,G(0)=I代表相似矩阵被初始化为单位矩阵;训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别v的统计分布
Figure FDA0002440859700000037
并对其进行平滑处理:
Figure FDA0002440859700000038
其中,T代表平滑程度值,|V|表示谓词类别数目;gv表示平滑处理后的第v个谓词类别的统计分布;
每个迭代轮次t,相似矩阵更新为:
Figure FDA0002440859700000039
α为平衡参数,取值范围为[0.1,0.5];
根据每一轮次更新后的相似矩阵G,自动生成基于标签关联的图模块的离散分布标签
Figure FDA00024408597000000310
基于标签关联的图模块的损失函数
Figure FDA00024408597000000311
为:
Figure FDA00024408597000000312
Figure FDA00024408597000000313
其中:N为样本数量;
Figure FDA0002440859700000041
为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,
Figure FDA0002440859700000042
Figure FDA0002440859700000043
的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
7.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将所述初级分类概率和所述分类修正概率进行融合,包括:
联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,取值范围为[0.5,0.8];;
该分类概率ppred的损失函数
Figure FDA0002440859700000044
是:
Figure FDA0002440859700000045
其中,
Figure FDA0002440859700000046
表示交叉熵损失函数,N为样本数量,yn表示第n个样本的独热标签;
最终,在测试阶段物体对<bsub,bob>构成关系三元组“主体-关系谓词-客体”的概率值为:
Figure FDA0002440859700000047
其中,P(sub,ob|<bsub,bob>)为物体对<bsub,bob>;pobn(sub)、pobn(ob)为目标检测网络得到的物体置信率;ppred为关系谓词的最终分类概率;
Figure FDA0002440859700000048
代表物体对<bsub,bob>存在潜在关系可能性大小。
8.一种图像视觉关系检测方法,包括物体对生成阶段和关系谓词识别阶段,其特征在于:
所述物体对生成阶段采用权利要求1-3任一项所述物体对生成方法;
所述关系谓词识别阶段采用权利要求4-7任一项所述关系谓词识别方法;
所述物体对生成阶段挖掘关系物体的位置关联性,有效去除冗余的物体对;
所述关系谓词识别阶段挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
9.一种图像视觉关系检测系统,包括物体对生成单元和关系谓词识别单元,其特征在于,其中:
所述物体对生成单元采用权利要求1-3任一项所述物体对生成方法;
所述关系谓词识别单元采用权利要求4-7任一项所述关系谓词识别方法;
所述物体对生成单元挖掘关系物体的位置关联性,有效去除冗余的物体对;
所述关系谓词识别单元挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
10.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-3任一项所述的物体对生成方法,或者,用于执行权利要求4-7任一项所述的关系谓词识别方法,或者,用于执行权利要求8所述的图像视觉关系检测方法。
CN202010264805.2A 2020-04-07 2020-04-07 一种图像视觉关系检测方法、系统及终端 Active CN111626291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010264805.2A CN111626291B (zh) 2020-04-07 2020-04-07 一种图像视觉关系检测方法、系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010264805.2A CN111626291B (zh) 2020-04-07 2020-04-07 一种图像视觉关系检测方法、系统及终端

Publications (2)

Publication Number Publication Date
CN111626291A true CN111626291A (zh) 2020-09-04
CN111626291B CN111626291B (zh) 2023-04-25

Family

ID=72259694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010264805.2A Active CN111626291B (zh) 2020-04-07 2020-04-07 一种图像视觉关系检测方法、系统及终端

Country Status (1)

Country Link
CN (1) CN111626291B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149692A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 基于人工智能的视觉关系识别方法、装置及电子设备
CN113240033A (zh) * 2021-05-25 2021-08-10 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880692A (zh) * 2012-09-19 2013-01-16 上海交通大学 一种面向检索的监控视频语义描述和检测建模方法
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108229272A (zh) * 2017-02-23 2018-06-29 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN109447943A (zh) * 2018-09-21 2019-03-08 中国科学院深圳先进技术研究院 一种目标检测方法、系统及终端设备
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110378381A (zh) * 2019-06-17 2019-10-25 华为技术有限公司 物体检测方法、装置和计算机存储介质
CN110390340A (zh) * 2019-07-18 2019-10-29 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880692A (zh) * 2012-09-19 2013-01-16 上海交通大学 一种面向检索的监控视频语义描述和检测建模方法
CN108229272A (zh) * 2017-02-23 2018-06-29 北京市商汤科技开发有限公司 视觉关系检测方法和装置及视觉关系检测训练方法和装置
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN109447943A (zh) * 2018-09-21 2019-03-08 中国科学院深圳先进技术研究院 一种目标检测方法、系统及终端设备
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN110378381A (zh) * 2019-06-17 2019-10-25 华为技术有限公司 物体检测方法、装置和计算机存储介质
CN110390340A (zh) * 2019-07-18 2019-10-29 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAO ZHOU 等: "Visual Relationship Detection with Relative Location Mining", 《2019 ASSOCIATION FOR COMPUTING MACHINERY》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149692A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 基于人工智能的视觉关系识别方法、装置及电子设备
CN112149692B (zh) * 2020-10-16 2024-03-05 腾讯科技(深圳)有限公司 基于人工智能的视觉关系识别方法、装置及电子设备
CN113240033A (zh) * 2021-05-25 2021-08-10 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113240033B (zh) * 2021-05-25 2022-06-28 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置

Also Published As

Publication number Publication date
CN111626291B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US9910829B2 (en) Automatic document separation
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
Jung et al. Devil's on the edges: Selective quad attention for scene graph generation
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111626291A (zh) 一种图像视觉关系检测方法、系统及终端
CN113449084A (zh) 基于图卷积的关系抽取方法
CN114357151A (zh) 文本类目识别模型的处理方法、装置、设备及存储介质
CN114677515A (zh) 基于类间相似性的弱监督语义分割方法
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN114373092A (zh) 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法
CN113158667B (zh) 基于实体关系级别注意力机制的事件检测方法
JP7005045B2 (ja) ナイーブベイズ分類器に対する限界攻撃方法
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CN116051924B (zh) 一种图像对抗样本的分治防御方法
US20150186797A1 (en) Data reduction in nearest neighbor classification
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
CN114168780A (zh) 多模态数据处理方法、电子设备及存储介质
CN112069800A (zh) 基于依存句法的句子时态识别方法、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant