CN111626291A - 一种图像视觉关系检测方法、系统及终端 - Google Patents
一种图像视觉关系检测方法、系统及终端 Download PDFInfo
- Publication number
- CN111626291A CN111626291A CN202010264805.2A CN202010264805A CN111626291A CN 111626291 A CN111626291 A CN 111626291A CN 202010264805 A CN202010264805 A CN 202010264805A CN 111626291 A CN111626291 A CN 111626291A
- Authority
- CN
- China
- Prior art keywords
- predicate
- sub
- graph
- label
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 127
- 230000000007 visual effect Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000012937 correction Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 7
- 230000005764 inhibitory process Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000969729 Apteryx rowi Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
Abstract
本发明公开了一种图像视觉关系检测方法、系统及终端,其中在物体对生成阶段:将原始图像进行目标检测,得到物体检测框;将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分;将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对;在关系谓词识别阶段:将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;将初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率。本发明可以有效去除冗余的物体对,提高多个语义相似谓词的置信率,从而提高在Top‑N指标上的召回率。
Description
技术领域
本发明涉及图像理解技术领域,具体地说,涉及的是一种图像视觉关系检测方法、系统及终端。
背景技术
随着人工智能及深度学习技术的发展,目前的深度学习模型已经在多个领域取得良好性能,例如图像检测和图像识别等。作为图像理解领域的一个分支,视觉关系检测存在着更大的挑战:不仅需要识别物体,而且需要理解图像中的深层语义信息。具体而言,视觉关系可以表示为三元组的形式<sub-pred-ob>,其中,sub、pred和ob分别表示主体、关系谓词和客体。在图像目标检测的基础上,视觉关系检测尝试识别物体对之间的交互关系。对于视觉关系检测任务的研究亦可为其他相关领域带来助益。
一般而言,视觉关系检测方法可以分成两个阶段,包括物体对生成阶段和关系谓词识别阶段。每一阶段都存在着亟待解决的问题。
在物体对生成阶段,目前的主流方法基本都遵循一种简单的机制:基于检测到的N个物体,两两组合产生N(N-1)个物体对。这使得方法的性能严重依赖保留的物体个数。为了能够覆盖更多可能性的关系对,大部分的方法都倾向于保留大量物体框。然而,这种机制会造成严重的计算资源浪费问题。因此,近年来一些优秀的方法在如何挑选物体对的方面做了一些工作,其中包括:2017年YikangLi等提出了triplet NMS算法,其中基于物体对中两物体分类概率的乘积来筛选物体对、2019年Yibing Zhan等提出了underminedrelationship的概念,其中将undermined confidence引入到最终的预测得分上,从而产生对于物体对的排序效果。这些工作虽然取得了一定的效果,但是仍然没有很好的解决筛选物体对的问题。Triplet NMS仅考虑了物体分类的置信率,忽略了物体对存在关系可能性的大小亦依赖于潜在的相对位置关联性;undermined confidence仅是在预测层面对物体对排序,并没有直接解决物体对冗余的问题,还是会存在计算资源浪费的问题,对于视觉关系检测的结果存在影响。
在关系谓词识别阶段,近年来有着很多优秀的研究工作,例如2016年Cewu Lu等在视觉特征的基础上引入语言先验,从而使得模型预测概率与人类的感知保持一致。除此之外,2017年Hanwang Zhang等提出VtransE(visual translation embedding)方法、2017年Ruichi Yu等提出LKD(linguistic knowledge distillation)方法以及2017年BohanZhuang等提出TCIR(towards contest-aware interaction recognition)方法。其分别验证了文本信息和位置信息对于关系谓词识别的重要性,然而对于关系谓词识别阶段标签的语义重叠问题则很少有深入研究。具体而言,关系谓词的标签具有模糊特性,对于特定的物体对,存在着多个合理的关系谓词类别,称之为存在一个合理类别集,该集合内的标签互相有着潜在的语义关联性,
发明内容
针对现有技术中基于深度模型的视觉关系检测方法存在的上述不足,本发明的目的是提出一种图像视觉关系检测方法、系统及终端,分别在物体对生成阶段挖掘位置关联性,在关系谓词识别阶段挖掘语义关联性,可以有效去除冗余的物体对,提高多个语义相似谓词的置信率,一方面减少计算量,一方面提高在Top-N指标上的召回率。
根据本发明的第一方面,提供一种图像视觉关系检测中物体对生成方法,包括:
将原始图像进行目标检测,得到物体检测框;
基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;
将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。
可选地,所述基于位置嵌入的打分,包括:
将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):
其中,表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接。
进一步的,根据每个物体对对应的的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数为:
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
可选地,将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,包括:
根据本发明的第二方面,提供一种图像视觉关系检测中关系谓词识别方法,包括:
将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;
将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
可选地,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:
将物体对共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:
可选地,将所述初级分类概率送入到基于标签关联的图模块,包括:
将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G。
具体的,所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联性用连接矩阵A表示,A是自适应的,在训练过程中自动习得;在初始化阶段,每一比特数据送入对应的每一个图节点,最终得到基于标签关联的图模块的输出为
pgraph=softmax([o1,…,o|V|])
所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签其中用来当作谓词图模型GGNN的训练标签,G′表示相似矩阵G的转置;相似矩阵G采用渐进式方式自动更新,G(0)=I代表相似矩阵被初始化为单位矩阵;训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别v的统计分布并对其进行平滑处理:
其中,T代表平滑程度值,|V|表示谓词类别数目;gv表示平滑处理后的第v个谓词类别的统计分布;
每个迭代轮次t,相似矩阵更新为:
α为平衡参数,取值范围为[0.1,0.5];
其中:N为样本数量;为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,是的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
可选地,将所述初级分类概率和所述分类修正概率进行融合,包括:
联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred:
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,取值范围为[0.5,0.8];;
最终,在测试阶段物体对<bsub,bob>构成关系三元组“主体-关系谓词-客体”的概率值为:
其中,P(sub,ob|<bsub,bob>)为物体对<bsub,bob>;pobn(sub)、pobn(ob)为目标检测网络得到的物体置信率;ppred为关系谓词的最终分类概率;代表物体对<bsub,bob>存在潜在关系可能性大小。
根据本发明的第三方面,提供一种图像视觉关系检测方法,包括物体对生成阶段和关系谓词识别阶段,其中:所述物体对生成阶段采用上述任一项物体对生成方法;所述关系谓词识别阶段采用上述任一项关系谓词识别方法;所述物体对生成阶段挖掘关系物体的位置关联性,有效去除冗余的物体对;所述关系谓词识别阶段挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
根据本发明的第四方面,提供一种图像视觉关系检测系统,包括物体对生成单元和关系谓词识别单元,其中:所述物体对生成单元采用上述任一项物体对生成方法;所述关系谓词识别单元采用上述任一项关系谓词识别方法;所述物体对生成单元挖掘关系物体的位置关联性,有效去除冗余的物体对;所述关系谓词识别单元挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
根据本发明的第五方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项物体对生成方法,或者,用于执行上述任一项所述关系谓词识别方法,或者上述的图像视觉关系检测方法。
与现有技术相比,本发明实施例至少具有以下一种有益效果:
本发明上述的物体对生成方法,通过挖掘关系物体的位置关联性,可以有效去除冗余的物体对,节约计算计算资源和提高合理物体对的召回率。
本发明上述的关系谓词识别方法,挖掘关系谓词的语义关联性,可以提高多个语义相似谓词的置信率,从而进一步提高模型在Top-N指标上的召回率。
本发明上述图像视觉关系检测方法、系统和终端,采用两阶段式的视觉关系检测框架,在物体对生成阶段挖掘位置关联性,在关系谓词识别阶段挖掘语义关联性,从而一方面减少计算量,一方面提高在Top-N指标上的召回率,能够输出合理类别集内的多个预测结果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中图像视觉关系检测中物体对生成方法流程图;
图2为本发明一实施例中图像视觉关系检测中关系谓词识别方法流程图;
图3为本发明一实施例中图像视觉关系检测方法的原理图;
图4为本发明图像视觉关系检测方法一应用实例的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
图1为本发明一实施例中图像视觉关系检测中物体对生成方法流程图。参照图1所示,图像视觉关系检测中物体对生成方法可以包括以下步骤:
S101,将原始图像进行目标检测,得到物体检测框;目标检测可以采用现有的目标检测网络实现;
S102,将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分;此处的物体对是由检测网络得到的检测目标两两组合而成,即物体对包含两个检测目标;
S103,将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对,该候选物体对更为合理。
本发明上述实施例中的物体对生成方法,通过挖掘位置关联性,可以有效去除冗余的物体对,节约计算计算资源和提高合理物体对的召回率。
作为一优选实施例,S101中对原始图像进行目标检测可以采用目标检测网络Faster RCNN网络进行,检测结果为得到物体检测框、和物体置信率pobn。在其他实施例中也可以采用其他检测网络,比如亦可选用其他如SSD,Fast RCNN等。优选采用Faster RCNN具有检测精度高且速度快好的效果。
作为另一优选实施例,S102中物体视觉信息,可以通过如下方法获取:根据得到的物体检测框,利用ROI-Align在其骨干网络的最后一层提取得到视觉特征。ROI-Align为现有网络。
相应的,物体区域特征Rvis(sub)、Rvis(ob),可以通过以下方法获得:在利用ROI-Align在其骨干网络的最后一层提取得到视觉特征后,进一步通过两层全连接层得到最终的各自物体区域特征Rvis(sub)、Rvis(ob)。
作为另一优选实施例,S102中物体对相对位置编码信息Rloc(sub,ob),可以通过以下方法获得:
根据目标检测网络(比如Faster RCNN网络)得到物体检测框,分别表示为:
bsub=(xsub,ysub,wsub,hsub)
bob=(xob,yob,wob,hob)
其中,sub,ob用于区分组成物体对的两个检测目标;(x,y)表示每个目标检测框的左上角点坐标,(w,h)表示每个目标检测框的宽与高;给定两个目标检测框,Wu、Hu和Su分别表示共同区域的宽、高和面积;Rloc(sub,ob)包括三部分:
Rloc(sub,ob)=norm[insub,inob,mu]
其中,norm表示L2归一化,insub,inob分别表示两个目标检测框相对于原始图片的位置编码;mu表示两个目标检测框之间的位置编码。
作为另一优选实施例,S102中基于位置嵌入的打分,可以采用下述方式实现:将目标检测网络(比如Faster RCNN网络)得到的物体区域特征Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob),进行位置嵌入的打分进行打分,得到代表物体对的打分值s(sub,ob)。具体的,该打分值s(sub,ob)为:
其中,表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值,Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接。该打分值s(sub,ob)与现有技术相比,考虑了位置关联性。
作为另一优选实施例,S103中,通过极大值抑制去除冗余物体对时,联合考虑物体对的打分值s(sub,ob)和Faster RCNN网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数再进一步根据参数对物体对进行排序,通过极大值抑制去除冗余物体对,筛选出更加合理的候选物体对,即生成的最终物体对。
在上述实施例的基础上,为了进一步提升图像视觉关系检测效果,在另一优选实施例中,图像视觉关系检测中物体对生成方法还可以包括训练过程:
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
图2为本发明一实施例中图像视觉关系检测中关系谓词识别方法流程图。参照图2所示,该实施例中的图像视觉关系检测中关系谓词识别方法,可以包括如下步骤:
S201,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
S202,将初级分类概率送入到基于标签关联的图模块(LGM模块),得到关系谓词的分类修正概率;
S203,将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
本发明上述实施例的关系谓词识别方法,通过挖掘关系谓词的语义关联性,可以提高多个语义相似谓词的置信率,从而进一步提高模型在Top-N指标上的召回率。基于标签关联的图模块会对初级分类概率中的每一个元素做图结构的连接,产生对应每个元素的修正值。
作为一优选实施例,上述S201中的物体对的共同区域,可以通过以下方法获取:采用目标检测网络(比如Faster RCNN网络)得到物体检测框,两两组合得到物体对共同区域的检测框;利用ROI-Align在其骨干网络的最后一层提取得到共同视觉特征,并通过两层全连接层得到共同区域特征R′vis(sub,ob)。
作为一优选实施例,上述S201中,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:将共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:
作为一优选实施例,上述物体对类别标签的语义编码Rlan(sub,ob),可以利用基于维基百科数据预训练得到的词向量,其中每个单词被映射为150~450维的向量,并经过L2归一化处理得到:
Rlan(sub,ob)=[word2vec(sub),word2vec(ob)];
其中:word2vec(sub)、word2vec(ob)为物体对<bsub,bob>中的检测目标的词向量。
作为一优选实施例,S202中,将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G,所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,对初级概率中的每一个元素做图结构的连接,得到对应每个元素的修正值;所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签其中用来当作谓词图模型GGNN的训练标签,G′为相似矩阵G的转置;相似矩阵G在训练阶段使用,测试阶段舍弃。
对于权重自适应的谓词图模型GGNN,图中的每个节点代表一类谓词,在初始化阶段,每一比特数据送入每一个对应图节点,其中|V|表示图中节点数目;连接矩阵A是自适应的,对于图中任两个节点特征hi、hj,利用系数cij表示其节点间关联性:
pgraph=softmax([o1,…,o|V|])
对于自动更新的相似矩阵G,采用渐进式更新的方式,G(0)=I代表相似矩阵被初始化为单位矩阵;
其中,v、T分别代表谓词类别及平滑程度值,gv为平滑处理后的第v个谓词类别的统计分布;
每个迭代轮次t,相似矩阵更新为:
α为平衡参数,取值范围为[0.1,0.5];
其中:N为样本数量;为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,是的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
在另一实施例中,S203中,将初级分类概率和分类修正概率进行融合,其中:联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred:
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,一般取值范围为[0.5,0.8];
参照图3所示,在另一实施例中,本发明还提供一种图像视觉关系检测方法,该方法包括物体对生成阶段和关系谓词识别阶段,这两个阶段对应采用上述图1、2所示的物体对生成方法和关系谓词识别方法来实现。
在物体对生成阶段,将原始图像送入基础目标检测模型得到物体检测框;基于检测框,将物体视觉信息和物体对的相对位置编码送入位置嵌入打分模块(Location-embedded Rating Module,LRM),得到物体对的打分值;将物体检测框和物体对的打分值送入极大值抑制(Non-Maximum Suppression,NMS),筛选出更加合理的候选物体对。如图3左侧所示。
在关系谓词识别阶段,将物体对的共同区域、语义编码和相对位置编码送入到多模态融合模块,得到关系谓词的初级分类概率;将初级分类概率送入到标签关联图模块(Label-correlation Graph Module,LGM),得到关系谓词的分类修正概率;将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率。如图3右侧所示。
本发明上述实施例的图像视觉关系检测方法,作为两阶段式的视觉关系检测框架,在第一阶段通过利用LRM模块挖掘关系物体的位置关联性,可以有效去除冗余的物体对,节约计算计算资源和提高合理物体对的召回率;在第二阶段通过利用LGM模块挖掘关系谓词的语义关联性,可以提高多个语义相似谓词的置信率,从而进一步提高模型在Top-N指标上的召回率。
具体的,针对图像关系检测等应用,提供一种基于挖掘两阶段潜在关联性的图像视觉关系检测方法的优选实施例,以下以Faster RCNN网络作为目标检测网络来进行说明。参照图4所示,包括物体对生成阶段和关系谓词识别阶段:
1、物体对生成阶段
第一步,构造物体对生成阶段网络。
本步骤中,基于Faster RCNN网络以及位置嵌入的打分模块(LRM)构造出视觉关系检测框架的物体对生成阶段网络。
将原始图像送入Faster RCNN网络得到物体检测框、物体置信率等;根据物体检测框从Faster RCNN网络提取区域特征Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)送入LRM模块,得到代表物体对的打分值s(sub,ob)。参照图4左侧所示。
第二步,筛选合理物体对。
本步骤中,联合考虑LRM模块的输出s(sub,ob)和Faster RCNN网络得到物体置信率pobn(sub)、pobn(ob),最终得到代表物体对<bsub,bob>存在潜在关系可能性大小的并根据对物体对进行排序,通过极大值抑制(NMS)去除冗余物体对,筛选出更加合理的候选物体对。参照图4中间所示。
2、关系谓词识别阶段
第一步,构造关系谓词识别阶段网络。
本步骤中,基于多模态融合模块以及标签关联的图模块(LGM)构造出视觉关系检测框架的关系谓词识别阶段网络。
第二步,关系谓词识别。
将基于Faster RCNN网络得到的物体对共同区域特征R′vis(sub,ob)、基于物体框编码的物体对相对位置编码信息Rloc(sub,ob)和物体对类别标签的语义编码Rlan(sub,o)送入多模态融合模块,得到关系谓词的初级分类概率pfusion;将初级分类概率pfusion送入LGM模块得到关系谓词的分类修正概率pgraph;融合初级分类概率pfusion和分类修正概率pgraph得到最终的关系谓词分类概率ppred。参照图4右侧所示。
物体对生成阶段采用与上述物体对生成方法对应的技术,具体如下:
将原始图片送入Faster RCNN网络中得到物体的检测框以及物体置信率,根据Faster RCNN网络得到的物体检测框,利用ROI-Align在其骨干网络的最后一层提取得到视觉特征,并通过两层全连接层得到最终的各自物体区域Rvis(sub)、Rvis(ob);根据FasterRCNN网络得到物体检测框,分别表示为:
bsub=(xsub,ysub,wsub,hsub)
bob=(xob,yob,wob,hob)
其中,sub,ob用于区分组成物体对的两个检测目标,(x,y)表示每个目标检测框的左上角点坐标,(w,h)表示每个目标检测框的宽与高。给定两个目标检测框,Wu、Hu和Su分别表示共同区域的宽、高和面积。Rloc(sub,ob)包括三部分:
Rloc(sub,ob)=norm[insub,inob,mu]
其中,norm表示L2归一化,insub,inob分别表示两个目标检测框相对于原始图片的位置编码;mu表示两个目标检测框之间的位置编码。
将Faster RCNN网络得到的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob),进行位置嵌入的打分进行打分,得到代表物体对的打分值s(sub,ob)。具体的,该打分值s(sub,ob)为:
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
参照图3右侧所示,多模态融合模块的输入包括共同物体区域R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob),并得到输出Rfusion:
其中,⊙表示点乘操作,Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得。
最终经过线性操作以及softmax函数将Rfusiion映射为关系谓词的初级分类概率pfusion。物体对类别标签的语义编码Rlan(sub,ob)是利用基于维基百科数据预训练得到的词向量,其中每个单词被映射为150~450维的向量,并经过L2归一化处理得到:
Rlan(sub,ob)=[word2vec(sub),word2vec(ob)]
其中:word2vec(sub)、word2vec(ob)为物体对<bsub,bob>中的检测目标的词向量。
将关系谓词的初级分类概率pfusion送入LGM模块中,LGM模块包括了一个权重自适应的谓词图模型(GGNN)以及一个自动更新的相似矩阵G。谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,对初级概率中的每一个元素做图结构的连接,得到对应每个元素的修正值;所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签其中用来当作谓词图模型GGNN的训练标签,G′为相似矩阵G的转置;相似矩阵G在训练阶段使用,测试阶段舍弃。
对于权重自适应的谓词图模型GGNN,图中的每个节点代表一类谓词,在初始化阶段,每一比特数据送入每一个对应图节点,其中|V|表示图中节点数目;连接矩阵A是自适应的,对于图中任两个节点特征hi、hj,利用系数cij表示其节点间关联性:
pgraph=softmax([o1,…,o|V|])
其中,O为一层的前向神经网络,h′ v表示图中第v个节点特征。
对于LGM模块中的自动更新的相似矩阵G,采用渐进式更新的方式,G(0)=I代表相似矩阵被初始化为单位矩阵。训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别的统计分布并对其进行平滑处理(soft):
其中,v、T分别代表谓词类别及平滑程度值,gv为平滑处理后的第v个谓词类别的统计分布。
每个迭代轮次t,相似矩阵更新为:
α为平衡参数,取值范围为[0.1,0.5];
其中:N为样本数量;为第n个样本的离散分布标签,根据每一轮次更新后的相似矩阵G自动生成,是的第j个元素;KL表示散度;pgraph,n表示第n个样本的图模块的输出pgraph,pgraph,j是pgraph的第j个元素。
通过联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred:
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,一般取值范围为[0.5,0.8]。
在本发明上述实例中,采用的是各个模块损失之和。两阶段关系检测模型的训练分两次进行,首先优化物体对生成阶段:
然后优化关系谓词识别阶段:
两阶段所有模块共享Faster RCNN网络的骨干网络部分。
最终,在测试阶段物体对<bsub,bob>构成关系三元组“主体-关系谓词-客体”的概率值为:
其中,P(sub,ob|<bsub,bob>)为物体对<bsub,bob>;pobn(sub)、pobn(ob)为目标检测网络得到的物体置信率;ppred为关系谓词的最终分类概率;代表物体对<bsub,bob>存在潜在关系可能性大小。
在本发明另一实施例中,对应于上述的图像视觉关系检测方法,还提供一种图像视觉关系检测系统,该系统用于实现上述的图像视觉关系检测方法。具体的,该系统包括物体对生成单元和关系谓词识别单元,其中:物体对生成单元采用上述任一项实施例中的物体对生成方法;关系谓词识别单元采用上述任一项实施例中关系谓词识别方法;物体对生成单元挖掘关系物体的位置关联性,有效去除冗余的物体对;关系谓词识别单元挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
在本发明另一实施例中,还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时可用于执行上述任一实施例中的物体对生成方法,或者,用于执行上述任一实施例中的关系谓词识别方法,或者用于执行上述任一实施例中的图像视觉关系检测方法。
本发明上述实施例的图像视觉关系检测方法和系统,通过分别在物体对生成阶段利用位置关联性实现合理物体对的筛选、在关系谓词识别阶段利用语义关联性实现预测多个合理谓词,从而实现了在整体降低计算量的情况下,提高了模型在Top-N指标上的提高,大大提升模型在视觉关系检测任务上的检测能力。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种图像视觉关系检测中物体对生成方法,其特征在于,包括:
将原始图像进行目标检测,得到物体检测框;
基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;
将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。
2.根据权利要求1所述的图像视觉关系检测中物体对生成方法,其特征在于,所述基于位置嵌入的打分,包括:
将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):
其中,表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接;
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
4.一种图像视觉关系检测中关系谓词识别方法,其特征在于,包括:
将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;
将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
6.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将所述初级分类概率送入到基于标签关联的图模块,包括:
将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G;
所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联性用连接矩阵A表示,A是自适应的,在训练过程中自动习得;在初始化阶段,每一比特数据送入对应的每一个图节点,最终得到基于标签关联的图模块的输出为
pgraph=softmax([o1,…,o|V|])
所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理,得到离散分布标签其中用来当作谓词图模型GGNN的训练标签,G′表示相似矩阵G的转置;相似矩阵G采用渐进式方式自动更新,G(0)=I代表相似矩阵被初始化为单位矩阵;训练过程中,每训练一个轮次,统计并平均训练集中属于同一谓词类别的初级概率预测pfusion,得到每个谓词类别v的统计分布并对其进行平滑处理:
其中,T代表平滑程度值,|V|表示谓词类别数目;gv表示平滑处理后的第v个谓词类别的统计分布;
每个迭代轮次t,相似矩阵更新为:
α为平衡参数,取值范围为[0.1,0.5];
7.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将所述初级分类概率和所述分类修正概率进行融合,包括:
联合考虑关系谓词的初级分类概率pfusion和关系谓词的分类修正概率pgraph,得到最终的分类概率ppred:
ppred=μpfusion+(1-μ)pgraph
其中,μ是平衡参数,取值范围为[0.5,0.8];;
最终,在测试阶段物体对<bsub,bob>构成关系三元组“主体-关系谓词-客体”的概率值为:
8.一种图像视觉关系检测方法,包括物体对生成阶段和关系谓词识别阶段,其特征在于:
所述物体对生成阶段采用权利要求1-3任一项所述物体对生成方法;
所述关系谓词识别阶段采用权利要求4-7任一项所述关系谓词识别方法;
所述物体对生成阶段挖掘关系物体的位置关联性,有效去除冗余的物体对;
所述关系谓词识别阶段挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
9.一种图像视觉关系检测系统,包括物体对生成单元和关系谓词识别单元,其特征在于,其中:
所述物体对生成单元采用权利要求1-3任一项所述物体对生成方法;
所述关系谓词识别单元采用权利要求4-7任一项所述关系谓词识别方法;
所述物体对生成单元挖掘关系物体的位置关联性,有效去除冗余的物体对;
所述关系谓词识别单元挖掘关系谓词的语义关联性,提高多个语义相似谓词的置信率。
10.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-3任一项所述的物体对生成方法,或者,用于执行权利要求4-7任一项所述的关系谓词识别方法,或者,用于执行权利要求8所述的图像视觉关系检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010264805.2A CN111626291B (zh) | 2020-04-07 | 2020-04-07 | 一种图像视觉关系检测方法、系统及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010264805.2A CN111626291B (zh) | 2020-04-07 | 2020-04-07 | 一种图像视觉关系检测方法、系统及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626291A true CN111626291A (zh) | 2020-09-04 |
CN111626291B CN111626291B (zh) | 2023-04-25 |
Family
ID=72259694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010264805.2A Active CN111626291B (zh) | 2020-04-07 | 2020-04-07 | 一种图像视觉关系检测方法、系统及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626291B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149692A (zh) * | 2020-10-16 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的视觉关系识别方法、装置及电子设备 |
CN113240033A (zh) * | 2021-05-25 | 2021-08-10 | 清华大学深圳国际研究生院 | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880692A (zh) * | 2012-09-19 | 2013-01-16 | 上海交通大学 | 一种面向检索的监控视频语义描述和检测建模方法 |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
CN108229272A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 视觉关系检测方法和装置及视觉关系检测训练方法和装置 |
CN109359564A (zh) * | 2018-09-29 | 2019-02-19 | 中山大学 | 一种图像场景图生成方法及装置 |
CN109447943A (zh) * | 2018-09-21 | 2019-03-08 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、系统及终端设备 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110378381A (zh) * | 2019-06-17 | 2019-10-25 | 华为技术有限公司 | 物体检测方法、装置和计算机存储介质 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
-
2020
- 2020-04-07 CN CN202010264805.2A patent/CN111626291B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880692A (zh) * | 2012-09-19 | 2013-01-16 | 上海交通大学 | 一种面向检索的监控视频语义描述和检测建模方法 |
CN108229272A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 视觉关系检测方法和装置及视觉关系检测训练方法和装置 |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN109447943A (zh) * | 2018-09-21 | 2019-03-08 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、系统及终端设备 |
CN109359564A (zh) * | 2018-09-29 | 2019-02-19 | 中山大学 | 一种图像场景图生成方法及装置 |
CN110378381A (zh) * | 2019-06-17 | 2019-10-25 | 华为技术有限公司 | 物体检测方法、装置和计算机存储介质 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
Non-Patent Citations (1)
Title |
---|
HAO ZHOU 等: "Visual Relationship Detection with Relative Location Mining", 《2019 ASSOCIATION FOR COMPUTING MACHINERY》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149692A (zh) * | 2020-10-16 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的视觉关系识别方法、装置及电子设备 |
CN112149692B (zh) * | 2020-10-16 | 2024-03-05 | 腾讯科技(深圳)有限公司 | 基于人工智能的视觉关系识别方法、装置及电子设备 |
CN113240033A (zh) * | 2021-05-25 | 2021-08-10 | 清华大学深圳国际研究生院 | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 |
CN113240033B (zh) * | 2021-05-25 | 2022-06-28 | 清华大学深圳国际研究生院 | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111626291B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9910829B2 (en) | Automatic document separation | |
US10956673B1 (en) | Method and system for identifying citations within regulatory content | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN111860193B (zh) | 一种基于文本的行人检索自监督视觉表示学习系统及方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
Jung et al. | Devil's on the edges: Selective quad attention for scene graph generation | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111626291A (zh) | 一种图像视觉关系检测方法、系统及终端 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN114677515A (zh) | 基于类间相似性的弱监督语义分割方法 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN114373092A (zh) | 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法 | |
CN113158667B (zh) | 基于实体关系级别注意力机制的事件检测方法 | |
JP7005045B2 (ja) | ナイーブベイズ分類器に対する限界攻撃方法 | |
CN113297387A (zh) | 一种基于nkd-gnn的图文不匹配新闻检测方法 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN116051924B (zh) | 一种图像对抗样本的分治防御方法 | |
US20150186797A1 (en) | Data reduction in nearest neighbor classification | |
CN114693997A (zh) | 基于迁移学习的图像描述生成方法、装置、设备及介质 | |
CN114168780A (zh) | 多模态数据处理方法、电子设备及存储介质 | |
CN112069800A (zh) | 基于依存句法的句子时态识别方法、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |