CN114359568A - 一种基于多粒度特征的多标签场景图生成方法 - Google Patents

一种基于多粒度特征的多标签场景图生成方法 Download PDF

Info

Publication number
CN114359568A
CN114359568A CN202210049814.9A CN202210049814A CN114359568A CN 114359568 A CN114359568 A CN 114359568A CN 202210049814 A CN202210049814 A CN 202210049814A CN 114359568 A CN114359568 A CN 114359568A
Authority
CN
China
Prior art keywords
relation
relationship
prediction
image
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210049814.9A
Other languages
English (en)
Inventor
励雪巍
缪佩翰
李玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210049814.9A priority Critical patent/CN114359568A/zh
Publication of CN114359568A publication Critical patent/CN114359568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多粒度特征的多标签场景图生成方法。该方法包括如下步骤:获取用于训练场景图生成的数据集;对数据集中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签。使用预训练的目标检测器,检测出数据集图像中所有物体;使用多粒度模块建立每张图像的多粒度特征,并对图像中的每个物体对构建多分类标签;利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器;最后从目标图像中得到物体和关系的预测结果,使用多标签场景图生成器转化成场景图。本发明充分利用关系类别间的联系,并用多粒度视觉特征对物体进行建模,能够更好地适应场景图生成任务。

Description

一种基于多粒度特征的多标签场景图生成方法
技术领域
本发明涉及计算机视觉领域,特别地涉及一种基于多粒度特征的多标签场景图生成方法。
背景技术
场景图生成作为一种从图像中提取结构性自然语言信息的技术,常作为一些高层视觉任务的辅助信息,如视觉问答、图像字幕等。场景图生成的目标是给定一张图像,预测图像中每个物体的分类标签和每对物体之间的关系。场景图生成的关键因素主要包括物体对之间的关系数量不确定、数据集对关系的标注不完整等。传统方法一般将场景图生成任务看成一个对关系的单标签问题,尽管一些方法在召回率上取得了一些突破,但是其没有充分考虑物体之间关系的多样性。
现有的主流场景图生成方法为两阶段的学习框架,输入一张原始三通道颜色图像,先使用目标检测器检测出图像中的所有物体,再使用关系检测器检测出物体之间的关系,最后将物体的检测结果和关系的检测结果合并生成场景图。这些方法可以生成场景图,但是对场景图中物体之间的多关系现象没有足够的考虑,限制了现行方法的效果。
发明内容
针对以上问题,本发明提供了一种基于多粒度特征的多标签场景图生成方法。本发明具体采用的技术方案如下:
一种基于多粒度特征的多标签场景图生成方法,其包括以下步骤:
S1、获取用于训练场景图生成的带有数据集标签的训练数据集;
S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签,得到物体对的最大可能关系数;
S3、使用预训练的目标检测器,检测出训练数据集的图像中所有物体,并得到初始的物体类别预测;
S4、使用多粒度模块建立每张训练图像的多粒度特征,并对图像中的每个物体对构建多分类标签;
S5、利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器,使关系检测器能够输出图像中物体之间的关系预测,并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果;
S6、针对待生成多标签场景图的目标图像,利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测,然后利用所述关系检测器输出目标图像中物体之间的关系预测结果,并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果,最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。
作为优选,所述S1中的训练数据集包括若干训练图像Itrain,每一张训练图像Itrain均具有每一个物体的物体类别标签Ogt和物体位置Bgt以及物体对的关系类别标签Pgt,整个训练数据集中含有的总关系类别数为Q。
进一步的,所述S2包括以下子步骤:
S21、对于训练数据集中的所有关系类别,分别统计训练数据集中属于每一种关系类别的物体对占比,将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系,剩余关系类别作为细粒度关系;然后遍历整个训练数据集中的所有物体对中的每一个关系类别,所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别,都作为当前遍历关系类别的共生关系类别;
S22、分别针对每一种关系类别q构建Q维向量形式的共生标签pco,共生标签pco中每一维元素分别对应一种关系类别,其中关系类别q对应的元素值为po,而关系类别q的所有共生关系类别的元素值均分剩余的(1-po),其他剩余的关系类别的元素值均为0;
S23、对于训练数据集中的所有物体对,查找到物体对上被标注的关系类别标签数量的最大值pmax
进一步的,所述S3包括以下子步骤:
S31、获取一个预训练的目标检测器ObjDet,所述目标检测器ObjDet包括图像特征提取网络和区域候选网络;
S32、对于训练数据集中每张训练图像Itrain,通过图像特征提取网络得到相应的图像特征图
Figure BDA0003473597640000031
并通过区域候选网络得到目标检测结果
Figure BDA0003473597640000032
Figure BDA0003473597640000033
其中:
Figure BDA0003473597640000034
包含物体位置预测
Figure BDA0003473597640000035
和初始物体类别预测
Figure BDA0003473597640000036
进一步的,所述S4包括以下子步骤:
S41、对于目标检测器对单张训练图像给出的特征
Figure BDA0003473597640000037
使用M个随机擦除率
Figure BDA0003473597640000038
各自生成不同粒度下的特征,共得到M个多粒度特征
Figure BDA0003473597640000039
同时将特征
Figure BDA00034735976400000310
作为图像的整体特征
Figure BDA00034735976400000311
S42、对于训练数据集中的每张训练图像Itrain中的每个物体对(ni,nj),分别构建该物体对的多分类标签pmulti,所述多分类标签pmulti为Q维向量,其中每一维元素分别对应一种关系类别,标注在该物体对上的所有关系类别对应的元素值平分总和为1的概率,而其他关系类别的元素值均为0。
进一步的,所述S5包括以下子步骤:
S51、构建关系检测器RelDet,其中每张训练图像Itrain
Figure BDA00034735976400000312
中的每一个
Figure BDA00034735976400000313
使用关系检测器RelDet得到所有物体对的关系预测
Figure BDA00034735976400000314
并对
Figure BDA00034735976400000315
中的物体类别预测
Figure BDA00034735976400000316
进行微调得到
Figure BDA00034735976400000317
Figure BDA00034735976400000318
其中:
Figure BDA00034735976400000319
中物体对(ni,nj)关于关系类别k的关系预测为
Figure BDA00034735976400000320
再将每个物体对(ni,nj)关于每一种关系类别k的全部M+1个关系预测输出
Figure BDA00034735976400000321
进行融合,得到关系检测概率结果
Figure BDA00034735976400000322
为:
Figure BDA00034735976400000323
式中λ为权重值;
将每张训练图像Itrain中的所有
Figure BDA00034735976400000324
合并,得到并输出最终的关系预测
Figure BDA00034735976400000325
同时,关系检测器RelDet经过微调后,输出最终的物体类别预测
Figure BDA00034735976400000326
S52、设置关系检测器RelDet的损失函数为:
Figure BDA0003473597640000041
其中
Figure BDA0003473597640000042
是交叉熵损失函数,
Figure BDA0003473597640000043
是带有温度参数T的KL损失函数,Pco为训练图像中共生标签pco的集合,Pmulti为训练图像中多分类标签pmulti的集合;
S53、使用SGD优化方法和反向传播算法通过损失函数
Figure BDA0003473597640000044
来训练关系检测器RelDet,直至损失函数收敛。
进一步的,所述S6包括以下子步骤:
S61、对于任意一张目标图像I*,先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图
Figure BDA0003473597640000045
和目标检测结果
Figure BDA0003473597640000046
Figure BDA0003473597640000047
包含物体位置预测
Figure BDA0003473597640000048
和初始物体类别预测
Figure BDA0003473597640000049
再针对目标图像使用关系检测器RelDet得到物体之间的关系预测
Figure BDA00034735976400000410
并微调
Figure BDA00034735976400000411
得到最终的物体类别预测
Figure BDA00034735976400000412
S62、基于多标签场景图生成器MultiGraphGen,对于目标图像中的每个物体对(ni,nj)取其的关系预测
Figure BDA00034735976400000413
中置信度最大的前pmax个关系预测作为结果,使用这pmax个关系预测结果,结合经过微调的物体类别预测
Figure BDA00034735976400000414
目标检测器输出的物体位置预测
Figure BDA00034735976400000415
生成该目标图像对应的场景图G:
Figure BDA00034735976400000416
进一步的,所述S22中,po=0.5。
进一步的,所述S41中,M=3,r1=0,r1=0.1,r2=0.2,r3=0.3。
进一步的,所述S5中,λ=0.4,α=0.5,β=0.05。
本方法基于深度神经网络,利用不同关系类之间的相互联系和每个物体的多粒度特征,对图像中的关系进行建模,能够更好地适应不同场景下的场景图生成。相比于传统场景图生成方法,本发明具有如下有益效果:
首先,本发明的场景图生成方法指出了在场景图生成物体对之间有多个关系的问题,即每个物体对之间预测的关系不止一个。
其次,本发明的场景图生成方法基于深度卷积神经网络,同时对物体特征和其多粒度特征进行建模,能够更好地表达视觉特征,提高了方法的最终效果。
最后,本发明的场景图生成方法和多数二阶段的场景图生成模型中的关系检测器都兼容,可以一起使用,是一种便于推广的插件式方法。
附图说明
图1为本发明的多标签场景图生成方法流程示意图;
图2为模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,为本发明中一种基于多粒度特征的多标签场景图生成方法的流程图,其中的模型结构示意图如图2所示。下面对该方法的具体实现步骤进行详细展开描述,该方法具体包括以下步骤:
S1、获取用于训练场景图生成的带有数据集标签的训练数据集。
在本实施例中,上述步骤S1中的训练数据集包括若干训练图像Itrain,每一张训练图像Itrain均具有每一个物体的物体类别标签Ogt和物体位置Bgt以及物体对的关系类别标签Pgt,整个训练数据集中含有的总关系类别数为Q。
当然,为了测试本发明的具体技术效果,除了上述训练数据集之外,还可以对应设置相应的测试数据集。本发明中,最终的算法目标为生成单张测试图像Itest或者其他目标图像对应的场景图G。
S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签,得到物体对的最大可能关系数。
在本实施例中,上述步骤S2包括以下子步骤:
S21、对于训练数据集中的所有关系类别,分别统计训练数据集中属于每一种关系类别的物体对占比,将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系,剩余关系类别作为细粒度关系。也就是说,需要统计整个训练数据集中所有物体对上标注的关系类别,对于任意一个关系类别均需要统计标注了这个关系类别的物体对数量占训练数据集中所有物体对的占比比例,按照这个占比比例对所有关系类别进行排序,如果排序靠前的前N个关系类别的占比比例之和超过阈值而前N-1个关系类别的占比比例之和低于阈值,则将这前N个关系类别都作为粗粒度关系,剩余的关系类别都作为细粒度关系;然后遍历整个训练数据集中的所有物体对中的每一个关系类别,将遍历过程中的每一个关系类别依次作为当前遍历类别,所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别,都作为当前遍历关系类别的共生关系类别。而且该共生关系是相互的,即一种关系类别为另一种关系类别的共生关系,则另一种关系类别也是这一种关系类别的共生关系。
S22、分别针对每一种关系类别q构建Q维向量形式的共生标签pco,共生标签pco中每一维元素分别对应一种关系类别,其中关系类别q对应的元素值为po,而关系类别q的所有共生关系类别的元素值均分剩余的(1-po),其他剩余的关系类别的元素值均为0。一般而言,可以设置po=0.5。
S23、对于训练数据集中的所有物体对,查找到物体对上被标注的关系类别标签数量的最大值pmax,该最大值pmax后续将用于多标签场景图生成器中。
S3、使用预训练的目标检测器,检测出训练数据集的图像中所有物体,并得到初始的物体类别预测。
在本实施例中,上述步骤S3包括以下子步骤:
S31、获取一个预训练的目标检测器ObjDet,所述目标检测器ObjDet包括图像特征提取网络和区域候选网络。目标检测器ObjDet的具体网络结构形式不限,只要预先经过训练后,能够实现对于目标(即图像中的物体)的准确检测即可。
S32、对于训练数据集中每张训练图像Itrain,通过图像特征提取网络得到相应的图像特征图
Figure BDA0003473597640000071
并通过区域候选网络得到目标检测结果
Figure BDA0003473597640000072
Figure BDA0003473597640000073
其中:
Figure BDA0003473597640000074
包含物体位置预测
Figure BDA0003473597640000075
和初始物体类别预测
Figure BDA0003473597640000076
S4、使用多粒度模块建立每张训练图像的多粒度特征,并对图像中的每个物体对构建多分类标签。
在本实施例中,上述步骤S4包括以下子步骤:
S41、对于目标检测器对单张训练图像给出的特征
Figure BDA0003473597640000077
使用M个随机擦除率
Figure BDA0003473597640000078
各自生成不同粒度下的特征,共得到M个多粒度特征
Figure BDA0003473597640000079
同时将特征
Figure BDA00034735976400000710
作为图像的整体特征
Figure BDA00034735976400000711
一般而言,可以设置M=3,r1=0,r1=0.1,r2=0.2,r3=0.3。
S42、对于训练数据集中的每张训练图像Itrain中的每个物体对(ni,nj),分别构建该物体对的多分类标签pmulti,所述多分类标签pmulti为Q维向量,其中每一维元素分别对应一种关系类别,标注在该物体对上的所有关系类别对应的元素值平分总和为1的概率,而其他关系类别的元素值均为0。例如,某一个物体对中一共被人工标注了4关系类别,那么在其多分类标签中这4个关系类别的标签(即元素)值都是0.25,其他(Q-4)种关系类别的标签值都为0。
S5、利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器,使关系检测器能够输出图像中物体之间的关系预测,并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果。
在本实施例中,上述步骤S5包括以下子步骤:
S51、构建关系检测器RelDet,其中每张训练图像Itrain
Figure BDA00034735976400000712
中的每一个
Figure BDA00034735976400000713
使用关系检测器RelDet得到所有物体对的关系预测
Figure BDA00034735976400000714
并对
Figure BDA00034735976400000715
中的物体类别预测
Figure BDA00034735976400000716
进行微调得到
Figure BDA00034735976400000717
Figure BDA00034735976400000718
其中:
Figure BDA00034735976400000719
中物体对(ni,nj)关于关系类别k的关系预测为
Figure BDA00034735976400000720
Figure BDA00034735976400000721
由一系列的
Figure BDA00034735976400000722
组成;
再将每个物体对(ni,nj)关于每一种关系类别k的全部M+1个关系预测输出
Figure BDA0003473597640000081
进行融合,得到关系检测概率结果
Figure BDA0003473597640000082
为:
Figure BDA0003473597640000083
式中λ为权重值,一般而言,可以设置λ=0.4;
将每张训练图像Itrain中的所有
Figure BDA0003473597640000084
合并,得到并输出最终的关系预测
Figure BDA0003473597640000085
同时,关系检测器RelDet经过微调后,输出最终的物体类别预测
Figure BDA0003473597640000086
S52、设置关系检测器RelDet的损失函数为:
Figure BDA0003473597640000087
其中
Figure BDA0003473597640000088
是交叉熵损失函数,
Figure BDA0003473597640000089
是带有温度参数T的KL损失函数,Pco为训练图像中共生标签pco的集合,Pmulti为训练图像中多分类标签pmulti的集合。一般而言,可以设置α=0.5,β=0.05;
S53、使用SGD优化方法和反向传播算法通过损失函数
Figure BDA00034735976400000810
来训练关系检测器RelDet,直至损失函数收敛。
S6、针对待生成多标签场景图的目标图像,利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测,然后利用所述关系检测器输出目标图像中物体之间的关系预测结果,并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果,最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。
在本实施例中,上述步骤S6包括以下子步骤:
S61、对于任意一张目标图像I*,先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图
Figure BDA00034735976400000811
和目标检测结果
Figure BDA00034735976400000812
Figure BDA00034735976400000813
包含物体位置预测
Figure BDA00034735976400000814
和初始物体类别预测
Figure BDA00034735976400000815
再针对目标图像使用关系检测器RelDet得到物体之间的关系预测
Figure BDA0003473597640000091
并微调
Figure BDA0003473597640000092
得到最终的物体类别预测
Figure BDA0003473597640000093
需要注意的是,此处预训练的目标检测器ObjDet、关系检测器RelDet中的具体输入、输出和内部处理方式与前述S3~S5步骤基本一致,区别仅在于将训练图像替换为目标图像,为了以示区分在训练图像对应的各输出上加上标*进行区分,记为目标图像对应的输出。
S62、基于多标签场景图生成器MultiGraphGen,对于目标图像中的每个物体对(ni,nj)取其的关系预测
Figure BDA0003473597640000094
中置信度最大的前pmax个关系预测作为结果,使用这pmax个关系预测结果,结合经过微调的物体类别预测
Figure BDA0003473597640000095
目标检测器输出的物体位置预测
Figure BDA0003473597640000096
生成该目标图像对应的场景图G,其用公式表示如下:
Figure BDA0003473597640000097
下面将上述S1~S6所示的一种基于多粒度特征的多标签场景图生成方法,应用于一个具体实例中,以展示其具体技术效果。
实施例
本实施例的实现方法如前S1~S6所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在一个具有真值标注的数据集上实施,分别为:
VG数据集:该数据集包含10807张图像,有150类物体标签和50类关系标签,平均每张图38类物体标签和22类关系标签。
本实例在VG数据集的训练集上训练,测试集上测试,具体流程如图1所示。图中,MGM是生成多粒度特征的模块,ObjDet是目标检测器,RelDet是关系检测器,pco是共生标签,pmulti是多分类标签。
本实施例在PredCls任务(输入图片和图片中物体的位置和分类,输出完整场景图)检测结果的检测精度如下表所示,主要采用平均召回率(R@K)、分类平均召回率(mR@K)以及无训练样本平均召回率(zR@K)三个指标进行比较。其中平均召回率(R@K)指标是指每张测试图像在给出K个候选(物体1,关系,物体2)组的情况下,涵盖了多少比例的人工标注(物体1,关系,物体2)组。分类平均召回率(mR@K)指标是指每张测试图像在给出K个候选(物体1,关系,物体2)组的情况下,先计算每个关系的平均召回率,然后所有关系的平均召回率再做一个算术平均。无训练样本平均召回率(zR@K)指标是指每张测试图像在给出K个候选(物体1,关系,物体2)组的情况下,仅对测试集中没有在训练集出现过的(物体1,关系,物体2)组进行评估,看有多少比例的人工标注、没有在训练集出现过的(物体1,关系,物体2)组被召回。
方法 R@20 R@50 R@100
Motifs 58.46 65.18 67.01
Motifs+OursMulti 67.19(+8.73) 81.47(+16.29) 88.56(+21.55)
IMP 54.34 61.05 63.06
IMP+OursMulti 62.62(+8.28) 77.60(+16.55) 85.13(+22.07)
Transformer 59.06 65.55 67.29
Transformer+OursMulti 67.65(+8.59) 82.12(+16.57) 89.05(+21.76)
方法 mR@20 mR@50 mR@100
Motifs 11.67 14.79 16.08
Motifs+OursMulti 21.22(+9.55) 34.31(+19.52) 44.47(+28.39)
IMP 8.85 10.97 11.77
IMP+OursMulti 16.87(+8.02) 28.42(+17.45) 38.10(+26.33)
Transformer 12.77 16.30 17.63
Transformer+OursMulti 23.27(+10.50) 38.22(+21.92) 49.56(+31.93)
方法 zR@20 zR@50 zR@100
Motifs 1.08 3.24 5.36
Motifs+OursMulti 4.01(+2.93) 13.12(+9.88) 25.74(+20.38)
IMP 12.17 17.66 20.25
IMP+OursMulti 15.39(+3.22) 28.54(+10.88) 40.12(+19.87)
Transformer 1.35 3.63 5.64
Transformer+OursMulti 6.09(+4.74) 16.83(+13.20) 30.28(+24.64)
如上三张表,我们分别测试了和三种不同关系检测器Motifs、IMP和Transformer的结合,带有+OursMulti的结果是一种基于多粒度特征的多标签场景图生成方法的最终结果,可以看到,在所有指标和所有关系检测器上一种基于多粒度特征的多标签场景图生成方法都具有显著提升。
上述实施例中,本发明的基于多粒度特征的多标签场景图生成方法首先对所有关系类别之间的联系进行建模。在此基础上,将原属于单标签分类的关系预测问题转化为多标签分类问题,并和多种基于深度神经网络建立的关系预测模型可以联合使用。最后,利用训练好的场景图生成模型来生成测试图像对应的场景图。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于多粒度特征的多标签场景图生成方法。本发明充分利用关系类别之间的联系,并采用多粒度视觉特征对物体进行建模,能够更好地适应真实的场景图生成任务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多粒度特征的多标签场景图生成方法,其特征在于包括以下步骤:
S1、获取用于训练场景图生成的带有数据集标签的训练数据集;
S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签,得到物体对的最大可能关系数;
S3、使用预训练的目标检测器,检测出训练数据集的图像中所有物体,并得到初始的物体类别预测;
S4、使用多粒度模块建立每张训练图像的多粒度特征,并对图像中的每个物体对构建多分类标签;
S5、利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器,使关系检测器能够输出图像中物体之间的关系预测,并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果;
S6、针对待生成多标签场景图的目标图像,利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测,然后利用所述关系检测器输出目标图像中物体之间的关系预测结果,并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果,最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。
2.根据权利要求1所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S1中的训练数据集包括若干训练图像Itrain,每一张训练图像Itrain均具有每一个物体的物体类别标签Ogt和物体位置Bgt以及物体对的关系类别标签Pgt,整个训练数据集中含有的总关系类别数为Q。
3.根据权利要求2所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S2包括以下子步骤:
S21、对于训练数据集中的所有关系类别,分别统计训练数据集中属于每一种关系类别的物体对占比,将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系,剩余关系类别作为细粒度关系;然后遍历整个训练数据集中的所有物体对中的每一个关系类别,所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别,都作为当前遍历关系类别的共生关系类别;
S22、分别针对每一种关系类别q构建Q维向量形式的共生标签pco,共生标签pco中每一维元素分别对应一种关系类别,其中关系类别q对应的元素值为po,而关系类别q的所有共生关系类别的元素值均分剩余的(1-po),其他剩余的关系类别的元素值均为0;
S23、对于训练数据集中的所有物体对,查找到物体对上被标注的关系类别标签数量的最大值pmax
4.根据权利要求3所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S3包括以下子步骤:
S31、获取一个预训练的目标检测器ObjDet,所述目标检测器ObjDet包括图像特征提取网络和区域候选网络;
S32、对于训练数据集中每张训练图像Itrain,通过图像特征提取网络得到相应的图像特征图
Figure FDA0003473597630000021
并通过区域候选网络得到目标检测结果
Figure FDA0003473597630000022
Figure FDA0003473597630000023
其中:
Figure FDA0003473597630000024
包含物体位置预测
Figure FDA0003473597630000025
和初始物体类别预测
Figure FDA0003473597630000026
5.根据权利要求4所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S4包括以下子步骤:
S41、对于目标检测器对单张训练图像给出的特征
Figure FDA0003473597630000027
使用M个随机擦除率
Figure FDA0003473597630000028
各自生成不同粒度下的特征,共得到M个多粒度特征
Figure FDA0003473597630000029
同时将特征
Figure FDA00034735976300000210
作为图像的整体特征
Figure FDA00034735976300000211
S42、对于训练数据集中的每张训练图像Itrain中的每个物体对(ni,nj),分别构建该物体对的多分类标签pmulti,所述多分类标签pmulti为Q维向量,其中每一维元素分别对应一种关系类别,标注在该物体对上的所有关系类别对应的元素值平分总和为1的概率,而其他关系类别的元素值均为0。
6.根据权利要求5所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S5包括以下子步骤:
S51、构建关系检测器RelDet,其中每张训练图像Itrain
Figure FDA0003473597630000031
中的每一个
Figure FDA0003473597630000032
使用关系检测器RelDet得到所有物体对的关系预测
Figure FDA0003473597630000033
并对
Figure FDA0003473597630000034
中的物体类别预测
Figure FDA0003473597630000035
进行微调得到
Figure FDA0003473597630000036
Figure FDA0003473597630000037
其中:
Figure FDA0003473597630000038
中物体对(ni,nj)关于关系类别k的关系预测为
Figure FDA0003473597630000039
再将每个物体对(ni,nj)关于每一种关系类别k的全部M+1个关系预测输出
Figure FDA00034735976300000310
进行融合,得到关系检测概率结果
Figure FDA00034735976300000311
为:
Figure FDA00034735976300000312
式中λ为权重值;
将每张训练图像Itrain中的所有
Figure FDA00034735976300000313
合并,得到并输出最终的关系预测
Figure FDA00034735976300000314
同时关系检测器RelDet经过微调后,输出最终的物体类别预测
Figure FDA00034735976300000315
S52、设置关系检测器RelDet的损失函数为:
Figure FDA00034735976300000316
其中
Figure FDA00034735976300000317
是交叉熵损失函数,
Figure FDA00034735976300000318
是带有温度参数T的KL损失函数,Pco为训练图像中共生标签pco的集合,Pmulti为训练图像中多分类标签pmulti的集合;
S53、使用SGD优化方法和反向传播算法通过损失函数
Figure FDA00034735976300000319
来训练关系检测器RelDet,直至损失函数收敛。
7.根据权利要求6所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S6包括以下子步骤:
S61、对于任意一张目标图像I*,先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图
Figure FDA0003473597630000041
和目标检测结果
Figure FDA0003473597630000042
包含物体位置预测
Figure FDA0003473597630000043
和初始物体类别预测
Figure FDA0003473597630000044
再针对目标图像使用关系检测器RelDet得到物体之间的关系预测
Figure FDA0003473597630000045
并微调
Figure FDA0003473597630000046
得到最终的物体类别预测
Figure FDA0003473597630000047
S62、基于多标签场景图生成器MultiGraphGen,对于目标图像中的每个物体对(ni,nj)取其的关系预测
Figure FDA0003473597630000048
中置信度最大的前pmax个关系预测作为结果,使用这pmax个关系预测结果,结合经过微调的物体类别预测
Figure FDA0003473597630000049
目标检测器输出的物体位置预测
Figure FDA00034735976300000410
生成该目标图像对应的场景图G:
Figure FDA00034735976300000411
8.根据权利要求7所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于,所述S22中,po=0.5。
9.根据权利要求7所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于,所述S41中,M=3,r1=0,r1=0.1,r2=0.2,r3=0.3。
10.根据权利要求7所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于,所述S5中,λ=0.4,α=0.5,β=0.05。
CN202210049814.9A 2022-01-17 2022-01-17 一种基于多粒度特征的多标签场景图生成方法 Pending CN114359568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210049814.9A CN114359568A (zh) 2022-01-17 2022-01-17 一种基于多粒度特征的多标签场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210049814.9A CN114359568A (zh) 2022-01-17 2022-01-17 一种基于多粒度特征的多标签场景图生成方法

Publications (1)

Publication Number Publication Date
CN114359568A true CN114359568A (zh) 2022-04-15

Family

ID=81090897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210049814.9A Pending CN114359568A (zh) 2022-01-17 2022-01-17 一种基于多粒度特征的多标签场景图生成方法

Country Status (1)

Country Link
CN (1) CN114359568A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842248A (zh) * 2022-04-22 2022-08-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842248A (zh) * 2022-04-22 2022-08-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统
CN114842248B (zh) * 2022-04-22 2024-02-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN112633382B (zh) 一种基于互近邻的少样本图像分类方法及系统
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN102324038A (zh) 一种基于数字图像的植物种类识别方法
CN102156885A (zh) 基于级联式码本生成的图像分类方法
CN115019104A (zh) 基于多源域自注意力的小样本遥感图像分类方法及系统
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN114898158A (zh) 基于多尺度注意力耦合机制的小样本交通异常图像采集方法及系统
CN115131747A (zh) 基于知识蒸馏的输电通道工程车辆目标检测方法及系统
CN114898136B (zh) 一种基于特征自适应的小样本图像分类方法
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
CN114359568A (zh) 一种基于多粒度特征的多标签场景图生成方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN110046595A (zh) 一种基于级联式多尺度的密集人脸检测方法
CN113536952A (zh) 一种基于动作捕捉的注意力网络的视频问答方法
CN111460817A (zh) 一种刑事法律文书相关法条的推荐方法和系统
CN106095811A (zh) 一种基于最优编码的监督离散哈希的图像检索方法
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
CN115272688A (zh) 一种基于元特征的小样本学习图像分类方法
CN114627455A (zh) 一种输电线路缺销螺栓弱监督检测方法
CN110427973B (zh) 一种面向歧义标注样本的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination