CN114972963A - 基于关系独立和特征适应器的关系增量场景图生成方法 - Google Patents

基于关系独立和特征适应器的关系增量场景图生成方法 Download PDF

Info

Publication number
CN114972963A
CN114972963A CN202210343339.6A CN202210343339A CN114972963A CN 114972963 A CN114972963 A CN 114972963A CN 202210343339 A CN202210343339 A CN 202210343339A CN 114972963 A CN114972963 A CN 114972963A
Authority
CN
China
Prior art keywords
detector
training
relationship
relation
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210343339.6A
Other languages
English (en)
Inventor
励雪巍
李玺
郑光聪
吉娜烨
于云龙
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210343339.6A priority Critical patent/CN114972963A/zh
Publication of CN114972963A publication Critical patent/CN114972963A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关系独立和特征适应器的关系增量场景图生成方法。该方法包括如下步骤:获取用于训练关系增量场景图生成的、带有数据集标签的训练数据集,包含基子数据集和N个增量子数据集;使用预训练的目标检测器检测出训练数据集所有图像中的所有物体,选定关系检测器;在基子数据集上使用关系独立的训练方法训练关系检测器;在N个增量子数据集依次使用关系独立的训练方法配合特征适应器训练关系检测器;使用在第N个增量子数据集上训练好的关系检测器作为最终的关系检测器。本发明充分利用前序子任务的模型,并对各个关系进行独立建模,能够更好地适应关系增量场景图生成任务。

Description

基于关系独立和特征适应器的关系增量场景图生成方法
技术领域
本发明涉及计算机视觉领域,特别地涉及一种基于关系独立和特征适应器的关系增量场景图生成方法。
背景技术
场景图生成作为一种从图像中提取结构性自然语言信息的技术,常作为一些高层视觉任务的辅助信息,如视觉问答、图像字幕等。场景图生成的目标是给定一张图像,预测图像中每个物体的分类标签和每对物体之间的关系。场景图生成的关键因素主要包括物体对之间的关系数量不确定、关系的标注数量具有长尾分布等。传统方法一般将场景图生成任务看成一个普通训练任务,即一开始就知道所有需要分类出的关系,没有考虑到实际应用场景中的场景图生成任务更多以关系增量场景出现。
现有的主流场景图生成方法为两阶段的学习框架,输入一张原始三通道颜色图像,先用目标检测器检测出图像中的所有物体,再使用关系检测器检测出物体之间的关系,最后将物体的检测结果和关系的检测结果合并生成场景图
发明内容
针对以上问题,本发明提供了一种基于关系独立和特征适应器的关系增量场景图生成方法。本发明具体采用的技术方案如下:
一种基于关系独立和特征适应器的关系增量场景图生成方法,其包括以下步骤:
S1、获取用于训练关系增量场景图生成的训练数据集;所述训练数据集包含基子数据集和N个增量子数据集,且每个子数据集均带有数据集标签;
S2、构建一个经过预训练的目标检测器并检测出训练数据集所含图像中所有物体;同时针对各子数据集构建一个共享特征提取部分的关系检测器;
S3、在基子数据集上使用关系独立的训练方法训练关系检测器;
S4、以基子数据集上训练的关系检测器为基础模型,进一步在第1个增量子数据集使用关系独立的训练方法配合特征适应器训练出适用于第1个增量子数据集的关系检测器;
S5、依次遍历其余增量子数据集将关系检测器依次在剩余N-1个增量子数据集上进行训练;训练过程中,对于满足m≥2的任意第m个增量子数据集,把第m-1个增量子数据集作为新的基子数据集,以新的基子数据集上训练的关系检测器为基础模型,按照S4中的关系独立的训练方法训练得到出适用于第m个增量子数据集的关系检测器;
S6、使用在第N个增量子数据集上训练好的关系检测器作为最终的关系检测器,用于对目标图像生成场景图。
作为优选,所述S1中的训练数据集包括基子数据集D(base)和若干增量子数据集D(1)、D(2)、……、D(N)
作为优选,所述S2包括以下子步骤:
S21、选定一个在整个场景图生成任务中共用的且经过预训练的目标检测器ObjDet,用于对任意一张输入的训练图像Itrain,通过图像特征提取网络得到相应的图像特征图
Figure BDA00035754862000000212
并通过区域候选网络得到初始目标检测结果
Figure BDA00035754862000000211
Figure BDA0003575486200000021
S22、构建一个包含特征提取部分以及分类器的关系检测器{RelDet,C},其中特征提取部分RelDet针对各个子数据集共享,而子数据集D(base)、D(1)、D(2)、……、D(N)对应的分类器C分别表示为C(base)、C(1)、C(2)、……、C(N)
作为优选,所述S3包括以下子步骤:
S31、使用预训练的目标检测器ObjDet获得基子数据集D(base)中每张训练图像
Figure BDA0003575486200000022
相应的图像特征图
Figure BDA0003575486200000023
和初始目标检测结果
Figure BDA0003575486200000024
S32、对基子数据集D(base)中每张训练图像
Figure BDA0003575486200000025
的图像特征图
Figure BDA0003575486200000026
使用关系检测器得到所有物体对的关系预测
Figure BDA0003575486200000027
并对初始目标检测结果
Figure BDA0003575486200000028
进行微调得到
Figure BDA0003575486200000029
Figure BDA00035754862000000210
其中C(base)和RelDet均为随机初始化;
S33、根据D(base)中的每张训练图像
Figure BDA0003575486200000031
的关系预测
Figure BDA0003575486200000032
中关于物体对(ni,nj)的物体分类的结果为(oi,oj),则对于该物体对(ni,nj)关于关系类别k的预测
Figure BDA00035754862000000313
通过下式计算关系独立的损失函数LBCE
Figure BDA0003575486200000033
其中yi,j,k为以该物体对(ni,nj)关于关系类别k的数据集标签,
Figure BDA0003575486200000034
有:
Figure BDA0003575486200000035
其中e为自然对数底;FreqMi,j,k表示在所有类别标签为(oi,oj)的物体对(ni,nj)中标注了关系k的物体对的比例;
基于上述损失函数LBCE更新RelDet和C(base),通过若干轮迭代训练,最终得到在D(base)上训练好的关系检测器{RelDetbase,C(base)}。
作为优选,所述S4包括以下子步骤:
S41、对于m初始值为1的第m个增量子数据集D(m),将关系检测器的特征提取部分RelDet初始化为最新训练得到的关系检测器的特征提取部分,将增量子数据集D(m)中的单张训练图像
Figure BDA0003575486200000036
输入目标检测器ObjDet,而后将目标检测器ObjDet的输出作为关系检测器的特征提取部分RelDet的输入,得到图中的目标检测结果和关系特征
Figure BDA00035754862000000312
随机初始化分类器C(m)并由分类器C(m)输出
Figure BDA0003575486200000037
的当前关系预测
Figure BDA0003575486200000038
再针对增量子数据集D(m)计算所述损失函数LBCE
S42、使用一个随机初始化的特征适应器A对特征
Figure BDA0003575486200000039
进行特征变换后,再将其通过当前已训练过的所有分类器集合
Figure BDA00035754862000000310
作为旧分类器C(old)计算分类结果:
Figure BDA00035754862000000311
其中:m=1时
Figure BDA0003575486200000041
为C(base),m≥2时
Figure BDA0003575486200000042
包含C(base)
Figure BDA0003575486200000043
S43、将增量子数据集D(m)中的单张训练图像
Figure BDA0003575486200000044
通过参数固定的关系检测器{RelDet,C(old)},得到在之前所有旧关系类上的关系分类输出
Figure BDA0003575486200000045
对于一个物体对(ni,nj)的物体分类的结果为(oi,oj),则对于该物体对(ni,nj)关于关系类别k的预测,
Figure BDA0003575486200000046
中对应的预测结果为
Figure BDA0003575486200000047
中对应的预测结果为
Figure BDA0003575486200000048
通过下式计算损失函数LBKD
Figure BDA0003575486200000049
S44、结合S41中计算得到的损失函数LBCE和S43中计算得到的损失函数LBKD,通过加权方式计算总损失函数L:
L=LBCE+λLBKD
其中λ为权重值;
以最小化所述总损失函数L为目标,基于LBCE更新RelDet和C(m),基于LBKD更新C(old)和A,通过若干轮迭代训练,得到在增量子数据集D(m)上训练好的关系检测器
Figure BDA00035754862000000410
作为优选,所述S5包括以下子步骤:
S51、对于满足m≥2的任意第m个增量子数据集D(m),以第m-1个增量子数据集作为新的基子数据集,同时以新的基子数据集上训练的关系检测器为基础模型,依次按照所述S4进行迭代训练,得到D(m)上训练好的关系检测器
Figure BDA00035754862000000411
Figure BDA00035754862000000412
S53、对于所有N个增量子数据集完成训练后,保存最后第N个增量子数据集D(N)上训练完成的关系检测器
Figure BDA00035754862000000413
为最终的关系检测器。
作为优选,所述S6包括以下子步骤:
S61、对于任意一张目标图像I*,先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图
Figure BDA0003575486200000051
和目标检测结果
Figure BDA0003575486200000052
S62、针对目标图像的图像特征图
Figure BDA0003575486200000053
和目标检测结果
Figure BDA0003575486200000054
使用关系检测器
Figure BDA0003575486200000055
得到图中物体之间的关系预测
Figure BDA0003575486200000057
和微调后的目标检测结果
Figure BDA0003575486200000056
作为优选,所述S44中,权重值λ=0.5。
本方法基于深度神经网络,充分利用前序子任务的模型,并对各个关系进行独立建模,对图像中的关系进行建模,能够更好地来适应关系增量场景图生成问题。相比于传统场景图生成方法,本发明具有如下有益效果:
首先,本发明提出了一种在关系增量场景图生成任务上可行的方案。
其次,本发明在结构上只对分类器进行了改进,使用了关系独立的分类器,即本方法可以和大多数既有关系检测器一起使用,是一种便于推广的插件式方法。
最后,本发明的关系增量场景图生成方法充分利用前序子任务的模型来获得前序子任务包含的关系类别的信息,保证当前子任务训练时维持前序子任务信息,提高了方法的最终效果。
附图说明
图1为本发明的流程示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,为本发明中一种基于关系独立和特征适应器的关系增量场景图生成方法,该方法包括以下步骤:
S1、获取用于训练关系增量场景图生成的训练数据集;所述训练数据集包含基子数据集和N个增量子数据集,且每个子数据集均带有数据集标签。
在本实施例中,所述S1中的训练数据集包括基子数据集D(base)和若干增量子数据集D(1)、D(2)、……、D(N)
当然,为了测试本发明的具体技术效果,除了上述训练数据集之外,还可以对应设置相应的测试数据集。本发明中,最终的算法目标为生成单张测试图像Itest或者其他目标图像对应的场景图G,需要预测基子数据集和所有增量子数据集所包含的关系。
S2、构建一个经过预训练的目标检测器并检测出训练数据集所含图像中所有物体;同时针对各子数据集构建一个共享特征提取部分的关系检测器。
在本实施例中,所述S2包括以下子步骤:
S21、选定一个在整个场景图生成任务中共用的且经过预训练的目标检测器ObjDet,用于对任意一张输入的训练图像Itrain,通过图像特征提取网络得到相应的图像特征图
Figure BDA0003575486200000061
并通过区域候选网络得到初始目标检测结果
Figure BDA0003575486200000062
Figure BDA0003575486200000063
S22、构建一个包含特征提取部分以及分类器的关系检测器{RelDet,C},其中特征提取部分RelDet针对各个子数据集共享,而子数据集D(base)、D(1)、D(2)、……、D(N)对应的分类器C分别表示为C(base)、C(1)、C(2)、……、C(N)
S3、在基子数据集上使用关系独立的训练方法训练关系检测器。
在本实施例中,所述S3包括以下子步骤:
S31、使用预训练的目标检测器ObjDet获得基子数据集D(base)中每张训练图像
Figure BDA0003575486200000064
相应的图像特征图
Figure BDA00035754862000000614
和初始目标检测结果
Figure BDA0003575486200000065
S32、对基子数据集D(base)中每张训练图像
Figure BDA0003575486200000066
的图像特征图
Figure BDA0003575486200000067
使用关系检测器得到所有物体对的关系预测
Figure BDA0003575486200000068
并对初始目标检测结果
Figure BDA0003575486200000069
进行微调得到
Figure BDA00035754862000000610
Figure BDA00035754862000000611
其中C(base)和RelDet均为随机初始化;
S33、根据D(base)中的每张训练图像
Figure BDA00035754862000000612
的关系预测
Figure BDA00035754862000000613
中关于物体对(ni,nj)的物体分类的结果为(oi,oj),则对于该物体对(ni,nj)关于关系类别k的预测
Figure BDA0003575486200000071
通过下式计算关系独立的损失函数LBCE
Figure BDA0003575486200000072
其中yi,j,k为以该物体对(ni,nj)关于关系类别k的数据集标签,
Figure BDA0003575486200000073
有:
Figure BDA0003575486200000074
其中e为自然对数底;FreqMi,j,k表示在所有类别标签为(oi,oj)的物体对(ni,nj)中标注了关系k的物体对的比例;
基于上述损失函数LBCE更新RelDet和C(base),通过若干轮迭代训练,最终得到在D(base)上训练好的关系检测器{RelDetbase,C(base)}。
S4、以基子数据集上训练的关系检测器为基础模型,进一步在第1个增量子数据集使用关系独立的训练方法配合特征适应器训练出适用于第1个增量子数据集的关系检测器。
在本实施例中,所述S4包括以下子步骤:
S41、对于m初始值为1的第m个增量子数据集D(m),将关系检测器的特征提取部分RelDet初始化为最新训练得到的关系检测器的特征提取部分,将增量子数据集D(m)中的单张训练图像
Figure BDA0003575486200000075
输入目标检测器ObjDet,而后将目标检测器ObjDet的输出作为关系检测器的特征提取部分RelDet的输入,得到图中的目标检测结果和关系特征
Figure BDA00035754862000000710
随机初始化分类器C(m)并由分类器C(m)输出
Figure BDA0003575486200000076
的当前关系预测
Figure BDA0003575486200000077
再针对增量子数据集D(m)计算所述损失函数LBCE(参见S33中的公式);
S42、使用一个随机初始化的特征适应器A对特征
Figure BDA0003575486200000078
进行特征变换后,再将其通过当前已训练过的所有分类器集合
Figure BDA0003575486200000079
作为旧分类器C(old)计算分类结果:
Figure BDA0003575486200000081
其中:m=1时
Figure BDA0003575486200000082
为C(base),m≥2时
Figure BDA0003575486200000083
包含C(base)
Figure BDA0003575486200000084
S43、将增量子数据集D(m)中的单张训练图像
Figure BDA0003575486200000085
通过参数固定的关系检测器{RelDet,C(old)},得到在之前所有旧关系类上的关系分类输出
Figure BDA0003575486200000086
对于一个物体对(ni,nj)的物体分类的结果为(oi,oj),则对于该物体对(ni,nj)关于关系类别k的预测,
Figure BDA0003575486200000087
中对应的预测结果为
Figure BDA0003575486200000088
中对应的预测结果为
Figure BDA0003575486200000089
通过下式计算损失函数LBKD
Figure BDA00035754862000000810
S44、结合S41中计算得到的损失函数LBCE和S43中计算得到的损失函数LBKD,通过加权方式计算总损失函数L:
L=LBCE+λLBKD
其中λ为权重值;权重值优选为λ=0.5;
以最小化所述总损失函数L为目标,基于损失项LBCE更新RelDet和C(m),基于损失项LBKD更新C(old)和A,通过若干轮迭代训练,得到在增量子数据集D(m)上训练好的关系检测器
Figure BDA00035754862000000811
需注意的是,
Figure BDA00035754862000000812
为在增量子数据集D(m)上训练好之后得到的旧分类器C(old)
S5、依次遍历其余增量子数据集将关系检测器依次在剩余N-1个增量子数据集上进行训练;训练过程中,对于满足m≥2的任意第m个增量子数据集,把第m-1个增量子数据集作为新的基子数据集,以新的基子数据集上训练的关系检测器为基础模型,按照S4中的关系独立的训练方法训练得到出适用于第m个增量子数据集的关系检测器。
在本实施例中,所述S5包括以下子步骤:
S51、对于满足m≥2的任意第m个增量子数据集D(m),以第m-1个增量子数据集作为新的基子数据集,同时以新的基子数据集上训练的关系检测器为基础模型,沿m取2、3、…、N的顺序,依次对每一个m按照所述S4进行迭代训练,得到每个D(m)上训练好的关系检测器
Figure BDA0003575486200000091
S53、对于所有N个增量子数据集完成训练后,保存最后第N个增量子数据集D(N)上训练完成的关系检测器
Figure BDA0003575486200000092
为最终的关系检测器。
S6、使用在第N个增量子数据集上训练好的关系检测器作为最终的关系检测器,用于对目标图像生成场景图。
在本实施例中,所述S6包括以下子步骤:
S61、对于任意一张目标图像I*,先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图
Figure BDA0003575486200000093
和目标检测结果
Figure BDA0003575486200000094
S62、针对目标图像的图像特征图
Figure BDA0003575486200000095
和目标检测结果
Figure BDA0003575486200000096
使用关系检测器
Figure BDA0003575486200000097
得到图中物体之间的关系预测
Figure BDA0003575486200000098
和微调后的目标检测结果
Figure BDA0003575486200000099
下面将上述S1~S6所示的一种基于关系独立和特征适应器的关系增量场景图生成方法,应用于一个具体实例中,以展示其具体技术效果。
实施例
本实施例的实现方法如前S1~S6所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在一个具有真值标注的数据集上实施:
VG数据集:该数据集包含10807张图像,有150类物体标签和50类关系标签,平均每张图38类物体标签和22类关系标签。把50类关系按照训练集的出现数量排序,前10类为基子数据集,11-20、21-30、31-40和41-50类分为为增量子数据集1、2、3和4.
本实例在VG数据集的训练集上训练,所有增量子测试集上测试,需要预测出所有50类关系。具体流程(以增量子数据集2为例)如图1所示。
本实施例在PredCls任务(输入图片和图片中物体的位置和分类,输出完整场景图)检测结果的检测精度如下表所示,主要采用平均召回率(R@K)和分类平均召回率(mR@K)两个指标进行比较。其中平均召回率(R@K)指标是指每张测试图像在给出K个候选(物体1,关系,物体2)组的情况下,涵盖了多少比例的人工标注(物体1,关系,物体2)组。分类平均召回率(mR@K)指标是指每张测试图像在给出K个候选(物体1,关系,物体2)组的情况下,先计算每个关系的平均召回率,然后所有关系的平均召回率再做一个算术平均。
方法 R@20 R@50 R@100
Motifs-Fixed 21.67 40.82 57.21
Motifs-Finetune 3.76 5.78 9.15
Motifs-LwF 8.80 15.26 22.52
Motifs-RCE+RKD 37.31 57.29 70.13
Motifs-Ours 45.04 62.35 74.05
Transformer-Fixed 21.62 38.54 54.36
Transformer-Finetune 8.27 16.10 26.30
Transformer-LwF 13.16 22.43 31.99
Transformer-RCE+RKD 42.12 60.72 73.06
Transformer-Ours 50.23 66.29 76.89
Figure BDA0003575486200000101
本实施例在SGCls任务(输入图片和图片中物体的位置,输出完整场景图)检测结果的检测精度如下表所示:
方法 R@20 R@50 R@100
Motifs-Fixed 12.45 23.34 32.56
Motifs-Finetune 2.31 3.45 5.25
Motifs-LwF 5.61 9.41 12.95
Motifs-RCE+RKD 21.65 31.36 37.34
Motifs-Ours 22.04 31.67 37.65
Transformer-Fixed 12.71 22.18 30.53
Transformer-Finetune 4.29 8.82 14.71
Transformer-LwF 8348 15.14 21.04
Transformer-RCE+RKD 23.21 32.79 39.66
Transformer-Ours 23.91 33.52 39.92
Figure BDA0003575486200000111
本实施例在SGDet任务(输入图片和图片中物体的位置,输出完整场景图)检测结果的检测精度如下表所示:
方法 R@20 R@50 R@100
Motifs-Fixed 9.39 16.31 24.25
Motifs-Finetune 1.95 3.43 5.57
Motifs-LwF 2.64 5.00 8.05
Motifs-RCE+RKD 12.48 19.75 25.21
Motifs-Ours 16.84 24.32 30.46
Transformer-Fixed 10.43 17.83 25.70
Transformer-Finetune 2.59 4.63 7.83
Transformer-LwF 4.89 8.77 12.79
Transformer-RCE+RKD 15.19 23.10 28.84
Transformer-Ours 16.52 24.01 30.20
Figure BDA0003575486200000121
如上六张表,我们分别测试了和两种不同关系检测器Motifs和Transformer的结合,在所有任务的所有指标和所有关系检测器上一种基于关系独立和特征适应器的关系增量场景图生成方法都具有显著提升。
上述实施例中,本发明的基于关系独立和特征适应器的关系增量场景图生成方法首先对分类器进行改进,使得所有关系的预测相互独立。在此基础上,使用一个额外的特征适应器并辅以前序是任务的模型帮助学习,来更好地完成关系增量场景图生成任务。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于关系独立和特征适应器的关系增量场景图生成方法。本发明对分类器进行改进,使得所有关系的预测相互独立;再使用一个额外的特征适应器并辅以前序是任务的模型帮助学习,来更好地适应关系增量场景图生成任务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于包括以下步骤:
S1、获取用于训练关系增量场景图生成的训练数据集;所述训练数据集包含基子数据集和N个增量子数据集,且每个子数据集均带有数据集标签;
S2、构建一个经过预训练的目标检测器并检测出训练数据集所含图像中所有物体;同时针对各子数据集构建一个共享特征提取部分的关系检测器;
S3、在基子数据集上使用关系独立的训练方法训练关系检测器;
S4、以基子数据集上训练的关系检测器为基础模型,进一步在第1个增量子数据集使用关系独立的训练方法配合特征适应器训练出适用于第1个增量子数据集的关系检测器;
S5、依次遍历其余增量子数据集将关系检测器依次在剩余N-1个增量子数据集上进行训练;训练过程中,对于满足m≥2的任意第m个增量子数据集,把第m-1个增量子数据集作为新的基子数据集,以新的基子数据集上训练的关系检测器为基础模型,按照S4中的关系独立的训练方法训练得到出适用于第m个增量子数据集的关系检测器;
S6、使用在第N个增量子数据集上训练好的关系检测器作为最终的关系检测器,用于对目标图像生成场景图。
2.根据权利要求1所述的一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于所述S1中的训练数据集包括基子数据集D(base)和若干增量子数据集D(1)、D(2)、……、D(N)
3.根据权利要求2所述的一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于所述S2包括以下子步骤:
S21、选定一个在整个场景图生成任务中共用的且经过预训练的目标检测器ObjDet,用于对任意一张输入的训练图像Itrain,通过图像特征提取网络得到相应的图像特征图
Figure FDA0003575486190000011
并通过区域候选网络得到初始目标检测结果
Figure FDA0003575486190000012
Figure FDA0003575486190000013
S22、构建一个包含特征提取部分以及分类器的关系检测器{RelDet,C},其中特征提取部分RelDet针对各个子数据集共享,而子数据集D(base)、D(1)、D(2)、……、D(N)对应的分类器C分别表示为C(base)、C(1)、C(2)、……、C(N)
4.根据权利要求3所述的所述的一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于所述S3包括以下子步骤:
S31、使用预训练的目标检测器ObjDet获得基子数据集D(base)中每张训练图像
Figure FDA0003575486190000021
相应的图像特征图
Figure FDA0003575486190000022
和初始目标检测结果
Figure FDA0003575486190000023
S32、对基子数据集D(base)中每张训练图像
Figure FDA0003575486190000024
的图像特征图
Figure FDA0003575486190000025
使用关系检测器得到所有物体对的关系预测
Figure FDA0003575486190000026
并对初始目标检测结果
Figure FDA0003575486190000027
进行微调得到
Figure FDA0003575486190000028
Figure FDA0003575486190000029
其中C(base)和RelDet均为随机初始化;
S33、根据D(base)中的每张训练图像
Figure FDA00035754861900000210
的关系预测
Figure FDA00035754861900000211
Figure FDA00035754861900000212
中关于物体对(ni,nj)的物体分类的结果为(oi,oj),则对于该物体对(ni,nj)关于关系类别k的预测
Figure FDA00035754861900000213
通过下式计算关系独立的损失函数LBCE
Figure FDA00035754861900000214
其中yi,j,k为以该物体对(ni,nj)关于关系类别k的数据集标签,
Figure FDA00035754861900000215
有:
Figure FDA00035754861900000216
其中e为自然对数底;FreqMi,j,k表示在所有类别标签为(oi,oj)的物体对(ni,nj)中标注了关系k的物体对的比例;
基于上述损失函数LBCE更新RelDet和C(base),通过若干轮迭代训练,最终得到在D(base)上训练好的关系检测器{RelDetbase,C(base)}。
5.根据权利要求4所述的所述的一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于所述S4包括以下子步骤:
S41、对于m初始值为1的第m个增量子数据集D(m),将关系检测器的特征提取部分RelDet初始化为最新训练得到的关系检测器的特征提取部分,将增量子数据集D(m)中的单张训练图像
Figure FDA0003575486190000031
输入目标检测器ObjDet,而后将目标检测器ObjDet的输出作为关系检测器的特征提取部分RelDet的输入,得到图中的目标检测结果和关系特征
Figure FDA00035754861900000317
随机初始化分类器C(m)并由分类器C(m)输出
Figure FDA0003575486190000032
的当前关系预测
Figure FDA0003575486190000033
再针对增量子数据集D(m)计算所述损失函数LBCE
S42、使用一个随机初始化的特征适应器A对特征
Figure FDA0003575486190000034
进行特征变换后,再将其通过当前已训练过的所有分类器集合
Figure FDA0003575486190000035
作为旧分类器C(old)计算分类结果:
Figure FDA0003575486190000036
其中:m=1时
Figure FDA0003575486190000037
为C(base),m≥2时
Figure FDA0003575486190000038
包含C(base)
Figure FDA0003575486190000039
S43、将增量子数据集D(m)中的单张训练图像
Figure FDA00035754861900000310
通过参数固定的关系检测器{RelDet,C(old)},得到在之前所有旧关系类上的关系分类输出
Figure FDA00035754861900000311
对于一个物体对(ni,nj)的物体分类的结果为(oi,oj),则对于该物体对(ni,nj)关于关系类别k的预测,
Figure FDA00035754861900000312
中对应的预测结果为
Figure FDA00035754861900000313
Figure FDA00035754861900000314
中对应的预测结果为
Figure FDA00035754861900000315
通过下式计算损失函数LBKD
Figure FDA00035754861900000316
S44、结合S41中计算得到的损失函数LBCE和S43中计算得到的损失函数LBKD,通过加权方式计算总损失函数L:
L=LBCE+λLBKD
其中λ为权重值;
以最小化所述总损失函数L为目标,基于LBCE更新RelDet和C(m),基于LBKD更新C(old)和A,通过若干轮迭代训练,得到在增量子数据集D(m)上训练好的关系检测器
Figure FDA0003575486190000041
6.根据权利要求5所述的所述的一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于所述S5包括以下子步骤:
S51、对于满足m≥2的任意第m个增量子数据集D(m),以第m-1个增量子数据集作为新的基子数据集,同时以新的基子数据集上训练的关系检测器为基础模型,依次按照所述S4进行迭代训练,得到D(m)上训练好的关系检测器
Figure FDA0003575486190000042
Figure FDA0003575486190000043
S53、对于所有N个增量子数据集完成训练后,保存最后第N个增量子数据集D(N)上训练完成的关系检测器
Figure FDA0003575486190000044
为最终的关系检测器。
7.根据权利要求6所述的所述的一种基于关系独立和特征适应器的关系增量场景图生成方法,其特征在于所述S6包括以下子步骤:
S61、对于任意一张目标图像I*,先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图
Figure FDA0003575486190000045
和目标检测结果
Figure FDA0003575486190000046
S62、针对目标图像的图像特征图
Figure FDA0003575486190000047
和目标检测结果
Figure FDA0003575486190000048
使用关系检测器
Figure FDA0003575486190000049
得到图中物体之间的关系预测
Figure FDA00035754861900000410
和微调后的目标检测结果
Figure FDA00035754861900000411
8.根据权利要求7所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于,所述S44中,权重值λ=0.5。
CN202210343339.6A 2022-03-31 2022-03-31 基于关系独立和特征适应器的关系增量场景图生成方法 Pending CN114972963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210343339.6A CN114972963A (zh) 2022-03-31 2022-03-31 基于关系独立和特征适应器的关系增量场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210343339.6A CN114972963A (zh) 2022-03-31 2022-03-31 基于关系独立和特征适应器的关系增量场景图生成方法

Publications (1)

Publication Number Publication Date
CN114972963A true CN114972963A (zh) 2022-08-30

Family

ID=82978228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210343339.6A Pending CN114972963A (zh) 2022-03-31 2022-03-31 基于关系独立和特征适应器的关系增量场景图生成方法

Country Status (1)

Country Link
CN (1) CN114972963A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512003A (zh) * 2022-11-16 2022-12-23 之江实验室 一种独立关系检测的场景图生成方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512003A (zh) * 2022-11-16 2022-12-23 之江实验室 一种独立关系检测的场景图生成方法和系统

Similar Documents

Publication Publication Date Title
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN107562784A (zh) 基于ResLCNN模型的短文本分类方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN109766469A (zh) 一种基于深度哈希学习优化的图像检索方法
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111985680B (zh) 基于胶囊网络与时序的刑事多罪名预测方法
CN115330142B (zh) 联合能力模型的训练方法、能力需求匹配方法和装置
CN106970981A (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN114972963A (zh) 基于关系独立和特征适应器的关系增量场景图生成方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
Tribhuvan et al. Applying Naïve Bayesian classifier for predicting performance of a student using WEKA
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN105787045A (zh) 一种用于可视媒体语义索引的精度增强方法
CN113869333B (zh) 基于半监督关系度量网络的图像识别方法及装置
CN115512377A (zh) 一种基于三级图像特征与图数据文本的多模态情感分析方法
CN115239967A (zh) 一种基于Trans-CSN生成对抗网络的图像生成方法及装置
Papakostas et al. Do forecasts of bankruptcy cause bankruptcy? A machine learning sensitivity analysis
CN114359568A (zh) 一种基于多粒度特征的多标签场景图生成方法
CN113032443A (zh) 用于处理数据的方法、装置、设备和计算机可读存储介质
CN112132310A (zh) 基于改进lstm的电力设备状态预估方法及装置
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理系统
CN117976198B (zh) 基于数据筛选和对抗网络的医学跨域辅助诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination