CN114972963A

CN114972963A - 基于关系独立和特征适应器的关系增量场景图生成方法

Info

Publication number: CN114972963A
Application number: CN202210343339.6A
Authority: CN
Inventors: 励雪巍; 李玺; 郑光聪; 吉娜烨; 于云龙; 王健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-30
Anticipated expiration: 2042-03-31
Also published as: CN114972963B

Abstract

本发明公开了一种基于关系独立和特征适应器的关系增量场景图生成方法。该方法包括如下步骤：获取用于训练关系增量场景图生成的、带有数据集标签的训练数据集，包含基子数据集和N个增量子数据集；使用预训练的目标检测器检测出训练数据集所有图像中的所有物体，选定关系检测器；在基子数据集上使用关系独立的训练方法训练关系检测器；在N个增量子数据集依次使用关系独立的训练方法配合特征适应器训练关系检测器；使用在第N个增量子数据集上训练好的关系检测器作为最终的关系检测器。本发明充分利用前序子任务的模型，并对各个关系进行独立建模，能够更好地适应关系增量场景图生成任务。

Description

基于关系独立和特征适应器的关系增量场景图生成方法

技术领域

本发明涉及计算机视觉领域，特别地涉及一种基于关系独立和特征适应器的关系增量场景图生成方法。

背景技术

场景图生成作为一种从图像中提取结构性自然语言信息的技术，常作为一些高层视觉任务的辅助信息，如视觉问答、图像字幕等。场景图生成的目标是给定一张图像，预测图像中每个物体的分类标签和每对物体之间的关系。场景图生成的关键因素主要包括物体对之间的关系数量不确定、关系的标注数量具有长尾分布等。传统方法一般将场景图生成任务看成一个普通训练任务，即一开始就知道所有需要分类出的关系，没有考虑到实际应用场景中的场景图生成任务更多以关系增量场景出现。

现有的主流场景图生成方法为两阶段的学习框架，输入一张原始三通道颜色图像，先用目标检测器检测出图像中的所有物体，再使用关系检测器检测出物体之间的关系，最后将物体的检测结果和关系的检测结果合并生成场景图

发明内容

针对以上问题，本发明提供了一种基于关系独立和特征适应器的关系增量场景图生成方法。本发明具体采用的技术方案如下：

一种基于关系独立和特征适应器的关系增量场景图生成方法，其包括以下步骤：

S1、获取用于训练关系增量场景图生成的训练数据集；所述训练数据集包含基子数据集和N个增量子数据集，且每个子数据集均带有数据集标签；

S2、构建一个经过预训练的目标检测器并检测出训练数据集所含图像中所有物体；同时针对各子数据集构建一个共享特征提取部分的关系检测器；

S3、在基子数据集上使用关系独立的训练方法训练关系检测器；

S4、以基子数据集上训练的关系检测器为基础模型，进一步在第1个增量子数据集使用关系独立的训练方法配合特征适应器训练出适用于第1个增量子数据集的关系检测器；

S5、依次遍历其余增量子数据集将关系检测器依次在剩余N-1个增量子数据集上进行训练；训练过程中，对于满足m≥2的任意第m个增量子数据集，把第m-1个增量子数据集作为新的基子数据集，以新的基子数据集上训练的关系检测器为基础模型，按照S4中的关系独立的训练方法训练得到出适用于第m个增量子数据集的关系检测器；

S6、使用在第N个增量子数据集上训练好的关系检测器作为最终的关系检测器，用于对目标图像生成场景图。

作为优选，所述S1中的训练数据集包括基子数据集D^(base)和若干增量子数据集D⁽¹⁾、D⁽²⁾、……、D^(N)。

作为优选，所述S2包括以下子步骤：

S21、选定一个在整个场景图生成任务中共用的且经过预训练的目标检测器ObjDet，用于对任意一张输入的训练图像I_train，通过图像特征提取网络得到相应的图像特征图

并通过区域候选网络得到初始目标检测结果

S22、构建一个包含特征提取部分以及分类器的关系检测器{RelDet，C}，其中特征提取部分RelDet针对各个子数据集共享，而子数据集D^(base)、D⁽¹⁾、D⁽²⁾、……、D^(N)对应的分类器C分别表示为C^(base)、C⁽¹⁾、C⁽²⁾、……、C^(N)。

作为优选，所述S3包括以下子步骤：

S31、使用预训练的目标检测器ObjDet获得基子数据集D^(base)中每张训练图像

相应的图像特征图

和初始目标检测结果

S32、对基子数据集D(base)中每张训练图像

的图像特征图

使用关系检测器得到所有物体对的关系预测

并对初始目标检测结果

进行微调得到

其中C^(base)和RelDet均为随机初始化；

S33、根据D^(base)中的每张训练图像

的关系预测

中关于物体对(n_i，n_j)的物体分类的结果为(o_i，o_j)，则对于该物体对(n_i，n_j)关于关系类别k的预测

通过下式计算关系独立的损失函数L_BCE：

其中y_i，j，k为以该物体对(n_i，n_j)关于关系类别k的数据集标签，

有：

其中e为自然对数底；FreqM_i，j，k表示在所有类别标签为(o_i，o_j)的物体对(n_i，n_j)中标注了关系k的物体对的比例；

基于上述损失函数L_BCE更新RelDet和C^(base)，通过若干轮迭代训练，最终得到在D^(base)上训练好的关系检测器{RelDet_base，C^(base)}。

作为优选，所述S4包括以下子步骤：

S41、对于m初始值为1的第m个增量子数据集D^(m)，将关系检测器的特征提取部分RelDet初始化为最新训练得到的关系检测器的特征提取部分，将增量子数据集D^(m)中的单张训练图像

输入目标检测器ObjDet，而后将目标检测器ObjDet的输出作为关系检测器的特征提取部分RelDet的输入，得到图中的目标检测结果和关系特征

随机初始化分类器C^(m)并由分类器C^(m)输出

的当前关系预测

再针对增量子数据集D^(m)计算所述损失函数L_BCE；

S42、使用一个随机初始化的特征适应器A对特征

进行特征变换后，再将其通过当前已训练过的所有分类器集合

作为旧分类器C^(old)计算分类结果：

其中：m＝1时

为C^(base)，m≥2时

包含C^(base)和

S43、将增量子数据集D^(m)中的单张训练图像

通过参数固定的关系检测器{RelDet，C^(old)}，得到在之前所有旧关系类上的关系分类输出

对于一个物体对(n_i，n_j)的物体分类的结果为(o_i，o_j)，则对于该物体对(n_i，n_j)关于关系类别k的预测，

中对应的预测结果为

中对应的预测结果为

通过下式计算损失函数L_BKD：

S44、结合S41中计算得到的损失函数L_BCE和S43中计算得到的损失函数L_BKD，通过加权方式计算总损失函数L：

L＝L_BCE+λL_BKD，

其中λ为权重值；

以最小化所述总损失函数L为目标，基于L_BCE更新RelDet和C^(m)，基于L_BKD更新C^(old)和A，通过若干轮迭代训练，得到在增量子数据集D^(m)上训练好的关系检测器

作为优选，所述S5包括以下子步骤：

S51、对于满足m≥2的任意第m个增量子数据集D^(m)，以第m-1个增量子数据集作为新的基子数据集，同时以新的基子数据集上训练的关系检测器为基础模型，依次按照所述S4进行迭代训练，得到D^(m)上训练好的关系检测器

S53、对于所有N个增量子数据集完成训练后，保存最后第N个增量子数据集D^(N)上训练完成的关系检测器

为最终的关系检测器。

作为优选，所述S6包括以下子步骤：

S61、对于任意一张目标图像I^*，先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图

和目标检测结果

S62、针对目标图像的图像特征图

和目标检测结果

使用关系检测器

得到图中物体之间的关系预测

和微调后的目标检测结果

作为优选，所述S44中，权重值λ＝0.5。

本方法基于深度神经网络，充分利用前序子任务的模型，并对各个关系进行独立建模，对图像中的关系进行建模，能够更好地来适应关系增量场景图生成问题。相比于传统场景图生成方法，本发明具有如下有益效果：

首先，本发明提出了一种在关系增量场景图生成任务上可行的方案。

其次，本发明在结构上只对分类器进行了改进，使用了关系独立的分类器，即本方法可以和大多数既有关系检测器一起使用，是一种便于推广的插件式方法。

最后，本发明的关系增量场景图生成方法充分利用前序子任务的模型来获得前序子任务包含的关系类别的信息，保证当前子任务训练时维持前序子任务信息，提高了方法的最终效果。

附图说明

图1为本发明的流程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，为本发明中一种基于关系独立和特征适应器的关系增量场景图生成方法，该方法包括以下步骤：

S1、获取用于训练关系增量场景图生成的训练数据集；所述训练数据集包含基子数据集和N个增量子数据集，且每个子数据集均带有数据集标签。

在本实施例中，所述S1中的训练数据集包括基子数据集D^(base)和若干增量子数据集D⁽¹⁾、D⁽²⁾、……、D^(N)。

当然，为了测试本发明的具体技术效果，除了上述训练数据集之外，还可以对应设置相应的测试数据集。本发明中，最终的算法目标为生成单张测试图像I_test或者其他目标图像对应的场景图G，需要预测基子数据集和所有增量子数据集所包含的关系。

S2、构建一个经过预训练的目标检测器并检测出训练数据集所含图像中所有物体；同时针对各子数据集构建一个共享特征提取部分的关系检测器。

在本实施例中，所述S2包括以下子步骤：

并通过区域候选网络得到初始目标检测结果

S3、在基子数据集上使用关系独立的训练方法训练关系检测器。

在本实施例中，所述S3包括以下子步骤：

相应的图像特征图

和初始目标检测结果

S32、对基子数据集D^(base)中每张训练图像

的图像特征图

使用关系检测器得到所有物体对的关系预测

并对初始目标检测结果

进行微调得到

其中C^(base)和RelDet均为随机初始化；

S33、根据D^(base)中的每张训练图像

的关系预测

通过下式计算关系独立的损失函数L_BCE：

有：

S4、以基子数据集上训练的关系检测器为基础模型，进一步在第1个增量子数据集使用关系独立的训练方法配合特征适应器训练出适用于第1个增量子数据集的关系检测器。

在本实施例中，所述S4包括以下子步骤：

随机初始化分类器C^(m)并由分类器C^(m)输出

的当前关系预测

再针对增量子数据集D^(m)计算所述损失函数L_BCE(参见S33中的公式)；

S42、使用一个随机初始化的特征适应器A对特征

作为旧分类器C^(old)计算分类结果：

其中：m＝1时

为C^(base)，m≥2时

包含C^(base)和

S43、将增量子数据集D^(m)中的单张训练图像

中对应的预测结果为

中对应的预测结果为

通过下式计算损失函数L_BKD：

L＝L_BCE+λL_BKD，

其中λ为权重值；权重值优选为λ＝0.5；

以最小化所述总损失函数L为目标，基于损失项L_BCE更新RelDet和C^(m)，基于损失项L_BKD更新C^(old)和A，通过若干轮迭代训练，得到在增量子数据集D^(m)上训练好的关系检测器

需注意的是，

为在增量子数据集D^(m)上训练好之后得到的旧分类器C^(old)。

S5、依次遍历其余增量子数据集将关系检测器依次在剩余N-1个增量子数据集上进行训练；训练过程中，对于满足m≥2的任意第m个增量子数据集，把第m-1个增量子数据集作为新的基子数据集，以新的基子数据集上训练的关系检测器为基础模型，按照S4中的关系独立的训练方法训练得到出适用于第m个增量子数据集的关系检测器。

在本实施例中，所述S5包括以下子步骤：

S51、对于满足m≥2的任意第m个增量子数据集D^(m)，以第m-1个增量子数据集作为新的基子数据集，同时以新的基子数据集上训练的关系检测器为基础模型，沿m取2、3、…、N的顺序，依次对每一个m按照所述S4进行迭代训练，得到每个D^(m)上训练好的关系检测器

为最终的关系检测器。

在本实施例中，所述S6包括以下子步骤：

和目标检测结果

S62、针对目标图像的图像特征图

和目标检测结果

使用关系检测器

得到图中物体之间的关系预测

和微调后的目标检测结果

下面将上述S1～S6所示的一种基于关系独立和特征适应器的关系增量场景图生成方法，应用于一个具体实例中，以展示其具体技术效果。

实施例

本实施例的实现方法如前S1～S6所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在一个具有真值标注的数据集上实施：

VG数据集：该数据集包含10807张图像，有150类物体标签和50类关系标签，平均每张图38类物体标签和22类关系标签。把50类关系按照训练集的出现数量排序，前10类为基子数据集，11-20、21-30、31-40和41-50类分为为增量子数据集1、2、3和4.

本实例在VG数据集的训练集上训练，所有增量子测试集上测试，需要预测出所有50类关系。具体流程(以增量子数据集2为例)如图1所示。

本实施例在PredCls任务(输入图片和图片中物体的位置和分类，输出完整场景图)检测结果的检测精度如下表所示，主要采用平均召回率(R@K)和分类平均召回率(mR@K)两个指标进行比较。其中平均召回率(R@K)指标是指每张测试图像在给出K个候选(物体1，关系，物体2)组的情况下，涵盖了多少比例的人工标注(物体1，关系，物体2)组。分类平均召回率(mR@K)指标是指每张测试图像在给出K个候选(物体1，关系，物体2)组的情况下，先计算每个关系的平均召回率，然后所有关系的平均召回率再做一个算术平均。

方法	R@20	R@50	R@100
				Motifs-Fixed	21.67	40.82	57.21
Motifs-Finetune	3.76	5.78	9.15
				Motifs-LwF	8.80	15.26	22.52
Motifs-RCE+RKD	37.31	57.29	70.13
				Motifs-Ours	45.04	62.35	74.05
Transformer-Fixed	21.62	38.54	54.36
				Transformer-Finetune	8.27	16.10	26.30
Transformer-LwF	13.16	22.43	31.99
				Transformer-RCE+RKD	42.12	60.72	73.06
Transformer-Ours	50.23	66.29	76.89

本实施例在SGCls任务(输入图片和图片中物体的位置，输出完整场景图)检测结果的检测精度如下表所示：

方法	R@20	R@50	R@100
				Motifs-Fixed	12.45	23.34	32.56
Motifs-Finetune	2.31	3.45	5.25
				Motifs-LwF	5.61	9.41	12.95
Motifs-RCE+RKD	21.65	31.36	37.34
				Motifs-Ours	22.04	31.67	37.65
Transformer-Fixed	12.71	22.18	30.53
				Transformer-Finetune	4.29	8.82	14.71
Transformer-LwF	8348	15.14	21.04
				Transformer-RCE+RKD	23.21	32.79	39.66
Transformer-Ours	23.91	33.52	39.92

本实施例在SGDet任务(输入图片和图片中物体的位置，输出完整场景图)检测结果的检测精度如下表所示：

方法	R@20	R@50	R@100
				Motifs-Fixed	9.39	16.31	24.25
Motifs-Finetune	1.95	3.43	5.57
				Motifs-LwF	2.64	5.00	8.05
Motifs-RCE+RKD	12.48	19.75	25.21
				Motifs-Ours	16.84	24.32	30.46
Transformer-Fixed	10.43	17.83	25.70
				Transformer-Finetune	2.59	4.63	7.83
Transformer-LwF	4.89	8.77	12.79
				Transformer-RCE+RKD	15.19	23.10	28.84
Transformer-Ours	16.52	24.01	30.20

如上六张表，我们分别测试了和两种不同关系检测器Motifs和Transformer的结合，在所有任务的所有指标和所有关系检测器上一种基于关系独立和特征适应器的关系增量场景图生成方法都具有显著提升。

上述实施例中，本发明的基于关系独立和特征适应器的关系增量场景图生成方法首先对分类器进行改进，使得所有关系的预测相互独立。在此基础上，使用一个额外的特征适应器并辅以前序是任务的模型帮助学习，来更好地完成关系增量场景图生成任务。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种基于关系独立和特征适应器的关系增量场景图生成方法。本发明对分类器进行改进，使得所有关系的预测相互独立；再使用一个额外的特征适应器并辅以前序是任务的模型帮助学习，来更好地适应关系增量场景图生成任务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。