CN114359568A

CN114359568A - 一种基于多粒度特征的多标签场景图生成方法

Info

Publication number: CN114359568A
Application number: CN202210049814.9A
Authority: CN
Inventors: 励雪巍; 缪佩翰; 李玺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-15

Abstract

本发明公开了一种基于多粒度特征的多标签场景图生成方法。该方法包括如下步骤：获取用于训练场景图生成的数据集；对数据集中的所有关系类别进行粗细粒度分类和统计，得到每个关系类别的所有共生关系并构建每个关系类别的共生标签。使用预训练的目标检测器，检测出数据集图像中所有物体；使用多粒度模块建立每张图像的多粒度特征，并对图像中的每个物体对构建多分类标签；利用多粒度特征作为输入，数据集标签、多分类标签、共生标签作为监督，训练关系检测器；最后从目标图像中得到物体和关系的预测结果，使用多标签场景图生成器转化成场景图。本发明充分利用关系类别间的联系，并用多粒度视觉特征对物体进行建模，能够更好地适应场景图生成任务。

Description

一种基于多粒度特征的多标签场景图生成方法

技术领域

本发明涉及计算机视觉领域，特别地涉及一种基于多粒度特征的多标签场景图生成方法。

背景技术

场景图生成作为一种从图像中提取结构性自然语言信息的技术，常作为一些高层视觉任务的辅助信息，如视觉问答、图像字幕等。场景图生成的目标是给定一张图像，预测图像中每个物体的分类标签和每对物体之间的关系。场景图生成的关键因素主要包括物体对之间的关系数量不确定、数据集对关系的标注不完整等。传统方法一般将场景图生成任务看成一个对关系的单标签问题，尽管一些方法在召回率上取得了一些突破，但是其没有充分考虑物体之间关系的多样性。

现有的主流场景图生成方法为两阶段的学习框架，输入一张原始三通道颜色图像，先使用目标检测器检测出图像中的所有物体，再使用关系检测器检测出物体之间的关系，最后将物体的检测结果和关系的检测结果合并生成场景图。这些方法可以生成场景图，但是对场景图中物体之间的多关系现象没有足够的考虑，限制了现行方法的效果。

发明内容

针对以上问题，本发明提供了一种基于多粒度特征的多标签场景图生成方法。本发明具体采用的技术方案如下：

一种基于多粒度特征的多标签场景图生成方法，其包括以下步骤：

S1、获取用于训练场景图生成的带有数据集标签的训练数据集；

S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计，得到每个关系类别的所有共生关系并构建每个关系类别的共生标签，得到物体对的最大可能关系数；

S3、使用预训练的目标检测器，检测出训练数据集的图像中所有物体，并得到初始的物体类别预测；

S4、使用多粒度模块建立每张训练图像的多粒度特征，并对图像中的每个物体对构建多分类标签；

S5、利用多粒度特征作为输入，数据集标签、多分类标签、共生标签作为监督，训练关系检测器，使关系检测器能够输出图像中物体之间的关系预测，并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果；

S6、针对待生成多标签场景图的目标图像，利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测，然后利用所述关系检测器输出目标图像中物体之间的关系预测结果，并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果，最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。

作为优选，所述S1中的训练数据集包括若干训练图像I_train，每一张训练图像I_train均具有每一个物体的物体类别标签O_gt和物体位置B_gt以及物体对的关系类别标签P_gt，整个训练数据集中含有的总关系类别数为Q。

进一步的，所述S2包括以下子步骤：

S21、对于训练数据集中的所有关系类别，分别统计训练数据集中属于每一种关系类别的物体对占比，将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系，剩余关系类别作为细粒度关系；然后遍历整个训练数据集中的所有物体对中的每一个关系类别，所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别，都作为当前遍历关系类别的共生关系类别；

S22、分别针对每一种关系类别q构建Q维向量形式的共生标签p_co，共生标签p_co中每一维元素分别对应一种关系类别，其中关系类别q对应的元素值为p_o，而关系类别q的所有共生关系类别的元素值均分剩余的(1-p_o)，其他剩余的关系类别的元素值均为0；

S23、对于训练数据集中的所有物体对，查找到物体对上被标注的关系类别标签数量的最大值p_max。

进一步的，所述S3包括以下子步骤：

S31、获取一个预训练的目标检测器ObjDet，所述目标检测器ObjDet包括图像特征提取网络和区域候选网络；

S32、对于训练数据集中每张训练图像I_train，通过图像特征提取网络得到相应的图像特征图

并通过区域候选网络得到目标检测结果

其中：

包含物体位置预测

和初始物体类别预测

进一步的，所述S4包括以下子步骤：

S41、对于目标检测器对单张训练图像给出的特征

使用M个随机擦除率

各自生成不同粒度下的特征，共得到M个多粒度特征

同时将特征

作为图像的整体特征

S42、对于训练数据集中的每张训练图像I_train中的每个物体对(n_i,n_j)，分别构建该物体对的多分类标签p_multi，所述多分类标签p_multi为Q维向量，其中每一维元素分别对应一种关系类别，标注在该物体对上的所有关系类别对应的元素值平分总和为1的概率，而其他关系类别的元素值均为0。

进一步的，所述S5包括以下子步骤：

S51、构建关系检测器RelDet，其中每张训练图像I_train的

中的每一个

使用关系检测器RelDet得到所有物体对的关系预测

并对

中的物体类别预测

进行微调得到

其中：

中物体对(n_i,n_j)关于关系类别k的关系预测为

再将每个物体对(n_i,n_j)关于每一种关系类别k的全部M+1个关系预测输出

进行融合，得到关系检测概率结果

为：

式中λ为权重值；

将每张训练图像I_train中的所有

合并，得到并输出最终的关系预测

同时，关系检测器RelDet经过微调后，输出最终的物体类别预测

S52、设置关系检测器RelDet的损失函数为：

其中

是交叉熵损失函数，

是带有温度参数T的KL损失函数，P_co为训练图像中共生标签p_co的集合，P_multi为训练图像中多分类标签p_multi的集合；

S53、使用SGD优化方法和反向传播算法通过损失函数

来训练关系检测器RelDet，直至损失函数收敛。

进一步的，所述S6包括以下子步骤：

S61、对于任意一张目标图像I^*，先使用预训练的目标检测器ObjDet提取目标图像中的图像特征图

和目标检测结果

包含物体位置预测

和初始物体类别预测

再针对目标图像使用关系检测器RelDet得到物体之间的关系预测

并微调

得到最终的物体类别预测

S62、基于多标签场景图生成器MultiGraphGen，对于目标图像中的每个物体对(n_i,n_j)取其的关系预测

中置信度最大的前p_max个关系预测作为结果，使用这p_max个关系预测结果，结合经过微调的物体类别预测

目标检测器输出的物体位置预测

生成该目标图像对应的场景图G：

进一步的，所述S22中，p_o＝0.5。

进一步的，所述S41中，M＝3，r₁＝0，r₁＝0.1，r₂＝0.2，r₃＝0.3。

进一步的，所述S5中，λ＝0.4，α＝0.5，β＝0.05。

本方法基于深度神经网络，利用不同关系类之间的相互联系和每个物体的多粒度特征，对图像中的关系进行建模，能够更好地适应不同场景下的场景图生成。相比于传统场景图生成方法，本发明具有如下有益效果：

首先，本发明的场景图生成方法指出了在场景图生成物体对之间有多个关系的问题，即每个物体对之间预测的关系不止一个。

其次，本发明的场景图生成方法基于深度卷积神经网络，同时对物体特征和其多粒度特征进行建模，能够更好地表达视觉特征，提高了方法的最终效果。

最后，本发明的场景图生成方法和多数二阶段的场景图生成模型中的关系检测器都兼容，可以一起使用，是一种便于推广的插件式方法。

附图说明

图1为本发明的多标签场景图生成方法流程示意图；

图2为模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，为本发明中一种基于多粒度特征的多标签场景图生成方法的流程图，其中的模型结构示意图如图2所示。下面对该方法的具体实现步骤进行详细展开描述，该方法具体包括以下步骤：

S1、获取用于训练场景图生成的带有数据集标签的训练数据集。

在本实施例中，上述步骤S1中的训练数据集包括若干训练图像I_train，每一张训练图像I_train均具有每一个物体的物体类别标签O_gt和物体位置B_gt以及物体对的关系类别标签P_gt，整个训练数据集中含有的总关系类别数为Q。

当然，为了测试本发明的具体技术效果，除了上述训练数据集之外，还可以对应设置相应的测试数据集。本发明中，最终的算法目标为生成单张测试图像I_test或者其他目标图像对应的场景图G。

S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计，得到每个关系类别的所有共生关系并构建每个关系类别的共生标签，得到物体对的最大可能关系数。

在本实施例中，上述步骤S2包括以下子步骤：

S21、对于训练数据集中的所有关系类别，分别统计训练数据集中属于每一种关系类别的物体对占比，将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系，剩余关系类别作为细粒度关系。也就是说，需要统计整个训练数据集中所有物体对上标注的关系类别，对于任意一个关系类别均需要统计标注了这个关系类别的物体对数量占训练数据集中所有物体对的占比比例，按照这个占比比例对所有关系类别进行排序，如果排序靠前的前N个关系类别的占比比例之和超过阈值而前N-1个关系类别的占比比例之和低于阈值，则将这前N个关系类别都作为粗粒度关系，剩余的关系类别都作为细粒度关系；然后遍历整个训练数据集中的所有物体对中的每一个关系类别，将遍历过程中的每一个关系类别依次作为当前遍历类别，所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别，都作为当前遍历关系类别的共生关系类别。而且该共生关系是相互的，即一种关系类别为另一种关系类别的共生关系，则另一种关系类别也是这一种关系类别的共生关系。

S22、分别针对每一种关系类别q构建Q维向量形式的共生标签p_co，共生标签p_co中每一维元素分别对应一种关系类别，其中关系类别q对应的元素值为p_o，而关系类别q的所有共生关系类别的元素值均分剩余的(1-p_o)，其他剩余的关系类别的元素值均为0。一般而言，可以设置p_o＝0.5。

S23、对于训练数据集中的所有物体对，查找到物体对上被标注的关系类别标签数量的最大值p_max，该最大值p_max后续将用于多标签场景图生成器中。

S3、使用预训练的目标检测器，检测出训练数据集的图像中所有物体，并得到初始的物体类别预测。

在本实施例中，上述步骤S3包括以下子步骤：

S31、获取一个预训练的目标检测器ObjDet，所述目标检测器ObjDet包括图像特征提取网络和区域候选网络。目标检测器ObjDet的具体网络结构形式不限，只要预先经过训练后，能够实现对于目标(即图像中的物体)的准确检测即可。

并通过区域候选网络得到目标检测结果

其中：

包含物体位置预测

和初始物体类别预测

S4、使用多粒度模块建立每张训练图像的多粒度特征，并对图像中的每个物体对构建多分类标签。

在本实施例中，上述步骤S4包括以下子步骤：

S41、对于目标检测器对单张训练图像给出的特征

使用M个随机擦除率

各自生成不同粒度下的特征，共得到M个多粒度特征

同时将特征

作为图像的整体特征

一般而言，可以设置M＝3，r₁＝0，r₁＝0.1，r₂＝0.2，r₃＝0.3。

S42、对于训练数据集中的每张训练图像I_train中的每个物体对(n_i,n_j)，分别构建该物体对的多分类标签p_multi，所述多分类标签p_multi为Q维向量，其中每一维元素分别对应一种关系类别，标注在该物体对上的所有关系类别对应的元素值平分总和为1的概率，而其他关系类别的元素值均为0。例如，某一个物体对中一共被人工标注了4关系类别，那么在其多分类标签中这4个关系类别的标签(即元素)值都是0.25，其他(Q-4)种关系类别的标签值都为0。

S5、利用多粒度特征作为输入，数据集标签、多分类标签、共生标签作为监督，训练关系检测器，使关系检测器能够输出图像中物体之间的关系预测，并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果。

在本实施例中，上述步骤S5包括以下子步骤：

S51、构建关系检测器RelDet，其中每张训练图像I_train的

中的每一个

使用关系检测器RelDet得到所有物体对的关系预测

并对

中的物体类别预测

进行微调得到

其中：

中物体对(n_i,n_j)关于关系类别k的关系预测为

由一系列的

组成；

进行融合，得到关系检测概率结果

为：

式中λ为权重值，一般而言，可以设置λ＝0.4；

将每张训练图像I_train中的所有

合并，得到并输出最终的关系预测

S52、设置关系检测器RelDet的损失函数为：

其中

是交叉熵损失函数，

是带有温度参数T的KL损失函数，P_co为训练图像中共生标签p_co的集合，P_multi为训练图像中多分类标签p_multi的集合。一般而言，可以设置α＝0.5，β＝0.05；

S53、使用SGD优化方法和反向传播算法通过损失函数

来训练关系检测器RelDet，直至损失函数收敛。

在本实施例中，上述步骤S6包括以下子步骤：

和目标检测结果

包含物体位置预测

和初始物体类别预测

并微调

得到最终的物体类别预测

需要注意的是，此处预训练的目标检测器ObjDet、关系检测器RelDet中的具体输入、输出和内部处理方式与前述S3～S5步骤基本一致，区别仅在于将训练图像替换为目标图像，为了以示区分在训练图像对应的各输出上加上标*进行区分，记为目标图像对应的输出。

目标检测器输出的物体位置预测

生成该目标图像对应的场景图G，其用公式表示如下：

下面将上述S1～S6所示的一种基于多粒度特征的多标签场景图生成方法，应用于一个具体实例中，以展示其具体技术效果。

实施例

本实施例的实现方法如前S1～S6所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在一个具有真值标注的数据集上实施，分别为：

VG数据集：该数据集包含10807张图像，有150类物体标签和50类关系标签，平均每张图38类物体标签和22类关系标签。

本实例在VG数据集的训练集上训练，测试集上测试，具体流程如图1所示。图中，MGM是生成多粒度特征的模块，ObjDet是目标检测器，RelDet是关系检测器，p_co是共生标签，p_multi是多分类标签。

本实施例在PredCls任务(输入图片和图片中物体的位置和分类，输出完整场景图)检测结果的检测精度如下表所示，主要采用平均召回率(R@K)、分类平均召回率(mR@K)以及无训练样本平均召回率(zR@K)三个指标进行比较。其中平均召回率(R@K)指标是指每张测试图像在给出K个候选(物体1，关系，物体2)组的情况下，涵盖了多少比例的人工标注(物体1，关系，物体2)组。分类平均召回率(mR@K)指标是指每张测试图像在给出K个候选(物体1，关系，物体2)组的情况下，先计算每个关系的平均召回率，然后所有关系的平均召回率再做一个算术平均。无训练样本平均召回率(zR@K)指标是指每张测试图像在给出K个候选(物体1，关系，物体2)组的情况下，仅对测试集中没有在训练集出现过的(物体1，关系，物体2)组进行评估，看有多少比例的人工标注、没有在训练集出现过的(物体1，关系，物体2)组被召回。

方法	R@20	R@50	R@100
				Motifs	58.46	65.18	67.01
Motifs+OursMulti	67.19(+8.73)	81.47(+16.29)	88.56(+21.55)
				IMP	54.34	61.05	63.06
IMP+OursMulti	62.62(+8.28)	77.60(+16.55)	85.13(+22.07)
				Transformer	59.06	65.55	67.29
Transformer+OursMulti	67.65(+8.59)	82.12(+16.57)	89.05(+21.76)

方法	mR@20	mR@50	mR@100
				Motifs	11.67	14.79	16.08
Motifs+OursMulti	21.22(+9.55)	34.31(+19.52)	44.47(+28.39)
				IMP	8.85	10.97	11.77
IMP+OursMulti	16.87(+8.02)	28.42(+17.45)	38.10(+26.33)
				Transformer	12.77	16.30	17.63
Transformer+OursMulti	23.27(+10.50)	38.22(+21.92)	49.56(+31.93)

方法	zR@20	zR@50	zR@100
				Motifs	1.08	3.24	5.36
Motifs+OursMulti	4.01(+2.93)	13.12(+9.88)	25.74(+20.38)
				IMP	12.17	17.66	20.25
IMP+OursMulti	15.39(+3.22)	28.54(+10.88)	40.12(+19.87)
				Transformer	1.35	3.63	5.64
Transformer+OursMulti	6.09(+4.74)	16.83(+13.20)	30.28(+24.64)

如上三张表，我们分别测试了和三种不同关系检测器Motifs、IMP和Transformer的结合，带有+OursMulti的结果是一种基于多粒度特征的多标签场景图生成方法的最终结果，可以看到，在所有指标和所有关系检测器上一种基于多粒度特征的多标签场景图生成方法都具有显著提升。

上述实施例中，本发明的基于多粒度特征的多标签场景图生成方法首先对所有关系类别之间的联系进行建模。在此基础上，将原属于单标签分类的关系预测问题转化为多标签分类问题，并和多种基于深度神经网络建立的关系预测模型可以联合使用。最后，利用训练好的场景图生成模型来生成测试图像对应的场景图。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种基于多粒度特征的多标签场景图生成方法。本发明充分利用关系类别之间的联系，并采用多粒度视觉特征对物体进行建模，能够更好地适应真实的场景图生成任务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。