CN111428733A

CN111428733A - 基于语义特征空间转换的零样本目标检测方法及系统

Info

Publication number: CN111428733A
Application number: CN202010172076.8A
Authority: CN
Inventors: 吴皓; 陈兆伟; 马庆
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-17
Anticipated expiration: 2040-03-12
Also published as: CN111428733B

Abstract

本公开提供了一种基于语义特征空间转换的零样本目标检测方法及系统，使用区域建议网络，提取待处理图像中可能包含物体的位置以及其特征；利用类别的语义信息对齐视觉特征空间和语义嵌入空间之间的映射关系，进行视觉特征空间和语义嵌入空间的空间转换，实现未知类别视觉特征的估计；利用分类网络模型进行特征的分类，利用层次softmax来拉近属于同一个父类的各个子类之间的距离，拉远属于不同父类的各个子类之间的距离；将相似度度量取距离最近的类别作为预测类别。能够有效去除干扰。

Description

基于语义特征空间转换的零样本目标检测方法及系统

技术领域

本公开属于目标检测技术领域，涉及一种基于语义特征空间转换的零样本目标检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

基于深度学习的目标检测算法受限于物体边框标注的复杂流程，且手工标注过程易受主观性影响而出现标注错误。弱监督目标检测只需要图像级别的标注信息，缓解了边框标注的压力。由于没有利用到物体的语义信息，所以仍然不能检测未知类别的物体，而零样本目标检测旨在检测训练集中不包含的类别的物体。因此，目前的目标检测方法并不适用于零样本目标检测。

发明内容

本公开为了解决上述问题，提出了一种基于语义特征空间转换的零样本目标检测方法及系统，本公开可以很好地排除相似类别的干扰，提高检测的准确性。

根据一些实施例，本公开采用如下技术方案：

一种基于语义特征空间转换的零样本目标检测方法，包括以下步骤：

使用区域建议网络，提取待处理图像中可能包含物体的位置以及其特征；

利用类别的语义信息对齐视觉特征空间和语义嵌入空间之间的映射关系，进行视觉特征空间和语义嵌入空间的空间转换，实现未知类别视觉特征的估计；

利用分类网络模型进行特征的分类，利用层次softmax来拉近属于同一个父类的各个子类之间的距离，拉远属于不同父类的各个子类之间的距离；

将相似度度量取距离最近的类别作为预测类别。

作为可选择的实施方式，在进行物体位置和特征提取时，根据图像的长宽比对整图的尺寸进行调整，然后使用区域建议网络来提取可能包含物体的区域及其视觉特征。

作为可选择的实施方式，对每一个感兴趣区域内的特征执行平均池化操作得到该感兴趣区域的特征向量。

作为可选择的实施方式，将与未知类最大预测概率的类别具有相似特征的已知类所对应的边框回归参数对该部分区域进行二次精修，从而达到更加准确的边框回归效果。

作为可选择的实施方式，在进行语义特征空间转换时，利用预训练好的类别词向量来构成语义嵌入空间作为辅助信息，假定已知类的视觉特征向量和语义嵌入向量的对应关系和未知类的对应关系是一致的，使用已知类的对应关系来估计未知类的视觉特征向量。

作为可选择的实施方式，在进行语义特征空间转换时，结合已知类的视觉特征向量和所有类的语义嵌入向量来执行Lasso回归操作得到两个空间之间的映射关系，根据映射关系估计出每个未知类的视觉特征向量。

作为可选择的实施方式，利用层次softmax来拉近属于同一个父类的各个子类之间的距离，拉远属于不同父类的各个子类之间的距离的具体过程包括：使用层次Softmax来实现不同语义层级的分类损失，使用奇异值分解实现特征降维可视化，且训练的主要目标是子类之间的分离性和父类之间的聚合性。

作为可选择的实施方式，将获得的可能包含物体的区域内的特征做平均池化后再做L2标准化，再和每个估计出来的未知类的视觉特征向量求余弦相似度，将相似度最大的类别作为该建议区域的类别预测。

一种基于语义特征空间转换的零样本目标检测系统，包括：

语义特征提取模块，被配置为使用区域建议网络，提取待处理图像中可能包含物体的位置以及其特征；

空间转换模块，被配置为利用类别的语义信息对齐视觉特征空间和语义嵌入空间之间的映射关系，进行视觉特征空间和语义嵌入空间的空间转换，实现未知类别视觉特征的估计；

分类网络模块，被配置为利用分类网络模型进行特征的分类，利用层次softmax来拉近属于同一个父类的各个子类之间的距离，拉远属于不同父类的各个子类之间的距离；

预测输出模块，被配置为将相似度度量取距离最近的类别作为预测类别。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于语义特征空间转换的零样本目标检测方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于语义特征空间转换的零样本目标检测方法。

与现有技术相比，本公开的有益效果为：

本公开使用类别的语义信息，较好地对齐了视觉特征空间和语义嵌入空间之间的映射关系，因此视觉特征空间和语义嵌入空间的空间转换可以有效地进行，从而实现未知类别视觉特征的估计；只在推断阶段使用了语义嵌入信息可以更好地拓展到新的未知类上而不需要重新训练；可以更好地排除相似类别的干扰；利用到二次回归的参数进行微调使得边框回归更加准确，改进的最大化值抑制算法可以有效地抑制具有相似语义类别的视觉干扰。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开的模型网络结构；

图2是已知类的视觉语义特征向量t-SNE可视化结果；

图3(a)-(c)是2维SVD特征降维可视化结果；

图4是SFST-ZSD训练阶段网络结构；

图5是SFST-ZSD测试阶段网络结构；

图6(a)(b)分别是dog和bus类的PR曲线；

图7是Expanded VOC-ZSD数据集的部分检测结果。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提出了一个新的零样本目标检测算法SFST-ZSD (Semantic andFeature Space Transformation based Zero-Shot Object Detection)。使用区域建议网络来同时提取可能包含物体的位置以及其特征，然后利用层次softmax来拉近属于同一个父类的各个子类之间的距离，拉远属于不同父类的各个子类之间的距离。类别的语义信息的利用较好地对齐了视觉特征空间和语义嵌入空间之间的映射关系，因此视觉特征空间和语义嵌入空间的空间转换可以有效地进行，从而实现未知类别视觉特征的估计，最后利用相似度度量取距离最近的类别作为预测类别。只在推断阶段使用了语义嵌入信息可以更好地拓展到新的未知类上而不需要重新训练。提出的改进版本的最大值抑制方法可以更好地排除相似类别的干扰。利用到二次回归的参数进行微调使得边框回归更加准确。实验验证本实施例的算法在 PASCAL VOC和MS COCO数据集上取得了不错的效果。

具体的，SFST-ZSD网络结构如图1所示，主要包含特征抽取模块和视觉特征空间和语义嵌入空间的转换模块。

输入的图像首先经过特征抽取模块获得特征图，然后在特征图上执行区域建议网络获得可能包含物体的感兴趣区域。视觉特征空间和语义嵌入空间的转换只发生在训练结束，测试阶段执行之前，用于未知类别视觉特征向量的估计。特征图上每个感兴趣区域的特征与估计的未知类别的视觉特征之间利用余弦相似度量求距离最近的类别作为类别估计。训练阶段的二阶段边框回归参数对感兴趣区域的进行精修以获得更加准确的边框。

Zitnick等使用Edge-Boxes方法来提取区域建议框，然后将这些可能包含物体的感兴趣区域重新调整到固定大小并送到一个预训练好的模型抽取特征，但是该方法算法复杂度过高。另外，重调图像大小操作会对特征抽取带来负面影响。与之不同的是，本实施例按照 Faster-RCNN网络的设定，根据图像的长宽比对整图的尺寸进行调整，然后使用区域建议网络来提取可能包含物体的区域及其视觉特征。对每一个感兴趣区域内的特征执行平均池化操作得到该感兴趣区域的特征向量。为了有效地利用相似类别物体的边框回归参数，除了第一阶段的边框回归，本实施例还利用了Faster-RCNN第二阶段的边框精修操作的参数来提高物体检测的精度。边框回归参数如公式1所示。其中，(P_x,P_y,P_w,P_h)为Anchor的中心坐标及其长宽,(d_x,d_y,d_w,d_h)为要学习的坐标变换函数，P为原始的坐标,

为变换之后的坐标。

经过已知类和未知类数据划分之后，每个类别的数据是极度不均衡的。最多的类别样本的数量可以达到3733个，而最少的样本的数量不足100个。因此，本实施例使用了Focal Loss来缓解这个问题带来的负面影响，如公式2所示。对于多类别的分类问题，本实施例定义p_t ⁱ为对于每个类别的预测概率，γ参数用来降低简单样本损失的权重和增大困难样本损失的权重，在本实施例的实验中，其值设为2.0；平衡因子α_t ⁱ是类别i的权重，其值是使用训练集中每个类别对应的样本的数量计算出来的。例如，对于MS-COCO数据集来说，本实施例定义了一个大小为48的数组来存放每个已知类的权重。

语义特征空间转换模块

由于缺乏目标域的训练数据，未知类别需要通过一些辅助信息来进行预测，这些辅助信息往往是由训练大量的文本信息获得的。本实施例尝试解决从语义嵌入空间到未知类的数据分布估计问题，而不是只计算出两者之间的映射函数。假设已知类类别集合为S＝{X_s,Y_s}，其对应的数据分布为E_s。未知类别的集合为U＝{X_u,Y_u}，其对应的数据分布为E_u，并且

其中，X代表的是图片数据，Y代表的是标签，包含边框信息和类别信息。在训练阶段只使用S的数据。本实施例使用了预训练好的类别词向量来构成语义嵌入空间作为辅助信息I＝{I_s,I_u}。

假定已知类的视觉特征向量和语义嵌入向量的对应关系和未知类的对应关系是一致的，所以可以使用已知类的对应关系来估计未知类的视觉特征向量，如公式3所示。本实施例使用Lasso回归来实现转换函数R，其中参数α设置为0.01。Lasso回归方法就是传统的最小均方差方法加上L1正则化项。

代表的是估计的未知类的数据分布。转换函数R的参数W可以通过最小化损失函数L来获得，如公式4所示。t-SNE是高维数据降维可视化的常用方法。图2展示的是部分已知类的视觉特征向量及其语义嵌入向量之间的可视化结果。

损失函数

训练模型的总损失函数如公式5所示，包含分类损失和回归损失两部分。其中，i是anchor的索引，p_i和

分别为第i个子类的真实值和预测概率，

和

分别为第i个父类的真实值和预测概率，t_i和

分别为真实框和预测狂的四个坐标参数，N_cls和N_reg分别为分类损失和回归损失的标准化项。λ为平衡项。

本实施例使用层次Softmax来实现不同语义层级的分类损失，这使得本实施例的模型对父类的聚类效果更加明显。本实施例使用奇异值分解实现特征降维可视化，如图3(a)-(c)所示。3(a)图是 glove词向量的可视化结果，图3(b)是Faster RCNN基准模型获得的视觉特征向量的可视化结果，图3(c)是本实施例提出的SFST-ZSD 模型所抽取的视觉特征向量的可视化结果。父类的损失函数项的平衡系数β设置为0.05，本实施例训练模型的两个主要目标是子类之间的分离性和父类之间的聚合性，这对零样本检测的任务尤为重要。回归损失项使用的是smooth L1损失函数，如公式6所示。其对于离群点更加鲁棒，超参数σ在训练阶段和测试阶段分别设置为3和1。

Global NMS算法

考虑到类别之间的语义相似性，本实施例将每个父类(Super-class)所有的建议框按照其得分进行排序，而不是像传统的 NMS(Non-Maximum Suppression)算法，对每个子类单独进行排序。 Global-NMS算法流程的实现过程包括：

进行试验，零样本目标检测的训练数据和测试数据划分需要保证没有未知类的样本出现在训练中。本实施例按照基于WordNet的层次结构划分数据集的方法来划分MSCOCO的训练集和测试集。按照其划分数据集的方式，本实施例可以获得48个已知类作为训练集以及17个未知类作为测试集。对于PASCAL VOC数据集，考虑到类别拓展的要求，本实施例需要将MSCOCO中得一些类别作为新增的未知类进行测试。与论文不同，本实施例没有使用在aPascal数据集中提出的64维的特征标签，本实施例使用的是300维的glove词向量作为其语义信息。考虑到类别之间的相似性，基于每个未知类在训练中尽量有至少一个与之具有语义相似性的已知类的前提假设，从训练集中挑选了15个已知类的图像作为训练集，剩余5个类(bicycle,bus, chair,cow and dog)的图像作为测试集，以此构成VOC-ZSD数据集。本实施例使用PASCAL VOC 2007和2012中的已知类作为训练集， VOC 2007中的未知类别作为测试集。另外，根据语义的相似度， MS-COCO中的一部分类别作为Expanded VOC-ZSD数据集的一部分用来测试新增未知类的性能。

使用ResNet50作为本实施例的特征抽取网络，Adam优化器，学习率设置为1e-3，训练的epoch为20。按照长宽比，本实施例将输入图像的短边resize到600，长边resize到1000。视觉特征空间由已知类的视觉特征向量构成，语义特征空间由300维的类别词向量组成。NMS的阈值设置为0.3，在测试阶段，该值设置为0.5。再训练阶段本实施例没有使用任何数据增强。整个网络结构使用Pytorch 深度学习框架实现。

训练的过程分为两个步骤。首先使用已知类的数据结合修改后的损失函数训练Fater-RCNN。这一步的主要功能是使得RPN网络部分对可能包含物体的未知具有一定的提取能力。与此同时，第二阶段的边框回归参数也可以被应用到未知类的边框回归上。具体的，本实施例将与未知类最大预测概率的类别具有相似特征的已知类所对应的边框回归参数对该部分区域进行二次精修，从而达到更加准确的边框回归效果。在数据划分时，本实施例未将已知类的任何样本放到训练集中，是为了防止本实施例的模型将未知类的物体误认为是背景。训练阶段和测试阶段的网络结构如图4和5所示。

在模型训练完成之后，在所有的训练数据上经过一次前向传播，可以得到每个样本的1024维的特征。每个类别的特征经过L2标准化(Normalization)之后求平均再做一次L2标准化，其结果作为该类别的视觉特征表示。而在测试阶段开始之前，需要结合已知类的视觉特征向量和所有类的语义嵌入向量来执行Lasso回归操作得到两个空间之间的映射关系，根据映射关系估计出每个未知类的视觉特征向量。在测试阶段，本实施例将RPN阶段获得的可能包含物体的区域内的特征做平均池化后再做L2标准化，再和每个估计出来的未知类的视觉特征向量求余弦相似度，本实施例将相似度最大的类别作为该建议区域的类别预测。另外，本实施例结合训练Faster-RCNN得到的第二阶段的边框回归参数对该建议区域进行二次回归得到最终的未知类的检测结果。

权衡于性能和评价时间，对于MSCOCO这种规模比较大而且每张图片中包含的物体个数比较多的数据集，本实施例主要采用召回率作为评价指标。如表格1所示，本实施例展示了使用MSCOCO数据集在不同IoU阈值的情况下，本实施例所提出的ZSD方法在 Recall@100(基于预测得分，一张图像中只有预测概率最大的前K 个检测结果被选择用来计算召回率，其中只有当预测的边框与真实边框的IoU大于一个固定阈值的时候才认为是真正例(true positive)，文中设置为0.4、0.5和0.6)评价指标上的性能。

表1 COCO-ZSD数据集上的Recall@100(％)指标

对于VOC-ZSD数据集，本实施例计算了mean average precision (mAP)作为评价指标，如表2所示。考虑到由于个别类别之间的相似性差距较小，导致最终得到的检测结果中仍然有大量相似类别的干扰，本实施例在使用最大值抑制的时候采用了一种全局的最大值抑制方法，即对同一父类下的所有子类的预测结果统一按照预测得分排序之后进行抑制而不是对每一个类别的预测结果分别排序后进行抑制。实验证明全局最大值抑制方法取得了更好的效果。

表2 VOC-ZSD数据集mAP指标

图6(a)(b)为在VOC-ZSD数据集上，dog和bus两个类别的 PR(Precision-Recall)曲线。通过对误检测样本的分析发现，大部分分类错误是由于语义相似程度较大的类别之间的干扰以及物体之间的密集程度较高造成的，同时由于在数据划分之后个别类别的样本数量大幅减少导致模型对这些类的特征提取的学习不充分，在测试的时候对具有相似特征的未知类的提取能力有限也会导致准确性的下降。

考虑到本实施例提出的ZSD模型可以在线的学习新增的未知类别的相关知识从而预估新增未知类别的视觉特征空间的分布，因此本实施例在PASCAL VOC数据集上设置了15/5的类别比例划分训练集和测试集之后，将MSCOCO中的部分类别添加到其中作为未知类别并进行实验，同样本实施例对新添加的未知类别进行预测并计算 Recall@100如表3所示。

表3 Expanded VOC-ZSD数据集的Recall@100指标

由表3可见，在未知类中增添新的数据源中的未知类导致召回率普遍下降，在新添加的未知类中，bottle类别由于在训练集中没有足够的特征与之类似的已知类存在，在测试的时候就不能很好的通过知识的迁移获得未知的类别信息，导致其召回率非常低，并且相似类之间的干扰造成的影响也十分明显。在接下来的工作中，本实施例可以针对相似类特征的提取选择性能更加优异的特征提取器来获得更加显著的类别特征从而提升对未知类检测的性能。图7展示的是部分 ExpandedVOC-ZSD数据集上的检测结果。

本实施例的SFST-ZSD模型可以被轻易地拓展到少样本检测(Few Shot ObjectDetection)的任务。与零样本目标检测任务不同的是，本实施例将限定数量的物体边框内的图像特征取平均池化后再经过 L2标准化的特征代替本实施例通过LASSO回归估计得到的未知类的视觉特征向量。本实施例从COCO-ZSD测试集中每个类随机挑选了一定数量的图像，利用SFST-ZSD模型抽取图像特征。Recall@100指标如表4所示。

表4 COCO-ZSD数据集N-shot目标检测的Recall@100(mAP) 指标

使用VOC 2007和VOC 2012的训练集和验证集作为训练类别，其测试集作为范式零样本目标检测(GZSD,Generalized Zero-Shot Object Detection)的测试集。最终的检测结果中，已知类的得分阈值需大于0.8，未知类的得分阈值需大于0.5。GZSD的性能指标见表5。

表5 Pascal-ZSD数据集在GZSD任务中的mAP指标

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于语义特征空间转换的零样本目标检测方法，其特征是：包括以下步骤：

将相似度度量取距离最近的类别作为预测类别。

2.如权利要求1所述的一种基于语义特征空间转换的零样本目标检测方法，其特征是：在进行物体位置和特征提取时，根据图像的长宽比对整图的尺寸进行调整，然后使用区域建议网络来提取可能包含物体的区域及其视觉特征；

对每一个感兴趣区域内的特征执行平均池化操作得到该感兴趣区域的特征向量。

3.如权利要求1所述的一种基于语义特征空间转换的零样本目标检测方法，其特征是：将与未知类最大预测概率的类别具有相似特征的已知类所对应的边框回归参数对该部分区域进行二次精修，从而达到更加准确的边框回归效果。

4.如权利要求1所述的一种基于语义特征空间转换的零样本目标检测方法，其特征是：在进行语义特征空间转换时，利用预训练好的类别词向量来构成语义嵌入空间作为辅助信息，假定已知类的视觉特征向量和语义嵌入向量的对应关系和未知类的对应关系是一致的，使用已知类的对应关系来估计未知类的视觉特征向量。

5.如权利要求1所述的一种基于语义特征空间转换的零样本目标检测方法，其特征是：在进行语义特征空间转换时，结合已知类的视觉特征向量和所有类的语义嵌入向量来执行Lasso回归操作得到两个空间之间的映射关系，根据映射关系估计出每个未知类的视觉特征向量。

6.如权利要求1所述的一种基于语义特征空间转换的零样本目标检测方法，其特征是：利用层次softmax来拉近属于同一个父类的各个子类之间的距离，拉远属于不同父类的各个子类之间的距离的具体过程包括：使用层次Softmax来实现不同语义层级的分类损失，使用奇异值分解实现特征降维可视化，且训练的主要目标是子类之间的分离性和父类之间的聚合性。

7.如权利要求1所述的一种基于语义特征空间转换的零样本目标检测方法，其特征是：将获得的可能包含物体的区域内的特征做平均池化后再做L2标准化，再和每个估计出来的未知类的视觉特征向量求余弦相似度，将相似度最大的类别作为该建议区域的类别预测。

8.一种基于语义特征空间转换的零样本目标检测系统，其特征是：包括：

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种基于语义特征空间转换的零样本目标检测方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种基于语义特征空间转换的零样本目标检测方法。