CN112036447A

CN112036447A - 零样本目标检测系统及可学习语义和固定语义融合方法

Info

Publication number: CN112036447A
Application number: CN202010802487.0A
Authority: CN
Inventors: 周水庚; 王康; 张路; 赵佳佳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-04
Anticipated expiration: 2040-08-11
Also published as: CN112036447B

Abstract

本申请公开了一种零样本目标检测系统及可学习语义和固定语义融合方法，将零样本学习机制引入到深度目标检测框架，建立一套基于具有强判别能力的零样本目标检测系统LAT‑Net，通过LAT‑Net实现端到端的零样本目标检测任务。使用了可学习的语义特征和固定语义特征相结合的方法，使得网络在源域训练时，既可以充分利用类别的词向量信息，又可以利用到端到端学习，发现更加具有鉴别能力的类别原型，取得了最好的检测准确率。本发明系统框架简单、使用方便、可扩展性强、可解释性强，并在两个主流视觉属性数据集的零样本检测和泛化零样本检测两大任务的结果上，均超过了现有方法。为目标检测技术在军事和工业应用领域，提供基础框架和方法的支持。

Description

零样本目标检测系统及可学习语义和固定语义融合方法

技术领域

本申请涉及机器学习技术领域，尤其是涉及一种零样本目标检测系统及可学习语义和固定语义融合方法。

背景技术

目标检测技术是计算机视觉任务中一个基础的任务，该任务旨在从图像中定位并分类出目标类别物体。目标检测技术的应用范围广泛，它为一些下游任务，例如实例分割，场景理解，姿态估计等任务，提供了基础的支持。已有深度目标检测模型在一些类别上取得了较好的准确率，但严重依赖于在大规模带标定数据集。然而在现实场景中，却面临着数据样本分布不均衡、以及样本无监督等问题，因此如何在样本量不足甚至零样本、以及样本无标注的情况下，充分利用社交媒体中的数据，成为了计算机视觉领域的开放式问题。零样本学习为解决这一类问题提供了一套系统的框架，即利用类的语义信息(class semanticinformation)，来完成源域到目标域的知识迁移。这些语义信息，如属性标注，标签词向量等，可以一致地编码成属性向量，后者也可称作类嵌入(class embedding)或标签语义嵌入(label semantic embedding)。

零样本学习(Zero-shot Learning,ZSL)用可见类(seen classes)的样本训练，然后在未见类(unseen classes)的样本测试中联系它们的是可见类和未见类的语义嵌入。

由于零样本学习运用到目标检测此问题的新颖性，已有的零样本目标检测算法还是很少的，并且，已有的零样本目标检测算法大多数都采用在目标检测框架中的分类头网络嵌入视觉-语义映射模块，使得分类模块可以在语义空间上给候选框来进行最终的分类。但这些方法都存在着以下局限性：

1)缺乏端到端的训练方式，无法利用深度学习的强大的特征提取能力。

2)难以解决背景类别和目标类的语义混淆问题，导致召回率较低。

3)回归头网络没有利用语义信息。

4)采用固定的语义信息，存在噪声和判别性不强的问题，同时影响了源域类别和目标域类别检测的准确率。

发明内容

为了提高利用零样本学习方法对图像目标进行识别的准确率，本申请提供一种零样本目标检测系统及可学习语义和固定语义融合方法，联合可学习语义特征与固定语义向量的零样本目标检测算法，在保留已有的视觉-固定语义的映射模块的基础上，并联地加入了视觉-可学习语义的映射模块，综合两部分输出结果来完成最终的预测，解决固定的语义特征带来的神经网络训练困难和鉴别能力不强的问题。

本申请提供的一种零样本目标检测系统，采用如下的技术方案：

系统从输入到输出依次包括如下几个神经网络模块：

1)提取输入图像I的多层次特征的卷积网络特征提取模块：通过多层卷积操作，在不同的层上获取到不同语义，不同分辨率大小的视觉特征，并分别输出；输入的RGB图像I经过卷积网络特征提取模块后输出为{C₁,C₂,...,C_i,...,C_N},其中N表示输出的层数，C_i表示第i层的图像特征；

2)特征金字塔特征融合模块：特征金字塔模块通过自顶而下的方法融合步骤1)卷积网络特征提取模块输出的特征，将高层的特征图进行上采样插值操作，将下层的特征图进行1*1的卷积操作来归一化通道数，然后将两部分特征进行直接地逐位数相加完成特征融合，保证图像特征的高分辨率和语义信息充足，所述模块输出{P₁,P₂,...,P_i,...P_N}，其中，P_i＝g(C_i)+h(P_i+1)，其中g(·)是1*1的卷积操作，h(·)为放大两倍的最近邻插值操作；

3)预定义候选框模块：在特征金字塔特征融合模块输出的各个特征图上，分配不同大小和位置的预定义候选框，并将所有预定义候选框经过全局池化模块，生成对应的候选框的视觉特征{T₁,T₂,T₃...T_M}，其中M为候选框总数；

4)视觉-语义映射模块：将步骤3)获取到的第k个候选框的视觉特征T_k映射到语义空间对应的语义特征S_k；

对于每一个T_k，分别通过并联的1*1卷积操作，得到维度为L_α的两个语义特征，分别记作固定的语义特征S_k ^fix和可学习语义特征S_k ^learn，两组语义特征分别和固定的类别语义向量Φ^fix以及可学习的类别语义向量Φ^learn进行相似度计算，得到两组分类打分，记作Score^fix和Score^learn；

5)候选框分类模块：将步骤4)得到的Score^fix和Score^learn两部分分类打分进行加权求和，然后通过sigmoid激活层，获取到每个候选框对于每个类别的分类概率Score并输出；

6)候选框回归模块：候选框回归模块输出回归值，用于步骤5)输出的候选框的位置和大小修正；

该模块输入每个候选框的语义特征S_k，然后经过两层全连接神经网络，输出对应候选框的4个回归参数(dx_k,dy_k,dw_k,dh_k)，其中，前两个参数对应候选框的位置修正，x_k和y_k表示第k个标注框左上角的坐标；后两个参数对应候选框的大小修正，w_k和h_k分别为第k个标注框的宽和高；

7)损失函数层：该层仅用于网络训练，输入为候选框分类模块和候选框回归模块的输出，以及训练时的标签数据，此处的标签数据包括每张图像的物体真实标定框；

该层损失函数L为：

L＝L_FL+L_BBOX，

其中，L_FL为候选框分类的focal loss损失，定义为L_FL＝-β_t(1-p_t)^γlog(p_t)，其中，β_t和γ为超参数，超参数为用户手动设定的参数；当候选框标签为1的时候，p_t为候选框分类模块输出的分类概率Score；当候选框标签为0的时候，p_t＝1-Scor；此处，标签为1的候选框指的是与真实标定框交并比高于阈值Thr₁的候选框，标签为0的候选框指的是与真实标定框交并比低于阈值Thr₁的候选框，此处，交并比是指两个框的相交的面积除以相并的面积；L_BBOX为候选框回归模块的损失函数，其采用Smooth L1损失函数；

8)结果汇总模块：输入为候选框分类模块的输出，以及候选框回归模块的输出，汇总输出为最终的结果；

对于候选框分类模块输出的每个候选框的分类概率Score，将Score高于阈值Thr₂的进行保留，其余的舍弃，然后将保留下来的候选框应用候选框回归模块的输出，对位置和大小进行修正。

通过采用上述技术方案，建立一套基于具有强判别能力的零样本目标检测系统LAT-Net，通过LAT-Net实现端到端的零样本目标检测任务。

优选的：所述步骤3)具体实现方法：此处，不同的层次生成的候选框数量不同，每一层生成的候选框数量与该层特征图的分辨率有关；在{P₁,P₂,...,P_i,...P_N}的特征图的每一个像素点分配三种不同长宽比的候选框，分别为1:2，1:1，2:1；在每一个特征图上分配了像素点个数三倍的候选框，候选框的总个数为

W和H为标注框的宽和高，对于经过全局池化后的视觉特征T_k，设置其维度为256。

通过采用上述技术方案，在对目标类别进行检测时，在源域特征类别上进行候选框选取，使得训练过程避免对源域过拟合，使得源域检测性能较高。

优选的：所述步骤5)候选框分类模块使用focal损失函数来获取梯度信息，用于整个网络参数的更新；对于每个类别单独计算二分类损失，避免引入背景类，防止目标类别和背景类之间的语义混淆问题。

通过采用上述技术方案，提高目标类别检测的准确率。

本申请提供的一种可学习语义和固定语义融合方法，采用如下的技术方案：在上述零样本目标检测系统中进行训练融合，方法具体步骤如下：

步骤1：用在ImageNet或纯可见类训练集上全监督学习预训练好的卷积神经网络卷积层参数作为零样本目标检测系统网络框架中各个模块的初始参数；

步骤2：在可见类数据集上面对网络框架进行端到端训练：

对于固定的类别语义向量，将固定的语义特征S_k ^fix与固定的类别语义向量Φ^fix进行相似度计算，得到对应的分数Score^fix，Score^fix＝S_k ^fix·Φ^fix，此过程中，Φ^fix为用户实现定义，且不参与网络的参数更新；

对于可学习的类别语义向量Φ^learn，将可学习语义特征S_k ^learn与Φ^learn进行相似度计算，得到对应的分数Score^learn，Score^learn＝S_k ^learn·Φ^learn，此处Φ^learn参与网络的参数更新，按照此方式，可以得到可见类的类别可学习语义向量Φ^learn(tr)；

步骤3：为了获取到未见类的可学习语义向量Φ^learn(ts)，假设未见类的可学习语义向量Φ^learn(ts)可以通过可见类的可学习语义向量线性表示，该线性表示的参数矩阵记作A,其中A_yj表示目标类别y相对于j的组合参数，也即

Φ^learn(ts)_y＝A_yΦ^learn(tr)

＝A_y1Φ^learn(tr)₁+A_y2Φ^learn(tr)₂+...A_ymΦ^learn(tr)_m

可以基于可见类的和未见类的的固定语义向量进行回归优化以获取到矩阵A，具体的优化目标如下：

A^*＝argmin_A||A·Φ^fix(tr)-Φ^fix(ts)||₂+||A||₂

其中，其中A^*是通过回归得到的最优化参数；||·||₂为L2正则化，||A||₂起到防止网络架构对于固定语义向量过拟合；Φ^fix(tr)为可见类的固定类别语义向量；Φ^fix(ts)为未见类的固定类别语义向量；对于未见类的类别可学习语义向量Φ^learn(ts)；利用上述方法学习到的可见类的类别可学习语义向量Φ^learn(tr)和A^*进行加权组合得到：

Φ^learn(ts)＝A^*Φ^learn(tr)

将通过以上方法得到未见类的类别可学习语义向量Φ^learn(ts)在检测网络框架中替换可见类的类别可学习语义向量Φ^learn(tr)，网络框架就可完成未见类的检测。

通过采用上述技术方案，使用了可学习的语义特征和固定语义特征相结合的方法，使得网络在源域训练时，既可以充分利用类别的词向量信息，又可以利用到端到端学习，发现更加具有鉴别能力的类别向量，取得了最好的检测准确率。

综上所述，本申请包括以下至少一种有益技术效果：

(1)将零样本学习机制引入到深度目标检测框架，建立零样本目标检测网络LAT-Net，具体强判别能力，通过LAT-Net实现端到端的零样本目标检测任务；

(2)本申请方法框架简单、使用方便、可扩展性强、可解释性强，并在两个主流视觉属性数据集的零样本检测和泛化零样本检测两大任务的结果上，都超过了现有方法；

(3)本申请方法能够为目标检测技术在各个领域，提供基础框架和算法的支持，也能很容易地扩展到其他零样本学习任务上。

附图说明

图1为本实施例基于可学习语义特征的零样本目标检测网络结构示意图；

图2-1为本实施例未见类检测结果样例一图；

图2-2为本实施例未见类检测结果样例二图；

图2-3为本实施例未见类检测结果样例三图；

图2-4为本实施例未见类检测结果样例四图；

图2-5为本实施例未见类检测结果样例五图；

图2-6为本实施例未见类检测结果样例六图。

具体实施方式

以下结合全部附图对本申请作进一步详细说明。

零样本目标检测问题的具体描述如下：假定需要对n_tr个可见类和n_ts个未见类中的目标进行检测，可见类和未见类别空间不相交。在可见类空间上，给定n_tr个带有目标位置和类别信息标注的训练集D_tr＝{(b_k,I_k,Y_k,a_k),k＝1...n_tr}，其中，b_k是第k个标注框，I_k、Y_k、a_k分别为第k个标注框对应的图像、类别标签以及语义属性向量。而b_k用一个四元组(x_k,y_k,w_k,h_k)来进行表示，其中前两个元素x_k和y_k表示第k个标注框左上角的坐标，后两个值w_k和h_k分别为第k个标注框的宽和高。给定固定的类别语义矩阵α，α由可见类的类别语义矩阵α_tr和未见类的类别语义矩阵α_ts组成，其中

L_α为类别标注的类别语义维度，(

表示一个维度为a*b的实数矩阵)。零样本目标检测的测试阶段只需要在未见类范围预测测试样本类别，其目标是对一个新的测试图片I_l预测其中所有的未见类的物体位置b_ls和类别标签Y_ls，而泛化零样本目标检测的测试阶段要在全体类范围对测试样本类别作预测，其目标是对I_l在同时包含可见和未见类的全集类上预测所有可能包含可见类和未见类的物体位置b_l和类别标签Y_l。

本发明采用单阶段目标检测框架RetinaNet(ResNet+FPN+FCN)，并在此基础上加入视觉-固定语义的映射模块，以及视觉-可学习语义的映射模块，使得修正过的目标检测框架可以借助类别的语义特征来完成源域知识往目标域的迁移任务。

一、方法实现

如未特殊声明，接下来的测试均采用resnet50作为卷积网络特征提取模块，并在ImageNet预训练的参数作为权重初始化。

建立如图1所示基于可学习语义特征的零样本目标检测网络LAT-Net结构，图像从输入到输出依次经过以下几个神经网络模块：

(1)卷积网络特征提取模块：该模块主要负责提取输入图像I的多层次特征。通过多层卷积操作，可以在不同的层上获取到不同语义，不同分辨率大小的视觉特征，并分别输出。输入的RGB图像I经过该模块后输出为{C₁,C₂,...,C_i,...,C_N},其中N表示输出的层数，C_i表示第i层的图像特征，这里假设输出层数为5，则输出为{C₁,C₂,C₃,C₄,C₅}。

(2)特征金字塔特征融合模块：特征金字塔模块通过自顶而下的方法融合卷积网络特征提取模块输出的特征，将高层的特征图进行上采样插值操作，将下层的特征图进行1*1的卷积操作来归一化通道数。然后将两部分特征进行直接地逐位数相加完成特征融合，通过这种操作在保证图像特征的高分辨率同时，又克服语义信息不足问题。通过这种操作可以将原来的特征图{C₁,C₂,C₃,C₄,C₅}变换成{P₁,P₂,P₃,P₄,P₅}。其中，P_i＝g(C_i)+h(P_i+1)，其中g(·)是1*1的卷积操作，而h(·)为放大两倍的最近邻插值操作。

(3)预定义候选框模块：该模块主要负责在特征金字塔特征融合模块输出的各个特征图上，分配不同大小和位置的预定义候选框。并将这些预定义候选框经过全局池化模块，生成对应的候选框的视觉特征{T₁,T₂,T₃...T_M}，其中M为候选框总数。此处，不同的层次生成的候选框数量不同，每一层生成的候选框数量与该层特征图的分辨率有关。具体而言，在{P₁,P₂,P₃,P₄,P₅}的特征图的每一个像素点分配三种不同长宽比的候选框，分别为1:2，1:1，2:1。在每一个特征图上分配了像素点个数三倍的候选框，候选框的总个数为

W和H为标注框的宽和高。对于经过全局池化后的视觉特征T_k，设置其维度为256。

(4)视觉-语义映射模块：该模块负责将前面获取到的候选框的视觉特征T_k映射到语义空间对应的语义特征S_k。具体而言，对于每一个T_k，分别通过并联的1*1卷积操作，得到维度为L_α的两个语义特征，分别记作固定的语义特征S_k ^fix和可学习语义特征S_k ^learn。两组语义特征分别和固定的类别语义向量Φ^fix以及可学习的类别语义向量Φ^learn进行相似度计算，得到两组分类打分，记作Score^fix和Score^learn。此处，L_α设置为300。

(5)候选框分类模块：该模块将前面得到的Score^fix和Score^learn两部分分类打分进行加权求和，然后通过sigmoid激活层，获取到每个候选框对于每个类别的分类概率Score并输出。具体而言，Score＝Score^fix+λScore^learn，此处λ为超参数。然后利用设定的分类阈值来筛选出最终的结果。该模块使用focal损失函数来获取梯度信息，用于整个网络参数的更新。该模块中对于每个类别单独计算二分类损失，可以避免引入背景类，防止目标类别和背景类之间的语义混淆问题。

(6)候选框回归模块：候选框回归模块输出回归值，用于步骤(5)输出候选框的位置和大小修正。在设计时，本方法采用类别无关的方式统一处理不同的类别。该模块输入每个候选框的语义特征S_k，然后经过两层全连接神经网络，输出对应候选框的4个回归参数(dx_k,dy_k,dw_k,dh_k)，其中，前两个参数对应候选框的位置修正，后两个参数对应候选框的大小修正。该模块可以提高最终输出结果的准确度。

(7)损失函数层：该层仅用于网络训练，输入为候选框分类模块和候选框回归模块的输出，以及训练时的标签数据，此处的标签数据包括每张图像的物体真实标定框；该层损失函数L为：

L＝L_FL+L_BBOX

其中，L_FL为候选框分类的focal loss损失，定义为L_FL＝-β_t(1-p_t)^γlog(p_t)。其中，β_t和γ为超参数，其中β_t表示类别平衡系数，用来平衡不同类别的权重，γ表示聚焦参数，γ越大，则减少更多的易分类样本的损失，使得更加关注与困难的、错分的样本。当候选框标签为1的时候，p_t为候选框分类模块输出的分类概率Score。当候选框标签为0的时候，p_t＝1-Score，此处，标签为1的候选框指的是与真实标定框交并比高于阈值Thr₁的候选框，标签为0的候选框指的是与真实标定框交并比低于阈值Thr₁的候选框，此处，交并比是指两个框的相交的面积除以相并的面积。L_BBOX为候选框回归模块的损失函数，其采用Smooth L1损失函数。

(8)结果汇总模块：输入为候选框分类模块的输出，以及候选框回归模块的输出，汇总输出为最终的结果；具体说，对于候选框分类模块输出的每个候选框的分类概率Score，将Score高于阈值Thr₂的进行保留，其余的舍弃，然后将保留下来的候选框应用候选框回归模块的输出，对位置和大小进行修正。

一种基于可学习语义特征的零样本目标检测方法，所述视觉-语义映射模块中，固定的类别语义向量定义如下：固定的语义向量是指用于描述类别的属性向量，该属性向量为用户事先定义。该属性向量作为分类网络的最后一层的全连接层的权重，并将偏置固定为0。该权重在网络训练的过程中不参与更新。此处，所述的分类网络为视觉-语义映射模块中将固定的类别语义向量和可学习的类别语义向量进行相似度计算的神经网络，该神经网络为多层全连接神经网络。此处，该多层全连接神经网络一共2层，其中第一层后接ReLU激活函数。

一种基于可学习语义特征的零样本目标检测方法，所述视觉-语义映射模块中，可学习的类别语义向量是指通过神经网络学习的方式，自动学习到了类别语义向量。其学习方法见本发明的具体步骤。

本发明中，在LAT-Net神经网络框架下进行的固定类别语义与未见类类别语义融合方法的具体步骤如下：

步骤1：用在ImageNet或纯可见类训练集上全监督学习预训练好的卷积神经网络(CNN)卷积层参数作为LAT-Net神经网络框架中各个模块的初始参数；

步骤2：在可见类数据集上面对网络框架进行端到端训练。其中，对于固定的类别语义向量，将固定的语义特征S_k ^fix与固定的类别语义向量Φ^fix进行相似度计算，得到对应的分数Score^fix，具体计算过程为：Score^fix＝S_k ^fix·Φ^fix。此过程中，Φ^fix为用户实现定义，且不参与网络的参数更新。对于可学习的类别语义向量Φ^learn，将可学习语义特征S_k ^learn与Φ^learn进行相似度计算，得到对应的分数Score^learn，具体计算过程为Score^learn＝S_k ^learn·Φ^learn。此处Φ^learn参与网络的参数更新。按照此方式，可以得到源域类别的可学习语义向量Φ^learn(tr)。

步骤3：为了获取到未见类的(目标类别的)可学习语义向量Φ^learn(ts)，本发明假设未见类的可学习语义向量Φ^learn(ts)可以通过可见类的(源域类别的)可学习语义向量线性表示。该线性表示的参数矩阵记作A,其中A_yj表示目标类别y相对于源域第j个类别的组合参数，设定Φ^learn(tr)_j为源域第j个类别的可学习语义向量，j＝1,2,...,m。也即

Φ^learn(ts)_y＝A_yΦ^learn(tr)

＝A_y1Φ^learn(tr)₁+A_y2Φ^learn(tr)₂+...A_ymΦ^learn(tr)_m

可以基于可见类和未见类的固定类别语义向量进行回归优化以获取到矩阵A。具体的优化目标如下：

A^*＝argmin_A||A·Φ^fix(tr)-Φ^fix(ts)||₂+||A||₂

其中，其中A*是通过回归得到的最优化参数，||·||₂为L2正则化，||A||₂起到防止网络框架对于固定类别语义向量过拟合。Φ^fix(tr)为可见类的固定类别语义向量。Φ^fix(ts)为未见类的固定类别语义向量。对于未见类的类别可学习语义向量Φ^learn(ts)，可以利用上述方法学习到的可见类的类别可学习语义向量Φ^learn(tr)和A^*进行加权组合得到：

Φ^learn(ts)＝A^*Φ^learn(tr)

将通过以上方法得到未见类的类别可学习语义向量Φ^learn(ts)在检测网络框架中替换可见类的类别可学习语义向量Φ^learn(tr)，网络框架就可以完成未见类的检测。

步骤4：将待预测的样本输入步骤3中训练好的LAT-Net网络框架，对零样本目标检测和泛化零样本目标检测，在候选框分类模块中，将未见类投影中最高分数的类为预测结果，具体为：

c^k＝argmax_yScore_y ^k

其中，c^k为第k个候选框的预测类别，Score_y ^k为第k个候选框是第y个类别的概率。

二、性能测试与分析

1、数据集

为了验证本方法的合理性，选用了数据规模较大的MS COCO数据集和若干种目前已有的零样本目标检测方法来开展对比实验。MS COCO数据集包含80个类别，82783张训练图片和40504张验证图片。为了满足零样本目标检测的设定，本发明对已有的MS COCO数据集进行源域类别和目标类别的划分。之前的MS COCO划分存在无法利用所有的类别和划分导致类别的分布不够均匀的问题。所以在本项目的实验中，采用了一种更加合理的划分方式：从80个类别中选取了65类作为源域类别，剩余的15类作为目标域类别。

在从80类中选取目标类别时，按照多样性和稀有性的原则，按照以下步骤来选取目标域类别：

1)根据训练集中的实例总数按升序对属于同一个父类的类别进行排序；

2)对于每一个父类，本发明选择五分之一的稀有类作为目标类，结果是15个源域类和65个目标类，请注意，父类信息仅用于创建不同的源域/目标域拆分，在训练和测试阶段不会使用；

3)为了满足零样本设定，从训练集中移除所有包含目标类别的图片，创建了一个包含62300个只包含源域类别图像的训练集；

4)为了测试零样本检测，本发明从验证集中选择了10098张图像，其中至少存在一个不可见类的实例，标定框总数为16388，本发明同时使用源域类别和目标域的标定来测试泛化零样本目标检测；

5)本发明从验证集中挑选了38096个图像，其中至少有一个源域类别的实例出现，以测试目标类上的传统检测性能。

如图2-1～2-6未见类检测结果样例图，图中框为标注框，框内为对应的物体图像，框的左上角为类别的名称以及类别id，此处的类别id为类别在所有类别的排序下标。从图中可看出，即使训练集不出现对应的类别，设计的LAT-Net依旧可以对这些未见类进行检测。

2、训练设置及超参数设置

所有实验中，图片最短边统一缩放到800像素。实验使用Adam优化器，学习率设置为10^-5。所有实验均采用单张12G显存的Nvidia Titan X(Pascal)，神经网络通过pytorch框架实现。

模型中涉及的3个超参数设置如下：focal loss中的α设置为2，γ设置为0.25。候选框分类模块中的λ设置为1。

3、性能测试结果，如表1所示零样本目标检测和泛化零样本目标检测场景下的结果对比。

表1:

如表1所示，展示了本项目的方法和其他方法在MS COCO数据集上的平均准确率mAP和平均召回率mAR。在零样本目标检测场景(ZSD)下，展示了目标类别的检测结果；在泛化零样本目标检测场景下，同时展示了源域类别和目标域的检测结果，并且展示了源域类别和目标类别准确率和召回率的调和平均数。结果表示，SB和DSES检测算法准确率和召回率要远远比后面四种端到端的训练方式效果要差。这说明端到端的训练方式可以提取到更好的特征，便于后面的候选框分类网络和回归网络做出更好的分类和位置调整。在后续四种端到端的学习方式中，FL方法可以在源域类别取得较好的mAP，但是对于目标类别检测性能较差。这现象说明在源域训练时，没有利用固定的语义信息，会使得网络提取的特征缺乏语义关联性，从而导致性能较差。最后三种方法FL-vocab，PL-vocab还有out-SL-vocab都可以同时在源域和目标域取得较好的检测结果，其中PL-vocab设计了与任务更加相关的损失函数，可以在目标类别上取得比FL-vocab更好的检测性能。本项目的out-SL-vocab方法，相比于其他两者，使用了可学习的语义特征和固定语义特征相结合的方法，使得网络在源域训练时，既可以充分利用类别的词向量信息，又可以利用到端到端学习，发现更加具有鉴别能力的类别向量，取得了最好的检测准确率。值得注意的是，out-SL-vocab方法可以在源域上取得比另外两者更好的检测性能，带来这种结果的原因是，其他两种方法使用了固定顶层网络的方法，严重影响了网络的表达能力。而out-SL-vocab引入了可学习的语义层，可以缓解这种现象，所以在源域的检测性能介于有监督学习方法(FL)和固定语义特征方法(FL-vocab)之间。综合以上现象说明，使用端到端的训练方式，使用固定的语义层还有可学习的语义层三种设计方案合理结合都是对零样本目标检测和泛化零样本目标检测任务有意义的。

下面简单介绍一下表1中涉及到的其他方法：

SB:该方法没有采用端到端的训练方式，选用极为耗时的Edge-Box候选框产生方式，并采用基于残差网络的Inception-v2网络来提取候选框的参数。在损失函数上，使用了最大化边缘距离来对齐语义特征和视觉特。

DSES:该方法在SB的基础上，加上了80类之外物体的候选框用于训练，也是一种非端到端的训练方式。

FL:该方法直接使用有监督学习模型在源域上使用Focal损失进行训练，在对目标类别进行检测时，直接利用候选框在源域类别上的得分并基于类别之间的语义相似度，来获取候选框相对于未见类别的分类概率。该方法使得训练过程容易对源域过拟合，使得源域检测性能较高，目标类别检测的准确率特别低。

FL-vocab：该方法也是基于retinanet网络的零样本目标检测代码，该方法也使用了外部的词向量来完成固定语义向量的去噪任务和Focal loss来进行分类头网络的训练。该方法在对未见类进行检测时，使用了源域类别的得分，以及可见类别和未见类别之间的相似度，来得出未见类别的分类概率。

PL-vocab：该方法设计了一种类似于三元组损失的监督函数来代替Focal损失，来保证分类头网络可以最大化组间距离，拉近组内距离。可以在目标类别上取得比FL-vocab更好的检测性能。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种零样本目标检测系统，其特征在于，系统从输入到输出依次包括如下几个神经网络模块：

1)提取输入图像I的多层次特征的卷积网络特征提取模块：通过多层卷积操作，在不同的层上获取到不同语义，不同分辨率大小的视觉特征，并分别输出；

输入的RGB图像I经过卷积网络特征提取模块后输出为{C₁,C₂,...,C_i,...,C_N},其中N表示输出的层数，C_i表示第i层的图像特征；

该层损失函数L为：

L＝L_FL+L_BBOX，

2.根据权利要求1所述零样本目标检测系统，其特征在于，所述步骤3)具体实现方法：此处，不同的层次生成的候选框数量不同，每一层生成的候选框数量与该层特征图的分辨率有关；在{P₁,P₂,...,P_i,...P_N}的特征图的每一个像素点分配三种不同长宽比的候选框，分别为1:2，1:1，2:1；在每一个特征图上分配了像素点个数三倍的候选框，候选框的总个数为

3.根据权利要求1所述零样本目标检测系统，其特征在于，所述步骤5)候选框分类模块使用focal损失函数来获取梯度信息，用于整个网络参数的更新；对于每个类别单独计算二分类损失，避免引入背景类，防止目标类别和背景类之间的语义混淆问题。

4.一种可学习语义和固定语义融合方法，在权利要求1至3中任意一种零样本目标检测系统中进行训练融合，方法具体步骤如下：

步骤2：在可见类数据集上面对网络框架进行端到端训练：

Φ^learn(ts)_y＝A_yΦ^learn(tr)

＝A_y1Φ^learn(tr)₁+A_y2Φ^learn(tr)₂+...A_ymΦ^learn(tr)_m

A^*＝argmin_A||A·Φ^fix(tr)-Φ^fix(ts)||₂+||A||₂

其中，其中A^*是通过回归得到的最优化参数；||·||₂为L2正则化，||A||₂起到防止网络架构对于固定语义向量过拟合；Φ^fix(tr)为可见类的固定类别语义向量；Φ^fix(ts)为未见类的固定类别语义向量；对于未见类的类别可学习语义向量Φ^learn(ts)；

利用上述方法学习到的可见类的类别可学习语义向量Φ^learn(tr)和A^*进行加权组合得到：

Φ^learn(ts)＝A^*Φ^learn(tr)