CN116109841B

CN116109841B - 一种基于动态语义向量的零样本目标检测方法及装置

Info

Publication number: CN116109841B
Application number: CN202310380077.5A
Authority: CN
Inventors: 李浩宇; 梅继林; 胡瑜; 李玮; 高少波
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-08-15
Anticipated expiration: 2043-04-11
Also published as: CN116109841A

Abstract

本发明公开了一种基于动态语义向量的零样本目标检测方法及装置，通过将可见类的语义向量设置为网络参数，然后通过设计的两路分类分支网络结构、引入N‑pair loss损失函数，在训练过程中结合可见类视觉特征修改可见类的语义向量在语义空间中的分布，以获得更合理的语义向量分布，从而同时提高对可见类和不可见类的检测效果。本发明解决了部分类别对象数据难采样前提下如何进行目标检测这一问题，且相比以往的零样本目标检测，本发明基于动态语义向量建模，语义分布更好的贴近视觉特征分布，因此具有更高的目标检测精度。

Description

一种基于动态语义向量的零样本目标检测方法及装置

技术领域

本发明属于深度学习目标检测领域，具体涉及一种基于动态语义向量的零样本目标检测方法及装置。

背景技术

基于深度学习的目标检测方法在自动驾驶等领域中有着广泛的应用，尽管这些方法有较高的精度和泛化性，但它们需要大量的数据进行训练；因此，数据稀缺问题和推理时出现的新类(即那些在训练阶段没有看到的类)阻碍了这些方法在现实场景中的应用；为了解决上述问题，零样本目标检测领域被提出，并引起了广泛的研究关注。

在零样本目标检测中，模型在训练阶段仅能使用可见类数据进行训练，而在推理过程中则需要定位和分类不可见类数据；不可见类数据不出现在模型训练过程中，但出现在模型推理过程中；目前，大多数零样本目标检测方法都是基于Faster-RCNN的；这些方法都假设Faster-RCNN的包围框回归网络可以直接应用到不可见类检测中，而不需要对其参数进行调整。

在以往的方法中, 语义信息被用于构建各目标类别的语义嵌入空间，并被用于对不可见类对象的分类；语义向量在分类网络中被视作类别的常量中心，通过比较映射到语义空间的视觉特征到各个语义向量的距离来完成对目标的分类。通常来说，候选包围框中的对象类别是与其映射到语义空间的视觉特征距离最近的语义向量的类别。

从语义向量与视觉特征的来源分析，语义向量与视觉特征之间存在着差异；语义向量通常是通过自然语言处理模型从大量语料库中学习而来，而视觉特征是通过卷积神经网络直接从对象图像中提取的；因此，语义向量不能充分地表示视觉特征。由于语义空间和视觉空间之间的分布不一致，直接使用语义向量进行分类会降低不可见类的准确性。

发明内容

针对现有技术的不足，本发明提出了一种基于动态语义向量的零样本目标检测方法及装置；通过将可见类的语义向量设置为网络参数，然后通过设计的两路分类分支网络结构、引入的N-pair loss损失函数，在训练过程中结合可见类视觉特征修改可见类的语义向量在语义空间中的分布，以获得更合理的语义向量分布，从而同时提高对可见类和不可见类的检测效果。

为实现上述技术目的，该方法是通过以下技术方案来实现的：

本发明实施例第一方面提供了一种基于动态语义向量的零样本目标检测方法，该方法包括如下步骤：

（1）将待检测图像输入模型，在骨干网络上进行前向传播，得到提取出的视觉特征；

（2）将步骤（1）得到的视觉特征经过BA-RPN生成图像中背景对应的语义向量，用于更新双路分类分支网络中的背景类语义向量，生成候选包围框，再利用RoI池化操作，得到固定大小的候选包围框视觉特征；

（3）将步骤（2）得到的视觉特征经过包围框回归网络，使用回归结果对包围框坐标进行修正，得到对应目标的包围框坐标；

（4）利用步骤（2）得到的视觉特征，经过双路分类分支网络的静态分支前向传播，在语义空间中与各个静态的可见类别语义向量进行距离比较，使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为静态分类分支的可见类分类结果；

（5）利用步骤（2）得到的视觉特征，经过双路分类分支网络的动态分支前向传播，在语义空间中与各个动态的可见类别语义向量进行距离比较，使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为动态分类分支的可见类分类结果；

（6）利用Max函数对步骤（4）和步骤（5）得到的分类结果进行逐类别筛选，每个类别保留两个分支分类结果中的较大值，使用softmax函数对筛选后的结果进行归一化处理，使得所有类别的概率总和为1，得到最终的可见类分类结果；

（7）利用步骤（6）中的可见类分类结果，结合静态可见类语义向量，将可见类分类结果表示为语义空间中可见类语义向量的线性组合，使用该线性组合，在语义空间中与不可见类各类别语义向量求内积，得到不可见类的分类结果。

进一步地，所述步骤（1）中，所述骨干网络为ResNet-101在ImageNet上的预训练网络模型。

进一步地，所述语义向量是通过word2vec模型预训练模型得到。

进一步地，所述动态的可见类别语义向量作为模型参数，在从word2vec模型预训练模型得到后，需要在模型训练过程根据可见类视觉特征进行参数更新。

进一步地，所述双路分类分支网络由静态语义向量分支和动态语义向量分支组成。

进一步地，所述静态分支中使用的语义向量是常量，在训练过程中不会改变。

进一步地，所述动态分支中使用的语义向量是变量，会根据训练过程中的可见类视觉特征变化。

本发明实施例第二方面提供了一种基于动态语义向量的零样本目标检测装置，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述基于动态语义向量的零样本目标检测的方法。

本发明实施例第三方面提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于动态语义向量的零样本目标检测的方法。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于动态语义向量的零样本目标检测的方法。

与现有技术相比，本发明的有益效果是：本发明采用模型集成的思想，设计了双路分类分支网络(TCB)；TCB的两个分类分支分别得到更新后的语义向量分类结果和原始的语义向量分类结果，然后使用Max函数对分类结果进行逐类别筛选，得到最终的分类结果。本发明解决了部分类别对象数据难采样前提下如何检测出现频率低的类别物体这一问题，且相比以往的零样本目标检测方法，本发明基于动态语义向量建立，语义分布更好的贴近视觉特征分布，因此具有更高的目标检测精度。

附图说明

图1为本发明实施例示出的基于动态语义向量的零样本目标检测方法的流程图；

图2为本发明实施例示出的基于动态语义向量的零样本目标检测方法的模型整体结构图；

图3为本发明实施例示出的基于动态语义向量的零样本目标检测方法的双路分类分支网络结构图；

图4为本发明实施例示出的基于动态语义向量的零样本目标检测方法的方法对比结果图；

图5为本发明实施例示出的基于动态语义向量的零样本目标检测装置的示意图；

图6是本发明实施例示出的一种电子设备的示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

首先给出技术术语解释：

（1）Faster-RCNN：Faster Region Convolutional Neural Networks，两阶段目标检测模型；一阶段利用RPN生成可能包含目标的候选框并提取相应特征，二阶段对候选框进行分类和位置调整；

（2）BA-RPN：Background Aware Region Proposal Network，背景知晓区域候选网络；利用1×1的卷积核进行前景背景区分的区域候选网络。该网络根据图像特征图生成可能包含目标的候选框，同时将区分背景类的卷积核参数作为语义向量输出，使得背景类语义向量能够根据数据集进行自适应更新；

（3）RoI Pooling：感兴趣区域池化，利用双线性插值、最大值池化，将不同大小候选框对应的特征图统一到相同的维度；

（4）RPN：Region Proposal Network，区域候选网络；根据图像特征图生成可能包含目标的候选框。

本发明实施例提供的一种基于动态语义向量的零样本目标检测方法，如图1所示，包括如下步骤：

（1）使用骨干网络提取的视觉特征：将待检测图像输入模型，在骨干网络上进行前向传播，得到提取出的视觉特征；

（2）使用BA-RPN生成候选包围框以及背景语义向量：将步骤（1）得到的视觉特征经过BA-RPN生成图像中背景对应的语义向量，用于更新双路分类分支网络中的背景类语义向量，生成候选包围框，利用RoI Pooling池化操作，得到固定大小的候选包围框视觉特征；

（3）用包围框回归网络对目标的位置进行回归：将步骤（2）得到的视觉特征经过包围框回归网络，使用回归结果对包围框坐标进行修正，得到对应目标的包围框坐标；

（4）使用双路分类分支网络的静态分类分支对视觉特征进行分类：利用步骤（2）得到的特征，经过双路分类分支网络的静态分支前向传播，在语义空间中与各个静态的可见类别语义向量进行距离比较，使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为静态分类分支的可见类分类结果；

（5）使用双路分类分支网络的动态分类分支对视觉特征进行分类：利用步骤（2）得到的视觉特征，经过双路分类分支网络的动态分支前向传播，在语义空间中与各个动态的可见类别语义向量进行距离比较，使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为动态分类分支的可见类分类结果；

（6）对两路分类结果进行筛选与汇总：利用Max函数对步骤（4）和步骤（5）得到的分类结果进行逐类别筛选，每个类别保留两个分支分类结果中的较大值，使用softmax函数对筛选后的结果进行归一化处理，使得所有类别的概率总和为1，得到最终的可见类分类结果；

（7）可见类分类结果向不可见类分类迁移：利用步骤（6）中的可见类分类结果，结合静态可见类语义向量，将可见类分类结果表示为语义空间中可见类语义向量的线性组合，使用该线性组合，在语义空间中与不可见类各类别语义向量求内积，得到不可见类的分类结果。

参见图2的模型整体结构图，该模型基于Faster-RCNN架构，模型的主干是Imagenet上Resnet101的预训练网络；对于RPN部分，选择背景感知区域建议网络(BA-RPN)在生成候选包围框的同时生成背景视觉特征对应的语义向量；对训练过程中输入的图像，首先使用ResNet101提取视觉特征，然后使用BA-RPN生成背景类别的语义向量以及候选包围框，其中，/>表示可见类目标候选包围框，/>表示四维实数元组；由RoI Pooling层获得固定大小的候选框特征/>。将候选框特征/>分别输入包围框回归网络和分类网络，得到候选框的坐标和其中对象的分类结果；在推理过程中，模型利用从可见类数据中学习到的参数来检测不可见类对象。

参见图3的双路分类分支网络（TCB）结构图，双路分类分支网络（TCB）由静态语义向量分支和动态语义向量分支组成；静态分支中使用的语义向量是常量，在训练过程中不会改变，而动态分支中使用的语义向量是变量，会根据训练过程中的可见类视觉特征变化；双路分类分支网络（TCB）利用Max函数对两条分类分支的预测结果进行筛选，得到最终的分类结果。

图3中上方分支是静态语义向量分支，下方分支是动态语义向量分支；和/>分别表示静态可见类词向量和动态可见类词向量，/>表示额外语义词汇表，/>表示候选包围框的数量，/>表示压缩后的包围框视觉特征维度，/>表示词向量的维度，/>表示/>中的词汇数量，/>表示可见类类别个数；解码器是特征语义对齐线性层/>和注意线性层/>映射网络逻辑上的逆函数，它将语义空间的特征重新投影回视觉空间，解码器能够提高特征语义对齐线性层/>和注意线性层/>的映射能力。

静态语义向量分支由候选包围框特征压缩网络、将视觉特征投影到语义空间的特征语义对齐线性层/>、额外语义词汇表/>构建可见类与其在/>中的相关词所联系的注意线性层/>、可见类类别语义向量矩阵/>(其中，/>包括BA-RPN生成的背景类语义向量)这五部分组成；其中，/>由两个线性层组成，并使用RELU作为激活函数；/>和/>是常量，、/>和/>在训练时会被修改。

静态语义向量分支中，候选包围框中的经候选包围框特征压缩网络/>压缩维度后变为/>；通过特征语义对齐线性层/>将/>映射到语义空间，通过矩阵乘法在语义空间计算映射特征与/>中每个语义向量的相似度/>；通过注意线性层/>将/>重新映射到语义空间，通过/>计算静态语义向量分支中的类别概率/>。

静态语义向量分支可以用公式（1）-公式（2）表示：

（1）

（2）

其中，表示静态语义向量分支中压缩后的候选框特征，/>表示候选框特征，/>表示静态语义向量分支中的类别概率，/>表示可见类词向量，/>表示额外语义词汇表。

动态语义向量分支的结构与静态语义向量分支相似，也包括候选包围框特征压缩网络、特征语义对齐层/>、额外语义词汇表/>、构建可见类与其在/>中的相关词的联系的注意线性层/>、可见类类别语义向量矩阵/>五个部分。/>、/>、/>、与/>、/>、/>结构相同，但不共享参数。在动态语义向量分支中，只有/>是不变的，/>、/>、/>、/>(背景语义向量除外)在训练时被修改。/>初始化时与/>相同，并将在训练期间更新。

在动态语义向量分支中，候选包围框中的经/>压缩维度后变为/>；通过层/>映射到语义空间，在语义空间中通过矩阵乘法计算映射特征与/>中每个语义向量的相似度/>；通过网络层/>将/>重新映射到语义空间，通过/>计算动态语义向量分支中的类别概率/>。

动态语义向量分支可以用公式（3）-公式（4）表示：

（3）

（4）

其中，表示候选框特征，/>表示动态语义向量分支中压缩后的候选框特征，/>表示动态语义向量分支中的类别概率。

最终，可见类通过TCB的分类结果可以用公式（5）表示为：

（5）

其中，表示TCB的可见类分类结果，/>表示softmax函数，Max函数逐类别比较两个分支的相似度。

TCB的不可见类分类结果可以用公式（6）表示为：

（6）

其中，表示TCB的不可见类分类结果，/>表示不可见类的语义向量，表示静态语义分支可见类语义向量矩阵的转置。

在对每个分支的分类器中，语义向量作为类别中心，需要尽可能的相互远离，以获得更好的分类结果，使用N-pair loss类似的损失项，用公式（7）表示：

（7）

其中、/>表示任意可见类的语义向量，/>表示计算/>和/>的余弦相似度，/>表示第/>个语义向量对应的N-pair loss，/>表示可见类语义向量总数，/>表示第/>个可见类语义向量的编号；用公式（8）表示：

（8）

的整体N-pair loss损失项如式(8)所示，是对计算式(7)对所见的每个类类别的累计结果；其中，/>表示/>的整体N-pair loss损失项，/>表示可见类语义向量总数，表示第/>个可见类语义向量的编号；损失项使语义向量相互分离，同时提高了视觉特征的表示能力，提高了分类效果。

模型整体的损失函数如式（9）所示，包含四个部分：

（9）

其中，表示模型整体的损失函数，/>为分类的交叉熵损失，/>为回归网络的边界框回归损失，损失函数为SmoothL1；/>是N-pair loss对应的权重超参数，/>表示的整体N-pair loss损失项；/>是编码器-解码器损失项对应的权值超参数，该损失项将映射网络/>和/>作为编码器，并添加额外的网络层作为映射网络的反函数，即解码器；/>使用均方误差作为损失函数来度量编码前特征和解码后特征的差异，可以提高/>和/>的映射能力。

为了验证该零样本目标检测方法的有效性，本实施例TCB在MS-COCO数据集上做了实验并与一些零样本目标检测方法PL、BLC、ZSL进行了比较，如图4所示，实验结果证明了本发明的有效性；在65/15类别划分上，与ZSI相比，本实施例TCB在可见类的召回率和准确率两种指标上分别带来2.27%和1.24%的增长；在不可见类的召回率和准确率上分别带来0.92%和0.21%的增长。在48/17类别划分上，与ZSI相比，对于可见类，本实施TCB例带来了0.86%的准确率增长和1.21%的召回率增长；对于不可见类，本实施例带来了0.07%的准确率增长。上述结果表明，更新后的可见类语义向量更符合视觉特征，能较好地将可见类的预测结果转化为对不见类的预测，该方法能够在提高不可见类目标检测效果的同时，提高可见类目标的检测效果。

与前述基于动态语义向量的零样本目标检测方法的实施例相对应，本发明还提供了基于动态语义向量的零样本目标检测装置的实施例。

参见图5，本发明实施例提供的一种基于动态语义向量的零样本目标检测装置，包括一个或多个处理器，用于实现上述实施例中的一种基于动态语义向量的零样本目标检测的方法。

本发明基于动态语义向量的零样本目标检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于动态语义向量的零样本目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

与前述基于动态语义向量的零样本目标检测方法的实施例相对应，本申请实施例还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于动态语义向量的零样本目标检测方法。如图6所示，为本申请实施例提供的基于动态语义向量的零样本目标检测方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、DMA控制器、磁盘、以及非易失内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

与前述基于动态语义向量的零样本目标检测方法的实施例相对应，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于动态语义向量的零样本目标检测的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于动态语义向量的零样本目标检测方法，其特征在于，该方法包括如下步骤：

（4）利用步骤（2）得到的视觉特征，经过双路分类分支网络的静态分支前向传播，在语义空间中与各个静态的可见类别语义向量进行距离比较，使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为静态分类分支的可见类分类结果；所述静态分支中使用的语义向量是常量，在训练过程中不会改变；

（5）利用步骤（2）得到的视觉特征，经过双路分类分支网络的动态分支前向传播，在语义空间中与各个动态的可见类别语义向量进行距离比较，使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为动态分类分支的可见类分类结果；所述动态分支中使用的语义向量是变量，会根据训练过程中的可见类视觉特征变化；

2.根据权利要求1所述的基于动态语义向量的零样本目标检测方法，其特征在于，所述步骤（1）中，所述骨干网络为ResNet-101在ImageNet上的预训练网络模型。

3.根据权利要求1所述的基于动态语义向量的零样本目标检测方法，其特征在于，所述语义向量是通过word2vec模型预训练模型得到。

4.根据权利要求3所述的基于动态语义向量的零样本目标检测方法，其特征在于，所述动态的可见类别语义向量作为模型参数，在从word2vec模型预训练模型得到后，需要在模型训练过程根据可见类视觉特征进行参数更新。

5.根据权利要求1所述的基于动态语义向量的零样本目标检测方法，其特征在于，所述双路分类分支网络由静态语义向量分支和动态语义向量分支组成。

6.一种基于动态语义向量的零样本目标检测装置，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1~5任一项所述的基于动态语义向量的零样本目标检测方法。

7.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-5任一项所述的基于动态语义向量的零样本目标检测方法。

8.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1~5中任意一项所述的基于动态语义向量的零样本目标检测方法。