CN116051943A

CN116051943A - 跨模态知识引导的小样本神经网络目标检测方法

Info

Publication number: CN116051943A
Application number: CN202211642380.XA
Authority: CN
Inventors: 刁文辉; 路晓男; 冯瑛超; 张强; 闫志远; 李俊希; 申志平
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-02
Anticipated expiration: 2042-12-20
Also published as: CN116051943B

Abstract

本发明提供了一种跨模态知识引导的小样本神经网络目标检测方法，包括：构建目标检测模型；获取已标注的样本图像集；将所述样本图像集输入到所述目标检测模型中进行训练，得到训练好的目标检测模型，作为小样本目标检测模型；利用所述小样本目标检测模型对目标图像中的目标的类别和位置进行检测。本发明在现有的神经网络小样本目标检测方法的基础上，引入文本模态知识，通过文本知识提取网络和跨模态知识融合网络将从每个类别的文本描述中提取的高级语义信息与图像特征融合，进而送入检测头部网络实现新类别目标的预测，解决小样本图像数据中类别泛化信息不足的问题，能够提升神经网络小样本目标检测的性能。

Description

跨模态知识引导的小样本神经网络目标检测方法

技术领域

本发明涉及深度神经网络以及计算机视觉领域，特别是涉及一种跨模态知识引导的小样本神经网络目标检测方法。

背景技术

基于深度学习的目标检测模型都需要大量的数据投喂才能获得较好的泛化性能，然而标注大量的数据是十分耗费人力和时间的过程。相反，人类则可以根据新事物的极少样例学会识别新的物体。因此，小样本目标检测被提出。小样本目标检测将在数据量充足的基类数据集上学习的知识迁移到数据量极少的新类数据集上，以提升新类别的检测效果。

神经网络小样本目标检测方法可以分为基于元学习的方法和基于微调的方法。基于元学习的方法受小样本学习的启发，构建包含支撑集和查询集的小样本任务。支撑集由每个类别的k个目标实例构成，查询集是需要检测目标的图片。基于元学习的小样本目标检测方法从支撑集中提取每个类别的原型特征，以用于检测出查询集图像中对应类别的目标。基于微调的小样本目标检测方法则首先在数据丰富的包含基类的数据上训练模型，然后在数据有限的包含新类别的数据集上进行微调，使模型可以检测出新类别的实例。然而，当前的小样本目标检测方法都只在少量的图片中提取信息，当每个类别的图片数量很少时，图片中包含的信息不具有泛化性，模型无法学习到该类别真正的特性。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种跨模态知识引导的小样本神经网络目标检测方法，所述方法包括如下步骤：

S100，构建目标检测模型；所述目标检测模型用于基于m个设定类别的文本描述对待检测图像中的目标的所属类别和位置进行检测，所述小样本目标神经网络模型包括特征提取器、候选区域生成网络、文本知识提取网络、跨模态知识融合网络和检测头部网络；其中，每个设定类别的文本描述用于描述对应设定类别的固有属性，并且，任意两个设定类别的文本描述之间的相似度小于设定相似度阈值；

S200，获取已标注的样本图像集；所述样本图像集包括m个设定类别的样本图像，并且属于同一设定类别的样本图像的数量小于设定数量阈值；

S300，将所述样本图像集输入到所述目标检测模型中进行训练，得到训练好的目标检测模型，作为小样本目标检测模型；

S400，利用所述小样本目标检测模型对目标图像中的目标的类别和位置进行检测；

其中，S300具体包括：

S301，将任一样本图像IMG_i输入到所述特征提取器中进行特征提取，得到对应的特征图IF_i；i的取值为1到n，n为样本图像集中的样本图像数量；

S302，将IF_i输入到所述候选区域生成网络中进行候选区域特征提取，得到对应的f(i)个候选区域特征向量；

S303，将第j个设定类别的文本描述输入到所述文本知识提取网络中进文本语义特征提取，得到对应的文本语义特征向量TF_j；j的取值为1到m；

S304，将IF_i对应的第k个候选区域特征向量IF_ik和TF_j输入到跨模态知识融合网络中进行融合，得到对应的融合特征向量ITF^j _ik；k的取值为1到f(i)；

S305，将ITF^j _ik输入到检测头部网络中进行检测，得到对应的检测结果；

S306，基于每个样本图像对应的检测结果和设定损失函数获取当前检测模型对应的损失，所述损失包括类别损失和位置损失；

S307，设置C＝C+1；如果当前检测模型对应的损失小于设定损失阈值，或者，C＞C0，则将当前检测模型作为所述小样本目标检测模型，否则，执行S301；C的初始值为0，C0为设定迭代次数。

本发明至少具有以下有益效果：

本发明在现有的神经网络小样本目标检测方法的基础上，引入文本模态知识，通过文本知识提取网络和跨模态知识融合网络将从每个类别的文本描述中提取的高级语义信息与图像特征融合，进而送入检测头部网络实现新类别目标的预测，解决小样本图像数据中类别泛化信息不足的问题，能够提升神经网络小样本目标检测的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的跨模态知识引导的小样本神经网络目标检测方法的流程图。

图2为示出文本语义特征的示意图。

图3为示出融合特征提取的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种跨模态知识引导的小样本神经网络目标检测方法，如图1所示，所述方法可包括如下步骤：

S100，构建目标检测模型；所述目标检测模型用于基于m个设定类别的文本描述对待检测图像中的目标的所属类别和位置进行检测，所述小样本目标神经网络模型包括特征提取器、候选区域生成网络、文本知识提取网络、跨模态知识融合网络和检测头部网络；其中，每个设定类别的文本描述用于描述对应设定类别的固有属性，并且，任意两个设定类别的文本描述之间的相似度小于设定相似度阈值。

在本发明实施例中，目标检测模型可为神经网络模型，例如，Faster RCNN网络结构。本领域技术人员知晓，构建目标检测模型可包括设置模型的初始信息，包括网络参数的初始值、迭代次数C0、损失函数等。

其中，特征提取器可为残差网络。在一个示意性实施例中，可为50层的残差网络。优选，在另一个示意性实施例中，特征提取器可为101层的残差网络，以提取到更多的特征信息。

候选区域生成网络可由三个卷积层依次串联构成，每个卷积层卷积核可为1×1卷积核，每个卷积层的网络参数不同。文本知识提取网络可为门控循环神经网络，如图2所示。

跨模态知识融合网络可由三个卷积层构成，分别为第一卷积层、第二卷积层和第三卷积层，如图3所示。跨模态知识融合网络的每个卷积层卷积核可为1×1卷积核，每个卷积层的网络参数不同。

在本发明实施例中，检测头部网络可由全连接层组成。全连接层的结构可为现有结构。

在本发明实施例中，设定类别可基于实际需要进行设置，可以为大类，也可以为大类中的具体型号，例如，设定类别可包括机场、车辆、储罐、船舶、飞机、波音737等。每个设定类别的文本描述用于描述对应设定类别的固有属性，即能够每个类别的文本描述被设置为能够知晓该类别的固有属性(包括共性和独特性)，例如，飞机的文本描述可为：具有一个机身和两个机翼等。任意两个设定类别的文本描述之间具有正交性或者具有基本正交性，即任意两个设定类别的文本描述之间的相似度小于设定相似度阈值，从而能够使得任意两个设定类别能够容易被区分开来。设定相似度阈值可为经验值。任意两个设定类别的文本描述之间的相似度可基于现有的相似度计算方法获取，例如，欧式距离、马氏距离等。

S200，获取已标注的样本图像集；所述样本图像集包括m个设定类别的样本图像，并且属于同一设定类别的样本图像的数量小于设定数量阈值。

在本发明实施例中，样本图像集中可包括n个样本图像，n可基于实际需要进行设置。优选，每个类别对应的样本图像的数量可相同。

每个样本图像中标注了目标的类别和位置。位置可包括目标在图像中的中心坐标和目标在图像中的高度和宽度等。

在本发明实施例中，设定数量阈值可基于实际需要设置，例如，可为小于20的数值。由于每个类别对应的样本图像的数量小于设定数量阈值，所以本发明实施例中训练用的样本为小样本，训练得到的目标检测模型为小样本目标检测模型。

S300，将所述样本图像集输入到所述小样本目标检测模型中进行训练，得到训练好的小样本目标检测模型。

进一步地，S300可具体包括：

S301，将任一样本图像IMG_i输入到所述特征提取器中进行特征提取，得到对应的特征图IF_i；i的取值为1到n。

在本发明实施例的特征提取器采用101层的残差网络时，IF_i为下采样32倍的2048维的特征图。

通过S301，可得到所有样本图像的特征图。

S302，将IF_i输入到所述候选区域生成网络中进行候选区域特征提取，得到对应的f(i)个候选区域特征向量。

在本发明实施例中，每个特征图的候选区域特征可为可能包含该特征图中的目标的区域特征。每个候选区域特征向量为将对应的候选区域特征进行池化后得到的2048维的特征向量。

本领域技术人员知晓，将IF_i输入到卷积网络中进行候选区域特征提取，得到对应的f(i)个候选区域特征向量可为现有技术。

通过S302，可得到每个特征图的候选区域特征向量。

S303，将第j个设定类别的文本描述输入到所述文本知识提取网络中进文本语义特征提取，得到对应的文本语义特征向量TF_j；j的取值为1到m。

如图2所示，每个设定类别的文本描述可通过门控循环神经网络得到对应的文本语义特征向量，在本发明实施例中，为2048维的文本语义特征向量。本领域技术人员知晓，通过门控循环神经网络获取文本描述的文本语义特征可为现有技术。

S304，将IF_i对应的第k个候选区域特征向量IF_ik和TF_j输入到跨模态知识融合网络中进行融合，得到对应的融合特征向量ITF^j _ik；k的取值为1到f(i)。

如图3所示，S304可具体包括：

S3041，将IF_ik输入到所述第一卷积层中进行特征提取，得到对应的第一特征向量IF1_ik。

S3042，将TF_j输入到所述第二卷积层和所述第三卷积层中进行特征提取，分别得到对应的第二特征向量TF2_j和第三特征向量TF3_j。

S3043，获取融合特征向量ITF^j _ik＝IF_ik+(IF1_ik×TF2_j)×TF3_j，即首先将图像特征和第二卷积层卷积得到的文本语义特征进行乘法计算，得到一个权重，然后将这个权重与第三卷积层得到的文本语义特征进行乘法计算，对第三卷积层得到的文本语义特征进行调整，以使得其能够更适合融合到图像特征中。

S304的技术效果在于，将文本语义特征融合到图像特征中，能够丰富图像特征中的类别泛化信息。

S305，将ITF^j _ik输入到检测头部网络中进行检测，得到对应的检测结果。

将ITF^j _ik输入到由全连接层组成的检测头部网络中后，会得到(m+4)个输出结果，包括对应的目标属于每个类别的概率和在图像中的位置，具体实现可为现有技术。

在本发明实施例中，ITF^j _ik的检测结果可包括(P^r _ik，G_ik)，P^r _ik为ITF^j _ik对应的样本图像中的目标属于设定类别r的概率，r的取值为1到m，P^r _ik＝max(P¹ _ik，P² _ik，…，P^j _ik，…，P^m _ik)，即检测结果中的类别为所有输出结果中的概率最大概率对应的类别。G_ik为ITF^j _ik对应的样本图像中的目标在图像中的位置，G_ik＝(X_ik，Y_ik，H_ik，W_ik，)，X_ik和Y_ik为ITF^j _ik对应的样本图像中的目标在图像中的中心点的横坐标和纵坐标，H_ik和W_ik分别为ITF^j _ik对应的样本图像中的目标在图像中的高度和宽度。

S306，获基于每个样本图像对应的检测结果和设定损失函数获取当前检测模型对应的损失，所述损失包括类别损失和位置损失。

在本发明实施例中，所述设定损失函数可包括用于计算类别损失的交叉熵损失函数和用于计算位置损失的L1损失函数。当前检测模型的类别损失可为所有样本图像的类别损失之和，当前检测模型的位置损失可为所有样本图像的位置损失之和。每个样本图像对应的类别损失和位置损失可为现有技术，例如，第i个样本图像对应的类别损失可为

P1^r _ik为ITF^j _ik对应的样本图像中的目标属于设定类别r的真实概率。第i个样本图像对应的位置损失可为

G_i′_k为ITF^j _ik对应的样本图像中的目标在图像中的真实位置。

S307，设置C＝C+1；如果当前检测模型对应的损失小于设定损失阈值，即类别损失和位置损失均小于设定损失阈值，或者，C＞C0，则将当前检测模型作为所述小样本目标检测模型，否则，执行S301；C的初始值为0。

在本发明实施例中，设定损失阈值可为经验值。C0可根据经验进行设置。本领域技术人员知晓，如果训练次数达到C0，但是损失函数还没有收敛，则说明训练参数设置不合理，需要增加训练次数，具体实现方式可为现有技术。

S400，利用所述训练好的小样本目标检测模型对目标图像中的目标的类别和位置进行检测。

进一步地，在本发明实施例中，S400具体可包括：

S401，将目标图像输入到所述特征提取器中进行特征提取，得到对应的图像特征图；

S402，将所述图像特征图输入到所述候选区域生成网络中进行候选区域特征提取，得到对应的H个候选区域特征向量。

S403，将第s个设定类别的文字描述输入到所述文本知识提取网络中进文本语义特征提取，得到对应的文本语义特征向量；s的取值为1到m。

S404，将第t个候选区域特征向量与第s个文本语义特征向量输入到跨模态知识融合网络中进行融合，得到对应的融合特征向量F_ts；t的取值为1到H。

S405，将F_ts输入到检测头部网络中进行检测，得到目标图像中的目标的类别和位置。

步骤S401至S405的具体实施可参照前述的S301至S305。

本发明实施例提供的跨模态知识引导的小样本神经网络目标检测方法，在使用DIOR数据集作为训练集开展目标检测实验时，由于将文本语义特征融合到图像特征中，与没有融合文本语义特征的检测方法相比，能够提高检索结果的mAP(准确率)，如下表1所示：

表1在DIOR数据集上的实验结果

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种跨模态知识引导的小样本神经网络目标检测方法，其特征在于，所述方法包括如下步骤：

其中，S300具体包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取器为残差网络。

3.根据权利要求2所述的方法，其特征在于，所述残差网络的层数为50层或者101层。

4.根据权利要求1所述的方法，其特征在于，所述候选区域生成网络由三个卷积层依次串联构成。

5.根据权利要求4所述的方法，其特征在于，每个卷积层的卷积核为1×1卷积核。

6.根据权利要求1所述的方法，其特征在于，所述文本知识提取网络为门控循环神经网络。

7.根据权利要求1所述的方法，其特征在于，所述跨模态知识融合网络由三个卷积层构成，分别为第一卷积层、第二卷积层和第三卷积层。

8.根据权利要求7所述的方法，其特征在于，S304具体包括：

S3041，将IF_ik输入到所述第一卷积层中进行特征提取，得到对应的第一特征向量IF1_ik；

S3042，将TF_j输入到所述第二卷积层和所述第三卷积层中进行特征提取，分别得到对应的第二特征向量TF2_j和第三特征向量TF3_j；

S3043，获取融合特征向量ITF^j _ik＝IF_ik+(IF1_ik×TF2_j)×TF3_j。

9.根据权利要求7所述的方法，其特征在于，每个卷积层的卷积核为1×1卷积核。

10.根据权利要求1所述的方法，其特征在于，所述设定损失函数包括用于计算类别损失的交叉熵损失函数和用于计算位置损失的L1损失函数。