CN112464743A

CN112464743A - 一种基于多尺度特征加权的小样本目标检测方法

Info

Publication number: CN112464743A
Application number: CN202011237385.5A
Authority: CN
Inventors: 蒋雯; 张子涵; 耿杰; 邓鑫洋
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-09
Anticipated expiration: 2040-11-09
Also published as: CN112464743B

Abstract

本发明公开了一种基于多尺度特征加权的小样本目标检测方法，包括以下步骤：步骤一、将数据集划分为基本类别与小样本类别；步骤二、基类训练过程中构建特征提取网络；步骤三、构建特征分支网络，对多尺度的特征进行融合；步骤四、构建权重生成网络，预测相应类别对应的权重；步骤五、进行类别权重加权过程，使用不同类别的权重向量对特征进行加权；步骤六、使用综合检测器进行回归预测；步骤七、在网络框架不变的情况下将基本类别与小样本类别同时加入微调过程，重复上述步骤二至六最终得到小样本目标检测的结果。本发明结构清晰，设计了多尺度融合的网络结构让网络能够使用各个尺度的图像信息从而能更好的检测不同尺度的目标。

Description

一种基于多尺度特征加权的小样本目标检测方法

技术领域

本发明属于深度学习目标检测领域，具体针对小样本领域涉及一种基于多尺度特征加权的小样本目标检测方法。

背景技术

随着近年来计算机技术的发展，计算机的计算能力飞速增长，人工智能技术也逐渐进入人们的视野。人工智能技术旨在让机器达到像人一样的智能，可以自行处理问题，甚至比人更加准确更加快速。如今人工智能技术已经在生活中有着广泛的应用。人工智能技术通过深度学习框架对图片中的目标特征进行提取和学习让网络获得检测相应目标的能力从而达到了智能检测目标的能力。深度学习方法不需要人为设计特征表达来提取特征，而是通过训练海量的数据自行提取特征，这个过程节省了大量的时间和人力。而且已经被证实，在拥有足够数据量的情况下，使用深度学习的目标检测方法的检测精度要比传统检测方法高很多。

深度学习目标检测在训练数据量充足时都可以达到不错的效果，但是当训练数据量减少时，传统的深度学习目标检测网络的检测效果都会下降。在大多数目标检测情况下，不充足的数据量将会限制这些监督学习目标检测器。由于收集大量的有标注图片是极为花费人力物力的，所以小样本条件下的深度学习目标检测研究就显得尤为重要。

近年来针对小样本学习的研究更多的是集中在目标分类任务上，针对小样本条件下的目标检测研究相对较少。迁移学习，元学习等思想也相继被引入来解决小样本检测问题。Santoro等人提出使用记忆增强的方法来解决小样本学习任务。KUN FU等人在Meta-SSD中提出一种基于元学习的小样本检测思路，其通过构建一个元学习器(Meta-learner)去指导网络的学习，从而使网络模型能快速地适应新检测任务，从而实现小样本目标检测。这个方法给出了解决小样本目标检测的新思路。

但是目前的小样本目标检测存在着一些问题，主要表现在：(1)小样本条件下造成严重的正负类别不平衡问题；(2)模型的知识迁移能力都较弱。本发明中将提出一种解决方案用以解决上述两种小样本条件下所面临的问题。

发明内容

针对上述技术问题本发明提供了一种基于多尺度特征加权的小样本目标检测方法。首先方法在基本类别上训练，将多层的特征进行融合，并且通过权重提取网络给出对每个类别预测的权重，将融合后的特征与每个检测类别的权重进行加权从而获得特征对每个类别的预测从而获得最后的检测结果。本方法使用特征融合再加权的方法提高了模型对不同尺度的目标的检测能力，再通过少量小样本类别样本进行模型微调从而实现小样本条件下的目标检测。

本发明采用的技术方法是：一种基于多尺度特征加权的小样本目标检测方法，包括以下步骤：

步骤一、实验采用PASCAL VOC数据集，将数据集分为基本类别和小样本类别两种：

步骤101、将VOC 07train/val和VOC 12train/val中的所有数据统一作为训练集，将VOC 07test中数据作为实验用的测试集。

步骤102、将VOC数据集共20个类别中随机抽取5个类别作为小样本类别用于微调过程，其余15个类别作为基本类别用于基本训练过程。

步骤103、15个基本类别用于模型的基本训练，在完成基本训练后用所有20类别一起进行少量迭代的微调得到最后的检测模型。

步骤二、基本训练过程使用15类基本类别进行训练，先构建darknet特征提取网络，用于提取输入图片的图像特征：

步骤201、构建的darknet网络为基础网路，其包括5个卷积模块和7层卷积层构成，5个卷积模块分别由1、1、3、3、5个卷积层后接上一层最大值池化层构成。

步骤202、通过基础网络提取图片中的特征，此时网络输出小尺度的特征F用于后续的特征融合。

步骤三、构建特征分支网络，让多尺度的图片特征进行融合：

步骤301、模型中构建三处特征分支网络，分支网络将多个尺度的特征连接到一起以获得更全面的目标信息。

步骤302、设计的特征分支网络由一层卷积层和一层特征尺度调节层构成，卷积层用于将不同维度的特征图进行适当降维，尺度调节层将不同尺度的特征层调节成相同尺度便于融合。

步骤303、方法使用特征分支网络将第三个卷积模块中的第三层卷积层特征F₁、第四个卷积模块中的第三个卷积层特征F₂、和第五个卷积模块中的第五个卷积层的特征F₃与主干网络提取的图像特征F进行融合获得最终的特征图。

步骤四、构建类别权重生成网络用于预测每个类别对应的权重向量：

步骤401、权重生成网络输入为每个类别的图片，输出为每个类别对应的权重向量W_i。

步骤402、权重生成网络由六个卷积模块构成，每个模块包括一个卷积层和一个最大值池化层。

步骤五、基于类别权重向量的特征加权过程，通过类别权重向量对融合后的特征进行加权处理，让目标的特征更贴近其真实类别：

步骤501、将由步骤三获得的融合特征通过一层卷积层降维到类别权重的维度。

步骤502、将类别权重对融合特征进行1×1通道数不变的卷积得到加权后的特征F_w。

步骤503、将加权后的特征进一步降维为到30维特征F₃₀，对于每个边界框模型预测6维度参数(o,x,y,h,w,c)，其中o为置信度、x为锚点的x坐标、y为锚点的y坐标、h为边界框的高、w为边界框的宽、c为目标的类别。由于每个锚点预先设定5种长宽比的边界框，所以每个锚点共预测30维参数。

步骤六、利用降维后的特征F₃₀进行回归预测，获得最终的检测结果：

步骤601、将降维后的特征F₃₀图输入检测模块进行预测。

步骤602、训练过程中对于置信度o使用均方差损失L_obj公式如下：

其中p_i为网络的预测值，t_i表示为相应的标签真实值。

步骤603、对于边界框坐标x、y、w、h，模型同样使用均方差损失，L_bbox损失如下：

网络对bbox的每一维坐标都计算相应的损失，总体的边界框损失为四个坐标损失的总和，其中x_i、y_i、w_i、h_i为网络的预测值，X_i、Y_i、W_i、H_i为其真实值。

步骤604、模型训练过程中使用改进的mFocalLoss作为分类损失公式如下：

其中p_i为网络的预测值，y＝1表示预测的目标为正类，0表示预测的目标为负类，其中N为我们定义的一个超参数，其计算方式为

为一个批次中正类预测的个数除以所有预测的数量，这样一个自适应的正则化项相比于传统的FocalLoss损失中使用定值正则化项能更好的适应不同训练样本而造成的正负样本比例波动问题。自适应的正则化项能根据不同情况下的正负样本比例自适应的调整正负样本损失的占比。

步骤605、网络训练的总损失Loss公式如下：

Loss＝L_obj+L_bbox+L_mFocalLoss

网络最终的损失由置信度损失、边界框损失和分类损失三部分构成。

步骤606、在基本类别上训练完成训练后得到基本类别的模型M_base，接下来将在基本类别模型的基础上进行小样本类别的微调训练。

步骤七、微调过程使用数据集中全部20个类别的少量样本进行微调，网络模型不变并且使用M_base，每个类别只有几张图片(1，2，3，5，10)。进行少量几个迭代过程得到最终的小样本检测模型。通过微调好的小样本检测模型，我们可以得到小样本条件下的最终检测结果。

本发明与现有技术相比，主要具有如下的优点：

第一，本发明提出了基于多尺度特征加权的小样本目标检测方法，通过多尺度的特征融合让模型可以充分利用不同尺度的特征信息提高了特征信息的利用率，对检测不同尺度的目标很有帮助。模型利用不同类别的预测权重对特征进一步进行加权重组特征，让相应的视觉特征尽可能的贴近它的真实标签，从而通过只有几张图片的微调过程就可以快速让模型预测出小样本类别的权重向量从而完成小样本目标检测。

第二，本发明采用了一种改进的mFocalLoss，对FocalLoss的正则项做出改进，相比于原本FocalLoss使用固定值作为正则项，本发明通过提出一种自适应的正则项来平衡小样本检测中的正负样本不均衡问题。本发明通过使用一个批次中正例与负例的比例作为自适应的正则项，解决了不同批次中由于样本的差异造成的正负样本不均衡的问题。改进的FocalLoss同时会更聚焦于困难样本，困难样本将引入较大损失，不怎么关注容易样本，容易样本会引入较少的损失，从而让模型更专注困难样本进而达到更好的检测效果。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

如图1所示，本发明的一种基于多尺度特征加权的小样本目标检测方法，包括以下步骤：

步骤二、基础训练过程使用15类基本类别进行训练，先构建基于darknet的特征提取网络，用于提取输入图片的图像特征：

步骤201、构建的darknet网络为基础网路，其包括5个卷积模块和7层卷积层构成，5个卷积模块分别由1、1、3、3、5个卷积层后接上一层最大值池化层构成，其中每个卷积层使用LeakyReLU激活函数，训练过程中卷积层使用Dropout并且使用BatchNorm，以下所有涉及的卷积层均为上述结构。其中模块1和模块2中的卷积层为3×3步长为1的卷积，模块3中的三个卷积层分别为3×3、1×1、3×3步长为1的卷积层，模块4中的卷积层结构与模块3中相同，模块5中5层卷积层分别为3×3、1×1、3×3、1×1、3×3步长为1的卷积层。7层卷积层分别为3×3、1×1、3×3、1×1、3×3、3×3、3×3步长为1的卷积层。

步骤302、设计的特征分支网络由一层卷积层和一层特征尺度调节层构成，卷积层用于将不同维度的特征图进行适当降维，尺度调节层将不同尺度的特征层调节成相同尺度便于后续的融合。

步骤303、方案先提取三组特征：第三个卷积模块中的第三层卷积层特征F₁(维度为104×104×128)、第四个卷积模块中的第三个卷积层特征F₂(维度为52×52×256)、和第五个卷积模块中的第五个卷积层的特征F₃(维度为26×26×512)，将特征F₁先通过卷积层降维到104×104×4，再通过尺度变化为13×13×256，将特征F₂降维到52×52×16，再尺度变换为13×13×256，同理将F₃降维到26×26×64，再调整尺度为13×13×256。将尺度变换后的三组特征与主干网络提取的图像特征F(维度为13×13×1024)进行融合获得最终的特征图F_a(维度为13×13×1792)。

步骤四、构建类别权重生成网络用于对每个类别预测相应类别的权重向量：

步骤401、类别权重生成网络输入为每个类别的图片，输出为每个类别对应的权重向量W_i，每个类别预测一个1024维的向量，训练过程为15个类别，微调过程为20个类别。

步骤402、权重生成网络由六个卷积模块构成，每个模块包括一个3×3步长为1卷积层和一个最大值池化层。

步骤501、将融合后的特征F_a通过一层卷积层将其降维到13×13×1024以便与类别权重向量进行加权。

步骤502、将类别权重对融合后特征进行1×1通道数不变的卷积得到对于各个类别加权后的特征F_w。

步骤503、将加权后的特征进一步降为到13×13×30的特征F₃₀，对于每个边界框模型预测6维度参数(o,x,y,h,w,c)，其中o为置信度、x为锚点的x坐标、y为锚点的y坐标、h为边界框的高、w为边界框的宽、c为目标的类别。由于每个锚点预先设定5种长宽比的边界框，所以每个锚点共预测30维参数。

步骤601、将降维后的特征F₃₀图输入检测模块进行预测。

其中p_i为网络的预测值，t_i表示为相应的标签真实值。

步骤603、对于边界框坐标x、y、w、h，模型使用同样使用均方差损失，L_bbox损失如下：

步骤605、网络训练的总损失Loss公式如下：

Loss＝L_obj+L_bbox+L_mFocalLoss

网络最终的损失由置信度损失、边界框损失、和分类损失三部分构成。

步骤606、在每一批次数据上进行前向传播，然后使用梯度下降算法反向传播优化模型参数，在基本类别上收敛完成训练后得到基本类别的模型M_base，接下来将在基本类别模型的基础上进行小样本类别的微调训练。

步骤七、微调过程使用数据集中全部20个类别的少量样本进行微调，网络模型不变并且使用M_base，微调过程使用全部20个类别，每个类别只有几张图片(1，2，3，5，10)，权重生成网络每次输入20个类别的样本个一张用于生成小样本类别的权重向量和进一步调整基类权重向量。实验进行少量几个迭代过程得到最终的小样本检测模型。通过微调好的小样本检测模型，可以得到小样本条件下的最终检测结果。

以上所述，仅是本发明的实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于多尺度特征加权的小样本目标检测方法,其特征在于：其包括以下步骤：

步骤六、利用降维后的特征F₃₀进行回归预测，获得最终的检测结果：步骤601、将降维后的特征F₃₀图输入检测模块进行预测。

其中p_i为网络的预测值，t_i表示为相应的标签真实值。

步骤605、网络训练的总损失Loss公式如下：

Loss＝L_obj+L_bbox+L_mFocalLoss