CN111898685A

CN111898685A - 一种基于长尾分布数据集的目标检测方法

Info

Publication number: CN111898685A
Application number: CN202010769229.7A
Authority: CN
Inventors: 张夕萌; 许勇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-06
Anticipated expiration: 2040-08-03
Also published as: CN111898685B

Abstract

本发明公开了一种基于长尾分布数据集的目标检测方法，涉及目标检测技术领域，包括以下步骤：预先将图片占比小于千分之一类别定义为小样本类别，其中包括小样本类别产生的神经网络损失进行加权，实现小样本类别产生的神经网络损失要大于大样本类别产生的神经网络损失；标定平衡不同类别在神经网络中损失权重，确定小样本类别对于目标检测网络的影响系数。本发明在目标检测神经网络训练中对小样本类别进行神经网络损失加权的算法，在一定程度上缓解了样本数目过少的类别对目标检测网络的影响过小的问题，平衡了在不同样本比例类别之间的差异，提高了小样本类别被目标检测网络感知的能力。

Description

一种基于长尾分布数据集的目标检测方法

技术领域

本发明涉及目标检测技术领域，具体来说，涉及一种基于长尾分布数据集的目标检测方法。

背景技术

目标检测是计算机视觉和图像处理领域一个重要的研究方向。目标检测可以判断在图片或者视频中是否存在特定对象，并将存在的特定目标对象进行标注。由于目标检测区别特定目标对象与其他无关对象的特性，目标检测被广泛应用于视频监控，智能导航，医药检测，航空航天等重要领域。

然而现实生活中大部分目标检测的数据类型都呈现长尾分布的特点，即在不同数据类别下的样本比例并不是均衡分布。比如对于道路行驶的车辆检测，双层巴士出现的概率远小于小轿车出现的概率，采集到双层巴士的图片数目就会远小于小轿车的图片数目。在对长尾分布的数据类别的目标检测中，由于缺乏对小样本类别的特征学习，较小样本的类别在目标检测中无法获得很好的效果。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于长尾分布数据集的目标检测方法，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种基于长尾分布数据集的目标检测方法，包括以下步骤：

步骤S1，预先将图片占比小于千分之一类别定义为小样本类别，其中包括小样本类别产生的神经网络损失进行加权，实现小样本类别产生的神经网络损失要大于大样本类别产生的神经网络损失；

步骤S2，标定平衡不同类别在神经网络中损失权重，确定小样本类别对于目标检测网络的影响系数；

步骤S3，确定在神经网络层面进行类平衡重采样来增加训练样本中小样本的类别的比重。

进一步的，包括以下步骤：

标定ResNet作为特征提取网络，其包括对输入的图片进行卷积操作，通过池化层，标定为CNN网络特征提取结构；

进行目标识别过程中，包括在图像中进去前景和背景的区分，对前景进行分类。

进一步的，包括以下步骤：

通过卷积运算操作和池化层从原图中提取到feature map；

网络训练从feature map中获得目标的位置；

在feature map中生成用于分类的目标，通过池化固定数据长度；

确定前景概率最高的N个proposal，通过非极大值抑制后选择前景概率最高的M个proposal；

对新产生的偏移量进行回归获得精确位置。

进一步的，包括以下步骤：

标定N个需要训练的样本，确定其稀有类，并清除在特定条件下的负梯度，表示如下：

其中，c代表类别个数，

代表输出的预测值；

添加一个[0,1]取值的系数w_j，表示为：

进一步的，包括以下步骤：

其频率判别函数T_r(f_j)，表示为：

标定背景类与稀有类一起进行训练，其稀有类对背景具备区分度，类别类型判别函数E(r)应满足如下：

其中r为region

对所有类别，进行对GT类别学习，包括保留相应梯度，表示为：

设gt为y_i，其表示为：

G(y_i)＝1―y_i

整体表示为：

w_j＝1―E(r)T_λ(f_j)G(yi)

进一步的，包括有效样本的权重，表示为：

其中，w为有效样本的权重，n为样本数目。

进一步的，包括归一化权重，其表示为：

其整体权重，表示为：

w_j＝M(w_i)(1―E(r)T_λ(f_j)G(yi))。

进一步的，包括在proposal的采样阶段，通过挑选出tail类，其tail类选取重复因子为2的采样率进行重采样，确定其在训练过程中tail类的出现的几率。

本发明的有益效果：

1、本发明基于长尾分布数据集的目标检测方法，在目标检测神经网络训练中对小样本类别进行神经网络损失加权的算法，在一定程度上缓解了样本数目过少的类别对目标检测网络的影响过小的问题，平衡了在不同样本比例类别之间的差异，提高了小样本类别被目标检测网络感知的能力。

2、本发明基于长尾分布数据集的目标检测方法，在目标检测网络中对小样本类别数据进行梯度保护的方式，通过在不同条件下，调整目标检测网络所产生的神经网络损失，防止小样本类别接收到过多由大样本类别产生的负样本监督信号，有利于目标检测网络更好的发现和学习小样本类别的特征。

3、本发明基于长尾分布数据集的目标检测方法，通过对小样本类别进行重采样，提升小样本类别被目标检测网络发现和训练的概率。

4、本发明基于长尾分布数据集的目标检测方法，在目标检测网络的不同阶段采取不同策略，对小样本类别进行重采样，能够更好的发挥目标检测网络的优势，提高重采样的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于长尾分布数据集的目标检测方法的流程示意图；

图2是根据本发明实施例的一种基于长尾分布数据集的目标检测方法的ResNet网络结构示意图；

图3是根据本发明实施例的一种基于长尾分布数据集的目标检测方法的FasterRCNN的网络框架示意图；

图4是根据本发明实施例的一种基于长尾分布数据集的目标检测方法的RPN框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于长尾分布数据集的目标检测方法。

如图1所示，根据本发明实施例的基于长尾分布数据集的目标检测方法，包括以下步骤：

其中，进一步包括以下步骤：

通过卷积运算操作和池化层从原图中提取到feature map；

网络训练从feature map中获得目标的位置；

对新产生的偏移量进行回归获得精确位置。

其中，进一步包括以下步骤：

其中，c代表类别个数，

代表输出的预测值；

添加一个[0,1]取值的系数w_j，表示为：

其中，进一步包括以下步骤：

其频率判别函数T_r(f_j)，表示为：

其中r为region

设gt为y_i，其表示为：

G(y_i)＝1―y_i

整体表示为：

w_j＝1―E(r)T_λ(f_j)G(yi)

其中，进一步包括有效样本的权重，表示为：

其中，w为有效样本的权重，n为样本数目。

其中，进一步包括归一化权重，其表示为：

其整体权重，表示为：

w_j＝M(w_i)(1―E(r)T_λ(f_j)G(yi))。

其中，包括在proposal的采样阶段，通过挑选出tail类，其tail类选取重复因子为2的采样率进行重采样，确定其在训练过程中tail类的出现的几率。

借助于上述技术方案，通过基于长尾分布数据集的目标检测方法，在目标检测神经网络训练中对小样本类别进行神经网络损失加权的算法，在一定程度上缓解了样本数目过少的类别对目标检测网络的影响过小的问题，平衡了在不同样本比例类别之间的差异，提高了小样本类别被目标检测网络感知的能力，另外在目标检测网络中对小样本类别数据进行梯度保护的方式，通过在不同条件下，调整目标检测网络所产生的神经网络损失，防止小样本类别接收到过多由大样本类别产生的负样本监督信号，有利于目标检测网络更好的发现和学习小样本类别的特征。通过对小样本类别进行重采样，提升小样本类别被目标检测网络发现和训练的概率。在目标检测网络的不同阶段采取不同策略，对小样本类别进行重采样，能够更好的发挥目标检测网络的优势，提高重采样的效果。

另外，具体的，对于其卷积神经网络来说，其是一种包含了卷积运算操作的层次模型的人工神经网络。它在图像处理，目标检测，语义分割等方面都发挥着不错的效果。卷积神经网络的输入为一些原始数据比如说图像，音频等，通过前馈运算将数据信息逐层映射，抽象为特征。卷积神经网络使用目标函数评估预测值与目标值之间的损失，通过反馈运算不断网络参数。在前馈运算和反馈运算的交替中使网络模型逐渐收敛。正如前面所说，卷积神经网络是一种层次结构，卷积层，激活层，池化层和全连接层组成了卷积神经网络的基本结构。

卷积层：卷积层对输入的数据进行卷积运算的操作。卷积操作的结果是卷积核的参数与对应位置的数据像素点逐位相乘再累加的结果。卷积核的值可以作为学习的权重，对所有输入都是一样的，这是卷积层“权值共享”的特性。除了权重，也会在卷积运算操作中增加偏置项。使得在反向传播过程中通过设置权重和偏置项来调节梯度下降的学习率。卷积操作可以获得图片的局部信息，通过调节卷积核的参数可以学习到原始数据的不同特征。通过网络的后续训练，将特征映射到具体的样本类别。

卷积层的超参主要包括卷积核大小，卷积的步长和卷积核的个数。卷积核的大小可以定义卷积的视图范围，方便移动进行滑动卷积，防止信息的偏移。卷积的步长定义了内核的步长。卷积核的个数一般设置为2的次幂，有利于在硬件计算过程中划分数据和参数矩阵。

激活层：也可以称之为非线性映射层，用于增加网络对于特征的表达能力。因为如果只是线性层的堆叠的结构无法有复杂的特征描述。常见的激活函数有Sigmoid函数和ReLU函数。

池化层：也称之为下采样层，通过对前一层进行采样从而缩小了前一层的尺寸，它在保留主要特征的同时也减少了图片的参数，减少了计算量。它也加强了图像特征的不变性，增加了图像偏移，旋转等方面的鲁棒性。

全连接层：全连接层中的每个神经元与前一层的神经元全连接，它将神经网络学习到的特征映射到样本的标记空间。可以进行分类和边界框回归的任务。

另外，具体的，如图2-图3所示，其ResNet通过在网络中增加了直连通道，允许原始输入的信息直接传递到后面一层。这一层的神经网络无需学习整个的输出，而是学习上一层网络输出的残差值，所以ResNet也被称为残差网络。ResNet通过引入shortcut的思想改变了传统卷积网络在信息传递过程中丢失的问题，输入信息传递到后一层的方式可以保留信息的完整性，在一定程度上避免了由于网络逐渐加深而产生梯度消息或者梯度爆炸的问题。

而Faster RCNN是当前目标检测领域最通用，效果最好的目标检测网络。因为传统RCNN由于proposal的区域过多，且彼此之间相互重叠，反复对重叠的区域进行特征的提取会造成计算的冗余。Faster RCNN通过用网络训练的方式替换掉传统网络选择搜索的方式，将目标检测的候选区域生成，特征提取，分类和位置精修四个基本操作融合在一个网络框架之中，使得对于图像的检测和分类的速度得到了提高。

Faster RCNN主要有四个部分，分别是特征提取，通过卷积运算操作和池化层从原图中提取到feature map；RPN，这是Faster RCNN不同与其他网络结构的一部分，这使得Faster RCNN可以通过网络训练从feature map中获得目标的大概位置；Proposal Layer，利用从RPN获得目标大概位置，进行进一步的训练，使得目标的位置更加精确；ROIPooling，根据获取的精确位置，在feature map中生成用于分类的目标，通过池化固定数据长度。

特征提取部分：主要是对输入的图片进行一系列卷积操作，最后通过池化层。这部分为CNN网络特征提取结构，可以用VGGNet，ResNet等常见的网络结构实现。在本文中使用的是ResNet。

RPN部分：在目标识别过程中，首先要在图像中进去前景和背景的区分，再对前景进行分类。通常的目标检测方法使用的是selective search方法，它通过不断进行区域相似度比较的操作，对相似区域进行合并，最终生成目标区域。这种迭代的方式大大降低了网络运行的速度。在Faster RCNN中通过网络来完成对proposal的提取过程，除此之外，部分网络可以和分类过程共用，这极大提高了网络运行的速度。RPN主要分为两部分RPNClassification和RPN bounding box regression，首先将feature map分割成多个区域，对区域进行前景和背景的区分，之后获取到前景区域的大值位置。RPN Classification是一个二分类的过程，通过在feature map上划分多个均匀的anchor区域，通过比较anchor与ground truth的交并比来将anchor进行前景和背景的区分，并给每个anchor打上了对应的标签。在RPN对这些贴有标签的anchor进行训练，可以获得每个anchor的对应的类别和概率。RPN bounding box regression可以输出anchor大概的位置，通过对anchor与groundtruth的偏移量进行训练，可以得到所有proposal的位置和尺寸。

Proposal layer部分：通过RPN网络的训练可以得到proposal的大致位置，每一个区域我们都可以获得多个proposal，这些聚集在ground truth的proposal带来了训练的冗余。Faster RCNN首先选出了前景概率最高的N个proposal，再通过非极大值抑制(NMS)后选择前景概率最高的M个proposal。最后对新产生的偏移量进行回归从而获得精确位置。

ROI Pooling部分：因为RPN网络提取到的proposal大小是变化的，由于用于分类的全连接层的输入是固定长度，通过直接对proposal进行拉升或裁减的操作来固定长度会使得输入产生变形或者损失信息，从而影响到后续的分类。ROI Pooling的方式不单可以根据proposal的精确位置从feature maps中获得相应区域，同时也会固定输出数据的长度。

Faster RCNN目标检测网络在数据均匀分布的情况下，发挥着很好的效果，但当前的网络结构并不适用于长尾分布数据集，没有对类别之间样本分布不均的情况采取相应的策略，使得Faster RCNN在对贴近生活的真实数据进行目标检测的结果，并不是十分的理想。

另外，具体的，如图3-图4所示，其在RPN网络中，其输出是由上一阶段CNN产生的一系列的feature maps，输出为在原图上一系列的proposal，以及对应proposal的目标分数，这是对于每个类别的预测。RPN网络在每一个滑动窗口的位置都设置了k个anchor，每个anchor的大小长各不一样。随着滑动框的移动，不断生成anchor。为了对RPN网络进行训练，Faster RCNN给每一个anchor进行正负标签标记的操作。当满足以下任意一个条件时，anchor为正样本。(i)anchor和ground-truth的重叠部分最高。(ii)anchor和ground-truth的交并比(IOU)大于0.7。当一个非正样本的anchor与ground-truth的交并比小于0.3时，该样本为负样本。通过对这些样本进行端到端的训练，输出相对anchor位置的便宜和置信度打分。之后对anchor进行bounding box regression的操作，通过对进行向前传播，对anchor进行微调，anchor经过回归计算得到的边界框称为proposal，用于在feature map上截取相应feature训练RCNN。

另外，在传统做法中，M个GT与N个anchor进行匹配，对每个anchor，选取与之IOU最大的一个GT作为anchor标签，随后通过正负阈值确定anchor是前景还是背景。

在Topk anchor中，首先选取每个GT对应的最大K个anchor，如果一个anchor同时覆盖到了多个GT，取其IOU最大的一个GT作为回归目标。这种方法保证了每个类都有充足的训练样本。同时，通过为head类和tail类设置不同的K值，起到平衡样本数量的作用。K增大代表采样个数增加，但这些样本来源于不同的anchor，并非简单的重复，极大提升了tail类的多样性。

而在RCNN阶段的输入是由RPN网络产生的大量proposal，Faster RCNN对这些proposal进行筛选，再作为RCNN的输入。Faster RCNN通过对比proposal与ground-truth的IOU进行采样，选出与ground-truth中IOU大于0.5的proposal作为前景，ground-truth的类别作为proposal的类别。通过对RCNN阶段的proposal的采样进行调整，使得更多的tail类有被训练的机会。在proposal的筛选阶段，对于head类来说，与ground-truth的IOU大于IoU-head可作为前景。对于tail类来说，与ground-truth的IOU大于IOU-tail可作为前景。

综上所述，借助于本发明的上述技术方案，可实现如下效果：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。