CN112861982A

CN112861982A - 一种基于梯度平均的长尾目标检测方法

Info

Publication number: CN112861982A
Application number: CN202110206632.3A
Authority: CN
Inventors: 杨航; 杨海东; 黄坤山
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-05-28

Abstract

本发明公开了一种基于梯度平均的长尾目标检测方法，包括以下步骤：S1、获取图像数据集，并对图像数据集进行图像增强处理；S2、采用预训练模型在所述训练集上训练，得到初始目标检测模型；S3、对初始模型进行训练，得到最终目标检测模型；S4、将待目标检测的图片输入至所述最终目标检测模型，得到所述图片的正常类别以及长尾类别的识别结果，完成长尾目标检测。本发明能显著提升各种框架的尾部类别识别准确率。

Description

一种基于梯度平均的长尾目标检测方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于梯度平均的长尾目标检测方法。

背景技术

近年来，由于深度学习和卷积神经网络(CNN)的出现，计算机视觉界见证了物体识别的巨大成功。目标识别是计算机视觉中的一项基本任务，在重新识别、人体姿态估计和目标跟踪等相关任务中起着核心作用。

如今，大多数用于通用对象识别的数据集，如Pascal VOC和COCO，主要收集常见的类别，每个类都有大量的注释。然而，当涉及到更实际的场景时，不可避免地会出现类别频率长尾分布的大型词汇表数据集(例如LVIS)。类别的长尾分布问题对目标检测模型的学习是一个很大的挑战，特别是对于样本很少的类别。对于一个类别，其他类别包括背景的所有样本都被视为负样本。因此，在训练过程中，少数类别容易被大多数类别(样本数量大的类别)所压倒，并倾向于被预测为否定的类别。因此，在这样一个极不平衡的数据集上训练的传统的物体探测器会大大下降。

发明内容

针对现有技术的不足，本发明的目的旨在提供一种基于梯度平均的长尾目标检测方法。

为实现上述目的，本发明采用如下技术方案：

一种基于梯度平均的长尾目标检测方法，包括以下步骤：

S1：获取符合长尾分布的图像数据集，并对所述图像数据集进行图像增强处理，得到图像增强数据集，将所述图像增强数据集划分为训练集和测试集；

S2：采用预训练模型在所述训练集上训练，得到初始目标检测模型；

S3：用所述初始目标检测模型在训练集上进行初步检测得到初步检测结果，根据初步检测结果的表征在初始目标检测模型中定义出类别分类器，根据类别分类器的正梯度和负梯度的累计梯度比对类别分类器进行加权，同时在类别分类器上增加一个检测客观性的分支，得到新初始目标检测模型，将所述新初始目标检测模型在训练集上进行训练，得到最终目标检测模型；

S4：将待目标检测的图片输入至所述最终目标检测模型，得到所述图片的正常类别以及长尾类别的识别结果，完成长尾目标检测。

进一步地，所述数据集为LVIS数据集。

进一步地，所述步骤S1还包括：对所述训练集的图片进行旋转，产生四张不同角度的子图片，再用尺寸变换和二值分割的方法对所述子图片进行图像增强处理。

进一步地，所述步骤S2还包括：采用Faster R-CNN作为原始目标检测模型，原始目标检测模型中的主干卷积网络在ImageNet上进行预训练，得到所述预训练模型，所述预训练模型为Inception-Resnet-V2。

进一步地，所述Inception-Resnet-V2模型包括stem结构、Inception-resnet-A结构、Inception-resnet-B结构和Inception-resnet-C结构。

进一步地，所述步骤S2还包括：对所述预训练模型进行微调，将所述预训练模型的权重衰减设为0.0001，批处理大小为16，使用动量为0.9的SGD优化器训练30轮，前20轮学习率设为1e-4,后面10轮由1e-5递减为1e-6，采用微调后的预训练模型在训练集上进行训练，得到所述初始目标检测模型。

进一步地，所述步骤3还包括：所述类别分类器的输出z_j相对于损失梯度L的正梯度的计算公式为：

其中，

是第i个实例的one-hot编码，

是第i个情况下第j类的估计概率。

进一步地，所述步骤3还包括：所述类别分类器的输出z_j相对于损失梯度L的负梯度的计算公式为：

其中，

是第i个实例的one-hot编码，

是第i个情况下第j类的估计概率。

进一步地，所述步骤3还包括：定义为所述类别分类器正梯度和负梯度的比值，迭代t次，迭代过程中正负梯度权重计算如下：

其中，f()是映射函数：

本发明的有益效果在于：

本发明创造的梯度平均缓解长尾目标检测数据分布的方法与传统方法的区别：传统方法一般采用解耦训练，但是它们需要一个额外的微调阶段，并且表示和分类器的脱节优化可能导致次优结果。本发明采用端到端的训练方法，在训练阶段动态平衡正负样本的梯度比例，能够显著提升各种框架的尾部类别识别准确率。

附图说明

附图1为本发明流程图；

附图2为本发明预训练模型网络结构图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

本发明提供了一种基于梯度平均的长尾目标检测方法，引入一种均衡损失策略，通过梯度引导Re-weighing机制，目标检测模型可以独立且均等地重新平衡每个类别的训练过程，大大提高长尾目标检测的准确性。

一种基于梯度平均的长尾目标检测方法，包括以下步骤：

S1：获取符合长尾分布的图像数据集，并对图像数据集进行图像增强处理，得到图像增强数据集，将图像增强数据集划分为训练集和测试集；

S2：采用预训练模型在训练集上训练，得到初始目标检测模型；

S3：用初始目标检测模型在训练集上进行初步检测得到初步检测结果，根据初步检测结果的表征在初始目标检测模型中定义出类别分类器，根据类别分类器的正梯度和负梯度的累计梯度比对类别分类器进行加权，同时在类别分类器上增加一个检测客观性的分支，得到新初始目标检测模型，将新初始目标检测模型在训练集上进行训练，得到最终目标检测模型；

S4：将待目标检测的图片输入至最终模型，得到图片的正常类别以及长尾类别的识别结果，完成长尾目标检测。

进一步地，数据集为LVIS数据集。

步骤S1还包括：对训练集的图片进行旋转，产生四张不同角度的子图片，再用尺寸变换和二值分割的方法对子图片进行图像增强处理。

训练数据采用LVIS数据集，提供精确地边框标注和类别标签，且其数据特征符合长尾分布。为了防止过拟合，再对训练集通过采取角度不同的旋转产生四张子图片，还进行尺寸变换和分割等方法进行加倍。原来一张训练图记为分成的四张旋转后的子图片记为

尺寸变换后的子图片记为

采取逐像素的二值分割后的图片记为

字符计数值为C。

进一步地，步骤S2还包括：

采用Faster R-CNN作为原始目标检测模型，原始目标检测模型中的主干卷积网络在ImageNet上进行预训练，得到预训练模型，该预训练模型为Inception-Resnet-V2。

预训练模型Inception-Resnet-V2模型如图2所示，包括四个重要的部分：stem、Inception-resnet-A、Inception-resnet-B和Inception-resnet-C。

Stem部分输入后进行三次3x3的32维卷积，最大池化后再经过一个1x1的80维卷积、一个3x3的192维卷积和最大池化，再通过四个分支进行堆叠；

Inception-resnet-A结构分为四个分支，第一个分支未经处理直接输出；第二个分支经过一次1x1的32通道卷积，第三个分支经过一次1x1的32通道的卷积处理和一次3x3的32通道的卷积处理；第四个分支经过一次1x1的32通道的卷积处理、一次3x3的48通道和一次3x3的64通道卷积处理，二三四分支的结果堆叠后进行一次卷积后最后与第一个分支的结果相加；

Inception-resnet-B分为3个分支：第一个分支未经处理直接输出；第二个分支经过一次1x1的192通道的卷积处理；第三个分支经过一次1x1的128通道的卷积处理、一次1x7的160通道的卷积处理和一次7x1的192通道的卷积处理，二三分支的结果堆叠后进行一次卷积后最后与第一个分支的结果相加；

Inception-resnet-C的结构分为三个分支：第一个分支未经处理直接输出；第二个分支经过一次1x1的192通道的卷积处理；第三个分支经过一次1x1的192通道的卷积处理、一次1x3的224通道的卷积处理和一次3x1的256通道的卷积处理，二三分支的结果堆叠后进行一次卷积后最后于第一个分支的结果相加；

对预训练模型进行微调，将其权重衰减设为0.0001，批处理大小为16，使用动量为0.9的SGD优化器训练30轮，前20轮学习率设为1e-4，后面10轮由1e-5递减为1e-6，采用微调后的预训练模型在训练集上进行训练，得到初始目标检测模型。

该预训练模型取消全连接层来减少参数防止过拟合，使用辅助分类结点加速网络收敛。残差网络的结构既可以加速训练，又可以防止梯度弥散，使用BN层，将每一层的输出都规范化到一个N(0，1)的正态分布，可以使下一层不必学习输入数据中的偏移，专注于更好地组合特征。

进一步地，步骤S3引入了梯度引导Re-weighing机制。引入梯度引导Re-weighing机制可以独立且均等地重新平衡每个类别的训练过程。

在入梯度引导Re-weighing机制之前，需要计算每个类别分类器的输出相对于损失梯度L的正梯度和负梯度，具体方法为：

采用步骤2中初始目标检测模型在训练集上进行初步检测得到初步检测结果，并获得初步检测结果的表征，定义初步检测结果为一批实例I，为了输出C类的logitsZ，定义权重矩阵W作为表征的线性变换。W中的每个权重向量称之为类别分类器，它负责一个特定的类别。然后利用sigmoid函数将类别分类器的输出转换为估计的概率分布P。对于每个检测结果只有相应的类别分类器给出高分，而其他类别分类器给出低分。类别分类器j的实际正样本个数

和负样本的个数

其中

是第i个实例的one-hot编码，在数据集上正样本和负样本的期望之比为：

其中，n_j是类别j的实例数，N是数据集上的总实例数。

当

时，j类便是一个罕见的类，此时期望比例并不能很好地指示训练的平衡程度。我们选择梯度统计量作为衡量一个任务是否处于均衡训练的指标，每个类别分类器的输出z_j相对于损失梯度L的正梯度和负梯度表达式为：

其中，

是第i个情况下第j类的估计概率。

引入梯度引导Reweighing机制的方法如下：

根据类别分类器正梯度和负梯度的累计梯度比，分别对每个类别分类器的正梯度和负梯度进行加权，定义

为类别分类器正梯度和负梯度的比值，迭代t次，迭代过程中正梯度

和负梯度

的权重计算如下：：

其中，f()是映射函数：

最终t+1次迭代更新累积的正梯度和负梯度的比例为：

最后在类别分类器上增加一个检测客观性的分支来减少假阳性数量，在训练阶段，将类划分为几个不相交的组，并单独执行softmax操作，在每个组中添加一个类别’other’，以校准组间的预测并抑制误报，此类别’others’包含当前组中不包含的类别，这些类别可以是其他组中的背景或前景类别。在每个组中真实标签应该被重新映射，类别’other’被定义为ground truth类。当前任务将其他任务的正样本视为自己的正样本，在推理阶段，其他子任务的估计概率为p′_j＝p_j*p_obj，在训练集上联合训练后得到最终目标检测模型。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于梯度平均的长尾目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于梯度平均的长尾目标检测方法，其特征在于，所述数据集为LVIS数据集。

3.根据权利要求1所述一种基于梯度平均的长尾目标检测方法，其特征在于，所述步骤S1还包括：对所述训练集的图片进行旋转，产生四张不同角度的子图片，再用尺寸变换和二值分割的方法对所述子图片进行图像增强处理。

4.根据权利要求1所述一种基于梯度平均的长尾目标检测方法，其特征在于，所述步骤S2还包括：采用Faster R-CNN作为原始目标检测模型，原始目标检测模型中的主干卷积网络在ImageNet上进行预训练，得到所述预训练模型，所述预训练模型为Inception-Resnet-V2模型。

5.根据权利要求4所述一种基于梯度平均的长尾目标检测方法，其特征在于，所述Inception-Resnet-V2模型包括stem结构、Inception-resnet-A结构、Inception-resnet-B结构和Inception-resnet-C结构。

6.根据权利要求1所述一种基于梯度平均的长尾目标检测方法，其特征在于，所述步骤S2还包括：对所述预训练模型进行微调，将所述预训练模型的权重衰减设为0.0001，批处理大小为16，使用动量为0.9的SGD优化器训练30轮，前20轮学习率设为1e-4,后面10轮由1e-5递减为1e-6，采用微调后的预训练模型在所述训练集上进行训练，得到所述初始目标检测模型。

7.根据权利要求1所述一种基于梯度平均的长尾目标检测方法，其特征在于，所述步骤3还包括：定义初步检测结果为一批实例I，所述类别分类器的输出z_j相对于损失梯度L的正梯度的计算公式为：