CN111832406B

CN111832406B - 一种长尾目标检测方法与系统

Info

Publication number: CN111832406B
Application number: CN202010508103.4A
Authority: CN
Inventors: 唐胜; 李瑜; 李锦涛; 曹娟; 张勇东
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-12-06
Anticipated expiration: 2040-06-05
Also published as: CN111832406A

Abstract

本发明提出的基于平衡分组Softmax的长尾目标检测方法与系统，该方法在网络结构上，改变网络的最后一个全连接层，对拥有不同训练样本数量的类别进行分组，将背景类别单独分为一组，在每组中都加入其它类别；在训练过程中，按照组内普通类别训练样本数量采样一定数量的其它类别样本进行训练，并在每个组内分别用Softmax函数激活并计算交叉熵损失；在测试过程中，在每个组内分别用Softmax函数激活，去掉组内其它类别，仅保留正常类别得分，用背景组的“其它”类别得分为所有正常类别加权，组成最终得分，用于后处理。该发明提升了在大规模长尾目标数据集上的目标检测以及实例分割性能。

Description

一种长尾目标检测方法与系统

技术领域

本方法属于机器学习和计算机视觉领域，特别涉及面向计算机视觉中大规模长尾目标检测的机器学习问题。

背景技术

目前深度学习，特别是卷积神经网络(Convolutional Neural Network,CNNs)，使人工智能和计算机视觉的众多领域取得了巨大的进展。目标检测是计算机视觉领域最基础也是最具挑战的任务之一。而近年来，目标检测领域的巨大进展主要都是由人工建立的大规模目标检测数据集推动，如PASCAL VOC，COCO等，而这些数据集中的每个类别所包含的训练样本数量相对比较平衡。但在现实中，不同类别的目标数量分布是典型的长尾分布，因此，针对这类类别不平衡的目标检测方法是非常重要的，同样也是现在极度缺乏的。最近，一个大规模长尾目标识别数据集LVIS发布，极大促进在更接近真实场景下的目标检测技术研究。

LVIS数据集相较于ILSVRC DET，LVIS的尾部类别具有小样本的特性，即，每个类别仅包含极少数的训练样本，从几个到几百个不等。和平衡分布的目标检测、小样本目标检测相比，极具挑战性和实用性的长尾目标检测还几乎尚未被探索过。重复因子采样方法(Repeat Factor Sampling，简称RFS)为LVIS数据集提供了一个基线，而分类校准方法(Classification Calibration)通过一个新训练的分类分支对尾部类别的得分进行校准，该新分支采用ROI级别的类别平衡采样策略进行训练，从而进一步提升RFS方法。这两种方法都源自于长尾图像分类领域的重采样方法，在每个epoch中需要进行更多次的迭代以达到样本平衡的目的，增加了训练的开销，其中分类校准方法训练过程和测试过程都较为复杂，并且提升非常有限。

虽然专注于长尾目标检测和实例分割的方法极少，但是有很多工作研究长尾图像分类问题。这些方法大概可以分为以下三类：数据重采样方法、损失敏感学习方法、其它方法。对于数据重采样方法，通常，训练样本会被过采样(over-sampled，多次采样尾部类别训练样本)、或欠采样(under-sampled，减少头部类别采样样本)、或类别平衡采样(class-balanced sampled)。对于损失敏感学习方法，网络的损失会在类别级别会被进行重加权，强制加大尾部类别训练样本对网络权重的影响，或是在样本级别对不同的训练样本进行更加精细的权重控制。有一些其它着重优化用长尾数据训练处的网络的分类器部分，例如最近类别均值分类器(Nearest Class Mean classifier,NCM)和t-归一化分类器(t-normalized classifier)。这些方法通常都对超参很敏感，并且由于目标检测任务和图像分类任务的本质区别，迁移到目标检测框架上后并不能取得较好性能。

发明内容

针对现有技术的不足，本发明提出一种专门针对长尾目标检测设计的方法，该方法不采用尾部类别过采样的方式来解决分类器在权重数量级上不平衡的方法，通过对类别进行分组训练的方式，大幅度提升长尾目标检测性能。

具体来说，本发明提供了一种长尾目标检测方法，其中包括：

步骤1、获取由已标记目标类别的图片，并将图片中目标类别以外的区域标记为背景类别，集合所有图片构成训练样本，通过Softmax训练目标检测模型，得到初步检测模型，按照训练集中每个类别包含的目标样本数量，对该初步检测模型最后一个全连接层的节点进行分组，得到多个节点组；

步骤2、在节点组内添加其它类别节点，该其它类别节点用于区别所有属于该节点组内正常类别以外的其它类别，固定初步检测模型中除分类分支中最后一个全连接层以外的所有参数，仅通过平衡分组Softmax更新该初步检测模型中最后一个全连接层的权重，得到最终检测模型；

步骤3、将待目标检测的测试图片输入至该最终检测模型，该最终检测模型中各节点组给出该测试图片的正常类别得分，用属于背景类别的节点组给出该测试图片的其它类别得分对所有正常类别得分进行加权，得到该测试图片属于各类别的最终得分。

所述的长尾目标检测方法，其中步骤2中该平衡分组Softmax具体包括：

若当前图片中的某个候选窗口的标记目标类别属于第i组节点组，则第i组节点组内该标记目标类别的标注为1，第i组节点组内所有剩余类别标注为0；除第i组节点组以外的所有剩余组内其它类别标注为1所有剩余类别标注为0，通过对所有节点组分别计算Softmax和交叉熵损失，更新初步检测模型中最后一个全连接层的权重。

所述的长尾目标检测方法，其中该目标检测模型为基于候选窗口的两阶段/多阶段的目标检测或实例分割框架。

所述的长尾目标检测方法，其中使用该Softmax和交叉熵计算所有候选窗口的损失：

其中，z_j表示该全连接层z的第i个元素，p_j表示当前候选窗口被预测为类别j的概率，C为目标类别总数。

本发明还提供了一种长尾目标检测系统，其中包括：

模块1、获取由已标记目标类别的图片，并将图片中目标类别以外的区域标记为背景类别，集合所有图片构成训练样本，通过Softmax训练目标检测模型，得到初步检测模型，按照训练集中每个类别包含的目标样本数量，对该初步检测模型最后一个全连接层的节点进行分组，得到多个节点组；

模块2、在节点组内添加其它类别节点，该其它类别节点用于区别所有属于该节点组内正常类别以外的其它类别，固定初步检测模型中除分类分支中最后一个全连接层以外的所有参数，仅通过平衡分组Softmax更新该初步检测模型中最后一个全连接层的权重，得到最终检测模型；

模块3、将待目标检测的测试图片输入至该最终检测模型，该最终检测模型中各节点组给出该测试图片的正常类别得分，用属于背景类别的节点组给出该测试图片的其它类别得分对所有正常类别得分进行加权，得到该测试图片属于各类别的最终得分。

所述的长尾目标检测系统，其中模块2中该平衡分组Softmax具体包括：

所述的长尾目标检测系统，其中该目标检测模型为基于候选窗口的两阶段/多阶段的目标检测或实例分割框架。

所述的长尾目标检测系统，其中使用该Softmax和交叉熵计算所有候选窗口的损失：

由以上方案可知，本发明的优点在于提升了在大规模长尾目标数据集上的目标检测以及实例分割性能。

附图说明

图1为类别训练样本数量与类别权重模的关系示意图；

图2为平衡分组Softmax方法训练和测试示意图。

具体实施方式

本发明提出的“平衡分组的Softmax”方法，主要解决长尾目标检测问题，首次分析出的分类器在参数数量级上不均衡而导致的尾部类别分类错误严重的问题。该方法在网络结构上，改变网络的最后一个全连接层，对拥有不同训练样本数量的类别进行分组，将背景类别单独分为一组，在每组中都加入“其它”类别；在训练过程中，按照组内普通类别训练样本数量采样一定数量的“其它”类别样本进行训练，并在每个组内分别用Softmax函数激活并计算交叉熵损失；在测试过程中，在每个组内分别用Softmax函数激活，去掉组内“其它”，仅保留正常类别得分，用背景组的“其它”类别得分为所有正常类别加权，组成最终得分，用于后处理。该方法大幅度减少了头部类别对尾部类别的权重抑制，从而大幅度提升了在大规模长尾目标数据集上的目标检测以及实例分割性能。

1、本发明提出了平衡分组的Softmax方法，通过将目标检测框架中的分类分支中最后一层全连接层的节点进行分组，分别进行Softmax计算，以减少头部类别对尾部类别的权重抑制，从而达到权重级别平衡的分类器。改网络包括以下特征：

(1)本发明可用于各种两阶段(训练和测试阶段)的使用Softmax作为分类器输出层激活函数，并使用交叉熵计算损失的各种目标检测和实例分割框架，适用于各种不同量级的骨干网络。

(2)如图2所示，平衡分组Softmax方法，将目标检测或实例分割框架中分类分支的最后一个全连接层的所有类别节点按对应类别的训练样本数量进行分组，每组内分别计算Softmax和交叉熵损失。背景类别单独分为一组。

(3)在每个组内都分别加入一个“其它”类别，用于区别所有属于该组内正常类别以外的其它类别。背景组同样加入“其它”类别，表示所有前景类别。

(4)训练阶段，先按正常的Softmax训练整个网络，训练完后，固定除分类分支中最后一个全连接层以外的所有参数，仅用平衡分组Softmax方法训练最后一个全连接层。

(5)若当前样本的真实标注类别属于第i组，则第i组内该类别的标注为1，该组内所有剩余类别标注为0；所有剩余组内，“其它”类别标注为1，该组内所有剩余类别(正常类别)标注为0。使用所有组新的标注对所有组分别计算Softmax和交叉熵损失，更新该层的权重。其中每组内包含一个“其他”类别和若干个正常类别，正常类别指的是，第i组内除去真实类别以外的其他类别(此处真实类别也是一个正常类别)，即该组内的“其他”类别+该组内除去“真实类别的”其他正常类别。

(6)测试阶段，所有组独立计算Softmax，去掉除背景组外剩余所有剩余组内的“其它”类别得分，得到所有正常类别得分；用背景组的“其它”类别得分对所有正常类别得分进行加权，得到最终得分。

实验结果证明了本发明中提出的平衡分组Softmax在不同目标检测框架、实例分割框架和不同骨干网络下都带来了巨大提升，验证了方法的有效性。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例作详细说明如下。

以目前最广泛应用的两阶段目标检测框架Faster R-CNN为例，对本发明提出的平衡分组Softmax方法进行说明。本发明还可以基于其他基于候选窗口的两阶段/多阶段的目标检测或实例分割框架，如Cascade R-CNN，Mask R-CNN，HTC等。

首先，在Faster R-CNN框架中，骨干网络f_back以图像I为输入，生成特征图F＝f_back(I)，该特征图然后通过ROI-Align或ROI-Pooling操作产生K个候选窗口对应的特征F_k＝ROI-Align(F，b_k)，其中b_k表示第k个候选窗口。然后，分类分支网络f_head为每个候选窗口提取一个d维的特征h＝f_head(F_k)。最后，一个全连接层通过z＝Wh+b将特征映射为C+1个类别的预测结果(C个目标类别和背景类别)，其中，W代表分类器的权重，是d×(C+1)的实数矩阵，w_j代表W中的第j列，是一个d维向量，与特定的类别j相对应，b是偏置项。在通常的训练过程中，给定真实标注y∈{0，1}^C+1，就可以用Softmax交叉熵计算某个特定候选窗口的损失：

其中，z_j表示z的第i个元素，p_j表示当前候选窗口被预测为类别j的概率，y_i的含义是第i个真实标注。

现有的表现很好的检测模型在尾部类别时经常失效，为了分析这些模型在长尾数据集上失效的原因，本发明分别在较具有代表性的非长尾数据集COCO和长尾数据集LVIS上进行了先导试验，同样的Faster R-CNN R50-FPN模型分别得到36.4％和20.9％的mAP。对于LVIS的头部类别，AP和COCO中的类别比较接近，而尾部类别的AP迅速降到0。为了研究是什么带来了这样的影响，本发明参考，将网络的特征提取部分和分类部分进行解耦，分析分类器部分。本发明调研了上文中提到的分类分支最后一个全连接层的权重的模||w_j||与第j个类别所包含的训练样本数量之间的关系，其结果如图1所示。可见，对于COCO数据集，大多数类别都包含10³-10⁴数量级的训练样本，相应地，这些类别所对应的权重的模也相对比较均衡(0.75-1.25)；而对于LVIS数据集，可以很明显地看出，每个类别所对应的权重的模与该类别所拥有的训练样本数量正相关，对于某些极度尾部的类别，其权重的模非常小，甚至接近于0。本发明进而可以推断，尾部类别的预测得分有很大可能将低于头部类别预测得分，使得属于尾部类别的目标将很少被选为最终结果。而造成类别权重不平衡的一个可能性是，本发明在训练网络的过程中，对于属于类别j的样本，其对应的z_j将被强化增大，而其它类别的得分会被抑制，因为尾部类别所包含的训练样本数量远远小于头部类别，则尾部类别的权重被抑制的机会远远大于头部类别，最终造成训练结束后分类器权重不均衡的现象。

所以，为了解决这个问题，本发明提出了平衡分组Softmax方法，将所有类别按照其包含的训练样本数量进行分组，在每个组内单独进行Softmax，使得只有拥有相似的训练样本数量的类别之间才需要相互竞争，而训练样本数差异较大的类别之间被隔离开来，减少尾部类别的权重被头部类别所抑制的可能性。

具体来说，根据包含的训练样本数量，本发明将数据集中的C个类别分为N组，如果一个类别j所包含的训练数量N(j)在s_n ^l到s_n ^h之间将一个类别j分到第n组G_n，其中s_n ^l和s_n ^h为超参数。在本发明中，本发明设置s_n+1 ^l＝s_n ^h，N＝4，s₁ ^l＝0，s₂ ^l＝10，s₃ ^l＝100，s₄ ^l＝1000，s₄ ^h＝+∞。此外，本发明手动设置一个类别G₀，仅包含背景类别。为了进一步解决每个组之间的类别互斥关系，本发明在每个小组中加入一个“其它”类别，以表示那些真实标注类别不属于当前小组中所包含的类别的样本。在G₀中，“其它”类别同样表示前景类别。即，对于一个候选窗口b_k，其新的预测结果z将变为一个(C+1)+(N+1)为的实数向量，而类别j的概率计算方式为：

对于一个真实类别为c的样本，在所有小组中，它的真实样本将进行一个重映射，对于包含类别c的小组，类别c仍然是真实类别，而其它小组中，“其它”类别讲被设置为真实类别。所以，最终的损失函数为：

其中，yⁿ和pⁿ分别表示G_n组的真实标注和概率。

根据以上描述，每个小组中“其它”类别又将再次成为该组内的头部类别，造成不均衡的问题。所以，本发明通过一个采样系数β，来控制用于训练每组内“其它”类别的样本比例，在一个batch中，若一个小组内非“其它”类别所包含的训练样本刷量为m，则本发明将采样βm个“其它”类别的训练样本参加这个batch的梯度计算。

在测试过程中，本发明先用训练好的模型生成z，然后再每个小组中进行Softmax计算，除G₀小组以外，剩余小组的“其它”类别都将被忽略。G₀小组“其它”类别得分为p₀ ⁰，则，其它所有正常类别的得分将为p_j＝p₀ ⁰×p_j。则这个新的得分向量将被用来进行NMS等后处理，以得到最终的检测结果。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提供了一种长尾目标检测系统，其中包括：