CN112990102B

CN112990102B - 一种改进的Centernet复杂环境目标检测方法

Info

Publication number: CN112990102B
Application number: CN202110408765.9A
Authority: CN
Inventors: 邵继业; 罗钟福; 彭倍; 葛森
Original assignee: Sichuan Artigent Robotics Equipment Co ltd
Current assignee: Sichuan Artigent Robotics Equipment Co ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-11
Anticipated expiration: 2041-04-16
Also published as: CN112990102A

Abstract

本发明公开一种改进的Centernet的复杂环境目标检测方法，应用于计算机视觉领域，针对现有技术在拥挤、模糊、光线不足等特殊场景下的检测性能低下的问题。本发明基于CenterNet模型，重新定义了热度图的生成规则以适应目标宽高比的变化；同时，把原始对宽高做预测的分支网络调整为使用基于分布概率模型的多输出预测，再通过积分得到宽高信息，缓解拥挤场景下的预测框模糊边界问题；并基于多核最大值滤波的极大值抑制代替方案处理热度图，实现在保留最佳检测框的同时，在一定程度降低误检框置信度，从而提升整体精度。

Description

一种改进的Centernet复杂环境目标检测方法

技术领域

本发明属于计算机视觉领域，特别涉及一种复杂场景目标检测技术。

背景技术

目标检测是计算机视觉领域的一项重要研究分支。目标检测要解决的问题简单来说可以定义“什么目标在哪里”，目前从网络模型的算法结构上可以分为“二阶段”和“一阶段”的目标检测算法，差别在于前者分两步检测目标位置：首先基于区域建议网络(RPN,Region Proposal Network)生成可能的目标框，再对目标框做分类，即把检测问题转化为分类问题；而后者则直接从图像的卷积层特征回归出目标框，即把检测问题转化为回归问题。此前二阶段网络较后者往往能取得更高的精度，但一阶段网络直接输入到输出的“端到端”的训练、推理方式，速度快，有利于部署，随着人们的研究深入，一阶段网络的精度大大提高，已经不亚于二阶段方法。

与此同时，一阶段网络中根据是否使用锚框(anchor)机制又可以简单划分为Anchor based方法和Anchor free方法，基于anchor的方法通过对卷积特征点上放置多个锚框，产生大量目标框，往往能得到更好的目标召回率，从而实现精度的提升，然而带来的一个问题是对同一目标将出现许多重复框，这必然要求非极大值抑制算法的应用来去重，这无疑加大了算法复杂度，影响了算法效率。而CenterNet为Xingyi Zhou人在2019提出的论文《Object as Points》中提出的anchor free模型，具有结构简单，拓展容易，检测指标较高等特点。

目前目标检测领域从2001年Paul Viola等人提出人脸检测算法来已有将近20年发展，各类目标检测算法在安防、生产等取得巨大应用，但由于受到光线、场景等客观条件的影响，复杂场景下的目标检测算法往往难以稳定运行，例如此前苏格兰一场足球赛上AI裁判把裁判的光头误检测为足球，导致相机焦点没有及时跟随足球移动，给转播带来了麻烦。而此类问题若出现在自动驾驶、门禁安防中则可能会导致严重后果，因此有必要对复杂场景下的目标检测算法做进一步的研究。同济大学和北京大学的学者在2018年合作论文《Repulsion Loss:Detecting Pedestrians in a Crowd》中从损失函数的角度针对行人检测提出了适用于二阶段网络的repulsion loss，改善RPN生成的预测框质量；而KevinZhang人2019的论文《Double Anchor R-CNN for Human Detection in a Crowd》中则基于二阶段网路同时预测头部和身体，使用组合式的方式来检测行人，提高拥挤场景的行人检测精度，降低漏检率。

发明内容

为解决上述技术问题，本发明提出一种改进的Centernet复杂环境目标检测方法，使用基于概率的形式预测目标框的宽和高的概率分布，通过积分确定宽高，而非直接预测宽高信息，能给出更稳定的宽高预测，此外新定义的热度图规则反映了目标的形状，以及所提出的多核最大值滤波的后处理方法一定程度缓解原模型大目标重复检测的问题。

本发明采用的技术方案为：一种改进的Centernet的复杂环境目标检测方法，包括：

S1、改进现有的CenterNet网络结构，改进后的CenterNet网络结构包括：用于特征提取的骨干网络、用于特征聚合的特征聚合网络以及分支预测输出头网络；

所述分支预测输出头网络具体包括三个分支，分别为：热度图预测分支、宽高预测分支以及目标中心点偏移量预测分支；热度图预测分支输出层数设置为目标类别数，目标中心点偏移量预测分支的输出层数为2，宽高预测分支输出层数为2*K，K为宽高概率分布向量长度，高宽预测分支的输出为宽高概率分布向量；

把宽高预测分支的输出取最大的前d个值以及均值，组合后，通过两个卷积层以及Sigmoid激活层后的结果和热度图预测分支结果直接相乘，作为热度图预测分支的最终结果；

S2、训练数据集通过热度图预测分支生成标签图，将生成的标签图输入步骤S1改进后的CenterNet网络进行训练；

S3、将待检测图片输入训练完成的改进后的CenterNet网络；

S4、对步骤S3改进后的CenterNet网络的输出进行解析，得到目标预测框。

步骤S2训练数据集通过热度图预测分支生成标签图，具体为：

其中，w'、h'为生成的标签图尺寸，(cx,cy)表示目标中心点坐标，

步骤S2所述将生成的标签图输入步骤S1改进后的CenterNet网络进行训练；具体为：

A1、定义改进后的CenterNet网络的损失函数为：loss＝λ₁L_hm+λ₂L_wh+λ₃L_d+λ₄L_offset，其中L_hm为热度图损失，L_wh为宽高损失，L_d为宽高概率分布损失，L_offset为预测中心点到真实中心点的偏移量损失，λ₁、λ₂、λ₃、λ₄依次为L_hm、L_wh、L_d、L_offset各自的加权因子；

A2、根据步骤A1定义的损失函数，进行反向传播优化改进后的CenterNet网络；

A3、当达到迭代停止条件，得到训练完成的改进后的CenterNet网络。

步骤S4所述解析中对热度图分支的解析，具体为：

对热度图分支输出分别使用m个不同大小的核遍历每一个点，若核范围中的最大值不等于当前值，就令当前值为0，最后把m次最大值滤波结果加权，从而得到最后的输出类别置信度特征层。

步骤S4所述解析中对宽高输出分支的解析具体为：通过积分得到最终的宽高信息。

本发明的有益效果：本发明基于CenterNet模型，把原始对宽高做预测的分支网络调整为使用基于分布概率模型的多输出预测，再通过积分得到宽高信息，重点解决拥挤场景下的预测框模糊边界问题；而新定义的热度图生成规则反映了目标的形状特征；同时对原始CenterNet网络容易出现对大尺度目标预测多个重叠框问题，提出一种基于多核最大值滤波的极大值抑制代替方案。本发明具备以下优点：

1.使用基于概率的形式预测目标框的宽和高的概率分布，通过积分确定宽高，而非直接预测宽高信息，能给出更稳定的宽高预测，尤其针对拥挤、暗光等场景下模糊的目标框预测能有更好的鲁棒性，同时通过分支网络把学习到的概率信息融合到热度图的收敛中；

2.新定义的热度图生成规则反映了目标的形状特征，对遮挡场景导致的长宽比变化有更好的适应性；

3.CenterNet模型是基于关键点检测思想检测目标位置，针对其对大尺寸目标热度图不容易收敛，容易产生重复框的问题，本发明提出基于多核最大值滤波的极大值抑制代替方案，在保留最佳检测框的同时，在一定程度降低误检框置信度，从而提升整体精度，但几乎不增加额外计算量。

附图说明

图1为本发明的算法流程框图

图2为本发明的检测模型网络结构图。

图3为本发明的输出头的详细网络结构图。

图4为本发明和原CenterNet模型在自建数据集上的平均PR曲线图。

图5为本发明在Pascal VOC2012训练后的检测效果示意图

其中，图5(a)为本发明在人物密集场景下的检测结果，图5(b)为本发明在车辆密集场景下的检测结果图。

图6为本发明在自建数据集训练后的检测效果示意图；

其中，图6(a)为本发明在夜间车流场景1的检测结果，图6(b)为本发明在夜间车流场景2的检测结果，图6(c)为本发明在夜间车流场景3的检测结果图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明公开一种改进的CenterNet复杂环境下的目标检测方法，实现流程图如图1所示，下面将具体介绍：

如图2所示本发明改进的CenterNet网络模型结构图，模型结构上包括用于特征提取的骨干网络(backbone)，中部的特征聚合网络，以及分支预测输出头网络。

分支预测输出头网络包括三个分支：热度图的预测分支hm通过对每一种目标类别预测一个热度图，在目标中心点处置信度高，非目标处置信度就低，通过检测峰值来预测目标中心点位置；宽高预测分支wh则负责预测目标的宽高信息；而offset分支则预测目标中心点偏移量。

如图3所示为本发明改进的CenterNet网络模型中调整后的输出头的具体结构图；下面实施例将分别在Pascal VOC2012数据集、以及自建的夜间车辆检测数据集中分别验证本发明改进的CenterNet网络模型的性能，具体步骤如下：

步骤1：调整CenterNet的输出头结构中hm分支层数设置为目标类别数，offset分支输出层数为2，wh分支输出层数为2*K，K为正整数超参数，为需要的概率预测向量长度，也即把图片的宽或者高映射到[0,K-1]，模型在此范围内回归目标框的信息。

把宽高分支的输出取最大的前d个值以及均值组合，其中d为正整数超参数，把结果通过两个卷积层以及sigmoid激活层后的结果和热度图分支结果直接相乘，当作热度图分支的最终结果。令K＝8，d＝4，三个分支输出特征图尺寸皆为128×128。

步骤2：定义模型的损失函数为loss＝λ₁L_hm+λ₂L_wh+λ₃L_d+λ₄L_offset，其中L_hm为热度图损失，L_wh为宽高损失，L_d为宽高概率分布损失，L_offset为预测中心点到真实中心点的偏移量损失，λ₁、λ₂、λ₃、λ₄依次为L_hm、L_wh、L_d、L_offset各自的加权因子，实施例中各项损失函数的加权因子分别设为：λ₁＝1，λ₂＝0.1，λ₃＝0.5，λ₄＝1。

具体地，L_hm表达式为：

其中，N为目标数量，p_hm为热度图分支预测值，y_hm为标签值，并令超参数α＝0.25，β＝2，γ＝1。此热度图损失对正例中心点周围的负例点将提供衰减的损失值。

L_d为表达式为：

L_d＝-((y_i+1-y_wh')log(S_i)+(y_wh'-y_i)log(S_i+1))

其中y_wh'＝y_wh·q，y_wh为目标框在输出特征层上的对应宽高，q为检测层特征图宽高缩放到K-1时的比例系数，K为概率向量长度，而y_i和y_i+1分别为y_wh'向下和向上取整，S_i和S_i+1分别为wh分支的概率向量积分值p_wh向下和向上取整，因此有y_wh',p_wh∈[0,k-1)，y_i,S_i∈[0,k-2]，y_i+1,S_i+1∈[0,k-1]。

特别地，所述的概率向量积分过程描述为：对每一个长度为K的概率分布向量P＝[p₀,p₁,…p_K-1]，积分公式为：

L_wh表达式为：

其中，p_wh为积分后预测的宽高，q为检测层特征图宽高缩放到K-1时的比例系数，y_wh为目标框在输出特征层上的对应宽高。

L_offset表达式为：

其中，p_offset为预测的偏移量，y_offset为目标在输出特征层上的实际偏移量，且

其中S为原始输入图像尺寸到模型输出尺寸的缩小尺度，实施例中S＝4，pos为目标在原图像中的位置中心点坐标，符号

表示对x向下取整。

步骤3：把输出头的热度图分支层数修改为等于数据集类别，把图片数据集分批次依次生成标签图，输入网络训练，并解析网络输出得到目标预测框。

其中生成热度标签图时，本发明中对于第i类目标热度图g的生成规则为：在输出特征层上，对某个目标中心点(cx,cy)，假设宽w，高h，对于热度图每个点(x,y)有：

其中，

由上述热度图生成规则可知，每个目标框的热度图尺寸与宽高成正比，中心值为1，向外逐步衰减，且沿中心点x、y轴方向的衰减较慢。

在解析网络输出中，本发明提出一种基于多核最大值滤波的NMS代替方案，不像常见的极大值抑制算法(NMS)一样设置阈值去对解析后得到的重复检测框做交并比计算，然后抑制、保留计算，本发明直接对热度图分支输出分别使用m个不同大小的核遍历每一个点，若核范围中的最大值不等于当前值，就令当前值为0，最后把m次最大值滤波结果hm_i加权，从而得到最后的输出类别置信度特征层

w_i是权重因子，可以简单取为1/m。作为后处理方法，滤波核尺寸大小和m取值可根据多次测试结果而定，本实施例取m＝3。

对宽高输出分支的解析通过积分得到最终的宽高信息：假设n是训练批次大小，h、w为模型特征输出尺寸，则宽高分支输出特征维度为[n,2K,h,w]，解析时拆分为[n,2,K,h,w],再调整通道为[n,2,h,w,K]，对最后一个通道积分，针对每一个[1,K]的概率分布向量P＝[p₀,p₁,…p_K-1]，积分公式为：

最终得到输出维度为[n,2,h,w]。

步骤4：迭代训练网络，根据步骤2中定义的损失值，反向传播优化网络权重，直到网络损失值难以继续下降或者迭代步数达到指定步数N_e，实施例表2中实验N_e＝80，表3中实验N_e＝200。

步骤5：得到最优模型用于实际检测任务。

上述步骤中的模型训练中，一些公共参数统一列出如表1所示：

表1训练参数表

最后，在两个数据集各自的表现如下：

1.在VOC2012train上训练，在VOC2012val上验证，此数据集用以测试本发明所提的改进CenterNet与原CenterNet的性能对比，由于VOC2012作为一个公共数据集，训练集5700张，验证集5800张，一共20个类别，其上的测试结果可以一定程度反映模型在普遍场景中的性能对比(其中在使用new_head分支后，热度图损失下降较快，更改学习率策略为MultiStep([10,30],0.1)，即分别在epoch＝10,30时以0.1的比例下调学习率)。为了表示方便，设置如下标记：

baseline：代表原CenterNet模型；

newhm：表示使用本发明所述的热度图生成规则；

distribution loss:表示本发明所述的增加的损失函数项和增加宽高分支预测维度；

new_head:表示本发明所述的对原CenterNet模型的输出头的改进，即增加宽高预测输出到热度图的融合分支，依次加入不同改进点训练得到消融实验对比结果。

mAP:COCO数据集中定义的平均精度均值，即阈值IOU＝0.5:0.05:0.95下，所有图片所有类别的平均精度；

AP0.5:在预测框和真实框交并比大于0.5时才会计算为正例，在此条件下所有类别平均精度；

AP0.75:同AP0.5；

AP(small):所有类别中尺寸面积小于32×32的小目标的平均精度；

AP(medium):所有类别中尺寸面积大于32×32，小于96×96的中目标的平均精度；

AP(large):所有类别中尺寸面积大于96×96的大目标的平均精度；

best_epoch/total:最佳模型的产生轮次与总迭代轮次之比；

表2在VOC2012验证集上的对比实验结果

表2中每一行表对原模型加入不同改进后的实验对比结果。基于本发明提出的改进点，从结果来看，不改变特征提取的骨干网络的前提下，仅通过对损失函数的调整和输出头的轻微调整就实现了约2％的mAP的提升，对于小、大目标能实现更好的检测，同时整体的收敛速度也快得多。

此外，如发明内容中步骤3的中所述，本发明还提出一种基于多核最大值滤波的NMS代替方案，几乎不需要多少额外的计算量，能对训练好的模型通过后处理的方法，保持中心点置信度不变的同时，抑制周围的候选点的置信度，从而实现整体mAP的提升，此种方法在同类目标多预测、大目标检测的场景尤为有效，表3是使用不同的核尺寸做滤波，在VOC2012数据集上对序号4的最佳模型使用此方法后的对比：

表3不同核尺寸多核最大值滤波效果对比

使用不同的核尺度，多次滤波结果的融合得到最终热度图，在不同程度上提升了模型的性能，但从实验组4.2和4.3对比知，当核数量达到一定程度时提升达到瓶颈，甚至可能损害精度。同时，从表3中可以看到large类，即大尺寸目标的AP提升明显，说明改进点对大目标检测的提升。

2.在自建的夜间汽车检测数据集上训练验证。此数据集为多个交通道路摄像头所拍摄的视频中抽取的图像，并标注而来，基本皆为夜间场景，存在着汽车拖影、相互重叠、远景模糊、数据集类别不均衡等问题，符合本发明所提出的复杂场景条件，表4为此数据集类别分布情况。

表4自建夜间车辆检测数据集类别分布

在此数据集实验下调整权重因子α＝0.2，λ₁＝1，λ₂＝0.5，λ₃＝0.1，λ₄＝1，输出类别为2，使用实施例中序号4的模型结构。

如图4所示，为本发明与原CenterNet(baseline)的两个类别的平均PR(Precision-Recall)曲线，baseline的原模型几乎本本发明中模型的PR曲线盖住,说明了本发明有更好的检测指标。具体的检测指标如表5所示，本发明的方法较原CenterNet模型方法，整体实现了2％mAP以上的提升，而大目标检测则达到了约5.6％mAP的提升，比较明显。

表5在自建夜间道路车辆检测数据集测试对比

	mAP	AP0.5	AP0.75	AP(small)	AP(medium)	AP(large)
							原CenterNet	57.84	91.14	65.28	47.71	68.39	75.68
本发明	60.38	93.34	66.77	50.28	70.47	81.25

最后如图5、图6所示分别为本发明在VOC2012、自建数据集上的部分检测结果图，图5(a)为本发明在VOC2012上密集人流的检测结果，图5(b)为本发明在VOC2012上密集车流的检测结果；图6(a)为本发明在自建数据集上夜间车流场景1的检测结果，图6(b)为本发明在自建数据集上夜间车流场景2的检测结果，图6(c)为本发明在自建数据集上夜间车流场景3的检测结果；从图5与图6可见，本发明在密集目遮挡(如图5(a)与图5(b))、尺度变化、光照变化、模糊(如图6(b))等复杂环境下均表现有较好的检测性能。

综上所述，本发明基于改进后的CenterNet模型，在复杂场景中，使用所提出的概率分布对宽高进行预测、并增加到热度图预测的融合分支以及使用多核最大值滤波，能有效提升对小目标和大目标的检测性能，较原模型无论在性能和训练的收敛速度有明显提升。同时，应知道以上仅为本发明较佳实施例，而不用于限制本发明，在不脱离本发明的精神和基本特征的前提下，不经创造性的修改、替换和改变都属于本发明专利的保护范畴。

Claims

1.一种改进的Centernet的复杂环境目标检测方法，其特征在于，包括：

S3、将待检测图片输入训练完成的改进后的CenterNet网络；

S4、对步骤S3改进后的CenterNet网络的输出进行解析，得到目标预测框；步骤S4所述解析中对宽高输出分支的解析具体为：通过积分得到最终的宽高信息。

2.根据权利要求1所述的一种改进的Centernet的复杂环境目标检测方法，其特征在于，步骤S2训练数据集通过热度图预测分支生成标签图，具体为：

3.根据权利要求1所述的一种改进的Centernet的复杂环境目标检测方法，其特征在于，步骤S2所述将生成的标签图输入步骤S1改进后的CenterNet网络进行训练；具体为：

A1、定义改进后的CenterNet网络的损失函数为：

loss＝λ₁L_hm+λ₂L_wh+λ₃L_d+λ₄L_offset，

其中，L_hm为热度图损失，L_wh为宽高损失，L_d为宽高概率分布损失，L_offset为预测中心点到真实中心点的偏移量损失，λ₁、λ₂、λ₃、λ₄依次为L_hm、L_wh、L_d、L_offset各自的加权因子；

4.根据权利要求1所述的一种改进的Centernet的复杂环境目标检测方法，其特征在于，步骤S4所述解析中对热度图分支的解析，具体为：