CN115761667A

CN115761667A - 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法

Info

Publication number: CN115761667A
Application number: CN202211383301.8A
Authority: CN
Inventors: 张涛; 肖伟民; 刘晓晨
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-07

Abstract

一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，涉及计算机视觉领域。由无人车采集图像，将图像进行预处理后，放入改进的FCOS网络模型中进行训练，训练过程中模型会对图像进行特征提取，预测，损失计算，参数更新，经多多次迭代后，可以得到训练完成的检测模型文件，经过模型转换后，就可以应用部署在无人车等终端设备上。本发明在特征提取的能力上更强，而且构建的两阶段模型在小目标上的检测效果更优，有效地提升了模型的识别准确率，改善了模型的漏检和误检。

Description

一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法

技术领域

本发明涉及计算机视觉图像处理技术领域，特别涉及一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法。

背景技术

汽车行业的发展超过了200年，历经了多轮技术迭代和产业升级。汽车从机械化向着电气化，电子化发展，今天智能汽车更是成为汽车发展的新主题。智能车通过安装的传感器，实时感知周围的动静态障碍物，实现及时的危险预警和驾驶辅助。自动驾驶智能车更是能够完全解放驾驶人的双手，实现车辆的环境感知，自身定位，自主进行车辆规划控制。图像处理和目标检测就是环境感知中的关键问题。

专利号CN202111633725.0，专利名称：一种基于YOLOv5的无人车辆搭载摄像头目标检测方法，其公开了一种基于YOLOv5的无人车辆搭载摄像头目标检测方法,包括无人车本体，以及安装在无人车本体前端的摄像头；所述的摄像头采集图片，将图片进行分类预处理后，再将预处理过的图片放入到YOLOv5网络模型中进行训练处理，训练过程中模型会对训练集中的图像特征点进行提取，经过多次迭代，可以得到训练完成的检测模型文件，检测模型文件为.pt格式；处理后得到的最优异的文件检测模型部署到嵌入式等设备并应用。本发明在训练时能够提取更多的特征信息，大大加强了YOLO算法对于隐蔽性强的目标的提取性能，有效地提升了识别准确率，训练效果较好，漏检率较低。

其针对原始YOLOv5检测模型参数量大的问题，采用将GhostBottleneck模块替换BottleneckCSP模块，采用DWConv模块替换Neck中的Conv模块。解决了YOLOv5对于隐蔽性强的目标的识别性能低，模型参数量较多的问题

本申请提出一种基于FCOS的检测模型，其anchor-free的两阶段结构相对于现有的anchor-base模型，泛化能力强，模型结构简单，检测精度高。此外，其采用的多分支结构、重参数化技术提升了模型的特征提取能力，同时在模型推理时，不增加参数量。两阶段结构也提升了原始FCOS模型小目标的检测能力。

专利号CN201810530668.5，专利名称：一种基于深度学习和多层特征融合的驾驶场景目标检测方法，其公开了一种基于深度学习和多层特征融合的驾驶场景目标检测方法，该方法包括以下步骤：1)采集视频图像，作为训练数据集，并进行预处理；2)搭建训练网络；3)对训练网络进行初始化，获得预训练模型；4)使用步骤3)获得的预训练模型在训练数据集上进行训练，获得训练模型；5)使用车载摄像头采集前方图像，将图像输入步骤4)获得的训练模型中，获得检测结果。本发明采用基于特征金字塔的多层特征融合方法来增强低层特征图的语义信息，从而提升网络的特征提取质量，获得更高的检测精度。

针对SSD检测算法检测速度慢的问题，采用了轻量化的特征提取网络Mobilenet作为特征提取网络，采用基于特征金字塔的多层特征融合方法来增强低层特征图的语义信息。解决了SSD检测算法运行速度慢，小目标检测能力低的问题

本申请提出了一种基于FCOS的检测模型其anchor-free的两阶段结构相对于现有的anchor-base模型，不需要anchor的设计，简化了模型使用的流程，提升了模型的泛化性。采用轻量级主干网络VargNet，同时加入了多分支结构和重参数化结构。上述的结构使得本发明在提升精度的同时，不增加网络的计算量。此外还通过构建出的两阶段结构解决了FCOS在小目标检测性能低的问题。

在计算机图像视觉检测领域，可以通过不断训练深度学习神经网络模型，使模型获得分辨识别出不同类别的物体的能力，且模型能展现出较好的性能。FCOS算法是anchor-free检测算法，与anchor-base检测网络相比，其不需要设置anchor的相关参数，极大的增加了检测模型的泛化性能和可移植性，减轻了使用者的设计负担。FCOS网络结构简单，没有复杂的超参数限制，可扩展性极强。FCOS网络可以在保证速度的同时，提供优秀的检测性能。

发明内容

为了解决以上问题，本发明提出一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法。在特征提取的能力上更强，而且构建的两阶段模型在小目标上的检测效果更优，有效地提升了模型的识别准确率，改善了模型的漏检和误检。

为实现上述目的，本发明采取的技术方案是：

一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，具体步骤如下：

(1)将摄像头安装在车辆的前端便于摄像头能拍到车辆前侧的位置；在车辆行驶的过程中，摄像头采集车辆行驶过程中的视频；

(2)对采集到视频流信息进行关键帧的截取，将截取出来的图像进行预处理，图像的预处理包括对重复图像的筛选，删除无目标的图像，还包括将所有图像进行标注，标注文件中包含图像的类别信息和目标的位置信息；将预处理后的图像划分为用于训练的预训练图像数据集、用于验证的验证图像数据集以及用于测试的测试图像数据集；

(3)搭建改进后的FCOS模型，对模型的训练参数进行设定，将步骤(2)中预处理后的图像用于参数设定完整的改进后的FCOS模型，进行模型的训练，在训练过程中，会对训练集中的图像进行特征提取，经多次迭代后，得到训练完成的检测模型；

(4)检查模型的效果，对最后保存的模型进行分析，查看模型是否发生过拟合或欠拟合现象，若发生过拟合或欠拟合现象，根据实验结果调整训练次数和超参数，得到合理的检测模型；

(5)设置得分阈值和IOU阈值，对模型的输出结果进行解码，根据设置的阈值对解码后的预测框做非极大值抑制处理，删除多余的目标框，最后输出目标检测结果；

在后处理阶段，会结合第一阶段候选框的置信度和第二阶段预测的分类置信度作为最后输出的分类置信度。

作为本发明进一步改进，步骤(2)所述的进行关键帧截取的具体方式为：将步骤(1)中采集到的视频影像数据进行关键帧抽取，每隔10帧抽取一帧作为数据集中的一张图片。

作为本发明进一步改进，步骤(2)所述的图像预处理的操作具体方式是：

先将所有抽取出来的图像进行整理，筛选删除重复，无效的，与目标无关的图像；其次，将经过删选操作后剩下的图片进行整理，按照7：2：1的比例分为三份，分别作为用于模型训练的训练集、用于模型验证的验证集、用于测试模型的测试集；最后使用标签处理工具对训练集、验证集进行待检测目标的标签标注和标签处理。

作为本发明进一步改进，步骤(3)所述的改进的FCOS网络训练模型在Pytorch环境下搭建，将步骤(2)中所得到训练集、验证集、测试集路径添加至模型配置文件中，并在改进的FCOS网络训练模型中设置相应参数；

在不同尺寸的特征图后添加通道空间注意力机制模块，使特征图在通道和空间两个方向加权平均，提升模型的精度；使用VargNet轻量主干网络减小模型的计算量，同时在原模型的基础上提出多分支结构，提升模型的特征表示能力，并采用重参的手段减小模型在推理时的计算量；在特征融合模块中加入BiFPN结构；将原始的FCOS检测模块中的卷积模块替换为深度可分离卷积模块，并在FCOS采样阶段加入提出的基于中心先验的采样方式和新的Centerness计算方式；在FCOS检测模块后加入refine模块，进一步提升模型的精度；改进后的FCOS网络模型包括骨干特征提取网络、特征融合模块、FCOS Proposal模块、FCOSRefine模块。

作为本发明进一步改进，所述骨干特征提取网络用VargNet网络，其使用可变的分组卷积来替换传统卷积，并且加入多分支结构和重参数化结构，可变分组卷积与深度可分离卷积类似，由两部分构成，第一个部分是可变组卷积部分，可变分组卷积不采用固定分组的形式，更有利于底层硬件的运行，第二部分是逐点卷积部分，用于保证通道数的匹配，多分支结构由多个3*3的卷积构成，提升模型的特征表征能力，模型推理时，重参数化将模型调整为单路径结构，保持模型性能的同时，减小模型的资源消耗。

作为本发明进一步改进，特征融合模块采用BiFPN结构，该结构删除了只有一个输入的节点，简化了结构运算量；并且在输入和输出之间增加了连接通道，提升模型的特征融合性能；该模块同时使用了自顶向下和自底向上两种融合方式，同时增加了顶层的语义信息和底层的定位信息，大幅提升了模型的特征融合能力。该模块还考虑了不同尺寸特征图之间，对模型的贡献程度是不同的，所以对于不同尺寸的特征图，会给予不同的权重。

作为本发明进一步改进，FCOS Refine模块将FCOS的检测头作为第一阶段的候选框提取网络，在FCOS正负样本采样时，加入中心先验规则。针对真实框中心的位置，设置一定边长的正方形采样区域，仅针对采样区域内的样本进行正样本的采样。针对不同尺度的目标，设置一个边长的缩放系数对中心采样区域的控制，并使用新的中心度分支对样本质量评估。同时提出Refine模块进行第二阶段的特征提取和训练；在第一阶段和第二阶段之间，使用ROI Align模块将候选框从特征图中选出，该模块没有坐标映射过程中的量化操作，采用双线性插值算法来计算目标位置的值，对于定位精度的提升明显。

与现有技术相比，本发明的有益效果为：

(1)本发明构建了一个两阶段网络，不同于普通的两阶段网络，无论是在训练或是前向推理时需要大量的候选框。基于FCOS的候选框网络，在第二阶段不需要大量的候选框就可以使模型训练收敛。

(2)本发明采用基于改进FCOS算法的目标检测方法，增加了通道空间注意力机制，同时采用VargNet主干网络，并加入多分支和重参数化结构，提升了模型的特征表示能力，减小模型的计算量；使用BiFPN模块来提升模型的特征融合能力；最后加入FCOS Refine模块和ROIAlign模块。在第一阶段和第二阶段的数据流中，减少候选框的数量，兼顾计算速度和模型的精度。

(3)本发明相较于一阶段的FCOS模型，有两个阶段的检测过程，其性能更优越；在第二阶段使用第一阶段候选框从大的特征图中选出的更细致的特征图，其更有利于小目标的检测，所以在小目标的检测性能上也会更好。

附图说明

图1是本发明在训练过程中的流程示意图；

图2是本发明中改进后的FCOS网络模型架构图；

图3是改进后的FCOS网络模型在实际应用中检测效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图2所示，本发明将Refine模块引入FCOS网络中，构建出一个两阶段的anchor-free网络；采用轻量化的主干网络，在主干网络中加入多分支思想，加入重参数化结构；在特征图后增加通道注意力机制；使用融合能力更强的BiFPN作为特征融合模块；使用ROIAlign模块对特征图进行候选框的提取；在FCOS中提出新的基于中心先验的采样方式和新的Centerness计算方式。最后利用车载的摄像头采集的图片进行训练，改进后的FCOS网络模型在实际应用中检测效果图，如图3所示，具体实现步骤如下，发明在训练过程中的流程示意图如图1所示：

(1)将摄像头安装在车辆的前端便于摄像头能拍到车辆前侧的位置；在车辆行驶的过程中，摄像头采集车辆行驶过程中的视频信息；

(2)对采集到视频流信息进行关键帧的截取，每隔10帧抽取一帧作为数据集中的一张图片，将截取出来的图像进行预处理。将预处理后的图像进行整理，按照7:2:1的比例划分为用于训练的预训练图像数据集、用于验证的验证图像数据集以及用于测试的测试图像数据集；图像的预处理包括对重复图像的筛选，删除无目标的图像。还包括将所有有效图像中的所需类别进行标注，标注文件中包含图像的类别信息和目标的位置信息。对于有遮挡的物体，标注为hard标记，在训练时可以选择是否使用这些有遮挡的目标数据进行训练；

(3)搭建改进后的FCOS模型，对模型的训练参数进行设定。将步骤(2)中预处理后的图像用于参数设定完整的改进后的FCOS模型，进行模型训练。在训练过程中，会对训练集中的图像进行特征提取，经多次迭代后，可以得到训练完成的检测模型；

(4)特征提取骨干网络采用VargNet网络，其使用可变的分组卷积来替换传统卷积。可变分组卷积与深度可分离卷积类似，由两部分构成，第一个部分是可变组卷积部分。可变分组卷积不采用固定分组的形式，更有利于底层硬件的运行。第二部分是逐点卷积部分，用于保证通道数的匹配；采用多分支思想，并使用重参技术。多分支思想表示，在特征提取阶段使用多个分支，可以提升模型的特征表示能力，提升模型的特征提取能力，但使用多分支结构带来的缺点是模型参数量的增加，所以增加重参数化结构减小模型的计算量。重参数化表示在模型推理阶段，将多个分支的卷积进行参数的重新构造，将所有的卷积和BN结构都吸收在一个卷积内，使结构变成单一的路径，这样可以保持精度相同，同时减小计算量。将576*704*3的图像输入进主干网络后，首先经过一个普通卷积进行升维操作，将通道数升至16维，特征图的尺寸缩减为288*352；将特征图依次通过由不同数量个BasicVarBlock堆叠的模块，BasicVarBlock堆叠的数量为1，3，7，4个，每个大的Block都会进行下采样操作，将特征图缩减为原来的二分之一。每个模块的输出送入下一个模块的同时，都保存在一个列表中，作为特征融合模块的输入。

(5)在不同尺寸的特征图后添加通道空间注意力机制模块，使特征图在通道和空间两个方向加权平均，提升模型的精度；

(6)特征融合模块采用BiFPN结构，该结构删除了只有一个输入的节点，简化了结构的运算量；并且在输入和输出之间增加了连接通道，提升模型的特征融合性能；该模块同时使用了自顶向下和自底向上两种融合方式，同时融合了顶层的语义信息和底层的定位信息，大幅提升了模型的特征融合能力。特征融合模块最后输出p2、p3、p4、p5、p6，分别是输入图像上采样4、8、16、32、64倍的特征图，输出的通道数都固定为32。

(7)FCOS Refine模块将FCOS的检测头作为第一阶段的候选框提取网络，同时加入Refine模块进行第二阶段的特征提取；

在第一阶段时，使用FCOS作为候选框提取网络，使用卷积结构进行预测，在四个特征层上，卷积结构共享参数。在样本的采样阶段，加入中心先验规则，中心先验规则是考虑将真实框中心区域的样本点作为正样本，原因是处于物体中心区域的样本点一般会出现在物体上，并且其感受野更适合覆盖整个物体，所以通常会输出更高的置信度。所以考虑在FCOS正负样本采样时，针对真实框中心的位置，设置一定边长的正方形采样区域，仅针对采样区域内的样本进行正样本的采样。针对不同尺度的目标，设置一个边长的缩放系数对中心采样区域的控制。这样的改进，会使进行计算的正样本点都在目标的中心位置附近，更符合中心先验的规则，同时不对边缘位置进行采样，可以减少低质量样本的数量。在预测头中会有三个分支：分类，回归和中心度分支。

分类分支使用Focal loss缓解正负样本不平衡的问题，公式为：

L_fl＝-α(1-p_t)^γlog p_t

其中α为权重因子，作用是调节正负样本的权重。γ是调节因子，作用是调节困难样本的权重；y为真实标签，p为分类的预测值。因为此分类任务是一个二分类任务，即是此类目标或不是此类目标，所以当真实标签为1时，表示是此类目标，其为正样本；当真实标签为0时，表示不是此类目标，为负样本。p_t反映了与ground truth即类别y的接近程度，p_t越大说明越接近类别y，即分类越准确。

回归分支使用CIoU loss，同时考虑了框的重叠面积，距离和长宽比，公式为：

其中，IOU是预测框和真实框的交并比，ρ²(b，b^gt)是两个框中心点的之间的欧式距离；w^gt和h^gt是真值框的长和宽，w和h是预测框的长宽。

中心度分支是用来衡量样本点的质量，使用交叉熵损失计算。本发明提出新的计算中心度分支的方式：采用IOU和分类得分来评估预测框质量的高低。具体地：针对真实框内的所有样本点进行计算，计算样本点的预测框和真实框的IOU，将IOU值和预测的类别置信度相结合，作为一个整体的结果使用。Centerness分支的标签值分为两种情况，如果是在上述设置的正样本采样区域内，标签值为1。如果在负样本采样区域，标签值为0。对于一个高质量的样本点，其预测框的IOU和置信度都是较高的，而低质量的样本点，其预测框IOU和类别的置信度可能存在某一项值不高，所以需要将这些框的过滤掉。中心度分支的计算公式为：

其中iou是预测框和真实框之间的重叠面积，score是预测框的置信度得分。

在第一阶段和第二阶段之间，使用ROIAlign模块将候选框提取网络输出的候选框从特征图中选出，ROI Align的步骤如下：

a)首先从候选框提取网络拿到一系列候选框，并且输入特征融合网络各层级的特征图；

b)计算各个候选框的面积开方，公式为

c)根据公式

计算出候选框对应的层级，其中5为固定参数；

d)找到候选框对应的层级后，使用双线性插值算法计算出候选框对应的特征图；

在第二阶段中，对于使用第一阶段的候选框数量的选择：在训练时选择使用IOU阈值为0.7，得分阈值为0的top30个候选框进行训练，保证模型的召回率和收敛速度；在推理阶段时，同样使用IOU阈值为0.7，得分阈值为0的top15个候选框进行预测。

在Refine模块中，使用残差连接和可分离组卷积，将可分离组卷积的组数设置为16，并且在残差连接中，加入可分离组卷积，最后使用卷积进行预测。

(8)在做后处理时，选用得分阈值等于0.4，IOU阈值选用0.5。后处理的步骤为：

a)取出Refine模块的每个预测值，包括分类和回归的预测值。

b)将分类的预测值进行sigmoid函数处理后，与第一阶段的候选框的置信度结合，作为最后输出的分类置信度。

c)将预测的定位信息与第一阶段的候选框相结合，计算出准确的位置信息。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，具体步骤如下，其特征在于：

2.根据权利要求1所述的一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，其特征在于：

步骤(2)所述的进行关键帧截取的具体方式为：将步骤(1)中采集到的视频影像数据进行关键帧抽取，每隔10帧抽取一帧作为数据集中的一张图片。

3.根据权利要求1所述的一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，其特征在于：

步骤(2)所述的图像预处理的操作具体方式是：

4.根据权利要求1所述的一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，其特征在于：

步骤(3)所述的改进的FCOS网络训练模型在Pytorch环境下搭建，将步骤(2)中所得到训练集、验证集、测试集路径添加至模型配置文件中，并在改进的FCOS网络训练模型中设置相应参数；

在不同尺寸的特征图后添加通道空间注意力机制模块，使特征图在通道和空间两个方向加权平均，提升模型的精度；使用VargNet轻量主干网络减小模型的计算量，同时在原模型的基础上提出多分支结构，提升模型的特征表示能力，并采用重参的手段减小模型在推理时的计算量；在特征融合模块中加入BiFPN结构；将原始的FCOS检测模块中的卷积模块替换为深度可分离卷积模块，并在FCOS采样阶段加入提出的基于中心先验的采样方式和新的Centerness计算方式；在FCOS检测模块后加入refine模块，进一步提升模型的精度；改进后的FCOS网络模型包括骨干特征提取网络、特征融合模块、FCOS Proposal模块、FCOS Refine模块。

5.根据权利要求4所述的一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，其特征在于：所述骨干特征提取网络用VargNet网络，其使用可变的分组卷积来替换传统卷积，并且加入多分支结构和重参数化结构，可变分组卷积与深度可分离卷积类似，由两部分构成，第一个部分是可变组卷积部分，可变分组卷积不采用固定分组的形式，更有利于底层硬件的运行，第二部分是逐点卷积部分，用于保证通道数的匹配，多分支结构由多个3*3的卷积构成，提升模型的特征表征能力，模型推理时，重参数化将模型调整为单路径结构，保持模型性能的同时，减小模型的资源消耗。

6.根据权利要求4所述的一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，其特征在于：特征融合模块采用BiFPN结构，该结构删除了只有一个输入的节点，简化了结构运算量；并且在输入和输出之间增加了连接通道，提升模型的特征融合性能；该模块同时使用了自顶向下和自底向上两种融合方式，同时增加了顶层的语义信息和底层的定位信息，大幅提升了模型的特征融合能力。该模块还考虑了不同尺寸特征图之间，对模型的贡献程度是不同的，所以对于不同尺寸的特征图，会给予不同的权重。

7.根据权利要求4所述的一种基于改进FCOS算法的无人车辆搭载摄像头目标检测方法，其特征在于：FCOS Refine模块将FCOS的检测头作为第一阶段的候选框提取网络，在FCOS正负样本采样时，加入中心先验规则。针对真实框中心的位置，设置一定边长的正方形采样区域，仅针对采样区域内的样本进行正样本的采样。针对不同尺度的目标，设置一个边长的缩放系数对中心采样区域的控制，并使用新的中心度分支对样本质量评估。同时提出Refine模块进行第二阶段的特征提取和训练；在第一阶段和第二阶段之间，使用ROI Align模块将候选框从特征图中选出，该模块没有坐标映射过程中的量化操作，采用双线性插值算法来计算目标位置的值，对于定位精度的提升明显。