CN117315238A

CN117315238A - 一种车辆目标检测的方法与终端

Info

Publication number: CN117315238A
Application number: CN202311611350.7A
Authority: CN
Inventors: 刘石坚; 李晓晗; 邹峥; 廖律超; 戴宇晨; 蔡建成; 吴屹
Original assignee: Fujian University Of Science And Technology
Current assignee: Fujian University Of Science And Technology
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2023-12-29
Anticipated expiration: 2043-11-29
Also published as: CN117315238B

Abstract

本发明涉及CenterNet模型的改进应用技术领域，特别涉及一种车辆目标检测的方法与终端，获取待检测的图像数据集，输入预先训练的改进CenterNet模型；由所述改进CenterNet模型的主干网络对所述图像数据集进行处理，生成特征图；将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理，分别生成分割流特征图和热力点图；对所述分割流特征图与所述热力点图进行融合，生成目标检测结果；利用分割任务与目标检测任务的相似性，引入平行于目标检测流的分割流，在分割流中插入了注意力机制模块，从而改善CenterNet模型召回率不足的局限性，增强热力点图包含的目标特征信息，使车辆目标检测的性能更佳。

Description

一种车辆目标检测的方法与终端

技术领域

本发明涉及CenterNet模型的改进应用技术领域，特别涉及一种车辆目标检测的方法与终端。

背景技术

在车辆目标检测问题上，寻找精度与速度的平衡，一直是研究中的开放话题。例如，以两阶段模型Faster R-CNN为基准的方法偏向于精度优先。他们分别通过级联策略、神经网络结构搜索、几何约束的方法来优化候选框，达到提高检测精度的目的。而基于一阶段SSD的方法和各YOLO版本的方法，则偏向于速度优先。出于实时性和准确性的双重要求，YOLO类方法是目前解决运动车辆检测问题的首选。

然而，一阶段检测方法，此类一阶段的目标检测方法大大提高了车辆检测速度，但其检测精度往往较低，无法对目标实现精确的位置检测。而二阶段检测方法通常分为两个阶段：（1）候选框生成阶段和（2）候选框分类与回归阶段。此类二阶段的目标检测方法虽然提高了检测的准确性，却往往忽视了检测速度，无法做到实时检测。

一阶段检测和二阶段检测方法都是针对单张（帧）图片的处理，而另一种策略则是基于循环神经网络（RNN）直接处理视频数据。这些方法通过在时间维度上建立连接来跟踪和检测目标，往往通过使用长短时记忆网络（LSTM）或门控循环单元（GRU）等循环神经网络来实现。

即基于视频连续帧的时序特征进行目标检测，此类方法过分依赖连续帧之间的时序信息，只局限于检测视频中存在大量冗余信息的连续帧图片，而无法对时间跨度较大、时间步长不等的多张图片并发检测，因此效率较低且应用极不灵活。

此外，上述锚框的检测方法，需要锚框尺寸和比例等先验知识，同时会产生大量无用的候选预测框，虽然可通过非极大值抑制等方法去除，但会带来计算开销的增加，同时非极大值抑制方法极其不利于检测大量重叠的车辆目标。

相较前文基于锚框的方法而言，无锚框的方法更加简单和高效。无锚框方法的典型代表是和CenterNet，前期工作表明，CenterNet模型在处理小目标和密集检测任务时，较YOLO等基于锚框的目标检测方法效果更优，CenterNet也因其优势常用于小尺寸的目标检测。

但由于不需要手动设置锚框参数，也不需要进行密集采样，此类方法地计算量和训练时间虽然可以得到有效控制，但也因此而存在因目标漏检而造成的召回率（Recall）不足的劣势。

发明内容

本发明所要解决的技术问题是：提供一种车辆目标检测的方法与终端，提供一种性能更佳的车辆目标检测方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种车辆目标检测的方法，包括步骤：

S1、获取待检测的图像数据集，输入预先训练的改进CenterNet模型；

S2、由所述改进CenterNet模型的主干网络对所述图像数据集进行处理，生成特征图；

S3、将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理，分别生成分割流特征图和热力点图；

S4、对所述分割流特征图与所述热力点图进行融合，生成目标检测结果。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种车辆目标检测的终端，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以上所述的一种车辆目标检测的方法中的步骤。

本发明的有益效果在于：本发明的一种车辆目标检测的方法与终端，利用分割任务与目标检测任务的相似性，引入平行于目标检测流的分割流，并在分割流中插入了注意力机制模块，将CA注意力机制模块看作全局感受野的卷积模块，完成空间信息的提取作用，更有利于将模型注意力集中到感兴趣的目标区域，从而改善CenterNet模型召回率不足的局限性，并通过对目标检测流和分割流的结果进行特征融合，增强热力点图包含的目标特征信息。

附图说明

图1为本发明实施例的一种车辆目标检测的方法的流程图；

图2为本发明实施例的一种车辆目标检测的终端的结构图；

图3为本发明实施例的一种车辆目标检测的方法的架构示例图；

图4为本发明实施例的一种车辆目标检测的方法的分割流结构图；

图5为本发明实施例的一种车辆目标检测的方法的流程示例图；

图6为本发明实施例的一种车辆目标检测的方法的主干网络示例图；

图7为本发明实施例的一种车辆目标检测的方法的注意力机制的具体实现示例图；

标号说明：

1、一种车辆目标检测的终端；2、处理器；3、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1以及图3至图7，一种车辆目标检测的方法，包括步骤：

S4、对所述分割流特征图与所述热力点图进行融合，生成融合后的单通道特征图。

从上述描述可知，本发明的有益效果在于：本发明的一种车辆目标检测的方法与终端，利用分割任务与目标检测任务的相似性，引入平行于目标检测流的分割流，并在分割流中插入了注意力机制模块，将CA注意力机制模块看作全局感受野的卷积模块，完成空间信息的提取作用，更有利于将模型注意力集中到感兴趣的目标区域，从而改善CenterNet模型召回率不足的局限性，并通过对目标检测流和分割流的结果进行特征融合，增强热力点图包含的目标特征信息。

进一步地，所述主干网络采用DLA网络，并在所述DLA网络中插入注意力机制模块。

进一步地，在所述DLA网络中插入注意力机制模块具体为：

在DLA网络中，对当前Stage节点生成聚合节点时，根据当前Stage结点生成坐标注意力图，并与当前Stage节点相乘，而后与下一级Stage节点的上采样结果进行通道拼接得到聚合结点。

由上述描述可知，通过在主干网络插入注意力机制模块，增强了CenterNet主干网络的特征提取能力，使模型能够更加关注有效信息，增强模型的上下文学习能力。

进一步地，步骤S3中在将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理包括步骤：

对输入的所述特征图进行尺寸还原：

对尺寸还原后的所述特征图进行第一次上采样前，选择3×3卷积模块进行处理，并在第二次上采样前，使用注意力机制模块替代卷积模块进行空间信息的提取，并将通道数降为1；

得到所述分割流特征图。

由上述描述可知，主干网络输出的特征图，其经过主干网络的处理，其尺寸已缩小为原来的1/4，为了使用原尺寸标注进行监督，需要将其还原至原始大小。第一次上采样之前，使用3×3卷积作为过渡，防止上采样丢失过多特征信息；第二次上采样前，使用坐标注意力（coordinate attention，CA）模块代替普通卷积操作，并将通道数降为1。这是因为CA注意力模块本身就具有一定的空间信息提取能力，它不仅可以获取到通道之间的关联信息，还可以获取方向感知和位置敏感信息。因此，可将CA注意力模块看作全局感受野的卷积模块，完成空间信息的提取作用。这样更有利于将模型注意力集中到感兴趣的目标区域，改善CenterNet模型召回率不足的局限性。

进一步地，所述改进CenterNet模型的训练采用的训练数据中，目标检测流标签为公共数据集原有标签，分割流标签基于视频数据集得到，包括步骤：

针对所述视频数据集，基于背景差分法生成分割标签；

根据预设间隔所述视频数据集中抽取图像帧，并进行顺序打乱，生成所述训练数据。

由上述描述可知，基于视频数据的相邻帧之间的强关联性，且在同一视频场景下，前景移动，背景不变，因此可以很容易地通过背景差分法区分图片中的背景和目标前景。

进一步地，针对所述视频数据集，基于背景差分法生成分割标签还包括步骤：

将生成的分割流标签与所述目标检测流生成的目标检测包围盒标签做相交处理，将所述目标检测包围盒外的前景标签修改为背景标签。

由上述描述可知，将分割流标签与目标检测包围盒标签做相交处理，消除包围盒外的假阳性数据（即分割结果是前景，但没有在包围盒范围内，故实际为背景），以提升分割结果的准确性。

进一步地，步骤S3中将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理还包括步骤：

对生成的所述分割流特征图进行监督学习：

令N表示图像点个数，x _i和y _i分别表示第i个点的分割预测结果和真实值，则分割流的损失函数L _seg为：

；

1≤i≤N。

由上述描述可知，分割流的损失函数如上所示。

进一步地，对所述分割流特征图与所述热力点图进行融合之前还包括步骤：

对所述分割流特征图进行双线性插值下采样，恢复所述分割流特征图的尺寸至所述主干网络所得到的所述特征图的尺寸大小。

由上述描述可知，由于分割流中对数据进行上采样，其输出尺寸相比于输入产生了变化，而特征融合需要两者尺寸一致，因此对分割输出结果进行下采样，使其恢复至与所述热力图一般的大小，即所述主干网络所得到的所述特征图的尺寸大小。

进一步地，所述下采样通过双线性插值的方式实现。

由上述描述可知，为了提升特征融合中分割任务的贡献度，在进行下采样时，选择双线性插值的方式来实现。

进一步地，所述目标检测流所输出的热力点图包括中心点热力图O _ct、宽高热力图O _wh以及中心点偏移量热力图O _os；

步骤S4包括步骤：

对恢复尺寸大小后的所述分割流特征图O _seg与中心点热力图O _ct进行拼接，并对拼接后的中间特征图进行1×1卷积处理，得到融合后的单通道特征图O _fs；

根据单通道特征图O _fs、宽高热力图O _wh以及中心点偏移量热力图O _os，生成目标检测结果；

总的损失函数L _tot为：

。

其中，、/>和/>分别为中心点损失、宽高损失、以及中心点偏移量损失，/>为分割流的损失。

由上述描述可知，目标检测流有三个热力图输出，分别为O _ct、O _wh和O _os，O _ct与O _seg的特征融合在逻辑上是可行的，但O _wh与O _seg或O _os与O _seg的结合均缺乏逻辑上的支撑。因此，仅在O _ct与O _seg之间进行特征融合。深度学习中常见的特征融合方式包括逐像素点融合和通道拼接。前者常见于注意力机制中，在这种情况下，O _seg将被视为O _ct的特征权重。然而，O _seg中可能存在趋近于0的假阴性数据（即分割结果是背景，但实际为目标前景），将这些数据与O _ct逐点相乘将会造成错误的学习引导。相比之下，通道拼接的方式则能有效实现多任务特征融合的目标。

请参照图2，一种车辆目标检测的终端，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以上所述的一种车辆目标检测的方法中的步骤。

本发明的一种车辆目标检测的方法与终端，适用于需要进行车辆目标检测的场景。

请参照图1、图3和图4，本发明的实施例一为：

一种车辆目标检测的方法，包括步骤：

S1、获取待检测的图像数据集，输入预先训练的改进CenterNet模型。

本实施例中，选择无锚框的目标检测方法CenterNet作为基准网络，并基于任务需求对基准网络做出改进。

S2、由所述改进CenterNet模型的主干网络对所述图像数据集进行处理，生成特征图。

所述CenterNet模型的主干网络Backbone可选包括Hourglass、Resnet以及DLA。其中：

Hourglass：主要用于关键点检测，效果好，缺点是权重多。

Resnet：速度快，但效果不好。

DLA：Hourglass和Resnet之间的一种相对折中的方案。

本实施例中，选用DLA作为主干网络，在其他等同实施例中可根据实际需求选择主干网络。

S3、将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理，分别生成分割流特征图和热力点图。

本实施例中，可参照图3，利用分割任务与目标检测任务的相似性，增加平行于目标检测流的分割流。

步骤S3中在将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理包括步骤：

对输入的所述特征图进行尺寸还原：

得到所述分割流特征图。

本实施例中，首先，对输入数据进行上采样。这是因为输入特征图经主干网络处理，其尺寸已缩小为原来的1/4，为了使用原尺寸标注进行监督，需要将其还原至原始大小。

值得注意的是，上述尺寸还原是分2次完成的：第一次上采样之前，选择3×3卷积（Conv）作为过渡；第二次上采样前，使用注意力机制模块（coordinate attention，CA）代替普通卷积操作，并将通道数降为1。这是因为CA注意力机制模块本身就具有一定的空间信息提取能力，它不仅可以获取到通道之间的关联信息，还可以获取方向感知和位置敏感信息。因此，可将CA注意力模块看作全局感受野的卷积模块，完成空间信息的提取作用。这样更有利于将模型注意力集中到感兴趣的目标区域，改善CenterNet模型召回率不足的局限性。

步骤S3中将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理还包括步骤：

对生成的所述分割流特征图进行监督学习：

；

1≤i≤N。

本实施例中，最后，对输出结果O _seg进行监督学习，损失函数如上所示。

本实施例中，利用分割图与热力点图的相似性，将分割流特征图与目标检测流的热力点图特征融合，以生成目标检测结果：特征信息被增强的关键点热力图。即分割流特征图通过与关键点的热力点图相融合，增强热力点图包含的特征信息。

使用分割任务来辅助目标检测任务是本文方法的核心思想，双流融合即实现该思想的关键之一。在进行特征融合时需要考虑以下几个问题：（1）特征尺寸问题；（2）结合对象问题；（3）融合方式问题。

对所述分割流特征图与所述热力点图进行融合之前还包括步骤：

本实施例中，首先，由于分割流中对数据进行上采样，其输入和输出尺寸产生了变化，而特征融合需要两者尺寸一致。因此对分割输出结果进行下采样，使其恢复主干网络所得到的所述特征图的尺寸大小，本实施中为128×128。值得一提的是，为了提升特征融合中分割任务的贡献度，在进行下采样时，选择双线性插值的方式来实现。

所述目标检测流所输出的热力点图包括中心点热力图O _ct、宽高热力图O _wh以及中心点偏移量热力图O _os。

本实施例中，目标检测流的三个热力图输出，分别为O _ct、O _wh以及O _os，正如前文所述，O _ct与O _seg的特征融合在逻辑上是可行的，但O _wh与O _seg或O _os与O _seg的结合均缺乏逻辑上的支撑。因此，仅在O _ct与O _seg之间进行特征融合。

步骤S4包括步骤：

根据单通道特征图O _fs、宽高热力图O _wh以及中心点偏移量热力图O _os，生成目标检测结果。

本实施例中，深度学习中常见的特征融合方式包括逐像素点融合和通道拼接。前者常见于注意力机制中，在这种情况下，O _seg将被视为O _ct的特征权重。然而，O _seg中可能存在趋近于0的假阴性数据（即分割结果是背景，但实际为目标前景），将这些数据与O _ct逐点相乘将会造成错误的学习引导。相比之下，通道拼接的方式则能有效实现多任务特征融合的目标。

拼接后的特征图将通过1×1卷积处理，得到融合后的单通道特征图O _fs。

总的损失函数L _tot为：

；

此外，本实施例中，所述改进CenterNet模型的训练采用的训练数据中，目标检测流标签为公共数据集原有标签，分割流标签基于视频数据集得到，包括步骤：

针对所述视频数据集，基于背景差分法生成分割标签；

本实施例中，训练集是对视频数据集的截取，例如每隔10帧抽取一张图片加入训练集；而且Dataloader的参数shuffle为true，即训练数据集的输入是打乱顺序的、不连续的。

本实施例中，基于背景差分算法来生成模型的训练数据。由于本文的任务是检测运动中的车辆，因此可以采用背景差分法获取分割结果。进一步地，将上述结果与目标检测包围盒标签做相交处理，消除包围盒外的假阳性数据（即分割结果是前景，但没有在包围盒范围内，故实际为背景），以提升分割结果的准确性。

请参照图1以及图3-7，本发明的实施例二为：

一种车辆目标检测的方法，与实施例一的区别在于，所述主干网络采用DLA网络，并在所述DLA网络中插入注意力机制模块。

本实施例中，为了增强CenterNet的特征提取能力，在主干网络DLA中插入坐标注意力模块。

在所述DLA网络中插入注意力机制模块具体为：

本实施例中，可参照图6和图7，对DLA的改进在Stage节点生成聚合节点的位置，即根据Stage结点生成坐标注意力图（CA Map）之后与自身相乘（见图7），然后与其下一级Stage的上采样结果进行通道拼接得到聚合结点。注意力的引入使模型能够更加关注有效信息，增强模型的上下文学习能力。

本发明的实施例三为：

一种车辆目标检测的方法，本实施例中通过下标对实验效果进行展示：

表1对比方法列表

表2本方法与通用目标检测主流方法对比结果

请参照图2，本发明的实施例四为：

一种车辆目标检测的终端1，包括处理器2、存储器3以及存储在所述存储器3中并可在所述处理器2上运行的计算机程序，所述处理器2执行所述计算机程序时实现以上实施例一或二任一所述的一种车辆目标检测的方法中的步骤。

综上所述，本发明提供的一种车辆目标检测的方法与终端，利用分割任务与目标检测任务的相似性，引入平行于目标检测流的分割流，并在分割流中插入了注意力机制模块，将CA注意力机制模块看作全局感受野的卷积模块，完成空间信息的提取作用，更有利于将模型注意力集中到感兴趣的目标区域，从而改善CenterNet模型召回率不足的局限性，并通过对目标检测流和分割流的结果进行特征融合，增强热力点图包含的目标特征信息。

（1）选择基于包围盒中心点的无锚框方法CenterNet作为基准，由于不需要手动设置锚框参数，也不需要进行密集采样，因此无锚框算法的计算量和训练时间都可以得到有效控制。此外，由于无锚框算法不会生成过多的负样本，因此有助于准确性的提升。

（2）注意力的引入使模型能够更加关注有效信息，增强模型的上下文学习能力。

（3）传统目标检测任务与分割任务具有一定相似性。两者的相同点都是针对特定目标进行处理；不同之处在于前者只需要对目标进行框定并分类标记，而后者则需要对目标进行逐像素分类标记。这也是Mask R-CNN等传统方法能将这两类任务纳入同一框架内，但又无法协同合作的原因。

（4）本发明基于视频数据的相邻帧之间有很强的关联性，且在同一视频场景下，前景移动，背景不变，很容易通过背景差分法区分图片中的目标前景和背景。

（5）基于热力图的目标检测能够与分割任务协同合作。CenterNet的输出数据中包含用于标识目标中心点的热力图，其每个像素点表示属于目标中心点的概率，这与用每个像素点来表示分割前景概率的分割问题具有一致性，因此将两者进行逐像素融合在逻辑上是行得通的。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种车辆目标检测的方法，其特征在于，包括步骤：

S4、对所述分割流特征图与所述热力点图进行融合，生成目标检测结果；

所述改进CenterNet模型的训练采用的训练数据中，目标检测流标签为公共数据集原有标签，分割流标签基于视频数据集得到，包括步骤：

针对所述视频数据集，基于分割算法生成分割流标签；

根据预设间隔所述视频数据集中抽取图像帧，并进行顺序打乱，生成所述训练数据；

针对所述视频数据集，基于分割算法生成分割流标签还包括步骤：

2.根据权利要求1所述的一种车辆目标检测的方法，其特征在于，所述主干网络采用DLA网络，并在所述DLA网络中插入注意力机制模块。

3.根据权利要求2所述的一种车辆目标检测的方法，其特征在于，在所述DLA网络中插入注意力机制模块具体为：

4.根据权利要求1所述的一种车辆目标检测的方法，其特征在于，步骤S3中在将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理包括步骤：

对输入的所述特征图进行尺寸还原：

得到所述分割流特征图。

5.根据权利要求1所述的一种车辆目标检测的方法，其特征在于，步骤S3中将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理还包括步骤：

对生成的所述分割流特征图进行监督学习：

；

1≤i≤N。

6.根据权利要求1所述的一种车辆目标检测的方法，其特征在于，对所述分割流特征图与所述热力点图进行融合之前还包括步骤：

7.根据权利要求1所述的一种车辆目标检测的方法，其特征在于，所述目标检测流所输出的热力点图包括中心点热力图O _ct、宽高热力图O _wh以及中心点偏移量热力图O _os；

步骤S4包括步骤：

总的损失函数L _tot为：

；

8.一种车辆目标检测的终端，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以上权利要求1-7任一所述的一种车辆目标检测的方法中的步骤。