CN116469059A

CN116469059A - 一种基于detr的停车场出入口车辆积压检测方法

Info

Publication number: CN116469059A
Application number: CN202310727492.3A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-07-21

Abstract

本发明属于交通技术领域，尤其涉及一种基于DETR的停车场出入口车辆积压检测方法，先构建DETR检测模型，在COCO数据集上预训练得到预训练的DETR检测模型，并将预训练的DETR检测模型在车辆目标检测数据集上做微调；再基于DETR检测模型构建DETR跟踪模型，并在车辆目标跟踪数据集上做训练；最后于跟踪结果，计算车辆位移和停车时间，判断车辆状态，并确定是否自动联系远程客服，解决了现有DETR模型需要较长训练时间来收敛的问题以及处理高分辨率特征图的计算和内存复杂度非常高的问题，减少训练时间，降低了计算复杂度，能够在完成检测车辆的同时能够跟踪车辆。

Description

一种基于DETR的停车场出入口车辆积压检测方法

技术领域

本发明属于交通技术领域，尤其涉及一种基于DETR的停车场出入口车辆积压检测方法。

背景技术

随着电子支付的快速发展与普及，越来越多的商业停车场开始无人值守，车主只需在停车场出口的道闸杆前扫码支付停车费就能快速驶离。但因为扫码频繁失败、支付通道卡顿、道闸杆本身故障等原因，人们无法正常驶离停车场，长时间占用出口容易造成严重的出入口车辆积压，既浪费人们时间，也易造成交通事故。针对这些问题，现有解决方案为对长时间（如30秒）占用出入口车辆进行视频识别后，自动联系远程客服，帮助解决出场问题，此方案需要对出入口车辆进行实时检测和跟踪，传统的车辆目标检测方法主要依据人工设计特征，将特征提取算法与分类器相结合进行检测，在地下停车场光线条件差、其他物体遮挡和车辆重叠的影响下，传统的车辆检测对于多样性的变化鲁棒性较差，实时性和准确性的要求都不能满足。随着深度学习在计算机视觉领域的发展，基于卷积神经网络的方法成为主流，例如RCNN系列和YOLO系列都成为目标检测领域的主要算法，然而这些方法使用了许多手工制作的组件，例如锚点生成、基于规则的训练目标分配、非最大抑制(NMS)后处理，它们不是完全端到端的。最近提出的DETR模型（基于Transform的目标检测）消除对此类手工制作组件的需求，并构建了首个完全端到端的对象检测器，实现了极具竞争力的性能。

DETR通过结合卷积神经网络(CNNs)和transformer的编解码器，利用一个简单的架构，在适当设计的训练动机下，利用transformer的通用并且强大的关系建模能力，以取代手工制作的规则，尽管它拥有有趣的设计和良好的性能，但DETR还存在以下问题：一方面与现有的目标检测器相比，它需要更长的训练时间来收敛；另一方面，transformer编码器的注意力权重计算是基于像素数的二次计算，处理高分辨率特征图的计算和内存复杂度非常高。对于停车场出入口车辆积压检测问题，判断同一车辆停顿时间和是否驶离出口，需要DETR模型不仅能检测还需要跟踪，因此如何通过巧妙的训练和推理方法让原本只能检测的DETR模型同时能够跟踪也是一个技术难点。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于DETR的停车场出入口车辆积压检测方法，同时实现停车场出入口车辆的积压检测和跟踪。

为实现上述目的，本发明具体包括以下步骤：

S1、构建DETR检测模型，在COCO数据集上预训练得到预训练的DETR检测模型，并将预训练的DETR检测模型在车辆目标检测数据集上做微调；

S2、基于步骤S1得到的DETR检测模型构建DETR跟踪模型，并在车辆目标跟踪数据集上做训练；

S3、基于跟踪结果，计算车辆位移和停车时间，判断车辆状态，并确定是否自动联系远程客服。

作为本发明的进一步技术方案，步骤S1构建的DETR检测模型包含CNN主干网络、transformer编码器-解码器和前馈网络(FFN)三部分，其中CNN主干网络用于提取停车场出入口车辆图像的特征，具体是提取到/>层的多尺度特征图/>，/>的分辨率是输入图像的/>，最低分辨率的特征图/>在/>层的最后一个阶段进行大小为3×3、步长为2的卷积，记为/>；所有的多尺度特征图的通道数C=256；transformer编码器-解码器中的编码器由多头多尺度可形变注意力模块和一个前馈网络组成；transformer 解码器中的注意力模块包括可变形注意力模块和自注意力模块两部分；前馈网络由一个带有ReLU激活函数、隐藏层维数为d的三层感知层和一个线性投影层组成，通过对Transformer解码器输出的目标查询计算得到车辆检测结果，前馈网络输出车辆图像的归一化中心坐标、框的高度和宽度，线性投影层使用softmax函数预测类标签，对每个目标查询的车辆检测结果和真实标签进行二分图匹配，匹配到的目标查询与对应的真实标签进行监督，未匹配到的目标查询作为无目标看待。

作为本发明的进一步技术方案，步骤S1所述车辆目标检测数据集为UA-DETRAC、Vehicle-Dataset和BIT-Vehicle中的一种。

作为本发明的进一步技术方案，步骤S1所述CNN主干网络为ResNet50、resnet101和Swin-transformer中的一种。

作为本发明的进一步技术方案，步骤S2的具体过程为：DETR跟踪模型的构建使用目标查询query复用机制，即上一帧在transformer解码器的输出query，将作为下一帧的transformer解码器的目标查询的初始化，并建立统一的车辆标签分配，为目标查询引入“已占用”和“未占用”两种状态，如果目标查询先前与某个车辆匹配，并且在后续帧中没有消失，则目标查询会被占用；只有未占用的目标查询才有机会匹配过去未出现的新车辆，直到一车辆消失一定时间，其目标查询才会转成“未占用”，重新被初始化；将DETR跟踪模型在UA-DETRAC车辆目标跟踪数据集上依据目标查询复用机制进行再训练，将不同帧中同一车辆进行关联。

作为本发明的进一步技术方案，步骤S3的具体过程为：将视频每隔N帧逐帧送入DETR跟踪模型，DETR跟踪模型检测和跟踪帧中车辆，并保存距离出口最近的车辆的目标框中心点，根据前后N帧车辆框中心点计算位移X，判断X是否小于阈值L，若X大于L，则说明车辆正在移动，停车时间T置0，并复用这一帧的目标查询对下一帧进行检测和跟踪；若X小于L，则说明车辆为发生移动，车辆停车时间T+N/视频帧数，视频帧数由监控设备确定，以30帧为主，判断T是否大于30，小于30则继续进行下一帧的检测和跟踪，大于30则自动联系远程客服，由客服帮助解决出场问题。

与现有技术相比，本发明具有以下优点：

（1）通过Transformer编码器-解码器中的多尺度可变形注意力模块，解决了现有DETR模型需要较长训练时间来收敛的问题以及处理高分辨率特征图的计算和内存复杂度非常高的问题，减少训练时间，降低了计算复杂度；

（2）通过构建DETR检测模型，并基于DETR检测模型构建DETR跟踪模型，解决了现有DETR模型仅能检测的问题，使DETR模型在完成检测车辆的同时能够跟踪车辆。

附图说明

图1为本发明所述DETR检测模型结构图；

图2为本发明所述DETR跟踪模型结构图；

图3为本发明所述统一车辆标签分配机制图；

图4为本发明所述车辆状态判断流程图。

具体实施方式

下面通过实施例并结合附图对本发明作进一步说明。

实施例：

如图1-4所示，本实施例提供一种基于DETR的停车场出入口车辆积压检测方法，具体包括以下步骤：

步骤S1：构建如图1所示的DETR检测模型，在COCO数据集上预训练，车辆检测数据集上做微调，具体为：构建DETR检测模型的包括三个主要组成部分：一个CNN主干网络，用于提取一个紧凑的特征表示；一个transformer编码器-解码器；以及一个前馈网络(FFN)，用于做出最终的检测预测；

其中CNN主干网络根据处理设备的显存大小和对准确率的要求选择，一般来说，选择ResNet50，若资源较多且对检测准确率要求高，选择resnet101或Swin-transformer网络作为主干网络用于特征提取；现有技术中的DETR模型从初始图像开始，经过主干网络生成一个低分辨率的/>，使用的典型值为/>和/>，但大多数现存的目标检测框架都受益于多尺度特征图，因此本实施例保留从ResNet中提取到/>层(通过1×1卷积进行变换)的多尺度特征图/>，/>的分辨率是输入图片的/>，最低分辨率的特征图 />在/>的最后一个阶段进行大小为3×3，步长为2的卷积，记为，所有的多尺度特征图的通道数C=256；

接下来是Transformer编码器和解码器，编码器需要一个序列作为输入，因此需要将刚刚提取的特征图维度压缩为一维，从而得到一个特征图，每个编码器层都有一个标准的结构，由一个多头自注意力模块和一个前馈网络组成，多头自注意力模块的query和key都是特征图中的像素，由于transformer架构对顺序不敏感，需添加固定位置编码对特征图进行补充，并将其添加到每个注意层的输入中；于解码器的输入包括来自编码器的特征图和由可学习的位置嵌入表示的 N 个目标查询，N通常为100，在解码器中有交叉注意力和自注意力模块两种注意力模块，在交叉注意力模块中，目标查询提取来自特征图的特征，query属于目标查询，而key属于来自编码器的输出特征图，在自注意力模块中，目标查询相互影响，来捕捉它们之间的关系，query和key都是目标查询；然而，由于transformer编码器中自注意力模块的复杂度与输入特征图空间大小呈二次关系，所以高分辨率的特征图会导致一个不可接受的计算复杂度，与现存的检测器作比较，DETR模型需要更多的训练迭代轮次才能够收敛，这是因为使用注意力模块处理图像特征很难训练，在初始化的时候，交叉注意模块在整个特征图上的注意力几乎是平均的，而在训练的最后阶段，注意力图会学习得非常稀疏， DETR模型需要一个长时间的训练计划来学习注意力图上的这些显著变化；为了解决这个问题，本实施例引入多尺度可形变注意力模块来代替原来的注意力模块，其只关心参考点周围的一小组关键采样点，而不考虑特征图的空间大小，通过为每个query分配少量固定数量的key，缓解收敛性和特征空间分辨率问题，并且多尺度可形变注意力模块和先前的单尺度版本很相似，只不过它从多尺度特征图中选取L×K个点，而不是从单尺度特征图中选取K个点，因此本实施例的transformer 编码器替换成了可形变的transformer编码器，输出是与输入具有相同分辨率的多尺度特征图，key和query都是来自多尺度特征图的像素。对于每个query，参考点就是它自己，为了验证每个查询像素在哪个特征层，除了位置特征向量之外，还在特征表示中添加一个尺度级别的特征向量，表示为/>；和位置特征向量固定的编码不同，尺度级特征向量/>是随机初始化的，并与网络共同训练；transformer 解码器替换成了可形变的transformer 解码器，由于可变形注意模块是将卷积特征图作为key处理，因此本实施例只将每个交叉注意模块替换为多尺度可变形注意模块，而保留自注意模块不变；

最后前馈网络(FFN)是由一个带有ReLU激活函数、隐藏层维数为d的3层感知机和一个线性投影层组成，用于对Transformer解码器输出的目标查询计算得到的检测结果，前馈网络(FFN)输出图像的归一化中心坐标、框的高度和宽度，线性投影层使用softmax函数预测类标签，对每个目标查询的预测结果和真实标签进行二分图匹配，匹配到的目标查询与对应的真实标签进行监督，未匹配到的目标查询作为无目标看待；

得到DETR检测模型后，对DETR检测模型在COCO数据集上预训练，COCO数据集包含上万张的各种类别的自然图像，不仅仅包括车辆，这是为了提高模型的泛化能力，在之后的车辆目标检测数据集上更好的微调；再收集车辆目标检测数据集，例如UA-DETRAC、Vehicle-Dataset和BIT-Vehicle，将预训练完成的DETR模型在这些车辆目标检测数据集上微调。

步骤S2：构建如图2所示的DETR跟踪模型，在车辆目标跟踪数据集上做训练；训练完成的DETR检测模型对于单帧图片已经能够完全能够将车辆检测出来，但对于停车场出入口车辆积压检测，还需要判断同一车辆停顿时间和是否驶离出口，这就需要构建DETR跟踪模型，传统的跟踪算法主要以匹配算法为主，计算目标的特征或嵌入的相似度进行匹配，但车辆之间相似度极大，这种方法对于车辆跟踪准确率较低且会有额外的计算量，因此本实施例创新的使用目标查询query复用机制，即上一帧在transformer解码器的输出query，将作为下一帧的transformer解码器的目标查询的初始化，并建立统一的车辆标签分配，为目标查询引入“已占用”和“未占用”两种状态，如果目标查询先前与某个车辆匹配，并且在后续帧中没有消失，则目标查询会被占用；另一方面，只有未占用的目标查询才有机会匹配过去未出现的新车辆。直到一车辆消失一定时间，其目标查询才会转成“未占用”，重新被初始化，此机制不会为最初的DETR模型带来新的计算量，然后将训练完成的DETR检测模型即DETR跟踪模型在UA-DETRAC车辆目标跟踪数据集上依据目标查询复用机制进行再训练，成功将不同帧中同一车辆进行关联。

步骤S3：基于跟踪结果，计算车辆位移和停车时间，判断车辆状态并确定是否自动联系远程客服，具体流程如图4所示，为了减少计算量，本实施例将视频每隔N帧逐帧送入DETR跟踪模型，模型检测和跟踪帧中车辆，并保存距离出口最近的车辆的目标框中心点，再根据前后N帧车辆框中心点计算位移X，判断X是否小于阈值L，L为较小的位移值，但不为0，因为即使车辆没有位移，模型检测的车辆中心点也可能会有一定偏移；若X大于L，则说明车辆正在移动，停车时间T置0，并复用这一帧的目标查询对下一帧进行检测和跟踪；若X小于L，则说明车辆为发生移动，车辆停车时间T+N/视频帧数，视频帧数由监控设备确定，以30帧为主，判断T是否大于30，小于30则继续进行下一帧的检测和跟踪，大于30则自动联系远程客服，由客服帮助解决出场问题。

本文中未详细描述的网络结构和算法均采用本领域现有技术。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。本发明未详细说明的算法和网络均为本领域现有技术。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于DETR的停车场出入口车辆积压检测方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述基于DETR的停车场出入口车辆积压检测方法，其特征在于，步骤S1构建的DETR检测模型包含CNN主干网络、transformer编码器-解码器和前馈网络部分，其中CNN主干网络用于提取停车场出入口车辆图像的特征，具体是提取到/>层的多尺度特征图/>，/>的分辨率是输入图像的/>，最低分辨率的特征图/>在/>层的最后一个阶段进行大小为3×3、步长为2的卷积，记为/>；所有的多尺度特征图的通道数C=256；transformer编码器-解码器中的编码器由多头多尺度可形变注意力模块和一个前馈网络组成；transformer 解码器中的注意力模块包括可变形注意力模块和自注意力模块两部分；前馈网络由一个带有ReLU激活函数、隐藏层维数为d的三层感知层和一个线性投影层组成，通过对Transformer解码器输出的目标查询计算得到车辆检测结果，前馈网络输出车辆图像的归一化中心坐标、框的高度和宽度，线性投影层使用softmax函数预测类标签，对每个目标查询的车辆检测结果和真实标签进行二分图匹配，匹配到的目标查询与对应的真实标签进行监督，未匹配到的目标查询作为无目标看待。

3.根据权利要求1所述基于DETR的停车场出入口车辆积压检测方法，其特征在于，步骤S1所述车辆目标检测数据集为UA-DETRAC、Vehicle-Dataset和BIT-Vehicle中的一种。

4.根据权利要求2所述基于DETR的停车场出入口车辆积压检测方法，其特征在于，步骤S1所述CNN主干网络为ResNet50、resnet101和Swin-transformer中的一种。

5.根据权利要求4所述基于DETR的停车场出入口车辆积压检测方法，其特征在于，步骤S2的具体过程为：DETR跟踪模型的构建使用目标查询query复用机制，即上一帧在transformer解码器的输出query，将作为下一帧的transformer解码器的目标查询的初始化，并建立统一的车辆标签分配，为目标查询引入“已占用”和“未占用”两种状态，如果目标查询先前与某个车辆匹配，并且在后续帧中没有消失，则目标查询会被占用；只有未占用的目标查询才有机会匹配过去未出现的新车辆，直到一车辆消失一定时间，其目标查询才会转成“未占用”，重新被初始化；将DETR跟踪模型在UA-DETRAC车辆目标跟踪数据集上依据目标查询复用机制进行再训练，将不同帧中同一车辆进行关联。

6.根据权利要求5所述基于DETR的停车场出入口车辆积压检测方法，其特征在于，步骤S3的具体过程为：将视频每隔N帧逐帧送入DETR跟踪模型，DETR跟踪模型检测和跟踪帧中车辆，并保存距离出口最近的车辆的目标框中心点，根据前后N帧车辆框中心点计算位移X，判断X是否小于阈值L，若X大于L，则说明车辆正在移动，停车时间T置0，并复用这一帧的目标查询对下一帧进行检测和跟踪；若X小于L，则说明车辆为发生移动，车辆停车时间T+N/视频帧数，视频帧数由监控设备确定，以30帧为主，判断T是否大于30，小于30则继续进行下一帧的检测和跟踪，大于30则自动联系远程客服，由客服帮助解决出场问题。