CN116469059A - 一种基于detr的停车场出入口车辆积压检测方法 - Google Patents
一种基于detr的停车场出入口车辆积压检测方法 Download PDFInfo
- Publication number
- CN116469059A CN116469059A CN202310727492.3A CN202310727492A CN116469059A CN 116469059 A CN116469059 A CN 116469059A CN 202310727492 A CN202310727492 A CN 202310727492A CN 116469059 A CN116469059 A CN 116469059A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- detr
- target
- detection
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000006073 displacement reaction Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明属于交通技术领域,尤其涉及一种基于DETR的停车场出入口车辆积压检测方法,先构建DETR检测模型,在COCO数据集上预训练得到预训练的DETR检测模型,并将预训练的DETR检测模型在车辆目标检测数据集上做微调;再基于DETR检测模型构建DETR跟踪模型,并在车辆目标跟踪数据集上做训练;最后于跟踪结果,计算车辆位移和停车时间,判断车辆状态,并确定是否自动联系远程客服,解决了现有DETR模型需要较长训练时间来收敛的问题以及处理高分辨率特征图的计算和内存复杂度非常高的问题,减少训练时间,降低了计算复杂度,能够在完成检测车辆的同时能够跟踪车辆。
Description
技术领域
本发明属于交通技术领域,尤其涉及一种基于DETR的停车场出入口车辆积压检测方法。
背景技术
随着电子支付的快速发展与普及,越来越多的商业停车场开始无人值守,车主只需在停车场出口的道闸杆前扫码支付停车费就能快速驶离。但因为扫码频繁失败、支付通道卡顿、道闸杆本身故障等原因,人们无法正常驶离停车场,长时间占用出口容易造成严重的出入口车辆积压,既浪费人们时间,也易造成交通事故。针对这些问题,现有解决方案为对长时间(如30秒)占用出入口车辆进行视频识别后,自动联系远程客服,帮助解决出场问题,此方案需要对出入口车辆进行实时检测和跟踪,传统的车辆目标检测方法主要依据人工设计特征,将特征提取算法与分类器相结合进行检测,在地下停车场光线条件差、其他物体遮挡和车辆重叠的影响下,传统的车辆检测对于多样性的变化鲁棒性较差,实时性和准确性的要求都不能满足。随着深度学习在计算机视觉领域的发展,基于卷积神经网络的方法成为主流,例如RCNN系列和YOLO系列都成为目标检测领域的主要算法,然而这些方法使用了许多手工制作的组件,例如锚点生成、基于规则的训练目标分配、非最大抑制(NMS)后处理,它们不是完全端到端的。最近提出的DETR模型(基于Transform的目标检测)消除对此类手工制作组件的需求,并构建了首个完全端到端的对象检测器,实现了极具竞争力的性能。
DETR通过结合卷积神经网络(CNNs)和transformer的编解码器,利用一个简单的架构,在适当设计的训练动机下,利用transformer的通用并且强大的关系建模能力,以取代手工制作的规则,尽管它拥有有趣的设计和良好的性能,但DETR还存在以下问题:一方面与现有的目标检测器相比,它需要更长的训练时间来收敛;另一方面,transformer编码器的注意力权重计算是基于像素数的二次计算,处理高分辨率特征图的计算和内存复杂度非常高。对于停车场出入口车辆积压检测问题,判断同一车辆停顿时间和是否驶离出口,需要DETR模型不仅能检测还需要跟踪,因此如何通过巧妙的训练和推理方法让原本只能检测的DETR模型同时能够跟踪也是一个技术难点。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于DETR的停车场出入口车辆积压检测方法,同时实现停车场出入口车辆的积压检测和跟踪。
为实现上述目的,本发明具体包括以下步骤:
S1、构建DETR检测模型,在COCO数据集上预训练得到预训练的DETR检测模型,并将预训练的DETR检测模型在车辆目标检测数据集上做微调;
S2、基于步骤S1得到的DETR检测模型构建DETR跟踪模型,并在车辆目标跟踪数据集上做训练;
S3、基于跟踪结果,计算车辆位移和停车时间,判断车辆状态,并确定是否自动联系远程客服。
作为本发明的进一步技术方案,步骤S1构建的DETR检测模型包含CNN主干网络、transformer编码器-解码器和前馈网络(FFN)三部分,其中CNN主干网络用于提取停车场出入口车辆图像的特征,具体是提取到/>层的多尺度特征图/>,/>的分辨率是输入图像的/>,最低分辨率的特征图/>在/>层的最后一个阶段进行大小为3×3、步长为2的卷积,记为/>;所有的多尺度特征图的通道数C=256;transformer编码器-解码器中的编码器由多头多尺度可形变注意力模块和一个前馈网络组成;transformer 解码器中的注意力模块包括可变形注意力模块和自注意力模块两部分;前馈网络由一个带有ReLU激活函数、隐藏层维数为d的三层感知层和一个线性投影层组成,通过对Transformer解码器输出的目标查询计算得到车辆检测结果,前馈网络输出车辆图像的归一化中心坐标、框的高度和宽度,线性投影层使用softmax函数预测类标签,对每个目标查询的车辆检测结果和真实标签进行二分图匹配,匹配到的目标查询与对应的真实标签进行监督,未匹配到的目标查询作为无目标看待。
作为本发明的进一步技术方案,步骤S1所述车辆目标检测数据集为UA-DETRAC、Vehicle-Dataset和BIT-Vehicle中的一种。
作为本发明的进一步技术方案,步骤S1所述CNN主干网络为ResNet50、resnet101和Swin-transformer中的一种。
作为本发明的进一步技术方案,步骤S2的具体过程为:DETR跟踪模型的构建使用目标查询query复用机制,即上一帧在transformer解码器的输出query,将作为下一帧的transformer解码器的目标查询的初始化,并建立统一的车辆标签分配,为目标查询引入“已占用”和“未占用”两种状态,如果目标查询先前与某个车辆匹配,并且在后续帧中没有消失,则目标查询会被占用;只有未占用的目标查询才有机会匹配过去未出现的新车辆,直到一车辆消失一定时间,其目标查询才会转成“未占用”,重新被初始化;将DETR跟踪模型在UA-DETRAC车辆目标跟踪数据集上依据目标查询复用机制进行再训练,将不同帧中同一车辆进行关联。
作为本发明的进一步技术方案,步骤S3的具体过程为:将视频每隔N帧逐帧送入DETR跟踪模型,DETR跟踪模型检测和跟踪帧中车辆,并保存距离出口最近的车辆的目标框中心点,根据前后N帧车辆框中心点计算位移X,判断X是否小于阈值L,若X大于L,则说明车辆正在移动,停车时间T置0,并复用这一帧的目标查询对下一帧进行检测和跟踪;若X小于L,则说明车辆为发生移动,车辆停车时间T+N/视频帧数,视频帧数由监控设备确定,以30帧为主,判断T是否大于30,小于30则继续进行下一帧的检测和跟踪,大于30则自动联系远程客服,由客服帮助解决出场问题。
与现有技术相比,本发明具有以下优点:
(1)通过Transformer编码器-解码器中的多尺度可变形注意力模块,解决了现有DETR模型需要较长训练时间来收敛的问题以及处理高分辨率特征图的计算和内存复杂度非常高的问题,减少训练时间,降低了计算复杂度;
(2)通过构建DETR检测模型,并基于DETR检测模型构建DETR跟踪模型,解决了现有DETR模型仅能检测的问题,使DETR模型在完成检测车辆的同时能够跟踪车辆。
附图说明
图1为本发明所述DETR检测模型结构图;
图2为本发明所述DETR跟踪模型结构图;
图3为本发明所述统一车辆标签分配机制图;
图4为本发明所述车辆状态判断流程图。
具体实施方式
下面通过实施例并结合附图对本发明作进一步说明。
实施例:
如图1-4所示,本实施例提供一种基于DETR的停车场出入口车辆积压检测方法,具体包括以下步骤:
步骤S1:构建如图1所示的DETR检测模型,在COCO数据集上预训练,车辆检测数据集上做微调,具体为:构建DETR检测模型的包括三个主要组成部分:一个CNN主干网络,用于提取一个紧凑的特征表示;一个transformer编码器-解码器;以及一个前馈网络(FFN),用于做出最终的检测预测;
其中CNN主干网络根据处理设备的显存大小和对准确率的要求选择,一般来说,选择ResNet50,若资源较多且对检测准确率要求高,选择resnet101或Swin-transformer网络作为主干网络用于特征提取;现有技术中的DETR模型从初始图像 开始,经过主干网络生成一个低分辨率的/>,使用的典型值为/>和/>,但大多数现存的目标检测框架都受益于多尺度特征图,因此本实施例保留从ResNet中提取到/>层(通过1×1卷积进行变换)的多尺度特征图/>,/>的分辨率是输入图片的/>,最低分辨率的特征图 />在/>的最后一个阶段进行大小为3×3,步长为2的卷积,记为,所有的多尺度特征图的通道数C=256;
接下来是Transformer编码器和解码器,编码器需要一个序列作为输入,因此需要将刚刚提取的特征图维度压缩为一维,从而得到一个特征图,每个编码器层都有一个标准的结构,由一个多头自注意力模块和一个前馈网络组成,多头自注意力模块的query和key都是特征图中的像素,由于transformer架构对顺序不敏感,需添加固定位置编码对特征图进行补充,并将其添加到每个注意层的输入中;于解码器的输入包括来自编码器的特征图和由可学习的位置嵌入表示的 N 个目标查询,N通常为100,在解码器中有交叉注意力和自注意力模块两种注意力模块,在交叉注意力模块中,目标查询提取来自特征图的特征,query属于目标查询,而key属于来自编码器的输出特征图,在自注意力模块中,目标查询相互影响,来捕捉它们之间的关系,query和key都是目标查询;然而,由于transformer编码器中自注意力模块的复杂度与输入特征图空间大小呈二次关系,所以高分辨率的特征图会导致一个不可接受的计算复杂度,与现存的检测器作比较,DETR模型需要更多的训练迭代轮次才能够收敛,这是因为使用注意力模块处理图像特征很难训练,在初始化的时候,交叉注意模块在整个特征图上的注意力几乎是平均的,而在训练的最后阶段,注意力图会学习得非常稀疏, DETR模型需要一个长时间的训练计划来学习注意力图上的这些显著变化;为了解决这个问题,本实施例引入多尺度可形变注意力模块来代替原来的注意力模块,其只关心参考点周围的一小组关键采样点,而不考虑特征图的空间大小,通过为每个query分配少量固定数量的key,缓解收敛性和特征空间分辨率问题,并且多尺度可形变注意力模块和先前的单尺度版本很相似,只不过它从多尺度特征图中选取L×K个点,而不是从单尺度特征图中选取K个点,因此本实施例的transformer 编码器替换成了可形变的transformer编码器,输出是与输入具有相同分辨率的多尺度特征图,key和query都是来自多尺度特征图的像素。对于每个query,参考点就是它自己,为了验证每个查询像素在哪个特征层,除了位置特征向量之外,还在特征表示中添加一个尺度级别的特征向量,表示为/>;和位置特征向量固定的编码不同,尺度级特征向量/>是随机初始化的,并与网络共同训练;transformer 解码器替换成了可形变的transformer 解码器,由于可变形注意模块是将卷积特征图作为key处理,因此本实施例只将每个交叉注意模块替换为多尺度可变形注意模块,而保留自注意模块不变;
最后前馈网络(FFN)是由一个带有ReLU激活函数、隐藏层维数为d的3层感知机和一个线性投影层组成,用于对Transformer解码器输出的目标查询计算得到的检测结果,前馈网络(FFN)输出图像的归一化中心坐标、框的高度和宽度,线性投影层使用softmax函数预测类标签,对每个目标查询的预测结果和真实标签进行二分图匹配,匹配到的目标查询与对应的真实标签进行监督,未匹配到的目标查询作为无目标看待;
得到DETR检测模型后,对DETR检测模型在COCO数据集上预训练,COCO数据集包含上万张的各种类别的自然图像,不仅仅包括车辆,这是为了提高模型的泛化能力,在之后的车辆目标检测数据集上更好的微调;再收集车辆目标检测数据集,例如UA-DETRAC、Vehicle-Dataset和BIT-Vehicle,将预训练完成的DETR模型在这些车辆目标检测数据集上微调。
步骤S2:构建如图2所示的DETR跟踪模型,在车辆目标跟踪数据集上做训练;训练完成的DETR检测模型对于单帧图片已经能够完全能够将车辆检测出来,但对于停车场出入口车辆积压检测,还需要判断同一车辆停顿时间和是否驶离出口,这就需要构建DETR跟踪模型,传统的跟踪算法主要以匹配算法为主,计算目标的特征或嵌入的相似度进行匹配,但车辆之间相似度极大,这种方法对于车辆跟踪准确率较低且会有额外的计算量,因此本实施例创新的使用目标查询query复用机制,即上一帧在transformer解码器的输出query,将作为下一帧的transformer解码器的目标查询的初始化,并建立统一的车辆标签分配,为目标查询引入“已占用”和“未占用”两种状态,如果目标查询先前与某个车辆匹配,并且在后续帧中没有消失,则目标查询会被占用;另一方面,只有未占用的目标查询才有机会匹配过去未出现的新车辆。直到一车辆消失一定时间,其目标查询才会转成“未占用”,重新被初始化,此机制不会为最初的DETR模型带来新的计算量,然后将训练完成的DETR检测模型即DETR跟踪模型在UA-DETRAC车辆目标跟踪数据集上依据目标查询复用机制进行再训练,成功将不同帧中同一车辆进行关联。
步骤S3:基于跟踪结果,计算车辆位移和停车时间,判断车辆状态并确定是否自动联系远程客服,具体流程如图4所示,为了减少计算量,本实施例将视频每隔N帧逐帧送入DETR跟踪模型,模型检测和跟踪帧中车辆,并保存距离出口最近的车辆的目标框中心点,再根据前后N帧车辆框中心点计算位移X,判断X是否小于阈值L,L为较小的位移值,但不为0,因为即使车辆没有位移,模型检测的车辆中心点也可能会有一定偏移;若X大于L,则说明车辆正在移动,停车时间T置0,并复用这一帧的目标查询对下一帧进行检测和跟踪;若X小于L,则说明车辆为发生移动,车辆停车时间T+N/视频帧数,视频帧数由监控设备确定,以30帧为主,判断T是否大于30,小于30则继续进行下一帧的检测和跟踪,大于30则自动联系远程客服,由客服帮助解决出场问题。
本文中未详细描述的网络结构和算法均采用本领域现有技术。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本发明未详细说明的算法和网络均为本领域现有技术。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于DETR的停车场出入口车辆积压检测方法,其特征在于,具体包括以下步骤:
S1、构建DETR检测模型,在COCO数据集上预训练得到预训练的DETR检测模型,并将预训练的DETR检测模型在车辆目标检测数据集上做微调;
S2、基于步骤S1得到的DETR检测模型构建DETR跟踪模型,并在车辆目标跟踪数据集上做训练;
S3、基于跟踪结果,计算车辆位移和停车时间,判断车辆状态,并确定是否自动联系远程客服。
2.根据权利要求1所述基于DETR的停车场出入口车辆积压检测方法,其特征在于,步骤S1构建的DETR检测模型包含CNN主干网络、transformer编码器-解码器和前馈网络部分,其中CNN主干网络用于提取停车场出入口车辆图像的特征,具体是提取到/>层的多尺度特征图/>,/>的分辨率是输入图像的/>,最低分辨率的特征图/>在/>层的最后一个阶段进行大小为3×3、步长为2的卷积,记为/>;所有的多尺度特征图的通道数C=256;transformer编码器-解码器中的编码器由多头多尺度可形变注意力模块和一个前馈网络组成;transformer 解码器中的注意力模块包括可变形注意力模块和自注意力模块两部分;前馈网络由一个带有ReLU激活函数、隐藏层维数为d的三层感知层和一个线性投影层组成,通过对Transformer解码器输出的目标查询计算得到车辆检测结果,前馈网络输出车辆图像的归一化中心坐标、框的高度和宽度,线性投影层使用softmax函数预测类标签,对每个目标查询的车辆检测结果和真实标签进行二分图匹配,匹配到的目标查询与对应的真实标签进行监督,未匹配到的目标查询作为无目标看待。
3.根据权利要求1所述基于DETR的停车场出入口车辆积压检测方法,其特征在于,步骤S1所述车辆目标检测数据集为UA-DETRAC、Vehicle-Dataset和BIT-Vehicle中的一种。
4.根据权利要求2所述基于DETR的停车场出入口车辆积压检测方法,其特征在于,步骤S1所述CNN主干网络为ResNet50、resnet101和Swin-transformer中的一种。
5.根据权利要求4所述基于DETR的停车场出入口车辆积压检测方法,其特征在于,步骤S2的具体过程为:DETR跟踪模型的构建使用目标查询query复用机制,即上一帧在transformer解码器的输出query,将作为下一帧的transformer解码器的目标查询的初始化,并建立统一的车辆标签分配,为目标查询引入“已占用”和“未占用”两种状态,如果目标查询先前与某个车辆匹配,并且在后续帧中没有消失,则目标查询会被占用;只有未占用的目标查询才有机会匹配过去未出现的新车辆,直到一车辆消失一定时间,其目标查询才会转成“未占用”,重新被初始化;将DETR跟踪模型在UA-DETRAC车辆目标跟踪数据集上依据目标查询复用机制进行再训练,将不同帧中同一车辆进行关联。
6.根据权利要求5所述基于DETR的停车场出入口车辆积压检测方法,其特征在于,步骤S3的具体过程为:将视频每隔N帧逐帧送入DETR跟踪模型,DETR跟踪模型检测和跟踪帧中车辆,并保存距离出口最近的车辆的目标框中心点,根据前后N帧车辆框中心点计算位移X,判断X是否小于阈值L,若X大于L,则说明车辆正在移动,停车时间T置0,并复用这一帧的目标查询对下一帧进行检测和跟踪;若X小于L,则说明车辆为发生移动,车辆停车时间T+N/视频帧数,视频帧数由监控设备确定,以30帧为主,判断T是否大于30,小于30则继续进行下一帧的检测和跟踪,大于30则自动联系远程客服,由客服帮助解决出场问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727492.3A CN116469059A (zh) | 2023-06-20 | 2023-06-20 | 一种基于detr的停车场出入口车辆积压检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727492.3A CN116469059A (zh) | 2023-06-20 | 2023-06-20 | 一种基于detr的停车场出入口车辆积压检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116469059A true CN116469059A (zh) | 2023-07-21 |
Family
ID=87184693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310727492.3A Pending CN116469059A (zh) | 2023-06-20 | 2023-06-20 | 一种基于detr的停车场出入口车辆积压检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469059A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830874A (zh) * | 2024-03-05 | 2024-04-05 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003549A (ja) * | 2010-06-17 | 2012-01-05 | Toshiba Teli Corp | 異常走行車両検出システムおよび道路監視プログラム |
US20140063263A1 (en) * | 2012-08-29 | 2014-03-06 | Xerox Corporation | System and method for object tracking and timing across multiple camera views |
CN103778785A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种基于停车场环境视频监控的车辆跟踪与检测方法 |
CN111626275A (zh) * | 2020-07-30 | 2020-09-04 | 江苏金智慧安科技有限公司 | 一种基于智能视频分析的异常停车检测方法 |
CN112712600A (zh) * | 2020-12-24 | 2021-04-27 | 广东华车智库智能科技有限公司 | 基于移动物联网的停车场移动值守系统及方法 |
CN113869138A (zh) * | 2021-09-06 | 2021-12-31 | 深延科技(北京)有限公司 | 多尺度目标检测方法、装置及计算机可读存储介质 |
CN115063717A (zh) * | 2022-06-08 | 2022-09-16 | 南京信息技术研究院 | 一种基于重点区域实景建模的视频目标检测与跟踪方法 |
CN115861916A (zh) * | 2022-11-08 | 2023-03-28 | 深圳信路通智能技术有限公司 | 异常停车行为检测方法、装置、计算机设备和存储介质 |
CN115984586A (zh) * | 2022-12-12 | 2023-04-18 | 北京易航远智科技有限公司 | 一种鸟瞰视角下的多目标跟踪方法及装置 |
WO2023065395A1 (zh) * | 2021-10-18 | 2023-04-27 | 中车株洲电力机车研究所有限公司 | 作业车辆检测与跟踪方法和系统 |
-
2023
- 2023-06-20 CN CN202310727492.3A patent/CN116469059A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003549A (ja) * | 2010-06-17 | 2012-01-05 | Toshiba Teli Corp | 異常走行車両検出システムおよび道路監視プログラム |
US20140063263A1 (en) * | 2012-08-29 | 2014-03-06 | Xerox Corporation | System and method for object tracking and timing across multiple camera views |
CN103778785A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种基于停车场环境视频监控的车辆跟踪与检测方法 |
CN111626275A (zh) * | 2020-07-30 | 2020-09-04 | 江苏金智慧安科技有限公司 | 一种基于智能视频分析的异常停车检测方法 |
CN112712600A (zh) * | 2020-12-24 | 2021-04-27 | 广东华车智库智能科技有限公司 | 基于移动物联网的停车场移动值守系统及方法 |
CN113869138A (zh) * | 2021-09-06 | 2021-12-31 | 深延科技(北京)有限公司 | 多尺度目标检测方法、装置及计算机可读存储介质 |
WO2023065395A1 (zh) * | 2021-10-18 | 2023-04-27 | 中车株洲电力机车研究所有限公司 | 作业车辆检测与跟踪方法和系统 |
CN115063717A (zh) * | 2022-06-08 | 2022-09-16 | 南京信息技术研究院 | 一种基于重点区域实景建模的视频目标检测与跟踪方法 |
CN115861916A (zh) * | 2022-11-08 | 2023-03-28 | 深圳信路通智能技术有限公司 | 异常停车行为检测方法、装置、计算机设备和存储介质 |
CN115984586A (zh) * | 2022-12-12 | 2023-04-18 | 北京易航远智科技有限公司 | 一种鸟瞰视角下的多目标跟踪方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830874A (zh) * | 2024-03-05 | 2024-04-05 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
CN117830874B (zh) * | 2024-03-05 | 2024-05-07 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460926B (zh) | 一种融合多目标跟踪线索的视频行人检测方法 | |
CN108921875B (zh) | 一种基于航拍数据的实时车流检测与追踪方法 | |
US7929730B2 (en) | Method and system for object detection and tracking | |
CN111860282A (zh) | 地铁断面客流量统计和行人逆行检测方法及系统 | |
CN110781838A (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
CN113449660B (zh) | 基于自注意增强的时空变分自编码网络的异常事件检测方法 | |
CN111382686B (zh) | 一种基于半监督生成对抗网络的车道线检测方法 | |
CN108875754B (zh) | 一种基于多深度特征融合网络的车辆再识别方法 | |
CN110633643A (zh) | 一种面向智慧社区的异常行为检测方法及系统 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
CN115147819B (zh) | 基于注视点预测模型的驾驶员注视点预测方法 | |
CN108563977A (zh) | 一种高速公路出入口的行人预警方法及系统 | |
CN109829495A (zh) | 基于lstm和dcgan的时序性图像预测方法 | |
CN116469059A (zh) | 一种基于detr的停车场出入口车辆积压检测方法 | |
CN117132788B (zh) | 基于运动跟踪Transformer的卫星视频多车辆在线跟踪方法及装置 | |
CN113158983A (zh) | 一种基于红外视频序列图像的机场场面活动行为识别方法 | |
CN114445465A (zh) | 一种基于融合逆强化学习的轨迹预测方法 | |
CN114998993B (zh) | 一种自动驾驶场景下联合行人目标检测与跟踪联合方法 | |
CN116863305A (zh) | 基于时空特征融合网络的红外弱小目标检测方法 | |
CN115171001A (zh) | 基于改进ssd的增强热红外图像上车辆检测方法及系统 | |
Yue et al. | Improved Ada Boost classifier for sports scene detection in videos: From data extraction to image understanding | |
CN117237411A (zh) | 一种基于深度学习的行人多目标跟踪方法 | |
CN116109673A (zh) | 一种基于行人姿态估计的多帧轨迹跟踪系统及其方法 | |
CN113283393B (zh) | 基于图像组与两流网络的Deepfake视频检测方法 | |
Kavitha et al. | An extreme learning machine and action recognition algorithm for generalized maximum clique problem in video event recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |