CN114973167B - 一种基于离线聚类的无监督对比学习的多目标跟踪方法 - Google Patents

一种基于离线聚类的无监督对比学习的多目标跟踪方法 Download PDF

Info

Publication number
CN114973167B
CN114973167B CN202210894529.7A CN202210894529A CN114973167B CN 114973167 B CN114973167 B CN 114973167B CN 202210894529 A CN202210894529 A CN 202210894529A CN 114973167 B CN114973167 B CN 114973167B
Authority
CN
China
Prior art keywords
feature
frame
vehicles
current frame
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210894529.7A
Other languages
English (en)
Other versions
CN114973167A (zh
Inventor
王永
刘寒松
王国强
翟贵乾
刘瑞
焦安健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202210894529.7A priority Critical patent/CN114973167B/zh
Publication of CN114973167A publication Critical patent/CN114973167A/zh
Application granted granted Critical
Publication of CN114973167B publication Critical patent/CN114973167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于目标跟踪技术领域,涉及一种基于离线聚类的无监督对比学习的多目标跟踪方法,以离线聚类的方式进行将不同帧的同一目标聚类到一起然后计算损失学习出一个能进行关联,并且是在无监督的方式下进行的,不需要标签的信息,对于那些没有标注的数据集进行训练,有效的挖掘没有标注的数据中有用的信息,自主地进行发现和体验,寻找模式和联系并得出结论,不需要人为指导,减少了资源的浪费。

Description

一种基于离线聚类的无监督对比学习的多目标跟踪方法
技术领域
本发明属于目标跟踪技术领域,涉及一种基于离线聚类的无监督对比学习的多目标跟踪方法,能够有效的在没有标签监督的条件下对社区视频监控中的多辆车进行跟踪。
背景技术
随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视,智能视频监控技术已经发展成为当前的研究热点;行人检测、跟踪、再识别与检索、目标跟踪是智能化视频监控系统中的核心关键技术,还可以为后续的更高层次的场景理解、行为分析和异常事件监控提供可靠的数据支持。
近年来,随着大数据、云计算、人工智能等领域日新月异的发展及交互融合,智慧电商、智慧交通、智慧城市等概念越发受到关注。随着人们对更智能、更便捷、更高质量生活的向往,同时伴随着重大的学术价值和广阔的商业前景,众多高校、科研机构、政府部门均对相关产业投入了大量的人力、物力和财力;人工智能,被喻为新时代工业革命的引擎,正在悄然渗入到各行各业并改变着我们的生活方式。计算机视觉是人工智能领域的重要分支,旨在研宄如何让计算机像人类视觉系统一样智能地感知、分析、处理现实世界,以图像和视频为信息载体的各项计算机视觉算法,早己渗透到大众的日常生活中,如人脸识别、人机交互、商品检索、智能监控、视觉导航等,视频目标跟踪技术,作为计算机视觉领域中基础的、重要的研宄方向之一,一直是研宄人员的关注热点。
现有的多目标跟踪方法都是有监督的,这对于数据是有要求的,必须都是有标签的,才能进行训练,而根据实际情况来说,数据是有的,而且很多,可是被整理过的数据就太少了,这意味着这些数据对于大多数目前的监督式学习来说是不可用的,但是深度学习尤其依赖于大量良好的、结构化的、有标签的数据;另外,在训练一个复杂的模型,如深度神经网络时,使用小数据集可能会导致所谓的过度拟合,这是深度学习中一个常见的问题,过度拟合是由于大量可学习参数与训练样本有关联导致的。结果可以是一个能够记住这些训练数据的模型,而不是从数据中学习一般概念的模型。于是我们的发明就提出了一种基于离线聚类的无监督对比学习的多目标跟踪方法,网络能够自动学习数据本来的一些共性和差异性以及一些高级特征,这就不需要我们人为的去对其进行改动,大大减少了资源的消耗。
发明内容
本发明的目的在于解决多目标跟踪中对于数据集标注的依赖,并且目前多目标跟踪主要用的数据集都不大导致设计的算法对于数据集过拟合的问题,设计提出一种基于离线聚类的无监督对比学习的多目标跟踪方法,自动学习数据本来的一些共性和差异性以及一些高级特征,无需人为的去对数据进行改动,减少资源消耗。
为实现上述目的,本发明实现多目标跟踪的具体过程如下:
(1)、离线过程训练一个特征提取网络,先将所有帧输入到检测器,检测出所有帧中的所有车辆后输入到特征提取网络,获得所有车辆的特征向量;
(2)、对检测出的所有车辆使用密度聚类DBSCAN算法进行聚类,将不同帧的同一车辆聚类到同一类中,并计算损失,再更新特征提取网络,经过多轮聚类,学习出一个能提取出特征物体判别性特征的特征提取网络;
(3)、将步骤(2)学习好的特征提取网络用于在线跟踪,先将跟踪视频的视频帧送入主干网络中,获得当前帧的特征图,再将特征图送入到检测器中检测出当前帧中的所有车辆;
(4)、将上一帧的特征图与当前帧的特征图进行点积计算,获得两帧之间的相似度图,根据相似度图,然后求出上一帧的一个点(k,l)在当前帧所在的位置分别在水平和垂直方向的位置的概率;
(5)、根据步骤(4)得到的两帧每点出现在当前帧水平方向位置和垂直方向的概率,求出当前帧根据上一帧的位移量,然后将位移量和上一帧的特征图作为可行变卷积网络的输入,获得上一帧增强的特征图,通过上一帧增强的特征图增强当前帧的特征图;
(6)、根据步骤(2)检测出的所有车辆,得到其检测框后将其在步骤(5)经过增强的特征图上切割下来送入到步骤(2)学习好的特征提取网络中,得到每辆车的特征向量,并且将第一帧的所有车辆特征向量初始化模板特征池中的每一个类中心的特征向量;
(7)、将当前帧与之前的轨迹进行关联,即与模板特征池中的类中心特征向量计算相似度,根据相似度进行关联,并且根据关联的结果对模板特征池中的类中心特征向量使用动量更新的方式进行更新;
(8)、经过30帧的跟踪关联后,对于模板特征池长时间未进行更新的类中心特征向量删除,并特征提取网络进行更新,以便其更适合当前的跟踪任务,实现多目标跟踪。
作为本发明的进一步技术方案,所述步骤(1)具体包括如下步骤:
(11)、将所有的视频帧
Figure 190121DEST_PATH_IMAGE001
输入到检测器CenterNet中,然后检测出当前帧的 中心点热度图
Figure 559791DEST_PATH_IMAGE002
和检测出的每辆车的尺寸
Figure 605108DEST_PATH_IMAGE003
,以及每个物体的中心点的偏移 量
Figure 203579DEST_PATH_IMAGE003
,其中H和W分别为视频帧的高度和宽度;
(12)、然后根据步骤(11)中获得的中心点热度图和尺寸以及偏移量获得每辆车的位置以及对应的检测框;
(13)、根据步骤(12)获得的每辆车所在的检测框,然后将其切割下来输入到特征提取网络中获得每辆车的特征向量。
作为本发明的进一步技术方案,所述步骤(2)具体包括如下步骤:
步骤(21)、对步骤(13)获得的所有车辆的特征向量使用密度聚类算法DBSCAN,将不同帧的同一车辆聚类到同一个类中,并赋予同样的id;
步骤(22)、 根据步骤(21)聚类的结果,同一类的车辆视为正样本,不同类的车辆视为负样本然后计算损失函数值,从而拉大不同类即不同车辆之间的距离,缩小不同帧的同一车辆之间的距离;
步骤(23)、根据步骤(21)将所有车辆聚类后的结果对特征池中的类中心特征进行更新,先将同一类中的所有车辆特征向量进行求和再求平均值,然后再使用动量更新的方式更新特征池中该类中心的特征向量,并且根据步骤(22)计算的损失函数值反向传播,更新特征提取网络;
步骤(24)、经过多轮聚类和更新过程后,学习出一个能提取出目标判别性特征的特征提取网络。
作为本发明的进一步技术方案,所述步骤(3)具体包括如下步骤:
步骤(31)、将视频帧送入到主干网络后,得到特征图;
步骤(32)、将特征图送入到检测器中检测出当前帧的所有车辆,并得到车辆的检测框。
作为本发明的进一步技术方案,所述步骤(4)具体包括如下步骤:
步骤(41)、将上一帧的特征图与当前帧的特征图进行点积运算,得到了两帧之间各位置之间的相似度图;
步骤(42)、将相似度图输入两个最大池化层得到了上一帧的点(k,l)出现在当前帧的水平方向位置和垂直方向位置的概率。
作为本发明的进一步技术方案,所述步骤(5)具体包括如下步骤:
步骤(51)、根据步骤(42)求出的上一帧点(k,l)出现在当前帧的水平方向和垂直方向的位置的概率,计算出对应的在两个方向的位移;
步骤(52)、根据步骤(51)求得的位移量,将其和上一帧的特征图作为可行变卷积的输入,从而获得经过增强的特征图;
步骤(53)、对当前帧的特征图进行增强,即将步骤(52)经过可行变卷积的上一帧特征图增强到当前特征图。
作为本发明的进一步技术方案,所述步骤(6)具体包括如下步骤:
步骤(61)、将之前检测出的当前帧的所有车辆,将其检测框从步骤(53)经过增强的特征图上给切割下来;
步骤(62)、将步骤(61)中切割下来的每辆车送入到步骤(2)中学习好的特征提取网络中获得每辆车的特征向量,并且在第一帧的时候初始化模板特征池中,将第一帧的每一辆车的特征向量作为模板特征池中的每一类的类中心特征向量。
作为本发明的进一步技术方案,所述步骤(7)具体包括如下步骤:
步骤(71)、计算当前帧所有车辆的特征向量与模板特征池中的所有类中心特征向量计算余弦相似度作为其相似度度量;
步骤(72)、根据求得的余弦相似度去将当前帧车辆与模板中的类中心进行关联,距离越小相似度越高,根据相似度将当前帧与模板帧中的类中心进行关联;
步骤(73)、根据步骤(72)的关联结果对模板特征池进行更新维护,对于当前帧车辆与模板特征池中的类中心关联上的,则使用动量更新的方式类中心特征向量进行更新,对于没关联上的类中心则不进行更新。
作为本发明的进一步技术方案,所述步骤(8)具体包括如下步骤:
步骤(81)、每经过30帧的跟踪后,对模板特征池中20帧未经过更新的类中心特征向量删除,因为经过长时间未经过更新的车辆类中心即可视为已经离开了摄像头拍摄的视频区域,则不需要再对它进行更新维护;
步骤(82)、对模板特征池中的长时间未更新的类中心特征向量删除后,再对计算损失函数,对特征提取网络进行更新即进行步骤(22)和步骤(23)过程,以便学习出更适应当前跟踪任务的特征提取网络从而更适应当前的跟踪任务。
本发明先使用无监督对比学习的方法训练出一个能提取出具有判别性特征的特征提取网络,将视频里所有目标送入特征提取网络获得每个目标的特征向量,然后使用聚类将同一目标聚类到一起,然后将同一目标都是为正样本,其他目标视为负样本计算损失函数然后更新特征提取网络,经过多轮聚类更新后训练出一个能提取出判别性特征的特征提取网络,再通过上一帧与当前帧计算各个点之间的相似度,求出每个点在两帧之间的偏移量,送入可行变卷积网络中对当前帧特征图进行增强,最后再将当前帧的车辆的特征送入训练好的特征提取网络得到每辆车的特征向量,计算与模板特征池中的类中心特征向量的相似度,根据相似度进行关联。
本发明与现有技术相比,以离线聚类的方式进行将不同帧的同一目标聚类到一起然后计算损失学习出一个能进行关联,并且是在无监督的方式下进行的,不需要标签的信息,对于那些没有标注的数据集进行训练,有效的挖掘没有标注的数据中有用的信息,自主地进行发现和体验,寻找模式和联系并得出结论,不需要人为指导,减少了资源的浪费。
附图说明
图1为本发明的工作流程图。
图2为本发明的网络结构图。
图3为离线训练特征提取网络的结构图。
具体实施方式
下面通过实施例并结合附图对本发明作进一步说明。
实施例:
本实施例实现多目标跟踪的工作流程如图1所示,网络结构如图2所示,具体过程如下:
(1)、离线过程训练一个特征提取网络,先将所有帧输入到检测器,检测出所有帧中的所有车辆后输入到特征提取网络,获得所有车辆的特征向量;
(2)、对检测出的所有车辆使用密度聚类DBSCAN算法进行聚类,将不同帧的同一车辆聚类到同一类中,并计算损失,再更新特征提取网络,经过多轮聚类,学习出一个能提取出特征物体判别性特征的特征提取网络,如图3所示;
(3)、将步骤(2)学习好的特征提取网络用于在线跟踪,先将跟踪视频的视频帧送入主干网络中,获得当前帧的特征图,再将特征图送入到检测器中检测出当前帧中的所有车辆;
(4)、将上一帧的特征图与当前帧的特征图进行点积计算,获得两帧之间的相似度图,根据相似度图,然后求出上一帧的一个点(k,l)在当前帧所在的位置分别在水平和垂直方向的位置的概率;
(5)、根据步骤(4)得到的两帧每点出现在当前帧水平方向位置和垂直方向的概率,求出当前帧根据上一帧的位移量,然后将位移量和上一帧的特征图作为可行变卷积网络的输入,获得上一帧增强的特征图,通过上一帧增强的特征图增强当前帧的特征图;
(6)、根据步骤(2)检测出的所有车辆,得到其检测框后将其在步骤(5)经过增强的特征图上切割下来送入到步骤(2)学习好的特征提取网络中,得到每辆车的特征向量,并且将第一帧的所有车辆特征向量初始化模板特征池中的每一个类中心的特征向量;
(7)、将当前帧与之前的轨迹进行关联,即与模板特征池中的类中心特征向量计算相似度,根据相似度进行关联,并且根据关联的结果对模板特征池中的类中心特征向量使用动量更新的方式进行更新;
(8)、经过30帧的跟踪关联后,对于模板特征池长时间未进行更新的类中心特征向量删除,并特征提取网络进行更新,以便其更适合当前的跟踪任务,实现多目标跟踪。
对于步骤(1),将视频帧
Figure 283531DEST_PATH_IMAGE001
输入到检测器CenterNet中,然后检测出当前帧的 中心点热度图
Figure 309255DEST_PATH_IMAGE002
和每个点的物体的尺寸
Figure 841868DEST_PATH_IMAGE003
,以及每个物体的中心点的偏移量
Figure 244030DEST_PATH_IMAGE003
,然后根据获得的中心点热图和尺寸以及偏移量可以获得每个目标的位置,得到目 标的检测框,再将其从特征图中切割下来送入到特征提取网络获得每个目标的特征向量。
对于步骤(2),基于聚类的无监督对比学习过程主要由以下四个步骤完成,如图3所示,对三帧图像内的目标进行聚类,具体实现过程如下:
步骤(21)、对步骤(13)获得的所有车辆的特征向量使用密度聚类算法DBSCAN,将不同帧的同一车辆聚类到同一个类中,并赋予同样的id;
步骤(22)、 根据步骤(21)聚类的结果,为了增大不同目标之间的距离,拉进同一目标之间的距离,于是将各个帧的同一目标作为正样本,其他的目标都作为负样本来计算损失函数,损失函数如下:
Figure 178488DEST_PATH_IMAGE004
其中
Figure 627312DEST_PATH_IMAGE005
是该类中心的特征向量,q是该类的正样本,K是所有类的个数,
Figure 647220DEST_PATH_IMAGE006
是温度参 数;
步骤(23)、根据步骤(21)将所有车辆聚类后的结果对特征池中的类中心特征进行更新,先将同一类中的所有车辆特征向量进行求和再求平均值,再使用动量更新的方式更新特征池中该类中心的特征向量,并且根据步骤(22)计算的损失函数值反向传播,更新特征提取网络;
步骤(24)、经过多轮聚类和更新过程后,学习出一个能提取出目标判别性特征的特征提取网络。
对于步骤(3),离线学习好一个特征提取网络后,就开始在线跟踪,先将当前帧送入到主干网络后得到当前帧的特征图,然后送入检测器中得到了当前帧所有车辆的位置以及检测框。
对于步骤(4),根据步骤(3)获得的当前帧的特征图,结合上一帧的特征计算出上一帧的每个点到当前帧的位置的概率,具体实现过程如下:
步骤(41)、先将上一帧的特征图和当前帧的特征图进行点积运算得到两帧的每个点之间的相似度,计算方式如下:
Figure 587495DEST_PATH_IMAGE007
步骤(42)、根据步骤(41)计算出的两帧的每个点之间的相似度,将其通过两个最 大池化层,分别获得每个点在当前帧的水平方向的每个位置的概率和在当前帧的垂直方向 的每个位置的概率,获得在当前帧水平方向各位置的概率:将相似度图经过一个
Figure 376459DEST_PATH_IMAGE008
的最 大池化层,然后再将结果输入softmax函数,使其归一化,也就获得了在当前帧垂直方向各 个位置的概率
Figure 9566DEST_PATH_IMAGE009
,同样的将其送入一个
Figure 516770DEST_PATH_IMAGE010
的最大池化层,然后再将结果输 入softmax函数,使其归一化,也就获得了在当前帧水平方向各个位置的概率
Figure 791894DEST_PATH_IMAGE011
对于步骤(5),基于步骤(4)所求的概率求出对应在每个方向上的位移,从而对当前帧特征图进行增强,具体实现过程如下:
步骤(51)、由步骤(42)求得的概率求出分别在水平方向和垂直方向的位移量,即将出现在该点的概率乘以两点之间的水平方向或者垂直方向的距离,公式如下:
上一帧的点(i,j)在当前帧水平方向位置为k之间的距离为:
Figure 638627DEST_PATH_IMAGE012
则水平方向的偏移量为:
Figure 239373DEST_PATH_IMAGE013
上一帧的点(i,j)在当前帧垂直方向位置为l之间的距离为:
Figure 420824DEST_PATH_IMAGE014
则垂直方向的偏移量为:
Figure 765218DEST_PATH_IMAGE015
步骤(52)、将步骤(51)求得的偏移量和上一帧的特征图送入可行变卷积网络中得到将其增强的特征图,即:
Figure 466458DEST_PATH_IMAGE016
步骤(53)、将步骤(52)经过增强的上一帧特征图增强到当前帧的特征图上,即:
Figure 503684DEST_PATH_IMAGE017
对于步骤(6),先将步骤(3)检测出的当前帧所有车辆的检测框从步骤(53)经过增强后的当前帧的特征图上切割下来送入到步骤(2)中学习好的特征提取网络中获得了当前帧每辆车的特征向量。并且在当前帧是第一帧的时候对模板特征池进行初始化,第一帧的时候所有车辆特征向量为模板特征池中每一个类中心的特征向量。
对于步骤(7),将当前帧的所有车辆与所有轨迹进行关联,即将当前车辆的特征向量与特征模板池中的类中心特征向量计算相似度,然后再根据相似度进行关联,具体实现过程如下:
步骤(71)、计算当前帧中所有车辆的特征向量与模板特征池中的类中心特征向量的余弦相似度作为相似度的衡量值,余弦相似度越大则相似度越高,计算公式如下:
Figure DEST_PATH_IMAGE019A
其中
Figure 392006DEST_PATH_IMAGE020
是当前帧第i辆车的特征向量,
Figure 727041DEST_PATH_IMAGE021
是模板特征池中第j类的特征向量。
步骤(72)、计算出当前帧所有车的特征向量与模板特征池中所有类中心的相似度 后,根据相似度进行关联,将当前帧车辆按照相似度最大的那个类中心进行关联,并且进行 关联的类中心的相似度必须高于阈值
Figure 345104DEST_PATH_IMAGE022
这是为了防止当前帧车辆与模板特征池中所有的 类中心相似度都很低而导致的错误关联,将未进行关联的当前帧车辆设为新的车辆;
步骤(73)、根据步骤(72)关联的结果,对成功关联的车辆与类中心,对类中心特征向量使用动量更新的方式进行更新,公式如下:
Figure 490914DEST_PATH_IMAGE023
其中
Figure 194428DEST_PATH_IMAGE020
是当前帧第i辆车的特征向量,
Figure 83887DEST_PATH_IMAGE021
是与
Figure 759719DEST_PATH_IMAGE020
关联上的模板特征池中第j类的特 征向量;
对于新的车辆,则在模板特征池中新增加一个类中心,其特征向量就是该车辆的特征向量,对于未关联上的类中心,则不对其做任何处理。
对于步骤(8),每经过30帧的跟踪后,对模板特征池进行更新维护,对于已经不在视频中的车辆没有进行维护的必要,即对于模板特征池中已经有20帧未进行更新的类中心特征向量删除。然后再计算损失函数,更新特征提取网络,使其更适应当前任务。
本实施例能够在数据没有进行标注的情况下照样可以进行训练学习,与有监督的方法相比,省去了大量的人力用于在对数据进行打标签上的耗费,并且可以用来训练的数据量很多,而有监督的方法训练的数据很少而且很有限,无监督对比学习能够自主从大量数据之间学习同类数据的相同特性,将其编码为高级特征,使用这些高级特征能将不同帧的车辆进行关联。
以上公开的仅为本发明的具体实施例,根据本发明提供的技术思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。

Claims (7)

1.一种基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,具体步骤如下:
(1)、离线过程训练一个特征提取网络,先将所有帧输入到检测器,检测出所有帧中的所有车辆后输入到特征提取网络,获得所有车辆的特征向量;
(2)、对检测出的所有车辆使用密度聚类DBSCAN算法进行聚类,将不同帧的同一车辆聚类到同一类中,并计算损失,再更新特征提取网络,经过多轮聚类,学习出一个能提取出特征物体判别性特征的特征提取网络;
(3)、将步骤(2)学习好的特征提取网络用于在线跟踪,先将跟踪视频的视频帧送入主干网络中,获得当前帧的特征图,再将特征图送入到检测器中检测出当前帧中的所有车辆;
(4)、将上一帧的特征图与当前帧的特征图进行点积运算,得到两帧之间各位置之间的 相似度图,再将相似度图输入两个最大池化层得到了上一帧的点(i,j)出现在当前帧的水 平方向位置和垂直方向位置的概率,具体为:将相似度图经过一个
Figure 583658DEST_PATH_IMAGE001
的最大池化层,然 后再将结果输入softmax函数,使其归一化,获得在当前帧垂直方向各个位置的概率
Figure 606978DEST_PATH_IMAGE002
,同样的将其送入一个
Figure 114183DEST_PATH_IMAGE003
的最大池化层,然后再将结果输入softmax函 数,使其归一化,也就获得了在当前帧水平方向各个位置的概率
Figure 592568DEST_PATH_IMAGE004
,其中H和W 分别为视频帧的高度和宽度;
(5)、根据步骤(4)得到的两帧每点出现在当前帧水平方向位置和垂直方向的概率,求出当前帧根据上一帧的位移量,即将出现在该点的概率乘以两点之间的水平方向或者垂直方向的距离,公式如下:
上一帧的点(i,j)在当前帧水平方向位置为k之间的距离为:
Figure 501619DEST_PATH_IMAGE005
则水平方向的偏移量为:
Figure 164681DEST_PATH_IMAGE006
上一帧的点(i,j)在当前帧垂直方向位置为l之间的距离为:
Figure 159182DEST_PATH_IMAGE007
则垂直方向的偏移量为:
Figure 441259DEST_PATH_IMAGE008
然后将位移量和上一帧的特征图作为可行变卷积网络的输入,获得上一帧增强的特征图,通过上一帧增强的特征图增强当前帧的特征图;
(6)、根据步骤(2)检测出的所有车辆,得到其检测框后将其在步骤(5)经过增强的特征图上切割下来送入到步骤(2)学习好的特征提取网络中,得到每辆车的特征向量,并且将第一帧的所有车辆特征向量作为初始化模板特征池中的每一个类中心的特征向量;
(7)、将当前帧与之前的轨迹进行关联,即与模板特征池中的类中心特征向量计算相似度,根据相似度进行关联,并且根据关联的结果对模板特征池中的类中心特征向量使用动量更新的方式进行更新;
(8)、经过30帧的跟踪关联后,对于模板特征池长时间未进行更新的类中心特征向量删除,并对特征提取网络进行更新,以便其更适合当前的跟踪任务,实现多目标跟踪。
2.根据权利要求1所述基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,所述步骤(1)具体包括如下步骤:
(11)、将所有的视频帧
Figure 204815DEST_PATH_IMAGE009
输入到检测器CenterNet中,然后检测出当前帧的中心 点热度图
Figure 976462DEST_PATH_IMAGE010
和检测出的每辆车的尺寸
Figure 254997DEST_PATH_IMAGE011
,以及每个物体的中心点的偏移量
Figure 403081DEST_PATH_IMAGE011
,其中H和W分别为视频帧的高度和宽度;
(12)、然后根据步骤(11)中获得的中心点热度图和尺寸以及偏移量获得每辆车的位置以及对应的检测框;
(13)、根据步骤(12)获得的每辆车所在的检测框,然后将其切割下来输入到特征提取网络中获得每辆车的特征向量。
3.根据权利要求2所述基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,所述步骤(2)具体包括如下步骤:
步骤(21)、对步骤(13)获得的所有车辆的特征向量使用密度聚类算法DBSCAN,将不同帧的同一车辆聚类到同一个类中,并赋予同样的id;
步骤(22)、 根据步骤(21)聚类的结果,同一类的车辆视为正样本,不同类的车辆视为负样本然后计算损失函数值,从而拉大不同类即不同车辆之间的距离,缩小不同帧的同一车辆之间的距离;
步骤(23)、根据步骤(21)将所有车辆聚类后的结果对特征池中的类中心特征进行更新,先将同一类中的所有车辆特征向量进行求和再求平均值,然后再使用动量更新的方式更新特征池中该类中心的特征向量,并且根据步骤(22)计算的损失函数值反向传播,更新特征提取网络;
步骤(24)、经过多轮聚类和更新过程后,学习出一个能提取出目标判别性特征的特征提取网络。
4.根据权利要求3所述基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,所述步骤(3)具体包括如下步骤:
步骤(31)、将视频帧送入到主干网络后,得到特征图;
步骤(32)、将特征图送入到检测器中检测出当前帧的所有车辆,并得到车辆的检测框。
5.根据权利要求4所述基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,所述步骤(6)具体包括如下步骤:
步骤(61)、将之前检测出的当前帧的所有车辆,将其检测框从步骤(53)经过增强的特征图上给切割下来;
步骤(62)、将步骤(61)中切割下来的每辆车送入到步骤(2)中学习好的特征提取网络中获得每辆车的特征向量,并且在第一帧的时候初始化模板特征池中,将第一帧的每一辆车的特征向量作为模板特征池中的每一类的类中心特征向量。
6.根据权利要求5所述基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,所述步骤(7)具体包括如下步骤:
步骤(71)、计算当前帧所有车辆的特征向量与模板特征池中的所有类中心特征向量计算余弦相似度作为其相似度度量;
步骤(72)、根据求得的余弦相似度去将当前帧车辆与模板中的类中心进行关联,距离越小相似度越高,根据相似度将当前帧与模板帧中的类中心进行关联;
步骤(73)、根据步骤(72)的关联结果对模板特征池进行更新维护,对于当前帧车辆与模板特征池中的类中心关联上的,则使用动量更新的方式对类中心特征向量进行更新,对于没关联上的类中心则不进行更新。
7.根据权利要求6所述基于离线聚类的无监督对比学习的多目标跟踪方法,其特征在于,所述步骤(8)具体包括如下步骤:
步骤(81)、每经过30帧的跟踪后,对模板特征池中20帧未经过更新的类中心特征向量删除,因为经过长时间未经过更新的车辆类中心即可视为已经离开了摄像头拍摄的视频区域,则不需要再对它进行更新维护;
步骤(82)、对模板特征池中的长时间未更新的类中心特征向量删除后,再对计算损失函数,对特征提取网络进行更新即进行步骤(22)和步骤(23)过程,以便学习出更适应当前跟踪任务的特征提取网络从而更适应当前的跟踪任务。
CN202210894529.7A 2022-07-28 2022-07-28 一种基于离线聚类的无监督对比学习的多目标跟踪方法 Active CN114973167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210894529.7A CN114973167B (zh) 2022-07-28 2022-07-28 一种基于离线聚类的无监督对比学习的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210894529.7A CN114973167B (zh) 2022-07-28 2022-07-28 一种基于离线聚类的无监督对比学习的多目标跟踪方法

Publications (2)

Publication Number Publication Date
CN114973167A CN114973167A (zh) 2022-08-30
CN114973167B true CN114973167B (zh) 2022-11-04

Family

ID=82968944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210894529.7A Active CN114973167B (zh) 2022-07-28 2022-07-28 一种基于离线聚类的无监督对比学习的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114973167B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217428A (zh) * 2014-08-22 2014-12-17 南京邮电大学 一种融合特征匹配和数据关联的视频监控多目标跟踪方法
CN106952293A (zh) * 2016-12-26 2017-07-14 北京影谱科技股份有限公司 一种基于非参数在线聚类的目标跟踪方法
US11250637B1 (en) * 2021-05-14 2022-02-15 Gridraster, Inc. Multimodal 3D deep learning fusion system and method for reducing the need of 3D training dataset of 3D object tracking for enterprise digital twin mixed reality

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569793B (zh) * 2019-09-09 2022-06-07 西南交通大学 一种无监督相似性判别学习的目标跟踪方法
CN114266988A (zh) * 2020-09-16 2022-04-01 上海大学 基于对比学习的无监督视觉目标跟踪方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217428A (zh) * 2014-08-22 2014-12-17 南京邮电大学 一种融合特征匹配和数据关联的视频监控多目标跟踪方法
CN106952293A (zh) * 2016-12-26 2017-07-14 北京影谱科技股份有限公司 一种基于非参数在线聚类的目标跟踪方法
US11250637B1 (en) * 2021-05-14 2022-02-15 Gridraster, Inc. Multimodal 3D deep learning fusion system and method for reducing the need of 3D training dataset of 3D object tracking for enterprise digital twin mixed reality

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Situation Assessment-Augmented Interactive Kalman Filter for Multi-Vehicle Tracking;Maryam Baradaran Khalkhali et al.;《IEEE Transactions on Intelligent Transportation Systems》;20210205;3766-3776 *
基于深度学习的多车辆检测及跟踪算法研究;何丹妮;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20200215;C034-709 *

Also Published As

Publication number Publication date
CN114973167A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
Chen et al. An edge traffic flow detection scheme based on deep learning in an intelligent transportation system
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN107153817B (zh) 行人重识别数据标注方法和装置
CN107145862B (zh) 一种基于霍夫森林的多特征匹配多目标跟踪方法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN103246896B (zh) 一种鲁棒性车辆实时检测与跟踪方法
Jia et al. Obstacle detection in single images with deep neural networks
Xie et al. Deep learning-based computer vision for surveillance in its: Evaluation of state-of-the-art methods
CN111738218B (zh) 人体异常行为识别系统及方法
Tsintotas et al. Tracking‐DOSeqSLAM: A dynamic sequence‐based visual place recognition paradigm
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN110334577B (zh) 一种基于海思安防芯片的人脸识别方法
Shafiee et al. Embedded motion detection via neural response mixture background modeling
CN107832753B (zh) 一种基于四值权重与多重分类的人脸特征提取方法
CN104778699A (zh) 一种自适应对象特征的跟踪方法
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN113239885A (zh) 一种人脸检测与识别方法及系统
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN114973167B (zh) 一种基于离线聚类的无监督对比学习的多目标跟踪方法
CN116978093A (zh) 基于空间数据增强和对称互注意力的跨模态行人重识别方法
Wang et al. Sture: Spatial–temporal mutual representation learning for robust data association in online multi-object tracking
Sridhar et al. Anomaly Detection using CNN with SVM
Zou et al. A neuro‐fuzzy crime prediction model based on video analysis
Xudong et al. Pedestrian detection and tracking with deep mutual learning
Wang et al. CNN Network for Head Detection with Depth Images in cyber-physical systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant