CN118135248A - 复杂场景下多目标跟踪方法、系统、设备及介质 - Google Patents
复杂场景下多目标跟踪方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN118135248A CN118135248A CN202410557540.3A CN202410557540A CN118135248A CN 118135248 A CN118135248 A CN 118135248A CN 202410557540 A CN202410557540 A CN 202410557540A CN 118135248 A CN118135248 A CN 118135248A
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- tracking
- color
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 92
- 238000001514 detection method Methods 0.000 claims abstract description 90
- 230000008569 process Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种复杂场景下多目标跟踪方法、系统、设备及介质,涉及计算机视觉技术领域,包括:对视频帧进行目标检测,将矩形框分为高得分检测框和低得分检测框;提取高得分检测框内目标的深度特征和颜色直方图;预测目标跟踪的前一帧的跟踪框,提取跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;计算高分检测框和跟踪框的交并比相似度矩阵;根据目标的深度特征、颜色特征和交并比进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征和交并比进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪,显著提升在复杂场景下的跟踪性能。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种复杂场景下多目标跟踪方法、系统、设备及介质。
背景技术
多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域的一个重要分支,专注于如何在视频序列中连续且准确地跟踪多个目标,受跟踪-检测框架的影响,通过将独立的目标检测结果在时间序列上关联起来形成目标轨迹。
其中,在数据关联技术方面,匈牙利算法和多假设跟踪对于建立稳定的目标身份和轨迹至关重要,同时这一过程还涉及到利用卡尔曼滤波或粒子滤波等方法来预测目标的运动状态。在特征提取与匹配方面,传统的跟踪算法依赖于各种手工设计的特征,例如颜色直方图和边缘方向直方图。而随着技术的演进,基于卷积神经网络的特征提取方法提供了更强的鲁棒性和区分度。
在传统跟踪算法中,为了解决多目标的遮挡和交互问题,通常通过预测模型和特定的遮挡处理机制来优化跟踪性能,确保跟踪连续性和准确性。但是,在应对复杂场景下的遮挡和交汇等情况时,却仍存在着较多的目标ID切换以及漏检、误检等跟踪出错的问题。
发明内容
为了解决上述问题,本发明提出了一种复杂场景下多目标跟踪方法、系统、设备及介质,降低多目标跟踪在复杂场景下当目标遮挡交汇时产生的目标ID切换和漏检误检问题,显著提升在复杂场景下的跟踪性能,从而进行更为精确的跟踪任务。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种复杂场景下多目标跟踪方法,包括:
对待处理的视频帧进行目标检测,根据设定的分数阈值,将检测到的矩形框分为高得分检测框和低得分检测框;
提取高得分检测框内目标的深度特征和颜色直方图;
预测目标跟踪的前一帧的目标跟踪框,提取目标跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;
根据高得分检测框和目标跟踪框的交并比构建交并比相似度矩阵;
根据目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
作为可选择的实施方式,构建颜色特征相似度矩阵的过程包括:提取高得分检测框内目标的颜色特征和目标跟踪框内目标的颜色特征,将提取到的颜色特征从RGB空间转换到HSV空间,并提取H分量,将H分量的像素值转换为H分量直方图;计算高得分检测框内目标和目标跟踪框内目标H分量直方图的相关性,从而生成颜色特征相似度矩阵。
作为可选择的实施方式,在第一阶段的关联中,将高得分检测框和目标跟踪框,基于目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵的结合计算相似度,由此判断关联后的相似度值是否大于所设阈值,若是,则成功匹配到轨迹。
作为可选择的实施方式,相似度值的计算包括;
;
;
;
其中,为更新的第/>个目标跟踪框和第j个高得分检测框间深度特征的余弦距离;/>是目标跟踪框和高得分检测框间的余弦距离;/>为深度特征阈值;/>为交并比与颜色特征融合后的距离;/>为交并比融合颜色特征后的阈值;/>为第/>个目标跟踪框和第j个高得分检测框间的交并比距离;/>为颜色特征距离;A和B分别为/>和/>的权重;/>是更新的代价矩阵/>的第/>行第j列的元素,即相似度值。
作为可选择的实施方式,对未匹配的轨迹和低得分检测框,进行第二次关联,在第二阶段关联中,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,判断关联后的相似度值是否大于所设阈值;若是,则成功匹配到轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
作为可选择的实施方式,对目标跟踪框的预测包括:
初始化每个目标的状态向量,状态向量包括目标的位置和速度;
根据目标在t-1时刻的状态预测t时刻的状态;
;
式中,x为t-1时刻的轨迹均值,为预测的t时刻的轨迹均值,F为状态转移矩阵;为状态转移矩阵的转置;P为在t-1时刻的轨迹协方差,/>为预测的t时刻的轨迹协方差,Q为噪声矩阵;
基于t时刻的测量值和t时刻的预测值,得到在t时刻的精确状态;
;
式中,K为卡尔曼增益;H为测量矩阵;为测量矩阵的转置;R为检测器的噪声矩阵;/>为更新后的轨迹均值;z为测量值均值;/>为更新后的轨迹协方差;
根据更新后得到的精确状态生成目标跟踪框。
作为可选择的实施方式,对匹配成功的轨迹进行状态更新,其中状态包括位置状态、速度状态和加速度状态,具体包括:
基于目标在前一帧的状态预测当前帧的位置状态;
利用目标在当前帧中根据观测信息得到的目标实际状态与预测的位置状态进行比较,从而更新目标状态;观测信息包括深度特征、颜色特征和交并比;
将目标在两帧中的关联信息结合起来,以确定目标在当前帧的最优位置和状态信息;
在更新目标状态的同时更新目标状态的协方差矩阵,最终更新后的目标状态信息进入下一帧的跟踪。
第二方面,本发明提供一种复杂场景下多目标跟踪系统,包括:
目标检测模块,被配置为对待处理的视频帧进行目标检测,根据设定的分数阈值,将检测到的矩形框分为高得分检测框和低得分检测框;
特征提取模块,被配置为提取高得分检测框内目标的深度特征和颜色直方图;
颜色相似性对比模块,被配置为预测目标跟踪的前一帧的目标跟踪框,提取目标跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;
交并比相似性对比模块,被配置为根据高得分检测框和目标跟踪框的交并比构建交并比相似度矩阵;
跟踪模块,被配置为根据目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提出一种复杂场景下多目标跟踪方法、系统、设备及介质,计算高分检测框和跟踪框的交并比,利用高得分检测框的颜色直方图和跟踪框的颜色直方图,通过直方图相关性匹配来构建颜色特征相似度矩阵,将颜色特征相似度矩阵与交并比相似度矩阵进行加权,构成交并比和颜色特征的融合模型。充分利用目标的颜色特征,并结合交并比计算当前帧中检测到的目标框与上一帧中已知目标轨迹的目标框之间的重叠度和颜色直方图的相关性,从而判断它们是否可能是同一个目标。通过交并比和颜色特征融合模型结合两阶段的多目标跟踪关联框架,对高得分检测框和低得分检测框分别进行轨迹跟踪,显著提升在复杂场景下的跟踪性能,降低多目标跟踪在复杂场景下当目标遮挡交汇时产生的目标ID切换和漏检误检问题,从而进行更为精确的跟踪任务。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的复杂场景下多目标跟踪方法框架图;
图2为本发明实施例1提供的行人颜色在HSV空间所受光线影响的直方图;其中,(a)为强光下的H分量的直方图,(b)为强光下的S分量的直方图,(c)为强光下的V分量的直方图;
图3为本发明实施例1提供的行人颜色在RGB空间所受光线影响的直方图;其中,(a)为强光下的B分量的直方图,(b)为强光下的G分量的直方图,(c)为强光下的R分量的直方图;
图4为本发明实施例1提供的两阶段关联模型实现流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“包含”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种复杂场景下多目标跟踪方法,通过检测视频帧中的多个行人目标,处理目标之间关联和交互带来的众多复杂问题,来实现对多个目标的精准跟踪,具体包括:
对待处理的视频帧进行目标检测,根据设定的分数阈值,将检测到的矩形框分为高得分检测框和低得分检测框;
提取高得分检测框内目标的深度特征和颜色直方图;
预测目标跟踪的前一帧的目标跟踪框,提取目标跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;
根据高得分检测框和目标跟踪框的交并比构建交并比相似度矩阵;
根据目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
下面结合图1对本实施例方法进行详细阐述。
在本实施例中,将获取的待处理的视频帧通过YOLOX检测器进行目标检测,并将检测得到的矩形框,根据设定的分数阈值,划分为高得分检测框和低得分检测框。其中,对高得分检测框采用深度特征提取器,提取高得分检测框内目标的深度特征,对高得分检测框通过opencv中的calcHist函数提取目标的颜色直方图。
需要说明的是,深度特征可以指深度外观特征,深度特征指的是通过深度学习模型中的卷积神经网络提取的特征,卷积神经网络能够有效地捕获图像中的局部和全局特征,从而生成高级的表示形式,即深度特征。深度特征由神经网络的不同层次提取,通常越靠近网络底部的层次提取的特征更加底层、局部,而越靠近网络顶部的层次提取的特征更加高级、语义化。这种分层结构使得深度特征能够更好地表达输入数据的抽象信息,例如在图像识别任务中,底层特征可以表示边缘和纹理等低级视觉信息,而高层特征可以表示物体的形状、部件和类别等更高级的语义信息。因此,卷积神经网络提取的深度特征作为目标跟踪系统的输入,以更好地理解图像内容,从而提高跟踪的准确性和鲁棒性。
下面采用的颜色特征通常被认为是手工特征之一。手工特征是指通过对数据进行人工设计和选择的特征表示方法,而不是通过神经网络等机器学习模型自动学习得到的特征表示。在计算机视觉领域,颜色特征是指从图像中提取出的与颜色相关的信息,比如颜色直方图、颜色空间中的统计信息等,这些特征可以用来描述图像中的色彩分布和色彩特征,对于一些任务如目标检测、图像分类等有一定的作用。
在本实施例中,通过相机运动补偿并结合对改进卡尔曼滤波器的初始化、预测、更新和输出目标跟踪框这四个步骤来实现对目标跟踪框的预测,并提取目标跟踪框内目标的颜色直方图。
具体地:
(1)相机运动补偿在目标跟踪中的预测部分起到了重要作用。当相机运动较大或存在摄像头晃动时,目标在图像中的位置会发生变化,这可能会导致跟踪器的预测出现偏差,影响跟踪的准确性。因此,需要首先对相机运动进行补偿,以保证跟踪器对目标位置的预测更为准确,相当于进行了修正。
(2)初始化:为每个目标初始化一个状态向量,状态向量通常包括目标的位置和速度信息。
(3)预测:根据目标在t-1时刻的状态来预测其在t时刻的状态。
;
式中,x为t-1时刻的轨迹均值,为预测的t时刻的轨迹均值,F为状态转移矩阵;为状态转移矩阵的转置;P为在t-1时刻的轨迹协方差,/>为预测的t时刻的轨迹协方差,Q为噪声矩阵,代表整个系统的可靠程度,一般初始化为很小的值。
(4)更新:基于t时刻的测量值和根据跟踪轨迹预测目标在t时刻的预测值,得到在t时刻的精确状态。
;
;
式中,z为测量值均值,不包含速度变化值;H为测量矩阵,将映射到检测空间,y为测量值和预测值的均值误差;R为检测器的噪声矩阵,是一个4x4的对角矩阵,对角线上的值分别为中心点两个坐标以及宽高的噪声,以任意值初始化,一般设置宽高的噪声大于中心点的噪声,/>表示将/>映射到检测空间;K为卡尔曼增益,用于估计误差的重要程度;为更新后的轨迹均值,/>为更新后的轨迹协方差。
(5)使用更新后的精确状态估计来生成目标跟踪框。目标跟踪框通常是通过目标的状态估计(例如位置和大小)来定义的。在卡尔曼滤波器中,这些状态估计会被更新和预测,从而生成连续的跟踪框。
在本实施例中,计算高得分检测框和目标跟踪框的交并比(Intersection overUnion,IoU)获得IoU相似度矩阵;其中,IoU相似度矩阵是通过检测器检测到的高得分检测框和预测器预测到的目标跟踪框之间计算得到的,在每个检测到的高得分检测框与每个预测到的目标跟踪框之间计算IoU值,然后将这些IoU值填充到矩阵中,从而得到IoU相似度矩阵,IoU相似度矩阵可以帮助跟踪系统确定哪些目标跟踪框与检测到的高得分检测框最为相似,从而进行目标匹配和跟踪。
然后,利用高得分检测框的颜色直方图和目标跟踪框的颜色直方图,通过直方图相关性匹配来构建颜色特征相似度矩阵;继而,将颜色特征相似度矩阵与IoU相似度矩阵进行加权,构成IoU和颜色特征的融合模型。
IoU和颜色特征融合模型是为了充分利用目标的颜色特征,并结合IoU计算当前帧中检测到的目标框与上一帧中已知目标轨迹的目标框之间的重叠度和颜色直方图的相关性,从而判断它们是否可能是同一个目标。
IoU和颜色特征融合模型包括颜色提取模块和特征融合模块。
颜色提取模块的实现流程包括:
(1)通过检测器检测到视频帧中的目标形成检测的矩形框,预测器预测目标生成跟踪的矩形框,提取每个矩形框内目标的颜色特征。
(2)为了降低光线变换对目标颜色产生的影响,将提取到的颜色特征从RGB空间转换到HSV空间,并提取出最能体现目标颜色特征的H分量,将提取的H分量的像素值转换为直方图。
(3)计算高得分检测框内目标和目标跟踪框内目标H分量直方图的皮尔逊相关系数,评价两者的线性相关性,从而生成颜色特征相似度矩阵。
皮尔逊相关系数(Pearson correlation coefficient)衡量的是两个变量之间的线性相关性程度和方向,取值范围在-1到1之间,当相关系数接近1时,表示变量之间存在强正相关关系;当r接近-1时,表示变量之间存在强负相关关系;当r接近0时,表示变量之间不存在线性相关关系。
如图2所示为行人颜色在HSV空间所受光线影响的直方图,其中,图2中的(a)为强光下的H分量的直方图,图2中的(b)为强光下的S分量的直方图,图2中的(c)为强光下的V分量的直方图;如图3所示为行人颜色在RGB空间所受光线影响的直方图,其中,图3中的(a)为强光下的B分量的直方图,图3中的(b)为强光下的G分量的直方图,图3中的(c)为强光下的R分量的直方图;可以看出,H分量在不同光照情况下相关性最高。因此选用HSV空间中的H分量可以更精确的表示跟踪目标的颜色特征。
特征融合模块的实现流程包括:将IoU相似度矩阵和颜色特征相似度矩阵通过加权相加,可以根据具体的场景和需求来调节权重,使其适应更多的跟踪场景。
具体地:
计算余弦距离和代价矩阵,如式(1)所示,表示低余弦相似度或IoU得分差较大的候选框会被拒绝掉,而只有高余弦相似度者IoU得分较相近的候选框才被接受。
;
;(1)
其中,为最优余弦距离;/>为第/>个目标跟踪框和第j个高得分检测框间深度特征的余弦距离;/>为深度特征阈值(比如取0.25);/>为IoU阈值(比如取0.5);为第/>个目标跟踪框和第j个高得分检测框间IoU距离;/>是通过对/>和/>之间取最小值而形成的代价矩阵C的第/>行第j列的元素,即代价矩阵C中的元素值取深度特征余弦距离和交并比距离最小值。
将IoU距离与颜色特征距离进行融合:
;(2)
其中,为IoU与颜色特征融合后的距离;/>为颜色特征距离;A、B为所设权重,可以根据具体的应用场景进行调整。
将式(2)代入式(1),形成式(3):
;
;(3)
其中,是更新的代价矩阵/>的(i,j)元素,/>是目标跟踪框和高得分检测框间的余弦距离,/>为IoU融合颜色特征后的阈值,/>为更新的余弦距离。
在本实施例中,设计一个两阶段的多目标跟踪关联框架,下面结合图4阐述具体内容。
在第一阶段的关联中,将高得分检测框和目标跟踪框,基于目标的深度特征、颜色特征和交并比的结合来计算相似度,判断关联后相似度值是否大于所设阈值,其中,即更新的代价矩阵中的每个元素就是关联后的相似度值。
若是,则成功匹配到轨迹,对匹配成功的轨迹进行状态更新,其中状态信息包括位置状态、速度状态以及加速度状态等,这些状态信息最终是以协方差值的形式存储在协方差矩阵之中,更新过程也涉及到与通过观测信息(深度特征信息、颜色信息以及目标框之间的交并比)得出的实际目标状态的关联;其流程包括:
首先,位置状态预测:基于目标在前一帧的状态信息和运动模型预测目标在当前帧的位置状态;
然后,测量更新:利用目标在当前帧中的观测信息得出的实际目标状态来与预测的目标状态进行比较,从而更新目标的状态估计;
之后,关联融合:将目标在两帧中的关联信息结合起来,以确定目标在当前帧的最优位置和状态信息;这涉及到将跟踪过程中的历史信息与当前的观测信息相结合,从而减小跟踪过程中的误差和不确定性;
最后,协方差更新:在更新目标状态的同时更新目标状态的协方差矩阵,以反映目标状态估计的不确定性,通常是通过卡尔曼滤波器中的卡尔曼增益实现的,最终更新后的目标信息进入下一帧的跟踪。
对未匹配的轨迹和低得分检测框,进行第二次关联,在第二阶段关联中,根据颜色特征和交并比进行二次匹配,判断关联后的相似度值是否大于所设阈值;若是,则成功匹配到轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪;而未匹配成功的轨迹在设定帧数内均未获得匹配,那么将该轨迹视为丢失轨迹,最终输出更新的轨迹和第t帧中的目标轨迹。
本实施例实现的是复杂场景下多目标跟踪,“多目标”体现在需要同时跟踪且识别多个目标,而不仅仅是单个目标,这意味着必须能够处理多个移动目标的同时进行目标的检测、识别、跟踪和预测。对于多目标跟踪存在以下几点:
1、目标之间的关联和交互:本实施例方法需要考虑目标之间的关系,如相互靠近、分离、遮挡等情况,这可能涉及到目标关联和轨迹预测等技术,以确保跟踪结果的准确性和连贯性。
2、动态目标数量的处理:本实施例方法需要能够处理目标数量的动态变化,即使在目标进入或离开场景时也能够及时调整跟踪策略,并保持对现有目标的准确跟踪。本实施例方法中的轨迹匹配后更新部分就是解决的这个问题。摄像头同时跟踪到多个目标,有的目标在跟踪过程中丢失,那么会把这个目标抹去,长时间出现的目标则会一直更新其位置,跟踪错误的目标系统会重新分配ID。这些是对多个目标同时处理的,不是仅对一个目标进行的。
3、目标属性的多样性:对于多目标跟踪中目标可能具有不同的属性,例如大小、颜色、速度、方向等,本实施例方法能够有效区分这些属性,并根据它们来区分和跟踪不同的目标,从而提高跟踪的准确性和鲁棒性。
4、多目标跟踪大多数情况下会出现大量的漏检,误检以及目标交互时出现ID切换的问题,相当于跟踪到了多个目标后当其中两个或多个目标重叠后出现识别到的ID切换的问题,因此本实施例方法重在降低跟踪中漏检误检的问题。
实施例2
本实施例提供一种复杂场景下多目标跟踪系统,包括:
目标检测模块,被配置为对待处理的视频帧进行目标检测,根据设定的分数阈值,将检测到的矩形框分为高得分检测框和低得分检测框;
特征提取模块,被配置为提取高得分检测框内目标的深度特征和颜色直方图;
颜色相似性对比模块,被配置为预测目标跟踪的前一帧的目标跟踪框,提取目标跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;
交并比相似性对比模块,被配置为根据高得分检测框和目标跟踪框的交并比构建交并比相似度矩阵;
跟踪模块,被配置为根据目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现完成实施例1中所述的方法。
本发明还提供有形地存储在非暂时性计算机可读存储介质上的至少一个计算机程序产品。该计算机程序产品包括计算机可执行指令,例如包括在程序模块中的指令,其在目标的真实或虚拟处理器上的设备中执行,以执行如上所述的过程/方法。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。在各种实施例中,可以根据需要在程序模块之间组合或分割程序模块的功能。用于程序模块的机器可执行指令可以在本地或分布式设备内执行。在分布式设备中,程序模块可以位于本地和远程存储介质中。
用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
在本发明的上下文中,计算机程序代码或者相关数据可以由任意适当载体承载,以使得设备、装置或者处理器能够执行上文描述的各种处理和操作。载体的示例包括信号、计算机可读介质、等等。信号的示例可以包括电、光、无线电、声音或其它形式的传播信号,诸如载波、红外信号等。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种复杂场景下多目标跟踪方法,其特征在于,包括:
对待处理的视频帧进行目标检测,根据设定的分数阈值,将检测到的矩形框分为高得分检测框和低得分检测框;
提取高得分检测框内目标的深度特征和颜色直方图;
预测目标跟踪的前一帧的目标跟踪框,提取目标跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;
根据高得分检测框和目标跟踪框的交并比构建交并比相似度矩阵;
根据目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
2.如权利要求1所述的一种复杂场景下多目标跟踪方法,其特征在于,构建颜色特征相似度矩阵的过程包括:提取高得分检测框内目标的颜色特征和目标跟踪框内目标的颜色特征,将提取到的颜色特征从RGB空间转换到HSV空间,并提取H分量,将H分量的像素值转换为H分量直方图;计算高得分检测框内目标和目标跟踪框内目标H分量直方图的相关性,从而生成颜色特征相似度矩阵。
3.如权利要求1所述的一种复杂场景下多目标跟踪方法,其特征在于,在第一阶段的关联中,将高得分检测框和目标跟踪框,基于目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵的结合计算相似度,由此判断关联后的相似度值是否大于所设阈值,若是,则成功匹配到轨迹。
4.如权利要求3所述的一种复杂场景下多目标跟踪方法,其特征在于,相似度值的计算包括;
;
;
;
其中,为更新的第/>个目标跟踪框和第j个高得分检测框间深度特征的余弦距离;是目标跟踪框和高得分检测框间的余弦距离;/>为深度特征阈值;/>为交并比与颜色特征融合后的距离;/>为交并比融合颜色特征后的阈值;/>为第/>个目标跟踪框和第j个高得分检测框间的交并比距离;/>为颜色特征距离;A和B分别为和/>的权重;/>是更新的代价矩阵/>的第/>行第j列的元素,即相似度值。
5.如权利要求3所述的一种复杂场景下多目标跟踪方法,其特征在于,对未匹配的轨迹和低得分检测框,进行第二次关联,在第二阶段关联中,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,判断关联后的相似度值是否大于所设阈值;若是,则成功匹配到轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
6.如权利要求1所述的一种复杂场景下多目标跟踪方法,其特征在于,对目标跟踪框的预测包括:
初始化每个目标的状态向量,状态向量包括目标的位置和速度;
根据目标在t-1时刻的状态预测t时刻的状态;
;
式中,x为t-1时刻的轨迹均值,为预测的t时刻的轨迹均值,F为状态转移矩阵;/>为状态转移矩阵的转置;P为在t-1时刻的轨迹协方差,/>为预测的t时刻的轨迹协方差,Q为噪声矩阵;
基于t时刻的测量值和t时刻的预测值,得到在t时刻的精确状态;
;
式中,K为卡尔曼增益;H为测量矩阵;为测量矩阵的转置;R为检测器的噪声矩阵;/>为更新后的轨迹均值;z为测量值均值;/>为更新后的轨迹协方差;
根据更新后得到的精确状态生成目标跟踪框。
7.如权利要求1所述的一种复杂场景下多目标跟踪方法,其特征在于,对匹配成功的轨迹进行状态更新,其中状态包括位置状态、速度状态和加速度状态,具体包括:
基于目标在前一帧的状态预测当前帧的位置状态;
利用目标在当前帧中根据观测信息得到的目标实际状态与预测的位置状态进行比较,从而更新目标状态;观测信息包括深度特征、颜色特征和交并比;
将目标在两帧中的关联信息结合起来,以确定目标在当前帧的最优位置和状态信息;
在更新目标状态的同时更新目标状态的协方差矩阵,最终更新后的目标状态信息进入下一帧的跟踪。
8.一种复杂场景下多目标跟踪系统,其特征在于,包括:
目标检测模块,被配置为对待处理的视频帧进行目标检测,根据设定的分数阈值,将检测到的矩形框分为高得分检测框和低得分检测框;
特征提取模块,被配置为提取高得分检测框内目标的深度特征和颜色直方图;
颜色相似性对比模块,被配置为预测目标跟踪的前一帧的目标跟踪框,提取目标跟踪框内目标的颜色直方图,根据两个颜色直方图构建颜色特征相似度矩阵;
交并比相似性对比模块,被配置为根据高得分检测框和目标跟踪框的交并比构建交并比相似度矩阵;
跟踪模块,被配置为根据目标的深度特征、颜色特征相似度矩阵和交并比相似度矩阵进行前后帧轨迹的匹配,对未匹配的轨迹和低得分检测框,根据颜色特征相似度矩阵和交并比相似度矩阵进行二次匹配,在设定帧数内仍未匹配成功的轨迹视为丢失轨迹,对匹配成功的轨迹进行更新并进入下一帧的跟踪。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410557540.3A CN118135248A (zh) | 2024-05-08 | 2024-05-08 | 复杂场景下多目标跟踪方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410557540.3A CN118135248A (zh) | 2024-05-08 | 2024-05-08 | 复杂场景下多目标跟踪方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118135248A true CN118135248A (zh) | 2024-06-04 |
Family
ID=91240601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410557540.3A Pending CN118135248A (zh) | 2024-05-08 | 2024-05-08 | 复杂场景下多目标跟踪方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118135248A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091115A (zh) * | 2019-12-31 | 2020-05-01 | 深圳中兴网信科技有限公司 | 车辆监控方法、装置、计算机设备及存储介质 |
WO2021012484A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 基于深度学习的目标跟踪方法、装置及计算机可读存储介质 |
CN116453012A (zh) * | 2023-03-21 | 2023-07-18 | 中交华控(天津)建筑集团有限公司 | 一种面向高速公路交通监控场景的车辆检测与跟踪方法 |
-
2024
- 2024-05-08 CN CN202410557540.3A patent/CN118135248A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021012484A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 基于深度学习的目标跟踪方法、装置及计算机可读存储介质 |
CN111091115A (zh) * | 2019-12-31 | 2020-05-01 | 深圳中兴网信科技有限公司 | 车辆监控方法、装置、计算机设备及存储介质 |
CN116453012A (zh) * | 2023-03-21 | 2023-07-18 | 中交华控(天津)建筑集团有限公司 | 一种面向高速公路交通监控场景的车辆检测与跟踪方法 |
Non-Patent Citations (3)
Title |
---|
HONGBIN LIU等: "Multitarget tracking using multifeature model with acceleration feature", 《OPTICAL ENGINEERING》, vol. 57, no. 07, 12 July 2018 (2018-07-12), pages 1 - 11 * |
张彩丽等: "基于Mask R-CNN的多目标跟踪算法", 《吉林大学学报(理学版)》, vol. 59, no. 03, 26 May 2021 (2021-05-26), pages 609 - 618 * |
曹建荣等: "基于深度学习和颜色特征的行人跟踪算法", 《计算机与数字工程》, vol. 52, no. 01, 20 January 2024 (2024-01-20), pages 251 - 258 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nabati et al. | Rrpn: Radar region proposal network for object detection in autonomous vehicles | |
CN110349187B (zh) | 基于tsk模糊分类器的目标跟踪方法、装置及存储介质 | |
US8379928B2 (en) | Obstacle detection procedure for motor vehicle | |
CN107452015B (zh) | 一种具有重检测机制的目标跟踪系统 | |
CN111882586B (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN108765458A (zh) | 基于相关滤波的高海况无人艇海面目标尺度自适应跟踪方法 | |
CN114049382B (zh) | 一种智能网联环境下目标融合跟踪方法、系统和介质 | |
WO2020250020A9 (en) | Lidar and radar based tracking and mapping system and method thereof | |
CN110363165B (zh) | 基于tsk模糊系统的多目标跟踪方法、装置及存储介质 | |
CN115063454B (zh) | 多目标跟踪匹配方法、装置、终端及存储介质 | |
Ji et al. | RGB-D SLAM using vanishing point and door plate information in corridor environment | |
CN110349188B (zh) | 基于tsk模糊模型的多目标跟踪方法、装置及存储介质 | |
CN111080674A (zh) | 一种基于混合高斯模型的多目标isar关键点提取方法 | |
CN111931571B (zh) | 基于在线增强检测的视频文字目标追踪方法与电子设备 | |
CN115994930A (zh) | 基于人工智能的摄像机下运动目标的检测定位方法及系统 | |
Schöller et al. | Vision-based object tracking in marine environments using features from neural network detections | |
CN117036397A (zh) | 一种基于融合信息关联和相机运动补偿的多目标跟踪方法 | |
CN115471525A (zh) | 基于融合孪生网络与卡尔曼滤波的目标跟踪方法及系统 | |
Sun et al. | Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection | |
CN115100565B (zh) | 一种基于空间相关性与光流配准的多目标跟踪方法 | |
CN118135248A (zh) | 复杂场景下多目标跟踪方法、系统、设备及介质 | |
Zhang et al. | Vehicle detection and tracking in remote sensing satellite vidio based on dynamic association | |
Shao et al. | A robust method for multi object tracking in autonomous ship navigation systems | |
CN113052871A (zh) | 一种基于智能选择策略的目标检测与自动跟踪算法 | |
Zhu et al. | Robust target detection of intelligent integrated optical camera and mmWave radar system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |