CN113012193B - 一种基于深度学习的多行人跟踪方法 - Google Patents
一种基于深度学习的多行人跟踪方法 Download PDFInfo
- Publication number
- CN113012193B CN113012193B CN201911323035.8A CN201911323035A CN113012193B CN 113012193 B CN113012193 B CN 113012193B CN 201911323035 A CN201911323035 A CN 201911323035A CN 113012193 B CN113012193 B CN 113012193B
- Authority
- CN
- China
- Prior art keywords
- track
- measurement matrix
- association
- target
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度学习的在线多行人跟踪方法,主要涉及利用深度学习的方式对复杂场景中的多行人进行跟踪。该方法包括:提出一个多层特征融合网络提取目标的外观特征。利用高精度的目标检测器检测视频中目标的位置,并提取目标的外观特征。针对不同状态轨迹,考虑外观特征和运动特征的置信度,利用不同方式计算差异度量矩阵。根据不同状态轨迹的置信度,结合度量矩阵利用匈牙利算法实现检测和轨迹的分层数据关联。最后,根据关联结果更新轨迹信息。本发明充分考虑了目标运动特征和外观特征的置信度,合理利用两种特征计算差异度量矩阵。同时,采用分层关联的数据关联方式更好地处理了行人误检、遮挡等问题,有效减少了轨迹ID变换的次数。
Description
技术领域
本发明涉及深度学习领域中的多目标跟踪问题,尤其是涉及一种基于深度学习的多行人跟踪方法。
背景技术
基于视频的跟踪算法一直以来都是计算机视觉研究领域的重要分支,而不断兴起的新技术如相关性滤波,卷积神经网络等也极快融入该领域并显著提高了领域的平均水平。随着深度学习技术的大量涌现,计算机视觉领域再次取得了飞速的发展,基于深度学习的跟踪算法在不断进步的同时更是有着十分广泛的应用场景。例如:智能视频监测控制、异常行为识别分析、人机交互、医疗图像分析、公共场所行人流量分析等。
随着检测器精度的不断提高,基于视频的多目标跟踪大多依赖于目标检测,所以基于检测的跟踪框架成为解决多目标跟踪问题的主流框架。基于检测的目标跟踪是指首先通过检测器检测当前帧目标,再由跟踪器将检测结果和已有轨迹一帧接一帧地关联起来,最终得到目标的完整轨迹。本专利利用了主流的基于检测的跟踪方式,并提出了更具可靠性的数据关联方式。
传统的跟踪方法包括稀疏表示方法、相关滤波等,这些方法采用更新的方式,在跟踪过程中不断地更新模型,以适应不断变化的环境和目标姿态。传统方法在目标较多的复杂场景下很容易产生轨迹漂移问题,对遮挡问题的处理能力也有限。而基于深度学习的方法,利用卷积神经网络提取丰富的目标特征,再结合检测的位置信息减少了轨迹漂移现象,有效处理了遮挡问题,很大程度上提高了跟踪准确度。
发明内容
本发明的目的是提供一种基于深度学习的多行人跟踪方法,将深度学习与多行人跟踪任务结合。首先,利用多层融合特征网络提取鉴别度高的外观特征,再通过计算检测结果和轨迹的外观差异矩阵和运动差异矩阵得到数据关联的依据,然后基于轨迹的置信度采用分层数据关联的方式实现数据关联。因为考虑了不同特征的置信度和不同状态轨迹的置信度,所以分层数据关联提高了关联的可靠性,进而减少了轨迹ID变换的次数。
为了方便说明,首先引入如下概念:
监督学习(supervised learning):监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。
度量学习(metric learning):也称作相似度学习。本质是学习一个嵌入空间(embedding space),也可以理解为映射空间,使得同类的物体距离更近,不同类物体距离更远。
本发明具体采用如下技术方案:
提出了基于深度学习的多行人跟踪方法,该方法的主要特征在于:
a.轨迹外观特征的提取利用了多层融合卷积神经网络。
b.针对不同状态的轨迹,考虑特征的置信度,采用不同的方式计算差异度量矩阵。
c.利用基于差异度量矩阵的分层关联方式实现数据关联。
该方法主要包括以下步骤:
(1)以监督学习方式训练跟踪器的外观特征网络。
(2)利用基于深度学习的目标检测器提取多目标的外观特征和运动特征,实现多目标的检测。
(3)计算轨迹和检测的运动特征差异度量矩阵和外观特征差异度量矩阵,并根据轨迹的状态以及特征的置信度,计算整体差异度量矩阵。
(4)依据轨迹的置信度,基于匈牙利算法,采用分层关联的方式实现检测和轨迹的数据关联。
(5)根据数据关联的结果,更新轨迹状态。
(6)重复步骤(2)—(5),实现逐帧跟踪。
本发明的有益效果是:
(1)充分发扬深度学习中自我学习的优势,让机器自动学习图像特征,有效避免人工选择特征的偏差和低效问题,具有更强的自适应能力。
(2)通过融合不同网络层特征,有效利用了不同层次特征之间的互补性,提高了网络的鲁棒性。
(3)充分考虑了运动特征和外观特征对跟踪准确度的影响,有效规避了遮挡、外观变化等对跟踪的影响,有效减少了轨迹ID变换的次数。
(4)利用基于度量矩阵的全局-局部的数据关联方式,可以更好地处理了行人误检、遮挡、新目标出现以及目标消失等问题。
(5)将深度学习与目标跟踪问题相结合,解决传统方法准确率不高的问题,提高研究价值。
附图说明
图1为基于深度学习的多行人跟踪的框架图。
图2为多层特征融合网络。
具体实施方法
下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
图1中,基于深度学习的多行人跟踪,具体包括以下步骤:
(1)以监督学习方式训练跟踪器的融合外观特征网络:针对不同分支利用cosine-softmax损失函数单独训练,再通过串联融合各分支特征。网络整体的损失函数如式1所示,通过将融合特征的损失函数lfuse以及三个分支提取特征的损失函数lbranch_i求和得到网络整体的损失函数lall。
(2)利用基于深度学习的目标检测器提取多目标的外观特征和运动特征,实现多目标的检测。
(3)计算差异度量矩阵:对于初始态的轨迹,计算检测和预测边界框的IoU值作为差异度量矩阵;对于活跃态轨迹,如式2,先计算检测边界框和预测边界框的IoU值得到运动差异度量矩阵,仅利用外观差异度量矩阵调整。其中,tk表示轨迹k,di表示检测目标i,diff(tk,di)表示轨迹k和检测目标i之间的差异度量值,IoU(tk,di)表示卡尔曼滤波器预测的轨迹k的边界框和检测目标i边界框的IoU值,diffa(tk,di)表示轨迹k和检测目标i之间的外观差异度量元素,利用余弦距离计算得到,τa表示外观阈值,如果外观差异大于阈值则表示不是同一个目标,无法关联。
对于初次关联稳定态轨迹,考虑到相机移动会对运动特征造成影响,运动特征的置信度降低,所以分相机移动和静止两种情况,采用不同的方式计算。其中,在相机移动的情况下,如式3,主要考虑外观特征,仅利用运动特征进行调整。其中,tk表示轨迹k,di表示检测目标i,diff(tk,di)表示轨迹k和检测目标i之间的差异度量值,diffa(tk,di)表示轨迹k和检测目标i外观特征差异度量值,利用余弦距离计算,diffm(tk,di)表示轨迹k和检测目标i之间的运动差异度量值,利用马氏距离计算,τm表示运动阈值,如果运动差异大于阈值则表示不是同一个目标,无法关联。
在相机静止的情况下,如式4,同样针对两种特征计算差异度量矩阵,再通过超参数λ融合外观差异度量矩阵diffappearance(tk,di)和运动差异度量矩阵diffmotion(tk,di)得到最终的差异度量矩阵diff(tk,di)。
diff(tk,di)=λdiffmotion(tk,di)+(1-λ)diffappearance(tk,di) (4)
对于二次关联稳定态轨迹,计算方式与初始态轨迹相同。
(4)基于差异度量矩阵利用匈牙利算法按照置信度轨迹置信度排序,分别对初次关联稳定态、二次关联稳定态、活跃态和初始态的轨迹分层数据关联,根据关联结果更新轨迹的状态信息、外观特征信息以及位置信息。
(5)基于数据关联的结果,决定删除、初始化或者继续跟踪轨迹。
(6)重复步骤(2)—(5),实现逐帧跟踪。
Claims (4)
1.一种基于深度学习的多行人跟踪方法,其特征在于:
a.提出多层融合卷积神经网络提取目标的外观特征;
b.针对不同状态的轨迹,即初始态、活跃态、初次关联稳定态和二次关联稳定态,考虑运动特征和距离特征的置信度,计算预测和检测边框的IoU、余弦距离、马氏距离,并采用不同的差异度量方式构造差异度量矩阵;
c.利用基于度量矩阵的分层关联方式实现数据关联;
该方法主要包括以下步骤:
(1)以监督学习方式训练跟踪器的外观特征网络;
(2)利用基于深度学习的目标检测器提取多目标的外观特征和运动特征,实现多目标的检测;
(3)计算轨迹和检测的运动特征差异度量矩阵和外观特征差异度量矩阵,并根据轨迹的状态以及特征的置信度,计算整体差异度量矩阵;
(4)依据轨迹的置信度,基于匈牙利算法,采用分层关联的方式实现检测和轨迹的数据关联;
(5)根据数据关联的结果,更新轨迹状态;
(6)重复步骤(2)—(5),实现逐帧跟踪。
2.如权利要求1所述的基于深度学习的多行人跟踪方法,其特征在于在步骤(1)中,采用多层融合的特征提取网络提取目标的特征,并针对不同分支利用cosine-softmax损失函数单独训练,有效利用不同层次特征之间的互补性,提高了网络的鲁棒性。
3.如权利要求1所述的基于深度学习的多行人跟踪方法,其特征在于在步骤(3)中,针对初始态轨迹,通过计算预测和检测边界框的IoU值作为差异度量矩阵;针对活跃态轨迹,首先计算预测和检测边界框的IoU值作为差异度量矩阵,再计算轨迹和检测外观特征的余弦距离,并调整度量矩阵;针对初次关联稳定态轨迹,首先计算轨迹和检测外观特征的余弦距离作为差异度量矩阵,再计算预测和检测边界框的马氏距离,并调整度量矩阵;针对二次关联稳定态轨迹,计算方式与初始态轨迹相同,以上对差异度量矩阵的计算方式,考虑了不同状态轨迹运动特征置信度和外观特征置信度不同的情况,提高了数据关联的可靠性。
4.如权利要求1所述的基于深度学习的多行人跟踪方法,其特征在于在步骤(4)中,初次关联稳定态、二次关联稳定态、活跃态、初始态轨迹的置信度由于成功关联次数的下降,置信度也下降,所以采用分层关联的方式,对不同状态的轨迹依照置信度排序分层关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911323035.8A CN113012193B (zh) | 2019-12-20 | 2019-12-20 | 一种基于深度学习的多行人跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911323035.8A CN113012193B (zh) | 2019-12-20 | 2019-12-20 | 一种基于深度学习的多行人跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113012193A CN113012193A (zh) | 2021-06-22 |
CN113012193B true CN113012193B (zh) | 2022-07-26 |
Family
ID=76382335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911323035.8A Active CN113012193B (zh) | 2019-12-20 | 2019-12-20 | 一种基于深度学习的多行人跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113012193B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119671B (zh) * | 2021-12-01 | 2022-09-09 | 清华大学 | 一种基于遮挡补偿的立体空间信息融合的多目标跟踪方法 |
CN115100618B (zh) * | 2022-06-27 | 2024-04-12 | 同济大学 | 一种多源异构感知信息多层级融合表征与目标识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875588A (zh) * | 2018-05-25 | 2018-11-23 | 武汉大学 | 基于深度学习的跨摄像头行人检测跟踪方法 |
CN109919974A (zh) * | 2019-02-21 | 2019-06-21 | 上海理工大学 | 基于r-fcn框架多候选关联的在线多目标跟踪方法 |
-
2019
- 2019-12-20 CN CN201911323035.8A patent/CN113012193B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875588A (zh) * | 2018-05-25 | 2018-11-23 | 武汉大学 | 基于深度学习的跨摄像头行人检测跟踪方法 |
CN109919974A (zh) * | 2019-02-21 | 2019-06-21 | 上海理工大学 | 基于r-fcn框架多候选关联的在线多目标跟踪方法 |
Non-Patent Citations (3)
Title |
---|
Guang Han ; Yan Gao ; Ning Sun.Multi-Target Tracking Based on High-Order Appearance Feature Fusion.《IEEE Access》.2019,173394-173406. * |
基于视频的车辆运动目标检测与跟踪技术研究;张震;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20190815;C034-236 * |
结合深度学习的多目标跟踪算法;王春艳,刘正熙;《现代计算机》;20190225;第55-59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113012193A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084831B (zh) | 基于YOLOv3多伯努利视频多目标检测跟踪方法 | |
Brulin et al. | Posture recognition based on fuzzy logic for home monitoring of the elderly | |
Chen et al. | An equalized global graph model-based approach for multicamera object tracking | |
CN110288627B (zh) | 一种基于深度学习和数据关联的在线多目标跟踪方法 | |
CN107516321B (zh) | 一种视频多目标跟踪方法及装置 | |
CN107705324A (zh) | 一种基于机器学习的视频目标检测方法 | |
CN107145862B (zh) | 一种基于霍夫森林的多特征匹配多目标跟踪方法 | |
CN107818571A (zh) | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 | |
CN110660082A (zh) | 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN103971386A (zh) | 一种动态背景场景下的前景检测方法 | |
CN111767847A (zh) | 一种集成目标检测和关联的行人多目标跟踪方法 | |
CN113012193B (zh) | 一种基于深度学习的多行人跟踪方法 | |
CN111382686A (zh) | 一种基于半监督生成对抗网络的车道线检测方法 | |
CN112200021A (zh) | 基于有限范围场景内的目标人群跟踪监控方法 | |
Denman et al. | Multi-spectral fusion for surveillance systems | |
Cao et al. | Correlation-based tracking of multiple targets with hierarchical layered structure | |
CN106709938A (zh) | 基于改进tld的多目标追踪方法 | |
CN111950498A (zh) | 一种基于端到端实例分割的车道线检测方法及装置 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN117853759B (zh) | 一种多目标跟踪方法、系统、设备和存储介质 | |
CN110349184B (zh) | 基于迭代滤波和观测判别的多行人跟踪方法 | |
Gong et al. | Multi-target trajectory tracking in multi-frame video images of basketball sports based on deep learning | |
KR101675692B1 (ko) | 구조 학습 기반의 군중 행동 인식 방법 및 장치 | |
KR20230060214A (ko) | 인공지능 기반 영상 객체 추적 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |