CN114913206A - 一种基于多模态融合的多目标跟踪的方法和系统 - Google Patents
一种基于多模态融合的多目标跟踪的方法和系统 Download PDFInfo
- Publication number
- CN114913206A CN114913206A CN202210529729.2A CN202210529729A CN114913206A CN 114913206 A CN114913206 A CN 114913206A CN 202210529729 A CN202210529729 A CN 202210529729A CN 114913206 A CN114913206 A CN 114913206A
- Authority
- CN
- China
- Prior art keywords
- target
- detection
- tracking
- frame
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态融合的多目标跟踪的方法和系统,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块;其中,所述目标检测模块采用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框,所述特征提取模块用于对检测框进行处理,提取目标的2D、3D外观特征,本发明通过多个独立的传感器特征提取来保持可靠性,利用多模态加权融合方式,得到更全面的目标特征,提高精度,可以有效避免单一传感器失效问题,使用图神经网络和图卷积优化目标关联,提升准确度,滤波预测更新,弥补目标的丢失问题,对多个目标进行实时跟踪,生成对应ID,关联前后帧的同一目标,实现高精度定位的效果。
Description
技术领域
本发明涉及多目标跟踪技术领域,具体是一种基于多模态融合的多目标跟踪的方法和系统。
背景技术
目标跟踪是计算机视觉的重要组成部分,与目标检测的输出不同,除了目标位置信息的检测框,还新增一个关联前后帧同一目标的ID。根据跟踪目标的数量分为单目标跟踪和多目标跟踪,单目标跟踪的是在视频的初始帧画面上框出单个目标,预测后续帧中该目标的大小与位置,而多目标跟踪是在事先不知道目标数量的情况下,对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。被广泛应用于自动驾驶、智能监控、动作与行为分析等应用领域。
多目标跟踪一般分为离线多目标跟踪、在线多目标跟踪和近似在线多目标跟踪。其中离线多目标跟踪,使用当前帧前后的若干帧作为跟踪的判断依据。在线多目标跟踪不需要使用到当前帧之后的信息,只使用当前帧以及当前帧以前的帧的信息作为跟踪依据。而最近,又有一种新的跟踪方式,权衡前两种模式,在线模式的基础上,还利用了当前帧之后一小段时间的信息作为跟踪依据,被称作近似在线多目标跟踪。
当前被广泛研究的策略是基于检测的跟踪。先得到目标的定位框,然后根据定位框进行下一步的跟踪。其目地是将前一帧图像中的物体的定位框和后一帧图像中物体的定位框一一对应起来,这种对应关系拓展到整个视频流中便形成了视频中多个物体的跟踪轨迹,也就是多目标跟踪的跟踪结果。而要将前后帧的定位框进行对应的通常做法便是,对前后两帧的定位框所框定的内容提取特征,然后根据前后两帧的特征对比结果进行分配,最后得到最优的分配结果。
中国专利公开了一种基于多传感器数据融合的多目标跟踪方法(申请号202011006510.1),该专利技术首先,通过多个传感器分别采集各个目标的位置信息,得到每个传感器对各个目标的观测数据。然后对各个目标的观测数据进行航迹关联,将各个观测数据进行分类,得到各个传感器对各个目标的航迹关联数据。再对目标的航迹关联数据进行滤波处理,得到每个传感器对各个目标的滤波轨迹,并获取各个目标的位置估计数据。接着计算传感器对目标的即时偏差,并计算传感器对目标的即时最优动态权值。最后将各个传感器对相同目标的位置估计数据和即时最优动态权值进行融合,得到同一目标在k时刻经过融合后的位置信息,完成目标的位置估计,实现多目标跟踪,但是,在特征提取及融合部分,该专利采用最近邻数据关联算法和滤波处理,对相同目标的位置估计数据和即时最优动态权值进行融合,鲁棒性较差;
中国专利还公开了一种基于图神经网络的多目标跟踪方法和系统(申请号CN201911312114.9),该专利技术首先预处理训练集,得到节点集合、边集合和全局变量,然后放入图神经网络,得到外貌相似度矩阵和运动相似度矩阵。再使用优化算法,根据损失函数、所述外貌相似度矩阵和运动相似度矩阵训练所述图神经网络,确定所述图神经网络的设置参数,再训练,得到训练好的图神经网络。接着使用训练好的图神经网络处理数据集,得到相似度矩阵。最后使用匹配算法对所述相似度矩阵进行计算,得到数据集中目标的匹配结果,但是,在相似度计算部分,该专利采用的是两个图神经网络,分别计算外貌相似度矩阵和运动相似度矩阵,再加权合并得到一个相似度矩阵。使用的网络结构更加复杂,其运行速度就会降低;
现有论文Robust Multi-Modality Multi-Object Tracking,设计了一个通用的传感器不可知的多模态MOT框架(mmMOT),其中每个模态(即传感器)能够独立执行其职责以保持可靠性。首先,在多传感器信息提取和融合的过程中,使用稀松耦合方案,保证系统的可靠性。具体流程:从相机的图像信息提取2D外观特征,从雷达的点云信息提取3D外观特征,然后在融合模块,可以选择不同的融合方式融合这些特征,再传递给邻接估计器,该估计器能够根据每个模态进行推理,接着放入线性规划模块,得到两帧目标的匹配关系及对应ID。其次,为了网络能够从不同模态进行推理,采用端对端的训练,这使得多模态的特征提取器和跨模态邻接估计器可以同时优化。最后首次将点云深度表示引入MOT的数据关联过程。但是,改论文具有以下缺点:
1、目标特征不够完整,对跟踪的精确度和准确度会产生一定的影响;
2、输入和输出,为相邻两帧的目标跟踪,一旦出现目标缺失,再出现,就会给同一个目标生成多个不同ID;
3、当目标缺失时,无法弥补目标信息,为后续提供有利信息。
因此,本领域技术人员提供了一种基于多模态融合的多目标跟踪的方法和系统,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种基于多模态融合的多目标跟踪的方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于多模态融合的多目标跟踪的系统,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块;其中,
所述目标检测模块采用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框;
所述特征提取模块用于对检测框进行处理,提取目标的2D、3D外观特征;
所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合,得到一个节点信息;
所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵,再通过图神经网络,利用领域更新和图神经卷积,优化亲和矩阵;
所述数据关联模块采用线性规划处理亲和矩阵,并采用数据管理系统,赋予目标对应ID。
作为本发明进一步的方案:所述目标检测模块包括相机传感器及雷达传感器。
作为本发明再进一步的方案:所述特征提取模块分别利用VGG-16和PointNet对检测框进行处理。
作为本发明再进一步的方案:所述节点信息包括2D外观、2D运动、3D外观和3D运动特征。
本发明还涉及一种基于多模态融合的多目标跟踪的方法,包括如下步骤:
步骤1、使用单目相机和激光雷达两种传感器,收集图像和点云信息;
步骤2、在目标检测模块,使用yolov4算法从图像中获取目标的2D检测框,使用PointPillars算法从点云中获取目标的3D检测框;
步骤3、在2D框和3D框的关联部分,把3D检测框投影到2D图像上,然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU,利用贪心匹配,得到同一个目标的二维框和三维框;
步骤4、在特征提取模块,将二维检测框内信息裁剪并调整为224×224的图片,然后通过VGG-16网络获取目标2D外观特征,将三维检测框内信息通过PointNet网络获取目标3D外观特征;
步骤5、根据2D和3D关联的结果,将同一个目标的位置信息合并,得到检测值信息是一个11维向量(x,y,z,θ,l,w,h,x1,y1,x2,y2),目标轨迹状态为18维的向量T=(x,y,z,θ,l,w,h,x1,y1,x2,y2,vx,vy,vz,vx1,vy1,vx2,vx2);
其中,vx代表x方向上的位移变化量,大小等于前一帧该方向的位移量,利用微分原理,代替当前帧的位移量;
最后,当前帧的预测状态为:
步骤7、再放入MLP中,得到(1×512×(M+N))维张量,经过三次堆叠,生成(3×512×(M+N))维张量;
其中,MLP代表神经网络;
步骤10、融合后的信息Fi fuse如下所示:
步骤11、将运动特征与外观特征拼接,得到最终融合的总特征n,大小为(3×1024×(M+N))维张量,即节点特征;
步骤12、在相似度计算模块,先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵Et,即边缘特征,
步骤13、先根据设定一个阈值,当两帧间一组对象的检测中心距离小于阈值,才于二者间连边,再对连成边的节点进行领域更新,
其中,N(i)表示一组与t时刻第i个节点的邻域节点,MLP表示神经网络;
步骤14、加入图卷积,利用节点信息和边缘特征自身的信息,进行全局优化,得到对应权重,
W(Et)=ReLU(MLP(Et))
其中,Et表示边缘特征,W(Et)表示灵活的滤波器,具有全局信息;
步骤15、设计四种估计器,来确定最终跟踪值和检测值的匹配关系,
自信度估计器,判断检测值是否可信,
其中,fdet表示检测值的最后一层特征;
亲和力估计器,判断跟踪值和检测值的匹配关系,
其中,fij表示检测到的对象对的匹配分数的最后一层特征;
开始和结束估计器,判断这条轨迹是新开始、跟踪中还是准备结束状态,
步骤16、训练网络,利用四种估计器和标签的关系,构建损失函数,
Loss=Llink+αLstart+γLend+βLtrue
步骤17、在数据关联模块,从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后,框架从最小费用流图中找到最优解,对于当前帧中的一个检测值和其前一帧中的所有跟踪值,线性约束定义为以下形式:
对于前一帧中的一个跟踪值和当前帧中的所有检测,线性约束可以定义如下:
将这俩约束折叠成矩阵形式得到CY=0,然后将数据关联问题表示为一个整数线性规划,如下所示:
argmax=Θ(X)TS
st.CS=0,S∈{0,1}S
其中,Θ(X)表示包含所有预测分数的平坦向量,CS表示一个满足两个线性约束方程的矩阵形式;
步骤18、新生ID,跟踪匹配目标,生成新的轨迹赋予新ID,未跟踪匹配上的取消其ID,对于跟踪匹配上的目标,继续保持原有ID,其总运动特征,使用卡尔曼滤波进行更新运动特征,其外观特征保留原样,两部分特征,重新作为跟踪值的特征,进入下一次预测跟踪的循环,直到结束。
所述步骤2中获取目标的2D检测框即2D运动特征,包括目标的左上坐标(x1,y1)和右下坐标(x2,y2),获取目标的3D检测框即3D运动特征,包括目标中心坐标(x,y,z),朝向角θ,长宽高(l,w,h)。
所述步骤5中(vx,vy,vz)表示三维空间的速度,(vx1,vy1,vx2,vx2)表示二维空间的速度。
与现有技术相比,本发明的有益效果是:
1、本发明通过多个独立的传感器特征提取来保持可靠性,利用多模态加权融合方式,得到更全面的目标特征,提高精度,可以有效避免单一传感器失效问题,使用图神经网络和图卷积优化目标关联,提升准确度,滤波预测更新,弥补目标的丢失问题,对多个目标进行实时跟踪,生成对应ID,关联前后帧的同一目标,实现高精度定位的效果。
2、通过使用多种传感器的信息,通过神经网络,学习传感器的重要性,采用注意力机制,加权融合2D和3D的外观特征,可以根据传感器的使用场景和接受到的特征信息,灵活处理目标特征,提高鲁棒性。
3、通过使用卡尔曼滤波,同时对2D和3D的运动特征进行预测,让跟踪值的预测值在当前时刻更接近于检测值的位置,这样同一目标,两者的特征更为接近,便于目标关联以及弥补目标检测的不足,对丢失目标,进行信息补充。
4、新加入图神经网络,利用邻域对节点特征进行更新,通过图卷积对边缘特征进行优化,使得所需要的相似性矩阵更具有区别性。
5、采用新的记忆管理系统,将未匹配上的检测值,作为下一次的跟踪值,放入多目标跟踪的循环中,实现跨帧匹配,同时,增加开始、结束和成功匹配ID的处理流程,大大减少生成新的跟踪轨迹次数。
附图说明
图1为一种基于多模态融合的多目标跟踪的系统的结构示意图。
图2为一种基于多模态融合的多目标跟踪的系统中卡尔曼滤波预测过程图。
图3为一种基于多模态融合的多目标跟踪的系统中图神经网络的构造图。
图4为一种基于多模态融合的多目标跟踪的系统中KITTI数据集上定性结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~4,本发明实施例中,一种基于多模态融合的多目标跟踪的系统,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块,如图1所示,所述目标检测模块通过相机传感器及雷达传感器,使用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框,所述特征提取模块分别利用VGG-16和PointNet对检测框处理,提取目标的2D、3D外观特征,所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合,得到一个节点信息,包括2D外观、2D运动、3D外观和3D运动特征,所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵,再通过图神经网络,利用领域更新和图神经卷积,优化亲和矩阵,所述数据关联模块采用线性规划处理亲和矩阵,得到对应的匹配关系,并采用数据管理系统,赋予目标对应ID。
本发明还涉及一种基于多模态融合的多目标跟踪的方法,包括如下步骤:
步骤1、使用单目相机和激光雷达两种传感器,收集图像和点云信息,在KITTI数据集上进行训练和测试其可行性和鲁棒性;
步骤2、在目标检测模块,使用yolov4算法从图像中获取目标的2D检测框,即2D运动特征,包括目标的左上坐标(x1,y1)和右下坐标(x2,y2),使用PointPillars算法从点云中获取目标的3D检测框,即3D运动特征,包括目标中心坐标(x,y,z),朝向角θ,长宽高(l,w,h);
步骤3、在2D框和3D框的关联部分,把3D检测框投影到2D图像上,然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU,利用贪心匹配,得到同一个目标的二维框和三维框,便于关联目标的位置信息;
步骤4、在特征提取模块,将二维检测框内信息裁剪并调整为224×224的图片,然后通过VGG-16网络获取目标2D外观特征,将三维检测框内信息通过PointNet网络获取目标3D外观特征;
步骤5、根据2D和3D关联的结果,将同一个目标的位置信息合并,得到检测值信息是一个11维向量(x,y,z,θ,l,w,h,x1,y1,x2,y2),目标轨迹状态为18维的向量T=(x,y,z,θ,l,w,h,x1,y1,x2,y2,vx,vy,vz,vx1,vy1,vx2,vx2),其中,(vx,vy,vz)表示三维空间的速度,(vx1,vy1,vx2,vx2)表示二维空间的速度;
其中,vx代表x方向上的位移变化量,大小等于前一帧该方向的位移量,利用微分原理,代替当前帧的位移量,另外,相邻帧的目标,朝向角和长宽高基本不变;
最后,当前帧的预测状态为:
步骤7、再放入MLP中,得到(1×512×(M+N))维张量,经过三次堆叠,生成(3×512×(M+N))维张量,因为外观特征是(3×512×(M+N))维张量,让两者统一维度,便于顺利拼接;
步骤8、加入一种根据来自不同传感器信息的重要性,进行加权融合的的机制,因为传感器信息的重要性在不同的情况下可能不同,例如,当光线暗淡或者曝光情况下时,图像清晰度直线下降,点云特征就会变得更重要,而当雨雪天气时,点云特征容易受到干扰,因此图像特征就会变得更重要,
其中,MLP代表神经网络;
步骤10、融合后的信息Fi fuse如下所示:
步骤11、将运动特征与外观特征拼接,得到最终融合的总特征n,大小为(3×1024×(M+N))维张量,即节点特征;
步骤12、在相似度计算模块,先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵Et,即边缘特征,
步骤13、使用图神经网络时,如图3所示,其中n表示节点特征,A表示外观特征,M表示运动特征,表示边缘特征,先根据设定一个阈值,只有当两帧间一组对象的检测中心距离小于阈值(3D和2D均小于),才于二者间连边,再对连成边的节点进行领域更新,进一步完善节点特征,
其中,N(i)表示一组与t时刻第i个节点的邻域节点,MLP表示神经网络;
步骤14、加入图卷积,利用节点信息和边缘特征自身的信息,进行全局优化,得到对应权重,进一步修正亲和矩阵,
W(Et)=ReLU(MLP(Et))
其中,Et表示边缘特征,W(Et)表示灵活的滤波器,具有全局信息,用来优化边缘特征,得到更具有区别力的亲和矩阵;
步骤15、设计四种估计器,来确定最终跟踪值和检测值的匹配关系,
自信度估计器,判断检测值是否可信,
其中,fdet表示检测值的最后一层特征;
亲和力估计器,判断跟踪值和检测值的匹配关系,
其中,fij表示检测到的对象对的匹配分数的最后一层特征;
开始和结束估计器,判断这条轨迹是新开始、跟踪中还是准备结束状态,
步骤16、训练网络,利用四种估计器和标签的关系,构建损失函数,
Loss=Llink+αLstart+γLend+βLtrue
步骤17、在数据关联部分,从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后,框架需要从最小费用流图中找到最优解,如果一个检测值可信度高,那么它必须与前一帧中的另一个检测结果相关联,或者与新轨迹的开始相关联,因此,对于当前帧中的一个检测值和其前一帧中的所有跟踪值,线性约束可以定义为以下形式:
对于前一帧中的一个跟踪值和当前帧中的所有检测,线性约束可以定义如下:
将这俩约束折叠成矩阵形式得到CY=0,它已经编码了所有有效的轨迹,然后将数据关联问题表示为一个整数线性规划,如下所示:
argmax=Θ(X)TS
st.CS=0,S∈{0,1}S
其中,Θ(X)表示包含所有预测分数的平坦向量,CS表示一个满足两个线性约束方程的矩阵形式,和匈牙利算法类似,通过处理亲和矩阵,找到最优解。最终得到当前帧的跟踪值和检测值的对应关系;
结束ID,未跟踪匹配上,仍将保持预测追踪Fmax帧,如果在这段时间都没有匹配上,才会认为跟踪值消失,取消其ID,
对于跟踪匹配上的目标,继续保持原有ID,其总运动特征,使用卡尔曼滤波进行更新运动特征。其外观特征保留原样。两部分特征,重新作为跟踪值的特征,进入下一次预测跟踪的循环,直到结束,结果如图4、表一、表二所示。
表一、不同特征融合对比
表二、不同融合方式对比
特征 | MOTA(%)↑ | MOTP(%)↑ | ID-SW↓ | Frag↓ |
串联 | 0.9226 | 0.9034 | 46 | 152 |
线性组合 | 0.9224 | 0.9034 | 48 | 159 |
加权融合 | 0.9230 | 0.9034 | 41 | 148 |
综上就是多模态融合的多目标跟踪的流程,通过多个独立的传感器特征提取来保持可靠性,利用模态融合来提高精度,加入图神经网络优化关联准确度,做到多目标的实时准确跟踪。
运动预测部分,利用卡尔曼滤波对2D和3D的运动特征进行预测更新,让跟踪值在当前时刻更接近于检测值的位置,得到两者的特征更为接近,便于目标关联和解决目标丢失问题。
外观特征融合部分,采用注意力机制,通过不同传感器得到的目标特征,利用卷积参数来学习特征的重要性,再使用神经网络进一步优化权重,接着对特征加权融合,得到更符合实际场景的目标特征。
相似度计算部分,引入图神经网络,加入邻域更新,对节点进行迭代更新,使得正对特征差距变小,负对特征差距变大,加入图神经卷积,利用全局信息,进一步优化亲和矩阵。
记忆管理系统,将未匹配上的检测值,作为下一次的跟踪值。不仅仅局限于相邻帧,实现跨帧信息匹配。同时,设计了开始、结束和匹配的ID处理流程。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于多模态融合的多目标跟踪的系统,其特征在于,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块;其中,
所述目标检测模块采用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框;
所述特征提取模块用于对检测框进行处理,提取目标的2D、3D外观特征;
所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合,得到一个节点信息;
所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵,再通过图神经网络,利用领域更新和图神经卷积,优化亲和矩阵;
所述数据关联模块采用线性规划处理亲和矩阵,并采用数据管理系统,赋予目标对应ID。
2.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统,其特征在于,所述目标检测模块包括相机传感器及雷达传感器。
3.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统,其特征在于,所述特征提取模块分别利用VGG-16和PointNet对检测框进行处理。
4.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统,其特征在于,所述节点信息包括2D外观、2D运动、3D外观和3D运动特征。
5.一种基于多模态融合的多目标跟踪的方法,其特征在于,包括如下步骤:
步骤1、使用单目相机和激光雷达两种传感器,收集图像和点云信息;
步骤2、在目标检测模块,使用yolov4算法从图像中获取目标的2D检测框,使用PointPillars算法从点云中获取目标的3D检测框;
步骤3、在2D框和3D框的关联部分,把3D检测框投影到2D图像上,然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU,利用贪心匹配,得到同一个目标的二维框和三维框;
步骤4、在特征提取模块,将二维检测框内信息裁剪并调整为224×224的图片,然后通过VGG-16网络获取目标2D外观特征,将三维检测框内信息通过PointNet网络获取目标3D外观特征;
步骤5、根据2D和3D关联的结果,将同一个目标的位置信息合并,得到检测值信息Dt i是一个11维向量(x,y,z,θ,l,w,h,x1,y1,x2,y2),目标轨迹状态为18维的向量T=(x,y,z,θ,l,w,h,x1,y1,x2,y2,vx,vy,vz,vx1,vy1,vx2,vx2);
其中,vx代表x方向上的位移变化量,大小等于前一帧该方向的位移量,利用微分原理,代替当前帧的位移量;
最后,当前帧的预测状态为:
步骤7、再放入MLP中,得到(1×512×(M+N))维张量,经过三次堆叠,生成(3×512×(M+N))维张量;
其中,MLP代表神经网络;
步骤10、融合后的信息Fi fuse如下所示:
步骤11、将运动特征与外观特征拼接,得到最终融合的总特征n,大小为(3×1024×(M+N))维张量,即节点特征;
步骤12、在相似度计算模块,先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵Et,即边缘特征,
步骤13、先根据设定一个阈值,当两帧间一组对象的检测中心距离小于阈值,才于二者间连边,再对连成边的节点进行领域更新,
其中,N(i)表示一组与t时刻第i个节点的邻域节点,MLP表示神经网络;
步骤14、加入图卷积,利用节点信息和边缘特征自身的信息,进行全局优化,得到对应权重,
W(Et)=ReLU(MLP(Et))
其中,Et表示边缘特征,W(Et)表示灵活的滤波器,具有全局信息;
步骤15、设计四种估计器,来确定最终跟踪值和检测值的匹配关系,
自信度估计器,判断检测值是否可信,
其中,fdet表示检测值的最后一层特征;
亲和力估计器,判断跟踪值和检测值的匹配关系,
其中,fij表示检测到的对象对的匹配分数的最后一层特征;
开始和结束估计器,判断这条轨迹是新开始、跟踪中还是准备结束状态,
步骤16、训练网络,利用四种估计器和标签的关系,构建损失函数,
Loss=Llink+αLstart+γLend+βLtrue
步骤17、在数据关联模块,从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后,框架从最小费用流图中找到最优解,对于当前帧中的一个检测值和其前一帧中的所有跟踪值,线性约束定义为以下形式:
对于前一帧中的一个跟踪值和当前帧中的所有检测,线性约束可以定义如下:
将这俩约束折叠成矩阵形式得到CY=0,然后将数据关联问题表示为一个整数线性规划,如下所示:
arg max=Θ(X)TS
st.CS=0,S∈{0,1}S
其中,Θ(X)表示包含所有预测分数的平坦向量,CS表示一个满足两个线性约束方程的矩阵形式;
6.根据权利要求5所述的一种基于多模态融合的多目标跟踪的方法,其特征在于,所述步骤2中获取目标的2D检测框即2D运动特征,包括目标的左上坐标(x1,y1)和右下坐标(x2,y2),获取目标的3D检测框即3D运动特征,包括目标中心坐标(x,y,z),朝向角θ,长宽高(l,w,h)。
7.根据权利要求5所述的一种基于多模态融合的多目标跟踪的方法,其特征在于,所述步骤5中(vx,vy,vz)表示三维空间的速度,(vx1,vy1,vx2,vx2)表示二维空间的速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529729.2A CN114913206A (zh) | 2022-05-16 | 2022-05-16 | 一种基于多模态融合的多目标跟踪的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529729.2A CN114913206A (zh) | 2022-05-16 | 2022-05-16 | 一种基于多模态融合的多目标跟踪的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913206A true CN114913206A (zh) | 2022-08-16 |
Family
ID=82766879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210529729.2A Pending CN114913206A (zh) | 2022-05-16 | 2022-05-16 | 一种基于多模态融合的多目标跟踪的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913206A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510597A (zh) * | 2022-09-22 | 2022-12-23 | 中国人民解放军海军航空大学 | Gnn框架下基于广义s维分配的多传感器数据互联方法 |
CN116935074A (zh) * | 2023-07-25 | 2023-10-24 | 苏州驾驶宝智能科技有限公司 | 基于深度亲和网络自适应关联的多目标跟踪方法及装置 |
CN117690123A (zh) * | 2024-02-04 | 2024-03-12 | 南京航空航天大学 | 多目视觉下基于融合特征的行人3d姿态点跟踪方法 |
CN117784162A (zh) * | 2024-02-26 | 2024-03-29 | 安徽蔚来智驾科技有限公司 | 目标标注数据获取方法、目标跟踪方法、智能设备及介质 |
CN117784162B (zh) * | 2024-02-26 | 2024-05-14 | 安徽蔚来智驾科技有限公司 | 目标标注数据获取方法、目标跟踪方法、智能设备及介质 |
-
2022
- 2022-05-16 CN CN202210529729.2A patent/CN114913206A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510597A (zh) * | 2022-09-22 | 2022-12-23 | 中国人民解放军海军航空大学 | Gnn框架下基于广义s维分配的多传感器数据互联方法 |
CN115510597B (zh) * | 2022-09-22 | 2024-02-02 | 中国人民解放军海军航空大学 | Gnn框架下基于广义s维分配的多传感器数据互联方法 |
CN116935074A (zh) * | 2023-07-25 | 2023-10-24 | 苏州驾驶宝智能科技有限公司 | 基于深度亲和网络自适应关联的多目标跟踪方法及装置 |
CN116935074B (zh) * | 2023-07-25 | 2024-03-26 | 苏州驾驶宝智能科技有限公司 | 基于深度亲和网络自适应关联的多目标跟踪方法及装置 |
CN117690123A (zh) * | 2024-02-04 | 2024-03-12 | 南京航空航天大学 | 多目视觉下基于融合特征的行人3d姿态点跟踪方法 |
CN117784162A (zh) * | 2024-02-26 | 2024-03-29 | 安徽蔚来智驾科技有限公司 | 目标标注数据获取方法、目标跟踪方法、智能设备及介质 |
CN117784162B (zh) * | 2024-02-26 | 2024-05-14 | 安徽蔚来智驾科技有限公司 | 目标标注数据获取方法、目标跟踪方法、智能设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chiu et al. | Probabilistic 3d multi-modal, multi-object tracking for autonomous driving | |
Frossard et al. | End-to-end learning of multi-sensor 3d tracking by detection | |
Kraus et al. | Uncertainty estimation in one-stage object detection | |
CN114913206A (zh) | 一种基于多模态融合的多目标跟踪的方法和系统 | |
CN111488795A (zh) | 应用于无人驾驶车辆的实时行人跟踪方法 | |
CN111932580A (zh) | 一种基于卡尔曼滤波与匈牙利算法的道路3d车辆跟踪方法及系统 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN110288627B (zh) | 一种基于深度学习和数据关联的在线多目标跟踪方法 | |
US20220027664A1 (en) | Method for common detecting, trackng and classifying of objects | |
CN115372958A (zh) | 一种基于毫米波雷达和单目视觉融合的目标检测和跟踪方法 | |
Kampelmühler et al. | Camera-based vehicle velocity estimation from monocular video | |
Košecka | Detecting changes in images of street scenes | |
Vaquero et al. | Dual-branch CNNs for vehicle detection and tracking on LiDAR data | |
Engel et al. | Deep object tracking on dynamic occupancy grid maps using rnns | |
CN114283355A (zh) | 一种基于小样本学习的多目标濒危动物跟踪方法 | |
Fernández-Sanjurjo et al. | Real-time multiple object visual tracking for embedded GPU systems | |
Wang et al. | Effective multiple pedestrian tracking system in video surveillance with monocular stationary camera | |
Chavez-Garcia et al. | Fusion at detection level for frontal object perception | |
CN113379795B (zh) | 一种基于条件卷积和光流特征的多目标跟踪与分割方法 | |
CN113724293A (zh) | 一种基于视觉的智能网联公交场景下目标跟踪方法及系统 | |
Zhang et al. | Spatiotemporal adaptive attention 3D multiobject tracking for autonomous driving | |
CN111862147B (zh) | 视频中多车辆和多行人目标的跟踪方法 | |
Li et al. | One-shot multi-object tracking using CNN-based networks with spatial-channel attention mechanism | |
CN117519168A (zh) | 一种基于视觉图像和激光雷达的机器人导航避障方法 | |
Hayakawa et al. | Recognition and 3d localization of pedestrian actions from monocular video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |