CN114913206A - 一种基于多模态融合的多目标跟踪的方法和系统 - Google Patents

一种基于多模态融合的多目标跟踪的方法和系统 Download PDF

Info

Publication number
CN114913206A
CN114913206A CN202210529729.2A CN202210529729A CN114913206A CN 114913206 A CN114913206 A CN 114913206A CN 202210529729 A CN202210529729 A CN 202210529729A CN 114913206 A CN114913206 A CN 114913206A
Authority
CN
China
Prior art keywords
target
detection
tracking
frame
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210529729.2A
Other languages
English (en)
Inventor
舒诚龙
敖银辉
黎明峻
黄晋豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210529729.2A priority Critical patent/CN114913206A/zh
Publication of CN114913206A publication Critical patent/CN114913206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态融合的多目标跟踪的方法和系统,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块;其中,所述目标检测模块采用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框,所述特征提取模块用于对检测框进行处理,提取目标的2D、3D外观特征,本发明通过多个独立的传感器特征提取来保持可靠性,利用多模态加权融合方式,得到更全面的目标特征,提高精度,可以有效避免单一传感器失效问题,使用图神经网络和图卷积优化目标关联,提升准确度,滤波预测更新,弥补目标的丢失问题,对多个目标进行实时跟踪,生成对应ID,关联前后帧的同一目标,实现高精度定位的效果。

Description

一种基于多模态融合的多目标跟踪的方法和系统
技术领域
本发明涉及多目标跟踪技术领域,具体是一种基于多模态融合的多目标跟踪的方法和系统。
背景技术
目标跟踪是计算机视觉的重要组成部分,与目标检测的输出不同,除了目标位置信息的检测框,还新增一个关联前后帧同一目标的ID。根据跟踪目标的数量分为单目标跟踪和多目标跟踪,单目标跟踪的是在视频的初始帧画面上框出单个目标,预测后续帧中该目标的大小与位置,而多目标跟踪是在事先不知道目标数量的情况下,对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。被广泛应用于自动驾驶、智能监控、动作与行为分析等应用领域。
多目标跟踪一般分为离线多目标跟踪、在线多目标跟踪和近似在线多目标跟踪。其中离线多目标跟踪,使用当前帧前后的若干帧作为跟踪的判断依据。在线多目标跟踪不需要使用到当前帧之后的信息,只使用当前帧以及当前帧以前的帧的信息作为跟踪依据。而最近,又有一种新的跟踪方式,权衡前两种模式,在线模式的基础上,还利用了当前帧之后一小段时间的信息作为跟踪依据,被称作近似在线多目标跟踪。
当前被广泛研究的策略是基于检测的跟踪。先得到目标的定位框,然后根据定位框进行下一步的跟踪。其目地是将前一帧图像中的物体的定位框和后一帧图像中物体的定位框一一对应起来,这种对应关系拓展到整个视频流中便形成了视频中多个物体的跟踪轨迹,也就是多目标跟踪的跟踪结果。而要将前后帧的定位框进行对应的通常做法便是,对前后两帧的定位框所框定的内容提取特征,然后根据前后两帧的特征对比结果进行分配,最后得到最优的分配结果。
中国专利公开了一种基于多传感器数据融合的多目标跟踪方法(申请号202011006510.1),该专利技术首先,通过多个传感器分别采集各个目标的位置信息,得到每个传感器对各个目标的观测数据。然后对各个目标的观测数据进行航迹关联,将各个观测数据进行分类,得到各个传感器对各个目标的航迹关联数据。再对目标的航迹关联数据进行滤波处理,得到每个传感器对各个目标的滤波轨迹,并获取各个目标的位置估计数据。接着计算传感器对目标的即时偏差,并计算传感器对目标的即时最优动态权值。最后将各个传感器对相同目标的位置估计数据和即时最优动态权值进行融合,得到同一目标在k时刻经过融合后的位置信息,完成目标的位置估计,实现多目标跟踪,但是,在特征提取及融合部分,该专利采用最近邻数据关联算法和滤波处理,对相同目标的位置估计数据和即时最优动态权值进行融合,鲁棒性较差;
中国专利还公开了一种基于图神经网络的多目标跟踪方法和系统(申请号CN201911312114.9),该专利技术首先预处理训练集,得到节点集合、边集合和全局变量,然后放入图神经网络,得到外貌相似度矩阵和运动相似度矩阵。再使用优化算法,根据损失函数、所述外貌相似度矩阵和运动相似度矩阵训练所述图神经网络,确定所述图神经网络的设置参数,再训练,得到训练好的图神经网络。接着使用训练好的图神经网络处理数据集,得到相似度矩阵。最后使用匹配算法对所述相似度矩阵进行计算,得到数据集中目标的匹配结果,但是,在相似度计算部分,该专利采用的是两个图神经网络,分别计算外貌相似度矩阵和运动相似度矩阵,再加权合并得到一个相似度矩阵。使用的网络结构更加复杂,其运行速度就会降低;
现有论文Robust Multi-Modality Multi-Object Tracking,设计了一个通用的传感器不可知的多模态MOT框架(mmMOT),其中每个模态(即传感器)能够独立执行其职责以保持可靠性。首先,在多传感器信息提取和融合的过程中,使用稀松耦合方案,保证系统的可靠性。具体流程:从相机的图像信息提取2D外观特征,从雷达的点云信息提取3D外观特征,然后在融合模块,可以选择不同的融合方式融合这些特征,再传递给邻接估计器,该估计器能够根据每个模态进行推理,接着放入线性规划模块,得到两帧目标的匹配关系及对应ID。其次,为了网络能够从不同模态进行推理,采用端对端的训练,这使得多模态的特征提取器和跨模态邻接估计器可以同时优化。最后首次将点云深度表示引入MOT的数据关联过程。但是,改论文具有以下缺点:
1、目标特征不够完整,对跟踪的精确度和准确度会产生一定的影响;
2、输入和输出,为相邻两帧的目标跟踪,一旦出现目标缺失,再出现,就会给同一个目标生成多个不同ID;
3、当目标缺失时,无法弥补目标信息,为后续提供有利信息。
因此,本领域技术人员提供了一种基于多模态融合的多目标跟踪的方法和系统,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种基于多模态融合的多目标跟踪的方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于多模态融合的多目标跟踪的系统,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块;其中,
所述目标检测模块采用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框;
所述特征提取模块用于对检测框进行处理,提取目标的2D、3D外观特征;
所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合,得到一个节点信息;
所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵,再通过图神经网络,利用领域更新和图神经卷积,优化亲和矩阵;
所述数据关联模块采用线性规划处理亲和矩阵,并采用数据管理系统,赋予目标对应ID。
作为本发明进一步的方案:所述目标检测模块包括相机传感器及雷达传感器。
作为本发明再进一步的方案:所述特征提取模块分别利用VGG-16和PointNet对检测框进行处理。
作为本发明再进一步的方案:所述节点信息包括2D外观、2D运动、3D外观和3D运动特征。
本发明还涉及一种基于多模态融合的多目标跟踪的方法,包括如下步骤:
步骤1、使用单目相机和激光雷达两种传感器,收集图像和点云信息;
步骤2、在目标检测模块,使用yolov4算法从图像中获取目标的2D检测框,使用PointPillars算法从点云中获取目标的3D检测框;
步骤3、在2D框和3D框的关联部分,把3D检测框投影到2D图像上,然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU,利用贪心匹配,得到同一个目标的二维框和三维框;
步骤4、在特征提取模块,将二维检测框内信息裁剪并调整为224×224的图片,然后通过VGG-16网络获取目标2D外观特征,将三维检测框内信息通过PointNet网络获取目标3D外观特征;
步骤5、根据2D和3D关联的结果,将同一个目标的位置信息合并,得到检测值信息
Figure BDA0003645705860000045
是一个11维向量(x,y,z,θ,l,w,h,x1,y1,x2,y2),目标轨迹状态为18维的向量T=(x,y,z,θ,l,w,h,x1,y1,x2,y2,vx,vy,vz,vx1,vy1,vx2,vx2);
采用匀速模型,利用卡尔曼滤波进行预测,将前一帧的所有目标轨迹状态
Figure BDA0003645705860000041
进行前向预测,得到当前帧的预测位置:
xpre=x+vx,ypre=y+vy,zpre=z+vz
Figure BDA0003645705860000042
Figure BDA0003645705860000043
其中,vx代表x方向上的位移变化量,大小等于前一帧该方向的位移量,利用微分原理,代替当前帧的位移量;
最后,当前帧的预测状态为:
Figure BDA0003645705860000044
步骤6、在特征融合模块对预测状态
Figure BDA0003645705860000051
取前11维,作为跟踪值的运动融合特征(1×11×(M+N)),其中M表示跟踪值的数量,N表示检测值的数量;
步骤7、再放入MLP中,得到(1×512×(M+N))维张量,经过三次堆叠,生成(3×512×(M+N))维张量;
步骤8、加入一种根据来自不同传感器信息的重要性,进行加权融合的的机制,每个传感器的初始权重
Figure BDA0003645705860000052
计算公式如下:
Figure BDA0003645705860000053
其中s代表传感器种类,
Figure BDA0003645705860000054
表示卷积参数,σ是sigmoid函数,
Figure BDA0003645705860000055
表示卷积操作;
步骤9、对初始权重进行全局优化,得到权重
Figure BDA0003645705860000056
Figure BDA0003645705860000057
Figure BDA0003645705860000058
其中,MLP代表神经网络;
步骤10、融合后的信息Fi fuse如下所示:
Figure BDA0003645705860000059
其中
Figure BDA00036457058600000510
表示元素乘法,分母里的
Figure BDA00036457058600000511
用于结果归一化;
步骤11、将运动特征与外观特征拼接,得到最终融合的总特征n,大小为(3×1024×(M+N))维张量,即节点特征;
步骤12、在相似度计算模块,先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵Et,即边缘特征,
Figure BDA00036457058600000512
Figure BDA00036457058600000513
Figure BDA0003645705860000061
其中,
Figure BDA0003645705860000062
表示t时刻第i个跟踪值的特征信息,
Figure BDA0003645705860000063
表示t+1时刻第j个检测值值的特征信息,
Figure BDA0003645705860000064
表示第i个跟踪值与t帧的所有检测值的边缘特征;
步骤13、先根据设定一个阈值,当两帧间一组对象的检测中心距离小于阈值,才于二者间连边,再对连成边的节点进行领域更新,
Figure BDA0003645705860000065
其中,N(i)表示一组与t时刻第i个节点的邻域节点,MLP表示神经网络;
步骤14、加入图卷积,利用节点信息和边缘特征自身的信息,进行全局优化,得到对应权重,
W(Et)=ReLU(MLP(Et))
Figure BDA0003645705860000066
其中,Et表示边缘特征,W(Et)表示灵活的滤波器,具有全局信息;
步骤15、设计四种估计器,来确定最终跟踪值和检测值的匹配关系,
自信度估计器,判断检测值是否可信,
Figure BDA0003645705860000067
其中,fdet表示检测值的最后一层特征;
亲和力估计器,判断跟踪值和检测值的匹配关系,
Figure BDA0003645705860000068
其中,fij表示检测到的对象对的匹配分数的最后一层特征;
开始和结束估计器,判断这条轨迹是新开始、跟踪中还是准备结束状态,
Figure BDA0003645705860000069
最后将所有的预测分数聚合到一个新向量
Figure BDA0003645705860000071
步骤16、训练网络,利用四种估计器和标签的关系,构建损失函数,
Loss=Llink+αLstart+γLend+βLtrue
其中,α,γ,β表示各部分的权重,本实验
Figure BDA0003645705860000072
β=1.5;
步骤17、在数据关联模块,从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后,框架从最小费用流图中找到最优解,对于当前帧中的一个检测值和其前一帧中的所有跟踪值,线性约束定义为以下形式:
Figure BDA0003645705860000073
对于前一帧中的一个跟踪值和当前帧中的所有检测,线性约束可以定义如下:
Figure BDA0003645705860000074
将这俩约束折叠成矩阵形式得到CY=0,然后将数据关联问题表示为一个整数线性规划,如下所示:
argmax=Θ(X)TS
st.CS=0,S∈{0,1}S
其中,Θ(X)表示包含所有预测分数的平坦向量,CS表示一个满足两个线性约束方程的矩阵形式;
步骤18、新生ID,跟踪匹配目标,生成新的轨迹
Figure BDA0003645705860000075
赋予新ID,未跟踪匹配上的取消其ID,对于跟踪匹配上的目标,继续保持原有ID,其总运动特征,使用卡尔曼滤波进行更新运动特征,其外观特征保留原样,两部分特征,重新作为跟踪值的特征,进入下一次预测跟踪的循环,直到结束。
所述步骤2中获取目标的2D检测框即2D运动特征,包括目标的左上坐标(x1,y1)和右下坐标(x2,y2),获取目标的3D检测框即3D运动特征,包括目标中心坐标(x,y,z),朝向角θ,长宽高(l,w,h)。
所述步骤5中(vx,vy,vz)表示三维空间的速度,(vx1,vy1,vx2,vx2)表示二维空间的速度。
与现有技术相比,本发明的有益效果是:
1、本发明通过多个独立的传感器特征提取来保持可靠性,利用多模态加权融合方式,得到更全面的目标特征,提高精度,可以有效避免单一传感器失效问题,使用图神经网络和图卷积优化目标关联,提升准确度,滤波预测更新,弥补目标的丢失问题,对多个目标进行实时跟踪,生成对应ID,关联前后帧的同一目标,实现高精度定位的效果。
2、通过使用多种传感器的信息,通过神经网络,学习传感器的重要性,采用注意力机制,加权融合2D和3D的外观特征,可以根据传感器的使用场景和接受到的特征信息,灵活处理目标特征,提高鲁棒性。
3、通过使用卡尔曼滤波,同时对2D和3D的运动特征进行预测,让跟踪值的预测值在当前时刻更接近于检测值的位置,这样同一目标,两者的特征更为接近,便于目标关联以及弥补目标检测的不足,对丢失目标,进行信息补充。
4、新加入图神经网络,利用邻域对节点特征进行更新,通过图卷积对边缘特征进行优化,使得所需要的相似性矩阵更具有区别性。
5、采用新的记忆管理系统,将未匹配上的检测值,作为下一次的跟踪值,放入多目标跟踪的循环中,实现跨帧匹配,同时,增加开始、结束和成功匹配ID的处理流程,大大减少生成新的跟踪轨迹次数。
附图说明
图1为一种基于多模态融合的多目标跟踪的系统的结构示意图。
图2为一种基于多模态融合的多目标跟踪的系统中卡尔曼滤波预测过程图。
图3为一种基于多模态融合的多目标跟踪的系统中图神经网络的构造图。
图4为一种基于多模态融合的多目标跟踪的系统中KITTI数据集上定性结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~4,本发明实施例中,一种基于多模态融合的多目标跟踪的系统,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块,如图1所示,所述目标检测模块通过相机传感器及雷达传感器,使用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框,所述特征提取模块分别利用VGG-16和PointNet对检测框处理,提取目标的2D、3D外观特征,所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合,得到一个节点信息,包括2D外观、2D运动、3D外观和3D运动特征,所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵,再通过图神经网络,利用领域更新和图神经卷积,优化亲和矩阵,所述数据关联模块采用线性规划处理亲和矩阵,得到对应的匹配关系,并采用数据管理系统,赋予目标对应ID。
本发明还涉及一种基于多模态融合的多目标跟踪的方法,包括如下步骤:
步骤1、使用单目相机和激光雷达两种传感器,收集图像和点云信息,在KITTI数据集上进行训练和测试其可行性和鲁棒性;
步骤2、在目标检测模块,使用yolov4算法从图像中获取目标的2D检测框,即2D运动特征,包括目标的左上坐标(x1,y1)和右下坐标(x2,y2),使用PointPillars算法从点云中获取目标的3D检测框,即3D运动特征,包括目标中心坐标(x,y,z),朝向角θ,长宽高(l,w,h);
步骤3、在2D框和3D框的关联部分,把3D检测框投影到2D图像上,然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU,利用贪心匹配,得到同一个目标的二维框和三维框,便于关联目标的位置信息;
步骤4、在特征提取模块,将二维检测框内信息裁剪并调整为224×224的图片,然后通过VGG-16网络获取目标2D外观特征,将三维检测框内信息通过PointNet网络获取目标3D外观特征;
步骤5、根据2D和3D关联的结果,将同一个目标的位置信息合并,得到检测值信息
Figure BDA0003645705860000108
是一个11维向量(x,y,z,θ,l,w,h,x1,y1,x2,y2),目标轨迹状态为18维的向量T=(x,y,z,θ,l,w,h,x1,y1,x2,y2,vx,vy,vz,vx1,vy1,vx2,vx2),其中,(vx,vy,vz)表示三维空间的速度,(vx1,vy1,vx2,vx2)表示二维空间的速度;
采用匀速模型,利用卡尔曼滤波进行预测,将前一帧的所有目标轨迹状态
Figure BDA0003645705860000101
进行前向预测,得到当前帧的预测位置,如图2所示:
xpre=x+vx,ypre=y+vy,zpre=z+vz
Figure BDA0003645705860000102
Figure BDA0003645705860000103
其中,vx代表x方向上的位移变化量,大小等于前一帧该方向的位移量,利用微分原理,代替当前帧的位移量,另外,相邻帧的目标,朝向角和长宽高基本不变;
最后,当前帧的预测状态为:
Figure BDA0003645705860000104
步骤6、在特征融合模块对预测状态
Figure BDA0003645705860000105
取前11维,作为跟踪值的运动融合特征(1×11×(M+N)),其中M表示跟踪值的数量,N表示检测值的数量;
步骤7、再放入MLP中,得到(1×512×(M+N))维张量,经过三次堆叠,生成(3×512×(M+N))维张量,因为外观特征是(3×512×(M+N))维张量,让两者统一维度,便于顺利拼接;
步骤8、加入一种根据来自不同传感器信息的重要性,进行加权融合的的机制,因为传感器信息的重要性在不同的情况下可能不同,例如,当光线暗淡或者曝光情况下时,图像清晰度直线下降,点云特征就会变得更重要,而当雨雪天气时,点云特征容易受到干扰,因此图像特征就会变得更重要,
每个传感器的初始权重
Figure BDA0003645705860000106
计算公式如下:
Figure BDA0003645705860000107
其中s代表传感器种类,
Figure BDA0003645705860000111
表示卷积参数,σ是sigmoid函数,
Figure BDA0003645705860000112
表示卷积操作;
步骤9、对初始权重进行全局优化,得到权重
Figure BDA0003645705860000113
Figure BDA0003645705860000114
Figure BDA0003645705860000115
其中,MLP代表神经网络;
步骤10、融合后的信息Fi fuse如下所示:
Figure BDA0003645705860000116
其中
Figure BDA0003645705860000117
表示元素乘法,分母里的
Figure BDA0003645705860000118
用于结果归一化;
步骤11、将运动特征与外观特征拼接,得到最终融合的总特征n,大小为(3×1024×(M+N))维张量,即节点特征;
步骤12、在相似度计算模块,先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵Et,即边缘特征,
Figure BDA0003645705860000119
Figure BDA00036457058600001110
Figure BDA00036457058600001111
其中,
Figure BDA00036457058600001112
表示t时刻第i个跟踪值的特征信息,
Figure BDA00036457058600001113
表示t+1时刻第j个检测值值的特征信息,
Figure BDA00036457058600001114
表示第i个跟踪值与t帧的所有检测值的边缘特征;
步骤13、使用图神经网络时,如图3所示,其中n表示节点特征,A表示外观特征,M表示运动特征,表示边缘特征,先根据设定一个阈值,只有当两帧间一组对象的检测中心距离小于阈值(3D和2D均小于),才于二者间连边,再对连成边的节点进行领域更新,进一步完善节点特征,
Figure BDA0003645705860000121
其中,N(i)表示一组与t时刻第i个节点的邻域节点,MLP表示神经网络;
步骤14、加入图卷积,利用节点信息和边缘特征自身的信息,进行全局优化,得到对应权重,进一步修正亲和矩阵,
W(Et)=ReLU(MLP(Et))
Figure BDA0003645705860000122
其中,Et表示边缘特征,W(Et)表示灵活的滤波器,具有全局信息,用来优化边缘特征,得到更具有区别力的亲和矩阵;
步骤15、设计四种估计器,来确定最终跟踪值和检测值的匹配关系,
自信度估计器,判断检测值是否可信,
Figure BDA0003645705860000123
其中,fdet表示检测值的最后一层特征;
亲和力估计器,判断跟踪值和检测值的匹配关系,
Figure BDA0003645705860000124
其中,fij表示检测到的对象对的匹配分数的最后一层特征;
开始和结束估计器,判断这条轨迹是新开始、跟踪中还是准备结束状态,
Figure BDA0003645705860000125
最后将所有的预测分数聚合到一个新向量
Figure BDA0003645705860000126
步骤16、训练网络,利用四种估计器和标签的关系,构建损失函数,
Loss=Llink+αLstart+γLend+βLtrue
其中,α,γ,β表示各部分的权重,本实验
Figure BDA0003645705860000127
β=1.5;
步骤17、在数据关联部分,从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后,框架需要从最小费用流图中找到最优解,如果一个检测值可信度高,那么它必须与前一帧中的另一个检测结果相关联,或者与新轨迹的开始相关联,因此,对于当前帧中的一个检测值和其前一帧中的所有跟踪值,线性约束可以定义为以下形式:
Figure BDA0003645705860000131
对于前一帧中的一个跟踪值和当前帧中的所有检测,线性约束可以定义如下:
Figure BDA0003645705860000132
将这俩约束折叠成矩阵形式得到CY=0,它已经编码了所有有效的轨迹,然后将数据关联问题表示为一个整数线性规划,如下所示:
argmax=Θ(X)TS
st.CS=0,S∈{0,1}S
其中,Θ(X)表示包含所有预测分数的平坦向量,CS表示一个满足两个线性约束方程的矩阵形式,和匈牙利算法类似,通过处理亲和矩阵,找到最优解。最终得到当前帧的跟踪值和检测值的对应关系;
步骤18、新生ID,一个目标能被连续跟踪上Fmin帧,才生成新的轨迹
Figure BDA0003645705860000133
赋予新ID,
结束ID,未跟踪匹配上,仍将保持预测追踪Fmax帧,如果在这段时间都没有匹配上,才会认为跟踪值消失,取消其ID,
对于跟踪匹配上的目标,继续保持原有ID,其总运动特征,使用卡尔曼滤波进行更新运动特征。其外观特征保留原样。两部分特征,重新作为跟踪值的特征,进入下一次预测跟踪的循环,直到结束,结果如图4、表一、表二所示。
表一、不同特征融合对比
Figure BDA0003645705860000134
Figure BDA0003645705860000141
表二、不同融合方式对比
特征 MOTA(%)↑ MOTP(%)↑ ID-SW↓ Frag↓
串联 0.9226 0.9034 46 152
线性组合 0.9224 0.9034 48 159
加权融合 0.9230 0.9034 41 148
综上就是多模态融合的多目标跟踪的流程,通过多个独立的传感器特征提取来保持可靠性,利用模态融合来提高精度,加入图神经网络优化关联准确度,做到多目标的实时准确跟踪。
运动预测部分,利用卡尔曼滤波对2D和3D的运动特征进行预测更新,让跟踪值在当前时刻更接近于检测值的位置,得到两者的特征更为接近,便于目标关联和解决目标丢失问题。
外观特征融合部分,采用注意力机制,通过不同传感器得到的目标特征,利用卷积参数来学习特征的重要性,再使用神经网络进一步优化权重,接着对特征加权融合,得到更符合实际场景的目标特征。
相似度计算部分,引入图神经网络,加入邻域更新,对节点进行迭代更新,使得正对特征差距变小,负对特征差距变大,加入图神经卷积,利用全局信息,进一步优化亲和矩阵。
记忆管理系统,将未匹配上的检测值,作为下一次的跟踪值。不仅仅局限于相邻帧,实现跨帧信息匹配。同时,设计了开始、结束和匹配的ID处理流程。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于多模态融合的多目标跟踪的系统,其特征在于,包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块;其中,
所述目标检测模块采用yolov4算法从图像获取目标的2D检测框,并采用PointPillars算法从点云获取目标的3D检测框;
所述特征提取模块用于对检测框进行处理,提取目标的2D、3D外观特征;
所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合,得到一个节点信息;
所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵,再通过图神经网络,利用领域更新和图神经卷积,优化亲和矩阵;
所述数据关联模块采用线性规划处理亲和矩阵,并采用数据管理系统,赋予目标对应ID。
2.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统,其特征在于,所述目标检测模块包括相机传感器及雷达传感器。
3.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统,其特征在于,所述特征提取模块分别利用VGG-16和PointNet对检测框进行处理。
4.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统,其特征在于,所述节点信息包括2D外观、2D运动、3D外观和3D运动特征。
5.一种基于多模态融合的多目标跟踪的方法,其特征在于,包括如下步骤:
步骤1、使用单目相机和激光雷达两种传感器,收集图像和点云信息;
步骤2、在目标检测模块,使用yolov4算法从图像中获取目标的2D检测框,使用PointPillars算法从点云中获取目标的3D检测框;
步骤3、在2D框和3D框的关联部分,把3D检测框投影到2D图像上,然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU,利用贪心匹配,得到同一个目标的二维框和三维框;
步骤4、在特征提取模块,将二维检测框内信息裁剪并调整为224×224的图片,然后通过VGG-16网络获取目标2D外观特征,将三维检测框内信息通过PointNet网络获取目标3D外观特征;
步骤5、根据2D和3D关联的结果,将同一个目标的位置信息合并,得到检测值信息Dt i是一个11维向量(x,y,z,θ,l,w,h,x1,y1,x2,y2),目标轨迹状态为18维的向量T=(x,y,z,θ,l,w,h,x1,y1,x2,y2,vx,vy,vz,vx1,vy1,vx2,vx2);
采用匀速模型,利用卡尔曼滤波进行预测,将前一帧的所有目标轨迹状态
Figure FDA0003645705850000021
进行前向预测,得到当前帧的预测位置:
xpre=x+vx,ypre=y+vy,zpre=z+vz
Figure FDA0003645705850000022
Figure FDA0003645705850000023
其中,vx代表x方向上的位移变化量,大小等于前一帧该方向的位移量,利用微分原理,代替当前帧的位移量;
最后,当前帧的预测状态为:
Figure FDA0003645705850000024
步骤6、在特征融合模块对预测状态
Figure FDA0003645705850000025
取前11维,作为跟踪值的运动融合特征(1×11×(M+N)),其中M表示跟踪值的数量,N表示检测值的数量;
步骤7、再放入MLP中,得到(1×512×(M+N))维张量,经过三次堆叠,生成(3×512×(M+N))维张量;
步骤8、加入一种根据来自不同传感器信息的重要性,进行加权融合的的机制,每个传感器的初始权重
Figure FDA0003645705850000026
计算公式如下:
Figure FDA0003645705850000027
其中s代表传感器种类,
Figure FDA0003645705850000028
表示卷积参数,σ是sigmoid函数,
Figure FDA0003645705850000029
表示卷积操作;
步骤9、对初始权重进行全局优化,得到权重
Figure FDA00036457058500000210
Figure FDA0003645705850000031
Figure FDA0003645705850000032
其中,MLP代表神经网络;
步骤10、融合后的信息Fi fuse如下所示:
Figure FDA0003645705850000033
其中
Figure FDA0003645705850000034
表示元素乘法,分母里的
Figure FDA0003645705850000035
用于结果归一化;
步骤11、将运动特征与外观特征拼接,得到最终融合的总特征n,大小为(3×1024×(M+N))维张量,即节点特征;
步骤12、在相似度计算模块,先计算跟踪值和检测值的差的绝对值,得到初步亲和矩阵Et,即边缘特征,
Figure FDA0003645705850000036
Figure FDA0003645705850000037
Figure FDA0003645705850000038
其中,
Figure FDA0003645705850000039
表示t时刻第i个跟踪值的特征信息,
Figure FDA00036457058500000310
表示t+1时刻第j个检测值值的特征信息,
Figure FDA00036457058500000311
表示第i个跟踪值与t帧的所有检测值的边缘特征;
步骤13、先根据设定一个阈值,当两帧间一组对象的检测中心距离小于阈值,才于二者间连边,再对连成边的节点进行领域更新,
Figure FDA00036457058500000312
其中,N(i)表示一组与t时刻第i个节点的邻域节点,MLP表示神经网络;
步骤14、加入图卷积,利用节点信息和边缘特征自身的信息,进行全局优化,得到对应权重,
W(Et)=ReLU(MLP(Et))
Figure FDA0003645705850000041
其中,Et表示边缘特征,W(Et)表示灵活的滤波器,具有全局信息;
步骤15、设计四种估计器,来确定最终跟踪值和检测值的匹配关系,
自信度估计器,判断检测值是否可信,
Figure FDA0003645705850000042
其中,fdet表示检测值的最后一层特征;
亲和力估计器,判断跟踪值和检测值的匹配关系,
Figure FDA0003645705850000043
其中,fij表示检测到的对象对的匹配分数的最后一层特征;
开始和结束估计器,判断这条轨迹是新开始、跟踪中还是准备结束状态,
Figure FDA0003645705850000044
最后将所有的预测分数聚合到一个新向量
Figure FDA0003645705850000045
步骤16、训练网络,利用四种估计器和标签的关系,构建损失函数,
Loss=Llink+αLstart+γLend+βLtrue
其中,α,γ,β表示各部分的权重,本实验
Figure FDA0003645705850000046
β=1.5;
步骤17、在数据关联模块,从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后,框架从最小费用流图中找到最优解,对于当前帧中的一个检测值和其前一帧中的所有跟踪值,线性约束定义为以下形式:
Figure FDA0003645705850000047
对于前一帧中的一个跟踪值和当前帧中的所有检测,线性约束可以定义如下:
Figure FDA0003645705850000051
将这俩约束折叠成矩阵形式得到CY=0,然后将数据关联问题表示为一个整数线性规划,如下所示:
arg max=Θ(X)TS
st.CS=0,S∈{0,1}S
其中,Θ(X)表示包含所有预测分数的平坦向量,CS表示一个满足两个线性约束方程的矩阵形式;
步骤18、新生ID,跟踪匹配目标,生成新的轨迹
Figure FDA0003645705850000052
赋予新ID,未跟踪匹配上的取消其ID,对于跟踪匹配上的目标,继续保持原有ID,其总运动特征,使用卡尔曼滤波进行更新运动特征,其外观特征保留原样,两部分特征,重新作为跟踪值的特征,进入下一次预测跟踪的循环,直到结束。
6.根据权利要求5所述的一种基于多模态融合的多目标跟踪的方法,其特征在于,所述步骤2中获取目标的2D检测框即2D运动特征,包括目标的左上坐标(x1,y1)和右下坐标(x2,y2),获取目标的3D检测框即3D运动特征,包括目标中心坐标(x,y,z),朝向角θ,长宽高(l,w,h)。
7.根据权利要求5所述的一种基于多模态融合的多目标跟踪的方法,其特征在于,所述步骤5中(vx,vy,vz)表示三维空间的速度,(vx1,vy1,vx2,vx2)表示二维空间的速度。
CN202210529729.2A 2022-05-16 2022-05-16 一种基于多模态融合的多目标跟踪的方法和系统 Pending CN114913206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210529729.2A CN114913206A (zh) 2022-05-16 2022-05-16 一种基于多模态融合的多目标跟踪的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210529729.2A CN114913206A (zh) 2022-05-16 2022-05-16 一种基于多模态融合的多目标跟踪的方法和系统

Publications (1)

Publication Number Publication Date
CN114913206A true CN114913206A (zh) 2022-08-16

Family

ID=82766879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210529729.2A Pending CN114913206A (zh) 2022-05-16 2022-05-16 一种基于多模态融合的多目标跟踪的方法和系统

Country Status (1)

Country Link
CN (1) CN114913206A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510597A (zh) * 2022-09-22 2022-12-23 中国人民解放军海军航空大学 Gnn框架下基于广义s维分配的多传感器数据互联方法
CN116935074A (zh) * 2023-07-25 2023-10-24 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置
CN117690123A (zh) * 2024-02-04 2024-03-12 南京航空航天大学 多目视觉下基于融合特征的行人3d姿态点跟踪方法
CN117784162A (zh) * 2024-02-26 2024-03-29 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质
CN117784162B (zh) * 2024-02-26 2024-05-14 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510597A (zh) * 2022-09-22 2022-12-23 中国人民解放军海军航空大学 Gnn框架下基于广义s维分配的多传感器数据互联方法
CN115510597B (zh) * 2022-09-22 2024-02-02 中国人民解放军海军航空大学 Gnn框架下基于广义s维分配的多传感器数据互联方法
CN116935074A (zh) * 2023-07-25 2023-10-24 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置
CN116935074B (zh) * 2023-07-25 2024-03-26 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置
CN117690123A (zh) * 2024-02-04 2024-03-12 南京航空航天大学 多目视觉下基于融合特征的行人3d姿态点跟踪方法
CN117784162A (zh) * 2024-02-26 2024-03-29 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质
CN117784162B (zh) * 2024-02-26 2024-05-14 安徽蔚来智驾科技有限公司 目标标注数据获取方法、目标跟踪方法、智能设备及介质

Similar Documents

Publication Publication Date Title
Chiu et al. Probabilistic 3d multi-modal, multi-object tracking for autonomous driving
Frossard et al. End-to-end learning of multi-sensor 3d tracking by detection
Kraus et al. Uncertainty estimation in one-stage object detection
CN114913206A (zh) 一种基于多模态融合的多目标跟踪的方法和系统
CN111488795A (zh) 应用于无人驾驶车辆的实时行人跟踪方法
CN111932580A (zh) 一种基于卡尔曼滤波与匈牙利算法的道路3d车辆跟踪方法及系统
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN110288627B (zh) 一种基于深度学习和数据关联的在线多目标跟踪方法
US20220027664A1 (en) Method for common detecting, trackng and classifying of objects
CN115372958A (zh) 一种基于毫米波雷达和单目视觉融合的目标检测和跟踪方法
Kampelmühler et al. Camera-based vehicle velocity estimation from monocular video
Košecka Detecting changes in images of street scenes
Vaquero et al. Dual-branch CNNs for vehicle detection and tracking on LiDAR data
Engel et al. Deep object tracking on dynamic occupancy grid maps using rnns
CN114283355A (zh) 一种基于小样本学习的多目标濒危动物跟踪方法
Fernández-Sanjurjo et al. Real-time multiple object visual tracking for embedded GPU systems
Wang et al. Effective multiple pedestrian tracking system in video surveillance with monocular stationary camera
Chavez-Garcia et al. Fusion at detection level for frontal object perception
CN113379795B (zh) 一种基于条件卷积和光流特征的多目标跟踪与分割方法
CN113724293A (zh) 一种基于视觉的智能网联公交场景下目标跟踪方法及系统
Zhang et al. Spatiotemporal adaptive attention 3D multiobject tracking for autonomous driving
CN111862147B (zh) 视频中多车辆和多行人目标的跟踪方法
Li et al. One-shot multi-object tracking using CNN-based networks with spatial-channel attention mechanism
CN117519168A (zh) 一种基于视觉图像和激光雷达的机器人导航避障方法
Hayakawa et al. Recognition and 3d localization of pedestrian actions from monocular video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination