CN114529581A - 基于深度学习及多任务联合训练的多目标跟踪方法 - Google Patents
基于深度学习及多任务联合训练的多目标跟踪方法 Download PDFInfo
- Publication number
- CN114529581A CN114529581A CN202210107826.2A CN202210107826A CN114529581A CN 114529581 A CN114529581 A CN 114529581A CN 202210107826 A CN202210107826 A CN 202210107826A CN 114529581 A CN114529581 A CN 114529581A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- feature vector
- response
- occlusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习及多任务联合训练的多目标跟踪方法,主要解决现有基于深度学习的多目标跟踪方法不能在联合训练中充分训练特征提取分支,导致跟踪结果存在大量目标ID错误匹配情况的问题,其实现方案为:构建一个深度神经网络模型;利用多任务联合训练方式对其进行有监督训练;将待跟踪的视频图像输入到训练好的模型输出检测目标及其目标完全特征向量和目标遮挡特征向量;再利用检测目标对应的目标完全特征向量和目标遮挡特征向量拼接成的目标融合特征向量,并将其与轨迹目标的目标融合特征向量进行匹配,实现目标跟踪。本发明降低了跟踪网络错误匹配情况产生次数,提升了跟踪网络整体性能,可用于安防监控、自动驾驶及人机交互。
Description
技术领域
本发明属于计算机视觉与图像处理技术领域,更进一步涉及一种多目标跟踪方法,可应用于安防监控、自动驾驶及人机交互。
背景技术
目标跟踪是计算机视觉领域重要任务,在安防监控、自动驾驶及人机交互等场景下具有广泛应用。单目标跟踪主要是对视频片段中任一帧中人为选择的一个感兴趣目标,在后续的视频帧中逐帧搜索定位。单目标跟踪一般包括运动建模和外观建模等模块,其中运动建模确定搜索区域,在搜索区域内进行目标检测,对检测到的目标再根据外观模型实现目标定位,即判断检测到的目标是否为待搜索目标。基于检测的多目标跟踪方法与上述单目标跟踪方法类似,在单目标跟踪技术的基础上同时对多个感兴趣目标进行检测跟踪。其难点在于:在单目标跟踪任务中,除了待跟踪目标,视频帧中其他图像部分均被当作背景信息处理,因此外观建模部分相对简单,只需识别出包含待跟踪目标的区域即完成目标定位;而在多目标跟踪任务中,由于多个待跟踪目标可能存在相互遮挡重叠的情况,进而导致检测出的某一待跟踪目标区域中可能存在其他待跟踪目标的部分信息,因此需要设计实现一个具有遮挡重叠鲁棒性的外观模型,使其能够在存在多目标区域重叠时,区分出检测出的各目标真实所属类别。
近年来,在深度学习的背景下,基于检测的跟踪范式被广泛应用于多目标跟踪任务。该范式主要包括三个部分:目标检测、特征提取和数据关联。其中深度卷积网络主要用于目标检测和特征提取两个阶段。Yu等在论文“Poi:Multiple object tracking withhigh performance detection and appearance feature”(European Conference onComputer Vision,2016,pp.36-42.)中提出用深度学习代替传统的人为设计,更简单地实现目标外观特征提取,且深度特征提取网络也更具普适性。但该方法需要分别训练目标检测网络和特征提取网络,所以存在两个问题:1)特征提取网络只能实现对目标的外观建模,而不能有效学习帧间目标关系,不能学习到目标的运动模型;2)跟踪模型不能端到端训练,且目标检测和特征提取两个阶段串行进行的跟踪速度太慢。Wang等在论文“Towards real-time multi-object tracking”(European Conference on Computer Vision,2020,pp.107-122.)中首次将目标检测和特征提取两个模块统一到一个名为联合检测与特征提取的跟踪网络JDE中训练。其设计了一种多任务联合训练方式,即将JDE网络中的检测分支损失函数和特征提取分支损失函数组合形成联合损失函数作为JDE模型的损失函数,使检测分支和特征提取分支在训练时可以同步优化,实现跟踪网络端到端训练。因为JDE模型联合了目标跟踪任务中目标检测和特征提取任务,所以其可以实现接近实时的跟踪速度。但由于JDE模型的特征提取分支设计过于简单,导致特征提取分支不能充分优化,JDE模型不能充分学习到目标的视觉显著性特征,进而使数据关联阶段产生大量目标漂移和错误匹配情况。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于深度学习及多任务联合训练的多目标跟踪方法,以降低跟踪网络错误匹配次数,提升跟踪网络整体性能。
本发明的技术方案是:构建一个具备提取目标强视觉显著性特征能力,且能将目标检测与特征提取两个任务统一在一个网络模型中联合训练的深度神经网络模型;基于该网络模型进行多目标跟踪,具体实现包括如下:
(1)构建由主干特征提取子网络、多目标完全特征提取子网络、多目标遮挡特征提取子网络和多任务联合模块级联构成的深度神经网络模型;
(2)获取第t帧图像Ft∈RW×H×3及其中目标边界框标签集合B∈Rn×4,对集合B进行归一化处理得到归一化后的目标边界框标签集合B′,其中,R表示实数域符号,W,H分别表示图像的宽,高,n表示Ft中存在的目标个数;
(3)将(2)得到的图像Ft和归一化后的目标边界框标签集合B′输入到(1)中的深度神经网络模型,输出目标检测集合D∈Rn×4和目标完全特征向量集合Eg∈Rn×a与目标遮挡特征向量集合Ep∈Rn×b,其中,a表示目标完全特征向量的向量维度,b表示目标遮挡特征向量的向量维度;
(4)通过拼接融合策略对(3)中的目标完全特征向量集合Eg∈Rn×a和目标遮挡特征向量集合Ep∈Rn×b进行融合,得到目标融合特征向量集合集合的n个目标融合特征向量与目标检测集合D的n个目标按照集合下标一一对应,即集合中的第i个目标融合特征向量属于集合D中的第i个目标,i∈[1,n];
(5)对目标检测集合D的目标融合特征向量集合与目标轨迹T的目标融合特征向量集合计算余弦距离,得到距离矩阵Cn×m,其中,目标轨迹T表示第t-1帧跟踪到的m个目标的集合,目标轨迹T中的每个目标都包含身份属性和目标融合特征向量,表示目标轨迹T中所有目标的目标融合特征向量组成的集合,
(6)利用距离矩阵Cn×m进行检测目标与轨迹目标的关联匹配,实现多目标跟踪。
本发明与现有技术相比具有如下优点:
第一,本发明由于将跟踪任务中的目标检测子任务和特征提取子任务统一到一个深度神经网络模型中进行多任务联合训练,高效利用了深度神经网络的特征提取能力,使本发明构建的跟踪网络实现了实时的跟踪速度,提升了跟踪网络的整体性能;
第二,由于本发明的特征提取子任务被设计成由目标完全特征提取分支与目标遮挡特征提取分支组成的双分支网络结构,使得深度神经网络模型在联合训练目标检测子任务和特征提取子任务时能够获取更多特征提取子任务的模型损失,从而均衡目标检测和特征提取两个分支任务,解决了以往任务联合目标检测和特征提取的跟踪网络在训练阶段中特征提取分支优化不足的问题,降低了跟踪网络错误匹配次数。
附图说明
图1是本发明的实现总流程图;
图2是本发明中的深度神经网络模型图;
图3是本发明中获取目标检测集合、目标完全特征向量集合与目标遮挡特征向量集合的子流程图;
图4是本发明深度神经网络模型中的特征聚集模块示意图;
图5是本发明深度神经网络模型中的多任务联合模块示意图。
具体实施方式
下面结合附图对本发明实施例作进一步的详细描述。
参照图1,本实施例的实现步骤如下:
步骤1,构建深度神经网络模型。
参照图2,本步骤的实现如下:
1.1)选用基于ResNet34改进的深度聚集网络DLA34模型中level3层之前的网络结构部分作为主干特征提取子网络,其结构为:dla34_base_layer→dla34_layer0→dla34_layerl→dla34_layer2;
1.2)选用由DLA34模型中level3层到level5层的结构组成多目标完全特征提取子网络,其结构为:dla34_layer3→dla34_layer4→dla34_layer5;上述主干特征提取子网络的输出作为该多目标完全特征提取子网络的输入;
1.3)在多目标完全特征提取子网络前增加一层随机遮挡网络层rand_block,组成多目标遮挡特征提取子网络,其结构为:rand_block→dla34_layer3→dla34_layer4→dla34_layer5;
该随机遮挡网络层的输入为主干特征提取子网络输出的响应图和归一化处理后的目标边界框标签集合,其输出为与输入响应图尺寸相同的遮挡响应图,其中,在模型训练阶段,本实施例中随机遮挡网络层的遮挡参数宽高最大遮挡比例w_drop_r和h_drop_r均为0.33,在模型测试阶段,由于测试数据不存在目标边界框数据,因此随机遮挡网络层对输入的响应图不做处理直接输出;
1.4)定义普通预测卷积结构为:第1二维卷积→激活函数层→第2二维卷积,其中第1二维卷积层卷积核尺寸为3x3,第2二维卷积层卷积核尺寸为1x1,两个卷积层卷积步长均为1,激活函数层使用ReLU激活函数;
1.5)构建由热力图预测卷积块、目标中心偏移量预测卷积块和目标边界框宽高预测卷积块组成的目标检测分支,并构建由目标完全特征向量图预测卷积块和目标遮挡特征向量图预测卷积块组成的特征提取分支;并用目标检测分支和特征提取分支组成多任务联合模块;其中:
热力图预测卷积块、目标中心偏移量预测卷积块和目标边界框宽高预测卷积块分别为输出通道数为1、2、2的普通预测卷积结构;
目标完全特征向量图预测卷积块和目标遮挡特征向量图预测卷积块,分别为输出通道数为a和b的普通预测卷积结构,本实施例中a和b分别为128和256;
1.6)将多目标完全特征提取子网络和多目标遮挡特征提取子网络并联组成多目标融合特征提取模块,再将主干特征提取子网络,多目标融合特征提取模块和多任务联合模块级联构成深度神经网络模型。
步骤2,获取待跟踪图像及标签,并将边界框标签归一化处理。
2.1)顺序读取待跟踪视频的第t帧图像Ft∈RW×H×3及其中目标边界框标签集合B∈Rn×4,其中,R表示实数域符号,W,H分别表示图像的宽和高,3表示RGB通道数,n表示Ft中存在的目标个数;目标边界框记作(x,y,w,h),其中x∈[0,W],y∈[0,H],w∈(0,W],h∈(0,H);
2.2)对边界框标签集合B进行如下归一化处理:
归一化后边界框中心点坐标x∈[0,1],y∈[0,1]和边界框宽高w∈(0,1],h∈(0,1],归一化后的目标边界框标签集合记作B′。
步骤3,网络输出目标检测集合、目标完全特征向量集合和目标遮挡特征向量集合。
参照图3,本步骤的实现如下:
3.1)将图像Ft和归一化后的目标边界框标签集合B′输入到主干特征提取子网络,输出响应图X;
3.2)将响应图X输入多目标完全特征提取子网络,得到不同卷积层输出的不同下采样程度的中间特征图X1、X2和X3,该中间特征图X1、X2和X3分别相对于响应图X下采样2、4、8倍;
3.3)将响应图X与3.2)中得到的中间特征图X1、X2和X3进行多层特征图聚集,得到多目标完全特征图Xg;
参照图4,多层特征图聚集步骤如下:
其中,σu表示相对于原始输入图像下采样u倍的特征图,σv表示相对于原始输入图像下采样v倍的特征图,且u>v;τ(·)表示尺度不变卷积;表示将下采样v倍的特征图上采样为下采样为u倍的特征图,上采样方式为反卷积;表示尺度相同的特征图按位加法运算;σ′u表示聚集后的特征图,其尺度与特征图σu相同;
3.3.2)对响应图X与中间特征图X1、X2和X3进行聚集:
第1步,将响应图X和中间特征图X1、X2和X3分别记作σk、σk/2、σk/4、σk/8;
3.4)将响应图X和归一化后的目标边界框标签集合B′输入到多目标遮挡特征提取子网络的随机遮挡网络层,得到目标遮挡响应图X′,具体步骤如下;
3.4.1)将归一化后的目标边界框标签集合B′中所有边界框中心坐标(x,y)及宽高(w,h)在响应图X尺寸上还原,得到响应图X上的目标边界框集合BX,还原方式为x=x×WX,y=y×HX,w=w×WX,h=h×HX。其中WX和HX分别表示响应图X的宽高;
3.4.2)创建一个宽高与响应图X相同的二维矩阵M,并将矩阵M值全填1;对响应图X上的目标边界框集合BX中每一个边界框,将其在M上映射的区域进行随机遮挡,即随机取边界框内的一块连续区域全填0,该连续区域的选取规则为宽不超过w×w_drop_r,高不超过h×h_drop_r,其中w,h表示边界框的宽高,w_drop_r∈[0,1),h_drop_r∈[0,1);将处理后的M作为掩码;
3.4.3)将掩码M与响应图X按位乘,得到目标遮挡响应图X′;
3.5)将目标遮挡响应图X′继续经过多目标遮挡特征提取子网络余下部分处理,得到不同卷积层输出的不同下采样程度的中间特征图X′1、X′2和X′3,这些中间特征图X′1、X′2和X′3分别相对于目标遮挡响应图X′下采样2、4、8倍;
3.6)将目标遮挡响应图X′与3.5)中得到的中间特征图X′1、X′2和X′3进行多层特征图聚集,得到多目标遮挡特征图Xp;
3.7)将多目标完全特征图Xg和多目标遮挡特征图Xp输出到多任务联合模块,输出目标检测分支结果和特征提取分支结果:
参照图5,具体步骤如下:
3.7.1)将多目标完全特征图Xg∈RC×W×H经过热力图预测卷积变换输出热力图Xht∈R1×W×H,经过目标中心偏移量预测卷积变换输出偏移量Xoff∈R2×W×H,经过目标边界框宽高预测卷积变换输出目标边界框宽高Xwh∈R2×W×H,热力图预测值Xht、目标中心偏移量预测值Xoff和目标边界框宽高预测值Xwh共同作为目标检测分支结果,其中C表示Xg的通道数,W、H表示多目标完全特征图Xg的宽和高;
3.7.2)将多目标完全特征图Xg和多目标遮挡特征图Xp分别经过2维卷积块输出目标完全特征向量图Xge∈Ra×W×H和目标遮挡特征向量图Xpe∈Rb×W×H,目标完全特征向量图Xge和目标遮挡特征向量图Xpe共同作为特征提取分支结果,其中a表示目标完全特征向量的向量维度,b表示目标遮挡特征向量的向量维度;
3.8)将热力图Xht∈R1×W×H看作尺寸为W×H的二维矩阵A,并将矩阵A第xi行,第xj列位置上的值记为 同理将偏移量Xoff∈R2×W×H、目标边界框宽高Xwh∈R2×W×H、目标完全特征向量图Xge∈Ra×W×H和目标遮挡特征向量图Xpe∈Rb×W×H也分别看作尺寸为W×H的二维矩阵,并分别记作O、S、G、P,则有 其中分别表示矩阵O、S、G、P第xi行,第xj列位置上的值;
通过矩阵A对尺寸为W×H的二维空间位置进行坐标筛选:
如果则坐标(xi,xj)满足条件,将坐标(xi,xj)加入坐标集合L,得到满足条件的坐标集合:L={(xi1,xj1),(xi2,xj2),…,(xin,xjn)},其中n为满足坐标筛选条件的位置数,ε为筛选阈值,本实施例中ε=0.4;
否则,不做处理;
3.9)根据筛选出的坐标集合L,从3.2)中的矩阵O和S对应取出相应位置上的值,得到目标中心偏移量集合O′和目标边界框宽高集合S′:
对坐标集合L和目标中心偏移量集合O′中元素进行向量加法,得到检测到的n个目标边界框的中心坐标集合L′,再由目标边界框的中心坐标集合L′和目标边界框宽高集合S′组成图像Ft上的目标检测集合D;
3.10)根据筛选出的位置L,从3.2)中的矩阵G和P对应取出相应位置上的值,得到目标完全特征向量集合Eg和目标遮挡特征向量集合Ep:
其中,a表示目标完全特征向量的向量维度,b表示目标遮挡特征向量的向量维度。
步骤4,利用多任务联合训练方式对步骤1构建的网络模型进行有监督训练。
4.1)对目标检测集合D,利用目标检测模型CenterNet设计的损失函数计算目标检测分支的损失Ldet,其中,通过边界框标签生成热力图标签的方法也遵循CenterNet设计的方法;
其中,n为目标完全特征向量集合Eg中元素个数;将目标的身份属性看作类别,则K为训练数据中目标的全部类别数;表示目标完全特征向量集合Eg中第i个向量对应目标类别真实标签是否为类别l,为向量经过分类器FCg输出的预测结果中的第l个元素值,l∈[1,K];
其中,n为目标完全特征向量集合Ep中元素个数;将目标的身份属性看作类别,则K为训练数据中目标的全部类别数;表示目标遮挡特征向量集合Ep中第i个向量对应目标类别真实标签是否为类别l,为向量经过分类器FCp输出的预测结果中的第l个元素值,l∈[1,K];
4.4)为了实现目标检测任务与特征提取任务的联合训练,需要将深度神经网络中检测分支的损失与特征提取分支的损失融合到整个深度神经网络的损失Ltotal中,具体设计如下:
Lid=γLid_g+(1-γ)Lid_p
其中,Ldet为检测分支损失,Lid为特征提取分支损失,Lid_g和Lid_p分别为目标完全特征向量的分类损失和目标遮挡特征向量的分类损失,sα和sβ为网络自学习权重,γ为目标完全特征向量的分类损失Lid_g占整个分类损失的比重,本实施例中γ设置为0.5。
步骤5,利用训练完成的网络模型进行视频目标跟踪测试。
5.1)将待跟踪视频第一帧图像F1输入到深度卷积网络模型,得到目标检测集合D∈Rm×4、目标完全特征向量集合Eg∈Rm×a和目标遮挡特征向量集合Ep∈Rm×b,其中,m为检测到的目标数量,a为目标完全特征向量维度,b为目标遮挡特征向量维度;
5.2)利用第一帧图像得到的目标检测集合D、目标完全特征向量集合Eg和目标遮挡特征向量集合Ep,初始化目标轨迹T:
5.2.1)对目标检测集合中每个目标边界框Dj∈D,以其下标j作为其初始身份ID(Dj)=j;
5.3)深度卷积网络模型读入下一帧图像Ft,得到目标检测集合D∈Rn×4、目标完全特征向量集合Eg∈Rn×a和目标遮挡特征向量集合Ep∈Rn×b,并将目标完全特征向量集合Eg和目标遮挡特征向量集合Ep拼接融合,得到目标融合特征向量集合
5.4)将5.3)得到的目标检测集合D中的每个目标与目标轨迹T中的目标进行关联,确定目标检测集合D中每个目标的身份:
5.4.1)对检测到的每个目标的目标边界框Di∈D,利用其对应的目标融合特征向量计算该向量与目标轨迹T中每个目标对应的目标融合特征向量的余弦距离,得到距离矩阵Cn×m,其中,n为图像Ft上目标检测集合D的元素个数,m为目标轨迹T的元素个数,i∈[1,n],j∈[1,m];
5.4.2)对距离矩阵Cm×n运用匈牙利算法,得到目标匹配对集合P∈Rr×2,其中:
P集合中元素为目标检测集合D中元素下标与目标轨迹T中元素下标组成的二元组,r∈[0,min(m,n)];
5.4.3)根据目标匹配对集合P,设置第t帧图像Ft上目标检测集合D中检测到的目标其所属身份,即设P中任一目标匹配对为(i,j),则ID(Di)=ID(Tj),实现第t帧检测目标与轨迹目标匹配,其中Di为目标检测集合D中的第i个目标,Tj为目标轨迹T中第j个目标,ID(·)表示目标·所属身份;
5.5)重复5.3)到5.4),直至处理完最后一帧图像,完成视频多目标跟踪任务。
本发明的效果可通过以下仿真结果进一步说明:
1.仿真实验条件
本发明所用的硬件平台为:CPU采用八核八线程的Intel Core i7-9700k,其主频为3.6GHz、内存为64GB;GPU采用两块显存为24GB的Nvidia RTX 3090。所用的软件平台为:操作系统采用Ubuntu16.04LTS,深度学习计算框架采用PyTorch 1.4,编程语言采用Python3.6。
本仿真实验采用了多目标跟踪准确度MOTA、识别F值IDF1和ID转变数IDS这三个评价指标。其中:
多目标跟踪准确度MOTA,是测试集上被正确检测和匹配的样本比重,越接近于100表示跟踪器性能越好。
识别F值IDF1,是测试集上所有检测框中目标匹配的F值,其值在0~100%之间,此值越大说明分类效果越好。
ID转变数IDS,是跟踪轨迹中目标ID变换的次数,用于反应跟踪的稳定性,数值越小越好。
2.仿真内容与结果分析
用本发明和现有两种方法JDE和FairMOT在上述仿真条件下对行人多目标跟踪数据集MOT17测试,利用上述三个评价指标对跟踪结果进行评价,结果如表1。
表1现有技术与本发明在MOT17上的跟踪效果对比结果
方法名称\指标 | MOTA | IDF1 | IDS |
JDE | 63.9 | 57.9 | 4434 |
FairMOT | 73.2 | 72.8 | 2964 |
本发明方法 | 73.9 | 73.7 | 2640 |
从表1可见,本发明的多目标跟踪准确度MOTA、识别F值IDF1和ID转变数IDS均高于现有两种方法,说明本发明的整体跟踪效果和目标识别能力均优于两个现有方法。这是因为本发明通过设计特征提取分支同时提取目标的完全特征和遮挡特征,增强了目标检测和特征提取双任务联合训练中特征提取任务的损失占比,进而模型能够充分训练特征提取分支,使得联合训练模型能够在实现高性能目标检测的同时,还具备强视觉显著性特征提取能力,使跟踪流程中数据关联阶段准确度有效提升,从IDS指标可以看出,本发明显著降低了跟踪过程中错位匹配次数,大幅提高跟踪模型的稳定性。
综合上述,本发明提出的方法能够在不利用单独的视觉显著性特征提取模型情况下,直接在一个跟踪网络下实现目标检测和强特征提取两个任务联合训练,并使得联合训练模型能够在实现高性能目标检测的同时,还具备强视觉显著性特征提取能力。通过强视觉显著性特征提升数据关联准确性,进而提升跟踪模型的整体性能。
Claims (9)
1.一种基于深度学习及多任务联合训练的多目标跟踪方法,其特征在于,包括:
(1)构建由主干特征提取子网络、多目标完全特征提取子网络、多目标遮挡特征提取子网络和多任务联合模块级联构成的深度神经网络模型;
(2)获取第t帧图像Ft∈RW×H×3及其中目标边界框标签集合B∈Rn×4,对集合B进行归一化处理得到归一化后的目标边界框标签集合B′,其中,R表示实数域符号,W,H分别表示图像的宽,高,n表示Ft中存在的目标个数;
(3)将(2)得到的图像Ft和归一化后的目标边界框标签集合B′输入到(1)中的深度神经网络模型,输出目标检测集合D∈Rn×4和目标完全特征向量集合Eg∈Rn×a与目标遮挡特征向量集合Ep∈Rn×b,其中,a表示目标完全特征向量的向量维度,b表示目标遮挡特征向量的向量维度;
(4)通过拼接融合策略对(3)中的目标完全特征向量集合Eg∈Rn×a和目标遮挡特征向量集合Ep∈Rn×b进行融合,得到目标融合特征向量集合集合的n个目标融合特征向量与目标检测集合D的n个目标按照集合下标一一对应,即集合中的第i个目标融合特征向量属于集合D中的第i个目标,i∈[1,n];
(5)对目标检测集合D的目标融合特征向量集合与目标轨迹T的目标融合特征向量集合计算余弦距离,得到距离矩阵Cn×m,其中,目标轨迹T表示第t-1帧跟踪到的m个目标的集合,目标轨迹T中的每个目标都包含身份属性和目标融合特征向量,表示目标轨迹T中所有目标的目标融合特征向量组成的集合,
(6)利用距离矩阵Cn×m进行检测目标与轨迹目标的关联匹配,实现多目标跟踪。
3.根据权利要求1所述的方法,其特征在于,(3)中通过深度神经网络模型输出图像Ft上的目标检测集合D和目标完全特征向量集合Eg与目标遮挡特征向量集合Ep,实现如下:
3a)将图像Ft输入主干特征提取子网络得到响应图X;
3b)通过多目标完全特征提取子网络提取响应图X的多目标完全特征图Xg;
3c)通过多目标遮挡特征提取子网络处理响应图X与归一化后的目标边界框标签集合B′,得到多目标遮挡特征图Xp;
3d)通过多任务联合模块处理多目标完全特征图Xg与多目标遮挡特征图Xp,得到目标检测集合D∈Rn×4和目标完全特征向量集合Eg∈Rn×a与目标遮挡特征向量集合Ep∈Rn×b。
4.根据权利要求3所述的方法,其特征在于,3b)中通过多目标完全特征提取子网络提取响应图X的多目标完全特征图Xg,实现如下:
3b1)将响应图X输入多目标完全特征提取子网络,得到不同卷积层输出的不同下采样程度的中间特征图X1、X2和X3,该中间特征图X1、X2和X3分别相对于响应图X下采样2、4、8倍;
3b2)将响应图X与3b1)中得到的中间特征图X1、X2和X3进行多层特征图聚集,得到多目标完全特征图Xg。
5.根据权利要求4所述的方法,其特征在于,3b2)将响应图X与中间特征图X1、X2和X3进行多层特征图聚集,实现如下:
其中,σu表示相对于原始输入图像下采样u倍的特征图,σv表示相对于原始输入图像下采样v倍的特征图,且u>v;τ(·)表示尺度不变卷积;表示将下采样v倍的特征图上采样为下采样为u倍的特征图,上采样方式为反卷积;表示尺度相同的特征图按位加法运算;σ′u表示聚集后的特征图,其尺度与特征图σu相同;
3b2.2)对多层特征图进行聚集:
第1步,将响应图X和中间特征图X1、X2和X3分别记作σk、σk/2、σk/4、σk/8;
6.根据权利要求3所述的方法,其特征在于,3c)中得到多目标遮挡特征图Xp,实现如下:
3c1)将响应图X和归一化后的目标边界框标签集合B′输入到多目标遮挡特征提取子网络的随机遮挡网络层,得到目标遮挡响应图X′;
3c2)将目标遮挡响应图X′继续经过多目标遮挡特征提取子网络余下部分处理,得到不同卷积层输出的不同下采样程度的中间特征图X′1、X′2和X′3,这些中间特征图X′1、X′2和X′3分别相对于目标遮挡响应图X′下采样2、4、8倍;
3c3)将目标遮挡响应图X′与3c4)中得到的中间特征图X′1、X′2和X′3进行多层特征图聚集,得到多目标遮挡特征图Xp。
7.根据权利要求6所述的方法,其特征在于,3c1)中得到目标遮挡响应图X′,实现如下:
3c1.1)将归一化后的目标边界框标签集合B′中所有边界框中心坐标(x,y)及宽高(w,h)在响应图X尺寸上还原,得到响应图X上的目标边界框集合BX,还原方式为x=x×WX,y=y×HX,w=w×WX,h=h×HX。其中WX和HX分别表示响应图X的宽高;
3c2)创建一个宽高与响应图X相同的二维矩阵M,并将矩阵M值全填1;对响应图X上的目标边界框集合BX中每一个边界框,将其在M上映射的区域进行随机遮挡,即随机取边界框内的一块连续区域全填0,该连续区域的选取规则为宽不超过w×w_drop_r,高不超过h×h_drop_r,其中w,h表示边界框的宽高,w_drop_r∈[0,1),h_drop_r∈[0,1);将处理后的M作为掩码;
3c3)将掩码M与响应图X按位乘,得到目标遮挡响应图X′。
8.根据权利要求3所述的方法,其特征在于,3d)中通过多任务联合模块处理多目标完全特征图Xg与多目标遮挡特征图Xp,实现如下:
3d1)将多目标完全特征图Xg∈RC×W×H经过热力图预测卷积变换输出热力图Xht∈R1×W×H,经过目标中心偏移量预测卷积变换输出偏移量Xoff∈R2×W×H,经过目标边界框宽高预测卷积变换输出目标边界框宽高Xwh∈R2×W×H,其中C表示Xg的通道数,W、H表示多目标完全特征图Xg的宽和高;
3d2)将多目标完全特征图Xg∈RC×W×H经过2维卷积块输出目标完全特征向量图Xge∈Ra ×W×H,其中a表示目标完全特征向量的向量维度;
3d3)将多目标遮挡特征图Xp∈RC×W×H经过2维卷积块输出目标遮挡特征向量图Xpe∈Rb ×W×H,其中b表示目标遮挡特征向量的向量维度;
3d4)将热力图Xht∈R1×W×H看作尺寸为W×H的二维矩阵A,并将矩阵A第xi行,第xj列位置上的值记为 同理将偏移量Xoff∈R2×W×H、目标边界框宽高Xwh∈R2×W×H、目标完全特征向量图Xge∈Ra×W×H和目标遮挡特征向量图Xpe∈Rb×W×H也分别看作尺寸为W×H的二维矩阵,并分别记作O、S、G、P,则有其中分别表示矩阵O、S、G、P第xi行,第xj列位置上的值;
通过矩阵A对尺寸为W×H的二维空间位置进行坐标筛选:如果则坐标(xi,xj)满足条件,将坐标(xi,xj)加入坐标集合L,得到满足条件的坐标集合:L={(xi1,xj1),(xi2,xj2),…,(xin,xjn)},其中n为满足坐标筛选条件的位置数,ε为筛选阈值;
3d5)根据筛选出的坐标集合L,从3d4)中的矩阵O和S对应取出相应位置上的值,得到目标中心偏移量集合O′和目标边界框宽高集合S′,再对坐标集合L和目标中心偏移量集合O′中元素进行向量加法,得到检测到的n个目标边界框的中心坐标集合L′,再由目标边界框的中心坐标集合L′和目标边界框宽高集合S′组合,得到图像Ft上的目标检测集合D;
9.根据权利要求1所述的方法,其特征在于,(6)中利用距离矩阵Cn×m进行检测目标与轨迹目标的关联匹配,实现多目标跟踪,实现如下:
6a)对距离矩阵Cm×n运用匈牙利算法,得到目标匹配对集合P∈Rr×2,其中P集合中元素为目标检测集合D中元素下标与目标轨迹T中元素下标组成的二元组,r∈[0,min(m,n)];
6b)根据目标匹配对集合P,设置目标检测集合D中检测到的目标其所属身份,即设P中任一目标匹配对为(i,j),则ID(Di)=ID(Tj),其中Di为目标检测集合D中的第i个目标,Tj为目标跟踪集合T中第j个目标,ID(·)表示目标·所属身份,实现第t帧检测目标与轨迹目标匹配,完成当前帧跟踪任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107826.2A CN114529581A (zh) | 2022-01-28 | 2022-01-28 | 基于深度学习及多任务联合训练的多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107826.2A CN114529581A (zh) | 2022-01-28 | 2022-01-28 | 基于深度学习及多任务联合训练的多目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529581A true CN114529581A (zh) | 2022-05-24 |
Family
ID=81622364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210107826.2A Pending CN114529581A (zh) | 2022-01-28 | 2022-01-28 | 基于深度学习及多任务联合训练的多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529581A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897941A (zh) * | 2022-07-13 | 2022-08-12 | 长沙超创电子科技有限公司 | 基于Transformer和CNN的目标跟踪方法 |
CN115100565A (zh) * | 2022-06-16 | 2022-09-23 | 北京邮电大学 | 一种基于空间相关性与光流配准的多目标跟踪方法 |
CN117495917A (zh) * | 2024-01-03 | 2024-02-02 | 山东科技大学 | 基于jde多任务网络模型的多目标跟踪方法 |
-
2022
- 2022-01-28 CN CN202210107826.2A patent/CN114529581A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100565A (zh) * | 2022-06-16 | 2022-09-23 | 北京邮电大学 | 一种基于空间相关性与光流配准的多目标跟踪方法 |
CN115100565B (zh) * | 2022-06-16 | 2023-06-09 | 北京邮电大学 | 一种基于空间相关性与光流配准的多目标跟踪方法 |
CN114897941A (zh) * | 2022-07-13 | 2022-08-12 | 长沙超创电子科技有限公司 | 基于Transformer和CNN的目标跟踪方法 |
CN117495917A (zh) * | 2024-01-03 | 2024-02-02 | 山东科技大学 | 基于jde多任务网络模型的多目标跟踪方法 |
CN117495917B (zh) * | 2024-01-03 | 2024-03-26 | 山东科技大学 | 基于jde多任务网络模型的多目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Feature split–merge–enhancement network for remote sensing object detection | |
Zhang et al. | Mask SSD: An effective single-stage approach to object instance segmentation | |
CN114529581A (zh) | 基于深度学习及多任务联合训练的多目标跟踪方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
Zhang et al. | Part-aware region proposal for vehicle detection in high occlusion environment | |
CN113435319B (zh) | 一种联合多目标跟踪和行人角度识别的分类方法 | |
Tang et al. | Robust hyperspectral object tracking by exploiting background-aware spectral information with band selection network | |
Gao et al. | Improved YOLOX for pedestrian detection in crowded scenes | |
Liu et al. | WSRD-Net: A convolutional neural network-based arbitrary-oriented wheat stripe rust detection method | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Yu et al. | SignHRNet: Street-level traffic signs recognition with an attentive semi-anchoring guided high-resolution network | |
Vasanthi et al. | Multi-Head-Self-Attention based YOLOv5X-transformer for multi-scale object detection | |
Deng et al. | Jointing recurrent across-channel and spatial attention for multi-object tracking with block-erasing data augmentation | |
Pan et al. | Understanding the challenges when 3d semantic segmentation faces class imbalanced and ood data | |
Ding et al. | DHT: dynamic vision transformer using hybrid window attention for industrial defect images classification | |
CN117557804A (zh) | 联合目标结构嵌入和多层次特征融合的多标签分类方法 | |
Jiang et al. | MANet: An Efficient Multi-Dimensional Attention-Aggregated Network for Remote Sensing Image Change Detection | |
Sassi et al. | Sky-CNN: a CNN-based learning approach for skyline scene understanding | |
Wang et al. | GAN-STD: small target detection based on generative adversarial network | |
Li et al. | MEDMCN: a novel multi-modal EfficientDet with multi-scale CapsNet for object detection | |
Liu et al. | Multi-scale cross-layer fusion and center position network for pedestrian detection | |
Li et al. | Research on efficient detection network method for remote sensing images based on self attention mechanism | |
He et al. | DO-SA&R: Distant Object Augmented Set Abstraction and Regression for Point-Based 3D Object Detection | |
CN115294441B (zh) | 一种由注意力融合三特征的机器人场景识别与解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |