CN116309707A - 一种基于自校准与异构网络的多目标跟踪算法 - Google Patents

一种基于自校准与异构网络的多目标跟踪算法 Download PDF

Info

Publication number
CN116309707A
CN116309707A CN202310190654.4A CN202310190654A CN116309707A CN 116309707 A CN116309707 A CN 116309707A CN 202310190654 A CN202310190654 A CN 202310190654A CN 116309707 A CN116309707 A CN 116309707A
Authority
CN
China
Prior art keywords
convolution
self
calibration
tracking
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310190654.4A
Other languages
English (en)
Inventor
王玲
杜新兆
罗可心
王鹏
白燕娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202310190654.4A priority Critical patent/CN116309707A/zh
Publication of CN116309707A publication Critical patent/CN116309707A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自校准与异构网络的多目标跟踪算法,包括步骤一:在多目标跟踪过程中,采用不同帧之间目标外观特征、时间和空间维度进行图神经网络建模;步骤二:引入基于时间感知的消息传递网络建立消息传递层;步骤三:建立图跟踪网络模型;本方法通过提出基于自校准与异构卷积的离线图跟踪网络SCAACTrack,利用融合自校准卷积网络与非对称结构进行目标外观特征提取,有效提升了算法行人重识别能力;通过采用不同帧之间目标外观特征、时间和空间3种维度进行图神经网络建模,引入基于时间感知的消息传递网络加强多目标跟踪流式守恒约束,能够对目标有效跟踪,具有鲁棒性好和激活边选取能力高的特点。

Description

一种基于自校准与异构网络的多目标跟踪算法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于自校准与异构网络的多目标跟踪算法。
背景技术
多目标跟踪主要通过计算机视觉相关技术,将视频中每一帧目标都赋予一个唯一ID,并且得到其对应轨迹;早期的多目标跟踪算法集中于传统统计学、概率学方法,如卡尔曼滤波、粒子滤波、核相关滤波等,该类算法利用卡尔曼滤波或概率算法预测检测框在下一帧的状态,将该状态与下一帧的检测结果进行匹配,实现多目标跟踪;
然而,若跟踪受到遮挡或未被检测,卡尔曼滤波预测的状态信息将无法和检测结果进行匹配;当遮挡结束后,目标检测可能又将被继续执行并生成新的ID编号,造成大量ID切换的现象;近年来,随着机器学习、神经网络技术的不断发展与完善,多目标跟踪领域开始逐渐向基于深度学习网络模型的方向靠拢;
2016年,BewleyA等人提出SORT算法,该算法可分为三个阶段:1)目标检测;2)目标运动预测;3)数据关联;其中,使用FasterRCNN作为目标检测模型,接着采用卡尔曼滤波进行目标位置的预测,最后使用匈牙利算法来实现数据关联,即前后帧的目标匹配,从而完成目标跟踪任务;但由于忽略了被检测目标的外观特征,SORT算法仅在目标状态确定的情况下表现良好;Wojke N提出的DeepSort是在SORT算法的基础上从行人重识别任务中提取目标外观特征,提高网络对丢失和遮挡目标特征提取的鲁棒性,大大减少了目标标签切换次数,提高了跟踪的精度,但这也使得跟踪速度有所下降;Bae S.提出CDA-DDAL算法,该算法利用小轨道的可检测性和连续性联合计算小轨道的置信度,根据该置信度对多目标跟踪任务进行划分,最后依据其置信度将子任务以不同的方式进行关联,从而解决了在线多目标跟踪问题;之后,MilanA等人首次提出在线多目标跟踪的端到端模式,将经典的贝叶斯状态估计、数据关联以及轨迹起始和终止任务作为递归神经网络来学习跟踪和检测之间的关联;SadeghianA等人通过使用长短期记忆网络(LongShortTermMemory,LSTM)的自回归和匹配分类来预测运动和外观特征,大大提高了跟踪的准确性;ChuQ等人提出STAM-MOT算法,该算法利用空间和时间注意力机制解决遮挡问题;Ma L等人提出层次关联聚类框架,该框架主要针对在拥挤街道场景下的行人跟踪问题,利用现有的稳定跟踪模型,采用不同的图网络结构来生成跟踪框和跟踪轨迹,一定程度上解决了长期遮挡问题;但现有的多目标跟踪算法仍存在:
1.图神经网络中特征提取算法表达性不强而导致的在人群环境密集的情况下难以提取目标特征信息;
2.在目标漂移、旋转等情况下,算法无法提取目标的精准外观特征信息,进而影响图神经网络中消息传递的精度难以有效保证;
3.单一CNN对目标外观特征提取较弱等问题;
因此,亟需设计一种新的多目标跟踪算法,以解决上述现有技术存在的问题。
发明内容
针对上述存在的问题,本发明旨在提供一种基于自校准与异构网络的多目标跟踪算法,本方法通过提出基于自校准与异构卷积的离线图跟踪网络SCAACTrack,利用融合自校准卷积网络与非对称结构进行目标外观特征提取,有效提升了算法行人重识别能力;通过采用不同帧之间目标外观特征、时间和空间3种维度进行图神经网络建模,引入基于时间感知的消息传递网络加强多目标跟踪流式守恒约束,能够实现对目标的有效跟踪,具有鲁棒性好和激活边选取能力高的特点。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于自校准与异构网络的多目标跟踪算法,包括
步骤一:在多目标跟踪过程中,采用不同帧之间目标外观特征、时间和空间3种维度进行图神经网络建模
S1.在多目标跟踪过程中,建立自校准异构卷积层,所述自校准异构卷积层包括自校准卷积网络和异构卷积模型
S101.用自校准卷积算法进行目标特征提取,建立自校准卷积网络;
S102.在自校准卷积网络的基础上,建立异构卷积模型;
S2.在自校准异构卷积层的基础上,建立图跟踪网络;
步骤二:引入基于时间感知的消息传递网络建立基于时间感知的消息传递层
S3.在步骤一图神经网络构建完毕后,采用基于时间感知的消息传递算法建立基于时间感知的消息传递层;
步骤三:在图神经网络和消息传递层的基础上,进行训练推导,建立图跟踪网络模型。
优选的,步骤S101所述的自校准卷积算法的算法过程包括
S1011.首先将输入尺寸为C×H×W的原始图像X拆分为两个尺寸为
Figure BDA0004105299770000031
Figure BDA0004105299770000032
的X1和X2,对X1进行r=4倍的下采样后得到T1,对T1进行K2卷积操作后,再进行r=4的双线性插值上采样,得到X'1,其中T1的计算如式(1)所示:
T1=AvgPoolr(X1)X'1=Up(F(T1)) (1)
S1012.接着将X'1与X1求和后输入到Sigmod函数中,将输出结果与经过K3卷积的特征嵌入相乘得到Y1',计算如式(2)所示:
Y1'=F3(X1)·σ(X1+X'1) (2)
S1013.对原尺度特征空间进行处理,对特征X2经过K1卷积提取得到特征Y2,对两个尺度空间输出特征Y1、Y2进行拼接操作,得到最终输出特征Y,具体计算过程如式(3)、式(4)所示:
Y1=F4(Y1')=Y1'·K4 (3)
Y=Y1+Y2=Y1+X2·K1 (4)。
优选的,步骤S102所述的异构卷积模型的卷积核操作过程包括
S1021.首先将3×3的卷积核拆分为几个不同形状卷积核的形式进行训练,推理阶段将其融合为一个3×3卷积,利用该3×3卷积进行特征提取的计算如式(5)所示:
Figure BDA0004105299770000041
S1022.在自校准卷积网络中引入非对称卷积结构,对自校准卷积网络中的每一个卷积操作F替换为K×K,K×1,1×K大小的卷积操作,之后将卷积结果进行累加得到最终特征图;
其中K2被分成了K2×K2,K2×1,1×K2三部分,最终进行累加得到稳定特征值,其中K1,K3,K4部分同K2相同;
S1023.在训练阶段引入1×3卷积核,对图像上下和竖直翻转。
优选的,步骤S2所述的图跟踪网络采用基于检测的多目标跟踪方式进行多目标跟踪,将检测目标连接到轨迹中,其具体过程包括
S201.在目标检测程中,目标检测器是预先训练的,跟踪目标的类型和数量由检测算法决定,无需手工标记,将多目标跟踪过程建模为无向图G=(V,E)模型,其中每一个结点i=V代表了一个独立的检测目标,Oi=O;
对不同帧的每对检测构建一条边E,允许恢复有丢失检测的跟踪轨迹;场景中的每个跟踪轨迹T*={T1,...,Tm}均能够被映射到图中的一组结点{i1,...,ini},对图上每条边引入一个二元变量,若该边连接了属于同一条跟踪轨迹且在同一条跟踪轨迹上是时间连续的结点,标签为1,否则为0;对于不同时间戳上的每对结点(i,j)=E,定义二元变量如式(6)所示:
Figure BDA0004105299770000042
当y(i,j)=1时,对应边(i,j)被视为激活状态;每条跟踪轨迹是结点不相交的,即一个结点不会属于超过一个跟踪轨迹,因此y(i,j)需满足两个线性约束,则对每个结点i=V有:
Figure BDA0004105299770000043
Figure BDA0004105299770000051
S202.本跟踪框架采用SCAAC算法将每帧目标检测提取到的外观特征作为图神经网络的结点嵌入,每帧目标相对位置作为图中的边嵌入,初始化图结点嵌入式如式(9)所示:
Figure BDA0004105299770000052
S203.针对不同时间戳ti、tj的两个检测oi、oj,计算其相对距离变量如式(10)所示:
Figure BDA0004105299770000053
将变量oi-oj、时间戳距离tj-ti和外貌相对距离相连接输入神经网络
Figure BDA0004105299770000054
中得到初始化边嵌入/>
Figure BDA0004105299770000055
其中/>
Figure BDA0004105299770000056
代表外观特征提取网络SCAAC,ai对应每一个目标检测区域;xi,yi,hi,wi和xj,yj,hj,wj分别代表针对不同时间戳的两个检测ai和aj的边界框。
优选的,步骤S3所述的基于时间感知的消息传递层的计算过程包括S301.将T-1帧和T+1的结点分别视为过去结点和未来结点,用
Figure BDA0004105299770000057
和/>
Figure BDA0004105299770000058
表示,将来自过去和未来的结点嵌入分别独立聚合,经过concat生成满足流式守恒约束的最终嵌入,如式(11)所示:
Figure BDA0004105299770000059
其中在式(11)中,Nv代表连接函数,
Figure BDA00041052997700000510
和/>
Figure BDA00041052997700000511
分别代表结点d的位置对未来和过去的第l次迭代特征聚合,如式(12)、(13)所示:
Figure BDA00041052997700000512
Figure BDA00041052997700000513
其中
Figure BDA00041052997700000514
为结点d在第l迭代中接受到的消息体,具体计算如式(14)所示:
Figure BDA0004105299770000061
优选的,步骤三所述的图跟踪网络模型的建立过程包括
对于经过消息迭代后的每一条边,使用MLP加上一个sigmod输出单元的
Figure BDA0004105299770000062
用以表示类别,对于每个边(i,j)=E,通过输入/>
Figure BDA0004105299770000063
得到第l层迭代结果/>
Figure BDA0004105299770000064
计算预测/>
Figure BDA0004105299770000065
训练时,对于最后一层嵌入的预测使用的是基于真实标签y的二分类交叉熵,计算如式(15)所示:
Figure BDA0004105299770000066
其中l0=1,...,L,w表示一个衡量参数,y=[0,1]。
本发明的有益效果是:本发明公开了一种基于自校准与异构网络的多目标跟踪算法,与现有技术相比,本发明的改进之处在于:
1.本发明提出了一种可用于多目标跟踪的基于自校准与异构卷积的离线图跟踪网络SCAACTrack,可应用与公共场所行人流量检测或者异常行为捕捉等场景,本图跟踪网络SCAACTrack的重要贡献包括:
1)通过引入全新的融合非对称与自校准的卷积特征提取机制,有效抑制了背景信息对特征提取过程的影响,增强了卷积网络对于目标外观的特征提取效率;
2)通过在图神经网络中使用卷积神经网络算法作为结点和边嵌入的计算基础,增强了图神经网络消息传递的准确性;
3)特征提取机制可以主动适配不同图像,扩大了使用范围;
2.本基于自校准与异构网络的多目标跟踪算法在使用时,利用SCAAC算法的特征嵌入与目标位置嵌入来构建图神经网络,使用基于时间感知的消息传递机制更新信息,通过设置固定阈值对图的边进行分类,最终实现多目标跟踪任务,具有鲁棒性好和激活边选取能力高的优点。
附图说明
图1为本发明SCAACTrack模型整体结构图。
图2为本发明自校准卷积算法流程图。
图3为本发明3×3水平翻转特征提取操作图。
图4为本发明非对称自校准卷卷积核操作流程图。
图5为本发明1×3水平翻转特征提取操作图。
图6为本发明基于时间感知的消息传递网络图。
图7为本发明实施例2模型在训练和推理期间模型GPU内存占比曲线图。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
实施例1:参照附图1-7所示的一种基于自校准与异构网络的多目标跟踪算法,包括
步骤一:在多目标跟踪过程中,采用不同帧之间目标外观特征、时间和空间3种维度进行图神经网络建模(构建当前时刻跟踪多目标的轨迹)
S1.在多目标跟踪过程中,建立自校准异构卷积层,利用自校准异构卷积层对不同帧之间的目标进行外观特征提取,所述自校准异构卷积层包括自校准卷积网络和异构卷积模型,其具体建立过程包括
S101.首先采用自校准卷积算法进行目标行人特征提取,建立自校准卷积网络
本算法首先采用自校准卷积算法(Self-CalibratedConvolutions,SCC)进行目标行人特征提取,其目的是帮助卷积神经网络生成更具有辨识性的表示,加强多目标网络图中的结点嵌入表达;它的基本思路是在原始尺度空间中的特征图和下采样后较小的潜在空间图中进行卷积特征转换;下采样后的特征具有较大的感受野,因此在较小的潜在空间中进行变换后的嵌入将用作参考,以指导原始特征空间中的特征变换过程;自校准卷积算法流程如图2所示;
S1011.首先将输入尺寸为C×H×W的原始图像X拆分为两个尺寸为
Figure BDA0004105299770000081
Figure BDA0004105299770000082
的X1和X2,对X1进行r=4倍的下采样后得到T1,对T1进行K2卷积操作后,再进行r=4的双线性插值上采样,得到X'1,其中T1的计算如式(1)所示:
T1=AvgPoolr(X1)X'1=Up(F(T1)) (1)
S1012.接着将X'1与X1求和后输入到Sigmod函数中,接着将输出结果与经过K3卷积的特征嵌入相乘得到Y1',计算如式(2)所示:
Y1'=F3(X1)·σ(X1+X'1) (2)
S1013.再对原尺度特征空间进行处理,对特征X2经过K1卷积提取得到特征Y2,对两个尺度空间输出特征Y1、Y2进行拼接操作,得到最终输出特征Y,具体计算过程如式(3)、式(4)所示:
Y1=F4(Y1')=Y1'·K4 (3)
Y=Y1+Y2= Y1+X2·K1 (4)
与传统卷积相比,采用自校准操作不仅可以将目标背景信息作为低分辨率空间的嵌入来指导原始尺度空间的特征变换,还可以对通道间的依赖性进行建模;因此,该算法可以有效地扩大自校准卷积层的感受野;此外,自校准卷积操作不收集全局上下文,而只考虑每个空间位置周围的上下文,从而避免了无关区域的无用信息;
S102.在自校准卷积网络的基础上,建立异构卷积模型
由于自校准卷积算法主要针对固定区域目标外观特征提取,当目标发生旋转、飘逸后,算法提取到的特征并不准确,且鲁棒性较差;如图3所示,以主流的3×3卷积核为例,可以看出,在图像翻转前后,从输入图像的相同位置处提取的特征有所不同;
S1021.为增强外观特征的可表示性,将3×3的卷积核拆分为几个不同形状卷积核的形式进行训练,推理阶段将其融合为一个3×3卷积,没有带来额外的计算量,但是提取特征的能力更强;这依赖于卷积操作的可叠加性,特征提取的计算如式(5)所示:
Figure BDA0004105299770000091
由式(5)可知,先进行K1和I的卷积、K2和I的卷积后再对结果进行相加与先进行K1和K2的逐点相加后再和I进行卷积得到的结果是一致的;同时,该公式还表明非对称卷积不会增加额外的计算量;计算过程如图4所示,其中令K=3;
S1022.在自校准卷积网络中引入非对称卷积结构,对自校准卷积网络中的每一个卷积操作F替换为K×K,K×1,1×K大小的卷积操作,之后将卷积结果进行累加得到最终特征图;其中K2被分成了K2×K2,K2×1,1×K2三部分,最终进行累加得到稳定特征值,图中K1,K3,K4部分同K2所示;
S1023.非对称卷积的引入有助于提升自校准卷积对于图像翻转和旋转的鲁棒性,在训练阶段引入1×3卷积核,即使在验证阶段将输入图像进行上下翻转,该卷积核仍然能够提取正确的特征,特征提取操作如图5所示;
由图5可知,在经过翻转前后,对输入图像的相同位置处提取的特征一致;因此,引入3×1水平卷积核可以提升模型对图像上下翻转的鲁棒性,竖直方向卷积核同理;
S2.在自校准异构卷积层的基础上,采用基于检测的多目标跟踪方式建立图跟踪网络
本算法采用基于检测的多目标跟踪方式(Detection-Based Tracking,DBT),首先逐帧检测待跟踪目标,然后将其连接到对应的轨迹中;在给定视频序列的情况下,对每帧图像应用特定的对象或运动检测算法来获得待跟踪目标的标记,然后进行多目标跟踪,将检测目标连接到轨迹中;
S201.在此过程中,目标检测器是预先训练的,跟踪目标的类型和数量由检测算法决定,无需手工标记;该问题可建模为无向图G=(V,E)模型,其中每一个结点i=V代表了一个独立的检测目标,即Oi=O;对不同帧的每对检测构建一条边E,允许恢复有丢失检测的跟踪轨迹;场景中的每个跟踪轨迹T*={T1,...,Tm}均能够被映射到图中的一组结点{i1,...,ini},为此,对图上每条边引入一个二元变量,若该边连接了属于同一条跟踪轨迹且在同一条跟踪轨迹上是时间连续的结点,其标签为1,否则为0;对于不同时间戳上的每对结点(i,j)=E,定义二元变量如式(6)所示:
Figure BDA0004105299770000101
当y(i,j)=1时,对应边(i,j)被视为激活状态;因为每条跟踪轨迹是结点不相交的,即一个结点不会属于超过一个跟踪轨迹,因此y(i,j)需满足两个线性约束,则对每个结点i=V有:
Figure BDA0004105299770000102
Figure BDA0004105299770000103
S202.本跟踪框架采用SCAAC算法将每帧目标检测提取到的外观特征作为图神经网络的结点嵌入,每帧目标相对位置作为图中的边嵌入,则初始化图结点嵌入式如式(9)所示:
Figure BDA0004105299770000104
S203.针对不同时间戳ti、tj的两个检测oi、oj,计算其相对距离变量如式(10)所示:
Figure BDA0004105299770000105
将变量oi-oj、时间戳距离tj-ti和外貌相对距离相连接输入神经网络
Figure BDA0004105299770000106
中得到初始化边嵌入/>
Figure BDA0004105299770000107
其中/>
Figure BDA0004105299770000108
代表外观特征提取网络SCAAC,ai对应每一个目标检测区域;xi,yi,hi,wi和xj,yj,hj,wj分别代表针对不同时间戳的两个检测ai和aj的边界框;
步骤二:引入基于时间感知的消息传递网络建立基于时间感知的消息传递层(把前后时刻同一目标的轨迹进行连接)
S3.在步骤一图神经网络构建完毕后,进行图中结点与边之间的消息传递过程;与普通消息传递方法相比,本实施例采用了基于时间感知的消息传递算法,有效提升了更新后的结点嵌入对跟踪约束的束缚,其过程如图6所示;
S301.将T-1帧和T+1的结点分别视为过去结点和未来结点,用
Figure BDA0004105299770000111
和/>
Figure BDA0004105299770000112
表示,将来自过去和未来的结点嵌入分别独立聚合,经过concat生成满足流式守恒约束的最终嵌入,如式(11)所示:
Figure BDA0004105299770000113
其中Nv代表连接函数,
Figure BDA0004105299770000114
和/>
Figure BDA0004105299770000115
分别代表结点d的位置对未来和过去的第l次迭代特征聚合,如式(12)、(13)所示:
Figure BDA0004105299770000116
Figure BDA0004105299770000117
其中
Figure BDA0004105299770000118
为结点d在第l迭代中接受到的消息体,具体计算如式(14)所示:
Figure BDA0004105299770000119
步骤三:在图神经网络和消息传递层的基础上,进行训练推导,建立图跟踪网络模型
对于经过消息迭代后的每一条边,使用MLP加上一个sigmod输出单元的
Figure BDA00041052997700001110
用以表示类别,对于每个边(i,j)=E,通过输入/>
Figure BDA00041052997700001111
得到第l层迭代结果/>
Figure BDA00041052997700001112
计算预测/>
Figure BDA00041052997700001113
训练时,对于最后一层嵌入的预测使用的是基于真实标签y的二分类交叉熵,计算如式(15)所示:
Figure BDA0004105299770000121
其中l0=1,...,L,w表示一个衡量参数,y=[0,1];由于采用基于时间感知的更新步骤,故设置阈值0.5的二值化也能很好的满足流式守恒约束的限制,最后使用一个简单的贪婪舍入方案获得一个可行的二值输出。
优选的,通过上述方法,建立了一个SCAACTrack模型,所述SCAACTrack模型利用T-1、T、T+1之间目标外观特征、距离和时间差值来构建图神经网络;网络中采用异构自校准卷积模块进行目标外观特征提取,以提高图模型表达能力;SCAACTrack模型整体结构如图1所示;
所述SCAACTrack模型主要由自校准异构卷积层(Self-calibratedConvolutionsAndAsymmetric Convolution SCAAC)、图网络嵌入层、基于时间感知的消息传递层以及激活边分类构成。
优选的,所述的SCAACTrack模型的工作流程包括:
SCAATrack模型能应用在多种场景中,如离线多目标行人检测中,具体工作流程如下:首先获取离线视频中的三个相邻帧图片,将其输入到自校准异构卷积中,在该层中利用加入非对称卷积结构的自校准卷积网络提取多目标行人的外观特征;然后将外观特征通过图结构特征嵌入层进行数据关联;接着采用基于时间感知的算法进行输入图中结点与边之间的消息传递;最后针对消息迭代后的每一条边进行划分,进而得到离线视频中每个行人的轨迹。
实施例2:为了进一步验证如本事发明实施例1所述技术方案的可行性和优越性,设计本实施例对上述基于自校准与异构网络的多目标跟踪算法进行验证:
步骤四:实验结果分析
S4.1数据集与环境配置
本实施例实验使用2DMOT15、MOT17,MOT数据集,这些数据集是衡量多目标跟踪方法标准的数据集;其中,2DMOT15数据集共有22个视频序列,其中测试集和训练集各11个;MOT17数据集共有14个视频序列,测试集和训练集各7个;本次实验采用2DMOT15的训练集与MOT17数据集上的2,4,5,9,10,11,13序列数据进行训练,为了保证实验的一致性,输入目标的检测信息均采用SDP算法,为了检验算法的鲁棒性,在2DMOT15测试序列与MOT17数据集的1,3,6,7,8,12,14序列上进行了测试;实验硬件环境如表1所示:
表1:硬件环境配置
Figure BDA0004105299770000131
S4.2评价指标
本实施例首先选取多目标跟踪中重要的评价指标准确度(Multiple ObjectTrackingAccuracy,MOTA)做为评价方法,MOTA非常直观的给出了衡量跟踪识别目标和保持一致性的能力,其计算如式(16)所示:
Figure BDA0004105299770000132
其中,、、分别为t帧时漏检、误检和错误匹配的数量(IDS),gt代表Ground Truth即真实的标签或对象;
为了对比SCAACTrack算法对目标跟踪的精度,选择IDF1作为衡量标准,IDF1计算如式(17)所示:
Figure BDA0004105299770000141
其中,IDP为ID准确率(Identification precision),IDR为ID召回率(Identification recall),与普通MOTA不同的是,IDF1中的TP、FP、FN考虑了ID信息,而MOTA指标中只有IDS考虑了ID信息,对此可得出,IDF1对轨迹中ID信息的准确性更为敏感;
MT(Mostly Tracked)表示为对于给出的所有GT轨迹中,满足至少80%的时间都能匹配成功的轨迹数目占比,该指标不注重跟踪过程中是否发生了IDS,只要检测框能成功匹配即可;
ML(Mostly Lost)对于给出的所有GT轨迹中,满足小于20%的时间都能匹配成功的轨迹数目占比,该指标于MT恰好相反,且该指标越小说明跟踪效果越好;
FP为模型预测为正的负样本或误报,FN为被模型预测为负的正样本或漏报;IDS为ID转变数,具体指跟踪轨迹中目标ID切换的次数,对跟踪算法的鲁棒性有很好的衡量效果,该指标越小说明算法越稳定。
S4.3实验结果分析
S4.3.1 2DMOT15实验结果分析
本实验采用相同目标检测器SDP,选取常用的MPNTrack、Tracktor、KCF、AP_HWDPL_p算法进行对比;各算法的MOTA、IDF1、MT、ML、FP、FN、IDS性能指标如表2所示:
表2:各算法在2DMOT15数据集上检测结果对比
Figure BDA0004105299770000142
从表2中可以看出,本发明实施例1算法在MOTA、IDF1和IDS等各项指标表现上都较为优异;对比本发明实施例1算法与MPNTrack算法的个性能指标可知,SCAACTrack在IDS上提升了5%,MOTA和IDF1指标基本持平;这说明,在处理存在遮挡情况的场景中,本发明实施例1算法表现更优;这是由于本文算法融入了非对称的自校准卷积特征提取结构,故相对于MPNTrack算法,其在精准度方面和IDS上有了一定提升,对遮挡问题的鲁棒性也更强。
S4.3.2MOT17实验结果分析
SCAACTrack算法在MOT17各测试序列上的实验结果如表3所示:
表3:算法在MOT17各序列结果
Figure BDA0004105299770000151
从表3可以看出,SCAAC算法在MOT17数据集的不同序列上表现出了良好的跟踪性能;针对跟踪目标数高达104675、背景昏暗且拍摄角度较高的MOT17-03序列,MOTA指标为74.4%,IDS指标为131;在阴影变换较大,目标拥挤的步行街道MOT17-08数据集中,MOTA为32.2%,IDS指标为47,达到了多目标跟踪的主流水平;
此外,本算法与MPNTrack、Tracktor、JBNOT、FAMNet算法对比实验结果如表4所示:
表4:不同模型在MOT17数据集上检测结果对比
Figure BDA0004105299770000152
Figure BDA0004105299770000161
从表4中可以看出,融合自校准异构卷积的图传递跟踪算法SCAACTrack在各视频序列上的跟踪精度均高于其他算法;和基准算法MPNTrack相比,在检测准确度和ID切换方面都有一定提升;其中对于IDS部分,提升了17%,这是因为该网络融合了目标多维度相关特征,使得模型在保持原有跟踪精度的前提下,对拥挤场合中的多目标跟踪具有更强的适用性,避免了目标背景重叠与拥堵造成的IDSwitch;数据关联阶段采用基于时间感知的消息传递,保证了结点对于流式守恒约束的敏感性,有效的提高了划分激活边阶段的分类能力,进而提高了跟踪算法的精度。
S4.3.3内存占用实验结果分析
为了验证模型的可用性,图7给出了基准算法MPNTrack与SCAACTrack在模型训练和模型推理时GPU内存占比情况;
图7中横坐标表示实验中模型占用内存情况,纵坐标表示内存占用大小在实验中出现的频率百分比,即(出现在某个占用的次统计数/总统计数)×100;从图7可知,SCAACTrack在训练过程中出现的最大相对频率较MPNTrack低,在推理过程中的最大内存占用较MPNTrack少且整个推理过程的内存占用频率较平稳;
总体来看,SCAACTrack在训练和推理过程中内存占用略高于MPNTrack,但差距不大;该实验进一步说明了SCAACTrack算法在保证对资源占用稳定的同时,通过引入自校准结构和异构卷积模块,在不牺牲算法性能的前提下,提高了目标跟踪的精准度。
S4.3.4消融实验
为证明算法有效性,本实验在基准算法MPNTrack基础上,使用2DMOT15数据集对所提算法进行消融验证,并对改进的策略进行逐步验证并加以对比。
首先设计3组消融实验,第一组为MPN-SC,在进行ReID特征提取时,仅采用自校准卷积结构,对自校准主干卷积网络不使用非对称结构;第二组为MPN-SC1,使用自校准卷积结构并且在其校准分支中采用非对称卷积模块,在其正常卷积分支中不采用非对称卷积结构;第三组实验设计为SCAACTrack,将本文所提改进策略全部应用在MPNTrack算法中;具体实验结果如表5所示;
表5:消融实验
Figure BDA0004105299770000171
从表5可以看出,SCAACTrack多目标跟踪算法分别在MOTA指标和IDS指标高出基准MPNTrack算法0.1%和5.6%;高出第一组MPN-SC算法0.1%和4.6%,第二组MPN-SC1和SCAACTrack在MOTA上持平,但IDS指标高出5%;由此证明,本发明实施例1所提算法SCAACTrack在MPNTrack算法基础上逐步进行优化,对多目标跟踪任务跟踪精度有着积极促进作用。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于自校准与异构网络的多目标跟踪算法,其特征在于:包括
步骤一:在多目标跟踪过程中,采用不同帧之间目标外观特征、时间和空间3种维度进行图神经网络建模
S1.在多目标跟踪过程中,建立自校准异构卷积层,所述自校准异构卷积层包括自校准卷积网络和异构卷积模型
S101.用自校准卷积算法进行目标特征提取,建立自校准卷积网络;
S102.在自校准卷积网络的基础上,建立异构卷积模型;
S2.在自校准异构卷积层的基础上,建立图跟踪网络;
步骤二:引入基于时间感知的消息传递网络建立基于时间感知的消息传递层
S3.在步骤一图神经网络构建完毕后,采用基于时间感知的消息传递算法建立基于时间感知的消息传递层;
步骤三:在图神经网络和消息传递层的基础上,进行训练推导,建立图跟踪网络模型。
2.根据权利要求1所述的一种基于自校准与异构网络的多目标跟踪算法,其特征在于:步骤S101所述的自校准卷积算法的算法过程包括
S1011.首先将输入尺寸为C×H×W的原始图像X拆分为两个尺寸为
Figure FDA0004105299760000011
Figure FDA0004105299760000012
的X1和X2,对X1进行r=4倍的下采样后得到T1,对T1进行K2卷积操作后,再进行r=4的双线性插值上采样,得到X'1,其中T1的计算如式(1)所示:
T1=AvgPoolr(X1)X'1=Up(F(T1)) (1)
S1012.接着将X'1与X1求和后输入到Sigmod函数中,将输出结果与经过K3卷积的特征嵌入相乘得到Y1',计算如式(2)所示:
Y1′=F3(X1)·σ(X1+X1) (2)
S1013.对原尺度特征空间进行处理,对特征X2经过K1卷积提取得到特征Y2,对两个尺度空间输出特征Y1、Y2进行拼接操作,得到最终输出特征Y,具体计算过程如式(3)、式(4)所示:
Y1=F4(Y1')=Y1'·K4 (3)
Y=Y1+Y2=Y1+X2·K1 (4)。
3.根据权利要求1所述的一种基于自校准与异构网络的多目标跟踪算法,其特征在于:步骤S102所述的异构卷积模型的卷积核操作过程包括
S1021.首先将3×3的卷积核拆分为几个不同形状卷积核的形式进行训练,推理阶段将其融合为一个3×3卷积,利用该3×3卷积进行特征提取的计算如式(5)所示:
Figure FDA0004105299760000021
S1022.在自校准卷积网络中引入非对称卷积结构,对自校准卷积网络中的每一个卷积操作F替换为K×K,K×1,1×K大小的卷积操作,之后将卷积结果进行累加得到最终特征图;
其中K2被分成了K2×K2,K2×1,1×K2三部分,最终进行累加得到稳定特征值,其中K1,K3,K4部分同K2相同;
S1023.在训练阶段引入1×3卷积核,对图像上下和竖直翻转。
4.根据权利要求1所述的一种基于自校准与异构网络的多目标跟踪算法,其特征在于:步骤S2所述的图跟踪网络采用基于检测的多目标跟踪方式进行多目标跟踪,将检测目标连接到轨迹中,其具体过程包括
S201.在目标检测程中,目标检测器是预先训练的,跟踪目标的类型和数量由检测算法决定,无需手工标记,将多目标跟踪过程建模为无向图G=(V,E)模型,其中每一个结点i=V代表了一个独立的检测目标,Oi=O;
对不同帧的每对检测构建一条边E,允许恢复有丢失检测的跟踪轨迹;场景中的每个跟踪轨迹T*={T1,...,Tm}均能够被映射到图中的一组结点{i1,...,ini},对图上每条边引入一个二元变量,若该边连接了属于同一条跟踪轨迹且在同一条跟踪轨迹上是时间连续的结点,标签为1,否则为0;对于不同时间戳上的每对结点(i,j)=E,定义二元变量如式(6)所示:
Figure FDA0004105299760000031
当y(i,j)=1时,对应边(i,j)被视为激活状态;每条跟踪轨迹是结点不相交的,即一个结点不会属于超过一个跟踪轨迹,因此y(i,j)需满足两个线性约束,则对每个结点i=V有:
Figure FDA0004105299760000032
Figure FDA0004105299760000033
S202.本跟踪框架采用SCAAC算法将每帧目标检测提取到的外观特征作为图神经网络的结点嵌入,每帧目标相对位置作为图中的边嵌入,初始化图结点嵌入式如式(9)所示:
Figure FDA0004105299760000034
S203.针对不同时间戳ti、tj的两个检测oi、oj,计算其相对距离变量如式(10)所示:
Figure FDA0004105299760000035
将变量oi-oj、时间戳距离tj-ti和外貌相对距离相连接输入神经网络
Figure FDA0004105299760000036
中得到初始化边嵌入/>
Figure FDA0004105299760000037
其中/>
Figure FDA0004105299760000038
代表外观特征提取网络SCAAC,ai对应每一个目标检测区域;xi,yi,hi,wi和xj,yj,hj,wj分别代表针对不同时间戳的两个检测ai和aj的边界框。
5.根据权利要求1所述的一种基于自校准与异构网络的多目标跟踪算法,其特征在于:步骤S3所述的基于时间感知的消息传递层的计算过程包括
S301.将T-1帧和T+1的结点分别视为过去结点和未来结点,用
Figure FDA0004105299760000039
和/>
Figure FDA0004105299760000048
表示,将来自过去和未来的结点嵌入分别独立聚合,经过concat生成满足流式守恒约束的最终嵌入,如式(11)所示:
Figure FDA0004105299760000041
其中在式(11)中,Nv代表连接函数,
Figure FDA0004105299760000049
和/>
Figure FDA00041052997600000410
分别代表结点d的位置对未来和过去的第l次迭代特征聚合,如式(12)、(13)所示:
Figure FDA0004105299760000042
Figure FDA0004105299760000043
其中
Figure FDA00041052997600000411
为结点d在第l迭代中接受到的消息体,具体计算如式(14)所示:
Figure FDA0004105299760000044
6.根据权利要求1所述的一种基于自校准与异构网络的多目标跟踪算法,其特征在于:步骤三所述的图跟踪网络模型的建立过程包括
对于经过消息迭代后的每一条边,使用MLP加上一个sigmod输出单元的
Figure FDA00041052997600000412
用以表示类别,对于每个边(i,j)=E,通过输入/>
Figure FDA00041052997600000413
得到第l层迭代结果/>
Figure FDA0004105299760000047
计算预测/>
Figure FDA0004105299760000046
训练时,对于最后一层嵌入的预测使用的是基于真实标签y的二分类交叉熵,计算如式(15)所示:
Figure FDA0004105299760000045
其中l0=1,...,L,w表示一个衡量参数,y=[0,1]。
CN202310190654.4A 2023-03-02 2023-03-02 一种基于自校准与异构网络的多目标跟踪算法 Pending CN116309707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310190654.4A CN116309707A (zh) 2023-03-02 2023-03-02 一种基于自校准与异构网络的多目标跟踪算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310190654.4A CN116309707A (zh) 2023-03-02 2023-03-02 一种基于自校准与异构网络的多目标跟踪算法

Publications (1)

Publication Number Publication Date
CN116309707A true CN116309707A (zh) 2023-06-23

Family

ID=86779096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310190654.4A Pending CN116309707A (zh) 2023-03-02 2023-03-02 一种基于自校准与异构网络的多目标跟踪算法

Country Status (1)

Country Link
CN (1) CN116309707A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522925A (zh) * 2024-01-05 2024-02-06 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522925A (zh) * 2024-01-05 2024-02-06 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及系统
CN117522925B (zh) * 2024-01-05 2024-04-16 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及系统

Similar Documents

Publication Publication Date Title
Ke et al. Multi-dimensional traffic congestion detection based on fusion of visual features and convolutional neural network
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN110400332B (zh) 一种目标检测跟踪方法、装置及计算机设备
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN113139620A (zh) 基于目标关联学习的端到端多目标检测与跟踪联合方法
Ju et al. Online multi‐person tracking with two‐stage data association and online appearance model learning
Chen et al. Using FTOC to track shuttlecock for the badminton robot
Xu et al. Dilated-scale-aware category-attention convnet for multi-class object counting
CN113902991A (zh) 一种基于级联特征融合的孪生网络目标跟踪方法
Zhu et al. A multi-scale and multi-level feature aggregation network for crowd counting
CN116309707A (zh) 一种基于自校准与异构网络的多目标跟踪算法
Song et al. Prnet++: Learning towards generalized occluded pedestrian detection via progressive refinement network
Kong et al. A multi-context representation approach with multi-task learning for object counting
Zhou et al. Ship detection based on multi-scale weighted fusion
CN117173607A (zh) 多层级融合多目标跟踪方法、系统及计算机可读存储介质
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
Zhang et al. Bus passenger flow statistics algorithm based on deep learning
Khan et al. Foreground detection using motion histogram threshold algorithm in high-resolution large datasets
CN116229406A (zh) 车道线检测方法、系统、电子设备及存储介质
CN116245913A (zh) 基于层次化上下文引导的多目标跟踪方法
Kizrak et al. Crowd density estimation by using attention based capsule network and multi-column CNN
Yuan et al. A multi‐scale feature representation and interaction network for underwater object detection
CN115082854A (zh) 一种面向安防监控视频的行人搜索方法
CN113361475A (zh) 一种基于多阶段特征融合信息复用的多光谱行人检测方法
Sooksatra et al. The density-aware estimation network for vehicle counting in traffic surveillance system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination