CN116309725A - 基于多尺度可形变注意力机制的多目标跟踪方法 - Google Patents

基于多尺度可形变注意力机制的多目标跟踪方法 Download PDF

Info

Publication number
CN116309725A
CN116309725A CN202310324732.5A CN202310324732A CN116309725A CN 116309725 A CN116309725 A CN 116309725A CN 202310324732 A CN202310324732 A CN 202310324732A CN 116309725 A CN116309725 A CN 116309725A
Authority
CN
China
Prior art keywords
frame
tracking
detection
attention
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310324732.5A
Other languages
English (en)
Inventor
赵佳琦
向赫
周勇
阿卜杜穆塔利布·埃尔·萨迪克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202310324732.5A priority Critical patent/CN116309725A/zh
Publication of CN116309725A publication Critical patent/CN116309725A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度可形变注意力机制的多目标跟踪方法,属于视频监控领域。首先对视频提取具有多尺度特征的检测框;然后在视频帧中检测框选行人;将位置信息与外观特征进行编码,通过空间注意力模块和通道注意力模块提取多尺度的鲁棒特征;再次将得到的检测框与跟踪框的鲁棒特征通过Transformer解码器构造出匹配代价体C;利用匹配代价体C在充分使用低置信度和高置信度检测框的基础上进行二次匹配关联,计算预测值和真实跟踪值之间的损失,利用损失值训练整个网络来得到最终的参数,从而得到行人多目标跟踪视频的跟踪结果。其步骤简单,使用方便,能够高效快捷的对大规模的自然图像数据集中的行人进行多目标跟踪。

Description

基于多尺度可形变注意力机制的多目标跟踪方法
技术领域
本发明涉及一种基于多尺度可形变注意力机制的多目标跟踪方法,适合可对大规模的自然图像数据集中的行人进行多目标跟踪,属于图像处理技术领域。
背景技术
随着深度学习的发展和延伸,深度学习模型在各大领域都取得了一定进展,计算机视觉领域也不例外。而近些年计算机基础任务例如图像分类,目标检测和语义分割任务发展如火如荼,多目标跟踪领域同样也受到了重视。行人多目标跟踪作为计算机视觉任务的一项重大应用,受到了相关专业人士的重视,越来越多的精力投入其中。行人多目标跟踪的方法主要分为两类,一类是采用非深度学习的多目标跟踪方法,另一类是结合了深度学习的多目标跟踪方法。
传统的图像非深度学习多目标方法的基本流程包括:图像预处理、底层特征提取、特征编码、特征汇聚和使用分类器分类四个部分。但是,这种方法对人工提取特征的依赖性较高。人工提取特征既耗时,又需要相关的专业知识。在大数据时代,想要高效且精准地完成图像分类,仅靠人工提取特征是做不到的。此时深度学习模型便大有用武之地。其基本思想就是通过有监督或无监督的方式学习层次化的特征表达,完成对图像从底层到高层的特征描述。深度学习模型,通过逐层训练的方式自主提取图像特征,能够学习到强大的特征表达。因此,基于深度学习模型的多目标跟踪法在进行行人多目标跟踪时能够达到较好的效果。现有的深度学习模型主要建立在卷积神经网络CNN的基础上,得到广泛应用的有AlexNet、VGGNet以及残差网络ResNet。
现有的基于深度学习的多目标跟踪方法还存在以下问题:
(1)无法处理高遮挡和人群密集的环境:部分方法可以处理简单场景下,例如人流稀少,人群密度低,遮挡较少的情况。但现有的多目标跟踪方法无法处理高遮挡和人群密集的环境,原因是多尺度特征没有考虑周全,仅仅采用已有的检测器或者关联方法,这些局部子模块对图像级别以及实例级别多尺度特征利用不够。这会导致获得图像以及行人特征不够鲁棒。同时在匹配时,因为不同帧边界框尺度不同,因此也对匹配产生了干扰。
(2)检测目标与跟踪序列往往是手工设计匹配过程,在匹配的代价体设计中,需要根据数据集调参出外观模型和运动模型的比重。在设计多目标跟踪流程中,往往只是简单地侧重某一方面的信息,因此同一种方法对于不同数据集效果并不理想。
(3)在简单的匹配过程,为了避免产生背景和误检,低分检测框(低置信度的框)往往直接被丢弃,但这些低分的检测框往往是被遮挡的跟踪目标。很多方法没有利用好低置信度的框,因此跟踪结果受限于已经生成的检测框。
发明内容
发明目的:针对现有技术的不足之处,提出了一种基于可形变注意力机制的多目标跟踪方法,其步骤简单,追踪效果好,能够实现对大规模的自然图像数据集中的行人进行多目标实施预测与跟踪。
技术方案:为实现本发明的目的,本发明提供一种基于多尺度可形变注意力机制的多目标跟踪方法,使用多目标跟踪模型对自然图像中各种尺度的行人进行跟踪,多目标跟踪模型包括顺序连接的用以提取多尺度特征的检测模块、可形变注意力机制的多尺度外观特征提取模块、语义信息融合模块,Transformer编码器和解码器;其中语义信息融合模块中包括顺序连接的归一化层LN、基于可形变自注意力MSDA、归一化层LN、多层感知机MLP、空间注意力模块SAM、通道注意力模块CAM;
步骤如下:
对于含有各种尺度行人的多目标跟踪视频,将跟踪视频分解为视频帧的集合,利用提取多尺度特征的检测模块设置用以提取行人信息的具有多尺度特征的检测框;
对于视频帧中被检测框选定的行人,利用可形变注意力机制进行多尺度特征外观的提取;
将提取出的位置信息与外观特征进行编码,通过空间注意力模块和通道注意力模块提取多尺度的鲁棒特征;
将得到的检测框和已经与检测框匹配成功相邻帧中的跟踪框的鲁棒特征通过Transformer解码器,构造出检测框与跟踪框的匹配代价体C;
利用匹配代价体C,在充分使用低置信度和高置信度检测框的基础上,对检测框与跟踪框序列进行二次匹配关联,得到最后匹配结果;
将匹配结果作为预测值,然后计算匹配结果的预测值和数据集训练集中真实跟踪值之间的损失值,根据得到的损失值训练多目标跟踪模型来得到最终的参数,再使用多目标跟踪模型重复上述除训练以外的步骤完成视频的多目标跟踪,最终得到行人多目标跟踪视频的跟踪结果。
其具体步骤如下:
S1、对于给定的一段序列视频,选取时间上连续的两帧图像,分别经过基于Resnet的多尺度检测器,输出该帧图像中的多个边界框和类别
Figure BDA0004152875800000021
和/>
Figure BDA0004152875800000022
其中i为边界框在一帧中的数量;边界框B集合{B|(x,y,w,h,c,p)}即为检测框集合,其中,x为中心点横坐标,y为中心点纵坐标,w为边界框宽度,h为边界框高度,c为类别,p为检测置信度;
S2、得到帧内的检测框
Figure BDA0004152875800000031
和/>
Figure BDA0004152875800000032
之后,将这些检测框区域内的图像分别输入re-ID网络中,re-ID网络中通过自注意力,对检测框不同位置的进行注意力加权,自主学习正样本的未被遮挡处的特征,这些特征是最具有代表性的外观特征表示,这样即使面对部分遮挡的环境,依然可以获得最鲁棒的外观特征表示,获得鲁棒的行人特征表示F′;
S3、对帧图像中检测框的位置信息用多层感知机进行编码,最后一起和鲁棒的外观表示F′输入自适应代价网络中得到F″,完成外观特征与信息位置注意力融合,再经过通道自注意力和空间自注意力,得到用于最后的特征匹配的特征Fc
S4、将S1中第1帧获得的检测框初始化为跟踪框,即将每一个跟踪框赋予独特的身份标识,利用存储器构成的记忆模块将获得的外观特征保存起来,设定阈值T,将t-T到t-1帧的跟踪框的位置信息以及外观特征保存起来,然后经过Transformer自注意编码器中得到特征Txd,将当前帧即第t帧经过自编码器得到的特征Txd经过变化后,再经过Transformer解码器后得到匹配的代价体C;
S5、使用匈牙利匹配算法根据代价体C进行第一轮匹配,匹配获得检测框与跟踪框的匹配对P[d,t],未匹配上的检测框UD以及未匹配上的跟踪框UT,其中P[d,t]中的d代表匹配上的检测框,t代表匹配上的跟踪序列;之后将未被匹配的检测框和未被匹配的跟踪框再次重复步骤S4,得到新的代价体C′,再根据新的代价体C′使用匈牙利算法进行第二轮匹配,再经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框Ti=t={trk|trk∈B};
S6、得到S5最后的跟踪框Ti=t={trk|trk∈B}后,计算预测跟踪框与真实值的损失,并将整个过程看作是一个分类过程,使用交叉熵损失来重复S1-S5训练多目标跟踪模型,直到达到预先设定的训练轮数,此时得到的网络参数作为最终的多目标跟踪模型参数;根据S5得到的最终训练结果后,逐帧进行S1-S5,最后得到整个视频的跟踪框
Figure BDA0004152875800000033
这样就完成了行人多目标跟踪。
进一步,步骤S1中,多尺度特征检测框提取具体计算方法如下:
S11、针对给定行人多目标跟踪视频,设一段包含N张彩色图片的序列视频为
Figure BDA0004152875800000041
其中H为视频图片高度,W为视频图片宽度,N为是视频图片总数,选两张连续的两帧图像:t-1帧图像It-1和t帧的图像It,t∈N,下面以第一帧和第二帧图像为例;
S12、将第一帧图像和第二帧图像一起输入到基于ResNet网络中进行卷积处理,在ResNet网络的基础上使用FPN特征金字塔来构建出多尺度的行人检测图像特征
Figure BDA0004152875800000042
第一帧和第二帧图像都会得到四个尺度的特征图,第一帧图像特征记为F1和第二帧图像特征记为F2,具体来说:取ResNet网络中对应FPN特征金字塔的2-5层的C2~C5阶段所得到的特征图,其中C2代表下采样22,C3代表下采样23,依次类推,将这三个尺度的特征图经过1×1步长为1的卷积得到四个尺度的特征,然后分别上采样与同样尺度的特征图相加得到M2-M4阶段的特征图,M5特征图由C5特征图直接经过1x1卷积得到,将M2-M4再经过1x1的卷积得到最终的P2-P4特征图,P5特征图取M5即可;C1虽然分辨率最高但语义特征太少因此不采用C1;最终得到的特征图/>
Figure BDA0004152875800000048
的尺度由小到大依次为:/>
Figure BDA0004152875800000043
Figure BDA0004152875800000044
然后对这些特征图进行预测,得到的边界框再映射回源大小图像上,最终得到行人的定位与分类,也就是一系列边界框{B|(x,y,w,h,c,p)}。
进一步,步骤S2中,对检测框的多尺度外观特征具体计算方法如下:
S21、对于连续的两帧图像的第一帧的图像I1∈RH×w×3和第二帧的图像I2∈RH×w×3,取其中的检测框{B1|(x,y,w,h,c,p)}和{B2|(x,y,w,h,c,p)},将检测框
Figure BDA0004152875800000045
切割成小矩形块/>
Figure BDA0004152875800000046
其中N为检测框被切割成的总块数N=h×w/P2,然后送入可形变Transformer编码器中进行特征变换,具体的特征变换包括以下步骤:
S21.1对于输入的检测框图像的小矩形块特征r,通过线性嵌入变换将其通道数由3变为D,此时得到小矩形块的初始输入特征,记作xi,公式如下;
Figure BDA0004152875800000047
S21.2由于Transformer编码器的并行性,将初始输入特征xi加入位置编码ei,最终得到整个检测框的特征表示f,公式如下:
Figure BDA0004152875800000051
S21.3将得到的整个检测框特征f输入到多尺度可形变注意力中进行处理,再进行基于位移窗口的transformer编码器处理,fi-1由i-1层的transformer编码器输出,再经过归一化层LN和基于多尺度可形变自注意之后与自身相加得到
Figure BDA0004152875800000052
将得到的/>
Figure BDA0004152875800000053
经过归一化层LN和多层感知机MLP处理后与自身相加,最终得到基于窗口的输出fi,公式如下;
Figure BDA0004152875800000054
Figure BDA0004152875800000055
其中,LN表示归一化层,MLP表示多层感知机;MSDA表示基于可形变自注意力,在块与块之间进行公式(4)的可变形自注意计算;公式(4)为可形变的自注意机制的公式,zq表示查询向量;pq表示查询向量的位置;x为输入的特征;M为注意力头数;Wk和Wv分别为key和value的投影矩阵;C为通道数;Δpmqk是位置编码中的相对位置偏移;φ表示softmax函数;Wm表示对注意力施加在value上后的结果进行线性变换从而得到不同头部的输出结果。
进一步,步骤S3中的外观特征与信息位置注意力融合具体方法如下:
S31、首先将检测框以及跟踪框的位置信息使用多层感知机信息编码获得Fp,然后和S2得到的鲁棒的行人外观特征F′等比相加合并得到最终的输出特征F″,计算公式如下:
Fp=MLP([x,y,w,h]) (5)
F″=F′⊕Fp (6)
其中MLP为多层感知机,x为检测框中心点横坐标,y为中心点纵坐标,w为检测框宽度,h为检测框高度,其中⊕表示元素级相加;
S32、将输出特征F″送到空间注意力模块SAM中,得到空间注意力分数Ms,然后将F″与空间注意力分数Ms相乘,再进入归一化层,与F″相加合得到最终的特征图Fs
空间注意力模块的具体操作为:首先利用空间注意力模块SAM对特征图F″进行在通道维度上的全局池化GP,从而压缩通道维度,然后再对特征图F″进行通道维度上的平均池化AP,从而压缩通道维度;将压缩通道维度后的两个特征图再在通道维度上拼接起来,得到H×W×2的特征图,然后对拼接的H×W×2特征图进行7x7的卷积操作再经过激活函数,从而得到经过空间注意力模块的特征,公式如下:
Figure BDA0004152875800000061
Figure BDA0004152875800000062
Ms=σ(conυ(concat(Aυgpool(F),Aυg max(F)))) (9)
Figure BDA0004152875800000069
其中公式(7)中的Fw,h表示特征图上的每个像素值,
Figure BDA0004152875800000064
表示在通道方向上取平均值,/>
Figure BDA0004152875800000065
表示在通道方向上取最大值,concat(·)表示特征值按通道方向上进行拼接,σ(·)表示激活函数,采用sigmoid函数,将函数值映射到0-1之间,Ms表示注意力分数,/>
Figure BDA0004152875800000066
表示按元素相乘,Fs表示最终的特征图;
S33、将最终的特征图Fs送到通道注意力模块CAM中,得到通道注意力分数Mc,然后将Fs与通道注意力分数Mc相乘,再进入归一化层,与Fs相加合得到最终的特征图Fc
通道注意力模块CAM的具体操作为:首先对特征图Fs进行在空间维度上的全局池化GP,从而压缩空间尺寸,然后再对特征图Fs进行空间维度上的平均池化AP,从而压缩空间尺寸;然后将两个1×1×c的特征图放入共享参数的MLP中,学习通道维度的特征,得到各个通道的重要性,再将两个通道注意力分数相加,得到1×1×c的特征图,然后再经过激活函数σ(·),从而得到经过通道注意力模块的特征,公式如下:
Figure BDA0004152875800000067
Figure BDA0004152875800000068
Mc(Fs)=σ(MLP(AυgPool(Fs))+MLP(Maxpool(Fs))) (13)
Figure BDA0004152875800000071
其中公式(11)中的Fx,y,c表示特征图的每个像素值
Figure BDA0004152875800000072
表示在每层通道c上取空间维度WH平均值,/>
Figure BDA0004152875800000073
为表示在每层通道c上取空间维度WH最大值;MLP表示共享参数的多层感知机,σ(·)表示激活函数,采用sigmoid函数,将函数值映射到0-1之间,Mc表示注意力分数,/>
Figure BDA0004152875800000074
表示按元素相乘,Fc表示最终的特征图。
进一步,步骤S4具体方法如下:
S41、将S3得到的最终的特征图Fc放入记忆模块中,记忆模块为队列结构,将Fc特征依次保存起来,设定阈值T,将t-T到t-1帧的Fc保存起来,当处理第t帧时,则使用记忆模块中的t-T到t-1的特征Fc,处理完第t帧的图像后,将第t帧的特征Fc压入队列中。同时删除t-T帧的Fc;然后经过Transformer自注意编码器中得到特征Txd,将当前帧即第t帧经过自编码器得到的特征Txd经过变化后,再经过Transformer解码器后得到匹配的代价体C;
S42、将当前帧即第t帧经过自编码器得到的特征Txd经过变化的具体步骤为:在第t帧中,将t-T到t-1的特征,放入Transformer自编码器中得到特征Txd,对于跟踪序列,设有N个跟踪序列,将N个跟踪序列的特征Fc放入Transformer自编码器中,然后将这些特征在第一个维度拼接起来,得到(N×T)×d的特征图,对于检测序列,因为只有一帧的检测框,假定检测数量为M个,为了与跟踪序列维度对齐,将检测序列xN,得到NxM个查询,即为N×M×d检测框。
具体的跟踪序列进入Transformer自编码器的过程为:先将Txd特征图通过投影矩阵Wq、Ws和Wυ得到新的特征Q、K和V;然后将K转置与Q进行矩阵乘法,再除以新特征维度的平方根,这样可以保证尺度一致性,同时得到了注意力分数。最后将注意力分数缩放到0-1之间,再用注意力分数与V矩阵相乘。然后将特征放入前馈神经网络FFN,最后经过层归一化,得到最终的特征(N×T)×d,公式如下:
Q=FWq,K=FWk,y=FWυ (15)
Figure BDA0004152875800000075
Figure BDA0004152875800000081
其中Wq、Wk和Wυ分别为投影矩阵,将Txd维度映射到Txd’维度,Kt是K的转置矩阵,softmax函数将每个值取指数然后进行归一化,这样可以建立不同值之间的联系,同时还可以将分数放缩到0-1之间,
Figure BDA0004152875800000082
表示按元素相乘;
S43、将S42得到的检测框特征N×M×d与跟踪框特征(N×T)×d放入Transformer解码器中,经过多头自注意力和多头交叉注意力,与层归一化和残差连接最后得到NxM的分配矩阵,分配矩阵中的行与列均为独热向量,因为一个检测目标只能对应一个跟踪目标,一个跟踪目标只能对应一个检测目标,分配矩阵的单位元素为0-1的概率值,分配矩阵即为匹配代价体C。
进一步,步骤S5的生成匹配结果的具体方法如下:
S51、得到匹配代价体C后,使用匈牙利匹配算法根据代价体C进行匹配,获得检测框与跟踪框的匹配对P[d,t],未匹配上的检测框UD1以及未匹配上的跟踪框UT1,其中P[d,t]中的d代表匹配上的检测框,t代表匹配上的跟踪序列;
S52、将S1中p小于0.5的检测框定义为低置信度的检测框D2与未匹配上的跟踪框UT再次经过S2、S3和S4步骤,得到代价体C′,再次根据匈牙利算法根据代价体C′进行匹配,将获得低置信度检测框D2与未匹配上的跟踪框UT的匹配对P[d2,ut],未匹配上的检测框UD2以及未匹配上的跟踪框UT2,其中P[d2,ut1]中的d2代表匹配上的低置信度的检测框,ut1代表匹配上的跟踪序列;将未匹配上的跟踪框UT2从Tt-1中删除,判断这些行人目标离开了视野内,或者被其他行人或者背景遮挡,因此将UT2放入Tlost;删除的条件是当Tlost中的单位被存放超过ε帧时,同时删除Tlost和UT2;将未匹配上的检测框UD2与阈值ε进行比较,大于阈值ε的未匹配上的检测框UD2初始化为新的跟踪序列Tnew,小于阈值ε的未匹配上的检测框UD2被视为非目标的前景或者背景,因此直接删除;经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框Ti=t={trk|trk∈B}。
进一步,步骤S6中使用交叉熵损失来重复S1-S5训练多目标跟踪模型的具体方法如下:
S61、在每轮训练阶段,得到最后的跟踪结果后,通过计算预测结果T={trk1,trk2…trkn}与Ttruth={trk1,trk2…trkn}真实值的损失,整个过程可以看作是一个分类过程,使用交叉熵损失来训练整个网络,直到达到预先设定的训练轮数,此时得到的网络参数是最后的模型参数。推理阶段,根据S5得到结果后,逐帧进行S1、S2、S3、S4、和S5,最后得到结果即为整个视频的跟踪框
Figure BDA0004152875800000091
有益效果:
本发明利用可形变注意力机制中自注意力对图像全局性的特征提取,更加注意网络对图像中目标位置与其他物体位置的关系。同时可形变注意力机制能够将使注意力在所有位置不在得到同样的关注,而是从采样的附近开始关注,分配不同的权重,因此使网络训练能够加速收敛。除此之外,还能有效降低计算代价,比普通的卷积神经网络具有更大的感受野,拥有着更强的模型表征能力。同时利用注意力机制中的交叉注意力可天然地完成检测与跟踪的配对,避免后处理操作,使行人多目标跟踪系统变为端到端的了。同时网络采用无锚框的检测方式,利用这种基于锚点的方式,在提取目标物体特征时可以避免得到歧异的特征。注意力同时使用多尺度特征,可以有效的针对自然图像中各种尺度的行人。
附图说明
图1是本发明基于多尺度可形变注意力机制的多目标跟踪方法的网络结构图。
具体实施方式
下面结合附图对本发明的实施例做进一步说明。
如图1所示,本发明公开了一种基于可形变注意力机制的多目标跟踪方法,使用多目标跟踪模型对自然图像中各种尺度的行人进行跟踪,多目标跟踪模型包括顺序连接的用以提取多尺度特征的检测模块、可形变注意力机制的多尺度外观特征提取模块、语义信息融合模块,Transformer编码器和解码器;其中语义信息融合模块中包括顺序连接的归一化层LN、基于可形变自注意力MSDA、归一化层LN、多层感知机MLP、空间注意力模块SAM、通道注意力模块CAM;
具体包括以下步骤:
S1、对于给定行人多目标跟踪视频,
Figure BDA0004152875800000092
代表一段序列视频,序列视频包含N张彩色图片,其中H为视频图片高度,W为视频图片宽度,N为是视频图片总数,按顺序依次选取t-1帧图像Rt-1和t帧的图像Rt,分别经过基于Resnet的多尺度检测器,输出图像中的边界框和类别/>
Figure BDA0004152875800000093
其中i为边界框在一帧中的数量。{B|(x,y,w,h,c,p)},x为中心点横坐标,y为中心点纵坐标,w为边界框宽度,h为边界框高度,c为类别,p为检测置信度;
S11、对于给定的一段序列视频
Figure BDA0004152875800000101
选取I1∈RH×W×3和I2∈RH×W×3两张图片,两张图片在时间上要求是连续的;
S12、将第一帧图像和第二帧图像一起输入到基于ResNet网络中进行卷积处理,在ResNet的基础上使用FPN特征金字塔来构建出多尺度的行人检测图像特征
Figure BDA0004152875800000102
第一帧和第二帧图像都会得到四个尺度的特征图,第一帧图像特征记为F1和第二帧图像特征记为F2,具体做法为:取ResNet中C2~C5阶段所得到的特征图,将这三个尺度的特征图经过1×1步长为1的卷积得到四个尺度的特征,然后分别上采样与同样尺度的特征图相加得到M2-M4阶段的特征图,M5特征图由C5特征图直接经过1x1卷积得到,将M2-M4再经过1x1的卷积得到最终的P2-P4特征图,P5特征图取M5即可。C1虽然分辨率最高但语义特征太少,因此不采用C1。最终得到的特征图/>
Figure BDA0004152875800000103
的尺度由小到大依次为:/>
Figure BDA0004152875800000104
Figure BDA0004152875800000105
然后对这些特征图进行预测,得到的边界框再映射回源大小图像上,最终得到行人的定位与分类,也就是一系列边界框{B|(x,y,w,h,c,p)};
进一步的,步骤S2中,对检测框进行外观特征提取的具体计算方法如下:
S2、得到帧内的检测框
Figure BDA0004152875800000106
之后,将这些含检测框的图像分别输入re-ID网络中,re-id网络中通过自注意力,对检测框不同位置的进行注意力加权,自主学习正样本的未被遮挡处的特征,这些特征是最具有代表性的外观特征表示,这样即使面对部分遮挡的环境,依然可以获得最鲁棒的外观特征表示。获得鲁棒的行人特征表示F′;
S21、对于上述得到的第一帧的图像I1∈RH×W×3和第二帧的图像I2∈RH×W×3,取其中的检测框{B1|(x,y,w,h,c,p)}和{B2|(x,y,w,h,c,p)},将检测框
Figure BDA0004152875800000107
切割成小矩形块/>
Figure BDA0004152875800000108
其中N为检测框被切割成的总块数N=h×w/P2,然后送入可形变Transformer中进行特征变换,具体的特征变换包括以下步骤:
(1)对于输入的检测框的图像的小矩形块特征r,通过线性嵌入变换将通道数由3变为D,此时得到小矩形块的初始输入特征,记作xi,公式如下;
Figure BDA0004152875800000109
(2)由于Transformer的并行性,碎片化的小矩形块直接输入,无法获得块间的位置顺序关系,因此将得到的xi加入位置编码ei,最终得到整个检测框的特征表示f,公式如下:
Figure BDA0004152875800000111
(3)将得到的f输入到多尺度可形变注意力中进行处理,到基于位移窗口的transformer中进行处理,fi-1经过归一化层LN和基于多尺度可形变自注意之后与自身相加得到
Figure BDA0004152875800000112
将得到的/>
Figure BDA0004152875800000113
经过归一化层LN和多层感知机MLP处理后与自身相加,最终得到基于窗口的输出fi,公式如下;
Figure BDA0004152875800000114
Figure BDA0004152875800000115
其中,LN表示归一化层,MLP表示多层感知机;MSDA表示基于可形变自注意力,在块与块之间进行公式(4)的可变形自注意计算;公式(4)为可形变的自注意机制的公式,zq表示查询向量;pq表示查询向量的位置;x为输入的特征;M为注意力头数;Wk和Wv分别为key和value的投影矩阵;C为通道数;Δpmqk是位置编码中的相对位置偏移;φ表示sofimax函数;Wm表示对注意力施加在value上后的结果进行线性变换从而得到不同头部的输出结果;
S3、对检测框的位置信息用多层感知机进行编码,最后一起和鲁棒的外观表示F′送入自适应代价网络中得到F″,经过通道自注意力和空间自注意力,得到最后的特征表示Fc,这个特征Fc将用于最后的特征匹配;
S31、首先将检测框以及跟踪框的位置信息使用多层感知机信息编码获得Fp,然后和S2得到的鲁棒的外观特征F′等比相加合并得到最终的输出特征F″,计算公式如下:
Fp=MLP([x,y,w,h]) (5)
F″=F′⊕Fp (6)
其中MLP为多层感知机,x为检测框中心点横坐标,y为中心点纵坐标,w为检测框宽度,h为检测框高度。其中⊕表示元素级相加;
S32、经过S31后得到F″,将F″送到空间注意力模块中,得到空间注意力分数Ms,然后将F″与空间注意力分数Ms相乘,再进入归一化层,与F″相加合得到最终的特征图Fs
空间注意力模块的具体操作为:首先对特征图F″进行在通道维度上的全局池化GP,从而压缩通道维度,然后再对特征图F″进行通道维度上的平均池化AP,从而压缩通道维度;将压缩通道维度后的两个特征图再通道维度上拼接起来,得到H×W×2的特征图,然后对拼接的H×W×2特征图进行7x7的卷积操作再经过激活函数,从而得到经过空间注意力模块的特征,公式如下:
Figure BDA0004152875800000121
Figure BDA0004152875800000122
Ms=σ(conυ(concat(Aυgpool(F),Aυg max(F)))) (9)
Figure BDA0004152875800000123
其中公式(7)中的Fw,h表示特征图上的每个像素值,
Figure BDA0004152875800000124
表示在通道方向上取平均值,/>
Figure BDA0004152875800000125
表示在通道方向上取最大值,concat(·)表示特征值按通道方向上进行拼接,σ(·)表示激活函数,采用sigmoid函数,将函数值映射到0-1之间,Ms表示注意力分数,/>
Figure BDA0004152875800000126
表示按元素相乘,Fs表示最终的特征图。
s33、经过S32得到的Fs,将Fs送到通道注意力模块中,得到通道注意力分数Mc,然后将Fs与通道注意力分数Mc相乘,再进入归一化层,与Fs相加合得到最终的特征图Fc
通道注意力模块的具体操作为:首先对特征图Fs进行在空间维度上的全局池化GP,从而压缩空间尺寸,然后再对特征图Fs进行空间维度上的平均池化AP,从而压缩空间尺寸;然后将两个1×1×C的特征图放入共享参数的MLP中,学习通道维度的特征,得到各个通道的重要性,再将两个通道注意力分数相加,得到1×1×c的特征图,然后再经过激活函数,从而得到经过通道注意力模块的特征,公式如下:
Figure BDA0004152875800000131
Figure BDA0004152875800000132
Mc(Fs)=(MLP(AυgPool(Fs))+MLP(Maxpool(Fs))) (13)
Figure BDA0004152875800000133
其中公式(11)中的Fx,y,c表示特征图的每个像素值
Figure BDA0004152875800000134
表示在每层通道c上取空间维度WH平均值,/>
Figure BDA0004152875800000135
为表示在每层通道c上取空间维度WH最大值。MLP表示共享参数的多层感知机,σ(·)表示激活函数,采用sigmoid函数,将函数值映射到0-1之间,Mc表示注意力分数,/>
Figure BDA0004152875800000136
表示按元素相乘,Fc表示最终的特征图。
S4、将获得的外观特征保存起来,设定一个阈值T,将t-T到t-1帧的跟踪框的位置信息以及外观特征保存起来,然后经过Transformer自注意编码器中得到特征Txd,将当前帧即第t帧经过S2和S3后得到特征d,将这些特征进行变换,经过Transformer解码器后得到匹配的代价体C;
S41、将S3得到Fc特征图放入记忆模块中,记忆模块由一个队列组成,将Fc特征依次保存起来,设定一个阈值T,将t-T到t-1帧的Fc保存起来,当处理第t帧时,则使用记忆模块中的t-T到t-1的特征Fc,处理完第t帧的图像后,将第t帧的特征Fc压入队列中。同时删除t-T帧的Fc。然后经过Transformer自注意编码器中得到特征Txd,将当前帧即第t帧经过S2和S3后得到特征d,将这些特征进行变换,经过Transformer解码器后得到匹配的代价体C。
S42、在第t帧中,将t-T到t-1的特征,放入Transformer自编码器中得到特征Txd,对于跟踪序列,假定有N个跟踪序列,将N个跟踪序列的特征Fc放入Transformer自编码器中,然后将这些特征在第一个维度拼接起来,得到(N×T)×d的特征图,对于检测序列,因为只有一帧的检测框,假定检测数量为M个,为了与跟踪序列维度对齐,将检测序列xN,得到NxM个查询。
具体的跟踪序列进入Transformer自编码器的过程为:先将Txd特征图通过投影矩阵Wq、Wk和Wυ得到新的特征Q、K和V。然后将K转置与Q进行矩阵乘法,再除以新特征维度的平方根,这样可以保证尺度一致性,同时得到了注意力分数。最后将注意力分数缩放到0-1之间,再用注意力分数与V矩阵相乘。然后将特征放入前馈神经网络FFN,最后经过层归一化,得到最终的特征(N×T)×d,公式如下:
Q=FWq,K=FWk,y=FWυ (15)
Figure BDA0004152875800000141
Figure BDA0004152875800000142
其中Wq、Wk和Wυ分别为投影矩阵,将Txd维度映射到Txd’维度,Kt是K的转置矩阵,softmax函数将每个值取指数然后进行归一化,这样可以建立不同值之间的联系,同时还可以将分数放缩到0-1之间,
Figure BDA0004152875800000143
表示按元素相乘。
S43、将S42得到的检测框特征N×M×d与跟踪框特征(N×T)×d放入Transformer解码器中,经过多头自注意力和多头交叉注意力,与层归一化和残差连接最后得到NXM的分配矩阵,分配矩阵中的行与列均为独热向量,因为一个检测目标只能对应一个跟踪目标,一个跟踪目标只能对应一个检测目标,分配矩阵的单位元素为0-1的概率值,分配矩阵即为匹配代价体C。
S5、得到匹配代价体C后,使用匈牙利匹配算法根据代价体C进行第一轮匹配,获得检测与跟踪的匹配对P[d,t],未匹配上的检测框UD以及匹配上的跟踪框UT,其中P[d,t]中的d代表匹配上的检测框,t代表匹配上的跟踪序列。之后再根据未被匹配的检测框和未被匹配的跟踪框再次进行S4,得到代价体C′,再根据代价体C′使用匈牙利算法进行第二轮匹配,得到最后的跟踪框Ti=t={trk|trk∈B};
S51、经过S4得到匹配代价体C后,使用匈牙利匹配算法根据代价体C进行匹配。获得检测框与跟踪框的匹配对P[d,t],未匹配上的检测框UD1以及未匹配上的跟踪框UT1,其中P[d,t]中的d代表匹配上的检测框,t代表匹配上的跟踪序列。
S52、然后将S1的低置信度的检测框与未匹配上的跟踪框UT再次经过S2、S3和S4步骤,得到代价体C’后,再次根据匈牙利算法根据代价体c’进行匹配,获得低置信度检测框D2与未匹配上的跟踪框UT的匹配对P[d2,ut],未匹配上的检测框UD2以及未匹配上的跟踪框UT2,其中P[d2,uti]中的d2代表匹配上的低置信度的检测框,ut1代表匹配上的跟踪序列。将未匹配上的跟踪框UT2从Tt-1中删除,因为这些行人目标可能离开了视野内,但也可能被其他行人或者背景遮挡,因此将UT2放入Tlost,删除的条件是当Tlost中的单位被存放超过ε帧时,同时删除Tlost和UT2。将未匹配上的检测框UD2与阈值ε进行比较,大于阈值ε的未匹配上的检测框UD2初始化为新的跟踪序列Tnew,小于阈值ε的未匹配上的检测框UD2被视为非目标的前景或者背景,因此直接删除。经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框Ti=t={trk|trk∈B}。
S6、在训练阶段,得到最后的跟踪结果后,我们计算预测结果与真实值的损失,整个过程可以看作是一个分类过程,使用交叉熵损失来训练整个网络,直到达到预先设定的训练轮数,此时得到的网络参数是最后的模型参数。推理阶段,根据S5得到结果后,逐帧进行S1、S2、S3、S4、和S5,最后得到整个视频的跟踪框
Figure BDA0004152875800000152
,这样就完成了行人多目标跟踪;
S61、在每轮训练阶段,得到最后的跟踪结果后,通过计算预测结果T={trk1,trk2…trkn}与Ttruth={trk1,trk2…trkn}真实值的损失,整个过程可以看作是一个分类过程,使用交叉熵损失来训练整个网络,直到达到预先设定的训练轮数,此时得到的网络参数是最后的模型参数。推理阶段,根据S5得到结果后,逐帧进行S1、S2、S3、S4、和S5,最后得到整个视频的跟踪框
Figure BDA0004152875800000151
下面对本发明的数据集做进一步的说明:
实验数据集:
本发明的实验使用了MOTChanllenge中的MOT17、MOT20数据集。
MOTChallenge主要由MOT15、MOT16(MOT17)和MOT20组成。MOT15包含22个视频序列,其中11个为训练集和11个为测试集,MOT15数据集收集了以往更老的数据集。MOT16数据集是全新的视频版本,视频和标注是全新制作的,相比于MOT15,MOT16更具有挑战性,因为视频具有更高的行人密度。MOT16包含了14个视频序列,其中7个训练集和7个测试集,使用公共检测器DPMv5]标注。MOT17依然使用的是MOT16数据集的视频,但是被标注了更准确的真值框,同时每段视频使用了三个不同的检测器,Faster-RCNN,DPM和SDP。跟踪器需要配合使用检测器来证明其鲁棒性。MOT20包含8个视频,其中4个训练集和4个测试集,在最拥挤的视频中平均每帧可以达到245个行人。MOTChallenge系列分为公共检测赛道和私有检测赛道,由于现存很多算法的是TBD范式,检测质量严重影响跟踪质量。所以公共赛道要求使用官方提供的检测器来进行多目标跟踪,这样可以更公平地比较算法。而私人检测赛道,则可以使用自己设计的检测器或者是自己设计的多目标跟踪系统,目的是比较出性能最好的多目标跟踪算法,由s1得知,本方法使用的是私人检测赛道。
以上对本发明的实施例所提供的一种基于多尺度可形变注意力机制的多目标跟踪方法进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,使用多目标跟踪模型对自然图像中各种尺度的行人进行跟踪,多目标跟踪模型包括顺序连接的用以提取多尺度特征的检测模块、可形变注意力机制的多尺度外观特征提取模块、语义信息融合模块,Transformer编码器和解码器;其中语义信息融合模块中包括顺序连接的归一化层LN、基于可形变自注意力MSDA、归一化层LN、多层感知机MLP、空间注意力模块SAM、通道注意力模块CAM;
步骤如下:
对于含有各种尺度行人的多目标跟踪视频,将跟踪视频分解为视频帧的集合,利用提取多尺度特征的检测模块设置用以提取行人信息的具有多尺度特征的检测框;
对于视频帧中被检测框选定的行人,利用可形变注意力机制进行多尺度特征外观的提取;
将提取出的位置信息与外观特征进行编码,通过空间注意力模块和通道注意力模块提取多尺度的鲁棒特征;
将得到的检测框和已经与检测框匹配成功相邻帧中的跟踪框的鲁棒特征通过Transformer解码器,构造出检测框与跟踪框的匹配代价体C;
利用匹配代价体C,在充分使用低置信度和高置信度检测框的基础上,对检测框与跟踪框序列进行二次匹配关联,得到最后匹配结果;
将匹配结果作为预测值,然后计算匹配结果的预测值和数据集训练集中真实跟踪值之间的损失值,根据得到的损失值训练多目标跟踪模型来得到最终的参数,再使用多目标跟踪模型重复上述除训练以外的步骤完成视频的多目标跟踪,最终得到行人多目标跟踪视频的跟踪结果。
2.根据权利要求1所述一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,其具体步骤如下:
S1、对于给定的一段序列视频,选取时间上连续的两帧图像,分别经过基于Resnet的多尺度检测器,输出该帧图像中的多个边界框和类别
Figure FDA0004152875790000011
和/>
Figure FDA0004152875790000012
其中i为边界框在一帧中的数量;边界框B集合{B|(x,y,w,h,c,p)}即为检测框集合,其中,x为中心点横坐标,y为中心点纵坐标,w为边界框宽度,h为边界框高度,c为类别,p为检测置信度;
S2、得到帧内的检测框
Figure FDA0004152875790000013
和/>
Figure FDA0004152875790000014
之后,将这些检测框区域内的图像分别输入re-ID网络中,re-ID网络中通过自注意力,对检测框不同位置的进行注意力加权,自主学习正样本的未被遮挡处的特征,这些特征是最具有代表性的外观特征表示,这样即使面对部分遮挡的环境,依然可以获得最鲁棒的外观特征表示,获得鲁棒的行人特征表示F′;
S3、对帧图像中检测框的位置信息用多层感知机进行编码,最后一起和鲁棒的外观表示F′输入自适应代价网络中得到F″,,完成外观特征与信息位置注意力融合,再经过通道自注意力和空间自注意力,得到用于最后的特征匹配的特征Fc
S4、将S1中第1帧获得的检测框初始化为跟踪框,即将每一个跟踪框赋予独特的身份标识,利用存储器构成的记忆模块将获得的外观特征保存起来,设定阈值T,,将t-T到t-1帧的跟踪框的位置信息以及外观特征保存起来,然后经过Transformer自注意编码器中得到特征Txd,将当前帧即第t帧经过自编码器得到的特征Txd经过变化后,再经过Transformer解码器后得到匹配的代价体C;
S5、使用匈牙利匹配算法根据代价体C进行第一轮匹配,匹配获得检测框与跟踪框的匹配对P[d,t],未匹配上的检测框UD以及未匹配上的跟踪框UT,其中P[d,t]中的d代表匹配上的检测框,t代表匹配上的跟踪序列;之后将未被匹配的检测框和未被匹配的跟踪框再次重复步骤S4,得到新的代价体C′,再根据新的代价体C′使用匈牙利算法进行第二轮匹配,再经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框Ti=t={trk|trk∈B};
S6、得到S5最后的跟踪框Ti=t={trk|trk∈B}后,计算预测跟踪框与真实值的损失,并将整个过程看作是一个分类过程,使用交叉熵损失来重复S1-S5训练多目标跟踪模型,直到达到预先设定的训练轮数,此时得到的网络参数作为最终的多目标跟踪模型参数。
3.根据权利要求2所述的一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,步骤S1中,多尺度特征检测框提取具体计算方法如下:
S11、针对给定行人多目标跟踪视频,设一段包含N张彩色图片的序列视频为
Figure FDA0004152875790000021
其中H为视频图片高度,W为视频图片宽度,N为是视频图片总数,选两张连续的两帧图像:t-1帧图像It-1和t帧的图像It,t∈N,下面以第一帧和第二帧图像为例;
S12、将第一帧图像和第二帧图像一起输入到基于ResNet网络中进行卷积处理,在ResNet网络的基础上使用FPN特征金字塔来构建出多尺度的行人检测图像特征
Figure FDA0004152875790000022
第一帧和第二帧图像都会得到四个尺度的特征图,第一帧图像特征记为F1和第二帧图像特征记为F2,具体来说:取ResNet网络中对应FPN特征金字塔的2-5层的C2~C5阶段所得到的特征图,其中C2代表下采样22,C3代表下采样23,依次类推,将这三个尺度的特征图经过1×1步长为1的卷积得到四个尺度的特征,然后分别上采样与同样尺度的特征图相加得到M2-M4阶段的特征图,M5特征图由C5特征图直接经过1x1卷积得到,将M2-M4再经过1x1的卷积得到最终的P2-P4特征图,P5特征图取M5即可;C1对应金字塔最底层,因此虽然分辨率最高但语义特征太少,故不采用C1;最终得到的特征图/>
Figure FDA0004152875790000031
的尺度由小到大依次为:
Figure FDA0004152875790000032
然后对这些特征图进行预测,得到的边界框再映射回源大小图像上,最终得到行人的定位与分类,也就是一系列边界框{B|(x,y,w,h,c,p)}。
4.根据权利要求1所述的一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,步骤S2中,对检测框的多尺度外观特征具体计算方法如下:
S21、对于连续的两帧图像的第一帧的图像I1∈RH×W×3和第二帧的图像I2∈RH×W×3,取其中的检测框{B1|(x,y,w,h,c,p)}和{B2|(x,y,w,h,c,p)},将检测框
Figure FDA0004152875790000033
切割成小矩形块/>
Figure FDA0004152875790000034
其中N为检测框被切割成的总块数N=h×w/P2,然后送入可形变Transformer编码器中进行特征变换,具体的特征变换包括以下步骤:
S21.1对于输入的检测框图像的小矩形块特征r,通过线性嵌入变换将其通道数由3变为D,此时得到小矩形块的初始输入特征,记作xi,公式如下;
Figure FDA0004152875790000035
S21.2由于Transformer编码器的并行性,将初始输入特征xi加入位置编码ei,最终得到整个检测框的特征表示f,公式如下:
Figure FDA0004152875790000036
S21.3将得到的整个检测框特征f输入到多尺度可形变注意力中进行处理,再进行基于位移窗口的transformer编码器处理,fi-1由i-1层的transformer编码器输出,再经过归一化层LN和基于多尺度可形变自注意之后与自身相加得到
Figure FDA0004152875790000037
将得到的/>
Figure FDA0004152875790000038
经过归一化层LN和多层感知机MLP处理后与自身相加,最终得到基于窗口的输出fi,公式如下;
Figure FDA0004152875790000041
Figure FDA0004152875790000042
其中,LN表示归一化层,MLP表示多层感知机;MSDA表示基于可形变自注意力,在块与块之间进行公式(4)的可变形自注意计算;公式(4)为可形变的自注意机制的公式,zq表示查询向量;pq表示查询向量的位置;x为输入的特征;M为注意力头数;Wk和Wv分别为key和value的投影矩阵;C为通道数;Δpmqk是位置编码中的相对位置偏移;φ表示softmax函数;Wm表示对注意力施加在value上后的结果进行线性变换从而得到不同头部的输出结果。
5.根据权利要求2所述的一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,步骤S3中的外观特征与信息位置注意力融合具体方法如下:
S31、首先将检测框以及跟踪框的位置信息使用多层感知机信息编码获得Ep,然后和S2得到的鲁棒的行人外观特征F′等比相加合并得到最终的输出特征F″,计算公式如下:
Fp=MLP([x,y,w,h]) (5)
Figure FDA0004152875790000043
其中MLP为多层感知机,x为检测框中心点横坐标,y为中心点纵坐标,w为检测框宽度,h为检测框高度,其中
Figure FDA0004152875790000044
表示元素级相加;
S32、将输出特征F″送到空间注意力模块SAM中,得到空间注意力分数Ms,然后将F″与空间注意力分数Ms相乘,再进入归一化层,与F″相加合得到最终的特征图Fs
空间注意力模块的具体操作为:首先利用空间注意力模块SAM对特征图F″进行在通道维度上的全局池化GP,从而压缩通道维度,然后再对特征图F″进行通道维度上的平均池化AP,从而压缩通道维度;将压缩通道维度后的两个特征图再在通道维度上拼接起来,得到H×W×2的特征图,然后对拼接的H×W×2特征图进行7x7的卷积操作再经过激活函数,从而得到经过空间注意力模块的特征,公式如下:
Figure FDA0004152875790000045
Figure FDA0004152875790000051
Ms=σ(conv(concat(Avgpool(F),Avgmax(F)))) (9)
Figure FDA0004152875790000052
其中公式(7)中的Fw,h表示特征图上的每个像素值,
Figure FDA0004152875790000053
表示在通道方向上取平均值,/>
Figure FDA0004152875790000054
表示在通道方向上取最大值,concat(·)表示特征值按通道方向上进行拼接,σ(·)表示激活函数,采用sigmoid函数,将函数值映射到0-1之间,Ms表示注意力分数,/>
Figure FDA0004152875790000055
表示按元素相乘,Fs表示最终的特征图;
S33、将最终的特征图Fs送到通道注意力模块CAM中,得到通道注意力分数Mc,然后将Fs与通道注意力分数Mc相乘,再进入归一化层,与Fs相加合得到最终的特征图Fc
通道注意力模块CAM的具体操作为:首先对特征图Fs进行在空间维度上的全局池化GP,从而压缩空间尺寸,然后再对特征图Fs进行空间维度上的平均池化AP,从而压缩空间尺寸;然后将两个1×1×c的特征图放入共享参数的MLP中,学习通道维度的特征,得到各个通道的重要性,再将两个通道注意力分数相加,得到1×1×c的特征图,然后再经过激活函数σ(·),从而得到经过通道注意力模块的特征,公式如下:
Figure FDA0004152875790000056
Figure FDA0004152875790000057
Mc(Fs)=σ(MLP(AvgPool(Fs))+MLP(Maxpoll(Fs))) (13)
Figure FDA0004152875790000058
其中公式(11)中的Fx,y,c表示特征图的每个像素值
Figure FDA0004152875790000059
表示在每层通道c上取空间维度WH平均值,/>
Figure FDA00041528757900000510
为表示在每层通道c上取空间维度WH最大值;MLP表示共享参数的多层感知机,σ(·)表示激活函数,采用sigmoid函数,将函数值映射到0-1之间,Mc表示注意力分数,/>
Figure FDA0004152875790000061
表示按元素相乘,Fc表示最终的特征图。
6.根据权利要求5所述的一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,步骤S4具体方法如下:
S41、将S3得到的最终的特征图Fc放入记忆模块中,记忆模块为队列结构,将Fc特征依次保存起来,设定阈值T,将t-T到t-1帧的Fc保存起来,当处理第t帧时,则使用记忆模块中的t-T到t-1的特征Fc,处理完第t帧的图像后,将第t帧的特征Fc压入队列中。同时删除t-T帧的Fc;然后经过Transformer自注意编码器中得到特征Txd,将当前帧即第t帧经过自编码器得到的特征Txd经过变化后,再经过Transformer解码器后得到匹配的代价体C;
S42、将当前帧即第t帧经过自编码器得到的特征Txd经过变化的具体步骤为:在第t帧中,将t-T到t-1的特征,放入Transformer自编码器中得到特征Txd,对于跟踪序列,设有N个跟踪序列,将N个跟踪序列的特征Fc放入Transformer自编码器中,然后将这些特征在第一个维度拼接起来,得到(N×T)×d的特征图,对于检测序列,因为只有一帧的检测框,假定检测数量为M个,为了与跟踪序列维度对齐,将检测序列xN,得到NxM个查询,即为N×M×d检测框。
具体的跟踪序列进入Transformer自编码器的过程为:先将Txd特征图通过投影矩阵Wq、Wk和Wv得到新的特征Q、K和V;然后将K转置与Q进行矩阵乘法,再除以新特征维度的平方根,这样可以保证尺度一致性,同时得到了注意力分数。最后将注意力分数缩放到0-1之间,再用注意力分数与V矩阵相乘。然后将特征放入前馈神经网络FFN,最后经过层归一化,得到最终的特征(N×T)×d,公式如下:
Q=FWq,K=FWk,V=FWv (15)
Figure FDA0004152875790000062
Figure FDA0004152875790000063
其中Wq、Wk和Wv分别为投影矩阵,将Txd维度映射到Txd’维度,Kt是K的转置矩阵,softmax函数将每个值取指数然后进行归一化,这样可以建立不同值之间的联系,同时还可以将分数放缩到0-1之间,
Figure FDA0004152875790000071
表示按元素相乘;
S43、将S42得到的检测框特征N×M×d与跟踪框特征(N×T)×d放入Transformer解码器中,经过多头自注意力和多头交叉注意力,与层归一化和残差连接最后得到NxM的分配矩阵,分配矩阵中的行与列均为独热向量,因为一个检测目标只能对应一个跟踪目标,一个跟踪目标只能对应一个检测目标,分配矩阵的单位元素为0-1的概率值,分配矩阵即为匹配代价体C。
7.根据权利要求6所述的一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,步骤S5的生成匹配结果的具体方法如下:
S51、得到匹配代价体C后,使用匈牙利匹配算法根据代价体C进行匹配,获得检测框与跟踪框的匹配对P[d,t],未匹配上的检测框UD1以及未匹配上的跟踪框UT1,其中P[d,t]中的d代表匹配上的检测框,t代表匹配上的跟踪序列;
S52、将S1中p小于0.5的检测框定义为低置信度的检测框D2与未匹配上的跟踪框UT再次经过S2、S3和S4步骤,得到代价体C′,再次根据匈牙利算法根据代价体C′进行匹配,将获得低置信度检测框D2与未匹配上的跟踪框UT的匹配对P[d2,ut],未匹配上的检测框UD2以及未匹配上的跟踪框UT2,其中P[d2,ut1]中的d2代表匹配上的低置信度的检测框,ut1代表匹配上的跟踪序列;将未匹配上的跟踪框UT2从Tt-1中删除,判断这些行人目标离开了视野内,或者被其他行人或者背景遮挡,因此将UT2放入Tlost;删除的条件是当Tlost中的单位被存放超过∈帧时,同时删除Tlost和UT2;将未匹配上的检测框UD2与阈值ε进行比较,大于阈值ε的未匹配上的检测框UD2初始化为新的跟踪序列Tnew,小于阈值ε的未匹配上的检测框UD2被视为非目标的前景或者背景,因此直接删除;经过仔细筛查低置信度的框与高置信度的检测框后得到最后的跟踪框Ti=t={trk|trk∈B}。
8.根据权利要求7所述的一种基于多尺度可形变注意力机制的多目标跟踪方法,其特征在于,步骤S6中使用交叉熵损失来重复S1-S5训练多目标跟踪模型的具体方法如下:
S61、在每轮训练阶段,得到最后的跟踪结果后,通过计算预测结果T={trk1,trk2…trkn}与Ttruth={trk1,trk2…trkn}真实值的损失,整个过程可以看作是一个分类过程,使用交叉熵损失来训练整个网络,直到达到预先设定的训练轮数,此时得到的网络参数是最后的模型参数。推理阶段,根据S5得到结果后,逐帧进行S1、S2、S3、S4、和S5,最后得到结果即为整个视频的跟踪框
Figure FDA0004152875790000081
CN202310324732.5A 2023-03-30 2023-03-30 基于多尺度可形变注意力机制的多目标跟踪方法 Pending CN116309725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310324732.5A CN116309725A (zh) 2023-03-30 2023-03-30 基于多尺度可形变注意力机制的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310324732.5A CN116309725A (zh) 2023-03-30 2023-03-30 基于多尺度可形变注意力机制的多目标跟踪方法

Publications (1)

Publication Number Publication Date
CN116309725A true CN116309725A (zh) 2023-06-23

Family

ID=86828652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310324732.5A Pending CN116309725A (zh) 2023-03-30 2023-03-30 基于多尺度可形变注意力机制的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116309725A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116518868A (zh) * 2023-07-05 2023-08-01 深圳市海塞姆科技有限公司 基于人工智能的变形测量方法、装置、设备及存储介质
CN117409299A (zh) * 2023-12-15 2024-01-16 武汉纺织大学 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法
CN117522925A (zh) * 2024-01-05 2024-02-06 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及系统
CN117576150A (zh) * 2023-11-03 2024-02-20 扬州万方科技股份有限公司 一种考虑远帧依赖关系的多模态多目标3d跟踪方法及装置
CN117576489A (zh) * 2024-01-17 2024-02-20 华侨大学 智能机器人鲁棒实时目标感知方法、装置、设备及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116518868A (zh) * 2023-07-05 2023-08-01 深圳市海塞姆科技有限公司 基于人工智能的变形测量方法、装置、设备及存储介质
CN116518868B (zh) * 2023-07-05 2023-08-25 深圳市海塞姆科技有限公司 基于人工智能的变形测量方法、装置、设备及存储介质
CN117576150A (zh) * 2023-11-03 2024-02-20 扬州万方科技股份有限公司 一种考虑远帧依赖关系的多模态多目标3d跟踪方法及装置
CN117409299A (zh) * 2023-12-15 2024-01-16 武汉纺织大学 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法
CN117409299B (zh) * 2023-12-15 2024-03-05 武汉纺织大学 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法
CN117522925A (zh) * 2024-01-05 2024-02-06 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及系统
CN117522925B (zh) * 2024-01-05 2024-04-16 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及系统
CN117576489A (zh) * 2024-01-17 2024-02-20 华侨大学 智能机器人鲁棒实时目标感知方法、装置、设备及介质
CN117576489B (zh) * 2024-01-17 2024-04-09 华侨大学 智能机器人鲁棒实时目标感知方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN116309725A (zh) 基于多尺度可形变注意力机制的多目标跟踪方法
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
Xiong et al. Spatiotemporal modeling for crowd counting in videos
Shami et al. People counting in dense crowd images using sparse head detections
CN110309732B (zh) 基于骨架视频的行为识别方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN112329685A (zh) 一种融合型卷积神经网络人群异常行为检测的方法
Manttari et al. Interpreting video features: A comparison of 3D convolutional networks and convolutional LSTM networks
Lu et al. Learning transform-aware attentive network for object tracking
Yang et al. An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G
Chang et al. AFT: Adaptive fusion transformer for visible and infrared images
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN114694089A (zh) 一种新型的多模态融合的行人重识别算法
CN112801068A (zh) 一种视频多目标跟踪与分割系统和方法
Jiang et al. Effective use of convolutional neural networks and diverse deep supervision for better crowd counting
Rajput Gaussian noise robust face hallucination via average filtering based data fidelity and locality regularization
Amshavalli et al. Real-time institution video data analysis using fog computing and adaptive background subtraction
CN116993760A (zh) 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
CN115619827A (zh) 基于Transformer和时空记忆的多目标跟踪方法
Wang et al. Sture: Spatial–temporal mutual representation learning for robust data association in online multi-object tracking
Lin et al. Ml-capsnet meets vb-di-d: A novel distortion-tolerant baseline for perturbed object recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination