CN113313736B - 统一目标运动感知和重识别网络的在线多目标跟踪方法 - Google Patents
统一目标运动感知和重识别网络的在线多目标跟踪方法 Download PDFInfo
- Publication number
- CN113313736B CN113313736B CN202110649381.6A CN202110649381A CN113313736B CN 113313736 B CN113313736 B CN 113313736B CN 202110649381 A CN202110649381 A CN 202110649381A CN 113313736 B CN113313736 B CN 113313736B
- Authority
- CN
- China
- Prior art keywords
- target
- detection
- network
- tracking
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Geometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
统一目标运动感知和重识别网络的在线多目标跟踪方法,涉及计算机视觉技术。A.将当前帧图像与前一帧图像输入到骨干网络,获得两帧图像的特征图;B.将前一帧图像的热力图与步骤A两个特征图送入检测与跟踪分支,得计算当前帧检测结果及目标跟踪偏移量;C.将步骤A两帧图像的特征图送入重识别分支,得嵌入特征向量,存储于重识别特征向量池中;D.根据跟踪偏移量,对步骤B获得的检测结果进行第一次匹配,为已匹配的检测分配对应目标的身份识别;E.对步骤D获得的未匹配检测结果进行第二次匹配,将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算,根据设定的阈值,为不同检测结果分配身份识别,即得当前帧最终的跟踪结果。
Description
技术领域
本发明涉及计算机视觉技术,尤其是涉及一种统一目标运动感知和重识别网络的在线多目标跟踪方法。
背景技术
视觉系统是人类获取外界信息十分重要的途径,能够为人类提供丰富的资源信息,多目标跟踪作为计算机视觉领域的一个基本任务,旨在估计序列中特定类别的运动轨迹。近年来,对于多目标跟踪算法的研究已受到越来越多的关注。但是,在密集人群或低帧率视频中,目标容易发生较大运动偏移和相互遮挡、重叠等情况,导致跟踪性能受限。因此,研究目标运动信息、构建简单而有效的重识别网络对在线多目标跟踪方法具有重要意义。
现有的多目标跟踪方法主要可以分为先检测后跟踪和联合检测跟踪两类。第一类方法属于双阶段跟踪方法,主要利用一个单独的检测器检测出每帧图像的目标,然后再使用数据关联算法进行跟踪。Alex Bewley等人(Alex Bewley,Zongyuan Ge,Lionel Ott,Fabio Ramos,andBen Upcroft.2016.Simple online and realtime tracking.InProceedings of theIEEE International Conference on Image Processing(2016),3464-3468)提出Sort方法,利用Faster-RCNN(Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun.2017.Faster R-CNN:Towards real-time object detection with regionproposal networks.IEEE Transactions on Pattern Analysis and MachineIntelligence39,6(2017),1137-1149)检测出当前图像的目标边界框,然后使用卡尔曼滤波预测出另一组目标边界框,通过IoU分数将两组边界框进行匹配,从而完成多目标跟踪。Nicolai Wojke等人(Nicolai Wojke,Alex Bewley,and DietrichPaulus.2017.Simpleonline and realtime tracking with a deep associationmetric.In Proceedings of theIEEE International Conference on Image Processing(2017),3645-3649)在Sort方法的基础上训练一个重识别网络用于表观特征提取,同时,使用级联匹配策略进一步对目标边界框进行匹配。GuillemBraso等人(GuillemBraso andLaura Leal-Taixe.2020.Learning a neural solver for multiple objecttracking.In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(2020),6247-6257)把每个检测结果看成一个图节点,从而将数据关联问题转化为图网络的优化问题。这类方法将检测和跟踪网络分开处理,导致无法实现端到端优化。第二类方法将检测和跟踪放在同一个框架下,有效地提升跟踪效率。PhilippBergmann等人(Philipp Bergmann,Tim Meinhardt,and Laura Leal-Taixe.2019.Tracking without bells and whistles.InProceedings of the IEEE/CVFInternational Conference on Computer Vision(2019),941-951)利用检测器的回归头部直接实现目标边界框在时间上的修正。Jinlong Peng等人(Jinlong Peng,ChanganWang,Fangbin Wan,Yang Wu,Yabiao Wang and et al.2020.Chained-tracker:Chainingpaired attentive regression results for end-to-end joint multiple-objectdetection and tracking.InProceedings of theEuropean Conference onComputer Vision(2020),145-161)把相邻帧对作为网络输入,在单个回归模型中执行联合检测和跟踪算法,能够进行端到端的检测优化、特征提取。Xingyi Zhou等人(Xingyi Zhou,VladlenKoltun,and Philipp2020.Tracking objects as points.InProceedings of theEuropean Conference on Computer Vision(2020),474-490)将CenterNet(Xingyi Zhou,Dequan Wang,and Philipp2019.Objects aspoints.arXiv preprint arXiv:1904.07850)作为基本的检测网络,预测当前帧与前一帧的中心点偏移量以实现多目标跟踪。这类方法无法关联上已被中断的轨迹,导致身份识别频繁转换。
发明内容
本发明的目的在于提供更准确地学习目标中心点位置偏移,缓解身份标识频繁转换等问题,能够应对密集人群及低帧率视频所带来的目标大幅运动、相互遮挡,提升多目标跟踪性能的统一目标运动感知和重识别网络的在线多目标跟踪方法。
所述统一目标运动感知和重识别网络的在线多目标跟踪方法包括以下步骤:
A.将当前帧图像与前一帧图像输入到骨干网络,获得两帧图像的特征图;
B.将前一帧图像的热力图与步骤A提取的两帧图像的特征图同时送入检测与跟踪分支,获得计算当前帧检测结果的热力图和长宽,以及目标的跟踪偏移量;
C.将步骤A获得的两帧图像的特征图送入重识别分支,获得嵌入特征向量,存储于重识别特征向量池中;
D.根据跟踪偏移量,使用数据关联算法对步骤B获得的检测结果进行第一次匹配,将检测结果分为已匹配的检测和未匹配的检测,为已匹配的检测分配对应目标的身份识别;
E.对步骤D获得的未匹配检测结果进行第二次匹配,将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算,根据设定的阈值δ,为不同检测结果分配身份识别,即可获得当前帧最终的跟踪结果。
在步骤A中,所述骨干网络采用DLA-34网络进行改造;DLA-34网络由迭代深度聚合模块和层次深度聚合模块组成;将DLA-34网络的上采样模块中所有普通卷积层换成可形变卷积层,根据不同尺度的目标动态调整感受野;同时,在DLA-34网络的下采样模块中插入目标运动感知模块,使网络更加关注目标偏移信息;所述目标运动感知模块基于自注意力机制,首先,分别使用核为H×1和1×W的平均池化层编码水平和垂直方向上的输入特征,将两个方向上的特征拼接,送入一个1×1的二维卷积层和Sigmoid激活层提取特征,然后拆分该特征,对拆分后的特征使用另外两个1×1的二维卷积层和Sigmoid激活层,提取水平和垂直方向上的特征,最后,将两个方向上的特征作为权重向量作用于原输入特征,经过下采样后得到输出特征。
在步骤B中,所述获得计算当前帧检测结果所需的热力图和长宽,以及目标的跟踪偏移量,具体方法包括以下子步骤:
B1.设当前帧为第t帧,将第t帧图像和第t-1帧图像、热力图输入检测与跟踪分支,基于无锚点的检测网络CenterNet预测第t帧目标中心点位置和长宽通过损失Lcenter回归中心点位置,所述损失Lcenter计算方式如下:
B2.基于完全交并比损失,使用损失Lbbox拟合边界框长宽比,进一步约束边界框重叠区域面积和中心点距离;所述损失Lbbox计算方式如下:
其中,φ为预测和真实边界框之间的交并比,d(·)表示两个中心点之间的欧氏距离,σ表示可覆盖两个边界框的最小矩形的对角线长度,系数α和υ用来平衡预测框长宽比与真实框长宽比的一致性;
B4.通过类似目标中心点和长宽的损失Loffset学习跟踪偏移量,所述损失Loffset计算方式如下:
在网络训练阶段,所述输入图像为视频序列第一帧或图像序列时,可不输入前一帧的图像和热力图,同时,方法允许输入与当前帧间隔τ帧的前序帧,所述τ∈[0,5]。
在步骤C中,所述重识别分支由一个二维卷积层与一个批归一化层组成,用于为每个目标提取一个128维的嵌入特征向量;在重识别网络训练阶段,将嵌入特征向量的学习看成一个二分类问题,划分所有具有相同身份标识的目标为同一类别,使用位置在目标中心点的嵌入特征向量训练;网络学习提取目标的嵌入特征向量Ep,并将该向量映射到一个类别分布向量P={ρ(k),k∈[1,K]}中,损失函数Lid定义为:
其中,Li(k)表示第i个目标的真实类别标签的one-hot编码,K表示类别总数;
在推理阶段,重识别网络从图像中提取每个目标的嵌入特征向量,并存储于重识别特征向量池。
在步骤D中,所述第一次匹配的具体方法如下:
每帧图像经过检测与跟踪分支得到检测结果,根据当前帧预测的跟踪偏移量,使用贪婪匹配算法建立对应目标的帧间关系;在当前帧中,对于成功建立帧间关系的目标,则认为是已匹配的检测,给该检测分配对应的身份识别;反之,则认为是未匹配的检测。
在步骤E中,所述第二次匹配的具体方法如下:
对于第一次未匹配的检测,提取对应的嵌入特征向量,再逐一计算其与重识别特征向量池中的嵌入特征向量的余弦相似度;设定阈值δ,若大于δ,则认为两个特征向量来自同一个目标,进行身份标识重启,为对应的检测分配相同的身份标识,并更新该目标的嵌入特征向量,更新机制为:
若小于δ,则认为两个特征向量来自不同目标,为对应的检测分配新的身份标识,并往重识别特征向量池中增加该特征向量;所述阈值δ=0.3。
本发明使用统一框架进行目标检测、重识别、关联匹配;在骨干网络中插入目标运动感知模块,增强网络捕获目标位置运动信息的能力,使网络集中于学习更准确地定位感兴趣目标的中心点位置;同时,增加重识别分支,通过简单而有效的重识别网络及二次匹配策略,在不影响检测性能的情况下,增强跟踪器应对密集人群的抗遮挡能力,从而提高多目标跟踪性能。
附图说明
图1为本发明实施例的整体流程图。
图2为本发明实施例的骨干网络图
图3为本发明实施例的目标位置感知模块图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明,本实施例在以本发明技术方案为前提下进行实施,给出实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例的实施方式包括以下步骤:
A.将当前帧图像与前一帧图像输入到骨干网络,获得两帧图像的特征图。
如图2所示,骨干网络采用DLA-34网络进行改造;DLA-34网络由迭代深度聚合模块和层次深度聚合模块组成;将DLA-34网络的上采样模块中所有普通卷积层换成可形变卷积层,根据不同尺度的目标动态调整感受野;如图3所示,在DLA-34网络的下采样模块中插入目标运动感知模块,使网络更加关注目标偏移信息;所述目标运动感知模块基于自注意力机制,首先,分别使用核为H×1和1×W的平均池化层编码水平和垂直方向上的输入特征,将两个方向上的特征拼接,送入一个1×1的二维卷积层和Sigmoid激活层提取特征,然后拆分该特征,对拆分后的特征使用另外两个1×1的二维卷积层和Sigmoid激活层,提取水平和垂直方向上的特征,最后,将两个方向上的特征作为权重向量作用于原输入特征,经过下采样后得到输出特征。
B.将前一帧图像的热力图与步骤A提取的两个特征图同时送入检测与跟踪分支,获得计算当前帧检测结果的热力图和长宽,以及目标的跟踪偏移量。
B1.设当前帧为第t帧,将第t帧图像和第t-1帧图像、热力图输入检测与跟踪分支,基于无锚点的检测网络CenterNet预测第t帧目标中心点位置和长宽通过损失Lcenter回归中心点位置,所述损失Lcenter计算方式如下:
B2.基于完全交并比损失,使用损失Lbbox拟合边界框长宽比,进一步约束边界框重叠区域面积和中心点距离;所述损失Lbbox计算方式如下:
其中,φ为预测和真实边界框之间的交并比,d(·)表示两个中心点之间的欧氏距离,σ表示可覆盖两个边界框的最小矩形的对角线长度,系数α和υ用来平衡预测框长宽比与真实框长宽比的一致性;
B4.通过类似目标中心点和长宽的损失Loffset学习跟踪偏移量,所述损失Loffset计算方式如下:
在网络训练阶段,所述输入图像为视频序列第一帧或图像序列时,可不输入前一帧的图像和热力图,同时,方法允许输入与当前帧间隔τ帧的前序帧,所述τ∈[0,5]。
C.将步骤A获得的两帧图像的特征图送入重识别分支,获得嵌入特征向量,存储于重识别特征向量池中。
重识别分支由一个二维卷积层与一个批归一化层组成,用于为每个目标提取一个128维的嵌入特征向量;在重识别网络训练阶段,将嵌入特征向量的学习看成一个二分类问题,划分所有具有相同身份标识的目标为同一类别,使用位置在目标中心点的嵌入特征向量训练;网络学习提取目标的嵌入特征向量Ep,并将该向量映射到一个类别分布向量P={ρ(k),k∈[1,K]}中,损失函数Lid定义为:
其中,Li(k)表示第i个目标的真实类别标签的one-hot编码,K表示类别总数;
在重识别网络推理阶段,从图像中提取每个目标的嵌入特征向量,并存储于重识别特征向量池。
D.根据跟踪偏移量,使用数据关联算法对步骤B获得的检测结果进行第一次匹配,将检测结果分为已匹配的检测和未匹配的检测,为已匹配的检测分配对应目标的身份识别。
每帧图像经过检测与跟踪分支得到检测结果,根据当前帧预测的跟踪偏移量,使用贪婪匹配算法建立对应目标的帧间关系;在当前帧中,对于成功建立帧间关系的目标,则认为是已匹配的检测,给该检测分配对应的身份识别;反之,则认为是未匹配的检测。
E.对步骤D获得的未匹配检测结果进行第二次匹配,将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算,根据设定的阈值δ,为不同检测结果分配身份识别,即可获得当前帧最终的跟踪结果。
对于第一次未匹配的检测,提取对应的嵌入特征向量,再逐一计算其与重识别特征向量池中的嵌入特征向量的余弦相似度;设定阈值δ,若大于δ,则认为两个特征向量来自同一个目标,进行身份标识重启,为对应的检测分配相同的身份标识,并更新该目标的嵌入特征向量,更新机制为:
若小于δ,则认为两个特征向量来自不同目标,为对应的检测分配新的身份标识,并往重识别特征向量池中增加该特征向量;所述阈值δ=0.3。
表1为本发明与其他几种多目标跟踪方法在MOT2017数据集上的比对。表1中加粗结果为各指标的最优结果。其中,TubeTK和MPNTrack为离线方法,DAN、Tracktor、C-Tracker和CenterTrack为在线方法。
从表1的实验结果可以看出,本发明能够准确估计目标的运动,有效缓解身份识别频繁转换问题,从而提升跟踪精度。
表1
TubeTK对应Bo Pang等人提出的方法(Bo Pang,Yizhuo Li,Yifan Zhang,MuchenLi,Cewu Lu.2020.Tubetk:Adopting tubes to track multi-object in a one-steptraining model.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(2020),6308-6318);
MPNTrack对应GuillemBraso等人提出的方法(GuillemBraso and Laura Leal-Taixe.2020.Learning a neural solver for multiple object tracking.InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition(2020),6247-6257);
DAN对应Shijie Sun等人提出的方法(Shijie Sun,Naveed Akhtar,HuanShengSong,Ajmal SMian,and Mubarak Shah.2019.Deep affinity network for multipleobjecttracking.IEEE Transactions on Pattern Analysis and Machine Intelligence43,1(2019),104-119);
Tracktor对应等人提出的方法(Philipp Bergmann,Tim Meinhardt,and LauraLeal-Taixe.2019.Tracking without bells and whistles.In Proceedings of theIEEE/CVF International Conference on Computer Vision(2019),941-951);
C-Tracker对应等人提出的方法(Jinlong Peng,Changan Wang,Fangbin Wan,Yang Wu,Yabiao Wang and et al.2020.Chained-tracker:Chaining paired attentiveregression results for end-to-end joint multiple-object detection andtracking.In Proceedings of the European Conference on Computer Vision(2020),145-161);
CenterTrack对应等人提出的方法(Xingyi Zhou,VladlenKoltun,and Philipp2020.Tracking objects as points.In Proceedings of the EuropeanConference on Computer Vision(2020),474-490);
由对比可见,本发明将目标检测、重识别、关联匹配任务结合到统一框架,将目标运动感知模块插入骨干网络中捕获目标位置移动信息,学习目标偏移和尺度变化,更准确地学习目标中心点位置偏移,为后续跟踪偏移量的学习提供鲁棒特征;再通过重识别分支学习并提取目标的嵌入特征向量,采用二次匹配策略缓解身份标识频繁转换的问题。本发明能够应对密集人群及低帧率视频所带来的目标大幅运动、相互遮挡等问题,从而提升多目标跟踪的性能。
Claims (6)
1.统一目标运动感知和重识别网络的在线多目标跟踪方法,其特征在于包括以下步骤:
A.将当前帧图像与前一帧图像输入到骨干网络,获得两帧图像的特征图;
B.将前一帧图像的热力图与步骤A提取的两个特征图同时送入检测与跟踪分支,获得计算当前帧检测结果所需的热力图和长宽,以及目标的跟踪偏移量;
所述获得计算当前帧检测结果所需的热力图和长宽,以及目标的跟踪偏移量进一步包括以下子步骤:
B1.设当前帧为第t帧,将第t帧图像和第t-1帧图像、热力图输入检测与跟踪分支,基于无锚点的检测网络CenterNet预测第t帧目标中心点位置和长宽通过损失Lcenter回归中心点位置,所述损失Lcenter计算方式如下:
B2.基于完全交并比损失,使用损失Lbbox拟合边界框长宽比,进一步约束边界框重叠区域面积和中心点距离;所述损失Lbbox计算方式如下:
其中,φ为预测和真实边界框之间的交并比,d(·)表示两个中心点之间的欧氏距离,σ表示覆盖两个边界框的最小矩形的对角线长度,系数α和υ用来平衡预测框长宽比与真实框长宽比的一致性;
B4.通过目标中心点和长宽的损失Loffset学习跟踪偏移量,所述损失Loffset计算方式如下:
在网络训练阶段,输入图像为视频序列第一帧或图像序列时,可不输入前一帧的图像和热力图,同时,方法允许输入与当前帧间隔τ帧的前序帧,所述τ∈[0,5];
C.将步骤A获得的两帧图像的特征图送入重识别分支,获得嵌入特征向量,存储于重识别特征向量池中;
D.根据跟踪偏移量,使用数据关联算法对步骤B获得的检测结果进行第一次匹配,将检测结果分为已匹配的检测和未匹配的检测,为已匹配的检测分配对应目标的身份识别;
E.对步骤D获得的未匹配检测结果进行第二次匹配,将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算,根据设定的阈值δ,为不同检测结果分配身份识别,即获得当前帧最终的跟踪结果。
2.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法,其特征在于在步骤A中,所述骨干网络采用DLA-34网络进行改造;DLA-34网络由迭代深度聚合模块和层次深度聚合模块组成;将DLA-34网络的上采样模块中所有普通卷积层换成可形变卷积层,根据不同尺度的目标动态调整感受野;同时,在DLA-34网络的下采样模块中插入目标运动感知模块,使网络更加关注目标偏移信息;所述目标运动感知模块基于自注意力机制,首先,分别使用核为H×1和1×W的平均池化层编码水平和垂直方向上的输入特征,将两个方向上的特征拼接,送入一个1×1的二维卷积层和Sigmoid激活层提取特征,然后拆分该特征,对拆分后的特征使用另外两个1×1的二维卷积层和Sigmoid激活层,提取水平和垂直方向上的特征,最后,将两个方向上的特征作为权重向量作用于原输入特征,经过下采样后得到输出特征。
3.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法,其特征在于在步骤C中,所述重识别分支由一个二维卷积层与一个批归一化层组成,用于为每个目标提取一个128维的嵌入特征向量;在重识别网络训练阶段,将嵌入特征向量的学习看成一个二分类问题,划分所有具有相同身份标识的目标为同一类别,使用位置在目标中心点的嵌入特征向量训练;网络学习提取目标的嵌入特征向量Ep,并将该向量映射到一个类别分布向量P={ρ(k),k∈[1,K]}中,损失函数Lid定义为:
其中,Li(k)表示第i个目标的真实类别标签的one-hot编码,K表示类别总数;
在重识别网络推理阶段,从图像中提取每个目标的嵌入特征向量,并存储于重识别特征向量池。
4.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法,其特征在于在步骤D中,所述第一次匹配的具体方法如下:
每帧图像经过检测与跟踪分支得到检测结果,根据当前帧预测的跟踪偏移量,使用贪婪匹配算法建立对应目标的帧间关系;在当前帧中,对于成功建立帧间关系的目标,则认为是已匹配的检测,给该检测分配对应的身份识别;反之,则认为是未匹配的检测。
6.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法,其特征在于使用统一框架进行目标检测、重识别、关联匹配;在骨干网络中插入目标运动感知模块,增强网络捕获目标位置运动信息的能力,使网络集中于学习更准确地定位感兴趣目标的中心点位置;同时,增加重识别分支,通过简单而有效的重识别网络及二次匹配策略,在不影响检测性能的情况下,增强跟踪器应对密集人群的抗遮挡能力,从而提高多目标跟踪性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649381.6A CN113313736B (zh) | 2021-06-10 | 2021-06-10 | 统一目标运动感知和重识别网络的在线多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649381.6A CN113313736B (zh) | 2021-06-10 | 2021-06-10 | 统一目标运动感知和重识别网络的在线多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313736A CN113313736A (zh) | 2021-08-27 |
CN113313736B true CN113313736B (zh) | 2022-05-17 |
Family
ID=77378113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110649381.6A Active CN113313736B (zh) | 2021-06-10 | 2021-06-10 | 统一目标运动感知和重识别网络的在线多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313736B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887489A (zh) * | 2021-10-21 | 2022-01-04 | 西南交通大学 | 基于位置增强和多尺度融合网络的车厢内人群计数方法 |
CN113971688B (zh) * | 2021-11-04 | 2023-09-26 | 匀熵智能科技(无锡)有限公司 | 一种增强id重识别的无锚多目标跟踪方法 |
CN114241007B (zh) * | 2021-12-20 | 2022-08-05 | 江南大学 | 基于跨任务互学习的多目标跟踪方法、终端设备及介质 |
CN114332701B (zh) * | 2021-12-27 | 2024-05-28 | 北京航空航天大学 | 一种基于任务区分检测再识别联合网络的目标跟踪方法 |
CN114241053B (zh) * | 2021-12-31 | 2024-05-28 | 北京工业大学 | 基于改进的注意力机制FairMOT多类别跟踪方法 |
CN114419151A (zh) * | 2021-12-31 | 2022-04-29 | 福州大学 | 一种基于对比学习的多目标跟踪方法 |
CN114565860B (zh) * | 2022-03-01 | 2022-11-11 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
CN114820699B (zh) * | 2022-03-29 | 2023-07-18 | 小米汽车科技有限公司 | 多目标跟踪方法、装置、设备及介质 |
CN114972805A (zh) * | 2022-05-07 | 2022-08-30 | 杭州像素元科技有限公司 | 一种基于无锚的联合检测和嵌入的多目标跟踪方法 |
US20230394697A1 (en) * | 2022-06-07 | 2023-12-07 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method, device, and system for detecting and tracking objects in captured video using convolutional neural network |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826403A (zh) * | 2019-09-27 | 2020-02-21 | 深圳云天励飞技术有限公司 | 跟踪目标确定方法及相关设备 |
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
CN112651995A (zh) * | 2020-12-21 | 2021-04-13 | 江南大学 | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 |
CN112767443A (zh) * | 2021-01-18 | 2021-05-07 | 深圳市华尊科技股份有限公司 | 目标跟踪方法、电子设备及相关产品 |
CN112784756A (zh) * | 2021-01-25 | 2021-05-11 | 南京邮电大学 | 人体识别跟踪方法 |
CN112884742A (zh) * | 2021-02-22 | 2021-06-01 | 山西讯龙科技有限公司 | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 |
-
2021
- 2021-06-10 CN CN202110649381.6A patent/CN113313736B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826403A (zh) * | 2019-09-27 | 2020-02-21 | 深圳云天励飞技术有限公司 | 跟踪目标确定方法及相关设备 |
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
CN112651995A (zh) * | 2020-12-21 | 2021-04-13 | 江南大学 | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 |
CN112767443A (zh) * | 2021-01-18 | 2021-05-07 | 深圳市华尊科技股份有限公司 | 目标跟踪方法、电子设备及相关产品 |
CN112784756A (zh) * | 2021-01-25 | 2021-05-11 | 南京邮电大学 | 人体识别跟踪方法 |
CN112884742A (zh) * | 2021-02-22 | 2021-06-01 | 山西讯龙科技有限公司 | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 |
Non-Patent Citations (3)
Title |
---|
Dual Semantic Fusion Network for Video Object Detection;lijian lin et al.;《arXiv》;20200916;全文 * |
End-to-end learning of object motion estimation from retinal events for event-based object tracking;Haosheng Chen et al.;《arXiv》;20200214;全文 * |
深度学习的目标跟踪算法综述;李玺 等;《中国图像图像学报》;20191203;第24卷(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113313736A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313736B (zh) | 统一目标运动感知和重识别网络的在线多目标跟踪方法 | |
Kim et al. | Vision-based human activity recognition system using depth silhouettes: A smart home system for monitoring the residents | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
US8467570B2 (en) | Tracking system with fused motion and object detection | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN115239765B (zh) | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 | |
Lu et al. | Automatic lip reading using convolution neural network and bidirectional long short-term memory | |
Rashmi et al. | Human identification system using 3D skeleton-based gait features and LSTM model | |
Basavaiah et al. | Human activity detection and action recognition in videos using convolutional neural networks | |
Shabaninia et al. | Transformers in action recognition: A review on temporal modeling | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
US20240144489A1 (en) | Deep learning method for multiple object tracking from video | |
Özbay et al. | 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks. | |
Wang et al. | Summary of object detection based on convolutional neural network | |
Syrris et al. | A lattice-based neuro-computing methodology for real-time human action recognition | |
CN117437260A (zh) | 一种基于联合检测和重识别的无锚实时多目标跟踪方法 | |
Zhang et al. | Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition | |
Priya et al. | Developing an offline and real-time Indian sign language recognition system with machine learning and deep learning | |
Zhang | A Fine‐Grained Image Classification and Detection Method Based on Convolutional Neural Network Fused with Attention Mechanism | |
Guddeti | Human action recognition using multi-stream attention-based deep networks with heterogeneous data from overlapping sub-actions | |
Ren et al. | Toward three-dimensional human action recognition using a convolutional neural network with correctness-vigilant regularizer | |
Xu et al. | Deep Learning Techniques for Video Instance Segmentation: A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |