CN115345905A - 目标对象跟踪方法、装置、终端及存储介质 - Google Patents
目标对象跟踪方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN115345905A CN115345905A CN202211005899.7A CN202211005899A CN115345905A CN 115345905 A CN115345905 A CN 115345905A CN 202211005899 A CN202211005899 A CN 202211005899A CN 115345905 A CN115345905 A CN 115345905A
- Authority
- CN
- China
- Prior art keywords
- target object
- module
- initial
- frame
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于计算机视觉跟踪技术领域,提供了一种目标对象跟踪方法、装置、终端及存储介质。该方法包括获取待检测视频;将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧多个特征图;特征提取模型包括融合注意力机制的残差模块和空洞池化金字塔模块;其中,融合注意力机制的残差模块用于对初始帧进行特征提取,得到初始帧的初始特征图;空洞池化金字塔模块以不同采样率的空洞卷积对初始特征图采样;对多个特征图进行上采样聚合,得到聚合特征图;对聚合特征图进行目标检测,得到目标信息;基于目标信息和Deep Sort算法进行目标对象跟踪。本发明在特征提取模型中引入了注意力机制和空洞池化金字塔模块,可以提高目标对象跟踪的准确性。
Description
技术领域
本发明属于计算机视觉跟踪领域,尤其涉及一种目标对象跟踪方法、装置、终端及存储介质。
背景技术
多目标跟踪是计算机视觉领域的一个重要分支,旨在为视频序列中的对象分配和维持一个唯一的身份,同时预测对象的位置。其中目标跟踪需要用数据关联技术关联前后两帧中相似度最高的目标,以达到对视频中目标持续跟踪的目的,从而得到目标的运动速度、轨迹和方向等信息,便于将其进一步应用到个人或大规模群体行为研究领域。
然而,目标跟踪存在目标之间的相互作用、遮挡、不同目标之间的高度相似、背景干扰等问题,导致在实际的跟踪场景中,存在跟踪性能下降的问题。此外,目前的目标跟踪方法大多依赖于目标检测结果,计算复杂度高,难以实时检测。
发明内容
有鉴于此,本发明提供了一种目标对象跟踪方法、装置、终端及存储介质,以解决目前目标跟踪方法准确性差的问题。
本发明的第一方面提供了一种目标对象跟踪方法,包括:
获取待检测视频;
将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图;特征提取模型包括串联的融合注意力机制的残差模块和空洞池化金字塔模块;其中,融合注意力机制的残差模块用于对初始帧进行特征提取,得到初始帧的初始特征图;空洞卷积模块用于以不同采样率的空洞卷积对初始特征图并行采样,得到所述初始帧的多个特征图;
对多个特征图进行上采样聚合,得到初始帧的聚合特征图;
对聚合特征图进行目标对象检测,得到初始帧中的目标信息;
基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪。
在一种可能的实现方式中,空洞卷积模块包括串联的第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块;各金字塔池化模块包括串联的融合注意力机制的残差模块和金字塔池化单元。
在一种可能的实现方式中,将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图,包括:
将初始帧输入融合注意力机制的残差模块,得到第一初始特征图;
将第一初始特征图输入第一金字塔池化模块中的融合注意力机制的残差模块,得到第二初始特征图;
使用第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块中的金字塔池化单元以不同采样率的空洞卷积对第二初始特征图并行采样,得到初始帧的四个特征图。
在一种可能的实现方式中,对聚合特征图进行目标对象检测,得到初始帧中的目标信息,包括;
将聚合特征图划分为第一预设数量的均等大小的栅格,并在每个栅格中设置第二预设数量的先验框;
分别判断每个先验框中是否包含目标对象,若包含,则提取目标对象的目标信息;目标信息包括目标ID和目标位置;
对每个包含目标对象的先验框进行非极大值抑制,将筛选后的目标对象作为初始帧中的目标对象,得到初始帧中的一个或多个目标对象的目标信息。
在一种可能的实现方式中,特征提取模型的损失函数为:
其中,Loss表示损失函数值,LossDIOU表示图像上DIOU损失,Lossconfi表示置信度损失,Losscls表示类别损失,N表示检测到的目标对象的数量。
在一种可能的实现方式中,在将待检测视频的初始帧输入经过训练的特征提取模型之前,方法还包括:
建立初始的特征提取模型;
将行人数据集MOT16划分为训练集、验证集,并基于训练集和验证集对初始的特征提取模型进行训练,得到经过训练的特征提取模型。
在一种可能的实现方式中,基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪,包括:
基于卡尔曼滤波器和目标信息估计各个目标对象在第二帧中的状态,作为各个目标对象在第二帧中的估计信息;第二帧为初始帧的下一帧;
对第二帧进行特征提取和目标对象检测,得到各个目标对象在第二帧中的检测信息;
对估计信息和检测信息进行匹配计算,得到各个目标对象在第二帧中的跟踪结果。
在一种可能的实现方式中,所述特征提取模型基于Darknet-53网络建立;所述Darknet-53网络包括串联的23个残差块;所述特征提取模型在每个残差块后串联注意力模块,作为所述融合注意力机制的残差模块,在第3、11、19、23个融合注意力机制的残差模块后串联金字塔池化单元,分别作为所述第一金字塔池化模块、所述第二金字塔池化模块、所述第三金字塔池化模块和所述第四金字塔池化模块。
本发明的第二方面提供了一种目标对象跟踪装置,包括:
获取模块,用于获取待检测视频;
提取模块,用于将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图;特征提取模型包括串联的融合注意力机制的残差模块和空洞卷积模块;其中,融合注意力机制的残差模块用于对初始帧进行特征提取,得到初始帧的初始特征图;空洞池化金字塔模块用于以不同采样率的空洞卷积对初始特征图并行采样,得到所述初始帧的多个特征图;
聚合模块,用于对多个特征图进行上采样聚合,得到初始帧的聚合特征图;
检测模块,用于对聚合特征图进行目标对象检测,得到初始帧中的目标信息;
跟踪模块,用于基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪。
本发明的第三方面提供了一种终端,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如任一项目标对象跟踪方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如任一项目标对象跟踪方法的步骤。
本发明提供的目标对象跟踪方法包括:获取待检测视频;将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图;特征提取模型包括串联的融合注意力机制的残差模块和空洞池化金字塔模块;其中,融合注意力机制的残差模块用于对初始帧进行特征提取,得到初始帧的初始特征图;空洞池化金字塔模块用于以不同采样率的空洞卷积对初始特征图并行采样,得到所述初始帧的多个特征图;对多个特征图进行上采样聚合,得到初始帧的聚合特征图;对聚合特征图进行目标检测,得到初始帧中的目标信息;基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪。本发明在特征提取模型中引入了注意力机制和空洞池化金字塔模块,通过空洞卷积提取更多的特征,并将这些特征进行融合,可以提高目标检测的准确性,从而提高目标对象跟踪的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的目标对象跟踪方法的实现流程图;
图2是本发明实施例提供的特征提取模型的结构示意图;
图3是本发明实施例提供的目标对象跟踪装置的结构示意图;
图4是本发明实施例提供的终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
参见图1,其示出了本发明实施例提供目标对象跟踪方法的实现流程图,详述如下:
步骤101,获取待检测视频。
在本实施例中,待检测视频中包含需要进行跟踪的目标对象,通常目标对象为多个。对多个目标对象进行跟踪时,存在目标之间的相互作用、遮挡、不同目标之间的高度相似、背景干扰等问题,导致目前的目标对象跟踪方法准确度较低。目标对象可以是行人、车辆、动物等。
步骤102,将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图;特征提取模型包括串联的融合注意力机制的残差模块和空洞池化金字塔模块;其中,融合注意力机制的残差模块用于对初始帧进行特征提取,得到初始帧的初始特征图;空洞池化金字塔模块用于以不同采样率的空洞卷积对初始特征图并行采样,得到初始帧的多个特征图。
在本实施例中,融合注意力机制的残差模块可以在残差块的基础上加入注意力机制,以提高检测精度。空洞池化金字塔模块用于以不同采样率的空洞卷积对初始特征图并行采样,相当于以多个比例捕捉图像的上下文。最后将空洞卷积出的特征图与初始特征图融合。将空洞池化金字塔模块加入特征提取模型后,虽然增加了一定的参数量,但在精度上有所提升。
步骤103,对多个特征图进行上采样聚合,得到初始帧的聚合特征图。
在本实施例中,针对YOLOv3训练过程中由于目标的中心距离太近,导致在特征图上被采样成同一个像素点,只有一个物体被当作正样本保留,另一个物体被当作负样本忽略和检测过程中Anchor分配机制不均的问题,本实施例改用一个单尺度输出的体系结构,替换原始YOLOv3中三个尺度的特征层输出,改用更高分辨率的特征输出。该输出聚合来自四种尺度的信息,然后处理所有的Anchor,所有物体都在单尺度输出层预测。
具体的,通过HyperColmn算法将多尺度的特征图融合成单尺度输出,使具有高缩放比例的单个特征层与所有Anchor连接;并采用阶梯式上采样,通过阶梯式插值提高图像分辨率。阶梯式HyperColmn对小尺度(13×13)的特征图进行二倍的上采样,和上一级(26×26)的特征图进行融合;融合之后,再进行二倍上采样,和更大尺度的特征图进行融合,以此类推,得到最终输出。
步骤104,对聚合特征图进行目标对象检测,得到初始帧中的目标信息。
在本实施例中,对特征图进行目标对象检测后,可以确定初始帧中的目标对象数量。为初始帧中的每个目标对象分配ID,识别目标对象的类别,并提取各目标对象的位置,各目标对象的ID、类别和位置就属于目标信息。
步骤105,基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪。
在本实施例中,获取到目标信息后,目标对象跟踪由Deep Sort算法实现。DeepSort算法结合了卡尔曼滤波(Kalman Filter,KF)思想进行位置预测,卡尔曼滤波器利用上一状态的估计,做出当前状态的估计。卡尔曼滤波器中的矩阵表示某时刻的状态,如式其中状态转移矩阵Ft表示如何由上一时刻信息预测当前状态,Bt是控制矩阵,Ut作为当前时刻控制量,而Xt是推测而来的估计值,Xt-1是t-1时刻最优的结果。以此达到跟踪效果,若目标消失或无法辨认,则跟踪失败。
由上可知,本实施例在特征提取模型中引入了注意力机制和空洞池化金字塔模块,通过空洞卷积提取更多的特征,并将这些特征进行融合,可以提高目标检测的准确性,从而提高目标对象跟踪的准确性。当目标对象移出视野后重现时,能够及时跟踪目标对象,能够实现实时在线跟踪。
在一种可能的实现方式中,空洞池化金字塔模块包括串联的第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块;各金字塔池化模块包括串联的融合注意力机制的残差模块和金字塔池化单元。
在本实施例中,各金字塔池化模块对通过残差块的特征图并行四个采样率(分别为2,4,8,16)、卷积核为3×3的空洞卷积,得到(104×208)、(52×104)、(26×52)、(13×26)四种不同尺度的特征图。
在一种可能的实现方式中,将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图,包括:
将初始帧输入融合注意力机制的残差模块,得到第一初始特征图;
将第一初始特征图输入第一金字塔池化模块中的融合注意力机制的残差模块,得到第二初始特征图;
使用第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块中的金字塔池化单元以不同采样率的空洞卷积对第二初始特征图并行采样,得到初始帧的四个特征图。
在本实施例中,融合注意力机制的残差模块由残差块和注意力模块组成。在将初始帧输入融合注意力机制的残差模块后,注意力模块首先将通过残差块得到的H×W×C特征图进行全局池化(Global Average Pooling),得到1×1×C的特征向量,实其具有全局感受野;然后通过一个全连接层(Fully Connected Layers,FC)将特征维度降到原来的C/r,其中r为超参数,并使用ReLU激活函数增加非线性,再通过一个FC层恢复到池化后的尺度,从而拟合通道之间复杂的相关性;再由Sigmoid函数得到归一化权重;将原始的特征图与输出相乘得到最终输出的第一初始特征图。
在一种可能的实现方式中,对聚合特征图进行目标对象检测,得到初始帧中的目标信息,包括;
将聚合特征图划分为第一预设数量的均等大小的栅格,并在每个栅格中设置第二预设数量的先验框;
分别判断每个先验框中是否包含目标对象,若包含,则提取目标对象的目标信息;目标信息包括目标ID和目标位置;
对每个包含目标对象的先验框进行非极大值抑制,将筛选后的目标对象作为初始帧中的目标对象,得到初始帧中的一个或多个目标对象的目标信息。
在本实施例中,目标对象检测基于YOLOv3网络中的检测部分实现。YOLOv3直接在输出数据结构上融入Anchors,网络最终输出的结果,就代表着针对不同Anchors的位置调整情况。
在一种可能的实现方式中,特征提取模型的损失函数为:
其中,Loss表示损失函数值,LossDIOU表示图像上DIOU损失,Lossconfi表示置信度损失,Losscls表示类别损失,N表示检测到的目标对象的数量。
在本实施例中,在损失函数中加入DIOU损失可以减少IOU在两框没有重叠时,度量失效的问题。DIOU公式如下所示:
LDIOU=1-IOU+R(B,Bgt)
其中,RDIOU是真实框Bgt与预测框B的惩罚项,b,bgt分别表示B,Bgt的中心点,d=ρ(b,bgt)是两框中心点坐标的欧氏距离;c是覆盖两个边界框的最小封闭框的对角线长度。RDIOU基于中心点距离与对角线距离比值,避免了当边界框没有重叠部分时,Loss值难以优化的问题。因此DIOU-Loss收敛速度和效果较好,解决了IOU不能反映的重叠问题,提高检测精度。
在一种可能的实现方式中,在将待检测视频的初始帧输入经过训练的特征提取模型之前,方法还包括:
建立初始的特征提取模型;
将行人数据集MOT16划分为训练集、验证集,并基于训练集和验证集对初始的特征提取模型进行训练,得到经过训练的特征提取模型。
在本实施例中,MOT16数据集是用于衡量多目标跟踪方法标准的数据集,主要包含行人跟踪图片,专用于行人跟踪领域的评估。在进行训练前,先通过K-means算法对MOT16数据集进行聚类,得到9种不同的Anchor,然后针对这些Anchor对特征提取模型进行训练,最后在每个栅格中设置9个先验框,每个先验框对应一种Anchor,基于不同Anchor进行特征提取、目标识别和目标跟踪。
在一种可能的实现方式中,基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪,包括:
基于卡尔曼滤波器和目标信息估计各个目标对象在第二帧中的状态,作为各个目标对象在第二帧中的估计信息;第二帧为初始帧的下一帧;
对第二帧进行特征提取和目标对象检测,得到各个目标对象在第二帧中的检测信息;
对估计信息和检测信息进行匹配计算,得到各个目标对象在第二帧中的跟踪结果。
在本实施例中,Deep Sort算法进行目标对象跟踪的具体过程为:首先以SSO-YOLOv3的检测结果作为输入,然后,基于检测结果通过卡尔曼滤波预测当前帧的位置;将当前帧的检测结果和预测结果结合计算马氏距离;同时,利用卷积神经网络(ConvolutionalNeural Network,CNN)提取目标特征,将每个ID特征存储在特征空间中,计算当前帧与前一帧特征向量之间的余弦距离,余弦距离和马氏距离作为代价矩阵用于匈牙利匹配;最后,进行IOU筛选,将匹配值最高的检测结果作为当前帧的目标跟踪结果。
在一种可能的实现方式中,如图2所示,特征提取模型基于Darknet-53网络建立;Darknet-53网络包括串联的23个残差块Residual;特征提取模型在每个残差块后串联注意力模块SE,作为融合注意力机制的残差模块Residual-SE,在第3、11、19、23个融合注意力机制的残差模块Residual-SE后串联金字塔池化单元APP,分别作为第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块。
在本实施例中,Darknet-53网络是YOLO-V3中的特征提取网络,特点是轻量级、速度快,但是由于减少了部分参数,导致目标检测的准确度有所下降。本实施例在Darknet-53网络的基础上增加了注意力机制和空洞池化金字塔模块,通过空洞卷积扩大感受野,提取更多的特征,从而提高了目标检测的准确性。其中,每个金字塔池化单元APP均以四种不同的采样率的空洞卷积对输入的初始特征图并行采样,得到初始特征图的四个空洞卷积特征图,然后再将这四个空洞卷积特征图与输入的初始特征图融合成一个特征图,进行输出。最终特征提取模型的四个金字塔池化模块共输出四个特征图。
在一个具体的实施例中,本实施例用于对行人进行跟踪,步骤具体如下:
步骤1:对视频序列第一帧中行人目标检测,包括:
步骤1.1:首先读取输入的图片,将图像缩放至(416×416);
步骤1.2:将图像输入经过训练的特征提取模型,提取特征,包括:
步骤1.2.1:图像首先经过融合注意力机制的残差模块中的残差块输出208×208×48的特征图;
步骤1.2.2:经过融合注意力机制的残差模块中的注意力模块,学习通道“权重”,提取特征;
步骤1.2.3:图像进入第一金字塔池化模块中的融合注意力机制的残差模块,输出104×104×96的特征图;
步骤1.2.4:输出的特征图送入各金字塔池化单元,对特征图进行空洞卷积,扩大感受野;
步骤1.2.5:从各金字塔池化单元中输出的(104×104)、(52×52)、(26×26)、(13×13)特征图通过阶梯式HyperColmn上采样聚合,得到(104×104)单尺度输出;
步骤1.3:将输出的特征图划分成NxN个均等大小的栅格(grid cell),N为预设值;
步骤1.4:每个栅格包含9个先验框,判别先验框中是否包含目标,并判断目标的种类和位置信息;
步骤1.5进一步对筛选出来的先验框进行非极大值抑制,筛选最终检测结果。
步骤2:由检测结果获得行人目标信息;
步骤3:初始化跟踪器;
步骤4:利用卡尔曼滤波器进行跟踪预测,包括:
步骤4.1:通过上一帧中目标的状态,得到预估值,以此判断目标在下一帧中的状态;
步骤5:进行匹配运算,包括:
步骤5.1:通过把检测框和跟踪框的IOU情况作为输入,采用匈牙利算法,输出检测框和跟踪框的匹配结果;
步骤5.2:检测框与跟踪器预测框之间的马氏距离来描述运动关联程度;
步骤5.3:采用CNN网络提取出单位范数的特征向量,而余弦距离是向量空间的两个向量夹角的余弦值,可以作为衡量个体之间差异大小的度量。在跟踪匹配中,选用最小余弦距离刻画检测器与跟踪器向量间的相似性;
步骤5.4:使用两种马氏距离和余弦距离的线性加权作为最终的度量,输出匹配结果;
步骤6:利用跟踪结果更新卡尔曼滤波器;
步骤6.1:通过当前帧的实际值,结合预测阶段获得的预估值,以获得一个更精确的新估计值;
步骤7:得到跟踪结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
图3示出了本发明实施例提供的目标对象跟踪装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
如图3所示,目标对象跟踪装置3包括:
获取模块31,用于获取待检测视频;
提取模块32,用于将待检测视频的初始帧输入经过训练的特征提取模型,得到初始帧的多个特征图;特征提取模型包括串联的融合注意力机制的残差模块和空洞池化金字塔模块;其中,融合注意力机制的残差模块用于对初始帧进行特征提取,得到初始帧的初始特征图;空洞池化金字塔模块用于以不同采样率的空洞卷积对初始特征图并行采样,得到初始帧的多个特征图;
聚合模块33,用于对多个特征图进行上采样聚合,得到初始帧的聚合特征图;
检测模块34,用于对聚合特征图进行目标对象检测,得到初始帧中的目标信息;
跟踪模块35,用于基于目标信息和Deep Sort算法对待检测视频进行目标对象跟踪。
在一种可能的实现方式中,空洞池化金字塔模块包括串联的第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块;各金字塔池化模块包括串联的融合注意力机制的残差模块和金字塔池化单元。
在一种可能的实现方式中,提取模块32具体用于:
将初始帧输入融合注意力机制的残差模块,得到第一初始特征图;
将第一初始特征图输入第一金字塔池化模块中的融合注意力机制的残差模块,得到第二初始特征图;
使用第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块中的金字塔池化单元以不同采样率的空洞卷积对第二初始特征图并行采样,得到初始帧的四个特征图。
在一种可能的实现方式中,检测模块34具体用于;
将聚合特征图划分为第一预设数量的均等大小的栅格,并在每个栅格中设置第二预设数量的先验框;
分别判断每个先验框中是否包含目标对象,若包含,则提取目标对象的目标信息;目标信息包括目标ID和目标位置;
对每个包含目标对象的先验框进行非极大值抑制,将筛选后的目标对象作为初始帧中的目标对象,得到初始帧中的一个或多个目标对象的目标信息。
在一种可能的实现方式中,特征提取模型的损失函数为:
其中,loss表示损失函数值,lossDIoU表示图像上DIOU损失,Lossconfi表示置信度损失,Losscls表示类别损失,N表示检测到的目标对象的数量。
在一种可能的实现方式中,提取模块32还用于:
在将待检测视频的初始帧输入经过训练的特征提取模型之前,建立初始的特征提取模型;
将行人数据集MOT16划分为训练集、验证集,并基于训练集和验证集对初始的特征提取模型进行训练,得到经过训练的特征提取模型。
在一种可能的实现方式中,跟踪模块35具体用于:
基于卡尔曼滤波器和目标信息估计各个目标对象在第二帧中的状态,作为各个目标对象在第二帧中的估计信息;第二帧为初始帧的下一帧;
对第二帧进行特征提取和目标对象检测,得到各个目标对象在第二帧中的检测信息;
对估计信息和检测信息进行匹配计算,得到各个目标对象在第二帧中的跟踪结果。
在一种可能的实现方式中,特征提取模型基于Darknet-53网络建立;Darknet-53网络包括串联的23个残差块;特征提取模型在每个残差块后串联注意力模块,作为融合注意力机制的残差模块,在第3、11、19、23个融合注意力机制的残差模块后串联金字塔池化单元,分别作为第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块。
由上可知,本发明在特征提取模型中引入了注意力机制和空洞池化金字塔模块,通过空洞卷积提取更多的特征,并将这些特征进行融合,可以提高目标检测的准确性,从而提高目标对象跟踪的准确性。
图4是本发明一实施例提供的终端的示意图。如图4所示,该实施例的终端4包括:处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。处理器40执行计算机程序42时实现上述各个目标对象跟踪方法实施例中的步骤。或者,处理器40执行计算机程序42时实现上述各装置实施例中各模块/单元的功能。
示例性的,计算机程序42可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器41中,并由处理器40执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序42在终端4中的执行过程。
终端4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端4的示例,并不构成对终端4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器41可以是终端4的内部存储单元,例如终端4的硬盘或内存。存储器41也可以是终端4的外部存储设备,例如终端4上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器41还可以既包括终端4的内部存储单元也包括外部存储设备。存储器41用于存储计算机程序以及终端所需的其他程序和数据。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种目标对象跟踪方法,其特征在于,包括:
获取待检测视频;
将所述待检测视频的初始帧输入经过训练的特征提取模型,得到所述初始帧的多个特征图;所述特征提取模型包括串联的融合注意力机制的残差模块和空洞池化金字塔模块;其中,所述融合注意力机制的残差模块用于对所述初始帧进行特征提取,得到所述初始帧的初始特征图;所述空洞卷积模块用于以不同采样率的空洞卷积对所述初始特征图并行采样,得到所述初始帧的多个特征图;
对所述多个特征图进行上采样聚合,得到所述初始帧的聚合特征图;
对所述聚合特征图进行目标对象检测,得到所述初始帧中的目标信息;
基于所述目标信息和Deep Sort算法对所述待检测视频进行目标对象跟踪。
2.根据权利要求1所述的目标对象跟踪方法,其特征在于,所述空洞卷积模块包括串联的第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块;各金字塔池化模块包括串联的融合注意力机制的残差模块和金字塔池化单元。
3.根据权利要求2所述的目标对象跟踪方法,其特征在于,所述将所述待检测视频的初始帧输入经过训练的特征提取模型,得到所述初始帧的多个特征图,包括:
将所述初始帧输入所述融合注意力机制的残差模块,得到第一初始特征图;
将所述第一初始特征图输入所述第一金字塔池化模块中的融合注意力机制的残差模块,得到第二初始特征图;
使用第一金字塔池化模块、第二金字塔池化模块、第三金字塔池化模块和第四金字塔池化模块的金字塔池化单元对所述第二初始特征图并行采样,得到所述初始帧的四个特征图。
4.根据权利要求1所述的目标对象跟踪方法,其特征在于,所述对所述聚合特征图进行目标对象检测,得到所述初始帧中的目标信息,包括;
将所述聚合特征图划分为第一预设数量的均等大小的栅格,并在每个栅格中设置第二预设数量的先验框;
分别判断每个先验框中是否包含目标对象,若包含,则提取目标对象的目标信息;所述目标信息包括目标ID和目标位置;
对每个包含目标对象的先验框进行非极大值抑制,将筛选后的目标对象作为所述初始帧中的目标对象,得到所述初始帧中的一个或多个目标对象的目标信息。
6.根据权利要求1所述的目标对象跟踪方法,其特征在于,在所述将所述待检测视频的初始帧输入经过训练的特征提取模型之前,所述方法还包括:
建立初始的特征提取模型;
将行人数据集MOT16划分为训练集、验证集,并基于所述训练集和所述验证集对所述初始的特征提取模型进行训练,得到经过训练的特征提取模型。
7.根据权利要求1至6任一项所述的目标对象跟踪方法,其特征在于,所述基于所述目标信息和Deep Sort算法对所述待检测视频进行目标对象跟踪,包括:
基于卡尔曼滤波器和所述目标信息估计各个目标对象在第二帧中的状态,作为各个目标对象在所述第二帧中的估计信息;所述第二帧为所述初始帧的下一帧;
对所述第二帧进行特征提取和目标对象检测,得到各个目标对象在所述第二帧中的检测信息;
对所述估计信息和所述检测信息进行匹配计算,得到各个目标对象在所述第二帧中的跟踪结果。
8.一种目标对象跟踪装置,其特征在于,包括:
获取模块,用于获取待检测视频;
提取模块,用于将所述待检测视频的初始帧输入经过训练的特征提取模型,得到所述初始帧的多个特征图;所述特征提取模型包括串联的融合注意力机制的残差模块和空洞池化金字塔模块;其中,所述融合注意力机制的残差模块用于对所述初始帧进行特征提取,得到所述初始帧的初始特征图;所述空洞池化金字塔模块用于以不同采样率的空洞卷积对所述初始特征图并行采样,得到所述初始帧的多个特征图;
聚合模块,用于对所述多个特征图进行上采样聚合,得到所述初始帧的聚合特征图;
检测模块,用于对所述聚合特征图进行目标对象检测,得到所述初始帧中的目标信息;
跟踪模块,用于基于所述目标信息和Deep Sort算法对所述待检测视频进行目标对象跟踪。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述目标对象跟踪方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述目标对象跟踪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005899.7A CN115345905A (zh) | 2022-08-22 | 2022-08-22 | 目标对象跟踪方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005899.7A CN115345905A (zh) | 2022-08-22 | 2022-08-22 | 目标对象跟踪方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115345905A true CN115345905A (zh) | 2022-11-15 |
Family
ID=83953582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211005899.7A Pending CN115345905A (zh) | 2022-08-22 | 2022-08-22 | 目标对象跟踪方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115345905A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116309476A (zh) * | 2023-03-15 | 2023-06-23 | 深圳爱析科技有限公司 | 一种crt拆解质量检测的方法、装置和电子设备 |
CN117274927A (zh) * | 2023-09-19 | 2023-12-22 | 盐城工学院 | 基于改进多目标跟踪的交通流量监测方法 |
CN117292321A (zh) * | 2023-09-27 | 2023-12-26 | 深圳市正通荣耀通信科技有限公司 | 基于视频监控的运动检测方法、装置及计算机设备 |
CN117576150A (zh) * | 2023-11-03 | 2024-02-20 | 扬州万方科技股份有限公司 | 一种考虑远帧依赖关系的多模态多目标3d跟踪方法及装置 |
-
2022
- 2022-08-22 CN CN202211005899.7A patent/CN115345905A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116309476A (zh) * | 2023-03-15 | 2023-06-23 | 深圳爱析科技有限公司 | 一种crt拆解质量检测的方法、装置和电子设备 |
CN116309476B (zh) * | 2023-03-15 | 2024-06-11 | 深圳爱析科技有限公司 | 一种crt拆解质量检测的方法、装置和电子设备 |
CN117274927A (zh) * | 2023-09-19 | 2023-12-22 | 盐城工学院 | 基于改进多目标跟踪的交通流量监测方法 |
CN117274927B (zh) * | 2023-09-19 | 2024-05-17 | 盐城工学院 | 基于改进多目标跟踪的交通流量监测方法 |
CN117292321A (zh) * | 2023-09-27 | 2023-12-26 | 深圳市正通荣耀通信科技有限公司 | 基于视频监控的运动检测方法、装置及计算机设备 |
CN117576150A (zh) * | 2023-11-03 | 2024-02-20 | 扬州万方科技股份有限公司 | 一种考虑远帧依赖关系的多模态多目标3d跟踪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113012203B (zh) | 一种复杂背景下高精度多目标跟踪方法 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN115345905A (zh) | 目标对象跟踪方法、装置、终端及存储介质 | |
CN110781756A (zh) | 基于遥感图像的城市道路提取方法及装置 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN111523447B (zh) | 车辆跟踪方法、装置、电子设备及存储介质 | |
CN113447923A (zh) | 目标检测方法、装置、系统、电子设备及存储介质 | |
CN108182695B (zh) | 目标跟踪模型训练方法及装置、电子设备和存储介质 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN112989962B (zh) | 轨迹生成方法、装置、电子设备及存储介质 | |
CN110363165B (zh) | 基于tsk模糊系统的多目标跟踪方法、装置及存储介质 | |
CN110827320B (zh) | 基于时序预测的目标跟踪方法和装置 | |
CN112634368A (zh) | 场景目标的空间与或图模型生成方法、装置及电子设备 | |
CN110310305A (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN116486288A (zh) | 基于轻量级密度估计网络的航拍目标计数与检测方法 | |
CN115546705A (zh) | 目标识别方法、终端设备及存储介质 | |
CN114586078A (zh) | 手部姿态估计方法、装置、设备以及计算机存储介质 | |
CN112819199A (zh) | 降水量的预测方法、装置、设备和存储介质 | |
CN112634316A (zh) | 目标跟踪方法、装置、设备和存储介质 | |
CN111738319A (zh) | 一种基于大规模样本的聚类结果评价方法及装置 | |
CN116580063B (zh) | 目标追踪方法、装置、电子设备及存储介质 | |
CN113313739A (zh) | 目标跟踪方法、装置和存储介质 | |
Wang et al. | A lightweight high-resolution RS image road extraction method combining multi-scale and attention mechanism | |
CN113393385A (zh) | 基于多尺度融合的无监督去雨方法、系统、装置及介质 | |
CN116523957A (zh) | 一种多目标跟踪方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |