CN115631214A - 一种基于运动信息和语义信息的多目标跟踪方法及系统 - Google Patents

一种基于运动信息和语义信息的多目标跟踪方法及系统 Download PDF

Info

Publication number
CN115631214A
CN115631214A CN202211197971.0A CN202211197971A CN115631214A CN 115631214 A CN115631214 A CN 115631214A CN 202211197971 A CN202211197971 A CN 202211197971A CN 115631214 A CN115631214 A CN 115631214A
Authority
CN
China
Prior art keywords
detection
target object
target
frame
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211197971.0A
Other languages
English (en)
Inventor
韩飞
王俊
王曼
杜超
李思源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Cbpm & Xinda Banking Technology Co ltd
Original Assignee
Shenzhen Cbpm & Xinda Banking Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Cbpm & Xinda Banking Technology Co ltd filed Critical Shenzhen Cbpm & Xinda Banking Technology Co ltd
Priority to CN202211197971.0A priority Critical patent/CN115631214A/zh
Publication of CN115631214A publication Critical patent/CN115631214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于运动信息和语义信息的多目标跟踪方法及系统,属于视频多目标跟踪技术领域。具体包括:获取当前视频帧的输入,并对视频帧进行预处理,接着通过目标检测提取目标对象的特征并生成目标对象的检测框,然后获取检测框内目标对象的语义特征;最后送入跟踪模块,通过修改卡尔曼滤波的初始状态向量,以及使用两次匹配算法和匹配检测框和提取的语义特征,从而更加准确的跟踪目标。本发明既能提高卡尔曼预测框的准确性,同时又能不增加计算开销的条件下,提取目标的语义信息,防止跟踪对象的漂移的实时多目标跟踪。

Description

一种基于运动信息和语义信息的多目标跟踪方法及系统
技术领域
本发明属于视频多目标跟踪技术领域,具体涉及一种基于运动信息和语义信息的多目标跟踪方法及系统。
背景技术
基于视频的多目标跟踪任务,其目的是检测和预测一个视频流中多个目标对象的时空轨迹。多目标跟踪有广阔的应用场景,比如自动驾驶、视频监控等,由于其在各个领域的潜在应用,引起了研究人员的广泛关注。
现有技术中,基于检测的跟踪框架是多目标跟踪任务最有效的模式,其一般由两个部分组成:1、运动状态估计模块,用以预测目标对象在下一帧中的位置;2、关联模块,从每个视频帧中提取目标对象的特征嵌入,通过目标特征的相似性和运动一致性等信息实现不同帧中检测的关联以形成轨迹,目标的语义信息和运行信息都被量化为距离,并作为一个全局分配问题来解决关联任务。
现有技术存在以下技术问题:
1.现有跟踪算法都采用具有匀速模型假设的卡尔曼滤波器估计检测框下一帧的运动状态,但是目前卡尔曼滤波的初始状态向量表征使用的是检测框的长宽比而不是长宽值,这导致了不准确的长宽尺寸估计,同时由于目标运动不规则还会导致卡尔曼预测的震动。
2.匹配过程中需要结合目标的语义特征,通常使用额外的网络提取对象特征,但是使用网络提取目标的语义特征这个过程往往很耗时,难以做到实时的跟踪。
发明内容
针对上述现有技术中存在的问题,本发明提出了一种基于运动信息和语义信息的多目标跟踪方法及系统,其目的为:既能提高卡尔曼预测框的准确性,同时又能不增加计算开销的条件下,提取目标的语义信息,防止跟踪对象的漂移的实时多目标跟踪。
为实现上述目的本发明所采用的技术方案是:提供一种基于运动信息和语义信息的多目标跟踪方法,包括:
S1:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
S2:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
S3:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在S2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
S4:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
较优的,本发明S1中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
较优的,本发明S2具体为:
S2.1:将所述检测训练样本输入到yolox网络中;
S2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
Figure BDA0003871227610000021
其中,M表示提取的特征,im表示输入的检测训练样本,
Figure BDA0003871227610000022
表示参数wb的Darknet53卷积神经网络;
S2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
Figure BDA0003871227610000031
Figure BDA0003871227610000032
其中,
Figure BDA0003871227610000033
表示第i个检测框的左上角和右下角坐标参数,x、y表示检测框边界的像素点;
S2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
Figure BDA0003871227610000034
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
S2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
较优的,本发明S3具体为:
S3.1:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性
Figure BDA0003871227610000035
同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性
Figure BDA0003871227610000036
基于这两项属性训练得到目标对象的特征,公式如下:
Figure BDA0003871227610000037
Figure BDA0003871227610000038
其中,
Figure BDA0003871227610000039
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure BDA00038712276100000310
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure BDA0003871227610000041
大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
Figure BDA0003871227610000042
Figure BDA0003871227610000043
T=2log(Nt-1+Nt+1)
其中,
Figure BDA0003871227610000044
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure BDA0003871227610000045
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure BDA0003871227610000046
大于次最大值,阈值m的值为0.5;
S3.2:在S2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在S2.2提取的特征Mi通过卷积输出的256维特征。
较优的,本发明S4具体为:
S4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
S4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与S2得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
Figure BDA0003871227610000051
Figure BDA0003871227610000052
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,
Figure BDA0003871227610000053
表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,
Figure BDA0003871227610000054
表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
本发明还提出了一种基于运动信息和语义信息的多目标跟踪系统,包括:
输入模块:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
检测模块:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
语义提取模块:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在检测模块提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
跟踪模块:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
较优的,本发明输入模块中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
较优的,本发明检测模块具体包括:
步骤2.1:将所述检测训练样本输入到yolox网络中;
步骤2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
Figure BDA0003871227610000061
其中,M表示提取的特征,im表示输入的检测训练样本,
Figure BDA0003871227610000062
表示参数wb的Darknet53卷积神经网络;
步骤2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
Figure BDA0003871227610000063
Figure BDA0003871227610000064
其中,
Figure BDA0003871227610000071
表示第i个检测框的左上角和右下角坐标参数,x、y表示检测框边界的像素点;
步骤2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
Figure BDA0003871227610000072
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
步骤2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
较优的,本发明语义提取模块具体包括:
步骤3.1:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性
Figure BDA0003871227610000073
同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性
Figure BDA0003871227610000074
基于这两项属性训练得到目标对象的特征,公式如下:
Figure BDA0003871227610000075
Figure BDA0003871227610000076
其中,
Figure BDA0003871227610000077
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure BDA0003871227610000078
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure BDA0003871227610000079
大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
Figure BDA0003871227610000081
Figure BDA0003871227610000082
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,
Figure BDA0003871227610000083
表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
步骤3.2:在步骤2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在步骤2.2提取的特征Mi通过卷积输出的256维特征。
较优的,本发明跟踪模块具体包括:
步骤4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与检测模块得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
Figure BDA0003871227610000091
Figure BDA0003871227610000092
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,
Figure BDA0003871227610000093
表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,
Figure BDA0003871227610000094
表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明采用去耦头策略、无锚点策略和高级标签分配策略,兼顾速度和效果更好的检测目标,从而得到更好的跟踪效果。
2.本发明改进卡尔曼滤波的初始状态向量表征使用的是检测框的长宽而不是长宽比,得到更加准确的宽度尺寸估计。
3.本发明通过使用无监督的特征提取网络,不增加计算开销的条件下,提取目标的语义信息,防止跟踪对象的漂移。
4.本发明通过使用通道注意力和图像注意力机制,使得关注减少冗余的环境信息可能误导检测和分类,同时加强目标相关特征的学习。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明一种基于运动信息和语义信息的多目标跟踪方法及系统的流程示意图。
图2是本发明实施例1的跟踪流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
本实施例1提出了一种基于运动信息和语义信息的多目标跟踪方法,包括:
S1:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
S2:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;S2具体为:
S2.1:将所述检测训练样本输入到yolox网络中;
S2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
Figure BDA0003871227610000111
其中,M表示提取的特征,im表示输入的检测训练样本,
Figure BDA0003871227610000112
表示参数wb的Darknet53卷积神经网络;
S2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
Figure BDA0003871227610000113
Figure BDA0003871227610000114
其中,
Figure BDA0003871227610000115
表示第i个检测框的左上角和右下角坐标参数,x、y表示检测框边界的像素点;
S2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
Figure BDA0003871227610000116
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
S2.5:将落入检测框内且符合采样标准的像素点视为正样本,此处符合标准的条件为:置信度得分高于设定阈值;若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
S3:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在S2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;S3具体为:
S3.1:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性
Figure BDA0003871227610000121
同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性
Figure BDA0003871227610000122
基于这两项属性训练得到目标对象的特征,公式如下:
Figure BDA0003871227610000123
Figure BDA0003871227610000124
其中,
Figure BDA0003871227610000125
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure BDA0003871227610000126
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure BDA0003871227610000127
大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
Figure BDA0003871227610000128
Figure BDA0003871227610000129
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,
Figure BDA00038712276100001210
表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
S3.2:在S2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在S2.2提取的特征Mi通过卷积输出的256维特征。
S4:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。S4具体为:
S4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
S4.2:如图2所示,跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与S2得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用改进的卡尔曼滤波来预测目标对象在下一帧中的位置信息,这里使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
Figure BDA0003871227610000131
Figure BDA0003871227610000132
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,
Figure BDA0003871227610000133
表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,
Figure BDA0003871227610000141
表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
通过以上步骤,能将监控视频检测到的所有目标分配身份信息,通过联系相同身份的目标,即可生成该目标在视频中的运动轨迹,完成实时多目标的跟踪。
本发明还提出了一种基于运动信息和语义信息的多目标跟踪系统,包括:
输入模块:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
检测模块:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;检测模块具体包括:
步骤2.1:将所述检测训练样本输入到yolox网络中;
步骤2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
Figure BDA0003871227610000142
其中,M表示提取的特征,im表示输入的检测训练样本,
Figure BDA0003871227610000143
表示参数wb的Darknet53卷积神经网络;
步骤2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
Figure BDA0003871227610000151
Figure BDA0003871227610000152
其中,
Figure BDA0003871227610000153
表示第i个检测框的左上角和右下角坐标参数,x、y表示检测框边界的像素点;
步骤2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
Figure BDA0003871227610000154
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
步骤2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
语义提取模块:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在检测模块提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;语义提取模块具体包括:
步骤3.1:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性
Figure BDA0003871227610000155
同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性
Figure BDA0003871227610000156
基于这两项属性训练得到目标对象的特征,公式如下:
Figure BDA0003871227610000157
Figure BDA0003871227610000158
其中,
Figure BDA0003871227610000161
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure BDA0003871227610000162
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure BDA0003871227610000163
大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
Figure BDA0003871227610000164
Figure BDA0003871227610000165
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,
Figure BDA0003871227610000166
表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
步骤3.2:在步骤2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在步骤2.2提取的特征Mi通过卷积输出的256维特征。
跟踪模块:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。跟踪模块具体包括:
步骤4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与检测模块得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
Figure BDA0003871227610000171
Figure BDA0003871227610000172
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,
Figure BDA0003871227610000173
表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,
Figure BDA0003871227610000174
表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,包括:
S1:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
S2:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
S3:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在S2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
S4:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
2.根据权利要求1所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S1中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
3.根据权利要求1所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S2具体为:
S2.1:将所述检测训练样本输入到yolox网络中;
S2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
Figure FDA0003871227600000011
其中,M表示提取的特征,im表示输入的检测训练样本,
Figure FDA0003871227600000012
表示参数wb的Darknet53卷积神经网络;
S2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
Figure FDA0003871227600000021
Figure FDA0003871227600000022
其中,
Figure FDA0003871227600000023
表示第i个检测框的左上角和右下角坐标参数,x、y表示检测框边界的像素点;
S2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
Figure FDA0003871227600000024
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
S2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
4.根据权利要求3所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S3具体为:
S3.1:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性
Figure FDA0003871227600000025
同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性
Figure FDA0003871227600000026
基于这两项属性训练得到目标对象的特征,公式如下:
Figure FDA0003871227600000027
Figure FDA0003871227600000028
其中,
Figure FDA0003871227600000029
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure FDA00038712276000000210
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure FDA0003871227600000034
大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
Figure FDA0003871227600000031
Figure FDA0003871227600000032
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,
Figure FDA0003871227600000033
表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
S3.2:在S2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在S2.2提取的特征Mi通过卷积输出的256维特征。
5.根据权利要求4所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S4具体为:
S4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
S4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与S2得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
Figure FDA0003871227600000041
Figure FDA0003871227600000042
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,
Figure FDA0003871227600000043
表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,
Figure FDA0003871227600000044
表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
6.一种基于运动信息和语义信息的多目标跟踪系统,包括:
输入模块:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
检测模块:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
语义提取模块:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在检测模块提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
跟踪模块:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
7.根据权利要求6所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,输入模块中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
8.根据权利要求6所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,检测模块具体包括:
步骤2.1:将所述检测训练样本输入到yolox网络中;
步骤2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
Figure FDA0003871227600000051
其中,M表示提取的特征,im表示输入的检测训练样本,
Figure FDA0003871227600000052
表示参数wb的Darknet53卷积神经网络;
步骤2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
Figure FDA0003871227600000053
Figure FDA0003871227600000054
其中,
Figure FDA0003871227600000061
表示第i个检测框的左上角和右下角坐标参数,x、y表示检测框边界的像素点;
步骤2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
Figure FDA0003871227600000062
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
步骤2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
9.根据权利要求8所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,语义提取模块具体包括:
步骤3.1:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性
Figure FDA0003871227600000063
同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性
Figure FDA0003871227600000064
基于这两项属性训练得到目标对象的特征,公式如下:
Figure FDA0003871227600000065
Figure FDA0003871227600000066
其中,
Figure FDA0003871227600000067
损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;
Figure FDA0003871227600000068
损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率
Figure FDA0003871227600000069
大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
Figure FDA0003871227600000071
Figure FDA0003871227600000072
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,
Figure FDA0003871227600000073
表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
步骤3.2:在步骤2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在步骤2.2提取的特征Mi通过卷积输出的256维特征。
10.根据权利要求9所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,跟踪模块具体包括:
步骤4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与检测模块得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
Figure FDA0003871227600000081
Figure FDA0003871227600000082
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,
Figure FDA0003871227600000083
表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,
Figure FDA0003871227600000084
表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
CN202211197971.0A 2022-09-29 2022-09-29 一种基于运动信息和语义信息的多目标跟踪方法及系统 Pending CN115631214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211197971.0A CN115631214A (zh) 2022-09-29 2022-09-29 一种基于运动信息和语义信息的多目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211197971.0A CN115631214A (zh) 2022-09-29 2022-09-29 一种基于运动信息和语义信息的多目标跟踪方法及系统

Publications (1)

Publication Number Publication Date
CN115631214A true CN115631214A (zh) 2023-01-20

Family

ID=84905655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211197971.0A Pending CN115631214A (zh) 2022-09-29 2022-09-29 一种基于运动信息和语义信息的多目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN115631214A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830075A (zh) * 2023-02-20 2023-03-21 武汉广银飞科技发展有限公司 一种面向行人多目标跟踪的分级关联匹配方法
CN116385965A (zh) * 2023-03-17 2023-07-04 深圳市明源云科技有限公司 流浪动物识别方法、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830075A (zh) * 2023-02-20 2023-03-21 武汉广银飞科技发展有限公司 一种面向行人多目标跟踪的分级关联匹配方法
CN116385965A (zh) * 2023-03-17 2023-07-04 深圳市明源云科技有限公司 流浪动物识别方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
An et al. DRBox-v2: An improved detector with rotatable boxes for target detection in SAR images
CN106846355B (zh) 基于提升直觉模糊树的目标跟踪方法及装置
Yuan et al. Statistical hypothesis detector for abnormal event detection in crowded scenes
CN115631214A (zh) 一种基于运动信息和语义信息的多目标跟踪方法及系统
Yan et al. To track or to detect? an ensemble framework for optimal selection
CN106934817B (zh) 基于多属性的多目标跟踪方法及装置
Prasetyo et al. A comparison of yolo and mask r-cnn for segmenting head and tail of fish
US20120093398A1 (en) System and method for multi-agent event detection and recognition
Huang et al. Fish tracking and segmentation from stereo videos on the wild sea surface for electronic monitoring of rail fishing
KR20200061118A (ko) 영상 내 다중 객체 추적 방법 및 시스템
Dewangan et al. Real time object tracking for intelligent vehicle
CN111784744A (zh) 一种基于视频监控的目标自动检测与跟踪方法
Ghrab et al. Abnormal events detection based on trajectory clustering
CN108830204B (zh) 面对目标的监控视频中异常检测方法
CN114926859A (zh) 一种结合头部跟踪的密集场景下行人多目标跟踪方法
Alhothali et al. Anomalous event detection and localization in dense crowd scenes
Teja Static object detection for video surveillance
CN116434150B (zh) 面向拥挤场景的多目标检测跟踪方法、系统及存储介质
Alagarsamy et al. Identifying the Missing People using Deep Learning Method
Xie et al. A multi-object tracking system for surveillance video analysis
Kokul et al. Online multi-person tracking-by-detection method using ACF and particle filter
Zhang et al. Multi-task deep learning for fast online multiple object tracking
Li et al. An efficient self-learning people counting system
Vahora et al. Comprehensive analysis of crowd behavior techniques: A thorough exploration
Zhang et al. Integrated metric learning based multiple object tracking method under occlusion in substations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination