CN115631214A - 一种基于运动信息和语义信息的多目标跟踪方法及系统 - Google Patents
一种基于运动信息和语义信息的多目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN115631214A CN115631214A CN202211197971.0A CN202211197971A CN115631214A CN 115631214 A CN115631214 A CN 115631214A CN 202211197971 A CN202211197971 A CN 202211197971A CN 115631214 A CN115631214 A CN 115631214A
- Authority
- CN
- China
- Prior art keywords
- detection
- target object
- target
- frame
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于运动信息和语义信息的多目标跟踪方法及系统,属于视频多目标跟踪技术领域。具体包括:获取当前视频帧的输入,并对视频帧进行预处理,接着通过目标检测提取目标对象的特征并生成目标对象的检测框,然后获取检测框内目标对象的语义特征;最后送入跟踪模块,通过修改卡尔曼滤波的初始状态向量,以及使用两次匹配算法和匹配检测框和提取的语义特征,从而更加准确的跟踪目标。本发明既能提高卡尔曼预测框的准确性,同时又能不增加计算开销的条件下,提取目标的语义信息,防止跟踪对象的漂移的实时多目标跟踪。
Description
技术领域
本发明属于视频多目标跟踪技术领域,具体涉及一种基于运动信息和语义信息的多目标跟踪方法及系统。
背景技术
基于视频的多目标跟踪任务,其目的是检测和预测一个视频流中多个目标对象的时空轨迹。多目标跟踪有广阔的应用场景,比如自动驾驶、视频监控等,由于其在各个领域的潜在应用,引起了研究人员的广泛关注。
现有技术中,基于检测的跟踪框架是多目标跟踪任务最有效的模式,其一般由两个部分组成:1、运动状态估计模块,用以预测目标对象在下一帧中的位置;2、关联模块,从每个视频帧中提取目标对象的特征嵌入,通过目标特征的相似性和运动一致性等信息实现不同帧中检测的关联以形成轨迹,目标的语义信息和运行信息都被量化为距离,并作为一个全局分配问题来解决关联任务。
现有技术存在以下技术问题:
1.现有跟踪算法都采用具有匀速模型假设的卡尔曼滤波器估计检测框下一帧的运动状态,但是目前卡尔曼滤波的初始状态向量表征使用的是检测框的长宽比而不是长宽值,这导致了不准确的长宽尺寸估计,同时由于目标运动不规则还会导致卡尔曼预测的震动。
2.匹配过程中需要结合目标的语义特征,通常使用额外的网络提取对象特征,但是使用网络提取目标的语义特征这个过程往往很耗时,难以做到实时的跟踪。
发明内容
针对上述现有技术中存在的问题,本发明提出了一种基于运动信息和语义信息的多目标跟踪方法及系统,其目的为:既能提高卡尔曼预测框的准确性,同时又能不增加计算开销的条件下,提取目标的语义信息,防止跟踪对象的漂移的实时多目标跟踪。
为实现上述目的本发明所采用的技术方案是:提供一种基于运动信息和语义信息的多目标跟踪方法,包括:
S1:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
S2:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
S3:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在S2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
S4:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
较优的,本发明S1中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
较优的,本发明S2具体为:
S2.1:将所述检测训练样本输入到yolox网络中;
S2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
S2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
S2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
S2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
较优的,本发明S3具体为:
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
T=2log(Nt-1+Nt+1)
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
S3.2:在S2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在S2.2提取的特征Mi通过卷积输出的256维特征。
较优的,本发明S4具体为:
S4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
S4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与S2得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
本发明还提出了一种基于运动信息和语义信息的多目标跟踪系统,包括:
输入模块:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
检测模块:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
语义提取模块:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在检测模块提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
跟踪模块:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
较优的,本发明输入模块中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
较优的,本发明检测模块具体包括:
步骤2.1:将所述检测训练样本输入到yolox网络中;
步骤2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
步骤2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
步骤2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
步骤2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
较优的,本发明语义提取模块具体包括:
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
步骤3.2:在步骤2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在步骤2.2提取的特征Mi通过卷积输出的256维特征。
较优的,本发明跟踪模块具体包括:
步骤4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与检测模块得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明采用去耦头策略、无锚点策略和高级标签分配策略,兼顾速度和效果更好的检测目标,从而得到更好的跟踪效果。
2.本发明改进卡尔曼滤波的初始状态向量表征使用的是检测框的长宽而不是长宽比,得到更加准确的宽度尺寸估计。
3.本发明通过使用无监督的特征提取网络,不增加计算开销的条件下,提取目标的语义信息,防止跟踪对象的漂移。
4.本发明通过使用通道注意力和图像注意力机制,使得关注减少冗余的环境信息可能误导检测和分类,同时加强目标相关特征的学习。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明一种基于运动信息和语义信息的多目标跟踪方法及系统的流程示意图。
图2是本发明实施例1的跟踪流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
本实施例1提出了一种基于运动信息和语义信息的多目标跟踪方法,包括:
S1:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
S2:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;S2具体为:
S2.1:将所述检测训练样本输入到yolox网络中;
S2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
S2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
S2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
S2.5:将落入检测框内且符合采样标准的像素点视为正样本,此处符合标准的条件为:置信度得分高于设定阈值;若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
S3:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在S2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;S3具体为:
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
S3.2:在S2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在S2.2提取的特征Mi通过卷积输出的256维特征。
S4:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。S4具体为:
S4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
S4.2:如图2所示,跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与S2得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用改进的卡尔曼滤波来预测目标对象在下一帧中的位置信息,这里使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
通过以上步骤,能将监控视频检测到的所有目标分配身份信息,通过联系相同身份的目标,即可生成该目标在视频中的运动轨迹,完成实时多目标的跟踪。
本发明还提出了一种基于运动信息和语义信息的多目标跟踪系统,包括:
输入模块:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
检测模块:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;检测模块具体包括:
步骤2.1:将所述检测训练样本输入到yolox网络中;
步骤2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
步骤2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
步骤2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
步骤2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
语义提取模块:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在检测模块提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;语义提取模块具体包括:
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
步骤3.2:在步骤2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在步骤2.2提取的特征Mi通过卷积输出的256维特征。
跟踪模块:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。跟踪模块具体包括:
步骤4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与检测模块得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,往往是被遮挡或者对象较小的情况,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,包括:
S1:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
S2:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
S3:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在S2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
S4:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
2.根据权利要求1所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S1中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
3.根据权利要求1所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S2具体为:
S2.1:将所述检测训练样本输入到yolox网络中;
S2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
S2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
S2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
S2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
4.根据权利要求3所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S3具体为:
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
S3.2:在S2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在S2.2提取的特征Mi通过卷积输出的256维特征。
5.根据权利要求4所述的一种基于运动信息和语义信息的多目标跟踪方法,其特征在于,S4具体为:
S4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
S4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与S2得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
6.一种基于运动信息和语义信息的多目标跟踪系统,包括:
输入模块:获取当前视频帧的输入,然后对所述视频帧进行预处理,得到检测训练样本;
检测模块:将所述检测训练样本输入到yolox网络中,提取目标对象的特征并生成目标对象的检测框,通过检测框获取目标对象的坐标位置和类别;
语义提取模块:将同一视频帧中的目标对象具有不同的身份作为一个强监督属性,同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性,基于这两项属性训练得到目标对象的特征,通过在检测模块提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征;
跟踪模块:进入跟踪过程时,首先获取目标对象的初始状态向量,然后通过目标对象的检测框和对应的语义特征,实现目标对象轨迹的连接,最后将检测框、语义特征和轨迹进行二次匹配,得到所有目标对象的运动轨迹,实现多目标的跟踪。
7.根据权利要求6所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,输入模块中,对视频帧进行预处理包括:数据裁剪、数据增强和减均值除方差。
8.根据权利要求6所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,检测模块具体包括:
步骤2.1:将所述检测训练样本输入到yolox网络中;
步骤2.2:使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取,得到目标对象的特征,特征提取的公式如下所示:
步骤2.3:将提取到的特征输入到检测器中,对不同大小的目标对象生成对应的检测框,并对检测框的所有像素点进行边界预测,得到检测框坐标位置,检测框边界的预测值为:
步骤2.4:定义带有检测框的检测训练样本为特征图,对于在特征图中的每个像素点,通过下面的公式映射回视频帧位置:
其中,s表示缩放尺度,x′,y′表示在特征图中的位置,x,y表示采样的像素点映射到视频帧的位置;
步骤2.5:将落入检测框内且符合采样标准的像素点视为正样本,若某一像素点落入到同时落入到多个检测框内,根据多尺度预测处理,将会在不同层标记不同的类别。
9.根据权利要求8所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,语义提取模块具体包括:
其中,损失表示同一视频帧中的目标对象具有不同的身份,以此作为一个强监督损失,Nt-1表示上一视频帧图像,i1,j1表示上一视频帧图像的检测目标对象,Nt表示当前视频帧图像,i2,j2表示当前视频帧图像的检测目标对象;损失表示同一个对象往往出现在两个相邻的帧中,以此作为一个弱监督损失,其中j*=arg max Mi,j,表示最大匹配概率大于次最大值,阈值m的值为0.5;
上式中,Mi,j表示经过归一化的目标对象的相似度矩阵,公式如下:
T=2log(Nt-1+Nt+1)
其中,T表示softmax函数的尺度因子,由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成,表示目标对象i,j的相似度矩阵,如果目标对象i和目标对象j共享相同的身份,则为si,j>0,否则si,j<0;
步骤3.2:在步骤2.2提取的目标对象的特征上添加一层卷积,输出目标对象的语义特征,公式如下:
fi=conv2d(Mi,256)
其中,fi表示每个检测的目标对象i在步骤2.2提取的特征Mi通过卷积输出的256维特征。
10.根据权利要求9所述的一种基于运动信息和语义信息的多目标跟踪系统,其特征在于,跟踪模块具体包括:
步骤4.1:在多目标跟踪过程中,视频的第一帧时,根据目标对象的位置信息初始化所有目标对象并赋予其身份信息,然后基于卡尔曼预测,将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减,得到了目标对象在过去帧位置的预测,然后比对目标对象在过去帧的真实位置和预测位置的距离差异,然后将距离差异最近目标对象进行匹配,得到目标对象的初始状态向量,然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中,实现每个目标对象轨迹的连接;
步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹:首先将目标对象与检测模块得到的检测框进行匹配,并根据检测框的匹配得分进行排序,通过检测框阈值将所有检测框分为高得分检测框和低得分检测框;然后基于运动相似度和语义一致性,将高得分检测框、语义特征和轨迹进行初次匹配,具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息,公式如下:
其中,Ci,j表示关联的距离矩阵,两个id越接近值越小,表示轨迹预测的检测框i和当前帧检测框j之间的iou距离,表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离,θf是语义特征的阈值,用于分离轨迹外观状态和检测语义特征向量的正关联,值为0.25,θiou是检测框距离阈值,用于拒绝错误的轨迹对和检测框;
步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配,若匹配成功,将该目标被认定为低得分,恢复的该目标对象并恢复目标对象的身份信息,若匹配失败,则将该目标对象认定为新对象,为其分配新的身份信息,直到所有目标对象匹配完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197971.0A CN115631214A (zh) | 2022-09-29 | 2022-09-29 | 一种基于运动信息和语义信息的多目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197971.0A CN115631214A (zh) | 2022-09-29 | 2022-09-29 | 一种基于运动信息和语义信息的多目标跟踪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631214A true CN115631214A (zh) | 2023-01-20 |
Family
ID=84905655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211197971.0A Pending CN115631214A (zh) | 2022-09-29 | 2022-09-29 | 一种基于运动信息和语义信息的多目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631214A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830075A (zh) * | 2023-02-20 | 2023-03-21 | 武汉广银飞科技发展有限公司 | 一种面向行人多目标跟踪的分级关联匹配方法 |
CN116385965A (zh) * | 2023-03-17 | 2023-07-04 | 深圳市明源云科技有限公司 | 流浪动物识别方法、设备及计算机可读存储介质 |
-
2022
- 2022-09-29 CN CN202211197971.0A patent/CN115631214A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830075A (zh) * | 2023-02-20 | 2023-03-21 | 武汉广银飞科技发展有限公司 | 一种面向行人多目标跟踪的分级关联匹配方法 |
CN116385965A (zh) * | 2023-03-17 | 2023-07-04 | 深圳市明源云科技有限公司 | 流浪动物识别方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
An et al. | DRBox-v2: An improved detector with rotatable boxes for target detection in SAR images | |
CN106846355B (zh) | 基于提升直觉模糊树的目标跟踪方法及装置 | |
Yuan et al. | Statistical hypothesis detector for abnormal event detection in crowded scenes | |
CN115631214A (zh) | 一种基于运动信息和语义信息的多目标跟踪方法及系统 | |
Yan et al. | To track or to detect? an ensemble framework for optimal selection | |
CN106934817B (zh) | 基于多属性的多目标跟踪方法及装置 | |
Prasetyo et al. | A comparison of yolo and mask r-cnn for segmenting head and tail of fish | |
US20120093398A1 (en) | System and method for multi-agent event detection and recognition | |
Huang et al. | Fish tracking and segmentation from stereo videos on the wild sea surface for electronic monitoring of rail fishing | |
KR20200061118A (ko) | 영상 내 다중 객체 추적 방법 및 시스템 | |
Dewangan et al. | Real time object tracking for intelligent vehicle | |
CN111784744A (zh) | 一种基于视频监控的目标自动检测与跟踪方法 | |
Ghrab et al. | Abnormal events detection based on trajectory clustering | |
CN108830204B (zh) | 面对目标的监控视频中异常检测方法 | |
CN114926859A (zh) | 一种结合头部跟踪的密集场景下行人多目标跟踪方法 | |
Alhothali et al. | Anomalous event detection and localization in dense crowd scenes | |
Teja | Static object detection for video surveillance | |
CN116434150B (zh) | 面向拥挤场景的多目标检测跟踪方法、系统及存储介质 | |
Alagarsamy et al. | Identifying the Missing People using Deep Learning Method | |
Xie et al. | A multi-object tracking system for surveillance video analysis | |
Kokul et al. | Online multi-person tracking-by-detection method using ACF and particle filter | |
Zhang et al. | Multi-task deep learning for fast online multiple object tracking | |
Li et al. | An efficient self-learning people counting system | |
Vahora et al. | Comprehensive analysis of crowd behavior techniques: A thorough exploration | |
Zhang et al. | Integrated metric learning based multiple object tracking method under occlusion in substations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |