CN110047096B - 一种基于深度条件随机场模型的多目标跟踪方法和系统 - Google Patents
一种基于深度条件随机场模型的多目标跟踪方法和系统 Download PDFInfo
- Publication number
- CN110047096B CN110047096B CN201910348058.8A CN201910348058A CN110047096B CN 110047096 B CN110047096 B CN 110047096B CN 201910348058 A CN201910348058 A CN 201910348058A CN 110047096 B CN110047096 B CN 110047096B
- Authority
- CN
- China
- Prior art keywords
- vertex
- track
- piece
- difficult
- track piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度条件随机场模型的多目标跟踪方法,包括:获取多目标跟踪数据集,对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联,以得到轨迹片,根据得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点,计算顶点集合中每个顶点对应的两个轨迹片之间的匹配度,根据顶点集合中任意两个顶点之间的时间关系和位置关系确定困难顶点对集合,获取得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息,将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量,将每个困难顶点对特征向量输入LSTM网络。本发明能够有效体现多目标跟踪过程中真实数据的相关性,跟踪结果的准确性高。
Description
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于深度条件随机场模型的多目标跟踪方法和系统。
背景技术
多目标跟踪(Multiple object tracking,简称MOT)因其学术潜力和商业价值,在计算机视觉领域备受关注。MOT的主要任务是在给定视频序列中对感兴趣目标进行运动轨迹检索、对感兴趣目标的位置进行标定、以及对各个感兴趣目标的身份(即ID)进行鉴别,感兴趣目标可以是行人、车辆、动物,甚至是一个目标的不同组成部分。
现有多目标跟踪方法大多都是基于检测的数据关联模型,即给定视频中逐步帧的目标检测响应后,将目标跟踪转化为数据关联问题,其关键技术是设计有效的度量模型,用于度量检测响应与轨迹片之间的相似度,然后根据相似度采用有效的优化策略来决定检测响应和轨迹片是否属于同一目标。然而,现有基于数据关联模型的多目标跟踪方法都是独立的关联检测响应和轨迹片,却并没有考虑到它们之间成对的依赖关系,这会损失很多可以利用的有效信息,而这些有效信息在一定程度上可以用来解决遮挡问题,并克服外观相似且时空域相近的目标身份易混淆问题。
为了解决上述问题,一种有效的办法是经典的基于CRF建模的多目标跟踪方法,其通过引入条件随机场(Conditional Random Field,简称CRF)来建模数据间的依赖关系。然而,该方法仍然存在一些不可忽略的技术问题:(1)该方法将CRF势函数建模为特定分布(例如高斯分布),但由于多目标跟踪问题的复杂性,特定分布并不能有效地体现出真实数据的相关性,从而会降低目标跟踪结果的准确性;(2)该方法中CRF模型的参数求解困难,不但要花费大量的人力和计算能力,而且求解出的参数大部分是近似值,无法发挥出CRF模型的最优性能;(3)该方法采用启发式算法或近似迭代算法解决CRF推理问题,这些推理算法很难与神经网络相结合,因而无法形成一个端到端可训练的深度神经网络,导致无法利用深度学习强大的学习能力,根据提高数据关联模型和状态推理模型的内在联系,进一步提高数据关联模型和状态推理模型的性能。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度条件随机场模型的多目标跟踪方法和系统,其目的在于,解决现有经典的基于CRF建模的多目标跟踪方法存在的由于多目标跟踪问题的复杂性,特定分布并不能有效地体现出真实数据的相关性,从而会降低目标跟踪结果的准确性的技术问题,以及CRF模型的参数求解困难,不但要花费大量的人力和计算能力,而且无法发挥出CRF模型的最优性能的技术问题,以及其推理算法很难与神经网络相结合,因而无法形成一个端到端可训练的深度神经网络,从而无法利用深度学习强大的学习能力的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度条件随机场模型的多目标跟踪方法,包括以下步骤:
(1)获取多目标跟踪数据集,其包含输入视频序列、以及输入视频序列中每一帧的检测响应;
(2)对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联,以得到轨迹片,所有的轨迹片构成轨迹片集合T;
(3)根据步骤(2)得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点,所有的顶点构成条件随机场模型的顶点集合V;
(4)计算步骤(3)得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
(5)根据步骤(3)得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对,所有的困难顶点对构成困难顶点对集合;
(6)获取步骤(5)中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息,将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量,所有的困难顶点对特征向量构成困难顶点对特征向量集合;
(7)将步骤(6)得到的每个困难顶点对特征向量输入LSTM网络,以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
(8)将步骤(4)得到的匹配度集合和步骤(7)得到的匹配度集合作为CRF模型的输入,进行全局推导,以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度;
(9)在步骤(8)中获得的顶点集合V中所有顶点对应的最优匹配度中,找出最优匹配度大于匹配度阈值(其取值范围是0.5到0.8之间)的所有对应顶点,并将这些顶点中的轨迹片关联起来,从而得到长轨迹片;
(10)对步骤(3)中与时间关系相关的参数进行更新,并重复上述步骤(3)至(9),直到不能再生成长轨迹片为止。
优选地,步骤(2)具体包括以下子步骤:
(2-1)针对输入视频序列中的任意两个连续帧,获取其检测响应的颜色直方图特征向量,以建立这两个连续帧的表观关联矩阵,表观关联矩阵中的每个元素代表这两个连续帧各自的检测响应之间的关联置信度,即两个检测响应属于同一目标的概率;
表观关联矩阵具体为:
其中,矩阵中的元素Pyz表示前一帧的第y个检测响应和后一帧的第z个检测响应之间的关联置信度,y∈[1,m],且有z∈[1,n],m表示前一帧的检测响应的总数,n表示后一帧的检测响应的总数;
(2-2)在步骤(2-1)中得到的表观关联矩阵中,查找在其所在行和所在列中均为最大值的所有元素,在查找到的多个元素中选出大于第一预设阈值的所有元素,并确定选出的每个元素所对应的一对检测响应;
(2-3)针对步骤(2-2)中选出的多对检测响应中的每一对而言,分别获取其检测响应的中心点坐标,根据确定的中心点坐标获取两个检测响应中心点之间的欧氏距离,并判断该欧氏距离是否大于第二预设阈值,如果大于,则表示这一对检测响应可关联,然后记录该对检测响应,否则重复执行本步骤,直到遍历完选出的所有多对检测响应为止;
(2-4)针对输入视频序列中的所有剩余帧,重复执行上述步骤(2-1)至(2-3),从而得到多对可关联的检测响应,将这些可关联的检测响应对连接,以形成多个轨迹片构成的轨迹片集合。
优选地,对于轨迹片集合T中的任意两个轨迹片Ti和Tj,如果两个轨迹片在时间上满足以下公式,则轨迹片Ti和Tj可以组成一个顶点:
其中Tthr表示两个可关联轨迹片之间的最大帧间隔,和分别表示轨迹片Tj的起始帧和轨迹片Ti的结束帧,i和j的取值范围都是1到P之间的自然数,P为轨迹片集合T中轨迹片的总数。
优选地,对于顶点Va(Ta1,Ta2)而言,只需将一个轨迹片Ta1和另一个轨迹片Ta2的每个中的置信度最高的检测响应在对应帧中的对应区域输入LSTM网络,即可得到轨迹片Ta1和Ta2之间的匹配度za:λ,其中λ取值为0或1,为0时za:0表示两个轨迹片Ta1和Ta2不属于同一目标的概率,为1时za:1表示两个轨迹片Ta1和Ta2属于同一目标的概率,其中a为1到Q之间的自然数,Q为顶点集合V中的顶点总数;
LSTM网络的训练过程如下:首先从MOT16数据集的训练集、2DMOT15数据集的训练集、CUHK03数据集的训练集、以及Market-1501数据集的训练集中选取多个人作为训练集,将ID-Net训练成一个可以区分多个类别的分类网络,然后用训练好的分类网络的参数来初始化LSTM网络,并用上面使用的训练集中的数据对初始化后的LSTM网络进行微调,以得到训练好的LSTM网络。
优选地,顶点Va(Ta1,Ta2)和顶点Vb(Tb1,Tb2)如果满足下面的公式(1)或(2)时,顶点Va和顶点Vb构成困难顶点对,其中b为1到Q之间的自然数,Ta1表示顶点Va对应的一个轨迹片,Tb1表示顶点Vb对应的一个轨迹片,Ta2表示顶点Va对应的另一个轨迹片,Tb2表示顶点Vb对应的另一个轨迹片:
其中ζ是时间长度阈值,Pthr是位置距离阈值,表示轨迹片Ta1在第t帧中的位置,表示轨迹片Tb1在第t帧中的位置;
其中表示轨迹片Ta2在第t帧中的位置,表示轨迹片Tb2在第t帧中的位置。
优选地,步骤(6)具体为:
首先,将困难顶点对中每个轨迹片的一个或多个检测响应在对应帧中的对应区域输入到卷积神经网络中,以提取每个轨迹片的外观特征:
fap(Ta1),fap(Ta2),fap(Tb1),fap(Tb2);
随后,根据困难顶点对中所有四个轨迹片的位置关系计算任意两个轨迹片之间的运动特征,其计算公式如下:
fm(Ta1,Ta2)=[Δp1,Δp2]
其中
其中,表示轨迹片Ta1在时刻的位置,va1和va2分别表示轨迹片Ta1和轨迹片Ta2所属目标的运动速度;
随后,根据困难顶点对中所有四个轨迹片的位置关系计算其对应的两个顶点之间的运动特征:
fm(Va,Vb)=[Δp3,Δp4]
其中
其中 表示轨迹片Ta2在时刻的位置;vb2表示轨迹片Tb2所属目标的运动速度;
最后,将上述过程中得到的外观特征和运动特征组合成困难顶点对的特征向量F:
优选地,步骤(8)包括以下子步骤:
(8-1)根据步骤(4)得到的顶点的轨迹片之间的匹配度获取CRF模型的一元势函数:其中wu是一元势函数的影响力因子,ε表示极小值;
(8-2)根据步骤(7)得到的四个轨迹片中两两轨迹片的匹配度获取CRF模型的二元势函数:
(8-3)为CRF模型中的每个顶点关联一个二元类别变量xa∈L={0,1},其中xa=1时表示顶点Va内的两个轨迹片属于同一目标,xa=0时表示顶点Va内的两个轨迹片不属于同一目标,所有二元类别变量构成二元类别变量集合x=[x1,x2,…xQ],并利用CRF模型对二元类别变量集合x=[x1,x2,…xQ]和步骤(2)中得到的轨迹片集合T进行建模,以得到建模结果,其吉布斯能量方程为其中任意一对顶点构成边,记为eab=(Va,Vb)∈E,E表示CRF模型中的所有边所构成的集合;
(8-4)将每类别变量集合x都映射为两个变量:x→xλ=[x1:λ,x2:λ,...,xQ:λ],λ∈L={0,1},对于任意的xa:η∈xη,其取值范围为{0,1},并引入松弛变量qλ=[q1:λ,q2:λ,...,qQ:λ,]对步骤(8-3)得到的吉布斯能量方程进行连续化处理,以将每一个二元类别变量xa:λ松弛为qa:λ,并得到处理结果如下:
其中,qa:λ∈qλ,其取值范围为[0,1],qa:1表示顶点Va内的两个轨迹片属于同一目标的概率,qa:0表示顶点Va内的两个轨迹片不属于同一目标的概率;
(8-5)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入,利用梯度下降法对松弛变量qλ在d时刻的状态进行一次更新,以得到松弛变量qλ在d+1时刻的状态对该状态进行Softmax层操作,从而得到操作结果并使得对应的每个都满足下面的约束:且其中d的取值范围为0到D,其中取值范围为[0,1],qa:1表示顶点Va内的两个轨迹片属于同一目标的概率,qa:0表示顶点Va内的两个轨迹片不属于同一目标的概率。
(8-6)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入,使用RNN网络对步骤(8-5)得到的操作结果进行D次迭代,从而得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度其中在迭代过程开始前是使用根据步骤(4)得到的顶点的轨迹片之间的匹配度来初始化松弛变量qλ在0时刻的状态
优选地,步骤(8-2)中,如果两个顶点构成困难顶点对,则CRF模型的二元势函数等于
否则CRF模型的二元势函数等于:
其中μ取值为0或1,为0时zb:0表示两个轨迹片Tb1和Tb2不属于同一目标的概率,为1时zb:1表示两个轨迹片Tb1和Tb2属于同一目标的概率。wd和wo分别是用来控制这两个二元势函数的影响力因子,如果两个顶点构成困难顶点对,za:λ和zb:u直接取步骤(7)计算得到的匹配度,否则za:λ和zb:u直接取步骤(4)中计算得到的匹配度。
优选地,步骤(8-5)中的一次更新过程是使用以下公式:
其中γ是更新步长,其是0到1之间的训练常数,
对于任意的有
按照本发明的另一方面,提供了一种基于深度条件随机场模型的多目标跟踪系统,包括:
第一模块,用于获取多目标跟踪数据集,其包含输入视频序列、以及输入视频序列中每一帧的检测响应;
第二模块,用于对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联,以得到轨迹片,所有的轨迹片构成轨迹片集合T;
第三模块,用于根据第二模块得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点,所有的顶点构成条件随机场模型的顶点集合V;
第四模块,用于计算第三模块得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
第五模块,用于根据第三模块得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对,所有的困难顶点对构成困难顶点对集合;
第六模块,用于获取第五模块中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息,将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量,所有的困难顶点对特征向量构成困难顶点对特征向量集合;
第七模块,用于将第六模块得到的每个困难顶点对特征向量输入LSTM网络,以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
第八模块,用于将第四模块得到的匹配度集合和第七模块得到的匹配度集合作为CRF模型的输入,进行全局推导,以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度;
第九模块,用于在第八模块中获得的顶点集合V中所有顶点对应的最优匹配度中,找出最优匹配度大于匹配度阈值的所有对应顶点,并将这些顶点中的轨迹片关联起来,从而得到长轨迹片;
第十模块,用于对第三模块中与时间关系相关的参数进行更新,并重复上述第三模块至第九模块,直到不能再生成长轨迹片为止。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(4)到步骤(8),其采用定制的神经网络来自适应学习CRF模型中的一元势函数,采用困难顶点对来描述顶点之间的关系,并且使用双向LSTM自适应的学习困难顶点对中四个轨迹片两两之间的匹配概率,在此基础上利用公式求解出二元势函数,因此,本发明能够有效体现多目标跟踪过程中真实数据的相关性,跟踪结果的准确性高;
(2)由于本发明采用了步骤(8),其先将对目标跟踪问题转化求解CRF模型中能量函数最小化问题,再将CRF推理转化为基于梯度下降法的连续能量函数最小化问题,并采用递归神经网络RNN序列处理策略实现了基于梯度下降法的CRF推理,因此CRF模型参数可以利用神经网络中的反向传播算法较为容易地求解,从而能够解决现有基于CRF建模的多目标跟踪方法中存在的CRF模型的参数求解困难、花费大量的人力和计算能力、求解出的参数缺乏精确性、无法发挥出CRF模型最优性能的技术问题;
(3)由于本发明步骤(8)中解决CRF推理的过程也可以嵌入到神经网络中,因此能够利用深度学习强大的学习能力,根据提高数据关联模型和状态推理模型的内在联系,进一步提高数据关联模型和状态推理模型的性能;
(4)本发明提出了一个基于CRF模型的框架,它同时结合了深度学习和条件随机场的优势用于多目标跟踪问题,因此可以利用反向传播算法自动求解CRF模型中的参数,同时还可以与步骤(4)和步骤(7)中神经网络结合起来进行端到端的学习,得到更加合适的参数,进一步提高CRF模型的性能;
(5)本发明是本技术领域中第一个将CRF潜在势能学习和CRF推导集成到深度学习架构中的端到端学习方法,因此能够避免人工设计的一元势函数和二元势函数的单一性和不合理性,并自适应地学习合适的一元势函数和二元势函数;同时本发明也是第一个将数据关联和状态推理整合到一个神经网络中的基于深度学习的多目标跟踪算法,为多目标跟踪领域提供了一个新的基于深度学习的算法框架;
(6)本发明针对深度学习在多目标跟踪应用中存在的制约,采用自适应时间滑动窗技术批量生成固定个数的CRF顶点,将原来的多类别标定问题转化为二元类别标定,从而为神经网络解决类别不确定的数据关联问题提供了新的解决方案;
(7)本发明应用范围广泛,不仅可用于行人跟踪,也可适用于任何已知类别的运动目标轨迹跟踪。
附图说明
图1是本发明基于深度条件随机场模型的多目标跟踪方法的流程图;
图2示出本发明方法的步骤(5)中构成困难顶点对的两个顶点的实例;
图3是本发明方法的步骤(6)中计算困难顶点对的运动特征的示意图;
图4是本发明方法的步骤(7)中使用的双向LSTM网络的结构示意图;
图5是本发明方法的步骤(8)中使用RNN网络实现CRF推导过程中一次迭代的数据流。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一个用于多目标跟踪的条件随机场(Conditional Random Fields,以下简称CRF,简称CRF)框架,与现有的基于CRF的目标跟踪方法相比,本发明侧重于CRF潜在势能的学习和难以处理的CRF推理。特别设计了中性网络以学习更合适的CRF潜在势能,并使用梯度下降算法直接最小化能量函数。CRF潜在势能的学习和CRF推断都是以端到端的方式进行的。本发明提出的CRF框架适用于一切多目标跟踪问题,如街景场景中行人跟踪,车辆轨迹标定等等。
如图1所示,本发明基于深度条件随机场模型的多目标跟踪方法包括以下步骤:
(1)获取多目标跟踪数据集,其包含输入视频序列、以及输入视频序列中每一帧的检测响应(Detection response);
在本步骤中,多目标跟踪数据集采用的是MOT16数据集(其主要标注目标为移动的行人与车辆),该数据集一共包含14个视频序列,其中7个视频序列为带有标注信息的训练集,另外7个视频序列为测试集,7个测试视频序列来自7个不同的场景,它们的拍摄视角和相机运动情况不一样,各个场景的天气状况也不相同。测试集总长度有5919帧,包含有182326个检测响应和830个轨迹。
(2)对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联,以得到轨迹片,所有的轨迹片构成轨迹片集合T;
具体而言,本步骤具体步骤包括以下子步骤:
(2-1)针对输入视频序列中的任意两个连续帧,获取其检测响应的颜色直方图特征向量,以建立这两个连续帧的表观关联矩阵,表观关联矩阵中的每个元素代表这两个连续帧各自的检测响应之间的关联置信度,即两个检测响应属于同一目标的概率;
具体而言,如果两个连续帧分别为F1和F2,F1的检测响应是[R1,R2,…,Rm],F2的检测响应是[r1,r2,…,rn],其中m表示前一帧的检测响应的总数,n表示后一帧的检测响应的总数;则本步骤中构建的表观关联矩阵为:
其中,矩阵中的元素Pyz表示前一帧的第y个检测响应和后一帧的第z个检测响应之间的关联置信度,在本实例中,y∈[1,m],且有z∈[1,n];
本步骤中计算两个检测响应之间的关联置信度,首先是计算两个检测响应的颜色直方图特征向量之间的欧氏距离,然后用高斯核函数将计算得到的欧式距离映射成概率,即得到关联置信度。
(2-2)在步骤(2-1)中得到的表观关联矩阵中,查找在其所在行和所在列中均为最大值的所有元素,在查找到的多个元素中选出大于第一预设阈值的所有元素,并确定选出的每个元素所对应的一对检测响应;
在本步骤中,第一预设阈值的取值范围是0.4到0.7之间,优选为0.5。
(2-3)针对步骤(2-2)中选出的多对检测响应中的每一对而言,分别获取其检测响应的中心点坐标,根据确定的中心点坐标获取两个检测响应中心点之间的欧氏距离,并判断该欧氏距离是否大于第二预设阈值,如果大于,则表示这一对检测响应可关联,然后记录该对检测响应,否则重复执行本步骤,直到遍历完选出的所有多对检测响应为止;
(2-4)针对输入视频序列中的所有剩余帧,重复执行上述步骤(2-1)至(2-3),从而得到多对可关联的检测响应,将这些可关联的检测响应对连接,以形成多个轨迹片构成的轨迹片集合。
例如,如果第一帧F1的第2个检测响应和第二帧F2的第3个检测响应可关联,第二帧F2的第3个检测响应和第三帧F3的第5个检测响应可关联,则这三个检测响应可以串联起来,形成一个轨迹片。
如果第一帧F1的第5个检测响应和第二帧F2的第9个检测响应可关联,而第二帧F2的第9个检测响应和第三帧中的所有检测响应都不关联,则第一帧F1的第5个检测响应和第二帧F2的第9个检测响应可串联起来,形成另一个轨迹片。
(3)根据步骤(2)得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点,所有的顶点构成条件随机场(Conditional random field,简称CRF)模型的顶点集合V;
具体而言,在轨迹片集合T中任意选取两个轨迹片Ti和Tj(其中i和j的取值范围都是1到P之间的自然数,P为轨迹片集合T中轨迹片的总数),如果两个轨迹片在时间上满足以下公式,则轨迹片Ti和Tj可以组成一个顶点:
其中Tthr表示两个可关联轨迹片之间的最大帧间隔(其初始值等于10),和分别表示轨迹片Tj的起始帧和轨迹片Ti的结束帧,通过对步骤(2)得到的轨迹片集合中任意两个轨迹片循环执行上面的操作,就可以得到顶点集V。
(4)计算步骤(3)得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度(即两个轨迹片属于同一目标的概率),所有匹配度构成匹配度集合;
具体而言,本步骤中获取每个顶点对应的两个轨迹片之间的匹配度是通过LSTM网络实现,该网络的输入是每个轨迹片中置信度最高的检测响应在对应帧中的对应区域(由于每个顶点对应两个轨迹片,因此对应区域也有两个),网络的输出是两个轨迹片之间的匹配度。
本步骤中组成LSTM网络的基础网络结构是VGG-16,在此用ID-Net来表示它。
LSTM网络的训练过程如下:首先从MOT16数据集的训练集、2DMOT15数据集的训练集、CUHK03数据集的训练集、以及Market-1501数据集的训练集中选取多个人(在本实例中选取了2551个人)作为训练集,将ID-Net训练成一个可以区分多个类别(在本实例中是2551个类别)的分类网络,然后用训练好的分类网络的参数来初始化LSTM网络,并用上面使用的训练集中的数据对初始化后的LSTM网络进行微调,以得到训练好的LSTM网络。
对于顶点Va(Ta1,Ta2)而言(其中a为1到Q之间的自然数,Q为顶点集合V中的顶点总数),只需将一个轨迹片Ta1和另一个轨迹片Ta2的每个中的置信度最高的检测响应在对应帧中的对应区域输入LSTM网络,即可得到轨迹片Ta1和Ta2之间的匹配度za:λ,其中λ取值为0或1,为0时za:0表示两个轨迹片Ta1和Ta2不属于同一目标的概率,为1时za:1表示两个轨迹片Ta1和Ta2属于同一目标的概率。
(5)根据步骤(3)得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对,所有的困难顶点对构成困难顶点对集合;
如图2所示,顶点Va(Ta1,Ta2)和顶点Vb(Tb1,Tb2)(其中b为1到Q之间的自然数,Ta1表示顶点Va对应的一个轨迹片,Tb1表示顶点Vb对应的一个轨迹片,Ta2表示顶点Va对应的另一个轨迹片,Tb2表示顶点Vb对应的另一个轨迹片)如果满足下面的公式(1)或(2)时,则顶点Va和顶点Vb构成困难顶点对。
其中ζ是时间长度阈值,其取值为1,Pthr是位置距离阈值,其取值为3,表示轨迹片Ta1在第t帧中的位置,表示轨迹片Tb1在第t帧中的位置;
当满足上述等式时,轨迹片Ta1和Tb1尾相邻。
其中表示轨迹片Ta2在第t帧中的位置,表示轨迹片Tb2在第t帧中的位置。
当满足上述等式时,轨迹片Ta2和Tb2头相邻。
当两个轨迹片头相邻或者尾相邻时,这两个轨迹片分别对应的两个构成困难顶点对。
(6)获取步骤(5)中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息,将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量,所有的困难顶点对特征向量构成困难顶点对特征向量集合;
具体而言,首先是将困难顶点对中每个轨迹片的一个或多个检测响应在对应帧中的对应区域输入到卷积神经网络中,以提取每个轨迹片的外观特征:fap(Ta1),fap(Ta2),fap(Tb1),fap(Tb2);
实施过程中直接使用一个预先训练好的行人重识别网络,记为ReID-Net,它的基础网络是ResNet-50,训练时使用的损失函数是三元组损失。在此基础上使用MOT16和2DMOT15的训练集构建样本对ReID-Net进行微调,得到最终的模型。选取每个轨迹片中置信度最高的检测最为ReID-Net的输入,即可得到该轨迹片的外观特征向量,其维度为128。
随后,根据困难顶点对中所有四个轨迹片的位置关系计算任意两个轨迹片之间的运动特征;
对于困难顶点对{Va(Ta1,Ta1),Vb(Tb1,Tb1)},根据图3来计算它的运动特征fm(Ta1,Ta2)、fm(Ta1,Tb2)、fm(Tb1,Ta2)、fm(Tb1,Tb2)和fm(Va,Vb),每一个都包含两个Δp,每个Δp包含两个维度,分别表示在横坐标和纵坐标上的位置关系。
其中轨迹片Ta1和Ta2之间运动特征的计算公式如下(其余轨迹片之间运动特征fm(Ta1,Tb2)、fm(Tb1,Ta2)、fm(Tb1,Tb2)的计算方式完全相同):
fm(Ta1,Ta2)=[Δp1,Δp2]
其中
其中,表示轨迹片Ta1在时刻的位置;va1和va2分别表示轨迹片Ta1和轨迹片Ta2所属目标的运动速度。
随后,根据困难顶点对中所有四个轨迹片的位置关系计算其对应的两个顶点之间的运动特征:
fm(Va,Vb)=[Δp3,Δp4]
其中
其中其中,表示轨迹片Ta2在时刻的位置;vb2表示轨迹片Tb2所属目标的运动速度。
最后,将上述过程中得到的外观特征和运动特征组合成困难顶点对的特征向量F:
F=[fap(Ta1),fap(Ta2),fap(Tb1),fap(Tb2),fm(Ta1,Ta2),fm(Ta1,Tb2),fm(Tb1,Ta2),fm(Tb1,Tb2),fm(Va,Va)]
在使用上述段落中的行人重识别网络时,将外观特征向量征和运动特征向量拼接起来得到一个532维的困难顶点对特征向量F。
(7)将步骤(6)得到的每个困难顶点对特征向量输入双向长短时记忆网络(LongShort-Term Memory,简称LSTM),以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
图4是两个时间步长的双向LSTM网络的结构示意图,输入困难顶点对特征向量F即可得到困难顶点对{Va(Ta1,Ta1),Vb(Tb1,Tb1)}中四个轨迹片中两两轨迹片的匹配度p(y|Ta1,Ta2)、p(y|Ta1,Tb2)、p(y|Tb1,Tb2)和p(y|Tb1,Tb2),其中y∈{0,1}为二元变量,表示轨迹片对之间的关联性。
(8)将步骤(4)得到的匹配度集合和步骤(7)得到的匹配度集合作为CRF模型的输入,进行全局推导,以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度;
本步骤包括以下子步骤:
(8-1)根据步骤(4)得到的顶点的轨迹片之间的匹配度获取CRF模型的一元势函数:其中wu是一元势函数的影响力因子,ε表示极小值,其取值是0.0000001;
(8-2)根据步骤(7)得到的四个轨迹片中两两轨迹片的匹配度获取CRF模型的二元势函数:
其中如果两个顶点构成困难顶点对,则有
否则:
其中μ取值为0或1,为0时zb:0表示两个轨迹片Tb1和Tb2不属于同一目标的概率,为1时zb:1表示两个轨迹片Tb1和Tb2属于同一目标的概率。wd和wo分别是用来控制这两个二元势函数的影响力因子。
如上所述,二元势函数的计算有两种情况,如果两个顶点构成困难顶点对,za:λ和zb:u直接取步骤(7)计算得到的匹配度,否则就假设两个顶点的相关性很小,za:λ和zb:u直接取步骤(4)中计算得到的匹配度。
(8-3)为CRF模型中的每个顶点关联一个二元类别变量xa∈L={0,1},其中xa=1时表示顶点Va内的两个轨迹片属于同一目标,xa=0时表示顶点Va内的两个轨迹片不属于同一目标,所有二元类别变量构成二元类别变量集合x=[x1,x2,…xQ],并利用CRF模型对二元类别变量集合x=[x1,x2,…xQ]和步骤(2)中得到的轨迹片集合T进行建模,以得到建模结果,其吉布斯能量方程为其中任意一对顶点构成边,记为eab=(Va,Vb)∈E,E表示CRF模型中的所有边所构成的集合;
(8-4)将每类别变量集合x都映射为两个变量:x→xλ=[x1:λ,x2:λ,...,xQ:λ],λ∈L={0,1},对于任意的xa:η∈xη,其取值范围为{0,1},并引入松弛变量qλ=[q1:λ,q2:λ,...,qQ:λ,]对步骤(8-3)得到的吉布斯能量方程进行连续化处理,以将每一个二元类别变量xa:λ松弛为qa:λ,并得到处理结果如下:
其中,qa:λ∈qλ,其取值范围为[0,1],qa:1表示顶点Va内的两个轨迹片属于同一目标的概率,qa:0表示顶点Va内的两个轨迹片不属于同一目标的概率。
(8-5)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入,利用梯度下降法对松弛变量qλ在d时刻的状态进行一次更新,以得到松弛变量qλ在d+1时刻的状态对该状态进行Softmax层操作,从而得到操作结果并使得对应的每个都满足下面的约束:且其中d的取值范围为0到D(D的取值范围为5到10之间的自然数,优选为10),其中取值范围为[0,1],qa:1表示顶点Va内的两个轨迹片属于同一目标的概率,qa:0表示顶点Va内的两个轨迹片不属于同一目标的概率。
具体而言,一次更新是使用以下公式:
其中γ是更新步长,其是0到1之间的训练常数,优选等于0.020519,且对于任意的有
(8-6)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入,使用递归神经网络(Recursive neural network,简称RNN,该RNN的参数为步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数 为RNN的隐藏状态)对步骤(8-5)得到的操作结果进行D次迭代(即推理过程),从而得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度其中在迭代过程开始前是使用根据步骤(4)得到的顶点的轨迹片之间的匹配度来初始化松弛变量qλ在0时刻的状态
具体而言,本步骤首先根据图5的RNN网络实现D次迭代,利用2DMOT15和MOT16的训练集构建训练数据和测试数据,通过反向传播算法来训练CRF模型中的参数(即影响力因子wu,wd,wo和更新步长γ)。CRF模型有两个可调参数。第一个是梯度下降算法中的迭代次数D,在训练阶段将D的设置为5,以避免在测试阶段出现消失/爆炸梯度问题,迭代次数增加到10。第二个是每次进行推导的节点数Num。通常,在神经网络架构难以处理可变数目的目标的问题,本发明通过采用滑动窗策略来产生固定数量的节点,然后向后移动窗口并确保新的滑动窗口与旧窗口之间有重叠,使得各个窗口之间存在联系。考虑到精度和效率之间的权衡,滑动窗口中的节点数Num设置为200。
在训练时权值wu,wd,wo均初始化为1,学习步长γ初始化为0.5。初始学习率设为0.001,使用Adam算法对网络进行优化,总共训练60000次。
(9)在步骤(8)中获得的顶点集合V中所有顶点对应的最优匹配度中,找出最优匹配度大于匹配度阈值(其取值范围是0.5到0.8之间,优选为0.5)的所有对应顶点,并将这些顶点中的轨迹片关联起来,从而得到长轨迹片;
(10)对步骤(3)中与时间关系相关的参数进行更新,并重复上述步骤(3)至(9),直到不能再生成长轨迹片为止。
在本步骤中,对与时间关系相关的参数进行更新,就是对最大帧间隔进行更新,是每次都将该值增加10(最大帧间隔的上限为100)。
本发明针对现有MOT技术领域中所存在的CRF模型求解的问题,提出了基于深度条件随机场的多目标跟踪算法框架,其主要特点包括:(1)本发明的CRF建模过程充分利用了数据间的结构相关性,有效提高复杂拥挤等困难场景中跟踪精度的准确性;(2)本发明将CRF模型参数学习(影响力因子)与CRF模型的推理(步骤(8-6)中qλ的更新过程)统一嵌入到深度神经网络模型中,一方面利用神经网络强大的学习表达能力,自适应学习建模适合MOT的CRF势函数,有效避免了CRF参数学习困难;另一方面将CRF推理转化为神经网络可实现形式,有效避免了现有技术人工干预逐步求解的后处理过程;(3)深度条件随机场充分结合了神经网络模型与图模型的优点,本发明所提模型在公开数据库上取得了领先的跟踪精度,验证了基于深度条件随机场的MOT算法的有效性。
需要说明的是,本发明中主要关注的目标为行人,其原因有三:第一,行人相比于其他目标更加复杂,是典型的非刚性目标,因此适用于行人的跟踪算法可以推广到其他类别目标的跟踪需求中;第二,实际生活中存在着大量的含有行人的视频,数据量大,应用需求广泛;第三,现有大多数的多目标跟踪技术都是针对行人的,因此选择行人作为目标,更能相对于现有技术体现出本发明的优点。但应该理解的是,本发明的应用范围绝不局限于行人,而是可适用于任何已知类别的运动目标轨迹跟踪。
测试结果和比较
这里通过在MOT16测试集上的测试结果来说明本发明的实际效果。通过使用以下的标准评估指标对本发明提出的多目标跟踪算法在MOT16数据计集上的跟踪结果进行评估,这些标准评估指标包括:多目标跟准确度(Multiple Object Tracking Accuracy,简称MOTA)、多目标跟踪精度(Multiple Object Tracking Precision,简称MOTP),主要跟踪目标(Mostly Track targets,简称MT)、大多数丢失目标(Mostly Lost targets,简称ML)、误报(False Positives,简称FP),假阴性(False Negatives,简称FN)、碎片(Fragmentation,简称FM)、以及身份切换(ID Switches,简称IDS)。“↑”表示越高越好,‘↓’表示越低越好。如下表1所示,其列出了本发明与现有的性能优越的拉普拉斯矩阵投影(Laplacian matrixprojection,简称LMP)算法、接近在线多目标跟踪(Near-Online Multi-target Tracking,简称NOMT)算法、以及Quad-CNN算法在MOT16测试集上的测试结果的详细比较。
表1
通过上表1可以看出:(1)本发明的方法在MOTA,ML和FN三个指标上面都超越了其他三种算法。其中,MOTA是评估算法性能整体性能的主要指标,相比于其他三个跟踪算法本发明提出的跟踪算法取得了最好的成绩,这表明本发明提出的跟踪算法在整体性能上要优于其他三个算法;
(2)更高的MT和更低的ML表明,本发明提出的方法通过考虑适当的时间间隔,并利用目标之间的依赖关系,可以正确恢复被遮挡目标或发生漂移的目标的轨迹。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度条件随机场模型的多目标跟踪方法,其特征在于,包括以下步骤:
(1)获取多目标跟踪数据集,其包含输入视频序列、以及输入视频序列中每一帧的检测响应;
(2)对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联,以得到轨迹片,所有的轨迹片构成轨迹片集合T;
(3)根据步骤(2)得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点,所有的顶点构成条件随机场模型的顶点集合V;
(4)计算步骤(3)得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
(5)根据步骤(3)得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对,所有的困难顶点对构成困难顶点对集合;
(6)获取步骤(5)中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息,将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量,所有的困难顶点对特征向量构成困难顶点对特征向量集合;
(7)将步骤(6)得到的每个困难顶点对特征向量输入LSTM网络,以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
(8)将步骤(4)得到的匹配度集合和步骤(7)得到的匹配度集合作为CRF模型的输入,进行全局推导,以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度;
(9)在步骤(8)中获得的顶点集合V中所有顶点对应的最优匹配度中,找出最优匹配度大于匹配度阈值的所有对应顶点,并将这些顶点中的轨迹片关联起来,从而得到长轨迹片;
(10)对步骤(3)中与时间关系相关的参数进行更新,并重复上述步骤(3)至(9),直到不能再生成长轨迹片为止。
2.根据权利要求1所述的多目标跟踪方法,其特征在于,步骤(2)具体包括以下子步骤:
(2-1)针对输入视频序列中的任意两个连续帧,获取其检测响应的颜色直方图特征向量,以建立这两个连续帧的表观关联矩阵,表观关联矩阵中的每个元素代表这两个连续帧各自的检测响应之间的关联置信度,即两个检测响应属于同一目标的概率;
表观关联矩阵具体为:
其中,矩阵中的元素Pyz表示前一帧的第y个检测响应和后一帧的第z个检测响应之间的关联置信度,y∈[1,m],且有z∈[1,n],m表示前一帧的检测响应的总数,n表示后一帧的检测响应的总数;
(2-2)在步骤(2-1)中得到的表观关联矩阵中,查找在其所在行和所在列中均为最大值的所有元素,在查找到的多个元素中选出大于第一预设阈值的所有元素,并确定选出的每个元素所对应的一对检测响应;
(2-3)针对步骤(2-2)中选出的多对检测响应中的每一对而言,分别获取其检测响应的中心点坐标,根据确定的中心点坐标获取两个检测响应中心点之间的欧氏距离,并判断该欧氏距离是否大于第二预设阈值,如果大于,则表示这一对检测响应可关联,然后记录该对检测响应,否则重复执行本步骤,直到遍历完选出的所有多对检测响应为止;
(2-4)针对输入视频序列中的所有剩余帧,重复执行上述步骤(2-1)至(2-3),从而得到多对可关联的检测响应,将这些可关联的检测响应对连接,以形成多个轨迹片构成的轨迹片集合。
3.根据权利要求2所述的多目标跟踪方法,其特征在于,对于轨迹片集合T中的任意两个轨迹片Ti和Tj,如果两个轨迹片在时间上满足以下公式,则轨迹片Ti和Tj可以组成一个顶点:
其中Tthr表示两个可关联轨迹片之间的最大帧间隔,和分别表示轨迹片Tj的起始帧和轨迹片Ti的结束帧,i和j的取值范围都是1到P之间的自然数,P为轨迹片集合T中轨迹片的总数。
4.根据权利要求3所述的多目标跟踪方法,其特征在于,
对于顶点Va(Ta1,Ta2)而言,只需将一个轨迹片Ta1和另一个轨迹片Ta2的每个中的置信度最高的检测响应在对应帧中的对应区域输入LSTM网络,即可得到轨迹片Ta1和Ta2之间的匹配度za:λ,其中λ取值为0或1,为0时za:0表示两个轨迹片Ta1和Ta2不属于同一目标的概率,为1时za:1表示两个轨迹片Ta1和Ta2属于同一目标的概率,其中a为1到Q之间的自然数,Q为顶点集合V中的顶点总数;
LSTM网络的训练过程如下:首先从MOT16数据集的训练集、2DMOT15数据集的训练集、CUHK03数据集的训练集、以及Market-1501数据集的训练集中选取多个人作为训练集,将ID-Net训练成一个可以区分多个类别的分类网络,然后用训练好的分类网络的参数来初始化LSTM网络,并用上面使用的训练集中的数据对初始化后的LSTM网络进行微调,以得到训练好的LSTM网络。
5.根据权利要求4所述的多目标跟踪方法,其特征在于,顶点Va(Ta1,Ta2)和顶点Vb(Tb1,Tb2)如果满足下面的公式(1)或(2)时,顶点Va和顶点Vb构成困难顶点对,其中b为1到Q之间的自然数,Ta1表示顶点Va对应的一个轨迹片,Tb1表示顶点Vb对应的一个轨迹片,Ta2表示顶点Va对应的另一个轨迹片,Tb2表示顶点Vb对应的另一个轨迹片:
其中ζ是时间长度阈值,Pthr是位置距离阈值,表示轨迹片Ta1在第t帧中的位置,表示轨迹片Tb1在第t帧中的位置;
其中表示轨迹片Ta2在第t帧中的位置,表示轨迹片Tb2在第t帧中的位置。
6.根据权利要求5所述的多目标跟踪方法,其特征在于,步骤(6)具体为:
首先,将困难顶点对中每个轨迹片的一个或多个检测响应在对应帧中的对应区域输入到卷积神经网络中,以提取每个轨迹片的外观特征:fap(Ta1),fap(Ta2),fap(Tb1),fap(Tb2);
随后,根据困难顶点对中所有四个轨迹片的位置关系计算任意两个轨迹片之间的运动特征,其计算公式如下:
fm(Ta1,Ta2)=[Δp1,Δp2]
其中
其中,表示轨迹片Ta1在时刻的位置,va1和va2分别表示轨迹片Ta1和轨迹片Ta2所属目标的运动速度;
随后,根据困难顶点对中所有四个轨迹片的位置关系计算其对应的两个顶点之间的运动特征:
fm(Va,Vb)=[Δp3,Δp4]
其中
其中 表示轨迹片Tb2在时刻的位置;vb2表示轨迹片Tb2所属目标的运动速度;
最后,将上述过程中得到的外观特征和运动特征组合成困难顶点对的特征向量F:
7.根据权利要求6所述的多目标跟踪方法,其特征在于,步骤(8)包括以下子步骤:
(8-1)根据步骤(4)得到的顶点的轨迹片之间的匹配度获取CRF模型的一元势函数:其中wu是一元势函数的影响力因子,ε表示极小值;
(8-2)根据步骤(7)得到的四个轨迹片中两两轨迹片的匹配度获取CRF模型的二元势函数:
(8-3)为CRF模型中的每个顶点关联一个二元类别变量xa∈L={0,1},其中xa=1时表示顶点Va内的两个轨迹片属于同一目标,xa=0时表示顶点Va内的两个轨迹片不属于同一目标,所有二元类别变量构成二元类别变量集合x=[x1,x2,…xQ],并利用CRF模型对二元类别变量集合x=[x1,x2,…xQ]和步骤(2)中得到的轨迹片集合T进行建模,以得到建模结果,其吉布斯能量方程为其中任意一对顶点构成边,记为eab=(Va,Vb)∈E,E表示CRF模型中的所有边所构成的集合;
(8-4)将每类别变量集合x都映射为两个变量:x→xλ=[x1:λ,x2:λ,xQ:λ],λ∈L={0,1},对于任意的xa:η∈xη,其取值范围为{0,1},并引入松弛变量qλ=[q1:λ,q2:λ,...,qQ:λ,]对步骤(8-3)得到的吉布斯能量方程进行连续化处理,以将每一个二元类别变量xa:λ松弛为qa:λ,并得到处理结果如下:
其中,qa:λ∈qλ,其取值范围为[0,1],qa:1表示顶点Va内的两个轨迹片属于同一目标的概率,qa:0表示顶点Va内的两个轨迹片不属于同一目标的概率;
(8-5)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入,利用梯度下降法对松弛变量qλ在d时刻的状态进行一次更新,以得到松弛变量qλ在d+1时刻的状态对该状态进行Softmax层操作,从而得到操作结果并使得对应的每个都满足下面的约束:且其中d的取值范围为0到D,其中取值范围为[0,1],qa:1表示顶点Va内的两个轨迹片属于同一目标的概率,qa:0表示顶点Va内的两个轨迹片不属于同一目标的概率;
(8-6)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入,使用RNN网络对步骤(8-5)得到的操作结果进行D次迭代,从而得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度其中在迭代过程开始前是使用根据步骤(4)得到的顶点的轨迹片之间的匹配度来初始化松弛变量qλ在0时刻的状态
8.根据权利要求7所述的多目标跟踪方法,其特征在于,
步骤(8-2)中,如果两个顶点构成困难顶点对,则CRF模型的二元势函数等于
否则CRF模型的二元势函数等于:
其中μ取值为0或1,为0时zb:0表示两个轨迹片Tb1和Tb2不属于同一目标的概率,为1时zb:1表示两个轨迹片Tb1和Tb2属于同一目标的概率;wd和wo分别是用来控制这两个二元势函数的影响力因子,如果两个顶点构成困难顶点对,za:λ和zb:u直接取步骤(7)计算得到的匹配度,否则za:λ和zb:u直接取步骤(4)中计算得到的匹配度。
9.根据权利要求8所述的多目标跟踪方法,其特征在于,
步骤(8-5)中的一次更新过程是使用以下公式:
其中γ是更新步长,其是0到1之间的训练常数,
对于任意的有
10.一种基于深度条件随机场模型的多目标跟踪系统,其特征在于,包括:
第一模块,用于获取多目标跟踪数据集,其包含输入视频序列、以及输入视频序列中每一帧的检测响应;
第二模块,用于对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联,以得到轨迹片,所有的轨迹片构成轨迹片集合T;
第三模块,用于根据第二模块得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点,所有的顶点构成条件随机场模型的顶点集合V;
第四模块,用于计算第三模块得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
第五模块,用于根据第三模块得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对,所有的困难顶点对构成困难顶点对集合;
第六模块,用于获取第五模块中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息,将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量,所有的困难顶点对特征向量构成困难顶点对特征向量集合;
第七模块,用于将第六模块得到的每个困难顶点对特征向量输入LSTM网络,以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度,所有匹配度构成匹配度集合;
第八模块,用于将第四模块得到的匹配度集合和第七模块得到的匹配度集合作为CRF模型的输入,进行全局推导,以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度;
第九模块,用于在第八模块中获得的顶点集合V中所有顶点对应的最优匹配度中,找出最优匹配度大于匹配度阈值的所有对应顶点,并将这些顶点中的轨迹片关联起来,从而得到长轨迹片;
第十模块,用于对第三模块中与时间关系相关的参数进行更新,并重复上述第三模块至第九模块,直到不能再生成长轨迹片为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910348058.8A CN110047096B (zh) | 2019-04-28 | 2019-04-28 | 一种基于深度条件随机场模型的多目标跟踪方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910348058.8A CN110047096B (zh) | 2019-04-28 | 2019-04-28 | 一种基于深度条件随机场模型的多目标跟踪方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047096A CN110047096A (zh) | 2019-07-23 |
CN110047096B true CN110047096B (zh) | 2019-11-22 |
Family
ID=67279832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910348058.8A Expired - Fee Related CN110047096B (zh) | 2019-04-28 | 2019-04-28 | 一种基于深度条件随机场模型的多目标跟踪方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047096B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929620B (zh) * | 2019-11-15 | 2023-04-07 | 浙江大华技术股份有限公司 | 目标跟踪方法、装置及存储装置 |
CN111652907B (zh) * | 2019-12-25 | 2021-08-27 | 珠海大横琴科技发展有限公司 | 一种基于数据关联的多目标跟踪方法、装置及电子设备 |
CN111506691B (zh) * | 2020-04-20 | 2024-05-31 | 杭州数澜科技有限公司 | 一种基于深度匹配模型的轨迹匹配方法和系统 |
CN111862156B (zh) * | 2020-07-17 | 2021-02-26 | 中南民族大学 | 一种基于图匹配的多目标跟踪方法和系统 |
CN115375737B (zh) * | 2022-10-25 | 2023-02-03 | 南昌工程学院 | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 |
CN116310015A (zh) * | 2023-03-15 | 2023-06-23 | 杭州若夕企业管理有限公司 | 一种计算机系统、方法及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881681A (zh) * | 2015-05-22 | 2015-09-02 | 浙江大学 | 基于混合图模型的图像序列类别标注方法 |
CN106991372A (zh) * | 2017-03-02 | 2017-07-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7032871B2 (ja) * | 2017-05-17 | 2022-03-09 | キヤノン株式会社 | 画像処理装置及び画像処理方法、プログラム、記憶媒体 |
JP2019020777A (ja) * | 2017-07-11 | 2019-02-07 | キヤノン株式会社 | 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体 |
-
2019
- 2019-04-28 CN CN201910348058.8A patent/CN110047096B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881681A (zh) * | 2015-05-22 | 2015-09-02 | 浙江大学 | 基于混合图模型的图像序列类别标注方法 |
CN106991372A (zh) * | 2017-03-02 | 2017-07-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
Non-Patent Citations (2)
Title |
---|
"基于深度学习的多目标跟踪关联模型设计";候建华,张国帅,项俊;《自动化学报》;20190403;第XX卷(第X期);第1-11页 * |
"复杂场景下基于条件随机场的视觉目标跟踪";高琳,唐鹏,盛鹏,左航;《光学学报》;20100630;第30卷;第1721-1728页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110047096A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047096B (zh) | 一种基于深度条件随机场模型的多目标跟踪方法和系统 | |
Fan et al. | Watching a small portion could be as good as watching all: Towards efficient video classification | |
Xu et al. | Deep learning for multiple object tracking: a survey | |
Zhang et al. | Multi-target tracking by learning local-to-global trajectory models | |
CN109543180A (zh) | 一种基于注意力机制的文本情感分析方法 | |
CN110490901A (zh) | 抗姿态变化的行人检测跟踪方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN110321811A (zh) | 深度逆强化学习的无人机航拍视频中的目标检测方法 | |
CN105809714A (zh) | 一种基于轨迹置信度的多目标跟踪方法 | |
CN106682502A (zh) | 基于隐马尔可夫和概率推断的入侵意图识别系统及方法 | |
CN113570859B (zh) | 一种基于异步时空膨胀图卷积网络的交通流量预测方法 | |
CN100531405C (zh) | 体育视频目标跟踪方法 | |
CN107622507B (zh) | 一种基于深度学习的空中目标跟踪方法 | |
CN111882586A (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN106568445A (zh) | 基于双向循环神经网络的室内轨迹预测方法 | |
CN103150552B (zh) | 一种基于人头计数的驾驶培训管理方法 | |
CN111739053A (zh) | 一种复杂场景下的在线多行人检测跟踪方法 | |
CN114092517A (zh) | 基于传统和深度学习算法的多目标跟踪方法 | |
CN112766339A (zh) | 一种轨迹识别模型训练方法及轨迹识别方法 | |
Ren et al. | Adversarial constraint learning for structured prediction | |
CN112927266A (zh) | 基于不确定性引导训练的弱监督时域动作定位方法及系统 | |
CN114675249A (zh) | 基于注意力机制的雷达信号调制方式识别方法 | |
Qu et al. | Improving the reliability for confidence estimation | |
Cao et al. | Discovering intrinsic spatial-temporal logic rules to explain human actions | |
CN117217779A (zh) | 预测模型的训练方法、装置及信息预测方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191122 |