具体实施方式
如图1所示,本发明基于模糊逻辑的视频多目标跟踪方法第一实施例的流程示意图,该方法包括如下步骤:
S1:对当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果。
在线目标运动检测可以使用帧差法、光流法、背景减除法、混合高斯背景模型等运动检测算法。本发明主要采用混合高斯背景模型,对当前视频帧进行运动检测,以从中找出属于运动前景的像素,辅以中值滤波和简单的形态学处理,最终得到当前视频帧中的可能运动对象作为观测对象。一个观测对象是当前视频帧中的一个图像块,一般而言,观测对象的形状为矩形。
采用混合高斯背景模型对运动目标进行检测,得到检测目标集合为 Z={z1,...,zr},由于检测出的目标的预测结果并没有身份ID标识,并不能判断观测结果与前一帧目标的预测结果的对应情况。为此,还必须以检测结果Z={z1,...,zr}作为当前观测信息,对目标的预测结果以及观测结果作进一步的关联判断。
S2,对观测结果和目标的预测结果进行数据关联。
由于在视频多目标跟踪中的目标绝大多数为非刚体,其运动具有一定的随机性,且在实际复杂场景中经常会有光照变化、目标遮挡、相似物干扰等因素,都有可能引起目标跟踪的不确定性。目标包括稳定跟踪的可靠目标及不稳定跟踪的临时目标。本步骤中的目标状态,即每个目标被标记为可靠目标还是临时目标,是由前一视频帧的轨迹管理决定的。临时目标包括在前一视频帧为未被关联且不是匹配成功的候选结果的观测结果建立的新的目标,以及连续关联成功的帧数小于或者等于第一帧数阈值且未被删除的目标。可靠目标包括连续关联成功的帧数大于第一帧数阈值且未被删除的目标。目标的预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的。
S3,对未被关联上的预测结果及观测结果进行轨迹管理,包括利用未被关联上预测结果获取终止轨迹片段以及利用未被关联上的观测结果获取新的轨迹片段,对终止轨迹片段及新的轨迹片段进行轨迹关联。
具体而言,步骤S2中的数据关联方法能够处理在短时期内出现的高频率遮挡和大量虚假观测条件下的多目标跟踪的数据关联问题,然而在长时间的遮挡以及漏检情况下,一些目标状态长时间得不到更新,其目标运动轨迹很难维持,会出现目标轨迹断批的情况,即同一个目标拥有多条运动轨迹。同时,当新目标进入场景时,需要初始化相应的新的目标轨迹,如果目标离开场景时,也要删除相应的目标轨迹。
本申请通过分别利用未被关联上预测结果及未被关联上的观测结果获取终止轨迹片段以及新的轨迹片段,通过引入目标轨迹的特征相似性度量建立模糊隶属度,利用模糊综合函数来计算轨迹片段之间的综合相似度,然后采用最大综合相似度和阈值判别原则来实现同一目标轨迹的关联,并对同一目标的轨迹片段间的缺失点进行预测填充,最后得到一条完整连续的目标轨迹。
上述实施方式中,通过当前视频帧中的观测结果和目标的预测结果进行数据关联,并对未关联上的观测结果和预测结果进行轨迹管理,能有效提高多目标与观测之间的正确关联,对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性
请参阅图2,图2为本发明基于模糊逻辑的视频多目标跟踪方法第二实施例的流程示意图,且本发明的第二实施例是在第一实施例中步骤 S2的进一步拓展,所述方法包括如下步骤:
S21,计算当前视频帧中不同目标的预测结果之间的遮挡度。
本步骤中的目标的预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的。首先对于当前帧视频中的所有目标的预测结果之间进行遮挡度计算,以判定当前帧视频中的所有目标的预测结果之间是否发生遮挡。
请进一步参阅图3,图3为本发明不同目标的预测结果之间遮挡示意图。在当前视频帧中,预测结果A和预测结果B的跟踪图标形状均为矩形,且二者之间有重叠,且预测结果A的参数表述为:[x,y,w,d],其中,x,y表示矩形框的坐标,w表示矩形框宽度,d表示矩形框的高度,且预测结果B的参数表述为:[x′,y′,w′,h′],其中,x′,y′表示矩形框的坐标,w′表示矩形框宽度,h′表示矩形框的高度,预测结果A和预测结果 B之间阴影部分表示为:[xo,yo,wo,ho],且其重叠部分表示为:
由此可知,预测结果A和预测结果B之间重叠部分的面积表示为 wo*ho。若上述的wo、ho不满足wo>0或者ho>0,则两跟踪矩形框之间不构成重叠矩形,也即重叠矩形面积为0。
假设预测结果A与预测结果B发生如图2所示的遮挡,且两跟踪矩形框之间重叠的阴影部分表示遮挡区域,则定义二者之间的遮挡度为:
其中,s(·)表示区域面积,且遮挡度满足0≤ω(A,B)≤1。当ω(A,B)大于0,则说明预测结果A与预测结果B之间发生遮挡。且进一步由分别代表预测结果A与预测结果B的两跟踪矩形框底部的纵向图像坐标值 yA与yB可知,若yA>yB,则说明预测结果B被预测结果A遮挡,反之,则说明预测结果A被预测结果B遮挡。
S22:根据遮挡度分别判断每一预测结果与其他预测结果之间是否发生遮挡。
本步骤中,对于当前视频帧场景中的全部目标的预测结果进行遮挡度判断,并按照式(15)计算当前视频帧不同目标预测结果之间的跟踪矩形框的重叠率ωij(不同目标即预测结果之间的遮挡度),并判断每一预测结果与其他预测结果的遮挡度是否小于第一遮挡判定阈值τover。其中,第一遮挡判定阈值τover满足τover∈[0,1]。若ωij小于第一遮挡判定阈值τover则认为预测结果之间发生遮挡,若τover等于0,则表明预测结果之间未发生遮挡。
S23:若预测结果与任何其他预测结果之间均未发生遮挡,则对预测结果和观测结果进行第一数据关联;若预测结果与其他预测结果之间发生遮挡,则对预测结果和观测结果进行第二数据关联。
对当前视频帧中所有目标的预测结果进行遮挡度判定后,对预测结果与任何其他预测结果之间均未发生遮挡的,将其与当前视频帧中的观测结果进行第一数据关联。对预测结果与其他预测结果之间发生遮挡,进行第二数据关联。其中,第一数据关联和第一数据关联不同,且第二数据关联比第一数据关联复杂。
上述实施方式中,首先通过判定当前视频帧中所有目标的预测结果之间是否发生遮挡,在分别对目标的预测结果之间发生遮挡和不遮挡的情况,进行预测结果和观测结果间的数据关联,能够对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性。
请参阅图4,图4为本发明基于模糊逻辑的视频多目标跟踪方法第三实施例,是在本发明基于模糊逻辑的视频多目标跟踪方法第二实施例中S23的进一步扩展,因此与本发明基于模糊逻辑的视频多目标跟踪方法第二实施例相同的步骤在此不再赘述。本实施例包括:
参阅图4,步骤S23进一步包括如下子步骤:
S231,计算观测结果和预测结果之间的第二相似性度量。
采用第二相似性度量对预测结果和与观测结果间的距离进行度量。其中,第二相似性度量包括:空间距离特征相似性度量以及外观特征相似性度量。通常,目标在相邻帧图像之间的位置不会发生较大变化,因此,空间距离特征是能够较为有效地匹配目标的观测结果与预测结果的特征之一。在具体实施例中,观测结果d与预测结果o之间的空间距离特征相似性度量fD(·)定义为:
其中,||·||2为二范数,(xo,yo)为预测结果o在当前视频帧中的中心坐标,(xd,yd)为观测结果d在当前视频帧中的中心坐标,ho为预测结果o 在当前视频帧中的高度,为方差常量。
进一步,观测结果d与预测结果o之间的外观特征相似性度量fS(·)定义为:
其中,hd为观测结果d在当前视频帧中的高度,为方差常量。
S232,利用第一相似性度量计算观测结果和预测结果之间的关联代价矩阵。
采用乘性融合对空间距离特征相似性度量以及外观特征相似性度量进行融合,以得到观测结果和预测结果之间的关联度,且定义为:
sij=fD(o,d)×fs(o,d) (3)
根据关联度得到观测结果和预测结果之间的关联代价矩阵,且定义为:
S=[sij]n×l (4)
其中,i=1,2,…n,j=1,2,…,l。
S233,采用贪婪算法对关联代价矩阵进行优化求解,找出关联的观测结果和预测结果。
采用贪婪算法实现预测结果与观测结果之间的正确的关联,从而得到预测结果与观测结果之间的关联对。请参阅图5,该步骤S233进一步包括如下子步骤:
S2331,找出关联代价矩阵S中未被标记的所有元素中的最大值。
找出关联代价矩阵S中未被标记的所有元素中的最大值 Spq=max([Sij]n*l),其中,p=1,2,3……n,q=1,2,3……l,并标记该关联代价矩阵S中该最大值spq所在的第p行及第q列的所有元素。
S2332,判断最大值是否为所在行列中的最大值,且满足大于第一阈值。
判断该最大值spq大是否为所在行和所在列中的最大值,即是否满足: spq≥{spj}j=1,2,…l、spq≥{siq}i=1,2,…,n。进一步判断该最大值spq是否大于第一阈值λ1,即预测结果p与观测结果q的关联概率是否大于第一阈值λ1,且该第一阈值的满足λ1∈[0.6,0.9]。
S2333,若大于,则观测结果和预测结果正确关联。
该最大值spq满足上述判定条件,则认为预测结果p与观测结果q和之间正确关联,则将该关联对记录进已关联预测结果和观测结果的集合中。循环执行上述步骤直至关联代价矩阵S中的所有行或所有列均被标记。
上述实施方式,通过判定当前视频帧中目标的预测结果之间未发生遮挡,对观测结果和预测结果之间空间距离特征相似性度量以及外观特征相似性度量进行融合以得到二者的关联代价矩阵,优化求解能够找出正确关联的观测结果和预测结果。
请参阅图6,图6为本发明基于模糊逻辑的视频多目标跟踪方法第四实施例,是在本发明基于模糊逻辑的视频多目标跟踪方法第二实施例中S23的进一步扩展。
在视频帧中不同目标的预测结果之间有遮挡的情况下,由于采用简单的乘性融合策略对两种特征进行融合不能完成预测结果与观测结果之间的关联,这种情况下采用基于模糊逻辑多特征线索加权的融合策略。
步骤S23进一步包括如下子步骤:
S23a:计算观测结果和预测结果之间的第三相似性度量。
在当前视频帧中,由于颜色特征具有较好的抵抗目标形变的能力,但其缺少对预测结果空间结构的描述,且对光照敏感,而边缘特征能够很好地描述人体的边缘,它对光照变化和小量的偏移不敏感,因此颜色与边缘特征具有互补特性,故本发明采用这两种信息融合建立预测结果的外观特征。在本发明中,利用第三相似性度量对观测结果和预测结果之间的距离进行度量,且该第三相似性度量包括外观特征相似性度量、几何形状特征相似性度量、运动特征相似性度量以及空间距离特征相似性度量。
其中,观测结果d与预测结果o之间的外观特征相似性度量fA(·)定义为:
其中,ρ(·)为巴氏(Bhattacharyya)系数,Hc(·)为所述当前视频帧图像背景加权的颜色直方图特征,Hg(·)为分块梯度方向直方图特征,为方差常量,为方差常量。
观测结果d与预测结果o之间的运动特征相似性度量fM(·)定义为:
其中,(x′o,y′o)为上一时刻所述预测结果o的中心坐标,(xo,yo)为所述预测结果o的中心坐标,为上一时刻所述预测结果o的速度在坐标轴上的投影,为方差常量;
观测结果d与预测结果o之间的空间距离特征相似性度量fD(·)定义为:
其中,||·||2为二范数,(xo,yo)为预测结果o的中心坐标,(xd,yd)为观测结果d的中心坐标,ho为预测结果o的高度,为方差常量。
观测结果d与预测结果o之间的外观特征相似性度量fS(·)定义为:
其中,hd为观测结果d的高度,为方差常量。
其中,外观特征相似性度量、几何形状特征相似性度量对应的目标模型与候选模型分别定义为:目标模型:候选模型:
为了衡量目标模型和候选模型之间的相似度,本发明采用巴氏 (Bhattacharyya)系数来描述,且该巴氏系数定义为:
目标的预测结果的运动模型由其质心的坐标和速度来描述。在视频多目标跟踪中,由于相邻两帧视频序列图像间隔时间很短,视频目标运动的机动性不是很大,在大多数情况下,可以假设每一个目标的运动为匀速运动,因此可以为每个目标的预测结果的跟踪矩形框(x,y,w,h)建立基于位置、大小以及速度的运动状态参数模型。则定义卡尔曼滤波器的状态变量Xk为:
Xk=[x,vx,y,vy]T (17)
其中,x、y分别表示第k帧观测结果的跟踪矩形框质心的横纵坐标,分别表示第k帧观测结果的跟踪矩形框的质心在x轴和y轴方向上的速度。
S23b:采用模糊推理系统模型计算第三相似性度量中每一特征相似性度量的权重值。
本发明中的模糊推理系统主要包含四个基本要素:输入变量的模糊化、建立模糊规则库、模糊推理机、去模糊器(模糊新息精确化输出)。本实施例中,将利用各个特征的相似性度量定义模糊推理系统的输入,通过推理得到每个特征的自适应加权系数。
请参阅图7,进一步该步骤S23b还包括如下子步骤:
S23b1,计算模糊推理系统的输入变量。
一并参阅图8,图8为本发明多特征线索融合的结构示意图。以运动特征相似性度量为第一模糊输入变量,其余3个特征的相似性度量均值为第二模糊输入变量,且其余3个特征的相似性度量均值的计算可定义为:
将分别作为模糊逻辑系统的第一及第二模糊输入变量。其中,ei为特征i的相似性度量,为t-1时刻的特征k的融合系数,fM(i,j)运动特征相似性度量,为余3个特征相似性度量的加权均值。
S23b2,确定模糊推理系统的输入变量及输出变量的隶属度函数。
一般来说,输出变量的精度受模糊集数量的影响,模糊集越多,输出就越精确,但模糊集越多,算法的计算复杂度就越大,所以通常模糊集数量是由经验选取的。
请参阅图9,图9为本发明模糊输入变量fk(i,j)、的隶属度函数示意图。
输入变量fk(i,j)和利用5个语言模糊集{ZE,SP,MP,LP, VP}进行模糊化,其隶属度函数分别用μ0,ZE(i,j)、μ0,SP(i,j)、μ0,MP(i,j)、μ0,LP(i,j) 以及μ0,VP(i,j)表示,五个模糊集分别表示零、正小、正中、正大和非常大。
请参阅图10,图10为本发明输出模糊变量αM的隶属度函数示意图。对于输出模糊变量αM包含五个模糊集:{ZE,SP,MP,LP,VP,EP}, EP表示极大模糊集,其隶属度函数分别用μ1,ZE(i,j)、μ1,SP(i,j)、μ1,MP(i,j)、μ1,LP(i,j)、μ1,VP(i,j)以及μ1,EP(i,μ)表示。
S23b3,采用所模糊推理系统的推理规则得到第三相似性度量中每一特征相似性度量的权重值。
根据步骤S23b2中的定义的输入变量及输出变量的隶属度函数,模糊推理规则可以如下:,
规则1:如果fM(i,j)是ZE,并且fM(i,j)是ZE,则αM是EP
规则2:如果fM(i,j)是ZE,并且fM(i,j)是SP,则αM是VP
规则3:如果fM(i,j)是ZE,并且fM(i,j)是MP,则αM是LP
详细的模糊规则如表1所示:
在本发明一具体实施例中,以规则1为例,详细给出推理过程:
a)根据规则1,模糊输入变量fM(i,j)对应的模糊集为ZE,可以根据图9所示模糊隶属函数,利用fM(i,j)的值求出对应的模糊隶属度值同样的方法,可以求出模糊输入变量对应的模糊隶属度值
b)利用下式计算出规则1的适用度:
其中,∧表示取小。
c)根据规则1,对应的模糊输出为EP,则规则1的输出可以用下式计算:
同样的方法,可以计算出所有规则的模糊输出变量。根据表1可知,本申请中M=25。于是,总的模糊输出为:
其中,∨表示取大。由于式(20)得到的是一个模糊化的输出,为了得到去模糊化的输出结果可以采用如下方法:
其中,表示模糊规则m对应输出模糊集合的质心。同样的道理,针对不同特征构建模糊推理系统,可以分别得到几何形状特征、运动方向特征以及空间距离的权重值系数αA、αS以及αD。
S23c,对权重值和第三相似性度量进行多特征线索融合,以得到观测结果和预测结果之间的关联代价矩阵。
后将所有特征的权重值系数进行归一化,得到当前时刻各特征的融合系数:
通过判断各个特征的可信程度,自适应给不同特征分配不同的权重,很好地解决了在复杂背景、互相遮挡情况下的跟踪问题。根据式(21) 得到观测结果和预测结果之间的关联代价矩阵,定义为:
S=[sij]n×l (24)
其中,{αk}k∈{A,M,S,D}为每一特征相似性度量的融合系数,且满足fk(i,j)k∈{A,M,S,D}为观测结果和预测结果之间的每一特征相似性度量。
S23d,采用贪婪算法对关联代价矩阵进行优化求解,找出关联的观测结果和预测结果。
采用贪婪算法实现预测结果与观测结果之间的正确的关联,从而得到预测结果与观测结果之间的关联对进一步包括:
1)找出关联代价矩阵sij中未被标记的所有元素中的最大值。
找出关联代价矩阵sij中未被标记的所有元素中的最大值 Spq=max([Sij]n*l),其中,p=1,2,3……n,q=1,2,3……l,并标记该关联代价矩阵S中该最大值spq所在的第p行及第q列的所有元素。
2)判断最大值是否为所在行列中的最大值,且满足大于第二阈值。
判断该最大值spq大是否为所在行和所在列中的最大值,即是否满足: spq≥{spj}j=1,2,…l、spq≥{siq}i=1,2,…,r。进一步判断该最大值spq是否大于第二阈值λ2,即预测结果p与观测结果q的关联概率是否大于第二阈值λ2,且该第二阈值的满足λ2∈[0.6,0.9]。
3)若大于,则观测结果和预测结果正确关联。
该最大值spq满足上述判定条件,则认为预测结果p与观测结果q和之间正确关联,则将该关联对记录进已关联预测结果和观测结果的集合中。进一步,若该关联代价矩阵Sij中还存在未被标记的行和列,则继续上述步骤1)。
上述实施方式,通过判定当前视频帧中目标的预测结果之间发生遮挡,计算预测结果和观测结果之间的第三特征相似性度量,引入模糊推理系统,利用基于模糊逻辑的方法,根据当前跟踪环境自适应给不同特征信息分配不同的权重值,得到多属性特征的加权和融合,构成该帧目标的预测结果与观测结果的关联代价矩阵,再使用贪婪算法优化求解分配,能够有效提高多目标与观测之间的正确关联。
请参阅图11,图11为本发明基于模糊逻辑的视频多目标跟踪方法第五实施例的流程示意图,是在本发明视频多目标模糊数据关联方法第一实施例中步骤S3的进一步扩展,本实施例进一步包括:
S31,通过第一相似性度量,建立终止轨迹片段及新的轨迹片段之间的模糊关联代价矩阵。
模糊逻辑数据关联方法能够处理在短时期内出现的高频率遮挡和大量虚假观测条件下的多目标跟踪的数据关联问题,然而在长时间的遮挡以及漏检情况下,一些目标状态长时间得不到更新,其目标运动轨迹很难维持,会出现目标轨迹断批的情况,即同一个目标拥有多条运动轨迹。同时,当新目标进入场景时,需要初始化相应的新的目标轨迹,如果目标离开场景时,也要删除相应的目标轨迹。
参阅图12,步骤S31进一步包括如下子步骤:
S311,建立终止轨迹片段及新的轨迹片段之间的相似性向量。
目标的预测结果的终止就是对于场景中离开的目标,或者是静止不动的目标,需要将其从当前的目标跟踪序列中删除。假如目标的估计位置位于视频场景的边缘位置(场景边缘设置为τborder=5),则可以判断为目标离开视频场景,此时将该目标从当前的目标跟踪序列中删除。如果目标的估计位置不在视频场景的边缘,而且目标连续x帧都没有与任何观测进行关联,那么就能推断出目标静止或者是被遮挡,将该目标从当前的目标跟踪序列中删除。
如果在场景区域内有未关联上的观测,可以通过判断观测结果是否能够关联上目标来确认是否有新的目标出现。在复杂环境下,由于背景干扰、目标自身形变等多种因素的影响,在保持高检测率的条件下,目标检测器不可避免的会产生一些虚假观测,其不会关联上任何已有的目标,这些虚假观测也可能会被错误的初始化为新的目标。一般来说,在连续的几帧内(时间滑动窗内)目标会有重叠的面积和相同的几何尺寸,因此为了能够准确的判断未被关联上的观测是否来源于新的目标,本申请在新目标初始化模块利用连续Tinit帧内的观测结果来判断是否存在矩形框面积重叠以及具有相同的尺寸,定义观测结果之间矩形框的面积重叠率为:
观测结果之间矩形框的尺寸相似度为:
其中,分别为t时刻和t+1时刻的观测值,area(·)表示观测结果的面积,表示观测值与的重叠面积,h为观测值矩形框的高度值。
其中,τω和τr分别代表重叠率阈值和尺寸相似度阈值。对于连续init 帧内的观测值的面积重叠率和尺寸相似度均大于设定的阈值,即init当大于或等于Tinit时,则将其转化为有效轨迹,即起始一条新的轨迹片段,并将其加入目标跟踪序列中。因此,该方法可以有效剔除目标检测器产生的虚假观测,从而减少了错误的目标轨迹起始。
其中,由于目标终止轨迹可能是一条轨迹片段或者一条完整的目标轨迹,为了确认目标轨迹的完整性,利用终止轨迹最后的位置来判断轨迹在场景中断开或者离开场景。如果终止轨迹最后的位置在场景内,则其轨迹为终止轨迹片段。同时,当目标的轨迹片段的起始帧为当前时刻时,说明该新的轨迹片段是一个新的观测产生的临时轨迹。
在本发明一具体实施例中,终止轨迹片段的集合定义为:新的轨迹片段的集合定义为:其中,na、nb分别表示终止轨迹片段集合及所述新的轨迹片段集合的个数。
第一相似性度量包括外观相似性度量、形状相似性度量以及运动相似性度量,其中,外观相似性度量定义为:
其中,ρ(·)表示为Bhattacharyya系数,Hc(·)表示背景加权的颜色直方图特征,为方差常量,Hg(·)表示方向梯度直方图特征,为方差常量;
形状相似性度量定义为:
其中,hi表示终止轨迹片段Ti在图像中的高度,hj表示新的轨迹片段Tj在图像中的高度,为方差常量;
运动相似性度量定义为:
其中,G(·)表示高斯分布,Σ为高斯分布的方差,Δt是终止轨迹片段Ti最后观测到新的轨迹片段Tj第一个观测的帧间隔、vi分别为终止轨迹片段Ti终止位置和速度,vj分别为新的轨迹片段起始位置和速度。
图13为遮挡情况下终止轨迹片段和新的轨迹片段运动相似性度量。假定预测结果的位置和实际观测结果的位置之间的误差满足高斯分布,即当终止轨迹片段的预测位置与新的轨迹片段的实际位置距离越小,则两条轨迹片段之间的运动相似性就越大(例如与之间的距离越相近,的值就越大)。
进一步,根据式(1)、式(2)以及式(3)可以计算得到两条轨迹片段间的相似性向量,定义为:
其中,Λk(Ti,Tj)∈[0,1]3中,τgap为关联的时间间隔阈值,表示终止轨迹片段Ti断开的时间帧,表示新的轨迹片段Tj起始的时间帧。
S312,利用相似性向量计算终止轨迹片段及新的轨迹片段之间的匹配度。
为了得到任意新的轨迹片段与终止轨迹片段的相似度,本申请采用基于模糊综合函数的模糊性模型来衡量终止轨迹片段和新的轨迹片段之间的匹配度,其定义为:
其中,∧表示所述匹配度取最小值,∨表示所述匹配度取最大值。
S313,根据匹配度计算终止轨迹片段及新的轨迹片段之间的模糊综合相似度。
k时刻终止轨迹片段Ti和新的轨片段Tj之间的模糊综合相似度定义为:
S314,根据模糊综合相似度建立终止轨迹片段及新的轨迹片段的关联代价矩阵。
终止轨迹片段及新的轨迹片段之间的关联代价矩阵定义为:
且两条轨迹片段可以实现关联的前提条件为:
1)时间具有连续性,即相对应的时间帧区间没有发生重叠区域,即
2)两条轨迹片段之间的时间间隔应该在关联的时间间隔阈值范围之内,即满足
在目标跟踪的过程中,假如目标的预测结果发生遮挡、目标检测误差以及漏检等原因造成了目标的运动轨迹发生断开,那么其断开之后新的轨迹与原始的终止轨迹之间的时间间隔相对来说是比较短的。如果这两条轨迹片段之间的时间间隔相对来说比较长,那么可以认为他们不是来源于同一个目标的。本申请中可以通过设定合理的关联时间间隔阈值τgap能够在一个相对较小的范围之内,将可能会被关联上的轨迹进行关联,这样可以很好的提高了算法的时间效率,也排除了一些不可能成功关联上的轨迹片段。
S32,采用最大模糊综合相似度和阈值判别原则实现终止轨迹片段及新的轨迹片段之间的轨迹关联。
根据模糊关联代价矩阵U可知,由于目标跟踪环境的复杂性,在轨迹片段关联中为了给出终止轨迹片段Ti与新的轨迹片段Tj之间的相似性判决,需要利用模糊算子去模糊,最大综合相似度表示为:
如果
则终止轨迹片段Ti与新的轨迹片段关联,并且新的轨迹片段不再与其他终止轨迹片段Ti关联,否则与为不关联轨迹片段,这里ε为阈值参数,且0≤ε≤1。
S33,填充关联上的终止轨迹片段及新的轨迹片段之间缺失的轨迹段。
由于目标的预测结果之间发生遮挡、目标检测误差以及漏检等原因造成了目标的运动轨迹发生断开,采用上述关联方法可以将两条断开的轨迹关联在一起,但是两条轨迹片段之间往往还缺少若干帧丢失的检测点信息。因此,该目标不能形成一条完整连续的轨迹,还需要对他们间的空缺处进行预测填充。
参阅图14,步骤S33包括如下子步骤:
S331,对关联上的终止轨迹片段及新的轨迹片段之间的缺失轨迹段进行双向预测,以获取预测点的位置信息。
图15为获取丢失预测点的位置示意图,Tf是两条断开的轨迹中的前面一条轨迹片段,即终止轨迹片段,Tb是后面的一条轨迹片段,即新的轨迹片段。利用同一目标发生断开的两条轨迹的终止位置、新起始位置以及速度信息,双向连续的预测目标在断开时间间隔内的位置。预测点的位置信息的获取过程如图15所示。pf表示当采用轨迹片段Tf进行正向预测时目标所在的具体位置,pb表示当采用轨迹片段Tb进行反向预测时目标的具体位置,tf表示Tf进行正向预测时当前帧数,tb表示Tb进行反向预测时当前帧数,则获取预测点位置信息的过程如下:
1)初始化:
2)若tf<tb,则从Pf进行正向预测目标在下一帧中的具体位置:
pf=pf+vf,tf=tf+1 (30)
从Pb进行反向预测目标在前一帧中的具体位置:
pb=pb-vb,tb=tb-1 (31)
重复步骤2),直至tf≥tb,最后得到两条轨迹片段间的缺失点的位置信息。
S332,获取预测点的矩形框信息。
为了能够对跟踪算法的多目标跟踪精度进行评估,还需要获取预测点目标的矩形框的宽高,在本申请中采用平均法来得到预测点的矩形框的宽高,为:
其中,hk、wk表示第k帧时检测点的矩形框的高度和宽度,表示轨迹片段Tf尾部的矩形框的高度和宽度,表示轨迹片段Tb头部的矩形框的高度和宽度。
S333,根据预测点的位置信息及矩形框信息对缺失轨迹段进行填充。
运用上述的预测点填充方法对轨迹片段间的缺失点进行预测填充后,就可以获得目标的一条完整连续的运动轨迹。
在本发明的实际运用中,对已经关联上的目标的预测结果和观测结果采用滤波器进行滤波和预测,以得到目标当前视频帧中的实际轨迹点以及预测结果,其中,本申请中采用的滤波器可以包括但不限于卡尔曼 (Kalman)滤波器。进一步,对没有关联上目标的预测结果进行外推预测,得到其预测结果,实现对多目标的准确跟踪。且目标的预测结果用于下一帧视频帧中的数据关联。
上述实施方式,对同一目标的断开轨迹间的缺失点进行预测填充,形成完整连续的目标轨迹,能有效解决目标轨迹的平滑与预测、目标轨迹的终止以及新目标轨迹的起始等问题。
下面为使用基于模糊逻辑的视频多目标跟踪方法一实施方式进行实验验证比较的结果,本实施例是本发明第一至第五实施例的结合,且本实施例中分别使用2个公开的PETS2009数据集和TownCentre数据集进行验证。
1)数据集介绍
PETS2009数据集是使用固定在一个室外场景的摄像机从不同视角采集得到的,在场景中包含着大量的行人进入或者退出场景,由于受到光照条件变化和阴影的影响,行人的外观会随着时间发生动态变化。而且视频中的多个行人之间还存在频繁的近距离交互行为(例如并肩行走,停留交谈、握手等),从单一视角上看,行人还经常被场景中的一个交通灯所遮挡,行人之间也存在相互遮挡的情况。本申请所提出的多目标跟踪算法实验所采用的是该数据集的部分数据,如场景行人较为分散的情况—S2L1,以及场景行人比较拥挤的情况—S2L2,这也是经常被用于视频分析的实验中的两个视频序列。
TownCentre数据集使用固定在一个城镇的繁华街道上的高清摄像机采集得到的,在场景中大量的行人沿着街道两边和中间道路行走,在视频图像序列中的多个行人之间距离非常接近,行人与左边的橱窗内的人体模型较为相似且在经过玻璃橱窗时还会留下阴影。此外,人群中还存在很多衣服颜色很相似的行人,外观相似度很高,容易造成多目标跟踪过程中目标标签转换现象,行人之间的遮挡也很严重,跟踪难度很大。
所采用的测试视频序列的相关信息如表2所示。
表2测试视频序列信息
2)实验对比算法
选取TC_ODAL算法、ALExTRAC算法、基于卷积神经网络和短时约束度量联合学习的轨迹关联算法(CNNTCM)与本申请提出的算法进行比较:
TC_ODAL算法是没有轨迹融合时的基于模糊逻辑的视频多目标跟踪算法。
基于判别性表观模型学习和轨迹置信度的视频多目标在线跟踪算法(TC_ODAL)。在该算法提出了基于轨迹可检测性和连续性的轨迹置信度,对于高置信度的轨迹与在线检测响应进行局部关联,而低置信度的轨迹片段与其他原有轨迹和检测响应进行全局关联,为了能使轨迹的表观特性更具区别性,其采用了一种基于增量线性判别分析算法,将轨迹的表观模型投影到判别性投影空间中。
基于自我监督表观模型学习的关联跟踪算法(ALExTRAC)。在本申请中提出了一种自我监督的方法去学习在视频序列中关联目标与观测,其通过学习一个外观相似性模型来估计数据关联的代价值,并在滑动窗口内收集外观显著变化的样本集用于强化相似性模型。
CNNTCM算法主要是使用辅助数据预训练孪生卷积神经(CNN) 网络,然后将预训练得到的孪生CNN和短时约束度量联合训练出每个轨迹段的度量矩阵,最后使用对应的度量矩阵计算轨迹片段之间的相似关系。本申请选取下面目前性能最优的两种算法与本申请算法进行比较。
3)实验运行性能
本申请提出的算法在CPU为Intel Core i5,3.10GHz和内存为4GB 的PC机上进行Matlab仿真实现。在本申请的实验中,对于人群密度较低的PETS2009-S2L1视频序列,算法处理速度为1.33f/s;而对于人群密度较高的PETS2009-S2L2视频序列,算法处理速度为0.30f/s;对于高频率遮挡的TownCentre视频序列,算法处理速度为0.30f/s;本申请提出的MOT_FTA算法与MOT_FL算法、TC_ODAL算法、ALExTRAC算法、 CNNTCM算法的平均处理速度如表3所示,从表中可以看出,本申请所提出的算法的平均处理速度表现的略低,其主要的损耗在于多属性特征相似性的计算,模糊数据关联的过程,以及轨迹关联在时间阈值内的搜索和计算关联相似性。
表3算法平均处理速度
4)跟踪性能比较
为了保证比较的公平性,采用TC_ODAL算法、ALExTRAC算法、 CNNTCM算法都相同的目标检测结果和真实位置数据,并使用相同的评估代码计算性能指标。
为了进一步验证本申请跟踪算法的有效性,本申请在行人间容易出现频繁动态遮挡情况的视频序列TownCentre上进行了试验,与 TC_ODAL算法、ALExTRAC算法、CNNTCM算法、MOT_FL算法的对比实验结果如表4所示。
表4视频序列TownCentre上的测试结果
从表4可以看出,本申请所提出的MOT_FTA算法在多目标跟踪 准确度(MOTA)这一性能指标上,相对于TC_ODAL算法、ALExTRAC 算法、CNNTCM算法和MOT_FL算法领先的优势比较明显,这说明 提出模糊轨迹关联方法能够有效地处理检测结果中存在的噪声。同时, 本申请提出的MOT_FTA算法在目标标签变化次数(IDS)上分别比 ALExTRAC算法、CNNTCM算法和MOT_FL算法减少了24.6%、35% 和12.7%,这充分表明采用模糊轨迹关联的方法,可以有效地提高跟 踪系统的持续跟踪性能,抑制了目标的标签转换情况的发生,使目标 的运动轨迹能够连续、平滑。在绝大多数正确跟踪的轨迹数目(MT) 和绝大多数错误跟踪的轨迹数目(ML)这两项指标上略优于对比算法, 则表明本申请提出的MOT_FTA算法能实现对多个目标的准确跟踪, 而且能提供更加完整的目标轨迹输出,这归功于基于模糊轨迹关联的有效性。由于本申请MOT_FTA算法假设为每一个目标运动为匀速运 动,但由于目标的非线性运动状态的突变,MOT_FTA算法无法准确 的对这种情况进行准确估计与预测,其在轨迹中断次数(FG)这一指标 上要差于TC_ODAL算法、ALExTRAC算法和CNNTCM算法。
在本申请一具体实验场景中,本申请算法在视频序列TownCentre 上的部分跟踪结果示例表明,本申请的算法能够实现目标正确的标号,填充的丢失检测点也是十分准确的,且行人的运动轨迹光滑、平整。算法仍然准确的实现同一个目标的断开轨迹片段的关联,使其形成一条完整的轨迹。
如图16所示,图16为基于模糊逻辑的视频多目标跟踪装置第一实施例的结构示意图,包括:
检测模块11,用于对当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果。
关联模块12,用于对观测结果和目标的预测结果进行数据关联,其中预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的。
轨迹管理模块13,用于对未被关联上的预测结果及观测结果进行轨迹管理,包括利用未被关联上预测结果获取终止轨迹片段以及利用未被关联上的观测结果获取新的轨迹片段,对终止轨迹片段及新的轨迹片段进行轨迹关联。
如图17所示,图17为本发明基于模糊逻辑的视频多目标跟踪装置第二实施例的结构示意图,包括:处理器110和摄像机120。
其中,摄像机120可以为本地摄像机,处理器110通过总线连接摄像机120;摄像机120也可以为远程摄像机,处理器110通过局域网或互联网连接摄像机120。
处理器110控制基于模糊逻辑的视频多目标跟踪装置的操作,处理器110还可以称为CPU(Central Processing Unit,中央处理单元)。处理器110可能是一种集成电路芯片,具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
基于模糊逻辑的视频多目标跟踪装置可以进一步包括存储器(图中未画出),存储器用于存储处理器110工作所必需的指令及数据,也可以存储传输器120拍摄的视频数据。
处理器110用于对从摄像机120获取的当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果;对观测结果和目标的预测结果进行数据关联,其中预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的;对未被关联上的预测结果及观测结果进行轨迹管理,包括利用未被关联上预测结果获取终止轨迹片段以及利用未被关联上的观测结果获取新的轨迹片段,对终止轨迹片段及新的轨迹片段进行轨迹关联。
本发明基于模糊逻辑的视频多目标跟踪装置包括的各部分的功能可参考本发明基于模糊逻辑的视频多目标跟踪方法各对应实施例中的描述,在此不再赘述。
综上所述,本领域技术人员容易理解,本发明提供一种基于模糊逻辑的视频多目标跟踪方法及装置,通过当前视频帧中的观测结果和目标的预测结果进行数据关联,并对未关联上的观测结果和预测结果进行轨迹管理,能有效提高多目标与观测之间的正确关联,对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。