具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明视频多目标模糊数据关联方法第一实施例包括:
S1:对当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果。
使用帧差法、光流法、背景减除法等运动检测算法对当前视频帧进行运动检测,以从中找出属于运动前景的像素,辅以中值滤波和简单的形态学处理,最终得到当前视频帧中的可能运动对象作为观测对象。一个观测对象是当前视频帧中的一个图像块,一般而言,观测对象的形状为矩形。
S2:计算当前视频帧中不同目标的预测结果之间的遮挡度。
本步骤中的目标的预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的。首先对于当前帧视频中的所有目标的预测结果之间进行遮挡度计算,以判定当前帧视频中的所有目标的预测结果之间是否发生遮挡。
请进一步参阅图2,图2为本发明不同目标的预测结果之间遮挡示意图。如图2所示,在当前视频帧中,预测结果A和预测结果B的跟踪图标形状均为矩形,且二者之间有重叠,且预测结果A的参数表述为:[x,y,w,d],其中,x,y表示矩形框的坐标,w表示矩形框宽度,d表示矩形框的高度,且预测结果B的参数表述为:[x′,y′,w′,h′],其中,x′,y′表示矩形框的坐标,w′表示矩形框宽度,h′表示矩形框的高度,预测结果A和预测结果B之间阴影部分表示为:[xo,yo,wo,ho],且其重叠部分表示为:
由此可知,预测结果A和预测结果B之间重叠部分的面积表示为wo*ho。若上述的wo、ho不满足wo>0或者ho>0,则两跟踪矩形框之间不构成重叠矩形,也即重叠矩形面积为0。
假设预测结果A与预测结果B发生如图2所示的遮挡,且两跟踪矩形框之间重叠的阴影部分表示遮挡区域,则定义二者之间的遮挡度为:
其中,s(·)表示区域面积,且遮挡度满足0≤ω(A,B)≤1。当ω(A,B)大于0,则说明预测结果A与预测结果B之间发生遮挡。且进一步由分别代表预测结果A与预测结果B的两跟踪矩形框底部的纵向图像坐标值yA与yB可知,若yA>yB,则说明预测结果B被预测结果A遮挡,反之,则说明预测结果A被预测结果B遮挡。
S3:根据遮挡度分别判断每一预测结果与其他预测结果之间是否发生遮挡。
本步骤中,对于当前视频帧场景中的全部目标的预测结果进行遮挡度判断,并按照式(1)计算当前视频帧不同目标预测结果之间的跟踪矩形框的重叠率ωij(不同目标即预测结果之间的遮挡度),并判断每一预测结果与其他预测结果的遮挡度是否小于第一遮挡判定阈值τover。其中,第一遮挡判定阈值τover满足τover∈[0,1]。若ωij小于第一遮挡判定阈值τover则认为预测结果之间发生遮挡,若τover等于0,则表明预测结果之间未发生遮挡。
S4:若预测结果与任何其他预测结果之间均未发生遮挡,则对预测结果和观测结果进行第一数据关联;若预测结果与其他预测结果之间发生遮挡,则对预测结果和观测结果进行第二数据关联。
由步骤S3对当前视频帧中所有目标的预测结果进行遮挡度判定后,对预测结果与任何其他预测结果之间均未发生遮挡的,将其与当前视频帧中的观测结果进行第一数据关联。进一步,对预测结果与其他预测结果之间发生遮挡,将其与当前视频帧中的观测结果进行第二数据关联。其中,第一数据关联和第一数据关联不同,且第二数据关联比第一数据关联复杂。
上述实施方式中,首先通过判定当前视频帧中所有目标的预测结果之间是否发生遮挡,在分别对目标的预测结果之间发生遮挡和不遮挡的情况,进行预测结果和观测结果间的数据关联,能够对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性。
请参阅图3,图3为本发明视频多目标模糊数据关联方法第二实施例,是在本发明视频多目标模糊数据关联方法第一实施例的基础上,是对本发明视频多目标模糊数据关联方法第一实施例的进一步扩展,因此与本发明视频多目标模糊数据关联方法第一实施例相同的步骤在此不再赘述。本实施例包括:
S11:对当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果。
S12:计算当前视频帧中不同目标的预测结果之间的遮挡度。
S13:根据遮挡度分别判断每一预测结果与其他预测结果之间是否发生遮挡。
S14:若预测结果与任何其他预测结果之间均未发生遮挡,则对预测结果和观测结果进行第一数据关联。
参阅图4,步骤S14进一步包括如下子步骤:
S141,计算观测结果和预测结果之间的第一相似性度量。
采用第一相似性度量对预测结果和与观测结果间的距离进行度量。其中,第一相似性度量包括:空间距离特征相似性度量以及外观特征相似性度量。通常,目标在相邻帧图像之间的位置不会发生较大变化,因此,空间距离特征是能够较为有效地匹配目标的观测结果与预测结果的特征之一。在具体实施例中,观测结果d与预测结果o之间的空间距离特征相似性度量fD(·)定义为:
其中,||·||2为二范数,(xo,yo)为预测结果o在当前视频帧中的中心坐标,(xd,yd)为观测结果d在当前视频帧中的中心坐标,ho为预测结果o在当前视频帧中的高度,为方差常量。
进一步,观测结果d与预测结果o之间的外观特征相似性度量fS(·)定义为:
其中,hd为观测结果d在当前视频帧中的高度,为方差常量。
S142,利用第一相似性度量计算观测结果和预测结果之间的关联代价矩阵。
采用乘性融合对空间距离特征相似性度量以及外观特征相似性度量进行融合,以得到观测结果和预测结果之间的关联度,且定义为:
sij=fD(o,d)×fs(o,d) (4)
根据关联度得到观测结果和预测结果之间的关联代价矩阵,且定义为:
S=[sij]n×l (5)
其中,i=1,2,…n,j=1,2,…,l。
S143,采用贪婪算法对关联代价矩阵进行优化求解,找出关联的观测结果和预测结果。
采用贪婪算法实现预测结果与观测结果之间的正确的关联,从而得到预测结果与观测结果之间的关联对。请参阅图5,该步骤S143进一步包括如下子步骤:
S1431,找出关联代价矩阵S中未被标记的所有元素中的最大值。
找出关联代价矩阵S中未被标记的所有元素中的最大值Spq=max([Sij]n*l),其中,p=1,2,3……n,q=1,2,3……l,并标记该关联代价矩阵S中该最大值spq所在的第p行及第q列的所有元素。
S1432,判断最大值是否为所在行列中的最大值,且满足大于第一阈值。
判断该最大值spq大是否为所在行和所在列中的最大值,即是否满足:spq≥{spj}j=1,2,…l、spq≥{siq}i=1,2,…,n。进一步判断该最大值spq是否大于第一阈值λ1,即预测结果p与观测结果q的关联概率是否大于第一阈值λ1,且该第一阈值的满足λ1∈[0.6,0.9]。
S1433,若大于,则观测结果和预测结果正确关联。
该最大值spq满足上述判定条件,则认为预测结果p与观测结果q和之间正确关联,则将该关联对记录进已关联预测结果和观测结果的集合中。循环执行上述步骤直至关联代价矩阵S中的所有行或所有列均被标记。
上述实施方式,通过判定当前视频帧中目标的预测结果之间未发生遮挡,对观测结果和预测结果之间空间距离特征相似性度量以及外观特征相似性度量进行融合以得到二者的关联代价矩阵,优化求解能够找出正确关联的观测结果和预测结果。
请参阅图6,图6为本发明视频多目标模糊数据关联方法第三实施例,是在本发明视频多目标模糊数据关联方法第一实施例的基础上,是对本发明视频多目标模糊数据关联方法第一实施例的进一步扩展,因此与本发明视频多目标模糊数据关联方法第一实施例相同的步骤在此不再赘述。本实施例包括:
S21:对当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果。
S22:计算当前视频帧中不同目标的预测结果之间的遮挡度。
S23:根据遮挡度分别判断每一预测结果与其他预测结果之间是否发生遮挡。
S24:若预测结果与其他预测结果之间发生遮挡,则对预测结果和所测结果进行第二数据关联。
在视频帧中不同目标的预测结果之间有遮挡的情况下,由于采用简单的乘性融合策略对两种特征进行融合不能完成预测结果与观测结果之间的关联,这种情况下采用基于模糊逻辑多特征线索加权的融合策略。同时,目标的预测结果处于遮挡状态后,由于其丢失了大部分外形特征,所以不再更新其模型,而此时最可靠的是预测结果的运动信息,因为目标的预测结果运动会存在惯性,其运行速度在短时间内一般不会发生很大变化,可以根据的预测结果发生遮挡前的位置,利用卡尔曼(Kalman)滤波对目标预测结果的运动轨迹进行预测。
请参阅图7,步骤S24进一步包括如下子步骤:
S241:计算观测结果和预测结果之间的第二相似性度量。
在当前视频帧中,由于颜色特征具有较好的抵抗目标形变的能力,但其缺少对预测结果空间结构的描述,且对光照敏感,而边缘特征能够很好地描述人体的边缘,它对光照变化和小量的偏移不敏感,因此颜色与边缘特征具有互补特性,故本发明采用这两种信息融合建立预测结果的外观特征。在本发明中,利用第二相似性度量对观测结果和预测结果之间的距离进行度量,且该第二相似性度量包括外观特征相似性度量、几何形状特征相似性度量、运动特征相似性度量以及空间距离特征相似性度量。
其中,观测结果d与预测结果o之间的外观特征相似性度量fA(·)定义为:
其中,ρ(·)为巴氏(Bhattacharyya)系数,Hc(·)为所述当前视频帧图像背景加权的颜色直方图特征,Hg(·)为分块梯度方向直方图特征,为方差常量,为方差常量。
观测结果d与预测结果o之间的运动特征相似性度量fM(·)定义为:
其中,(x′o,y′o)为上一时刻所述预测结果o的中心坐标,(xo,yo)为所述预测结果o的中心坐标,为上一时刻所述预测结果o的速度在坐标轴上的投影,为方差常量;
观测结果d与预测结果o之间的空间距离特征相似性度量fD(·)定义为:
其中,||·||2为二范数,(xo,yo)为预测结果o的中心坐标,(xd,yd)为观测结果d的中心坐标,ho为预测结果o的高度,为方差常量。
观测结果d与预测结果o之间的外观特征相似性度量fS(·)定义为:
其中,hd为观测结果d的高度,为方差常量。
其中,外观特征相似性度量、几何形状特征相似性度量对应的目标模型与候选模型分别定义为:
目标模型:
候选模型:
为了衡量目标模型和候选模型之间的相似度,本发明采用巴氏(Bhattacharyya)系数来描述,且该巴氏系数定义为:
目标的预测结果的运动模型由其质心的坐标和速度来描述。在视频多目标跟踪中,由于相邻两帧视频序列图像间隔时间很短,视频目标运动的机动性不是很大,在大多数情况下,可以假设每一个目标的运动为匀速运动,因此可以为每个目标的预测结果的跟踪矩形框(x,y,w,h)建立基于位置、大小以及速度的运动状态参数模型。则定义卡尔曼滤波器的状态变量Xk为:
Xk=[x,vx,y,vy]T (15)
其中,x、y分别表示第k帧观测结果的跟踪矩形框质心的横纵坐标,分别表示第k帧观测结果的跟踪矩形框的质心在x轴和y轴方向上的速度。
S242:采用模糊推理系统模型计算第二相似性度量中每一特征相似性度量的权重值。
其中,一个模糊推理系统包括n个输入变量x=[x1,x2,…,xn]T,且每一输入变量x的每一分量xi的模糊语言变量集合定义为:i=1,2,…,n。其中,是分量xi的第j个语言变量值,且为定义在论域的Ui一个模糊集合,其隶属度函数定义为其中,i=1,2,…,n;j=1,2,…,mi。
进一步,一个模糊推理系统还包括m个输出模糊变量y,每一输出模糊变量y的模糊语言变量集合定义为:其中,Bj(j=1,2,…,my)是所述输出模糊变量y的第j个语言变量值,且Bj(j=1,2,…,my)为定义在论域的Ui一个模糊集合,其隶属度函数定义为
进一步,该模糊推理系统的第i条模糊推理规则定义为:
其中,i=1,2,…,m,m为规则总数,且每条模糊推理规则的适用度定义为:
通过模糊推理系统可得到对于每条模糊规则的输出模糊集合的隶属度函数定义为:从而得到总的输出模糊集合,定义为:
采用加权平均清晰化方法,得到该模糊推理系统模型总输出,定义为:
其中,为隶属度函数取最大值时的点。
请参阅图8,进一步该步骤S242还包括如下子步骤:
S2421,计算模糊推理系统的输入变量。
模糊推理系统的输入为当前视频帧各特征的相似性度量,其输出为对应的各特征的权重{αk}k∈{A,M,S,D},其中,特征k可以为包括但不限于外观特征相似性度量、几何形状特征相似性度量及运动特征相似性度量。作为一个多输入多输出的模糊控制器,控制规则复杂,计算量庞大,为降低计算量,减少控制规则,对此控制器进行简化。由于每个特征的权重值取决于该特征的相似性度量和其余特征相似性度量的相对大小,因此可以分别将每个特征的相似性度量与其余所有特征相似性度量的均值作为模糊输入,来确定该特征的权重值。因此,该模糊控制器可以简化为四个二维模糊控制器。
在本发明的一应用场景中,以运动特征相似性度量为第一模糊输入变量,其余3个特征的相似度量均值为第二模糊输入变量,且其余3个特征的相似度量均值的计算可定义为:
将分别作为模糊逻辑系统的第一及第二模糊输入变量。其中,ei为特征i的相似性度量,为t-1时刻的特征k的融合系数,fM(i,j)运动特征相似性度量,为余3个特征相似性度量的加权均值。
S2422,采用所模糊推理系统的推理规则得到第二相似性度量中每一特征相似性度量的权重值。
请参阅图9,图9为本发明模糊输入变量fk(i,j)、的隶属度函数示意图。其中,在二维模糊控制器中,将输入变量fk(i,j)和模糊化为{Zo、PS、PM、PL、PE},各模糊语言含义为:Zo(零)、PS(正小)、PM(正中)、PL(正大)、PE(极大),输入变量fk(i,j)和的隶属度函数可以参见图9。
请参阅图10,图10为本发明输出模糊变量αk的隶属度函数示意图。对于输出模糊变量αk模糊化为{VL、L、M、H、VH、EH},各模糊语言含义为:VL(非常小)、L(小)、M(中)、H(高)、VH(非常高)以及EH(极高)输出变量αk的隶属度函数可以参见图4。
进一步,如表1所示,表1为该模糊推理系统的输入和输出变量的模糊规则表,可以看出随着特征k的相似性度量fk(i,j)的增大和其余特性相似性度量均值fk(i,j)的减小,输出的融合权重值越大,反之越小。从而对跟踪期间赋予可靠的特征信息较大的权重值,相反,赋予不可靠的特征信息较小的权重值。
表1
请一并参阅图11,图11为本发明多特征线索融合的结构示意图。参见图11,本实施例中,以运动特征相似性度量fM(i,j)为第一模糊输入变量,以外观特征相似性度量、空间距离特征相似性度量以及几何形状特征相似性度量的均值为第二模糊输入变量,来确定该运动特征相似性度量的特征权重值αM。同理,以外观特征相似性度量fS(i,j)为第一模糊输入变量,以运动特征相似性度量、空间距离特征相似性度量以及几何形状特征相似性度量的均值fS(i,j)为第二模糊输入变量,结合模糊推理规则,能够得到该外观特征相似性度量的特征权重值αS。进一步,空间距离特征相似性度量的特征权重值以及几何形状特征相似性度量的特征权重值αD及αA的计算方法,与上述的运动特征相似性度量的特征权重值的计算方法相似,本实施例中,按照上述方法依次算出个特征相似性度量的各特征权重值{αk}k∈{A,M,S,D},且详见上文描述,此处不再赘述。
本实施例中通过判断各个特征的可信程度,自适应给不同特征分配不同的权重值,很好地解决了在复杂背景、互相遮挡情况下的跟踪问题。
S2423,归一化每一特征相似性度量的权重值,以得到每一特征相似性度量的融合系数。
在得到上述所有特征相似度量的特征权重值后,将所有特征相似度量的特征权重值输出归一化,以得到当前时刻的各特征的融合系数,其定义为:
S243,对权重值和第二相似性度量进行多特征线索融合,以得到观测结果和预测结果之间的关联代价矩阵。
采用多特征线索融合对外观特征相似性度量、几何形状特征相似性度量、运动方向特征相似性度量以及空间距离特征相似性度量进行加权和融合,可以得到预测结果和观测结果之间的关联代价矩阵,定义为:
其中,{αk}k∈{A,M,S,D}为每一特征相似性度量的融合系数,且满足fk(i,j)k∈{A,M,S,D}为观测结果和预测结果之间的每一特征相似性度量。
S244,采用贪婪算法对关联代价矩阵进行优化求解,找出关联的观测结果和预测结果。
采用贪婪算法实现预测结果与观测结果之间的正确的关联,从而得到预测结果与观测结果之间的关联对。参阅图12,步骤S244进一步包括如下子步骤:
S2441,找出关联代价矩阵sij中未被标记的所有元素中的最大值。
找出关联代价矩阵sij中未被标记的所有元素中的最大值Spq=max([Sij]n*l),其中,p=1,2,3……n,q=1,2,3……l,并标记该关联代价矩阵S中该最大值spq所在的第p行及第q列的所有元素。
S2442,判断最大值是否为所在行列中的最大值,且满足大于第二阈值。
判断该最大值spq大是否为所在行和所在列中的最大值,即是否满足:spq≥{spj}j=1,2,…l、spq≥{siq}i=1,2,…,r。进一步判断该最大值spq是否大于第二阈值λ2,即预测结果p与观测结果q的关联概率是否大于第二阈值λ2,且该第二阈值的满足λ2∈[0.6,0.9]。
S2443,若大于,则观测结果和预测结果正确关联。
该最大值spq满足上述判定条件,则认为预测结果p与观测结果q和之间正确关联,则将该关联对记录进已关联预测结果和观测结果的集合中。进一步,若该关联代价矩阵Sij中还存在未被标记的行和列,则继续上述步骤S2441。
上述实施方式,通过判定当前视频帧中目标的预测结果之间发生遮挡,计算预测结果和观测结果之间的第二特征相似性度量,引入模糊推理系统,利用基于模糊逻辑的方法,根据当前跟踪环境自适应给不同特征信息分配不同的权重值,得到多属性特征的加权和融合,构成该帧目标的预测结果与观测结果的关联代价矩阵,再使用贪婪算法优化求解分配,能够有效提高多目标与观测之间的正确关联,对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性。
请参阅图13,图13为本发明视频多目标模糊数据关联方法第四实施例的流程图,是在本发明视频多目标模糊数据关联方法第一至三实施例的基础上,是对本发明视频多目标模糊数据关联方法第一至三实施例的进一步扩展,因此与本发明视频多目标模糊数据关联方法第一至三实施例中相同的步骤在此不再赘述。在上述实施例的基础上,本实施例进一步包括:
S5,对未被关联上的观测结果和未被关联上的预测结果进行第三数据关联。
在对当前视频帧场景中的全部目标的预测结果首先进行遮挡度判断,对预测结果与其它预测结果间均未发生遮挡的,将其与观测结果进行第一数据关联,以得到正确关联的预测结果和观测结果,并记录进已关联预测结果和观测结果的集合中。对预测结果与其他预测结果之间发生遮挡的,将其与观测结果进行第二数据关联,以得到正确的关联的预测结果和观测结果,并记录进已关联预测结果和观测结果的集合中。
对于上述经过第一数据关联和第二数据关联后仍未关联上的预测结果和观测结果,则本发明进一步对其采用第三数据关联,参阅图14,该步骤S5进一步包括如下子步骤:
S51,计算经过第一数据关联和第二数据关联之后的未被关联上的观测结果和所未被关联上的预测结果之间的遮挡度,得到两者之间的遮挡度矩阵。
对经过第一数据关联和第二数据关联之后的所有未被关联上的预测目标及观测结果按照第一实施例中的式(2)进行遮挡度计算,并进一步得到二者的遮挡度矩阵。
S52,使用贪婪算法求解遮挡度矩阵,找出关联的观测结果和预测结果。
步骤S52进一步包括如下子步骤:
S521,判断未被关联上的观测结果和未被关联上的预测结果之间的遮挡度是否大于第二遮挡判定阈值。
其中,第二遮挡判定阈值τ2满足τ2(τ2∈[0.4,0.6])。
S522,若大于遮第二遮挡判定阈值,则未被关联上的观测结果和未被关联上的预测结果之间关联。
若被关联上的观测结果和未被关联上的预测结果之间的遮挡度大于第二遮挡判定阈值τ2,则二者正确关联并记录进已关联的预测结果和观测结果的集合中。此外,对于小于第二遮挡判定阈值τ2的未被关联上的预测结果记录进未关联预测结果集合中。
S523,计算小于第二遮挡判定阈值的未被关联上的观测结果和当前视频帧中所有预测结果之间的遮挡度。
本步骤中,对于小于第二遮挡判定阈值的未被关联上的观测结果,将其与当前视频帧中所有的预测结果按照第一实施例中的式(2)进行遮挡度的计算。
S524,若遮挡度大于第三遮挡判定阈值,则未被关联上的观测结果为虚假观测。
判定该遮挡度是否大于第三遮挡判定阈值τ3,其中,该第三遮挡判定阈值τ3满足τ3(τ3∈[0.4,0.6])。若大于,则该观测结果为虚假观测,将其剔除。相反,若该遮挡度小于第三遮挡判定阈值τ3,则将该未被关联上的观测结果记录进未关联观测结果集合中。
S6,对经过第一数据关联、第二数据关联以及第三数据关联后仍未关联上的观测结果和预测结果进行轨迹管理。
对未被关联的观测结果和未被关联的预测结果进行轨迹管理,以建立临时目标轨迹、删除无效目标包括:对未被关联的观测结果,利用未被关联的观测结果与预测结果之间的遮挡度,获取未被关联的观测结果的判别函数,根据判别函数判断是否为未被关联的观测结果建立临时目标轨迹,对未被关联的预测结果,若未被关联的预测结果对应的目标连续K帧未被关联,则判断目标无效并删除无效目标,K为大于1的整数。
其中,未被关联的观测结果的集合为Ω={z1,...,zm},目标的预测结果的集合为O={o1,...,ol};利用未被关联的观测结果与预测结果之间的遮挡度,获取未被关联的观测结果的判别函数包括:按照式(2)获取未被关联的观测结果z∈Ω与目标预测结果o∈O之间的遮挡度,并获取每个未被关联的观测结果z∈Ω的判别函数:
其中γ为常量参数,且0<γ<1;
根据判别函数判断是否为未被关联的观测结果建立临时目标轨迹包括:对每个未被关联的观测结果,若其判别函数为1,则为未被关联的观测结果建立临时目标轨迹,若其判别函数为0则不建立。
其中,对所有有效目标轨迹和临时目标轨迹进行滤波以得到当前视频帧的目标状态的集合,并利用当前视频帧的目标状态的集合进行预测包括:使用卡尔曼滤波器对有效目标轨迹和临时目标轨迹进行滤波和预测。
上述实施方式,通过判定当前视频帧中目标的预测结果之间是否发生遮挡,针对不同的遮挡情况,分别计算预测结果和观测结果进行第一及第二数据关联,在进行第一及第二数据关联后,对仍未被关联上的预测结果和观测结果进行第三数据关联,能够有效提高多目标与观测之间的正确关联,对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性。
下面为使用本发明视频多目标模糊数据关联方法一实施例进行实验验证比较的结果,本实施例是本发明第一至第四实施例的结合,且本实施例中分别使用2个公开的PETS2009数据集和TownCentre数据集进行验证。
1)数据集介绍
本实施例中的PETS2009数据集是使用固定在一个室外场景的摄像机从不同视角采集得到的,在场景中包含着大量的行人进入或者退出场景,由于受到光照条件变化和阴影的影响,行人的外观会随着时间发生动态变化。而且视频中的多个行人之间还存在频繁的近距离交互行为(例如并肩行走,停留交谈、握手等),从单一视角上看,行人还经常被场景中的一个交通灯所遮挡,即行人之间也存在相互遮挡的情况。本实施例中提出的多目标跟踪算法实验所采用的是该数据集的部分数据,如场景行人较为分散的情况—S2L1以及场景行人比较拥挤的情况—S2L2,且上述的两个视频序列也经常被用于视频分析的实验中。
本实施例中所采用的测试视频序列的相关信息如表2所示。
表2
进一步,TownCentre数据集使用固定在一个城镇的繁华街道上的高清摄像机采集得到的,在场景中大量的行人沿着街道两边和中间道路行走,在视频图像序列中的多个行人之间距离非常接近,行人与左边的橱窗内的人体模型较为相似且在经过玻璃橱窗时还会留下阴影。此外,人群中还存在很多衣服颜色很相似的行人,外观相似度很高,容易造成多目标跟踪过程中目标标签转换现象,行人之间的遮挡也很严重,跟踪难度很大。
2)实验对比算法
本实施例中,选用目前性能最优的两种算法与本实施例中的算法进行比较:
1.基于判别性表观模型学习和轨迹置信度的视频多目标在线跟踪算法(TC_ODAL)。
在该算法提出了基于轨迹可检测性和连续性的轨迹置信度,对于高置信度的轨迹与在线检测响应进行局部关联,而低置信度的轨迹片段与其他原有轨迹和检测响应进行全局关联,为了能使轨迹的表观特性更具区别性,其采用了一种基于增量线性判别分析算法,将轨迹的表观模型投影到判别性投影空间中。
2.基于自我监督表观模型学习的关联跟踪算法(ALExTRAC)。在该算法中提出了一种自我监督的方法去学习在视频序列中关联目标与观测,其通过学习一个外观相似性模型来估计数据关联的代价值,并在滑动窗口内收集外观显著变化的样本集用于强化相似性模型。
3)实验运行性能
本发明中的算法在CPU为Intel Core i5,3.10GHz和内存为4GB的PC机上进行Matlab仿真实现。本发明提出的基于模糊逻辑的视频多目标跟踪算法与对比算法的平均处理速度如表3所示。本发明提出的算法的运行速度与场景中的目标数量及视频片段的帧数有较大的关系。对于行人密度较低的PETS2009-S2L1视频序列,算法平均速度为1.8f/s,而对于行人密度很大的PETS2009-S2L2视频序列,算法平均速度为0.8f/s,而对于高频率遮挡的TownCentre视频序列,算法平均速度为0.7f/s。本发明提出的算法处理速度主要的损耗在于目标的预测结果外观模型的构建,多属性特征相似性的计算,对于目标的观测结果与观测结果的关联代价需要进行三次模糊系统推理过程。详见表3为本发明基于模糊逻辑的视频多目标跟踪算法与对比算法的平均处理速度。
表3
4)跟踪性能比较
表3给出了本发明算法与上述的两个多目标跟踪算法在视频序列PETS2009.S2L1上的平均性能比较。为了保证比较的公平性,本发明采用TC_ODAL算法和ALExTRAC算法都相同的目标检测结果和真实位置数据,并使用相同的评估代码计算性能指标。进一步请参阅表4,表4为本发明视频序列PETS2009.S2L1上的测试结果,如下:
表4
从表4可以看出,本发明所提出的MOT_FL算法在多目标跟踪准确度(MOTA)这一性能指标上分别高于TC_ODAL算法和ALExTRAC算法接近5%、20%,这说明提出的模糊数据关联方法能够有效地处理检测结果中存在的噪声。然而在多目标跟踪精确度(MOTP)和轨迹中断次数(FG)这两项性能指标上表现的略差,这表明本申请提出方法的跟踪结果与真实目标存在一定的偏差,主要是因为视频序列中的大多数目标不满足简单的匀速运动模型,因此由Kalman滤波后的目标状态的精度比较低。与TC_ODAL算法和ALExTRAC算法相比,本发明方法明显减少了漏检(F.Neg),同时在绝大多数正确跟踪的轨迹数目(MT)和绝大多数错误跟踪的轨迹数目(ML)这两项指标上略优于对比算法,则表明本发明提出的算法能实现对多个目标的准确跟踪。
在本发明一具体的应用场景中,本发明视频多目标模糊数据关联算法应用在比较拥堵的视频序列PETS2009.S2L2上,并与上述两种多目标跟踪算法的平均性能进行了对比,请参见表5,表5为本发明视频序列PETS2009.S2L2上的测试结果,如下:
表5
由表5所得的数据可知,与TC_ODAL算法和ALExTRAC算法相比,本申请所提出的基于模糊逻辑的视频多目标跟踪算法大幅度减少了漏检(F.Neg)以及目标身份交换次数(IDS),表示整体性能的多目标跟踪准确度(MOTA)分数的显著性提升。这表明模糊数据关联的框架的有效地实现了目标与检测响应的数据关联。本申请算法在绝大多数正确跟踪的轨迹数目(MT)和绝大多数错误跟踪的轨迹数目(ML)这两项指标上优于TC_ODAL算法和ALExTRAC算法,且进一步表明本申请提出的视频多目标模糊数据关联算法能提供更加完整的目标轨迹。
为了进一步验证本申请视频多目标模糊数据关联算法的有效性,本申请在行人间容易出现频繁动态遮挡情况的视频序列TownCentre上进行了试验,与其他两种多目标跟踪算法的对比实验结果如表6所示,表6为视频序列TownCentre上的测试结果,具体如下:
表6
从表6可以看出,本申请中所提出的视频多目标模糊数据关联算法在多目标跟踪准确度(MOTA)这一性能指标上分别高于TC_ODAL算法和ALExTRAC算法,这说明提出的方法能够有效地处理检测结果中存在的噪声。同时,在绝大多数正确跟踪的轨迹数目(MT)和绝大多数错误跟踪的轨迹数目(ML)这两项指标上略优于对比算法,则表明本申请提出的算法能实现对多个目标的准确跟踪,而且能提供更加完整的目标轨迹输出。这归功于基于模糊逻辑的数据关联的有效性。而在目标身份交换次数(IDS)上要优于ALExTRAC算法但差于TC_ODAL算法。由于本文MOT_FL算法假设为每一个目标运动为匀速运动,但由于目标的非线性运动状态的突变,MOT_FL算法无法准确的对这种情况进行准确估计与预测,其在轨迹中断次数(FG)这一指标上要差于TC_ODAL算法和ALExTRAC算法。
如图16所示,图16为本发明视频多目标模糊数据关联装置第一实施例的结构示意图,包括:
检测模块11,用于对当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果。
计算模块12,用于计算当前视频帧中不同目标的预测结果之间的遮挡度,其中预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的。
判断模块13,用于根据遮挡度分别判断每一预测结果与其他预测结果之间是否发生遮挡。
数据关联模块14,用于若预测结果与任何其他预测结果之间均未发生遮挡,则对预测结果和观测结果进行第一数据关联;若预测结果与其他预测结果之间发生遮挡,则对预测结果和观测结果进行第二数据关联,其中,第一数据关联和第二数据关联不同。
如图17所示,图17为本发明视频多目标模糊数据关联装置第二实施例的结构示意图,包括:处理器110和摄像机120。
其中,摄像机120可以为本地摄像机,处理器110通过总线连接摄像机120;摄像机120也可以为远程摄像机,处理器110通过局域网或互联网连接摄像机120。
处理器110控制视频多目标模糊数据关联装置的操作,处理器110还可以称为CPU(Central Processing Unit,中央处理单元)。处理器110可能是一种集成电路芯片,具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
视频多目标模糊数据关联装置可以进一步包括存储器(图中未画出),存储器用于存储处理器110工作所必需的指令及数据,也可以存储传输器120拍摄的视频数据。
处理器110用于对从摄像机120获取的当前视频帧进行在线目标运动检测,检测得到的可能运动对象作为观测结果;计算当前视频帧中不同目标的预测结果之间的遮挡度,其中预测结果是至少利用前一视频帧的目标的轨迹进行预测而得到的;根据遮挡度分别判断每一预测结果与其他预测结果之间是否发生遮挡;若预测结果与任何其他预测结果之间均未发生遮挡,则对预测结果和观测结果进行第一数据关联;若预测结果与其他预测结果之间发生遮挡,则对预测结果和观测结果进行第二数据关联,其中,第一数据关联和第一数据关联不同。
本发明视频多目标模糊数据关联装置包括的各部分的功能可参考本发明在线目标跟踪方法各对应实施例中的描述,在此不再赘述。
综上所述,本领域技术人员容易理解,本发明提供一种视频多目标模糊数据关联方法及装置,通过判定当前视频帧中目标的预测结果之间是否发生遮挡,针对不同的遮挡情况,分别计算预测结果和观测结果进行第一及第二数据关联,在进行第一及第二数据关联后,对仍未被关联上的预测结果和观测结果进行第三数据关联,能够有效提高多目标与观测之间的正确关联,对表观相似、频繁交互、遮挡以及背景干扰等情况下的多目标进行准确跟踪,具有较强的鲁棒性和准确性。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。