CN108898614B

CN108898614B - 一种基于层次式时空区域合并的物体轨迹提议方法

Info

Publication number: CN108898614B
Application number: CN201810569130.5A
Authority: CN
Inventors: 任桐炜; 武港山; 孙旭; 王元天
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2022-06-21
Anticipated expiration: 2038-06-05
Also published as: CN108898614A

Abstract

一种基于层次式时空区域合并的物体轨迹提议方法，在视频上通过匹配相邻帧的层次式视频帧区域构建视频的层次式时空区域表示，然后通过合并层次式时空区域来产生候选物体轨迹，最后使用一种融合了外观似物性和运动似物性的综合评分机制对候选物体轨迹进行评分，将评分最高的若干个候选物体轨迹作为最终的物体轨迹提议结果。本发明方法融合了视频中物体的外观信息和运动信息，利用整个视频的时空特性来生产物体轨迹提议结果，取得了比现有方法更好的效果。

Description

一种基于层次式时空区域合并的物体轨迹提议方法

技术领域

本发明属于计算机视觉技术领域，涉及到针对视频的物体轨迹提议方法，具体为一种基于层次式时空区域合并的物体轨迹提议方法

背景技术

物体轨迹提议的目标是用有限数量的包围框序列来标识视频中可能包含物体的区域。这项技术作为计算机视觉领域的基础技术，可以广泛应用于面向视频的物体识别、运动识别、物体分割、内容检索等领域，是一个重要且新颖的研究方向。

现有的物体轨迹提议方法的基本策略是：在视频的一帧或若干帧上使用图像物体提议方法得到单个视频帧上可能包含物体的包围框，然后使用物体跟踪器在剩余的视频帧上对上述包围框进行跟踪，从而得到物体轨迹提议结果。也有部分方法对该策略进行了改进，如在物体轨迹提议中对计算复杂度进行控制等来提升效率，但对视频的物体轨迹提议的准确性效果改进不大。

图像物体提议中，物体的外观特征和位置都不会发生变化，现有的图像物体提议估计方法通过抽取图像中物体的外观特征，使用基于窗口评分或区域合并的策略已经可以达到比较好的效果。然而，在视频的物体轨迹提议中，由于视频中的物体位置会随着物体运动和镜头运动不断变化，且物体外观也会受物体运动、光照变化等因素影响而变化，以及视频处理固有的较高的计算复杂度，现有的视频物体轨迹提议方法在准确性和效率上仍有较大的提升空间。本发明所涉及的方法采用层次式时空区域来表示视频，并通过层次式时空区域的组合式合并来产生候选物体轨迹，充分融合了视频中物体的外观信息和运动信息来获取物体轨迹提议结果。

发明内容

本发明要解决的问题是：现有的物体轨迹提议方法主要还是依靠图像提议，再由图像推导视频，没有考虑到视频的变化特性，未能利用整个视频的时空特性来进行似物性估计，造成物体轨迹提议效果欠佳。对视频物体轨迹提议方法的相关研究仍然处于不成熟的阶段。

本发明的技术方案为：一种基于层次式时空区域合并的物体轨迹提议方法，在视频上通过匹配相邻帧的层次式视频帧区域构建视频的层次式时空区域表示，然后通过合并层次式时空区域来产生候选物体轨迹，最后使用多模态评分机制对候选物体轨迹进行评分，所述多模态评分机制由外观似物性评分和运动似物性评分组成，将评分最高的若干个候选物体轨迹作为最终的物体轨迹提议结果。

进一步的，本发明包括以下步骤：

1)通过匹配相邻帧的层次式视频帧区域构建视频的层次式时空区域表示：

1.1)在每个视频帧f上使用超分割轮廓图(ultrametric contour map)方法，将该视频帧分割为多个基本视频帧区域，作为层次式视频帧区域表示中的叶节点区域，叶节点区域构成的集合为L^f；迭代地合并相邻且相似的视频帧区域，视频帧区域包括叶节点区域和合并的视频帧区域，每一次合并得到一个新的视频帧区域，各个层次所有视频帧区域所构成的集合为层次式视频帧区域表示，记为H^f；

1.2)构造矩阵R^f用于表示层次式视频帧区域与叶节点区域之间的包含关系，R^f矩阵的大小为|H^f|×|L^f|；|·|表示集合中的元素个数；若第f帧视频的第i个层次式视频帧区域包含了第p个叶节点区域，则

等于1，否则

等于0；

1.3)在相邻视频帧之间进行光流估计，根据光流估计结果来匹配相邻视频帧的视频帧区域，连接相邻视频帧中匹配成功的视频帧区域构成层次式时空区域，由所述层次式时空区域得到视频的初始层次式时空区域集合S₀；

1.4)采用物体跟踪器尝试连接集合S₀中任意满足以下条件的层次式时空区域对{a_m，a_n}：

1.4.a)a_m和a_n的长度不小于预先设定帧数；

1.4.b)a_m的起始帧

在a_n终止帧

之后的一定范围之内；

连接方法如下：使用物体跟踪器在视频帧

与

之间跟踪a_n在

上的视频帧区域的包围框b_n，若b_n在

上的跟踪结果b′_n与a_m在

上的视频帧区域包围框b_m的交并比大于设定阈值，则将a_m与a_n连接为同一个层次式时空区域；上述操作完成后，得到新的第一层次式时空区域集合S₁；

2)通过层次式时空区域的组合式合并获得候选物体轨迹：

2.1)从视频的第一层次式时空区域集合S₁中移除长度小于设定阈值的层次式时空区域，得到第二层次式时空区域集合S₂；

2.2)为集合S₂中的每一个层次式时空区域计算边缘连通度，移除集合S₂中边缘连通度高于设定阈值的层次式时空区域，得到第三层次式时空区域集合S₃；

2.3)将集合S₃中相邻度超过设定阈值的层次式时空区域进行组合式合并，得到候选物体轨迹集合V：

V＝∪ V_k，k＝1，2，3，4，

其中，V₁表示任意一个层次式时空区域组成的候选物体轨迹集合；当k＝2，3，4时，V_k表示任意k个相邻的层次式时空区域组成的候选物体轨迹集合；

3)融合外观似物性和运动似物性对候选物体轨迹进行评分，并将评分高的候选物体轨迹作为物体轨迹提议结果：

3.1)为每一个候选物体轨迹t_r计算外观评分：

其中，y^A(·)表示外观似物性评分；f₁和f_K表示t_r出现的第一帧和最后一帧；

表示t_r在第f帧的层次式视频帧区域组合；||t_r||表示候选物体轨迹t_r的长度，即t_r出现的帧数；

3.2)为每一个候选物体轨迹t_r计算运动评分：

其中，y^M(·)表示运动似物性评分；f₁和f_K表示t_r出现的第一帧和最后一帧；

表示t_r在第f帧的层次式视频帧区域组合的平均运动强度；

表示第f帧的背景平均运动强度；

表示

的绝对值；

3.3)为每一个候选物体轨迹计算综合评分：

y(t_r)＝μ·y^A(t_r)+(1-μ)·y^M(t_r)，

其中，μ表示外观评分权重值，μ等于0.7；

3.4)对候选物体轨迹的综合评分进行排序，取评分最高的h个候选物体轨迹，提取候选物体轨迹在它出现的视频帧上的包围框作为物体轨迹提议的结果。

本发明与现有技术相比有如下优点：采用层次式时空区域来表示视频，通过带约束的组合式合并来产生构成复杂的候选物体轨迹，融合物体的外观似物性和运动似物性对候选物体轨迹评分，充分利用了视频中物体的外观信息和运动信息。相对于现有方法，本发明在控制计算复杂度的同时获得了更好的效果。图3展示了现有物体轨迹提议方法和本发明的比较结果，可见本发明的物体轨迹提议结果具有更高的平均轨迹交并比和召回率，利用整个视频的时空特性来生产物体轨迹提议结果，提升了物体轨迹提议的效果。

附图说明

图1为本发明的实施流程。

图2与本发明与现有物体轨迹提议方法结果的比较示例。

图3为本发明与现有物体轨迹提议方法在从ILSVRC2016-VID数据集中随机挑选的200个视频所构成的数据集上的比较结果。

具体实施方式

本发明提出了一种基于层次式时空区域合并的物体轨迹提议方法，如图1所示，包括以下步骤：

1.1)在每个视频帧f上使用超分割轮廓图(ultrametric contour map)方法，将该视频帧分割为多个基本视频帧区域，作为层次式视频帧区域表示中的叶节点区域，叶节点区域构成的集合为L^f，其中，视频帧区域就是指视频帧上分割出的区域，超分割轮廓图方法分割结果为小的区域，也即叶节点区域，具体参见参考文献[2]。迭代地合并相邻且相似的视频帧区域，这里的视频帧区域包括叶节点区域和合并得到的视频帧区域，每一次合并得到一个新的视频帧区域，这里合并是逐步进行的，每次只合并当前所有视频帧区域中相邻且相似的两个视频帧区域，此时视频帧区域可以是超分割轮廓图分割的最底层的叶节点区域，也可以是合并形成的更大的区域，各个层次所有视频帧区域所构成的集合即为层次式视频帧区域表示，记为H^f。“层次式视频帧区域表示”是指各个层次的视频帧区域的集合，单个的也可表述为“视频帧区域”。

1.2)层次式视频帧区域中各个区域是由叶节点区域逐步合并得来的，存在包含关系，构造矩阵R^f用于表示层次式视频帧区域与叶节点区域之间的包含关系，R^f矩阵的大小为|H^f|×|L^f|；|·|表示集合中的元素个数；若第f帧视频的第i个层次式视频帧区域包含了第p个叶节点区域，则

等于1，否则

等于0。

具体为：

1.3.a)计算每个视频帧的光流，构建相邻视频帧之间的像素映射关系，进而构建相邻视频帧之间叶节点区域的匹配关系矩阵Z^f→f+1：

其中，

表示第f帧的第p个叶节点区域映射到第f+1帧的第q个叶节点区域的像素个数；

表示第f+1帧的一个像素子集，是第f帧的第p个叶节点区域中的像素根据光流映射后在第f+1帧上所对应的像素集合；

表示第f+1帧的第q个叶节点区域包含的像素集合；|·|表示集合中的元素个数；同理得到Z^f+1→f；

1.3.b)计算相邻视频帧的层次式视频帧区域的匹配关系矩阵X^f→f+1：

X^f→f+1＝R^fZ^f→f+1(R^f+1)^T，

其中，矩阵元素

表示第f帧的第i个层次式视频帧区域映射到第f+1帧的第j个层次式视频帧区域的像素个数；同理得到X^f+1→f；

1.3.c)将矩阵X^f→f+1归一化：

其中，

表示第f帧的第i个层次式视频帧区域映射到第f+1帧的第j个层次式视频帧区域的像素个数占第f帧的第i个层次式视频帧区域的像素总数的比例，

表示第f帧的第i个层次式视频帧区域所包含的像素集合，|·|表示集合中的元素个数；同理得到Ω^f+1→f；

1.3.d)若

和

均大于设定的阈值(例如0.5)，则认为第f帧的第i个层次式视频帧区域与第f+1帧的第j个层次式视频帧区域匹配成功，相邻帧匹配成功的层次式视频帧区域组成的序列就构成了时空区域，由此将视频表示为初始层次式时空区域集合S₀。

1.4.a)a_m和a_n的长度不小于预先设定帧数，例如10帧；

1.4.b)a_m的起始帧

在a_n终止帧

之后的一定范围之内，例如4帧以内；

连接方法如下：使用物体跟踪器在视频帧

与

之间跟踪a_n在

上的视频帧区域的包围框b_n，若b_n在

上的跟踪结果b′_n与a_m在

上的视频帧区域包围框b_m的交并比大于设定阈值，则将a_m与a_n连接为同一个层次式时空区域；上述操作完成后，得到新的第一层次式时空区域集合S₁。

2)通过层次式时空区域的组合式合并获得候选物体轨迹：

2.1)由于物体轨迹提议只关注在视频中持续出现一定时间的物体，长度过短的时空区域对产生候选物体轨迹没有贡献，将其过滤掉有助于减少时空区域的数量和降低时空区域合并的计算复杂度。因此，从视频的第一层次式时空区域集合S₁中移除长度小于设定阈值的层次式时空区域，例如移除长度小于20帧的层次式时空区域，得到第二层次式时空区域集合S₂。

2.2)仅包含背景的时空区域通常具有较长的长度，无法通过长度过滤；且这些时空区域通常与包含物体的时空区域相邻，将其过滤掉可以避免误导时空区域合并。因此，为集合S₂中的每一个层次式时空区域计算边缘连通度，移除S₂中边缘连通度高于设定阈值的层次式时空区域，例如移除边缘连通性高于0.9的层次式时空区域，得到第三层次式时空区域集合S₃。

边缘连通度的计算方法为：

其中，a_m表示层次式时空区域，可以表示为层次式视频帧区域序列

||a_m||表示a_m的长度；

表示a_m在第f_l帧的层次式视频帧区域，

是一个像素集合；

是

在视频帧边缘上的像素集合；|·|表示集合中的元素个数；

表示

的边缘连通度；U(a_m)表示时空区域a_m的边缘连通度；阈值γ等于1。

2.3)将S₃中相邻度超过设定阈值的层次式时空区域进行组合式合并，本实施例中阈值设为0.3，得到候选物体轨迹集合V：

V＝∪ V_k，k＝1，2，3，4，

其中，V₁表示任意一个层次式时空区域组成的候选物体轨迹的集合；当k＝2，3，4时，V_k表示任意k个相邻的层次式时空区域组成的候选物体轨迹的集合；

相邻度的计算方法为：

2.3.a)为每个视频帧的层次式视频帧区域构造相邻关系矩阵：

E^f＝R^fG^f(R^f)^T，

其中，G^f表示一个|L^f|×|L^f|的对称矩阵，若第f帧的第p叶节点区域和第q个叶节点区域相邻，则

等于1，否则等于0；E^f表示大小为|H^f|×|H^f|的对称矩阵，若第f帧的第i个层次式视频帧区域和第j个层次式视频帧区域相邻或包含关系，则

等于1，否则等于0；

2.3.b)对于步骤2.2)得到的S3中的任意层次式时空区域对{a_m，a_n}，计算二者的相邻度：

其中，f₁和f_K表示a_m和a_n同时出现的第一帧和最后一帧；

和

分别表示层次式时空区域a_m和a_n在第f帧的层次式视频帧区域，根据2.3.a)中的层次式视频帧区域相邻关系矩阵E^f，若

和

是相邻或包含关系，则

等于1，否则等于0。

3.1)为每一个候选物体轨迹t_r计算外观评分：

表示t_r在第f帧的层次式视频帧区域组合；||t_r||表示候选物体轨迹t_r的长度，即t_r出现的帧数。

3.2)为每一个候选物体轨迹t_r计算运动评分：

表示t_r在第f帧的层次式视频帧区域组合的平均运动强度；

表示第f帧的背景平均运动强度；

表示

的绝对值。

3.3)为每一个候选物体轨迹计算综合评分：

y(t_r)＝μ·y^A(t_r)+(1-μ)·y^M(t_r)，

其中，μ表示外观评分权重值，μ等于0.7。

本发明实施在从ILSVRC2016-VID数据集中随机挑选的200个视频所构成的数据集上，与现有的物体轨迹提议方法进行了比较。图2所示为本方法得到的结果和其他方法结果的比较示例，白色的包围框为人工标注框，黑色的包围框为物体轨迹提议结果，其中图2中的(f)为本方法的结果。参与比较的代表性方法如图2中的(a)-(e)所示，依次为：在视频的中间帧采用multi-scale combinatorial grouping方法(MCG-参考文献2)进行图像物体提议后，对得到的包围框使用物体跟踪器(KCF-参考文献3)跟踪产生物体轨迹提议的基准方法(MCG*)；在视频中间帧使用edge boxes方法(参考文献4)进行图像物体提议后，对得到的包围框使用物体跟踪器(KCF-参考文献3)跟踪产生物体轨迹提议的基准方法(EB*)；freeobject discovery方法(FOD-参考文献5)；object trajectory proposal方法(OTP-参考文献6)；spatio-temporal object detection proposal方法(SODP-参考文献1)。图3中的(a)展示了物体轨迹提议结果数量与平均轨迹交并比的曲线，图3中的(b)展示了物体轨迹提议结果数量与召回率的曲线。表1为本发明方法与现有物体轨迹提议运行效率的比较结果。

表1

由图3可以发现，当返回500个物体轨迹提议结果时，在平均轨迹交并比和召回率上，本方法的效果明显优于其它方法。由此可见，本发明能够产生效果更好的物体轨迹提议结果。由表1可以发现，本发明方法虽稍慢于现有方法，但综合物体轨迹预测效果和时间开销，本发明方法优于现有的物体轨迹提议方法。

参考文献：

1.Dan,Oneata and Revaud,Jerome and Verbeek,Jakob and Schmid,Cordelia.Spatio-temporal Object Detection Proposals European Conference onComputer Vision.2014:737-752.

2.Pont-Tuset,Jordi,Pablo Andrés Arbeláez,Jonathan T.Barron,FerranMarqués and Jitendra Malik.Multiscale Combinatorial Grouping for ImageSegmentation and Object Proposal Generation.IEEE Transactions on PatternAnalysis and Machine Intelligence.2017:128-140.

3.

F.Henriques,Caseiro Rui,Pedro Martins,and Jorge Batista.High-Speed Tracking with Kernelized Correlation Filters.IEEE Transactions onPattern Analysis and Machine Intelligence.2015:583–596.

4.Zitnick,C.Lawrence and Dollár,Piotr.Edge Boxes:Locating ObjectProposals from Edges.European Conference on Computer Vision.2014:391-405.

5.Cuffaro,Giovanni and Becattini,Federico and Baecchi,Claudio andSeidenari,Lorenzo and Bimbo,Alberto Del.Segmentation Free Object Discovery inVideo.European Conference on Computer Vision Workshop.2016:25-31.

6.Xindi Shang and Tongwei Ren and Hanwang Zhang and Gangshan Wu andTat-Seng Chua.Object Trajectory Proposal IEEE International Conference onMultimedia and Expo.2017:331-336.

Claims

1.一种基于层次式时空区域合并的物体轨迹提议方法，其特征是在视频上通过匹配相邻帧的层次式视频帧区域构建视频的层次式时空区域表示，使用超分割轮廓图方法将视频帧分割，视频帧区域就是指视频帧上分割出的区域，迭代地合并相邻且相似的视频帧区域，层次式视频帧区域表示是指各个层次的视频帧区域的集合，包括视频帧分割出的区域和相邻帧合并的视频帧区域；然后通过合并层次式时空区域来产生候选物体轨迹，最后使用多模态评分机制对候选物体轨迹进行评分，所述多模态评分机制由外观似物性评分和运动似物性评分组成，将评分最高的若干个候选物体轨迹作为最终的物体轨迹提议结果。

2.根据权利要求1所述的一种基于层次式时空区域合并的物体轨迹提议方法，其特征是包括以下步骤：

1.1)在每个视频帧f上使用超分割轮廓图方法，将该视频帧分割为多个基本视频帧区域，作为层次式视频帧区域表示中的叶节点区域，叶节点区域构成的集合为L^f；迭代地合并相邻且相似的视频帧区域，视频帧区域包括叶节点区域和合并的视频帧区域，每一次合并得到一个新的视频帧区域，各个层次所有视频帧区域所构成的集合为层次式视频帧区域表示，记为H^f；