CN112927263B

CN112927263B - 一种基于互补几何模型与相似度矩阵的运动分割方法

Info

Publication number: CN112927263B
Application number: CN202110445836.2A
Authority: CN
Inventors: 杨敏; 吴骁伦; 谈晶圩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-08-02
Anticipated expiration: 2041-04-25
Also published as: CN112927263A

Abstract

本发明公开了一种基于互补几何模型与相似度矩阵的运动分割方法，首先对视频序列进行假设估计，分别拟合仿射矩阵，基本矩阵与单应性矩阵模型的假设估计；然后用有序残差核算法计算相关性；接着采用累加方法获得相似度矩阵；最后通过谱聚类得到聚类结果；本发明公开的运动分割方法在更普遍的视频序列数据集上可以得到更好的准确率，相比于现有技术中的运动分割方法有更强的普适性。

Description

一种基于互补几何模型与相似度矩阵的运动分割方法

技术领域

本发明涉及图像处理技术领域，主要涉及一种基于互补几何模型与相似度矩阵的运动分割方法。

背景技术

运动分割是计算机视觉中最重要的研究领域之一，在机器人技术的许多应用中是一项重要的预处理任务。它已被用作预处理步骤的许多应用在智能交通系统，如视觉监控，动作识别，场景理解。根据不同的运动模式认知和分离不同的运动物体(如移动的车辆或移动的人)，其中每个移动的物体被识别为一个连贯的实体。

描述这个问题的经典方法如下:给定一组特征点，通过一系列图像跟踪，目标是根据它们所属的不同运动将这些轨迹聚类。假设场景中包含多个物体，它们在三维空间中独立地移动。

传统的运动分割方法或多或少都会存在一些问题比如处理高维数据时计算复杂，实时性差，抗噪。声能力差，无法兼容相机运动等等。最近提出了许多运动分割方法，他们中的许多人已经在一些流行的测试数据集上展示了出色的性能，例如Hopkins155数据集。

运动分割方法可以分为基于两帧和基于多帧的方法。后者由于能够从视频序列的所有帧提取运动信息以进行精确的运动分割，所以现在大多算法都运用多帧的方法。一般大致将以前的基于多帧的运动分割方法分为两类:基于子空间的方法和基于相似度矩阵的方法。基于子空间的方法利用视频序列的所有特征点轨迹构造数据矩阵，对不同的运动进行聚类。另一方面，基于相似度的方法基于特征点轨迹对之间的相似度构造的相似度矩阵来分割不同的运动。

发明内容

发明目的：现有技术中的运动分割算法大多是针对hopkins155数据集来进行设计的，如果这些算法运用到别的数据集上，就会发现它们的准确率并不理想，所以为了解决这一问题，本发明提出了一种基于互补几何模型与相似度矩阵的运动分割方法，此方法旨在解决在更普遍的视频序列数据集上得到更好的准确率的问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于互补几何模型与相似度矩阵的运动分割方法，包括以下步骤：

步骤S1、对视频序列进行假设估计；获取特征点的观测值，随机抽取一对帧中可见的点，分别用于拟合仿射矩阵、基本矩阵和单应性矩阵的假设估计，获取三种模型矩阵的假设值；具体地，

将特征点的观测值设定为x，用

表示为第f对连续帧中的特征集，其中N代表被跟踪特征点的个数，f∈[1,F-1]，F为视频帧数；预设定义模型的各个参数，随机抽取若干个假设，用θ＝{θ₁，θ₂…θ_S}表示使用随机采样从第f对连续帧生成的假定假设集；

步骤S2、采用有序残差核算法计算各个轨迹之间的相关性；具体地；

步骤S2.1、对于每个特征点计算绝对残差；用

表示第f对的连续帧的观测值与第s个假设值进行的残差运算，即第p个特征点的绝对残差；具体计算如下：

其中

表示第p个特征点第f帧的观测值，则绝对残差

表示如下：

对绝对残差

进行非降序排列，获取残差指标

所述残差指标

描述了当内围的阈值从0到无穷大的时，

成为假设的顺序，表示如下：

步骤S2.2、用

表示

的第h个元素，用

表示第f对连续帧中

与

的相似度，则

表示如下：

其中

表示为

与

中相同的元素的个数；当由于出现遮挡，其中一个特征点丢失时，

步骤S3、用累加相关性方法获取相似矩阵如下：

其中zf(i)表示特征点轨迹i的第f对连续帧的对应索引；zf(j)表示特征点轨迹j的第f对连续帧的对应索引；D_i，j为N×N的相似度矩阵，表示特征点轨迹i在整个视频序列中与特征点轨迹j的相关程度；

步骤S4、通过谱聚类获取聚类结果；

根据步骤S3所述相似矩阵D，求取度矩阵M如下：

即相似矩阵D的每一行元素之和；

计算拉普拉斯矩阵，标准的对称拉普拉斯矩阵如下：

L＝M^-1/2DM^1/2

采用如下特征公式进行特征求解：

mintr(U^TLU)，s.t.UU^T＝I

其中tr(*)表示迹运算；

计算L的特征值，将特征值从小到大排序，取前k个特征值，并计算前k个特征值的特征向量u₁,u₂,…,u_k，所述k个特征向量组成矩阵U＝{u₁,u₂,…,u_k}；再使用k-means算法进行聚类，最后得到聚类结果。

有益效果：

本发明提供的基于互补几何模型与相似度矩阵的运动分割方法，相比于传统运动分割方法在除hopkins155数据集外拥有更高的的准确率，可以解决在更普遍的视频序列数据集上得到更好的准确率的问题。

附图说明

图1是本发明提供的基于互补几何模型与相似度矩阵的运动分割方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义，还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示的一种基于互补几何模型与相似度矩阵的运动分割方法，包括以下步骤：

步骤S1、对视频序列进行假设估计；获取特征点的观测值，随机抽取一对帧中可见的点，分别用于拟合仿射矩阵、基本矩阵和单应性矩阵的假设估计，获取三种模型矩阵的假设值。具体地，

将特征点的观测值设定为x，用

表示为第f对连续帧中的特征集，其中N代表被跟踪特征点的个数，f∈[1,F-1]，F为视频帧数；预设定义模型的各个参数，这里将模型的参数个数定义为a。随机抽取若干个假设，用θ＝{θ₁，θ₂…θ_S}表示使用随机采样从第f对连续帧生成的假定假设集。

由直接线性变换可知单应变换的部分可见H的未知量为8，需要至少四对已知的对应点，即在一对帧中抽取4个点。由于模型是四维空间，所以上面的a＝4。同样地得出基本矩阵与反射矩阵的参数分别是8与3。假设值是通过使用直接线性变换从四个不丢失特征对应的最小子集中估计出来的，并随机抽取S个假设，用θ＝{θ₁，θ₂…θ_S}表示使用随机采样从第f对连续帧生成的假定假设集。

步骤S2、采用有序残差核算法计算各个轨迹之间的相关性；由于有序残差核(ORK)对严重的采样不平衡有很强的适应能力，所以用有序残差核来处理各种各样的场景是一个重要的优势。具体地；

步骤S2.1、对于每个特征点计算绝对残差；用

其中

表示第p个特征点的第f帧的观测值，则绝对残差

表示如下：

对绝对残差

进行非降序排列，获取残差指标

所述残差指标

描述了当内围的阈值从0到无穷大的时，

成为假设的顺序，表示如下：

步骤S2.2、用

表示

的第h个元素，用

表示第f对连续帧中

与

的相似度，则

表示如下：

其中

表示为

与

中相同的元素的个数；如果p点与q点来自于同一种运动，那

就应该偏大，反之则偏小。在

的定义中前面乘以1/h，由此可以保证

的值在0到1之间，即：

如果由于遮挡问题其中一个特征点被丢失，那么

则直接被设定为0。一方面，缺失的数据对p点和q点特征的相关性没有起到作用。另一方面，累积若干对连续帧的相关性就足以构造相似度矩阵。ORK方法对于严重的采样不平衡很有稳定性，而且对于很多输入数据的错误操作与一些异常值都具备很强的鲁棒性，这在很多有遮挡的场景中是一个重要的优势。接下来就需要通过累加相关性的方式来进一步的减少遮挡问题的影响。

步骤S3、用累加相关性方法获取相似矩阵。

虽然已经对在f帧连个特征点中的相关性进行了计算，不过上面得到的

还有很大的局限性，如果有遮挡问题或者输入的数据本身就存在着问题，而且数据的预处理操作也有可能发生失误，所以只进行上面的相关性去进行聚类，肯定是不够的。为了解决这一问题，本发明进一步提出通过累加相关性的方式构造相似度矩阵的方法，即：

其中zf(i)表示特征点轨迹i的第f对连续帧的对应索引；zf(j)表示特征点轨迹j的第f对连续帧的对应索引；D_i，j为N×N的相似度矩阵，表示特征点轨迹i在整个视频序列中与特征点轨迹j的相关程度。如果两个特征点轨迹来自同一运动，则它们之间的相关性在累积后会相对放大，相反如果它们不属于用一种运动，那么它们之间的相关性也会显得很小。所以这一步累加的方法进一步地凸显了轨迹之间的相似度，这对于有目标缺失的场景很有帮助。在2.3中提到如果由于遮挡问题其中一个特征点被丢失，那么

则直接被设定为0。一个视频序列中不可能所有的帧里都会出现遮挡问题，所以用这种方法可以有效地避免错误，甚至是在存在一些错误的操作或错误的数据的情况下，用累加的方法也能有效地避免一些问题。

通过单应性计算，加上假设估计的方法，以及有序残差核的使用，已经成功地计算出轨迹之间的相关性

本步骤中通过累加的方法构造了轨迹之间的相似度矩阵D，在这个情况下，就可以用传统的谱聚类的方法对相似度矩阵进行处理，并得出最后的聚类结果。

步骤S4、通过谱聚类获取聚类结果。

谱聚类是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

根据步骤S3所述相似矩阵D，求取度矩阵M如下：

即相似矩阵D的每一行元素之和。

再计算拉普拉斯矩阵，标准的对称拉普拉斯矩阵如下：

L＝M^-1/2DM^1/2

采用如下特征公式进行特征求解：

mintr(U^TLU)，s.t.UU^T＝I

其中tr(*)表示迹运算；

计算L的特征值，将特征值从小到大排序，取前k个特征值，并计算前k个特征值的特征向量u₁,u₂,…,u_k，所述k个特征向量组成矩阵U＝{u₁,u₂,…,u_k}，再使用k-means算法进行聚类，最后得到聚类结果。

如下表1-3所示分别为本发明所示运动分割方法与传统现有技术在三种数据集上的效果对比：

表1在hopkins155数据集上的实验结果

表2在62-clips数据集上的实验结果

表3在KITTI数据集上的实验结果

其中，本发明中的模型用OURS代替，评价标准为错误率(聚类错误的运动物体占总运动物体的比例)。表1中，2motions表示包含两个运动物体的数据集，3motions表示包含三个运动物体的数据集，All表示上面以上两个数据集的总和。可以看出本发明的模型在hopkins155数据集中均表现优异。表2中，12clips表示12个有数据缺失的视频序列，50clips均为正常视频，62clips是上两个的集合。可以看出，现有算法在12clips上表现不够好，而本文模型表现出色，说明很好地解决了遮挡问题。表3中average表示平均值，median表示中值。传统模型在应对KITTI这样的真实的大视角的数据集时，有将近1/3的数据被错误聚类，相比于传统分割方法，本发明提供的分割方法具备显著的竞争优势，所以本方法在解决遮挡问题与大视角数据集上表现优秀，具有一定的意义。

另外，由于在hopkins155数据集中，视频场景都比较小，用单应性矩阵去拟合是最合适的，这一点之前很多算法都有表现，本算法不仅融合了三种矩阵，能够在不同的数据集上扬长避短，而且启用了相似度矩阵和不用子空间的方法，这样在hopkins155数据集上能表现得更好。在62clips数据集里有12个被遮挡，有数据缺失的视频，如果有遮挡问题或者输入的数据本身就存在着问题，而且数据的预处理操作也有可能发生失误，所以只进行相似度的计算去进行聚类，肯定是不够的。为了解决这一问题，本发明进一步提出通过累加相关性的方式构造相似度矩阵的方法，在12clips上表现得很好。KITTI数据集中，视频场景视角都比hopkins155大很多，而且更具有真实性，本发明提出的互补集合模型很好地解决了这一问题。之前传统算法大多只在几种经典数据集上去进行算法设计，大多使用单应矩阵或仿射矩阵去拟合，而基本矩阵在处理大视角的视频序列是有着很好的表现，所以本专利很好地利用了这一点，在KITTI数据集上提高了准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。