CN111461257B

CN111461257B - 一种流形空间中多视点视频的共享-差异表示及聚类方法

Info

Publication number: CN111461257B
Application number: CN202010337201.6A
Authority: CN
Inventors: 张勇; 陈路飞; 王博岳; 罗萃萃; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2024-05-28
Anticipated expiration: 2040-04-24
Also published as: CN111461257A

Abstract

本发明公开了一种基于乘积Grassmann流形的多视点视频数据的共享‑差异表示(PGM‑CER)聚类分析方法，用于解决传统多视聚类方法无法将多视数据中的共享和差异信息分离开来、不适用于具有复杂非线性结构的多维数据的问题。本方法中，聚类过程分为三部分，首先，用乘积Grassmann流形来表示多视点视频，再将共享‑差异表示从欧氏空间扩展到乘积Grassmann流形空间；然后，建立PGM‑CER模型，在全局约束下学习其共享‑差异信息；最终，实现多视点视频聚类。直接求解流形上的优化问题比较困难，本方法通过流形空间与欧氏空间的映射求解最优解，简化了学习过程，效果显著优于其他经典多视聚类方法。

Description

一种流形空间中多视点视频的共享-差异表示及聚类方法

技术领域

本发明涉及计算机视觉和数据挖掘等领域，尤其是面向一种基于乘积Grassmann流形的多视点视频数据的共享-差异表示及聚类方法。

背景技术

受拍摄角度的限制，单个监控摄像机拍摄的单视点视频数据不可避免受到光照、遮挡等因素影响而降低聚类性能。近年来，随着监控摄像机的迅速普及，人体行为常常被多个摄像机同时从不同角度拍摄到，可以克服单视视频中光照变化和遮挡对聚类结果的影响。大多数多视聚类方法是通过融合多视数据或其对应的多视相似矩阵构造共享相似矩阵，忽略了不同视中的差异信息，事实上各视中的差异信息对提升聚类精度具有重要作用。此外，大多数多视聚类方法是面向多视向量数据设计的，很难处理具有非线性流形结构的多视视频数据。因此，面对这些体量大、变化多样的非线性多视视频数据，如何对其进行高效地表达，挖掘数据中的判别信息，是目前数据挖掘领域面临的最大挑战，这一问题的解决有赖于多视视频数据的流形表示及聚类方法的突破。

综上，多视聚类方法旨在从不同视中学习反映数据之间相似性的关系矩阵，大多数多视聚类方法主要存在三个缺点：(1)直接从多视原始数据或多视相似矩阵中构造共享相似矩阵，无法将多视数据中的共享和差异信息分离开来；(2)都是针对线性空间中的向量数据而设计的，并采用欧氏距离度量它们的相似性，不适用于具有复杂非线性结构的多维数据，例如多视视频和图像数据；(3)都是关注每幅图像的多个特征，但是多个摄像机从不同角度采集的多视角的视频数据却很少受到关注。

发明内容

为解决传统多视聚类方法存在的问题，本发明公开了一种基于乘积Grassmann流形的多视数据的共享-差异表示(PGM-CER)聚类分析方法。首先，用乘积流形来表示多视视频数据，再将共享-差异表示从欧氏空间扩展到乘积流形空间，在全局约束下学习其共享-差异信息，实现视频数据的聚类任务。直接求解流形上的优化问题比较困难，本方法通过流形空间与欧氏空间的映射求解最优解，简化了学习过程，效果显著优于其他经典多视聚类方法。

我们探索这些视频数据的非线性流形结构，将基于自表达的共享-差异表示学习方法引入乘积流形空间，构建抽象的乘积流形聚类框架。

针对由多个摄像机同时从不同角度拍摄的多视数据，首先采用乘积流形来将其表示为Grassmann点作为多视输入数据，然后用我们提出的PGM-CER方法对输入数据进行处理，学习多视角一致性矩阵C和视角差异性矩阵D^v，在探索所有视角共享性信息的同时也保证了每个视角的独特性信息得到有效利用，对C和D^v进行合并得到最终相似度矩阵W，对其执行谱聚类NCut操作，得到最终视频聚类结果，提高聚类精度和识别能力，流程图如图1所示。

有益效果

针对具有复杂非线性结构的多视点视频数据，本发明基于乘积流形在全局约束下同时学习多视数据的共享-差异信息，实现多视点视频聚类任务，实验证明本发明大大提升了聚类精度和识别能力。

附图说明

图1、本发明方法流程图。

图2中的(a)-(d)、不同数据集PGM-CER的聚集准确度(ACC)与参数λ₁和λ₁的关系。

图3中的(a)-(d)、不同数据集的PGM-CER收敛曲线，在每次迭代中终止准则的值是min(||Z-J||_∞)。

具体实施方式

本实施例选用ACT42数据集，用于说明本发明如何通过采用流形空间中多视点视频的共享-差异表示完成聚类，所述的ACT42数据集包含四台摄像机在不同视角下拍摄的视频，本实施例中共抽取14个对象的588张图像。

首先，对于来自V个视角的N个样本，采用乘积流形空间来集成多个Grassmann流形点表示多视视频作为输入数据，其中第v视角的所有Grassmann点用X^v表示，表示第v视角的第i个Grassmann点；

然后，建立从Grassmann流形嵌入到对称矩阵空间的映射，将所有视角Grassmann流形点的距离求和来表示乘积流形上的距离，其中两个乘积Grassmann点[X_i]、[X_j]之间的嵌入距离计算方法如下：

接着，采用多视聚类方法PGM-CER对输入数据进行处理，应用交替优化方法优化求解得到满足收敛条件的共享性矩阵和差异性矩阵,PGM-CER模型具体如下：

式中抽象占位符表示流行空间上的减法、求和以及乘法，/>测量Grassmann流形上的距离，||·||_p和||·||_q表示范数,我们用核范数来代替p和q，/>表示第v视图第i个Grassmann点的重构误差，C_ji和/>表示矩阵X和D^v的第j行的第i个元素。利用嵌入距离来表示这些抽象占位符,如下：

其中三阶张量是包含Grassmann数据集X^v在欧式空间的等价嵌入表示，用乘积Grassmann点之间的嵌入距离公式计算出嵌入距离，符号×₃表示三阶张量与矩阵的乘法，得到最终目标函数：

s.t.y^v＝y^v×₃(C+D^v)+ε^v.

其中，ε^v表示第v视角的重构误差，||·||_F表示F范数，||·||_*表示核范数，矩阵C和D^v分别为所有视数据的共享性信息和第v视图的差异性信息；

最后，将一致性信息与差异性信息合并，计算得到关联矩阵W，对其执行NCut操作，得到最终多视聚类结果。W的计算过程如下：

我们选择了准确度(ACC)，归一化互信息(NMI)，Rand指标(RI)和纯度(Purity)四个验证指标，这些指标的较高值会反映出更好的性能。

表1是比较方法的输入数据类型。比较方法SCGSM和FGLRR是基于Grassmann流形的单视聚类方法，所以先将每一帧转化为灰度图像再进行归一化(图像集数据先将灰度图像归一化)，再从中选择形成样本数为N的视频/图像数据集，将其表示为Grassmann点作为输入。比较方法MLAN、SwMC、MCGC、MVGL和SM2SC是使用LBP-TOP特征的经典多视聚类方法，因此我们通过PCA将这些高维向量降低到低维度,然后将每个视频/图像集的向量化表示为输入。PGLRR和我们的PGM-CER是基于乘积流形的聚类方法。基于透明性原则，所有比较方法的编码均来自作者个人网站。

表1比较方法的输入数据类型

PGM-CER在三个公共数据集上进行评估，包括ACT42四视角视频数据集(分别对所有动作和删除7个容易混淆动作进行聚类)，NUCLA三视角视频数据集，IXMAS五视角视频数据集，聚类结果分别为表2、3、4，这些指标值越大表示聚类结果越好，表中加粗体为最大值，下划线为第二大值。图2是不同数据集PGM-CER的聚集准确度(ACC)与参数λ₁和λ₁的关系，从经验上来看，高精度来源于较大的参数，对实际应用中的参数选择具有指导意义。图3是所有数据集的PGM-CER收敛曲线，在每次迭代中终止准则的值是min(||Z-J||_∞)，从图中可以看出目标函数的值在200个迭代步内急剧下降，然后随着迭代步数的增加而保持稳定，说明优化算法具有很强的收敛性。

为了验证PGM-CER的优越性，我们将其与SCGSM，FGLRR，MLAN、SwMC、MCGC、MVGL、SM2SC、PGLRR几种经典聚类方法进行比较。表1是比较方法的输入数据类型。

多视聚类是计算机视觉和数据挖掘领域的一个基本问题。多视视频包含了一个动作的不同视角，对具有多维非线性结构的视频数据进行聚类可以减轻使用单视数据的缺点，例如光照变化和遮挡对聚类结果的影响。在这个实验中，我们使用三个多摄像机人体动作视频数据集，包括ACT42、UCLA和IXMAS，来进行聚类性能的比较。

表2显示了与其它聚类方法相比的ACT42数据集的实验结果。ACT42数据集是在相对纯净的环境中捕获的，SCGSM和FGLRR方法实现了基于流形的聚类，FGLRR方法具有更好的聚类性能，因此基于自表达的方法能够更好的发现隐藏在数据中的潜在结构。从表中可以看出，PGLRR和PGM-CER方法优于传统的基于LBP-TOP视频特征的多视图聚类方法，说明乘积Grassmann流形可以从多摄像机视频数据中提取更具判别能力的信息。由于PGM-CER方法的聚类性能优于PGLRR方法，因此将共享性信息和差异性信息分离可以获得更具鉴别能力的信息。在表2中还删除了七个容易混淆的动作，再次测试PGM-CER方法，仍然比其他方法更为突出。

表2ACT42视频数据集的子空间聚类结果。最大值和第二大值分别用加粗体和下划线标记。

在数据集NUCLA上执行所有比较的方法和PGM-CER，表3显示了相应的聚类结果。NUCLA数据集存在许多类似的动作，导致聚类结果很糟糕。即使如此，PGM-CER方法仍然获得明显优于其他方法的性能。

表3NUCLA多摄像机视频数据集子空间聚类结果。最大值和第二大值分别用加粗体和下划线标记。

表4显示了与其它聚类方法相比的IXMAS数据集的实验结果。与其他数据集相比多了一个俯视图视角，但俯视图提供的信息要比侧视图少，在大多数情况下，PGM-CER方法仍能获得最佳的实验结果。

表4NUCLA多摄像机视频数据集子空间聚类结果。最大值和第二大值分别用加粗体和下划线标记。

这三个数据集的聚类结果显示我们提出的PGM-CER方法都比其他比较方法具有更高的聚类性能，这预示着未来在实际应用中的良好前景。

Claims

1.一种流形空间中多视点视频的共享-差异表示及聚类方法，其特征包括以下步骤：

(1)采集多个摄像机同时从不同角度拍摄的多视图数据作为输入数据，用V表示视图总数，N表示样本总数，第v视图的所有Grassmann点用X^v表示，其中/>表示第v视图的第i个Grassmann点；表示所有视图的第n个Grassmann点，将多视点视频中的每个视图表示为一个Grassmann流形/>进一步采用乘积空间来集成多个Grassmann流形表示多视点视频：

其中表示第v视图的Grassmann流形，乘积Grassmann流形上的点可以表示为用于表征多视点视频数据；

(2)建立从Grassmann流形嵌入到对称矩阵空间的映射：Π：对任意Grassmann流形矩阵表示X，有Π(X)＝XX^T，并用嵌入距离来度量Grassmann流形上点的距离，其中第i个和第j个Grassmann点X_i、X_j之间的嵌入距离计算方法如下：

根据上述Grassmann流形上点的距离计算，将所有视图Grassmann流形的距离求和来表示乘积Grassmann流形上的距离，其中第i个和第j个乘积Grassmann点[X_i]、[X_j]之间的嵌入距离计算方法如下：

(3)建立模型学习多视图数据的共享性矩阵C和差异性矩阵D^v，模型具体如下：

s.t.y^v＝y^v×₃(C+D^v)+ε^v

其中，ε^v表示第v视图的重构误差，||·||_F表示F范数，||·||_*表示核范数，矩阵C和D^v分别为所有视数据的共享性信息和第v视图的差异性信息；三阶张量是包含Grassmann数据集X^v在欧式空间的等价嵌入表示，用(2)中的乘积Grassmann点之间的嵌入距离公式计算出嵌入距离，符号×₃表示三阶张量与矩阵的乘法；

(4)应用交替优化方法优化求解目标函数得到满足收敛条件的共享性矩阵C和差异性矩阵D^v；

(5)将共享性矩阵C和差异性矩阵D^v合并得到关联矩阵W，对W执行聚类操作，得到最终聚类结果。