CN103617292A

CN103617292A - 一种基于互正则化约束子空间表达的多视角数据聚类方法

Info

Publication number: CN103617292A
Application number: CN201310687876.3A
Authority: CN
Inventors: 王亮; 谭铁牛; 赫然; 尹奇跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2014-03-05
Anticipated expiration: 2033-12-16
Also published as: CN103617292B

Abstract

本发明公开了一种基于互正则化约束子空间表达的多视角数据聚类方法，该方法包括以下步骤：组成多视角数据库，提取不同视角数据的视角特征；选择互正则化方法，确定互正则化约束；基于一优化目标函数和不同视角数据的视角特征，得到所有样本的协同表示向量；将协同表示向量按照其所对应的样本顺序排序，得到子空间表达矩阵；对子空间表达矩阵进行处理，得到亲和矩阵；根据需要聚类的数目分割亲和矩阵，得到多视角数据库的样本聚类结果。本发明利用子空间表达来挖掘样本之间的隐含结构信息，采用两种互正则化方式来约束不同视角的子空间表达，以利用多视角的互补信息，进一步加强样本集隐含结构信息的表示，从而能够广泛的应用于多视角数据聚类。

Description

一种基于互正则化约束子空间表达的多视角数据聚类方法

技术领域

本发明涉及模式识别技术领域，尤其是一种基于互正则化约束子空间表达的多视角数据聚类方法。

背景技术

现实世界中的数据往往具有多种视角，此处视角可以是同一图像的不同特征表达，也可以是不同模态的数据，比如网页信息既包含图片信息，又包含文本信息以及超链接信息。多视角聚类，作为模式识别的基本任务，旨在利用不同视角下的互补信息提高聚类性能，其面临的核心挑战有两方面：(1)挖掘数据之间的隐含结构信息，即数据之间的相似性与相异性；(2)利用多视角数据提供的互补信息。传统的多视角聚类方法在解决这两个挑战时，一般找到多视角数据的一个统一的有判别能力的低维表达，但是它们不能显式地利用数据本身的先验信息，如稀疏性，协同表示特性。因此，传统的多视角聚类方法并不能有效的进行多视角数据的聚类。

发明内容

鉴于以往的方法不能有效的满足多视角数据聚类的需求，本发明提出了一种基于互正则化约束子空间表达的多视角数据聚类方法。该方法的子空间表达利用子空间聚类领域中协同表示的方法来深入挖掘数据之间的相似与相异特性，同时互正则化约束使得不同视角子空间表达相互促进，以达到利用视角之间的互补信息。

为了解决现有技术存在的缺陷，本发明的目的是提供一种基于互正则化约束子空间表达的多视角数据聚类方法，该方法包括以下步骤：

步骤S1，收集多视角数据样本，组成多视角数据库，并对不同视角的数据，分别提取其视角特征；

步骤S2，选择互正则化方法，并确定所选择的互正则化方法的互正则化约束；

步骤S3，根据所述步骤S2选定的互正则化方法，基于一优化目标函数和不同视角的数据的视角特征，学习得到所述多视角数据库中所有样本的协同表示向量；

步骤S4，将所述协同表示向量按照其所对应的样本顺序按列排序，得到子空间表达矩阵；

步骤S5，对所述子空间表达矩阵进行处理，得到度量所述多视角数据库中样本相似性的亲和矩阵；

步骤S6，根据需要聚类的数目，对于所述亲和矩阵进行分割，得到所述多视角数据库的样本聚类结果。

本发明提出的上述方法能够广泛的应用于多视角数据聚类分析问题。在该方法中，首先提取出数据集在不同视角下的特征；然后利用互正则化约束的方式求出各个视角下样本的协同表示向量，又称为子空间表达；将所有样本的子空间表达按列排序得到子空间表达矩阵，所述矩阵的元素值反映了样本之间的相似性权重；最后将子空间表达矩阵构造为对称非负的亲和矩阵(Affinity matrix)，并利用Normalized Cuts谱聚类算法进行多视角的聚类。本发明方法利用子空间表达来挖掘样本之间的隐含结构信息，并采用两种互正则化方式来约束不同视角的子空间表达，以利用多视角的互补信息，进一步加强样本集隐含结构信息的表示，同时，本发明还提出了一种交替优化的算法来有效的求解不同互正则化约束的目标函数。

附图说明

图1是本发明基于互正则化约束子空间表达的多视角数据聚类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明基于互正则化约束子空间表达的多视角数据聚类方法的流程图，如图1所示，该方法包括以下步骤：

所述多视角可以是图片的不同特征表达，如GIST特征，Color特征，也可以是不同模态的数据，如网页数据可以由图片相关特征以及文本相关特征来进行表示。

步骤S2，选择互正则化方法以利用多视角数据的互补信息，并确定所选择的互正则化方法的互正则化约束；

该步骤中，互正则化方法包括两两互正则化方法（pairwiseco-regularization）和基于中心的互正则化方法（centroid-basedco-regularization），在性能上，一般两者能达到相似的效果。但是基于中心的互正则化方法，可将求得的中心（或隐变量）直接用于后续的计算，较为方便，在实际应用中，可根据需要自由选择互正则化方法。

步骤S3，根据所述步骤S2选定的互正则化方法，基于一优化目标函数和不同视角的数据的视角特征，学习得到所述多视角数据库中所有样本的协同表示向量，所述协同表示向量又称为子空间表达，其元素值反映了样本之间的关系；

所述优化目标函数表示为：

\min_{z_{i}^{v}, z_{i}^{w}} Σ_{v} loss (z_{i}^{v}) + α Σ_{v} reg (z_{i}^{v}) + β Σ_{v &NotEqual; w} co_reg (z_{i}^{v}, z_{i}^{w}),

其中，

是样本i在v视角下的子空间表达，

是样本i在w视角下的子空间表达，是

的损失函数，在本发明一实施例中，所述损失函数选择为平方损失函数，

是对

的正则化约束，选择为协同表示的

表示向量2-范数的平方，

是对同一个样本不同视角下子空间表达的互正则化约束，α和β是预设的比例系数。

所述步骤S3进一步包括以下步骤：

步骤S3.1，当互正则化约束为两两互正则化约束时，所述目标函数改写为：

\min_{z_{i}^{v}, z_{i}^{w}} Σ_{v} {| | x_{i}^{v} - X_{- i}^{v} z_{i}^{v} | |}_{2}^{2} + α Σ_{v} {| | z_{i}^{v} | |}_{2}^{2} + β Σ_{1 \leq v < w \leq l} {| | z_{i}^{v} - z_{i}^{w} | |}_{2}^{2},

其中，

为样本i在v视角下的特征向量，为所述多视角数据库中v视角下除去

的所有样本，l为所述多视角数据库中的视角总数。

对于所述改写后的目标函数，采用交替优化的方式求解

直至算法收敛，若固定

则满足：

z_{i}^{v} = {({(X_{- i}^{v})}^{T} (X_{- i}^{v}) + αI + (l - 1) βI)}^{- 1} ({(X_{- i}^{v})}^{T} x_{i}^{v} + β Σ_{ω &NotEqual; v} z_{i}^{ω}),

其中，l为所述数据库视角总数，I为单位矩阵。

步骤S3.2，当互正则化约束

为基于中心的互正则化约束时，所述目标函数改写为：

\min_{z_{i}^{v}, z_{i}^{*}} Σ_{v} {| | x_{i}^{v} - X_{- i}^{v} z_{i}^{v} | |}_{2}^{2} + α Σ_{v} {| | z_{i}^{v} | |}_{2}^{2} + β Σ_{v} {| | z_{i}^{v} - z_{i}^{*} | |}_{2}^{2},

其中，

为隐变量，表示所述多视角数据库中样本i的不依赖视角的本征子空间表达，称为隐协同表示向量或者隐子空间表达。

对于所述改写后的目标函数，采用交替优化的方式求解

和

直至算法收敛，若固定

和

则

满足：

z_{i}^{v} = {({(X_{- i}^{v})}^{T} (X_{- i}^{v}) + αI + βI)}^{- 1} ({(X_{- i}^{v})}^{T} x_{i}^{v} + β z_{i}^{*}),

若固定

z_{i}^{ω} (v = 1 : l),

则

满足：

z_{i}^{*} = Σ_{v} z_{i}^{v} / l,

即所有视角的子空间表达向量的均值。

步骤S4，将所述协同表示向量按照其所对应的样本顺序按列排序，得到子空间表达矩阵Z；

该步骤中，对于两两互正则化约束，得到子空间表达矩阵Z^v(v＝1,2,…,l),；对于基于中心的互正则化约束，得到子空间表达矩阵Z^v(v＝1,2,…,l)和Z^*。

步骤S5，对所述子空间表达矩阵进行处理，得到度量所述多视角数据库中样本相似性的亲和矩阵A(Affinity matrix)；

该步骤中，亲和矩阵A＝1/2*(|Z|+|Z^T|)，这里Z表示子空间表达矩阵。对于两两互正则化约束，得到亲和矩阵A^v(v＝1,2,…,l),；对于基于中心的互正则化约束，得到亲和矩阵A^v(v＝1,2,…,l)和A^*。

步骤S6，根据需要聚类的数目，利用谱聚类算法对于所述亲和矩阵A进行分割，得到所述多视角数据库的样本聚类结果。

该步骤中，利用现有技术中常用的Normalized Cuts算法对所述亲和矩阵进行分割，该算法根据需要聚类的数目，将所述亲和矩阵所对应的多视角数据库样本集合分割成不同的聚类。对于两两互正则化约束，选择使得聚类性能达到最优的A^v作为待分割亲和矩阵；对于基于中心的互正则化约束，选择A^*作为待分割亲和矩阵。

为了验证本发明的实施效果，接下来以USPS Digits0-9数字数据库为例对于本发明方法进行说明，USPS Digits0-9数据库中包含2000幅图像，共计10类，每类包含200幅图像，基于互正则化约束子空间表达的多视角数据聚类包括以下步骤：

步骤S1，提取所有图像的Karhunen-love系数特征以及傅里叶变换系数特征作为所述数据库的两个视角；

步骤S2，选择基于中心的互正则化约束方法，即

{CO}_{reg} (z_{i}^{v}, z_{i}^{w}) =

Σ_{v} {| | z_{i}^{v} - z_{i}^{*} | |}_{2}^{2};

步骤S3，令α和β取值为1，求解所述数据库每一个样本的协同表示向量以及隐协同表示向量

步骤S4，将步骤S3中得到的隐协同表示向量按照其所对应的样本顺序按列排序，得到其对应的子空间表达矩阵Z¹,Z²以及Z^*；

步骤S5，利用步骤S4中得到的子空间表达矩阵Z^*求解度量多视角数据相似性的亲和矩阵A：A＝1/2*(|Z^*|+|(Z^*)^T|)；

步骤S6，利用Normalized Cuts算法将所述亲和矩阵分割为10块，每一块对应一个聚类。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。