CN112287974B

CN112287974B - 一种基于自适应权重的多视k多均值的图像聚类方法

Info

Publication number: CN112287974B
Application number: CN202011044857.5A
Authority: CN
Inventors: 王博岳; 宋作龙; 田甜; 张铁; 刘易初; 胡永利
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2024-05-28
Anticipated expiration: 2040-09-28
Also published as: CN112287974A

Abstract

本发明涉及一种基于自适应权重的多视K多均值的图像聚类方法(Adaptive K‑Multiple‑Means for Multi‑view Clustering,AKM³C)，用于解决多视图的图像聚类问题。不同于以往的多视K均值聚类方法仅使用一个簇中心去建模每个簇的数据分布，AKM³C使用多个子簇中心(也称为原型或均值)捕获每个视图中每个簇的数据分布。另外，AKM³C可以为每个视图自适应的分配权重，从而合理地融合不同视图的互补信息和兼容信息以构建一个共享的二部图，最后对共享的二部图施加拉普拉斯秩约束，将其划分为C个簇，实现图像样本的聚类，进而用于解决多视图的图像识别和检测问题。

Description

一种基于自适应权重的多视K多均值的图像聚类方法

技术领域

本发明涉及数据挖掘、机器学习和模式识别等领域，尤其是面向图像内容的多视图聚类任务。

背景技术

聚类是一种常用的数据分析方法，其目的是将无标签的数据按照一定的规则划分为若干个簇，使得每个簇内的数据相似，而不同簇之间的数据相异，即一个簇内部的任意两个样本具有较高的相似度，而属于不同簇的两个样本具有较高的相异度。在过去的几十年中，已经提出了许多经典的聚类方法(例如K-means聚类，谱聚类，核聚类等)，并在图像处理、计算机视觉和文本挖掘等领域取得了巨大的成功。

在现实世界中，随着摄像机以及传感器等技术的广泛应用，数据通常由不同的领域、模态或特征组成，例如，图一包含了三种类型的多视图数据，图一(a)表明图像可以从不同的角度进行拍摄，每一个角度的图像是一个视图；图一(b)表明同一个事件可由不同的语言进行报道，每一种语言对应一个视图；图一(c)表明人脸图像在可见光(VIS)和近红外光(NIR) 下得到，即图像由不同的特征描述，每一种特征对应一个视图；所有这些都称之为多视图数据，是指对同一事物从不同角度或者按不同方式所得到的两个或两个以上的描述。

当前用于机器学习的主要方法是对单个视图表示的数据进行聚类，这种方法称为单视图聚类(或传统的聚类)，因为它不考虑来自不同视图的相关信息，容易造成以偏概全的问题，不能够真实的反应数据的全貌。多视图聚类的目的是考虑不同视图的权重，通过融合各个视图的兼容和互补信息，全面的反映数据整体结构，使得聚类性能的效果得到提升。

随着大数据时代的到来，针对多视图数据的聚类引起了越来越多研究者的关注，它把无任何标注的多视图数据信息通过有效的处理将其划分成不同的簇。尤其是在计算机视觉和模式识别等领域，通过对不同视图的特征所构造的图像样本进行分析，将其融合成同一空间下的一致性表示，实现多视图的图像聚类，从而可进一步采用模式识别的方法对聚类好的图像进行识别，具有广泛的应用价值。

在多视聚类方法中，多视K均值聚类由于其效率和简易性而备受关注，这类方法主要是将大规模的多视图数据分解为多个聚类中心矩阵和一个公共的指标矩阵。但是其存在两处不足：1)多视K均值聚类仅使用一个中心对每个视图中的每个簇进行建模，无法准确地捕获不同视图中复杂的子簇数据分布。2)在大多数多视K均值聚类方法中，都需要引入一个额外的超参数对不同视图的权重进行分配，但是其超参数的设置在很大程度上都取决于人们的经验，所以其可用性不是很强。

发明内容

针对以上问题，提出了一种新的多视图聚类的方法,即基于自适应权重的多视K多均值聚类(Adaptive K-Multiple-Means for Multi-view Clustering,AKM³C)，可用于解决多视图的图像聚类问题。不同于以往的多视K均值聚类方法仅使用一个簇中心去建模每个簇的数据分布，AKM³C使用多个子簇中心(也称为原型或均值)捕获每个视图中每个簇的数据分布。另外，AKM³C可以为每个视图自适应的分配权重，从而合理地融合不同视图的互补信息和兼容信息以构建一个共享的二部图，最后对共享的二部图施加拉普拉斯秩约束，将其划分为C个簇，实现图像样本的聚类，进而用于解决多视图的图像识别和检测问题。

技术方案

一种基于自适应权重的多视K多均值的图像聚类方法，AKM³C旨在将多视图数据中的N个图像样本划分为C个簇。首先从每个视图的数据样本中随机的生成M个子簇中心以捕获每个视图中复杂的数据分布，并为每个视图自适应地分配权重w_v；然后对多视图进行融合以构造一个共享的二部图 S；最后，对S相应的拉普拉斯矩阵施加秩约束，将其划分成C个簇，从而实现聚类。AKM³C方法的简要示意图如图二所示，其中不同颜色的球体和五角星分别表示不同视图中的图像样本和子簇中心。

具体的讲，AKM³C方法主要包含以下步骤：

(1)获取多视图的图像数据库，此数据库中共包含有V个视图的数据，表示为χ＝{X¹,X²,…,X^V}，其中表示的是第v 个视图的数据矩阵，N表示的是数据库中图像样本的数量，D_v表示的是第v 个视图样本的维度；

(2)从每个视图数据中随机的生成M个子簇中心以捕获复杂的数据分布，即一共有V个视图的子簇中心矩阵，表示为同样的，/>其表示的含义是第v个视图的子簇中心矩阵， M为子簇中心的数量，D_v表示的是第v个视图样本的维度；

(3)构造AKM³C模型，采用交替优化的方法求解w_v，A^v,S，求解过程中为每个视图自适应地分配权重w_v，然后对多视图进行融合以构造一个共享的二部图S，模型具体如下：

其中w_v表示的是第v个视图的权重，初始化为之后采用数据驱动的方式进行自动更新，即/> 分别表示的是第v个视角的第i个图像样本和第m个子簇中心。对多视图进行融合，采用自适应近邻的方法构造出共享的二部图S，/>为正则化项，可避免平凡解，/>表示为平方F范数；/>为对应二部图S的归一化拉普拉斯矩阵，其中/>为二部图的相似矩阵,/> 为对角矩阵，其第i个对角元素的值为/>p_im表示的是矩阵P的第i行第m个元素的值。通过对L_s施加秩约束可直接将S 划分为具有C个连通单元的块对角矩阵，其中每个连通单元代表一个簇，即将S划分为C个簇，从而得到图像的聚类结果，秩约束为Rank(L_s)＝ (N+M)-C，参数M的取值范围为/>有益效果

表1,表2和表3分别显示了在NMI、ACC和Purity这三个指标上的聚类性能。在表中用粗体和下划线标记出性能最佳和性能次佳的结果。从这三个表中可以看出，本发明所述方法优于单视K-means聚类，并且在大多数情况下，在所有数据集上均实现最佳的聚类效果。

总之，本发明所述的图像聚类方法可以从多视图像中提取更多的区分性信息，并适当的融合这些信息以实现更好的图像聚类，与其它的多视聚类方法相比获得更佳的性能，从而能够在多视图像的目标识别和检测方面得到更广泛的应用。

附图说明

图1：多视图数据的展示，其中，图一(a)表明图像可以从不同的角度进行拍摄，每一个角度的图像是一个视图；图一(b)表明同一个事件可由不同的语言进行报道，每一种语言对应一个视图；图一(c)表明人脸图像在可见光(VIS)和近红外光(NIR) 下得到，即图像由不同的特征描述，每一种特征对应一个视图；

图2、AKM³C简要示意图；

图3、本发明所述AKM³C模型进行图像聚类的流程图；

具体实施：

1、以BUAA多视图像数据库为例,此数据库包含有150个对象，每个对象呈现出9种不同的姿势或表情，构成1350张图像。其中第一个视图下的1350张图像是在可见光下拍摄得到，第二个视图下的1350张图像是在近红外光下拍摄得到的，这两个视图下每个对象的姿势和表情都是相同的，只不过在不同的光源条件下拍摄得到，由此构成多视图数据。将此数据库包含的2个视图的多视数据作为输入，即χ＝ {X¹,X²}，本实施例的目的在于将由多视图构成的1350张图像进行聚类，共分为150个类别。根据BUAA多视数据库的视图数量，样本数量，类别数量，可知V＝2，N＝1350，C＝150，参数M的取值范围在需要调节。

2、从每个视图数据中随机的生成M个子簇中心，即一共有2个视图的子簇中心矩阵，表示为

3、将χ和带入AKM³C模型中进行求解：

为了便于求解，以下具体描述如何对模型进行优化求解，下述内容属于模型具体计算过程：

首先对公式(2)进行优化可得到公式(3)：

在公式(3)中如果参数λ足够大，则Tr(F^TL_sF)的值将变得很小甚至为零，从而满足Rank(L_s)＝(N+M)-C这一约束，其中F表示的是L_s的前C 个最小的特征值对应的特征向量组成的矩阵，之后通过迭代更新求解w_v， A^v,S和F。

(1)初始化S。

首先固定w_v，A^v和F这三个变量，求解S，由此我们通过公式(3)得到如下模型：

s.t S≥0,SI＝1

对公式(4)采用自适应近邻的方法求解得到一个共享的二部图S,S是一个N×M的矩阵，N代表的是数据库中的图像样本数量，M是子簇的个数，s_im是矩阵S中的第i行第m列，它代表的含义是第i个样本属于第m 个子簇的概率。(由此我们将N个样本和M个子簇中心连接起来，并且样本子与子簇是分隔开的，数学上称之为-----二部图)

(2)判断归一化拉普拉斯矩阵L_s是否满足秩约束。

(3)固定w_v，A^v,S更新F

当w_v，A^v,S固定时，通过公式(3)得到公式(5)：

min Tr(F^TL_sF) (5)

s.t F∈R^(N+M)×C，F^TF＝I

令其中U∈R^N×C,V∈R^M×C,D_U∈R^N×N,D_V∈ R^N×M

经化简后，可进一步写为:

则U和V的最优解分别是的前C个左右奇异向量，由此求得 F。

(4)固定w_v，A^v,F更新S

由归一化拉普拉斯矩阵的性质，可得：

令则公式(3)可重写为：

s.t S≥0,SI＝1,

此时w_v，A^v和F这些变量的值都是已知的，由此可对公式(7)进行求解。另外，在这里需要不断迭代地更新变量F和S，即不断的重复第(3) 和第(4)这两个步骤，直到其满足秩约束为止，继续进行下面的步骤。

(5)固定F，A^v,S更新w_v

w_v表示的是每个视图的权重，在不引入任何额外参数的情况下，w_v的更新方式为：

(6)固定F，w_v,S更新A^v

根据第v个视图中所有样本的加权平均来计算第v个视图中每个子簇中心的值：

综上所述，通过迭代更新w_v，A^v,S和F，直到算法收敛，此时的二部图 S已被划分为C个连通单元，每个连通单元代表一个簇，即已对图像实现聚类的划分，参数γ可通过公式(4)求得；对于参数λ，将其初值设为λ＝γ，在之后的每次迭代中进行自动更新；参数M的取值范围为

本实例用于进行图像的聚类，分别在Extended Yale B，CMU-PIE，BUAA和UMIST这四个多视图像数据库上进行评估。其中在Extended Yale B，CMU-PIE和UMIST数据库中，提取每个图像的LBP,GABOR和GIST这三种类型特征构造出多视数据库；BUAA数据集是从150个对象中收集到的多视图数据库，此数据库包含1350个图像，2个视图，150个类别。

为了验证所提出方法在图像聚类上的优越性,将AKM³C与单视K-means 和RMMKC，RDEKM，MLAN，MVGL，MCGC，DiMSC，AMGL的多视聚类方法进行比较。

本实验使用归一化互信息熵(NMI)、正确度(ACC)和纯度(Purity)这三个指标来评价其图像聚类的性能，指标的值越高会反映出更好的聚类性能。具体结果如表1-表3所示。

表一：基于NMI的四个图像数据库的聚类性能对比

表二：基于ACC的四个图像数据库的聚类性能对比

表三：基于Purity的四个图像数据库的聚类性能对比

Claims

1.一种基于自适应权重的多视K多均值的人脸图像聚类方法，其特征在于包含以下步骤：

(1)获取多视图数据库，其中，数据集共有V个视图的多视数据，表示为χ＝{X¹,X²,…,X^V}，其中表示的是第v个视图的数据，每个视图下有N个图像样本，D_v表示的是第v个视图样本的维度；

(2)从每个视图的数据中随机的生成M个子簇中心用以捕获每个视图中复杂的数据分布，即一共有V个视图的子簇中心矩阵，表示为Д＝{A¹,A²,…,A^V}，同样的，其表示的含义是第v个视图的子簇中心矩阵，M表示的是子簇中心的数量，D_v表示的是第v个视图的维度；

(3)构造AKM³C模型，对多视图进行融合以构造一个共享的二部图S，然后对S相应的拉普拉斯矩阵L_s施加秩约束，从而将二部图S划分为C个簇，从而得到聚类结果；其中，模型求解采用交替优化的方法，不断迭代的计算w_v，A^v,S，最终得到最优的二部图S；求解过程中为每个视图自适应地分配权重w_v；

所述AKM³C模型具体如下：

其中w_v表示的是第v个视图的权重，分别表示的是第v个视角的第i个图像样本和第v个视角的第m个子簇中心，对多视图进行融合，采用自适应近邻的方法构造出一个共享的二部图S；/>为正则化，可避免平凡解，/>表示平方F范数；/>为对应二部图S的归一化的拉普拉斯矩阵，其中/>为对角矩阵，其第i个对角元素的值为/>p_im为P的第i行第m列的元素，C为图像的类别个数；

所述对L_s施加的秩约束具体为Rank(L_s)＝(N+M)-C；

步骤(3)所述的权重w_v的自适应更新公式如下，