CN112001438A

CN112001438A - 聚类数目自动选择的多模态数据聚类方法

Info

Publication number: CN112001438A
Application number: CN202010834848.XA
Authority: CN
Inventors: 彭玺; 黄振宇; 李伯运; 周天异
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-27
Anticipated expiration: 2040-08-19
Also published as: CN112001438B

Abstract

本发明公开了一种聚类数目自动选择的多模态数据聚类方法，其包括获取多个模态数据集合；寻找模态数据集合中模态数据的邻居，连接互为邻居的模态数据形成邻接图，并依次构建模态数据间的相似性图；将归一化处理后的每个模态数据集合分别输入一个自编码器网络；初始化各模态数据所对应的潜在表示和连通图参数；采用损失函数计算损失值，根据损失值进行梯度反向传播，更新自编码器网络的网络参数、连通图参数和潜在表示直到损失函数收敛；根据优化后的连通图，连接多个连通图中两个模态数据在超过半数连通图中都已连接的模态数据形成公共连通图；在公共连通图上进行子图划分，将独立的子图作为聚类的一个簇，得到多个目标对象最终的聚类结果。

Description

聚类数目自动选择的多模态数据聚类方法

技术领域

本发明涉及数据分类技术，具体涉及一种聚类数目自动选择的多模态数据聚类方法。

背景技术

聚类算法是一种不依靠人工标签，自动化对数据进行类别信息划分，将具有相同特征的对象划分在一起。例如，通过对用户网购数据的分析，将用户划分为成几个具有明显特征区别的细分群体(如数码爱好者、零食爱好者等)，帮助商家针对性推荐；通过对大量图片的分析，将无标注图片划分为实际类别中(比如将动物猫、狗、兔子等进行划分)，以帮助用户进行图片整理和处理及后续待识别图像中对象类别的准确划分，以达到大大减少人力资源。

一个物体可以用多种模态进行体现，比如一个人物可以通过声音和外形两个模态进行体现，一个视频会通过图片、声音和文字三个模态进行体现，一张图片会通过Gabor、WM、CENTRIST、HOG、GIST和LBP等模态体现，一个物体可以采集为RGB图片、深度图像、热红外线图像等多个数据模态。由于同一物体的各模态之间存在数据互补信息，也存在公共信息，通过利用同一物体或事件的不同描述中的公共信息和互补信息，对多模态数据进行聚类，可以准确地实现对象的识别。

对此在实际应用中，我们通常会采用多种类型的传感器装置收集某区域的数据信息，之后采用多模态聚类算法对采集的多种数据模态进行聚类，以实现对传感器采集的多个对象的分类，以辅助工作人员对多个传感器装置采集的数据进行分类整理，这样实现后不需要工人通过浏览采集的信息进行人工分类，从而降低工作人员工作强度的目的。

目的大部分多模态聚类算法均需人工指定聚类数目，例如，在对加噪声的手写数字图片0到9的聚类识别中(有噪声的图片视作一个模态，无噪声的图片视作另一个模态)；大多数单模态聚类算法也需要人工指定聚类数目，如k-means聚类方法、谱聚类算法、低秩表示学习(LRR)和多视图聚类算法深度典型相关性分析方法(DCCA)、基于自编码器的深度典型相关性分析(DCCAE)、潜在多视图表示学习(LMSC)等，都需要人手动给定聚类数目。

人工在给定聚类数目之前，需要了解用于聚类的数据信息的对象存在哪些，若是不能准确知道，需要对数据信息进行浏览，以得到准确的对象数量，以保证给定的聚类中心能够实现准确地聚类；这无疑是增加了人工的劳动强度，若是人工浏览不够仔细，出现对象数目记录不准确，算法无法自动将数据聚类正确，可能将不同类数据划分到一类，也可能将同一类数据划分成多个类。

因此，如何在聚类算法中，自动确定聚类个数，并对多模态数据实现较好的聚类效果，成为目前多模态聚类算法在实际应用中亟待解决的一大难点和挑战。

发明内容

针对现有技术中的上述不足，本发明提供的聚类数目自动选择的多模态数据聚类方法解决现有技术的聚类方法需要指定聚类数目才能聚类的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种聚类数目自动选择的多模态数据聚类方法，其包括：

获取多个目标对象的m个模态对应的模态数据集合，并对每个模态数据集合中的模态数据进行归一化处理；

采用最近邻居算法计算模态数据集合中模态数据的K个最近邻居，连接互为邻居的模态数据形成邻接图，并将模态数据间的相似性整理形成相似性矩阵；

将归一化处理后的每个模态数据集合分别输入一个独立的自编码器网络，得到每个模态数据集合的编码器输出和解码器输出；

初始化每个模态数据对应的潜在表示为对应其的编码器输出，同时初始化连通图参数为元素全部相等的矩阵；

根据各模态数据对应的编码器输出、解码器输出、连通图和潜在表示，采用损失函数计算损失值；

根据每个自编码器网络对应的损失值，进行梯度反向传播，更新自编码器网络的网络参数、连通图参数以及潜在表示直到损失函数收敛；

根据损失函数收敛时得到的每个模态数据集合的连通图，连接多个连通图中两个模态数据在超过半数连通图中都已连接的模态数据形成公共连通图；

在公共连通图上进行子图划分，将独立的子图作为聚类的一个簇，得到多个目标对象最终的聚类结果。

本发明的有益效果为：本方案在对多个目标对象的多模态进行聚类时，直接将每个模态数据输入一个独立的自编码器网络中，得到多个损失函数收敛时的连通图，基于多个连通图得到公共连通图，实现多个目标对象的聚类；通过该种方式实现多目标对象的聚类，能够自动分析出聚类数目，以此完成聚类，不需要人工花时间去确定目标对象的数量后指定聚类数目，从而降低了工人的工作强度，且通过该种方式聚类还具有准确性高的优点，以进一步保证了用户后续数据处理及整理的准确性。

附图说明

图1为聚类数目自动选择的多模态数据聚类方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了聚类数目自动选择的多模态数据聚类方法的流程图，如图1所示，该方法包括步骤S1至步骤S8。

在步骤S1中，获取多个目标对象的m个模态对应的模态数据集合，并对每个模态数据集合中的模态数据进行归一化处理。

本方案中的目标对象可以是人、动物、图像，也可以是各种有形的实体物体，比如桌子、板凳、球等；

当目标对象为人时，多个目标对象为多个不同行人，多模态数据可以为RGB图片、深度图像、热红外线图像和声音信息中的至少两种；

当目标对象是动物时，多目标对象为不同品种动物，多模态数据可以为RGB图片、深度图像、热红外线图像中的至少两种；

当目标对象为高光谱图像时，多目标对象可以为地貌中的山、水和树木等，高光谱图像中的模态可以为光谱模态、空间纹理模态和空间相关性模态中的至少两种；

当目标对象是常见物体图像时，多目标对象为不同类别物体，多模态数据为图像对应的HOG、GIST和LBP提取特征中的至少两种。

当目标对象是新闻文本时，多目标对象为不同领域的新闻报道，多模态数据为新闻文本对应的英语、法语、德语多语言文本中的至少两种。

在步骤S2中，采用最近邻居算法计算模态数据集合中模态数据的K个最近邻居，连接互为邻居的模态数据形成邻接图，并将模态数据间的相似性整理形成相似性矩阵。

实施时，本方案优选所述相似性的计算公式为：

其中，

和

分别为模态v对应的模态数据集合中与模态

和

相连接的模态数据的数量；n^v为模态v对应的模态数据样本数；k为数据索引；

整理形成相似性矩阵W^v为：

其中，W^v为模态v对应的相似性矩阵，其为n×n矩阵；

为相似性矩阵W^v中第i个模态数据

与第j个模态数据

的相似性。

在步骤S3中，将归一化处理后的每个模态数据集合分别输入一个独立的自编码器网络，得到每个模态数据集合的编码器输出和解码器输出。

在本发明的一个实施例中，自编码器网络的编码器网络共4层，其分别为：

第一层：全连接层，输入为第v个模态数据维度，输出为1024，激活函数为ReLU；

第二层：全连接层，输入为1024，输出为512，激活函数为ReLU；

第三层：全连接层，输入为512，输出为256，激活函数为ReLU；

第四层：全连接层，输入为256，输出为10，激活函数为ReLU；

所述自编码器网络的解码器网络共4层，其分别为：

第一层：全连接层，输入为10，输出为256，激活函数为ReLU；

第二层：全连接层，输入为256，输出为512，激活函数为ReLU；

第三层：全连接层，输入为512，输出为1024，激活函数为ReLU；

第四层：全连接层，输入为1024，输出为模态数据的维度，激活函数为ReLU。

当本方案采用上述提到的自编码器网络时，为了使自编码器网络能够准确地识别输入数据，并保证后续得到的连通图的准确性，本方案优选对模态数据进行归一化处理前还包括将模态数据转换为数据向量。

在步骤S4中，初始化每个模态数据对应的潜在表示为对应其的编码器输出，同时初始化连通图参数为元素全部相等的矩阵；

模态v对应的模态数据集的潜在表示

为模态数据

对应的潜在表示向量，初始化连通图S^v为全0.5的矩阵，连通图中0代表不相连，1代表相连。

在步骤S5中，根据各模态数据对应的编码器输出、解码器输出、连通图和潜在表示，采用损失函数计算损失值：

其中，

为损失值；

为模态v对应的中间变量，m为模态v的总数量；

为与连通图S^v相关的中间变量；

和

分别为模态v和k在连通图S^v的位置(i,j)上的值；v和k均为目标对象的模态；n^v为模态v对应的模态数据样本数；

为模态v对应模态数据集合中的第i个模态数据；

为数据向量

的解码器输出；

为模态数据

对应的解码器输出；

和

分别为模态数据

和

对应的潜在表示；

为2范数的平方；λ为损失函数的平衡系数；

为模态v对应相似性矩阵W^v位置(i,j)上的值；μ^v为惩罚项系数。

通过本方案构建的损失函数计算的损失值有助于快速实现损失函数的收敛，同时保证最后更新的网络参数的准确性，以进一步保证最终获得的连通图的准确性。

在步骤S6中，根据每个自编码器网络对应的损失值，进行梯度反向传播，更新自编码器网络的网络参数、连通图参数以及潜在表示直到损失函数收敛。

在步骤S7中，根据损失函数收敛时得到的每个模态数据集合的连通图，连接多个连通图中两个模态数据在超过半数连通图中都已连接的模态数据形成公共连通图。

实施时，本方案优选连通图中已连接的模态数据的确定方法为：

设置每个模态数据集合的相似性矩阵中前90％连接边的平均长度为阈值；

将阈值对应的连通图中位置(i,j)上的值与阈值对比：

当大于阈值时，视为位置(i,j)上的值对应的两个模态数据连通，否则不连通。

在步骤S8中，在公共连通图上进行子图划分，将独立的子图作为聚类的一个簇，得到多个目标对象最终的聚类结果。

下面结合具体的实例，对本方案提供的自动聚类方法的效果进行说明：

本试验例将本方案提出的自动聚类方法与目前国际上比较先进的方法在物体图片数据集Caltech-101-20、卫星地貌图片数据集Land-Use-21上进行实验对比。国际上比较先进的方法有k-means聚类方法、谱聚类算法、低秩表示学习(LRR)、深度典型相关性分析方法(DCCA)、基于自编码器的深度典型相关性分析(DCCAE)、潜在多视图表示学习(LMSC)、自权重多视图聚类方法(SwMC)和二值的多视图聚类方法(BMVC)等。

在试验对比时，使用衡量聚类效果常用指标，即标准化互信息(NMI)作为实验的量化指标，验证算法效果；NMI取值范围0～1，数字越大效果越好，为1时表示算法能完全正确的将数据聚类正确。NMI计算方式如下：

其中，Y是算法预测类别信息，C是数据实际类别信息，H(·)代表信息熵，I(Y；C)代表互信息。

实验一：使用数据集Caltech-101-20，其包含2386张来自20个物体类别的图片，使用6个提取的特征作为6个模态，包含Gabor、WM、CENTRIST、HOG、GIST和LBP。实验数据类别信息和样本数量分布如下：

实验结果如下：

从表格中可以看到，本方案提供的方法相比其他聚类方法在标准化互信息这一指标上有比较大的提升，意味着在实际应用中能很好的将物体图片数据聚类正确，避免了耗费大量人力资源用于图片分类。同时本方法相比其他方法无需指定聚类数目(即21)，仍能正确分类。

实验二：使用数据集Land-Use-21，其包含2100张来自21个地貌类别的图片(每类100张图片)，使用3个提取的特征作为3个模态，包含(GIST，PHOG和LBP)。实验对比k-means聚类方法、谱聚类算法、低秩表示学习(LRR)、深度典型相关性分析方法(DCCA)、基于自编码器的深度典型相关性分析(DCCAE)、潜在多视图表示学习(LMSC)和二值的多视图聚类方法(BMVC)等先进方法。

实验数据21类别信息分别如下(每类地貌包含100个样本图片)：

实验结果如下：

从表格中可以看到，本方案提供的方法相比其他聚类方法在标准化互信息这一指标上有比较大的提升，意味着能在实际应用中能很好的将地貌图片数据聚类正确，避免了耗费大量人力资源用于地貌分析。同时本方法相比其他方法无需指定聚类数目(即21)，仍能正确分类。