CN106127260A

CN106127260A - 一种新颖的多源数据模糊聚类算法

Info

Publication number: CN106127260A
Application number: CN201610518141.1A
Authority: CN
Inventors: 于剑; 刘烨; 詹德川
Original assignee: Nanjing University; Beijing Jiaotong University; Institute of Psychology of CAS
Current assignee: Nanjing University; Beijing Jiaotong University; Institute of Psychology of CAS
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-11-16

Abstract

本发明提供了一种多源数据模糊聚类方法。该方法主要包括：收集多源数据，该多源数据中的每个源中包括多个类，每个类又包括多个维度；构造多源数据的多源数据模糊聚类方法的目标函数，在目标函数中对多源数据中的每个源进行加权，对多源数据中的每个源中的不同类中的不同维度进行加权；对目标函数中的参数进行初始化处理后，对目标函数的聚类中心和参数进行重复更新、聚类处理，完成多源数据的聚类过程。本发明利用多源数据间的相关性以及不同特征对不同类别识别的贡献度的差异性，构造了一种即考虑不同视角加权又兼顾不同特征的权重不同的一种新的聚类算法，相较于其他的多源数据聚类算法，有更佳的解释性及更可靠的聚类结果。

Description

一种新颖的多源数据模糊聚类算法

技术领域

本发明涉及多源数据分析技术领域，尤其涉及一种多源数据模糊聚类方法。

背景技术

随着人们收集、存储、传输、管理数据的能力日益提高，各行各业已经从多种渠道/信道收集并积累了大量的数据资源。如《Nature》于2008年9月出版了一期大数据专刊，列举了在生物信息，交通运输，金融，互联网等多领域，多源数据已经在科学研究中扮演者越来越重要的角色。此类大数据的特点之一是混杂性，对此类大数据进行智能数据处理时需要特别关注这一性质。

数据的混杂性和数据的采集源十分相关，正是由于实际应用数据来源于多种渠道，使得对复杂对象、复杂应用的描述具有多源性，从而在数据存储和分析角度看来就具有了混杂性。例如，在互联网上，早期信息主要以文字形式存在，目前多媒体信息随处可见。据不完全统计，当前互联网上已有超过50亿幅图像，每年有超过310万小时的视频在互联网上播放。同时，新型感知输入设备(例如多种传感器)以及多媒体输入设备的出现，使得多源信息的大量收集成为可能。为了对这种具有多源特性的数据进行处理，使得计算机能够识别这些信息并加以合理利用，智能化多源信息处理变得尤为重要。

从不同信息源收集到的数据，可以看作是对同一事物从不同的角度或者不同途径的描述，也就是说，每个数据样本可能同时包含多个属性集，如果将每个属性集称为一个源或视图(view)，则每个源均可以得到与之相应的数据。按照拥有属性集的多少，可以将数据分为单源(single-view)数据和多源(Multi-view)数据。描述同一事物时，若仅采用单一属性(或特征)，则是单源，如人脸识别中的人脸图像、文本分类中的文本文档等；若采用多个属性的特征集合，则称为多源数据，又称为多类型(multi-type)、多角度(multi-outlooks)或多表示(nulti-represented)。比如网页可由两个源表示：刻画网页本身所包含信息的特征集构成第一个源，刻画超链接所包含信息的特征集构成第二个源；描述图像信息的文本及图像本身的视觉信息都可以描述图像；从不同角度观测所得的3D形状模型构成了不同的源表示；视频蕴含两种媒介信息：视觉信息和听觉信息；对于同一语义对象，不同的语言描述构成了此语义对象的不同源表示。现有技术中的一种多源数据的示意图如图1所示，因此，多源不仅可以表示数据的不同特征集，也可以用于表示数据的不同来源，还可以表示数据间不同关系。

针对多源数据，传统的机器学习算法主要有支持向量机(Support VectorMachines，SVM)、差异化分析(Discriminant Analysis)、核机器(Kernel Machines)、谱聚类(spectral Clustering)等。在上述方法中，通常是将所有的源直接串联成单个源，然后利用单源方法进行处理，但是这种方法在小样本的情况下容易出现过拟合现象，没有充分利用多源数据固有的异构性，同时也会出现数据冗余。相较于单源分析方法，多源数据分析(Multi-View Analysis)方法将每个源的结构特性考虑在内，充分利用源之间的互补信息或关联信息学习模型。这样不仅可以获得隐藏的知识和规律，同时也改善了学习的性能。然而，如果多源数据不能被合理利用，多源学习的性能反而会降低。要想获得较好的多源学习性能，一般需要满足两个重要的原则：一致性原则和互补性原则。

目前，多源学习日益受到众多研究者的关注，并已经广泛应用于各个领域，如图像分类、图像检索、情感分析等。已有研究结果表明，与单纯使用单源(或者简单的将多源数据串联成单源数据)相比，多源学习通过不同源数据的信息互补，往往取得更好的效果。

因此，多源学习研究受到越来越多的关注，许多有效的学习方法开始涌现出来。根据多源学习任务的不同来划分，多源学习方法主要分为：多源数据分类方法、多源数据聚类方法、多源特征选择/降维三部分，前两者属于分类器层面，后进属于数据预处理与特征表示阶段。

为了应对大规模的多源数据，人们希望通过计算机提高数据处理的效率。聚类算法作为一种无监督数据处理方式，受到了越来越多的关注。聚类算法相比较于监督学习方法，不需要已知样本数据的类别，因此有着广泛的应用。聚类算法根据其聚类结果，可以分为硬划分聚类算法以及软化分聚类算法。自Zadeh于1965提出模糊集的概念之后，软划分聚类即成为聚类算法中一个重要的分支。模糊C均值聚类算法(fuzzy C-means clusteringalgorithm)是经典的基于目标函数最小化的聚类算法。

目前，还没有一种有效地将聚类算法应用于多源学习研究的方案。

发明内容

本发明的实施例提供了一种多源数据模糊聚类方法，以实现有效地对多源数据进行聚类处理。

为了实现上述目的，本发明采取了如下技术方案。

一种多源数据模糊聚类方法，包括：

收集多源数据，该多源数据中的每个源中包括多个类，每个类的样本由不同维度的特征表示；

构造所述多源数据的多源数据模糊聚类方法的目标函数，在所述目标函数中对所述多源数据中的每个源进行加权，对所述多源数据中的每个源中的不同类中的不同维度进行加权；

对所述目标函数中的参数进行初始化处理后，对所述目标函数的聚类中心和参数进行迭代更新、聚类处理，完成所述多源数据的聚类过程。

进一步地，所述的构造所述多源数据的多源数据模糊聚类方法的目标函数，在所述目标函数中对所述多源数据中的每个源进行加权，对所述多源数据中的每个源中的不同类中的不同维度进行加权，包括：

构造所述多源数据的多源数据模糊聚类方法的目标函数J

J＝f(X，U，W，M，V，m，r)+φ(W)

式中，X为多源数据构成的矩阵，U为隶属度矩阵，V为聚类中心，W是对每个源的加权矩阵，M为对不同源中不同类的不同维度加权的矩阵，参数m，r分别为隶属度矩阵U以及特征加权矩阵M中的加权指数，φ(W)表示惩罚项。

进一步地，通过优化算法得到所述隶属度矩阵U，聚类中心V，源加权矩阵W和所述维度加权矩阵M。

进一步地，所述f为凸函数

进一步地，所述的对所述目标函数中的参数进行初始化处理后，对所述目标函数的聚类中心和参数进行重复更新、聚类处理，完成所述多源数据的聚类过程，包括：

初始化聚类隶属度矩阵U、聚类中心V、源加权矩阵W和特征加权矩阵M，并给定聚类个数，模糊指数m以及权值r参数，

更新聚类中心V，更新特征加权矩阵M，更新源加权矩阵W，更新隶属度矩阵U，对多源数据进行聚类处理；

重复执行所述更新聚类中心V，更新特征加权矩阵M，更新源加权矩阵W，更新隶属度矩阵U，对多源数据进行聚类处理的过程，直至完成所述多源数据的聚类过程。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过利用多源数据间的相关性以及不同特征对不同类别识别的贡献度的差异性，构造了一种即考虑不同源加权又兼顾不同特征的权重不同的一种新的聚类算法。本算法的显著优势是相较于其他的多源数据聚类算法，不仅学习聚类隶属度矩阵以及类中心，同时对不同的源以及不同的特征均进行加权，对影响数据聚类的各个因素的考虑更加全面，从而更好的学习数据的结构并且加强聚类结果的解释性，因此，可以得到更为贴合实际的聚类结果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的一种多源数据描述的示意图；

图2为本发明实施例提供的一种多源数据模糊聚类方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

随着科技的发展，人们收集到的数据越来越多，聚类作为一种无监督学习方法得到越发广泛的关注。数据的混杂性和数据的采集源十分相关，从不同信息源收集到的数据，可以看作是对同一事物从不同的角度或者不同途径的描述，也就是说，每个源均可以得到与之相应的数据。因此，对多源数据的处理，亦成为一个值得研究的问题。对于多源数据的处理，也存在着类标信息缺失的问题。通过多源数据聚类方法，可以初步的将数据进行类别划分。也就是说，最终得到的类，满足类内相似度高类间相似度低的特性。因此，在进行后续的数据处理时，我们可以对彼此间相似的数据采用同一类型的处理方法，从而大大减小后续处理的复杂度。

本发明实施例的目的就是提供一种新颖的多源数据模糊聚类算法来解决传统的多源数据聚类算法汇总存在的问题。本发明实施例提出了一种加权多源数据模糊C均值聚类算法，结合模糊C均值算法与加权聚类思想，旨在对多源数据进行聚类。本发明实施例不仅对不同的源进行加权，同时对不同类的不同特征进行加权。

本发明实施例提供的一种多源数据模糊聚类方法的处理流程如图2所示，包括如下的处理步骤：

步骤1、首先通过互联网以及其他途径收集多源数据，该多源数据中的每个源中包括多个类，每个类的样本也均由不同维度的特征表示；然后对多源数据进行清洗，主要去除多源数据中的噪声以及离群点数据；

我们收集的多源数据包括CMU PIE人脸数据库，Handwritten Numerals数据集等。

步骤2、根据本发明提出的多源数据模糊聚类算法对多源数据进行聚类。

本发明实施例提出的多源数据模糊聚类算法的目标函数为：

J＝f(X，U，W，M，V，m，r)+φ(W) (1)

式中，X为多源数据构成的矩阵，U为隶属度矩阵，V为聚类中心，W是对每个源的加权矩阵，M为对不同源中不同类的不同维度加权的矩阵。参数m，r分别为隶属度矩阵U以及特征加权矩阵M中的加权指数。目标函数中的φ(W)表示惩罚项，例如我们选择熵作为惩罚项，那么表示每个源的权重尽量不平均，从而使得对聚类结果有更为突出贡献的源具有更高的权重。

通过优化算法，可以得到隶属度矩阵U，聚类中心V，源加权矩阵W以及维度加权矩阵M。

f为一个凸函数，例如二范数或者其他函数。当f函数给出明确定义，便可以选择相应的优化算法求解上述矩阵：U，V，M，W等。例如，可以用拉格朗日乘子法求解约束优化问题。

从上述目标函数可以看出，本发明首先对每个源进行加权从而使区分不同源得到的信息对聚类结果的影响程度。同时我们用基于熵的方法控制源权重的模糊程度。其次，对每个源，不同类中的不同维度被赋予不同的权重。例如，可以用表示第v个源中的第i个类的第d个维度的权重。通过这样的加权，我们不但考虑了不同源对聚类结果的贡献度，同时也考虑了不同特征维度对聚类结果的贡献度。

初始化：用户初始化聚类隶属度矩阵U、聚类中心V、源加权矩阵W和特征加权矩阵M，并给定聚类个数，模糊指数m以及权值r等参数

更新聚类中心V；

更新特征加权矩阵M；

更新源加权矩阵W；

更新隶属度矩阵U；

当多次迭代后的隶属度矩阵U或者聚类中心不发生明显改变，即说明算法收敛，输出聚类结果；

重复执行所述更新聚类中心V，更新特征加权矩阵M，更新源加权矩阵W，更新隶属度矩阵U，直至完成所述多源数据的聚类过程。

通过上述迭代，我们不仅可以得到不同源中数据的聚类中心，同时可以得到隶属度矩阵。隶属度表示不同样本隶属于不同类的程度，也就是说，得到了隶属度矩阵，我们就可以对数据进行聚类。具有高的隶属度，说明该样本属于该类的概率更高，而小的隶属度表示该样本很可能不属于该类。

通过优化算法，我们可以得到为隶属度矩阵U，聚类中心V，源加权矩阵W以及维度加权矩阵M。具体更新过程与选择的f函数的不同而不同，更新过程又与所初始化的矩阵不同而不同。

步骤3、根据聚类结果对多源数据进行分析以及更深层次的数据挖掘。

通过本发明方法提出的一种新颖的多视图聚类算法聚类后得到的结果，我们可以判定多源数据所述类别。随着科技的发展，人们可以得到的数据量日益增多，并且大部分的数据都是无类标信息的。因此，通过聚类方法，可以初步的将数据进行类别划分。也就是说，最终得到的类，满足类内相似度高类间相似度低的特性。因此，在进行后续的数据处理时，我们可以对彼此间相似的数据采用同一类型的处理方法，从而大大减小后续处理的复杂度。

综上所述，本发明实施例通过利用多源数据间的相关性以及不同特征对不同类别识别的贡献度的差异性，构造了一种即考虑不同源加权又兼顾不同特征的权重不同的一种新的聚类算法。本算法的显著优势是相较于其他的多源数据聚类算法，不仅学习聚类隶属度矩阵以及类中心，同时对不同的源以及不同的特征均进行加权，对影响数据聚类的各个因素的考虑更加全面，从而更好的学习数据的结构并且加强聚类结果的解释性，因此，可以得到更为贴合实际的聚类结果。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多源数据模糊聚类方法，其特征在于，包括：

2.根据权利要求1所述的多源数据模糊聚类方法，其特征在于，所述的构造所述多源数据的多源数据模糊聚类方法的目标函数，在所述目标函数中对所述多源数据中的每个源进行加权，对所述多源数据中的每个源中的不同类中的不同维度进行加权，包括：

构造所述多源数据的多源数据模糊聚类方法的目标函数J

J＝f(X，U，W，M，V，m，r)+φ(W)

3.根据权利要求2所述的多源数据模糊聚类方法，其特征在于，通过优化算法得到所述隶属度矩阵U，聚类中心V，源加权矩阵W和所述维度加权矩阵M。

4.根据权利要求3所述的多源数据模糊聚类方法，其特征在于，所述f为凸函数

5.根据权利要求2或3或4所述的多源数据模糊聚类方法，其特征在于，所述的对所述目标函数中的参数进行初始化处理后，对所述目标函数的聚类中心和参数进行重复更新、聚类处理，完成所述多源数据的聚类过程，包括：