CN110188812A

CN110188812A - 一种快速处理缺失异构数据的多核聚类方法

Info

Publication number: CN110188812A
Application number: CN201910438138.2A
Authority: CN
Inventors: 向凌云; 赵国汗; 王进; 曾道建; 李文军; 王磊
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-30

Abstract

本发明公开了一种快速处理缺失异构数据的多核聚类方法，包括如下步骤：步骤1，对缺失的多源异构数据进行0填充初始化；步骤2，将初始化后的多源异构数据利用多个基核函数进行多核学习，生成多核矩阵；步骤3，对于生成的多核矩阵，进行多核聚类生成伪标签；然后，使用低秩估计对组成多核矩阵的每个基核矩阵进行缺失值的更新；步骤4，基于聚类的结果，使用超限学习机学习多核联合系数。本发明中使用多核聚类方法实现快速对异构数据的学习，核补全技术的使用充分补全了缺失数据的信息，提升了聚类性能，解决了传统多核聚类方法无法有效处理多源异构数据的问题。

Description

一种快速处理缺失异构数据的多核聚类方法

技术领域

本发明属于数据挖掘和机器学习领域，涉及一种多核聚类方法，具体涉及一种用于处理缺失异构数据的多核聚类方法，可应用于Web数据分析、生物信息分析、金融投资分析、智能医疗分析等领域。

背景技术

随着计算机领域的发展，“互联网+”的理念渗透到各行各业中。在大数据时代下，这些领域的数据具有不同的数据格式且来源多样化，趋向多源异构化。来自于多个数据源且具有不同类型、结构和分布等特性的数据称为“多源异构数据”。例如：设计推荐系统时所分析的数据可能同时包含来自推特、脸书或YouTube等多个社交平台的文本、图像和视频等不同类型的数据。由于多源异构数据的复杂性，其类别标签信息通常是不可用的或获取成本高，为了在多源异构数据中挖掘出更高价值的信息，迫切需要研究能同时从多个数据源中整合异构信息且不需要数据标签信息的聚类方法。

聚类是机器学习和数据挖掘领域中的一种基本数据分析方法，其目的在于利用数据中的潜在数据结构，将数据集划分为若干个聚类簇，使得同一簇中的数据点之间的相似性较高，不同簇间数据点的相似性较低。常用于处理传统数据的聚类方法可分为基于原型、基于层次、基于密度、基于网格、基于图和基于模型等聚类方法，但是这些方法不能有效地处理来自多个数据源的异构数据。不同于传统的聚类，多核聚类是多核学习与聚类算法相结合的一类专门用于处理多源异构数据的方法。多核聚类能融合多个数据源的异构信息，充分利用多源数据中的有用信息提高多源异构数据的聚类结果。

尽管现有的多核聚类算法在多源异构数据的分析处理上获得了比传统聚类方法更优的性能，但不能有效地处理缺失异构数据。在现实生活的数据采集过程中，通常存在数据缺失的情况，如人为操作的不当使得某些样本在某个数据源中的数据没有被存储，而这些样本在其他数据源中对应的数据是完整的。在对缺失异构数据进行数据分析时，若直接舍弃所有不完整的样本，则会导致样本容量较小，不能最大程度地提取多源异构数据中的信息。因此，目前通常采用填充的方式来解决。常见的填充方法有：均值填充、k近邻填充、最大期望填充等。经过填充后的数据将被视为完整数据来进行后续的多核聚类等分析。但这种直接生硬的填充方式并不能保证填充缺失值后的数据分布和原始数据保持一致，因此，容易导致从数据中提取的有效信息大打折扣，因此需要更好的填充方法来提高多核聚类的性能。

鉴于上述问题，本发明提出了一种用于有效处理缺失异构数据的多核聚类方法，其为一种面向缺失多源异构数据的多核聚类方法。该方法不仅可以提高在多源异构数据部分样本缺失情况下的聚类效果，还能通过不断的聚类学习对缺失数据对应的核矩阵进行填充与更新，最终学习到能反映多源异构数据分布的最佳核联合矩阵。与其他多核聚类方法相比，本方法利用超限学习机学习核联合系数加快了学习速度。该方法可广泛应用于Web数据分析、生物信息分析、金融投资分析、智能医疗分析等领域。

发明内容

为实现本发明之目的，采用以下技术方案予以实现：

一种快速处理缺失异构数据的多核聚类方法，包括如下步骤：步骤1，对缺失的多源异构数据进行0填充初始化；步骤2，将初始化后的多源异构数据利用多个基核函数进行多核学习，生成多核矩阵；步骤3，对于生成的多核矩阵，进行多核聚类生成伪标签；然后，使用低秩估计对组成多核矩阵的每个基核矩阵进行缺失值的更新；步骤4，基于聚类的结果，使用超限学习机学习多核联合系数。

所述的方法，其中：步骤1中，X⁽¹⁾-X^(m)表示多个数据源的数据，将数据源的数据用矩阵X(i)表示，1≤i≤m,对X(i)中数据值缺失的样本的数据值用0填充。

所述的方法，其中：步骤2包括利用预先定义的多个基核函数对所有数据源的数据分别进行单核映射，再为每个映射给定相对应的权重来生成多核学习空间，其中一个基核函数对应一个数据源。

所述的方法，其中：单个基核函数的计算所得到的单核矩阵公式如下：

其中xi是某个数据源数据中的第i个样本,1≤i≤n，k(·)为核函数。

所述的方法，其中：新的多核矩阵的公式如下所示：

K_new＝μ₁K₁+μ₂K₂+...+μ_iK_i+...+μ_mK_m (2)

其中K_i,μ_i分别表示第i个基核矩阵与第i个基核矩阵的权重系数，1≤i≤m。

所述的方法，其中步骤3包括：采用多核K均值聚类分析时，在其损失函数中添加新的约束条件,最终的损失函数表示如下：

其中矩阵K为多核矩阵，H为簇分配矩阵，包含了数据样本的标签信息，μ为多核联合系数μ＝{μ₁,μ₂,…,μ_m}，约束条件1保证了簇分配矩阵是正交的；约束条件2限制了多核系数不能为负值，且所有多核系数之和为1；约束条件3表明了第p个核矩阵中非缺失值的情况。

所述的方法，其中：利用公式(4)优化缺失多核矩阵以更新矩阵中的缺失值：

其中H是通过公式(3)所求的簇分配矩阵，1≤i≤m，是通过低秩估计所得到的第i个基核矩阵的填充后的矩阵。

所述的方法，其中步骤4包括：通过超限学习机求得多核联合系数：

其中，I是单位矩阵，p为权衡参数，K_new为经过步骤3核估计之后使用公式2所得到新的缺失多核矩阵。

所述的方法，其中：设定一个阈值θ，当设定的损失函数值大于阈值时，步骤3中基于多核矩阵的聚类的结果指导缺失多核矩阵的优化；否则，得到最终的聚类结果，采用公式如下：

其中是聚类损失函数如公式(3)所示，i代表循环的次数。θ为判断循环是否终止的阈值。

附图说明

附图1为本发明的流程图；

附图2为多源异构数据示例图(蛋白质)；

附图3为基于0填充的多源异构数据初始化；

附图4为基于线性组合的多核学习过程；

附图5为单核映射过程；

附图6为基于低秩估计的核补全聚类过程；

附图7为聚类性能对比实验仿真；

附图8为收敛速度对比实验仿真。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明：

如图1所示。本发明的输入为带有部分缺失值的多源异构数据，快速处理缺失异构数据的多核聚类方法的流程主要包括四个步骤：第一步，对缺失的多源异构数据进行0填充初始化；第二步，将初始化后的多源异构数据利用多个基核函数进行多核学习，生成多核矩阵；第三步，对于生成的多核矩阵，进行多核聚类生成伪标签；然后，使用低秩估计对组成多核矩阵的每个基核矩阵进行缺失值的更新；第四步，基于聚类的结果，使用超限学习机学习多核联合系数。在第三步中聚类时，本发明设定了一个收敛条件，当不满足收敛条件时，分别对单个基核矩阵进行数值更新与多核联合系数的学习，生成新的多核矩阵然后重复执行第三步和第四步，否则，输出聚类的结果。

具体来说：

步骤一：基于0填充的多源异构数据初始化

本发明以生物信息分析中的蛋白质数据为例来阐述本发明的基本流程。图2显示了多源异构的蛋白质数据。图中可以看出：蛋白质的RNA表示、交互性、疏水性、基因序列等数据来自不同的数据源且具有不同的数据结构。数据的来源多样容易导致一个蛋白质样本在不同来源中存在缺失。本发明的方法在处理多源异构数据时，需要将这些缺失的数据赋予相对应的初始值。本发明采用填充0的方式来进行初始化，如图3所示：图3中左侧的X⁽¹⁾-X^(m)表示数据源的数据，其中数据源中每一列表示一个样本的数据，“？”表示某个样本数据值缺失，将数据源的数据用矩阵X⁽ⁱ⁾表示，1≤i≤m,，在X⁽ⁱ⁾中，一行代表一个样本的数据值，对数据值缺失的样本的数据值用0填充，即形成初始化后数据源的数据矩阵。

步骤二：基于线性组合的多核学习

在数据初始化之后，缺失的数据被视为完整的数据进行多核学习。首先通过预先定义的多个基核函数对原数据即所有数据源的数据分别进行单核映射，再为每个映射给定相对应的权重来生成多核学习空间，其中一个基核函数处理一个数据源的数据。多核学习过程如图4所示。

以多项式核和高斯核为例的单个基核函数对数据的处理过程如图5所示。在图5中，异构数据在原空间中是线性不可分的，类与类之间的边界并不明显，然而数据分别通过多项式核或者高斯核等基核函数映射之后，数据在核映射空间中的可分性变得十分明显。单个核函数的计算公式如下：

其中x_i是某个数据源数据中的第i个样本(1≤i≤n)，k(·)为基核函数，常用基核函数公式举例如下：

线性核函数：k(x,y)＝x^ty

多项式核函数：k(x,y)＝(ax^ty+c)^d

高斯核函数：

Sigmoid核函数：k(x,y)＝tanh(ax^ty+c)

Log核函数：k(x,y)＝-log(1+||x-y||^d)

，基核函数用于度量样本之间的相似度，每一个基核函数都会将数据进行核映射生成一个半正定对称核矩阵K，核矩阵可以反映出原始数据空间中各个样本之间的相似度，每个数据源数据采用一个不同的核函数进行处理。

在处理异构数据时，使用单个核函数进行处理时很难找到一个合适的再生希尔伯特空间，使得数据被映射到该空间中之后具有良好的可分性,因此我们使用多个核函数来捕捉数据的特征来提高可分性。我们会先定义多个基核函数，例如上面所提到基核函数，分别进行核函数映射后，得到多个基核矩阵，然后赋予每一个基核矩阵一个相应的权重，然后将每个基核矩阵与其对应的核权重系数进行组合生成新的核矩阵。新的多核矩阵的公式如下所示：

K_new＝μ₁K₁+μ₂K₂+...+μ_iK_i+...+μ_mK_m (2)

其中K_i,μ_i分别表示第i个基核矩阵与第i个基核矩阵的权重系数，1≤i≤m，μ_i的初始值可选1/m。组合的多核矩阵包含了来自不同单核函数所提取的数据特征。通过调整基核矩阵的权重系数可以寻找到合适的再生希尔伯特空间，提取到更好的数据特征，因此在后面的步骤中将在优化基核矩阵的同时，自动学习多核联合系数(基核矩阵的权重系数μ₁-μ_m)，以优化学习到的多核矩阵。

步骤三：基于低秩估计的核补全聚类

当把初始化的异构数据进行多核学习生成多核矩阵时，由于该多核矩阵学习的是填充后的数据，并不能反应真实数据的分布和特征。因此，对于该缺失的多核矩阵，我们将利用多核学习，通过对不完整数据学习获得特征，再使用矩阵的低秩相似性去估计缺失的特征。具体实现时，从单个核矩阵出发，抽取矩阵的低秩结构，由于单个特征数据之间的联系反映了缺失值与低秩结构的关系，因此，利用单个核矩阵内部与每个单核矩阵之间的低秩关系来对缺失的特征进行估计。通过核矩阵与核矩阵之间的低秩结构对比，能够从不同特征中捕获缺失值与非缺失值之间的关系，从数据内部结构对矩阵中的缺失值进行指导性的更新与填充。

在对缺失核矩阵进行更新与填充时，除了考虑到单个核矩阵之间的结构相似性，还将利用多核矩阵的全局特征。首先，使用多核K-均值聚类分析算法对多核矩阵进行处理，即使用聚类生成的标签来反映数据的全局特征；然后，将生成的标签即“伪标签”与单个核矩阵的低秩特征相结合分别单独地对每个单核矩阵进行缺失值的填充与更新。

面对数据缺失的情况，本方法采用多核K均值聚类分析时，将在其损失函数中添加新的约束条件来解决，最终的损失函数表示如下：

其中矩阵K为多核矩阵，H为簇分配矩阵，亦称伪标签，包含了数据样本的标签信息，μ为多核联合系数，T_r为矩阵的迹，I_n为n阶单位矩阵，I_k为k阶单位矩阵，1_m为数值为1的m维列向量，为核矩阵中未缺失样本的表示。约束条件1保证了簇分配矩阵是正交的；约束条件2限制了多核系数不能为负值，且所有多核系数之和为1；约束条件3表明了第p个核矩阵中非缺失值的情况。

为了最小化簇分配矩阵、优化缺失多核矩阵以更新矩阵中的缺失值、更新核矩阵系数，我们采用方法进行优化，该方法是一种低秩矩阵近似法：

其中H是通过公式(3)所求的簇分配矩阵，1≤i≤m，是通过低秩估计所的到的第i个核矩阵的填充后的矩阵，从上式可以看出，对于每个单独的基核是单独进行更新的，从而避免了低秩相似补全所造成的数据结构信息的缺失，一定程度上还原了缺失矩阵的缺失值，从而让核矩阵中填充的值更能真实地反映出真实的数据结构特征，提高聚类的性能。

基于低秩估计的核补全聚类的全过程如图6所示。

步骤四：基于超限学习机的多核联合系数学习

通过步骤三更新每个基核矩阵之后，需要重新对更新后的基核矩阵进行线性组合，从而得到最佳的多核矩阵。重新进行线性组合的方式便是学习多核联合系数，即对于提高学习效果的核函数分配更高的权重，从而得到最佳的多核联合方案，找到最佳的再生核希尔伯特空间，以致于得到更好的聚类效果。本方法将多核联合系数的求解转化成一个回归的问题，通过超限学习机求得多核联合系数：

其中，I是单位矩阵，p为权衡参数(用于将单位矩阵调节到与缺失多核矩阵K相同的量级)，K_new为经过步骤三核估计之后使用公式2所得到新的缺失多核矩阵。与其他多核聚类不同，本发明使用超限学习机去快速求得多核联合系数的一个解析解，而不是迭代求解。因此，所提出的方法相比于其它多核聚类算法更加具有实用价值。

通过基核矩阵和多核联合系数的更新，可以学习到优化的多核矩阵，这是一个迭代优化的过程。因此，我们设定一个阈值θ，当设定的损失函数值大于阈值时，第三步中基于多核矩阵的聚类的结果指导缺失多核矩阵的优化；否则，得到最终的聚类结果(H和K)。采用公式如下：

其中是聚类损失函数，如公式(3)所示，i代表循环的次数。θ为判断循环是否终止的阈值。上述公式的意义在于第i次循环中的损失值与上一次循环中损失值的差值小于所设定的阈值，那么就意味着，我们找到了最佳的多核矩阵和聚类结果。

对比实验仿真：

图7为在3个UCI数据集Iris、Seed和Lib上，本发明提出的方法与其他处理缺失数据方法的聚类结果，其中proposed为采用本发明处理数据后的曲线。对比的方法分别为基于0填充(ZF)、均值(MF)、k近邻(KNN)、对齐填充(AF)、不完整内核填充(IK)的多核k均值聚类(MKKM)。UCI数据库是加州大学欧文分校(University of California Irvine)提出的用于机器学习的数据库，现有335个数据集，是一个常用的标准测试数据集。实验表明，本发明在数据缺失率较高的情况下，仍然能取得较好的聚类结果。

为了验证本发明的方法在速度上的优势，在四个不同的UCI多源异构数据集Biodeg、Libras Movement、WineQuarity、Image Segment上测试了其收敛性能。如图8所示，从实验仿真结果可以看出本发明提出的方法在四个数据集上经过两次迭代之后，其聚类损失函数趋于稳定，即算法已经达到收敛条件，具有高收敛速度。

Claims

1.一种快速处理缺失异构数据的多核聚类方法，其特征在于包括如下步骤：步骤1，对缺失的多源异构数据进行0填充初始化；步骤2，将初始化后的多源异构数据利用多个基核函数进行多核学习，生成多核矩阵；步骤3，对于生成的多核矩阵，进行多核聚类生成伪标签；然后，使用低秩估计对组成多核矩阵的每个基核矩阵进行缺失值的更新；步骤4，基于聚类的结果，使用超限学习机学习多核联合系数。

2.根据权利要求1所述的方法，其特征在于：步骤1中，X⁽¹⁾-X^(m)表示多个数据源的数据，将数据源的数据用矩阵X(i)表示，1≤i≤m,对X(i)中数据值缺失的样本的数据值用0填充。

3.根据权利要求1所述的方法，其特征在于：步骤2包括利用预先定义的多个基核函数对所有数据源的数据分别进行单核映射，再为每个映射给定相对应的权重来生成多核学习空间，其中一个基核函数对应一个数据源。