CN112766425A

CN112766425A - 一种基于最优传输的深度缺失聚类机器学习方法及系统

Info

Publication number: CN112766425A
Application number: CN202110321532.5A
Authority: CN
Inventors: 朱信忠; 徐慧英; 王思为; 刘新旺; 赵建民
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-05-07
Also published as: ZA202207732B; LU503091B1; WO2022199432A1

Abstract

本发明公开了一种基于最优传输的深度缺失聚类机器学习方法及系统，其中涉及的一种基于最优传输的深度缺失聚类机器学习方法，包括：S11.获取聚类任务和目标数据样本；S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性，得到第一聚类结果；S13.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失，得到优化目标函数；S14.基于得到的优化目标函数将填充任务与聚类任务相融合，并对缺失特征部分的缺失值进行填充，得到最终的聚类结果。

Description

一种基于最优传输的深度缺失聚类机器学习方法及系统

技术领域

本发明涉及计算机视觉和模式识别技术领域，尤其涉及一种基于最优传输的深度缺失聚类机器学习方法及系统。

背景技术

聚类是将一组给定的数据依据它们的相似性划分为不同的簇，该划分使得相同簇中的样本尽量相似，不同簇中的样本尽量不同。常见的聚类方法包括k-means聚类、谱聚类及核k-means聚类。这些聚类算法在机器学习、模式识别、机器视觉、数据挖掘等领域被广泛研究，并已成功应用于图像分割、轨迹线分析、异常检测、目标跟踪、场景发现、社交网络等诸多领域。

影响聚类性能的关键要素是如何计算样本间的相似度，其依赖于数据特征。数据挖掘中的数据往往都不可避免的存在着缺失数据、冗余数据、不确定数据和不一致数据等多种问题。在各个领域中，缺失数据这一问题都是不容忽视的。尤其是目前的数据收集工作，已渐渐从人工搜集转变为机器搜集。并且，由于数据量的急速膨胀，导致各种数据质量问题屡见不鲜，在这中间数据缺失尤为常见。导致数据中存在大量“空值”的因素有许多，例如数据收集条件的制约、度量方法错误、人工录入时出现遗漏和违反数据约束等。在某些领域中的数据库中缺失值比例高达50%～60%以上。这些不完整的数据不仅意味着信息空白，更重要的是它会影响后续数据挖掘抽取模式的正确性和导出规则的准确性。因此，如何处理缺失数据已成为数据清洗及数据预处理领域研究的主要问题之一。

不完整数据的存在使得利用所有数据样本的信息进行聚类变得异常困难。一个直接的补救措施就是先用一种填补算法来填补缺失值，然后利用一种标准的聚类算法进行聚类。现有的缺失聚类算法可以分为两大类：基于启发式的缺失聚类算法和基于学习式的缺失聚类算法。基于启发式的缺失聚类算法的基本思想是将缺失对象按照一定方法进行缺失值的填充，之后就可以应用已知的单视图聚类算法。启发式的填充算法主要基于数据的统计属性，他们中的大多数使用统计属性来估计缺失的功能值，例如零填充，均值填充和中位数填充。K近邻（KNN，K-Nearest Neighbor）插补方法已被认为是用平均拟合可靠邻居的均值来估计缺失特征的一种替代方法。此外，贝叶斯框架与先前的方法的不同，它考虑了处理不完整特征的联合和条件分布。最受欢迎的方法是最大化期望（EM）算法，这些补全的方法在缺失比例较少时能获得比较满意的实验结果。近年来，基于学习的填充方法受到了极大的关注，并成为主流。现有的工作可以分为浅层和深度学习框架。浅层代表通常假定数据是低维度的，因此应用迭代方法来恢复缺失值。随着深度学习架构的改进，已经提出了各种深度网络来处理不完整性。深度方法的一个理想属性是它们可以准确地推断数据的联合和边际分布。因此，生成式网络的各种变体被提出，包括生成对抗网络（GAN）和变体自动编码器（VAE）。深度缺失聚类中现有的方法也是两阶段的聚类，即用深度神经网络先学习到数据填充，再用传统的方法进行聚类任务。

尽管现有的聚类算法在理论上和实际应用中均取得了极大成功，但所有的聚类算法都遵循一个共同的假设：数据集是完整的。无论是浅层还是深度网络都无法直接处理缺失数据，因此现有的算法存在以下几点不足：（1）两阶段的缺失聚类算法，即缺失数据的填充任务和聚类任务是分开的，缺失数据的填充任务无法为聚类任务服务，限制了甚至降低了聚类任务的性能。（2）当面对高维数据（例如图像，文本）时，由于缺乏足够的估算信息而观察到的信息不足，因此存在的浅层和深层方法均表现不佳。这些会导致聚类任务性能急剧下降。（3）密集的计算复杂度和空间复杂度，限制了这些算法被应用于中型或大型集群任务。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于最优传输的深度缺失聚类机器学习方法及系统。

为了实现以上目的，本发明采用以下技术方案：

一种基于最优传输的深度缺失聚类机器学习方法，包括：

S1.获取聚类任务和目标数据样本；

S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性，得到第一聚类结果；

S3.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失，得到优化目标函数；

S4.基于得到的优化目标函数将填充任务与聚类任务相融合，并对缺失特征部分的缺失值进行填充，得到最终的聚类结果。

进一步的，所述步骤S3中得到的优化目标函数，表示为：

其中，L表示优化后的目标函数；L _c表示聚类损失函数；L _s表示重构损失函数；γ表示超参数，用来衡量两个损失的权重。

进一步的，所述步骤S3中建立神经网络结构中的聚类损失，表示为：

其中，L _c表示聚类损失函数；P表示聚类分配矩阵；Q表示聚类分配矩阵的目标分布；p _ij表示第i个样本属于第j个簇的概率；q _ij表示p _ij中的元素高置信度的增量分布。

进一步的，所述步骤S3中建立神经网络结构中的重构损失，表示为：

其中，L _s表示重构损失函数；X表示初始填充后的输入数据矩阵；

表示重构样本矩阵；f _d(f _e(X))表示经过神经网络结构的编码器、解码器重构后的数据矩阵；S _ϵ表示 sinkhorn散度。

进一步的，所述聚类分配矩阵P表示为：

其中，p _ij表示第i个样本属于第j个簇的概率；μ _j表示第j个聚类中心；z _i表示第i个中间变量。

进一步的，所述第i个中间变量z _i表示为：

其中，f _e表示编码器；f _d表示解码器；x _i表示初始填充后输入的第i个样本；z _i表示第i个中间变量；

表示第i个重构样本。

进一步的，所述聚类分配矩阵的目标分布Q表示为：

其中，q _ij表示p _ij中的元素高置信度的增量分布。

进一步的，所述sinkhorn散度S _ϵ表示为：

其中，α，β表示两种数据分布；OT_ϵ (α,β)表示α和β之间经过熵正则化放松后的最优传输距离，表示为：

其中，T∈U(a,b)表示(a,b)的联合分布；a,b表示分布α和β的两个概率分布向量，满足

，

，C表示度量函数；h(T)表示熵正则化；ϵ 表示衡量熵正则化程度的超参数；n和n'分别表示原始分布和目标分布的样本个数；u _i和v _j 分别表示分布α和β的第i和第j个样本，t _ij表示联合分布T中第i行第j列元素的值。

进一步的，所述步骤S4具体为：

S41.基于得到的优化目标函数将填充任务与聚类任务相融合；

S42.根据第一聚类结果填充缺失值，得到第二聚类结果；

S43.依次根据得到的聚类结果填充缺失值，得到最终的聚类结果。

相应的，还提供一种基于最优传输的深度缺失聚类机器学习系统，包括：

获取模块，用于获取聚类任务和目标数据样本；

第一填充模块，用于将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性，得到第一聚类结果；

构建模块，用于通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失，得到优化目标函数；

第二填充模块，用于基于得到的优化目标函数将填充任务与聚类任务相融合，并对缺失特征部分的缺失值进行填充，得到最终的聚类结果。

与现有技术相比，本发明提出了一种基于最优传输的深度缺失聚类机器学习方法，该方法将填充任务与聚类任务相结合，在聚类结果的引导下填充缺失值，用动态填充的值再进行模型聚类。为了避免可观测数据的不足带来的训练不足的问题，提出了一种新颖的端到端深度聚类网络来保存数据分布，这是通过最小化原始分布和重构分布之间的最优传输距离来实现的。并且本发明对潜在分布进行了约束，以进一步提高聚类性能。在统一损失函数的指导下，网络对潜在表示进行解码，从而有助于更好的数据恢复和聚类。在具有各种不完整比率的六个高维基准数据集上进行了综合实验。实验结果表明，所提出的网络在性能上远胜于最新的不完全聚类方法。

附图说明

图1是实施例一提供的一种基于最优传输的深度缺失聚类机器学习方法流程图；

图2是实施例三提供的一种基于最优传输的深度缺失聚类机器学习系统结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明针对现有缺陷，提供了一种基于最优传输的深度缺失聚类机器学习方法及系统。

实施例一

本实施例提供的一种基于最优传输的深度缺失聚类机器学习方法，该方法将填充任务与高斯混合模型聚类相融合，在聚类结果的引导下填充缺失值，用动态填充的值再进行高斯混合模型聚类；如图1所示，包括：

S11.获取聚类任务和目标数据样本；

S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性，得到第一聚类结果；

S13.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失，得到优化目标函数；

S14.基于得到的优化目标函数将填充任务与聚类任务相融合，并对缺失特征部分的缺失值进行填充，得到最终的聚类结果。

在步骤S12中，将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，基于填充任务对缺失特征部分进行初始均值填充并保持可观测特征部分的不变性，得到第一聚类结果。

可观测特征部分表示完整的特征部分，不需要填充；缺失特征部分表示需要填充的特征部分，进行初始均值填充。

在步骤S13中，通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失，得到优化目标函数。

步骤S13具体为：

首先通过自编码器求得中间变量和重构样本，表示为：

表示第i个重构样本。

通过求得网络中间潜在变量Z可以得到聚类分配矩阵P，表示为：

其中，p _ij表示第i个样本属于第j个簇的概率；μ _j表示第j个聚类中心；z _i表示第i个中间变量。该公式的分母表示一个归一化过程，通过P可以得到聚类分配结果，P中各样本中最大值所在的列即为该样本的聚类结果。

通过聚类分配矩阵P，计算正则化潜在的目标分布Q，可以进一步增强任务性能，目标分布Q表示为：

其中，q _ij表示p _ij中的元素高置信度的增量分布。该公式的分母也表示一个归一化过程。

在本实施例中，不需要预先定义目标分布，而是通过聚类分配矩阵P和目标分布Q的KL散度定义为聚类损失，表示为：

其中，L _c表示聚类损失函数；P表示聚类分配矩阵；Q表示聚类分配矩阵的目标分布，目标分布Q有以下属性：（1）更强的预测性；（2）更加重视高置信度分配的数据点；（3）归一化每个质心的损失贡献，以防止大的簇破坏隐藏特征空间的结构。其中p _ij表示第i个样本属于第j个簇的概率，q _ij表示p _ij中的元素高置信度的增量分布。

在本实施例中，采用最优传输距离来重构数据，与以往的逐像素点重建不同，本实施例的方法计算重构样本与原始样本之间的分布距离，即重构函数，表示为：

表示重构样本矩阵；f _d(f _e(X))表示经过神经网络结构的编码器、解码器重构后的数据矩阵；S _ϵ表示sinkhorn 散度，且是最优传输的近似求解。

sinkhorn散度S _ϵ的定义如下：

，

根据上述内容，则得到的最终的优化目标函数，表示为：

在步骤S14中，基于得到的优化目标函数将填充任务与聚类任务相融合，并对缺失特征部分的缺失值进行填充，得到最终的聚类结果。

具体为：

S141.基于得到的优化目标函数将填充任务与聚类任务相融合；

S142.根据第一聚类结果填充缺失值，得到第二聚类结果；

S143.依次根据得到的聚类结果填充缺失值，得到最终的聚类结果。

具体为：

A.将初始均值填充后的数据（即第一聚类结果），按批次输入到神经网络中，得到中间潜在变量Z，聚类分配矩阵P，聚类分配目标矩阵Q，重构后的完整数据矩阵

并计算聚类损失和最优传输距离。

B.网络通过最小化聚类损失和最优传输距离通过小批量神经网络反向传播进行梯度下降，首先通过更新后的编码器参数更新中间潜在变量Z，进而得到聚类分配矩阵P以及聚类分配目标矩阵Q并更新聚类结果，此外，通过网络解码器部分更新完整数据矩阵

。

C.反复迭代步骤B，直至网络收敛，在此框架中网络收敛条件我们设定为由聚类指示矩阵求得的聚类结果变化率小于0.1%。停止训练并求得最终的聚类结果。

与现有技术相比，本实施例将填充任务与聚类任务相结合，在聚类结果的引导下填充缺失值，用动态填充的值再进行模型聚类。为了避免可观测数据的不足带来的训练不足的问题，提出了一种新颖的端到端深度聚类网络来保存数据分布，这是通过最小化原始分布和重构分布之间的最优传输距离来实现的。并且本实施例对潜在分布进行了约束，以进一步提高聚类性能。在统一损失函数的指导下，网络对潜在表示进行解码，从而有助于更好的数据恢复和聚类。

实施例二

本实施例提供的一种基于最优传输的深度缺失聚类机器学习方法与实施例一的不同之处在于：

本实施例在6个高维基准数据集上测试了本发明方法的聚类性能。

6个高维标准数据集包括Mnist，Usps，Fmnist, Reuters, COIL20, Letter。数据集的相关信息参见表1。

表1

本实施例分别将提出的基于最优传输的深度缺失聚类机器学习方法与几种常用的填充方法，包括均值填充（MF）、零填充（ZF）进行了比较。此外，本实施例还与最近提出的七种先进的填充方法进行了比较，包括三种浅层的方法：低秩填充（LRC），最大范数填充（MNC），有效低阶矩阵恢复的因子组稀疏正则化（FSGR），以及四种深度填充算法：通过生成对抗网络填充缺失数据（GAIN），任意条件的变分自编码器（VAEAC），深度生成建模和不完整数据集的插补（MIVAE），基于最优传输的缺失数据填充（MIDOT）。对于所有数据集，假设簇的真实数目k是已知的，并且将其设置为类的数目。由原始完全数据矩阵随机生成缺失数据，缺失率均为10∼70%，其中缺失率会影响算法的性能。

为了更深入地说明这一点，本实施例从缺失率的角度对这些算法进行了比较。使用广泛使用的聚类准确率（ACC）、归一化互信息（NMI）和纯度（PUR）来评价每种算法的聚类性能。

对于所有算法，本实施例对每个实验进行10次随机初始化，以减小k-means和GMM聚类算法初值选取的随机性的影响，并报告平均结果。同时，本实施例按照上述方式随机生成了10次缺失数据，并上报了统计结果。

如下表2显示了上述算法在基准数据集上的汇总聚类比较。最佳结果以粗体突出显示，“-”表示GPU内存不足。根据这些结果，得出以下结论：

（1）本实施例提出的方法在聚类性能方面大大优于所有竞争者。例如，本实施例的算法在ACC指标上上分别超过了性能第二的算法50.4％，17％，12％，26％，10％和30％。特别是，四个数据集（Mnist，Usps，Reuters和Letter）的优势十分突出，这些结果清楚地证明了所提出的网络的有效性。

（2）与生成方式相比，本实施例所提出的算法持续改进了聚类性能，并在基准数据集之间获得更好的结果。GAIN，VAEAC和MIWAE是基于生成的填充方法的代表，可以看出，它们专注于生成或填充任务，而忽略了对下游聚类过程的影响。

（3）本实施例的算法被认为是，在大多数数据集中都优于其他竞争对手，我们提出的算法在ACC上比MDIOT分别高出55.2％，17.1％，15.7％，45.8％，12.6％和33.2％。该现象证明了本实施例提出的网络的有效性。

如表2所示展示了本实施例的方法以及对比算法在所有数据集上的聚类效果综合的评价指标和标准偏差，其中最佳结果以粗体显示。

表2

根据表2可以观察到：

本实施例所提出的算法几乎总是在所有六个数据集的每个性能度量上都达到最优的性能水平。这些结果与前述内容各个聚类性能指标的观察结果一致，很好地表明了本实施例提出算法的有效性。

表3-8展示了不同聚类算法在六个数据集上随缺失率变化的聚类性能对比图，根据这些图可以观察到：

本实施例深入分析关于各种比率的聚类性能和学习表示的演变。为了更清楚地显示不同方法之间的比较，本实施例将不同缺失下不同方法的ACC和NMI绘制为折线图，如表3-8所示，可以得出以下观察结果：（1）可以看出，随着缺失比例增加，所有方法都会由于无法获得更多的信息而导致聚类性能下降。特别是对于基于生成的方法（VAEAC和MDIOT），由于错误的填充，其性能会急剧下降。（2）对于不同的完整性比例的数据，本实施例提出的方法在ACC和NMI方面的结果要高于所有竞争算法。此外，本实施例的方法针对不完整比率的增加实现了稳定的性能。这些结果清楚地证明了本实施例提出算法的有效性。

表3

表4

表5

表6

表7

表8

本实施例首先研究聚类损失和保留分布的损失如何影响Mnist，Usps，Reuters的聚类性能，结果如表9所示。在本实验中，我们统一使用丢失率为10％的数据集，可以观察到两种损失在不同数据集中的影响是不同的。同时，很明显，同时使用两个损失对所有三个数据集都有帮助，其中L_S代表基于分布保留的最优传输距离（即重构损失），L_C代表聚类损失。

表9

其次，初始填充值已经被证明是确实聚类中的重要组成部分，本实施例在Mnist/Usps/Reuters 上进行了敏感性分析，分别使用两种常用的初始填充，零填充（ZF）和均值填充（MF）以及三种不同的缺失比例，表10显示，使用不同的初始化时，本实施例的模型都可以稳定运行，整体性能没有明显变化，这验证了本实施例的方法对数据初始填充不敏感。

表10

本实施例在具有各种不完整比率的六个高维基准数据集上进行了综合实验，实验结果表明，本实施例所提出的网络在性能上远胜于最新的不完全聚类方法。

实施例三

本实施例提供一种基于最优传输的深度缺失聚类机器学习系统，如图2所示，包括：

获取模块11，用于获取聚类任务和目标数据样本；

第一填充模块12，用于将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性，得到第一聚类结果；

构建模块13，用于通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失，得到优化目标函数；

第二填充模块14，用于基于得到的优化目标函数将填充任务与聚类任务相融合，并对缺失特征部分的缺失值进行填充，得到最终的聚类结果。

需要说明的是，本实施例提供的一种基于最优传输的深度缺失聚类机器学习系统与实施例一类似，在此不多做赘述。

与现有技术相比，本实施例将填充任务与聚类任务相结合，在聚类结果的引导下填充缺失值，用动态填充的值再进行模型聚类。为了避免可观测数据的不足带来的训练不足的问题，提出了一种新颖的端到端深度聚类网络来保存数据分布，这是通过最小化原始分布和重构分布之间的最优传输距离来实现的。并且本发明对潜在分布进行了约束，以进一步提高聚类性能。在统一损失函数的指导下，网络对潜在表示进行解码，从而有助于更好的数据恢复和聚类。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。