CN112766425A - 一种基于最优传输的深度缺失聚类机器学习方法及系统 - Google Patents

一种基于最优传输的深度缺失聚类机器学习方法及系统 Download PDF

Info

Publication number
CN112766425A
CN112766425A CN202110321532.5A CN202110321532A CN112766425A CN 112766425 A CN112766425 A CN 112766425A CN 202110321532 A CN202110321532 A CN 202110321532A CN 112766425 A CN112766425 A CN 112766425A
Authority
CN
China
Prior art keywords
clustering
missing
filling
deep
optimal transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110321532.5A
Other languages
English (en)
Inventor
朱信忠
徐慧英
王思为
刘新旺
赵建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110321532.5A priority Critical patent/CN112766425A/zh
Publication of CN112766425A publication Critical patent/CN112766425A/zh
Priority to PCT/CN2022/081056 priority patent/WO2022199432A1/zh
Priority to LU503091A priority patent/LU503091B1/en
Priority to ZA2022/07732A priority patent/ZA202207732B/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最优传输的深度缺失聚类机器学习方法及系统,其中涉及的一种基于最优传输的深度缺失聚类机器学习方法,包括:S11.获取聚类任务和目标数据样本;S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;S13.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;S14.基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。

Description

一种基于最优传输的深度缺失聚类机器学习方法及系统
技术领域
本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于最优传输的深度缺失聚类机器学习方法及系统。
背景技术
聚类是将一组给定的数据依据它们的相似性划分为不同的簇,该划分使得相同簇中的样本尽量相似,不同簇中的样本尽量不同。常见的聚类方法包括k-means聚类、谱聚类及核k-means聚类。这些聚类算法在机器学习、模式识别、机器视觉、数据挖掘等领域被广泛研究,并已成功应用于图像分割、轨迹线分析、异常检测、目标跟踪、场景发现、社交网络等诸多领域。
影响聚类性能的关键要素是如何计算样本间的相似度,其依赖于数据特征。数据挖掘中的数据往往都不可避免的存在着缺失数据、冗余数据、不确定数据和不一致数据等多种问题。在各个领域中,缺失数据这一问题都是不容忽视的。尤其是目前的数据收集工作,已渐渐从人工搜集转变为机器搜集。并且,由于数据量的急速膨胀,导致各种数据质量问题屡见不鲜,在这中间数据缺失尤为常见。导致数据中存在大量“空值”的因素有许多,例如数据收集条件的制约、度量方法错误、人工录入时出现遗漏和违反数据约束等。在某些领域中的数据库中缺失值比例高达50%~60%以上。这些不完整的数据不仅意味着信息空白,更重要的是它会影响后续数据挖掘抽取模式的正确性和导出规则的准确性。因此,如何处理缺失数据已成为数据清洗及数据预处理领域研究的主要问题之一。
不完整数据的存在使得利用所有数据样本的信息进行聚类变得异常困难。一个直接的补救措施就是先用一种填补算法来填补缺失值,然后利用一种标准的聚类算法进行聚类。现有的缺失聚类算法可以分为两大类:基于启发式的缺失聚类算法和基于学习式的缺失聚类算法。基于启发式的缺失聚类算法的基本思想是将缺失对象按照一定方法进行缺失值的填充,之后就可以应用已知的单视图聚类算法。启发式的填充算法主要基于数据的统计属性,他们中的大多数使用统计属性来估计缺失的功能值,例如零填充,均值填充和中位数填充。K近邻(KNN,K-Nearest Neighbor)插补方法已被认为是用平均拟合可靠邻居的均值来估计缺失特征的一种替代方法。此外,贝叶斯框架与先前的方法的不同,它考虑了处理不完整特征的联合和条件分布。最受欢迎的方法是最大化期望(EM)算法,这些补全的方法在缺失比例较少时能获得比较满意的实验结果。近年来,基于学习的填充方法受到了极大的关注,并成为主流。现有的工作可以分为浅层和深度学习框架。浅层代表通常假定数据是低维度的,因此应用迭代方法来恢复缺失值。随着深度学习架构的改进,已经提出了各种深度网络来处理不完整性。深度方法的一个理想属性是它们可以准确地推断数据的联合和边际分布。因此,生成式网络的各种变体被提出,包括生成对抗网络(GAN)和变体自动编码器(VAE)。深度缺失聚类中现有的方法也是两阶段的聚类,即用深度神经网络先学习到数据填充,再用传统的方法进行聚类任务。
尽管现有的聚类算法在理论上和实际应用中均取得了极大成功,但所有的聚类算法都遵循一个共同的假设:数据集是完整的。无论是浅层还是深度网络都无法直接处理缺失数据,因此现有的算法存在以下几点不足:(1)两阶段的缺失聚类算法,即缺失数据的填充任务和聚类任务是分开的,缺失数据的填充任务无法为聚类任务服务,限制了甚至降低了聚类任务的性能。(2)当面对高维数据(例如图像,文本)时,由于缺乏足够的估算信息而观察到的信息不足,因此存在的浅层和深层方法均表现不佳。这些会导致聚类任务性能急剧下降。(3)密集的计算复杂度和空间复杂度,限制了这些算法被应用于中型或大型集群任务。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于最优传输的深度缺失聚类机器学习方法及系统。
为了实现以上目的,本发明采用以下技术方案:
一种基于最优传输的深度缺失聚类机器学习方法,包括:
S1.获取聚类任务和目标数据样本;
S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;
S3.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;
S4.基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
进一步的,所述步骤S3中得到的优化目标函数,表示为:
Figure DEST_PATH_IMAGE001
其中,L表示优化后的目标函数;L c 表示聚类损失函数;L s 表示重构损失函数;γ表示超参数,用来衡量两个损失的权重。
进一步的,所述步骤S3中建立神经网络结构中的聚类损失,表示为:
Figure DEST_PATH_IMAGE002
其中,L c 表示聚类损失函数;P表示聚类分配矩阵;Q表示聚类分配矩阵的目标分布;p ij 表示第i个样本属于第j个簇的概率;q ij 表示p ij 中的元素高置信度的增量分布。
进一步的,所述步骤S3中建立神经网络结构中的重构损失,表示为:
Figure DEST_PATH_IMAGE003
其中,L s 表示重构损失函数;X表示初始填充后的输入数据矩阵;
Figure DEST_PATH_IMAGE004
表示重构样本 矩阵;f d (f e (X))表示经过神经网络结构的编码器、解码器重构后的数据矩阵;S ϵ 表示 sinkhorn散度。
进一步的,所述聚类分配矩阵P表示为:
Figure DEST_PATH_IMAGE005
其中,p ij 表示第i个样本属于第j个簇的概率;μ j 表示第j个聚类中心;z i 表示第i个中间变量。
进一步的,所述第i个中间变量z i 表示为:
Figure DEST_PATH_IMAGE006
其中,f e 表示编码器;f d 表示解码器;x i 表示初始填充后输入的第i个样本;z i 表示 第i个中间变量;
Figure DEST_PATH_IMAGE007
表示第i个重构样本。
进一步的,所述聚类分配矩阵的目标分布Q表示为:
Figure DEST_PATH_IMAGE008
其中,q ij 表示p ij 中的元素高置信度的增量分布。
进一步的,所述sinkhorn散度S ϵ 表示为:
Figure DEST_PATH_IMAGE009
其中,αβ表示两种数据分布;OTϵ (α,β)表示αβ之间经过熵正则化放松后的最优传输距离,表示为:
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,T∈U(a,b)表示(a,b)的联合分布;a,b表示分布αβ的两个概率分布向量, 满足
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
,C表示度量函数;h(T)表示熵正则化;ϵ 表示衡量熵正则化程度的超参数;nn'分别表示原始分布和目标分布的样本个数;u i v j 分别表示分布αβ的第i和第j个样本,t ij 表示联合分布T中第i行第j列元素的值。
进一步的,所述步骤S4具体为:
S41.基于得到的优化目标函数将填充任务与聚类任务相融合;
S42.根据第一聚类结果填充缺失值,得到第二聚类结果;
S43.依次根据得到的聚类结果填充缺失值,得到最终的聚类结果。
相应的,还提供一种基于最优传输的深度缺失聚类机器学习系统,包括:
获取模块,用于获取聚类任务和目标数据样本;
第一填充模块,用于将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;
构建模块,用于通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;
第二填充模块,用于基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
与现有技术相比,本发明提出了一种基于最优传输的深度缺失聚类机器学习方法,该方法将填充任务与聚类任务相结合,在聚类结果的引导下填充缺失值,用动态填充的值再进行模型聚类。为了避免可观测数据的不足带来的训练不足的问题,提出了一种新颖的端到端深度聚类网络来保存数据分布,这是通过最小化原始分布和重构分布之间的最优传输距离来实现的。并且本发明对潜在分布进行了约束,以进一步提高聚类性能。在统一损失函数的指导下,网络对潜在表示进行解码,从而有助于更好的数据恢复和聚类。在具有各种不完整比率的六个高维基准数据集上进行了综合实验。实验结果表明,所提出的网络在性能上远胜于最新的不完全聚类方法。
附图说明
图1是实施例一提供的一种基于最优传输的深度缺失聚类机器学习方法流程图;
图2是实施例三提供的一种基于最优传输的深度缺失聚类机器学习系统结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明针对现有缺陷,提供了一种基于最优传输的深度缺失聚类机器学习方法及系统。
实施例一
本实施例提供的一种基于最优传输的深度缺失聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类;如图1所示,包括:
S11.获取聚类任务和目标数据样本;
S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;
S13.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;
S14.基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
在步骤S12中,将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始均值填充并保持可观测特征部分的不变性,得到第一聚类结果。
可观测特征部分表示完整的特征部分,不需要填充;缺失特征部分表示需要填充的特征部分,进行初始均值填充。
在步骤S13中,通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数。
步骤S13具体为:
首先通过自编码器求得中间变量和重构样本,表示为:
Figure DEST_PATH_IMAGE016
其中,f e 表示编码器;f d 表示解码器;x i 表示初始填充后输入的第i个样本;z i 表示 第i个中间变量;
Figure DEST_PATH_IMAGE017
表示第i个重构样本。
通过求得网络中间潜在变量Z可以得到聚类分配矩阵P,表示为:
Figure DEST_PATH_IMAGE018
其中,p ij 表示第i个样本属于第j个簇的概率;μ j 表示第j个聚类中心;z i 表示第i个中间变量。该公式的分母表示一个归一化过程,通过P可以得到聚类分配结果,P中各样本中最大值所在的列即为该样本的聚类结果。
通过聚类分配矩阵P,计算正则化潜在的目标分布Q,可以进一步增强任务性能,目标分布Q表示为:
Figure DEST_PATH_IMAGE019
其中,q ij 表示p ij 中的元素高置信度的增量分布。该公式的分母也表示一个归一化过程。
在本实施例中,不需要预先定义目标分布,而是通过聚类分配矩阵P和目标分布Q的KL散度定义为聚类损失,表示为:
Figure DEST_PATH_IMAGE020
其中,L c 表示聚类损失函数;P表示聚类分配矩阵;Q表示聚类分配矩阵的目标分布,目标分布Q有以下属性:(1)更强的预测性;(2)更加重视高置信度分配的数据点;(3)归一化每个质心的损失贡献,以防止大的簇破坏隐藏特征空间的结构。其中p ij 表示第i个样本属于第j个簇的概率,q ij 表示p ij 中的元素高置信度的增量分布。
在本实施例中,采用最优传输距离来重构数据,与以往的逐像素点重建不同,本实施例的方法计算重构样本与原始样本之间的分布距离,即重构函数,表示为:
Figure DEST_PATH_IMAGE021
其中,L s 表示重构损失函数;X表示初始填充后的输入数据矩阵;
Figure DEST_PATH_IMAGE022
表示重构样本矩 阵;f d (f e (X))表示经过神经网络结构的编码器、解码器重构后的数据矩阵;S ϵ 表示sinkhorn 散度,且是最优传输的近似求解。
sinkhorn散度S ϵ 的定义如下:
Figure 231060DEST_PATH_IMAGE009
其中,αβ表示两种数据分布;OTϵ (α,β)表示αβ之间经过熵正则化放松后的最优传输距离,表示为:
Figure 944938DEST_PATH_IMAGE010
Figure 459096DEST_PATH_IMAGE011
Figure 651043DEST_PATH_IMAGE012
Figure 199836DEST_PATH_IMAGE013
其中,T∈U(a,b)表示(a,b)的联合分布;a,b表示分布αβ的两个概率分布向量, 满足
Figure 22299DEST_PATH_IMAGE014
Figure 86070DEST_PATH_IMAGE015
,C表示度量函数;h(T)表示熵正则化;ϵ 表示衡量熵正则化程度的超参数;nn'分别表示原始分布和目标分布的样本个数;u i v j 分别表示分布αβ的第i和第j个样本,t ij 表示联合分布T中第i行第j列元素的值。
根据上述内容,则得到的最终的优化目标函数,表示为:
Figure 19391DEST_PATH_IMAGE001
其中,L表示优化后的目标函数;L c 表示聚类损失函数;L s 表示重构损失函数;γ表示超参数,用来衡量两个损失的权重。
在步骤S14中,基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
具体为:
S141.基于得到的优化目标函数将填充任务与聚类任务相融合;
S142.根据第一聚类结果填充缺失值,得到第二聚类结果;
S143.依次根据得到的聚类结果填充缺失值,得到最终的聚类结果。
具体为:
A.将初始均值填充后的数据(即第一聚类结果),按批次输入到神经网络中,得到 中间潜在变量Z,聚类分配矩阵P,聚类分配目标矩阵Q,重构后的完整数据矩阵
Figure DEST_PATH_IMAGE023
并计算聚类 损失和最优传输距离。
B.网络通过最小化聚类损失和最优传输距离通过小批量神经网络反向传播进行 梯度下降,首先通过更新后的编码器参数更新中间潜在变量Z,进而得到聚类分配矩阵P以 及聚类分配目标矩阵Q并更新聚类结果,此外,通过网络解码器部分更新完整数据矩阵
Figure DEST_PATH_IMAGE024
C.反复迭代步骤B,直至网络收敛,在此框架中网络收敛条件我们设定为由聚类指示矩阵求得的聚类结果变化率小于0.1%。停止训练并求得最终的聚类结果。
与现有技术相比,本实施例将填充任务与聚类任务相结合,在聚类结果的引导下填充缺失值,用动态填充的值再进行模型聚类。为了避免可观测数据的不足带来的训练不足的问题,提出了一种新颖的端到端深度聚类网络来保存数据分布,这是通过最小化原始分布和重构分布之间的最优传输距离来实现的。并且本实施例对潜在分布进行了约束,以进一步提高聚类性能。在统一损失函数的指导下,网络对潜在表示进行解码,从而有助于更好的数据恢复和聚类。
实施例二
本实施例提供的一种基于最优传输的深度缺失聚类机器学习方法与实施例一的不同之处在于:
本实施例在6个高维基准数据集上测试了本发明方法的聚类性能。
6个高维标准数据集包括Mnist,Usps,Fmnist, Reuters, COIL20, Letter。数据集的相关信息参见表1。
Figure DEST_PATH_IMAGE025
表1
本实施例分别将提出的基于最优传输的深度缺失聚类机器学习方法与几种常用的填充方法,包括均值填充(MF)、零填充(ZF)进行了比较。此外,本实施例还与最近提出的七种先进的填充方法进行了比较,包括三种浅层的方法:低秩填充(LRC),最大范数填充(MNC),有效低阶矩阵恢复的因子组稀疏正则化(FSGR),以及四种深度填充算法:通过生成对抗网络填充缺失数据(GAIN),任意条件的变分自编码器(VAEAC),深度生成建模和不完整数据集的插补(MIVAE),基于最优传输的缺失数据填充(MIDOT)。对于所有数据集,假设簇的真实数目k是已知的,并且将其设置为类的数目。由原始完全数据矩阵随机生成缺失数据,缺失率均为10∼70%,其中缺失率会影响算法的性能。
为了更深入地说明这一点,本实施例从缺失率的角度对这些算法进行了比较。使用广泛使用的聚类准确率(ACC)、归一化互信息(NMI)和纯度(PUR)来评价每种算法的聚类性能。
对于所有算法,本实施例对每个实验进行10次随机初始化,以减小k-means和GMM聚类算法初值选取的随机性的影响,并报告平均结果。同时,本实施例按照上述方式随机生成了10次缺失数据,并上报了统计结果。
如下表2显示了上述算法在基准数据集上的汇总聚类比较。最佳结果以粗体突出显示,“-”表示GPU内存不足。根据这些结果,得出以下结论:
(1)本实施例提出的方法在聚类性能方面大大优于所有竞争者。例如,本实施例的算法在ACC指标上上分别超过了性能第二的算法50.4%,17%,12%,26%,10%和30%。特别是,四个数据集(Mnist,Usps,Reuters和Letter)的优势十分突出,这些结果清楚地证明了所提出的网络的有效性。
(2)与生成方式相比,本实施例所提出的算法持续改进了聚类性能,并在基准数据集之间获得更好的结果。GAIN,VAEAC和MIWAE是基于生成的填充方法的代表,可以看出,它们专注于生成或填充任务,而忽略了对下游聚类过程的影响。
(3)本实施例的算法被认为是,在大多数数据集中都优于其他竞争对手,我们提出的算法在ACC上比MDIOT分别高出55.2%,17.1%,15.7%,45.8%,12.6%和33.2%。该现象证明了本实施例提出的网络的有效性。
如表2所示展示了本实施例的方法以及对比算法在所有数据集上的聚类效果综合的评价指标和标准偏差,其中最佳结果以粗体显示。
Figure DEST_PATH_IMAGE026
表2
根据表2可以观察到:
本实施例所提出的算法几乎总是在所有六个数据集的每个性能度量上都达到最优的性能水平。这些结果与前述内容各个聚类性能指标的观察结果一致,很好地表明了本实施例提出算法的有效性。
表3-8展示了不同聚类算法在六个数据集上随缺失率变化的聚类性能对比图,根据这些图可以观察到:
本实施例深入分析关于各种比率的聚类性能和学习表示的演变。为了更清楚地显示不同方法之间的比较,本实施例将不同缺失下不同方法的ACC和NMI绘制为折线图,如表3-8所示,可以得出以下观察结果:(1)可以看出,随着缺失比例增加,所有方法都会由于无法获得更多的信息而导致聚类性能下降。特别是对于基于生成的方法(VAEAC和MDIOT),由于错误的填充,其性能会急剧下降。(2)对于不同的完整性比例的数据,本实施例提出的方法在ACC和NMI方面的结果要高于所有竞争算法。此外,本实施例的方法针对不完整比率的增加实现了稳定的性能。这些结果清楚地证明了本实施例提出算法的有效性。
Figure DEST_PATH_IMAGE027
表3
Figure DEST_PATH_IMAGE028
表4
Figure DEST_PATH_IMAGE029
表5
Figure DEST_PATH_IMAGE030
表6
Figure DEST_PATH_IMAGE031
表7
Figure DEST_PATH_IMAGE032
表8
本实施例首先研究聚类损失和保留分布的损失如何影响Mnist,Usps,Reuters的聚类性能,结果如表9所示。在本实验中,我们统一使用丢失率为10%的数据集,可以观察到两种损失在不同数据集中的影响是不同的。同时,很明显,同时使用两个损失对所有三个数据集都有帮助,其中LS代表基于分布保留的最优传输距离(即重构损失),LC代表聚类损失。
Figure DEST_PATH_IMAGE033
表9
其次,初始填充值已经被证明是确实聚类中的重要组成部分,本实施例在Mnist/Usps/Reuters 上进行了敏感性分析,分别使用两种常用的初始填充,零填充(ZF)和均值填充(MF)以及三种不同的缺失比例,表10显示,使用不同的初始化时,本实施例的模型都可以稳定运行,整体性能没有明显变化,这验证了本实施例的方法对数据初始填充不敏感。
Figure DEST_PATH_IMAGE034
表10
本实施例在具有各种不完整比率的六个高维基准数据集上进行了综合实验,实验结果表明,本实施例所提出的网络在性能上远胜于最新的不完全聚类方法。
实施例三
本实施例提供一种基于最优传输的深度缺失聚类机器学习系统,如图2所示,包括:
获取模块11,用于获取聚类任务和目标数据样本;
第一填充模块12,用于将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;
构建模块13,用于通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;
第二填充模块14,用于基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
需要说明的是,本实施例提供的一种基于最优传输的深度缺失聚类机器学习系统与实施例一类似,在此不多做赘述。
与现有技术相比,本实施例将填充任务与聚类任务相结合,在聚类结果的引导下填充缺失值,用动态填充的值再进行模型聚类。为了避免可观测数据的不足带来的训练不足的问题,提出了一种新颖的端到端深度聚类网络来保存数据分布,这是通过最小化原始分布和重构分布之间的最优传输距离来实现的。并且本发明对潜在分布进行了约束,以进一步提高聚类性能。在统一损失函数的指导下,网络对潜在表示进行解码,从而有助于更好的数据恢复和聚类。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,包括:
S1.获取聚类任务和目标数据样本;
S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;
S3.通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;
S4.基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
2.根据权利要求1所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述步骤S3中得到的优化目标函数,表示为:
Figure 604366DEST_PATH_IMAGE001
其中,L表示优化后的目标函数;Lc表示聚类损失函数;L S 表示重构损失函数;γ表示超参数,用来衡量两个损失的权重。
3.根据权利要求2所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述步骤S3中建立神经网络结构中的聚类损失,表示为:
Figure 255928DEST_PATH_IMAGE002
其中,L c 表示聚类损失函数;P表示聚类分配矩阵;Q表示聚类分配矩阵的目标分布;p ij 表示第i个样本属于第j个簇的概率;q ij 表示p ij 中的元素高置信度的增量分布。
4.根据权利要求2所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述步骤S3中建立神经网络结构中的重构损失,表示为:
Figure 566823DEST_PATH_IMAGE003
其中,L s 表示重构损失函数;X表示初始填充后的输入数据矩阵;
Figure 962033DEST_PATH_IMAGE004
表示重构样本矩阵;f d (f e (X))表示经过神经网络结构的编码器、解码器重构后的数据矩阵;S ϵ 表示sinkhorn散 度。
5.根据权利要求3所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述聚类分配矩阵P表示为:
Figure 573142DEST_PATH_IMAGE005
其中,p ij 表示第i个样本属于第j个簇的概率;μ j 表示第j个聚类中心;z i 表示第i个中间变量。
6.根据权利要求5所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述第i个中间变量z i 表示为:
Figure 130026DEST_PATH_IMAGE006
其中,f e 表示编码器;f d 表示解码器;x i 表示初始填充后输入的第i个样本;z i 表示第i个 中间变量;
Figure 193797DEST_PATH_IMAGE007
表示第i个重构样本。
7.根据权利要求5所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述聚类分配矩阵的目标分布Q表示为:
Figure 127118DEST_PATH_IMAGE008
其中,q ij 表示p ij 中的元素高置信度的增量分布。
8.根据权利要求4所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述sinkhorn散度S ϵ 表示为:
Figure 592734DEST_PATH_IMAGE009
其中,αβ表示两种数据分布;OTϵ (α,β)表示αβ之间经过熵正则化放松后的最优传输距离,表示为:
Figure 320519DEST_PATH_IMAGE010
其中,T∈U(a,b)表示(a,b)的联合分布;a,b表示分布αβ的两个概率分布向量,满足
Figure 871586DEST_PATH_IMAGE011
Figure 343018DEST_PATH_IMAGE012
,C表示度量函数;h(T)表示熵正则化;ϵ表示衡量 熵正则化程度的超参数;nn'分别表示原始分布和目标分布的样本个数;u i v j 分别表示 分布αβ的第i和第j个样本,t ij 表示联合分布T中第i行第j列元素的值。
9.根据权利要求1所述的一种基于最优传输的深度缺失聚类机器学习方法,其特征在于,所述步骤S4具体为:
S41.基于得到的优化目标函数将填充任务与聚类任务相融合;
S42.根据第一聚类结果填充缺失值,得到第二聚类结果;
S43.依次根据得到的聚类结果填充缺失值,得到最终的聚类结果。
10.一种基于最优传输的深度缺失聚类机器学习系统,其特征在于,包括:
获取模块,用于获取聚类任务和目标数据样本;
第一填充模块,用于将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,基于填充任务对缺失特征部分进行初始填充并保持可观测特征部分的不变性,得到第一聚类结果;
构建模块,用于通过最优传输距离和KL散度分别建立神经网络结构中的重构损失和聚类损失,得到优化目标函数;
第二填充模块,用于基于得到的优化目标函数将填充任务与聚类任务相融合,并对缺失特征部分的缺失值进行填充,得到最终的聚类结果。
CN202110321532.5A 2021-03-25 2021-03-25 一种基于最优传输的深度缺失聚类机器学习方法及系统 Pending CN112766425A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110321532.5A CN112766425A (zh) 2021-03-25 2021-03-25 一种基于最优传输的深度缺失聚类机器学习方法及系统
PCT/CN2022/081056 WO2022199432A1 (zh) 2021-03-25 2022-03-16 一种基于最优传输的深度缺失聚类机器学习方法及系统
LU503091A LU503091B1 (en) 2021-03-25 2022-03-16 A machine learning method and system for deep deficiency clustering based on optimal transmission
ZA2022/07732A ZA202207732B (en) 2021-03-25 2022-07-12 A machine learning method and system for deep deficiency clustering based on optimal transmission

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321532.5A CN112766425A (zh) 2021-03-25 2021-03-25 一种基于最优传输的深度缺失聚类机器学习方法及系统

Publications (1)

Publication Number Publication Date
CN112766425A true CN112766425A (zh) 2021-05-07

Family

ID=75691119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321532.5A Pending CN112766425A (zh) 2021-03-25 2021-03-25 一种基于最优传输的深度缺失聚类机器学习方法及系统

Country Status (4)

Country Link
CN (1) CN112766425A (zh)
LU (1) LU503091B1 (zh)
WO (1) WO2022199432A1 (zh)
ZA (1) ZA202207732B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991355A (zh) * 2021-05-13 2021-06-18 南京应用数学中心 基于最优传输的3d大脑病变分割方法
CN113240011A (zh) * 2021-05-14 2021-08-10 烟台海颐软件股份有限公司 一种深度学习驱动的异常识别与修复方法及智能化系统
CN113268833A (zh) * 2021-06-07 2021-08-17 重庆大学 一种基于深度联合分布对齐的迁移故障诊断方法
CN113642716A (zh) * 2021-08-31 2021-11-12 南方电网数字电网研究院有限公司 深度变分自编码器模型训练方法、装置、设备和存储介质
WO2022199432A1 (zh) * 2021-03-25 2022-09-29 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统
CN116996869A (zh) * 2023-09-26 2023-11-03 济南正大科技发展有限公司 一种网络异常数据处理方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310462B (zh) * 2023-05-19 2023-08-11 浙江财经大学 一种基于秩约束自表示的图像聚类方法及装置
CN117892166B (zh) * 2024-03-15 2024-05-28 广东琴智科技研究院有限公司 稀疏数据识别方法、智能计算子系统以及智能计算平台

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102021A (zh) * 2018-08-10 2018-12-28 聚时科技(上海)有限公司 缺失条件下的核互补齐多核k-均值聚类机器学习方法
CN109117881A (zh) * 2018-08-10 2019-01-01 聚时科技(上海)有限公司 一种具有缺失核的多视图聚类机器学习方法
CN109214429B (zh) * 2018-08-14 2021-07-27 聚时科技(上海)有限公司 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法
CN112507937B (zh) * 2020-12-17 2023-02-10 华南理工大学 融合多源数据的卫星影像无监督分类方法和装置
CN112766425A (zh) * 2021-03-25 2021-05-07 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022199432A1 (zh) * 2021-03-25 2022-09-29 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统
CN112991355A (zh) * 2021-05-13 2021-06-18 南京应用数学中心 基于最优传输的3d大脑病变分割方法
CN112991355B (zh) * 2021-05-13 2021-08-31 南京应用数学中心 基于最优传输的3d大脑病变分割方法
CN113240011A (zh) * 2021-05-14 2021-08-10 烟台海颐软件股份有限公司 一种深度学习驱动的异常识别与修复方法及智能化系统
CN113240011B (zh) * 2021-05-14 2023-04-07 烟台海颐软件股份有限公司 一种深度学习驱动的异常识别与修复方法及智能化系统
CN113268833A (zh) * 2021-06-07 2021-08-17 重庆大学 一种基于深度联合分布对齐的迁移故障诊断方法
CN113268833B (zh) * 2021-06-07 2023-07-04 重庆大学 一种基于深度联合分布对齐的迁移故障诊断方法
CN113642716A (zh) * 2021-08-31 2021-11-12 南方电网数字电网研究院有限公司 深度变分自编码器模型训练方法、装置、设备和存储介质
CN116996869A (zh) * 2023-09-26 2023-11-03 济南正大科技发展有限公司 一种网络异常数据处理方法及装置
CN116996869B (zh) * 2023-09-26 2023-12-29 济南正大科技发展有限公司 一种网络异常数据处理方法及装置

Also Published As

Publication number Publication date
ZA202207732B (en) 2022-07-27
LU503091B1 (en) 2023-03-22
WO2022199432A1 (zh) 2022-09-29

Similar Documents

Publication Publication Date Title
CN112766425A (zh) 一种基于最优传输的深度缺失聚类机器学习方法及系统
Ruff et al. Deep semi-supervised anomaly detection
Meesrikamolkul et al. Shape-based clustering for time series data
De Amorim Feature relevance in ward’s hierarchical clustering using the L p norm
Zhang et al. Flexible auto-weighted local-coordinate concept factorization: A robust framework for unsupervised clustering
Wang et al. A conscience on-line learning approach for kernel-based clustering
CN113076970A (zh) 一种缺失条件下的高斯混合模型聚类机器学习方法
Wu et al. Learning graph similarity with large spectral gap
Karnowski et al. Deep spatiotemporal feature learning with application to image classification
Fan et al. On hyperparameter tuning in general clustering problemsm
CN116597186A (zh) 一种多视图子空间聚类方法、系统、电子设备及存储介质
CN110851701B (zh) 一种基于用户上下文耦合相似度的概率矩阵分解推荐方法
He et al. Robust adaptive graph regularized non-negative matrix factorization
Xu et al. Ensemble clustering via fusing global and local structure information
Li et al. Adaptive weighted ensemble clustering via kernel learning and local information preservation
Le et al. Multiple distribution data description learning method for novelty detection
Yi et al. Inner product regularized nonnegative self representation for image classification and clustering
Wang et al. Conscience online learning: an efficient approach for robust kernel-based clustering
Lin et al. Convex subspace clustering by adaptive block diagonal representation
CN115761502A (zh) 基于混合卷积的sar图像变化检测方法
CN109978066B (zh) 基于多尺度数据结构的快速谱聚类方法
CN112241680A (zh) 基于静脉相似图像知识迁移网络的多模态身份认证方法
Pan et al. Principal component analysis on graph-hessian
You et al. Robust structured low-rank representation for image segmentation
Le Gia et al. Robust Deep Support Vector Data Description for Unreliable Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhu Xinzhong

Inventor after: Xu Huiying

Inventor after: Zhao Jianmin

Inventor before: Zhu Xinzhong

Inventor before: Xu Huiying

Inventor before: Wang Siwei

Inventor before: Liu Xinwang

Inventor before: Zhao Jianmin