CN113869465A - I-nice算法优化方法、装置、设备及计算机可读存储介质 - Google Patents
I-nice算法优化方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113869465A CN113869465A CN202111471764.5A CN202111471764A CN113869465A CN 113869465 A CN113869465 A CN 113869465A CN 202111471764 A CN202111471764 A CN 202111471764A CN 113869465 A CN113869465 A CN 113869465A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- clustered
- points
- data set
- mixed distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种I‑nice算法优化方法、装置、设备及计算机可读存储介质,该方法包括:获取待聚类数据集,并通过预设的观测点随机生成算法,生成待聚类数据集对应的多个观测点;基于各观测点,将待聚类数据集转换为一维的距离集合;对距离集合拟合多个混合分布模型,并在混合分布模型求解出与距离集合匹配度最高的目标混合分布模型;通过目标混合分布模型将待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;在各子集对应的高密度点中确定待聚类数据集的数据点中的簇中心点,并将簇中心点以及簇中心点的个数作为运行k‑means算法的初始参数,以调用k‑means算法得到待聚类数据集的聚类结果。本发明提升了I‑nice算法运行的精度和速度。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种I-nice算法优化方法、装置、设备及计算机可读存储介质。
背景技术
无监督聚类是对数据预处理和数据分析的常用过程。该过程的主要任务是将一个数据集合划分为若干个不相交的子集,每个子集称为一个簇,要求每个子集中的数据点距离较近,而隶属于不同子集的数据点之间距离较远。由于该过程不需要人工设置数据点的标签信息,因此,称之为无监督聚类(unsupervised Clustering),以区别于监督分类(Supervised Classification)。
对一个数据集执行无监督聚类所获得的多个子集,就是对该数据集的一种自动分类。基于该分类,可以对该数据集进一步处理,包括迭代式数据标注、半监督式学习、监督式学习、数据可视化分析、异常点检测、数据压缩等。鉴于无监督聚类在数据预处理和数据分析中的重要作用,目前有以下几类代表性的算法:k-means算法、k-means++算法、谱聚类、I-nice算法等,但上述算法存在着运算速度慢的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种I-nice算法优化方法、装置、设备及计算机可读存储介质,旨在解决运算速度慢的技术问题。
为实现上述目的,本发明提供一种I-nice算法优化方法,所述I-nice算法优化方法包括以下步骤:
获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
可选地,所述基于各所述观测点,将所述待聚类数据集转换为一维的距离集合的步骤包括:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
可选地,所述分别确定各子集对应的高密度点的步骤包括:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
可选地,所述通过Density Peak算法,分别确定各子集的较高密度点中的高密度点的步骤包括:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
可选地,所述对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型的步骤包括:
可选地,所述在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
此外,为实现上述目的,本发明还提供一种I-nice算法优化装置,所述I-nice算法优化装置包括:
获取模块,用于获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
转换模块,用于基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
拟合模块,用于对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
子集划分模块,用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
簇中心点确定模块,用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
此外,为实现上述目的,本发明还提供一种I-nice算法优化设备,所述I-nice算法优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的I-nice算法优化程序,所述I-nice算法优化程序被所述处理器执行时实现如上述的I-nice算法优化方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有I-nice算法优化程序,所述I-nice算法优化程序被处理器执行时实现如上述的I-nice算法优化方法的步骤。
本发明通过获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,最终达到提升I-nice算法运行的精度和速度,解决了I-nice算法运行速度慢的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的I-nice算法优化设备结构示意图;
图2为本发明I-nice算法优化方法第一实施例的流程示意图;
图3为本发明I-nice算法优化方法第二实施例的流程示意图;
图4为本发明I-nice算法优化装置一实施例的系统结构示意图;
图5为本发明的一种I-nice算法优化方法示例性的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的I-nice算法优化设备结构示意图。
本发明实施例I-nice算法优化设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该I-nice算法优化设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,I-nice算法优化设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的I-nice算法优化设备结构并不构成对I-nice算法优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及I-nice算法优化程序。
在图1所示的I-nice算法优化设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的I-nice算法优化程序。
在本实施例中,I-nice算法优化设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的I-nice算法优化程序,其中,处理器1001调用存储器1005中存储的I-nice算法优化程序时,并执行以下操作:
获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
本发明还提供一种I-nice算法优化方法,参照图2,图2为本发明I-nice算法优化方法第一实施例的流程示意图。
在本实施例中,该I-nice算法优化方法包括以下步骤:
步骤S10,获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
步骤S20,基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
I-nice (Identifying the number of clusters and initial clustercentres)算法是一种可自动估计簇的个数和簇的初始中心点的无监督聚类算法,I-nice算法的基本过程如下:
该标量由负似然函数值和模型复杂度量两部分组成。
(3)在每个伽马分量对应的一个原始数据子集中,应用密度峰值估计算法过滤出一组候选初始中心点。
I-nice算法改进了一般聚类算法需要人工设定簇的个数和簇的初始中心点的问题。相对于其它决定簇的个数的判定准则Silhouette、Elbow和DPMM (Dirichlet-ProcessMixture Model)而言,由于采用一维随机观察点的数据子集划分机制,I-nice算法能够估计的簇的个数更多、在大数据集上表现更好。因为选取的簇的初始中心点满足高维空间中高密度统计分布特性,I-nice算法有效地减少了k-means求解最终簇的迭代次数。
然而I-nice算法仍然存在若干问题,具体有:
(1)数据子集划分的性能问题。个分量的伽马混合加法模型的参数估计是采用EM算法,因为伽马混合加法模型的形状和伸缩参数不存在显式的封闭公式求解,故EM算法的M步本质上是通过牛顿类型的数值优化算法实现的,时间复杂度高。鉴于牛顿类型的数值优化算法对于大量样本数据点的优化求解存在伸缩性、稳定性和精度问题,因此,对于大数据集,I-nice算法在第2步获得的数据子集划分结果不满足数据点分布的平衡性,对于数据子集划分算法的时间效率和选择不同混合分布的灵活性考虑不足。
(2)I-nice算法的超参和超过程的相关问题,如观察点的位置选取、需要多少个观察点、选用何种观察距离的定义、是否可以选择其它类型的加法混合模型进行数据子集划分、最佳值的判定准则、为候选簇中心的筛选应该选择哪些算法以及它们的应用次序如何、为剔除重复的簇的中心该如何选择阈值等问题。对于这些问题,原算法未能给出解答。
(3)I-nice算法的分与治的工作负载如何权衡,其计算复杂度如何估计。“分”任务的主要内容是伽马混合加法模型的参数估计、多个观察点对数据集的一维投影的计算任务、原始数据集的局部子集的高密度点估计,而“合”任务的主要内容是对候选簇中心的除重和增补。这两部分的工作内容是如何影响I-nice算法整体性能,对于I-nice算法有效应用于大数据聚类场景具有重要意义,例如在一个大数据集上运行I-nice算法之前,软件若能给出正确的计算时间估计,则可以提前规划分与治的工作负载,以优化I-nice算法的整体执行性能。
(4)从关键的软件实现来讲,I-nice算法实现方式是主体代码在Python中编写,伽马混合模型的估计则是调用基于R语言的一个伽马混合模型估计器gammamixEM.R。考虑于跨进程调用R服务器进程以及gammamixEM.R的非线程安全性,原有的I-nice软件将无法有效实现基于内核多线程的并行执行。
进一步地,所述步骤S20包括:
步骤S21,获取用户配置的距离函数;
步骤S22,根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
在本实施例中,针对输入的待聚类数据集和误差参数,依据公式,用户选择的观察点随机成算法,如EdgeObserverGenerator、HistoryObserverGenerator,生成多个观测点。之后,根据用户配置的距离函数One2OneDistance,计算待聚类数据集每个点到观测点的距离,将多维的待聚类数据集转换为一维的距离集合,以降低直接对高维数据集进行聚类的时间复杂性。
步骤S30,对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
在本实施例中,距离集合表示了待聚类数据集的距离分布,距离分布中常包含多个峰(即待聚类数据集包含多个簇),可通过混合分布模型拟合距离集合的距离分布,每个峰对应一个分布模型分量。其中,混合分布模型可以是混合伽马模型或混合高斯模型等各种混合分布模型,解决了原有I-nice算法固定采用混合伽马模型而导致对于大量样本数据点的优化存在性能和精度的问题。
另外各个模型的权值需满足如下限制:
后续求解混合高斯模型的参数,即最大化对数似然:
通过上述步骤求解得到混合分布模型,从中选取出最合适的混合分布模型得到目标混合分布模型。
步骤S40,通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在本实施例中,参照图5所示的一种I-nice算法优化方法的流程示意图,对于每个观测点,基于距离集合,生成混合分布模型,按照混合分布模型的模型分量对待聚类数据集进行划分,得到多个子集,之后分别确定各个子集的高密度点。需要说明的是,基于混合高斯模型,能够获得比混合伽马模型的更快的求解速度和更好的样本点划分效果。
步骤S50,在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
在本实施例中,参照图5所示的一种I-nice算法优化方法的流程示意图,在各子集对应的高密度点中筛选出待聚类数据集的数据点中的簇中心点,并将簇中心点以及簇中心点的个数作为运行k-means算法的初始参数,以调用k-means算法得到待聚类数据集的聚类结果。基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,从而提升I-nice算法。
本实施例提出的I-nice算法优化方法,通过获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,最终达到提升I-nice算法运行的精度和速度,解决了I-nice算法运行速度慢的技术问题。
基于第一实施例,提出本发明I-nice算法优化方法的第二实施例,参照图3,在本实施例中,步骤S40包括:
步骤S41,通过KDE算法,分别确定各子集对应的较高密度点;
步骤S42,通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
在本实施例中,对于每个子集的数据点,先通过KDE(Kernel DensityEstimation)找出较高密度点,然后采用Density Peak算法在较高密度点中找到较高密度点中的高密度点。
进一步地,所述步骤S42包括:
步骤S421,通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
步骤S422,基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
进一步地,所述步骤S30包括:
在本实施例中,对距离集合拟合多个混合分布模型,并在混合分布模型求解出与距离集合匹配度最高的目标混合分布模型的细化步骤如下:
进一步地,所述步骤S50:在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括:
步骤S51,形成各子集对应的高密度点的一个图;
步骤S52,基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
步骤S53,若应该合并,则在所述图中添加一条边连接对应两个高密度点;
步骤S54,通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
在本实施例中,对于多个观测点寻找得到高密度点(候选簇中心点),可能会出现重复和缺漏。将所有观测点找到的高密度点进行汇总后,缺漏的现象可得到解决,因为对某一观测点无法发现的高密度点,其余观测点从不同角度进行观测可轻易地找到对于的高密度点。
但多个观测点的高密度点汇总后,必然出现冗余的现象,即针对原始数据空间中的一个簇,多个观测点分别都寻找了对应的高密度点。此外,这会进一步导致对总体簇数的估计错误。I-nice算法采取基于阈值的方式进行判断,小于某个阈值则表明两个高密度点类似,可以合并。这种方式的缺点在于仅依赖高密度点之间的距离来判断是否应该合并,忽略原始数据集的分布,仅仅分析高密度点的相互关系,难以判断是否冗余,距离较近的高密度点也并不一定是冗余的,而较远的高密度点也可能是冗余的。
对于多个观测点得到的所有高密度点,两两之间判断是否应该合并。判断两个高密度点对应的一维距离值,对于每个观测点的混合分布模型,是否被划分至同一分量还是被划分到不同分量。若更多的观测点的混合分布模型中,将两个高密度点对应的一维距离值划分至同一模型分量,则原始高维空间中此两个高密度点应该被合并;若在更多的观测点的混合分布模型中,两个高密度点对应的一维距离值被划分至不同模型分量,则原始高维空间中此两个高密度点不会被合并。
基于以上逻辑,对原始高维空间中所有高密度点两两之间判断是否该合并,若应该被合并,则在G的E添加一条边连接对应两个高密度点的点。最后,通过并查集计算得到G的连通分量,对于每个连通分量,选取其中一个点作为最终的簇中心点。最终,从每个连通分量选取出的点即构成了最终的簇中心点。
这种方式充分考虑了每个高密度点在每个观测点的模型分布中的分量归属,从分量归属的相同程度来判断高密度点之间的冗余程度。
基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,最终达到提升I-nice算法运行的精度和速度,解决了I-nice算法运行速度慢的技术问题。
此外,本发明实施例还提出一种I-nice算法优化装置,参照图4,所述I-nice算法优化装置包括:
获取模块,用于获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
转换模块,用于基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
拟合模块,用于对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
子集划分模块,用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
簇中心点确定模块,用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
进一步地,所述转换模块,还用于:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
进一步地,所述子集划分模块,还用于:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
进一步地,所述子集划分模块,还用于:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
进一步地,所述拟合模块,还用于:
进一步地,所述拟合模块,还用于:
进一步地,所述簇中心点确定模块,还用于:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有I-nice算法优化程序,所述I-nice算法优化程序被处理器执行时实现如上述中任一项所述的I-nice算法优化方法的步骤。
本发明计算机可读存储介质具体实施例与上述I-nice算法优化方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种I-nice算法优化方法,其特征在于,所述I-nice算法优化方法包括以下步骤:
获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
2.如权利要求1所述的I-nice算法优化方法,其特征在于,所述基于各所述观测点,将所述待聚类数据集转换为一维的距离集合的步骤包括:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
3.如权利要求1所述的I-nice算法优化方法,其特征在于,所述分别确定各子集对应的高密度点的步骤包括:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
4.如权利要求3所述的I-nice算法优化方法,其特征在于,所述通过Density Peak算法,分别确定各子集的较高密度点中的高密度点的步骤包括:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
7.如权利要求1所述的I-nice算法优化方法,其特征在于,所述在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
8.一种I-nice算法优化装置,其特征在于,所述I-nice算法优化装置包括:
获取模块,用于获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
转换模块,用于基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
拟合模块,用于对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
子集划分模块,用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
簇中心点确定模块,用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
9.一种I-nice算法优化设备,其特征在于,所述I-nice算法优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的I-nice算法优化程序,所述I-nice算法优化程序被所述处理器执行时实现如权利要求1至7中任一项所述的I-nice算法优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有I-nice算法优化程序,所述I-nice算法优化程序被处理器执行时实现如权利要求1至7中任一项所述的I-nice算法优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111471764.5A CN113869465A (zh) | 2021-12-06 | 2021-12-06 | I-nice算法优化方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111471764.5A CN113869465A (zh) | 2021-12-06 | 2021-12-06 | I-nice算法优化方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869465A true CN113869465A (zh) | 2021-12-31 |
Family
ID=78985859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111471764.5A Pending CN113869465A (zh) | 2021-12-06 | 2021-12-06 | I-nice算法优化方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869465A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427965A (zh) * | 2018-03-05 | 2018-08-21 | 重庆邮电大学 | 一种基于路网聚类的热点区域挖掘方法 |
US20210019557A1 (en) * | 2019-07-19 | 2021-01-21 | Centrica Plc | System for distributed data processing using clustering |
CN112528025A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
-
2021
- 2021-12-06 CN CN202111471764.5A patent/CN113869465A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427965A (zh) * | 2018-03-05 | 2018-08-21 | 重庆邮电大学 | 一种基于路网聚类的热点区域挖掘方法 |
US20210019557A1 (en) * | 2019-07-19 | 2021-01-21 | Centrica Plc | System for distributed data processing using clustering |
CN112528025A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
尹建君等: "数据划分优化的并行k-means算法", 《计算机工程与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816888B2 (en) | Accurate tag relevance prediction for image search | |
US9229956B2 (en) | Image retrieval using discriminative visual features | |
US9483701B1 (en) | System and method for using segmentation to identify object location in images | |
US10867169B2 (en) | Character recognition using hierarchical classification | |
US10540566B2 (en) | Image processing apparatus, image processing method, and program | |
JP5214760B2 (ja) | 学習装置、方法及びプログラム | |
US11775610B2 (en) | Flexible imputation of missing data | |
JP4376145B2 (ja) | 画像分類学習処理システム及び画像識別処理システム | |
Nanni et al. | Heterogeneous bag-of-features for object/scene recognition | |
US7401062B2 (en) | Method for resource allocation among classifiers in classification systems | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
Zhang et al. | Large-scale aerial image categorization using a multitask topological codebook | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
Win et al. | Information gain measured feature selection to reduce high dimensional data | |
CN110602120A (zh) | 一种面向网络的入侵数据检测方法 | |
CN113569933A (zh) | 商标图样匹配方法及其相应的装置、设备、介质 | |
US20230259756A1 (en) | Graph explainable artificial intelligence correlation | |
CN113869465A (zh) | I-nice算法优化方法、装置、设备及计算机可读存储介质 | |
JP2006031114A (ja) | 画像分割処理システム | |
Gao et al. | Data-driven lightweight interest point selection for large-scale visual search | |
CN114462479A (zh) | 模型训练方法、检索方法以及模型、设备和介质 | |
Hoffmann et al. | Music data processing and mining in large databases for active media | |
Cheng et al. | Granular-ball computing-based manifold clustering algorithms for ultra-scalable data | |
Gao et al. | A novel semi-supervised learning method based on fast search and density peaks | |
Park et al. | k-fold Subsampling based Sequential Backward Feature Elimination. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211231 |