CN113869465A

CN113869465A - I-nice算法优化方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113869465A
Application number: CN202111471764.5A
Authority: CN
Inventors: 尹剑飞; 陈鸿杰; 杨洪广; 魏晓欢; 黄哲学
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2021-12-31

Abstract

本发明公开了一种I‑nice算法优化方法、装置、设备及计算机可读存储介质，该方法包括：获取待聚类数据集，并通过预设的观测点随机生成算法，生成待聚类数据集对应的多个观测点；基于各观测点，将待聚类数据集转换为一维的距离集合；对距离集合拟合多个混合分布模型，并在混合分布模型求解出与距离集合匹配度最高的目标混合分布模型；通过目标混合分布模型将待聚类数据集划分成多个子集，并分别确定各子集对应的高密度点；在各子集对应的高密度点中确定待聚类数据集的数据点中的簇中心点，并将簇中心点以及簇中心点的个数作为运行k‑means算法的初始参数，以调用k‑means算法得到待聚类数据集的聚类结果。本发明提升了I‑nice算法运行的精度和速度。

Description

I-nice算法优化方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种I-nice算法优化方法、装置、设备及计算机可读存储介质。

背景技术

无监督聚类是对数据预处理和数据分析的常用过程。该过程的主要任务是将一个数据集合划分为若干个不相交的子集，每个子集称为一个簇，要求每个子集中的数据点距离较近，而隶属于不同子集的数据点之间距离较远。由于该过程不需要人工设置数据点的标签信息，因此，称之为无监督聚类（unsupervised Clustering），以区别于监督分类（Supervised Classification）。

对一个数据集执行无监督聚类所获得的多个子集，就是对该数据集的一种自动分类。基于该分类，可以对该数据集进一步处理，包括迭代式数据标注、半监督式学习、监督式学习、数据可视化分析、异常点检测、数据压缩等。鉴于无监督聚类在数据预处理和数据分析中的重要作用，目前有以下几类代表性的算法：k-means算法、k-means++算法、谱聚类、I-nice算法等，但上述算法存在着运算速度慢的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种I-nice算法优化方法、装置、设备及计算机可读存储介质，旨在解决运算速度慢的技术问题。

为实现上述目的，本发明提供一种I-nice算法优化方法，所述I-nice算法优化方法包括以下步骤：

获取待聚类数据集，并通过预设的观测点随机生成算法，生成所述待聚类数据集对应的多个观测点；

基于各所述观测点，将所述待聚类数据集转换为一维的距离集合；

对所述距离集合拟合多个混合分布模型，并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型；

通过所述目标混合分布模型将所述待聚类数据集划分成多个子集，并分别确定各子集对应的高密度点；

在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点，并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数，以调用所述k-means算法得到所述待聚类数据集的聚类结果。

可选地，所述基于各所述观测点，将所述待聚类数据集转换为一维的距离集合的步骤包括：

获取用户配置的距离函数；

根据所述距离函数，计算所述待聚类数据集中每个点到各观测点的距离，得到所述待聚类数据集对应的距离集合。

可选地，所述分别确定各子集对应的高密度点的步骤包括：

通过KDE算法，分别确定各子集对应的较高密度点；

通过Density Peak算法，分别确定各子集的较高密度点中的高密度点。

可选地，所述通过Density Peak算法，分别确定各子集的较高密度点中的高密度点的步骤包括：

通过Density Peak算法，分别确定各子集的较高密度点对应的局部密度；

基于较高密度点对应的局部密度，确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。

可选地，所述对所述距离集合拟合多个混合分布模型，并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型的步骤包括：

按照预设的模型分量个数规律，生成模型分量个数为

的第一混合分布模型以及计算所述第一混合分布模型对应的

值，直至生成的第一混合分布模型满足

且

，其中，所述模型分量个数规律为

；

以

为步长从第一混合分布模型

开始细粒度搜索，以分别生成模型分量个数为

的第二混合分布模型以及计算对应的

直至生成的第二混合分布模型满足

且

；

将模型分量个数为

对应的第二混合分布模型作为与所述距离集合匹配度最高的目标混合分布模型。

可选地，所述计算所述第一混合分布模型对应的

值的步骤包括：

通过EM算法求解所述第一混合分布模型的模型参数，并基于所述第一混合分布模型的模型参数计算所述第一混合分布模型对应的

值；

其中，所述

值的计算公式为

，其中，

为第一混合分布模型的参数向量，

为最大似然值，N为待聚类数据集的个数，q为模型分量的参数的个数。

可选地，所述在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括：

形成各子集对应的高密度点的一个图；

基于各子集对应的高密度点，判断所有高密度点两两之间是否应该合并；

若应该合并，则在所述图中添加一条边连接对应两个高密度点；

通过并查集计算得到所述图中的连通分量，并选取每个连通分量其中一个点作为簇中心点。

此外，为实现上述目的，本发明还提供一种I-nice算法优化装置，所述I-nice算法优化装置包括：

获取模块，用于获取待聚类数据集，并通过预设的观测点随机生成算法，生成所述待聚类数据集对应的多个观测点；

转换模块，用于基于各所述观测点，将所述待聚类数据集转换为一维的距离集合；

拟合模块，用于对所述距离集合拟合多个混合分布模型，并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型；

子集划分模块，用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集，并分别确定各子集对应的高密度点；

簇中心点确定模块，用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点，并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数，以调用所述k-means算法得到所述待聚类数据集的聚类结果。

此外，为实现上述目的，本发明还提供一种I-nice算法优化设备，所述I-nice算法优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的I-nice算法优化程序，所述I-nice算法优化程序被所述处理器执行时实现如上述的I-nice算法优化方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有I-nice算法优化程序，所述I-nice算法优化程序被处理器执行时实现如上述的I-nice算法优化方法的步骤。

本发明通过获取待聚类数据集，并通过预设的观测点随机生成算法，生成所述待聚类数据集对应的多个观测点；基于各所述观测点，将所述待聚类数据集转换为一维的距离集合；对所述距离集合拟合多个混合分布模型，并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型；通过所述目标混合分布模型将所述待聚类数据集划分成多个子集，并分别确定各子集对应的高密度点；在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点，并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数，以调用所述k-means算法得到所述待聚类数据集的聚类结果。基于上述步骤得到的中心点，以及中心点的个数，可作为运行k-means算法的初始参数，可大大优化k-means算法运行的精度和速度，最终达到提升I-nice算法运行的精度和速度，解决了I-nice算法运行速度慢的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的I-nice算法优化设备结构示意图；

图2为本发明I-nice算法优化方法第一实施例的流程示意图；

图3为本发明I-nice算法优化方法第二实施例的流程示意图；

图4为本发明I-nice算法优化装置一实施例的系统结构示意图；

图5为本发明的一种I-nice算法优化方法示例性的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的I-nice算法优化设备结构示意图。

本发明实施例I-nice算法优化设备可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）播放器、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该I-nice算法优化设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，I-nice算法优化设备还可以包括摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图1中示出的I-nice算法优化设备结构并不构成对I-nice算法优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及I-nice算法优化程序。

在图1所示的I-nice算法优化设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端（用户端），与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的I-nice算法优化程序。

在本实施例中，I-nice算法优化设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的I-nice算法优化程序，其中，处理器1001调用存储器1005中存储的I-nice算法优化程序时，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的I-nice算法优化程序，还执行以下操作：

获取用户配置的距离函数；

通过KDE算法，分别确定各子集对应的较高密度点；

按照预设的模型分量个数规律，生成模型分量个数为

的第一混合分布模型以及计算所述第一混合分布模型对应的

值，直至生成的第一混合分布模型满足

且

，其中，所述模型分量个数规律为

；

以

为步长从第一混合分布模型

开始细粒度搜索，以分别生成模型分量个数为

的第二混合分布模型以及计算对应的

直至生成的第二混合分布模型满足

且

；

将模型分量个数为

值；

其中，所述

值的计算公式为

，其中，

为第一混合分布模型的参数向量，

形成各子集对应的高密度点的一个图；

本发明还提供一种I-nice算法优化方法，参照图2，图2为本发明I-nice算法优化方法第一实施例的流程示意图。

在本实施例中，该I-nice算法优化方法包括以下步骤：

步骤S10，获取待聚类数据集，并通过预设的观测点随机生成算法，生成所述待聚类数据集对应的多个观测点；

步骤S20，基于各所述观测点，将所述待聚类数据集转换为一维的距离集合；

I-nice (Identifying the number of clusters and initial clustercentres)算法是一种可自动估计簇的个数和簇的初始中心点的无监督聚类算法，I-nice算法的基本过程如下：

（1）通过引人类观察事物的随机观察点机制，从数据集所在的空间中随机选取一个观察点

，计算数据集的各个数据点

到

的距离再

，从而将高维数据点

变换到一维距离空间

。

（2）在一维距离空间

中对数据点进行含有

个分量的一维伽马混合模型拟合，针对不同的

分别计算模型判定准则AICc标量：

该标量由负似然函数值和模型复杂度量两部分组成。

混合模型分量

的选取是在一组AICc中选取最低值对应的

值。这个阶段时间复杂度为

，其中

为最大尝试的伽马混合模型的分量数，

为计算伽马分布形状参数

所需的牛顿迭代步数，

为EM算法的迭代步数，

为数据点的数量。

（3）在每个伽马分量对应的一个原始数据子集中，应用密度峰值估计算法过滤出一组候选初始中心点。

（4）对多个候选初始中心点按距离阈值参数进行归并，得到k个簇的初始中心点

。

（5）以簇的初始中心点

及其个数k，调用k-means算法得到最终的聚类结果。

I-nice算法改进了一般聚类算法需要人工设定簇的个数和簇的初始中心点的问题。相对于其它决定簇的个数的判定准则Silhouette、Elbow和DPMM (Dirichlet-ProcessMixture Model)而言，由于采用一维随机观察点的数据子集划分机制，I-nice算法能够估计的簇的个数更多、在大数据集上表现更好。因为选取的簇的初始中心点

满足高维空间中高密度统计分布特性，I-nice算法有效地减少了k-means求解最终簇的迭代次数。

然而I-nice算法仍然存在若干问题，具体有：

（1）数据子集划分的性能问题。

个分量的伽马混合加法模型的参数估计是采用EM算法，因为伽马混合加法模型的形状和伸缩参数不存在显式的封闭公式求解，故EM算法的M步本质上是通过牛顿类型的数值优化算法实现的，时间复杂度高。鉴于牛顿类型的数值优化算法对于大量样本数据点的优化求解存在伸缩性、稳定性和精度问题，因此，对于大数据集，I-nice算法在第2步获得的数据子集划分结果不满足数据点分布的平衡性，对于数据子集划分算法的时间效率和选择不同混合分布的灵活性考虑不足。

（2）I-nice算法的超参和超过程的相关问题，如观察点的位置选取、需要多少个观察点、选用何种观察距离的定义、是否可以选择其它类型的加法混合模型进行数据子集划分、最佳

值的判定准则、为候选簇中心的筛选应该选择哪些算法以及它们的应用次序如何、为剔除重复的簇的中心该如何选择阈值等问题。对于这些问题，原算法未能给出解答。

（3）I-nice算法的分与治的工作负载如何权衡，其计算复杂度如何估计。“分”任务的主要内容是伽马混合加法模型的参数估计、多个观察点对数据集的一维投影的计算任务、原始数据集的局部子集的高密度点估计，而“合”任务的主要内容是对候选簇中心的除重和增补。这两部分的工作内容是如何影响I-nice算法整体性能，对于I-nice算法有效应用于大数据聚类场景具有重要意义，例如在一个大数据集上运行I-nice算法之前，软件若能给出正确的计算时间估计，则可以提前规划分与治的工作负载，以优化I-nice算法的整体执行性能。

（4）从关键的软件实现来讲，I-nice算法实现方式是主体代码在Python中编写，伽马混合模型的估计则是调用基于R语言的一个伽马混合模型估计器gammamixEM.R。考虑于跨进程调用R服务器进程以及gammamixEM.R的非线程安全性，原有的I-nice软件将无法有效实现基于内核多线程的并行执行。

进一步地，所述步骤S20包括：

步骤S21，获取用户配置的距离函数；

步骤S22，根据所述距离函数，计算所述待聚类数据集中每个点到各观测点的距离，得到所述待聚类数据集对应的距离集合。

在本实施例中，针对输入的待聚类数据集和误差参数

，依据公式

，用户选择的观察点随机成算法，如EdgeObserverGenerator、HistoryObserverGenerator，生成多个观测点。之后，根据用户配置的距离函数One2OneDistance，计算待聚类数据集每个点到观测点的距离，将多维的待聚类数据集转换为一维的距离集合，以降低直接对高维数据集进行聚类的时间复杂性。

步骤S30，对所述距离集合拟合多个混合分布模型，并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型；

在本实施例中，距离集合表示了待聚类数据集的距离分布，距离分布中常包含多个峰（即待聚类数据集包含多个簇），可通过混合分布模型拟合距离集合的距离分布，每个峰对应一个分布模型分量。其中，混合分布模型可以是混合伽马模型或混合高斯模型等各种混合分布模型，解决了原有I-nice算法固定采用混合伽马模型而导致对于大量样本数据点的优化存在性能和精度的问题。

此处以混合高斯模型（Gaussian Mixture Model, GMM）为例，设

是待聚类数据集Y相对于观测点p的距离分布。则其混合高斯模型可定义如下：

其中，

代表GMM的参数向量

，M为高斯分量的个数，

为混合模型的分量权值，

包含位置参数

和尺度参数

，每个高斯分量的概率密度函数如下：

另外各个模型的权值需满足如下限制：

令

为N个随机样本的实例，则其联合分布如下：

后续求解混合高斯模型的参数，即最大化对数似然：

通过上述步骤求解得到混合分布模型，从中选取出最合适的混合分布模型得到目标混合分布模型。

步骤S40，通过所述目标混合分布模型将所述待聚类数据集划分成多个子集，并分别确定各子集对应的高密度点；

在本实施例中，参照图5所示的一种I-nice算法优化方法的流程示意图，对于每个观测点，基于距离集合，生成混合分布模型，按照混合分布模型的模型分量对待聚类数据集进行划分，得到多个子集，之后分别确定各个子集的高密度点。需要说明的是，基于混合高斯模型，能够获得比混合伽马模型的更快的求解速度和更好的样本点划分效果。

步骤S50，在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点，并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数，以调用所述k-means算法得到所述待聚类数据集的聚类结果。

在本实施例中，参照图5所示的一种I-nice算法优化方法的流程示意图，在各子集对应的高密度点中筛选出待聚类数据集的数据点中的簇中心点，并将簇中心点以及簇中心点的个数作为运行k-means算法的初始参数，以调用k-means算法得到待聚类数据集的聚类结果。基于上述步骤得到的中心点，以及中心点的个数，可作为运行k-means算法的初始参数，可大大优化k-means算法运行的精度和速度，从而提升I-nice算法。

本实施例提出的I-nice算法优化方法，通过获取待聚类数据集，并通过预设的观测点随机生成算法，生成所述待聚类数据集对应的多个观测点；基于各所述观测点，将所述待聚类数据集转换为一维的距离集合；对所述距离集合拟合多个混合分布模型，并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型；通过所述目标混合分布模型将所述待聚类数据集划分成多个子集，并分别确定各子集对应的高密度点；在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点，并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数，以调用所述k-means算法得到所述待聚类数据集的聚类结果。基于上述步骤得到的中心点，以及中心点的个数，可作为运行k-means算法的初始参数，可大大优化k-means算法运行的精度和速度，最终达到提升I-nice算法运行的精度和速度，解决了I-nice算法运行速度慢的技术问题。

基于第一实施例，提出本发明I-nice算法优化方法的第二实施例，参照图3，在本实施例中，步骤S40包括：

步骤S41，通过KDE算法，分别确定各子集对应的较高密度点；

步骤S42，通过Density Peak算法，分别确定各子集的较高密度点中的高密度点。

在本实施例中，对于每个子集的数据点，先通过KDE(Kernel DensityEstimation)找出较高密度点，然后采用Density Peak算法在较高密度点中找到较高密度点中的高密度点。

进一步地，所述步骤S42包括：

步骤S421，通过Density Peak算法，分别确定各子集的较高密度点对应的局部密度；

步骤S422，基于较高密度点对应的局部密度，确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。

在本实施例中，Density Peak算法主要需要对每个数据点计算两个变量，局部密度

和距离更高密度点的最短距离

，分别定义如下：

。

对于具有最高局部密度的点，其

。

簇中心点的判断标准即为具有异常大的

，表明i到更高密度的点的距离相较于其他点到高密度点的距离更远，即i的周围都是局部密度小于i的点，可以说明i为某个簇的最高密度点。

进一步地，所述步骤S30包括：

步骤S31，按照预设的模型分量个数规律，生成模型分量个数为

的第一混合分布模型以及计算所述第一混合分布模型对应的

值，直至生成的第一混合分布模型满足

且

，其中，所述模型分量个数规律为

；

步骤S32，以

为步长从第一混合分布模型

开始细粒度搜索，以分别生成模型分量个数为

的第二混合分布模型以及计算对应的

直至生成的第二混合分布模型满足

且

；

步骤S33，将模型分量个数为

在本实施例中，对距离集合拟合多个混合分布模型，并在混合分布模型求解出与距离集合匹配度最高的目标混合分布模型的细化步骤如下：

（1）首先生成模型分量个数为

的混合高斯模型，然后通过EM算法求解模型参数，计算其AICc值，记为

；

（2）生成模型分量个数为

的混合高斯模型，得到

；按此规律，生成模型分量个数为

的混合分布模型

，计算得到

；

（3）直至生成的混合分布模型

满足条件

且

；

（4）由此找到了最佳GMM的模型分量个数的粗略范围，即

；

（5）再以

为步长从

开始细粒度搜索，即分别生成模型分量个数为

的GMM得到对应的

直至生成的混合分布模型满足

且

；

（6）由此，找到了最佳GMM的近似解

，其模型分量个数为

，因为存在多个观测点，因此近似最佳的GMM足以解决中心点的寻找问题。

进一步地，第一混合分布模型对应的

值的求解过程为：通过EM算法求解第一混合分布模型的模型参数，并基于第一混合分布模型的模型参数计算第一混合分布模型对应的

值。

其中，所述

值的计算公式为

，其中，

为第一混合分布模型的参数向量，

进一步地，所述步骤S50：在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括：

步骤S51，形成各子集对应的高密度点的一个图；

步骤S52，基于各子集对应的高密度点，判断所有高密度点两两之间是否应该合并；

步骤S53，若应该合并，则在所述图中添加一条边连接对应两个高密度点；

步骤S54，通过并查集计算得到所述图中的连通分量，并选取每个连通分量其中一个点作为簇中心点。

在本实施例中，对于多个观测点寻找得到高密度点（候选簇中心点），可能会出现重复和缺漏。将所有观测点找到的高密度点进行汇总后，缺漏的现象可得到解决，因为对某一观测点无法发现的高密度点，其余观测点从不同角度进行观测可轻易地找到对于的高密度点。

但多个观测点的高密度点汇总后，必然出现冗余的现象，即针对原始数据空间中的一个簇，多个观测点分别都寻找了对应的高密度点。此外，这会进一步导致对总体簇数的估计错误。I-nice算法采取基于阈值的方式进行判断，小于某个阈值则表明两个高密度点类似，可以合并。这种方式的缺点在于仅依赖高密度点之间的距离来判断是否应该合并，忽略原始数据集的分布，仅仅分析高密度点的相互关系，难以判断是否冗余，距离较近的高密度点也并不一定是冗余的，而较远的高密度点也可能是冗余的。

具体地，设共有k个高密度点，基于此形成一个图

，其中E为空集，即每个点都是孤立的。

对于多个观测点得到的所有高密度点，两两之间判断是否应该合并。判断两个高密度点对应的一维距离值，对于每个观测点的混合分布模型，是否被划分至同一分量还是被划分到不同分量。若更多的观测点的混合分布模型中，将两个高密度点对应的一维距离值划分至同一模型分量，则原始高维空间中此两个高密度点应该被合并；若在更多的观测点的混合分布模型中，两个高密度点对应的一维距离值被划分至不同模型分量，则原始高维空间中此两个高密度点不会被合并。

基于以上逻辑，对原始高维空间中所有高密度点两两之间判断是否该合并，若应该被合并，则在G的E添加一条边连接对应两个高密度点的点。最后，通过并查集计算得到G的连通分量，对于每个连通分量，选取其中一个点作为最终的簇中心点。最终，从每个连通分量选取出的点即构成了最终的簇中心点。

这种方式充分考虑了每个高密度点在每个观测点的模型分布中的分量归属，从分量归属的相同程度来判断高密度点之间的冗余程度。

基于上述步骤得到的中心点，以及中心点的个数，可作为运行k-means算法的初始参数，可大大优化k-means算法运行的精度和速度，最终达到提升I-nice算法运行的精度和速度，解决了I-nice算法运行速度慢的技术问题。

此外，本发明实施例还提出一种I-nice算法优化装置，参照图4，所述I-nice算法优化装置包括：

进一步地，所述转换模块，还用于：

获取用户配置的距离函数；

进一步地，所述子集划分模块，还用于：

通过KDE算法，分别确定各子集对应的较高密度点；

进一步地，所述子集划分模块，还用于：

进一步地，所述拟合模块，还用于：

按照预设的模型分量个数规律，生成模型分量个数为

的第一混合分布模型以及计算所述第一混合分布模型对应的

值，直至生成的第一混合分布模型满足

且

，其中，所述模型分量个数规律为

；

以

为步长从第一混合分布模型

开始细粒度搜索，以分别生成模型分量个数为

的第二混合分布模型以及计算对应的

直至生成的第二混合分布模型满足

且

；

将模型分量个数为

进一步地，所述拟合模块，还用于：

值；

其中，所述

值的计算公式为

，其中，

为第一混合分布模型的参数向量，

进一步地，所述簇中心点确定模块，还用于：

形成各子集对应的高密度点的一个图；

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有I-nice算法优化程序，所述I-nice算法优化程序被处理器执行时实现如上述中任一项所述的I-nice算法优化方法的步骤。

本发明计算机可读存储介质具体实施例与上述I-nice算法优化方法的各实施例基本相同，在此不再详细赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。