CN113869465A - I-nice算法优化方法、装置、设备及计算机可读存储介质 - Google Patents

I-nice算法优化方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113869465A
CN113869465A CN202111471764.5A CN202111471764A CN113869465A CN 113869465 A CN113869465 A CN 113869465A CN 202111471764 A CN202111471764 A CN 202111471764A CN 113869465 A CN113869465 A CN 113869465A
Authority
CN
China
Prior art keywords
algorithm
clustered
points
data set
mixed distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111471764.5A
Other languages
English (en)
Inventor
尹剑飞
陈鸿杰
杨洪广
魏晓欢
黄哲学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202111471764.5A priority Critical patent/CN113869465A/zh
Publication of CN113869465A publication Critical patent/CN113869465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种I‑nice算法优化方法、装置、设备及计算机可读存储介质,该方法包括:获取待聚类数据集,并通过预设的观测点随机生成算法,生成待聚类数据集对应的多个观测点;基于各观测点,将待聚类数据集转换为一维的距离集合;对距离集合拟合多个混合分布模型,并在混合分布模型求解出与距离集合匹配度最高的目标混合分布模型;通过目标混合分布模型将待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;在各子集对应的高密度点中确定待聚类数据集的数据点中的簇中心点,并将簇中心点以及簇中心点的个数作为运行k‑means算法的初始参数,以调用k‑means算法得到待聚类数据集的聚类结果。本发明提升了I‑nice算法运行的精度和速度。

Description

I-nice算法优化方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种I-nice算法优化方法、装置、设备及计算机可读存储介质。
背景技术
无监督聚类是对数据预处理和数据分析的常用过程。该过程的主要任务是将一个数据集合划分为若干个不相交的子集,每个子集称为一个簇,要求每个子集中的数据点距离较近,而隶属于不同子集的数据点之间距离较远。由于该过程不需要人工设置数据点的标签信息,因此,称之为无监督聚类(unsupervised Clustering),以区别于监督分类(Supervised Classification)。
对一个数据集执行无监督聚类所获得的多个子集,就是对该数据集的一种自动分类。基于该分类,可以对该数据集进一步处理,包括迭代式数据标注、半监督式学习、监督式学习、数据可视化分析、异常点检测、数据压缩等。鉴于无监督聚类在数据预处理和数据分析中的重要作用,目前有以下几类代表性的算法:k-means算法、k-means++算法、谱聚类、I-nice算法等,但上述算法存在着运算速度慢的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种I-nice算法优化方法、装置、设备及计算机可读存储介质,旨在解决运算速度慢的技术问题。
为实现上述目的,本发明提供一种I-nice算法优化方法,所述I-nice算法优化方法包括以下步骤:
获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
可选地,所述基于各所述观测点,将所述待聚类数据集转换为一维的距离集合的步骤包括:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
可选地,所述分别确定各子集对应的高密度点的步骤包括:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
可选地,所述通过Density Peak算法,分别确定各子集的较高密度点中的高密度点的步骤包括:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
可选地,所述对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型的步骤包括:
按照预设的模型分量个数规律,生成模型分量个数为
Figure 144857DEST_PATH_IMAGE001
的第一混合分布模型以及计算所述第一混合分布模型对应的
Figure 600109DEST_PATH_IMAGE002
值,直至生成的第一混合分布模型满足
Figure DEST_PATH_IMAGE003
Figure 562249DEST_PATH_IMAGE004
,其中,所述模型分量个数规律为
Figure DEST_PATH_IMAGE005
Figure 128359DEST_PATH_IMAGE006
为步长从第一混合分布模型
Figure DEST_PATH_IMAGE007
开始细粒度搜索,以分别生成模型分量个数为
Figure 226765DEST_PATH_IMAGE008
的第二混合分布模型以及计算对应的
Figure DEST_PATH_IMAGE009
直至生成的第二混合分布模型满足
Figure 915236DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
将模型分量个数为
Figure 302355DEST_PATH_IMAGE012
对应的第二混合分布模型作为与所述距离集合匹配度最高的目标混合分布模型。
可选地,所述计算所述第一混合分布模型对应的
Figure DEST_PATH_IMAGE013
值的步骤包括:
通过EM算法求解所述第一混合分布模型的模型参数,并基于所述第一混合分布模型的模型参数计算所述第一混合分布模型对应的
Figure 486472DEST_PATH_IMAGE014
值;
其中,所述
Figure DEST_PATH_IMAGE015
值的计算公式为
Figure 642647DEST_PATH_IMAGE016
,其中,
Figure DEST_PATH_IMAGE017
为第一混合分布模型的参数向量,
Figure 502018DEST_PATH_IMAGE018
为最大似然值,N为待聚类数据集的个数,q为模型分量的参数的个数。
可选地,所述在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
此外,为实现上述目的,本发明还提供一种I-nice算法优化装置,所述I-nice算法优化装置包括:
获取模块,用于获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
转换模块,用于基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
拟合模块,用于对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
子集划分模块,用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
簇中心点确定模块,用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
此外,为实现上述目的,本发明还提供一种I-nice算法优化设备,所述I-nice算法优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的I-nice算法优化程序,所述I-nice算法优化程序被所述处理器执行时实现如上述的I-nice算法优化方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有I-nice算法优化程序,所述I-nice算法优化程序被处理器执行时实现如上述的I-nice算法优化方法的步骤。
本发明通过获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,最终达到提升I-nice算法运行的精度和速度,解决了I-nice算法运行速度慢的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的I-nice算法优化设备结构示意图;
图2为本发明I-nice算法优化方法第一实施例的流程示意图;
图3为本发明I-nice算法优化方法第二实施例的流程示意图;
图4为本发明I-nice算法优化装置一实施例的系统结构示意图;
图5为本发明的一种I-nice算法优化方法示例性的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的I-nice算法优化设备结构示意图。
本发明实施例I-nice算法优化设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该I-nice算法优化设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,I-nice算法优化设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的I-nice算法优化设备结构并不构成对I-nice算法优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及I-nice算法优化程序。
在图1所示的I-nice算法优化设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的I-nice算法优化程序。
在本实施例中,I-nice算法优化设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的I-nice算法优化程序,其中,处理器1001调用存储器1005中存储的I-nice算法优化程序时,并执行以下操作:
获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
按照预设的模型分量个数规律,生成模型分量个数为
Figure 110854DEST_PATH_IMAGE001
的第一混合分布模型以及计算所述第一混合分布模型对应的
Figure 284347DEST_PATH_IMAGE002
值,直至生成的第一混合分布模型满足
Figure 357345DEST_PATH_IMAGE003
Figure 325301DEST_PATH_IMAGE004
,其中,所述模型分量个数规律为
Figure 421433DEST_PATH_IMAGE005
Figure 929775DEST_PATH_IMAGE006
为步长从第一混合分布模型
Figure 60542DEST_PATH_IMAGE007
开始细粒度搜索,以分别生成模型分量个数为
Figure 199399DEST_PATH_IMAGE008
的第二混合分布模型以及计算对应的
Figure 782827DEST_PATH_IMAGE009
直至生成的第二混合分布模型满足
Figure 94860DEST_PATH_IMAGE010
Figure 80133DEST_PATH_IMAGE011
将模型分量个数为
Figure 389892DEST_PATH_IMAGE012
对应的第二混合分布模型作为与所述距离集合匹配度最高的目标混合分布模型。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
通过EM算法求解所述第一混合分布模型的模型参数,并基于所述第一混合分布模型的模型参数计算所述第一混合分布模型对应的
Figure 460616DEST_PATH_IMAGE014
值;
其中,所述
Figure 576339DEST_PATH_IMAGE015
值的计算公式为
Figure 416120DEST_PATH_IMAGE016
,其中,
Figure 896779DEST_PATH_IMAGE017
为第一混合分布模型的参数向量,
Figure 251537DEST_PATH_IMAGE018
为最大似然值,N为待聚类数据集的个数,q为模型分量的参数的个数。
进一步地,处理器1001可以调用存储器1005中存储的I-nice算法优化程序,还执行以下操作:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
本发明还提供一种I-nice算法优化方法,参照图2,图2为本发明I-nice算法优化方法第一实施例的流程示意图。
在本实施例中,该I-nice算法优化方法包括以下步骤:
步骤S10,获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
步骤S20,基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
I-nice (Identifying the number of clusters and initial clustercentres)算法是一种可自动估计簇的个数和簇的初始中心点的无监督聚类算法,I-nice算法的基本过程如下:
(1)通过引人类观察事物的随机观察点机制,从数据集所在的空间中随机选取一个观察点
Figure DEST_PATH_IMAGE019
,计算数据集的各个数据点
Figure 108635DEST_PATH_IMAGE020
Figure 802921DEST_PATH_IMAGE019
的距离再
Figure 516800DEST_PATH_IMAGE021
,从而将高维数据点
Figure 562116DEST_PATH_IMAGE022
变换到一维距离空间
Figure 957325DEST_PATH_IMAGE023
(2)在一维距离空间
Figure 568435DEST_PATH_IMAGE024
中对数据点进行含有
Figure 656477DEST_PATH_IMAGE025
个分量的一维伽马混合模型拟合,针对不同的
Figure 923510DEST_PATH_IMAGE026
分别计算模型判定准则AICc标量:
Figure 856831DEST_PATH_IMAGE027
该标量由负似然函数值和模型复杂度量两部分组成。
混合模型分量
Figure 588027DEST_PATH_IMAGE028
的选取是在一组AICc中选取最低值对应的
Figure 846970DEST_PATH_IMAGE028
值。这个阶段时间复杂度为
Figure 335720DEST_PATH_IMAGE029
,其中
Figure 400628DEST_PATH_IMAGE030
为最大尝试的伽马混合模型的分量数,
Figure 924013DEST_PATH_IMAGE031
为计算伽马分布形状参数
Figure 88278DEST_PATH_IMAGE032
所需的牛顿迭代步数,
Figure 329904DEST_PATH_IMAGE033
为EM算法的迭代步数,
Figure 932923DEST_PATH_IMAGE034
为数据点的数量。
(3)在每个伽马分量对应的一个原始数据子集中,应用密度峰值估计算法过滤出一组候选初始中心点。
(4)对多个候选初始中心点按距离阈值参数进行归并,得到k个簇的初始中心点
Figure 310815DEST_PATH_IMAGE035
(5)以簇的初始中心点
Figure 911561DEST_PATH_IMAGE036
及其个数k,调用k-means算法得到最终的聚类结果。
I-nice算法改进了一般聚类算法需要人工设定簇的个数和簇的初始中心点的问题。相对于其它决定簇的个数的判定准则Silhouette、Elbow和DPMM (Dirichlet-ProcessMixture Model)而言,由于采用一维随机观察点的数据子集划分机制,I-nice算法能够估计的簇的个数更多、在大数据集上表现更好。因为选取的簇的初始中心点
Figure 437220DEST_PATH_IMAGE037
满足高维空间中高密度统计分布特性,I-nice算法有效地减少了k-means求解最终簇的迭代次数。
然而I-nice算法仍然存在若干问题,具体有:
(1)数据子集划分的性能问题。
Figure 781614DEST_PATH_IMAGE038
个分量的伽马混合加法模型的参数估计是采用EM算法,因为伽马混合加法模型的形状和伸缩参数不存在显式的封闭公式求解,故EM算法的M步本质上是通过牛顿类型的数值优化算法实现的,时间复杂度高。鉴于牛顿类型的数值优化算法对于大量样本数据点的优化求解存在伸缩性、稳定性和精度问题,因此,对于大数据集,I-nice算法在第2步获得的数据子集划分结果不满足数据点分布的平衡性,对于数据子集划分算法的时间效率和选择不同混合分布的灵活性考虑不足。
(2)I-nice算法的超参和超过程的相关问题,如观察点的位置选取、需要多少个观察点、选用何种观察距离的定义、是否可以选择其它类型的加法混合模型进行数据子集划分、最佳
Figure 279591DEST_PATH_IMAGE039
值的判定准则、为候选簇中心的筛选应该选择哪些算法以及它们的应用次序如何、为剔除重复的簇的中心该如何选择阈值等问题。对于这些问题,原算法未能给出解答。
(3)I-nice算法的分与治的工作负载如何权衡,其计算复杂度如何估计。“分”任务的主要内容是伽马混合加法模型的参数估计、多个观察点对数据集的一维投影的计算任务、原始数据集的局部子集的高密度点估计,而“合”任务的主要内容是对候选簇中心的除重和增补。这两部分的工作内容是如何影响I-nice算法整体性能,对于I-nice算法有效应用于大数据聚类场景具有重要意义,例如在一个大数据集上运行I-nice算法之前,软件若能给出正确的计算时间估计,则可以提前规划分与治的工作负载,以优化I-nice算法的整体执行性能。
(4)从关键的软件实现来讲,I-nice算法实现方式是主体代码在Python中编写,伽马混合模型的估计则是调用基于R语言的一个伽马混合模型估计器gammamixEM.R。考虑于跨进程调用R服务器进程以及gammamixEM.R的非线程安全性,原有的I-nice软件将无法有效实现基于内核多线程的并行执行。
进一步地,所述步骤S20包括:
步骤S21,获取用户配置的距离函数;
步骤S22,根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
在本实施例中,针对输入的待聚类数据集和误差参数
Figure 785659DEST_PATH_IMAGE040
,依据公式
Figure 64193DEST_PATH_IMAGE041
,用户选择的观察点随机成算法,如EdgeObserverGenerator、HistoryObserverGenerator,生成多个观测点。之后,根据用户配置的距离函数One2OneDistance,计算待聚类数据集每个点到观测点的距离,将多维的待聚类数据集转换为一维的距离集合,以降低直接对高维数据集进行聚类的时间复杂性。
步骤S30,对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
在本实施例中,距离集合表示了待聚类数据集的距离分布,距离分布中常包含多个峰(即待聚类数据集包含多个簇),可通过混合分布模型拟合距离集合的距离分布,每个峰对应一个分布模型分量。其中,混合分布模型可以是混合伽马模型或混合高斯模型等各种混合分布模型,解决了原有I-nice算法固定采用混合伽马模型而导致对于大量样本数据点的优化存在性能和精度的问题。
此处以混合高斯模型(Gaussian Mixture Model, GMM)为例,设
Figure 946699DEST_PATH_IMAGE042
是待聚类数据集Y相对于观测点p的距离分布。则其混合高斯模型可定义如下:
Figure 299183DEST_PATH_IMAGE043
其中,
Figure 38468DEST_PATH_IMAGE044
代表GMM的参数向量
Figure 476403DEST_PATH_IMAGE045
,M为高斯分量的个数,
Figure 162599DEST_PATH_IMAGE046
为混合模型的分量权值,
Figure 431907DEST_PATH_IMAGE047
包含位置参数
Figure 545356DEST_PATH_IMAGE048
和尺度参数
Figure 470587DEST_PATH_IMAGE049
,每个高斯分量的概率密度函数如下:
Figure 763071DEST_PATH_IMAGE050
另外各个模型的权值需满足如下限制:
Figure 90147DEST_PATH_IMAGE051
Figure 374498DEST_PATH_IMAGE052
为N个随机样本的实例,则其联合分布如下:
Figure 583762DEST_PATH_IMAGE053
后续求解混合高斯模型的参数,即最大化对数似然:
Figure 611761DEST_PATH_IMAGE054
通过上述步骤求解得到混合分布模型,从中选取出最合适的混合分布模型得到目标混合分布模型。
步骤S40,通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在本实施例中,参照图5所示的一种I-nice算法优化方法的流程示意图,对于每个观测点,基于距离集合,生成混合分布模型,按照混合分布模型的模型分量对待聚类数据集进行划分,得到多个子集,之后分别确定各个子集的高密度点。需要说明的是,基于混合高斯模型,能够获得比混合伽马模型的更快的求解速度和更好的样本点划分效果。
步骤S50,在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
在本实施例中,参照图5所示的一种I-nice算法优化方法的流程示意图,在各子集对应的高密度点中筛选出待聚类数据集的数据点中的簇中心点,并将簇中心点以及簇中心点的个数作为运行k-means算法的初始参数,以调用k-means算法得到待聚类数据集的聚类结果。基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,从而提升I-nice算法。
本实施例提出的I-nice算法优化方法,通过获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,最终达到提升I-nice算法运行的精度和速度,解决了I-nice算法运行速度慢的技术问题。
基于第一实施例,提出本发明I-nice算法优化方法的第二实施例,参照图3,在本实施例中,步骤S40包括:
步骤S41,通过KDE算法,分别确定各子集对应的较高密度点;
步骤S42,通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
在本实施例中,对于每个子集的数据点,先通过KDE(Kernel DensityEstimation)找出较高密度点,然后采用Density Peak算法在较高密度点中找到较高密度点中的高密度点。
进一步地,所述步骤S42包括:
步骤S421,通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
步骤S422,基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
在本实施例中,Density Peak算法主要需要对每个数据点计算两个变量,局部密度
Figure 793344DEST_PATH_IMAGE055
和距离更高密度点的最短距离
Figure 248596DEST_PATH_IMAGE056
,分别定义如下:
Figure 210736DEST_PATH_IMAGE057
对于具有最高局部密度的点,其
Figure 776846DEST_PATH_IMAGE058
簇中心点的判断标准即为具有异常大的
Figure 812936DEST_PATH_IMAGE059
,表明i到更高密度的点的距离相较于其他点到高密度点的距离更远,即i的周围都是局部密度小于i的点,可以说明i为某个簇的最高密度点。
进一步地,所述步骤S30包括:
步骤S31,按照预设的模型分量个数规律,生成模型分量个数为
Figure 501406DEST_PATH_IMAGE060
的第一混合分布模型以及计算所述第一混合分布模型对应的
Figure 622946DEST_PATH_IMAGE061
值,直至生成的第一混合分布模型满足
Figure 992747DEST_PATH_IMAGE062
Figure 211239DEST_PATH_IMAGE063
,其中,所述模型分量个数规律为
Figure 8294DEST_PATH_IMAGE064
步骤S32,以
Figure 617129DEST_PATH_IMAGE065
为步长从第一混合分布模型
Figure 525043DEST_PATH_IMAGE066
开始细粒度搜索,以分别生成模型分量个数为
Figure 598041DEST_PATH_IMAGE008
的第二混合分布模型以及计算对应的
Figure 565997DEST_PATH_IMAGE009
直至生成的第二混合分布模型满足
Figure 662129DEST_PATH_IMAGE010
Figure 373733DEST_PATH_IMAGE011
步骤S33,将模型分量个数为
Figure 566817DEST_PATH_IMAGE012
对应的第二混合分布模型作为与所述距离集合匹配度最高的目标混合分布模型。
在本实施例中,对距离集合拟合多个混合分布模型,并在混合分布模型求解出与距离集合匹配度最高的目标混合分布模型的细化步骤如下:
(1)首先生成模型分量个数为
Figure 705674DEST_PATH_IMAGE067
的混合高斯模型,然后通过EM算法求解模型参数,计算其AICc值,记为
Figure 23523DEST_PATH_IMAGE068
(2)生成模型分量个数为
Figure 538818DEST_PATH_IMAGE069
的混合高斯模型,得到
Figure 586408DEST_PATH_IMAGE070
;按此规律,生成模型分量个数为
Figure 896167DEST_PATH_IMAGE071
的混合分布模型
Figure 701312DEST_PATH_IMAGE072
,计算得到
Figure 817035DEST_PATH_IMAGE073
(3)直至生成的混合分布模型
Figure 656815DEST_PATH_IMAGE074
满足条件
Figure 137475DEST_PATH_IMAGE075
Figure 695496DEST_PATH_IMAGE076
(4)由此找到了最佳GMM的模型分量个数的粗略范围,即
Figure 349331DEST_PATH_IMAGE077
(5)再以
Figure 309197DEST_PATH_IMAGE078
为步长从
Figure 960758DEST_PATH_IMAGE079
开始细粒度搜索,即分别生成模型分量个数为
Figure 740495DEST_PATH_IMAGE080
的GMM得到对应的
Figure 198021DEST_PATH_IMAGE081
直至生成的混合分布模型满足
Figure 12393DEST_PATH_IMAGE082
Figure 834856DEST_PATH_IMAGE083
(6)由此,找到了最佳GMM的近似解
Figure 101889DEST_PATH_IMAGE084
,其模型分量个数为
Figure 363106DEST_PATH_IMAGE085
,因为存在多个观测点,因此近似最佳的GMM足以解决中心点的寻找问题。
进一步地,第一混合分布模型对应的
Figure 31985DEST_PATH_IMAGE086
值的求解过程为:通过EM算法求解第一混合分布模型的模型参数,并基于第一混合分布模型的模型参数计算第一混合分布模型对应的
Figure 25349DEST_PATH_IMAGE087
值。
其中,所述
Figure 779678DEST_PATH_IMAGE088
值的计算公式为
Figure 844586DEST_PATH_IMAGE089
,其中,
Figure 367971DEST_PATH_IMAGE091
为第一混合分布模型的参数向量,
Figure 532236DEST_PATH_IMAGE092
为最大似然值,N为待聚类数据集的个数,q为模型分量的参数的个数。
进一步地,所述步骤S50:在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括:
步骤S51,形成各子集对应的高密度点的一个图;
步骤S52,基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
步骤S53,若应该合并,则在所述图中添加一条边连接对应两个高密度点;
步骤S54,通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
在本实施例中,对于多个观测点寻找得到高密度点(候选簇中心点),可能会出现重复和缺漏。将所有观测点找到的高密度点进行汇总后,缺漏的现象可得到解决,因为对某一观测点无法发现的高密度点,其余观测点从不同角度进行观测可轻易地找到对于的高密度点。
但多个观测点的高密度点汇总后,必然出现冗余的现象,即针对原始数据空间中的一个簇,多个观测点分别都寻找了对应的高密度点。此外,这会进一步导致对总体簇数的估计错误。I-nice算法采取基于阈值的方式进行判断,小于某个阈值则表明两个高密度点类似,可以合并。这种方式的缺点在于仅依赖高密度点之间的距离来判断是否应该合并,忽略原始数据集的分布,仅仅分析高密度点的相互关系,难以判断是否冗余,距离较近的高密度点也并不一定是冗余的,而较远的高密度点也可能是冗余的。
具体地,设共有k个高密度点,基于此形成一个图
Figure 836179DEST_PATH_IMAGE093
,其中E为空集,即每个点都是孤立的。
对于多个观测点得到的所有高密度点,两两之间判断是否应该合并。判断两个高密度点对应的一维距离值,对于每个观测点的混合分布模型,是否被划分至同一分量还是被划分到不同分量。若更多的观测点的混合分布模型中,将两个高密度点对应的一维距离值划分至同一模型分量,则原始高维空间中此两个高密度点应该被合并;若在更多的观测点的混合分布模型中,两个高密度点对应的一维距离值被划分至不同模型分量,则原始高维空间中此两个高密度点不会被合并。
基于以上逻辑,对原始高维空间中所有高密度点两两之间判断是否该合并,若应该被合并,则在G的E添加一条边连接对应两个高密度点的点。最后,通过并查集计算得到G的连通分量,对于每个连通分量,选取其中一个点作为最终的簇中心点。最终,从每个连通分量选取出的点即构成了最终的簇中心点。
这种方式充分考虑了每个高密度点在每个观测点的模型分布中的分量归属,从分量归属的相同程度来判断高密度点之间的冗余程度。
基于上述步骤得到的中心点,以及中心点的个数,可作为运行k-means算法的初始参数,可大大优化k-means算法运行的精度和速度,最终达到提升I-nice算法运行的精度和速度,解决了I-nice算法运行速度慢的技术问题。
此外,本发明实施例还提出一种I-nice算法优化装置,参照图4,所述I-nice算法优化装置包括:
获取模块,用于获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
转换模块,用于基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
拟合模块,用于对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
子集划分模块,用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
簇中心点确定模块,用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
进一步地,所述转换模块,还用于:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
进一步地,所述子集划分模块,还用于:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
进一步地,所述子集划分模块,还用于:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
进一步地,所述拟合模块,还用于:
按照预设的模型分量个数规律,生成模型分量个数为
Figure 376882DEST_PATH_IMAGE094
的第一混合分布模型以及计算所述第一混合分布模型对应的
Figure 754773DEST_PATH_IMAGE095
值,直至生成的第一混合分布模型满足
Figure 355519DEST_PATH_IMAGE096
Figure 881178DEST_PATH_IMAGE097
,其中,所述模型分量个数规律为
Figure 225572DEST_PATH_IMAGE098
Figure 457970DEST_PATH_IMAGE099
为步长从第一混合分布模型
Figure 229617DEST_PATH_IMAGE100
开始细粒度搜索,以分别生成模型分量个数为
Figure 242572DEST_PATH_IMAGE101
的第二混合分布模型以及计算对应的
Figure 125078DEST_PATH_IMAGE102
直至生成的第二混合分布模型满足
Figure 477562DEST_PATH_IMAGE103
Figure 420110DEST_PATH_IMAGE104
将模型分量个数为
Figure 914502DEST_PATH_IMAGE105
对应的第二混合分布模型作为与所述距离集合匹配度最高的目标混合分布模型。
进一步地,所述拟合模块,还用于:
通过EM算法求解所述第一混合分布模型的模型参数,并基于所述第一混合分布模型的模型参数计算所述第一混合分布模型对应的
Figure 600698DEST_PATH_IMAGE106
值;
其中,所述
Figure 807689DEST_PATH_IMAGE107
值的计算公式为
Figure 983455DEST_PATH_IMAGE108
,其中,
Figure 908686DEST_PATH_IMAGE109
为第一混合分布模型的参数向量,
Figure 132994DEST_PATH_IMAGE110
为最大似然值,N为待聚类数据集的个数,q为模型分量的参数的个数。
进一步地,所述簇中心点确定模块,还用于:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有I-nice算法优化程序,所述I-nice算法优化程序被处理器执行时实现如上述中任一项所述的I-nice算法优化方法的步骤。
本发明计算机可读存储介质具体实施例与上述I-nice算法优化方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种I-nice算法优化方法,其特征在于,所述I-nice算法优化方法包括以下步骤:
获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
2.如权利要求1所述的I-nice算法优化方法,其特征在于,所述基于各所述观测点,将所述待聚类数据集转换为一维的距离集合的步骤包括:
获取用户配置的距离函数;
根据所述距离函数,计算所述待聚类数据集中每个点到各观测点的距离,得到所述待聚类数据集对应的距离集合。
3.如权利要求1所述的I-nice算法优化方法,其特征在于,所述分别确定各子集对应的高密度点的步骤包括:
通过KDE算法,分别确定各子集对应的较高密度点;
通过Density Peak算法,分别确定各子集的较高密度点中的高密度点。
4.如权利要求3所述的I-nice算法优化方法,其特征在于,所述通过Density Peak算法,分别确定各子集的较高密度点中的高密度点的步骤包括:
通过Density Peak算法,分别确定各子集的较高密度点对应的局部密度;
基于较高密度点对应的局部密度,确定较高密度点中最高局部密度对应的目标点为较高密度点中的高密度点。
5.如权利要求1所述的I-nice算法优化方法,其特征在于,所述对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型的步骤包括:
按照预设的模型分量个数规律,生成模型分量个数为
Figure 698656DEST_PATH_IMAGE001
的第一混合分布模型以及计算所述第一混合分布模型对应的
Figure 779745DEST_PATH_IMAGE002
值,直至生成的第一混合分布模型满足
Figure 192272DEST_PATH_IMAGE003
Figure 220270DEST_PATH_IMAGE004
,其中,所述模型分量个数规律为
Figure 464170DEST_PATH_IMAGE005
Figure 919422DEST_PATH_IMAGE006
为步长从第一混合分布模型
Figure 553666DEST_PATH_IMAGE007
开始细粒度搜索,以分别生成模型分量个数为
Figure 119776DEST_PATH_IMAGE008
的第二混合分布模型以及计算对应的
Figure 483761DEST_PATH_IMAGE009
直至生成的第二混合分布模型满足
Figure 109915DEST_PATH_IMAGE010
Figure 231455DEST_PATH_IMAGE011
将模型分量个数为
Figure 663573DEST_PATH_IMAGE012
对应的第二混合分布模型作为与所述距离集合匹配度最高的目标混合分布模型。
6.如权利要求5所述的I-nice算法优化方法,其特征在于,所述计算所述第一混合分布模型对应的
Figure 819748DEST_PATH_IMAGE013
值的步骤包括:
通过EM算法求解所述第一混合分布模型的模型参数,并基于所述第一混合分布模型的模型参数计算所述第一混合分布模型对应的
Figure 616803DEST_PATH_IMAGE014
值;
其中,所述
Figure 225638DEST_PATH_IMAGE015
值的计算公式为
Figure 195868DEST_PATH_IMAGE016
,其中,
Figure 206550DEST_PATH_IMAGE017
为第一混合分布模型的参数向量,
Figure 174506DEST_PATH_IMAGE018
为最大似然值,N为待聚类数据集的个数,q为模型分量的参数的个数。
7.如权利要求1所述的I-nice算法优化方法,其特征在于,所述在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点的步骤包括:
形成各子集对应的高密度点的一个图;
基于各子集对应的高密度点,判断所有高密度点两两之间是否应该合并;
若应该合并,则在所述图中添加一条边连接对应两个高密度点;
通过并查集计算得到所述图中的连通分量,并选取每个连通分量其中一个点作为簇中心点。
8.一种I-nice算法优化装置,其特征在于,所述I-nice算法优化装置包括:
获取模块,用于获取待聚类数据集,并通过预设的观测点随机生成算法,生成所述待聚类数据集对应的多个观测点;
转换模块,用于基于各所述观测点,将所述待聚类数据集转换为一维的距离集合;
拟合模块,用于对所述距离集合拟合多个混合分布模型,并在所述混合分布模型求解出与所述距离集合匹配度最高的目标混合分布模型;
子集划分模块,用于通过所述目标混合分布模型将所述待聚类数据集划分成多个子集,并分别确定各子集对应的高密度点;
簇中心点确定模块,用于在各子集对应的高密度点中确定所述待聚类数据集的数据点中的簇中心点,并将所述簇中心点以及所述簇中心点的个数作为运行k-means算法的初始参数,以调用所述k-means算法得到所述待聚类数据集的聚类结果。
9.一种I-nice算法优化设备,其特征在于,所述I-nice算法优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的I-nice算法优化程序,所述I-nice算法优化程序被所述处理器执行时实现如权利要求1至7中任一项所述的I-nice算法优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有I-nice算法优化程序,所述I-nice算法优化程序被处理器执行时实现如权利要求1至7中任一项所述的I-nice算法优化方法的步骤。
CN202111471764.5A 2021-12-06 2021-12-06 I-nice算法优化方法、装置、设备及计算机可读存储介质 Pending CN113869465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471764.5A CN113869465A (zh) 2021-12-06 2021-12-06 I-nice算法优化方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471764.5A CN113869465A (zh) 2021-12-06 2021-12-06 I-nice算法优化方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113869465A true CN113869465A (zh) 2021-12-31

Family

ID=78985859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471764.5A Pending CN113869465A (zh) 2021-12-06 2021-12-06 I-nice算法优化方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113869465A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427965A (zh) * 2018-03-05 2018-08-21 重庆邮电大学 一种基于路网聚类的热点区域挖掘方法
US20210019557A1 (en) * 2019-07-19 2021-01-21 Centrica Plc System for distributed data processing using clustering
CN112528025A (zh) * 2020-12-16 2021-03-19 平安科技(深圳)有限公司 基于密度的文本聚类方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427965A (zh) * 2018-03-05 2018-08-21 重庆邮电大学 一种基于路网聚类的热点区域挖掘方法
US20210019557A1 (en) * 2019-07-19 2021-01-21 Centrica Plc System for distributed data processing using clustering
CN112528025A (zh) * 2020-12-16 2021-03-19 平安科技(深圳)有限公司 基于密度的文本聚类方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尹建君等: "数据划分优化的并行k-means算法", 《计算机工程与应用》 *

Similar Documents

Publication Publication Date Title
US11816888B2 (en) Accurate tag relevance prediction for image search
US9229956B2 (en) Image retrieval using discriminative visual features
US9483701B1 (en) System and method for using segmentation to identify object location in images
US10867169B2 (en) Character recognition using hierarchical classification
US10540566B2 (en) Image processing apparatus, image processing method, and program
JP5214760B2 (ja) 学習装置、方法及びプログラム
US11775610B2 (en) Flexible imputation of missing data
JP4376145B2 (ja) 画像分類学習処理システム及び画像識別処理システム
Nanni et al. Heterogeneous bag-of-features for object/scene recognition
US7401062B2 (en) Method for resource allocation among classifiers in classification systems
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
Zhang et al. Large-scale aerial image categorization using a multitask topological codebook
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
Win et al. Information gain measured feature selection to reduce high dimensional data
CN110602120A (zh) 一种面向网络的入侵数据检测方法
CN113569933A (zh) 商标图样匹配方法及其相应的装置、设备、介质
US20230259756A1 (en) Graph explainable artificial intelligence correlation
CN113869465A (zh) I-nice算法优化方法、装置、设备及计算机可读存储介质
JP2006031114A (ja) 画像分割処理システム
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
CN114462479A (zh) 模型训练方法、检索方法以及模型、设备和介质
Hoffmann et al. Music data processing and mining in large databases for active media
Cheng et al. Granular-ball computing-based manifold clustering algorithms for ultra-scalable data
Gao et al. A novel semi-supervised learning method based on fast search and density peaks
Park et al. k-fold Subsampling based Sequential Backward Feature Elimination.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211231