CN109685122A

CN109685122A - 一种基于密度峰和引力影响的半监督游客画像数据聚类方法

Info

Publication number: CN109685122A
Application number: CN201811515942.8A
Authority: CN
Inventors: 李胜; 李唱; 何熊熊; 常丽萍; 姜倩茹; 程铖
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-26
Anticipated expiration: 2038-12-12
Also published as: CN109685122B

Abstract

一种基于密度峰和引力影响的半监督游客画像数据聚类方法，通过密度峰算法计算游客画像数据各点的密度值和距离值，寻找到所有可能的聚类中心点；利用提供的游客画像种子点计算与可能的聚类中心点间的距离，投票筛选出精确的聚类中心点，并且利用种子标签信息给对应的聚类中心点贴上聚类标签；从全部的种子数据中随机选取一定比例的种子数据子集，通过引用万有引力定律的理念，计算种子数据子集与各个无标签数据点间的引力影响，从而对所有无标签数据进行聚类并为无标签数据贴上相应的簇标签；通过多次随机选取种子数据子集给无标签数据贴上相应的决策簇标签，投票选出最终各个无标签数据的簇标签信息。本发明聚类效果较好、精确度较高。

Description

一种基于密度峰和引力影响的半监督游客画像数据聚类方法

技术领域

本发明涉及一种基于密度峰和引力影响的半监督游客画像数据聚类方法，特别是指一种在密度峰和引力影响的基础上融合游客画像种子标签信息的半监督游客画像数据聚类方法。

背景技术

所谓聚类，就是把相似的事物聚集在一起，而将相异的事物划分到不同的类别的过程。在无监督学习中，聚类是一种极其重要的学习方法。作为统计学的一个分支，聚类学习广泛应用于各种行业领域，在这些领域甚至包括机器学习、数据挖掘、图像处理、智慧旅游、模式识别分析等当前热门领域。正是由于聚类学习是一种极其重要的学习方法，在过去的几十年里相关学者提出了大量的聚类算法，包括K均值聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类、图团体检测等聚类方法。2014年在《Science》上发表的DPC密度峰聚类算法，该算法简单高效，不需像k-means聚类算法对聚类过程不断迭代，也无需如DBSCAN聚类算法引入敏感的参数，可以自动寻找出聚类中心。

半监督聚类是在无监督聚类的基础上融合部分已知的标签信息。半监督聚类的目的在于利用部分的先验知识(例如种子标签数据)找到数据集的适当结构。它的一个显著特点可以使用初始种子标签数据和无标签数据的簇别对数据进行分组，以便修改反馈数据中整个规则的现有簇别集，提高整体数据的聚类精确度。

万有引力定律是物体间相互作用的一条定律。任何物体之间都有相互吸引力，这个力的大小与各个物体间的质量成正比，而与它们之间的距离成反比。如果用m₁、m₂分别表示物体1与物体2的质量，r表示这两个物体之间的距离，则物体1和物体2之间的相互吸引力F表示为F＝(Gm₁m₂)/r²，其中G称为万有引力常数。

发明内容

为了克服现有DPC密度峰聚类方法的需要人为的通过决策图选取相关聚类中心点的不足，人工选取的聚类中心点无法准确铺捉到精确的聚类中心，对于每个簇只存在唯一的密度峰有效，相反对于簇中存在多个密度峰时聚类的效果很差；现有DPC密度峰聚类算法的聚类方差为零，在某一个数据点被分错簇别的情况下，其它跟随的它的数据点也会被分错簇别，进而产生了多米诺骨牌效应，降低聚类的精确度，本发明提供一种聚类效果较好、精确度较高的基于密度峰和引力影响的半监督游客画像数据聚类方法，在实际应用场景即旅游景区提供的游客画像数据中存在部分已知的相关聚类信息，充分利用已知游客画像种子簇标签信息求解未知游客画像数据的簇标签信息。

为了解决上述技术问题提出的技术方案如下：

一种基于密度峰和引力影响的半监督游客画像数据聚类方法，所述方法包括以下步骤：

步骤1，通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D，计算数据集D中各个数据点的局部密度值、与高密度点之间距离值，寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M，过程如下：

1.1通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρ_i、与高密度点之间的距离值δ_i的表达形式为

其中，式(1)中d_c是截断距离，i、j都表示为数据集D中任意一个数据点的标号，即数据集D中第i个数据点、第j个数据点，w表示数据集D的所有数据点个数，d_ij是数据集D中第i个数据点和第j个数据点之间的距离，ρ_i表示在数据集D中所有与第i个数据点之间的距离小于截断距离d_c的数据点的个数；式(2)中，δ_i表示在所有比第i个数据点的局部密度都大的数据点中，与第i个数据点之间距离最小的距离值；

1.2在数据集D中可能为聚类中心的数据点集M的特征表达形式为

γ_i＝ρ_iδ_i (3)

其中，γ_i是第i个数据点作为聚类中心点的新选择标准，γ_i值越大表示第i个数据点作为聚类中心点的可能性越大；

步骤2，利用用户提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离，投票筛选出最终精确的聚类中心点集合C，过程如下：

2.1计算种子标签数据各点到数据集M中任意一点的距离，其距离表示为

其中，式(4)中s表示种子标签数据集中任意一个种子数据点；m表示由步骤1得到的初始聚类中心数据点集M中任意一个疑存聚类中心点；d(s,m)表示种子数据点s与初始聚类中心数据点m之间的欧式距离；n是单个数据的维度；t表示数据维度中的第t维特征值；

2.2根据式(4)计算出来的所有种子数据点与疑存聚类中心数据点间距离值d(s,m)，寻找出到数据集M中每一个疑存聚类中心点m距离最小的种子数据点s，并把当前的种子数据点s的簇标签cl赋给当前的聚类中心点m，通过投票筛选出最终精确的聚类中心点集合C；

步骤3，从所有种子标签数据点中随机选取一定比例的种子数据子集，引入万有引力定律的理念计算种子数据子集与无标签数据中各个数据点间的引力影响度，对所有无标签数据中各点贴上相应的簇标签cl，过程如下：

3.1从所有种子标签数据点中按70％比例随机50次选取种子数据子集S，第i次随机选取的种子子集结果计作S_i；

3.2种子标签数据点与无标签数据点间的引力影响度分别表示为

其中，s是种子数据子集S中的任意一个种子数据点；u是无标签数据中任意一个无标签数据点；式(5)中，k为引力影响度系数取值为1，ρ_s是种子数据点s的局部密度，ρ_u是无标签数据u的局部密度，d(s,u)²代表数据点s与数据点u之间的欧氏距离二次方；式(6)中，n表示数据的维度即n维数据，s_t表示数据点s的第t维数据值，u_t表示数据点u的第t维数据值；

3.3根据步骤3.2中式(5)、式(6)计算出来的每一个无标签数据点与每一个种子数据点间的引力影响度，计算同簇的种子点对每一个无标签数据点的综合引力影响度，具体表达形式如下

其中，式(7)中c_i是由步骤2得到的精确聚类中心集合C中的第i个簇中心，s∈c_i表示在种子数据子集S中与聚类中心点c_i属于同一簇的全部种子数据，G(u,c_i)表示在数据子集S中所有与聚类中心点c_i同簇的种子点对无标签数据点u的综合引力影响度；

步骤4，通过多次随机选取种子数据子集S，重复步骤3.2、步骤3.3给无标签数据点贴上相应的决策簇标签cl，投票选出得票数最多的簇标签cl最终赋给各个无标签数据。

本发明考虑实际应用中部分已知游客画像种子数据簇标签信息情况，设计一种新型的基于密度峰和引力影响的半监督游客画像数据聚类方法，有效解决DPC密度峰聚类算法通过决策图选取中心点不精确的问题，并且引用万有引力的理念通过投票决策的操作解决DPC密度峰聚类的多米诺骨牌效应，实现半监督游客画像数据聚类。

本发明的技术构思为：通过DPC密度峰算法对所有游客画像无标签数据和种子标签数据计算各点的局部密度值和距离值，利用人工决策图寻找到所有可能的聚类中心点；利用旅游景点提供的游客画像种子标签信息计算与可能的聚类中心点间的距离，投票筛选出精确的聚类中心点，并且利用种子标签信息给对应的聚类中心点贴上相应的聚类标签；从全部的种子数据中随机选取一定比例的种子数据子集，通过引用万有引力定律的理念，计算种子数据子集与各个无标签数据点间的引力影响，从而对所有无标签数据进行聚类并为无标签数据贴上相应的簇标签；通过多次随机选取种子数据子集给无标签数据贴上相应的决策簇标签，投票选出最终各个游客画像的无标签数据点的簇标签信息。

本发明的有益效果为：对利用DPC密度峰算法通过决策图寻找到的聚类中心点进行筛选归类，提高每个簇聚类中心的精确性；通过引入引力影响度改变数据点簇别的划分方式，解决DPC密度峰聚类算法聚类过程中多米诺骨牌效应问题；充分利用景区景点提供的游客画像中已知的种子簇标签信息，通过部分的先验知识即种子标签数据找到数据集的适当结构，修改反馈游客画像数据中整个规则的现有簇别集，提高整体游客画像数据的聚类精确度；融合万有引力的理念、各个数据点的局部密度和与高密度点之间距离、种子簇标签信息，通过多次投票筛选得出各个游客画像数据点簇标签，使得聚类效果更优化，聚类的各个指标相对现有的聚类算法都有较大的提高和改善。

附图说明

图1为基于密度峰和引力影响的半监督游客画像数据聚类方法流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种基于密度峰和引力影响的半监督游客画像数据聚类方法，包括以下步骤：

1.2通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρ_i、与高密度点之间的距离值δ_i的表达形式为

γ_i＝ρ_iδ_i (3)

为验证所提半监督游客画像数据聚类算法的有效性，本发明针对UCI数据集中flame数据集、Wine数据集、Iris数据集、seed数据集为测试数据集进行半监督聚类。聚类的评价指标选取聚类准确度ACC、调整兰德指数ARI、标准互信息NMI、F值FMeasure。其中准确度ACC、调整兰德指数ARI取值范围为[0,100]，值越大意味着聚类结果与真实情况越吻合。标准互信息NMI、F值FMeasure取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。对比算法选取两大类，一类为经常使用的无监督聚类算法k-means算法、DPC密度峰算法，另一类为半监督聚类算法seed-kmeans算法。

根据表1、表2、表3、表4分析可知，表1是本发明以UCI数据集中的flame数据集为标准测试数据集的实验结果；表2是本发明以UCI数据集中的Wine数据集为标准测试数据集的实验结果；表3是本发明以UCI数据集中的Iris数据集为标准测试数据集的实验结果；表4是本发明以UCI数据集中的seed数据集为标准测试数据集的实验结果；

flame	ACC	ARI	NMI	FMeasure
					k-means	83.7500	45.3413	0.3988	0.8406
dpc	78.7500	32.6935	0.4131	0.7903
					seed-kmeans	88.0974	55.3643	0.4793	0.8897
ssdpc	88.4259	58.4757	0.4232	0.8903

表1

wine	ACC	ARI	NMI	FMeasure
					k-means	70.2247	37.1114	0.4288	0.7148
dpc	70.7865	37.1500	0.4193	0.7190
					seed-kmeans	70.6250	36.1614	0.4099	0.7170
ssdpc	74.7191	43.5047	0.4158	0.7384

表2

Iris	ACC	ARI	NMI	FMeasure
					k-means	89.3333	73.0238	0.7582	0.8918
dpc	90.6667	75.9199	0.8057	0.9048
					seed-kmeans	92.5926	79.8486	0.8092	0.9253
ssdpc	96.2963	89.3554	0.8759	0.9629

表3

seed	ACC	ARI	NMI	FMeasure
					k-means	77.6190	61.8519	0.6446	0.8443
dpc	88.5714	70.2650	0.6982	0.8822
					seed-kmeans	88.8889	70.2241	0.6621	0.8879
ssdpc	90.9524	75.3331	0.7159	0.9086

表4

本发明提出的基于密度峰和引力影响的半监督游客画像聚类方法，在相同的测试集、相同的簇别数、相同的种子簇标签信息的前提下，聚类效果相比k-means算法、DPC密度峰算法、seed-kmeans算法均有较大的提高。

以上阐述的是本发明给出的一个实施例表现出的优良优化效果，显然本发明不只是限于上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及范围的前提下对其可作种种变形加以实施。

Claims

1.一种基于密度峰和引力影响的半监督游客画像数据聚类方法，其特征在于，所述方法包括以下步骤：

γ_i＝ρ_iδ_i (3)

步骤2，利用旅游景点提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离，投票筛选出最终精确的聚类中心点集合C，过程如下：