CN108647297A

CN108647297A - 一种共享近邻优化的密度峰值聚类中心选取方法和系统

Info

Publication number: CN108647297A
Application number: CN201810432085.9A
Authority: CN
Inventors: 王红; 狄瑞彤; 房有丽; 周莹; 王露潼; 刘海燕; 王倩; 宋永强
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-12
Anticipated expiration: 2038-05-08
Also published as: CN108647297B

Abstract

本发明公开了一种共享近邻优化的密度峰值聚类中心选取方法和系统，所述方法包括：获取电子商务评论数据；计算评论数据两两之间的距离，得到距离矩阵；根据所述距离矩阵计算共享近邻相似度；根据所述共享近邻相似度，计算每条评论数据的局部密度；根据所述距离矩阵和局部密度，获取每条评论数据的最近较大密度点距离；根据评论数据的局部密度和最近较大密度点距离选择聚类中心。本发明对于交叉缠绕、变密度和高维的电子商务评论数据集能够快速、正确的选择聚类中心，提高聚类效果。

Description

一种共享近邻优化的密度峰值聚类中心选取方法和系统

技术领域

本发明属于电子商务评论挖掘的技术领域，尤其涉及面向电子商务评论数据的共享近邻优化的密度峰值聚类中心选取方法和系统。

背景技术

随着网上购物的不断发展，产生了海量的消费者购买评论。面对海量的购物评论，消费者难以一一翻阅，且评论中对于商品的褒贬不一，并且可能会掺杂来自商家竞争对手的恶意的评论，影响了消费者的选择，因此，对于消费者和商家而言，对评论进行分析整理以及区分评论的真假是亟待解决的技术问题。聚类分析作为研究其他问题的重要基础，在众多领域中扮演着重要角色。在电子商务评论领域中，可以通过聚类得到两个不同类别的评论，进而识别出真实评论和虚假评论，以给潜在的客户提供更加可信的评论参考。在电子商务评论聚类中聚类中心的选取具有重要意义，是对后续非聚类中心进行分配前最重要的准备工作。

电子商务评论数据具有不同类别数据在空间分布上非相互独立分离、数据空间密度分布不均匀，和数据的维度较高，即具有交叉缠绕、变密度和高维的特点。在2014年6月Rodriguez等人在著名科学杂志《Science》发表了密度峰值聚类算法DPC(clustering byfast search and find of density peaks)。这是一种新的基于密度和距离的聚类算法。与传统的聚类算法相比，DPC算法简单高效，无需迭代即可快速发现簇中心，适用于大规模数据的聚类分析等。但传统DPC算法样本距离和密度的度量准则过于简单，其距离是欧式距离，样本密度是截断密度或高斯核密度，二者均没有考虑样本周围邻域的影响。这种距离和密度的度量方法不能很好地反映数据之间的复杂关系，致使算法无法正确发现交叉缠绕、变密度和高维的复杂数据的聚类中心。因此，针对复杂的电子商务评论数据，如何正确的选择聚类中心，从而提高聚类精度，是本领域技术人员目前迫切解决的技术问题。

发明内容

为克服上述现有技术的不足，针对电子商务评论数据的特点，本发明提供了一种共享近邻优化的密度峰值聚类中心选取方法和系统，所述方法根据评论数据之间的距离进行共享近邻相似度的计算，得到评论的局部密度。还提出最近较大密度点距离的概念来衡量评论的密度分布，综合考虑局部密度和最近较大密度点距离，能够选取更具类别代表性的评论作为聚类中心。

为实现上述目的，本发明采用如下技术方案：

一种共享近邻优化的密度峰值聚类中心选取方法，包括以下步骤：

获取电子商务评论数据；

计算评论数据两两之间的距离，得到距离矩阵；

根据所述距离矩阵计算共享近邻相似度；

根据所述共享近邻相似度，计算每条评论数据的局部密度；

根据所述距离矩阵和局部密度，获取每条评论数据的最近较大密度点距离；

根据评论数据的局部密度和最近较大密度点距离选择聚类中心。

进一步地，所述获取电子商务评论数据后，还对所述评论数据进行归一化和降维预处理。

进一步地，对于电子商务评论集X中的任意评论i,j，如果他们都在对方的K近邻集合中，则共享近邻相似度为评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值。

进一步地，设评论i是样本集X中的任意评论，L(i)＝{x₁,x₂,...,x_k}是与评论i共享近邻相似度最高的K个点的集合，则评论i的局部密度定义为与评论i共享近邻相似度最高的K个点的相似度和。

进一步地，设评论i是样本集X中的任意评论，评论i的最近较大密度点距离值定义为：寻找比评论i局部密度大的评论j，使得评论i到评论j的距离与评论i和评论j到各自K近邻点距离和的乘积最小。

进一步地，所述选择聚类中心包括：

分别以局部密度和最近较大密度点距离作为x轴和y轴，绘制决策图；

根据所述决策图选取局部密度和最近较大密度点距离取值满足一定阈值的评论作为聚类中心。

进一步地，所述选择聚类中心包括：

根据局部密度和最近较大密度点距离计算评论的决策值γ并排序，得到γ图；

根据γ图选择决策值满足一定阈值的评论作为聚类中心。

根据本发明的第二目的，本发明还提供了一种共享近邻优化的密度峰值聚类中心选取系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述的方法。

根据本发明的第三目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的方法。

根据本发明的第四目的，本发明还提供了一种共享近邻优化的密度峰值聚类方法，采用所述的方法选择聚类中心。

本发明的有益效果

本发明为面向电子商务评论的共享近邻优化密度峰值快速搜索聚类中心的机器学习模型，提出了新的样本相似度度量，能够根据样本的共享近邻信息，进行自适应地计算样本间相似度，并根据新的样本相似度，提出了新的样本局部密度度量和新的距离最近且密度较大点的定义，能够根据样本的局部密度信息进行调整，使得对于具有交叉缠绕、变密度和高维的电子商务评论的复杂数据集能够快速、正确的选择聚类中心，提高聚类效果。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明信息流转示意图；

图2为电子商务评论数据归一化后部分示意图；

图3为本发明优化前的密度峰值聚类的ρ-δ决策图；

图4为本发明优化前的密度峰值聚类的结果图；

图5为本发明SNN优化后的密度峰值聚类ρ-δ决策图；

图6为本发明SNN优化后的密度峰值聚类结果图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

一种面向电子商务评论的聚类中心选取方法，包括以下步骤：

步骤1：获取评论数据的特征及其数据值；

步骤2：对评论数据进行预处理；

首先，对评论数据进行归一化处理，使得在对后面数据进行处理时更加的方便，其次是可以保正程序运在行时收敛加快。

其次，当评论数据维度大于两维时，对数据进行降维处理，有利于聚类效果的可视化，降低数据冗余。

步骤3：计算评论之间的距离矩阵，基于所述距离矩阵计算评论的共享近邻(SNN)相似度；

对数据进行量化得到距离矩阵D^n×n＝{d_ij}ⁿ×ⁿ,(i,j＝1,2,...n)。

对于电子商务评论集X中的任意样本i,j，如果他们都在对方的K近邻集合中，则他们的相似度定义为：评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值，计算公式为：

只有当评论i与评论j互相出现在对方的K近邻集合中，才会计算SNN相似度，否则评论i与评论j的SNN相似度为0。这里的d表示两点间的距离。上个公式的非零部分拆解为如下公式，可以更好的理解SNN相似度。

事实上，只要两个评论i,j都在对方的K最近邻中，SNN相似度可以用他们共享近邻的个数|SNN(i,j)|来表示。为了更好的反映样本空间的局部结构，使得它对密度的变化、空间和维度相对都不太敏感，我们用|SNN(i,j)|除以二者分别到所有共享近邻距离和的调和均值，即形成公式(1)的形式。通过实验证明，我们的SNN相似度很好地表达了相似度的自适应性，更符合电子商务评论这种复杂数据集的要求。

步骤4：根据所述共享近邻相似度，计算评论的局部密度；

计算基于共享近邻(SNN)局部密度ρ：

设评论i是样本集X中的任意评论，L(i)＝{x₁，x₂，...，x_k}是与评论iSNN相似度最高的K个点的集合，则评论i的局部密度定义为与评论iSNN相似度最高的K个点的相似度和，计算公式为：

评论i的局部密度ρ_i具有如下三条性质：

(1)当|SNN(i,j)|一定时，如果i,j与其每一个共享近邻的距离比较小，即较小，则此时ρ_i较大。即，如果i和j距离较近，并且每一个共享近邻点距离i和j较近，则评论i的密度较大，反之，评论i的密度较小。可见，空间上距离较近的点对ρ_i具有较大的贡献。

(2)当一定时，如果i与j的共享近邻比较多，即|SNN(i,j)|较大，则此时ρ_i较大。即，如果i周围的评论大多属于同一类，则评论i的密度较大，反之，评论i的密度较小。可见，周围属于同一类的点对ρ_i贡献较大。

(3)当K取值较小时，评论i与其邻居评论j的前K个近邻中共享近邻数较小，考察到的点j到点i距离更近，即d_ij较小，因而反映的是点i较小邻域内的近邻和局部密度状况。当K值较大时，则反映到的是点i较大邻域内的局部密度情况。由于低密度簇内点到各近邻点的距离也较大，因而K值的变化会对低密度簇带来更大影响。

综上，局部密度ρ不仅利用了样本之间的距离信息，而且通过共享近邻数目，更好地挖掘了评论之间的内在联系。

步骤5：计算评论的最近较大密度点距离，构造ρ-δ决策图或者构造γ图；

(X是电子商务评论集)，评论i的δ_i值定义为：寻找比评论i局部密度大的评论j，使得评论i到评论j的距离与评论i和评论j到各自K近邻点距离和的乘积最小，计算公式为：

局部密度最高的评论的δ_i值为其他评论中最大的δ值，计算公式为

评论i的最近较大密度点距离δ_i具有如下三条性质：

(1)当K取值上升时，评论i和j的近邻数都会相应增加，且所考察到的近邻点距离点i和点j的距离和也会相应上升，即值上升，进而使得值上升。但是，这种上升对于密度较低的簇会比较明显，而对密度较高的簇影响较小。

(2)当d_ij值一定时，如果评论i和j到各自K近邻的距离比较大，则此时的值较大，则该候选点的δ_i值较大。也就是说，如果i和j周围密度较小，则会更多地受到近邻距离的补偿，反之只能得到较少补偿。通过这种方式使得低密度簇的中心更容易从决策图中被发现。

(3)当值一定时，若评论i和j之间的距离较大，则会较大，则该候选的δ_i值较大。这是沿用传统DPC中“类簇中心距离相对较远”的假设，若一个点到最近较大密度评论较近，则该评论为类簇中心的概率较低。

计算样本的决策值γ值。(X是样本集)，则其决策值γ_i为评论i的局部密度ρ_i和最近较大密度点距离δ_i的乘积，计算公式为：

γ_i＝ρ_i×δ_i (6)

并对γ按升序重新排列，重新记录下排列后各元素的顺序。然后，构造ρ-δ决策图或γ图，其中在前者中的点表示为(ρ_i,δ_i),i＝1,2,...,n，在后者的点表示为(i,γ_i),i＝1,2,...,n，其中γ图中点的编号i是指上一步排序后的编号。

步骤6：选取聚类中心；

在ρ-δ决策图中选取ρ和δ值较大的评论，或在γ图中选取γ值较大的评论为聚类中心。

通过图5的ρ-δ图和图6的聚类结果表明在电子商务评论数据集选取的聚类中心和聚类之后的效果都是比较好的，其AMI值，ARI，FMI值均为1，ARG值为12，可以看出聚类效果很好。

本实施例采用电子商务评论数据集总共有278条，每条数据有10个特征，共被分成了两类，分别为真实评论和虚假评论。表1所列的是针对电子商务评论数据所提出的10个虚假评论特征及其所表达的意义，通过本文的分配策略进行聚类后，共得到两个簇，一个簇包含75条电子商务评论数据，另一个簇包含203条电子商务评论数据。

表1电子商务评论数据虚假评论特征及其所表达的意义

实施例二

本实施例的目的是提供一种聚类中心选取系统。

为了实现上述目的，本发明采用如下一种技术方案：

一种面向电子商务评论的聚类中心选取系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获取电子商务评论数据；

计算评论数据两两之间的距离，得到距离矩阵；

根据所述距离矩阵计算共享近邻相似度；

根据所述共享近邻相似度，计算每条评论数据的局部密度；

所述系统还包括显示单元，与处理器相连，用于输出处理器的结果。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

获取电子商务评论数据；

计算评论数据两两之间的距离，得到距离矩阵；

根据所述距离矩阵计算共享近邻相似度；

根据所述共享近邻相似度，计算每条评论数据的局部密度；

实施例四

本实施例的目的是提供一种聚类方法。

为了实现上述目的，本发明采用如下一种技术方案：

本实施例提供了共享近邻优化的密度峰值聚类方法，采用实施例一中所述的方法选择聚类中心。

以上实施例二、三和四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，包括以下步骤：

获取电子商务评论数据；

计算评论数据两两之间的距离，得到距离矩阵；

根据所述距离矩阵计算共享近邻相似度；

根据所述共享近邻相似度，计算每条评论数据的局部密度；

2.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，所述获取电子商务评论数据后，还对所述评论数据进行归一化和降维预处理。

3.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，对于电子商务评论集X中的任意评论i,j，如果他们都在对方的K近邻集合中，则共享近邻相似度为评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值。

4.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，设评论i是样本集X中的任意评论，L(i)＝{x₁,x₂,...,x_k}是与评论i共享近邻相似度最高的K个点的集合，则评论i的局部密度定义为与评论i共享近邻相似度最高的K个点的相似度和。

5.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，设评论i是样本集X中的任意评论，评论i的最近较大密度点距离值定义为：寻找比评论i局部密度大的评论j，使得评论i到评论j的距离与评论i和评论j到各自K近邻点距离和的乘积最小。

6.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，所述选择聚类中心包括：

7.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法，其特征在于，所述选择聚类中心包括：

根据γ图选择决策值满足一定阈值的评论作为聚类中心。

8.一种共享近邻优化的密度峰值聚类中心选取系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。

10.一种共享近邻优化的密度峰值聚类方法，其特征在于，采用如权利要求1-7任一项所述的方法选择聚类中心。