CN109408562B

CN109408562B - 一种基于客户特征的分组推荐方法及其装置

Info

Publication number: CN109408562B
Application number: CN201811319239.XA
Authority: CN
Inventors: 许青林; 罗炜平; 陈烈锋
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2021-11-26
Anticipated expiration: 2038-11-07
Also published as: CN109408562A

Abstract

本发明公开了一种基于客户特征的分组推荐方法及其装置，包括：获取多个历史客户的特征信息并对其预处理，得到对应于各个历史客户的数据点，组成待分组数据集；计算各个数据点周围的数据点密度，选取数据点密度最大的前N个数据点作为初始密度峰值点；分别对各个初始密度峰值点进行聚类，得到以各个初始簇；将每个初始簇与对应的推荐数据进行链接；接收新客户的特征信息后对其进行预处理，得到对应于新客户的数据点；确定新客户所属的初始簇，并调用其所属的初始簇链接的推荐数据进行显示。本发明能够根据各个数据点的数据点密度自动筛选聚类中心，不依赖于人工选择，工作人员的工作量小，且提高了聚类分组的准确性，推荐效果更好。

Description

一种基于客户特征的分组推荐方法及其装置

技术领域

本发明涉及分组推荐技术领域，特别是涉及一种基于客户特征的分组推荐方法及其装置。

背景技术

在数据推荐技术领域，主要的方法是通过基于密度的聚类算法进行分组，之后依据客户所属的组，来对客户推荐相应的数据，例如银行或者移动的业务推荐、网站的热点推荐等等。

基于密度的聚类方法的主要思想是寻找被低密度(稀疏)区域分割的高密度区域，与传统聚类方法相比，能够很好处理数据集中的噪声，很好地降低噪声对聚类结果的影响，同时很适合处理各种形状的数据集。其中，经典的密度峰值聚类算法(CFSFDP)是基于以下思想：对于一个数据集，聚类中心的特征是密度高于其周围的邻居点，并且距离具有较高密度的点具有相对较大的距离。CFSFDP算法不需要进行复杂的参数设置，可以完成对不同类型数据集的聚类分析，适用于处理具有低维、稀疏等特点的数据集。

目前，CFSFDP的聚类过程是：首先计算出各个数据点的局部密度与高密度距离，并将局部密度为横轴，高密度距离为纵轴，构建决策图，如图1所示，之后根据决策图人工选择局部密度和高密度距离都较高、且明显远离大部分样本的右上角区域的数据点作为聚类中心。最后计算数据集中的其他数据点与每个聚类中心的最小距离，从而将数据点划分到向各个聚类中心。

但是，上述过程中，聚类中心的选择是由人为依据决策图中的数据点的分布进行选择的，这个操作依赖于人工进行的话，不仅使得工作量大，并且选取的密度中心点存在较大的主观性，最终得到的分组准确性较低，推荐效果较差。

因此，如何提供一种推荐效果好的基于客户特征的分组推荐方法及其装置是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种基于客户特征的分组推荐方法及其装置，能够根据各个数据点的数据点密度自动筛选聚类中心，而不依赖于人工选择，工作人员的工作量小，且提高了聚类分组的准确性，推荐效果更好。

为解决上述技术问题，本发明提供了一种基于客户特征的分组推荐方法，包括：

获取多个历史客户的特征信息并对其预处理，得到对应于各个历史客户的数据点，组成待分组数据集；

计算各个数据点周围的数据点密度，选取数据点密度最大的前N个数据点作为初始密度峰值点；

分别对各个所述初始密度峰值点进行聚类，得到以各个所述初始密度峰值点为中心的初始簇；

将每个所述初始簇与对应的推荐数据进行链接；

接收新客户的特征信息后对其进行预处理，得到对应于所述新客户的数据点；

确定所述新客户所属的初始簇，并调用其所属的初始簇链接的推荐数据进行显示。

优选地，所述计算各个数据点周围的数据点密度，选取数据点密度最大的前N个数据点作为初始密度峰值点的过程包括：

依据密度峰值聚类算法计算各个数据点的局部密度以及高密度距离；

将每个数据点的局部密度以及高密度距离相乘得到所述数据点的归一化值；

将全部数据点的归一化值从大到小进行排序，并依据排序顺序依次对各个所述归一化值进行编号；

将归一化值作为纵坐标，对应的编号作为横坐标，构建归一化曲线；

将所述归一化曲线上拐点及其之前的全部坐标点对应的数据点作为初始密度峰值点。

优选地，所述将所述归一化曲线上拐点及其之前的全部坐标点对应的数据点作为初始密度峰值点的过程包括：

依据所述归一化曲线上各个坐标点的坐标，计算各个所述坐标点的两向量夹角；所述两向量夹角为：所述坐标点相对于第一个坐标点形成的向量和所述坐标点相对于其下一个坐标点形成的向量之间的夹角；

选择两向量夹角最大的坐标点作为所述拐点。

优选地，所述计算各个所述坐标点的两向量夹角的过程具体为：

依据各个所述坐标点的坐标以及两向量夹角关系式，计算每个所述坐标点的两向量夹角；所述两向量夹角关系式为：

其中，i表示第i个坐标点，θ_i为第i个坐标点的两向量夹角；

为第i个坐标点到第i+1个坐标点的决策值变化值；

为第i个坐标点到第1个坐标点的决策值变化值；γ_i+n为第i+n个坐标点的归一化值；γ_i为第i个坐标点的归一化值。

优选地，所述得到以各个所述初始密度峰值点为中心的初始簇之后，将每个所述初始簇与对应的推荐数据进行链接之前，还包括：

计算每个所述初始簇的边界局部密度以及其平均密度；

将每个所述初始簇的边界局部密度依次与其他初始簇的平均密度进行比较，若当前比较的初始簇的边界局部密度大于或等于被比较的初始簇的平均密度，则将被比较的初始簇合并至当前比较的初始簇内；

重复上述操作，直至最终得到的簇均无法与其他簇合并为止，将最终得到的簇作为最终簇；

相应的，后续将每个所述最终簇与对应的推荐数据进行链接；

得到对应于所述新客户的数据点后，确定所述新客户所属的最终簇，并调用其所属的最终簇链接的推荐数据进行显示。

优选地，所述计算每个所述初始簇的边界局部密度以及其平均密度的过程包括：

依据平均密度关系式计算所述初始簇的平均密度；所述平均密度关系式为：

其中，Y为当前计算平均密度的初始簇，ρ_avg(Y)为初始簇Y的平均密度；ρ_h为初始簇Y中第h个数据点的局部密度；X为所述待分组数据集；j为X中除第h个数据点以外的数据点；d_c为截断距离；d_hj为第h个数据点和第j个数据点之间的距离；(d_hj-d_c)<0时，χ(d_hj-d_c)＝1，否则，χ(d_hj-d_c)＝0；

选择当前比较的初始簇A以及被比较的初始簇B，依据边界局域密度关系式，计算所述当前比较的初始簇A相对于所述被比较的初始簇B的边界局部密度；所述边界局域密度关系式为：

其中，ρ_b为所述当前比较的初始簇A相对于所述被比较的初始簇B的边界局部密度；E_A为所述当前比较的初始簇A的边界点集；i为E_A中的数据点；X\A为所述待分组数据集中除所述被比较的初始簇A以外的数据点集；j为X\A中的数据点；d_ij为数据点i和数据点j的之间的距离。

优选地，所述计算每个所述初始簇的边界局部密度以及其平均密度之前，还包括：

依据预设筛选规则筛选全部初始簇中的低密度子类，并将未包含于所述初始簇内的数据点作为异常点；

相应的，对除所述低密度子类以及所述异常点以外的其余初始簇进行后续操作；

后续，该方法还包括：

将所述异常点和所述低密度子类中的数据点组成待处理数据集，重新执行前述聚类操作，聚类后将得到的每个簇与对应的推荐数据进行链接；聚类完成后，未包含至任何簇中的数据点为噪声。

优选地，所述依据预设筛选规则筛选全部初始簇中的低密度子类的过程包括：

计算每个初始簇的平均密度与平均密度的最大值之间的密度差；

将所述密度差按照从大到小的顺序进行排序，依次计算每两个相邻密度差之间的差值；

确定最大的差值对应的两个密度差中的较大的密度差；将小于该密度差的全部密度差对应的初始簇作为低密度子类。

将大于预设密度差阈值的密度差所对应的初始簇作为低密度子类。

为解决上述技术问题，本发明还提供了一种基于客户特征的分组推荐装置，包括：

预处理模块，用于获取多个历史客户的特征信息并对其预处理，得到对应于各个历史客户的数据点，组成待分组数据集；

中心筛选模块，用于计算各个数据点周围的数据点密度，选取数据点密度最大的前N个数据点作为初始密度峰值点；

聚类模块，用于分别对各个所述初始密度峰值点进行聚类，得到以各个所述初始密度峰值点为中心的初始簇；

推荐数据链接模块，用于将每个所述初始簇与对应的推荐数据进行链接；

新客户分组模块，用于接收新客户的特征信息后对其进行预处理，得到对应于所述新客户的数据点；确定所述新客户所属的初始簇，并调用其所属的初始簇链接的推荐数据进行显示。

本发明提供了一种基于客户特征的分组推荐方法，在获取多个历史客户的特征信息后，将这些特征信息转化为数据点，之后计算各个数据点周围的数据点密度，并选取数据点密度最大的前n个数据点作为初始密度峰值点，将这些初始密度峰值点作为密度中心进行聚类得到初始簇，然后将每个初始簇推荐数据进行链接，后续接收到新客户的特征信息后，通过判断新客户的特征信息对应的数据点所处的初始簇，即可调用其所属的初始簇链接的推荐数据进行显示。可见，在本发明的分组推荐方法中，不需要人为选择初始密度峰值点，而是根据各个数据点的数据点密度自动进行筛选，从而减小了工作人员的工作量，并且尽可能避免了由于人为主观性导致的初始密度峰值点选取错误以及漏选的情况，提高了初始密度峰值点选取的准确性，进而提高了以初始密度峰值点作为分组基准时分组的准确性，尽可能保证了后续提供给客户的推荐数据更符合用户需求，推荐效果更好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1目前聚类过程的决策图示意图；

图2为本发明提供的一种基于客户特征的分组推荐方法的过程的流程图；

图3为本发明提供的另一种基于客户特征的分组推荐方法的过程的流程图；

图4为本发明提供的归一化曲线示意图；

图5为本发明提供的另一种基于客户特征的分组推荐方法的过程的流程图；

图6为本发明提供的一种基于客户特征的分组推荐装置的结构示意图。

具体实施方式

本发明的核心是提供一种基于客户特征的分组推荐方法及其装置，能够根据各个数据点的数据点密度自动筛选聚类中心，而不依赖于人工选择，工作人员的工作量小，且提高了聚类分组的准确性，推荐效果更好。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于客户特征的分组推荐方法，参见图2所示，图2为本发明提供的一种基于客户特征的分组推荐方法的过程的流程图；该方法包括：

步骤s1：获取多个历史客户的特征信息并对其预处理，得到对应于各个历史客户的数据点，组成待分组数据集；

可以理解的是，本发明首先需要根据历史客户的信息来进行聚类分组，得到多个数据簇，每个数据簇作为一个分组对应一组推荐数据，之后当有新客户的时候，只需要确定新客户所属的数据簇即可确定需要给该客户推荐哪些数据。由于客户的特征信息通常为文字描述的信息，而本发明在后续计算中，需要将客户的特征作为数据点来处理，因此，在获取到历史客户的特征信息后，需要首先通过预处理将其转换为数据点，再进行后续的计算。

步骤s2：计算各个数据点周围的数据点密度，选取数据点密度最大的前N个数据点作为初始密度峰值点；

在将客户的特征信息转换为数据点之后，这些数据点的位置则代表了该客户的特征，因此，数据点之间越接近，则表明这些数据点所代表的特征信息越相似。因此，通常较为接近的数据点所对应的客户属于同一类，需要推荐相同的数据。基于此思想，本发明计算了各个数据点周围的数据点密度，密度越高，则表明该数据点周围的数据点个数越多，因此该数据点越有可能为聚类中心。故本发明在计算各个数据点周围的数据点密度之后，对其进行大小排序，选择前N个密度最大的数据点作为聚类中心。这种选择方式，能够尽可能保证所选择的聚类中心的准确性。

步骤s3：分别对各个初始密度峰值点进行聚类，得到以各个初始密度峰值点为中心的初始簇；

这里聚类的方式是首先计算数据集中的其他数据点与每个聚类中心的最小距离，然后将每个数据点划分至自己距离最近的聚类中心，划分完毕后即得到个个以初始密度峰值点为聚类中心的初始簇。

步骤s4：将每个初始簇与对应的推荐数据进行链接；

每个初始簇对应一类客户。这里的推荐数据为推荐给该类客户的。数据。内容。

步骤s5：接收新客户的特征信息后对其进行预处理，得到对应于新客户的数据点；

步骤s6：确定新客户所属的初始簇，并调用其所属的初始簇链接的推荐数据进行显示。

可以理解的是，在本发明的分组推荐方法中，不需要人为选择初始密度峰值点，而是根据各个数据点的数据点密度自动进行筛选，从而减小了工作人员的工作量，并且尽可能避免了由于人为主观性导致的初始密度峰值点选取错误以及漏选的情况，提高了初始密度峰值点选取的准确性，进而提高了以初始密度峰值点作为分组基准时分组的准确性，尽可能保证了后续提供给客户的推荐数据更符合用户需求，推荐效果更好。

另外，由于在实际应用中，会不断地有新客户加入，因此，分组后得到的初始簇也不能始终保持不变，而是需要进行更新。而为了更新的话，则需要依据后续新增的客户的特征信息来重新进行聚类分组，因此，为了实现更新的目的，需要保存接收到的新客户的特征信息。由于每来一个新客户即进行一次更新的话，频率过于频繁，会给进行聚类分组的处理器带来较大的负担，因此优选周期性的进行更新，或者自上一次更新起新保存的客户达到预设数量时则进行一次更新，或者采用其他更新触发方式。本发明对何时触发分组更新不作具体限定。这里的更新指的是综合上一次更新起新保存的客户的特征信息以及之前的历史信息，重新进行上述步骤s1～s4的操作，得到初始簇以及每个初始簇的链接的推荐数据。

作为优选地，参见图3所示，图3为本发明提供的另一种基于客户特征的分组推荐方法的过程的流程图；步骤s2的过程包括：

步骤s21：依据密度峰值聚类算法计算各个数据点的局部密度以及高密度距离；

假设待分组数据集为X＝{x₁,x₂,...,x_n}，n为待分组数据集中数据点的个数(即所选择的历史客户的个数)，则d_ij＝dist(x_i,x_j)表示数据点x_i到x_j的距离。对于每个数据点x_i，必须计算两个关键参数：局部密度ρ_i与高密度距离δ_i，而这两个值都取决于各数据点间之间的距离d_ij。其中当数据点为离散值时，局部密度ρ_i的关系式如下：

其中，当(d_ij-d_c)<0时，χ(d_ij-d_c)＝1。否则χ(d_ij-d_c)＝0。当数据点连续时，局部密度为:

其中，截断距离d_c＞0，是计算局部密度的重要参数，可以基于启发式方法进行选择，需要根据经验确定，一种推荐做法是选择d_c使得平均每个数据点的邻居数为待分组数据集中数据点总数的1％-2％，因此截断距离值定为距离矩阵d_ij排序后前1％到2％的值。ρ_i表示数据集X中与数据点x_i之间距离小于截断距离d_c的数据点的个数。对于大量数据而言，局部密度实质为数据点之间的相对密度，因此d_c的选择对算法而言在一定程度上是鲁棒的。

高密度距离δ_i是数据点x_i与高密度点的距离，高密度距离的关系式如下：

其中，

指的是：第i个数据点与局部密度比自身大的全部数据点之间的高密度距离为这些数据点与第i个数据点之间的全部距离中的最小值；max_j∈dataset(d_ij)指的是：第i个数据点与局部密度不大于自身的全部数据点之间的高密度距离为这些数据点与第i个数据点之间的全部距离中的最大值。

步骤s22：将每个数据点的局部密度以及高密度距离相乘得到数据点的归一化值；在计算好数据点的局部密度和高密度距离之后，为了将这两个属性综合考虑，因此需要将两者转化到同一量纲上，即：

γ＝ρ×δ；其中，γ为归一化值。

步骤s23：将全部数据点的归一化值从大到小进行排序，并依据排序顺序依次对各个归一化值进行编号；

一般的思想是，选取局部密度ρ值和高密度距离δ值都较大的点作为初始密度峰值点，归一化之后可通过将所有γ值进行降序排序，在二维平面坐标上显示，

步骤s24：归一化值作为纵坐标，对应的编号作为横坐标，构建归一化曲线；

步骤s25：将归一化曲线上拐点及其之前的全部坐标点对应的数据点作为初始密度峰值点。

可以理解的是，从图4中可以看出，坐标点进行排序后得到的归一化曲线上，前一段有较为明显的曲线变化，而后一段则较为平滑，基本为水平线。由于前半部分曲线中的坐标点对应的数据点的归一化值较大，因此，选择这部分曲线上的坐标点对应的数据点作为初始密度峰值点。而具体如何区分哪些坐标点位于曲线上，则是通过归一化曲线的拐点来判断的。这里的拐点指的是归一化曲线上前半段曲线和后半段直线的交点的前一个点。即非聚类中心点的γ数值较为平滑，而从聚类中心过渡到非聚类中心有一个较为明显的跳跃，γ值发生明显跳跃时对应的点为拐点，在该点及其之前的数据点均可考虑为聚类中心。

进一步可知，步骤s25的过程包括：

依据归一化曲线上各个坐标点的坐标，计算各个坐标点的两向量夹角；两向量夹角为：坐标点相对于第一个坐标点形成的向量和坐标点相对于其下一个坐标点形成的向量之间的夹角；

选择两向量夹角最大的坐标点作为拐点。

可以理解的是，本实施例中定义所有数据点相对于第一个数据点与自身下一个数据点所形成的两个向量的夹角值最大的点，即为前述提到的拐点。这种定义方式，是由于在归一化曲线上，当两向量夹角达到最大值时，表明此时为两段曲线的拐点处。这种拐点判断方式，能够准确度的确定拐点的位置，从而筛选出较为准确和全面的初始密度峰值点。

其中，计算各个坐标点的两向量夹角的过程具体为：

依据各个坐标点的坐标以及两向量夹角关系式，计算每个坐标点的两向量夹角；两向量夹角关系式为：

其中，i表示第i个坐标点，θ_i为第i个坐标点的两向量夹角；

为第i个坐标点到第i+1个坐标点的决策值变化值；

为第i个坐标点到第1个坐标点的决策值变化值；γ_i+n为第i+n个坐标点的归一化值；γ_i为第i个坐标点的归一化值；

为第i个坐标点到第i+n个坐标点的决策值变化值。

两向量夹角关系式获得过程为：

为避免人为客观因素对聚类结果的影响，本发明在将参数ρ和δ转换为γ之后，以γ的变化趋势为新的聚类初始点选取标准来确定初始密度峰值点。为了实现上述目的，本发明定义一个决策值变化值k，用于自动确定初始密度峰值点个数，对已生成的γ值降序排列之后，各个数据点对应的归一化值之间的差值即为决策值变化值，即：

由拐点的定义可知，拐点前后曲线的上升(下降)趋势不同，而本实施例中归一化曲线为递减函数，故拐点左右两侧会有一个明显的下降，因此本实施例定义所有数据点相对于第一个数据点与其下一个数据点所形成的两个向量的夹角值最大的点即为拐点。在确定拐点之后，将拐点之前的数据点都设定为初始密度峰值点。

当然，以上仅为一种具体的实施例，在其他实施例中，还可以将归一化值从小到大排序，得到递增的归一化曲线。之后，在计算拐点时，可以计算每个坐标点相对于最后一个坐标点形成的向量与坐标点相对于其前一个坐标点形成的向量之间的夹角，选取最大值作为拐点，将拐点及其之后的全部坐标点作为初始密度峰值点。当然，还可以采用其他拐点计算方式，本发明对此不作限定。

原始的密度峰值算法在实现聚类的过程中会出现属于同一个类的数据点被划分为多个子类的情况即多密度峰值现象，这是由于筛选的初始密度峰值点可能过多，使得原本应归属于初始簇A的数据点归类到了初始簇B的情况出现，聚类的结果缺乏准确性。而这种错误分类的方式会导致后续接收到新客户的特征信息后，可能会把新客户划分至错误的分组内，从而为新客户提供错误的推荐数据，推荐效果差。而在经过本发明上述的初始密度峰值点的选取之后，也可能存在同样的问题。为了尽可能避免上述原因导致的错误分组的情况出现，本发明提供了以下实施例，在步骤s3之后，步骤s4之前，还包括：

步骤s31：计算每个初始簇的边界局部密度以及其平均密度；

可以理解的是，正确的聚类分组是想要实现“类间差异度最大，类内相似度最大”的结果，而出现上述错误分组的原因，就是因为部分初始簇之间的类间差异度不够大，导致原本属于一类的数据点分成了多个子类存在，即原本应该属于一个大簇的数据点，分属于至了多个初始簇内。为了避免该问题，本实施例采用的方式是首先确定哪些为错误划分为子类的初始簇，之后将错误划分的初始簇进行合并的方式。其中，具体实现时，想要判断哪些初始簇能够进行合并，需要计算每个初始簇的边界局部密度和其平均密度，这是因为边界局部密度是用于表征该初始簇与其他初始簇之间的类间差异，而平均密度是用于表征一个初始簇的类内相似度的。

步骤s32：将每个初始簇的边界局部密度依次与其他初始簇的平均密度进行比较，若当前比较的初始簇的边界局部密度大于或等于被比较的初始簇的平均密度，则将被比较的初始簇合并至当前比较的初始簇内；重复本步骤操作，直至最终得到的簇均无法与其他簇合并为止，将最终得到的簇作为最终簇；

由于本实施例的目的，是为了将类间差异不够大的初始簇进行合并，因此需要判断一个初始簇的边界局部密度是否大于或等于自身近邻的初始簇(近邻簇)的平均密度，若是，则表明该近邻簇是被错误划分的子类，需要将该近邻簇合并至该初始簇中。其中，上述提到的“当前比较的初始簇”和“被比较的初始簇”指的是：若将初始簇A的边界局部密度与初始簇B的平均密度进行比较，则初始簇A为“当前比较的初始簇”，初始簇B为“被比较的初始簇”，后续若需要合并，则会将初始簇B合并至初始簇A中，合并后的簇的聚类中心为初始簇A的聚类中心。

相应的，后续步骤s4调整为步骤s41：将每个最终簇与对应的推荐数据进行链接；步骤s6调整为步骤s61：得到对应于新客户的数据点后，确定新客户所属的最终簇，并调用其所属的最终簇链接的推荐数据进行显示。

可以理解的是，通过上述合并的方式，能够将最初错误划分为多个子类的初始簇进行合并，尽可能保证了最终得到的最终簇符合实际的分组要求，提高了聚类分组的准确性，从而尽可能保证了依据分组结果为客户提供推荐数据时推荐数据的准确性，推荐效果较好。

进一步的，步骤s31的过程包括：

依据平均密度关系式计算初始簇的平均密度；平均密度关系式为：

其中，Y为当前计算平均密度的初始簇，ρ_avg(Y)为初始簇Y的平均密度；ρ_h为初始簇Y中第h个数据点的局部密度；X为待分组数据集；j为X中除第h个数据点以外的数据点；d_c为截断距离；d_hj为第h个数据点和第j个数据点之间的距离；(d_hj-d_c)<0时，χ(d_hj-d_c)＝1，否则，χ(d_hj-d_c)＝0；

选择当前比较的初始簇A以及被比较的初始簇B，依据边界局域密度关系式，计算当前比较的初始簇A相对于被比较的初始簇B的边界局部密度；边界局域密度关系式为：

其中，ρ_b为当前比较的初始簇A相对于被比较的初始簇B的边界局部密度；E_A为当前比较的初始簇A的边界点集；i为E_A中的数据点；X\A为待分组数据集中除被比较的初始簇A以外的数据点集；j为X\A中的数据点；d_ij为数据点i和数据点j的之间的距离。

在依据边界局域密度关系式计算ρ_b的过程为：首先确定好初始簇A的边界集，之后根据该边界集中数据点的局部密度按值大小排列，取其中最大值作为该初始簇A的边界局部密度。

需要注意的是，上述子簇合并的操作需要综合考虑到边界局部密度以及近邻簇的平均密度两个参数：仅在i∈E_A,d_ij＜d_c,j∈B，并且满足ρ_b≥ρ_avg(B)条件下才需要进行子簇的合并操作，其他情况都不需要考虑。其中，B为初始簇B的数据点集，ρ_avg(B)为初始簇B的平均密度。

对于一些密度不均匀的数据集，可能存在上一部分数据点稠密分布，另一部分数据点稀疏分布的情况，此时很难选取一个合适的截断距离d_c。d_c的增大会使得高密度区域中出现两个不同类簇需要合并的情况；另一方面，d_c选取过小会使得密度稀疏区域被分割为更多的子类，使得聚类的结果更加复杂。因此，对于存在异常点(即噪声点)或异常子类的数据集的聚类无法使用同样的d_c来进行判定。为了解决该问题，本发明提供了以下实施例。

作为优选地，参见图5所示，图5为本发明提供的另一种基于客户特征的分组推荐方法的过程的流程图；步骤s31之前，还包括：

步骤s301：依据预设筛选规则筛选全部初始簇中的低密度子类，并将未包含于初始簇内的数据点作为异常点；对除所述低密度子类以及所述异常点以外的其余初始簇进行后续操作；

后续，该方法还包括：

步骤s302：将异常点和低密度子类中的数据点组成待处理数据集，重新执行前述聚类操作，聚类后将得到的每个簇与对应的推荐数据进行链接；聚类完成后，未包含至任何簇中的数据点为噪声。

其中，步骤s302与步骤s31～s4之间并列进行，互不干涉。

可以理解的是，本实施例为了避免异常点和异常子类的影响，在得到初始簇后，进行簇间合并之前，首先采取分离异常点和低密度子类的方式，将这些异常点和低密度子类筛选出来后，对低密度异常子类执行去除簇标记操作，将异常点和原低密度子类中的数据点单独组成待处理数据集，之后重新对该待处理数据集进行一次聚类操作之后，筛选其初始密度峰值点进行聚类，并重新计算得到的初始簇的边界局部密度和簇平均密度，遵循上述提出的合并规则进行合并，合并之后可将剩下的样本数较少的数据点归类为噪声类。这种将异常点和低密度子类筛选出来独立聚类的方式，能够避免这些异常数据点对于整体聚类的影响，简化了整个聚类环境的复杂程度，提高了聚类分组结果的准确性，从而提高了用户推荐数据的准确性。

需要注意的是，在将异常点和低密度子类筛选出来之后，剩余的初始簇即可开始进行簇间合并，筛选出来的这部分数据点也可以开始进行上述重新聚类的操作，这两部分操作直接互补干涉，可以存在先后顺序，也可以独立并行运行，本方法对此不做限定。

进一步可知，步骤s301中，依据预设筛选规则筛选全部初始簇中的低密度子类的过程包括：

将密度差按照从大到小的顺序进行排序，依次计算每两个相邻密度差之间的差值；

可以理解的是，这里的低密度子类指的是平均密度远小于其他初始簇的初始簇，因此本实施例中首先计算了每个初始簇的平均密度与平均密度最大值之间的密度差，这个密度差通常会分为两部分，一部分数值较小，对应的是部分高密度子类，这些高密度之类的密度差之间的差值也比较小；另一部分数值较大，对应的是部分低密度子类，这些低密度之类的密度差之间的差值也比较小；但是当依据密度差进行排序后，这两部分之间的差值是很大的，因此依据此原理，可以筛选出那部分平均密度远小于其他初始簇的低密度子类。这种筛选方式准确性较高，能够基本筛选出全部低密度子类，筛选可靠性高。

在另一实施例中，步骤s301中，依据预设筛选规则筛选全部初始簇中的低密度子类的过程包括：

可以理解的是，在本实施例中，直接依据初始簇的平均密度与平均密度的最大值之间的密度差，选择其中密度差大于预设密度差阈值的部分初始簇作为低密度子类。这种方式需要依据实验来确定预设密度差阈值的值。相比上一实施例来说，本实施例的比较过程较为简单，计算量小。

当然，还可采用其他方式筛选低密度子类，本发明对此不作限定。

本发明还提供了一种基于客户特征的分组推荐装置，参见图6所示，图6为本发明提供的一种基于客户特征的分组推荐装置的结构示意图。该装置包括：

预处理模块1，用于获取多个历史客户的特征信息并对其预处理，得到对应于各个历史客户的数据点，组成待分组数据集；

中心筛选模块2，用于计算各个数据点周围的数据点密度，选取数据点密度最大的前N个数据点作为初始密度峰值点；

聚类模块3，用于分别对各个初始密度峰值点进行聚类，得到以各个初始密度峰值点为中心的初始簇；

推荐数据链接模块4，用于将每个初始簇与对应的推荐数据进行链接；

新客户分组模块5，用于接收新客户的特征信息后对其进行预处理，得到对应于新客户的数据点；确定新客户所属的初始簇，并调用其所属的初始簇链接的推荐数据进行显示。

本发明提供的基于客户特征的分组推荐装置是用于实现上述基于客户特征的分组推荐方法的，因此，这里的基于客户特征的分组推荐装置与以上基于客户特征的分组推荐方法对应实现。

以上的几种具体实施方式仅是本发明的优选实施方式，以上几种具体实施例可以任意组合，组合后得到的实施例也在本发明的保护范围之内。应当指出，对于本技术领域的普通技术人员来说，相关专业技术人员在不脱离本发明精神和构思前提下推演出的其他改进和变化，均应包含在本发明的保护范围之内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。