CN112288465A

CN112288465A - 一种基于半监督聚类集成学习的客户细分方法

Info

Publication number: CN112288465A
Application number: CN202011117305.2A
Authority: CN
Inventors: 孟明; 庄栋; 甘海涛; 张肖辉; 杨策程
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-29
Anticipated expiration: 2040-10-19
Also published as: CN112288465B

Abstract

本发明公开一种基于半监督聚类集成学习的客户细分方法，本发明首先收集客户的特征信息，将特征信息数字化，构建客户特征信息数据集；利用少量的标签样本来初始化聚类中心，并设置核模糊聚类算法的模糊度和高斯宽度两个参数，生成若干个差异性较大的基聚类；利用标签样本的聚类准确性来计算各基聚类的可信度；通过近邻法和各基聚类的可信度来构造质量函数；最后利用D‑S证据理论将质量函数进行证据融合，得到聚类结果。本发明将半监督集成学习引入到客户细分中，解决了算法参数敏感性的问题；利用了先验信息合理估计各基聚类的可信度，改变各基聚类在融合过程中所占的比重，解决了证据冲突问题，使得融合结果更加合理，提高了客户细分的准确性。

Description

一种基于半监督聚类集成学习的客户细分方法

技术领域

本发明属于生物特征分类领域，涉及一种基于D-S证据理论的半监督聚类集成学习的客户细分方法。

背景技术

近年来，随着大数据技术的发展，越来越多的企业将该技术运用到客户分类的应用中，即客户细分(Customer Segmentation)。客户细分是企业在明确的战略、业务模式和特定的市场中，根据客户的属性、偏好、行为、需要以及潜在价值等因素对客户进行分类，在此基础上提供具有针对性的产品、服务和营销方案。企业通过客户细分技术，将客户分为多类，并在此基础上评估各类客户的潜在价值，制定不同的营销方案和销售策略来服务各类客户，使得在有限的资源下，实现企业利益的最大化。因此如何对客户进行准确分类，实现同类中的客户相似度最高，异类中的客户相似度最低的这一问题成为人们研究的热点。在该背景下，本项目提出了一种基于D-S证据理论的半监督聚类集成算法的客户细分方法，旨在提高客户分类的准确性。

由于客户个体差异性比较大，而且存在小部分的异常点，这会给分类任务带来极大的困难。因此根据数据的特点，选取适当的分类方法，提高分类准确性，才是该任务的重点。在分类方法中，可以根据有无样本标签信息划分为监督学习、无监督学习和半监督学习。聚类分析则是解决无标记样本分类的方法，聚类目的是实现同簇差异性最小，异簇差异性最大。目前，主流的聚类算法有K均值(k-means)和模糊聚类(FCM)，其中k-means算法是一种简单的迭代性聚类算法，采用距离作为相似性度量指标，k-means算法解决实际问题对噪声和离群点特别敏感，对非凸性数据集或数据差异较大的数据效果不好，并且结果不一定是全局最优解。在客户细分任务中，由于数据的差异大和少部分离群点的存在，因此该聚类算法不适用于该项目。FCM算法是根据样本的属于各个类的隶属度进行划分的，相比前面的“硬聚类”算法，FCM算法会计算每个样本属于各类的隶属度。FCM算法在进行迭代计算前需要设置模糊指数m，该参数的选取直接决定最终结果的优劣程度，并且该算法容易陷入局部最优解和对离群点敏感，因此该算法也不适用于客户细分任务。针对上述两种算法在客户细分应用中存在的问题，本项目将基于D-S证据理论的半监督聚类集成学习运用到客户细分任务中，该算法有着半监督学习和集成学习的优点，解决参数敏感性等问题，使得在处理客户分类问题上更具鲁棒性，从而提高了分类的准确性。

发明内容

本发明针对客户细分中存在的问题，提出了一种基于D-S证据理论的半监督聚类集成学习方法。首先收集客户各种特征信息，并数字化。利用半监督核模糊聚类(Semi-Supervised KFCM)算法对处理过的数据进行聚类，通过设置不同的模糊度和带宽参数，生成若干个差异性较大的基聚类。然后计算有标签样本在各基聚类中的聚类准确性，估计各基聚类的可信度，在此基础上利用近邻法生成质量函数(BPA)，最后根据融合规则，将所有基聚类进行证据融合，得到最终的聚类结果。本发明一方面充分利用了标签样本的信息，能有效的初始化聚类中心，另一方面利用D-S证据理论进行集成学习，解决参数敏感性问题，降低了离群点对结果的影响，提高了客户分类的准确性。

技术方案：一种基于证据理论的半监督聚类集成学习及其在客户细分的方法，包含以下步骤：

步骤一：收集客户多个特征信息，将所有信息数字化，选取典型特征客户，作为先验信息，打上标签，构建客户信息数据集；

步骤二：利用部分标签样本初始化各基聚类的聚类中心；

步骤三：利用半监督核模糊聚类算法，对客户信息数据集进行聚类，生成若干个基聚类成员；

步骤四：计算各基聚类中标签样本的聚类准确性AC，根据可信度计算公式，得到各基聚类的可信度CL；

其中α为可信度指数，h表示基聚类成员个数，AC＝{AC¹,AC²,…,AC^h}；

步骤五：通过近邻法，计算样本在各基聚类属于各个类的概率，并结合基聚类的可信度，生成质量函数；

在所有基聚类中，统计任意两个样本分在同一个类别的次数，当大于一定次数时，这两个样本就具有相似性，则称为邻居样本；如果样本x_i和样本x_j是邻居关系，则S′_ij＝1，否则S′_ij＝0；定义样本x_i在聚类成员q中的质量函数为

具体形式如公式(2)所示：

式中

表示的是满足在聚类成员q中，与样本x_i属于邻居关系，且出现在簇k中的所有样本组成的集合，

表示的是满足上述条件的个数，Θ表示全集；

步骤六：最后利用D-S证据理论将步骤五生成的质量函数进行融合，得到样本属于每个类的概率,即将客户分成c个类，取概率最大的类作为样本的类别，完成最终的分类。

作为优选，所述的收集客户多个特征信息，将所有信息数字化，构建客户信息数据集；具体为：收集客户特征信息组成n个样本数据集X，其中选取部分典型的客户作为先验信息，即打上类标签信息；设有n-l个标签样本且分为c个类别；X＝{x₁,x₂,…,x_l，(x_l+1,y₁),(x_l+2,y₂),…,(x_n,y_n-l)}；其中l表示无标签样本个数。

作为优选，所述的利用半监督核模糊聚类算法，对客户信息数据集进行聚类，生成若干个基聚类成员；具体为：

半监督核模糊聚类的目标函数为：

其中高斯核函数

m是模糊度，σ为高斯宽度；

通过迭代求解目标函数得到隶属度矩阵u_ij和聚类中心z_i；

本发明将少量的标签样本转化为半监督信息，进而用来辅助基聚类的生成和融合过程，利用可信度合理估计各基聚类的可信度，从而改变各基聚类在融合过程中所占的比重，解决了证据冲突问题，使得融合结果更加合理，让得到的结果更具有说服力。

附图说明

图1为本发明具体实施流程图；

具体实施方式

结合附图1进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的实施主要包含四个步骤：(1)客户信息预处理，构建数据集；(2)使用SSKFCM算法进行多次聚类生成多个基聚类；(3)构造质量函数；(4)最后，利用D-S证据理论融合得到最终结果，完成客户分类。

步骤一：收集客户的特征信息，将特征信息数字化，构建客户样本集；

收集客户特征信息组成n个样本数据集X，其中选取部分典型的客户作为先验信息，即打上类标签信息；设有n-l个标签样本且分为c个类别；X＝{x₁,x₂,…,x_l，(x_l+1,y₁),(x_l+2,y₂),…,(x_n,y_n-l)}；其中l表示无标签样本个数。

步骤二：利用部分标签样本初始化聚类中心；

将k个类得标签样本按照标签相同分为一类，通过计算具有相同标签的样本特征中心，作为初始聚类中心。

步骤三：利用半监督核模糊聚类算法，对样本集进行聚类，生成h个基聚类,；

KFCM的目标函数为：

其中高斯核函数

m是模糊度，σ为高斯宽度。

通过迭代求解目标函数得到隶属度矩阵u_ij和聚类中心z_i；

通过设置KFCM算法的模糊度m和高斯宽度σ两个参数，生成差异性较大的h组基聚类标签结果：π＝{π¹,π²,…,π^h}；

步骤四：根据有标签样本在各基聚类的聚类准确性AC＝{AC¹,AC²,…,AC^h}，计算各基聚类可信度利用公式(1)计算各基聚类的可信度CL(Confidence Level),式中α为可信度指数

步骤五：通过近邻法，和步骤四得到的基聚类可信度，构造质量函数；

在所有基聚类中，统计任意两个样本分在同一个类别的次数，当大于一定次数时，这两个样本就具有相似性，则称为邻居样本。如果样本x_i和样本x_j是邻居关系S′_ij＝1，否则S′_ij＝0。定义样本x_i在聚类成员q中的质量函数为

具体形式如公式(2)所示：

式中

表示的是满足上述条件的样本个数。

步骤六：最后利用DS证据理论将上数步骤所生成的质量函数进行融合，得到最后的聚类结果；

在辨识框架θ＝{A₁,A₂,…,A_n}上，对于n个证据体m₁,m₂,…,m_n的融合规则为：

式中K为归一化常数：

将上述步骤所得到质量函数利用D-S证据理论进行融合，得到样本属于每个类的概率，取概率最大的类作为样本的类别，完成最终的分类。

Claims

1.一种基于半监督聚类集成学习的客户细分方法，其特征在于，该方法具体包括以下步骤：

步骤二：利用部分标签样本初始化各基聚类的聚类中心；

具体形式如公式(2)所示：

式中

表示的是满足上述条件的个数，Θ表示全集；

2.根据权力要求1所述的一种基于半监督聚类集成学习的客户细分方法，其特征在于：所述的收集客户多个特征信息，将所有信息数字化，构建客户信息数据集；具体为：收集客户特征信息组成n个样本数据集X，其中选取部分典型的客户作为先验信息，即打上类标签信息；设有n-l个标签样本且分为c个类别；X＝{x₁,x₂,…,x_l，(x_l+1,y₁),(x_l+2,y₂),…,(x_n,y_n-l)}；其中l表示无标签样本个数。

3.根据权力要求2所述的一种基于半监督聚类集成学习的客户细分方法，其特征在于：所述的利用半监督核模糊聚类算法，对客户信息数据集进行聚类，生成若干个基聚类成员；具体为：

半监督核模糊聚类的目标函数为：

其中高斯核函数

m是模糊度，σ为高斯宽度；

通过迭代求解目标函数得到隶属度矩阵u_ij和聚类中心z_i；