CN111159258A

CN111159258A - 一种基于聚类分析的客户分群实现方法

Info

Publication number: CN111159258A
Application number: CN201911421024.3A
Authority: CN
Inventors: 吴炎泉; 陈思恩; 杨紫胜; 廖雅哲
Original assignee: Tech Valley Xiamen Information Technology Co ltd
Current assignee: Tech Valley Xiamen Information Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15

Abstract

本发明公开了一种基于聚类分析的客户分群实现方法，包括以下步骤：建立标签画像系统；获取待分群的客户数据集；选择客户标签，生成初始客户标签库；配置聚类数目K，并选择是否对初始客户标签库的标签进行降维；利用主成分分析法对待分析客户标签库中的连续型标签进行降维处理，对类别型标签进行One‑Hot编码，生成最终客户标签库；于最终客户标签库，利用k‑means++算法进行聚类分析，生成聚类结果并进行展示。本发明能够让业务人员从客户标签体系中筛选出客户标签作为聚类特征，并进行简单配置后，即可自动完成客户聚类分群，将聚类分群结果展示到前台，呈现给业务人员，整个过程操作简便，极大的节约了时间成本。

Description

一种基于聚类分析的客户分群实现方法

技术领域

本发明涉及聚类分析技术领域，特别涉及一种基于聚类分析的客户分群实现方法。

背景技术

客户分群是指企业在明确的战略业务模式和特定的市场中，根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类，进而提供有针对性的产品，服务和销售模式。使用客户分群系统，能让业务人员在无需了解客户群体特征的情况下，对客户进行聚类，将聚类结果展示到前台，并为各客户群体打上类别标签，从而能够对每个群体制定差异化的营销和关怀策略。

传统的聚类分析算法需要数据分析专家，基于深厚的行业知识和对数据的理解，使用分析工具读取数据，进行人工特征工程，构建定制化机器学习算法。在整个过程中，步骤较为繁琐，业务人员无法单独完成，数据分析师需要根据不同业务背景与不同的业务组进行深入的交流以保证聚类结果符合业务逻辑。

发明内容

为解决上述问题，本发明提供了一种基于聚类分析的客户分群实现方法。

本发明采用以下技术方案：

一种基于聚类分析的客户分群实现方法，其包括以下步骤：

S1、建立标签画像系统，所述标签画像系统采用宽表形式存储，其包含有一组客户标签，所述客户标签包括连续型标签和类别型标签；

S2、获取待分群的客户数据集；

S3、基于业务背景，在标签画像系统里的标签列表中选择客户标签，生成初始客户标签库；

S4、配置聚类数目K，并选择是否对初始客户标签库的标签进行降维；

S5、利用主成分分析法对待分析客户标签库中的连续型标签进行降维处理，对类别型标签进行One-Hot编码，生成最终客户标签库；

S6、基于最终客户标签库，建立聚类分析模型，利用k-means++算法进行聚类分析，生成聚类结果并进行展示，所述聚类结果包括聚类后的各群体数量以及各群体标签的中心值。

优选地，步骤S1中所述的建立标签画像系统具体为：创建HBase表，然后将HBase表映射到Hive表。

优选地，步骤S5中所述的降维处理通过以下方法实现：

S51、对初始客户标签库中的连续型标签作为原始变量，进行进行标准化处理，令：

将p个原始变量X₁,X₂,…，X_p的总方差分解成p个相互独立的变量Y₁,Y₂,…,Y_p的方差之和；

S52、建立贡献率计算模型如下：

其中，

为变量Y₁,Y₂,…,Y_m的的累计贡献率，m为选取的主成分变量的数量，m<p；

S53、基于预先设定的贡献率阈值，利用所述贡献率计算模型计算累计贡献率达到贡献率阈值时的m值；

S54、根据获得的主成分变量的数量m值，得到：

其中，Y_i为经降维处理后最终得到的连续型标签。

优选地，步骤S6中所述的利用k-means++算法进行聚类分析通过以下方法实现：

S61、选取k个聚类中心；

S62、针对客户数据集中的每个数据点，计算其到k个中心点的距离，并将其与距离最近的中心点关联，与同一中心点关联的所有数据点聚类成一组；

S63、计算每一组数据点的均值，并将该组对应的中心点移动到均值的位置；

S64、重复步骤S62、S63，直至中心点不再变化。

优选地，步骤S61中所述的选取k个聚类中心通过以下方法实现：

随机选取第一个聚类中心；

假定已经选取了n个聚类中心，0<n<k，则在选取第n+1个聚类中心时，距离当前n个聚类中心越远的点具有更高的选中概率。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明能够让业务人员从客户标签体系中筛选出客户标签作为聚类特征，并进行简单配置后，即可自动完成客户聚类分群，将聚类分群结果展示到前台，呈现给业务人员，整个过程操作简便，极大的节约了时间成本。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

参考图1所示，本发明公开了一种基于聚类分析的客户分群实现方法，其包括以下步骤：

S1、建立标签画像系统，标签画像系统采用宽表形式存储，先创建HBase表，然后将HBase表映射到Hive表。为便于理解，将标签画像系统示例如下：

字段名	说明	示例
			PK_ARCH_NO	客户唯一标识符，加密字符串	0a8e79872iuy34
LBL0000000000001	90天内订票数	20
			LBL0000000000002	近五年乘机频次	30
……	……	……

标签画像系统包含有一组客户标签，其中：

PK_ARCH_NO为客户编号；LBLXXXXXXXXXXXXX为客户标签编号，将其作为宽表的字段名。

新增加一个客户标签时，宽表将相应地增加一个字段。由于业务累积，客户标签不断增加，在该表中能行成成百上千个字段。

客户标签包括连续型标签和类别型标签连续型标签(如近五年乘机频次)和类别型标签(如性别)。

S2、获取待分群的客户数据集。用户(业务人员)将需要进行分群的客户名单上传，一般而言为一列1万到100万的客户编号PK_ARCH_NO。

S3、基于业务背景，在标签画像系统里的标签列表中选择客户标签，生成初始客户标签库。业务人员根据具体业务背景，在标签画像系统里的标签列表中选取作为模型分析的合适的标签。系统过滤出勾选的标签，生成临时表(由Cust_tag_value表生成Cust_tag_value_tmp表，可视为Cust_tag_value的子表)作为初始客户标签库。

S4、配置聚类数目K(即需要把待分群的客户分为几个群体)，并选择是否对初始客户标签库的标签进行降维。如果业务人员选择过多(如几十个)的客户标签作为聚类特征，则特征之间极有可能存在多重共线性，导致相关特征在距离计算中占据很高的权重，从而对聚类结果有负面影响。因此，业务人员可选择是否降维，以消除特征之间的多重共线性。

S5、利用主成分分析法对待分析客户标签库中的连续型标签进行降维处理，对类别型标签进行One-Hot编码，生成最终客户标签库。

主成分分析(PCA)通过将特征集缩减成一小部分能代表原始特征集最主要变化的主要特征分量，来实现高维数据到低维数据空间的映射。

在本步骤中，降维处理通过以下方法实现：

S52、建立贡献率计算模型如下：

其中，

S53、基于预先设定的贡献率阈值，利用贡献率计算模型计算累计贡献率达到贡献率阈值时的m值；

S54、根据获得的主成分变量的数量m值，得到：

其中，Y_i为经降维处理后最终得到的连续型标签。

客户分群系统系统根据业务人员所选标签的类型，判断是否含有类别型标签(例：“性别”标签为类别型标签，其标签值可枚举，分别是“男性”、“女性”、“未知”)。若含有类别型标签，由于后续步骤中所采用的k-means++算法不支持类别型变量，则需要把类别型标签进行One-Hot编码，将编码后的特征作为聚类分析的特征。One-Hot编码是分类变量作为二进制向量的表示。例如上文中说的性别标签，共有“男性”、“女性”、“未知”三种状态，那么就可以编码为001、010和100，对于有N个状态的特征，经过one-hot编码后就会变成N个二元值，而其中只有一个为1。

S6、基于最终客户标签库，建立聚类分析模型，利用k-means++算法进行聚类分析，生成聚类结果并进行展示，聚类结果包括聚类后的各群体数量以及各群体标签的中心值。本步骤S6中的利用k-means++算法进行聚类分析通过以下方法实现：

S61、选取k个聚类中心；

S64、重复步骤S62、S63，直至中心点不再变化。

优选地，步骤S61中的选取k个聚类中心通过以下方法实现：

随机选取第一个聚类中心；

针对各群体标签的中心值，对连续型标签而言展示的是各群体该标签的均值，对类别型标签而言展示的是各群体该标签的标签值占比排名前三的标签值及其占比。

聚类结果展示给业务人员后，业务人员可根据各群体的各标签中心值对各群体的特征进行归纳总结并为各群体命名，作为对各细分群体制定营销策略的依据，最终实现精准营销。

与传统的客户分群模型开发冗长的特征工程相比，本发明具有如下优势：

(1)业务导向的自主化特征工程：业务人员能自助式筛取客户标签作为输入到算法端的变量。如果画像系统中尚未存在一些业务相关的重要特征变量，业务人员能拟定特定业务逻辑交由ETL专家实现数据逻辑将变量入库。该模式业务导向性极强，大大节省了传统分析师的时间成本(特征工程一般占据完整商业分析数据挖掘任务构建周期的70％-80％)；

(2)自动化特征数据转换：业务人员只需勾选模型相关配置，即可实现特征转换，提升模型效果。

(3)自动化模型反复应用：基于上一步转换后的特征，自动化构建聚类模型，实现客户分群。业务人员可根据具体需求，对聚类后的某个群体再放入分群系统中进行聚类分析，完成进一步的群体细分，最终聚焦某个或者某几个较小的客户群体。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。