CN114444573A

CN114444573A - 基于大数据聚类技术的电力客户标签生成方法

Info

Publication number: CN114444573A
Application number: CN202111614781.XA
Authority: CN
Inventors: 燕跃豪; 鲍薇; 王莹; 师杨; 王权; 苏幸红; 栗鹏; 刘晓辉; 汪垚鹞
Original assignee: Henan Ganneng Information Technology Co ltd; State Grid Henan Electric Power Co Zhengzhou Power Supply Co; Zhengzhou University; State Grid Corp of China SGCC
Current assignee: Henan Ganneng Information Technology Co ltd; State Grid Henan Electric Power Co Zhengzhou Power Supply Co; Zhengzhou University; State Grid Corp of China SGCC
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-06

Abstract

本发明公开了一种基于大数据聚类技术的电力客户标签生成方法，包括基于改进K‑means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签，利用改进的K‑means聚类算法，对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析，将复杂信息加工过程透明化，形成简单的基本行为标签，经过K‑means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，建立电力客户标签库；电力企业利用客户标签生成客户画像，采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型，生成客户行为预测标签。电力企业可利用客户标签生成客户画像，客户精益管理，实现智能营销，对电力企业发展具有重大意义。

Description

基于大数据聚类技术的电力客户标签生成方法

技术领域：

本发明涉及电力大数据领域，具体涉及一种基于大数据聚类技术的电力客户标签生成方法。

背景技术：

随着信息化建设的深入推进和电力业务的飞速发展，电网企业也积累了丰富宝贵的数据资源，深度挖掘现有数据并充分利用数据分析结果辅助决策，进而研究电网发展和客户服务规律，成为驱动电网企业创新发展的重要途径之一。因此，开展基于大数据技术的电力客户标签研究，制定差异化与精准化的营销策略，提高产品和服务的竞争力，满足电力客户日益多样化的用电服务需求，扩大电能在社会能源消费终端中的占有率已经十分迫切。

发明内容：

本发明所要解决的技术问题是：提供一种基于大数据聚类技术的电力客户标签生成方法，针对电网产生海量的数据，基于预处理的数据，对电力客户数据深度处理，生成客户标签，并对客户标签进行分级、分类，使其结构化和标准化，以便构建标签库。

本发明为解决技术问题所采取的技术方案是：

一种基于大数据聚类技术的电力客户标签生成方法，包括基于改进K-means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签，利用改进的K-means聚类算法，对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析，将复杂信息加工过程透明化，形成简单的基本行为标签，经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，而建立电力客户标签库；电力企业利用客户标签生成客户画像，采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。

所述的基于改进K-means聚类的电力客户行为标签生成，包括以下步骤：

A、数据处理：

(1)数据收集：

收集电力客户服务呼叫中心、营销系统提供的客户用电信息档案、用电信息采集系统的数据，以及客户缴费渠道、气象信息和节假日信息；

(2)数据核对：

在完成数据收集后，进行数据核对，数据核对就是对不同的数据属性进行统一规划，选取有效且合理的关联字段，删除重复、无意义字段，明确数据的变量属性；

(3)数据清洗：

针对数据异常值，采用箱线图法对数据的异常值进行处理：先根据数据计算出整体的中位数Z、上四分位数A₁以及下四分位数A₂，然后计算四分位数差值B，即上四分位数与下四分位数的差B＝(A₁-A₂)，根据上四分位数与下四分位数来绘制箱线图的上下限，在中位数的位置绘制中位数线；在上下四分位数的1.5倍之内的数据定义为异常值，记为温和异常值；在上下四分位数的3倍之外的数据定义为极端异常值；

B、建立客户标签库：

客户标签库包含三类要素，即客户基础属性标签、客户行为描述标签和客户行为预测标签，客户标签属性系统的构建流程如下：

标签创建：收集并分析电力业务需求，提取合理的标签；。

标签设计：结合电力行业的实际情况，标签分类规则和属性定义形成初始标签。分别设计标识类、命名类、连续类、曲线类数据类型，以对规律不明显、复合型数据采用数据挖掘的方式进行标签化处理；

标签规则：覆盖率、准确性，用于评估标签规则定义和属性名称的合理性；

标签更新：根据标签评估结果更新标签规则定义和属性名称，删除过时的标签并添加新标签；

客户基础属性标签和行为描述标签的构建：

电力企业的数据多为数值型数据，依据一定的规则和已有多种聚类算法将数值属性数据进行离散化，划分成几个易于理解的语义标签层级，把定量数据转化为定性行为语义标签T，T是一个三元组，定义如下：

T＝<t,N,n>

式中，t为标签形成时间；N为标签名；n为行为状态，行为语义标签T表示了客户某个时刻发生了什么业务行为以及行为状态；

行为描述标签体现客户行为的时间特征、行为偏好，每个行为标签代表的行为特征用频次、平均值、覆盖率、偏离度、平均时间间隔、周期性及时段偏好特征来表示；覆盖率表示某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重；行为出现平均时间间隔即行为标签出现时间间隔的平均值；偏离度即行为标签出现的时间间隔的标准差，体现客户产生某种行为的时间均匀程度，偏离度越低，则该行为是一种周期性行为；周期性用来衡量客户某行为是否具有周期性；时段偏好特征表示客户行为产生的时间段偏好；

以误差平方和为基础，得到误差降低系数指标，并将其与轮廓系数相结合，构建聚合回报指标，结合聚类的集聚度和分离度，实现类别数k的自动确定；

首先，误差平方和的定义如下：

式中：I_SSE为误差平方和；c_i为第i个类别；x为c_i中的样本点；m_i为c_i的质心，即所有样本的均值；

当k值小于最佳聚类数时，k值的增加会增加每个簇的集聚程度，故SSE值的下降幅度会陡增，而当k值达到最佳聚类数时，再增加k值所得到的集聚程度回报会迅速变小，SSE值下降幅度会骤减；为量化集聚程度回报大小，定义误差降低系数β_SSE为

针对样本点x_i，假设其被聚类到簇A，则其轮廓系数如下：

式中：I_SC为轮廓系数；a(x_i)为样本x_i到A其他样本点的平均欧氏距离；对于簇B而言，令D(x_i，B)为样本x_i与簇B中所有样本的平均欧氏距离，则b(x_i)＝min_B≠AD(x_i,B),即为样本x_i到其他簇的平均距离的最小值；

求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数：

式中：

为平均轮廓系数；C为总样本集；n为总样本数；

误差降低系数反映的是簇内集聚度，平均轮廓系数则体现了簇间分离度，因此，综合两个系数定义了聚合回报指标I_Re：

给定一个最大聚类数k_max，取[0,2k_max]的范围内每个整数作为聚类数，分别进行一次聚类，当聚合回报值最大时，聚类结果最优，通过定义聚合回报指标，实现最佳聚类数k值的自动确定；

数据经过聚类分析，依据在数据中发现的描述对象及其关系信息，将数据对象分组；分组后，基于聚类思想，组内对象是相似的，而不同组之间的对象不同，采用基于K-means聚类算法，将相近特质的电力客户聚类，不同特质的分组；

将待聚类的数据集定义为

为相应的指标集，表示数据集中两个点Xi和Xj的距离；对于S中的每一个点Xi，计算其局部密度ρ_i和距离δi；首先定义dc为截断距离，ρi的计算公式如下：

其中

假设

为

的一个降序排列下标序，即ρq1≥ρq2≥…≥ρqN，则δqi计算公式如下：

假设一个待聚类的数据集S有nc(nc＞0)个聚类中心，

为各个聚类中心的编号；

为数据点归类属性标记；dmax＝max{dij}为S中距离最远的两个点的距离；

中的ni为S中所有局部密度比Xi大的数据点中与Xi距离最近的数据点的编号。

所述的基于梯度提升树和机器学习的电力客户行为预测标签，采用梯度提升树算法来构建行为预测模型，通过不断迭代改进上一次分类结果来提高分类准确度，步骤如下:

1)输入：T＝{(x₁,y₁),(x₂,y₂),…,(x_N,U_N)}，x_i,y_i∈R，T为训练样本数据集，x为自变量，y为因变量，N为数据集大小；

2)初始化：

3)对m＝1,2,3,…,M，M为迭代次数；

a)对i＝1,2,3,…,N，计算

式中，rim为梯度方向。

b)对rim拟合一个回归树，得到树m的叶节点

区域rjm，j＝1,2,…,Jm；

c)对j＝1,2,3,…,Jm，计算

d)更新

4)得到回归树

f(x)＝f_M(x)

据此生成客户行为预测标签。

在本发明中：

1、基于改进K-means聚类的电力用户行为标签生成：

用户标签是大数据技术的重要应用之一，如何全面和准确地对电力用户数据进行量化以及对用户的兴趣、特征、行为等多方面个人特征进行描绘勾勒，并在此基础上开展对用户行为的评估，是减少用户投诉的有效途径之一。利用改进的K-means聚类算法，对用户数据分析，建立更为准确完善的电力用户标签体系。

对电力客户服务呼叫中心、营销系统等其他方式获得的用户数据进行统计、分析，将复杂的信息加工过程透明化，形成简单的基本行为标签，同时经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，进而建立电力用户标签库。

2、基于梯度提升树和机器学习的电力客户行为预测标签：

电力用户画像的构建涉及到用户行为预测的问题，有助于实时监控用户行为，进行精准化营销，减少企业损失，为丰富电力行业增值服务提供有力支撑。本发明采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。实验结果表明，该模型预测速度、准确性都有较大提高。因此本发明中，用户标签库更加完善，构建的用户画像更具有参考价值

利用Tableau对收集来的数据进行预处理，快速准确的完成数据核对，填补数据缺失值，然后利用箱线图法处理数据异常值，大大提升了数据预处理的速度。采用聚类有效性指标控制k值的选取，通过建立K-means聚类有效性指标，评价聚类质量并确定最佳聚类数，思想简单，受样本分布的影响不大，且不需要人为设定阈值，可快速处理数据，构建客户行为标签。基于当前客户行为标签，采用梯度提升树算法算法预测客户用电行为，生成客户行为预测标签。进而利用客户标签构建客户画像。

本发明利用k-means聚类分析、回归分析对电力客户服务呼叫中心、营销系统的客户数据进行分析，建立了包含用户基本属性标签和行为标签的用户标签户标签库，并基于用户历史行为，对其行为进行了短期的预测，生成了用户行为预测标签。电力企业可利用客户标签生成客户画像，指导生产实践，提升服务水平，客户精益管理，实现智能营销，对电力企业发展具有重大意义。

附图说明：

图1是数据核对示意图；

图2是箱线图原理示意；

图3是K-means聚类流程图；

图4是客户标签技术框架图。

具体实施方式：

下面结合附图和实施例对本发明作进一步的解释和说明(参见图1～图3)：

实施例1，基于改进K-means聚类的电力客户行为标签生成：

A、数据处理：

(1)数据收集：

(2)数据核对：

(3)数据清洗：

B、建立客户标签库：

标签创建：收集并分析电力业务需求，提取合理的标签；。

客户基础属性标签和行为描述标签的构建：

T＝<t,N,n>

首先，误差平方和的定义如下：

针对样本点x_i，假设其被聚类到簇A，则其轮廓系数如下：

式中：

为平均轮廓系数；C为总样本集；n为总样本数；

将待聚类的数据集定义为

其中

假设

为

假设一个待聚类的数据集S有nc(nc＞0)个聚类中心，

为各个聚类中心的编号；

利用改进的K-means聚类算法，对用户数据分析，建立更为准确完善的电力用户标签体系。对电力客户服务呼叫中心、营销系统等其他方式获得的用户数据进行统计、分析，将复杂的信息加工过程透明化，形成简单的基本行为标签，同时经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，进而建立电力用户标签库。

实施例2、基于梯度提升树和机器学习客户行为预测标签生成：

电力客户画像的构建涉及到客户行为预测的问题。可采用梯度提升树算法来构建行为预测模型。Gradient Boosting其实是一个框架，可以套入各种不同的分类算法，通过不断迭代改进上一次分类结果来提高分类准确度。传统的Boosting方法是在算法开始的时候，为每一个样本初始化一个相同的权重，对训练样本进行迭代，每一次迭代结果提高分类错误训练样本的权重，降低分类正确的训练样本权重，进行N轮迭代后得到N个分类器，最后将其组合起来。Gradient Boosting的每一次计算是为了减少上一次的残差，通过在残差减少的梯度方向上建立一个新的分类。主要步骤如下:

1)输入：T＝{(x₁,U₁),(x₂,U₂),…,(x_N,U_N)}，x_i,U_i∈R，T为训练样本数据集，x为自变量，U为因变量，N为数据集大小；

2)初始化：

3)对m＝1,2,3,…,M，M为迭代次数；

a)对i＝1,2,3,…,N，计算

式中，rim为梯度方向。

b)对rim拟合一个回归树，得到树m的叶节点

区域rjm，j＝1,2,…,Jm；

c)对j＝1,2,3,…,Jm，计算

d)更新

4)得到回归树

f(x)＝f_M(x)

据此生成客户行为预测标签。客户标签技术框架如图4所示。

Claims

1.一种基于大数据聚类技术的电力客户标签生成方法，包括基于改进K-means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签，其特征在于：利用改进的K-means聚类算法，对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析，将复杂信息加工过程透明化，形成简单的基本行为标签，经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，而建立电力客户标签库；电力企业利用客户标签生成客户画像，采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。

2.根据权利要求1所述的基于大数据聚类技术的电力客户标签生成方法，其特征在于：所述的基于改进K-means聚类的电力客户行为标签生成，包括以下步骤：

A、数据处理：

(1)数据收集：

(2)数据核对：

(3)数据清洗：

B、建立客户标签库：

标签创建：收集并分析电力业务需求，提取合理的标签；。

客户基础属性标签和行为描述标签的构建：

T＝<t,N,n>

首先，误差平方和的定义如下：