CN114444573A - 基于大数据聚类技术的电力客户标签生成方法 - Google Patents

基于大数据聚类技术的电力客户标签生成方法 Download PDF

Info

Publication number
CN114444573A
CN114444573A CN202111614781.XA CN202111614781A CN114444573A CN 114444573 A CN114444573 A CN 114444573A CN 202111614781 A CN202111614781 A CN 202111614781A CN 114444573 A CN114444573 A CN 114444573A
Authority
CN
China
Prior art keywords
label
data
behavior
customer
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111614781.XA
Other languages
English (en)
Inventor
燕跃豪
鲍薇
王莹
师杨
王权
苏幸红
栗鹏
刘晓辉
汪垚鹞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Ganneng Information Technology Co ltd
State Grid Henan Electric Power Co Zhengzhou Power Supply Co
Zhengzhou University
State Grid Corp of China SGCC
Original Assignee
Henan Ganneng Information Technology Co ltd
State Grid Henan Electric Power Co Zhengzhou Power Supply Co
Zhengzhou University
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Ganneng Information Technology Co ltd, State Grid Henan Electric Power Co Zhengzhou Power Supply Co, Zhengzhou University, State Grid Corp of China SGCC filed Critical Henan Ganneng Information Technology Co ltd
Priority to CN202111614781.XA priority Critical patent/CN114444573A/zh
Publication of CN114444573A publication Critical patent/CN114444573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据聚类技术的电力客户标签生成方法,包括基于改进K‑means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签,利用改进的K‑means聚类算法,对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析,将复杂信息加工过程透明化,形成简单的基本行为标签,经过K‑means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,建立电力客户标签库;电力企业利用客户标签生成客户画像,采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型,生成客户行为预测标签。电力企业可利用客户标签生成客户画像,客户精益管理,实现智能营销,对电力企业发展具有重大意义。

Description

基于大数据聚类技术的电力客户标签生成方法
技术领域:
本发明涉及电力大数据领域,具体涉及一种基于大数据聚类技术的电力客户标签生成方法。
背景技术:
随着信息化建设的深入推进和电力业务的飞速发展,电网企业也积累了丰富宝贵的数据资源,深度挖掘现有数据并充分利用数据分析结果辅助决策,进而研究电网发展和客户服务规律,成为驱动电网企业创新发展的重要途径之一。因此,开展基于大数据技术的电力客户标签研究,制定差异化与精准化的营销策略,提高产品和服务的竞争力,满足电力客户日益多样化的用电服务需求,扩大电能在社会能源消费终端中的占有率已经十分迫切。
发明内容:
本发明所要解决的技术问题是:提供一种基于大数据聚类技术的电力客户标签生成方法,针对电网产生海量的数据,基于预处理的数据,对电力客户数据深度处理,生成客户标签,并对客户标签进行分级、分类,使其结构化和标准化,以便构建标签库。
本发明为解决技术问题所采取的技术方案是:
一种基于大数据聚类技术的电力客户标签生成方法,包括基于改进K-means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签,利用改进的K-means聚类算法,对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析,将复杂信息加工过程透明化,形成简单的基本行为标签,经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,而建立电力客户标签库;电力企业利用客户标签生成客户画像,采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。
所述的基于改进K-means聚类的电力客户行为标签生成,包括以下步骤:
A、数据处理:
(1)数据收集:
收集电力客户服务呼叫中心、营销系统提供的客户用电信息档案、用电信息采集系统的数据,以及客户缴费渠道、气象信息和节假日信息;
(2)数据核对:
在完成数据收集后,进行数据核对,数据核对就是对不同的数据属性进行统一规划,选取有效且合理的关联字段,删除重复、无意义字段,明确数据的变量属性;
(3)数据清洗:
针对数据异常值,采用箱线图法对数据的异常值进行处理:先根据数据计算出整体的中位数Z、上四分位数A1以及下四分位数A2,然后计算四分位数差值B,即上四分位数与下四分位数的差B=(A1-A2),根据上四分位数与下四分位数来绘制箱线图的上下限,在中位数的位置绘制中位数线;在上下四分位数的1.5倍之内的数据定义为异常值,记为温和异常值;在上下四分位数的3倍之外的数据定义为极端异常值;
B、建立客户标签库:
客户标签库包含三类要素,即客户基础属性标签、客户行为描述标签和客户行为预测标签,客户标签属性系统的构建流程如下:
标签创建:收集并分析电力业务需求,提取合理的标签;。
标签设计:结合电力行业的实际情况,标签分类规则和属性定义形成初始标签。分别设计标识类、命名类、连续类、曲线类数据类型,以对规律不明显、复合型数据采用数据挖掘的方式进行标签化处理;
标签规则:覆盖率、准确性,用于评估标签规则定义和属性名称的合理性;
标签更新:根据标签评估结果更新标签规则定义和属性名称,删除过时的标签并添加新标签;
客户基础属性标签和行为描述标签的构建:
电力企业的数据多为数值型数据,依据一定的规则和已有多种聚类算法将数值属性数据进行离散化,划分成几个易于理解的语义标签层级,把定量数据转化为定性行为语义标签T,T是一个三元组,定义如下:
T=<t,N,n>
式中,t为标签形成时间;N为标签名;n为行为状态,行为语义标签T表示了客户某个时刻发生了什么业务行为以及行为状态;
行为描述标签体现客户行为的时间特征、行为偏好,每个行为标签代表的行为特征用频次、平均值、覆盖率、偏离度、平均时间间隔、周期性及时段偏好特征来表示;覆盖率表示某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重;行为出现平均时间间隔即行为标签出现时间间隔的平均值;偏离度即行为标签出现的时间间隔的标准差,体现客户产生某种行为的时间均匀程度,偏离度越低,则该行为是一种周期性行为;周期性用来衡量客户某行为是否具有周期性;时段偏好特征表示客户行为产生的时间段偏好;
以误差平方和为基础,得到误差降低系数指标,并将其与轮廓系数相结合,构建聚合回报指标,结合聚类的集聚度和分离度,实现类别数k的自动确定;
首先,误差平方和的定义如下:
Figure BDA0003436335860000041
式中:ISSE为误差平方和;ci为第i个类别;x为ci中的样本点;mi为ci的质心,即所有样本的均值;
当k值小于最佳聚类数时,k值的增加会增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;为量化集聚程度回报大小,定义误差降低系数βSSE
Figure BDA0003436335860000042
针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:
Figure BDA0003436335860000043
式中:ISC为轮廓系数;a(xi)为样本xi到A其他样本点的平均欧氏距离;对于簇B而言,令D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则b(xi)=minB≠AD(xi,B),即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:
Figure BDA0003436335860000051
式中:
Figure BDA0003436335860000052
为平均轮廓系数;C为总样本集;n为总样本数;
误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标IRe
Figure BDA0003436335860000053
给定一个最大聚类数kmax,取[0,2kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;
数据经过聚类分析,依据在数据中发现的描述对象及其关系信息,将数据对象分组;分组后,基于聚类思想,组内对象是相似的,而不同组之间的对象不同,采用基于K-means聚类算法,将相近特质的电力客户聚类,不同特质的分组;
将待聚类的数据集定义为
Figure BDA0003436335860000054
为相应的指标集,表示数据集中两个点Xi和Xj的距离;对于S中的每一个点Xi,计算其局部密度ρi和距离δi;首先定义dc为截断距离,ρi的计算公式如下:
Figure BDA0003436335860000061
其中
Figure BDA0003436335860000062
假设
Figure BDA0003436335860000063
Figure BDA0003436335860000064
的一个降序排列下标序,即ρq1≥ρq2≥…≥ρqN,则δqi计算公式如下:
Figure BDA0003436335860000065
假设一个待聚类的数据集S有nc(nc>0)个聚类中心,
Figure BDA0003436335860000066
为各个聚类中心的编号;
Figure BDA0003436335860000067
为数据点归类属性标记;dmax=max{dij}为S中距离最远的两个点的距离;
Figure BDA0003436335860000068
中的ni为S中所有局部密度比Xi大的数据点中与Xi距离最近的数据点的编号。
所述的基于梯度提升树和机器学习的电力客户行为预测标签,采用梯度提升树算法来构建行为预测模型,通过不断迭代改进上一次分类结果来提高分类准确度,步骤如下:
1)输入:T={(x1,y1),(x2,y2),…,(xN,UN)},xi,yi∈R,T为训练样本数据集,x为自变量,y为因变量,N为数据集大小;
2)初始化:
Figure BDA0003436335860000069
3)对m=1,2,3,…,M,M为迭代次数;
a)对i=1,2,3,…,N,计算
Figure BDA0003436335860000071
式中,rim为梯度方向。
b)对rim拟合一个回归树,得到树m的叶节点
区域rjm,j=1,2,…,Jm;
c)对j=1,2,3,…,Jm,计算
Figure BDA0003436335860000072
d)更新
Figure BDA0003436335860000073
4)得到回归树
f(x)=fM(x)
据此生成客户行为预测标签。
在本发明中:
1、基于改进K-means聚类的电力用户行为标签生成:
用户标签是大数据技术的重要应用之一,如何全面和准确地对电力用户数据进行量化以及对用户的兴趣、特征、行为等多方面个人特征进行描绘勾勒,并在此基础上开展对用户行为的评估,是减少用户投诉的有效途径之一。利用改进的K-means聚类算法,对用户数据分析,建立更为准确完善的电力用户标签体系。
对电力客户服务呼叫中心、营销系统等其他方式获得的用户数据进行统计、分析,将复杂的信息加工过程透明化,形成简单的基本行为标签,同时经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,进而建立电力用户标签库。
2、基于梯度提升树和机器学习的电力客户行为预测标签:
电力用户画像的构建涉及到用户行为预测的问题,有助于实时监控用户行为,进行精准化营销,减少企业损失,为丰富电力行业增值服务提供有力支撑。本发明采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。实验结果表明,该模型预测速度、准确性都有较大提高。因此本发明中,用户标签库更加完善,构建的用户画像更具有参考价值
利用Tableau对收集来的数据进行预处理,快速准确的完成数据核对,填补数据缺失值,然后利用箱线图法处理数据异常值,大大提升了数据预处理的速度。采用聚类有效性指标控制k值的选取,通过建立K-means聚类有效性指标,评价聚类质量并确定最佳聚类数,思想简单,受样本分布的影响不大,且不需要人为设定阈值,可快速处理数据,构建客户行为标签。基于当前客户行为标签,采用梯度提升树算法算法预测客户用电行为,生成客户行为预测标签。进而利用客户标签构建客户画像。
本发明利用k-means聚类分析、回归分析对电力客户服务呼叫中心、营销系统的客户数据进行分析,建立了包含用户基本属性标签和行为标签的用户标签户标签库,并基于用户历史行为,对其行为进行了短期的预测,生成了用户行为预测标签。电力企业可利用客户标签生成客户画像,指导生产实践,提升服务水平,客户精益管理,实现智能营销,对电力企业发展具有重大意义。
附图说明:
图1是数据核对示意图;
图2是箱线图原理示意;
图3是K-means聚类流程图;
图4是客户标签技术框架图。
具体实施方式:
下面结合附图和实施例对本发明作进一步的解释和说明(参见图1~图3):
实施例1,基于改进K-means聚类的电力客户行为标签生成:
A、数据处理:
(1)数据收集:
收集电力客户服务呼叫中心、营销系统提供的客户用电信息档案、用电信息采集系统的数据,以及客户缴费渠道、气象信息和节假日信息;
(2)数据核对:
在完成数据收集后,进行数据核对,数据核对就是对不同的数据属性进行统一规划,选取有效且合理的关联字段,删除重复、无意义字段,明确数据的变量属性;
(3)数据清洗:
针对数据异常值,采用箱线图法对数据的异常值进行处理:先根据数据计算出整体的中位数Z、上四分位数A1以及下四分位数A2,然后计算四分位数差值B,即上四分位数与下四分位数的差B=(A1-A2),根据上四分位数与下四分位数来绘制箱线图的上下限,在中位数的位置绘制中位数线;在上下四分位数的1.5倍之内的数据定义为异常值,记为温和异常值;在上下四分位数的3倍之外的数据定义为极端异常值;
B、建立客户标签库:
客户标签库包含三类要素,即客户基础属性标签、客户行为描述标签和客户行为预测标签,客户标签属性系统的构建流程如下:
标签创建:收集并分析电力业务需求,提取合理的标签;。
标签设计:结合电力行业的实际情况,标签分类规则和属性定义形成初始标签。分别设计标识类、命名类、连续类、曲线类数据类型,以对规律不明显、复合型数据采用数据挖掘的方式进行标签化处理;
标签规则:覆盖率、准确性,用于评估标签规则定义和属性名称的合理性;
标签更新:根据标签评估结果更新标签规则定义和属性名称,删除过时的标签并添加新标签;
客户基础属性标签和行为描述标签的构建:
电力企业的数据多为数值型数据,依据一定的规则和已有多种聚类算法将数值属性数据进行离散化,划分成几个易于理解的语义标签层级,把定量数据转化为定性行为语义标签T,T是一个三元组,定义如下:
T=<t,N,n>
式中,t为标签形成时间;N为标签名;n为行为状态,行为语义标签T表示了客户某个时刻发生了什么业务行为以及行为状态;
行为描述标签体现客户行为的时间特征、行为偏好,每个行为标签代表的行为特征用频次、平均值、覆盖率、偏离度、平均时间间隔、周期性及时段偏好特征来表示;覆盖率表示某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重;行为出现平均时间间隔即行为标签出现时间间隔的平均值;偏离度即行为标签出现的时间间隔的标准差,体现客户产生某种行为的时间均匀程度,偏离度越低,则该行为是一种周期性行为;周期性用来衡量客户某行为是否具有周期性;时段偏好特征表示客户行为产生的时间段偏好;
以误差平方和为基础,得到误差降低系数指标,并将其与轮廓系数相结合,构建聚合回报指标,结合聚类的集聚度和分离度,实现类别数k的自动确定;
首先,误差平方和的定义如下:
Figure BDA0003436335860000111
式中:ISSE为误差平方和;ci为第i个类别;x为ci中的样本点;mi为ci的质心,即所有样本的均值;
当k值小于最佳聚类数时,k值的增加会增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;为量化集聚程度回报大小,定义误差降低系数βSSE
Figure BDA0003436335860000121
针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:
Figure BDA0003436335860000122
式中:ISC为轮廓系数;a(xi)为样本xi到A其他样本点的平均欧氏距离;对于簇B而言,令D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则b(xi)=minB≠AD(xi,B),即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:
Figure BDA0003436335860000123
式中:
Figure BDA0003436335860000124
为平均轮廓系数;C为总样本集;n为总样本数;
误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标IRe
Figure BDA0003436335860000125
给定一个最大聚类数kmax,取[0,2kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;
数据经过聚类分析,依据在数据中发现的描述对象及其关系信息,将数据对象分组;分组后,基于聚类思想,组内对象是相似的,而不同组之间的对象不同,采用基于K-means聚类算法,将相近特质的电力客户聚类,不同特质的分组;
将待聚类的数据集定义为
Figure BDA0003436335860000131
为相应的指标集,表示数据集中两个点Xi和Xj的距离;对于S中的每一个点Xi,计算其局部密度ρi和距离δi;首先定义dc为截断距离,ρi的计算公式如下:
Figure BDA0003436335860000132
其中
Figure BDA0003436335860000133
假设
Figure BDA0003436335860000134
Figure BDA0003436335860000135
的一个降序排列下标序,即ρq1≥ρq2≥…≥ρqN,则δqi计算公式如下:
Figure BDA0003436335860000136
假设一个待聚类的数据集S有nc(nc>0)个聚类中心,
Figure BDA0003436335860000137
为各个聚类中心的编号;
Figure BDA0003436335860000138
为数据点归类属性标记;dmax=max{dij}为S中距离最远的两个点的距离;
Figure BDA0003436335860000139
中的ni为S中所有局部密度比Xi大的数据点中与Xi距离最近的数据点的编号。
利用改进的K-means聚类算法,对用户数据分析,建立更为准确完善的电力用户标签体系。对电力客户服务呼叫中心、营销系统等其他方式获得的用户数据进行统计、分析,将复杂的信息加工过程透明化,形成简单的基本行为标签,同时经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,进而建立电力用户标签库。
实施例2、基于梯度提升树和机器学习客户行为预测标签生成:
电力客户画像的构建涉及到客户行为预测的问题。可采用梯度提升树算法来构建行为预测模型。Gradient Boosting其实是一个框架,可以套入各种不同的分类算法,通过不断迭代改进上一次分类结果来提高分类准确度。传统的Boosting方法是在算法开始的时候,为每一个样本初始化一个相同的权重,对训练样本进行迭代,每一次迭代结果提高分类错误训练样本的权重,降低分类正确的训练样本权重,进行N轮迭代后得到N个分类器,最后将其组合起来。Gradient Boosting的每一次计算是为了减少上一次的残差,通过在残差减少的梯度方向上建立一个新的分类。主要步骤如下:
1)输入:T={(x1,U1),(x2,U2),…,(xN,UN)},xi,Ui∈R,T为训练样本数据集,x为自变量,U为因变量,N为数据集大小;
2)初始化:
Figure BDA0003436335860000141
3)对m=1,2,3,…,M,M为迭代次数;
a)对i=1,2,3,…,N,计算
Figure BDA0003436335860000142
式中,rim为梯度方向。
b)对rim拟合一个回归树,得到树m的叶节点
区域rjm,j=1,2,…,Jm;
c)对j=1,2,3,…,Jm,计算
Figure BDA0003436335860000143
d)更新
Figure BDA0003436335860000151
4)得到回归树
f(x)=fM(x)
据此生成客户行为预测标签。客户标签技术框架如图4所示。
电力用户画像的构建涉及到用户行为预测的问题,有助于实时监控用户行为,进行精准化营销,减少企业损失,为丰富电力行业增值服务提供有力支撑。本发明采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。实验结果表明,该模型预测速度、准确性都有较大提高。因此本发明中,用户标签库更加完善,构建的用户画像更具有参考价值
利用Tableau对收集来的数据进行预处理,快速准确的完成数据核对,填补数据缺失值,然后利用箱线图法处理数据异常值,大大提升了数据预处理的速度。采用聚类有效性指标控制k值的选取,通过建立K-means聚类有效性指标,评价聚类质量并确定最佳聚类数,思想简单,受样本分布的影响不大,且不需要人为设定阈值,可快速处理数据,构建客户行为标签。基于当前客户行为标签,采用梯度提升树算法算法预测客户用电行为,生成客户行为预测标签。进而利用客户标签构建客户画像。
本发明利用k-means聚类分析、回归分析对电力客户服务呼叫中心、营销系统的客户数据进行分析,建立了包含用户基本属性标签和行为标签的用户标签户标签库,并基于用户历史行为,对其行为进行了短期的预测,生成了用户行为预测标签。电力企业可利用客户标签生成客户画像,指导生产实践,提升服务水平,客户精益管理,实现智能营销,对电力企业发展具有重大意义。

Claims (3)

1.一种基于大数据聚类技术的电力客户标签生成方法,包括基于改进K-means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签,其特征在于:利用改进的K-means聚类算法,对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析,将复杂信息加工过程透明化,形成简单的基本行为标签,经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,而建立电力客户标签库;电力企业利用客户标签生成客户画像,采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。
2.根据权利要求1所述的基于大数据聚类技术的电力客户标签生成方法,其特征在于:所述的基于改进K-means聚类的电力客户行为标签生成,包括以下步骤:
A、数据处理:
(1)数据收集:
收集电力客户服务呼叫中心、营销系统提供的客户用电信息档案、用电信息采集系统的数据,以及客户缴费渠道、气象信息和节假日信息;
(2)数据核对:
在完成数据收集后,进行数据核对,数据核对就是对不同的数据属性进行统一规划,选取有效且合理的关联字段,删除重复、无意义字段,明确数据的变量属性;
(3)数据清洗:
针对数据异常值,采用箱线图法对数据的异常值进行处理:先根据数据计算出整体的中位数Z、上四分位数A1以及下四分位数A2,然后计算四分位数差值B,即上四分位数与下四分位数的差B=(A1-A2),根据上四分位数与下四分位数来绘制箱线图的上下限,在中位数的位置绘制中位数线;在上下四分位数的1.5倍之内的数据定义为异常值,记为温和异常值;在上下四分位数的3倍之外的数据定义为极端异常值;
B、建立客户标签库:
客户标签库包含三类要素,即客户基础属性标签、客户行为描述标签和客户行为预测标签,客户标签属性系统的构建流程如下:
标签创建:收集并分析电力业务需求,提取合理的标签;。
标签设计:结合电力行业的实际情况,标签分类规则和属性定义形成初始标签。分别设计标识类、命名类、连续类、曲线类数据类型,以对规律不明显、复合型数据采用数据挖掘的方式进行标签化处理;
标签规则:覆盖率、准确性,用于评估标签规则定义和属性名称的合理性;
标签更新:根据标签评估结果更新标签规则定义和属性名称,删除过时的标签并添加新标签;
客户基础属性标签和行为描述标签的构建:
电力企业的数据多为数值型数据,依据一定的规则和已有多种聚类算法将数值属性数据进行离散化,划分成几个易于理解的语义标签层级,把定量数据转化为定性行为语义标签T,T是一个三元组,定义如下:
T=<t,N,n>
式中,t为标签形成时间;N为标签名;n为行为状态,行为语义标签T表示了客户某个时刻发生了什么业务行为以及行为状态;
行为描述标签体现客户行为的时间特征、行为偏好,每个行为标签代表的行为特征用频次、平均值、覆盖率、偏离度、平均时间间隔、周期性及时段偏好特征来表示;覆盖率表示某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重;行为出现平均时间间隔即行为标签出现时间间隔的平均值;偏离度即行为标签出现的时间间隔的标准差,体现客户产生某种行为的时间均匀程度,偏离度越低,则该行为是一种周期性行为;周期性用来衡量客户某行为是否具有周期性;时段偏好特征表示客户行为产生的时间段偏好;
以误差平方和为基础,得到误差降低系数指标,并将其与轮廓系数相结合,构建聚合回报指标,结合聚类的集聚度和分离度,实现类别数k的自动确定;
首先,误差平方和的定义如下:
Figure FDA0003436335850000031
式中:ISSE为误差平方和;ci为第i个类别;x为ci中的样本点;mi为ci的质心,即所有样本的均值;
当k值小于最佳聚类数时,k值的增加会增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;为量化集聚程度回报大小,定义误差降低系数βSSE
Figure FDA0003436335850000041
针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:
Figure FDA0003436335850000042
式中:ISC为轮廓系数;a(xi)为样本xi到A其他样本点的平均欧氏距离;对于簇B而言,令D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则b(xi)=minB≠AD(xi,B),即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:
Figure FDA0003436335850000043
式中:
Figure FDA0003436335850000044
为平均轮廓系数;C为总样本集;n为总样本数;
误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标IR2
Figure FDA0003436335850000045
给定一个最大聚类数kmax,取[0,2kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;
数据经过聚类分析,依据在数据中发现的描述对象及其关系信息,将数据对象分组;分组后,基于聚类思想,组内对象是相似的,而不同组之间的对象不同,采用基于K-means聚类算法,将相近特质的电力客户聚类,不同特质的分组;
将待聚类的数据集定义为
Figure FDA0003436335850000051
为相应的指标集,表示数据集中两个点Xi和Xj的距离;对于S中的每一个点Xi,计算其局部密度ρi和距离δi;首先定义dc为截断距离,ρi的计算公式如下:
Figure FDA0003436335850000052
其中
Figure FDA0003436335850000053
假设
Figure FDA0003436335850000054
Figure FDA0003436335850000055
的一个降序排列下标序,即ρq1≥ρq2≥…≥ρqN,则δqi计算公式如下:
Figure FDA0003436335850000056
假设一个待聚类的数据集S有nc(nc>0)个聚类中心,
Figure FDA0003436335850000057
为各个聚类中心的编号;
Figure FDA0003436335850000058
为数据点归类属性标记;dmax=max{dij}为S中距离最远的两个点的距离;
Figure FDA0003436335850000059
中的ni为S中所有局部密度比Xi大的数据点中与Xi距离最近的数据点的编号。
3.根据权利要求1所述的基于大数据聚类技术的电力客户标签生成方法,其特征在于,所述的基于梯度提升树和机器学习的电力客户行为预测标签,采用梯度提升树算法来构建行为预测模型,通过不断迭代改进上一次分类结果来提高分类准确度,步骤如下:
1)输入:T={(x1,U1),(x2,U2),…,(xN,UN)},xi,Ui∈R,T为训练样本数据集,x为自变量,U为因变量,N为数据集大小;
2)初始化:
Figure FDA0003436335850000061
3)对m=1,2,3,…,M,M为迭代次数;
a)对i=1,2,3,…,N,计算
Figure FDA0003436335850000062
式中,rim为梯度方向。
b)对rim拟合一个回归树,得到树m的叶节点
区域rjm,j=1,2,…,Jm;
c)对j=1,2,3,…,Jm,计算
Figure FDA0003436335850000063
d)更新
Figure FDA0003436335850000064
4)得到回归树
f(x)=fM(x)
据此生成客户行为预测标签。
CN202111614781.XA 2021-12-27 2021-12-27 基于大数据聚类技术的电力客户标签生成方法 Pending CN114444573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111614781.XA CN114444573A (zh) 2021-12-27 2021-12-27 基于大数据聚类技术的电力客户标签生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111614781.XA CN114444573A (zh) 2021-12-27 2021-12-27 基于大数据聚类技术的电力客户标签生成方法

Publications (1)

Publication Number Publication Date
CN114444573A true CN114444573A (zh) 2022-05-06

Family

ID=81365139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111614781.XA Pending CN114444573A (zh) 2021-12-27 2021-12-27 基于大数据聚类技术的电力客户标签生成方法

Country Status (1)

Country Link
CN (1) CN114444573A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841832A (zh) * 2022-07-04 2022-08-02 国网湖北省电力有限公司营销服务中心(计量中心) 一种基于用电负荷二次聚类的电力用户画像标签建立方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841832A (zh) * 2022-07-04 2022-08-02 国网湖北省电力有限公司营销服务中心(计量中心) 一种基于用电负荷二次聚类的电力用户画像标签建立方法
CN114841832B (zh) * 2022-07-04 2023-01-24 国网湖北省电力有限公司营销服务中心(计量中心) 一种基于用电负荷二次聚类的电力用户画像标签建立方法

Similar Documents

Publication Publication Date Title
CN110990461A (zh) 大数据分析模型算法选型方法、装置、电子设备及介质
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
WO2021088499A1 (zh) 一种基于动态网络表征的发票虚开识别方法及系统
CN108280541A (zh) 基于随机森林和决策树的客户服务策略制定方法、装置
CN108170769A (zh) 一种基于决策树算法的装配制造质量数据处理方法
CN111815054A (zh) 基于大数据的工业蒸汽热网短期负荷预测方法
CN110378510B (zh) 一种基于时间序列和层次聚合的配网物资需求预测方法
CN112184484A (zh) 一种电力用户差异化服务方法及系统
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN115907822A (zh) 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法
CN114118269A (zh) 基于典型业务场景下的能源大数据聚合分析方法
Wang et al. Partition cost-sensitive CART based on customer value for Telecom customer churn prediction
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
CN114444573A (zh) 基于大数据聚类技术的电力客户标签生成方法
CN115481841A (zh) 基于特征提取和改进随机森林的物资需求预测方法
CN115481844A (zh) 基于特征提取和改进的svr模型的配网物资需求预测系统
CN117453764A (zh) 一种数据挖掘分析方法
CN116629709A (zh) 一种供电指标的智能化分析报警系统
Wang et al. A Novel Multi‐Input AlexNet Prediction Model for Oil and Gas Production
CN115496338A (zh) 基于大数据技术的电力缴费渠道引流方法、系统及介质
CN114722098A (zh) 一种基于正态云模型和密度聚类算法的典型负荷曲线辨识方法
CN114818849A (zh) 基于大数据信息的卷积神经网络和遗传算法的反窃电方法
CN113935819A (zh) 核算异常特征提取方法
CN111353523A (zh) 一种对铁路客户进行分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination