CN115760207A - 基于大数据的电力客户标签及画像生成方法及系统 - Google Patents

基于大数据的电力客户标签及画像生成方法及系统 Download PDF

Info

Publication number
CN115760207A
CN115760207A CN202211437497.4A CN202211437497A CN115760207A CN 115760207 A CN115760207 A CN 115760207A CN 202211437497 A CN202211437497 A CN 202211437497A CN 115760207 A CN115760207 A CN 115760207A
Authority
CN
China
Prior art keywords
label
customer
behavior
client
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211437497.4A
Other languages
English (en)
Inventor
赵昊东
臧昱秀
王明睿
李小兰
陈晓光
冯天民
李悦悦
谭澈
张琦
王妍
赵斌
滕宇哲
桂夕雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Original Assignee
Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd filed Critical Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Priority to CN202211437497.4A priority Critical patent/CN115760207A/zh
Publication of CN115760207A publication Critical patent/CN115760207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于大数据的电力客户标签及画像生成方法及系统,该电力客户标签及画像生成方法包括:对电力客户大数据进行预处理;基于预处理后的电力大客户数据,构建客户标签体系;基于客户标签体系,生成客户标签;基于客户标签,生成客户行为预测标签;基于客户标签和客户行为预测标签,获取标签库,根据标签库获取客户画像。利用大数据技术来分析客户的用电行为,生成客户画像,可以指导企业决策,同时提高客户满意度;基于大数据技术生成客户画像,可以全面、准确地量化处理电力客户数据,将客户的兴趣、特征、行为等多方面具象化数据分类描述,并在此基础上预测客户客户短期内的用电行为。

Description

基于大数据的电力客户标签及画像生成方法及系统
技术领域
本发明涉及电力客户标签及画像生成技术领域,尤其涉及一种基于大数据的电力客户标签及画像生成方法及系统。
背景技术
电力客户标签及画像生成是经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,进而建立电力客户的标签库,再利用标签库的标签生成客户画像,将客户信息结构化集中展示帮助电力企业直观、系统地认识客户。
而随着大数据技术(包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用等)的迅猛发展,电力企业积累了大量电力客户数据,使得大数据的数量呈指数型增长。目前,电力企业对客户数据分析过程中存在不足:数据分析手段有待提升,人为主观因素影响较大,对客户行为产生的内在原因分析较浅,无法快速分析大量客户投诉的工单数据。
因此,有必要开发一种基于大数据的电力客户标签及画像生成方法及系统,利用电力客户大数据技术来分析客户的用电行为,生成客户画像,可以指导企业决策,同时提高客户满意度;基于大数据技术生成客户画像,可以全面、准确地量化处理电力客户数据,将客户的兴趣、特征、行为等多方面具象化数据分类描述,并在此基础上预测客户客户短期内的用电行为。
发明内容
本发明旨在解决现有技术或相关技术中存在的技术问题之一。
为此本发明提出了一种。
有鉴于此,本发明的一方面提出了一种基于大数据的电力客户标签及画像生成方法及系统,所述电力客户标签及画像生成方法包括如下步骤:
对电力客户大数据进行预处理;
基于预处理后的所述电力客户大数据,构建客户标签体系;
基于所述客户标签体系,生成客户标签;
基于所述客户标签,生成客户行为预测标签;
基于所述客户标签和所述客户行为预测标签,获取标签库,根据所述标签库获取客户画像。
进一步地,所述预处理包括:
收集所述电力客户大数据;
对收集的所述电力客户大数据进行核对;
对核对后的所述电力客户大数据进行清洗。
进一步地,收集所述电力客户大数据包括从电力客户服务呼叫中心、客户用电信息档案和用电信息采集系统中进行所述大数据的收集;对收集的所述电力客户大数据从专一性、整体性、一致性和有效性四个方面进行核对;通过箱线图法对核对后的所述电力客户大数据进行异常值清洗。
进一步地,所述客户标签体系包括初始标签库,基本属性标签,初始行为标签,初始行为描述标签,和初始行为预测标签,所述客户标签包括:行为标签、行为描述标签和基础行为预测标签,其中,通过改进的K-means聚类算法将所述初始行为标签、所述初始行为描述标签和所述初始行为预测标签分别转化为所述行为标签,所述行为描述标签和所述基础行为预测标签,改进的所述K-means聚类算法包括:
假设在所述客户标签体系中存在n个数据点{x1,x2,…,xn},通过计算得到K个初始聚类中心{y1,y2,…,yk},计算所述数据点与对应的所述初始聚类中心之间的欧式距离,获取新类别,再找出所述新类别中每一类的类别中心,反复迭代计算,直至满足聚类收敛条件为止;
所述聚类收敛条件为满足如下目标函数Qn
Figure BDA0003947461980000021
式中,ai为第i个数据点,bj为第j个聚类中心。
进一步地,对所述初始行为描述标签进行聚类前,还需先对所述初始行为描述标签进行离散化处理行为发生的时间特征,将时间特征分层,进而对行为的频次、频率及行为产生的时间间隔进行聚类:
客户u在某个时间段的所述行为标签at的覆盖率用CreateRatio表示为:
Figure BDA0003947461980000031
式中,sum(atj,u)ET-ST为客户u某类业务行为的行为标签j在某个时间段发生的次数总和;ET-ST为统计的时间长度;
所述行为标签出现的时间间隔用d表示,则行为出现平均时间间隔average(d)为:
Figure BDA0003947461980000032
偏离度BalanceRatioat,u为:
Figure BDA0003947461980000033
如果某行为标签没有周期性,则用0表示,若有周期性则用其周期时间间隔d表示。进一步地,客户u的所述行为标签在某段时间内出现的时间距离为d1,d2,…,dk,对时间距离划分出n个区间,形成n个等级d1,d2,…,dn,如果sum(di,u)表示客户u的所述行为标签间隔di出现的次数,则周期性period(at,u)的计算公式为:
Figure BDA0003947461980000034
式中,
Figure BDA0003947461980000035
是存在,
Figure BDA0003947461980000036
是针对所有,如果客户u某行为标签发生在该时间段的次数占行为发生总次数的60%,则该行为具有时间段偏好。
进一步地,将所述基础行为预测标签采用梯度提升树算法构建所述行为预测标签为:
输入:T={(x1,y1),(x2,y2),…,(xN,yN)},xi,yi∈R,T为从所述基础行为预测标签中选取的训练样本数据集,x为自变量,为客户的行为标签数据,y为因变量,是行为预测标签的数据结果,N为数据集大小;
对每一个样本进行初始化:
Figure BDA0003947461980000041
式中,γ是聚类中心大小值,argmin为使目标函数f(x)取最小值时的变量值,f0(x)是初始化函数;
对m=1,2,3,…,M,M为迭代次数;
对i=1,2,3,…,N,计算梯度方向rim
Figure BDA0003947461980000042
式中,f(xi)是自变量函数,是关于xi的函数;
对rim拟合一个回归树,得到树m的叶节点区域Rjm,j=1,2,…,Jm
Figure BDA0003947461980000043
fm(x)更新迭代次数函数,更新迭代训练样本:
Figure BDA0003947461980000044
得到回归树:
f(X)=fM(x)……(10)
据此生成客户行为预测标签,将客户行为预测标签纳入并更新标签库。
进一步地,所述客户画像包括个体画像和群体画像,所述群体画像根据多个所述个体画像生成,所述群体画像包括,选一个或若干个标签,从多个所述个体画像中提取出具有某一共性的客户群体,形成某一类群体画像。
本发明的另一方面提出了一种基于大数据的电力客户标签及画像生成系统,所述电力客户标签及画像生成系统包括:
预处理模块,对电力客户大数据进行预处理;
客户标签体系模块,基于预处理后的所述电力客户大数据,构建客户标签体系;
客户标签模块,基于所述客户标签体系,生成客户标签;
客户行为预测标签,基于所述客户标签,生成客户行为预测标签;
客户画像模块,基于所述客户标签和所述客户行为预测标签,获取标签库,根据所述标签库获取客户画像。
本发明的又一方面提出了一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现所述的基于大数据的电力客户标签及画像生成方法。
本发明提供的技术方案可以包括以下有益效果:
利用大数据技术来分析客户的用电行为,生成客户画像,可以指导企业决策,同时提高客户满意度;基于大数据技术生成客户画像,可以全面、准确地量化处理电力客户数据,将客户的兴趣、特征、行为等多方面具象化数据分类描述,并在此基础上预测客户客户短期内的用电行为。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明的基于大数据的电力客户标签及画像生成方法的步骤流程图;
图2示出了根据本发明的数据核对的示意图;
图3示出了根据本发明的数据清洗的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1
图1示出了根据本发明的基于大数据的电力客户标签及画像生成方法的步骤流程图。
本实施例提供了一种基于大数据的电力客户标签及画像生成方法,该电力客户标签及画像生成方法包括如下步骤:
步骤1,对电力客户大数据进行预处理;
步骤2,基于预处理后的电力客户大数据,构建客户标签体系;
步骤3,基于客户标签体系,获取客户标签;
步骤4,基于客户标签,获取客户行为预测标签;
步骤5,基于客户标签和客户行为预测标签,获取标签库,根据标签库获取客户画像。
利用大数据技术来分析客户的用电行为,生成客户画像,可以指导企业决策,同时提高客户满意度;基于大数据技术生成客户画像,可以全面、准确地量化处理电力客户数据,将客户的兴趣、特征、行为等多方面具象化数据分类描述,并在此基础上预测客户客户短期内的用电行为。
其中,客户标签体系包括初始标签库,基本属性标签,初始行为标签,初始行为描述标签,和初始行为预测标签,基础信息一般指客户的性别、年龄、城乡户口、住址和电压等级和用电规模等信息,电力客户标签包括:行为标签、行为描述标签和基础行为预测标签主要根据电力客户的行为属性去构建,行为属性即随客户行为不断变化的时序信息,电力企业要想利用电力客户大数据辅助决策,就要识别客户发生的行为、描述行为的时序特性,并且挖掘出各个行为之间的相关性,据此实现客户分类和行为预测。需要说明的是,要将电力客户大数据转为商业价值,电力企业需要识别电力客户的某一行为的发生、描述该行为的时间特征及发现各个行为之间的相关性,进而根据客户的行为对电力客户进行分类和行为预测。因此,提出由用户基本属性标签、初始行为标签、初始行为描述标签、初始行为预测标签和分类标签组成的电力用户画像的用户标签体系。
需要说明的是,客户标签及画像生成在电力企业起着非常重要的作用,研究对电力客户服务呼叫中心、营销系统等其他方式获得的客户数据进行统计、分析,将复杂、具象的信息加工量化,形成简单的初始行为标签,同时经过K-means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签,进而建立电力客户标签库,再利用标签库的标签生成客户画像,即将数值型数据转为易于理解的语义行为标签,方便识别客户行为的发生,统计客户行为偏好等特征,预知行为发生的可能性,并根据客户行为特征对客户分类,从客户行为的角度去刻画一个客户,将客户信息结构化集中展示帮助电力企业直观、系统地认识客户。画像的种类包括个体画像和群体画像,不仅能够使电力企业利用画像结果,指导生产实践,提升服务水平,客户精益管理,实现智能营销,而且对电力企业发展具有重大意义。
其中,行为描述标签体现客户行为的时间特征、行为偏好;每个行为标签代表的行为特征可以用频次、平均值、覆盖率、偏离度、平均时间间隔、周期特征及时段偏好特征来表示:覆盖率表示某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重;行为出现平均时间间隔即行为标签出现时间间隔的平均值;偏离度即行为标签出现的时间间隔的标准差,体现客户产生某种行为的时间均匀程度,偏离度越低,则该行为有可能是一种周期性行为;周期性用来衡量客户某行为是否具有周期性;时段偏好特征表示客户行为产生的时间段偏好。上述特征均从历史态和近态来描述,突出某行为的时间特征,这些特征共同描述了客户行为的统计特征,有效刻画客户的某个行为,并作为使用机器学习模型预测拉客户行为发生和对客户进行分类的输入。
进一步地,预处理包括:
收集电力客户大数据;
对收集的电力客户大数据进行核对;
对核对后的电力客户大数据进行清洗。
其中,对电力客户大数据的核对清洗,能够有效确定所需的参数,为之后的计算做好基础准备工作。
图2示出了根据本发明的数据核对的示意图;图3示出了根据本发明的数据清洗的示意图。
如图2和图3所示,收集大数据包括从电力客户服务呼叫中心、客户用电信息档案和用电信息采集系统中进行大数据的收集;对收集的大数据从专一性、整体性、一致性和有效性四个方面进行核对;通过箱线图法对核对后的大数据进行异常值清洗。
具体地,电力客户服务呼叫中心存储了客户对电力公司的所有通话记录,包含客户的户号、住址、投诉内容等个人信息数据,其中客户用电信息档案由营销系统提供,用电信息采集系统的数据主要包括电表每日抄表数据、负荷数据变化及配变数据等;数据核对就是对不同的数据属性进行统一的规划,基于密度和距离聚类的行为标签生成方法将数据进行分词,选取有效且合理的关联字段,删除异常、无意义字段,为下一步的生成客户标签创造条件,主要从如图2所示四个方面进行核对:数据核对主要通过唯一性、完整性、一致性、有效性四个方面进行核对,唯一性具体指用户的唯一性和是否满足建模所需变量的唯一性;完整性具体指数据范围、数量和纬度的完整性;一致性具体指多源异构数据的含义一致性;有效性具体指缺失值核对和异常值核对的有效性;数据清洗主要针对数据异常值进行清洗,本申请采用箱线图法对数据异常值进行处理,如图3所示,Z为数据的中位数,A1为上分四位数,A2为下分四位数,A1至A2之间的为正常值,A2至(A2-1.5B)和A1至(1.5B+A1)的数据为温和异常值,下边缘(A2-1.5B)和上边缘(1.5B+A1)之外的数据为极端异常值,对极端宜常值和温和异常值进行清洗,直至变为正常值。
进一步地,客户标签体系包括初始标签库,基本属性标签,初始行为标签,初始行为描述标签,和初始行为预测标签,客户标签包括:行为标签、行为描述标签和基础行为预测标签,其中,通过改进的K-means聚类算法将初始行为标签、初始行为描述标签和初始行为预测标签分别转化为行为标签,行为描述标签和基础行为预测标签,改进的K-means聚类算法包括:
假设在客户标签体系中存在n个数据点{x1,x2,…,xn},通过计算得到K个初始聚类中心{y1,y2,…,yk},计算数据点与对应的初始聚类中心之间的欧式距离,获取新类别,再找出新类别中每一类的类别中心,反复迭代计算,直至满足聚类收敛条件为止;
聚类收敛条件为满足如下目标函数Qn
Figure BDA0003947461980000081
式中,ai为第i个数据点,bj为第j个聚类中心。
其中,数据点指整个客户标签体系的数据点。
算法聚类效果的优劣与K值(K值是指聚类数量的个数)、聚类收敛条件以及初始聚类中心的选择有着密切的关系。K值决定了算法能否取得优秀的聚类效果,对于K值的选取通常利用基于聚类有效性函数的方法来实现,即对K值在某一区间的聚类结果进行分析,通过聚类有效性函数评判聚类结果的优劣,以此选出最优的K值;聚类收敛条件通常利用数据点与聚类中心之间的欧式距离之和来确定;而初始聚类中心则是利用基于数据点密度的分布情况来选择,可避免算法陷入局部最优,经过重复迭代计算后,选择最优解即可。
其中,聚类有效性函数为现有函数(K-means聚类算法在分布式置换流水车间调度问题中的应用研究)。
进一步地,对初始行为描述标签进行聚类前,还需先对初始行为描述标签进行离散化处理行为发生的时间特征,将时间特征分层,进而对行为的频次、频率及行为产生的时间间隔进行聚类:
客户u在某个时间段的行为标签at的覆盖率用CreateRatio表示为:
Figure BDA0003947461980000091
式中,sum(atj,u)ET-ST为客户u某类业务行为的行为标签j在某个时间段发生的次数总和;ET-ST为统计的时间长度;
行为标签出现的时间间隔用d表示,则行为出现平均时间间隔average(d)为:
Figure BDA0003947461980000092
偏离度BalanceRatioat,u为:
Figure BDA0003947461980000093
如果某行为标签没有周期性,则用0表示,若有周期性则用其周期时间间隔d表示。
进一步地,客户u的行为标签在某段时间内出现的时间距离为d1,d2,…,dk,对时间距离划分出n个区间,形成n个等级d1,d2,…,dn,如果sum(di,u)表示客户u的行为标签间隔di出现的次数,则周期性period(at,u)的计算公式为:
Figure BDA0003947461980000094
式中,
Figure BDA0003947461980000095
是存在,
Figure BDA0003947461980000096
是针对所有,如果客户u某行为标签发生在该时间段的次数占行为发生总次数的60%,则该行为具有时间段偏好。
其中,对客户行为的各个时间特征进行单维度的离散化,对行为的各个时间特征划分层级;对行为的频次、覆盖率及平均时间间隔进行聚类,根据专家经验定义每个类簇,描述行为的偏好;对行为的偏离度聚类得到的标签用于描述行为的时间间隔均匀程度;使用时段区间名称作为行为时段频率特征的标签。
进一步地,将基础行为预测标签采用梯度提升树算法构建行为预测标签为:
输入:T={(x1,y1),(x2,y2),…,(xN,yN)},xi,yi∈R,T为从基础行为预测标签中选取的训练样本数据集,x为自变量,为客户的行为标签数据,y为因变量,是行为预测标签的数据结果,N为数据集大小;
对每一个样本进行初始化:
Figure BDA0003947461980000101
式中,γ是聚类中心大小值,argmin为使目标函数f(x)取最小值时的变量值,f0(x)是初始化函数;
对m=1,2,3,…,M,M为迭代次数;
对i=1,2,3,…,N,计算梯度方向rim
Figure BDA0003947461980000102
式中,f(xi)是自变量函数,是关于xi的函数;
对rim拟合一个回归树,得到树m的叶节点区域Rjm,j=1,2,…,Jm
Figure BDA0003947461980000103
fm(x)更新迭代次数函数,更新迭代训练样本:
Figure BDA0003947461980000104
得到回归树:
f(x)=fM(x)……(10)
据此生成客户行为预测标签,将客户行为预测标签纳入并更新标签库。
其中,f(xi)是假设的。
其中,:电力客户画像的构建涉及客户行为的预测问题本申请主要采用梯度提升树算法来构建行为预测模型:梯度提升树算法(Gradient Boosting)其实是一个框架,可以套入各种不同的分类算法,通过不断迭代改进上一次分类结果来提高分类准确度,它的基本思想是通过构建M个弱分类器,经过多次迭代最终组合而成一个强分类器,传统的提升方法(Boosting)是在算法开始的时候,为每一个样本初始化一个相同的权重,对训练样本进行迭代,每一次迭代结果提高分类错误训练样本的权重,降低分类正确的训练样本权重,进行N轮迭代后得到N个分类器,最后将其组合起来。Gradient Boosting的每一次计算是为了减少上一次的残差,通过在残差减少的梯度方向上建立一个新的分类器。
需要说明的是,电力客户行为画像标签主要包含电力客户两类重要信息:静态属性信息和动态行为信息。静态属性信息为电力客户较为稳定的信息,如电压等级、用电规模和行业等;动态行为属性即客户不断变化的行为信息,例如增容行为、违约行为及缴费行为等,这些行为的发生时间和行为变化量是不断改变的,要将电力客户数据转为商业价值,电力企业需要识别电力客户某一行为的发生、描述该行为的时间特征及发现各个行为之间的相关性,进而根据行为对电力客户进行分类和行为预测。因此,提出由客户基本属性标签、行为标签、行为描述标签和行为预测标签组成的电力用户画像的用户标签体系。
进一步地,客户画像包括个体画像和群体画像,群体画像根据多个个体画像生成,群体画像包括,选一个或若干个标签,从多个个体画像中提取出具有某一共性的客户群体,形成某一类群体画像。
需要说明的是,个体画像是对某个具体客户的数据分析后,生成该客户的个体画像,以标签化的形式来展现该客户的基础属性、行为特征,电力企业可以根据该个体画像快速了解客户行为偏好,适用于对个人进行电力业务的个性化推荐;群体画像是基于个体画像获取,可利用矩阵分析法实现客户画像的细分,从电力客户大数据中筛选一个或若干标签,提取出具有某一共性的客户群体,形成某一类群体画像,据此,电力企业可以直观地观察出一类客户特征,并针对这一类客户提供差异化服务、针对性营销等辅助决策,为企业运营提供帮助,提升电力企业服务质量与供电质量,同时提高客户满意度与用电感知。
实施例2
本实施例提供了一种基于大数据的电力客户标签及画像生成系统,该电力客户标签及画像生成系统包括:
预处理模块,对电力客户大数据进行预处理;
客户标签体系模块,基于预处理后的电力客户大数据,构建客户标签体系;
客户标签模块,基于客户标签体系,生成客户标签;
客户行为预测标签,基于客户标签,生成客户行为预测标签;
客户画像模块,基于客户标签和客户行为预测标签,获取标签库,根据标签库获取客户画像。
利用大数据技术来分析客户的用电行为,生成客户画像,可以指导企业决策,同时提高客户满意度;基于大数据技术生成客户画像,可以全面、准确地量化处理电力客户数据,将客户的兴趣、特征、行为等多方面具象化数据分类描述,并在此基础上预测客户客户短期内的用电行为。
实施例3
本实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现实施例1的基于大数据的电力客户标签及画像生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能步骤。
最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在发明待批的权利要求保护范围之内。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于大数据的电力客户标签及画像生成方法,其特征在于,所述电力客户标签及画像生成方法包括如下步骤:
对电力客户大数据进行预处理;
基于预处理后的所述电力客户大数据,构建客户标签体系;
基于所述客户标签体系,生成客户标签;
基于所述客户标签,生成客户行为预测标签;
基于所述客户标签和所述客户行为预测标签,获取标签库,根据所述标签库获取客户画像。
2.根据权利要求1所述的基于大数据的电力客户标签及画像生成方法,其特征在于,所述预处理包括:
收集所述电力客户大数据;
对收集的所述电力客户大数据进行核对;
对核对后的所述电力客户大数据进行清洗。
3.根据权利要求2所述的基于大数据的电力客户标签及画像生成方法,其特征在于,收集所述电力客户大数据包括从电力客户服务呼叫中心、客户用电信息档案和用电信息采集系统中进行所述大数据的收集;对收集的所述电力客户大数据从专一性、整体性、一致性和有效性四个方面进行核对;通过箱线图法对核对后的所述电力客户大数据进行异常值清洗。
4.根据权利要求1所述的基于大数据的电力客户标签及画像生成方法,其特征在于,所述客户标签体系包括初始标签库,基本属性标签,初始行为标签,初始行为描述标签,和初始行为预测标签,所述客户标签包括:行为标签、行为描述标签和基础行为预测标签,其中,通过改进的K-means聚类算法将所述初始行为标签、所述初始行为描述标签和所述初始行为预测标签分别转化为所述行为标签,所述行为描述标签和所述基础行为预测标签,改进的所述K-means聚类算法包括:
假设在所述客户标签体系中存在n个数据点{x1,x2,...,xn},通过计算得到K个初始聚类中心{y1,y2,...,yk},计算所述数据点与对应的所述初始聚类中心之间的欧式距离,获取新类别,再找出所述新类别中每一类的类别中心,反复迭代计算,直至满足聚类收敛条件为止;
所述聚类收敛条件为满足如下目标函数Qn
Figure FDA0003947461970000021
式中,ai为第i个数据点,bj为第j个聚类中心。
5.根据权利要求4所述的基于大数据的电力客户标签及画像生成方法,其特征在于,对所述初始行为描述标签进行聚类前,还需先对所述初始行为描述标签进行离散化处理行为发生的时间特征,将时间特征分层,进而对行为的频次、频率及行为产生的时间间隔进行聚类:
客户u在某个时间段的所述行为标签at的覆盖率用CreateRatio表示为:
Figure FDA0003947461970000022
式中,sum(atj,u)ET-ST为客户u某类业务行为的行为标签j在某个时间段发生的次数总和;ET-ST为统计的时间长度;
所述行为标签出现的时间间隔用d表示,则行为出现平均时间间隔average(d)为:
Figure FDA0003947461970000023
偏离度BalanceRatioat,u为:
Figure FDA0003947461970000024
如果某行为标签没有周期性,则用0表示,若有周期性则用其周期时间间隔d表示。
6.根据权利要求5所述的基于大数据的电力客户标签及画像生成方法,其特征在于,客户u的所述行为标签在某段时间内出现的时间距离为d1,d2,···,dk,对时间距离划分出n个区间,形成n个等级d1,d2,···,dn,如果sum(di,u)表示客户u的所述行为标签间隔di出现的次数,则周期性period(at,u)的计算公式为:
Figure FDA0003947461970000031
式中,
Figure FDA0003947461970000032
是存在,
Figure FDA0003947461970000033
是针对所有,如果客户u某行为标签发生在该时间段的次数占行为发生总次数的60%,则该行为具有时间段偏好。
7.根据权利要求4所述的基于大数据的电力客户标签及画像生成方法,其特征在于,将所述基础行为预测标签采用梯度提升树算法构建所述行为预测标签为:
输入:T={(x1,y1),(x2,y2),···,(xN,yN)},xi,yi∈R,T为从所述基础行为预测标签中选取的训练样本数据集,x为自变量,为客户的行为标签数据,y为因变量,是行为预测标签的数据结果,N为数据集大小;
对每一个样本进行初始化:
Figure FDA0003947461970000034
式中,γ是聚类中心大小值,argmin为使目标函数f(x)取最小值时的变量值,f0(x)是初始化函数;
对m=1,2,3,...,M,M为迭代次数;
对i=1,2,3,...,N,计算梯度方向rim
Figure FDA0003947461970000035
式中,f(xi)是自变量函数,是关于xi的函数;
对rim拟合一个回归树,得到树m的叶节点区域Rjm,j=1,2,…,Jm
Figure FDA0003947461970000041
fm(x)更新迭代次数函数,更新迭代训练样本:
Figure FDA0003947461970000042
得到回归树:
f(x)=fM(x)……(10)
8.根据权利要求1所述的基于大数据的电力客户标签及画像生成方法,其特征在于,所述客户画像包括个体画像和群体画像,所述群体画像根据多个所述个体画像生成,所述群体画像包括,选一个或若干个标签,从多个所述个体画像中提取出具有某一共性的客户群体,形成某一类群体画像。
9.一种基于大数据的电力客户标签及画像生成系统,其特征在于,所述电力客户标签及画像生成系统包括:
预处理模块,对电力客户大数据进行预处理;
客户标签体系模块,基于预处理后的所述电力客户大数据,构建客户标签体系;
客户标签模块,基于所述客户标签体系,生成客户标签;
客户行为预测标签,基于所述客户标签,生成客户行为预测标签;
客户画像模块,基于所述客户标签和所述客户行为预测标签,获取标签库,根据所述标签库获取客户画像。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于大数据的电力客户标签及画像生成方法。
CN202211437497.4A 2022-11-17 2022-11-17 基于大数据的电力客户标签及画像生成方法及系统 Pending CN115760207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211437497.4A CN115760207A (zh) 2022-11-17 2022-11-17 基于大数据的电力客户标签及画像生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211437497.4A CN115760207A (zh) 2022-11-17 2022-11-17 基于大数据的电力客户标签及画像生成方法及系统

Publications (1)

Publication Number Publication Date
CN115760207A true CN115760207A (zh) 2023-03-07

Family

ID=85372288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211437497.4A Pending CN115760207A (zh) 2022-11-17 2022-11-17 基于大数据的电力客户标签及画像生成方法及系统

Country Status (1)

Country Link
CN (1) CN115760207A (zh)

Similar Documents

Publication Publication Date Title
Chitra et al. Customer retention in banking sector using predictive data mining technique
Abdi et al. Customer Behavior Mining Framework (CBMF) using clustering and classification techniques
CN112381154A (zh) 预测用户概率的方法、装置和计算机设备
CN117151870B (zh) 一种基于客群画像行为分析方法及系统
Li et al. RETRACTED ARTICLE: Data mining optimization model for financial management information system based on improved genetic algorithm
CN116402512A (zh) 一种基于人工智能的账户安全排查管理方法
Alizadeh et al. Development of a customer churn model for banking industry based on hard and soft data fusion
Sun et al. Using improved RFM model to classify consumer in big data environment
CN117271905B (zh) 基于人群画像的侧向需求分析方法及系统
CN114493686A (zh) 一种运营内容生成推送方法及装置
Wang et al. Modeling of individual customer delivery satisfaction: An AutoML and multi-agent system approach
de Sá et al. Algorithm recommendation for data streams
CN115760207A (zh) 基于大数据的电力客户标签及画像生成方法及系统
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
CN113850609A (zh) 一种客户管理系统、方法、计算机设备和存储介质
Offiong et al. Predicting failures in electronic water taps in rural sub-Saharan African communities: an LSTM-based approach
Khansong et al. Customer Service Improvement based on Electricity Payment Behaviors Analysis using Data Mining Approaches
Johansson et al. Customer segmentation using machine learning
Kumaran et al. A Machine and Deep Learning Framework to Retain Customers Based on Their Lifetime Value
Ramos et al. Data Mining Techniques Applied to Power Systems
Tripathy et al. Rough set-based attribute reduction and decision rule formulation for marketing data
Jena et al. A study of predictive analysis through machine learning for data security
Aravind et al. DEVELOPMENT OF AN EFFICIENT DEEP LEARNING SYSTEM FOR AUTOMATIC PREDICTION OF POWER DEMAND BASED ON THE FORECASTING OF POWER DISTRIBUTION.
Nagaraju et al. Predicting Customer Churn in Insurance Industry Using Big Data and Machine Learning
Deshmukh et al. Risky business: Predicting cancellations in imbalanced multi-classification settings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination