CN110826886A - 一种基于聚类算法和主成分分析的电力客户画像构建方法 - Google Patents
一种基于聚类算法和主成分分析的电力客户画像构建方法 Download PDFInfo
- Publication number
- CN110826886A CN110826886A CN201911037172.5A CN201911037172A CN110826886A CN 110826886 A CN110826886 A CN 110826886A CN 201911037172 A CN201911037172 A CN 201911037172A CN 110826886 A CN110826886 A CN 110826886A
- Authority
- CN
- China
- Prior art keywords
- attribute
- index
- evaluation
- power customer
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 24
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 23
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 98
- 230000005611 electricity Effects 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012423 maintenance Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 238000012847 principal component analysis method Methods 0.000 description 3
- 238000012271 agricultural production Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000005612 types of electricity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Water Supply & Treatment (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于聚类算法和主成分分析的电力客户画像构建方法,方法包括以下步骤:选取影响电力客户交易的信息作为评价电力客户的属性;根据各属性所属不同的评价指标,对所有属性进行划分将其划分为对应所属的评价指标下;将属于连续性的属性基于聚类算法进行再分级,并确定属性下各个再分级的权值;基于主成分分析算法确定评价指标及其属性权重;根据电力客户的属性数据和评价指标、属性和再分级的权值,计算电力客户的综合评价得分,形成电力客户画像。本发明选取评价电力客户的各属性构成评价体系,并确定权重以便得到客户评分和等级,形成电力客户画像。
Description
技术领域
本发明属于电力系统技术领域,具体涉及一种基于聚类算法和主成分分析的电力客户画像构建方法。
背景技术
随着电力体制改革的进一步推进,售电侧的改革允许符合条件的发电企业投资组建售电公司,这样有利于延伸发电企业产业链,形成发售一体,优化资源配置战略布局,获得新的利润增长点。在电力市场下,售电公司逐渐成为市场主体成员,为电力客户提供专业化的售电服务以及增值服务。传统的电力销售是统购统销模式,发电企业的营销体系、营销人才、营销信息化工具的都比较薄弱,已经逐渐无法适应电力市场特别是电力现货市场中电力营销的需求。此外,随着大数据、云计算技术的不断发展,电力营销系统积累了海量的电力数据,但这些数据尚未被有效挖掘其中的价值。
客户画像是客户信息标签化的体现,通过客户画像分类,能够快速区分无价值客户,高价值用户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同的营销策略,将有限的营销资源集中于高价值客户,实现企业利润最大化目标。因此,利用大数据分析技术,构建更符合电力客户的用户画像,深入掌握用户行为进而制定精准营销策略和提供差异化服务,成为售电公司提升在市场竞争中的优势,提高客户满意度的关键。
然而,在电力行业,电力营销尚未形成完整的营销体系,还未形成针对电力客户的价值评价体系,亟需使用数据挖掘技术进行大数据分析,构建电力客户画像,实现精细化营销。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于聚类算法和主成分分析的电力客户画像构建方法,选取评价电力客户的各属性构成评价体系,并确定权重以便得到客户评分和等级,形成电力客户画像。
为解决上述技术问题,本发明提供了一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,包括以下步骤:
获取电力客户的详细信息,从中选取影响电力客户交易的信息作为评价电力客户的属性;
根据各属性所属不同的评价指标,对所有属性进行划分将其划分为对应所属的评价指标下;
将所有属性中属于连续性的属性基于聚类算法进行再分级,并确定属性下各个再分级的权值;
基于主成分分析算法确定评价指标及其属性权重;
根据电力客户的属性数据和评价指标、属性和再分级的权值,计算电力客户的综合评价得分,形成电力客户画像。
进一步的,所述评价电力客户的属性包括:
客户日负荷、电压等级、用电性质、月度实际用电量、月度计划网购用电量、月度申报量、用户年度申报量、是否通过微信公众平台签约、是否办理增值服务、已签约年份和再次签约年份。
进一步的,还包括根据月度计划网购电量、月度申报电量和月度实际用电量,计算平均事前偏差率、累计实际偏差率以及负偏差累计次数作为新的属性元素,计算公式分别为:
平均事前偏差率=∑(|(月度计划网购电量-月度申报电量)/月度申报电量)/月份
累计实际偏差率=∑(|(月度实际用电量-月度申报电量)/月度申报电量)/月份
负偏差累计次数=(月度实际用电量-月度申报电量)<0或偏差率<0的次数
将平均事前偏差率、累计实际偏差率以及负偏差累计次数作为新的属性。
进一步的,还包括根据评价电力客户属性与评价结果之间的互信息,保留互信息值大的属性,删除互信息值小的属性。
进一步的,所述评价指数包括:企业指数、信用指数、风险指数、交易指数和运维指数,将电压等级和用电性质属性划分为企业指数,平均事前偏差率属性划分为信用指数,累计实际偏差率、负偏差累计次数属性划分为风险指数,用户年度申报量、是否通过微信公众平台签约、已签约年份、再次签约年份属性划分为交易指数,是否办理增值服务属性划分为运维指数。
进一步的,所述确定属性下各个再分级的权值,包括:
属性下各个再分级的权值为再分级每一类中用户数占总用户的比重。
进一步的,所述根据电力客户的属性数据和评价指标、属性和再分级的权值,计算电力客户的综合评价得分,包括:
根据电力客户的属性数据和评价指标、属性和再分级的权值,按再分级、属性到评价指标从下往上进行计算得到电力客户的最终评价得分。
进一步的,所述按再分级、属性到评价指标从下往上进行计算得到电力客户的最终评价得分,包括:
以企业指数为例,首先获取用户电压数值和用电性质数值,根据用户电压数值判断电力客户属于评价体系第三层中哪个电压范围,之后将用户电压数值乘以其所属电压范围的权重,再乘以评价体系第二层中电压等级的属性权重,将此计算结果记为结果1,然后根据用电性质数值判断电力客户属于评价体系第三层中哪个用电性质再分级,之后将用电性质数值乘以其所属用电性质再分级的权重,再乘以评价体系第二层中用电性质的属性权重,将此计算结果记为结果2,将结果1和结果2相加后再乘以评价体系第一层中企业指数权重,最终得到结果作为企业指数的得分,此得分即作为企业指数的评价得分;
将所有评价指标都进行上述计算得到各评价指标的得分,所有得分累加和即为此用户的最终评价得分。
与现有技术相比,本发明所达到的有益效果是:本发明方法提出了一种针对电力客户数据,构建用户画像的方法,利用互信息的方法对客户进行特征选择,构造出偏差率、累计偏差次数等更能够影响客户类别的新属性;能够通过K-means++方法进行用户电压和年用电量等的分级,实现了数据自动分类,而不是人为地进行分段;并提供了一种客观的计算各属性权重的主成分分析方法,以便得到客户评分和等级,对客户进行分级。这种方法的提出有助于售电公司充分利用历史的客户信息,得到不同价值的客户,且使用客观的方式得到客户评分,为营销提供参考价值,实现精准营销和定制服务。
附图说明
图1表示构建电力客户画像的总流程;
图2表示本文的电力客户评价体系;
图3表示K-means++聚类算法的具体实现流程。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的一种基于聚类算法和主成分分析的电力客户画像构建方法,参见图1所示,具体的包括以下内容:
步骤(1)获取电力客户的详细信息,从中选取影响电力客户交易的数据信息作为评价电力客户的属性。
该步骤主要目的是进行数据源的采集与预处理,为下一步分析工作提供支持。
从数据源提取目前系统内的一段时间的有交易记录的所有电力客户的详细数据形成历史数据,主要包括企业的基础信息、交易信息、用电信息及其他外界数据类型。并对这些详细数据进行数据预处理,删除缺失值和异常值。从这些数据中,先主观筛选现有数据中影响用户交易的数据信息作为评价电力客户的属性,整理得出:
基础信息:客户名称、客户所在地;
用电信息:客户日负荷(衡量是否用电使用正常)、电压等级(衡量电量使用程度)、用电性质(用来区分大中小用户,包括农业生产用电、一般工商业及其他用电、大工业用电)、月度实际用电量;
交易信息:月度计划网购用电量、月度申报量、用户年度申报量、是否通过微信公众平台签约、是否办理增值服务、已签约年份、再次签约年份。
步骤(2)对评价电力客户的属性进行分类得到多个评价指标,评价指标及其对应的属性构成电力客户评价体系。
该步骤主要目的是预处理的属性元素进行特征化,得到新的属性集合并分类,得到电力客户评价体系。
首先将步骤(1)中得到的数据信息转换成数值格式以便公式计算,比如,是否办理增值服务,将“是”转换成1,“否”转换成0;用电性质,将农业生产用电记为“1”,一般工商业及其他用电记为“2”,大工业用电记为“3”。
由于售电公司存在用户信用风险、用户购买电量与实际电量偏差较大的风险,所以需要根据购电量和实际电量构造必要的新属性,使得新的属性更能影响用户的信用得分结果。本发明中根据月度计划网购电量、月度申报电量和月度实际用电量,结合实际业务流程,提出平均事前偏差率、累计实际偏差率以及负偏差累计次数作为新的属性元素,计算公式分别为:
平均事前偏差率=∑(|(月度计划网购电量-月度申报电量)/月度申报电量)/月份
累计实际偏差率=∑(|(月度实际用电量-月度申报电量)/月度申报电量)/月份
负偏差累计次数=(月度实际用电量-月度申报电量)<0或偏差率<0的次数
为了选择出与用户评价更相关的属性,提出一种基于互信息的特征选择方法,互信息表示两个变量之间是否有关系,以及关系的强弱。首先将所有用户进行客户价值高低的人为标注,价值高标注为1,价值低标注为0,之后计算每个属性与标注类别之间的互信息,互信息的公式为:
X是属性,Y是人为标注的目标,p(X,Y)表示X和Y的联合概率密度函数,p(X)和p(Y)分别表示X和Y的边缘概率密度函数。如果互信息值越大,说明相关性越强,保留属性,否则剔除属性。
最终,按照售电市场机制来看,分析出客户进行交易过程中会有信用交易、考核风险等其他因素,按照具有明确经济物理意义且可用于数据分析的评价指数对新的属性集合进行分类,其中电压等级和用电性质属性划分为企业指数,平均事前偏差率划分为信用指数,累计实际偏差率、负偏差累计次数划分为风险指数,用户年度申报量、是否通过微信公众平台签约、已签约年份、再次签约年份属性划分为交易指数,是否办理增值服务划分为运维指数。最终得到评价指数包括:企业指数、信用指数、风险指数、交易指数和运维指数。这些指数主要为后续用户画像雷达图提供指标分类展示,并且可根据属性数量的增加和变化进行评价指数更新。根据这些评价指数和属性,建立电力客户评价体系如图2的属性层和评价指标层。
步骤(3)基于K-means++算法的用户再分级。
该步骤主要目的是为了更好地对用户进行分类并评分,将非类别性的连续性属性值按照K-means++算法自动进行数据分类得到再分级层,作为电力客户评价体系的第三层;并计算出聚类后各类别的权重,为最终计算用户的总体评价得分做准备。
用户属性中有诸如用户电压等级、用户年度申报电量、偏差率等属于连续属性,难以进行再一次的人为分级,为了更好地将用户进行分级,提出使用K-means++进行再细分,将用户分成不同的电压等级范围,不同的年用电量范围等。
由于传统的K-means算法的分类结果会受到初始点的选取而有很大区别,所以本发明使用K-means的改进K-means++算法。
K-means++算法的具体步骤,参见图3所示,包括:
1)从数据集中随机选取一个样本作为初始聚类中心C1;
2)首先计算每个样本与当前已有聚类中心之间的最短距离(即与最近的一个聚类中心的距离),用D(x)表示,接着计算每个样本被选为下一个聚类中心的概率D(x)2为距离的平方。最后,按照轮盘赌法选择出下一个聚类中心;
3)重复第2步直到选择出了K个聚类中心;
4)进行迭代,针对数据集中每个样本,计算其到K个聚类中心的欧式距离d,并将其分到距离最小的聚类中心所对应的类中;
5)针对每个类别,计算该类所有样本的平均值作为该类新的聚类中心,并计算代价函数,代价函数是簇中所有对象与中心的误差的平方和;
6)重复第4步和第5步,直到代价函数收敛或者达到迭代次数,则迭代过程结束,本次聚类过程结束。
以用户电压(电压等级)为例,假设一共有n个用户,共有n条用户电压数据,进行K-means++聚类。为了更好地确定合适的聚类个数K,使用轮廓系数和代价函数并绘制折线图确定。轮廓系数是簇的密集与分散程度的反应,轮廓系数的公式为:S=(b-a)/max(a,b),其中a是单个样本离同类簇所有样本的距离的平均数,b是单个样本到不同簇所有样本的平均。设置迭代聚类数目K的取值范围2-10,以K为横坐标,轮廓系数和代价函数为纵坐标,绘制两个折线图,选取轮廓系数较高同时代价函数较小的K值作为最佳的聚类中心数目。最终将n条数据分为K类,类别分别记为电压范围一、电压范围二、……电压范围K,得到每一类中的最小用户电压Vmin,最大用户电压Vmax,Vmin~Vmax为每一电压级别的范围。也就是说对电压等级属性进行数据分类得到再分级层(电压范围一、电压范围二、……电压范围K),此再分级层作为电力客户评价体系的第三层,具体参见图2所示。
其余连续属性与电压等级相似处理过程,到此处实现了每一个连续属性下用户的再分级。为了最终能够计算得到更精准的客户评分,再分级后的每一个级别需要有级别权重,以衡量级别高低。级别权重用聚类后每一类中用户数占总用户的比重表示。
以用户电压为例,假设用户电压下每一级别的数目为{num1,num2,…,numK},那么第i级别的级别权重表示为该值随着用户数据定期更新。其他离散型即类别型属性,如用电性质有3类,那么其权重同样使用每类用户数占总用户的比值来代表该类权重。
步骤(4)确定属性与评价指数的权重
由于评价指标包括多个属性元素,该步骤通过主成分分析方法对属性权重和评价指标权重进行最终确定,为后续客户评分的计算提供支持。为了避免人为确定权重的主观性、消除指数样本间的相互关系以及在分析过程中得到主要指数的合理权重,使用主成分分析法来确定属性及评价指数的权重分配。主成分分析是一种多元统计方法,根据样本数据分析,客观地确定权重向量。该方法通过考虑各指数间的相互关系,将多个指标变量在信息损失量最小的情况下转化为少数综合指标变量,其实质是将多维坐标系按方差最大的原则进行旋转、翻转及平移变换,最终实现将原始指标变量聚类化简并降低其维度的目的。本发明借用主成分分析的方法来确定各属性的权重以及各评价指标的权重。
主成分分析的数学模型为:设有n条样本,每个样本有p个属性,得到原始数据矩阵X:
(1)Fi与Fj(i≠j,i,j=1,2,…,p)不相关;
(2)F1是X1,X2,…,Xp的上述线性组合情况中方差最大的,F2是与F1不相关的X1,X2,…,Xp的一切线性组合中方差最大的,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。
为了求解上述要求的方程组系数aij,在数学上可以变为求解方程组中的系数向量,即矩阵的特征值及其相应的单位特征向量的问题,那么主成分分析求解问题的主要计算步骤如下:
1)将原始数据写成矩阵,需要保证原始数据矩阵X的p个属性正相关,如果是负相关,需要进行相应的转化,可用(1-负相关)来代替。
2)将原始数据标准化。
3)建立属性间的相关系数矩阵:R=(rij)p×p不妨设R=X′X。
4)求R的特征值λ1≥λ2≥…≥λp>0及其相应的单位特征向量:
5)根据特征向量写出p个主成分关系式:Fi=a1iX1+a2iX2+…+apiXp,i=1,2,…,p
6)计算主成分(特征值)的方差贡献率及前m个主成分的累计方差贡献率选取累计贡献率大于某阈值(一般范围定为75%~85%,该值可根据实际业务情况设定)的前几个主成分作为此评价指标的新属性,累计贡献率较小的属性进行淘汰。利用主成分代替原始的属性集,达到了降维的作用。
本发明借助主成分分析的计算方式,进而计算评价指标与其属性的权重,以企业指数为例,其下面有电压等级和用电性质等其他影响企业指数的属性。此时,计算企业指数与其属性之间权重的过程为:
a.将电压等级和用电性质等属于企业指数的特征属性作为本次主成分分析的属性,组成原始矩阵X1,X2,…,Xp,并进行标准化处理;
b.建立属性互相之间的相关系数矩阵R;
c.求相关系数矩阵R的特征值、特征向量和方差贡献率;
d.如果前几个特征值累计贡献率已经达到某阈值,说明前几个主成分包含了全部属性的信息,取前几个主成分作为企业指数的新属性;
假设经过累计贡献率的筛选,保留电压等级和用电性质两个属性,得到第一个主成分F1=a11X1+a21X2,那么用a11和a21分别作为电压等级和用电性质的权重。主成分F1的方差贡献率作为企业指数的权重。
借鉴主成分分析的计算方法,本发明其他评价指数的属性的权重也用特征向量值表示。那么各评价指数的权重可以用指数下对应的主成分Fi的方差贡献率wi来表示。
步骤(5)计算用户得分和评级。
根据上述方法得到的评价指标及属性的权重后,本发明使用线性加权评分进行计算得到电力客户的最终评价得分。线性加权主要是按评价体系从下往上进行计算。
以企业指数为例,首先获取用户电压数值和用电性质数值,根据用户电压数值判断电力客户属于评价体系第三层中哪个电压范围,之后将用户电压数值乘以其所属电压范围的权重,再乘以评价体系第二层中电压等级的属性权重,将此计算结果记为结果1,然后根据用电性质数值判断电力客户属于评价体系第三层中哪个用电性质再分级,之后将用电性质数值乘以其所属用电性质再分级的权重,再乘以评价体系第二层中用电性质的属性权重,将此计算结果记为结果2,将结果1和结果2相加后再乘以评价体系第一层中企业指数权重,最终得到结果作为企业指数这一分支的得分,此得分即作为企业指数的评价得分。将评价体系中所有评价指标的分支都进行上述计算得到各评价指标的得分(可通过系统雷达图展示各评价指标及其得分)。所有得分累加和即为此用户的最终评价得分。
将电力用户的最终评价得分归一化到评分区间为[10,100]。通过考虑信用、风险、交易等因素,将用户级别设为低级、中级、高级三类,并设定评分区间[10,40)属于低级,[40,70)属于中级,[70,100]属于高级,根据电力用户的最终评价得分划分其所属的用户级别,并对不同用户级别给出不同的营销建议:
(1)高级:客户粘性以及信用较好,可适当再给予优惠;
(2)中级:需营销活动记录,把握客户粘性;
(3)低级:需要把控偏差问题,定期进行营销跟踪,情节严重的不给予特殊优惠高级。
本发明构建了电力客户评价标签体系,设计了评价指标,使用K-means++方法,对用电压等级、用户年度电量等连续性属性进一步聚类,细分标评价体系,结合主成分分析的评价方法确定各属性和评价指数的权重,最终得到电力客户的评分等级,进而形成有助于营销的用户画像。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (8)
1.一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,包括以下步骤:
获取电力客户的详细信息,从中选取影响电力客户交易的信息作为评价电力客户的属性;
根据各属性所属不同的评价指标,对所有属性进行划分将其划分为对应所属的评价指标下;
将所有属性中属于连续性的属性基于聚类算法进行再分级,并确定属性下各个再分级的权值;
基于主成分分析算法确定评价指标及其属性权重;
根据电力客户的属性数据和评价指标、属性和再分级的权值,计算电力客户的综合评价得分,形成电力客户画像。
2.根据权利要求1所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,所述评价电力客户的属性包括:
客户日负荷、电压等级、用电性质、月度实际用电量、月度计划网购用电量、月度申报量、用户年度申报量、是否通过微信公众平台签约、是否办理增值服务、已签约年份和再次签约年份。
3.根据权利要求2所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,还包括根据月度计划网购电量、月度申报电量和月度实际用电量,计算平均事前偏差率、累计实际偏差率以及负偏差累计次数作为新的属性元素,计算公式分别为:
平均事前偏差率=∑(|(月度计划网购电量-月度申报电量)/月度申报电量|)/月份
累计实际偏差率=∑(|(月度实际用电量-月度申报电量)/月度申报电量|)/月份
负偏差累计次数=(月度实际用电量-月度申报电量)<0或偏差率<0的次数
将平均事前偏差率、累计实际偏差率以及负偏差累计次数作为新的属性。
4.根据权利要求1所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,还包括根据评价电力客户属性与评价结果之间的互信息,保留互信息值大的属性,删除互信息值小的属性。
5.根据权利要求3所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,所述评价指数包括:企业指数、信用指数、风险指数、交易指数和运维指数,将电压等级和用电性质属性划分为企业指数,平均事前偏差率属性划分为信用指数,累计实际偏差率、负偏差累计次数属性划分为风险指数,用户年度申报量、是否通过微信公众平台签约、已签约年份、再次签约年份属性划分为交易指数,是否办理增值服务属性划分为运维指数。
6.根据权利要求1所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,所述确定属性下各个再分级的权值,包括:
属性下各个再分级的权值为再分级每一类中用户数占总用户的比重。
7.根据权利要求1所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,所述根据电力客户的属性数据和评价指标、属性和再分级的权值,计算电力客户的综合评价得分,包括:
根据电力客户的属性数据和评价指标、属性和再分级的权值,按再分级、属性到评价指标从下往上进行计算得到电力客户的最终评价得分。
8.根据权利要求7所述的一种基于聚类算法和主成分分析的电力客户画像构建方法,其特征是,所述按再分级、属性到评价指标从下往上进行计算得到电力客户的最终评价得分,包括:
以企业指数为例,首先获取用户电压数值和用电性质数值,根据用户电压数值判断电力客户属于评价体系第三层中哪个电压范围,之后将用户电压数值乘以其所属电压范围的权重,再乘以评价体系第二层中电压等级的属性权重,将此计算结果记为结果1,然后根据用电性质数值判断电力客户属于评价体系第三层中哪个用电性质再分级,之后将用电性质数值乘以其所属用电性质再分级的权重,再乘以评价体系第二层中用电性质的属性权重,将此计算结果记为结果2,将结果1和结果2相加后再乘以评价体系第一层中企业指数权重,最终得到结果作为企业指数的得分,此得分即作为企业指数的评价得分;
将所有评价指标都进行上述计算得到各评价指标的得分,所有得分累加和即为此用户的最终评价得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037172.5A CN110826886A (zh) | 2019-10-29 | 2019-10-29 | 一种基于聚类算法和主成分分析的电力客户画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037172.5A CN110826886A (zh) | 2019-10-29 | 2019-10-29 | 一种基于聚类算法和主成分分析的电力客户画像构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826886A true CN110826886A (zh) | 2020-02-21 |
Family
ID=69551033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911037172.5A Pending CN110826886A (zh) | 2019-10-29 | 2019-10-29 | 一种基于聚类算法和主成分分析的电力客户画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826886A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754116A (zh) * | 2020-06-24 | 2020-10-09 | 国家电网有限公司大数据中心 | 一种基于标签画像技术的信用评估方法及装置 |
CN111784204A (zh) * | 2020-07-28 | 2020-10-16 | 南方电网能源发展研究院有限责任公司 | 一种基于用户用电行为画像的优质用户挖掘方法及系统 |
CN112580928A (zh) * | 2020-11-19 | 2021-03-30 | 河北电力交易中心有限公司 | 用电量偏差范围的合理度评价方法、装置及终端设备 |
CN112686491A (zh) * | 2020-10-30 | 2021-04-20 | 国网浙江省电力有限公司台州供电公司 | 一种基于用电行为的企业电力数据分析方法 |
CN113284007A (zh) * | 2021-05-27 | 2021-08-20 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
CN114219241A (zh) * | 2021-12-01 | 2022-03-22 | 深圳供电局有限公司 | 一种客户用电行为分析方法及系统 |
CN114219245A (zh) * | 2021-12-02 | 2022-03-22 | 国网浙江省电力有限公司 | 基于大数据的乡村电力指数评价方法、装置及存储介质 |
CN114418269A (zh) * | 2021-11-30 | 2022-04-29 | 哈尔滨工业大学 | 一种工业机器人安全评价指标构建方法 |
-
2019
- 2019-10-29 CN CN201911037172.5A patent/CN110826886A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754116A (zh) * | 2020-06-24 | 2020-10-09 | 国家电网有限公司大数据中心 | 一种基于标签画像技术的信用评估方法及装置 |
CN111754116B (zh) * | 2020-06-24 | 2023-10-17 | 国家电网有限公司大数据中心 | 一种基于标签画像技术的信用评估方法及装置 |
CN111784204A (zh) * | 2020-07-28 | 2020-10-16 | 南方电网能源发展研究院有限责任公司 | 一种基于用户用电行为画像的优质用户挖掘方法及系统 |
CN112686491A (zh) * | 2020-10-30 | 2021-04-20 | 国网浙江省电力有限公司台州供电公司 | 一种基于用电行为的企业电力数据分析方法 |
CN112580928A (zh) * | 2020-11-19 | 2021-03-30 | 河北电力交易中心有限公司 | 用电量偏差范围的合理度评价方法、装置及终端设备 |
CN113284007A (zh) * | 2021-05-27 | 2021-08-20 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
CN113284007B (zh) * | 2021-05-27 | 2023-07-04 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
CN114418269A (zh) * | 2021-11-30 | 2022-04-29 | 哈尔滨工业大学 | 一种工业机器人安全评价指标构建方法 |
CN114219241A (zh) * | 2021-12-01 | 2022-03-22 | 深圳供电局有限公司 | 一种客户用电行为分析方法及系统 |
CN114219245A (zh) * | 2021-12-02 | 2022-03-22 | 国网浙江省电力有限公司 | 基于大数据的乡村电力指数评价方法、装置及存储介质 |
CN114219245B (zh) * | 2021-12-02 | 2023-11-14 | 国网浙江省电力有限公司 | 基于大数据的乡村电力指数评价方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826886A (zh) | 一种基于聚类算法和主成分分析的电力客户画像构建方法 | |
CN109063945B (zh) | 一种基于价值评估体系的售电公司360度客户画像构建方法 | |
Amile et al. | Performance Evaluation of Banks using Fuzzy AHP and TOPSIS, Case study: State-owned Banks, Partially Private and Private Banks in Iran. | |
CN104321794B (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
KR20010103784A (ko) | 입력이 없는 상황에서의 가치 평가 예측 모델 | |
CN111178624A (zh) | 一种新产品需求预测的方法 | |
CN102156932A (zh) | 一种客户再次购买意向预测方法及装置 | |
CN114219169A (zh) | 颖幡供应链销售和库存预测算法模型和应用系统 | |
CN107609771A (zh) | 一种供应商价值评价方法 | |
CN108171369A (zh) | 基于客户用电差异化特性的短期负荷组合预测方法 | |
CN113469730A (zh) | 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置 | |
CN108364191A (zh) | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 | |
CN113159461A (zh) | 基于样本迁移学习的中小微企业信用评价方法 | |
CN116739217A (zh) | 一种基于供应链大数据平台的零售管理方法及系统 | |
CN116187808A (zh) | 一种基于虚拟电厂用户-套餐标签画像的电力套餐推荐方法 | |
Moghaddam et al. | A RFMV model and customer segmentation based on variety of products | |
CN111178957B (zh) | 一种用电客户电量突增预警的方法 | |
Sun et al. | Using improved RFM model to classify consumer in big data environment | |
Chiang | Identifying high-value airlines customers for strategies of online marketing systems: An empirical case in Taiwan | |
Azadnia et al. | Integration model of Fuzzy C means clustering algorithm and TOPSIS Method for Customer Lifetime Value Assessment | |
CN112163781A (zh) | 基于多维度指标聚类的园区用电群体生命周期评价方法 | |
CN112767114A (zh) | 企业多元化决策方法、装置、电子设备及存储介质 | |
Härting et al. | Cost-benefit considerations for data analytics-an SME-oriented framework enhanced by a management perspective and the process of idea generation | |
US8000995B2 (en) | System and method for assessing customer segmentation strategies | |
Pradhan et al. | Measuring customer lifetime value: application of analytic hierarchy process in determining relative weights of ‘lrfm’ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |