CN109359868A - 一种电网用户画像的构建方法及系统 - Google Patents
一种电网用户画像的构建方法及系统 Download PDFInfo
- Publication number
- CN109359868A CN109359868A CN201811214721.7A CN201811214721A CN109359868A CN 109359868 A CN109359868 A CN 109359868A CN 201811214721 A CN201811214721 A CN 201811214721A CN 109359868 A CN109359868 A CN 109359868A
- Authority
- CN
- China
- Prior art keywords
- feature
- power grid
- user
- electricity charge
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 31
- 230000005611 electricity Effects 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 12
- 239000002245 particle Substances 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 235000019580 granularity Nutrition 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明公开了一种电网用户画像的构建方法及系统,获取电网用户数据信息集;构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表;根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户;基于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。通过本发明实现了创建准确的电网用户画像,提升电网用户的满意度。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种电网用户画像的构建方法及系统。
背景技术
伴随着互联网技术的应用和发展,互联网已经成为人们获取各种信息的重要渠道。人们所面对的信息呈指数级增大,在获得目标信息的同时也会获得许多无用的信息。如何应对这种信息过载的现象,根据用户在网上留下的个人数据对其群体进行挖掘,从海量数据信息中快速定位人们需要的信息,满足不同类型用户的个性化需求已成为当前需要解决的问题之一,所以用户画像技术应运而生。
虽然用户画像已经被应用在了多个领域,但是目前针对电网用户画像的研究还是相对较少的,并且现有的关于电网数据的研究基本是利用先验知识人工分析或者运用简单的模型和特征,使得用户画像的准确率较低,无法准确地指导电网公司对电网用户的定位和服务,使得电网用户的满意度降低。
发明内容
针对于上述问题,本发明提供一种电网用户画像的构建方法及系统,实现了创建准确的电网用户画像,提升电网用户的满意度。
为了实现上述目的,本发明提供了如下技术方案:
一种电网用户画像的构建方法,该方法包括:
获取电网用户数据信息集;
构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表;
根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户;
基于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。
可选地,所述构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表,包括:
对所述数据信息进行聚类分析,获得特征集群;
确定每个所述特征集群中的特征类型,并根据每个所述特征集群中的特征类型生成特征体系表。
可选地,还包括:
获取所述特征体系表中的字段,并对所述字段进行编码;
根据字段的编码计算获得基尼系数,其中,所述基尼系数表征字段与电网用户类型的关系;
根据基尼系数,确定目标字段;
根据所述目标字段在所述特征体系表中进行特征提取,获得目标特征。
可选地,当所述预设模型为XGBoost模型时,所述根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户,包括:
将所述目标特征作为所述XGBoost模型第一层的输入值,通过XGBoost模型对所述目标特征进行迭代处理,得到所述XGBoost模型的第二层的输入值;
通过Bagging模型对所述XGBoost模型的第二层的输入值进行并行处理,获得电网用户的分类信息;
根据所述电网用户的分类信息,确定电费敏感用户。
可选地,所述基于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像,包括:
确定所述电费敏感用户的特征粒度值;
根据所述特征粒度值在所述特征体系表中,提取构建特征;
根据所述构建特征,构建获得所述电费敏感用户的用户画像。
一种电网用户画像的构建系统,包括:
获取单元,用于获取电网用户数据信息集;
聚类单元,用于构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表;
分析单元,用于根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户;
构建单元,用于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。
可选地,所述聚类单元包括:
聚类子单元,用于对所述数据信息进行聚类分析,获得特征集群;
生成子单元,用于确定每个所述特征集群中的特征类型,并根据每个所述特征集群中的特征类型生成特征体系表。
可选地,还包括:
编码子单元,用于获取所述特征体系表中的字段,并对所述字段进行编码;
计算子单元,用于根据字段的编码计算获得基尼系数,其中,所述基尼系数表征字段与电网用户类型的关系;
字段确定子单元,用于根据基尼系数,确定目标字段;
特征提取子单元,用于根据所述目标字段在所述特征体系表中进行特征提取,获得目标特征。
可选地,当所述预设模型为XGBoost模型时,所述分析单元包括:
迭代处理子单元,用于将所述目标特征作为所述XGBoost模型第一层的输入值,通过XGBoost模型对所述目标特征进行迭代处理,得到所述XGBoost模型的第二层的输入值;
并行处理子单元,用于通过Bagging模型对所述XGBoost模型的第二层的输入值进行并行处理,获得电网用户的分类信息;
根据所述电网用户的分类信息,确定电费敏感用户。
可选地,所述构建单元包括:
粒度确定子单元,用于确定所述电费敏感用户的特征粒度值;
提取子单元,用于根据所述特征粒度值在所述特征体系表中,提取构建特征;
构建子单元,用于根据所述构建特征,构建获得所述电费敏感用户的用户画像。
相较于现有技术,本发明提供了一种电网用户画像的构建方法及系统,将获取的电网用户数据信息集,然后对数据信息集进行聚类分析,可以获得更准确的用户的表征特征,然后根据预设模型对特征进行分析,可以获得电费敏感用户,基于该电费敏感用户的特征构建生成用户画像,这样通过特征聚类分析得到的用户画像更能表征电网用户的特征,提高了用户画像的准确性。并且生成的用户画像是针对电费敏感用户的,能够指导电网公司对用户的服务,从而提升电网用户的满意度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种电网用户画像的构建方法的流程示意图;
图2为本发明实施例提供的一种XGBoost模型和Bagging模型的融合示意图;
图3为本发明实施例提供的一种电网用户画像的构建系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种电网用户画像的构建方法,参见图1,包括:
S101、获取电网用户数据信息集。
电网用户数据信息集中的数据主要来源于已经公开的电量电费营销数据。在本发明实施例中主要是通过电网用户的95598客户服务的信息,即电网用户通过拨打电网公司的客户热线产生的数据信息。例如,包括工单信息、客户通话信息、应收电费信息等。之所以选取这三个维度的信息是因为这三个维度的信息可以快速、准确的识别出电费敏感用户,可以挖掘客户潜在需求,改善供电服务质量,增强客户粘性。
其中,95598工单数据是电力用户的基础数据,用户每拨打一次95598热线,系统便会产生一条对应的工单数据,在该工单数据中会记录用户每次拨打95598热线的时间、内容等信息。
S102、构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表。
根据获得数据信息进行聚类处理,例如,从多个维度围绕95598工单信息、客户通话信息,应收电费性信息构建了3个特征群,以多种特征类型对电网用户进行刻画,从而生成了特征体系表,例如,参见表1。
表1:特征体系表
在表1中反映出的特征类型是通过聚类分析得到的,这样可以通过特征类型得到用户的咨询业务的不同而反映的不同需求。例如,有的用户对故障进行保修,有的用户则更关系电费电量从而对电费进行查询。
S103、根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户。
由于不同类型的用户在生成用户画像时的侧重特征不同,所以在本发明实施例中首先基于预设模型对上述的特征体系表进行分析,从而可以将电网用户分为低活跃用户和高活跃用户,经过多元特征体系,在经过预设模型从中识别出电费敏感用户。而这一类用户通常是对电网服务需求和要求都较高的用户。
S104、基于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。
根据分类后的电费敏感用户的相关特征进行用户画像的构建能够更加符合该用户的画像精度。
本发明提供了一种电网用户画像的构建方法,将获取的电网用户数据信息集,然后对数据信息集进行聚类分析,可以获得更准确的用户的表征特征,然后根据预设模型对特征进行分析,可以获得电费敏感用户,基于该电费敏感用户的特征构建生成用户画像,这样通过特征聚类分析得到的用户画像更能表征电网用户的特征,提高了用户画像的准确性。并且生成的用户画像是针对电费敏感用户的,能够指导电网公司对用户的服务,从而提升电网用户的满意度。
在上述实施例的基础上,为了能够准确地对用户进行区分,还需要进行特征提取来表征用户的不同需求。例如,电网用户咨询业务的类型不同,反应了用户不同的需求。并且地域信息的不同,也会造成电网用户的不同需求。从城乡类别来看,显然城市中心和边远山区的用户对电费的敏感程度不同。
供电单位编码字段按照编码长度进行剧烈,包括12个长度为5的一级编码,75个长度为7的二级编码,96个长度为9的三级编码和1个长度为11的四级编码;用地按类别字段由3位数字构成,第一位数字代表用电的打雷,所以按照首位数字进行聚类。部分字段编码取值较多,例如,供电单位编码就有上百种取值。经过统计观察发现,这些字段存在固定的编码规则,使用这些规则可以对编码进行聚类,其具体公式可以如下:
xi∈Cjif||xi-centerj||<||xi-centerk||(k≠j)
在上式中计算各个数据点离类中心的距离即基尼系数,并找到数据点所属的类别,再按照类别特征进行处理,从而实现特征降维。其中,基尼系数表征字段与电网用户类型的关系。
在本发明实施例中还对不同的电网用户匹配了不同的特征粒度,从而可以提取更准确的画像构建特征。其中,主要是以时间为粒度进行区分的。由于不同季节、不同时间的用电需求是不一样的。因此,不同时间段的电费敏感用户数量也存在差异。考虑到时间因素的重要性,从时间维度构造了大量蕴含丰富信息且有效的特征。例如,对于地活跃度用户,构造了月、天、小时3种粒度的类别特征以及是否是上旬、中旬、下旬的3个二值特征;对于高活跃用户,还需要考虑多个时间之间的联系,构造的特征包括月、天、小时3种粒度的bag-of-categories特征、工单不同日期的数量等统计特征以及数值特征。
对于数值型数据,一些常用统计量往往能反映出数据的深层信息,例如中位数可以反映数据分布的集中趋势、标准差反映了数据的离散程度等等。因此,可以对低活跃用户的单个取值直接采用归一化处理,而对高活跃度用户对应的多个数值取值构造了基本统计量特征(最大值、最小值、均值、中位数、标准差)包括工单时间、通过时长、总电量、电费金额等字段。
在本发明实施例中优选XGBoost模型对特征体系表中的特征进行分析。即提出了一种基于双层XGBoost的多视角融合模型,XGBoost(Xtreme Gradient Boosting)是一种经过优化的提升树模型,因为其运行速度快、任务通用性高,被广泛应用。在此模型的基础上进行预设模型的搭建。首先使用单个XGBoost模型迭代2000次,并保留模型训练时树分裂所用到的全部特征,此时的全部特征为经过XGBoost的多视角融合模型后所得出的全部特征类型,这些全部特征会作为第二层输入。XGBoost模型如下:
其中,k标识树的数量,f标识每棵树的预测函数。
然后,第二层模型使用了XGBoost模型和Bagging模型的融合,之所以采用两个模型的融合是由于第一层使用XGBoost模型进行迭代,将迭代后的数据在第二层中作为输入,在数据的处理之前采用又放回的数据抽样,使每组数据不完全相同,然后进行并行处理,最后挖掘到需要信息。
如图2所示,为XGBoost模型和Bagging模型的融合示意图。其核心处理方式仍是XGBoost模型,其中采用的Bagging算法的思想,在开始时进行又放回的随机抽样,使每组数据不尽相同,然后同时进行多特征处理,最后再用相应的策略对数据进行输出,进一步融合多源特征以提升模型的准确性和泛化能力。从而可以识别出电费敏感用户。
举例说明,95598工单数据是电力用户的基础数据,用户每拨打一次95598热线,系统便会产生一条对应的工单数据,它记录了用户每次拨打95598热线的时间、内容等信息,随着电话次数的增多,人数越来越少,最多的用户一年拨打了114次电话。通过统计对比发现,全年只拨打一次95598热线的用户,总数多,电费敏感用户(如说有些用户每年拨打95598的次数很多,这样的用户可能对电费的缴费信息比较敏感,可以成为电费敏感用户)占比小,将其定义为低活跃度用户;而全年拨打多次95598热线的用户总数少,电费敏感用户占比大,将其定义为高活跃度用户。
之所以在构建用户画像时需要对电网用户进行分类,是因为两类用户特征存在明显差异。对这两类用户对否是电费敏感用户的刻画角度是不同的:对于低活跃度用户,关注的是他们拨打仅一次95598热线的通话内容,而对于高活跃度用户,更关注的是他们拨打多次95598热线的频率和他们之间的联系等等。对这两类用户的特征构造方式也是不一样的,地活跃度用户只有一条工单记录,相应数据项只含有一个取值;而高活跃度用户对应多条工单记录,同一个字段含有多个取值。因此对于不同类别用户进行分别画像将更准确。
因此,通过本发明实施例中的技术内容,在数据处理阶段,字段编码采用固定的编码规则,这些规则可以对编码进行聚类,计算各个点数据点离类中心的距离,并找到数据点所属的类别,再按照类别特征进行处理,从而实现特征降维。进一步提出了基于双层XGBoost模型的多视角融合模型,其中的关键是XGBoost模型以及XGBoost模型和Bagging模型融合的方法,其运行速度快、任务通用性高。
下面以具体的实例进行说明。使用的数据集是某省2017年全年一百多万个电力用户(训练集658,373个用户,测试集370,871个用户)的电量电费营销数据,其中包含95598工单信息、客户通话信息等十二类信息,即十二个数据表单。通过计算上述数据表单中各字段和电网用户是否是电费敏感用户之间的基尼(gini)系数,同时考虑数据的完整性等因素,最终确定三类信息的14个字段用于提取特征,如表2所示:
表2:特征提取字段
表3:各个模型的实验结果对比
在保证训练特征等条件相同的情况下对比了几种常用的分类模型,它们分别是线性逻辑回归分类模型(Logistic Regression,LR)、支持向量机模型(Support VectorMachine,SVM)、决策树模型(Decision Tree,DT)、随机森林模型(Random Forests,RF)、梯度提升回归树模型(Gradient Boosting Decision Tree,GBDT)。各模型的实验结果如表3所示,可以看出XGBoost模型无论在低活跃度用户还是在高活跃度用户上表现都是最优的。
电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、缴费、欠费等电力服务具有强烈反应,如何快速定位电费敏感客户,对于降低客户投诉率,提升客户满意度,树立供电企业良好的服务形象具有重要的作用。基于电网用户数据,本发明提出了一种用于构建用户画像的多视角融合框架,该框架能够快速、准确的识别出电费敏感客户。
在本发明实施例中还提供了一种电网用户画像的构建系统,参见图3,包括:
获取单元301,用于获取电网用户数据信息集;
聚类单元302,用于构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表;
分析单元303,用于根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户;
构建单元304,用于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。
可选地,所述聚类单元包括:
聚类子单元,用于对所述数据信息进行聚类分析,获得特征集群;
生成子单元,用于确定每个所述特征集群中的特征类型,并根据每个所述特征集群中的特征类型生成特征体系表。
可选地,还包括:
编码子单元,用于获取所述特征体系表中的字段,并对所述字段进行编码;
计算子单元,用于根据字段的编码计算获得基尼系数,其中,所述基尼系数表征字段与电网用户类型的关系;
字段确定子单元,用于根据基尼系数,确定目标字段;
特征提取子单元,用于根据所述目标字段在所述特征体系表中进行特征提取,获得目标特征。
可选地,当所述预设模型为XGBoost模型时,所述分析单元包括:
迭代处理子单元,用于将所述目标特征作为所述XGBoost模型第一层的输入值,通过XGBoost模型对所述目标特征进行迭代处理,得到所述XGBoost模型的第二层的输入值;
并行处理子单元,用于通过Bagging模型对所述XGBoost模型的第二层的输入值进行并行处理,获得电网用户的分类信息;
根据所述电网用户的分类信息,确定电费敏感用户。
可选地,所述构建单元包括:
粒度确定子单元,用于确定所述电费敏感用户的特征粒度值;
提取子单元,用于根据所述特征粒度值在所述特征体系表中,提取构建特征;
构建子单元,用于根据所述构建特征,构建获得所述电费敏感用户的用户画像。
本发明提供了一种电网用户画像的构建系统,将在获取单元中获取的电网用户数据信息集,然后在聚类单元对数据信息集进行聚类分析,可以获得更准确的用户的表征特征,然后在分析单元根据预设模型对特征进行分析,可以获得电费敏感用户,基于该电费敏感用户的特征在构建单元中构建生成用户画像,这样通过特征聚类分析得到的用户画像更能表征电网用户的特征,提高了用户画像的准确性。并且生成的用户画像是针对电费敏感用户的,能够指导电网公司对用户的服务,从而提升电网用户的满意度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种电网用户画像的构建方法,其特征在于,该方法包括:
获取电网用户数据信息集;
构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表;
根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户;
基于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表,包括:
对所述数据信息进行聚类分析,获得特征集群;
确定每个所述特征集群中的特征类型,并根据每个所述特征集群中的特征类型生成特征体系表。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取所述特征体系表中的字段,并对所述字段进行编码;
根据字段的编码计算获得基尼系数,其中,所述基尼系数表征字段与电网用户类型的关系;
根据基尼系数,确定目标字段;
根据所述目标字段在所述特征体系表中进行特征提取,获得目标特征。
4.根据权利要求3所述的方法,其特征在于,当所述预设模型为XGBoost模型时,所述根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户,包括:
将所述目标特征作为所述XGBoost模型第一层的输入值,通过XGBoost模型对所述目标特征进行迭代处理,得到所述XGBoost模型的第二层的输入值;
通过Bagging模型对所述XGBoost模型的第二层的输入值进行并行处理,获得电网用户的分类信息;
根据所述电网用户的分类信息,确定电费敏感用户。
5.根据权利要求4所述的方法,其特征在于,所述基于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像,包括:
确定所述电费敏感用户的特征粒度值;
根据所述特征粒度值在所述特征体系表中,提取构建特征;
根据所述构建特征,构建获得所述电费敏感用户的用户画像。
6.一种电网用户画像的构建系统,其特征在于,包括:
获取单元,用于获取电网用户数据信息集;
聚类单元,用于构建所述数据信息集的特征集群,对所述特征集群中的特征进行聚类处理,获得特征体系表;
分析单元,用于根据预设模型对所述特征体系表进行分析,并根据分析结果对电网用户进行分类,获得电费敏感用户;
构建单元,用于所述电费敏感用户的特征体系表,构建获得匹配所述电费敏感用户的用户画像。
7.根据权利要求6所述的系统,其特征在于,所述聚类单元包括:
聚类子单元,用于对所述数据信息进行聚类分析,获得特征集群;
生成子单元,用于确定每个所述特征集群中的特征类型,并根据每个所述特征集群中的特征类型生成特征体系表。
8.根据权利要求7所述的系统,其特征在于,还包括:
编码子单元,用于获取所述特征体系表中的字段,并对所述字段进行编码;
计算子单元,用于根据字段的编码计算获得基尼系数,其中,所述基尼系数表征字段与电网用户类型的关系;
字段确定子单元,用于根据基尼系数,确定目标字段;
特征提取子单元,用于根据所述目标字段在所述特征体系表中进行特征提取,获得目标特征。
9.根据权利要求8所述的系统,其特征在于,当所述预设模型为XGBoost模型时,所述分析单元包括:
迭代处理子单元,用于将所述目标特征作为所述XGBoost模型第一层的输入值,通过XGBoost模型对所述目标特征进行迭代处理,得到所述XGBoost模型的第二层的输入值;
并行处理子单元,用于通过Bagging模型对所述XGBoost模型的第二层的输入值进行并行处理,获得电网用户的分类信息;
根据所述电网用户的分类信息,确定电费敏感用户。
10.根据权利要求9所述的系统,其特征在于,所述构建单元包括:
粒度确定子单元,用于确定所述电费敏感用户的特征粒度值;
提取子单元,用于根据所述特征粒度值在所述特征体系表中,提取构建特征;
构建子单元,用于根据所述构建特征,构建获得所述电费敏感用户的用户画像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811214721.7A CN109359868A (zh) | 2018-10-18 | 2018-10-18 | 一种电网用户画像的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811214721.7A CN109359868A (zh) | 2018-10-18 | 2018-10-18 | 一种电网用户画像的构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109359868A true CN109359868A (zh) | 2019-02-19 |
Family
ID=65345786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811214721.7A Pending CN109359868A (zh) | 2018-10-18 | 2018-10-18 | 一种电网用户画像的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359868A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919219A (zh) * | 2019-03-01 | 2019-06-21 | 北京邮电大学 | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 |
CN109948913A (zh) * | 2019-03-01 | 2019-06-28 | 长沙理工大学 | 一种基于双层的xgboost算法的多源特征电力用户综合画像系统 |
CN109949004A (zh) * | 2019-03-01 | 2019-06-28 | 长沙理工大学 | 一种客户快速故障定位和聚类算法的用电客户画像新方法 |
CN110020201A (zh) * | 2019-03-26 | 2019-07-16 | 中国科学院软件研究所 | 一种基于用户画像聚类的用户类型自动化标注系统 |
CN110363382A (zh) * | 2019-06-03 | 2019-10-22 | 华东电力试验研究院有限公司 | 全能型乡镇供电所一体化业务融合技术 |
CN111062564A (zh) * | 2019-11-08 | 2020-04-24 | 广东电网有限责任公司 | 一种电力客户诉求敏感值计算方法 |
CN113344638A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
CN113780901A (zh) * | 2021-11-10 | 2021-12-10 | 国网江苏省电力有限公司营销服务中心 | 一种应用于能源控制器的网荷协同控制方法 |
-
2018
- 2018-10-18 CN CN201811214721.7A patent/CN109359868A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919219A (zh) * | 2019-03-01 | 2019-06-21 | 北京邮电大学 | 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法 |
CN109948913A (zh) * | 2019-03-01 | 2019-06-28 | 长沙理工大学 | 一种基于双层的xgboost算法的多源特征电力用户综合画像系统 |
CN109949004A (zh) * | 2019-03-01 | 2019-06-28 | 长沙理工大学 | 一种客户快速故障定位和聚类算法的用电客户画像新方法 |
CN110020201A (zh) * | 2019-03-26 | 2019-07-16 | 中国科学院软件研究所 | 一种基于用户画像聚类的用户类型自动化标注系统 |
CN110363382A (zh) * | 2019-06-03 | 2019-10-22 | 华东电力试验研究院有限公司 | 全能型乡镇供电所一体化业务融合技术 |
CN111062564A (zh) * | 2019-11-08 | 2020-04-24 | 广东电网有限责任公司 | 一种电力客户诉求敏感值计算方法 |
CN113344638A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
CN113344638B (zh) * | 2021-06-29 | 2022-05-24 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
CN113780901A (zh) * | 2021-11-10 | 2021-12-10 | 国网江苏省电力有限公司营销服务中心 | 一种应用于能源控制器的网荷协同控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359868A (zh) | 一种电网用户画像的构建方法及系统 | |
CN106651424B (zh) | 基于大数据技术的电力用户画像建立与分析方法 | |
CN111612549B (zh) | 一种平台运营服务系统的构建方法 | |
CN107507038B (zh) | 一种基于stacking和bagging算法的电费敏感用户分析方法 | |
CN109191191B (zh) | 基于代价敏感卷积神经网络的广告点击欺诈检测方法 | |
CN103150696A (zh) | 选择目标增值业务潜在客户的方法及装置 | |
CN107578277B (zh) | 用于电力营销的出租房客户定位方法 | |
CN108388974A (zh) | 基于随机森林和决策树的优质客户优化识别方法及装置 | |
CN108154311A (zh) | 基于随机森林和决策树的优质客户识别方法及装置 | |
CN102262664A (zh) | 一种质量评价的方法和装置 | |
CN108965938A (zh) | 智能电视中潜在付费用户预测方法及系统 | |
CN103325067A (zh) | 基于用电客户细分的服务推送方法和系统 | |
CN115423578B (zh) | 基于微服务容器化云平台的招投标方法和系统 | |
CN110046251A (zh) | 社区内容风险评估方法及装置 | |
CN112995200B (zh) | 基于云平台的资源价值评估用户管理方法及相关产品 | |
CN106022640B (zh) | 电量指数核对系统及方法 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
CN115130811A (zh) | 电力用户画像的建立方法、装置及电子设备 | |
CN112990721B (zh) | 一种基于缴费行为的电力用户价值分析方法及系统 | |
CN112631889B (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN106126523A (zh) | 一种假币犯罪信息分析系统及分析方法 | |
CN105447767A (zh) | 一种基于联合矩阵分解模型的电力用户细分方法 | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
CN109902129A (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
CN115809280A (zh) | 一种群租房识别及迭代识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190219 |
|
RJ01 | Rejection of invention patent application after publication |