CN110795560A - 一种电网用电客户的细分方法及系统 - Google Patents
一种电网用电客户的细分方法及系统 Download PDFInfo
- Publication number
- CN110795560A CN110795560A CN201911001336.9A CN201911001336A CN110795560A CN 110795560 A CN110795560 A CN 110795560A CN 201911001336 A CN201911001336 A CN 201911001336A CN 110795560 A CN110795560 A CN 110795560A
- Authority
- CN
- China
- Prior art keywords
- power grid
- optimized text
- customers
- user data
- grid electricity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000007637 random forest analysis Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000013501 data transformation Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 238000002759 z-score normalization Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 description 9
- 238000005065 mining Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电网用电客户的细分方法及系统,通过采集电网用电客户的历史用电数据,对历史用电数据进行标准化处理,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并基于随机森林模型,建立用户细分模型实现对电网用电客户的分类,解决了现有技术对电网用电客户分类结果的准确度不高的技术问题,通过对电网用电客户的历史用电数据进行LDA主题模型计算,能精准提取历史用电数据的语义特征,大大提高了对电网用电客户进行细分的准确性。
Description
技术领域
本发明涉及用户数据深度挖掘分析领域,特别涉及一种电网用电客户的细分方法及系统。
背景技术
目前在对电网用电客户进行分类时,往往是使用用电客户的历史用电数据训练一定的分类模型,如随机树模型、支持向量机模型等,后续再通过这些分类模型来对电网用电客户进行分类。然而,现有技术基于电网用电客户的历史用电数据训练分类模型时,缺乏深度挖掘历史用电数据的语义特征,从而使得建立的分类模型准确性不高,进一步使得基于该分类模型的电网用电客户分类结果的准确度也不高。
发明内容
本发明提供的一种电网用电客户的细分方法及系统,解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征,从而使得对电网用电客户分类结果的准确度不高的技术问题。
为解决上述技术问题,本发明提出的一种电网用电客户的细分方法包括:
采集电网用电客户的历史用电数据;
对历史用电数据进行标准化处理,获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语;
根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征;
通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度;
基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型;
根据用户细分模型,对电网用电客户进行分类。
进一步地,对历史用电数据进行标准化处理,获得标准化用户数据包括:
对历史用电数据进行冗余和数据变换处理,获得预处理数据;
对预处理数据进行z-score标准化处理,从而获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。
进一步地,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为:
根据优化文本内容和优化文本词语计算用户重要性特征的计算公式具体为:
其中,Reliabilityi表示第i条标准化用户数据对应的可信度特征,z_moneyi表示第i条标准化用户数据对应的电费数,z_weiyuei表示第i条标准化用户数据对应的违约次数,z_timei表示第i条标准化用户数据对应的抄表周期,verifyi表示第i条标准化用户数据对应的用户状态,Importanti表示第i条标准化用户数据对应的重要性特征,z_dianyuani表示第i条标准化用户数据对应的电源数,z_hetongi表示第i条标准化用户数据对应的合同时长,z_tousui表示第i条标准化用户数据对应的投诉次数。
进一步地,根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度的计算公式具体为:
D={op_word1,…,op_wordM}
pyonghui=(pi,1,…,pi,k)(1≤i≤M)
其中,perplexity(D)表示困惑度,M表示电网用电客户数目,D表示所有标准化用户数据对应的优化文本词语的集合,op_wordi表示第i条标准化用户数据对应的优化文本词语,op_ni表示第i条标准化用户数据对应的优化文本词语的数量,p(zj|op_doci)表示第i条标准化用户数据对应的优化文本内容中第j个主题出现的概率,p(op_wordi|zj)表示第j个主题中第i条标准化用户数据对应的优化文本词语出现的概率,K为预设的主题数目,p(op_wordi)表示第i条标准化用户数据对应的优化文本内容中优化文本词语的概率,pyonghui表示第i条标准化用户数据对应的主题分布概率,且pi,1,…,pi,k分别为z1,…,zk主题的概率。
进一步地,基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型包括:
基于电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,构建用户细分特征向量;
将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数;
基于随机森林模型,利用最优参数以及用户细分特征向量,建立用户细分模型。
进一步地,历史用电数据包括电网用电客户的个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录中的一个或多个数据。
本发明提出的一种电网用电客户的细分系统包括:
存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述电网用电客户的细分方法的步骤。
与现有技术相比,本发明的优点在于:
本发明提供的电网用电客户的细分方法及系统,通过采集电网用电客户的历史用电数据,对历史用电数据进行标准化处理,获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度,基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型以及根据用户细分模型,对电网用电客户进行分类,解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征,从而使得对电网用电客户分类结果的准确度不高的技术问题,通过对电网用电客户的历史用电数据进行LDA主题模型计算,能精准提取历史用电数据的语义特征,从而精准建立用于对电网用电客户进行细分的用户细分模型,大大提高了对电网用电客户进行细分的准确性,有利于实现用电精准营销。
附图说明
图1是本发明实施例一的电网用电客户的细分方法的流程图;
图2是本发明实施例二的电网用电客户的细分方法的流程图;
图3是本发明实施例的电网用电客户的细分系统框图。
附图标记:
10、存储器;20、处理器。
具体实施方式
为了便于理解本发明,下文将结合说明书附图和较佳的实施例对本发明作更全面、细致地描述,但本发明的保护范围并不限于以下具体的实施例。
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一
参照图1,本发明实施例一提供的电网用电客户的细分方法,包括:
步骤S101,采集电网用电客户的历史用电数据;
步骤S102,对历史用电数据进行标准化处理,获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语;
步骤S103,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征;
步骤S104,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度;
步骤S105,基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型;
步骤S106,根据用户细分模型,对电网用电客户进行分类。
本发明实施例提供的电网用电客户的细分方法,通过采集电网用电客户的历史用电数据,对历史用电数据进行标准化处理,获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度,基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型以及根据用户细分模型,对电网用电客户进行分类,解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征,从而使得对电网用电客户分类结果的准确度不高的技术问题,通过对电网用电客户的历史用电数据进行LDA主题模型计算,能精准提取历史用电数据的语义特征,从而精准建立用于对电网用电客户进行细分的用户细分模型,大大提高了对电网用电客户进行细分的准确性,有利于实现用电精准营销。
本发明实施例的电网用电客户的细分方法,属于用户数据深度挖掘分析领域,细分用电客户等级,起到提升服务质量的作用。本发明实施例具有思路清晰,算法简便,工作量较少,执行效率高的特点;本发明实施例利用电网公司数据平台上收集用户信息数据,并对文本内容进行冗余处理、数据变换处理,从而获得优化文本内容以及优化文本内容词组,统计优化文本内容词语的数量,并利用z-score标准化电力数据计算用户可信度特征以及重要性程度,对优化文本内容分布概率计算困惑度,进一步构建用户特征向量,通过用户可信度特征、用户行为特征、优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征以建立用户细分模型,本发明深入挖掘了电力数据中文本语义信息达到客户细分的目的。
具体地,本实施例一方面充分考虑了电网用电客户的可信度特征和重要性特征,另一方面通过对历史用电数据进行语义识别,能获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,从而能精准提取历史用电数据的语义特征,进一步使得基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,能建立用于对电网用电客户进行细分的用户细分模型,大大提高了对电网用电客户进行细分的准确性,有利于实现用电精准营销。
实施例二
参照图2,本发明实施例二提供的电网用电客户的细分方法包括:
步骤S201,采集电网用电客户的历史用电数据。
具体地,本实施例假设从H省电网公司数据平台上收集部分用户信息数据,所述用户数据包括个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录;
优选地,本实施例的历史用电数据具体为:
yonghu{namei,verifyi,taiqui,dianyuani,moneyi,hetongi,timei,weiyuei,tousui}(1≤i≤M)
其中,M为用户数,i为用户编号,namei为姓名,verifyi为用户状态,taiqui为台区,dianyuani为电源相数,moneyi为交费金额,hetongi为合同时长,timei为抄表周期,weiyuei为违约次数,tousui为投诉次数;
本实施例中的人工标注过程具体是通过国网大数据平台来对用户状态进行评定,verifyi表示该用户是否正常用电,若正常,则verifyi为1,否则verifyi为0,通过此项举措能减少对于数据量,使分析效率提高。
步骤S202,对历史用电数据进行冗余和数据变换处理,获得预处理数据。
步骤S203,对预处理数据进行z-score标准化处理,从而获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。
具体地,本实施例首先通过对历史用电数据进行冗余和数据变换处理,从而获得预处理数据,然后对预处理数据进行z-score(standard score,标准分数)标准化处理,从而获得z-score标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。本实施例的z-score标准化用户数据具体为:
z_yonghui{op_doci,op_wordi,op_ni,verifyi,taiqui,z_dianyuani,z_moneyi,z_hetongi,z_timei,z_cishui,z_tousui}(1≤i≤M)
其中,op_doci为优化文本内容,op_wordi为优化文本词语,op_ni为优化文本词语的数量,verifyi为z_socre标准化用户状态,z_dianyuani为z_socre标准化电源数,z_moneyi为z_socre标准化电费数,z_hetongi为z_socre标准化合同时长,z_timei为z_socre标准化抄表周期数,z_weiyuei为z_socre标准化违约次数,z_tousui为z_socre标准化投诉次数。
步骤S204,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征。
具体地,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为:
根据优化文本内容和优化文本词语计算用户重要性特征的计算公式具体为:
其中,Reliabilityi表示第i条标准化用户数据对应的可信度特征,z_moneyi表示第i条标准化用户数据对应的电费数,z_weiyuei表示第i条标准化用户数据对应的违约次数,z_timei表示第i条标准化用户数据对应的抄表周期,verifyi表示第i条标准化用户数据对应的用户状态,Importanti表示第i条标准化用户数据对应的重要性特征,z_dianyuani表示第i条标准化用户数据对应的电源数,z_hetongi表示第i条标准化用户数据对应的合同时长,z_tousui表示第i条标准化用户数据对应的投诉次数。
本发明实施例利用可信度特征是为了确定该用户的投诉行为可信任程度,重要性特征是该用户对于电力公司的重要性,因此在可信度和重要性上对客户进行细分。
步骤S205,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度。
具体地,本实施例根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度的计算公式具体为:
D={op_word1,…,op_wordM}
pyonghui=(pi,1,…,pi,k)(1≤i≤M)
其中,perplexity(D)表示困惑度,M表示电网用电客户数目,D表示所有标准化用户数据对应的优化文本词语的集合,op_wordi表示第i条标准化用户数据对应的优化文本词语,op_ni表示第i条标准化用户数据对应的优化文本词语的数量,p(zj|op_doci)表示第i条标准化用户数据对应的优化文本内容中第j个主题出现的概率,p(op_wordi|zj)表示第j个主题中第i条标准化用户数据对应的优化文本词语出现的概率,K为困惑最小时的主题个数,p(op_wordi)表示第i条标准化用户数据对应的优化文本内容中优化文本词语的概率,pyonghui表示第i条标准化用户数据对应的主题分布概率,且pi,1,…,pi,k分别为z1,…,zk主题的概率。
本发明实施例计算困惑度的目的是为了得到电力用户关于投诉类文本中出现的词语概率,确定该用户投诉的偏好,加强对客户的细分。
步骤S206,基于电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,构建用户细分特征向量。
具体地,本实施例的用户细分特征向量具体为:
cyonghui=(pi,1,…,pi,k,Reliabilityi,Importanti)(1≤i≤M)
其中,M为用户数,pi,1,…,pi,k分别为z1,…,zk主题的概率,Reliabilityi为用户可信度特征,Importanti为用户重要性特征。
步骤S207,将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数。
步骤S208,基于随机森林模型,利用最优参数以及用户细分特征向量,建立用户细分模型。
具体地,本实施例将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,使用10折交叉验证的网格搜索算法计算基于CART(Classification And Regression Tree,分类与回归树)决策树的随机森林模型的最优参数,然后基于随机森林模型,利用最优参数以及用户细分特征向量,建立用户细分模型,并根据人工标注的用户数据进行训练得到最终用户细分模型,以此达到客户细分的目的。
本实施例中的最优参数指的对所有得到特征进行十折交叉验证中,用到的数据是训练集中的所有数据。本实施例将训练集的所有数据平均划分成十份,取第十份作为验证集,余下的九份作为交叉验证的训练集,从而得出每个特征值的最优参数。
步骤S209,根据用户细分模型,对电网用电客户进行分类。
综上,本发明公开了一种基于文字识别和随机森林的重要用电客户细分方法,其中,从电网公司数据平台上收集用户信息数据,并对文本内容进行冗余处理、数据变换处理,从而获得优化文本内容以及优化文本词语,统计优化文本词语的数量,并利用z-score标准化电力数据计算用户可信度特征以及重要性程度,对优化文本内容分布概率计算困惑度,进一步构建用户特征向量,通过用户可信度特征、用户行为特征、优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征以建立用户细分模型,对用户进行细分,同时也精准营销,提高了营销精确性。
本实施例将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,一方面充分考虑了电网用电客户的可信度特征和重要性特征,另一方面,通过对历史用电数据进行语义识别,能获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,从而能精准提取历史用电数据的语义特征,进而使得将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,以及基于随机森林模型,利用最优参数以及用户细分特征向量,能建立用于对电网用电客户进行细分的用户细分模型,大大提高了对电网用电客户进行细分的准确性,有利于实现用电精准营销。
参照图3,本发明实施例提出的电网用电客户的细分系统,包括:
存储器10、处理器20以及存储在存储器10上并可在处理器20上运行的计算机程序,其中,处理器20执行计算机程序时实现本实施例提出的电网用电客户的细分方法的步骤。
本实施例的电网用电客户的细分系统的具体工作过程和工作原理可参照本实施例中的电网用电客户的细分方法的工作过程和工作原理。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种电网用电客户的细分方法,其特征在于,所述方法包括:
采集电网用电客户的历史用电数据;
对所述历史用电数据进行标准化处理,获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语;
根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征;
通过LDA主题模型对所述优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率,并根据所述主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率计算困惑度;
基于随机森林模型,利用所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率,建立用户细分模型;
根据所述用户细分模型,对电网用电客户进行分类。
2.根据权利要求1所述的电网用电客户的细分方法,其特征在于,对所述历史用电数据进行标准化处理,获得标准化用户数据包括:
对所述历史用电数据进行冗余和数据变换处理,获得预处理数据;
对所述预处理数据进行z-score标准化处理,从而获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语。
3.根据权利要求2所述的电网用电客户的细分方法,其特征在于,根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为:
根据所述优化文本内容和优化文本词语计算所述用户重要性特征的计算公式具体为:
其中,Reliabilityi表示第i条标准化用户数据对应的可信度特征,z_moneyi表示第i条标准化用户数据对应的电费数,z_weiyuei表示第i条标准化用户数据对应的违约次数,z_timei表示第i条标准化用户数据对应的抄表周期,verifyi表示第i条标准化用户数据对应的用户状态,Importanti表示第i条标准化用户数据对应的重要性特征,z_dianyuani表示第i条标准化用户数据对应的电源数,z_hetongi表示第i条标准化用户数据对应的合同时长,z_tousui表示第i条标准化用户数据对应的投诉次数。
4.根据权利要求3所述的电网用电客户的细分方法,其特征在于,根据所述主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率计算困惑度的计算公式具体为:
D={op_word1,…,op_wordM}
pyonghui=(pi,1,…,pi,k)(1≤i≤M)
其中,perplexity(D)表示困惑度,M表示电网用电客户数目,D表示所有标准化用户数据对应的优化文本词语的集合,op_wordi表示第i条标准化用户数据对应的优化文本词语,op_ni表示第i条标准化用户数据对应的优化文本词语的数量,p(zj|op_doci)表示第i条标准化用户数据对应的优化文本内容中第j个主题出现的概率,p(op_wordi|zj)表示第j个主题中第i条标准化用户数据对应的优化文本词语出现的概率,K为预设的主题数目,p(op_wordi)表示第i条标准化用户数据对应的优化文本内容中优化文本词语的概率,pyonghui表示第i条标准化用户数据对应的主题分布概率,且pi,1,…,pi,k分别为z1,…,zk主题的概率。
5.根据权利要求4所述的电网用电客户的细分方法,其特征在于,基于随机森林模型,利用所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率,建立用户细分模型包括:
基于所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率,构建用户细分特征向量;
将所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数;
基于所述随机森林模型,利用所述最优参数以及所述用户细分特征向量,建立用户细分模型。
6.根据权利要求5所述的电网用电客户的细分方法,其特征在于,所述历史用电数据包括电网用电客户的个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录中的一个或多个数据。
7.一种电网用电客户的细分系统,其特征在于,所述系统包括:
存储器(10)、处理器(20)以及存储在存储器(10)上并可在处理器(20)上运行的计算机程序,所述处理器(20)执行所述计算机程序时实现上述权利要求1至6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001336.9A CN110795560A (zh) | 2019-10-21 | 2019-10-21 | 一种电网用电客户的细分方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001336.9A CN110795560A (zh) | 2019-10-21 | 2019-10-21 | 一种电网用电客户的细分方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110795560A true CN110795560A (zh) | 2020-02-14 |
Family
ID=69439501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911001336.9A Pending CN110795560A (zh) | 2019-10-21 | 2019-10-21 | 一种电网用电客户的细分方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795560A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140336960A1 (en) * | 2011-11-29 | 2014-11-13 | Energy Aware Technology Inc. | Method and System for Forecasting Power Requirements Using Granular Metrics |
CN108090046A (zh) * | 2017-12-29 | 2018-05-29 | 武汉大学 | 一种基于lda和随机森林的微博谣言识别方法 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
CN109360004A (zh) * | 2018-09-25 | 2019-02-19 | 电子科技大学 | 一种客户关系管理方法及系统 |
-
2019
- 2019-10-21 CN CN201911001336.9A patent/CN110795560A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140336960A1 (en) * | 2011-11-29 | 2014-11-13 | Energy Aware Technology Inc. | Method and System for Forecasting Power Requirements Using Granular Metrics |
CN108090046A (zh) * | 2017-12-29 | 2018-05-29 | 武汉大学 | 一种基于lda和随机森林的微博谣言识别方法 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
CN109360004A (zh) * | 2018-09-25 | 2019-02-19 | 电子科技大学 | 一种客户关系管理方法及系统 |
Non-Patent Citations (1)
Title |
---|
蒋子规: "面向电力大数据的用户用电行为挖掘方法", 《中国博士学位论文全文数据库(工程科技Ⅱ辑)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Reliability constraint stochastic UC by considering the correlation of random variables with Copula theory | |
Goh et al. | Incorporating the rough sets theory into travel demand analysis | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN107423859B (zh) | 一种组合模型建模方法及系统 | |
CN107122369B (zh) | 一种业务数据处理方法、装置和系统 | |
CN112288455B (zh) | 标签生成方法及装置、计算机可读存储介质、电子设备 | |
CN109146707A (zh) | 基于大数据分析的电力用户分析方法、装置及电子设备 | |
CN114168716A (zh) | 基于深度学习的工程造价自动抽取和分析方法及装置 | |
CN108345670B (zh) | 一种用于95598电力工单的服务热点发现方法 | |
CN112508580A (zh) | 基于拒绝推断方法的模型构建方法、装置和电子设备 | |
CN105389341A (zh) | 一种客服电话重复来电工单的文本聚类与分析方法 | |
CN105786711A (zh) | 一种数据分析的方法及装置 | |
CN102402594A (zh) | 一种富媒体个性化推荐方法 | |
CN112925911B (zh) | 基于多模态数据的投诉分类方法及其相关设备 | |
CN111179055A (zh) | 授信额度调整方法、装置和电子设备 | |
CN112671985A (zh) | 基于深度学习的坐席质检方法、装置、设备及存储介质 | |
CN109636128A (zh) | 一种基于营业厅效能评估的网点数量与结构的优化方法 | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及系统 | |
CN112949907A (zh) | 一种工程造价的定额匹配方法、装置、设备及存储介质 | |
CN113449116A (zh) | 一种图谱构建、预警方法、设备及介质 | |
CN107590747A (zh) | 基于综合能源大数据分析的电网资产周转率计算方法 | |
CN110188255A (zh) | 基于业务数据共享融合的电力用户行为挖掘方法及系统 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN112258067A (zh) | 基于高斯混合模型聚类算法的低压用户缴费行为分类方法 | |
CN112488865A (zh) | 基于金融时间节点的金融风险预测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200214 |
|
RJ01 | Rejection of invention patent application after publication |