CN109447364A - 基于标签的电力客户投诉预测方法 - Google Patents
基于标签的电力客户投诉预测方法 Download PDFInfo
- Publication number
- CN109447364A CN109447364A CN201811325958.2A CN201811325958A CN109447364A CN 109447364 A CN109447364 A CN 109447364A CN 201811325958 A CN201811325958 A CN 201811325958A CN 109447364 A CN109447364 A CN 109447364A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- prediction
- user
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了一种基于标签的电力客户投诉预测方法,包括获取电力客户的历史数据并处理;采用机器学习算法训练训练数据,建立预测模型并得到预测模型的精度;建立多模型加权联合预测模型;多模型加权联合预测模型预测电力客户的投诉数据;过采样算法扩充进据;组建新的数据训练集,采用机器学习算法该训练新的训练数据,建立预测模型并得到预测模型的精度;再次建立多模型加权联合预测模型;重复上述步骤直至精度符合要求;采用得到的最终的多模型加权联合预测模型对电力客户的投诉进行预测。本发明方法能够准确和快速的对电力系统的客户投诉情况进行预测,而且方法简单可靠,科学方便。
Description
技术领域
本发明具体涉及一种基于标签的电力客户投诉预测方法。
背景技术
随着经济技术的发展,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,电能供应的可靠性就成为了电力系统的首要目标之一。
同时,随着电力系统的发展,人们对电力系统的服务也提出了新的要求。而电力系统为了进一步提升服务水平,超前识别客户投诉服务风险客户,支撑服务管控就显得异常重要。
目前,对于电力客户投诉的预测,有很多预测技术。比如基于神经网络的方法,其虽然预测精确,但是计算量很大;比如支持向量机的方法,其虽然对缺失数据敏感,但是对非线性问题没有通用解决方案,而且计算量大;而朴素贝叶斯方法仅适合特征相关性较小的情况;随机森林算法对多元共线性不敏感,结果对缺失数据和非平衡的数据比较稳健,能够处理高维度数据,且不用做特征选择,在相对短的时间内能够对大型数据源做出可行且效果良好的结果;而朴素贝叶斯有着非常坚实的数学基础,效果非常好,缺点是不能处理特征之间的相互影响。此外,采集到的电力客户数据样本复杂且正负样本极不平衡,这也给准确预测潜在的投诉客户带来困难。
发明内容
本发明的目的在于提供一种能够准确和快速对电力系统的客户投诉情况进行预测的基于标签的电力客户投诉预测方法。
本发明提供的这种基于标签的电力客户投诉预测方法,包括如下步骤:
S1.获取电力客户的历史数据,并进行数据预处理,并将处理后的数据分为训练数据和测试数据;所述的历史数据包括电力客户的投诉数据和电力客户的非投诉数据;
S2.采用若干种现有的机器学习算法对步骤S1获取的训练数据进行训练,分别建立对应的预测模型,并采用步骤S1获取的测试数据对各预测模型进行测试并得到各个预测模型的精度;
S3.根据步骤S2得到的训练后的预测模型及精度建立多模型加权联合预测模型;
S4.采用步骤S3建立的多模型加权联合预测模型,对步骤S1中的电力客户的投诉数据进行预测;
S5.针对步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据,采用过采样算法进行数据扩充;
S6.组建新的数据训练集,将新的数据训练集分为训练数据和测试数据,采用若干种现有的机器学习算法对该训练数据进行训练,分别建立对应的预测模型,并利用测试数据对各预测模型进行测试并得到各个预测模型的精度;所述的新的数据训练集包括步骤S1中电力客户的历史数据中的电力客户的非投诉数据、步骤S4中预测正确的结果所对应的电力客户的投诉数据和步骤S5得到的扩充后的步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据;
S7.利用步骤S6得到的训练后的预测模型及各个训练后的预测模型的精度,再次建立多模型加权联合预测模型;
S8.重复步骤S4~S7,直至多模型加权联合预测模型的精度满足事先设定的值,从而得到最终的多模型加权联合预测模型;
S9.采用步骤S8得到的最终的多模型加权联合预测模型,对电力客户的投诉进行预测。
步骤S1所述的数据预处理,具体为采用如下步骤进行处理:
A.获取电力系统的客户档案信息、营销系统线路停电信息、采集系统停电信息、95598客户诉求信息和PMS抢修信息;
B.根据步骤A获取的数据信息,选取对应的字段和数据构建客户投诉预测模型输入数据;所述的字段包括基本信息标签、诉求标签、停电标签和目标标签;
C.对步骤B获取的数据进行缺失值处理;
D.对进行缺失值处理后的数据中的电力客户的投诉数据进行过采样,从而得到最终的输入数据。
所述的基本信息标签包括用户编号、行业分类、用户分类、区域或所属单位、用电类别、运行容量、合同容量、负荷性质、是否高能耗、说否预付费、重要性等级、用户状态、城乡类别、负荷特性、市场化属性分类和电压等级。
所述的诉求标签包括保修用户、咨询用户、意见用户、投诉用户、服务申请用户、催办用户、频繁停电投诉用户、电压质量投诉用户、服务行为投诉用户、停送电投诉用户、营业投诉用户、频繁投诉用户、一般投诉用户、投诉属实用户、投诉不属实用户、经常诉求用户、一般诉求用户和无诉求用户。
所述的停电标签包括临时停电用户、计划停电用户、故障停电用户、欠费停电用户、频繁停电用户、一般停电用户和无停电用户。
所述的目标标签包括该月是否投诉标签。
步骤S2所述的预测模型,具体包括BP神经网络模型、随机森林模型、SVM模型、Adaboost模型和朴素贝叶斯模型。
步骤S3所述的建立多模型加权联合预测模型,具体为采用Soft加权算法建立多模型加权联合预测模型。
步骤S4所述的电力客户的投诉数据,具体为步骤S1中未经过过采样的电力客户的投诉数据。
本发明提供的这种基于标签的电力客户投诉预测方法,通过对电力系统历史数据的提取和处理,并将处理后的数据进行多预测模型训练,并将多预测模型联合构成多模型加权联合预测模型进行电力系统的投诉预测,根据预测结果扩充小样本数量,动态更新联合预测模型以提高预测精度,满足系统需求;因此本发明方法能够准确和快速的对电力系统的客户投诉情况进行预测,而且方法简单可靠,科学方便。
附图说明
图1为本发明方法的方法流程图。
具体实施方式
如图1所示为本发明方法的方法流程图:本发明提供的这种基于标签的电力客户投诉预测方法,包括如下步骤:
S1.获取电力客户的历史数据,并进行数据处理,并将处理后的数据分为训练数据和测试数据;所述的历史数据包括电力客户的投诉数据和电力客户的非投诉数据;具体为采用如下步骤进行数据处理:
A.获取电力系统的客户档案信息、营销系统线路停电信息、采集系统停电信息、95598客户诉求信息和PMS抢修信息;
B.根据步骤A获取的数据信息,选取对应的字段和数据构建客户投诉预测模型输入数据;所述的字段包括基本信息标签、诉求标签、停电标签和目标标签;
根据专家结合业务方法初步筛选相关字段,构建基本信息标签、诉求标签、停电标签、目标标签,获取构建投诉预测模型的输入数据宽表。提取样本客户档案信息、营销系统线路停电信息、采集系统停电信息、95598客户诉求信息、PMS抢修信息,相关字段作为客户投诉预测模型宽表,模型宽表字段来自营销系统、用采系统的原始字段和衍生字段,主要分成客户基本信息、诉求信息、停电信息字段;具体如下表1所示:
表1输入数据示意表
同时,由于95598诉求工单信息表没有记录来电工单对应用户编号,需要对95598工单信息表中的受理意见、处理结果文本进行非结构化数据提取,获取对应用户编号,实现诉求工单与停电信息,基本信息的关联,示例如表2:
表2非结构化字段编号提取示例
C.对步骤B获取的数据进行缺失值处理;
数据通常存在缺失或错漏,如客户欠费停电,负荷特性等,存在缺失的现象。若将这些值抛弃掉,将会严重影响投诉预警识别的计算结果,最终导致结果误差很大,为了达到更好的建模效果,需要对缺失值进行处理。以某电力公司今一年的训练数据集中缺失情况为例,如下表3所示。
表3字段缺失表
字段名 | 字段含义 | 缺失数量 | 占比 |
load_feature_code | 负荷特性 | 181756 | 100.00% |
market_prop_sort | 市场化属性 | 166541 | 91.62% |
rrio_code | 重要性等级 | 162190 | 89.25% |
rca_flag | 费控标识 | 14654 | 8.06% |
urban_rural_flag | 城乡标识 | 1154 | 0.63% |
hec_industry_code | 高耗能标识 | 15 | <0.01% |
load_attr_code | 负荷性质 | 13 | <0.01% |
run_cap | 运行容量 | 2 | <0.01% |
cons_sort_code | 用电类别 | 1 | <0.01% |
对于模型宽表中统计型字段,如投诉、报修等,填0;类别型字段,如城乡分类、费控用户等字段采用默认值-1填充;对于大量缺失字段,如负荷特性、市场化属性、欠费停电分类,直接删除该特征,重要性等级缺失占比较大,但考虑特征重要性,保留该特征,采用-1填充;对于异常值占比极少的(<0.01%),直接删除相关记录;欠费停电信息无关联(全为0),直接删除该特征。
D.对进行缺失值处理后的数据中的电力客户的投诉数据进行过采样,从而得到最终的输入数据;
当样本实际发生比例很低时,分类算法就会变得不稳定,预测准确度就会下降许多。从原理上来讲,模型的精准程度取决于正负样本是否可以通过某种规则进行区分。当训练数据集的正负样本数量都较多且比例差别不大时,这种规则的获取就有其普适性,预测的性能也会比较乐观。但是,如果数据集的正负样本数量差别较大,正(负)样本数量过少时,模型对这种规则的总结就比较片面,会过度考虑样本量较少的一方,导致模型失真。
考虑到本模型中正样本(投诉用户)占比不到1%,因此,初始状态时,需通过上采样处理方法,来调整正负样本数量,来校准模型的预测精准程度。
以某电力公司一年的训练数据集为例,过采样前后数据数量对比情况如下表4所示:
表4 SMOTE过采样数据对比
投诉记录数 | 无投诉记录数 | |
原始训练数据 | 555 | 181201 |
过采样训练数据 | 181201 | 181201 |
S2.采用若干种现有的机器学习算法对步骤S1获取的训练数据进行训练,分别建立对应的预测模型,并采用步骤S1获取的测试数据对各预测模型进行测试并得到各个预测模型的精度;
S3.根据步骤S2得到的训练后的预测模型及精度建立多模型加权联合预测模型;
S4.采用步骤S3建立的多模型加权联合预测模型,对步骤S1中的电力客户的投诉数据进行预测;此处所述的电力客户的投诉数据,具体为步骤S1中经过了数据处理的其他步骤但未经过过采样的电力客户的投诉数据;
S5.针对步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据,采用过采样算法进行数据扩充;
S6.组建新的数据训练集,将新的数据训练集分为训练数据和测试数据,采用若干种现有的机器学习算法对该训练数据进行训练,分别建立对应的预测模型,并利用测试数据对各预测模型进行测试并得到各个预测模型的精度;所述的新的数据训练集包括步骤S1中电力客户的历史数据中的电力客户的非投诉数据、步骤S4中预测正确的结果所对应的电力客户的投诉数据和步骤S5得到的扩充后的步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据;
S7.利用步骤S6得到的训练后的预测模型及各个训练后的预测模型的精度,再次建立多模型加权联合预测模型;
S8.重复步骤S4~S7,直至多模型加权联合预测模型的精度满足事先设定的值,从而得到最终的多模型加权联合预测模型。
本发明的核心创新点之一在于:步骤S1中获取了电力客户的历史数据,其中包括了电力客户的非投诉数据(该类数据为大样本)和电力客户的投诉数据(该类数据为小样本);在对数据处理(包括提取数据、缺失值补充等过程)后,只对小样本数据(即电力客户的投诉数据)进行过采样,大样本数据不进行过采样;然后将过采样后的小样本数据连同数据处理(不包括过采样)后的大样本数据一同,作为步骤S2的基础训练数据;但是,在过采样的过程中,可能存在过拟合或边界样本分类准确率较低等问题;所以,在得到联合预测模型后,将联合预测模型仅对进行了数据处理的其他步骤但未进行过采样的小样本数据(未进行过采样的原始的电力客户的投诉数据)进行的单独的预测,并将正确的预测结果所对应的电力客户的投诉数据进行保留,将错误的预测结果所对应的电力客户的投诉数据再次进行单独的过采样;最后,将单独过采样后的电力客户的投诉数据、保留的联合预测模型预测正确的预测结果所对应的电力客户的投诉数据和原始的进行了预处理的电力客户的非投诉数据一同组合成为新的训练数据,从而进行后续的步骤。
采用上述的数据处理过程(即本发明的核心创新点之一),其原因为:在第一次进行全部的小样本数据过采样时,过采样方法可能存在过拟合或边界样本分类准确率较低等问题;因此本发明方法采用二次数据处理和重新构建新的训练数据的过程,以解决该问题。
以下结合一个具体实施例对本发明方法进行进一步说明:
基于2017年1-11月份某电力公司业务源数据,生成2017年4-11月宽表数据(每月265.12万条),筛选每月存在停电、诉求客户的样本做为训练集数据,训练出的投诉预测模型,输入2017年12月份预测集数据,预测12月份前三月存在停电、诉求客户的投诉预测情况。
(1)训练集:基于2017年1-11月份业务系统源表数据,生成宽表数据18.12万条,定义当月有发生投诉的宽表数据为正样本(555条),其余为负样本。
(2)预测集:2017年12月份,生成宽表数据2.53万条,其中标记为投诉客户的101条。
实验使用训练集按8:2拆分,进行模型训练,基于训练(80%)得到的模型在验证集(20%)上进行模型验证。比对5种算法模型验证结果的查准率、查全率、F测度,并对算法进行加权,得到最优的算法模型。
BP神经网络算法验证
基于SMOTE过采样方式的训练集的80%,进行BP神经网络算法十折交叉验证,算法参数设置如下表:
表5 BP神经网络参数
参数名称 | 参数 | 参数值 | |
1 | 学习率 | Alpha | 1e4 |
2 | 隐层大小 | Hidden_layer_sizes | (364,364) |
3 | 激活函数 | Activation | ReLu |
4 | 学习率衰减 | Learn_rate_ini | 0.1 |
5 | 优化器 | Solver | SGD |
6 | 动量 | Momentum | 0.9 |
将训练集进行十折交叉验证,十次验证结果分别为:
【0.4979,0.5002,0.4997,0.5002,0.4997,0.500,0.499,0.4997,0.500,0.500】
剩余20%验证共72481个用户,其中投诉用户36158条,客户投诉预测模型的查准率为25.0%,查全率为50.0%,F测度为0.33。如下表6所示:
表6 BP神经网络的实验结果
总数量 | 查准率 | 查全率 | F测度 | |
无投诉 | 36323 | 0.0% | 0.0% | 0.0 |
投诉 | 36158 | 50.0% | 100.0% | 0.67 |
汇总 | 72481 | 25.0% | 50.0% | 0.33 |
BP神经网络算法对过采样的数据,将用户均判断为投诉用户,这是由于数据集采用SMOTE过采样造成的,导致BP神经网络基本失效。
随机森林算法验证
基于SMOTE过采样方式的训练集的80%,采用进行十折交叉验证,算法参数设置如下表7:
表7随机森林算法参数
参数名称 | 参数 | 参数值 | |
1 | 不纯度度量法 | Criterion | Gini |
2 | 最大特征数 | Max_features | 1 |
3 | 类别权重 | Class_weight | None |
4 | 最大深度 | Max_depth | 5 |
5 | 最大分类器数量 | N_estimators | 10 |
将训练集进行十折交叉验证,十次验证结果分别为:
【0.959,0.914,0.5714,0.7673,0.6761,0.7239,0.8227,0.8950,0.8146,0.8376】
剩余20%验证集客户投诉预测模型的查准率为76.0%,查全率为52.0%,F测度为0.38。如下表8所示:
表8随机森林实验结果
总数量 | 查准率 | 查全率 | F测度 | |
无投诉 | 36323 | 100.0% | 4.0% | 0.08 |
投诉 | 36158 | 51.0% | 100.0% | 0.67 |
汇总 | 72481 | 76.0% | 52.0% | 0.38 |
随机森林算法对过采样数据,仍偏向判断绝大部分用户为投诉用户,能找到并发现所有投诉用户,无投诉用户查准率也达到100%,但查全率仅有4.0%,模型向投诉用户倾斜,十折交叉验证结果最大达到0.959,最小为0.571,且20%用户验证结果与十折交叉验证结果差异较大,表明算法不稳定。
SVM算法验证
基于SMOTE过采样方式的训练集的80%,采用支持向量机算法进行十折交叉验证,为考虑性能,我们采用损失函数为hinge的随机梯度下降法的学习策略算法,参数设置如下表9所示:
表9 SVM算法参数
参数名称 | 参数 | 参数值 | |
1 | 学习率 | Alpha | 1e4 |
2 | L1正则率 | L1-ratio | 0.15 |
3 | 类别权重 | Class_weight | None |
4 | 惩罚项 | Penalty | L2 |
5 | 学习率衰减 | Learning-rate | Optimal |
将训练集进行十折交叉验证,十次验证结果分别为:
【0.5079,0.5002,0.5017,0.4902,0.4997,0.500,0.509,0.4997,0.502,0.500】
剩余20%验证共72481个用户,其中投诉用户36158条,客户投诉预测模型的查准率为25.0%,查全率为50.0%,F测度为0.33。如下表10所示:
表10 SVM实验结果
总数量 | 查准率 | 查全率 | F测度 | |
无投诉 | 36323 | 0.0% | 0.0% | 0.0 |
投诉 | 36158 | 50.0% | 100.0% | 0.67 |
汇总 | 72481 | 25.0% | 50.0% | 0.33 |
SVM算法对过采样的数据,将用户均判断为投诉用户,与BP神经网络类似,这是由于数据集采用SMOTE过采样造成的。
Adaboost算法验证
基于SMOTE过采样方式的训练集的80%,采用Adaboost算法进行十折交叉验证,算法参数设置如表11所示:
表11 Adaboost算法参数
参数名称 | 参数 | 参数值 | |
1 | 基础算法 | Algorithm | SAMME |
2 | 分类器数量 | n_estimators | 100 |
3 | 学习率 | Learning-rate | 1.0 |
将训练集进行十折交叉验证,十次验证结果分别为:
【0.997,0.997,0.997,0.997,0.997,0.997,0.998,0.997,0.998,0.997】
剩余20%验证共72481个用户,其中投诉用户36158条,客户投诉预测模型的查准率为100.0%,查全率为100.0%,F测度为1.0。如下表12所示:
表12 Adaboost算法实验结果
总数量 | 查准率 | 查全率 | F测度 | |
无投诉 | 36323 | 100.0% | 100.0% | 1.0 |
投诉 | 36158 | 100.0% | 100.0% | 1.0 |
汇总 | 72481 | 100.0% | 100.0% | 1.0 |
Adaboost算法对过采样的数据,十折交叉验证结果,能将用户完全分开,在20%验证集上表现一致,这是由于Adaboost算法学习到SMOTE过采样规则导致的过拟合。
朴素贝叶斯算法验证
基于SMOTE过采样方式的训练集的80%,采用朴素贝叶斯算法进行十折交叉验证,十折交叉验证结果如下
【0.510,0.515,0.511,0.515,0.516,0.512,0.516,0.516,0.518,0.512】
剩余20%验证集客户投诉预测模型的查准率为52.0%,查全率为52.0%,F测度为0.49。如表13所示:
表13朴素贝叶斯的实验结果
总数量 | 查准率 | 查全率 | F测度 | |
无投诉 | 36323 | 53.0% | 28.0% | 0.37 |
投诉 | 36158 | 51.0% | 75.0% | 0.61 |
汇总 | 72481 | 52.0% | 52.0% | 0.49 |
朴素贝叶斯算法对过采样的数据,十折交叉验证结果与在20%验证集上表现一致,在投诉F测度较高的情况下,对无投诉用户仍能达到28%的查全率,是相对平衡的模型。
多模型联合加权算法
基于SMOTE过采样方式的训练集的80%,综合以上算法,采用Soft加权,由于BP与SVM算法表现一致,加权过程中只选择BP神经网络算法,各算法权重设置如下表14所示:
表14 SOFT权重表
算法 | 权重 |
Adaboost | 1.5 |
随机森林 | 0.61 |
BP神经网络 | 0.49 |
朴素贝叶斯 | 0.2 |
算法进行十折交叉验证,交叉验证结果如下
【0.9158,0.9215,0.9958,0.8324,0.9041,0.9414,0.9886,0.9132,0.9885,0.9421】
剩余20%验证集客户投诉预测模型的查准率为91.0%,查全率为90.0%,F测度为0.89。如下表15所示:
表15算法SOFT加权的实验结果
总数量 | 查准率 | 查全率 | F测度 | |
无投诉 | 36323 | 99.0% | 80.0% | 0.88 |
投诉 | 36158 | 83.0% | 99.0% | 0.90 |
汇总 | 72481 | 91.0% | 90.0% | 0.89 |
预测投诉用户的查准率达到83.0%,查全率达到99.0%,无投诉用户的查准率达到99.0%,查全率达到80.0%,这是符合投诉小样本占比的预测结果的。
综合上述实验结果,各算法对比如下表16所示:
表16各算法对比结果
算法 | 查准率 | 查全率 | F测度 |
BP神经网络 | 25.0% | 50.0% | 0.33 |
Adaboost | 100.0% | 100.0% | 1.0 |
随机森林 | 76.0% | 52.0% | 0.38 |
支持向量机 | 25.0% | 50.0% | 0.33 |
朴素贝叶斯 | 52.0% | 52.0% | 0.49 |
(1)采用BP神经网络,SVM算法表现一致,对过采样数据无法识别无投诉用户,对投诉用户特征敏感。
(2)随机森林算法在验证集上的验证结果与训练集十折交叉验证结果存在较大差异,算法泛化能力较弱,对投诉用户选取的实际表现与朴素贝叶斯一致。
(3)Adaboost模型存在过拟合,即在训练集学习到的规则与实际应用存在偏差,这是由于SMOTE过采样造成的。
(4)SOFT加权方式能对各个类别的查全查准达到相对平衡的结果。
以上结果表明,不同算法对数据集拟合存在差异,使用多种模型融合投票方式优于单一算法,能保证模型在不对训练数据过拟合的基础上,尽量提高模型准确率。
加权模型预测结果
本章节采用SMOTE过采样方式训练得出的预测模型,对2017年12月份邵阳地区停电、诉求共25358个客户(其中实际投诉101人)的投诉可能性进行预测,根据模型训练的结果,我们选取模型联合加权方式进行预测验证,各算法详细预测清单见附录2。
等权重融合验证结果如下表17所示:
表17 Hard等权重模型融合的实验结果
采用Soft加权,各算法权重设置如下表18所示:
表18 SOFT权重表
算法 | 权重 |
Adaboost | 1.5 |
随机森林 | 0.61 |
BP神经网络 | 0.49 |
朴素贝叶斯 | 0.2 |
模型融合预测结果如下表19所示:
表19 SOFT权重模型融合的实验结果
验证结果表明,模型SOFT权重融合的结果符合预期,投诉用户查准率44%,查全率90.0%,F1值0.59,模型能够在一定查准率的情况下,实现较高查全率。
Claims (9)
1.一种基于标签的电力客户投诉预测方法,包括如下步骤:
S1.获取电力客户的历史数据,并进行数据预处理,并将处理后的数据分为训练数据和测试数据;所述的历史数据包括电力客户的投诉数据和电力客户的非投诉数据;
S2.采用若干种现有的机器学习算法对步骤S1获取的训练数据进行训练,分别建立对应的预测模型,并采用步骤S1获取的测试数据对各预测模型进行测试并得到各个预测模型的精度;
S3.根据步骤S2得到的训练后的预测模型及精度建立多模型加权联合预测模型;
S4.采用步骤S3建立的多模型加权联合预测模型,对步骤S1中的电力客户的投诉数据进行预测;
S5.针对步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据,采用过采样算法进行数据扩充;
S6.组建新的数据训练集,将新的数据训练集分为训练数据和测试数据,采用若干种现有的机器学习算法对该训练数据进行训练,分别建立对应的预测模型,并利用测试数据对各预测模型进行测试并得到各个预测模型的精度;所述的新的数据训练集包括步骤S1中电力客户的历史数据中的电力客户的非投诉数据、步骤S4中预测正确的结果所对应的电力客户的投诉数据和步骤S5得到的扩充后的步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据;
S7.利用步骤S6得到的训练后的预测模型及各个训练后的预测模型的精度,再次建立多模型加权联合预测模型;
S8.重复步骤S4~S7,直至多模型加权联合预测模型的精度满足事先设定的值,从而得到最终的多模型加权联合预测模型;
S9.采用步骤S8得到的最终的多模型加权联合预测模型,对电力客户的投诉进行预测。
2.根据权利要求1所述的基于标签的电力客户投诉预测方法,其特征在于步骤S1所述的数据预处理,具体为采用如下步骤进行处理:
A.获取电力系统的客户档案信息、营销系统线路停电信息、采集系统停电信息、95598客户诉求信息和PMS抢修信息;
B.根据步骤A获取的数据信息,选取对应的字段和数据构建客户投诉预测模型输入数据;所述的字段包括基本信息标签、诉求标签、停电标签和目标标签;
C.对步骤B获取的数据进行缺失值处理;
D.对进行缺失值处理后的数据中的电力客户的投诉数据进行过采样,从而得到最终的输入数据。
3.根据权利要求2所述的基于标签的电力客户投诉预测方法,其特征在于所述的基本信息标签包括用户编号、行业分类、用户分类、区域或所属单位、用电类别、运行容量、合同容量、负荷性质、是否高能耗、说否预付费、重要性等级、用户状态、城乡类别、负荷特性、市场化属性分类和电压等级。
4.根据权利要求2所述的基于标签的电力客户投诉预测方法,其特征在于所述的诉求标签包括保修用户、咨询用户、意见用户、投诉用户、服务申请用户、催办用户、频繁停电投诉用户、电压质量投诉用户、服务行为投诉用户、停送电投诉用户、营业投诉用户、频繁投诉用户、一般投诉用户、投诉属实用户、投诉不属实用户、经常诉求用户、一般诉求用户和无诉求用户。
5.根据权利要求2所述的基于标签的电力客户投诉预测方法,其特征在于所述的停电标签包括临时停电用户、计划停电用户、故障停电用户、欠费停电用户、频繁停电用户、一般停电用户和无停电用户。
6.根据权利要求2所述的基于标签的电力客户投诉预测方法,其特征在于所述的目标标签包括该月是否投诉标签。
7.根据权利要求1~6之一所述的基于标签的电力客户投诉预测方法,其特征在于步骤S2所述的机器学习算法,具体包括BP神经网络模型、随机森林模型、SVM模型、Adaboost模型和朴素贝叶斯模型。
8.根据权利要求1~6之一所述的基于标签的电力客户投诉预测方法,其特征在于步骤S3所述的建立多模型加权联合预测模型,具体为采用Soft加权算法建立多模型加权联合预测模型。
9.根据权利要求2所述的基于标签的电力客户投诉预测方法,其特征在于步骤S4所述的电力客户的投诉数据,具体为步骤S1中未经过过采样的电力客户的投诉数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811325958.2A CN109447364B (zh) | 2018-11-08 | 2018-11-08 | 基于标签的电力客户投诉预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811325958.2A CN109447364B (zh) | 2018-11-08 | 2018-11-08 | 基于标签的电力客户投诉预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109447364A true CN109447364A (zh) | 2019-03-08 |
CN109447364B CN109447364B (zh) | 2021-02-09 |
Family
ID=65551938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811325958.2A Active CN109447364B (zh) | 2018-11-08 | 2018-11-08 | 基于标签的电力客户投诉预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447364B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110881A (zh) * | 2019-03-21 | 2019-08-09 | 贵州电网有限责任公司 | 电力客户需求预测分析方法及系统 |
CN110119881A (zh) * | 2019-04-12 | 2019-08-13 | 国网河北省电力有限公司邢台供电分公司 | 基于用电感知的电力决策方法、装置及终端 |
CN110298611A (zh) * | 2019-05-16 | 2019-10-01 | 重庆瑞尔科技发展有限公司 | 基于随机森林与深度学习的船舶货运效率调控方法及系统 |
CN110503249A (zh) * | 2019-08-07 | 2019-11-26 | 国网河北省电力有限公司 | 一种由停电引起的投诉预测方法 |
CN110765268A (zh) * | 2019-10-31 | 2020-02-07 | 国网河北省电力有限公司电力科学研究院 | 一种基于客户诉求的配网精准投资策略方法 |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
CN111325405A (zh) * | 2020-03-02 | 2020-06-23 | 贵州电网有限责任公司 | 一种抱怨敏感度建模预测方法 |
CN112329895A (zh) * | 2021-01-05 | 2021-02-05 | 国网江西综合能源服务有限公司 | 一种具有窃电嫌疑的用户的识别方法及装置 |
CN112749841A (zh) * | 2020-12-30 | 2021-05-04 | 科大国创云网科技有限公司 | 一种基于自训练学习的用户口碑预测方法及系统 |
CN113468823A (zh) * | 2021-07-26 | 2021-10-01 | 中兴飞流信息科技有限公司 | 一种基于机器学习的光模块损坏检测方法及系统 |
CN113469536A (zh) * | 2021-07-06 | 2021-10-01 | 云南电网有限责任公司 | 一种供电服务客户投诉风险等级识别方法 |
CN113554241A (zh) * | 2021-09-02 | 2021-10-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN113592297A (zh) * | 2021-07-30 | 2021-11-02 | 国家电网有限公司客户服务中心 | 一种电力系统专属式客户管理方法及系统 |
CN113673579A (zh) * | 2021-07-27 | 2021-11-19 | 国网湖北省电力有限公司营销服务中心(计量中心) | 一种基于小样本的用电负荷分类算法 |
CN113780677A (zh) * | 2021-09-26 | 2021-12-10 | 深圳供电局有限公司 | 一种潜在电力重复诉求用户的预测方法及装置 |
CN115456210A (zh) * | 2022-08-22 | 2022-12-09 | 国网浙江省电力有限公司杭州市临安区供电公司 | 一种基于级联逻辑回归贝叶斯算法的用电投诉预警方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617467A (zh) * | 2013-12-13 | 2014-03-05 | 重庆大学 | 一种短期组合负荷预测方法 |
CN107046480A (zh) * | 2017-04-17 | 2017-08-15 | 广东经纬天地科技股份有限公司 | 一种用户感知评估方法及装置 |
CN107220732A (zh) * | 2017-05-31 | 2017-09-29 | 福州大学 | 一种基于梯度提升树的停电投诉风险预测方法 |
CN107240033A (zh) * | 2017-06-07 | 2017-10-10 | 国家电网公司客户服务中心 | 一种电力识别模型的构建方法及系统 |
CN107330477A (zh) * | 2017-07-24 | 2017-11-07 | 南京邮电大学 | 一种针对非均衡数据分类的改进smote再抽样方法 |
-
2018
- 2018-11-08 CN CN201811325958.2A patent/CN109447364B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617467A (zh) * | 2013-12-13 | 2014-03-05 | 重庆大学 | 一种短期组合负荷预测方法 |
CN107046480A (zh) * | 2017-04-17 | 2017-08-15 | 广东经纬天地科技股份有限公司 | 一种用户感知评估方法及装置 |
CN107220732A (zh) * | 2017-05-31 | 2017-09-29 | 福州大学 | 一种基于梯度提升树的停电投诉风险预测方法 |
CN107240033A (zh) * | 2017-06-07 | 2017-10-10 | 国家电网公司客户服务中心 | 一种电力识别模型的构建方法及系统 |
CN107330477A (zh) * | 2017-07-24 | 2017-11-07 | 南京邮电大学 | 一种针对非均衡数据分类的改进smote再抽样方法 |
Non-Patent Citations (1)
Title |
---|
朱龙珠 等: ""基于随机森林算法的投诉预警模型优化方法"", 《电力信息与通信技术》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110881B (zh) * | 2019-03-21 | 2021-10-26 | 贵州电网有限责任公司 | 电力客户需求预测分析方法及系统 |
CN110110881A (zh) * | 2019-03-21 | 2019-08-09 | 贵州电网有限责任公司 | 电力客户需求预测分析方法及系统 |
CN110119881A (zh) * | 2019-04-12 | 2019-08-13 | 国网河北省电力有限公司邢台供电分公司 | 基于用电感知的电力决策方法、装置及终端 |
CN110298611A (zh) * | 2019-05-16 | 2019-10-01 | 重庆瑞尔科技发展有限公司 | 基于随机森林与深度学习的船舶货运效率调控方法及系统 |
CN110503249A (zh) * | 2019-08-07 | 2019-11-26 | 国网河北省电力有限公司 | 一种由停电引起的投诉预测方法 |
CN110765268A (zh) * | 2019-10-31 | 2020-02-07 | 国网河北省电力有限公司电力科学研究院 | 一种基于客户诉求的配网精准投资策略方法 |
CN110765268B (zh) * | 2019-10-31 | 2022-04-22 | 国网河北省电力有限公司电力科学研究院 | 一种基于客户诉求的配网精准投资策略方法 |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
CN111325405A (zh) * | 2020-03-02 | 2020-06-23 | 贵州电网有限责任公司 | 一种抱怨敏感度建模预测方法 |
CN112749841A (zh) * | 2020-12-30 | 2021-05-04 | 科大国创云网科技有限公司 | 一种基于自训练学习的用户口碑预测方法及系统 |
CN112329895A (zh) * | 2021-01-05 | 2021-02-05 | 国网江西综合能源服务有限公司 | 一种具有窃电嫌疑的用户的识别方法及装置 |
CN113469536A (zh) * | 2021-07-06 | 2021-10-01 | 云南电网有限责任公司 | 一种供电服务客户投诉风险等级识别方法 |
CN113468823A (zh) * | 2021-07-26 | 2021-10-01 | 中兴飞流信息科技有限公司 | 一种基于机器学习的光模块损坏检测方法及系统 |
CN113468823B (zh) * | 2021-07-26 | 2023-11-14 | 中兴飞流信息科技有限公司 | 一种基于机器学习的光模块损坏检测方法及系统 |
CN113673579A (zh) * | 2021-07-27 | 2021-11-19 | 国网湖北省电力有限公司营销服务中心(计量中心) | 一种基于小样本的用电负荷分类算法 |
CN113592297A (zh) * | 2021-07-30 | 2021-11-02 | 国家电网有限公司客户服务中心 | 一种电力系统专属式客户管理方法及系统 |
CN113592297B (zh) * | 2021-07-30 | 2023-11-24 | 国家电网有限公司客户服务中心 | 一种电力系统专属式客户管理方法及系统 |
CN113554241A (zh) * | 2021-09-02 | 2021-10-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN113554241B (zh) * | 2021-09-02 | 2024-04-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN113780677A (zh) * | 2021-09-26 | 2021-12-10 | 深圳供电局有限公司 | 一种潜在电力重复诉求用户的预测方法及装置 |
CN115456210A (zh) * | 2022-08-22 | 2022-12-09 | 国网浙江省电力有限公司杭州市临安区供电公司 | 一种基于级联逻辑回归贝叶斯算法的用电投诉预警方法 |
CN115456210B (zh) * | 2022-08-22 | 2024-04-12 | 国网浙江省电力有限公司杭州市临安区供电公司 | 一种基于级联逻辑回归贝叶斯算法的用电投诉预警方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109447364B (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447364A (zh) | 基于标签的电力客户投诉预测方法 | |
WO2020249125A1 (zh) | 用于自动训练机器学习模型的方法和系统 | |
CN106651424B (zh) | 基于大数据技术的电力用户画像建立与分析方法 | |
CN103761254B (zh) | 多领域服务主题匹配推荐方法 | |
CN101556553B (zh) | 基于需求变更的缺陷预测方法和系统 | |
US20080097937A1 (en) | Distributed method for integrating data mining and text categorization techniques | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN111210111B (zh) | 一种基于在线学习与众包数据分析的城市环境评估方法和系统 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN102999615A (zh) | 基于径向基函数神经网络的多样化图像标注和检索方法 | |
CN108965938A (zh) | 智能电视中潜在付费用户预测方法及系统 | |
CN111984873A (zh) | 一种服务推荐系统和方法 | |
CN109408574A (zh) | 基于文本挖掘技术的投诉责任认定系统 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
WO2023071127A1 (zh) | 政策推荐方法、装置、设备及存储介质 | |
CN112116103A (zh) | 基于联邦学习的个人资质评估方法、装置及系统及存储介质 | |
CN107392217A (zh) | 计算机实现的信息处理方法及装置 | |
CN110310012A (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 | |
CN110362828A (zh) | 网络资讯风险识别方法及系统 | |
CN109992592A (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
Zhang et al. | Dynamic time warp-based clustering: Application of machine learning algorithms to simulation input modelling | |
CN107908620A (zh) | 一种基于工作文档预判用户职业的方法和装置 | |
CN114862514A (zh) | 一种基于元学习的用户偏好商品推荐方法 | |
Zhou et al. | Refined taxi demand prediction with ST-Vec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |