CN109447364A

CN109447364A - 基于标签的电力客户投诉预测方法

Info

Publication number: CN109447364A
Application number: CN201811325958.2A
Authority: CN
Inventors: 李键; 帅勇; 吴佼; 张迎平; 李凯; 王伟能; 蒋毅舟; 唐军; 贺电
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-08
Anticipated expiration: 2038-11-08
Also published as: CN109447364B

Abstract

本发明公开了一种基于标签的电力客户投诉预测方法，包括获取电力客户的历史数据并处理；采用机器学习算法训练训练数据，建立预测模型并得到预测模型的精度；建立多模型加权联合预测模型；多模型加权联合预测模型预测电力客户的投诉数据；过采样算法扩充进据；组建新的数据训练集，采用机器学习算法该训练新的训练数据，建立预测模型并得到预测模型的精度；再次建立多模型加权联合预测模型；重复上述步骤直至精度符合要求；采用得到的最终的多模型加权联合预测模型对电力客户的投诉进行预测。本发明方法能够准确和快速的对电力系统的客户投诉情况进行预测，而且方法简单可靠，科学方便。

Description

基于标签的电力客户投诉预测方法

技术领域

本发明具体涉及一种基于标签的电力客户投诉预测方法。

背景技术

随着经济技术的发展，电能已经成为了人们生产和生活中必不可少的二次能源，给人们的生产和生活带来了无尽的便利。因此，电能供应的可靠性就成为了电力系统的首要目标之一。

同时，随着电力系统的发展，人们对电力系统的服务也提出了新的要求。而电力系统为了进一步提升服务水平，超前识别客户投诉服务风险客户，支撑服务管控就显得异常重要。

目前，对于电力客户投诉的预测，有很多预测技术。比如基于神经网络的方法，其虽然预测精确，但是计算量很大；比如支持向量机的方法，其虽然对缺失数据敏感，但是对非线性问题没有通用解决方案，而且计算量大；而朴素贝叶斯方法仅适合特征相关性较小的情况；随机森林算法对多元共线性不敏感，结果对缺失数据和非平衡的数据比较稳健，能够处理高维度数据，且不用做特征选择，在相对短的时间内能够对大型数据源做出可行且效果良好的结果；而朴素贝叶斯有着非常坚实的数学基础，效果非常好，缺点是不能处理特征之间的相互影响。此外，采集到的电力客户数据样本复杂且正负样本极不平衡，这也给准确预测潜在的投诉客户带来困难。

发明内容

本发明的目的在于提供一种能够准确和快速对电力系统的客户投诉情况进行预测的基于标签的电力客户投诉预测方法。

本发明提供的这种基于标签的电力客户投诉预测方法，包括如下步骤：

S1.获取电力客户的历史数据，并进行数据预处理，并将处理后的数据分为训练数据和测试数据；所述的历史数据包括电力客户的投诉数据和电力客户的非投诉数据；

S2.采用若干种现有的机器学习算法对步骤S1获取的训练数据进行训练，分别建立对应的预测模型，并采用步骤S1获取的测试数据对各预测模型进行测试并得到各个预测模型的精度；

S3.根据步骤S2得到的训练后的预测模型及精度建立多模型加权联合预测模型；

S4.采用步骤S3建立的多模型加权联合预测模型，对步骤S1中的电力客户的投诉数据进行预测；

S5.针对步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据，采用过采样算法进行数据扩充；

S6.组建新的数据训练集，将新的数据训练集分为训练数据和测试数据，采用若干种现有的机器学习算法对该训练数据进行训练，分别建立对应的预测模型，并利用测试数据对各预测模型进行测试并得到各个预测模型的精度；所述的新的数据训练集包括步骤S1中电力客户的历史数据中的电力客户的非投诉数据、步骤S4中预测正确的结果所对应的电力客户的投诉数据和步骤S5得到的扩充后的步骤S4得到的预测结果中预测错误的结果所对应的电力客户的投诉数据；

S7.利用步骤S6得到的训练后的预测模型及各个训练后的预测模型的精度，再次建立多模型加权联合预测模型；

S8.重复步骤S4～S7，直至多模型加权联合预测模型的精度满足事先设定的值，从而得到最终的多模型加权联合预测模型；

S9.采用步骤S8得到的最终的多模型加权联合预测模型，对电力客户的投诉进行预测。

步骤S1所述的数据预处理，具体为采用如下步骤进行处理：

A.获取电力系统的客户档案信息、营销系统线路停电信息、采集系统停电信息、95598客户诉求信息和PMS抢修信息；

B.根据步骤A获取的数据信息，选取对应的字段和数据构建客户投诉预测模型输入数据；所述的字段包括基本信息标签、诉求标签、停电标签和目标标签；

C.对步骤B获取的数据进行缺失值处理；

D.对进行缺失值处理后的数据中的电力客户的投诉数据进行过采样，从而得到最终的输入数据。

所述的基本信息标签包括用户编号、行业分类、用户分类、区域或所属单位、用电类别、运行容量、合同容量、负荷性质、是否高能耗、说否预付费、重要性等级、用户状态、城乡类别、负荷特性、市场化属性分类和电压等级。

所述的诉求标签包括保修用户、咨询用户、意见用户、投诉用户、服务申请用户、催办用户、频繁停电投诉用户、电压质量投诉用户、服务行为投诉用户、停送电投诉用户、营业投诉用户、频繁投诉用户、一般投诉用户、投诉属实用户、投诉不属实用户、经常诉求用户、一般诉求用户和无诉求用户。

所述的停电标签包括临时停电用户、计划停电用户、故障停电用户、欠费停电用户、频繁停电用户、一般停电用户和无停电用户。

所述的目标标签包括该月是否投诉标签。

步骤S2所述的预测模型，具体包括BP神经网络模型、随机森林模型、SVM模型、Adaboost模型和朴素贝叶斯模型。

步骤S3所述的建立多模型加权联合预测模型，具体为采用Soft加权算法建立多模型加权联合预测模型。

步骤S4所述的电力客户的投诉数据，具体为步骤S1中未经过过采样的电力客户的投诉数据。

本发明提供的这种基于标签的电力客户投诉预测方法，通过对电力系统历史数据的提取和处理，并将处理后的数据进行多预测模型训练，并将多预测模型联合构成多模型加权联合预测模型进行电力系统的投诉预测，根据预测结果扩充小样本数量，动态更新联合预测模型以提高预测精度，满足系统需求；因此本发明方法能够准确和快速的对电力系统的客户投诉情况进行预测，而且方法简单可靠，科学方便。

附图说明

图1为本发明方法的方法流程图。

具体实施方式

如图1所示为本发明方法的方法流程图：本发明提供的这种基于标签的电力客户投诉预测方法，包括如下步骤：

S1.获取电力客户的历史数据，并进行数据处理，并将处理后的数据分为训练数据和测试数据；所述的历史数据包括电力客户的投诉数据和电力客户的非投诉数据；具体为采用如下步骤进行数据处理：

根据专家结合业务方法初步筛选相关字段，构建基本信息标签、诉求标签、停电标签、目标标签，获取构建投诉预测模型的输入数据宽表。提取样本客户档案信息、营销系统线路停电信息、采集系统停电信息、95598客户诉求信息、PMS抢修信息，相关字段作为客户投诉预测模型宽表，模型宽表字段来自营销系统、用采系统的原始字段和衍生字段，主要分成客户基本信息、诉求信息、停电信息字段；具体如下表1所示：

表1输入数据示意表

同时，由于95598诉求工单信息表没有记录来电工单对应用户编号，需要对95598工单信息表中的受理意见、处理结果文本进行非结构化数据提取，获取对应用户编号，实现诉求工单与停电信息，基本信息的关联，示例如表2：

表2非结构化字段编号提取示例

C.对步骤B获取的数据进行缺失值处理；

数据通常存在缺失或错漏，如客户欠费停电，负荷特性等，存在缺失的现象。若将这些值抛弃掉，将会严重影响投诉预警识别的计算结果，最终导致结果误差很大，为了达到更好的建模效果，需要对缺失值进行处理。以某电力公司今一年的训练数据集中缺失情况为例，如下表3所示。

表3字段缺失表

字段名	字段含义	缺失数量	占比
				load_feature_code	负荷特性	181756	100.00％
market_prop_sort	市场化属性	166541	91.62％
				rrio_code	重要性等级	162190	89.25％
rca_flag	费控标识	14654	8.06％
				urban_rural_flag	城乡标识	1154	0.63％
hec_industry_code	高耗能标识	15	<0.01％
				load_attr_code	负荷性质	13	<0.01％
run_cap	运行容量	2	<0.01％
				cons_sort_code	用电类别	1	<0.01％

对于模型宽表中统计型字段，如投诉、报修等，填0；类别型字段，如城乡分类、费控用户等字段采用默认值-1填充；对于大量缺失字段，如负荷特性、市场化属性、欠费停电分类，直接删除该特征，重要性等级缺失占比较大，但考虑特征重要性，保留该特征，采用-1填充；对于异常值占比极少的(<0.01％)，直接删除相关记录；欠费停电信息无关联(全为0)，直接删除该特征。

D.对进行缺失值处理后的数据中的电力客户的投诉数据进行过采样，从而得到最终的输入数据；

当样本实际发生比例很低时，分类算法就会变得不稳定，预测准确度就会下降许多。从原理上来讲，模型的精准程度取决于正负样本是否可以通过某种规则进行区分。当训练数据集的正负样本数量都较多且比例差别不大时，这种规则的获取就有其普适性，预测的性能也会比较乐观。但是，如果数据集的正负样本数量差别较大，正(负)样本数量过少时，模型对这种规则的总结就比较片面，会过度考虑样本量较少的一方，导致模型失真。

考虑到本模型中正样本(投诉用户)占比不到1％，因此，初始状态时，需通过上采样处理方法，来调整正负样本数量，来校准模型的预测精准程度。

以某电力公司一年的训练数据集为例，过采样前后数据数量对比情况如下表4所示：

表4 SMOTE过采样数据对比

	投诉记录数	无投诉记录数
			原始训练数据	555	181201
过采样训练数据	181201	181201

S4.采用步骤S3建立的多模型加权联合预测模型，对步骤S1中的电力客户的投诉数据进行预测；此处所述的电力客户的投诉数据，具体为步骤S1中经过了数据处理的其他步骤但未经过过采样的电力客户的投诉数据；

S8.重复步骤S4～S7，直至多模型加权联合预测模型的精度满足事先设定的值，从而得到最终的多模型加权联合预测模型。

本发明的核心创新点之一在于：步骤S1中获取了电力客户的历史数据，其中包括了电力客户的非投诉数据(该类数据为大样本)和电力客户的投诉数据(该类数据为小样本)；在对数据处理(包括提取数据、缺失值补充等过程)后，只对小样本数据(即电力客户的投诉数据)进行过采样，大样本数据不进行过采样；然后将过采样后的小样本数据连同数据处理(不包括过采样)后的大样本数据一同，作为步骤S2的基础训练数据；但是，在过采样的过程中，可能存在过拟合或边界样本分类准确率较低等问题；所以，在得到联合预测模型后，将联合预测模型仅对进行了数据处理的其他步骤但未进行过采样的小样本数据(未进行过采样的原始的电力客户的投诉数据)进行的单独的预测，并将正确的预测结果所对应的电力客户的投诉数据进行保留，将错误的预测结果所对应的电力客户的投诉数据再次进行单独的过采样；最后，将单独过采样后的电力客户的投诉数据、保留的联合预测模型预测正确的预测结果所对应的电力客户的投诉数据和原始的进行了预处理的电力客户的非投诉数据一同组合成为新的训练数据，从而进行后续的步骤。

采用上述的数据处理过程(即本发明的核心创新点之一)，其原因为：在第一次进行全部的小样本数据过采样时，过采样方法可能存在过拟合或边界样本分类准确率较低等问题；因此本发明方法采用二次数据处理和重新构建新的训练数据的过程，以解决该问题。

以下结合一个具体实施例对本发明方法进行进一步说明：

基于2017年1-11月份某电力公司业务源数据，生成2017年4-11月宽表数据(每月265.12万条)，筛选每月存在停电、诉求客户的样本做为训练集数据，训练出的投诉预测模型，输入2017年12月份预测集数据，预测12月份前三月存在停电、诉求客户的投诉预测情况。

(1)训练集：基于2017年1-11月份业务系统源表数据，生成宽表数据18.12万条，定义当月有发生投诉的宽表数据为正样本(555条)，其余为负样本。

(2)预测集：2017年12月份，生成宽表数据2.53万条，其中标记为投诉客户的101条。

实验使用训练集按8:2拆分，进行模型训练，基于训练(80％)得到的模型在验证集(20％)上进行模型验证。比对5种算法模型验证结果的查准率、查全率、F测度，并对算法进行加权，得到最优的算法模型。

BP神经网络算法验证

基于SMOTE过采样方式的训练集的80％，进行BP神经网络算法十折交叉验证，算法参数设置如下表：

表5 BP神经网络参数

	参数名称	参数	参数值
				1	学习率	Alpha	1e4
2	隐层大小	Hidden_layer_sizes	(364，364)
				3	激活函数	Activation	ReLu
4	学习率衰减	Learn_rate_ini	0.1
				5	优化器	Solver	SGD
6	动量	Momentum	0.9

将训练集进行十折交叉验证，十次验证结果分别为:

【0.4979，0.5002，0.4997，0.5002，0.4997，0.500，0.499，0.4997，0.500，0.500】

剩余20％验证共72481个用户，其中投诉用户36158条，客户投诉预测模型的查准率为25.0％，查全率为50.0％，F测度为0.33。如下表6所示：

表6 BP神经网络的实验结果

	总数量	查准率	查全率	F测度
					无投诉	36323	0.0％	0.0％	0.0
投诉	36158	50.0％	100.0％	0.67
					汇总	72481	25.0％	50.0％	0.33

BP神经网络算法对过采样的数据，将用户均判断为投诉用户，这是由于数据集采用SMOTE过采样造成的，导致BP神经网络基本失效。

随机森林算法验证

基于SMOTE过采样方式的训练集的80％，采用进行十折交叉验证，算法参数设置如下表7：

表7随机森林算法参数

	参数名称	参数	参数值
				1	不纯度度量法	Criterion	Gini
2	最大特征数	Max_features	1
				3	类别权重	Class_weight	None
4	最大深度	Max_depth	5
				5	最大分类器数量	N_estimators	10

将训练集进行十折交叉验证，十次验证结果分别为:

【0.959，0.914，0.5714，0.7673，0.6761，0.7239，0.8227，0.8950，0.8146，0.8376】

剩余20％验证集客户投诉预测模型的查准率为76.0％，查全率为52.0％，F测度为0.38。如下表8所示：

表8随机森林实验结果

	总数量	查准率	查全率	F测度
					无投诉	36323	100.0％	4.0％	0.08
投诉	36158	51.0％	100.0％	0.67
					汇总	72481	76.0％	52.0％	0.38

随机森林算法对过采样数据，仍偏向判断绝大部分用户为投诉用户，能找到并发现所有投诉用户，无投诉用户查准率也达到100％，但查全率仅有4.0％，模型向投诉用户倾斜，十折交叉验证结果最大达到0.959，最小为0.571，且20％用户验证结果与十折交叉验证结果差异较大，表明算法不稳定。

SVM算法验证

基于SMOTE过采样方式的训练集的80％，采用支持向量机算法进行十折交叉验证，为考虑性能，我们采用损失函数为hinge的随机梯度下降法的学习策略算法，参数设置如下表9所示：

表9 SVM算法参数

	参数名称	参数	参数值
				1	学习率	Alpha	1e4
2	L1正则率	L1-ratio	0.15
				3	类别权重	Class_weight	None
4	惩罚项	Penalty	L2
				5	学习率衰减	Learning-rate	Optimal

将训练集进行十折交叉验证，十次验证结果分别为:

【0.5079，0.5002，0.5017，0.4902，0.4997，0.500，0.509，0.4997，0.502，0.500】

剩余20％验证共72481个用户，其中投诉用户36158条，客户投诉预测模型的查准率为25.0％，查全率为50.0％，F测度为0.33。如下表10所示：

表10 SVM实验结果

SVM算法对过采样的数据，将用户均判断为投诉用户，与BP神经网络类似，这是由于数据集采用SMOTE过采样造成的。

Adaboost算法验证

基于SMOTE过采样方式的训练集的80％，采用Adaboost算法进行十折交叉验证，算法参数设置如表11所示：

表11 Adaboost算法参数

	参数名称	参数	参数值
				1	基础算法	Algorithm	SAMME
2	分类器数量	n_estimators	100
				3	学习率	Learning-rate	1.0

将训练集进行十折交叉验证，十次验证结果分别为:

【0.997，0.997，0.997，0.997，0.997，0.997，0.998，0.997，0.998，0.997】

剩余20％验证共72481个用户，其中投诉用户36158条，客户投诉预测模型的查准率为100.0％，查全率为100.0％，F测度为1.0。如下表12所示：

表12 Adaboost算法实验结果

	总数量	查准率	查全率	F测度
					无投诉	36323	100.0％	100.0％	1.0
投诉	36158	100.0％	100.0％	1.0
					汇总	72481	100.0％	100.0％	1.0

Adaboost算法对过采样的数据，十折交叉验证结果，能将用户完全分开，在20％验证集上表现一致，这是由于Adaboost算法学习到SMOTE过采样规则导致的过拟合。

朴素贝叶斯算法验证

基于SMOTE过采样方式的训练集的80％，采用朴素贝叶斯算法进行十折交叉验证，十折交叉验证结果如下

【0.510，0.515，0.511，0.515，0.516，0.512，0.516，0.516，0.518，0.512】

剩余20％验证集客户投诉预测模型的查准率为52.0％，查全率为52.0％，F测度为0.49。如表13所示：

表13朴素贝叶斯的实验结果

	总数量	查准率	查全率	F测度
					无投诉	36323	53.0％	28.0％	0.37
投诉	36158	51.0％	75.0％	0.61
					汇总	72481	52.0％	52.0％	0.49

朴素贝叶斯算法对过采样的数据，十折交叉验证结果与在20％验证集上表现一致，在投诉F测度较高的情况下，对无投诉用户仍能达到28％的查全率，是相对平衡的模型。

多模型联合加权算法

基于SMOTE过采样方式的训练集的80％，综合以上算法，采用Soft加权，由于BP与SVM算法表现一致，加权过程中只选择BP神经网络算法，各算法权重设置如下表14所示：

表14 SOFT权重表

算法	权重
		Adaboost	1.5
随机森林	0.61
		BP神经网络	0.49
朴素贝叶斯	0.2

算法进行十折交叉验证，交叉验证结果如下

【0.9158，0.9215，0.9958，0.8324，0.9041，0.9414，0.9886，0.9132，0.9885，0.9421】

剩余20％验证集客户投诉预测模型的查准率为91.0％，查全率为90.0％，F测度为0.89。如下表15所示：

表15算法SOFT加权的实验结果

	总数量	查准率	查全率	F测度
					无投诉	36323	99.0％	80.0％	0.88
投诉	36158	83.0％	99.0％	0.90
					汇总	72481	91.0％	90.0％	0.89

预测投诉用户的查准率达到83.0％，查全率达到99.0％，无投诉用户的查准率达到99.0％，查全率达到80.0％，这是符合投诉小样本占比的预测结果的。

综合上述实验结果，各算法对比如下表16所示：

表16各算法对比结果

算法	查准率	查全率	F测度
				BP神经网络	25.0％	50.0％	0.33
Adaboost	100.0％	100.0％	1.0
				随机森林	76.0％	52.0％	0.38
支持向量机	25.0％	50.0％	0.33
				朴素贝叶斯	52.0％	52.0％	0.49

(1)采用BP神经网络，SVM算法表现一致，对过采样数据无法识别无投诉用户，对投诉用户特征敏感。

(2)随机森林算法在验证集上的验证结果与训练集十折交叉验证结果存在较大差异，算法泛化能力较弱，对投诉用户选取的实际表现与朴素贝叶斯一致。

(3)Adaboost模型存在过拟合，即在训练集学习到的规则与实际应用存在偏差，这是由于SMOTE过采样造成的。

(4)SOFT加权方式能对各个类别的查全查准达到相对平衡的结果。

以上结果表明，不同算法对数据集拟合存在差异，使用多种模型融合投票方式优于单一算法，能保证模型在不对训练数据过拟合的基础上，尽量提高模型准确率。

加权模型预测结果

本章节采用SMOTE过采样方式训练得出的预测模型，对2017年12月份邵阳地区停电、诉求共25358个客户(其中实际投诉101人)的投诉可能性进行预测，根据模型训练的结果，我们选取模型联合加权方式进行预测验证，各算法详细预测清单见附录2。

等权重融合验证结果如下表17所示：

表17 Hard等权重模型融合的实验结果

采用Soft加权，各算法权重设置如下表18所示：

表18 SOFT权重表

模型融合预测结果如下表19所示：

表19 SOFT权重模型融合的实验结果

验证结果表明，模型SOFT权重融合的结果符合预期，投诉用户查准率44％，查全率90.0％，F1值0.59，模型能够在一定查准率的情况下，实现较高查全率。

Claims

1.一种基于标签的电力客户投诉预测方法，包括如下步骤：

2.根据权利要求1所述的基于标签的电力客户投诉预测方法，其特征在于步骤S1所述的数据预处理，具体为采用如下步骤进行处理：

C.对步骤B获取的数据进行缺失值处理；

3.根据权利要求2所述的基于标签的电力客户投诉预测方法，其特征在于所述的基本信息标签包括用户编号、行业分类、用户分类、区域或所属单位、用电类别、运行容量、合同容量、负荷性质、是否高能耗、说否预付费、重要性等级、用户状态、城乡类别、负荷特性、市场化属性分类和电压等级。

4.根据权利要求2所述的基于标签的电力客户投诉预测方法，其特征在于所述的诉求标签包括保修用户、咨询用户、意见用户、投诉用户、服务申请用户、催办用户、频繁停电投诉用户、电压质量投诉用户、服务行为投诉用户、停送电投诉用户、营业投诉用户、频繁投诉用户、一般投诉用户、投诉属实用户、投诉不属实用户、经常诉求用户、一般诉求用户和无诉求用户。

5.根据权利要求2所述的基于标签的电力客户投诉预测方法，其特征在于所述的停电标签包括临时停电用户、计划停电用户、故障停电用户、欠费停电用户、频繁停电用户、一般停电用户和无停电用户。

6.根据权利要求2所述的基于标签的电力客户投诉预测方法，其特征在于所述的目标标签包括该月是否投诉标签。

7.根据权利要求1～6之一所述的基于标签的电力客户投诉预测方法，其特征在于步骤S2所述的机器学习算法，具体包括BP神经网络模型、随机森林模型、SVM模型、Adaboost模型和朴素贝叶斯模型。

8.根据权利要求1～6之一所述的基于标签的电力客户投诉预测方法，其特征在于步骤S3所述的建立多模型加权联合预测模型，具体为采用Soft加权算法建立多模型加权联合预测模型。

9.根据权利要求2所述的基于标签的电力客户投诉预测方法，其特征在于步骤S4所述的电力客户的投诉数据，具体为步骤S1中未经过过采样的电力客户的投诉数据。