CN112766550A

CN112766550A - 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备

Info

Publication number: CN112766550A
Application number: CN202110021069.2A
Authority: CN
Inventors: 姜磊; 梁立江; 谭晓鹏; 刘倩; 刘卫; 朱亚雯
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-07
Anticipated expiration: 2041-01-08
Also published as: CN112766550B

Abstract

本发明涉及数据分析领域，为基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备。其方法包括：从数据源中采集停电类、工单类、电费类及标签类数据；设计指标体系，从停电信息、用户信息、客户标签三个维度进行指标数据提取；提取用于模型构建的数据，构建模型的基础用户群、敏感投诉用户目标组、敏感投诉用户对照组；对来源于不同业务系统的用于停电敏感用户预测的数据进行预处理，并按户进行数据整合得到多维度停电指标信息宽表；构建停电敏感用户预测模型，以三个维度指标为基础，对客户未来是否属于停电敏感类型进行预测；结合历史诉求工单记录，输出停电敏感度高、中、低用户标签，通过用户画像实现风险的准确预判。

Description

基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备

技术领域

本发明涉及数据分析领域，具体为基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备。

背景技术

停电敏感用户指在发生停电事件后，拨打95598客服热线投诉或者向95598热线提出停电方面意见的工单用户。未发生投诉或者意见的用户，一般指在发生停电的情况下，未向95598客服进行停电投诉或者停电意见的工单用户。而发生投诉或者意见的用户，一般指在发生停电的情况下，向95598客服进行停电投诉或者停电意见的工单用户。

在供电行业中，难免出现故障而停电的情形，也常有因施工等事由而计划停电的情况。在故障停电时或计划停电前，若能够精确知晓停电片区内对停电敏感的客户进行预测和判断，将有助于减少停电带来的影响，提升客户的用电体验，提高供电企业的服务水平。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备，建立停电敏感用户识别模型，结合历史诉求工单记录，输出停电敏感度高、中、低用户标签，通过用户画像实现风险的准确预判。

本发明方法采用以下技术方案来实现：基于随机森林的停电敏感用户预测方法，包括以下步骤：

S1、从数据源中采集停电类、工单类、电费类及标签类数据；

S2、设计指标体系，从停电信息、用户信息、客户标签三个维度进行指标数据提取；其中，停电信息维度从停电次数、停电时长、停电类型和影响人数四个方面设计指标，用户信息维度从用户类型、合同容量、欠费情况、关联手机数三个方面设计指标，客户标签维度从电费风险、频繁投诉、催费短信订阅、信用等级四个方面设计指标；

指标设计包括指标名称、计算规则、考察期和评价规则的设计，并明晰指标的统计范围；在统计范围的考量上，停电次数、欠费情况、停电投诉指标用预设周期的时间，停电时长、停电类型、影响人数指标用最近一次的指标信息，用户类型、合同容量、电费风险、频繁投诉、催费短信订阅、信用等级指标采用最近更新的指标信息；

S3、提取用于模型构建的数据，提取出第一数据周期范围中对停电事件未发生投诉或者意见的用户，构建模型的基础用户群；提取出第二数据周期范围中对停电事件发生投诉或者意见的用户，构建模型的敏感投诉用户目标组；提取出第二数据周期范围中对停电事件未发生投诉或者意见的用户，构建模型的敏感投诉用户对照组；最后将基础用户群、目标组、对照组所组成的数据集划分为训练集和测试集；

S4、对来源于不同业务系统的用于停电敏感用户预测的数据进行预处理，并按户进行数据整合得到多维度停电指标信息宽表；

S5、构建停电敏感用户预测模型，以停电信息、用户信息、客户标签三个维度下的指标为基础，利用分类算法对客户未来是否属于停电敏感类型进行预测；

S6、通过停电敏感用户预测模型，输出潜在停电敏感用户清单；然后结合用户的历史投诉工单情况，将停电敏感用户按规则分为停电敏感高、中、低风险用户，输出标记停电敏感标签用户清单。

本发明系统采用如下技术方案来实现：基于随机森林的停电敏感用户预测系统，包括：

数据采集模块，用于从数据源中采集停电类、工单类、电费类及标签类数据；

指标体系设计模块，用于从停电信息、用户信息、客户标签三个维度进行指标数据提取；其中，停电信息维度从停电次数、停电时长、停电类型和影响人数四个方面设计指标，用户信息维度从用户类型、合同容量、欠费情况、关联手机数三个方面设计指标，客户标签维度从电费风险、频繁投诉、催费短信订阅、信用等级四个方面设计指标；

模型构建数据提取模块，用于提取出第一数据周期范围中对停电事件未发生投诉或者意见的用户，构建模型的基础用户群；提取出第二数据周期范围中对停电事件发生投诉或者意见的用户，构建模型的敏感投诉用户目标组；提取出第二数据周期范围中对停电事件未发生投诉或者意见的用户，构建模型的敏感投诉用户对照组；最后将基础用户群、目标组、对照组所组成的数据集划分为训练集和测试集；

数据预处理模块，用于对来源于不同业务系统的用于停电敏感用户预测的数据进行预处理，并按户进行数据整合得到多维度停电指标信息宽表；

预测模型构建模块，构建停电敏感用户预测模型，以停电信息、用户信息、客户标签三个维度下的指标为基础，利用分类算法对客户未来是否属于停电敏感类型进行预测；

预测模型应用模块，通过停电敏感用户预测模型，输出潜在停电敏感用户清单；然后结合用户的历史投诉工单情况，将停电敏感用户按规则分为停电敏感高、中、低风险用户，输出标记停电敏感标签用户清单。

而本发明的存储介质，其上存储有计算机指令，当计算机指令被处理器执行时，实现本发明停电敏感用户预测方法的各步骤。

根据本发明的计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，当处理器执行计算机程序时，实现本发明停电敏感用户预测方法的各步骤。

本发明基于随机森林算法构建模型，与现有技术相比，具有如下优点和有益效果：

1、在数据方面，以营销系统、95598系统、PMS系统、用电信息采集系统等数据为基础，而随机森林算法对数据特征维度要求低，泛化能力强，且保持较高的可解释性，可以很好地反映不同用户的停电敏感度。

2、可以批量导入数据分析用户的停电敏感度，极大地提高了数据分析效率，方便快捷判断每个用户的停电投诉风险，从而可以进一步采取相应措施，提高用户满意度。

3、通过机器学习算法，建立停电敏感用户识别模型，结合历史诉求工单记录，输出停电敏感度高、中、低用户标签，通过用户画像实现风险的准确预判。

附图说明

图1是本发明实施例中的停电敏感用户预测方法的主要流程图；

图2是本发明实施例中随机森林算法模型的训练过程示意图；

图3是本发明实施例中模型调参前的ROC曲线图；

图4是本发明实施例中模型调参后的ROC曲线图；

图5是逻辑回归算法的ROC曲线图；

图6是神经网络算法的ROC曲线图；

图7是随机森林算法的ROC曲线图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明的停电敏感用户预测方法是基于停电类、工单类、电费类及标签类等数据信息，借助大数据技术和随机森林算法模型构建的停电敏感用户预测方法，深入全面地对不同群体用户进行分析，实现停电敏感用户的精准识别，通过制定针对性的风险防控策略，有效减少客户来电风险；然后结合用户停电敏感标签对用户进行停电高敏感、中敏感、低敏感的划分，为营销部、设备部、客服中心等部门提供有效数据支撑，助力电网营销管理。

在本实施例中，基于随机森林的停电敏感用户预测方法通过构建停电敏感用户预测模型来实现。如图1所示，停电敏感用户预测模型的建模及模型应用思路主要为：首先，从营销系统、95598系统、标签库等系统进行源数据梳理；然后从停电信息、用户信息、客户标签等维度进行指标数据提取，构建基础用户群，并对样本用户群进行分类，将总的样本用户群分为目标组和对照组，在基础用户群和样本用户群的基础上划分训练集和测试集；接着通过训练集数据对随机森林模型进行训练，结合训练结果进行模型调参，完成模型训练；使用测试集验证模型结果，避免过拟合或者拟合不足的问题；然后对模型整体效果进行评估，并根据评估结果再次优化迭代模型；最终利用模型输出潜在停电敏感用户群，并结合用户的历史投诉工单情况，输出标记停电敏感标签用户清单。本实施例的基于随机森林的停电敏感用户预测方法，具体包括以下步骤：

S1、采集数据

通过营销系统、95598系统、PMS系统、用电信息采集系统、标签库等数据源，收集停电类、工单类、电费类及标签类数据。具体如下：

停电类数据：包括计划停电、故障停电、停电时间等数据；

工单类数据：包括用电申请、投诉工单、意见工单等数据；

电费类数据：包括用电客户、应收电费、实收电费、收费记录等数据；

标签类数据：包括电费风险标签、频繁投诉标签、信用标签等数据。

S2、设计指标体系

维度设计：停电敏感用户预测模型用于评估客户对停电敏感程度的反应，不同客户对停电事件反应有所不同，所以有必要获取客户的基本信息、停电信息以及客户自身的标签等相关数据，故停电敏感用户预测模型的指标设计从停电信息、用户信息、客户标签三个维度考虑。

三个维度的具体指标设计：停电信息维度主要是从停电次数、停电时长、停电类型和影响人数四个方面设计指标，用户信息维度主要是从用户类型、合同容量、欠费情况、关联手机数三个方面设计指标；客户标签维度主要是从电费风险、频繁投诉、催费短信订阅、信用等级四个方面的标签设计指标。指标设计具体包括指标名称、计算规则、考察期和评价规则的设计。

指标体系的可维护性：停电敏感用户预测模型的指标是可查询、可扩展的、可通用的。

周期调度规则：鉴于停电敏感风险是对未来一定时期内客户对停电是否敏感的可能性预测，模型运算上更关注指标最近一次或者最近某段时间周期的指标信息；因此，需要明晰指标的统计范围。在统计范围的考量上，停电次数、欠费情况、停电投诉等指标用的是预设一定周期的时间，停电时长、停电类型、影响人数等指标用的是最近一次的指标信息，用户类型、合同容量、电费风险、频繁投诉、催费短信订阅、信用等级等指标采用最近更新的指标信息。最终得到如表1所示的指标体系设计表。

表1指标体系设计表

S3、提取用于模型构建的数据

在本实施例中，对停电敏感用户预测试点单位采取的数据周期范围为2017年1月1日至2018年12月31日。首先提取出2017年(第一数据周期范围)中对停电事件未发生投诉或者意见的用户，构建模型的基础用户群；然后提取出2018年(第二数据周期范围)中对停电事件发生投诉或者意见的用户，构建模型的敏感投诉用户目标组；接着通过提取出2018年中未发生对停电事件发生投诉或者意见的用户，构建模型的敏感投诉用户对照组；最后按照7:3的比例将基础用户群、目标组、对照组所组成的数据集划分为训练集和测试集，完成整个样本抽样比例。其中，目标组、对照组构成了本实施例的样本用户群。

S4、数据预处理

由于用于停电敏感用户预测的数据来源于不同业务系统，故需要对数据进行处理，数据处理主要包括对缺失值、离群值、异常值等记录进行清洗处理以及相关衍生变量的生成过程。其中，对缺失值处理时，可以是直接删除、均值替代或常数替代；异常值处理可以为删除数据两端5％的数据，再进行分析；而相关衍生变量的生成主要指通过数据整合的方式得到数据宽表，例如以户号为单位将指标进行关联，整理出一张以户号为主键且涵盖多维度停电指标信息宽表。具体如下：

(1)离群值、异常值的处理方法

当出现离群值或异常值时，离群值可用3个标准差的最大值或最小值替换，将离群值调整为距离最近的正常值。异常值则要检查异常值出现的原因，并采取相应的方式处理异常值。如果离群值或异常值没有业务含义，可直接剔除离群值、异常值，或用空值NULL来替代离群值、异常值。

(2)缺失值的处理方法

一般将缺失值调整为某个固定值，如调整为均值、中间值、指定的常数或服从正态分布的随机值。

(3)按户进行数据整合

指标数据经过异常值处理、缺失值处理后，应确保每个用户只有一个对应的指标值。基于户号ID，将各停电类指标关联，得到多维度停电指标信息宽表，即停电敏感指标宽表。

(4)相关衍生变量的生成

衍生变量是服务模型建设的变量，基于数理分析中心数据处理模块的变量计算功能生成与停电敏感用户预测模型相关的各衍生变量。

S5、模型构建

在停电敏感用户预测模型构建过程中，以停电信息、用户信息、客户标签三个维度下的指标为基础，利用分类算法对客户未来是否属于停电敏感类型进行预测。由于电力客户数量庞大，客户指标整理而成的宽表相对较大，因此停电敏感用户预测模型在建模时优先考虑预测精度较高、可解释性相对较强并且速度较快的算法。在此基础上，结合客户历史投诉的情况，将停电敏感风险划分为停电敏感高、中、低三类风险。考虑到以上几点因素，本发明对停电敏感风险的研究优先采用随机森林算法模型。

随机森林算法于2001年由Leo Breiman提出，是一种集成学习方法，以决策树为基本学习单元，包含多个由Bagging集成学习理论和随机子空间方法训练得到的决策树输入待分类的样本，由各个决策树产生各分类结果，最终的分类结果由各个决策树的结果进行投票决定；其核心思想包含Bagging思想和随机子空间思想，其本质是利用组合多棵决策树做出预测的多决策树模型。如图2，随机森林算法模型训练的过程，包括如下步骤：

(1)基于原始训练集，运用bootstrap方法有放回地随机抽取K个新的自助样本集；在此基础上构建K棵分类树，未被抽取的样本集归入到测试集中；

(2)设置N个特征项，在每棵树的对应节点处随机抽取M_try个特征，计算每个特征蕴含的信息量，通过选取最具分类能力的特征进行节点分裂；

(3)综合生成的分类树组合成随机森林，再在新的数据上进行分类，根据分类器挑选、评估并最终确定分类结果。

在随机森林中，将生成很多的决策树，并不像在CART模型里一样只生成唯一树。当在基于某些属性对一个新的对象进行分类判别时，随机森林中的每一棵树都会给出自己的分类选择，并由此进行“投票”，森林整体的输出结果将会是票数最多的分类选项。基于随机森林算法的一般步骤，在构建停电敏感模型时，将按照以下步骤进行：

S51、样本均衡处理

很多模型算法都有一个默认的假设，样本中各个类别的样本数目是均衡的，但是如果样本不均衡，就需要用一些方法进行处理。由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)；本步骤提出SMOTE(Synthetic Minority OversamplingTechnique)合成少数类过采样技术，它是基于随机过采样算法的一种改进方案。SMOTE算法的基本思想是对少数类样本进行分析，并根据少数类样本人工合成新样本添加到数据集中，具体算法流程如下：

(1)对于少数类中每一个样本x，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k个近邻；

(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k个近邻中随机选择若干个样本，假设选择的近邻为x_n；

(3)对于每一个随机选出的近邻x_n，分别与原样本按照如下的公式构建新的样本x_new：

x_new＝x+rand(0,1)×(x_n－x)

其中，x为少数类的样本，x_n是随机选出的近邻；rand(0,1)是(0，1)区间的随机数。

在本实施例中，通过测试集进行模型构建分析。从数据的分布情况看，正样本为771例，负样本为27578例，正负样本处于极不均衡的状态，样本不均衡问题会严重影响模型的训练结果。因此，在进行随机森林模型的构建之前，需要进行样本均衡处理，样本均衡处理选择SMOTE(合成少数类过采样技术)算法。经过样本均衡处理后，正样本数和负样本数均为27578例。

S52、模型构建与初步评估

对均衡后的样本进行常规的随机森林模型构建。首先对样本集进行拆分，拆分的比例为7:3，即七成的样本为训练集，三成的样本为测试集。随机森林模型树的数量暂定为100棵，其他的参数选用默认的参数。为了得到对模型最直观评估，本实施例使用ROC曲线以及AUC值对模型进行初步评估，同时结合混淆矩阵，对模型的初步效果进行评价。

ROC曲线说明：ROC全称是受试者工作特征(Receiver OperatingCharacteristic)曲线。根据学习器的预测结果，把阈值从0变到最大，即刚开始是把每个样本作为正样例进行预测，随着阈值的增大，学习器预测正样例数越来越少，直到最后没有一个样本是正样例。在这一过程中，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了ROC曲线。

ROC曲线的横坐标可以是伪阳性率(也叫假正类率，False Positive Rate)，对应的纵坐标是真阳性率(即真正类率，True Positive Rate)；相应的，ROC曲线的横坐标还可以是真阴性率(真负类率，True Negative Rate)，对应的纵坐标为伪阴性率(假负类率，False Negative Rate)。这四类指标的含义如下：

(1)伪阳性率(FPR)，判定为正例却不是真正例的概率，即真负例中被判为正例的概率；

(2)真阳性率(TPR)，判定为正例也是真正例的概率，即真正例中被判为正例的概率(也即正例召回率)；

(3)伪阴性率(FNR)，判定为负例却不是真负例的概率，即真正例中被判为负例的概率；

(4)真阴性率(TNR)，判定为负例也是真负例的概率，即真负例中被判为负例的概率。

AUC值说明：AUC(Area Under Curve)被定义为ROC曲线下的面积。往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好，如表2所示。

表2 AUC判断分类器(预测模型)优劣的标准

通过ROC曲线对该次模型构建效果的评价分析，图3展示了模型调参前的ROC曲线，模型在调参前的AUC值为0.78，对应AUC的评判标准模型效果一般。

除了可以通过ROC曲线和AUC值去判断模型效果，还可以根据模型结果的混淆矩阵得出模型的准确率、精度、召回率去判断模型效果。相关说明如下：

(1)TP、TN、FP、FN说明：TP(True Positive)，被判定为正样本，事实上也是正样本的样本数；TN(True Negative)，被判定为负样本，事实上也是负样本的样本数；FP(FalsePositive)，被判定为正样本，但事实上是负样本的样本数；FN(False Negative)，被判定为负样本，但事实上是正样本的样本数。

(2)准确率：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比为准确率。也就是损失函数是0-1损失时测试数据集上的准确率。准确率Accuracy的计算方式如下：

Accuracy＝(TP+TN)/(TP+TN+FP+FN)

(3)精度：计算的是对正类预测正确的样本数，占预测是正类的样本数的比例，精度Precision的计算方式如下：

Precision＝TP/(TP+FP)

(4)召回率：计算的是对正类预测正确的样本数，占实际是正类的样本数的比例，召回率Recall的计算方式如下：

Recall＝TP/(TP+FN)

将模型代入到测试集，进行模型评价分析。根据构建的混淆矩阵可以看出，事实上是负样本，被预测为负样本的数量相对较多，对实际开展工作意义不大；事实上是正样本，但被预测为正样本的比列不高；因此，计算出来的样本正确率、精度和召回率中，除了正确率较高，为96.8％外；样本精度和召回率都比较低，分别为65.9％和24.3％。由此看出，模型还需结合业务情况做进一步的参数调整。

S53、模型参数调整

本步骤对模型进行参数优化。由于调参前的模型评价效果并不好，所以需要对随机森林模型中的重要参数进行调整优化。训练集和测试集的拆分仍然按照7:3的比例进行拆分，调优的思路是利用网格搜索的方式，在指定的参数范围进行穷举搜索。选取比较好的前3个参数组合方式进行分析。需要调整优化的参数如下表3所示：

表3参数说明表

将上述参数利用网格搜索法进行搜索，耗时96秒后，寻找出了20个备选方案。从中选取了前3个效果最好的方案进行分析，以期待得到耗时、效果较好的参数组合，如表4所示。

表4参数方案表

参数	方案一	方案二	方案三
				criterion	gini	gini	entropy
n_estimators	50	100	100
				max_features	log2	auto	auto
max_depth	7	7	7
				min_samples_split	70	130	150
min_samples_leaf	20	10	10
				test_score	0.843	0.842	0.842

参数Criterion的选择上，基尼系数和信息熵的差别不大，但由于信息熵对不纯度更加敏感，决策树的生长会更加精细。考虑到模型一开始的拟合效果并不好，因此参数Criterion的选择使用信息熵entropy；n_estimators中选取数量较少的，即50棵树；max_features选择‘auto’；max_depth都为7个，因此最大深度选择7；min_samples_split和min_samples_leaf均选择样本数量较多的即min_samples_split选择150个，min_samples_leaf选择20个。综合而言，最终确定的参数如表5所示：

表5最终参数方案

参数	组合方案
		criterion	entropy
n_estimators	50
		max_features	auto
max_depth	7
		min_samples_split	150
min_samples_leaf	20

S54、调参后模型评估及验证

按照网格搜索确定的参数进行随机森林模型的训练，将训练集和测试集按7:3的比例随机拆分，各重要参数的取值按照最终分析得到的取值进行输入。将调优后的模型进行ROC曲线拟合，如图4所示，调参后AUC值提高为0.93，远高于调参前的0.78。

同时，对测试样本进行模型验证。由调参前的96.8％下降为86.3％，但模型的精度和召回率均得到明显的提高，精度由65.9％上升为99.7％；召回率由24.3％上升为72.89％，进一步验证了调优后的模型能更好地应用于停电敏感用户预测的场景中。

为确保算法的稳健性，对停电敏感用户预测模型(即参数调整优化后的随机森林模型)相关指标进行逻辑回归、神经网络模型训练。随机森林、逻辑回归和神经网络是常用的分类算法，算法的优缺点对比如下表6：

表6算法优缺点对比表

根据实际的停电敏感风险场景进行算法对比，在算法调用过程中进行简单的超参调整，包括结构参数、标准化规则、变量筛选、阈值参数等。最终通过时间和准确率类指标的描述，可以看出随机森林相比较于逻辑回归和神经网络。算法训练过程ROC曲线如图5-7所示。可以看出，逻辑回归的AUC值为0.62，算法处理时间为2.7秒，神经网络的AUC值为0.7，处理时间为380秒。相比较于逻辑回归算法和神经网络算法，随机森林具有较高的AUC值(0.93)，时间上仅用1.2秒。综合训练结果，随机森林算法最适合于停电敏感用户识别场景。

表7算法差异效果分析表

S6、模型输出

通过停电敏感用户预测模型，输出潜在停电敏感用户清单；然后结合用户的历史投诉工单情况，将停电敏感用户按规则分为停电敏感高、中、低风险用户，输出标记停电敏感标签用户清单。

针对停电敏感用户预测模型输出的结果，结合用户历史投诉工单的情况，将停电敏感用户按规则分为停电敏感高、中、低用户，具体设定规则如下：

表8停电敏感风险等级标签规则设置表

结合模型预测结果和历史工单记录情况，输出停电敏感风险标签明细，标签明细为停电敏感中风险或停电敏感高风险。

基于相同的发明构思，本实施例还提出基于随机森林的停电敏感用户预测系统，包括：

数据采集模块，用于实现上述步骤S1，从数据源中采集停电类、工单类、电费类及标签类数据；

指标体系设计模块，用于实现上述步骤S2，从停电信息、用户信息、客户标签三个维度进行指标数据提取；其中，停电信息维度从停电次数、停电时长、停电类型和影响人数四个方面设计指标，用户信息维度从用户类型、合同容量、欠费情况、关联手机数三个方面设计指标，客户标签维度从电费风险、频繁投诉、催费短信订阅、信用等级四个方面设计指标；

模型构建数据提取模块，用于实现上述步骤S3，提取出第一数据周期范围中对停电事件未发生投诉或者意见的用户，构建模型的基础用户群；提取出第二数据周期范围中对停电事件发生投诉或者意见的用户，构建模型的敏感投诉用户目标组；提取出第二数据周期范围中对停电事件未发生投诉或者意见的用户，构建模型的敏感投诉用户对照组；最后将基础用户群、目标组、对照组所组成的数据集划分为训练集和测试集；

数据预处理模块，用于实现上述步骤S4，对来源于不同业务系统的用于停电敏感用户预测的数据进行预处理，并按户进行数据整合得到多维度停电指标信息宽表；

预测模型构建模块，用于实现上述步骤S5，构建停电敏感用户预测模型，以停电信息、用户信息、客户标签三个维度下的指标为基础，利用分类算法对客户未来是否属于停电敏感类型进行预测；

预测模型应用模块，用于实现上述步骤S6，通过停电敏感用户预测模型，输出潜在停电敏感用户清单；然后结合用户的历史投诉工单情况，将停电敏感用户按规则分为停电敏感高、中、低风险用户，输出标记停电敏感标签用户清单。

本实施例还提出存储介质，其上存储有计算机指令，当计算机指令被处理器执行时，实现本发明停电敏感用户预测方法的步骤S1-S6。

本实施例还提出计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，当处理器执行计算机程序时，实现本发明停电敏感用户预测方法的步骤S1-S6。

由以上技术方案可知，本发明通过分析用户的停电敏感特征，可有效支撑供电公司的停送电服务精益化管理，使计划停电安排科学合理，抢修策略和停电安抚有的放矢，进一步降低客户停电投诉风险和改善客户用电体验。本发明技术方案在供电公司的主要应用场景如下：

(1)事前计划停电安排：通过停电敏感用户预测模型输出停电敏感用户群体，结合历史诉求工单记录，协助生产部门在制定相关停电计划事时，有针对性的进行计划停电通知，提醒内容包括计划停电的影响范围，停电日期、停电时段和停电时长等，降低计划停电带来的客户服务风险。

(2)事中故障停电服务补救：通过故障停电的影响范围，定位出当前停电敏感客户群体分布区域，支撑抢修策略和安抚策略制订，优先抢修敏感客户集中且高敏感客户较多的线路，缩小待安抚范围，分策略采用上门告知、电话、短信等服务补救方式，告知抢修进展和预计恢复送电时间，降低故障停电对客户产生的不良感知。

(3)事后投诉风险防范：针对用户停电敏感度的等级不同，可提供相应的安抚和引导策略，通过提前采取服务补救等措施，可有效减少客户来电风险，树立公司良好的社会形象。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于随机森林的停电敏感用户预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的停电敏感用户预测方法，其特征在于，步骤S1中停电类数据包括计划停电、故障停电及停电时间数据；工单类数据包括用电申请、投诉工单及意见工单数据；电费类数据包括用电客户、应收电费、实收电费及收费记录数据；标签类数据包括电费风险标签、频繁投诉标签及信用标签数据。

3.根据权利要求1所述的停电敏感用户预测方法，其特征在于，步骤S5中停电敏感用户预测模型采用随机森林算法模型，随机森林算法模型的构建过程包括步骤：

S51、采样合成少数类过采样技术SMOTE进行样本均衡处理，对少数类样本进行分析，并根据少数类样本人工合成新样本添加到数据集中；

S52、对均衡后的样本进行随机森林模型构建，并利用ROC曲线以及AUC值对随机森林模型进行初步评估，同时结合混淆矩阵对随机森林模型的初步效果进行评价；

S53、利用网格搜索的方式，在参数范围进行穷举搜索，对随机森林模型的参数进行调整优化。

4.根据权利要求3所述的停电敏感用户预测方法，其特征在于，步骤S53中需要调整优化的参数包括不纯度的衡量指标、随机森林树的数量、限制分枝时考虑的特征个数、树的最大深度、一个节点在分枝后的每个子节点最少包含的样本数量及一个节点必须包含得分最小样本数。

5.根据权利要求3所述的停电敏感用户预测方法，其特征在于，步骤S52中结合混淆矩阵得出随机森林模型的准确率、精度、召回率对随机森林模型的初步效果进行评价：

对于给定的测试数据集，分类器正确分类的样本数与总样本数之比为准确率；准确率Accuracy的计算方式为：

Accuracy＝(TP+TN)/(TP+TN+FP+FN)

精度计算的是对正类预测正确的样本数，占预测是正类的样本数的比例，精度Precision的计算方式如下：

Precision＝TP/(TP+FP)

召回率计算的是对正类预测正确的样本数，占实际是正类的样本数的比例，召回率Recall的计算方式如下：

Recall＝TP/(TP+FN)

其中，TP为被判定为正样本，事实上也是正样本的样本数；TN为被判定为负样本，事实上也是负样本的样本数；FP为被判定为正样本，但事实上是负样本的样本数；FN为被判定为负样本，但事实上是正样本的样本数。

6.根据权利要求3所述的停电敏感用户预测方法，其特征在于，步骤S51中采样合成少数类过采样技术SMOTE进行样本均衡处理的过程为：

x_new＝x+rand(0,1)×(x_n－x)

7.基于随机森林的停电敏感用户预测系统，其特征在于，包括：

8.根据权利要求7所述的停电敏感用户预测系统，其特征在于，预测模型构建模块所构建的为随机森林算法模型，构建过程为：

采样合成少数类过采样技术SMOTE进行样本均衡处理，对少数类样本进行分析，并根据少数类样本人工合成新样本添加到数据集中；

对均衡后的样本进行随机森林模型构建，并利用ROC曲线以及AUC值对随机森林模型进行初步评估，同时结合混淆矩阵对随机森林模型的初步效果进行评价；

利用网格搜索的方式，在参数范围进行穷举搜索，对随机森林模型的参数进行调整优化。

9.存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现权利要求1-6中任一项所述停电敏感用户预测方法的步骤。

10.计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时，实现权利要求1-6中任一项所述停电敏感用户预测方法的步骤。