CN109858886B

CN109858886B - 一种基于集成学习的费控成功率提升分析方法

Info

Publication number: CN109858886B
Application number: CN201910120907.4A
Authority: CN
Inventors: 唐伟宁; 郭云峰; 钟树海; 周力威; 杨建荣; 李文峰; 鞠默欣; 孔凡强; 崔晗; 曹伏雷; 张伟
Original assignee: Beijing Hezhong Weiqi Technology Co ltd; STATE GRID JILINSHENG ELECTRIC POWER SUPPLY Co ELECTRIC POWER RESEARCH INSTITUTE
Current assignee: Beijing Hezhong Weiqi Technology Co., Ltd; STATE GRID JILINSHENG ELECTRIC POWER SUPPLY COMPANY ELECTRIC POWER Research Institute
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2021-03-19
Anticipated expiration: 2039-02-18
Also published as: CN109858886A

Abstract

本发明公开了一种基于集成学习的费控成功率提升分析方法，包括如下步骤：数据采集：通过ETL工具从数据源中抽取数据并将数据转换，同时将数据同步和分发到设备层；数据预处理：通过spark‑streaming程序对同步到设备层中的数据再次进行清理、集成、归约和变换；建模分析：由spark MLlib提供数据，利用集成学习思想创建决策树集成学习模型并对预处理数据进行分析；数据结果落地：通过HBase‑Hadoop和MySQL数据库实现存储；可视化操作：由zeppelin组件提供接口，将最终获得的数据通过WebUI技术呈现在展现层模块中。通过将本方法结合到到现有的费控系统中实现费控相关信息的预测和分析，提供费控关键指标的统计等，在提升了费控系统运维效率的同时提高了整体的费控成功率。

Description

一种基于集成学习的费控成功率提升分析方法

技术领域

本发明涉及一种费控成功率提升分析方法，尤其涉及一种基于集成学习的费控成功率提升分析方法。

背景技术

随着电网智能电能表的更换、用电信息采集系统及费控系统的运作，居民用电的费用测算与用电管理已经实现了全面的自动化，且在运作过程中积累了大量的运维数据。其中，费控管理系统涉及采集、费控、平台多个系统，对于进一步提升信息化建设、支撑深化费控指标提升工作具有非常重要的作用。

然而现有费控管理系统，操作量巨大，需根据费控测算的信息采集对电能表进行停复电，在停电指令下达后，系统只能够返回执行的结果，不能够对造成失败的原因进行总结，不仅造成了费控成功率低，还不能够及时的解决问题，运维效率低下，具体表现在以下几个方面：

1)远程费控执行成功率较低

存在大量因档案错误、通信故障、设备故障、系统故障等原因造成的费控失败，严重影响费控成功率的提升，容易引发因费控失败造成的客户投诉。

2)系统功能实用性不强

有的菜单功能分散，费控成功率、费控未覆盖用户明细等关键指标数据统计查询功能缺失，基层单位手工统计工作量大。

3)缺乏费控执行事前预测机制

由于缺乏费控执行事前预测机制，造成大量可能会失败的费控工单下发采集执行，进一步拉低了费控执行成功率。

4)缺乏事后智能化分析手段

现有系统缺乏费控执行失败后的智能化分析，基层单位分析定位问题能力不强，排查费控失败原因费时费力，影响工作效率。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于集成学习的费控成功率提升分析方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于集成学习的费控成功率提升分析方法，包括如下步骤：

步骤一、数据采集：首先，数据接入融合模块通过ETL工具从数据源中抽取数据并将数据转换，同时数据接入融合模块将数据同步和分发到设备层，并通过任务管理器判断数据的可靠性；

步骤二、数据预处理：数据层模块将设备层中的数据进行管理和探索，通过spark-streaming程序对同步到设备层中的数据再次进行清理、集成、归约和变换；

步骤三、建模分析：由spark MLlib提供数据，利用集成学习思想创建决策树集成学习模型，通过决策树集成学习模型对步骤二中的预处理数据进行分析，获得应用层模块中费控执行预测、失败原因分析、综合统计分析的数据；

步骤四、数据结果落地：将应用层模块的数据通过HBase-Hadoop和MySQL数据库实现存储；

步骤五、可视化操作：由zeppelin组件提供接口，将应用层模块的数据通过WebUI技术呈现在展现层模块中，展现层模块包括大屏可视化和可视化分析看板。

进一步地，数据源为ORACLE数据库系统，ORACLE数据库系统内包含有营销业务应用系统、营销费控系统、MDS系统、采集系统、采集闭环系统的数据信息，数据信息主要包括营销电费数据、费控测算数据、档案数据、费控工单数据。

进一步地，步骤一中所述数据同步和分发过程为：通过OGG将数据同步到Kafka，通过Sqoop将数据传输到HBase-Hadoop数据库内。

进一步地，步骤三中所述决策树集成学习模型以CART分类树算法构建的决策树作为学习器，通过stacking方法进行最后的学习器整合；

CART分类树使用基尼系数来选择特征，基尼系数Gini的表达式为：

Gini＝2p(1-p)

其中，p表示第一个样本输出的概率；

对于个数给定的样本集N，假设有K个类别，第k个类别的数量为Ck，则样本集N的基尼系数表达式为：

Gini(N)＝1-∑k＝1K(|Ck||N|)2

进一步地，CART分类树算法的具体构建过程为：

算法输入的是训练集、基尼系数阈值、样本个数阈值，算法输出的是决策树T，算法从根节点开始，用训练集递归建立CART树；

1)对于当前节点的训练集为D，如果样本个数小于样本个数阈值或者没有特征，则返回决策子树，当前节点停止递归；

2)计算训练集D的基尼系数，如果基尼系数小于基尼系数阈值，则返回决策树子树，当前节点停止递归；

3)计算当前节点现有的各个特征的特征值对数据集D的基尼系数；

4)在计算出来的各个特征的特征值对数据集D的基尼系数中，选择基尼系数最优的特征A和特征A对应的特征值a；根据这个最优的特征A和征值a，把训练集划分成D1和D2两部分，同时建立当前节点的左、右节点，左节点的训练集为D1，右节点的训练集为D2；

5)调用步骤1)至步骤4)对左、右节点的训练集继续递归，最终生成决策树。

进一步地，stacking方法在整合过程中若出现泄漏问题，通过K-Fold方法分别输出各部分样本的结果解决泄漏问题，以5-Fold为例，具体步骤如下：

1)将数据划分为5部分，每次用其中1部分做验证集，其余4部分做训练集，则共可训练出5个模型；

2)对于训练集，每次训练出一个模型时，通过该模型对没有用来训练的验证集进行预测，将预测结果作为验证集对应的样本的第二层输入，则依次遍历5次后，每个训练样本都可得到其输出结果作为第二层模型的输入；

3)对于验证集，每次训练出一个模型时，都用这个模型对其进行预测，则最终验证集的每个样本都会有5个输出结果，对这些结果取平均作为该样本的第二层输入。

本发明公开了一种基于集成学习的费控成功率提升分析方法，将其应用到现有的费控系统中，有效的提升了费控系统的成功率，同时对费控系统进行实时监控，预测可能失败的原因、对造成费控失败的原因进行分析，提供费控关键指标的统计、查询应用，提升了费控系统运维效率的同时提高了整体的费控成功率。

附图说明

图1为本发明费控系统的整体架构图。

图2为本发明基于集成学习的费控成功率提升分析方法的过程图。

图3为本发明费控系统应用层的功能架构图。

图4为本发明费控系统数据业务流转的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，呈现了费控系统的整体架构图，主要包括数据接入融合模块、设备层、数据层模块、应用层模块、展现层模块五大部分，由于应用了本发明所公开的基于集成学习的费控成功率提升分析方法，应用层在具备原有的基础档案核查、复电超时预警、可视化看板功能的基础上，增添了费控执行预测(即事前预测)、失败原因分析(即事后分析)、综合统计分析的功能。

结合图1与图2，本发明所公开的基于集成学习的费控成功率提升分析方法，包括如下步骤：

通过将上述基于集成学习的费控成功率提升分析方法结合到费控系统中，使得费控系统的功能更加完善，费控系统具有费控执行预测、失败原因分析、基础档案核查、复电超时预警、综合统计分析、可视化决策看板六大功能，如图3所示为本发明费控系统应用层的功能架构图，结合图4所提供的费控系统数据业务流转的示意图，费控系统应用层的功能具体为：

1)费控执行预测(事前预测)

a.费控预测：通过本发明的方法对数据进行分析，每天对正常用户的电能表进行用电预测，给出费控的执行建议以及收费处理方案，从而提升费控操作成功率。

b.停电预测：通过本发明的方法对数据进行分析，每天对欠费用户的电能表进行停电预测，给出费控的执行建议以及失败原因、解决方案；并将分析结果推送给费控系统，用于在执行停电前，消缺问题。

c.复电预测：通过通过本发明的方法对数据进行分析，每天对欠费用户的电能表进行复电预测，给出费控的执行建议以及失败原因、解决方案，用于提前消缺问题,从而提升费控成功率。

d.整体预测：通过通过本发明的方法对数据进行分析，每周对所有费控用户的电能表进行一次停、复电预测，并给出费控的执行建议以及失败原因、解决方案,用于提前消缺问题,从而提升费控成功率。

e.特殊用户：通过对业务数据中的费控用户进行标记，设置费控用户为特殊用户，并将特殊用户推送给费控系统，费控系统获取到特殊用户不执行费控操作，从而提升费控成功率。

2)基础档案核查：对采集系统的电能表型号、通信地址、密码等级、密码、分散因子等基础档案信息按照批次进行核查对比，以历史成功执行费控的电能表为基础，核查该批次电能表关键档案的一致性，指导运维人员进行档案维护，提高档案完整性和准确性，避免因档案问题造成的费控执行失败。同时，对基础档案数据进行分析，筛选出错误的部分，进行展示并给出正确信息，帮助用户维护正确的电能表档案信息。

3)失败原因分析(事后分析)

a.费控失败原因分析：通过本发明的方法对费控失败的电能表进行分析，给出费控的执行失败的原因及解决方案，并将分析结果推送给闭环系统，用于帮助消缺问题。

b.停电失败分析：通过本发明的方法对失败原因的数据进行分析，结合影响费控停电成功率的若干影响因素，综合分析造成费控停电失败的原因，输出各原因发生的概率，并根据原因提出对应的处理方案，辅助运维人员完成消缺。

c.复电失败分析：通过本发明的方法对失败原因的数据进行分析，结合影响费控复电成功率的若干影响因素，综合分析造成费控复电失败的原因，输出各原因发生的概率，并根据原因提出对应的处理方案，辅助运维人员完成消缺。

d.执行结果监测：通过对费控成功的电能表进行召测，获取电能表的继电器状态，并与费控类型进行对比，将系统显示成功但是实际费控失败的电能表进行展示，帮助用户迅速定位问题，及时消缺。

e.故障分析：通过对业务数据汇总、展示，对造成费控停、复电失败的原因按照单位、原因类型等方式进行归类统计分析，并重点对表计故障类造成费控停复电失败的原因，通过单位、到货批次、生产厂家、电能表型号等进行对维度分析，挖掘其与费控停复电失败的关联，帮助用户更容易找到批量产生问题及原因，以及批量消缺。

4)复电超时预警：通过对费控超时的电能表进行监控展示，并定时提醒用户有复电超时的电能表，用户可根据提示了解到超时的电能表，并尽快处理，防止由于复电不及时带来的投诉。即根据接收费控系统下发费控工单的通知时间与当前系统时间进行计算得出费控执行处理时间，设置处理时间的允许处理时长，当工单处理时长超过允许处理时长，即通过预警的方式提醒费控操作人员进行处理，防止产生因复电不及时引起的客户投诉。超时预警条件为系统时间、通知时间大于允许处理时长

5)综合统计分析

a.费控执行统计：通过对业务数据汇总、展示，对费控停复电执行情况按照时间维度结合图表的方式进行综合展示，并对费控停复电执行成功率进行排名，使上级单位更全面的掌握地区费控执行情况。

b.费控趋势统计：通过对业务数据汇总、展示，通过折线图的形式展现地区各单位最近一年的费控停复电成功率趋势，更直观的掌握各单位费控执行的变化趋势，并可展示费控停复电执行成功率的同比和环比情况，辅助管理人员全面的了解影响费控成功率的因素。

c.费控分析报告：通过对业务数据汇总、展示，结合费控执行预测、失败原因分析、费控执行情况、故障分析等影响费控执行的若干因素，出具费控分析报告，直观给出费控病症标签和症结指标所在，针对异常指标，给出明确的整改建议措施，辅助管理人员及运维人员明确下步工作重点方向。

d.异常工单统计：通过对闭环系统中费控异常工单的处理情况展示，通过报表展示各单位的费控异常工单数量及处理率。通过表格的形式展示具体各单位处理情况、以及具体表的具体问题。

6)可视化决策看板：通过对业务数据汇总、展示，通过对费控成功率、预测成功率、费控趋势、失败原因、执行结果、异常工单监控信息进行展示。

本发明所公开的基于集成学习的费控成功率提升分析方法，是通过结合现有的费控系统中存储的营销电费数据、费控测算数据、档案数据、费控工单数据、电能表与采集相关设备信息、系统管理过程中的通讯信息、系统记录的停复电相关信息以及电能表运行时的天气信息等等，构建了基于决策树的集成学习模型，并采用大数据平台技术进行高效的数据运算与数据存储，从而实现了费控系统中费控执行预测、失败原因分析、综合统计分析的功能。

对于基于决策树的集成学习模型，主要是利用集成学习的思想，将不同故障预测模型进行整合，达到故障全量分析预测的效果。决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法，现有的决策树模型计算中使用ID3，C4.5和C5.0等算法生成树算法使用熵值。集成学习本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务，也就是我们常说的“博采众长”。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等。

本基于决策树的集成学习算法模型中，将由CART分类树构建的决策树模型作为集成模型中的学习器，选择stacking方法进行最后的学习器整合。也就是说，决策树的构建使用CART分类树算法，对于CART分类树算法使用基尼系数来选择特征，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。

对于费控预测是属于二类分类问题，假设第一个样本输出的概率是p，则基尼系数Gini的表达式为：

Gini＝2p(1-p)

对于个数给定的样本集N，假设有K个类别,第k个类别的数量为Ck,则样本集N的基尼系数表达式为：

Gini(N)＝1-∑k＝1K(|Ck||N|)2

则CART分类树算法的具体构建过程为：

假设算法输入的是训练集(即数据集)、基尼系数阈值、样本个数阈值，算法输出的是决策树T。

算法从根节点开始，用训练集递归建立CART树。

对于生成的决策树做预测，假如测试集里的某一样本落到了某个叶子节点，而节点里有多个训练样本，则对于此样本的类别预测采用的是这个叶子节点里概率最大的类别。

CART分类树算法的思想为：

1)初始化α_min＝∞，α为正则化阈值，最优子树集合ω＝{T}；

2)从叶子节点开始自下而上计算各内部叶子节点t的训练误差损失函数Cα(Tt)(回归树为均方差，分类树为基尼系数)，叶子节点数则为|Tt|，正则化阈值α＝min{C(T)-C(Tt)|Tt|-1,α_min}，更新αmin＝α；

3)得到所有节点的α值的集合M。

4)从集合M中选择最大的值αk，自上而下的访问叶子节点t的内部节点，如果C(T)-C(Tt)|Tt|-1≤αk时，进行剪枝，并决定叶子节点t的值；如果是分类树，则是概率最高的类别，如果是回归树，则是所有样本输出的均值，这样得到αk对应的最优子树Tk；

5)最优子树集合ω＝ω∪Tk，M＝M-{αk}。

6)如果M不为空，则回到步骤4)，否则就已经得到了所有的可选最优子树集合ω。

7)采用交叉验证在ω选择最优子树Tα。

对于stacking方法，

集成学习中学习法的代表方法是stacking，当使用stacking的结合策略时，它是再加上一层的学习器。将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到最终结果。

在对不同的学习结果进行整合的时候，会存在信息泄露的问题，为了解决这个泄漏的问题，需要通过K-Fold方法分别输出各部分样本的结果，这里以5-Fold为例，具体步骤如下：

基于决策树的集成学习模型，不仅能够对不同类别的费控业务进行有针对性的分析，同时能够整合各费控业务的特点，达到加强业务关联性、提升业务分析准确性的效果。费控成功率提升分析系统的业务分析包括设备类故障、系统类故障、通信类故障以及档案类故障四大类，每个故障类别都是由系统操作过程中对应的数据失效或系统运维不足等原因造成的，但是在整个费控业务流程中，业务存在较差，不能够将单个类别的故障进行完全的剥离。因此，使用决策树针对每一类的故障分别进行建模分析，最后利用集成思想将四个决策树模型进行整合，对费控成功、失败进行预测。最终模型输出影响电能表停复电的原因，从而及时解决存在问题，提升运维效率的同时提高了整体的费控成功率。

本发明公开的基于集成学习的费控成功率提升分析方法，运用到费控系统中具有以下优势：

1)运用数据分析手段，对费控系统的执行情况进行全面分析诊断，提升费控成功率。

2)通过对费控系统相关各项指标的实时监控，建立费控执行预测模型，对费控执行结果进行预测，对预测出可能造成费控失败的工单进行原因分析，指导基层人员进行消缺。

3)利用主流算法分析模型，根据费控系统的历史业务数据，实现远程费控执行智能诊断分析，定位造成费控失败的若干影响因素，为基层人员提供指导意见。

4)优化了费控系统的功能，提供费控关键指标的统计、查询应用，费控执行情况及相关指标分布一目了然。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于集成学习的费控成功率提升分析方法，其特征在于：所述费控成功率提升分析方法包括如下步骤：

所述数据源为ORACLE数据库系统，ORACLE数据库系统内包含有营销业务应用系统、营销费控系统、MDS系统、采集系统、采集闭环系统的数据信息，数据信息包括营销电费数据、费控测算数据、档案数据、费控工单数据；

步骤三、建模分析：由PySpark提供算法，利用集成学习思想创建决策树集成学习模型，通过决策树集成学习模型对步骤二中的预处理数据进行分析，获得应用层模块中费控执行预测、失败原因分析、综合统计分析的数据；

所述决策树集成学习模型以CART分类树算法构建的决策树作为学习器，通过stacking方法进行最后的学习器整合；

所述CART分类树使用基尼系数来选择特征，基尼系数Gini的表达式为：

Gini＝2p(1-p)

其中，p表示第一个样本输出的概率；

Gini(N)＝1-∑k＝1K(|Ck||N|)2

步骤四、数据结果落地：将应用层模块的数据通过HBase和Orcale数据库实现存储；

步骤五、可视化操作：将应用层模块的数据通过WebUI技术呈现在展现层模块中，展现层模块包括大屏可视化和可视化分析看板。

2.根据权利要求1所述的基于集成学习的费控成功率提升分析方法，其特征在于：步骤一中所述数据同步和分发过程为：通过OGG将数据同步到Kafka，通过Sqoop将数据传输到HBase数据库内。

3.根据权利要求1所述的基于集成学习的费控成功率提升分析方法，其特征在于：CART分类树算法的具体构建过程为：

4.根据权利要求3所述的基于集成学习的费控成功率提升分析方法，其特征在于：所述stacking方法在整合过程中若出现泄漏问题，通过K-Fold方法分别输出各部分样本的结果解决泄漏问题，以5-Fold为例，具体步骤如下：