CN116401601A

CN116401601A - 基于逻辑回归模型的停电敏感用户优选处置方法

Info

Publication number: CN116401601A
Application number: CN202310399580.5A
Authority: CN
Inventors: 阮栩翔; 王波; 严小佺; 方刚毅; 胡瑛; 张阳; 万宏涛; 林豪峰; 张益妍; 汪金荣; 郭烨烨; 刘功俊
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-07
Anticipated expiration: 2043-04-14
Also published as: CN116401601B

Abstract

本发明公开了基于逻辑回归模型的停电敏感用户优选处置方法，包括：S1、构建逻辑回归模型；S2、基于用电用户身份标签对多终端业务数据进行分类构建第一数据集和第二数据集；S3、通过逻辑回归模型分别获取第一敏感用户画像和第二敏感用户画像并对两者进行重构得到停电敏感用户联合画像；S4、对停电敏感用户联合画像进行分类得到若干停电敏感用户联合子画像；S5、通过对相邻停电敏感用户联合画像相关度进行分析得到停电敏感用户联合修正子画像；S6、轮次执行S5获取若干停电敏感用户联合修正子画像；S7、基于采样时间窗分时采集多终端业务数据进行分析并制定脱敏策略。方案可以极大避免了数据滞后和信息过载现象，降低了客户投诉率和客户流失率。

Description

基于逻辑回归模型的停电敏感用户优选处置方法

技术领域

本发明涉及数据分析技术领域，具体的，涉及基于逻辑回归模型的停电敏感用户优选处置方法。

背景技术

如何把握用户对电网公司的消费体验，关系到电网公司对市场的占有程度。准确分析影响用户用电体验的因素，成为各大售电公司抢占市场先机的前提条件。当前，停电问题依然是影响用户体验的核心问题，对停电敏感用户的精准识别则是电网公司进行差异化预维护的重要举措。而停电敏感识别中停电敏感用户的概念界定在营销侧仍然存在着争议，在此基础上形成的标签规则不尽相同。另一方面，电网数据量的急剧增长，以传统的统计手段不足以支撑海量数据的处理。因此，对停电敏感用户的分析研究仍然有待加强。

在停电发生时，准确地判别用户对停电事件的敏感程度，为应急响应及差异化服务提供指导依据，提升电网的服务质量，提高用户对电网服务的满意度，就有必要挖掘对停电敏感的用户，合理的安排停电计划。但是，营销系统中并没用统一标识停电敏感用户。于是，为了解决实际业务过程中存在的该问题，就需要对停电敏感进行业务建模与数据挖掘。伴随着互联网技术的应用和发展，互联网已经成为人们获取各种信息的重要渠道。人们所面对的信息呈指数级增大，且数据来源纷繁复杂，在获得目标信息的同时也会获得许多无用的信息。且信息的采集分析具备滞后性，如何就目标用户数据建立针对性的采样频率和周期，对采样频率进行动态调整以适应用户特性，以防止信息滞后和信息过载的现象；因此，收集用电用户的用电痕迹数据然后对其群体进行挖掘，从海量数据信息中快速定位目标用户，针对不同的目标用户采用对应的采样策略和处置策略，是迎合用户的个性化需求，降低用户投诉率，提高用户消费体验的重要技术手段。

中国专利，公开号：CN 112766550 A，公开日：2021年5月7日，本发明涉及数据分析领域，为基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备。其方法包括：从数据源中采集停电类、工单类、电费类及标签类数据；设计指标体系，从停电信息、用户信息、客户标签三个维度进行指标数据提取；提取用于模型构建的数据，构建模型的基础用户群、敏感投诉用户目标组、敏感投诉用户对照组；对来源于不同业务系统的用于停电敏感用户预测的数据进行预处理，并按户进行数据整合得到多维度停电指标信息宽表；构建停电敏感用户预测模型，以三个维度指标为基础，对客户未来是否属于停电敏感类型进行预测；结合历史诉求工单记录，输出停电敏感度高、中、低用户标签，通过用户画像实现风险的准确预判。该方案通过随机森林算法对停电敏感用户预测，但没有克服数据的滞后性以及制定对应的脱敏策略，难以为减少客户投诉率和客户流失率带来积极正向的影响。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的是解决现有基于多终端数据源采集的用电用户数据缺乏定制化采集和分析导致的数据滞后和信息过载现象，进一步导致客户投诉率和客户流失率双高的窘境局面，提出了基于逻辑回归模型的停电敏感用户优选处置方法，基于逻辑回归模型对新老用电用户进行分析和评估获取基于停电次数的停电敏感用户联合子画像，然后对若干停电敏感用户联合子画像进行相关度分析得到停电敏感用户联合修正子画像，进而针对不同的用电用户调整多终端业务数据的采样周期，并基于不同的数据分析结果制定脱敏策略，可以极大避免数据滞后和信息过载现象，同时对客户投诉率和客户流失率的降低具备正向促进效果。

第一方面，本发明实施例中提供的一种技术方案是基于逻辑回归模型的停电敏感用户优选处置方法，包括如下步骤：

S1、基于信息价值度计算历史业务数据所涉及的指标信息得到有效指标宽表数据，基于有效指标宽表数据以停电敏感概率为目标变量构建逻辑回归模型；

S2、基于用电用户身份标签对长时间序列内采集的多终端业务数据进行分类构建第一数据集和第二数据集；

S3、通过逻辑回归模型分别获取第一数据集对应的第一敏感用户画像和第二数据集对应的第二敏感用户画像；基于停电敏感概率由大到小的顺序对第一敏感用户画像和第二敏感用户画像进行重构得到停电敏感用户联合画像；

S4、对停电敏感用户联合画像进行分类得到基于停电次数的若干停电敏感用户联合子画像；

S5、分别获取相邻停电敏感用户联合子画像中停电特性数据和停电敏感概率的相关度，通过对相关度进行分析得到停电敏感用户联合修正子画像；

S6、轮次执行S5，对若干停电敏感用户联合子画像进行拼接，得到包含多种停电次数的若干停电敏感用户联合修正子画像；

S7、基于停电敏感用户联合修正子画像构建隶属于敏感用户的采样时间窗，基于采样时间窗分时采集对应时刻的多终端业务数据进行分析，基于分析结果制定脱敏策略。

本方案中，首先，首先是多终端系统（包括营销系统、95598系统、标签库等系统）进行源数据梳理，从停电信息、用户信息、用户标签等维度进行指标数据提取；其次对样本用户群进行分类，总的样本用户群体分为目标组和对照组，在基础用户群基础上分为训练集和测试集；接着通过训练集数据对逻辑回归的模型进行训练，结合训练结果进行模型调参，完成模型训练；使用测试集验证模型结果，避免过拟合或者拟合不足的问题；然后对模型整体效果进行评估，并根据评估结果再次优化迭代模型，最终输出潜在停电敏感用户群；通过结合用户的历史投诉工单情况，输出标记停电敏感标签用户清单对获取的多终端数据进行处理，逻辑回归是一种研究二分变量与一些影响因素之间关系的多变量分析方法，是在线性模型基础上的进一步发展，其可用于研究自变量与因变量之间的非线性关系，具体的建模方式和可靠性验证步骤见实施例部分描述，在此不进行展开说明；然后，基于逻辑回归模型对新老用电用户进行分析和评估，基于停电敏感用户概率由大到小的顺序获取停电敏感用户联合画像；获取基于停电次数的停电敏感用户联合子画像，然后对若干停电敏感用户联合子画像进行相关度分析得到停电敏感用户联合修正子画像，进而针对不同的用电用户调整多终端业务数据的采样周期，并基于不同的数据分析结果制定脱敏策略，可以极大避免数据滞后和信息过载现象，同时对客户投诉率和客户流失率的降低具备正向促进效果；有助于帮助营销、运检、用户部门提供数据支撑，助力电网营销管理。

作为优选，所述基于信息价值度计算历史业务数据所涉及的指标信息得到有效指标宽表数据，基于有效指标宽表数据以停电敏感概率为目标变量构建逻辑回归模型；包括如下步骤：

将工单数据中涉及到的停电投诉或建议问题项作为标签项，基于停电信息、用户信息、用户标签作为特征项；

分别计算各特征项对应的指标数据与标签项之间的信息价值度，筛选出信息价值度大于设定阈值的指标数据作为有效指标，若干有效指标构建有效指标宽表数据；

以停电敏感概率为目标变量，以有效指标宽表数据涉及的指标数据作为自变量，构建逻辑回归模型。

作为优选，所述基于用电用户身份标签对长时间序列内采集的多终端业务数据进行分类构建第一数据集和第二数据集；包括如下步骤：

基于长时间序列为采样周期获取多终端业务数据，将多终端业务数据与会员库中的用电用户身份信息进行比对；

将比对成功的多终端业务数据添加至第一数据集，将比对不成功的多终端业务数据添加至第二数据集。

作为优选，所述通过逻辑回归模型分别获取第一数据集对应的第一敏感用户画像和第二数据集对应的第二敏感用户画像；基于停电敏感概率由大到小的顺序对第一敏感用户画像和第二敏感用户画像进行重构得到停电敏感用户联合画像；包括如下步骤：

提取第一数据集中的有效指标宽表数据，通过逻辑回归模型获取各用电用户对应的敏感概率，基于敏感概率大于设定阈值的停电用户构建第一敏感用户画像；

提取第二数据集中的有效指标宽表数据，通过逻辑回归模型获取各用电用户对应的敏感概率，基于敏感概率大于设定阈值的停电用户构建第二敏感用户画像；

基于停电敏感概率由大到小的顺序分别对第一敏感用户画像和第一敏感用户画像进行排序得到第一用户序列表和第二用户序列表；

分别获取第一序列表和第二序列表中序列位对应的停电敏感概率由大到小进行排序得到停电敏感用户联合画像。

作为优选，所述对停电敏感用户联合画像进行分类得到基于停电次数的若干停电敏感用户联合子画像；包括如下步骤：

基于贝叶斯分类法对停电敏感用户联合画像进行分类得到基于停电次数的停电敏感用户联合子画像；

其中，不同的停电次数构建的停电敏感用户联合子画像不同。

作为优选，所述分别获取相邻停电敏感用户联合子画像中停电特性数据和停电敏感概率的相关度，通过对相关度进行分析得到停电敏感用户联合修正子画像；包括如下步骤：

获取第n次停电指标对应的停电平均时长数据T _n作为停电特性数据；其中

，t _i为第i次停电的停电时长；

获取第n+1次停电指标对应的停电敏感概率P _n+1；

基于皮尔逊相关系数法获取停电特性数据T _n与停电敏感概率P _n+1的相关度h _n,n+1；

对获取的相关度h _n,n+1进行分析得到停电敏感用户联合修正子画像。

作为优选，所述对获取的相关度h _n,n+1进行分析得到停电敏感用户联合修正子画像，包括如下步骤：

若相关度h _n,n+1大于等于设定阈值h0，则将第n次停电指标和第n+1次停电指标对应的停电敏感用户联合子画像进行合并得到停电敏感用户联合修正子画像；

若相关度h _n,n+1小于设定阈值h0，则将第n次停电指标和第n+1次停电指标对应的停电敏感用户联合子画像单独作为停电敏感用户联合修正子画像。

作为优选，所述基于停电敏感用户联合修正子画像构建隶属于敏感用户的采样时间窗，基于采样时间窗分时采集对应时刻的多终端业务数据；包括如下步骤：

以停电次数作为停电节点构建隶属于停电敏感用户联合修正子画像的停电节点序列；

以停电节点序列的首部序列的上边界和尾部序列的下边界构建采样时间窗；所述首部序列的上边界和尾部序列的下边界的时间差作为采样时间窗的时间尺度；

基于采样时间窗作为采样周期获取多终端业务数据，筛选出停电节点序列对应的停电敏感用户联合修正子画像中的用电用户数据进行分析。

作为优选，所述脱敏策略包括消息定相推送策略或/和停电服务补救策略；

所述停电服务补救策略包括：

根据停电敏感用户联合修正子画像对应的用电用户的地理位置坐标，构建建设基点；

基于建设基点布置备用电装置，基于备用电装置进行能源救济。

作为优选，所述根据停电敏感用户联合修正子画像对应的用电用户的地理位置坐标，构建建设基点；基于建设基点布置备用电装置，基于备用电装置进行能源救济，包括如下步骤：

依次获取隶属于停电敏感用户联合修正子画像对应的用电用户的地理位置坐标构建停电敏感用户坐标集；

基于用电类型设定聚类中心K，采用Kmeans聚类算法对停电敏感用户坐标集进行聚类得到K个停电敏感用户坐标子集；

基于停电敏感用户坐标子集中的用电用户的所在位置构建包络线，所述包络线内包含停电敏感用户坐标子集所有用电用户；

构建包络线的最小外接矩形，以最小旋转矩形的对角线交点作为对应停电敏感用户坐标子集的建设基点；

基于建设基点布置备用电装置作为停电敏感用户所在区域停电时段的补给电源。

本发明的有益效果：本发明提出了基于逻辑回归模型的停电敏感用户优选处置方法，基于逻辑回归模型对新老用电用户进行分析和评估，基于停电敏感用户概率由大到小的顺序获取停电敏感用户联合画像；获取基于停电次数的停电敏感用户联合子画像，然后对若干停电敏感用户联合子画像进行相关度分析得到停电敏感用户联合修正子画像，进而针对不同的用电用户调整多终端业务数据的采样周期，并基于不同的数据分析结果制定脱敏策略，可以极大避免数据滞后和信息过载现象，同时对客户投诉率和客户流失率的降低具备正向促进效果；有助于帮助营销、运检、用户部门提供数据支撑，助力电网营销管理。

上述发明内容仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

图1为本发明的基于逻辑回归模型的停电敏感用户优选处置方法流程图。

具体实施方式

为使本发明的目的、技术方案以及优点更加清楚明白，下面结合附图和实施例对本发明作进一步详细说明，应当理解的是，此处所描述的具体实施方式仅是本发明的一种最佳实施例，仅用以解释本发明，并不限定本发明的保护范围，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤；所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例：如图1所示，基于逻辑回归模型的停电敏感用户优选处置方法，包括如下步骤：

S1、基于信息价值度计算历史业务数据所涉及的指标信息得到有效指标宽表数据，基于有效指标宽表数据以停电敏感概率为目标变量构建逻辑回归模型。

具体地，步骤S1包括如下步骤：

本实施例中，首先是从营销系统、95598系统、标签库等多终端系统中获取数据源进行梳理，从停电信息、用户信息、用户标签等维度进行指标数据提取；其次对样本用户群进行分类，总的样本用户群体分为目标组和对照组，在基础用户群基础上分为训练集和测试集；接着通过训练集数据对逻辑回归的模型进行训练，结合训练结果进行模型调参，完成模型训练；使用测试集验证模型结果，避免过拟合或者拟合不足的问题；然后对模型整体效果进行评估，并根据评估结果再次优化迭代模型，最终输出潜在停电敏感用户群；通过结合用户的历史投诉工单情况，输出标记停电敏感标签用户清单。以停电信息、用户信息、用户标签、投诉信息四个维度下的指标为基础，利用分类算法对用户未来是否属于停电敏感类型进行预测。由于电力用户数量庞大，用户指标整理而成的宽表相对较大，因此停电敏感风险建模优先考虑预测精度较高、可解释性相对较强并且速度较快的算法。在此基础上，结合用户历史投诉的情况。考虑到以上几点因素，对停电敏感风险的研究采用逻辑回归算法。通过识别停电敏感用户群体，为营销部、设备部、客服中心等相关部门开展精准营销和差异化服务提供数据支撑，从而提高用户整体满意度、提升用户感知。

可以理解的是，在搭建逻辑回归模型之前，首先基于多终端数据搭建指标体系，考虑到对业务的理解和专家咨询，对停电敏感用户的定义为用户在发生停电事故后拨打95598客服热线投诉或者向95598热线提出停电方面意见的工单用户。因此将投诉和意见工单中涉及到停电问题的工单用户列为标签项，特征项选取了停电信息、用户信息、用户标签三个维度的13个指标。停电信息维度主要是从停电次数、停电时长、停电类型和影响人数四个方面设计指标，用户信息维度主要是从用户类型、合同容量、欠费情况、关联手机数四个方面设计指标；用户标签主要是从电费风险、频繁投诉、催费短信订阅、缴费偏好、信用等级五个方面设计指标。指标设计具体包括指标名称、计算规则、考察期和评价规则的设计，其中指标体系设计表见表1。

表1.指标体系设计表

进一步地，还包括指标数据处理，由于用于停电敏感用户预测的数据来源于不同业务系统，故需要对数据进行处理，数据处理主要包括对缺失值、离群值、异常值等记录进行清洗处理以及相关衍生变量的生成过程，具体顺序为：缺失值、离群值、异常值处理到衍生变量生成。

进一步地，还包括指标筛选，指标筛选通过信息价值度（IV）统计量进行标识，计算各指标与是否用户是否停电敏感的关联度，并将最相关的几个变量选择为建模变量。IV指数是用来衡量两个分类变量且其中一个为二元变量间的关联性，IV值越低，说明指标的预测力越弱，关联度越低，反之，则说明指标与结果变量具有强关联性，可以作为建模的变量。

具体公式为：

，

其中

和/>

分别是第i个分组中目标变量y第一类和第二类中记录的百分比，即：

，

当信息值IV大于0.3，认为变量之间存在较强关联性，IV值解释预测力如表2所示。

表2.IV值解释预测力表

依据停电敏感评估模型对用电用户进行预测评估并将结果与实际停电敏感用户结果对比验证，从建模角度分析命中率和覆盖率的变化趋势，从业务层面分析实际预测的准确率，通过分析结果模型做相应的调优处理。

进一步地，还包括模型验证，模型命中率：命中率=总数（预测正确）/预测停电敏感用户数，描述模型结果中正确结果的比例，该指标用于衡量模型的准确性；模型覆盖率：覆盖率=总数（预测正确）/总数（实际停电敏感用户数），描述模型所挖掘出的停电敏感用户数量占真实停电敏感户数的比例。

进一步地，还包括模型效果评估，在实际业务中希望在阈值相同的情况下，假警报率尽可能小，命中率尽可能高，该思想反映在图形上，就是ROC曲线非常接近（0，1），即曲线非常陡峭。用曲线来描述会比较抽象，在数值上可以使用AUC值来衡量模型的好坏。AUC值（AreaUnder Curve）指ROC曲线下方的面积，该面积的取值范围通常为0.5～1，0.5表示随机判断，1则代表完美的模型。在具体业务上，因为存在很多扰动因子，AUC值能达到0.75以上就已经可以接受，如果能达到0.85以上，表征模型效果突出。

基于以上逻辑回归模型的构建方式和数据处理步骤，采用以下具体实例对构建的逻辑回归模型进行可靠性分析和展示。

（1）分析对象获取：本次分析对象为抽样提取2021年7月1日至2022年6月31日对停电事件未发生投诉或者意见的用户与对停电事件发生投诉或者意见的用户。

（2）数据获取范围：XX省内用户用电用户。

（3）分析字段获取：分别通过数据系统获取由营销系统、95598系统、标签库等渠道的浙江省范围内的停电次数、停电时长、停电类型、影响人数、用户类型、合同容量、欠费情况、关联手机数、电费风险、频繁投诉、催费短信订阅、交费偏好、信用等级这13个字段。

（4）数据获取方式：通过业务系统进行数据统计，将所有的数据进行获取。

数据处理步骤：

（1）离群值、异常值的处理方法：当出现以上情况时，离群值可用3个标准差的最大值或最小值替换，将离群值调整为距离最近的正常值。异常值要检验异常值出现的原因，并相应的处理异常值。如果离群值或异常值没有业务含义，可直接剔除离群值或异常值或用空值 NULL来替代离群值或异常值。

（2）缺失值的处理方法：将缺失值调整为某个固定值。如均值、中间值或一个指定的常数或将缺失值调整为一个服从正态分布的随机值。

（3）按户进行数据整合：指标数据经过异常值处理、缺失值处理后，应确保每个用户只有一个对应的指标值。基于户号ID，将各停电类指标关联，得到停电敏感指标宽表。

（4）相关衍生变量的生成：衍生变量是服务模型建设的变量，基于数理分析中心数据处理模块的变量计算功能生成与停电敏感模型相关的各衍生变量。

指标筛选：

对“待建模”的变量，包括原始变量和衍生变量，进行相关性分析，衡量变量间的相关性。一般而言，相关系数>0.8时，两个变量高度相关，需要删除其中之一，经过相关性分析和经验判断，可删除一部分变量。

在进行建模分析之前，一般需要对单变量进行分析，主要包括和被解释变量之间的关联分析和卡方分析。以确定某一变量是否可用于建模，以及是否需要对该变量进行转化。

同样可以采用信息值IV来衡量解释变量与被解释变量之间的关联性，关联分析的结果IV值>0.3时，说明解释变量和被解释变量之间具有强关联性。特征指标与目标变量间的信息值IV如表3所示。

表3. 特征指标与目标变量间的信息值IV结果表

从上表可以看出特征指标与目标变量（是否停电敏感用户）间的信息值IV均大于0.3，说明两者之间具有强关联性，即特征指标可以纳入模型。

构建逻辑回归模型：针对停电敏感用户建模，最终确定的方程为：

，

X₁为停电次数指标、X₂为停电时长指标、X₃为停电类型指标、X₄为影响人数指标、X₅为用户类型指标、X₆为合同容量指标、X₇为欠费情况指标、X₈为关联手机数指标、X₉为电费风险指标、X₁₀为频繁投诉指标、X₁₁催费短信订阅指标、X₁₂为交费偏好指标、X₁₃为信用等级指标。其中，当若干个变量对停电敏感的综合影响力为正向时，由于量级的差异，其同时进入模型时，部分变量的系数变为负值。y即为用电用户对停电敏感的概率。

模型参数调整：对模型进行参数优化。由于调参前的模型评价效果并不好，所以需要对逻辑回归模型中的重要参数进行调优。训练集和测试集的拆分仍然按照7:3的比例进行拆分，调优的思路是利用学习曲线的方式，将指定的参数范围进行穷举分析。选取在测试集中表现最好的参数。需要调节的参数如表4。

表4.参数调节表

将上述参数利用学习曲线法进行对比分析，耗时73秒后，从中选取效果最好的方案进行分析，以期待得到耗时、效果较好的参数组合。最终确定的参数如表5所示。

表5.参数确定表

模型验证：模型命中率和模型覆盖率都是测试模型有效性的度量手段。一个理想的模型应该具有较高的命中率和覆盖率，如果命中率较高但覆盖率低，说明模型代表性和稳定性比较差，反映了样本的局限性。同时，如果覆盖率比较高但命中率比较低，则说明模型效果不好，可信度和实用性比较低，故逻辑回归模型结果需要选取合适的阈值，使得命中率和覆盖率处于合适的区间范围，本实施例中，建立的逻辑回归模型预测停电敏感用户的命中率为80.91%，覆盖率为70.65%。

模型效果评估：本方案通过前期数据探索，结合内外部数据，最终选择停电信息、用户信息、用户标签、投诉信息这四大维度数，利用逻辑回归LR模型，进行模型构建，得到模型效果评估ROC曲线。在算法训练过程中进行结构参数、标准化规则、变量筛选、阈值参数等超参调整，得到的AUC值为0.77，表明逻辑回归算法预测模型得到有效验证。

预测结果输出：通过停电敏感用户预测模型，输出潜在停电敏感用户清单。深入全面地对不同群体用户进行分析，实现停电敏感用户的精准识别，通过制定针对性的风险防控策略，有效减少用户来电风险，为营销部、设备部、客服中心等部门提供有效数据支撑，助力电网营销管理，停电敏感用户识别结果如表6所示。

S2、基于用电用户身份标签对长时间序列内采集的多终端业务数据进行分类构建第一数据集和第二数据集。

具体地，基于长时间序列为采样周期获取多终端业务数据，将多终端业务数据与会员库中的用电用户身份信息进行比对；

可以理解的是，基于长时间序列的采样周期基于电力公司的业务调整模式和营销模式进行设置，例如可以设计的采样周期为月度采集、季度采集和年度采集，由于采样周期跨度大，缺乏针对不同的用电用户制定不同的采样周期，导致归类为停电敏感用户的用电需求和情感没有被及时、定相照顾，会导致部分用电用户流失，用电用户用电体验感降低；同时由于用电用户的流失和新用户的增加，需要对用户身份识别库进行不断更新，因此需要针对新用电用户进行模型训练和归类，进而得到停电敏感用户。

表6.停电敏感用户识别结果表

S3、所述通过逻辑回归模型分别获取第一数据集对应的第一敏感用户画像和第二数据集对应的第二敏感用户画像；基于停电敏感概率由大到小的顺序对第一敏感用户画像和第二敏感用户画像进行重构得到停电敏感用户联合画像。

具体地，提取第一数据集中的有效指标宽表数据，通过逻辑回归模型获取各用电用户对应的敏感概率，基于敏感概率大于设定阈值的停电用户构建第一敏感用户画像；

可以理解的是，例如设定敏感概率大于设定阈值0.5的停电用户构建第一敏感用户画像；可以认为敏感概率大于阈值0.5的就属于停电敏感用户，至于敏感程度，可以进一步进行设定，例如敏感概率大于0.85的用电用户可以认定为高敏感用户，具备更高的处置优先级别，通过对新老用户的敏感用户实行识别，进而获取隶属于同一个周期内的所有敏感用户数据构建停电敏感用户联合画像。

S4、对停电敏感用户联合画像进行分类得到基于停电次数的若干停电敏感用户联合子画像。

具体地，基于贝叶斯分类法对停电敏感用户联合画像进行分类得到基于停电次数的停电敏感用户联合子画像；不同的停电次数构建的停电敏感用户联合子画像不同。

朴素贝叶斯（Naive Bayes ,NB）算法是基于贝叶斯定理与特征条件独立假设的分类方法，该算法是有监督的学习算法，解决的是分类问题，是将一个未知样本分到几个预先已知类别的过程，本申请中的已知类别是停电特性数据，具体地位停电次数。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率，也就是根据先前事件的有关数据估计未来某个事件发生的概率。

S5、分别获取相邻停电敏感用户联合子画像中停电特性数据和停电敏感概率的相关度，通过对相关度进行分析得到停电敏感用户联合修正子画像。

具体地，获取第n次停电指标对应的停电平均时长数据T _n作为停电特性数据；

其中，

，t _i为第i次停电的停电时长；

获取第n+1次停电指标对应的停电敏感概率P _n+1；

更具体地，对获取的相关度h _n,n+1进行分析得到停电敏感用户联合修正子画像，包括如下步骤：

本实施例中，停电特性数据采用停电平均时长数据T _n进行衡量，由于基于逻辑回归模型可以获取每个停电敏感用户的敏感概率，获取相邻停电敏感用户联合子画像中停电特性数据和停电敏感概率的相关度，其中，停电敏感用户联合子画像中停电特性数据采用所有停电敏感用户的停电特性数据的均值进行衡量，同理，停电敏感用户联合子画像中的停电敏感概率也采用所有停电敏感用户的敏感概率的均值进行衡量。

S6、轮次执行S5，对若干停电敏感用户联合子画像进行拼接，得到包含多种停电次数的若干停电敏感用户联合修正子画像。

具体地，基于停电敏感用户联合修正子画像构建隶属于敏感用户的采样时间窗，基于采样时间窗分时采集对应时刻的多终端业务数据；包括如下步骤：

可以理解的是，若停电敏感用户联合修正子画像中包含3次停电和4次停电的所有停电敏感用户，获取3次停电对应的每一次停电时刻和停电时长，同理，获取4次停电对应的每一次停电时刻和停电时长，然后，停电次数作为停电节点，最多存在7个停电节点（其中有些电力节点存在重合情形），获取停电节点序列中首部序列的上边界和尾部序列的下边界构建采样时间窗，其中，首部序列的上边界为对应的停电节点的第一次停电开始时刻；尾部序列的下边界为对应的停电节点为对应的最后一次停电的停电恢复时刻或停电结束时刻，进而基于采样时间窗作为采样周期获取多终端业务数据，可以实现针对不同的敏感用户制定不同采样周期的策略，进而可以极大避免数据滞后和信息过载现象，同时对客户投诉率和客户流失率的降低具备正向促进效果。

具体地，所述脱敏策略包括消息定相推送策略或/和停电服务补救策略。

其中，消息定相推送策略包括：提醒内容包括计划停电的影响范围，停电日期、停电时段和停电时长等，进而降低计划停电带来的用户服务风险。

其中，停电服务补救策略包括：

根据停电敏感用户联合修正子画像对应的用电用户的地理位置坐标，构建建设基点；基于建设基点布置备用电装置，基于备用电装置进行能源救济。

具体地，依次获取隶属于停电敏感用户联合修正子画像对应的用电用户的地理位置坐标构建停电敏感用户坐标集；

本实施例中，通过分析用户的停电敏感特征，可有效支撑供电公司的停送电服务精益化管理，使计划停电安排科学合理，抢修策略和停电安抚有的放矢，进一步降低用户停电投诉风险和改善用户用电体验。事前计划停电安排：通过停电敏感用户预测模型输出停电敏感用户群体，结合历史诉求工单记录，协助生产部门在制定相关停电计划事时，有针对性的进行计划停电通知，提醒内容包括计划停电的影响范围，停电日期、停电时段和停电时长等，降低计划停电带来的用户服务风险。事中故障停电服务补救：通过故障停电的影响范围，定位出当前停电敏感用户群体分布区域，支撑抢修策略和安抚策略制订，优先抢修敏感用户集中且高敏感用户较多的线路，缩小待安抚范围，具体的，可以根据停电敏感用户群体分布区域，在电力建设规划前期部署备用电装置，其中，备用电装置的布置点位于停电敏感用户坐标子集所有用电用户地理位置的中心点，通过勘测技术获取各供电网格的空间坐标信息和轮廓信息，基于空间坐标信息和轮廓信息构建建设区块的虚拟地图，基于每个供电网格的轮廓信息获取对应的网格中心点；其中，以最小旋转矩形的对角线交点作为对应停电敏感用户坐标子集的建设基点，其原理为将包络线构建的不规则区域从0°到90°按照步长旋转，每一步都计算外接矩形的面积，当面积取最小时的旋转角度就是最小旋转矩形的角度，采用同样的方法可以获取不规则区域的中心区域作为建设基点，可以极大的减少建设成本，不管是管路还是电路的铺设都是最经济便捷的方式。在停电时期优先对高敏感用户进行电能补给，可以减少投诉率，提高满意度；其中亦可以采用上门告知、电话、短信等服务补救方式，告知抢修进展和预计恢复送电时间，降低故障停电对用户产生的不良感知。事后投诉风险防范：针对用户停电敏感度的等级不同，可提供相应的安抚和引导策略，通过提前采取服务补救等措施，可有效减少用户来电风险，树立公司良好的社会形象。

以上所述之具体实施方式为本发明基于逻辑回归模型的停电敏感用户优选处置方法的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。

Claims

1.基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：所述基于信息价值度计算历史业务数据所涉及的指标信息得到有效指标宽表数据，基于有效指标宽表数据以停电敏感概率为目标变量构建逻辑回归模型；包括如下步骤：

3.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：

所述基于用电用户身份标签对长时间序列内采集的多终端业务数据进行分类构建第一数据集和第二数据集；包括如下步骤：

4.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：

所述通过逻辑回归模型分别获取第一数据集对应的第一敏感用户画像和第二数据集对应的第二敏感用户画像；基于停电敏感概率由大到小的顺序对第一敏感用户画像和第二敏感用户画像进行重构得到停电敏感用户联合画像；包括如下步骤：

5.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：

所述对停电敏感用户联合画像进行分类得到基于停电次数的若干停电敏感用户联合子画像；包括如下步骤：

基于贝叶斯分类法对停电敏感用户联合画像进行分类得到基于停电次数的停电敏感用户联合子画像；不同的停电次数构建的停电敏感用户联合子画像不同。

6.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：

所述分别获取相邻停电敏感用户联合子画像中停电特性数据和停电敏感概率的相关度，通过对相关度进行分析得到停电敏感用户联合修正子画像；包括如下步骤：

；

获取第n+1次停电指标对应的停电敏感概率P _n+1；

7.根据权利要求6所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：所述对获取的相关度h _n,n+1进行分析得到停电敏感用户联合修正子画像，包括如下步骤：

8.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：

所述基于停电敏感用户联合修正子画像构建隶属于敏感用户的采样时间窗，基于采样时间窗分时采集对应时刻的多终端业务数据；包括如下步骤：

9.根据权利要求1所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：所述脱敏策略包括消息定相推送策略或/和停电服务补救策略；

所述停电服务补救策略包括：

10.根据权利要求9所述的基于逻辑回归模型的停电敏感用户优选处置方法，其特征在于：

所述根据停电敏感用户联合修正子画像对应的用电用户的地理位置坐标，构建建设基点；基于建设基点布置备用电装置，基于备用电装置进行能源救济，包括如下步骤：