CN115841250A

CN115841250A - 一种基于集成学习的电费拖欠风险预警方法及系统

Info

Publication number: CN115841250A
Application number: CN202211519672.4A
Authority: CN
Inventors: 姜帅; 郑岳; 仝天; 孙源; 田梦雨; 李爱青; 王新新; 温馨; 于丽梅
Original assignee: State Grid Corp of China SGCC; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-24

Abstract

本发明涉及电费抄核收技术领域，提供了一种基于集成学习的电费拖欠风险预警方法及系统，包括：在基础信息指标、用电行为指标和缴费行为指标中，筛选出建模指标；基于建模指标，采用stacking模型，得到用户缴费信用得分；其中，模型的第一层由随机森林、神经网络和XGBoost学习器组成，第二层为逻辑回归模型，在训练过程中，第一层的输入为训练集，第二层基于第一层的输出进行训练。提高了模型对用户电费拖欠风险的预测性能，对未来用户可能出现的电费拖欠风险进行评价和预警，有助于电费催收，提高电费回收效率。

Description

一种基于集成学习的电费拖欠风险预警方法及系统

技术领域

本发明属于电费抄核收技术领域，尤其涉及一种基于集成学习的电费拖欠风险预警方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

电费管理是供电企业电力营销工作的核心，电费收入在供电企业发展中占据了关键的一环，如何降低电费回收风险，减少供电企业在回收电费的过程中投入的巨额成本费用，针对不同的群体用户制定合适的催费策略显得越来越重要。然而，现有方法难以在众多指标中筛选出造成用户电费拖欠的主要影响指标，也难以准确预测用户电费拖欠风险。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于集成学习的电费拖欠风险预警方法及系统，以筛选出的用电特征指标和缴费特征指标为自变量，以用户缴费信用评价指标为因变量，利用stacking集成的思想构建电费拖欠风险预警模型，将神经网络模型、XGBoost模型、逻辑回归模型进行结合，提高了stacking模型对用户电费拖欠风险的预测性能，对未来用户可能出现的电费拖欠风险进行评价和预警，有助于电费催收，提高电费回收效率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于集成学习的电费拖欠风险预警方法，其包括：

获取待预测用户的基础信息数据、历史电费缴纳数据和历史用电量数据；

基于用户的基础信息数据，计算得到基础信息指标，基于历史用电量数据，计算得到用电行为指标，基于历史电费缴纳数据，计算得到缴费行为指标，并在基础信息指标、用电行为指标和缴费行为指标中，筛选出建模指标；

基于建模指标，采用stacking模型，得到用户缴费信用得分；

其中，stacking模型的第一层由随机森林、神经网络和XGBoost学习器组成，第二层为逻辑回归模型，stacking模型在训练过程中，第一层的输入为训练集，第二层基于第一层的输出进行训练。

进一步地，所述基础信息指标包括用电类别、年龄属性和城乡类别属性。

进一步地，所述用电行为指标包括本月用电同比增长率、本月用电环比增长率和用电强度。

进一步地，所述缴费行为指标包括缴费方式变更次数、平均电费金额和平均缴费周期。

进一步地，在训练集的构建过程中，将年均欠费间隔、年均欠费金额和年电费欠缴次数的加权和作为用户缴费信用得分。

进一步地，所述年均欠费间隔、年均欠费金额和年电费欠缴次数的权重利用熵权法计算得到。

进一步地，以用电行为指标和缴费行为指标为自变量，用户缴费信用得分为因变量，利用随机森林算法筛选出建模指标。

本发明的第二个方面提供一种基于集成学习的电费拖欠风险预警系统，其包括：

数据获取模块，其被配置为：获取待预测用户的基础信息数据、历史电费缴纳数据和历史用电量数据；

特征构建与筛选模块，其被配置为：基于用户的基础信息数据，计算得到基础信息指标，基于历史用电量数据，计算得到用电行为指标，基于历史电费缴纳数据，计算得到缴费行为指标，并在基础信息指标、用电行为指标和缴费行为指标中，筛选出建模指标；

电费回收风险预警模块，其被配置为：基于建模指标，采用stacking模型，得到用户缴费信用得分；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于集成学习的电费拖欠风险预警方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于集成学习的电费拖欠风险预警方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于集成学习的电费拖欠风险预警方法，其以筛选出的用电特征指标和缴费特征指标为自变量，以用户缴费信用评价指标为因变量，利用stacking集成的思想构建电费拖欠风险预警模型，将神经网络模型、XGBoost模型、逻辑回归模型进行结合，提高了stacking模型对用户电费拖欠风险的预测性能，对未来用户可能出现的电费拖欠风险进行评价和预警，有助于电费催收，提高电费回收效率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的一种基于集成学习的电费拖欠风险预警方法的流程图；

图2是本发明实施例一的催费工作逻辑框架图；

图3是本发明实施例二的一种基于集成学习的电费拖欠风险预警系统的模块连接图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

本实施例提供了一种基于集成学习的电费拖欠风险预警方法。

在电费回收过程中，供电企业往往会遇到客户新增电费欠费等情况，不能如期缴清电费，不仅增加了供电公司的电费回收压力，也给欠费客户带来了用电困扰。本实施例提供的一种基于集成学习的电费拖欠风险预警方法，如图1所示，具体包括如下步骤：

步骤1、数据获取。

获取电力营销系统中的用户基础信息数据、电费金额数据、历史电费缴纳数据、历史用电量数据；并对数据进行预处理，基于预处理之后的数据，进行后续的特征构建及筛选、预警模型搭建。

步骤2、特征构建和筛选。

步骤201、特征构建。

以用户用电数据和缴费数据为基础，构建用户用电特征指标和用户缴费特征指标，评价用户的用电情况和缴费情况，并结合相关缴费指标构建用户信用评价指标，衡量用户的缴费信用情况，主要指标如下。

(1)用电指标和缴费指标构建：

(101)基础信息指标：

1)用户类别：获取用户基础信息数据、电费金额数据、历史电费缴纳数据。其中，用户类别字段主要包括低压居民、低压非居和高压三个类别，该指标衡量用户的用电类别。

2)年龄属性：确定用户的年龄段，不同年龄段的用户，缴费方式也不一样。

3)城乡类别属性：衡量用户的是城镇居民还是农村居民。

(102)用电行为指标：

从电力营销系统中利用获取模块获取用户基础信息数据、电费金额数据、历史电费缴纳数据构建如下指标。

1)本月用电同比增长率：若本月的用电量为E1，去年同期用电量为E2，则用户的用电同比增长率为：

2)本月用电环比增长率：若本月的用电量为E1，上月的用电量为E3，则用户的用电环比增长率为：

3)用电强度：用电强度指的是用电量与容量的比值。

(103)缴费行为指标：

1)缴费方式变更次数：在一年的时间内，用户缴费方式的变更次数；

2)平均电费金额：衡量客户一年的时间内的平均电费水平；

3)平均缴费周期：衡量客户一年的时间内平均的缴费周期。

(2)信用指标的构建：

1)年均欠费间隔(S1)：衡量用户一年的时间内平均欠费间隔；

2)年均欠费金额(S2)：衡量用户在一年的时间内平均的欠费金额；

3)年电费欠缴次数(S3)：衡量用户在一年的时间内的欠缴次数。

以用户的年均欠费间隔(S1)、年均欠费金额(S2)、年电费欠缴次数(S3)为基础构造用户缴费信用得分计算模型得到用户最后的缴费信用得分，计算模型如下：

R_score＝w₁*S1+w₂*S2+w₃S3(3)

其中，R_score为用户缴费信用得分，w₁为S1部分的权重，w₂为S2的权重，w₃为S3部分的权重。

对于权重w₁、w₂和w₃的计算，则利用熵权法，熵权法得权重的过程如下：

A.将S1、S2和S3进行标准化，去掉各个指标的量纲，标准化的公式如下：

其中，S_j为矩阵S的第j列，max(S_j)为第j个指标的最大值，min(S_j)为第j个指标的最小值，S_ij为指标的任意值，即第j个指标中的第i个值，每个指标有n个值。

B.计算第j项指标在第i个方案中占该指标的比重，计算方法如下：

其中，Y_ij为标准化后的指标。

C.求各指标的信息熵，计算方法如下：

其中，E_j>＝0，若P_ij＝0，定义E_j＝0。

D.通过信息熵计算定各指标权重，计算公式如下：

步骤202、特征筛选。

本发明通过随机森林模型筛选特征，输出特征重要性。将用电特征指标、缴费特征指标和信用得分指标进行重构，以用电特征指标、缴费特征指标为自变量，信用得分指标为因变量，构建随机森林模型，利用随机森林算法输出指标重要性，从众多指标中筛选出主要影响指标，过程如下：

(1)指标重构：将用电指标、缴费指标和信用得分指标进行重构得到多维指标体系；

(2)随机森林模型构建：以用电指标、缴费指标为自变量，信用得分指标为因变量，构建随机森林模型，将模型充分训练；

(3)指标重要性输出：以随机森林模型为基础，利用feature_importances_方法输出指标重要性；

(4)特征筛选：根据指标重要性的输出结果，选取指标重要性大于0.1的指标，作为最后的建模指标。

步骤3、基于stacking分层集成的风险预测。

stacking是一种分层模型集成框架，本发明搭建两层机器学习模型，第一层由随机森林、神经网络、XGBoost学习器组成，其输入为原始训练集，第二层的模型以第一层基学习器的输出作为特征利用逻辑回归算法进行再训练，从而得到完整的stacking模型。

步骤301、stacking第一层模型预测。

(1)随机森林模型：随机森林指的是利用多棵决策树对样本进行训练的技术，在本发明中，主要利用随机森林进行特征筛选，经过随机森林的训练，可以输出每个特征的重要程度，选出与信用指标最相关的指标，以支撑后续模型的搭建与预测。

(2)神经网络模型：用户电费缴纳信用评分模型采用输入层、隐含层和输出层三层结构的BP神经网络。由随机森林筛选出的影响因素的数量可以确定神经网络的输入神经元个数。模型输出结果是用户的用电行为信用等级得分，因此可以确定输出神经元的个数为1。在模型训练过程中根据预测结果的好坏来对隐含层个数进行调整，经过验证，最终得到整个神经网络的结构。对用电客户进行风险预测是一个全方位的复杂的问题，BP神经网络对输入无严格限制，并且能处理输入输出之间的非线性关系，同时误差经过不断的反向传播，参数会不断更新，使BP神经网络能推断数据之间的隐藏关系，从而使模型能准确预测未知数据。

(3)XGBoost模型：XGBoost模型思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。将筛选后的特征指标输入模型，构建XGBoost分类器，根据训练的结果调整参数，以得到最优的训练效果，从而可以准确预测未知数据。

步骤302、stacking第二层模型预测。

第二层模型，为了避免过拟合存在，选择逻辑回归模型进行预测，从用电客户特征属性分析可知，影响电力客户欠费行为有多种因素，并同时影响了电力客户的信用等级。在此问题中，本发明将各种影响因素作为自变量，将用户的信用等级作为因变量，从而使用逻辑回归模型对其信用等级进行预测。

逻辑回归模型是一种用于分类问题的监督学习模型，无需进行数据假设，可以直接通过用户的资料和行为数据来拟合回归模型，得到回归系数，从而预测用户的信用等级概率，并计算用户的信用评分。逻辑回归的主要思路其实是在线性回归的基础上增加了sigmoid函数，利用该函数单调可微的性质将线性回归的预测值转换为取值范围在(0,1)的值，并通过设定阈值从而使得逻辑回归可以处理二分类问题(正常用户和不良用户)。

z＝β^Tx (8)

其中，x为样本输入，β为系数矩阵，z为线性回归的预测值g(z)为逻辑回归模型的输出，即模型预测为1(用1表示不良用户，0表示正常用户)的概率：

P(y＝1|x；β)＝g(z) (10)

预测为0的概率为：

P(y＝0|x；β)＝1-g(z) (11)

通常在二分类问题中，阈值设定为0.5，如果g(z)>0.5，则y＝1,g(z)<＝0.5，则y＝0，其中g(z)的值越小，而分类为0的概率越高，g(z)越接近阈值分类准确率越低。需要注意的是无论选取哪一个阈值，始终是存在一定的误差，所以在实际情况中，需要根据实际需求在可接受的误差范围内选择合适的阈值。

步骤4、精准催费策略制定及预警。

如图2所示，根据预测结果，划分用户群体风险等级，建立用电客户信用等级评价制度，对不同信用等级的用电客户及时预警，形成多种催收方式优势互补的电费催收支撑能力体系，提出各种催费方式的差异化应用规则与应用方法，确定各类催费模式策略细节。

对于高风险用户，争取优先抄表，若出现拖欠电费情况，则立即采取电话催收和上门催收相结合的策略，争取第一时间落实电费催收工作。若该类客户习惯性拖欠电费，且存在不良信用记录，则对该客户实行“先缴费后用电”的模式，严格执行“交多少费用多少度电”的准则。

对于中风险用户，可丰富电费欠费的通知途径，并设定通知时间阈值。当欠费24小时内，则通过站内信或短信催费；当欠费48小时内，则通过电话自动催费；当欠费72小时，则通过人工客服电话催费；当欠费超过一周，则采取上门催收方式。一旦发现该类客户存在欠费行为，便能通过以上途径及时提醒客户缴费。

对于低风险用户，此类用户信誉较高，因此平时只要维护好电费管控系统，建立科学完善的内部信息系统，必要时候可以通过站内信或短信通知用户缴费，并丰富用电客户的缴费方式，方便客户缴费，大幅度减少这类客户的欠费行为。

结合以上各类客户电话催费、短信催费、人工上门催费结果以及客户交费和线上渠道绑定行为进行催收的成效分析，将上一次催收结果信息作为下一次催费策略选择的依据之一，不断调整催收策略，针对催收过程发现的档案异常发起治理流程，通过数据分析动态调整客户分类，建立“因人而异，策略灵活”的闭环催费流程，形成催收执行、成效与问题分析、档案治理、策略优化调整的电费催收业务闭环管理流程，迭代推进，不断提升电费催收工作成效。

本发明结合用电数据和缴费数据构造了相关指标，设计了缴费信用评价体系，并构造了信用评价的计算模型。利用stacking的思想构造电费拖欠风险预警模型，对未来用户的信用得分进行预测。根据预测结果，将用户划分为不同的群体风险等级，建立用电客户信用等级评价制度，对不同信用等级的用电客户及时预警，形成多种催收方式优势互补的电费催收支撑能力体系。无论是对国网内部还是对社会各服务行业都有重要意义。首先，针对不同特征信用评分的群体制定针对性的催收策略，避免盲目催收，实现电费催收由粗放型向精细型转变，大大降低了人力催收成本，压减电费催收时限，提高电费回收效率，提升企业服务水平。除此之外，本发明创新性的设计缴费信用评分，利用stacking的思想构造电费拖欠风险预警模型，从而支撑差异化催费策略的制定，具有巨大的市场推广价值。后期可推广到各相关行业，让数据多跑路、催费人员少跑腿、客户少费心。

在数字化转型和提质增效要求下，开展用户催费工作需要对公司现有服务渠道进行全面梳理和诊断，持续推广智能便捷缴费渠道，合理降低目前信息推送数量和推送成本，提升信息推送效果和效率，同时精准识别欠费风险客户，提升企业的风险预警机制，提高电费回收效率，降低电费回收风险。

本实施例提供的一种基于集成学习的电费拖欠风险预警方法，以客户用电数据和缴费数据为研究对象，首先，通过对用电数据和缴费数据进行分析，构建用户用电特征指标、缴费特征指标等指标特征；接着以缴费特征指标为依据构建用户缴费信用评价指标；然后将客户基础信息指标、客户用电特征指标、缴费特征指标和缴费信用评价指标进行重构，构建随机森林模型，以随机森林模型为基础进行指标筛选，输出各指标重要性信息；最后，以筛选出的用电特征指标和缴费特征指标为自变量，以用户信用评价指标为因变量，利用stacking集成的思想构建电费拖欠风险预警模型，对未来用户可能出现的电费拖欠风险进行评价和预警，助力电费催收。

本实施例提供的一种基于集成学习的电费拖欠风险预警方法，首先，以用户用电数据和缴费数据为基础，构建用户用电特征指标和缴费特征指标；接着以用户缴费特征指标为依据构建用户缴费信用评价指标，作为用户缴费信用的评价依据；然后将客户用电特征指标、缴费特征指标和用户缴费信用评价指标等进行重构，构建随机森林模型，以随机森林模型为基础进行指标筛选，输出各指标重要性信息(评价得分)；最后，以筛选出的指标为电费拖欠风险的最终评价指标，以筛选出的用电特征指标和缴费特征指标为自变量，以用户缴费信用评价指标为因变量，利用stacking集成的思想构建电费拖欠风险预警模型，将神经网络模型、XGBoost模型、逻辑回归模型进行结合，提高模型的性能，对未来用户可能出现的电费拖欠风险进行评价和预警，助力电费催收，提高电费回收效率。

实施例二

本实施例提供了一种基于集成学习的电费拖欠风险预警系统，如图3所示，其具体包括：

预警与策略制定模块，其被配置为：根据预测结果，划分用户群体风险等级，建立用电客户信用等级评价制度，对不同信用等级的用电客户及时预警，形成多种催收方式优势互补的电费催收支撑能力体系，提出各种催费方式的差异化应用规则与应用方法，确定各类催费模式策略细节。

本实施例提供的一种基于集成学习的电费拖欠风险预警系统，以解决现有技术中对于存在电费回收风险的用户的识别不够充分的问题，主要分为4个模块，获取模块、特征构建及筛选模块、电费回收预警模型和预警模块。获取模块主要用于获取用户前一收费月的电费金额，历史电费缴纳数据等信息；特征构建及筛选模块主要构建用户缴费指标、信用评价指标并进行指标筛选；电费回收预警模型主要利用机器学习的相关模型构建电费拖欠风险预警方法；预警模块主要通过电费拖欠风险预警方法的分析，输出预警信息。对未来用户可能出现的电费拖欠风险进行评价和预警，助力电费催收。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于集成学习的电费拖欠风险预警方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于集成学习的电费拖欠风险预警方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集成学习的电费拖欠风险预警方法，其特征在于，包括：

基于建模指标，采用stacking模型，得到用户缴费信用得分；

2.如权利要求1所述的一种基于集成学习的电费拖欠风险预警方法，其特征在于，所述基础信息指标包括用电类别、年龄属性和城乡类别属性。

3.如权利要求1所述的一种基于集成学习的电费拖欠风险预警方法，其特征在于，所述用电行为指标包括本月用电同比增长率、本月用电环比增长率和用电强度。

4.如权利要求1所述的一种基于集成学习的电费拖欠风险预警方法，其特征在于，所述缴费行为指标包括缴费方式变更次数、平均电费金额和平均缴费周期。

5.如权利要求1所述的一种基于集成学习的电费拖欠风险预警方法，其特征在于，在训练集的构建过程中，将年均欠费间隔、年均欠费金额和年电费欠缴次数的加权和作为用户缴费信用得分。

6.如权利要求1所述的一种基于集成学习的电费拖欠风险预警方法，其特征在于，所述年均欠费间隔、年均欠费金额和年电费欠缴次数的权重利用熵权法计算得到。

7.如权利要求1所述的一种基于集成学习的电费拖欠风险预警方法，其特征在于，以用电行为指标和缴费行为指标为自变量，用户缴费信用得分为因变量，利用随机森林算法筛选出建模指标。

8.一种基于集成学习的电费拖欠风险预警系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于集成学习的电费拖欠风险预警方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于集成学习的电费拖欠风险预警方法中的步骤。