CN115545342A - 一种企业电费回收的风险预测方法与系统 - Google Patents
一种企业电费回收的风险预测方法与系统 Download PDFInfo
- Publication number
- CN115545342A CN115545342A CN202211374231.XA CN202211374231A CN115545342A CN 115545342 A CN115545342 A CN 115545342A CN 202211374231 A CN202211374231 A CN 202211374231A CN 115545342 A CN115545342 A CN 115545342A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- risk
- electric charge
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了一种企业电费回收的风险预测方法与系统,方法包含:获取企业用电数据抽取正样本与负样本,衍生形成建模样本特征宽表数据;对建模样本特征宽表数据进行预处理后得到衍生变量数据,并进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;通过K折对建模样本进行处理生成训练集,建立基于注意力机制的LSTM企业电费回收风险模型,并利用训练集进行训练;将当前企业用电信息数据输入至LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,并做成混淆矩阵,验证电费回收风险预警模型效果;对存量企业进度电费回收风险进行预测,制定电费风险差异处理和电费回收策略。
Description
技术领域
本发明涉及企业电费回收的风险预测领域,具体涉及一种企业电费回收的风险预测方法与系统。
背景技术
近年来,电力公司由于企业恶意拖欠电费、偷漏电等问题,不得不付出额外的人力物力来解决这些问题,而这对电力公司的经济性,对社会的经济性都是一种极大的浪费,缺少信用管理已经影响了电力公司的正常经营活动,因此,电力公司对基于电力企业信用管理的“一户一策”电费回收风险管控体系的研究,防止电费拖欠,及时回收电费,己经成为电力公司必须面临的重要问题;
传统的电费回收风险评估方法是根据企业的欠费数据、滞后数据、违约数据等历史数据,专家利用自身经验对每个指标赋权,计算得到企业的风险综合得分,对风险综合得分排序分级得到企业风险评级,但是,这种方法过分依赖专家经验,且人力成本过高;
因此,亟需提供一种电费回收数据的监控方法,实现对电费回收过程中各个环节产生的电费回收数据的监控,以定位各个环节存在的问题,进而实现对电费回收的风险控制。
发明内容
本发明要解决的技术问题是传统的电费回收风险评估方法是根据企业的欠费数据、滞后数据、违约数据等历史数据,专家利用自身经验对每个指标赋权,计算得到企业的风险综合得分,对风险综合得分排序分级得到企业风险评级,但是,这种方法过分依赖专家经验,且人力成本过高,本发明提供一种企业电费回收的风险预测方法,本发明还提供一种企业电费回收的风险预测系统,有效提升了电费回收率和及时率、减轻催费负担、降低电费回收风险,有效规避欠费风险,有利于电力公司的平稳发展;对不同用电规模的用户制定个性化的营销和服务策略,规避经营风险,及时回笼电费,提高电力公司经济效益,用以解决现有技术导致的缺陷。
为解决上述技术问题本发明提供以下的技术方案:
一种企业电费回收的风险预测方法,其中,包含以下步骤:
步骤1:获取企业用电数据并根据分析目标按比例抽取正样本与负样本,选取与用电企业电费回收风险相关的指标并依据该指标衍生形成建模样本特征宽表数据;
步骤2:对所述建模样本特征宽表数据进行预处理后得到衍生变量数据,对所述衍生变量数据进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;
步骤3:通过K折对所述建模样本进行处理生成训练集,采用LSTM神经网络算法和引入深度学习中的注意力机制,建立基于注意力机制的LSTM企业电费回收风险模型,利用所述训练集对所述LSTM企业电费回收风险模型进行训练;
步骤4:将当前企业用电信息数据输入至所述LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,将所述预测结果和真实正负样本做成混淆矩阵,采用命中率、覆盖率和提升度三个指标,验证电费回收风险预警模型效果;
步骤5:根据所述LSTM企业电费回收风险模型对存量企业进度电费回收风险进行预测,基于电力大企业风险评分分布情况,确定风险等级划分阈值,将企业评分划分为高、中、低风险,制定电费风险差异处理和电费回收策略。
上述的一种企业电费回收的风险预测方法,其中,步骤1中从国网内部的营销业务应用系统、用电信息采集系统、95598企业服务系统、企业信用评估平台中获取所述企业用电数据并按1:X的比例抽取所述正样本与所述负样本,X的取值范围为正整数;
所述分析目标为企业是否具有电费回收风险;
所述正样本为未出现电费逾期的企业,所述负样本为出现逾期且超过30天的企业;
所述用电企业电费回收风险相关的指标包含收集回款时长、是否连续逾期、逾期时长、催费短信是否订阅、催费短信发送次数、月末缴费次数、逾期缴费率、是否存在连续逾期、逾期次数、逾期时长、产生违约金次数、平均回款时长。
上述的一种企业电费回收的风险预测方法,其中,所述企业用电数据包含企业档案数据、缴费行为数据、用电行为数据、违约用电数据、关联信息数据。
上述的一种企业电费回收的风险预测方法,其中,步骤2中对所述建模样本特征宽表数据依次进行企业户号的唯一性检验处理、范围和取值检验处理、异常值检验处理、离群值检验处理、缺失值检验处理、构建衍生变量、数据标准化、特征筛选后得到所述衍生变量数据。
上述的一种企业电费回收的风险预测方法,其中,步骤3中利用所述训练集对所述LSTM企业电费回收风险模型进行训练的具体方法如下:
将所述训练集输入所述LSTM企业电费回收风险模型中,将客户是否存在电费回收风险对所述训练集中的样本进行标记;
上述的一种企业电费回收的风险预测方法,其中,步骤4中所述命中率、所述覆盖率、所述提升度的表达式如下:
命中率:命中率=总数(预测正确)/预测风险客户数,描述模型结果中正确结果的比例,该指标用于衡量模型的准确性;
覆盖率:覆盖率=总数(预测正确)/总数(实际欠费),描述模型所挖掘出的欠费用户数量占真实欠费户数的比例;
提升度:模型预测的命中率与随机筛选的命中率的比值,是衡量模型有效性的参考标准。
第二方面,一种企业电费回收的风险预测系统,其中,包含数据处理模块、模型构建模块、验证模块、预测模块;
所述数据处理模块用于获取企业用电数据并根据分析目标按比例抽取正样本与负样本,选取与用电企业电费回收风险相关的指标并依据该指标衍生形成建模样本特征宽表数据;还用于对所述建模样本特征宽表数据进行预处理后得到衍生变量数据,对所述衍生变量数据进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;
所述模型构建模块用于通过K折对所述建模样本进行处理生成训练集,采用LSTM神经网络算法和引入深度学习中的注意力机制,建立基于注意力机制的LSTM企业电费回收风险模型,利用所述训练集对所述LSTM企业电费回收风险模型进行训练;
所述验证模块用于将当前企业用电信息数据输入至所述LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,将所述预测结果和真实正负样本做成混淆矩阵,采用命中率、覆盖率和提升度三个指标,验证电费回收风险预警模型效果;
所述预测模块用于根据所述LSTM企业电费回收风险模型对存量企业进度电费回收风险进行预测,基于电力大企业风险评分分布情况,确定风险等级划分阈值,将企业评分划分为高、中、低风险,制定电费风险差异处理和电费回收策略。
第三方面,一种芯片,其中,包含:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行:如第一方面中任一项所述的方法。
依据上述本发明一种企业电费回收的风险预测方法与系统提供的技术方案具有以下技术效果:
有效提升了电费回收率和及时率、减轻催费负担、降低电费回收风险,有效规避欠费风险,有利于电力公司的平稳发展;对不同用电规模的用户制定个性化的营销和服务策略,规避经营风险,及时回笼电费,提高电力公司经济效益。
附图说明
图1为本发明一种企业电费回收的风险预测方法的结构示意图;
图2为本发明一种企业电费回收的风险预测系统的结构示意图。
其中,附图标记如下:
数据处理模块100、模型构建模块200、验证模块300、预测模块400。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
如图1所示,第一方面,第一实施例,一种企业电费回收的风险预测方法,其中,包含以下步骤:
步骤1:获取企业用电数据并根据分析目标按比例抽取正样本与负样本,选取与用电企业电费回收风险相关的指标并依据该指标衍生形成建模样本特征宽表数据;
步骤2:对建模样本特征宽表数据进行预处理后得到衍生变量数据,对衍生变量数据进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;
步骤3:通过K折对建模样本进行处理生成训练集,采用LSTM神经网络算法和引入深度学习中的注意力机制,建立基于注意力机制的LSTM企业电费回收风险模型,利用训练集对LSTM企业电费回收风险模型进行训练;
步骤4:将当前企业用电信息数据输入至LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,将预测结果和真实正负样本做成混淆矩阵,采用命中率、覆盖率和提升度三个指标,验证电费回收风险预警模型效果;
步骤5:根据LSTM企业电费回收风险模型对存量企业进度电费回收风险进行预测,基于电力大企业风险评分分布情况,确定风险等级划分阈值,将企业评分划分为高、中、低风险,制定电费风险差异处理和电费回收策略;
制定风险差异处理措施和电费回收策略,是根据模型输出企业电费回收风险等级,提前采取差异化的电费回收策略和预防措施,针对低风险用户,减少提醒、通知环节,降低催费频率,优先推广电子账单;对高风险用户开展催收工作,提升催费的频率。不同等级的客户采取不同的管理方法,解决了电力公司电费回收困难的问题,帮助电力公司及时发现风险项,提供解决措施,便于业务人员缩小电费催收群体,集中有限资源高效实现电费催收,缩短电费回收周期,控制经营风险,并对未发生电量变更行为用户的电费回收风险度。
上述的一种企业电费回收的风险预测方法,其中,步骤1中从国网内部的营销业务应用系统、用电信息采集系统、95598企业服务系统、企业信用评估平台中获取企业用电数据并按1:X的比例抽取正样本与负样本,X的取值范围为正整数,优选为4、5,正负比例的确定有利于模型的训练,负样本相比于正样本一般是极少的,所以需要在充分保留负样本基础上选择负样本,这类情况建议保留全部负样本;
另外利用业务人员调研、基层访谈和其他外部系统数据,收集企业用户关联数据,包含:外部生产经营信息数据、信用信息、行业前景信息评价、生产经营信息数据;
分析目标为企业是否具有电费回收风险;
正样本为未出现电费逾期的企业,负样本为出现逾期且超过30天的企业,电费逾期30日会被停电,逾期之日起计算超过30日,经催交仍未交付电费的,供电企业可以按照国家规定的程序停止供电;
用电企业电费回收风险相关的指标包含收集回款时长、是否连续逾期、逾期时长、催费短信是否订阅、催费短信发送次数、月末缴费次数、逾期缴费率、是否存在连续逾期、逾期次数、逾期时长、产生违约金次数、平均回款时长,重点分析有欠费记录客户的各维度数据信息,确定与电费回收风险相关的用电行为指标,提取诸多与欠费风险可能相关的变量。
上述的一种企业电费回收的风险预测方法,其中,企业用电数据包含企业档案数据、缴费行为数据、用电行为数据、违约用电数据、关联信息数据;
企业档案数据包含用户编号、户名、用户分类、行业分类、所属站点、合同容量等;
缴费行为数据包含电费发行日、实收日期、应收电费、实收电费、缴费周期、缴费方式、线上缴费渠道开通情况、线上缴费渠道使用情况、缴费渠道偏好、现金缴费次数占比等;
用电行为数据包含用电量历史记录、用电量同比、用电量环比、用电量变化趋势、月平均电费、电费回收周期、业务变更;
违约用电数据包含违约用电历史记录、违法用电历史记录、违约用电次数、欠费次数、是否存在窃电行为;
关联信息数据包含结合外部的工商、税务、法院信息,涵盖行业背景、企业实力、经营能力、行业前景、企业信用、电力消费、突发事件等维度;
上述的一种企业电费回收的风险预测方法,其中,步骤2中对建模样本特征宽表数据依次进行企业户号的唯一性检验处理、范围和取值检验处理、异常值检验处理、离群值检验处理、缺失值检验处理、构建衍生变量、数据标准化、特征筛选后得到衍生变量数据。
企业户号的唯一性检验处理:
检验建模数据集每个客户的户号是否仅出现一次,若出现多次,需要核查原因,如对于一个客户一笔应收电费存在多个电费、罚金记录的,按户号进行数据整合;对于一个客户一笔应收电费存在多个实收日的,保留该应收电费最后一次实收日;若省公司将数据重复上传,删除数据中的无关数据和重复数据;
范围和取值检验处理:
检验建模数据集每个变量是否为一个定义清晰、具有已知的或预期取值范围的字段,数据为连续变量时,其值应该设定预期范围,当数据为名义变量时,其为维表中的值,将变量中不在取值范围内的数据当成脏数据;
异常值检验处理:
检验数据是否明显偏离数据集的观测值,如过大、过小、负值等数据,当偏离数据集的观测值时认为该数据为异常值,检验异常值出现的原因,可能数据是记录错误引起噪声数据,也可能就是真实数据,若是噪声数据,做平滑处理;
离群值检验处理:
将离群值定义为高于或低于三个标准差的值,将离群值调整为距离最近的正常值,例如,用3个标准差的最大值或最小值替换,如果离群值没有业务含义,可直接剔除离群值或用当作缺失值处理;
缺失值检验处理:
检验每个字段是否存在缺失值及其来源是否完整,将缺失值调整为某个固定值;如均值、中间值或一个指定的常数或将缺失值调整为一个服从正态分布的随机值;
构建衍生变量:
基于营销业务应用系统、用电信息采集系统可获取的基础原始变量,对原始指标数据进行处理和加工,构建与电费回收风险相关的衍生变量,主要根据用户用电行为特征,基于时间序列采用滑动窗口的方法构造新的用户属性特征,获取更有预测力和解释性的变量,得到更全面的风险特征体系;
数据标准化:
由于原始数据中各个变量的不同评价指标往往具有不同的量纲,容易对特征筛选及模型结果产生影响,本专利采用数据z-score标准化将特征筛选的各个数据变换到均值为0、方差为1的范围内,z-score标准化公式如下:
特征筛选:
对原始变量和衍生变量进行相关性分析,通过得到的相关系数衡量变量间的相关性;当相关系数>0.8时,两个变量高度相关,再通过计算用户各个变量与风险用户标签之间的相关性,保留与标签强关联的变量,删除弱相关变量,通过特征筛选,确定最终输入预测模型的用户属性。
上述的一种企业电费回收的风险预测方法,其中,步骤3中利用训练集对LSTM企业电费回收风险模型进行训练的具体方法如下:
将训练集输入LSTM企业电费回收风险模型中,将客户是否存在电费回收风险对训练集中的样本进行标记;
LSTM(longshort-termmemory,长短期记忆)神经网络算法,善于挖掘数据的整体序列特征,是序列预测常用模型,适用于企业电费回收风险的预测,LSTM网络包含输入层、隐藏层和输出层,其中隐藏层有若干个LSTM单元,每个LSTM单元有输入门、遗忘门和输出门三个控制单元状态的门,输入门决定让多少新的信息加入到单元状态,遗忘门决定是否丢弃当前单元状态,输出门决定当前单元值是否输出;LSTM神经网络可以理解为由多个LSTM细胞的链式链接组成一层前向神经网络;LSTM只能提取前向的序列信息,而Bi-LSTM则可以从前向和后向两个方向提取序列信息,获得更多特征;将前向的LSTM网络翻转后就得到了反向的LSTM层,最终t时刻的输出yt由前n个时间步前向的ht和后向的ht共同决定。
本申请实例所建模型使用了2个Bi-LSTM层用以提取深度特征,并在输出层前加入了Relu层,隐藏层细胞数n即输入时间序列长度由优化算法计算,Relu函数可以有效降低计算复杂度,并且不会出现Tanh函数和Sigmoid函数在饱和区产生的梯度消失现象,对防止模型过拟合有一定的作用;
设计一个LSTM神经网络结构,隐藏层在传递到下个迭代之前,经过一个控制结构,根据时间间隔和数据波动水平,自适应调整隐藏层ht-1保留的信息到设置循环神经网络的循环次数epoch=200,GRU(Gate Recurrent Unit,门循环单元)部分输入长度为m=30,隐藏层单元数目为128,输出层使用一个网络单元数为64的linear层,linear层上的dropout设置为0.2,设定网络允许误差θ;
在Bi-LSTM输出层前加入Relu层,防止模型过拟合并提高模型准确度。针对模型超参数调整困难的问题,利用粒子群优化算法进行寻优并对其改进,优化了种群搜索能力,进一步提高了模型的预测精度。将改进的粒子群与Adam优化器联合优化更新权值矩阵,以跳出LSTM局部最小值,提高电费回收风险预测精度和效率,具体步骤为:
(1)用继承动量法确定锚点网络权值矩阵和偏置矩阵的边界,为改进的粒子群算法提供搜索区域;
(2)在[0,1]内产生随机权值矩阵wr,并将其映射到上述搜索区域,生成粒子群初始种群,初始化粒子的速度与位置;
(3)逐一将上述种群的个体作为权值矩阵W1,并正向输入样本,将所得损失函数值作为适应度;
(4)评价每个粒子的适应度,比较其经过的最好位置Pbest,若优,则将其作为当前的最好位置Pbest;同时与群体最优位置gbest比较,若优,则将其作为全局最好位置gbest,否则不变;
(5)调整粒子速度和位置:
式中,c1(j)、c2(j)为j次迭代时的学习因子;i为迭代次数;ω为权值系数;r1、r2为随机函数;
(6)改进粒子群算法:
①自适应惯性权重:
PSO算法需要调整的参数少,鲁棒性高且容易实现,但是具有收敛速度慢且易陷入局部极值的缺点。为了能够及时跳出局部极值,应该根据粒子群的进化速度和聚集度的变化而自适应的改变惯性权重以动态调整粒子运动状态,采用一种基于目标函数的动态自适应惯性权重:
w=exp(-λ(k)/λ(k-1))(2);
式中:k表示当前迭代次数;λ(k)表示衡量惯性权重变化的平滑程度;w表示惯性权重;fgbest(PSi(k))表示第i个粒子在第k次更新位置时对应的个体极值适应度值;fzbest(PSi(k))表示第k次更新位置时最优粒子对应的极值适应度值;
②逃逸策略:
PSO算法随着迭代次数的不断增加,粒子不断靠近全局最优值。当全局最优值连续M代不变之后,所有的粒子以全局最优值为中心实现聚集,此时的粒子生存密度过小,将通过逃逸策略寻找新的生存地,扩展粒子的生存空间:
式中:k为当前迭代次数,Xid为粒子的位置,粒子群迭代过程中,如果全局最优解连续M代不变,说明算法很有可能已经陷入局部极小值;
因此,可将全局最优解连续M代不变作为判断算法早熟停滞的标志,在这次的优化算法中,发现如果全局最优解连续30代不变,那么极大可能是已经产生”早熟”现象,所以取M=30;
(7)对粒子的速度和位置进行更新,如果优化过程中达到预先设定的最大迭代次数,则停止,输出此时的最优解,将适应度最小的个体作为最优权值和阈值赋给LSTM神经网络;
在标准的粒子群算法中引入自适应惯性权重和逃逸策略形成改进的粒子群算法PSO,既能增强全局搜索能力,又能增强局部开发性能。采用改进的粒子群算法对训练LSTM网络初始状态下的权值、阈值进行优化,能够更准确的确定初始权值、阈值,从而提高预测精度。
引入深度学习中的注意力机制,是为了对LSTM网络输出的各节点进行重要度计算,实现对信息的输入和输出之间的相关性进行重要性计算,再利用softmax函数的归一性将每个节点的权重映射到[0,1]之间,最后将权重向量与隐藏层的输出结果进行加和汇总,即可得到一个经过注意力机制处理的时序行为特征向量,最后输入sigmoid函数输出企业电费回收风险预测值P,风险最高为1,风险最低为0,以此来表示回收风险的高低,通过测算业务找到了模型好坏区分点p,也就是历史数据非0(好客户:未逾期)即1(坏客户:出现逾期超过30天),当P<p,则说明预测客户有更大的概率属于好客户,预测为好客户;y>p,则说明预测客户有更大的概率属于坏客户,预测为坏客户;根据模型预测好坏和样本的真实好坏(正负)标签得到预测模型的混淆矩阵,计算模型的准确率和召回率,混淆矩阵(ConfusionMatrix)是评估模型结果的指标,属于模型评估的一部分,混淆矩阵如表1所示;
表1
TP(True Positive):真实为正例,预测也为正例;
FN(False Negative):真实为正例,预测为负例;
FP(False Positive):真实为负例,预测为正例;
TN(True Negative):真实为负例,预测也为负例;
准确率(accuracy):所有预测正确的样本占所有样本的比例;
式中:TP(True Positive,真正例)被模型预测为正的正样本,可以称作判断为真的正确率;
TN(True Negative,真负例)被模型预测为负的负样本,可以称作判断为假的正确率;
FP(False Positive,假正例)被模型预测为正的负样本;可以称作误报率;
FN(False Negative,假负例)被模型预测为负的正样本;可以称作漏报率;
召回率(Recall):真实为正例的样本中预测结果为正例的比例;
式中:TP(True Positive,真正例)被模型预测为正的正样本;
FN(False Negative,假负例)被模型预测为负的正样本;
具体地,根据ROC曲线得到AUC评估模型,模型评估指标,在ROC曲线中,横轴是假正例率(FPR),纵轴是真正例率(TPR);
真正类率(True Postive Rate)TPR:TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例;
负正类率(False Postive Rate)FPR:FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例;
ROC曲线绘图过程:
(1)给定m个正例子,n个反例子,根据学习器预测得分进行排序;
(2)先把分类阈值设为最大,使得所有例子均预测为反例,此时TPR和FPR均为0,在(0,0)处标记一个点;
(3)再将分类阈值依次设为每个样例的预测值,即依次将每个例子划分为正例。设前一个坐标为(x,y),若当前为真正例,对应标记点为(x,y+1/m),若当前为假正例,则标记点为(x+1/n,y),然后依次连接各点;
AUC(Area under Curve):ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。
上述的一种企业电费回收的风险预测方法,其中,步骤4中命中率、覆盖率、提升度的表达式如下:
命中率:命中率=总数(预测正确)/预测风险客户数,描述模型结果中正确结果的比例,该指标用于衡量模型的准确性;
覆盖率:覆盖率=总数(预测正确)/总数(实际欠费),描述模型所挖掘出的欠费用户数量占真实欠费户数的比例;
提升度:模型预测的命中率与随机筛选的命中率的比值,是衡量模型有效性的参考标准。
如图2所示,第二方面,第二实施例,一种企业电费回收的风险预测系统,其中,包含数据处理模块100、模型构建模块200、验证模块300、预测模块400;
数据处理模块100用于获取企业用电数据并根据分析目标按比例抽取正样本与负样本,选取与用电企业电费回收风险相关的指标并依据该指标衍生形成建模样本特征宽表数据;还用于对建模样本特征宽表数据进行预处理后得到衍生变量数据,对衍生变量数据进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;
模型构建模块200用于通过K折对建模样本进行处理生成训练集,采用LSTM神经网络算法和引入深度学习中的注意力机制,建立基于注意力机制的LSTM企业电费回收风险模型,利用训练集对LSTM企业电费回收风险模型进行训练;
验证模块300用于将当前企业用电信息数据输入至LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,将预测结果和真实正负样本做成混淆矩阵,采用命中率、覆盖率和提升度三个指标,验证电费回收风险预警模型效果;
预测模块400用于根据LSTM企业电费回收风险模型对存量企业进度电费回收风险进行预测,基于电力大企业风险评分分布情况,确定风险等级划分阈值,将企业评分划分为高、中、低风险,制定电费风险差异处理和电费回收策略。
第三方面,一种芯片,其中,包含:处理器,用于从存储器中调用并运行计算机程序,使得安装有芯片的设备执行:如第一方面中任一项的方法。
综上,本发明的一种企业电费回收的风险预测方法与系统,有效提升了电费回收率和及时率、减轻催费负担、降低电费回收风险,有效规避欠费风险,有利于电力公司的平稳发展;对不同用电规模的用户制定个性化的营销和服务策略,规避经营风险,及时回笼电费,提高电力公司经济效益。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。
Claims (8)
1.一种企业电费回收的风险预测方法,其特征在于,包含以下步骤:
步骤1:获取企业用电数据并根据分析目标按比例抽取正样本与负样本,选取与用电企业电费回收风险相关的指标并依据该指标衍生形成建模样本特征宽表数据;
步骤2:对所述建模样本特征宽表数据进行预处理后得到衍生变量数据,对所述衍生变量数据进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;
步骤3:通过K折对所述建模样本进行处理生成训练集,采用LSTM神经网络算法和引入深度学习中的注意力机制,建立基于注意力机制的LSTM企业电费回收风险模型,利用所述训练集对所述LSTM企业电费回收风险模型进行训练;
步骤4:将当前企业用电信息数据输入至所述LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,将所述预测结果和真实正负样本做成混淆矩阵,采用命中率、覆盖率和提升度三个指标,验证电费回收风险预警模型效果;
步骤5:根据所述LSTM企业电费回收风险模型对存量企业进度电费回收风险进行预测,基于电力大企业风险评分分布情况,确定风险等级划分阈值,将企业评分划分为高、中、低风险,制定电费风险差异处理和电费回收策略。
2.如权利要求1所述的一种企业电费回收的风险预测方法,其特征在于,步骤1中从国网内部的营销业务应用系统、用电信息采集系统、95598企业服务系统、企业信用评估平台中获取所述企业用电数据并按1:X的比例抽取所述正样本与所述负样本,X的取值范围为正整数;
所述分析目标为企业是否具有电费回收风险;
所述正样本为未出现电费逾期的企业,所述负样本为出现逾期且超过30天的企业;
所述用电企业电费回收风险相关的指标包含收集回款时长、是否连续逾期、逾期时长、催费短信是否订阅、催费短信发送次数、月末缴费次数、逾期缴费率、是否存在连续逾期、逾期次数、逾期时长、产生违约金次数、平均回款时长。
3.如权利要求2所述的一种企业电费回收的风险预测方法,其特征在于,所述企业用电数据包含企业档案数据、缴费行为数据、用电行为数据、违约用电数据、关联信息数据。
4.如权利要求3所述的一种企业电费回收的风险预测方法,其特征在于,步骤2中对所述建模样本特征宽表数据依次进行企业户号的唯一性检验处理、范围和取值检验处理、异常值检验处理、离群值检验处理、缺失值检验处理、构建衍生变量、数据标准化、特征筛选后得到所述衍生变量数据。
6.如权利要求5所述的一种企业电费回收的风险预测方法,其特征在于,步骤4中所述命中率、所述覆盖率、所述提升度的表达式如下:
命中率:命中率=总数(预测正确)/预测风险客户数,描述模型结果中正确结果的比例,该指标用于衡量模型的准确性;
覆盖率:覆盖率=总数(预测正确)/总数(实际欠费),描述模型所挖掘出的欠费用户数量占真实欠费户数的比例;
提升度:模型预测的命中率与随机筛选的命中率的比值,是衡量模型有效性的参考标准。
7.一种企业电费回收的风险预测系统,其特征在于,包含数据处理模块、模型构建模块、验证模块、预测模块;
所述数据处理模块用于获取企业用电数据并根据分析目标按比例抽取正样本与负样本,选取与用电企业电费回收风险相关的指标并依据该指标衍生形成建模样本特征宽表数据;还用于对所述建模样本特征宽表数据进行预处理后得到衍生变量数据,对所述衍生变量数据进行标准化处理后通过相关性分析过滤掉弱影响指标,连接用户的标识和正负标签,得到建模样本;
所述模型构建模块用于通过K折对所述建模样本进行处理生成训练集,采用LSTM神经网络算法和引入深度学习中的注意力机制,建立基于注意力机制的LSTM企业电费回收风险模型,利用所述训练集对所述LSTM企业电费回收风险模型进行训练;
所述验证模块用于将当前企业用电信息数据输入至所述LSTM企业电费回收风险模型中,得到预测结果和真实正负样本,将所述预测结果和真实正负样本做成混淆矩阵,采用命中率、覆盖率和提升度三个指标,验证电费回收风险预警模型效果;
所述预测模块用于根据所述LSTM企业电费回收风险模型对存量企业进度电费回收风险进行预测,基于电力大企业风险评分分布情况,确定风险等级划分阈值,将企业评分划分为高、中、低风险,制定电费风险差异处理和电费回收策略。
8.一种芯片,其特征在于,包含:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行:如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211374231.XA CN115545342A (zh) | 2022-11-04 | 2022-11-04 | 一种企业电费回收的风险预测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211374231.XA CN115545342A (zh) | 2022-11-04 | 2022-11-04 | 一种企业电费回收的风险预测方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115545342A true CN115545342A (zh) | 2022-12-30 |
Family
ID=84720155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211374231.XA Pending CN115545342A (zh) | 2022-11-04 | 2022-11-04 | 一种企业电费回收的风险预测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545342A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433403A (zh) * | 2023-06-14 | 2023-07-14 | 国网安徽省电力有限公司营销服务中心 | 一种基于账款跟踪的电企应收款项预警方法及系统 |
-
2022
- 2022-11-04 CN CN202211374231.XA patent/CN115545342A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433403A (zh) * | 2023-06-14 | 2023-07-14 | 国网安徽省电力有限公司营销服务中心 | 一种基于账款跟踪的电企应收款项预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN109657547B (zh) | 一种基于伴随模型的异常轨迹分析方法 | |
CN105117602B (zh) | 一种计量装置运行状态预警方法 | |
CN111178611B (zh) | 一种日电量预测的方法 | |
CN109614997A (zh) | 一种基于深度学习的窃电风险预测方法及装置 | |
CN109993270A (zh) | 基于灰狼群优化lstm网络的锂离子电池剩余寿命预测方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN107633265A (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN107194803A (zh) | 一种p2p网贷借款人信用风险评估的装置 | |
WO2023142424A1 (zh) | 基于gru-lstm神经网络的电力金融业务风控方法及系统 | |
CN111178675A (zh) | 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备 | |
CN110458230A (zh) | 一种基于多判据融合的配变用采数据异常甄别方法 | |
CN113807570A (zh) | 基于XGBoost的水库大坝风险等级评估方法及系统 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN107527223A (zh) | 一种购票信息分析的方法及装置 | |
CN112529683A (zh) | 一种基于cs-pnn的客户信贷风险的评估方法及系统 | |
CN111639882B (zh) | 一种基于深度学习的用电风险的判定方法 | |
CN113627735A (zh) | 工程建设项目安全风险的预警方法及系统 | |
García-Vico et al. | Fepds: A proposal for the extraction of fuzzy emerging patterns in data streams | |
CN115545342A (zh) | 一种企业电费回收的风险预测方法与系统 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
CN114460481A (zh) | 基于Bi-LSTM和注意力机制的储能电池热失控预警方法 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统 | |
CN111026790A (zh) | 一种基于数据挖掘的结构安全评估及预报方法 | |
CN110349050A (zh) | 一种基于电网参数关键特征抽取的智能窃电判据方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |