CN111612323A - 一种基于大数据模型的电力征信评估方法 - Google Patents

一种基于大数据模型的电力征信评估方法 Download PDF

Info

Publication number
CN111612323A
CN111612323A CN202010413407.2A CN202010413407A CN111612323A CN 111612323 A CN111612323 A CN 111612323A CN 202010413407 A CN202010413407 A CN 202010413407A CN 111612323 A CN111612323 A CN 111612323A
Authority
CN
China
Prior art keywords
enterprise
data
credit
power
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010413407.2A
Other languages
English (en)
Other versions
CN111612323B (zh
Inventor
段子荷
李翀
任鹏
刘林青
张冰玉
葛云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
State Grid Hebei Energy Technology Service Co Ltd
Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
State Grid Hebei Energy Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd, State Grid Hebei Energy Technology Service Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010413407.2A priority Critical patent/CN111612323B/zh
Publication of CN111612323A publication Critical patent/CN111612323A/zh
Application granted granted Critical
Publication of CN111612323B publication Critical patent/CN111612323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据模型的电力征信评估方法,其包括收集内部企业电力数据和外部企业经营数据的步骤,构建失信用电企业特征和高风险失信用电企业特征的步骤,采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型为企业信用打分、确定阈值、依据分数范围确立用户信用等级的步骤;本发明方法使维度更为全面,数据可靠性更强;具有先进性且结果更为精确,增加企业信用分析维度。

Description

一种基于大数据模型的电力征信评估方法
技术领域
本发明涉及一种基于大数据模型的电力征信评估方法。
背景技术
企业信用体系建设在推动电力工业高质量发展、构建新型行业监管治理模式、维护公平公正的电力市场秩序等方面具有重要意义。当前征信体系建设一般存在一下问题:一是传统的企业信用体系未能包括全行业数据,评估维度不全面;二是传统失信企业识别方法未采用大数据技术,人工干预程度高,合理性有待提升;三是传统征信评估体系一般直接使用现有数据,只能区分已经失信和未失信企业,不能对潜在高风险失信企业进行有效评估,失信治理和信用分类管理效果不佳。
发明内容
本发明所要解决的技术问题是供一种提升企业信用体系建设水平及行业市场主体信用资产价值,实现失信治理和信用分类管理的基于大数据模型的电力征信评估方法。
本发明采用如下技术方案:
本发明如下步骤:
步骤一、收集内部企业电力数据和外部企业经营数据,基于模糊匹配实现企业经营数据和用电数据的融合,构建企业信用风险数据池;
步骤二、构建失信用电企业特征和高风险失信用电企业特征;
步骤三、构建企业征信评估模型为企业信用打分,确定阈值,依据分数范围确立用户信用等级。
本发明失信用电企业特征构建采用如下步骤:
A、使用已构建的企业信用风险数据池数据,对使用数据进行缺失值填充、异常数据识别和处理;
B、基于SOS算法优化参数的Catboost分类算法,使用已知失信用电企业数据中企业基本信息、企业资金信息项、企业风险信息项、企业内部基本信息、企业用电欠费指标项、企业用电缴费指标项作为输入特征训练Catboost分类算法,基于训练好的模型对所有用电企业用户进行类别概率判定并设置概率阈值P,当与失信企业相似度>P时,确定为失信企业。
本发明构建高风险失信用电企业特征采用如下步骤:
A、对用电企业历史用电数据和企业经营数据进行数据预处理;
B、基于企业历史用电量、缴费情况及经营情况数据,结合外部天气数据、节假日数据和特殊事件数据,采用LightGBM算法对未来一段时间用电及企业经营情况分别进行预测,得到未来一段时间企业用电量、欠费、缴费数值预测结果;
C、使用改进KNN算法计算预测结果与失信企业相似度,确定用户未来可能发生失信概率,设置阈值Q,当失信概率>Q时,定位高风险失信用电企业。
本发明采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型,包括如下步骤:
A、确定失信用电企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级和企业风险数据各个特征的层次结构,
B、采用AHP层次分析法对上述各项指标赋值;
C、采用TOPSIS综合评价方法对企业进行逐一评价,得到企业信用分值,并设置阈值确定信用等级。
本发明步骤一中的内部企业电力数据和外部企业经营数据由采用python环境下Fuzzy Wuzzy字符串模糊匹配融合形成用电企业信用风险数据池,所述Fuzzy Wuzzy为模糊字符串匹配算法库,其依据Levenshtein Distance算法计算两个字符序列之间的差异。
本发明所述Catboost分类算法为处理类别型特征的梯度提升算法库,其对所有样本进行随机排序,再针对类别型特征中的某个取值,每个样本的该特征转为数值型时都是基于排在该样本之前的类别标签取均值,同时加入了优先级和优先级的权重系数;使用如下公式将所有的分类特征值转换为数值,让σ=(σ1,…,σn),xσp,k代替为:
Figure BDA0002494139850000031
P是添加的先验项,
a是大于0的权重系数,
σj,σp为第σj,σp行数据,
可降低类别特征中低频次特征带来的噪声;
CatBoost使用oblivious树作为基本预测器,在oblivious树中,每个叶子节点的索引可以被编码为长度等于树深度的二进制向量,计算公式为:
Figure BDA0002494139850000032
本发明所述SOS算法通过共生、共栖和寄生三步共生机制不断探索解空间,其基本计算公式如下:
共生过程:
Xinew=Xi+rand(0,1)*(Xbest-Mutual_Vector*BF1) (3)
Xjnew=Xj+rand(0,1)*(Xbest-Mutual_Vevtor*BF2) (4)
Mutual_Vector=(Xi+Xj)/2 (5)
式中:
rand(0,1)为[0,1]间的随机数;
Xbest为当前最优值,
Mutual_Vector为数据间的共生关系,
Xinew,Xjnew为新生成的值;
BF1和BF2取值为1或2,当BF取值为1时代表部分受益,取值为2时代表全部受益;
公式(5)为一种关系特性,即进化因素由当前两个个体的均值决定,当新进化个体优于当前个体,才更新当前个体,否则淘汰;
共栖过程:
Xinew=Xi+rand(-1,1)*(Xbest-Xj) (6)
式中:
rand(-1,1)为[-1,1]间随机生成结果;
(Xbest-Xj)为受益关系,由Xj提供优秀基因提升Xi的存活率,当新生个体更能适应生态系统时,才接受新生个体,否则淘汰;
寄生过程:
Parasite=rand(0,1)*Xi (7)
式中:
rang(0,1)为[0,1]间的随机数。
本发明所述LightGBM基于Histogram的决策树算法,其采用如下变换函数:
Figure BDA0002494139850000051
px(t)为概率密度函数;
在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图,公式如下:
Histogram(a)=Histogram(b)-Histogram(c) (9)
式中Histogram(b)为父节点直方图,
Histogram(c)为相邻节点直方图,
Histogram(a)为叶节点直方图。
本发明改进KNN算法主要依据下述公式改进度量方式:
Figure BDA0002494139850000052
式中:
x为权重调整系数;
D(a,b)为数据间欧氏距离;
cov(a,b)为数据间余弦距离。
本发明所述TOPSIS综合评价方法为:
C=S′/(S′+S″) (14)
其中S′代表目标向量与负理想解间距离,S″代表目标向量与正理想解间距离:
Figure BDA0002494139850000061
Figure BDA0002494139850000062
其中,fij表示目标向量,f′为负理想解,f″为正理想解。
本发明积极效果如下:
1、基于外部企业经营数据和内部用户实际的电力数据构建的企业信用风险数据池,维度更为全面,数据可靠性更强。
2、本发明基于大数据分析技术构建失信用电企业特征,基于企业风险数据池数据,分析维度更为全面且可靠性强,使用SOS算法优化的Catboost算法构建失信用电企业识别模型,计算方法具有先进性且结果更为精确。
3、本发明基于大数据分析技术构建高风险失信用电企业特征,采用LightGBM算法构建企业未来用电量预测模型和欠费情况预测模型,能够实现企业未来一段时间用电量、欠费情况的准确预估,该项指标能够体现未来企业发展趋势,增加企业信用分析维度。
4、多维度的企业征信评估模型,综合失信电用企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级、企业风险数据,采用层次分析法对各项指标赋值,经过专家对赋值权重进行调整后采用TOPSIS综合评价方法对企业进行逐一评价,得到综合企业外部经营数据的多维度企业信用分值,设置阈值确定的信用等级更为可靠。
附图说明
附图1为本发明失信用电企业识别模型流程图;
附图2为本发明高风险失信用电企识别模型流程图。
具体实施方式
如附图1-2所示,本发明采用如下步骤:
步骤一、收集内部企业电力数据和外部企业经营数据,基于模糊匹配实现企业经营数据和用电数据的融合,构建企业经营风险数据池;
外部企业经营数据项包含企业外部基本信息、企业资金信息项和企业风险信息项,其中:企业基本信息={企业名称,企业地址,注册资本,员工人数,工商登记号};企业资金信息项={近三年总收入,近三年平均收入,近三年收入方差,近三年收入趋势系数;当前负债率,近三年平均负债率,近三年负债率方差,近三年负债率变化趋势系数};企业风险信息项={纳税评级,司法风险数};使用线性回归算法求出近三年收入数据的拟合曲线y=kx+b,其中k作为近三年收入趋势系数。线性回归算法是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛,其表达形式为y=wx+e,e为误差服从均值为0的正态分布。使用线性回归算法求出近三年负债率数据的拟合曲线y1=k1x1+b1,其中k1作为近三年负债变化趋势系数;
内部电力数据包括电力缴费信息、欠费信息、历史用电量等数据;
步骤二、构建失信用电企业特征和高风险失信用电企业特征;
内部电力数据指标包括企业内部基本信息、企业用电欠费指标项、企业用电缴费指标项,其中:
企业内部基本信息={企业名称,企业地址,地市,所属供电所},
企业用电欠费指标项={累计欠费,最高欠费,最高欠费日期},
企业用电缴费指标项={近6月缴费情况,近6月平均应缴金额,近6月平均实缴金额};
步骤三、采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型为企业信用打分,确定阈值,依据分数范围确立用户信用等级。
所述内部企业电力数据和外部企业经营数据由采用python环境下Fuzzy Wuzzy字符串模糊匹配融合形成用电企业信用风险数据池,数据项见下表:
Figure BDA0002494139850000081
Figure BDA0002494139850000091
表1电力客户数据表
所述Fuzzy Wuzzy为模糊字符串匹配算法库,其依据Levenshtein Distance算法计算两个字符序列之间的差异。首先确定匹配模式,采用FuzzyWuzzy工具的非完全匹配模式(Partial Ratio)计算字符串相似度(相似度=fuzz.partial_ratio(字符串A,字符串B)),然后设置阈值Y,当相似度>Y时认为匹配成功。其中,Levenshtein Distance是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大,下表展示了公司名称模糊匹配结果:
Figure BDA0002494139850000101
表2公司名称匹配结果数据表
本发明失信用电企业特征构建采用如下步骤:
A、使用已构建的用电企业信用风险数据池数据,对使用数据进行缺失值填充、异常数据识别和处理,下表为数据处理后部分数据:
Figure BDA0002494139850000102
Figure BDA0002494139850000111
表3部分基础数据表
B、基于SOS算法优化参数的Catboost分类算法,使用已知失信用电企业数据中企业基本信息(企业名称,企业地址,注册资本,员工人数,工商登记号),企业资金信息项(近三年总收入,近三年平均收入,近三年收入方差,近三年收入趋势系数;当前负债率,近三年平均负债率,近三年负债率方差,近三年负债率变化趋势系数),企业风险信息项(纳税评级,司法风险数),企业内部基本信息(企业名称,企业地址,地市,所属供电所),企业用电欠费指标项(累计欠费,最高欠费,最高欠费日期),企业用电缴费指标项(近6月缴费情况,近6月平均应缴金额,近6月平均实缴金额)训练算法模型,然后对所有用电企业用户进行类别概率判定并设置概率阈值P,当与失信企业相似度>P时,确定为失信企业,并标记失信概率、近三年总收入,近三年平均收入,近三年收入方差,近三年收入趋势系数、当前负债率,近三年平均负债率,近三年负债率方差,近三年负债率变化趋势系数、纳税评级,司法风险数、累计欠费,最高欠费,最高欠费日期,近6月缴费情况,近6月平均应缴金额,近6月平均实缴金额作为失信特征,构建流程如附图1所示。
上述采用的Catboost分类算法为处理类别型特征的梯度提升算法库,其对所有样本进行随机排序,再针对类别型特征中的某个取值,每个样本的该特征转为数值型时都是基于排在该样本之前的类别标签取均值,同时加入了优先级和优先级的权重系数,使用如下公式将所有的分类特征值转换为数值,让σ=(σ1,…,σn),那么xσp,k代替为:
Figure BDA0002494139850000121
P是添加的先验项,a是大于0的权重系数,σj,σp为第σj,σp行数据,这种做法可以降低类别特征中低频次特征带来的噪声。
CatBoost使用oblivious树作为基本预测器,在oblivious树中,每个叶子节点的索引可以被编码为长度等于树深度的二进制向量,计算公式为:
Figure BDA0002494139850000122
所述SOS算法通过共生、共栖、寄生三步共生机制不断探索解空间,是一个通过迭代方式探索最优解的仿生算法,其基本计算公式如下:
共生过程:
Xinew=Xi+rand(0,1)*(Xbest-Mutual_Vector*BF1) (3)
Xjnew=Xj+rand(0,1)*(Xbest-Mutual_Vevtor*BF2) (4)
Mutual_Vector=(Xi+Xj)/2 (5)
式中:
rand(0,1)为[0,1]间的随机数,
Xbest为当前最优值,
Mutual_Vector为数据间的共生关系,
Xinew,Xjnew为新生成的值;
BF1和BF2取值为1或2,当BF取值为1时代表部分受益,取值为2时代表全部受益;
公式(5)为一种关系特性,即进化因素由当前两个个体的均值决定,当新进化个体优于当前个体,才更新当前个体,否则淘汰;
共栖过程:
Xinew=Xi+rand(-1,1)*(Xbest-Xj) (6)
式中:
rand(-1,1)为[-1,1]间随机生成结果;
(Xbest-Xj)为受益关系,由Xj提供优秀基因提升Xi的存活率,当新生个体更能适应生态系统(适应度值较高)时,才接受新生个体,否则淘汰;
寄生过程:
Parasite=rand(0,1)*Xi (7)
式中:
rang(0,1)为[0,1]间的随机数。
见算法参数优化结果和算例识别结果表,其中0代表非失信企业,1代表失信企业。
Figure BDA0002494139850000131
Figure BDA0002494139850000141
表4 Catboost参数优化结果表
企业名称 分类结果 概率
H省S市ABC公司 0 0.84
H省S市DRG有限责任公司 0 0.75
HBSGHJ有限公司 0 0.71
S市CDF公司 1 0.68
S市GGT有限责任公司 0 0.82
表5识别结果表
本发明构建高风险失信用电企业特征采用如下步骤:
A、对用电企业历史用电数据和企业经营数据进行数据预处理;
B、基于企业历史用电量、缴费情况及经营情况数据,结合外部天气数据、节假日数据和特殊事件数据,采用LightGBM算法对未来一段时间用电及企业经营情况分别进行预测,得到未来一段时间企业用电量、欠费、缴费数值预测结果;
C、使用改进KNN算法计算预测结果与失信企业相似度,确定用户未来可能发生失信概率,设置阈值Q,当失信概率>Q时,定位高风险失信用电企业;
所述LightGBM算法是XGB算法的改进版本,主要使用基于Histogram的决策树算法,其采用如下变换函数:
Figure BDA0002494139850000151
px(t)为概率密度函数;LightGBM算法使用直方图做差优化,可以达到2倍加速。在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图。仅需要为一个叶节点建立直方图就可以通过直方图的相减来获得相邻节点的直方图,代价较小:
Histogram(a)=Histogram(b)-Histogram(c) (9)
式中Histogram(b)为父节点直方图,Histogram(c)为相邻节点直方图,Histogram(a)为叶节点直方图;
上述改进KNN算法主要依据下述公式改进度量方式:
Figure BDA0002494139850000152
其中,x为权重调整系数,依实际数据而定。D(a,b)表示数据间欧氏距离,cov(a,b)表示数据间余弦距离。
下表为高风险失信用电企业模型预测结果:
Figure BDA0002494139850000153
Figure BDA0002494139850000161
表6模型预测结果表
本发明采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型,综合分析失信企业识别特征、高风险企业识别特征、企业缴费数据、企业欠费数据、企业纳税等级和企业风险数据,包括如下步骤:
A、首先结合业务知识和专家经验确定各个指标的层次结构;
B、然后采用AHP层次分析法对各项指标赋值;
C、采用TOPSIS综合评价方法对企业进行逐一评价,得到企业信用分值,并设置阈值确定信用等级,构建流程如附图2所示。
上述AHP层次分析法是将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。首先结合业务知识和专家经验确定各个指标的层次结构,然后构建成对比较矩阵:
Figure BDA0002494139850000162
Figure BDA0002494139850000163
其中aij表示第i个因素相对于第j个因素的比较结果,比较时取1~9尺度。
接着进行层次单排序,确定该层各因素对上层某因素影响程度,用其最大特征根对应的归一化特征向量作为权向量w:
Figure BDA0002494139850000171
归一化特征向量{w1,w2,…,wn},且
Figure BDA0002494139850000172
wi示下层第i个因素对上层某因素影响程度的权值。
上述中,TOPSIS综合评价算法根据有限个评价对象与理想化目标的接近程度进行排序的方法,是在现有的对象中进行相对优劣的评价。其评分计算方法为:
C=S′/(S′+S″) (14)
其中S′代表目标向量与负理想解间距离,S″代表目标向量与正理想解间距离:
Figure BDA0002494139850000173
Figure BDA0002494139850000174
其中,fij表示目标向量,f′为负理想解,f″为正理想解。
评估结果见下表:
Figure BDA0002494139850000175
Figure BDA0002494139850000181
表7信用评估结果表
采用本发明方法:
1、基于外部企业经营数据和内部用户实际的电力数据构建的企业信用风险数据池,维度更为全面,数据可靠性更强。
2、本发明基于大数据分析技术构建失信用电企业特征,基于企业风险数据池数据,分析维度更为全面且可靠性强,使用SOS算法优化的Catboost算法构建失信用电企业识别模型,计算方法具有先进性且结果更为精确。
3、本发明基于大数据分析技术构建高风险失信用电企业特征,采用LightGBM算法构建企业未来用电量预测模型和欠费情况预测模型,能够实现企业未来一段时间用电量、欠费情况的准确预估,该项指标能够体现未来企业发展趋势,增加企业信用分析维度。
4、多维度的企业征信评估模型,综合失信电用企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级、企业风险数据,采用层次分析法对各项指标赋值,经过专家对赋值权重进行调整后采用TOPSIS综合评价方法对企业进行逐一评价,得到综合企业外部经营数据的多维度企业信用分值,设置阈值确定的信用等级更为可靠。
采用本发明方法提升企业信用体系建设水平及行业市场主体信用资产价值,实现失信治理和信用分类管理。
最后说明的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据模型的电力征信评估方法,其特征在于采用如下步骤:
步骤一、收集内部企业电力数据和外部企业经营数据,基于模糊匹配实现企业经营数据和用电数据的融合,构建企业信用风险数据池;
步骤二、构建失信用电企业特征和高风险失信用电企业特征;
步骤三、构建企业征信评估模型为企业信用打分,确定阈值,依据分数范围确立用户信用等级。
2.根据权利要求1所述的一种基于大数据模型的电力征信评估方法,其特征在于失信用电企业特征构建采用如下步骤:
A、使用已构建的企业信用风险数据池数据,对使用数据进行缺失值填充、异常数据识别和处理;
B、基于SOS算法优化参数的Catboost分类算法,使用已知失信用电企业数据中企业基本信息、企业资金信息项、企业风险信息项、企业内部基本信息、企业用电欠费指标项、企业用电缴费指标项作为输入特征训练Catboost分类算法,基于训练好的模型对所有用电企业用户进行类别概率判定并设置概率阈值P,当与失信企业相似度>P时,确定为失信企业。
3.根据权利要求2所述的一种基于大数据模型的电力征信评估方法,其特征在于构建高风险失信用电企业特征采用如下步骤:
A、对用电企业历史用电数据和企业经营数据进行数据预处理;
B、基于企业历史用电量、缴费情况及经营情况数据,结合外部天气数据、节假日数据和特殊事件数据,采用LightGBM算法对未来一段时间用电及企业经营情况分别进行预测,得到未来一段时间企业用电量、欠费、缴费数值预测结果;
C、使用改进KNN算法计算预测结果与失信企业相似度,确定用户未来可能发生失信概率,设置阈值Q,当失信概率>Q时,定位高风险失信用电企业。
4.根据权利要求2所述的一种基于大数据模型的电力征信评估方法,其特征在于采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型,包括如下步骤:
A、确定失信用电企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级和企业风险数据各个特征的层次结构,
B、采用AHP层次分析法对上述各项指标赋值;
C、采用TOPSIS综合评价方法对企业进行逐一评价,得到企业信用分值,并设置阈值确定信用等级。
5.根据权利要求1所述的一种基于大数据模型的电力征信评估方法,其特征在于步骤一中的内部企业电力数据和外部企业经营数据由采用python环境下Fuzzy Wuzzy字符串模糊匹配融合形成用电企业信用风险数据池,所述Fuzzy Wuzzy为模糊字符串匹配算法库,其依据Levenshtein Distance算法计算两个字符序列之间的差异。
6.根据权利要求2所述的一种基于大数据模型的电力征信评估方法,其特征在于:所述Catboost分类算法为处理类别型特征的梯度提升算法库,其对所有样本进行随机排序,再针对类别型特征中的某个取值,每个样本的该特征转为数值型时都是基于排在该样本之前的类别标签取均值,同时加入了优先级和优先级的权重系数;使用如下公式将所有的分类特征值转换为数值,让σ=(σ1,…,σn),xσp,k代替为:
Figure FDA0002494139840000031
P是添加的先验项,
a是大于0的权重系数,
可降低类别特征中低频次特征带来的噪声;
σj,σp为第σj,σp行数据,
CatBoost使用oblivious树作为基本预测器,在oblivious树中,每个叶子节点的索引可以被编码为长度等于树深度的二进制向量,计算公式为:
Figure FDA0002494139840000032
7.根据权利要求6所述的一种基于大数据模型的电力征信评估方法,其特征在于所述SOS算法通过共生、共栖和寄生三步共生机制不断探索解空间,其基本计算公式如下:
共生过程:
Xinew=Xi+rand(0,1)*(Xbest-Mutual_Vector*BF1) (3)
Xjnew=Xj+rand(0,1)*(Xbest-Mutual_Vevtor*BF2) (4)
Mutual_Vector=(Xi+Xj)/2 (5)
式中:
rand(0,1)为[0,1]间的随机数,
Xbest为当前最优值,
Mutual_Vector为数据间的共生关系,
Xinew,Xjnew为新生成的值;
BF1和BF2取值为1或2,当BF取值为1时代表部分受益,取值为2时代表全部受益;
公式(5)为一种关系特性,即进化因素由当前两个个体的均值决定,当新进化个体优于当前个体,才更新当前个体,否则淘汰;
共栖过程:
Xinew=Xi+rand(-1,1)*(Xbest-Xj) (6)
式中:
rand(-1,1)为[-1,1]间随机生成结果;
(Xbest-Xj)为受益关系,由Xj提供优秀基因提升Xi的存活率,当新生个体更能适应生态系统时,才接受新生个体,否则淘汰;
寄生过程:
Parasite=rand(0,1)*Xi (7)
式中:
rang(0,1)为[0,1]间的随机数。
8.根据权利要求3所述的一种基于大数据模型的电力征信评估方法,其特征在于所述LightGBM基于Histogram的决策树算法,其采用如下变换函数:
Figure FDA0002494139840000041
px(t)为概率密度函数;
在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图,公式如下:
Histogram(a)=Histogram(b)-Histogram(c) (9)
式中Histogram(b)为父节点直方图,
Histogram(c)为相邻节点直方图,
Histogram(a)为叶节点直方图。
9.根据权利要求8所述的一种基于大数据模型的电力征信评估方法,其特征在于改进KNN算法主要依据下述公式改进度量方式:
Figure FDA0002494139840000051
式中:
x为权重调整系数;
D(a,b)为数据间欧氏距离;
cov(a,b)为数据间余弦距离。
10.根据权利要求4所述的一种基于大数据模型的电力征信评估方法,其特征在于所述TOPSIS综合评价方法为:
C=S′/(S′+S″) (14)
其中S′代表目标向量与负理想解间距离,S″代表目标向量与正理想解间距离:
Figure FDA0002494139840000052
Figure FDA0002494139840000053
其中,fij表示目标向量,f′为负理想解,f″为正理想解。
CN202010413407.2A 2020-05-15 2020-05-15 一种基于大数据模型的电力征信评估方法 Active CN111612323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413407.2A CN111612323B (zh) 2020-05-15 2020-05-15 一种基于大数据模型的电力征信评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413407.2A CN111612323B (zh) 2020-05-15 2020-05-15 一种基于大数据模型的电力征信评估方法

Publications (2)

Publication Number Publication Date
CN111612323A true CN111612323A (zh) 2020-09-01
CN111612323B CN111612323B (zh) 2023-03-28

Family

ID=72201917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413407.2A Active CN111612323B (zh) 2020-05-15 2020-05-15 一种基于大数据模型的电力征信评估方法

Country Status (1)

Country Link
CN (1) CN111612323B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150267A (zh) * 2020-09-14 2020-12-29 深圳供电局有限公司 一种计算机设备和企业用电分析系统
CN112488421A (zh) * 2020-12-15 2021-03-12 国网雄安金融科技集团有限公司 一种电费应收账款的跟踪预测方法及装置
CN112508679A (zh) * 2020-11-16 2021-03-16 国网山东省电力公司潍坊供电公司 一种小微企业贷款风险评估方法、装置及存储介质
CN112836926A (zh) * 2020-12-27 2021-05-25 四川大学 基于电力大数据的企业经营状况评估方法
CN113011853A (zh) * 2021-03-29 2021-06-22 广东电网有限责任公司 一种基于新楼盘用电信息的企业逃税稽查方法及系统
CN113450004A (zh) * 2021-07-02 2021-09-28 国网北京市电力公司 电力信用报告生成方法、装置、电子设备及可读存储介质
CN113537576A (zh) * 2021-06-25 2021-10-22 合肥工业大学 用于预测上市企业财务困境的方法及系统
CN113744043A (zh) * 2021-09-03 2021-12-03 国网江苏省电力有限公司常州供电分公司 小微企业的信贷风险评估方法、装置及计算机设备
CN116187768A (zh) * 2023-04-26 2023-05-30 浙江电力交易中心有限公司 适用于绿电市场的风险评估及防护方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780140A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司 基于大数据的电力信用评价方法
CN108665184A (zh) * 2018-05-21 2018-10-16 国网陕西省电力公司咸阳供电公司 一种基于大数据征信的电力客户信誉评估方法
CN108961036A (zh) * 2018-06-13 2018-12-07 云南电网有限责任公司昆明供电局 电力欠费风险预测方法及装置
CN109727157A (zh) * 2019-01-21 2019-05-07 国网冀北电力有限公司 一种适用于电力交易中心的售电公司信用评价方法
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法
CN109934371A (zh) * 2017-12-18 2019-06-25 普华讯光(北京)科技有限公司 基于用电数据对企业进行偿付能力风险识别和预测的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780140A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司 基于大数据的电力信用评价方法
CN109934371A (zh) * 2017-12-18 2019-06-25 普华讯光(北京)科技有限公司 基于用电数据对企业进行偿付能力风险识别和预测的方法
CN108665184A (zh) * 2018-05-21 2018-10-16 国网陕西省电力公司咸阳供电公司 一种基于大数据征信的电力客户信誉评估方法
CN108961036A (zh) * 2018-06-13 2018-12-07 云南电网有限责任公司昆明供电局 电力欠费风险预测方法及装置
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法
CN109727157A (zh) * 2019-01-21 2019-05-07 国网冀北电力有限公司 一种适用于电力交易中心的售电公司信用评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HIROYUKI MORI等: ""Credit Risk Evaluation in Power Market with Random Forest"", 《2007 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS,MAN AND CYBERNETICS》 *
展媛嫄: ""电力大客户信誉评估的研究及风险防范应用"", 《管理科学与经济学》 *
谭钧方: ""电力数据在中小企业信用风险评估中的应用"", 《现代企业》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150267A (zh) * 2020-09-14 2020-12-29 深圳供电局有限公司 一种计算机设备和企业用电分析系统
CN112508679A (zh) * 2020-11-16 2021-03-16 国网山东省电力公司潍坊供电公司 一种小微企业贷款风险评估方法、装置及存储介质
CN112488421A (zh) * 2020-12-15 2021-03-12 国网雄安金融科技集团有限公司 一种电费应收账款的跟踪预测方法及装置
CN112488421B (zh) * 2020-12-15 2023-04-28 国网雄安金融科技集团有限公司 一种电费应收账款的跟踪预测方法及装置
CN112836926A (zh) * 2020-12-27 2021-05-25 四川大学 基于电力大数据的企业经营状况评估方法
CN112836926B (zh) * 2020-12-27 2022-03-11 四川大学 基于电力大数据的企业经营状况评估方法
CN113011853A (zh) * 2021-03-29 2021-06-22 广东电网有限责任公司 一种基于新楼盘用电信息的企业逃税稽查方法及系统
CN113011853B (zh) * 2021-03-29 2022-08-23 广东电网有限责任公司 一种基于新楼盘用电信息的企业逃税稽查方法及系统
CN113537576A (zh) * 2021-06-25 2021-10-22 合肥工业大学 用于预测上市企业财务困境的方法及系统
CN113450004A (zh) * 2021-07-02 2021-09-28 国网北京市电力公司 电力信用报告生成方法、装置、电子设备及可读存储介质
CN113744043A (zh) * 2021-09-03 2021-12-03 国网江苏省电力有限公司常州供电分公司 小微企业的信贷风险评估方法、装置及计算机设备
CN116187768A (zh) * 2023-04-26 2023-05-30 浙江电力交易中心有限公司 适用于绿电市场的风险评估及防护方法

Also Published As

Publication number Publication date
CN111612323B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN111612323B (zh) 一种基于大数据模型的电力征信评估方法
CN112017025B (zh) 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN111079985B (zh) 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN1437735A (zh) 估价系统的快速开发的方法和系统
CN110705607B (zh) 一种基于循环重标注自助法的行业多标签降噪方法
CN1413332A (zh) 信用计分的自动推断估价的方法和系统
CN1411582A (zh) 用于模拟竞争性投标效率的方法和装置
CN111160750A (zh) 一种基于关联规则挖掘的配网分析和投资决策方法
CN113590807B (zh) 一种基于大数据挖掘的科技企业信用评价方法
US20220398478A1 (en) Remote sensing image feature discretization method based on rough-fuzzy model
CN114529038A (zh) 一种基于企业需求的智能匹配招商策略系统及方法
CN115470962A (zh) 一种基于LightGBM的企业失信风险预测模型构建方法
CN114386856A (zh) 一种空壳企业识别方法、装置、设备及计算机存储介质
CN116883157A (zh) 一种基于度量学习的小样本信用评估方法及系统
CN115375471A (zh) 一种基于自适应特征工程的股票市场量化方法
CN114238464A (zh) 一种多元能源数据的异构融合方法
CN116663964B (zh) 一种基于清单项目特征值的工程单价快速计算方法及系统
CN110807543A (zh) 一种基于群决策智能搜索的投资组合优化方法和装置
CN112860895B (zh) 一种基于多级生成模型的纳税人行业分类方法
Tang et al. Design and research of intelligent quantitative investment model based on PLR-IRF and DRNN algorithm
CN115619033A (zh) 基于工业互联网的采购供应链一体化优化方法和设备
CN115146904A (zh) 一种基于人工智能的证券资产风险监控系统
Huang et al. An enhanced approach to optimizing the stock portfolio selection based on Modified Markowitz MV Method
CN111967937A (zh) 一种基于时间序列分析的电商推荐系统及实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211216

Address after: 050021 No. 238 South Sports street, Hebei, Shijiazhuang

Applicant after: STATE GRID HEBEI ELECTRIC POWER Research Institute

Applicant after: Marketing service center of State Grid Hebei Electric Power Co.,Ltd.

Applicant after: STATE GRID HEBEI ENERGY TECHNOLOGY SERVICE Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Address before: 050021 No. 238 South Sports street, Hebei, Shijiazhuang

Applicant before: STATE GRID HEBEI ELECTRIC POWER Research Institute

Applicant before: STATE GRID HEBEI ENERGY TECHNOLOGY SERVICE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

GR01 Patent grant
GR01 Patent grant