发明内容
本发明所要解决的技术问题是供一种提升企业信用体系建设水平及行业市场主体信用资产价值,实现失信治理和信用分类管理的基于大数据模型的电力征信评估方法。
本发明采用如下技术方案:
本发明如下步骤:
步骤一、收集内部企业电力数据和外部企业经营数据,基于模糊匹配实现企业经营数据和用电数据的融合,构建企业信用风险数据池;
步骤二、构建失信用电企业特征和高风险失信用电企业特征;
步骤三、构建企业征信评估模型为企业信用打分,确定阈值,依据分数范围确立用户信用等级。
本发明失信用电企业特征构建采用如下步骤:
A、使用已构建的企业信用风险数据池数据,对使用数据进行缺失值填充、异常数据识别和处理;
B、基于SOS算法优化参数的Catboost分类算法,使用已知失信用电企业数据中企业基本信息、企业资金信息项、企业风险信息项、企业内部基本信息、企业用电欠费指标项、企业用电缴费指标项作为输入特征训练Catboost分类算法,基于训练好的模型对所有用电企业用户进行类别概率判定并设置概率阈值P,当与失信企业相似度>P时,确定为失信企业。
本发明构建高风险失信用电企业特征采用如下步骤:
A、对用电企业历史用电数据和企业经营数据进行数据预处理;
B、基于企业历史用电量、缴费情况及经营情况数据,结合外部天气数据、节假日数据和特殊事件数据,采用LightGBM算法对未来一段时间用电及企业经营情况分别进行预测,得到未来一段时间企业用电量、欠费、缴费数值预测结果;
C、使用改进KNN算法计算预测结果与失信企业相似度,确定用户未来可能发生失信概率,设置阈值Q,当失信概率>Q时,定位高风险失信用电企业。
本发明采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型,包括如下步骤:
A、确定失信用电企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级和企业风险数据各个特征的层次结构,
B、采用AHP层次分析法对上述各项指标赋值;
C、采用TOPSIS综合评价方法对企业进行逐一评价,得到企业信用分值,并设置阈值确定信用等级。
本发明步骤一中的内部企业电力数据和外部企业经营数据由采用python环境下Fuzzy Wuzzy字符串模糊匹配融合形成用电企业信用风险数据池,所述Fuzzy Wuzzy为模糊字符串匹配算法库,其依据Levenshtein Distance算法计算两个字符序列之间的差异。
本发明所述Catboost分类算法为处理类别型特征的梯度提升算法库,其对所有样本进行随机排序,再针对类别型特征中的某个取值,每个样本的该特征转为数值型时都是基于排在该样本之前的类别标签取均值,同时加入了优先级和优先级的权重系数;使用如下公式将所有的分类特征值转换为数值,让σ=(σ1,…,σn),xσp,k代替为:
P是添加的先验项,
a是大于0的权重系数,
σj,σp为第σj,σp行数据,
可降低类别特征中低频次特征带来的噪声;
CatBoost使用oblivious树作为基本预测器,在oblivious树中,每个叶子节点的索引可以被编码为长度等于树深度的二进制向量,计算公式为:
本发明所述SOS算法通过共生、共栖和寄生三步共生机制不断探索解空间,其基本计算公式如下:
共生过程:
Xinew=Xi+rand(0,1)*(Xbest-Mutual_Vector*BF1) (3)
Xjnew=Xj+rand(0,1)*(Xbest-Mutual_Vevtor*BF2) (4)
Mutual_Vector=(Xi+Xj)/2 (5)
式中:
rand(0,1)为[0,1]间的随机数;
Xbest为当前最优值,
Mutual_Vector为数据间的共生关系,
Xinew,Xjnew为新生成的值;
BF1和BF2取值为1或2,当BF取值为1时代表部分受益,取值为2时代表全部受益;
公式(5)为一种关系特性,即进化因素由当前两个个体的均值决定,当新进化个体优于当前个体,才更新当前个体,否则淘汰;
共栖过程:
Xinew=Xi+rand(-1,1)*(Xbest-Xj) (6)
式中:
rand(-1,1)为[-1,1]间随机生成结果;
(Xbest-Xj)为受益关系,由Xj提供优秀基因提升Xi的存活率,当新生个体更能适应生态系统时,才接受新生个体,否则淘汰;
寄生过程:
Parasite=rand(0,1)*Xi (7)
式中:
rang(0,1)为[0,1]间的随机数。
本发明所述LightGBM基于Histogram的决策树算法,其采用如下变换函数:
px(t)为概率密度函数;
在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图,公式如下:
Histogram(a)=Histogram(b)-Histogram(c) (9)
式中Histogram(b)为父节点直方图,
Histogram(c)为相邻节点直方图,
Histogram(a)为叶节点直方图。
本发明改进KNN算法主要依据下述公式改进度量方式:
式中:
x为权重调整系数;
D(a,b)为数据间欧氏距离;
cov(a,b)为数据间余弦距离。
本发明所述TOPSIS综合评价方法为:
C=S′/(S′+S″) (14)
其中S′代表目标向量与负理想解间距离,S″代表目标向量与正理想解间距离:
其中,fij表示目标向量,f′为负理想解,f″为正理想解。
本发明积极效果如下:
1、基于外部企业经营数据和内部用户实际的电力数据构建的企业信用风险数据池,维度更为全面,数据可靠性更强。
2、本发明基于大数据分析技术构建失信用电企业特征,基于企业风险数据池数据,分析维度更为全面且可靠性强,使用SOS算法优化的Catboost算法构建失信用电企业识别模型,计算方法具有先进性且结果更为精确。
3、本发明基于大数据分析技术构建高风险失信用电企业特征,采用LightGBM算法构建企业未来用电量预测模型和欠费情况预测模型,能够实现企业未来一段时间用电量、欠费情况的准确预估,该项指标能够体现未来企业发展趋势,增加企业信用分析维度。
4、多维度的企业征信评估模型,综合失信电用企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级、企业风险数据,采用层次分析法对各项指标赋值,经过专家对赋值权重进行调整后采用TOPSIS综合评价方法对企业进行逐一评价,得到综合企业外部经营数据的多维度企业信用分值,设置阈值确定的信用等级更为可靠。
具体实施方式
如附图1-2所示,本发明采用如下步骤:
步骤一、收集内部企业电力数据和外部企业经营数据,基于模糊匹配实现企业经营数据和用电数据的融合,构建企业经营风险数据池;
外部企业经营数据项包含企业外部基本信息、企业资金信息项和企业风险信息项,其中:企业基本信息={企业名称,企业地址,注册资本,员工人数,工商登记号};企业资金信息项={近三年总收入,近三年平均收入,近三年收入方差,近三年收入趋势系数;当前负债率,近三年平均负债率,近三年负债率方差,近三年负债率变化趋势系数};企业风险信息项={纳税评级,司法风险数};使用线性回归算法求出近三年收入数据的拟合曲线y=kx+b,其中k作为近三年收入趋势系数。线性回归算法是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛,其表达形式为y=wx+e,e为误差服从均值为0的正态分布。使用线性回归算法求出近三年负债率数据的拟合曲线y1=k1x1+b1,其中k1作为近三年负债变化趋势系数;
内部电力数据包括电力缴费信息、欠费信息、历史用电量等数据;
步骤二、构建失信用电企业特征和高风险失信用电企业特征;
内部电力数据指标包括企业内部基本信息、企业用电欠费指标项、企业用电缴费指标项,其中:
企业内部基本信息={企业名称,企业地址,地市,所属供电所},
企业用电欠费指标项={累计欠费,最高欠费,最高欠费日期},
企业用电缴费指标项={近6月缴费情况,近6月平均应缴金额,近6月平均实缴金额};
步骤三、采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型为企业信用打分,确定阈值,依据分数范围确立用户信用等级。
所述内部企业电力数据和外部企业经营数据由采用python环境下Fuzzy Wuzzy字符串模糊匹配融合形成用电企业信用风险数据池,数据项见下表:
表1电力客户数据表
所述Fuzzy Wuzzy为模糊字符串匹配算法库,其依据Levenshtein Distance算法计算两个字符序列之间的差异。首先确定匹配模式,采用FuzzyWuzzy工具的非完全匹配模式(Partial Ratio)计算字符串相似度(相似度=fuzz.partial_ratio(字符串A,字符串B)),然后设置阈值Y,当相似度>Y时认为匹配成功。其中,Levenshtein Distance是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大,下表展示了公司名称模糊匹配结果:
表2公司名称匹配结果数据表
本发明失信用电企业特征构建采用如下步骤:
A、使用已构建的用电企业信用风险数据池数据,对使用数据进行缺失值填充、异常数据识别和处理,下表为数据处理后部分数据:
表3部分基础数据表
B、基于SOS算法优化参数的Catboost分类算法,使用已知失信用电企业数据中企业基本信息(企业名称,企业地址,注册资本,员工人数,工商登记号),企业资金信息项(近三年总收入,近三年平均收入,近三年收入方差,近三年收入趋势系数;当前负债率,近三年平均负债率,近三年负债率方差,近三年负债率变化趋势系数),企业风险信息项(纳税评级,司法风险数),企业内部基本信息(企业名称,企业地址,地市,所属供电所),企业用电欠费指标项(累计欠费,最高欠费,最高欠费日期),企业用电缴费指标项(近6月缴费情况,近6月平均应缴金额,近6月平均实缴金额)训练算法模型,然后对所有用电企业用户进行类别概率判定并设置概率阈值P,当与失信企业相似度>P时,确定为失信企业,并标记失信概率、近三年总收入,近三年平均收入,近三年收入方差,近三年收入趋势系数、当前负债率,近三年平均负债率,近三年负债率方差,近三年负债率变化趋势系数、纳税评级,司法风险数、累计欠费,最高欠费,最高欠费日期,近6月缴费情况,近6月平均应缴金额,近6月平均实缴金额作为失信特征,构建流程如附图1所示。
上述采用的Catboost分类算法为处理类别型特征的梯度提升算法库,其对所有样本进行随机排序,再针对类别型特征中的某个取值,每个样本的该特征转为数值型时都是基于排在该样本之前的类别标签取均值,同时加入了优先级和优先级的权重系数,使用如下公式将所有的分类特征值转换为数值,让σ=(σ1,…,σn),那么xσp,k代替为:
P是添加的先验项,a是大于0的权重系数,σj,σp为第σj,σp行数据,这种做法可以降低类别特征中低频次特征带来的噪声。
CatBoost使用oblivious树作为基本预测器,在oblivious树中,每个叶子节点的索引可以被编码为长度等于树深度的二进制向量,计算公式为:
所述SOS算法通过共生、共栖、寄生三步共生机制不断探索解空间,是一个通过迭代方式探索最优解的仿生算法,其基本计算公式如下:
共生过程:
Xinew=Xi+rand(0,1)*(Xbest-Mutual_Vector*BF1) (3)
Xjnew=Xj+rand(0,1)*(Xbest-Mutual_Vevtor*BF2) (4)
Mutual_Vector=(Xi+Xj)/2 (5)
式中:
rand(0,1)为[0,1]间的随机数,
Xbest为当前最优值,
Mutual_Vector为数据间的共生关系,
Xinew,Xjnew为新生成的值;
BF1和BF2取值为1或2,当BF取值为1时代表部分受益,取值为2时代表全部受益;
公式(5)为一种关系特性,即进化因素由当前两个个体的均值决定,当新进化个体优于当前个体,才更新当前个体,否则淘汰;
共栖过程:
Xinew=Xi+rand(-1,1)*(Xbest-Xj) (6)
式中:
rand(-1,1)为[-1,1]间随机生成结果;
(Xbest-Xj)为受益关系,由Xj提供优秀基因提升Xi的存活率,当新生个体更能适应生态系统(适应度值较高)时,才接受新生个体,否则淘汰;
寄生过程:
Parasite=rand(0,1)*Xi (7)
式中:
rang(0,1)为[0,1]间的随机数。
见算法参数优化结果和算例识别结果表,其中0代表非失信企业,1代表失信企业。
表4 Catboost参数优化结果表
企业名称 |
分类结果 |
概率 |
H省S市ABC公司 |
0 |
0.84 |
H省S市DRG有限责任公司 |
0 |
0.75 |
HBSGHJ有限公司 |
0 |
0.71 |
S市CDF公司 |
1 |
0.68 |
S市GGT有限责任公司 |
0 |
0.82 |
表5识别结果表
本发明构建高风险失信用电企业特征采用如下步骤:
A、对用电企业历史用电数据和企业经营数据进行数据预处理;
B、基于企业历史用电量、缴费情况及经营情况数据,结合外部天气数据、节假日数据和特殊事件数据,采用LightGBM算法对未来一段时间用电及企业经营情况分别进行预测,得到未来一段时间企业用电量、欠费、缴费数值预测结果;
C、使用改进KNN算法计算预测结果与失信企业相似度,确定用户未来可能发生失信概率,设置阈值Q,当失信概率>Q时,定位高风险失信用电企业;
所述LightGBM算法是XGB算法的改进版本,主要使用基于Histogram的决策树算法,其采用如下变换函数:
px(t)为概率密度函数;LightGBM算法使用直方图做差优化,可以达到2倍加速。在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图。仅需要为一个叶节点建立直方图就可以通过直方图的相减来获得相邻节点的直方图,代价较小:
Histogram(a)=Histogram(b)-Histogram(c) (9)
式中Histogram(b)为父节点直方图,Histogram(c)为相邻节点直方图,Histogram(a)为叶节点直方图;
上述改进KNN算法主要依据下述公式改进度量方式:
其中,x为权重调整系数,依实际数据而定。D(a,b)表示数据间欧氏距离,cov(a,b)表示数据间余弦距离。
下表为高风险失信用电企业模型预测结果:
表6模型预测结果表
本发明采用AHP层次分析法、TOPSIS综合评价法构建企业征信评估模型,综合分析失信企业识别特征、高风险企业识别特征、企业缴费数据、企业欠费数据、企业纳税等级和企业风险数据,包括如下步骤:
A、首先结合业务知识和专家经验确定各个指标的层次结构;
B、然后采用AHP层次分析法对各项指标赋值;
C、采用TOPSIS综合评价方法对企业进行逐一评价,得到企业信用分值,并设置阈值确定信用等级,构建流程如附图2所示。
上述AHP层次分析法是将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。首先结合业务知识和专家经验确定各个指标的层次结构,然后构建成对比较矩阵:
其中aij表示第i个因素相对于第j个因素的比较结果,比较时取1~9尺度。
接着进行层次单排序,确定该层各因素对上层某因素影响程度,用其最大特征根对应的归一化特征向量作为权向量w:
归一化特征向量{w
1,w
2,…,w
n},且
w
i示下层第i个因素对上层某因素影响程度的权值。
上述中,TOPSIS综合评价算法根据有限个评价对象与理想化目标的接近程度进行排序的方法,是在现有的对象中进行相对优劣的评价。其评分计算方法为:
C=S′/(S′+S″) (14)
其中S′代表目标向量与负理想解间距离,S″代表目标向量与正理想解间距离:
其中,fij表示目标向量,f′为负理想解,f″为正理想解。
评估结果见下表:
表7信用评估结果表
采用本发明方法:
1、基于外部企业经营数据和内部用户实际的电力数据构建的企业信用风险数据池,维度更为全面,数据可靠性更强。
2、本发明基于大数据分析技术构建失信用电企业特征,基于企业风险数据池数据,分析维度更为全面且可靠性强,使用SOS算法优化的Catboost算法构建失信用电企业识别模型,计算方法具有先进性且结果更为精确。
3、本发明基于大数据分析技术构建高风险失信用电企业特征,采用LightGBM算法构建企业未来用电量预测模型和欠费情况预测模型,能够实现企业未来一段时间用电量、欠费情况的准确预估,该项指标能够体现未来企业发展趋势,增加企业信用分析维度。
4、多维度的企业征信评估模型,综合失信电用企业特征、高风险失信用电企业特征、企业缴费数据、企业欠费数据、企业纳税等级、企业风险数据,采用层次分析法对各项指标赋值,经过专家对赋值权重进行调整后采用TOPSIS综合评价方法对企业进行逐一评价,得到综合企业外部经营数据的多维度企业信用分值,设置阈值确定的信用等级更为可靠。
采用本发明方法提升企业信用体系建设水平及行业市场主体信用资产价值,实现失信治理和信用分类管理。
最后说明的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。