CN110443304A - 一种基于机器学习模型的企业风险评估方法 - Google Patents

一种基于机器学习模型的企业风险评估方法 Download PDF

Info

Publication number
CN110443304A
CN110443304A CN201910722029.3A CN201910722029A CN110443304A CN 110443304 A CN110443304 A CN 110443304A CN 201910722029 A CN201910722029 A CN 201910722029A CN 110443304 A CN110443304 A CN 110443304A
Authority
CN
China
Prior art keywords
model
prediction probability
business risk
training
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910722029.3A
Other languages
English (en)
Inventor
李振
鲍东岳
张刚
尹正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Original Assignee
MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MINSHENG SCIENCE AND TECHNOLOGY Co Ltd filed Critical MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Priority to CN201910722029.3A priority Critical patent/CN110443304A/zh
Publication of CN110443304A publication Critical patent/CN110443304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及企业风险评估技术领域,提供了一种基于机器学习模型的企业风险评估方法,将企业特征数据拆分为训练集和验证集,确定3个用于企业风险评估的模型算法;模型训练:将训练集进行5折交叉验证,同时使用3个所述模型算法训练模型;5份测试子集每个模型的预测概率值均形成一个新的字段;将所有新的字段与原始部分字段放在一起,使用stacking模型通过5折交叉验证再次学习,得出测试子集的最终预测概率值;对验证集进行预测,得到验证集的预测概率值。本发明采用了级联的模型融合方式,发挥多机器学习模型的优势,分别用3模型进行训练,并调优;使用三层级联的架构以及stacking融合的方式将模型融合;方法简单易用,应用前景广阔。

Description

一种基于机器学习模型的企业风险评估方法
技术领域
本发明涉及企业风险评估技术领域,特别涉及一种基于机器学习模型的企业风险评估方法。
背景技术
目前市场上的企业风险评估产品较少,且基本是专家评分为主,即使有模型产品也多数基于逻辑回归的单模型的算法。逻辑回归做企业风险评估对数据要求很高,且经常达不到理想的精度。比如,逻辑回归不擅长处理含有大量的字符型特征的数据,不擅长处理数值型变量与目标变量之间不存在线性关系的特征,不擅长处理特征较多的模型,不擅长处理特征含有很多空值的情况等;其次逻辑回归容易欠拟合,精度不够;最后逻辑回归对自变量的多重共线性比较敏感,经常需要去除相关性较高的变量。此外,仅仅使用单模型来训练模型,可能会导致模型不稳定。
发明内容
本发明的目的之一就是克服现有技术的不足,提供了一种基于机器学习模型的企业风险评估方法,使用了级联的模型融合方式,发挥多机器学习模型的优势,对企业风险进行建模。
本发明采用的技术方案如下:
一种基于机器学习模型的企业风险评估方法,所述方法包括:
S1、将企业特征数据拆分为训练集和验证集,确定3个用于企业风险评估的模型算法;
S2、模型训练:将训练集进行5折交叉验证,其中4份作为训练子集,剩下1份作为测试子集(5份数据轮流作一次测试子集);同时利用3个所述模型算法来训练模型,每个模型算法对应确定5个模型(对于一个模型算法,每一份测试子集都对应一个模型,5份测试子集共对应5个模型),记录各模型的最优参数;5份测试子集每个模型的预测概率值均形成一个新的字段;将所有新的字段以及原始部分字段放在一起,形成新的特征训练数据;使用stacking模型通过5折交叉验证再次学习,记录stacking模型的最优参数;
S3、使用S2模型训练的逻辑对S1中的验证集进行预测,得到验证集的最终预测概率值;
S4、模型评价。
进一步的,预测概率值为0-1之间的一个数值,代表企业不违约的概率。如好企业预测概率值为1,坏企业的预测概率值为0,当企业预测概率值为0.9时,表示该企业不违约概率为90%,相应的,违约概率为10%。
进一步的,所述S4中,模型评价的评价指标为正确率、召回率、精确率和ks指标中的一种或几种。
进一步的,3个所述模型算法分别为GBDT、Xgboost、Lightgbm。
进一步的,对步骤S1中的企业特征数据进行特征处理,具体步骤为:
1)去除缺失率超过80%的特征;
2)缺失数据为字符型的填充“空值”,缺失数据为数值型的用均值填充;
3)连续性变量做归一化处理;
4)字符型数据做成one-hot处理。
进一步的,步骤S1中,训练集和验证集的比例为4:1。
进一步的,步骤S3中,使用S2模型训练的逻辑对S1中的验证集进行预测的步骤为:
对验证集,使用某个所述模型算法对应的5个模型分别进行预测,得到5个预测概率值,取5个预测概率值的平均值作为该模型算法的新预测概率值;
3个模型算法得到3个新预测概率值;3个新预测概率值与原始部分字段放在一起,形成新的特征数据;
将新的特征数据使用所述stacking模型5折交叉得出最终的验证集预测概率值。
本发明的有益效果为:采用了级联的模型融合方式,发挥多机器学习模型的优势,分别用3模型进行训练,并调优;使用三层级联的架构,以及stacking融合的方式将模型进行融合,对企业风险评估更客观、综合;方法简单易用,应用前景广阔。
附图说明
图1所示为本发明实施例中模型算法训练的逻辑示意图。
图2所示为实施例中使用stacking模型训练的逻辑示意图。
图3所示为实施例中验证集的预测逻辑示意图。
图4所示为本发明实施例一种基于机器学习模型的企业风险评估方法的总体流程图。
具体实施方式
下文将结合具体附图详细描述本发明具体实施例。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。
如图4所示,本发明实施例一种基于机器学习模型的企业风险评估方法,包括:
首先对数据进行特征处理:
1)去除缺失率超过80%的特征;
2)缺失数据为字符型的填充“空值”,缺失数据为数值型的用均值填充;
3)连续性变量做归一化处理;
4)字符型数据做成one-hot处理。
S1、将企业特征数据拆分为训练集和验证集,训练集和验证集的比例为4:1,确定3个用于企业风险评估的模型算法GBDT,Xgboost,Lightgbm。
S2、模型训练:将训练集进行5折交叉验证,其中4份作为训练子集,剩下1份作为测试子集;同时利用3个所述模型算法来训练模型,每个模型算法对应确定5个模型,记录各模型的最优参数;每个模型都保存成可调用的model文件;此段逻辑如图1所示。
5份测试子集每个模型的预测概率值均形成一个新的字段;将所有新的字段以及原始部分字段(训练集形成)放在一起,形成新的特征训练数据;使用stacking模型通过5折交叉验证再次学习,得出测试子集的最终预测概率值,记录stacking模型的最优参数。模型保存成可调用的model文件,逻辑结果如图2所示。
S3、使用S2模型训练的逻辑对S1中的验证集进行预测,得到验证集的最终预测概率值;预测逻辑如图3所示。
验证集预测的具体方法为:对验证集,使用某个所述模型算法对应的5个模型分别进行预测,得到5个预测概率值,取5个预测概率值的平均值作为该模型算法的新预测概率值;3个模型算法得到3个新预测概率值;3个新预测概率值与原始部分字段放在一起,形成新的特征数据;将新的特征数据使用所述stacking模型5折交叉得出最终的验证集预测概率值。
S4、模型评价,评价指标使用正确率、召回率、精确率与ks指标中的一种或几种。
在完成模型构建之后,必须对模型的效果进行评估,根据评估结果来继续调整模型的参数、特征或者算法,以达到满意的结果。
评价一个模型最简单也是最常用的指标是准确率,但是在没有任何前提下使用准确率作为评价指标,准确率往往不能反映一个模型性能的好坏,例如在不平衡的数据集上,正类样本占总数的95%,负类样本占总数的5%;那么有一个模型把所有样本全部判断为正类,该模型也能达到95%的准确率,但是这个模型没有任何的意义。
因此,对于一个模型,需要从不同的方面去判断它的性能。在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评价结果。
混淆矩阵:
True Positive(真正,TP):将正类预测为正类数;
True Negative(真负,TN):将负类预测为负类数;
False Positive(假正,FP):将负类预测为正类数误报(Type I error);
False Negative(假负,FN):将正类预测为负类数→漏报(Type II error)。
评价指标说明如下:
正确率(accuracy)指的预测概率值正确的比例。
错误率则与准确率相反,描述被分类器错分的比例,error rate=
(FP+FN)/(TP+TN+FP+FN),对某一个实例来说,分对与分错是互斥事件,
所以accuracy=1-error rate。
召回率:召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)
精确度(Precision):表示被分为正例的示例中实际为正例的比例。
ks指标,用于评价模型区分好坏样本的能力,0-1之间,一般ks越大说明模型效果越好。
本发明使用了基于多种机器学习算法主要有GBDT,Xgboost,Lightgbm来进行交叉验证的多模型融合方法进行企业风险评估。这种组合模型很好的解决了逻辑回归与单模型的大部分缺点。例如:此组合模型的基模型都是提升树模型,一方面在处理数据上的容忍度较大,可以处理特征较多的数据,针对有较多的空数据也可以根据添加新字段(XX是否为空)来进行很好的处理;其次基模型都属于提升模型,基模型的精度都会比逻辑回归的精度要高;最后,使用了交叉验证与模型组合,大大挺高模型的稳定性。
本文虽然已经给出了本发明的几个实施例,但是本领域的技术人员应当理解,在不脱离本发明精神的情况下,可以对本文的实施例进行改变。上述实施例只是示例性的,不应以本文的实施例作为本发明权利范围的限定。

Claims (6)

1.一种基于机器学习模型的企业风险评估方法,其特征在于,所述方法包括:
S1、将企业特征数据拆分为训练集和验证集,确定3个用于企业风险评估的模型算法;
S2、模型训练:将训练集进行5折交叉验证,其中4份作为训练子集,剩下1份作为测试子集;同时利用3个所述模型算法来训练模型,每个模型算法对应确定5个模型,记录各模型的最优参数;5份测试子集每个模型的预测概率值均形成一个新的字段;将所有新的字段以及原始部分字段放在一起,形成新的特征训练数据;使用stacking模型通过5折交叉验证再次学习,记录stacking模型的最优参数;
S3、使用S2模型训练的逻辑对S1中的验证集进行预测,得到验证集的最终预测概率值;
S4、模型评价。
2.如权利要求1所述的基于机器学习模型的企业风险评估方法,其特征在于,所述S4中,模型评价的评价指标为正确率、召回率、精确率和ks指标中的一种或几种。
3.如权利要求1所述的基于机器学习模型的企业风险评估方法,其特征在于,3个所述模型算法分别为GBDT、Xgboost、Lightgbm。
4.如权利要求1所述的基于机器学习模型的企业风险评估方法,其特征在于,对步骤S1中的企业特征数据进行特征处理,具体步骤为:
1)去除缺失率超过80%的特征;
2)缺失数据为字符型的填充“空值”,缺失数据为数值型的用均值填充;
3)连续性变量做归一化处理;
4)字符型数据做成one-hot处理。
5.如权利要求1所述的基于机器学习模型的企业风险评估方法,其特征在于,步骤S1中,训练集和验证集的比例为4:1。
6.如权利要求1所述的基于机器学习模型的企业风险评估方法,其特征在于,步骤S3中,使用S2模型训练的逻辑对S1中的验证集进行预测的步骤为:
对验证集,使用某个所述模型算法对应的5个模型分别进行预测,得到5个预测概率值,取5个预测概率值的平均值作为该模型算法的新预测概率值;
3个模型算法得到3个新预测概率值;3个新预测概率值与原始部分字段放在一起,形成新的特征数据;
将新的特征数据使用所述stacking模型5折交叉得出最终的验证集预测概率值。
CN201910722029.3A 2019-08-06 2019-08-06 一种基于机器学习模型的企业风险评估方法 Pending CN110443304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722029.3A CN110443304A (zh) 2019-08-06 2019-08-06 一种基于机器学习模型的企业风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722029.3A CN110443304A (zh) 2019-08-06 2019-08-06 一种基于机器学习模型的企业风险评估方法

Publications (1)

Publication Number Publication Date
CN110443304A true CN110443304A (zh) 2019-11-12

Family

ID=68433464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722029.3A Pending CN110443304A (zh) 2019-08-06 2019-08-06 一种基于机器学习模型的企业风险评估方法

Country Status (1)

Country Link
CN (1) CN110443304A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049858A (zh) * 2019-12-26 2020-04-21 杭州安恒信息技术股份有限公司 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法
CN111242441A (zh) * 2020-01-06 2020-06-05 上海孚厘金融信息服务有限公司 一种适用于小微企业风险控制模型的自适应参数拟合方法
CN111383100A (zh) * 2020-03-25 2020-07-07 中国建设银行股份有限公司 基于风险模型的全生命周期管控方法和装置
CN112270546A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于stacking算法的风险预测方法、装置和电子设备
CN113674087A (zh) * 2021-08-19 2021-11-19 工银科技有限公司 企业信用等级评定方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330741A (zh) * 2017-07-07 2017-11-07 北京京东尚科信息技术有限公司 分品类电子券使用预测方法、装置及电子设备
CN108090510A (zh) * 2017-12-15 2018-05-29 北京大学 一种基于间隔优化的集成学习方法及装置
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN109344201A (zh) * 2018-10-17 2019-02-15 国网江苏省电力有限公司信息通信分公司 一种基于机器学习的数据库性能负载评估系统和方法
CN109522917A (zh) * 2018-09-10 2019-03-26 中山大学 一种基于多模型堆叠融合预测的方法
CN110046377A (zh) * 2019-02-28 2019-07-23 昆明理工大学 一种基于异构相似度的选择性集成即时学习软测量建模方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330741A (zh) * 2017-07-07 2017-11-07 北京京东尚科信息技术有限公司 分品类电子券使用预测方法、装置及电子设备
CN108090510A (zh) * 2017-12-15 2018-05-29 北京大学 一种基于间隔优化的集成学习方法及装置
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN109522917A (zh) * 2018-09-10 2019-03-26 中山大学 一种基于多模型堆叠融合预测的方法
CN109344201A (zh) * 2018-10-17 2019-02-15 国网江苏省电力有限公司信息通信分公司 一种基于机器学习的数据库性能负载评估系统和方法
CN110046377A (zh) * 2019-02-28 2019-07-23 昆明理工大学 一种基于异构相似度的选择性集成即时学习软测量建模方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法
CN111049858A (zh) * 2019-12-26 2020-04-21 杭州安恒信息技术股份有限公司 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备
CN111049858B (zh) * 2019-12-26 2022-05-24 杭州安恒信息技术股份有限公司 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备
CN111242441A (zh) * 2020-01-06 2020-06-05 上海孚厘金融信息服务有限公司 一种适用于小微企业风险控制模型的自适应参数拟合方法
CN111242441B (zh) * 2020-01-06 2023-06-30 上海孚厘科技有限公司 一种适用于小微企业风险控制模型的自适应参数拟合方法
CN111383100A (zh) * 2020-03-25 2020-07-07 中国建设银行股份有限公司 基于风险模型的全生命周期管控方法和装置
CN112270546A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于stacking算法的风险预测方法、装置和电子设备
CN113674087A (zh) * 2021-08-19 2021-11-19 工银科技有限公司 企业信用等级评定方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN110443304A (zh) 一种基于机器学习模型的企业风险评估方法
Last et al. Automated detection of outliers in real-world data
CN110413494A (zh) 一种改进贝叶斯优化的LightGBM故障诊断方法
CN107168995B (zh) 一种数据处理方法及服务器
CN101484910A (zh) 聚类系统及缺陷种类判定装置
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN106933105A (zh) 受限条件下的轨迹更新综合预测迭代学习控制算法
CN112070239B (zh) 基于用户数据建模的分析方法、系统、介质及设备
CN108830645A (zh) 一种访客流失预测方法及系统
CN112201330A (zh) 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法
CN108416373A (zh) 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
CN111338972A (zh) 基于机器学习的软件缺陷与复杂度关联关系分析方法
CN114015825A (zh) 基于注意力机制的高炉热负荷异常状态监测方法
CN107122907B (zh) 一种机电产品符号化质量特性的分析与故障原因追溯方法
CN108664237A (zh) 一种基于启发式和神经网络的非api成员推荐方法
CN114529204A (zh) 一种组件化的生产过程控制管理方法及系统
CN111339633A (zh) 基于数据变化特征模糊度量的热量表性能退化评估方法
CN117290462B (zh) 一种数据大模型的智能决策系统及方法
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
KR102406375B1 (ko) 원천 기술의 평가 방법을 포함하는 전자 장치
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN107122609A (zh) 一种基于质量特性基因理论的机电产品质量评价方法
CN111553581A (zh) 一种基于熵值的装备维修性评价模型
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN110457360A (zh) 一种基于数据挖掘的建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112

RJ01 Rejection of invention patent application after publication