CN112085584A - 企业信用违约概率计算方法及系统 - Google Patents

企业信用违约概率计算方法及系统 Download PDF

Info

Publication number
CN112085584A
CN112085584A CN202010767637.9A CN202010767637A CN112085584A CN 112085584 A CN112085584 A CN 112085584A CN 202010767637 A CN202010767637 A CN 202010767637A CN 112085584 A CN112085584 A CN 112085584A
Authority
CN
China
Prior art keywords
enterprise
submodel
probability
credit default
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010767637.9A
Other languages
English (en)
Inventor
贺欧文
卜志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shell Time Network Technology Co ltd
Original Assignee
Beijing Shell Time Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shell Time Network Technology Co ltd filed Critical Beijing Shell Time Network Technology Co ltd
Priority to CN202010767637.9A priority Critical patent/CN112085584A/zh
Publication of CN112085584A publication Critical patent/CN112085584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Computational Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明实施例提供一种企业信用违约概率计算方法及系统,方法包括:将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的待识别企业的信用违约概率;通过二级子模型的训练得到多个一级子模型的最优权重系数;根据每一个一级子模型输出的待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到待识别企业的最终信用违约概率。本发明实施例计算企业信用违约概率的模型包括多个一级子模型和一个二级子模型,利用二级子模型确定多个一级子模型的最优权重系数,确定出的一级子模型的权重更具准确性,进而计算出的每一个企业的最终信用违约概率也更为准确。

Description

企业信用违约概率计算方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种企业信用违约概率计算方法及系统。
背景技术
在对企业的信用风险评估领域,根据企业的数据,对各个企业的信用风险评估关系到金融行业的有序发展,企业的信用风险评估主要是对企业的信用违约概率进行计算,如果一个企业的信用违约概率高,表明该企业的信用存在很大风险;相反,如果一个企业的信用违约概率低,表明该企业的信用风险比较小。
现有的对每一个企业的信用违约概率计算的方式为根据每一个企业的与信用风险评估有关的特征数据,根据特征数据计算每一个企业的信用违约概率,或者采用特征数据对模型进行训练,利用训练好的模型对待识别企业的信用违约概率进行识别计算。
现有的直接根据特征数据计算每一个企业的信用违约概率,或者利用一个模型计算每一个企业的信用违约概率,计算得出的企业的信用违约概率都不够准确。
发明内容
为克服上述现有问题或者至少部分地解决上述问题,本发明实施例提供一种企业信用违约概率计算方法及系统。
根据本发明实施例的第一方面,提供一种企业信用违约概率计算方法,包括:
将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;
通过二级子模型的训练得到多个一级子模型的最优权重系数;
根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
在上述技术方案的基础上,本发明实施例还可以作如下改进。
可选的,通过如下方式训练得到每一个一级子模型:
对所述任一一级子模型的参数进行初始化,将n个企业的m维特征数据作为第一训练样本数据输入任一一级子模型中,获取所述任一一级子模型输出的每一个企业的信用违约概率,其中,第一训练样本数据中包括每一个企业的信用违约实际记录标签,m,n为正整数;
将所述任一一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率;
若所述正确率不满足第一预设要求,则通过调整所述任一一级子模型的参数循环迭代训练,直到所述任一一级子模型的正确率满足第一预设要求。
可选的,所述第一训练样本数据中的每一个企业的信用违约概率为0或1;
相应的,将所述任一一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率包括:
若所述任一一级子模型输出的任一企业的信用违约概率小于第一概率阈值,则确定所述任一一级子模型输出的所述任一企业的信用违约概率为0;否则,确定所述任一一级子模型输出的所述任一企业的信用违约概率为1;
将确定出的所述任一企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率。
可选的,通过如下方式得到第一概率阈值:
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的正确率;
将最高正确率对应的第一概率阈值作为最终的第一概率阈值;
或者,
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的真正率和假正率;
以所述假正率为横坐标,所述真正率为纵坐标绘制曲线,将曲线的拐点处对应的第一概率阈值作为最终的第一概率阈值。
可选的,所述通过二级子模型的训练得到多个一级子模型的最优权重系数包括:
将每一个一级子模型输出的所述待识别企业的信用违约概率作为n个企业中每一个企业的特征数据,将n个企业的特征数据作为第二训练样本数据,所述第二训练样本数据中包括每一个企业的信用违约实际记录标签;
初始化二级子模型的参数,将第二训练样本数据输入二级子模型中,获取所述二级子模型输出的每一个企业的信用违约概率;
将所述二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到二级子模型输出的每一个企业的信用违约概率的正确率;
若所述正确率不满足第二预设要求,则通过调整所述二级子模型的参数循环迭代训练,直到所述二级子模型的正确率满足第二预设要求,得到每一个一级子模型的最优权重系数。
可选的,所述第二训练样本数据中的每一个企业的信用违约概率为0或1,所述将所述二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到二级子模型输出的每一个企业的信用违约概率的正确率包括:
若所述二级子模型输出的任一企业的信用违约概率小于第二概率阈值,则确定所述二级子模型输出的所述任一企业的信用违约概率为0;否则,确定所述二级子模型输出的所述任一企业的信用违约概率为1;
将确定出的所述任一企业的信用违约概率与第二训练样本中每一个企业的信用违约实际记录标签进行比较,得到所述二级子模型的正确率。
可选的,通过如下方式得到第二概率阈值:
在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,所述二级子模型输出每一个企业的信用违约概率的正确率;
将最高正确率对应的第二概率阈值作为最终的第二概率阈值;
或者,
在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的假正率和真正率;
以所述假正率为横坐标,所述真正率为纵坐标绘制曲线,将曲线的拐点处对应的第二概率阈值作为最终的第二概率阈值。
可选的,所述根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率包括:
P=P1α1+P2α2+...+Pwαw
其中,P1、P2、P3...、Pw分别为w个一级子模型输出的每一个企业的信用违约概率,α1、α2...、αw分别为每一个一级子模型的最优权重系数。
根据本发明实施例第二方面,提供一种信用风险评估中企业信用违约计算系统,包括:
第一获取模块,用于将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;
第二获取模块,用于通过二级子模型的训练获取多个一级子模型的最优权重系数;
计算模块,用于根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
根据本发明实施例的第三个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的信用风险评估中企业信用违约计算方法。
根据本发明实施例的第四个方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的信用风险评估中企业信用违约计算方法。
本发明实施例提供一种信用风险评估中企业信用违约计算方法及系统,计算企业信用违约概率的模型包括多个一级子模型和一个二级子模型,利用二级子模型确定多个一级子模型的最优权重系数,确定出的一级子模型的权重更具准确性,进而计算出的每一个企业的最终信用违约概率也更为准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的信用风险评估中企业信用违约计算方法整体流程示意图;
图2为本发明实施例的每一个一级子模型的输入输出训练过程示意图;
图3为本发明实施例的第一训练样本数据示意图;
图4为本发明实施例的二级子模型的输入输出训练过程示意图;
图5为本发明实施例的第二训练样本数据示意图;
图6为本发明实施例提供的信用风险评估中企业信用违约计算系统整体结构示意图;
图7为本发明实施例提供的电子设备整体结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
参见图1,在本发明的一个实施例中提供一种企业信用违约概率计算方法,该方法包括:
将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;
通过二级子模型的训练得到多个一级子模型的最优权重系数;
根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
可以理解的是,在信用风险评估领域,比如,银行贷款,需要对每一个企业的信用违约概率进行计算统计,为后续贷款业务提供数据支持。
通常采用模型对每一个企业的信用违约概率进行计算,由于采用单独模型对每一个企业的信用违约概率计算的准确率不够高。基于此,本发明实施例中提出的计算每一个企业的信用违约概率的模型包括多个一级子模型和一个二级子模型,对每一个一级子模型训练后,将待识别企业的多维特征数据输入每一个一级子模型,每一个一级子模型输出待识别企业的信用违约概率。
根据每一个子模型输出的待识别企业的信用违约概率,利用二级子模型训练得到每一个一级子模型的最优权重系数,得到每一个一级子模型的最优权重系数后,根据每一个一级子模型输出的待识别企业的信用违约概率和每一个一级子模型的最优权重系数,计算得到待识别企业的最终信用违约概率。
本发明实施例在计算企业信用违约概率时,所采用的模型包括多个一级子模型和一个二级子模型,利用二级子模型确定多个一级子模型的最优权重系数,最后根据每一个一级子模型输出的待识别企业的信用违约概率和每一个一级子模型的权重系数计算待识别企业的最终信用违约概率,通过多个子模型(包括一级子模型和二级子模型)计算待识别企业的信用违约概率,相比一个模型计算待识别企业的信用违约概率更为准确;同时,利用二级子模型确定出的一级子模型的权重系数相比直接采用经验权重值具有客观性,进而计算出的每一个企业的最终信用违约概率也较为客观。
作为一个可选的实施例,通过如下方式训练得到每一个一级子模型:
对任一一级子模型的参数进行初始化,将n个企业的m维特征数据作为第一训练样本数据输入任一一级子模型中,获取所述任一一级子模型输出的每一个企业的信用违约概率,其中,第一训练样本数据中包括每一个企业的信用违约实际记录标签,m,n为正整数;
将任一一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率;
若所述正确率不满足第一预设要求,则通过调整所述任一一级子模型的参数循环迭代训练,直到所述任一一级子模型的正确率满足第一预设要求。
可以理解的是,在计算每一个企业的信用违约概率时,需要提取与信用违约相关的特征数据,比如,每一个企业的规模、注册时间、历史经营状态、历史贷款和还款数据等,在本发明实施例中,收集每一个企业与信用违约相关的m维特征数据,m为正整数。
采用收集的每一个企业的m维特征数据对每一个一级子模型进行训练。其中,参见图2,训练每一个一级子模型的样本数据称为第一训练样本数据,第一训练样本数据中包括n个企业、每个企业对应的m维特征数据以及每一个企业的信用违约实际记录标签,其中,图2中的x1、x2、…、xm为每一个企业的m维特征数据,Y为每一个企业的信用违约实际记录标签,也就是说第一训练样本数据中的每一个企业的信用违约概率是已知的,在此称为信用违约实际记录标签。
对于任一一级子模型,其中,一级子模型即为图3中的模型A、模型B和模型C,模型A可以为logistic回归模型,模型B可以为提升树模型,模型C可以为深度神经网络模型,对模型A、模型B和模型C分别进行独立训练,比如,对模型A进行训练,该一级子模型的参数进行初始化,将n个企业的m维特征数据输入一级子模型中,一级子模型输出每一个企业的信用违约概率。将一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中的对应企业的信用违约实际记录标签进行比较,得到一级子模型输出的n个企业的信用违约概率的正确率。
判断正确率是否达到第一预设要求,如果达不到,那么调整一级子模型的参数,对一级子模型进行循环迭代训练,直到一级子模型输出的n个企业的信用违约概率的正确率满足第一预设要求。对每一个一级子模型采用同样的方法进行训练,得到最优的多个一级子模型。
作为一个可选的实施例,第一训练样本数据中的每一个企业的信用违约实际记录标签为0或1;
相应的,将任一一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到任一一级子模型输出每一个企业的信用违约概率的正确率包括:
若所述任一一级子模型输出的任一企业的信用违约概率小于第一概率阈值,则确定所述任一一级子模型输出的所述任一企业的信用违约概率为0;否则,确定所述任一一级子模型输出的所述任一企业的信用违约概率为1;
将确定出的所述任一企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率。
可以理解的是,第一训练样本数据中的每一个企业的信用违约实际记录标签为0或1,其中,0表示该企业的信用违约概率为0,1表示该企业的信用违约概率为1。
对于每一个一级子模型,将每一个企业的m维特征数据输入一级子模型中,一级子模型输出每一个企业的信用违约概率,通常,一级子模型输出的每一个企业的信用违约概率不为0,也不为1。此时,如果一级子模型输出的任一企业的信用违约概率小于第一概率阈值,则确定该企业的信用违约概率为0;否则,确定该企业的信用违约概率为1,比如,当一级子模型输出的任一企业的信用违约概率小于0.4,则确定该企业的信用违约概率为0;否则,确定该企业的信用违约概率为1。
将确定后的每一个企业的信用违约概率与第一训练样本数据中的每一个企业的信用实际记录标签进行比较,计算一级子模型输出每一个企业的信用违约概率的正确率。
作为一个可选的实施例,通过如下方式得到第一概率阈值:
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的正确率;
将最高正确率对应的第一概率阈值作为最终的第一概率阈值;
或者,
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的真正率和假正率;
以所述假正率为横坐标,所述真正率为纵坐标绘制曲线,将曲线的拐点处对应的第一概率阈值作为最终的第一概率阈值。
可以理解的是,第一概率阈值的选择对于一级子模型的正确率会有很大影响,因此,需要选择合适的第一概率阈值。本发明实施例中,可采取两种确定第一概率阈值的方法,第一种方式为,在0和1之间以固定间隔为步进为第一概率阈值取值,比如,以0.05为步进为第一概率阈值取值,则第一概率阈值分别取0,0.05,0.1,…,0.95,1。对于每一个第一概率阈值的取值,计算训练过程中一级子模型输出的每一个企业的信用违约概率的正确率,将最高正确率对应的概率阈值作为最终的第一概率阈值。通过此种方式确定第一概率阈值,使得训练出来的一级子模型的准确率比较高。
第二种方式为,在0和1之间以固定间隔为步进为第一概率阈值取值,比如,以0.05为步进为第一概率阈值取值,则第一概率阈值分别取0,0.05,0.1,…,0.95,1。对于每一个第一概率阈值的取值,计算训练过程中一级子模型输出的每一个企业的信用违约概率的真正率和假正率,在计算出所有的第一概率阈值取值下的一级子模型输出的每一个企业的信用违约概率的真正率和假正率,以假正率为横坐标,以真正率为纵坐标绘制曲线,将曲线拐点处对应的第一概率阈值确定为最终的第一概率阈值。
其中,此处所说的真正率,即一级子模型输出中,被预测为正的正样本数除以正样本实际数的比值,在企业违约概率模型中,对应企业的信用违约实际记录标签为1且通过一级子模型预测的信用概率也为1的样本数,除以信用违约实际标签为1的总样本数。相类似的,假正率是指被预测为正的负样本数除以负样本实际数的比值,在企业违约概率模型中,对应企业的信用违约实际标签为0但通过一级子模型预测的信用概率为1的样本数,除以信用违约实际标签为0的总样本数。
作为一个可选的实施例,通过二级子模型的训练得到多个一级子模型的最优权重系数包括:
将每一个一级子模型输出的待识别企业的信用违约概率作为n个企业中每一个企业的特征数据,将n个企业的特征数据作为第二训练样本数据,第二训练样本数据中包括每一个企业的信用违约实际记录标签;
初始化二级子模型的参数,参数至少包括每一个一级子模型的权重系数,将第二训练样本数据输入二级子模型中,获取二级子模型输出的每一个企业的信用违约概率;
将二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到二级子模型输出的每一个企业的信用违约概率的正确率;
若正确率不满足第二预设要求,则通过调整二级子模型的参数循环迭代训练,直到二级子模型的正确率满足第二预设要求,得到每一个一级子模型最终的权重系数。
可以理解的是,每一个一级子模型输出企业的信用违约概率,比如,一级子模型有w个,则对于一个企业,通过w个一级子模型输出的企业的信用违约概率有w个,在利用二级子模型确定w个一级子模型的权重系数时,将n个企业、w个一级子模型输出的每一个企业的w个信用违约概率作为第二训练样本数据,其中,每一个企业的标签依然为原始的每一个企业的信用违约实际记录标签,其中,第二训练样本数据可参见图4中所示,其中,P1、P2和P3分别表示三个一级子模型输出的每一个企业的三个信用违约概率,Y为每一个企业的信用违约实际记录标签,第二训练样本数据中的每一个企业的信用违约实际记录标签与第一训练样本数据中的每一个企业的信用违约实际记录标签相同。
首先对二级子模型的参数进行初始化设置,参见图5,将每一个企业的w个信用违约概率特征数据输入二级子模型中,输出每一个企业的信用违约概率;将二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中的每一个企业的信用违约实际记录标签进行比较,计算二级子模型输出的每一个企业的信用违约概率的正确率。其中,图5中的权重学习模型即为二级子模型,二级子模型可以为logistic回归模型。
若正确率不满足第二预设要求,则通过调整二级子模型的参数循环迭代训练,直到二级子模型的正确率满足第二预设要求,得到每一个一级子模型最终的权重系数。
作为一个可选的实施例,第二训练样本数据中的每一个企业的信用违约实际记录标签为0或1,将二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到二级子模型输出的每一个企业的信用违约概率的正确率包括:
若所述二级子模型输出的任一企业的信用违约概率小于第二概率阈值,则确定所述二级子模型输出的所述任一企业的信用违约概率为0;否则,确定所述二级子模型输出的所述任一企业的信用违约概率为1;
将确定出的所述任一企业的信用违约概率与第二训练样本中每一个企业的信用违约实际记录标签进行比较,得到二级子模型的正确率。
其中,通过如下方式得到第二概率阈值:
在0和1之间以固定间隔为步进为第二概率阈值取值,计算每一个第二概率阈值下,二级子模型输出每一个企业的信用违约概率的正确率;
将最高正确率对应的第二概率阈值作为最终的第二概率阈值。
可以理解的是,第二训练样本数据中每一个企业的信用违约实际记录标签为0或1,与第一训练样本数据中每一个企业的信用违约实际记录标签相同。同样的,当二级子模型输出的每一个企业的信用违约概率小于第二概率阈值时,确定该企业的信用违约概率为0,否则,确定该企业的信用违约概率为1,比如,当二级子模型输出的每一个企业的信用违约概率小于0.3时,确定该企业的信用违约概率为0,否则,确定该企业的信用违约概率为1。
其中,确定第二概率阈值的方法与前述确定第一概率阈值的方法相同,在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,二级子模型输出每一个企业的信用违约概率的正确率;将最高正确率对应的第二概率阈值作为最终的第二概率阈值;或者,在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的真正率和假正率;
以假正率为横坐标,以真正率为纵坐标绘制曲线,将曲线的拐点处对应的第二概率阈值作为最终的第二概率阈值。
作为一个可选的实施例,根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的权重系数,计算得到待识别企业的最终信用违约概率包括:
P=P1α1+P2α2+...+Pwαw
其中,P1、P2、P3...、Pw分别为w个一级子模型输出的每一个企业的信用违约概率,α1、α2...、αw分别为每一个以及子模型的权重系数。
可以理解的是,当通过二级子模型训练得到每一个一级子模型的权重系数后,根据每一个一级子模型输出的每一个企业的信用违约概率,对于任一个企业,将每一个一级子模型输出的该企业的信用违约概率与每一个一级子模型的信用违约概率点乘相加,得到每一个企业的最终信用违约概率。
需要说明的是,本发明实施例中提供的利用多个一级子模型的输出结果并利用二级子模型确定多个一级子模型的权重,不仅仅可以用来计算企业的违约概率,也可以用于其它的领域,比如,根据监测的人体健康数据,来计算人体健康概率,例如,对于每一个人,监测人体血压、心率、血糖等多维健康数据,利用多个一级子模型和一个二级子模型来计算人体的健康概率。
对应的可提供一种人体健康概率计算方法,包括:
将待识别人体的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别人体的健康概率,其中,所述待识别人体的多维特征数据为监测的待识别人体的健康数据;
通过二级子模型的训练得到多个一级子模型的最优权重系数组合;
根据每一个一级子模型输出的所述待识别人体的健康概率以及每一个一级子模型的最优权重系数,计算得到所述待识别人体的最终健康概率。
其中,通过如下方式训练得到每一个一级子模型:
对所述任一一级子模型的参数进行初始化,将n个人体的m维特征数据作为第一训练样本数据输入任一一级子模型中,获取所述任一一级子模型输出的每一个人体的健康概率,其中,第一训练样本数据中包括每一个人体的健康实际记录标签;
将所述任一一级子模型输出的每一个人体的健康概率与第一训练样本数据中每一个人体的健康实际记录标签进行比较,得到所述任一一级子模型输出每一个人体的健康概率的正确率;
若所述正确率不满足第一预设要求,则通过调整所述任一一级子模型的参数循环迭代训练,直到所述任一一级子模型的正确率满足第一预设要求。
其中,所述第一训练样本数据中的每一个人体的健康实际记录标签为0或1;
相应的,将所述任一一级子模型输出的每一个人体的健康概率与第一训练样本数据中每一个人体的健康实际记录标签进行比较,得到所述任一一级子模型输出每一个人体的健康概率的正确率包括:
若所述任一一级子模型输出的任一人体的健康概率小于第一概率阈值,则确定所述任一一级子模型输出的所述任一人体的健康概率为0;否则,确定所述任一一级子模型输出的所述任一人体的健康概率为1;
将确定出的所述任一人体的健康概率与第一训练样本数据中每一个人体的健康实际记录标签进行比较,得到所述任一一级子模型输出每一个人体的健康概率的正确率。
其中,通过如下方式得到第一概率阈值:
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个人体的健康概率的正确率;
将最高正确率对应的第一概率阈值作为最终的第一概率阈值。
其中,所述通过二级子模型的训练得到多个一级子模型的最优权重系数组合包括:
将每一个一级子模型输出的所述待识别人体的健康概率作为n个人体中每一个人体的特征数据,将n个人体的特征数据作为第二训练样本数据,所述第二训练样本数据中包括每一个人体的健康实际记录标签;
初始化二级子模型的参数,将第二训练样本数据输入二级子模型中,获取二级子模型输出的每一个人体的健康概率;
将二级子模型输出的每一个人体的健康概率与第二训练样本数据中每一个人体的健康实际记录标签进行比较,得到二级子模型输出的每一个人体的健康概率的正确率;
若正确率不满足第二预设要求,则通过调整二级子模型的参数循环迭代训练,直到二级子模型的正确率满足第二预设要求,得到每一个一级子模型最终的权重系数。
其中,第二训练样本数据中的每一个人体的健康实际记录标签为0或1,将二级子模型输出的每一个人体的健康概率与第二训练样本数据中每一个人体的健康实际记录标签进行比较,得到二级子模型输出的每一个人体的健康概率的正确率包括:
若所述二级子模型输出的任一人体的健康概率小于第二概率阈值,则确定所述二级子模型输出的所述任一人体的健康概率为0;否则,确定所述二级子模型输出的所述任一人体的健康概率为1;
将确定出的所述任一人体的健康概率与第二训练样本中每一个人体的健康实际记录标签进行比较,得到所述二级子模型的正确率。
其中,通过如下方式得到第二概率阈值:
在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,所述二级子模型输出每一个人体的健康概率的正确率;
将最高正确率对应的第二概率阈值作为最终的第二概率阈值。
其中,所述根据每一个一级子模型输出的所述待识别人体的健康概率以及每一个一级子模型的权重系数,计算得到所述待识别人体的最终健康概率包括:
P=P1α1+P2α2+...+Pwαw
其中,P1、P2、P3...、Pw分别为w个一级子模型输出的每一个人体的健康概率,α1、α2...、αw分别为每一个一级子模型的权重系数。
在本发明的另一个实施例中提供一种信用风险评估中企业违约概率计算系统,该系统用于实现前述各实施例中的方法。因此,在前述信用风险评估中企业违约概率计算方法的各实施例中的描述和定义,可以用于本发明实施例中各个执行模块的理解。图6为本发明实施例提供的信用风险评估中企业违约概率计算系统整体结构示意图,该系统包括:
第一获取模块61,用于将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;
第二获取模块62,用于通过二级子模型的训练获取多个一级子模型的最优权重系数;
计算模块63,用于根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
本发明实施例提供的信用风险评估中企业违约概率计算系统与前述各实施例提供的信用风险评估中企业违约概率计算方法相对应,信用风险评估中企业违约概率计算系统的相关技术特征可参考前述各实施例信用风险评估中企业违约概率计算方法的相关技术特征,在此不再赘述。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;通过二级子模型的训练得到多个一级子模型的最优权重系数;根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;通过二级子模型的训练得到多个一级子模型的最优权重系数;根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
本发明实施例提供的信用风险评估中企业违约概率计算方法及系统,在计算企业信用违约概率时,所采用的模型包括多个一级子模型和一个二级子模型,利用二级子模型确定多个一级子模型的最优权重系数,最后根据每一个一级子模型输出的待识别企业的信用违约概率和每一个一级子模型的权重系数计算待识别企业的最终信用违约概率,通过多个子模型(包括一级子模型和二级子模型)计算待识别企业的信用违约概率,相比一个模型计算待识别企业的信用违约概率更为准确;同时,利用二级子模型确定出的一级子模型的权重系数相比直接采用经验权重值更具准确性,进而计算出的每一个企业的最终信用违约概率也较为准确。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种企业信用违约概率计算方法,其特征在于,包括:
将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;
通过二级子模型的训练得到多个一级子模型的最优权重系数;
根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
2.根据权利要求1所述的企业信用违约概率计算方法,其特征在于,通过如下方式训练得到每一个一级子模型:
对所述任一一级子模型的参数进行初始化,将n个企业的m维特征数据作为第一训练样本数据输入任一一级子模型中,获取所述任一一级子模型输出的每一个企业的信用违约概率,其中,第一训练样本数据中包括每一个企业的信用违约实际记录标签,m,n为正整数;
将所述任一一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率;
若所述正确率不满足第一预设要求,则通过调整所述任一一级子模型的参数循环迭代训练,直到所述任一一级子模型的正确率满足第一预设要求。
3.根据权利要求2所述的企业违约概率计算方法,其特征在于,所述第一训练样本数据中的每一个企业的信用违约概率为0或1;
相应的,将所述任一一级子模型输出的每一个企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率包括:
若所述任一一级子模型输出的任一企业的信用违约概率小于第一概率阈值,则确定所述任一一级子模型输出的所述任一企业的信用违约概率为0;否则,确定所述任一一级子模型输出的所述任一企业的信用违约概率为1;
将确定出的所述任一企业的信用违约概率与第一训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到所述任一一级子模型输出每一个企业的信用违约概率的正确率。
4.根据权利要求3所述的企业信用违约概率计算方法,其特征在于,通过如下方式得到第一概率阈值:
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的正确率;
将最高正确率对应的第一概率阈值作为最终的第一概率阈值;
或者,
在0和1之间以固定间隔为步进为所述第一概率阈值取值,计算每一个第一概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的真正率和假正率;
以所述假正率为横坐标,所述真正率为纵坐标绘制曲线,将曲线的拐点处对应的第一概率阈值作为最终的第一概率阈值。
5.根据权利要求1所述的企业信用违约概率计算方法,其特征在于,所述通过二级子模型的训练得到多个一级子模型的最优权重系数包括:
将每一个一级子模型输出的所述待识别企业的信用违约概率作为n个企业中每一个企业的特征数据,将n个企业的特征数据作为第二训练样本数据,所述第二训练样本数据中包括每一个企业的信用违约实际记录标签;
初始化二级子模型的参数,将第二训练样本数据输入二级子模型中,获取所述二级子模型输出的每一个企业的信用违约概率;
将所述二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到二级子模型输出的每一个企业的信用违约概率的正确率;
若所述正确率不满足第二预设要求,则通过调整所述二级子模型的参数循环迭代训练,直到所述二级子模型的正确率满足第二预设要求,得到每一个一级子模型的最优权重系数。
6.根据权利要求5所述的企业信用违约概率计算方法,其特征在于,所述第二训练样本数据中的每一个企业的信用违约概率为0或1,所述将所述二级子模型输出的每一个企业的信用违约概率与第二训练样本数据中每一个企业的信用违约实际记录标签进行比较,得到二级子模型输出的每一个企业的信用违约概率的正确率包括:
若所述二级子模型输出的任一企业的信用违约概率小于第二概率阈值,则确定所述二级子模型输出的所述任一企业的信用违约概率为0;否则,确定所述二级子模型输出的所述任一企业的信用违约概率为1;
将确定出的所述任一企业的信用违约概率与第二训练样本中每一个企业的信用违约实际记录标签进行比较,得到所述二级子模型的正确率。
7.根据权利要求6所述的企业信用违约概率计算方法,其特征在于,通过如下方式得到第二概率阈值:
在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,所述二级子模型输出每一个企业的信用违约概率的正确率;
将最高正确率对应的第二概率阈值作为最终的第二概率阈值;
或者,
在0和1之间以固定间隔为步进为所述第二概率阈值取值,计算每一个第二概率阈值下,所述任一一级子模型输出每一个企业的信用违约概率的真正率和假正率;
以所述假正率为横坐标,所述真正率为纵坐标绘制曲线,将曲线的拐点处对应的第二概率阈值作为最终的第二概率阈值。
8.根据权利要求1所述的企业信用违约概率计算方法,其特征在于,所述根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率包括:
P=P1α1+P2α2+...+Pwαw
其中,P1、P2、P3...、Pw分别为w个一级子模型输出的每一个企业的信用违约概率,α1、α2...、αw分别为每一个一级子模型的最优权重系数。
9.一种企业信用违约概率计算系统,其特征在于,包括:
第一获取模块,用于将待识别企业的多维特征数据输入每一个一级子模型中,获取每一个一级子模型输出的所述待识别企业的信用违约概率;
第二获取模块,用于通过二级子模型的训练获取多个一级子模型的最优权重系数;
计算模块,用于根据每一个一级子模型输出的所述待识别企业的信用违约概率以及每一个一级子模型的最优权重系数,计算得到所述待识别企业的最终信用违约概率。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述企业信用违约概率计算方法的步骤。
CN202010767637.9A 2020-08-03 2020-08-03 企业信用违约概率计算方法及系统 Pending CN112085584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767637.9A CN112085584A (zh) 2020-08-03 2020-08-03 企业信用违约概率计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767637.9A CN112085584A (zh) 2020-08-03 2020-08-03 企业信用违约概率计算方法及系统

Publications (1)

Publication Number Publication Date
CN112085584A true CN112085584A (zh) 2020-12-15

Family

ID=73736160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767637.9A Pending CN112085584A (zh) 2020-08-03 2020-08-03 企业信用违约概率计算方法及系统

Country Status (1)

Country Link
CN (1) CN112085584A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222255A (zh) * 2021-05-17 2021-08-06 上海生腾数据科技有限公司 一种合同履约表现量化及短期违约预测的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222255A (zh) * 2021-05-17 2021-08-06 上海生腾数据科技有限公司 一种合同履约表现量化及短期违约预测的方法及装置
CN113222255B (zh) * 2021-05-17 2024-03-05 上海生腾数据科技有限公司 一种合同履约表现量化及短期违约预测的方法及装置

Similar Documents

Publication Publication Date Title
US10572885B1 (en) Training method, apparatus for loan fraud detection model and computer device
CN108737406B (zh) 一种异常流量数据的检测方法及系统
WO2021155706A1 (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
US20180308160A1 (en) Risk assessment method and system
US11650968B2 (en) Systems and methods for predictive early stopping in neural network training
WO2020082734A1 (zh) 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
CN110362814B (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN110135681A (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN114490065A (zh) 一种负载预测方法、装置及设备
CN114742319A (zh) 法考客观题成绩预测方法、系统及存储介质
CN109871866B (zh) 用于医院内感染预测的模型训练方法、装置、设备及介质
CN110796485A (zh) 一种提高预测模型的预测精度的方法及装置
CN112085584A (zh) 企业信用违约概率计算方法及系统
WO2022011237A1 (en) System and method for evaluating machine learning model behavior over data segments
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
CN112308294B (zh) 违约概率预测方法及装置
CN111666770B (zh) 一种语义匹配方法及装置
CN111190800B (zh) 预测主机的批量运行时长的方法、系统、装置及存储介质
CN115420866A (zh) 药物活性检测方法、装置、电子设备和存储介质
CN111507578A (zh) 风险评估方法及相关装置、设备
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN110837847A (zh) 用户分类方法及装置、存储介质、服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination