CN113177839A - 一种信用风险评估方法、装置、存储介质和设备 - Google Patents

一种信用风险评估方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN113177839A
CN113177839A CN202110551354.5A CN202110551354A CN113177839A CN 113177839 A CN113177839 A CN 113177839A CN 202110551354 A CN202110551354 A CN 202110551354A CN 113177839 A CN113177839 A CN 113177839A
Authority
CN
China
Prior art keywords
sample
credit
training
training set
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110551354.5A
Other languages
English (en)
Inventor
金鹤
程远国
张力铮
王瑶
唐维维
吴舟昊
洪婧
贾晓伟
刘亚贞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110551354.5A priority Critical patent/CN113177839A/zh
Publication of CN113177839A publication Critical patent/CN113177839A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种信用风险评估方法、装置、存储介质和设备,预先从待测客户的信贷行为信息中提取目标指标。目标指标为满足预设条件的特征指标,预设条件为:特征指标与新发生信贷信用行为存在关联关系。将待测客户的目标指标输入至预测模型中,得到预测模型的输出结果。其中,预测模型基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到。样本包括预先获取的阳性样本和阴性样本。输出结果包括待测客户的新发生信贷信用风险。可见,利用本申请所述方案,无需人为考虑定量和定性指标,利用预先训练得到的预测模型进行新发生信贷信用风险评估,能够有效提高新发生信贷信用风险评估的准确性。

Description

一种信用风险评估方法、装置、存储介质和设备
技术领域
本申请涉及大数据处理领域,尤其涉及一种信用风险评估方法、装置、存储介质和设备。
背景技术
在金融业务中,企业信贷在上年末无不良、欠息及本金逾期状态,下一年该企业发生信贷不良或发生持续超过一定天数的欠息或本金逾期状态,将其定义为新发生信贷信用风险。如何评估客户的新发生信贷信用风险,成为金融业务项目所关注的重点。
目前,现有的新发生信贷信用风险评估方法,大多数通过企业提供的贷款材料、财务变量等结合业务经验,判断企业是否满足信贷产品办理政策,从而确定客户的新发生信贷信用风险。然而,现有的技术手段,需要人为考虑的定量和定性指标繁多,主观性较强,其信用风险评估的准确性太低。
发明内容
本申请提供了一种信用风险评估方法、装置、存储介质和设备,目的在于提高新发生信贷信用风险评估的准确性。
为了实现上述目的,本申请提供了以下技术方案:
一种信用风险评估方法,包括:
预先从待测客户的信贷行为信息中提取目标指标;所述目标指标为满足预设条件的特征指标;所述预设条件为:所述特征指标与新发生信贷信用行为存在关联关系;
将所述待测客户的目标指标输入至预测模型中,得到所述预测模型的输出结果;其中,所述预测模型基于训练集作为输入,以所述训练集中样本的违约概率作为训练目标,预先训练得到;所述样本包括预先获取的阳性样本和阴性样本;所述输出结果包括所述待测客户的新发生信贷信用风险。
可选的,所述阳性样本和阴性样本的获取过程,包括:
预先从样本客户的信贷行为信息中提取特征指标;其中,所述特征指标包括信贷资产分类、信贷逾期、以及欠息状态;
在检测到预设观察期内,所述信贷资产分类的级别由较高级别变迁至较低级别的情况下,将所述样本客户的特征指标,标识为阳性样本;
在检测到所述预设观察期内,所述信贷资产分类的级别未发生变迁的情况下,通过概率转移矩阵,计算所述样本客户在失信状态与守信状态之间的转移概率;其中,若所述样本客户具备失信行为,则确定所述样本客户处于所述失信状态,否则确定所述样本客户处于所述守信状态,失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态;
在所述转移概率大于第一预设阈值的情况下,将所述样本客户的特征指标,标识为所述阳性样本;
在检测到所述预设观察期内,所述信贷资产分类的级别维持在所述较高级别的情况下,将所述样本客户的特征指标,标识为阴性样本。
可选的,所述基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到所述预测模型的过程,包括:
集合获取得到的所述阳性样本和所述阴性样本,构建样本集;
对所述样本集进行阴性样本抽样,并将抽样后的所述样本集拆分为训练集和验证集;
将所述训练集作为输入,以所述训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型;
利用所述验证集对训练得到的所述预测模型进行验证。
可选的,所述特征指标的类型包括连续型自变量和离散型自变量;
所述将所述训练集作为输入,以所述训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型之前,还包括:
将所述训练集中缺失率大于第二预设阈值的特征指标进行剔除;
对缺失率不大于所述第二预设阈值、且所述类型为连续型自变量的特征指标进行缺失值补缺;
为缺失率不大于所述第二预设阈值、且所述类型为离散型自变量的特征指标的缺失值设置单独的分箱;
对所述类型为连续型自变量的特征指标进行聚类,得到互不相同的多个分类变量;其中,每个所述分类变量均设置单独的分箱。
可选的,还包括:
计算各个所述分类变量的KS值和IV值;
对所述KS值小于第三预设阈值、且所述IV值小于第四预设阈值的分类变量进行删除。
可选的,还包括:
将所述训练集中所保留的所述分类变量、以及所述类型为离散型自变量的特征指标,作为目标指标;
对目标指标进行WOE编码,得到所述目标指标的WOE值;其中,WOE值用于表征所述训练集中样本的违约概率。
可选的,所述利用所述验证集对训练得到的所述预测模型进行验证,包括:
分别计算所述训练集和所述验证集各自的KS值和AUC值,进行模型区分能力验证;
利用所述训练集和所述验证集的评分值对比,计算PSI值,验证跨期稳定性;
利用所述训练集和所述验证集的打分结果,计算违约率/深度、召回率/深度变量,验证排序能力。
一种信用风险评估装置,包括:
提取单元,用于预先从待测客户的信贷行为信息中提取目标指标;所述目标指标为满足预设条件的特征指标;所述预设条件为:所述特征指标与新发生信贷信用行为存在关联关系;
预测单元,用于将所述待测客户的目标指标输入至预测模型中,得到所述预测模型的输出结果;其中,所述预测模型基于训练集作为输入,以所述训练集中样本的违约概率作为训练目标,预先训练得到;所述样本包括预先获取的阳性样本和阴性样本;所述输出结果包括所述待测客户的新发生信贷信用风险。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的信用风险评估方法。
一种信用风险评估设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的信用风险评估方法。
本申请提供的技术方案,预先从待测客户的信贷行为信息中提取目标指标。目标指标为满足预设条件的特征指标,预设条件为:特征指标与新发生信贷信用行为存在关联关系。将待测客户的目标指标输入至预测模型中,得到预测模型的输出结果。其中,预测模型基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到。样本包括预先获取的阳性样本和阴性样本。输出结果包括待测客户的新发生信贷信用风险。可见,利用本申请所述方案,无需人为考虑定量和定性指标,利用预先训练得到的预测模型进行新发生信贷信用风险评估,能够有效提高新发生信贷信用风险评估的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的一种信用风险评估方法的示意图;
图1b为本申请实施例提供的另一种信用风险评估方法的示意图;
图2为本申请实施例提供的又一种信用风险评估方法的示意图;
图3为本申请实施例提供的一种信用风险评估装置的架构示意图;
图4为本申请实施例提供的一种信用风险评估设备的架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1a所示,为本申请实施例提供的一种信用风险评估方法的示意图,包括如下步骤:
S101:预先从样本客户的信贷行为信息中提取特征指标。
其中,样本客户包括但不限于预设标准(例如四部委企业规模等级)规定的中型企业,特征指标包括但不限于为:信贷资产分类、信贷逾期、以及欠息状态、样本客户的基本特征、行业、地区、担保情况、存贷业务办理情况、关联人情况、以及财务报表变动情况等。
S102:在检测到预设观察期内,信贷资产分类的级别由较高级别变迁至较低级别的情况下,将样本客户的特征指标,标识为阳性样本。
可选的,在检测到所述预设观察期内,信贷资产分类的级别未发生变迁的情况下,通过概率转移矩阵,计算样本客户在失信状态与守信状态之间的转移概率;其中,若样本客户具备失信行为(例如逾期未能还款导致发生欠息行为、以及欠息行为的持续时间超过预设时长),则确定样本客户处于失信状态,否则确定样本客户处于守信状态。失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态。
具体的,上期为守信状态的样本客户,下期转移到守信状态的样本客户占比为99.76%,转移到第一失信状态(例如逾期欠息1至10天)的样本客户占比为0.23%;上期为第一失信状态的样本客户,下期转移到守信状态的样本客户占比为30.51%,仍然为第一失信状态的样本客户占比为5.08%,转移到第二失信状态(例如逾期欠息10至20天)的样本客户占比为64.41%。第二失信状态变为第三失信状态(例如逾期欠息20至30天),第三失信状态变为第四失信状态(例如逾期欠息30至40天),以及之后的多期转移概率均大于90%,通过概率转移矩阵计算得到,当样本客户处于为第二失信状态时,样本客户变为阴性样本的概率趋于稳定。
在所述转移概率大于第一预设阈值的情况下,将所述样本客户的特征指标,标识为阳性样本;
需要说明的是,上述具体实现过程仅仅用于举例说明。
其中,预设观察期为本领域技术人员所熟悉的公知常识,具体的,可以设为自然年末,并预留超过1年表现期,例如,当前为2020年,则设置观察期为2018年末。信贷资产分类的级别,通常可以视为样本客户的征信级别,若信贷资产分类的级别越高,则样本客户的征信级别越高,若信贷资产分类的级别越低,则样本客户的征信级别越低。
需要说明的是,鉴于中型企业信贷期间分布较为分散,阳性样本的选择均为观察期内新发生,而非采用时点状态,有利于识别新发生阳性样本的特征。
S103:在检测到预设观察期内,信贷资产分类的级别维持在较高级别的情况下,将样本客户的特征指标,标识为阴性样本。
其中,在检测到预设观察期内,信贷资产分类的级别维持在较高级别的情况下,同时剔除概率转移矩阵确定的阳性样本,标识为阴性样本。
S104:集合获取得到的阳性样本和阴性样本,构建样本集。
S105:对样本集进行阴性样本抽样,并将抽样后的样本集拆分为训练集和验证集。
其中,对样本集进行阴性样本抽样,其目的是为了提高样本集的阳性样本浓度。
S106:将训练集中缺失率大于第二预设阈值的特征指标进行剔除,并对缺失率不大于第二预设阈值的特征指标进行缺失值补缺。
其中,缺失值补缺的具体实现方式,为本领域技术人员所熟悉的公知常识,例如,利用中位数进行补缺。
需要说明的是,特征指标的类型包括连续型自变量和离散型自变量。具体的,可以利用中位数对缺失率不大于第二预设阈值、且类型为连续型自变量的特征指标进行缺失值补缺,并为缺失率不大于第二预设阈值、且类型为离散型自变量的特征指标的缺失值设置单独的分箱。
S107:对训练集中类型为连续型自变量的特征指标进行聚类,得到互不相同的多个分类变量。
其中,每个分类变量均设置单独的分箱。
S108:计算各个分类变量的KS值和IV值。
其中,所谓的KS值和IV值、以及KS值和IV值各自的计算方法,均为本领域技术人员所熟悉的公知常识,这里不再赘述。
S109:对KS值小于第三预设阈值、且IV值小于第四预设阈值的分类变量进行删除。
S110:对目标指标进行WOE编码,得到目标指标的WOE值。
其中,目标指标包括训练集中所保留的分类变量、以及类型为离散型自变量的特征指标。此外,WOE值包括目标指标所属分箱中阳性样本占训练集所有样本的比例、以及阴性样本占训练集所有样本的比例。在本申请实施例中,WOE值用于表征训练集中样本的违约概率,违约概率大于第五预设阈值的样本,即标识该样本所指示的特征指标与新发生信贷信用行为存在关联关系。
需要说明的是,WOE编码的具体实现方式和实现原理,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S111:将训练集作为输入,以训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型。
其中,通过逻辑回归算法筛选自变量,逻辑回归算法是业界普遍采用的零售业务风险计量方法,实践证明此方法具有广泛的适用性和合理性。逻辑回归算法在处理两分类因变量的数据方面有其独特的优势,且关于数据分布的假定较弱,同时算法稳定性好,相对准确度高,便于解释和开发。
在本申请实施例中,逻辑回归算法的基本假设是阳性样本(好客户)和阴性样本(坏客户)比的对数是其属性的线性回归:
Figure BDA0003075515010000081
公式(1)中所示的参数均为本领域技术人员所熟悉的公知常识,这里不再赘述。
具体的,可以利用Backward法对预测模型进行向后回归。
S112:利用验证集对训练得到的预测模型进行验证。
具体的,利用验证集对训练得到预测模型进行验证,包括但不限于为:
1、分别计算训练集和验证集各自的KS值和AUC值,进行模型区分能力验证;
2、利用训练集和验证集的评分值对比,(比如训练集是2019年末评分,验证集选用2020年末评分,两期评分各分段比例是否稳定)计算PSI值,验证跨期稳定性;
3、利用训练集和验证集的打分结果,计算违约率/深度、召回率/深度变量,验证排序能力。
需要说明的是,上述具体实现过程仅仅用于举例说明。此外,KS值、AUC值、PSI值、违约率/深度、以及召回率/深度变量,均为本领域技术人员所熟悉的公知常识,这里不再赘述。
具体的,上述S101~S112所示的流程,可参见图1b所示。
S113:预先从待测客户的信贷行为信息中提取目标指标。
S114:将待测客户的目标指标输入至预测模型中,得到预测模型的输出结果。
其中,输出结果包括待测客户的违约概率(即新发生信贷信用风险)。
综上所述,基于本实施例所示方案,能够解决中型企业阳性样本较少的问题,使得可以为中型企业建立独立的预测模型,有利于中型企业违约特征识别和预测。此外,阳性样本的选择均为表现期内新发生,区别于传统的阳性样本定义,提高了模型对于新发生信贷违约客户的预测能力。可见,利用本实施例所述方案,无需人为考虑定量和定性指标,利用预先训练得到的预测模型进行新发生信贷信用风险评估,能够有效提高新发生信贷信用风险评估的准确性。
需要说明的是,上述实施例提及的S101,为本申请所述信用风险评估方法的一种可选的具体实现方式。此外,上述实施例提及的S102,也为本申请所述信用风险评估方法的一种可选的具体实现方式。为此,上述实施例提及的流程,可以概括为图2所示的方法。
如图2所示,为本申请实施例提供的另一种信用风险评估方法的示意图,包括如下步骤:
S201:预先从待测客户的信贷行为信息中提取目标指标。
其中,目标指标为满足预设条件的特征指标;预设条件为:特征指标与新发生信贷信用行为存在关联关系。
S202:将待测客户的目标指标输入至预测模型中,得到预测模型的输出结果。
其中,预测模型基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到。样本包括预先获取的阳性样本和阴性样本。输出结果包括待测客户的新发生信贷信用风险。
综上所述,基于本实施例所示方案,能够解决中型企业阳性样本较少的问题,使得可以为中型企业建立独立的预测模型,有利于中型企业违约特征识别和预测。此外,阳性样本的选择均为表现期内新发生,区别于传统的阳性样本定义,提高了模型对于新发生信贷违约客户的预测能力。可见,利用本实施例所述方案,无需人为考虑定量和定性指标,利用预先训练得到的预测模型进行新发生信贷信用风险评估,能够有效提高新发生信贷信用风险评估的准确性。
与上述本申请实施例提供的信用风险评估方法相对应,本申请实施例还提供了一种信用风险评估装置。
如图3所示,为本申请实施例提供的一种信用风险评估装置的架构示意图,包括:
提取单元100,用于预先从待测客户的信贷行为信息中提取目标指标;目标指标为满足预设条件的特征指标;预设条件为:特征指标与新发生信贷信用行为存在关联关系。
预测单元200,用于将待测客户的目标指标输入至预测模型中,得到预测模型的输出结果;其中,预测模型基于训练集作为输入,以违约概率作为训练目标,预先训练得到;训练集包括预先获取的阳性样本和阴性样本;输出结果包括待测客户的新发生信贷信用风险。
其中,预测单元200用于获取阳性样本和阴性样本的过程,包括:预先从样本客户的信贷行为信息中提取特征指标;其中,特征指标包括信贷资产分类、信贷逾期、以及欠息状态;在检测到预设观察期内,信贷资产分类的级别由较高级别变迁至较低级别的情况下,将样本客户的特征指标,标识为阳性样本;在检测到预设观察期内,信贷资产分类的级别未发生变迁的情况下,通过概率转移矩阵,计算所述样本客户在失信状态与守信状态之间的转移概率;其中,若所述样本客户具备失信行为,则确定所述样本客户处于所述失信状态,否则确定所述样本客户处于所述守信状态,失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态;在所述转移概率大于第一预设阈值的情况下,将所述样本客户的特征指标,标识为阳性样本;在检测到所述预设观察期内,所述信贷资产分类的级别维持在所述较高级别的情况下,将所述样本客户的特征指标,标识为所述阴性样本。
预测单元200用于基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到预测模型的过程,包括:集合获取得到的阳性样本和阴性样本,构建样本集;对样本集进行阴性样本抽样,并将抽样后的样本集拆分为训练集和验证集;将训练集作为输入,以训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型;利用验证集对训练得到的预测模型进行验证。
特征指标的类型包括连续型自变量和离散型自变量,预测单元200还用于:将训练集中缺失率大于第二预设阈值的特征指标进行剔除;对缺失率不大于第二预设阈值、且类型为连续型自变量的特征指标进行缺失值补缺;为缺失率不大于第二预设阈值、且类型为离散型自变量的特征指标的缺失值设置单独的分箱;对类型为连续型自变量的特征指标进行聚类,得到互不相同的多个分类变量;其中,每个分类变量均设置单独的分箱。
预测单元200还用于:计算各个分类变量的KS值和IV值;对KS值小于第三预设阈值、且IV值小于第四预设阈值的分类变量进行删除。
预测单元200还用于:将训练集中所保留的分类变量、以及类型为离散型自变量的特征指标,作为目标指标;对目标指标进行WOE编码,得到目标指标的WOE值;其中,WOE值用于表征训练集中样本的违约概率。
预测单元200用于利用验证集对训练得到的预测模型进行验证的过程,包括:分别计算训练集和验证集各自的KS值和AUC值,进行模型区分能力验证;利用训练集和验证集的评分值对比,计算PSI值,验证跨期稳定性;利用训练集和验证集的打分结果,计算违约率/深度、召回率/深度变量,验证排序能力。
综上所述,基于本实施例所示方案,能够解决中型企业阳性样本较少的问题,使得可以为中型企业建立独立的预测模型,有利于中型企业违约特征识别和预测。此外,阳性样本的选择均为表现期内新发生,区别于传统的阳性样本定义,提高了模型对于新发生信贷违约客户的预测能力。可见,利用本实施例所述方案,无需人为考虑定量和定性指标,利用预先训练得到的预测模型进行新发生信贷信用风险评估,能够有效提高新发生信贷信用风险评估的准确性。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的信用风险评估方法。
本申请还提供了一种信用风险评估设备,如图4所示,包括:处理器401、存储器402和总线403。处理器401与存储器402通过总线403连接,存储器402用于存储程序,处理器401用于运行程序,其中,程序运行时执行上述本申请提供的信用风险评估方法,包括如下步骤:
预先从待测客户的信贷行为信息中提取目标指标;所述目标指标为满足预设条件的特征指标;所述预设条件为:所述特征指标与新发生信贷信用行为存在关联关系;
将所述待测客户的目标指标输入至预测模型中,得到所述预测模型的输出结果;其中,所述预测模型基于训练集作为输入,以所述训练集中样本的违约概率作为训练目标,预先训练得到;所述样本包括预先获取的阳性样本和阴性样本;所述输出结果包括所述待测客户的新发生信贷信用风险。
可选的,所述阳性样本和阴性样本的获取过程,包括:
预先从样本客户的信贷行为信息中提取特征指标;其中,特征指标包括信贷资产分类、信贷逾期、以及欠息状态;
在检测到预设观察期内,信贷资产分类的级别由较高级别变迁至较低级别的情况下,将样本客户的特征指标,标识为阳性样本;
在检测到预设观察期内,信贷资产分类的级别未发生变迁的情况下,通过概率转移矩阵,计算所述样本客户在失信状态与守信状态之间的转移概率;其中,若所述样本客户具备失信行为,则确定所述样本客户处于所述失信状态,否则确定所述样本客户处于所述守信状态,失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态;
在所述转移概率大于第一预设阈值的情况下,将所述样本客户的特征指标,标识为阳性样本;
在检测到所述预设观察期内,所述信贷资产分类的级别维持在所述较高级别的情况下,将所述样本客户的特征指标,标识为所述阴性样本。
可选的,所述基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到所述预测模型的过程,包括:
集合获取得到的所述阳性样本和所述阴性样本,构建样本集;
对所述样本集进行阴性样本抽样,并将抽样后的所述样本集拆分为训练集和验证集;
将所述训练集作为输入,以训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型;
利用所述验证集对训练得到的所述预测模型进行验证。
可选的,所述特征指标的类型包括连续型自变量和离散型自变量;
所述将所述训练集作为输入,以训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型之前,还包括:
将所述训练集中缺失率大于第二预设阈值的特征指标进行剔除;
对缺失率不大于所述第二预设阈值、且所述类型为连续型自变量的特征指标进行缺失值补缺;
为缺失率不大于所述第二预设阈值、且所述类型为离散型自变量的特征指标的缺失值设置单独的分箱;
对所述类型为连续型自变量的特征指标进行聚类,得到互不相同的多个分类变量;其中,每个所述分类变量均设置单独的分箱。
可选的,还包括:
计算各个所述分类变量的KS值和IV值;
对所述KS值小于预设第三阈值、且所述IV值小于预设第四阈值的分类变量进行删除。
可选的,还包括:
将所述训练集中所保留的所述分类变量、以及所述类型为离散型自变量的特征指标,作为目标指标;
对目标指标进行WOE编码,得到所述目标指标的WOE值;其中,WOE值用于表征所述训练集中样本的违约概率。
可选的,所述利用所述验证集对训练得到的所述预测模型进行验证,包括:
分别计算所述训练集和所述验证集各自的KS值和AUC值,进行模型区分能力验证;
利用所述训练集和所述验证集的评分值对比,计算PSI值,验证跨期稳定性;
利用所述训练集和所述验证集的打分结果,计算违约率/深度、召回率/深度变量,验证排序能力。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信用风险评估方法,其特征在于,包括:
预先从待测客户的信贷行为信息中提取目标指标;所述目标指标为满足预设条件的特征指标;所述预设条件为:所述特征指标与新发生信贷信用行为存在关联关系;
将所述待测客户的目标指标输入至预测模型中,得到所述预测模型的输出结果;其中,所述预测模型基于训练集作为输入,以所述训练集中样本的违约概率作为训练目标,预先训练得到;所述样本包括预先获取的阳性样本和阴性样本;所述输出结果包括所述待测客户的新发生信贷信用风险。
2.根据权利要求1所述的方法,其特征在于,所述阳性样本和阴性样本的获取过程,包括:
预先从样本客户的信贷行为信息中提取特征指标;其中,所述特征指标包括信贷资产分类、信贷逾期、以及欠息状态;
在检测到预设观察期内,所述信贷资产分类的级别由较高级别变迁至较低级别的情况下,将所述样本客户的特征指标,标识为阳性样本;
在检测到所述预设观察期内,所述信贷资产分类的级别未发生变迁的情况下,通过概率转移矩阵,计算所述样本客户在失信状态与守信状态之间的转移概率;其中,若所述样本客户具备失信行为,则确定所述样本客户处于所述失信状态,否则确定所述样本客户处于所述守信状态,失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态;
在所述转移概率大于第一预设阈值的情况下,将所述样本客户的特征指标,标识为所述阳性样本;
在检测到所述预设观察期内,所述信贷资产分类的级别维持在所述较高级别的情况下,将所述样本客户的特征指标,标识为阴性样本。
3.根据权利要求2所述的方法,其特征在于,所述基于训练集作为输入,以训练集中样本的违约概率作为训练目标,预先训练得到所述预测模型的过程,包括:
集合获取得到的所述阳性样本和所述阴性样本,构建样本集;
对所述样本集进行阴性样本抽样,并将抽样后的所述样本集拆分为训练集和验证集;
将所述训练集作为输入,以所述训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型;
利用所述验证集对训练得到的所述预测模型进行验证。
4.根据权利要求3所述的方法,其特征在于,所述特征指标的类型包括连续型自变量和离散型自变量;
所述将所述训练集作为输入,以所述训练集中样本的违约概率作为训练目标,利用预设的逻辑回归算法训练预测模型之前,还包括:
将所述训练集中缺失率大于第二预设阈值的特征指标进行剔除;
对缺失率不大于所述第二预设阈值、且所述类型为连续型自变量的特征指标进行缺失值补缺;
为缺失率不大于所述第二预设阈值、且所述类型为离散型自变量的特征指标的缺失值设置单独的分箱;
对所述类型为连续型自变量的特征指标进行聚类,得到互不相同的多个分类变量;其中,每个所述分类变量均设置单独的分箱。
5.根据权利要求4所述的方法,其特征在于,还包括:
计算各个所述分类变量的KS值和IV值;
对所述KS值小于第三预设阈值、且所述IV值小于第四预设阈值的分类变量进行删除。
6.根据权利要求4所述的方法,其特征在于,还包括:
将所述训练集中所保留的所述分类变量、以及所述类型为离散型自变量的特征指标,作为目标指标;
对目标指标进行WOE编码,得到所述目标指标的WOE值;其中,WOE值用于表征所述训练集中样本的违约概率。
7.根据权利要求3所述的方法,其特征在于,所述利用所述验证集对训练得到的所述预测模型进行验证,包括:
分别计算所述训练集和所述验证集各自的KS值和AUC值,进行模型区分能力验证;
利用所述训练集和所述验证集的评分值对比,计算PSI值,验证跨期稳定性;
利用所述训练集和所述验证集的打分结果,计算违约率/深度、召回率/深度变量,验证排序能力。
8.一种信用风险评估装置,其特征在于,包括:
提取单元,用于预先从待测客户的信贷行为信息中提取目标指标;所述目标指标为满足预设条件的特征指标;所述预设条件为:所述特征指标与新发生信贷信用行为存在关联关系;
预测单元,用于将所述待测客户的目标指标输入至预测模型中,得到所述预测模型的输出结果;其中,所述预测模型基于训练集作为输入,以所述训练集中样本的违约概率作为训练目标,预先训练得到;所述样本包括预先获取的阳性样本和阴性样本;所述输出结果包括所述待测客户的新发生信贷信用风险。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-7任一所述的信用风险评估方法。
10.一种信用风险评估设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-7任一所述的信用风险评估方法。
CN202110551354.5A 2021-05-20 2021-05-20 一种信用风险评估方法、装置、存储介质和设备 Pending CN113177839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110551354.5A CN113177839A (zh) 2021-05-20 2021-05-20 一种信用风险评估方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110551354.5A CN113177839A (zh) 2021-05-20 2021-05-20 一种信用风险评估方法、装置、存储介质和设备

Publications (1)

Publication Number Publication Date
CN113177839A true CN113177839A (zh) 2021-07-27

Family

ID=76929809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110551354.5A Pending CN113177839A (zh) 2021-05-20 2021-05-20 一种信用风险评估方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN113177839A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449819A (zh) * 2021-08-27 2021-09-28 中国测绘科学研究院 一种基于胶囊网络的信用评估模型方法及其存储介质
CN113506174A (zh) * 2021-08-19 2021-10-15 北京中数智汇科技股份有限公司 中小企业风险预警模型训练方法、装置和设备
CN113822755A (zh) * 2021-09-27 2021-12-21 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN115797044A (zh) * 2022-11-15 2023-03-14 东方微银科技股份有限公司 基于聚类分析的信贷风控预警方法及系统
CN116452320A (zh) * 2023-04-12 2023-07-18 西南财经大学 一种基于持续学习的信用风险预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506174A (zh) * 2021-08-19 2021-10-15 北京中数智汇科技股份有限公司 中小企业风险预警模型训练方法、装置和设备
CN113449819A (zh) * 2021-08-27 2021-09-28 中国测绘科学研究院 一种基于胶囊网络的信用评估模型方法及其存储介质
CN113822755A (zh) * 2021-09-27 2021-12-21 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN113822755B (zh) * 2021-09-27 2023-09-05 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN115797044A (zh) * 2022-11-15 2023-03-14 东方微银科技股份有限公司 基于聚类分析的信贷风控预警方法及系统
CN115797044B (zh) * 2022-11-15 2024-03-29 东方微银科技股份有限公司 基于聚类分析的信贷风控预警方法及系统
CN116452320A (zh) * 2023-04-12 2023-07-18 西南财经大学 一种基于持续学习的信用风险预测方法
CN116452320B (zh) * 2023-04-12 2024-04-30 西南财经大学 一种基于持续学习的信用风险预测方法

Similar Documents

Publication Publication Date Title
CN110837931B (zh) 客户流失预测方法、装置及存储介质
CN113177839A (zh) 一种信用风险评估方法、装置、存储介质和设备
WO2017133492A1 (zh) 一种风险评估方法和系统
CN111507831A (zh) 信贷风险自动评估方法和装置
CN114066242A (zh) 一种企业风险的预警方法及装置
CN108053087A (zh) 反洗钱监测方法、设备及计算机可读存储介质
CN105354210A (zh) 移动游戏支付账户行为数据处理方法和装置
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和系统
CN112102073A (zh) 信贷风险控制方法及系统、电子设备及可读存储介质
CN112989621B (zh) 一种模型性能评价方法、装置、设备及存储介质
CN111461216A (zh) 一种基于机器学习的案件风险识别方法
CN112232950A (zh) 针对借贷风险的评估方法及装置、设备、计算机可读存储介质
CN112419030A (zh) 财务舞弊风险评估的方法、系统及设备
CN112434862B (zh) 上市企业财务困境预测方法及装置
CN116468273A (zh) 客户风险识别方法及装置
CN114626940A (zh) 数据分析方法、装置及电子设备
CN116167629A (zh) 一种分布式的策略自动化生成方法、系统及存储介质
CN110738570A (zh) 基于多通道异质数据的信息型操纵自动识别方法
CN113269412A (zh) 风险评估方法及相关装置
CN112950362A (zh) 对公贷款的风险预警方法、装置、计算机设备和存储介质
CN111951105A (zh) 基于多维大数据分析的智能信贷风控系统
CN112633709A (zh) 一种企业征信评估方法和装置
CN110766544A (zh) 信用风险的检测方法及装置、存储介质、电子装置
Sun et al. A new perspective of credit scoring for small and medium-sized enterprises based on invoice data
CN110570301A (zh) 风险识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination