CN110020939B

CN110020939B - 建立违约损失率预测模型的装置、方法及存储介质

Info

Publication number: CN110020939B
Application number: CN201910157169.0A
Authority: CN
Inventors: 李国才; 刘卉; 仝瑞全; 张丽莎; 罗宇婷
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2023-08-18
Anticipated expiration: 2039-03-01
Also published as: CN110020939A

Abstract

本发明涉及一种大数据分析技术，揭露了一种建立违约损失率预测模型的装置、方法及存储介质，该方法包括：收集历史的违约数据，计算实际违约损失率；对该违约数据进行预处理，并进行分组处理，以分组处理后的每一组违约数据作为自变量；计算每一组自变量的证据权重，计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到信息价值；获取预定的具有业务解析性且信息价值大于等于预设阈值的违约数据，作为优质违约数据；调用预定的模型算法对该优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第一模型。本发明依据数理统计模型算法，能够建立违约损失率与违约数据之间的客观关联关系，提高预测的准确性。

Description

建立违约损失率预测模型的装置、方法及存储介质

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种建立违约损失率预测模型的装置、方法及存储介质。

背景技术

违约损失率LGD是指债务人一旦违约将给债权人造成的损失程度，即损失的严重程度。从贷款回收的角度看，违约损失率决定了贷款回收的程度，违约损失率＝1-回收率，回收率＝回收金额/放款金额。此处的回收金额为该用户违约，宣告无法偿债后，因拍卖担保品，强制执行借款人存款或其他催收方式所得回的金额。目前市面上违约损失率模型主要是通过专家打分卡的方式构建，即将影响违约损失率的因素进行罗列，然后对每个因素进行评分，该评分的大小体现该因素的重要程度，然后根据评分结果构建违约损失率的模型，这种人工操作的方法是依靠主观判断和专家经验，数理统计模型少，预测的准确性低。

发明内容

本发明的目的在于提供一种建立违约损失率预测模型的装置、方法及存储介质，旨在依据数理统计模型算法，建立违约损失率与违约数据之间的客观关联关系，提高预测的准确性。

为实现上述目的，本发明提供一种建立违约损失率预测模型的装置，所述建立违约损失率预测模型的装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

收集历史的违约数据，从该违约数据中获取每一违约客户对应的违约时点金额、回收金额、回收费用及清收人员费用，基于该违约时点金额、回收金额、回收费用及清收人员费用计算每一违约客户对应的实际违约损失率；

对该违约数据进行预处理，并对预处理后的每一违约数据进行分组处理，以分组处理后的每一组违约数据作为自变量；

计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值；

获取预定的具有业务解析性且信息价值大于等于预设阈值的违约数据，作为优质违约数据；

调用预定的模型算法对该优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第一模型。

优选地，所述计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值的步骤，具体包括：

将所有违约数据组成数组，该数组中的每一违约数据包括对应的各组自变量；

所述每一组自变量的证据权重woe(ij)＝In(m/n)，其中，所述i为该违约数据的序号，所述j为每组自变量的组号，所述m为该组自变量中未违约的客户数量占总的未违约的客户的比例，所述n为该组自变量中违约的客户数量占总的违约的客户的比例；

所述每一组自变量的信息价值IV(ij)＝(m-n)×woe(ij)；

所述每一违约数据的信息价值所述n为第i个违约数据的自变量的组数。

优选地，所述处理系统被所述处理器执行时，还实现如下步骤：

在该优质违约数据中，按照预设的剔除规则，每次至少剔除一个优质违约数据，得到待拟合训练的优质违约数据；

调用该预定的模型算法对该待拟合训练的优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第二模型；

分别获取该第一模型及第二模型预测违约损失率的准确率，基于该准确率评估所剔除的优质违约数据对模型的贡献性的强弱，以得到优质违约数据组合最优的模型。

优选地，所述预设的剔除规则包括：分析该优质违约数据中是否有相同维度的违约数据，若有相同维度的违约数据，则获取其中一个违约数据并将该相同维度的违约数据中的其他违约数据进行剔除，将所获取的违约数据作为所述待拟合训练的违约数据。

为实现上述目的，本发明还提供一种建立违约损失率预测模型的方法，所述建立违约损失率预测模型的方法包括：

S1，收集历史的违约数据，从该违约数据中获取每一违约客户对应的违约时点金额、回收金额、回收费用及清收人员费用，基于该违约时点金额、回收金额、回收费用及清收人员费用计算每一违约客户对应的实际违约损失率；

S2，对该违约数据进行预处理，并对预处理后的每一违约数据进行分组处理，以分组处理后的每一组违约数据作为自变量；

S3，计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值；

S4，获取预定的具有业务解析性且信息价值大于等于预设阈值的违约数据，作为优质违约数据；

S5，调用预定的模型算法对该优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第一模型。

所述每一组自变量的信息价值IV(ij)＝(m-n)×woe(ij)；

优选地，所述步骤S5之后，还包括：

优选地，所述基于该违约时点金额、回收金额、回收费用及清收人员费用计算每一违约客户对应的实际违约损失率的步骤，具体包括：

实际违约损失率＝(违约时点金额-回收金额+回收费用+清收人员费用)/违约时点金额。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现上述的建立违约损失率预测模型的方法的步骤。

本发明的有益效果是：本发明通过收集大量的违约数据，计算违约数据的信息价值，选取具有业务解析性且预测能力强的违约数据作为优质违约数据，依据预定的数理统计模型算法，将实际违约损失率与优质违约数据进行拟合训练，建立实际违约损失率与优质违约数据之间的关联关系，得到预测违约损失率的模型，本发明通过对大数据进行分析处理，并依据数理统计模型算法，能够建立违约损失率与违约数据之间的客观关联关系，提高违约损失率预测的准确性。

附图说明

图1为本发明建立违约损失率预测模型的装置一实施例的硬件架构的示意图；

图2为本发明建立违约损失率预测模型的方法第一实施例的流程示意图；

图3为本发明建立违约损失率预测模型的方法第二实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明建立违约损失率预测模型的装置1一实施例的硬件架构的示意图。该建立违约损失率预测模型的装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述建立违约损失率预测模型的装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，建立违约损失率预测模型的装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的处理系统。需要指出的是，图1仅示出了具有组件11-13的建立违约损失率预测模型的装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为建立违约损失率预测模型的装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是建立违约损失率预测模型的装置1的内部存储单元，例如该建立违约损失率预测模型的装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是建立违约损失率预测模型的装置1的外部存储设备，例如建立违约损失率预测模型的装置1上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于建立违约损失率预测模型的装置1的操作系统和各类应用软件，例如存储本发明一实施例中的处理系统的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述建立违约损失率预测模型的装置1的总体操作，例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行处理系统等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述建立违约损失率预测模型的装置1与其他电子设备之间建立通信连接。

所述处理系统存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器器12执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

在一实施例中，上述处理系统被所述处理器12执行时实现如下步骤：

进一步地，所述计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值的步骤，具体包括：

所述每一组自变量的信息价值IV(ij)＝(m-n)×woe(ij)；

进一步地，所述处理系统被所述处理器执行时，还实现如下步骤：

进一步地，所述预设的剔除规则包括：分析该优质违约数据中是否有相同维度的违约数据，若有相同维度的违约数据，则获取其中一个违约数据并将该相同维度的违约数据中的其他违约数据进行剔除，将所获取的违约数据作为所述待拟合训练的违约数据。

进一步地，所述基于该违约时点金额、回收金额、回收费用及清收人员费用计算每一违约客户对应的实际违约损失率的步骤，具体包括：

本发明通过对大数据进行分析处理，并依据数理统计模型算法，能够建立违约损失率与违约数据之间的客观关联关系，提高违约损失率预测的准确性。

如图2所示，图2为本发明建立违约损失率预测模型的方法一实施例的流程示意图，该建立违约损失率预测模型的方法包括以下步骤：

步骤S1，收集历史的违约数据，从该违约数据中获取每一违约客户对应的违约时点金额、回收金额、回收费用及清收人员费用，基于该违约时点金额、回收金额、回收费用及清收人员费用计算每一违约客户对应的实际违约损失率；

其中，该历史的违约数据为针对企业的历史的违约数据，违约数据共计有120个左右，按照类型可以分为债务人信息、债项信息、保证人信息、抵质押品信息等等。债务人信息包括：企业所在的行业、所在地区、债务人资产负债率等；债项信息包括：贷款类别、暴露金额、贷款期限、贷款利率、是否抵押、是否担保等；保证人信息包括：担保方式、担保金额、担保比例、担保人所在地区、担保人与被担保人之间的关系等；抵质押品信息包括抵质押品评估价值、抵质押品的类型、抵质押品变现的难易程度等。

基于上述的历史的违约数据，针对每一违约客户，可以提前其中的违约时点金额、回收金额、回收费用及清收人员费用，并计算对应的实际违约损失率。其中，实际违约损失率＝(违约时点金额-回收金额+回收费用+清收人员费用)/违约时点金额。

步骤S2，对该违约数据进行预处理，并对预处理后的每一违约数据进行分组处理，以分组处理后的每一组违约数据作为自变量；

其中，对该违约数据进行预处理包括违约数据验证及补录填补。对违约数据进行验证，即对违约数据进行审查和校验的过程，包括对债务人、保证人身份验证、初步分析是否有异常的、不合理的数据、删除重复信息、纠正存在的错误，提供一致性的数据。对于缺失数据进行分行补录填补，包括：对于缺失数据，返回给银行系统进行真实数据的补录。

对违约数据进行分组处理，即进行分箱处理，对每个违约数据分为n组，例如，对于贷款利率分为5组，包括第一组(贷款利率为4.5％以下)、第二组(贷款利率为4.5％-5％)、第三组(贷款利率为5％-5.5％)、第四组(贷款利率为5.5％-6％)、第五组(贷款利率为6％以上)。一般每个违约数据分为5-6组。

步骤S3，计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值；

步骤S4，获取预定的具有业务解析性且信息价值大于等于预设阈值的违约数据，作为优质违约数据；

其中，所述计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值的步骤，具体包括：

将所有违约数据组成数组，例如该数组为{企业所在的行业，所在地区，债务人资产负债率，贷款类别，暴露金额，贷款期限，贷款利率…}，该数组中的每一违约数据包括对应的各组自变量，例如贷款利率[4.5％以下，4.5％-5％，5％-5.5％，5.5％-6％，6％以上]。

所述每一组自变量的证据权重woe(ij)＝In(m/n)，其中，所述i为该违约数据的序号，所述j为每组自变量的组号，所述m为该组自变量中未违约的客户数量占总的未违约的客户的比例，所述n为该组自变量中违约的客户数量占总的违约的客户的比例，通过证据权重的计算，可消除量纲的影响。

例如，对于贷款利率这一违约数据，共有未违约客户10000个，违约客户1000个。对于第一组自变量(4.5％以下)，未违约客户100个，违约客户200个，那么在贷款利率的第一组自变量中：m＝100/10000＝1％，n＝200/1000＝20％，woe(i1)＝In(1％/20％)＝In(5％)。

计算每一组自变量的信息价值IV(ij)＝(m-n)×woe(ij)，其中，信息价值用来衡量自变量的预测能力，信息价值的取值范围为[0,+∞)；

计算每一违约数据的信息价值所述n为第i个违约数据的自变量的组数。IV(i)越大预测能力越强。

其中，可以预先定义哪些违约数据为具备业务解析性的违约数据，例如对于“债务人信息”，债务人的联系方式为不具备业务解析性的违约数据，而对于“企业所在的行业”为具备业务解析性的违约数据。按照IV(i)由大到小排序，选择具有业务解析性(或者业务解析性强)且预测能力强的违约数据，作为优质违约数据。

步骤S5，调用预定的模型算法对该优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第一模型。

在一实施例中，预定的模型算法可以是回归算法(例如，逻辑回归算法)、机器学习算法(例如随机森林算法、梯度提升决策树算法)、深度学习算法(例如，神经网络算法)。

其中，对于逻辑回归算法，为了匹配该算法，需要对实际违约损失率转化为二元变量，使之带有权重，再进行回归。实际违约损失率转化方法包括：把每个实际违约损失率变为1*实际违约损失率+0*(1-实际违约损失率)，即把一个实际违约损失率样本拆分为两个样本：样本1，权重为实际违约损失率；样本0，权重为(1-实际违约损失率)。

与现有技术相比，本发明通过收集大量的违约数据，计算违约数据的信息价值，选取具有业务解析性且预测能力强的违约数据作为优质违约数据，依据预定的数理统计模型算法，将实际违约损失率与优质违约数据进行拟合训练，建立实际违约损失率与优质违约数据之间的关联关系，得到预测违约损失率的模型，本发明通过对大数据进行分析处理，并依据数理统计模型算法，能够建立违约损失率与违约数据之间的客观关联关系，提高违约损失率预测的准确性。

在一可选的实施例中，在上述实施例的基础上，如图3所示，所述步骤S5之后，还包括：

步骤S6，在该优质违约数据中，按照预设的剔除规则，每次至少剔除一个优质违约数据，得到待拟合训练的优质违约数据；

步骤S7，调用该预定的模型算法对该待拟合训练的优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第二模型；

步骤S8，分别获取该第一模型及第二模型预测违约损失率的准确率，基于该准确率评估所剔除的优质违约数据对模型的贡献性的强弱，以得到优质违约数据组合最优的模型。

其中，预设的剔除规则包括：分析该优质违约数据中是否有相同维度的违约数据，若有相同维度的违约数据，则获取其中一个违约数据并将该相同维度的违约数据中的其他违约数据进行剔除，将所获取的违约数据作为所述待拟合训练的违约数据。待拟合训练的违约数据的维度优选为10个左右。这种剔除规则的目的在于：让更多维度的违约数据参与，使得训练的模型基于更多的自变量维度，模型预测的准确性更高。

例如，相同维度的违约数据为贷款笔数、贷款金额等；不同维度的自变量为贷款类别、贷款期限、贷款利率等，那么可以将贷款笔数或者贷款金额其中之一，仅留一个即可

其中，如果剔除某个或者某几个违约数据后，对应的第二模型预测违约损失率的准确率变小或者准确率明显下降，则认为所剔除的某个或者某几个违约数据为模型较重要的数据，即贡献性较大的违约数据；如果剔除某个或者某几个违约数据后，对应的第二模型预测违约损失率的准确率变化不大，则认为所剔除的某个或者某几个违约数据为对于该模型不重要的数据，即贡献性较小的违约数据，可以将其排除，不作为模型的主要违约数据。

在另一可选的实施例中，还可以通过计算各模型的受试者工作特征曲线下对应的面积来得到优质违约数据组合最优的模型，对于上述的第一模型及多个第二模型，获取各模型的受试者工作特征曲线，并计算各模型的受试者工作特征曲线下对应的面积AUC，具体包括：获取模型对应的真阴率TN、假阳率FP、假阴率FN及真阳率TP；根据所述真阴率TN、假阳率FP计算假阳率：FPR＝FP/(TN+FP)；根据所述假阴率FN、真阳率TP计算真阳率：TPR＝TP/(TP+FN)；以假阳率FPR为横坐标，以真阳率TPR为纵坐标绘制该模型的受试者工作特征曲线，并计算该模型的受试者工作特征曲线下的面积AUC，以该面积AUC最大的模型作为最优的模型。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种建立违约损失率预测模型的装置，其特征在于，所述建立违约损失率预测模型的装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

调用预定的模型算法对该优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第一模型；

其中，所述计算每一组自变量的证据权重，基于该证据权重计算每一组自变量的信息价值，将每一违约数据各组自变量的信息价值进行累加得到每一违约数据的信息价值的步骤，具体包括：将所有违约数据组成数组，该数组中的每一违约数据包括对应的各组自变量；所述每一组自变量的证据权重woe(ij)＝In(m/n)，其中，所述i为该违约数据的序号，所述j为每组自变量的组号，所述m为该组自变量中未违约的客户数量占总的未违约的客户的比例，所述n为该组自变量中违约的客户数量占总的违约的客户的比例；所述每一组自变量的信息价值IV(ij)＝(m-n)×woe(ij)；所述每一违约数据的信息价值所述n为第i个违约数据的自变量的组数；

所述基于该违约时点金额、回收金额、回收费用及清收人员费用计算每一违约客户对应的实际违约损失率的步骤，具体包括：

2.根据权利要求1所述的建立违约损失率预测模型的装置，其特征在于，所述处理系统被所述处理器执行时，还实现如下步骤：

3.根据权利要求2所述的建立违约损失率预测模型的装置，其特征在于，所述预设的剔除规则包括：分析该优质违约数据中是否有相同维度的违约数据，若有相同维度的违约数据，则获取其中一个违约数据并将该相同维度的违约数据中的其他违约数据进行剔除，将所获取的违约数据作为所述待拟合训练的违约数据。

4.一种建立违约损失率预测模型的方法，其特征在于，所述建立违约损失率预测模型的方法包括：

S5，调用预定的模型算法对该优质违约数据及实际违约损失率进行拟合训练，以建立预测违约损失率的第一模型；

其中，所述步骤S3，具体包括：将所有违约数据组成数组，该数组中的每一违约数据包括对应的各组自变量；所述每一组自变量的证据权重woe(ij)＝In(m/n)，其中，所述i为该违约数据的序号，所述j为每组自变量的组号，所述m为该组自变量中未违约的客户数量占总的未违约的客户的比例，所述n为该组自变量中违约的客户数量占总的违约的客户的比例；所述每一组自变量的信息价值IV(ij)＝(m-n)×woe(ij)；所述每一违约数据的信息价值所述n为第i个违约数据的自变量的组数；

5.根据权利要求4所述的建立违约损失率预测模型的方法，其特征在于，所述步骤S5之后，还包括：

6.根据权利要求5所述的建立违约损失率预测模型的方法，其特征在于，所述预设的剔除规则包括：分析该优质违约数据中是否有相同维度的违约数据，若有相同维度的违约数据，则获取其中一个违约数据并将该相同维度的违约数据中的其他违约数据进行剔除，将所获取的违约数据作为所述待拟合训练的违约数据。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有处理程序，所述处理程序被处理器执行时实现如权利要求4至6中任一项所述的建立违约损失率预测模型的方法的步骤。