CN110415111A

CN110415111A - 基于用户数据与专家特征合并逻辑回归信贷审批的方法

Info

Publication number: CN110415111A
Application number: CN201910707782.5A
Authority: CN
Inventors: 王晨曦; 林路; 王慜骊; 郏维强
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-05

Abstract

本发明公开了基于用户数据与专家特征合并逻辑回归信贷审批的方法，包括输入数据进行清洗、数据降维和预处理、对数据进行分类、对数据进行特征工程并提取特征、引入专家特征、对特征进行预测和输出审批名单。本发明中，该信贷审批的方法将传统金融模型中的专家特征和经典机器学习方法结合起来，并结合市场实时更新数据和特征工程来对可能的动态变化的未来违约可能性进行预测，采用了预测模型和优化的逻辑回归算法，满足复杂的信贷约束，获得的违约概率预测和风险溢价的结果更加准确，并且使得审核人员可以从繁重的信用风险评估审核和定价中解放出来，使得大规模的小微企业信贷审批得以快速实现，确保智能评级和规避风险成为可能。

Description

基于用户数据与专家特征合并逻辑回归信贷审批的方法

技术领域

本发明涉及信贷人工智能技术领域，尤其涉及基于用户数据与专家特征合并逻辑回归信贷审批的方法。

背景技术

随着普惠金融的更加深入，金融借贷市场日趋成熟，小微企业对贷款的需求量越来越大，同时对贷款审批效率、贷款发放时间和贷款发放管理等方面的要求不断提高，在现有条件下，如何节约审核时间、提高审核准确率、贷款池优化管理成为目前面临的巨大挑战，如何科学合理的对各类风险进行定价，是银行信贷部门实现高效率运营管理、降低运营成本、保证客户服务质量和水平的重要环节。

风险溢价主要是根据公司实际资金成本，客户的违约概率来确定，审核过程中的主要问题是如何保证发放的贷款利息及本金能按时足额到账，审批流程又足够短，且又不引起人力资源的浪费。一般企业中大都由管理人员或者专门的人员进行详细的审核，该工作方式存在天然缺陷：审核效率低、耗时长，对审计人员的工作能力及体力提出较高要求；一方面，每个审核人员有自己的关注点和偏好，会引起审核结果的差异，对上班员工的自我调节能力存在一定的考验；(客户信贷呈需求量极大，人数众多，而单笔金额较小特点，致使人工审核完成该工作难度及工作量均较大，则人工审核很难完成；另一方面，对于市场上实时发生的风险类数据，尤其是大量文本类的数据，人工审核没有起到良好的关注和结合，往往仅凭自己经验主义的判断和模式化的处理，容易发生误判的情况。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的基于用户数据与专家特征合并逻辑回归信贷审批的方法。

为了实现上述目的，本发明采用了如下技术方案：基于用户数据与专家特征合并逻辑回归信贷审批的方法，包括以下步骤：

S01：输入数据进行清洗，输入需要处理的数据，如数据某一变量有缺失，则对于少数非核心数据的予以删去，如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据；

S02：数据降维和预处理，可采用分箱处理的方式，其中，对于数据的样本不均衡性，由于信贷客户数据的类型很明显，可采用聚类过采样方式件处理；

S03：对数据进行分类，主要分为三部分，一部分为专家特征数据，一部分为实时特征数据，另外一部分为外部数据，这三部分在应用的时候又需要划分为训练集和验证集，前述三部分数据在应用时根据需要划分为训练集和验证集；

S04：对数据进行特征工程并提取特征，对于长段文本类的数据采用深度学习的办法对其内部包含的实体进行抽取，找出其中包含的风险信息，并在舆情系统中予以展现；

S05：引入专家特征，引入所需的专家特征，并划定专家特征所需数据的范围与前述特征工程中划定的数据范围交集最小；

S06：对特征进行预测，将专家特征和特征工程选取的特征分别标注,对这些特征分别做逻辑回归并做出预测；

S07：输出审批名单，将最终的审批名单输出，并随机按比例加入训练集和验证集，在新的数据导入之后，可以重新重复S02-S06的步骤。

作为上述技术方案的进一步描述：

所述步骤S03中，数据在划分的过程当中，由下述的三个模型来确定专家特征的范围：1、Z分数专家特征；2、实时特征数据；3、与市场高度相关的期货，期权相关数据；对于其他特征类数据和专家类数据重合的，可以尽量将其归类如专家数据中，确保专家特征的范围的准确性。

作为上述技术方案的进一步描述：

所述步骤S04中，可采用哑变量的方法进行训练找出相应的结果，其中，哑变量为虚拟变量，又称虚设变量或名义变量，用以反映质的属性的一个人工变量，是量化了的质变量，通常取值为0或1，引入哑变量虽可能使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实情况，提高了风险信息的寻找快捷准确性。

作为上述技术方案的进一步描述：

所述S03步骤还包括以下子步骤：

S03.1：数据划分中第一步先划分出训练集和验证集，此步骤中应首先将连续数据和离散数据分为两类进行区分；

S03.2：将连续数据中的与连续变化响应不敏感的数据做离散化或分箱处理；

S03.3：离散数据根据数据的类型，做哑变量的处理；

S03.4：将处理好的连续数据画出直方图，测算其分布；

S03.5：将离散型变量和哑变量做用样的的处理，画出频率图；

S03.6：采用连续多次抽样的方式对每一字段的信息进行按预设比例抽样，抽出的样本中最接近于所有总数据的作为测试集，剩下的作为训练集；

S03.7：对于少数几乎不能作为划分依据的数据变量，做单独标记，单独处理和测试，或做删去处理。

作为上述技术方案的进一步描述：

所述S04步骤还包括以下子步骤；

S04.1：特征选择,除取值变化量小的特征：变化量小是基于其于其方差或标准差是否小于预定值；

S04.2：特征相关性检验,比较相关系数之后，基于学习模型的相关性排序，如果之间有相互矛盾的地方，则以互信息以及相关的方差分析为准；

S04.3：线性模型和正则化或随机森林选择特征。

作为上述技术方案的进一步描述：

所述步骤S04.2中，可以比较三种相关系数，分别为皮尔逊相关系数、互信息和最大信息系数以及距离相关系数。

作为上述技术方案的进一步描述：

所述步骤S05中，包含以专家特征为基础三种提取的方法，分别为对于全中国的数据总体，或客户所在地特殊数据基于Z-score方法得到的特殊Z-score值、结构化债权模型的风险调整值和精简模型的风险调整值。

作为上述技术方案的进一步描述：

所述步骤S06中，采用最后的逻辑回归方法对以上所有参数做训练，得出分类预测模型，最终给出结果，对于结果的判别采用个性化或风险预设值的方法做出决策，并且对于文本中提取出的风险特征，采用规则模型对用户推送提示。

作为上述技术方案的进一步描述：

所述步骤S05中，专家特征分为两个模型，分别为Z得分模型和结构模型，均可以通过带入参数计算出违约概率的具体数值。

作为上述技术方案的进一步描述：

所述步骤S02中，数据降维主要采用主成因分析法，将已标记的信用分作为标签，通过传统主成因找到最简化的相关性矩阵，对于相互之间具有相关性的主元，将其用多因素方差分析的方法将他们之间自变量和因变量的关系区分出来，作为未来用作复合特征的依据。

有益效果

本发明提供了基于用户数据与专家特征合并逻辑回归信贷审批的方法。具备以下有益效果：

(1)：该信贷审批的方法能够快速、有效进行自动化对信贷模型的信贷生命周期内是否违约进行预测，并利用专家特征和截面市场数据特征，实现两者相结合做出风险评估的预测，从而计算信贷审批额度，进而进行快速审批处理。

(2)：该信贷审批的方法将传统金融模型中的专家特征和经典机器学习方法结合起来，并结合市场实时更新数据和特征工程来对可能的动态变化的未来违约可能性进行预测，提高了模型精度，采用了预测模型采用了优化的逻辑回归算法，满足复杂的信贷约束，获得的违约概率预测和风险溢价的结果更加准确。

(3)：该信贷审批的方法基于违约概率和风险溢价结果的转变，使得审核人员可以从繁重的信用风险评估审核和定价中解放出来，使得大规模的小微企业信贷审批得以快速实现，确保智能评级和规避风险成为可能，提高了信贷审批的高效性。

附图说明

图1为本发明提出的基于用户数据与专家特征合并逻辑回归信贷审批的方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，基于用户数据与专家特征合并逻辑回归信贷审批的方法，包括以下步骤：

S01：输入数据进行清洗，输入需要处理的数据，如数据某一变量有缺失，则对于少数非核心数据的予以删去，如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据，数据在未处理前可分为三类数据，一是银行内部的客户数据，二是自有公开历史信息数据，三是市场公开实时数据；

S03：对数据进行分类，主要分为三部分，一部分为专家特征数据，一部分为实时特征数据，另外一部分为外部数据，这三部分在应用的时候又需要划分为训练集和验证集，前述三部分数据在应用时根据需要划分为训练集和验证集)；

步骤S03中，数据在划分的过程当中，由下述的三个模型来确定专家特征的范围：1、Z分数专家特征，主要包括银行内对任意一个客户，或数据输入中包含的财务类数据；2、实时特征数据，主要包括市场的金融类数据，与违约概率高度相关的数据包括但不限于市场同类型公司贝塔值，通货膨胀率，市场无风险利率，银行间同业拆借利率等；3、与市场高度相关的期货，期权相关数据；对于其他特征类数据和专家类数据重合的，可以尽量将其归类如专家数据中，确保专家特征的范围的准确性。

步骤S04中，可采用哑变量的方法进行训练找出相应的结果，其中，哑变量为虚拟变量，又称虚设变量或名义变量，用以反映质的属性的一个人工变量，是量化了的质变量，通常取值为0或1，引入哑变量虽可能使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实，提高了风险信息的寻找快捷准确性。

S03步骤还包括以下子步骤：

S03.2：将连续数据中的对连续变化响应不敏感的数据做离散化或分箱处理；

S03.3：离散数据根据数据的类型，做哑变量的处理；

S03.4：将处理好的连续数据画出直方图，测算其分布；

S04步骤还包括以下子步骤；

S04.2：特征相关性检验,比较相关系数之后，基于学习模型的相关性排序，如果之间有相互矛盾的地方，则以互信息以及相关的方差分析为准，根据预估得分删去低于设定阈值的特征，之后采用卡方检验方式对特征进行测试，如果数据量过于庞大繁杂，或者为了检验其非线性的性质，则用决策树和随机森林的办法计算；

如果在数据中，尤其是外部数据和网络舆情类数据发现符合判定为长文本类型的数据时，其长度标准由用户自行设定，则使用预先训练好的深度学习模型对实体进行识别，然后做以下步骤:

S04.2.1：用舆情分类法对该信息进行正负舆情判断,并统计正负舆情信息的数量或比值；

S04.2.2：对信息进行深度分类，如满足部分重大风险信息分类，则采用规则模型直接予以剔除；

S04.2.3：对于规则模型予以剔除的数据信息、负面舆情数量和正负舆情比满足设定条件的数据，向客户推送提示。

S04.3：线性模型和正则化或随机森林选择特征。

步骤S04.2中，可以比较三种相关系数，分别为皮尔逊相关系数、互信息和最大信息系数以及距离相关系数。

步骤S05中，包含以专家特征为基础三种提取的方法，分别为对于全中国的数据总体，或客户所在地特殊数据基于Z-score方法得到的特殊Z-score值、结构化债权模型的风险调整值和精简模型的风险调整值。

步骤S06中，采用最后的逻辑回归方法对以上所有参数做训练，得出分类预测模型，最终给出结果，对于结果的判别采用个性化或风险预设值的方法做出决策，并且对于文本中提取出的风险特征，采用规则模型对用户推送提示，其中，倾向性选择、预设值和输出结果的关系如下如下：如倾向于专家特征的则以专家特征为准，如果倾向于特征工程作出的特征，则按特征工程的结果，严把关则将矛盾结果判定为可能违约，松把关则判定为通过发放贷款。

步骤S05中，专家特征分为两个模型，分别时Z得分模型和结构模型，可以计算出违约概率的具体数值参数；

Z得分模型中，如果采用默认设置，则直接将名词解释中的模型参数应用，带入客户数据中的相应值计算出Z得分，如果预设认为样本很偏，则可录入一组训练数据，并设定一组评判阈值来对Z模型的参数变化进行判断，如用逻辑回归模型训练出的结果最终超过阈值，则对用户进行警告，如结果在阈值范围之内，则接受新的参数并计算Z得分；

结构模型的具体步骤是将名词解释中的结构模型公式中的参数，按照下列方法计算出来：

At：剩余收入估计法、未来自由现金流折现估计法，计算历史和现在企业价值数据；

r:连续无风险收益率设定为t时刻十年期国债收益率；

σ：设定为历史At增长率的标准差；

K：为上证50期权行权价格按A0时刻为基准归一化以后的值；

于是公式中的ln(At/K)可以由按A0时刻归一化的At值除以K得到；

当第二个模型可作为简约模型，其中K值设定为贷款总金额，具体的风险调整的步骤如下：

应用说明中的公式之后简约模型的输出为违约概率：

假定违约的概率发生服从泊松分布，则在t时间内不发生违约的概率为exp(-λt),则发生违约的概率是1-exp(-λt)，则期望无风险时间则为E(td)＝1/λ，而将此时间作为风险调整的概率分布对说明的式(3)做积分则可以得到风险调整后的t时刻的违约概率，此违约概率即可作为相应的简约模型给出的参数；

如果采用评分形式输出将三个模型做出的风险预测结果汇总加和，如果0表示不违约，1表示违约，则0表示低风险，1表示需关注，2表示高风险，3表示不可贷款；

如有训练数据，可将训练数据计算出的三个模型的结果归一化以后进行逻辑回归预测，得出的结果用1或0表示是否违约。

步骤S02中，数据降维主要采用主成因分析法，将已标记的信用分作为相应，通过传统主成因找到最简化的相关性矩阵，对于相互之间具有相关性的主元，将其用多因素方差分析的方法将他们之间自变量和因变量的关系区分出来，作为未来用作复合特征的依据，如发现数据中存在样本不均衡的问题的时候，聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。

结构模型解释：模型根据假设某一家公司的资产负债表构建，利用期权定价的思想，从期权的视角来审视公司债务的经济含义。

结构模型的假设条件如下：

公司的资产A可在一个无摩擦且不存在套利的市场中交易；

公司资产的价值服从对数正态分布；

无风险利率不随时间改变；

公司的资产负债表结构较为简单，负债端只有一种零息债券；

满足以上四个假设条件的情况下，我们可以利用期权定价的BSM模型对信贷进行估值，信贷在Dt时刻的价值为:

Dt＝AtN(-d1)+Kexp(-r(T-t))N(d2)

其中:

At：在t时刻客户或贷款企业的资产价值；

r：表示连续无风险利率；

σ:表示收益率的标准差；

K：为假设的行权价格；

T:为全贷款周期；

N:为正态分布函数。

简约式模型解释：信贷假设信贷等效的零息债可在无摩擦且无套利机会的市场上进行交易；

无风险利率是随机的；

经济状态可以由一组宏观因子构成的随机向量表示；

经济与回收率是随机的，信贷的违约概率不是常数并会随着经济状态的变化而变化；

单个信贷违约概率还取决于某公司自身相关的情况；

由此给出模型公式：

其中，K表示信贷还款的面值；

E：利用风险中性概率，对K进行调整后的期望值；

ri表示第i年的无风险利率。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，包括以下步骤：

S03：对数据进行分类，主要分为三部分，一部分为专家特征数据，一部分为实时特征数据，另外一部分为外部数据，前述三部分数据在应用时根据需要划分为训练集和验证集；

S04：对数据进行特征工程并提取特征，对于长段文本类的数据采用深度学习的办法对其内部包含的实体进行抽取提取，找出其中包含的风险信息，并在舆情系统中予以展现；

2.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S03中，数据在划分的过程当中，由下述的三个模型来确定专家特征的范围：1、Z分数专家特征；2、实时特征数据；3、与市场高度相关的期货，期权相关数据；对于其他特征类数据和专家类数据重合的，可以尽量将其归类入专家数据中，确保专家特征的范围的准确性。

3.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S04中，可采用哑变量的方法进行训练找出相应的结果，其中，哑变量为虚拟变量，又称虚设变量或名义变量，用以反映质的属性的一个人工变量，是量化了的质变量，通常取值为0或1，引入哑变量虽可能使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实情况，提高了风险信息的寻找快捷准确性。

4.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述S03步骤还包括以下子步骤：

S03.3：离散数据根据数据的类型，做哑变量的处理；

S03.4：将处理好的连续数据画出直方图，测算其分布；

5.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述S04步骤还包括以下子步骤；

S04.3：线性模型和正则化或随机森林选择特征。

6.根据权利要求5所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S04.2中，可以比较三种相关系数，分别为皮尔逊相关系数、互信息和最大信息系数以及距离相关系数。

7.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S05中，包含以专家特征为基础三种提取的方法，分别为对于全中国的数据总体，或客户所在地特殊数据基于Z-score方法得到的特殊Z-score值、结构化债权模型的风险调整值和精简模型的风险调整值。

8.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S06中，采用最后的逻辑回归方法对以上所有参数做训练，得出分类预测模型，最终给出结果，对于结果的判别采用个性化或风险预设值的方法做出决策，并且对于文本中提取出的风险特征，采用规则模型对用户推送提示。

9.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S05中，专家特征分为两个模型，分别时Z得分模型和结构模型，可以计算出违约概率的具体数值参数。

10.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法，其特征在于，所述步骤S02中，数据降维主要采用主成因分析法，将已标记的信用分作为标签，通过传统主成因找到最简化的相关性矩阵，对于相互之间具有相关性的主元，将其用多因素方差分析的方法将他们之间自变量和因变量的关系区分出来，作为未来用作复合特征的依据。