CN111768285A

CN111768285A - 信贷风控模型构建系统、方法、风控系统及存储介质

Info

Publication number: CN111768285A
Application number: CN201910321622.7A
Authority: CN
Inventors: 郑小林; 程哲豪; 李健萌
Original assignee: Hangzhou Jztdata Technology Co ltd
Current assignee: Hangzhou Jztdata Technology Co ltd
Priority date: 2019-04-01
Filing date: 2019-04-22
Publication date: 2020-10-13

Abstract

本申请的信贷风控模型构建系统、方法、风控系统及存储介质，系统包括：模型输入构建模块，用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；模型构建模块，利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；模型部署模块，用于在互联网络部署所述最终风控模型以形成风控系统，以供与信贷业务对象交互；本申请方案实现构建多数据源及多模型的风控系统，相比现有技术方案更适合于复杂信贷风控场景。

Description

信贷风控模型构建系统、方法、风控系统及存储介质

技术领域

本申请涉及金融科技技术领域，尤其涉及信贷风控模型构建系统、方法、风控系统及存储介质。

背景技术

风控，顾名思义风险控制。这里包含了两个概念，风险管理和风险控制。风险管理是指如何在项目或者企业在一定的风险的环境里，把风险减至最低的管理过程。它的基本程序包括风险识别、风险估测、风险评价、风险控制和风险管理效果评价等环节。风险控制：是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。所以其实风险控制是风险管理中的一个环节。风控是风险控制的简称。

在互金行业，风控的内涵非常宽广，包含了对所有可能风险事件的控制，涉及人员操作风险、业务操作风险、技术操作风险和外部事件带来的风险。本文所阐述的风控并不是把所有风险相关的知识都囊括其中，比如指定公司内部各种规范以防范风险事件发生。本文侧重业务上和技术上风险控制讨论。

传统的风控建模方法是评分卡模型，该模型在国外是一种成熟的预测方法，尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用，其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。但该模型由于是线性模型，不能提取特征之间的交叉项，模型表达能力受限；已经无法适应当今复杂的风控场景。其次特征设计过于依赖人工介入。

现有的其它基于大数据分析的风控技术，虽然相比于传统风控技术在智能性上有显著提升；但是，这些技术或多或少均采用了传统的风控规则，或数据源单一、或模型单一、或无法支持扩展数据导致风控效果受限。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提出信贷风控模型构建系统、方法、风控系统及存储介质，能适用于多源数据，且融合多种模型，解决现有技术中的种种问题。

为实现上述目标及其他相关目标，本申请提供一种信贷风控模型构建系统，包括：模型输入构建模块，用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；模型构建模块，用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；模型部署模块，用于在互联网络部署所述最终风控模型以形成风控系统，以供与信贷业务对象交互。

于本申请的一实施例中，所述模型输入模块通过分布式存储系统存储所述数据集。

于本申请的一实施例中，所述数据处理包括：数据去重、数据清洗和数据导入。

于本申请的一实施例中，所述数据去重包括：基于记录时间对相同数据源的重复的信贷数据进行去重处理；和/或，所述数据清洗包括：对所述信贷数据进行转换以得到格式统一的向量化数据；和/或，所述数据导入包括：对经所述数据去重及数据清洗的各数据源的数据进行合并以形成所述数据集。

于本申请的一实施例中，所述多种机器学习模型，包括：Light GBM、随机森林、XGBoost、Wide&Deep、FM模型、支持向量机SVM、朴素贝叶斯NB、神经网络NN、最近邻KNN、及决策树中的多种。

于本申请的一实施例中，所述模型融合方法包括：Stacking或Blending模型集成方法。

于本申请的一实施例中，所述数据集中的数据携带有多种属性；所述利用所述数据集中的部分或全部构成训练集及测试集，以训练及测试所各所述机器学习模型以得到最终风控模型，包括：通过对训练集及测试集产生不同的属性扰动，以形成用于所述训练及测试的多个扰动训练集和扰动测试集。

于本申请的一实施例中，所述属性扰动包括：剔除训练集及测试集中不同比例的属性相关数据。

于本申请的一实施例中，所剔除的数据的属性是经预设模型度量的重要性较高的一或多种属性。

于本申请的一实施例中，所述最终风控模型包括：对应信贷业务对象的信用履约能力预测模型、及信贷违约预测模型。

于本申请的一实施例中，所述信用履约能力预测模型的获取方法包括：对于所述机器学习模型经训练得到的模型库中的各备选模型，通过所述测试集进行测试，以得到各备选模型的预测结果作为预测信用得分；选择各预测信用得分中与真实信用得分差异最小的备选模型作为所述信用履约能力预测模型；以及/或者，所述信贷违约预测模型的获取方法包括：对于所述机器学习模型经训练得到的模型库中的各备选模型，通过所述测试集进行测试，以得到各备选模型的预测结果作为对测试集中各测试样本的预测分类；其中，所述预测分类用于表示信贷业务对象是否违约；计算各备选模型在所述测试集上的各AUC和/或KS值，并选取具有最大AUC和/或KS值的备选模型作为所述信贷违约预测模型。

于本申请的一实施例中，所述风控系统包括：前端接口部分及后端接口部分；其中，所述前端接口部分用于获取通过网络发来的关于信贷业务对象的信用评估请求，并根据信用评估请求发起者的签名验证结果判断是否与风控模型交互而提供对应该信贷业务对象的风控评估结果；以及/或者，所述后端接口部分用于通过预设路由参数所定义的业务逻辑，实现根据前端接口部分传递的输入数据进入最终风控模型而得到输出结果的接口。

为实现上述目标及其他相关目标，本申请提供一种风控系统，基于所述的信贷风控模型构建系统所部署的最终风控模型所构建。

为实现上述目标及其他相关目标，本申请提供一种信贷风控模型构建方法，包括：对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；在互联网络部署所述最终风控模型，以供与信贷业务对象交互。

为实现上述目标及其他相关目标，本申请提供一种计算机可读存储介质，存储有计算机指令，所述计算机指令被一或多个处理器运行时执行所述的信贷风控模型构建方法。

如上所述，本申请的信贷风控模型构建系统、方法、风控系统及存储介质，系统包括：模型输入构建模块，用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；模型构建模块，用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；模型部署模块，用于在互联网络部署所述最终风控模型以形成风控系统，以供与信贷业务对象交互。

本申请的技术方案整合了不同来源数据进行训练，数据来源丰富，相比单一数据源训练出模型的模型更具泛化能力和稳定性；提供了多种不同了建模方法，并利用融合生成混合模型，相比单一模型拥有更加强的表现能力和鲁棒性。

附图说明

图1显示为本申请实施例中信贷风控模型构建系统的功能模块示意图。

图2显示为本申请实施例中所述模型输入构建模块的算法流程示意图。

图3显示为本申请一实际实施例中所述模型构建模块的算法流程示意图。

图4显示为本申请一实际实施例中风控系统应用的互联网络的结构示意图。

图5显示为本申请实施例中前端接口部分的软件架构示意图。

图6显示为本申请实施例中后端接口部分的软件架构示意图。

图7显示为本申请实施例中信贷风控模型构建方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

为了明确说明本申请，省略与说明无关的部件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某部件与另一部件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

当说某部件在另一部件“之上”时，这可以是直接在另一部件之上，但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时，其之间不伴随其它部件。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等描述。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指，不仅是在附图中所指的意义，还包括使用中的装置的其它意义或作业。例如，如果翻转附图中的装置，曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此，所谓“下”的示例性术语，全部包括上与下方。装置可以旋转90°或其它角度，代表相对空间的术语也据此来解释。

虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。

信贷是指以偿还和付息为条件的价值运动形式。常见的，例如银行贷款等。

目前，小微企业作为我国科技创新的中坚力量，迫切需要金融机构贷款资金的大力扶持；然而，金融机构出于对贷款发放的安全性考量，使得中国小微企业的融资非常困难。融资难、融资贵、融资慢的问题，在很大程度上限制了小微企业的发展。

然而，由于小微企业抗风险能力相对较弱，因此上述问题主要关键点还是在于小微企业的信用问题，如何管理好小额信贷业务的风控水平，减少坏账损失，成了保证小额信贷业务业务经营利润的唯一出路。

鉴于此，本申请提供的方案就是针对上述痛点，通过大数据特征提取、构建与部署集成模型，提升金融机构的信贷业务的风控能力。

如图1所示，展示本实施例中信贷风控模型构建系统的功能模块示意图。

所述信贷风控模型构建系统，包括：模型输入构建模块101、模型构建模块102、及模型部署模块103。

所述模型输入构建模块101，用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集。

在一实施例中，所述信贷业务对象可以是企业用户或个人用户。所述信贷业务对象数据即来自于信贷业务对象，可以与其信贷业务行为、个人财产、家庭财产等相关。

可选的，所述模型输入模块通过分布式存储系统存储所述数据集。例如，基于Hbase和Hdfs等分布式储存系统，如Haddop存储系统。

重复数据，如对于同一社会信用代码的企业的重复数据，同一身份证号的同一用户的重复数据等；可选的，所述数据去重包括：基于记录时间对相同数据源的重复的信贷数据进行去重处理。

实际处理过程例如以下所示：

将异源异构的原始数据导入分布式存储平台，按数据源不同记为O₁,O₂,…,O_n。

然后，对每一个O_i(i＝1,2,…,n)基于标识ID(如社会信用代码、身份证号等)进行去重操作；对于相同ID的多条记录，可以基于记录时间来进行去重判断，保留最近一次写入的数据内容。

最后，生成并储存各个数据源的原始数据去重后的结果为Distinct₁，Distinct₂，…，Distinct_n。

可选的，所述数据清洗包括：对所述信贷数据进行转换以得到格式统一的向量化数据。

数据清洗是该模型输入构建模块101的核心功能，由于输入数据的原始格式一般为存在嵌套情况的json数据，而模型训练需要的是数值向量类型的输入，因此数据清洗的主要工作就是如何将这种嵌套存储的json数据进行数据展开和类型转换，将其输出成为格式统一的向量化数据。

实际处理过程例如以下所示：

对每个Distinct_i(i＝1，2，3，…，n)的每一条记录record,编写递归函数Fjudge_i(record)，递归展开json格式数据，并记录每个字段的类型(string，numerical，sequence)；

然后，可以采用例如Map-Reduce方法，Distinct_i.map(Fjudge_i).reduce(reduce_i),将记录生成结果进行聚合，其中函数reduce_i为聚合函数，生成该数据源对应的数据格式记录文件metadata_i；

最后，根据数据源对应的元数据(medadata)来进行数据源的标准化转换。对于不同类型字段，转换方式也不同，具体为：numerical类型直接进行转换，string类型进行编码或词向量转换，sequence类型进行相关统计值(如均值，最值)转换。转换后生成该数据源对应的格式统一的向量化记录数据Vector_i。

可选的，所述数据导入包括：对经所述数据去重及数据清洗的各数据源的数据进行合并以形成所述数据集。

其中，要进行风控模型的训练，需要对各个数据源的原始数据进行合并操作，从而生成数据集D_all，D_all为N*M的矩阵，用于模型训练时训练集和测试集的划分。

实际处理过程例如以下所示：

根据每个Vector_i的标识id对各个数据源的数据进行连接操作，由于数据量较大，数据的连接操作可以是基于Spark计算框架，通过分布式方法进行分块连接和整合。

最终的连接结果可以Hive表形式存储到Hadoop文件系统中，处理完成的数据按类别存储至Hbase(结构化数据)或者Hdfs(非结构化数据)，在读取时只需要借助Pyspark.sql，用SQL语句就可以像查询数据库数据一样操作相关文件内容。该Hive表的内容就是我们需要的数据集D_all。

结合上述技术内容，如图2所示，展示一实际实施例中所述模型输入构建模块101的算法流程示意图。

所述模型构建模块102，用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型。

例如，根据时间戳排序后将截取数据集D_all的前80％数据划分为训练集D_train，剩余20％数据划分为测试集D_test。

用X_train＝{X₁，...，X_n}表示训练集样本的原始特征集合，n为训练集中样本的个数。

每个样本的取值为

m为数据集的特征变量个数。

用y_train＝{y₁，...，y_n}表示训练集样本的真实标签，真实标签可以通过例如人工标记或来自其它可靠数学算法、模型的分类标记实现。

如图3所示，展示一实际实施例中所述模型构建模块102的算法流程示意图。

于本申请的一实施例中，所述多种机器学习模型，可以包含传统概率模型，也可以包含神经网络模型，例如，所述多种机器学习模型包括：Light GBM、随机森林、XGBoost、Wide&Deep、FM模型、支持向量机SVM、朴素贝叶斯NB、神经网络NN、最近邻KNN、及决策树中的多种。

优选的，在一实施例中，采用Light GBM、XGBoost、Wide&Deep、FM、及随机森林，比较适合于小额信贷业务的风控模型构建。

以下对其中部分模型的原理进行解释：

其中，随机森林中基尼系数的计算和分裂节点的确定方法如下：

假设T为一份抽样样本，T＝si，i＝1,…,k，k为抽样次数，样本T包含正样本(A)和负样本(B)，其中训练样本数量为N(T)，正样本的数量为N(A)，负样本的数量为N(B)；

计算训练样本的基尼系数Gini(T)：

Gini(T)＝1-p_A(T)²-p_B(T)²

其中，

表示正样本在训练样本T中的概率；

表示负样本在训练样本T中的概率；

确定分裂节点：

假设变量X_i＝c，c∈{c_i1，...，c_im}将样本T分为两个子集T(X_i＜＝c)、T(X_i＞c)，计算此次划分的基尼系数Gini(T_Xi＝c)；

其中N(T_(Xi≤c))、N(T_(Xi＞c))分别为子集T(X_i＜＝c)、T(X_i＞c)的样本数量，且

Gini(T_(Xi≤c)＝1-p_A(T_(Xi≤c))²-p_B(T_(Xi≤c))²，

Gini(T(_Xi＞c)＝1-p_A(T_(Xi＞c))²-p_B(T_(Xi＞c))²，

计算所有变量在所有取值上划分的基尼系数，取基尼系数最小的划分为最佳分裂节点。

XGBoost是一种用于监督学习的梯度提升树方法，模型由多个基础的决策树模型(CART)组成：

其中，K是决策树的个数，f是函数域F中的一个函数，F是所有CART的集合。

XGBoost采用增量的训练策略，先拟合已经训练好的树，每次添加一个新的树，将每一步的预测值表示为

…

FM模型可以解决稀疏数据下的特征组合问题，模型由线性部分的LR模型和非线性的特征组合x_ix_j交叉而成。

其中，n是特征维度大小，v_i是第i维特征的隐向量，隐向量长度k＜＜n，包含k个描述特征的因子。参数个数为k*n。所有包含xi的非零组合特征都可以用来训练vi，缓解数据稀疏问题。

用神经网络表示FM模型，底层为特征维度为n的离散输入，经过embedding层后，对embedding层线性部分(LR)和非线性部分(特征交叉部分)累加后输出。

Wide&Deep具有两个概念，Generalization(泛化性)和Memory(记忆性)。

记忆性的意思是，模型可以学习历史数据中频繁出现的模式。而泛化性的意思是，模型可以给出历史数据中没出现过的模式。

模型分为左右两个部分。左边的Wide部分对应Memory(记忆性)，使用的是LR模型，长处在于学习样本中的高频部分，因此模型的记忆性好，对于样本中出现过的高频低阶特征能够用少量参数学习；右边的Deep部分对应Generalization(泛化性)，Deep部分长处在于学习样本中的长尾部分，优点是泛化能力强，对于少量出现过的样本甚至没有出现过的样本都能做出预测；将左右两部分结合可以使得同时具有记忆性和泛化性。

可选的，所述融合多种机器学习模型而构成机器学习模型采用的方法包括：Stacking或Blending模型集成方法。

在一实施例中，由于融合模型所采用的方法可能存在过拟合的问题，本申请通过属性扰动的方式来差异化训练和测试用的扰动数据集，以解决这一问题。

于本申请的一实施例中，所述属性扰动包括：剔除训练集及测试集中不同比例的属性相关数据，从而形成包含多个不同训练样本的扰动训练集，及包含多个不同测试样本的扰动测试集。

例如，假设训练集D＝{X_train，y_train}，测试集数据为X_test，初级学习算法f₁，f₂，…，f_T，次级学习算法f，属性扰动通过剔除数据中部分属性生成l个扰动数据集{D₁，D₂，…，D_j，…，D_l}，对测试集也做相同处理，得到

于本申请的一实施例中，所剔除的数据的属性是经预设模型度量的重要性较高的一或多种属性，其重要性度量由评估模型给出，例如前述Xgboost模型。

例如，如果将属性扰动产生的数据集数量为3，D₁为原数据集，D₂可以是剔除了属性重要性前5％，D₃可以是剔除了属性重要性前10％。

以下通过Stacking方法进行举例解释：

Stacking是一种使用“学习法”作为模型集成策略的集成学习方法，核心思想是从初始数据集训练出多个初级学习器，再将初级学习器的预测结果用于训练次级学习器。在训练阶段，如果直接将初级学习器产生的训练集训练次级学习器，往往会造成过拟合，因为次级训练集已经通过学习产生。为了降低过拟合风险，通常采用k折交叉验证的方式，通过使用在训练初级学习器过程中没有用到的样本来产生次级学习器的训练样本。在Stacking算法中，首先是数据划分过程，紧接着是阶段一从初始数据集训练初级学习器，然后用初级学习器的结果组成新的数据集，基于得到的新数据集再在阶段二训练次级学习器。对于使用T个初级学习器的Stacking模型而言，因为数据分为了k折，Stacking在第一阶段共训练了k×T个初级学习器。在构建次级测试集的时候，使用简单平均法组合基于k折训练的初级学习器的结果。

目前在实践中Stacking通常用来集成多个对参数设置敏感的模型或者多个不同类型的模型。

然而，当Stacking集成多个同参数设置的同类模型时，常常出现过拟合问题。这里可分为两种情况：一种是集成多个OLS(或NB、DT)这类使用精确学习器的模型，无论使用多少个模型，在阶段一产生的结果完全一样z_i1＝z_i2＝…＝z_iT，Stacking也就退化成使用单一学习器的Bagging，即通过数据集扰动集成单一基分类器；另一种是集成多个LR(或NN、SVM)这类使用随机学习器的模型，因为采用了同样的参数的设置，对于第j折数据

可以看成是在同一类型的多个学习器上学习了多遍，这非常容易在第二阶段训练次级学习器时过拟合，使得集成多个模型的效果不如仅仅集成一个模型的效果。

为了解决上述问题，本申请通过增加属性扰动产生差异化的数据集，克服了Stacking不适宜于集成同种参数设置下的同类模型的问题。具体地说，首先通过属性扰动，删除数据的某些属性产生l个新的数据集；然后在扰动数据集上使用Stacking，并得到Stacking第一阶段生成的次级数据集，不同扰动数据集生成的次级数据集共同构成了第一阶段的次级数据集；第二阶段同Stacking一样，使用在次级数据集上训练次级学习器即可。

算法详情如下所示：

Input：

训练集D＝{X_trainy_train}：测试集数据X_test：

初级学习算法f₁，f₂，…，f_T：次级学习算法f：

数据划分数k(k折交叉验证)：扰动数据集数I。

Output：

阶段一生成次级训练集D′和次级测试集Y′；测试集预测结果

1：属性扰动：通过剔除数据中中部分属性生成1个扰动数据集{D₁，D₂，…，D₃，…，D_l}，对测试集也做相同处理，得到

2：阶段一【次级训练集构造】：对于初级学习器f_t和数据集D_j，调用经典stacking并传入五元组(D_j

f_t，f，k)，得到Stacking第一阶段生成数据集D′_j＝{a_j，y_train}和Y′_j＝b_j，则Ad-Stacking第一阶段生成数据集D′＝{{a₁，a₂，…，a_l}，y_train}。

3：阶段一【次级测试集构造】：次级测试集Y′＝{b₁，b₂，…，b_l}。

4：阶段二：在数据集D′上使用次级学习器f训练，产生对测试集的预测结果y_prc＝f(Y′|D′)。

5：返回Y′、D′和y_prc。

在一些实施例中，本申请的风控系统需要针对实际信贷业务中的一或多种风控场景。例如与小微企业等信贷业务对象最相关的信用履约能力预测模型、及信贷违约预测模型。

针对两种不同模型的预测任务，可以分别采用回归模型和分类模型来预测目标，并根据预测目标使用相应的评价指标选择合适的信用履约能力预测模型、及信贷违约预测模型。

在一实施例中，所述信用履约能力预测模型的获取方法包括：对于所述机器学习模型经训练得到的模型库中的各备选模型，通过所述测试集进行测试，以得到各备选模型的预测结果作为预测信用得分；选择各预测信用得分中与真实信用得分差异最小的备选模型作为所述信用履约能力预测模型。

设回归模型利用用户的违约率计算信用分数，计算方法为：信用分数＝(1-违约率)*100；承接前述举例，用X_test＝{X₁，X₂，…，X_n}表示测试D_test集样本的原始特征集合，n为训练集中样本的个数。

针对用户的信用履约能力进行建模，所得模型通过回归任务给出预测的信用履约能力分数；承接前述举例，假设利用训练集(可以是属性扰动后的)对初始模型进行训练，得到模型库M＝{M₁，M₂，M₃，M₄，M₅)。

然后对于每个模型M_i，1≤i≤5，输入测试集X_test＝{X₁，X₂，…，X_n}的样本特征，并得出预测结果

其中

表示对测试样本X_i的预测信用分数。计算模型在测试集上的均方误差(Mean-Square Error)，计算方法如下：

其中，y_i表示测试集样本i的真实信用分数。

选取其中具有最小MSE值的模型作为最终的信用履约能力模型，模型的预测分数可以体现用户的信用履约能力。

在一实施例中，所述信贷违约预测模型的获取方法包括：对于所述机器学习模型经训练得到的模型库中的各备选模型，通过所述测试集进行测试，以得到各备选模型的预测结果作为对测试集中各测试样本的预测分类；其中，所述预测分类用于表示信贷业务对象是否违约；计算各备选模型在所述测试集上的各AUC值和/或KS值，并选取具有最大AUC值和/或KS值的备选模型作为所述信贷违约预测模型。

举例来说，分类模型用于预测用户是否可能产生违约行为，模型利用二分类任务给出预测结果；分类模型将历史违约用户的训练目标标记为1，否则为0；其中，0表示预测用户不会产生违约，1表示预测用户会产生违约。

承接前述举例，假设利用训练集(可以是属性扰动后的)对初始模型进行训练，得到模型库M＝{M₁，M₂，M₃，M₄，M₅}。

其中

表示对测试样本Xi的预测分类。计算模型在测试集上的AUC，即ROC曲线下的面积(Area under the ROC curve)，AUC越大，表示当前模型的分类预测性能越好。ROC曲线是根据混淆矩阵(如下表)，以假阳率FPR为横轴，真阳率TPR为纵轴所得的曲线。

	正样本	负样本
			预测为正样本	TN	FP
预测为负样本	FN	TP

选取具有最大AUC值的模型作为最终的分类模型即信贷违约预测模型，信贷违约预测模型的预测分类可以表示用户是否违约。

需说明的是，虽然上述举例是通过AUC值来进行模型选择，但是在其它实施例中也可以通过AUC值及KS值综合选择模型，也可以在AUC值及KS值中择一用于选择模型；其中，KS值是基于KS曲线，用真正率和假正率的累计作为坐标画出来的就是ROC曲线，而用真正率和假正率的累计值分别做为纵坐标就得到两个曲线，就是KS曲线；AUC值就是ROC曲线下的面积值，而KS值就是KS曲线中两条曲线之间的最大间隔距离；相应的，通过KS值能找出模型中差异最大的一个分段，而AUC值更能反映出所有分段的效果。

所述模型部署模块103，用于在互联网络部署所述最终风控模型以形成风控系统，以供与信贷业务对象交互。

在一实施例中，如图4所示，所述互联网络可以是因特网，所述最终风控模型可以部署在互联网络中的云端401以实现风控系统；所述云端401可以是一或多个服务器、或分布式网络中的多个计算机设备实现。

而在所述互联网络中还接入有用户终端402，如电脑、笔记本电脑、智能手机、平板电脑等。

用户可以通过用户终端402在云端401注册身份，并通过注册的密钥安全访问云端401，提供信贷业务对象(如用户本人或企业)数据，以供风控系统据以生成信用预测结果，其中可包含信贷业务对象的信用履约能力的预测结果、以及信贷业务对象是否会违约的预测结果，从而决策是否可以给予信用贷款的行为。

其中，模型部署模块103实现所述风控系统的前端接口(API)部分和后端接口(API)部分。

所述前端接口部分用于获取通过网络发来的关于信贷业务对象的信用评估请求，并根据信用评估请求发起者的签名验证结果判断是否与风控模型交互而提供对应该信贷业务对象的风控评估结果。

具体的，若签名验证不通过则拒绝提供风控评估结果；如果通过，则可根据最终风控模型的预测结果产生风控评估结果，其中可以包含例如信用评估报告和风险评级情况等信息。

如图5所示，展示本申请实施例中前端接口部分的软件架构示意图。

在本实施例中，所述前端接口部分实现表示层、业务逻辑层、及数据访问层的各软件模块；举例来讲，在表示层进可使用Freemarker模板引擎，使用Freemarker强大的模板以及渲染机制快速渲染出前端页面；在业务逻辑层可使用SpringMVC来分离控制器、模型对象、分派器以及处理程序对象的角色；在数据访问层可使用Hibernate来对接数据库，用键值对缓存系统来提高风控系统的性能。

在一实施例中，所述后端接口部分用于通过预设路由参数所定义的业务逻辑，实现根据前端接口部分传递的输入数据进入最终风控模型而得到输出结果的接口。

如图6所示，展示本申请实施例中后端接口部分的软件架构示意图。

具体的，在模型后端部署方面可采取Flask和Gunicorn联合开发部署方案，该方案主要基于团队模型都是用python训练，Flask是业内流行的Python轻量级Web框架。其中，通过Flask的app路由模块接收自前端部分的例如Http请求，分发到通过所定义的自身业务逻辑进行处理，实现根据用户相关数据生成模型分数的接口。

通过实现上述前端接口部分和后端接口部分的结合，实现模型接入功能和模型处理功能分离，前端接口部分和后端接口部分作为用户和风控模型的中间层，为用户提供统一简洁的访问接口，同时也保证了风控模型的独立和安全，提高整个系统的可扩展性。通过访问模型处理模块提供的内部接口，实现系统的内部运转。

为实现上述目标及其他相关目标，本申请提供一种风控系统，基于所述的信贷风控模型构建系统所部署的最终风控模型所构建，可实现于例如图4实施例中的云端；当然，本领域技术人员可以理解的是，所述风控系统也可以实现于任何一或多个的本地电子设备中，包括但不限于固定设备(如电脑、服务器)、移动设备(如笔记本电脑、智能手机或平板电脑等)，前述实施例并非限定所述风控系统必须实现于网络云端。

前述实施例中的信贷风控模型构建系统实现所搭载的一或多个计算机设备、及所述云端实现所搭载的一或多个计算机设备包括：计算机处理系统，所述计算机处理系统包括：一或多个通信器、一或多个存储器、及一或多个存储器。

所述通信器与外部通信，所述存储器存储有计算机指令，所述处理器运行所述计算机指令从而实现计算机设备所需功能。

在一些实施例中，所述通信器包括：用于外部通信连接的例如有线网卡、无线网卡、蓝牙、红外等通信电路模块。

所述存储器可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。

所述处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图7所示，展示本申请实施例中的信贷风控模型构建方法的流程示意图。由于该方法与前述信贷风控模型构建系统实施例的原理基本相同，因此，前述实施例中的各种技术特征均能应用于本实施例中，故以下不对该些技术特征进行重复赘述。本实施例中的方法可以基于前述实施例中所提及的通过处理器运行存储器中的计算机指令来执行。

所述方法包括：

步骤S701：对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；

步骤S702：利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；

步骤S703：在互联网络部署所述最终风控模型，以供与信贷业务对象交互。

另外，图7方法实施例中所涉及的各种计算机指令可以装载在计算机可读存储介质中，所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(紧致盘-只读存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他物品属性的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

在具体实现上，所述计算机程序为执行特定任务或实现特定抽象数据物品属性的例程、程序、对象、组件、数据结构等等。

综上所述，本申请的信贷风控模型构建系统、方法、风控系统及存储介质，系统包括：模型输入构建模块，用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；模型构建模块，用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；模型部署模块，用于在互联网络部署所述最终风控模型以形成风控系统，以供与信贷业务对象交互。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种信贷风控模型构建系统，其特征在于，包括：

模型输入构建模块，用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；

模型构建模块，用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；

模型部署模块，用于在互联网络部署所述最终风控模型以形成风控系统，以供与信贷业务对象交互。

2.根据权利要求1所述的系统，其特征在于，所述模型输入模块通过分布式存储系统存储所述数据集。

3.根据权利要求1所述的系统，其特征在于，所述数据处理包括：数据去重、数据清洗和数据导入。

4.根据权利要求3所述的系统，其特征在于，所述数据去重包括：基于记录时间对相同数据源的重复的信贷数据进行去重处理；和/或，所述数据清洗包括：对所述信贷数据进行转换以得到格式统一的向量化数据；和/或，所述数据导入包括：对经所述数据去重及数据清洗的各数据源的数据进行合并以形成所述数据集。

5.根据权利要求1所述的系统，其特征在于，所述多种机器学习模型，包括：LightGBM、随机森林、XGBoost、Wide&Deep、FM模型、支持向量机SVM、朴素贝叶斯NB、神经网络NN、最近邻KNN、及决策树中的多种。

6.根据权利要求1所述的系统，其特征在于，所述模型融合方法包括：Stacking或Blending模型集成方法。

7.根据权利要求1或6所述的系统，其特征在于，所述数据集中的数据携带有多种属性；所述利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型，包括：

通过对训练集及测试集产生不同的属性扰动，以形成用于所述训练及测试的多个扰动训练集和扰动测试集。

8.根据权利要求7所述的系统，其特征在于，所述属性扰动包括：剔除训练集及测试集中不同比例的属性相关数据。

9.根据权利要求8所述的系统，其特征在于，所剔除的数据的属性是经预设模型度量的重要性较高的一或多种属性。

10.根据权利要求1所述的系统，其特征在于，所述最终风控模型包括：对应信贷业务对象的信用履约能力预测模型、及信贷违约预测模型。

11.根据权利要求10所述的系统，其特征在于，所述信用履约能力预测模型的获取方法包括：

对于所述机器学习模型经训练得到的模型库中的各备选模型，通过所述测试集进行测试，以得到各备选模型的预测结果作为预测信用得分；

选择各预测信用得分中与真实信用得分差异最小的备选模型作为所述信用履约能力预测模型；以及/或者，

所述信贷违约预测模型的获取方法包括：

对于所述机器学习模型经训练得到的模型库中的各备选模型，通过所述测试集进行测试，以得到各备选模型的预测结果作为对测试集中各测试样本的预测分类；其中，所述预测分类用于表示信贷业务对象是否违约；

计算各备选模型在所述测试集上的各AUC和/或KS值，并选取具有最大AUC和/或KS值的备选模型作为所述信贷违约预测模型。

12.根据权利要求1所述的系统，其特征在于，所述风控系统包括：前端接口部分及后端接口部分；

其中，所述前端接口部分用于获取通过网络发来的关于信贷业务对象的信用评估请求，并根据信用评估请求发起者的签名验证结果判断是否与风控模型交互而提供对应该信贷业务对象的风控评估结果；以及/或者，

所述后端接口部分用于通过预设路由参数所定义的业务逻辑，实现根据前端接口部分传递的输入数据进入最终风控模型而得到输出结果的接口。

13.一种风控系统，其特征在于，基于如权利要求1至12中任一项所述的信贷风控模型构建系统所部署的最终风控模型所构建。

14.一种信贷风控模型构建方法，其特征在于，包括：

对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集；

利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型；并使用模型融合方法融合各所述机器学习模型，从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型；

在互联网络部署所述最终风控模型，以供与信贷业务对象交互。

15.一种计算机可读存储介质，其特征在于，存储有计算机指令，所述计算机指令被一或多个处理器运行时执行如权利要求14所述的方法。