CN113327162B

CN113327162B - 一种信贷风控规则制定系统

Info

Publication number: CN113327162B
Application number: CN202110722323.1A
Authority: CN
Inventors: 柴磊
Original assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Current assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-03-08
Anticipated expiration: 2041-06-29
Also published as: CN113327162A

Abstract

本发明提供了一种信贷风控规则制定系统，包括：模型训练模块，用于建立树模型；记录样本路径模块，用于记录所述路径的索引节点；抽取节点规则信息模块，用于获得目标节点；规则与特征的人机交互模块，用于进行人机交互，选择下一步建模的特征分组；双维度控制过滤机制模块，用于进行双维度的过滤；串行规则报告及其输出模块，用于发送最终完成的串行规则组合性能报告。本发明实现了双维度的控制过滤机制：“样本和特征双维度结构的控制过滤”将“离线策略和模型开发流程”与“决策引擎实时决策流程”完全对等映射起来，确保了离线分析和实时上线的一致性，有利于策略和模型的精确性和可靠性,同时大幅提升了各种复杂结构策略开发的效率。

Description

一种信贷风控规则制定系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种利用机器学习算法自动化生成各种业务规则的技术，同时也是一种规则策略与预测模型串行联动开发的技术。

背景技术

目前，随着互联网金融及其应用的快速发展，海量的交易行为从线下转到线上，银行、第三方支付平台等金融机构迫切需要对大量的交易数据进行快速、准确的欺诈风险评估和管控。规则系统是较为常用的欺诈风险评估及管控的方法和手段，主要是基于业务专家及风控人员的业务经验以及常规的统计分析来定制规则。当用户的交易请求和操作触发了规则时，交易则被拦截终止。这类规则系统也被广泛应用于各种信贷产品的准入策略以及精准营销中客户画像的生成等业务场景。

也有一些规则系统利用经典的单决策树算法来辅助规则的发现及优化。相较于常规统计分析以及专家经验，决策树技术提供了进一步的自动化规则发现能力，使得规则生成效率有一定程度的提高。

因此，本发明提出一种信贷风控规则制定系统。

发明内容

本发明提供一种信贷风控规则制定系统，用以解决在金融零售信贷风控策略以及精准营销策略开发领域，主要依赖于专家经验、常规统计分析以及单决策树等方法来开发规则的问题。

本发明提供了一种信贷风控规则制定系统，包括：

记录样本路径模块(b),用于对基于模型训练模块(a)训练得到的树模型进行路径记录，记录所述路径的节点索引，且树模型与信贷风控数据有关；

抽取节点规则信息模块(c),用于根据所述树模型的特征，抽取目标节点；

规则与特征的人机交互模块(d),用于生成对应的抽取规则以及获取用户通过交互界面选择将被采用的规则，并对这些规则进一步进行人为干预和测试，然后进行下一步建模的特征选择；

双维度控制过滤机制模块(e)，用于根据抽取规则以及交互结果对所述样本数据进行双维度(样本以及特征)过滤，并传输结果到模型训练模块(a)继续进行训练；

串行规则报告及其输出模块(f),用于基于所述规则与特征的人机交互模块(d)的输出生成信贷风控串行规则组合性能报告，用于评估规则系统的整体性能，并最终用于信贷风控上线部署。

优选的，所述记录样本路径模块，包括：

预测单元，用于根据所述树模型，对训练模型划分的训练样本和测试样本进行预测，计算每个样本的路径，并记录所述路径的节点索引；

处理单元，用于对每条路径的叶子节点的索引进行特定处理，并对每条路径进行独热编码操作，并获得所述树模型中每个节点基于所述训练样本的提升和覆盖度。

优选的，所述抽取节点规则信息模块，包括：

筛选单元，用于获取所述树模型的节点，作为所述树模型的特征，筛选所述目标样本经过概率低于预设概率的节点，作为稀疏节点，同时筛选不同路径中存在的相同节点或者不同树模型中存在的相同节点，作为冗余节点；

剔除单元，用于利用Lasso回归剔除所述稀疏节点，并通过所述Lasso回归对所述冗余节点进行压缩合并，得到目标节点；

获取单元，用于根据节点的提升和覆盖度，通过预设算法遍历所述树模型的每一层，判断所述目标节点是否满足提升条件，若所述目标节点满足所述提升条件，对所述目标节点进行信息提取并保存到信息库，更新信息库；

否则，判断所述目标节点的兄弟节点是否满足所述提升条件，若所述兄弟节点满足所述提升条件，将所述兄弟节点进行提取信息并保存到信息库，更新信息库；

否则，丢弃所述目标节点；

根据所述信息库，判断所述目标节点后面的节点，剔除与所述信息库信息相同的节点，同时，提取与所述信息库信息不同的节点信息，并保存到所述信息库，实时更新所述信息库。

优选的，所述双维度控制过滤机制模块，包括：

业务逻辑特征过滤单元，用于基于串行的迭代规则抽取模式，对所有特征按照业务逻辑进行分组，可控制进入下一轮建模所使用的特征分组；

规则样本过滤单元，用于利用迭代建模功能将抽取规则激活，对样本数据进行过滤；

输送单元，用于将过滤后的数据传送给训练模型模型，根据规则系统的结构复杂度，也可能存在超过两轮迭代的训练模型过程。

优选的，进行完规则的抽取后，也可用于开发评分模型，还包括：

业务规则策略与模型的串行联动开发模块(g),用于当需要开发串行的评分模型时，启用双维度过滤机制模块(e)对所述样本数据进行双维度过滤，开发评分模型；

模型报告以及部署文件输出模块(h)，用于接收所述评分模型，输出相应的模型报告以及部署文件。

优选的，所述的一种信贷风控规则制定系统，还包括：

评分模块，获取所述用户的检测账户的账户信息，并进行评分，包括：

接收单元，用于接收到检测账户的账户信息时，对所述账户信息进行分类，提取所述账户信息的特征信息；

将所述特征信息与标准信息进行比较获得信息差异函数；

获取单元，用于获取与所述检测账户相似的历史账户的评分情况，并获得所述相似历史账户的特征；

对比单元，用于将所述历史账户的特征与所述检测账户的特征进行比较，获得账户差异函数集，并对所述账户差异函数集中的函数进行对比，剔除相似程度高的函数；

评分单元，用于根据所述账户差异函数集，计算所述检测账户的损失值，触发并激活评分模型，根据所述损失值，评估所述检测账户的风险以及获取评分报告；

返回单元，用于接收所述检测账户的评分报告，并根据当前市场影响状况获得所述检测账户的标准检测报告；

根据所述标准检测报告判断所述评分报告的可靠性，若所述检测报告可靠性在预设范围内，向用户发送最终评分报告；

校准单元，用于当所述检测报告可靠性不在预设范围内时，将所述信息差异函数与所述账户差异函数进行处理，得到现有差异函数，根据所述现有差异函数，对所述评分模型中的获取的特征信息进行调整，更新所述评分模型。

优选的，基于训练模型(a)训练得到树模型，还包括：对树模型进行训练得到最优模型，包括：

获取目标函数，并加入正则项对树中的叶子节点进行预剪，将参数空间转化到函数空间，得到预期目标函数：

其中，

表示所述训练集中第i样本的第t次迭代误差函数；

表示损失函数；

表示所述训练集中样本第i样本的第t-1次迭代时的估计值；

表示所述训练集中样本第i样本的第t-1次迭代时的真实值；n表示所述训练集中样本总数；i表示所述训练集中样本的编号；x_i为所述训练集中预测变量取值；f_t(x_i)表示所述训练集中预测变量取值为x_i时的函数值；Ω(f_t)表示树模型第t次迭代时的复杂度；γ表示树模型加入新叶子节点引入的复杂度代价；T表示树模型叶子节点总数；w表示树模型中叶子节点的分数；λ表示模型对结果的贡献，取值为(0，1]；

对所述预期目标函数进行预处理，将所述树中每个叶节点的最优预测分数带入预期目标，得到最小损失函数：

其中，

表示第i样本的第t次迭代误差函数；

表示损失函数；

表示第i样本的第t-1次迭代时的估计值；

表示第i样本的第t-1次迭代时的真实值；n表示所述训练集中样本总数；i表示所述训练集中样本的编号；x_i为所述训练集中预测变量取值；f_t(x_i)表示所述训练集中预测变量取值为x_i时的函数值；Ω(f_t)表示树模型第t次迭代时的复杂度；γ表示树模型加入新叶子节点引入的复杂度代价；T表示树模型叶子节点总数；w表示树模型中叶子节点的分数；λ表示树模型对最终结果的贡献，取值为(0，1]；

其中，所述树模型中每个叶子节点的最优预测分数为

g_i表示损失函数的一阶偏导数，h_i表示损失函数的二阶偏导数，j表示所述树模型叶子节点的编号；

表示所述树模型迭代的最小损函数；I_j表示整数集；

当训练集样本经过t次迭代的误差符合最小误差函数，判断所述树模型为最优模型，训练完成；

否则，判断所述树模型训练未完成，继续进行下一轮迭代。

优选的，对树模型进行训练得到最优模型完成后，建立最终拟合模型，包括：

当所述树模型完成训练达到符合最小损失条件，获取所述最优模型，得到所述最终拟合模型：

其中，φ(x_i)表示树模型的最终拟合模型；K表示树的总棵树；k表示树的编号；f_k表示任意最优模型；F表示函数空间，F＝{f(x)＝w_q(x)}(q:R^m→T,w∈R^T),q(x)表示树模型的特征向量，R^m,R^T均为整数集；

根据所述最终拟合模型对样本行抽取，并记录样本在所述树模型的路径，同时，根据样本路径实际风险评分，对所述最终拟合模型进行评分，若评分结果符合用户期望，判断所述最终拟合模型合格；

否则，判断所述最终拟合模型不合格，重新建立模型。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种信贷风控规则制定系统的结构示意图；

图2为本发明实施例中一种信贷风控规则制定系统的双维度过滤机制模块结构示意图；

图3为本发明实施例中一种信贷风控规则制定系统的流程图；

图4为本发明实施例中一种信贷风控规则制定系统的评分模块结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本实施例提供了一种信贷风控规则制定系统,如图1所示，包括：

本实施例中，节点索引是指为了方便找到路径中节点位置的指针。

本实施例中，路径预测是指每个样本会经过哪些分裂节点最终会落到哪个叶子节点上的过程。

本实施例中，树模型的特征是指树模型的节点。

上述技术方案的有益效果是：本发明实现了规则开发的自动化、可视化，并设置有人机交互界面，在实现自动选取规则的过程也满足用户人为干涉调控的需求，双维度的控制过滤机制，离线策略和模型开发流程和决策引擎实时决策流程完全对等映射起来，确保了离线分析和实时上线的一致性，有利于策略和模型的稳定性。

实施例2：

基于实施例1的基础上，所述的一种信贷风控规则制定系统，所述记录样本路径模块b，包括：

预测单元，用于根据所述树模型，对模型训练模块a划分的训练样本和测试样本进行预测，记录每个样本的路径，并记录所述路径的节点索引；

本实施例中，特定处理是指对于叶子节点的索引取其相反数加以区别。

本实施例中，独热编码是指使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

上述技术方案的有益效果是：本发明的预测是对所述样本路径的计算，并对路径进行独热编程，有利于特征压缩以及提取每个节点在训练集和测试集的提升和覆盖度。

实施例3：

基于实施例1的基础上，所述的一种信贷风控规则制定系统，所述抽取节点规则信息模块c，包括：

否则，丢弃所述目标节点；

本实施例中，稀疏节点是指样本很少经过的节点，或者说该节点的信息并不是目标样本的共性；冗余节点是指结构相似的树上节点，或者是路径一样的节点。

本实施例中，通过预设算法遍历所述树模型，其中预设算法可以根据用户抽取规则的不同进行改变。

本实施例中，节点信息是指节点在树模型中的位置。

本实施例中，信息库是指存储节点信息的地方。

上述技术方案的有益效果是：本发明利用算法将稀疏节点以及冗余节点剔除避免了大量无用数据的产生，降低计算机内存损耗，同时避免了大量无用计算过程，大大减低了系统的响应时间。

实施例4：

基于实施例1的基础上，所述的一种信贷风控规则制定系统，所述双维度控制过滤机制模块e，如图2所示，包括：

业务逻辑特征过滤单元，用于基于串行的迭代规则抽取模式，对所有特征按照业务逻辑进行分组；

输送单元，用于将过滤后的数据传送给模型训练模块，根据规则系统的结构复杂度，也可能存在超过两轮迭代的训练模型过程。

上述技术方案的有益效果是：本发明利用双维度的控制过滤机制完成数据过滤过程，对抽取的特征和样本进行双维度约束限定，避免产生无效数据，利用迭代建模功能将已经抽取好的规则激活，对数据进行过滤并建模，然后再次选择抽取的规则，通过上述不断迭代，可以高效开发出符合业务逻辑要求的优化的复杂策略规则系统。。

实施例5：

基于实施例1的基础上，所述的一种信贷风控规则制定系统，如图3所示，进行完规则的抽取后，也可用于开发评分模型，还包括：

业务规则策略与模型的串行联动开发模块g，用于当需要开发串行的评分模型时，启用双维度过滤机制模块e对所述样本数据进行双维度过滤，开发评分模型；

如图3所示，本实施例中存在两个模型训练模块，第一模型训练模块与实施例1中的训练模型a相同均是是基于GBM算法，第二模型训练模块即业务规则策略与模型的串行联动开发模块g不仅可以基于GBM算法，也可以是例如逻辑回归等其他算法。

本实施例中，首先包含了实施例4，可开发出符合业务逻辑要求的优化的复杂策略规则系统，然后进入到第二模型训练模块，进行评分模型开发。

模型报告以及部署文件输出模块h，用于接收所述评分模型，输出相应的模型报告以及部署文件。

上述技术方案的有益效果是：本发明实现了规则开发与模型开发的联动，离线策略和离线模型开发流程与决策引擎实时决策流完全对等映射起来，确保了离线分析和实时上线的一致性，同时使得用于开发评分模型的样本为无偏样本，有利于评分模型的精准性和稳定性。

实施例6：

基于实施例5的基础上，所述的一种信贷风控规则制定系统，还包括：

将所述特征信息与标准信息进行比较获得信息差异函数；

本实施例中，特征信息是指检测账户的可以表示检测账户身份以及资金状况的信息。

本实施例中，检测账户的类别即根据账户拥有者的资金状况进行的分类例如，不动产、动产、风险承担情况等。

本实施例中，信息差异函数检测账户的特征信息与检测账户标准信息对比得到的差异构成的函数。

本实施例中，无用信息是指重复信息或者是与业务逻辑无关内容,有效信息是指与业务逻辑相关的内容，即可用于判断检测账户评分的内容。

本实施例中，账户差异函数集是指检测账户信息与其相似的历史账户信息之间的差异函数组成的集合。

本实施例中,损失值是指检测账户与相似历史账户的不同。

本实施例中,可靠性在预设范围是指检测报告与标准检测报告对比后存在的差异可以被用于账户评分的范围。

本实施例中,现有差异函数是指信息差异函数和账户差异函数进行对比、拟合等处理后得到的函数。

本实施例中，评分模型是对检测账户进行评分。

上述技术方案的有益效果是：本发明利用评分模型对检测账户进行风险评分，在评分过程中获得当前评分账户与历史账户的之间的差异，同时还获得当前评分账户特征信息与标准特征信息之间的差异，并根据当前经济状况得到的检测账户标准检测报告判断评分报告的可靠性，同时完善并更新评分模型，有利于对检测账户更加精准的评分，避免数据滞后造成的不准确性。

实施例7：

基于实施例1的基础上，所述的一种信贷风控规则制定系统，基于训练模型(a)训练得到树模型，还包括：对树模型进行训练得到最优模型，包括：

其中，

表示第i样本的第t次迭代误差函数；

表示损失函数；

表示第i样本的第t-1次迭代时的估计值；

对预期目标函数进行泰勒公式二级展开、化简：

去掉常数项

对应的第t颗树的损失函数可以简化为：

其中，

其中，所述树模型中每个叶子节点的最优预测分数为

表示所述树模型迭代的最小损函数；I_j表示整数集；

否则，判断所述树模型训练未完成，继续进行下一轮迭代。

上述技术方案的有益效果是：本发明通过获取目标函数，并加入正则项对树中的叶子节点进行预剪，将参数空间转化到函数空间，得到预期目标函数，对预期目标函数进行预处理，将树中每个叶节点的最优预测分数带入预期目标，得到最小损失函数对树模型进行训练得到最优模型，通过进行有限次迭代获得预测性能最好的模型，同时，正则化范数可由分析人员确定调整，用户可根据自身风险要求对训练标准进行调整。

实施例8：

基于实施例7的基础上，所述的一种信贷风控规则制定系统，其特征在于：对树模型进行训练得到最优模型完成后，建立最终拟合模型，包括：

否则，判断所述最终拟合模型不合格，重新建立模型。

上述技术方案的有益效果是：当树模型完成训练达到符合最小损失条件，获取最优模型，得到最终拟合模型，根据最终拟合模型对样本行抽取，并记录样本在树模型的路径，同时，根据样本样本路径实际风险评分，对所述最终拟合模型进行评分，确保了最终拟合模型是符合用户实际应用要求，当最终拟合模型不合格时及时建立新的模型，避免了由于模型落后造成的风险评估错误。

实施例9：

基于实施例1的基础上，所述的一种信贷风控规则制定系统，还包括：响应监测模块，用于监测系统响应的时间，包括：

计数单元，用于记录基于训练模型a、记录样本路径模块b、抽取节点规则信息模块c以及规则与特征的人机交互模块d进行的迭代循环次数，并获取每次迭代循环过程中各个模块的运行时间；

处理单元，用于根据所述系统迭代次数和每次迭代循环过程中各个模块的运行时间，计算系统的总响应时间；

其中，T表示所述系统的总响应时间；ΔT_j表示u模块完成一次迭代的时间；L表示所述系统需要处理的总的节点数；C表示常数，ρ表示所述系统期待达到的准确程度，即系统准确率；

其中，u表示模块类型，当u＝1时表示训练模型a；当u＝2时表示记录样本路径模块b；当u＝3时表示抽取节点规则信息模块c；当u＝4时表示规则与特征的人机交互模块d；K表示迭代的总次数；

判断单元，用于根据所述系统的总响应时间T，判断所述系统运行效果，当所述系统的响应时间T在预设范围内时，判断所述系统运行正常；

否则，判断所述系统运行异常，控制单元向用户监测平台发送系统异常通知，对系统运行进行人工调控。

上述技术方案的有益效果是：本发明利用响应监测模块，获取迭代循环次数，并获取每次迭代循环过程中各个模块的运行时间，并通过算法处理对系统的响应时间进行监测，当检测到系统的响应时间出现延迟等异常情况时，通过控制单元向用户监测平台发送系统异常通知，通过人工干预及时调整系统数据，避免了由于系统异常造成的抽取结果异常，同时提高了系统运行速度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。