CN117196823B

CN117196823B - 一种风控规则生成方法、系统及存储介质

Info

Publication number: CN117196823B
Application number: CN202311157883.2A
Authority: CN
Inventors: 曹永盛; 郑文晖; 刘捷; 许龄艺
Original assignee: Xiamen International Bank Co ltd
Current assignee: Xiamen International Bank Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-03-19
Anticipated expiration: 2043-09-08
Also published as: CN117196823A

Abstract

一种风控规则生成方法、系统及存储介质，方法包括：获取原始样本数据集；基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集；设置迭代训练停止目标值；根据潜在规则变量的数量选择对应的规则筛选方式，以生成规则集；根据预设规则筛选条件对规则集进行数据剔除与数据比对处理；基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的规则集。本发明根据潜在规则变量的数量选择对应的规则筛选方式，结合迭代训练停止目标值的设置，能够不断对规则进行优化，批量生成质量较高的风控规则。

Description

一种风控规则生成方法、系统及存储介质

技术领域

本发明涉及贷款风险控制技术领域，特别是一种风控规则生成方法、系统及存储介质。

背景技术

贷款风险控制是金融行业中一个非常重要的问题，在传统的贷款业务中，银行和金融机构通常使用人工审核、静态的规则来对客户进行筛选。虽然近些年随着技术发展，自动化审核在客户审核中扮演着越来越重要的角色，规则动态调整的频率也在加快；但是，自动化审核所依赖的产品规则策略仍主要通过人工进行数据统计、业务指标测算后确定优化内容。同时，由于每次优化的统计分析过程数据无法复用，再次迭代优化时又需要对业务数据样本重新进行梳理、统计分析，将耗费大量的人力。

目前，规则生成主要是基于专家经验或者基于决策树算法生成两种方式，其他衍生方法也需要依赖于这两种方式。但是，在贷款基础数据日益丰富的背景下，基于专家经验无法穷举所有的规则可能性；而决策树主要依赖“信息增益”、“基尼不纯度”等算法逻辑进行字段阈值拆分，在实际应用过程中，基于决策树算法生成的规则在部分情况下仍需通过人工介入调整规则阈值，以满足逾期率、单一规则拒绝比例等方面的要求。更重要的是，上述两种规则生成方式每次仅能生成单条或者少量的几条规则，无法满足规则迅速迭代的要求，需要耗费大量人力。

可见，现有的风控规则生成方法存在规则生成效率低，且人工成本较高的问题。

发明内容

本发明的主要目的在于提供了一种风控规则生成方法、系统及存储介质，旨在解决现有的风控规则生成方法存在规则生成效率低，且人工成本较高的技术问题。

为实现上述目的，本发明提供了一种风控规则生成方法，其包括以下步骤：S100、获取原始样本数据集，原始样本集中包含客户标签及自变量；S200、基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集，第一训练样本集与第二训练样本集内至少包括客户标签与潜在规则变量，潜在规则变量为数值型变量；S300、基于第一训练样本集、第二训练样本集，以及潜在规则变量的对应阈值，设置迭代训练停止目标值；S310、判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集；S320、根据预设规则筛选条件对规则集进行数据剔除与数据比对处理，得到新的样本数据集以及最优规则；S330、基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的最优规则所组成的规则集。

可选的，筛选出符合预设筛选条件的潜在规则变量，具体包括以下步骤：S210、基于客户标签，计算潜在规则变量的IV值，并筛选出IV值大于或等于预设IV值阈值的潜在规则变量；S220、计算潜在规则变量的缺失率，并筛选出缺失率小于或等于预设缺失率阈值的潜在规则变量；S230、计算潜在规则变量的单一值比例，并筛选出单一值比例小于或等于预设单一值阈值的潜在规则变量。

可选的，迭代训练停止目标值至少包括通过率目标值、逾期率目标值、收益率目标值其中一种或者两种以上。

可选的，步骤S310至少包括以下步骤：S311、判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，若潜在规则变量的数量为一个，则执行步骤S311a，若潜在规则变量的数量为两个，则执行步骤S311b；S311a、获取第一训练样本集中的所有潜在规则变量的对应阈值，选取潜在规则变量的对应阈值的最大值，并基于最大值选取第一训练样本集中预设比例的第一客群，或者，选取潜在规则变量的对应阈值的最小值，并基于最小值选取第一训练样本集中预设比例的第一客群；计算第一客群的逾期率与收益率；根据逾期率与收益率的计算结果，筛选出第一规则集；S311b、获取第一训练样本集中的潜在规则自变量，通过排列组合的方式在所有潜在规则变量中随机筛选出两个潜在规则变量的组合；通过等频分箱方法形成行数为N、列数为M的交叉表，交叉表中的每个网格表示同时满足两个潜在规则变量的组合分箱阈值的样本集合；获取交叉表中预设位置网格所对应的规则并进行保存，得到第二规则集以及根据其中每条规则筛选得到的第二客群；执行步骤S312；S312、重新设置步骤S311b中交叉表的行数与列数，并基于新的行数与列数，重复步骤S311b，直至得到所有潜在规则变量的组合对应的多种交叉表下的第二规则集合以及第二客群。

可选的，步骤S320至少包括以下步骤：S321、根据预设规则筛选的样本量条件，对步骤S311a与S312得到的第一规则集与第二规则集进行第一剔除处理；S323、对于第三规则集中的每条规则，筛选出第二训练样本集中与其对应的第三客群，并分别与步骤S311a中的第一客群、步骤S312中的第二客群进行数据比对，以得到符合预设条件的最优规则；S324、根据步骤S323筛选后得到的最优规则，对第一、第二训练样本集进行第二剔除处理，剔除命中最优规则的样本数据，得到新的样本数据集。

可选的，步骤S321中，预设规则筛选的样本量条件具体包括预设规则筛选得到样本量对应的第一上限值与第一下限值；第一剔除处理具体为：剔除第一规则集与第二规则集中规则筛选得到的样本量大于第一上限值的规则，以及剔除第一规则集与第二规则集中规则筛选得到的样本量小于第一下限值的规则。

可选的，步骤S322中，预设规则筛选逻辑具体为：通过筛选得到逾期率高于预设逾期率阈值，或者收益率低于预设收益率阈值的规则；步骤S323中数据比对具体为：将第三客群的逾期率与第一客群的逾期率进行数据比对；若第三客群的逾期率下降幅度大于预设下降比例，则从步骤第三规则集中剔除该规则，并在剩余规则中选取对应的第一客群中逾期率最高的规则作为最优规则；或者，将第三客群的收益率与第一客群的收益率进行数据比对，若第三客群的收益率上升幅度大于预设上升比例，则从第三规则集中剔除该规则，并在剩余规则中选取对应的第一客群中收益率最低的规则作为最优规则。

可选的，步骤S100中，对原始样本数据集进行抽样时，还得到测试样本集；所述方法还包括以下步骤：S400、基于贝叶斯优化算法与测试样本集，对步骤S330中生成的规则集进行规则阈值调优处理，得到规则阈值调优结果；S500、基于规则阈值调优结果、测试样本集与步骤S330生成的规则集，对调优处理效果进行评估。

与所述风控规则生成方法相对应的，本发明提供一种风控规则生成系统，其包括：数据获取模块，用于获取原始样本数据集，原始样本集中包含客户标签及自变量；分箱模块，基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；抽样模块，用于对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集，第一训练样本集与第二训练样本集内至少包括客户标签与潜在规则变量，潜在规则变量为数值型变量；风控规则生成模块，用于基于第一训练样本集、第二训练样本集，以及潜在规则变量的对应阈值与潜在规则变量对应的潜在规则，设置迭代训练停止目标值；判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集；根据预设规则筛选条件对规则集进行数据剔除与数据比对处理，得到新的样本数据集以及最优规则；基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的最优规则所组成的规则集。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有风控规则生成程序，所述风控规则生成程序被处理器执行时实现如上文所述的风控规则生成方法的步骤。

本发明的有益效果是：

(1)与现有技术相比，本发明基于卡方分箱方式与客户标签，对自变量进行分箱，能够遍历所有规则的可能性，筛选出符合预设筛选条件的潜在规则变量；根据潜在规则变量的数量选择对应的规则筛选方式，并结合迭代训练停止目标值的设置，能够不断对规则进行优化，直至产品目标收敛至迭代训练停止目标值，批量生成质量较高的风控规则，更适合在贷款产品开始运行前批量生产规则；并且，本发明还基于新的样本数据集进行迭代训练，对样本进行自动更新以进行多轮的规则优化，再次迭代优化时不需要人工重新对业务数据样本重新进行梳理、统计分析，能够大大节省人力成本；

(2)与现有技术相比，本发明在分箱后筛选符合预设筛选条件的潜在规则变量，能够对缺失率较高、单一制比例较高、无好坏客户区分能力的潜在规则变量进行剔除，为后续生成质量较高的风控规则打下基础；

(3)与现有技术相比，本发明通过网格搜索算法，结合迭代训练停止目标值的设置，能够更加贴近贷款风险管控的目标，以便于批量生成质量较高的风控规则；并且，通过重设交叉表的行、列数，能够得到多样化的第二规则集合，避免高逾期率区间被排除在规则之外；

(4)与现有技术相比，本发明通过预设规则筛选得到样本量对应的第一上限值与第一下限值，结合第一剔除处理，使得根据第一规则集与第二规则集中的某条规则筛选得到的样本量不超过一定的比例范围，能够避免规则样本量不足或者单一规则拒绝率过高的情况，提高生成规则的质量；

(5)与现有技术相比，本发明通过预设规则筛选逻辑与数据比对能够对逾期率下降幅度过大或者收益率上升幅度过大的规则进行剔除，对第三规则集重新进行验证，以得到符合预设条件的最优规则，提高生成规则的质量；

(6)与现有技术相比，本发明通过贝叶斯优化算法与测试样本集，能够自动对规则阈值调优处理，使得生成的规则具有更强的泛化能力和区分能力；进一步对调优处理效果进行评估，能够确认算法调优后的模型效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明风控规则生成方法的一实施例流程简图；

图2为本发明风控规则生成系统的一实施例框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的一种风控规则生成方法，其包括以下步骤：S100、获取原始样本数据集，原始样本集中包含客户标签及自变量；S200、基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集，第一训练样本集与第二训练样本集内至少包括客户标签与潜在规则变量，潜在规则变量为数值型变量；S300、基于第一训练样本集、第二训练样本集，以及潜在规则变量的对应阈值，设置迭代训练停止目标值；S310、判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集；S320、根据预设规则筛选条件对规则集进行数据剔除与数据比对处理，得到新的样本数据集以及最优规则；S330、基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的最优规则所组成的规则集。

优选的，步骤S320生成的最优规则是单条规则，后续通过步骤S330进行迭代训练，迭代几次就生成几条对应的最优规则，最后所有的最优规则组成步骤S330所述规则集。

产品规则生产是自动化审核的基础，本发明基于卡方分箱方式与客户标签，对自变量进行分箱，能够遍历所有规则的可能性，筛选出符合预设筛选条件的潜在规则变量；根据潜在规则变量的数量选择对应的规则筛选方式，并结合迭代训练停止目标值的设置，能够不断对规则进行优化，直至产品目标收敛至迭代训练停止目标值，批量生成质量较高的风控规则，更适合在贷款产品开始运行前批量生产规则；并且，本发明还基于新的样本数据集进行迭代训练，对样本进行自动更新以进行多轮的规则优化，再次迭代优化时不需要人工重新对业务数据样本重新进行梳理、统计分析，能够大大节省人力成本。

优选的，若贷款产品处于开始启动阶段，则通过与合作方撞库的方式获取原始样本；若贷款产品已运行一段时间，则提取产品自身的原始样本。

在本实施例中，客户标签具体为客户好、坏标签；第一训练样本集与第二训练样本集内还包括利率、放款金额与逾期金额。

需要说明的是，在本实施例中，通过卡方分箱的方式辅助判断哪些变量是潜在规则变量。潜在规则指的是可能被纳入规则集的规则，由于在规则制定之前，并不确定是否存在该规则，只是有可能存在该规则，故称为“潜在规则”；自变量具体为规则中的变量，例如规则：“年龄大于60岁，则拒绝授信”中年龄为变量，潜在规则变量特指潜在规则包含的变量。

优选的，通过评估样本的IV值，对所有自变量进行筛选，选出IV值高的自变量对应的规则，作为潜在规则。可以理解的是，IV值高低的具体判断标准，可根据实际需要进行设定。

在统计学上，若一个变量不同阈值间有大小关系，则将该变量归类为数值型变量，例如收入作为变量，5000比3000小，存在大小关系，即归类为数值型变量；若一个变量的不同阈值没有大小关系，则将该变量归类为分类变量，例如户籍省份作为变量，福建和广东之间不存在大小关系，即归类为分类变量。

在本实施例中，若自变量中存在分类变量，则根据分箱的逾期率高低，将其转化为数值型变量。优选的，将分类变量转化为数值型变量至少包括以下步骤：

步骤a、若有一个分类变量名为X0，则生成一个新变量并命名为X0_1，且根据X0的不同类别(比如福建、广东、山西)对样本进行拆分；

步骤b、对样本进行拆分之后，分别统计各个类别的样本的逾期率，并按照逾期率从高到低的顺序进行排序；

步骤c、根据排序结果依次将各类别对应的变量X0_1的取值映射为1、2、3，...，k，即将逾期率最高的类别对应的变量X0_1的取值映射为1，将逾期率第二高的类别对应的变量X0_1的取值映射为2，以此类推；其中，k为正整数，具体取值范围可根据实际需要进行设置；

步骤d、映射完成后，在原始样本集中删除变量X0，保留变量X0_1，转化完成。

在本实施例中，筛选出符合预设筛选条件的潜在规则变量，具体包括以下步骤：S210、基于客户标签，计算潜在规则变量的IV值，并筛选出IV值大于或等于预设IV值阈值的潜在规则变量；S220、计算潜在规则变量的缺失率，并筛选出缺失率小于或等于预设缺失率阈值的潜在规则变量；S230、计算潜在规则变量的单一值比例，并筛选出单一值比例小于或等于预设单一值阈值的潜在规则变量。

在本实施例中，计算潜在规则变量的缺失率是基于原始样本集进行计算，例如原始样本是一个10000行*100列的excel报表，其中有一列，字段名称为A，如果10000行中，有9000行，A的值都是空值，那字段A的缺失率就是90％；单一值比例的计算逻辑基本一致，假设在变量A中出现最多次数的值是X，出现了3000次，那变量A的单一值的比例就是30％。

优选的，预设IV值阈值为0.05，预设缺失率阈值为80％，预设单一值阈值为90％。

本发明在分箱后筛选符合预设筛选条件的潜在规则变量，能够对缺失率较高、单一制比例较高、无好坏客户区分能力的潜在规则变量进行剔除，为后续生成质量较高的风控规则打下基础。

在本实施例中，迭代训练停止目标值至少包括通过率目标值、逾期率目标值、收益率目标值其中一种或者两种以上。

在本实施例中，步骤S310至少包括以下步骤：S311、判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，若潜在规则变量的数量为一个，则执行步骤S311a，若潜在规则变量的数量为两个，则执行步骤S311b；S311a、获取第一训练样本集中的所有潜在规则变量的对应阈值，选取潜在规则变量的对应阈值的最大值，并基于最大值选取第一训练样本集中预设比例的第一客群，或者，选取潜在规则变量的对应阈值的最小值，并基于最小值选取第一训练样本集中预设比例的第一客群；计算第一客群的逾期率与收益率；根据逾期率与收益率的计算结果，筛选出第一规则集；S311b、获取第一训练样本集中的潜在规则自变量，通过排列组合的方式在所有潜在规则变量中随机筛选出两个潜在规则变量的组合；通过等频分箱方法形成行数为N、列数为M的交叉表，交叉表中的每个网格表示同时满足两个潜在规则变量的组合分箱阈值的样本集合；获取交叉表中预设位置网格所对应的规则并进行保存，得到第二规则集以及根据其中每条规则筛选得到的第二客群；执行步骤S312；S312、重新设置步骤S311b中交叉表的行数与列数，并基于新的行数与列数，重复步骤S311b，直至得到所有潜在规则变量的组合对应的多种交叉表下的第二规则集合以及第二客群。

优选的，按照等频分箱的方式，每个潜在规则变量都有等频的分箱阈值分别为3、4、5箱的分法(N与M都有3、4、5三种取值)，通过排列组合的方式在所有潜在规则变量中随机筛选出两个潜在规则变量的组合，通过等频分箱方法形成从3*3的交叉表，遍历到5*5的交叉表，因此每一种变量组合都有9个交叉表。比如，如果有100个潜在规则变量，那一共有100*99/2种变量组合，每一种变量组合有9张交叉表。因此，重复步骤S311b，直至得到所有潜在规则变量的组合对应的多种交叉表下的第二规则集合以及第二客群，即将所有变量组合的9种交叉表全部遍历完即可。

多样化的分箱方式(即根据N、M的不同取值进行分箱)是因为潜在规则变量的总体阈值区间范围内，而逾期率并不一定是均匀分布的，通过设定多种分箱可以尽可能挖掘到存在高逾期率的区间；避免单一的分箱可能导致高逾期率的区间被排除在规则筛选的结果之外的情形。

在本实施例中，考虑到规则稳定性，规则对应变量的数量一般控制在2个及以下，因此规则变量通常为单变量或双变量。

具体而言，单变量指的是规则只有一个变量，双变量指的是有两个变量；此处的单、双变量并非指基础数据的类型，而是数量；例如规则“年龄大于60岁，则拒绝贷款申请”称为单变量规则，仅包括年龄一个变量；“年龄大于60岁，且户籍地址是福建，则授信拒绝”称为单变量规则，存在年龄与户籍两个变量。

为便于理解规则变量的对应阈值，举例而言“年龄大于60岁”中，年龄是自变量，60岁是阈值。

在本实施例中，步骤S311a中的预设比例具体为预设百分比，可根据实际需要进行设置；计算第一客群的逾期率与收益率，需要基于基础数据进行计算得到的，例如总样本1万个，年龄大于60岁的客户有500个，则计算这500个客户的逾期率、收益率等指标；根据逾期率与收益率的计算结果，筛选出第一规则集，具体为选择逾期率更高，或者收益率更低的样本对应的规则，作为第一规则集中的第一规则，针对所有自变量执行相同操作，得到的所有第一规则组成第一规则集。

在本实施例中，步骤S311b中预设位置网格具体为交叉表中四个角所对应的网格，对所有排列组合的可能性进行相同操作，即可得到第二规则集合。

本发明通过网格搜索算法，结合迭代训练停止目标值的设置，能够更加贴近贷款风险管控的目标，以便于批量生成质量较高的风控规则；并且，通过重设交叉表的行、列数，能够得到多样化的第二规则集合，避免高逾期率区间被排除在规则之外。

在本实施例中，步骤S320至少包括以下步骤：S321、根据预设规则筛选的样本量条件，对步骤S311a与S312得到的第一规则集与第二规则集进行第一剔除处理；S322、根据预设规则筛选逻辑，对第一剔除处理后得到的剩余规则进行筛选，得到第三规则集；S323、对于第三规则集中的每条规则，筛选出第二训练样本集中与其对应的第三客群，并分别与步骤S311a中的第一客群、步骤S312中的第二客群进行数据比对，以得到符合预设条件的最优规则；S324、根据步骤S323筛选后得到的最优规则，对第一、第二训练样本集进行第二剔除处理，剔除命中最优规则的样本数据，得到新的样本数据集。

在本实施例中，步骤S321中，预设规则筛选的样本量条件具体包括预设规则筛选得到样本量对应的第一上限值与第一下限值；第一剔除处理具体为：剔除第一规则集与第二规则集中规则筛选得到的样本量大于第一上限值的规则，以及剔除第一规则集与第二规则集中规则筛选得到的样本量小于第一下限值的规则。

优选的，第一上限值为10％，第一下限值为3％。

本发明通过预设规则筛选得到样本量对应的第一上限值与第一下限值，结合第一剔除处理，使得根据第一规则集与第二规则集中的某条规则筛选得到的样本量不超过一定的比例范围，能够避免规则样本量不足或者单一规则拒绝率过高的情况，提高生成规则的质量。

在本实施例中，步骤S322中，预设规则筛选逻辑具体为：通过筛选得到逾期率高于预设逾期率阈值，或者收益率低于预设收益率阈值的规则；步骤S323中数据比对具体为：将第三客群的逾期率与第一客群的逾期率进行数据比对；若第三客群的逾期率下降幅度大于预设下降比例，则从步骤第三规则集中剔除该规则，并在剩余规则中选取对应的第一客群中逾期率最高的规则作为最优规则；或者，将第三客群的收益率与第一客群的收益率进行数据比对，若第三客群的收益率上升幅度大于预设上升比例，则从第三规则集中剔除该规则，并在剩余规则中选取对应的第一客群中收益率最低的规则作为最优规则。

本发明通过预设规则筛选逻辑与数据比对能够对逾期率下降幅度过大或者收益率上升幅度过大的规则进行剔除，对第三规则集重新进行验证，以得到符合预设条件的最优规则，提高生成规则的质量。

在本实施例中，步骤S100中，对原始样本数据集进行抽样时，还得到测试样本集。优选的，对原始样本数据集进行抽样时，第一训练样本集、第二训练样本集、测试样本集三者按照5：2：3的比例从原始样本集中根据客户好、坏标签进行无放回分层抽样得到。若样本条件具备，测试样本集也可采用在训练样本集的客户授信申请时间之后的样本，即进行“时间外验证”。

在本实施例中，步骤S100中输出每次迭代训练生成的规则集时，还一并输出每条规则涉及的变量及变量取值方式、根据该规则筛选出来的样本的逾期率、收益率及样本量、规则运行后新样本的逾期率及样本量等指标。

在本实施例中，所述方法还包括以下步骤：S400、基于贝叶斯优化算法与测试样本集，对步骤S330中生成的规则集进行规则阈值调优处理，得到规则阈值调优结果。

在本实施例中，拟设定目标函数为：max{(验证集规则筛选客群逾期率/训练集规则筛选客群逾期率)*(验证集规则拒绝率/训练集规则拒绝率)}；设定规则阈值范围为每条规则阈值的[-0.2,+0.2]倍调节系数内范围搜索，使得样本能够在训练集和测试集中均具有泛化能力。

在本实施例中，步骤S400至少包括以下步骤：

S401、确定需要调优的参数(即规则阈值)，并设定规则阈值对应的取值范围，优选的，取值范围在20％以内波动；

S402、基于规则阈值对应的取值范围，通过贝叶斯优化算法对参数阈值进行小范围波动；

S403、通过在初始参数空间(即步骤S330得到的规则集)中采样一定数量的参数组合来构建初始样本数据集及解空间；

S404、根据目标函数的计算结果和新参数组合，更新贝叶斯优化算法的模型，并进行下一次迭代，执行步骤S405；

S405、继续进行迭代，直到达到预先设定的迭代次数或满足停止条件。

可以理解的是，迭代次数与停止条件可根据实际需要进行设置。

优选的，上述训练集包括第一训练样本集与第二训练样本集的样本并集。

S500、基于规则阈值调优结果、测试样本集与步骤S330生成的规则集，对调优处理效果进行评估。优选的，步骤S500具体为：将调优得到的最优参数组合应用于测试集，并计算其在测试集上的逾期率和拒绝率，再与步骤S330生成的规则集进行比较，以确认算法调优后的模型效果。

本发明通过贝叶斯优化算法与测试样本集，能够自动对规则阈值调优处理，使得生成的规则具有更强的泛化能力和区分能力；进一步对调优处理效果进行评估，能够确认算法调优后的模型效果。

如图2所示，本发明还对应提供一种风控规则生成系统，其包括：数据获取模块10，用于获取原始样本数据集，原始样本集中包含客户标签及自变量；分箱模块20，基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；抽样模块30，用于对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集，第一训练样本集与第二训练样本集内至少包括客户标签与潜在规则变量，潜在规则变量为数值型变量；风控规则生成模块40，用于基于第一训练样本集、第二训练样本集，以及潜在规则变量的对应阈值与潜在规则变量对应的潜在规则，设置迭代训练停止目标值；判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集；根据预设规则筛选条件对规则集进行数据剔除与数据比对处理，得到新的样本数据集以及最优规则；基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的最优规则所组成的规则集。

在本实施例中，所述风控规则生成系统还包括调优模块，用于基于贝叶斯优化算法与测试样本集，对风控规则生成模块中生成的规则集进行规则阈值调优处理，得到规则阈值调优结果；评估模块，用于基于规则阈值调优结果、测试样本集与步骤S330生成的规则集，对调优处理效果进行评估。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的风控规则生成方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

通过本发明所述的风控规则生成方法、系统及存储介质，能够自动寻找最优规则，同时可以克服专家经验及决策树算法生成规则的两种方法存在的部分缺陷，为生成规则方案提供另一种选择；本发明根据需要的逾期率和通过率(以及收益率)自动迭代计算，一次能够批量生成几十上百条规则，极大节省了人工重复操作的工作量；并且本发明具有现实的工程背景，最主要应用场景为贷款业务开始阶段，在没有任何基础规则的情况，从零开始生产贷款产品的初始准入规则集合，尤其适用于在合作方驻场分析，利用合作方数据生产前置规则的环境，因为该环境要求短时间内完成分析工作。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种风控规则生成方法，其特征在于，包括以下步骤：

S100、获取原始样本数据集，原始样本集中包含客户标签及自变量；

S200、基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集，第一训练样本集与第二训练样本集内至少包括客户标签与潜在规则变量，潜在规则变量为数值型变量；

S300、基于第一训练样本集、第二训练样本集，以及潜在规则变量的对应阈值，设置迭代训练停止目标值；

S310、判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集；

S320、根据预设规则筛选条件对规则集进行数据剔除与数据比对处理，得到新的样本数据集以及最优规则；

S330、基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的最优规则所组成的规则集；

步骤S310至少包括以下步骤：

S311、判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，若潜在规则变量的数量为一个，则执行步骤S311a，若潜在规则变量的数量为两个，则执行步骤S311b；

S311a、获取第一训练样本集中的所有潜在规则变量的对应阈值，选取潜在规则变量的对应阈值的最大值，并基于最大值选取第一训练样本集中预设比例的第一客群，或者，选取潜在规则变量的对应阈值的最小值，并基于最小值选取第一训练样本集中预设比例的第一客群；计算第一客群的逾期率与收益率；根据逾期率与收益率的计算结果，筛选出第一规则集；

S311b、获取第一训练样本集中的潜在规则自变量，通过排列组合的方式在所有潜在规则变量中随机筛选出两个潜在规则变量的组合；通过等频分箱方法形成行数为N、列数为M的交叉表，交叉表中的每个网格表示同时满足两个潜在规则变量的组合分箱阈值的样本集合；获取交叉表中预设位置网格所对应的规则并进行保存，得到第二规则集以及根据其中每条规则筛选得到的第二客群；执行步骤S312；

S312、重新设置步骤S311b中交叉表的行数与列数，并基于新的行数与列数，重复步骤S311b，直至得到所有潜在规则变量的组合对应的多种交叉表下的第二规则集合以及第二客群；

步骤S320至少包括以下步骤：

S321、根据预设规则筛选的样本量条件，对步骤S311a与S312得到的第一规则集与第二规则集进行第一剔除处理；

S322、根据预设规则筛选逻辑，对第一剔除处理后得到的剩余规则进行筛选，得到第三规则集；

S323、对于第三规则集中的每条规则，筛选出第二训练样本集中与其对应的第三客群，并分别与步骤S311a中的第一客群、步骤S312中的第二客群进行数据比对，以得到符合预设条件的最优规则；

S324、根据步骤S323筛选后得到的最优规则，对第一、第二训练样本集进行第二剔除处理，剔除命中最优规则的样本数据，得到新的样本数据集；

步骤S321中，预设规则筛选的样本量条件具体包括预设规则筛选得到样本量对应的第一上限值与第一下限值；第一剔除处理具体为：剔除第一规则集与第二规则集中规则筛选得到的样本量大于第一上限值的规则，以及剔除第一规则集与第二规则集中规则筛选得到的样本量小于第一下限值的规则；

步骤S322中，预设规则筛选逻辑具体为：通过筛选得到逾期率高于预设逾期率阈值，或者收益率低于预设收益率阈值的规则；

步骤S323中数据比对具体为：将第三客群的逾期率与第一客群的逾期率进行数据比对；若第三客群的逾期率下降幅度大于预设下降比例，则从第三规则集中剔除该规则，并在剩余规则中选取对应的第一客群中逾期率最高的规则作为最优规则；或者，将第三客群的收益率与第一客群的收益率进行数据比对，若第三客群的收益率上升幅度大于预设上升比例，则从第三规则集中剔除该规则，并在剩余规则中选取对应的第一客群中收益率最低的规则作为最优规则。

2.根据权利要求1所述的风控规则生成方法，其特征在于：步骤S200中，筛选出符合预设筛选条件的潜在规则变量，具体包括以下步骤：

S210、基于客户标签，计算潜在规则变量的IV值，并筛选出IV值大于或等于预设IV值阈值的潜在规则变量；

S220、计算潜在规则变量的缺失率，并筛选出缺失率小于或等于预设缺失率阈值的潜在规则变量；

S230、计算潜在规则变量的单一值比例，并筛选出单一值比例小于或等于预设单一值阈值的潜在规则变量。

3.根据权利要求1所述的风控规则生成方法，其特征在于：步骤S300中，迭代训练停止目标值至少包括通过率目标值、逾期率目标值、收益率目标值其中一种或者两种以上。

4.根据权利要求1所述的风控规则生成方法，其特征在于：

步骤S100中，对原始样本数据集进行抽样时，还得到测试样本集；

所述方法还包括以下步骤：

S400、基于贝叶斯优化算法与测试样本集，对步骤S330中生成的规则集进行规则阈值调优处理，得到规则阈值调优结果；

S500、基于规则阈值调优结果、测试样本集与步骤S330生成的规则集，对调优处理效果进行评估。

5.一种风控规则生成系统，其特征在于，包括：

数据获取模块，用于获取原始样本数据集，原始样本集中包含客户标签及自变量；

分箱模块，基于卡方分箱方式与客户标签，对自变量进行分箱，筛选出符合预设筛选条件的潜在规则变量；

抽样模块，用于对原始样本数据集进行抽样，得到第一训练样本集与第二训练样本集，第一训练样本集与第二训练样本集内至少包括客户标签与潜在规则变量，潜在规则变量为数值型变量；

风控规则生成模块，用于基于第一训练样本集、第二训练样本集，以及潜在规则变量的对应阈值与潜在规则变量对应的潜在规则，设置迭代训练停止目标值；判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集；根据预设规则筛选条件对规则集进行数据剔除与数据比对处理，得到新的样本数据集以及最优规则；基于新的样本数据集进行迭代训练，直至产品目标收敛至迭代训练停止目标值，并输出每次迭代训练生成的最优规则所组成的规则集；

其中，判断第一训练样本集中每条潜在规则所包含的潜在规则变量的数量，并根据数量选择对应的规则筛选方式，以生成规则集，至少包括以下步骤：

步骤S320至少包括以下步骤：

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有风控规则生成程序，所述风控规则生成程序被处理器执行时实现如权利要求1至4任一项所述的风控规则生成方法的步骤。