CN116011883B - 一种金融风控决策规则的调优方法、系统及存储介质 - Google Patents
一种金融风控决策规则的调优方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116011883B CN116011883B CN202310084267.2A CN202310084267A CN116011883B CN 116011883 B CN116011883 B CN 116011883B CN 202310084267 A CN202310084267 A CN 202310084267A CN 116011883 B CN116011883 B CN 116011883B
- Authority
- CN
- China
- Prior art keywords
- rule
- optimization
- threshold
- data
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003066 decision tree Methods 0.000 claims description 26
- 239000002131 composite material Substances 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000006698 induction Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims 1
- 230000000996 additive effect Effects 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 5
- 239000000203 mixture Substances 0.000 description 7
- 238000009472 formulation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种金融风控决策规则的调优方法、系统及存储介质,其包括:步骤a.获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定;步骤b.判断标签数据是否为正、反两个类别其中之一;若否,则返回步骤a,若是,则执行步骤c;步骤c.对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,若否,则将其转换为默认规则类型;步骤d.在规则系统中执行对应的优化结果。通过本发明能够自动的进行规则优化,极大节省了对规则系统进行优化提升所需的人力物力,提升了规则系统调整迭代的时效性,提高优化效率。
Description
技术领域
本发明涉及金融风控技术领域,特别是一种金融风控决策规则的调优方法、应用该方法的系统及计算机可读存储介质。
背景技术
冷启动是指在没有或只有很少量数据的情况下,从0到1建立业务模型的过程。巧妇难为无米之炊,如果没有数据进行支撑,所有的模型、策略都只是空中阁楼,对于金融风控决策规则系统,冷启动及运行优化问题由来已久,并且广泛存在于涉及风控的各个行业之中。
对于风控决策规则系统的冷启动及在线优化,主要包含以下三个操作方向:
1、规则系统缺乏相关标签或数据指引,在自身上线运行后根据运行情况进行反馈调整;
2、初始的规则系统与其它在运行的规则系统具备大量的相似之处,采用数据驱动的分析迁移或专家经验迁移等方式,能够参考其它系统的运行规则阈值用于新上线规则系统;
3、当前规则系统缺乏同类相似系统进行阈值参考,但已经积累了大量的历史或第第三方样本及其标签,当前规则系统可以分析历史或第第三方样本及其标签用于规则系统的制定。
但是,目前对于第三个方向,风控决策规则系统的阈值主要依赖于专家经验的制定,缺乏从历史数据中分析与指引新上线风控决策规则系统阈值制定的自动化方法,导致对规则系统进行优化提升需要耗费大量的人力物力,效率较低。
发明内容
本发明的主要目的在于提供了一种金融风控决策规则的调优方法、系统及存储介质,旨在解决现有的金融风控决策规则的调优方法缺乏从历史数据中分析与指引新上线风控决策规则系统阈值制定的自动化方法,导致对规则系统进行优化提升需要耗费大量的人力物力,效率较低的技术问题。
为实现上述目的,本发明提供了一种金融风控决策规则的调优方法,其包括以下步骤:步骤a.获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定,标签制定具体为将样本数据与第三方标签数据进行数据匹配,将匹配成功的标签数据与对应的样本数据进行关联;步骤b.对标签数据进行归纳,判断标签数据是否为正、反两个类别其中之一;若否,则返回步骤a,若是,则执行步骤c;步骤c.对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,若否,则将其转换为默认规则类型后,根据默认规则类型对应的预设优化方式进行优化;其中,默认规则类型至少包括强命中规则、软间隔规则、多因子规则;步骤d.在规则系统中执行对应的优化结果。
可选的,强命中规则为样本数据在命中该规则后,系统直接得到对应结果;所述步骤c中,若规则类型为强命中规则,则对应的预设优化方式为第一优化方式,至少包括对噪声样本及对应的标签数据进行排除。
可选的,软间隔规则为样本数据中需要优化的规则阈值超过预设阈值后,系统得到对应结果;软间隔规则包括单阈值规则、复合特征规则,单阈值规则仅存在一个需要优化的规则阈值,复合特征规则至少存在两个需要优化的规则阈值。
可选的,规则阈值为数值或区间范围,若规则阈值为区间范围,则将其转化为多个单条阈值,且多个单条阈值共同作用。
可选的,所述步骤c中,若规则类型为软间隔规则,对于单阈值规则,对应的预设优化方式为第二优化方式,具体包括如下步骤:采用搜索类的算法进行阈值搜索,用于调整单阈值规则;基于调整后的单阈值规则,计算规则调整阈值后的预测标签与标签数据的相关指标,并选取指标最优的阈值作为优化结果;其中,相关指标至少包括准确度、精确度、召回率、通过率;
对于复合特征规则,对应的预设优化方式为第三优化方式,具体为采用决策树进行规则优化建模,包括如下步骤:将该规则所需的特征作为决策树的输入,第三方标签数据作为该决策树的真实标签;根据该规则所需的特征,对决策树的深度进行设定,在此基础上进行训练;在决策树对该规则所需的特征与标签数据进行拟合后,提取坏分支及其特征阈值,用于设定复合特征规则的优化阈值。
可选的,多因子规则为某些规则下由多个因子组进行联合判别,多个因子组间若采取不同计分方式,则采用不同预设优化方式进行优化;每个因子组内存在一条或多条的强命中规则和/或软间隔规则;步骤c中若多因子规则涉及强命中规则,则采用第一优化方式;若涉及软间隔规则,且具体为单阈值规则,则采用第二优化方式,若具体为复合特征规则,则采用第三优化方式。
可选的,计分方式至少包括最大因子规则计分方式:在同一因子组内取命中组内规则得分的最大值作为该因子组的得分,并将所有因子组的得分进行相加后,得到多因子规则的最终得分;
最大因子规则计分方式对应的预设优化方式为第四优化方式,具体包括如下步骤:将各个规则的样本特征以分箱形式确定初步分割点,其中,对缺失值进行单独分箱;根据分箱结果,对每个分箱进行one-hot编码,并计算对应的woe值,将缺失值分箱对应的woe值设置为0;将woe值进行排序,取同一因子组内最大的woe值;设定不同的优化指标,在woe值的基础上建立逻辑回归模型,并根据优化指标选择样本特征,得到woe值的对应权重与LR系数;过滤woe值的对应权重与LR系数为负的样本特征后,再进行多次特征迭代建模,得到最终的woe值的对应权重与LR系数。
可选的,计分方式还包括加总因子规则计分方式:将同一因子组内命中组内规则的得分总和作为该因子组的得分,并将所有因子组的得分进行相加后,得到多因子规则的最终得分;
加总因子规则计分方式对应的预设优化方式为第五优化方式,具体包括如下步骤:将各个规则的样本特征以分箱形式确定初步分割点,其中,对缺失值进行单独分箱;根据分箱结果,对每个分箱进行one-hot编码,并计算对应的woe值,将缺失值分箱对应的woe值设置为0;取同一因子组内woe值的总和;设定不同的优化指标,在woe值的基础上建立逻辑回归模型,并根据优化指标选择样本特征,得到woe值的对应权重与LR系数;过滤woe值的对应权重与LR系数为负的样本特征后,再进行多次特征迭代建模,得到最终的woe值的对应权重与LR系数。
与所述金融风控决策规则的调优方法相对应的,本发明提供一种金融风控决策规则的调优系统,其包括:预处理及标签制定模块,用于获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定,标签制定具体为将样本数据与第三方标签数据进行数据匹配,将匹配成功的标签数据与对应的样本数据进行关联;标签数据归纳模块,用于判断标签数据是否为正、反两个类别其中之一,若否,则重新获取待调优金融风控决策规则系统的样本数据,若是,则进行规则类型分析;规则类型分析与转换模块,用于对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则直接根据预设优化方式进行优化,若否,则将其转换为默认规则类型后,进行优化;其中,默认规则类型至少包括强命中规则、软间隔规则、多因子规则;优化模块,用于根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,并在规则系统中执行对应的优化结果。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有金融风控决策规则的调优程序,所述金融风控决策规则的调优程序被处理器执行时实现如上文所述的金融风控决策规则的调优方法的步骤。
本发明的有益效果是:
(1)通过获取待调优金融风控决策规则系统的样本数据进行标签制定与归纳,结合预设优化方式,能够自动的进行规则优化,极大节省了对规则系统进行优化提升所需的人力物力,提升了规则系统调整迭代的时效性,提高优化效率;通过本发明能够便捷高效的对规则系统进行优化提升,并且,能够针对缺乏经验的新场景规则系统提出数据驱动的优化参考;
(2)针对强命中规则,通过对噪声样本及标签进行排除,能够避免强命中规则的样本数据及标签数据对后续其它优化结果的影响,提高优化准确率与效率;
(3)通过将区间范围转化为多个单条阈值,且多个单条阈值共同作用,转换为多条规则进行组合优化,提高优化效率;
(4)通过决策树进行规则优化建模,针对每条单独的规则构建一个模型,利用决策树对于特征的分割方式,找到坏标签在树内的决策路径,并得到对应的特征阈值,优化方式复杂度较低,优化效率较高;
(5)针对多因子规则,采用不同的预设优化方式,进行分箱时,因子规则能够找到合适的划分阈值;由于每条因子规则所占分值权重不一样,因此通过后续woe编码方式找出最适合的分数权重,再根据最后指标效果采用网格搜索的方式划分阈值,用于判断这个多因子规则是否通过,最终实现了对规则的阈值、组成规则的权重占比的调整优化,并且在优化过程中能够去除原系统内冗余无效的规则,提高优化效率;
(6)分箱后进行woe编码,再对编码进行建模,提出了一种创新的建模方式,能够比较巧妙地解决多因子规则优化的问题,提高优化效率;
(7)本发明对规则优化采用的算法的解释性、流程可控性更强,所需计算任务有针对性,采用决策树、逻辑回归模型,整体所耗计算资源相对较少。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明金融风控决策规则的调优方法的流程简图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种金融风控决策规则的调优方法,其包括以下步骤:步骤a.获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定,标签制定具体为将样本数据与第三方标签数据进行数据匹配,将匹配成功的标签数据与对应的样本数据进行关联;步骤b.对标签数据进行归纳,判断标签数据是否为正、反两个类别其中之一;若否,则返回步骤a,若是,则执行步骤c;步骤c.对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,若否,则将其转换为默认规则类型后,根据默认规则类型对应的预设优化方式进行优化;其中,默认规则类型至少包括强命中规则、软间隔规则、多因子规则;步骤d.在规则系统中执行对应的优化结果。
本发明通过获取待调优金融风控决策规则系统的样本数据,对其进行标签制定与归纳,结合预设优化方式,能够自动的进行规则优化,极大节省了对规则系统进行优化提升所需的人力物力,提升了规则系统调整迭代的时效性,提高优化效率;通过本发明能够便捷高效的对规则系统进行优化提升,并且,能够针对缺乏经验的新场景规则系统提出数据驱动的优化参考。
在本实施例中,第三方标签数据为合作方(例如外部政府机构或其它官方机构)提供的标签数据,由于第三方往往覆盖范围较广,例如某个第三方合作机构服务范围覆盖了某市所有市民,而金融风控决策规则系统的金融产品仅服务于部分市民,因此需要一个数据匹配的过程。当然,根据第三方平台不同可能也存在本系统服务的人员在第三方机构提供的标签数据中不存在对应标签,即数据匹配失败。
在本实施例中,优选的,数据匹配过程主要是得到第三方标签数据后,获取第三方对于客户的唯一标识和内部样本数据的唯一标识进行数据匹配,若匹配成功则进行数据关联。唯一标识优选为是身份证、统一社会信用代码等。
优选的,第三方标签一般有两种形式,一种是提供明确的二分类结果(例如拒绝和通过),另一种是以分数的形式提供,对于第二种方式而言,一般分数越高,表示客户信用越好。
如果以分数的形式提供的第三方标签数据,则需要选取一个阈值,高于这个阈值即为通过,低于这个阈值即为拒绝。这个阈值一般是在数据关联完成后,利用内部的样本数据和样本在内部实际表现的行为进行阈值选定。比如划定某个阈值以下,覆盖了这个金融产品95%的内部拒绝标签客户(包括黑名单、欺诈、逾期等)。
本发明的优化方法主要针对标签数据可被归纳为正反两类的规则系统,因此,步骤b中需要对标签数据进行归纳,判断规则系统是否适用于本发明的调优方法。可被归纳为正、反两类的标签数据例如为:允许或拒绝、上升或下降等,即相关标签支持两个类别。
优选的,预处理至少包括缺失值填充、分布矫正、数据规范化。
本发明所述默认规则类型,相当于对当前主流规则系统内规则形式的总结,对于不同形式的规则可采用不同的转换方法转换为这几类规则中的某一种。
在本实施例中,强命中规则为样本数据在命中该规则后,系统直接得到对应结果;强命中规则范例如调用三方数据是否返回、是否在黑名单内等。
在本实施例中,所述步骤c中,若规则类型为强命中规则,则对应的预设优化方式为第一优化方式,至少包括对噪声样本及对应的标签数据进行排除。
强命中规则在规则优化阶段进行样本分析后,需要排除软件系统客观影响的规则命中以免对其它规则优化产生不良影响,对于非客观因素的命中(例如黑名单)可通过调整软间隔规则及多因子规则内进行结果优化。
强命中规则例如为内部采购的黑名单、逾期名单等,第三方标签和内部强命中规则可能会有冲突。具体而言,强命中规则主要是通过样本数据的唯一标识(比如身份证)去匹配黑名单或逾期名单(即强命中规则)中的列表,判断样本数据是否存在于清单内。其中,可能存在第三方标签对于某个样本给出的结果是通过,但是该样本数据的身份证又存在于内部黑名单或逾期清单内,此时就说明第三方提供的标签数据可能存在问题,则将该样本数据视为噪声样本,并对噪声样本及对应的标签数据进行排除。
此外,还可能存在另一种情况,对于某个样本数据第三方标签数据为拒绝,但是该样本数据并没有命中内部的黑名单(即强命中规则),此时则需要通过优化后续的软间隔规则和多因子规则,让该样本在规则系统内最终能够实现输出拒绝,保持和第三方标签数据结果一致。
本发明针对强命中规则,通过对噪声样本及标签进行排除,能够避免强命中规则的样本数据及标签数据对后续其它优化结果的影响,提高优化准确率与效率。
在本实施例中,软间隔规则为样本数据中需要优化的规则阈值超过预设阈值后,系统得到对应结果;软间隔规则包括单阈值规则、复合特征规则,单阈值规则仅存在一个需要优化的规则阈值,复合特征规则至少存在两个需要优化的规则阈值。
具体而言,以反欺诈系统为例,例如规则为“同一IP 10分钟内访问次数达到30次”、“客户账号在30秒内登录失败次数达到5次”,对于该规则中设定的“次数”的大小即需要优化的规则阈值,在“次数”大于该阈值时,系统直接得出关于该样本的结论,且两个规则需要优化的规则阈值只有1个,则为单阈值规则。
对于复合特征规则,例如信用分与年龄类的交叉规则,规则为“年龄大于50岁且信用分高于600的人”,在一条规则中设置了年龄与信用分两个特征组合,需要优化的规则阈值包括年龄的50和信用分的600,存在2个需要优化的规则阈值,则为复合特征规则。
优选的,规则阈值为数值或区间范围,若规则阈值为区间范围,则将其转化为多个单条阈值,且多个单条阈值共同作用。
具体而言,例如规则为“如果年龄在30至50之间,那么通过”,可将其拆解为“如果年龄小于等于30,那么拒绝”与“如果年龄大于等于50,那么拒绝”两条规则,进行组合优化。
本发明通过将区间范围转化为多个单条阈值,且多个单条阈值共同作用,转换为多条规则进行组合优化,提高优化效率。
当然,除了多特征交叉之外,可能还存在多条规则进行关联的情形,例如“近三月查询0-3次、4-6次、7次以上”为三条独立的规则,可以将其视为三个分箱,根据卡方分箱或其它分箱方法将其分为三个箱,即可得到两个中间划分阈值。
在本实施例中,所述步骤c中,若规则类型为软间隔规则,对于单阈值规则,对应的预设优化方式为第二优化方式,具体包括如下步骤:采用搜索类的算法进行阈值搜索,用于调整单阈值规则;基于调整后的单阈值规则,计算规则调整阈值后的预测标签与标签数据的相关指标,并选取指标最优的阈值作为优化结果。
本实施例中,通过阈值搜索来获取一个合理的阈值,并以搜索得到新的阈值替代旧的阈值,从而使该条规则输出的结果尽量和第三方标签保持一致,使得该规则判别结果更趋向第三方标签。
优选的,搜索类的算法至少包括网格搜索、随机搜索、贝叶斯优化其中一种。
在本实施例中,基于调整后的单阈值规则,计算规则调整阈值后的预测标签与标签数据的相关指标;具体为将样本数据在调整后的单阈值规则上重新进行判断,得到调整阈值后的预测标签;优选的,相关指标至少包括准确度、精确度、召回率、通过率。
在本实施例中,对于复合特征规则,对应的预设优化方式为第三优化方式,具体为采用决策树进行规则优化建模,包括如下步骤:将该规则所需的特征作为决策树的输入,第三方标签数据作为该决策树的真实标签;根据该规则所需的特征,对决策树的深度进行设定,在此基础上进行训练;在决策树对该规则所需的特征与标签数据进行拟合后,提取坏分支及其特征阈值,用于设定复合特征规则的优化阈值。
在本实施例中,该规则所需的特征即该规则判断所需的数据,例如某个复合特征规则是:年龄在60以下且年收入30万以上判断通过,这时候决策树的输入就是“年龄”和“年收入”两个特征。
优选的,树的深度设定为样本特征数目+1。所述坏分支为叶子节点为拒绝的分支,提取坏分支对应的特征阈值,并将其作为优化后的阈值。
本发明通过决策树进行规则优化建模,针对每条单独的规则构建一个模型,利用决策树对于特征的分割方式,找到坏标签在树内的决策路径,并得到对应的特征阈值,优化方式复杂度较低,优化效率较高。
在本实施例中,多因子规则为某些规则下由多个因子组进行联合判别,例如:对于多因子规则A下有多个因子组A1、A2、A3,因子组内可能存在一条或多条强命中规则和/或软间隔规则。
步骤c中若多因子规则涉及强命中规则,则采用第一优化方式;若涉及软间隔规则,且具体为单阈值规则,则采用第二优化方式,若具体为复合特征规则,则采用第三优化方式。
多个因子组间若采取不同计分方式,则采用不同预设优化方式进行优化。在本实施例中,计分方式至少包括最大因子规则计分方式:在同一因子组内取命中组内规则得分的最大值作为该因子组的得分,并将所有因子组的得分进行相加后,得到多因子规则的最终得分。
例如以最大因子规则为例,在同一因子组(A1或A2或A3)内取命中组内规则得分的最大值作为该因子组的得分,并将所有因子组(A1、A2和A3)的得分进行相加后,得到多因子规则A的最终得分,最后通过比对A的决策阈值来判别是否通过A规则。
最大因子规则计分方式对应的预设优化方式为第四优化方式,具体包括如下步骤:将各个规则的样本特征以分箱形式确定初步分割点,其中,对缺失值进行单独分箱;根据分箱结果,对每个分箱进行one-hot编码,并计算对应的woe值,将缺失值分箱对应的woe值设置为0;将woe值进行排序,取同一因子组内最大的woe值;设定不同的优化指标,在woe值的基础上建立逻辑回归模型,并根据优化指标选择样本特征,得到woe值的对应权重与LR系数;过滤woe值的对应权重与LR系数为负的样本特征后,再进行多次特征迭代建模,得到最终的woe值的对应权重与LR系数。
因为模型是针对woe值建立的,所以相关LR系数为woe值的权重,最终的分数转换为woe分值乘以最终模型训练得到的LR系数(即对应权重),对最终woe(权重)*LR系数的值可以再经过归一化得到最终的系统要用的分值。
优化指标至少包括准确度、精确度、召回率、通过率等。根据不同指标优化出阈值后,进行人工筛选;当然,也可以采用平均、众数等策略计算最终阈值。
在本实施例中,计分方式还包括加总因子规则计分方式:将同一因子组内命中组内规则的得分总和作为该因子组的得分,并将所有因子组的得分进行相加后,得到多因子规则的最终得分。
例如,将同一因子组(A1或A2或A3)内命中组内规则的得分总和作为该因子组的得分,并将所有因子组(A1、A2和A3)的得分进行相加后,得到多因子规则A的最终得分。
当然,多因子规则内的子规则也可能是一些区间范围的软间隔规则,对于区间范围的阈值规则需要采用软间隔规则内描述的规则转换方法拆分为多条规则。
例如,以某个申请反欺诈风控系统为例,在某一模块中将规则分为多个因子组,例如多头因子组、黑名单因子组、反欺诈因子组。
多头因子组中包含四个因子,包括近一个月查询5次以上、近三月查询0-3次、4-6次、7次以上,其中对应分值为50分、5分、30分、60分;
黑名单因子下仅包含一个因子,信用分低于650分则拒绝,对应分值为50分;
反欺诈因子组内包含三个因子,包括模型欺诈分介于0-40分、40-50分、50分以上,对应分值为5分、30分、60分。
最终结果主要考察这几个因子组下的子规则命中情况,汇总得到多因子规则的通过情况。
加总因子规则计分方式对应的预设优化方式为第五优化方式,具体包括如下步骤:将各个规则的样本特征以分箱形式确定初步分割点,其中,对缺失值进行单独分箱;根据分箱结果,对每个分箱进行one-hot编码,并计算对应的woe值,将缺失值分箱对应的woe值设置为0;取同一因子组内woe值的总和;设定不同的优化指标,在woe值的基础上建立逻辑回归模型,并根据优化指标选择样本特征,得到woe值的对应权重与LR系数;过滤woe值的对应权重与LR系数为负的样本特征后,再进行多次特征迭代建模,得到最终的woe值的对应权重与LR系数。
本发明针对多因子规则,采用不同的预设优化方式,进行分箱时,因子规则能够找到合适的划分阈值;由于每条因子规则所占分值权重不一样,因此通过后续woe编码方式找出最适合的分数权重,再根据最后指标效果采用网格搜索的方式划分阈值,最终实现了对规则的阈值、组成规则的权重占比的调整优化,并且在优化过程中能够去除原系统内冗余无效的规则,提高优化效率。
进一步而言,分箱后进行woe编码,再对编码进行建模,提出了一种创新的建模方式,能够比较巧妙地解决多因子规则优化的问题,提高优化效率。
在本实施例中,步骤d中在规则系统中执行对应的优化结果,若是在步骤c中进行了规则转换,则需要以同样的方法将规则转换回原来的类型,若不进行人工转换的话,也可以将拆分后的规则直接对原系统规则进行替换。
本发明对规则优化的解释性与流程可控性更强,所需计算任务有针对性,整体所耗计算资源相对较少。
与所述金融风控决策规则的调优方法相对应的,本发明提供一种金融风控决策规则的调优系统,其包括:预处理及标签制定模块,用于获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定,标签制定具体为将样本数据与第三方标签数据进行数据匹配,将匹配成功的标签数据与对应的样本数据进行关联;标签数据归纳模块,用于判断标签数据是否为正、反两个类别其中之一,若否,则重新获取待调优金融风控决策规则系统的样本数据,若是,则进行规则类型分析;规则类型分析与转换模块,用于对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则直接根据预设优化方式进行优化,若否,则将其转换为默认规则类型后,进行优化;其中,默认规则类型至少包括强命中规则、软间隔规则、多因子规则;优化模块,用于根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,并在规则系统中执行对应的优化结果。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现图1所示的金融风控决策规则的调优方法。所述计算机可读存储介质可以是只读存储器,磁盘或光盘等。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (6)
1.一种金融风控决策规则的调优方法,其特征在于,包括以下步骤:
步骤a.获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定,标签制定具体为将样本数据与第三方标签数据进行数据匹配,将匹配成功的标签数据与对应的样本数据进行关联;第三方标签数据为合作方提供的标签数据,数据匹配过程是得到第三方标签数据后,获取第三方对于客户的唯一标识和内部样本数据的唯一标识进行数据匹配,若匹配成功则进行数据关联;
步骤b.对标签数据进行归纳,判断标签数据是否为正、反两个类别其中之一;若否,则返回步骤a,若是,则执行步骤c;
步骤c.对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,若否,则将其转换为默认规则类型后,根据默认规则类型对应的预设优化方式进行优化;其中,默认规则类型至少包括强命中规则、软间隔规则、多因子规则;
步骤d.在规则系统中执行对应的优化结果;
强命中规则为样本数据在命中该规则后,系统直接得到对应结果;
所述步骤c中,若规则类型为强命中规则,则对应的预设优化方式为第一优化方式,至少包括对噪声样本及对应的标签数据进行排除;
软间隔规则为样本数据中需要优化的规则阈值超过预设阈值后,系统得到对应结果;
软间隔规则包括单阈值规则、复合特征规则,单阈值规则仅存在一个需要优化的规则阈值,复合特征规则至少存在两个需要优化的规则阈值;
所述步骤c中,若规则类型为软间隔规则,对于单阈值规则,对应的预设优化方式为第二优化方式,具体包括如下步骤:
采用搜索类的算法进行阈值搜索,用于调整单阈值规则;
基于调整后的单阈值规则,计算规则调整阈值后的预测标签与标签数据的相关指标,并选取指标最优的阈值作为优化结果;其中,相关指标至少包括准确度、精确度、召回率、通过率;
对于复合特征规则,对应的预设优化方式为第三优化方式,具体为采用决策树进行规则优化建模,包括如下步骤:
将该规则所需的特征作为决策树的输入,第三方标签数据作为该决策树的真实标签;
根据该规则所需的特征,对决策树的深度进行设定,在此基础上进行训练;
在决策树对该规则所需的特征与标签数据进行拟合后,提取坏分支及其特征阈值,用于设定复合特征规则的优化阈值;
多因子规则为某些规则下由多个因子组进行联合判别,多个因子组间若采取不同计分方式,则采用不同预设优化方式进行优化;
每个因子组内存在一条或多条的强命中规则和/或软间隔规则;步骤c中若多因子规则涉及强命中规则,则采用第一优化方式;若涉及软间隔规则,且具体为单阈值规则,则采用第二优化方式,若具体为复合特征规则,则采用第三优化方式。
2.根据权利要求1所述的一种金融风控决策规则的调优方法,其特征在于:规则阈值为数值或区间范围,若规则阈值为区间范围,则将其转化为多个单条阈值,且多个单条阈值共同作用。
3.根据权利要求1所述的一种金融风控决策规则的调优方法,其特征在于:计分方式至少包括最大因子规则计分方式:在同一因子组内取命中组内规则得分的最大值作为该因子组的得分,并将所有因子组的得分进行相加后,得到多因子规则的最终得分;
最大因子规则计分方式对应的预设优化方式为第四优化方式,具体包括如下步骤:
将各个规则的样本特征以分箱形式确定初步分割点,其中,对缺失值进行单独分箱;
根据分箱结果,对每个分箱进行one-hot编码,并计算对应的woe值,将缺失值分箱对应的woe值设置为0;
将woe值进行排序,取同一因子组内最大的woe值;
设定不同的优化指标,在woe值的基础上建立逻辑回归模型,并根据优化指标选择样本特征,得到woe值的对应权重与LR系数;
过滤woe值的对应权重与LR系数为负的样本特征后,再进行多次特征迭代建模,得到最终的woe值的对应权重与LR系数。
4.根据权利要求3所述的一种金融风控决策规则的调优方法,其特征在于:计分方式还包括加总因子规则计分方式:将同一因子组内命中组内规则的得分总和作为该因子组的得分,并将所有因子组的得分进行相加后,得到多因子规则的最终得分;
加总因子规则计分方式对应的预设优化方式为第五优化方式,具体包括如下步骤:
将各个规则的样本特征以分箱形式确定初步分割点,其中,对缺失值进行单独分箱;
根据分箱结果,对每个分箱进行one-hot编码,并计算对应的woe值,将缺失值分箱对应的woe值设置为0;
取同一因子组内woe值的总和;
设定不同的优化指标,在woe值的基础上建立逻辑回归模型,并根据优化指标选择样本特征,得到woe值的对应权重与LR系数;
过滤woe值的对应权重与LR系数为负的样本特征后,再进行多次特征迭代建模,得到最终的woe值的对应权重与LR系数。
5.一种金融风控决策规则的调优系统,其特征在于,包括:
预处理及标签制定模块,用于获取待调优金融风控决策规则系统的样本数据,对其进行预处理及标签制定,标签制定具体为将样本数据与第三方标签数据进行数据匹配,将匹配成功的标签数据与对应的样本数据进行关联;第三方标签数据为合作方提供的标签数据,数据匹配过程是得到第三方标签数据后,获取第三方对于客户的唯一标识和内部样本数据的唯一标识进行数据匹配,若匹配成功则进行数据关联;
标签数据归纳模块,用于判断标签数据是否为正、反两个类别其中之一,若否,则重新获取待调优金融风控决策规则系统的样本数据,若是,则进行规则类型分析;
规则类型分析与转换模块,用于对规则系统中的规则类型进行分析,判断规则类型是否为默认规则类型;若是,则直接根据预设优化方式进行优化,若否,则将其转换为默认规则类型后,进行优化;其中,默认规则类型至少包括强命中规则、软间隔规则、多因子规则;
优化模块,用于根据默认规则类型对应的预设优化方式进行优化,得到对应的优化结果,并在规则系统中执行对应的优化结果;
强命中规则为样本数据在命中该规则后,系统直接得到对应结果;若规则类型为强命中规则,则对应的预设优化方式为第一优化方式,至少包括对噪声样本及对应的标签数据进行排除;
软间隔规则为样本数据中需要优化的规则阈值超过预设阈值后,系统得到对应结果;软间隔规则包括单阈值规则、复合特征规则,单阈值规则仅存在一个需要优化的规则阈值,复合特征规则至少存在两个需要优化的规则阈值;若规则类型为软间隔规则,对于单阈值规则,对应的预设优化方式为第二优化方式,具体包括如下步骤:采用搜索类的算法进行阈值搜索,用于调整单阈值规则;基于调整后的单阈值规则,计算规则调整阈值后的预测标签与标签数据的相关指标,并选取指标最优的阈值作为优化结果;其中,相关指标至少包括准确度、精确度、召回率、通过率;对于复合特征规则,对应的预设优化方式为第三优化方式,具体为采用决策树进行规则优化建模,包括如下步骤:将该规则所需的特征作为决策树的输入,第三方标签数据作为该决策树的真实标签;根据该规则所需的特征,对决策树的深度进行设定,在此基础上进行训练;在决策树对该规则所需的特征与标签数据进行拟合后,提取坏分支及其特征阈值,用于设定复合特征规则的优化阈值;
多因子规则为某些规则下由多个因子组进行联合判别,多个因子组间若采取不同计分方式,则采用不同预设优化方式进行优化;每个因子组内存在一条或多条的强命中规则和/或软间隔规则;步骤c中若多因子规则涉及强命中规则,则采用第一优化方式;若涉及软间隔规则,且具体为单阈值规则,则采用第二优化方式,若具体为复合特征规则,则采用第三优化方式。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有金融风控决策规则的调优程序,所述金融风控决策规则的调优程序被处理器执行时实现如权利要求1至4任一项所述的金融风控决策规则的调优方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084267.2A CN116011883B (zh) | 2023-01-31 | 2023-01-31 | 一种金融风控决策规则的调优方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084267.2A CN116011883B (zh) | 2023-01-31 | 2023-01-31 | 一种金融风控决策规则的调优方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116011883A CN116011883A (zh) | 2023-04-25 |
CN116011883B true CN116011883B (zh) | 2023-11-07 |
Family
ID=86026853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310084267.2A Active CN116011883B (zh) | 2023-01-31 | 2023-01-31 | 一种金融风控决策规则的调优方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116011883B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308830B (zh) * | 2023-05-25 | 2023-08-18 | 凯泰铭科技(北京)有限公司 | 基于保险金融的规则管理及执行发布处理系统 |
CN117196823B (zh) * | 2023-09-08 | 2024-03-19 | 厦门国际银行股份有限公司 | 一种风控规则生成方法、系统及存储介质 |
CN117078403B (zh) * | 2023-10-18 | 2024-01-12 | 杭银消费金融股份有限公司 | 一种基于规则组合优化的风控决策方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861703A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
CN111915418A (zh) * | 2020-05-25 | 2020-11-10 | 百维金科(上海)信息科技有限公司 | 一种互联网金融欺诈行为在线检测方法及其装置 |
CN112163642A (zh) * | 2020-10-30 | 2021-01-01 | 北京云从科技有限公司 | 一种风控规则获取方法、装置、介质及设备 |
CN112686521A (zh) * | 2020-12-25 | 2021-04-20 | 江苏通付盾科技有限公司 | 一种风控规则调优方法和系统 |
CN115423603A (zh) * | 2022-08-31 | 2022-12-02 | 厦门国际银行股份有限公司 | 一种基于机器学习的风控模型建立方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531915B2 (en) * | 2019-03-20 | 2022-12-20 | Oracle International Corporation | Method for generating rulesets using tree-based models for black-box machine learning explainability |
-
2023
- 2023-01-31 CN CN202310084267.2A patent/CN116011883B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915418A (zh) * | 2020-05-25 | 2020-11-10 | 百维金科(上海)信息科技有限公司 | 一种互联网金融欺诈行为在线检测方法及其装置 |
CN111861703A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
CN112163642A (zh) * | 2020-10-30 | 2021-01-01 | 北京云从科技有限公司 | 一种风控规则获取方法、装置、介质及设备 |
CN112686521A (zh) * | 2020-12-25 | 2021-04-20 | 江苏通付盾科技有限公司 | 一种风控规则调优方法和系统 |
CN115423603A (zh) * | 2022-08-31 | 2022-12-02 | 厦门国际银行股份有限公司 | 一种基于机器学习的风控模型建立方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116011883A (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116011883B (zh) | 一种金融风控决策规则的调优方法、系统及存储介质 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
CN111309983A (zh) | 基于异构图进行业务处理的方法及装置 | |
CN109189901A (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN109816483B (zh) | 信息推荐方法及装置、可读存储介质 | |
CN111368147B (zh) | 图特征处理的方法及装置 | |
CN108198017B (zh) | 个性化客服处理方法及装置 | |
CN110413775A (zh) | 一种数据打标签分类方法、装置、终端及存储介质 | |
CN111079941B (zh) | 信用信息处理方法、系统、终端和存储介质 | |
CN112288455A (zh) | 标签生成方法及装置、计算机可读存储介质、电子设备 | |
CN107240033A (zh) | 一种电力识别模型的构建方法及系统 | |
CN113435627A (zh) | 基于工单轨迹信息的电力客户投诉预测方法及装置 | |
CN113570222A (zh) | 一种用户设备鉴别方法、装置和计算机设备 | |
CN117668205B (zh) | 智慧物流客服处理方法、系统、设备及存储介质 | |
KR102171658B1 (ko) | 크라우드전사장치 및 그 동작 방법 | |
CN112215629A (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
CN113077271A (zh) | 一种基于bp神经网络的企业信用评级方法及装置 | |
CN115423600B (zh) | 数据筛选方法、装置、介质及电子设备 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN114862092A (zh) | 一种基于神经网络的评标方法及设备 | |
CN115757935A (zh) | 应用计算机智能的大数据推送方法及系统 | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN115222508A (zh) | 一种信贷风险规则自动构建方法 | |
CN113450207A (zh) | 一种智能催收方法、装置、设备及存储介质 | |
CN112580268A (zh) | 基于业务处理的机器学习模型选择方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |