CN116109139A - 风控策略生成方法、决策方法、服务器及存储介质 - Google Patents
风控策略生成方法、决策方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN116109139A CN116109139A CN202310097188.5A CN202310097188A CN116109139A CN 116109139 A CN116109139 A CN 116109139A CN 202310097188 A CN202310097188 A CN 202310097188A CN 116109139 A CN116109139 A CN 116109139A
- Authority
- CN
- China
- Prior art keywords
- rule
- target
- wind control
- optimization
- solution space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
Abstract
本申请实施例提供一种风控策略生成方法、决策方法、服务器及存储介质,所述方法包括:获取业务的训练集,所述训练集包括用户在所述业务的多维特征;以及,配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件;根据所述多维特征确定目标特征;根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则;其中,每次进行划分的规则,形成所述优化目标和所述约束条件对应的规则集;根据所述规则集,生成所述优化目标和所述约束条件的风控策略。本申请实施例提供的技术方案,可以提升风控策略的生成效率。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种风控策略生成方法、决策方法、服务器及存储介质。
背景技术
随着数字化的进展,企业、事业单位、政务单位等机构可以通过业务系统处理用户的业务。在处理业务的过程中,为防范用户欺诈等恶意行为带来的业务风险,企业、事业单位、政务单位等机构可以进一步部署风控决策引擎(简称决策引擎),以对业务进行风险决策,从而降低业务处理结果的风险性。
决策引擎在进行风险决策时,需要利用到在决策引擎部署的风控策略,然而风控策略目前主要由风控策略研发人员人工研发生成,这导致风控策略的生成效率降低,因此如何提供技术方案,以提升风控策略的生成效率,成为了本领域技术人员亟需解决的技术问题。
发明内容
本申请实施例解决的技术问题是如何提升风控策略的生成效率。
为解决上述问题,本申请实施例提供如下技术方案。
第一方面,本发明实施例提供一种风控策略生成方法,包括:
获取业务的训练集,所述训练集包括用户在所述业务的多维特征;
以及,配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件;
根据所述多维特征确定目标特征;
根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则;其中,每次进行划分的规则,形成所述优化目标和所述约束条件对应的规则集;
根据所述规则集,生成所述优化目标和所述约束条件的风控策略。
第二方面,本申请实施例提供一种决策方法,包括:
获取业务处理任务;
调用风控策略,处理所述业务处理任务,以得到业务处理结果;所述风控策略基于第一方面所述的风控策略生成方法获得。
第三方面,本申请实施例提供了一种服务器,包括存储器和处理器,所述存储器存储有程序,所述处理器调用所述程序,以执行如上述第一方面所述的风控策略生成方法,或者,如上述第二方面所述的决策方法。
第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有程序,所述程序被执行时实现如上述第一方面所述的风控策略生成方法,或者,如上述第二方面所述的决策方法。
第五方面,本申请实施例提供一种计算机程序,所述计算机程序被执行时实现如上述第一方面所述的风控策略生成方法,或者,如上述第二方面所述的决策方法。
在本发明实施例提供的一种风控策略生成方法中,通过针对业务的风控规则,配置符合风控规则的优化问题参数,优化问题参数中至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件;然后,基于配置好的优化问题参数和所述业务对应的训练集,确定迭代的对所述目标特征进行多次划分的规则,并将每次划分使用的规则形成符合优化问题参数的规则集;最后基于所述规则集生成所述优化目标和所述约束条件的风控策略。
可见,本申请实施例所提供的技术方案,在获取生成风控策略的规则集时,通过基于业务的风控规则对应的优化问题,配置优化目标,以及优化目标的约束条件形成的优化问题参数;从而可以在优化目标和约束条件的基础上,确定迭代的对所述目标特征进行多次划分的规则;进一步的根据每次划分目标特征的规则形成规则集;最后基于规则集自动的生成所述优化目标和所述约束条件的风控策略。从而可以避免人工手动将规则部署至决策引擎上,以生成风控策略,提升生成风控策略的效率;同时由于在确定划分目标训练集的规则时,是基于优化目标和约束条件确定的,因此还可以进一步确保获得的规则的可靠性和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是生成风控策略的系统结构框图。
图2是基于决策引擎进行风险决策的示意图。
图3是本申请实施例所提供的风控策略生成方法的一流程示意图。
图4是本申请实施例所提供的业务的特征的一示意图。
图5是本申请实施例所提供的训练集的一示意图。
图6是本申请实施例所提供的风控策略生成方法的另一流程示意图。
图7是本申请实施例所提供的风控策略生成方法的再一流程示意图。
图8是本申请实施例所提供的风控策略生成装置的一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
风控策略是决策者针对于接收到的用户发送的业务处理任务,从而基于业务处理任务,进行各种风险相关的思考以及最终做出决定的方法。需要基于不同的业务处理任务中业务的类型进行大量的信息搜集、加工、整合,以形成辅助决策者最后做出判断、得出结论的风控策略。
风控策略可以由多个规则组成,比如:
规则1:用户信用评分>800;
规则2:用户学历=本科;
这两个规则串行就可以组成一个风控策略。
而将规则生成风控策略的过程中,通常由策略研发人员将规则部署至决策引擎上,形成多个规则节点;每一个规则节点可以认为是基于业务处理任务中业务的类型进行风险考虑时,需要进行判断和选择的一个转折点。
例如,在规则1处,风控策略基于获取到的用户的信息,判断用户的信息中关于用户信用评分这一信息是否符合大于800的条件,符合则继续执行下一规则节点处的规则判定;在判定完规则1的条件之后,如果用户的信息中关于用户信用评分这一项信息是大于800的,则继续在规则2的节点,判断用户的信息中关于学历这一信息是否符合学历为本科的条件;如果用户的信息中学历是本科,则进行下一个规则节点的判断;直至判断万风控策略中各个规则节点,得到针对于该用户的信息的风险决策结果。
在不同的业务的类型中,对应的风控策略的形成过程主要包括技术人员、业务人员、管理人员共同参与制定的,面向对应类型的整个用户业务中,业务周期各环节的风控规则;然后风控策略研发人员将风控规则手动配置于决策引擎上形成最终的风控策略。
其中,决策引擎是对用户的业务中,所包含的逻辑进行抽象化剥离出来的规则进行不同的分支组合、关联,然后层层规则递进运算,最终输出决策结果的规则模型。
为方便理解上述风控策略的形成过程,请参考图1,图1是生成风控策略的系统结构框图。
如图中所示,策略研发人员1研发业务的风控规则,并将风控规则部署到决策引擎2中,形成业务的风控策略。
当用户3打开浏览器办理需要进行风控决策的业务时,业务系统4调用策略研发人员1部署好的决策引擎2;决策引擎2对接收到的用户3所请求办理的业务进行处理,为业务处理请求面向的决策者做出符合风控规则的风险决策。
决策者可以基于上述建立好的决策引擎2,对用户请求的不同业务处理任务进行风险决策,请参考图2,图2是基于决策引擎进行风险决策的一示意图。
如图所示,决策者在对于用户所请求的不同业务处理任务进行风险决策时,首先,获取用户所请求的业务处理任务下,包含的全部用户信息;例如,当用户所请求的业务处理任务为贷款业务时,决策引擎需要获取申请贷款的用户的相关信息,如岁数、办理贷款数额、用户信用评分等信息。
然后,根据设计好的决策引擎中已经部署好的各个业务的风控规则,对用户进行评分、评级;根据不同渠道、不同产品的用户的申请信息、第三方数据、存量数据等,结合设计好的各个业务的风控规则,实现实时自动审批规则(拒绝、通过)的系统落地;进一步的根据已有决策引擎中已经部署好的各个业务风控规则,可以实现商户和客户的额度测算;实现不同的催收策略配置,实现催收客户风险排序以及高危客户检测。
决策者可以通过决策引擎来应对,针对于申请贷款的用户的贷前、贷中和贷后的风控评估、处理及预警,避免决策者产生损失。
但是,上述对于不同用户所请求的业务处理任务中,对应的业务处理结果的确定,均需要经策略研发人员手动将业务的风控规则配置于决策引擎上才能够生成可使用的风控策略;这就造成风控策略生成效率低,影响决策引擎的便捷使用的问题。
为了解决上述所存在的问题,本申请实施例提供了一种风控策略生成方法,可以提高风控策略的生成效率。
请参考图3,图3是本申请实施例所提供的风控策略生成方法的一流程示意图。
如图中所示,该流程可以包括以下步骤:
步骤S101,获取业务的训练集,所述训练集包括用户在所述业务的多维特征。
例如,当业务处理任务中,需要办理的所述业务为贷款业务时,所述训练集中包括的用户在所述业务的特征可以为:用户信用评分,岁数,标签列(比如是否逾期,是否审批通过等),业务指标列(比如逾期金额,贷款额度等)。
需要说明的是,为方便特征的统计,对于是否逾期、是否审批通过的特征通过标签进行记录,如使用标签1表示逾期,使用标签0表示未逾期;当然,也可以使用标签0表示逾期,标签1表示未逾期。
容易理解的是,一个业务对应的用户的数量是很多的,因此,上述所述的用户信用评分、岁数、是否逾期、是否审批通过、逾期金额、贷款额度均为对应于每一个用户的特征。为方便理解,请参考图4,图4是本申请实施例所提供的业务的特征的一示意图。
为方便展示,图4中以6个用户的特征为例。
其中,标签1表示审批通过和未逾期;标签0表示审批未通过和逾期。
步骤S102,配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件。
所述优化问题参数即为针对于所述业务的业务类型进行风险监测所需要的参数;比如以上述所述的业务为贷款业务为例,其对应配置的优化问题参数中,优化目标可以定义为最大化通过率,约束条件可以定义为不良率小于0.02;所表示的优化问题即为,在不良率小于0.02的前提下达到最大的通过率;其中,不良率指逾期并且无法追回的贷款金额,通过率是指贷款申请的通过率;比如100个用户申请某机构贷款,有20个被审批通过,通过率只有20%。
步骤S103,根据所述多维特征确定目标特征。
所述目标特征指训练集中选定数量的特征;也就是说,所述目标特征的数量是变化的。
继续以上述岁数、是否逾期、用户信用评分、是否审批通过、逾期金额、贷款额度特征为例进行说明。
可以看到,用户在所述业务的特征是很多的,并且每一个特征都对应有大量的特征值。因此可以认为训练集为一个多维的特征组成的高维特征空间。具体的维度数量可以根据实际情况具体设置,比如70维度,100维度。
为方便理解高维特征空间所表示的特征以及特征对应的特征值,请参考图5,图5是本申请实施例所提供的训练集的一示意图。
如图中所示,其中,竖直坐标表示特征值,水平坐标表示选定的特征,垂直坐标表示选定的特征对应所在的维数。
当然,图5仅为高维的特征空间的展示说明,并不是针对于本申请实施例所述的用户特征所作的具体展示。
所述目标特征可以为训练集中选定的岁数、是否逾期、用户信用评分、是否审批通过、逾期金额、贷款额度全部特征,也可以为是否逾期、用户信用评分、是否审批通过、逾期金额部分特征;具体的目标特征的选定根据本申请实施例所提供的风控策略生成方法的具体使用来确定,可选地,所述目标特征的选定可以通过后文中所例举的实施例进行说明。
步骤S104,根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则;其中,每次进行划分的规则,形成所述优化目标和所述约束条件对应的规则集。
规则即为前述形成风险策略的各个组成部分,能够满足用于对所述业务的优化问题进行风险决策。例如,用户信用评分>800,用户学历==本科;即为两个不同的规则。可以认为,规则是由特征(如用户信用评分和用户学历),关系运算符(如“>”、“==”),阈值(如800)等组成的执行语句。
可以看到,想要得到能够形成风控策略的规则,则要明确对应的用户在所述业务的特征,即前述所述获取的训练集中的特征。
而基于前述论述,训练集中的特征是多维的,即表示特征的数量是很庞大的,有些特征对于获得所述业务的优化问题对应的业务处理结果来说是无效的或者是无关的。因此,需要对获取的训练集中的多维特征进行筛选,故需要在多维的特征中确定目标特征,然后对目标特征对应的目标训练集进行划分,以得到最终想要的特征,从而可以确定符合优化问题参数下对应的规则。
需要说明的是,目标特征与每次迭代划分的目标训练集中包含的特征是一一对应的,即,每次确定的目标特征即为每次迭代划分初始时的训练集即目标训练集中,所包含的全部特征。
例如,第一次确定规则即第一次对目标特征对应的目标训练集划分时,以目标特征为获取的所述训练集中的全部特征:岁数、是否逾期、用户信用评分、是否审批通过、逾期金额、贷款额度为例;
则第一次确定规则时,是对目标特征即所述训练集中的岁数、是否逾期、用户信用评分、是否审批通过、逾期金额、贷款额度形成的训练集(初始的训练集)进行划分,在第一次对初始的训练集划分结束后,会在初始的训练集包含的全部特征的基础上,进一步的得到更有利于对业务的优化问题进行风险决策,得到业务处理结果的特征;也就是说,会在初始的训练集(此时目标训练集指的是步骤S101中获取的训练集)中删掉一些无关或者无效的特征,得到包含有有效特征的新的训练集。
例如,第一次对初始的训练集划分之后,得到的新的训练集中的特征为是否逾期、用户信用评分、是否审批通过、逾期金额,则在下一次即第二次确定规则时,所述目标特征即为训练子集中的是否逾期、用户信用评分、是否审批通过、逾期金额这些特征。
在第二次对目标特征对应的初始的训练集进行划分时,则基于的目标训练集为上述所述由是否逾期、用户信用评分、是否审批通过、逾期金额目标特征形成的新的训练集。
以此类推,每一次进行目标特征的划分以确定规则时,所依据的目标特征和每一次划分的初始的训练集中包括的特征一一对应,从而可以迭代的从大量的特征中,获取到最能够用于基于所述业务的优化问题,做出业务处理结果的特征,以得到符合优化问题参数的各个规则。
通过多次基于目标特征的划分,可以准确的找到能够用于对业务的优化问题进行风险决策,得到对应的业务处理结果的有效特征。可见,本申请实施例所提供的风控策略生成方法,通过结合优化目标和约束条件,对特征进行选取即所述目标特征,迭代的确定每次用于划分目标特征的规则;最终将每次划分目标特征所使用的规则进行集合,从而得到符合优化目标和约束条件的规则集。
步骤S105,根据所述规则集,生成所述优化目标和所述约束条件的风控策略。
基于前述所述的利用本申请实施例所提供的风控策略生成方法得到各个规则,集合形成最终用于生成风控策略的规则集,比如得到的规则集中包含的规则为:
规则1:用户信用评分>800;
规则2:用户学历==本科;
两个规则可以是并列的关系,即当获取发出业务处理任务的用户信息时,可以基于规则集中包括的规则1和规则2的关系,得到对于用户请求的业务处理任务的业务处理结果。因此基于并列关系的规则1和规则2形成的规则集,可以自动生成所述优化目标和所述约束条件的风控策略,从而可以避免策略研发人员手动将规则部署至决策引擎,手动排列各个规则的关系,得到最终的风控策略。
可以看出,本申请实施例所提供的技术方案,在获取生成风控策略的规则集时,通过基于业务的风控规则对应的优化问题,配置优化目标,以及优化目标的约束条件形成的优化问题参数;从而可以在优化目标和约束条件的基础上,确定迭代的对所述目标特征进行多次划分的规则;进一步的根据每次划分目标特征的规则形成规则集;最后基于规则集自动的生成所述优化目标和所述约束条件的风控策略。从而可以避免人工手动将规则部署至决策引擎上,以生成风控策略,提升生成风控策略的效率;同时由于在确定划分目标训练集的规则时,是基于优化目标和约束条件确定的,因此还可以进一步确保获得的规则的可靠性和准确性。
基于前述论述,可以知道,本申请实施例所提供的风控策略生成方法,是通过对训练集中的特征进行多次筛选,得到每次划分目标特征的各个规则,从而获得符合所述约束条件和所述优化目标的规则集。由于训练集中的特征的数量是很庞大的,因此,在一种实施方式中,在获得到一个规则集之后,为了能够提升对所述约束条件和所述优化目标所对应的规则集的可靠性,还可以进一步的对规则集中未使用到的特征再次进行筛选,得到多个所述约束条件和所述优化目标对应的规则集,并从多个规则集中选择用于解决业务的优化问题的规则集。
可选地,请参考图6,图6是本申请实施例所提供的风控策略生成方法的另一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S201,获取业务的训练集,所述训练集包括用户在所述业务的多维特征。
步骤S202,配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件。
步骤S203,根据所述多维特征确定目标特征。
步骤S204,根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则;其中,每次进行划分的规则,形成所述优化目标和所述约束条件对应的规则集。
步骤S201-步骤S204可以认为是步骤S101-步骤S104的一种可选实施方式。
步骤S205,确定是否达到预设数量,如果是,则执行步骤S206,如果否,则执行步骤S208。
为了进一步确保获得的规则集的可靠性和准确性,因此本申请实施例提出可以基于优化问题参数,迭代的针对初始的训练集中包含的目标特征确定多个包含有不同特征的规则集。
但是,由于初始的训练集中包含的特征是多维的,为了在能够保证获得规则集的准确性和可靠性的同时,及时获取到合适的规则集的数量。因此,本申请实施例所提供的风控策略生成方法中,设置了预设数量,用于确保获得的规则集既可以符合所述优化问题参数的需求,还可以保证获得的规则集的质量即规则集的可靠性和准确性。
当然,所述预设数量是作用于开始重复性的获得不同的规则集的情况下。如果是在未确定有规则集的初始情况下,则不需要预设数量的控制,仅需要将用户在所述业务的多维特征均确定为目标特征,然后执行步骤S204获得初始情况下的规则集即可。
当已经经过一次步骤S204的执行,即已经得到一个规则集的情况下,此时为了进一步保证获得的规则集的可靠性和准确性,可以继续将所述多维特征中已确定的规则集所使用的特征进行去除,并将剩余特征确定为目标特征。而由于训练集中包含的是多维特征,因此,需要根据预设数量控制获得规则集的获取次数。
在一种实施方式中,所述优化问题参数还包括迭代次数,所述迭代次数与所述规则集的预设数量相对应。
基于前述论述,训练集中包含的特征的数量很多,因此,为了在保证获得的规则集中,所包含的规则的准确性和可靠性的基础上,通过迭代次数的设置,有效的对目标特征进行划分,从而使得执行本申请实施例所提供的风控策略生产方法时,不会无休止的一直执行。
迭代次数的设置,可以根据原始获得的训练集中的特征数量具体设置,当特征数量非常多时,可以将迭代次数设置为较高的数值;当特征数量相对较少时,可以将迭代次数设置为较低的数值。
步骤S206,停止对目标特征进行划分。
在达到预设数量时,则停止对目标特征的划分,将已经得到的规则形成规则集。
步骤S207,根据所述规则集,生成所述优化目标和所述约束条件的风控策略。
步骤S208,在所述训练集中去除所述规则集中包含的特征,得到剩余特征。
当未达到预设数量时,说明还可以对训练集中剩余的特征进一步划分,得到新的规则集。
规则集中包含有用于多次划分目标训练集的规则,而每个规则是由每一次划分时对应的目标特征组成的,因此在将已经使用过的特征去除之后,可以基于剩余的特征再次进行规则集的获取。
步骤S209,基于所述剩余特征形成新的训练集。
新的训练集即为再一次进行规则集的获取时,用于确定规则即中包含的规则的初始的训练集;然后继续执行步骤S201,以再次获取剩余特征对应的规则集,即基于所述剩余特征、所述优化目标和所述约束条件,获取所述剩余特征对应的规则集。
针对于约束条件和优化目标获得的一个规则集中,包含的特征数量是有限的。而基于前述内容,可以知道,原始获得的训练集中包含的特征是很多的;因此,为了能够确保在所述约束条件和优化目标下,最终获得的规则集中,包含的特征是最有利于对业务的优化问题进行风险决策以得到业务出差结果的特征;本申请实施例提出,可以将当前获得的规则集中包含的特征在训练集中去除,从而将剩余的特征形成新的训练集,基于新的训练集,再一次确定符合优化目标和约束条件的规则集。在充分考虑特征的有效性的基础上,提升获得的规则集的可靠性和准确性。
通过对原始获得的训练集中包含的特征数量的考虑,从而设置合适的迭代次数,以针对当前确定的约束条件和优化目标得到多个规则集,可以保证最终获得的规则集的准确性和可靠性。
为了在获得的多个规则集中确定出针对于优化目标和约束条件的解,即有利于做出业务处理结果的风控策略中所需要的规则集,在一种实施方式中,还可以对多个规则集进行验证评估,以选择规则集。
请继续参考图6,该流程还可以包括以下步骤:
步骤S210,获取所述业务的验证集,所述验证集中包括有用于验证各个所述规则集的验证特征。
步骤S211,利用各个所述规则集对所述验证特征进行预测,得到命中验证样本。
基于前述风控策略生成方法,获得的各个规则集作为所述约束条件和优化目标对应的候选规则集,即还未确定多个规则集中哪一个规则集所包含的规则是最有利于对所述业务进行风险决策得到业务处理结果的。因此,利用各个规则集对验证特征进行评估预测,得到命中验证样本。也就是针对于验证特征,利用已经得到的各个规则集对验证集做出风险决策得到业务处理结果,命中验证样本即为业务处理结果。
步骤S212,统计所述命中验证样本对应的所述约束条件的统计量和所述优化目标的统计量,过滤出符合所述约束条件的规则集。
每一个规则集在对验证集进行预测之后,都会得到一个对应的命中验证结果即业务处理结果。由于各个规则集均为同一个约束条件和同一个优化目标下获得的,即解决的是所述业务的同一个优化问题。因此,可以基于优化问题中的约束条件和优化目标对命中验证结果进行排序筛选,得到排序处于第一的符合优化目标和约束条件的验证结果(排序方式可以是顺序排序方式),即为可行验证样本。
需要说明的是,所述验证集中包括有用于验证各个所述规则集的验证特征,所述验证特征的数量可以低于前述所述的训练集中的特征数量。
步骤S213,对各个符合所述约束条件的规则集,按照优化目标的统计量进行排序,输出高排序的规则集,作为生成决策引擎上部署的所述优化目标和所述约束条件的风控策略的规则集。
对符合约束条件的规则集,进一步的按照优化目标的统计量进行排序,从而获得排序最高的一个规则集,作为最终获得的最有利于所述优化目标和所述约束条件对应的规则集,以生成所述优化目标和所述约束条件的风控策略。
为提高获得的规则集中包含的规则的可靠性,在一种实施方式中,本申请实施例提出,可以通过对目标特征形成的目标训练集迭代的划分,进而得到多个不同的规则以形成最终的规则集,从而可以符合约束条件和优化目标的要求。
可选地,请参考图7,图7是本申请实施例所提供的风控策略生成方法的再一流程示意图。
如图所示,该流程可以认为是步骤S102的另一可选实施方式,可以包括以下步骤:
步骤S301,获取业务的训练集,所述训练集包括用户在所述业务的多维特征。
此时所述的训练集为最初始的训练集,包含的特征为未进行筛选的,用户在所述业务全部特征。
如上述所述的:岁数、是否逾期、用户信用评分、是否审批通过、逾期金额、贷款额度等全部特征形成的训练集。
步骤S302,配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件。
所述优化目标可以为前述所述的最大化通过率,所述约束条件可以为前述所述的不良率<0.02。
步骤S303,根据所述多维特征确定目标特征。
此时为第一次规则的确定,因此需要对全部的特征进行处理。也就是说,此时的目标特征为上述步骤S300所述的全部特征。
步骤S304,确定当前解空间,所述当前解空间中的特征从所述目标特征中选择。
需要说明的是,所述当前解空间是指,初次进行目标特征划分的高维特征空间。
也就是说,每一次进行规则确定,获取规则集的过程中,当前解空间是指每次迭代开始确定目标风控规则时对应的解集。
为了使得获得的规则集中包含的各个规则是符合优化问题参数的,因此本申请实施例通过迭代的对目标特征进行划分,确定每一次划分的规则。这样,每一次划分的初始的训练集就是不同的,为方便定位初次划分时的训练集即当前解空间,在一种实施方式中,所述确定当前解空间可以包括:
如果第一次对所述目标特征进行划分,将所述目标特征形成的解空间,确定为当前解空间。
在第一次确定划分的规则时,目标特征为全部的特征,因此基于目标特征形成的初始的训练集为步骤S301获得的训练集,即所述当前解空间。
例如,第一次确定目标风控规则时,所基于的当前解空间即为步骤S301获取的训练集;第二次确定目标风控规则时,所基于的当前解空间即为根据第一次划分后得到的新的训练集中包含的特征(第二次划分时确定的目标特征)所形成的新的解空间。
基于前述内容,首先请求该业务或者与该业务相关的用户的数量是很庞大的;其次,用户在所述业务的特征的数量种类是很多类别的,如上述所述的岁数、是否逾期、用户信用评分等类别;可以看出,每一个用户对应有很多类别的特征,而每一个类别的特征又包含有对应于多个用户包含的特征值,因此,这些特征即所述目标特征形成的当前解空间为一个多维特征空间。
步骤S305,对所述当前解空间进行分箱处理,得到多个分箱;一个分箱包括至少一个特征值。
由于当前解空间中包含的是多维且类型不同的特征,因此为了方便后续规则的确定,可以对特征进行分箱处理,使得处理后的特征容易进行下一步规则的确定。
步骤S306,计算各个分箱的约束条件的统计量。
统计量是一个具体的数字,比如,通过率、命中率、不良率等。
基于前述内容,特征是多维的,因此基于多维特征形成的分箱的数量也是很庞大的,为了能够快速确定符合优化问题参数的分箱。因此,可以基于约束条件优先对各个分箱进行约束条件的统计量的计算,从而可以基于约束条件的统计量筛选掉一部分分箱。
步骤S307,根据各个分箱的优化目标的统计量,对各个分箱进行排序。
在基于约束条件的统计量对各个分箱进行筛选后,进一步的根据优化目标计算筛选后的各个分箱中,对应的优化目标的统计量。
需要说明的是,优化目标中是包含有优化方向的,例如前述所述优化目标为最大化通过率,其中优化方向即表示将通过率按照从大到小的方向排序。
因此,进一步的可以基于优化目标,将各个筛选后的分箱按照优化目标的统计量进行排序,得到排序最高的分箱。
步骤S308,将排序处于设定排序的分箱的边界,确定为一次进行划分的规则。
所述设定排序即为优化目标中包含的优化方向。
继续以前述优化目标为最大化通过率为例,按照通过率将筛选后的各个分箱从大到小进行排序,排序最高的分箱即为所述将排序处于设定排序的分箱。
将排序最高的分箱的边界作为第一次进行目标特征划分的规则。
所述分箱的边界即为由各个特征组成的规则。
例如,以针对用户评分这一特征进行分箱处理为例。假设将用户评分这一特征进行分箱处理之后,即将用户评分所涵盖的值域范围进行划分,得到5个分箱:[0-200]、[201-400]、[401-600]、[601-800]、[801-1000],则[0-200]这个分箱的边界表示:0<=x<=200,其中x表示用户评分这一特征的特征值;特征值的值域范围就是一条规则。
为方便理解,继续根据前述对于优化目标和约束条件的解释,例如,优化目标可以定义为最大化通过率,约束条件可以定义为不良率小于0.02。
基于前述对于不良率和通过率的解释:不良率指逾期并且无法追回的贷款金额,通过率是指贷款申请的通过率;而且审批是否通过为上述所述的多维特征中的一类特征。因此,可以知道,当定义优化目标为最大化通过率时,所要确定的优化目标的统计量即为在获取的全部用户中,审批通过的用户数量,通过率即为审批通过的数量与全部用户数量的比值。
对应到上述所述的优化目标的统计量,就可以表示为:
在当前确定的多维的特征即目标特征中,统计审批是否通过这一特征标签列中,表示审批通过这一特征的数量,例如统计审批是否通过这一特征中标签为1的数量。
同样的约束条件的统计量即为,在目标特征中,统计是否逾期这一特征标签列中,表示逾期的这一标签列的数量,例如统计是否逾期这一特征中标签为0的数量。
通过对统计量的获取,可以方便快速确定出符合优化条件的规则,从而可以方便下一步对目标训练集的划分。
在确定规则之后,使用确定好的规则对目标特征形成的初始的目标训练集进行划分,此时所述的初始的目标训练集即为步骤S301中获得的训练集。
基于前述内容,可以知道规则是由特征、关系运算符、阈值组成的执行语句。因此可以基于目标特征确定当前符合优化条件的规则,对多维的目标特征形成的当前解空间进行每一维度的目标特征的划分,得到符合该规则内容的各个维度上的目标特征;从而得到第一次对当前解空间划分之后的新解空间。
由于不确定基于当前的这一个规则划分得到的新解空间,是否符合所述业务的约束条件,即当前的规则划分之后的结果是否有利于对所述业务进行风险决策以得到业务处理结果。这就需要对第一次划分后的新解空间进行验证,需要说明的是,在对风险类业务确定是否符合风险决策要求时,所基于的是约束条件的统计量。
因此基于当前优化条件中的约束条件,对当前得到的新解空间中包含的目标特征进行统计,得到约束条件的统计量,进一步的根据约束条件的统计量与用户数量的比值确定是否符合约束条件的要求,即是否符合阈值。如果符合,则确定第一次划分的规则即为目标风控规则;如果不符合再继续确定下一规则,即将第一次划分得到的新解空间作为新的当前解空间,以新的当前解空间中包含的特征作为新的目标特征,继续根据新的目标特征,基于优化条件的统计量得到新的规则,直到符合阈值时,得到全部的目标风控规则。
为便于理解,这里以约束条件为不良率小于0.02为例说明。
设定初始的当前解空间即步骤S301中获取到的训练集中,包含的目标特征数量为10000;然后在第一次对目标特征形成的当前解空间划分后的新解空间中,包含的特征总数量为8000。假定在8000的特征中,统计的约束条件的统计量即逾期的标签个数为5000,则不良率为:5000/8000=0.625;说明根据第一次确定的规则划分后得到的新解空间是不符合要求即阈值0.02的。因此,再次以新解空间为新的当前解空间,此时当前解空间中包含的目标特征即为上述所述的8000特征。
其中,所述阈值根据训练集中的具体用户数量进行设置。
通过基于优化条件的统计量和每一次确定的目标特征,迭代的确定对应的规则;从而对目标特征形成的当前解空间多次划分获得多个新解空间;进而基于新解空间的约束条件的统计量,确定符合阈值的新解空间;最终确定满足约束条件和优化目标的目标风控规则。这样可以自动获取满足优化问题的规则,得到对所述业务进行风险决策以得到业务处理结果的有效特征。
为了方便对于多维的目标特征中,约束条件的统计量和优化目标的统计量的统计,在一种实施方式中,可以对目标特征进行离散化处理。可选地,步骤S304可以包括以下步骤:
针对当前解空间中的任一离散特征,将一个特征值作为一个分箱;以及,针对当前解空间中的任一连续特征,将多个连续的特征值作为一个分箱,并且各个连续特征所对应的每一个分箱中的特征值的数量相同值域接近;将特征值的数量占比小于第一占比阈值的分箱进行合并,以及,将特征值的值域一致的分箱进行合并,以得到多个分箱;其中,合并后的每个分箱的特征值数量的占比不小于第二占比阈值。
需要说明的是,目标特征中包括的特征种类是多类的。因此,为了方便基于目标特征确定划分目标训练集的规则,将目标特征进行分类处理。根据目标特征的特征属性,将同一属性的特征归为一类,所述离散特征即为目标特征的一个特征属性。例如,当目标特征为岁数时,由于岁数这一特征对应的特征值是有限的,岁数这一特征的特征属性为离散特征;因此,将岁数这一特征单独处理,即每一个岁数值作为一类,比如,50这一岁数分为一类时,其中可以包含岁数为50的多个用户。
当目标特征为用户信用评分时,由于用户信用评分这一特征对应的特征值的范围是大范围的,其对应的特征属性为连续特征。为了方便分类,可以将连续特征通过等频处理。即将连续特征处理为离散特征。比如,用户信用评分的总范围是[0-1000],可以根据想要分得的范围区间个数,将[0-1000]分为5个范围区间,即分为[0-200]、[201-400]、[401-600]、[601-800]、[801-1000];或者也可以根据用户信用评分这一连续特征中包含的全部用户数量和想要分得的特征值对应的范围区间个数,使得调整后的每一个用户信用评分的特征值对应的范围区间内,包含的特征值的数量相同。
通过对不同类型的目标特征进行调整,降低后续基于目标特征计算优化条件的统计量的难度,从而可以提升得到目标风控规则的效率。
基于上述论述,可以看出所述离散目标特征即可以指前述所述岁数、学历等离散型特征;所述连续目标特征即可以指前述所述用户信用评分这类特征值范围很广的连续性特征。
为方便后续优化条件的统计量的计算,可以将连续特征处理为离散特征,从而方便优化条件的统计量的统计。
所述“针对当前解空间中的任一离散特征,将一个特征值作为一个分箱”是指,针对于岁数类的离散特征,可以将特征值为50的分为一个子特征集,岁数为50的子特征集中即为包含有全部的岁数为50的用户。
所述“针对当前解空间中的任一连续特征,将多个连续的特征值作为一个分箱,并且各个连续特征所对应的每一个分箱中的特征值的数量相同”是指,针对于用户信用评分和逾期金额类的连续特征,可以将用户信用评分的多个连续的特征值对应的范围区间划分为[0-200]、[201-400]、[401-600]、[601-800]、[801-1000]这五个值域范围,每一个范围区间内表示用户信用评分这一连续特征的特征值的值域。
为方便理解,以将逾期金额的特征值对应的范围区间同样划分为[0-200]、[201-400]、[401-600]、[601-800]、[801-1000]五个值域范围;然后,将特征值的值域范围接近的划分为一个子特征集,即将值域范围为[0-200]的用户信用评分类连续特征和逾期金额类连续特征组合到一起作为一个子特征集,从而实现多个用户分别对应的特征值(即多个用户的特征值均在值域范围为[0-200]内)作为一个子特征集,且各个连续特征所对应的初始特征集中的特征值的数量相同。
上述所述的第一占比阈值是指,每一个子特征集中包含的特征值的数量占总特征值的数量的比重,可以设置为低于1%。
所述第二占比阈值是指,合并后的分箱中,包含的特征值的数量与总特征值的数量之比。
通过将训练集中包含的特征进行离散化处理,方便后续优化条件统计量的计算,从而可以快速确定用于划分目标特征形成的初始的目标训练集的规则。
由于优化条件中可以同时包括优化目标和约束条件,因此,为了能够满足同时包含有优化目标和约束条件的优化条件,来获得划分当前解空间的规则。在一种实施方式中,针对合并后的每个分箱,根据优化条件中的约束条件,确定各个分箱的约束条件的统计量;以及根据所述优化条件中的优化目标,确定各个分箱的优化目标的统计量;
基于约束条件的统计量,确定符合所述约束条件的分箱,并根据所述优化目标中的优化方向,对各个分箱的优化条件的统计量进行排序,将排序处于预设排序的分箱的分箱边界确定为划分当前解空间的规则。
为便于理解,继续以业务为贷款业务,优化目标为最大化通过率,约束条件为不良率小于0.02为例进行说明。
设定全部的特征量为1000,合并后的分箱的个数为8个,首先统计每一个分箱对应的约束条件的统计量,即每一个分箱对应的逾期统计量分别为:10、5、19、20、18、494、123、223;则对应每一个分箱的不良率(逾期统计量/全部特征量)分别为:0.01、0.005、0.019、0.02、0.018、0.123、0.223;
则基于约束条件的统计量和约束条件,将小于0.02的分箱保留,这样经过约束条件筛选之后的分箱为逾期统计量为10、5、19、18对应的分箱。
进一步的,在上述得到的逾期统计量为10、5、19、18对应的分箱中,分别计算每一个分箱对应的优化目标的统计量即审批通过统计量分别,设定审批通过统计量为:500、920、645、235;则对应每一个分箱的通过率(审批通过统计量/全部特征量)分别为:0.5、0.92、0.645、0.235。
然后根据优化目标中的优化方向,即最大化通过率指定的优化方向为将各个通过率按照从大到小的顺序依次排列。
则按照上述四个分箱的通过率进行排序,得到的顺序为:0.92、0.645、0.5、0.235。从而可以快速确定最大的通过率对应的分箱,即逾期率为0.005且通过率为0.92的分箱;其分箱边界对应的规则即为:通过率为0.92且逾期率为0.005。
然后以上述确定的规则,对当前解空间即第一次获取的训练集进行划分,在每一个维度中,找到符合上述规则的目标特征,最终形成新的训练集即所述新解空间。
当然,上述对于通过率进行排序时,在特征数量较少的情况下,还可以直接根据每一个分箱的审批通过统计量进行排序,排序方式并未进行具体限定。
由于约束条件是相较于优化目标范围更小的一个条件,因此优先以约束条件进行分箱的筛选,可以保证获得的规则的准确性。
上述分箱的个数仅为示例说明,实际上分箱的数量是很大的。因此,本申请实施例通过利用约束条件,在大量的分箱中,首先过滤掉一部分不符合约束条件的分箱,然后在剩余的分箱中寻找符合优化目标的程度较高的分箱(例如,在剩余的分箱中确定符合优化目标的分箱并进行排序,寻找到排序处于第一的分箱);从而可以加快确定划分初始的目标训练集所使用的规则的效率,且同时可以保证获取的规则的有效性,即满足优化目标和约束条件的规则。
优化目标中的设定有优化风向,而优化方向是多变的,且不同的优化目标和优化方向的组合,所获取训练子集的方式也是不同的。本申请实施例基于优化目标的优化方向,设置了不同的训练子集的获取方式,可选的,所述根据所确定的规则,对当前解空间进行划分,得到新解空间,可以包括:
根据所确定的规则,利用自底向上合并或者自顶向下切除的方式,对所述当前解空间进行划分,得到新解空间。
例如,当所述优化目标为最大化通过率问题时,以所述自顶向下切除的方式,逐步切除各个划分后的当前解空间,得到对应于所述规则的新解空间;
当所述优化目标为最大化不良率问题时,以所述自底向上合并的方式,逐步累加各个划分后的当前解空间,得到对应于所述规则的新解空间。
由于当前解空间为高维的特征空间,因此每一个维度上都包含有对应的特征,而每一个特征中又包含有大量的每一个用户对应的特征值,因此,为了能够快速准确的获得最终的训练子集,可以根据具体的优化目标和优化方向确定合适的新解空间的获取方式。
所述自顶向下即为,根据优化目标:最大化通过率,因此在每一个维度中获取的特征均需要满足通过率最大,因此需要确定每一个维度中选中的各个特征为通过率最大的特征,这样,就可以选择从顶部的高维特征开始,以在最高维筛选的通过率的特征范围为起点,逐步向低维度的特征筛选,即以高维特征空间中通过率最大的特征范围,向下逐步切分,最终获得通过率最大的特征范围,即为新解空间。
为便于理解,以在最高纬度第N维度确定的通过率最大的特征范围为850/1000=0.85,下一层纬度第N-1维度确定的通过率最大的特征范围为450/1000=0.45,再下一层维度第N-2维度确定的通过率最大的特征范围为920/1000=0.92为例;首先,以第N维度的通过率0.85为基准,在向第N-1维度过渡寻找最大通过率时,则将0.45的通过率去除,继续保留0.85的通过率;然后从第N-1维度向第N-2维度过渡,继续获取最大通过率,则此时去除0.85的通过率,保留0.92的通过率。
自顶向下即为在每一个维度确定最大的通过率,然后在下一个维度的比较重,再次重新确定最大的通过率,即每一层中仅保留该层维度上的最大通过率,因此选用自顶向下逐步切分的方式获取训练子集。
自底向上是指,根据优化目标:最大化不良率,首先在对底层的维度1中统计各个特征对应的不良率,然后将统计得到的不良率先在维度1中进行一次排序;接着,在底层的维度1向上推进一个维度,进入到维度2中;在维度2中先计算维度2包含的各个特征对应的不良率,然后将维度1中排好序的各个不良率合并在维度2,再与维度2统计到的各个不良率再次进行排序;以此类推,直至到最高维度N,同样,首先统计维度N中包含各个特征的不良率,然后将N-1中排列好的不良率的顺序合并到维度N中,最后对维度N中所有的不良率排序,最终获得不良率最大的特征范围,即为新解空间。
自底向上即为保留每一个维度中针对于优化问题得到的解,然后将每一个维度的解合并到上一个维度中,最终得到优化问题的解。
即新解空间的获取方式由优化方向和优化目标同时确定,从而可以保证准确的获得新解空间,为后续确定是否符合阈值提供可靠的数据基础。
在确定第一次对当前解空间划分之后的新解空间中,统计的约束条件的统计量未达到阈值时,则说明仅根据第一次确定的规则形成的规则集,还不能够有效用于对所述业务进行风险决策。
因此,需要再次进行规则的确定,以形成最终符合优化目标和约束条件的规则集。
可选地,本申请实施例所提供的风控策略生成方法,还可以根据设定的阈值进行判断,在确定所述新解空间的约束条件的统计量未达到阈值时,以所述新解空间作为新的当前解空间;基于新的所述当前解空间和所述优化问题参数,得到下一个新的目标风控规则。
通过根据获取的训练集中包含的用户数量,确定适合的阈值,使得获得的规则集能够满足所述业务的需求。
在确定第一次对当前解空间划分后,得到的新解空间的约束条件的统计量未达到阈值时,则将新解空间作为新的当前解空间;相应的,此时新的当前解空间中包含的特征即为新解空间中包括的特征,也就是第二次划分时确定的目标特征。
直至满足阈值的要求,停止第一次规则集中目标风控规则的确定,即完成一次规则集的获取。
通过预定的阈值的验证,可以确保获得的规则集中包含的规则是最有效的,最有利于解决所述业务的风险决策问题。
步骤S309,判断新解空间的约束条件的统计量是否超过阈值。如果是,则执行步骤S310,如果否,则执行步骤S311。
所述阈值用于确保规则集的准确性和可靠性。
当第一次基于确定的规则,对当前解空间进行划分时,会得到一个新解空间。新解空间中包含有基于第一次的规则筛选得到的部分目标特征,为了确定由部分目标特征组成的规则是否能够满足所述优化问题参数的需求。因此,可以根据阈值对新解空间的约束条件的统计量进一步的判断,当超过阈值时,说明新解空间中的特征组成的规则能够满足优化问题参数的需求。此时,用于划分当前新解空间的规则即为所述目标风控规则,不需要再进行目标特征的划分;当未超过阈值时,说明基于当前规则划分得到的新解空间不满足优化问题参数的需求,则将新解空间作为新的当前解空间,继续对新的当前解空间划分,确定目标风控规则。
步骤S310,停止对所述新解空间进行划分。
步骤S311,将所述新解空间确定为下一个的当前解空间。
在将所述新解空间确定为下一个的当前解空间之后,继续执行步骤S305,基于新的当前解空间中包含的特征再次确定划分的规则。
直至新解空间的约束条件的统计量达到阈值,将符合阈值的各个规则组合形成规则集,从而确保最终获得的规则集是满足所述业务的需求的。
为便于理解,继续以用户请求的业务处理任务中的业务为贷款业务,得到的规则1为用户信用评分>800;规则2为用户学历==本科为例进行说明。
在贷款业务中,基于得到的上述两个规则,其形成的规则集可以表示:
当获取的某一个贷款用户的信息中,确定该用户的学历为本科且该用户的用户信用评分大于800时,做出的风险决策既可以为允许为该用户办理贷款业务。
即表示,上述规则1和规则2为并列的关系,当申请贷款业务的用户的信息既满足规则1的条件,又满足规则2的条件时,才能够为该用户办理贷款业务,也就是说本申请实施例最终得到的规则集即为已经统筹好各个规则之间的关系的规则集合,可以直接作为风控策略使用,从而可以避免策略研发人员手动在决策引擎上部署各个规则,即策略研发人员需要根据各个规则之间的关系,手动的将各个规则配置在决策引擎上,得到可以使用的风控策略;从而本申请实施例所提供的风控策略生成方法可以提升风阔能策略生成效率。
基于上述各个实施例的说明,可以知道本申请实施例所提供的风控策略生成方法,可以通过迭代的对训练集中的特征进行划分,从而基于一次优化问题参数的配置,得到多个对应的规则集。而在决策引擎中针对一次的优化问题参数的配置,对应有一个风控策略。因此为了在多个规则集中确定出最能够有效用于业务的风险决策的规则集,以生成风控策略,可以对多个规则集进行验证。
在一种实施方式中,在对各个规则集进行验证时,可以通过使用获得到的各个规则集对验证集进行预测;然后,统计命中的验证特征中的约束条件的统计量,当然,此时可以继续按照前述所述的,对各个命中的验证特征进行分箱处理;接着,对每个命中的验证特征组成的分箱统计约束条件的统计量,过滤出符合优化条件中约束条件的规则集;再按照优化目标的统计量对筛选过后的分箱进行排序,得到选择的规则集;最后基于所述规则集生成所述优化目标和约束条件对应的风控策略。从而可以保证针对于所述优化目标和约束条件对应的风控策略的可靠性和准确性。
为了提高本申请实施例所提供的风控策略生成方法的使用灵活性,在一种实施方式中,所述优化目标包括:最大化规则命中率、最大化正样本比例、最小化正样本比例,所述约束条件包括:正样本比例大于指定阈值、正样本比例小于指定阈值、人群比例大于指定阈值和。
所述最大化规则命中率,是指按照命中率的统计量,进行从大到小的排序;
所述最大化正样本比例和最小化正样本比例,是指按照正样本的统计量,进行从大到小或者从小到大的排序;所述正样本即为根据具体的优化目标的对象,所确定的样本类型。例如,当确定优化目标为最大化通过率时,统计的每一个分箱对应的通过率即为正样本。
需要说明的是,通过率和不良率既可以作为优化目标的对象,也可以作为约束条件的对象。
所述正样本比例大于指定阈值和正样本比例小于指定阈值,以约束条件为不良率小于0.02为例,通过率即为所述正样本,指定阈值即为0.02;当然,也可以以约束条件为通过率大于30%为例,通过率即为所述正样本,指定阈值即为30%。
所述人群比例大于指定阈值,以约束条件为逾期率大于5%为例,人群比例即为在当前解空间中包含的总人群数量中,逾期的人群所占的比例,5%即为指定阈值。比如,当前解空间中有10000个贷款用户,里面有300个逾期了,逾期率即为是3%。人群比例大于指定阈值,即表示在当前解空间中包含的10000个用户中找出指定比例的目标人群满足某个条件(比如逾期率大于5%)。
上述所述的优化目标和所述约束条件可以进行对应组合,如最大化规则命中率和正样本比例大于指定阈值组合形成一组优化问题参数;最大化规则命中率和正样本比例小于指定阈值组合形成一组优化问题参数;最大化正样本比例和人群比例大于指定阈值组合形成一组优化问题参数;最小化正样本比例和人群比例大于指定阈值组合形成一组优化问题参数。
设置多种类型的优化目标和约束条件的组合方式,可以满足不同用户的业务需求,提高本申请实施例所提供的风控策略生成方法的使用灵活性和使用便捷性。
基于上述本申请实施例所提供的风控策略生成方法,获得到符合各类优化问题参数下对应的风控策略后,决策者可以依据不同的用户发来的业务,得到对应的风险决策。
基于此,本申请实施例还提供了一种决策方法,包括:获取业务处理任务;
调用风控策略,处理所述业务处理任务,以得到业务处理结果;风控策略基于前述任一项实施例所述的风控策略生成方法获得。
通过本申请实施例所提供的风控策略生成方法,可以快速的得到风控策略;进一步的,当决策者接受到用户的发送的业务处理请求时,可以快速获取到与该业务处理请求对应的风控策略,从而基于所述风控策略得到对应的风险决策结果。
基于前述内容,可以知道,用户办理的业务类型很多,因此决策者接收到的业务处理任务也就种类繁多;风控策略也会针对于多种业务处理任务,得到不同的风险决策结果。
可选地,所述业务处理任务包括风险决策任务;所述调用风控策略,处理所述业务处理任务,以得到业务处理结果,包括:
调用风控策略,处理所述风险决策任务,以得到风险决策结果。
所述风险决策任务比如前述所述贷款业务,即需要风控策略基于用户发来的贷款需求,做出相应的决策,告知决策者是否允许为该用户贷款。
如果风控策略基于申请贷款业务的用户信息,如该用户的岁数、学历、是否逾期、是否审批通过、逾期金额、用户信用评分等信息,最终得到的风险决策结果为允许为用户进行贷款。
则决策者可以为用户开通贷款业务,根据该用户的贷款业务信息,为用户提供相应的贷款金额。
在另一种实施方式中,所述业务处理任务还包括风险监测任务;所述调用风控策略,处理所述业务处理任务,以得到业务处理结果,还包括:
调用风控策略,处理所述风险监测任务,以得到风险提示结果。
所述风险监测任务比如继续以上述决策者为用户提供了贷款金额为例,在决策者为用户开启贷款业务之后,决策者可以通过风控策略来对该用户的后续还款业务进行风险监测;当监测到不利于用户归还贷款的信息时,则风险策略可以为决策者出示风险提示结果;以提醒决策者该贷款用户有归还贷款困难的风险,可以预先提醒决策者,以使决策者及时制定下一计划,规避风险。
风险策略可以根据不同的业务处理任务,得到不同的执行结果,以满足决策者的不同使用需求。
本申请实施例还提供了一种风控策略生成装置,用于前述实施例所述的风控策略生成方法的实现。
请参考图8,图8是本申请实施例所提供的风控策略生成装置的一结构示意图。
如图中所示,该装置可以包括:
训练集获取模块801,用于获取业务的训练集,所述训练集包括用户在所述业务的特征;
参数配置模块802,用于配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件;
规则集生成模块803,用于根据所述多维特征确定目标特征;以及根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则;其中,每次进行划分的规则,形成所述优化目标和所述约束条件对应的规则集;
风控策略生成模块804,用于根据所述规则集,生成所述优化目标和所述约束条件的风控策略。
可选地,所述规则集生成模块803,用于根据所述优化目标和所述约束条件,确定从所述目标特征开始,迭代的对所述目标特征形成的目标训练集进行多次划分的规则,包括:
根据所述多维的目标特征,确定对应多维的初始的目标训练集,所述目标训练集为多维的目标特征形成的多维特征空间,其中,一维特征对应目标训练集的一个维度;
基于所述目标特征,根据所述优化问题参数对应的优化条件统计量,迭代的确定每次对所述目标特征形成的初始的目标训练集进行划分的规则,并根据对所述目标训练集每次划分后训练子集的约束条件的统计量,确定满足约定阈值对应的目标风控规则;其中,优化条件根据所述优化目标,和/或,所述优化目标的约束条件确定;
根据对所述目标训练集每次划分对应的目标风控规则,形成规则集,生成所述优化目标和所述约束条件的风控策略。
可选地,所述规则集生成模块803,用于基于所述目标特征,根据所述优化问题参数对应的优化条件统计量,迭代的确定每次对所述目标特征形成的目标训练集进行划分的规则,并根据对所述目标训练集每次划分后新的训练集的约束条件的统计量,确定满足约定阈值对应的目标风控规则,包括:
确定待处理目标特征,对所述待处理目标特征进行调整,得到多个分箱,其中,一个分箱包括一类目标特征对应的多个特征值;
针对各个分箱,根据优化条件,确定各个分箱的优化条件统计量;
根据所述优化问题参数中,优化目标的优化方向,对各个分箱的优化条件统计量进行排序,并确定排序处于所述优化方向中设定排序方向的目标分箱,将目标分箱的分箱边界,作为划分目标训练集的规则;
基于所述规则划分目标训练集,得到训练子集;
确定训练子集的约束条件的统计量达到阈值时,确定所述规则为所述目标风控规则。
可选地,所述规则集生成模块803,还可以用于:
在确定所述训练子集的约束条件的统计量未达到阈值时,以所述训练子集作为新的目标训练集;
基于新的所述目标训练集和所述优化问题参数,得到下一个新的目标风控规则。
可选地,所述规则集生成模块803,用于确定待处理目标特征,对所述待处理目标特征进行调整,得到多个分箱,包括:
将所述目标特征中,任一离散目标特征,一个特征值作为一个子特征集;任一连续目标特征,多个用户分别对应的多个特征值作为一个子特征集,并且各个连续目标特征所对应的初始特征集中的特征值的值域接近;
将特征值的数量占比小于第一占比阈值的特征集进行合并,以及,将特征值的值域一致的特征集进行合并,以得到调整后的分箱;其中,合并后的每个分箱中特征值的数量占比不小于第二占比阈值。
可选地,所述规则集生成模块803,用于根据所述优化问题参数中,优化目标的优化方向,对各个分箱的优化条件统计量进行排序,并确定排序处于所述优化方向中设定排序方向的目标分箱,将目标分箱的分箱边界,作为划分初始的目标训练集的规则,包括:
针对合并后的每个分箱,根据优化条件中的约束条件,确定各个分箱的约束条件的统计量;以及根据所述优化条件中的优化目标,确定各个分箱的优化目标的统计量;
基于约束条件的统计量,确定符合所述约束条件的分箱,并根据所述优化目标中的优化方向,对各个分箱的优化条件统计量进行排序,将排序处于预设排序的分箱的分箱边界确定为划分初始的目标训练集的规则。
可选地,所述规则集生成模块803,还可以用于:
在所述训练集中去除所述规则集中包含的特征变量,得到剩余特征;
基于所述剩余特征、所述优化目标和所述约束条件,获取所述剩余特征对应的规则集。
可选地,所述优化问题参数还包括:迭代次数;所述风控策略生成装置,还可以包括:
迭代控制模块,用于在迭代的对初始的目标训练集进行划分的次数,得到迭代次数时,停止对初始的目标训练集进行划分。
可选地,所述风控策略生成装置还可以包括:
规则集验证模块,用于获取所述业务的验证集,所述验证集中包括有用于验证各个所述规则集的验证特征;利用各个所述规则集对所述验证集中的验证特征进行预测,得到命中验证结果;确定各个所述命中验证结果中符合所述约束条件的验证结果,为可行验证结果;基于可行验证结果确定对应的规则集得到可行规则集,得到所述优化目标和所述约束条件对应的规则集。
可选地,所述规则集生成模块,还可以用于:
当所述优化目标为最大化通过率问题时,确定对应的训练子集获取方式为自顶向下获取方式;
以所述自顶向下获取方式,逐步切除各个划分后的初始的目标训练集,得到对应于所述规则的训练子集;
当所述优化目标为最大化不良率问题时,确定对应的训练子集获取方式为自底向上获取方式;
以所述自底向上获取方式,逐步累加各个划分后的初始的目标训练集,得到对应于所述规则的训练子集。
可选地,所述优化目标包括:最大化规则命中率、最大化规则命中率、最大化正样本比例、最小化正样本比例,所述约束条件包括:正样本比例大于指定阈值、正样本比例小于指定阈值、人群比例大于指定阈值、人群比例大于指定阈值。
可以看出,本申请实施例所提供的技术方案,在获取生成风控策略的规则集时,通过基于业务的风控规则对应的优化问题,配置优化目标,以及优化目标的约束条件形成的优化问题参数;从而可以在优化目标和约束条件的基础上,迭代的对目标特征确定划分规则;进一步的基于每次确定的规则对目标特征形成的目标训练集进行划分,并根据每次划分目标训练集的规则形成规则集;最后基于规则集自动的生成所述优化目标和所述约束条件的风控策略。从而可以避免人工手动生成风控策略,提升生成风控策略的效率;同时由于在确定划分目标训练集的规则时,是基于优化目标和约束条件确定的,因此还可以进一步确保获得的规则的准确度。
本申请实施例还提供了一种服务器,包括存储器和处理器,所述存储器存储有程序,所述处理器调用所述存储器中存储的程序,以执行本申请实施例提供的风控策略生成方法,或者,本申请实施例提供的决策方法。
在一种实施方式中,所述服务器可以为决策引擎。
本申请实施例还提供了一种存储介质,所述存储介质存储有程序,所述程序被执行时实现如本申请实施例提供的风控策略生成方法,或者,本申请实施例提供的决策方法。
本申请实施例还提供一种计算机程序,所述计算机程序被执行时实现如本申请实施例提供的风控策略生成方法,或者,本申请实施例提供的决策方法
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (13)
1.一种风控策略生成方法,其中,包括:
获取业务的训练集,所述训练集包括用户在所述业务的多维特征;
以及,配置所述业务的风控规则的优化问题参数,所述优化问题参数至少包括所述业务的风控规则对应的优化目标,以及优化目标的约束条件;
根据所述多维特征确定目标特征;
根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则;其中,每次进行划分的规则,形成所述优化目标和所述约束条件对应的规则集;
根据所述规则集,生成所述优化目标和所述约束条件的风控策略。
2.如权利要求1所述的风控策略生成方法,其中,所述根据所述优化目标和所述约束条件,确定迭代的对所述目标特征进行多次划分的规则,包括:
确定当前解空间,所述当前解空间中的特征从所述目标特征中选择;
对所述当前解空间进行分箱处理,得到多个分箱;一个分箱包括至少一个特征值;
计算各个分箱的约束条件的统计量;
根据各个分箱的优化目标的统计量,对各个分箱进行排序;
将排序处于设定排序的分箱的边界,确定为一次进行划分的规则;
根据所确定的规则,对当前解空间进行划分,得到新解空间;其中,所述当前解空间中的特征,以所确定的规则进行筛选后,余留的特征作为新解空间中的特征;
判断所述新解空间的约束条件的统计量是否超过阈值;
若否,将所述新解空间确定为下一个的当前解空间;
若是,停止对所述新解空间进行划分。
3.如权利要求2所述的风控策略生成方法,其中,所述确定当前解空间包括:
如果第一次对所述目标特征进行划分,将所述目标特征形成的解空间,确定为当前解空间。
4.如权利要求3所述的风控策略生成方法,其中,所述对所述当前解空间进行分箱处理,得到多个分箱,包括:
针对当前解空间中的任一离散特征,将一个特征值作为一个分箱;以及,针对当前解空间中的任一连续特征,将多个连续的特征值作为一个分箱,并且各个连续特征所对应的每一个分箱中的特征值的数量相同;
将特征值的数量占比小于第一占比阈值的分箱进行合并,以及,将特征值的值域一致的分箱进行合并,以得到多个分箱;其中,合并后的每个分箱的特征值数量的占比不小于第二占比阈值。
5.如权利要求1-4任一项所述的风控策略生成方法,其中,所述根据所述多维特征确定目标特征包括:
在初始情况下,将用户在所述业务的多维特征均确定为目标特征;其中,初始情况为未确定有规则集的情况;
在已确定有规则集的情况下,将所述多维特征中已确定的规则集所使用的特征进行去除,并将剩余特征确定为目标特征,直至已确定的规则集的数量达到预设数量。
6.如权利要求5所述的风控策略生成方法,其中,所述优化问题参数还包括迭代次数,所述迭代次数与所述规则集的预设数量相对应。
7.如权利要求1-4任一项所述的风控策略生成方法,其中,还包括:
在所述训练集中去除所述规则集中包含的特征,得到剩余特征;
基于所述剩余特征、所述优化目标和所述约束条件,获取所述剩余特征对应的规则集。
8.如权利要求7所述的风控策略生成方法,其中,所述基于所述剩余特征、所述优化目标和所述约束条件,获取所述剩余特征对应的规则集的步骤之后,还包括:
获取所述业务的验证集,所述验证集中包括有用于验证各个所述规则集的验证特征;
利用各个所述规则集对所述验证集中的验证特征进行预测,得到命中验证样本;
统计所述命中验证样本对应的所述约束条件的统计量和所述优化目标的统计量,过滤出符合所述约束条件的规则集;
对各个符合所述约束条件的规则集,按照优化目标的统计量进行排序,输出高排序的规则集,作为生成决策引擎上部署的所述优化目标和所述约束条件的风控策略的规则集。
9.如权利要求2所述的风控策略生成方法,其中,所述根据所确定的规则,对当前解空间进行划分,得到新解空间,包括:
根据所确定的规则,利用自底向上合并或者自顶向下切除的方式,对所述当前解空间进行划分,得到新解空间。
10.如权利要求1-4任一项所述的风控策略生成方法,其中,所述优化目标包括:最大化规则命中率、最大化正样本比例和最小化正样本比例之中的任一项;所述约束条件包括:正样本比例大于指定阈值、正样本比例小于指定阈值和人群比例大于指定阈值之中的任一项。
11.一种决策方法,其中,包括:
获取业务处理任务;
调用风控策略,处理所述业务处理任务,以得到业务处理结果;所述风控策略基于权利要求1-10任一项所述的风控策略生成方法获得。
12.一种服务器,其中,包括存储器和处理器,所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1-10任一项所述的风控策略生成方法,或者,如权利要求11所述的决策方法。
13.一种存储介质,其中,所述存储介质存储有程序,所述程序被执行时实现如权利要求1-10任一项所述的风控策略生成方法,或者,如权利要求11所述的决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310097188.5A CN116109139A (zh) | 2023-01-20 | 2023-01-20 | 风控策略生成方法、决策方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310097188.5A CN116109139A (zh) | 2023-01-20 | 2023-01-20 | 风控策略生成方法、决策方法、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109139A true CN116109139A (zh) | 2023-05-12 |
Family
ID=86265183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310097188.5A Pending CN116109139A (zh) | 2023-01-20 | 2023-01-20 | 风控策略生成方法、决策方法、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109139A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078403A (zh) * | 2023-10-18 | 2023-11-17 | 杭银消费金融股份有限公司 | 一种基于规则组合优化的风控决策方法与系统 |
CN117196823A (zh) * | 2023-09-08 | 2023-12-08 | 厦门国际银行股份有限公司 | 一种风控规则生成方法、系统及存储介质 |
CN118410319A (zh) * | 2024-07-02 | 2024-07-30 | 杭银消费金融股份有限公司 | 一种最优化风控策略生成处理方法与系统 |
-
2023
- 2023-01-20 CN CN202310097188.5A patent/CN116109139A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196823A (zh) * | 2023-09-08 | 2023-12-08 | 厦门国际银行股份有限公司 | 一种风控规则生成方法、系统及存储介质 |
CN117196823B (zh) * | 2023-09-08 | 2024-03-19 | 厦门国际银行股份有限公司 | 一种风控规则生成方法、系统及存储介质 |
CN117078403A (zh) * | 2023-10-18 | 2023-11-17 | 杭银消费金融股份有限公司 | 一种基于规则组合优化的风控决策方法与系统 |
CN117078403B (zh) * | 2023-10-18 | 2024-01-12 | 杭银消费金融股份有限公司 | 一种基于规则组合优化的风控决策方法与系统 |
CN118410319A (zh) * | 2024-07-02 | 2024-07-30 | 杭银消费金融股份有限公司 | 一种最优化风控策略生成处理方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116109139A (zh) | 风控策略生成方法、决策方法、服务器及存储介质 | |
CN117494292A (zh) | 一种基于bim和ai大模型的工程进度管理方法及系统 | |
CN109118119A (zh) | 风控模型生成方法及装置 | |
CN105718490A (zh) | 一种用于更新分类模型的方法及装置 | |
CN113435998B (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN111582341B (zh) | 用户异常操作预测方法及装置 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN114817681B (zh) | 一种基于大数据分析的金融风控系统及其管理设备 | |
CN113139570A (zh) | 一种基于最优混合估值的大坝安全监测数据补全方法 | |
CN113609393B (zh) | 一种基于数据服务和数据管理的数字化平台 | |
CN114612011A (zh) | 一种风险防控决策方法及装置 | |
CN113450207A (zh) | 一种智能催收方法、装置、设备及存储介质 | |
CN113205442A (zh) | 基于区块链的电子政务数据反馈管理方法及装置 | |
CN118115098A (zh) | 基于深度学习的大数据分析与处理系统 | |
CN115600818A (zh) | 多维评分方法、装置、电子设备和存储介质 | |
CN108197740A (zh) | 企业倒闭预测方法、电子设备和计算机存储介质 | |
CN114066173A (zh) | 资金流动行为分析方法及存储介质 | |
CN114169623A (zh) | 一种电力设备故障分析方法、装置、电子设备及存储介质 | |
CN112580268A (zh) | 基于业务处理的机器学习模型选择方法及装置 | |
KR20210132847A (ko) | 릿지 회귀를 이용한 변수 선택 장치 및 방법 | |
CN117391644B (zh) | 一种合同管理过程中参数调整方法、装置、设备及介质 | |
Brešić | Knowledge acquisition in databases | |
CN113435655B (zh) | 扇区动态管理决策方法、服务器及系统 | |
CN111694882A (zh) | 一种处罚案件撤案的影响因素分析方法 | |
CN115580889A (zh) | 一种无线小区关键绩效指标异常检测的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |