CN113961774B

CN113961774B - 一种多特征组合策略的推荐方法

Info

Publication number: CN113961774B
Application number: CN202111581471.2A
Authority: CN
Inventors: 王萍; 贾坤
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-15
Anticipated expiration: 2041-12-22
Also published as: CN113961774A

Abstract

本发明属于计算机技术领域，具体涉及一种多特征组合策略的推荐方法，本发明通过界面化的配置，实现在指定目标变量的情况下，自动推荐多特征组合策略，用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率，也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘，实现风控规则的快速推荐，并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景，例如：医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。

Description

一种多特征组合策略的推荐方法

技术领域

本发明属于计算机技术领域，具体涉及一种多特征组合策略的推荐方法。

背景技术

今年来，网络黑色产业链发展形式严峻，黑色产业链的手段及形式层出不穷、波谲云诡；导致互联网金融面临严峻的欺诈挑战。

目前，线上实时欺诈策略体系如何自适应的快速升级，以抵御变幻莫测的黑色产业链的攻击，是新形式造就的一个重要研究方向，在互联网信贷欺诈风控领域，如何实现基于大数据技术，针对各个欺诈风险场景挖掘显著规则策略，一直是各家金融机构重点研究的课题。

针对上述技术问题，当前行业内的通用做法一般是模型人员或策略人员通过调优脚本的方式选择最优的组合策略规则。组合策略规则指的是由多个特征变量组成的规则策略。但采用上述方式选择最优的组合策略规则，将会导致相关人员的工作强度大，人工成本高，并且通过人工操作的方式风险也会增加。

发明内容

本发明公开了一种多特征组合策略的推荐方法，拟解决背景技术中提到的相关人员工作强度高、人工成本高以及采用人工操作的方式风险也为增加的技术问题。

为解决上述技术问题，本发明采用的技术方案如下：

一种多特征组合策略的推荐方法，包括以下步骤：

步骤1：任务定义模块根据多特征组合策略的挖掘需要，通过界面化自定义推荐任务；

步骤2：样本选择模块根据自定义的推荐任务，选择关联的数据集，指定相互关联的数据集生成样本数据大宽表；

步骤3：特征加工模块对样本数据大宽表中的原始特征变量进行可视化配置，实现基于表达式运算的自定义二次加工能力，衍生丰富的特征；

步骤4：目标自定义模块对进行可视化配置后的数据集进行目标变量的定义；

步骤5：特征选择模块通过可视化界面选择每个目标变量的特征推荐方法；

步骤6：多特征组合策略推荐模块通过可视化界面定义每个目标变量的策略推荐方法和阈值，并基于步骤5选择的每个目标变量的特征推荐方法，生成推荐的多特征组合策略集；

步骤7：报告生成模块基于多特征组合策略推荐模块生成的多特征组合策略集生成显著多特征组合策略推荐报告。

本发明通过界面化的配置，实现在指定目标变量的情况下，自动推荐多特征组合策略，用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率，也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘，实现风控规则的快速推荐，并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景，例如：医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。

本发明的一种多特征组合策略的推荐方法，特别适合但并不限于运用于互联网欺诈体系的场景中，还可以运用于贷前准入策略挖掘场景，当本发明运用于贷款场景中时，所述的推荐任务为用户数据，例如用户的人行信用数据、还款数据、还款能力数据和社保数据等；最后金融机构可以得到贷前准入策略报告。

优选的，所述步骤6中所述的多特征组合策略推荐模块包括四种推荐方法，所述四种推荐方法分别为：基于WOE计算的推荐方法、等距划分分组方法、分位数划分分组方法和决策树划分分支方法；所述阈值的评价指标为Lift和坏占比指标。

阈值评价指标Lift是评估一个预测模型是否有效的一个度量，它衡量的是一个模型对目标中“响应”的预测能力优于随机选择的倍数，以1为界线，Lift的值大于1表示该模型或规则比随机选择捕捉了更多的“响应”。本发明采用Lift指标来衡量多特征组合策略的效果显著性，某个多特征组合策略的Lift越大则该规则效果越好，具有更强的显著性。一般情况下，Lift的值大于2时，说明规则策略具有较强的显著性。

所述坏占比(badrate)是一个用于评估策略效果的指标，指的是策略命中样本中“坏”样本的比例。

本发明所述的方法默认采用上述4中多特征组合策略的推荐方法，阈值默认为2；即，若有一个推荐任务时，需要采用上述4中多特征组合策略的推荐方法对该推荐任务进行计算，且每个多特征组合策略的推荐方法的阈值均为2。

优选的，所述步骤6包括以下步骤：

步骤6.1：所述基于WOE计算的推荐方法是对每条多特征组合策略进行分组，通过记录每个分组的临界点作为每个特征变量的阈值，遍历所有特征、阈值和运算符的组合，并对每条多特征组合策略计算坏占比和Lift指标，生成推荐的多特征组合策略集；

步骤6.2：所述等距划分分组方法是对每条多特征组合策略进行等距划分分组，记录每个分组的临界点作为规则阈值，基于每条多特征组合策略的坏占比和Lift指标遍历各个特征、阈值以及预算符的组合，生成推荐的多特征组合策略集；

步骤6.3：所述分位数划分分组方法通过分位数划分分组，记录每个分组的临界点作为规则阈值，基于坏占比和Lift指标遍历各个特征、阈值以及运算符的组合，生成推荐的多特征组合策略集；

步骤6.4：所述决策树划分分支方法通过决策树划分分支，每一条分支为一条多特征组合策略，基于坏占比和Lift指标遍历每个分支，生成推荐的多特征组合策略集。

优选的，所述步骤6.1包括以下步骤：

步骤6.1.1：规则阈值点集生成子模块通过对特征变量进行WOE单调分箱，寻找所有箱中的临界点，生成所有特征变量的规则阈值点集；

步骤6.1.2：多特征组合策略评价指标遍历子模块通过交叉遍历的方式，遍历所有特征变量的规则阈值点集，生成多特征组合策略集，并计算每条多特征组合策略的坏占比，生成多特征组合策略的坏占比指标集；

步骤6.1.3：多特征组合策略集推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集生成推荐的多特征组合策略集。

优选的，所述步骤6.2包括以下步骤：

步骤6.2.1：规则阈值点集生成子模块对特征变量进行等频分组；基于等频分组后生成所有规则阈值点集的方法如下：

经过等频分组后，最大的组数划分为n组；定义特征变量为X_i；则有n+1个临界点；

设特征变量X_i的最大值和最小值分别为max_i和min_i，则对应的分组之间的临界点集分别为

则

其中i＝1,2,……,m；j＝1,2,……,n+1；

基于临界点集生成所有规则阈值点集

其中i＝1,2,……,m；

步骤6.2.2：多特征组合策略评价指标遍历子模块通过交叉遍历的方式，遍历所有特征变量的规则阈值点集，生成多特征组合策略集，并计算每条多特征组合策略集的坏占比，生成多特征组合策略的坏占比指标集；

步骤6.2.3：多特征组合策略集推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集，自动生成推荐的多特征组合策略集。

优选的，所述步骤6.3包括以下步骤：

步骤6.3.1：规则阈值点集生成子模块对特征变量进行分位数分组，计算每个特征变量中的每个分组之间的临界点集，基于临界点集生成所有特征变量的规则阈值点集；

步骤6.3.2：多特征组合策略评价指标遍历子模块通过交叉遍历的方式，遍历所有特征变量的规则阈值点集，生成多特征组合策略集；并计算每条多特征组合策略集的坏占比，生成多特征组合策略的坏占比指标集；

步骤6.3.3：多特征组合策略集推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集，自动生成推荐的多特征组合策略集。

优选的，所述步骤6.4包括以下步骤：

步骤6.4.1：规则阈值点集生成子模块根据目标变量和特征变量，构建基于基尼系数的CART分类回归二叉树；遍历二叉树中的每个特征的每一种分裂方式，找到最好的分裂特征的方式，来对特征变量进行分组，生成每个分组之间的临界点集；并基于临界点集生成所有特征变量的规则阈值点集；

步骤6.4.2：多特征组合策略评价指标遍历子模块通过交叉遍历的方式，遍历所有特征变量的规则阈值点集，生成多特征组合策略集；并计算每条多特征组合策略集的坏占比，生成多特征组合策略的坏占比指标集；

步骤6.4.3：多特征组合策略推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集自动生成推荐的多特征组合策略集。

优选的，步骤1中所述的推荐任务内容包括：任务名称、任务说明以及跑批方式；

所述跑批方式包括实时跑批、异步定时跑批和周期性跑批。

优选的，所述大宽表为基于实体分析对象而建立的一个逻辑数据体系，由实体的维度、描述信息以及基于所述实体的一系列度量组成；所述大宽表包括样本集名称、表名、过滤条件以及关联条件。

优选的，所述显著多特征组合策略推荐报告为PDF格式；显著多特征组合策略推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明以及显著多特征组合策略列表；

所述显著多特征组合策略列表按照目标变量或推荐方法进行分类展示，并按照规则的Lift值从高到低降序排序。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明通过界面化的配置，实现在指定目标变量的情况下，自动推荐多特征组合策略，用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率，也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘，实现风控规则的快速推荐，并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景，例如：医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。

2.本发明通过界面化的配置，实现在指定目标变量的情况下，自动推荐多特征组合策略，用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率，也为金融智能风控提供了一种新的自动化方案。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的流程框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1对本发明的实施例作详细描述；

一种多特征组合策略的推荐方法，包括以下步骤：

步骤1中所述的推荐任务内容包括：任务名称、任务说明以及跑批方式；

所述任务名称是指用户自定义的所属任务名称；

所述任务说明书是指推荐任务的详细介绍；

所述跑批方式是指推荐任务的运行方式；

所述跑批方式包括实时跑批、异步定时跑批和周期性跑批；

所述实时跑批是指任务提交后立即跑批，是一次性任务；

所述异步定时跑批是指任务提交后，从某个指定的时刻进行跑批，是一次性任务；

所述周期性跑批是指任务提交后，从某个指定的时刻开始，每个一个固定周期跑批，是循环性任务。

例如：在互联网信贷领域中，针对与“杀猪盘”类电信诈骗，拟通过本发明自动生成多特征组合策略，则定义任务名称为“szp CombineRuleTask”，任务说明为“消费贷款杀猪盘诈骗多特征组合策略挖掘任务”，跑批方式选择周期性跑批，每天早上九点跑批。

步骤2：样本选择模块根据自定义的推荐任务，选择关联的数据集，指定相互关联的数据集生成样本数据大宽表；所述大宽表为基于实体分析对象而建立的一个逻辑数据体系，由实体的维度、描述信息以及基于所述实体的一系列度量组成；所述大宽表包括样本集名称、表名、过滤条件以及关联条件，可以将不同数据表的内容集成到一张大宽表中。

例如：对于推荐任务“szpCombineRuleTask”，样本集包括业务流水表、行为数据表、授信申请表以及地址画像表等信息。

所述特征加工模块包括剔除特征和新增特征两种方式；新增特征基于表达式运算、支持四则运算、字符串运算、时间类型运算以及JSON运算等；

特征加工模块进行二次加工如下例所示：

例如：对于推荐任务“szpCombineRuleTask”，删除特征姓名、公司等文本特征，新增注册到授信申请的时长、授信申请到借款申请的时长等衍生特征。

特征加工模块也可以不做任何二次加工，仅保留原始特征。

步骤4：目标自定义模块对进行可视化配置后的数据集进行目标变量的定义；同一个推荐任务支持配置多个目标变量，目标变量可以是二类分变量，也可以是多分类变量，支持表达式运算。

例如，对于推荐任务“szpCombineRuleTask”，定义目标变量为Y，当该客户被定性为“杀猪盘”类典型诈骗时，Y＝1；否则Y＝0。

步骤5：特征选择模块通过可视化界面选择每个目标变量的推荐方法；

步骤6：多特征组合策略推荐模块通过可视化界面定义每个目标变量的推荐方法和阈值，生成推荐的多特征组合策略集；所述步骤6中所述的多特征组合策略推荐模块包括四种推荐方法，所述四种推荐方法分别为：基于WOE计算的推荐方法、等距划分分组方法、分位数划分分组方法和决策树划分分支方法；所述阈值的评价指标为Lift和坏占比指标。

假设样本集的目标变量为Y，当该客户被定性为坏样本时，Y＝1；否则Y＝0。假设样本集推荐的显著特征包含m个特征向量，分别记为X₁,X₂,…,X_i,…,X_m；其中i＝1,2,…,m；假设样本集包含n条记录，则Y和X_i均为n维的列向量，记Y＝(y₁,y₂,…,y_j,…,y_n)^T，

其中i＝1,2,…,m；j＝1,2,…,n。假设样本集的整体坏占比为badRate，则

所述步骤6包括以下步骤：

步骤6.1：所述基于WOE计算的推荐方法是对每条多特征组合策略进行分组，通过记录每个分组的临界点作为多特征组合策略中的每个特征变量的阈值，基于每条多特征组合策略的坏占比和Lift指标遍历阈值，生成推荐的多特征组合策略集；

所述步骤6.1包括以下步骤：

具体如下：对任意特征变量X_i，进行WOE单调分箱，通过PYTHON开源的WOE-BIN包，实现特征变量的分组；设目标变量为Y；对于任意特征变量X_i进行WOE单调分箱之后可以分为gⁱ组，对应的组件临界点集分别为

其中i＝1,2,…,m；j≥1且j≤gⁱ；定义所有特征变量的规则阈值点集为cutSet；则

其中i＝1,2,…,m。

由于样本推荐的显著特征包含m个特征向量，则可分别形成由2,,3,…,k,…,m个特征形成的多特征组合策略，其中k＝2,3,…,m；对于由k个特征形成的多特征组合策略，假设

则规则阈值点集为cutSet^k，

其中

取值均为1,2,3,…,m，特征组合有

种；对于每个特征阈值的组合有

种组合；

运算符包括≥和＜两种组合；则由k个特征形成的多特征组合策略包含

条；其中k＝2,3,…,m；

假设多特征组合策略集为comRuleSet，则comRuleSet包含

条策略集，记作comRuleSet＝{comRule₁,comRule₂,…,comRule_j,…,comRule_sum}；每条多特征组合策略集形如

格式。即多特征组合策略是由多条单规则形成，单规则运算符号为“与”。对于第h条多特征组合策略comRule_j，定义其坏占比为

则

的频数/事件(comRule_j)的频数；定义坏占比指标集合为comRuleBadrateSet；

则

其中j＝1,2,…,sum。

假设Lift阈值为liftThreshold，则自动筛选规则Lift值大于等于liftThreshold的规则集，即对于第h条多特征组合策略comRule_j，如果

则自动推荐，其中j＝1,2,…,sum；假设满足条件的多特征组合策略有β条，对应的规则下标分别为u¹,u²,…,u^β，则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的推荐多特征组合策略集为

其中：u¹,u²,…,u^β取值为1,2,…,sum；

步骤6.2：所述等距划分分组方法是对每条多特征组合策略进行等距划分分组，记录每个分组的临界点作为规则阈值，基于每条多特征组合策略的坏占比和Lift遍历各个特征、阈值以及运算符的组合，生成推荐的多特征组合策略集；

所述步骤6.2包括以下步骤：

则

其中i＝1,2,…,m；h＝1,2,…,n+1；

基于临界点集生成所有规则阈值点集

其中i＝1,2,…,m；

由于样本集推荐的显著特征包含m个特征向量，则可分别形成由2,,3,…,k,…,m个特征形成的多特征组合策略，其中k＝2,3,…,m。对于由k个特征向量形成的多特征组合策略，假设为

规则阈值点集为iscutSet^k，则

其中

取值均为1,2,3,…,m；特征组合有

种；对于每个特征阈值的多特征组合策略包含

条，其中k＝2,3,…,m；假设多特征组合策略集为iscomRuleSet，则iscomRuleSet包含

条策略集，记作

每条多特征组合策略集形如

格式；即多特征组合策略是由多条单规则形成，单规则间运算符号为“与”。对于第h条多特征组合策略

假设其坏占比记作为

则

则若多特征组合策略坏占比指标集为：

其中h＝1,2,…,sum^is；

步骤6.2.3：多特征组合策略集推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集comRuleBadrateSet^is，自动生成推荐的多特征组合策略集。

假设，Lift阈值为liftThreshold，则自动筛选规则Lift值大于或等于liftThreshold的规则集；对于第j条多特征组合策略

如果

则自动推荐，其中j＝1,2,…,sum^is。假设满足条件的多特征组合策略有γ条，对应的规则下标分别为o¹,o²,…,o^γ，则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的推荐多特征组合策略集为

其中o¹,o²,…,o^γ取值为1,2,…,sum^is。

步骤6.3：所述分位数划分分组方法通过分位数划分分组，记录每个分组的临界点作为规则阈值，基于每条多特征组合策略的坏占比和Lift指标遍历各个特征、阈值以及运算符的组合，生成推荐的多特征组合策略集；

所述步骤6.3包括以下步骤：

本发明选择最大的组数划分为6组，分别对应1％、2％、5％、95％、98％、99％合计6个分为点。对于任意特征变量X_i，对应的组间临界点集分别为

该组间临界点集满足

其中i＝1,2,…,m。

由于样本集推荐的显著特征包含m个特征向量，则可分别形成由2,3,…,k,…,m个特征形成的多特征组合策略，其中k＝2,3,…,m；对于由k个特征形成的多特征组合策略，假设为

则规则阈值点集合为

其中

取值均为1,2,3,…,m；特征组合有

种；对于每个特征阈值的组合有6^k中组合；运算符包括≥和＜两种组合；则由k个特征形成的多特征组合策略包含

条，其中k＝2,3,…,m；假设多特征组合策略集为qcomRuleSet，则qcomRuleSet包含

条策略集，记作

每条多特征组合策略集形如

格式。即多特征组合策略是由多条单规则形成，单规则间运算符为“与”。对于第j条多特征组合策略

假设其坏占比记作为

则

则多特征组合策略坏占比指标集为comRuleBadrateSet^q，则

其中：j＝1,2,…,sum^q。

步骤6.3.3：多特征组合策略集推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集comRuleBadrateSet^q，自动生成推荐的多特征组合策略集。

假设Lift阈值为liftThreshold，则自动筛选规则Lift值大于或等于liftThreshold的规则集；对于第j条多特征组合策略

如果

则自动推荐，其中j＝1,2,……,sum^q。

假设满足条件的多特征组合策略有δ条，对应的规则下表分别为p¹,p²,…,p^δ，则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的多特征组合策略集为：

其中p¹,p²,…,p^δ取值为1,2,…,sum^q。

步骤6.4：所述决策树划分分支方法通过决策树划分分支，基于每条多特征组合策略的坏占比和Lift遍历每个分支，生成推荐的多特征组合策略集。

所述步骤6.4包括以下步骤：

步骤6.4.1：规则阈值点集生成子模块根据目标变量Y和特征变量集合X₁,X₂,…,X_m，构建基于基尼系数的CART分类回归二叉树；遍历二叉树中的每个特征的每一种分裂方式，找到最好的分裂特征的方式，来对特征变量进行分组，生成每个分组之间的临界点集；并基于临界点集生成所有特征变量的规则阈值点集；

假设通过遍历每个特征的每一种分裂方式，找到最好的分裂特征的方式来对特征变量进行分组。CART分类回归二叉树基于基尼系数对特征进行分裂，如果基尼系数越大，则表明特征对样本的熵的减少能力越强，这个特征使得数据由不确定性到确定性的能力越强，即效果越好。CART分类回归二叉树将每个特征划分为二叉树，即每个特征对应一个阈值点。对于任意特征变量X_i，对应的组间临界点集分别为

其中i＝1,2,…,m。即对于所有特征变量的规则阈值点集为：

其中i＝1,2,…,m。

由于样本集推荐的显著特征包含m个特征向量，则可分别形成由2,3,…,k,…,m个特征形成的多特征组合策略，其中k＝2,3,…,m。对于由k个特征形成的多特征组合策略，假设为

则规则阈值点集为dcutSet^k，则

其中

取值均为1,2,3,…,m；特征组合有

种；对于每个特征阈值的组合有1种组合；运算符包括≥和＜两种组合；则由k个特征形成的多特征组合策略包含

条，其中k＝2,3,…,m。假设多特征组合策略集为dcomRuleSet，则dcomRuleSet包含

条策略集，记做

每条多特征组合策略集形如

格式。即多特征组合策略是由多条单规则形成，单规则间运算符号为“与”。对于第j条多特征组合策略

假设其坏占比分别记作

则

则若多特征组合策略坏占比指标集为comRuleBadrateSet^d，

其中j＝1,2,…,sum^d。

步骤6.4.3：多特征组合策略推荐子模块根据阈值的评价指标Lift，并基于多特征组合策略的坏占比指标集comRuleBadrateSet^d自动生成推荐的多特征组合策略集。

假设Lift阈值为liftThreshold，则自动筛选规则Lift值大于等于liftThreshold的规则集，即对于第j条多特征组合策略

如果

则自动推荐，其中j＝1,2,……,sum^d。假设满足条件的多特征组合策略μ条，对应的规则下标分别为ω¹,ω²,……,ω^μ，则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的推荐多特征组合策略集为：

其中ω¹,ω²,……,ω^μ取值为1,2,……,sum^d。

步骤7：报告生成模块基于多特征组合策略推荐模块中生成的推荐的多特征组合策略集生成显著多特征组合策略推荐报告。

所述显著多特征组合策略推荐报告为PDF格式；显著多特征组合策略推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明以及显著多特征组合策略列表；

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。