CN113961774B - 一种多特征组合策略的推荐方法 - Google Patents
一种多特征组合策略的推荐方法 Download PDFInfo
- Publication number
- CN113961774B CN113961774B CN202111581471.2A CN202111581471A CN113961774B CN 113961774 B CN113961774 B CN 113961774B CN 202111581471 A CN202111581471 A CN 202111581471A CN 113961774 B CN113961774 B CN 113961774B
- Authority
- CN
- China
- Prior art keywords
- feature combination
- feature
- combination strategy
- strategy
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于计算机技术领域,具体涉及一种多特征组合策略的推荐方法,本发明通过界面化的配置,实现在指定目标变量的情况下,自动推荐多特征组合策略,用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率,也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘,实现风控规则的快速推荐,并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景,例如:医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种多特征组合策略的推荐方法。
背景技术
今年来,网络黑色产业链发展形式严峻,黑色产业链的手段及形式层出不穷、波谲云诡;导致互联网金融面临严峻的欺诈挑战。
目前,线上实时欺诈策略体系如何自适应的快速升级,以抵御变幻莫测的黑色产业链的攻击,是新形式造就的一个重要研究方向,在互联网信贷欺诈风控领域,如何实现基于大数据技术,针对各个欺诈风险场景挖掘显著规则策略,一直是各家金融机构重点研究的课题。
针对上述技术问题,当前行业内的通用做法一般是模型人员或策略人员通过调优脚本的方式选择最优的组合策略规则。组合策略规则指的是由多个特征变量组成的规则策略。但采用上述方式选择最优的组合策略规则,将会导致相关人员的工作强度大,人工成本高,并且通过人工操作的方式风险也会增加。
发明内容
本发明公开了一种多特征组合策略的推荐方法,拟解决背景技术中提到的相关人员工作强度高、人工成本高以及采用人工操作的方式风险也为增加的技术问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种多特征组合策略的推荐方法,包括以下步骤:
步骤1:任务定义模块根据多特征组合策略的挖掘需要,通过界面化自定义推荐任务;
步骤2:样本选择模块根据自定义的推荐任务,选择关联的数据集,指定相互关联的数据集生成样本数据大宽表;
步骤3:特征加工模块对样本数据大宽表中的原始特征变量进行可视化配置,实现基于表达式运算的自定义二次加工能力,衍生丰富的特征;
步骤4:目标自定义模块对进行可视化配置后的数据集进行目标变量的定义;
步骤5:特征选择模块通过可视化界面选择每个目标变量的特征推荐方法;
步骤6:多特征组合策略推荐模块通过可视化界面定义每个目标变量的策略推荐方法和阈值,并基于步骤5选择的每个目标变量的特征推荐方法,生成推荐的多特征组合策略集;
步骤7:报告生成模块基于多特征组合策略推荐模块生成的多特征组合策略集生成显著多特征组合策略推荐报告。
本发明通过界面化的配置,实现在指定目标变量的情况下,自动推荐多特征组合策略,用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率,也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘,实现风控规则的快速推荐,并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景,例如:医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。
本发明的一种多特征组合策略的推荐方法,特别适合但并不限于运用于互联网欺诈体系的场景中,还可以运用于贷前准入策略挖掘场景,当本发明运用于贷款场景中时,所述的推荐任务为用户数据,例如用户的人行信用数据、还款数据、还款能力数据和社保数据等;最后金融机构可以得到贷前准入策略报告。
优选的,所述步骤6中所述的多特征组合策略推荐模块包括四种推荐方法,所述四种推荐方法分别为:基于WOE计算的推荐方法、等距划分分组方法、分位数划分分组方法和决策树划分分支方法;所述阈值的评价指标为Lift和坏占比指标。
阈值评价指标Lift是评估一个预测模型是否有效的一个度量,它衡量的是一个模型对目标中“响应”的预测能力优于随机选择的倍数,以1为界线,Lift的值大于1表示该模型或规则比随机选择捕捉了更多的“响应”。本发明采用Lift指标来衡量多特征组合策略的效果显著性,某个多特征组合策略的Lift越大则该规则效果越好,具有更强的显著性。一般情况下,Lift的值大于2时,说明规则策略具有较强的显著性。
所述坏占比(badrate)是一个用于评估策略效果的指标,指的是策略命中样本中“坏”样本的比例。
本发明所述的方法默认采用上述4中多特征组合策略的推荐方法,阈值默认为2;即,若有一个推荐任务时,需要采用上述4中多特征组合策略的推荐方法对该推荐任务进行计算,且每个多特征组合策略的推荐方法的阈值均为2。
优选的,所述步骤6包括以下步骤:
步骤6.1:所述基于WOE计算的推荐方法是对每条多特征组合策略进行分组,通过记录每个分组的临界点作为每个特征变量的阈值,遍历所有特征、阈值和运算符的组合,并对每条多特征组合策略计算坏占比和Lift指标,生成推荐的多特征组合策略集;
步骤6.2:所述等距划分分组方法是对每条多特征组合策略进行等距划分分组,记录每个分组的临界点作为规则阈值,基于每条多特征组合策略的坏占比和Lift指标遍历各个特征、阈值以及预算符的组合,生成推荐的多特征组合策略集;
步骤6.3:所述分位数划分分组方法通过分位数划分分组,记录每个分组的临界点作为规则阈值,基于坏占比和Lift指标遍历各个特征、阈值以及运算符的组合,生成推荐的多特征组合策略集;
步骤6.4:所述决策树划分分支方法通过决策树划分分支,每一条分支为一条多特征组合策略,基于坏占比和Lift指标遍历每个分支,生成推荐的多特征组合策略集。
优选的,所述步骤6.1包括以下步骤:
步骤6.1.1:规则阈值点集生成子模块通过对特征变量进行WOE单调分箱,寻找所有箱中的临界点,生成所有特征变量的规则阈值点集;
步骤6.1.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集,并计算每条多特征组合策略的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.1.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集生成推荐的多特征组合策略集。
优选的,所述步骤6.2包括以下步骤:
步骤6.2.1:规则阈值点集生成子模块对特征变量进行等频分组;基于等频分组后生成所有规则阈值点集的方法如下:
经过等频分组后,最大的组数划分为n组;定义特征变量为Xi;则有n+1个临界点;
步骤6.2.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集,并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.2.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集,自动生成推荐的多特征组合策略集。
优选的,所述步骤6.3包括以下步骤:
步骤6.3.1:规则阈值点集生成子模块对特征变量进行分位数分组,计算每个特征变量中的每个分组之间的临界点集,基于临界点集生成所有特征变量的规则阈值点集;
步骤6.3.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集;并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.3.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集,自动生成推荐的多特征组合策略集。
优选的,所述步骤6.4包括以下步骤:
步骤6.4.1:规则阈值点集生成子模块根据目标变量和特征变量,构建基于基尼系数的CART分类回归二叉树;遍历二叉树中的每个特征的每一种分裂方式,找到最好的分裂特征的方式,来对特征变量进行分组,生成每个分组之间的临界点集;并基于临界点集生成所有特征变量的规则阈值点集;
步骤6.4.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集;并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.4.3:多特征组合策略推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集自动生成推荐的多特征组合策略集。
优选的,步骤1中所述的推荐任务内容包括:任务名称、任务说明以及跑批方式;
所述跑批方式包括实时跑批、异步定时跑批和周期性跑批。
优选的,所述大宽表为基于实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息以及基于所述实体的一系列度量组成;所述大宽表包括样本集名称、表名、过滤条件以及关联条件。
优选的,所述显著多特征组合策略推荐报告为PDF格式;显著多特征组合策略推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明以及显著多特征组合策略列表;
所述显著多特征组合策略列表按照目标变量或推荐方法进行分类展示,并按照规则的Lift值从高到低降序排序。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明通过界面化的配置,实现在指定目标变量的情况下,自动推荐多特征组合策略,用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率,也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘,实现风控规则的快速推荐,并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景,例如:医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。
2.本发明通过界面化的配置,实现在指定目标变量的情况下,自动推荐多特征组合策略,用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率,也为金融智能风控提供了一种新的自动化方案。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的流程框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1对本发明的实施例作详细描述;
一种多特征组合策略的推荐方法,包括以下步骤:
步骤1:任务定义模块根据多特征组合策略的挖掘需要,通过界面化自定义推荐任务;
步骤1中所述的推荐任务内容包括:任务名称、任务说明以及跑批方式;
所述任务名称是指用户自定义的所属任务名称;
所述任务说明书是指推荐任务的详细介绍;
所述跑批方式是指推荐任务的运行方式;
所述跑批方式包括实时跑批、异步定时跑批和周期性跑批;
所述实时跑批是指任务提交后立即跑批,是一次性任务;
所述异步定时跑批是指任务提交后,从某个指定的时刻进行跑批,是一次性任务;
所述周期性跑批是指任务提交后,从某个指定的时刻开始,每个一个固定周期跑批,是循环性任务。
例如:在互联网信贷领域中,针对与“杀猪盘”类电信诈骗,拟通过本发明自动生成多特征组合策略,则定义任务名称为“szp CombineRuleTask”,任务说明为“消费贷款杀猪盘诈骗多特征组合策略挖掘任务”,跑批方式选择周期性跑批,每天早上九点跑批。
步骤2:样本选择模块根据自定义的推荐任务,选择关联的数据集,指定相互关联的数据集生成样本数据大宽表;所述大宽表为基于实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息以及基于所述实体的一系列度量组成;所述大宽表包括样本集名称、表名、过滤条件以及关联条件,可以将不同数据表的内容集成到一张大宽表中。
例如:对于推荐任务“szpCombineRuleTask”,样本集包括业务流水表、行为数据表、授信申请表以及地址画像表等信息。
步骤3:特征加工模块对样本数据大宽表中的原始特征变量进行可视化配置,实现基于表达式运算的自定义二次加工能力,衍生丰富的特征;
所述特征加工模块包括剔除特征和新增特征两种方式;新增特征基于表达式运算、支持四则运算、字符串运算、时间类型运算以及JSON运算等;
特征加工模块进行二次加工如下例所示:
例如:对于推荐任务“szpCombineRuleTask”,删除特征姓名、公司等文本特征,新增注册到授信申请的时长、授信申请到借款申请的时长等衍生特征。
特征加工模块也可以不做任何二次加工,仅保留原始特征。
步骤4:目标自定义模块对进行可视化配置后的数据集进行目标变量的定义;同一个推荐任务支持配置多个目标变量,目标变量可以是二类分变量,也可以是多分类变量,支持表达式运算。
例如,对于推荐任务“szpCombineRuleTask”,定义目标变量为Y,当该客户被定性为“杀猪盘”类典型诈骗时,Y=1;否则Y=0。
步骤5:特征选择模块通过可视化界面选择每个目标变量的推荐方法;
步骤6:多特征组合策略推荐模块通过可视化界面定义每个目标变量的推荐方法和阈值,生成推荐的多特征组合策略集;所述步骤6中所述的多特征组合策略推荐模块包括四种推荐方法,所述四种推荐方法分别为:基于WOE计算的推荐方法、等距划分分组方法、分位数划分分组方法和决策树划分分支方法;所述阈值的评价指标为Lift和坏占比指标。
阈值评价指标Lift是评估一个预测模型是否有效的一个度量,它衡量的是一个模型对目标中“响应”的预测能力优于随机选择的倍数,以1为界线,Lift的值大于1表示该模型或规则比随机选择捕捉了更多的“响应”。本发明采用Lift指标来衡量多特征组合策略的效果显著性,某个多特征组合策略的Lift越大则该规则效果越好,具有更强的显著性。一般情况下,Lift的值大于2时,说明规则策略具有较强的显著性。
所述坏占比(badrate)是一个用于评估策略效果的指标,指的是策略命中样本中“坏”样本的比例。
本发明所述的方法默认采用上述4中多特征组合策略的推荐方法,阈值默认为2;即,若有一个推荐任务时,需要采用上述4中多特征组合策略的推荐方法对该推荐任务进行计算,且每个多特征组合策略的推荐方法的阈值均为2。
假设样本集的目标变量为Y,当该客户被定性为坏样本时,Y=1;否则Y=0。假设样本集推荐的显著特征包含m个特征向量,分别记为X1,X2,…,Xi,…,Xm;其中i=1,2,…,m;假设样本集包含n条记录,则Y和Xi均为n维的列向量,记Y=(y1,y2,…,yj,…,yn)T, 其中i=1,2,…,m;j=1,2,…,n。假设样本集的整体坏占比为badRate,则
所述步骤6包括以下步骤:
步骤6.1:所述基于WOE计算的推荐方法是对每条多特征组合策略进行分组,通过记录每个分组的临界点作为多特征组合策略中的每个特征变量的阈值,基于每条多特征组合策略的坏占比和Lift指标遍历阈值,生成推荐的多特征组合策略集;
所述步骤6.1包括以下步骤:
步骤6.1.1:规则阈值点集生成子模块通过对特征变量进行WOE单调分箱,寻找所有箱中的临界点,生成所有特征变量的规则阈值点集;
具体如下:对任意特征变量Xi,进行WOE单调分箱,通过PYTHON开源的WOE-BIN包,实现特征变量的分组;设目标变量为Y;对于任意特征变量Xi进行WOE单调分箱之后可以分为gi组,对应的组件临界点集分别为其中i=1,2,…,m;j≥1且j≤gi;定义所有特征变量的规则阈值点集为cutSet;则 其中i=1,2,…,m。
步骤6.1.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集,并计算每条多特征组合策略的坏占比,生成多特征组合策略的坏占比指标集;
由于样本推荐的显著特征包含m个特征向量,则可分别形成由2,,3,…,k,…,m个特征形成的多特征组合策略,其中k=2,3,…,m;对于由k个特征形成的多特征组合策略,假设则规则阈值点集为cutSetk,
假设多特征组合策略集为comRuleSet,则comRuleSet包含 条策略集,记作comRuleSet={comRule1,comRule2,…,comRulej,…,comRulesum};每条多特征组合策略集形如格式。即多特征组合策略是由多条单规则形成,单规则运算符号为“与”。对于第h条多特征组合策略comRulej,定义其坏占比为
其中j=1,2,…,sum。
步骤6.1.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集生成推荐的多特征组合策略集。
假设Lift阈值为liftThreshold,则自动筛选规则Lift值大于等于liftThreshold的规则集,即对于第h条多特征组合策略comRulej,如果则自动推荐,其中j=1,2,…,sum;假设满足条件的多特征组合策略有β条,对应的规则下标分别为u1,u2,…,uβ,则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的推荐多特征组合策略集为
其中:u1,u2,…,uβ取值为1,2,…,sum;
步骤6.2:所述等距划分分组方法是对每条多特征组合策略进行等距划分分组,记录每个分组的临界点作为规则阈值,基于每条多特征组合策略的坏占比和Lift遍历各个特征、阈值以及运算符的组合,生成推荐的多特征组合策略集;
所述步骤6.2包括以下步骤:
步骤6.2.1:规则阈值点集生成子模块对特征变量进行等频分组;基于等频分组后生成所有规则阈值点集的方法如下:
经过等频分组后,最大的组数划分为n组;定义特征变量为Xi;则有n+1个临界点;
步骤6.2.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集,并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
由于样本集推荐的显著特征包含m个特征向量,则可分别形成由2,,3,…,k,…,m个特征形成的多特征组合策略,其中k=2,3,…,m。对于由k个特征向量形成的多特征组合策略,假设为规则阈值点集为iscutSetk,则 其中取值均为1,2,3,…,m;特征组合有种;对于每个特征阈值的多特征组合策略包含 条,其中k=2,3,…,m;假设多特征组合策略集为iscomRuleSet,则iscomRuleSet包含条策略集,记作 每条多特征组合策略集形如 格式;即多特征组合策略是由多条单规则形成,单规则间运算符号为“与”。对于第h条多特征组合策略假设其坏占比记作为则则若多特征组合策略坏占比指标集为:
其中h=1,2,…,sumis;
步骤6.2.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集comRuleBadrateSetis,自动生成推荐的多特征组合策略集。
假设,Lift阈值为liftThreshold,则自动筛选规则Lift值大于或等于liftThreshold的规则集;对于第j条多特征组合策略如果则自动推荐,其中j=1,2,…,sumis。假设满足条件的多特征组合策略有γ条,对应的规则下标分别为o1,o2,…,oγ,则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的推荐多特征组合策略集为
步骤6.3:所述分位数划分分组方法通过分位数划分分组,记录每个分组的临界点作为规则阈值,基于每条多特征组合策略的坏占比和Lift指标遍历各个特征、阈值以及运算符的组合,生成推荐的多特征组合策略集;
所述步骤6.3包括以下步骤:
步骤6.3.1:规则阈值点集生成子模块对特征变量进行分位数分组,计算每个特征变量中的每个分组之间的临界点集,基于临界点集生成所有特征变量的规则阈值点集;
步骤6.3.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集;并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
其中取值均为1,2,3,…,m;特征组合有种;对于每个特征阈值的组合有6k中组合;运算符包括≥和<两种组合;则由k个特征形成的多特征组合策略包含条,其中k=2,3,…,m;假设多特征组合策略集为qcomRuleSet,则qcomRuleSet包含条策略集,记作每条多特征组合策略集形如格式。即多特征组合策略是由多条单规则形成,单规则间运算符为“与”。对于第j条多特征组合策略假设其坏占比记作为则则多特征组合策略坏占比指标集为comRuleBadrateSetq,则
其中:j=1,2,…,sumq。
步骤6.3.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集comRuleBadrateSetq,自动生成推荐的多特征组合策略集。
假设满足条件的多特征组合策略有δ条,对应的规则下表分别为p1,p2,…,pδ,则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的多特征组合策略集为:
其中p1,p2,…,pδ取值为1,2,…,sumq。
步骤6.4:所述决策树划分分支方法通过决策树划分分支,基于每条多特征组合策略的坏占比和Lift遍历每个分支,生成推荐的多特征组合策略集。
所述步骤6.4包括以下步骤:
步骤6.4.1:规则阈值点集生成子模块根据目标变量Y和特征变量集合X1,X2,…,Xm,构建基于基尼系数的CART分类回归二叉树;遍历二叉树中的每个特征的每一种分裂方式,找到最好的分裂特征的方式,来对特征变量进行分组,生成每个分组之间的临界点集;并基于临界点集生成所有特征变量的规则阈值点集;
假设通过遍历每个特征的每一种分裂方式,找到最好的分裂特征的方式来对特征变量进行分组。CART分类回归二叉树基于基尼系数对特征进行分裂,如果基尼系数越大,则表明特征对样本的熵的减少能力越强,这个特征使得数据由不确定性到确定性的能力越强,即效果越好。CART分类回归二叉树将每个特征划分为二叉树,即每个特征对应一个阈值点。对于任意特征变量Xi,对应的组间临界点集分别为其中i=1,2,…,m。即对于所有特征变量的规则阈值点集为:
步骤6.4.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集;并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
由于样本集推荐的显著特征包含m个特征向量,则可分别形成由2,3,…,k,…,m个特征形成的多特征组合策略,其中k=2,3,…,m。对于由k个特征形成的多特征组合策略,假设为则规则阈值点集为dcutSetk,则
其中取值均为1,2,3,…,m;特征组合有种;对于每个特征阈值的组合有1种组合;运算符包括≥和<两种组合;则由k个特征形成的多特征组合策略包含条,其中k=2,3,…,m。假设多特征组合策略集为dcomRuleSet,则dcomRuleSet包含条策略集,记做 每条多特征组合策略集形如 格式。即多特征组合策略是由多条单规则形成,单规则间运算符号为“与”。对于第j条多特征组合策略假设其坏占比分别记作则则若多特征组合策略坏占比指标集为comRuleBadrateSetd,
步骤6.4.3:多特征组合策略推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集comRuleBadrateSetd自动生成推荐的多特征组合策略集。
假设Lift阈值为liftThreshold,则自动筛选规则Lift值大于等于liftThreshold的规则集,即对于第j条多特征组合策略如果则自动推荐,其中j=1,2,……,sumd。假设满足条件的多特征组合策略μ条,对应的规则下标分别为ω1,ω2,……,ωμ,则基于comWoeBadRateLIFT多特征组合策略推荐方法生成的推荐多特征组合策略集为:
其中ω1,ω2,……,ωμ取值为1,2,……,sumd。
步骤7:报告生成模块基于多特征组合策略推荐模块中生成的推荐的多特征组合策略集生成显著多特征组合策略推荐报告。
所述显著多特征组合策略推荐报告为PDF格式;显著多特征组合策略推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明以及显著多特征组合策略列表;
所述显著多特征组合策略列表按照目标变量或推荐方法进行分类展示,并按照规则的Lift值从高到低降序排序。
本发明通过界面化的配置,实现在指定目标变量的情况下,自动推荐多特征组合策略,用以识别和拦截欺诈和信用风险。不仅极大的提升了策略挖掘的效率,也为金融智能风控提供了一种新的自动化方案。基于系统智能化、自动化的进行欺诈信息的挖掘,实现风控规则的快速推荐,并达到实时欺诈策略自适应快速升级的目的。同时本发明也可以扩展到其他的应用场景,例如:医学诊断、精准营销、保险欺诈以及潜在犯罪预测等。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (4)
1.一种多特征组合策略的推荐方法,其特征在于,包括以下步骤:
步骤1:任务定义模块根据多特征组合策略的挖掘需要,通过界面化自定义推荐任务;
步骤2:样本选择模块根据自定义的推荐任务,选择关联的数据集,指定相互关联的数据集生成样本数据大宽表;
步骤3:特征加工模块对样本数据大宽表中的原始特征变量进行可视化配置,实现基于表达式运算的自定义二次加工能力,衍生丰富的特征;
步骤4:目标自定义模块对可视化配置后的数据集进行目标变量的定义;
步骤5:特征选择模块通过可视化界面选择每个目标变量的特征推荐方法;
步骤6:多特征组合策略推荐模块通过可视化界面定义每个目标变量的策略推荐方法和阈值,并基于步骤5选择的每个目标变量的特征推荐方法,生成推荐的多特征组合策略集;
步骤7:报告生成模块基于多特征组合策略推荐模块生成的多特征组合策略集生成显著多特征组合策略推荐报告;
所述步骤6中所述的多特征组合策略推荐模块包括四种推荐方法,所述四种推荐方法分别为:基于WOE计算的推荐方法、等距划分分组方法、分位数划分分组方法和决策树划分分支方法;所述阈值的评价指标为Lift和坏占比指标;
所述步骤6包括以下步骤:
步骤6.1:所述基于WOE计算的推荐方法是对每条多特征组合策略进行分组,通过记录每个分组的临界点作为每个特征变量的阈值,遍历所有特征、阈值和运算符的组合,并对每条多特征组合策略计算坏占比和Lift指标,生成推荐的多特征组合策略集;
步骤6.2:所述等距划分分组方法是对每条多特征组合策略进行等距划分分组,记录每个分组的临界点作为规则阈值,基于每条多特征组合策略的坏占比和Lift指标遍历各个特征、阈值以及预算符的组合,生成推荐的多特征组合策略集;
步骤6.3:所述分位数划分分组方法通过分位数划分分组,记录每个分组的临界点作为规则阈值,基于坏占比和Lift指标遍历各个特征、阈值以及运算符的组合,生成推荐的多特征组合策略集;
步骤6.4:所述决策树划分分支方法通过决策树划分分支,每一条分支为一条多特征组合策略,基于坏占比和Lift指标遍历每个分支,生成推荐的多特征组合策略集;
所述步骤6.1包括以下步骤:
步骤6.1.1:规则阈值点集生成子模块通过对特征变量进行WOE单调分箱,寻找所有箱中的临界点,生成所有特征变量的规则阈值点集;
步骤6.1.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集,并计算每条多特征组合策略的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.1.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集生成推荐的多特征组合策略集;
所述步骤6.2包括以下步骤:
步骤6.2.1:规则阈值点集生成子模块对特征变量进行等频分组;基于等频分组后生成所有规则阈值点集的方法如下:
经过等频分组后,最大的组数划分为n组;定义特征变量为Xi;则有n+1个临界点;
基于临界点集生成所有规则阈值点集:
步骤6.2.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集,并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.2.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集,自动生成推荐的多特征组合策略集;
所述步骤6.3包括以下步骤:
步骤6.3.1:规则阈值点集生成子模块对特征变量进行分位数分组,计算每个特征变量中的每个分组之间的临界点集,基于临界点集生成所有特征变量的规则阈值点集;
步骤6.3.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集;并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.3.3:多特征组合策略集推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集,自动生成推荐的多特征组合策略集;
所述步骤6.4包括以下步骤:
步骤6.4.1:规则阈值点集生成子模块根据目标变量和特征变量,构建基于基尼系数的CART分类回归二叉树;遍历二叉树中的每个特征的每一种分裂方式,找到最好的分裂特征的方式,来对特征变量进行分组,生成每个分组之间的临界点集;并基于临界点集生成所有特征变量的规则阈值点集;
步骤6.4.2:多特征组合策略评价指标遍历子模块通过交叉遍历的方式,遍历所有特征变量的规则阈值点集,生成多特征组合策略集;并计算每条多特征组合策略集的坏占比,生成多特征组合策略的坏占比指标集;
步骤6.4.3:多特征组合策略推荐子模块根据阈值的评价指标Lift,并基于多特征组合策略的坏占比指标集自动生成推荐的多特征组合策略集。
2.根据权利要求1所述的一种多特征组合策略的推荐方法,其特征在于,步骤1中所述的推荐任务内容包括:任务名称、任务说明以及跑批方式;
所述跑批方式包括实时跑批、异步定时跑批和周期性跑批。
3.根据权利要求1所述的一种多特征组合策略的推荐方法,其特征在于,所述大宽表为基于实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息以及基于所述实体的一系列度量组成;所述大宽表包括样本集名称、表名、过滤条件以及关联条件。
4.根据权利要求1所述的一种多特征组合策略的推荐方法,其特征在于,所述显著多特征组合策略推荐报告为PDF格式;显著多特征组合策略推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明以及显著多特征组合策略列表;
所述显著多特征组合策略列表按照目标变量或推荐方法进行分类展示,并按照规则的Lift值从高到低降序排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581471.2A CN113961774B (zh) | 2021-12-22 | 2021-12-22 | 一种多特征组合策略的推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581471.2A CN113961774B (zh) | 2021-12-22 | 2021-12-22 | 一种多特征组合策略的推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113961774A CN113961774A (zh) | 2022-01-21 |
CN113961774B true CN113961774B (zh) | 2022-04-15 |
Family
ID=79473498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111581471.2A Active CN113961774B (zh) | 2021-12-22 | 2021-12-22 | 一种多特征组合策略的推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113961774B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221948A (zh) * | 2022-06-24 | 2022-10-21 | 北京百度网讯科技有限公司 | 特征组合确定方法、装置、设备、存储介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
CN113326432A (zh) * | 2021-06-04 | 2021-08-31 | 温州大学 | 一种基于决策树与推荐方法的模型优选方法 |
CN113763027A (zh) * | 2021-05-10 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 推荐信息处理方法、推荐信息生成方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10147108B2 (en) * | 2015-04-02 | 2018-12-04 | The Nielsen Company (Us), Llc | Methods and apparatus to identify affinity between segment attributes and product characteristics |
CN106407349A (zh) * | 2016-09-06 | 2017-02-15 | 北京三快在线科技有限公司 | 一种产品推荐方法及装置 |
CN110070391B (zh) * | 2019-04-17 | 2020-06-19 | 同盾控股有限公司 | 数据处理方法、装置、计算机可读介质及电子设备 |
CN111797313A (zh) * | 2020-06-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 自学习推荐方法、装置、计算机设备和存储介质 |
CN112035453B (zh) * | 2020-08-27 | 2024-03-12 | 平安科技(深圳)有限公司 | 基于gbdt高阶特征组合的推荐方法、装置及存储介质 |
CN112508119B (zh) * | 2020-12-16 | 2024-04-05 | 平安银行股份有限公司 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
CN112559900B (zh) * | 2021-02-26 | 2021-06-04 | 深圳索信达数据技术有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN113821542B (zh) * | 2021-11-23 | 2022-02-11 | 四川新网银行股份有限公司 | 一种显著特征自动推荐系统及方法 |
-
2021
- 2021-12-22 CN CN202111581471.2A patent/CN113961774B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
CN113763027A (zh) * | 2021-05-10 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 推荐信息处理方法、推荐信息生成方法及装置 |
CN113326432A (zh) * | 2021-06-04 | 2021-08-31 | 温州大学 | 一种基于决策树与推荐方法的模型优选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113961774A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718490A (zh) | 一种用于更新分类模型的方法及装置 | |
Mohammad et al. | Customer churn prediction in telecommunication industry using machine learning classifiers | |
CN113961774B (zh) | 一种多特征组合策略的推荐方法 | |
JPWO2018142753A1 (ja) | ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム | |
Huang et al. | Identifying target for technology mergers and acquisitions using patent information and semantic analysis | |
CN105630797A (zh) | 数据处理方法及系统 | |
Saltarelli et al. | Is export a probe for domestic production? | |
CN110378543A (zh) | 离职风险预测方法、装置、计算机设备和存储介质 | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
Feng | Data Analysis and Prediction Modeling Based on Deep Learning in E‐Commerce | |
CN113821542B (zh) | 一种显著特征自动推荐系统及方法 | |
Modrušan et al. | Intelligent Public Procurement Monitoring System Powered by Text Mining and Balanced Indicators | |
US20230088044A1 (en) | End-to-end prospecting platform utilizing natural language processing to reverse engineer client lists | |
CN116402546A (zh) | 店铺风险归因方法及其装置、设备、介质、产品 | |
CN115731030A (zh) | 一种银行消费贷款客户需求挖掘方法、装置及存储介质 | |
CN111026705B (zh) | 建筑工程文件管理方法、系统及终端设备 | |
KR102231231B1 (ko) | 변수 영향도 기반 머신러닝 예측 결과 해석 방법 및 그 장치 | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
US11410064B2 (en) | Automated determination of explanatory variables | |
Farsi et al. | Which product would be chosen? A fuzzy VIKOR method for evaluation and selection of products in terms of customers' point of view; Case study: Iranian cell phone market | |
Schief et al. | Transforming Software Business Models into Business Processes. | |
Wang et al. | Future of jobs in China under the impact of artificial intelligence | |
CN114493608A (zh) | 一种单特征策略的推荐方法 | |
An et al. | Analysis of disruptive technology identification methods in foreign countries | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |