CN111861704A - 风控特征生成方法及系统 - Google Patents
风控特征生成方法及系统 Download PDFInfo
- Publication number
- CN111861704A CN111861704A CN202010662194.7A CN202010662194A CN111861704A CN 111861704 A CN111861704 A CN 111861704A CN 202010662194 A CN202010662194 A CN 202010662194A CN 111861704 A CN111861704 A CN 111861704A
- Authority
- CN
- China
- Prior art keywords
- feature
- wind control
- data
- features
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012216 screening Methods 0.000 claims abstract description 35
- 230000008030 elimination Effects 0.000 claims abstract description 19
- 238000003379 elimination reaction Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 abstract description 4
- 230000037430 deletion Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Developing Agents For Electrophotography (AREA)
Abstract
本发明揭示了一种风控特征生成方法及系统,所述方法包括:对风控特征数据进行筛选,筛选出风控特征数据的数据质量、接入时间及数据稳定性达到设定条件的风控特征数据;获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;获取变量间相关性数据,选择变量间相关性低于设定阈值的风控特征数据;获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。本发明可高效快速地迭代出最佳特征集,并能在删除过多特征后根据删除原因回溯可用特征。
Description
技术领域
本发明属于互联网科技技术领域,涉及一种风控方法,尤其涉及一种风控特征生成方法及系统。
背景技术
金融科技的核心就是和大数据技术有效结合,金融机构通过有效利用大数据,在客户信用评级方面能很大程度提高效率和风控能力。金融机构的数据来源分内部数据和外部数据,内部数据以客户APP行为记录和自有黑白名单为主;外部数据源有基于与传统银行、公安等机关合作获取的客户基础信息、以大型互联网公司提供的基于电商流量数据以及整合多方数据来源的技术公司,涉及到的行业有央行征信报告、司法信息、公安信息、信用卡信息等方面。除此之外有各种数据源亦可以衍生出成百上千的特征。例如央行征信报告中,从个人信用卡记录、欠税记录等不同角度可以衍生出一千多个变量。由此可见,风控领域用于建模的特征数据及其广泛,然而对于预测因变量最有效的特征通常只有部分。因此,在成千上万的特征中有效率地选择最有效的特征是风控建模中极其重要的环节。
现有相关文献中,专门对风控模型的特征选择进行研究的文献不多,主要都是在机器学习算法研究中通用的特征选择原则和方法。其基本的原则是先考虑特征的发散性、特征与目标的相关性,然后使用过滤法、包裹法、嵌入法进行具体的特征选择操作,每类方法都会有自己不同的过程和评价标准。这些大的原则和方法框架在风控模型的特征选择中仍旧有效,但由于通用,就失去了对风控数据独特性的适应,脱离了业务,因此在特征选择的效率和结果上仍有诸多待改进之处。
有鉴于此,如今迫切需要设计一种新的风控特征生成方法,以便克服现有风控特征生成方法存在的上述至少部分缺陷。
发明内容
本发明提供一种风控特征生成方法及系统,可高效快速地迭代出最佳特征集,并能在删除过多特征后根据删除原因回溯可用特征。
为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:
一种风控特征生成方法,所述生成方法包括:
步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数;不同算法对特征间相关性要求不一样,通过相关性选择特征需要根据算法区别对待;
两两相关性计算公式为:
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
方差膨胀系数公式为:
其中,R2是某个特征与其余特征之间的判定系数;
步骤S5、获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合;同时使用逐步回归、递归特征消除的算法获取最优特征组合,最终根据特征组合的模型效果选择出最终特征组合;
逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著时才加入该特征;当方程加入该特征后,对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如此下去,直到老特征不可删除,新特征也无法加入为止;
递归特征消除是一种寻找最优特征子集的贪心算法,主要的思路是:反复地构建模型,根据系数选出最好的或者最差的特征,然后在剩余的特征上重复这个过程,直到所有特征都遍历;这个过程中特征被消除的次序就是特征的排序。
根据本发明的另一个方面,采用如下技术方案:
一种风控特征生成方法,所述生成方法包括:
步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;
步骤S5、获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。
作为本发明的一种实施方式,通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数;不同算法对特征间相关性要求不一样,通过相关性选择特征需要根据算法区别对待;
两两相关性计算公式为:
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
方差膨胀系数公式为:
其中,R2是某个特征与其余特征之间的判定系数。
作为本发明的一种实施方式,步骤S4中,逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著是才加入该特征;当方程加入该特征后,又要对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如此下去,直到老特征不可删除,新特征也无法加入为止;
递归特征消除的处理方式包括:寻找最优特征子集的贪心算法,反复地构建模型然后选出最好的或者最差的的特征,把选出来的特征放到一边,然后在剩余的特征上重复这个过程,直到所有特征都遍历了;这个过程中特征被消除的次序就是特征的排序。
作为本发明的一种实施方式,步骤S1中,选择数据源接入时间早于设定阈值、数据源的稳定性高于设定阈值的风控特征数据。
作为本发明的一种实施方式,步骤S2中,选择特征缺失率低于50%,psi、单一值占比低于设定阈值,且未经过逻辑转换的风控特征数据。
作为本发明的一种实施方式,步骤S3中,遍历风控特征数据的各种分享方式,筛选出最优分箱方案;选择最优分箱方案下风控特征IV值超过0.02的风控特征数据。
作为本发明的一种实施方式,步骤S4中,计算风控特征数据的两两相关性,若变量间相关性超过设定阈值,选择两者间IV值较高的变量;计算变量的多重共线性指标VIF值,选择出未超过设定阈值的风控特征数据。
作为本发明的一种实施方式,步骤S5中,通过随机特征组合获取每个特征的特征重要性;使用逐步回归方法选择以变量p值为评估指标逐步加减特征,最终获得最优特征组合。
作为本发明的一种实施方式,步骤S1为第一轮特征选择,考虑数据外在因素,从数据质量、接入的时间、数据的稳定性几方面进行筛选;本轮需要对数据进行初步的分析并结合数据部门的意见选择符合条件的特征;保证本轮被选择的特征数据质和量上没有明显的缺陷;
步骤S2为第二轮特征选择,考虑的是数据统计学特性以及数据内在特征,从特征数据的缺失率、psi、单一变量占比、特征的衍生逻辑考虑;本轮选择根据算法的差异进行调整;
步骤S3为第三轮特征选择,依据特征对目标变量的预测能力,选择预测能力足够强的特征;判断特征预测能力的方法有多种;对于风控模型可参考的指标包括KS、AUC,本轮选择根据各风控模型可参考的指标进行特征选择;
步骤S4为第四轮特征选择,为避免模型过拟合情况,选择变量间相关性低的变量;通过两两变量间的相关性以及变量的多重共线性进行选择,本轮选择根据算法区别对待;
步骤S5为最后一轮选择,选择出最优的特征组合,通过逐步回归、递归特征消除的方法进行选择;选出能更多解释目标变量变化的风控特征数据。
一种风控特征生成系统,所述生成系统包括:
风控特征筛选模块,用以对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
风控模型获取模块,用以获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
指标数据获取模块,用以获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
特征间相关性数据获取模块,用以获取特征间相关性数据,选择相关性低于设定阈值的特征;以及
最优特征组合获取模块,用以获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。
本发明的有益效果在于:本发明提出的风控特征生成方法,可高效快速地迭代出最佳特征集,并能在删除过多特征后根据删除原因回溯可用特征。同时,本发明的多个步骤可以根据算法不同灵活地进行调整权重。此外,本发明从数据本身、风控行业特性、算法三个方面进行综合考虑,旨在筛选出最适用与目标变量的特征组合。
附图说明
图1为本发明一实施例中风控特征生成方法的流程图。
图2为本发明一实施例中风控特征生成方法的流程图。
图3为本发明一实施例中风控特征生成系统的组成示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
本发明揭示了一种风控特征生成方法,图1为本发明一实施例中风控特征生成方法的流程图;请参阅图1,所述方法包括:
【步骤S1】对风控特征数据进行筛选,筛选出风控特征数据的数据质量、接入时间及数据稳定性达到设定条件的风控特征数据。
可结合图2,在一实施例中,选择数据源接入时间早于设定阈值、数据源的稳定性高于设定阈值的风控特征数据。
【步骤S2】获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求。
可结合图2,在一实施例中,选择特征缺失率低于50%,psi、单一值占比低于设定阈值,且未经过逻辑转换的风控特征数据。
【步骤S3】获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据。
可结合图2,在一实施例中,遍历风控特征数据的各种分享方式,筛选出最优分箱方案;选择最优分箱方案下风控特征IV值超过0.02的风控特征数据。
【步骤S4、】获取变量间相关性数据,选择变量间相关性低于设定阈值的风控特征数据;通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数(varianceinflation factor,VIF)。由于不同算法对特征间相关性要求不一样,例如逻辑回归算法中如果特征间相关性过高会产生冗余特征对特征的置信度产生影响;但类似树算法因本身对高相关性特征就有筛选作用,则不需要考虑特征相关性问题,因此通过相关性选择特征需要根据算法区别对待。一个风控特征数据包含很多特征,有些特征间的相关性会很强,需要删除。
可结合图2,在一实施例中,计算风控特征数据的两两相关性,若变量间相关性超过设定阈值,选择两者间IV值较高的变量;计算变量的多重共线性指标VIF值,选择出未超过设定阈值的风控特征数据。
【步骤S5】获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。
通常情况下,可以同时使用两种方式获取最优特征组合,最终可以根据特征组合的模型效果选择出最终特征组合。
逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著时才加入该特征;当方程加入该特征后,对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如此下去,直到老特征不可删除,新特征也无法加入为止。
递归特征消除是一种寻找最优特征子集的贪心算法,包括:反复的构建模型(如SVM或者回归模型),然后选出最好的或者最差的的特征(可以根据系数来选),把选出来的特征放到一边,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。
可结合图2,在一实施例中,通过随机特征组合获取每个特征的特征重要性;使用逐步回归方法选择以变量p值为评估指标逐步加减特征,最终获得最优特征组合。
图2为本发明一实施例中风控特征生成方法的流程图;请参阅图2,在本发明的一实施例中,步骤S1为第一轮特征选择,考虑数据外在因素,从数据质量、接入的时间、数据的稳定性等几方面进行筛选;本轮需要对数据进行初步的分析并结合数据部门的意见选择符合条件的特征;保证本轮被选择的特征数据质和量上没有明显的缺陷。
步骤S2为第二轮特征选择,考虑的是数据统计学特性以及数据内在特征,从特征数据的缺失率、psi、单一变量占比、特征的衍生逻辑等发明进行考虑。由于不同的模型对入模特征的要求不一致,例如逻辑回归算法特征的缺失率不能过高,但是xgboost算法对缺失率的要求比较低。本轮选择可根据算法的差异进行调整。
步骤S3为第三轮特征选择,依据特征对目标变量的预测能力,选择预测能力足够强的特征;判断特征预测能力的方法有多种;对于风控模型可参考的指标包括KS、AUC等,本轮选择根据各风控模型可参考的指标进行特征选择。
步骤S4为第四轮特征选择,为避免模型过拟合情况,选择变量间相关性低的变量;通过两两变量间的相关性以及变量的多重共线性等进行选择,本轮选择根据算法区别对待。
步骤S5为最后一轮选择,选择出最优的特征组合,通过逐步回归、递归特征消除以及其他高级的方法进行选择;选出能更多解释目标变量变化的风控特征数据。
本发明还揭示一种风控特征生成系统,图3为本发明一实施例中风控特征生成系统的组成示意图;请参阅图3,所述生成系统包括:风控特征筛选模块1、风控模型获取模块2、指标数据获取模块3、特征间相关性数据获取模块4及最优特征组合获取模块5。
所述风控特征筛选模块1用以对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;所述风控模型获取模块2用以获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;所述指标数据获取模块3用以获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;所述特征间相关性数据获取模块4用以获取特征间相关性数据,选择相关性低于设定阈值的特征;所述最优特征组合获取模块5用以获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。各模块的具体工作过程可参阅以上有关方法对应步骤的描述。
综上所述,本发明提出的风控特征生成方法及系统,可高效快速地迭代出最佳特征集,并能在删除过多特征后根据删除原因回溯可用特征。同时,本发明的多个步骤可以根据算法不同灵活地进行调整权重。此外,本发明从数据本身、风控行业特性、算法三个方面进行综合考虑,旨在筛选出最适用与目标变量的特征组合。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现,对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。
Claims (10)
1.一种风控特征生成方法,其特征在于,所述生成方法包括:
步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数;不同算法对特征间相关性要求不一样,通过相关性选择特征需要根据算法区别对待;
两两相关性计算公式为:
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
方差膨胀系数公式为:
其中,R2是某个特征与其余特征之间的判定系数;
步骤S5、获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合;同时使用逐步回归、递归特征消除的算法获取最优特征组合,最终根据特征组合的模型效果选择出最终特征组合;
逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著时才加入该特征;当方程加入该特征后,对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如此下去,直到老特征不可删除,新特征也无法加入为止;
递归特征消除是一种寻找最优特征子集的贪心算法,主要的思路是:反复地构建模型,根据系数选出最好的或者最差的特征,然后在剩余的特征上重复这个过程,直到所有特征都遍历;这个过程中特征被消除的次序就是特征的排序。
2.一种风控特征生成方法,其特征在于,所述生成方法包括:
步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;
步骤S5、获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。
4.根据权利要求2所述的风控特征生成方法,其特征在于:
步骤S4中,逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著是才加入该特征;当方程加入该特征后,又要对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如此下去,直到老特征不可删除,新特征也无法加入为止;
递归特征消除的处理方式包括:寻找最优特征子集的贪心算法,反复地构建模型然后选出最好的或者最差的的特征,然后在剩余的特征上重复这个过程,直到所有特征都遍历了;这个过程中特征被消除的次序就是特征的排序。
5.根据权利要求2所述的风控特征生成方法,其特征在于:
所述步骤S1中,选择数据源接入时间早于设定阈值、数据源的稳定性高于设定阈值的风控特征数据;
所述步骤S2中,选择特征缺失率低于50%,psi、单一值占比低于设定阈值,且未经过逻辑转换的风控特征数据。
6.根据权利要求2所述的风控特征生成方法,其特征在于:
所述步骤S3中,遍历风控特征数据的各种分享方式,筛选出最优分箱方案;选择最优分箱方案下风控特征IV值超过0.02的风控特征数据。
7.根据权利要求2所述的风控特征生成方法,其特征在于:
所述步骤S4中,计算风控特征数据的两两相关性,若变量间相关性超过设定阈值,选择两者间IV值较高的变量;计算变量的多重共线性指标VIF值,选择出未超过设定阈值的风控特征数据。
8.根据权利要求2所述的风控特征生成方法,其特征在于:
所述步骤S5中,通过随机特征组合获取每个特征的特征重要性;使用逐步回归方法选择以变量p值为评估指标逐步加减特征,最终获得最优特征组合。
9.根据权利要求2所述的风控特征生成方法,其特征在于:
步骤S1为第一轮特征选择,考虑数据外在因素,从数据质量、接入的时间、数据的稳定性几方面进行筛选;本轮需要对数据进行初步的分析并结合数据部门的意见选择符合条件的特征;保证本轮被选择的特征数据质和量上没有明显的缺陷;
步骤S2为第二轮特征选择,考虑的是数据统计学特性以及数据内在特征,从特征数据的缺失率、psi、单一变量占比、特征的衍生逻辑考虑;本轮选择根据算法的差异进行调整;
步骤S3为第三轮特征选择,依据特征对目标变量的预测能力,选择预测能力足够强的特征;判断特征预测能力的方法有多种;对于风控模型可参考的指标包括KS、AUC,本轮选择根据各风控模型可参考的指标进行特征选择;
步骤S4为第四轮特征选择,为避免模型过拟合情况,选择变量间相关性低的变量;通过两两变量间的相关性以及变量的多重共线性进行选择,本轮选择根据算法区别对待;
步骤S5为最后一轮选择,选择出最优的特征组合,通过逐步回归、递归特征消除的方法进行选择;选出能更多解释目标变量变化的风控特征数据。
10.一种风控特征生成系统,其特征在于,所述生成系统包括:
风控特征筛选模块,用以对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
风控模型获取模块,用以获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
指标数据获取模块,用以获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
特征间相关性数据获取模块,用以获取特征间相关性数据,选择相关性低于设定阈值的特征;以及
最优特征组合获取模块,用以获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010662194.7A CN111861704A (zh) | 2020-07-10 | 2020-07-10 | 风控特征生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010662194.7A CN111861704A (zh) | 2020-07-10 | 2020-07-10 | 风控特征生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111861704A true CN111861704A (zh) | 2020-10-30 |
Family
ID=73153204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010662194.7A Pending CN111861704A (zh) | 2020-07-10 | 2020-07-10 | 风控特征生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111861704A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667730A (zh) * | 2021-01-13 | 2021-04-16 | 永辉云金科技有限公司 | 一种外部数据验证方法、系统、设备及存储介质 |
CN112861955A (zh) * | 2021-02-01 | 2021-05-28 | 深圳无域科技技术有限公司 | 风险模型策略生成系统及方法 |
CN113919510A (zh) * | 2021-11-01 | 2022-01-11 | 上海勃池信息技术有限公司 | 一种样本特征选择方法、装置、设备及介质 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975973A (zh) * | 2016-04-29 | 2016-09-28 | 连云港职业技术学院 | 一种用于森林生物量的遥感影像特征选择方法和装置 |
CN106355208A (zh) * | 2016-08-31 | 2017-01-25 | 广州精点计算机科技有限公司 | 一种基于cox模型和随机生存森林的数据预测分析方法 |
CN107480686A (zh) * | 2016-06-08 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 一种筛选机器学习特征的方法和装置 |
CN107862466A (zh) * | 2017-11-21 | 2018-03-30 | 国网新疆电力有限公司 | 考虑系统双侧随机性的源荷跨时空互补效益评价方法 |
CN108629506A (zh) * | 2018-05-03 | 2018-10-09 | 深圳市牛鼎丰科技有限公司 | 风控模型的建模方法、装置、计算机设备和存储介质 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN109492712A (zh) * | 2018-12-17 | 2019-03-19 | 上海应用技术大学 | 建立互联网金融风控模型的方法 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
CN109858665A (zh) * | 2018-12-06 | 2019-06-07 | 国网河北省电力有限公司 | 基于特征筛选与anfis-pso的光伏短期功率预测方法 |
CN109858566A (zh) * | 2019-03-01 | 2019-06-07 | 成都新希望金融信息有限公司 | 一种基于多层模型构建增加入模维度的评分卡的方法 |
CN110097211A (zh) * | 2019-03-27 | 2019-08-06 | 跨越速运集团有限公司 | 基于蒙特卡洛组合的物流业务预测方法及系统 |
CN110223156A (zh) * | 2019-05-16 | 2019-09-10 | 杭州排列科技有限公司 | 基于逐步最优特征选择的自动化模型调优算法 |
CN110263821A (zh) * | 2019-05-29 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 交易特征生成模型的训练、交易特征的生成方法和装置 |
CN110276552A (zh) * | 2019-06-21 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 贷前风险分析方法、装置、设备及可读存储介质 |
CN110298390A (zh) * | 2019-06-11 | 2019-10-01 | 上海冰鉴信息科技有限公司 | 一种风控模型的特征选择方法及装置 |
CN110378391A (zh) * | 2019-06-25 | 2019-10-25 | 北京三快在线科技有限公司 | 计算模型的特征筛选方法、装置、电子设备和存储介质 |
CN110390393A (zh) * | 2019-07-02 | 2019-10-29 | 上海上湖信息技术有限公司 | 模型特征筛选方法及装置、可读存储介质 |
CN110874373A (zh) * | 2019-12-10 | 2020-03-10 | 杭州岑石能源科技有限公司 | 一种基于机器学习stacking模型的线变关系判定方法 |
CN111158732A (zh) * | 2019-12-23 | 2020-05-15 | 中国平安人寿保险股份有限公司 | 访问数据处理方法、装置、计算机设备及存储介质 |
CN111383100A (zh) * | 2020-03-25 | 2020-07-07 | 中国建设银行股份有限公司 | 基于风险模型的全生命周期管控方法和装置 |
-
2020
- 2020-07-10 CN CN202010662194.7A patent/CN111861704A/zh active Pending
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975973A (zh) * | 2016-04-29 | 2016-09-28 | 连云港职业技术学院 | 一种用于森林生物量的遥感影像特征选择方法和装置 |
CN107480686A (zh) * | 2016-06-08 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 一种筛选机器学习特征的方法和装置 |
CN106355208A (zh) * | 2016-08-31 | 2017-01-25 | 广州精点计算机科技有限公司 | 一种基于cox模型和随机生存森林的数据预测分析方法 |
CN107862466A (zh) * | 2017-11-21 | 2018-03-30 | 国网新疆电力有限公司 | 考虑系统双侧随机性的源荷跨时空互补效益评价方法 |
CN108629506A (zh) * | 2018-05-03 | 2018-10-09 | 深圳市牛鼎丰科技有限公司 | 风控模型的建模方法、装置、计算机设备和存储介质 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN109858665A (zh) * | 2018-12-06 | 2019-06-07 | 国网河北省电力有限公司 | 基于特征筛选与anfis-pso的光伏短期功率预测方法 |
CN109492712A (zh) * | 2018-12-17 | 2019-03-19 | 上海应用技术大学 | 建立互联网金融风控模型的方法 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
CN109858566A (zh) * | 2019-03-01 | 2019-06-07 | 成都新希望金融信息有限公司 | 一种基于多层模型构建增加入模维度的评分卡的方法 |
CN110097211A (zh) * | 2019-03-27 | 2019-08-06 | 跨越速运集团有限公司 | 基于蒙特卡洛组合的物流业务预测方法及系统 |
CN110223156A (zh) * | 2019-05-16 | 2019-09-10 | 杭州排列科技有限公司 | 基于逐步最优特征选择的自动化模型调优算法 |
CN110263821A (zh) * | 2019-05-29 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 交易特征生成模型的训练、交易特征的生成方法和装置 |
CN110298390A (zh) * | 2019-06-11 | 2019-10-01 | 上海冰鉴信息科技有限公司 | 一种风控模型的特征选择方法及装置 |
CN110276552A (zh) * | 2019-06-21 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 贷前风险分析方法、装置、设备及可读存储介质 |
CN110378391A (zh) * | 2019-06-25 | 2019-10-25 | 北京三快在线科技有限公司 | 计算模型的特征筛选方法、装置、电子设备和存储介质 |
CN110390393A (zh) * | 2019-07-02 | 2019-10-29 | 上海上湖信息技术有限公司 | 模型特征筛选方法及装置、可读存储介质 |
CN110874373A (zh) * | 2019-12-10 | 2020-03-10 | 杭州岑石能源科技有限公司 | 一种基于机器学习stacking模型的线变关系判定方法 |
CN111158732A (zh) * | 2019-12-23 | 2020-05-15 | 中国平安人寿保险股份有限公司 | 访问数据处理方法、装置、计算机设备及存储介质 |
CN111383100A (zh) * | 2020-03-25 | 2020-07-07 | 中国建设银行股份有限公司 | 基于风险模型的全生命周期管控方法和装置 |
Non-Patent Citations (5)
Title |
---|
ALIEXIE2869: "特征工程(下)", pages 10, Retrieved from the Internet <URL:https://blog.csdn.net/aliexie2869/article/details/101141120> * |
俞金寿等: "软测量技术及其在石油化工中的应用", 30 June 2000, 化工工业出版社, pages: 9 * |
宋源;梁雪春;张然;: "基于统计特性随机森林算法的特征选择", 计算机应用, no. 05, 10 May 2015 (2015-05-10) * |
张善文等: "图像识别模式", 31 May 2020, 西安电子科技大学出版社, pages: 228 * |
魏红燕;: "回归分析中多重共线性的诊断与处理", 周口师范学院学报, no. 02, 15 March 2019 (2019-03-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667730A (zh) * | 2021-01-13 | 2021-04-16 | 永辉云金科技有限公司 | 一种外部数据验证方法、系统、设备及存储介质 |
CN112667730B (zh) * | 2021-01-13 | 2023-04-07 | 永辉云金科技有限公司 | 一种外部数据验证方法、系统、设备及存储介质 |
CN112861955A (zh) * | 2021-02-01 | 2021-05-28 | 深圳无域科技技术有限公司 | 风险模型策略生成系统及方法 |
CN113919510A (zh) * | 2021-11-01 | 2022-01-11 | 上海勃池信息技术有限公司 | 一种样本特征选择方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111861704A (zh) | 风控特征生成方法及系统 | |
CN107220732B (zh) | 一种基于梯度提升树的停电投诉风险预测方法 | |
CN112766550B (zh) | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 | |
CN112417176B (zh) | 基于图特征的企业间隐性关联关系挖掘方法、设备及介质 | |
Sari et al. | Statistical metrics for assessing the quality of wind power scenarios for stochastic unit commitment | |
CN112862585A (zh) | 基于LightGBM决策树算法的个贷类不良资产风险评级方法 | |
Linton et al. | An extension to a DEA support system used for assessing R&D projects | |
Alariqi et al. | Modelling dynamic links among energy transition, technological level and economic development from the perspective of economic globalisation: Evidence from MENA economies | |
Grigoras et al. | Processing of smart meters data for peak load estimation of consumers | |
CN113283973A (zh) | 对账差异数据的处理方法、装置、计算机设备和存储介质 | |
Suharjito et al. | Implementation of classification technique in web usage mining of banking company | |
Huang et al. | Learning cascading failure interactions by deep convolutional generative adversarial network | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
US20220091818A1 (en) | Data feature processing method and data feature processing apparatus | |
CN114331665A (zh) | 用于预定申请人的信用判定模型的训练方法、装置和电子设备 | |
CN111951099B (zh) | 一种信用卡发卡模型及其运用方法 | |
Wang et al. | A knowledge discovery case study of software quality prediction: Isbsg database | |
Yan et al. | Research on automobile insurance fraud identification based on fuzzy association rules | |
CN114240318A (zh) | 面向目标对象的信息处理方法、装置、计算机设备 | |
CN111967980A (zh) | 一种基于企业财报和能耗数据采用最大熵模型进行银行授信分析的系统及方法 | |
Fulp et al. | Combining spatial and temporal properties for improvements in data reduction | |
Svabova et al. | The impact of Data structure on classification ability of financial failure prediction model | |
Cho et al. | Multiresolution community analysis of international trade networks | |
Thompson et al. | Dapa-v10: discovery and analysis of patterns and anomalies in volatile time-evolving networks | |
Farasat et al. | BGP traffic volume forecasting using LSTM framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |