CN107545360A - 一种基于决策树的风控智能规则导出方法及系统 - Google Patents
一种基于决策树的风控智能规则导出方法及系统 Download PDFInfo
- Publication number
- CN107545360A CN107545360A CN201710633149.7A CN201710633149A CN107545360A CN 107545360 A CN107545360 A CN 107545360A CN 201710633149 A CN201710633149 A CN 201710633149A CN 107545360 A CN107545360 A CN 107545360A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- feature
- assemblage characteristic
- features
- combinations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于决策树的风控智能规则导出方法及系统,本发明根据特征的重要性,对其巨量特征进行排序,筛选出重要特征,基于这些特征建立不同深度的决策树,然后使用设定好的阈值对决策树进行筛选,最后根据筛选后的决策树导出规则。本发明方法能够保证业务系统的正常运营情况下,根据不同特征数目分层导出规则,最大限度地侦测出欺诈行为。相比于人为制定规则的风控系统,本发明系统更加稳定、智能并且智能规则效率更高,让企业的损失降到最低。尤其是在业务复杂、数据量庞大的系统中,这种优势越发明显。
Description
技术领域
本发明涉及风控规则的导出技术,尤其涉及一种基于决策树的风控智能规则导出方法及系统。
背景技术
风控规则在当今社会的大多数互联网和金融公司有广泛的应用价值。多数情况下,风控规则大多数是由相关的业务人员和安全专家根据以往的经验、业务等条件来制定的。这种规则制定周期比较长,无法完全适用于不同的业务系统,即当遇到另一个业务场景时,需要专家再次进行业务分析、决策。这样会给企业带来更大的经济损失和开销成本。传统机器学习算法作为黑盒模型和传统的信用评分卡模型相比通常缺乏解释性,业务人员通常很难追溯模型进行判断的依据和实现逻辑。
发明内容
本发明的目的在于针对技术的不足,基于信息论和决策树模型,提出了一种灵活的风控智能规则导出方法及系统,使风控规则的制定周期缩短,最大限度地降低企业损失。
本发明的目的是通过以下技术方案来实现的:本发明根据采集到的带有标签的数据,来对各个特征的重要程度进行排名,挑选出少量特征,然后对这些特征进行不同数量的组合,每个特征组合可以生成一个决策树,接着对这些决策树进行筛选,最后从剩下的决策树中导出规则。具体的实施步骤如下:
(1)特征筛选:在原始数据中,对样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
(2)组合特征集生成:从步骤(1)得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
(3)特征组合筛选:对每个组合特征集S中的每个特征组合s,使用经典决策树算法ID4.5生成一个决策树;对所有生成的决策树进行筛选,得到筛选后的组合特征集合S′;
(4)规则导出:对于筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
进一步地,所述步骤(1)中,计算样本的每个特征的信息增益,然后根据特征的信息增益的大小,进行降序排序。
进一步地,所述步骤(3)中,对于生成的决策树,使用校验数据来计算该决策树的查准率P和召回率R;若该决策树的P和R分别满足设定阈值,则该决策树的组合特征将被保留,否则,将被舍弃。
一种基于决策树的风控智能规则导出系统,该系统包括:
特征筛选单元:对原始数据样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
组合特征集生成单元:从特征筛选单元筛选得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
特征组合筛选单元:对组合特征集生成单元得到的每个组合特征集S中的每个特征组合s生成一个决策树,筛选决策树,得到筛选后的组合特征集合S′;
规则导出单元:对特征组合筛选单元筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
本发明的有益效果是:本发明根据特征的重要性,对其巨量特征进行排序,筛选出一定数量的最重要特征,基于这些特征,建立不同深度的决策树,然后使用设定好的阈值对决策进行筛选,最后根据筛选后的决策树导出规则。决策树作为一类可视化比较便捷的模型,可以方便地将树到叶子节点的每条路径导出成规则,从而提供良好的解释性。本发明首先从特征筛选到规则抽取至一整套流程,都是完全自动化的;其次特征集合的大小可以由用户灵活设置,重要特征选取数量、决策树的最大深度以及阈值的大小都可以由用户随时调整,十分灵活。本发明可用于在涉及的系统业务复杂、人类经验不够的情况下,进行有效的风控规则制定。
附图说明
图1为单判断节点的决策树,(a)银行卡类型,(b)手机号归属地分类,(c)当前交易金额大小分类;
图2为对特征组合(银行卡类型,手机号归属地分类)进行建树。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供的一种风控智能规则导出方法,包括以下步骤:
(1)特征筛选:在原始数据中,计算样本的每个特征的信息增益,然后根据特征的信息增益的大小,进行降序排序,选取前n个信息增益最大的特征作为特征集合。
(2)组合特征集生成:从步骤(1)得到的特征集合中,随机挑选d个特征进行组合。对于固定的d,总共可得到个特征组合,构成一个组合特征集S;令M表示d的最大取值,因此可得到个特征组合,共得到M个组合特征集S;M根据业务解释需求而定的,根据经验,一般的规则可能最多只有5~6个条件,再多解释性就会比较差;
(3)特征组合筛选:令s∈S,对S中的每个特征组合s,使用经典决策树算法ID4.5生成一个决策树,使用校验数据来计算该决策树的查准率P和召回率R,然后计算若该决策树的P和R分别满足设定阈值,则该决策树的组合特征将被保留,否则,将被舍弃。最终得到筛选后的组合特征集合S′;这里的阈值根据业务场景具体而定。
(4)规则导出:对于筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
本发明提供的一种基于决策树的风控智能规则导出系统,该系统包括:
特征筛选单元:对原始数据样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
组合特征集生成单元:从特征筛选单元筛选得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
特征组合筛选单元:对组合特征集生成单元得到的每个组合特征集S中的每个特征组合s生成一个决策树,对决策树进行筛选,得到筛选后的组合特征集合S′;
规则导出单元:对特征组合筛选单元筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
实施例
示例数据如表1所示,当前属性集合是{身份证归属地归类,手机号归属地分类,身份证年龄段,银行卡类型,当前交易金额大小分类,性别};
表1:交易数据示例
1.分别计算各个属性的信息增益:
Gain(D,身份证归属地分类)=0.109;
Gain(D,手机号归属地分类)=0.143;
Gain(D,身份证年龄段)=0.141;
Gain(D,银行卡类型)=0.381;
Gain(D,当前交易金额大小分类)=0.289;
Gain(D,性别)=0.006;
因此对属性排序的结果是:{银行卡类型,当前交易金额大小分类,手机号归属地分类,身份证年龄段,身份证归属地分类,性别}。挑选前3个属性,即n=3,作为特征集合:{银行卡类型,当前交易金额大小分类,手机号归属地分类};
2.令d={1,2},可得到两个组合特征集:
C(n,1)={银行卡类型,当前交易金额大小分类,手机号归属地分类}
C(n,2)={(银行卡类型,当前交易金额大小分类),(银行卡类型,手机号归属地分类),(当前交易金额大小分类,手机号归属地分类)}
3.对两个组合特征集的每个组合特征分别建树。图1和图2是对部分组合特征建树的结果。决策树建立之后,使用验证数据集对每颗决策树进行筛选。这里使用F1-score对决策树的性能进行分层度量。假设F1-score的阈值如下:
C(n,1):F1>0.5
C(n,2):F1>0.6
4.对于筛选后的每个特征组合对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则进行导出。导出的规则示例如下:
Claims (4)
1.一种基于决策树的风控智能规则导出方法,其特征在于,该方法包括:
(1)特征筛选:在原始数据中,对样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
(2)组合特征集生成:从步骤(1)得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
(3)特征组合筛选:对每个组合特征集S中的每个特征组合s,使用经典决策树算法ID4.5生成一个决策树;对所有生成的决策树进行筛选,得到筛选后的组合特征集合S′;
(4)规则导出:对于筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
2.根据权利要求1所述的一种风控智能规则导出方法,其特征在于,所述步骤(1)中,计算样本的每个特征的信息增益,然后根据特征的信息增益的大小,进行降序排序。
3.根据权利要求1所述的一种风控智能规则导出方法,其特征在于,所述步骤(3)中,对于生成的决策树,使用校验数据来计算该决策树的查准率P和召回率R;若该决策树的P和R分别满足设定阈值,则该决策树的组合特征将被保留,否则,将被舍弃。
4.一种基于决策树的风控智能规则导出系统,其特征在于,该系统包括:
特征筛选单元:对原始数据样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
组合特征集生成单元:从特征筛选单元筛选得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
特征组合筛选单元:对组合特征集生成单元得到的每个组合特征集S中的每个特征组合s生成一个决策树,筛选决策树,得到筛选后的组合特征集合S′;
规则导出单元:对特征组合筛选单元筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710633149.7A CN107545360A (zh) | 2017-07-28 | 2017-07-28 | 一种基于决策树的风控智能规则导出方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710633149.7A CN107545360A (zh) | 2017-07-28 | 2017-07-28 | 一种基于决策树的风控智能规则导出方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107545360A true CN107545360A (zh) | 2018-01-05 |
Family
ID=60971091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710633149.7A Pending CN107545360A (zh) | 2017-07-28 | 2017-07-28 | 一种基于决策树的风控智能规则导出方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107545360A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921369A (zh) * | 2018-05-08 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 冲突规则生成方法及装置和电子设备 |
CN109063952A (zh) * | 2018-06-15 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 策略生成及风险控制方法和装置 |
CN109190874A (zh) * | 2018-07-12 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 多分支业务流程的实现方法和装置 |
CN109767269A (zh) * | 2019-01-15 | 2019-05-17 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN111105043A (zh) * | 2019-12-19 | 2020-05-05 | 浙江邦盛科技有限公司 | 一种基于指标维度实施银行业案件和操作风险防控的方法 |
CN111967003A (zh) * | 2020-07-22 | 2020-11-20 | 武汉极意网络科技有限公司 | 基于黑盒模型与决策树的风控规则自动生成系统及方法 |
CN112085087A (zh) * | 2020-09-04 | 2020-12-15 | 中国平安财产保险股份有限公司 | 业务规则生成的方法、装置、计算机设备及存储介质 |
CN112163642A (zh) * | 2020-10-30 | 2021-01-01 | 北京云从科技有限公司 | 一种风控规则获取方法、装置、介质及设备 |
WO2021093320A1 (zh) * | 2019-11-13 | 2021-05-20 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN113657779A (zh) * | 2021-08-20 | 2021-11-16 | 杭州时趣信息技术有限公司 | 一种动态配置化的风控决策方法、系统、设备和存储介质 |
-
2017
- 2017-07-28 CN CN201710633149.7A patent/CN107545360A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921369A (zh) * | 2018-05-08 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 冲突规则生成方法及装置和电子设备 |
CN109063952A (zh) * | 2018-06-15 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 策略生成及风险控制方法和装置 |
CN109190874A (zh) * | 2018-07-12 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 多分支业务流程的实现方法和装置 |
CN109767269B (zh) * | 2019-01-15 | 2022-02-22 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN109767269A (zh) * | 2019-01-15 | 2019-05-17 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
WO2021093320A1 (zh) * | 2019-11-13 | 2021-05-20 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111105043A (zh) * | 2019-12-19 | 2020-05-05 | 浙江邦盛科技有限公司 | 一种基于指标维度实施银行业案件和操作风险防控的方法 |
CN111105043B (zh) * | 2019-12-19 | 2023-09-05 | 浙江邦盛科技股份有限公司 | 一种基于指标维度实施银行业案件和操作风险防控的方法 |
CN111967003A (zh) * | 2020-07-22 | 2020-11-20 | 武汉极意网络科技有限公司 | 基于黑盒模型与决策树的风控规则自动生成系统及方法 |
CN111967003B (zh) * | 2020-07-22 | 2023-11-28 | 武汉极意网络科技有限公司 | 基于黑盒模型与决策树的风控规则自动生成系统及方法 |
CN112085087A (zh) * | 2020-09-04 | 2020-12-15 | 中国平安财产保险股份有限公司 | 业务规则生成的方法、装置、计算机设备及存储介质 |
CN112085087B (zh) * | 2020-09-04 | 2024-04-26 | 中国平安财产保险股份有限公司 | 业务规则生成的方法、装置、计算机设备及存储介质 |
CN112163642A (zh) * | 2020-10-30 | 2021-01-01 | 北京云从科技有限公司 | 一种风控规则获取方法、装置、介质及设备 |
CN113657779A (zh) * | 2021-08-20 | 2021-11-16 | 杭州时趣信息技术有限公司 | 一种动态配置化的风控决策方法、系统、设备和存储介质 |
CN113657779B (zh) * | 2021-08-20 | 2024-01-09 | 杭州时趣信息技术有限公司 | 一种动态配置化的风控决策方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107545360A (zh) | 一种基于决策树的风控智能规则导出方法及系统 | |
CN107766418A (zh) | 一种基于融合模型的信用评估方法、电子设备和存储介质 | |
CN111598143B (zh) | 基于信用评估的面向联邦学习中毒攻击的防御方法 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
CN106203478A (zh) | 一种用于智能电表大数据的负荷曲线聚类方法 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN105654196A (zh) | 一种基于电力大数据的自适应负荷预测选择方法 | |
CN108764366A (zh) | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 | |
CN106874963B (zh) | 一种基于大数据技术的配电网故障诊断方法及系统 | |
CN103092975A (zh) | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 | |
CN110458376A (zh) | 一种可疑风险交易筛查方法与相应系统 | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN110119948A (zh) | 基于时变权重动态组合的电力用户信用评价方法及系统 | |
CN107563451A (zh) | 一种泵站稳态工况下运行状态识别方法 | |
CN107729939A (zh) | 一种面向新增电网资源的cim模型扩展方法及装置 | |
CN111062806B (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
CN107305640A (zh) | 一种不均衡数据分类的方法 | |
CN106126727A (zh) | 一种推荐系统大数据处理方法 | |
CN1653486B (zh) | 模式的特征选择方法、分类方法、判定方法 | |
CN110135846A (zh) | 一种区块链节点的行为序列自动分类方法 | |
CN113362071A (zh) | 一种针对以太坊平台的庞氏骗局识别方法及系统 | |
CN101673305A (zh) | 行业分类方法、装置和服务器 | |
CN102955946A (zh) | 基于线性分类树和神经网络的两阶段快速分类器 | |
CN110070111A (zh) | 一种配网线路分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180105 |
|
RJ01 | Rejection of invention patent application after publication |