CN111915428A - 一种基于决策树特征融合的评分卡模型优化方法 - Google Patents
一种基于决策树特征融合的评分卡模型优化方法 Download PDFInfo
- Publication number
- CN111915428A CN111915428A CN202010794521.4A CN202010794521A CN111915428A CN 111915428 A CN111915428 A CN 111915428A CN 202010794521 A CN202010794521 A CN 202010794521A CN 111915428 A CN111915428 A CN 111915428A
- Authority
- CN
- China
- Prior art keywords
- variables
- information
- variable
- decision tree
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于决策树特征融合的评分卡模型优化方法,包括S1基于用户填写信息和征信信息,进行特征信息筛选;将筛选过的特征信息作为特征变量;S2使用badrate代替S1步骤中特征变量的变量值,将特征变量中的类别型变量转换为数值型变量;S3将在S2步骤中转换为数值型变量利用决策树方法生成树状结构、对数值型变量进行变量融合,提取树状结构中各数值型变量所有切分点的值,以保证信息的可靠性;S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示新的信息变量;S5将S4步骤中应用woe编码后的新的信息变量与原有其他信息变量综合在一起作为逻辑回归输入值建立评分卡模型。本发明兼顾了业务意义上的可解释性和数据意义上的最佳融合。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于决策树特征融合的评分卡模型优化方法。
背景技术
目前,信用评分模型是评估贷款申请人的资信状况来预测申请人未来严重拖欠或坏账概率的模型。
评分卡模型是最重要、最常用的信用评分模型,而对于模型效果影响最大的是特征变量的生成,对于评分卡模型来讲,一般的特征生成方法来源于用户填写信息、征信信息、三方信息或者其他信息来源,通过这些信息中字段进行加工衍生生成许多特征变量,但这些特征变量在评分卡模型中又是相对独立的,而现实业务中某些特征变量之间存在着一定的关联关系,只有多个变量结合在一起才能真正符合业务意义。
现有的金融信贷行业在建立评分卡模型之前,首先会根据数据源情况整理分析进行特征变量的衍生,传统上的衍生方式就是单一维度的信息进行独立的特征衍生,或者是人工参与的某两个特征变量的简单组合,并且一般组合的结构会是类别型特征结构;以使现有的评分卡模型具有下述缺陷:
(1)传统上使用的单一特征衍生方法仅仅考虑单个特征的信息,而没有考虑到特征之间的关联关系,在实际业务意义上有所疏漏,没有真正实现数据意义上的较优衍生。
(2)传统的方法在变量分割点选取上没有按照数据表现选取最优分割点,在最终分割结果的信息值IV(information value)上会有较大的损失,会影响模型的最终效果。
(3)另外,传统的方法比较主观,不具有统一适用性,不同的建模工程师做出的效果好坏不稳定。
(4)传统的方法工作耗时较长,必须依靠建模专家手动主观性操作,无法实现机器学习模型的自动化建立。
发明内容
本发明的目的是提供一种基于决策树特征融合的评分卡模型优化方法,可以解决上述技术问题中的一个或是多个。
为了达到上述目的,本发明提出的技术方案如下:
一种基于决策树特征融合的评分卡模型优化方法,包括
S1基于用户填写信息和征信信息,进行特征信息筛选;将筛选过的特征信息作为特征变量;
S2使用badrate代替S1步骤中特征变量的变量值,将特征变量中的类别型变量转换为数值型变量;
S3将在S2步骤中转换为数值型变量利用决策树方法生成树状结构、对数值型变量进行变量融合,提取树状结构中各数值型变量所有切分点的值,以保证信息的可靠性;
S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示新的信息变量;
S5将S4步骤中应用woe编码后的新的信息变量与原有其他信息变量综合在一起作为逻辑回归输入值建立评分卡模型。
进一步的:S1步骤中进行组合的特征变量数量为2个或3个。
进一步的:S2步骤中badrate的获得首先是分析需融合变量数据类型分为N组(N组类型),badrate=组内坏样本数量/组内样本总量。
进一步的:S3步骤中决策树方法的深度在3到5层之间。
进一步的:S3步骤中变量切分点判断标准为Gini系数,具体如下:
D1={(x,y)∈D|A(x)=a};D2=D-D1;其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1k是D1样本集合中第k类的样本子集,|D|表示样本D的样本个数。
本发明的技术效果是:
本方法使用决策树的多个变量融合衍生,首先将两个及以上的特征变量经过特殊的数据处理,处理后数据使用决策树算法进行变量融合生成一个新的特征变量,对新特征变量使用woe方式进行编码,用woe有序编码值代替新变量值加入评分卡模型;本方法是最有效且最具业务意义操作的自动化实现,大大节省建模时间;此方法实现了多个关联变量之间关联关系的直观展现。
发明方法在评分卡模型优化思路上有很大的创新意义。本发明基于现有用户填写信息和征信信息的大数据,通过重新设置特征变量的筛选方式,通过树结构进行变量融合,优化了现有技术中的评分卡模型;新的衍生方法既可以体现特征变量在数据意义上的最优统计变现,又能够实现衍生结果在业务意义上的可解释性,并且能够保证衍生得到的特征在整体评分卡模型中提供优质创新的特征变量,增加模型使用信息,在一定程度上使得模型达到最优效果,并且整体方法可自动化进行,减少人工操作。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
在附图中:
图1是本发明的工作流程示意图。
具体实施方式
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的不当限定。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种基于决策树特征融合的评分卡模型优化方法,包括
S1基于用户填写信息和征信信息,进行特征信息筛选;将筛选过的特征信息作为特征变量;;
其中步骤S1中所述特征信息筛选条件为:
首先该特征变量的覆盖率要大于70%;
然后,将上述筛选过后的特征变量中重复的变量筛除(即去掉重数量大于等于2的特征变量值);
最后,再根据实际数据的业务含义进行筛选(即要求特征信息具有有效业务含义的特征变量),这一步的筛选就是根据用户办理的实际的业务进行人工筛选。
S2使用badrate代替S1步骤中特征变量的变量值,将特征变量中的类别型变量转换为数值型变量;
S3将在S2步骤中转换为数值型变量利用决策树方法生成树状结构、对数值型变量进行变量融合,提取树状结构中各数值型变量所有切分点的值,以保证信息的可靠性;
步骤S3中各特征变量的融合需满足下列条件之一:
1)从纯数据角度,限定好融合变量的个数限制,然后随机组合生成需要融合的变量组,每个变量组融合生成一个新的变量;
2)是以业务意义为主,根据业务意义,将业务相近的变量分配在同一个组内,然后在各个变量组进行变量融合。
这样就可以使特征信息既可以具有数据意义又可以在业务意义上具有可解释性。
S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示;
S5将S4步骤中应用woe编码后的新的信息变量与原有其他信息变量综合在一起作为逻辑回归输入值建立评分卡模型。
进一步的:S1步骤中进行组合的特征变量数量为2个或3个。
进一步的:S2步骤中badrate的获得首先是分析需融合变量数据类型分为N组(N组类型),badrate=组内坏样本数量/组内样本总量。需要针对每一类别型变量、计算所有变量值的badrate。。
进一步的:为了变量解释性要求;S3步骤中决策树方法的深度在3到5层之间。
进一步的:S3步骤中变量切分点判断标准为Gini系数,具体如下:
D1={(x,y)∈D|A(x)=a};D2=D-D1;其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1k是D1样本集合中第k类的样本子集,|D|表示样本D的样本个数。
本方法通过机器语言在计算机上展示。本发明最终生成的变量融合结果兼顾了业务意义上的可解释性和数据意义上的最佳融合。
将此方法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,根据用户等相关信息,获得对应的信用评价,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。
而且本发明优化了运行效率,运行过程减少了不必要的运行成本消耗,提升建立模型效率。
通过测试集样本评估指标KS值结果来看,使用本算法后KS值提升了14.4%左右,对于模型结果优化角度来讲,已经是很大比例的提升。如下表所示。
评估指标 | 使用本方法优化过的评分卡模型 | 不使用本方法的评分卡模型 |
KS值 | 58.14 | 50.84 |
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于决策树特征融合的评分卡模型优化方法,其特征在于:包括
S1基于用户填写信息和征信信息,进行特征信息筛选;将筛选过的特征信息作为特征变量;
S2使用badrate代替S1步骤中特征变量的变量值,将特征变量中的类别型变量转换为数值型变量;
S3将在S2步骤中转换为数值型变量利用决策树方法生成树状结构、对数值型变量进行变量融合,提取树状结构中各数值型变量所有切分点的值,以保证信息的可靠性;
S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示新的信息变量;
S5将S4步骤中应用woe编码后的新的信息变量与原有其他信息变量综合在一起作为逻辑回归输入值建立评分卡模型。
2.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法,其特征在于:S1步骤中进行组合的筛选特征信息数量为2个或3个。
3.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法,其特征在于:S2步骤中badrate的获得首先是分析需融合变量数据类型分为N组,badrate=组内坏样本数量/组内样本总量。
4.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法,其特征在于:S3步骤中决策树方法的深度在3到5层之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794521.4A CN111915428A (zh) | 2020-08-10 | 2020-08-10 | 一种基于决策树特征融合的评分卡模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794521.4A CN111915428A (zh) | 2020-08-10 | 2020-08-10 | 一种基于决策树特征融合的评分卡模型优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111915428A true CN111915428A (zh) | 2020-11-10 |
Family
ID=73284760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794521.4A Pending CN111915428A (zh) | 2020-08-10 | 2020-08-10 | 一种基于决策树特征融合的评分卡模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111915428A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766649A (zh) * | 2020-12-31 | 2021-05-07 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
-
2020
- 2020-08-10 CN CN202010794521.4A patent/CN111915428A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766649A (zh) * | 2020-12-31 | 2021-05-07 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
CN112766649B (zh) * | 2020-12-31 | 2022-03-15 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
WO2022142001A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866819A (zh) | 一种基于元学习的自动化信贷评分卡生成方法 | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
Mărăcine et al. | The digital transformation and disruption in business models of the banks under the impact of FinTech and BigTech | |
CN105308640A (zh) | 用于自动生成高质量不良行为通知的方法和系统 | |
CN111461216B (zh) | 一种基于机器学习的案件风险识别方法 | |
CN110415111A (zh) | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 | |
CN111583012B (zh) | 融合文本信息的信用债发债主体违约风险评估方法 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN113886372A (zh) | 一种基于改进层次分析法的用户画像构建方法 | |
CN111754317A (zh) | 一种金融投资数据测评方法及系统 | |
CN107169523A (zh) | 自动确定机构的所属行业类别的方法、存储设备及终端 | |
CN110413901B (zh) | 一种基于社交网络分析的信用风险评估方法 | |
CN111915428A (zh) | 一种基于决策树特征融合的评分卡模型优化方法 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN111738870B (zh) | 基于特征工程的工程履约保证保险风险识别方法与平台 | |
CN112966991A (zh) | 基于逻辑回归模型的评分卡模型的建立方法 | |
Tunç | Feature selection in credibility study for finance sector | |
CN114529255A (zh) | 一种基于风控评分卡的贷款自动审批方法及系统 | |
KR20220074327A (ko) | 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템 | |
CN111652708A (zh) | 一种应用于房屋抵押贷款产品中的风险评估方法及装置 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 | |
Awaluddin et al. | Foreign Investment And Economic Growth In Indonesia (Panel Data Approach, Granger Causality And Vecm) | |
KR102195958B1 (ko) | 인공지능 학습데이터 생성을 위한 다중할당 방식의 크라우드소싱 기반 프로젝트에서의 신뢰도에 기초한 작업자별 최대 작업 제한 건수 적용 방법 | |
CN115131039B (zh) | 基于非线性降维的企业风险评估方法、计算机设备及存储介质 | |
CN115018617A (zh) | 一种小微企业信用风险等级预测方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |