CN108416495B - 基于机器学习的评分卡模型建立方法及装置 - Google Patents
基于机器学习的评分卡模型建立方法及装置 Download PDFInfo
- Publication number
- CN108416495B CN108416495B CN201810088784.6A CN201810088784A CN108416495B CN 108416495 B CN108416495 B CN 108416495B CN 201810088784 A CN201810088784 A CN 201810088784A CN 108416495 B CN108416495 B CN 108416495B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- model
- establishing
- variable
- scoring card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Abstract
本发明公开了基于机器学习的评分卡模型建立方法及装置,该方法包括衍生步骤、转换步骤、新增步骤,利用机器学习算法产生含有多维信息的衍生变量,把衍生变量做WOE转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本发明可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。
Description
技术领域
本发明涉及金融信贷行业的评分卡模型,尤其涉及基于机器学习的评分卡模型建立方法及装置。
背景技术
目前,传统的金融信贷行业建立审核模型的方法是传统的评分卡模型,利用逻辑回归的统计方法。在新兴发展起来的互联网科技和互联网金融公司,大数据机器学习和深度数据挖掘技术已经逐渐成为建模的主要工具,机器学习算法包括决策树(decisiontree),随机森林(random forest),梯度推进机(Gradient Boosting Machine,GBM),支持向量机器(Support Vector Machine,SVM)和神经网络(neural network)等。
无论是传统的利用逻辑回归的评分卡模型,还是新兴的机器学习模型,都有他们明显的优点和缺点。
传统的评分卡模型属于线性模型,特点在于因变量和自变量属于线性关系,简单好解释,模型表现稳定,过拟合程度低,但是由于只能解释变量间的线性关系,所以随之带来的预测能力也相对比较低,换言之,模型只能发现和解释自变量对于因变量的线性关系。
机器学习模型可以解释复杂的多维关系,预测能力强,模型在训练数据上可以达到很好的预测表现结果。但是缺点也是很明显的,首先,模型内部的逻辑关系像黑盒子一样复杂无法解释,容易出现过拟合现象,这意味着模型在预测数据上或者在实践中的预测能力会下降很快,需要不断的重新更新,稳定性不够。
总结来说,传统的评分卡模型和机器学习模型在模型复杂度、预测性、稳定性上是两个极端。由于行业的重要性和特殊性的原因,在信贷金融行业中,对模型的表现稳定性要求要比互联网行业高,所以信贷金融行业仍然使用传统的评分卡模型做为信贷建模的方法。
发明内容
为了克服现有技术的不足,本发明的目的在于提供基于机器学习的评分卡模型建立方法及装置,旨在解决现有技术的传统评分卡模型预测能力较低,而机器学习模型稳定性不够的问题。
本发明的目的采用以下技术方案实现:
一种基于机器学习的评分卡模型建立方法,包括:
衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;
转换步骤,对衍生变量做WOE转换;
新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。
在上述实施例的基础上,优选的,所述机器学习算法为决策树;
所述方法具体为:
数据获取步骤,获取建模数据;建模数据包括原始的一维变量;
决策树生成步骤,对于建模数据中原始的一维变量,两两配对做决策树;
转换步骤,对于每个决策树的叶节点,做WOE转换;
二维变量建立步骤,对于每个决策树建立一个新的变量,称为二维变量;
模型建立步骤,利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。
在上述实施例的基础上,优选的,二维变量的取值等于决策树的叶节点的 WOE值。
或者,优选的,所述模型建立步骤中,利用逻辑回归方法建立评分卡模型。
或者,优选的,该方法实现在R上,或者,该方法实现在Python上。
一种基于机器学习的评分卡模型建立装置,包括:
衍生模块,用于利用机器学习算法产生含有多维信息的衍生变量;
转换模块,用于对衍生变量做WOE转换;
新增模块,用于将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。
在上述实施例的基础上,优选的,所述机器学习算法为决策树;
所述装置包括:
数据获取模块,用于获取建模数据;建模数据包括原始的一维变量;
决策树生成模块,用于对于建模数据中原始的一维变量,两两配对做决策树;
转换模块,用于对于每个决策树的叶节点,做WOE转换;
二维变量建立模块,用于对于每个决策树建立一个新的变量,称为二维变量;
模型建立模块,用于利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。
在上述实施例的基础上,优选的,二维变量的取值等于决策树的叶节点的 WOE值。
或者,优选的,所述模型建立模块利用逻辑回归方法建立评分卡模型。
或者,优选的,该装置应用在R上,或者,该装置应用在Python上。
相比现有技术,本发明的有益效果在于:
本发明公开了基于机器学习的评分卡模型建立方法及装置,利用机器学习算法(例如决策树,随机森林,梯度推进等)产生含有多维信息的衍生变量,把衍生变量做WOE(weight of evidence,证据权重)转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本发明可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。
本发明将复杂的理论化的机器学习算法应用到实际金融领域的传统模型中,融合了传统算法和先进算法,将传统评分卡模型和新的机器学习模型的特点融合在一起,产生的新的评分卡模型兼具两种模型的优点,又弥补了单独模型的缺点。
本算法创造于互联网金融风控行业实践和理论研究结合的过程中,并且在互联网金融行业的企业中得以应用,在不影响模型稳定性的前提下,使得模型的预测效果提高10%-20%,极大的增强了信贷行业的审核准确性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1示出了本发明实施例提供的一种基于决策树的评分卡模型建立方法的流程示意图;
图2示出了本发明实施例生成的决策树结构示意图;
图3示出了本发明实施例提供的一种基于决策树的评分卡模型建立装置的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
具体实施例一
本发明实施例对机器学习算法不做限定,其可以为决策树,随机森林,梯度推进等。
如图1所示,本发明实施例提供了一种基于机器学习的评分卡模型建立方法,以评分卡模型和决策树为例,具体算法实施流程如下:
数据获取步骤S101,获取建模数据;建模数据包括原始的一维变量;
决策树生成步骤S102,对建模数据中的原始一维变量,两两配对做决策树,生成例如图2中的决策树结构;
转换步骤S103,对每个决策树中的叶节点,做WOE转换;WOE是weight of evidence的缩写,意为证据权重;
二维变量建立步骤S104,对于每棵树建立一个新的变量,叫做二维变量,变量的取值逻辑遵循决策树的衍生逻辑,取值等于决策树的叶节点的WOE值;
模型建立步骤S105,使用新产生的二维变量和原始的一维变量,利用传统的逻辑回归方法,建立二维评分卡模型;新的评分卡模型中的变量包含一维变量和二维变量。
这样,既达到了提高模型的预测性的效果,又实现了稳定性和可解释性。
本方法的整个流程可以实现在R上和Python上,能够自动化运行,建立并筛选符合条件的决策树,自动产生新的二维变量,并且放置于逻辑回归模型中。
本发明实施例利用机器学习算法(例如决策树,随机森林,梯度推进等)产生含有多维信息的衍生变量,把衍生变量做WOE转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本发明实施例可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。由于本发明实施例对传统算法和先进算法进行了融合,产生的新的模型兼具两种模型的好处,又弥补了单独模型的缺点。能够将复杂的理论化的机器学习算法应用到实际金融领域的传统模型中,是本发明实施例的主要贡献。
在上述的具体实施例一中,提供了基于机器学习的评分卡模型建立方法,与之相对应的,本申请还提供基于机器学习的评分卡模型建立装置。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
具体实施例二
本发明实施例提供了一种基于机器学习的评分卡模型建立装置,包括:
衍生模块,用于利用机器学习算法产生含有多维信息的衍生变量;
转换模块,用于对衍生变量做WOE转换;
新增模块,用于将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。
优选的,所述机器学习算法为决策树,如图3所示,所述装置包括:
数据获取模块201,用于获取建模数据;建模数据包括原始的一维变量;
决策树生成模块202,用于对于建模数据中原始的一维变量,两两配对做决策树;
转换模块203,用于对于每个决策树的叶节点,做WOE转换;
二维变量建立模块204,用于对于每个决策树建立一个新的变量,称为二维变量;
模型建立模块205,用于利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。
优选的,二维变量的取值可以等于决策树的叶节点的WOE值。
本发明实施例对模型建立模块205建立评分卡模型的方式不做限定,优选的,所述模型建立模块205利用逻辑回归方法建立评分卡模型。
本发明实施例对应用环境所采用的计算机语言不做限定,优选的,该装置应用在R上,或者,该装置应用在Python上。
本发明实施例利用机器学习算法(例如决策树,随机森林,梯度推进等)产生含有多维信息的衍生变量,把衍生变量做WOE转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本发明实施例可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。由于本发明实施例对传统算法和先进算法进行了融合,产生的新的模型兼具两种模型的好处,又弥补了单独模型的缺点。能够将复杂的理论化的机器学习算法应用到实际金融领域的传统模型中,是本发明实施例的主要贡献。
本发明从使用目的上,效能上,进步及新颖性等观点进行阐述,其具有的实用进步性,己符合专利法所强调的功能增进及使用要件,本发明以上的说明及附图,仅为本发明的较佳实施例而己,并非以此局限本发明,因此,凡一切与本发明构造,装置,待征等近似、雷同的,即凡依本发明专利申请范围所作的等同替换或修饰等,皆应属本发明的专利申请保护的范围之内。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (2)
1.一种基于机器学习的评分卡模型建立方法,其特征在于,包括:
衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;
转换步骤,对衍生变量做WOE转换;
新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型;
所述机器学习算法为决策树;
所述方法具体为:
数据获取步骤,获取建模数据;建模数据包括原始的一维变量;
决策树生成步骤,对于建模数据中原始的一维变量,两两配对做决策树;
转换步骤,对于每个决策树的叶节点,做WOE转换;
二维变量建立步骤,对于每个决策树建立一个新的变量,称为二维变量;
模型建立步骤,利用新产生的二维变量和原始的一维变量,建立二维评分卡模型;
该方法实现在R上,或者,该方法实现在Python上;
二维变量的取值等于决策树的叶节点的WOE值;
所述模型建立步骤中,利用逻辑回归方法建立评分卡模型。
2.一种基于机器学习的评分卡模型建立装置,其特征在于,包括:
衍生模块,用于利用机器学习算法产生含有多维信息的衍生变量;
转换模块,用于对衍生变量做WOE转换;
新增模块,用于将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型;
所述机器学习算法为决策树;
所述装置包括:
数据获取模块,用于获取建模数据;建模数据包括原始的一维变量;
决策树生成模块,用于对于建模数据中原始的一维变量,两两配对做决策树;
转换模块,用于对于每个决策树的叶节点,做WOE转换;
二维变量建立模块,用于对于每个决策树建立一个新的变量,称为二维变量;
模型建立模块,用于利用新产生的二维变量和原始的一维变量,建立二维评分卡模型;
该装置应用在R上,或者,该装置应用在Python上
二维变量的取值等于决策树的叶节点的WOE值;
所述模型建立模块利用逻辑回归方法建立评分卡模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810088784.6A CN108416495B (zh) | 2018-01-30 | 2018-01-30 | 基于机器学习的评分卡模型建立方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810088784.6A CN108416495B (zh) | 2018-01-30 | 2018-01-30 | 基于机器学习的评分卡模型建立方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416495A CN108416495A (zh) | 2018-08-17 |
CN108416495B true CN108416495B (zh) | 2021-02-26 |
Family
ID=63127297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810088784.6A Active CN108416495B (zh) | 2018-01-30 | 2018-01-30 | 基于机器学习的评分卡模型建立方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416495B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285065A (zh) * | 2018-08-24 | 2019-01-29 | 苏宁消费金融有限公司 | 一种基于样条插值的信用评分方法 |
CN110046783B (zh) * | 2018-12-13 | 2023-04-28 | 创新先进技术有限公司 | 冒用账户识别方法、装置、电子设备及存储介质 |
CN109598095B (zh) * | 2019-01-07 | 2023-08-08 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
CN111582466B (zh) * | 2020-05-09 | 2023-09-01 | 深圳市卡数科技有限公司 | 模拟神经网络的评分卡配置方法、装置、设备及存储介质 |
CN111861750A (zh) * | 2020-07-22 | 2020-10-30 | 北京睿知图远科技有限公司 | 一种基于决策树方法的特征衍生系统及可读存储介质 |
CN112102074B (zh) * | 2020-10-14 | 2024-01-30 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
CN112766649B (zh) * | 2020-12-31 | 2022-03-15 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6182242B1 (ja) * | 2016-06-13 | 2017-08-16 | 三菱電機インフォメーションシステムズ株式会社 | データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN107590735A (zh) * | 2017-09-04 | 2018-01-16 | 深圳市华傲数据技术有限公司 | 用于信用评估的数据挖掘方法及装置 |
-
2018
- 2018-01-30 CN CN201810088784.6A patent/CN108416495B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108416495A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416495B (zh) | 基于机器学习的评分卡模型建立方法及装置 | |
TWI668655B (zh) | Risk information output, risk information construction method and device | |
US11580441B2 (en) | Model training method and apparatus | |
US11042710B2 (en) | User-friendly explanation production using generative adversarial networks | |
CN112395466A (zh) | 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法 | |
CN105677615A (zh) | 一种基于weka接口的分布式机器学习方法 | |
CN115659408B (zh) | 一种电力系统敏感数据共享方法、系统及存储介质 | |
CN115391499A (zh) | 生成多任务生成模型的方法、问答对生成方法和相关装置 | |
Vishwakarma et al. | A comparative study of K-means and K-medoid clustering for social media text mining | |
Sun et al. | Dual-task convolutional neural network based on the combination of the U-Net and a diffraction propagation model for phase hologram design with suppressed speckle noise | |
US11017307B2 (en) | Explanations generation with different cognitive values using generative adversarial networks | |
CN104320460A (zh) | 一种大数据处理方法 | |
Xu et al. | Sparse black-box inversion attack with limited information | |
CN112435034A (zh) | 一种基于多网络图聚合的营销套利黑产的识别方法 | |
Ishida et al. | Adjust-free adversarial example generation in speech recognition using evolutionary multi-objective optimization under black-box condition | |
CN116681088A (zh) | 一种基于大模型的翻译系统、方法及储存介质 | |
CN116432125A (zh) | 基于哈希算法的代码分类方法 | |
CN110162558A (zh) | 结构化数据处理方法及装置 | |
CN111199153A (zh) | 一种词向量的生成方法及相关设备 | |
CN111259674B (zh) | 基于gan网络的文字校对和情感分析方法、设备及介质 | |
US20220050825A1 (en) | Block chain based management of auto regressive database relationships | |
CN104331507A (zh) | 机器数据类别自动发现和分类的方法及装置 | |
Zhou et al. | Study on seismic magnitude prediction based on combination algorithm | |
Wen et al. | Research and Design of Credit Risk Assessment System Based on Big Data and Machine Learning | |
Chen et al. | Pre-training Models Based Knowledge Graph Multi-hop Reasoning for Smart Grid Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |