CN109492712A - 建立互联网金融风控模型的方法 - Google Patents

建立互联网金融风控模型的方法 Download PDF

Info

Publication number
CN109492712A
CN109492712A CN201811545946.0A CN201811545946A CN109492712A CN 109492712 A CN109492712 A CN 109492712A CN 201811545946 A CN201811545946 A CN 201811545946A CN 109492712 A CN109492712 A CN 109492712A
Authority
CN
China
Prior art keywords
attribute
decision
air control
decision tree
internet finance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811545946.0A
Other languages
English (en)
Inventor
刘云翔
韩贝
徐琛
李晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN201811545946.0A priority Critical patent/CN109492712A/zh
Publication of CN109492712A publication Critical patent/CN109492712A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种建立互联网金融风控模型的方法,本发明通过改进C4.5决策树利用Fayyad边界点判定定理,减少挑选属性最优阈值所用的计算时间,减少整体的运行时间。利用统计学中的相关系数克服多值属性偏向问题,提高决策树预测精确度,将每个属性与黑名单判别的相关程度作为属性的选择度量。将这种改进了的C4.5算法用于生成互联网金融风控预警模型。主要解决了传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。

Description

建立互联网金融风控模型的方法
技术领域
本发明涉及一种建立互联网金融风控模型的方法。
背景技术
C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对RossQuinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
但是,传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
发明内容
本发明的目的在于提供一种建立互联网金融风控模型的方法,能够解决传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
为解决上述问题,本发明提供一种建立互联网金融风控模型的方法,包括:
结合统计学中相关系数理论,得出条件属性与决策属性之间的相关系数,根据相关系数的大小得出所述条件属性与决策属性之间的相关性大小;
分析数据来源,利用所述条件属性与决策属性之间的相关性大小,确定影响黑名单判别的重要影响因子,选出所述重要影响因子作为决策属性并放入数据集;
根据所述得出的所述条件属性与决策属性之间的相关性大小,并利用最大相关系数值的属性作为根结点,采用预设方法递归建立决策树的子结点,以形成决策树;
利用悲观剪枝算法对所述形成的决策树进行剪枝,形成简洁的决策树;
基于所述简洁的决策树建立互联网金融风控模型。
进一步的,在上述方法中,根据如下公式,得出条件属性与决策属性之间的相关系数:
公式中,Ak表示为决策树中不同的条件属性。B为决策树中的决策属性。Cov(Ak,B)为Ak与B的协方差。D(Ak)为Ak的方差。D(B)为B的方差。wk成为衡量决策属性和条件属性间相关程度的一种指标。
进一步的,在上述方法中,所述预设方法包括:
结合Fayyad边界点判定定理,计算所述数据集中每个决策属性的信息增益率,选择每个决策属性中分割点处最大的信息增益率作为该决策属性分割点。
进一步的,在上述方法中,所述信息增益率的定义如下:GainRate(A)=Gain(A)/SplitInfoA(D),其中,
C4.5决策树使用信息增益率克服数据的偏倚,使用分裂信息的值将信息增益规范化,所述分裂信息类似于Info(D)定义如下:
公式中,D为标记类元组的训练集。A为划分D中元组的属性。V为属性A元组D划分为不同的分区或子集{D1,D2,...,Dv}。其中,项充当第j个分区的权重,SplitInfoA(D)是基于按A划分对D的元组分类所需要的期望信息,需要的期望信息越小,分区的纯度越高。
与现有技术相比,本发明公开了一种基于改进C4.5决策树建立互联网金融风控模型的算法,改进C4.5决策树利用Fayyad边界点判定定理,减少挑选属性最优阈值所用的计算时间,减少整体的运行时间。利用统计学中的相关系数克服多值属性偏向问题,提高决策树预测精确度,将每个属性与黑名单判别的相关程度作为属性的选择度量。将这种改进了的C4.5算法用于生成互联网金融风控预警模型。主要解决了传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
附图说明
图1是本发明一实施例的基于改进C4.5决策树建立互联网金融风控模型方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种建立互联网金融风控模型的方法,包括步骤S1~步骤S4:
步骤S1,结合统计学中相关系数理论,得出条件属性与决策属性之间的相关系数,根据相关系数的大小得出所述条件属性与决策属性之间的相关性大小;
在此,条件属性与决策属性之间的相关系数作为反映决策属性和条件属性间相关程度的指标。条件属性与决策属性之间的相关系数表如表1所示;
表1 相关系数表
在这里再定义Ak和B之间的相关系数,可以根据如下公式,得出条件属性与决策属性之间的相关系数:
公式中,Ak表示为决策树中不同的条件属性。B为决策树中的决策属性。Cov(Ak,B)为Ak与B的协方差。D(Ak)为Ak的方差。D(B)为B的方差。wk成为衡量决策属性和条件属性间相关程度的一种指标。
步骤S2,分析数据来源,利用所述条件属性与决策属性之间的相关性大小,确定影响黑名单判别的重要影响因子,选出所述重要影响因子作为决策属性并放入数据集;
在此,可以根据表1的结果,选出Realname,HveDay,CT,Edu,Ascore五个影响因子作为决策属性。
步骤S3,根据所述步骤S1得出的所述条件属性与决策属性之间的相关性大小,并利用最大相关系数值的属性作为根结点,采用预设方法递归建立决策树的子结点,以形成决策树;
步骤S4,利用悲观剪枝算法对所述形成的决策树进行剪枝,形成简洁的决策树;
步骤S5,基于所述简洁的决策树建立互联网金融风控模型。
本发明的建立互联网金融风控模型的方法一实施例中,所述预设方法包括:
结合Fayyad边界点判定定理,计算所述数据集中每个决策属性的信息增益率,选择每个决策属性中分割点处最大的信息增益率作为该决策属性分割点。
在此,选择每个决策属性中分割点处最大的信息增益率作为该决策属性分割点即分裂属性。
本发明的建立互联网金融风控模型的方法一实施例中,所述信息增益率的定义如下:GainRate(A)=Gain(A)/SplitInfoA(D),其中,
C4.5决策树使用信息增益率克服数据的偏倚,使用分裂信息的值将信息增益规范化,所述分裂信息类似于Info(D)定义如下:
公式中,D为标记类元组的训练集。A为划分D中元组的属性。V为属性A元组D划分为不同的分区或子集{D1,D2,...,Dv}。其中,项充当第j个分区的权重,InfoA(D)是基于按A划分对D的元组分类所需要的期望信息,需要的期望信息越小,分区的纯度越高。
综上所述,本发明公开了一种基于改进C4.5决策树建立互联网金融风控模型的算法,改进C4.5决策树利用Fayyad边界点判定定理,减少挑选属性最优阈值所用的计算时间,减少整体的运行时间。利用统计学中的相关系数克服多值属性偏向问题,提高决策树预测精确度,将每个属性与黑名单判别的相关程度作为属性的选择度量。将这种改进了的C4.5算法用于生成互联网金融风控预警模型。主要解决了传统的C4.5决策树模型存在运行时间较长和预测精度不够等问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (4)

1.一种建立互联网金融风控模型的方法,其特征在于,包括:
结合统计学中相关系数理论,得出条件属性与决策属性之间的相关系数,根据相关系数的大小得出所述条件属性与决策属性之间的相关性大小;
分析数据来源,利用所述条件属性与决策属性之间的相关性大小,确定影响黑名单判别的重要影响因子,选出所述重要影响因子作为决策属性并放入数据集;
根据所述得出的所述条件属性与决策属性之间的相关性大小,并利用最大相关系数值的属性作为根结点,采用预设方法递归建立决策树的子结点,以形成决策树;
利用悲观剪枝算法对所述形成的决策树进行剪枝,形成简洁的决策树;
基于所述简洁的决策树建立互联网金融风控模型。
2.如权利要求1所述的建立互联网金融风控模型的方法,其特征在于,根据如下公式,得出条件属性与决策属性之间的相关系数:
公式中,Ak表示为决策树中不同的条件属性,B为决策树中的决策属性。Cov(Ak,B)为Ak与B的协方差,D(Ak)为Ak的方差,D(B)为B的方差,wk成为衡量决策属性和条件属性间相关程度的一种指标。
3.如权利要求1所述的建立互联网金融风控模型的方法,其特征在于,所述预设方法包括:
结合Fayyad边界点判定定理,计算所述数据集中每个决策属性的信息增益率,选择每个决策属性中分割点处最大的信息增益率作为该决策属性分割点。
4.如权利要求3所述的建立互联网金融风控模型的方法,其特征在于,所述信息增益率的定义如下:GainRate(A)=Gain(A)/SplitInfoA(D),其中,
C4.5决策树使用信息增益率克服数据的偏倚,使用分裂信息的值将信息增益规范化,所述分裂信息类似于Info(D)定义如下:
公式中,D为标记类元组的训练集。A为划分D中元组的属性。V为属性A元组D划分为不同的分区或子集{D1,D2,...,Dv},其中,项充当第j个分区的权重,SplitInfoA(D)是基于按A划分对D的元组分类所需要的期望信息,需要的期望信息越小,分区的纯度越高。
CN201811545946.0A 2018-12-17 2018-12-17 建立互联网金融风控模型的方法 Pending CN109492712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545946.0A CN109492712A (zh) 2018-12-17 2018-12-17 建立互联网金融风控模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545946.0A CN109492712A (zh) 2018-12-17 2018-12-17 建立互联网金融风控模型的方法

Publications (1)

Publication Number Publication Date
CN109492712A true CN109492712A (zh) 2019-03-19

Family

ID=65710613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545946.0A Pending CN109492712A (zh) 2018-12-17 2018-12-17 建立互联网金融风控模型的方法

Country Status (1)

Country Link
CN (1) CN109492712A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统
WO2021165811A1 (en) * 2020-02-21 2021-08-26 International Business Machines Corporation Optimal interpretable decision trees using integer programming techniques

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150367961A1 (en) * 2014-06-18 2015-12-24 Airbus Operations (S.A.S.) Computer-assisted methods of quality control and corresponding quality control systems
CN107301513A (zh) * 2017-06-27 2017-10-27 上海应用技术大学 基于cart决策树的水华预警方法和装置
CN108121824A (zh) * 2018-01-12 2018-06-05 北京融快线科技有限公司 一种面向金融服务的聊天机器人及系统
CN108629675A (zh) * 2018-04-27 2018-10-09 信阳师范学院 一种多决策树财务预警方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150367961A1 (en) * 2014-06-18 2015-12-24 Airbus Operations (S.A.S.) Computer-assisted methods of quality control and corresponding quality control systems
CN107301513A (zh) * 2017-06-27 2017-10-27 上海应用技术大学 基于cart决策树的水华预警方法和装置
CN108121824A (zh) * 2018-01-12 2018-06-05 北京融快线科技有限公司 一种面向金融服务的聊天机器人及系统
CN108629675A (zh) * 2018-04-27 2018-10-09 信阳师范学院 一种多决策树财务预警方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董跃华 等: "基于相关系数的决策树优化算法", 《计算机工程与科学》 *
黄诚 等: "在线学习风格识别技术与方法研究", 《软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021165811A1 (en) * 2020-02-21 2021-08-26 International Business Machines Corporation Optimal interpretable decision trees using integer programming techniques
GB2608322A (en) * 2020-02-21 2022-12-28 Ibm Optimal interpretable decision trees using integer programming techniques
US11676039B2 (en) 2020-02-21 2023-06-13 International Business Machines Corporation Optimal interpretable decision trees using integer linear programming techniques
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统

Similar Documents

Publication Publication Date Title
US8595153B2 (en) Exploring data using multiple machine-learning models
CN111814871A (zh) 一种基于可靠权重最优传输的图像分类方法
US20100293175A1 (en) Feature normalization and adaptation to build a universal ranking function
Witten et al. Supervised multidimensional scaling for visualization, classification, and bipartite ranking
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
Sefidian et al. Estimating missing data using novel correlation maximization based methods
CN102117411A (zh) 用于构建多级别分类模型的方法和系统
CN109492712A (zh) 建立互联网金融风控模型的方法
CN106789338B (zh) 一种在动态大规模社交网络中发现关键人物的方法
CN111275132A (zh) 一种基于sa-pfcm++算法的目标分群方法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN105046203B (zh) 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法
CN110909792A (zh) 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法
CN113052268A (zh) 区间集数据类型下基于不确定性度量的属性约简算法
CN107562778B (zh) 一种基于偏离特征的离群点挖掘方法
US7548856B2 (en) Systems and methods for discriminative density model selection
Hao et al. The research and analysis in decision tree algorithm based on C4. 5 algorithm
CN117036781A (zh) 一种基于树综合多样性深度森林的图像分类方法
Revathy et al. Futuristic validation method for rough fuzzy clustering
CN106373129A (zh) 一种基于双隶属度的fcm遥感图像分割方法
CN108388911A (zh) 一种面向混合属性的移动用户动态模糊聚类方法
CN106055883B (zh) 一种基于改进Sammon映射的暂稳评估输入特征有效性分析方法
CN114117876A (zh) 基于改进哈里斯鹰算法的特征选择方法
US20060155394A1 (en) Method and apparatus for order-preserving clustering of multi-dimensional data
Sengupta et al. An improved fuzzy clustering method using modified Fukuyama-Sugeno cluster validity index

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190319