CN111861706A - 数据离散化调控方法及系统以及风险控制模型建立方法及系统 - Google Patents

数据离散化调控方法及系统以及风险控制模型建立方法及系统 Download PDF

Info

Publication number
CN111861706A
CN111861706A CN202010662211.7A CN202010662211A CN111861706A CN 111861706 A CN111861706 A CN 111861706A CN 202010662211 A CN202010662211 A CN 202010662211A CN 111861706 A CN111861706 A CN 111861706A
Authority
CN
China
Prior art keywords
model
discretization
variable
variables
chi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010662211.7A
Other languages
English (en)
Inventor
林建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wuyu Technology Co ltd
Original Assignee
Shenzhen Wuyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wuyu Technology Co ltd filed Critical Shenzhen Wuyu Technology Co ltd
Priority to CN202010662211.7A priority Critical patent/CN111861706A/zh
Publication of CN111861706A publication Critical patent/CN111861706A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明揭示了一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,所述调控方法包括:步骤S1、获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;步骤S2、形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。本发明提出的金融风控模型中的变量离散化方式调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。

Description

数据离散化调控方法及系统以及风险控制模型建立方法及 系统
技术领域
本发明属于数据处理技术领域,涉及一种变量离散化调控方法,尤其涉及一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统。
背景技术
在信贷风险识别领域,个人特征数据的分布形态有时并不适合建立机器学习模型,比如决策树算法需要运用在离散属性上,如果离散值过多,对数据存储空间以及计算时间的要求都很高。另一方面,连续变量离散化是建模前特征工程的重要步骤,将数值范围较大的连续变量经过适宜的离散化处理之后不仅易于数据的存储,更重要的是离散化后的数据可以使得机器学习模型更具有鲁棒性,这样可以有效减少过拟合和欠拟合的问题,更好的解决金融数据挖掘中的分类问题。
在现有的连续数据离散化的实际应用中,主要的方法有两类:有监督离散化和无监督离散化。无监督离散化包括等频和等距离散化,思想简单、容易实现,但没有用到标签的信息,很难获得较好的离散化效果。监督式的离散化包括卡方分箱、基于信息熵的分箱方法、基于粗糙集的离散化方法以及其他优化算法。
对于信贷风险识别的方案,现有技术存在如下缺陷:现有离散化方法虽然很多、但是对于具体的一个问题而言,没有统一的方法。比如信贷方面的个人特征变量,首先这些变量包括数值型和类别型,数值型变量有连续的和离散的,类型性变量也有有序和无序之分,其次变量的变化范围也很不一致。针对这种复杂的情况,现有技术没有研究不同类型的变量对不同方法的适用性。
有鉴于此,如今迫切需要设计一种新的对不同类型变量的处理方式,以便克服现有处理方式存在的上述至少部分缺陷。
发明内容
本发明提供一种数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。
为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:
一种数据离散化调控方法,所述调控方法包括:
步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型;
步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型;
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中,这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱;这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点;
类别变量因为没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的变量OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中,所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。
根据本发明的另一个方面,采用如下技术方案:
一种数据离散化调控方法,所述调控方法包括:
步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;
步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。
作为本发明的一种实施方式,步骤S2中,所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型。
作为本发明的一种实施方式,对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值的变量、本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中;
对于类别变量,用负样本比例对类别变量进行编码,映射为取值(0,1)的类别变量,将其分配至CAIM离散化模型中。
根据本发明的又一个方面,采用如下技术方案:
一种数据离散化调控系统,所述调控系统包括:
变量属性获取模块,用以获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
离散化模型形成模块,用以形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;
离散化模型分配模块,用以根据所述变量属性获取模块获取的各变量的变量属性为对应变量分配对应的离散化模型;
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的第一变量,所述离散化模型分配模块将所述第一变量分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的第二变量,所述离散化模型分配模块将所述第二变量分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的第三变量,所述离散化模型分配模块将所述第三变量分配至卡方结合遗传算法离散化模型中;这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱;这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点;
对于类别变量,因为其没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的类别变量,OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,所述离散化模型分配模块用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中,所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。
根据本发明的又一个方面,采用如下技术方案:
一种的数据离散化调控系统,所述调控系统包括:
变量属性获取模块,用以获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
离散化模型形成模块,用以形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;
离散化模型分配模块,用以根据所述变量属性获取模块获取的各变量的变量属性为对应变量分配对应的离散化模型。
作为本发明的一种实施方式,所述离散化模型形成模块形成的离散化模型包括卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型中的至少一个。
作为本发明的一种实施方式,对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的第一变量,所述离散化模型分配模块将所述第一变量分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、本身区分度高于设定第五阈值的第二变量,所述离散化模型分配模块将所述第二变量分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的第三变量,所述离散化模型分配模块将所述第三变量分配至卡方结合遗传算法离散化模型中;
对于类别变量,所述离散化模型分配模块用负样本比例对类别变量进行编码,映射为取值(0,1)的类别变量,将其分配至CAIM离散化模型中。
根据本发明的又一个方面,采用如下技术方案:
一种互联网金融领域风险控制模型建立方法,所述方法包括上述的数据离散化调控方法。
根据本发明的又一个方面,采用如下技术方案:
一种互联网金融领域风险控制模型建立系统,所述系统包括上述的数据离散化调控系统。
作为本发明的一种实施方式,所述卡方结合遗传算法离散化模型包括卡方分箱离散化模型及遗传算法离散化模型;
所述卡方分箱离散化模型中,遍历计算两个相邻区间的卡方值,合并具有最小卡方值的区间,直到满足箱数条件为止;
所述遗传算法离散化模型中,转化为以IV值作为目标函数、求最优切分点的优化问题。
在本发明的一种使用场景中,本发明变量离散化方式调控方法中各方法算法的操作步骤如下:
(1)卡方分箱:遍历计算两个相邻区间的卡方值,合并具有最小卡方值的区间,直到满足箱数条件为止。
(2)基于信息熵的MDLP方法:遍历所有分裂点计算由该点分裂导致的信息增益,将具有最大增益的点作为切分点,并判断此时的最小有效原则是否满足,不满足则停止分裂。
(3)CAIM方法:遍历所有分裂点计算加入该点后形成的区间的caim值,选择具有最大caim值的点作为切分点,直到满足箱数条件为止。
(4)遗传算法:转化为以IV值作为目标函数,求最优切分点的优化问题。
本发明的有益效果在于:本发明提出的应用于金融领域风险控制模型的数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。
附图说明
图1为本发明一实施例中数据离散化调控方法的流程图。
图2为本发明一实施例中数据离散化调控方法的组成示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
本发明揭示了一种数据离散化调控方法,该方法主要适用于互联网金融领域各种数值类资信数据,比如,各种第三方资信分,运营商通话时长等。互联网金融风险控制业务的目标之一是确保风险的稳定和可控。而数据离散化是提高模型(尤其是逻辑回归模型)鲁棒性有效手段之一。因此,在模型构建之前,对数据进行有效离散化,同时最大程度上保留数据信息(衡量指标有Information Value,Gini系数等)是金融风险控制方法关键的一步。
图1为本发明一实施例中数据离散化调控方法的流程图;请参阅图1,所述调控方法包括:
【步骤S1】获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
【步骤S2】形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;
【步骤S3】根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。
在本发明的一实施例中,所述离散化模型包括:卡方分箱模型、MDLP(基于信息熵的离散化方法)模型、CAIM(Class-Attrubute Interdependence Maximization)模型及遗传算法模型。
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并。
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点。
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中。这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱。这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点。
在一实施例中,所述卡方结合遗传算法离散化模型包括卡方分箱离散化模型及遗传算法离散化模型。所述卡方分箱离散化模型中,遍历计算两个相邻区间的卡方值,合并具有最小卡方值的区间,直到满足箱数条件为止;所述遗传算法离散化模型中,转化为以IV值作为目标函数、求最优切分点的优化问题。
类别变量因为没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的变量OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中,所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。
本发明还揭示一种数据离散化调控方法,图2为本发明一实施例中数据离散化调控方法的组成示意图;请参阅图2,所述调控系统包括:变量属性获取模块1、离散化模型形成模块2及离散化模型分配模块3。
变量属性获取模块1用以获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个。离散化模型形成模块2用以形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化。离散化模型分配模块3用以根据所述变量属性获取模块获取的各变量的变量属性为对应变量分配对应的离散化模型。
在一实施例中,所述离散化模型形成模块形成的离散化模型包括卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型中的至少一个。
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的第一变量,所述离散化模型分配模块将所述第一变量分配至卡方分箱离散化模型中。所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化。卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并。
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的第二变量,所述离散化模型分配模块将所述第二变量分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化。MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点。
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的第三变量,所述离散化模型分配模块将所述第三变量分配至卡方结合遗传算法离散化模型中。这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱;这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点。
所述卡方结合遗传算法离散化模型包括卡方分箱离散化模型及遗传算法离散化模型。所述卡方分箱离散化模型中,遍历计算两个相邻区间的卡方值,合并具有最小卡方值的区间,直到满足箱数条件为止;所述遗传算法离散化模型中,转化为以IV值作为目标函数、求最优切分点的优化问题。
对于类别变量(可以是不满足上述3个条件的剩余变量),因为其没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的类别变量,OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,所述离散化模型分配模块用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中。所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。
在本发明的一种使用场景中,将基于上述算法原理的流程应用在信贷领域个人特征数据上。下面给出实验结果和相关结论:
(1)数据:13662个样本,66个待分箱变量,其中63个变量都含有缺失值,分箱时缺失都单独一箱处理。
(2)前三种方法对比:
Figure BDA0002579020050000091
表1变量的最优分箱方案分布表
三种分箱方法几乎平分各变量的最优分箱方法。当箱数较少时,可以优先考虑CAIM和MDLP,当箱数较多时,优先考虑卡方分箱。
(3)将遗传算法加入之后:遗传算法根据系数选择合适的区间数,没有遍历所有箱数。
下面是与其他三种分箱方法同一箱数情况下的比较。
Figure BDA0002579020050000092
表2遗传算法加入之后变量的最优分箱方案分布表
通过表2可以看出,遗传算法的效果明显好于其他的几种算法。
(4)根据变量缺失比例为其分类:CAIM算法对缺失比例高的变量分箱效果更好。
(5)根据变量取值的变异系数为其分类:遗传算法和基于信息熵的MDLP算法的效果是更好的。
(6)根据变量是否存在单个取值比例较高的情况对其分类:基于信息熵的MDLP算法的效果对于高频率取值的变量效果更显著。
本发明为多种离散化算法在信贷风险识别场景下的应用,在兼顾时间效率和分类准确性的同时,提出各种类型和取值范围的变量对各种离散化方法的适应性。实验说明,前三种算法(卡方分箱、基于信息熵的MDLP算法和基于类与属性依赖度的算法CAIM)中,卡方和MDLP分别对三分之一的变量效果占优。由于对箱数的敏感程度不同,希望划分更多的箱数时,选用卡方更好。第四种遗传算法在不考虑时间成本的情况下,可认为是最优的离散化算法。选用合适的惩罚系数,可以划分得到合适的箱数。增加基因长度和种群个数,可以迭代出至少与前两种算法效果一样的结果。
在本发明的一实施例中,根据实验结果分析,粗略的将变量分为四类:(1)取值离散、差不多等间隔、极差较小的变量(如天数、年龄),采用卡方分箱。(2)取值离散、间隔不等、极差较大、本身的区分度较高(IV值高),采用MDLP方法。(3)取值连续,变化范围较大,本身区分度较低,采用卡方结合遗传算法。(4)类别性无序变量,需用负样本比例编码映射至0到1之间的变量,采用CAIM更佳。
本发明还揭示一种互联网金融领域风险控制模型建立方法,所述方法包括上述的数据离散化调控方法。所述风险控制模型建立方法包括:步骤1、选取样本步骤;步骤2、数据预处理步骤;步骤3、特征工程步骤;步骤4、变量选择步骤;步骤5、建模步骤。所述步骤3中包括上述的数据离散化调控方法。
本发明进一步揭示一种互联网金融领域风险控制模型建立系统,所述系统包括上述的数据离散化调控系统。所述风险控制模型建立系统包括:选取样本模块、数据预处理模块、特征工程模块、变量选择模块、建模模块。所述数据预处理模块包括上述的数据离散化调控系统。
综上所述,本发明提出的数据离散化调控方法及系统以及互联网金融领域风险控制模型建立方法及系统,可提高处理效率及分类准确性。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现,对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (10)

1.一种数据离散化调控方法,其特征在于,所述调控方法包括:
步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型;
步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型;
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中,这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱;这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点;
类别变量因为没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的变量OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中,所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。
2.一种数据离散化调控方法,其特征在于,所述调控方法包括:
步骤S1、获取变量属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
步骤S2、形成若干离散化模型,根据不同变量的特征使用相对应的离散化模型对变量进行离散化;
步骤S3、根据步骤S1中获取各变量的变量属性为对应变量分配对应的离散化模型。
3.根据权利要求2所述的数据离散化调控方法,其特征在于:
步骤S2中,所述离散化模型包括:卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型。
4.根据权利要求3所述的数据离散化调控方法,其特征在于:
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的变量,将其分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值的变量、本身区分度高于设定第五阈值的变量,将其分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的变量,将其分配至卡方结合遗传算法离散化模型中;
对于类别变量,用负样本比例对类别变量进行编码,映射为取值(0,1)的类别变量,将其分配至CAIM离散化模型中。
5.一种数据离散化调控系统,其特征在于,所述调控系统包括:
变量属性获取模块,用以获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
离散化模型形成模块,用以形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;
离散化模型分配模块,用以根据所述变量属性获取模块获取的各变量的变量属性为对应变量分配对应的离散化模型;
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的第一变量,所述离散化模型分配模块将所述第一变量分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;卡方分箱模型中,卡方是度量两个类别相似性的一种方法,在一定置信度下,如果两个类别的卡方值越小,说明两个类别相似度越高,卡方分箱模型用来进行变量类别之间的合并;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、且本身区分度高于设定第五阈值的第二变量,所述离散化模型分配模块将所述第二变量分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;MDLP模型中,信息熵用来度量某种特定信息出现的概率,信息熵越低,特征对目标变量的分类效果越好;信息增益能表示加入新的条件后信息熵的降低程度;MDLP模型依据信息增益最大值依次寻找最优切分点;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的第三变量,所述离散化模型分配模块将所述第三变量分配至卡方结合遗传算法离散化模型中;这类变量取值个数多,取值连续但同时常规有监督方法不能对其有效离散,而遗传算法的学习能力更强,能保留更多的原始信息;但是遗传算法耗时较长,先用卡方分箱对变量进行初步分箱,作为候选变量切点,再用遗传算法进行分箱;这种卡方分箱算法结合遗传算法对变量进行离散化的方法能获取好的分箱效果又不至于耗费过多时间;遗传算法模型中,设置一个适应度函数,即需要优化的目标;通过随机、选择、交叉和变异的方法优胜劣汰,找到最能满足适应度函数的切分点;
对于类别变量,因为其没有数值含义或者排序性,进行OneHot编码,但是对于类别取值较多的类别变量,OneHot编码容易造成维度爆炸和数据稀疏;对于类别变量,所述离散化模型分配模块用负样本比例对类别进行编码,映射为取值(0,1)的变量,将其分配至CAIM离散化模型中,所述CAIM离散化模型采用CAIM算法对变量进行离散化;CAIM模型中,计算目标变量的类别于特征属性之间的关系即CAIM值最大化,此时信息熵最低,根据CAIM值依次寻找最优切点。
6.一种的数据离散化调控系统,其特征在于,所述调控系统包括:
变量属性获取模块,用以获取变量的属性;获取的变量属性包括取值属性、间隔属性、极差属性、本身区分度属性、变化范围属性中的至少一个;
离散化模型形成模块,用以形成若干离散化模型,在不同的离散化模型中,使用不同的离散算法对变量进行离散化;
离散化模型分配模块,用以根据所述变量属性获取模块获取的各变量的变量属性为对应变量分配对应的离散化模型。
7.根据权利要求6所述的数据离散化调控系统,其特征在于:
所述离散化模型形成模块形成的离散化模型包括卡方分箱模型、MDLP模型、CAIM模型及遗传算法模型中的至少一个。
8.根据权利要求6所述的数据离散化调控系统,其特征在于:
对于取值离散、间隔差距低于设定第一阈值、且极差低于设定第二阈值的第一变量,所述离散化模型分配模块将所述第一变量分配至卡方分箱离散化模型中,所述卡方分箱离散化模型采用卡方分箱算法对变量进行离散化;
对于取值离散、间隔差距高于设定第三阈值、极差高于设定第四阈值、本身区分度高于设定第五阈值的第二变量,所述离散化模型分配模块将所述第二变量分配至MDLP模型中,所述MDLP模型采用MDLP方法对变量进行离散化;
对于取值连续、变化范围大于设定第六阈值、本身区分度低于设定第七阈值的第三变量,所述离散化模型分配模块将所述第三变量分配至卡方结合遗传算法离散化模型中;
对于类别变量,所述离散化模型分配模块用负样本比例对类别变量进行编码,映射为取值(0,1)的类别变量,将其分配至CAIM离散化模型中。
9.一种互联网金融领域风险控制模型建立方法,其特征在于:所述方法包括权利要求1至4任一所述的数据离散化调控方法。
10.一种互联网金融领域风险控制模型建立系统,其特征在于:所述系统包括权利要求5至8任一所述的数据离散化调控系统。
CN202010662211.7A 2020-07-10 2020-07-10 数据离散化调控方法及系统以及风险控制模型建立方法及系统 Pending CN111861706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010662211.7A CN111861706A (zh) 2020-07-10 2020-07-10 数据离散化调控方法及系统以及风险控制模型建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010662211.7A CN111861706A (zh) 2020-07-10 2020-07-10 数据离散化调控方法及系统以及风险控制模型建立方法及系统

Publications (1)

Publication Number Publication Date
CN111861706A true CN111861706A (zh) 2020-10-30

Family

ID=73153206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010662211.7A Pending CN111861706A (zh) 2020-07-10 2020-07-10 数据离散化调控方法及系统以及风险控制模型建立方法及系统

Country Status (1)

Country Link
CN (1) CN111861706A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344626A (zh) * 2021-06-03 2021-09-03 上海冰鉴信息科技有限公司 一种基于广告推送的数据特征优化方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344626A (zh) * 2021-06-03 2021-09-03 上海冰鉴信息科技有限公司 一种基于广告推送的数据特征优化方法及装置

Similar Documents

Publication Publication Date Title
Lee et al. A comparison of network clustering algorithms in keyword network analysis: A case study with geography conference presentations
CN111539451A (zh) 样本数据优化方法、装置、设备及存储介质
Lee et al. Decision tree algorithm considering distances between classes
Daubie et al. A comparison of the rough sets and recursive partitioning induction approaches: An application to commercial loans
CN111861706A (zh) 数据离散化调控方法及系统以及风险控制模型建立方法及系统
CN114202232A (zh) 一种基于数据分析以优化生态资源保护的系统及方法
CN111625578B (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
Hu et al. A novel decision-tree method for structured continuous-label classification
Scherger et al. A systematic overview of the prediction of business failure
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
Schenker et al. Comparison of distance measures for graph-based clustering of documents
Zhang et al. A novel method for detecting outlying subspaces in high-dimensional databases using genetic algorithm
Karimi Zandian et al. MEFUASN: a helpful method to extract features using analyzing social network for fraud detection
Ahmed et al. Using correlation based subspace clustering for multi-label text data classification
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Piwowarski et al. Issues of multi-criteria methods applicability supporting complex business process decision-making in management
Sun et al. An application of decision tree and genetic algorithms for financial ratios' dynamic selection and financial distress prediction
CN112785004A (zh) 一种基于粗糙集理论和d-s证据理论的温室智能决策方法
Ta et al. Stock market analysis using clustering techniques: the impact of foreign ownership on stock volatility in Vietnam
CN112396507A (zh) 基于阴影划分的集成svm个人信用评估方法
CN112836926B (zh) 基于电力大数据的企业经营状况评估方法
CN111652734B (zh) 基于区块链和大数据的金融信息管理系统
Ibitoye et al. Customer Churn Predictive Analytics using Relative Churn Fuzzy Feature-Weight Model in Telecoms
Chen et al. Optimization Simulation of Big Data Analysis Model Based on K-means Algorithm
Li et al. CUS-RF-Based Credit Card Fraud Detection with Imbalanced Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination