CN108268478A - 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置 - Google Patents

一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置 Download PDF

Info

Publication number
CN108268478A
CN108268478A CN201611257589.9A CN201611257589A CN108268478A CN 108268478 A CN108268478 A CN 108268478A CN 201611257589 A CN201611257589 A CN 201611257589A CN 108268478 A CN108268478 A CN 108268478A
Authority
CN
China
Prior art keywords
caim
criterion
attribute
improved
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611257589.9A
Other languages
English (en)
Inventor
王平
李青海
潘宇翔
黄超
张晓亭
杨婉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611257589.9A priority Critical patent/CN108268478A/zh
Publication of CN108268478A publication Critical patent/CN108268478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于ur‑CAIM算法的不平衡数据集特征选择方法,其包括:步骤a:定义数据集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征;本发明还公开一种与基于ur‑CAIM算法的不平衡数据集特征选择方法相对应的装置。这样,本发明利用改进的CAIM准则对连续属性离散化,挑选出了对后续建模有重要作用的特征变量,减少了异常值对模型的影响,具有一定的稳健性。

Description

一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
技术领域
本发明属于数据处理技术领域,具体涉及基于ur-CAIM算法的不平衡数据集特征选择方法及装置。
背景技术
特征选择通常被视为数据挖掘的第一步,特别是对于高维稀疏数据,通过特征选择可以去除大量的冗余和不相关特征信息的干扰,有效降低问题特征空间的维数,从而提高对目标函数的预测性能,降低分析成本,而且经过选择的特征更易于被人理解,有利于揭示底层数据中蕴藏的有用信息。
在信贷行业中,个人信用数据集一般都是非平衡数据集,即正常客户的实例数远远超过违约用户的实例数,以此建立的个人信用评分模型将很难准确地抓住坏客户的行为特征。另外数据集中往往不只存在着离散型数据,也存在着大量连续型数据,而用多个弱分类器组合成强分类器的集成模型虽然内置了特征选择方法,但仍是以离散值为处理对象,需要对连续属性进行离散化。
传统的基于熵的特征选择方法在计算连续属性的信息增益时只是将该属性分成两个区间,这样做会损失部分信息,并且对于不平衡数据集而言,会倾向于将属于多数类的样本分配在一个区间中,而少数类分配在该区间将很难被模型识别
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于ur-CAIM算法的不平衡数据集特征选择方法,其包括:
步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;
步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;
步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;
步骤d:计算CAIR准则:
步骤e:计算CAIU准则;
步骤f:对CAIM准则进行改进;
步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
较佳的,所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下:
其中M+r由表1定义,maxr表示第i个区间中qir的最大值。
较佳的,步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括:
步骤c1:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率:
步骤c2:计算样本属于类别Ci的边际概率:
步骤c3:计算样本落在区间Dr=(dr-1,dr]中的概率:
步骤c4:计算类别标签集合与数据集连续属性之间的互信息:
步骤d1:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数:
较佳的,步骤d中包括如下步骤:
步骤d2:计算类别与属性联合分布的熵:
步骤d3:计算CAIR准则
较佳的,步骤e计算CAIU准则的公式为:
较佳的,步骤f对CAIM准则进行改进的步骤包括:
步骤f1:考虑全部样本数,对公式(1)进行改进,得到公式(10):
步骤f2:引进不平衡比例因子,对公式(5)进行改进,得到公式(11);
步骤f3:以上准则合并,计算改进的CAIM准则:
ur-CAIM=CAIMN·CAIR·(1-CAIU) (12)
较佳的,步骤g包括:
步骤g1:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间D=[d0,d1]...(dr-1,dr]...(dn-1,dn],并将其转化为离散值x1,x2,...,xn
步骤g2:用公式(13)计算WOE(Weight of Evidence):
步骤g3:计算属性F的IV值:
步骤g4:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。
一种与以上所述的基于ur-CAIM算法的不平衡数据集特征选择方法对应的装置,其包括:
集合定义单元:定义数据集样本集合、属性集合以及数据集类别标签集合;
初始CAIM准则计算单元:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;
互信息生成单元:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;
CAIR准则计算单元:计算CAIR准则:
CAIU准则计算单元:计算CAIU准则;
CAIM准则改进单元:对CAIM准则进行改进;
建模特征生成单元,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
较佳的,所述CAIM准则改进单元包括:
初始CAIM准则改进子单元:考虑全部样本数,对公式(1)进行改进;
互信息改进子单元:引进不平衡比例因子,对公式(5)进行改进;
准则合并子单元:合并所述CAIM准则改进单元准则中的准则,计算改进的CAIM准则。
较佳的,所述建模特征生成单元包括:
离散值生成子单元:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间,并将其转化为离散值;
WOE生成子单元:计算WOE(Weight of Evidence);
IV值生成子单元:计算属性F的IV值;
建模特征输出子单元:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。
与现有技术比较本发明的有益效果在于:本发明利用改进的CAIM准则对连续属性离散化,充分利用了属性与类别之间的分布信息,解决了不平衡数据对离散化过程的影响;并利用IV值对属性与类别之间的相关性进行排序,挑选出了对后续建模有重要作用的特征变量;同时由于对连续属性离散化将区间转化为了离散值,减少了异常值对模型的影响,具有一定的稳健性。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明实施例一的一种基于ur-CAIM算法的不平衡数据集特征选择方法的流程图;
图2为本发明实施例四的步骤c的流程图;
图3为本发明实施例五的步骤d的流程图;
图4为本发明实施例七的步骤f的流程图;
图5为本发明实施例八的步骤g的流程图;
图6为本发明实施例九的基于ur-CAIM算法的不平衡数据集特征选择装置的功能框图;
图7为本发明实施例十二的互信息生成单元的功能框图;
图8为本发明实施例十三的CAIR准则计算单元的功能框图;
图9为本发明实施例十五的对初始CAIM准则改进单元的功能框图;
图10为本发明实施例十六的步骤c建模特征生成单元的功能框图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
实施例一
图1为本发明一种基于ur-CAIM算法的不平衡数据集特征选择方法的流程图,基于ur-CAIM算法的不平衡数据集特征选择方法是一种结合改进的类属性关联最大化(CAIM)与度量属性相对于类标签相关程度的信息值(Information value)标准的特征选择方法,其包括:
步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;
步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;
步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;
步骤d:计算CAIR(class-attribute interdependence redundancy)准则:
步骤e:计算CAIU(class-attribute interdependence uncertainty)准则;
步骤f:对CAIM准则进行改进;
步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
本发明利用改进的CAIM准则对连续属性离散化,充分利用了属性与类别之间的分布信息,解决了不平衡数据对离散化过程的影响;并利用IV值对属性与类别之间的相关性进行排序,挑选出了对后续建模有重要作用的特征变量;同时由于对连续属性离散化将区间转化为了离散值,减少了异常值对模型的影响,具有一定的稳健性。
实施例二
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于,在步骤a中,记数据集A的样本量为M,F={F1,F1,K Fk}是数据集A的连续属性集合,C={C1,C2,K Cs}是数据集的类别标签集合。对数据集A的连续属性Fi的各个取值v从小到大排序,记d0为属性Fi的最小值,dn为属性Fi的最大值。将Fi的样本划分为n个区间E={[d0,d1]...(dr-1,dr]...(dn-1,dn]},用qir表示属性Fi的第r个区间中属于类别Ci的样本个数。如下表:
表1
Mi+表示数据集A中属于第i个类别的样本个数,M+r表示第r个区间Dr=(dr-1,dr]中所包含的样本个数。
实施例三
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于,步骤b中计算类别标签集合C与数据集连续属性Fi之间的相关性的公式如下:
其中M+r由表1定义,maxr表示第i个区间中qir的最大值。
实施例四
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于,步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤如下,其流程图如图2所示:
步骤c1:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率:
步骤c2:计算样本属于类别Ci的边际概率:
步骤c3:计算样本落在区间Dr=(dr-1,dr]中的概率:
步骤c4:计算类别标签集合与数据集连续属性之间的互信息:
实施例五
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于,步骤d中计算CAIR(class-attribute interdependence redundancy)准则包括如下步骤,如图3所示:
步骤d1:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数:
步骤d2:计算类别与属性联合分布的熵:
步骤d3:计算CAIR准则
CAIR准则可以用来衡量类别与属性之间的相关性,CAIR越大,表示类与属性关联性越强,即划分的区间越好。
实施例六
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于步骤e中计算CAIU准则的公式为:
CAIU准则可以用来衡量类别与属性之间的相关性,CAIU准则是用相对熵的相反数定义的,因此越小越好。
实施例七
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于步骤f中对CAIM准则进行改进的步骤包括如下,图4是对CAIM准则进行改进的流程图:
步骤f1:考虑全部样本数,对公式(1)进行改进:
CAIM(class-attribute interdependency maximization)标准是一种启发式度量方法,它可以量化类别与属性之间的相关性。但由于该计算方式只考虑了区间中属于最大的类别的样本个数,而其他类别在区间中的个数即使不同也可能会有相同的CAIM值,因此具有局限性。将公式(1)进行改进,考虑全部样本数,改进后公式为:
步骤f2:引进不平衡比例因子,对公式(5)进行改进;
由于CAIM准则没有考虑到离散化区间中样本在不同类中的分布情况,因此当数据集A为不平衡数据集时具有局限性。将类别标签集合C的分布作为不平衡比率因子引入(5)式,得到:
步骤f3:以上准则合并,计算改进的CAIM准则:
ur-CAIM=CAIMN·CAIR·(1-CAIU) (12)
实施例八
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于步骤g中包括如下步骤,图5是步骤g中取得建模需要特征的流程图:
步骤g1:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间D=[d0,d1]...(dr-1,dr]...(dn-1,dn],并将其转化为离散值x1,x2,...,xn
步骤g2:计算WOE(Weight of Evidence)
对个人信用数据集而言,类别C={C1=0,C2=1}取值为0(未违约)或1(违约),此时S=2,第r个区间中对应的客户(样本)是否违约的个数为q2r和q1r。在将个人信用数据集连续属性F离散化后,对数据集A的任意离散属性F,计算WOE(Weight of Evidence):
步骤g3:计算属性F的IV值:
IV值的大小决定了各个特征对于响应变量(类别C)的影响程度,IV值越大,该特征越重要;
步骤g4:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。
实施例九
本实施例为一种基于ur-CAIM算法的不平衡数据集特征选择装置,其与基于ur-CAIM算法的不平衡数据集特征选择方法相对应,其框图如图6所示,其包括:
集合定义单元1:定义数据集样本集合、属性集合以及数据集类别标签集合;
初始CAIM准则计算单元2:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;
互信息生成单元3:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;
CAIR准则计算单元4:计算CAIR(class-attribute interdependenceredundancy)准则:
CAIU准则计算单元5:计算CAIU(class-attribute interdependenceuncertainty)准则;
CAIM准则改进单元6:对CAIM准则进行改进;
建模特征生成单元7,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
本装置利用改进的CAIM准则对连续属性离散化,充分利用了属性与类别之间的分布信息,解决了不平衡数据对离散化过程的影响;并利用IV值对属性与类别之间的相关性进行排序,挑选出了对后续建模有重要作用的特征变量;同时由于对连续属性离散化将区间转化为了离散值,减少了异常值对模型的影响,具有一定的稳健性。
实施例十
如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置,其与不同的是集合定义单元中,记数据集A的样本量为M,F={F1,F1,K Fk}是数据集A的连续属性集合,C={C1,C2,K Cs}是数据集的类别标签集合。对数据集A的连续属性Fi的各个取值v从小到大排序,记d0为属性Fi的最小值,dn为属性Fi的最大值。将Fi的样本划分为n个区间E={[d0,d1]...(dr-1,dr]...(dn-1,dn]},用qir表示属性Fi的第r个区间中属于类别Ci的样本个数。如表1所示,Mi+表示数据集A中属于第i个类别的样本个数,M+r表示第r个区间Dr=(dr-1,dr]中所包含的样本个数。
实施例十一
如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置,本实施例与其不同之处在于,初始CAIM准则计算单元中计算类别标签集合C与数据集连续属性Fi之间的相关性的公式为公式(1),其中M+r由表1定义,maxr表示第i个区间中qir的最大值。
实施例十二
如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置,本实施例与其不同之处在于,互信息生成单元包括,图7是互信息生成单元3的框图:
联合概率计算子单元31:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率,所用公式为公式(2);
边际概率计算子单元32:计算样本属于类别Ci的边际概率,所用公式为公式(3);
区间概率计算子单元33:计算样本落在区间Dr=(dr-1,dr]中的概率,所用公式为公式(4);
互信息生成子单元34:计算类别标签集合与数据集连续属性之间的互信息,所用公式为公式(5)。
实施例十三
如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置,本实施例与其不同之处在于,CAIR准则计算单元的框图如图8所示,其包括:
相对熵的相反数计算子单元41:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数,所用公式为公式(6);
类别与属性联合分布的熵计算子单元42:计算类别与属性联合分布的熵,所用公式为公式(7):
计算CAIR准则计算子单元43:计算CAIR准则所用公式为公式(8)
CAIR准则可以用来衡量类别与属性之间的相关性,CAIR越大,表示类与属性关联性越强,即划分的区间越好。
实施例十四
如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置,本实施例与其不同之处在于CAIU准则计算单元中计算CAIU准则的公式为公式(9)CAIU准则可以用来衡量类别与属性之间的相关性,CAIU准则是用相对熵的相反数定义的,因此越小越好。
实施例十五
如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法,本实施例与其不同之处在于对初始CAIM准则改进单元的框图如图9所示,其包括:
初始CAIM准则改进子单元61:考虑全部样本数,对公式(1)进行改进:CAIM(class-attribute interdependency maximization)标准是一种启发式度量方法,它可以量化类别与属性之间的相关性。但由于该计算方式只考虑了区间中属于最大的类别的样本个数,而其他类别在区间中的个数即使不同也可能会有相同的CAIM值,因此具有局限性。将公式(1)进行改进,考虑全部样本数,改进后公式为公式(10);
互信息改进子单元62:引进不平衡比例因子,对公式(5)进行改进;
由于CAIM准则没有考虑到离散化区间中样本在不同类中的分布情况,因此当数据集A为不平衡数据集时具有局限性。将类别标签集合C的分布作为不平衡比率因子引入(5)式,得到公式(11);
准则合并子单元63:合并61、62和63单元的准则,计算改进的CAIM准则,得到公式(12)。
实施例十六
图10为基于ur-CAIM算法的不平衡数据集特征选择装置的建模特征生成单元7的框图,其包括:
离散值生成子单元71:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间D=[d0,d1]...(dr-1,dr]...(dn-1,dn],并将其转化为离散值x1,x2,...,xn
WOE生成子单元72:计算WOE(Weight of Evidence);
对个人信用数据集而言,类别C={C1=0,C2=1}取值为0(未违约)或1(违约),此时S=2,第r个区间中对应的客户(样本)是否违约的个数为q2r和q1r。在将个人信用数据集连续属性F离散化后,对数据集A的任意离散属性F,计算WOE(Weight of Evidence),所用公式为公式(13);
IV值生成子单元73:计算属性F的IV值,所用公式为公式(14);
IV值的大小决定了各个特征对于响应变量(类别C)的影响程度,IV值越大,该特征越重要;
建模特征输出子单元74:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (10)

1.一种基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,包括:
步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;
步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;
步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;
步骤d:计算CAIR准则:
步骤e:计算CAIU准则;
步骤f:对CAIM准则进行改进;
步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
2.根据权利要求1所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下:
其中M+r由表1定义,maxr表示第i个区间中qir的最大值。
3.根据权利要求2所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括:
步骤c1:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率:
步骤c2:计算样本属于类别Ci的边际概率:
步骤c3:计算样本落在区间Dr=(dr-1,dr]中的概率:
步骤c4:计算类别标签集合与数据集连续属性之间的互信息:
步骤d1:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数。
4.根据权利要求3所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤d中包括如下步骤:
步骤d2:计算类别与属性联合分布的熵:
步骤d3:计算CAIR准则
5.根据权利要求4所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤e计算CAIU准则的公式为:
6.根据权利要求5所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤f对CAIM准则进行改进的步骤包括:
步骤f1:考虑全部样本数,对公式(1)进行改进,得到公式(10):
步骤f2:引进不平衡比例因子,对公式(5)进行改进,得到公式(11);
步骤f3:以上准则合并,计算改进的CAIM准则:
ur-CAIM=CAIMN·CAIR·(1-CAIU) (12) 。
7.根据权利要求6所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤g包括:
步骤g1:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间D=[d0,d1]...(dr-1,dr]...(dn-1,dn],并将其转化为离散值x1,x2,...,xn
步骤g2:用公式(13)计算WOE(Weight of Evidence):
步骤g3:计算属性F的IV值:
步骤g4:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。
8.一种与权利要求1-7中任一所述的基于ur-CAIM算法的不平衡数据集特征选择方法对应的装置,其特征在于,所述基于ur-CAIM算法的不平衡数据集特征选择装置包括:
集合定义单元:定义数据集样本集合、属性集合以及数据集类别标签集合;
初始CAIM准则计算单元:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;
互信息生成单元:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;
CAIR准则计算单元:计算CAIR准则:
CAIU准则计算单元:计算CAIU准则;
CAIM准则改进单元:对CAIM准则进行改进;
建模特征生成单元,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
9.根据权利要求8所述的基于ur-CAIM算法的不平衡数据集特征选择装置,其特征在于,所述CAIM准则改进单元包括:
初始CAIM准则改进子单元:考虑全部样本数,对公式(1)进行改进;
互信息改进子单元:引进不平衡比例因子,对公式(5)进行改进;
准则合并子单元:合并所述CAIM准则改进单元准则中的准则,计算改进的CAIM准则。
10.根据权利要求9所述的基于ur-CAIM算法的不平衡数据集特征选择装置,其特征在于所述建模特征生成单元包括:
离散值生成子单元:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间,并将其转化为离散值;
WOE生成子单元:计算WOE(Weight of Evidence);
IV值生成子单元:计算属性F的IV值;
建模特征输出子单元:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。
CN201611257589.9A 2016-12-30 2016-12-30 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置 Pending CN108268478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611257589.9A CN108268478A (zh) 2016-12-30 2016-12-30 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611257589.9A CN108268478A (zh) 2016-12-30 2016-12-30 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置

Publications (1)

Publication Number Publication Date
CN108268478A true CN108268478A (zh) 2018-07-10

Family

ID=62754677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611257589.9A Pending CN108268478A (zh) 2016-12-30 2016-12-30 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN108268478A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090685A (zh) * 2019-12-19 2020-05-01 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
CN112395558A (zh) * 2020-11-27 2021-02-23 广东电网有限责任公司肇庆供电局 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法
CN112395605A (zh) * 2020-11-23 2021-02-23 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095942A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 强变量提取方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095942A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 强变量提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALBERTO CANO 等: "ur-CAIM:improved CAIM discretization for unbalanced and balanced data", 《SOFT COMPUT》 *
数据挖掘工人: "评分卡模型剖析之一(woe、IV、ROC、信息熵)", 《CSDN》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090685A (zh) * 2019-12-19 2020-05-01 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
CN111090685B (zh) * 2019-12-19 2023-08-22 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
CN112395605A (zh) * 2020-11-23 2021-02-23 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法
CN112395558A (zh) * 2020-11-27 2021-02-23 广东电网有限责任公司肇庆供电局 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Similar Documents

Publication Publication Date Title
Kapoor et al. Active learning with gaussian processes for object categorization
CN104298713B (zh) 一种基于模糊聚类的图片检索方法
CN104616029B (zh) 数据分类方法及装置
CN107894998B (zh) 视频推荐方法及装置
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN107292341A (zh) 基于成对协同正则化和nmf的自适应多视图聚类方法
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
Wei et al. Text classification using support vector machine with mixture of kernel
CN110084211B (zh) 一种动作识别方法
Lin et al. Research on maximal frequent pattern outlier factor for online high dimensional time-series outlier detection
CN107133257A (zh) 一种基于中心连通子图的相似实体识别方法及系统
CN108304476A (zh) 一种基于不确定数据表的用户画像数据整合方法及系统
CN109726725A (zh) 一种基于大间隔类间互异性多核学习的油画作者识别方法
CN104504406B (zh) 一种快速高效的近似重复图像匹配方法
CN110334777A (zh) 一种加权多视角无监督属性选择方法
CN108268478A (zh) 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
CN107301643A (zh) 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法
CN110364264A (zh) 基于子空间学习的医疗数据集特征降维方法
CN110365603A (zh) 一种基于5g网络能力开放的自适应网络流量分类方法
CN113222181A (zh) 一种面向k-means聚类算法的联邦学习方法
CN106126943B (zh) 基于关联症状推导的病情采集方法
CN104572930B (zh) 数据分类方法及装置
CN106971005A (zh) 一种云计算环境下基于MapReduce的分布式并行文本聚类方法
Wu et al. Signature features with the visibility transformation
Patnaik et al. Clustering of categorical data by assigning rank through statistical approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710

RJ01 Rejection of invention patent application after publication