CN108268478A

CN108268478A - 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置

Info

Publication number: CN108268478A
Application number: CN201611257589.9A
Authority: CN
Inventors: 王平; 李青海; 潘宇翔; 黄超; 张晓亭; 杨婉
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10

Abstract

本发明公开一种基于ur‑CAIM算法的不平衡数据集特征选择方法，其包括：步骤a：定义数据集合；步骤b：计算初始CAIM准则，即数据集类别标签集合与数据集连续属性之间的相关性；步骤c：计算类别标签集合与数据集连续属性之间的互信息；步骤d：计算CAIR准则：步骤e：计算CAIU准则；步骤f：对CAIM准则进行改进；步骤g，根据改进的CAIM准则计算离散值、计算属性F的IV值，并设定阈值e，将IV值大于e的属性作为后续建模需要的特征；本发明还公开一种与基于ur‑CAIM算法的不平衡数据集特征选择方法相对应的装置。这样，本发明利用改进的CAIM准则对连续属性离散化，挑选出了对后续建模有重要作用的特征变量，减少了异常值对模型的影响，具有一定的稳健性。

Description

一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置

技术领域

本发明属于数据处理技术领域，具体涉及基于ur-CAIM算法的不平衡数据集特征选择方法及装置。

背景技术

特征选择通常被视为数据挖掘的第一步，特别是对于高维稀疏数据，通过特征选择可以去除大量的冗余和不相关特征信息的干扰，有效降低问题特征空间的维数，从而提高对目标函数的预测性能，降低分析成本，而且经过选择的特征更易于被人理解，有利于揭示底层数据中蕴藏的有用信息。

在信贷行业中，个人信用数据集一般都是非平衡数据集，即正常客户的实例数远远超过违约用户的实例数，以此建立的个人信用评分模型将很难准确地抓住坏客户的行为特征。另外数据集中往往不只存在着离散型数据，也存在着大量连续型数据，而用多个弱分类器组合成强分类器的集成模型虽然内置了特征选择方法，但仍是以离散值为处理对象，需要对连续属性进行离散化。

传统的基于熵的特征选择方法在计算连续属性的信息增益时只是将该属性分成两个区间，这样做会损失部分信息，并且对于不平衡数据集而言，会倾向于将属于多数类的样本分配在一个区间中，而少数类分配在该区间将很难被模型识别

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于ur-CAIM算法的不平衡数据集特征选择方法，其包括：

步骤a：定义数据集样本集合、属性集合以及数据集类别标签集合；

步骤b：计算初始CAIM准则，即数据集类别标签集合与数据集连续属性之间的相关性；

步骤c：根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息；

步骤d：计算CAIR准则：

步骤e：计算CAIU准则；

步骤f：对CAIM准则进行改进；

步骤g，根据改进的CAIM准则计算离散值、计算属性F的IV值，并设定阈值e，将IV值大于e的属性作为后续建模需要的特征。

较佳的，所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下：

其中M_+r由表1定义，max_r表示第i个区间中q_ir的最大值。

较佳的，步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括：

步骤c1：根据表1中的字符定义，计算同时属于第r个区间D_r＝(d_r-1,d_r]和第i个类别的联合概率：

步骤c2：计算样本属于类别C_i的边际概率：

步骤c3：计算样本落在区间D_r＝(d_r-1,d_r]中的概率：

步骤c4：计算类别标签集合与数据集连续属性之间的互信息：

步骤d1：根据相对熵的定义，计算类别分布与属性分布之间相对熵的相反数：

较佳的，步骤d中包括如下步骤：

步骤d2：计算类别与属性联合分布的熵：

步骤d3：计算CAIR准则

较佳的，步骤e计算CAIU准则的公式为：

较佳的，步骤f对CAIM准则进行改进的步骤包括：

步骤f1：考虑全部样本数，对公式(1)进行改进，得到公式(10)：

步骤f2:引进不平衡比例因子，对公式(5)进行改进，得到公式(11)；

步骤f3：以上准则合并，计算改进的CAIM准则：

ur-CAIM＝CAIM_N·CAIR·(1-CAIU) (12)

较佳的，步骤g包括：

步骤g1：根据改进的CAIM准则进行迭代最大化，输出离散化得到的区间D＝[d₀,d₁]...(d_r-1,d_r]...(d_n-1,d_n]，并将其转化为离散值x₁,x₂,...,x_n；

步骤g2：用公式(13)计算WOE(Weight of Evidence)：

步骤g3：计算属性F的IV值：

步骤g4：给定阈值e，将IV值大于e的属性作为后续建模需要的特征。

一种与以上所述的基于ur-CAIM算法的不平衡数据集特征选择方法对应的装置，其包括：

集合定义单元：定义数据集样本集合、属性集合以及数据集类别标签集合；

初始CAIM准则计算单元：计算初始CAIM准则，即数据集类别标签集合与数据集连续属性之间的相关性；

互信息生成单元：根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息；

CAIR准则计算单元：计算CAIR准则：

CAIU准则计算单元：计算CAIU准则；

CAIM准则改进单元：对CAIM准则进行改进；

建模特征生成单元，根据改进的CAIM准则计算离散值、计算属性F的IV值，并设定阈值e，将IV值大于e的属性作为后续建模需要的特征。

较佳的，所述CAIM准则改进单元包括：

初始CAIM准则改进子单元：考虑全部样本数，对公式(1)进行改进；

互信息改进子单元：引进不平衡比例因子，对公式(5)进行改进；

准则合并子单元：合并所述CAIM准则改进单元准则中的准则，计算改进的CAIM准则。

较佳的，所述建模特征生成单元包括：

离散值生成子单元：根据改进的CAIM准则进行迭代最大化，输出离散化得到的区间，并将其转化为离散值；

WOE生成子单元：计算WOE(Weight of Evidence)；

IV值生成子单元：计算属性F的IV值；

建模特征输出子单元：给定阈值e，将IV值大于e的属性作为后续建模需要的特征。

与现有技术比较本发明的有益效果在于：本发明利用改进的CAIM准则对连续属性离散化，充分利用了属性与类别之间的分布信息，解决了不平衡数据对离散化过程的影响；并利用IV值对属性与类别之间的相关性进行排序，挑选出了对后续建模有重要作用的特征变量；同时由于对连续属性离散化将区间转化为了离散值，减少了异常值对模型的影响，具有一定的稳健性。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例一的一种基于ur-CAIM算法的不平衡数据集特征选择方法的流程图；

图2为本发明实施例四的步骤c的流程图；

图3为本发明实施例五的步骤d的流程图；

图4为本发明实施例七的步骤f的流程图；

图5为本发明实施例八的步骤g的流程图；

图6为本发明实施例九的基于ur-CAIM算法的不平衡数据集特征选择装置的功能框图；

图7为本发明实施例十二的互信息生成单元的功能框图；

图8为本发明实施例十三的CAIR准则计算单元的功能框图；

图9为本发明实施例十五的对初始CAIM准则改进单元的功能框图；

图10为本发明实施例十六的步骤c建模特征生成单元的功能框图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

实施例一

图1为本发明一种基于ur-CAIM算法的不平衡数据集特征选择方法的流程图，基于ur-CAIM算法的不平衡数据集特征选择方法是一种结合改进的类属性关联最大化(CAIM)与度量属性相对于类标签相关程度的信息值(Information value)标准的特征选择方法，其包括：

步骤d：计算CAIR(class-attribute interdependence redundancy)准则：

步骤e：计算CAIU(class-attribute interdependence uncertainty)准则；

步骤f：对CAIM准则进行改进；

本发明利用改进的CAIM准则对连续属性离散化，充分利用了属性与类别之间的分布信息，解决了不平衡数据对离散化过程的影响；并利用IV值对属性与类别之间的相关性进行排序，挑选出了对后续建模有重要作用的特征变量；同时由于对连续属性离散化将区间转化为了离散值，减少了异常值对模型的影响，具有一定的稳健性。

实施例二

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于，在步骤a中，记数据集A的样本量为M，F＝{F₁,F₁,K F_k}是数据集A的连续属性集合，C＝{C₁,C₂,K C_s}是数据集的类别标签集合。对数据集A的连续属性F_i的各个取值v从小到大排序，记d₀为属性F_i的最小值，d_n为属性F_i的最大值。将F_i的样本划分为n个区间E＝{[d₀,d₁]...(d_r-1,d_r]...(d_n-1,d_n]}，用q_ir表示属性F_i的第r个区间中属于类别C_i的样本个数。如下表：

表1

M_i+表示数据集A中属于第i个类别的样本个数，M_+r表示第r个区间D_r＝(d_r-1,d_r]中所包含的样本个数。

实施例三

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于，步骤b中计算类别标签集合C与数据集连续属性F_i之间的相关性的公式如下：

其中M_+r由表1定义，max_r表示第i个区间中q_ir的最大值。

实施例四

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于，步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤如下，其流程图如图2所示：

步骤c2：计算样本属于类别C_i的边际概率：

步骤c3：计算样本落在区间D_r＝(d_r-1,d_r]中的概率：

实施例五

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于，步骤d中计算CAIR(class-attribute interdependence redundancy)准则包括如下步骤，如图3所示：

步骤d2：计算类别与属性联合分布的熵：

步骤d3：计算CAIR准则

CAIR准则可以用来衡量类别与属性之间的相关性，CAIR越大，表示类与属性关联性越强，即划分的区间越好。

实施例六

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于步骤e中计算CAIU准则的公式为：

CAIU准则可以用来衡量类别与属性之间的相关性，CAIU准则是用相对熵的相反数定义的，因此越小越好。

实施例七

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于步骤f中对CAIM准则进行改进的步骤包括如下，图4是对CAIM准则进行改进的流程图：

步骤f1：考虑全部样本数，对公式(1)进行改进：

CAIM(class-attribute interdependency maximization)标准是一种启发式度量方法，它可以量化类别与属性之间的相关性。但由于该计算方式只考虑了区间中属于最大的类别的样本个数，而其他类别在区间中的个数即使不同也可能会有相同的CAIM值，因此具有局限性。将公式(1)进行改进，考虑全部样本数，改进后公式为：

步骤f2:引进不平衡比例因子，对公式(5)进行改进；

由于CAIM准则没有考虑到离散化区间中样本在不同类中的分布情况，因此当数据集A为不平衡数据集时具有局限性。将类别标签集合C的分布作为不平衡比率因子引入(5)式，得到：

步骤f3：以上准则合并，计算改进的CAIM准则：

ur-CAIM＝CAIM_N·CAIR·(1-CAIU) (12)

实施例八

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于步骤g中包括如下步骤，图5是步骤g中取得建模需要特征的流程图：

步骤g2：计算WOE(Weight of Evidence)

对个人信用数据集而言，类别C＝{C₁＝0,C₂＝1}取值为0(未违约)或1(违约)，此时S＝2，第r个区间中对应的客户(样本)是否违约的个数为q_2r和q_1r。在将个人信用数据集连续属性F离散化后，对数据集A的任意离散属性F，计算WOE(Weight of Evidence)：

步骤g3：计算属性F的IV值：

IV值的大小决定了各个特征对于响应变量(类别C)的影响程度，IV值越大，该特征越重要；

实施例九

本实施例为一种基于ur-CAIM算法的不平衡数据集特征选择装置，其与基于ur-CAIM算法的不平衡数据集特征选择方法相对应，其框图如图6所示，其包括：

集合定义单元1：定义数据集样本集合、属性集合以及数据集类别标签集合；

初始CAIM准则计算单元2：计算初始CAIM准则，即数据集类别标签集合与数据集连续属性之间的相关性；

互信息生成单元3：根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息；

CAIR准则计算单元4：计算CAIR(class-attribute interdependenceredundancy)准则：

CAIU准则计算单元5：计算CAIU(class-attribute interdependenceuncertainty)准则；

CAIM准则改进单元6：对CAIM准则进行改进；

建模特征生成单元7，根据改进的CAIM准则计算离散值、计算属性F的IV值，并设定阈值e，将IV值大于e的属性作为后续建模需要的特征。

本装置利用改进的CAIM准则对连续属性离散化，充分利用了属性与类别之间的分布信息，解决了不平衡数据对离散化过程的影响；并利用IV值对属性与类别之间的相关性进行排序，挑选出了对后续建模有重要作用的特征变量；同时由于对连续属性离散化将区间转化为了离散值，减少了异常值对模型的影响，具有一定的稳健性。

实施例十

如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置，其与不同的是集合定义单元中，记数据集A的样本量为M，F＝{F₁,F₁,K F_k}是数据集A的连续属性集合，C＝{C₁,C₂,K C_s}是数据集的类别标签集合。对数据集A的连续属性F_i的各个取值v从小到大排序，记d₀为属性F_i的最小值，d_n为属性F_i的最大值。将F_i的样本划分为n个区间E＝{[d₀,d₁]...(d_r-1,d_r]...(d_n-1,d_n]}，用q_ir表示属性F_i的第r个区间中属于类别C_i的样本个数。如表1所示，M_i+表示数据集A中属于第i个类别的样本个数，M_+r表示第r个区间D_r＝(d_r-1,d_r]中所包含的样本个数。

实施例十一

如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置，本实施例与其不同之处在于，初始CAIM准则计算单元中计算类别标签集合C与数据集连续属性F_i之间的相关性的公式为公式(1)，其中M_+r由表1定义，max_r表示第i个区间中q_ir的最大值。

实施例十二

如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置，本实施例与其不同之处在于，互信息生成单元包括，图7是互信息生成单元3的框图：

联合概率计算子单元31：根据表1中的字符定义，计算同时属于第r个区间D_r＝(d_r-1,d_r]和第i个类别的联合概率，所用公式为公式(2)；

边际概率计算子单元32：计算样本属于类别C_i的边际概率，所用公式为公式(3)；

区间概率计算子单元33：计算样本落在区间D_r＝(d_r-1,d_r]中的概率，所用公式为公式(4)；

互信息生成子单元34：计算类别标签集合与数据集连续属性之间的互信息，所用公式为公式(5)。

实施例十三

如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置，本实施例与其不同之处在于，CAIR准则计算单元的框图如图8所示，其包括：

相对熵的相反数计算子单元41：根据相对熵的定义，计算类别分布与属性分布之间相对熵的相反数，所用公式为公式(6)；

类别与属性联合分布的熵计算子单元42：计算类别与属性联合分布的熵，所用公式为公式(7)：

计算CAIR准则计算子单元43：计算CAIR准则所用公式为公式(8)

实施例十四

如上所述的基于ur-CAIM算法的不平衡数据集特征选择装置，本实施例与其不同之处在于CAIU准则计算单元中计算CAIU准则的公式为公式(9)CAIU准则可以用来衡量类别与属性之间的相关性，CAIU准则是用相对熵的相反数定义的，因此越小越好。

实施例十五

如上所述的基于ur-CAIM算法的不平衡数据集特征选择方法，本实施例与其不同之处在于对初始CAIM准则改进单元的框图如图9所示，其包括：

初始CAIM准则改进子单元61：考虑全部样本数，对公式(1)进行改进：CAIM(class-attribute interdependency maximization)标准是一种启发式度量方法，它可以量化类别与属性之间的相关性。但由于该计算方式只考虑了区间中属于最大的类别的样本个数，而其他类别在区间中的个数即使不同也可能会有相同的CAIM值，因此具有局限性。将公式(1)进行改进，考虑全部样本数，改进后公式为公式(10)；

互信息改进子单元62:引进不平衡比例因子，对公式(5)进行改进；

由于CAIM准则没有考虑到离散化区间中样本在不同类中的分布情况，因此当数据集A为不平衡数据集时具有局限性。将类别标签集合C的分布作为不平衡比率因子引入(5)式，得到公式(11)；

准则合并子单元63：合并61、62和63单元的准则，计算改进的CAIM准则，得到公式(12)。

实施例十六

图10为基于ur-CAIM算法的不平衡数据集特征选择装置的建模特征生成单元7的框图，其包括：

离散值生成子单元71：根据改进的CAIM准则进行迭代最大化，输出离散化得到的区间D＝[d₀,d₁]...(d_r-1,d_r]...(d_n-1,d_n]，并将其转化为离散值x₁,x₂,...,x_n；

WOE生成子单元72：计算WOE(Weight of Evidence)；

对个人信用数据集而言，类别C＝{C₁＝0,C₂＝1}取值为0(未违约)或1(违约)，此时S＝2，第r个区间中对应的客户(样本)是否违约的个数为q_2r和q_1r。在将个人信用数据集连续属性F离散化后，对数据集A的任意离散属性F，计算WOE(Weight of Evidence)，所用公式为公式(13)；

IV值生成子单元73：计算属性F的IV值，所用公式为公式(14)；

建模特征输出子单元74：给定阈值e，将IV值大于e的属性作为后续建模需要的特征。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，包括：

步骤d：计算CAIR准则：

步骤e：计算CAIU准则；

步骤f：对CAIM准则进行改进；

2.根据权利要求1所述的基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下：

其中M_+r由表1定义，max_r表示第i个区间中q_ir的最大值。

3.根据权利要求2所述的基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括：

步骤c2：计算样本属于类别C_i的边际概率：

步骤c3：计算样本落在区间D_r＝(d_r-1,d_r]中的概率：

。

步骤d1：根据相对熵的定义，计算类别分布与属性分布之间相对熵的相反数。

4.根据权利要求3所述的基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，步骤d中包括如下步骤：

步骤d2：计算类别与属性联合分布的熵：

步骤d3：计算CAIR准则

。

5.根据权利要求4所述的基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，步骤e计算CAIU准则的公式为：

。

6.根据权利要求5所述的基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，步骤f对CAIM准则进行改进的步骤包括：

步骤f3：以上准则合并，计算改进的CAIM准则：

ur-CAIM＝CAIM_N·CAIR·(1-CAIU) (12) 。

7.根据权利要求6所述的基于ur-CAIM算法的不平衡数据集特征选择方法，其特征在于，步骤g包括：

步骤g2：用公式(13)计算WOE(Weight of Evidence)：

步骤g3：计算属性F的IV值：

8.一种与权利要求1-7中任一所述的基于ur-CAIM算法的不平衡数据集特征选择方法对应的装置，其特征在于，所述基于ur-CAIM算法的不平衡数据集特征选择装置包括：

CAIR准则计算单元：计算CAIR准则：

CAIU准则计算单元：计算CAIU准则；

CAIM准则改进单元：对CAIM准则进行改进；

9.根据权利要求8所述的基于ur-CAIM算法的不平衡数据集特征选择装置，其特征在于，所述CAIM准则改进单元包括：

10.根据权利要求9所述的基于ur-CAIM算法的不平衡数据集特征选择装置，其特征在于所述建模特征生成单元包括：

WOE生成子单元：计算WOE(Weight of Evidence)；

IV值生成子单元：计算属性F的IV值；