CN106096224A

CN106096224A - 对无序分类变量信息无损分组的方法及装置

Info

Publication number: CN106096224A
Application number: CN201610309708.4A
Authority: CN
Inventors: 梁猛; 王界兵; 张伟; 李�杰; 韦辉华; 郭宇翔
Original assignee: Shenzhen Frontsurf Information Technology Co Ltd
Current assignee: Shenzhen Frontsurf Information Technology Co Ltd
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2016-11-09

Abstract

本发明公开了一种对无序分类变量信息无损分组的方法及装置，包括步骤：在二值型目标变量的监督下，对无序分类变量中每个类别的值分别计算证据权重值；将所述证据权重值进行等深分组，划分为M个区间，并将所述M个区间作为无序分类变量的分组。本发明中公开的对无序分类变量信息无损分组的方法及装置，分组过程简单易理解，运算速度快，能够很好的保留无序分类变量对目标变量的区分能力。

Description

对无序分类变量信息无损分组的方法及装置

技术领域

本发明涉及无序分类变量的分组领域，特别涉及一种对无序分类变量信息无损分组的方法及装置。

背景技术

随着互联网、云计算、物联网等技术的发展，带来了各行业中数据量的爆发式增长，在这些数据中，无序型的分类变量占有很大一部分，针对这些无序分类变量，需要有快速有效的方法进行数据的预处理，从而快速的发现数据中的价值。

目前对于数据预处理中的变量分组问题，绝大多数人研究的都是对连续型变量的分组或者说分箱。对于无序型的分类变量怎么实现有效信息无损的分组，基本会采取两种处理方式：一种是通过经验去进行分组，这种方式效率极其低下，而且不能保证有效果；另一种是不进行分组直接拿来使用，这种方式，对于无序分类变量的值分布很广泛时，在后续的建模等应用时效果往往会很差。

发明内容

本发明的主要目的为提供一种对无序分类变量信息无损分组的方法及装置，分组过程简单易理解，运算速度快，能够很好的保留无序分类变量对目标变量的区分能力。

本发明提出一种对无序分类变量信息无损分组的方法，包括步骤：

在二值型目标变量的监督下，对无序分类变量中每个类别的值分别计算证据权重值；

将所述证据权重值进行等深分组，划分为M个区间，并将所述M个区间作为无序分类变量的分组。

进一步地，所述计算证据权重值的计算公式为：

其中，N⁰为全体无序分类变量样本中目标变量为0的样本数量，N¹为全体无序分类变量样本中目标变量为1的样本数量，为某类别数目下目标变量为0的样本数量，为某类别数目下目标变量为1的样本数量，WOE_attribute为证据权重计算结果值。

进一步地，所述将M个区间作为无序分类变量的分组的步骤之后还可以包括：

计算分组后的无序分类变量对目标变量的信息值。

进一步地，所述计算分组后的无序分类变量对目标变量的信息值的计算公式为：

其中，N⁰为全体无序分类变量样本中目标变量为0的样本数量，N¹为全体无序分类变量样本中目标变量为1的样本数量，为某类别数目下目标变量为0的样本数量，为某类别数目下目标变量为1的样本数量，WOE_attribute为分组后每组无序分类变量对应的证据权重计算结果值，IV为信息值。

本发明还提供了一种对无序分类变量信息无损分组的装置，包括：

证据权重计算单元，在二值型目标变量的监督下，对无序分类变量中每个类别的值分别计算证据权重值；所述无序分类变量具有任意多个类别；

等深分组单元，将所述证据权重值进行等深分组，划分为M个区间，并将所述M个区间作为无序分类变量的分组。

进一步地，所述证据权重计算单元的计算公式为：

进一步地，还包括：

信息值计算单元，计算分组后的无序分类变量对目标变量的信息值。

进一步地，所述信息值计算单元的计算公式为：

本发明中提出的对无序分类变量信息无损分组的方法及装置，具有以下有益效果：

本发明中提出的对无序分类变量信息无损分组的方法及装置，通过将无序分类变量转换为一一对应的有大小区分的WOE值，再对WOE值进行区间的等深划分，并将划分结果作为该无序分类变量的最终分组结果。本发明中的方法及装置可以适用于各行业中对无序分类变量的分组，分组过程简单易理解，运算速度快，而且能够很好的保留无序分类变量对目标变量的区分能力，实现信息无损分组。通过计算分组后的每组无序分类变量对目标变量的信息值，对本发明中分组结果进行效果验证。

附图说明

图1是本发明一实施例中对无序分类变量信息无损分组的方法示意图；

图2是本发明另一实施例中对无序分类变量信息无损分组的方法示意图；

图3是本发明一实施例中对无序分类变量信息无损分组的装置结构示意图；

图4是本发明另一实施例中对无序分类变量信息无损分组的装置结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，为本发明一实施例中对无序分类变量信息无损分组的方法步骤示意图。

本发明一实施例中提出一种对无序分类变量信息无损分组的方法，包括：

步骤S1，在二值型目标变量的监督下，对无序分类变量中每个类别的值分别计算证据权重值；

步骤S2，将上述证据权重值进行等深分组，划分为M个区间，并将上述M个区间作为无序分类变量的分组。

目前，对于无序型分类变量实现有效信息无损的分组，基本会采取两种处理方式：一种是通过经验去进行分组，这种方式效率极其低下，而且不能保证有效果；另一种是不进行分组直接拿来使用，这种方式，对于无序分类变量的值分布很广泛时，在后续的建模等应用时效果往往会很差。在本实施例中，通过将无序分类变量转换为一一对应的有大小区分的WOE值，再对WOE值进行区间的等深划分，并将划分结果作为该无序分类变量的最终分组结果。本实施例中的方法可以适用于各行业中对无序分类变量的分组，分组过程简单易理解，运算速度快，而且能够很好的保留无序分类变量对目标变量的区分能力，实现信息无损分组。

进一步地，上述步骤S1中，计算证据权重值的计算公式为：

进一步地，参照图2，上述将M个区间作为无序分类变量的分组的步骤之后还可以包括：

步骤S3，计算分组后的无序分类变量对目标变量的信息值。

为了验证上一实施例中对无序分类变量信息无损分组的方法的效果，在本实施例中通过计算分组后的无序分类变量对目标变量的信息值，对分组进行效果验证。本实施例中的效果验证，可采用实验的方式进行对比验证。对照组采用不对无序分类变量进行分组或按照业务经验等方式进行分组，按照业务经验进行分组往往会需要大量的时间进行人工分组；实验组采用上一实施例中的方案进行分组。对比实验组和对照组对目标变量的信息值贡献，即可进行效果验证。信息值是衡量一个变量对目标变量区分能力的大小，在正常情况下无序分类变量分组后对目标变量的信息值越大，效果越好。

进一步地，上述计算分组后的无序分类变量对目标变量的信息值的计算公式为：

在一具体实施例中，通过对某一真实的数据集来进行验证，数据条数为9650452条，目标变量为二值型，设为Y，取值为0、1，其对应的数量分别为9468561和181891，无序分类变量(X)的类别对应为211个国家和地区，设为K。其中，K∈{x|x≥100，x为整数}。

采用上述分组方法对无序分类变量的处理流程如下：

1.对无序分类变量X的211个国家和地区(即K＝211)，在目标变量Y的监督下计算其每一个值对应的WOE值：

2.对无序分类变量X的211个国家和地区对应的WOE值进行M个区间的等深分组，其中，M∈{x|5≤x≤20，x为整数}。

本实施例中进行了分组数为5组和10组的实验，即M＝5和M＝10。

3.将无序分类变量X的211个国家和地区对应的WOE值分组后的结果作为无序分类变量X的最终分组结果。

4.对无序分类变量X分组后的结果重新计算每组的WOE值。

分为5组时：

分为10组时：

5.计算分组后的无序分类变量对目标变量的信息值(IV值)。

划分为5组时的信息值：

划分为10组时的信息值：

6.为了对比分组效果，本实例分别计算了无序分类变量在完全不分组、按洲分组及按地域进行分组的情况下对目标变量的信息值(IV值)。

本实施例实例中计算的结果参照表一以及表二，其中表一为对照组数据结果，其采用不对无序分类变量进行分组或按照业务经验等方式进行分组：表二为实验组数据结果，采用本发明实施例中分组方法。

表一

表二

通过对比表一和表二，可以发现本发明实施例中提供的方法能够在实现对无序分类变量进行快速分组的同时，保证了该无序分类变量对目标变量的区分能力不会下降，即表二中在划分为10组和5组的情况下的IV值比表一中不分组和按业务经验分组后的IV值要大，而IV值越大，分组效果越好。

参照图3，为本发明一实施例中对无序分类变量信息无损分组的装置结构示意图。

本发明一实施例中还提供了一种对无序分类变量信息无损分组的装置，包括：

证据权重计算单元10，在二值型目标变量的监督下，对无序分类变量中每个类别的值分别计算证据权重值；上述无序分类变量具有任意多个类别；

等深分组单元20，将上述证据权重值进行等深分组，划分为M个区间，并将上述M个区间作为无序分类变量的分组。

目前，对于无序型分类变量实现有效信息无损的分组，基本会采取两种处理方式：一种是通过经验去进行分组，这种方式效率极其低下，而且不能保证有效果；另一种是不进行分组直接拿来使用，这种方式，对于无序分类变量的值分布很广泛时，在后续的建模等应用时效果往往会很差。在本实施例中，通过证据权重计算单元10将无序分类变量转换为一一对应的有大小区分的WOE值，再通过等深分组单元20对WOE值进行区间的等深划分，并将划分结果作为该无序分类变量的最终分组结果。本实施例中的装置可以适用于各行业中对无序分类变量的分组，分组过程简单易理解，运算速度快，而且能够很好的保留无序分类变量对目标变量的区分能力，实现信息无损分组。

进一步地，上述证据权重计算单元10的计算公式为：

进一步地，参照图4，上述对无序分类变量信息无损分组的装置还包括：

信息值计算单元30，计算分组后的无序分类变量对目标变量的信息值。

为了验证上一实施例中对无序分类变量信息无损分组的方法的效果，在本实施例中通过计算分组后的无序分类变量对目标变量的信息值，对分组进行效果验证。本实施例中的效果验证，可采用实验的方式进行对比验证。对照组采用不对无序分类变量进行分组或按照业务经验等方式进行分组，按照业务经验进行分组往往会需要大量的时间进行人工分组；实验组采用上一实施例中的方案进行分组。对比实验组和对照组对目标变量的信息值贡献，即可进行效果验证。信息值是衡量一个变量对目标变量区分能力的大小，在通常情况下，无序分类变量分组后对目标变量的信息值越大，效果越好。在具体实施例中进行效果验证的方法步骤可参考上述的一个具体实施例。

进一步地，上述信息值计算单元的计算公式为：

综上所述，为本发明实施例中提出的对无序分类变量信息无损分组的方法及装置，通过将无序分类变量转换为一一对应的有大小区分的WOE值，再对WOE值进行多个区间的等深划分，并将划分结果作为该无序分类变量的最终分组结果。本发明实施例中的方法及装置可以适用于各行业中对无序分类变量的分组，分组过程简单易理解，运算速度快，而且能够很好的保留无序分类变量对目标变量的区分能力，实现信息无损分组。通过计算分组后的每组无序分类变量对目标变量的信息值，对本发明实施例中的分组结果进行效果验证。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种对无序分类变量信息无损分组的方法，其特征在于，包括步骤：

2.根据权利要求1所述的对无序分类变量信息无损分组的方法，其特征在于，所述计算证据权重值的计算公式为：

{WOE}_{a t t r i b u t e} = \ln \frac{n_{a t t r i b u t e}^{0}}{n_{a t t r i b u t e}^{1}} - \ln \frac{N^{0}}{N^{1}};

3.根据权利要求1所述的对无序分类变量信息无损分组的方法，其特征在于，所述将M个区间作为无序分类变量的分组的步骤之后还可以包括：

计算分组后的无序分类变量对目标变量的信息值。

4.根据权利要求3所述的对无序分类变量信息无损分组的方法，其特征在于，所述计算分组后的无序分类变量对目标变量的信息值的计算公式为：

I V = \underset{a t t r i b u t e s}{Σ} (\frac{n_{a t t r i b u t e}^{0}}{N^{0}} - \frac{n_{a t t r i b u t e}^{1}}{N^{1}}) * {WOE}_{a t t r i b u t e};

5.一种对无序分类变量信息无损分组的装置，其特征在于，包括：

6.根据权利要求5所述的对无序分类变量信息无损分组的装置，其特征在于，所述证据权重计算单元的计算公式为：

{WOE}_{a t t r i b u t e} = l n \frac{n_{a t t r i b u t e}^{0}}{n_{a t t r i b u t e}^{1}} - \ln \frac{N^{0}}{N^{1}};

7.根据权利要求5所述的对无序分类变量信息无损分组的装置，其特征在于，还包括：

8.根据权利要求7所述的对无序分类变量信息无损分组的装置，其特征在于，所述信息值计算单元的计算公式为：

I V = \underset{a t t r i b u t e s}{Σ} (\frac{n_{a t t r i b u t e}^{0}}{N^{0}} - \frac{n_{a t t r i b u t e}^{1}}{N^{1}}) * {WOE}_{a t t r i b u t e};