CN108829886A

CN108829886A - 一种分箱方法和装置

Info

Publication number: CN108829886A
Application number: CN201810682419.8A
Authority: CN
Inventors: 柯锦灿
Original assignee: Xiamen Micro Technology Co Ltd
Current assignee: Xiamen Micro Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-16

Abstract

本发明实施例公开了一种分箱方法和装置，所述分箱方法包括：将离散变量或连续变量的取值进行分组，计算分组的权重；根据分组的权重计算离散变量或连续变量的信息熵；以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。本发明实施例提高了分箱准确性。

Description

一种分箱方法和装置

技术领域

本发明实施例涉及但不限于数据处理领域，尤指一种分箱方法和装置。

背景技术

相关的分箱方法主要有：1、使用变量的等宽长度进行分箱；2、使用变量的分位数进行分箱；3、根据实际业务场景，由专家定义分箱；4、使用无监督方法，如聚类方法对连续变量进行分箱。前三种方法主要是将连续变量进行均匀处理，平均分布到每个区间，但对于分布不均匀的数据，很容易造成误分类；第四种方法使用聚类方法，考虑到了数据的分布情况，但对于极端数据，容易孤立为一类，这给实际变量分类带来一定的困扰，极易作为异常值处理掉。另一方面，该分类结果，对于训练数据和测试数据不是同一分布的情况，容易造成泛化性能太差，影响模型的泛化性能，因而在实际工作中，使用聚类方法可能效果反而不如前三种方法。

发明内容

本发明实施例提供了一种分箱方法和装置，能够提高分箱准确性。

本发明实施例提供了一种分箱方法，包括：

将离散变量或连续变量的取值进行分组，计算分组的权重；

根据分组的权重计算离散变量或连续变量的信息熵；

以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。

在本发明实施例中，所述将离散变量的取值进行分组之前，该方法还包括：将连续变量转换为离散变量。

在本发明实施例中，当判断出所述连续变量为显著变量时，将所述连续变量转换为离散变量。

在本发明实施例中，按照公式计算所述分组的权重；

其中，WOE_i为第i分组的权重，py_i为第i分组中响应客户占样本中所有响应客户的比例，pn_i为第i分组中未响应客户占样本中所有未响应客户的比例，#y_i为第i分组中响应客户的数量，#n_i为第i分组中未响应客户的数量，#y_T为样本中所有响应客户的数量，#n_T为样本中所有未响应客户的数量。

在本发明实施例中，所述根据分组的权重计算离散变量或连续变量的信息熵包括：

根据所述分组的权重计算所述分组的信息熵；

根据所述分组的信息熵计算所述离散变量或连续变量的信息熵。

在本发明实施例中，按照公式IV_i＝(py_i-pn_i)WOE_i计算第i分组的信息熵；

其中，IV_i为第i分组的信息熵，py_i为第i分组中响应客户占样本中所有响应客户的比例，pn_i为第i分组中未响应客户占样本中所有未响应客户的比例，WOE_i为第i分组的权重。

在本发明实施例中，按照公式计算所述离散变量或连续变量的信息熵；

其中，IV为所述离散变量或连续变量的信息熵，IV_i为第i分组的信息熵，n为分组的个数。

本发明实施例提出了一种分箱装置，包括：

分组模块，用于将离散变量或连续变量的取值进行分组；

计算模块，用于计算分组的权重；根据分组的权重计算离散变量或连续变量的信息熵；

求解模块，用于以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。

本发明实施例提出了一种分箱装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任一种分箱方法。

本发明实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种分箱方法的步骤。

本发明实施例包括：将离散变量或连续变量的取值进行分组，计算分组的权重；根据分组的权重计算离散变量或连续变量的信息熵；以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。本发明实施例提高了分箱准确性。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解，并且构成说明书的一部分，与本发明实施例的实施例一起用于解释本发明实施例的技术方案，并不构成对本发明实施例技术方案的限制。

图1为本发明实施例分箱方法的流程图；

图2为本发明实施例分箱装置的结构组成示意图。

具体实施方式

下文中将结合附图对本发明实施例进行详细说明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

参见图1，本发明实施例提出了一种分箱方法，包括：

步骤100、将离散变量或连续变量的取值进行分组，计算分组的权重。

在本发明实施例中，对于连续变量，可以先将连续变量转换为离散变量，再将离散变量的取值进行分组；或者，直接将连续变量的取值进行分组；对于离散变量，直接将离散变量的取值进行分组。

其中，对于连续变量，可以在判断出连续变量为显著变量时，将连续变量转换为离散变量，再将离散变量的取值进行分组；在判断出连续变量为不显著变量时，直接将连续变量的取值进行分组。

其中，可以根据变量的信息熵来判断连续变量是否为显著变量，当连续变量的信息熵大于或等于预设阈值(如0.1)时，判断出连续变量为显著变量；当连续变量的信息熵小于预设阈值时，判断出连续变量为不显著变量。

其中，变量的信息熵的计算过程如下：将连续变量转换为离散变量；将离散变量的取值进行分组，计算分组的权重；根据分组的权重计算离散变量的信息熵。该计算变量的信息熵的过程中，如果后续在求解分箱问题过程中需要将连续变量转换为离散变量，则转换方式和分组方式应该与步骤100保持一致；如果后续求解分箱问题过程中不需要将连续变量转换为离散变量，则分组方式应该与步骤100保持一致。

本发明实施例中，可以根据业务需求将连续变量转换为离散变量，也就是说，离散变量的一个取值为连续变量的一个取值区间。

例如，按照业务需求将连续变量的连续取值划分成最小变化的取值区间作为离散变量的一个取值。

如在企业征信领域，企业工商注册时间这一维度的数值一般可精确到天，即注册了多少天，但在实际应用中，可根据实际业务需求，将它转化到“年”这一维度。这样，注册时间这一维度就从“天数”转换到“年”这一维度。即将连续变量转换为离散变量。再比如注册资本，可先以10万为间隔区间，转换成离散变量。

本发明实施例中，分组也叫离散化、分箱等等。

本发明实施例中，权重(WOE，Weight of Evidence)是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理，再计算分组的权重。

本发明实施例中，按照公式(1)计算第i分组的权重。

其中，WOE_i为第i分组的权重，py_i为第i分组中响应客户(风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者1的个体)占样本(即连续变量或离散变量的所有取值)中所有响应客户的比例，pn_i为第i分组中未响应客户占样本中所有未响应客户的比例，#y_i为第i分组中响应客户的数量，#n_i为第i分组中未响应客户的数量，#y_T为样本中所有响应客户的数量，#n_T为样本中所有未响应客户的数量。

对这个公式做一个简单变换，可以得到公式(2)

也就是说，权重为当前分组中响应客户和非响应客户的比值，与所有样本中响应客户和非响应客户的比值的比值，再取对数来表示，权重越大，表示当前分组中样本响应的可能性就越大，权重越小，表示当前分组中样本响应的可能性就越小。

步骤101、根据分组的权重计算离散变量或连续变量的信息熵。

本发明实施例中，根据分组的权重计算离散变量或连续变量的信息熵包括：

根据分组的权重计算分组的信息熵，根据分组的信息熵计算离散变量或连续变量的信息熵。

其中，按照公式(3)计算第i分组的信息熵。

其中，IV_i为第i分组的信息熵。

其中，按照公式(4)计算离散变量或连续变量的信息熵。

其中，IV为离散变量或连续变量的信息熵，n为分组的个数。

步骤102、以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。

本发明实施例中，可以利用组合优化0-1背包问题解决最优分箱问题。

可以采用数学优化软件(如Lingo，Cplex，Matlab等)进行求解分箱问题。

与实际业务结合，排除离散变量的每一个取值单独一箱和所有取值为一箱，以及只分两箱的情况。下面以一个实际例子为例做一说明，表1所示。

表1

如表1所示，第一列为关联项目，第二列为样本数量，第三列为好客户数量(即响应客户)，第四列为坏客户数量(即非响应客户)，第五列为样本占比(即第二列的样本数量和所有样本数量的比值)，第六列为好客户占比(即第三列的好客户数量和所有好客户的比值)，第七列为坏客户占比(即第四列的坏客户数量和所有坏客户的比值)，第八列为证据权重(即上述分组权重)，第九列为信息熵，每一行表示一个分组。

其中，信息熵IV＝0.152278，按照一般的信息熵IV的值判断。

·低于0.02—统计不显著的变量；

·0.02–0.1—统计微弱的变量；

·0.1–0.3—统计显著的变量；

·0.3及以上—统计强壮的变量。

可知，该变量为统计显著变量。因此，将可将该连续变量离散化，再使用动态规划方法对其进行最优分箱。

假设，变量x＝{x1,x2,...,x21}，其中，x_i＝{0,1}，1表示该位置为分箱点，0表示该位置不是分箱点，变量y＝(1,y1,y2,y3,...,yk)，其中，y_i的取值表示分箱的位置，如y＝(1,2,5,10)表示将数据分成1,2,3-5,6-10,10-21这几类；可建立如下模型：

其中，Cm为y的取值个数，即为具体的取值，g_k为第k个分组的好客户占比，b_k为第k个分组的坏客户占比，y_m为第m个分箱的位置。

使用线性规划方法，进行求解，可得到最优结果如表2所示。

表2

本发明实施例的方法具有以下有益效果：

(1)通用性，对各类机器学习项目，如企业征信、个人征信、云安全、智慧交通、工业产量预算、汽车产量预算等各类应用背景，都会涉及到连续变量的分箱问题，本发明实施例提供的分箱方法具有通用性。

(2)在通常的机器学习数据预处理阶段，经常需要将各种连续变量离散化，做最优分类，提取主要的特征，增加分类、回归算法的准确度和性能；本发明实施例将连续变量按信息熵最大化对连续变量进行分类，可以有效地提取变量特征，显著提高机器学习算法性能，提高准确率。

(3)能够有效地对连续变量进行分箱处理，特别是对于数据分布不均匀的情况，而且具有更强的解释性。

参见图2，本发明另一个实施例提出了一种分箱装置，包括：

分组模块，用于将离散变量或连续变量的取值进行分组；

在本发明另一个实施例中，还包括：

转换模块，用于将连续变量转换为离散变量。

在本发明实施例中，转换模块具体用于：当判断出连续变量为显著变量时，将连续变量转换为离散变量。

在本发明实施例中，计算模块还用于：

按照公式计算所述分组的权重；

在本发明实施例中，计算模块具体用于采用以下方式实现根据分组的权重计算离散变量或连续变量的信息熵：

根据所述分组的权重计算所述分组的信息熵；

在本发明实施例中，计算模块还用于：

按照公式IV_i＝(py_i-pn_i)WOE_i计算第i分组的信息熵；

在本发明实施例中，计算模块还用于：

按照公式计算所述离散变量或连续变量的信息熵；

其中，IV为所述离散变量的信息熵，IV_i为第i分组的信息熵，n为分组的个数。

本发明另一个实施例提出了一种分箱装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任一种分箱方法。

本发明另一个实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种分箱方法的步骤。

其中，计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种分箱方法，包括：

将离散变量或连续变量的取值进行分组，计算分组的权重；

根据分组的权重计算离散变量或连续变量的信息熵；

2.根据权利要求1所述的分箱方法，其特征在于，所述将离散变量的取值进行分组之前，该方法还包括：将连续变量转换为离散变量。

3.根据权利要求2所述的分箱方法，其特征在于，当判断出所述连续变量为显著变量时，将所述连续变量转换为离散变量。

4.根据权利要求1～3任一项所述的分箱方法，其特征在于，按照公式计算所述分组的权重；

5.根据权利要求1～3任一项所述的分箱方法，其特征在于，所述根据分组的权重计算离散变量或连续变量的信息熵包括：

根据所述分组的权重计算所述分组的信息熵；

6.根据权利要求5所述的分箱方法，其特征在于，按照公式IV_i＝(py_i-pn_i)WOE_i计算第i分组的信息熵；

7.根据权利要求5所述的分箱方法，其特征在于，按照公式计算所述离散变量或连续变量的信息熵；

8.一种分箱装置，包括：

分组模块，用于将离散变量或连续变量的取值进行分组；

9.一种分箱装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1～7任一项所述的分箱方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7任一项所述的分箱方法的步骤。