CN108399255A

CN108399255A - 一种分类数据挖掘模型的输入数据处理方法及装置

Info

Publication number: CN108399255A
Application number: CN201810181856.1A
Authority: CN
Inventors: 陈丹; 蒋诗伟; 许佳; 顾玉莲
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2018-08-14

Abstract

本发明公开了一种分类数据挖掘模型的输入数据的处理方法及装置，包括：接收用户上传的数据，对数据进行预处理；将所述数据中的字符型数据转换为数值型数据；对每个连续变量的数据进行分箱处理；计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量；将所述数据进行标准化处理。之后，可以应用处理后的数据进行数据建模以及后续的分类评分等操作。这样，接收到用户上传的数据后，可以自动的对分类挖掘模型的输入数据进行处理，无需数据分析人员再参与，这样不仅实现了数据挖掘过程中数据处理阶段的自动化，并且操作简单，无需操作人员具有专业的数据分析经验。

Description

一种分类数据挖掘模型的输入数据处理方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种分类数据挖掘模型的输入数据的处理方法及装置。

背景技术

近年来，随着大数据技术的发展，数据挖掘技术也日趋成熟，数据挖掘技术一般是指从大量的数据中通过算法搜索出隐藏信息的方法。数据挖掘技术广泛应用在很多行业，例如：金融业、通信业、交通业、大型零售以及保险业等行业。一般数据挖掘包括：数据获取、数据处理、模型计算、模型上线等过程，但是，传统数据挖掘过程中，数据的转换、处理、检验、筛选等步骤大多由人工处理实现，效率较低，且需要专业数据分析人员参与其中。

现有技术中，虽然包含一些数据挖掘的工具，例如：Python、SAS等，但是这些软件需要非常专业的知识，普及力度低。

发明内容

有鉴于此，本发明实施例提供了一种分类数据挖掘模型的输入数据的处理方法及装置，不仅实现了数据挖掘过程中数据处理阶段的自动化，并且操作简单，无需操作人员具有专业的数据分析经验。

本发明实施例提供了一种分类数据挖掘模型的输入数据的处理方法，其特征在于，包括：

接收用户上传的数据，对所述数据进行预处理；

将所述数据中的字符型数据转换为数值型数据；

对每个连续变量的数据进行分箱处理；

计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量；

将所述数据进行标准化处理。

可选的，所述对所述数据进行预处理，包括：

剔除所述数据中的异常数据；

对所述数据中的缺失数据进行填充。

可选的，所述依据所述数据中预设的多个变量，分别对所述数据进行分箱处理，包括：

对每个变量的数据进行升序排序；

计算每个变量的数据在不同分割点的信息熵增益；

选取信息熵增益最大的分割点作为分箱的分割点；

判断是否达到了所述变量预设的分箱数；

若未达到预设的分箱数，计算分箱后的数据在不同分割点的信息熵增益，并返回执行选取信息熵增益最大的分割点作为分箱的分割点；

若达到所述变量预设的分箱数，结束分箱。

可选的，所述依据分箱后每个变量对应的数据，从所述数据中筛选出与预设的目标值关联性最大的数据，包括：

计算分箱后，每个变量的信息量IV值；

根据所述IV值的大小，筛选出所述IV值最高的前N个变量；N≥1。

可选的，所述计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量包括：

对每个变量进行卡方检验，剔除不满足卡方检验的变量；

计算每个变量与目标变量的相关系数；

根据所述相关系数的大小，筛选出所述相关系数最高的前N个变量；N≥1；

获取相关系数最高的前N个变量。

可选的，还包括：

获取预设的模型中预设参数的多个数值；

基于所述预设参数的每个数值，将预设的样本代入到所述预设的模型中，计算每个数值对应的所述预设模型的预测结果；

确定最优的预测结果，并将所述最优预测结果对应的所述参数的数值作为预设参数的最优值。

本发明实施例还公开了一种分类数据挖掘模型的输入数据的处理装置，包括：

数据预处理单元，用于接收用户上传的数据，对所述数据进行预处理；

第一转换单元，用于将所述数据中的字符型数据转换为数值型数据；

分箱单元，用于对每个连续变量的数据进行分箱处理；

筛选单元，用于计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量；

第二转换单元，用于将所述数据进行标准化处理。

可选的，所述分箱单元，包括：

排序子单元，用于对每个变量的数据进行升序排序；

第一计算子单元，用于计算每个变量的数据在不同分割点的信息熵增益；

选取子单元，用于选取信息熵增益最大的分割点作为分箱的分割点；

判断子单元，用于判断是否达到了所述变量预设的分箱数；

第二计算子单元，用于若未达到预设的分箱数，计算分箱后的数据在不同分割点的信息熵增益，并返回执行选取信息熵增益最大的分割点作为分箱的分割点；

结束子单元，用于若达到所述变量预设的分箱数，结束分箱。

可选的，所述筛选单元，包括：

IV值计算子单元，用于计算分箱后，每个变量的信息量IV值；

获取子单元，用于根据所述IV值的大小，筛选出所述IV值最高的前N个变量；N≥1。

可选的，还包括：

数值获取单元，用于获取预设的模型中预设参数的多个数值；

计算单元，用于基于所述预设参数的每个数值，将预设的样本代入到所述预设的模型中，计算每个数值对应的所述预设模型的预测结果；

确定单元，用于确定最优的预测结果，并将所述最优预测结果对应的所述参数的数值作为预设参数的最优值。

本发明实施例公开了一种分类数据挖掘模型的输入数据的处理方法及装置，包括：接收用户上传的数据，对数据进行预处理；；将所述数据中的字符型数据转换为数值型数据；对每个连续变量的数据进行分箱处理；计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量；将所述数据进行标准化处理。之后，可以应用处理后的数据进行数据建模以及后续的分类评分等操作。这样，接收到用户上传的数据后，可以自动的对分类挖掘模型的输入数据进行处理，无需数据分析人员再参与，这样不仅实现了数据挖掘过程中数据处理阶段的自动化，并且操作简单，无需操作人员具有专业的数据分析经验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种分类数据挖掘模型的输入数据的处理方法的流程示意图；

图2示出了本发明实施例公开的一种分类数据挖掘模型的输入数据的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种分类数据挖掘模型的输入数据的处理方法的流程示意图，在本实施例中，该方法包括：

S101：接收用户上传的数据，对所述数据进行预处理；

本实施例中，对数据进行预处理可以包括多个方面，具体的可以包括：剔除所述数据中的异常数据，对所述数据中的缺失数据进行填充。

其中，剔除异常数据可以遵循特定的规则，具体的规则，可以是设置好的，也可以根据实际需求进行设定。

其中，特定的规则可以包括：剔除所述数据中缺失值超过一定比例的，假设数据的信息包括：年龄、性别、存款情况等，计算每个数据缺失的项目的数量与总的项目的数量的比值，得到缺失值，若该缺失值超过了预设的比例，则剔除该数据。或者特定的规则还可以包括数据信息是否合法，例如：在金融领域，用户的身份证信息是否为正确格式的身份证信息。

S102：将所述数据中的字符型数据转换为数值型数据；

举例说明：若数据信息中包含：性别，可以将男、女转换为数值型数据，例如转换为0、1型数据。

S103：对每个连续变量的数据进行分箱处理；

本实施例中，对数据中的连续变量进行分箱，可以理解为将连续数据离散化。

本实施例中，可以依据变量数据的信息熵对变量进行处理，具体的，S103包括：

对每个变量的数据进行升序排序；

计算每个变量的数据在不同分割点的信息熵增益；

选取信息熵增益最大的分割点作为分箱的分割点；

判断是否达到了所述变量预设的分箱数；

若达到所述变量预设的分箱数，结束分箱。

本实施例中，针对连续变量，先对该变量升序排序，计算数据在不同分割点的信息熵增益，选取信息熵增益最大的分割点作为分箱的分割点，对分割后数据迭代进行以上步骤，直到达到设定的分箱数停止。

本实施例中，信息熵增益表示某种特定信息的出现概率，其中，信息熵增益的计算可以通过如下的公式1)：

其中，p(x)表示某个信息的概率。

举例说明：“存款余额”变量，计算存款余额的信息熵值，存款余额从小到大排序，若在10000元处分割时信息熵增益最大，则10000作为最佳分割点，再计算存款余额为0至10000和大于10000的信息熵，分别找出最佳分割点，如此迭代下去，直到满足分箱个数停止计算。S104：计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量；

本实施例中，用户上传的数据可以包含大量的变量，在用相关的模型构建分类模型时，有一些变量对结果的影响很小，这样的变量无需作为样本对模型进行训练，因此，在构建分类模型之前，需要从数据中筛选出与目标结果关联性最大的数据。

本实施例中，目标变量可以理解为预设模型的执行结果的变量，(模型为通过训练数据训练后得到的模型)，其中，该执行结果可以为潜在客户的预测的结果，不同的变量的分类结果，可以得到不同的分类结果，其中，对于从数据中筛选与预设的目标结果关联性最大的数据的方式包括多种，例如可以通过如下的两种实施方式进行，具体的，包括：

计算分箱后，每个变量的信息量IV值；

本实施例中，N可以是大于等于1的任意数值，N的具体数值可以根据实际情况进行设置。

本实施例中，IV值(英文全称：Information Value，英文全称：信息量)，用来衡量自变量的预测能力，具体的，IV值的计算可以通过如下的方式：计算每个变量的WOE(英文全称：Weight of Evidence，中文全称：证据权重)，具体的，包括：

获取响应客户的数量和未响应客户的数量；

计算响应客户和未响应客户的数量的比例；

计算所述比例的对数；所述对数为以e为底的对数。

其中WOE的计算可以通过如下的公式2)：

其中，py_i是这个组中响应客户(风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例，pn_i是这个组中未响应客户占样本中所有未响应客户的比例，#yi是这个组中响应客户的数量，#n_i是这个组中未响应客户的数量，#yT是样本中所有响应客户的数量，#n_T是样本中所有未响应客户的数量。

从这个公式2)中可以得知，WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

依据所述响应客户的数量、非响应客户的数量以及WOE值，计算每个变量的IV值。

具体的，包括：

计算所述响应客户的数量和非响应客户的数量的差值；

计算所述差值和所述WOE的值。

实施方式二：

对每个变量进行卡方检验，剔除不满足卡方检验的变量；

计算每个变量与目标变量的相关系数；

根据所述相关系数的大小，筛选出所述相关系数最高的前N个变量；N≥1。

本实施例中，研究变量之间线性相关程度的量，一般用字母r表示。由于研究对象的不同，相关系数有多种定义方式，较为常用的是皮尔逊相关系数。

举例说明：相关系数的计算可以通过如下的公式3):

其中，X和Y为不同的两个变量，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差。

本实施例中，计算每个变量与目标变量之间的相关系数，对变量进行排序，获取变量中相关系数排名前N个参与模型的演算。其中N可以是大于等于1的任意数值，N的具体数值可以根据实际情况进行设置。

本实施例中，需要说明的是，通过实施方式二的计算，不仅可以筛选出与目标变量相关性较高的数据，也可以还对数据进行了降维处理。

还需要说明的是，实施方式一和实施方式二可以单独使用也可以同时使用，若同时使用，可以结合IV值的排序和相关系数的排序，筛选出IV值和相关系数均靠前的N个变量。

S105：将所述数据中的数值进行标准化处理。

其中，部分算法对于输入数据有一定的要求，需要数据范围在【0,1】之间，标准化可以是将一些不是[0,1]之间的数值，转换为[0,1]之间的数值。

本实施例中，当采用预设的算法构建模型时，预设的算法可以包含某些参数，这些参数的取值对目标结果的获取也会起到影响作用，因为，可以在模型构建之前，先确定出构建模型时用到的参数的取值，具体的，包括：

获取预设的模型中预设参数的多个数值；

本实施例中，样本中包括样本集和验证集，在特定参数的情况下，通过样本集对算法进行训练，并通过验证集对训练后的算法进行验证，得到验证结果，并根据每个参数对应的验证结果，确定出最满足目标结果的参数的数值，即最优的目标值。

本实施例中，执行了S101-S105后，对分类数据挖掘模型的输入数据进行了处理，对处理后的数据，可以用于数据建模以及分类评分等，

本实施例中，目前于分类数据挖掘模型包含很多，在执行数据挖掘之前，还可以对数据挖掘的模型进行选取，可以通过对模型结果进行评价选取最优的模型。

本实施例中，可以对不同算法得到的模型的预测结果进行比较，并且还可以通过ROC(英文全称：receiver operating characteristic curve，中文全称：受试者工作特征曲线)，AUC(英文全称：area under curve.中文全称：ROC曲线下面积)，k-s值以及召回率，准确率等综合判断模型的好坏，并自动提供给用户最优的模型算法和最终结果，共用户进一步使用。

本实施例中，接收到用户上传的数据后，可以自动的对分类挖掘模型的输入数据进行处理，无需数据分析人员再参与，这样不仅实现了数据挖掘过程中数据处理阶段的自动化，并且操作简单，无需操作人员具有专业的数据分析经验。

参考图2，示出了本发明实施例公开的一种分类数据挖掘模型的输入数据的处理装置的结构示意图，在本实施例中，该装置包括：

数据预处理单元201，用于接收用户上传的数据，对所述数据进行预处理；

第一转换单元202，用于将所述数据中的字符型数据转换为数值型数据；

分箱单元203，用于对每个连续变量的数据进行分箱处理；

筛选单元204，用于计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量；

第二转换单元205，用于将所述数据进行标准化处理。

可选的，所述预处理单元包括：

剔除子单元，用于剔除所述数据中的异常数据；

填充子单元，用于对所述数据中的缺失数据进行填充。

可选的，所述分箱单元，包括：

排序子单元，用于对每个变量的数据进行升序排序；

判断子单元，用于判断是否达到了所述变量预设的分箱数；

可选的，所述筛选单元，包括：

IV值计算子单元，用于计算分箱后，每个变量的信息量IV值；

可选的，所述筛选单元，包括：

卡方验证子单元，用于对每个变量进行卡方检验，剔除不满足卡方检验的变量；

相关系数计算子单元，用于计算每个变量与目标变量的相关系数；

可选的，还包括：

通过本实施例的装置，接收到用户上传的数据后，可以自动的对分类挖掘模型的输入数据进行处理，无需数据分析人员再参与，这样不仅实现了数据挖掘过程中数据处理阶段的自动化，并且操作简单，无需操作人员具有专业的数据分析经验。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种分类数据挖掘模型的输入数据的处理方法，其特征在于，包括：

接收用户上传的数据，对所述数据进行预处理；

将所述数据中的字符型数据转换为数值型数据；

对每个连续变量的数据进行分箱处理；

将所述数据进行标准化处理。

2.根据权利要求1所述的方法，其特征在于，所述对所述数据进行预处理，包括：

剔除所述数据中的异常数据；

对所述数据中的缺失数据进行填充。

3.根据权利1所述的方法，其特征在于，所述依据所述数据中预设的多个变量，分别对所述数据进行分箱处理，包括：

对每个变量的数据进行升序排序；

计算每个变量的数据在不同分割点的信息熵增益；

选取信息熵增益最大的分割点作为分箱的分割点；

判断是否达到了所述变量预设的分箱数；

若达到所述变量预设的分箱数，结束分箱。

4.根据权利要求1所述的方法，其特征在于，所述依据分箱后每个变量对应的数据，从所述数据中筛选出与预设的目标值关联性最大的数据，包括：

计算分箱后，每个变量的信息量IV值；

5.根据权利要求1或4所述的方法，其特征在于，所述计算每个变量预设的指标值，依据所述预设的指标筛选出与预设的目标变量关联性最大的变量包括：

对每个变量进行卡方检验，剔除不满足卡方检验的变量；

计算每个变量与目标变量的相关系数；

获取相关系数最高的前N个变量。

6.根据权利要求1所述的方法，其特征在于，还包括：

获取预设的模型中预设参数的多个数值；

7.一种分类数据挖掘模型的输入数据的处理装置，其特征在于，包括：

分箱单元，用于对每个连续变量的数据进行分箱处理；

第二转换单元，用于将所述数据进行标准化处理。

8.根据权利要求7所述的装置，其特征在于，所述分箱单元，包括：

排序子单元，用于对每个变量的数据进行升序排序；

判断子单元，用于判断是否达到了所述变量预设的分箱数；

9.根据权利要求7所述的装置，其特征在于，所述筛选单元，包括：

IV值计算子单元，用于计算分箱后，每个变量的信息量IV值；

10.根据权利要求7所述的装置，其特征在于，还包括：