CN111860843A

CN111860843A - 变量离散化控制方法及系统

Info

Publication number: CN111860843A
Application number: CN202010661721.2A
Authority: CN
Inventors: 林建明
Original assignee: Shenzhen Wuyu Technology Co ltd
Current assignee: Shenzhen Wuyu Technology Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-30

Abstract

本发明揭示了一种变量离散化控制方法及系统，所述控制方法包括：步骤S1、获取变量；步骤S2、对变量进行离散化处理；步骤S3、获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和编码。步骤S2具体包括：获取初始变量切点，形成N个候选切点；按照一定概率定义遗传算法个体；在初始种群基础上，通过进化操作产生下一代种群；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；进化若干代后，适应度函数值最高的个体即为选中的最优个体向量，最优个体向量的分割点即为该变量的最优切点；将最优个体向量的分割点作为离散化分箱的分箱切点。本发明提出的变量离散化控制方法及系统，可加快进化时间，提高数据处理速度。

Description

变量离散化控制方法及系统

技术领域

本发明属于变量处理技术领域，涉及一种变量处理方法，尤其涉及一种变量离散化控制方法及系统。

背景技术

为了解决机器学习建模时特征数据的变化范围较大，异常点较多容易引起的过拟合或者欠拟合问题，将连续特征数据进行离散化很有必要。遗传算法是一种借鉴生物进化论的寻找最优解的算法，它将要解决的问题模拟成一个生物进化的过程，遵循“优胜劣汰”的原则，进化出最优的个体。离散化可以看成时选择最优切分点的问题，可以结合遗传算法选择合适的适应度函数转化为一个优化问题。

在现有的连续数据离散化的实际应用中，主要的方法有两类：有监督离散化和无监督离散化，其中有监督离散化也包括遗传算法。现有的遗传算法在离散化的应用一般是给定切点个数，IV值作为适应度函数，对于离散程度较高的变量效果不错，但对于粒度很细的连续值不够有效。

遗传算法在离散化的应用中只有一个框架，无论是个体的定义、适应度函数的设计还是初始种群的初始化方法，都没有统一的具体方案。尤其在如何既考虑离散化效果又兼顾时间复杂度的方面，现有技术没有给出客观的结论。

有鉴于此，如今迫切需要设计一种新的变量离散化控制方式，以便克服现有变量离散化控制方式存在的上述至少部分缺陷。

发明内容

本发明提供一种变量离散化控制方法及系统，可加快进化时间，提高数据处理速度。

为解决上述技术问题，根据本发明的一个方面，采用如下技术方案：

一种变量离散化控制方法，所述控制方法包括：

步骤S1、获取变量；

步骤S2、对变量进行离散化处理；具体包括：

-步骤S21、获取初始变量切点，形成N个候选切点；

-步骤S22、按照一定概率定义遗传算法个体，个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；定义产生种群的方式，重复M次，产生一个包含M个个体的初始种群；

-步骤S23、在初始种群基础上，通过进化操作产生下一代种群，进化操作包括选择、交叉、变异中的至少一个；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；所述数值为适应度函数取值；

所述适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

其中，IV(individual)为IV值，1-α*sum(individual)为惩罚项，α为惩罚项系数；惩罚项的作用方式如下，sum(individual)为分箱个数，当sum(individual)增大时，1-α*sum(individual)减小，fitness减小；以此达到控制分箱个数的目的；调整参数时，先将α调整到合适的范围，

再调整其余参数；

-步骤S24、进化若干代后，适应度函数值最高的个体即为选中的最优个体向量，最优个体向量的分割点即为该变量的最优切点；

-步骤S25、将最优个体向量的分割点作为离散化分箱的分箱切点；

步骤S3、获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和woe编码，编码后的变量能直接进入设定模型建模。

根据本发明的另一个方面，采用如下技术方案：

一种变量离散化控制方法，所述控制方法包括：

步骤S1、获取变量；

步骤S2、对变量进行离散化处理；具体包括：

-步骤S21、获取初始变量切点，形成N个候选切点；

-步骤S22、按照一定概率定义遗传算法个体；定义产生种群的方式，重复M次，产生一个包含M个个体的初始种群；

-步骤S23、在初始种群基础上，通过进化操作产生下一代种群；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；所述数值为适应度函数取值；

作为本发明的一种实施方式，步骤S21中，产生的遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；将这个向量作为优化的个体；individual＝[0,1,0,0,…,1,0,0]。

作为本发明的一种实施方式，步骤S23中，进化操作包括选择、交叉、变异中的至少一个。

作为本发明的一种实施方式，步骤S23中，适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数。

根据本发明的又一个方面，采用如下技术方案：

一种变量离散化方式调控系统，所述调控系统包括：

变量获取模块，用以获取变量；

离散化处理模块，用以对变量进行离散化处理；以及

分箱编码模块，用以在获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和编码，编码后的变量能直接进入设定模型建模；

所述离散化处理模块包括候选切点获取单元、个体定义单元、进化单元、最优切点获取单元及分箱切点获取单元：

所述候选切点获取单元用以获取初始变量切点，形成N个候选切点；

所述个体定义单元用以按照一定概率定义遗传算法个体；定义产生种群的方式，重复M次，产生一个包含M个个体的初始种群；

所述进化单元用以在初始种群基础上，通过进化操作产生下一代种群；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；所述数值为适应度函数取值；

所述最优切点获取单元用以在进化若干代后，适应度函数值最高的个体即为选中的最优个体向量，最优个体向量的分割点即为该变量的最优切点；

所述分箱切点获取单元将最优个体向量的分割点作为离散化分箱的分箱切点。

根据本发明的又一个方面，采用如下技术方案：

一种变量离散化方式调控系统，所述调控系统包括：

变量获取模块，用以获取变量；

离散化处理模块，用以对变量进行离散化处理；以及

分箱编码模块，用以在获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和woe编码，编码后的变量能直接进入设定模型建模；

作为本发明的一种实施方式，所述个体定义单元产生的遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；将这个向量作为优化的个体；individual＝[0,1,0,0,…,1,0,0]。

作为本发明的一种实施方式，所述进化单元的进化操作方式包括选择、交叉、变异中的至少一种。

作为本发明的一种实施方式，所述进化单元采用的适应度函数为IV值加上一个惩罚项，惩罚项用来控制箱数；；其中，

适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数。

本发明的有益效果在于：本发明提出的变量离散化控制方法及系统，可加快进化时间，提高数据处理速度。首先，本发明通过0-1向量作为切割方式，直接省去了编码解码的过程，提高数据处理效率。其次，本发明通过前置卡方分箱，有助于缩短个体基因的长度，不需要太大的种群满足多样性，加快了进化的时间。此外，本发明通过适应度函数的设计，满足其可以优化目标又可以控制箱数。

附图说明

图1为本发明一实施例中变量离散化控制方法的流程图。

图2为本发明一实施例中变量离散化控制系统的组成示意图。

图3为本发明一实施例中离散化处理模块的组成示意图。

图4为本发明一实施例中变量离散化控制方法的流程图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

该部分的描述只针对几个典型的实施例，本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。

本发明揭示了一种变量离散化控制方法，图1、图4为本发明一实施例中变量离散化控制方法的流程图；请参阅图1、图4，所述控制方法包括：

【步骤S1】获取变量。

【步骤S2】对变量进行离散化处理；具体包括：

-步骤S21、获取初始变量切点，形成N个候选切点；

-步骤S22、按照一定概率定义遗传算法个体；定义产生种群的方式，重复M次，产生一个包含M个个体的初始种群。在一实施例中，遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割。将这个向量作为优化的个体；individual＝[0,1,0,0,…,1,0,0]。

-步骤S23、在初始种群基础上，通过进化操作产生下一代种群；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；所述数值为适应度函数取值。

在本发明的一实施例中，进化操作的方式包括选择、交叉、变异中的至少一种。

所述适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数；

-步骤S24、进化若干代后，适应度函数值最高的个体即为选中的最优个体向量，最优个体向量的分割点即为该变量的最优切点。

-步骤S25、将最优个体向量的分割点作为离散化分箱的分箱切点。

【步骤S3】获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和WOE(Weight of Evidence，证据权重)编码，编码后的变量能直接进入设定模型建模。

在本发明的一个实施方式中，通过实验验证本发明的效果。在一实验结果中，在遗传30代之后，最优秀的个体函数值保持平稳。个体基因的长度与种群大小是相互决定的。对于数值取值较多的变量，个体基因长度很长，为了个体多样性，种群要求数目多，迭代会变慢。本方案解决这个问题的方式包括：(1)用等频或等距的无监督分箱方法产生初始的切分；(2)先用卡方分箱(设置较大的最大区间数)产生30个到50个切点，将此作为初始个体，这样大大提高了计算效率。

将基于本发明方法流程应用在信贷领域个人特征数据上；在一使用场景中，实验结果和相关结论如下：

(1)数据：66个待分箱变量，13662个样本。

(2)用遗传算法得到更优的离散化结果的变量主要分成了7,8个区间。分布情况如表1所示：

区间数	5	6	7	8	9	10
							变量个数	5	7	18	16	3	4

表1遗传算法离散化变量的区间数分布表

另外，通过表2可以看出，这些变量的IV值70％以上小于0.1，IV值主要介于0.01到0.1之间。

IV值范围	≤0.01	(0.01,0.1]	(0.1,0.2]	≥0.2
					变量个数	11	28	6	8

表2遗传算法离散化变量的IV值分布表

与实验的其他方法相比，无论是对样本缺失的忍受程度、变量取值的高变异性或者各种变量类型，遗传算法的准确性一般都是更优的。而结合其他分箱算法可以提高效率。

本发明还揭示一种变量离散化方式调控系统，图2为本发明一实施例中变量离散化控制系统的组成示意图；请参阅图2，所述调控系统包括：变量获取模块1、离散化处理模块2及分箱编码模块3。所述变量获取模块1用以获取变量；离散化处理模块2用以对变量进行离散化处理；分箱编码模块3用以在获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和woe编码，编码后的变量能直接进入设定模型建模。

图3为本发明一实施例中离散化处理模块的组成示意图；请参阅图3，在本发明的一实施例中，所述离散化处理模块2包括候选切点获取单元21、个体定义单元22、进化单元23、最优切点获取单元24及分箱切点获取单元25。

所述候选切点获取单元21用以获取初始变量切点，形成N个候选切点。在一实施例中，变量取值个数大于等于50用卡方分箱分为50箱作为候选切点。

所述个体定义单元22用以按照一定概率定义遗传算法个体；定义产生种群的方式，重复M次，产生一个包含M个个体的初始种群。在一实施例中，所述个体定义单元产生的遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；将这个向量作为优化的个体；individual＝[0,1,0,0,…,1,0,0]。

所述进化单元23用以在初始种群基础上，通过进化操作产生下一代种群；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；所述数值为适应度函数取值。在一实施例中，所述进化单元23的进化操作方式包括选择(优胜劣汰)、交叉(维护种群稳定，向最优解方向进化)、变异(维护种群多样化，避免局部收敛)中的至少一种。

所述进化单元采用的适应度函数为IV值加上一个惩罚项，惩罚项用来控制箱数。适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数。在一实施例中，使用IV值作为适应度函数，阈值可以设定为0.01。

所述最优切点获取单元24用以在进化若干代后，适应度函数值最高的个体即为选中的最优个体向量，最优个体向量的分割点即为该变量的最优切点；所述分箱切点获取单元25将最优个体向量的分割点作为离散化分箱的分箱切点。

综上所述，本发明提出的变量离散化控制方法及系统，可加快进化时间，提高数据处理速度。首先，本发明通过0-1向量作为切割方式，直接省去了编码解码的过程，提高数据处理效率。其次，本发明通过前置卡方分箱，有助于缩短个体基因的长度，不需要太大的种群满足多样性，加快了进化的时间。此外，本发明通过适应度函数的设计，满足其可以优化目标又可以控制箱数。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现，对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种变量离散化控制方法，其特征在于，所述控制方法包括：

步骤S1、获取变量；

步骤S2、对变量进行离散化处理；具体包括：

-步骤S21、获取初始变量切点，形成N个候选切点；

所述适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数；

2.一种变量离散化控制方法，其特征在于，所述控制方法包括：

步骤S1、获取变量；

步骤S2、对变量进行离散化处理；具体包括：

-步骤S21、获取初始变量切点，形成N个候选切点；

步骤S3、获取到变量的离散化分箱的分箱切点后，根据切点变量进行分箱和编码，编码后的变量能直接进入设定模型建模。

3.根据权利要求2所述的变量离散化方式调控方法，其特征在于：

步骤S21中，产生的遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；将这个向量作为优化的个体；individual＝[0,1,0,0,…,1,0,0]。

4.根据权利要求2所述的变量离散化方式调控方法，其特征在于：

步骤S23中，进化操作包括选择、交叉、变异中的至少一个。

5.根据权利要求2所述的变量离散化方式调控方法，其特征在于：

步骤S23中，适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数。

6.一种变量离散化方式调控系统，其特征在于，所述调控系统包括：

变量获取模块，用以获取变量；

离散化处理模块，用以对变量进行离散化处理；以及

所述个体定义单元用以按照一定概率定义遗传算法个体；遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；定义产生种群的方式，重复M次，产生一个包含M个个体的初始种群；

所述进化单元用以在初始种群基础上，通过进化操作产生下一代种群；进化操作包括选择、交叉、变异中的至少一个；在此过程中逐步淘汰掉数值低于设定阈值的个体，增加适应度函数值高的个体；所述数值为适应度函数取值；

适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数；

7.一种变量离散化方式调控系统，其特征在于，所述调控系统包括：

变量获取模块，用以获取变量；

离散化处理模块，用以对变量进行离散化处理；以及

8.根据权利要求7所述的变量离散化方式调控系统，其特征在于：

所述个体定义单元产生的遗传算法个体为长度为N，取值为0或者1的向量；其中，0代表不切割，1代表切割；将这个向量作为优化的个体；individual＝[0,1,0,0,…,1,0,0]。

9.根据权利要求7所述的变量离散化方式调控系统，其特征在于：

所述进化单元的进化操作方式包括选择、交叉、变异中的至少一种。

10.根据权利要求7所述的变量离散化方式调控系统，其特征在于：

所述进化单元采用的适应度函数为IV值加上一个惩罚项，惩罚项用来控制箱数；其中，适应度函数公式为：

fitness＝IV(individual)*(1-α*sum(individual))；

再调整其余参数。