CN114186628A

CN114186628A - 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统

Info

Publication number: CN114186628A
Application number: CN202111499775.4A
Authority: CN
Inventors: 刘凯; 张韶峰; 冯鑫
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-15
Anticipated expiration: 2041-12-09
Also published as: CN114186628B

Abstract

本发明提供了一种基于NSGA‑II遗传算法的最优分箱数据处理方法及系统，其中，该方法包括：对数据样本进行预处理，获得第一数据样本；按照预分箱规则对第一数据样本进行预分箱，获得n个预分箱；根据n个预分箱，定义决策变量矩阵

，

包含一个大小为n的下三角矩阵，其中

；获得决策变量矩阵

的IV值；根据决策变量矩阵

和IV值定义目标函数向量；设定分箱的约束条件；根据分箱的约束条件和目标函数向量，使用NSGA‑II遗传算法对预分箱后的第一数据样本进行多目标优化求解，获得多个最优解；根据多个最优解，获得最优分割点；根据最优分割点，对预分箱后的第一数据样本进行分箱。

Description

一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统

技术领域

本发明涉及数据分箱算法相关技术领域，具体涉及一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统。

背景技术

分箱算法是特征工程的一种，主要是把数据按照不一样的规则分到不同的箱子里，可以理解为一种将连续型数据变为离散数据的建模方式。分箱可以减少数据中噪声的影响，提升模型的鲁棒性，如在金融评分系统中，对数据分箱可以避免极端值对建模的影响；分箱算法将连续变量离散化也方便特征衍生，可以直接把特征做内积提升特征维度。

分箱算法有多种方法，较为简易的有等距分箱和等频分箱，现有技术中较为常见的有k-means分箱和决策树分箱等。

在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

上述现有技术中常见的分箱方法不能设置分箱的约束条件，例如每箱的样本量、箱数的上下界等，不能满足分箱后的WoE（Weight of evidence）单调性，且分箱效果不佳或分箱效率较低。

发明内容

本申请实施例通过提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统，用于针对解决现有技术中常见分箱算法或多或少存在一定缺点，例如不能设置分箱的约束条件，例如每箱的样本量、箱数的上下界等，不能满足分箱后的WoE单调性，且分箱效果不佳或分箱效率较低，不易获得最佳分割结果的技术问题。

鉴于上述问题，本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统。

本申请实施例的第一个方面，提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法，所述方法包括：对数据样本进行预处理，获得第一数据样本；按照预分箱规则对所述第一数据样本进行预分箱，获得n个预分箱；根据所述n个预分箱，定义决策变量矩阵

，

包含一个大小为n的下三角矩阵，其中

；获得所述决策变量矩阵

的IV值；根据所述决策变量矩阵

和所述IV值定义目标函数向量；设定分箱的约束条件；根据所述分箱的约束条件和所述目标函数向量，使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解，获得多个最优解；根据所述多个最优解，获得最优分割点；根据所述最优分割点，对预分箱后的所述第一数据样本进行分箱。

本申请实施例的第二个方面，提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于对数据样本进行预处理，获得第一数据样本；第一处理单元，所述第一处理单元用于按照预分箱规则对所述第一数据样本进行预分箱，获得n个预分箱；第二处理单元，所述第二处理单元用于根据所述n个预分箱，定义决策变量矩阵

，

包含一个大小为n的下三角矩阵，其中

；第二获得单元，所述第二获得单元用于获得所述决策变量矩阵

的IV值；第三处理单元，所述第三处理单元用于根据所述决策变量矩阵

和所述IV值定义目标函数向量；第四处理单元，所述第四处理单元用于设定分箱的约束条件；第五处理单元，所述第五处理单元用于根据所述分箱的约束条件和所述目标函数向量，使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解，获得多个最优解；第三获得单元，所述第三获得单元用于根据所述多个最优解，获得最优分割点；第六处理单元，所述第六处理单元用于根据所述最优分割点，对预分箱后的所述第一数据样本进行分箱。

本申请实施例的第三个方面，提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使系统以执行如第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例通过对数据样本进行预处理，得到处理后的第一数据样本，然后进行预分箱获得n个预分箱，根据n个预分箱，定义决策变量矩阵，对n个预分箱进行合并处理，然后计算合并后的与定义决策变量矩阵对应的IV值，根据决策变量矩阵和IV值定义目标函数向量，然后设置分箱的约束条件，采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解，获得多个最优解，根据多个最优解获得最优分割点，然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件，如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束，以满足各种业务的需求，通过预分箱减少分箱时间消耗，提升分箱的速率，排除异常数据的影响，可以同时优化分箱的IV值和HHI值，在分箱效果良好的情况下使得分箱更均匀，且分箱后可以保证WoE单调性，达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法流程示意图；

图2为本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法中获得预分箱结果对应三角矩阵示意图；

图3为本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法中合并预分箱结果后对应三角矩阵示意图；

图4为本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法中获得第一数据样本流程示意图；

图5为本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法中获得多个最优解流程示意图；

图6本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理系统结构示意图；

图7为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第一处理单元12，第二处理单元13，第二获得单元14，第三处理单元15，第四处理单元16，第五处理单元17，第三获得单元18，第六处理单元19，电子设备300，存储器301，处理器302，通信接口303，总线架构304。

具体实施方式

本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统，用于针对解决现有技术中常见分箱算法或多或少存在一定缺点，例如不能设置分箱的约束条件，例如每箱的样本量、箱数的上下界等，不能满足分箱后的WoE单调性，且分箱效果不佳或分箱效率较低，不易获得最佳分割结果的技术问题。本申请实施例通过对数据样本进行预处理，得到处理后的第一数据样本，然后进行预分箱获得n个预分箱，根据n个预分箱，定义决策变量矩阵，对n个预分箱进行合并处理，然后计算合并后的与定义决策变量矩阵对应的IV值，根据决策变量矩阵和IV值定义目标函数向量，然后设置分箱的约束条件，采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解，获得多个最优解，根据多个最优解获得最优分割点，然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件，如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束，通过预分箱减少分箱时间消耗，提升分箱的速率，可以同时优化分箱的IV值和HHI值，在分箱效果良好的情况下使得分箱更均匀，且分箱后可以保证WoE单调性，达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。

申请概述

分箱算法是特征工程的一种，主要是把数据按照不一样的规则分到不同的箱子里，可以理解为一种将连续型数据变为离散数据的建模方式。分箱可以减少数据中噪声的影响，提升模型的鲁棒性，如在金融评分系统中，对数据分箱可以避免极端值对建模的影响；分箱算法将连续变量离散化也方便特征衍生，可以直接把特征做内积提升特征维度。分箱算法有多种方法，较为简易的有等距分箱和等频分箱，现有技术中较为常见的有k-means分箱和决策树分箱等。

其中，k-means聚类分箱的技术思路是：首先，针对需要分箱的变量随机设定k个初始中心作为聚类中心；第二，将相邻的聚类中心的中点作为分类的划分点，将各个对象加入到最近的类中，从而将数据划分为多个区间；第三，重新计算每类的聚类中心，然后重新划分数据直到每个聚类中心不再变化，最终的聚类中心即为k-means分箱的分割点。决策树分箱的技术思路是：首先，从所有的样本开始，由树顶部的节点表示，通过设定的标准（如基尼系数、信息增益、信息增益率等）找到最佳的拆分点，将样本分到两个子节点中；第二，再根据上述标准进行拆分，直到达到设定的树的深度；第三，提取决策树分割的阈值形成分割点。上述的常见的分箱算法不能设置分箱的约束条件，例如每箱的样本量、箱数的上下界等，不能满足分箱后的WoE单调性，且分箱效果不佳或分箱效率较低。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统，所述方法包括：对数据样本进行预处理，获得第一数据样本；按照预分箱规则对所述第一数据样本进行预分箱，获得n个预分箱；根据所述n个预分箱，定义决策变量矩阵

，

包含一个大小为n的下三角矩阵，其中

；获得所述决策变量矩阵

的IV值；根据所述决策变量矩阵

在介绍了本申请基本原理后，下面，将参考附图对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部。

实施例一

如图1所示，本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法，所述方法包括：

S100：对数据样本进行预处理，获得第一数据样本；

具体而言，上述的数据样本即为需要进行分箱处理的数据，数据样本可为任意的连续数据。在实际的业务需求中，分箱算法是需要根据业务需求，将一系列目标数据按照预设的分割标准进行分箱，然后判断每箱数据对于业务的影响参数。

以下举不设限制的一例，以说明分箱算法在实际业务中的应用，但不作为本申请的限制。

某医学课题组为研究乳腺腺体平均半径大小对乳腺癌患病率的影响，测得了一系列乳腺腺体平均半径的数据，需对该组数据进行分箱处理，分箱后每箱数据包括一个区间内的乳腺腺体平均半径数据，每一个乳腺腺体平均半径数据对应于是否患乳腺癌，通过分箱后分析每箱数据对应患乳腺癌和不患乳腺癌的几率，即可分析该箱数据对应区间对乳腺癌患病率的影响参数。

上述的预处理具体指根据业务需求，删除数据样本中对业务分析有影响的值，包括但不限于：对于缺失值进行插值或删除、提出异常值或提出特殊值进行单独分箱。示例性地，若乳腺腺体平均半径中的一个或几个值由于其他病理性的增生，而导致该值过大，在乳腺腺体平均半径这一类型中的数据中出现次数太少，成为异常值，则需要将该异常值提出进行单独分箱，避免其干扰模型系数的计算和评估，从而提升模型的稳定性。

S200：按照预分箱规则对所述第一数据样本进行预分箱，获得n个预分箱；

具体而言，再对数据样本进行预处理后，对获得的第一数据样本进行预分箱，预分箱的分箱方法可以采用现有技术中任意的分箱算法进行分箱，为后续的算法提供基础。示例性地，可采用上述的k-means聚类分箱方法或决策树分箱。但实际上，预分箱仅仅是为了提供简单的数据分箱基础，并不作为最后的分箱结果，因此，预分箱可采用较为简易快速的分箱方法，使用简单的分割点寻找策略，示例性地，采用等距分箱，寻找m个分割点将样本分为n箱，m+1=n，其中，n为箱数，m为分割点，且均为正整数。分出的箱定义为：

。

S300：根据所述n个预分箱，定义决策变量矩阵

，

包含一个大小为n的下三角矩阵，其中

；

具体而言，根据划分出的n个预分箱定义决策变量X，X包含一个大小为n的下三角矩阵，为决策变量矩阵

，其中，

，该决策变量矩阵

开始时对角线上的值都为1，这表示最初选择了所有的预分箱。

示例性地，当n=7，按照预分箱规则对所述第一数据样本进行预分箱，获得7个预分箱时，则预分箱结果为

，此时的决策变量矩阵

如图2所示。

其中，决策变量X必须满足以下的约束条件：

（1）每一列须包含一个1。

该条件保证了预分箱中的每一箱都存在，可以通过相邻箱进行合并，但是不能删除。

（2）决策变量三角矩阵中每一行取值单调不减

该条件保证后一箱的起始端点必须在前一箱结束之后。

（3）最后一箱的形式需为

，

.同时需满足

.

（4）只有连续的预分箱可以被合并，不相邻的箱不能进行合并

如图3所示，对上述预分箱得到的n个预分箱进行合并，由于约束了只有连续的预分箱可以被合并，故只有相邻的预分箱可以合并，因此，本申请实施例中，将第2、3、4个预分箱进行合并为一箱，将第5、6个预分箱进行合并为一箱，合并后为4箱，则合并后的分箱结果为：

。

S400：获得所述决策变量矩阵

的IV值；

具体而言，获得所述决策变量矩阵

的IV值指获得根据决策变量矩阵

合并后的分箱结果的IV值。IV值可代表一个数据变量对于结果预测的价值，换言之，可代表一个数据变量对于结果预测的能力，其为衡量一个变量数据对于结果预测能力的量化指标，它可以衡量一个变量的信息量，它的大小决定了自变量对于目标变量的影响程度。IV值是基于WOE值再根据每组数据的数据量的大小进行加权计算而得到的。IV值主要用于特征选择，通过对IV值从高到低进行筛选可以对变量的预测能力进行排序。

WoE称为证据权重，具体为，一组数据中对应事件发生的数据占该组数据的比例与对应事件未发生的数据占该组数据的比例的比值的对数，该组数据中，对应事件发生的数据占比越大，则WoE的值就越大，WoE表征了该组数据中对判断事件是否发生所起到影响的方向和大小。

而IV值基于WoE值进行加权计算的权重为：该WoE值对应的该组数据占所有样本数据中的比例，这一比例能够反应该组数据对于对应事件是否发生的预测能力的贡献，若该组数据占所有样本数据的比例较小，则其对于对应事件是否发生的预测能力的贡献较小，即使该组数据的WoE值较大，IV值也可能较小。

在本申请实施例中，第

箱中事件不发生的个数占比

和事件发生的个数占比

，即

其中，

表示第

个预分箱中事件不发生的样本数；

表示所有箱中事件不发生的样本数和；

表示第

个预分箱中事件发生的样本数；

表示所有箱中事件发生的样本数和。

在第任意箱中，事件发生的概率

为：

其中，

表示第

个预分箱中事件发生的样本数；

表示第

个预分箱中事件不发生的样本数。

表示第

箱中事件发生的样本数占该箱所有样本数的比例。

则，第

箱的证据权重

为：

其中，

表示第

个预分箱中事件不发生的样本数；

表示所有箱中事件不发生的样本数和；

表示第

个预分箱中事件发生的样本数；

表示所有箱中事件发生的样本数和。

表示“第

箱中事件不发生的样本数占所有事件不发生的样本数的比例”和“第

箱中事件发生的样本数占所有事件发生的样本数的比例”的差异。

对公式转变后，如下式，其可以体现出箱内的事件不发生和事件发生的占比与整体的差异化程度大小。该值越大，表明差异越大。

根据描述参数和决策变量矩阵

，产生分箱计算的IV值，如下式：

这里的IV值是在对自变量WoE值加权计算的情况下同时考虑决策变量

来进行计算的，

只取0和1两个值，当

取0时，表示该箱已被合并。

其中：

进一步的，其中，

表示第

个预分箱中事件不发生的样本数；

表示所有箱中事件不发生的样本数和；

表示第

个预分箱中事件发生的样本数；

表示所有箱中事件发生的样本数和；

表示决策变量矩阵中第i行j列位置的值。

如此，即获得了基于决策变量矩阵

对n个预分箱合并后的分箱结果中，每箱样本数据的IV值。

S500：根据所述决策变量矩阵

和所述IV值定义目标函数向量；

具体而言，根据所述决策变量矩阵

和所述IV值定义目标函数向量的过程中，需要根据待优化变量对目标函数向量进行定义，待优化变量包括：IV值和HHI（Herfindahl-Hirschman Index）系数，如上述内容中所述，IV值可以衡量一个变量的信息量，它的大小决定了自变量对于目标变量的影响程度。IV值主要用于特征选择，通过对IV值从高到低进行筛选可以对变量的预测能力进行排序，因此，一组数据的IV值越大，则该组数据其对于目标事件是否发生的预测能力就越强。HHI指数为赫芬达尔—赫希曼指数，是一种测量产业集中度的综合指数，在这里用来衡量分箱的均匀效果。HHI通过计算每一箱样本量占总样本量比重的平方之和表示分箱的均匀程度，该值越小，表明分箱结果越均匀，分箱效果越好。因此，IV值和HHI系数有待优化。其中：

是每一箱的样本数量和；

表示决策变量矩阵中第i行j列位置的值。

将上述的两个目标值组合为一个维度为2的目标函数向量：

目标函数是由IV和HHI的负数组成的二维向量，目标向量第一维度（IV值）的值越大，第二维度（HHI系数）的值越小，就表明变量分箱效果越好，分箱效果最好的分箱方法应以上述的目标函数的维度值为基准。

S600：设定分箱的约束条件；

具体而言，上述的约束条件包括：

（1）基本约束

（2）决策变量矩阵

的对角线值为1

预分箱结果限制最初决策变量矩阵的对角线的值需为1

（3）单调性约束

决策变量矩阵中每一行的取值单调不减，该条件保证后一箱的起始端点必须在前一箱结束之后。

（4）箱数上下界约束

（5）样本量约束

（6）每一箱事件不发生的样本量约束

（7）每一箱事件发生的样本量约束

至此，本申请实施例在进行分箱算法的过程中，可对分箱算法中的箱数上下界约束、每箱样本量数、每一箱事件不发生的样本量和每一箱事件发生的样本量进行约束，以适应实际上的业务需求，使分箱算法根据实际需求进行计算，达到获得较好的分箱结果的技术效果。

S700：根据所述分箱的约束条件和所述目标函数向量，使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解，获得多个最优解；

具体而言，在上述目标函数向量针对的优化变量下采用NSGA-II遗传算法对预分箱的第一数据样本进行多目标优化求解。NSGA-II遗传算法包括：快速非支配排序算法、个体拥挤度比较算子和精英策略选择算子。

NSGA-II遗传算法可通过拥挤度来表征各变量分布的情况，从而选择出分布均匀，获得信息较多的个体。在本申请实施例中，根据NSGA-II遗传算法，按照上述的目标函数向量的第一维度（即IV值最大化），以及第二维度（即HHI系数最小化）来选取最终的决策变量X，最后将X还原为对应的分割点。通过采用NSGA-II遗传算法可得出IV值最大以及HHI系数最小的决策变量X，进而可通过决策变量X对第一数据样本进行分割，获得最优的分割结果。

S800：根据所述多个最优解，获得最优分割点；

S900：根据所述最优分割点，对预分箱后的所述第一数据样本进行分箱。

具体而言，上述的多个最优解即为根据上述的目标函数向量，采用NSGA-II遗传算法获得的解，从多个最优解中选取最终的决策变量X，决策变量X包括多个分割点，即为多个最优的分割点，根据上述的最优分割点对第一数据样本重新进行分割分箱，即可获得最优的分箱结果。

如图4所示，本申请实施例提供的方法中的步骤S100包括：

S110：获得预处理规则；

S120：按照所述预处理规则，对所述数据样本进行预处理，获得第二数据样本，所述第二数据样本包括不符合所述预处理规则的数据；

S130：对所述第二数据样本进行单独分箱；

S140：根据所述数据样本和所述第二数据样本，获得所述第一数据样本。

具体而言，预处理规则即为根据业务需求以及实际需要所设定的规则，其在对数据样本分箱之前对数据样本进行处理，以使处理后获得的第一数据样本内的数据均为稳定、有参考价值、业务所需要的数据样本。示例性地，上述的预处理规则包括：

缺失值处理：缺失值是样本中某些特征变量的数据不存在，如果数据是随机缺失，可以将样本删除，或者按照缺失机制进行插值；如果数据是非随机缺失，则该特征需要保留，可以将包含非随机缺失值的样本划分到同一箱。

异常值处理：异常值是指一个类别型变量里某个类别值出现的次数太少，或者区间型变量某些取值太大。异常值的存在会干扰模型系数的计算和评估，从而降低模型的稳定性。因此需要将包含异常值的样本单独分箱。

特殊值处理：根据实际研究问题和实际业务需求，如果数据样本中有需要标记的特殊值，需要将特殊值提取出来单独分箱。

第二数据样本即为上述的缺失值、异常值和特殊值，第一数据样本即为所有数据样本中除了第二数据样本以外的数据样本。本申请实施例通过对数据样本进行预处理，将数据样本中异常数据、缺失数据和特殊数据进行提前处理并单独分箱，避免上述的数据影响分箱算法的稳定性，进而也可避免影响对根据分箱数据建立模型的鲁棒性，达到为后续根据NSGA-II遗传算法进行分箱处理建立数据样本基础，获得较好分箱结果的技术效果。

如图5所示，本申请实施例提供的方法中的步骤S700包括：

S710：通过NSGA-II遗传算法获得第一子代种群；

S720：将父代种群与子代种群合并，获得新父代种群。

S730：获得新子代种群；

S740：再将新父代种群和所述新子代种群进行合并，依此类推，直到达到遗传算法设定的迭代次数为止，获得多个最优解。

具体而言，本申请实施例中进行多目标优化求解包括如下步骤：

（1）在优化问题的可行域下，随机初始化一些决策变量X作为初始种群，将需要优化的目标函数向量作为适应度，计算初始种群的适应度；对初始种群进行非支配排序将样本划分为多个非支配层；通过遗传算法的选择、交叉、变异三个基本操作得到第一代子代种群。

（2）从第二代开始，将父代种群与子代种群合并，进行快速非支配排序，同时对每个非支配层中的个体进行拥挤度计算，根据非支配关系以及个体的拥挤度选取合适的个体组成新的父代种群。

（3）通过遗传算法的基本操作产生新的子代种群；再将新的父代种群和子代种群进行合并，依此类推，直到达到遗传算法设定的迭代次数为止。

其中，具体而言，多目标优化包括两个目标，分别为上述的IV值和HHI系数，进行IV值最大化优化和HHI系数最小值优化，通过采用NSGA-II遗传算法进行上述多目标优化求解，待迭代次数完成后，即可获得多个最优解。本申请实施例通过采用NSGA-II遗传算法，能够同时优化分箱结果的IV值和HHI值，在分箱效果良好，IV值最大化的情况下，达到使分箱更为均匀的技术效果。

本申请实施例提供的方法中的步骤S800包括：

S810：根据所述目标函数向量的第一维度确定第一决策变量X；

S820：将所述第一决策变量X还原为对应的分割点，获得最优分割点。

具体而言，示例性地，在基于NSGA-II遗传算法迭代进化得到多个最优解后，在实际的分箱算法业务需求中，需要获得IV值最大化的分箱结果，以期获得基于能够表现对目标事件是否发生预测能力最佳的分箱结果。而关于HHI系数，能够保证分箱结果保持有一定的均匀水平即可，因此，本申请实施例通过根据所述目标函数向量的第一维度（IV值最大化）确定第一决策变量X，即可得到IV值最大化的分割处理对应的第一决策变量X。并基于该第一决策变量X获得对第一数据样本最优的分割点，进而根据该分割点进行分箱。

本申请实施例通过根据目标函数向量的第一维度确定第一决策变量X，能够获得对应IV值最大化的最优分割点，使基于该第一决策变量X的分箱结果中，各组数据对于预测目标事件能否发生的表征量最大化，达到获得最佳分箱结果的技术效果。

下面就本申请实施例提供的基于NSGA-II遗传算法的最优分箱数据处理方法在实际应用中的场景进行说明，以使能够更好地理解本申请的技术方案，但不作为本申请的限制。

在研究各种因素对乳腺癌患病的影响时，获得一数据样本load_breast_cancer，其为一569*30维的数据集，包含569个样本，每个样本含有30个特征。

上述30个特征分别是：mean radius（平均半径）,mean texture（平均纹理）,meanperimeter（平均周长）,mean area（平均面积）,mean smoothness（平均平滑度）,meancompactness（平均紧密度）,mean concavity（平均凹度）,mean concave points（平均凹点）,mean symmetry（平均对称性）,mean fractal dimension（平均分形维数）,radiuserror（半径误差）,texture error（纹理误差）,perimeter error（周长误差）,area error（面积误差）,smoothness error（平滑度误差）,compactness error（紧凑度误差）,concavity error（凹度误差）,concave points error（凹点误差）,symmetry error（对称性误差）,fractal dimension error（分形维数误差）,worst radius（最差半径）,worsttexture（最差纹理）,worst perimeter（最差周长）,worst area（最差面积）,worstsmoothness（最差光滑度）,worst compactness（最差紧致度）,worst concavity（最差凹度）,worst concave points（最差凹点）,worst symmetry（最差对称性）,worst fractaldimension（最差分形维数）

与每个样本对应的目标变量是二分类变量，1表示患有乳腺癌，0表示没有患乳腺癌。

选择其中连续性变量mean radius（平均半径），对变量进行数据预处理，划分出缺失值箱Missing、异常值箱Outlier和特殊值箱Special；

（3）将剩余样本进行预分箱找出21个分割点（加上左右边界的分割点），划分为20箱，划分出的箱为[6.98100,8.03745)、[8.03745,9.09390)、[9.09390,10.15035)、[10.15035,11.20680)、[11.20680,12.26325)、[12.26325,13.31970)、[13.31970,14.37615)、[14.37615,15.43260)、[15.43260,16.48905)、[16.48905,17.54550)、[17.54550,18.60195)、[18.60195,19.65840)、[19.65840,20.71485)、[20.71485,21.77130)、[21.77130,22.82775)、[22.82775,23.88420)、[23.88420,24.94065)、[24.94065,25.99710)、[25.99710,27.05355)、[27.05355,28.11000)

每个样本根据其mean radius变量值大小，找到所属的箱，将变量值转变为对应的箱号，即转变为0-19范围内的值；

通过对预分箱的合并，根据上述目标函数，使用NSGA-II遗传算法进行30轮迭代，求解划分出来的最优箱，按照目标函数的第一维度IV值最大选择最优分箱；

根据遗传算法得到的整数变量X得到最优分割点，将X中连续为0的箱进行合并，并保留左右边界的分割点，最终选中的分割点为[6.981, 11.20680, 12.26325, 13.31970,14.37615, 15.43260, 17.54550, 23.88420, 28.11000]

计算分箱后的IV值，统计最优分箱耗时。

经验证结果，对于上述的同样的数据，分别采用本申请实施例提供的方法和决策树分箱方法进行分箱操作，本申请实施例提供的分箱方法性能和效果明显优于决策树分箱，具体分箱结果性能和效果如表1所示。

表1本申请实施例分箱法和决策树分箱的分箱效果和性能

本申请实施例提供的分箱法将分箱这种数据处理方法通过涵盖多个约束和多个目标的最优化方程求解，即解决了实际建模时业务的需要，如实际建模时对箱数上下界的约束、样本量的约束和每一箱事件发生与否样本量的约束；又提升了分箱效果，在分箱效果良好的情况下使得分箱更均匀。

综上所述，本申请实施例通过对数据样本进行预处理，得到处理后的第一数据样本，然后进行预分箱获得n个预分箱，根据n个预分箱，定义决策变量矩阵，对n个预分箱进行合并处理，然后计算合并后的与决策变量矩阵对应的IV值，根据决策变量矩阵和IV值定义目标函数向量，然后设置分箱的约束条件，采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解，获得多个最优解，根据多个最优解获得最优分割点，然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件，如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束，以满足各种业务的需求，通过预分箱减少分箱时间消耗，提升分箱的速率，排除异常数据的影响，可以同时优化分箱的IV值和HHI值，在分箱效果良好的情况下使得分箱更均匀，且分箱后可以保证WoE单调性，达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。

实施例二

基于与前述实施例中一种基于NSGA-II遗传算法的最优分箱数据处理方法相同的发明构思，如图6所示，本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统，其中，所述系统包括：

第一获得单元11，所述第一获得单元11用于对数据样本进行预处理，获得第一数据样本；

第一处理单元12，所述第一处理单元12用于按照预分箱规则对所述第一数据样本进行预分箱，获得n个预分箱；

第二处理单元13，所述第二处理单元13用于根据所述n个预分箱，定义决策变量矩阵

，

包含一个大小为n的下三角矩阵，其中

；

第二获得单元14，所述第二获得单元14用于获得所述决策变量矩阵

的IV值；

第三处理单元15，所述第三处理单元15用于根据所述决策变量矩阵

和所述IV值定义目标函数向量；

第四处理单元16，所述第四处理单元16用于设定分箱的约束条件；

第五处理单元17，所述第五处理单元17用于根据所述分箱的约束条件和所述目标函数向量，使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解，获得多个最优解；

第三获得单元18，所述第三获得单元18用于根据所述多个最优解，获得最优分割点；

第六处理单元19，所述第六处理单元19用于根据所述最优分割点，对预分箱后的所述第一数据样本进行分箱。

进一步的，所述系统还包括：

第四获得单元，所述第四获得单元用于获得预处理规则；

第七处理单元，所述第七处理单元用于按照所述预处理规则，对所述数据样本进行预处理，获得第二数据样本，所述第二数据样本包括不符合所述预处理规则的数据；

第八处理单元，所述第八处理单元用于对所述第二数据样本进行单独分箱；

第五获得单元，所述第五获得单元用于根据所述数据样本和所述第二数据样本，获得所述第一数据样本。

进一步的，所述系统还包括：

第六获得单元，所述第六获得单元用于通过NSGA-II遗传算法获得第一子代种群；

第九处理单元，所述第九处理单元用于将父代种群与子代种群合并，获得新父代种群。

第七获得单元，所述第七获得单元用于获得新子代种群；

第十处理单元，所述第十处理单元用于再将新父代种群和所述新子代种群进行合并，依此类推，直到达到遗传算法设定的迭代次数为止，获得多个最优解。

进一步的，所述系统还包括：

第十一处理单元，所述第十一处理单元用于根据所述目标函数向量的第一维度确定第一决策变量X；

第八获得单元，所述第八获得单元用于将所述第一决策变量X还原为对应的分割点，获得最优分割点。

示例性电子设备

下面参考图7来描述本申请实施例的电子设备，

基于与前述实施例中一种基于NSGA-II遗传算法的最优分箱数据处理方法相同的发明构思，本申请实施例还提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得系统以执行实施例一所述方法的步骤。

该电子设备300包括：处理器302、通信接口303、存储器301。可选的，电子设备300还可以包括总线架构304。其中，通信接口303、处理器302以及存储器301可以通过总线架构304相互连接；总线架构304可以是外设部件互连标(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture，简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器302可以是一个CPU，微处理器，ASIC，或一个或多个用于控制本申请方案程序执行的集成电路。

通信接口303，使用任何收发器一类的系统，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)，有线接入网等。

存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable Programmable read-only memory，EEPROM)、只读光盘(compactdisc

read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器301用于存储执行本申请方案的计算机执行指令，并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令，从而实现本申请上述实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

本领域普通技术人员可以理解：本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围，也不表示先后顺序。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a ，b，或c中的至少一项(个、种)，可以表示：a ，b，c，a -b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其它可编程逻辑系统，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算系统的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于终端中。可选地，处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内，则本申请意图包括这些改动和变型在内。