CN114186628B - 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 - Google Patents
一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 Download PDFInfo
- Publication number
- CN114186628B CN114186628B CN202111499775.4A CN202111499775A CN114186628B CN 114186628 B CN114186628 B CN 114186628B CN 202111499775 A CN202111499775 A CN 202111499775A CN 114186628 B CN114186628 B CN 114186628B
- Authority
- CN
- China
- Prior art keywords
- binning
- data
- data sample
- decision variable
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 82
- 230000002068 genetic effect Effects 0.000 title claims abstract description 61
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000000926 separation method Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 39
- 230000002829 reductive effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 30
- 230000002159 abnormal effect Effects 0.000 description 10
- 206010006187 Breast cancer Diseases 0.000 description 9
- 208000026310 Breast neoplasm Diseases 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 210000005075 mammary gland Anatomy 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 210000000481 breast Anatomy 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000004907 gland Anatomy 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000005018 casein Substances 0.000 description 1
- BECPQYXYKAMYBN-UHFFFAOYSA-N casein, tech. Chemical compound NCCCCC(C(O)=O)N=C(O)C(CC(O)=O)N=C(O)C(CCC(O)=N)N=C(O)C(CC(C)C)N=C(O)C(CCC(O)=O)N=C(O)C(CC(O)=O)N=C(O)C(CCC(O)=O)N=C(O)C(C(C)O)N=C(O)C(CCC(O)=N)N=C(O)C(CCC(O)=N)N=C(O)C(CCC(O)=N)N=C(O)C(CCC(O)=O)N=C(O)C(CCC(O)=O)N=C(O)C(COP(O)(O)=O)N=C(O)C(CCC(O)=N)N=C(O)C(N)CC1=CC=CC=C1 BECPQYXYKAMYBN-UHFFFAOYSA-N 0.000 description 1
- 235000021240 caseins Nutrition 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 206010020718 hyperplasia Diseases 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
Description
技术领域
本发明涉及数据分箱算法相关技术领域,具体涉及一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统。
背景技术
分箱算法是特征工程的一种,主要是把数据按照不一样的规则分到不同的箱子里,可以理解为一种将连续型数据变为离散数据的建模方式。分箱可以减少数据中噪声的影响,提升模型的鲁棒性,如在金融评分系统中,对数据分箱可以避免极端值对建模的影响;分箱算法将连续变量离散化也方便特征衍生,可以直接把特征做内积提升特征维度。
分箱算法有多种方法,较为简易的有等距分箱和等频分箱,现有技术中较为常见的有k-means分箱和决策树分箱等。
在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
上述现有技术中常见的分箱方法不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE(Weight of evidence)单调性,且分箱效果不佳或分箱效率较低。
发明内容
本申请实施例通过提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统,用于针对解决现有技术中常见分箱算法或多或少存在一定缺点,例如不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE单调性,且分箱效果不佳或分箱效率较低,不易获得最佳分割结果的技术问题。
鉴于上述问题,本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统。
本申请实施例的第一个方面,提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法,所述方法包括:对数据样本进行预处理,获得第一数据样本;按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;获得所述决策变量矩阵的IV值;根据所述决策变量矩阵和所述IV值定义目标函数向量;设定分箱的约束条件;根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;根据所述多个最优解,获得最优分割点;根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
本申请实施例的第二个方面,提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统,其中,所述系统包括:
第一获得单元,所述第一获得单元用于对数据样本进行预处理,获得第一数据样本;第一处理单元,所述第一处理单元用于按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;第二处理单元,所述第二处理单元用于根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;第二获得单元,所述第二获得单元用于获得所述决策变量矩阵的IV值;第三处理单元,所述第三处理单元用于根据所述决策变量矩阵和所述IV值定义目标函数向量;第四处理单元,所述第四处理单元用于设定分箱的约束条件;第五处理单元,所述第五处理单元用于根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;第三获得单元,所述第三获得单元用于根据所述多个最优解,获得最优分割点;第六处理单元,所述第六处理单元用于根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
本申请实施例的第三个方面,提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使系统以执行如第一方面所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例通过对数据样本进行预处理,得到处理后的第一数据样本,然后进行预分箱获得n个预分箱,根据n个预分箱,定义决策变量矩阵,对n个预分箱进行合并处理,然后计算合并后的与定义决策变量矩阵对应的IV值,根据决策变量矩阵和IV值定义目标函数向量,然后设置分箱的约束条件,采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解,获得多个最优解,根据多个最优解获得最优分割点,然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件,如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束,以满足各种业务的需求,通过预分箱减少分箱时间消耗,提升分箱的速率,排除异常数据的影响,可以同时优化分箱的IV值和HHI值,在分箱效果良好的情况下使得分箱更均匀,且分箱后可以保证WoE单调性,达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法流程示意图;
图2为本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法中获得预分箱结果对应三角矩阵示意图;
图3为本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法中合并预分箱结果后对应三角矩阵示意图;
图4为本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法中获得第一数据样本流程示意图;
图5为本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法中获得多个最优解流程示意图;
图6本申请实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理系统结构示意图;
图7为本申请实施例示例性电子设备的结构示意图。
附图标记说明:第一获得单元11,第一处理单元12,第二处理单元13,第二获得单元14,第三处理单元15,第四处理单元16,第五处理单元17,第三获得单元18,第六处理单元19,电子设备300,存储器301,处理器302,通信接口303,总线架构304。
具体实施方式
本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统,用于针对解决现有技术中常见分箱算法或多或少存在一定缺点,例如不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE单调性,且分箱效果不佳或分箱效率较低,不易获得最佳分割结果的技术问题。本申请实施例通过对数据样本进行预处理,得到处理后的第一数据样本,然后进行预分箱获得n个预分箱,根据n个预分箱,定义决策变量矩阵,对n个预分箱进行合并处理,然后计算合并后的与定义决策变量矩阵对应的IV值,根据决策变量矩阵和IV值定义目标函数向量,然后设置分箱的约束条件,采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解,获得多个最优解,根据多个最优解获得最优分割点,然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件,如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束,通过预分箱减少分箱时间消耗,提升分箱的速率,可以同时优化分箱的IV值和HHI值,在分箱效果良好的情况下使得分箱更均匀,且分箱后可以保证WoE单调性,达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。
申请概述
分箱算法是特征工程的一种,主要是把数据按照不一样的规则分到不同的箱子里,可以理解为一种将连续型数据变为离散数据的建模方式。分箱可以减少数据中噪声的影响,提升模型的鲁棒性,如在金融评分系统中,对数据分箱可以避免极端值对建模的影响;分箱算法将连续变量离散化也方便特征衍生,可以直接把特征做内积提升特征维度。分箱算法有多种方法,较为简易的有等距分箱和等频分箱,现有技术中较为常见的有k-means分箱和决策树分箱等。
其中,k-means聚类分箱的技术思路是:首先,针对需要分箱的变量随机设定k个初始中心作为聚类中心;第二,将相邻的聚类中心的中点作为分类的划分点,将各个对象加入到最近的类中,从而将数据划分为多个区间;第三,重新计算每类的聚类中心,然后重新划分数据直到每个聚类中心不再变化,最终的聚类中心即为k-means分箱的分割点。决策树分箱的技术思路是:首先,从所有的样本开始,由树顶部的节点表示,通过设定的标准(如基尼系数、信息增益、信息增益率等)找到最佳的拆分点,将样本分到两个子节点中;第二,再根据上述标准进行拆分,直到达到设定的树的深度;第三,提取决策树分割的阈值形成分割点。上述的常见的分箱算法不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE单调性,且分箱效果不佳或分箱效率较低。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统,所述方法包括:对数据样本进行预处理,获得第一数据样本;按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;获得所述决策变量矩阵的IV值;根据所述决策变量矩阵和所述IV值定义目标函数向量;设定分箱的约束条件;根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;根据所述多个最优解,获得最优分割点;根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
在介绍了本申请基本原理后,下面,将参考附图对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部。
实施例一
如图1所示,本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理方法,所述方法包括:
S100:对数据样本进行预处理,获得第一数据样本;
具体而言,上述的数据样本即为需要进行分箱处理的数据,数据样本可为任意的连续数据。在实际的业务需求中,分箱算法是需要根据业务需求,将一系列目标数据按照预设的分割标准进行分箱,然后判断每箱数据对于业务的影响参数。
以下举不设限制的一例,以说明分箱算法在实际业务中的应用,但不作为本申请的限制。
某医学课题组为研究乳腺腺体平均半径大小对乳腺癌患病率的影响,测得了一系列乳腺腺体平均半径的数据,需对该组数据进行分箱处理,分箱后每箱数据包括一个区间内的乳腺腺体平均半径数据,每一个乳腺腺体平均半径数据对应于是否患乳腺癌,通过分箱后分析每箱数据对应患乳腺癌和不患乳腺癌的几率,即可分析该箱数据对应区间对乳腺癌患病率的影响参数。
上述的预处理具体指根据业务需求,删除数据样本中对业务分析有影响的值,包括但不限于:对于缺失值进行插值或删除、提出异常值或提出特殊值进行单独分箱。示例性地,若乳腺腺体平均半径中的一个或几个值由于其他病理性的增生,而导致该值过大,在乳腺腺体平均半径这一类型中的数据中出现次数太少,成为异常值,则需要将该异常值提出进行单独分箱,避免其干扰模型系数的计算和评估,从而提升模型的稳定性。
S200:按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;
具体而言,再对数据样本进行预处理后,对获得的第一数据样本进行预分箱,预分箱的分箱方法可以采用现有技术中任意的分箱算法进行分箱,为后续的算法提供基础。示例性地,可采用上述的k-means聚类分箱方法或决策树分箱。但实际上,预分箱仅仅是为了提供简单的数据分箱基础,并不作为最后的分箱结果,因此,预分箱可采用较为简易快速的分箱方法,使用简单的分割点寻找策略,示例性地,采用等距分箱,寻找m个分割点将样本分为n箱,m+1=n,其中,n为箱数,m为分割点,且均为正整数。分出的箱定义为:。
其中,决策变量X必须满足以下的约束条件:
(1)每一列须包含一个1。
该条件保证了预分箱中的每一箱都存在,可以通过相邻箱进行合并,但是不能删除。
(2)决策变量三角矩阵中每一行取值单调不减
该条件保证后一箱的起始端点必须在前一箱结束之后。
(4)只有连续的预分箱可以被合并,不相邻的箱不能进行合并
如图3所示,对上述预分箱得到的n个预分箱进行合并,由于约束了只有连续的预分箱可以被合并,故只有相邻的预分箱可以合并,因此,本申请实施例中,将第2、3、4个预分箱进行合并为一箱,将第5、6个预分箱进行合并为一箱,合并后为4箱,则合并后的分箱结果为:。
具体而言,获得所述决策变量矩阵的IV值指获得根据决策变量矩阵合并后的分箱结果的IV值。IV值可代表一个数据变量对于结果预测的价值,换言之,可代表一个数据变量对于结果预测的能力,其为衡量一个变量数据对于结果预测能力的量化指标,它可以衡量一个变量的信息量,它的大小决定了自变量对于目标变量的影响程度。IV值是基于WOE值再根据每组数据的数据量的大小进行加权计算而得到的。IV值主要用于特征选择,通过对IV值从高到低进行筛选可以对变量的预测能力进行排序。
WoE称为证据权重,具体为,一组数据中对应事件发生的数据占该组数据的比例与对应事件未发生的数据占该组数据的比例的比值的对数,该组数据中,对应事件发生的数据占比越大,则WoE的值就越大,WoE表征了该组数据中对判断事件是否发生所起到影响的方向和大小。
而IV值基于WoE值进行加权计算的权重为:该WoE值对应的该组数据占所有样本数据中的比例,这一比例能够反应该组数据对于对应事件是否发生的预测能力的贡献,若该组数据占所有样本数据的比例较小,则其对于对应事件是否发生的预测能力的贡献较小,即使该组数据的WoE值较大,IV值也可能较小。
对公式转变后,如下式,其可以体现出箱内的事件不发生和事件发生的占比与整体的差异化程度大小。该值越大,表明差异越大。
其中:
具体而言,根据所述决策变量矩阵和所述IV值定义目标函数向量的过程中,需要根据待优化变量对目标函数向量进行定义,待优化变量包括:IV值和HHI(Herfindahl-Hirschman Index)系数,如上述内容中所述,IV值可以衡量一个变量的信息量,它的大小决定了自变量对于目标变量的影响程度。IV值主要用于特征选择,通过对IV值从高到低进行筛选可以对变量的预测能力进行排序,因此,一组数据的IV值越大,则该组数据其对于目标事件是否发生的预测能力就越强。HHI指数为赫芬达尔—赫希曼指数,是一种测量产业集中度的综合指数,在这里用来衡量分箱的均匀效果。HHI通过计算每一箱样本量占总样本量比重的平方之和表示分箱的均匀程度,该值越小,表明分箱结果越均匀,分箱效果越好。因此,IV值和HHI系数有待优化。其中:
将上述的两个目标值组合为一个维度为2的目标函数向量:
目标函数是由IV和HHI的负数组成的二维向量,目标向量第一维度(IV值)的值越大,第二维度(HHI系数)的值越小,就表明变量分箱效果越好,分箱效果最好的分箱方法应以上述的目标函数的维度值为基准。
S600:设定分箱的约束条件;
具体而言,上述的约束条件包括:
(1)基本约束
预分箱结果限制最初决策变量矩阵的对角线的值需为1
(3)单调性约束
决策变量矩阵中每一行的取值单调不减,该条件保证后一箱的起始端点必须在前一箱结束之后。
(4)箱数上下界约束
(5)样本量约束
(6)每一箱事件不发生的样本量约束
(7)每一箱事件发生的样本量约束
至此,本申请实施例在进行分箱算法的过程中,可对分箱算法中的箱数上下界约束、每箱样本量数、每一箱事件不发生的样本量和每一箱事件发生的样本量进行约束,以适应实际上的业务需求,使分箱算法根据实际需求进行计算,达到获得较好的分箱结果的技术效果。
S700:根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;
具体而言,在上述目标函数向量针对的优化变量下采用NSGA-II遗传算法对预分箱的第一数据样本进行多目标优化求解。NSGA-II遗传算法包括:快速非支配排序算法、个体拥挤度比较算子和精英策略选择算子。
NSGA-II遗传算法可通过拥挤度来表征各变量分布的情况,从而选择出分布均匀,获得信息较多的个体。在本申请实施例中,根据NSGA-II遗传算法,按照上述的目标函数向量的第一维度(即IV值最大化),以及第二维度(即HHI系数最小化)来选取最终的决策变量X,最后将X还原为对应的分割点。通过采用NSGA-II遗传算法可得出IV值最大以及HHI系数最小的决策变量X,进而可通过决策变量X对第一数据样本进行分割,获得最优的分割结果。
S800:根据所述多个最优解,获得最优分割点;
S900:根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
具体而言,上述的多个最优解即为根据上述的目标函数向量,采用NSGA-II遗传算法获得的解,从多个最优解中选取最终的决策变量X,决策变量X包括多个分割点,即为多个最优的分割点,根据上述的最优分割点对第一数据样本重新进行分割分箱,即可获得最优的分箱结果。
如图4所示,本申请实施例提供的方法中的步骤S100包括:
S110:获得预处理规则;
S120:按照所述预处理规则,对所述数据样本进行预处理,获得第二数据样本,所述第二数据样本包括不符合所述预处理规则的数据;
S130:对所述第二数据样本进行单独分箱;
S140:根据所述数据样本和所述第二数据样本,获得所述第一数据样本。
具体而言,预处理规则即为根据业务需求以及实际需要所设定的规则,其在对数据样本分箱之前对数据样本进行处理,以使处理后获得的第一数据样本内的数据均为稳定、有参考价值、业务所需要的数据样本。示例性地,上述的预处理规则包括:
缺失值处理:缺失值是样本中某些特征变量的数据不存在,如果数据是随机缺失,可以将样本删除,或者按照缺失机制进行插值;如果数据是非随机缺失,则该特征需要保留,可以将包含非随机缺失值的样本划分到同一箱。
异常值处理:异常值是指一个类别型变量里某个类别值出现的次数太少,或者区间型变量某些取值太大。异常值的存在会干扰模型系数的计算和评估,从而降低模型的稳定性。因此需要将包含异常值的样本单独分箱。
特殊值处理:根据实际研究问题和实际业务需求,如果数据样本中有需要标记的特殊值,需要将特殊值提取出来单独分箱。
第二数据样本即为上述的缺失值、异常值和特殊值,第一数据样本即为所有数据样本中除了第二数据样本以外的数据样本。本申请实施例通过对数据样本进行预处理,将数据样本中异常数据、缺失数据和特殊数据进行提前处理并单独分箱,避免上述的数据影响分箱算法的稳定性,进而也可避免影响对根据分箱数据建立模型的鲁棒性,达到为后续根据NSGA-II遗传算法进行分箱处理建立数据样本基础,获得较好分箱结果的技术效果。
如图5所示,本申请实施例提供的方法中的步骤S700包括:
S710:通过NSGA-II遗传算法获得第一子代种群;
S720:将父代种群与子代种群合并,获得新父代种群。
S730:获得新子代种群;
S740:再将新父代种群和所述新子代种群进行合并,依此类推,直到达到遗传算法设定的迭代次数为止,获得多个最优解。
具体而言,本申请实施例中进行多目标优化求解包括如下步骤:
(1)在优化问题的可行域下,随机初始化一些决策变量X作为初始种群,将需要优化的目标函数向量作为适应度,计算初始种群的适应度;对初始种群进行非支配排序将样本划分为多个非支配层;通过遗传算法的选择、交叉、变异三个基本操作得到第一代子代种群。
(2)从第二代开始,将父代种群与子代种群合并,进行快速非支配排序,同时对每个非支配层中的个体进行拥挤度计算,根据非支配关系以及个体的拥挤度选取合适的个体组成新的父代种群。
(3)通过遗传算法的基本操作产生新的子代种群;再将新的父代种群和子代种群进行合并,依此类推,直到达到遗传算法设定的迭代次数为止。
其中,具体而言,多目标优化包括两个目标,分别为上述的IV值和HHI系数,进行IV值最大化优化和HHI系数最小值优化,通过采用NSGA-II遗传算法进行上述多目标优化求解,待迭代次数完成后,即可获得多个最优解。本申请实施例通过采用NSGA-II遗传算法,能够同时优化分箱结果的IV值和HHI值,在分箱效果良好,IV值最大化的情况下,达到使分箱更为均匀的技术效果。
本申请实施例提供的方法中的步骤S800包括:
S810:根据所述目标函数向量的第一维度确定第一决策变量X;
S820:将所述第一决策变量X还原为对应的分割点,获得最优分割点。
具体而言,示例性地,在基于NSGA-II遗传算法迭代进化得到多个最优解后,在实际的分箱算法业务需求中,需要获得IV值最大化的分箱结果,以期获得基于能够表现对目标事件是否发生预测能力最佳的分箱结果。而关于HHI系数,能够保证分箱结果保持有一定的均匀水平即可,因此,本申请实施例通过根据所述目标函数向量的第一维度(IV值最大化)确定第一决策变量X,即可得到IV值最大化的分割处理对应的第一决策变量X。并基于该第一决策变量X获得对第一数据样本最优的分割点,进而根据该分割点进行分箱。
本申请实施例通过根据目标函数向量的第一维度确定第一决策变量X,能够获得对应IV值最大化的最优分割点,使基于该第一决策变量X的分箱结果中,各组数据对于预测目标事件能否发生的表征量最大化,达到获得最佳分箱结果的技术效果。
下面就本申请实施例提供的基于NSGA-II遗传算法的最优分箱数据处理方法在实际应用中的场景进行说明,以使能够更好地理解本申请的技术方案,但不作为本申请的限制。
在研究各种因素对乳腺癌患病的影响时,获得一数据样本load_breast_cancer,其为一569*30维的数据集,包含569个样本,每个样本含有30个特征。
上述30个特征分别是:mean radius(平均半径),mean texture(平均纹理),meanperimeter(平均周长),mean area(平均面积),mean smoothness(平均平滑度),meancompactness(平均紧密度),mean concavity(平均凹度),mean concave points(平均凹点),mean symmetry(平均对称性),mean fractal dimension(平均分形维数),radiuserror(半径误差),texture error(纹理误差),perimeter error(周长误差),area error(面积误差),smoothness error(平滑度误差),compactness error(紧凑度误差),concavity error(凹度误差),concave points error(凹点误差),symmetry error(对称性误差),fractal dimension error(分形维数误差),worst radius(最差半径),worsttexture(最差纹理),worst perimeter(最差周长),worst area(最差面积),worstsmoothness(最差光滑度),worst compactness(最差紧致度),worst concavity(最差凹度),worst concave points(最差凹点),worst symmetry(最差对称性),worst fractaldimension(最差分形维数)
与每个样本对应的目标变量是二分类变量,1表示患有乳腺癌,0表示没有患乳腺癌。
选择其中连续性变量mean radius(平均半径),对变量进行数据预处理,划分出缺失值箱Missing、异常值箱Outlier和特殊值箱Special;
(3)将剩余样本进行预分箱找出21个分割点(加上左右边界的分割点),划分为20箱,划分出的箱为[6.98100,8.03745)、[8.03745,9.09390)、[9.09390,10.15035)、[10.15035,11.20680)、[11.20680,12.26325)、[12.26325,13.31970)、[13.31970,14.37615)、[14.37615,15.43260)、[15.43260,16.48905)、[16.48905,17.54550)、[17.54550,18.60195)、[18.60195,19.65840)、[19.65840,20.71485)、[20.71485,21.77130)、[21.77130,22.82775)、[22.82775,23.88420)、[23.88420,24.94065)、[24.94065,25.99710)、[25.99710,27.05355)、[27.05355,28.11000)
每个样本根据其mean radius变量值大小,找到所属的箱,将变量值转变为对应的箱号,即转变为0-19范围内的值;
通过对预分箱的合并,根据上述目标函数,使用NSGA-II遗传算法进行30轮迭代,求解划分出来的最优箱,按照目标函数的第一维度IV值最大选择最优分箱;
根据遗传算法得到的整数变量X得到最优分割点,将X中连续为0的箱进行合并,并保留左右边界的分割点,最终选中的分割点为[6.981, 11.20680, 12.26325, 13.31970,14.37615, 15.43260, 17.54550, 23.88420, 28.11000]
计算分箱后的IV值,统计最优分箱耗时。
经验证结果,对于上述的同样的数据,分别采用本申请实施例提供的方法和决策树分箱方法进行分箱操作,本申请实施例提供的分箱方法性能和效果明显优于决策树分箱,具体分箱结果性能和效果如表1所示。
表1本申请实施例分箱法和决策树分箱的分箱效果和性能
本申请实施例提供的分箱法将分箱这种数据处理方法通过涵盖多个约束和多个目标的最优化方程求解,即解决了实际建模时业务的需要,如实际建模时对箱数上下界的约束、样本量的约束和每一箱事件发生与否样本量的约束;又提升了分箱效果,在分箱效果良好的情况下使得分箱更均匀。
综上所述,本申请实施例通过对数据样本进行预处理,得到处理后的第一数据样本,然后进行预分箱获得n个预分箱,根据n个预分箱,定义决策变量矩阵,对n个预分箱进行合并处理,然后计算合并后的与决策变量矩阵对应的IV值,根据决策变量矩阵和IV值定义目标函数向量,然后设置分箱的约束条件,采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解,获得多个最优解,根据多个最优解获得最优分割点,然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件,如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束,以满足各种业务的需求,通过预分箱减少分箱时间消耗,提升分箱的速率,排除异常数据的影响,可以同时优化分箱的IV值和HHI值,在分箱效果良好的情况下使得分箱更均匀,且分箱后可以保证WoE单调性,达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。
实施例二
基于与前述实施例中一种基于NSGA-II遗传算法的最优分箱数据处理方法相同的发明构思,如图6所示,本申请实施例提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统,其中,所述系统包括:
第一获得单元11,所述第一获得单元11用于对数据样本进行预处理,获得第一数据样本;
第一处理单元12,所述第一处理单元12用于按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;
第四处理单元16,所述第四处理单元16用于设定分箱的约束条件;
第五处理单元17,所述第五处理单元17用于根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;
第三获得单元18,所述第三获得单元18用于根据所述多个最优解,获得最优分割点;
第六处理单元19,所述第六处理单元19用于根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
进一步的,所述系统还包括:
第四获得单元,所述第四获得单元用于获得预处理规则;
第七处理单元,所述第七处理单元用于按照所述预处理规则,对所述数据样本进行预处理,获得第二数据样本,所述第二数据样本包括不符合所述预处理规则的数据;
第八处理单元,所述第八处理单元用于对所述第二数据样本进行单独分箱;
第五获得单元,所述第五获得单元用于根据所述数据样本和所述第二数据样本,获得所述第一数据样本。
进一步的,所述系统还包括:
第六获得单元,所述第六获得单元用于通过NSGA-II遗传算法获得第一子代种群;
第九处理单元,所述第九处理单元用于将父代种群与子代种群合并,获得新父代种群。
第七获得单元,所述第七获得单元用于获得新子代种群;
第十处理单元,所述第十处理单元用于再将新父代种群和所述新子代种群进行合并,依此类推,直到达到遗传算法设定的迭代次数为止,获得多个最优解。
进一步的,所述系统还包括:
第十一处理单元,所述第十一处理单元用于根据所述目标函数向量的第一维度确定第一决策变量X;
第八获得单元,所述第八获得单元用于将所述第一决策变量X还原为对应的分割点,获得最优分割点。
示例性电子设备
下面参考图7来描述本申请实施例的电子设备,
基于与前述实施例中一种基于NSGA-II遗传算法的最优分箱数据处理方法相同的发明构思,本申请实施例还提供了一种基于NSGA-II遗传算法的最优分箱数据处理系统,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得系统以执行实施例一所述方法的步骤。
该电子设备300包括:处理器302、通信接口303、存储器301。可选的,电子设备300还可以包括总线架构304。其中,通信接口303、处理器302以及存储器301可以通过总线架构304相互连接;总线架构304可以是外设部件互连标(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture,简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器302可以是一个CPU,微处理器,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。
通信接口303,使用任何收发器一类的系统,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN),有线接入网等。
存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable Programmable read-only memory,EEPROM)、只读光盘(compactdisc
read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器301用于存储执行本申请方案的计算机执行指令,并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令,从而实现本申请上述实施例提供的一种基于NSGA-II遗传算法的最优分箱数据处理方法。
可选的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
本申请实施例通过对数据样本进行预处理,得到处理后的第一数据样本,然后进行预分箱获得n个预分箱,根据n个预分箱,定义决策变量矩阵,对n个预分箱进行合并处理,然后计算合并后的与定义决策变量矩阵对应的IV值,根据决策变量矩阵和IV值定义目标函数向量,然后设置分箱的约束条件,采用NSGA-II遗传算法对上述的第一数据样本进行多目标优化求解,获得多个最优解,根据多个最优解获得最优分割点,然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件,如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束,以满足各种业务的需求,通过预分箱减少分箱时间消耗,提升分箱的速率,排除异常数据的影响,可以同时优化分箱的IV值和HHI值,在分箱效果良好的情况下使得分箱更均匀,且分箱后可以保证WOE单调性,达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。
本领域普通技术人员可以理解:本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围,也不表示先后顺序。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a ,b,或c中的至少一项(个、种),可以表示:a ,b,c,a -b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑系统,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算系统的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于终端中。可选地,处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。
Claims (8)
1.一种基于NSGA-II遗传算法的最优分箱数据处理方法,其中,所述方法包括:
对数据样本进行预处理,获得第一数据样本;
按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;
获得所述决策变量矩阵Xij的IV值;
根据所述决策变量矩阵Xij和所述IV值定义目标函数向量;
设定分箱的约束条件;
根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;
根据所述多个最优解,获得最优分割点;
根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱;
所述对数据样本进行预处理,获得第一数据样本,包括:
获得预处理规则;
按照所述预处理规则,对所述数据样本进行预处理,获得第二数据样本,所述第二数据样本包括不符合所述预处理规则的数据;
对所述第二数据样本进行单独分箱;
根据所述数据样本和所述第二数据样本,获得所述第一数据样本。
2.如权利要求1所述的方法,其中,所述决策变量矩阵X满足的约束条件包括:
所述决策变量矩阵X的每一列须包含一个1;
所述决策变量矩阵X的每一行取值单调不减;
所述决策变量矩阵X的最后一箱的形式须为[sk,∞),k≤n,同时需满足Xnn=1;
只有连续的所述预分箱可以被合并,不相邻的所述预分箱不能进行合并。
5.如权利要求1所述的方法,其中,所述根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解,包括:
通过NSGA-II遗传算法获得第一子代种群;
将父代种群与子代种群合并,获得新父代种群;
获得新子代种群;
再将新父代种群和所述新子代种群进行合并,依此类推,直到达到遗传算法设定的迭代次数为止,获得多个最优解。
6.如权利要求1所述的方法,其中,所述根据所述多个最优解,获得最优分割点,包括:
根据所述目标函数向量的第一维度确定第一决策变量X;
将所述第一决策变量X还原为对应的分割点,获得最优分割点。
7.一种基于NSGA-II遗传算法的最优分箱数据处理系统,其中,所述系统包括:
第一获得单元,所述第一获得单元用于对数据样本进行预处理,获得第一数据样本;
第一处理单元,所述第一处理单元用于按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;
第二获得单元,所述第二获得单元用于获得所述决策变量矩阵Xij的IV值;
第三处理单元,所述第三处理单元用于根据所述决策变量矩阵Xij和所述IV值定义目标函数向量;
第四处理单元,所述第四处理单元用于设定分箱的约束条件;
第五处理单元,所述第五处理单元用于根据所述分箱的约束条件和所述目标函数向量,使用NSGA-II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;
第三获得单元,所述第三获得单元用于根据所述多个最优解,获得最优分割点;
第六处理单元,所述第六处理单元用于根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱;
第四获得单元,所述第四获得单元用于获得预处理规则;
第七处理单元,所述第七处理单元用于按照所述预处理规则,对所述数据样本进行预处理,获得第二数据样本,所述第二数据样本包括不符合所述预处理规则的数据;
第八处理单元,所述第八处理单元用于对所述第二数据样本进行单独分箱;
第五获得单元,所述第五获得单元用于根据所述数据样本和所述第二数据样本,获得所述第一数据样本。
8.一种基于NSGA-II遗传算法的最优分箱数据处理系统,其中,所述系统包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使系统以执行如权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111499775.4A CN114186628B (zh) | 2021-12-09 | 2021-12-09 | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111499775.4A CN114186628B (zh) | 2021-12-09 | 2021-12-09 | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114186628A CN114186628A (zh) | 2022-03-15 |
CN114186628B true CN114186628B (zh) | 2022-08-26 |
Family
ID=80542945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111499775.4A Active CN114186628B (zh) | 2021-12-09 | 2021-12-09 | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186628B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN110084441A (zh) * | 2019-05-16 | 2019-08-02 | 杭州排列科技有限公司 | 基于组合最优化的自动化分箱算法 |
CN111507824A (zh) * | 2020-04-15 | 2020-08-07 | 上海勃池信息技术有限公司 | 风控模型入模变量最小熵分箱方法 |
AU2020101453A4 (en) * | 2020-07-23 | 2020-08-27 | China Communications Construction Co., Ltd. | An Intelligent Optimization Method of Durable Concrete Mix Proportion Based on Data mining |
CN111860843A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 变量离散化控制方法及系统 |
-
2021
- 2021-12-09 CN CN202111499775.4A patent/CN114186628B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN110084441A (zh) * | 2019-05-16 | 2019-08-02 | 杭州排列科技有限公司 | 基于组合最优化的自动化分箱算法 |
CN111507824A (zh) * | 2020-04-15 | 2020-08-07 | 上海勃池信息技术有限公司 | 风控模型入模变量最小熵分箱方法 |
CN111860843A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 变量离散化控制方法及系统 |
AU2020101453A4 (en) * | 2020-07-23 | 2020-08-27 | China Communications Construction Co., Ltd. | An Intelligent Optimization Method of Durable Concrete Mix Proportion Based on Data mining |
Non-Patent Citations (2)
Title |
---|
基于双重扰动与核ELM融合的大学生贫困认定模型研究;郑建华 等;《重庆理工大学学报(自然科学)》;20210531;第35卷(第5期);全文 * |
自适应分箱特征选择的快速网络入侵检测系统;刘景美 等;《西安电子科技大学学报》;20210228;第48卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114186628A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20120075440A1 (en) | Entropy based image separation | |
CN115131566A (zh) | 基于超像素和改进模糊c均值聚类的自动图像分割方法 | |
US9058540B2 (en) | Data clustering method and device, data processing apparatus and image processing apparatus | |
CN108319698B (zh) | 一种基于博弈的流图划分方法和系统 | |
CN103745482B (zh) | 一种基于蝙蝠算法优化模糊熵的双阈值图像分割方法 | |
CN108764726B (zh) | 根据规则对请求进行决策的方法及装置 | |
CN115641177B (zh) | 一种基于机器学习的防秒杀预判系统 | |
CN112801231B (zh) | 用于业务对象分类的决策模型训练方法和装置 | |
CN113708969A (zh) | 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法 | |
CN109214671B (zh) | 人员分组方法、装置、电子装置及计算机可读存储介质 | |
CN110996365B (zh) | 一种基于多目标优化模型的异构网络垂直切换算法及系统 | |
CN114186628B (zh) | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN110458690A (zh) | 一种信用评分模型的建立方法及装置 | |
CN117407921A (zh) | 基于必连和勿连约束的差分隐私直方图发布方法及系统 | |
CN116504314B (zh) | 基于细胞动态分化的基因调控网络构建方法 | |
CN110275895B (zh) | 一种缺失交通数据的填充设备、装置及方法 | |
CN116302527A (zh) | 一种社交网络数据分析方法、系统及电子设备 | |
CN115797726A (zh) | 模型获得方法、装置、电子设备及存储介质 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
KR20210073425A (ko) | 이미지 패치의 복잡도 측정 방법 | |
KR101576358B1 (ko) | 온라인 분석 처리를 위한 그래프 큐브의 생성 방법 | |
CN114967452A (zh) | 一种基于模型的高效益企业控制方法及系统 | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 | |
CN110298406A (zh) | 一种数据均衡化的方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |