CN103198357A - 基于nsga-ⅱ优化改进的模糊分类模型构造方法 - Google Patents
基于nsga-ⅱ优化改进的模糊分类模型构造方法 Download PDFInfo
- Publication number
- CN103198357A CN103198357A CN 201310117731 CN201310117731A CN103198357A CN 103198357 A CN103198357 A CN 103198357A CN 201310117731 CN201310117731 CN 201310117731 CN 201310117731 A CN201310117731 A CN 201310117731A CN 103198357 A CN103198357 A CN 103198357A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- population
- classification model
- nsga
- chromosome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法,减少特征变量、模糊规则及其前件的冗余,提高模糊分类模型的解释性。首先通过C4.5算法构造初始决策树,实现对特征变量和模糊集合数的选择;然后利用三角隶属函数将决策树转化为初始模糊分类模型;最后基于NSGA-Ⅱ优化模糊分类模型,同时通过对模糊规则及其前件的选择来删除模糊规则中的冗余,从而提高了模糊分类模型的精确性和解释性。
Description
技术领域
本发明属于数据挖掘和人工智能的技术领域,涉及一种模糊分类模型构造方法,尤其是一种基于第二代非支配排序遗传算法(Non-dominated sorting genetic algorithm Ⅱ, NSGA-Ⅱ)优化改进的模糊分类模型构造方法。
背景技术
模糊分类模型的知识表达形式和推理机制符合人类思维习惯,其结构和模糊集合隶属函数参数具有明显的物理意义。人们可通过易于理解的模糊规则洞察分类模型的内部运行机理,即解释性是模糊分类模型最显著的特征,尤其在医学、金融等领域,解释性甚至成为构建分类模型时的首要目标。
随着分类问题维数和复杂性的提高,利用传统的方法构造模糊分类模型主要存在
以下几个问题而使模型不具备解释性:1)特征变量的维数存在冗余;2)模糊规则数比实际需要的多;3)模糊规则前件数比实际需要的多;4)模糊集合的数量与参数设计不合理。为克服以上问题,诸多学者对在保证系统精确性时如何提高模型的解释性进行了相关研究。“J.Pan, D. Westwick, E. Nowicki. Flux estimation of induction machines with the linear parameter-varing system identification method [C]. Canadian Conference on Electrical and Computer, Engineering. 2004” 利用决策树初始化模糊模型,采用模糊集合相似性度量和相似性奖励遗传算法对模型进行迭代简化,最后利用相似性惩罚遗传算法整体优化模型,但惩罚因子需预先给定。“A. Gonzalez, R. Perez. Selection ofrelevant features in a fuzzy genetic learning algorithm. IEEE Transactions on Systems, Man and Cybernetics. 2001(31): 417-425” 将二进制编码的遗传算法用于分类模型中输入变量的选择和规则的优化,但是未涉及规则前件的优化。“F.Berlanga, M. Jesus, F. Herrera. Learning fuzzy rules using genetic programming: context-free grammar definition for high-dimensionality problems. Proceedings ofthe I Workshop on Genetic Fuzzy Systems. 2005: 136-141”和“F. Berlanga, M. Jesus, F. Herrera. GP-COACH:genetic programming-basedlearning of compact and accurate fuzzy rule-based classification systems for high-dimensional problems. Information Sciences. 2010(180): 1183-1200” 将析取泛式用于分类模型规则库的遗传优化中,减少了模糊规则数,但是规则前件数仍较多。
上述技术均对模糊分类模型进行了优化,不同程度地提高了模型的解释性,但是特征变量、模糊规则及其前件冗余的情况仍然存在。
发明内容
本发明的目的在于提供一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法,减少特征变量、模糊规则及其前件的冗余,提高模糊分类模型的解释性。首先通过C4.5算法构造初始决策树,实现对特征变量和模糊集合数的选择;然后利用三角隶属函数将决策树转化为初始模糊分类模型;最后基于NSGA-Ⅱ优化模糊分类模型,同时通过对模糊规则及其前件的选择来删除模糊规则中的冗余,从而提高了模糊分类模型的精确性和解释性。
实现本发明目的的技术解决方案为:一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法,包括以下步骤:
步骤一、构造初始模糊分类模型
根据样本输入输出数据,利用C4.5算法构造初始分类决策树,采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型;
步骤二、设定进化参数
给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm;
步骤三、产生初始代种群
将初始模糊分类模型直接编码产生第一条染色体,定义模糊分类模型编码方式如下:
CH=CSCT
CS=(cs1,cs2,…,csR)
csr=(d1,r,…,dn,r,dn+1,r)
CT=(ct1,ct2,…,ctn+1)
其中CH表示染色体,CS为模糊分类模型的规则库中所有规则编码,crr为单条规则编码,r=1,2,…,R,R为规则库中的规则数;di,r为规则r中变量i的编码,取值为0或者1,i=1,2…,n+1,n为输入变量数;CT为模糊集合参数编码,cti代表变量i的模糊集合参数编码,mi表示变量i的模糊集合数;
第一条染色体中CS所有基因值均取1,模糊集合参数由初始模糊分类模型的模糊集合参数实数编码得到。剩下的L-1条染色体,CS中所有基因值也都取1,CT以第一条染色体的CT为中心在搜索空间内随机均匀生成。这L条染色体构成初始代种群;
步骤四、定义适应度函数
定义如下适应度函数:
步骤五、全局搜索最优个体并输出
利用NSGA-Ⅱ算法全局搜索最优个体,将最优个体反编码为模糊分类模型并输出,初始迭代次数t=0,。
步骤一中,采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型的过程如下:
首先记录全部决策节点值以及每个叶子的类标识;然后若输入变量xi的论域范围为[pi,qi],其论域上相邻的两个决策节点的值分别为si,fi,,且si<fi,pi<qi,则区间[si,fi]上的模糊集合隶属函数定义如下:
最后将初始决策树从树的顶端到每个叶子节点的路径都转化为一条模糊规则,每条路径上其决策节点对应的模糊集合为其对应模糊规则的前件部分,叶子节点对应的类别是规则后件。
步骤三中,剩下的L-1条染色体,CT以第一条染色体的CT为中心在搜索空间内随机均匀生成,其中搜索空间为:
其中,(aji,bji,cji)为初始模糊分类模型的模糊集合参数,i=1,2,…,n,j=1,2,…,mi。
步骤五中,利用NSGA-Ⅱ算法全局搜索最优个体的过程如下:
5.1对种群进行遗传操作:采用二进制锦标赛选择;对染色体CT部分进行BLX-0.5交叉,对染色体CS部分进行HUX交叉,交叉率为pc;CS和CT在进行交叉后各有两个子代,结合它们得到四条子代染色体,对这四条子代染色体进行概率为pm的单点变异操作,即在CS和CT中各随机选择一个基因进行变异;将变异后的四条染色体反编码为对应的模糊分类模型,计算它们的适应度函数值,留下准确性最高的两条染色体作为子代。第t代种群在遗传操作完成后得到子代种群。
5.2混合第t代种群及其子代种群得到个体数为2L的新种群。
5.3将新种群中的个体反编码为对应的模糊分类模型,计算每个模型的适应度函数值,对新种群中的所有个体的适应度函数值进行非支配水平排序与密集度评估。
5.4采用比较运算符对新种群中所有个体的适应度函数值进行排序,取前L个个体作为下一代种群。
5.5迭代次数t加1,若t<MAXTER,则返回1),否则,算法终止。
5.6当前种群中非支配水平最高个体中精确性最高的个体即为最优个体。
本发明与现有技术相比,其显著优点:(1)采用C4.5算法构造决策树,实现了对输入变量和模糊集合数的选择;(2)利用NSGA-Ⅱ算法优化初始模糊分类模型,优化了模糊集合参数,提高了模型的精确性;(3)对模糊规则及其前件进行选择,减少了模糊规则及其前件的冗余,提高了模型的解释性。
附图说明
附图是本发明基于NSGA-Ⅱ算法优化改进的模糊分类模型构造方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细描述。
本发明基于NSGA-Ⅱ优化改进的模糊分类模型构造方法过程如下:
步骤一、构造初始模糊分类模型
根据样本输入输出数据,利用C4.5算法构造初始分类决策树,该决策树把输入空间划分成各个清晰的经典集合,采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型:首先记录全部决策节点值以及每个叶子的类标识;然后若输入变量xi的论域范围为[pi,qi],其论域上相邻的两个决策节点的值分别为si,fi,,且si<fi,pi<qi,则区间[si,fi]上的模糊集合隶属函数定义如下:
最后将初始决策树从树的顶端到每个叶子节点的路径都转化为一条模糊规则,每条路径上其决策节点对应的模糊集合为其对应模糊规则的前件部分,叶子节点对应的类别是规则后件。
步骤二、设定进化参数
给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm。
步骤三、初始化种群
将初始模糊分类模型直接编码产生第一条染色体,定义模糊分类模型编码方式如下:
CH=CSCT
CS=(cs1,cs2,…,csR)
csr=(d1,r,…,dn,r,dn+1,r)
CT=(ct1,ct2,…,ctn+1)
其中CH表示染色体,CS为模糊分类模型的规则库中所有规则编码,csr为单条规则编码,r=1,2,…,R,R为规则库中的规则数;di,r为规则r中变量i的编码,取值为0或者1,目的是实现对模糊规则及其前件的选择,i=1,2..,n+1,n为输入变量数;CT为模糊集合参数编码,cti代表变量i的模糊集合参数编码,mi表示变量i的模糊集合数。
第一条染色体中CS所有基因值均取1,模糊集合参数由初始模糊分类模型的模糊集合参数实数编码得到。剩下的L-1条染色体,CS中所有基因值也都取1,CT以第一条染色体的CT为中心在搜索空间内随机均匀生成,搜索空间为:
其中,初始模糊分类模型的模糊集合参数为(aji,bji,cji),j=1,2,…,mi,i=1,2,…,n。
这L条染色体构成初始代种群。
步骤四、定义适应度函数
为保证分类的精确性和解释性,定义如下适应度函数:
步骤五、全局搜索最优个体并输出
初始迭代次数t=0,利用NSGA-Ⅱ算法全局搜索最优个体,将最优个体反编码为模糊分类模型并输出:
(1)对种群进行遗传操作:采用二进制锦标赛选择;对染色体CT部分进行BLX-0.5交叉,对染色体CS部分进行HUX交叉,交叉率为pc;CS和CT在进行交叉后各有两个子代,结合它们得到四条子代染色体,对这四条子代染色体进行概率为pm的单点变异操作,即在CS和CT中各随机选择一个基因进行变异;将变异后的四条染色体反编码为对应的模糊分类模型,计算它们的适应度函数值,留下准确性最高的两条染色体作为子代。第t代种群在遗传操作完成后得到子代种群。
(2)混合第t代种群及其子代种群得到个体数为2L的新种群。
(3)将新种群中的个体反编码为对应的模糊分类模型,计算每个模型的适应度函数值,对新种群中的所有个体进行非支配水平排序与密集度评估。
(4)采用比较运算符对新种群中所有个体的适应度函数值进行排序,取前L个个体作为下一代种群。
(5)迭代次数t加1,若t<MAXTER,则返回1),否则,算法终止。
(6)当前种群中非支配水平最高个体中精确性最高的个体即为最优个体,将最优个体反编码为模糊分类模型并输出,该模型的精确性和解释性均较好。
实施例
以下实施例选择每条规则平均输入变量数、模糊规则数、每条规则平均前件数和正确分类率来评价分类效果。
一般来讲,正确分类率越高,分类方法精确性越高,每条规则平均输入变量数、模糊规则数、每条规则平均前件数越小,分类结果解释性越好。
实验采用MATLAB语言编程实现,分别采用Iris、Wine这两个知名数据集作为测试样本集。其中Iris数据集包含150个4维的模式向量,分为三类;Wine数据集包含178个13维的模式向量,分为3类。两类数据随机选取80%的样本作为训练数据,剩下20%的样本作为测试数据。参数设置如下:2SLAVE算法种群规模20,最大迭代次数1000,交叉率0.6,变异率0.05;FRBCS_GP算法种群规模200,最大迭代次数100,交叉率0.5,变异率0.4;GP-COACH算法种群规模200,最大迭代次数100,交叉率0.7,变异率0.5;本发明种群规模100,最大迭代次数800,交叉率0.8,变异率0.6。四类算法每个运行十次,将评价分类效果的指标求得平均值,运行结果如表1所示。
表1分类结果比较
从表1可以看出:
(1)对两个数据集使用四种方法进行分类,本发明的方法构建的模糊分类模型与其
它方法相比,对于Wine数据每条规则平均输入变量数是最少的,对于Iris数据少于2SLAVE和FRBCS-GP方法,与GP-COACH方法相近。因此实现了对特征变量的选择,减少了特征变量的冗余。
(2)本发明构造的模糊分类模型模糊规则数与其他方法相比,对于Wine数据是最少的,对于Iris数据模糊规则数与其它方法相近。因此模糊规则冗余较少。
(3)本发明构造的模糊分类模型每条规则平均前件数与其它方法相比,无论是Wine数据还是Iris数据,都是最少的,有效减少了规则前件的冗余。
(4)本发明构造的模糊分类模型的训练正确分类率与其它方法相比,对于Wine数据和Iris数据都是最高的,检验正确分类率则与其他方法相近,因此本发明能够保证模糊分类模型的精确性。
实验表明相比现有技术,本发明能够较好地克服传统方法构造模糊分类模型的缺点,在保证模型精确性的同时高模型的解释性。
Claims (4)
1.一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法,其特征在于步骤如下:
步骤一、构造初始模糊分类模型
根据样本输入输出数据,利用C4.5算法构造初始分类决策树,采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型;
步骤二、设定进化参数
给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm;
步骤三、产生初始代种群
将初始模糊分类模型直接编码产生第一条染色体,定义模糊分类模型编码方式如下:
CH=CSCT
CS=(cs1,cs2,…,csR)
csr=(d1,r,…,dn,r,dn+1,r)
CT=(ct1,ct2,…,ctn+1)
其中,CH表示染色体,CS为模糊分类模型的规则库中所有规则编码,csr为单条规则编码,r=1,2,…,R,R为规则库中的规则数;di,r为规则r中变量i的编码,取值为0或者1,i=1,2…,n+1,n为输入变量数;CT为模糊集合参数编码,cti代表变量i的模糊集合参数编码,mi表示变量i的模糊集合数;
第一条染色体中CS所有基因值均取1,模糊集合参数由初始模糊分类模型的模糊集合参数实数编码得到;剩下的L-1条染色体、CS中所有基因值都取1,CT以第一条染色体的CT为中心在搜索空间内随机均匀生成,这L条染色体构成初始代种群;
步骤四、定义适应度函数
定义如下适应度函数:
步骤五、全局搜索最优个体并输出
利用NSGA-Ⅱ算法全局搜索最优个体,将最优个体反编码为模糊分类模型并输出,初始迭代次数t=0。
3.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊分类模型构造方法,其特征在于,所述步骤三中,剩下的L-1条染色体,CT以第一条染色体的CT为中心在搜索空间内随机均匀生成,其中搜索空间为:
其中,(aji,bji,cji)为初始模糊分类模型的模糊集合参数,i=1,2,…,n,j=1,2,…,mi。
4.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊分类模型构造方法,其特征在于,所述步骤五中,利用NSGA-Ⅱ算法全局搜索最优个体的过程如下:
5.1对种群进行遗传操作:采用二进制锦标赛选择;对染色体CT部分进行
BLX-0.5交叉,对染色体CS部分进行HUX交叉,交叉率为pc;每两条染色体的CS和CT在进行交叉后各有两个子代,结合它们得到四条子代染色体,对这四条子代染色体进行概率为pm的单点变异操作,即在CS和CT中各随机选择一个基因进行变异;将变异后的四条染色体反编码为对应的模糊分类模型,计算它们的适应度函数值,留下准确性最高的两条染色体作为子代;第t代种群在遗传操作完成后得到子代种群;
5.2混合第t代种群及其子代种群得到个体数为2L的新种群;
5.3将新种群中的个体反编码为对应的模糊分类模型,计算每个模型的适应度函数值,对新种群中的所有个体的适应度函数值进行非支配水平排序与密集度评估;
5.4采用比较运算符对新种群中所有个体的适应度函数值进行排序,取前L个个体作为下一代种群;
5.5迭代次数t加1,若t<MAXTER,则返回5.1,否则,算法终止;
5.6当前种群中非支配水平最高个体中精确性最高的个体即为最优个体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201310117731 CN103198357A (zh) | 2013-04-03 | 2013-04-03 | 基于nsga-ⅱ优化改进的模糊分类模型构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201310117731 CN103198357A (zh) | 2013-04-03 | 2013-04-03 | 基于nsga-ⅱ优化改进的模糊分类模型构造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103198357A true CN103198357A (zh) | 2013-07-10 |
Family
ID=48720883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201310117731 Pending CN103198357A (zh) | 2013-04-03 | 2013-04-03 | 基于nsga-ⅱ优化改进的模糊分类模型构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103198357A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845012A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 一种基于多目标密度聚类的高炉煤气系统模型隶属度函数确定方法 |
CN110413860A (zh) * | 2019-07-16 | 2019-11-05 | 东华大学 | 一种基于nsga-ii的多云环境下云实例的多目标优化选择方法 |
CN111860688A (zh) * | 2020-07-31 | 2020-10-30 | 北京无线电测量研究所 | 一种目标类型识别方法、系统及电子设备 |
-
2013
- 2013-04-03 CN CN 201310117731 patent/CN103198357A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845012A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 一种基于多目标密度聚类的高炉煤气系统模型隶属度函数确定方法 |
CN106845012B (zh) * | 2017-02-17 | 2019-09-27 | 大连理工大学 | 一种基于多目标密度聚类的高炉煤气系统模型隶属度函数确定方法 |
CN110413860A (zh) * | 2019-07-16 | 2019-11-05 | 东华大学 | 一种基于nsga-ii的多云环境下云实例的多目标优化选择方法 |
CN110413860B (zh) * | 2019-07-16 | 2023-06-23 | 东华大学 | 一种基于nsga-ii的多云环境下云实例的多目标优化选择方法 |
CN111860688A (zh) * | 2020-07-31 | 2020-10-30 | 北京无线电测量研究所 | 一种目标类型识别方法、系统及电子设备 |
CN111860688B (zh) * | 2020-07-31 | 2023-10-31 | 北京无线电测量研究所 | 一种目标类型识别方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108854B (zh) | 城市路网链路预测方法、系统及存储介质 | |
Khalili-Damghani et al. | A hybrid fuzzy rule-based multi-criteria framework for sustainable project portfolio selection | |
Wu et al. | Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm | |
Lin et al. | An improved polynomial neural network classifier using real-coded genetic algorithm | |
CN105096614B (zh) | 基于生成型深信度网络的新建路口交通流量预测方法 | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
Rahman et al. | Discretization of continuous attributes through low frequency numerical values and attribute interdependency | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN109101584A (zh) | 一种将深度学习与数学分析相结合的句子分类改进方法 | |
Kumar et al. | A benchmark to select data mining based classification algorithms for business intelligence and decision support systems | |
CN106127330A (zh) | 基于最小二乘支持向量机的脉动风速预测方法 | |
CN115310677B (zh) | 一种基于二进制编码表示与多分类的航迹预测方法及装置 | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
CN108985455A (zh) | 一种计算机应用神经网络预测方法及系统 | |
Dostál | The use of soft computing for optimization in business, economics, and finance | |
CN103310027B (zh) | 用于地图模板匹配的规则提取方法 | |
CN103198357A (zh) | 基于nsga-ⅱ优化改进的模糊分类模型构造方法 | |
CN103198359A (zh) | 基于nsga-ⅱ优化改进的模糊回归模型构造方法 | |
Farooq | Genetic algorithm technique in hybrid intelligent systems for pattern recognition | |
Van Tinh et al. | A new hybrid fuzzy time series forecasting model based on combining fuzzy c-means clustering and particle swam optimization | |
CN105354644A (zh) | 一种基于集成经验模态分解和1-范数支持向量机分位数回归的金融时间序列预测方法 | |
CN116306785A (zh) | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 | |
Wu et al. | Discovering Mathematical Expressions Through DeepSymNet: A Classification-Based Symbolic Regression Framework | |
Tai et al. | Interpolating time series based on fuzzy cluster analysis problem | |
Yang et al. | A Novel Hybrid Model for Gasoline Prices Forecasting Based on Lasso and CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130710 |