CN103198357A

CN103198357A - 基于nsga-ⅱ优化改进的模糊分类模型构造方法

Info

Publication number: CN103198357A
Application number: CN 201310117731
Authority: CN
Inventors: 邢宗义; 朱跃; 季海燕; 俞秀莲; 夏军; 陈岳剑; 任金保
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2013-07-10

Abstract

本发明公开了一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，减少特征变量、模糊规则及其前件的冗余，提高模糊分类模型的解释性。首先通过C4.5算法构造初始决策树，实现对特征变量和模糊集合数的选择；然后利用三角隶属函数将决策树转化为初始模糊分类模型；最后基于NSGA-Ⅱ优化模糊分类模型，同时通过对模糊规则及其前件的选择来删除模糊规则中的冗余，从而提高了模糊分类模型的精确性和解释性。

Description

基于NSGA-Ⅱ优化改进的模糊分类模型构造方法

技术领域

本发明属于数据挖掘和人工智能的技术领域，涉及一种模糊分类模型构造方法，尤其是一种基于第二代非支配排序遗传算法（Non-dominated sorting genetic algorithm Ⅱ, NSGA-Ⅱ）优化改进的模糊分类模型构造方法。

背景技术

模糊分类模型的知识表达形式和推理机制符合人类思维习惯，其结构和模糊集合隶属函数参数具有明显的物理意义。人们可通过易于理解的模糊规则洞察分类模型的内部运行机理，即解释性是模糊分类模型最显著的特征，尤其在医学、金融等领域，解释性甚至成为构建分类模型时的首要目标。

随着分类问题维数和复杂性的提高，利用传统的方法构造模糊分类模型主要存在

以下几个问题而使模型不具备解释性：1)特征变量的维数存在冗余；2)模糊规则数比实际需要的多；3)模糊规则前件数比实际需要的多；4)模糊集合的数量与参数设计不合理。为克服以上问题，诸多学者对在保证系统精确性时如何提高模型的解释性进行了相关研究。“J.Pan, D. Westwick, E. Nowicki. Flux estimation of induction machines with the linear parameter-varing system identification method [C]. Canadian Conference on Electrical and Computer, Engineering. 2004” 利用决策树初始化模糊模型，采用模糊集合相似性度量和相似性奖励遗传算法对模型进行迭代简化，最后利用相似性惩罚遗传算法整体优化模型，但惩罚因子需预先给定。“A. Gonzalez, R. Perez. Selection ofrelevant features in a fuzzy genetic learning algorithm. IEEE Transactions on Systems, Man and Cybernetics. 2001(31): 417-425” 将二进制编码的遗传算法用于分类模型中输入变量的选择和规则的优化，但是未涉及规则前件的优化。“F.Berlanga, M. Jesus, F. Herrera. Learning fuzzy rules using genetic programming: context-free grammar definition for high-dimensionality problems. Proceedings ofthe I Workshop on Genetic Fuzzy Systems. 2005: 136-141”和“F. Berlanga, M. Jesus, F. Herrera. GP-COACH:genetic programming-basedlearning of compact and accurate fuzzy rule-based classification systems for high-dimensional problems. Information Sciences. 2010(180): 1183-1200” 将析取泛式用于分类模型规则库的遗传优化中，减少了模糊规则数，但是规则前件数仍较多。

上述技术均对模糊分类模型进行了优化，不同程度地提高了模型的解释性，但是特征变量、模糊规则及其前件冗余的情况仍然存在。

发明内容

本发明的目的在于提供一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，减少特征变量、模糊规则及其前件的冗余，提高模糊分类模型的解释性。首先通过C4.5算法构造初始决策树，实现对特征变量和模糊集合数的选择；然后利用三角隶属函数将决策树转化为初始模糊分类模型；最后基于NSGA-Ⅱ优化模糊分类模型，同时通过对模糊规则及其前件的选择来删除模糊规则中的冗余，从而提高了模糊分类模型的精确性和解释性。

实现本发明目的的技术解决方案为：一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，包括以下步骤：

步骤一、构造初始模糊分类模型

根据样本输入输出数据，利用C4.5算法构造初始分类决策树，采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型；

步骤二、设定进化参数

给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm；

步骤三、产生初始代种群

将初始模糊分类模型直接编码产生第一条染色体，定义模糊分类模型编码方式如下：

CH=C_SC_T

C_S=(cs₁,cs₂,…,cs_R)

cs_r=(d_1,r,…,d_n,r,d_n+1,r)

C_T=(ct₁,ct₂,…,ct_n+1)

{ct}_{i} = (a_{1 i}, b_{1 i}, c_{1 i}, . . ., a_{m^{i} i}, b_{m^{i} i}, c_{m^{i} i})

其中CH表示染色体，C_S为模糊分类模型的规则库中所有规则编码，cr_r为单条规则编码，r=1,2,…,R，R为规则库中的规则数；d_i,r为规则r中变量i的编码，取值为0或者1，i=1,2…,n+1，n为输入变量数；C_T为模糊集合参数编码，ct_i代表变量i的模糊集合参数编码，mⁱ表示变量i的模糊集合数；

第一条染色体中C_S所有基因值均取1，模糊集合参数由初始模糊分类模型的模糊集合参数实数编码得到。剩下的L-1条染色体，C_S中所有基因值也都取1，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成。这L条染色体构成初始代种群；

步骤四、定义适应度函数

定义如下适应度函数：

F_{1} = Σ_{k = 1}^{N} e_{k}

,F₂=R，F₃=rc

其中，x_k为给定样本变量，N表示样本数，

为分类错误数，R为模糊规则数，rc为模糊规则前件总数；

步骤五、全局搜索最优个体并输出

利用NSGA-Ⅱ算法全局搜索最优个体，将最优个体反编码为模糊分类模型并输出，初始迭代次数t=0，。

步骤一中，采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型的过程如下：

首先记录全部决策节点值以及每个叶子的类标识；然后若输入变量x_i的论域范围为[p_i,q_i]，其论域上相邻的两个决策节点的值分别为s_i,f_i，

，且s_i＜f_i,p_i＜q_i，则区间[s_i,f_i]上的模糊集合隶属函数定义如下：

μ (x_{i}) = \{\begin{matrix} 0 & m_{i} \leq x_{i} \leq (3 s_{i} - f_{i}) / 2 \\ \frac{x_{i} - (3 s_{i} - f_{i}) / 2}{(s_{i} + f_{i}) / 2 - (3 s_{i} - f_{i}) / 2} & ({3 s}_{i} - f_{i}) / 2 \leq x_{i} \leq (s_{i} + f_{i}) / 2 \\ \frac{(3 f_{i} - s_{i}) / 2 - x_{i}}{(3 f_{i} - s_{i}) / 2 - (s_{i} + f_{i}) / 2} & (s_{i} + f_{i}) / 2 \leq x_{i} \leq (3 f_{i} - s_{i}) / 2 \\ 0 & (3 f_{i} - s_{i}) / 2 \leq x_{i} \leq n_{i} \end{matrix}

最后将初始决策树从树的顶端到每个叶子节点的路径都转化为一条模糊规则，每条路径上其决策节点对应的模糊集合为其对应模糊规则的前件部分，叶子节点对应的类别是规则后件。

步骤三中，剩下的L-1条染色体，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，其中搜索空间为：

[I_{a_{ji}}^{l}, I_{a_{ji}}^{h}] = [a_{ji} - (b_{ji} - a_{ji}) / 2, a_{ji} + (b_{ji} - a_{ji}) / 2]

[I_{b_{ji}}^{l}, I_{b_{ji}}^{h}] = [b_{ji} - (b_{ji} - a_{ji}) / 2, b_{ji} + (c_{ji} - b_{ji}) / 2]

[I_{c_{ji}}^{l}, I_{c_{ji}}^{h}] = [c_{ji} - (c_{ji} - b_{ji}) / 2, c_{ji} + (c_{ji} - b_{ji}) / 2]

其中，(a_ji,b_ji,c_ji)为初始模糊分类模型的模糊集合参数，i=1,2,…,n，j=1,2,…,mⁱ。

步骤五中，利用NSGA-Ⅱ算法全局搜索最优个体的过程如下：

5.1对种群进行遗传操作：采用二进制锦标赛选择；对染色体C_T部分进行BLX-0.5交叉，对染色体C_S部分进行HUX交叉，交叉率为pc；C_S和C_T在进行交叉后各有两个子代，结合它们得到四条子代染色体，对这四条子代染色体进行概率为pm的单点变异操作，即在C_S和C_T中各随机选择一个基因进行变异；将变异后的四条染色体反编码为对应的模糊分类模型，计算它们的适应度函数值，留下准确性最高的两条染色体作为子代。第t代种群在遗传操作完成后得到子代种群。

5.2混合第t代种群及其子代种群得到个体数为2L的新种群。

5.3将新种群中的个体反编码为对应的模糊分类模型，计算每个模型的适应度函数值，对新种群中的所有个体的适应度函数值进行非支配水平排序与密集度评估。

5.4采用比较运算符对新种群中所有个体的适应度函数值进行排序，取前L个个体作为下一代种群。

5.5迭代次数t加1，若t<MAXTER，则返回1），否则，算法终止。

5.6当前种群中非支配水平最高个体中精确性最高的个体即为最优个体。

本发明与现有技术相比，其显著优点：（1）采用C4.5算法构造决策树，实现了对输入变量和模糊集合数的选择；（2）利用NSGA-Ⅱ算法优化初始模糊分类模型，优化了模糊集合参数，提高了模型的精确性；（3）对模糊规则及其前件进行选择，减少了模糊规则及其前件的冗余，提高了模型的解释性。

附图说明

附图是本发明基于NSGA-Ⅱ算法优化改进的模糊分类模型构造方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述。

本发明基于NSGA-Ⅱ优化改进的模糊分类模型构造方法过程如下：

步骤一、构造初始模糊分类模型

根据样本输入输出数据，利用C4.5算法构造初始分类决策树，该决策树把输入空间划分成各个清晰的经典集合，采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型：首先记录全部决策节点值以及每个叶子的类标识；然后若输入变量x_i的论域范围为[p_i,q_i]，其论域上相邻的两个决策节点的值分别为s_i,f_i，

μ (x_{i}) = \{\begin{matrix} 0 & m_{i} \leq x_{i} \leq (3 s_{i} - f_{i}) / 2 \\ \frac{x_{i} - (3 s_{i} - f_{i}) / 2}{(s_{i} + f_{i}) / 2 - (3 s_{i} - f_{i}) / 2} & ({3 s}_{i} - f_{i}) / 2 \leq x_{i} \leq (s_{i} + f_{i}) / 2 \\ \frac{(3 f_{i} - s_{i}) / 2 - x_{i}}{(3 f_{i} - s_{i}) / 2 - (s_{i} + f_{i}) / 2} & (s_{i} + f_{i}) / 2 \leq x_{i} \leq (3 f_{i} - s_{i}) / 2 \\ 0 & (3 f_{i} - s_{i}) / 2 \leq x_{i} \leq n_{i} \end{matrix}

步骤二、设定进化参数

给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm。

步骤三、初始化种群

CH=C_SC_T

C_S=(cs₁,cs₂,…,cs_R)

cs_r=(d_1,r,…,d_n,r,d_n+1,r)

C_T=(ct₁,ct₂,…,ct_n+1)

{ct}_{i} = (a_{1 i}, b_{1 i}, c_{1 i}, . . ., a_{m^{i} i}, b_{m^{i} i}, c_{m^{i} i})

其中CH表示染色体，C_S为模糊分类模型的规则库中所有规则编码，cs_r为单条规则编码，r=1,2,…,R，R为规则库中的规则数；d_i，r为规则r中变量i的编码，取值为0或者1，目的是实现对模糊规则及其前件的选择，i=1,2..,n+1，n为输入变量数；C_T为模糊集合参数编码，ct_i代表变量i的模糊集合参数编码，mⁱ表示变量i的模糊集合数。

第一条染色体中C_S所有基因值均取1，模糊集合参数由初始模糊分类模型的模糊集合参数实数编码得到。剩下的L-1条染色体，C_S中所有基因值也都取1，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，搜索空间为：

[I_{a_{ji}}^{l}, I_{a_{ji}}^{h}] = [a_{ji} - (b_{ji} - a_{ji}) / 2, a_{ji} + (b_{ji} - a_{ji}) / 2]

[I_{b_{ji}}^{l}, I_{b_{ji}}^{h}] = [b_{ji} - (b_{ji} - a_{ji}) / 2, b_{ji} + (c_{ji} - b_{ji}) / 2]

[I_{c_{ji}}^{l}, I_{c_{ji}}^{h}] = [c_{ji} - (c_{ji} - b_{ji}) / 2, c_{ji} + (c_{ji} - b_{ji}) / 2]

其中，初始模糊分类模型的模糊集合参数为(a_ji,b_ji,c_ji)，j=1,2,…,mⁱ，i=1,2,…,n。

这L条染色体构成初始代种群。

步骤四、定义适应度函数

为保证分类的精确性和解释性，定义如下适应度函数：

F_{1} = Σ_{k = 1}^{N} e_{k}

,F₂=R，F₃=rc

其中，x_k为给定样本变量，N表示样本数，

为分类错误数，R为模糊规则数，rc为模糊规则前件总数。

步骤五、全局搜索最优个体并输出

初始迭代次数t=0，利用NSGA-Ⅱ算法全局搜索最优个体，将最优个体反编码为模糊分类模型并输出：

（1）对种群进行遗传操作：采用二进制锦标赛选择；对染色体C_T部分进行BLX-0.5交叉，对染色体C_S部分进行HUX交叉，交叉率为pc；C_S和C_T在进行交叉后各有两个子代，结合它们得到四条子代染色体，对这四条子代染色体进行概率为pm的单点变异操作，即在C_S和C_T中各随机选择一个基因进行变异；将变异后的四条染色体反编码为对应的模糊分类模型，计算它们的适应度函数值，留下准确性最高的两条染色体作为子代。第t代种群在遗传操作完成后得到子代种群。

（2）混合第t代种群及其子代种群得到个体数为2L的新种群。

（3）将新种群中的个体反编码为对应的模糊分类模型，计算每个模型的适应度函数值，对新种群中的所有个体进行非支配水平排序与密集度评估。

（4）采用比较运算符对新种群中所有个体的适应度函数值进行排序，取前L个个体作为下一代种群。

（5）迭代次数t加1，若t<MAXTER，则返回1），否则，算法终止。

（6）当前种群中非支配水平最高个体中精确性最高的个体即为最优个体，将最优个体反编码为模糊分类模型并输出，该模型的精确性和解释性均较好。

实施例

以下实施例选择每条规则平均输入变量数、模糊规则数、每条规则平均前件数和正确分类率来评价分类效果。

一般来讲，正确分类率越高，分类方法精确性越高，每条规则平均输入变量数、模糊规则数、每条规则平均前件数越小，分类结果解释性越好。

实验采用MATLAB语言编程实现，分别采用Iris、Wine这两个知名数据集作为测试样本集。其中Iris数据集包含150个4维的模式向量，分为三类；Wine数据集包含178个13维的模式向量，分为3类。两类数据随机选取80%的样本作为训练数据，剩下20%的样本作为测试数据。参数设置如下：2SLAVE算法种群规模20，最大迭代次数1000，交叉率0.6，变异率0.05；FRBCS_GP算法种群规模200，最大迭代次数100，交叉率0.5，变异率0.4；GP-COACH算法种群规模200，最大迭代次数100，交叉率0.7，变异率0.5；本发明种群规模100，最大迭代次数800，交叉率0.8，变异率0.6。四类算法每个运行十次，将评价分类效果的指标求得平均值，运行结果如表1所示。

表1分类结果比较

从表1可以看出：

（1）对两个数据集使用四种方法进行分类，本发明的方法构建的模糊分类模型与其

它方法相比，对于Wine数据每条规则平均输入变量数是最少的，对于Iris数据少于2SLAVE和FRBCS-GP方法，与GP-COACH方法相近。因此实现了对特征变量的选择，减少了特征变量的冗余。

（2）本发明构造的模糊分类模型模糊规则数与其他方法相比，对于Wine数据是最少的，对于Iris数据模糊规则数与其它方法相近。因此模糊规则冗余较少。

（3）本发明构造的模糊分类模型每条规则平均前件数与其它方法相比，无论是Wine数据还是Iris数据，都是最少的，有效减少了规则前件的冗余。

（4）本发明构造的模糊分类模型的训练正确分类率与其它方法相比，对于Wine数据和Iris数据都是最高的，检验正确分类率则与其他方法相近，因此本发明能够保证模糊分类模型的精确性。

实验表明相比现有技术，本发明能够较好地克服传统方法构造模糊分类模型的缺点，在保证模型精确性的同时高模型的解释性。

Claims

1.一种基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，其特征在于步骤如下：

步骤一、构造初始模糊分类模型

步骤二、设定进化参数

步骤三、产生初始代种群

CH=C_SC_T

C_S=(cs₁,cs₂,…,cs_R)

cs_r=(d_1,r,…,d_n,r,d_n+1,r)

C_T=(ct₁,ct₂,…,ct_n+1)

{ct}_{i} = (a_{1 i}, b_{1 i}, c_{1 i}, . . ., a_{m^{i} i}, b_{m^{i} i}, c_{m^{i} i})

其中，CH表示染色体，C_S为模糊分类模型的规则库中所有规则编码，cs_r为单条规则编码，r=1,2,…,R，R为规则库中的规则数；d_i,r为规则r中变量i的编码，取值为0或者1，i=1,2…,n+1，n为输入变量数；C_T为模糊集合参数编码，ct_i代表变量i的模糊集合参数编码，mⁱ表示变量i的模糊集合数；

第一条染色体中C_S所有基因值均取1，模糊集合参数由初始模糊分类模型的模糊集合参数实数编码得到；剩下的L-1条染色体、C_S中所有基因值都取1，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，这L条染色体构成初始代种群；

步骤四、定义适应度函数

定义如下适应度函数：

F_{1} = Σ_{k = 1}^{N} e_{k}

,F₂=R，F₃=rc

其中，x_k为给定样本变量，N表示样本数，

为分类错误数，R为模糊规则数，rc为模糊规则前件总数；

步骤五、全局搜索最优个体并输出

利用NSGA-Ⅱ算法全局搜索最优个体，将最优个体反编码为模糊分类模型并输出，初始迭代次数t=0。

2.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，其特征在于，所述步骤一中，采用三角形隶属函数将初始分类决策树转化为初始模糊分类模型的过程如下：

μ (x_{i}) = \{\begin{matrix} 0 & m_{i} \leq x_{i} \leq (3 s_{i} - f_{i}) / 2 \\ \frac{x_{i} - (3 s_{i} - f_{i}) / 2}{(s_{i} + f_{i}) / 2 - (3 s_{i} - f_{i}) / 2} & ({3 s}_{i} - f_{i}) / 2 \leq x_{i} \leq (s_{i} + f_{i}) / 2 \\ \frac{(3 f_{i} - s_{i}) / 2 - x_{i}}{(3 f_{i} - s_{i}) / 2 - (s_{i} + f_{i}) / 2} & (s_{i} + f_{i}) / 2 \leq x_{i} \leq (3 f_{i} - s_{i}) / 2 \\ 0 & (3 f_{i} - s_{i}) / 2 \leq x_{i} \leq n_{i} \end{matrix}

3.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，其特征在于，所述步骤三中，剩下的L-1条染色体，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，其中搜索空间为：

[I_{a_{ji}}^{l}, I_{a_{ji}}^{h}] = [a_{ji} - (b_{ji} - a_{ji}) / 2, a_{ji} + (b_{ji} - a_{ji}) / 2]

[I_{b_{ji}}^{l}, I_{b_{ji}}^{h}] = [b_{ji} - (b_{ji} - a_{ji}) / 2, b_{ji} + (c_{ji} - b_{ji}) / 2]

[I_{c_{ji}}^{l}, I_{c_{ji}}^{h}] = [c_{ji} - (c_{ji} - b_{ji}) / 2, c_{ji} + (c_{ji} - b_{ji}) / 2]

4.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊分类模型构造方法，其特征在于，所述步骤五中，利用NSGA-Ⅱ算法全局搜索最优个体的过程如下：

5.1对种群进行遗传操作：采用二进制锦标赛选择；对染色体C_T部分进行

BLX-0.5交叉，对染色体C_S部分进行HUX交叉，交叉率为pc；每两条染色体的C_S和C_T在进行交叉后各有两个子代，结合它们得到四条子代染色体，对这四条子代染色体进行概率为pm的单点变异操作，即在C_S和C_T中各随机选择一个基因进行变异；将变异后的四条染色体反编码为对应的模糊分类模型，计算它们的适应度函数值，留下准确性最高的两条染色体作为子代；第t代种群在遗传操作完成后得到子代种群；

5.2混合第t代种群及其子代种群得到个体数为2L的新种群；

5.3将新种群中的个体反编码为对应的模糊分类模型，计算每个模型的适应度函数值，对新种群中的所有个体的适应度函数值进行非支配水平排序与密集度评估；

5.4采用比较运算符对新种群中所有个体的适应度函数值进行排序，取前L个个体作为下一代种群；

5.5迭代次数t加1，若t<MAXTER，则返回5.1，否则，算法终止；