CN103198359A

CN103198359A - 基于nsga-ⅱ优化改进的模糊回归模型构造方法

Info

Publication number: CN103198359A
Application number: CN 201310116177
Authority: CN
Inventors: 邢宗义; 季海燕; 刘萍; 李建伟; 冒玲丽; 郭翔
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2013-07-10

Abstract

本发明公开了一种基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，减少模糊集合、模糊规则及其前件的冗余，提高模糊回归模型的解释性。首先通过三角隶属函数和WM（WangandMendel）算法构造初始模糊回归模型；然后基于NSGA-Ⅱ优化模糊回归模型，减少了模糊集合数，优化了模糊集合参数，同时通过对模糊规则及其前件的选择来删除模糊规则中的冗余，从而提高了模糊回归模型的精确性和解释性。

Description

基于NSGA-Ⅱ优化改进的模糊回归模型构造方法

技术领域

本发明涉及数据挖掘和人工智能的技术领域，尤其是一种基于第二代非支配排序遗传算法（Non-dominated sorting genetic algorithm Ⅱ, NSGA-Ⅱ）优化改进的模糊回归模型构造方法。

背景技术

模糊回归模型的知识表达形式和推理机制符合人类思维习惯，其结构和模糊集合隶属函数参数具有明显的物理意义。人们可通过易于理解的模糊规则洞察回归模型的内部运行机理，即解释性是模糊回归模型最显著的特征。

随着回归问题维数和复杂性的提高，利用传统的方法构造模糊回归模型主要存在以下几个问题而使模型不具备解释性：1)特征变量的维数存在冗余；2)模糊规则数比实际需要的多；3)模糊规则前件数比实际需要的多；4)模糊集合的数量与参数设计不合理。为克服以上问题，诸多学者对在保证系统精确性时如何提高模型的解释性进行了相关研究。“J. Casillas, O. Cordon, M.J. del Jesus, F. Herrera. Genetic tuning of fuzzy rule deep structures preserving interpretability and its interaction with fuzzy rule set reduction. IEEE Trans. Fuzzy Systems. 2005(13): 13-29”在模糊规则中采用了模糊限制语，利用遗传算法实现了模糊规则和隶属函数参数的优化，但是该方法模糊规则及其前件仍存在冗余。“R. Alcala, J. Alcalaa-Fdez, M J Gacto,et al. A Multi-Objective Evolutionary Algorithm for Rule Selection and Tuning on Fuzzy Rule-Based Systems.Proceeding of 2007 IEEE International Conference onFuzzy Systems, London, IEEE Press. 2007: 1367-1372”和“M.J. Gacto, R. Alcala, F. Herrera. Adaptation andApplication of Multi-Objective Evolutionary Algorithmsfor Rule Reduction and Parameter Tuning of Fuzzy Rule-Based Systems. Soft Computing. 2009(13): 419-436”采用二进制编码进行规则选择，采用实数编码进行隶属函数参数优化，但该方法的规则为等长度，未涉及规则前件的优化。

上述技术均对模糊回归模型进行了优化，不同程度地提高了模型的解释性，但是模糊规则及其前件冗余的情况仍然存在。

发明内容

本发明的目的在于提供一种基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，减少模糊集合、模糊规则及其前件的冗余，提高模糊回归模型的解释性。首先通过三角隶属函数和WM（Wang and Mendel）算法构造初始模糊回归模型；然后基于NSGA-Ⅱ优化模糊回归模型，减少了模糊集合数，优化了模糊集合参数，同时通过对模糊规则及其前件的选择来删除模糊规则中的冗余，从而提高了模糊回归模型的精确性和解释性。

实现本发明目的的技术解决方案为：一种基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，包括以下步骤：

步骤一、构造初始模糊回归模型

根据样本输入输出数据，利用三角隶属函数和WM算法构造初始模糊回归模型。

步骤二、设定进化参数

给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm。

步骤三、产生初始代种群

将初始模糊回归模型直接编码产生第一条染色体，定义模糊回归模型编码方式如下：

CH=C_SC_T

C_S=(cs₁,cs₂,…,cs_R)

cs_r=(d_1,r,d_2,r,…,d_n+1,r)

C_T=(ct₁,ct₂,…,ct_n+1)

{ct}_{i} = (a_{1 i}, b_{1 i}, c_{1 i}, . . ., a_{m^{i} i}, b_{m^{i} i}, c_{m^{i} i})

其中CH表示染色体，C_S为模糊回归模型的规则库中所有规则编码，cs_r为单条规则编码，r=1,2,…,R，R为规则库中的规则数；d_i,r为规则r中变量i的编码，取值为0或者1，i=1,2,…,n+1，n为输入变量数；C_T为模糊集合参数编码，ct_i代表变量i的模糊集合参数编码，mⁱ表示变量i的模糊集合数。

第一条染色体中C_S所有基因值均取1，模糊集合参数由初始模糊回归模型的模糊集合参数实数编码得到。剩下的L-1条染色体，C_S中所有基因值也都取1，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成。这L条染色体构成初始代种群。

步骤四、定义适应度函数

定义如下适应度函数：

MSE = \frac{1}{2 \cdot N} Σ_{k = 1}^{N} {(y_{k} - {\hat{y}}_{k})}^{2}

F₁=MSE,F₂=R，F₃=rc

其中，MSE表示均方误差，y_k为系统实际输出，

为模型输出，N表示样本数，R为模糊规则数，rc为模糊规则前件总数。

步骤五、全局搜索最优个体并输出

利用NSGA-Ⅱ算法全局搜索最优个体，将最优个体反编码为模糊回归模型并输出，初始迭代次数t=0。

步骤一中，利用三角隶属函数和WM算法构造初始模糊回归模型的过程如下：

(1) 采用了强模糊划分将每个输入输出论域空间均匀划分为f个三角模糊集合，f为给定的每个变量的初始模糊集合数。

(2) 每个输入输出样本数据构造一条模糊规则，模糊前件中的模糊集合为输入样本对应的最大隶属函数值所在集合，模糊后件中的模糊集合为输出样本的最大隶属函数值所在集合。

(3)计算每条规则的模糊推理输出w_r，公式如下：

其中r=1,2,…，R，R为模糊规则数，μ_ri为规则r中输入变量i的隶属函数值，n为输入变量数，∧为取小算子。若有多条规则模糊前件相同，则仅保留模糊推理输出最大的那条规则。

(4) 通过中心解模糊方法计算模型输出：

{\hat{y}}_{k} = \frac{Σ_{r = 1}^{R} {\overset{&OverBar;}{y}}^{r} w_{r}}{Σ_{r = 1}^{R} w_{r}}

式中，

是规则r的模糊后件中模糊集合的中心。

步骤三中，剩下的L-1条染色体，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，其中搜索空间为：

[I_{a_{ji}}^{l}, I_{a_{ji}}^{h}] = [a_{ji} - (b_{ji} - a_{ji}) / 2, a_{ji} + (b_{ji} - a_{ji}) / 2]

[I_{b_{ji}}^{l}, I_{b_{ji}}^{h}] = [b_{ji} - (b_{ji} - a_{ji}) / 2, b_{ji} + (c_{ji} - b_{ji}) / 2]

[I_{c_{ji}}^{l}, I_{c_{ji}}^{h}] = [c_{ji} - (c_{ji} - b_{ji}) / 2, c_{ji} + (c_{ji} - b_{ji}) / 2]

其中， (a_ji,b_ji,c_ji)为初始模糊回归模型的模糊集合参数，i=1,2,…,n，j=1,2,…,mⁱ。

步骤五中，利用NSGA-Ⅱ算法全局搜索最优个体的过程如下：

（1）对种群进行遗传操作：采用二进制锦标赛选择；对染色体C_T部分进行BLX-0.5交叉，对染色体C_S部分进行HUX交叉，交叉率为pc；C_S和C_T在进行交叉后各有两个子代，结合它们得到四条子代染色体，对这四条子代染色体进行概率为pm的单点变异操作，即在C_S和C_T中各随机选择一个基因进行变异；将变异后的四条染色体反编码为对应的模糊回归模型，计算它们的适应度函数值，留下准确性最高的两条染色体作为子代。第t代种群在遗传操作完成后得到子代种群。

（2）混合第t代种群及其子代种群得到个体数为2L的新种群。

（3）将新种群中的个体反编码为对应的模糊回归模型，计算每个模型的适应度函数值，对新种群中的所有个体进行非支配水平排序与密集度评估。

（4）采用比较运算符对新种群中所有个体的适应度函数值进行排序，取前L个个体作为下一代种群。

（5）迭代次数t加1，若t<MAXTER，则返回1），否则，算法终止。

（6）当前种群中非支配水平最高个体中精确性最高的个体即为最优个体。

本发明与现有技术相比，其显著优点：（1）利用NSGA-Ⅱ算法优化初始模糊回归模型，优化了模糊集合参数，提高了模型的精确性；（2）对模糊规则及其前件进行选择，减少了模糊规则及其前件的冗余，提高了模型的解释性。

附图说明

附图是基于NSGA-Ⅱ算法优化改进的模糊回归模型构造方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

本发明基于NSGA-Ⅱ优化改进的模糊回归模型构造方法过程如下：

步骤一、构造初始模糊回归模型

根据样本输入输出数据，利用三角隶属函数和WM算法构造初始模糊回归模型，构造过程如下：

(1)采用了强模糊划分将每个输入输出论域空间均匀划分为f个三角模糊集合，f为给定的每个变量的初始模糊集合数。

(2)每个输入输出样本数据构造一条模糊规则，模糊前件中的模糊集合为输入样本对应的最大隶属函数值所在集合，模糊后件中的模糊集合为输出样本的最大隶属函数值所在集合。

(3)计算每条规则的模糊推理输出w_r，公式如下：

(4)通过中心解模糊方法计算模型输出：

{\hat{y}}_{k} = \frac{Σ_{r = 1}^{R} {\overset{&OverBar;}{y}}^{r} w_{r}}{Σ_{r = 1}^{R} w_{r}}

式中，

是规则r的模糊后件中模糊集合的中心。

步骤二、设定进化参数

步骤三、初始化种群

CH=C_SC_T

C_S=(cs₁,cs₂,…,cs_R)

cs_r=(d_1,r,…,d_n,r,d_n+1,r)

C_T=(ct₁,ct₂,…,ct_R)

{ct}_{i} = (a_{1 i}, b_{1 i}, c_{1 i}, . . ., a_{m^{i} i}, b_{m^{i} i}, c_{m^{i} i})

其中CH表示染色体，C_S为模糊回归模型的规则库中所有规则编码，cs_r为单条规则编码，r=1,2,…,R，R为规则库中的规则数；d_i,r为规则r中变量i的编码，取值为0或者1，目的是实现对模糊规则及其前件的选择，i=1,2…,n+1，n为输入变量数；C_T为模糊集合参数编码，ct_i代表变量i的模糊集合参数编码，mⁱ表示变量i的模糊集合数。

第一条染色体中C_S所有基因值均取1，模糊集合参数由初始模糊回归模型的模糊集合参数实数编码得到。剩下的L-1条染色体，C_S中所有基因值也都取1，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，搜索空间为：

[I_{a_{ji}}^{l}, I_{a_{ji}}^{h}] = [a_{ji} - (b_{ji} - a_{ji}) / 2, a_{ji} + (b_{ji} - a_{ji}) / 2]

[I_{b_{ji}}^{l}, I_{b_{ji}}^{h}] = [b_{ji} - (b_{ji} - a_{ji}) / 2, b_{ji} + (c_{ji} - b_{ji}) / 2]

[I_{c_{ji}}^{l}, I_{c_{ji}}^{h}] = [c_{ji} - (c_{ji} - b_{ji}) / 2, c_{ji} + (c_{ji} - b_{ji}) / 2]

其中，初始模糊回归模型的模糊集合参数为(a_ji,b_ji,c_ji)，j=1,2,…,mⁱ，i=1,2,…,n。这L条染色体构成初始代种群。

步骤四、定义适应度函数

为保证回归的精确性和解释性，定义如下适应度函数：

MSE = \frac{1}{2 \cdot N} Σ_{k = 1}^{N} {(y_{k} - {\hat{y}}_{k})}^{2}

F₁=MSE,F₂=R，F₃=rc

其中，MSE表示均方误差，y_k为系统实际输出，

步骤五、全局搜索最优个体并输出

初始迭代次数t=0，利用NSGA-Ⅱ算法全局搜索最优个体，将最优个体反编码为模糊回归模型并输出：

（2）混合第t代种群及其子代种群得到个体数为2L的新种群。

（3）将新种群中的个体反编码为对应的模糊回归模型，计算每个模型的适应度

函数值，对新种群中的所有个体进行非支配水平排序与密集度评估。

（6）当前种群中非支配水平最高个体中精确性最高的个体即为最优个体，将最优个体反编码为模糊回归模型并输出，该模型的精确性和解释性均较好。

实施例

以下实施例选择模糊规则数、规则前件总数和均方误差来评价模型回归效果。

一般来讲，均方误差越小，模糊回归模型精确性越高，模糊规则数、规则前件总数越小，模糊回归模型解释性越好。

实验采用MATLAB语言编程实现，采用小镇中压线路维修费用估计问题（estimating the maintenance costs of medium voltagelines in a town，ELE）这个知名数据集作为测试样本集。其中ELE数据集包含1059个4维的输入向量。随机选取ELE数据中80%的样本作为训练数据，剩下20%的样本作为测试数据。参数设置如下：种群规模61，最大迭代次数1300，交叉率1，变异率0.2。算法运行十次，将评价回归效果的指标求得平均值，运行结果如表1所示。

表1回归结果比较

从表1可以看出：

（1）本发明构造的模糊回归模型模糊规则数与其他方法相比，对于ELE数据是最少的，因此模糊规则冗余较少。

（2）本发明构造的模糊回归类模型规则前件总数与其它方法相比，对于ELE数据是最少的，有效减少了规则前件的冗余。

（3）本发明构造的模糊回归类模型的训练均方误差和检验均方误差与其它方法相比，对于ELE数据都是最小的，因此本发明能够保证模糊回归模型的精确性。

实验表明相比现有技术，本发明能够较好地克服传统方法构造模糊回归模型的缺点，在保证模型精确性的同时提高模型的解释性。

Claims

1.一种基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，其特征在于包括以下步骤：

步骤一、构造初始模糊回归模型

根据样本输入输出数据，利用三角隶属函数和WM算法构造初始模糊回归模型；

步骤二、设定进化参数

给定所需的种群规模L、最大迭代次数MAXTER、当前迭代次数t、交叉率pc、变异率pm；

步骤三、产生初始代种群

CH=C_SC_T

C_S=(cs₁,cs₂,…,cs_R)

cs_r=(d_1,r,…,d_n,r,d_n+1,r)

C_T=(ct₁,ct₂,…,ct_n+1)

{ct}_{i} = (a_{1 i}, b_{1 i}, c_{1 i}, . . ., a_{m^{i} i}, b_{m^{i} i}, c_{m^{i} i})

其中，CH表示染色体，C_S为模糊回归模型的规则库中所有规则编码，cs_r为单条规则编码，r=1,2,…,R，R为规则库中的规则数；d_i,r为规则r中变量i的编码，取值为0或者1，i=1,2,…,n+1，n为输入变量数；C_T为模糊集合参数编码，ct_i代表变量i的模糊集合参数编码，mⁱ表示变量i的模糊集合数；

第一条染色体中C_S所有基因值均取1，模糊集合参数由初始模糊回归模型的模糊集合参数实数编码得到；剩下的L-1条染色体，C_S中所有基因值也都取1，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成；这L条染色体构成初始代种群；

步骤四、定义适应度函数

定义如下适应度函数：

MSE = \frac{1}{2 \cdot N} Σ_{k = 1}^{N} {(y_{k} - {\hat{y}}_{k})}^{2}

F₁=MSE,F₂=R，F₃=rc

其中，MSE表示均方误差，y_k为系统实际输出，

为模型输出，N表示样本数，R为模糊规则数，rc为模糊规则前件总数；

步骤五、全局搜索最优个体并输出

2.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，其特征在于，所述步骤一中，利用三角隶属函数和WM算法构造初始模糊回归模型的过程如下：

1.1 采用强模糊划分将每个输入输出论域空间均匀划分为f个三角模糊集合，f为给定的每个变量的初始模糊集合数；

1.2 每个输入输出样本数据构造一条模糊规则，模糊前件中的模糊集合为输入样本对应的最大隶属函数值所在集合，模糊后件中的模糊集合为输出样本的最大隶属函数值所在集合；

1.3计算每条规则的模糊推理输出w_r，公式如下：

其中，r=1,2,…，R，R为模糊规则数，μ_ri为规则r中输入变量i的隶属函数值，n为输入变量数，∧为取小算子；若有多条规则模糊前件相同，则仅保留模糊推理输出最大的那条规则；

1.4通过中心解模糊方法计算模型输出：

{\hat{y}}_{k} = \frac{Σ_{r = 1}^{R} {\overset{&OverBar;}{y}}^{r} w_{r}}{Σ_{r = 1}^{R} w_{r}}

式中，

是规则r的模糊后件中模糊集合的中心。

3.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，其特征在于，所述步骤三中，剩下的L-1条染色体，C_T以第一条染色体的C_T为中心在搜索空间内随机均匀生成，其中搜索空间为：

[I_{a_{ji}}^{l}, I_{a_{ji}}^{h}] = [a_{ji} - (b_{ji} - a_{ji}) / 2, a_{ji} + (b_{ji} - a_{ji}) / 2]

[I_{b_{ji}}^{l}, I_{b_{ji}}^{h}] = [b_{ji} - (b_{ji} - a_{ji}) / 2, b_{ji} + (c_{ji} - b_{ji}) / 2]

[I_{c_{ji}}^{l}, I_{c_{ji}}^{h}] = [c_{ji} - (c_{ji} - b_{ji}) / 2, c_{ji} + (c_{ji} - b_{ji}) / 2]

4.根据权利要求1所述的基于NSGA-Ⅱ优化改进的模糊回归模型构造方法，其特征在于，所述步骤五中，利用NSGA-Ⅱ算法全局搜索最优个体的过程如下：

5.1对种群进行遗传操作：采用二进制锦标赛选择；对染色体C_T部分进行BLX-0.5交叉，对染色体C_S部分进行HUX交叉，交叉率为pc；每两条染色体的C_S和C_T在进行交叉后各有两个子代，结合它们得到四条子代染色体，对这四条子代染色体进行概率为pm的单点变异操作，即在C_S和C_T中各随机选择一个基因进行变异；将变异后的四条染色体反编码为对应的模糊回归模型，计算它们的适应度函数值，留下准确性最高的两条染色体作为子代；第t代种群在遗传操作完成后得到子代种群；

5.2 混合第t代种群及其子代种群得到个体数为2L的新种群；

5.3将新种群中的个体反编码为对应的模糊回归模型，计算每个模型的适应度函数值，对新种群中的所有个体的适应度函数值进行非支配水平排序与密集度评估；

5.4采用比较运算符对新种群中所有个体的适应度函数值进行排序，取前L

个个体作为下一代种群；

5.5 迭代次数t加1，若t<MAXTER，则返回5.1，否则，算法终止；

5.6 当前种群中非支配水平最高个体中精确性最高的个体即为最优个体。