CN104809477A

CN104809477A - 一种基于几何语义的遗传规划分类方法

Info

Publication number: CN104809477A
Application number: CN201510240788.8A
Authority: CN
Inventors: 许军才; 任青文; 张卫东; 沈振中
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-05-12
Filing date: 2015-05-12
Publication date: 2015-07-29
Anticipated expiration: 2035-05-12
Also published as: CN104809477B

Abstract

本发明提供一种基于几何语义的遗传规划分类方法，通过对训练过程和预测过程的分离，完成被测试样本的分类；所述训练过程，通过几何语义求解最优个体，并提取该最优个体的分类器公式，将最优个体的分类器公式存储在磁盘中；所述预测过程，调用训练过程中存储在磁盘中的最优个体的分类器公式，通过加载与计算恢复出分类器公式，根据分类器公式输出分类结果，进而实现对个体的分类。克服了现有遗传规划算法中存在收敛过早和分类准确率低等问题，分类的准确率高，且个体公式可以存储。

Description

一种基于几何语义的遗传规划分类方法

技术领域

本发明属于人工智能的技术领域，具体涉及一种基于几何语义的遗传规划分类方法。

背景技术

遗传算法是进化算法中最成熟一种算法，自Holland教授提出后，由于该算法是一种通用算法，被人们广泛应用于工业技术中，成为现代智能计算中的一项关键技术。美国学者Koza在遗传算法基础上，提出了遗传规划算法，通过层状树结构表示问题的特征，按照遗传算法的思想进化，遗传规划算法较遗传算法具有更广的适用性，由于其通用性和鲁棒性好，搜索能力强，在人工智能、结构优化设计、复杂系统分析得到广泛应用。但也存在一系列问题，由于算法收敛过早，算法进化计算规模过大等问题。近年来，人们通过语义的方式处理遗传规划过程中的进化策略，例如通过几何语义进化策略改善算法的性能，预测高性能混凝土强度及生物医药的配制效果预测等方面，并取得了很好的预测效果。以上这些算法一般都是针对回归分析中的预测问题，但对于样本的分类研究尚未见到相关报道。另一方面通过几何语义得出的计算公式规模呈现爆炸性的增长，S_n～２ⁿ*I(其中S_n公式规模，I为第一代公式规模，n为进化的代数)，虽然有人直接将数值替代表达式的方式解决计算公式规模膨胀带来的难题，但另一方面由于放弃保留公式后，去掉了遗传规划算法最具代表性的优点，使得每次预测中必须重新训练样本。

发明内容

本发明为了解决现有技术中存在的上述缺陷和不足，提供了一种基于几何语义的遗传规划分类方法，克服了现有遗传规划算法中存在收敛过早和分类准确率低等问题，分类的准确率高，且个体公式可以存储。

为解决上述技术问题，本发明提供一种基于几何语义的遗传规划分类方法，通过对训练过程和预测过程的分离，完成被测试样本的分类；

所述训练过程，通过几何语义求解最优个体，并提取该最优个体的分类器公式，将最优个体的分类器公式存储在磁盘中；

所述预测过程，调用训练过程中存储在磁盘中的最优个体的分类器公式，通过加载与计算恢复出分类器公式，根据分类器公式输出分类结果，进而实现对个体的分类。

其中，所述训练过程包括以下步骤：

1.1初始化过程，根据函数集和终结点集构成个体，然后由个体生成初始化群体；群体中的个体采用层状计算机程序表达，具体由函数集F和终止符集T组成；

函数集F包含n个函数：

F＝{f_i/f_i＝f₁,f₂,…,f_n}

其中，f_i为+,-,×,÷数学运算符号或标准数学函数，所述数学运算符号包含+,-,×,÷，所述标准数学函数包含sin，cos，log，exp；

终止符集T包含m个终止符：

T＝{t_i/t_i＝t₁,t₂,…,t_n}

其中，t_i为变量或常量；

1.2通过计算每个个体的输出值BJ_x，确定分类器中各类别的边界值，边界值的确定方法为中心动态边界法，具体表达式为：

{BJ}_{x} = \frac{Σ_{m = 1}^{Tr} Σ_{n = 1}^{P_{num}} {Dout}_{xmn}}{TR * P_{num}}

其中，TR为训练集样本总数，P_num为种群个体总数，Dout_xmn为个体计算值，x为训练集中样本类别号；

1.3计算每个个体的适应度fitness，计算公式为：

fitness = 1 - \frac{R_{num}}{S_{num}}

其中，R_num为个体分类正确的次数，S_num为训练样本个数；

1.4遗传操作，遗传操作包括父体的复制、交换、变异操作，交换操作生成的个体T_C与变异操作生成的个体T_M是父体通过几何语义方式产生的，分别表示为：

T_c＝(T₁·T_R)+(1-T_R)·T₂

式中，T₁，T₂为两父体，T_R真随机函数；

T_M＝T+ms·(T_R1-T_R2)

式中，T为父体，T_R1，T_R2表示两真随机函数，ms变异系数；

1.5判断个体是否达到最大迭代次数；若未达到，则重复步骤1.2-1.4；从达到最大迭代次数的个体中筛选出最大适应度个体作为最优个体，并提取该最优个体的分类器公式，将分类器公式存储在磁盘上，训练过程结束。

步骤1.2中，边界值的确定方法还包括静态边界法。

步骤1.3中，适应度的度量方法包括原始适应度、标准适应度和归一化适应度等。

步骤1.5中，最优个体分类器公式存储过程中，分别记录交换操作和变异操作过程的信息，通过5位16进制数记录随机公式，记录出现的节点，将最优个人的将分类器公式存储为分类器公式输出文件。

所述预测过程包括以下步骤：

2.1初始化计算过程，读取个体数据，并检个体数据的正确性；

2.2对分类器公式进行加载，通过循环调用加载公式，从存储于磁盘的16进制数据的信息中恢复出最优个体的分类器公式；

2.3分类计算，通过加载出的分类器公式对预测集中的每条记录进行计算，输出分类结果。

本发明所达到的有益技术效果：本发明采用几何语义方式表示遗传规划算法进化策略，实现对群体交叉和变异过程的计算，完成对测试样本的分类。分类的准确率高，且个体的分类器公式可以存储。

附图说明

图1本发明训练过程的流程示意图；

图2本发明预测过程的流程示意图。

具体实施方式

为了审查员能更好的了解本发明的技术特征、技术内容及其达到的技术效果，现将本发明的附图结合实施例进行更详细的说明。然而，所示附图，只是为了更好的说明本发明的技术方案，所以，请审查员不要就附图限制本发明的权利要求保护范围。

下面结合附图和实施例对本发明专利进一步说明。

如图1-2所示，本发明提供一种基于几何语义的遗传规划分类方法，通过对训练过程和预测过程的分离，完成被测试样本的分类；

一，训练过程，通过几何语义求解最优个体，并提取该最优个体的分类器公式，将最优个体的分类器公式存储在磁盘中，具体过程如下：

1.1初始化过程，根据函数集和终结点集构成个体，然后由个体生成初始化群体M；群体中的个体采用层状计算机程序表达，具体由函数集F和终止符集T组成；

函数集F包含n个函数：

F＝{f_i/f_i＝f₁,f₂,…,f_n}

终止符集T包含m个终止符：

T＝{t_i/t_i＝t₁,t₂,…,t_n}

其中，t_i为变量或常量。

{BJ}_{x} = \frac{Σ_{m = 1}^{Tr} Σ_{n = 1}^{P_{num}} {Dout}_{xmn}}{TR * P_{num}}

边界值的确定方法还包括静态边界法。

1.3计算每个个体的适应度fitness，适应度的度量方法包括原始适应度、标准适应度和归一化适应度，本发明适应度fitness的计算公式为：

fitness = 1 - \frac{R_{num}}{S_{num}}

其中，R_num为个体分类正确的次数，S_num为训练样本个数；

T_c＝(T₁·T_R)+(1-T_R)·T₂

式中，T₁，T₂为两父体，T_R真随机函数；

T_M＝T+ms·(T_R1-T_R2)

式中，T为父体，T_R1，T_R2表示两真随机函数，ms变异系数。

1.5判断个体是否达到最大迭代次数；若未达到，则重复步骤1.2-1.4；从达到最大迭代次数的个体中筛选出最大适应度个体作为最优个体，并提取该最优个体的分类器公式，将分类器公式存储在磁盘上，训练过程结束；

最优个体分类器公式存储过程中，分别记录交换操作和变异操作过程的信息，通过5位16进制数记录随机公式，记录出现的节点，将最优个人的将分类器公式存储为分类器公式输出文件。

二，预测过程，调用训练过程中存储在磁盘中的最优个体的分类器公式，通过加载与计算恢复出分类器公式，根据分类器公式输出分类结果，进而实现对个体的分类，具体过程如下：

实施例

为了更好的说明本发明的技术效果，利用对边坡稳定性的分类和安全系数的预测做进一步说明。

收集的边坡数据见表1：

表1 实验数据集

其中，容重(γ)、黏聚力(c)、内摩擦角(Φ)、边坡角(β)、坡高(H)、孔隙压力比(ru)，作为输入变量，输出变量为边坡稳定状态(S)，当1是为稳定，当为-1为非稳定，S1表示边坡的稳定状态。1-40号样本作为训练集，并将41-52号样本作为测试集。利用本发明计算过程中，将遗传个体数设为500，遗传代数设为50。通过计算后，可以得出训练集和测试集中边坡稳定性和安全系数的预测值，预测结果S2见表1。

计算分类正确率，计算公式为：

Performance (%) = (\frac{Number of data predicted accurately by GSGP}{Total data}) \times 100

其中，GSGP表示本发明提供的基于几何语义的遗传规划分类方法。将表1中计算的分类结果和真实值代入上述公式中，便可得出训练集与测试集各自的分类正确率。由本发明提供的方法分类得出的训练集的分类正确率为97.5％，而测试集中的分类正确率为91.7％，测试表明该方法具有很好的分类效果。

以上已以较佳地实施例公布了本发明，然其并非用以限制本发明，凡采取等同替换或等效变换的方案所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于几何语义的遗传规划分类方法，其特征在于：通过对训练过程和预测过程的分离，完成被测试样本的分类；

2.根据权利要求1所述的基于几何语义的遗传规划分类方法，其特征在于：所述训练过程包括以下步骤：

函数集F包含n个函数：

F＝{f_i/f_i＝f₁,f₂,…,f_n}

终止符集T包含m个终止符：

T＝{t_i/t_i＝t₁,t₂,…,t_m}

其中，t_i为变量或常量；

{BJ}_{x} = \frac{Σ_{m = 1}^{Tr} Σ_{n = 1}^{P_{num}} {Dout}_{xmn}}{TR * R_{num}}

1.3计算每个个体的适应度fitness，计算公式为：

fitness = 1 - \frac{R_{num}}{S_{sum}}

其中，R_num为个体分类正确的次数，S_num为训练样本个数；

T_c＝(T₁·T_R)+(1-T_R)·T₂

式中，T₁，T₂为两父体，T_R真随机函数；

T_M＝T+ms·(T_R1-T_R2)

式中，T为父体，T_R1，T_R2表示两真随机函数，ms变异系数；

3.根据权利要求2所述的基于几何语义的遗传规划分类方法，其特征在于：步骤1.2中，边界值的确定方法还包括静态边界法。

4.根据权利要求2所述的基于几何语义的遗传规划分类方法，其特征在于：步骤1.3中，适应度的度量方法包括原始适应度、标准适应度和归一化适应度。

5.根据权利要求2所述的基于几何语义的遗传规划分类方法，其特征在于：步骤1.5中，最优个体分类器公式存储过程中，分别记录交换操作和变异操作过程的信息，通过5位16进制数记录随机公式，记录出现的节点，将最优个人的将分类器公式存储为分类器公式输出文件。

6.根据权利要求1所述的基于几何语义的遗传规划分类方法，其特征在于：所述预测过程包括以下步骤：

2.1初始化计算过程，读取个体数据，并检查个体数据的正确性；