CN104699804A

CN104699804A - 一种基于基因表达式编程的n中心点分类方法

Info

Publication number: CN104699804A
Application number: CN201510124900.1A
Authority: CN
Inventors: 李曲
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2015-06-10

Abstract

一种基于基因表达式编程的N中心点分类方法，包括有：步骤一、将分类训练数据划分为含类标记数据集和不含类标记数据集；步骤二、在不含类标记数据集的多维空间中根据距离公式搜索类中心点；步骤三、在含类标记数据集上评估搜索得到的类中心点的准确性；步骤四、采用基因表达式编程方法表达、搜索和更新得到新的类中心点；步骤五、根据计算未知点与类中心点的距离，对未知点的类型进行分类。步骤六、重复步骤三、步骤四、步骤五，直到目标函数满足停止条件。本发明属于机器学习技术领域，能降低方法的计算量，同时避免对非平衡数据的敏感性。

Description

一种基于基因表达式编程的N中心点分类方法

技术领域

本发明涉及一种基于基因表达式编程的N中心点分类方法，属于机器学习技术领域。

背景技术

基于距离的分类方法将每个数据表示为数值向量，为每个类构造一个类中心。分类时，计算待分类数据与每个类中心点的距离，待分类数据的类别即为与之最近的类中心点所表示的类。

k最近邻分类方法是一种常用的基于距离的分类方法。它避免直接构造类中心的困难，通过计算找到k个与待分类数据最接近的数据点，待分类数据的类别即为这k个数据中个数最多的类别。k最近邻方法是普遍采用的一种基于距离的分类方法，但是方法的准确率对k的取值和训练集数据的平衡性较敏感，且每测试一个待分类数据的计算量较大。基因表达式编程具有对数据分布和输入顺序不敏感，能快速进行全局搜索的特性，在数据挖掘和函数优化方面取得了很好的效果。

因此，如何采用遗传方法的思想，结合中心点分类方法降低方法的计算量，同时避免对非平衡数据的敏感性，仍是一个未解决的技术问题。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于基因表达式编程的N中心点分类方法，能降低分类过程的计算量，同时避免对非平衡数据的敏感性。

为了达到上述目的，本发明提供了一种基于基因表达式编程的N中心点分类方法。包括有：步骤一、将分类训练数据划分为含类标记数据集和不含类标记数据集；步骤二、在不含类标记数据集的多维空间中根据距离公式搜索类中心点；步骤三、在含类标记数据集上评估搜索得到的类中心点的准确性；步骤四、采用基因表达式编程方法表达、搜索和更新得到新的类中心点；步骤五、根据计算未知点与类中心点的距离，对未知点的类型进行分类。步骤六、重复步骤三、步骤四、步骤五，直到目标函数满足停止条件。

本发明的技术方法如下所述：

一种基于基因表达式编程的N中心点分类方法，包括如下步骤：

步骤S1、将训练数据集X随机划分为大小相等的含类标记数据集X_l和不含类标记数据集X_u。

步骤S2、对一个n类分类问题，从不含类标记数据集X_u中随机选择n个数据点作为初始类中心点C_N。

步骤S3、计算不含类标记数据集X_u中数据点x_i与类中心点c_j之间的距离d(x_i,c_j)，根据距离d(x_i,c_j)将X_u中的每个数据点指派给最小距离值所对应类中心点c_j所代表的类。其中x_i表示训练数据集X中的第i个数据点，c_j表示n个中心点中的第j个中心点。

步骤S4、采用基于基因表达式编程方法的N中心点分类方法表达、搜索和更新类中心点。对基因表达式编程的基因进行必要的选择和变异等遗传操作。

步骤S5、根据含类标记数据集X_l中数据点的实际类分布情况，计算目标函数O。

步骤S6、重复步骤S3，步骤S4，步骤S5直到目标函数O满足停止条件。

进一步，步骤S3中采用数据点与类中心点之间的距离来进行指派的过程如下：

步骤S31、对不含类标记数据集X_u中的每个数据点x_i，计算其与各类中心点c_j之间的距离d(x_i,c_j)。其中距离d(x_i,c_j)为数据点x_i与中心点c_j之间的欧几里得距离。

步骤S32、将该数据点x_i指派给最小距离值min{d(x_i,c_j)}(j∈{1,…,N}所对应的类中心点c_j。

步骤S33、指派结束后，计算最小距离总和D，并将指派结果和数据集X_l中数据的实际类分布情况做比较，得出命中数H，即正确分类的数据点个数。

进一步，步骤S4中基于基因表达式编程的N中心点分类方法，具体是：

基于基因表达式编程的基因分为头部和尾部两个部分。对一个n类分类问题，方法从数据集X_u中随机选择n个数据点作为初始类中心点{x₁,x₂,...,x_n}构成基因的尾部，根据类中心点在基因尾部中的位置顺序，x₁,x₂,...,x_n依次表示类c₁,c₂,......,c_n。基因头部是两种特殊的二元运算符：左移运算符＜和右移运算符＞，这两种运算符统称移动运算符。

进一步，步骤S4所述的表示方法的移动运算符过程为：

步骤S41、计算在左移运算符对应的右子树或右移运算符对应的左子树中的类中心点{x₁,x₂,...,x_k}的均值点X_mean＝(X₁,X₂,...,X_m)。其中，k为子树中所含类中心点的个数，m为属性个数。X_mean的第i个属性值x_ji表示中心点x_j的第i个属性值。

步骤S42、产生一个随机移动因子RMF。RMF决定运算符一边子树的每个类中心点相对于另一边子树的所含类中心点的均值点X_mean的移动幅度。因为随机移动因子每次都随机产生，使得类中心点每次能够进行不同幅度的移动，从而增加了种群多样性。这里，随机移动因子的计算公式定义为：

RMF＝cos(π*d)/i

其中，d为区间[0,1]上的随机浮点数，i为[1,k](k>1为整数)之间的随机整数，从上式可以看出RMF属于区间[-1,1]。

步骤S43、根据X_mean和RMF得到移动向量Y_move＝(Y₁,Y₂,...,Y_m)，Y_move的第i个属性值Y_i＝X_i*RMF，X_i为均值点X_mean的第i个属性值。

步骤S44、将左移运算符对应的右子树或右移运算符对应的左子树中的类中心点依次加上移动向量Y_move形成新的类中心点。

进一步，根据步骤4所述的表示方法包括:

生成一个[0,1]之间的随机数r，当r大于预先设定的变异概率p时，进行变异操作。对于基因头部，变异算子随机将左移运算符<变异成右移运算符>，或将右移运算符>变异成左移运算符<。对于基因尾部，变异算子随机选择数据集X_u中的数据点替换尾部中的类中心点。

进一步，根据步骤S5所述的表示方法的目标函数O为一个以命中数H和最小距离总和D为自变量的函数表达式的值，计算公式(1)：

O＝H*w+1/D (1)

其中H为命中数，D为最小距离总和，w为区间(0,1)上的一个常数。该公式综合考虑了命中数H和最小距离总和D对划分方案优劣的影响。

本发明的优点是：提供一种基于基因表达式编程的N中心点分类方法，该方法利用随机选择的数据点来作为类中心点，使得方法具有比传统方法更低的时间复杂度，即提高了方法的效率。本发明利用基因表达式编程技术来对分类方法进行编码，利用其遗传算子和遗传机制，比传统的遗传方法等方法具有更好的收敛速度，从而提高了方法的运行效率。本发明设计了一种随机移动因子，更快地对类中心点进行移动和搜索，提高了方法的搜索效率，能更快找到类中心，提高分类方法的准确性。

附图说明：

图1是本发明的总体流程图。

图2是本发明的一个中心点与数据点之间距离计算示意图。其中，n＝3，m＝3是一个3分类问题，每个数据点用3个属性描述。由图可知：该问题的数据集分布在一个3维空间中，形成area₁，area₂，area₃等3个区域，c₁，c₂，c₃分别为3个区域的类中心点。x_n为一个类标记未知的数据点，计算该数据点与中心点c₁，c₂，c₃的距离d(x_n,c₁)，d(x_n,c₂)，d(x_n,c₃)，得出这些距离的最小值。由图可看出，值最小的距离为d(x_n,c₃)，则x_n的分类结果即为类中心点c₃所表示的类。

图3是基因表达式编程个体基因结构示意图。其中<表示左移运算符，>表示右移运算符，x₁,x₂,x₃,x₄,x₅,x₆表示基因随机选取的数据点，c₁,c₂,c₃,c₄,c₅,c₆分别表示6个类中心点，箭头表示数据点与类中心点的对应关系。

图4是一个以标号为3的右移运算符的实例，根据移动运算符的定义，解码过程如下：

1、运算符为右移运算符，所以计算右子树中类中心点x₅和x₆的均值点，假设为X_mean(5,6)；

2、产生随机移动因子RMF，假设值为0.1；

3、则移动向量Y_move＝0.1X_mean(5,6)；

4、左子树中的类中心点x₃和x₄将分别被更新为x′₃和x′₄，x′₃＝x₃+0.1X_mean(5,6)，x′₄＝x₄+0.1X_mean(5,6)。

具体实施方式

N中心点分类方法通过在一个多维空间中找到一组能够精确表示类的中心点，构成一个分类器。这个过程涉及搜索和评估：在多维空间中搜索类中心点，并评估这些类中心点是否能够精确表示该类。基因表达式编程具有并行搜索的特点和较强的全局寻优能力。本发明将基因表达式编程应用于N中心点分类方法，提出了基于基因表达式编程的N中心点分类方法。

一种基于基因表达式编程的N中心点分类方法，包括：

进一步，步骤S4中基于基因表达式编程的N中心点分类方法，具体是：基于基因表达式编程的基因分为头部和尾部两个部分。对一个n类分类问题，方法从数据集X_u中随机选择n个数据点作为初始类中心点{x₁,x₂,...,x_n}构成基因的尾部，根据类中心点在基因尾部中的位置顺序，x₁,x₂,...,x_n依次表示类c₁,c₂,......,c_n。基因头部是两种特殊的二元运算符：左移运算符＜和右移运算符＞，这两种运算符统称移动运算符。

进一步，步骤S4所述的表示方法的移动运算符过程为：

RMF＝cos(π*d)/i

进一步，根据步骤4所述的表示方法还包括:生成一个[0,1]之间的随机数r，当r大于预先设定的变异概率p时，进行变异操作。对于基因头部，变异算子随机将左移运算符<变异成右移运算符>，或将右移运算符>变异成左移运算符<。对于基因尾部，变异算子随机选择数据集X_u中的数据点替换尾部中的类中心点。

O＝H*w+1/D (1)

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于基因表达式编程的N中心点分类方法，其特征在于，包括有：

步骤S1、将训练数据集X随机划分为大小相等的含类标记数据集X_l和不含类标记数据集X_u；

步骤S2、对一个n类分类问题，从不含类标记数据集X_u中随机选择n个数据点作为初始类中心点C_N；

步骤S3、计算不含类标记数据集X_u中数据点x_i与类中心点c_j之间的距离d(x_i,c_j)，根据距离d(x_i,c_j)将X_u中的每个数据点指派给最小距离值所对应类中心点c_j所代表的类。其中x_i表示训练数据集X中的第i个数据点，c_j表示n个中心点中的第j个中心点；

步骤S4、采用基于基因表达式编程方法的N中心点分类方法表达、搜索和更新类中心点。对基因表达式编程的基因进行必要的选择和变异等遗传操作；

2.根据权利要求1的所述的方法，其特征在于：所述步骤S3中采用数据点与类中心点之间的距离来进行指派的过程如下：

步骤S31、对不含类标记数据集X_u中的每个数据点x_i，计算其与各类中心点c_j之间的距离d(x_i,c_j)。其中距离d(x_i,c_j)为数据点x_i与中心点c_j之间的欧几里得距离；

步骤S32、将该数据点x_i指派给最小距离值min{d(x_i,c_j)}(j∈{1,…,N}所对应的类中心点c_j；

3.根据权利要求1的所述的方法，其特征在于：所述步骤S4中基于基因表达式编程的N中心点分类方法，具体是：基于基因表达式编程的基因分为头部和尾部两个部分；对一个n类分类问题，方法从数据集X_u中随机选择n个数据点作为初始类中心点{x₁,x₂,...,x_n}构成基因的尾部，根据类中心点在基因尾部中的位置顺序，x₁,x₂,...,x_n依次表示类c₁,c₂,......,c_n；基因头部是两种特殊的二元运算符：左移运算符＜和右移运算符＞，这两种运算符统称移动运算符。

4.根据权利要求1的所述的方法，其特征在于:所述步骤S4所述移动运算符过程为：

步骤S41、计算在左移运算符对应的右子树或右移运算符对应的左子树中的类中心点{x₁,x₂,...,x_k}的均值点X_mean＝(X₁,X₂,...,X_m)；其中，k为子树中所含类中心点的个数，m为属性个数。X_mean的第i个属性值x_ji表示中心点x_j的第i个属性值；

步骤S42、产生一个随机移动因子RMF。RMF决定运算符一边子树的每个类中心点相对于另一边子树的所含类中心点的均值点X_mean的移动幅度；因为随机移动因子每次都随机产生，使得类中心点每次能够进行不同幅度的移动，从而增加了种群多样性；这里，随机移动因子的计算公式定义为：

RMF＝cos(π*d)/i

其中，d为区间[0,1]上的随机浮点数，i为[1,k](k>1为整数)之间的随机整数，从上式可以看出RMF属于区间[-1,1]；

步骤S43、根据X_mean和RMF得到移动向量Y_move＝(Y₁,Y₂,...,Y_m)，Y_move的第i个属性值Y_i＝X_i*RMF，X_i为均值点X_mean的第i个属性值；

5.根据权利要求1的所述的方法，其特征在于:所述根据步骤4所述的表示方法进一步包括:生成一个[0,1]之间的随机数r，当r大于预先设定的变异概率p时，进行变异操作；对于基因头部，变异算子随机将左移运算符<变异成右移运算符>，或将右移运算符>变异成左移运算符<；对于基因尾部，变异算子随机选择数据集X_u中的数据点替换尾部中的类中心点。

6.根据权利要求1的所述的方法，其特征在于:所述根据步骤S5所述的表示方法具体是：目标函数O为一个以命中数H和最小距离总和D为自变量的函数表达式的值，计算公式(1)：

O＝H*w+1/D (1)

其中H为命中数，D为最小距离总和，w为区间(0,1)上的一个常数；该公式综合考虑了命中数H和最小距离总和D对划分方案优劣的影响。