CN109344972A

CN109344972A - 一种基于特征可信度的高效特征选择方法

Info

Publication number: CN109344972A
Application number: CN201811193848.5A
Authority: CN
Inventors: 王玉峰; 陈艺元
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-02-15

Abstract

本发明公开了一种基于特征可信度的高效特征选择方法，本发明提出的特征可信度来源于两个方面。一是特征和目标类别的权值，从数据集中随机挑选出样本，从该随机样本的同类和不同类样本实例集中分别找出k个与该随机样本最近邻的样本，然后计算特征全集中每个特征对于目标类别的权值，表示特征与目标类别之间相关度。二是迭代历史信息中各个特征的选择概率，在粒子群更新N次的历史信息中，如果第d个特征多次被选中，则说明该特征很大程度上能使适应度值增加，因此粒子p在第d维度位置更新的时候引入历史更新信息的影响。该发明在保证准确率的同时相对于标准BPSO优化方法有更高的搜索效率和更快的收敛速度。

Description

一种基于特征可信度的高效特征选择方法

技术领域

本发明涉及一种基于特征可信度的高效特征选择方法，属于机器学习和人工智能技术领域。

背景技术

目前，特征选择被认为是机器学习系统工程中必不可少的一个环节，旨在特征全集(即所有特征)中选取少数特征能够使得系统性能达到最优化。在分类工程中，特征之间可能存在冗余，而这些冗余特征甚至会导致分类算法识别准确性降低。过高的特征维数增大了系统计算开销，降低了系统响应时间，导致系统和用户之间的交互性大大下降。

如果有N个特征，那么就可能存在2^N种可能存在的特征子集，无疑搜索空间是巨大的，因此，利用进化计算的搜索能力从潜在巨大的搜索空间搜索出最优的特征子集是非常合适的。其中离散二进制粒子群优化方法(BPSO)与遗传算法等其他进化计算方式相比，具有参数少，效率高，实现简单，收敛快等特点，BPSO作为随机搜索策略被广泛应用到特征选择问题中。

在常规的BPSO特征选择过程中，特征子集的分类准确率通常是首要考虑的指标。而粒子群的搜索效率也是需要考虑的，提升粒子群的搜索效率可以更快地找到最优的特征子集。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于特征可信度的高效特征选择方法，计算每个特征的权值表示特征与目标类别之间的相关度作为特征的可信度的来源之一，并结合在粒子群gbest更新N次的历史信息中每个特征的选择概率，在搜索时引入当前特征对目标类别进行分类时的可信度来引导搜索方向，以提高BPSO在搜索空间的搜索效率。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种基于特征可信度的高效特征选择方法，包括如下步骤：

步骤1：从数据集中随机挑选出样本，选取该随机样本的同类和不同类样本实例集，计算同类样本实例集中样本与随机样本之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本；计算不同类样本实例集中样本与随机样本之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本；对同类和不同类k个样本的每个特征的权值进行更新，作为特征可信度的一个来源；

步骤2：设定BPSO各个参数，计算各个特征迭代历史信息的选择概率作为特征可信度的第二个来源，并结合特征集A中各个特征的权值计算特征的可信度；

步骤3：根据最终输出的gbest_d，确定最终的特征选择。

作为优选方案，所述步骤1包括如下步骤：

步骤1-1：设训练数据集为D，迭代次数为m，样本特征集A＝[a₁，a₂，a₃，...，a_n]，n为特征个数，a_n为该特征的取值；设特征集A中特征的权值集合W[A]＝[W₁，W₂，W₃，...，W_n]，置所有的特征的初始权值为0，则W[A]＝0；

步骤1-2：循环执行以下2个步骤m次：

步骤1-2-1：从训练数据集D中随机选择一个样本R，选取该随机样本R的同类样本实例集，计算同类样本实例集中样本与随机样本R之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本H_i，1＜i≤k；

步骤1-2-2：选取该随机样本R的不同类样本实例集，计算不同类样本实例集中样本与随机样本R之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本M_j(c)，1＜j≤k；

步骤1-3：根据前两个步骤选择的m个样本R和它对应的H_i以及M_j(c)，更新特征集A中n个特征的权值集合W[A]：

其中，p(c)表示类别为c的分布概率，c≠class(R)表示与样本R不同类别，class(R)表示样本R所属的类别，diff函数定义为：

对于离散特征：

对于连续特征：

式中I₁，I₂为两个样本实例，value()表示当前样本实例中特征集A的取特征值。

作为优选方案，所述步骤2包括如下步骤：

步骤2-1：初始化粒子群中每个粒子的速度v_id和位置x_id，i表示第i个粒子，d表示第d维度；设定BPSO的各个参数：种群大小swarmSize，惯性权值g，常量系数C₁和C₂，权重值α，速度取值区间[v_min，v_max]，最大迭代次数T；

步骤2-2：使用初始化的位置x_id作为每个粒子历史最优点pbest_id；

步骤2-3：使用初始化的位置x_id作为更新全局最优点gbest_d；

步骤2-4：更新每个粒子的速度v_id：

v_id(n+1)＝g*v_id(n)+c₁*Rand()*(pbest_id-x_id(n))+c₂*Rand()*(gbest_d-x_id(n))

其中，n表示为当前为第n次迭代，Rand()代表在[0,1]之间取值的随机函数；

步骤2-5：计算基于迭代历史信息的第d个特征的选择概率：

其中，M代表记录粒子群gbest_d的个数，G表示由M个gbest_d组成历史信息矩阵，若当前历史信息记录里已有M个记录，当新更新的gbest_d加入时应剔除历史信息记录中存留时间最久的记录，保证“先进先出”的特性；由于在BPSO算法中位置向量是由“0”，“1”组成的字符串，sum方法则是将第d列相加则表示为粒子群在M次更新gbest过程中第d维被选中的总次数；

步骤2-6：计算第d个特征的可信度：

其中，W_d[A]代表权值集合W[A]中第d个特征的权值，α为权重值；

步骤2-7：更新每个粒子的位置x_id，根据引入的特征的可信度，BPSO位置x_id更新的公式变为：

其中Sigmoid公式为：

步骤2-8：根据步骤2-7得到的每个粒子的位置x_id，计算适应度函数：

fitnessFunction＝errorRate

errorRate表示分类算法的错误率；

若当前每个粒子适应度函数的值小于之前每个粒子适应度函数的值，则用当前的位置代替之前的pbest_id；

若当前全局最优点的适应度函数的值小于之前全局最优点的适应度函数的值，则用当前的位置代替之前全局最优点gbest_d；

步骤2-9：基于标准BPSO循环执行步骤2-4至2-8直到达到设定的最大迭代次数T。

作为优选方案，所述步骤3包括如下步骤：根据最终输出的gbest_d，gbest_d是由“0”，“1”组成的数列，该数列与样本特征集A中的特征一一对应，gbest_d数列中“1”代表样本特征集A中对应位置的特征被选中，gbest_d数列中“0”代表样本特征集A对应位置的特征未选中，选中的特征即为最终选择的特征。

有益效果：本发明提供的一种基于特征可信度的高效特征选择方法，其优点如下：

1、本发明计算特征集中各个特征的权值来度量特征与类别之间的关系，与类别相关性较高的特征提升了特征的可信度，引导粒子群向更快收敛的方向搜索。

2、本发明引入了迭代历史信息中各个特征的选择概率来引导搜索方向。如果在多次更新粒子群的全局最优位置的时候，第d维度多次被选中，这说明第d维度很大概率能够增加适应度函数的性能。本发明在下一次迭代过程中考虑了这种影响，提高了BPSO在搜索特征子集时的搜索效率。

3、本发明选择的特征子集剔除了冗余特征，完全能够代替原来的特征全集，不仅提升了系统性能，而且大大降低了系统的计算开销。

附图说明

图1为特征选择的一般过程示意图。

图2为本发明的方案实施流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，特征选择的一般过程为：首先从特征全集中构造一个可能的特征子集(本发明基于标准BPSO方法构造特征子集)，然后利用某种子集评估准则(本发明的适应度函数)对当前的特征子集进行性能评估，然后将性能评估结果与停止准则(本发明设置的迭代终止条件)进行比较，如果满足停止准则，则当前的特征子集就是最优特征子集。若不满足，则继续产生新的可能存在的特征子集，重复之前的步骤直至满足停止准则。最后，为了确保特征子集是否为最优，需要将当前所选的最优特征子集进行结果验证。

如图2所示，一种基于特征可信度的高效特征选择方法，包括如下步骤：

步骤1：从数据集中随机挑选出样本，选取该随机样本的同类和不同类样本实例集，计算同类样本实例集中样本与随机样本之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本；计算不同类样本实例集中样本与随机样本之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本；对同类和不同类k个样本的每个特征的权值进行更新，作为特征可信度的一个来源。

步骤1-1：设训练数据集为D，迭代次数为m，样本特征集A＝[a₁，a₂，a₃，...，a_n](n为特征个数，a_n为该特征的取值)。设特征集A中特征的权值集合W[A]＝[W₁，W₂，W₃，...，W_n]，置所有的特征的初始权值为0，则W[A]＝0。

步骤1-2：循环执行以下2个步骤m次：

步骤1-2-1：从训练数据集D中随机选择一个样本R，选取该随机样本R的同类样本实例集，计算同类样本实例集中样本与随机样本R之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本H_i，1＜j≤k。

步骤1-2-2：选取该随机样本R的不同类样本实例集，计算不同类样本实例集中样本与随机样本R之间的欧氏距离，并按欧氏距离大小排序，从序列中欧氏距离最小的样本开始选取，取k个样本M_j(c)，1＜j≤k。

对于离散特征：

对于连续特征：

步骤2：设定BPSO各个参数，计算各个特征迭代历史信息的选择概率作为特征可信度的第二个来源，并结合特征集A中各个特征的权值计算特征的可信度。

步骤2-1：初始化粒子群中每个粒子的速度v_id和位置x_id(i表示第i个粒子，d表示第d维度)。设定BPSO的各个参数：种群大小swarmSize，惯性权值g，常量系数C₁和C₂，权重值α，速度取值区间[v_min，v_max]，最大迭代次数T。

步骤2-2：使用初始化的位置x_id作为每个粒子历史最优点pbest_id。

步骤2-3：使用初始化的位置x_id作为更新全局最优点gbest_d。

步骤2-4：更新每个粒子的速度v_id：

步骤2-5：计算基于迭代历史信息的第d个特征的选择概率：

其中，M代表记录粒子群gbest_d的个数，G表示由M个gbest_d组成历史信息矩阵，若当前历史信息记录里已有M个记录，当新更新的gbest_d加入时应剔除历史信息记录中存留时间最久的记录，保证“先进先出”的特性。由于在BPSO算法中位置向量是由“0”，“1”组成的字符串，sum方法则是将第d列相加则表示为粒子群在M次更新gbest过程中第d维被选中的总次数。

步骤2-6：计算第d个特征的可信度：

其中，W_d[A]代表权值集合W[A]中第d个特征的权值，α为权重值。相对于标准BPSO，这里对粒子维度的更新引入了特征的可信度的影响，特征的可信度结合了特征与分类类别的相关性和基于历史信息的选择比例。

其中Sigmoid公式为：

fitnessFunction＝errorRate

errorRate表示分类算法的错误率。

若当前每个粒子适应度函数的值小于之前每个粒子适应度函数的值，则用当前的位置代替之前的pbest_id。

若当前全局最优点的适应度函数的值小于之前全局最优点的适应度函数的值，则用当前的位置代替之前全局最优点gbest_d。

步骤3：根据最终输出的gbest_d,gbest_d是由“0”，“1”组成的数列，该数列与样本特征集A中的特征一一对应，gｂｅｓt_ｄ数列中“1”代表样本特征集Ａ中对应位置的特征被选中，ｇbest_d数列中“0”代表样本特征集A对应位置的特征未选中，选中的特征即为最终选择的特征。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于特征可信度的高效特征选择方法，其特征在于：包括如下步骤：

步骤3：根据最终输出的gbest_d，确定最终的特征选择。

2.根据权利要求1所述的一种基于特征可信度的高效特征选择方法，其特征在于：所述步骤1包括如下步骤：

步骤1-2：循环执行以下2个步骤m次：

步骤1-3：根据前两个步骤选择的m个样本R和它对应的H_i以及M_j(c)，更新特征集A中n个特征的权值集合W[A}：

对于离散特征：

对于连续特征：

3.根据权利要求1所述的一种基于特征可信度的高效特征选择方法，其特征在于：所述步骤2包括如下步骤：

步骤2-3：使用初始化的位置x_id作为更新全局最优点gbest_d；

步骤2-4：更新每个粒子的速度v_id：

步骤2-5：计算基于迭代历史信息的第d个特征的选择概率：

步骤2-6：计算第d个特征的可信度：

其中Sigmoid公式为：

ｆｉtｎｅｓsFunctioｎ＝ｅrrorRate

errorRate表示分类算法的错误率；

4.根据权利要求1所述的一种基于特征可信度的高效特征选择方法，其特征在于：所述步骤3包括如下步骤：根据最终输出的gbest_d，gbest_d是由“0”，“1”组成的数列，该数列与样本特征集A中的特征一一对应，gbest_d数列中“1”代表样本特征集A中对应位置的特征被选中，gbest_d数列中“0”代表样本特征集A对应位置的特征未选中，选中的特征即为最终选择的特征。