CN109344972A - 一种基于特征可信度的高效特征选择方法 - Google Patents
一种基于特征可信度的高效特征选择方法 Download PDFInfo
- Publication number
- CN109344972A CN109344972A CN201811193848.5A CN201811193848A CN109344972A CN 109344972 A CN109344972 A CN 109344972A CN 201811193848 A CN201811193848 A CN 201811193848A CN 109344972 A CN109344972 A CN 109344972A
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- gbest
- euclidean distance
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种基于特征可信度的高效特征选择方法,本发明提出的特征可信度来源于两个方面。一是特征和目标类别的权值,从数据集中随机挑选出样本,从该随机样本的同类和不同类样本实例集中分别找出k个与该随机样本最近邻的样本,然后计算特征全集中每个特征对于目标类别的权值,表示特征与目标类别之间相关度。二是迭代历史信息中各个特征的选择概率,在粒子群更新N次的历史信息中,如果第d个特征多次被选中,则说明该特征很大程度上能使适应度值增加,因此粒子p在第d维度位置更新的时候引入历史更新信息的影响。该发明在保证准确率的同时相对于标准BPSO优化方法有更高的搜索效率和更快的收敛速度。
Description
技术领域
本发明涉及一种基于特征可信度的高效特征选择方法,属于机器学习和人工智能技术领域。
背景技术
目前,特征选择被认为是机器学习系统工程中必不可少的一个环节,旨在特征全集(即所有特征)中选取少数特征能够使得系统性能达到最优化。在分类工程中,特征之间可能存在冗余,而这些冗余特征甚至会导致分类算法识别准确性降低。过高的特征维数增大了系统计算开销,降低了系统响应时间,导致系统和用户之间的交互性大大下降。
如果有N个特征,那么就可能存在2N种可能存在的特征子集,无疑搜索空间是巨大的,因此,利用进化计算的搜索能力从潜在巨大的搜索空间搜索出最优的特征子集是非常合适的。其中离散二进制粒子群优化方法(BPSO)与遗传算法等其他进化计算方式相比,具有参数少,效率高,实现简单,收敛快等特点,BPSO作为随机搜索策略被广泛应用到特征选择问题中。
在常规的BPSO特征选择过程中,特征子集的分类准确率通常是首要考虑的指标。而粒子群的搜索效率也是需要考虑的,提升粒子群的搜索效率可以更快地找到最优的特征子集。
发明内容
目的:为了克服现有技术中存在的不足,本发明提供一种基于特征可信度的高效特征选择方法,计算每个特征的权值表示特征与目标类别之间的相关度作为特征的可信度的来源之一,并结合在粒子群gbest更新N次的历史信息中每个特征的选择概率,在搜索时引入当前特征对目标类别进行分类时的可信度来引导搜索方向,以提高BPSO在搜索空间的搜索效率。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
一种基于特征可信度的高效特征选择方法,包括如下步骤:
步骤1:从数据集中随机挑选出样本,选取该随机样本的同类和不同类样本实例集,计算同类样本实例集中样本与随机样本之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本;计算不同类样本实例集中样本与随机样本之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本;对同类和不同类k个样本的每个特征的权值进行更新,作为特征可信度的一个来源;
步骤2:设定BPSO各个参数,计算各个特征迭代历史信息的选择概率作为特征可信度的第二个来源,并结合特征集A中各个特征的权值计算特征的可信度;
步骤3:根据最终输出的gbestd,确定最终的特征选择。
作为优选方案,所述步骤1包括如下步骤:
步骤1-1:设训练数据集为D,迭代次数为m,样本特征集A=[a1,a2,a3,...,an],n为特征个数,an为该特征的取值;设特征集A中特征的权值集合W[A]=[W1,W2,W3,...,Wn],置所有的特征的初始权值为0,则W[A]=0;
步骤1-2:循环执行以下2个步骤m次:
步骤1-2-1:从训练数据集D中随机选择一个样本R,选取该随机样本R的同类样本实例集,计算同类样本实例集中样本与随机样本R之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本Hi,1<i≤k;
步骤1-2-2:选取该随机样本R的不同类样本实例集,计算不同类样本实例集中样本与随机样本R之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本Mj(c),1<j≤k;
步骤1-3:根据前两个步骤选择的m个样本R和它对应的Hi以及Mj(c),更新特征集A中n个特征的权值集合W[A]:
其中,p(c)表示类别为c的分布概率,c≠class(R)表示与样本R不同类别,class(R)表示样本R所属的类别,diff函数定义为:
对于离散特征:
对于连续特征:
式中I1,I2为两个样本实例,value()表示当前样本实例中特征集A的取特征值。
作为优选方案,所述步骤2包括如下步骤:
步骤2-1:初始化粒子群中每个粒子的速度vid和位置xid,i表示第i个粒子,d表示第d维度;设定BPSO的各个参数:种群大小swarmSize,惯性权值g,常量系数C1和C2,权重值α,速度取值区间[vmin,vmax],最大迭代次数T;
步骤2-2:使用初始化的位置xid作为每个粒子历史最优点pbestid;
步骤2-3:使用初始化的位置xid作为更新全局最优点gbestd;
步骤2-4:更新每个粒子的速度vid:
vid(n+1)=g*vid(n)+c1*Rand()*(pbestid-xid(n))+c2*Rand()*(gbestd-xid(n))
其中,n表示为当前为第n次迭代,Rand()代表在[0,1]之间取值的随机函数;
步骤2-5:计算基于迭代历史信息的第d个特征的选择概率:
其中,M代表记录粒子群gbestd的个数,G表示由M个gbestd组成历史信息矩阵,若当前历史信息记录里已有M个记录,当新更新的gbestd加入时应剔除历史信息记录中存留时间最久的记录,保证“先进先出”的特性;由于在BPSO算法中位置向量是由“0”,“1”组成的字符串,sum方法则是将第d列相加则表示为粒子群在M次更新gbest过程中第d维被选中的总次数;
步骤2-6:计算第d个特征的可信度:
其中,Wd[A]代表权值集合W[A]中第d个特征的权值,α为权重值;
步骤2-7:更新每个粒子的位置xid,根据引入的特征的可信度,BPSO位置xid更新的公式变为:
其中Sigmoid公式为:
步骤2-8:根据步骤2-7得到的每个粒子的位置xid,计算适应度函数:
fitnessFunction=errorRate
errorRate表示分类算法的错误率;
若当前每个粒子适应度函数的值小于之前每个粒子适应度函数的值,则用当前的位置代替之前的pbestid;
若当前全局最优点的适应度函数的值小于之前全局最优点的适应度函数的值,则用当前的位置代替之前全局最优点gbestd;
步骤2-9:基于标准BPSO循环执行步骤2-4至2-8直到达到设定的最大迭代次数T。
作为优选方案,所述步骤3包括如下步骤:根据最终输出的gbestd,gbestd是由“0”,“1”组成的数列,该数列与样本特征集A中的特征一一对应,gbestd数列中“1”代表样本特征集A中对应位置的特征被选中,gbestd数列中“0”代表样本特征集A对应位置的特征未选中,选中的特征即为最终选择的特征。
有益效果:本发明提供的一种基于特征可信度的高效特征选择方法,其优点如下:
1、本发明计算特征集中各个特征的权值来度量特征与类别之间的关系,与类别相关性较高的特征提升了特征的可信度,引导粒子群向更快收敛的方向搜索。
2、本发明引入了迭代历史信息中各个特征的选择概率来引导搜索方向。如果在多次更新粒子群的全局最优位置的时候,第d维度多次被选中,这说明第d维度很大概率能够增加适应度函数的性能。本发明在下一次迭代过程中考虑了这种影响,提高了BPSO在搜索特征子集时的搜索效率。
3、本发明选择的特征子集剔除了冗余特征,完全能够代替原来的特征全集,不仅提升了系统性能,而且大大降低了系统的计算开销。
附图说明
图1为特征选择的一般过程示意图。
图2为本发明的方案实施流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,特征选择的一般过程为:首先从特征全集中构造一个可能的特征子集(本发明基于标准BPSO方法构造特征子集),然后利用某种子集评估准则(本发明的适应度函数)对当前的特征子集进行性能评估,然后将性能评估结果与停止准则(本发明设置的迭代终止条件)进行比较,如果满足停止准则,则当前的特征子集就是最优特征子集。若不满足,则继续产生新的可能存在的特征子集,重复之前的步骤直至满足停止准则。最后,为了确保特征子集是否为最优,需要将当前所选的最优特征子集进行结果验证。
如图2所示,一种基于特征可信度的高效特征选择方法,包括如下步骤:
步骤1:从数据集中随机挑选出样本,选取该随机样本的同类和不同类样本实例集,计算同类样本实例集中样本与随机样本之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本;计算不同类样本实例集中样本与随机样本之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本;对同类和不同类k个样本的每个特征的权值进行更新,作为特征可信度的一个来源。
步骤1-1:设训练数据集为D,迭代次数为m,样本特征集A=[a1,a2,a3,...,an](n为特征个数,an为该特征的取值)。设特征集A中特征的权值集合W[A]=[W1,W2,W3,...,Wn],置所有的特征的初始权值为0,则W[A]=0。
步骤1-2:循环执行以下2个步骤m次:
步骤1-2-1:从训练数据集D中随机选择一个样本R,选取该随机样本R的同类样本实例集,计算同类样本实例集中样本与随机样本R之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本Hi,1<j≤k。
步骤1-2-2:选取该随机样本R的不同类样本实例集,计算不同类样本实例集中样本与随机样本R之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本Mj(c),1<j≤k。
步骤1-3:根据前两个步骤选择的m个样本R和它对应的Hi以及Mj(c),更新特征集A中n个特征的权值集合W[A]:
其中,p(c)表示类别为c的分布概率,c≠class(R)表示与样本R不同类别,class(R)表示样本R所属的类别,diff函数定义为:
对于离散特征:
对于连续特征:
式中I1,I2为两个样本实例,value()表示当前样本实例中特征集A的取特征值。
步骤2:设定BPSO各个参数,计算各个特征迭代历史信息的选择概率作为特征可信度的第二个来源,并结合特征集A中各个特征的权值计算特征的可信度。
步骤2-1:初始化粒子群中每个粒子的速度vid和位置xid(i表示第i个粒子,d表示第d维度)。设定BPSO的各个参数:种群大小swarmSize,惯性权值g,常量系数C1和C2,权重值α,速度取值区间[vmin,vmax],最大迭代次数T。
步骤2-2:使用初始化的位置xid作为每个粒子历史最优点pbestid。
步骤2-3:使用初始化的位置xid作为更新全局最优点gbestd。
步骤2-4:更新每个粒子的速度vid:
vid(n+1)=g*vid(n)+c1*Rand()*(pbestid-xid(n))+c2*Rand()*(gbestd-xid(n))
其中,n表示为当前为第n次迭代,Rand()代表在[0,1]之间取值的随机函数;
步骤2-5:计算基于迭代历史信息的第d个特征的选择概率:
其中,M代表记录粒子群gbestd的个数,G表示由M个gbestd组成历史信息矩阵,若当前历史信息记录里已有M个记录,当新更新的gbestd加入时应剔除历史信息记录中存留时间最久的记录,保证“先进先出”的特性。由于在BPSO算法中位置向量是由“0”,“1”组成的字符串,sum方法则是将第d列相加则表示为粒子群在M次更新gbest过程中第d维被选中的总次数。
步骤2-6:计算第d个特征的可信度:
其中,Wd[A]代表权值集合W[A]中第d个特征的权值,α为权重值。相对于标准BPSO,这里对粒子维度的更新引入了特征的可信度的影响,特征的可信度结合了特征与分类类别的相关性和基于历史信息的选择比例。
步骤2-7:更新每个粒子的位置xid,根据引入的特征的可信度,BPSO位置xid更新的公式变为:
其中Sigmoid公式为:
步骤2-8:根据步骤2-7得到的每个粒子的位置xid,计算适应度函数:
fitnessFunction=errorRate
errorRate表示分类算法的错误率。
若当前每个粒子适应度函数的值小于之前每个粒子适应度函数的值,则用当前的位置代替之前的pbestid。
若当前全局最优点的适应度函数的值小于之前全局最优点的适应度函数的值,则用当前的位置代替之前全局最优点gbestd。
步骤2-9:基于标准BPSO循环执行步骤2-4至2-8直到达到设定的最大迭代次数T。
步骤3:根据最终输出的gbestd,gbestd是由“0”,“1”组成的数列,该数列与样本特征集A中的特征一一对应,gbestd数列中“1”代表样本特征集A中对应位置的特征被选中,gbestd数列中“0”代表样本特征集A对应位置的特征未选中,选中的特征即为最终选择的特征。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于特征可信度的高效特征选择方法,其特征在于:包括如下步骤:
步骤1:从数据集中随机挑选出样本,选取该随机样本的同类和不同类样本实例集,计算同类样本实例集中样本与随机样本之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本;计算不同类样本实例集中样本与随机样本之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本;对同类和不同类k个样本的每个特征的权值进行更新,作为特征可信度的一个来源;
步骤2:设定BPSO各个参数,计算各个特征迭代历史信息的选择概率作为特征可信度的第二个来源,并结合特征集A中各个特征的权值计算特征的可信度;
步骤3:根据最终输出的gbestd,确定最终的特征选择。
2.根据权利要求1所述的一种基于特征可信度的高效特征选择方法,其特征在于:所述步骤1包括如下步骤:
步骤1-1:设训练数据集为D,迭代次数为m,样本特征集A=[a1,a2,a3,...,an],n为特征个数,an为该特征的取值;设特征集A中特征的权值集合W[A]=[W1,W2,W3,...,Wn],置所有的特征的初始权值为0,则W[A]=0;
步骤1-2:循环执行以下2个步骤m次:
步骤1-2-1:从训练数据集D中随机选择一个样本R,选取该随机样本R的同类样本实例集,计算同类样本实例集中样本与随机样本R之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本Hi,1<i≤k;
步骤1-2-2:选取该随机样本R的不同类样本实例集,计算不同类样本实例集中样本与随机样本R之间的欧氏距离,并按欧氏距离大小排序,从序列中欧氏距离最小的样本开始选取,取k个样本Mj(c),1<j≤k;
步骤1-3:根据前两个步骤选择的m个样本R和它对应的Hi以及Mj(c),更新特征集A中n个特征的权值集合W[A}:
其中,p(c)表示类别为c的分布概率,c≠class(R)表示与样本R不同类别,class(R)表示样本R所属的类别,diff函数定义为:
对于离散特征:
对于连续特征:
式中I1,I2为两个样本实例,value()表示当前样本实例中特征集A的取特征值。
3.根据权利要求1所述的一种基于特征可信度的高效特征选择方法,其特征在于:所述步骤2包括如下步骤:
步骤2-1:初始化粒子群中每个粒子的速度vid和位置xid,i表示第i个粒子,d表示第d维度;设定BPSO的各个参数:种群大小swarmSize,惯性权值g,常量系数C1和C2,权重值α,速度取值区间[vmin,vmax],最大迭代次数T;
步骤2-2:使用初始化的位置xid作为每个粒子历史最优点pbestid;
步骤2-3:使用初始化的位置xid作为更新全局最优点gbestd;
步骤2-4:更新每个粒子的速度vid:
vid(n+1)=g*vid(n)+c1*Rand()*(pbestid-xid(n))+c2*Rand()*(gbestd-xid(n))
其中,n表示为当前为第n次迭代,Rand()代表在[0,1]之间取值的随机函数;
步骤2-5:计算基于迭代历史信息的第d个特征的选择概率:
其中,M代表记录粒子群gbestd的个数,G表示由M个gbestd组成历史信息矩阵,若当前历史信息记录里已有M个记录,当新更新的gbestd加入时应剔除历史信息记录中存留时间最久的记录,保证“先进先出”的特性;由于在BPSO算法中位置向量是由“0”,“1”组成的字符串,sum方法则是将第d列相加则表示为粒子群在M次更新gbest过程中第d维被选中的总次数;
步骤2-6:计算第d个特征的可信度:
其中,Wd[A]代表权值集合W[A]中第d个特征的权值,α为权重值;
步骤2-7:更新每个粒子的位置xid,根据引入的特征的可信度,BPSO位置xid更新的公式变为:
其中Sigmoid公式为:
步骤2-8:根据步骤2-7得到的每个粒子的位置xid,计算适应度函数:
fitnessFunction=errorRate
errorRate表示分类算法的错误率;
若当前每个粒子适应度函数的值小于之前每个粒子适应度函数的值,则用当前的位置代替之前的pbestid;
若当前全局最优点的适应度函数的值小于之前全局最优点的适应度函数的值,则用当前的位置代替之前全局最优点gbestd;
步骤2-9:基于标准BPSO循环执行步骤2-4至2-8直到达到设定的最大迭代次数T。
4.根据权利要求1所述的一种基于特征可信度的高效特征选择方法,其特征在于:所述步骤3包括如下步骤:根据最终输出的gbestd,gbestd是由“0”,“1”组成的数列,该数列与样本特征集A中的特征一一对应,gbestd数列中“1”代表样本特征集A中对应位置的特征被选中,gbestd数列中“0”代表样本特征集A对应位置的特征未选中,选中的特征即为最终选择的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811193848.5A CN109344972A (zh) | 2018-10-12 | 2018-10-12 | 一种基于特征可信度的高效特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811193848.5A CN109344972A (zh) | 2018-10-12 | 2018-10-12 | 一种基于特征可信度的高效特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344972A true CN109344972A (zh) | 2019-02-15 |
Family
ID=65309965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811193848.5A Pending CN109344972A (zh) | 2018-10-12 | 2018-10-12 | 一种基于特征可信度的高效特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344972A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178180A (zh) * | 2019-12-16 | 2020-05-19 | 广州地理研究所 | 基于改进型蚁群算法的高光谱影像特征选择方法及装置 |
CN111259947A (zh) * | 2020-01-13 | 2020-06-09 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多模态学习的电力系统故障预警方法和系统 |
-
2018
- 2018-10-12 CN CN201811193848.5A patent/CN109344972A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178180A (zh) * | 2019-12-16 | 2020-05-19 | 广州地理研究所 | 基于改进型蚁群算法的高光谱影像特征选择方法及装置 |
CN111178180B (zh) * | 2019-12-16 | 2023-08-11 | 广州地理研究所 | 基于改进型蚁群算法的高光谱影像特征选择方法及装置 |
CN111259947A (zh) * | 2020-01-13 | 2020-06-09 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多模态学习的电力系统故障预警方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103116762B (zh) | 一种基于自调制字典学习的图像分类方法 | |
Sun et al. | Boosting for learning multiple classes with imbalanced class distribution | |
CN106599936A (zh) | 一种基于二进制蚁群算法的特征选择方法及系统 | |
CN110516098A (zh) | 基于卷积神经网络及二进制编码特征的图像标注方法 | |
CN109344972A (zh) | 一种基于特征可信度的高效特征选择方法 | |
CN109948534A (zh) | 采用快速密度峰值聚类进行人脸识别的方法 | |
CN112308161A (zh) | 一种基于人工智能半监督聚类目标下的粒子群算法 | |
CN107886130A (zh) | 一种基于聚类和相似度加权的kNN快速分类方法 | |
Zou et al. | SVM learning from imbalanced data by GA sampling for protein domain prediction | |
CN109934286A (zh) | 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法 | |
Kumar et al. | Unsupervised fusion weight learning in multiple classifier systems | |
CN109447178A (zh) | 一种基于混合核函数的svm分类方法 | |
Azizi et al. | From static to dynamic ensemble of classifiers selection: Application to Arabic handwritten recognition | |
Oliveira et al. | Improving cascading classifiers with particle swarm optimization | |
CN110020675A (zh) | 一种双阈值AdaBoost分类方法 | |
CN114020948A (zh) | 基于排序聚类序列辨别选择的草图图像检索方法及系统 | |
CN112200260B (zh) | 一种基于丢弃损失函数的人物属性识别方法 | |
CN108805162A (zh) | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 | |
CN112070173A (zh) | 一种以交叉熵为查询策略的主动学习方法 | |
Chen et al. | Fast multi-class sample reduction for speeding up support vector machines | |
Hua | A quantum-inspired particle swarm optimization K-means++ clustering algorithm | |
Qu et al. | An automatic clustering algorithm using nsga-ii with gene rearrangement | |
Zou et al. | A dynamic ensemble selection strategy for improving error correcting output codes algorithm | |
Kazimipour et al. | A novel genetic-based instance selection method: Using a divide and conquer approach | |
Yang et al. | Multiple kernel active learning for image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |