CN112651416A - 特征选择方法、装置、设备和介质 - Google Patents
特征选择方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112651416A CN112651416A CN201910962985.9A CN201910962985A CN112651416A CN 112651416 A CN112651416 A CN 112651416A CN 201910962985 A CN201910962985 A CN 201910962985A CN 112651416 A CN112651416 A CN 112651416A
- Authority
- CN
- China
- Prior art keywords
- feature
- subset
- feature subset
- features
- optimized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000402754 Erythranthe moschata Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了特征选择方法、装置、设备和介质。该方法包括:获取原始特征集的当前待寻优特征子集;将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集;从第一特征子集中剔除第二特征,得到第二特征子集;若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。根据本发明实施例提供的特征选择方法、装置、设备和介质,可以提高特征选择的精确度。
Description
技术领域
本发明涉及数据处理领域,尤其涉及特征选择方法、装置、设备和介质。
背景技术
特征选择,通常应用于建模过程中的数据降维,是指从原始特征集中选择使某种评估标准最优的特征子集。其目的在于使选出的最优特征子集所构建的分类或回归模型达到与特征选择前近似甚至更好的预测精度,这不但提高了模型的泛化能力、模型的可理解性以及计算效率,同时可降低“维度灾难”发生的可能,在实际建模工作中缩减了建模的人力、时间与资源等成本,增加了建模所带来的效率。
目前常用的特征选择算法包括完全搜索和随机搜索,特征选择精度较低。
发明内容
本发明实施例提供特征选择方法、装置、设备和介质,可以提高特征选择的精确度。
第一方面,本发明实施例提供了一种特征选择方法,包括:获取原始特征集的当前待寻优特征子集;将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合;从第一特征子集中剔除第二特征,得到第二特征子集,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合;若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。
在本发明实施例提供的特征选择方法中,通过循环的方式获取原始特征集的最优特征子集。在更新第二特征子集的过程中,由于第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合。因此,在循环过程中,不断添加当前待寻优特征子集契合度最高的第一特征,并判断是否需要剔除掉最有可能是无关特征或者冗余特征的第二特征。因此,随着循环过程的推进,待寻优特征子集不断优化,可以提高特征选择的精确度。
在一种可选的实施方式中,方法还包括:若第二特征子集优于当前待寻优特征子集,将第二特征子集作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到新的第二特征子集不优于对应的待寻优特征子集或新的第二特征子集的特征数量小于数量阈值,将新的第一特征子集作为下一待寻优特征子集。
在第二特征子集优于当前待寻优特征子集的情况下,则可以继续利用第二特征子集计算最优特征子集。可以继续从第二特征子集中剔除掉疑似无关特征或者疑似冗余特征,直到第二特征无法继续降维。因此,在保证最优特征的评价函数值较高的同时,能够尽量降低特征维度,提高了选择精度。
在一种可选的实施方式中,将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,包括:在候选特征子集中任选一个特征加入待寻优特征子集,得到待定第一特征子集;将评价函数值最高的待定第一特征子集确定为第一特征子集,并将加入第一特征子集的特征确定为第一特征。
由于评价函数值可以作为评价特征集优劣的标准,通过构建待定第一特征子集,并将最优的待定第一特征子集作为第一特征子集的方式,可以充分考虑候选特征子集中的每个元素与当前待寻优特征子集的契合程度,准确的从候选特征子集中选择出契合度最高的特征添加入当前特征子集,提高了特征提取的精度。
在一种可选的实施方式中,从第一特征子集中剔除第二特征,得到第二特征子集,包括:在第一特征子集中任选一个除第一特征外的特征剔除,得到待定第二特征子集;将评价函数值最高的待定第二特征子集确定为第二特征子集,并将剔除出第二特征子集的特征确定为第二特征。
由于评价函数值可以作为评价特征集优劣的标准,通过构建待定第二特征子集,并将最优的待定第二特征子集作为第二特征子集的方式,可以将最有可能是冗余特征或者无关特征的第二特征从第一特征子集中剔除,因而最大程度的保证了最优特征子集不包含冗余特征或无关特征,提高了特征提取的精度。
在一种可选的实施方式中,方法还包括:将第二特征的相关特征从候选特征子集中剔除。
若第二特征子集作为下一待寻优特征子集,则第二特征表征无关特征或者冗余特征。由于若某一特征与无关特征或者冗余特征相关,则该特征也为无关特征或者冗余特征。因此,可以将第二特征从候选特征子集中剔除,来提高特征选择的效率,减小运算量。
在一种可选的实施方式中,方法还包括:
在候选特征子集的候选特征中,筛选出与第二特征的相关度大于第二阈值的特征,作为新的候选特征;按照预设增长步幅,增大第一阈值,并利用增大后的第一阈值对新的候选特征进行筛选,直到筛选后的候选特征数量为零,将新的候选相关特征作为第二特征的相关特征。
通过逐步放大第一阈值的方式,逐步限缩候选特征的数量,通过多次循环,准确的从候选特征子集中找到与第二特征相关的特征。
第二方面,本发明实施例提供一种装置,包括:获取模块,用于获取原始特征集的当前待寻优特征子集;第一构造模块,用于将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合;第二构造模块,用于从第一特征子集中剔除第二特征,得到第二特征子集,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合;选定模块,用于若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。
在一种可选的实施方式中,装置还包括:
第三构造模块,用于若第二特征子集优于当前待寻优特征子集,将第二特征子集作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到新的第二特征子集不优于对应的待寻优特征子集或新的第二特征子集的特征数量小于数量阈值,将新的第一特征子集作为下一待寻优特征子集。。
第三方面,本发明实施例提供一种特征选择设备,设备包括:存储器,用于存储程序;处理器,用于运行存储器中存储的程序,以执行第一方面、第一方面的任一可选实施方式提供的特征选择方法。
第四方面,本发明实施例提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面、第一方面的任一可选实施方式提供的特征选择方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出根据本发明实施例的特征选择方法的示意流程图;
图2是示出了根据本发明一些示例性实施例特征选择方法的更详细的流程图;
图3示出了利用利用多种算法对应的分类精度的示意图;
图4示出了根据本发明实施例提供的特征选择装置的结构示意图;
图5是本发明实施例中特征选择设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种特征提取方法、装置、设备和介质,可应用于数据建模过程中进行特征提取的具体场景中。由于原始特征集中会存在着劣化分类器或分类算法的性能和预测准确度的冗余特征或者不相关的特征。因此,在构造分类器和分类算法之间,需要从原始特征集合中筛除掉冗余特征和不相关的特征,获取评价性能最佳的最优特征子集。
本发明实施例提供的特征选择方法,通过循环来逐次更新当前待寻优特征子集、第一特征子集和第二特征子集。在循环过程中,若第二特征子集满足停止准则,将第二停止准则选定为原始特征集的最优特征子集。若第二特征子集不满足停止准则,则将第二特征子集作为下一次循环过程中的当前待寻优特征子集。
为了更好的理解本发明,下面将结合附图,详细描述根据本发明实施例的特征选择方法、装置、设备和介质,应注意,这些实施例并不用来限制本发明公开的范围。
图1是示出根据本发明实施例的特征选择方法的示意流程图。如图1所示,本实施例中的特征选择方法100可以包括S110至S140。其中,特征选择算法100可以是一个循环过程,在选定最优特征子集之前,循环执行S110至S140。
S110,获取原始特征集的当前待寻优特征子集。若本次是第k次循环,则当前待寻优特征子集是第k个待寻优特征子集Xk。无论是第几次循环,待寻优特征子集均为原始特征集的子集,也就是说,待寻优特征子集的所有特征都同样属于原始特征集。其中,在第1次循环时,当前待寻优特征子集可以为空集。示例性的,若原始特征集Y=[x1,x2,x3,x4,x5,x6,x7],当前待寻优特征子集Xk=[x1,x2,x3]。
S120,将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,将第一特征子集优于将候选特征子集中任一其他特征加入当前待寻优特征子集得到的集合。
其中,候选特征子集包含着需要进行筛选的特征。候选特征子集可包括下述两种实施方式:
第一种实施方式,候选特征子集包含着原始特征集中不属于当前待寻优特征子集的特征。示例性的,若原始特征集Y=[x1,x2,x3,x4,x5,x6,x7],当前待寻优特征子集Xk=[x1,x2,x3],则候选特征子集W=[x4,x5,x6,x7]。
第二种实施方式,候选特征子集除了不包含当前待寻优特征子集的特征之外,还不包含当下一待寻优特征子集比当前待寻优特征子集相比缺失的已剔除特征的相关特征。示例性的,若当前待寻优特征子集Xk=[x1,x2,x3],下一待寻优特征子集Xk=[x1,x3]。若x5和x6是x2的相关特征,则下一次循环所使用的候选特征子集W=[x4,x7]。
在S120中,第一特征表示候选特征子集中与当前待寻优特征子集的契合度最高的特征。其中,证明第一特征与当前待寻优特征子集最高的方式可以是:第一特征子集优于将候选特征集候选特征子集中除第一特征外的任一其他特征加入当前待寻优特征子集得到的第一集合。可选的,可以通过比较各自的评价函数的方式来判断第一特征子集和第一集合之间的优劣。评价函数可以用J(X)确定,评价函数越高,集合越优。例如,评价函数可以为筛选器或者封装器。也就是说,第一特征子集的评价函数值高于第一集合的评价函数值。
具体地,S120的具体实施方式如下:
S121,在候选特征子集中任选一个特征加入待寻优特征子集,得到至少一个待定第一特征子集。示例性的,若Xk=[x1,x2,x3],则候选特征子集W=[x4,x5,x6,x7]。则可以分别将待选特征子集的4个特征,加入待寻优特征子集,构造出4个待定第一特征子集。其中,待定第一特征子集分别为A1=[x1,x2,x3,x4],A2=[x1,x2,x3,x5],A3=[x1,x2,x3,x6],A4=[x1,x2,x3,x7]。
S122,将评价函数值最高的待定第一特征子集确定为第一特征子集,并将加入第一特征子集的特征确定为第一特征。示例性的,若A2=[x1,x2,x3,x5]的评价函数值最高,则A2=[x1,x2,x3,x5]为第一特征子集,x5为第一特征。
通过S121和S122,由于评价函数值可以作为评价特征集优劣的标准,通过构建待定第一特征子集,并将最优的待定第一特征子集作为第一特征子集的方式,可以充分考虑候选特征子集中的每个元素与当前待寻优特征子集的契合程度,准确的从候选特征子集中选择出契合度最高的特征添加入当前特征子集,提高了特征提取的精度。
此外,将第一特征加入当前待寻优特征子集之后,为避免重复运算,还可以将第一特征从候选特征子集中剔除。
S130,从第一特征子集中剔除第二特征,得到至少一个第二特征子集。其中,从第一特征子集剔除第二特征得到的集合优于从当前待寻优特征子集剔除任一其他特征得到的集合。
在S130中,第二特征是第一特征子集中最可能为无关特征或者冗余特征的特征。考虑到如果需要从第一特征子集中剔除掉一个特征,去掉契合度最高的特征后,评价函数值可能会大幅下降,去掉无关特征或者冗余特征后,评价函数值降低的幅度较小。因此,也可以通过计算评价函数值的方式,从第一特征子集中寻找出最有可能是无关特征或者冗余特征的特征。具体地,S130的具体实施方式可以包括:
S131,在第一特征子集中任选一个除第一特征外的特征剔除,得到待定第二特征子集。示例性地,若第一特征子集A2=[x1,x2,x3,x5],第一特征为x5,则可以分别剔除掉x5之外的剩余3个特征,对应的待定第二特征子集分别为B1=[x2,x3,x5],B2=[x1,x3,x5],B3=[x1,x2,x5]。
S132,将评价函数值最高的待定第二特征子集确定为第二特征子集,并将剔除出第二特征子集的特征确定为第二特征。示例性的,若J(B2)大于J(B1)和J(B3),则x2为第二特征,B2=[x1,x3,x5]为第二特征子集。
通过S131和S132,由于评价函数值可以作为评价特征集优劣的标准,通过构建待定第二特征子集,并将最优的待定第二特征子集作为第二特征子集的方式,可以将最有可能是冗余特征或者无关特征的第二特征从第一特征子集中剔除,因而最大程度的保证了最优特征子集不包含冗余特征或无关特征,提高了特征提取的精度。
S140,若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。其中,下一待寻优特征子集可作为下一次循环过程中的当前待寻优特征子集。若第二特征子集的评价函数值低于当前待寻优特征子集的评价函数值的可能性,将第二特征子集作为下一待寻优特征子集,则可能会导致特征选择的准确度不断降低。因此,若第二特征子集不优于当前待寻优特征子集,证明不适合剔除第二特征,为了保证准确精度,可以将第一特征集合代入下一次循环。
因此,在执行S140的过程中,首先,需要判断第一特征子集是否优于当前待寻优特征子集。具体地,可以利用评价函数判断特征集合的优劣。
其次,在确定特征子集不优于当前待寻优特征子集之后,需要判断第一特征子集是否满足预设的停止准则,若满足停止准则,则算法停止,并将第一特征子集选定为最优特征子集。若不满足停止准则,则需要进入下一次的循环,并将第一特征子集作为下一次循环的当前待寻优特征子集。
其中,停止准则表征特征选择的标准,可以根据特征选择的需要或实际情况确定。例如,可以是下述停止准则的一个或多个:
确定停止准则A、第一特征子集的评价函数高于预设的评价函数阈值。其中,评价函数阈值可以根据实际需求和工作场景设置,对此不作限定。
停止准则B、第一特征子集的特征维数高于或等于预设的特征维数阈值。其中,特征维数阈值可以是一个根据实际需求和工作场景设置的期望值,对此不作限定。
在本发明实施例提供的特征选择方法中,通过循环的方式获取原始特征集的最优特征子集。在更新第二特征子集的过程中,由于第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合。因此,在循环过程中,不断添加当前待寻优特征子集契合度最高的第一特征,并判断是否需要剔除掉最有可能是无关特征或者冗余特征的第二特征。因此,随着循环过程的推进,待寻优特征子集不断优化,可以提高特征选择的精确度。
在一些实施例中,还存在着第二特征子集优于当前待寻优特征子集的情况,则可以继续利用第二特征子集计算最优特征子集。此时,S130之后,特征选择方法100还包括:
S150,若第二特征子集优于当前待寻优特征子集,将第二特征子集作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到新的第二特征子集不优于对应的待寻优特征子集或小于数量阈值,将新的第一特征子集作为下一待寻优特征子集。
首先,若第二特征子集优于待寻优特征子集,需要将第二特征子集作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集。新的第二特征的获取方式与S120的相关描述相同,在此不再赘述。
具体地,可以先从新的第一特征子集(更新前的第二特征子集)中任选一个除第一特征之外的特征剔除,得到新的待定第二特征子集。并将评价函数值最高的新的待定第二特征子集选定为新的第二特征子集。示例性的,若新的第一特征子集B2=[x1,x3,x5],x5为第一特征,则新的待定第二特征子集包括C1=[x3,x5],C2=[x1,x5]。若J(C2)大于J(C1),则新的第二特征子集为C2=[x1,x5]。
其他具体内容可参见上文中关于第二特征的相关描述,在此不再赘述。
其次,需要判断新的第二特征子集是否优于新的第二特征子集对应的待寻优特征子集,以及新的第二特征子集的特征数量是否小于预设的数量阈值。
由于S150是个小循环,若第k次大循环(循环S110至S140)的过程中,第i次循环S150的过程中获取的新的第二特征子集,与第k-i次循环过程中的待寻优特征子集对应。
若新的第二特征子集不优于对应的待寻优特征子集,则证明剔除掉新的第二特征后得到的新的第二特征子集,并没有起到优化的效果。因此不适合继续通过减少特征的方式求得最优特征子集。可以将新的第一特征子集作为下一待寻优特征子集。
若新的第二特征子集的特征数量小于数量阈值,由于数量阈值表征着特征数量的最低要求,则不适合继续通过减少特征的方式求得最优特征子集,可以将新的第一特征子集作为下一待寻优特征子集。其中,可以根据具体的应用场景和应用需求预先设置数量阈值。比如,数量阈值的取值可以为2。
若新的第二特征子集优于对应的待寻优特征子集且第二特征子集的特征数量大于等于数量阈值,则证明第三特征子集还可能通过减少特征的方式求得最优特征子集。则可以继续循环执行S150。
在一些实施例中,若候选特征子集除了不包含当前待寻优特征子集的特征,还不包含下一待寻优特征子集比当前待寻优特征子集相比缺失的已剔除特征的相关特征。具体地,若第二特征子集作为下一当前待寻优特征子集,则将第二特征的相关特征从候选特征子集中剔除。此外,若第一特征子集作为下一待寻优特征子集,则无需将第二特征的相关特征从候选特征子集中筛除。
若第二特征子集作为下一待寻优特征子集,则第二特征表征无关特征或者冗余特征。由于若某一特征与无关特征或者冗余特征相关,则该特征也为无关特征或者冗余特征。因此,为了提高特征选择的效率,减小运算量,可以将第二特征从候选特征子集中剔除。
具体地,确定第二特征的相关特征的具体方式可以如下述步骤一和步骤二所示。需要说明的是,确定第二特征的相关特征可以是一个循环执行步骤一和步骤二的过程。
步骤一、在候选特征子集的候选特征中,筛选出与第二特征的相关度大于第一阈值的特征,作为新的候选特征。其中,计算各候选特征与第二特征之间的相关度可以通过计算各候选特征与第二特征之间的相关系数来确定的。第一阈值用于衡量特征之间是否相关,若两个特征的相关度大于第一阈值,则两个特征相关,若两个特征的相关度不大于第一阈值,则两个特征不相关。示例性的,若候选特征x1、x2、x3、x4中,x1、x4与第二特征x5的相关度大于第一阈值,则x1和x4均为x5的相关特征。
其中,候选特征的初始值为候选特征子集中的所有特征。
步骤二、按照预设增长步幅Δ,增大第一阈值,并利用增大后的第一阈值对新的候选特征进行筛选,直到筛选后的候选特征数量为零,将新的候选相关特征作为第二特征的相关特征。
针对第一阈值,若是第j次循环执行步骤一和步骤二,则第j次循环中增大前的第一阈值pj=p1+(j-1)Δ。其中,增长步幅Δ和第一阈值的初始值p1可以根据实际需求和具体场景设置,增长步幅Δ可以是定值或者变量,对此不作限定。
示例性的,若第j次循环中新得到的候选特征为x1、x4,则x1、x4与第二特征x5的相关度大于pj。若x1、x4与第二特征x5的相关度均小于pj+1,则x1、x4为第二特征的相关特征。
通过步骤一和步骤二,通过逐步放大第一阈值的方式,逐步限缩候选特征的数量,通过多次循环,准确的从候选特征子集中找到与第二特征相关的特征。
基于相同的发明构思,图2是示出了根据本发明一些示例性实施例特征选择方法的更详细的流程图。如图2所示,特征选择方法200包括:
S201、获取当前待寻优特征子集。若本次是第k次循环,则当前待寻优特征子集是第k个待寻优特征子集。
S202、将候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集。
S203、剔除第一特征子集的第二特征,得到第二特征子集。
S204、判断第二特征子集是否优于待当前待寻优特征子集。若判断结果为否,执行S205;若判断结果为是,执行S208。
S205、若第二特征子集不优于当前待寻优特征子集,判断第一特征子集是否满足预设停止准则。若判断结果为否,执行S206;若判断结果为是,执行S207。
S206、若第一特征子集不满足预设停止准则,则将第一特征子集作为下一待寻优特征子集,并返回S201。
S207、若第一特征子集满足预设停止准则,将第一特征子集作为原始特征集的最优特征子集,整个流程结束。
S208、若第二特征子集优于当前待寻优特征子集,判断第二特征子集D的特征数量n(D)是否大于数量阈值d,或者,第二特征子集D是否优于对应的待寻优特征子集U,J(D)>J(U)。若判断结果为是,执行S209,若判断结果为否,执行S210。
S209、若第二特征子集的特征数量大于数量阈值且第二特征子集优于对应的待寻优特征子集,将第二特征子集作为新的第一特征子集,返回S203。
S210、若第二特征子集的特征数量小于等于数量阈值或者第二特征子集不优于对应的待寻优特征子集,将第一特征子集作为下一待寻优特征子集,并返回S201。
其中,特征选择方法200中各步骤的具体实施方式,可参照特征选择方法100中的相关描述。
此外,为了验证本发明实施例提供的特征选择方法200的有效性。本发明实施例选择了机器学习中经典的二分类数据集musk来验证特征选择方法200,该数据集描述了不同构造的分子,每个分子标记为musk或non-musk,样本个数和特征个数分别为476和166。在测试时,以K-近邻算法的分类精度作为特征选择的评价函数,最终得到各算法的分类精度。
图3示出了利用利用多种算法对应的分类精度的示意图。其中,四种不同的点划线分别为传统序列算法中前向序列选择算法(SFS)、浮动前向序列选择算法(SFFS)、自适应前向序列选择算法(ASFFS)以及特征选择方法200(RSFFS算法)在musk数据集特征选择后的分类精度。从图3可以看出,整体上,各算法法人分类精度是随着特征子集个数的增大而提高,且最后趋于稳定的。但是,在相同个数的特征子集个数时,本发明的RSFFS算法所得到的特征子集在分类时的精度明显高于传统序列算法SFS、SFFS和ASFFS,当特征子集的个数在10与16之间尤其明显。
基于相同的发明构思,本发明实施例提供了特征选择装置。图4示出了根据本发明实施例提供的特征选择装置的结构示意图。如图4所示,特征选择装置400包括:
获取模块410,用于获取原始特征集的当前待寻优特征子集;
第一构造模块420,用于将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合;
第二构造模块430,用于从第一特征子集中剔除第二特征,得到第二特征子集,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合;
选定模块440,用于若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。
在本发明的一些实施例中,特征选择装置400还包括:
第三构造模块,用于若第二特征子集优于当前待寻优特征子集,将第二特征子集作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到新的第二特征子集不优于对应的待寻优特征子集或新的第二特征子集的特征数量小于数量阈值,将新的第一特征子集作为下一待寻优特征子集。
在本发明的一些实施例中,第一构造模块420,包括:
第一处理单元,用于在候选特征子集中任选一个特征加入待寻优特征子集,得到待定第一特征子集;
第二处理单元,用于将评价函数值最高的待定第一特征子集确定为第一特征子集,并将加入第一特征子集的特征确定为第一特征。
在本发明的一些实施例中,第二构造模块430,包括:
第一处理单元,用于在第一特征子集中任选一个除第一特征外的特征剔除,得到待定第二特征子集;
第二处理单元,用于将评价函数值最高的待定第二特征子集确定为第二特征子集,并将剔除出第二特征子集的特征确定为第二特征。
在本发明的一些实施例中,特征选择装置400还包括:
特征剔除模块,用于将第二特征的相关特征从候选特征子集中剔除。
在本发明的一些实施例中,特征选择装置400还包括:
筛选模块,用于在候选特征子集的候选特征中,筛选出与第二特征的相关度大于第二阈值的特征,作为新的候选特征;
特征选择模块,用于按照预设增长步幅,增大第一阈值,并利用增大后的第一阈值对新的候选特征进行筛选,直到筛选后的候选特征数量为零,将新的候选相关特征作为第二特征的相关特征。
根据本发明实施例的特征选择装置的其他细节与以上结合图1至图2描述的根据本发明实施例的方法类似,在此不再赘述。
图5是本发明实施例中特征选择设备的示例性硬件架构的结构图。
如图5所示,特征选择设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中,输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与特征选择设备500的其他组件连接。
具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到特征选择设备500的外部供用户使用。
也就是说,图5所示的特征选择设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图4描述的特征选择设备的方法和装置。
在一个实施例中,图5所示的特征选择设备500可以被实现为一种设备,该设备可以包括:存储器,用于存储程序;处理器,用于运行存储器中存储的程序,以执行结合图1至图3描述的特征选择设备的方法。
本发明实施例还提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例的特征选择方法。其中,计算机程序指令可以具体为Python代码,计算机程序可以封装为exe格式的工具。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
以上,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
Claims (10)
1.一种特征选择方法,其特征在于,所述方法包括:
获取原始特征集的当前待寻优特征子集;
将原始特征集的候选特征子集中的第一特征加入所述当前待寻优特征子集,得到第一特征子集,所述第一特征子集优于将所述候选特征子集中所述第一特征外的任一其他特征加入所述当前待寻优特征子集得到的集合;
从所述第一特征子集中剔除第二特征,得到第二特征子集,所述第二特征子集优于从所述第一特征子集剔除所述第一特征和所述第二特征外的任一其他特征得到的集合;
若所述第二特征子集不优于所述当前待寻优特征子集,将所述第一特征子集作为下一待寻优特征子集,直至所述第一特征子集满足预设停止准则,将所述第一特征子集选定为原始特征集的最优特征子集。
2.根据权利要求1所述的方法,其特征在于,所述从所述第一特征子集中剔除第二特征,得到第二特征子集之后,所述方法还包括:
若所述第二特征子集优于所述当前待寻优特征子集,将所述第二特征子集作为新的第一特征子集,并从所述新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,
直到所述新的第二特征子集不优于对应的待寻优特征子集或所述新的第二特征子集的特征数量小于数量阈值,将所述新的第一特征子集作为下一待寻优特征子集。
3.根据权利要求1所述的方法,其特征在于,所述将原始特征集的候选特征子集中的第一特征加入所述当前待寻优特征子集,得到第一特征子集,包括:
在所述候选特征子集中任选一个特征加入所述待寻优特征子集,得到待定第一特征子集;
将评价函数值最高的待定第一特征子集确定为第一特征子集,并将加入所述第一特征子集的特征确定为所述第一特征。
4.根据权利要求3所述的方法,其特征在于,所述从所述第一特征子集中剔除第二特征,得到第二特征子集,包括:
在第一特征子集中任选一个除所述第一特征外的特征剔除,得到待定第二特征子集;
将评价函数值最高的待定第二特征子集确定为所述第二特征子集,并将剔除出所述第二特征子集的特征确定为所述第二特征。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述第二特征的相关特征从所述候选特征子集中剔除。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述候选特征子集的候选特征中,筛选出与所述第二特征的相关度大于第二阈值的特征,作为新的候选特征;
按照预设增长步幅,增大所述第一阈值,并利用增大后的所述第一阈值对所述新的候选特征进行筛选,直到筛选后的候选特征数量为零,将所述新的候选相关特征作为所述第二特征的相关特征。
7.一种特征选择装置,其特征在于,所述装置包括:
获取模块,用于获取原始特征集的当前待寻优特征子集;
第一构造模块,用于将原始特征集的候选特征子集中的第一特征加入所述当前待寻优特征子集,得到第一特征子集,所述第一特征子集优于将所述候选特征子集中所述第一特征外的任一其他特征加入所述当前待寻优特征子集得到的集合;
第二构造模块,用于从所述第一特征子集中剔除第二特征,得到第二特征子集,所述第二特征子集优于从所述第一特征子集剔除所述第一特征和所述第二特征外的任一其他特征得到的集合;
选定模块,用于若所述第二特征子集不优于所述当前待寻优特征子集,将所述第一特征子集作为下一待寻优特征子集,直至所述第一特征子集满足预设停止准则,将所述第一特征子集选定为原始特征集的最优特征子集。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三构造模块,用于若所述第二特征子集优于所述当前待寻优特征子集,将所述第二特征子集作为新的第一特征子集,并从所述新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到所述新的第二特征子集不优于对应的待寻优特征子集或所述新的第二特征子集的特征数量小于数量阈值,将所述新的第一特征子集作为下一待寻优特征子集。
9.一种特征选择设备,其特征在于,所述设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求1-6任一权利要求所述的特征选择方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-6任一权利要求所述的特征选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910962985.9A CN112651416B (zh) | 2019-10-11 | 2019-10-11 | 特征选择方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910962985.9A CN112651416B (zh) | 2019-10-11 | 2019-10-11 | 特征选择方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651416A true CN112651416A (zh) | 2021-04-13 |
CN112651416B CN112651416B (zh) | 2024-09-17 |
Family
ID=75343424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910962985.9A Active CN112651416B (zh) | 2019-10-11 | 2019-10-11 | 特征选择方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651416B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118469308A (zh) * | 2024-07-11 | 2024-08-09 | 国网山东省电力公司东营供电公司 | 基于多源数据融合分析的电力系统风险指数构建方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049913A1 (en) * | 2003-07-11 | 2005-03-03 | Huddleston David E. | Method and apparatus for automated feature selection |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
CN105184323A (zh) * | 2015-09-15 | 2015-12-23 | 广州唯品会信息科技有限公司 | 特征选择方法及系统 |
CN105512686A (zh) * | 2015-12-14 | 2016-04-20 | 深圳大学 | 一种集成特征选择方法及系统 |
US20180300333A1 (en) * | 2017-04-13 | 2018-10-18 | General Electric Company | Feature subset selection and ranking |
CN108875795A (zh) * | 2018-05-28 | 2018-11-23 | 哈尔滨工程大学 | 一种基于Relief和互信息的特征选择算法 |
CN109284766A (zh) * | 2018-07-20 | 2019-01-29 | 深圳大学 | 一种多元离散的特征选择方法、装置、设备及存储介质 |
CN109740762A (zh) * | 2018-12-05 | 2019-05-10 | 东软集团股份有限公司 | 特征选择方法、装置、存储介质及电子设备 |
CN109784365A (zh) * | 2018-12-06 | 2019-05-21 | 深圳市创梦天地科技有限公司 | 一种特征选择方法、终端、可读介质及计算机程序 |
CN109800790A (zh) * | 2018-12-24 | 2019-05-24 | 厦门大学 | 一种面向高维数据的特征选择方法 |
-
2019
- 2019-10-11 CN CN201910962985.9A patent/CN112651416B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049913A1 (en) * | 2003-07-11 | 2005-03-03 | Huddleston David E. | Method and apparatus for automated feature selection |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
CN105184323A (zh) * | 2015-09-15 | 2015-12-23 | 广州唯品会信息科技有限公司 | 特征选择方法及系统 |
CN105512686A (zh) * | 2015-12-14 | 2016-04-20 | 深圳大学 | 一种集成特征选择方法及系统 |
US20180300333A1 (en) * | 2017-04-13 | 2018-10-18 | General Electric Company | Feature subset selection and ranking |
CN108875795A (zh) * | 2018-05-28 | 2018-11-23 | 哈尔滨工程大学 | 一种基于Relief和互信息的特征选择算法 |
CN109284766A (zh) * | 2018-07-20 | 2019-01-29 | 深圳大学 | 一种多元离散的特征选择方法、装置、设备及存储介质 |
CN109740762A (zh) * | 2018-12-05 | 2019-05-10 | 东软集团股份有限公司 | 特征选择方法、装置、存储介质及电子设备 |
CN109784365A (zh) * | 2018-12-06 | 2019-05-21 | 深圳市创梦天地科技有限公司 | 一种特征选择方法、终端、可读介质及计算机程序 |
CN109800790A (zh) * | 2018-12-24 | 2019-05-24 | 厦门大学 | 一种面向高维数据的特征选择方法 |
Non-Patent Citations (3)
Title |
---|
刘飞飞;: "特征选择算法及应用综述", 办公自动化, no. 21, 1 November 2018 (2018-11-01) * |
计智伟;吴耿锋;胡珉;: "基于自适应遗传算法和SVM的特征选择", 计算机工程, no. 14, 20 July 2009 (2009-07-20) * |
黄波: ""基于支持向量机的多示例学习研究与应用", 中国优秀硕士学位论文全文数据库信息科技辑, no. 1, 15 January 2010 (2010-01-15), pages 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118469308A (zh) * | 2024-07-11 | 2024-08-09 | 国网山东省电力公司东营供电公司 | 基于多源数据融合分析的电力系统风险指数构建方法 |
CN118469308B (zh) * | 2024-07-11 | 2024-10-11 | 国网山东省电力公司东营供电公司 | 基于多源数据融合分析的电力系统风险指数构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112651416B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8239404B2 (en) | Identifying entries and exits of strongly connected components | |
CN111177505A (zh) | 指标异常检测模型的训练方法、推荐的方法及装置 | |
US20220092395A1 (en) | Computing device | |
CN114861579B (zh) | 集成电路中时序瓶颈节点分析和时序优化方法及系统 | |
JP2019133628A (ja) | 情報処理方法及び情報処理システム | |
CN111626338B (zh) | 基于融合分类模型的云环境匹配方法、装置、设备和介质 | |
CN115062570B (zh) | 一种形式验证方法、装置、设备及计算机存储介质 | |
KR102460485B1 (ko) | 정책 벡터 기반 인공신경망 탐색 장치 및 방법 | |
CN112651416A (zh) | 特征选择方法、装置、设备和介质 | |
CN116150125A (zh) | 结构化数据生成模型的训练方法、装置、设备及存储介质 | |
CN111626168B (zh) | 手势识别方法、装置、设备和介质 | |
CN112308278B (zh) | 用户离网预测模型的优化方法、装置、设备和介质 | |
JP2022105454A (ja) | 情報処理プログラム、情報処理方法及び情報処理装置 | |
CN116055340B (zh) | 分布式网络未知参数估计方法、装置及电子设备 | |
CN110097184B (zh) | 信息处理方法以及信息处理系统 | |
Kryszkiewicz et al. | Towards scalable algorithms for discovering rough set reducts | |
CN115858648A (zh) | 数据库生成方法、数据流切分方法、装置、设备及介质 | |
CN115587111A (zh) | 用于数据库查询优化的基数估计方法及装置 | |
AU2013376200B2 (en) | Data compression device, data compression method, and program | |
CN110990611B (zh) | 图片缓存方法、装置、电子设备及存储介质 | |
CN113011624A (zh) | 用户违约预测方法、装置、设备及介质 | |
WO2021226709A1 (en) | Neural architecture search with imitation learning | |
CN112861115A (zh) | 基于区块链安全认证的加密策略调用方法及云认证服务器 | |
CN116841854A (zh) | 测试用例执行方法及设备 | |
JP2021047537A (ja) | 情報処理装置、情報処理プログラムおよび情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |