CN113283484A - 改进的特征选择方法、装置及存储介质 - Google Patents

改进的特征选择方法、装置及存储介质 Download PDF

Info

Publication number
CN113283484A
CN113283484A CN202110529391.6A CN202110529391A CN113283484A CN 113283484 A CN113283484 A CN 113283484A CN 202110529391 A CN202110529391 A CN 202110529391A CN 113283484 A CN113283484 A CN 113283484A
Authority
CN
China
Prior art keywords
feature
average
candidate
characteristic
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110529391.6A
Other languages
English (en)
Inventor
王心玥
陈震宇
刘国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Postal Savings Bank of China Ltd
Original Assignee
Postal Savings Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Postal Savings Bank of China Ltd filed Critical Postal Savings Bank of China Ltd
Priority to CN202110529391.6A priority Critical patent/CN113283484A/zh
Publication of CN113283484A publication Critical patent/CN113283484A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了改进的特征选择方法、装置及存储介质。其中,该方法包括:对特征变量和特征变量对应的标签进行分类,获取每一类的特征变量对应的平均特征变量矩阵和每一类特征变量对应的平均标签矩阵;利用斯皮尔曼相关系数计算平均特征变量矩阵和平均标签矩阵的相关度,获取相关度大于阈值的候选平均特征量集合;构建候选平均特征量集合对应的随机森林模型,通过随机森林模型计算袋外误差,选取最小袋外误差对应的特征变量。本发明解决了在数据挖掘中特征组合相关性不高的技术问题。

Description

改进的特征选择方法、装置及存储介质
技术领域
本发明涉及计算机领域,具体而言,涉及改进的特征选择方法、装置及存储介质。
背景技术
在实际数据分析和挖掘工作中,通常基于统计等相关工作获取初步特征,但是基于统计量的初步特征并不能反映出数据的全部信息,甚至统计量会误导数据的分析。有时统计量相同的多组变量X与Y,其变量关系相差甚远。例如,比较极端的,当统计量出现安斯库姆四重奏陷阱(Anscombe's quartert)时,四组统计量一致的数据(X,Y),实际上却是有线性、非线性、等异常值影响变量统计量与变量关系多种情况。因此仅仅依靠传统的相关系数计算可能会有无法准确把握变量相关关系。另外,在机器学习特征选择工作中,许多根据模型指标筛选特征的方法鲁棒性不强,或有偏。同时在实际工作中,常常是从高维特征中进行特征选择,因此直接使用机器学习建模进行特征选择,会出现特征数量过多的问题进而特征选择的效果与效率。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种改进的特征选择方法、装置及存储介质,以至少解决在数据挖掘中特征组合相关性不高的技术问题。
根据本发明实施例的一个方面,本发明提供一种改进的特征选择方法,包括:对特征变量和上述特征变量对应的标签进行分类,获取每一类的上述特征变量对应的平均特征变量矩阵和上述每一类的上述特征变量对应的平均标签矩阵;利用斯皮尔曼相关系数计算上述平均特征变量矩阵和上述平均标签矩阵的相关度,获取上述相关度大于阈值的候选平均特征量集合;构建上述候选平均特征量集合对应的随机森林模型,通过上述随机森林模型计算袋外误差,选取最终特征组合。
可选地,上述对特征变量和上述特征变量对应的标签进行分类,获取每一类的上述特征变量对应的平均特征变量矩阵和上述每一类的上述特征变量对应的平均标签矩阵,包括:获取上述特征变量和上述特征变量对应的观测值,计算上述特征变量对应的特征变量矩阵;根据上述特征变量的分类数目,获取上述特征变量对应的平均变量矩阵;根据上述平均变量矩阵,计算上述平均变量矩阵对应的上述平均标签矩阵。
可选地,上述利用斯皮尔曼相关系数计算上述平均特征变量矩阵和上述平均标签矩阵的相关度,获取上述相关度大于阈值的候选平均特征量集合,包括:选取上述特征变量矩阵和上述平均标准矩阵为上述斯皮尔曼相关系数的自变量,获取上述特征变量矩阵和上述平均标签矩阵对应的斯皮尔曼相关矩阵;对上述斯皮尔曼矩阵中的斯皮尔曼相关系数进行排序,获取大于阈值的斯皮尔曼系数对应的上述特征变量矩阵;确定大于阈值的上述特征变量矩阵对应的上述特征变量为候选平均特征量。
可选地,上述斯皮尔曼系数的公式为:
Figure BDA0003067457440000021
其中,上述ρSk用于表示自变量A和自变量B的斯皮尔曼系数,上述ρSk的取值范围在[-1,1],上述ρSk绝对值越接近1,表示自变量之间的相关性越大。
可选地,上述构建上述候选平均特征量集合对应的随机森林模型,通过上述随机森林模型计算袋外误差,选取最终特征组合,包括:对上述候选平均特征量构建一次随机森林模型,通过计算上述一次随机森林模型的袋外误差,获取上述一次随机森林模型对应的候选特征子集;对上述候选特征子集构建二次随机森林模型,通过计算上述二次随机森林模型的袋外误差,获取上述最终特征组合。
可选地,上述对上述候选平均特征量构建一次随机森林模型,通过计算上述一次随机模型的袋外误差,获取上述一次随机模型对应的候选特征子集,包括:获取上述候选平均特征量集合对应的候选特征量;对上述候选特征量构建随机森林模型,计算上述候选特征量对应的第一袋外误差;对上述候选特征量添加袋外误差,计算上述添加袋外误差后的候选特征量对应的第二袋外误差;根据上述第一袋外误差和上述第二袋外误差,获取上述候选特征子集。
可选地,上述根据上述第一袋外误差和上述第二袋外误差,获取上述候选特征子集包括:根据平均差公式,计算上述第一袋外误差和上述第二袋外误差对应的上述候选特征子集的相关度;根据上述候选特征子集的相关度,对上述候选特征子集进行排序,选取上述候选特征子集的相关度大于预设相关度的特征子集作为候选特征子集。
可选地,上述对上述候选特征子集构建二次随机森林模型,通过计算上述二次随机森林模型的袋外误差,获取上述最终特征组合,包括:对上述候选特征子集相关性进行排序,选取在预设目标范围内的特征子集;对每个上述特征子集构建二次随机森林模型,并计算每个随机森林的袋外误差;选取袋外误差最小,且首次出现的上述特征子集对应的特征组合为上述最终特征组合。
根据本发明实施例的又一方面,本发明提供一种存储介质,上述存储介质中存储有计算机程序,其中,上述计算机程序被设置为运行时执行上述的方法。
根据本发明实施例的又一方面,本发明提供一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的方法。
在本发明实施例中,本发明通过对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和每一类的特征变量对应的平均标签矩阵;利用斯皮尔曼相关系数计算平均特征变量矩阵和平均标签矩阵的相关度,获取相关度大于阈值的候选平均特征量集合;构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。
本发明通过发明本改进的特征选择方法、装置及存储介质,解决了在数据挖掘中特征组合相关性不高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的改进的特征选择方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的改进的特征选择方法的流程示意图;
图3是根据本发明实施例的另一种可选的改进的特征选择方法的流程示意图;
图4是根据本发明实施例的另一种可选的改进的特征选择方法的流程示意图;
图5是根据本发明实施例的另一种可选的改进的特征选择方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实际数据分析和挖掘工作中,基于统计等相关工作选择初步特征,但是统计量并不能反映出数据的全部信息,甚至统计量会误导数据的分析。有时统计量相同的多组变量X与Y,其变量关系相差甚远。例如,比较极端的,安斯库姆四重奏陷阱(Anscombe'squartert)中,四组统计量一致的数据(X,Y),实际上却是有线性、非线性、异常值影响变量统计量与变量关系多种情况。因此仅仅依靠传统的相关系数计算可能会有无法准确把握变量相关关系。
另外,在机器学习特征选择工作中,许多根据模型指标筛选特征的方法鲁棒性不强,或有偏。同时在实际工作中,常常是从高维特征中进行特征选择,因此直接使用机器学习建模进行特征选择,会被特征数量过多问题削弱效果与效率。
根据本发明实施例的一个方面,提供了一种改进的特征选择方法,可选地,作为一种可选的实施方式,操作验证方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104,用户设备102可以但不限于包括采集设备1024,用户设备102还可以但不限于其余与设备102建立通信连接的其他用户设备(图中未表示出)。
具体过程可以如下步骤:
步骤S102,用户设备102通过采集设备1024采集特征变量和特征变量对应的标签;
步骤S104-S106,用户102通过网络110将采集的特征变量和特征变量对应的标签送给服务器112;
步骤S108,服务器112通过数据库114选取候选平均特征量集合;并通过处理引擎116构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合;
步骤S110-S112,服务器112通过网络110发送最终特征组合分类信息。
可选地,特征选择方法可以但不限于应用在数据分析的场景下,还可以应用在识别人的数据挖掘场景中。
需要说明的是,采集的特征数据不限于一维数据还有多维复杂变量。
可选地,在本实施例中,终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,改进的特征选择方法包括:
S202,对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵;
S204,利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合;
S206,构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。
进一步举例说明,如图3所示,步骤S202,所述对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵,包括:
S302:获取所述特征变量和所述特征变量对应的观测值,计算所述特征变量对应的特征变量矩阵;
S304:根据所述特征变量分类数目,获取所述特征变量对应的平均变量矩阵。
具体地,在步骤S302中,假设有特征变量X和与特征变量X对应的类别标签值Y。假设有特征变量X对应有K个特征变量,则特征变量X,表示为X=(X1,X2,...,XK),每个特征变量有N个观测值,则特征变量矩阵为
Figure BDA0003067457440000071
将每个特征变量分为P档,计算每档中特征值的平均数(或加权平均数),得到
Figure BDA0003067457440000072
同时计算截面上类别标签值Y的平均数(或加权平均数)得到
Figure BDA0003067457440000081
例如,假设P=10,即将每一单独特征的数据分成10档,然后每一档计算平均
Figure BDA0003067457440000082
(或加权平均数);同时找到每个数值x对应的标签值y,y自然也会同对应的x分为10档,再计算每一档y的平均数
Figure BDA0003067457440000083
(或加权平均数)。在此例下,特征矩阵转化成为了10×K(K为特征个数)矩阵,标签值也转化为了10个平均值。
在步骤S204中,如图4所示,利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合包括:
步骤S402:选取所述特征变量矩阵和所述平均标准矩阵为所述斯皮尔曼相关系数的自变量,获取所述特征变量矩阵和所述平均标准矩阵对应的斯皮尔曼相关矩阵;
步骤S404:对所述斯皮尔曼矩阵中的斯皮尔曼相关系数进行排序,获取大于阈值的斯皮尔曼系数对应的所述特征变量矩阵;
步骤S406:确定大于阈值的所述特征变量矩阵对应的所述特征变量为候选平均特征量。
在本实施例中,分别计算每个分档求平均后的特征变量与类别标签值Y的斯皮尔曼秩相关系数。分档求平均后的特征变量矩阵的秩矩阵为
Figure BDA0003067457440000084
类别标签值Y的秩矩阵为B=(b1,b2,...,bP)T,计算斯皮尔曼相关系数:
Figure BDA0003067457440000085
其中,ρSk用于表示自变量A和自变量B的斯皮尔曼系数,ρSk的取值范围在[-1,1],ρSk绝对值越接近1,表示自变量之间的相关性越大。
沿用步骤S302的命名方式,对每个单独的特征,将分为10档后计算得到的10个平均数排序;同理处理K个特征,由此得到秩矩阵A;将10个标签值Y排序,得到秩矩阵B。对每个单独的特征根据公式计算斯皮尔曼相关系数,此例中可得到10个斯皮尔曼相关系数。
通过改进的斯皮尔曼相关系数筛掉部分变量。得到X与Y的斯皮尔曼相关系数ρS=(ρ12,...,ρK),筛选掉相关系数较低的特征,即筛选掉的特征与类别标签相关性不高。
利用斯皮尔曼系数是进行特征选择方法的第一次选择,通过快捷、有效的斯皮尔曼相关系数计算,可以初步筛选出相关性较高的特征。通过斯皮尔曼秩相关系数的计算,考虑特征与标签值的信息相关性,同时因为计算的是秩相关系数,异常值影响较小,比如如果出现极大的稀少数据,根据秩矩阵计算相关系数,会减少极端异常值的影响。而且此法适用于交叉数据组。同时通过分档改良的方法计算,有效地提高鲁棒性,科学地避免了特殊数据情况陷阱。接下来,在改进的斯皮尔曼相关系数初筛特征的基础上,利用随机森林模型对特征重要性进行更准确的筛选。
进一步地,如图5所示,步骤S206包括:
S502:对所述候选平均特征量构建一次随机森林模型,通过计算所述一次随机模型的袋外误差,获取所述一次随机森林模型对应的候选特征子集;
S504:对所述候选特征子集构建二次随机森林模型,通过计算所述二次随机森林模型的袋外误差,获取所述最终特征组合。
在步骤S502包括:获取所述候选平均特征量集合对应的候选特征量;对所述候选特征量构建随机森林模型,计算所述候选特征量对应的第一袋外误差;对所述候选特征量添加袋外误差,计算所述添加袋外误差后的候选特征量对应的第二袋外误差;根据所述第一袋外误差和所述第二袋外误差,获取所述候选特征子集。根据平均差公式,计算所述第一袋外误差和所述第二袋外误差对应的所述候选特征子集的相关度;根据所述候选特征子集的相关对,对所述候选特征子集进行排序,选取所述相关度大于预设相关度的特征子集作为候选特征子集。
在步骤S504中,对所述候选特征子集相关性进行排序,选取在预设目标范围内的特征子集;对每个所述特征子集构建二次随机森林模型,并计算每个随机森林的袋外误差;选取袋外误差最小,且首次出现的所述特征子集对应的特征组合为所述最终特征组合。
具体地,步骤S504利用袋外误差计算随机森林模型特征重要性方法如下,在随机森林模型中,使用相应的袋外数据计算每一棵树的袋外误差记作
Figure BDA0003067457440000101
然后随机的对袋外数据中的单一特征X的数据加入噪声,例如采用随机改变此特征的某些数据,然后再计算袋外误差记作
Figure BDA0003067457440000102
假设随机森林模型中有L棵树,则:
Figure BDA0003067457440000103
如果在给特征X随机加入噪声后,袋外误差明显增大,则表示该特征X对于模型贡献较大,即对分配标签Y的影响程度较大,可以说明该特征X的重要性较高。
对计算得到的特征X重要性进行排序,删除重要性较低的特征,然后余下m个相对重要的特征得到一个新的特征集。
将剩余的m个特征按重要性排序,构建含重要性前t个特征的特征子集,t=1,...,m。例如,在上一步中通过筛选后余下20个相对重要的特征,那么依次取重要性排名第1的特征构成特征子集、取重要性排名前2的特征构建子集、取重要性排名前3的特征构建子集......取重要性排名前19的特征构建子集、最后取上一步余下所有20个特征构建子集,如此得到20个特征子集。
对于步骤S504,对每个特征子集构建随机森林模型,并计算每个随机森林模型袋外误差。取袋外误差最小,且第一次出现的特征子集组合为最终选择的特征组合。
以上是本特征选择方法的第二部分。该部分在第一部分利用改进的斯皮尔曼相关系数初筛的基础上,利用更加准确的随机森林模型对特征重要性进行评估并筛选。第二部分的筛选是建立在随机森林模型本身的特点上:随机且有放回的自助采样方法,以及每棵树使用的是特征子集。在随机森林模型本身的特点上,利用产生的袋外数据计算袋外误差。相对于模型指标评估特征重要性,通过袋外误差进行特征重要性评估更加科学,因为袋外误差是对随机森林模型泛化误差的无偏估计,更近似于大量k折交叉验证后的结果。具体在此部分中,通过逐个对每个特征增加噪声计算扰动前后袋外误差的变化,评估该特征变量的重要性;再计算较重要特征形成的若干特征子集训练随机森林模型,计算模型袋外误差,筛选出最终选择的特征组合。这样的方法更加全面、无偏,提高科学性。
根据本发明实施例的又一个方面,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行数据统计方面或者数据挖掘各种可选实现方式中提供的方法。其中,该计算机程序被设置为运行时执行任一项方法实施例中的步骤其中,计算机程序被设置为执行改进的特征选择方法,具体包括:
S1,对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵;
S2,利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合;
S3,基于多个时空块生成时空块对应的类簇集合;
S4,构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。
本发明实施例序号仅仅为了描述,不代表实施例的优劣。
实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个采集单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种改进的特征选择方法,其特征在于,包括:
对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵;
利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合;
构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。
2.根据权利要求1所述的方法,其特征在于,所述对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵,包括:
获取所述特征变量和所述特征变量对应的观测值,计算所述特征变量对应的特征变量矩阵;
根据所述特征变量的分类数目,获取所述特征变量对应的平均变量矩阵;
根据所述平均变量矩阵,计算所述平均变量矩阵对应的所述平均标签矩阵。
3.根据权利要求1所述的方法,其特征在于,所述利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合,包括:
选取所述特征变量矩阵和所述平均标准矩阵为所述斯皮尔曼相关系数的自变量,获取所述特征变量矩阵和所述平均标签矩阵对应的斯皮尔曼相关矩阵;
对所述斯皮尔曼矩阵中的斯皮尔曼相关系数进行排序,获取大于阈值的斯皮尔曼系数对应的所述特征变量矩阵;
确定大于阈值的所述特征变量矩阵对应的所述特征变量为候选平均特征量。
4.根据权利要求3所述的方法,其中,所述斯皮尔曼系数的公式为:
Figure FDA0003067457430000021
(其中p=1,...,P;k=1,...,K);
其中,所述ρSk用于表示自变量A和自变量B的斯皮尔曼系数,所述ρSk的取值范围在[-1,1],所述ρSk绝对值越接近1,表示自变量之间的相关性越大。
5.根据权利要求1所述的方法,其特征在于,所述构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合,包括:
对所述候选平均特征量构建一次随机森林模型,通过计算所述一次随机森林模型的袋外误差,获取所述一次随机森林模型对应的候选特征子集;
对所述候选特征子集构建二次随机森林模型,通过计算所述二次随机森林模型的袋外误差,获取所述最终特征组合。
6.根据权利要求5所述的方法,其特征在于,所述对所述候选平均特征量构建一次随机森林模型,通过计算所述一次随机模型的袋外误差,获取所述一次随机模型对应的候选特征子集,包括:
获取所述候选平均特征量集合对应的候选特征量;
对所述候选特征量构建随机森林模型,计算所述候选特征量对应的第一袋外误差;
对所述候选特征量添加袋外误差,计算所述添加袋外误差后的候选特征量对应的第二袋外误差;
根据所述第一袋外误差和所述第二袋外误差,获取所述候选特征子集。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一袋外误差和所述第二袋外误差,获取所述候选特征子集包括:
根据平均差公式,计算所述第一袋外误差和所述第二袋外误差对应的所述候选特征子集的相关度;
根据所述候选特征子集的相关度,对所述候选特征子集进行排序,选取所述候选特征子集的相关度大于预设相关度的特征子集作为候选特征子集。
8.根据权利要求5所述的方法,其特征在于,所述对所述候选特征子集构建二次随机森林模型,通过计算所述二次随机森林模型的袋外误差,获取所述最终特征组合,包括:
对所述候选特征子集相关性进行排序,选取在预设目标范围内的特征子集;
对每个所述特征子集构建二次随机森林模型,并计算每个随机森林的袋外误差;
选取袋外误差最小,且首次出现的所述特征子集对应的特征组合为所述最终特征组合。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
CN202110529391.6A 2021-05-14 2021-05-14 改进的特征选择方法、装置及存储介质 Pending CN113283484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110529391.6A CN113283484A (zh) 2021-05-14 2021-05-14 改进的特征选择方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110529391.6A CN113283484A (zh) 2021-05-14 2021-05-14 改进的特征选择方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113283484A true CN113283484A (zh) 2021-08-20

Family

ID=77279244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110529391.6A Pending CN113283484A (zh) 2021-05-14 2021-05-14 改进的特征选择方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113283484A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823014A (zh) * 2023-04-06 2023-09-29 南京邮电大学 一种企业员工绩效自动评分服务实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN109344907A (zh) * 2018-10-30 2019-02-15 顾海艳 基于改进评判标准分类算法的判别方法
CN111738297A (zh) * 2020-05-26 2020-10-02 平安科技(深圳)有限公司 特征选择方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN109344907A (zh) * 2018-10-30 2019-02-15 顾海艳 基于改进评判标准分类算法的判别方法
CN111738297A (zh) * 2020-05-26 2020-10-02 平安科技(深圳)有限公司 特征选择方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823014A (zh) * 2023-04-06 2023-09-29 南京邮电大学 一种企业员工绩效自动评分服务实现方法
CN116823014B (zh) * 2023-04-06 2024-02-13 南京邮电大学 一种企业员工绩效自动评分服务实现方法

Similar Documents

Publication Publication Date Title
CN109902708B (zh) 一种推荐模型训练方法及相关装置
CN109697629B (zh) 产品数据推送方法及装置、存储介质、计算机设备
US10235425B2 (en) Entity fingerprints
CN110245213A (zh) 调查问卷生成方法、装置、设备和存储介质
WO2012115965A1 (en) Entity fingerprints
CN106227881B (zh) 一种信息处理方法及服务器
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
US20230153845A1 (en) System and method for generating custom data models for predictive forecasting
CN115082209A (zh) 业务数据风险预警方法、装置、计算机设备及存储介质
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN108268519B (zh) 一种推荐网络对象的方法和装置
Silva et al. Novel features for time series analysis: a complex networks approach
CN111612085A (zh) 一种对等组中异常点的检测方法及装置
CN113283484A (zh) 改进的特征选择方法、装置及存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN109934631A (zh) 问答信息处理方法、装置及计算机设备
GB2467918A (en) Determining the correct value and the reliability of a data item by aggregating or combining the value of the data item from several databases.
KR101462858B1 (ko) 기업의 해외 진출 역량 평가 방법
CN104484357A (zh) 数据处理方法及装置和访问频次信息处理方法及装置
CN108460475A (zh) 基于学生上网行为的贫困生预测方法和装置
CN115392992A (zh) 商品推荐方法、终端设备及计算机可读存储介质
CN111177657B (zh) 需求确定方法、系统、电子设备及存储介质
CN113407821A (zh) 一种小区动态内容推荐方法、系统、智能终端及服务器
CN113946755A (zh) 基于关联规则的信息推送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination