CN114912628A - 特征选择方法、装置、电子设备及计算机可读存储介质 - Google Patents

特征选择方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114912628A
CN114912628A CN202210509313.4A CN202210509313A CN114912628A CN 114912628 A CN114912628 A CN 114912628A CN 202210509313 A CN202210509313 A CN 202210509313A CN 114912628 A CN114912628 A CN 114912628A
Authority
CN
China
Prior art keywords
feature
importance
real
features
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210509313.4A
Other languages
English (en)
Inventor
陈海波
罗志鹏
何智星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyan Technology Beijing Co ltd
Original Assignee
Shenyan Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyan Technology Beijing Co ltd filed Critical Shenyan Technology Beijing Co ltd
Priority to CN202210509313.4A priority Critical patent/CN114912628A/zh
Publication of CN114912628A publication Critical patent/CN114912628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种特征选择方法、装置、电子设备及存储介质,该方法包括从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征的真实特征重要性;根据基准列将所有待选择特征分组为多个待选择特征组;将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱;通过树模型训练每个待选择特征和与其对应的打乱标签,以获得每个待选择特征的虚假特征重要性;以及基于每个待选择特征的真实特征重要性与虚假特征重要性选择被筛选特征。通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱,能够更加快速有效地筛选过拟合特征。

Description

特征选择方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据挖掘技术领域,尤其涉及特征选择方法、装置、电子设备及 计算机可读存储介质。
背景技术
机器学习里面特征工程往往是提升效果的关键,而特征选择是特征工程里的 一个重要问题。特征选择的目的是寻找最优特征子集。在实际业务中,用于模型 中的特征维度往往很高,几万维,甚至高达上亿维,维度过高会增大模型计算复 杂度,但是在这么多维数据中,并不是每个特征对模型的预测都是有效果的,所 以要去除一些不必要特征。特征选择能剔除不相关,冗余或有害的特征,从而达 到减少特征个数,降低模型的计算复杂度,甚至提升预测精度。
常见的特征选择有3类分别是Filter(过滤器)方法,Wrapper(包裹器)方 法和Embedding(嵌入式)方法。
其中,Filter(过滤器)方法其主要思想是:对每一维的特征“打分”,即 给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权 重排序,如卡方检验,信息增益和相关系数等方法。此类方法速度一般很快,但 是容易选出一些有用的特征。
Wrapper(包裹器)方法其主要思想是:将子集的选择看作是一个搜索寻优 问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将 子集的选择看作是一个优化问题,这里有很多的优化算法可以解决,尤其是一些 启发式的优化算法,如GA(遗传算法)、PSO(粒子群算法)、DE(差分演化 算法)和ABC(分工蜂群算法)等。然而,此类方法一般复杂度很高。
Embedding(嵌入式)方法其主要思想是在确定模型的过程中,挑选出那些 对模型的训练有重要意义的特征,如岭回归。
最近兴起有一种特征选择方法(目标排序,target permutation)。在模型中, 存在一些方差比较大的特征,导致模型很容易学到这些特征的噪声。target per mutation方法利用树模型得到的信息增益排序,能够能选择出方差很大,同时真 实重要性也低的特征。然而,由于分类特征与标签相关性比较大,且训练集与测 试集的分类特征分布不一致,甚至特征值完全不相交,因此会导致与分类特征相 关的特征在训练集里有效而在测试集中无效甚至有害的情况发生,从而导致过拟 合并严重影响了模型的学习方向,而targetpermutation方法无法筛选出这样的 与分类特征相关的过拟合特征。
发明内容
鉴于以上情况而做出本申请,并且本申请的目的是提供一种特征选择方法、 装置、电子设备及计算机可读存储介质,本申请通过根据基准列将待选择特征分 组而后在组内对待选择特征的真实标签随机打乱,能够解决target permutation 方法的上述问题,从而能够更加快速有效地筛选出对模型危害更大的与分类特征 相关的过拟合特征,从而降低模型的复杂度,减少计算资源消耗,同时还能够提 升模型的精度。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了特征选择方法,包括:从原始数据获取待选择特征 以及与每个待选择特征相对应的真实标签;通过树模型学习每个待选择特征和与 其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征 重要性;根据基准列将所有待选择特征进行分组,以形成多个待选择特征组;将 每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以 使得每个待选择特征对应于打乱标签;通过所述树模型训练每个待选择特征和 与其对应的打乱标签,以获得每个待选择特征在与之对应的打乱标签下的虚假特 征重要性;以及基于每个待选择特征的所述真实特征重要性和所述虚假特征重要 性,选择被筛选特征。
根据该实施例,能够获得如下技术效果:通过根据基准列将待选择特征分组 而后在组内对待选择特征的真实标签随机打乱,从而在保证分类特征对标签仍旧 敏感的前提下,更加快速有效地筛选出与分类特征相关的过拟合特征,从而降低 模型的复杂度,减少计算资源消耗,同时还能够提升模型的精度。
作为一个实施例,所述通过树模型学习每个待选择特征和与其对应的真实标 签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性可以包括: 通过所述树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择 特征的特征信息增益和特征被划分次数,作为每个待选择特征的所述真实特征重 要性。
根据该实施例,能够获得如下技术效果:能够根据特征信息增益和特征被划 分次数获得特征重要性。
作为一个实施例,所述基于每个待选择特征的所述真实特征重要性和所述虚 假特征重要性,选择被筛选特征可以包括:利用打分函数比较每个待选择特征的 所述真实特征重要性和所述虚假特征重要性,获得每个待选择特征的打分值;以 及将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。
根据该实施例,能够获得如下技术效果:能够筛选出特征方差偏大而导致噪 声的特征,从而能够筛选出实际重要性(真实的重要性)低的特征,提升树模型 效果。
作为一个实施例,将所述打分值满足所述预设条件的待选择特征选择为所述 被筛选特征可以包括:当基于所述打分值确认待选择特征的所述真实标签重要性 高且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选 择为所述被筛选特征。当所述待选择特征的所述真实标签重要性与所述虚假标签 重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预 设数值时,将所述待选择特征选择为所述被筛选特征。
根据该实施例,能够获得如下技术效果:在保证分类特征对标签仍旧敏感的 前提下,更加快速有效地筛选出与分类特征相关的过拟合特征。
作为一个实施例,所述方法可以还包括:剔除被选择为所述被筛选特征的所 述待选择特征。
根据该实施例,能够获得如下技术效果:在待选择特征被选择为被筛选特征 的情况下,将该待选择特征从原始数据(数据包)剔除,从而减少了模型的复杂 度,减少了过拟合情况的产生。
第二方面,提供了一种特征选择装置,包括:特征获取模块,该特征获取模 块用于从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;真 实特征重要性获取模块,该真实特征重要性获取模块用于通过树模型学习每个待 选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签 下的真实特征重要性;分组模块,该分组模块用于根据基准列将所有待选择特征 进行分组,以形成多个待选择特征组;标签打乱模块,该标签打乱模块用于将每 个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以使 得每个待选择特征对应于打乱标签;虚假特征重要性获取模块,该虚假特征重要 性获取模块用于通过所述树模型训练每个待选择特征和与其对应的打乱标签,以 获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性;以及筛选模块, 该筛选模块用于基于每个待选择特征的所述真实特征重要性和所述虚假特征重 要性,选择被筛选特征。
根据该实施例,能够获得如下技术效果:通过根据基准列将待选择特征分组 而后在组内对待选择特征的真实标签随机打乱,从而在保证分类特征对标签仍旧 敏感的前提下,更加快速有效地筛选出与分类特征相关的过拟合特征,从而降低 模型的复杂度,减少计算资源消耗,同时还能够提升模型的精度。
作为一个实施例,其中,所述通过树模型学习每个待选择特征和与其对应的 真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性可 以包括:通过所述树模型学习每个待选择特征和与其对应的真实标签,以获得每 个待选择特征的特征信息增益和特征被划分次数,作为每个待选择特征的所述真 实特征重要性。
根据该实施例,能够获得如下技术效果:能够根据特征信息增益和特征被划 分次数获得特征重要性。
作为一个实施例,所述筛选模块可以包括:打分单元,该打分单元用于利用 打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性,获 得每个待选择特征的打分值;以及条件判定单元,该条件判定单元用于将所述打 分值满足预设条件的待选择特征选择为所述被筛选特征。
根据该实施例,能够获得如下技术效果:能够筛选出特征方差偏大而导致噪 声的特征,从而能够筛选出实际重要性(真实的重要性)低的特征,提升树模型 效果。
作为一个实施例,将所述打分值满足所述预设条件的待选择特征选择为所述 被筛选特征包括:当基于所述打分值确认待选择特征的所述真实标签重要性高且 所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选择为 所述被筛选特征。当待选择特征的所述真实标签重要性与所述虚假标签重要性的 打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时, 将所述待选择特征选择为所述被筛选特征。
根据该实施例,能够获得如下技术效果:在保证分类特征对标签仍旧敏感的 前提下,更加快速有效地筛选出与分类特征相关的过拟合特征。
作为一个实施例,所述装置可以还包括:特征剔除模块,该特征剔除模块用 于剔除被选择为所述被筛选特征的所述待选择特征。
根据该实施例,能够获得如下技术效果:在待选择特征被选择为被筛选特征 的情况下,将该待选择特征从原始数据(数据包)剔除,从而减少了模型的复杂 度,减少了过拟合情况的产生。
第三方面,本申请提供了一种电子设备,所述电子设备包括存储器和处理器, 所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一 项方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介 质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步 骤。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1是本申请实施例提供的一种特征选择方法的流程示意图;
图2是本申请实施例提供的另一种特征选择方法的流程示意图;
图3是本申请实施例提供的又一种特征选择方法的流程示意图;
图4是用于说明本申请实施例提供的一种特征选择方法的示意图;
图5是用于示例性地说明本申请实施例提供的一种特征选择方法的打乱标 签步骤的示意图;
图6是本申请实施例提供的一种特征选择装置的示意性框图;
图7是本申请实施例提供的另一种特征选择装置的示意性框图;
图8是本申请实施例提供的又一种特征选择装置的示意性框图;
图9是本申请实施例提供的一种电子设备的结构示意图;
图10是本申请实施例提供的一种用于实现特征选择方法的程序产品的结构 示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是, 在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合 形成新的实施例。
图1-5示出了根据本申请实施例的一种特征选择方法,其中,如图1所示, 根据本申请实施例的特征选择方法包括:步骤S101,特征获取步骤;步骤S102, 真实特征重要性获取步骤;步骤S103,分组步骤;步骤S104,打乱标签步骤; 步骤S105,虚假特征重要性获取步骤;以及步骤S106,筛选步骤。
如图2所示,作为一个实施例,步骤S106可以包括:步骤S201,打分步骤; 以及步骤S202,条件判定步骤。
如图3所示,作为一个实施例,本申请的特征选择方法还可以包括步骤S10 7,特征剔除步骤。
下文将结合附图详细描述上述各个步骤。
步骤S101,特征获取步骤。
从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签。
具体地,参见附图4所示,从原始数据(数据包)获取多个待选择特征X 以及每个待选择特征X的真实标签。
步骤S102,真实特征重要性获取步骤。
通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择 特征在其对应的真实标签下的真实特征重要性。其中,树模型可以看做是if-else 指令集合,通过对特征空间的划分来完成分类或者回归任务。其具体模型有:例 如,决策树(ID3算法)、xgboost(pre-sorted算法)、lightGBM(histogram算 法)等,本文以lightGBM为例。
具体地,该真实特征重要性包括特征信息增益和特征被划分次数。
步骤S103,分组步骤。
根据基准列对所有待选择特征进行分组,以形成多个待选择特征组。
作为实例,参见附图5所示,待选择特征编号0-9中,编号0-3的待选择特 征的key(基准列)为0,编号4-6的待选择特征的key为1,并且编号7-9的待 选择特征的key为2,由此,可以将编号0-3、编号4-6、编号7-9的待选择特征 根据基准列分为三组,可以将其分别命名为第一组、第二组和第三组。
步骤S104,标签打乱步骤。
将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系 打乱,以使得每个待选择特征对应于打乱标签。
具体地,在已经分组后的待选择特征组的组内,将每个待选择特征的真实标 签随机打乱顺序,被打乱标签之后的每个待选择特征的标签被定义为打乱标签。
作为实例,参考图5所示,在第一组内,编码0-3的待选择特征的真实标签 依次为1、1、0、1,将这四个真实标签的顺序随机打乱,例如,可以打乱为如 图5中所示,打乱标签依次为1、0、1、1。
步骤S105,虚假特征重要性获取步骤。
通过树模型训练每个待选择特征和与其对应的打乱标签,以获得每个待选择 特征在打乱标签下的虚假特征重要性。
该虚假特征重要性的获取方法与前文所述的真实特征重要性的获取方法类 似,此处不再赘述。
步骤S106,筛选步骤。
基于每个待选择特征的真实特征重要性与虚假特征重要性,选择被筛选特征。
具体地,基于每个待选择特征的在步骤S102中获得的真实特征重要性与在 步骤S105中获得的虚假特征重要性,判断每个待选择特征是否为被筛选特征。
作为一个实施例,如图2所示,上述步骤S106包括以下步骤S201-S202。
步骤S201,打分步骤。
利用打分函数比较每个待选择特征的真实特征重要性和虚假特征重要性,获 得每个所述待选择特征的打分值。其中,打分函数用于计算树模型中节点的基尼 系数,其公式可以为:
Figure BDA0003637291240000071
其中,t代表树的节点,i代表标签的任意分类,p(i|t)代表标签分类i在节点 t上所占的比例,c表示标签数。
以及步骤S202,条件判定步骤。
将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。
该预定条件可以为:当所述待选择特征的所述真实标签重要性与所述虚假标 签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于 预设数值时,将所述待选择特征选择为所述被筛选特征。其中,预设数值例如是 0.03、0.05、0.1等。
例如,如果某些待选择特征的真实标签重要性与虚假标签重要性的打分值(score)差值小于0.05倍的真实标签重要性的打分值,那么便认为该特征为所述被 筛选特征。从而当基于所述打分值确认所述待选择特征的所述真实标签重要性高 且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选择 为所述被筛选特征。相反,虚假标签重要性降低的待选择特征是真正有用的特征。
根据上述实施例,能够筛选出特征方差偏大而导致噪声的特征,从而能够筛 选出实际重要性(真实的重要性)低的特征,提升树模型效果。
作为一个实施例,如图3所示,本申请的特征选择方法还包括:
步骤S107,特征剔除步骤。
剔除被选择为所述被筛选特征的所述待选择特征。
具体地,在待选择特征被选择为被筛选特征的情况下,将该待选择特征从原 始数据(数据包)剔除,从而减少了模型的复杂度,减少了过拟合情况的产生。
以上描述了根据本申请的特征选择方法,利用该特征选择方法,通过根据基 准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱,从而在保 证分类特征对标签仍旧敏感的前提下,更加快速有效地筛选出与分类特征相关的 过拟合特征,从而降低模型的复杂度,减少计算资源消耗,同时还能够提升模型 的精度。
本申请的另一方面还提供了一种特征选择装置,其具体实现方式与上述方法 的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
图6-8示出了根据本申请实施例的一种特征选择装置,其中,如图6所示, 根据本申请实施例的特征选择装置包括:模块101,特征获取模块;模块102, 真实特征重要性获取模块;模块103,分组模块;模块104,打乱标签模块;模 块105,虚假特征重要性获取模块;以及106,筛选模块。
如图7所示,作为一个实施例,模块106可以包括:单元201,打分单元; 以及单元202,条件判定单元。
如图8所示,作为一个实施例,本申请的特征选择装置还可以包括模块107, 特征剔除模块。
下文将结合附图详细描述上述各个模块。
模块101,特征获取模块。
特征获取模块101用于从原始数据获取待选择特征以及与每个待选择特征 相对应的真实标签。
具体地,参见附图4所示,特征获取模块101从原始数据(数据包)获取多 个待选择特征X以及每个待选择特征X的真实标签。
模块102,真实特征重要性获取模块。
真实特征重要性获取模块102用于通过树模型学习每个待选择特征和与其 对应的真实标签,以获得每个待选择特征在其对应的真实标签下的真实特征重要 性。其中,树模型可以看做是if-else指令集合,通过对特征空间的划分来完成分 类或者回归任务。其具体模型有:例如,决策树(ID3算法)、xgboost(pre-sor ted算法)、lightGBM(histogram算法)等,本文以lightGBM为例。
具体地,该真实特征重要性包括特征信息增益和特征被划分次数。
模块103,分组模块。
分组模块103用于根据基准列对所有待选择特征进行分组,以形成多个待选 择特征组。
作为实例,参见附图5所示,待选择特征编号0-9中,编号0-3的待选择特 征的key(基准列)为0,编号4-6的待选择特征的key为1,并且编号7-9的待 选择特征的key为2,由此,分组模块103可以将编号0-3、编号4-6、编号7-9 的待选择特征根据基准列分为三组,可以将其分别命名为第一组、第二组和第三 组。
模块104,标签打乱模块。
标签打乱模块104用于将每个待选择特征组中所包括的所有待选择特征与 其真实标签的对应关系打乱,以使得每个待选择特征对应于打乱标签。
具体地,标签打乱模块104用于在已经分组后的待选择特征组的组内,将每 个待选择特征的真实标签随机打乱顺序,被打乱标签之后的每个待选择特征的标 签被定义为打乱标签。
作为实例,参考图5所示,在第一组内,编码0-3的待选择特征的真实标签 依次为1、1、0、1,标签打乱模块104将这四个真实标签的顺序随机打乱,例 如,可以打乱为如图5中所示,打乱标签依次为1、0、1、1。
模块105,虚假特征重要性获取模块。
虚假特征重要性获取模块105用于通过树模型训练每个待选择特征和与其 对应的打乱标签,以获得每个待选择特征在打乱标签下的虚假特征重要性。
该虚假特征重要性获取模块进行的处理与前文所述的真实特征重要性获取 模块进行的处理类似,此处不再赘述。
模块106,筛选模块。
筛选模块106用于基于每个待选择特征的真实特征重要性与虚假特征重要 性,选择被筛选特征。
具体地,筛选模块106基于每个待选择特征的由模块102获得的真实特征重 要性与由模块105获得的虚假特征重要性,判断每个待选择特征是否为被筛选特 征。
作为一个实施例,如图7所示,上述模块106包括以下单元201-202。
单元201,打分单元。
打分单元201用于利用打分函数比较每个待选择特征的真实特征重要性和 虚假特征重要性,获得每个所述待选择特征的打分值。其中,打分函数用于计算 树模型中节点的基尼系数,其公式可以为:
Figure BDA0003637291240000101
其中,t代表树的节点,i代表标签的任意分类,p(i|t)代表标签分类i在节点 t上所占的比例,c表示标签数。
单元202,条件判定单元。
条件判定单元202用于将所述打分值满足预设条件的待选择特征选择为所 述被筛选特征。
该预定条件可以为:当所述待选择特征的所述真实标签重要性与所述虚假标 签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于 预设数值时,将所述待选择特征选择为所述被筛选特征。例如,如果某些待选择 特征的真实标签重要性与虚假标签重要性的打分值(score)差值小于0.05倍的 真实标签重要性的打分值,那么便认为该特征为所述被筛选特征,从而当基于所 述打分值确认所述待选择特征的所述真实标签重要性高且所述真实标签重要性 与所述虚假标签重要性差别小时,所述待选择特征被选择为所述被筛选特征。相 反,虚假标签重要性降低的待选择特征是真正有用的特征。
根据上述实施例,能够筛选出特征方差偏大而导致噪声的特征,从而能够筛 选出实际重要性(真实的重要性)低的特征,提升树模型效果。
作为一个实施例,如图8所示,本申请的特征选择装置还包括:
107,特征剔除模块。
特征剔除模块107用于剔除被选择为所述被筛选特征的所述待选择特征。
具体地,在待选择特征被选择为被筛选特征的情况下,特征剔除模块107 将该待选择特征从原始数据(数据包)剔除,从而减少了模型的复杂度,减少了 过拟合情况的产生。
以上描述了根据本申请的特征选择装置,利用该特征选择装置,通过根据基 准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱,从而在保 证分类特征对标签仍旧敏感的前提下,更加快速有效地筛选出与分类特征相关的 过拟合特征,从而降低模型的复杂度,减少计算资源消耗,同时还能够提升模型 的精度。
参见图9,本申请实施例还提供了一种电子设备200,电子设备200包括至 少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(R AM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行, 使得处理器220执行本申请实施例中特征选择方法的步骤,其具体实现方式与上 述特征选择方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容 不再赘述。
存储器210还可以包括具有至少一个程序模块215的实用工具214,这样的 程序模块215包括但不限于:操作系统、一个或者多个应用程序、其它程序模块 以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存 储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意 总线结构的局域总线。
电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙 设备等通信,还可与一个或者多个能够与该电子设备200交互的设备通信,和/ 或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例 如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并 且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(L AN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通 过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以 结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备 份存储平台等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用 于存储计算机程序,所述计算机程序被执行时实现本申请实施例中特征选择方法 的步骤,其具体实现方式与上述特征选择方法的实施例中记载的实施方式、所达 到的技术效果一致,部分内容不再赘述。
图10示出了本实施例提供的用于实现上述特征选择方法的程序产品300, 其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端 设备,例如个人电脑上运行。然而,本申请的程序产品300不限于此,在本申请 中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执 行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多 个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读 存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装 置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表) 包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式 紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适 的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信 号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但 不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何 可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者 器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何 适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合 适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操 作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等, 还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代 码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立 的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在 远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可 以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设 备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网 连接)。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,已符合专利 法所强调的功能增进及使用要件,本申请以上的说明书及说明书附图,仅为本申 请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置, 特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆 应属本申请的专利申请保护的范围之内。

Claims (12)

1.一种特征选择方法,其特征在于,所述方法包括:
从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;
通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性;
根据基准列将所有待选择特征进行分组,以形成多个待选择特征组;
将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以使得每个待选择特征对应于打乱标签;
通过所述树模型训练每个待选择特征和与其对应的打乱标签,以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性;以及
基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性,选择被筛选特征。
2.根据权利要求1所述的方法,其特征在于,其中,所述通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性包括:
通过所述树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征的特征信息增益和特征被划分次数,作为每个待选择特征的所述真实特征重要性。
3.根据权利要求1或2所述的方法,其特征在于,其中,所述基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性,选择被筛选特征包括:
利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性,获得每个待选择特征的打分值;以及
将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。
4.根据权利要求3所述的方法,其特征在于,其中,将所述打分值满足所述预设条件的待选择特征选择为所述被筛选特征包括:
当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选择为所述被筛选特征。
5.根据权利要求4所述的方法,其特征在于,其中,所述当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时,所述待选择特征被选择为所述被筛选特征包括:
当待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时,将所述待选择特征选择为所述被筛选特征。
6.根据权利要求1至5的任意一项所述的方法,其特征在于,所述方法还包括:
剔除被选择为所述被筛选特征的所述待选择特征。
7.一种特征选择装置,其特征在于,所述装置包括:
特征获取模块,该特征获取模块用于从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签;
真实特征重要性获取模块,该真实特征重要性获取模块用于通过树模型学习每个待选择特征和与其对应的真实标签,以获得每个待选择特征在与之对应的真实标签下的真实特征重要性;
分组模块,该分组模块用于根据基准列将所有待选择特征进行分组,以形成多个待选择特征组;
标签打乱模块,该标签打乱模块用于将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱,以使得每个待选择特征对应于打乱标签;
虚假特征重要性获取模块,该虚假特征重要性获取模块用于通过所述树模型训练每个待选择特征和与其对应的打乱标签,以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性;以及
筛选模块,该筛选模块用于基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性,选择被筛选特征。
8.根据权利要求7所述的装置,其特征在于,其中,所述筛选模块包括:
打分单元,该打分单元用于利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性,获得每个待选择特征的打分值;以及
条件判定单元,该条件判定单元用于将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。
9.根据权利要求8所述的装置,其特征在于,其中,
当待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时,将所述待选择特征选择为所述被筛选特征。
10.根据权利要求7至9的任意一项所述的装置,其特征在于,所述装置还包括:
特征剔除模块,该特征剔除模块用于剔除被选择为所述被筛选特征的所述待选择特征。
11.一种电子设备,其特征在于,所述电子设备存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
CN202210509313.4A 2022-05-10 2022-05-10 特征选择方法、装置、电子设备及计算机可读存储介质 Pending CN114912628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210509313.4A CN114912628A (zh) 2022-05-10 2022-05-10 特征选择方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210509313.4A CN114912628A (zh) 2022-05-10 2022-05-10 特征选择方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114912628A true CN114912628A (zh) 2022-08-16

Family

ID=82767585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210509313.4A Pending CN114912628A (zh) 2022-05-10 2022-05-10 特征选择方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114912628A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012849A (zh) * 2023-01-19 2023-04-25 北京百度网讯科技有限公司 特征筛选方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012849A (zh) * 2023-01-19 2023-04-25 北京百度网讯科技有限公司 特征筛选方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US20240185130A1 (en) Normalizing text attributes for machine learning models
CN110995459B (zh) 异常对象识别方法、装置、介质及电子设备
CN111090807B (zh) 一种基于知识图谱的用户识别方法及装置
CN112052451A (zh) 一种webshell检测方法和装置
CN110708285B (zh) 流量监控方法、装置、介质及电子设备
Vivekanandan et al. Mining data streams with concept drifts using genetic algorithm
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN115795000A (zh) 基于联合相似度算法对比的围标识别方法和装置
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN114912628A (zh) 特征选择方法、装置、电子设备及计算机可读存储介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113033707B (zh) 视频分类方法、装置、可读介质及电子设备
Wu et al. Dimension independent mixup for hard negative sample in collaborative filtering
CN112154415A (zh) 大型计算机系统中的高效事件管理
CN115544257B (zh) 网盘文档快速分类方法、装置、网盘及存储介质
CN114726823B (zh) 一种基于生成对抗网络的域名生成方法、装置和设备
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN116151323A (zh) 模型生成方法、装置、电子设备及存储介质
CN107305522A (zh) 用于对应用程序的重复崩溃进行检测的装置和方法
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN113645286B (zh) 一种面向数据泄露的Web安全事件取证方法及系统
CN115564578B (zh) 欺诈识别模型生成方法
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
CN113626826A (zh) 智能合约安全检测方法、系统、设备、终端及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination