CN109145959A - 一种特征选择方法、装置及设备 - Google Patents
一种特征选择方法、装置及设备 Download PDFInfo
- Publication number
- CN109145959A CN109145959A CN201810844102.XA CN201810844102A CN109145959A CN 109145959 A CN109145959 A CN 109145959A CN 201810844102 A CN201810844102 A CN 201810844102A CN 109145959 A CN109145959 A CN 109145959A
- Authority
- CN
- China
- Prior art keywords
- feature
- decision tree
- weight
- level
- corresponding weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种特征选择方法、装置及设备,通过获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。
Description
技术领域
本申请涉及大数据领域,尤其涉及一种特征选择方法、装置及设备。
背景技术
特征选择(Feature Selection,FS),也称特征子集选择(Feature SubsetSelection,FSS),或属性选择(Attribute Selection,AS),是指从多个特征(Feature)中选出部分具有代表性的特征,以降低特征的维度,减少后续进行机器学习的计算量。
目前通常采用决策树来进行特征选择,即首先将待选择特征及其对应的数据输入到决策树模型中,生成一个包括多层节点的决策树,其中的节点为待选择特征,然后根据待选择特征在决策树中所处的层级来对待选择特征进行筛选。
这种通过决策树来进行特征选择的方式依赖于待选择特征在决策树中所处位置确定的准确性,如果待选择特征在决策树中的位置确定不准确,则会影响到特征选择的准确性。此外,特征选择的准确性还依赖于决策树的平衡性,如果决策树不平衡,也会造成特征选择的准确性较低。
发明内容
为了解决现有技术中通过一个决策树来进行特征选择准确性低的问题,本申请实施例提供了一种特征选择方法、装置及设备,用于提高特征选择的准确性。
本申请提供的一种特征选择方法,包括:
获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;
根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;
基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。
可选的,在同一个所述决策树中,位于同一层的待选择特征的权重相同。
可选的,在同一个所述决策树中,相邻层之间的待选择特征的权重比值为常数。
可选的,所述方法还包括:
根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。
可选的,所述根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重包括:
根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。
可选的,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。
可选的,所述第一层级的权重根据所述决策树输出结果的正确率得到。
可选的,根据如下公式确定待选择特征在所述决策树中对应的权重:
其中,所述Wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述W1为所述决策树中第一层级的权重,所述c为常数。
可选的,所述待选择特征的决定系数至少包括以下其中一种:
基尼系数和信息增益。
本申请实施例提供的一种特征选择装置,包括:
决策树获取单元,用于获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;
重要指数获取单元,用于根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;
筛选单元,用于基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。
可选的,在同一个所述决策树中,位于同一层的待选择特征的权重相同。
可选的,在同一个所述决策树中,相邻层之间的待选择特征的权重比值为常数。
可选的,所述装置还包括:
权重确定单元,用于根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。
可选的,所述权重确定单元具体用于:
根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。
可选的,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。
可选的,所述第一层级的权重根据所述决策树输出结果的正确率得到。
可选的,根据如下公式确定待选择特征在所述决策树中对应的权重:
其中,所述Wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述W1为所述决策树中第一层级的权重,所述c为常数。
可选的,所述待选择特征的决定系数至少包括以下其中一种:
基尼系数和信息增益。
本申请实施例还提供了一种特征选择设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中的指令,执行本申请实施例提供的一种特征选择方法。
本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行本申请实施例提供的一种特征选择方法。
本申请实施例提供的一种特征选择方法、装置及设备,通过先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。
再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种特征选择方法的流程图;
图2为本申请实施例提供的一种决策树示意图;
图3为本申请实施例提供的另一种决策树示意图;
图4为本申请实施例提供的一种特征选择装置的结构框图;
图5为本申请实施例提供的一种特征选择设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
特征选择指从多个特征中选出部分具有代表性的特征,以降低特征的维度。现有技术中,通常用决策树来进行特征选择,决策树是一种监督型学习算法,可以用于分类和回归,也可以通过学习用于对待选择特征进行筛选。通过决策树进行特征选择可以具体为,将待选择特征及其对应的数据输入到决策树模型中,生成一个包括多层节点的决策树,其中的节点为待选择特征,根据待选择特征在决策树中所处的层级来对待选择特征进行筛选。一般情况下,决策树中可以包括一个根节点和多个子节点,位于根节点的待选择特征最为重要,距离根节点越近的节点对应的待选择特征越重要,因此,对待选择特征进行筛选的结果,通常筛选除决策树中的根节点和与根节点距离较近的子节点。
然而这种通过一个决策树来进行特征选择的方式往往依赖于待选择特征在决策树中所处位置的确定准确性,例如根节点对应的待选择特征的确定准确性和子节点对应的待选择特征的位置确定准确性。具体来说,将不同的待选择特征作为根节点,可以导致不同的特征选择结果,若根节点对应的待选择特征选取有所偏差,则特征选择的结果也会不够准确,同样,在根节点相同的情况下,子节点对应的待选择特征的位置也会影响特征选择的准确性,例如子节点的待选择特征的位置确定不准确,则特征选择的结果也会不够准确。此外,由于对待选择特征的筛选是根据待选择特征在决策树中所处的层级来进行的,若决策树在训练过程中发展不平衡,则发展较为茂盛的分支将显得更重要,对待选择特征的筛选会偏向发展茂盛的分支,同样会降低特征选择的准确性。
为了解决上述技术问题,本申请实施例提供的一种特征选择方法、装置及设备,通过先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。
参考图1所示为本申请实施例提供的一种特征选择方法的流程图,该方法可以包括以下步骤。
S101,获取多个待选择特征和多个待选择特征分别对应的数据,并将多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。
待选择特征可以包括较重要的特征和不重要的特征,对待选择特征进行筛选,通常是指将待选择特征中较重要的特征筛选出来。
获取多个待选择特征和多个待选择特征分别对应的数据,在具体实现时,可以通过接收用户输入的待选择特征和待选择特征对应的数据,也可以从预先存储的数据集中自动获取。
获取的待选择特征例如可以是天气状况、是否有风和湿度状态等,相应的,天气状况对应的数据可以是“晴”、“多云”和“下雨”等,是否有风对应的数据可以是“有风”和“无风”等,湿度状态对应的数据可以是具体的湿度值,也可以是湿度值是否超过预设值的判断结果。
将多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。具体的,可以先确定目标变量,根据目标变量对多个待选择特征以及多个待选择特征对应的数据进行训练,得到多个决策树。其中,目标变量是待选择特征中可以作为最终结果的特征,除目标变量外的其他待选择特征的数据变化会影响目标变量的数据,例如是否打篮球的待选择特征可以作为目标变量,目标变量对应的数据可以为“是”或“否”,而天气状态、是否有风和湿度状态的数据变化,均可以影响是否打篮球的数据。
根据目标变量对多个待选择特征以及多个待选择特征对应的数据进行训练,得到多个决策树,具体的,可以先确定根节点,再根据根节点确定根节点下的子节点。
举例来说,可以将是否打篮球的待选择特征作为目标变量,根据目标变量对多个待选择特征以及多个待选择特征对应的数据进行训练,得到多个决策树。参考图2所示,为训练得到的其中一个决策树,该决策树中包括的实例总数为14个,其中,目标变量的数据为“是”,即打篮球,实例为9个,目标变量的数据为“否”,即不打篮球,实例为4个。在该决策树中,天气状况作为根节点,天气状况对应的数据可以为“晴”、“多云”和“下雨”。
在天气的数据为“晴”时,天气的子节点可以为湿度,湿度的数据可以为“大于70%”和“小于或等于70%”,对应于湿度数据为“大于70%”,打篮球的实例为2个,不打篮球的实例为0个;对应于湿度的数据为“小于或等于70%”,打篮球的实例为0个,不打篮球的实例为3个。在天气的数据为“多云”时,打篮球的实例为4个,不打篮球的实例为0个。在天气的数据为“下雨”时,天气的子节点可以为是否有风,是否有风的数据可以为“是”或“否”,对应是否有风的数据为“是”,打篮球的实例为0个,不打篮球的实例为2个;对应是否有风的数据为“否”,打篮球的实例为3个,不打篮球的实例为0个。
在本申请实施例中,训练得到的每个决策树中的待选择特征是与该决策树相关的待选择特征,可以包括全部的待选择特征,也可以只包括部分待选择特征。多个决策树中的根节点可以都相同,也可以都不相同,还可以不都相同,其中,具有相同根节点的决策树中的子节点不同。
得到的决策树中的各个待选择特征均具有对应的权重,其中,决策树中的待选择特征的权重可以表示待选择特征在该决策树中的重要程度,一般来说,待选择特征的权重与其在决策树中所处层级相关,例如,决策树中的根节点的最为重要,其对应的权重值也最大。
待选择特征的权重的确定方式可参见后述说明。
S102,根据多个待选择特征中每个待选择特征分别在多个决策树中对应的权重,得到每个待选择特征的重要指数。
由于待选择特征可以存在于多个决策树中,每个待选择特征在多个决策树中均可以有对应的权重,可以根据待选择特征在多个决策树中对应的权重,确定待选择特征的重要指数,其中,待选择特征的重要指数可以反映待选择特征的重要程度。这是因为待选择特征在决策树中的权重可以表示待选择特征在该决策树中的重要程度,因此,可根据待选择特征在各个决策树中的重要程度,确定待选择特征本身的重要程度。
根据该待选择特征在多个决策树中对应的权重,确定该待选择特征的重要指数,可以具体为,将待选择特征在多个决策树中的权重相加,得到待选择特征的重要指数。
参考图3所示,为本申请实施例提供的两个决策树示意图。其中,图3(a)所示为第一决策树的示意图,第一决策树以待选择特征A为根节点,待选择特征A的子节点为待选择特征B和C,待选择特征B的子节点为待选择特征D和E,待选择特征C的子节点为待选择特征F和G;图3(b)所示为第二决策树的示意图,第二决策树以待选择特征B为根节点,待选择特征B的子节点为待选择特征E和F,待选择特征E的子节点为待选择特征A和C,待选择特征F的子节点为待选择特征D和G。
作为一种实例,可以将位于第一层的待选择特征的权重设置为1,将位于第二层的待选择特征的权重设置为将位于第三层的待选择特征的权重设置为1/2,由此可知,在第一决策树中,待选择特征A的权重为1,待选择特征B和C的权重为待选择特征D、E、F和G的权重为1/2;在第二决策树中,待选择特征B的权重为1,待选择特征E和F的权重为待选择特征A、C、D和G的权重为1/2。
将待选择特征A在第一决策树中的权重和第二决策树中的权重相加,可以得到待选择特征A的重要指数为3/2,同理,可以得到待选择特征B的重要指数为待选择特征C、E和F的重要指数为待选择特征D和G的重要指数为1。
根据待选择特征在多个决策树中对应的权重,确定该待选择特征的重要指数,还可以有其他方式,例如可以将待选择特征在多个决策树中对应的权重加权相加等,在此不做举例说明。
S103,基于每个待选择特征的重要指数,对多个待选择特征进行筛选。
由于待选择特征的重要指数可以反映待选择特征的重要程度,因此,可以基于每个待选择特征的重要指数,对多个待选择特征进行筛选,具体的,可以根据每个待选择特征的重要指数,将多个待选择特征中较为重要的待选择特征筛选出来。具体实施时,可以将多个待选择特征按照待选择特征的重要指数进行排序,将前n个待选择特征作为重要的待选择特征筛选出来,也可以将重要指数大于或等于预设值的待选择特征作为重要的待选择特征筛选出来。
以上述第一决策树和第二决策树为例,可以按照待选择特征的重要指数进行排序,重要指数从高往低,可以为B、A、C(E和F)、D(G),此时,可以选择前两个待选择特征作为重要的待选择特征筛选出来,即将待选择特征B和A作为重要的待选择特征筛选出来,也可以将重要指数大于或等于的待选择特征作为重要的待选择特征筛选,即将待选择特征B和A为重要的待选择特征筛选出来。
本申请实施例提供的一种特征选择方法中,通过先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。
再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。
为了更清楚的介绍本申请实施例提供的一种特征选择方法,下面对如何确定决策树中待选择特征的权重进行具体说明。
作为一种可能的实施方式,可以预先设置决策树中不同位置的待选择特征的权重,即待选择特征的权重与其在决策树中所处位置具有对应关系。其中,同一个决策树中,位于同一层的待选择特征的权重可以相同,也可以不同。举例来说,可以预先设定:位于第一层的待选择特征的权重均为a,位于第二层的待选择特征的权重均为b,或者可以预先设定:位于第一层的待选择特征的权重均为a,位于第二层的第一个待选择特征的权重为b1,位于第二层的第二个待选择特征的权重为b2。
作为另一种可能的实施方式,可以根据位于第一层的待选择特征的权重,以及预先设定的决策树中位于不同层级的待选择特征的权重的关联关系,确定待选择特征的权重。
该实施方式中,位于第一层级的待选择特征的权重可以是预先设定的,例如预先设定根节点的待选择特征的权重为1。该实施方式中,位于第一层级的待选择特征的权重也可以根据决策树输出结果的正确率得到,例如可以将作为训练样本的多个待选择特征及多个待选择特征对应的数据输入训练得到的多个决策树中,输出每个决策树对应的目标变量的数据,根据决策树输出结果的正确率,确定该决策树中位于第一层级的待选择特征的权重,例如某一决策树输出结果的正确率为80%,则可以将该决策树中位于第一层级的待选择特征的权重确定为0.8。
决策树中位于不同层级的待选择特征的关联关系,可以是决策树中相邻层的待选择特征的权重关联关系,也可以是决策树中不相邻层的待选择特征的权重的关联关系。
举例来说,在同一个决策树中,相邻层的待选择特征的权重的比值可以为常数,此时,位于第i层的待选择特征的权重可以根据以下公式确定:Wi=c*Wi-1=ci-1*W1,
其中,i为待选择特征在决策树中所处的层数,i为大于1且小于或等于决策树的总层数的正整数,Wi为位于第i层的待选择特征的权重,Wi-1为位于第i-1层的待选择特征的权重,c为常数。具体实施时,常数c例如可以是则位于第一层的待选择特征的权重与位于第二层的待选择特征的权重的比值为位于第二层的待选择特征的权重与位于第三层的待选择特征的权重的比值为
举例来说,在同一个决策树中,不相邻层的待选择特征的权重的比值可以是常数,此时,位于第m层的待选择特征的权重Wm和位于第n层的待选择特征的权重Wn的关系可以根据下式确定:
Wm=d*Wn,
其中,d为常数,m和n为大于或等于1,且小于或等于决策树的总层数的正整数,其中,m与n不相等,且第m层和第n层不相邻。
作为又一种可能的实施方式,可以根据待选择特征在决策树中对应的目标变量实例数量,以及待选择特征在决策树中所处层级对应的权重,确定待选择特征在决策树中对应的权重。具体实施时,可以根据下述公式进行待选择特征在决策树中对应的权重的确定:
以图2所示的决策树为例,在待选择特征中,以天气为根节点,对应的目标变量实例为14个,所处层级为第一层,所处层级的权重可以为1,则天气在决策树中对应权重可以为1;湿度为子节点,对应的目标变量实例为5个,所处层级为第二层,所处层级的权重可以为是否有风为子节点,对应的目标变量实例为5个,所处层级为第二层,所处层级的权重可以为
该方法中,还可以根据待选择特征的决定系数对确定的待选择特征在决策树中对应的权重进行修正,即可以根据待选择特征在决策树中对应的目标变量实例数量、待选择特征在决策树中所处层级对应的权重,以及待选择特征的决定系数,确定待选择特征在决策树中对应的权重。
其中,待选择特征的决定系数可以反映待选择特征的分类精准度,待选择特征的决定系数是由决策树的特性确定的,待选择特征在决策树中对应的决定系数与其在决策树中所处的位置相关,具体的,决策树的决定系数可以包括决策树的基尼系数和信息增益中的至少一种。
具体的,可以通过以下公式表示:
其中,Wij是指决策树中第i层第j个待选择特征对应的权重,coff是指第i层第j个待选择特征在决策树中对应的决定系数,numij为第i层第j个待选择特征在决策树中对应的目标变量实例数量,sum为决策树对应的目标变量实例总数量,W1为决策树中第一层级的权重,c为常数,通常来说,c可以是位于第i层的待选择特征的层级权重与位于第i-1层的待选择特征的层级权重的比值。
例如c可以为可以表示位于第一层的待选择特征的层级权重与位于第二层的待选择特征的层级权重的比值为位于第二层的待选择特征的层级权重与位于第三层的待选择特征的层级权重的比值为以此类推。则上述公式为:
通过上述方式确定决策树中待选择特征的权重,可以使待选择特征的权重更加准确,从而提高待选择特征的筛选准确性。
基于以上实施例提供的一种特征选择方法,本申请实施例还提供了一种特征选择装置,下面结合附图来详细说明其工作原理。
参见图4,该图为本申请实施例提供的一种特征选择装置的结构框图,该装置包括:
决策树获取单元110,用于获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;
重要指数获取单元120,用于根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;
筛选单元130,用于基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。
可选的,在同一个所述决策树中,位于同一层的待选择特征的权重相同。
可选的,在同一个所述决策树中,相邻层之间的待选择特征的权重比值为常数。
可选的,所述装置还包括:
权重确定单元,用于根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。
可选的,所述权重确定单元具体用于:
根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。
可选的,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。
可选的,所述第一层级的权重根据所述决策树输出结果的正确率得到。
可选的,根据如下公式确定待选择特征在所述决策树中对应的权重:
其中,所述Wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述W1为所述决策树中第一层级的权重,所述c为常数。
可选的,所述待选择特征的决定系数至少包括以下其中一种:
基尼系数和信息增益。
本申请实施例提供的一种特征选择装置,先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。
再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。
基于以上特征选择方法,本申请实施例还提供了一种特征选择设备,如图5所示,所述设备包括:处理器和存储器;
其中,所述存储器用于存储指令,
所述处理器用于执行所述存储器中的指令,执行上述提供的特征选择方法。
本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述提供的特征选择方法。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种特征选择方法,其特征在于,所述方法包括:
获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;
根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;
基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重包括:
根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。
4.根据权利要求3所述的方法,其特征在于,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。
5.根据权利要求4所述的方法,其特征在于,所述第一层级的权重根据所述决策树输出结果的正确率得到。
6.根据权利要求3-5任意一项所述的方法,其特征在于,根据如下公式确定待选择特征在所述决策树中对应的权重:
其中,所述Wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述W1为所述决策树中第一层级的权重,所述c为常数。
7.一种特征选择装置,其特征在于,所述装置包括:
决策树获取单元,用于获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;
重要指数获取单元,用于根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;
筛选单元,用于基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
权重确定单元,用于根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。
9.根据权利要求8所述的装置,其特征在于,所述权重确定单元具体用于:
根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。
10.一种特征选择设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中的指令,执行如权利要求1至6中任意一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844102.XA CN109145959A (zh) | 2018-07-27 | 2018-07-27 | 一种特征选择方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844102.XA CN109145959A (zh) | 2018-07-27 | 2018-07-27 | 一种特征选择方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109145959A true CN109145959A (zh) | 2019-01-04 |
Family
ID=64798323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844102.XA Pending CN109145959A (zh) | 2018-07-27 | 2018-07-27 | 一种特征选择方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145959A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232400A (zh) * | 2019-04-30 | 2019-09-13 | 冶金自动化研究设计院 | 一种梯度提升决策神经网络分类预测方法 |
CN110390400A (zh) * | 2019-07-02 | 2019-10-29 | 北京三快在线科技有限公司 | 计算模型的特征生成方法、装置、电子设备和存储介质 |
CN110830499A (zh) * | 2019-11-21 | 2020-02-21 | 中国联合网络通信集团有限公司 | 一种网络攻击应用检测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273909A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 高维数据的分类算法 |
CN107292186A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
-
2018
- 2018-07-27 CN CN201810844102.XA patent/CN109145959A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292186A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN107273909A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 高维数据的分类算法 |
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232400A (zh) * | 2019-04-30 | 2019-09-13 | 冶金自动化研究设计院 | 一种梯度提升决策神经网络分类预测方法 |
CN110390400A (zh) * | 2019-07-02 | 2019-10-29 | 北京三快在线科技有限公司 | 计算模型的特征生成方法、装置、电子设备和存储介质 |
CN110390400B (zh) * | 2019-07-02 | 2023-07-14 | 北京三快在线科技有限公司 | 计算模型的特征生成方法、装置、电子设备和存储介质 |
CN110830499A (zh) * | 2019-11-21 | 2020-02-21 | 中国联合网络通信集团有限公司 | 一种网络攻击应用检测方法和系统 |
CN110830499B (zh) * | 2019-11-21 | 2021-08-27 | 中国联合网络通信集团有限公司 | 一种网络攻击应用检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI689871B (zh) | 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置 | |
Ahmed et al. | GA-based multiple paths test data generator | |
CN109145959A (zh) | 一种特征选择方法、装置及设备 | |
CN109783601A (zh) | 基于测试知识点的计算机智能组卷方法及其系统 | |
CN109145965A (zh) | 基于随机森林分类模型的细胞识别方法和装置 | |
CN108038052A (zh) | 自动化测试管理方法、装置、终端设备及存储介质 | |
US20200065707A1 (en) | Learning device and learning method | |
EP3803720B1 (en) | Learning device, and learning method | |
CN107679059A (zh) | 业务模板的匹配方法、装置、计算机设备及存储介质 | |
CN106934410A (zh) | 数据的分类方法及系统 | |
CN110069817A (zh) | 一种基于改进灰鲸优化算法来构建预测模型的方法 | |
CN107592296A (zh) | 垃圾账户的识别方法和装置 | |
CN110222838A (zh) | 深度神经网络及其训练方法、装置、电子设备及存储介质 | |
CN105760504A (zh) | 基于浏览器的资源检索方法 | |
CN108305181A (zh) | 社交影响力确定、信息投放方法及装置、设备及存储介质 | |
CN108920477A (zh) | 一种基于二叉树结构的不平衡数据处理方法 | |
CN114840857A (zh) | 基于深度强化学习与多级覆盖策略的智能合约模糊测试方法及系统 | |
CN107305565A (zh) | 信息处理装置、信息处理方法以及信息处理设备 | |
CN112232944A (zh) | 一种评分卡创建方法、装置和电子设备 | |
Šimović et al. | Classifying the variety of customers’ online engagement for churn prediction with a mixed-penalty logistic regression | |
CN107066328A (zh) | 大规模数据处理平台的构建方法 | |
CN107193940A (zh) | 大数据优化分析方法 | |
CN110472659A (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN108520380A (zh) | 一种基于改进的bp神经网络的库存预测方法 | |
CN114444654A (zh) | 一种面向nas的免训练神经网络性能评估方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |
|
RJ01 | Rejection of invention patent application after publication |