CN109543747A

CN109543747A - 一种基于分层随机森林的数据特征选择方法及装置

Info

Publication number: CN109543747A
Application number: CN201811382019.1A
Authority: CN
Inventors: 周绮凤; 安超杰; 倪进鑫
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-03-29

Abstract

本发明涉及一种基于分层随机森林的数据特征选择方法、装置，属于机器学习与数据挖掘技术领域。该方法利用基于分层随机森林的代价敏感属性选择方法，对于信息量分布不均衡的数据集(即有效特征少，冗余特征多)，尤其是高维数据集进行特征选择，在考虑特征子集的分类能力的同时，考虑特征代价带来的影响，从而选择出既拥有较好的分类能力，又考虑了特征代价带来的影响的优秀子特征集，解决了目前现有技术中特征选择方法忽略代价的问题。

Description

一种基于分层随机森林的数据特征选择方法及装置

技术领域

本发明属于机器学习与数据挖掘技术领域，具体涉及一种基于分层随机森林的数据特征选择方法及装置。

背景技术

特征选择是机器学习和数据挖掘领域的关键问题之一，特征选择是从原始数据的所有特征中选出最优特征子集的过程。一个优秀的特征选择方法能够降低计算成本，提高学习器的性能，并使所构造的模型获得更佳的解释性。随着当今信息社会产生的数据量越来越大，数据的维度越来越多，对数据进行特征选择的需求也随之增长。

传统的特征选择方法可以大致分为过滤法、封装法、嵌入法三类。传统的特征选择方法主要关注特征对学习器准确率的贡献，而忽略了特征的代价所带来的影响，特征代价是现实应用中常常需要考虑的问题，比如，病人在医院做一项检查的费用便是获取该项特征的代价，医生为了能够诊断出疾病类型，通常会让病人做一系列检查，在同时能够诊断出疾病类型的情况下，一个明智的方式是选择那些费用较低的检查组合，这会有效的节约病人的成本。

发明内容

为了解决现有技术中特征选择方法忽略代价的问题，本发明提供了一种基于分层随机森林的数据特征选择方法及装置，其具有高精度、低代价等特点。

为实现以上目的，本发明采用如下技术方案：

一方面，一种基于分层随机森林的数据特征选择方法，所述方法包括：

获取待处理数据集，所述待处理数据集中的每个数据具有若干个特征；

划分类标，设置每个特征代价；计算所述待处理数据集中数据特征与类标的相关性，根据预设的阈值将所述待处理数据集划分为至少2组特征子集；

根据所述每个特征代价设置每个特征在森林生长过程中被选择的概率；

生长随机森林，根据所述概率，进行分裂，所述分裂过程中的候选特征从所述特征子集中分层抽样；

根据随机森林评价特征重要性的方式，生成特征重要性排序；

按照所述特征重要性排序的顺序，逐一向学习机器添加特征，计算相应的准确率与代价，选取达到最高准确率的特征子集。

进一步可选地，所述获取数据集中数据的获取方法为采用原始数据集或在原始数据集上随机抽取。

进一步可选地，所述划分类标，设置特征代价，包括：按照专家评估的代价设置方法进行特征代价设置。

进一步可选地，所述特征子集包括：强相关特征子集、弱相关特征子集。

进一步可选地，所述根据所述特征代价设置每个特征在森林生长过程中被选择的概率，包括：根据特征的代价设置概率矩阵，作为每个特征在森林生长过程中被选择的概率。

进一步可选地，所述计算所述数据集中数据特征与类标的相关性所使用的函数为非负函数。

进一步可选地，所述非负函数包括：皮尔逊(Pearson)相关系数、卡方检验(Chi-square test)。

进一步可选地，所述每个特征在森林生长过程中被选择的概率与所述每个特征代价成反比。

进一步可选地，所述根据随机森林评价特征重要性的方式，生成特征重要性排序，包括：根据所述随机森林，按照Gini不纯度特征重要性度量方式评价所有特征，产生特征重要性排序。

又一方面，一种实现基于分层随机森林数据特征选择方法的装置，所述装置包括：数据获取模块、数据处理模块；

所述数据获取模块，用于获取待处理数据集；

所述数据处理模块，用于划分类标，设置每个特征代价；

所述数据处理模块，还用于计算所述待处理数据集中数据特征与类标的相关性，根据预设的阈值将所述待处理数据集划分为至少2组特征子集；

所述数据处理模块，还用于根据所述每个特征代价设置每个特征在森林生长过程中被选择的概率；

所述数据处理模块，还用于生长随机森林，根据所述概率，进行分裂，所述分裂过程中的候选特征从所述特征子集中分层抽样；

所述数据处理模块，还用于根据随机森林评价特征重要性的方式，生成特征重要性排序；

所述数据处理模块，还用于按照所述特征重要性排序的顺序，逐一向学习机器添加特征，计算相应的准确率与代价，选取达到最高准确率的特征子集。

本发明的有益效果为：利用基于分层随机森林的代价敏感属性选择方法，对于信息量分布不均衡的数据集(即有效特征少，冗余特征多)，尤其是高维数据集进行特征选择，在考虑特征子集的分类能力的同时，考虑特征代价带来的影响，从而选择出既拥有较好的分类能力，又考虑了特征代价带来的影响的优秀子特征集，解决了目前现有技术中特征选择方法忽略代价的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于分层随机森林的数据特征选择方法提供的实施例一的流程图；

图2为本发明一种基于分层随机森林的数据特征选择方法提供的实施例一的信息量分布示意图；

图3为本发明一种基于分层随机森林的数据特征选择方法提供的实施例一的KDDCUP 1999结果示意图；

图4为本发明一种实现基于分层随机森林的数据特征选择方法装置提供的实施例一的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

为了更加清楚地说明本实施例发明方法的过程和优点，本发明提供一基于分层随机森林的数据特征选择方法的实施例。

图1为本发明一种基于分层随机森林的数据特征选择方法提供的实施例一的流程图。

参见图1，本发明实施例的方法包括：

获取待处理数据集，待处理数据集中的每个数据具有若干个特征；

划分类标，设置每个特征代价；

计算待处理数据集中数据特征与类标的相关性，根据预设的阈值将待处理数据集划分为至少2组特征子集；

根据每个特征代价设置每个特征在森林生长过程中被选择的概率；

生长随机森林，根据概率，进行分裂，分裂过程中的候选特征从特征子集中分层抽样；

按照特征重要性排序的顺序，逐一向学习机器添加特征，计算相应的准确率与代价，选取达到最高准确率的特征子集。

本实施例提供的一种基于分层随机森林的数据特征选择方法：利用基于分层随机森林的代价敏感属性选择方法，对于信息量分布不均衡的数据集(即有效特征少，冗余特征多)，尤其是高维数据集进行特征选择，在考虑特征子集的分类能力的同时，考虑特征代价带来的影响，从而选择出既拥有较好的分类能力，又考虑了特征代价带来的影响的优秀子特征集，解决了目前现有技术中特征选择方法忽略代价的问题。

基于上述一种基于分层随机森林的数据特征选择方法，本发明实施例提供一可选实施例：参见图1，本实施例的分层随机森林的数据特征选择方法可以包括以下步骤：

s101、获取待处理数据集，待处理数据集中的每个数据具有若干个特征。

在本实施例中，KDD是数据挖掘与知识发现(Data Mining and KnowledgeDiscovery)的简称，KDD CUP是由ACM(Association for Computing Machiner)的SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。KDD CUP 1999就是KDD竞赛在1999年举行时采用的数据集。KDD CUP 1999数据集具有高概括性等特点，因此，为了保证实施例的合理、精准性，本实施例采用KDD CUP 1999数据集作为原始数据集。

具体地，选取一个KDD CUP 1999数据集作为原始数据集，由于原始数据集规模巨大，为了简化问题难度，在原始数据集KDD CUP1999数据集上随机抽取25000条数据作为待处理数据集，这里需要注意的是，为了保证数据的随机性，在抽取数据时，采取随机有放回抽取的方法进行抽取。其中，所抽取的25000条数据中，20000条数据用来训练，另外5000条数据用来测试，划分的依据为随机划分。

在本实施例中，原始数据集KDD CUP 1999数据集包含41个特征，将此41个特征进行编号，特征编号分别为1～41，每个数据具有若干特征，同理，待处理数据集包含41个特征，特征编号分别为1～41，每个数据具有若干特征。

s102、划分类标，设置每个特征代价。

具体地，在本实施例中，KDD CUP1999数据集有1个类标，将类标划分为“正常”和“攻击”两类，同时按照专家评估的代价设置方法，例如，将1～9号特征代价为1，10～22号特征代价设置为10，23～41号特征代价设置为100。

在本实施例中，对特征代价设置时，要根据现实或者专家评估的代价设置方法，进行合理的设置，例如，代价设置时以获取特征所花费的金钱时间、带来的人员伤亡、造成的国家损失、以及救援损耗等为代价设置的参考依据。

s103、计算待处理数据集中数据特征与类标的相关性，根据预设的阈值将待处理数据集划分为至少2组特征子集。

图2为本发明一种基于分层随机森林的数据特征选择方法提供的实施例一的KDDCUP 1999信息量分布示意图。

具体地，在本实施例中，选取一个非负函数计算数据集的每个特征与类标的相关性，计算所得的值作为该特征所包含的信息量，进行降序排序后，对信息量分布进行分析，设定阈值，划分特征子集，参见图2，可以发现，信息量分布十分不均匀，对高维数据更加明显。

例如，非负函数可以选取皮尔逊(Pearson)相关系数、卡方检验(Chi-square test)等，对于包含有N个特征F＝[f₁，f₂，…，f_n]的数据集而言，依次计算特征与类标的相关性后，可以获得相关性向量θ＝[θ₁，θ₂，…，θ_n],在进行降序排序之后，按照阈值α把特征分为两个特征子集，即强相关特征子集弱相关特征子集在特征子集中，

参见图2，本实施例中，取拐点处作为阈值点把特征分成两个部分，分别作为强相关特征子集和弱相关特征子集，其中强相关特征子集包含4个特征，即第16,13,15,14个特征，其余37个特征作为弱相关特征被划分至弱相关特征子集。通过图2，可以发现，信息量分布十分不均匀，对高维数据更加明显。

s104、根据每个特征代价设置每个特征在森林生长过程中被选择的概率。

具体地，在获取每个特征的代价时，可由现实情况或专家所定，比如医学检查可以价格作为其代价，对于每个特征子集的特征，其被选择的概率与其代价成反比。对于强相关特征子集，其概率矩阵为特征的概率为其中C_s是强相关特征子集的代价向量。对弱相关特征子集进行同样处理，获取概率矩阵P_w。

针对KDD CUP 1999数据集，强相关特征为16号，13号，15号，14号，其代价分别为10,10,10,10，计算其概率，得出其概率矩阵为[0.25,0.25,0.25,0.25]。

s105、生长随机森林，根据概率，进行分裂，分裂过程中的候选特征从特征子集中分层抽样。

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林的优点有：1)对于很多种资料，它可以产生高准确度的分类器；2)它可以处理大量的输入变数；3)它可以在决定类别时，评估变数的重要性；4)在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计；5)它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度；6)它提供一个实验方法，可以去侦测variable interactions；7)对于不平衡的分类资料集来说，它可以平衡误差；8)它计算各例中的亲近度，对于数据挖掘、侦测离群点(outlier)和将资料视觉化非常有用；9)使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料；10)学习过程是很快速的。

具体地，随机森林候选特征子集的大小mtry可以设置为logN，其中N为特征的个数。在随机森林生长过程中，每棵树分裂时的候选特征子集不再从整体特征中随机选取，而是从强相关特征子集、弱相关特征子集中分层抽样，每个特征子集中的特征被选择的概率由概率矩阵所决定。其中强相关特征子集被抽取的特征个数为l为强相关特征子集的特征的个数，因此弱相关特征子集被抽取的特征个数为这样保证了每次分裂时都能选取到高信息量特征，提高了每棵树的强度。

例如森林大小设置为500棵树，每次候选特征子集的规模为在每次分裂时，候选特征子集从两个特征子集中按比例分层采样，但每个特征子集中的特征被选取的概率由概率矩阵所决定，概率越大，被选择的机会就越大。从强相关特征子集和弱相关特征子集中分别按比例抽取出候选特征，组合成分裂时的候选特征子集。对于KDD CUP 1999数据集而言，候选特征子集规模取整为6。在每次分裂时，从强相关特征子集中选取4/41*6＝0.58,不足一个则向上取整定为1个，所以在弱相关特征子集中选取6-1＝5个。

s106、根据随机森林评价特征重要性的方式，生成特征重要性排序。

具体来说，特征重要性度量方式可以分为Gini不纯度重要性和置换重要性，即随机森林衡量特征重要性的两种常用方式。对特征重要性进行计算后，可以获得一组特征重要性排序，排名越高的特征，其重要性越大。

例如，本实施例采用以Gini不纯度举例，计算特征重要性，如下式所示，

其中MDG(mean decrease gini impurity)为Gini不纯度平均下降值，其值越大，代表该特征越重要，ntree为森林规模，例如ntree＝500，t为某一节点，T_k代表第k棵树，v(t)＝f_i代表节点t分裂时使用了特征f_i，ΔGini(t，f)代表在节点t处使用特征f带来的Gini不纯度下降值，p(t)代表节点t处的样例个数占训练集的比例，在根节点处p(t)＝1。

按照上式计算每个特征的平均gini不纯度下降值，得出特征重要性排序。对于KDDCUP 1999数据集，生成的特征排序为[6,5,3,2,4,1,8,12,7,9,23,13,10,11,35,24,29,34,22,36,31,37,33,16,14,32,15,40,38,19,17,28,27,30,41,39,25,20,26,18,21]

s107、按照特征重要性排序的顺序，逐一向学习机器添加特征，计算相应的准确率与代价，选取达到最高准确率的特征子集。

具体地，学习器可以为kNN(k-nearest-neighbor)，SVM，决策树等等。按照特征排序，依次添加一个特征训练学习器，学习器对应的准确率作为该组特征的质量与效果，直到添加到排序的最后一个特征为止，选择最高准确率时对应的特征子集，作为特征选择的结果。

例如，本实施例以kNN分类器为例，首先使用特征排序的第一个特征6号特征，即最重要的特征，构造kNN分类器，通过十折交叉验证，算出准确率，并计算所使用特征的代价总和，其次，按照特征重要性排序，依次添加一个新特征构造kNN分类器，即添加5号特征，并计算其准确率和代价，直到添加到最后一个21号特征结束。统计依次添加特征后kNN的准确率和所用特征的代价，选择使得kNN分类器达到最高准确率时对应的特征子集作为特征选择的结果。因为达到最高准确率时，再添加特征会带来准确率的下降和代价的上升，因此以最高准确率所对应的特征子集作为结果。在KDD CUP 1999数据集中，添加到第8个特征后，准确率达到最高值，即[6,5,3,2,4,1,8,12]是最优的特征子集。

图3为本发明一种基于分层随机森林的数据特征选择方法提供的实施例一的KDDCUP 1999结果示意图。

参见图3，左子图为依次添加特征构造的kNN分类器的准确率，右子图为依次添加特征后，所用特征代价的总和。在KDD CUP 1999数据集上，本实施例的数据特征选择方法(FCS-SRF)和随机森林(RF)、分层随机森林(SRF)相比较而言，在代价较低的情况下，保持了相对较好的准确率。

表1为本实施例不同方法选择数据特征的结果对比表。

如表1所示，在KDD CUP 1999数据集下，利用本实施例所选方法FCS-SRF所选的特征子集构造的kNN分类器实现了97.48％的准确率，比最高准确率97.64％降低了0.16％，但所用代价约为SRF方法的三十分之一，取得了较好的结果，即在代价较低的情况下，所选特征能够保持较优的准确率(No FS是不进行特征选择，使用所有特征进行构造分类器的结果)。

本实施例利用基于分层随机森林的代价敏感属性选择方法，对于信息量分布不均衡的数据集(即有效特征少，冗余特征多)，尤其是高维数据集进行特征选择，在考虑特征子集的分类能力的同时，考虑特征代价带来的影响，从而选择出既拥有较好的分类能力，又考虑了特征代价带来的影响的优秀子特征集，解决了目前现有技术中特征选择方法忽略代价的问题。

参见图4，本实施例的实现基于分层随机森林数据特征选择方法的装置，装置包括：数据获取模块41、数据处理模块42；

具体地，数据获取模块41，用于获取待处理数据集。例如，在本实施例中，数据获取模块用于在原始数据集KDDCUP1999数据集上随机抽取25000条数据作为待处理数据集，这里需要注意的是，为了保证数据的随机性，在抽取数据时，采取随机有放回抽取的方法进行抽取。

数据处理模块42用于划分类标，设置每个特征代价；还用于计算待处理数据集中数据特征与类标的相关性，根据预设的阈值将待处理数据集划分为至少2组特征子集；还用于根据每个特征代价设置每个特征在森林生长过程中被选择的概率；数据处理模块，还用于生长随机森林，根据所述概率，进行分裂，分裂过程中的候选特征从特征子集中分层抽样；还用于根据随机森林评价特征重要性的方式，生成特征重要性排序；还用于按照特征重要性排序的顺序，逐一向学习机器添加特征，计算相应的准确率与代价，选取达到最高准确率的特征子集。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于分层随机森林的数据特征选择方法，其特征在于，所述方法包括：

划分类标，设置每个特征代价；

计算所述待处理数据集中数据特征与类标的相关性，根据预设的阈值将所述待处理数据集划分为至少2组特征子集；

2.根据权利要求1所述的方法，其特征在于，所述获取数据集中数据的获取方法为采用原始数据集或在原始数据集上随机抽取。

3.根据权利要求1所述的方法，其特征在于，所述划分类标，设置特征代价，包括：按照专家评估的代价设置方法进行特征代价设置。

4.根据权利要求1所述的方法，其特征在于，所述特征子集包括：强相关特征子集、弱相关特征子集。

5.根据权利要求1所述的方法，其特征在于，所述根据所述特征代价设置每个特征在森林生长过程中被选择的概率，包括：根据特征的代价设置概率矩阵，作为每个特征在森林生长过程中被选择的概率。

6.根据权利要求1所述的方法，其特征在于，所述计算所述数据集中数据特征与类标的相关性所使用的函数为非负函数。

7.根据权利要求6所述的方法，其特征在于，所述非负函数包括：皮尔逊(Pearson)相关系数、卡方检验(Chi-square test)。

8.根据权利要求1所述的方法，其特征在于，所述每个特征在森林生长过程中被选择的概率与所述每个特征代价成反比。

9.根据权利要求1所述的方法，其特征在于，所述根据随机森林评价特征重要性的方式，生成特征重要性排序，包括：根据所述随机森林，按照Gini不纯度特征重要性度量方式评价所有特征，产生特征重要性排序。

10.一种实现基于分层随机森林数据特征选择方法的装置，其特征在于，所述装置包括：数据获取模块、数据处理模块；

所述数据获取模块，用于获取待处理数据集；

所述数据处理模块，用于划分类标，设置每个特征代价；