CN105844300A

CN105844300A - 一种基于随机森林算法的优化分类方法及装置

Info

Publication number: CN105844300A
Application number: CN201610173483.4A
Authority: CN
Inventors: 王伟; 孙林; 李名; 常宝方
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2016-08-10

Abstract

本发明涉及一种基于随机森林算法的优化分类方法及装置，步骤如下：步骤1)：将给定的样本数据划分为k个相互独立的子训练集合，根据每个训练子集选择不同的决策树，各决策树选择不同的决策属性构成基分类器，进而各基分类器形成随机森林；步骤2)：在每个基分类器中，每一个元组分配设定的权重，然后将待分类数据送入到步骤1)构建的随机森林中进行分类，根据分类结果与预测结果比较调节权重：如果元组的分类预测结果与实际结果不符，则加大该元组的权值；如果元组的分类预测结果与实际结果相符，则减小该元组的权值；步骤3)：根据调整后的各元组的权重，重新对待分类的数据进行分类，直到分类结果与预测结果相一致。

Description

一种基于随机森林算法的优化分类方法及装置

技术领域

本发明涉及一种基于随机森林算法的优化分类方法及装置。

背景技术

2001年，Leo Breima基于决策树理论提出了一种分类模型：随机森林(Random Forests，简称RF)算法。随机森林算法是一种由多个决策树组合而成的组合分类器，比单棵决策树显著提高了分类精度。随机森林分类算法可以看成由许多树组成的森林，所有的树均参与投票，决定最终的分类结果，每棵树的成长由引入的随机变量决定，即随机选取分裂属性和随机选取训练样本，生成决策树，所有的树均参与投票，再汇总分类的结果。随机森林在运算量没有显著提高的前提下，提高了预测精度。随机森林对高度相关的变量相互不干扰，简化了分类算法的设计和分类系统的泛化误差。在与SVM支持向量机的比较后可知，随机森林的参数很少，与Adaboost非常相似。随机森林算法其具有较高的分类效率，不存在过拟合的问题，并且对于大数据的样本能够轻松处理，同时具有很强的对抗噪声的能力，根据分类过程可以评估分类特征的显著性；随机森林算法以其独特的分类优势很快收到广泛的青睐，在生物信息领域获得了广泛的应用。

然而，由于随机森林是由多个决策树组成的集成分类器，传统的随机森林中每棵决策树的默认权重是相同的，因此传统随机森林算法缺乏对不平衡性数据的分类优化，造成不平衡数据的分类性能的精度下降。

发明内容

本发明的目的是提供基于随机森林算法的优化分类方法，用以解决传统的随机森林分类方法中不平衡数据的分类性能精度不高的计算问题。

为实现上述目的，本发明的方案包括：

一种基于随机森林算法的优化分类方法，步骤如下：

步骤1)：将给定的样本数据划分为K个相互独立的子训练集合，根据每个训练子集选择不同的决策树，各决策树选择不同的决策属性构成基分类器，进而各基分类器形成随机森林；

步骤2)：在每个基分类器中，每一个元组分配设定的权重，然后将待分类数据送入到步骤1)构建的随机森林中进行分类，根据分类结果与预测结果比较调节权重：如果元组的分类预测结果与实际结果不符，则加大该元组的权值；如果元组的分类预测结果与实际结果相符，则减小该元组的权值；

步骤3)：根据调整后的各元组的权重，重新对待分类的数据进行分类，直到分类结果与预测结果相一致，获得最优的分类器，开始对待分类数据进行分类。

进一步的，所述步骤2)中进行权重调整时，首先在一个训练样本集i中输出分类器M_i，再用训练集D_i计算分类器M_i的检验集误差系数。

进一步的，所述分类器M_i的错误率通过下述公式(1)得到：

e r r o r (M_{i}) = Σ_{j - 1}^{d} w_{i} \cdot e r r (x_{j}) - - - (1)

其中err(x_j)表示在元组x_j中发生分类错误的值，x_j分类错误时err(x_j)置为1，如果x_j没有分类错误则err(x_j)置为0，w_i表示权重值，初始值1/d。如果分类器M_i的错误率大于0.5，则放弃该分类器，重新选择训练集D_i，然后输出新的分类器。所述权重值w_i通过下述公式(2)得到：

w_{i} = \log_{2} \frac{1 - e r r o r (M_{i})}{e r r o r (M_{i})} - - - (2)

其中，w_i是为分类器设置的权重值。

进一步的，所述决策树生成过程如下：从原始训练样本中选择有放回的抽样方法，采用随机的方式选择K个样本子集，重复选择K次，每个样本子集生成决策树；具体过程如下：

步骤a)：设有N个训练样本，M个特征，输入m个用于确定决策树上一个节点决策结构的特征，并根据所述m个特征计算该特征的最佳分裂式；其中m远小于M；

步骤b)：从N个训练样本中以有放回抽样的方式，取样N次，形成一个训练集，并用未抽到的样本作为预测，评估其误差；

步骤c)：对每棵树都任其成长，不进行剪枝，最终形成决策树。

进一步的，所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类，所述分类依据是单链DNA和双链DNA本身的生物属性差异特征。

一种基于随机森林算法的分类装置，具有如下模块：

模块1)：用于将给定的样本数据划分为k个相互独立的子训练集合，根据每个训练子集选择不同的决策树，各决策树选择不同的决策属性构成基分类器，进而各基分类器形成随机森林；

模块2)：用于在每个基分类器中，每一个元组分配设定的权重，然后将待分类数据送入到步骤1)构建的随机森林中进行分类，根据分类结果与预测结果比较调节权重：如果元组的分类预测结果与实际结果不符，则加大该元组的权值；如果元组的分类预测结果与实际结果相符，则减小该元组的权值；

模块3)：用于根据调整后的各元组的权重，重新对待分类的数据进行分类，直到分类结果与预测结果相一致。

进一步的，所述模块2)中进行权重调整时，首先在一个训练样本集i中输出分类器M_i，再用训练集D_i计算分类的M_i的检验集的误差系数。

进一步的，所述分类器M_i的错误率通过下述公式(3)得到：

e r r o r (M_{i}) = Σ_{j - 1}^{d} w_{i} \cdot e r r (x_{j}) - - - (3)

其中err(x_j)表示在元组x_j中发生分类错误的值，x_j分类错误时err(x_j)置为1，如果x_j没有分类错误则err(x_j)置为0，w_i表示权重值，初始值1/d。如果分类器M_i的错误率大于0.5，则放弃该分类器，重新选择训练集D_i，然后输出新的分类器。所述权重值w_i通过下述公式(4)得到：

w_{i} = \log_{2} \frac{1 - e r r o r (M_{i})}{e r r o r (M_{i})} - - - (4)

其中，w_i是为分类器设置的权重值。

子模块a)：设有N个训练样本，M个特征，输入m个用于确定决策树上一个节点决策结构的特征，并根据所述m个特征计算该特征的最佳分裂式；其中m远小于M；

子模块b)：从N个训练样本中以有放回抽样的方式，取样N次，形成一个训练集，并用未抽到的样本作为预测，评估其误差；

子模块c)：对每棵树都任其成长，不进行剪枝，最终形成决策树。

进一步的，所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类，所述分类依据是单链DNA和双链DNA本身的差异特征。

本发明通过在传统的随机森林算法中引入权重的概念，并根据分类结果调整权重，而每个元组的权值反映了决策树分类能力的强弱程度，权值越大表示分类错误的概率越高，需要进一步训练，从而使得鲁棒性更好。

同时，在构建分类器时，分类器会增加错误预测的元组的权重，增大分类错误元组的训练几率，使错误分类的元组获得更多的训练机会，从而错误分类的数据在分类器上获得更好的分类效果，最终使随机森林分类器的分类预测能力得以提升。

附图说明

图1是本发明加权随机森林算法的流程图。

具体实施方式

下面结合附图对本发明做进一步详细的说明。

本发明中通过在传统随机森林算法中引入权重的概念，从而对随机森林算法的训练过程进行改进，根据分类结果调整权重，如果某一元组的分类预测结果与实际结果不符，那么加大它的权值，从而增加该元组的训练次数；如果某一元组的分类预测结果与实际结果相符，那么减小它的权值，从而减少该元组的训练次数。下面结合附图1对本发明的构思详细做以说明。

随机森林是一种由多个决策树组成的集成分类器，因此在进行随机森林算法时首先是对决策树的构建。使用有放回的bootsrtapping抽样方法，采用随机的方法选择样本子集，形成每棵树的训练集；假设一个训练子集中共有M个属性，从这M个属性中随机抽取m个属性构成分裂属性集，从这m个属性中挑取一个特征作为决策树的每个节点的特征，以最好的分裂方式对该节点进行分裂，而且对决策树的生长不进行修枝，最终形成需要的决策树：H(x,β_k)，其中x是输入向量，β_k是独立同分布的随机向量。这些生成的决策树称为分类回归树，作为随机森林的元分类器，从而随机森林也可以看成是一种树型分类器{h(x,β_k),k＝1……n}的集合，其中h(x,β_k)表示森林的一棵子树。

在上述实施例中，生成决策树的算法是CART算法，作为其他实施方式，还可以是ID3算法或者C4.5算法。上述实施例中，所采用算法具有不同的属性筛选标准：Gini指数、信息增益比和信息增益等。再节点处选择的特征，其不纯度达到最小，充分达到高差别性和低偏差性。

在分类过程中，通常要求分类样本的数量分布越均匀越好，但实验数据中常常出现样本不平衡问题，解决方法主要分为两种：数据集角度(重构数据集)和分类算法角度(改进分类算法)。其中重构数据集方法包括：下采样方法和过采样方法。过采样方法用重复采样少数样本的方式增加小样本数量，并没有增加新的数据源，缺乏训练样本的代表性从而造成过学习的问题。下采样方法对多数样本集仅选取少数样本数量的方式，减少多数样本数据的方法平衡样本集，造成多数样本数据的训练不充分问题。

上述过程是比较常规的技术手段，除上述实施方式外，还可以通过其他手段来实现。下面详细介绍本发明的改进之处，随机森林的决策加权策略。首先向由k个基分类器构建的随机森林树型分类器中输入d个样本训练元组，并为每个训练元组分配相应的权重值，权重值为1/d。然后在第i个训练样本集中输出分类器M_i，按照各元组的权重值随机抽样获得训练样本集D_i，然后再训练样本集D_i中输出分类器M_i，根据下述公式(1)计算分类器M_i的错误率：

e r r o r (M_{i}) = Σ_{j - 1}^{d} w_{i} \cdot e r r (x_{j}) - - - (1)

其中err(x_j)表示在元组x_j中发生分类错误的值，x_j分类错误时err(x_j)置为1，如果x_j没有分类错误则err(x_j)置为0，w_i表示权重值，初始值1/d。如果分类器M_i的错误率大于0.5，则放弃该分类器，重新选择训练集D_i，然后输出新的分类器。如果分类器的错误率小于等于0.5，则修改权重值：如果元组的分类预测结果与实际结果不符，那么加大它的权值；如果元组的分类预测结果与实际结果相符，那么减小它的权值。具体的权值的分配，可以通过下述公式来实现：

w_{i} = \log_{2} \frac{1 - e r r o r (M_{i})}{e r r o r (M_{i})} - - - (2)

其中，w_i是为分类器设置的权重值。

完成对第i个训练集的权重分配后，继续对下一个训练集进行权重分配，直到完成k个训练集的权重分配。

也就是说，在训练过程后，每个元组最终获得分类结果，根据元组分类结果的准确性，修正训练元组的权值。改进的分类器将增加错误预测的元组权重，增大分类错误元组的训练机率，使错误分类的元组获得更多的训练机会，使错误分类的数据在分类器上获得更好的分类效果，最终使随机森林分类器的分类预测能力得以提升。

在分类过程中，对数据进行K次随机分组，并对每组进行N次分类，并查看最终分类结果与实际结果是否一致，如果一致则表示分类器预测错误，如果一致则表示分类正确，在训练过程中不断修正分类器参数，获得最优的分类器，然后应用训练好的分类器对未知蛋白的数据进行分类。

上述实施例给出了基于改进随机森林算法的分类方法的具体过程，为了加深对本发明核心思想的理解，下面结合基于改进随机森林算法的分类方法在生物信息学中蛋白质分类的应用，做出详细说明，以验证改进随机森林算法的分类方法的效果。

本发明中实验数据从Protein Data Bank(PDB)数据库收集到的DNA结合蛋白共有3390个，其中标注为DSBs的共1039个，包括DSBs与dsDNA复合物蛋白有890个，DSBs单体蛋白有149个；标注为SSBs的共158个，其中SSBs与ssDNA蛋白复合物有70个，SSBs单体蛋白有88个；其中未标注的DNA结合蛋白共2193个。在实验中为了消除序列相似的冗余同源蛋白，利用在线工具PISCES(http://dunbrack.fccc.edu/Guoli/PISCES.php)对数据进行消除冗余的预处理，主要的筛选条件为序列相似度<30％的非同源DNA结合蛋白。为获得精度较高的数据，选择的数据要求的X-ray和NMR结构数据，若则原子坐标位置误差较大，同时要求蛋白序列长度>40个氨基酸残基，最后获得一组非冗余的且具有代表性的分类数据集。按照蛋白-DNA的复合物、单体蛋白和结合DNA链的类型，数据集被分为四类：SSBs蛋白-DNA复合物37个，SSBs单体蛋白38个，获得DSBs蛋白-DNA复合物154个，DSBs单体蛋白50个，此外还构建了未知功能的DNA结合蛋白非冗余数据集共727个。

实验数据采用蛋白-DNA接口数据，筛选AAindex数据库中的6种氨基酸理化属性作为接口特征，其中负样本类标签为SSBs，正样本标签为DSBs。为了探究这六个特征属性对建立SSBs与DSBs的分类性能，首先对单一特征属性进行分类检测，其中二级结构属性表示蛋白质-DNA接口中α-Helix,β-Strand和Coil的分布概率。单一特征的预测结果如下表1所示：

在单一特征分类预测过程中，经过不断的修正权重值来获得最优的分类模型，其中氨基酸理化属性中疏水性的分类性能最好，其敏感度SN和特异度SP达到了75％。并且二级结构的分类效果最优，准确度(ACC)78％,敏感性(SN)78％和特异性(SP)30％。从表1中可以发现，特异性的数值偏低均<30％，意味着SSBs的分类准确率较低，其主要原因在于数据的不均衡，其中DSBs的数据量大于SSBs的数据量，造成训练分类器对多数的类具有更准确的分类能力。

表1单分类特征下的预测结果

为了建立区分效果更佳的DSBs与SSBs区分模型，本发明中将上述的六种分类特征组合起来，共同作为区分模型的特征属性。这是因为复合分类特征的某一个分类特征可能会在DSBs和SSBs的某一方面起到一定的作用，从而可以更加准确地预测单体蛋白结合dsDNA或ssDNA。为了比较传统的随机森林算法与改进的随机森林算法的分类效果，我们通过两种算法分别训练原始数据集，并且不断改变分裂节点的属性个数以及树分类器的个数，建立多个分类模型。最后采用10交叉方法检验所建立的分类模型，得到最终结果。从所建立的多个分类模型中，选择有代表的参数输入和预测结果进行展示，如表2所示：

表2基于传统与改进的加权随机算法的组合特征预测结果

通过比较组合特征和单一特征的预测结果，DSBs与SSBs分类模型中组合特征的分类效果显著好于单一特征的分类性能。其中特异性显著提升10％以上，特异性SP反映了样本中负样本的分类效果，也就是SSBs的分类结果，由于SSBs的样本数量小于DSBs，往往造成SSBs样本的训练不充分，造成分类性能的下降。改进后的随机森林算法，对容易分类错误或不充分的SSBs样本，给予了更多的机会参与训练，因此改进后的随机森林分类算法显著提升了SSBs的分类性能。

为分析改进后的加权随机森林算法对SSBs的分类性能提高原因，我们抽取一组中间结果数据来进行分析：(4.71812,0.3225,-0.3844,1.036,5.423058,0.4,0.25,0.35,SSB)为SSBs的原始特征值。在改进的随机森林算法中预测结果得到了修正，如表3所示，列出了在训练过程中，预测正确的样本的权重变化，举例样本的权重变化情况和相应的树权重的变化情况。

表3实验样本的中间数据

按照改进算法，在首次分配样本权重时，每个样本的权重为相同值0.00297。在随机森林算法中，对样本元组的抽样次数可以重复多次，通常平均被抽中的次数小于3次。改进后的算法对采样的样本随机树的分类结果是错误时，按照改进算法对该样本增加抽样的权重，使其增加被抽样的次数。随后这组样本被抽取了9次，而预测正确的样本在首次预测时预测结果正确，随后该样本仅被重复抽样2次，因此改进算法对错误样本显著增加了抽样次数。举例样本在第二次训练过程中预测正确，随后则其权重一直在调低，直到第7棵树其权值均在降低，但在第8棵树时分类错误，其权值则调高。由于随机森林为组合分类器的预测结果是根据投票结果进行打分，因此举例的样本依然得到了正确的分类结果。与原来的随机森林算法相比较，原来的样本权值均看作相等，特别在DSBs和SSBs样本不均衡的数据集中，随机森林对DSBs的训练次数远高于SSBs，从而造成训练的分类器更倾向于DSBs数据，从而造成小样本集的训练不充分而造成实验结果中特异性的结果偏低。通过设定权重改善了小样本的抽样次数，增加了训练机会。同时对错误样本的训练机会也进一步增加，有利于对边缘的错误样本的分类结果修正，因此，改进后的随机森林算法提高了错误样本和小样本的训练机会，从而提高了分类精度。

以上给出了本发明具体的实施方式，但本发明不局限于所描述的实施方式。在本发明给出的思路下，采用对本领域技术人员而言容易想到的方式对上述实施例中的技术手段进行变换、替换、修改，并且起到的作用与本发明中的相应技术手段基本相同、实现的发明目的也基本相同，这样形成的技术方案是对上述实施例进行微调形成的，这种技术方案仍落入本发明的保护范围内。

Claims

1.一种基于随机森林算法的优化分类方法，其特征在于，步骤如下：

步骤3)：根据调整后的各元组的权重，重新选择分类的数据进行分类，直到分类结果与预测结果相一致，获得最优的分类器，最终实现对待分类数据的分类。

2.根据权利要求1所述一种基于随机森林算法的优化分类方法，其特征在于，所述步骤2)中进行权重调整时，首先在一个训练样本集i中输出分类器M_i，再用训练集D_i计算分类器M_i的检验集误差系数。

3.根据权利要求2所述一种基于随机森林算法的优化分类方法，其特征在于，所述分类器M_i的错误率通过下述公式(1)得到：

e r r o r (M_{i}) = Σ_{j - 1}^{d} w_{i} \cdot e r r (x_{j}) - - - (1)

其中err(x_j)表示在元组x_j中发生分类错误的值，x_j分类错误时err(x_j)置为1，如果x_j没有分类错误则err(x_j)置为0，w_i表示权重值，初始值1/d；如果分类器M_i的错误率大于0.5，则放弃该分类器，重新选择训练集D_i，然后输出新的分类器；所述权重值w_i通过下述公式(2)得到：

w_{i} = \log_{2} \frac{1 - e r r o r (M_{i})}{e r r o r (M_{i})} - - - (2)

其中，w_i是为分类器设置的权重值。

4.根据权利要求1所述一种基于随机森林算法的优化分类方法，其特征在于，所述决策树生成过程如下：从原始训练样本中选择有放回的抽样方法，采用随机的方式选择K个样本子集，重复选择K次，每个样本子集生成决策树；具体过程如下：

5.根据权利要求1-4中任一项所述一种基于随机森林算法的优化分类方法，其特征在于，所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类，所述分类依据是单链DNA和双链DNA本身的差异特征。

6.一种基于随机森林算法的优化分类装置，其特征在于，具有如下模块：

7.根据权利要求6所述一种基于随机森林算法的优化分类装置，其特征在于，所述模块2)中进行权重调整时，首先在一个训练样本集i中输出分类器M_i，再用训练集D_i计算分类器M_i的检验集误差系数。

8.根据权利要求7所述一种基于随机森林算法的优化分类装置，其特征在于，所述分类器M_i的错误率通过下述公式(3)得到：

e r r o r (M_{i}) = Σ_{j - 1}^{d} w_{i} \cdot e r r (x_{j}) - - - (3)

其中err(x_j)表示在元组x_j中发生分类错误的值，x_j分类错误时err(x_j)置为1，如果x_j没有分类错误则err(x_j)置为0，w_i表示权重值，初始值1/d；如果分类器M_i的错误率大于0.5，则放弃该分类器，重新选择训练集D_i，然后输出新的分类器；所述权重值w_i通过下述公式(4)得到：

w_{i} = \log_{2} \frac{1 - e r r o r (M_{i})}{e r r o r (M_{i})} - - - (4)

其中，w_i是为分类器设置的权重值。

9.根据权利要求6所述的一种基于随机森林算法的优化分类装置，其特征在于，所述决策树生成过程如下：从原始训练样本中选择有放回的抽样方法，采用随机的方式选择K个样本子集，重复选择K次，每个样本子集生成决策树；具体过程如下：

10.根据权利要求6-9中任一项所述一种基于随机森林算法的优化分类装置，其特征在于，所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类，所述分类依据是单链DNA和双链DNA本身的差异特征。