CN105844300A - 一种基于随机森林算法的优化分类方法及装置 - Google Patents

一种基于随机森林算法的优化分类方法及装置 Download PDF

Info

Publication number
CN105844300A
CN105844300A CN201610173483.4A CN201610173483A CN105844300A CN 105844300 A CN105844300 A CN 105844300A CN 201610173483 A CN201610173483 A CN 201610173483A CN 105844300 A CN105844300 A CN 105844300A
Authority
CN
China
Prior art keywords
classification
grader
tuple
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610173483.4A
Other languages
English (en)
Inventor
王伟
孙林
李名
常宝方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201610173483.4A priority Critical patent/CN105844300A/zh
Publication of CN105844300A publication Critical patent/CN105844300A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于随机森林算法的优化分类方法及装置,步骤如下:步骤1):将给定的样本数据划分为k个相互独立的子训练集合,根据每个训练子集选择不同的决策树,各决策树选择不同的决策属性构成基分类器,进而各基分类器形成随机森林;步骤2):在每个基分类器中,每一个元组分配设定的权重,然后将待分类数据送入到步骤1)构建的随机森林中进行分类,根据分类结果与预测结果比较调节权重:如果元组的分类预测结果与实际结果不符,则加大该元组的权值;如果元组的分类预测结果与实际结果相符,则减小该元组的权值;步骤3):根据调整后的各元组的权重,重新对待分类的数据进行分类,直到分类结果与预测结果相一致。

Description

一种基于随机森林算法的优化分类方法及装置
技术领域
本发明涉及一种基于随机森林算法的优化分类方法及装置。
背景技术
2001年,Leo Breima基于决策树理论提出了一种分类模型:随机森林(Random Forests,简称RF)算法。随机森林算法是一种由多个决策树组合而成的组合分类器,比单棵决策树显著提高了分类精度。随机森林分类算法可以看成由许多树组成的森林,所有的树均参与投票,决定最终的分类结果,每棵树的成长由引入的随机变量决定,即随机选取分裂属性和随机选取训练样本,生成决策树,所有的树均参与投票,再汇总分类的结果。随机森林在运算量没有显著提高的前提下,提高了预测精度。随机森林对高度相关的变量相互不干扰,简化了分类算法的设计和分类系统的泛化误差。在与SVM支持向量机的比较后可知,随机森林的参数很少,与Adaboost非常相似。随机森林算法其具有较高的分类效率,不存在过拟合的问题,并且对于大数据的样本能够轻松处理,同时具有很强的对抗噪声的能力,根据分类过程可以评估分类特征的显著性;随机森林算法以其独特的分类优势很快收到广泛的青睐,在生物信息领域获得了广泛的应用。
然而,由于随机森林是由多个决策树组成的集成分类器,传统的随机森林中每棵决策树的默认权重是相同的,因此传统随机森林算法缺乏对不平衡性数据的分类优化,造成不平衡数据的分类性能的精度下降。
发明内容
本发明的目的是提供基于随机森林算法的优化分类方法,用以解决传统的随机森林分类方法中不平衡数据的分类性能精度不高的计算问题。
为实现上述目的,本发明的方案包括:
一种基于随机森林算法的优化分类方法,步骤如下:
步骤1):将给定的样本数据划分为K个相互独立的子训练集合,根据每个训练子集选择不同的决策树,各决策树选择不同的决策属性构成基分类器,进而各基分类器形成随机森林;
步骤2):在每个基分类器中,每一个元组分配设定的权重,然后将待分类数据送入到步骤1)构建的随机森林中进行分类,根据分类结果与预测结果比较调节权重:如果元组的分类预测结果与实际结果不符,则加大该元组的权值;如果元组的分类预测结果与实际结果相符,则减小该元组的权值;
步骤3):根据调整后的各元组的权重,重新对待分类的数据进行分类,直到分类结果与预测结果相一致,获得最优的分类器,开始对待分类数据进行分类。
进一步的,所述步骤2)中进行权重调整时,首先在一个训练样本集i中输出分类器Mi,再用训练集Di计算分类器Mi的检验集误差系数。
进一步的,所述分类器Mi的错误率通过下述公式(1)得到:
e r r o r ( M i ) = Σ j - 1 d w i · e r r ( x j ) - - - ( 1 )
其中err(xj)表示在元组xj中发生分类错误的值,xj分类错误时err(xj)置为1,如果xj没有分类错误则err(xj)置为0,wi表示权重值,初始值1/d。如果分类器Mi的错误率大于0.5,则放弃该分类器,重新选择训练集Di,然后输出新的分类器。所述权重值wi通过下述公式(2)得到:
w i = log 2 1 - e r r o r ( M i ) e r r o r ( M i ) - - - ( 2 )
其中,wi是为分类器设置的权重值。
进一步的,所述决策树生成过程如下:从原始训练样本中选择有放回的抽样方法,采用随机的方式选择K个样本子集,重复选择K次,每个样本子集生成决策树;具体过程如下:
步骤a):设有N个训练样本,M个特征,输入m个用于确定决策树上一个节点决策结构的特征,并根据所述m个特征计算该特征的最佳分裂式;其中m远小于M;
步骤b):从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作为预测,评估其误差;
步骤c):对每棵树都任其成长,不进行剪枝,最终形成决策树。
进一步的,所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类,所述分类依据是单链DNA和双链DNA本身的生物属性差异特征。
一种基于随机森林算法的分类装置,具有如下模块:
模块1):用于将给定的样本数据划分为k个相互独立的子训练集合,根据每个训练子集选择不同的决策树,各决策树选择不同的决策属性构成基分类器,进而各基分类器形成随机森林;
模块2):用于在每个基分类器中,每一个元组分配设定的权重,然后将待分类数据送入到步骤1)构建的随机森林中进行分类,根据分类结果与预测结果比较调节权重:如果元组的分类预测结果与实际结果不符,则加大该元组的权值;如果元组的分类预测结果与实际结果相符,则减小该元组的权值;
模块3):用于根据调整后的各元组的权重,重新对待分类的数据进行分类,直到分类结果与预测结果相一致。
进一步的,所述模块2)中进行权重调整时,首先在一个训练样本集i中输出分类器Mi,再用训练集Di计算分类的Mi的检验集的误差系数。
进一步的,所述分类器Mi的错误率通过下述公式(3)得到:
e r r o r ( M i ) = Σ j - 1 d w i · e r r ( x j ) - - - ( 3 )
其中err(xj)表示在元组xj中发生分类错误的值,xj分类错误时err(xj)置为1,如果xj没有分类错误则err(xj)置为0,wi表示权重值,初始值1/d。如果分类器Mi的错误率大于0.5,则放弃该分类器,重新选择训练集Di,然后输出新的分类器。所述权重值wi通过下述公式(4)得到:
w i = log 2 1 - e r r o r ( M i ) e r r o r ( M i ) - - - ( 4 )
其中,wi是为分类器设置的权重值。
进一步的,所述决策树生成过程如下:从原始训练样本中选择有放回的抽样方法,采用随机的方式选择K个样本子集,重复选择K次,每个样本子集生成决策树;具体过程如下:
子模块a):设有N个训练样本,M个特征,输入m个用于确定决策树上一个节点决策结构的特征,并根据所述m个特征计算该特征的最佳分裂式;其中m远小于M;
子模块b):从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作为预测,评估其误差;
子模块c):对每棵树都任其成长,不进行剪枝,最终形成决策树。
进一步的,所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类,所述分类依据是单链DNA和双链DNA本身的差异特征。
本发明通过在传统的随机森林算法中引入权重的概念,并根据分类结果调整权重,而每个元组的权值反映了决策树分类能力的强弱程度,权值越大表示分类错误的概率越高,需要进一步训练,从而使得鲁棒性更好。
同时,在构建分类器时,分类器会增加错误预测的元组的权重,增大分类错误元组的训练几率,使错误分类的元组获得更多的训练机会,从而错误分类的数据在分类器上获得更好的分类效果,最终使随机森林分类器的分类预测能力得以提升。
附图说明
图1是本发明加权随机森林算法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细的说明。
本发明中通过在传统随机森林算法中引入权重的概念,从而对随机森林算法的训练过程进行改进,根据分类结果调整权重,如果某一元组的分类预测结果与实际结果不符,那么加大它的权值,从而增加该元组的训练次数;如果某一元组的分类预测结果与实际结果相符,那么减小它的权值,从而减少该元组的训练次数。下面结合附图1对本发明的构思详细做以说明。
随机森林是一种由多个决策树组成的集成分类器,因此在进行随机森林算法时首先是对决策树的构建。使用有放回的bootsrtapping抽样方法,采用随机的方法选择样本子集,形成每棵树的训练集;假设一个训练子集中共有M个属性,从这M个属性中随机抽取m个属性构成分裂属性集,从这m个属性中挑取一个特征作为决策树的每个节点的特征,以最好的分裂方式对该节点进行分裂,而且对决策树的生长不进行修枝,最终形成需要的决策树:H(x,βk),其中x是输入向量,βk是独立同分布的随机向量。这些生成的决策树称为分类回归树,作为随机森林的元分类器,从而随机森林也可以看成是一种树型分类器{h(x,βk),k=1……n}的集合,其中h(x,βk)表示森林的一棵子树。
在上述实施例中,生成决策树的算法是CART算法,作为其他实施方式,还可以是ID3算法或者C4.5算法。上述实施例中,所采用算法具有不同的属性筛选标准:Gini指数、信息增益比和信息增益等。再节点处选择的特征,其不纯度达到最小,充分达到高差别性和低偏差性。
在分类过程中,通常要求分类样本的数量分布越均匀越好,但实验数据中常常出现样本不平衡问题,解决方法主要分为两种:数据集角度(重构数据集)和分类算法角度(改进分类算法)。其中重构数据集方法包括:下采样方法和过采样方法。过采样方法用重复采样少数样本的方式增加小样本数量,并没有增加新的数据源,缺乏训练样本的代表性从而造成过学习的问题。下采样方法对多数样本集仅选取少数样本数量的方式,减少多数样本数据的方法平衡样本集,造成多数样本数据的训练不充分问题。
上述过程是比较常规的技术手段,除上述实施方式外,还可以通过其他手段来实现。下面详细介绍本发明的改进之处,随机森林的决策加权策略。首先向由k个基分类器构建的随机森林树型分类器中输入d个样本训练元组,并为每个训练元组分配相应的权重值,权重值为1/d。然后在第i个训练样本集中输出分类器Mi,按照各元组的权重值随机抽样获得训练样本集Di,然后再训练样本集Di中输出分类器Mi,根据下述公式(1)计算分类器Mi的错误率:
e r r o r ( M i ) = Σ j - 1 d w i · e r r ( x j ) - - - ( 1 )
其中err(xj)表示在元组xj中发生分类错误的值,xj分类错误时err(xj)置为1,如果xj没有分类错误则err(xj)置为0,wi表示权重值,初始值1/d。如果分类器Mi的错误率大于0.5,则放弃该分类器,重新选择训练集Di,然后输出新的分类器。如果分类器的错误率小于等于0.5,则修改权重值:如果元组的分类预测结果与实际结果不符,那么加大它的权值;如果元组的分类预测结果与实际结果相符,那么减小它的权值。具体的权值的分配,可以通过下述公式来实现:
w i = log 2 1 - e r r o r ( M i ) e r r o r ( M i ) - - - ( 2 )
其中,wi是为分类器设置的权重值。
完成对第i个训练集的权重分配后,继续对下一个训练集进行权重分配,直到完成k个训练集的权重分配。
也就是说,在训练过程后,每个元组最终获得分类结果,根据元组分类结果的准确性,修正训练元组的权值。改进的分类器将增加错误预测的元组权重,增大分类错误元组的训练机率,使错误分类的元组获得更多的训练机会,使错误分类的数据在分类器上获得更好的分类效果,最终使随机森林分类器的分类预测能力得以提升。
在分类过程中,对数据进行K次随机分组,并对每组进行N次分类,并查看最终分类结果与实际结果是否一致,如果一致则表示分类器预测错误,如果一致则表示分类正确,在训练过程中不断修正分类器参数,获得最优的分类器,然后应用训练好的分类器对未知蛋白的数据进行分类。
上述实施例给出了基于改进随机森林算法的分类方法的具体过程,为了加深对本发明核心思想的理解,下面结合基于改进随机森林算法的分类方法在生物信息学中蛋白质分类的应用,做出详细说明,以验证改进随机森林算法的分类方法的效果。
本发明中实验数据从Protein Data Bank(PDB)数据库收集到的DNA结合蛋白共有3390个,其中标注为DSBs的共1039个,包括DSBs与dsDNA复合物蛋白有890个,DSBs单体蛋白有149个;标注为SSBs的共158个,其中SSBs与ssDNA蛋白复合物有70个,SSBs单体蛋白有88个;其中未标注的DNA结合蛋白共2193个。在实验中为了消除序列相似的冗余同源蛋白,利用在线工具PISCES(http://dunbrack.fccc.edu/Guoli/PISCES.php)对数据进行消除冗余的预处理,主要的筛选条件为序列相似度<30%的非同源DNA结合蛋白。为获得精度较高的数据,选择的数据要求的X-ray和NMR结构数据,若则原子坐标位置误差较大,同时要求蛋白序列长度>40个氨基酸残基,最后获得一组非冗余的且具有代表性的分类数据集。按照蛋白-DNA的复合物、单体蛋白和结合DNA链的类型,数据集被分为四类:SSBs蛋白-DNA复合物37个,SSBs单体蛋白38个,获得DSBs蛋白-DNA复合物154个,DSBs单体蛋白50个,此外还构建了未知功能的DNA结合蛋白非冗余数据集共727个。
实验数据采用蛋白-DNA接口数据,筛选AAindex数据库中的6种氨基酸理化属性作为接口特征,其中负样本类标签为SSBs,正样本标签为DSBs。为了探究这六个特征属性对建立SSBs与DSBs的分类性能,首先对单一特征属性进行分类检测,其中二级结构属性表示蛋白质-DNA接口中α-Helix,β-Strand和Coil的分布概率。单一特征的预测结果如下表1所示:
在单一特征分类预测过程中,经过不断的修正权重值来获得最优的分类模型,其中氨基酸理化属性中疏水性的分类性能最好,其敏感度SN和特异度SP达到了75%。并且二级结构的分类效果最优,准确度(ACC)78%,敏感性(SN)78%和特异性(SP)30%。从表1中可以发现,特异性的数值偏低均<30%,意味着SSBs的分类准确率较低,其主要原因在于数据的不均衡,其中DSBs的数据量大于SSBs的数据量,造成训练分类器对多数的类具有更准确的分类能力。
表1单分类特征下的预测结果
为了建立区分效果更佳的DSBs与SSBs区分模型,本发明中将上述的六种分类特征组合起来,共同作为区分模型的特征属性。这是因为复合分类特征的某一个分类特征可能会在DSBs和SSBs的某一方面起到一定的作用,从而可以更加准确地预测单体蛋白结合dsDNA或ssDNA。为了比较传统的随机森林算法与改进的随机森林算法的分类效果,我们通过两种算法分别训练原始数据集,并且不断改变分裂节点的属性个数以及树分类器的个数,建立多个分类模型。最后采用10交叉方法检验所建立的分类模型,得到最终结果。从所建立的多个分类模型中,选择有代表的参数输入和预测结果进行展示,如表2所示:
表2基于传统与改进的加权随机算法的组合特征预测结果
通过比较组合特征和单一特征的预测结果,DSBs与SSBs分类模型中组合特征的分类效果显著好于单一特征的分类性能。其中特异性显著提升10%以上,特异性SP反映了样本中负样本的分类效果,也就是SSBs的分类结果,由于SSBs的样本数量小于DSBs,往往造成SSBs样本的训练不充分,造成分类性能的下降。改进后的随机森林算法,对容易分类错误或不充分的SSBs样本,给予了更多的机会参与训练,因此改进后的随机森林分类算法显著提升了SSBs的分类性能。
为分析改进后的加权随机森林算法对SSBs的分类性能提高原因,我们抽取一组中间结果数据来进行分析:(4.71812,0.3225,-0.3844,1.036,5.423058,0.4,0.25,0.35,SSB)为SSBs的原始特征值。在改进的随机森林算法中预测结果得到了修正,如表3所示,列出了在训练过程中,预测正确的样本的权重变化,举例样本的权重变化情况和相应的树权重的变化情况。
表3实验样本的中间数据
按照改进算法,在首次分配样本权重时,每个样本的权重为相同值0.00297。在随机森林算法中,对样本元组的抽样次数可以重复多次,通常平均被抽中的次数小于3次。改进后的算法对采样的样本随机树的分类结果是错误时,按照改进算法对该样本增加抽样的权重,使其增加被抽样的次数。随后这组样本被抽取了9次,而预测正确的样本在首次预测时预测结果正确,随后该样本仅被重复抽样2次,因此改进算法对错误样本显著增加了抽样次数。举例样本在第二次训练过程中预测正确,随后则其权重一直在调低,直到第7棵树其权值均在降低,但在第8棵树时分类错误,其权值则调高。由于随机森林为组合分类器的预测结果是根据投票结果进行打分,因此举例的样本依然得到了正确的分类结果。与原来的随机森林算法相比较,原来的样本权值均看作相等,特别在DSBs和SSBs样本不均衡的数据集中,随机森林对DSBs的训练次数远高于SSBs,从而造成训练的分类器更倾向于DSBs数据,从而造成小样本集的训练不充分而造成实验结果中特异性的结果偏低。通过设定权重改善了小样本的抽样次数,增加了训练机会。同时对错误样本的训练机会也进一步增加,有利于对边缘的错误样本的分类结果修正,因此,改进后的随机森林算法提高了错误样本和小样本的训练机会,从而提高了分类精度。
以上给出了本发明具体的实施方式,但本发明不局限于所描述的实施方式。在本发明给出的思路下,采用对本领域技术人员而言容易想到的方式对上述实施例中的技术手段进行变换、替换、修改,并且起到的作用与本发明中的相应技术手段基本相同、实现的发明目的也基本相同,这样形成的技术方案是对上述实施例进行微调形成的,这种技术方案仍落入本发明的保护范围内。

Claims (10)

1.一种基于随机森林算法的优化分类方法,其特征在于,步骤如下:
步骤1):将给定的样本数据划分为k个相互独立的子训练集合,根据每个训练子集选择不同的决策树,各决策树选择不同的决策属性构成基分类器,进而各基分类器形成随机森林;
步骤2):在每个基分类器中,每一个元组分配设定的权重,然后将待分类数据送入到步骤1)构建的随机森林中进行分类,根据分类结果与预测结果比较调节权重:如果元组的分类预测结果与实际结果不符,则加大该元组的权值;如果元组的分类预测结果与实际结果相符,则减小该元组的权值;
步骤3):根据调整后的各元组的权重,重新选择分类的数据进行分类,直到分类结果与预测结果相一致,获得最优的分类器,最终实现对待分类数据的分类。
2.根据权利要求1所述一种基于随机森林算法的优化分类方法,其特征在于,所述步骤2)中进行权重调整时,首先在一个训练样本集i中输出分类器Mi,再用训练集Di计算分类器Mi的检验集误差系数。
3.根据权利要求2所述一种基于随机森林算法的优化分类方法,其特征在于,所述分类器Mi的错误率通过下述公式(1)得到:
e r r o r ( M i ) = &Sigma; j - 1 d w i &CenterDot; e r r ( x j ) - - - ( 1 )
其中err(xj)表示在元组xj中发生分类错误的值,xj分类错误时err(xj)置为1,如果xj没有分类错误则err(xj)置为0,wi表示权重值,初始值1/d;如果分类器Mi的错误率大于0.5,则放弃该分类器,重新选择训练集Di,然后输出新的分类器;所述权重值wi通过下述公式(2)得到:
w i = log 2 1 - e r r o r ( M i ) e r r o r ( M i ) - - - ( 2 )
其中,wi是为分类器设置的权重值。
4.根据权利要求1所述一种基于随机森林算法的优化分类方法,其特征在于,所述决策树生成过程如下:从原始训练样本中选择有放回的抽样方法,采用随机的方式选择K个样本子集,重复选择K次,每个样本子集生成决策树;具体过程如下:
步骤a):设有N个训练样本,M个特征,输入m个用于确定决策树上一个节点决策结构的特征,并根据所述m个特征计算该特征的最佳分裂式;其中m远小于M;
步骤b):从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作为预测,评估其误差;
步骤c):对每棵树都任其成长,不进行剪枝,最终形成决策树。
5.根据权利要求1-4中任一项所述一种基于随机森林算法的优化分类方法,其特征在于,所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类,所述分类依据是单链DNA和双链DNA本身的差异特征。
6.一种基于随机森林算法的优化分类装置,其特征在于,具有如下模块:
模块1):用于将给定的样本数据划分为k个相互独立的子训练集合,根据每个训练子集选择不同的决策树,各决策树选择不同的决策属性构成基分类器,进而各基分类器形成随机森林;
模块2):用于在每个基分类器中,每一个元组分配设定的权重,然后将待分类数据送入到步骤1)构建的随机森林中进行分类,根据分类结果与预测结果比较调节权重:如果元组的分类预测结果与实际结果不符,则加大该元组的权值;如果元组的分类预测结果与实际结果相符,则减小该元组的权值;
模块3):用于根据调整后的各元组的权重,重新对待分类的数据进行分类,直到分类结果与预测结果相一致。
7.根据权利要求6所述一种基于随机森林算法的优化分类装置,其特征在于,所述模块2)中进行权重调整时,首先在一个训练样本集i中输出分类器Mi,再用训练集Di计算分类器Mi的检验集误差系数。
8.根据权利要求7所述一种基于随机森林算法的优化分类装置,其特征在于,所述分类器Mi的错误率通过下述公式(3)得到:
e r r o r ( M i ) = &Sigma; j - 1 d w i &CenterDot; e r r ( x j ) - - - ( 3 )
其中err(xj)表示在元组xj中发生分类错误的值,xj分类错误时err(xj)置为1,如果xj没有分类错误则err(xj)置为0,wi表示权重值,初始值1/d;如果分类器Mi的错误率大于0.5,则放弃该分类器,重新选择训练集Di,然后输出新的分类器;所述权重值wi通过下述公式(4)得到:
w i = log 2 1 - e r r o r ( M i ) e r r o r ( M i ) - - - ( 4 )
其中,wi是为分类器设置的权重值。
9.根据权利要求6所述的一种基于随机森林算法的优化分类装置,其特征在于,所述决策树生成过程如下:从原始训练样本中选择有放回的抽样方法,采用随机的方式选择K个样本子集,重复选择K次,每个样本子集生成决策树;具体过程如下:
子模块a):设有N个训练样本,M个特征,输入m个用于确定决策树上一个节点决策结构的特征,并根据所述m个特征计算该特征的最佳分裂式;其中m远小于M;
子模块b):从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作为预测,评估其误差;
子模块c):对每棵树都任其成长,不进行剪枝,最终形成决策树。
10.根据权利要求6-9中任一项所述一种基于随机森林算法的优化分类装置,其特征在于,所述分类方法用于生物学中单链DNA结合蛋白和双链DNA结合蛋白的分类,所述分类依据是单链DNA和双链DNA本身的差异特征。
CN201610173483.4A 2016-03-24 2016-03-24 一种基于随机森林算法的优化分类方法及装置 Pending CN105844300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610173483.4A CN105844300A (zh) 2016-03-24 2016-03-24 一种基于随机森林算法的优化分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610173483.4A CN105844300A (zh) 2016-03-24 2016-03-24 一种基于随机森林算法的优化分类方法及装置

Publications (1)

Publication Number Publication Date
CN105844300A true CN105844300A (zh) 2016-08-10

Family

ID=56583359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610173483.4A Pending CN105844300A (zh) 2016-03-24 2016-03-24 一种基于随机森林算法的优化分类方法及装置

Country Status (1)

Country Link
CN (1) CN105844300A (zh)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339593A (zh) * 2016-08-31 2017-01-18 青岛睿帮信息技术有限公司 基于医疗数据建模的川崎病分类预测方法
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN106991374A (zh) * 2017-03-07 2017-07-28 中国矿业大学 基于卷积神经网络和随机森林的手写数字识别方法
CN107071743A (zh) * 2017-03-20 2017-08-18 华南理工大学 一种基于随机森林的快速KNN室内WiFi定位方法
CN107132267A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种基于随机森林的茶叶分类方法及系统
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
CN107403205A (zh) * 2017-07-06 2017-11-28 重庆大学 一种基于随机森林的rfid仓库货包平面定位方法
CN107450524A (zh) * 2017-08-30 2017-12-08 深圳市智物联网络有限公司 预测工业设备故障的方法、装置及计算机可读存储介质
CN107632995A (zh) * 2017-03-13 2018-01-26 平安科技(深圳)有限公司 随机森林模型训练的方法及模型训练控制系统
CN107688170A (zh) * 2017-08-21 2018-02-13 哈尔滨工业大学 一种基于随机森林的雷达目标航迹起始方法
CN107728476A (zh) * 2017-09-20 2018-02-23 浙江大学 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN108062571A (zh) * 2017-12-27 2018-05-22 福州大学 基于差分进化随机森林分类器的光伏阵列故障诊断方法
CN108303632A (zh) * 2017-12-14 2018-07-20 佛山科学技术学院 基于随机森林算法的电路故障诊断方法
CN108509935A (zh) * 2018-04-12 2018-09-07 电子科技大学 一种基于随机森林算法的雷达工作模式识别方法
CN109101784A (zh) * 2017-06-20 2018-12-28 河南师范大学 一种dna结合蛋白接口几何结构特征的分析方法
CN109211814A (zh) * 2018-10-29 2019-01-15 中国科学院南京土壤研究所 一种基于三维光谱曲面分区特征的土壤剖面类型识别方法
CN109241070A (zh) * 2018-08-22 2019-01-18 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法
CN109409434A (zh) * 2018-02-05 2019-03-01 福州大学 基于随机森林的肝脏疾病数据分类规则提取的方法
CN109522788A (zh) * 2018-09-30 2019-03-26 广州地理研究所 基于随机森林分类算法的城市范围提取方法、装置及电子设备
CN109544035A (zh) * 2018-12-12 2019-03-29 上海理工大学 基于随机森林的电力能效分析与评级方法
CN109543755A (zh) * 2018-11-26 2019-03-29 青岛国测海遥信息技术有限公司 基于类别权重矢量的集成学习遥感影像分类方法
CN109711428A (zh) * 2018-11-20 2019-05-03 佛山科学技术学院 一种含水天然气管线内腐蚀速度预测方法及装置
CN109726826A (zh) * 2018-12-19 2019-05-07 东软集团股份有限公司 随机森林的训练方法、装置、存储介质和电子设备
CN109893137A (zh) * 2019-03-07 2019-06-18 山东科技大学 基于移动终端在不同携带位置下改善步态检测的方法
CN109961307A (zh) * 2017-12-25 2019-07-02 北京京东尚科信息技术有限公司 面向对象的评估方法和装置
CN110111843A (zh) * 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN110108992A (zh) * 2019-05-24 2019-08-09 国网湖南省电力有限公司 基于改进随机森林算法的电缆局放故障识别方法、系统及介质
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法
CN110210718A (zh) * 2019-05-09 2019-09-06 厦门邑通软件科技有限公司 一种基于多维决策树群的提升产品合格率的方法
CN110334767A (zh) * 2019-07-08 2019-10-15 重庆大学 一种用于空气质量分类的改进随机森林方法
CN110346831A (zh) * 2019-07-19 2019-10-18 同济大学 一种基于随机森林算法的智能化地震流体识别方法
CN110474786A (zh) * 2018-05-10 2019-11-19 上海大唐移动通信设备有限公司 基于随机森林分析VoLTE网络故障原因的方法及装置
CN110491121A (zh) * 2019-07-26 2019-11-22 同济大学 一种异质性交通事故致因分析方法及设备
WO2019232999A1 (zh) * 2018-06-07 2019-12-12 中国矿业大学 一种基于特征映射层以及增强层结构的随机森林集成方法
CN110717524A (zh) * 2019-09-20 2020-01-21 浙江工业大学 一种老年人热舒适预测方法
CN110823190A (zh) * 2019-09-30 2020-02-21 广州地理研究所 基于随机森林的岛礁浅海水深预测方法
CN110889307A (zh) * 2018-09-07 2020-03-17 中国石油化工股份有限公司 一种基于机器学习的地震震相初至识别方法及识别系统
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机系统自主能力评价方法、系统及可读存储介质
CN111352926A (zh) * 2018-12-20 2020-06-30 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN111950588A (zh) * 2020-07-03 2020-11-17 国网冀北电力有限公司 一种基于改进Adaboost算法的分布式电源孤岛检测方法
CN112308151A (zh) * 2020-11-03 2021-02-02 西安电子科技大学 基于加权的旋转森林高光谱图像分类方法
CN112836730A (zh) * 2021-01-20 2021-05-25 国家卫生健康委科学技术研究所 用于用户妊娠状态分类的方法、装置、电子设备及介质
CN112860959A (zh) * 2021-02-05 2021-05-28 哈尔滨工程大学 一种基于随机森林改进的实体解析方法
CN116720145A (zh) * 2023-08-08 2023-09-08 山东神舟制冷设备有限公司 基于数据处理的无线充电剩余时间预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901345A (zh) * 2009-05-27 2010-12-01 复旦大学 一种差异蛋白质组学的分类方法
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901345A (zh) * 2009-05-27 2010-12-01 复旦大学 一种差异蛋白质组学的分类方法
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋丽: ""基于决策树的组合分类器的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨飚等: ""加权随机森林算法研究"", 《微型机与应用》 *

Cited By (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339593A (zh) * 2016-08-31 2017-01-18 青岛睿帮信息技术有限公司 基于医疗数据建模的川崎病分类预测方法
CN106339593B (zh) * 2016-08-31 2023-04-18 北京万灵盘古科技有限公司 基于医疗数据建模的川崎病分类预测方法
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
US11531841B2 (en) 2016-10-31 2022-12-20 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and apparatus, server, and storage medium
US11861478B2 (en) 2016-10-31 2024-01-02 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and apparatus, server, and storage medium
CN106991374A (zh) * 2017-03-07 2017-07-28 中国矿业大学 基于卷积神经网络和随机森林的手写数字识别方法
CN107632995A (zh) * 2017-03-13 2018-01-26 平安科技(深圳)有限公司 随机森林模型训练的方法及模型训练控制系统
CN107632995B (zh) * 2017-03-13 2018-09-11 平安科技(深圳)有限公司 随机森林模型训练的方法及模型训练控制系统
JP2019513246A (ja) * 2017-03-13 2019-05-23 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. ランダムフォレストモデルの訓練方法、電子装置及び記憶媒体
CN107071743A (zh) * 2017-03-20 2017-08-18 华南理工大学 一种基于随机森林的快速KNN室内WiFi定位方法
CN107071743B (zh) * 2017-03-20 2020-06-19 华南理工大学 一种基于随机森林的快速KNN室内WiFi定位方法
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
CN109101784A (zh) * 2017-06-20 2018-12-28 河南师范大学 一种dna结合蛋白接口几何结构特征的分析方法
CN107132267A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种基于随机森林的茶叶分类方法及系统
CN107403205A (zh) * 2017-07-06 2017-11-28 重庆大学 一种基于随机森林的rfid仓库货包平面定位方法
CN107403205B (zh) * 2017-07-06 2020-02-07 重庆大学 一种基于随机森林的rfid仓库货包平面定位方法
CN107688170B (zh) * 2017-08-21 2020-08-28 哈尔滨工业大学 一种基于随机森林的雷达目标航迹起始方法
CN107688170A (zh) * 2017-08-21 2018-02-13 哈尔滨工业大学 一种基于随机森林的雷达目标航迹起始方法
CN107450524A (zh) * 2017-08-30 2017-12-08 深圳市智物联网络有限公司 预测工业设备故障的方法、装置及计算机可读存储介质
CN107728476B (zh) * 2017-09-20 2020-05-22 浙江大学 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法
CN107728476A (zh) * 2017-09-20 2018-02-23 浙江大学 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN108303632A (zh) * 2017-12-14 2018-07-20 佛山科学技术学院 基于随机森林算法的电路故障诊断方法
CN109961307A (zh) * 2017-12-25 2019-07-02 北京京东尚科信息技术有限公司 面向对象的评估方法和装置
CN108062571B (zh) * 2017-12-27 2021-04-27 福州大学 基于差分进化随机森林分类器的光伏阵列故障诊断方法
CN108062571A (zh) * 2017-12-27 2018-05-22 福州大学 基于差分进化随机森林分类器的光伏阵列故障诊断方法
CN110111843B (zh) * 2018-01-05 2021-07-06 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN110111843A (zh) * 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN109409434B (zh) * 2018-02-05 2021-05-18 福州大学 基于随机森林的肝脏疾病数据分类规则提取的方法
CN109409434A (zh) * 2018-02-05 2019-03-01 福州大学 基于随机森林的肝脏疾病数据分类规则提取的方法
CN108509935A (zh) * 2018-04-12 2018-09-07 电子科技大学 一种基于随机森林算法的雷达工作模式识别方法
CN108509935B (zh) * 2018-04-12 2020-01-03 电子科技大学 一种基于随机森林算法的雷达工作模式识别方法
CN110474786B (zh) * 2018-05-10 2022-05-24 上海大唐移动通信设备有限公司 基于随机森林分析VoLTE网络故障原因的方法及装置
CN110474786A (zh) * 2018-05-10 2019-11-19 上海大唐移动通信设备有限公司 基于随机森林分析VoLTE网络故障原因的方法及装置
WO2019232999A1 (zh) * 2018-06-07 2019-12-12 中国矿业大学 一种基于特征映射层以及增强层结构的随机森林集成方法
CN109241070A (zh) * 2018-08-22 2019-01-18 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法
CN110889307A (zh) * 2018-09-07 2020-03-17 中国石油化工股份有限公司 一种基于机器学习的地震震相初至识别方法及识别系统
CN109522788A (zh) * 2018-09-30 2019-03-26 广州地理研究所 基于随机森林分类算法的城市范围提取方法、装置及电子设备
CN109211814A (zh) * 2018-10-29 2019-01-15 中国科学院南京土壤研究所 一种基于三维光谱曲面分区特征的土壤剖面类型识别方法
CN109711428A (zh) * 2018-11-20 2019-05-03 佛山科学技术学院 一种含水天然气管线内腐蚀速度预测方法及装置
CN109543755A (zh) * 2018-11-26 2019-03-29 青岛国测海遥信息技术有限公司 基于类别权重矢量的集成学习遥感影像分类方法
CN109544035A (zh) * 2018-12-12 2019-03-29 上海理工大学 基于随机森林的电力能效分析与评级方法
CN109726826B (zh) * 2018-12-19 2021-08-13 东软集团股份有限公司 随机森林的训练方法、装置、存储介质和电子设备
CN109726826A (zh) * 2018-12-19 2019-05-07 东软集团股份有限公司 随机森林的训练方法、装置、存储介质和电子设备
CN111352926A (zh) * 2018-12-20 2020-06-30 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN111352926B (zh) * 2018-12-20 2024-03-08 北京沃东天骏信息技术有限公司 数据处理的方法、装置、设备及可读存储介质
CN109893137B (zh) * 2019-03-07 2021-09-03 山东科技大学 基于移动终端在不同携带位置下改善步态检测的方法
CN109893137A (zh) * 2019-03-07 2019-06-18 山东科技大学 基于移动终端在不同携带位置下改善步态检测的方法
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法
CN110210718A (zh) * 2019-05-09 2019-09-06 厦门邑通软件科技有限公司 一种基于多维决策树群的提升产品合格率的方法
CN110108992A (zh) * 2019-05-24 2019-08-09 国网湖南省电力有限公司 基于改进随机森林算法的电缆局放故障识别方法、系统及介质
CN110334767A (zh) * 2019-07-08 2019-10-15 重庆大学 一种用于空气质量分类的改进随机森林方法
CN110334767B (zh) * 2019-07-08 2023-02-21 重庆大学 一种用于空气质量分类的改进随机森林方法
CN110346831A (zh) * 2019-07-19 2019-10-18 同济大学 一种基于随机森林算法的智能化地震流体识别方法
CN110346831B (zh) * 2019-07-19 2021-06-04 同济大学 一种基于随机森林算法的智能化地震流体识别方法
CN110491121B (zh) * 2019-07-26 2022-04-05 同济大学 一种异质性交通事故致因分析方法及设备
CN110491121A (zh) * 2019-07-26 2019-11-22 同济大学 一种异质性交通事故致因分析方法及设备
CN110717524A (zh) * 2019-09-20 2020-01-21 浙江工业大学 一种老年人热舒适预测方法
CN110823190B (zh) * 2019-09-30 2020-12-08 广州地理研究所 基于随机森林的岛礁浅海水深预测方法
CN110823190A (zh) * 2019-09-30 2020-02-21 广州地理研究所 基于随机森林的岛礁浅海水深预测方法
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机系统自主能力评价方法、系统及可读存储介质
CN111950588A (zh) * 2020-07-03 2020-11-17 国网冀北电力有限公司 一种基于改进Adaboost算法的分布式电源孤岛检测方法
CN111950588B (zh) * 2020-07-03 2023-10-17 国网冀北电力有限公司 一种基于改进Adaboost算法的分布式电源孤岛检测方法
CN112308151A (zh) * 2020-11-03 2021-02-02 西安电子科技大学 基于加权的旋转森林高光谱图像分类方法
CN112836730A (zh) * 2021-01-20 2021-05-25 国家卫生健康委科学技术研究所 用于用户妊娠状态分类的方法、装置、电子设备及介质
CN112860959B (zh) * 2021-02-05 2021-11-05 哈尔滨工程大学 一种基于随机森林改进的实体解析方法
CN112860959A (zh) * 2021-02-05 2021-05-28 哈尔滨工程大学 一种基于随机森林改进的实体解析方法
CN116720145A (zh) * 2023-08-08 2023-09-08 山东神舟制冷设备有限公司 基于数据处理的无线充电剩余时间预测方法
CN116720145B (zh) * 2023-08-08 2023-10-27 山东神舟制冷设备有限公司 基于数据处理的无线充电剩余时间预测方法

Similar Documents

Publication Publication Date Title
CN105844300A (zh) 一种基于随机森林算法的优化分类方法及装置
Chen et al. An evolutionary multitasking-based feature selection method for high-dimensional classification
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN111400180B (zh) 一种基于特征集划分和集成学习的软件缺陷预测方法
CN110472817A (zh) 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
CN108363810A (zh) 一种文本分类方法及装置
CN110751121B (zh) 基于聚类与sofm的无监督雷达信号分选方法
CN109145960A (zh) 基于改进粒子群算法的数据特征选择方法及系统
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108345904A (zh) 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
CN114639441B (zh) 一种基于带权多粒度扫描的转录因子结合位点预测方法
Chakrabarty A regression approach to distribution and trend analysis of quarterly foreign tourist arrivals in India
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN106934410A (zh) 数据的分类方法及系统
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
De Melo Junior et al. An empirical comparison of classification algorithms for imbalanced credit scoring datasets
CN114881165A (zh) 一种基于随机森林的碳强度关键影响因子识别方法
Bader-El-Den Self-adaptive heterogeneous random forest
Kadziński et al. Learning the parameters of an outranking-based sorting model with characteristic class profiles from large sets of assignment examples
AU2019101197A4 (en) Method of analysis of bank customer churn based on random forest
CN107423580A (zh) 基于邻域粗糙集的宏基因组片段属性约简及分类方法
CN110009024A (zh) 一种基于id3算法的数据分类方法
CN105843971A (zh) 一种基于rlid3的增量集成学习的数据分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810