CN109697447A - 基于随机森林的分类模型构建装置、方法及电子设备 - Google Patents

基于随机森林的分类模型构建装置、方法及电子设备 Download PDF

Info

Publication number
CN109697447A
CN109697447A CN201710984161.2A CN201710984161A CN109697447A CN 109697447 A CN109697447 A CN 109697447A CN 201710984161 A CN201710984161 A CN 201710984161A CN 109697447 A CN109697447 A CN 109697447A
Authority
CN
China
Prior art keywords
feature
random forest
targeted species
species
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710984161.2A
Other languages
English (en)
Inventor
丁根明
田军
赵倩
谢莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710984161.2A priority Critical patent/CN109697447A/zh
Publication of CN109697447A publication Critical patent/CN109697447A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种基于随机森林的分类模型构建装置、方法及电子设备,通过利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。

Description

基于随机森林的分类模型构建装置、方法及电子设备
技术领域
本发明涉及信息技术领域,尤其涉及一种基于随机森林的分类模型构建装置、方法及电子设备。
背景技术
近年来,模式识别在各个领域应用广泛。模式识别包括人体动作识别、语音识别、指纹识别、人脸识别等。例如,人体动作识别在医疗健康、智能看护、动作捕捉等领域具有广泛的应用。人体动作识别可基于视频影像或基于集成了惯性传感单元(IMU,Inertialmeasurement unit)的可穿戴设备来进行特征提取,进一步利用分类模型进行动作类型的判别。
基于随机森林的分类模型是模式识别领域常用的分类模型之一。传统的基于随机森林的分类模型中树的数量较多,一般有几百棵,其识别精度也较高。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
发明人发现,虽然传统的基于随机森林的分类模型的识别精度较高,但是,对于利用例如可穿戴设备等电子设备进行例如人体动作识别等模式识别时,传统的基于随机森林的分类模型中树的个数及以及树的节点的数量较多,导致计算复杂度高、识别实时性差以及电子设备能耗较高等问题。
本发明实施例提供一种基于随机森林的分类模型构建装置、方法及电子设备,利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。
根据本发明实施例的第一方面,提供一种基于随机森林的分类模型构建装置,所述装置包括:提取单元,其用于根据采集数据提取特征,并确定特征总集合;确定单元,其用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,所述一组目标种类具有至少两个目标种类;第一选择单元,其用于对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;第二选择单元,其用于对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集;第三选择单元,其用于从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量,并确定所述最优切分变量的最优切分点。
根据本发明实施例的第二方面,提供一种电子设备,包括根据本发明实施例的第一方面所述的装置。
根据本发明实施例的第三方面,提供一种基于随机森林的分类模型构建方法,所述方法包括:根据采集数据提取特征,并确定特征总集合;确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,所述一组目标种类具有至少两个目标种类;对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集;从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量,并确定所述最优切分变量的最优切分点。
本发明的有益效果在于:通过利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例1的基于随机森林的分类模型构建装置的示意图;
图2是本发明实施例1的确定单元102的示意图;
图3是本发明实施例1的随机森林和参考随机森林的识别结果对比图;
图4是本发明实施例1的第一选择单元103的示意图;
图5是本发明实施例1的选择特征的方法示意图;
图6是本发明实施例2的电子设备的示意图;
图7是本发明实施例2的电子设备的系统构成的示意框图;
图8是本发明实施例3的基于随机森林的分类模型构建方法的示意图。
具体实施方式
参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
实施例1
本实施例提供一种基于随机森林的分类模型构建装置,图1是本发明实施例1的基于随机森林的分类模型构建装置的示意图。如图1所示,基于随机森林的分类模型构建装置100包括:
提取单元101,其用于根据采集数据提取特征,并确定特征总集合;
确定单元102,其用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,该一组目标种类具有至少两个目标种类;
第一选择单元103,其用于对于每一组目标种类,分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;
第二选择单元104,其用于对于该随机森林中的每一棵树的每个节点,从该选择特征集合和该特征总集合中选择出总数为预定数量的特征构成为该节点的随机特征集;
第三选择单元105,其用于从每个节点的该随机特征集中选择一个特征作为该节点的最优切分变量,并确定该最优切分变量的最优切分点。
由上述实施例可知,通过利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。
在本实施例中,该基于随机森林的分类模型构建装置构建出的分类模型可用于各种类型的模式识别。在本实例中,以人体动作识别为例进行示例性的说明。
在本实施例中,提取单元101用于根据采集数据提取特征,并确定特征总集合。
在本实施例中,待提取的特征可以根据需要识别的模式种类而确定。例如,将所有模式种类的集合设为Y={y1,y2,…,yN},N为大于1的整数。然后从采集数据中提取特征,提取出的所有特征构成的特征总集合为X={x1,x2,…,xM},M为大于1的整数。
例如,对于人体动作识别,需要识别的动作种类可以包括站、走、坐、躺、摔等。针对这些动作种类,分别进行测试并提取采集数据,然后从采集数据中提取特征。例如,提取的特征可以包括信号的频域、时域特征,例如频域幅值特性、时域峰值、均值、方差、积分等特征。
在本实施例中,提取单元101可以使用现有方法提取特征,例如,使用主成分分析(PCA,Principal component analysis)算法、线性判别分析(LDA,linear discriminantanalysis)算法以及信息增益等方法进行特征的提取。
在本实施例中,确定单元102用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,该一组目标种类具有至少两个目标种类。
在本实施例中,该随机森林中树的数量可以远小于传统的随机森林,该第一阈值可以根据实际需要而设置。例如,该第一阈值可以设置为5~10中的数值。
在本实施例中,以该随机森林具有5棵树为例进行说明。
在本实施例中,该目标种类可以是该随机森林相对于传统的随机森林识别准确率变化较大的种类。
以下对确定单元102的结构以及确定目标种类的方法进行示例性的说明。
图2是本发明实施例1的确定单元102的示意图。如图2所示,该确定单元102包括:
第一确定单元201,其用于根据该采集数据对树的数量小于或等于第一阈值的该随机森林进行训练与测试,确定该随机森林对于各个种类的识别准确率;
第二确定单元202,其用于根据该采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试,确定该参考随机森林对于各个种类的识别准确率,该第二阈值大于该第一阈值;
第三确定单元203,其用于比较该随机森林对于各个种类的识别准确率和该参考随机森林对于各个种类的识别准确率,根据比较结果确定树的数量小于该第一阈值的该随机森林的该至少一组目标种类。
在本实施例中,该参考随机森林可以是传统的随机森林,该第二阈值可以根据实际需要而设置。例如,该第二阈值为300~500的数值。
在本实施例中,以该参考随机森林具有500棵树为例进行说明。
在本实施例中,第一确定单元201和第二确定单元202根据该采集数据对该随机森林和该参考随机森林进行训练与测试的方法可以参考现有技术。例如,在进行训练时,在随机森林的每棵树的每个节点选择完预定数量的特征集及随机选择的训练样本后,根据基尼(Gini)系数来确定该特征集中的最优切分变量与最优切分点,当每棵树收敛或达到预设节点深度时则完成每棵树的训练,当所有预定数量的树完成训练时则构成整个随机森林模型。该模型训练完成后,根据测试样本进行识别精度测试,获取识别精度的混淆矩阵。
图3是本发明实施例1的随机森林和参考随机森林的识别结果对比图。如图3所示,左侧表格为具有5棵树的随机森林对于各个种类的识别准确率,右侧表格为具有500棵树的参考随机森林对于各个种类的识别准确率,纵轴表示实际的种类,横轴表示对于该实际种类的识别准确率。
在本实施例中,第三确定单元203用于比较该随机森林对于各个种类的识别准确率和该参考随机森林对于各个种类的识别准确率,根据比较结果确定树的数量小于该第一阈值的该随机森林的该至少一组目标种类。
例如,第三确定单元203可以根据该参考随机森林对于各个种类的识别准确率和该随机森林对于各个种类的识别准确率的差值或比值来确定该随机森林的该至少一组目标种类
例如,当该参考随机森林对于各个种类的识别准确率和该随机森林对于某个种类的识别准确率的差值或比值大于预定阈值时,将该种类确定为目标种类。例如,对于差值,该预定阈值可以是0.1,对于比值,该预定阈值可以是1.2。
在本实施例中,不对目标种类的数量进行限制,可以将所有满足该差值或比值大于预定阈值的种类作为目标种类。
在本实施例中,该目标种类一般是以具有至少两个目标种类的组的形式构成的,同一组中的各个目标种类是相关或相对的。
例如,如图3所示,该参考随机森林对于“上楼”和“下楼”的识别准确率和该随机森林对于“上楼”和“下楼”的识别准确率的差值分别为0.27和0.3,其均大于0.1,则将“上楼”和“下楼”这两个种类作为一组目标种类。
在本实施例中,在确定单元102确定了至少一组目标种类后,第一选择单元103用于对于每一组目标种类,分别在该特征总集合X={x1,x2,…,xM}中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合
在本实施例中,对于每一组目标种类,第一选择单元103可以在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的一个特征,也可以在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的多个特征
以下对第一选择单元103的结构以及选择特征的方法进行示例性的说明。
图4是本发明实施例1的第一选择单元103的示意图。如图4所示,该第一选择单元103包括:
第四选择单元401,其用于当对每一组目标种类分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的一个特征时,根据该特征总集合中各个特征的信息增益进行选择;
第五选择单元402,其用于当对每一组目标种类分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时,根据该特征总集合中各个特征之间的互信息增益进行选择。
在本实施例中,对每一组目标种类第四选择单元401例如可以根据以下的公式(1)选择一个特征:
其中,表示选择出的一个特征,表示的信息熵,表示特征xi对于的条件信息熵。
在本实施例中,对每一组目标种类第五选择单元402例如可以根据以下的公式(2)选择多个特征:
其中,表示选择出的多个特征的特征集,τ表示选择出的多个特征的数量,其取值范围可以为2~3,表示的信息熵,表示特征集对于的条件信息熵。
在本实施例中,第一选择单元103对于每一组目标种类分别选择出至少一个特征之后,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合
在本实施例中,在第一选择单元103确定了选择特征集合之后,第二选择单元104用于对于该随机森林中的每一棵树的每个节点,从该选择特征集合和该特征总集合X={x1,x2,…,xM}中选择出总数为预定数量的特征构成为该节点的随机特征集。
例如,该第二选择单元104对于该随机森林中的每一棵树的每个节点,
从该选择特征集合中无重复且不放回的随机选择特征,使得对于该随机森林中的同一颗树的所有节点,从该选择特征集合中选择的特征相同,且对于该随机森林的所有树,从该选择特征集合中选择的所有特征构成整个该选择特征集合;
从该特征总集合中去除从该选择特征集合中选择的该特征后的特征中随机选择特征,使得对于该节点选择的特征总数达到该预定数量K。
在本实施例中,该预定数量可以根据实际需要而设置。
图5是本发明实施例1的选择特征的方法示意图。如图5所示,该方法包括:
步骤501:j=1,j表示该随机森林中树的序号,1≤j≤γ,γ表示该随机森林中树的数量;
步骤502:i=1,i表示第j棵树的节点的序号,1≤i≤Q,Q表示该棵树上的节点数;
步骤503:从选择特征集合中无重复且不放回的随机选择μj个特征,使得满足以下条件:0≤μj≤β,μj≤K,β表示中的特征个数,K表示该预定数量,γ表示该随机森林中树的数量,j表示树的序号;
步骤504:从特征总集合中去除选择的该μj个特征后的特征中随机选择(K-μj)个特征,使得对于节点i,选择的特征总数达到该预定数量K,该K个特征构成该节点i的随机特征集;
步骤505:判断i是否小于γ;当判断结果为“是”时,进入步骤506,当判断结果为“否”时,进入步骤507;
步骤506:i=i+1;
步骤507:判断j是否小于γ;当判断结果为“是”时,进入步骤508,当判断结果为“否”时,结束进程;
步骤508:j=j+1。
在本实施例中,在第二选择单元104该随机森林的每一棵树的每个节点都选择出随机特征集之后,第三选择单元105用于从每个节点的该随机特征集中选择一个特征作为该节点的最优切分变量,并确定该最优切分变量的最优切分点。
在本实施例中,该第三选择单元105选择最优切分变量以及确定最优切分点可以参考现有技术。例如,计算各节点的所有选择的随机特征集中的各个特征的Gini系数,然后从所有特征中选择具有最小Gini系数的一个特征及对应的切分点作为该节点的最优切分变量与最优切分点。
在本实施例中,在第三选择单元105确定了每一棵树的每个节点的最优切分点之后,则建立了该基于随机森林的分类模型,然后可以使用现有的训练方法对该分类模型进行训练。
由上述实施例可知,通过利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。
实施例2
本发明实施例还提供了一种电子设备,图6是本发明实施例2的电子设备的示意图。如图6所示,电子设备600包括基于随机森林的分类模型构建装置601,其中,基于随机森林的分类模型构建装置601的结构和功能与实施例1中的记载相同,此处不再赘述。
图7是本发明实施例2的电子设备的系统构成的示意框图。如图7所示,电子设备700可以包括中央处理器701和存储器702;存储器702耦合到中央处理器701。该图是示例性的;还可以使用其它类型的结构,来补充或代替该结构,以实现电信功能或其它功能。
如图7所示,该电子设备700还可以包括:输入单元703、显示器704、电源705。
在一个实施方式中,实施例1所述的基于随机森林的分类模型构建装置的功能可以被集成到中央处理器701中。其中,中央处理器701可以被配置为:根据采集数据提取特征,并确定特征总集合;确定树的数量小于第一阈值的随机森林的至少一组目标种类,所述一组目标种类具有至少两个目标种类;对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集;从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量,并确定所述最优切分变量的最优切分点。
例如,所述确定树的数量小于第一阈值的随机森林的至少一组目标种类,包括:根据所述采集数据对树的数量小于或等于第一阈值的所述随机森林进行训练与测试,确定所述随机森林对于各个种类的识别准确率;根据所述采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试,确定所述参考随机森林对于各个种类的识别准确率,所述第二阈值大于所述第一阈值;比较所述随机森林对于各个种类的识别准确率和所述参考随机森林对于各个种类的识别准确率,根据比较结果确定树的数量小于第一阈值的所述随机森林的所述至少一组目标种类。
例如,所述对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,包括:当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的一个特征时,根据所述特征总集合中各个特征的信息增益进行选择;当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时,根据所述特征总集合中各个特征之间的互信息增益进行选择。
例如,所述对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集,包括:对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合中无重复且不放回的随机选择特征,使得对于所述随机森林中的同一颗树的所有节点,从所述选择特征集合中选择的特征相同,且对于所述随机森林的所有树,从所述选择特征集合中选择的所有特征构成整个所述选择特征集合;从所述特征总集合中去除从所述选择特征集合中选择的所述特征后的特征中随机选择特征,使得对于所述节点选择的特征总数达到所述预定数量。
在另一个实施方式中,实施例1所述的基于随机森林的分类模型构建装置可以与中央处理器701分开配置,例如可以将该基于随机森林的分类模型构建装置为与中央处理器701连接的芯片,通过中央处理器701的控制来实现该基于随机森林的分类模型构建装置的功能。
在本实施例中电子设备700也并不是必须要包括图7中所示的所有部件。
如图7所示,中央处理器701有时也称为控制器或操作控件,可以包括微处理器或其它处理器装置和/或逻辑装置,中央处理器701接收输入并控制电子设备700的各个部件的操作。
存储器702,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且中央处理器701可执行该存储器702存储的该程序,以实现信息存储或处理等。其它部件的功能与现有类似,此处不再赘述。电子设备700的各部件可以通过专用硬件、固件、软件或其结合来实现,而不偏离本发明的范围。
由上述实施例可知,通过利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。
实施例3
本发明实施例还提供一种基于随机森林的分类模型构建方法,其对应于实施例1的基于随机森林的分类模型构建装置。图8是本发明实施例3的基于随机森林的分类模型构建方法的示意图。如图8所示,该方法包括:
步骤801:根据采集数据提取特征,并确定特征总集合;
步骤802:确定树的数量小于第一阈值的随机森林的至少一组目标种类,该一组目标种类具有至少两个目标种类;
步骤803:对于每一组目标种类,分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;
步骤804:对于该随机森林中的每一棵树的每个节点,从该选择特征集合和该特征总集合中选择出总数为预定数量的特征构成为该节点的随机特征集;
步骤805:从每个节点的该随机特征集中选择一个特征作为该节点的最优切分变量,并确定该最优切分变量的最优切分点。
在本实施例中,上述各个步骤中的具体实现方法与实施例1中的记载相同,此处不再赘述。
由上述实施例可知,通过利用具有较少数量的树的随机森林构建分类模型,且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集,因此,能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度,从而能够在利用电子设备进行模式识别的情况下,在降低电子设备能耗的同时保证识别良好的识别效果。
本发明实施例还提供一种计算机可读程序,其中当在基于随机森林的分类模型构建装置或电子设备中执行所述程序时,所述程序使得计算机在所述基于随机森林的分类模型构建装置或电子设备中执行实施例3所述的基于随机森林的分类模型构建方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在基于随机森林的分类模型构建装置或电子设备中执行实施例3所述的基于随机森林的分类模型构建方法。
结合本发明实施例描述的在基于随机森林的分类模型构建装置或电子设备中执行基于随机森林的分类模型构建方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图1中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于图8所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中,也可以存储在可插入移动终端的存储卡中。例如,若设备(例如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。

Claims (9)

1.一种基于随机森林的分类模型构建装置,所述装置包括:
提取单元,其用于根据采集数据提取特征,并确定特征总集合;
确定单元,其用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,所述一组目标种类具有至少两个目标种类;
第一选择单元,其用于对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;
第二选择单元,其用于对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集;
第三选择单元,其用于从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量,并确定所述最优切分变量的最优切分点。
2.根据权利要求1所述的装置,其中,所述确定单元包括:
第一确定单元,其用于根据所述采集数据对树的数量小于或等于所述第一阈值的所述随机森林进行训练与测试,确定所述随机森林对于各个种类的识别准确率;
第二确定单元,其用于根据所述采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试,确定所述参考随机森林对于各个种类的识别准确率,所述第二阈值大于所述第一阈值;
第三确定单元,其用于比较所述随机森林对于各个种类的识别准确率和所述参考随机森林对于各个种类的识别准确率,根据比较结果确定树的数量小于所述第一阈值的所述随机森林的所述至少一组目标种类。
3.根据权利要求1所述的装置,其中,所述第一选择单元包括:
第四选择单元,其用于当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的一个特征时,根据所述特征总集合中各个特征的信息增益进行选择;
第五选择单元,其用于当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时,根据所述特征总集合中各个特征之间的互信息增益进行选择。
4.根据权利要求1所述的装置,其中,所述第二选择单元对于所述随机森林中的每一棵树的每个节点,
从所述选择特征集合中无重复且不放回的随机选择特征,使得对于所述随机森林中的同一颗树的所有节点,从所述选择特征集合中选择的特征相同,且对于所述随机森林的所有树,从所述选择特征集合中选择的所有特征构成整个所述选择特征集合;
从所述特征总集合中去除从所述选择特征集合中选择的所述特征后的特征中随机选择特征,使得对于所述节点选择的特征总数达到所述预定数量。
5.一种电子设备,包括根据权利要求1-4中的任一项所述的装置。
6.一种基于随机森林的分类模型构建方法,所述方法包括:
根据采集数据提取特征,并确定特征总集合;
确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,所述一组目标种类具有至少两个目标种类;
对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,将对于所有组目标种类选择出的所有特征的并集作为选择特征集合;
对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集;
从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量,并确定所述最优切分变量的最优切分点。
7.根据权利要求6所述的方法,其中,所述确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类,包括:
根据所述采集数据对树的数量小于或等于所述第一阈值的所述随机森林进行训练与测试,确定所述随机森林对于各个种类的识别准确率;
根据所述采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试,确定所述参考随机森林对于各个种类的识别准确率,所述第二阈值大于所述第一阈值;
比较所述随机森林对于各个种类的识别准确率和所述参考随机森林对于各个种类的识别准确率,根据比较结果确定树的数量小于所述第一阈值的所述随机森林的所述至少一组目标种类。
8.根据权利要求6所述的方法,其中,所述对于每一组目标种类,分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征,包括:
当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的一个特征时,根据所述特征总集合中各个特征的信息增益进行选择;
当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时,根据所述特征总集合中各个特征之间的互信息增益进行选择。
9.根据权利要求6所述的方法,其中,所述对于所述随机森林中的每一棵树的每个节点,从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集,包括:
对于所述随机森林中的每一棵树的每个节点,
从所述选择特征集合中无重复且不放回的随机选择特征,使得对于所述随机森林中的同一颗树的所有节点,从所述选择特征集合中选择的特征相同,且对于所述随机森林的所有树,从所述选择特征集合中选择的所有特征构成整个所述选择特征集合;
从所述特征总集合中去除从所述选择特征集合中选择的所述特征后的特征中随机选择特征,使得对于所述节点选择的特征总数达到所述预定数量。
CN201710984161.2A 2017-10-20 2017-10-20 基于随机森林的分类模型构建装置、方法及电子设备 Pending CN109697447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710984161.2A CN109697447A (zh) 2017-10-20 2017-10-20 基于随机森林的分类模型构建装置、方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710984161.2A CN109697447A (zh) 2017-10-20 2017-10-20 基于随机森林的分类模型构建装置、方法及电子设备

Publications (1)

Publication Number Publication Date
CN109697447A true CN109697447A (zh) 2019-04-30

Family

ID=66226424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710984161.2A Pending CN109697447A (zh) 2017-10-20 2017-10-20 基于随机森林的分类模型构建装置、方法及电子设备

Country Status (1)

Country Link
CN (1) CN109697447A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110344824A (zh) * 2019-06-25 2019-10-18 中国矿业大学(北京) 一种基于随机森林回归的声波曲线生成方法
CN110390400A (zh) * 2019-07-02 2019-10-29 北京三快在线科技有限公司 计算模型的特征生成方法、装置、电子设备和存储介质
CN111047215A (zh) * 2019-12-09 2020-04-21 中国兵器科学研究院 基于随机森林的现场可更换单元划分类别确定方法
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219209A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Image Labeling with Global Parameters
CN103400391A (zh) * 2013-08-09 2013-11-20 北京博思廷科技有限公司 一种基于改进的随机森林的多目标跟踪方法及装置
US20130346346A1 (en) * 2012-06-21 2013-12-26 Microsoft Corporation Semi-supervised random decision forests for machine learning
US20140147874A1 (en) * 2011-03-04 2014-05-29 The Johns Hopkins University Biomarkers of cardiac ischemia
US9235278B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Machine-learning based tap detection
CN105447504A (zh) * 2015-11-06 2016-03-30 中国科学院计算技术研究所 一种交通模式行为识别方法及相应的识别模型构建方法
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
CN106197424A (zh) * 2016-06-28 2016-12-07 哈尔滨工业大学 遥测数据驱动的无人机飞行状态识别方法
CN106570537A (zh) * 2016-11-17 2017-04-19 天津大学 一种基于混淆矩阵的随机森林模型选择方法
US20170147941A1 (en) * 2015-11-23 2017-05-25 Alexander Bauer Subspace projection of multi-dimensional unsupervised machine learning models
CN106846361A (zh) * 2016-12-16 2017-06-13 深圳大学 基于直觉模糊随机森林的目标跟踪方法及装置
CN106897670A (zh) * 2017-01-19 2017-06-27 南京邮电大学 一种基于计算机视觉的快递暴力分拣识别方法
CN106980929A (zh) * 2017-01-05 2017-07-25 国网福建省电力有限公司 一种基于随机森林的停电投诉风险预测方法
CN107016233A (zh) * 2017-03-14 2017-08-04 中国科学院计算技术研究所 运动行为和认知能力的关联分析方法及系统
CN107169572A (zh) * 2016-12-23 2017-09-15 福州大学 一种基于Mahout的机器学习服务组装方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219209A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Image Labeling with Global Parameters
US20140147874A1 (en) * 2011-03-04 2014-05-29 The Johns Hopkins University Biomarkers of cardiac ischemia
US20130346346A1 (en) * 2012-06-21 2013-12-26 Microsoft Corporation Semi-supervised random decision forests for machine learning
CN103400391A (zh) * 2013-08-09 2013-11-20 北京博思廷科技有限公司 一种基于改进的随机森林的多目标跟踪方法及装置
US9235278B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Machine-learning based tap detection
CN105447504A (zh) * 2015-11-06 2016-03-30 中国科学院计算技术研究所 一种交通模式行为识别方法及相应的识别模型构建方法
US20170147941A1 (en) * 2015-11-23 2017-05-25 Alexander Bauer Subspace projection of multi-dimensional unsupervised machine learning models
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
CN106197424A (zh) * 2016-06-28 2016-12-07 哈尔滨工业大学 遥测数据驱动的无人机飞行状态识别方法
CN106570537A (zh) * 2016-11-17 2017-04-19 天津大学 一种基于混淆矩阵的随机森林模型选择方法
CN106846361A (zh) * 2016-12-16 2017-06-13 深圳大学 基于直觉模糊随机森林的目标跟踪方法及装置
CN107169572A (zh) * 2016-12-23 2017-09-15 福州大学 一种基于Mahout的机器学习服务组装方法
CN106980929A (zh) * 2017-01-05 2017-07-25 国网福建省电力有限公司 一种基于随机森林的停电投诉风险预测方法
CN106897670A (zh) * 2017-01-19 2017-06-27 南京邮电大学 一种基于计算机视觉的快递暴力分拣识别方法
CN107016233A (zh) * 2017-03-14 2017-08-04 中国科学院计算技术研究所 运动行为和认知能力的关联分析方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴清;刘森镇;黄向生;韩磊;郭天楚;王梦伟;: "基于散斑的三维体感交互系统", 计算机辅助设计与图形学学报, no. 07 *
王杰;程学新;彭金柱;: "一种基于粒子群算法优化的加权随机森林模型", 郑州大学学报(理学版), no. 01 *
石礼娟;卢军;: "基于随机森林的玉米发育程度自动测量方法", 农业机械学报, no. 01 *
郭天楚;吴晓雨;杨磊;黄向生;: "基于改进的随机森林的人体部件识别", 中国传媒大学学报(自然科学版), no. 05 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110344824A (zh) * 2019-06-25 2019-10-18 中国矿业大学(北京) 一种基于随机森林回归的声波曲线生成方法
CN110390400A (zh) * 2019-07-02 2019-10-29 北京三快在线科技有限公司 计算模型的特征生成方法、装置、电子设备和存储介质
CN110390400B (zh) * 2019-07-02 2023-07-14 北京三快在线科技有限公司 计算模型的特征生成方法、装置、电子设备和存储介质
CN111047215A (zh) * 2019-12-09 2020-04-21 中国兵器科学研究院 基于随机森林的现场可更换单元划分类别确定方法
CN111047215B (zh) * 2019-12-09 2023-06-23 中国兵器科学研究院 基于随机森林的现场可更换单元划分类别确定方法
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置

Similar Documents

Publication Publication Date Title
CN109697447A (zh) 基于随机森林的分类模型构建装置、方法及电子设备
WO2021051579A1 (zh) 形体姿态识别方法、系统、装置及存储介质
CN108053838A (zh) 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN109117744A (zh) 一种用于人脸验证的孪生神经网络训练方法
CN110197720A (zh) 糖尿病的预测方法及装置、存储介质、计算机设备
CN109460825A (zh) 用于构建机器学习模型的特征选取方法、装置以及设备
Koehl et al. Landmark-free geometric methods in biological shape analysis
KR20180064863A (ko) 딥러닝을 이용한 수완부 방사선 영상으로부터 골 성숙도(smi) 자동 분석방법
CN106528655A (zh) 文本主题识别方法和装置
CN108288015A (zh) 基于时间尺度不变性的视频中人体动作识别方法及系统
CN108304887A (zh) 基于少数类样本合成的朴素贝叶斯数据处理系统及方法
CN106529110A (zh) 一种用户数据分类的方法和设备
CN111785366A (zh) 患者治疗方案的确定方法、装置及计算机设备
CN108937407A (zh) 一种智能镜子化妆指导方法及系统
CN109472274A (zh) 深度学习分类模型的训练装置和方法
Kusmakar et al. Machine learning enabled team performance analysis in the dynamical environment of soccer
CN109460792A (zh) 一种基于图像识别的人工智能模型训练方法及装置
Wolfhagen et al. A probabilistic model for distinguishing between sheep and goat postcranial remains
Chen et al. Patient emotion recognition in human computer interaction system based on machine learning method and interactive design theory
CN109598275A (zh) 特征选择装置、方法及电子设备
Gavhale et al. Identification of medicinal plant using Machine learning approach
CN108564067A (zh) 人脸比对的阈值确定方法及系统
CN109800733A (zh) 数据处理方法及装置、电子设备
CN109754854A (zh) 一种诊断编码和诊断名称匹配的方法和系统
Huber et al. Standardization and validation of the visual evaluation of biocrystallizations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240621