CN109697447A

CN109697447A - 基于随机森林的分类模型构建装置、方法及电子设备

Info

Publication number: CN109697447A
Application number: CN201710984161.2A
Authority: CN
Inventors: 丁根明; 田军; 赵倩; 谢莉莉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2019-04-30

Abstract

本发明实施例提供一种基于随机森林的分类模型构建装置、方法及电子设备，通过利用具有较少数量的树的随机森林构建分类模型，且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集，因此，能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度，从而能够在利用电子设备进行模式识别的情况下，在降低电子设备能耗的同时保证识别良好的识别效果。

Description

基于随机森林的分类模型构建装置、方法及电子设备

技术领域

本发明涉及信息技术领域，尤其涉及一种基于随机森林的分类模型构建装置、方法及电子设备。

背景技术

近年来，模式识别在各个领域应用广泛。模式识别包括人体动作识别、语音识别、指纹识别、人脸识别等。例如，人体动作识别在医疗健康、智能看护、动作捕捉等领域具有广泛的应用。人体动作识别可基于视频影像或基于集成了惯性传感单元(IMU，Inertialmeasurement unit)的可穿戴设备来进行特征提取，进一步利用分类模型进行动作类型的判别。

基于随机森林的分类模型是模式识别领域常用的分类模型之一。传统的基于随机森林的分类模型中树的数量较多，一般有几百棵，其识别精度也较高。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

发明人发现，虽然传统的基于随机森林的分类模型的识别精度较高，但是，对于利用例如可穿戴设备等电子设备进行例如人体动作识别等模式识别时，传统的基于随机森林的分类模型中树的个数及以及树的节点的数量较多，导致计算复杂度高、识别实时性差以及电子设备能耗较高等问题。

本发明实施例提供一种基于随机森林的分类模型构建装置、方法及电子设备，利用具有较少数量的树的随机森林构建分类模型，且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集，因此，能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度，从而能够在利用电子设备进行模式识别的情况下，在降低电子设备能耗的同时保证识别良好的识别效果。

根据本发明实施例的第一方面，提供一种基于随机森林的分类模型构建装置，所述装置包括：提取单元，其用于根据采集数据提取特征，并确定特征总集合；确定单元，其用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，所述一组目标种类具有至少两个目标种类；第一选择单元，其用于对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；第二选择单元，其用于对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集；第三选择单元，其用于从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量，并确定所述最优切分变量的最优切分点。

根据本发明实施例的第二方面，提供一种电子设备，包括根据本发明实施例的第一方面所述的装置。

根据本发明实施例的第三方面，提供一种基于随机森林的分类模型构建方法，所述方法包括：根据采集数据提取特征，并确定特征总集合；确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，所述一组目标种类具有至少两个目标种类；对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集；从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量，并确定所述最优切分变量的最优切分点。

本发明的有益效果在于：通过利用具有较少数量的树的随机森林构建分类模型，且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集，因此，能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度，从而能够在利用电子设备进行模式识别的情况下，在降低电子设备能耗的同时保证识别良好的识别效果。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例1的基于随机森林的分类模型构建装置的示意图；

图2是本发明实施例1的确定单元102的示意图；

图3是本发明实施例1的随机森林和参考随机森林的识别结果对比图；

图4是本发明实施例1的第一选择单元103的示意图；

图5是本发明实施例1的选择特征的方法示意图；

图6是本发明实施例2的电子设备的示意图；

图7是本发明实施例2的电子设备的系统构成的示意框图；

图8是本发明实施例3的基于随机森林的分类模型构建方法的示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

本实施例提供一种基于随机森林的分类模型构建装置，图1是本发明实施例1的基于随机森林的分类模型构建装置的示意图。如图1所示，基于随机森林的分类模型构建装置100包括：

提取单元101，其用于根据采集数据提取特征，并确定特征总集合；

确定单元102，其用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，该一组目标种类具有至少两个目标种类；

第一选择单元103，其用于对于每一组目标种类，分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；

第二选择单元104，其用于对于该随机森林中的每一棵树的每个节点，从该选择特征集合和该特征总集合中选择出总数为预定数量的特征构成为该节点的随机特征集；

第三选择单元105，其用于从每个节点的该随机特征集中选择一个特征作为该节点的最优切分变量，并确定该最优切分变量的最优切分点。

由上述实施例可知，通过利用具有较少数量的树的随机森林构建分类模型，且根据该随机森林的至少一组目标种类选择特征来构成该随机森林中树的各个节点的随机特征集，因此，能够在降低分类模型的复杂度以及计算量的同时具有较好的识别精度，从而能够在利用电子设备进行模式识别的情况下，在降低电子设备能耗的同时保证识别良好的识别效果。

在本实施例中，该基于随机森林的分类模型构建装置构建出的分类模型可用于各种类型的模式识别。在本实例中，以人体动作识别为例进行示例性的说明。

在本实施例中，提取单元101用于根据采集数据提取特征，并确定特征总集合。

在本实施例中，待提取的特征可以根据需要识别的模式种类而确定。例如，将所有模式种类的集合设为Y＝{y₁,y₂,…,y_N}，N为大于1的整数。然后从采集数据中提取特征，提取出的所有特征构成的特征总集合为X＝{x₁,x₂,…,x_M}，M为大于1的整数。

例如，对于人体动作识别，需要识别的动作种类可以包括站、走、坐、躺、摔等。针对这些动作种类，分别进行测试并提取采集数据，然后从采集数据中提取特征。例如，提取的特征可以包括信号的频域、时域特征，例如频域幅值特性、时域峰值、均值、方差、积分等特征。

在本实施例中，提取单元101可以使用现有方法提取特征，例如，使用主成分分析(PCA，Principal component analysis)算法、线性判别分析(LDA，linear discriminantanalysis)算法以及信息增益等方法进行特征的提取。

在本实施例中，确定单元102用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，该一组目标种类具有至少两个目标种类。

在本实施例中，该随机森林中树的数量可以远小于传统的随机森林，该第一阈值可以根据实际需要而设置。例如，该第一阈值可以设置为5～10中的数值。

在本实施例中，以该随机森林具有5棵树为例进行说明。

在本实施例中，该目标种类可以是该随机森林相对于传统的随机森林识别准确率变化较大的种类。

以下对确定单元102的结构以及确定目标种类的方法进行示例性的说明。

图2是本发明实施例1的确定单元102的示意图。如图2所示，该确定单元102包括：

第一确定单元201，其用于根据该采集数据对树的数量小于或等于第一阈值的该随机森林进行训练与测试，确定该随机森林对于各个种类的识别准确率；

第二确定单元202，其用于根据该采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试，确定该参考随机森林对于各个种类的识别准确率，该第二阈值大于该第一阈值；

第三确定单元203，其用于比较该随机森林对于各个种类的识别准确率和该参考随机森林对于各个种类的识别准确率，根据比较结果确定树的数量小于该第一阈值的该随机森林的该至少一组目标种类。

在本实施例中，该参考随机森林可以是传统的随机森林，该第二阈值可以根据实际需要而设置。例如，该第二阈值为300～500的数值。

在本实施例中，以该参考随机森林具有500棵树为例进行说明。

在本实施例中，第一确定单元201和第二确定单元202根据该采集数据对该随机森林和该参考随机森林进行训练与测试的方法可以参考现有技术。例如，在进行训练时，在随机森林的每棵树的每个节点选择完预定数量的特征集及随机选择的训练样本后，根据基尼(Gini)系数来确定该特征集中的最优切分变量与最优切分点，当每棵树收敛或达到预设节点深度时则完成每棵树的训练，当所有预定数量的树完成训练时则构成整个随机森林模型。该模型训练完成后，根据测试样本进行识别精度测试，获取识别精度的混淆矩阵。

图3是本发明实施例1的随机森林和参考随机森林的识别结果对比图。如图3所示，左侧表格为具有5棵树的随机森林对于各个种类的识别准确率，右侧表格为具有500棵树的参考随机森林对于各个种类的识别准确率，纵轴表示实际的种类，横轴表示对于该实际种类的识别准确率。

在本实施例中，第三确定单元203用于比较该随机森林对于各个种类的识别准确率和该参考随机森林对于各个种类的识别准确率，根据比较结果确定树的数量小于该第一阈值的该随机森林的该至少一组目标种类。

例如，第三确定单元203可以根据该参考随机森林对于各个种类的识别准确率和该随机森林对于各个种类的识别准确率的差值或比值来确定该随机森林的该至少一组目标种类

例如，当该参考随机森林对于各个种类的识别准确率和该随机森林对于某个种类的识别准确率的差值或比值大于预定阈值时，将该种类确定为目标种类。例如，对于差值，该预定阈值可以是0.1，对于比值，该预定阈值可以是1.2。

在本实施例中，不对目标种类的数量进行限制，可以将所有满足该差值或比值大于预定阈值的种类作为目标种类。

在本实施例中，该目标种类一般是以具有至少两个目标种类的组的形式构成的，同一组中的各个目标种类是相关或相对的。

例如，如图3所示，该参考随机森林对于“上楼”和“下楼”的识别准确率和该随机森林对于“上楼”和“下楼”的识别准确率的差值分别为0.27和0.3，其均大于0.1，则将“上楼”和“下楼”这两个种类作为一组目标种类。

在本实施例中，在确定单元102确定了至少一组目标种类后，第一选择单元103用于对于每一组目标种类，分别在该特征总集合X＝{x₁,x₂,…,x_M}中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合

在本实施例中，对于每一组目标种类，第一选择单元103可以在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的一个特征，也可以在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的多个特征

以下对第一选择单元103的结构以及选择特征的方法进行示例性的说明。

图4是本发明实施例1的第一选择单元103的示意图。如图4所示，该第一选择单元103包括：

第四选择单元401，其用于当对每一组目标种类分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的一个特征时，根据该特征总集合中各个特征的信息增益进行选择；

第五选择单元402，其用于当对每一组目标种类分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时，根据该特征总集合中各个特征之间的互信息增益进行选择。

在本实施例中，对每一组目标种类第四选择单元401例如可以根据以下的公式(1)选择一个特征：

其中，表示选择出的一个特征，表示的信息熵，表示特征x_i对于的条件信息熵。

在本实施例中，对每一组目标种类第五选择单元402例如可以根据以下的公式(2)选择多个特征：

其中，表示选择出的多个特征的特征集，τ表示选择出的多个特征的数量，其取值范围可以为2～3，表示的信息熵，表示特征集对于的条件信息熵。

在本实施例中，第一选择单元103对于每一组目标种类分别选择出至少一个特征之后，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合

在本实施例中，在第一选择单元103确定了选择特征集合之后，第二选择单元104用于对于该随机森林中的每一棵树的每个节点，从该选择特征集合和该特征总集合X＝{x₁,x₂,…,x_M}中选择出总数为预定数量的特征构成为该节点的随机特征集。

例如，该第二选择单元104对于该随机森林中的每一棵树的每个节点，

从该选择特征集合中无重复且不放回的随机选择特征，使得对于该随机森林中的同一颗树的所有节点，从该选择特征集合中选择的特征相同，且对于该随机森林的所有树，从该选择特征集合中选择的所有特征构成整个该选择特征集合；

从该特征总集合中去除从该选择特征集合中选择的该特征后的特征中随机选择特征，使得对于该节点选择的特征总数达到该预定数量K。

在本实施例中，该预定数量可以根据实际需要而设置。

图5是本发明实施例1的选择特征的方法示意图。如图5所示，该方法包括：

步骤501：j＝1，j表示该随机森林中树的序号，1≤j≤γ，γ表示该随机森林中树的数量；

步骤502：i＝1，i表示第j棵树的节点的序号，1≤i≤Q，Q表示该棵树上的节点数；

步骤503：从选择特征集合中无重复且不放回的随机选择μ_j个特征，使得满足以下条件：0≤μ_j≤β，μ_j≤K，β表示中的特征个数，K表示该预定数量，γ表示该随机森林中树的数量，j表示树的序号；

步骤504：从特征总集合中去除选择的该μ_j个特征后的特征中随机选择(K-μ_j)个特征，使得对于节点i，选择的特征总数达到该预定数量K，该K个特征构成该节点i的随机特征集；

步骤505：判断i是否小于γ；当判断结果为“是”时，进入步骤506，当判断结果为“否”时，进入步骤507；

步骤506：i＝i+1；

步骤507：判断j是否小于γ；当判断结果为“是”时，进入步骤508，当判断结果为“否”时，结束进程；

步骤508：j＝j+1。

在本实施例中，在第二选择单元104该随机森林的每一棵树的每个节点都选择出随机特征集之后，第三选择单元105用于从每个节点的该随机特征集中选择一个特征作为该节点的最优切分变量，并确定该最优切分变量的最优切分点。

在本实施例中，该第三选择单元105选择最优切分变量以及确定最优切分点可以参考现有技术。例如，计算各节点的所有选择的随机特征集中的各个特征的Gini系数，然后从所有特征中选择具有最小Gini系数的一个特征及对应的切分点作为该节点的最优切分变量与最优切分点。

在本实施例中，在第三选择单元105确定了每一棵树的每个节点的最优切分点之后，则建立了该基于随机森林的分类模型，然后可以使用现有的训练方法对该分类模型进行训练。

实施例2

本发明实施例还提供了一种电子设备，图6是本发明实施例2的电子设备的示意图。如图6所示，电子设备600包括基于随机森林的分类模型构建装置601，其中，基于随机森林的分类模型构建装置601的结构和功能与实施例1中的记载相同，此处不再赘述。

图7是本发明实施例2的电子设备的系统构成的示意框图。如图7所示，电子设备700可以包括中央处理器701和存储器702；存储器702耦合到中央处理器701。该图是示例性的；还可以使用其它类型的结构，来补充或代替该结构，以实现电信功能或其它功能。

如图7所示，该电子设备700还可以包括：输入单元703、显示器704、电源705。

在一个实施方式中，实施例1所述的基于随机森林的分类模型构建装置的功能可以被集成到中央处理器701中。其中，中央处理器701可以被配置为：根据采集数据提取特征，并确定特征总集合；确定树的数量小于第一阈值的随机森林的至少一组目标种类，所述一组目标种类具有至少两个目标种类；对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集；从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量，并确定所述最优切分变量的最优切分点。

例如，所述确定树的数量小于第一阈值的随机森林的至少一组目标种类，包括：根据所述采集数据对树的数量小于或等于第一阈值的所述随机森林进行训练与测试，确定所述随机森林对于各个种类的识别准确率；根据所述采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试，确定所述参考随机森林对于各个种类的识别准确率，所述第二阈值大于所述第一阈值；比较所述随机森林对于各个种类的识别准确率和所述参考随机森林对于各个种类的识别准确率，根据比较结果确定树的数量小于第一阈值的所述随机森林的所述至少一组目标种类。

例如，所述对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，包括：当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的一个特征时，根据所述特征总集合中各个特征的信息增益进行选择；当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时，根据所述特征总集合中各个特征之间的互信息增益进行选择。

例如，所述对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集，包括：对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合中无重复且不放回的随机选择特征，使得对于所述随机森林中的同一颗树的所有节点，从所述选择特征集合中选择的特征相同，且对于所述随机森林的所有树，从所述选择特征集合中选择的所有特征构成整个所述选择特征集合；从所述特征总集合中去除从所述选择特征集合中选择的所述特征后的特征中随机选择特征，使得对于所述节点选择的特征总数达到所述预定数量。

在另一个实施方式中，实施例1所述的基于随机森林的分类模型构建装置可以与中央处理器701分开配置，例如可以将该基于随机森林的分类模型构建装置为与中央处理器701连接的芯片，通过中央处理器701的控制来实现该基于随机森林的分类模型构建装置的功能。

在本实施例中电子设备700也并不是必须要包括图7中所示的所有部件。

如图7所示，中央处理器701有时也称为控制器或操作控件，可以包括微处理器或其它处理器装置和/或逻辑装置，中央处理器701接收输入并控制电子设备700的各个部件的操作。

存储器702，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且中央处理器701可执行该存储器702存储的该程序，以实现信息存储或处理等。其它部件的功能与现有类似，此处不再赘述。电子设备700的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例3

本发明实施例还提供一种基于随机森林的分类模型构建方法，其对应于实施例1的基于随机森林的分类模型构建装置。图8是本发明实施例3的基于随机森林的分类模型构建方法的示意图。如图8所示，该方法包括：

步骤801：根据采集数据提取特征，并确定特征总集合；

步骤802：确定树的数量小于第一阈值的随机森林的至少一组目标种类，该一组目标种类具有至少两个目标种类；

步骤803：对于每一组目标种类，分别在该特征总集合中选择使得该一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；

步骤804：对于该随机森林中的每一棵树的每个节点，从该选择特征集合和该特征总集合中选择出总数为预定数量的特征构成为该节点的随机特征集；

步骤805：从每个节点的该随机特征集中选择一个特征作为该节点的最优切分变量，并确定该最优切分变量的最优切分点。

在本实施例中，上述各个步骤中的具体实现方法与实施例1中的记载相同，此处不再赘述。

本发明实施例还提供一种计算机可读程序，其中当在基于随机森林的分类模型构建装置或电子设备中执行所述程序时，所述程序使得计算机在所述基于随机森林的分类模型构建装置或电子设备中执行实施例3所述的基于随机森林的分类模型构建方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在基于随机森林的分类模型构建装置或电子设备中执行实施例3所述的基于随机森林的分类模型构建方法。

结合本发明实施例描述的在基于随机森林的分类模型构建装置或电子设备中执行基于随机森林的分类模型构建方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图1中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图8所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(例如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

Claims

1.一种基于随机森林的分类模型构建装置，所述装置包括：

提取单元，其用于根据采集数据提取特征，并确定特征总集合；

确定单元，其用于确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，所述一组目标种类具有至少两个目标种类；

第一选择单元，其用于对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；

第二选择单元，其用于对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集；

第三选择单元，其用于从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量，并确定所述最优切分变量的最优切分点。

2.根据权利要求1所述的装置，其中，所述确定单元包括：

第一确定单元，其用于根据所述采集数据对树的数量小于或等于所述第一阈值的所述随机森林进行训练与测试，确定所述随机森林对于各个种类的识别准确率；

第二确定单元，其用于根据所述采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试，确定所述参考随机森林对于各个种类的识别准确率，所述第二阈值大于所述第一阈值；

第三确定单元，其用于比较所述随机森林对于各个种类的识别准确率和所述参考随机森林对于各个种类的识别准确率，根据比较结果确定树的数量小于所述第一阈值的所述随机森林的所述至少一组目标种类。

3.根据权利要求1所述的装置，其中，所述第一选择单元包括：

第四选择单元，其用于当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的一个特征时，根据所述特征总集合中各个特征的信息增益进行选择；

第五选择单元，其用于当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时，根据所述特征总集合中各个特征之间的互信息增益进行选择。

4.根据权利要求1所述的装置，其中，所述第二选择单元对于所述随机森林中的每一棵树的每个节点，

从所述选择特征集合中无重复且不放回的随机选择特征，使得对于所述随机森林中的同一颗树的所有节点，从所述选择特征集合中选择的特征相同，且对于所述随机森林的所有树，从所述选择特征集合中选择的所有特征构成整个所述选择特征集合；

从所述特征总集合中去除从所述选择特征集合中选择的所述特征后的特征中随机选择特征，使得对于所述节点选择的特征总数达到所述预定数量。

5.一种电子设备，包括根据权利要求1-4中的任一项所述的装置。

6.一种基于随机森林的分类模型构建方法，所述方法包括：

根据采集数据提取特征，并确定特征总集合；

确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，所述一组目标种类具有至少两个目标种类；

对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，将对于所有组目标种类选择出的所有特征的并集作为选择特征集合；

对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集；

从每个节点的所述随机特征集中选择一个特征作为所述节点的最优切分变量，并确定所述最优切分变量的最优切分点。

7.根据权利要求6所述的方法，其中，所述确定树的数量小于或等于第一阈值的随机森林的至少一组目标种类，包括：

根据所述采集数据对树的数量小于或等于所述第一阈值的所述随机森林进行训练与测试，确定所述随机森林对于各个种类的识别准确率；

根据所述采集数据对树的数量大于或等于第二阈值的参考随机森林进行训练与测试，确定所述参考随机森林对于各个种类的识别准确率，所述第二阈值大于所述第一阈值；

比较所述随机森林对于各个种类的识别准确率和所述参考随机森林对于各个种类的识别准确率，根据比较结果确定树的数量小于所述第一阈值的所述随机森林的所述至少一组目标种类。

8.根据权利要求6所述的方法，其中，所述对于每一组目标种类，分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少一个特征，包括：

当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的一个特征时，根据所述特征总集合中各个特征的信息增益进行选择；

当对每一组目标种类分别在所述特征总集合中选择使得所述一组目标种类中的各个目标种类的区分能力最大化的至少两个特征时，根据所述特征总集合中各个特征之间的互信息增益进行选择。

9.根据权利要求6所述的方法，其中，所述对于所述随机森林中的每一棵树的每个节点，从所述选择特征集合和所述特征总集合中选择出总数为预定数量的特征构成为所述节点的随机特征集，包括：

对于所述随机森林中的每一棵树的每个节点，