CN103902591B

CN103902591B - 构建决策树分类器的方法及装置

Info

Publication number: CN103902591B
Application number: CN201210580719.8A
Authority: CN
Inventors: 范成林; 黄哲学; 陈小军
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2019-04-23
Anticipated expiration: 2032-12-27
Also published as: CN103902591A

Abstract

本发明涉及一种构建决策树分类器的方法，包括：获取样本数据；构建包含多个子决策树的随机森林分类器；获取所述多个子决策树的节点的分裂属性的出现频率，根据所述出现频率将所述多个子决策树合并成主决策树，且所述主决策树的叶节点对应类标集和叶属性类标签，所述叶属性标签为所述类标集中出现频率最高的类标签；根据所述叶属性类标签合并所述主决策树的叶节点；根据所述主决策树生成决策树分类器。此外，还包括一种构建决策树分类器的装置。上述构建决策树分类器的方法及装置可以提高分类速度。

Description

构建决策树分类器的方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种构建决策树分类器的方法及装置。

背景技术

现有的数据挖掘技术中，需要通过样本数据预先构建分类器，然后通过分类器对抓取的数据进行分类分析。例如，在搜索引擎中的分类器可根据用户输入的关键字实时地获取到该关键字对应的类标签。

现有技术的分类器包括决策树分类器。决策树是一个树状的预测模型，用来根据输入样本的属性值预测其对应的目标变量。树中每个节点代表某个输入变量，而每个分叉路径则代表该变量某个可能的取值范围。每个叶结点则表示给定从根节点到该叶节点所代表的样本对应的目标变量。

现有技术的决策树分类器通常为随机森林分类器。随机森林分类器由多个子决策树分类器构成。对于一个待分类的数据，随机森林分类器通过综合所有子决策树分类器的输出，以投票选举(voting)的方式决定数据的最终类别。

然而，传统技术中的基于决策树模型的随机森林分类器由于需要遍历所有的子决策树，因此分类速度较慢。

发明内容

基于此，有必要提供一种能提高分类速度的构建决策树分类器的方法。

一种构建决策树分类器的方法，包括：

获取样本数据；

构建包含多个子决策树的随机森林分类器；

获取所述多个子决策树的节点的分裂属性的出现频率，根据所述出现频率将所述多个子决策树合并成主决策树，且所述主决策树的叶节点对应类标集和叶属性类标签，所述叶属性标签为所述类标集中出现频率最高的类标签；

根据所述叶属性类标签合并所述主决策树的叶节点；

根据所述主决策树生成决策树分类器。

在其中一个实施例中，所述获取所述多个子决策树的节点的分类属性的出现频率，根据所述出现频率将所述多个子决策树合并成主决策树的步骤包括：

获取所述多个子决策树的根节点的分裂属性；

获取所述根节点的分裂属性的出现频率；

根据所述出现频率最大的分裂属性生成所述主决策树的目标分支节点。

在其中一个实施例中，所述根据所述出现频率最大的分裂属性生成所述主决策树的目标分支节点的步骤之后还包括：

判断所述目标分支节点的分裂属性是否为数值属性，若是，则获取所述多个子决策树的根节点中分裂属性为数值属性的节点的分裂值，并根据所述分裂值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为数值属性的节点；否则，获取所述多个子决策树的根节点中分裂属性为类别属性的节点的类别取值，并根据所述类别取值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为类别属性的节点。

在其中一个实施例中，所述判断所述目标分支节点的分裂属性是否为数值属性的步骤之后还包括：

获取所述目标分支节点的子分支节点的分裂属性；

将所述子分支节点依次添加到队列中；

获取所述多个子决策树中的对应所述子分支节点的分裂属性的子分支树；

由所述队列中取出子分支节点，判断所述子分支节点对应的子分支树下的节点是否全为叶子节点，若是，则获取子分支树下的叶子节点的类标签，并根据所述获取到的子分支树下的叶子节点的类标签的生成所述由队列取出的目标分支节点下的叶节点的类标集和叶属性类标签，且所述叶属性标签为所述类标集中出现频率最高的类标签；否则，将所述子分支节点作为目标分支节点，继续执行所述判断所述目标分支节点的分裂属性是否为数值属性的步骤。

在其中一个实施例中，所述获取所述多个子决策树中的对应所述目标分支节点的分裂属性的子分支树的步骤为：

遍历所述多个子决策树；

递归查找遍历到的子决策树的分支节点，获取其分裂属性与所述目标分支节点的分裂属性匹配的分支节点，获取所述查找到子决策树的分支节点下的子分支树。

此外，还有必要提供一种能提高分类速度的构建决策树分类器的装置。

一种构建决策树分类器的装置，包括：

样本获取模块，用于获取样本数据；

随机森林生成模块，用于构建包含多个子决策树的随机森林分类器；

合并决策树模块，用于获取所述多个子决策树的节点的分裂属性的出现频率，根据所述出现频率将所述多个子决策树合并成主决策树，且所述主决策树的叶节点对应类标集和叶属性类标签，所述叶属性标签为所述类标集中出现频率最高的类标签；

合并节点模块，用于根据所述叶属性类标签合并所述主决策树的叶节点；

分类器生成模块，用于根据所述主决策树生成决策树分类器。

在其中一个实施例中，所述合并决策树模块用于获取所述多个子决策树的根节点的分裂属性，获取所述根节点的分裂属性的出现频率，根据所述出现频率最大的分裂属性生成所述主决策树的目标分支节点。

在其中一个实施例中，所述合并决策树模块还用于判断所述目标分支节点的分裂属性是否为数值属性，若是，则获取所述多个子决策树的根节点中分裂属性为数值属性的节点的分裂值，并根据所述分裂值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为数值属性的节点；否则，获取所述多个子决策树的根节点中分裂属性为类别属性的节点的类别取值，并根据所述类别取值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为类别属性的节点。

在其中一个实施例中，所述合并决策树模块还用于获取所述目标分支节点的子分支节点的分裂属性；

将所述子分支节点依次添加到队列中；

由所述队列中取出子分支节点，判断所述子分支节点对应的子分支树下的节点是否全为叶子节点，若是，则获取子分支树下的叶子节点的类标签，并根据所述获取到的子分支树下的叶子节点的类标签的生成所述由队列取出的目标分支节点下的叶节点的类标集和叶属性类标签，且所述叶属性标签为所述类标集中出现频率最高的类标签；否则，将所述子分支节点作为目标分支节点，循环继续判断所述目标分支节点的分裂属性是否为数值属性。

在其中一个实施例中，所述合并决策树模块还用于遍历所述多个子决策树，递归查找遍历到的子决策树的分支节点，获取其分裂属性与所述目标分支节点的分裂属性匹配的分支节点，获取所述查找到子决策树的分支节点下的子分支树。

上述构建决策树分类器的方法及装置，通过将现有技术中的随机森林分类器中的多个子决策树合并成单一的主决策树，并根据类标签的出现频率对主决策树的叶子节点进行了合并，使得在通过主决策树分类时，只需要依靠单一的决策树以及较少的条件判断即可完成分类，从而提高了分类速度。

附图说明

图1为一个实施例中构建决策树分类器的方法的流程图；

图2为一个实施例中随机森林分类器中的三个子决策树的数据结构示意图；

图3为一个实施例中生成分裂属性为X1的根节点时遍历获取对应的子分支树的过程示意图；

图4为一个实施例中生成分裂属性为X1的根节点时移除只有单一分支的节点的过程示意图；

图5为一个实施例中合并叶子节点之前的主决策树的数据结构示意图；

图6为一个实施例中合并叶子节点之后的主决策树的数据结构示意图；

图7为一个实施例中构建决策树分类器的装置的结构示意图。

具体实施方式

在一个实施例中，如图1所示，一种构建决策树分类器的方法，包括如下步骤：

步骤S102，获取样本数据。

样本数据即训练素材。可预先对搜索引擎抓取的数据进行预分类，根据该抓取的数据创建对应的类标签，从而生成样本数据。

步骤S104，构建包含多个子决策树的随机森林分类器。

在本实施例中，可通过Breiman随机森林算法(即布莱曼随机森林算法)创建包含多个子决策树的随即森林分类器。Breiman随机森林算法根据装袋(bagging)方法，随机的有放回的抽取建立每一个子决策树的样本数据集，在每个节点：从M个属性中随机无放回的选取m个属性(m通常为log2M+1，其中M为所有属性的总数)，并在被选中的m个属性中选择“最好”的属性做分裂。然后让每一个子决策树都长到底，最后对每个输入样本，使用所有子决策树的结果进行投票，将获得投票数最多的类标签作为叶子节点的类标签。

步骤S106，获取多个子决策树的节点的分裂属性的出现频率，根据出现频率将多个子决策树合并成主决策树，且主决策树的叶节点对应类标集和叶属性类标签，叶属性标签为类标集中出现频率最高的类标签。

在本实施例中，获取多个子决策树的节点的分类属性的出现频率，根据出现频率将多个子决策树合并成主决策树的步骤包括：

获取多个子决策树的根节点的分裂属性；

获取根节点的分裂属性的出现频率；

根据出现频率最大的分裂属性生成主决策树的目标分支节点。

在本实施例中，根据出现频率最大的分裂属性生成主决策树的目标分支节点的步骤之后还包括：

判断目标分支节点的分裂属性是否为数值属性，若是，则获取多个子决策树的根节点中分裂属性为数值属性的节点的分裂值，并根据分裂值生成目标分支节点的子分支节点，移除多个子决策树的根节点中分裂属性为数值属性的节点；否则，获取多个子决策树的根节点中分裂属性为类别属性的节点的类别取值，并根据类别取值生成目标分支节点的子分支节点，移除多个子决策树的根节点中分裂属性为类别属性的节点。

在本实施例中，判断目标分支节点的分裂属性是否为数值属性的步骤之后还包括：

获取目标分支节点的子分支节点的分裂属性；

将子分支节点依次添加到队列中；

获取多个子决策树中的对应子分支节点的分裂属性的子分支树；

由队列中取出子分支节点，判断子分支节点对应的子分支树下的节点是否全为叶子节点，若是，则获取子分支树下的叶子节点的类标签，并根据获取到的子分支树下的叶子节点的类标签的生成由队列取出的目标分支节点下的叶节点的类标集和叶属性类标签，且叶属性标签为类标集中出现频率最高的类标签；否则，将子分支节点作为目标分支节点，继续执行判断目标分支节点的分裂属性是否为数值属性的步骤。

在本实施例中，将子分支节点一次添加到队列中的步骤可具体为：获取随即森林中的多个子决策树的根节点的分裂属性，并获取分裂属性的出现频率，并根据该出现频率的大小对子分支节点排序后添加到队列中。

目标分支节点即主流程当前在执行时需要创建地主决策树的分支节点。也就是说，生成主决策树的每个分支节点及其子分支节点(包括根节点)时，均由此时前述已生成的随即森林中的多个子决策树的根节点的分裂属性的出现频率生成(多个子决策树的根节点在生成)。

在本实施例中，获取多个子决策树中的对应目标分支节点的分裂属性的子分支树的步骤为：

遍历多个子决策树，递归查找遍历到的子决策树的分支节点，获取其分裂属性与目标分支节点的分裂属性匹配的分支节点，获取查找到子决策树的分支节点下的子分支树。

在本实施例中，在获取查找到子决策树的分支节点下的子分支树的步骤之后还包括：遍历该子分支树，判断节点是否只有单一分支，若是，则移除该节点，且将其单一分支上的子节点与其父节点连接。

例如，若目标分支节点的分裂属性为A≤10，则若递归遍历到的子决策树的分支节点对应的分裂属性为B、C等其他分裂属性或者分裂属性为A，但A≤n或m<A≤p或者A>m，m和n为小于或等于10的任意数值，p为大于m的任意数值，那么该分支节点的分裂属性与目标分支节点的分裂属性相匹配。若分支节点对应的分裂属性为A，但数值属性取值为A>10，那么，该分支节点的分裂属性与目标分支节点的分裂属性不匹配。也就是说，可通过判断分支节点对应的分裂属性的属性值是否部分属于目标分支节点的分裂属性的属性值的取值区间来判断是否匹配。

步骤S108，根据叶属性类标签合并主决策树的叶节点。

在本实施例中，根据叶属性类标签合并主决策树的叶节点的步骤可具体为：遍历生成的主决策树，若主决策树的分支节点A的所有子节点均为叶子节点，且它们出现频率最高的类标签均相同，则将该分支节点A缩减成一个叶子节点，其类标签为前述的出现频率最高的类标签。

步骤S110，根据主决策树生成决策树分类器。

在本实施例中，可同时参考图2、图3和图4，其中T1、T2和T3为生成的随机森林中的3个子决策树，T为生成的主决策树，X1和X2为分裂属性，a1、a2、a3和a4为分裂属性的数值属性取值范围，且a4<a3<a1<a2；b1、b2、b3、b4和b5为分裂属性的数值属性取值范围，且b2<b3<b5<b4<b1。其中，图2为随机森林算法生成的3个子决策树T1、T2和T3的数据结构，图3为获取到的出现频率最高的分裂属性为X1时对3个子决策树进行合并的过程，图4为获取到出现频率最高的分裂属性为X2时对3个子决策树进行合并的过程。再请参考图5和图6，图5为合并3个子决策树后得到的主决策树的数据结构，图6为对图5中的主决策树T合并叶节点后得到的主决策树。

在一个实施例中，如图7所示，一种构建决策树分类器的装置，包括样本获取模块102、随机森林生成模块104、合并决策树模块106、合并节点模块108和分类器生成模块，其中：

样本获取模块102，用于获取样本数据。

随机森林生成模块104，用于构建包含多个子决策树的随机森林分类器。

合并决策树模块106，用于获取多个子决策树的节点的分裂属性的出现频率，根据出现频率将多个子决策树合并成主决策树，且主决策树的叶节点对应类标集和叶属性类标签，叶属性标签为类标集中出现频率最高的类标签。

获取多个子决策树的根节点的分裂属性；

获取根节点的分裂属性的出现频率；

获取目标分支节点的子分支节点的分裂属性；

将子分支节点依次添加到队列中；

在本实施例中，在获取查找到子决策树的分支节点下的子分支树的步骤之后还包括：遍历该子分支树，判断节点是否只有单一分支，若是，则移除该节点，且将其单一分支上的子节点与其父节点连接。例如，若目标分支节点的分裂属性为A≤10，则若递归遍历到的子决策树的分支节点对应的分裂属性为B、C等其他分裂属性或者分裂属性为A，但A≤n或m<A≤p或者A>m，m和n为小于或等于10的任意数值，p为大于m的任意数值，那么该分支节点的分裂属性与目标分支节点的分裂属性相匹配。若分支节点对应的分裂属性为A，但数值属性取值为A>10，那么，该分支节点的分裂属性与目标分支节点的分裂属性不匹配。也就是说，可通过判断分支节点对应的分裂属性的属性值是否部分属于目标分支节点的分裂属性的属性值的取值区间来判断是否匹配。

合并节点模块108，用于根据叶属性类标签合并主决策树的叶节点。

分类器生成模块110，根据主决策树生成决策树分类器。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于决策树分类器的数据分类的方法，包括：

获取样本数据；

构建包含多个子决策树的随机森林分类器；

获取所述多个子决策树的根节点的分裂属性，获取所述根节点的分裂属性的出现频率，根据所述出现频率最大的分裂属性生成主决策树的目标分支节点，且所述主决策树的叶节点对应类标集和叶属性类标签，所述叶属性类标签为所述类标集中出现频率最高的类标签；

判断所述目标分支节点的分裂属性是否为数值属性，若是，则获取所述多个子决策树的根节点中分裂属性为数值属性的节点的分裂值，并根据所述分裂值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为数值属性的节点；否则，获取所述多个子决策树的根节点中分裂属性为类别属性的节点的类别取值，并根据所述类别取值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为类别属性的节点；

遍历所述主决策树，将所述叶属性类标签相同的所述叶节点缩减为同一个叶节点；

根据所述主决策树生成决策树分类器；

获取搜索引擎中用户输入的关键字，采用生成的决策树分类器获取所述关键字对应的类标签以使所述搜索引擎对所述关键字分类。

2.根据权利要求1所述的基于决策树分类器的数据分类的方法，其特征在于，所述判断所述目标分支节点的分裂属性是否为数值属性的步骤之后还包括：

获取所述目标分支节点的子分支节点的分裂属性；

将所述子分支节点依次添加到队列中；

由所述队列中取出子分支节点，判断所述子分支节点对应的子分支树下的节点是否全为叶子节点，若是，则获取子分支树下的叶子节点的类标签，并根据所述获取到的子分支树下的叶子节点的类标签生成所述由队列取出子分支节点下的叶节点的类标集和叶属性类标签，且所述叶属性类标签为所述类标集中出现频率最高的类标签；否则，将所述子分支节点作为目标分支节点，继续执行所述判断所述目标分支节点的分裂属性是否为数值属性的步骤。

3.根据权利要求2所述的基于决策树分类器的数据分类的方法，其特征在于，所述获取所述多个子决策树中的对应所述目标分支节点的分裂属性的子分支树的步骤为：

遍历所述多个子决策树；

递归查找遍历到的子决策树的分支节点，获取其分裂属性与所述目标分支节点的分裂属性匹配的分支节点，获取所述查找遍历到的子决策树的分支节点下的子分支树。

4.一种基于决策树分类器的数据分类的装置，其特征在于，包括：

样本获取模块，用于获取样本数据；

合并决策树模块，用于获取所述多个子决策树的节点的分裂属性的出现频率，根据所述出现频率将所述多个子决策树合并成主决策树，且所述主决策树的叶节点对应类标集和叶属性类标签，所述叶属性类标签为所述类标集中出现频率最高的类标签，还用于获取所述多个子决策树的根节点的分裂属性，获取所述根节点的分裂属性的出现频率，根据所述出现频率最大的分裂属性生成所述主决策树的目标分支节点；还用于判断所述目标分支节点的分裂属性是否为数值属性，若是，则获取所述多个子决策树的根节点中分裂属性为数值属性的节点的分裂值，并根据所述分裂值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为数值属性的节点；否则，获取所述多个子决策树的根节点中分裂属性为类别属性的节点的类别取值，并根据所述类别取值生成所述目标分支节点的子分支节点，移除所述多个子决策树的根节点中分裂属性为类别属性的节点；

合并节点模块，用于遍历所述主决策树，将所述叶属性类标签相同的所述叶节点缩减为同一个叶节点；

分类器生成模块，用于根据所述主决策树生成决策树分类器；

数据分类模块，用于获取搜索引擎中用户输入的关键字，采用生成的决策树分类器获取所述关键字对应的类标签以使所述搜索引擎对所述关键字分类。

5.根据权利要求4所述的基于决策树分类器的数据分类的装置，其特征在于，所述合并决策树模块还用于获取所述目标分支节点的子分支节点的分裂属性；

将所述子分支节点依次添加到队列中；

由所述队列中取出子分支节点，判断所述子分支节点对应的子分支树下的节点是否全为叶子节点，若是，则获取子分支树下的叶子节点的类标签，并根据所述获取到的子分支树下的叶子节点的类标签生成所述由队列取出的子分支节点下的叶节点的类标集和叶属性类标签，且所述叶属性类标签为所述类标集中出现频率最高的类标签；否则，将所述子分支节点作为目标分支节点，循环继续判断所述目标分支节点的分裂属性是否为数值属性。

6.根据权利要求5所述的基于决策树分类器的数据分类的装置，其特征在于，所述合并决策树模块还用于遍历所述多个子决策树，递归查找遍历到的子决策树的分支节点，获取其分裂属性与所述目标分支节点的分裂属性匹配的分支节点，获取所述查找遍历到的子决策树的分支节点下的子分支树。