CN103473231A

CN103473231A - 分类器构建方法和系统

Info

Publication number: CN103473231A
Application number: CN2012101847139A
Authority: CN
Inventors: 黄哲学; 扎拉玛; 李俊杰; 陈小军; 王强
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-06-06
Filing date: 2012-06-06
Publication date: 2013-12-25

Abstract

本发明设计一种分类器构建方法和系统。该构建方法包括以下步骤：从数据集中抽取N个样本集；将每个样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数；根据权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，且m小于M；采用划分函数从属性子空间的m个属性中选择最佳属性，根据最佳属性对根节点进行划分，产生子节点；对每个样本集递归重复节点划分直至生成单个随机森林分类器；根据N个单个随机森林分类器构建整体随机森林分类器。上述分类器构建方法和系统，采取对求取属性的权重值，根据其权重值进行加权抽样，构建的单个随机森林分类器的精度较高，从而提高了整体随机森林分类器的精度。

Description

分类器构建方法和系统

技术领域

本发明涉及数据处理领域，特别是涉及一种分类器构建方法和系统。

背景技术

数据种类很多，如文本数据、视频数据、图像数据等，可采用随机森林分类模型对文本数据或视频数据或图像数据进行分类。随机森林分类模型是由一组决策树分类模型组成，对于一些数据分类问题，单一个体决策树分类模型无法满足分类的精度要求，而利用同一训练数据建立多个决策树，以多个个体决策树的分类结果确定最终分类结果的分类技术，可显著提高数据的分类精度，从而满足应用需求。

传统的随机森林分类模型构建时，从给定的一个训练数据中，采用有放回的随机抽样方法抽取建立K棵决策树的K个样本集，每个样本集的样本数与训练数据的样本数相同，但训练数据的同一样本可在单个样本集中重复出现。然后再用K个样本集构建K个决策树分类模型。该随机森林分类模型对维数不高的数据（如属性个数小于100）分类效果较好，对超高维的复杂数据，如几百个属性或千个以上属性的数据，构建的分类模型精度较低，无法满足应用需求。

发明内容

基于此，有必要提供一种能提高分类精度和降低误差的分类器构建方法。

一种分类器构建方法，包括以下步骤：

从数据集中抽取N个样本集；

将每个样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数；

根据所述权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，且m小于M；

采用划分函数从属性子空间的m个属性中选择最佳属性，然后根据所述最佳属性对根节点进行划分，产生子节点；

对每个样本集递归重复节点划分直至生成单个随机森林分类器；

根据N个单个随机森林分类器构建整体随机森林分类器。

在其中一个实施例中，所述求取每个根节点的属性空间中的M个属性的权重值的步骤具体为：

求取每个节点的属性空间中的每个属性与类别属性的相关性，将所述每个属性与类别属性的相关性作为所述每个属性的权重值。

在其中一个实施例中，还包括步骤：通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。

在其中一个实施例中，根据所述权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间的步骤具体为：

将每个属性的权重值求平方根，将每个平方根与M个属性的权重值的平方根和的比值，作为每个属性被抽取的概率；

根据所述每个属性的被抽取的概率从M个属性中抽取m个属性，构成属性子空间。

在其中一个实施例中，所述采用划分函数从属性子空间的m个属性中选择最佳属性的步骤具体为：

采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性，将所述信息增益率最大的属性作为最佳属性。

此外，还有必要提供一种能提高精度和降低误差的分类器构建系统。

一种分类器构建系统，包括：

样本抽取模块，用于从数据集中抽取N个样本集；

权重求取模块，用于将每个样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数；

属性抽取模块，用于根据所述权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，且m小于M；

划分模块，用于采用划分函数从属性子空间的m个属性中选择最佳属性，然后根据所述最佳属性对根节点进行划分，产生子节点；

递归模块，用于对每个样本集递归重复节点划分直至生成单个随机森林分类器；

构建模块，用于根据N个单个随机森林分类器构建整体随机森林分类器。

在其中一个实施例中，所述权重求取模块还用于求取每个节点的属性空间中的每个属性与类别属性的相关性，将所述每个属性与类别属性的相关性作为所述每个属性的权重值。

在其中一个实施例中，所述权值求取模块还用于通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。

在其中一个实施例中，所述属性抽取模块包括：

概率计算单元，用于将每个属性的权重值求平方根，将每个平方根与M个属性的权重值的平方根和的比值，作为每个属性被抽取的概率；

抽取单元，用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性，构成属性子空间。

在其中一个实施例中，所述划分模块还用于采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性，将所述信息增益率最大的属性作为最佳属性。

上述分类器构建方法和系统，采取对求取属性的权重值，根据其权重值进行加权抽样，如此获取的最佳属性较为准确，构建的单个随机森林分类器的精度较高，从而提高了整体随机森林分类器的精度。

另外，通过求取属性与类别属性的相关性，将其相关性作为属性的权重值，权重值越大被抽取的概率越大，这样对类别属性影响力大的属性被抽中的概率提高，从而提高了整体随机森林分类器的精度。

附图说明

图1为一个实施例中分类器构建方法的流程示意图；

图2为一个实施例中根据权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间的具体流程示意图图；

图3为分类器构建方法应用于文本信息的具体流程示意图；

图4为一个实施例中分类器构建系统的内部结构示意图；

图5为另一个实施例中分类器构建系统的内部结构示意图。

具体实施方式

下面结合具体的实施例及附图对分类器构建方法和系统的技术方案进行详细的描述，以使其更加清楚。

如图1所示，在一个实施例中，一种分类器构建方法，包括以下步骤：

步骤S110，从数据集中抽取N个样本集。

具体的，数据集可通过对互联网信息进行筛选后形成，例如通过网络爬虫从网站特定新闻版面、主流媒体、论坛、博客、社交网络、微博等信息源筛选得到文本信息，再将文本信息与预先建立的词库比较，将文本信息按关键词定义量化抽取成结构化数据，即得到数据集。数据集也可为视频数据、音频数据、图像数据等。

对数据集采用有放回的随机抽样方法（即装袋bagging方法）抽取N个样本集，每个样本集记录有M个属性和1个类别属性。每个样本集中的样本数与数据集中的样本数相同，但数据集中的同一个样本可在单个样本集中重复出现。属性可如表示一个学生的性别、年龄、学号、班级等。类别属性是指将某物分类后的属性，如学生分类为好学生或坏学生，好坏即为类别属性。每一个样本集建立单个随机森林分类器，即单个决策树。整体随机森林分类器由N个决策树组成。

步骤S120，将每个样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数。

具体的，每个样本集作为单个决策树的根节点。然后求取每个样本集中的属性空间的所有（M个）属性的权重值。属性空间是指节点的容纳属性的容器。

在一个实施例中，求取每个根节点的属性空间中的M个属性的权重值的步骤具体为：求取每个节点的属性空间中的每个属性与类别属性的相关性，将每个属性与类别属性的相关性作为每个属性的权重值。具体的，采用卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性，以得到相应的权重值。相关性是指变量之间密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系，称为变量间的相关关系或相关性。

具体的，对于给定的数据集D，类别属性Y有q个不同取值y_j，j＝1,2,...，q；属性A有p个不同取值a_i，i＝1,2,...,p。采用卡方检验公式计算属性A和类别属性Y之间的相关性的卡方统计量为：

{corr}_{cs} (A, Y) = Σ_{i = 1}^{p} Σ_{j = 1}^{q} \frac{{({val}_{ij} - t_{ij})}^{2}}{t_{ij}} - - - (1)

式（1）中，val_ij是属性A取值a_i，且类别属性Y取值y_j时的数据集D中的所有样本个数；

t_{ij} = \frac{{val}_{i .} \times {val}_{. j}}{val} - - - (2)

式（2）中，val_i.是属性A取值a_i时的数据集D中的所有样本个数；val_.j是类别属性Y取值y_j时的数据集D中的所有样本个数；val是数据集D中的所有样本个数。

通过卡方统计量corr_cs(A,Y)越大，则表明属性A和类别属性Y之间的相关性越大。

同样，对于给定的数据集D，类别属性Y有q个不同取值y_j，j＝1,2,...，q；属性A有p个不同取值a_i，i＝1,2,...,p。采用信息增益率公式计算属性A和类别属性Y之间的相关性的信息增益率为：

{corr}_{IGR} (A, Y) = \frac{Gian (A)}{SplitInfo (A)} - - - (3)

式（3）中，Gain(A)＝Info(D)-Info_A(D) （4）

Info (D) = - Σ_{j = 1}^{q} \frac{{val}_{. j}}{val} \times \log_{2} (\frac{{val}_{. j}}{val}) - - - (5)

{Info}_{A} (D) = - Σ_{i = 1}^{p} \frac{{val}_{i .}}{val} \times Info (D_{A = a_{i}}) - - - (6)

{Info}_{A} (D_{A = a_{i}}) = - Σ_{j = 1}^{q} \frac{{val}_{ij}}{{val}_{i .}} \times \log_{2} (\frac{{val}_{ij}}{{val}_{i .}}) - - - (7)

SplitInfo (A) = - Σ_{i = 1}^{p} \frac{{val}_{i .}}{val} \times \log_{2} (\frac{{val}_{i .}}{val}) - - - (8)

得到的信息增益率corr_IGR(A,Y)越大，表明属性A和类别属性Y之间的相关性越大。

步骤S130，根据权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，其中，m小于M。

具体的，m和M均为自然数，通常m＝log₂M+1。

在一个实施例中，步骤S130具体为：

步骤S131，将每个属性的权重值求平方根，将每个平方根与M个属性的权重值的平方根和的比值，作为每个属性被抽取的概率。

具体的，将属性权重值按递减排列，求取归一化的权重值，将归一化的权重值作为每个属性被抽中的概率。归一化的权重值的计算公式为：

w_{i} = \frac{\sqrt{corr (A_{i}, Y)}}{Σ_{i = 1}^{M} \sqrt{corr (A_{i}, Y)}} - - - (9)

式（9）中，corr(A_i,Y)为上述通过卡方检验公式或信息增益率公式计算的属性A_i的权重值。其中，权重值越大，属性被抽中的概率越大。

步骤S133，根据每个属性的被抽取的概率从M个属性中抽取m个属性，构成属性子空间。

具体的，从M个属性中抽取m个属性构成属性子空间。

步骤S140，采用划分函数从属性子空间的m个属性中选择最佳属性，然后根据该最佳属性对根节点进行划分，产生子节点。

具体的，假设属性空间由A、B两个属性构成，采用划分函数选中A为最佳属性；根据属性A对根节点进行划分，若属性A有a1、a2和a3三个值，则将A=a1分到一个组中产生第一个子节点，A=a2分到一个组中产生第二个子节点，A=a3分到一个组中产生第三个子节点，这样得到3个子节点。

在一个实施例中，步骤S140具体为：采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性，将所述信息增益率最大的属性作为最佳属性。

计算公式为：

Gain - ratio (A) = \frac{Gain (A)}{SpiltInfo (A)} - - - (10)

式（10）中，Gain(A)如（4）中计算得到，SplitInfo(A)如（8）中计算得到。

步骤S150，对每个样本集递归重复节点划分直至生成单个随机森林分类器。

具体的，对每个节点采用划分函数重复划分直至生成单个随机森林分类器。

步骤S160，根据N个单个随机森林分类器构建整体随机森林分类器。

具体的，对N个单个随机森林分类器进行组合构建整个随机森林分类器。

上述分类器构建方法应用于互联网信息中文本信息的分类，如图3所示，具体包括以下步骤：

步骤S210，获取文本信息。

具体的，从互联网信息中筛选得到文本信息。如从网页中获取文本信息。

步骤S220，对文本信息预处理得到训练文本数据集。

具体的，对文本信息进行预处理，可将文本信息与预先建立的关键词库进行对比，获取文本信息的关键词，将文本信息的关键词构成训练文本数据集。

步骤S230，从文本数据集中抽取N个文本样本集。

具体的，采用有放回的随机抽样方法抽取N个文本样本集。

步骤S240，将每个文本样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数。

具体的，文本信息的属性可为关键词。

步骤S250，根据权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，其中，m小于M。

步骤S260，采用划分函数从属性子空间的m个属性中选择最佳属性，然后根据该最佳属性对根节点进行划分，产生子节点。

步骤S270，对每个文本样本集递归重复节点划分直至生成单个随机森林文本信息分类器。

步骤S280，根据N个单个随机森林文本信息分类器构建整体随机森林文本信息分类器。

如图4所示，在一个实施例中，一种分类器构建系统，包括样本抽取模块10、权值求取模块20、属性抽取模块30、划分模块40、递归模块50和构建模块60。其中：

样本抽取模块10用于从数据集中抽取N个样本集。具体的，数据集可为对互联网信息进行筛选后形成的数据集，例如通过网络爬虫从网站特定新闻版面、主流媒体、论坛、博客、社交网络、微博等信息源筛选得到文本信息，再将文本信息与预先建立的词库比较，将文本信息按关键词定义量化抽取成结构化数据，即得到数据集。数据集也可为视频数据、音频数据、图像数据等。

样本抽取模块10对数据集采用有放回的随机抽样方法（即装袋bagging方法）抽取N个样本集，每个样本集记录有M个属性和1个类别属性。每个样本集中的样本数与数据集中的样本数相同，但数据集中的同一个样本可在单个样本集中重复出现。属性可如表示一个学生的性别、年龄、学号、班级等。类别属性是指将某物分类后的属性，如学生分类为好学生或坏学生，好坏即为类别属性。每一个样本集建立单个随机森林分类器，即单个决策树。整体随机森林分类器由N个决策树组成。

权重求取模块20用于将每个样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数。具体的，每个样本集作为单个决策树的根节点。然后求取每个样本集中的属性空间的所有（M个）属性的权重值。

在一个实施例中，权重求取模块20还用于求取每个节点的属性空间中的每个属性与类别属性的相关性，将每个属性与类别属性的相关性作为每个属性的权重值。具体的，采用卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性，以得到相应的权重值。相关性是指变量之间密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系，称为变量间的相关关系或相关性。卡方检验公式如式（1）和（2），信息增益率公式如方法中描述式（3）~（8），在此不再赘述。

属性抽取模块30用于根据权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，且m小于M。具体的，m和M均为自然数，通常m＝log₂M+1。

在一个实施例中，如图5所示，属性抽取模块30包括概率计算单元310和抽取单元320。其中：

概率计算单元310用于将每个属性的权重值求平方根，将每个平方根与M个属性的权重值的平方根和的比值，作为每个属性被抽取的概率。具体的，将属性权重值按递减排列，求取归一化的权重值，将归一化的权重值作为每个属性被抽中的概率。归一化的权重值的计算公式如式（9）。

抽取单元320用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性，构成属性子空间。

划分模块40用于采用划分函数从属性子空间的m个属性中选择最佳属性，然后根据所述最佳属性对根节点进行划分，产生子节点。划分模块40采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性，将所述信息增益率最大的属性作为最佳属性。计算公式如（10）。

递归模块50用于对每个样本集递归重复节点划分直至生成单个随机森林分类器。具体的，对每个节点采用划分函数重复划分直至生成单个随机森林分类器。

构建模块60用于根据N个单个随机森林分类器构建整体随机森林分类器。具体的，构建模块60对N个单个随机森林分类器进行组合构建整个随机森林分类器。

上述分类器构建系统应用于互联网信息中文本信息分类，具体为：预先获取文本信息，并对文本信息预处理得到训练文本数据集；然后由样本抽取模块10从文本数据集中抽取N个文本样本集；权重求取模块20用于将每个文本样本集作为根节点，求取每个根节点的属性空间中的M个属性的权重值，其中，M为属性的总数；属性抽取模块30用于根据权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间，且m小于M；划分模块40用于采用划分函数从属性子空间的m个属性中选择最佳属性，然后根据所述最佳属性对根节点进行划分，产生子节点；递归模块50用于对每个文本样本集递归重复节点划分直至生成单个随机森林文本信息分类器；构建模块60用于根据N个单个随机森林文本信息分类器构建整体随机森林文本信息分类器。

上述分类器构建方法和系统与经典的breiman随机森林方法比较，得到的结果是，精度平均提高了19％，最高的情况提高了56%。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分类器构建方法，包括以下步骤：

从数据集中抽取N个样本集；

根据N个单个随机森林分类器构建整体随机森林分类器。

2.根据权利要求1所述的分类器构建方法，其特征在于，所述求取每个根节点的属性空间中的M个属性的权重值的步骤具体为：

3.根据权利要求2所述的分类器构建方法，其特征在于，还包括步骤：通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。

4.根据权利要求2所述的分类器构建方法，其特征在于，根据所述权重值从M个属性中采用加权抽样抽取m个属性，构成属性子空间的步骤具体为：

5.根据权利要求1所述的分类器构建方法，其特征在于，所述采用划分函数从属性子空间的m个属性中选择最佳属性的步骤具体为：

6.一种分类器构建系统，其特征在于，包括：

样本抽取模块，用于从数据集中抽取N个样本集；

7.根据权利要求6所述的分类器构建系统，其特征在于，所述权重求取模块还用于求取每个节点的属性空间中的每个属性与类别属性的相关性，将所述每个属性与类别属性的相关性作为所述每个属性的权重值。

8.根据权利要求7所述的分类器构建系统，其特征在于，所述权值求取模块还用于通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。

9.根据权利要求7所述的分类器构建系统，其特征在于，所述属性抽取模块包括：

10.根据权利要求7所述的分类器构建系统，其特征在于，所述划分模块还用于采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性，将所述信息增益率最大的属性作为最佳属性。