CN111368076B

CN111368076B - 一种基于随机森林的伯努利朴素贝叶斯文本分类方法

Info

Publication number: CN111368076B
Application number: CN202010125450.9A
Authority: CN
Inventors: 蒋良孝; 张文钧; 张欢; 李超群
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-04-07
Anticipated expiration: 2040-02-27
Also published as: CN111368076A

Abstract

本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法，包括训练阶段和分类阶段，训练阶段包括：从训练文档集中选取训练样本构建采样集，利用采样集训练随机森林，将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本，利用新的训练样本训练伯努利朴素贝叶斯文本分类模型；分类阶段包括：将预测样本用随机森林进行预测，并将预测样本转化为新的二进制特征表示的预测样本，将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测，输出预测的类标记。本发明同时考虑了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性，维持了模型的计算复杂性和简单性，并用大量实验验证了本发明的有效性。

Description

一种基于随机森林的伯努利朴素贝叶斯文本分类方法

技术领域

本发明涉及一种基于随机森林的伯努利朴素贝叶斯文本分类方法，属于人工智能数据挖掘分类技术领域。

背景技术

给定一个训练文档集Doc和一篇待分类的文档d，文档d被表示成单词向量的形式＜w₁，w₂，…，w_i，…，w_m＞，伯努利朴素贝叶斯(BNB)用公式(1)来为文档d分类。

式中，m是词库中所有不同单词的数目，q是训练文档的类别数目，c_j表示第j个类别，w_i(i＝1，2，…，m)表示文档d中是否出现第i个单词，出现为1，不出现为0，先验概率P(c_j)和条件概率P(w_i|c_j)分别用公式(2)和公式(3)来估计。

式中，n是训练文档集Doc中文档的数目，c_k是训练文档集Doc中第k篇训练文档的类标记，ω_ki表示第i个单词在第k篇训练文档中是否出现，出现为1，不出现为0，δ(α，β)是一个二值函数，α＝β时取值为1，否则取值为0。

虽然BNB已经被证明具有不错的文本分类性能，但是它在分类过程中只考虑单词在文档中是否会出现，并没有考虑每个单词在文档中出现的频率信息。词频信息表征一个单词在文档中的出现次数，在很大程度上影响了分类器的性能。作为BNB的改进版本，多项式朴素贝叶斯(MNB)考虑到了所有单词在文档中出现的频率，大幅度提高了BNB的分类性能，具有更广阔的应用前景。不过MNB面临的一个系统性问题是，当一个类别的训练文档比其他类别的训练文档多很多时，样本个数较少的类别的影响权重便会降低。作为对MNB的补充和改进，补集朴素贝叶斯(CNB)被提出，用来处理类别数目不平衡的数据集。在MNB和CNB的启发下，提出了一种“一对多”的模型(简称为OVA)，OVA对MNB和CNB做了合并，在计算条件概率时同时考虑了MNB和CNB计算条件概率的方法，具有不错的分类效果。尽管上述这些文本分类算法已经被证明具有较高的性能，但是它们的特征条件独立性假设在现实中很少成立。

发明内容

为了解决现有技术的不足，本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法，为BNB找到了一个合适的改进模型，不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性，还维持了模型的计算复杂性和简单性。

本发明为解决其技术问题所采用的技术方案为提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法，包括训练阶段和分类阶段，训练阶段包括以下过程：从训练文档集中选取训练样本构建采样集，利用采样集训练随机森林，将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本，利用新的训练样本训练伯努利朴素贝叶斯文本分类模型；分类阶段包括以下过程：将预测样本用随机森林进行预测，并将预测样本转化为新的二进制特征表示的预测样本，将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测，输出预测的类标记。

本发明具体包括以下步骤：

(1)训练阶段具体包括以下过程：

(1-1)设训练文档集Doc中文档的数目为n，随机森林中随机树的数目为T；针对训练文档集，采用装袋方式处理：先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集，再把该训练样本放回初始的训练文档集Doc，使得下次采样时该训练样本仍有机会被选中；经过n次采样，得到包含n个训练样本的采样集；将采样过程重复T次，得到T个分别含有n个训练样本的采样集；分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树；

(1-2)针对一个采样集构建一棵随机决策树，将这个采样集作为该随机决策树根节点处的样本集，设训练样本有m个单词，即m个特征，在决策树的每个节点分裂时，随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A，kvalue的值使用公式(4)计算得到：

(1-3)给定当前分裂的节点上的样本集D，在计算单词w的分割点时，假定单词w在样本集D上出现了s个不同的频率值，即s个不同的特征值，将这些频率值按照从小到大进行排序，记为{w¹，w²，…，w^s}；设基于划分点t，将样本集D分为第一样本集

和第二样本集

其中第一样本集

包含单词w的频率值不大于t的样本，第二样本集

包含单词w的频率值大于t的样本；对于单词w，通过公式(5)求出包含s-1个元素的候选划分点集合T_w：

(1-4)根据候选划分点集合T_w，利用公式(6)求得单词w针对样本集D的最优划分点：

式中，Gini_gain(D，w)表示单词w划分样本集D的最优基尼增益，|D|表示样本集D中的样本数目，Gini(D)用来求样本集D的基尼值，若当前样本集D中文档类别的数目为q，假定样本集D中第j类样本所占的比例为p_j(j＝1，2，…，q)，通过公式(7)求得样本集D的基尼值：

(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点，按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点，然后用公式(8)计算得到当前节点的最优分裂单词w_*：

若随机选择的kvalue个单词对应的最优基尼增益均不大于0，则从剩下的m-kvalue个单词中继续随机不重复地选择单词并求其最优基尼增益，直到第一个最优基尼增益大于0的单词出现为止，并将这个单词设置为分裂单词w_*；若所有单词求得的最优基尼增益均不大于0，则将w_*标记为空；

(1-6)若当前分裂点的最优分裂单词w_*为空，表示当前节点没有适合用来分裂的单词，当前节点为叶子节点，叶子节点的类别为该节点所含样本最多的类别；否则，将步骤(1-5)产生的第一样本集

和第二样本集

分别放入当前节点的左子节点和右子节点，完成分裂；

(1-7)从根节点出发，若所有节点均不可继续分裂，则长树完成；

(1-8)训练好随机森林后，将训练文档集Doc中每一个训练样本重新输入随机森林中做预测，随机森林中的一棵随机决策树作为一个基分类器，在每个基分类器上分别得到所输入的训练样本的预测类别，对预测类别下标做一位有效编码产生二进制特征表示；用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本，新的训练样本的维度为T*q；

(1-9)用新的训练样本构建新的训练数据集，使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率，训练伯努利朴素贝叶斯文本分类模型：

式中，P(c_j)表示先验概率，P(w_i|c_j)表示条件概率，q是训练文档的类别数目，c_j(j＝1，2，…，q)表示第j个类别，w_i(i＝1，2，…，m)表示是否出现第i个单词，出现为1，不出现为0，c_k是训练文档集Doc中第k篇训练文档的类标记，w_ki表示第i个单词在第k篇训练文档中是否出现，出现为1，不出现为0，δ(α，β)是一个二值函数，α＝β时取值为1，否则取值为0；

(2)分类阶段包括以下过程：

(2-1)按步骤(1-8)，将预测样本用构建的随机森林进行预测，并将预测样本转化为新的二进制特征表示的预测样本；

(2-2)将新的二进制特征表示的预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测，输出预测的类标记：

式中，m是训练文档集Doc中所有不同单词的数目，q是训练文档的类别数目，c_j(j＝1，2，…，q)表示第j个类别，w_i(i＝1，2，…，m)表示预测文档d中是否出现第i个单词，出现为1，不出现为0。

本发明基于其技术方案所具有的有益效果在于：本发明提出的基于随机森林的伯努利朴素贝叶斯文本分类方法利用到了模型结合的策略，不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性，还维持了模型的计算复杂性和简单性。更重要的是，大量的实验验证了本发明提供的新方法的有效性。

附图说明

图1是本发明中基于随机森林的伯努利朴素贝叶斯文本分类模型的结构示意图。

具体实施方式

下面结合实施例对本发明作进一步说明。

随机森林(简称RF)是Bagging(装袋)的一个扩展变体。RF以决策树作为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机分裂特征选择。RF通常采用投票法产生最终分类结果，当数据集较大时，基分类器无法拟合整个数据集，导致同一个预测样本在基分类器上的预测结果产生较大的差异，此时采用多数投票的方式显然不够合理。本发明的目的是将RF和BNB有效的结合起来，先利用RF从原始的文本分类数据中学习到一组更加独立的新的特征表示，然后在学习到的新的特征表示上构建BNB，从而大幅度提高BNB和RF的文本分类性能。基于以上发现，本发明提出了一种基于随机森林的伯努利朴素贝叶斯文本分类方法(简记为RFBNB)。朴素贝叶斯模型假定所有的特征变量在给定类变量的前提下是完全相互独立，这个假设在现实中很难成立，因此首先利用RF为BNB学习得到一组更加独立的特征变量，然后再用BNB代替RF中的多数投票，使得最终新方法的分类结果优于RF和BNB。具体到文本分类问题上，新方法首先使用RF对训练文档集进行学习，得到一组随机树，然后用构建的这一组随机树依次分类每一篇训练文档，将得到的分类结果(类标记)组合得到一组新的特征表示，然后再通过一位有效编码的方式将其转化成一组二进制特征表示，最后在编码得到的二进制特征表示上构建BNB。具体过程如图1所示。

图中输入表示输入文档<w₁，w₂，…，w_i，…，w_m>，RF中的各基分类器上的带数字节点表示输入文档在基分类器上的最终落入节点，落入节点上的数字表示该基分类器预测输入文档的类别下标，用该文档在每个基分类器上的预测类别下标构建新样本＜1 3…2 4＞，新样本经过一位有效编码转化为二进制特征表示＜1000 0010…0100 0001＞供BNB模型训练和预测。

综上所述，本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法(简记为RFBNB)，包括训练阶段和分类阶段，训练阶段包括以下过程：从训练文档集中选取训练样本构建采样集，利用采样集训练随机森林，将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本，利用新的训练样本训练伯努利朴素贝叶斯文本分类模型；分类阶段包括以下过程：将预测样本用随机森林进行预测，并将预测样本转化为新的二进制特征表示的预测样本，将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测，输出预测的类标记。

本发明具体包括以下步骤：

(1)训练阶段具体包括以下过程：

(1-3)给定当前分裂的节点上的样本集D，在计算单词w的分割点时，假定单词ω在样本集D上出现了s个不同的频率值，即s个不同的特征值，将这些频率值按照从小到大进行排序，记为{w¹，w²，…，w^s}；设基于划分点t，将样本集D分为第一样本集

和第二样本集

，其中第一样本集

包含单词w的频率值不大于t的样本，第二样本集

式中，Gini_gain(D，w)表示单词w划分样本集D的最优基尼增益，|D|表示样本集D中的样本数目，Gini(D)用来求样本集D的基尼值，若当前样本集D中文档类别的数目为q，假定样本集D中第j类样本所占的比例为p_j(j＝1，2，…，q，通过公式(7)求得样本集D的基尼值：

若随机选择的kualue个单词对应的最优基尼增益均不大于0，则从剩下的m-kualue个单词中继续随机不重复地选择单词并求其最优基尼增益，直到第一个最优基尼增益大于0的单词出现为止，并将这个单词设置为分裂单词w_*；若所有单词求得的最优基尼增益均不大于0，则将w_*标记为空；

和第二样本集

分别放入当前节点的左子节点和右子节点，完成分裂；

(2)分类阶段包括以下过程：

式中，m是训练文档集Doc中所有不同单词的数目，q是训练文档的类别数目，c_j(j＝1，2，…，q)表示第j个类别，w_i(i＝1，2，...，m)表示预测文档d中是否出现第i个单词，出现为1，不出现为0。

以下实验为验证本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法的有效性：

在收集到的15个常用文本数据集上系统比较了本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法(RFBNB)和多项式朴素贝叶斯(MNB)以及随机森林(RF)。实验中，将随机森林中随机树的数目T设置为200。T为常量，是一个经验参数。表1给出了实验采用的15个数据集的详细信息。

数据集	文档数目	单词数目	类别数目
				fbis	2463	2000	17
oh0	1003	3182	10
				oh10	1050	3238	10
oh15	913	3100	10
				oh5	918	3012	10
re0	1657	3758	25
				re1	1504	2886	13
tr11	414	6429	9
				tr12	313	5804	8
tr21	336	7902	6
				tr23	204	5832	6
tr31	927	10128	7
				tr41	878	7454	10
tr45	690	8261	10
				wap	1560	8460	20

表1实验中使用的数据集

表2给出了详细的分类精度比较结果。表中每一种方法在每一个数据集上的分类精度通过平均10次独立运行十字交叉验证得到。然后，用显著性水平为95％的纠正的配对双侧t测试比较了本发明提供的新方法RFBNB和现有的MNB和RF。

Dataset	RFBNB	MNB	RF
				fbis	86.13±1.96	77.11±2.49·	84.05±1.93·
oh0	90.98±3.03	89.55±2.82	89.63±3.09·
				oh10	85.73±2.97	80.60±3.13·	84.27±3.10
oh15	86.90±3.45	83.60±3.13·	85.06±3.25·
				oh5	90.64±3.25	86.63±3.07·	90.12±2.98
re0	85.79±2.56	80.02±2.95·	83.39±2.64·
				re1	86.57±2.22	83.31±2.75·	83.51±2.07·
tr11	90.95±3.46	85.21±4.90·	87.96±3.23·
				tr12	90.06±5.13	80.99±6.08·	87.34±5.27
tr21	94.82±3.60	61.90±8.78·	85.22±4.08·
				tr23	92.60±6.25	71.15±9.68·	83.63±5.65·
tr31	97.35±1.79	94.60±2.41·	97.72±1.79
				tr41	96.14±1.98	94.65±2.21	94.60±1.89·
tr45	94.33±2.57	83.64±4.33·	92.39±2.47·
				wap	84.37±2.35	81.22±2.59·	80.87±2.26·
Average	90.22	82.28	87.32
				W/T/L	-	13/2/0	11/4/0

表2分类精度比较结果

表中的符号.表示本发明提供的新方法RFBNB相较于MNB和RF有明显的改进效果。在表的底部，给出了在15个数据集上每种方法的平均分类精度和W/T/L值，每一个W/T/L值表示，相比于MNB和RF，RFBNB在W个数据集上有明显的改进、在T个数据集上无明显差异、在L个数据集上有明显的退化。从实验结果可以看出：

1)本发明提供的新方法RFBNB在15个数据集上的平均分类精度是最高的，达到了90.22％，而现有的两种方法(MNB和RF)在这15个数据集上的平均分类精度分别是82.28％和87.32％；

2)相比于MNB和RF两种现有方法，本发明提供的新方法RFBNB分别在13和11个数据集上有明显的改进；在任何一个数据集上都没有明显退化；

3)本发明提供的新方法RFBNB分类结果远高于现有的MNB和RF，证明采用随机森林学习更加独立的特征表示是非常有效的，并且学习得到的特征可以在不同模型之间传播。这为朴素贝叶斯模型的改进提供了新的途径，证明了贝叶斯文本分类模型在宽度和深度上进行改进的可行性；

4)综上所述，本发明在BNB的基础上，为朴素贝叶斯模型提供了一种简单有效的文本分类新方法，相信会有很好的应用前景。

Claims

1.一种基于随机森林的伯努利朴素贝叶斯文本分类方法，包括训练阶段和分类阶段，其特征在于：训练阶段包括以下过程：从训练文档集中选取训练样本构建采样集，利用采样集训练随机森林，将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本，利用新的训练样本训练伯努利朴素贝叶斯文本分类模型；分类阶段包括以下过程：将预测样本用随机森林进行预测，得到新预测样本，并将新预测样本转化为二进制特征表示的中间预测样本，将二进制特征表示的中间预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测，输出预测的类标记。

2.根据权利要求1所述的基于随机森林的伯努利朴素贝叶斯文本分类方法，其特征在于具体包括以下步骤：

(1)训练阶段具体包括以下过程：

和第二样本集

其中第一样本集

包含单词w的频率值不大于t的样本，第二样本集

和第二样本集

分别放入当前节点的左子节点和右子节点，完成分裂；

式中，P(c_j)表示先验概率，P(w_i|c_i)表示条件概率，q是训练文档的类别数目，c_j(j＝1，2，…，q)表示第j个类别，w_j(i＝1，2，…，m)表示是否出现第i个单词，出现为1，不出现为0，c_k是训练文档集Doc中第k篇训练文档的类标记，w_ki表示第i个单词在第k篇训练文档中是否出现，出现为1，不出现为0，δ(α，β)是一个二值函数，α＝β时取值为1，否则取值为0；

(2)分类阶段包括以下过程：

(2-1)按步骤(1-8)，将预测样本用构建的随机森林进行预测，得到新预测样本，并将新预测样本转化为二进制特征表示的中间预测样本；

(2-2)将二进制特征表示的中间预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测，输出预测的类标记：

式中，m是训练文档集Doc中所有不同单词的数目，q是训练文档的类别数目，c_j(j＝1，2，…，q)表示第j个类别，ω_i(i＝1，2，…，m)表示预测文档d中是否出现第i个单词，出现为1，不出现为0。