CN105045825A

CN105045825A - 一种结构扩展的多项式朴素贝叶斯文本分类方法

Info

Publication number: CN105045825A
Application number: CN201510366258.8A
Authority: CN
Inventors: 蒋良孝; 王沙沙; 李超群; 张伦干
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2015-11-11
Anticipated expiration: 2035-06-29
Also published as: CN105045825B

Abstract

本发明提供了一种结构扩展的多项式朴素贝叶斯文本分类方法，首先以测试文档中出现的每个单词作为父亲节点构建一个一依赖多项式估测器，然后加权平均所有的一依赖多项式估测器来预测测试文档的类别，其中的权值是每个单词的信息增益率。本发明避免了贝叶斯网络的结构学习阶段，从而降低了由于文本数据的高维性带来的时间花销，同时本发明将双条件概率的估计过程推迟到了分类阶段，巧妙地节省了较大的空间开销。本发明不仅改善了多项式朴素贝叶斯文本分类器的分类精度，而且还避免了贝叶斯网络结构学习的时间和空间开销。

Description

一种结构扩展的多项式朴素贝叶斯文本分类方法

技术领域

本发明涉及一种结构扩展的多项式朴素贝叶斯文本分类方法，属于人工智能数据挖掘分类技术领域。

背景技术

朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题，但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d，该文档被表示成单词向量的形式<w₁，w₂，…，w_m〉，多项式朴素贝叶斯(MNB)用公式10来分类文档d。

c (d) = \arg \underset{c &Element; C}{m a x} p (c) Π_{i = 1}^{m} p {(w_{i} | c)}^{f_{i}} - - - (10)

上述公式中符号C是类标记的集合，m是单词的数目，w_i(i＝1，2，…m)是文档d中出现的第i个单词，f_i是单词w_i在文档d中出现的频率，先验概率p(c)用公式1进行估计，条件概率p(w_i|c)用公式2来估计。

p (c) = \frac{Σ_{j = 1}^{n} δ (c_{j}, c) + 1}{n + s} - - - (1)

p (w_{i} | c) = \frac{Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + 1}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + m} - - - (2)

其中，n是训练文档集D中的文档数目，s是文档的类别的数目，c_j是第j篇文档的类标记，δ（c_j,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；f_ji表示训练文档集D中第j篇文档中出现单词w_i的频率。

尽管多项式朴素贝叶斯文本分类方法已经被证明具有较高的分类性能，但它的属性条件独立性假设在现实中很少成立，因此通过释放它的属性条件独立性来提高它的分类性能是很自然的想法。一种最直接的方式就是通过增加有向边来表示属性之间的依赖关系，即结构扩展。但是由于文本数据高维性的特点，学习一个最优的多项式贝叶斯网络文本分类模型几乎是不可能的。这是因为学习最优的多项式贝叶斯网络文本分类模型不仅消耗空间而且消耗时间。所以一个没有结构学习的多项式贝叶斯网络文本分类模型是可取的。

当前用于改进多项式朴素贝叶斯文本分类模型的方法有很多。这其中包括单词频率转化、实例加权、局部学习、属性加权、属性选择等。但是由于文本数据本身的高维性，至今尚未发现任何改进多项式朴素贝叶斯文本分类模型的结构扩展方法。

发明内容

为了解决现有技术的不足，本发明提供了一种结构扩展的多项式朴素贝叶斯文本分类方法，不仅改善了多项式朴素贝叶斯文本分类器的分类精度，而且避免了贝叶斯网络结构学习的时间和空间开销。

本发明为解决其技术问题所采用的技术方案是：提供了一种结构扩展的多项式朴素贝叶斯文本分类方法，包括训练阶段和分类阶段，其中，

(1)训练阶段包括以下过程：

(1-1)利用以下公式计算训练文档集D中每个类别的先验概率p(c)：

p (c) = \frac{Σ_{j = 1}^{n} δ (c_{j}, c) + 1}{n + s} - - - (1)

其中，训练文档集D为一个已知的文档集，训练文档集D中的任意一篇文档d表示为单词向量形式d＝<w₁,w₂,...w_m>，其中w_i为文档d中的第i个单词，m为训练文档集D中单词的数目；n是训练文档集D中的文档数目，s是文档的类别的数目，c_j是第j篇文档的类标记，δ（c_j,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；

(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(w_i|c)：

p (w_{i} | c) = \frac{Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + 1}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + m} - - - (2)

其中，f_ji表示训练文档集D中第j篇文档中出现单词w_i的频率；

(1-3)利用以下公式计算该训练文档集D中的各个属性的权值W_i：

W i = G a i n R a t i o (D, w_{i}) = \frac{G a i n (D, w_{i})}{S p l i t I n f o (D, w_{i})} - - - (3)

其中，GainRatio(D,w_i)表示单词w_i划分训练文档集D的信息增益率，Gain(D,w_i)表示单词w_i划分训练文档集D的信息增益，SplitInfo(D,w_i)表示训练文档集D关于单词w_i的分裂信息；

Gain(D,w_i)通过以下公式计算：

G a i n (D, w_{i}) = E n t r o p y (D) - \underset{v &Element; {0, \overset{&OverBar;}{0}}}{Σ} \frac{| D_{v} |}{| D |} E n t r o p y (D_{v}) - - - (4)

其中，|D_v|是训练文档集D中单词w_i的取值为v的文档数目，v∈{0,0}；Entropy(D)是训练文档集D的熵，通过以下公式计算：

E n t r o p y (D) = - \underset{c &Element; C}{Σ} p_{c} \log_{2} p_{c} - - - (5)

其中，C是类标记的集合，c是C中的一个类标记，p_c是训练文档集D中类别为c的概率；p_c通过以下公式计算得到：

p_{c} = \frac{Σ_{j = 1}^{n} δ (c_{j}, c)}{n} - - - (6)

其中，n是训练文档集D中的文档数目，c_j是第j篇文档的类标记，δ（c_j,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；

SplitInfo(D,w_i)通过以下公式计算得到：

S p l i t I n f o (D, w_{i}) = - \underset{v &Element; {0, \overset{&OverBar;}{0}}}{Σ} \frac{| D_{v} |}{| D |} \log_{2} \frac{| D_{v} |}{| D |} - - - (7)

(2)分类阶段包括以下过程：

(2-1)对于文档d中出现的每个单词w_i，i＝1，2，…m，在训练文档中D中选择单词w_i出现的文档组成文档子集D_wi；

(2-2)对于文档d中出现的每个单词w_t，t＝1，2，…，m∧t≠i，和每个类标记c，利用以下公式和D_wi计算条件概率p(w_t|w_i,c)：

p (w_{t} | w_{i}, c) = \frac{Σ_{j = 1^f_{j i} > 0}^{n} f_{j t} δ (c_{j}, c) + 1}{Σ_{t = 1}^{m} Σ_{j = 1^f_{j i} > 0}^{n} f_{j t} δ (c_{j}, c) + m} - - - (8)

其中，n是训练文档集D中的文档数目，f_ji表示训练文档集D中第j篇文档中出现单词w_i的频率，f_ji>0表示单词w_i出现在第j篇文档中，f_jt表示训练文档集D中第j篇文档中出现单词w_t的频率，m为训练文档集D中单词的数目，δ(c_j,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；

(2-3)基于已经计算好的p(c)，p(w_i|c)，p(w_t|w_i,c)和W_i，利用以下公式来预测文档d的类标记c(d)：

c (d) = \arg \underset{c &Element; C}{m a x} (\frac{Σ_{i = 1^f_{i} > 0}^{m} W_{i} p (c) p {(w_{i} | c)}^{f_{i}} Π_{t = 1^t &NotEqual; i^f_{t} > 0}^{m} p {(w_{t} | w_{i}, c)}^{f_{t}}}{Σ_{i = 1^f_{i} > 0}^{m} W_{i}}) - - - (9)

其中，W_i是文档d中第i个单词的权值，f_i和f_t分别是文档d中第i个单词和第t个单词的频率。

本发明基于其技术方案所具有的有益效果在于：本发明为了避免结构扩展的贝叶斯网络费时的结构学习过程，首先以测试文档中出现的每个单词作为父亲节点构建一个一依赖多项式估测器，然后加权平均所有的一依赖多项式估测器来预测测试文档的类别，从而很好地避免了耗时的结构学习阶段。另外由于文本数据的高维性，在计算双条件概率p(w_t|w_i,c)时会消耗大量的空间，为了节约空间资源，本发明将双条件概率的估计过程推迟到了分类阶段，因为这样只需要根据文档d中出现的单词来计算双条件概率，而不是文档集合D中的所有单词，这一操作使本方法在计算条件概率p(w_t|w_i,c)的空间复杂度由原来的O(sm²)降低到现在的O(s|d|)(s是类别总数，m是文档集合D中单词的数目，|d|是文档d中的单词数)。

具体实施方式

下面结合实施例对本发明作进一步说明。

本发明提供了一种结构扩展的多项式朴素贝叶斯文本分类方法，包括训练阶段和分类阶段，其中，

(1)训练阶段包括以下过程：

p (c) = \frac{Σ_{j = 1}^{n} δ (c_{j}, c) + 1}{n + s} - - - (1)

其中，训练文档集D为一个已知的文档集，训练文档集D中的任意一篇文档d表示为单词向量形式d＝<w₁,w₂,...w_m>，其中w_i为文档d中的第i个单词，m为训练文档集D中单词的数目；n是训练文档集D中的文档数目，s是文档的类别的数目，c_j是第j篇文档的类标记，δ(c_j，c)表示一个二元函数，当它的两个参数相同时值为1否则为0；

p (w_{i} | c) = \frac{Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + 1}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + m} - - - (2)

W i = G a i n R a t i o (D, w_{i}) = \frac{G a i n (D, w_{i})}{S p l i t I n f o (D, w_{i})} - - - (3)

Gain(D,w_i)通过以下公式计算：

G a i n (D, w_{i}) = E n t r o p y (D) - \underset{v &Element; {0, \overset{&OverBar;}{0}}}{Σ} \frac{| D_{v} |}{| D |} E n t r o p y (D_{v}) - - - (4)

其中，|D_v|是训练文档集D中单词w_i的取值为v的文档数目，；Entropy(D)是训练文档集D的熵，通过以下公式计算：

E n t r o p y (D) = - \underset{c &Element; C}{Σ} p_{c} \log_{2} p_{c} - - - (5)

p_{c} = \frac{Σ_{j = 1}^{n} δ (c_{j}, c)}{n} - - - (6)

其中，n是训练文档集D中的文档数目，c_j是第j篇文档的类标记，δ(c_j,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；

SplitInfo(D,w_i)通过以下公式计算得到：

S p l i t I n f o (D, w_{i}) = - \underset{v &Element; {0, \overset{&OverBar;}{0}}}{Σ} \frac{| D_{v} |}{| D |} \log_{2} \frac{| D_{v} |}{| D |} - - - (7)

(2)分类阶段包括以下过程：

p (w_{t} | w_{i}, c) = \frac{Σ_{j = 1^f_{j i} > 0}^{n} f_{j t} δ (c_{j}, c) + 1}{Σ_{t = 1}^{m} Σ_{j = 1^f_{j i} > 0}^{n} f_{j t} δ (c_{j}, c) + m} - - - (8)

c (d) = \arg \underset{c &Element; C}{m a x} (\frac{Σ_{i = 1^f_{i} > 0}^{m} W_{i} p (c) p {(w_{i} | c)}^{f_{i}} Π_{t = 1^t &NotEqual; i^f_{t} > 0}^{m} p {(w_{t} | w_{i}, c)}^{f_{t}}}{Σ_{i = 1^f_{i} > 0}^{m} W_{i}}) - - - (9)

从上面的描叙可以看出，本发明提出的是一种结构扩展的多项式朴素贝叶斯文本分类方法，产生的模型称为结构扩展的多项式朴素贝叶斯(简记为SEMNB)，本方法通过在单词间添加有向边来表达单词之间的依赖关系，从而缓解多项式朴素贝叶斯的属性条件独立假设，不仅改善了多项式朴素贝叶斯(简记为MNB)的分类精度，而且还避免了贝叶斯网络结构学习的时间和空间开销。

在后面的实验部分，将本发明提出的结构扩展的多项式朴素贝叶斯(简记为SEMNB)和标准的多项式朴素贝叶斯(简记为MNB)以及它的一些经典的改进模型进行比较，包括判别加权的多项式朴素贝叶斯(简记为DWMNB)，多项式朴素贝叶斯树(简记为MNBTree)，以及特征加权的多项式朴素贝叶斯(简记为FWMNB)。

判别加权的多项式朴素贝叶斯(简记为DWMNB)通过实例加权方法来缓解多项式朴素贝叶斯的属性条件独立假设。该方法在每一次迭代过程中，根据每个训练实例的条件概率损失来设置它的权值。

多项式朴素贝叶斯树(简记为MNBTree)通过局部学习方法来缓解多项式朴素贝叶斯的属性条件独立假设。该方法在决策树的叶子节点上构建多项式朴素贝叶斯。

特征加权的多项式朴素贝叶斯(简记为FWMNB)通过特征加权方法来缓解多项式朴素贝叶斯的属性条件独立假设。该方法首先执行一次基于相关性的特征选择(简记为CFS)步骤，然后给予选中的特征较大的权值，未选中的特征较小的权值。

为了验证本发明提出的结构扩展的多项式朴素贝叶斯文本分类方法的有效性，实验比较了SEMNB、MNB、DWMNB、MNBTree以及FWMNB的分类性能。

在实验中，18个广泛使用的文本分类标准数据集被测试。这些数据集来自不同领域并且代表不同的数据特征。表1详细描述了这18个数据集的主要特征，具体的数据可从WEKA平台的网站上下载。需要注意的是，19个标准文本分类数据集中的其他1个大数据没有包含，是因为这个大数据集包含过多的属性和文档。所以为了减少运行实验的时间，在实验中，去掉了“new3s”这个数据集。

表2显示了各方法在每个数据集上通过10次10折交叉验证方法得到的分类精度，表中的符号“v”和“*”分别表示在置信度为95％的纠正的配对双边t测试下现有方法相比于本发明提出的方法SEMNB有显著的提高和降低。表的底部列出了平均分类精度和Win/Tie/Lose(W/T/L)值。在所有数据集上的算术平均值提供了一个关于相对性能的整体概述，W/T/L值表示与本发明提出的方法SEMNB相比，现有方法赢了W个数据集，平了T个数据集，输了L个数据集。

最后，用置信度为95％的纠正的配对双边t测试来比较每一对方法的性能。表3和4分别显示了分类精度的比较结果。在表3中，对于每个记录i(j)而言，i表示对应列中的方法分类精度高于对应行中方法的数据集数目，而j表示对应列中的方法在95％置信度下分类精度高于对应行方法的数据集数目。在表4中，第一列表示对应的方法相比于其他所有方法赢的数据集数目和输的数据集数目的差，第二列和第三列分别表示对应方法赢的数据集总数和输的数据集总数。

从这些实验结果可以看出，SEMNB的分类精度明显超出了MNB，甚至还好于现有的改进方法：DWMNB，MNBTree和FWMNB。实验结果的亮点总结如下：

1.相比于MNB，SEMNB在9个数据集上明显优于MNB，并且没有在任何数据集上输给MNB。另外，SEMNB的平均分类精度(86.82％)也明显高于MNB的平均分类精度(82.62％)。

2.SEMNB甚至还好于另外三种经典的改进方法：DWMNB(6赢1输)，MNBTree(7赢2输)和FWMNB(7赢5输)。另外，DWMNB(85.03％)，MNBTree(85.56％)和FWMNB(84.29％)的平均分类精度也要明显低于SEMNB的平均分类精度。

3.总体来说，SEMNB是所有比较方法中分类性能最好的，从高到低的详细排序顺序是SEMNB，FWMNB，DWMNB，MNBTree和MNB。

数据集	文档数目	单词数目	类别数目
				fbis	2463	2000	17
la1s	3204	13195	6
				la2s	3075	12432	6
oh0	1003	3182	10
				oh10	1050	3238	10
oh15	913	3100	10
				oh5	918	3012	10
ohscal	11162	11465	10
				re0	1657	3758	25
re1	1504	2886	13
				tr11	414	6429	9
tr12	313	5804	8
				tr21	336	7902	6
tr23	204	5832	6
				tr31	927	10128	7
tr41	878	7454	10
				tr45	690	8261	10
wap	1560	8460	20

表1实验中使用的数据集

数据集	SEMNB	MNB	DWMNB	MNBTree	FWMNB
						fbis	83.27	77.11*	80.39*	79.06*	78.69*
la1s	89.15	88.41	88.85	87.22*	88.79
						la2s	91.01	89.88*	90.14*	87.34*	90.22*
oh0	88.87	89.55	89.64	88.93	91.47v
						oh10	80.66	80.60	80.64	83.25	82.25
oh15	83.36	83.60	83.29	79.01*	85.63v
						oh5	87.55	86.63	86.87	88.74	89.32v
ohscal	76.40	74.70*	74.30*	78.00v	76.31
						re0	82.73	80.02*	81.81	77.30*	80.93*
re1	82.22	83.31	83.13	84.26v	85.38v
						tr11	87.62	85.21	85.81	85.79	86.83
tr12	86.64	80.99*	82.46*	85.30	82.62*
						tr21	90.36	61.90*	78.45*	86.15*	65.12*
tr23	89.05	71.15*	84.02	93.04	73.40*
						tr31	96.86	94.60*	96.28	96.48	95.54
tr41	94.97	94.65	95.21	94.38	95.61
						tr45	91.54	83.64*	87.36*	90.36	86.59*
wap	80.53	81.22	81.83v	75.42*	82.53v
						Average	86.82	82.62	85.03	85.56	84.29
W/T/L	-	0//9/9	1/11/6	2/9/7	5/6/7

表2SEMNB、MNB、DWMNB、MNBTree以及FWMNB的分类精度比较结果

	MNB	DWMNB	MNBTree	FWMNB	SEMNB
						MNB	-	15(7)	11(7)	18(14)	14(9)
DWMNB	3(0)	-	9(5)	11(6)	14(6)
						MNBTree	7(5)	9(5)	-	10(6)	12(7)
FWMNB	0(0)	7(3)	8(4)	-	11(7)
						SEMNB	4(0)	4(1)	6(2)	7(5)	-

表3置信度为95％的纠正的配对双边t测试下分类精度的比较结果

	赢的数目-输的数目	赢的数目	输的数目
				SEMNB	21	29	8
FWMNB	17	31	14
				DWMNB	-1	16	17
MNBTree	-5	18	23
				MNB	-32	5	37

表4排序测试下分类精度的比较结果。

Claims

1.一种结构扩展的多项式朴素贝叶斯文本分类方法，包括训练阶段和分类阶段，其特征在于：

(1)训练阶段包括以下过程：

p (c) = \frac{Σ_{j = 1}^{n} δ (c_{j}, c) + 1}{n + s} - - - (1)

其中，训练文档集D为一个已知的文档集，训练文档集D中的任意一篇文档d表示为单词向量形式d＝＜w₁,w₂,...w_m＞，其中w_i为文档d中的第i个单词，m为训练文档集D中单词的数目；n是训练文档集D中的文档数目，s是文档的类别的数目，c_j是第j篇文档的类标记，δ(c_j,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；

p (w_{i} | c) = \frac{Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + 1}{Σ_{i = 1}^{n} Σ_{j = 1}^{n} f_{j i} δ (c_{j}, c) + m} - - - (2)

W i = G a i n R a t i o (D, w_{i}) = \frac{G a i n (D, w_{i})}{S p l i t I n f o (D, w_{i})} - - - (3)

Gain(D,w_i)通过以下公式计算：

G a i n (D, w_{i}) = E n t r o p y (D) - \underset{v &Element; {0, \overset{&OverBar;}{0}}}{Σ} \frac{| D_{v} |}{| D |} E n t r o p y (D_{v}) - - - (4)

其中，|D_v|是训练文档集D中单词w_i的取值为v的文档数目，Entropy(D)是训练文档集D的熵，通过以下公式计算：

E n t r o p y (D) = - \underset{c &Element; C}{Σ} p_{c} \log_{2} p_{c} - - - (5)

p_{c} = \frac{Σ_{j = 1}^{n} δ (c_{j}, c)}{n} - - - (6)

SplitInfo(D,w_i)通过以下公式计算得到：

S p l i t I n f o (D, w_{i}) = - \underset{v &Element; {0, \overset{&OverBar;}{0}}}{Σ} \frac{| D_{v} |}{| D |} \log_{2} \frac{| D_{v} |}{| D |} - - - (7)

(2)分类阶段包括以下过程：

(2-1)对于文档d中出现的每个单词w_i，i＝1,2,…m，在训练文档中D中选择单词w_i出现的文档组成文档子集D_wi；

(2-2)对于文档d中出现的每个单词w_t，t＝1,2,…,和每个类标记c，利用以下公式和D_wi计算条件概率p(w_t|w_i,c)：