CN105045825B - 一种结构扩展的多项式朴素贝叶斯文本分类方法 - Google Patents
一种结构扩展的多项式朴素贝叶斯文本分类方法 Download PDFInfo
- Publication number
- CN105045825B CN105045825B CN201510366258.8A CN201510366258A CN105045825B CN 105045825 B CN105045825 B CN 105045825B CN 201510366258 A CN201510366258 A CN 201510366258A CN 105045825 B CN105045825 B CN 105045825B
- Authority
- CN
- China
- Prior art keywords
- word
- document
- training
- documents
- following formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明本发明提供了一种结构扩展的多项式朴素贝叶斯文本分类方法,首先以测试文档中出现的每个单词作为父亲节点构建一个一依赖多项式估测器,然后加权平均所有的一依赖多项式估测器来预测测试文档的类别,其中的权值是每个单词的信息增益率。本发明避免了贝叶斯网络的结构学习阶段,从而降低了由于文本数据的高维性带来的时间花销,同时本发明将双条件概率的估计过程推迟到了分类阶段,巧妙地节省了较大的空间开销。本发明不仅改善了多项式朴素贝叶斯文本分类器的分类精度,而且还避免了贝叶斯网络结构学习的时间和空间开销。
Description
技术领域
本发明涉及一种结构扩展的多项式朴素贝叶斯文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<w1,w2,…,wm>,多项式朴素贝叶斯(MNB)用公式10来分类文档d。
上述公式中符号C是类标记的集合,m是单词的数目,wi(i=1,2,…m)是文档d中出现的第i个单词,fi是单词wi在文档d中出现的频率,先验概率p(c)用公式1进行估计,条件概率p(wi|c)用公式2来估计。
其中,n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;fji表示训练文档集D中第j篇文档中出现单词wi的频率。
尽管多项式朴素贝叶斯文本分类方法已经被证明具有较高的分类性能,但它的属性条件独立性假设在现实中很少成立,因此通过释放它的属性条件独立性来提高它的分类性能是很自然的想法。一种最直接的方式就是通过增加有向边来表示属性之间的依赖关系,即结构扩展。但是由于文本数据高维性的特点,学习一个最优的多项式贝叶斯网络文本分类模型几乎是不可能的。这是因为学习最优的多项式贝叶斯网络文本分类模型不仅消耗空间而且消耗时间。所以一个没有结构学习的多项式贝叶斯网络文本分类模型是可取的。
当前用于改进多项式朴素贝叶斯文本分类模型的方法有很多。这其中包括单词频率转化、实例加权、局部学习、属性加权、属性选择等。但是由于文本数据本身的高维性,至今尚未发现任何改进多项式朴素贝叶斯文本分类模型的结构扩展方法。
发明内容
为了解决现有技术的不足,本发明提供了一种结构扩展的多项式朴素贝叶斯文本分类方法,不仅改善了多项式朴素贝叶斯文本分类器的分类精度,而且避免了贝叶斯网络结构学习的时间和空间开销。
本发明为解决其技术问题所采用的技术方案是:提供了一种结构扩展的多项式朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,其中,
(1)训练阶段包括以下过程:
(1-1)利用以下公式计算训练文档集D中每个类别的先验概率p(c):
其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中单词的数目;n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算该训练文档集D中的各个属性的权值Wi:
其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;
Gain(D,wi)通过以下公式计算:
其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:
其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:
其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wi)通过以下公式计算得到:
(2)分类阶段包括以下过程:
(2-1)对于文档d中出现的每个单词wi,i=1,2,…m,在训练文档中D中选择单词wi出现的文档组成文档子集Dwi;
(2-2)对于文档d中出现的每个单词wt,t=1,2,…,m∧t≠i,和每个类标记c,利用以下公式和Dwi计算条件概率p(wt|wi,c):
其中,n是训练文档集D中的文档数目,fji表示训练文档集D中第j篇文档中出现单词wi的频率,fji>0表示单词wi出现在第j篇文档中,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,m为训练文档集D中单词的数目,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)基于已经计算好的p(c),p(wi|c),p(wt|wi,c)和Wi,利用以下公式来预测文档d的类标记c(d):
其中,Wi是文档d中第i个单词的权值,fi和ft分别是文档d中第i个单词和第t个单词的频率。
本发明基于其技术方案所具有的有益效果在于:本发明为了避免结构扩展的贝叶斯网络费时的结构学习过程,首先以测试文档中出现的每个单词作为父亲节点构建一个一依赖多项式估测器,然后加权平均所有的一依赖多项式估测器来预测测试文档的类别,从而很好地避免了耗时的结构学习阶段。另外由于文本数据的高维性,在计算双条件概率p(wt|wi,c)时会消耗大量的空间,为了节约空间资源,本发明将双条件概率的估计过程推迟到了分类阶段,因为这样只需要根据文档d中出现的单词来计算双条件概率,而不是文档集合D中的所有单词,这一操作使本方法在计算条件概率p(wt|wi,c)的空间复杂度由原来的O(sm2)降低到现在的O(s|d|)(s是类别总数,m是文档集合D中单词的数目,|d|是文档d中的单词数)。
具体实施方式
下面结合实施例对本发明作进一步说明。
本发明提供了一种结构扩展的多项式朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,其中,
(1)训练阶段包括以下过程:
(1-1)利用以下公式计算训练文档集D中每个类别的先验概率p(c):
其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中单词的数目;n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算该训练文档集D中的各个属性的权值Wi:
其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;
Gain(D,wi)通过以下公式计算:
其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:
其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:
其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wi)通过以下公式计算得到:
(2)分类阶段包括以下过程:
(2-1)对于文档d中出现的每个单词wi,i=1,2,…m,在训练文档中D中选择单词wi出现的文档组成文档子集Dwi;
(2-2)对于文档d中出现的每个单词wt,t=1,2,…,m∧t≠i,和每个类标记c,利用以下公式和Dwi计算条件概率p(wt|wi,c):
其中,n是训练文档集D中的文档数目,fji表示训练文档集D中第j篇文档中出现单词wi的频率,fji>0表示单词wi出现在第j篇文档中,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,m为训练文档集D中单词的数目,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)基于已经计算好的p(c),p(wi|c),p(wt|wi,c)和Wi,利用以下公式来预测文档d的类标记c(d):
其中,Wi是文档d中第i个单词的权值,fi和ft分别是文档d中第i个单词和第t个单词的频率。
从上面的描叙可以看出,本发明提出的是一种结构扩展的多项式朴素贝叶斯文本分类方法,产生的模型称为结构扩展的多项式朴素贝叶斯(简记为SEMNB),本方法通过在单词间添加有向边来表达单词之间的依赖关系,从而缓解多项式朴素贝叶斯的属性条件独立假设,不仅改善了多项式朴素贝叶斯(简记为MNB)的分类精度,而且还避免了贝叶斯网络结构学习的时间和空间开销。
在后面的实验部分,将本发明提出的结构扩展的多项式朴素贝叶斯(简记为SEMNB)和标准的多项式朴素贝叶斯(简记为MNB)以及它的一些经典的改进模型进行比较,包括判别加权的多项式朴素贝叶斯(简记为DWMNB),多项式朴素贝叶斯树(简记为MNBTree),以及特征加权的多项式朴素贝叶斯(简记为FWMNB)。
判别加权的多项式朴素贝叶斯(简记为DWMNB)通过实例加权方法来缓解多项式朴素贝叶斯的属性条件独立假设。该方法在每一次迭代过程中,根据每个训练实例的条件概率损失来设置它的权值。
多项式朴素贝叶斯树(简记为MNBTree)通过局部学习方法来缓解多项式朴素贝叶斯的属性条件独立假设。该方法在决策树的叶子节点上构建多项式朴素贝叶斯。
特征加权的多项式朴素贝叶斯(简记为FWMNB)通过特征加权方法来缓解多项式朴素贝叶斯的属性条件独立假设。该方法首先执行一次基于相关性的特征选择(简记为CFS)步骤,然后给予选中的特征较大的权值,未选中的特征较小的权值。
为了验证本发明提出的结构扩展的多项式朴素贝叶斯文本分类方法的有效性,实验比较了SEMNB、MNB、DWMNB、MNBTree以及FWMNB的分类性能。
在实验中,18个广泛使用的文本分类标准数据集被测试。这些数据集来自不同领域并且代表不同的数据特征。表1详细描述了这18个数据集的主要特征,具体的数据可从WEKA平台的网站上下载。需要注意的是,19个标准文本分类数据集中的其他1个大数据没有包含,是因为这个大数据集包含过多的属性和文档。所以为了减少运行实验的时间,在实验中,去掉了“new3s”这个数据集。
表2显示了各方法在每个数据集上通过10次10折交叉验证方法得到的分类精度,表中的符号“v”和“*”分别表示在置信度为95%的纠正的配对双边t测试下现有方法相比于本发明提出的方法SEMNB有显著的提高和降低。表的底部列出了平均分类精度和Win/Tie/Lose(W/T/L)值。在所有数据集上的算术平均值提供了一个关于相对性能的整体概述,W/T/L值表示与本发明提出的方法SEMNB相比,现有方法赢了W个数据集,平了T个数据集,输了L个数据集。
最后,用置信度为95%的纠正的配对双边t测试来比较每一对方法的性能。表3和4分别显示了分类精度的比较结果。在表3中,对于每个记录i(j)而言,i表示对应列中的方法分类精度高于对应行中方法的数据集数目,而j表示对应列中的方法在95%置信度下分类精度高于对应行方法的数据集数目。在表4中,第一列表示对应的方法相比于其他所有方法赢的数据集数目和输的数据集数目的差,第二列和第三列分别表示对应方法赢的数据集总数和输的数据集总数。
从这些实验结果可以看出,SEMNB的分类精度明显超出了MNB,甚至还好于现有的改进方法:DWMNB,MNBTree和FWMNB。实验结果的亮点总结如下:
1.相比于MNB,SEMNB在9个数据集上明显优于MNB,并且没有在任何数据集上输给MNB。另外,SEMNB的平均分类精度(86.82%)也明显高于MNB的平均分类精度(82.62%)。
2.SEMNB甚至还好于另外三种经典的改进方法:DWMNB(6赢1输),MNBTree(7赢2输)和FWMNB(7赢5输)。另外,DWMNB(85.03%),MNBTree(85.56%)和FWMNB(84.29%)的平均分类精度也要明显低于SEMNB的平均分类精度。
3.总体来说,SEMNB是所有比较方法中分类性能最好的,从高到低的详细排序顺序是SEMNB,FWMNB,DWMNB,MNBTree和MNB。
数据集 | 文档数目 | 单词数目 | 类别数目 |
fbis | 2463 | 2000 | 17 |
la1s | 3204 | 13195 | 6 |
la2s | 3075 | 12432 | 6 |
oh0 | 1003 | 3182 | 10 |
oh10 | 1050 | 3238 | 10 |
oh15 | 913 | 3100 | 10 |
oh5 | 918 | 3012 | 10 |
ohscal | 11162 | 11465 | 10 |
re0 | 1657 | 3758 | 25 |
re1 | 1504 | 2886 | 13 |
tr11 | 414 | 6429 | 9 |
tr12 | 313 | 5804 | 8 |
tr21 | 336 | 7902 | 6 |
tr23 | 204 | 5832 | 6 |
tr31 | 927 | 10128 | 7 |
tr41 | 878 | 7454 | 10 |
tr45 | 690 | 8261 | 10 |
wap | 1560 | 8460 | 20 |
表1实验中使用的数据集
数据集 | SEMNB | MNB | DWMNB | MNBTree | FWMNB |
fbis | 83.27 | 77.11* | 80.39* | 79.06* | 78.69* |
la1s | 89.15 | 88.41 | 88.85 | 87.22* | 88.79 |
la2s | 91.01 | 89.88* | 90.14* | 87.34* | 90.22* |
oh0 | 88.87 | 89.55 | 89.64 | 88.93 | 91.47v |
oh10 | 80.66 | 80.60 | 80.64 | 83.25 | 82.25 |
oh15 | 83.36 | 83.60 | 83.29 | 79.01* | 85.63v |
oh5 | 87.55 | 86.63 | 86.87 | 88.74 | 89.32v |
ohscal | 76.40 | 74.70* | 74.30* | 78.00v | 76.31 |
re0 | 82.73 | 80.02* | 81.81 | 77.30* | 80.93* |
re1 | 82.22 | 83.31 | 83.13 | 84.26v | 85.38v |
tr11 | 87.62 | 85.21 | 85.81 | 85.79 | 86.83 |
tr12 | 86.64 | 80.99* | 82.46* | 85.30 | 82.62* |
tr21 | 90.36 | 61.90* | 78.45* | 86.15* | 65.12* |
tr23 | 89.05 | 71.15* | 84.02 | 93.04 | 73.40* |
tr31 | 96.86 | 94.60* | 96.28 | 96.48 | 95.54 |
tr41 | 94.97 | 94.65 | 95.21 | 94.38 | 95.61 |
tr45 | 91.54 | 83.64* | 87.36* | 90.36 | 86.59* |
wap | 80.53 | 81.22 | 81.83v | 75.42* | 82.53v |
Average | 86.82 | 82.62 | 85.03 | 85.56 | 84.29 |
W/T/L | - | 0//9/9 | 1/11/6 | 2/9/7 | 5/6/7 |
表2SEMNB、MNB、DWMNB、MNBTree以及FWMNB的分类精度比较结果
MNB | DWMNB | MNBTree | FWMNB | SEMNB | |
MNB | - | 15(7) | 11(7) | 18(14) | 14(9) |
DWMNB | 3(0) | - | 9(5) | 11(6) | 14(6) |
MNBTree | 7(5) | 9(5) | - | 10(6) | 12(7) |
FWMNB | 0(0) | 7(3) | 8(4) | - | 11(7) |
SEMNB | 4(0) | 4(1) | 6(2) | 7(5) | - |
表3置信度为95%的纠正的配对双边t测试下分类精度的比较结果
赢的数目-输的数目 | 赢的数目 | 输的数目 | |
SEMNB | 21 | 29 | 8 |
FWMNB | 17 | 31 | 14 |
DWMNB | -1 | 16 | 17 |
MNBTree | -5 | 18 | 23 |
MNB | -32 | 5 | 37 |
表4排序测试下分类精度的比较结果
Claims (1)
1.一种结构扩展的多项式朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,其特征在于:
(1)训练阶段包括以下过程:
(1-1)利用以下公式计算训练文档集D中每个类别的先验概率p(c):
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mi>s</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中单词的数目;n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>f</mi>
<mrow>
<mi>j</mi>
<mi>i</mi>
</mrow>
</msub>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>f</mi>
<mrow>
<mi>j</mi>
<mi>i</mi>
</mrow>
</msub>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>m</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算该训练文档集D中的各个属性的权值Wi:
<mrow>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mi>R</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>S</mi>
<mi>p</mi>
<mi>l</mi>
<mi>i</mi>
<mi>t</mi>
<mi>I</mi>
<mi>n</mi>
<mi>f</mi>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;
Gain(D,wi)通过以下公式计算:
<mrow>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>D</mi>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>E</mi>
<mi>n</mi>
<mi>t</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mrow>
<mo>{</mo>
<mrow>
<mn>0</mn>
<mo>,</mo>
<mover>
<mn>0</mn>
<mo>&OverBar;</mo>
</mover>
</mrow>
<mo>}</mo>
</mrow>
</mrow>
</munder>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>D</mi>
<mi>v</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mi>E</mi>
<mi>n</mi>
<mi>t</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>D</mi>
<mi>v</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,v∈{0,0};Entropy(D)是训练文档集D的熵,通过以下公式计算:
<mrow>
<mi>E</mi>
<mi>n</mi>
<mi>t</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>c</mi>
<mo>&Element;</mo>
<mi>C</mi>
</mrow>
</munder>
<msub>
<mi>p</mi>
<mi>c</mi>
</msub>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<msub>
<mi>p</mi>
<mi>c</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:
<mrow>
<msub>
<mi>p</mi>
<mi>c</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>n</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wi)通过以下公式计算得到:
<mrow>
<mi>S</mi>
<mi>p</mi>
<mi>l</mi>
<mi>i</mi>
<mi>t</mi>
<mi>I</mi>
<mi>n</mi>
<mi>f</mi>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mover>
<mn>0</mn>
<mo>&OverBar;</mo>
</mover>
<mo>}</mo>
</mrow>
</munder>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>D</mi>
<mi>v</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>D</mi>
<mi>v</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
(2)分类阶段包括以下过程:
(2-1)对于文档d中出现的每个单词wi,i=1,2,…m,在训练文档中D中选择单词wi出现的文档组成文档子集Dwi;
(2-2)对于文档d中出现的每个单词wt,t=1,2,…,m∧t≠i,和每个类标记c,利用以下公式和Dwi计算条件概率p(wt|wi,c):
其中,n是训练文档集D中的文档数目,fji表示训练文档集D中第j篇文档中出现单词wi的频率,fji>0表示单词wi出现在第j篇文档中,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,m为训练文档集D中单词的数目,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)基于已经计算好的p(c),p(wi|c),p(wt|wi,c)和Wi,利用以下公式来预测文档d的类标记c(d):
其中,Wi是文档d中第i个单词的权值,fi和ft分别是文档d中第i个单词和第t个单词的频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510366258.8A CN105045825B (zh) | 2015-06-29 | 2015-06-29 | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510366258.8A CN105045825B (zh) | 2015-06-29 | 2015-06-29 | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105045825A CN105045825A (zh) | 2015-11-11 |
CN105045825B true CN105045825B (zh) | 2018-05-01 |
Family
ID=54452372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510366258.8A Expired - Fee Related CN105045825B (zh) | 2015-06-29 | 2015-06-29 | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045825B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750850B (zh) * | 2015-04-14 | 2017-11-21 | 中国地质大学(武汉) | 一种基于信息增益率的属性选择方法 |
CN107391772B (zh) * | 2017-09-15 | 2020-12-01 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN108647259B (zh) * | 2018-04-26 | 2022-06-10 | 南京邮电大学 | 基于改进深度特征加权的朴素贝叶斯文本分类方法 |
CN109299255A (zh) * | 2018-09-12 | 2019-02-01 | 东莞数汇大数据有限公司 | 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 |
CN109635254A (zh) * | 2018-12-03 | 2019-04-16 | 重庆大学 | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
CN110147447B (zh) * | 2019-04-25 | 2022-11-18 | 中国地质大学(武汉) | 一种隐多项式朴素贝叶斯文本分类方法及装置 |
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
CN116484750A (zh) * | 2022-11-29 | 2023-07-25 | 四川骏逸富顿科技有限公司 | 药店风险等级识别模型生成方法及药店风险等级识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955703A (zh) * | 2014-04-25 | 2014-07-30 | 杭州电子科技大学 | 一种基于朴素贝叶斯的医疗影像疾病分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
US20140214835A1 (en) * | 2013-01-29 | 2014-07-31 | Richard Thomas Oehrle | System and method for automatically classifying documents |
-
2015
- 2015-06-29 CN CN201510366258.8A patent/CN105045825B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955703A (zh) * | 2014-04-25 | 2014-07-30 | 杭州电子科技大学 | 一种基于朴素贝叶斯的医疗影像疾病分类方法 |
Non-Patent Citations (2)
Title |
---|
朴素贝叶斯分类器及其改进算法研究;蒋良孝;《中国博士学位论文全文数据库》;20091115(第11期);第16-25页 * |
选择性贝叶斯分类算法研究;陈景年;《中国博士学位论文全文数据库》;20080815(第8期);第21-24页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105045825A (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045825B (zh) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 | |
Tian et al. | A probabilistic model for learning multi-prototype word embeddings | |
CN104820702B (zh) | 一种基于决策树的属性加权方法及文本分类方法 | |
Abualigah et al. | Feature selection with β-hill climbing search for text clustering application | |
CN104809233A (zh) | 一种基于信息增益率的属性加权方法及文本分类方法 | |
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
CN112800207B (zh) | 一种商品信息推荐方法、装置及存储介质 | |
US20230342606A1 (en) | Training method and apparatus for graph neural network | |
JP2013134752A (ja) | トピックモデル学習方法、装置、及びプログラム | |
Gallaugher et al. | On fractionally-supervised classification: weight selection and extension to the multivariate t-distribution | |
CN111368076A (zh) | 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 | |
CN111611293B (zh) | 一种基于特征加权与MapReduce的离群数据挖掘方法 | |
CN104077765B (zh) | 图像分割装置、图像分割方法 | |
CN108596204B (zh) | 一种基于改进型scdae的半监督调制方式分类模型的方法 | |
Lutz et al. | Robustified L2 boosting | |
Al Mamun et al. | Pan-cancer feature selection and classification reveals important long non-coding RNAs | |
Asgharzadeh | Approximate MLE for the scaled generalized exponential distribution under progressive type-II censoring | |
Gao et al. | Estimation of symmetry-constrained Gaussian graphical models: application to clustered dense networks | |
Olaniran et al. | Improved Bayesian feature selection and classification methods using bootstrap prior techniques | |
CN111161089A (zh) | 基于copra的重叠社区划分方法 | |
CN110147447B (zh) | 一种隐多项式朴素贝叶斯文本分类方法及装置 | |
Calderhead et al. | Sparse approximate manifolds for differential geometric mcmc | |
CN103744830A (zh) | 基于语义分析的excel文档中身份信息的识别方法 | |
Koeman et al. | Mutual information estimation with random forests | |
CN110109977A (zh) | 一种基于双重约束传播标签的社团挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180501 Termination date: 20200629 |