CN104820702B - 一种基于决策树的属性加权方法及文本分类方法 - Google Patents
一种基于决策树的属性加权方法及文本分类方法 Download PDFInfo
- Publication number
- CN104820702B CN104820702B CN201510237748.8A CN201510237748A CN104820702B CN 104820702 B CN104820702 B CN 104820702B CN 201510237748 A CN201510237748 A CN 201510237748A CN 104820702 B CN104820702 B CN 104820702B
- Authority
- CN
- China
- Prior art keywords
- document
- word
- decision tree
- following formula
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本发明提供了一种基于决策树的属性加权方法,首先用信息增益率标准构建决策树,然后根据各属性在决策树中测试的最小深度来计算权值。本发明同时提供了依托于该基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,以及依托于该基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了原来的朴素贝叶斯文本分类器分类精度,同时维持了原来朴素贝叶斯算法的简洁性和时间复杂度。
Description
技术领域
本发明涉及一种基于决策树的属性加权方法及文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<w1,w2,…,wm>,多项式朴素贝叶斯(MNB),补集朴素贝叶斯(CNB)和两者的结合模型(OVA)分别用公式1,2和3来分类文档d。
上述公式中符号C是类标记的集合,是类别c的补集(即除类别c以外的其他类),m是单词的数目,wi(i=1,2,…m)是文档d中出现的第i个单词,fi是单词wi在文档d中出现的频率,先验概率p(c)和能够分别用公式4和5进行估计,条件概率p(wi|c)和分别用公式6和7来估计。
上述公式中n是训练文档的数目,l是文档的类别数目,cj是第j篇文档的类标记,fji是第j篇文档中单词wi的频率,并且δ(·)是一个二元函数,当它的两个参数相同时为1否则为0。
尽管这些文本分类算法已经被证明了较高的性能,他们的条件独立性假设在现实中很少成立。因此通过释放它们的条件独立性来提高文本分类器的分类精度是很自然的。许多方法已经被提出了,例如局部学习、实例加权和属性加权。但是,目前已有的算法都是以花费简洁性和执行时间为代价来提高朴素贝叶斯文本分类器的性能。
如何学习属性的权值在构建一个属性加权的朴素贝叶斯文本分类器中是一个关键的问题。为了学习属性的权值,出现了x2统计的属性加权方法,简单表示为Rw,c。这种加权的朴素贝叶斯分类器通过在训练阶段精确的测量项类之间的依赖来提高基本朴素贝叶斯文文本分类器的性能,因此就结果来说文本分类精度极大受限。
另有一种基于CFS的属性加权方法。这种方法首先执行一个基于关联的属性选择过程(CFS)从整个属性空间中选择最好的属性子集,然后赋予较大的权值给选择的属性和较小的权值给未选择的属性。但是CFS属性加权方法的启发式搜索过程具有过高的时间复杂度,对于高维甚至超过万维的文本数据是不适用的。
发明内容
为了解决现有技术的不足,本发明提供了一种基于决策树的属性加权方法及文本分类方法,改善了原来的朴素贝叶斯文本分类器分类精度,同时维持原来朴素贝叶斯算法的简洁性和时间复杂度。
本发明为解决其技术问题所采用的技术方案是:提供了一种基于决策树的属性加权方法,包括以下步骤:
(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为文档d中单词的数目;
利用以下公式计算该训练文档集D中的各个属性的信息增益率:
其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率, Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;
Gain(D,wi)通过以下公式计算:
其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:
其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为c的概率;p(c)通过以下公式计算得到:
其中,n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wi)通过以下公式计算得到:
(2)用信息增益率作为划分标准建立决策树,所述决策树为二叉树,二叉树在生长的每一步选择具有最大信息增益率的单词作为测试属性,单词出现的频率为0或者非0作为测试结果;
(3)遍历决策树,记录每个单词wi在决策树中测试的最小深度di;
(4)对于训练文档集D中的每个单词wi,若其在决策树中出现,则将它的权值Wi设置为否则将它的权值Wi设置为1。
本发明同时提出了一种依托于所述基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;p(wi|c)表示条件概率,通过以下公式计算得到:
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,n为训练文档集D中文档的数目,fji和n均为已知量。
本发明同时提出了一种依托于所述基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,表示一个二元函数,当它的两个参数相同时值为1否则为0;
表示条件概率,通过以下公式计算得到:
本发明同时提出了一种依托于所述基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,表示一个二元函数,当它的两个参数相同时值为1否则为0;p(wi|c)表示条件概率,通过以下公式计算得到:
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,n为训练文档集D中文档的数目,fji和n均为已知量;表示条件概率,通过以下公式计算得到:
本发明基于其技术方案所具有的有益效果在于:本发明不仅把学习到的权值合并到朴素贝叶斯文本分类器的分类公式中,而且将学到的权值合并到条件概率估计里面,不仅可以改善朴素贝叶斯文本分类器的分类性能,而且也不会招致较高的时间花费。利用依托于基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,以及依托于基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法分别对文本进行分类,与现有的基于CFS属性加权方法的文本分类方法相比,避免了启发式搜索过程,具有更低的时间复杂度,同时与基于x2统计的属性加权方法的文本分类方法相比,具有更好的分类精度。在大量标准且广泛使用的文本数据集上的实验结果证明了本发明提出的方法的有效性。
具体实施方式
下面结合实施例对本发明作进一步说明。
本发明提供了一种基于决策树的属性加权方法,包括以下步骤:
(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为文档d中单词的数目;
利用以下公式计算该训练文档集D中的各个属性的信息增益率:
其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;
Gain(D,wi)通过以下公式计算:
其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:
其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为c的概率;p(c)通过以下公式计算得到:
其中,n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wi)通过以下公式计算得到:
(2)用信息增益率作为划分标准建立决策树,所述决策树为二叉树,二叉树在生长的每一步选择具有最大信息增益率的单词作为测试属性,单词出现的频率为0或者非0作为测试结果;
(3)遍历决策树,记录每个单词wi在决策树中测试的最小深度di;
(4)对于训练文档集D中的每个单词wi,若其在决策树中出现,则将它的权值 Wi设置为否则将它的权值Wi设置为1。
本发明同时提出了一种依托于所述基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;p(wi|c)表示条件概率,通过以下公式计算得到:
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,n为训练文档集D中文档的数目,fji和n均为已知量。
本发明同时提出了一种依托于所述基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,表示一个二元函数,当它的两个参数相同时值为1否则为0;
表示条件概率,通过以下公式计算得到:
本发明同时提出了一种依托于所述基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,表示一个二元函数,当它的两个参数相同时值为1否则为0;p(wi|c)表示条件概率,通过以下公式计算得到:
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,n为训练文档集D中文档的数目,fji和n均为已知量;表示条件概率,通过以下公式计算得到:
将本发明的基于决策树的属性加权方法运用到属性加权的朴素贝叶斯文本分类器(FWNBTC),产生的模型叫做决策树加权的朴素贝叶斯文本分类器(DTWNBTC)。当基分类器分别是多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,最终的模型分别称为DTWMNB、DTWCNB和DTWOVA,这三个模型所采用的文本分类方法分别为本发明的依托于基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,以及依托于基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。
将基于x2统计的属性加权方法(Rw,c)分别运用到多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,产生的模型分别为Rw,c-MNB、Rw,c-CNB以及Rw,c-OVA。
将基于相关性的属性加权方法(CFS)分别运用到多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,产生的模型分别为FWMNB、 FWCNB以及FWOVA。
下面三组实验分别针对三种不同的基分类器对基于不同属性加权方法的分类器进行对比。
实验一:MNB、Rw,c-MNB、FWMNB和DTWMNB的比较。
实验二:CNB、Rw,c-CNB、FWCNB和DTWCNB的比较。
实验三:OVA、Rw,c-OVA、FWOVA和DTWOVA的比较。
三组实验中,15个广泛使用的文本分类标准数据集被测试。这些数据集来自不同领域并且代表不同的数据特征。表1详细描叙了这15个数据集的主要特征,具体的数据可从WEKA平台的网站上下载。需要注意的是,19个标准文本分类数据集中的其他4个大数据没有包含,是因为4个大数据集包含了非常多的属性和文档,所以为了减少实验的运行时间,在实验中,去掉了“la1s”、“la2s”、“new3s”以及“ohscal”这4个数据集。
表2、表4和表6分别显示了各方法在每个数据集上通过10次10折交叉验证的分类精度,表的底部列出了平均分类精度。在所有数据集上的算术平均值提供了一个关于相对性能的整体概述。
接下来,运用Friedman测试比较在多个数据集上比较MNB、Rw,c-MNB、FWMNB和DTWMNB。Friedman测试是重复测量的ANOVA的一个非参数等价。运用Friedman测试获得的算法的平均排序分别总结在表2底部。对于4个算法和15个数据集,FF分别根据具有3和42个自由度:15.829545、21.195531和48.5的F分布来分布。这些值都大于α=0.05时F的临界值F(3,42)。因此拒绝空假设,并且继续运用Nemenyi和Bergmann测试来进一步分析哪些算法对是显著不同的。表3、表5和表7列出了获得的z-values和p-values,并且表明了哪些算法对是显著不同的。
从这些实验结果可以看出,本发明的基于决策树的属性加权方法,运用到各种基分类器产生的新的文本分类方法,很少降低原来朴素贝叶斯文本分类器的性能,并且在许多情况下显著地提高了它们的性能。而且,本发明的基于决策树的属性加权方法,运用于各种基分类器后,明显超出所有其他现有的属性加权方法构建的分类器,优点总结如下:
1、就MNB而言,算法的平均排序是:DTWMNB(1.4),FWMNB(2.0667),Rw,c-MNB(3.0667)和MNB(3.4667);DTWMNB明显好于它的比较对象:MNB,Rw,c-MNB;
2、就CNB而言,算法的平均排序是:DTWCNB(1.3667),FWCNB(2.1333),Rw,c-CNB(2.7667),和CNB(3.7333);DTWCNB明显好于它的比较对象:CNB和Rw,c-CNB;
3、就OVA而言,算法的平均排序是:DTWOVA(1.2667),FWOVA(1.8),Rw,c-OVA(3.4667),和OVA(3.4667);DTWMNB明显好于它的比较对象:OVA和Rw,c-OVA;
4、本发明的基于决策树的属性加权方法应用于三种基分类器时,明显好于所有其他的比较对象:当前存在的基于x2统计的属性加权方法(Rw,c),以及当前存在的基于CFS的属性加权方法。
数据集 | 文档数目 | 单词数目 | 类别数目 |
fbis | 2463 | 2000 | 17 |
oh0 | 1003 | 3182 | 10 |
oh10 | 1050 | 3238 | 10 |
oh15 | 913 | 3100 | 10 |
oh5 | 918 | 3012 | 10 |
re0 | 1657 | 3758 | 25 |
re1 | 1504 | 2886 | 13 |
tr11 | 414 | 6429 | 9 |
tr12 | 313 | 5804 | 8 |
tr21 | 336 | 7902 | 6 |
tr23 | 204 | 5832 | 6 |
tr31 | 927 | 10128 | 7 |
tr41 | 878 | 7454 | 10 |
tr45 | 690 | 8261 | 10 |
wap | 1560 | 8460 | 20 |
表1实验中使用的数据集
数据集 | MNB | Rw,c-MNB | FWMNB | DTWMNB |
fbis | 77.11 | 79.87 | 78.69 | 79.45 |
oh0 | 89.55 | 89.05 | 91.47 | 92.27 |
oh10 | 80.6 | 80.41 | 82.25 | 82.70 |
oh15 | 83.6 | 83.61 | 85.63 | 86.36 |
oh5 | 86.63 | 86.46 | 89.32 | 90.98 |
re0 | 80.02 | 77.07 | 80.93 | 81.45 |
re1 | 83.31 | 82.72 | 85.38 | 86.17 |
tr11 | 85.21 | 85.44 | 86.83 | 86.68 |
tr12 | 80.99 | 84.76 | 82.62 | 84.92 |
tr21 | 61.9 | 69.63 | 65.12 | 62.41 |
tr23 | 71.15 | 73.82 | 73.4 | 78.56 |
tr31 | 94.6 | 94.2 | 95.54 | 95.65 |
tr41 | 94.65 | 93.05 | 95.61 | 95.24 |
tr45 | 83.64 | 88.88 | 86.59 | 89.07 |
wap | 81.22 | 76.33 | 82.53 | 82.42 |
精度平均值 | 82.28 | 83.02 | 84.13 | 84.96 |
平均排序 | 3.4667 | 3.0667 | 2.0667 | 1.4 |
表2 MNB作基分类器的分类精度比较
i | 对比算法 | z=(R0-Ri)/SE | p |
6 | MNB vs.DTWMNB | 4.384062 | 0.000012 |
5 | Rw,c-MNB vs.DTWMNB | 3.535534 | 0.000407 |
4 | MNB vs.FWMNB | 2.969848 | 0.002979 |
3 | Rw,c-MNB vs.FWMNB | 2.12132 | 0.033895 |
2 | FWMNB vs.DTWMNB | 1.414214 | 0.157299 |
1 | MNB vs.Rw,c-MNB | 0.848528 | 0.396144 |
表3 MNB作基分类器时对于a=0.05的p-values
Nemenyi测试拒绝未调整P-value≤0.008333的假设:
1、MNB vs.DTWMNB
2、Rw,c-MNB vs.DTWMNB
3、MNB vs.FWMNB
Bergmann测试拒绝这些假设:
1、MNB vs.FWMNB
2、MNB vs.DTWMNB
3、Rw,c-MNB vs.FWMNB
4、Rw,c-MNB vs.DTWMNB
数据集 | CNB | Rw,c-CNB | FWCNB | DTWCNB |
fbis | 76.78 | 78.27 | 77.17 | 76.47 |
oh0 | 92.31 | 92.49 | 93.62 | 93.94 |
oh10 | 81.76 | 82.2 | 83.26 | 83.50 |
oh15 | 84.38 | 85.32 | 86.1 | 86.57 |
oh5 | 90.58 | 90.96 | 92.15 | 92.75 |
re0 | 82.37 | 80.74 | 83.47 | 83.53 |
re1 | 84.99 | 86.16 | 84.82 | 85.46 |
tr11 | 82.64 | 82.19 | 83.27 | 84.06 |
tr12 | 86.32 | 86.57 | 87.88 | 87.88 |
tr21 | 85.94 | 86.39 | 87.67 | 86.81 |
tr23 | 70.59 | 72.47 | 77.06 | 85.04 |
tr31 | 94.67 | 95.09 | 96.02 | 96.41 |
tr41 | 94.23 | 94.91 | 94.91 | 95.00 |
tr45 | 87.2 | 89.13 | 89.07 | 91.55 |
wap | 77.53 | 78.1 | 78.41 | 79.73 |
精度平均值 | 84.82 | 85.4 | 86.33 | 87.25 |
平均排序 | 3.7333 | 2.7667 | 2.1333 | 1.3667 |
表4 CNB作基分类器的分类精度比较
i | 对比算法 | z=(R0-Ri)/SE | p |
6 | CNB vs.DTWCNB | 5.020458 | 0.000001 |
5 | CNB vs.FWCNB | 3.394113 | 0.000689 |
4 | Rw,c-CNB vs.DTWCNB | 2.969848 | 0.002979 |
3 | CNB vs.Rw,c-CNB | 2.05061 | 0.040305 |
2 | FWCNB vs.DTWCNB | 1.626346 | 0.103876 |
1 | Rw,c-CNB vs.FWCNB | 1.343503 | 0.179109 |
表5 CNB作基分类器时对于a=0.05的p-values
Nemenyi测试拒绝未调整P-value≤0.008333的假设:
1、CNB vs.DTWCNB
2、CNB vs.FWCNB
3、Rw,c-CNB vs.DTWCNB
Bergmann测试拒绝这些假设:
1、CNB vs.FWCNB
2、CNB vs.DTWCNB
3、Rw,c-CNB vs.DTWCNB
数据集 | OVA | Rw,c-OVA | FWOVA | DTWOVA |
fbis | 80.94 | 80.80 | 81.36 | 82.69 |
oh0 | 91.49 | 90.12 | 92.84 | 93.68 |
oh10 | 81.86 | 81.51 | 83.60 | 83.73 |
oh15 | 84.39 | 84.50 | 86.25 | 87.03 |
oh5 | 89.44 | 88.31 | 90.96 | 92.08 |
re0 | 81.54 | 78.81 | 82.45 | 82.79 |
re1 | 84.77 | 85.37 | 85.99 | 86.72 |
tr11 | 85.93 | 86.12 | 86.31 | 88.13 |
tr12 | 84.15 | 86.01 | 86.32 | 86.89 |
tr21 | 71.34 | 76.58 | 82.71 | 72.71 |
tr23 | 71.44 | 73.85 | 76.30 | 81.96 |
tr31 | 94.68 | 94.52 | 96.12 | 96.04 |
tr41 | 94.94 | 93.83 | 95.73 | 95.65 |
tr45 | 86.45 | 89.23 | 89.81 | 91.90 |
wap | 80.65 | 77.21 | 81.79 | 82.19 |
精度平均值 | 84.27 | 84.45 | 86.57 | 86.95 |
平均排序 | 3.4667 | 3.4667 | 1.8 | 1.2667 |
表6 OVA作基分类器的分类精度比较
i | 对比算法 | z=(R0-Ri)/SE | p |
6 | OVA vs.DTWOVA | 4.666905 | 0.000003 |
5 | Rw,c-OVA vs.DTWOVA | 4.666905 | 0.000003 |
4 | OVA vs.FWOVA | 3.535534 | 0.000407 |
3 | Rw,c-OVA vs.FWOVA | 3.535534 | 0.000407 |
2 | FWOVA vs.DTWOVA | 1.131371 | 0.257899 |
1 | OVA vs.Rw,c-OVA | 0 | 1 |
表7 OVA作基分类器时对于a=0.05的p-values
Nemenyi测试拒绝未调整P-value≤0.008333的假设:
1、OVA vs.DTWOVA
2、Rw,c-OVA vs.DTWOVA
3、OVA vs.FWOVA
4、Rw,c-OVA vs.FWOVA
Bergmann测试拒绝这些假设:
1、OVA vs.FWOVA
2、OVA vs.DTWOVA
3、Rw,c-OVA vs.FWOVA
4、Rw,c-OVA vs.DTWOVA 。
Claims (4)
1.一种基于决策树的属性加权方法,其特征在于包括以下步骤:
(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为文档d中单词的数目;
利用以下公式计算该训练文档集D中的各个属性的信息增益率:
其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;
Gain(D,wi)通过以下公式计算:
其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:
其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为c的概率;p(c)通过以下公式计算得到:
其中,n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wi)通过以下公式计算得到:
(2)用信息增益率作为划分标准建立决策树,所述决策树为二叉树,二叉树在生长的每一步选择具有最大信息增益率的单词作为测试属性,单词出现的频率为0或者非0作为测试结果;
(3)遍历决策树,记录每个单词wi在决策树中测试的最小深度di;
(4)对于训练文档集D中的每个单词wi,若其在决策树中出现,则将它的权值Wi设置为否则将它的权值Wi设置为1。
2.一种依托于权利要求1所述基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;p(wi|c)表示条件概率,通过以下公式计算得到:
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,n为训练文档集D中文档的数目,fji和n均为已知量。
3.一种依托于权利要求1所述基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,表示一个二元函数,当它的两个参数相同时值为1否则为0;
表示条件概率,通过以下公式计算得到:
。
4.一种依托于权利要求1所述基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词wi在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,表示一个二元函数,当它的两个参数相同时值为1否则为0;p(wi|c)表示条件概率,通过以下公式计算得到:
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,n为训练文档集D中文档的数目,fji和n均为已知量;表示条件概率,通过以下公式计算得到:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510237748.8A CN104820702B (zh) | 2015-05-12 | 2015-05-12 | 一种基于决策树的属性加权方法及文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510237748.8A CN104820702B (zh) | 2015-05-12 | 2015-05-12 | 一种基于决策树的属性加权方法及文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104820702A CN104820702A (zh) | 2015-08-05 |
CN104820702B true CN104820702B (zh) | 2018-05-22 |
Family
ID=53730997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510237748.8A Expired - Fee Related CN104820702B (zh) | 2015-05-12 | 2015-05-12 | 一种基于决策树的属性加权方法及文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104820702B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373808B (zh) * | 2015-10-28 | 2018-11-20 | 小米科技有限责任公司 | 信息处理方法及装置 |
CN106909611B (zh) * | 2017-01-11 | 2020-04-03 | 北京众荟信息技术股份有限公司 | 一种基于文本信息抽取的酒店自动匹配方法 |
CN107391772B (zh) * | 2017-09-15 | 2020-12-01 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN110147447B (zh) * | 2019-04-25 | 2022-11-18 | 中国地质大学(武汉) | 一种隐多项式朴素贝叶斯文本分类方法及装置 |
CN110197066B (zh) * | 2019-05-29 | 2021-04-20 | 轲飞(北京)环保科技有限公司 | 一种云计算环境下的虚拟机监控方法及监控系统 |
CN111368076B (zh) * | 2020-02-27 | 2023-04-07 | 中国地质大学(武汉) | 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819604A (zh) * | 2010-05-24 | 2010-09-01 | 天津大学 | 基于概率粗糙集的决策树生成方法 |
-
2015
- 2015-05-12 CN CN201510237748.8A patent/CN104820702B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819604A (zh) * | 2010-05-24 | 2010-09-01 | 天津大学 | 基于概率粗糙集的决策树生成方法 |
Non-Patent Citations (3)
Title |
---|
A CFS-Based Feature Weighting Approach to Naïve Bayes Text Classifiers;Shasha wang,Liangxiao Jiang,Chaoqun Li;《ICANN2014》;20141231;第557-558页第2部分 * |
基于决策树分类算法的WEB文本分类研究;林炎钟;《中国优秀硕士学位论文全文数据库》;20120115(第1期);第20-25页第3.2-3.3节以及第44-45页第5.2.3部分 * |
基于特征加权的多关系朴素贝叶斯分类模型;徐光美等;《计算机科学》;20141031;第41卷(第10期);第284页第3段 * |
Also Published As
Publication number | Publication date |
---|---|
CN104820702A (zh) | 2015-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820702B (zh) | 一种基于决策树的属性加权方法及文本分类方法 | |
Xu et al. | Overfitting remedy by sparsifying regularization on fully-connected layers of CNNs | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN105224695B (zh) | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
CN106202032B (zh) | 一种面向微博短文本的情感分析方法及其系统 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN109740154A (zh) | 一种基于多任务学习的在线评论细粒度情感分析方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN104809233A (zh) | 一种基于信息增益率的属性加权方法及文本分类方法 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN102521656A (zh) | 非平衡样本分类的集成迁移学习方法 | |
CN102298646A (zh) | 一种主观文本和客观文本分类方法及装置 | |
CN105022754A (zh) | 基于社交网络的对象分类方法及装置 | |
CN103745482B (zh) | 一种基于蝙蝠算法优化模糊熵的双阈值图像分割方法 | |
CN105045825B (zh) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 | |
JP5503633B2 (ja) | トピックモデル学習方法、装置、及びプログラム | |
CN106055661A (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN107247753A (zh) | 一种相似用户选取方法及装置 | |
CN110097096A (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
CN105279147A (zh) | 一种译员稿件快速匹配方法 | |
CN103020979A (zh) | 基于稀疏遗传聚类的图像分割方法 | |
CN107392155A (zh) | 基于多目标优化的稀疏受限玻尔兹曼机的手写体识别方法 | |
CN106844596A (zh) | 一种基于改进的svm中文文本分类方法 | |
CN111930944B (zh) | 文件标签分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180522 Termination date: 20200512 |
|
CF01 | Termination of patent right due to non-payment of annual fee |