CN111368076B - 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 - Google Patents
一种基于随机森林的伯努利朴素贝叶斯文本分类方法 Download PDFInfo
- Publication number
- CN111368076B CN111368076B CN202010125450.9A CN202010125450A CN111368076B CN 111368076 B CN111368076 B CN 111368076B CN 202010125450 A CN202010125450 A CN 202010125450A CN 111368076 B CN111368076 B CN 111368076B
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- samples
- prediction
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 135
- 238000005070 sampling Methods 0.000 claims abstract description 35
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000003066 decision tree Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 6
- 238000013016 damping Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,训练阶段包括:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。本发明同时考虑了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,维持了模型的计算复杂性和简单性,并用大量实验验证了本发明的有效性。
Description
技术领域
本发明涉及一种基于随机森林的伯努利朴素贝叶斯文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
给定一个训练文档集Doc和一篇待分类的文档d,文档d被表示成单词向量的形式<w1,w2,…,wi,…,wm>,伯努利朴素贝叶斯(BNB)用公式(1)来为文档d分类。
式中,m是词库中所有不同单词的数目,q是训练文档的类别数目,cj表示第j个类别,wi(i=1,2,…,m)表示文档d中是否出现第i个单词,出现为1,不出现为0,先验概率P(cj)和条件概率P(wi|cj)分别用公式(2)和公式(3)来估计。
式中,n是训练文档集Doc中文档的数目,ck是训练文档集Doc中第k篇训练文档的类标记,ωki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0。
虽然BNB已经被证明具有不错的文本分类性能,但是它在分类过程中只考虑单词在文档中是否会出现,并没有考虑每个单词在文档中出现的频率信息。词频信息表征一个单词在文档中的出现次数,在很大程度上影响了分类器的性能。作为BNB的改进版本,多项式朴素贝叶斯(MNB)考虑到了所有单词在文档中出现的频率,大幅度提高了BNB的分类性能,具有更广阔的应用前景。不过MNB面临的一个系统性问题是,当一个类别的训练文档比其他类别的训练文档多很多时,样本个数较少的类别的影响权重便会降低。作为对MNB的补充和改进,补集朴素贝叶斯(CNB)被提出,用来处理类别数目不平衡的数据集。在MNB和CNB的启发下,提出了一种“一对多”的模型(简称为OVA),OVA对MNB和CNB做了合并,在计算条件概率时同时考虑了MNB和CNB计算条件概率的方法,具有不错的分类效果。尽管上述这些文本分类算法已经被证明具有较高的性能,但是它们的特征条件独立性假设在现实中很少成立。
发明内容
为了解决现有技术的不足,本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,为BNB找到了一个合适的改进模型,不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,还维持了模型的计算复杂性和简单性。
本发明为解决其技术问题所采用的技术方案为提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
本发明具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词w在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集和第二样本集其中第一样本集包含单词w的频率值不大于t的样本,第二样本集包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw:
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q),通过公式(7)求得样本集D的基尼值:
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*:
若随机选择的kvalue个单词对应的最优基尼增益均不大于0,则从剩下的m-kvalue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集和第二样本集分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
式中,P(cj)表示先验概率,P(wi|cj)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本;
(2-2)将新的二进制特征表示的预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,…,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
本发明基于其技术方案所具有的有益效果在于:本发明提出的基于随机森林的伯努利朴素贝叶斯文本分类方法利用到了模型结合的策略,不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,还维持了模型的计算复杂性和简单性。更重要的是,大量的实验验证了本发明提供的新方法的有效性。
附图说明
图1是本发明中基于随机森林的伯努利朴素贝叶斯文本分类模型的结构示意图。
具体实施方式
下面结合实施例对本发明作进一步说明。
随机森林(简称RF)是Bagging(装袋)的一个扩展变体。RF以决策树作为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机分裂特征选择。RF通常采用投票法产生最终分类结果,当数据集较大时,基分类器无法拟合整个数据集,导致同一个预测样本在基分类器上的预测结果产生较大的差异,此时采用多数投票的方式显然不够合理。本发明的目的是将RF和BNB有效的结合起来,先利用RF从原始的文本分类数据中学习到一组更加独立的新的特征表示,然后在学习到的新的特征表示上构建BNB,从而大幅度提高BNB和RF的文本分类性能。基于以上发现,本发明提出了一种基于随机森林的伯努利朴素贝叶斯文本分类方法(简记为RFBNB)。朴素贝叶斯模型假定所有的特征变量在给定类变量的前提下是完全相互独立,这个假设在现实中很难成立,因此首先利用RF为BNB学习得到一组更加独立的特征变量,然后再用BNB代替RF中的多数投票,使得最终新方法的分类结果优于RF和BNB。具体到文本分类问题上,新方法首先使用RF对训练文档集进行学习,得到一组随机树,然后用构建的这一组随机树依次分类每一篇训练文档,将得到的分类结果(类标记)组合得到一组新的特征表示,然后再通过一位有效编码的方式将其转化成一组二进制特征表示,最后在编码得到的二进制特征表示上构建BNB。具体过程如图1所示。
图中输入表示输入文档<w1,w2,…,wi,…,wm>,RF中的各基分类器上的带数字节点表示输入文档在基分类器上的最终落入节点,落入节点上的数字表示该基分类器预测输入文档的类别下标,用该文档在每个基分类器上的预测类别下标构建新样本<1 3…2 4>,新样本经过一位有效编码转化为二进制特征表示<1000 0010…0100 0001>供BNB模型训练和预测。
综上所述,本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法(简记为RFBNB),包括训练阶段和分类阶段,训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
本发明具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词ω在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集和第二样本集,其中第一样本集包含单词w的频率值不大于t的样本,第二样本集包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw:
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q,通过公式(7)求得样本集D的基尼值:
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*:
若随机选择的kualue个单词对应的最优基尼增益均不大于0,则从剩下的m-kualue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集和第二样本集分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
式中,P(cj)表示先验概率,P(wi|cj)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本;
(2-2)将新的二进制特征表示的预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,...,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
以下实验为验证本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法的有效性:
在收集到的15个常用文本数据集上系统比较了本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法(RFBNB)和多项式朴素贝叶斯(MNB)以及随机森林(RF)。实验中,将随机森林中随机树的数目T设置为200。T为常量,是一个经验参数。表1给出了实验采用的15个数据集的详细信息。
数据集 | 文档数目 | 单词数目 | 类别数目 |
fbis | 2463 | 2000 | 17 |
oh0 | 1003 | 3182 | 10 |
oh10 | 1050 | 3238 | 10 |
oh15 | 913 | 3100 | 10 |
oh5 | 918 | 3012 | 10 |
re0 | 1657 | 3758 | 25 |
re1 | 1504 | 2886 | 13 |
tr11 | 414 | 6429 | 9 |
tr12 | 313 | 5804 | 8 |
tr21 | 336 | 7902 | 6 |
tr23 | 204 | 5832 | 6 |
tr31 | 927 | 10128 | 7 |
tr41 | 878 | 7454 | 10 |
tr45 | 690 | 8261 | 10 |
wap | 1560 | 8460 | 20 |
表1实验中使用的数据集
表2给出了详细的分类精度比较结果。表中每一种方法在每一个数据集上的分类精度通过平均10次独立运行十字交叉验证得到。然后,用显著性水平为95%的纠正的配对双侧t测试比较了本发明提供的新方法RFBNB和现有的MNB和RF。
Dataset | RFBNB | MNB | RF |
fbis | 86.13±1.96 | 77.11±2.49· | 84.05±1.93· |
oh0 | 90.98±3.03 | 89.55±2.82 | 89.63±3.09· |
oh10 | 85.73±2.97 | 80.60±3.13· | 84.27±3.10 |
oh15 | 86.90±3.45 | 83.60±3.13· | 85.06±3.25· |
oh5 | 90.64±3.25 | 86.63±3.07· | 90.12±2.98 |
re0 | 85.79±2.56 | 80.02±2.95· | 83.39±2.64· |
re1 | 86.57±2.22 | 83.31±2.75· | 83.51±2.07· |
tr11 | 90.95±3.46 | 85.21±4.90· | 87.96±3.23· |
tr12 | 90.06±5.13 | 80.99±6.08· | 87.34±5.27 |
tr21 | 94.82±3.60 | 61.90±8.78· | 85.22±4.08· |
tr23 | 92.60±6.25 | 71.15±9.68· | 83.63±5.65· |
tr31 | 97.35±1.79 | 94.60±2.41· | 97.72±1.79 |
tr41 | 96.14±1.98 | 94.65±2.21 | 94.60±1.89· |
tr45 | 94.33±2.57 | 83.64±4.33· | 92.39±2.47· |
wap | 84.37±2.35 | 81.22±2.59· | 80.87±2.26· |
Average | 90.22 | 82.28 | 87.32 |
W/T/L | - | 13/2/0 | 11/4/0 |
表2分类精度比较结果
表中的符号.表示本发明提供的新方法RFBNB相较于MNB和RF有明显的改进效果。在表的底部,给出了在15个数据集上每种方法的平均分类精度和W/T/L值,每一个W/T/L值表示,相比于MNB和RF,RFBNB在W个数据集上有明显的改进、在T个数据集上无明显差异、在L个数据集上有明显的退化。从实验结果可以看出:
1)本发明提供的新方法RFBNB在15个数据集上的平均分类精度是最高的,达到了90.22%,而现有的两种方法(MNB和RF)在这15个数据集上的平均分类精度分别是82.28%和87.32%;
2)相比于MNB和RF两种现有方法,本发明提供的新方法RFBNB分别在13和11个数据集上有明显的改进;在任何一个数据集上都没有明显退化;
3)本发明提供的新方法RFBNB分类结果远高于现有的MNB和RF,证明采用随机森林学习更加独立的特征表示是非常有效的,并且学习得到的特征可以在不同模型之间传播。这为朴素贝叶斯模型的改进提供了新的途径,证明了贝叶斯文本分类模型在宽度和深度上进行改进的可行性;
4)综上所述,本发明在BNB的基础上,为朴素贝叶斯模型提供了一种简单有效的文本分类新方法,相信会有很好的应用前景。
Claims (2)
1.一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,其特征在于:训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,得到新预测样本,并将新预测样本转化为二进制特征表示的中间预测样本,将二进制特征表示的中间预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
2.根据权利要求1所述的基于随机森林的伯努利朴素贝叶斯文本分类方法,其特征在于具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词w在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集和第二样本集其中第一样本集包含单词w的频率值不大于t的样本,第二样本集包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw:
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q),通过公式(7)求得样本集D的基尼值:
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*:
若随机选择的kvalue个单词对应的最优基尼增益均不大于0,则从剩下的m-kvalue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集和第二样本集分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
式中,P(cj)表示先验概率,P(wi|ci)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wj(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,得到新预测样本,并将新预测样本转化为二进制特征表示的中间预测样本;
(2-2)将二进制特征表示的中间预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,ωi(i=1,2,…,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125450.9A CN111368076B (zh) | 2020-02-27 | 2020-02-27 | 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125450.9A CN111368076B (zh) | 2020-02-27 | 2020-02-27 | 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368076A CN111368076A (zh) | 2020-07-03 |
CN111368076B true CN111368076B (zh) | 2023-04-07 |
Family
ID=71206433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010125450.9A Active CN111368076B (zh) | 2020-02-27 | 2020-02-27 | 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368076B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112702157B (zh) * | 2020-12-04 | 2022-05-24 | 河南大学 | 一种基于改进随机森林算法的分组密码体制识别方法 |
CN112527958A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 用户行为倾向识别方法、装置、设备及存储介质 |
CN112633360B (zh) * | 2020-12-18 | 2024-04-05 | 中国地质大学(武汉) | 一种基于大脑皮层学习模式的分类方法 |
CN113393932B (zh) * | 2021-07-06 | 2022-11-25 | 重庆大学 | 一种帕金森病语音样本段多类型重构变换方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106991323A (zh) * | 2017-03-10 | 2017-07-28 | 中时瑞安(北京)网络科技有限责任公司 | 一种检测Android应用程序广告插件的模型和方法 |
CN109145108A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 文本层叠分类器训练方法、分类方法、装置及计算机设备 |
CN110210973A (zh) * | 2019-05-31 | 2019-09-06 | 三峡大学 | 基于随机森林与朴素贝叶斯模型的内幕交易识别方法 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150032673A1 (en) * | 2013-06-13 | 2015-01-29 | Next Big Sound, Inc. | Artist Predictive Success Algorithm |
WO2015117074A1 (en) * | 2014-01-31 | 2015-08-06 | Global Security Information Analysts, LLC | Document relationship analysis system |
-
2020
- 2020-02-27 CN CN202010125450.9A patent/CN111368076B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106991323A (zh) * | 2017-03-10 | 2017-07-28 | 中时瑞安(北京)网络科技有限责任公司 | 一种检测Android应用程序广告插件的模型和方法 |
CN109145108A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 文本层叠分类器训练方法、分类方法、装置及计算机设备 |
CN110210973A (zh) * | 2019-05-31 | 2019-09-06 | 三峡大学 | 基于随机森林与朴素贝叶斯模型的内幕交易识别方法 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
Non-Patent Citations (4)
Title |
---|
Maduhansi Thenuwara ; Harshani R. K. Nagahamulla.Offline Handwritten Signature Verification System Using Random Forest Classifier .2017 Seventeenth International Conference on Advances in ICT for Emerging Regions (ICTer).191-196. * |
关晓蔷庞继芳梁吉业.基于类别随机化的随机森林算法.计算机科学.2019,196-201. * |
王奕森 ; 夏树涛 ; .集成学习之随机森林算法综述.信息通信技术.2018,(第01期),51-57. * |
郭妍 ; 陈晓 ; 任晓晔 ; .一种优化随机森林模型的室内定位方法.激光杂志.2018,(第10期),74-78. * |
Also Published As
Publication number | Publication date |
---|---|
CN111368076A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368076B (zh) | 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 | |
CN106326346A (zh) | 文本分类方法及终端设备 | |
CN106294684A (zh) | 词向量的文本分类方法及终端设备 | |
CN111859166B (zh) | 一种基于改进的图卷积神经网络的物品评分预测方法 | |
CN112232925A (zh) | 一种融合知识图谱对商品进行个性化推荐的方法 | |
CN112115377B (zh) | 一种基于社交关系的图神经网络链路预测推荐方法 | |
Mao et al. | Greedy optimization classifiers ensemble based on diversity | |
CN112488791A (zh) | 一种基于知识图谱卷积算法的个性化推荐方法 | |
Pandey et al. | An analysis of machine learning techniques (J48 & AdaBoost)-for classification | |
CN112767186B (zh) | 一种基于7-子图拓扑结构的社交网络链接预测方法 | |
CN107729290B (zh) | 一种利用局部敏感哈希优化的超大规模图的表示学习方法 | |
CN114496092B (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
CN103489033A (zh) | 融合自组织映射与概率神经网络的增量式学习方法 | |
CN104820702B (zh) | 一种基于决策树的属性加权方法及文本分类方法 | |
CN109063030A (zh) | 一种基于流式lda主题模型发现文档隐含主题和主题词的方法 | |
CN111695011B (zh) | 一种基于张量表示的动态超图结构学习分类方法及系统 | |
Rooshenas et al. | Discriminative structure learning of arithmetic circuits | |
CN104809233A (zh) | 一种基于信息增益率的属性加权方法及文本分类方法 | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
Tripoliti et al. | Dynamic construction of Random Forests: Evaluation using biomedical engineering problems | |
CN114860973A (zh) | 一种面向小样本场景的深度图像检索方法 | |
Fatima et al. | Learning sparse graphs via majorization-minimization for smooth node signals | |
CN111126443A (zh) | 基于随机游走的网络表示学习方法 | |
CN116662901A (zh) | 一种基于深度强化学习的图结构学习算法 | |
CN112347369B (zh) | 基于网络表征的集成学习动态社会网络链路预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |