CN111368076B - 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 - Google Patents

一种基于随机森林的伯努利朴素贝叶斯文本分类方法 Download PDF

Info

Publication number
CN111368076B
CN111368076B CN202010125450.9A CN202010125450A CN111368076B CN 111368076 B CN111368076 B CN 111368076B CN 202010125450 A CN202010125450 A CN 202010125450A CN 111368076 B CN111368076 B CN 111368076B
Authority
CN
China
Prior art keywords
training
sample
samples
prediction
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010125450.9A
Other languages
English (en)
Other versions
CN111368076A (zh
Inventor
蒋良孝
张文钧
张欢
李超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202010125450.9A priority Critical patent/CN111368076B/zh
Publication of CN111368076A publication Critical patent/CN111368076A/zh
Application granted granted Critical
Publication of CN111368076B publication Critical patent/CN111368076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,训练阶段包括:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。本发明同时考虑了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,维持了模型的计算复杂性和简单性,并用大量实验验证了本发明的有效性。

Description

一种基于随机森林的伯努利朴素贝叶斯文本分类方法
技术领域
本发明涉及一种基于随机森林的伯努利朴素贝叶斯文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
给定一个训练文档集Doc和一篇待分类的文档d,文档d被表示成单词向量的形式<w1,w2,…,wi,…,wm>,伯努利朴素贝叶斯(BNB)用公式(1)来为文档d分类。
Figure BDA0002394260950000011
式中,m是词库中所有不同单词的数目,q是训练文档的类别数目,cj表示第j个类别,wi(i=1,2,…,m)表示文档d中是否出现第i个单词,出现为1,不出现为0,先验概率P(cj)和条件概率P(wi|cj)分别用公式(2)和公式(3)来估计。
Figure BDA0002394260950000012
Figure BDA0002394260950000013
式中,n是训练文档集Doc中文档的数目,ck是训练文档集Doc中第k篇训练文档的类标记,ωki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0。
虽然BNB已经被证明具有不错的文本分类性能,但是它在分类过程中只考虑单词在文档中是否会出现,并没有考虑每个单词在文档中出现的频率信息。词频信息表征一个单词在文档中的出现次数,在很大程度上影响了分类器的性能。作为BNB的改进版本,多项式朴素贝叶斯(MNB)考虑到了所有单词在文档中出现的频率,大幅度提高了BNB的分类性能,具有更广阔的应用前景。不过MNB面临的一个系统性问题是,当一个类别的训练文档比其他类别的训练文档多很多时,样本个数较少的类别的影响权重便会降低。作为对MNB的补充和改进,补集朴素贝叶斯(CNB)被提出,用来处理类别数目不平衡的数据集。在MNB和CNB的启发下,提出了一种“一对多”的模型(简称为OVA),OVA对MNB和CNB做了合并,在计算条件概率时同时考虑了MNB和CNB计算条件概率的方法,具有不错的分类效果。尽管上述这些文本分类算法已经被证明具有较高的性能,但是它们的特征条件独立性假设在现实中很少成立。
发明内容
为了解决现有技术的不足,本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,为BNB找到了一个合适的改进模型,不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,还维持了模型的计算复杂性和简单性。
本发明为解决其技术问题所采用的技术方案为提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
本发明具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
Figure BDA0002394260950000021
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词w在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集
Figure BDA0002394260950000025
和第二样本集
Figure BDA0002394260950000026
其中第一样本集
Figure BDA0002394260950000023
包含单词w的频率值不大于t的样本,第二样本集
Figure BDA0002394260950000024
包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw
Figure BDA0002394260950000031
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
Figure BDA0002394260950000032
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q),通过公式(7)求得样本集D的基尼值:
Figure BDA0002394260950000033
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*
Figure BDA0002394260950000034
若随机选择的kvalue个单词对应的最优基尼增益均不大于0,则从剩下的m-kvalue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集
Figure BDA0002394260950000035
和第二样本集
Figure BDA0002394260950000036
分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
Figure BDA0002394260950000041
Figure BDA0002394260950000042
式中,P(cj)表示先验概率,P(wi|cj)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本;
(2-2)将新的二进制特征表示的预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
Figure BDA0002394260950000043
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,…,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
本发明基于其技术方案所具有的有益效果在于:本发明提出的基于随机森林的伯努利朴素贝叶斯文本分类方法利用到了模型结合的策略,不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,还维持了模型的计算复杂性和简单性。更重要的是,大量的实验验证了本发明提供的新方法的有效性。
附图说明
图1是本发明中基于随机森林的伯努利朴素贝叶斯文本分类模型的结构示意图。
具体实施方式
下面结合实施例对本发明作进一步说明。
随机森林(简称RF)是Bagging(装袋)的一个扩展变体。RF以决策树作为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机分裂特征选择。RF通常采用投票法产生最终分类结果,当数据集较大时,基分类器无法拟合整个数据集,导致同一个预测样本在基分类器上的预测结果产生较大的差异,此时采用多数投票的方式显然不够合理。本发明的目的是将RF和BNB有效的结合起来,先利用RF从原始的文本分类数据中学习到一组更加独立的新的特征表示,然后在学习到的新的特征表示上构建BNB,从而大幅度提高BNB和RF的文本分类性能。基于以上发现,本发明提出了一种基于随机森林的伯努利朴素贝叶斯文本分类方法(简记为RFBNB)。朴素贝叶斯模型假定所有的特征变量在给定类变量的前提下是完全相互独立,这个假设在现实中很难成立,因此首先利用RF为BNB学习得到一组更加独立的特征变量,然后再用BNB代替RF中的多数投票,使得最终新方法的分类结果优于RF和BNB。具体到文本分类问题上,新方法首先使用RF对训练文档集进行学习,得到一组随机树,然后用构建的这一组随机树依次分类每一篇训练文档,将得到的分类结果(类标记)组合得到一组新的特征表示,然后再通过一位有效编码的方式将其转化成一组二进制特征表示,最后在编码得到的二进制特征表示上构建BNB。具体过程如图1所示。
图中输入表示输入文档<w1,w2,…,wi,…,wm>,RF中的各基分类器上的带数字节点表示输入文档在基分类器上的最终落入节点,落入节点上的数字表示该基分类器预测输入文档的类别下标,用该文档在每个基分类器上的预测类别下标构建新样本<1 3…2 4>,新样本经过一位有效编码转化为二进制特征表示<1000 0010…0100 0001>供BNB模型训练和预测。
综上所述,本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法(简记为RFBNB),包括训练阶段和分类阶段,训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
本发明具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
Figure BDA0002394260950000061
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词ω在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集
Figure BDA0002394260950000064
和第二样本集
Figure BDA0002394260950000065
,其中第一样本集
Figure BDA0002394260950000066
包含单词w的频率值不大于t的样本,第二样本集
Figure BDA0002394260950000067
包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw
Figure BDA0002394260950000062
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
Figure BDA0002394260950000063
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q,通过公式(7)求得样本集D的基尼值:
Figure BDA0002394260950000071
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*
Figure BDA0002394260950000072
若随机选择的kualue个单词对应的最优基尼增益均不大于0,则从剩下的m-kualue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集
Figure BDA0002394260950000075
和第二样本集
Figure BDA0002394260950000076
分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
Figure BDA0002394260950000073
Figure BDA0002394260950000074
式中,P(cj)表示先验概率,P(wi|cj)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本;
(2-2)将新的二进制特征表示的预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
Figure BDA0002394260950000081
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wi(i=1,2,...,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
以下实验为验证本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法的有效性:
在收集到的15个常用文本数据集上系统比较了本发明提供的基于随机森林的伯努利朴素贝叶斯文本分类方法(RFBNB)和多项式朴素贝叶斯(MNB)以及随机森林(RF)。实验中,将随机森林中随机树的数目T设置为200。T为常量,是一个经验参数。表1给出了实验采用的15个数据集的详细信息。
数据集 文档数目 单词数目 类别数目
fbis 2463 2000 17
oh0 1003 3182 10
oh10 1050 3238 10
oh15 913 3100 10
oh5 918 3012 10
re0 1657 3758 25
re1 1504 2886 13
tr11 414 6429 9
tr12 313 5804 8
tr21 336 7902 6
tr23 204 5832 6
tr31 927 10128 7
tr41 878 7454 10
tr45 690 8261 10
wap 1560 8460 20
表1实验中使用的数据集
表2给出了详细的分类精度比较结果。表中每一种方法在每一个数据集上的分类精度通过平均10次独立运行十字交叉验证得到。然后,用显著性水平为95%的纠正的配对双侧t测试比较了本发明提供的新方法RFBNB和现有的MNB和RF。
Dataset RFBNB MNB RF
fbis 86.13±1.96 77.11±2.49· 84.05±1.93·
oh0 90.98±3.03 89.55±2.82 89.63±3.09·
oh10 85.73±2.97 80.60±3.13· 84.27±3.10
oh15 86.90±3.45 83.60±3.13· 85.06±3.25·
oh5 90.64±3.25 86.63±3.07· 90.12±2.98
re0 85.79±2.56 80.02±2.95· 83.39±2.64·
re1 86.57±2.22 83.31±2.75· 83.51±2.07·
tr11 90.95±3.46 85.21±4.90· 87.96±3.23·
tr12 90.06±5.13 80.99±6.08· 87.34±5.27
tr21 94.82±3.60 61.90±8.78· 85.22±4.08·
tr23 92.60±6.25 71.15±9.68· 83.63±5.65·
tr31 97.35±1.79 94.60±2.41· 97.72±1.79
tr41 96.14±1.98 94.65±2.21 94.60±1.89·
tr45 94.33±2.57 83.64±4.33· 92.39±2.47·
wap 84.37±2.35 81.22±2.59· 80.87±2.26·
Average 90.22 82.28 87.32
W/T/L - 13/2/0 11/4/0
表2分类精度比较结果
表中的符号.表示本发明提供的新方法RFBNB相较于MNB和RF有明显的改进效果。在表的底部,给出了在15个数据集上每种方法的平均分类精度和W/T/L值,每一个W/T/L值表示,相比于MNB和RF,RFBNB在W个数据集上有明显的改进、在T个数据集上无明显差异、在L个数据集上有明显的退化。从实验结果可以看出:
1)本发明提供的新方法RFBNB在15个数据集上的平均分类精度是最高的,达到了90.22%,而现有的两种方法(MNB和RF)在这15个数据集上的平均分类精度分别是82.28%和87.32%;
2)相比于MNB和RF两种现有方法,本发明提供的新方法RFBNB分别在13和11个数据集上有明显的改进;在任何一个数据集上都没有明显退化;
3)本发明提供的新方法RFBNB分类结果远高于现有的MNB和RF,证明采用随机森林学习更加独立的特征表示是非常有效的,并且学习得到的特征可以在不同模型之间传播。这为朴素贝叶斯模型的改进提供了新的途径,证明了贝叶斯文本分类模型在宽度和深度上进行改进的可行性;
4)综上所述,本发明在BNB的基础上,为朴素贝叶斯模型提供了一种简单有效的文本分类新方法,相信会有很好的应用前景。

Claims (2)

1.一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,其特征在于:训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,得到新预测样本,并将新预测样本转化为二进制特征表示的中间预测样本,将二进制特征表示的中间预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
2.根据权利要求1所述的基于随机森林的伯努利朴素贝叶斯文本分类方法,其特征在于具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
Figure FDA0004059107180000011
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词w在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集
Figure FDA0004059107180000012
和第二样本集
Figure FDA0004059107180000013
其中第一样本集
Figure FDA0004059107180000014
包含单词w的频率值不大于t的样本,第二样本集
Figure FDA0004059107180000015
包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw
Figure FDA0004059107180000021
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
Figure FDA0004059107180000022
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q),通过公式(7)求得样本集D的基尼值:
Figure FDA0004059107180000023
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*
Figure FDA0004059107180000024
若随机选择的kvalue个单词对应的最优基尼增益均不大于0,则从剩下的m-kvalue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集
Figure FDA0004059107180000025
和第二样本集
Figure FDA0004059107180000026
分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
Figure FDA0004059107180000031
Figure FDA0004059107180000032
式中,P(cj)表示先验概率,P(wi|ci)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wj(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,得到新预测样本,并将新预测样本转化为二进制特征表示的中间预测样本;
(2-2)将二进制特征表示的中间预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
Figure FDA0004059107180000033
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,ωi(i=1,2,…,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
CN202010125450.9A 2020-02-27 2020-02-27 一种基于随机森林的伯努利朴素贝叶斯文本分类方法 Active CN111368076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125450.9A CN111368076B (zh) 2020-02-27 2020-02-27 一种基于随机森林的伯努利朴素贝叶斯文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125450.9A CN111368076B (zh) 2020-02-27 2020-02-27 一种基于随机森林的伯努利朴素贝叶斯文本分类方法

Publications (2)

Publication Number Publication Date
CN111368076A CN111368076A (zh) 2020-07-03
CN111368076B true CN111368076B (zh) 2023-04-07

Family

ID=71206433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125450.9A Active CN111368076B (zh) 2020-02-27 2020-02-27 一种基于随机森林的伯努利朴素贝叶斯文本分类方法

Country Status (1)

Country Link
CN (1) CN111368076B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702157B (zh) * 2020-12-04 2022-05-24 河南大学 一种基于改进随机森林算法的分组密码体制识别方法
CN112527958A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 用户行为倾向识别方法、装置、设备及存储介质
CN112633360B (zh) * 2020-12-18 2024-04-05 中国地质大学(武汉) 一种基于大脑皮层学习模式的分类方法
CN113393932B (zh) * 2021-07-06 2022-11-25 重庆大学 一种帕金森病语音样本段多类型重构变换方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820702A (zh) * 2015-05-12 2015-08-05 中国地质大学(武汉) 一种基于决策树的属性加权方法及文本分类方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106991323A (zh) * 2017-03-10 2017-07-28 中时瑞安(北京)网络科技有限责任公司 一种检测Android应用程序广告插件的模型和方法
CN109145108A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 文本层叠分类器训练方法、分类方法、装置及计算机设备
CN110210973A (zh) * 2019-05-31 2019-09-06 三峡大学 基于随机森林与朴素贝叶斯模型的内幕交易识别方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150032673A1 (en) * 2013-06-13 2015-01-29 Next Big Sound, Inc. Artist Predictive Success Algorithm
WO2015117074A1 (en) * 2014-01-31 2015-08-06 Global Security Information Analysts, LLC Document relationship analysis system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820702A (zh) * 2015-05-12 2015-08-05 中国地质大学(武汉) 一种基于决策树的属性加权方法及文本分类方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106991323A (zh) * 2017-03-10 2017-07-28 中时瑞安(北京)网络科技有限责任公司 一种检测Android应用程序广告插件的模型和方法
CN109145108A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 文本层叠分类器训练方法、分类方法、装置及计算机设备
CN110210973A (zh) * 2019-05-31 2019-09-06 三峡大学 基于随机森林与朴素贝叶斯模型的内幕交易识别方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Maduhansi Thenuwara ; Harshani R. K. Nagahamulla.Offline Handwritten Signature Verification System Using Random Forest Classifier .2017 Seventeenth International Conference on Advances in ICT for Emerging Regions (ICTer).191-196. *
关晓蔷庞继芳梁吉业.基于类别随机化的随机森林算法.计算机科学.2019,196-201. *
王奕森 ; 夏树涛 ; .集成学习之随机森林算法综述.信息通信技术.2018,(第01期),51-57. *
郭妍 ; 陈晓 ; 任晓晔 ; .一种优化随机森林模型的室内定位方法.激光杂志.2018,(第10期),74-78. *

Also Published As

Publication number Publication date
CN111368076A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368076B (zh) 一种基于随机森林的伯努利朴素贝叶斯文本分类方法
CN106326346A (zh) 文本分类方法及终端设备
CN106294684A (zh) 词向量的文本分类方法及终端设备
CN111859166B (zh) 一种基于改进的图卷积神经网络的物品评分预测方法
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN112115377B (zh) 一种基于社交关系的图神经网络链路预测推荐方法
Mao et al. Greedy optimization classifiers ensemble based on diversity
CN112488791A (zh) 一种基于知识图谱卷积算法的个性化推荐方法
Pandey et al. An analysis of machine learning techniques (J48 & AdaBoost)-for classification
CN112767186B (zh) 一种基于7-子图拓扑结构的社交网络链接预测方法
CN107729290B (zh) 一种利用局部敏感哈希优化的超大规模图的表示学习方法
CN114496092B (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN103489033A (zh) 融合自组织映射与概率神经网络的增量式学习方法
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
CN109063030A (zh) 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN111695011B (zh) 一种基于张量表示的动态超图结构学习分类方法及系统
Rooshenas et al. Discriminative structure learning of arithmetic circuits
CN104809233A (zh) 一种基于信息增益率的属性加权方法及文本分类方法
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
Tripoliti et al. Dynamic construction of Random Forests: Evaluation using biomedical engineering problems
CN114860973A (zh) 一种面向小样本场景的深度图像检索方法
Fatima et al. Learning sparse graphs via majorization-minimization for smooth node signals
CN111126443A (zh) 基于随机游走的网络表示学习方法
CN116662901A (zh) 一种基于深度强化学习的图结构学习算法
CN112347369B (zh) 基于网络表征的集成学习动态社会网络链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant