CN110147447B - 一种隐多项式朴素贝叶斯文本分类方法及装置 - Google Patents

一种隐多项式朴素贝叶斯文本分类方法及装置 Download PDF

Info

Publication number
CN110147447B
CN110147447B CN201910338569.1A CN201910338569A CN110147447B CN 110147447 B CN110147447 B CN 110147447B CN 201910338569 A CN201910338569 A CN 201910338569A CN 110147447 B CN110147447 B CN 110147447B
Authority
CN
China
Prior art keywords
word
training
document
document set
following formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910338569.1A
Other languages
English (en)
Other versions
CN110147447A (zh
Inventor
蒋良孝
邵诗琪
陈龙
李超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910338569.1A priority Critical patent/CN110147447B/zh
Publication of CN110147447A publication Critical patent/CN110147447A/zh
Application granted granted Critical
Publication of CN110147447B publication Critical patent/CN110147447B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种隐多项式朴素贝叶斯文本分类方法及装置,为测试文档中出现的每个单词创建一个隐父亲节点,这个隐父亲节点综合了所有其他单词对该单词的影响。本发明避免了贝叶斯网络的结构学习,从而降低了由于文本数据的高维性带来的训练时间开销,同时本发明将多条件概率的估计过程推迟到了分类阶段,巧妙地节省了较大的空间开销。本发明提供的隐多项式朴素贝叶斯文本分类模型不仅改善了多项式朴素贝叶斯文本分类模型的分类精度,避免了贝叶斯网络结构学习的时间和空间开销,而且还是一种单一模型学习方法。

Description

一种隐多项式朴素贝叶斯文本分类方法及装置
技术领域
本发明涉及一种隐多项式朴素贝叶斯文本分类方法及装置,属于人工智能数据挖掘分类技术领域。
背景技术
随着网络与通讯技术的飞速发展,网上电子文档、电子邮件、手机短信等信息量成爆炸趋势,大规模的文本处理已经成为一个挑战,而文本自动分类是将文本划分到预定义的类中,成为帮助人们检索、查询、过滤和利用信息的有效手段。文本分类具有是非广泛的应用场景,比如垃圾邮件的判定、手机短信的过滤、新闻出版按照栏目分类、词性标注、词义排歧、科技论文分类等等。
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的单词条件独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<w1,w2,…,wm>,多项式朴素贝叶斯(MNB)用下述公式来分类文档d。
Figure GDA0002100578920000011
上述公式中符号C是类标记的集合,m是单词的数目,wi(i=1,2,…m)是文档d中出现的第i个单词,fi是单词wi在文档d中出现的频率,先验概率p(c)以及条件概率p(wi|c)分别用下述公式来估计。
Figure GDA0002100578920000012
Figure GDA0002100578920000013
其中,n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;fji表示训练文档集D中第j篇文档中出现单词wi的频率。
尽管多项式朴素贝叶斯文本分类方法已经被证明具有较高的分类性能,但它的单词条件独立假设在现实中很少成立,因此通过释放它的单词条件独立假设来提高它的分类性能是很自然的想法。一种最直接的方式就是通过增加有向边来表示单词与单词之间的依赖关系。但是由于文本数据高维性的特点,学习一个最优的多项式贝叶斯网络文本分类模型几乎是不可能的。这是因为学习最优的多项式贝叶斯网络文本分类模型不仅消耗空间而且消耗时间。所以一个既能表示单词与单词之间的依赖关系,又没有结构学习的多项式贝叶斯网络文本分类模型是可取的。
当前用于改进多项式朴素贝叶斯文本分类模型的方法有很多。这其中包括特征加权、特征选择、实例加权、局部学习等。但是由于文本数据本身的高维性,改进多项式朴素贝叶斯文本分类模型的结构扩展方法非常少,至今仅有一种结构扩展的多项式朴素贝叶斯文本分类方法,并且仅有的这种方法是一种组合学习的方法。
发明内容
为了解决现有技术的不足,本发明提供了一种隐多项式朴素贝叶斯文本分类方法及装置,不仅改善了多项式朴素贝叶斯文本分类模型的分类精度,避免了贝叶斯网络结构学习的时间和空间开销,而且还是一种单一模型学习方法。
根据本发明的其中一方面,本发明解决其技术问题所采用的隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,训练阶段包含如下步骤:
(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):
Figure GDA0002100578920000021
其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):
Figure GDA0002100578920000031
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:
Figure GDA0002100578920000032
其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;
(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:
Figure GDA0002100578920000033
(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:
Figure GDA0002100578920000034
进一步地,在本发明的的隐多项式朴素贝叶斯文本分类方法中,步骤(1-3)中:
Gain(D,wt)通过以下公式计算:
Figure GDA0002100578920000035
其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目,
Figure GDA0002100578920000036
v=0表示没有出现单词wt,
Figure GDA0002100578920000037
表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:
Figure GDA0002100578920000038
其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:
Figure GDA0002100578920000041
其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wt)通过以下公式计算得到:
Figure GDA0002100578920000042
进一步地,在本发明的的隐多项式朴素贝叶斯文本分类方法中,分类阶段包含如下步骤:
(2-1)对于待分类文档d中出现的每个单词wi,i=1,2,…m,以及待分类文档d中除单词wi以外的每一个单词wt,t=1,2,…,m∧t≠i,在训练文档中D中选择出现单词wt的文档组成新的文档子集Dwt;其中,三角符号∧表示并且;
(2-2)对于每一个可能的类标记c,基于文档子集Dwt,利用以下公式计算条件概率p(wi|wt,c):
Figure GDA0002100578920000043
其中,n是训练文档集D中的文档数目,m为训练文档集D中单词的数目,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,fjt>0表示单词wt出现在第j篇文档中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)利用以下公式计算p(wi|whi,c)
Figure GDA0002100578920000044
其中,ft是待分类文档d中第t个单词的频率;
(2-4)基于已经计算好的p(c)和p(wi|whi,c),利用以下公式来预测待分类文档d的类标记c(d):
Figure GDA0002100578920000051
其中,fi是待分类文档d中第i个单词的频率。
根据本发明的另一方面,本发明为解决其技术问题,还提供了一种隐多项式朴素贝叶斯文本分类装置,具备计算机存储介质,所述计算机存储介质内存储有计算机可执行指令,所述计算机可执行指令用于实现上述任一项的隐多项式朴素贝叶斯文本分类方法。
本发明基于其技术方案所具有的有益效果在于:本发明为了避免结构扩展的多项式朴素贝叶斯网络费时的结构学习过程,为测试文档中出现的每个单词创建一个隐父亲节点,这个隐父亲节点综合了所有其他单词对该单词的影响,从而很好地避免了耗时的贝叶斯网络的结构学习。另外由于文本数据的高维性,在计算多条件概率p(wi|wt,c)时会消耗大量的空间,为了节约空间资源,本发明将多条件概率的估计过程推迟到了分类阶段,因为这样只需要根据待分类文档d中出现的单词来计算多条件概率,而不是训练文档集D中的所有单词,这一操作使本方法在计算多条件概率p(wi|wt,c)的空间复杂度由原来的O(sm2)降低到现在的O(s|d|)(s是文档的类别数目,m为训练文档集D中所有单词的数目,|d|是待分类文档d中的单词数目)。更重要的是,相比于仅有的一种结构扩展的多项式朴素贝叶斯文本分类方法,本发明提供的方法不是一种组合学习的方法,而是一种单一模型学习方法。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明本发明的具体实施方式。
随着网络与通讯技术的飞速发展,网上电子文档、电子邮件、手机短信等信息量成爆炸趋势,大规模的文本处理已经成为一个挑战,而文本自动分类是将文本划分到预定义的类中,成为帮助人们检索、查询、过滤和利用信息的有效手段。文本分类具有是非广泛的应用场景,比如垃圾邮件的判定、手机短信的过滤、新闻出版按照栏目分类、词性标注、词义排歧、科技论文分类等等。
文本分类是一类经典分类问题,应用场景是在太多,以手机短信过滤问题为例,我们的生活已经被大量的垃圾短信打扰,甚至已经影响到正常的工作和生活。如果设计的文本分类算法能够准确识别出手机短信的类别,就可以过滤掉客户的垃圾短信。手机短信过滤问题,其实就是一个二分类问题,通常分为正常短信和垃圾短信,本发明的方法及装置就可以很好的完成短信的分类处理。
下述将以本发明的隐多项式朴素贝叶斯文本分类方法为例,对本发明的技术方案做详细说明,本发明的装置的核心技术方案与本发明的方法相同,具体可参照方法的说明。本发明的隐多项式朴素贝叶斯文本分类方法包括训练阶段和分类阶段,其中,
(1)训练阶段包括以下过程:
(1-1)利用以下公式计算训练文档集D中每个类别的先验概率p(c):
Figure GDA0002100578920000061
其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):
Figure GDA0002100578920000062
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:
Figure GDA0002100578920000063
其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;
Gain(D,wt)通过以下公式计算:
Figure GDA0002100578920000064
其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目,
Figure GDA0002100578920000065
v=0表示没有出现单词wt,
Figure GDA0002100578920000071
表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:
Figure GDA0002100578920000072
其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:
Figure GDA0002100578920000073
其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wt)通过以下公式计算得到:
Figure GDA0002100578920000074
(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:
Figure GDA0002100578920000075
(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt
Figure GDA0002100578920000076
(2)分类阶段包括以下过程:
(2-1)对于待分类文档d中出现的每个单词wi,i=1,2,…m,以及待分类文档d中除单词wi以外的每一个单词wt,t=1,2,…,m∧t≠i,在训练文档中D中选择出现单词wt的文档组成新的文档子集Dwt
(2-2)对于每一个可能的类标记c,基于文档子集Dwt,利用以下公式计算条件概率p(wi|wt,c):
Figure GDA0002100578920000077
其中,n是训练文档集D中的文档数目,m为训练文档集D中单词的数目,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,fjt>0表示单词wt出现在第j篇文档中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)利用以下公式计算p(wi|whi,c)
Figure GDA0002100578920000081
其中,ft是待分类文档d中第t个单词的频率。
(2-4)基于已经计算好的p(c)和p(wi|whi,c),利用以下公式来预测待分类文档d的类标记c(d):
Figure GDA0002100578920000082
其中,fi是待分类文档d中第i个单词的频率。
从上面的描叙可以看出,本发明提供的是一种隐多项式朴素贝叶斯文本分类方法,产生的模型称为隐多项式朴素贝叶斯(简记为HMNB),本方法为测试文档中出现的每个单词创建一个隐父亲节点,这个隐父亲节点综合了所有其他单词对该单词的影响,从而缓解了多项式朴素贝叶斯的单词条件独立假设,不仅改善了多项式朴素贝叶斯(简记为MNB)的分类精度,而且还避免了贝叶斯网络结构学习的时间和空间开销。
在后面的实验部分,将本发明提供的隐多项式朴素贝叶斯(简记为HMNB)和标准的多项式朴素贝叶斯(简记为MNB)以及它的一些经典的改进模型进行比较,包括基于卡方统计特征加权的多项式朴素贝叶斯(简记为RwcWMNB),基于信息增益率特征选择的多项式朴素贝叶斯(简记为GRSMNB),判别实例加权的多项式朴素贝叶斯(简记为DWMNB),多项式朴素贝叶斯树(简记为MNBTree),以及结构扩展的多项式朴素贝叶斯(简记为SEMNB)。
基于卡方统计特征加权的多项式朴素贝叶斯(简记为RwcWMNB)通过特征加权方法来缓解多项式朴素贝叶斯的单词条件独立假设。该方法通过在训练阶段精确的测量项类之间的依赖来提高多项式朴素贝叶斯文本分类器的性能。
基于信息增益率特征选择的多项式朴素贝叶斯(简记为GRSMNB)通过特征选择方法来缓解多项式朴素贝叶斯的单词条件独立假设。该方法首先根据每个属性的信息增益率大小对属性进行排序,然后通过9次执行5折交叉验证的方法来确定选择属性的数目即百分比,最后在所选择的属性子集上构建多项式朴素贝叶斯。
判别实例加权的多项式朴素贝叶斯(简记为DWMNB)通过实例加权方法来缓解多项式朴素贝叶斯的单词条件独立假设。该方法在每一次迭代过程中,根据每个训练实例的条件概率损失来设置它的权值。
多项式朴素贝叶斯树(简记为MNBTree)通过局部学习方法来缓解多项式朴素贝叶斯的单词条件独立假设。该方法在决策树的叶子节点上构建多项式朴素贝叶斯。
结构扩展的多项式朴素贝叶斯(简记为SEMNB)通过结构扩展方法来缓解多项式朴素贝叶斯的单词条件独立假设。该方法首先以测试文档中出现的每个单词作为父亲节点构建一个一依赖多项式估测器,然后加权平均所有的一依赖多项式估测器来预测测试文档的类别,其中的权值是每个单词的信息增益率。
为了验证本发明提供的隐多项式朴素贝叶斯文本分类方法的有效性,实验比较了MNB,RwcWMNB,GRSMNB,DWMNB,MNBTree,SEMNB以及HMNB的分类精度。
在实验中,11个广泛使用的文本分类标准数据集被测试。这些数据集来自不同的文本领域并且代表不同的数据特征。表1详细描述了这11个数据集的主要特性,具体的数据可从WEKA平台的网站上下载得到。
表2给出了各方法在每个数据集上通过10次10折交叉验证的分类精度,表的底部列出了平均分类精度。在所有数据集上的平均分类精度提供了一个关于相对性能的整体概述。
接下来,运用Friedman测试在多个数据集上系统比较MNB,RwcWMNB,GRSMNB,DWMNB,MNBTree,SEMNB以及HMNB。Friedman测试是重复测量的ANOVA的一个非参数等价。运用Friedman测试获得的算法的平均排序同样总结在表2底部。对于7个算法和11个数据集,FF是根据F分布有6和60个自由度:27.038961的F分布来分布。这个值远远大于α=0.05时F分布的临界值F(6,60)=2.2541。因此拒绝空假设,并且继续运用Nemenyi和Bergmann后验测试来进一步分析哪些算法对是显著不同的。表3列出了获得的z-values和p-values,并且表明了哪些算法对是显著不同的。
从这些实验结果可以看出,HMNB的分类性能明显超出MNB,甚至还超出现有的改进算法:RwcWMNB和MNBTree。实验结果的亮点总结如下:
1.HMNB的平均分类精度(85.6%)明显高于MNB(83.18%)、RwcWMNB(82.39%)、GRSMNB(84.23%)、DWMNB(83.72%)、MNBTree(82.59%)和SEMNB(84.16%)。
2.HMNB的平均排序(1.5455)明显高于MNB(4.6364)、RwcWMNB(5.8182)、GRSMNB(3.3636)、DWMNB(3.9091)、MNBTree(5.0909)和SEMNB(3.6364)。
3.根据Nemenyi和Bergmann后验测试的比较结果,HMNB的分类性能明显超出MNB以及它的改进算法:RwcWMNB和MNBTree。
数据集 文档数目 单词数目 类别数目
fbis 2463 2000 17
la1s 3204 13195 6
la2s 3075 12432 6
oh0 1003 3182 10
oh10 1050 3238 10
oh15 913 3100 10
oh5 918 3012 10
ohscal 11162 11465 10
re0 1657 3758 25
re1 1504 2886 13
wap 1560 8460 20
表1 实验中使用的数据集
Figure GDA0002100578920000101
Figure GDA0002100578920000111
表2 MNB,RwcWMNB,GRSMNB,DWMNB,MNBTree,SEMNB以及HMNB的分类精度比较结果
Figure GDA0002100578920000112
Figure GDA0002100578920000121
表3 Nemenyi和Bergmann后验测试的比较结果
上面对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (4)

1.一种隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,其特征在于,训练阶段包含如下步骤:
(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):
Figure FDA0002039927220000011
其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):
Figure FDA0002039927220000012
其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:
Figure FDA0002039927220000013
其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;
(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:
Figure FDA0002039927220000014
(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:
Figure FDA0002039927220000015
2.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,步骤(1-3)中:
Gain(D,wt)通过以下公式计算:
Figure FDA0002039927220000021
其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目,
Figure FDA0002039927220000022
v=0表示没有出现单词wt,
Figure FDA0002039927220000023
表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:
Figure FDA0002039927220000024
其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:
Figure FDA0002039927220000025
其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wt)通过以下公式计算得到:
Figure FDA0002039927220000026
3.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,分类阶段包含如下步骤:
(2-1)对于待分类文档d中出现的每个单词wi,i=1,2,…m,以及待分类文档d中除单词wi以外的每一个单词wt,t=1,2,…,m∧t≠i,在训练文档中D中选择出现单词wt的文档组成新的文档子集Dwt;其中,三角符号∧表示并且;
(2-2)对于每一个可能的类标记c,基于文档子集Dwt,利用以下公式计算条件概率p(wi|wt,c):
Figure FDA0002039927220000031
其中,n是训练文档集D中的文档数目,m为训练文档集D中单词的数目,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,fjt>0表示单词wt出现在第j篇文档中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)利用以下公式计算p(wi|whi,c)
Figure FDA0002039927220000032
其中,ft是待分类文档d中第t个单词的频率;
(2-4)基于已经计算好的p(c)和p(wi|whi,c),利用以下公式来预测待分类文档d的类标记c(d):
Figure FDA0002039927220000033
其中,fi是待分类文档d中第i个单词的频率。
4.一种隐多项式朴素贝叶斯文本分类装置,其特征在于,具备计算机存储介质,所述计算机存储介质内存储有计算机可执行指令,所述计算机可执行指令用于实现如权利要求1-3任一项所述的隐多项式朴素贝叶斯文本分类方法。
CN201910338569.1A 2019-04-25 2019-04-25 一种隐多项式朴素贝叶斯文本分类方法及装置 Expired - Fee Related CN110147447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910338569.1A CN110147447B (zh) 2019-04-25 2019-04-25 一种隐多项式朴素贝叶斯文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910338569.1A CN110147447B (zh) 2019-04-25 2019-04-25 一种隐多项式朴素贝叶斯文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN110147447A CN110147447A (zh) 2019-08-20
CN110147447B true CN110147447B (zh) 2022-11-18

Family

ID=67594444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910338569.1A Expired - Fee Related CN110147447B (zh) 2019-04-25 2019-04-25 一种隐多项式朴素贝叶斯文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN110147447B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928922B (zh) * 2019-11-27 2020-07-24 开普云信息科技股份有限公司 一种基于大数据挖掘的公共政策分析模型部署方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820702A (zh) * 2015-05-12 2015-08-05 中国地质大学(武汉) 一种基于决策树的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法
WO2015194052A1 (en) * 2014-06-20 2015-12-23 Nec Corporation Feature weighting for naive bayes classifiers using a generative model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015194052A1 (en) * 2014-06-20 2015-12-23 Nec Corporation Feature weighting for naive bayes classifiers using a generative model
CN104820702A (zh) * 2015-05-12 2015-08-05 中国地质大学(武汉) 一种基于决策树的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Also Published As

Publication number Publication date
CN110147447A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Tian et al. A probabilistic model for learning multi-prototype word embeddings
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN108875040B (zh) 词典更新方法及计算机可读存储介质
US10666792B1 (en) Apparatus and method for detecting new calls from a known robocaller and identifying relationships among telephone calls
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN105045825B (zh) 一种结构扩展的多项式朴素贝叶斯文本分类方法
CN111767403A (zh) 一种文本分类方法和装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN110162621A (zh) 分类模型训练方法、异常评论检测方法、装置及设备
CN112256842B (zh) 用于文本聚类的方法、电子设备和存储介质
CN102402693B (zh) 处理包含字符的图像的方法和设备
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN107145516A (zh) 一种文本聚类方法及系统
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110147447B (zh) 一种隐多项式朴素贝叶斯文本分类方法及装置
CN106502990A (zh) 一种微博特征项提取方法和改进tf‑idf归一化方法
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN111353045A (zh) 构建文本分类体系的方法
CN109509110B (zh) 基于改进bbtm模型的微博热点话题发现方法
CN112686035A (zh) 一种未登录词进行向量化的方法和装置
Huang et al. Decision analysis and prediction based on credit card fraud data
Zhou et al. GraphSR: a data augmentation algorithm for imbalanced node classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221118

CF01 Termination of patent right due to non-payment of annual fee