CN111259155A - 一种基于特异性的词频加权方法及文本分类方法 - Google Patents

一种基于特异性的词频加权方法及文本分类方法 Download PDF

Info

Publication number
CN111259155A
CN111259155A CN202010097291.6A CN202010097291A CN111259155A CN 111259155 A CN111259155 A CN 111259155A CN 202010097291 A CN202010097291 A CN 202010097291A CN 111259155 A CN111259155 A CN 111259155A
Authority
CN
China
Prior art keywords
word
document
documents
representing
following formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010097291.6A
Other languages
English (en)
Other versions
CN111259155B (zh
Inventor
蒋良孝
陈龙
李超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202010097291.6A priority Critical patent/CN111259155B/zh
Publication of CN111259155A publication Critical patent/CN111259155A/zh
Application granted granted Critical
Publication of CN111259155B publication Critical patent/CN111259155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于特异性的词频加权方法,首先计算每个单词区分文档类别的特异性,并以此作为该单词词频的权值。本发明同时提供了依托于这种词频加权方法的多项式朴素贝叶斯文本分类方法、依托于这种词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于这种词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了原有的朴素贝叶斯文本分类方法的分类精度,同时维持了原有的朴素贝叶斯文本分类方法的简洁性和时间复杂度。

Description

一种基于特异性的词频加权方法及文本分类方法
技术领域
本发明涉及一种基于特异性的词频加权方法及贝叶斯文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<t1,t2,…,ti,…,tm>,多项式朴素贝叶斯(MNB),补集朴素贝叶斯(CNB)和两者的结合模型(OVA)分别用公式1,2和3 来分类文档d。
Figure BDA0002385884160000011
Figure BDA0002385884160000012
Figure BDA0002385884160000013
上述公式中q是文档的类别数目,cj表示第j个类别,
Figure BDA00023858841600000110
是类别cj的补集(即除类别cj以外的其他类),m是单词的数目,ti(i=1,2,…,m)是文档d中出现的第i个单词,fi是单词ti在文档d中出现的频率,先验概率P(cj)和
Figure BDA0002385884160000014
能够分别用公式4和5进行估计,条件概率P(ti|cj)和
Figure BDA0002385884160000015
分别用公式6和7来估计。
Figure BDA0002385884160000016
Figure BDA0002385884160000017
Figure BDA0002385884160000018
Figure BDA0002385884160000019
上述公式中n是训练文档的数目,ck是第k篇文档的类标记,fki是第k篇文档中单词ti的频率,并且δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0。
尽管这些文本分类算法已经被证明了较高的性能,他们的条件独立性假设在现实中很少成立。因此通过释放它们的条件独立性来提高文本分类器的分类精度是很自然的。在向量空间模型(VSM)中,文档的内容是由所有单词的词频(TF)组成。考虑到不同的单词在文档中有着不同的重要性,词频加权是一种提高性能的有效方法。如何学习不同单词的权值在构建一个词频加权的朴素贝叶斯文本分类器中是一个关键的问题。为了学习每一个单词的词频权值,出现了基于DC(distributional concentration)的词频加权方法、基于BDC(balanced distributional concentration)的词频加权方法、基于IGM (inversegravity moment)的词频加权方法等。为了提高IGM在某些特定情况下的分类性能,出现了基于改进的IGM的词频加权方法,简单记为IGMimp。这些词频加权方法虽然能提高文本分类器的分类性能,但从分类结果来看还有很大的提升空间。
发明内容
为了解决现有技术的不足,本发明提供了一种基于特异性(Specificity)的词频加权方法及贝叶斯文本分类方法,改善了原来的朴素贝叶斯文本分类器分类精度,同时维持原来朴素贝叶斯算法的简洁性和时间复杂度。
本发明为解决其技术问题所采用的技术方案为提供了一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性 (Specificity),并以此作为单词ti的词频权值Wi
Figure BDA0002385884160000021
其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,
Figure BDA0002385884160000022
表示单词ti和类别cj都不出现的文档数,
Figure BDA0002385884160000023
表示单词ti出现但类别cj不出现的文档数,
Figure BDA0002385884160000024
表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,
Figure BDA0002385884160000025
表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,
Figure BDA0002385884160000026
表示类别cj不出现的总文档数。
本发明同时提出了一种依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure BDA0002385884160000031
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:
Figure BDA0002385884160000032
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure BDA0002385884160000033
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
本发明同时提出了一种依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure BDA0002385884160000034
其中,fi表示单词ti在文档d中出现的频率,为已知量;
Figure BDA0002385884160000035
通过以下公式计算得到:
Figure BDA0002385884160000036
其中,n是训练文档集D中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率
Figure BDA0002385884160000037
通过以下公式计算得到:
Figure BDA0002385884160000038
本发明同时提出了一种依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure BDA0002385884160000041
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和
Figure BDA0002385884160000042
分别通过以下公式计算得到:
Figure BDA0002385884160000043
Figure BDA0002385884160000044
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure BDA0002385884160000045
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率
Figure BDA0002385884160000046
通过以下公式计算得到:
Figure BDA0002385884160000047
本发明基于其技术方案所具有的有益效果在于:本发明提出了一种基于特异性的词频加权方法,不仅能够把学习到的权值合并到朴素贝叶斯文本分类器的分类公式中,而且将学到的权值合并到条件概率估计里,不仅可以改善朴素贝叶斯文本分类器的分类性能,而且也不会招致较高的时间花费。利用依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法、依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法分别对文本进行分类,与现有的基于DC、BDC、IGM、以及IGMimp的词频加权方法的文本分类方法相比,具有更高的分类精度。在大量标准且广泛使用的文本数据集上的实验结果证明了本发明提出的方法的有效性。
具体实施方式
下面结合实施例对本发明作进一步说明。
本发明提供了一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性(Specificity),并以此作为单词ti的词频权值Wi
Figure BDA0002385884160000051
其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,
Figure BDA0002385884160000052
表示单词ti和类别cj都不出现的文档数,
Figure BDA0002385884160000053
表示单词ti出现但类别cj不出现的文档数,
Figure BDA0002385884160000054
表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,
Figure BDA0002385884160000055
表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,
Figure BDA0002385884160000056
表示类别cj不出现的总文档数。
本发明同时提出了一种依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure BDA0002385884160000057
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:
Figure BDA0002385884160000058
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure BDA0002385884160000059
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
本发明同时提出了一种依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure BDA0002385884160000061
其中,fi表示单词ti在文档d中出现的频率,为已知量;
Figure BDA0002385884160000062
通过以下公式计算得到:
Figure BDA0002385884160000063
其中,n是训练文档集D中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率
Figure BDA0002385884160000064
通过以下公式计算得到:
Figure BDA0002385884160000065
本发明同时提出了一种依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure BDA0002385884160000066
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和
Figure BDA0002385884160000067
分别通过以下公式计算得到:
Figure BDA0002385884160000068
Figure BDA0002385884160000069
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure BDA00023858841600000610
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率
Figure BDA0002385884160000071
通过以下公式计算得到:
Figure BDA0002385884160000072
将本发明的基于特异性的词频加权方法运用到朴素贝叶斯文本分类器中。当基分类器分别是多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型 (OVA)时,产生的模型分别记为S-MNB、S-CNB和S-OVA,这三个模型所采用的文本分类方法分别为本发明的依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法、依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。
将现有的基于熵的词频加权方法(DC和BDC)分别运用到多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,产生的模型分别记为DC-MNB、DC-CNB以及DC-OVA;BDC-MNB、BDC-CNB以及BDC-OVA。
将现有的基于IGM的词频加权方法(IGM和IGMimp)分别运用到多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,产生的模型分别记为IGM-MNB、IGM-CNB以及IGM-OVA;IGMimp-MNB、IGMimp-CNB以及 IGMimp-OVA。
下面三组实验分别针对三种不同的基分类器对基于不同词频加权方法的分类器进行比较。
实验一:MNB、DC-MNB、BDC-MNB、IGM-MNB、IGMimp-MNB和S-MNB的比较。
实验二:CNB、DC-CNB、BDC-CNB、IGM-CNB、IGMimp-CNB和S-CNB的比较。
实验三:OVA、DC-OVA、BDC-OVA、IGM-OVA、IGMimp-OVA和S-OVA的比较。
三组实验中,19个广泛使用的文本分类标准数据集被测试。这些数据集来自不同领域并且代表不同的数据特征。表1详细描叙了这19个数据集的主要特征,具体的数据可从WEKA平台的网站上下载。
表2、表4和表6分别显示了各方法在每个数据集上通过10次10折交叉验证的分类精度,表的底部列出了平均分类精度。在所有数据集上的算术平均值提供了一个关于相对性能的整体概述。
接下来,运用Wilcoxon显著性统计测试在19个数据集上比较每一对分类器(方法)。表3、表5和表7列出了Wilcoxon统计测试的详细比较结果。●表示所在行的算法明显优于所在列的算法,○表示所在列的算法明显优于所在行的算法,对角线以下的显著性级别为α=0.05,对角线以上的显著性级别为α=0.1。
从这些实验结果可以看出,本发明的基于特异性的词频加权方法,运用到各种基分类器产生的新的文本分类方法,很少降低原来朴素贝叶斯文本分类器的性能,并且在绝大多数情况下显著地提高了它们的性能。而且,本发明的基于特异性的词频加权方法,运用于各种基分类器后,明显超出所有其他现有的词频加权方法构建的分类器,优点总结如下:
1、就MNB而言,算法的平均精度是:MNB(82.44%),DC-MNB(84.60%), BDC-MNB(85.22%)、IGM-MNB(84.42%)、IGMimp-MNB(84.83%)和S-MNB(87.82); S-MNB对MNB的提升效果最高,并且Wilcoxon结果显示S-MNB明显优于其他比较对象;
2、就CNB而言,算法的平均精度是:CNB(84.12%),DC-CNB(84.98%),BDC-CNB(85.58%)、IGM-CNB(84.27%)、IGMimp-CNB(85.29%)和S-CNB(87.12);S-CNB 对CNB的提升效果最高,并且Wilcoxon结果显示S-CNB明显优于其他比较对象;
3、就OVA而言,算法的平均精度是:OVA(84.13%),DC-OVA(85.52%),BDC-OVA(86.39%)、IGM-OVA(86.30%)、IGMimp-OVA(86.70%)和S-OVA(88.73);S-OVA 对OVA的提升效果最高,并且Wilcoxon结果显示S-OVA明显优于其他比较对象。
Figure BDA0002385884160000081
Figure BDA0002385884160000091
表1 实验中使用的数据集
Figure BDA0002385884160000092
Figure BDA0002385884160000101
表2 MNB作基分类器的分类精度比较
数据集 MNB DC-MNB BDC-MNB IGM-MNB IGM<sub>imp</sub>-MNB S-MNB
MNB -
DC-MNB -
BDC-MNB -
IGM-MNB -
IGM<sub>imp</sub>-MNB -
S-MNB -
表3 MNB作基分类器时Wilcoxon统计测试比较结果
Figure BDA0002385884160000102
Figure BDA0002385884160000111
表4 CNB作基分类器的分类精度比较
Figure BDA0002385884160000112
表5 CNB作基分类器时Wilcoxon统计测试比较结果
Figure BDA0002385884160000113
Figure BDA0002385884160000121
表6 OVA作基分类器的分类精度比较
数据集 OVA DC-OVA BDC-OVA IGM-OVA IGM<sub>imp</sub>-OVA S-OVA
OVA -
DC-OVA -
BDC-OVA -
IGM-OVA -
IGM<sub>imp</sub>-OVA -
S-OVA -
表7 OVA作基分类器时Wilcoxon统计测试比较结果。

Claims (4)

1.一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性,并以此作为单词ti的词频权值Wi
Figure FDA0002385884150000011
其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,
Figure FDA0002385884150000012
表示单词ti和类别cj都不出现的文档数,
Figure FDA0002385884150000013
表示单词ti出现但类别cj不出现的文档数,
Figure FDA0002385884150000014
表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,
Figure FDA0002385884150000015
表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,
Figure FDA0002385884150000016
表示类别cj不出现的总文档数。
2.一种依托于权利要求1所述词频加权方法的多项式朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
Figure FDA0002385884150000017
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:
Figure FDA0002385884150000018
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure FDA0002385884150000019
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
3.一种依托于权利要求1所述词频加权方法的补集朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
Figure FDA0002385884150000021
其中,fi表示单词ti在文档d中出现的频率,为已知量;
Figure FDA0002385884150000022
通过以下公式计算得到:
Figure FDA0002385884150000023
其中,n是训练文档集D中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率
Figure FDA0002385884150000024
通过以下公式计算得到:
Figure FDA0002385884150000025
4.一种依托于权利要求1所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
Figure FDA0002385884150000026
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和
Figure FDA0002385884150000027
分别通过以下公式计算得到:
Figure FDA0002385884150000028
Figure FDA0002385884150000029
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure FDA00023858841500000210
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率
Figure FDA0002385884150000031
通过以下公式计算得到:
Figure FDA0002385884150000032
CN202010097291.6A 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法 Active CN111259155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097291.6A CN111259155B (zh) 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097291.6A CN111259155B (zh) 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法

Publications (2)

Publication Number Publication Date
CN111259155A true CN111259155A (zh) 2020-06-09
CN111259155B CN111259155B (zh) 2023-04-07

Family

ID=70951127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097291.6A Active CN111259155B (zh) 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法

Country Status (1)

Country Link
CN (1) CN111259155B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212413A1 (en) * 1999-04-28 2006-09-21 Pal Rujan Classification method and apparatus
CN101727463A (zh) * 2008-10-24 2010-06-09 中国科学院计算技术研究所 一种文本训练方法和分类方法
US7961955B1 (en) * 2008-01-28 2011-06-14 Thomas Cecil Minter Adaptive bayes feature extraction
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN106384123A (zh) * 2016-09-01 2017-02-08 中国地质大学(武汉) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
US20170169105A1 (en) * 2013-11-27 2017-06-15 Nec Corporation Document classification method
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN108460080A (zh) * 2018-01-09 2018-08-28 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212413A1 (en) * 1999-04-28 2006-09-21 Pal Rujan Classification method and apparatus
US7961955B1 (en) * 2008-01-28 2011-06-14 Thomas Cecil Minter Adaptive bayes feature extraction
CN101727463A (zh) * 2008-10-24 2010-06-09 中国科学院计算技术研究所 一种文本训练方法和分类方法
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US20170169105A1 (en) * 2013-11-27 2017-06-15 Nec Corporation Document classification method
CN106384123A (zh) * 2016-09-01 2017-02-08 中国地质大学(武汉) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN108460080A (zh) * 2018-01-09 2018-08-28 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANG-HWAN LEE等: "Calculating Feature Weights in Naive Bayes with Kullback-Leibler Measure" *
任世超;黄子良;: "基于二维信息增益加权的朴素贝叶斯分类算法" *
李凯: "中文文本分类方法研究" *
饶丽丽;刘雄辉;张东站;: "基于特征相关的改进加权朴素贝叶斯分类算法" *

Also Published As

Publication number Publication date
CN111259155B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN109783818B (zh) 一种企业行业分类方法
Meng et al. A two-stage feature selection method for text categorization
CN102289522B (zh) 一种对于文本智能分类的方法
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN101739430B (zh) 一种基于关键词的文本情感分类器的训练方法和分类方法
CN106991127B (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN105740401A (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
CN107526805B (zh) 一种基于权重的ML-kNN多标签中文文本分类方法
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN104809233A (zh) 一种基于信息增益率的属性加权方法及文本分类方法
CN113554100A (zh) 异构图注意力网络增强的Web服务分类方法
CN106599227A (zh) 用于获取基于属性值的对象之间的相似度的方法与装置
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
CN111259155B (zh) 一种基于特异性的词频加权方法及文本分类方法
CN104714977A (zh) 一种实体与知识库项的关联方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant