CN111259155B - 一种基于特异性的词频加权方法及文本分类方法 - Google Patents

一种基于特异性的词频加权方法及文本分类方法 Download PDF

Info

Publication number
CN111259155B
CN111259155B CN202010097291.6A CN202010097291A CN111259155B CN 111259155 B CN111259155 B CN 111259155B CN 202010097291 A CN202010097291 A CN 202010097291A CN 111259155 B CN111259155 B CN 111259155B
Authority
CN
China
Prior art keywords
word
document
representing
documents
following formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010097291.6A
Other languages
English (en)
Other versions
CN111259155A (zh
Inventor
蒋良孝
陈龙
李超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202010097291.6A priority Critical patent/CN111259155B/zh
Publication of CN111259155A publication Critical patent/CN111259155A/zh
Application granted granted Critical
Publication of CN111259155B publication Critical patent/CN111259155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于特异性的词频加权方法,首先计算每个单词区分文档类别的特异性,并以此作为该单词词频的权值。本发明同时提供了依托于这种词频加权方法的多项式朴素贝叶斯文本分类方法、依托于这种词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于这种词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了原有的朴素贝叶斯文本分类方法的分类精度,同时维持了原有的朴素贝叶斯文本分类方法的简洁性和时间复杂度。

Description

一种基于特异性的词频加权方法及文本分类方法
技术领域
本发明涉及一种基于特异性的词频加权方法及贝叶斯文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<t1,t2,…,ti,…,tm>,多项式朴素贝叶斯(MNB),补集朴素贝叶斯(CNB)和两者的结合模型(OVA)分别用公式1,2和3 来分类文档d。
Figure SMS_1
Figure SMS_2
Figure SMS_3
上述公式中q是文档的类别数目,cj表示第j个类别,
Figure SMS_4
是类别cj的补集(即除类别cj以外的其他类),m是单词的数目,ti(i=1,2,…,m)是文档d中出现的第i个单词,fi是单词ti在文档d中出现的频率,先验概率P(cj)和
Figure SMS_5
能够分别用公式4和5进行估计,条件概率P(ti|cj)和
Figure SMS_6
分别用公式6和7来估计。
Figure SMS_7
Figure SMS_8
Figure SMS_9
Figure SMS_10
上述公式中n是训练文档的数目,ck是第k篇文档的类标记,fki是第k篇文档中单词ti的频率,并且δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0。
尽管这些文本分类算法已经被证明了较高的性能,他们的条件独立性假设在现实中很少成立。因此通过释放它们的条件独立性来提高文本分类器的分类精度是很自然的。在向量空间模型(VSM)中,文档的内容是由所有单词的词频(TF)组成。考虑到不同的单词在文档中有着不同的重要性,词频加权是一种提高性能的有效方法。如何学习不同单词的权值在构建一个词频加权的朴素贝叶斯文本分类器中是一个关键的问题。为了学习每一个单词的词频权值,出现了基于DC(distributional concentration)的词频加权方法、基于BDC(balanced distributional concentration)的词频加权方法、基于IGM (inversegravity moment)的词频加权方法等。为了提高IGM在某些特定情况下的分类性能,出现了基于改进的IGM的词频加权方法,简单记为IGMimp。这些词频加权方法虽然能提高文本分类器的分类性能,但从分类结果来看还有很大的提升空间。
发明内容
为了解决现有技术的不足,本发明提供了一种基于特异性(Specificity)的词频加权方法及贝叶斯文本分类方法,改善了原来的朴素贝叶斯文本分类器分类精度,同时维持原来朴素贝叶斯算法的简洁性和时间复杂度。
本发明为解决其技术问题所采用的技术方案为提供了一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性 (Specificity),并以此作为单词ti的词频权值Wi
Figure SMS_11
其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,
Figure SMS_12
表示单词ti和类别cj都不出现的文档数,
Figure SMS_13
表示单词ti出现但类别cj不出现的文档数,
Figure SMS_14
表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,
Figure SMS_15
表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,
Figure SMS_16
表示类别cj不出现的总文档数。
本发明同时提出了一种依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure SMS_17
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:
Figure SMS_18
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure SMS_19
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
本发明同时提出了一种依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure SMS_20
其中,fi表示单词ti在文档d中出现的频率,为已知量;
Figure SMS_21
通过以下公式计算得到:
Figure SMS_22
其中,n是训练文档集D中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率
Figure SMS_23
通过以下公式计算得到:
Figure SMS_24
本发明同时提出了一种依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure SMS_25
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和
Figure SMS_26
分别通过以下公式计算得到:
Figure SMS_27
Figure SMS_28
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure SMS_29
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率
Figure SMS_30
通过以下公式计算得到:
Figure SMS_31
本发明基于其技术方案所具有的有益效果在于:本发明提出了一种基于特异性的词频加权方法,不仅能够把学习到的权值合并到朴素贝叶斯文本分类器的分类公式中,而且将学到的权值合并到条件概率估计里,不仅可以改善朴素贝叶斯文本分类器的分类性能,而且也不会招致较高的时间花费。利用依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法、依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法分别对文本进行分类,与现有的基于DC、BDC、IGM、以及IGMimp的词频加权方法的文本分类方法相比,具有更高的分类精度。在大量标准且广泛使用的文本数据集上的实验结果证明了本发明提出的方法的有效性。
具体实施方式
下面结合实施例对本发明作进一步说明。
本发明提供了一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性(Specificity),并以此作为单词ti的词频权值Wi
Figure SMS_32
其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,
Figure SMS_33
表示单词ti和类别cj都不出现的文档数,
Figure SMS_34
表示单词ti出现但类别cj不出现的文档数,
Figure SMS_35
表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,
Figure SMS_36
表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,
Figure SMS_37
表示类别cj不出现的总文档数。
本发明同时提出了一种依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure SMS_38
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:
Figure SMS_39
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure SMS_40
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
本发明同时提出了一种依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure SMS_41
其中,fi表示单词ti在文档d中出现的频率,为已知量;
Figure SMS_42
通过以下公式计算得到:
Figure SMS_43
其中,n是训练文档集D中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率
Figure SMS_44
通过以下公式计算得到:
Figure SMS_45
本发明同时提出了一种依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:
Figure SMS_46
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和
Figure SMS_47
分别通过以下公式计算得到:
Figure SMS_48
Figure SMS_49
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ck是训练文档集D中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure SMS_50
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率
Figure SMS_51
通过以下公式计算得到:
Figure SMS_52
将本发明的基于特异性的词频加权方法运用到朴素贝叶斯文本分类器中。当基分类器分别是多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型 (OVA)时,产生的模型分别记为S-MNB、S-CNB和S-OVA,这三个模型所采用的文本分类方法分别为本发明的依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法、依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。
将现有的基于熵的词频加权方法(DC和BDC)分别运用到多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,产生的模型分别记为DC-MNB、DC-CNB以及DC-OVA;BDC-MNB、BDC-CNB以及BDC-OVA。
将现有的基于IGM的词频加权方法(IGM和IGMimp)分别运用到多项式朴素贝叶斯(MNB)、补集朴素贝叶斯(CNB)以及两者结合的模型(OVA)时,产生的模型分别记为IGM-MNB、IGM-CNB以及IGM-OVA;IGMimp-MNB、IGMimp-CNB以及 IGMimp-OVA。
下面三组实验分别针对三种不同的基分类器对基于不同词频加权方法的分类器进行比较。
实验一:MNB、DC-MNB、BDC-MNB、IGM-MNB、IGMimp-MNB和S-MNB的比较。
实验二:CNB、DC-CNB、BDC-CNB、IGM-CNB、IGMimp-CNB和S-CNB的比较。
实验三:OVA、DC-OVA、BDC-OVA、IGM-OVA、IGMimp-OVA和S-OVA的比较。
三组实验中,19个广泛使用的文本分类标准数据集被测试。这些数据集来自不同领域并且代表不同的数据特征。表1详细描叙了这19个数据集的主要特征,具体的数据可从WEKA平台的网站上下载。
表2、表4和表6分别显示了各方法在每个数据集上通过10次10折交叉验证的分类精度,表的底部列出了平均分类精度。在所有数据集上的算术平均值提供了一个关于相对性能的整体概述。
接下来,运用Wilcoxon显著性统计测试在19个数据集上比较每一对分类器(方法)。表3、表5和表7列出了Wilcoxon统计测试的详细比较结果。●表示所在行的算法明显优于所在列的算法,○表示所在列的算法明显优于所在行的算法,对角线以下的显著性级别为α=0.05,对角线以上的显著性级别为α=0.1。
从这些实验结果可以看出,本发明的基于特异性的词频加权方法,运用到各种基分类器产生的新的文本分类方法,很少降低原来朴素贝叶斯文本分类器的性能,并且在绝大多数情况下显著地提高了它们的性能。而且,本发明的基于特异性的词频加权方法,运用于各种基分类器后,明显超出所有其他现有的词频加权方法构建的分类器,优点总结如下:
1、就MNB而言,算法的平均精度是:MNB(82.44%),DC-MNB(84.60%), BDC-MNB(85.22%)、IGM-MNB(84.42%)、IGMimp-MNB(84.83%)和S-MNB(87.82); S-MNB对MNB的提升效果最高,并且Wilcoxon结果显示S-MNB明显优于其他比较对象;
2、就CNB而言,算法的平均精度是:CNB(84.12%),DC-CNB(84.98%),BDC-CNB(85.58%)、IGM-CNB(84.27%)、IGMimp-CNB(85.29%)和S-CNB(87.12);S-CNB 对CNB的提升效果最高,并且Wilcoxon结果显示S-CNB明显优于其他比较对象;
3、就OVA而言,算法的平均精度是:OVA(84.13%),DC-OVA(85.52%),BDC-OVA(86.39%)、IGM-OVA(86.30%)、IGMimp-OVA(86.70%)和S-OVA(88.73);S-OVA 对OVA的提升效果最高,并且Wilcoxon结果显示S-OVA明显优于其他比较对象。
Figure SMS_53
Figure SMS_54
表1 实验中使用的数据集
Figure SMS_55
Figure SMS_56
表2 MNB作基分类器的分类精度比较
数据集 MNB DC-MNB BDC-MNB IGM-MNB IGMimp-MNB S-MNB
MNB -
DC-MNB -
BDC-MNB -
IGM-MNB -
IGMimp-MNB -
S-MNB -
表3 MNB作基分类器时Wilcoxon统计测试比较结果
Figure SMS_57
Figure SMS_58
表4 CNB作基分类器的分类精度比较
Figure SMS_59
表5 CNB作基分类器时Wilcoxon统计测试比较结果
Figure SMS_60
Figure SMS_61
表6 OVA作基分类器的分类精度比较
数据集 OVA DC-OVA BDC-OVA IGM-OVA IGMimp-OVA S-OVA
OVA -
DC-OVA -
BDC-OVA -
IGM-OVA -
IGMimp-OVA -
S-OVA -
表7 OVA作基分类器时Wilcoxon统计测试比较结果。

Claims (4)

1.一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性,并以此作为单词ti的词频权值Wi
Figure FDA0004059242040000011
其中,i=1,2,…,m,j=1,2,…,q,ti表示单词,m表示单词数目,cj表示类别,q表示文档的类别的数目,d(ti,cj)表示单词ti和类别cj都出现的文档数,
Figure FDA0004059242040000012
表示单词ti和类别cj都不出现的文档数,
Figure FDA0004059242040000013
表示单词ti出现但类别cj不出现的文档数,
Figure FDA0004059242040000014
表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,
Figure FDA0004059242040000015
表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,
Figure FDA0004059242040000016
表示类别cj不出现的总文档数。
2.一种依托于权利要求1所述词频加权方法的多项式朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
Figure FDA0004059242040000017
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:
Figure FDA0004059242040000018
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure FDA0004059242040000021
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
3.一种依托于权利要求1所述词频加权方法的补集朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
Figure FDA0004059242040000022
其中,fi表示单词ti在文档d中出现的频率,为已知量;
Figure FDA0004059242040000023
通过以下公式计算得到:
Figure FDA0004059242040000024
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率
Figure FDA0004059242040000025
通过以下公式计算得到:
Figure FDA0004059242040000026
4.一种依托于权利要求1所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
Figure FDA0004059242040000027
其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和
Figure FDA0004059242040000028
分别通过以下公式计算得到:
Figure FDA0004059242040000029
Figure FDA00040592420400000210
其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:
Figure FDA0004059242040000031
其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率
Figure FDA0004059242040000032
通过以下公式计算得到:
Figure FDA0004059242040000033
CN202010097291.6A 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法 Active CN111259155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097291.6A CN111259155B (zh) 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097291.6A CN111259155B (zh) 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法

Publications (2)

Publication Number Publication Date
CN111259155A CN111259155A (zh) 2020-06-09
CN111259155B true CN111259155B (zh) 2023-04-07

Family

ID=70951127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097291.6A Active CN111259155B (zh) 2020-02-18 2020-02-18 一种基于特异性的词频加权方法及文本分类方法

Country Status (1)

Country Link
CN (1) CN111259155B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727463A (zh) * 2008-10-24 2010-06-09 中国科学院计算技术研究所 一种文本训练方法和分类方法
US7961955B1 (en) * 2008-01-28 2011-06-14 Thomas Cecil Minter Adaptive bayes feature extraction
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN106384123A (zh) * 2016-09-01 2017-02-08 中国地质大学(武汉) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN108460080A (zh) * 2018-01-09 2018-08-28 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US20170169105A1 (en) * 2013-11-27 2017-06-15 Nec Corporation Document classification method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961955B1 (en) * 2008-01-28 2011-06-14 Thomas Cecil Minter Adaptive bayes feature extraction
CN101727463A (zh) * 2008-10-24 2010-06-09 中国科学院计算技术研究所 一种文本训练方法和分类方法
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN106384123A (zh) * 2016-09-01 2017-02-08 中国地质大学(武汉) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN108460080A (zh) * 2018-01-09 2018-08-28 南京邮电大学 基于特征二维信息增益加权的朴素贝叶斯文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chang-Hwan Lee等.Calculating Feature Weights in Naive Bayes with Kullback-Leibler Measure.2011 11th IEEE International Conference on Data Mining/Calculating Feature Weights in Naive Bayes with Kullback-Leibler Measure.2011,1146-1151. *
任世超 ; 黄子良 ; .基于二维信息增益加权的朴素贝叶斯分类算法.计算机系统应用.2019,(第06期),137-142. *
李凯.中文文本分类方法研究.电脑知识与技术/中文文本分类方法研究.2019,242-244. *
饶丽丽 ; 刘雄辉 ; 张东站 ; .基于特征相关的改进加权朴素贝叶斯分类算法.厦门大学学报(自然科学版).2012,(第04期),38-41. *

Also Published As

Publication number Publication date
CN111259155A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN104820702B (zh) 一种基于决策树的属性加权方法及文本分类方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN106991127B (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN101739430B (zh) 一种基于关键词的文本情感分类器的训练方法和分类方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN102289522A (zh) 一种对于文本智能分类的方法
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN103020167B (zh) 一种计算机中文文本分类方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN104809233A (zh) 一种基于信息增益率的属性加权方法及文本分类方法
CN107526805B (zh) 一种基于权重的ML-kNN多标签中文文本分类方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN106528705A (zh) 一种基于rbf神经网络的重复记录检测方法和系统
CN113554100A (zh) 异构图注意力网络增强的Web服务分类方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN103123685A (zh) 文本模式识别方法
Melamud et al. Information-theory interpretation of the skip-gram negative-sampling objective function
CN111259155B (zh) 一种基于特异性的词频加权方法及文本分类方法
CN104714977A (zh) 一种实体与知识库项的关联方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant