CN108647259A - 基于改进深度特征加权的朴素贝叶斯文本分类方法 - Google Patents

基于改进深度特征加权的朴素贝叶斯文本分类方法 Download PDF

Info

Publication number
CN108647259A
CN108647259A CN201810382423.2A CN201810382423A CN108647259A CN 108647259 A CN108647259 A CN 108647259A CN 201810382423 A CN201810382423 A CN 201810382423A CN 108647259 A CN108647259 A CN 108647259A
Authority
CN
China
Prior art keywords
text
feature
classification
probability
naive bayesian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810382423.2A
Other languages
English (en)
Other versions
CN108647259B (zh
Inventor
张昀
于舒娟
何伟
朱文峰
金海红
董茜茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University Of Posts And Telecommunications Nantong Institute Ltd
Nanjing Post and Telecommunication University
Original Assignee
Nanjing University Of Posts And Telecommunications Nantong Institute Ltd
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University Of Posts And Telecommunications Nantong Institute Ltd, Nanjing Post and Telecommunication University filed Critical Nanjing University Of Posts And Telecommunications Nantong Institute Ltd
Priority to CN201810382423.2A priority Critical patent/CN108647259B/zh
Publication of CN108647259A publication Critical patent/CN108647259A/zh
Application granted granted Critical
Publication of CN108647259B publication Critical patent/CN108647259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Abstract

本发明公开了一种基于改进深度特征加权的朴素贝叶斯文本分类方法,包括:获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。本发明能够使传统朴素贝叶斯算法的特征独立性假设得到抑制,为文本分类任务提供准确和快速的分类方法。

Description

基于改进深度特征加权的朴素贝叶斯文本分类方法
技术领域
本发明涉及一种基于改进深度特征加权的朴素贝叶斯文本分类方法,属于机器学习及自然语言处理技术领域。
背景技术
设{t1,t2...tm}为m个特征词,tk∈{t1,t2...tm},1≤k≤m,Di为任意文本,C={C1,C2,...,Cj,...,CV},1≤j≤V表示类别,特征加权的朴素贝叶斯公式为:
其中Wk为特征tk对应的权重,表示文本Di中tk出现的频数。
朴素贝叶斯算法就是在贝叶斯理论的基础上增加一个特征独立性假设,即所有特征之间相互独立,对于文本分类效果互不影响。在已知文本所含特征之后,根据特征的条件概率和类别的先验概率得到特征所属类别的后验概率,通过比较后验概率的大小从而达到分类的效果。由以上公式可以看出传统朴素贝叶斯的特征独立性假设,导致各特征的权重其实是相同的,为了削弱传统朴素贝叶斯算法特征独立性假设,许多文献开始采用深度加权朴素贝叶斯文本分类算法。由于不同的特征对于分类效果的影响也是不同的,通过对不同的特征采用加权算法赋予不同的权值,从而达到削弱特征独立性假设的效果。
文献[Salton G,Buckley C.Term-weighting approaches in automatic textretrieval[M].Pergamon Press,Inc.1988.]中首次提出了TFIDF算法,并论证了TFIDF算法在文本分类中的有效性。
文献[武建军,李昌兵.基于互信息的加权朴素贝叶斯文本分类算法[J].计算机系统应用,2017,26(7):178-182.]使用互信息对不同类别中的特征项进行分别赋值,一定程度上削弱了假设对分类效果的影响。
文献[Jiang Q,Wang W,Han X.Deep feature weighting in Naive Bayes forChinese text classification[C]//International Conference on Cloud Computingand Intelligence Systems.IEEE,2016:160-164]通过把TFIDF算法与传统的深度加权方式结合,削弱了特征与类别之间的无关性,一定程度上提高了文本分类精度。
文献[Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayesand its application to text classification[J].Engineering Applications ofArtificial Intelligence,2016,52(C):26-39]将特征的信息增益率与深度加权方式融合在一起,进一步削弱了特征与类别之间的无关性,说明了特征加权算法在文本分类中的有效性。
然而这些改进只是针对一个方面,忽略了特征的属性是二维的,导致特征的第二维度的信息缺失,不能有效的结合特征的全面属性,造成分类准确度低下。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于改进深度特征加权的朴素贝叶斯文本分类方法,解决传统朴素贝叶斯文本分类算法的特征独立性假设得不到抑制,导致文本分类结果不准确的技术问题。
为解决上述记述问题,本发明所采用的技术方案是:基于改进深度特征加权的朴素贝叶斯文本分类方法,包括如下步骤:
获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;
利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;
对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。
进一步的,计算特征类别概率和特征文本概率的方法如下:
设:训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征词tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,计算特征类别概率:
tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;L=0.01为平滑因子;
计算特征文本概率:
表示含有特征词tk的文本;表示含有特征词tk的文本在类别Cj中出现的篇数。
进一步的,二维信息增益的计算方法如下:
计算特征类别信息增益:
计算特征文本信息增益:
其中,lb(g)表示以2为底的对数;H(Cj)为类别Cj的信息熵;H(Cj|tk)表示特征词tk的类别条件信息熵;表示特征词tk的文本条件信息熵;P(tk,Cj),分别为特征类别概率和特征文本概率;
表示类别Cj在训练集中出现的概率,δ(Ci,Cj)表示二值函数,其公式如下:
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk
IGDC(tk)=IGD(tk)×IGC(tk)
其中:max[]表示求表达式的最大值;min[]表示求表达式的最小值。
进一步的,改进深度特征加权的朴素贝叶斯模型的计算方法如下:
使用深度加权方式计算条件概率:
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
其中:表示文本Di中特征词tk出现的频数,P(Cj)表示类别Cj出现的概率;Wk表示特征二维信息增益,作为条件概率的幂次方。
进一步的,得到改进深度特征加权的朴素贝叶斯模型后需对模型取对数,具体如下:
其中:ln表示自然对数。
进一步的,获取文本所属类别的方法具体如下:
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C1类的概率:
文本Dtest属于C2类的概率:
文本Dtest属于C3类的概率:
……
文本Dtest属于类的概率:其中:表示从总类别中选取的文本预分类的类别,
通过比较 的大小,选出最大的概率值对应的类别赋值给C”map就得到Dtest所属的类别。
与现有技术相比,本发明所达到的有益效果是:
在传统朴素贝叶斯算法的基础上增加特征加权优化算法,使特征的二维信息增益与独特的深度加权方式相结合,使传统朴素贝叶斯算法的特征独立性假设得到抑制,能够为文本分类任务提供准确和快速的分类方法,进而提升文本分类性能;与TFIDF加权朴素贝叶斯文本分类算法,TFIDF深度加权文本分类算法相比,本发明具有更好的鲁棒性,使其对所有类别的分类效果都能保持很好。
附图说明
图1为本发明方法与DFWNB,OFWNB的在英文文本分类上的宏F1值比较结果;
图2为本发明方法与DFWNB,OFWNB的在中文文本分类上的宏F1值比较结果
具体实施方式
本发明公开了一种基于改进深度特征加权的朴素贝叶斯文本分类方法,包括:获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。本发明能够使传统朴素贝叶斯算法的特征独立性假设得到抑制,为文本分类任务提供准确和快速的分类方法。
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
基于改进深度特征加权的朴素贝叶斯文本分类方法,其实施过程如下:
设训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,本方法中从中文数据集中选取了六个类别:C1=旅游,C2=健康,C3=教育,C4=军事,C5=文化,C6=体育;
计算特征类别概率:
tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;
L=0.01为平滑因子;
计算特征文本概率:
因为特征词tk会在多篇文本中出现,所以式中,
表示含有特征词tk的文本;
表示含有特征词tk的文本在类别Cj中出现的篇数;
L=0.01为平滑因子,V表示总的类别数;
计算特征类别信息增益:
计算特征文本信息增益:
其中,lb(g)表示以2为底的对数;
H(Cj)为类别Cj的信息熵;
H(Cj|tk)表示特征词tk的类别条件信息熵;
表示特征词tk的文本条件信息熵;
P(tk,Cj),分别为上文求出的特征类别概率和特征文本概率;
表示类别Cj在训练集中出现的概率,δ(Ci,Cj)表示二值函数其公式如下:
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk
IGDC(tk)=IGD(tk)×IGC(tk) (5)
其中max[]表示求表达式的最大值;
min[]表示求表达式的最小值;
使用深度加权方式计算条件概率:
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
其中Wk表示步骤G中求得的特征二维信息增益,作为条件概率的幂次方;由于大多数的概率都很小,为了避免出现下溢,对模型取对数:
其中ln表示自然对数;
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C1类的概率:
文本Dtest属于C2类的概率:
文本Dtest属于C3类的概率:
文本Dtest属于C4类的概率:
文本Dtest属于C5类的概率:
文本Dtest属于C6类的概率:
通过比较P(C1|Dtest),P(C2|Dtest),P(C3|Dtest),P(C4|Dtest),P(C5|Dtest),P(C6|Dtest)的大小,选出最大的概率值对应的类别赋值给Cmap就得到Dtest所属的类。
结合附图仿真结果说明:
表1为本发明基于改进深度特征加权的朴素贝叶斯文本分类方法(IGDC-DWNB)与TFIDF普通加权朴素贝叶斯文本分类方法(OFWNB),TFIDF深度加权朴素贝叶斯文本分类方法(DFWNB)在英文文本分类上的性能比较;
表2为本发明基于改进深度特征加权的朴素贝叶斯文本分类方法(IGDC-DWNB)与TFIDF普通加权朴素贝叶斯文本分类方法(OFWNB),TFIDF深度加权朴素贝叶斯文本分类方法(DFWNB)在中文文本分类上的性能比较。
表1算法在英文文本分类上的性能比较
表2算法在中文文本分类上的性能比较
从表1中可以看出,在特征数选取在300时,对于英文文本分类,整体上本发明的IGDC深度加权朴素贝叶斯模型的性能是最好的,可以看到由于原始的多项式模型没有加权的原因,导致个别类别的查准率很高而查全率很低的情况,这是不允许出现的结果。相反的,本文算法都能保证三个指标平均值都能优于DFWNB和OFWNB算法。从表2中可以看出,对于中文文本分类,本文的IGDC-DWNB算法的三个指标的平均值都要高于其他算法。
图1为IGDC-DWNB与DFWNB,OFWNB的在英文文本分类上的宏F1值比较结果,由图1看出:对于英文文本分类,随着特征维度的增加,IGDC-DWMNB算法宏F1值是最高的,其次是DFWNB算法,比DFWNB算法要高出3%到4%。图2为IGDC-DWNB与DFWNB,OFWNB的在中文文本分类上的宏F1值比较结果,由图1看出:对于中文文本分类,IGDC-DWNB算法的宏F1值依然是最高的,DFWNB和OFWNB相差的不多,充分说明了基于改进深度特征加权的朴素贝叶斯方法在文本分类中的有效性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,包括如下步骤:
获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;
利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;
对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。
2.根据权利要求1所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,计算特征类别概率和特征文本概率的方法如下:
设:训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征词tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,计算特征类别概率:
tf(tk,Cj)表示特征词tk在类别Cj中出现的频数;L=0.01为平滑因子;
计算特征文本概率:
表示含有特征词tk的文本;表示含有特征词tk的文本在类别Cj中出现的篇数。
3.根据权利要求2所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,二维信息增益的计算方法如下:
计算特征类别信息增益:
计算特征文本信息增益:
其中,lb(g)表示以2为底的对数;H(Cj)为类别Cj的信息熵;H(Cj|tk)表示特征词tk的类别条件信息熵;表示特征词tk的文本条件信息熵;P(tk,Cj),分别为特征类别概率和特征文本概率;
表示类别Cj在训练集中出现的概率,δ(Ci,Cj)表示二值函数其公式如下:
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk
IGDC(tk)=IGD(tk)×IGC(tk)
其中:max[]表示求表达式的最大值;min[]表示求表达式的最小值。
4.根据权利要求3所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,改进深度特征加权的朴素贝叶斯模型的计算方法如下:
使用深度加权方式计算条件概率:
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
其中:表示文本Di中特征词tk出现的频数,P(Cj)表示类别Cj出现的概率,Wk表示特征二维信息增益,作为条件概率的幂次方。
5.根据权利要求4所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,得到改进深度特征加权的朴素贝叶斯模型后需对模型取对数,具体如下:
其中:ln表示自然对数。
6.根据权利要求5所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,获取文本所属类别的方法具体如下:
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C1类的概率:
文本Dtest属于C2类的概率:
文本Dtest属于C3类的概率:
……
文本Dtest属于类的概率:其中:C1,C2,C3,……,表示从总类别中选取的文本预分类的类别,
通过比较P(C1|Dtest),P(C2|Dtest),P(C3|Dtest),P(C4|Dtest),P(C5|Dtest),……,的大小,选出最大的概率值对应的类别赋值给C”map就得到Dtest所属的类别。
CN201810382423.2A 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法 Active CN108647259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810382423.2A CN108647259B (zh) 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810382423.2A CN108647259B (zh) 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法

Publications (2)

Publication Number Publication Date
CN108647259A true CN108647259A (zh) 2018-10-12
CN108647259B CN108647259B (zh) 2022-06-10

Family

ID=63747487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810382423.2A Active CN108647259B (zh) 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法

Country Status (1)

Country Link
CN (1) CN108647259B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767819A (zh) * 2018-12-11 2019-05-17 东软集团股份有限公司 病历的分组方法、装置、存储介质和电子设备
CN109885682A (zh) * 2019-01-25 2019-06-14 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809233A (zh) * 2015-05-12 2015-07-29 中国地质大学(武汉) 一种基于信息增益率的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809233A (zh) * 2015-05-12 2015-07-29 中国地质大学(武汉) 一种基于信息增益率的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIANGXIAO JIANG 等: "Deep feature weighting for naive Bayes and its application to text classification", 《2016 ELSEVIER》 *
QIAOWEI JIANG 等: "DEEP FEATURE WEIGHTING IN NAIVE BAYES FOR CHINESE TEXT CLASSIFICATION", 《2016 IEEE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767819A (zh) * 2018-12-11 2019-05-17 东软集团股份有限公司 病历的分组方法、装置、存储介质和电子设备
CN109767819B (zh) * 2018-12-11 2021-06-04 东软集团股份有限公司 病历的分组方法、装置、存储介质和电子设备
CN109885682A (zh) * 2019-01-25 2019-06-14 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法
CN109885682B (zh) * 2019-01-25 2022-08-16 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法

Also Published As

Publication number Publication date
CN108647259B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Jin et al. Predicting aesthetic score distribution through cumulative jensen-shannon divergence
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN102640089A (zh) 电子设备的文本输入系统及文本输入方法
WO2014050774A1 (en) Document classification assisting apparatus, method and program
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN109948125A (zh) 改进的Simhash算法在文本去重中的方法及系统
CN108446334A (zh) 一种无监督对抗训练的基于内容的图像检索方法
Basarkar Document classification using machine learning
CN108647259A (zh) 基于改进深度特征加权的朴素贝叶斯文本分类方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN108153899A (zh) 一种智能化文本分类方法
Zahedi et al. Improving text classification performance using PCA and recall-precision criteria
CN114579746A (zh) 一种优化的高精度文本分类方法及装置
CN108460080B (zh) 基于特征二维信息增益加权的朴素贝叶斯文本分类方法
CN106529490A (zh) 基于稀疏自编码码本实现笔迹鉴别的系统及方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant