CN108647259B - 基于改进深度特征加权的朴素贝叶斯文本分类方法 - Google Patents
基于改进深度特征加权的朴素贝叶斯文本分类方法 Download PDFInfo
- Publication number
- CN108647259B CN108647259B CN201810382423.2A CN201810382423A CN108647259B CN 108647259 B CN108647259 B CN 108647259B CN 201810382423 A CN201810382423 A CN 201810382423A CN 108647259 B CN108647259 B CN 108647259B
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- probability
- category
- weighting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进深度特征加权的朴素贝叶斯文本分类方法,包括:获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。本发明能够使传统朴素贝叶斯算法的特征独立性假设得到抑制,为文本分类任务提供准确和快速的分类方法。
Description
技术领域
本发明涉及一种基于改进深度特征加权的朴素贝叶斯文本分类方法,属于机器学习及自然语言处理技术领域。
背景技术
设{t1,t2...tm}为m个特征词,tk∈{t1,t2...tm},1≤k≤m,Di为任意文本,C={C1,C2,...,Cj,...,CV},1≤j≤V表示类别,特征加权的朴素贝叶斯公式为:
朴素贝叶斯算法就是在贝叶斯理论的基础上增加一个特征独立性假设,即所有特征之间相互独立,对于文本分类效果互不影响。在已知文本所含特征之后,根据特征的条件概率和类别的先验概率得到特征所属类别的后验概率,通过比较后验概率的大小从而达到分类的效果。由以上公式可以看出传统朴素贝叶斯的特征独立性假设,导致各特征的权重其实是相同的,为了削弱传统朴素贝叶斯算法特征独立性假设,许多文献开始采用深度加权朴素贝叶斯文本分类算法。由于不同的特征对于分类效果的影响也是不同的,通过对不同的特征采用加权算法赋予不同的权值,从而达到削弱特征独立性假设的效果。
文献[Salton G,Buckley C.Term-weighting approaches in automatic textretrieval[M].Pergamon Press,Inc.1988.]中首次提出了TFIDF算法,并论证了TFIDF算法在文本分类中的有效性。
文献[武建军,李昌兵.基于互信息的加权朴素贝叶斯文本分类算法[J].计算机系统应用,2017,26(7):178-182.]使用互信息对不同类别中的特征项进行分别赋值,一定程度上削弱了假设对分类效果的影响。
文献[Jiang Q,Wang W,Han X.Deep feature weighting in Naive Bayes forChinese text classification[C]//International Conference on Cloud Computingand Intelligence Systems.IEEE,2016:160-164]通过把TFIDF算法与传统的深度加权方式结合,削弱了特征与类别之间的无关性,一定程度上提高了文本分类精度。
文献[Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayesand its application to text classification[J].Engineering Applications ofArtificial Intelligence,2016,52(C):26-39]将特征的信息增益率与深度加权方式融合在一起,进一步削弱了特征与类别之间的无关性,说明了特征加权算法在文本分类中的有效性。
然而这些改进只是针对一个方面,忽略了特征的属性是二维的,导致特征的第二维度的信息缺失,不能有效的结合特征的全面属性,造成分类准确度低下。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于改进深度特征加权的朴素贝叶斯文本分类方法,解决传统朴素贝叶斯文本分类算法的特征独立性假设得不到抑制,导致文本分类结果不准确的技术问题。
为解决上述记述问题,本发明所采用的技术方案是:基于改进深度特征加权的朴素贝叶斯文本分类方法,包括如下步骤:
获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;
利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;
对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。
进一步的,计算特征类别概率和特征文本概率的方法如下:
设:训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征词tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,计算特征类别概率:
tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;L=0.01为平滑因子;
计算特征文本概率:
进一步的,二维信息增益的计算方法如下:
计算特征类别信息增益:
计算特征文本信息增益:
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk:
IGDC(tk)=IGD(tk)×IGC(tk)
其中:max[]表示求表达式的最大值;min[]表示求表达式的最小值。
进一步的,改进深度特征加权的朴素贝叶斯模型的计算方法如下:
使用深度加权方式计算条件概率:
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
进一步的,得到改进深度特征加权的朴素贝叶斯模型后需对模型取对数,具体如下:
其中:ln表示自然对数。
进一步的,获取文本所属类别的方法具体如下:
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
……
与现有技术相比,本发明所达到的有益效果是:
在传统朴素贝叶斯算法的基础上增加特征加权优化算法,使特征的二维信息增益与独特的深度加权方式相结合,使传统朴素贝叶斯算法的特征独立性假设得到抑制,能够为文本分类任务提供准确和快速的分类方法,进而提升文本分类性能;与TFIDF加权朴素贝叶斯文本分类算法,TFIDF深度加权文本分类算法相比,本发明具有更好的鲁棒性,使其对所有类别的分类效果都能保持很好。
附图说明
图1为本发明方法与DFWNB,OFWNB的在英文文本分类上的宏F1值比较结果;
图2为本发明方法与DFWNB,OFWNB的在中文文本分类上的宏F1值比较结果
具体实施方式
本发明公开了一种基于改进深度特征加权的朴素贝叶斯文本分类方法,包括:获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。本发明能够使传统朴素贝叶斯算法的特征独立性假设得到抑制,为文本分类任务提供准确和快速的分类方法。
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
基于改进深度特征加权的朴素贝叶斯文本分类方法,其实施过程如下:
设训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,本方法中从中文数据集中选取了六个类别:C1=旅游,C2=健康,C3=教育,C4=军事,C5=文化,C6=体育;
计算特征类别概率:
tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;
L=0.01为平滑因子;
计算特征文本概率:
因为特征词tk会在多篇文本中出现,所以式中,
L=0.01为平滑因子,V表示总的类别数;
计算特征类别信息增益:
计算特征文本信息增益:
其中,lb(·)表示以2为底的对数;
H(Cj)为类别Cj的信息熵;
H(Cj|tk)表示特征词tk的类别条件信息熵;
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk:
IGDC(tk)=IGD(tk)×IGC(tk) (5)
其中max[]表示求表达式的最大值;
min[]表示求表达式的最小值;
使用深度加权方式计算条件概率:
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
其中Wk表示步骤G中求得的特征二维信息增益,作为条件概率的幂次方;由于大多数的概率都很小,为了避免出现下溢,对模型取对数:
其中ln表示自然对数;
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C6类的概率:通过比较P(C1|Dtest),P(C2|Dtest),P(C3|Dtest),P(C4|Dtest),P(C5|Dtest),P(C6|Dtest)的大小,选出最大的概率值对应的类别赋值给Cmap就得到Dtest所属的类。
结合附图仿真结果说明:
表1为本发明基于改进深度特征加权的朴素贝叶斯文本分类方法(IGDC-DWNB)与TFIDF普通加权朴素贝叶斯文本分类方法(OFWNB),TFIDF深度加权朴素贝叶斯文本分类方法(DFWNB)在英文文本分类上的性能比较;
表2为本发明基于改进深度特征加权的朴素贝叶斯文本分类方法(IGDC-DWNB)与TFIDF普通加权朴素贝叶斯文本分类方法(OFWNB),TFIDF深度加权朴素贝叶斯文本分类方法(DFWNB)在中文文本分类上的性能比较。
表1算法在英文文本分类上的性能比较
表2算法在中文文本分类上的性能比较
从表1中可以看出,在特征数选取在300时,对于英文文本分类,整体上本发明的IGDC深度加权朴素贝叶斯模型的性能是最好的,可以看到由于原始的多项式模型没有加权的原因,导致个别类别的查准率很高而查全率很低的情况,这是不允许出现的结果。相反的,本文算法都能保证三个指标平均值都能优于DFWNB和OFWNB算法。从表2中可以看出,对于中文文本分类,本文的IGDC-DWNB算法的三个指标的平均值都要高于其他算法。
图1为IGDC-DWNB与DFWNB,OFWNB的在英文文本分类上的宏F1值比较结果,由图1看出:对于英文文本分类,随着特征维度的增加,IGDC-DWMNB算法宏F1值是最高的,其次是DFWNB算法,比DFWNB算法要高出3%到4%。图2为IGDC-DWNB与DFWNB,OFWNB的在中文文本分类上的宏F1值比较结果,由图1看出:对于中文文本分类,IGDC-DWNB算法的宏F1值依然是最高的,DFWNB和OFWNB相差的不多,充分说明了基于改进深度特征加权的朴素贝叶斯方法在文本分类中的有效性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (3)
1.基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,包括如下步骤:
获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;
利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;
对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别;
计算特征类别概率和特征文本概率的方法如下:
设:训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征词tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,计算特征类别概率:
tf(tk,Cj)表示特征词tk在类别Cj中出现的频数;L=0.01为平滑因子;
计算特征文本概率:
二维信息增益的计算方法如下:
计算特征类别信息增益:
计算特征文本信息增益:
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk:
IGDC(tk)=IGD(tk)×IGC(tk)
其中:max[]表示求表达式的最大值;min[]表示求表达式的最小值;
改进深度特征加权的朴素贝叶斯模型的计算方法如下:
使用深度加权方式计算条件概率:
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
3.根据权利要求2所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,获取文本所属类别的方法具体如下:
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
……
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382423.2A CN108647259B (zh) | 2018-04-26 | 2018-04-26 | 基于改进深度特征加权的朴素贝叶斯文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382423.2A CN108647259B (zh) | 2018-04-26 | 2018-04-26 | 基于改进深度特征加权的朴素贝叶斯文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108647259A CN108647259A (zh) | 2018-10-12 |
CN108647259B true CN108647259B (zh) | 2022-06-10 |
Family
ID=63747487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810382423.2A Active CN108647259B (zh) | 2018-04-26 | 2018-04-26 | 基于改进深度特征加权的朴素贝叶斯文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647259B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767819B (zh) * | 2018-12-11 | 2021-06-04 | 东软集团股份有限公司 | 病历的分组方法、装置、存储介质和电子设备 |
CN109885682B (zh) * | 2019-01-25 | 2022-08-16 | 南京邮电大学 | 基于fcbf的自定义特征维数文本特征选择算法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809233A (zh) * | 2015-05-12 | 2015-07-29 | 中国地质大学(武汉) | 一种基于信息增益率的属性加权方法及文本分类方法 |
CN105045825A (zh) * | 2015-06-29 | 2015-11-11 | 中国地质大学(武汉) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
-
2018
- 2018-04-26 CN CN201810382423.2A patent/CN108647259B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809233A (zh) * | 2015-05-12 | 2015-07-29 | 中国地质大学(武汉) | 一种基于信息增益率的属性加权方法及文本分类方法 |
CN105045825A (zh) * | 2015-06-29 | 2015-11-11 | 中国地质大学(武汉) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
Non-Patent Citations (2)
Title |
---|
Deep feature weighting for naive Bayes and its application to text classification;Liangxiao Jiang 等;《2016 Elsevier》;20161231;全文 * |
DEEP FEATURE WEIGHTING IN NAIVE BAYES FOR CHINESE TEXT CLASSIFICATION;Qiaowei Jiang 等;《2016 IEEE》;20161231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108647259A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | Predicting aesthetic score distribution through cumulative jensen-shannon divergence | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
Berry et al. | Email surveillance using non-negative matrix factorization | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN106407406B (zh) | 一种文本处理方法和系统 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN110245557B (zh) | 图片处理方法、装置、计算机设备及存储介质 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN109508374B (zh) | 基于遗传算法的文本数据半监督聚类方法 | |
CN108595688A (zh) | 基于在线学习的潜在语义跨媒体哈希检索方法 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN111611374A (zh) | 语料扩充方法、装置、电子设备及存储介质 | |
CN108647259B (zh) | 基于改进深度特征加权的朴素贝叶斯文本分类方法 | |
CN111522953B (zh) | 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质 | |
Kenyon-Dean et al. | Clustering-oriented representation learning with attractive-repulsive loss | |
JP6468364B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
Varela et al. | An empirical study of feature selection for sentiment analysis | |
CN108460080B (zh) | 基于特征二维信息增益加权的朴素贝叶斯文本分类方法 | |
JP5929532B2 (ja) | イベント検出装置、イベント検出方法およびイベント検出プログラム | |
CN116935057A (zh) | 目标评价方法、电子设备和计算机可读存储介质 | |
CN111488400A (zh) | 数据分类方法、装置和计算机可读存储介质 | |
Senthilnath et al. | A novel harmony search-based approach for clustering problems | |
CN110580286A (zh) | 一种基于类间信息熵的文本特征选择方法 | |
CN109325511A (zh) | 一种改进特征选择的算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |