CN108647259B - 基于改进深度特征加权的朴素贝叶斯文本分类方法 - Google Patents

基于改进深度特征加权的朴素贝叶斯文本分类方法 Download PDF

Info

Publication number
CN108647259B
CN108647259B CN201810382423.2A CN201810382423A CN108647259B CN 108647259 B CN108647259 B CN 108647259B CN 201810382423 A CN201810382423 A CN 201810382423A CN 108647259 B CN108647259 B CN 108647259B
Authority
CN
China
Prior art keywords
feature
text
probability
category
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810382423.2A
Other languages
English (en)
Other versions
CN108647259A (zh
Inventor
张昀
于舒娟
何伟
朱文峰
金海红
董茜茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd, Nanjing University of Posts and Telecommunications filed Critical Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd
Priority to CN201810382423.2A priority Critical patent/CN108647259B/zh
Publication of CN108647259A publication Critical patent/CN108647259A/zh
Application granted granted Critical
Publication of CN108647259B publication Critical patent/CN108647259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进深度特征加权的朴素贝叶斯文本分类方法,包括:获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。本发明能够使传统朴素贝叶斯算法的特征独立性假设得到抑制,为文本分类任务提供准确和快速的分类方法。

Description

基于改进深度特征加权的朴素贝叶斯文本分类方法
技术领域
本发明涉及一种基于改进深度特征加权的朴素贝叶斯文本分类方法,属于机器学习及自然语言处理技术领域。
背景技术
设{t1,t2...tm}为m个特征词,tk∈{t1,t2...tm},1≤k≤m,Di为任意文本,C={C1,C2,...,Cj,...,CV},1≤j≤V表示类别,特征加权的朴素贝叶斯公式为:
Figure GDA0003569104860000011
其中Wk为特征tk对应的权重,
Figure GDA0003569104860000012
表示文本Di中tk出现的频数。
朴素贝叶斯算法就是在贝叶斯理论的基础上增加一个特征独立性假设,即所有特征之间相互独立,对于文本分类效果互不影响。在已知文本所含特征之后,根据特征的条件概率和类别的先验概率得到特征所属类别的后验概率,通过比较后验概率的大小从而达到分类的效果。由以上公式可以看出传统朴素贝叶斯的特征独立性假设,导致各特征的权重其实是相同的,为了削弱传统朴素贝叶斯算法特征独立性假设,许多文献开始采用深度加权朴素贝叶斯文本分类算法。由于不同的特征对于分类效果的影响也是不同的,通过对不同的特征采用加权算法赋予不同的权值,从而达到削弱特征独立性假设的效果。
文献[Salton G,Buckley C.Term-weighting approaches in automatic textretrieval[M].Pergamon Press,Inc.1988.]中首次提出了TFIDF算法,并论证了TFIDF算法在文本分类中的有效性。
文献[武建军,李昌兵.基于互信息的加权朴素贝叶斯文本分类算法[J].计算机系统应用,2017,26(7):178-182.]使用互信息对不同类别中的特征项进行分别赋值,一定程度上削弱了假设对分类效果的影响。
文献[Jiang Q,Wang W,Han X.Deep feature weighting in Naive Bayes forChinese text classification[C]//International Conference on Cloud Computingand Intelligence Systems.IEEE,2016:160-164]通过把TFIDF算法与传统的深度加权方式结合,削弱了特征与类别之间的无关性,一定程度上提高了文本分类精度。
文献[Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayesand its application to text classification[J].Engineering Applications ofArtificial Intelligence,2016,52(C):26-39]将特征的信息增益率与深度加权方式融合在一起,进一步削弱了特征与类别之间的无关性,说明了特征加权算法在文本分类中的有效性。
然而这些改进只是针对一个方面,忽略了特征的属性是二维的,导致特征的第二维度的信息缺失,不能有效的结合特征的全面属性,造成分类准确度低下。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于改进深度特征加权的朴素贝叶斯文本分类方法,解决传统朴素贝叶斯文本分类算法的特征独立性假设得不到抑制,导致文本分类结果不准确的技术问题。
为解决上述记述问题,本发明所采用的技术方案是:基于改进深度特征加权的朴素贝叶斯文本分类方法,包括如下步骤:
获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;
利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;
对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。
进一步的,计算特征类别概率和特征文本概率的方法如下:
设:训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征词tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,计算特征类别概率:
Figure GDA0003569104860000031
tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;L=0.01为平滑因子;
计算特征文本概率:
Figure GDA0003569104860000032
Figure GDA0003569104860000033
表示含有特征词tk的文本;
Figure GDA0003569104860000034
表示含有特征词tk的文本在类别Cj中出现的篇数。
进一步的,二维信息增益的计算方法如下:
计算特征类别信息增益:
Figure GDA0003569104860000035
计算特征文本信息增益:
Figure GDA0003569104860000036
其中,lb(·)表示以2为底的对数;H(Cj)为类别Cj的信息熵;H(Cj|tk)表示特征词tk的类别条件信息熵;
Figure GDA0003569104860000037
表示特征词tk的文本条件信息熵;P(tk,Cj),
Figure GDA0003569104860000038
分别为特征类别概率和特征文本概率;
Figure GDA0003569104860000039
表示类别Cj在训练集中出现的概率,δ(Ci,Cj)表示二值函数,其公式如下:
Figure GDA0003569104860000041
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk
IGDC(tk)=IGD(tk)×IGC(tk)
Figure GDA0003569104860000042
其中:max[]表示求表达式的最大值;min[]表示求表达式的最小值。
进一步的,改进深度特征加权的朴素贝叶斯模型的计算方法如下:
使用深度加权方式计算条件概率:
Figure GDA0003569104860000043
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
Figure GDA0003569104860000044
其中:
Figure GDA0003569104860000045
表示文本Di中特征词tk出现的频数,P(Cj)表示类别Cj出现的概率;Wk表示特征二维信息增益,作为条件概率的幂次方。
进一步的,得到改进深度特征加权的朴素贝叶斯模型后需对模型取对数,具体如下:
Figure GDA0003569104860000046
其中:ln表示自然对数。
进一步的,获取文本所属类别的方法具体如下:
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C1类的概率:
Figure GDA0003569104860000051
文本Dtest属于C2类的概率:
Figure GDA0003569104860000052
文本Dtest属于C3类的概率:
Figure GDA0003569104860000053
……
文本Dtest属于
Figure GDA0003569104860000054
类的概率:
Figure GDA0003569104860000055
其中:
Figure GDA0003569104860000056
表示从总类别中选取的文本预分类的类别,
Figure GDA0003569104860000057
通过比较
Figure GDA0003569104860000058
Figure GDA0003569104860000059
的大小,选出最大的概率值对应的类别赋值给C″map就得到Dtest所属的类别。
与现有技术相比,本发明所达到的有益效果是:
在传统朴素贝叶斯算法的基础上增加特征加权优化算法,使特征的二维信息增益与独特的深度加权方式相结合,使传统朴素贝叶斯算法的特征独立性假设得到抑制,能够为文本分类任务提供准确和快速的分类方法,进而提升文本分类性能;与TFIDF加权朴素贝叶斯文本分类算法,TFIDF深度加权文本分类算法相比,本发明具有更好的鲁棒性,使其对所有类别的分类效果都能保持很好。
附图说明
图1为本发明方法与DFWNB,OFWNB的在英文文本分类上的宏F1值比较结果;
图2为本发明方法与DFWNB,OFWNB的在中文文本分类上的宏F1值比较结果
具体实施方式
本发明公开了一种基于改进深度特征加权的朴素贝叶斯文本分类方法,包括:获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别。本发明能够使传统朴素贝叶斯算法的特征独立性假设得到抑制,为文本分类任务提供准确和快速的分类方法。
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
基于改进深度特征加权的朴素贝叶斯文本分类方法,其实施过程如下:
设训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,本方法中从中文数据集中选取了六个类别:C1=旅游,C2=健康,C3=教育,C4=军事,C5=文化,C6=体育;
计算特征类别概率:
Figure GDA0003569104860000061
tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;
L=0.01为平滑因子;
计算特征文本概率:
Figure GDA0003569104860000071
因为特征词tk会在多篇文本中出现,所以式中,
Figure GDA0003569104860000072
表示含有特征词tk的文本;
Figure GDA0003569104860000073
表示含有特征词tk的文本在类别Cj中出现的篇数;
L=0.01为平滑因子,V表示总的类别数;
计算特征类别信息增益:
Figure GDA0003569104860000074
计算特征文本信息增益:
Figure GDA0003569104860000075
其中,lb(·)表示以2为底的对数;
H(Cj)为类别Cj的信息熵;
H(Cj|tk)表示特征词tk的类别条件信息熵;
Figure GDA0003569104860000076
表示特征词tk的文本条件信息熵;
P(tk,Cj),
Figure GDA0003569104860000077
分别为上文求出的特征类别概率和特征文本概率;
Figure GDA0003569104860000078
表示类别Cj在训练集中出现的概率,δ(Ci,Cj)表示二值函数其公式如下:
Figure GDA0003569104860000079
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk
IGDC(tk)=IGD(tk)×IGC(tk) (5)
Figure GDA0003569104860000081
其中max[]表示求表达式的最大值;
min[]表示求表达式的最小值;
使用深度加权方式计算条件概率:
Figure GDA0003569104860000082
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
Figure GDA0003569104860000083
其中Wk表示步骤G中求得的特征二维信息增益,作为条件概率的幂次方;由于大多数的概率都很小,为了避免出现下溢,对模型取对数:
Figure GDA0003569104860000084
其中ln表示自然对数;
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C1类的概率:
Figure GDA0003569104860000085
文本Dtest属于C2类的概率:
Figure GDA0003569104860000086
文本Dtest属于C3类的概率:
Figure GDA0003569104860000087
文本Dtest属于C4类的概率:
Figure GDA0003569104860000088
文本Dtest属于C5类的概率:
Figure GDA0003569104860000089
文本Dtest属于C6类的概率:
Figure GDA00035691048600000810
通过比较P(C1|Dtest),P(C2|Dtest),P(C3|Dtest),P(C4|Dtest),P(C5|Dtest),P(C6|Dtest)的大小,选出最大的概率值对应的类别赋值给Cmap就得到Dtest所属的类。
结合附图仿真结果说明:
表1为本发明基于改进深度特征加权的朴素贝叶斯文本分类方法(IGDC-DWNB)与TFIDF普通加权朴素贝叶斯文本分类方法(OFWNB),TFIDF深度加权朴素贝叶斯文本分类方法(DFWNB)在英文文本分类上的性能比较;
表2为本发明基于改进深度特征加权的朴素贝叶斯文本分类方法(IGDC-DWNB)与TFIDF普通加权朴素贝叶斯文本分类方法(OFWNB),TFIDF深度加权朴素贝叶斯文本分类方法(DFWNB)在中文文本分类上的性能比较。
表1算法在英文文本分类上的性能比较
Figure GDA0003569104860000091
表2算法在中文文本分类上的性能比较
Figure GDA0003569104860000092
Figure GDA0003569104860000101
从表1中可以看出,在特征数选取在300时,对于英文文本分类,整体上本发明的IGDC深度加权朴素贝叶斯模型的性能是最好的,可以看到由于原始的多项式模型没有加权的原因,导致个别类别的查准率很高而查全率很低的情况,这是不允许出现的结果。相反的,本文算法都能保证三个指标平均值都能优于DFWNB和OFWNB算法。从表2中可以看出,对于中文文本分类,本文的IGDC-DWNB算法的三个指标的平均值都要高于其他算法。
图1为IGDC-DWNB与DFWNB,OFWNB的在英文文本分类上的宏F1值比较结果,由图1看出:对于英文文本分类,随着特征维度的增加,IGDC-DWMNB算法宏F1值是最高的,其次是DFWNB算法,比DFWNB算法要高出3%到4%。图2为IGDC-DWNB与DFWNB,OFWNB的在中文文本分类上的宏F1值比较结果,由图1看出:对于中文文本分类,IGDC-DWNB算法的宏F1值依然是最高的,DFWNB和OFWNB相差的不多,充分说明了基于改进深度特征加权的朴素贝叶斯方法在文本分类中的有效性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (3)

1.基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,包括如下步骤:
获取文本的特征词,根据不同的特征词出现的类别数和文本数,得到相应的特征类别概率和特征文本概率,进而得到特征的二维信息增益;
利用所述二维信息增益与深度加权方式相结合对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型;
对于任意文本,利用改进深度特征加权的朴素贝叶斯模型分别计算属于各特征类别的概率,选出最大的概率值对应的类别即文本所属类别;
计算特征类别概率和特征文本概率的方法如下:
设:训练集文本总数为n,{t1,t2...tm}为训练集中提取的m个特征词,Di=[T1,T2...Tm]为向量化后的训练集中任意文本,Tk为特征词tk对应的取值,1≤k≤m,C={C1,C2...Cj...CV},V表示类别总数,1≤j≤V,计算特征类别概率:
Figure FDA0003569104850000011
tf(tk,Cj)表示特征词tk在类别Cj中出现的频数;L=0.01为平滑因子;
计算特征文本概率:
Figure FDA0003569104850000012
Figure FDA0003569104850000013
表示含有特征词tk的文本;
Figure FDA0003569104850000014
表示含有特征词tk的文本在类别Cj中出现的篇数;
二维信息增益的计算方法如下:
计算特征类别信息增益:
Figure FDA0003569104850000021
计算特征文本信息增益:
Figure FDA0003569104850000022
其中,lb(·)表示以2为底的对数;H(Cj)为类别Cj的信息熵;H(Cj|tk)表示特征词tk的类别条件信息熵;
Figure FDA0003569104850000023
表示特征词tk的文本条件信息熵;P(tk,Cj),
Figure FDA0003569104850000024
分别为特征类别概率和特征文本概率;
Figure FDA0003569104850000025
表示类别Cj在训练集中出现的概率,δ(Ci,Cj)表示二值函数其公式如下:
Figure FDA0003569104850000026
计算特征关于文本和类别的信息增益IGDC(tk),并进行线性归一化处理,得到特征词tk对应的特征二维信息增益Wk
IGDC(tk)=IGD(tk)×IGC(tk)
Figure FDA0003569104850000027
其中:max[]表示求表达式的最大值;min[]表示求表达式的最小值;
改进深度特征加权的朴素贝叶斯模型的计算方法如下:
使用深度加权方式计算条件概率:
Figure FDA0003569104850000028
对特征加权朴素贝叶斯模型进行深度加权,得到改进深度特征加权的朴素贝叶斯模型:
Figure FDA0003569104850000029
其中:
Figure FDA0003569104850000031
表示文本Di中特征词tk出现的频数,P(Cj)表示类别Cj出现的概率,Wk表示特征二维信息增益,作为条件概率的幂次方。
2.根据权利要求1所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,得到改进深度特征加权的朴素贝叶斯模型后需对模型取对数,具体如下:
Figure FDA0003569104850000032
其中:ln表示自然对数。
3.根据权利要求2所述的基于改进深度特征加权的朴素贝叶斯文本分类方法,其特征在于,获取文本所属类别的方法具体如下:
对于测试集中的文本Dtest=[T1,T2...Tm]分别计算:
文本Dtest属于C1类的概率:
Figure FDA0003569104850000033
文本Dtest属于C2类的概率:
Figure FDA0003569104850000034
文本Dtest属于C3类的概率:
Figure FDA0003569104850000035
……
文本Dtest属于
Figure FDA0003569104850000036
类的概率:
Figure FDA0003569104850000037
其中:C1,C2,C3,……,
Figure FDA0003569104850000038
表示从总类别中选取的文本预分类的类别,
Figure FDA0003569104850000039
通过比较P(C1|Dtest),P(C2|Dtest),P(C3|Dtest),P(C4|Dtest),P(C5|Dtest),……,
Figure FDA00035691048500000310
的大小,选出最大的概率值对应的类别赋值给C”map就得到Dtest所属的类别。
CN201810382423.2A 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法 Active CN108647259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810382423.2A CN108647259B (zh) 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810382423.2A CN108647259B (zh) 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法

Publications (2)

Publication Number Publication Date
CN108647259A CN108647259A (zh) 2018-10-12
CN108647259B true CN108647259B (zh) 2022-06-10

Family

ID=63747487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810382423.2A Active CN108647259B (zh) 2018-04-26 2018-04-26 基于改进深度特征加权的朴素贝叶斯文本分类方法

Country Status (1)

Country Link
CN (1) CN108647259B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767819B (zh) * 2018-12-11 2021-06-04 东软集团股份有限公司 病历的分组方法、装置、存储介质和电子设备
CN109885682B (zh) * 2019-01-25 2022-08-16 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809233A (zh) * 2015-05-12 2015-07-29 中国地质大学(武汉) 一种基于信息增益率的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809233A (zh) * 2015-05-12 2015-07-29 中国地质大学(武汉) 一种基于信息增益率的属性加权方法及文本分类方法
CN105045825A (zh) * 2015-06-29 2015-11-11 中国地质大学(武汉) 一种结构扩展的多项式朴素贝叶斯文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep feature weighting for naive Bayes and its application to text classification;Liangxiao Jiang 等;《2016 Elsevier》;20161231;全文 *
DEEP FEATURE WEIGHTING IN NAIVE BAYES FOR CHINESE TEXT CLASSIFICATION;Qiaowei Jiang 等;《2016 IEEE》;20161231;全文 *

Also Published As

Publication number Publication date
CN108647259A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
Jin et al. Predicting aesthetic score distribution through cumulative jensen-shannon divergence
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
Berry et al. Email surveillance using non-negative matrix factorization
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN106407406B (zh) 一种文本处理方法和系统
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN109508374B (zh) 基于遗传算法的文本数据半监督聚类方法
CN108595688A (zh) 基于在线学习的潜在语义跨媒体哈希检索方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN111611374A (zh) 语料扩充方法、装置、电子设备及存储介质
CN108647259B (zh) 基于改进深度特征加权的朴素贝叶斯文本分类方法
CN111522953B (zh) 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质
Kenyon-Dean et al. Clustering-oriented representation learning with attractive-repulsive loss
JP6468364B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Varela et al. An empirical study of feature selection for sentiment analysis
CN108460080B (zh) 基于特征二维信息增益加权的朴素贝叶斯文本分类方法
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质
Senthilnath et al. A novel harmony search-based approach for clustering problems
CN110580286A (zh) 一种基于类间信息熵的文本特征选择方法
CN109325511A (zh) 一种改进特征选择的算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant