CN104809229B - 一种文本特征词提取方法及系统 - Google Patents

一种文本特征词提取方法及系统 Download PDF

Info

Publication number
CN104809229B
CN104809229B CN201510230545.6A CN201510230545A CN104809229B CN 104809229 B CN104809229 B CN 104809229B CN 201510230545 A CN201510230545 A CN 201510230545A CN 104809229 B CN104809229 B CN 104809229B
Authority
CN
China
Prior art keywords
chromosome
feature word
fitness
population
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510230545.6A
Other languages
English (en)
Other versions
CN104809229A (zh
Inventor
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510230545.6A priority Critical patent/CN104809229B/zh
Publication of CN104809229A publication Critical patent/CN104809229A/zh
Application granted granted Critical
Publication of CN104809229B publication Critical patent/CN104809229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文本特征词提取方法及系统,方法包括:从预设的训练集中提取出多个候选特征词组合,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群;适应度计算步骤,包括:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则执行交叉操作和执行变异操作后得到下一代种群,执行适应度计算步骤。本发明实现了基于遗传算法实现特征词的提取,可以获取比传统特征选择算法更加准确的特征词组合。

Description

一种文本特征词提取方法及系统
技术领域
本发明涉及文本分析相关技术领域,特别是一种文本特征词提取方法及系统。
背景技术
经典的向量空间模型(VSM:VectorSpaceModel)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文本挖掘系统采用向量空间模型,用特征词条(T1,T2,…Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。
当前常用特征选择算法如下:
1.特征频度(TF)指训练集中特征Tk出现的次数。这是最简单的特征选择方法。直观上,特征在文本集中出现次数越多,对文本分类的贡献越大。由于原始特征集中绝大部分是低频特征,因此,设定阈值对过滤低频特征非常有效,可以获得很大的降维度。就高频特征而言,特征的统计分布决定了文本分类的准确率。即当该高频特征均匀地分布在所有文本中时,对分类的作用将是有限的。因此,主要用在文本标引时直接删除某些低频特征。
2.文本频度(DF)是训练集中含有词条Tk的文本数在总文本数中出现的概率。其理论假设为稀有词条或者对分类作用不大,或者是噪声,可以被删除。文本频度较特征频度的统计粒度更粗一些,在实际运用中有一定的效果。但是如果某一稀有词条主要在某类文本中出现的情况下,可能会把该类的显著特征错误地过滤掉。实验表明,用TF和DF的组合进行特征选择可以得到更好的降维效果。
3.在文本分类中,特征t的信息增益(IG)如式(4)所示:
其中,为训练集中不出现特征t的文本数除以训练集的文本数,P(Ci|t)为类型Ci中t出现的文本数除以训练集中出现t的文本数。特征在文本中是否出现都将为文本分类提供信息,计算不同情况下的条件概率以确定提供的信息量的大小。信息增益是机器学习领域较为广泛的特征选择方法。利用特征取值情况划分训练样本空间,根据所获得信息量的多少选择相应特征。进行特征选择时,应该选择信息增益大的特征。
4.开方检验(CHI),也叫X2统计量方法,有如下公式:
其中A表示包含特征词条ti且属于类别cj的文本频率;B表示包含ti不包含cj的文本频率;C表示不包含ti属于cj的文本频率;D表示不包含ti也不属于cj的文本频率;N=A+B+C+D为总的文本数。特征词条的计算方法有两种:a:计算特征词条ti相对于每个类的X2统计量值,然后取最大的最为该词条的最终。b:计算特征词条ti相对于每个类的X2统计量值,然后计算这些值的平均值作为该特征词条的最终X2。最终,进行特征选择时,选择X2值大的特征。
现有技术方案的缺点:
前面介绍的特征选择方法各有利弊。实验表明IG和CHI算法明显好于TF、DF算法,但是也不是没有缺点。IG最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。而CHI算法具有天生的“低频词缺陷”,因为它夸大了低频词的作用,甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的。
发明内容
基于此,有必要针对现有技术对特征词的选择准确性不高的技术问题,提供一种文本特征词提取方法及系统。
一种文本特征词提取方法,包括:
初始种群获取步骤,包括:从预设的训练集中提取出多个候选特征词,从所有候选特征词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群,初始化迭代次数,将初始种群作为当代种群,执行适应度计算步骤;
适应度计算步骤,包括:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则,执行选择步骤;
选择步骤,包括:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算步骤。
一种文本特征词提取系统,包括:
初始种群获取模块,用于:从预设的训练集中提取出多个候选特征词,从所有候选特征词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群,初始化迭代次数,将初始种群作为当代种群,执行适应度计算模块;
适应度计算模块,用于:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则,执行选择模块;
选择模块,用于:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算模块。
本发明实现了基于遗传算法实现特征词的提取,由于遗传算法具有很强的全局寻优能力和处理离散变量的特征,从而可以获取比传统特征选择算法更加准确的特征词组合。
附图说明
图1为本发明一种文本特征词提取方法的工作流程图;
图2为本发明一种文本特征词提取系统的结构模块图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图1所示为本发明一种文本特征词提取方法的工作流程图,包括:
步骤S101,包括:从预设的训练集中提取出多个候选特征词,从所有候选特征词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群,将初始种群作为当代种群,执行步骤S102;
步骤S102,包括:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则,执行步骤S103;
步骤S103,包括:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群,执行步骤S102。
步骤S101从训练集提取出候选特征词,并通过染色体方式表示包括一个或多个特征词的特征词组合,多个染色体组成了初始种群,染色体即种群中的个体。根据不同的文本分析目的,所提取出的候选特征词有所不同。例如,对于文本分类而言,则所提取出的候选特征词将用于对新的文本进行分类,而对于文本相似判断而言,则所提取出的候选特征词将用于判断文本的相似度。具体采用什么样的训练集及如何提取候选特征词,可以根据不同的文本分析目的进行设置。
步骤S102则是计算每个染色体的适应度,输出条件一般可以为:当代种群所包括的染色体的适应度满足预设适应度规则或者迭代次数超过预设最大阈值。即当地种群所包括具有适应度满足适应度规则的染色体。步骤S102~步骤S103是迭代过程,迭代次数是表示迭代的次数,为了避免迭代过程无法收敛,因此当超过预设的最大阈值时则结束迭代过程,输出相应的结果。所输出的结果,根据输出规则会有所不同。一般来说,输出规则为:如果当代种群所包括的染色体的适应度满足预设适应度规则输出当代种群中适应度满足预设适应度规则的染色体所表示的特征词组合,如果迭代次数超过最大阈值,则输出当代种群中的所有染色体所表示的特征词组合。步骤S102中所输出的特征词组合所包括的特征词,则为本发明所要提取得到的特征词。根据不同的文本分析目的,将特征词用于不同的文本分析过程。
本发明,根据遗传算法改进文本特征词提取算法,对原始遗传算法多个计算步骤进行改进,使其能够较好的应用于文本特征词问题当中。在实际测试过程中,取得了很好地效果。可以获取比传统特征选择算法更加准确的特征词组合。
在其中一个实施例中,染色体采用如下方式表示特征词组合:
将所有的候选特征词进行排序,每个候选特征词对应一个序号;
所述染色体中每个基因为一个候选特征词所对应的序号。
编码是应用遗传算法时要解决的首要问题,也是设计遗传算法的一个关键步骤。传统遗传算法采用二进制编码方式来建立解空间与染色体空间的一一对应关系。然而,文本特征词提取是一种无功优化多变量的复杂优化问题,由于其控制变量维数很多,采用二进制编码方式,为了保证问题的解具有一定的精度,则其染色体的编码串将很长,从而使遗传操作的计算量较大,计算时间增多,需要更多的内存空间,同时其搜索空间亦很大,导致搜索性能很差,收敛速度很慢。针对文本特征词选择问题的特点,本实施例采用整数类型作为编码方式,即每个基因表示一个特征词在所有候选特征词中的序号,采用特征词向量表示一个特征词组合,一个染色体就表示一个特征词向量,染色体长度等于特征词向量的长度。
在其中一个实施例中,所述步骤S103,具体包括:
对当代种群中的染色体的适应度进行排序,将排在前面的若干个染色体加入下一代种群,对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后加入下一代种群。
选择是最具有自然进行特色的操作之一,它是从所有母体中选取部分染色体组成繁殖库的过程。作为交叉和变异的前提,选择过程应保证越优良的染色体越有较大的几率被选中,而适应值低的染色体渐渐被淘汰,即所谓的“优胜劣汰”。
选择操作是建立在对染色体的适应度评价的基础之上,有时直接关系到收敛速度问题。本实施例对种群的适应度计算结果进行排序,对排在前面的染色体,直接进入下一代种群,而余下染色体通过执行交叉和变异来填充。
排在前面的染色体,可以是排在前N个的染色体,N为预设的大于0的自然数,或者是前M%的染色体,M为预设的正数。
在其中一个实施例中:
所述交叉概率为:其中Pc为当前染色体交叉概率,a为一个固定的值,用来设定初始交叉概率,i为迭代次数,fmax为当代种群最大适应度,fmin为当代种群最小适应度,f'为执行交叉操作的两个染色体的较大适应度;
所述变异概率为:其中Pm为变异概率,Pmax为预设的最大变异概率,f”为执行变异操作的染色体的适应度。
在其中一个实施例中:
所述从预设的训练集中提取出多个候选特征词,具体包括:对预设的训练集中进行文本分词得到包括文本分词的文本分词结果,从文本分词结果中选择文本分词作为所述候选特征词;
所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,具体包括:对预设的测试集采用每个所述染色体所表示的特征词组合进行文本分类得到关于每个特征词组合的分类准确率或者召回率,根据所述分类准确率或者所述召回率确定相应的染色体的适应度。
根据所述分类准确率或者所述召回率确定相应的染色体的适应度,可以是使染色体的适应度为分类准确率或者召回率的一个函数。
本实施例中,所有候选特征词可以通过对训练集进行文本分词得到文本分词结果,并从文本分词结果中使用传统特征词提取方法选取出来,然后通过本发明的方法,从中选择更短的更准确的特征词。初始种群可以从所有候选词中随机选出固定长度的特征词组成的染色体。
图2为本发明一种文本特征词提取系统的结构模块图,包括:
初始种群获取模块201,用于:从预设的训练集中提取出多个候选特征词,从所有候选特征词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群,将初始种群作为当代种群,执行适应度计算模块202;
适应度计算模块202,用于:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则,执行选择模块203;
选择模块203,用于:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算模块203。
在其中一个实施例中,染色体采用如下方式表示特征词组合:
将所有的候选特征词进行排序,每个候选特征词对应一个序号;
所述染色体中每个基因为一个候选特征词所对应的序号。
在其中一个实施例中,所述选择模块,具体包括:
对当代种群中的染色体的适应度进行排序,将排在前面的若干个染色体加入下一代种群,对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后加入下一代种群。
在其中一个实施例中:
所述交叉概率为:其中Pc为当前染色体交叉概率,a为一个固定的值,用来设定初始交叉概率,i为迭代次数,fmax为当代种群最大适应度,fmin为当代种群最小适应度,f'为执行交叉操作的两个染色体的较大适应度;
所述变异概率为:其中Pm为变异概率,Pmax为预设的最大变异概率,f”为执行变异操作的染色体的适应度。
在其中一个实施例中:
所述从预设的训练集中提取出多个候选特征词,具体用于:对预设的训练集中进行文本分词得到包括文本分词的文本分词结果,从文本分词结果中选择文本分词作为所述候选特征词;
所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,具体用于:对预设的测试集采用每个所述染色体所表示的特征词组合进行文本分类得到关于每个特征词组合的分类准确率或者召回率,根据所述分类准确率或者所述召回率确定相应的染色体的适应度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种文本特征词提取方法,其特征在于,包括:
初始种群获取步骤,包括:从预设的训练集中提取出多个候选特征词,从所有候选特征词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群,初始化迭代次数,将初始种群作为当代种群,执行适应度计算步骤;
适应度计算步骤,包括:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则,执行选择步骤;
选择步骤,包括:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算步骤;
染色体采用如下方式表示特征词组合:
将所有的候选特征词进行排序,每个候选特征词对应一个序号;
所述染色体中每个基因为一个候选特征词所对应的序号。
2.根据权利要求1所述的文本特征词提取方法,其特征在于,所述选择步骤,具体包括:
对当代种群中的染色体的适应度进行排序,将排在前面的若干个染色体加入下一代种群,对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后加入下一代种群。
3.根据权利要求1所述的文本特征词提取方法,其特征在于:
所述交叉概率为:其中Pc为当前染色体交叉概率,a为一个固定的值,用来设定初始交叉概率,i为迭代次数,fmax为当代种群最大适应度,fmin为当代种群最小适应度,f'为执行交叉操作的两个染色体的较大适应度;
所述变异概率为:其中Pm为变异概率,Pmax为预设的最大变异概率,f”为执行变异操作的染色体的适应度。
4.根据权利要求1所述的文本特征词提取方法,其特征在于:
所述从预设的训练集中提取出多个候选特征词,具体包括:对预设的训练集中进行文本分词得到包括文本分词的文本分词结果,从文本分词结果中选择文本分词作为所述候选特征词;
所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,具体包括:对预设的测试集采用每个所述染色体所表示的特征词组合进行文本分类得到关于每个特征词组合的分类准确率或者召回率,根据所述分类准确率或者所述召回率确定相应的染色体的适应度。
5.一种文本特征词提取系统,其特征在于,包括:
初始种群获取模块,用于:从预设的训练集中提取出多个候选特征词,从所有候选特征词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群,初始化迭代次数,将初始种群作为当代种群,执行适应度计算模块;
适应度计算模块,用于:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则,执行选择模块;
选择模块,用于:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算模块;
染色体采用如下方式表示特征词组合:
将所有的候选特征词进行排序,每个候选特征词对应一个序号;
所述染色体中每个基因为一个候选特征词所对应的序号。
6.根据权利要求5所述的文本特征词提取系统,其特征在于,所述选择模块,具体包括:
对当代种群中的染色体的适应度进行排序,将排在前面的若干个染色体加入下一代种群,对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后加入下一代种群。
7.根据权利要求5所述的文本特征词提取系统,其特征在于:
所述交叉概率为:其中Pc为当前染色体交叉概率,a为一个固定的值,用来设定初始交叉概率,i为迭代次数,fmax为当代种群最大适应度,fmin为当代种群最小适应度,f'为执行交叉操作的两个染色体的较大适应度;
所述变异概率为:其中Pm为变异概率,Pmax为预设的最大变异概率,f”为执行变异操作的染色体的适应度。
8.根据权利要求5所述的文本特征词提取系统,其特征在于:
所述从预设的训练集中提取出多个候选特征词,具体用于:对预设的训练集中进行文本分词得到包括文本分词的文本分词结果,从文本分词结果中选择文本分词作为所述候选特征词;
所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,具体用于:对预设的测试集采用每个所述染色体所表示的特征词组合进行文本分类得到关于每个特征词组合的分类准确率或者召回率,根据所述分类准确率或者所述召回率确定相应的染色体的适应度。
CN201510230545.6A 2015-05-07 2015-05-07 一种文本特征词提取方法及系统 Active CN104809229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510230545.6A CN104809229B (zh) 2015-05-07 2015-05-07 一种文本特征词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510230545.6A CN104809229B (zh) 2015-05-07 2015-05-07 一种文本特征词提取方法及系统

Publications (2)

Publication Number Publication Date
CN104809229A CN104809229A (zh) 2015-07-29
CN104809229B true CN104809229B (zh) 2018-12-04

Family

ID=53694051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510230545.6A Active CN104809229B (zh) 2015-05-07 2015-05-07 一种文本特征词提取方法及系统

Country Status (1)

Country Link
CN (1) CN104809229B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN110047090B (zh) * 2019-03-28 2022-10-14 淮阴工学院 基于演化特征学习的rgb-d目标跟踪方法
CN111462915B (zh) * 2020-03-20 2023-08-18 云知声智能科技股份有限公司 一种医疗文本数据自动标注方法
CN112036566A (zh) * 2020-08-03 2020-12-04 上海明略人工智能(集团)有限公司 使用遗传算法选取特征的方法和装置
CN117688354B (zh) * 2024-02-01 2024-04-26 中国标准化研究院 一种基于进化算法的文本特征选择方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937440A (zh) * 2009-06-30 2011-01-05 华为技术有限公司 特征选择的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5872183B2 (ja) * 2011-04-08 2016-03-01 株式会社ユニバーサルエンターテインメント 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法
CN104239436B (zh) * 2014-08-27 2018-01-02 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937440A (zh) * 2009-06-30 2011-01-05 华为技术有限公司 特征选择的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于改进遗传算法的文本特征选择方法;李桂芳等;《山东师范大学学报》;20070630;第22卷(第2期);第17-19页 *
基于词典和遗传算法的文本特征获取方法;覃晓等;《计算机工程与设计》;20081130;第29卷(第21期);第5651页-第5654页 *

Also Published As

Publication number Publication date
CN104809229A (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN104809229B (zh) 一种文本特征词提取方法及系统
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN106529574B (zh) 基于稀疏自动编码器和支持向量机的图像分类方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN106528642A (zh) 一种基于tf‑idf特征提取的短文本分类方法
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN110046634B (zh) 聚类结果的解释方法和装置
CN104573013A (zh) 结合类别权重的集成学习分类方法
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN109086375A (zh) 一种基于词向量增强的短文本主题抽取方法
CN106372640A (zh) 一种字频文本分类方法
CN109947928A (zh) 一种检索式人工智能问答机器人开发方法
CN109766911A (zh) 一种行为预测方法
CN107145516A (zh) 一种文本聚类方法及系统
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
CN106960040A (zh) 一种url的类别确定方法及装置
CN104009886A (zh) 基于支持向量机的入侵检测方法
CN109857864A (zh) 文本情感分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant