CN104657472A - 一种基于进化算法的英文文本聚类方法 - Google Patents

一种基于进化算法的英文文本聚类方法 Download PDF

Info

Publication number
CN104657472A
CN104657472A CN201510079140.7A CN201510079140A CN104657472A CN 104657472 A CN104657472 A CN 104657472A CN 201510079140 A CN201510079140 A CN 201510079140A CN 104657472 A CN104657472 A CN 104657472A
Authority
CN
China
Prior art keywords
text
word
clustering
cluster
cluster centre
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510079140.7A
Other languages
English (en)
Inventor
陈志�
陈骏
岳文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510079140.7A priority Critical patent/CN104657472A/zh
Publication of CN104657472A publication Critical patent/CN104657472A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明给出一种英文文本聚类方法,该方法首先将英文文本进行预处理成向量空间模型,然后在聚类过程中,第一步是随机选取n个聚类中心,对于聚类中心,利用欧氏距离进行聚类的划分,使同一类的文本归为一个聚类,这样完成得到一个局部最优的聚类划分;第二步是进行进化算法的处理,所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择,通过与文本间距离最近的原则进行聚类划分从而达到全局最优。本发明能够对英文文本进行有效聚类,剔除不必要的聚类结果,使得聚类过程较快收敛。

Description

一种基于进化算法的英文文本聚类方法
技术领域
本发明涉及一种英文文本聚类方法,利用一种局部聚类的方法对文本进行聚类中心的选择,再利用一种进化算法进行全局聚类,属于机器学习、文本挖掘、统计分析、信息检索交叉技术应用领域。
背景技术
随着数据库技术和互联网技术普及和发展,人们因为大量数据已经陷入了“数据丰富,知识贫乏”的尴尬境地。面对浩瀚的数据海洋,不知所措。信息量虽然巨大,但对于用户来说,所需要信息只是其中很小的一部分。如何从浩瀚的文本信息资源中准确获取所需信息,已成为信息处理的一个关键问题。文本挖掘指的是从大量的文本集合中发现潜在的模式和知识的过程。文本聚类是文本挖掘的主要技术之一。
文本聚类是一种集成机器学习、模式识别、统计分析和信息检索技术于一体的文本挖掘方法,其特点是在不需要训练集和预定义类别的情况下,即可从给定的文档集合中找到合理的聚类划分。通过文本聚类,可将文档集合划分为若干簇,并使同一簇中的文档具有尽可能大的相似度,簇间文档保持尽可能小的相似度,为信息的查询和检索提供了较好的优化和分析方法。
典型的文本聚类方法有很多种,其中K-Means算法因其简单和高效性,在文本聚类中占有重要地位。由于K-Means算法在聚类中心的计算过程中采用了启发式方法,因而有效地降低了算法复杂度,提高了运算速度。也因为如此,使得该算法对初始聚类中心的选择较为敏感,易于陷入局部最优解。
遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。遗传算法的这些性质,已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。它是现代有关智能计算中的关键技术。遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法,是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。
发明内容
技术问题:本发明的目的是提供一种基于进化算法的英文文本聚类方法,将局部聚类算法和进化算法相结合对多个英文文本进行聚类,先将文本进行局部聚类以选出一批合适的聚类中心,以余弦相似度进行文本的相似度度量,而后利用进化算法进行源种群聚类中心的选取以及聚类的划分以达到全局聚类的效果,解决聚类中心的选取过于随机而无法得到最优聚类、同一聚类文件相似度不高以及聚
类次数过多而产生不必要的聚类结果使得聚类无法收敛等问题。
技术方案:本发明所述的一种基于进化算法的英文文本聚类方法,将文本预先处理成为向量集,根据公式计算出单词的权重作为特征项来进行文本表示,然后随机选取聚类中心进行文本的局部聚类,最后通过进化算法中种群的联姻思想进行新一代聚类中心的选择,通过与文本间距离最近的原则进行聚类划分从而达到
全局最优。
本发明所述的英文文本聚类的方法包括以下步骤:
步骤1)将用户提供的多个英文文本拆分成单词,删除长度小于2的单词;删除停用词,将删除后的单词形成新的单词集合;所述停用词是由用户指定,一般为那些对文本标识没有太大作用的单词,主要功能是消除所有文本中出现频率都很高的词;
步骤2)统计用户所提供文本集中的文本总数、统计每个文本中删除后的单词总数;统计出在新的单词集合中每个单词出现在各文本中的数量,统计出新的单词集中每个单词所出现过的文本数;
步骤3)对所有的单词按照其权值从大到小排序,提取4-6个的权重较大的单词作为文本的特征表示;所述权值表示为fi(d)为词频;所述词频是在该文本中,该单词的数量除以该文本中的总单词数;所述N为总文本数,ni为文本集合中含有该词的文本数;
步骤4)随机选取2-4个聚类中心(质心文本);利用欧氏距离进行文本的距离度量,为质心文本找到相似文本;xpk,xqk分别表示文本dp,dq的第k个文本特征的权重;利用余弦相似度公式,计算出非质心文本与质心的相似度,用户通过给出阈值来判断相似度的高低,将相似度高的置于第一群集,相似度低的置于第二群集,直到找到最后一个文件为止;判断目标函数是否改变;所述W1k表示第一个文本的权重,W2k表示第二个文本的权重,k表示第k个特征项;所述目标函数是指所输入的文件与聚类中心的距离是否改变;重新计算聚类中心,重复步骤4);
步骤5)对每个聚类中心进行编码,将聚类中心表示为染色体,随机选择样本点(聚类中心)作为染色体基因;确定适应度函数所述编码是指将特征值转化为二进制表示;所述适应度函数是基于欧氏距离进行的相似度度量,Fitness(I)表示个体I的适应度,Xα为属于类Cβ的样本点,Zβ为第β个聚类中心;
步骤6)将染色体基因进行联姻产生下一代个体,并鉴别精英个体;然后采用轮盘赌法,由适应度函数对应的概率分布确定把当前群体中的第α个个体I按照选择概率抽出,并进行交叉和变异;所述联姻是仿照生物学中父代双亲结合产生下一代的过程;所述精英个体是指在聚类过程中总是获得较高相似度的聚类中心;相似度的高低通过用户给出的阈值判断;所述轮盘赌是一种赌博方式,每一种选择的方式都是完全随机没有任何认为操作的;所述Ps(Iα)表示第α个个体被选择的概率;
步骤61)从当前群体中按轮盘赌法选择两条染色体,随机选取交叉位置,将两条染色体从交叉点处分成两段,按概率Pc一次将两条染黑色体的右半段互换并重新连接,得到两条新染色体;
步骤62)随机选择基因变异的位置,以用户指定的变异概率Pm对这些位置的基因进行变异,所述变异概率一般在0.01至0.3之间;
步骤7)复制联姻后代到上一代种群中,若精英个体优于联姻后代,则将精英个体复制到相关源种群作为新的聚类中心,否则仍使用联姻后代作为聚类中心;当达到联姻最大代数的时候停止联姻,确定聚类中心;在聚类中心确定的情况下,聚类划分采用与文本距离最近的原则确定,γ为聚类数;最后使得聚类的划分更加准确,同一聚类的文本相似度更高。
有益效果:
1)本发明提供一种英文文本聚类的方法,整个过程思路清晰,易于理解,首先借用的K-means算法的思想过程简单,使用者可以很快了解即可使用,而后的进化算法与之相结合,算法表示清楚,相关技术概念也较容易理解。
2)本发明所述聚类过程中,通过两种算法的结合,不断地优化聚类中心以及聚类的划分从而使得最终的结果由局部最优到全局最优。
3)本发明中所述的联姻过程,提供了整个联姻的方法已经下一代个体的选取法则,能够使得新的聚类中心更加合适,新的聚类划分更加准确,从而达到全局最优化。
4)本发明中所述的联姻方法中包含遗传算法的部分,因此搜索使用评价函数启发,过程简单;使用轮盘赌法进行迭代,具有随机性,具有可扩展性;比较容易和其他的算法相结合进行问题的处理。
附图说明
图1文本预处理的方法流程图,
图2一种英文文本聚类的方法流程图。
具体实施方式
本发明以文本挖掘作为背景,对多个英文文本进行聚类,目的是根据类别的不同来获取更有价值的信息,本发明根据图1进行文本的预处理,向量化;根据图2进行文本间的聚类。具体实例如下所述:
1.将4个文本中的每一个文本拆分成单词,对每个文本中的单词进行长度分析;删除长度小于2的单词,删除停用词;
2.统计出4个文本的总单词数,每个文本中每个单词的数量,计算单词a在所在文本中的词频fi(d),判断单词a是否在在该文本中出现,出现过标记为1;未出现过标记为0,统计出单词a所出现过的文本数;这里以一号文本D1作为例子,D1的总单词数为1000个,单词a出现在3个文本中,单词b出现在3个文本中,单词c出现在4个文本中,单词d出现在3个文本中;各项参数如表3;
3.计算每个单词的权重由大到小依次选择5个单词作为文档的特征项,权重作为这5个单词的特征值来进行文本表示,1号文本D1的特征项为a,b,c,d,权重分别为30,20,20,10;2号文本D2的特征项为a,c,d,e,权重分别为40,30,20,10;3号文本D3特征项为b,c,d,e,权重分别为30,20,10,10;4号文本D4特征项为a,b,c,e;权重分别为40,20,10,10;分别用向量表示为D1(30,20,20,10,0),D2(40,0,30,20,10),D3(0,30,20,10,10),D4(40,20,10,0,10);
4.随机选取2个聚类中心,利用欧氏距离进行文本的距离度量,利用余弦相似度公式 Sim ( D 1 , D 2 ) = cos θ = Σ k = 1 n W 1 k * W 2 k ( Σ k = 1 n W 1 k 2 ) ( Σ k = 1 n W 2 k 2 ) 计算出文件与质心的相似度,D1、D4作为聚类中心,则通过公式计算D2与D1相似度为0.86;D3与D1相似度为0.67;D2与D4相似度为0.78;D3与D4相似度为0.49;显然D2,D3更适合归为D1一类;
5.目标函数有改变,重新计算聚类中心,经过几轮聚类之后得出文本相似度如表2;选择D1,D2作为聚类中心可以得到相对最优的聚类划分,即D3,D4,D1为第一聚类,D2为一个聚类,可以看出聚类中心无论选取哪两个都不能得出最好的聚类,目标函数无法取得最小值;只能做到局部最优;
6.对每个聚类中心进行二进制编码,聚类中心表示为染色体,选择样本点D1,D2,把它们作为染色体基因,D1(011110,010100,010100,001010,0),D2(101000,0,011110,010100,001010),确定适应度函数 Fitness ( I ) = 1 1 + Σ α = 1 m Σ X α ∈ C β | | X α - Z β | | , ;
7.将2个染色体基因进行两两联姻产生下一代个体,通过单点交叉和变异产生两个新的聚类中心,并进行精英个体的鉴别,交叉我们选择最末两位进行交叉,交叉出来得到的新的个体D1,D2为分别为:D1(011100,010100,010110,001000,000010),D2进行交叉之后再让第四个特征项的第三位进行变异为(101010,0,011100,010010,001000);则对应的特征值分别为D1(28,20,22,8,2),D2(42,0,28,18,8);
8.在聚类中心改变的情况下进行文本间聚类,联姻之后的聚类相似度如表3;由此看出,D3,D4与D1的相似度非常高,分别达到了0.86和0.9,所以D1则可以作为精英个体进行保存;再次进行下一步联姻;
9.当达到联姻最大代数的时候停止联姻,确定聚类中心;在聚类中心确定的情况下,聚类划分采用与文本距离最近的原则确定;所述γ为聚类数,最后使得聚类的划分更加准确,同一聚类的文件相似度更高。
表1一号文本各项参数表
单词 数量 频率 所出现过的文本数
a 450 0.45 3
b 300 0.3 3
c 370 0.37 4
d 150 0.15 3
e 0 0 0
表2聚类算法迭代完成时各文本间的相似度表
D1 D2 D3 D4
D1 1 0.86 0.67 0.90
D2 0.86 1 0.42 0.78
D3 0.67 0.42 1 0.49
D4 0.90 0.78 0.49 1
表3联姻完成后各文本间的相似度表
D1 D2 D3 D4
D1 1 0.86 0.71 0.90
D2 0.86 1 0.39 0.80
D3 0.71 0.39 1 0.49
D4 0.90 0.80 0.49 1

Claims (1)

1.一种基于进化算法的英文文本聚类方法,其特征在于该方法包括以下步骤:
步骤1)将用户提供的多个英文文本拆分成单词,删除长度小于2的单词;删除停用词,将删除后的单词形成新的单词集合;所述停用词是由用户指定,一般为那些对文本标识没有太大作用的单词,主要功能是消除所有文本中出现频率都很高的词;
步骤2)统计用户所提供文本集中的文本总数、统计每个文本中删除后的单词总数;统计出在新的单词集合中每个单词出现在各文本中的数量,统计出新的单词集中每个单词所出现过的文本数;
步骤3)对所有的单词按照其权值从大到小排序,提取4-6个的权重较大的单词作为文本的特征表示;所述权值表示为fi(d)为词频;所述词频是在该文本中,该单词的数量除以该文本中的总单词数;所述N为总文本数,ni为文本集合中含有该词的文本数;
步骤4)随机选取2-4个聚类中心即质心文本;利用欧氏距离进行文本的距离度量,为质心文本找到相似文本;xpk,xqk分别表示文本dp,dq的第k个文本特征的权重;利用余弦相似度公式,计算出非质心文本与质心的相似度,用户通过给出阈值来判断相似度的高低,将相似度高的置于第一群集,相似度低的置于第二群集,直到找到最后一个文件为止;判断目标函数是否改变;所述W1k表示第一个文本的权重,W2k表示第二个文本的权重,k表示第k个特征项;所述目标函数是指所输入的文件与聚类中心的距离是否改变;重新计算聚类中心,重复步骤4);
步骤5)对每个聚类中心进行编码,将聚类中心表示为染色体,随机选择样本点即聚类中心作为染色体基因;确定适应度函数所述编码是指将特征值转化为二进制表示;所述适应度函数是基于欧氏距离进行的相似度度量,Fitness(I)表示个体I的适应度,Xα为属于类Cβ的样本点,Zβ为第β个聚类中心;
步骤6)将染色体基因进行联姻产生下一代个体,并鉴别精英个体;然后采用轮盘赌法,由适应度函数对应的概率分布确定把当前群体中的第α个个体I按照选择概率抽出,并进行交叉和变异;所述联姻是仿照生物学中父代双亲结合产生下一代的过程;所述精英个体是指在聚类过程中总是获得较高相似度的聚类中心;相似度的高低通过用户给出的阈值判断;所述轮盘赌是一种赌博方式,每一种选择的方式都是完全随机没有任何认为操作的;所述Ps(Iα)表示第α个个体被选择的概率;
步骤61)从当前群体中按轮盘赌法选择两条染色体,随机选取交叉位置,将两条染色体从交叉点处分成两段,按概率Pc一次将两条染黑色体的右半段互换并重新连接,得到两条新染色体;
步骤62)随机选择基因变异的位置,以用户指定的变异概率Pm对这些位置的基因进行变异,所述变异概率一般在0.01至0.3之间;
步骤7)复制联姻后代到上一代种群中,若精英个体优于联姻后代,则将精英个体复制到相关源种群作为新的聚类中心,否则仍使用联姻后代作为聚类中心;当达到联姻最大代数的时候停止联姻,确定聚类中心;在聚类中心确定的情况下,聚类划分采用与文本距离最近的原则确定,γ为聚类数;最后使得聚类的划分更加准确,同一聚类的文本相似度更高。
CN201510079140.7A 2015-02-13 2015-02-13 一种基于进化算法的英文文本聚类方法 Pending CN104657472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510079140.7A CN104657472A (zh) 2015-02-13 2015-02-13 一种基于进化算法的英文文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510079140.7A CN104657472A (zh) 2015-02-13 2015-02-13 一种基于进化算法的英文文本聚类方法

Publications (1)

Publication Number Publication Date
CN104657472A true CN104657472A (zh) 2015-05-27

Family

ID=53248599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510079140.7A Pending CN104657472A (zh) 2015-02-13 2015-02-13 一种基于进化算法的英文文本聚类方法

Country Status (1)

Country Link
CN (1) CN104657472A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446040A (zh) * 2016-08-31 2017-02-22 天津赛因哲信息技术有限公司 一种基于进化算法的古籍专有名词聚类方法
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置
CN106844748A (zh) * 2017-02-16 2017-06-13 湖北文理学院 文本聚类方法、装置及电子设备
CN109587144A (zh) * 2018-12-10 2019-04-05 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109977227A (zh) * 2019-03-19 2019-07-05 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN114492429A (zh) * 2022-01-12 2022-05-13 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
CN103136355A (zh) * 2013-03-05 2013-06-05 电子科技大学 一种基于自动阈值鱼群算法的文本聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042793A1 (en) * 2000-08-23 2002-04-11 Jun-Hyeog Choi Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps
CN103136355A (zh) * 2013-03-05 2013-06-05 电子科技大学 一种基于自动阈值鱼群算法的文本聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戴文华: "基于混合并行遗传算法的文本分类及聚类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446040A (zh) * 2016-08-31 2017-02-22 天津赛因哲信息技术有限公司 一种基于进化算法的古籍专有名词聚类方法
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置
CN106649273B (zh) * 2016-12-26 2020-03-17 东软集团股份有限公司 一种文本处理方法及装置
CN106844748A (zh) * 2017-02-16 2017-06-13 湖北文理学院 文本聚类方法、装置及电子设备
CN109587144A (zh) * 2018-12-10 2019-04-05 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109587144B (zh) * 2018-12-10 2021-02-12 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109977227A (zh) * 2019-03-19 2019-07-05 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN114492429A (zh) * 2022-01-12 2022-05-13 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质
CN114492429B (zh) * 2022-01-12 2023-07-18 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104657472A (zh) 一种基于进化算法的英文文本聚类方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103745258B (zh) 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法
CN111782961B (zh) 一种面向机器阅读理解的答案推荐方法
CN110379463A (zh) 基于机器学习的海洋藻类成因分析及浓度预测方法和系统
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN105045812A (zh) 文本主题的分类方法及系统
CN104142998A (zh) 一种文本分类方法
CN109960799A (zh) 一种面向短文本的优化分类方法
CN105303450A (zh) 基于谱聚类改进交叉的复杂网络社区发现方法
CN104200272A (zh) 一种基于改进遗传算法的复杂网络社区挖掘方法
CN106991127A (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
CN103258147A (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
Liu et al. Water bloom warning model based on random forest
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN109740722A (zh) 一种基于Memetic算法的网络表示学习方法
Alhafedh et al. Two-stage gene selection in microarray dataset using fuzzy mutual information and binary particle swarm optimization
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN104809229A (zh) 一种文本特征词提取方法及系统
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN105005792A (zh) 一种基于knn算法的稿件翻译优化方法
CN104573331A (zh) 一种基于MapReduce的K近邻数据预测方法
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150527