CN101763404B - 基于模糊聚类的网络文本数据检测方法 - Google Patents

基于模糊聚类的网络文本数据检测方法 Download PDF

Info

Publication number
CN101763404B
CN101763404B CN2009102194392A CN200910219439A CN101763404B CN 101763404 B CN101763404 B CN 101763404B CN 2009102194392 A CN2009102194392 A CN 2009102194392A CN 200910219439 A CN200910219439 A CN 200910219439A CN 101763404 B CN101763404 B CN 101763404B
Authority
CN
China
Prior art keywords
cluster
clustering
membership
degree
web content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102194392A
Other languages
English (en)
Other versions
CN101763404A (zh
Inventor
赵安军
王磊
王礼
杨宗良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Original Assignee
SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd filed Critical SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Priority to CN2009102194392A priority Critical patent/CN101763404B/zh
Publication of CN101763404A publication Critical patent/CN101763404A/zh
Application granted granted Critical
Publication of CN101763404B publication Critical patent/CN101763404B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊聚类的网络文本数据检测方法,先对提取的网络内容进行预处理;对需要聚类的预处理后网络内容进行特征提取后对网络内容进行聚类,设定初始聚类数。在聚类过程中,一个聚类数对应一个隶属度矩阵,每个隶属度矩阵都有一个平均信息熵值,平均信息熵基于密度函数选择初始聚类中心,算法迭代过程中修改聚类数,当平均信息熵达到最小值时,所对应的聚类数为最佳聚类数。最后将聚类结果返回给用户。本发明具有高效的智能聚类效果,并且可以根据应用的不同,调整聚类的精度,兼顾聚类的速度。

Description

基于模糊聚类的网络文本数据检测方法
技术领域
本发明涉及一种数据检测方法,尤其是一种网络文本数据的检测方法。
背景技术
网络内容中有80%左右的信息是文本形式,所以对文本数据挖掘技术的研究成为数据挖掘中的一个日益流行且十分重要的研究课题。网络内容聚类是将网络内容中相似的文本分为一组的全自动处理过程,它是一个无监督学习过程。聚类的目的是将物理或抽象的对象,按对象间的相似性进行区分和分类。聚类方法按对数据划分的形式可分为:划分时有明确的边界称为硬划分,即将数据划分到一个确定的类;没有明确的边界的划分称为模糊划分,即将给定数据以隶属度的形式表示属于哪几个类。
我国文本智能分类的研究起始于20世纪80年代,大体经历了可行性探讨、辅助分类系统、自动分类系统三个阶段。中文文本分类还处于在试验研究阶段,正确分类率约为70%-90%,正在逐渐向商业化的软件应用靠拢,并已经尝试开发了一批自动分类系统,例如清华大学吴军研制的自动分类系统、山西大学刘正瑛等人开发的金融自动分类系统、上海交大的西风文本自动分类系统。如何找到合理的应用并且在实践中逐步改善算法,提高性能成为文本分类算法的当务之急。通过文献检索发现,目前国内外常用的文本分类方法大多数是基于文本内容的相似度对文本进行分类。诸如基于概念的文档分类算法、K-最近邻接参照分类算法(K-NN)、贝叶斯分类算法、基于语义网络的概念推理网分类算法以及决策树和支持向量机(SVM)等方法。基于这些方法的网络内容分类系统大都是基于平面的分类,即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现,挖掘的深度不够,执行速度慢,聚类的准确度较低。
发明内容
为了克服现有技术挖掘的深度不够、执行速度慢、聚类的准确度较低等不足,本发明提供一种基于模糊聚类的网络文本数据检测方法,能够有效提高网络安全审计中对于文本分类的精度与可靠性,从而改善网络内容中目标文本的获取效率,实现网络内容的智能检索。
本发明解决其技术问题所采用的技术方案是:首先对提取的网络内容进行预处理;其次,对需要聚类的预处理后网络内容进行特征提取;然后,对网络内容进行聚类,设定初始聚类数。在聚类过程中,一个聚类数对应一个隶属度矩阵,每个隶属度矩阵都有一个平均信息熵值,平均信息熵基于密度函数选择初始聚类中心,算法迭代过程中修改聚类数,当平均信息熵达到最小值时,所对应的聚类数为最佳聚类数。最后,将聚类结果返回给用户。
本发明具体包括以下步骤:
(1)网络内容预处理:如果以原始的网络内容作为特征向量提取的对象,那么,网络内容的特征向量维数会相当大,因此,必须进行降维的处理。降维的方法采用特征抽取方式,首先对原始的网络文本进行分词,然后,计算每个词出现的频率,删除所有出现频率超过10的功能词,从而降低网络内容特征提取时所获取特征向量的维度。由于特征向量维数降低,不但能加快聚类算法计算的速度,而且还能提高分类结果的精度和避免重复匹配问题。
(2)网络内容特征提取:应用向量空间模型作为网络内容特征的表示方法。在该模型中,网络内容空间被看作是由一组正交词条向量所组成的向量空间。所述的词条向量是指将每次捕获到网络流的网络内容作为一篇网络内容文档,经过步骤(1)的网络内容预处理后,将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重,将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。词条向量表示为V(d)=(ti,wi(d);i=1,2,...,n),其中,n表示降维和分词后整个网络文档的词条数目,d表示此网络文档,ti为词条项,wi(d)为词条在此网络内容文档中所占的权重,被定义为ti在d中出现的频率。
(3)模糊聚类:现有技术的模糊聚类方法存在对孤立点数据比较敏感,须预先指定聚类数目和模糊加权指数的缺陷。为降低孤立点对聚类结果的影响,本发明对数据对象的隶属度增加一个权值,使隶属度的值高的数据对象对聚类中心位置的影响增大,隶属度小的数据对象降低它们对聚类中心的影响。模糊聚类的具体步骤如下:
步骤1,设定初始聚类数为c,初始聚类数大于等于2即可,一般选取2;将迭代次数b设置为零,并且选择指数权重m和迭代停止阈值ε,指数权重m的选择范围在1.5到2.5之间,在此方法中,选择指数权重m为1.9,迭代停止阈值ε的选择范围在0.1到0.001之间,在这里考虑到算法的执行速度和聚类的精度,ε选择0.01。
步骤2,由于聚类结果受到初始聚类数目和初始聚类中心的影响,本发明采用基于密度函数选择初始聚类中心的方法。对于网络内容空间中具有n个样本的数据集合X={xl,l=1,2,...,n},在xl处的密度函数定义为: D l ( 0 ) = Σ k = 1 n 1 1 + f d · | | x l - x k | | 2 , 其中,fd=1/rd 2,rd为类密度有效邻域半径,
Figure G2009102194392D00032
α与样本集合分布特性有关,取值范围为[0,1],在邻域半径rd之外的数据点对xl的密度的计算影响很小。密度函数越大,表示在点xl的周围聚集的样本点越多,说明点xl处的密度越大,从而Dl (0)的值越高。令 D 1 * = max { D l 0 ; l = 1,2 , . . . , n } , xl *是对应D1 *的样本点,并且取为第一个聚类中心。设 D k * = max ( D l k - 1 ; l = 1,2 , . . . , n ) , xk *是对应Dk *的样本点,k=1,2,...,c-1, D l k = D l k - 1 - D k * 1 f d · | | x l - x k * | | , xk *作为第k个初始聚类中心。
步骤3,计算隶属度。通过公式 u ij b = 1 / Σ k = 1 c ( d ij b d kj b ) 2 m - 1 计算隶属度。其中,uij b为在第b次迭代中样本j属于类i的隶属度,b为迭代次数,m为指数权重,c为聚类数,dij表示第j个元素到第i个聚类中心的欧式距离。为降低孤立点对聚类结果的影响,对计算获取隶属度增加一个权值,形成新的隶属度,使隶属度值高的数据对象对聚类中心位置的影响增大,对于隶属度小的数据对象则降低它们对聚类中心的影响。隶属度的改进公式为:改进后的隶属度 U ij = λu ij + ( 1 - λ ) u ij 2 , λ的取值为[0,1],λ取值与聚类精度和算法执行速度有关,使用时可以根据聚类的精度和聚类时间进行调整。当λ=1时,Uij=uij,当uij=0,Uij=0,当uij=1,Uij=1。在[0,1]区间的隶属度在改进后有一定程度的减少。在算法迭代过程中,隶属度值越小,改进后隶属度相应减少地越明显,隶属度小的数据对象对聚类中心的影响降低了;隶属度越大,改进后的隶属度相应减少的较小,这样就相对的提高隶属度值高的数据对象对于聚类的中心位置的影响。
步骤4,更新聚类中心。根据上述计算的隶属度uij以及通过权值形成的改进后隶属度Uij对聚类中心进行更新,更新公式为: C i b + 1 = &Sigma; j = 1 n ( U ij b + 1 ) m &CenterDot; x j &Sigma; j = 1 n ( U ij b + 1 ) m , i=1,2,...,c,Ci b+1为更新后的聚类中心,m为权重指数。并且通过 | | C i b - C i b + 1 | | < &epsiv; 判定迭代停止阈值的条件是否满足,如果满足,输出隶属度矩阵和形成的聚类中心,否则令b=b+1,并转向步骤3。
步骤5,本发明以隶属度的平均信息熵作为评判聚类数目的标准,平均信息熵的定义为 H = &Sigma; i = 1 C &Sigma; j = 1 n { [ u ij &times; Ib ( u ij ) + ( 1 - u ij ) &times; Ib ( 1 - u ij ) ] / n } , 其中,C为设定的初始聚类数目,n为聚类的样本数目,b为迭代次数,uij为样本j属于类i的隶属度,I表示熵的计算。当平均信息熵达到最小值时,所对应的聚类数即为最佳聚类数。以步骤4的输出为输入,按照上述的最佳聚类数的评判标准判定是否满足,如果满足聚类数评判标准,聚类过程结束,保存最终聚类数目c以及聚类中心Ci,i=1,2...c,。否则,令c=c+1并转向步骤2。
(4)聚类结果输出。将聚类结果返回给用户,聚类结果包括聚类中心的数目以及聚类中心。
本发明的有益效果是:本发明是在性能良好的网络内容特征提取技术、基于密度函数获取初始聚类中心技术、优化的隶属度计算技术以及聚类数的评判标准确定技术的基础上研发的。与已有的相应技术相比,该技术具有高效的智能聚类效果,并且可以根据应用的不同,调整聚类的精度,兼顾聚类的速度。
下面结合实施例对本发明进一步说明。
具体实施方式
本发明具有网络内容预处理、网络内容特征提取、模糊聚类以及聚类结果输出四个部分的功能。其中网络内容预处理完成对多维的网络内容文档特征向量进行降维处理,进行特征抽取;网络内容特征提取完成对所捕获网络流中网络内容的处理,包括网络内容文档的建立,文档的特征向量表示;模糊聚类是本发明的核心,采用基于密度函数选择初始聚类中心,平均信息熵作为评判聚类数目的标准,设定初始聚类数,在算法的迭代过程修改聚类数,当平均信息熵达到最小值时的聚类数即为最佳聚类数,完成对网络内容文档的聚类。聚类结果输出将聚类结果返回给用户,包括聚类中心的数目以及类别信息。
基于本发明开发了原型系统,该系统执行包括以下步骤:网络内容预处理、网络内容特征提取、设定初始聚类参数、选择初始聚类中心、隶属度计算、聚类中心更新、聚类结果评价以及聚类结果输出。
本发明具体包括以下步骤:
第一步,将待聚类的网络内容分割成1000篇文本,对每篇文档进行标点分析,把它们分成单句;并删除出现频率超过10次的功能词,对每个单句利用文本分析工具PatCount对其中每个词进行词法分析,对每个单句利用n-gram方法得到所有由三个以内词组成的词条短语,在这里n-gram方法所述的n为3。
第二步,应用向量空间模型作为网络内容特征的表示方法,将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重,将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。统计所获取的词条短语数目以及各词条短语在网络文本中出现的频次,将1000篇经过第一步处理过的网络文本表示成文本向量,由此组成维数为3768的网络文本特征向量V(d)=(ti,wi(d);i=1,2,...,3768),d表示1000篇网络文档集合,ti为集合当中的一个词条项,wi(d)为此词条在此网络内容文档中所占的权重,被定义为ti在d中出现频率。
第三步包含以下步骤:
步骤1:设定初始的聚类数为2,将迭代次数设置为0,并且选择指数权重为1.9和迭代停止阈值为0.01;
步骤2:根据上述设定的初始聚类数,以3768维的网络文本特征向量为输入计算2个初始的聚类中心。对于网络内容空间中具有3768个样本的数据集合X={xl,l=1,2,..,3768},在xl处的密度函数定义为: D l ( 0 ) = &Sigma; k = 1 3768 1 1 + f d &CenterDot; | | x l - x k | | 2 , 其中,fd=1/rd 2,rd为类密度有效邻域半径,
Figure G2009102194392D00052
α与样本集合分布特性有关,在这里取为0.9。令 D 1 * = max { D l 0 ; l = 1,2 , . . . , 3768 } , x1 *是对应D1 *的样本点,并且取为第一个聚类中心。设 D 2 * = max ( D l 1 ; l = 1,2 , . . . , 3768 ) , x2 *是对应D2 *的样本点, D l 1 = D l 0 - D 1 * 1 f d &CenterDot; | | x l - x 1 * | | , x2 *作为第2个初始聚类中心。
步骤3:,计算隶属度,通过公式 u ij b = 1 / &Sigma; k = 1 c ( d ij b d kj b ) 2 1 &CenterDot; 9 - 1 计算隶属度。其中,uij b为在第b次迭代中样本j属于类i的隶属度,b为迭代次数,c为聚类数,dij表示第j个元素到第i个聚类中心的欧式距离。为降低孤立点对聚类结果的影响,对计算获取的数据对象的隶属度增加一个权值,形成新的隶属度,使隶属度值高的数据对象对聚类中心位置的影响增大,对于隶属度小的数据对象则降低它们对聚类中心的影响,改进隶属度公式为: U ij = &lambda;u ij + ( 1 - &lambda; ) u ij 2 , 这里λ取值0.8。
步骤4:根据上述计算的隶属度以及通过权值形成的新的隶属度对聚类中心进行更新,判断本次更新的聚类中心和上一次聚类中心的差是否小于迭代停止阈值,如果满足,输出隶属度矩阵和形成的聚类中心,否则,迭代次数加1,跳转到步骤3重新计算隶属度,循环上述过程。本次试验中的上述循环过程执行3次,执行时间1分钟;
步骤5:以步骤4的输出为输入,计算平均信息熵是否最小,如果最小,此时获得的聚类数目为当前的聚类数减1,聚类过程结束,保存最终聚类数目c以及聚类中心Ci,i=1,2...,c。否则转向步骤2,并且给当前的聚类数加1,重新计算初始的聚类中心,循环上述过程,本次试验的上述循环过程执行4次,执行时间为4分钟。
第四步,将聚类结果返回给用户,包括聚类中心的数目以及各个聚类中心。本实施例获取的聚类数为5,各个聚类中心类别分别是计算机、金融、交通、体育以及军事五大类。
本方法经过原型系统的具体实施,效果较好。采用基于密度函数选择初始聚类中心,平均信息熵作为评判聚类数目的标准,在算法的迭代过程修改聚类数,当平均信息熵达到最小值时的聚类数即为最佳聚类数,完成对网络内容文档的聚类。这些方法的使用使得分类的准确性有了较大的提高,并且在执行的速度方面也有一定的改善。

Claims (3)

1.基于模糊聚类的网络文本数据检测方法,其特征在于包括下述步骤:
(1)首先对原始的网络文本进行分词,然后计算每个词出现的频率,删除所有出现频率超过10的功能词;
(2)应用向量空间模型作为网络内容特征的表示方法,将网络内容文档中的词条项在整个网络内容文档中出现的频次作为该词条项的权重,将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量,将网络内容空间作为一组正交词条向量所组成的向量空间;词条向量V(d)=(ti,wi(d);i=1,2,...,n),其中,n表示降维和分词后整个网络内容文档的词条数目,d表示此网络内容文档,ti为词条项,wi(d)为词条在此网络内容文档中所占的权重;
(3)对网络内容进行模糊聚类,具体步骤如下:
步骤1,设定初始聚类数c,c≥2;将迭代次数b设置为零,并且选择指数权重m和迭代停止阈值ε,m在1.5到2.5之间,ε在0.1到0.001之间;
步骤2,对于网络内容空间中具有n个样本的数据集合
Figure 980053DEST_PATH_FSB00000622383600011
在 
Figure 834877DEST_PATH_FSB00000622383600012
处的密度函数定义为: 
Figure RE-FSB00000622383600011
其中,fd=1/rd 2’rd为类密度有效邻域半径, 
Figure RE-FSB00000622383600012
α取值范围为[0,1];令 
Figure RE-FSB00000622383600013
Figure RE-FSB00000622383600014
是对应 
Figure RE-FSB00000622383600015
的样本点,并且取为第一个聚类中心;设 
Figure RE-FSB00000622383600016
是对应 
Figure RE-FSB00000622383600018
的样本点,k=1,2,...,c-1, 
Figure RE-FSB00000622383600019
Figure RE-FSB000006223836000110
作为第k个初始聚类中心;
步骤3,通过公式 
Figure RE-FSB000006223836000111
计算隶属度,其中 
Figure RE-FSB000006223836000112
为在第b次迭代中样本j属于类i的隶属度,c为聚类数,dij表示第j个元素到第i个聚类中心的欧式距离;对计算获取隶属度增加一个权值,形成新的隶属度,改进后的隶属度 
Figure RE-FSB000006223836000113
λ的取值为[0,1];
步骤4,根据上述计算的隶属度 
Figure RE-FSB000006223836000114
以及通过权值形成的改进后隶属度Uij对聚类中 心进行更新,更新后的聚类中心 i=1,2,...,c,并且判定迭代停止阈值的条件 
Figure RE-FSB00000622383600022
是否满足,如果满足,输出隶属度矩阵和形成的聚类中心,否则令b=b+1,并转向步骤3;
步骤5,计算平均信息熵
Figure RE-FSB00000622383600023
以步骤4的输出为输入,当平均信息熵达到最小值时,所对应的聚类数即为最佳聚类数,聚类过程结束,保存最终聚类数目c以及聚类中心Ci,i=1,2...,c;否则,令c=c+1并转向步骤2;
(4)将聚类结果返回给用户,聚类结果包括聚类中心的数目以及聚类中心。
2.根据权利要求1所述的基于模糊聚类的网络文本数据检测方法,其特征在于:所述的初始聚类数c选取为2。
3.根据权利要求1所述的基于模糊聚类的网络文本数据检测方法,其特征在于:所述的选择指数权重m为1.9,迭代停止阈值ε选择0.01。 
CN2009102194392A 2009-12-10 2009-12-10 基于模糊聚类的网络文本数据检测方法 Expired - Fee Related CN101763404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102194392A CN101763404B (zh) 2009-12-10 2009-12-10 基于模糊聚类的网络文本数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102194392A CN101763404B (zh) 2009-12-10 2009-12-10 基于模糊聚类的网络文本数据检测方法

Publications (2)

Publication Number Publication Date
CN101763404A CN101763404A (zh) 2010-06-30
CN101763404B true CN101763404B (zh) 2012-03-21

Family

ID=42494568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102194392A Expired - Fee Related CN101763404B (zh) 2009-12-10 2009-12-10 基于模糊聚类的网络文本数据检测方法

Country Status (1)

Country Link
CN (1) CN101763404B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102645620B (zh) * 2012-05-17 2015-02-11 广东电网公司电力科学研究院 基于时频特征参数的变电站多源局部放电检测方法及装置
CN102645621B (zh) * 2012-05-17 2014-11-19 广东电网公司电力科学研究院 基于空间特征参数的变电站多源局部放电检测方法及装置
CN103631809A (zh) * 2012-08-24 2014-03-12 宏碁股份有限公司 数据分群装置和方法
CN103793438B (zh) * 2012-11-05 2017-07-14 山东省计算中心(国家超级计算济南中心) 一种基于MapReduce的并行聚类方法
CN103136355B (zh) * 2013-03-05 2016-01-06 电子科技大学 一种基于自动阈值鱼群算法的文本聚类方法
CN104636498B (zh) * 2015-03-08 2017-01-04 河南理工大学 一种基于信息瓶颈的模糊三维聚类方法
CN105095895B (zh) * 2015-04-23 2018-09-25 广州广电运通金融电子股份有限公司 有价文件识别装置自修正识别方法
CN106204579B (zh) * 2016-07-08 2018-09-25 辽宁工程技术大学 一种遥感影像中地物类别数估计方法及系统
CN106326913A (zh) * 2016-08-09 2017-01-11 中国银联股份有限公司 一种洗钱账户的确定方法及装置
CN107545133A (zh) * 2017-07-20 2018-01-05 陆维嘉 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法
CN107944931A (zh) * 2017-12-18 2018-04-20 平安科技(深圳)有限公司 种子用户拓展方法、电子设备及计算机可读存储介质
CN108334573B (zh) * 2018-01-22 2021-02-26 北京工业大学 基于聚类信息的高相关微博检索方法
CN109117739A (zh) * 2018-07-18 2019-01-01 成都识达科技有限公司 一种基于邻域样本定向鉴别投影特征提取方法
CN109165383B (zh) * 2018-08-09 2022-07-12 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109210268B (zh) * 2018-10-19 2020-03-20 杭州电子科技大学 一种基于超低功率电磁阀的大数据处理方法
CN109685158B (zh) * 2019-01-08 2020-10-16 东北大学 一种基于强项集的聚类结果语义特征提取与可视化方法
CN110222180B (zh) * 2019-06-04 2021-05-28 江南大学 一种文本数据分类与信息挖掘方法
TWI700664B (zh) * 2019-06-19 2020-08-01 中國信託商業銀行股份有限公司 文本處理方法及其系統
CN111541567A (zh) * 2020-04-22 2020-08-14 彭小雪 一种人工智能云计算大数据管理系统及方法
CN113515512B (zh) * 2021-06-22 2024-06-14 国网辽宁省电力有限公司鞍山供电公司 一种工业互联网平台数据的质量治理及提升方法
CN115409135B (zh) * 2022-11-03 2023-02-03 南昌惠联网络技术有限公司 一种网络业务文档的分类管理方法
CN115828125B (zh) * 2022-11-17 2023-06-16 盐城工学院 一种基于信息熵特征加权模糊聚类方法及系统
CN117151934B (zh) * 2023-10-30 2024-01-30 国网冀北电力有限公司 一种配电网不停电作业项目多维聚类分析方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王晓勇等.因特网文本智能挖掘的模糊聚类算法研究.《计算机仿真》.2009,第26卷(第7期),第216-219页. *
耿新青,王正欧.TGFCM:基于模糊聚类的中文文本挖掘的新方法.《计算机工程》.2006,第32卷(第5期),第7-9页. *

Also Published As

Publication number Publication date
CN101763404A (zh) 2010-06-30

Similar Documents

Publication Publication Date Title
CN101763404B (zh) 基于模糊聚类的网络文本数据检测方法
CN103970729B (zh) 一种基于语义类的多主题提取方法
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN101685455B (zh) 数据检索的方法和系统
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN110298032A (zh) 文本分类语料标注训练系统
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN108984518A (zh) 一种面向裁判文书的文本分类方法
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN107122382A (zh) 一种基于说明书的专利分类方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN109684482A (zh) 一种基于深度神经网络模型的民族文化资源聚类分析方法
CN103034656B (zh) 章节内容分层方法和装置、文章内容分层方法和装置
Wu et al. A text category detection and information extraction algorithm with deep learning
Li et al. Web page classification method based on semantics and structure
CN106202116B (zh) 一种基于粗糙集与knn的文本分类方法及系统
CN114662486B (zh) 一种基于机器学习的突发事件敏感词检测方法
CN102799666B (zh) 一种基于频繁词集的网络新闻自动文本分类的方法
Lu et al. Research on text classification based on TextRank

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120321

Termination date: 20131210