CN107908624A - 一种基于全覆盖粒计算的K‑medoids文本聚类方法 - Google Patents
一种基于全覆盖粒计算的K‑medoids文本聚类方法 Download PDFInfo
- Publication number
- CN107908624A CN107908624A CN201711321280.6A CN201711321280A CN107908624A CN 107908624 A CN107908624 A CN 107908624A CN 201711321280 A CN201711321280 A CN 201711321280A CN 107908624 A CN107908624 A CN 107908624A
- Authority
- CN
- China
- Prior art keywords
- center
- clustering
- full
- text
- medoids
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于全覆盖粒计算的K‑medoids文本聚类方法,该方法包括以下步骤:1)对文本进行预处理,包括中文分词,去停用词;2)对文本进行特征提取,设置高频词与低频词阈值,滤除区分度不够的高频词和代表性不强的低频词,然后利用TF‑IDF算法建立词向量空间模型;3)对文本进行聚类,首先利用single‑pass对文本进行粗聚类,利用全覆盖粒计算理论的粒度重要性概念计算初始聚类中心候选集,然后基于密度和最大最小距离算法计算初始聚类中心,最后利用k‑medoids算法进行文本聚类。本发明有效的解决了传统K‑medoids聚类算法随机选取初始聚类中心,存在迭代次数增加、聚类结果波动较大的问题,也解决了当前改进K‑medoids聚类算法中初始聚类中心位于同一类簇的问题。
Description
技术领域
本发明涉及全覆盖粒计算和文本挖掘技术,特别是涉及全覆盖粒计算的粒化以及文本聚类的方法。
背景技术
互联网快速发展带来的信息过载、缺乏结构性等问题,使得人们很难在海量的信息中快速、准确地获取用户感兴趣的、潜在有用的内容,依靠手工对这些信息进行处理是不可能的。目前,绝大多数的网络信息都表现为文本形式,文本数据作为非结构化的数据,不像结构化的数据便于处理,因此大大降低了文本数据的利用率,而且大多数传统的信息检索技术不能处理海量的文本数据。数据挖掘是一门从大量有效数据中挖掘隐藏信息的有效技术,文本挖掘则是对文本信息进行数据挖掘的过程,随着文本数据的增长,文本挖掘成为数据挖掘领域中一个重要的研究方向,文本聚类是文本挖掘的预处理步骤,是文本进一步挖掘与分析的关键环节。文本聚类主要是对样本文档集计算相似性,并根据相似性程度将样本划分成若干类簇,同类簇的文档间相似性较大,不同内簇间的文档相似性则较小。
文本聚类一直是国内外研究学者关注的热点、难点问题,研究已经取得巨大的成果,但是还是存在一系列亟待解决的关键问题,如样本的词向量空间维度过大,聚类中心的随机选取问题和计算复杂度大等。如何对数据降维,提高聚类质量,降低计算复杂度等都需要我们做进一步的研究。
发明内容
本发明为了解决传统聚类方法随机选取聚类中心和文本聚类方法准确率较低的问题,提供一种基于全覆盖粒计算的K-medoids文本聚类方法,该方法包括以下步骤:
1.对文本进行预处理,包括中文分词,去停用词;
2.对文本进行特征提取,设置高频词与低频词阈值,滤除区分度不够的高频词和代表性不强的低频词,然后利用TF-IDF算法建立词向量空间模型;
3.利用SinglePass算法对文档聚类,得到粗聚类集C1,C2,..Cp,构成全覆盖计算C={Ci:i=1,…,p},按照全覆盖粒计算的相关定义分别计算粒度重要性和平均粒度重要性,选择的粒子放入到集合S中。不妨假设S中含有N个粒子(N<p),若N≥K则进行第4步,若N<K则返回第3步,在SinglePass中调整阈值δ直至N≥K,然后进行第4步;
4.按照公式(1)计算S中每个粒子的中心,任意两个中心粒子间的欧式距离记为矩阵D;
5.选择包含更多粒子对应的中心作为第一个聚类中心v1,选择距v1最远的粒子中对应的中心作为第二个聚类中心v2;对于S中剩余粒子,根据矩阵D分别求出其中心到v1,v2距离为di1,di2,取di=min(di1,di2),d=max(di)对应的粒子中心为vi,依此类推计算vk,此时找到K个初始聚类中心
6.对于任意xi∈U,首先寻找与其最近的类心vm(m=1,2,...k),此时样本分为K类;
7.选每个类簇中与该簇其他对象距离之和最小的对象作为新的聚类中心,在K类中用新中心代替原始中心;
8.重新分配每个对象到距离最近的中心点,获得聚类结果;
9.计算所有对象到其类簇中心的距离之和,如果该值不变或者达到最大迭代次数则算法结束,否则转到第8步。
所述的文本特征提取,具体包括以下操作:首先滤除区分度不够的高频词和代表性不强的低频词,即假设词j的频率为m,M1为低频词频率,M2为高频词频率,若M1<m<M2则保留该词,否则剔除,达到降维的目的。
所述的TF-IDF算法,具体包括以下操作:
xij表示第i篇文档中词j出现的频率,|xi|表示该篇文档中所有词的词频总数,n表示样本总数,|xj|表示词j包含的样本总数,N表示文档所有词的数量。
所述的single-pass聚类,具体包括以下操作:
1)从文档集n中输入第一篇文档d1作为第一类中的中心;
2)输入第二篇文档与第一篇文档做相似性处理,得到相似结果θ,若θ>σ,则第二篇分到第一类中并重新计算中心,否则第二篇作为新的一类;
3)输入第i篇文档,分别与已有类别中的中心文档做相似性处理,得到与di相似度最大的类别m且记录相似结果θ,若θ>σ,则di分配到类别m中并重新计算中心,否则成为新的一类;
4)重复第三步,直至最后一篇文档分配类别,即整个聚类过程结束。
所述的全覆盖粒计算理论的粒度重要性概念,具体包括以下操作:
设是非空论域U上的一个全覆盖,全覆盖P={Cj:j=1,…,n},定义粒Gx的中心、全覆盖粒C的中心、P的全覆盖粒度熵分别为:
centerC(x)=∩{NC(x)|x∈NC(x),NC(x)∈Gx}
center(C)={centerC(x)|x∈U}
其中,|centerP(x)|表示centerP(x)的基数。
基于上述全覆盖粒计算模型的相关基础概念,定义全覆盖平均粒度重要性,设C={Ci:1,...,m}是非空论域U上的一个全覆盖,定义平均粒度重要性为:
全覆盖粒计算是信息处理的一种新概念和计算范式,主要通过建立合适的粒度来寻找解决问题的有效方法,降低问题的求解难度。全覆盖粒计算的基本问题归纳为两个方面,即粒化和粒的计算。粒化是求解空间的一个构造性过程,处理粒度的形成、粗细、表示和语义解释,粒的计算主要是指如何有效的利用粒度去解决复杂问题。
本发明引入全覆盖粒计算模型,对文档集进行合理的粒化,利用粒的计算解决文本聚类问题。
具体的文档粒化对应关系如表1所示:
所述的密度算法和最大最小距离算法,具体包括以下操作:
1).n个样本分为C1,C2,..,Cp共P类(P>K),计算每类的中心(z1,z2,...,zP)并选取C1,C2,..,Cp中包含样本数最多的类的中心作为第一个聚类中心v1;
2).选取距离第一个聚类中心v1最远的中心作为第二个聚类中心v2;
3).计算其余中心与v1、v2之间的距离,并求出它们中的最小值,即:
dij=||zi-vj||,j=1,2
di=min(di1,di2),i=1,2,...P
4).若dl=max(di)则相应的中心zl作为第三个聚类中心v3;
5).依此类推若存在k个聚类中心,计算各中心到各个聚类中心的距离dij,并算出:
dk=max(min(di1,di2,...,di(k-1))),i=1,2,...P
zk为第k个聚类中心;
所述的k-medoids算法,具体包括以下操作:
1)从n个样本中随机选取K个样本作为初始聚类中心;
2)针对剩余的每一个样本,分别计算该样本到K个初始聚类中心的距离,该样本并入到距离最小的类簇中,所有样本计算完毕后n个样本被分为K类;
3)重新计算每类的聚类中心,计算每类中的样本中心,距离该中心最近的样本成为新的聚类中心;
4)反复重复上述第2)、3)步骤,直到所有的聚类中心不变时算法结束。其中,更新的聚类中心公示:xi1,xi2,...xiM表示K类中第i类所包含的M个样本。
本发明基于全覆盖粒计算的K-medoids文本聚类方法,通过Single-Pass方法以及全覆盖粒计算的相关理论,找到有效的初始聚类中心,降低聚类方法的复杂度,提高聚类方法的准确率。
附图说明
图1为本发明整体示意图;
图2为本发明中基于全覆盖粒计算的K-medoids文本聚类方法的流程图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、特征及其功效,详细说明如后。
如图1所示,本发明的整体流程详述如下:
步骤1:使用jieba分词对中文文本分词,对“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等各种停用词表整理去重后提取新的中文词词表。
步骤2:对步骤1去停用词后的分词结果进行TF-IDF特征提取。TF-IDF是一种统计加权方法,公式为
xij表示第i篇文档中词j出现的频率,|xi|表示文档i中所有词的词频总数,n表示样本总数,|xj|表示词j包含的样本总数,N表示文档所有词的数量。
这样就得到由样本的所有特征词组成的“样本—特征”矩阵。
步骤3:对步骤2的“样本—特征”矩阵进行聚类,首先利用SIngles-Pass粗聚类,接着利用全覆盖粒计算理论的粒度重要性概念计算初始聚类中心候选集,然后基于密度和最大最小距离算法计算初始聚类中心,最后利用k-medoids算法进行文本聚类。
步骤4:通过步骤3得到所有的聚类结果,利用聚类精度检测聚类效果。使用查全率(Recall)、查准率(Precision)以及值三个指标来衡量聚类的效果,具体公式
如下:
|Ai∩Bi|表示聚类类别Ai中包含对应人工类别Bi的文本个数,|Ai|表示聚类类别Ai包含的样本个数,|Bi|表示人工类别Bi包含的样本个数。
在该实施例中,利用本发明的方法分别对1400篇复旦语料库。语料库的具体分布和统计结果如下表2和表3:
表2:样本类别信息
表3:样本统计信息
表2中分词结果经过简单的降维后得到特征词集,样本集的“文档—特征”矩阵分别为1400×172324。
表3实验对比结果
根据表3的实验对比结果,本文算法的准确率、召回率与F值均高于K-medoids算法,表明聚类结果受初始聚类中心选取的影响,且K-medoids算法的正确率波动范围较大,易陷入局部最优。本文算法先是采用Single-Pass算法对文本集粗聚类,相关的文本集分别聚成簇,根据初始聚类中心一定在形成的大簇中的原则,利用全覆盖粒度重要性和平均粒度重要性选出初始聚类中心,也克服了初始聚类中心容易位于同一类簇的缺陷,取得较好的聚类结果。
Claims (6)
1.一种基于全覆盖粒计算的K-medoids文本聚类方法,其特征在于包括下述内容:
(1)对文本进行预处理,包括中文分词,去停用词;
(2)对文本进行特征提取,设置高频词与低频词阈值,滤除区分度不够的高频词和代表性不强的低频词,然后利用TF-IDF算法建立词向量空间模型;
(3)对文本进行聚类,首先利用Single-Pass对文本进行粗聚类,利用全覆盖粒计算理论的粒度重要性概念计算初始聚类中心候选集,然后基于密度算法和最大最小距离算法计算初始聚类中心,最后利用k-medoids算法进行文本聚类。
2.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法,其特征在于对文本进行特征提取中的滤除区分度不够的高频词和代表性不强的低频词,具体操作包括以下步骤:假设词j的频率为m,M1为低频词频率,M2为高频词频率,若M1<m<M2则保留该词,否则剔除,达到降维的目的。
3.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法,其特征在于对文本进行聚类中的single-pass粗聚类,包括以下步骤:
(1)从文档集n中输入第一篇文档d1作为第一类中的中心,n为正整数;
(2)输入第二篇文档与第一篇文档做相似性处理,得到相似结果θ,若θ>σ,则第二篇分到第一类中并重新计算中心,否则第二篇作为新的一类;
(3)输入第i篇文档,分别与已有类别中的中心文档做相似性处理,得到与di相似度最大的类别m且记录相似结果θ,若θ>σ,则di分配到类别m中并重新计算中心,否则成为新的一类;
(4)重复第三步,直至最后一篇文档分配类别,即整个聚类过程结束。
4.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法,其特征在于对文本进行聚类中的全覆盖粒计算理论的粒度重要性概念,具体如下:
设是非空论域U上的一个全覆盖,全覆盖P={Cj:j=1,…,n},定义粒Gx的中心、全覆盖粒C的中心、P的全覆盖粒度熵分别为:
centerC(x)=∩{NC(x)|x∈NC(x),NC(x)∈Gx}
center(C)={centerC(x)|x∈U}
<mrow>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mi>P</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>&Element;</mo>
<mi>U</mi>
</mrow>
</munder>
<mfrac>
<mn>1</mn>
<mrow>
<mo>|</mo>
<mi>U</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>center</mi>
<mi>P</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>U</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mo>|</mo>
<mi>U</mi>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>&Element;</mo>
<mi>U</mi>
</mrow>
</munder>
<mo>|</mo>
<msub>
<mi>center</mi>
<mi>P</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<msub>
<mi>Sig</mi>
<mrow>
<mi>C</mi>
<mo>-</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>-</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,|centerP(x)|表示centerP(x)的基数。
基于上述全覆盖粒计算模型的相关基础概念,定义全覆盖平均粒度重要性,设C={Ci:1,...,m}是非空论域U上的一个全覆盖,定义平均粒度重要性为:
<mrow>
<mover>
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>Sig</mi>
<mrow>
<mi>C</mi>
<mo>-</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
5.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法,其特征在于对文本进行聚类中的基于密度算法和最大最小距离算法,包括如下步骤:
(1)n个样本分为C1,C2,..,Cp共P类,P>K,计算每类的中心(z1,z2,...,zP)并选取C1,C2,..,Cp中包含样本数最多的类的中心作为第一个聚类中心v1;
(2)选取距离第一个聚类中心v1最远的中心作为第二个聚类中心v2;
(3)计算其余中心与v1、v2之间的距离,并求出它们中的最小值,即:
dij=||zi-vj||,j=1,2
di=min(di1,di2),i=1,2,...P
(4)若dl=max(di)则相应的中心zl作为第三个聚类中心v3;
(5)依此类推若存在k个聚类中心,计算各中心到各个聚类中心的距离dij,并算出:
dk=max(min(di1,di2,...,di(k-1))),i=1,2,...P
zk为第k个聚类中心。
6.根据权利要求1所述的一种基于全覆盖粒计算的K-medoids文本聚类方法,其特征在于对文本进行聚类中的k-medoids算法,包括如下步骤:
(1)从n个样本中随机选取K个样本作为初始聚类中心;
(2)分别计算剩余样本到K个初始聚类中心的距离,该剩余样本并入到距离最小的类簇中,所有剩余样本计算完毕后n个样本被分为K类;
(3)重新计算每类的聚类中心,计算每类中的样本中心,距离该中心最近的样本成为新的聚类中心;
(4)重复第(2)、(3)步骤,直到所有的聚类中心不变时算法结束,
其中,更新的聚类中心公式:xi1,xi2,...xiM表示K类中第i类所包含的M个样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711321280.6A CN107908624A (zh) | 2017-12-12 | 2017-12-12 | 一种基于全覆盖粒计算的K‑medoids文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711321280.6A CN107908624A (zh) | 2017-12-12 | 2017-12-12 | 一种基于全覆盖粒计算的K‑medoids文本聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107908624A true CN107908624A (zh) | 2018-04-13 |
Family
ID=61865667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711321280.6A Pending CN107908624A (zh) | 2017-12-12 | 2017-12-12 | 一种基于全覆盖粒计算的K‑medoids文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908624A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165290A (zh) * | 2018-06-21 | 2019-01-08 | 太原理工大学 | 一种基于全覆盖粒计算的文本特征选择方法 |
CN109446322A (zh) * | 2018-10-15 | 2019-03-08 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN111863269A (zh) * | 2020-07-31 | 2020-10-30 | 山东管理学院 | 一种中医医案数据挖掘的方法 |
CN112231471A (zh) * | 2020-09-04 | 2021-01-15 | 大箴(杭州)科技有限公司 | 文本处理方法及装置、计算机设备、存储介质 |
CN113128574A (zh) * | 2021-03-31 | 2021-07-16 | 国网河北省电力有限公司电力科学研究院 | 场景缩减方法、装置及终端设备 |
CN115408526A (zh) * | 2022-10-31 | 2022-11-29 | 成都美洽网络科技有限公司 | 一种客服机器人学习系统及学习方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104572977A (zh) * | 2014-12-31 | 2015-04-29 | 北京农业信息技术研究中心 | 一种农产品质量安全事件在线检测方法 |
US20150310090A1 (en) * | 2012-04-09 | 2015-10-29 | Vivek Ventures, LLC | Clustered Information Processing and Searching with Structured-Unstructured Database Bridge |
CN105224954A (zh) * | 2015-10-10 | 2016-01-06 | 福州大学 | 一种基于Single-pass去除小话题影响的话题发现方法 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN107103043A (zh) * | 2017-03-29 | 2017-08-29 | 国信优易数据有限公司 | 一种文本聚类方法及系统 |
CN107391660A (zh) * | 2017-07-18 | 2017-11-24 | 太原理工大学 | 一种用于子话题划分的诱导划分方法 |
-
2017
- 2017-12-12 CN CN201711321280.6A patent/CN107908624A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
US20150310090A1 (en) * | 2012-04-09 | 2015-10-29 | Vivek Ventures, LLC | Clustered Information Processing and Searching with Structured-Unstructured Database Bridge |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104572977A (zh) * | 2014-12-31 | 2015-04-29 | 北京农业信息技术研究中心 | 一种农产品质量安全事件在线检测方法 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN105224954A (zh) * | 2015-10-10 | 2016-01-06 | 福州大学 | 一种基于Single-pass去除小话题影响的话题发现方法 |
CN107103043A (zh) * | 2017-03-29 | 2017-08-29 | 国信优易数据有限公司 | 一种文本聚类方法及系统 |
CN107391660A (zh) * | 2017-07-18 | 2017-11-24 | 太原理工大学 | 一种用于子话题划分的诱导划分方法 |
Non-Patent Citations (3)
Title |
---|
秦琴 等: "全覆盖粒计算模型的公理化及其知识约简", 《计算机应用研究》 * |
马箐 等: "基于粒计算的K-medoids聚类算法", 《计算机应用》 * |
鲁肖肖: "基于粒计算和密度峰值的划分式聚类算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)-信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165290A (zh) * | 2018-06-21 | 2019-01-08 | 太原理工大学 | 一种基于全覆盖粒计算的文本特征选择方法 |
CN109446322A (zh) * | 2018-10-15 | 2019-03-08 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN111863269A (zh) * | 2020-07-31 | 2020-10-30 | 山东管理学院 | 一种中医医案数据挖掘的方法 |
CN112231471A (zh) * | 2020-09-04 | 2021-01-15 | 大箴(杭州)科技有限公司 | 文本处理方法及装置、计算机设备、存储介质 |
CN112231471B (zh) * | 2020-09-04 | 2022-06-07 | 大箴(杭州)科技有限公司 | 文本处理方法及装置、计算机设备、存储介质 |
CN113128574A (zh) * | 2021-03-31 | 2021-07-16 | 国网河北省电力有限公司电力科学研究院 | 场景缩减方法、装置及终端设备 |
CN115408526A (zh) * | 2022-10-31 | 2022-11-29 | 成都美洽网络科技有限公司 | 一种客服机器人学习系统及学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908624A (zh) | 一种基于全覆盖粒计算的K‑medoids文本聚类方法 | |
CN105512311B (zh) | 一种基于卡方统计的自适应特征选择方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN107391772B (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
Zhou et al. | A clustering-Based KNN improved algorithm CLKNN for text classification | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN109086375B (zh) | 一种基于词向量增强的短文本主题抽取方法 | |
CN108932311B (zh) | 突发事件检测与预测的方法 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN104933156A (zh) | 一种基于共享近邻聚类的协同过滤方法 | |
Karthikeyan et al. | Probability based document clustering and image clustering using content-based image retrieval | |
CN109271517A (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN106503146B (zh) | 计算机文本的特征选择方法 | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
CN114359632A (zh) | 一种基于改进PointNet++神经网络的点云目标分类方法 | |
CN105760875A (zh) | 基于随机森林算法的判别二进制图像特征相似实现方法 | |
CN111831822A (zh) | 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法 | |
CN103268346A (zh) | 半监督分类方法及系统 | |
CN107562928A (zh) | 一种ccmi文本特征选择方法 | |
CN110781943A (zh) | 一种基于毗邻网格搜索的聚类方法 | |
Jingbiao et al. | Research and improvement of clustering algorithm in data mining | |
CN106202562B (zh) | 一种降低敏感信息误判率的方法 | |
Bataineh et al. | Fully Automated Density-Based Clustering Method. | |
CN116881451A (zh) | 基于机器学习的文本分类方法 | |
CN111538839A (zh) | 一种基于杰卡德距离的实时文本聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |
|
RJ01 | Rejection of invention patent application after publication |