CN104866572B - 一种网络短文本聚类方法 - Google Patents
一种网络短文本聚类方法 Download PDFInfo
- Publication number
- CN104866572B CN104866572B CN201510267307.2A CN201510267307A CN104866572B CN 104866572 B CN104866572 B CN 104866572B CN 201510267307 A CN201510267307 A CN 201510267307A CN 104866572 B CN104866572 B CN 104866572B
- Authority
- CN
- China
- Prior art keywords
- text
- network
- cluster
- short text
- clustering method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000003064 k means clustering Methods 0.000 claims description 21
- 230000007423 decrease Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 4
- 238000005303 weighing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络短文本聚类方法,其具体实现过程为:首先获取网络评论;对获取的网络评论进行预处理,该预处理过程为:将网络评论进行分词,然后去除停用词、分割出关键词,对该关键词进行权重计算;对经过预处理的文本进行文本聚类。该网络短文本聚类方法与现有技术相比,实现对网上海量信息的收集、分析,方便用户查询到有价值的信息,使用该方法可使得网络短文本的聚类精确度高,满足人们的实际需求,实用性强,易于推广。
Description
技术领域
本发明涉及Web文本聚类技术领域,具体地说是一种实用性强的网络短文本聚类方法。
背景技术
如今网络已经成为人们获取信息、互动交流的首要平台,例如中关村在线、汽车之家、太平洋电脑等,人们可以通过这些互动门户了解产品咨询、发表自己的观点,因此这些互动信息中往往包含网友对相关产品提出的各种优缺点及意见,其中有大量的价值信息需要人们来挖掘。
例如我们在购买某款手机前往往会到类似中关村在线这种网站上去了解其他用户对此款手机的评价,像是“很可惜它不是4G网络失望,电源适配器在夏天很热!”、“主屏材质采用柔性OLED,是很好的选择,非常喜欢。”、“机很大,很沉稳,2000万像素足以应付各种日常拍照,虹膜识别系统可以省略开机锁步骤。”,这些用户评价中都有此手机的优缺点,我们通常会借鉴他们的评论来衡量此款手机是否值得自己购买。同时商家也会借鉴用户的评论来有针对的修改此款手机的缺点,以便开发出更人性化的手机利于用户使用。
但网站上的评论信息一般都是大量出现,依次浏览需要耗费相当多的时间,并且这些评论中还会出现许多像“我就是来凑热闹的。”、“抢沙发!”等此类与话题无关的信息掺杂在其中,想要在这些海量的评论中摈弃无用信息并获取对自己有利的信息就要涉及到短文本处理的相关技术。而评论又是一种以短文本的形式出现,以非结构化数据的形式存在,内容杂乱无章,褒贬不一的网络形式的短文本,想要处理此类文本就必须要根据它的特点对现有的相关技术进行改进。
在现有技术中,获取的文本首先要经过预处理才能进行相应的文本聚类,在预处理过程中需要将文本中分割出的关键词进行权重计算,目前对计算权重的TFIDF公式的改进都是针对长文本的,而网络短文本较长文本最显著的区别就是数量很多、话题很广、无逻辑、内容复杂但字数都相对较少,若用目前改进后的TFIDF公式来对网络短文本进行权重计算并不能很好的区分特征项,而传统的TFIDF公式在衡量关键词上也有缺陷,不能按照网络短文本的特点使出现文本数较多或是较少的特征项其权值较低,而出现一定文本数的特征项其权值较高。
同样,由于评论这种网络形式的短文本,一般都是大量出现,而且其内容涵盖广泛,话题各异,数据集不规则,根据各聚类方法的概念可知:
基于层次聚类方法(Birch聚类方法、Cure聚类方法等),不能确定终止条件,不能回溯处理,很难适应动态的数据集,因此不擅长处理非球形聚类;
基于密度聚类方法(Dbscan聚类方法等)不适合密度变化比较大的样本数据,且随着数据量的增大需要很大的内存支持跟开销;
基于网格的聚类方法(Clique聚类方法等)因为网格聚类的处理时间与每维空间划分的单元格数有关,对于孤立点处理比较敏感且无法处理大型数据,所以在一定程度上降低了算法聚类的质量跟准确性;
基于划分的聚类方法较经典的就是传统的K-means聚类方法,因其初始聚类中心是随机选取的会导致聚类结果精确度降低,并且算法对异常值(outliers)非常敏感,而目前对K-means聚类方法的改进都是针对普通文本的,对网络短文本聚类研究并不多,由于普通文本的特性与网络短文本特性不同,若按照现有根据普通文本改进的K-means聚类方法进行聚类其聚类结果并不理想。因此现有的技术并不能根据网络短文本自身特点来进行聚类。
基于此,现提供一种网络短文进行聚类时其精确度高、实用性强、基于改进的K-means聚类算法的网络短文本聚类方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、网络短文本聚类方法。
一种网络短文本聚类方法,其具体实现过程为:
首先获取网络评论;
对获取的网络评论进行预处理,该预处理过程为:将网络评论进行分词,然后去除停用词、分割出关键词,对该关键词进行权重计算;
对经过预处理的文本进行文本聚类。
所述文本预处理过程具体包括:
将获取到的网络评论用分词软件进行分词,分成相应的词或是词语;
依据相应的停用词表去除停用词;
计算词语权重;
对计算好的权重进行表示,以便于计算机对其做聚类操作。
所述词语权重计算采用改进的TFIDF公式进行,该改进的TFIDF公式为:
IDFi=log(|{j:ti∈dj}|)*log(|D|/|{j:ti∈dj}|);
当文本集中没有词ti时,式中的|{j:ti∈dj}|选取为|{j:ti∈dj}|+1。
用n表示词语出现的次数,N表示文本集中的文本数,则函数的增减性以及极值如下:
当IDF′>0时,此时函数递增;当IDF′=0时,到达极值;当IDF′<0时,函数递减;即当时得到的权值会与上的某个数的权值相同,当某个词出现的次数多于极值时,就认为它的权值降低,重要程度在降低且无法区分文本。
所述文本聚类采用改进的K-means聚类方法,该改进的K-means聚类方法首先选择初始聚类中心,然后将大量文本集划分后再进行聚类。
所述改进的K-means聚类方法的具体过程为:
1)将进行预处理后的全部数据视为输入的数据集,从输入的数据集中随机抽取a个数据作为样本集A,其中a>k,该k为聚类后类的数目;
2)对样本集A中每个点都分别计算与整个数据集中点相似的个数,记为点的相似密度,计算样本集A中各个样本基于相似度阈值t的点相似密度r,相似度阈值t是给定介于[0,1]之间的数,当r<m/4k时,m为整个数据集总量,则转到步骤4),否则执行下一步;
3)取出点相似密度最大的样本放入数据集K中;
4)在整个样本集中去除数据集K中的样本后重新取样本集A,重复步骤1)、2),直到数据集K中的样本个数为k为止,将数据集K中的样本作为算法的初始聚类中心;
5)用选取的初始聚类中心来进行K-means聚类方法的聚类。
所述相似度采用向量夹角余弦来计算,相似度取值在[0,1]之间,数值越大相似程度越低,为0时代表完全相似,为1时代表完全不相似,相似度阈值t取值为0.8。
本发明的一种网络短文本聚类方法,具有以下优点:
本发明提出的一种网络短文本聚类方法,通过网络短文本自身特点来进行聚类,聚类效果理想,从而实现对网上海量信息的收集、分析,方便用户查询到有价值的信息,使用该方法可使得网络短文本的聚类精确度高,满足人们的实际需求,实用性强,易于推广。
附图说明
附图1为本发明的文本预处理实现流程图。
附图2为本发明中改进的K-means聚类方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供一种网络短文本聚类方法,首先根据网络短文本的特点对传统TFIDF公式进行改进,实现根据网络短文本的特点使出现文本数较多或是较少的特征项其权值较低,而出现一定文本数的特征项其权值较高的功能;然后在原始K-means聚类方法的基础上,针对网络短文本的特点将K-means聚类方法进行了改进,改进了K-means聚类方法选择初始聚类中心的方法,由于网络文本一般是大量出现的,因此本发明将大量文本集划分后再进行聚类,改进后的K-means聚类方法能增加聚类的准确度。
其具体实现过程为,
首先通过爬虫软件获取网络上的网络评论;
对获取的网络评论进行预处理,该预处理过程为:将网络评论进行分词,然后去除停用词、分割出关键词,对该关键词进行权重计算;
对经过预处理的文本进行文本聚类。
如附图1所示,所述文本预处理过程具体包括:
将获取到的网络评论用分词软件进行分词,分成相应的词或是词语;
依据相应的停用词表去除停用词;
计算词语权重;
对计算好的权重进行表示,以便于计算机对其做聚类操作。
所述词语权重计算采用改进的TFIDF公式进行,该改进的TFIDF公式为:
IDFi=log(|{j:ti∈dj}|)*log(|D|/|{j:ti∈dj}|);
当文本集中没有词ti时,式中的|{j:ti∈dj}|选取为|{j:ti∈dj}|+1。
用n表示词语出现的次数,N表示文本集中的文本数,则函数的增减性以及极值如下:
当IDF′>0时,此时函数递增;当IDF′=0时,到达极值;当IDF′<0时,函数递减。
由上述的导数计算结果可知,时IDF取到极值,当时函数为增函数,时函数为减函数,也就是说当时得到的权值会与上的某个数的权值相同,这样当某个词出现的次数多于或少于极值时,就认为它的权值在降低,重要程度在降低且不能很好的区分文本。
所述文本聚类采用改进的K-means聚类方法,其具体步骤如下:
1)将进行预处理后的全部数据视为输入的数据集,从输入的数据集中随机抽取a个数据作为样本集A,其中a>k,该k为聚类后类的数目;
2)对样本集A中每个点都分别计算与整个数据集中点相似的个数,记为点的相似密度,计算样本集A中各个样本基于相似度阈值t的点相似密度r,相似度阈值t是给定介于[0,1]之间的数,由于本发明采用向量夹角余弦来计算相似度,相似度一般取值在[0,1]之间,数值越大相似程度越低,为0时代表完全相似,为1时代表完全不相似,因此选取相似度阈值t为0.8。若r<m/4k,该m为整个数据集总量,也就是孤立点,则转到步骤4),否则执行下一步;
3)取出点相似密度最大的样本放入数据集K中;
4)在整个样本集中去除数据集K中的样本后重新取样本集A,重复步骤1)、2),直到数据集K中的样本个数为k为止,将数据集K中的样本作为算法的初始聚类中心;
5)用选取的初始聚类中心来进行K-means聚类方法的聚类。
实施例:
1、对预处理中权重计算TFIDF公式实验。
本文从中关村在线获取用户评论信息做为实验数据集,首先用传统TFIDF公式进行运算,实验数据集用中科院分词软件ICTCLAS分词。下表1是将实验部分文本做去除停用词后的结果。
现在我们选取表1中去除停用词后的第一个文本将其用原始TFIDF公式计算它们的特征项的权重,结果如下表2所示。
再通过文本一中含有特征项的文本数目可以看出,数目最高不一定是最重要的,因此有些词虽然含有它的文本数很多,但它并不是区分文本的重要关键词。由此可见原始的TFIDF公式在对网络短文本语句的标记中并不合理,并不能精确的标记出文本的重要关键词。
用本发明中改进后的公式再对实验数据集做一次计算,结果如下表3所示。
从上表结果中看出,当词出现的次数大于时,我们就认为其出现的次数较多,不能很好的区分文本,其权值降低。
综上所述,改进后的TFIDF公式能更好的表示网络短文本中特征词的权重,进而增加聚类结果的准确度。
2、选取实际数据集验证改进后的K-means聚类方法精确度。
本文从中关村在线中获取了1500条用户对某些商品的点评,首先用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS对评论集进行分类,然后用专用的停用词表对其过滤,最后通过算法进行聚类。
为评价聚类结果,本文采用F度量(F-measure)来衡量,F度量包含了查准率跟查全率两部分,F值越大证明算法的精确度越高,其计算公式如下:
查准率:其中N1是指聚类i中其类别为j的文本数量,N2是指聚类i中的所有文本数量。
查全率:其中N3是指文本集中应该属于类别j的文本数。
所以F度量的公式为:
通过实验结果计算聚类方法改进前跟改进后的F度量值,如下表4所示:
3、其他方法与本文基于网络短文本的改进K-means算法实验比较。
本文选取200个文本集,对其进行DBSCA聚类算法与本文基于网络短文本的改进K-means聚类方法进行聚类后的F度量值进行比较,如下表5所示:
F度量值 | 文本总数 | 聚类数 | |
DBSCA聚类算法 | 0.631 | 200 | 20 |
改进的K-means算法 | 0.652 | 200 | 20 |
从上表的结果中可以针对网络短文本聚类,本文改进的K-means聚类方法比DBSCA聚类方法得到的F度量值要高,聚类结果更精确。
有上述实施例可知,TFIDF公式改进,实现根据网络短文本的特点使出现特征项文本数较多或是较少的特征项其权值较低,而出现一定特征项文本数的特征项其权值较高,能有利的区分网络短文本关键词;对K-means聚类方法的初始聚类中心选取上的改进,选取大于聚类后的类的数目,进行基于相似度阈值的点相似密度的计算,若判断这些点是孤立点,就重新选取,若不是孤立点就选取其中点相似密度最大的点,组成K-means聚类方法的初始聚类中心,再进行聚类操作,该改进是针对K-means聚类方法在随机选取初始聚类中心带来的缺点上,根据网络短文本的特点,对其改进,改进后的方法可以提高对网络短文本聚类的准确度。能帮助我们从海量的评论信息中寻找需要的有关信息,提高了准确度与效率。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种网络短文本聚类方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (5)
1.一种网络短文本聚类方法,其特征在于,其具体实现步骤为,
一、首先获取网络评论;
二、对获取的网络评论进行预处理,该预处理过程为:
将获取到的网络评论用分词软件进行分词,分成相应的词或是词语;
依据相应的停用词表去除停用词,分割出关键词;
对关键词进行权重计算,该权重计算采用改进的TFIDF公式进行,该改进的TFIDF公式为:
IDFi=log(|{j:ti∈dj}|)*log(|D|/|{j:ti∈dj}|);
当文本集中没有词ti时,式中的|{j:ti∈dj}|选取为|{j:ti∈dj}|+1;
对计算好的权重进行表示,以便于计算机对其做聚类操作;
三、对经过预处理的文本进行文本聚类。
2.根据权利要求1所述的一种网络短文本聚类方法,其特征在于,用n表示词语出现的次数,N表示文本集中的文本数,则函数的增减性以及极值如下:
当IDF′>0时,此时函数递增;当IDF′=0时,到达极值;当IDF′<0时,函数递减;即当时得到的权值会与上的某个数的权值相同,当某个词出现的次数多于或少于极值时,它的权值降低,且无法区分文本。
3.根据权利要求1所述的一种网络短文本聚类方法,其特征在于,所述文本聚类采用改进的K-means聚类方法,该改进的K-means聚类方法首先选择初始聚类中心,然后将大量文本集划分后再进行聚类。
4.根据权利要求3所述的一种网络短文本聚类方法,其特征在于,所述改进的K-means聚类方法的具体步骤为:
1)将进行预处理后的全部数据视为输入的数据集,从输入的数据集中随机抽取a个数据作为样本集A,其中a>k,该k为聚类后类的数目;
2)对样本集A中每个点都分别计算与整个数据集中点相似的个数,记为点的相似密度,计算样本集A中各个样本基于相似度阈值t的点相似密度r,相似度阈值t是给定介于[0,1]之间的数,当r<m/4k时,m为整个数据集总量,则转到步骤4),否则执行下一步;
3)取出点相似密度最大的样本放入数据集K中;
4)在整个样本集中去除数据集K中的样本后重新取样本集A,重复步骤1)、2),直到数据集K中的样本个数为k为止,将数据集K中的样本作为算法的初始聚类中心;
5)用选取的初始聚类中心来进行K-means聚类方法的聚类。
5.根据权利要求4所述的一种网络短文本聚类方法,其特征在于,所述相似度采用向量夹角余弦来计算,相似度取值在[0,1]之间,数值越大相似程度越低,为0时代表完全相似,为1时代表完全不相似,相似度阈值t取值为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510267307.2A CN104866572B (zh) | 2015-05-22 | 2015-05-22 | 一种网络短文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510267307.2A CN104866572B (zh) | 2015-05-22 | 2015-05-22 | 一种网络短文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104866572A CN104866572A (zh) | 2015-08-26 |
CN104866572B true CN104866572B (zh) | 2018-05-18 |
Family
ID=53912398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510267307.2A Active CN104866572B (zh) | 2015-05-22 | 2015-05-22 | 一种网络短文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104866572B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808526B (zh) | 2016-03-30 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
CN108536666A (zh) * | 2017-03-03 | 2018-09-14 | 北京明略软件系统有限公司 | 一种短文本信息提取方法和装置 |
CN106951498A (zh) * | 2017-03-15 | 2017-07-14 | 国信优易数据有限公司 | 文本聚类方法 |
CN107292193A (zh) * | 2017-05-25 | 2017-10-24 | 北京北信源软件股份有限公司 | 一种实现数据泄露防护的方法和系统 |
CN107194617B (zh) * | 2017-07-06 | 2020-11-24 | 北京航空航天大学 | 一种app软件工程师软技能分类系统及方法 |
CN107862070B (zh) * | 2017-11-22 | 2021-08-10 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN110443661A (zh) * | 2018-05-03 | 2019-11-12 | 上海媒科锐奇网络科技有限公司 | 用于购物网页的短文本分类方法、装置、设备及其介质 |
CN109947934B (zh) * | 2018-07-17 | 2024-01-30 | 中国银联股份有限公司 | 针对短文本的数据挖掘方法及系统 |
CN109783816B (zh) * | 2019-01-11 | 2023-04-07 | 河北工程大学 | 短文本聚类方法及终端设备 |
CN110597982A (zh) * | 2019-06-05 | 2019-12-20 | 福建奇点时空数字科技有限公司 | 一种基于词共现网络的短文本主题聚类算法 |
CN110705314A (zh) * | 2019-10-08 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 论文技术水平评价方法及装置 |
CN110750646B (zh) * | 2019-10-16 | 2022-12-06 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
CN111078862A (zh) * | 2019-12-06 | 2020-04-28 | 武汉理工大学 | 一种高校院所科技成果主动推送方法及装置 |
US11347944B2 (en) | 2020-01-27 | 2022-05-31 | Walmart Apollo, Llc | Systems and methods for short text identification |
CN112612870B (zh) * | 2020-12-11 | 2023-12-01 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法及系统 |
CN112860898B (zh) * | 2021-03-16 | 2022-05-27 | 哈尔滨工业大学(威海) | 一种短文本框聚类方法、系统、设备及存储介质 |
CN114297401A (zh) * | 2021-12-14 | 2022-04-08 | 中航机载系统共性技术有限公司 | 一种基于聚类算法的体系知识抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104199846A (zh) * | 2014-08-08 | 2014-12-10 | 杭州电子科技大学 | 基于维基百科的评论主题词聚类方法 |
-
2015
- 2015-05-22 CN CN201510267307.2A patent/CN104866572B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104199846A (zh) * | 2014-08-08 | 2014-12-10 | 杭州电子科技大学 | 基于维基百科的评论主题词聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104866572A (zh) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866572B (zh) | 一种网络短文本聚类方法 | |
CN103593425B (zh) | 基于偏好的智能检索方法及系统 | |
CN104778209B (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
CN104750798B (zh) | 一种应用程序的推荐方法和装置 | |
CN105786991A (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
CN106708966A (zh) | 基于相似度计算的垃圾评论检测方法 | |
CN101667194A (zh) | 基于用户评论文本特征的自动摘要方法及其自动摘要系统 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
Yan et al. | Overlaying communities and topics: An analysis on publication networks | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN101355457B (zh) | 测试方法及测试设备 | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
Prokić et al. | Recognising groups among dialects | |
CN109408600A (zh) | 一种基于数据挖掘的图书荐购方法 | |
CN102890698A (zh) | 微博话题标签自动化描述方法 | |
CN105630768A (zh) | 一种基于层叠条件随机场的产品名识别方法及装置 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN106886512A (zh) | 文章分类方法和装置 | |
CN107341199A (zh) | 一种基于文献信息共性模式的推荐方法 | |
CN102737027B (zh) | 个性化搜索方法及系统 | |
Xu et al. | A LDA model based text-mining method to recommend reviewer for proposal of research project selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |