CN104866572B

CN104866572B - 一种网络短文本聚类方法

Info

Publication number: CN104866572B
Application number: CN201510267307.2A
Authority: CN
Inventors: 耿玉水; 张立说; 孙涛
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2018-05-18
Anticipated expiration: 2035-05-22
Also published as: CN104866572A

Abstract

本发明公开了一种网络短文本聚类方法，其具体实现过程为：首先获取网络评论；对获取的网络评论进行预处理，该预处理过程为：将网络评论进行分词，然后去除停用词、分割出关键词，对该关键词进行权重计算；对经过预处理的文本进行文本聚类。该网络短文本聚类方法与现有技术相比，实现对网上海量信息的收集、分析，方便用户查询到有价值的信息，使用该方法可使得网络短文本的聚类精确度高，满足人们的实际需求，实用性强，易于推广。

Description

一种网络短文本聚类方法

技术领域

本发明涉及Web文本聚类技术领域，具体地说是一种实用性强的网络短文本聚类方法。

背景技术

如今网络已经成为人们获取信息、互动交流的首要平台，例如中关村在线、汽车之家、太平洋电脑等，人们可以通过这些互动门户了解产品咨询、发表自己的观点，因此这些互动信息中往往包含网友对相关产品提出的各种优缺点及意见，其中有大量的价值信息需要人们来挖掘。

例如我们在购买某款手机前往往会到类似中关村在线这种网站上去了解其他用户对此款手机的评价，像是“很可惜它不是4G网络失望，电源适配器在夏天很热！”、“主屏材质采用柔性OLED，是很好的选择，非常喜欢。”、“机很大，很沉稳，2000万像素足以应付各种日常拍照，虹膜识别系统可以省略开机锁步骤。”，这些用户评价中都有此手机的优缺点，我们通常会借鉴他们的评论来衡量此款手机是否值得自己购买。同时商家也会借鉴用户的评论来有针对的修改此款手机的缺点，以便开发出更人性化的手机利于用户使用。

但网站上的评论信息一般都是大量出现，依次浏览需要耗费相当多的时间，并且这些评论中还会出现许多像“我就是来凑热闹的。”、“抢沙发！”等此类与话题无关的信息掺杂在其中，想要在这些海量的评论中摈弃无用信息并获取对自己有利的信息就要涉及到短文本处理的相关技术。而评论又是一种以短文本的形式出现，以非结构化数据的形式存在，内容杂乱无章，褒贬不一的网络形式的短文本，想要处理此类文本就必须要根据它的特点对现有的相关技术进行改进。

在现有技术中，获取的文本首先要经过预处理才能进行相应的文本聚类，在预处理过程中需要将文本中分割出的关键词进行权重计算，目前对计算权重的TFIDF公式的改进都是针对长文本的，而网络短文本较长文本最显著的区别就是数量很多、话题很广、无逻辑、内容复杂但字数都相对较少，若用目前改进后的TFIDF公式来对网络短文本进行权重计算并不能很好的区分特征项，而传统的TFIDF公式在衡量关键词上也有缺陷，不能按照网络短文本的特点使出现文本数较多或是较少的特征项其权值较低，而出现一定文本数的特征项其权值较高。

同样，由于评论这种网络形式的短文本，一般都是大量出现，而且其内容涵盖广泛，话题各异，数据集不规则，根据各聚类方法的概念可知：

基于层次聚类方法(Birch聚类方法、Cure聚类方法等)，不能确定终止条件，不能回溯处理，很难适应动态的数据集，因此不擅长处理非球形聚类；

基于密度聚类方法(Dbscan聚类方法等)不适合密度变化比较大的样本数据，且随着数据量的增大需要很大的内存支持跟开销；

基于网格的聚类方法(Clique聚类方法等)因为网格聚类的处理时间与每维空间划分的单元格数有关，对于孤立点处理比较敏感且无法处理大型数据，所以在一定程度上降低了算法聚类的质量跟准确性；

基于划分的聚类方法较经典的就是传统的K-means聚类方法，因其初始聚类中心是随机选取的会导致聚类结果精确度降低，并且算法对异常值(outliers)非常敏感，而目前对K-means聚类方法的改进都是针对普通文本的，对网络短文本聚类研究并不多，由于普通文本的特性与网络短文本特性不同，若按照现有根据普通文本改进的K-means聚类方法进行聚类其聚类结果并不理想。因此现有的技术并不能根据网络短文本自身特点来进行聚类。

基于此，现提供一种网络短文进行聚类时其精确度高、实用性强、基于改进的K-means聚类算法的网络短文本聚类方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、网络短文本聚类方法。

一种网络短文本聚类方法，其具体实现过程为：

首先获取网络评论；

对获取的网络评论进行预处理，该预处理过程为：将网络评论进行分词，然后去除停用词、分割出关键词，对该关键词进行权重计算；

对经过预处理的文本进行文本聚类。

所述文本预处理过程具体包括：

将获取到的网络评论用分词软件进行分词，分成相应的词或是词语；

依据相应的停用词表去除停用词；

计算词语权重；

对计算好的权重进行表示，以便于计算机对其做聚类操作。

所述词语权重计算采用改进的TFIDF公式进行，该改进的TFIDF公式为：

IDF_i＝log(|{j:t_i∈d_j}|)*log(|D|/|{j:t_i∈d_j}|)；

当文本集中没有词t_i时，式中的|{j:t_i∈d_j}|选取为|{j:t_i∈d_j}|+1。

用n表示词语出现的次数，N表示文本集中的文本数，则函数的增减性以及极值如下：

当IDF′＞0时，此时函数递增；当IDF′＝0时，到达极值；当IDF′＜0时，函数递减；即当时得到的权值会与上的某个数的权值相同，当某个词出现的次数多于极值时，就认为它的权值降低，重要程度在降低且无法区分文本。

所述文本聚类采用改进的K-means聚类方法，该改进的K-means聚类方法首先选择初始聚类中心，然后将大量文本集划分后再进行聚类。

所述改进的K-means聚类方法的具体过程为：

1)将进行预处理后的全部数据视为输入的数据集，从输入的数据集中随机抽取a个数据作为样本集A，其中a>k，该k为聚类后类的数目；

2)对样本集A中每个点都分别计算与整个数据集中点相似的个数，记为点的相似密度，计算样本集A中各个样本基于相似度阈值t的点相似密度r，相似度阈值t是给定介于[0，1]之间的数，当r<m/4k时，m为整个数据集总量，则转到步骤4)，否则执行下一步；

3)取出点相似密度最大的样本放入数据集K中；

4)在整个样本集中去除数据集K中的样本后重新取样本集A，重复步骤1)、2)，直到数据集K中的样本个数为k为止，将数据集K中的样本作为算法的初始聚类中心；

5)用选取的初始聚类中心来进行K-means聚类方法的聚类。

所述相似度采用向量夹角余弦来计算，相似度取值在[0，1]之间，数值越大相似程度越低，为0时代表完全相似，为1时代表完全不相似，相似度阈值t取值为0.8。

本发明的一种网络短文本聚类方法，具有以下优点：

本发明提出的一种网络短文本聚类方法，通过网络短文本自身特点来进行聚类，聚类效果理想，从而实现对网上海量信息的收集、分析，方便用户查询到有价值的信息，使用该方法可使得网络短文本的聚类精确度高，满足人们的实际需求，实用性强，易于推广。

附图说明

附图1为本发明的文本预处理实现流程图。

附图2为本发明中改进的K-means聚类方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供一种网络短文本聚类方法，首先根据网络短文本的特点对传统TFIDF公式进行改进，实现根据网络短文本的特点使出现文本数较多或是较少的特征项其权值较低，而出现一定文本数的特征项其权值较高的功能；然后在原始K-means聚类方法的基础上，针对网络短文本的特点将K-means聚类方法进行了改进，改进了K-means聚类方法选择初始聚类中心的方法，由于网络文本一般是大量出现的，因此本发明将大量文本集划分后再进行聚类，改进后的K-means聚类方法能增加聚类的准确度。

其具体实现过程为，

首先通过爬虫软件获取网络上的网络评论；

对经过预处理的文本进行文本聚类。

如附图1所示，所述文本预处理过程具体包括：

依据相应的停用词表去除停用词；

计算词语权重；

对计算好的权重进行表示，以便于计算机对其做聚类操作。

IDF_i＝log(|{j:t_i∈d_j}|)*log(|D|/|{j:t_i∈d_j}|)；

当IDF′＞0时，此时函数递增；当IDF′＝0时，到达极值；当IDF′＜0时，函数递减。

由上述的导数计算结果可知，时IDF取到极值，当时函数为增函数，时函数为减函数，也就是说当时得到的权值会与上的某个数的权值相同，这样当某个词出现的次数多于或少于极值时，就认为它的权值在降低，重要程度在降低且不能很好的区分文本。

所述文本聚类采用改进的K-means聚类方法，其具体步骤如下：

2)对样本集A中每个点都分别计算与整个数据集中点相似的个数，记为点的相似密度，计算样本集A中各个样本基于相似度阈值t的点相似密度r，相似度阈值t是给定介于[0，1]之间的数，由于本发明采用向量夹角余弦来计算相似度，相似度一般取值在[0，1]之间，数值越大相似程度越低，为0时代表完全相似，为1时代表完全不相似，因此选取相似度阈值t为0.8。若r<m/4k，该m为整个数据集总量，也就是孤立点，则转到步骤4)，否则执行下一步；

3)取出点相似密度最大的样本放入数据集K中；

5)用选取的初始聚类中心来进行K-means聚类方法的聚类。

实施例：

1、对预处理中权重计算TFIDF公式实验。

本文从中关村在线获取用户评论信息做为实验数据集，首先用传统TFIDF公式进行运算，实验数据集用中科院分词软件ICTCLAS分词。下表1是将实验部分文本做去除停用词后的结果。

现在我们选取表1中去除停用词后的第一个文本将其用原始TFIDF公式计算它们的特征项的权重，结果如下表2所示。

再通过文本一中含有特征项的文本数目可以看出，数目最高不一定是最重要的，因此有些词虽然含有它的文本数很多，但它并不是区分文本的重要关键词。由此可见原始的TFIDF公式在对网络短文本语句的标记中并不合理，并不能精确的标记出文本的重要关键词。

用本发明中改进后的公式再对实验数据集做一次计算，结果如下表3所示。

从上表结果中看出，当词出现的次数大于时，我们就认为其出现的次数较多，不能很好的区分文本，其权值降低。

综上所述，改进后的TFIDF公式能更好的表示网络短文本中特征词的权重，进而增加聚类结果的准确度。

2、选取实际数据集验证改进后的K-means聚类方法精确度。

本文从中关村在线中获取了1500条用户对某些商品的点评，首先用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS对评论集进行分类，然后用专用的停用词表对其过滤，最后通过算法进行聚类。

为评价聚类结果，本文采用F度量(F-measure)来衡量，F度量包含了查准率跟查全率两部分，F值越大证明算法的精确度越高，其计算公式如下：

查准率：其中N₁是指聚类i中其类别为j的文本数量，N₂是指聚类i中的所有文本数量。

查全率：其中N₃是指文本集中应该属于类别j的文本数。

所以F度量的公式为：

通过实验结果计算聚类方法改进前跟改进后的F度量值，如下表4所示：

3、其他方法与本文基于网络短文本的改进K-means算法实验比较。

本文选取200个文本集，对其进行DBSCA聚类算法与本文基于网络短文本的改进K-means聚类方法进行聚类后的F度量值进行比较，如下表5所示：

	F度量值	文本总数	聚类数
				DBSCA聚类算法	0.631	200	20
改进的K-means算法	0.652	200	20

从上表的结果中可以针对网络短文本聚类，本文改进的K-means聚类方法比DBSCA聚类方法得到的F度量值要高，聚类结果更精确。

有上述实施例可知，TFIDF公式改进，实现根据网络短文本的特点使出现特征项文本数较多或是较少的特征项其权值较低，而出现一定特征项文本数的特征项其权值较高，能有利的区分网络短文本关键词；对K-means聚类方法的初始聚类中心选取上的改进，选取大于聚类后的类的数目，进行基于相似度阈值的点相似密度的计算，若判断这些点是孤立点，就重新选取，若不是孤立点就选取其中点相似密度最大的点，组成K-means聚类方法的初始聚类中心，再进行聚类操作，该改进是针对K-means聚类方法在随机选取初始聚类中心带来的缺点上，根据网络短文本的特点，对其改进，改进后的方法可以提高对网络短文本聚类的准确度。能帮助我们从海量的评论信息中寻找需要的有关信息，提高了准确度与效率。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种网络短文本聚类方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种网络短文本聚类方法，其特征在于，其具体实现步骤为，

一、首先获取网络评论；

二、对获取的网络评论进行预处理，该预处理过程为：

依据相应的停用词表去除停用词，分割出关键词；

对关键词进行权重计算，该权重计算采用改进的TFIDF公式进行，该改进的TFIDF公式为：

IDF_i＝log(|{j:t_i∈d_j}|)*log(|D|/|{j:t_i∈d_j}|)；

当文本集中没有词t_i时，式中的|{j:t_i∈d_j}|选取为|{j:t_i∈d_j}|+1；

对计算好的权重进行表示，以便于计算机对其做聚类操作；

三、对经过预处理的文本进行文本聚类。

2.根据权利要求1所述的一种网络短文本聚类方法，其特征在于，用n表示词语出现的次数，N表示文本集中的文本数，则函数的增减性以及极值如下：

当IDF′＞0时，此时函数递增；当IDF′＝0时，到达极值；当IDF′＜0时，函数递减；即当时得到的权值会与上的某个数的权值相同，当某个词出现的次数多于或少于极值时，它的权值降低，且无法区分文本。

3.根据权利要求1所述的一种网络短文本聚类方法，其特征在于，所述文本聚类采用改进的K-means聚类方法，该改进的K-means聚类方法首先选择初始聚类中心，然后将大量文本集划分后再进行聚类。

4.根据权利要求3所述的一种网络短文本聚类方法，其特征在于，所述改进的K-means聚类方法的具体步骤为：

3)取出点相似密度最大的样本放入数据集K中；

5)用选取的初始聚类中心来进行K-means聚类方法的聚类。

5.根据权利要求4所述的一种网络短文本聚类方法，其特征在于，所述相似度采用向量夹角余弦来计算，相似度取值在[0，1]之间，数值越大相似程度越低，为0时代表完全相似，为1时代表完全不相似，相似度阈值t取值为0.8。