CN103810280A

CN103810280A - 一种微博话题检测方法

Info

Publication number: CN103810280A
Application number: CN201410056208.5A
Authority: CN
Inventors: 王萌; 黄镇谨; 欧阳浩
Original assignee: Guangxi University of Science and Technology
Current assignee: Guangxi University of Science and Technology
Priority date: 2014-02-19
Filing date: 2014-02-19
Publication date: 2014-05-21

Abstract

本发明公开了一种微博话题检测方法，选择微博集合，利用网词网网络词库扫描对微博集合进行预处理；进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注等处理；利用HOWNET工具对微博词语概念进行获取和扩展；利用TFIDF来进行概念重要度的计算，并对每个帖子建立概念向量空间模型，将微博帖子集合形成帖子矩阵模型；利用聚类算法来进行每条微博的聚类，聚类后的微博集合就是一个个话题集合。本发明使用中科院ICTCLAS分词系统对带处理的微博集合进行词语切分和词性标注等处理提高后期话题检测的时间；使用HOWNET作为工具，将同义词、词语相关属性作为扩充增加信息量，大大避免了信息稀疏的问题，较大幅度的提高后期话题检测的准确性。

Description

一种微博话题检测方法

技术领域

本发明属于话题检测领域，尤其涉及一种微博话题检测方法。

背景技术

当前，话题检测技术的发展已经比较成熟，但是微博是在2010年前后才兴起的一种社交方法，微博与一般博客的最大区别在于微博文本限制在140个字以内，此外微博还呈现出个性化、符号化、口号化、非规范化等特点。

目前有些相关方法开始对微博话题进行一些检测，但多由于微博字数限制在140个，这样在做微博矩阵过程中会出现大量的稀疏矩阵问题，另外一些微博中常用的符号和网络词汇也会大大降低微博话题检测的准确率。

发明内容

本发明的目的在于提供一种潜水观察级ROV装置，旨在解决微博矩阵过程中出现大量的稀疏矩阵和一些微博中常用的符号和网络词汇也会大大降低微博话题检测的准确率的问题。

本发明是这样实现的，一种微博话题检测方法，该检测方法包括以下步骤：

步骤一：选择微博集合，利用“网词网”网络词库扫描对微博集合进行预处理,预处理主要是将符号化和口号化的词语映射为常用的词语；

步骤二：进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注处理，通过词语切分和词性标注后，选择那些名词、动词和形容词等词性词语，去掉数量词、虚词等词语来提高处理的效率和准确性；

步骤三：利用HOWNET工具对微博词语概念进行获取和扩展；

步骤四：利用TFIDF来进行概念重要度的计算，并对每个帖子建立概念向量空间模型，将微博帖子集合形成帖子矩阵模型，

经过处理得到微博集合基于概念的帖子矩阵模型为：

T = {(F_{ij})}_{n \times m} [\begin{matrix} F_{11} & F_{12} & . . . & F_{1 m} \\ F_{21} & F_{22} & . . . & F_{2 m} \\ . . . & . . . & . . . & . . . \\ F_{n 1} & F_{n 2} & . . . & F_{nm} \end{matrix}]

其中n为微博集合中的概念个数，m为微博集合中微博个数，第i行第j列元素Fij表示概念Ti在微博Sj中出现的频度；

步骤五：利用增量聚类方法来进行每条微博的聚类，在形成微博帖子集合后，根据微博自身的特点能作为话题的微博帖子多为一些官方微博和一些转发量很大的微博，根据这个特点在形成的微博帖子集合中选择若干个帖子，并对上述选择的微博帖子进行相似度的计算，如果出现相似度大于预定阈值的，直接将帖子合并为一个类；在形成上述初始的帖子后，将每个帖子作为一个初始类，增量聚类方法来进行微博的聚类。

进一步，“网词网”网络词汇扫描处理是处理微博中的一些符号化、口号化的词语，例如微博中经常出现的“BT”其实是“变态”、“童鞋”实际为“同学”等；

进一步，中科院ICTCLAS分词系统用于除去一些停用词、虚词等词语；

进一步，HOWNET工具用于将同义词归并到一个概念中，并使用HOWNET中的其他语义属性来扩充词语概念的范围，将词语概念中的其他语义属性与相关词语归并起来；

进一步，聚类算法是判断是否为第一条帖子、是否为转发、计算该贴与已经出现的话题的相似度看是否满足阈值要求。

本发明提供的微博话题检测方法根据“网词网”中对数字网络词汇、缩写网络词汇和常用网络词汇的收据较大幅度的提高后期话题检测的准确性；使用中科院ICTCLAS分词系统对带处理的微博集合进行词语切分和词性标注等处理提高后期话题检测的时间；使用HOWNET作为工具，将同义词、词语相关属性作为扩充增加信息量，大大避免了信息稀疏的问题。

附图说明

图1是本发明提供的微博话题检测方法的流程图。

具体实施方式

本发明是这样实现的，结合附图1，一种微博话题检测方法，该检测方法是这样实现的：

步骤三：利用HOWNET工具对微博词语概念进行获取和扩展；

经过处理得到微博集合基于概念的帖子矩阵模型为：

T = {(F_{ij})}_{n \times m} [\begin{matrix} F_{11} & F_{12} & . . . & F_{1 m} \\ F_{21} & F_{22} & . . . & F_{2 m} \\ . . . & . . . & . . . & . . . \\ F_{n 1} & F_{n 2} & . . . & F_{nm} \end{matrix}]

本发明提供的微博话题检测方法根据“网词网”中对数字网络词汇、缩写网络词汇和常用网络词汇的收据，处理为一个网络词汇库，在将网络词汇库导入后对微博进行预处理分词，这样可以将一些网络术语翻译为常用语，不会引起一些信息遗漏。针对微博信息量少的的情况，使用HOWNET作为工具，将同义词、词语相关属性作为扩充增加信息量，这样可以避免信息稀疏的问题，最大限度解决在微博话题检测中出现由于稀疏矩阵而导致话题检测错误的情况。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于概念的增量聚类微博话题检测方法，其特征在于，该检测方法包括以下步骤：

步骤一：选择微博集合，利用网络词库扫描对微博集合进行预处理,预处理主要是将符号化和口号化的词语映射为常用的词语；

步骤二：进行预处理后使用中科院ICTCLAS分词系统对待处理的微博集合进行词语切分和词性标注处理，通过词语切分和词性标注后，选择那些名词、动词和形容词词性词语，去掉数量词、虚词词语来提高处理的效率和准确性；

步骤三：利用HOWNET工具对微博词语概念进行获取和扩展；

经过处理得到微博集合基于概念的帖子矩阵模型为：

T = {(F_{ij})}_{n \times m} [\begin{matrix} F_{11} & F_{12} & . . . & F_{1 m} \\ F_{21} & F_{22} & . . . & F_{2 m} \\ . . . & . . . & . . . & . . . \\ F_{n 1} & F_{n 2} & . . . & F_{nm} \end{matrix}]

2.如权利要求1所述的微博话题检测方法，其特征在于，“网词网”网络词汇扫描处理是处理微博中的一些符号化、口号化的词语。

3.如权利要求1所述的微博话题检测方法，其特征在于，中科院ICTCLAS分词系统用于除去一些停用词、虚词。

4.如权利要求1所述的微博话题检测方法，其特征在于，HOWNET工具用于将同义词归并到一个概念中，并使用HOWNET中的其他语义属性来扩充词语概念的范围，将词语概念中的其他语义属性与相关词语归并起来。

5.如权利要求1所述的微博话题检测方法，其特征在于，聚类算法是判断是否为第一条帖子、是否为转发、计算该贴与已经出现的话题的相似度看是否满足阈值要求。