CN104281653B

CN104281653B - 一种针对千万级规模微博文本的观点挖掘方法

Info

Publication number: CN104281653B
Application number: CN201410472954.2A
Authority: CN
Inventors: 吴俊杰; 伍之昂; 曹杰
Original assignee: Nanjing Hong Shuo Information Technology Co Ltd
Current assignee: Guangdong Weishen Information Technology Co.,Ltd.
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2018-07-27
Anticipated expiration: 2034-09-16
Also published as: CN104281653A

Abstract

本发明公开了一种针对千万级规模微博文本的观点挖掘方法，首先，对某一事件或话题下的微博进行分词，在分词的基础上，去掉其中的垃圾文本；再根据分词的结果对微博文本进行关键词对的提取；然后对提取出的关键词对进行聚类；最后根据每一类的关键词对，从微博文本中提取出该类下能代表事件方面或用户观点的文本。本发明利用中文分词工具，考虑汉语语言的用法和搭配关系，处理千万级规模的微博文本，具有高效性、鲁棒性和易用性等优点。适用于对千万级规模的微博文本的方面分析，在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。

Description

一种针对千万级规模微博文本的观点挖掘方法

技术领域

本发明属于数据挖掘领域，涉及一种观点挖掘技术，具体的说是一种针对千万级规模微博文本的观点挖掘方法。

背景技术

随着网民规模的不断增大，一些社会化媒体也得到迅速地发展。以论坛、微博、微信为代表的社会化媒体逐渐渗透到全民生活和工作的每一个层面，对人们的行为模式、心理模式产生了极为深远的影响。这些社会化媒体每天都会产生大量的短文本。这些短文本中含有大量的表达事件方面或用户观点的信息。通过分析这些信息，人们一方面可以了解某一事件或话题的信息扩散情况，另一方面可以通过观察其他人对某一事件或话题的看法，了解到其观点偏好和行为特征，这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。但是，社会化媒体产生的信息中也存在着大量的垃圾和无意义文本。如何从掺杂着大量垃圾和无意义信息的文本中提取出能表达事件方面或用户观点的关键词成为当前的研究重点。

发明内容

本发明的目的是提供一种针对千万级规模微博文本的观点挖掘方法，该方法鉴于中文短文本的稀疏性、实时性等特性，考虑汉语语言的用法和搭配关系，从词的角度进行垃圾文本的过滤，从过滤之后的微博文本中提取出关键词对，再根据关键词对将文本进行分类，并筛选出具有代表性的文本。

本发明的目的通过以下技术方案来实现：

一种针对千万级规模微博文本的观点挖掘方法，其特征在于：该方法对千万级规模的微博文本进行关键词对的提取，再对关键词对进行聚类，最后根据聚类结果对代表性文本进行筛选，具体步骤如下：

1)对千万级规模微博文本进行简单过滤，将其中的无意义文本去掉；

简单过滤具体如下：

微博文本存在一类文本，这一类文本没有包含某话题或事件的一个方面，也没有包含用户的意见或观点倾向；这类文本可以归纳为以下四类：

(1)只包含“转发微博”的文本；

(2)以“http://”开头的文本；

(3)内容为空的文本；

(4)含有多于5个“@”符号的文本；

第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发，而没有加上自己对这条微博的意见或观点倾向，过滤方法：文本匹配；第二类微博多为参加某个活动而发布的，过滤方法：正则表达式；第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博，过滤方法：字符串长度；第四类微博多为参加某个活动而发布的，过滤方法：字符串函数；由于这四类微博有着比较明显的文本特征，因此，只需采用简单的规则即可实现这四类微博的过滤。

2)利用中文分词工具，对简单过滤之后的微博文本进行分词和词性标注；

分词的目的是为了将微博文本转化成一个个词语；根据汉语语言的特点，能反映事件方面或用户观点的词语都是实词；因此，在分词的过程中需要对每一个词语进行词性标注；需要对分词之后的结果进行两种特殊处理，一种是词性筛选，另一种是词频筛选；

词性筛选是指将分词结果中的名词、形容词、动词保留下来，将其他词性的词语去掉；

词频筛选是指将分词结果中的低频词和高频词去掉；低频词很可能是只在少数微博文本中出现的，不具有代表性；高频词有两种可能：一种是大部分微博都出现的词语；另一类是错误分词以后产生的分词碎片。

3)利用分词结果，将词作为属性对文本进行分类，以识别出其中的广告文本，并将广告文本过滤掉；

将广告文本过滤转化为一个二分类问题，通过人工标注的方式产生训练样本；根据每一个测试样本的测试结果，对训练样本进行扩充，以增加训练样本对不同种类的广告的覆盖度；考虑广告文本用词的特征，在分类的过程中，本步骤用步骤2)产生的分词结果作为特征属性构建特征矩阵。

4)从剩下的微博文本中提取关键词对；

关键词对的提取是在高频词的基础上进行的，首先，对经过上一步骤保留下来的微博文本进行词频统计，选取词频排名前K个词语作为候选的高频词；再根据高频词的位置，选取与高频词紧邻的前一个和后一个词语，构成高频词和前后词语的词对；然后，统计每一个词对在微博文本中出现的次数，根据如下公式计算每一个词对的权重：

W＝F_g×N_c

词网中的边的权重包括核心词权重F_g和词对共现权重N_c两个部分；核心词权重是指这对词对中高频词的权重，高频词出现的次数越多，越有可能形成这样一条边，说明核心词的权重越高；核心词权重用高频词的频率来表示；词对共现权重是指这两个词同时紧挨着出现的权重，用这两个词共现的次数来表示；

在计算每一个词对的权重之后，根据权重对词对进行排序，选取权重排序前n个词对作为这些微博文本中的关键词对。

5)对提取出的关键词对进行聚类；

在提取出关键词对之后，由于每一个关键词对表达的含义可能不一样，需要对提取出的关键词对进行聚类；采用K-means聚类算法；

K-means聚类算法是用一个距离函数来刻画样本点到聚类中心的聚类，根据这个距离来将样本点划分到对应的类别中；采用的距离函数是余弦相似度；余弦相似度是信息检索中常用的相似度的计算方式，假如有两个词语i和j，词语i表达成文件向量D_i＝(w_i1,w_i2,…,w_in)，词语j表达成D_j＝(w_j1,w_j2,…,w_jn)，则这两个词语的余弦相似度计算公式为：

余弦相似度最小值为0，最大值为1，其几何意义是计算两文件或词语向量在高纬度空间中的夹角，夹角越小，余弦相似度越大，角度为0°时，相似度为1；夹角越大，余弦相似度越小，角度为90°时，相似度为0。

6)根据聚类结果，对微博文本进行分类；

采用的分类流程如下：根据每一类的关键词对，遍历所分析数据集中所有的微博文本，计算这一类关键词对在每条微博中出现的频数，将所有关键词对在该微博中出现的频数之和作为这条微博的权重；根据微博文本在每一类关键词对的权重，将文本分到权重最高的那一类关键词对中。

7)选出每一类中能代表事件方面或用户观点的微博文本。

根据上分类结果，对每一类微博文本进行代表性文本提取；根据计算出的权重对代表性文本进行排序，提取每一类中权重比较高的前n条微博文本作为该类别具有代表性的文本。

本发明首先对千万级规模微博文本进行简单过滤，将其中的无意义文本去掉；利用中文分词工具，对简单过滤之后的微博文本进行分词和词性标注；利用分词结果，将词作为属性对文本进行分类，以识别出其中的广告文本；将识别出的广告文本去掉，从剩下的微博文本中提取关键词对；对提取出的关键词对进行聚类；根据聚类结果，对微博文本进行分类，并选出每一类中能代表事件方面或用户观点的微博文本。

本发明利用微博平台产生的数据，对垃圾文本过滤，构建相应的分类器来识别垃圾文本。在垃圾文本过滤之后的结果上进行关键词对的提取，保留文本中词与词之间的搭配关系，对结果进行聚类并提取代表性文本。通过关键词和代表性文本来表达事件方面或用户观点。

本发明利用中文分词工具，考虑汉语语言的用法和搭配关系，处理千万级规模的微博文本，具有高效性、鲁棒性和易用性等优点。本发明能从掺杂着大量垃圾和无意义信息的文本中提取出能表达事件方面或用户观点。本发明适用于对千万级规模的微博文本的方面分析，在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。

附图说明

图1为本发明的整体框架图。

图2为本发明的关键词对提取的流程。

图3为本发明的文本分类算法的伪代码。

具体实施方式

一种针对千万级规模微博文本的观点挖掘方法，首先需要将微博文本中的垃圾文本去掉，再从文本中提取关键词对，最后根据关键词对进行文本的分类和代表性文本的提取。图1为本发明的整体框架图。具体实施步骤如下：

步骤一：简单过滤。

微博文本存在一类文本，这一类文本没有包含某话题或事件的一个方面，也没有包含用户的意见或观点倾向。这类文本可以归纳为以下四类：

(1)只包含“转发微博”的文本；

(2)以“http://”开头的文本；

(3)内容为空的文本；

(4)含有多于5个“@”符号的文本。

第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发，而没有加上自己对这条微博的意见或观点倾向。第二类和第四类微博多为参加某个活动而发布的。第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博。由于这四类微博有着比较明显的文本特征，因此，本研究只需采用简单的规则即可实现这四类微博的过滤，具体的过滤这四类微博的方法请见下表1。

表1 四类无意义微博过滤方法

步骤二：分词与词性标注。

分词的目的是为了将微博文本转化成一个个词语。根据汉语语言的特点，能反映事件方面或用户观点的词语都是实词。因此，在分词的过程中需要对每一个词语进行词性标注。本步骤需要对分词之后的结果进行两种特殊处理，一种是词性筛选，另一种是词频筛选。

词性筛选是指将分词结果中的名词、形容词、动词保留下来，将其他词性的词语去掉。这样做既能提高关键词对提取的准确度，又能在大规模数据集下减少所要分析的词语数量，提高垃圾文本过滤和关键词对提取的效率。

词频筛选是指将分词结果中的低频词和高频词去掉。低频词很可能是只在少数微博文本中出现的，不具有代表性。高频词有两种可能：一种是大部分微博都出现的词语；另一类是错误分词以后产生的分词碎片。这些低频词和高频词对垃圾文本过滤和关键词对的提取没有多大的参考意义，去掉之后可以提高本发明处理数据的效率。

步骤三：广告文本过滤。

微博文本中存在许多广告文本，广告文本对观点分析没有研究意义。所以需要将广告文本过滤掉。本步骤将广告文本过滤转化为一个二分类问题，通过人工标注的方式产生训练样本。根据每一个测试样本的测试结果，对训练样本进行扩充，以增加训练样本对不同种类的广告的覆盖度。考虑广告文本用词的特征，在分类的过程中，本步骤用上一步骤产生的分词结果作为特征属性构建特征矩阵。

步骤四：关键词对的提取。

高频词在一定程度上可以反映所分析微博数据集中人们讨论的较多的方面和问题。图2展示的是关键词对提取的具体流程。本步骤的关键词对的提取是在高频词的基础上进行的。首先，对经过上一步骤保留下来的微博文本进行词频统计，选取词频排名前K个词语作为候选的高频词。再根据高频词的位置，选取与高频词紧邻的前一个和后一个词语，构成高频词和前后词语的词对。然后，统计每一个词对在微博文本中出现的次数，根据如下公式计算每一个词对的权重：

W＝F_g×N_c

词网中的边的权重包括核心词权重F_g和词对共现权重N_c两个部分。核心词权重是指这对词对中高频词的权重，高频词出现的次数越多，越有可能形成这样一条边，说明核心词的权重越高。核心词权重用高频词的频率来表示。词对共现权重是指这两个词同时紧挨着出现的权重，用这两个词共现的次数来表示。

步骤五：关键词对聚类。

在提取出关键词对之后，由于每一个关键词对表达的含义可能不一样，所以需要对提取出的关键词对进行聚类。本步骤所采用的K-means聚类算法，算法流程见表2。

表2 K-means算法具体流程

本步骤采用微博文本作为关键词的特征属性，来构建关键词的特征矩阵。本研究为关键词构建特征矩阵的思路如下：根据提取出来的关键词对，遍历所分析微博文本，统计每一条微博文本中该关键词对出现的频数，将这个频数作为该关键词对在这条微博文本的属性下的属性值。通过这个方法构建出的关键词对特征矩阵实际上是一个基于关键词对频数的矩阵，每一行代表一个关键词对在所分析的微博文本中出现的频数，每一列代表一条微博文本包含提取出的关键词对的频数。

K-means聚类算法实际上是用一个距离函数来刻画样本点到聚类中心的聚类，根据这个距离来将样本点划分到对应的类别中。本步骤采用的距离函数是余弦相似度。余弦相似度是信息检索中常用的相似度的计算方式，假如有两个词语i和j，词语i表达成文件向量D_i＝(w_i1,w_i2,…,w_in)，词语j表达成D_j＝(w_j1,w_j2,…,w_jn)，则这两个词语的余弦相似度计算公式为：

余弦相似度最小值为0，最大值为1，其几何意义是计算两文件或词语向量在高纬度空间中的夹角，夹角越小，余弦相似度越大(角度为0°时，相似度为1)；夹角越大，余弦相似度越小(角度为90°时，相似度为0)。

步骤六：文本分类。

根据上一步骤的结果，本步骤对千万级微博文本进行分类。本步骤所采用的分类流程如下：根据每一类的关键词对，遍历所分析数据集中所有的微博文本，计算这一类关键词对在每条微博中出现的频数，将所有关键词对在该微博中出现的频数之和作为这条微博的权重。根据微博文本在每一类关键词对的权重，将文本分到权重最高的那一类关键词对中。图3展示了文本分类算法的伪代码。

步骤七：代表性文本提取。

根据上一步骤的分类结果，需要对每一类微博文本进行代表性文本提取。根据上一步骤计算出的权重对代表性文本进行排序，提取每一类中权重比较高的前n条微博文本作为该类别具有代表性的文本。

由于微博中存在大量转发和评论的微博，所以在微博中有很多重复的文本。因此，本步骤需要对所选择的代表性文本进行去重操作，以尽量多地展示该类别下权重比较高的不同内容的代表性文本。本步骤从内容角度，采用Levenshtein距离来实现代表性文本的去重。Levenshtein距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。Levenshtein距离包括的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。在对文本按权重排序的同时，计算文本之间的Levenshtein距离，只保留Levenshtein距离相近的一条文本，将其他的文本去掉。

Claims

1.一种针对千万级规模微博文本的观点挖掘方法，其特征在于：该方法对千万级规模的微博文本进行关键词对的提取，再对关键词对进行聚类，最后根据聚类结果对代表性文本进行筛选，具体步骤如下：

词频筛选是指将分词结果中的低频词和高频词去掉；低频词很可能是只在少数微博文本中出现的，不具有代表性；高频词有两种可能：一种是大部分微博都出现的词语；另一类是错误分词以后产生的分词碎片；

4)从剩下的微博文本中提取关键词对；

5)对提取出的关键词对进行聚类；

6)根据聚类结果，对微博文本进行分类；

7)选出每一类中能代表事件方面或用户观点的微博文本；

步骤1)中，简单过滤具体如下：

(1)只包含“转发微博”的文本；

(2)以“http://”开头的文本；

(3)内容为空的文本；

(4)含有多于5个“@”符号的文本；

第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发，而没有加上自己对这条微博的意见或观点倾向，过滤方法：文本匹配；第二类微博多为参加某个活动而发布的，过滤方法：正则表达式；第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博，过滤方法：字符串长度；第四类微博多为参加某个活动而发布的，过滤方法：字符串函数；由于这四类微博有着比较明显的文本特征，因此，只需采用简单的规则即可实现这四类微博的过滤；

步骤4)中，关键词对的提取是在高频词的基础上进行的，首先，对经过上一步骤保留下来的微博文本进行词频统计，选取词频排名前K个词语作为候选的高频词；再根据高频词的位置，选取与高频词紧邻的前一个和后一个词语，构成高频词和前后词语的词对；然后，统计每一个词对在微博文本中出现的次数，根据如下公式计算每一个词对的权重：

W＝F_g×N_c

2.根据权利要求1所述的针对千万级规模微博文本的观点挖掘方法，其特征在于：步骤3)中，将广告文本过滤转化为一个二分类问题，通过人工标注的方式产生训练样本；根据每一个测试样本的测试结果，对训练样本进行扩充，以增加训练样本对不同种类的广告的覆盖度；考虑广告文本用词的特征，在分类的过程中，本步骤用步骤2)产生的分词结果作为特征属性构建特征矩阵。

3.根据权利要求1所述的针对千万级规模微博文本的观点挖掘方法，其特征在于：步骤5)中，在提取出关键词对之后，由于每一个关键词对表达的含义可能不一样，需要对提取出的关键词对进行聚类；采用K-means聚类算法；

4.根据权利要求1所述的针对千万级规模微博文本的观点挖掘方法，其特征在于：步骤6)中，采用的分类流程如下：根据每一类的关键词对，遍历所分析数据集中所有的微博文本，计算这一类关键词对在每条微博中出现的频数，将所有关键词对在该微博中出现的频数之和作为这条微博的权重；根据微博文本在每一类关键词对的权重，将文本分到权重最高的那一类关键词对中；根据上分类结果，对每一类微博文本进行代表性文本提取；根据计算出的权重对代表性文本进行排序，提取每一类中权重比较高的前n条微博文本作为该类别具有代表性的文本。