CN103793503B

CN103793503B - 一种基于web文本的观点挖掘与分类的方法

Info

Publication number: CN103793503B
Application number: CN201410035384.0A
Authority: CN
Inventors: 闫波; 张彬; 宿红毅; 郑宏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2017-02-08
Anticipated expiration: 2034-01-24
Also published as: CN103793503A

Abstract

本发明涉及一种基于web文本的观点挖掘与分类的方法，属于数据挖掘技术领域。本发明通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题，并持续跟踪和关注该话题，通过对得到话题的情感倾向性及真伪倾向性的综合分析。本发明能快速有效地在大数据时代背景下，通过从中挖掘热点主题倾向性走势，分析影响因子，为减少舆论导向对公众的负面影响，为互联网管理的决策提供参考。

Description

一种基于web文本的观点挖掘与分类的方法

技术领域

本发明涉及一种基于web文本的观点挖掘与分类的方法，属于数据挖掘技术领域。

背景技术

随着Web2.0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可以自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代，任何的意见、想法都可能影响一大批人，形成网络舆论。现阶段越来越多的事件表明：网络舆论在影响社会舆论发展趋势，甚至已经作为一种主要社会舆论的方式。网民在网络上有意识或者无意识表达出来的民情民意，对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。

热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一，从互联网数据中，主要是新闻，博客，论坛，社交网站和搜索日志等数据中获取热点特征组或者与行为短语，进行抽象提取，从而得到热点话题。由于传统博客、微博和社交网站上存在与日俱增的话题和数据，热点话题可以提供给用户搜索关键词参考，例如，Baidu搜索引擎中的热点话题推荐，将获取的热点话题进行推荐，并能时时更新。这些无疑促使热点新闻成为舆论的焦点，广泛的影响大众的视线，引导大众舆论，一定程度上体现民众的社会政治态度。面对多元化的网络舆情表达诉求，倘若不加引导，负面的网络舆情将会对社会的公共安全造成一定的危害。

目前大多数情感分析方面的研究工作都是主题无关的，即单纯判断一个文档或者一句话的情感极性，而不考虑这个文档是针对某个主题的情感。在这一研究领域，主要有三类方法：

（1）基于词典的方法：该类方法主要是将情感词表与人工制定的规则相结合。这类方法通常面临无法解决未登录词的问题。基于情感词典最简单的做法是，应用已有资源，如WordNet等构建情感词典，然后去看文本中包含正向情感词和负向情感词的个数判断文本的情感极性。

（2）有监督的机器学习方法：这类方法主要采用的机器学习模型有朴素贝叶斯，最大熵和支持向量机。以Pang等人的工作为例：Pang等人的工作主要是使用机器学习的方法划分电影评论的情感极性，即正向情感和负向情感。Pang等人首先对文本进行预处理，包括否定词提取、一元词提取、二元词提取、词性标注、提取位置信息等。然后将这些作为特征，再分别使用朴素贝叶斯，最大熵和支持向量机的方法来进行情感极性的分类。

（3）无监督的方法：这类方法主要通过指定基本的情感词，计算待挖掘观点的文本中的情感短语与基本情感词之间的分值来决定情感导向。

综上所述，进行网络舆情分析，实时把控舆情态势，形成正面的网络舆情环境，对于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与分类的方法还是不多，与即时的发现热点、分析处理并评估舆论的要求尚有距离，因此，有必要提供一种基于文本观点挖掘与分类的方法。此方法应用在及时发现并监控网络舆情的热点话题，有利于让民众实时了解社会热点信息，为政府及相关部门制定政策提供辅助支持。加强信息的梳理，保证舆情的及时、准确和全面，可以有效的预防不良信息的传播。

发明内容

本发明提供一种web文本的观点挖掘与分类的方法，具体技术方案为：

步骤1、初次获取web信息，初步处理并存入数据库：

（1）使用网络爬虫获得互联网信息，通过网站提供的已知API接口获得数据，通过现有的网站发布的热点词作为关键字存入数据库作为已知热点话题；

（2）对原始网络信息进行预处理，包括：中文分词、词性标注、停用词处理，命名实体识别等。

（3）采集到的网页进行净化，通过模板的信息分类，过滤噪声信息；

步骤2、使用向量空间模型进行文本特征构建，使用TF-IDF模型计算特征词权重；采用Single-Pass增量聚类方法，检测话题相似度，获得与主题相关的话题群；

获得与主题相关的话题群过程包括：

（1）初始化加载已知的话题类，减少数据在时间窗内的冷启动；

（2）顺序读入已处理web文本的空间向量；

（3）计算TF-IDF权重，加入时下热点词汇，加入表情库，适当上调权重；

（4）计算当前文本与时间窗内文本的最大相似度；

（5）如果相似度大于某个旧聚类阈值，则分配给这个聚类，否则该成为一个新的聚类；

（6）将分配给已知聚类或新产生的话题聚类，添加到数据库；

（7）更新聚类的信息；

步骤3、根据话题中时间窗口和话题中的包含数量，提取出话题的摘要和关键词，计算话题数量与时间窗口的比值，分值由大到小排列；取分值超过某个阈值以上的话题作为热点，呈现给用户；

步骤4、对已知的热点话题进行二次专题网络抓取，结合利用发帖人ID，构造专题话题的用户拓扑网络，并对每个热点话题内的每个子话题的评论建立倒排索引；

热点话题二次抓取的过程包括：

（1）根据热点话题的关键词，用网络爬虫或API获取此专题相关的文本数据，预处理数据，热点话题即是中心话题，子话题就是中心话题相关的衍生话题，从网页中分离出用户评论数据；

（2）针对SNS、BBS等网络的结合用户ID，构造出基于此相关主题的用户的拓扑网络，根据社会化分析理论，对基于用户构造成的拓扑网络进行拓扑分析和中心度分析；依照分析拓扑和中心度的指标后，确定活跃用户节点或是网络言论领导者，并设置权重；

（3）定制情感字典，包括：否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典；使用ICTCLAS中文分词，加入NTUSD情感字典和五种定制的情感字典，对评论分句计算单句情感指数，累计整条评论的感情指数获得最终感情指数，确定正反性；

（4）以评论中的关键词作为索引依据；对评论的得分进行排序,截取一定排名内，作为带有权重的有价值评论。该评论的品质与评论热度（H）与评论质量（Q）以及时间维度（T）相关。公式依据分别如下：

H_{i} = \frac{{userful}_{i}}{Σ_{j = 1, t = t_{i}}^{{n, t}_{now}} {view}_{j}}

Q_{i} = \frac{{useful}_{i}}{{view}_{i}}

T_{i} = λ (\frac{t_{i} - t_{0}}{t_{now} - t_{0}}) (λ &Element; 0,1)

其中：H_i为本条评论的评论热度，userful_i是其他用户认为此评论为有效评论，view_i则是指此评论被浏览次数；Q_i为评论质量；T_i为时间维度：t_i是该条评论发布时间，t₀为评论的原始话题发布时间，t_now则指评论排序的当前时间；其中λ为0到1之间的常数；

信息相关性公式如下：

{similar}_{i} = \underset{t &Element; q}{Σ} tf (t) * idf (t) * b (t . field) * lN (t . field)

其中，这里的t是指包含域信息的项；tf(t)为t在文档中出现的词频；idf(t)为t在几篇文档中出现过；b(t.field)为域的加权因子，在插入文档中设置;

lN (t . field) = 1 / \sqrt{numTerms} : numTerms

为词的个数，一个域中包含的t总数越多，也即文档越长，此值越小，文档越短，此值越大。

依据评论的信息相关性（similar_i）和用户节点的权重(W_i)以及质量与评价的时间，对评价的得分进行排序得到最终的排序结果Fs_i。排序算法如下：

Fs_i＝α*similar_i+(1-α)*fun(T_i,H_i,W_i,β)

其中，fun（T_i,H_i,W_i,β）代表评论i品质的函数，具体实现依据不同的情况；α、β为0到1之间的常数

步骤5、读取已处理的话题数据和情感词典，根据情感词典和语法模式库，从语料中抽取情感特征，构造话题分类训练数据集；使用朴素贝叶斯分类算法训练，得到话题观点情感倾向性分类模型；

步骤6、读入待情感分类的子话题；通过自然语言处理，得到经中文分词和词性标注好的子话题；根据情感词典和语法模式库，从子话题中抽取情感特征，构造测试数据集；分类器读取测试数据和已训练好的话题情感分类模型，保存子话题情感分类结果；

步骤7、话题观点情感倾向性识别后，对其话题进行真伪倾向性分类；构造用户信誉度、URL信誉度、权威结论集数据集；使用朴素贝叶斯分类算法，用户信誉度、URL信誉度、权威结论集作为影响因子，通过训练得到话题真伪分类模型；

步骤8、读入待真伪分类的子话题；根据从话题中抽取出的情感特征，结合步骤7中的URL信誉、权威结论集、用户构造测试数据集；分类器读取测试数据和已训练好的分类模型，输出子话题真伪性分类的预测结果；

步骤9：对待分类话题进行解析，得到子话题集；调用对每个子话题进行分类得到的情感分类结果；根据子话题之间的相似度，构建LexRank图模型，利用所构建的图模型，计算子话题的重要性和冗余度，最终输出话题情感分类结果；

步骤10：结合情感倾向性分类结果：正面、负面；真伪性分类结果：真实、伪造。绘制表格，作为辅助分析，挖掘出观点的影响因子。

有益效果

与现有技术相比，本发明通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题，并持续跟踪和关注该话题，通过对得到话题的情感倾向性及真伪倾向性的综合分析，本发明能快速有效地在大数据时代背景下，通过从中挖掘热点主题倾向性走势，分析影响因子，为减少舆论导向对公众的负面影响，为互联网管理的决策提供参考。

附图说明

图1是本发明的实施流程示意图

图2是本发明提供的一种web文本的观点挖掘与分类的方法基本流程图

图3是依照本发明提供的主题挖掘与中心话题提取基本流程图

图4是依照本发明的用户节点拓扑图

图5是依照本发明的积极/消极观点倾向性对比直方图

图6是依照本发明的真实/伪造倾向性对比直方图

具体实施方式

下面结合附图，对具体实施方式进行详细说明：

实施流程如图1所示，基本流程如图2所示，本实例对新闻网页、以及腾讯微博进行了测试。测试数据选取了人工收集的网络中9个主题类别的网页、微博作为数据集，9个主题类别分别是：NBA、温岭杀医事件、山西临汾伤害儿童事件、倒车杀婴、大学生就业、教育乱收费、人民币升值、娱乐圈潜规则和中国嫦娥奔月计划。对于每一个主题类别，数据收集人员分别从若干个不同网站的网络新闻报道中收集了1000篇网页的HTML源代码，9个类别共计9000篇；腾讯微博每个类别收集1000条微博，共计9000条。

根据步骤1：web信息的初次获取，初步处理并存入数据库：

使用网络爬虫获得互联网信息，随机得到各种不同领域网页文本1万页，通过网站提供的已知API接口，获得1W条数据。对原始网络信息进行预处理，包括：中文分词、词性标注、停用词处理，命名实体识别等。采集到的网页进行净化，通过模板的信息分类，过滤噪声信息。将基础内容（具体包括文章编号、文章内容、评论数、时间、来源、所属人物id等）存入数据库，对带有用户关系的web信息保存关联关系（人物id、所关联人的id）；

根据步骤2：如图3所示，对已知的信息进行主题挖掘，识别出中心观点主题，并持续跟踪和关注观点主题，得到基于新鲜度模型的热点话题；

使用向量空间模型（VSM）进行文本特征构建，使用TF-IDF模型计算特征词权重。采用Single-Pass增量聚类方法，检测话题相似度，获得与主题相关的话题群。其中初始化参数设置为：文档窗口大小D=500，主题窗口大小T=200，聚类相似度阈值Te=0.3，新事件相似度阈值Tn=0.2。

（1）初始化加载已知的话题类，如温岭杀医事件、山西临汾伤害儿童事件、倒车杀婴等，减少数据在时间窗内的冷启动。

（2）顺序读入已处理（即归为已知话题类）包含的web文本向量空间模型，其中标题和正文分别用两个向量进行表示。

（3）如当前文本为温岭杀医事件的一篇新闻报道，计算其文本TF-IDF权重，加入时下热点词汇，加入表情库等，适当上调权重。

（4）计算该当前新闻文本与时间窗内文本的最大相似度；

（5）该新闻报道相似度大于温岭杀医事件聚类阈值，则分配给这个聚类；

（6）将分配给已知聚类添加到数据库；

（7）更新聚类的信息；

根据步骤3、根据话题中时间窗口和话题中的包含数量，并将结果提取关键词，发现热点话题，并呈现给用户。

发现热点话题过程包括：

（1）根据已经处理完的数据，提取出话题的摘要和关键词等；

（2）计算话题数量与时间窗口的比值，分值由大到小排列；

（3）取分值超过某个阈值以上的话题作为热点；

步骤4、对已知的温岭杀医事件的二次专题网络抓取，结合利用发帖人ID，构造专题话题的用户拓扑网络。并对每个热点话题内的每个子话题的评论建立倒排索引；

热点话题二次抓取的过程包括：

（1）根据温岭杀医话题的关键词，用网络爬虫、API获取此相关的网页1000页和2000条微博，预处理数据，并从网页中分离出用户评论数据；

（2）如图5所示，针对微博的用户ID，构造出基于此相关主题的用户的拓扑网络，用户节点拓扑如图4所示，对基于用户构造成的拓扑网络进行拓扑分析和中心度分析；依照分析拓扑和中心度的指标后，确定活跃用户节点或是网络言论领导者，并设置权重；

（3）定制情感字典，包括：否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典;使用ICTCLAS中文分词，加入NTUSD情感字典和五种定制的情感字典，对评论分句计算单句情感指数，累计整条评论的感情指数获得最终感情指数，确定正反性；

（4）以评论中的关键词作为索引依据；对评论的得分进行排序,截取一定排名内，作为带有权重的有价值评论。该评论的品质与评论热度（H）与评论质量（Q）以及时间维度（T）相关。代表了在一定时间此用户评论被阅读的次数，以及被大众认为有帮助的程度，能客观反应出此评论的影响力。公式依据分别如下：

\{\begin{matrix} H_{i} = \frac{{userful}_{i}}{Σ_{j = 1, t = t_{i}}^{{n, t}_{now}} {view}_{j}} - - - (1) \\ Q_{i} = \frac{{useful}_{i}}{{view}_{i}} - - - (2) \\ T_{i} = 1 + λ (\frac{t_{i} - t_{0}}{t_{now} - t_{0}}) - - - (3) \end{matrix}

其中：H_i为本条评论的评论热度:userful_i是其他用户认为此评论为有效评论，view_i则是指此评论被浏览次数；Q_i为评论质量；T_i为时间维度：t_i是该条评论发布时间，t₀为评论的原始话题发布时间，t_now则指评论排序的当前时间，其中λ为0到1之间的常数；

依据评论的信息相关性（S）和用户节点的权重(W)以及质量与评价的时间，对评价的得分进行排序。本例排序算法如下：

FS=a*S+(1-a)*[b*(T+Q+H)+(1-b)*W]；（4）

其中a、b为0到1之间的常数。

下面给出简单示意的例子，其中取λ=0.5，a=0.55，b=0.6。例如，温岭杀医有关话题的一篇微博发布时间为2013/11/11，共有2条评论，当前时间为2013/12/30。评论1：发布时间为2013/11/30共有50人浏览，30人认为有用，与该文微博的相关性为0.9，发布评论人的用户信誉为0.8。评论2：发布时间为2013/12/18共有19人浏览，8人认为有用，与该文微博的相关性为0.7，发布评论人的用户信誉为0.5。

将评论1、2的数据，则根据公式（1）、（2）、（3）分别得出H_i，Q_i，T_i.，并根据（4）求出最终结果：FS₁=1.11，FS₂=1.175,故FS1<FS2则认为评论2更为有效。

步骤5：读取已处理的话题数据和情感词典，根据情感词典和语法模式库，从语料中抽取情感特征，构造话题分类训练数据集；使用朴素贝叶斯分类算法训练，得到话题观点情感倾向性分类模型；

详细的说，例如得到有温岭杀医有关话题的微博2000篇，其中利用贝叶斯定理来预测一个未知类别的样本的可能属性，选择其可能性最大的类别作为样本的类别。本文选取多项式贝叶斯分类算法进行实验，给定类别Y的情况下，观察到联合的W₁、W₂、...、W_n的概率为：

P (ω_{1}, ω_{2}, . . . . . ., ω_{n} | Y) = Π_{i = 1}^{n} P (ω_{i} | Y) - - - (5)

即该微博t属于某一类的概率，设该t的特征值为w₁,w₂,...,w_n，现有M个分类C₁,C₂,...,C_M，由于情感分类是正负两元分类，故M=2。根据贝叶斯公式，得该t属于类C_i的概率P{C_i|t}为：

P {C_{i} | t} = \frac{P {t | C_{i}} P (C_{i})}{P (t)} = \frac{Π_{j = 1}^{N} P {ω_{j} | C_{i}} P (C_{i})}{Σ_{i = 1}^{M} Π_{j = 1}^{N} P {t | C_{i}} P (C_{i})} - - - (6)

其中，P(C_i)为C_i该类下的微博数除以训练集全部的微博数，P{ω_j|C_i}为W_j在C_i类的特征值中出现的次数除以C_i类中特征值的总数。如果P{ω_j|C_i}为0，则进行平滑处理，赋为一个很小的概率count(t)为训练集中全体的微博数。

步骤6：读入温岭杀医有关话题的微博待情感分类的子话题；通过自然语言处理，得到经中文分词和词性标注好的子话题；根据情感词典和语法模式库，从子话题中抽取情感特征，构造测试数据集；分类器读取测试数据和已训练好的话题情感分类模型，得到公众对此子话题的情感多数为负面、消极，保存情感分类结果；

步骤7：话题观点情感倾向性识别后，对其话题进行真伪倾向性分类；构造用户信誉度、URL信誉度、权威结论集等数据集；其中将政府网站和其它官方网站发布的资料、公告，以及公认的真理作为权威结论集。URL信誉度是改进后UCI数据集，代表对网页信誉的排名。

用户信誉度，对于步骤3中获得的基于用户网络，根据社会化分析理论，对基于用户构造成的拓扑网络进行拓扑分析和中心度分析；依照分析拓扑和中心度的指标后，确定活跃用户节点或是网络言论领导者，并设置权重提取该用户有关的言论、评论，作为评价依据，对言论的真假和评论的分值计算出信誉度。

使用朴素贝叶斯分类算法，用户信誉度、URL信誉度、权威结论集作为参数，通过训练得到话题真伪分类模型；

步骤8：读入“温岭杀医”待真伪分类的有关子话题；根据从话题中抽取特征，结合步骤7中的URL信誉、权威结论集、用户构造测试数据集；分类器读取测试数据和已训练好的分类模型，得出分类结果，如图6。认为此话题的为真实发生的事情，保存“温岭杀医”话题预测结果为真；

步骤9：对“温岭杀医”话题进行解析，得到“温岭杀医”子话题集；调用对每个子话题进行分类得到的情感分类结果；根据子话题之间的相似度，构建LexRank图模型，利用所构建的图模型，计算子话题的重要性和冗余度，再根据子话题得出分类结果，如图5所示。最终得打“温岭杀医”话题情感为负面的情感；

步骤10：结合“温岭杀医”话题情感倾向性分类结果：负面；“温岭杀医”真伪性分类结果：真实。绘制表格，作为辅助分析。如下表，结合本案例“温岭杀医”，我们得出有关部门应当采取一定措施、做出预案和危险预警等。

Claims

1.一种基于web文本的观点挖掘与分类的方法，其特征在于：

步骤1、初次获取web信息，初步处理并存入数据库：

步骤3、根据话题中时间窗口和话题数量，提取出话题的摘要和关键词，计算话题数量与时间窗口的比值，分值由大到小排列；取分值超过某个阈值以上的话题作为热点话题，呈现给用户；

步骤4、对已知的热点话题进行二次专题网络抓取，结合利用发帖人ID，构造热点话题的用户拓扑网络，并对每个热点话题内的每个子话题的评论建立倒排索引；

步骤8、读入待真伪分类的子话题；根据从话题中抽取出的情感特征，结合步骤7中的URL信誉、权威结论集；分类器读取测试数据和已训练好的分类模型，输出子话题真伪性分类的预测结果；

步骤10：结合情感倾向性分类结果：正面、负面；真伪性分类结果：真实、伪造；绘制表格，作为辅助分析，挖掘出观点的影响因子。

2.如权利要求1所述的一种基于web文本的观点挖掘与分类的方法，其特征还在于，热点话题的二次网络抓取的过程包括：

(1)根据热点话题的关键词，用网络爬虫应用程序接口获取此热点话题相关的文本数据，预处理数据，热点话题即是中心话题，子话题就是中心话题相关的衍生话题，从网页中分离出用户评论数据；

(2)针对SNS、BBS网络的结合用户ID，构造出基于此热点话题的用户的拓扑网络，根据社会化分析理论，对基于用户构造成的拓扑网络进行拓扑分析和中心度分析；依照拓扑分析和中心度分析所得的指标确定活跃用户节点或是网络言论领导者，并设置权重；

(3)定制情感字典，包括：否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典；对评论分句计算单句情感指数，累计整条评论的感情指数获得最终感情指数，确定正反性；

(4)以评论中的关键词作为索引依据；对评论的得分进行排序,截取一定排名内，作为带有权重的有价值评论：

信息相关性公式如下：

其中，这里的t是指包含域信息的项；tf(t)为t在文档中出现的词频；idf(t) 为t在几篇文档中出现过；b(t.field)为域的加权因子，在插入文档中设置； numTerms为词的个数，一个域中包含的t总数越多，也即文档越长，此值越小，文档越短，此值越大；

依据评论的信息相关性similar_i和用户节点的权重W_i以及质量与评价的时间，对评价的得分进行排序得到最终的排序结果Fs_i；排序算法如下：

Fs_i＝α*similar_i+(1-α)*fun(T_i,H_i,W_i,β)

其中，fun(T_i,H_i,W_i,β)代表评论i品质的函数，具体实现依据不同的情况；α、β为0到1之间的常数。