CN104965823A

CN104965823A - 一种基于大数据的观点抽取方法

Info

Publication number: CN104965823A
Application number: CN201510459157.5A
Authority: CN
Inventors: 肖会
Original assignee: CHENGDU DINGZHIHUI SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: CHENGDU DINGZHIHUI SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2015-10-07

Abstract

本发明提出了一种大数据的观点抽取方法，所述方法包括：步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集；步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理，然后进行标点符号处理、表情字符处理和停用词处理，最后得到用于表示文本的特征项；步骤S300，话题抽取，基于预处理后的网络数据，从中抽取出话题；步骤S400，对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而确定对于话题的观点。本发明采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析。

Description

一种基于大数据的观点抽取方法

技术领域

本发明涉及数据处理领域，具体涉及一种基于大数据的观点抽取方法。

背景技术

随着Web2.0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可以自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代，任何的意见、想法都可能影响一大批人，形成网络舆论。现阶段越来越多的事件表明：网络舆论在影响社会舆论发展趋势，甚至已经作为一种主要社会舆论的方式。网民在网络上有意识或者无意识表达出来的民情民意，对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。

热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一，从互联网数据中，主要是新闻，博客，论坛，社交网站和搜索日志等数据中获取热点特征组或者与行为短语，进行抽象提取，从而得到热点话题。由于传统博客、微博和社交网站上存在与日俱增的话题和数据，热点话题可以提供给用户搜索关键词参考，例如，Baidu搜索引擎中的热点话题推荐，将获取的热点话题进行推荐，并能时时更新。这些无疑促使热点新闻成为舆论的焦点，广泛的影响大众的视线，引导大众舆论，一定程度上体现民众的社会政治态度。面对多元化的网络舆情表达诉求，倘若不加引导，负面的网络舆情将会对社会的公共安全造成一定的危害。

综上所述，进行网络舆情分析，实时把控舆情态势，形成正面的网络舆情环境，对于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与分类的方法还是不多，与即时的发现热点、分析处理并评估舆论的要求尚有距离，因此，有必要提供一种基于文本观点挖掘与分类的方法。此方法应用在及时发现并监控网络舆情的热点话题，有利于让民众实时了解社会热点信息，为政府及相关部门制定政策提供辅助支持。加强信息的梳理，保证舆情的及时、准确和全面，可以有效的预防不良信息的传播。

此外，随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台，其核心包括HDFS(Hadoop DistributedFiles System，Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上，搭建分布式集群，构成分布式系统。HBase(Hadoop DataBase，Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统，主要用来存储非结构化和半结构化的松散数据。

发明内容

为解决现有技术中存在的问题，本发明提出一种基于大数据的观点抽取方法。

本发明提出的一种基于大数据的观点抽取方法，包括：

步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集，所述数据采集是由网络爬虫来实现的；通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现；

步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理，然后进行标点符号处理、表情字符处理和停用词处理，最后得到用于表示文本的特征项；

步骤S300，话题抽取，基于预处理后的网络数据，从中抽取出话题；

步骤S400，对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而可以确定对于话题的观点。

其中，步骤S200进一步包括：

高质量词汇提取，步骤S200所得到的每一个特征项都隐含一个质量值，其反应特征项在文本中的贡献度，特征项t的质量Q(t)表示为：

Q (t) = l_{t}^{2} (Σ_{i = 1}^{N} f_{i}^{2} - \frac{1}{N} (Σ_{i = 1}^{N} f_{i})^{2}),

其中，N表示所有文档的数量，f_i表示文档特征项t在文档i中出现的次数，l_t表示特征项t的长度，

设定阈值Q,对于Q(t)>Q的特征项予以保留，否则删除。

其中，步骤S300包括：对步骤S200预处理得到的文本进行文本聚类，利用层次聚类算法计算每个类中文本对象的均值,得到k-means算法的初始聚类中心。利用k-means算法通过重新计算每个文本对象与聚类中心的距离,修正层次聚类结果中文本对象的归属类，算法步骤如下:

(1)确定聚类中心的个数k；

(2)利用层次聚类的方法对数据集进行层次聚类分析,得到k个类的均值,将它们作为k-means的初始聚类中心；

(3)计算每个文本对象与聚类中心的距离,将文本对象划分到离该文本对象最近的聚类中心所代表的簇；

(4)利用得到的值重新计算每个簇的聚类中心；

(5)重复(3)和(4),直到每个文本对象所属的类不再变化为止；

聚类结果所得到的类即确定为话题。

优选的，本发明进一步包括：

确定热点话题，通过下列公式计算步骤S300所得到的话题的热度，

R_i＝α₁·RF_i+α₂·RT_i+α₃·CN_i+α₄·DN_i,

其中，R_i表示话题i的热度，RF_i：表示话题i的报道频率，RT_i：表示在预定的N天时间内，对话题i的报道天数和所有天数的比值，CN_i：表示话题i在预定天数内的网民对它的点击阅读数量，DN_i：表示话题i在预定天数内的网民对它的评论数；α₁、α₂、α₃、α₄为权重系数；当R_i大于给定阈值R时，将话题i确定为热点话题。

优选的，本发明中所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，对于博客、微博、论坛、新闻报道网页的数据是分别独立进行话题抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点话题集合分别为BLOG、M-BLOG、BBS、NEWS，计算BLOG、M-BLOG、BBS、NEWS的交集，所得到的结果确定为第一热点话题集合，计算BLOG、M-BLOG、BBS、NEWS其中每三个集合的交集，所得到的所有结果的和减去第一热点话题集合确定为第二热点话题集合，计算BLOG、M-BLOG、BBS、NEWS其中每二个集合的交集，所得到的所有结果的和减去第一热点话题集合以及第二热点话题集合确定为第三热点话题集合，集合BLOG、M-BLOG、BBS、NEWS的和减去第一热点话题集合、第二热点话题集合以及第三热点话题集合的结果确定为第四热点话题集合。

本发明采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析；并通过对不同数据源数据分别进行计算分析，得到不同数据源的热点话题，进而进一步确定话题的热度，从而能够更加客观的得到当前热点话题。本发明为党政机关、大型企业等单位和组织及时发现网络敏感信息、掌握网络舆情热点、把握网络舆情趋势、应对网络舆情危机提供自动化、系统化和科学化的信息支持。有效提高了所述网络舆情监测系统判断的准确性，为网络微信舆情信息的后续处理提供了更为真实、准确的基础。

附图说明

图1为本发明观点抽取的流程图；

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

参见图1，本发明提出的一种基于大数据的观点抽取方法。本发明以下实施方式主要是以数据源为微博的情况为例进行说明，对于数据源为博客、新闻报道网页、论坛等情况，本领域技术人员能够根据所给出的方法以及本领域的公知技术进行实施。

步骤S100，数据采集

基于分布式云计算方式对网络数据进行数据采集，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，并对所述网络数据按照博客、微博、论坛、新闻报道网页几个类别进行标注，并按所述类别分别存储所述网络数据；其中，新闻报道网页是指腾讯新闻、新浪新闻等门户网站以及例如人民日报等新闻媒体网站所提供的报道新闻的网页。

所述数据采集是由网络爬虫来实现的。通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现。

步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，

首先对采集的网络数据进行分词和词性标注处理；

由于微博文本格式自由,具有内容简短和碎片化的特点,为了便于进行分析,需要对微博内容进行规范化处理。

(1)标点符号处理

在微博中,经常会出现标点符号组合使用或标点符号连用的情况。这种用法虽然不符合语法规则,但在微博中却往往被用来表达一些单个符号难以表达的情感。例如“～”在文本中往往表达一种感情的起伏和延伸。如“真高兴啊～～～！”。为了在微博文本处理中能够反映出表达者的语气和强度。需要对于标点符号组合及连用情况进行标记。

(2)表情字符处理

在微博中经常会出现一些用来体现表情的字符或字符组合。例如--！表示尴尬等。这类符号往往包含了微博用户的情感或态度倾向。针对这类字符,通过建立一个包含主要表情符号的映射表来进行标注。由于这些表情字符集中在少数几类,例外较少,我们采取统计计算方式为其中绝大多数符号建立映射,并进行人工评价标注,赋以情感极性权重。

(3)停用词处理

在基于SVM的自动分类中,停用词是没有实义的虚词和类别色彩不强的中性词,这类词的出现频率相对较高。对它们单独进行有效处理能够提高词语切分速度及提高后续分析的质量。词语切分时对这些词仍然需要进行标记。为了能够正确处理停用词,需要使用到停用词表。真假停用词表的构造和停用词的识别是停用词处理的的关键。目前,停用词表的建立由人工方式和基于统计的机器学习方式来完成。机器学习的方法从语料中统计出高频词自动构造停用词表,或从初步的分词中获得停用词并在后续分词中不断更新和验证。

步骤S300，话题抽取，基于预处理后的网络数据，从中抽取出热点话题；

微博具有短小精悍的特点，微博的准发字数的最高限制是140字，也就是说要在这个限制之内把意思表述清楚。所谓的文档集是指每一条微博，微博数量成千上万条，所以文档集的数量也是巨大的。热点话题发现是指把庞大的微博信息分门别类，找到社会议论的热点，探讨民众所持有的感情色彩，随时了解民众诉求。

文本聚类技术是话题发现和跟踪的基础，好的聚类会产生准确的分类，降低大类现象。文本聚类主要包括特征提取、文本表示、文本聚类、观点挖掘四个步骤。

所谓文本的特征是指文本中能够传递文本信息和语义的词汇和字符的总称。未经处理的文本其特征是不明显的，需要人工干预，使用一定的方法从文本中提取出来。特征提取是为了使得文本向量的维度尽量的变小，使得计算机处理信息的速度和效率提高。特征提取主要包括两个主要的步骤：预处理、高质量词汇提取。文档预处理主要三部分：去停用词、词性过滤、无效词条过滤。去停用词首先建立一个停用词词典，然后匹配去除那些出现频率很高但是有没有实际意义的词，例如“的”“了”“吗”等。词性过滤建立在词性标注的基础上，对不同性质的词汇分门别类的处理，实验证明，形容词和副词对聚类的效果的提高没有太大的改善，所以应予以去除，只保留名词、动词和缩略词。

经过预处理之后的词汇量仍然巨大，所以仍需要进行第二个步骤，高质量词汇提取。文档中的每一个特征项都隐含一个质量值，所谓质量值主要是基于特征项的词频特征，反应特征项在文本中的贡献度。质量越大，说明贡献越大，可以留下用于文本聚类；反之，则剔除。

特征项t的质量Q(t)表示为：

Q (t) = l_{t}^{2} (Σ_{i = 1}^{N} f_{i}^{2} - \frac{1}{N} (Σ_{i = 1}^{N} f_{i})^{2}),

设定阈值Q,对于Q(t)>Q的特征项予以保留，否则删除。

向量空间模型把文本表示成特征项组成的多维空间，每个特征项作为空间中的一维，这样文本模型可以表示如下：

d＝{t₁,t₂,……,t_n}，其中n代表特征项的数目。

K-means聚类算法是一种广泛使用的聚类算法,它将各聚类子集内所有样本的均值作为聚类中心,通过迭代过程将数据划分到不同类别,使评价聚类性能的函数达到最优。这种算法对于处理连续型的长文档有较好的聚类效果,但算法对于噪声和孤立点数据很敏感,少量这样的数据会对均值产生很大的影响,对于微博文本这种具有离散型属性和数据稀疏特点的数据,聚类效果并不理想。

层次聚类算法是另一种应用广泛的聚类算法。这种算法对给定的数据对象集合进行层次分解。按照层次的形成方式,又分为凝聚的层次聚类算法和分裂的层次聚类算法。层次聚类算法可以有效地控制噪声,降低了孤立点数据对于聚类结果的影响。但是,层次聚类算法也存在缺陷,在聚类过程中一旦一个分裂或合并被执行,就不能修正。若聚类过程中某一步骤出现差错,那么这样的错误将会被延续,层次化的迭代运算使误差不断累积,导致聚类结果较差。

为了有效克服这两种算法存在的缺陷,同时充分利用它们各自在文本聚类上的优势,我们将这两种算法结合起来进行文本聚类。利用层次聚类算法计算每个类中文本对象的均值,得到k-means算法的初始聚类中心。利用k-means算法通过重新计算每个文本对象与聚类中心的距离,修正层次聚类结果中文本对象的归属类。算法步骤如下:

(1)确定聚类中心的个数k；

(4)利用得到的值重新计算每个簇的聚类中心；

(5)重复(3)和(4),直到每个文本对象所属的类不再变化为止。

上述算法中的文本对象，即为所述网络数据中的文档(文本d)。

上述聚类结果所得到的类即确定为话题。

热点话题就是以互联网为传播媒介,被大众人群广泛关注,并会在很短的时间内会广泛传播蔓延持续一段时间的,能够反映出互联网舆情的信息集合,其中也包括对互联网热点话题在内的语义化描述以及包括话题的传播方式等。互联网热点话题通常是被广大网民重点关注的信息,相关的信息会在网络中大频率的出现,其中热点词语比较能直接的描述出热点话题的大体内容,一个热点话题必有多个热点话题的特征量来描述,且这些特征量之间具有一定的相似度。

热点话题的特征量有:

话题的报道频率；对于一个比较重要的话题,媒体对它的相关报道将会比平时的增加,那么这个报道频率也会影响到热点话题的关注度,也就是说在一段时间内关于某一个话题的报道数量与报道总数的比值,比值越大,则话题的所受的关注度就越高。

话题的持续时间；对于一个热点话题,如果媒体对它的报道持续时间越长,并引发网民讨论的时间也长,那么也就说明该话题受关注的程度越大。因为每一个话题具有自己的受关注时间属性,我们定义话题的起始时间即为话题刚开始的时间,消亡时间就是当话题的报道低于某个阈值的时刻,因此,把事件的时间的跨度定义为这话题开始时间和消亡时间之差。

话题的阅读量；因为某热点话题的报道大多来自WEB站点,那么点击阅读到话题相关报道的网民越多,也就说明该话题受到的关注度越大,我们就可以用热点话题的相关报道的点击阅读数量来记录话题的关注度。

话题的评论数；如果互联网上网民对某一热点话题的评论数量越多,也能够说明话题的评论数也是影响话题相关度的一个因素。

本申请中对于每个文本，都会标注文本的报道时间(比如新闻报道时间，博客、微博、论坛的发表时间)、文本的点击次数、文本的评论数目，根据文本的报道时间可以确定聚类后得到的话题的报道频率、话题的持续时间；根据文本的点击次数可以确定聚类后得到的话题的阅读量，根据文本的评论数目可以确定聚类后得到的话题的评论数

RF_i：表示话题i的报道频率；

RT_i：表示在预定的N天时间内,媒体对有关话题i的有效报道天数和所有天数的比值,当一天内关于话题i的报道数量大于某一个阈值时,我们即认定该天就为话题i的有效报道天数；

CN_i：表示话题i在预定天数内的网民对它的点击阅读数量；

DN_i：表示话题i在预定天数内的网民对它的评论数；

话题热度计算公式：

R_i＝α₁·RF_i+α₂·RT_i+α₃·CN_i+α₄·DN_i,

R_i表示话题i的热度，α₁、α₂、α₃、α₄为权重系数，当R_i大于给定阈值R时，将话题i确定为热点话题。

对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而可以确定对于话题的观点。

本发明对于博客、微博、论坛、新闻报道网页的数据是分别独立进行话题抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点话题集合分别为BLOG、M-BLOG、BBS、NEWS，计算BLOG、M-BLOG、BBS、NEWS的交集，所得到的结果确定为第一热点话题集合，计算BLOG、M-BLOG、BBS、NEWS其中每三个集合的交集，所得到的所有结果的和减去第一热点话题集合确定为第二热点话题集合，计算BLOG、M-BLOG、BBS、NEWS其中每二个集合的交集，所得到的所有结果的和减去第一热点话题集合以及第二热点话题集合确定为第三热点话题集合，集合BLOG、M-BLOG、BBS、NEWS的和减去第一热点话题集合、第二热点话题集合以及第三热点话题集合的结果确定为第四热点话题集合。

由于博客、微博、论坛、新闻报道网页所反映的关注点可能会有所差异，所以当博客、微博、论坛、新闻报道网页同时关注的内容应该是热度最高的内容，博客、微博、论坛、新闻报道网页中三个同时关注的内容热度次之，博客、微博、论坛、新闻报道网页中二个同时关注的内容热度又次之，博客、微博、论坛、新闻报道网页中只有一个关注的内容热度相对最低。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于大数据的观点抽取方法，包括：

步骤S400，对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而确定对于话题的观点。

2.如权利要求1所述的基于大数据的观点抽取方法，其中，步骤S200进一步包括：

Q (t) = l_{t}^{2} (Σ_{i = 1}^{N} f_{i}^{2} - \frac{1}{N} (Σ_{i = 1}^{N} f_{i})^{2}),

设定阈值Q,对于Q(t)>Q的特征项予以保留，否则删除。

3.如权利要求1所述的基于大数据的观点抽取方法，其中，步骤S300包括：对步骤S200预处理得到的文本进行文本聚类，利用层次聚类算法计算每个类中文本对象的均值,得到k-means算法的初始聚类中心。利用k-means算法通过重新计算每个文本对象与聚类中心的距离,修正层次聚类结果中文本对象的归属类，算法步骤如下:

(1)确定聚类中心的个数k；

(4)利用得到的值重新计算每个簇的聚类中心；

(5)重复(3)和(4),直到每个文本对象所属的类不再变化为止；

聚类结果所得到的类即确定为话题。

4.如权利要求3所述的基于大数据的观点抽取方法，进一步包括：

R_i＝α₁·RF_i+α₂·RT_i+α₃·CN_i+α₄·DN_i,

5.如权利要求1所述的基于大数据的观点抽取方法，其中，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，对于博客、微博、论坛、新闻报道网页的数据是分别独立进行话题抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点话题集合分别为BLOG、M-BLOG、BBS、NEWS，计算BLOG、M-BLOG、BBS、NEWS的交集，所得到的结果确定为第一热点话题集合，计算BLOG、M-BLOG、BBS、NEWS其中每三个集合的交集，所得到的所有结果的和减去第一热点话题集合确定为第二热点话题集合，计算BLOG、M-BLOG、BBS、NEWS其中每二个集合的交集，所得到的所有结果的和减去第一热点话题集合以及第二热点话题集合确定为第三热点话题集合，集合BLOG、M-BLOG、BBS、NEWS的和减去第一热点话题集合、第二热点话题集合以及第三热点话题集合的结果确定为第四热点话题集合。