CN104965931A

CN104965931A - 一种基于大数据的舆情分析方法

Info

Publication number: CN104965931A
Application number: CN201510458969.8A
Authority: CN
Inventors: 张鹏
Original assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2015-10-07

Abstract

本发明提出了一种基于大数据的舆情分析方法，包括：步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集；步骤S200，数据预处理；步骤S300，事件抽取；步骤S400，热点事件抽取；步骤S500，舆情分析。本发明采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析。

Description

一种基于大数据的舆情分析方法

技术领域

本发明涉及数据处理领域，具体涉及一种基于大数据的舆情分析方法。

背景技术

随着Web2.0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可以自由发布自己的观点想法和对任何事件进行评论。网络给人们提供了前所未有的开放、便捷的信息共享与发布平台，越来越多的人通过网络来表达自己的意见、想法、情绪和态度，其中既包括对对事件的发展有着正面、积极作用的信息，也包括一些负面、消极的信息。同时，网络平台的开放性、直接性和隐蔽性使得网络舆论越来越重要地影响人们的意识形态。因此，对大量舆情信息的及时有效监控分析，对维护社会稳定、促进国家发展具有重要的现实意义。

在日常生活中，突发事件频繁发生，用户越来越习惯于利用社交网络(例如博客、论坛、twitter，Facebook等)来发表自己的观点和情感。然而，用户对事件的情感并非保持一成不变，而是随着时间的变化或者事件的发展而不断演化，逐渐变强或者变弱，甚至从一种情感转化到另一种情感。如何实时在线检测用户对突发事件的情感演化过程具有十分重要的意义。对于企业而言，可以通过对消费者购买产品后情感的持续跟进，及时发现产品的缺点及不足。对于社会和政府工作者而言，通过分析用户对事件的情感变化情况，可对突发事件及时做出回应，甚至预测事件的发展趋势，从而快速发现不良苗头，并进行合理引导，将不良信息的影响程度降低到最小。

此外，随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台，其核心包括HDFS(Hadoop DistributedFiles System，Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上，搭建分布式集群，构成分布式系统。HBase(Hadoop DataBase，Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统，主要用来存储非结构化和半结构化的松散数据。

发明内容

为解决现有技术中存在的问题，本发明提出一种基于大数据的舆情分析方法。

本发明提出的一种基于大数据的舆情分析方法，包括：

步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集；

步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理；

步骤S300，事件抽取，基于预处理后的网络数据，从中抽取出事件。

其中，步骤S100包括：所述数据采集是由网络爬虫来实现的；通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现。

其中，步骤S200包括：首先对采集的网络数据进行分词和词性标注处理；然后,根据停用词列表,对分词后的结果进行停用词过滤；最后得到用于表示文档的特征项

所述的基于大数据的舆情分析方法，还包括：

步骤S400，热点事件抽取，从步骤S300中抽取的事件中再次抽取出热点事件；

步骤S500，舆情分析，对步骤S400中抽取的热点事件进行演化分析，从而得到舆情趋势。

其中，步骤S500包括：

对事件所包含的文档集合D＝{d₁,d₂,…d_i,…}，按照文档发表的时间进行聚类，得到该事件不同时间点所对应的文档数量，将聚类结果以坐标图的形式展示给用户，坐标横轴表示时间，坐标纵轴表示文档数量。

其中，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，对于博客、微博、论坛、新闻报道网页的数据是分别独立进行事件抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点事件集合分别为BLOG、M-BLOG、BBS、NEWS，计算BLOG、M-BLOG、BBS、NEWS的交集，所得到的结果确定为第一热点事件集合，计算BLOG、M-BLOG、BBS、NEWS其中每三个集合的交集，所得到的所有结果的和减去第一热点事件集合确定为第二热点事件集合，计算BLOG、M-BLOG、BBS、NEWS其中每二个集合的交集，所得到的所有结果的和减去第一热点事件集合以及第二热点事件集合确定为第三热点事件集合，集合BLOG、M-BLOG、BBS、NEWS的和减去第一热点事件集合、第二热点事件集合以及第三热点事件集合的结果确定为第四热点事件集合。

本发明采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析；并通过对不同数据源数据分别进行计算分析，得到不同数据源的热点话题，进而进一步确定话题的热度，从而能够更加客观的得到当前热点话题。本发明为党政机关、大型企业等单位和组织及时发现网络敏感信息、掌握网络舆情热点、把握网络舆情趋势、应对网络舆情危机提供自动化、系统化和科学化的信息支持。有效提高了所述网络舆情监测系统判断的准确性，为网络微信舆情信息的后续处理提供了更为真实、准确的基础。

附图说明

图1为本发明基于大数据的舆情分析方法的流程图；

图2为基于图的文本表示的示例图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

参见图1，本发明提出的一种基于大数据的舆情分析方法。

步骤S100，数据采集

基于分布式云计算方式对网络数据进行数据采集，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，并对所述网络数据按照博客、微博、论坛、新闻报道网页几个类别进行标注，并按所述类别分别存储所述网络数据；其中，新闻报道网页是指腾讯新闻、新浪新闻等门户网站以及例如人民日报等新闻媒体网站所提供的报道新闻的网页。

所述数据采集是由网络爬虫来实现的。通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现。

步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理；然后,根据停用词列表,对分词后的结果进行停用词过滤；最后得到用于表示文档的特征项；

经过预处理之后的词汇量仍然巨大，所以仍需要进行第二个步骤，高质量词汇提取。文档中的每一个特征项都隐含一个质量值，所谓质量值主要是基于特征项的词频特征，反应特征项在文本中的贡献度。质量越大，说明贡献越大，可以留下用于文本聚类；反之，则剔除。

特征项t的质量Q(t)表示为：

Q (t) = l_{t}^{2} (Σ_{i = 1}^{N} {f_{i}}^{2} - \frac{1}{N} {(Σ_{i = 1}^{N} f_{i})}^{2}),

其中，N表示所有文档的数量，f_i表示文档特征项t在文档i中出现的次数，l_t表示特征项t的长度，

设定阈值Q,对于Q(t)>Q的特征项予以保留，否则删除。

为了进行各种比较、聚类等文本处理，需要使用一定的模型来表示文本。最常用的文本表示模型是向量空间模型，它把文本表示成特征项组成的多维空间，每个特征项作为空间中的一维，这样文本模型可以表示如下：

d＝{t₁,t₂,……,t_n}，其中n代表特征项的数目。

向量空间模型虽然包含了较多的信息,不过没有包含文档的结构化信息，基于图的文本表示模型,与向量空间模型相比,包含了一些结构化信息，其有利于文本的聚类。标准的图的表示模型中，一篇文档的每个句子分别表示成一个子图,这些子图一起表示这篇文档。标准的图的表示模型的具体表示方法如下:

文档中某个句子中出现的词(不包括停用词)对应相应子图的一个顶点,同时该顶点以该词标一记；该句中紧紧相邻的两个词对应一条边,同时该边根据它邻接的两个顶点对应的两个词都出现在标题部分或者都出现在正文部分,分别标记为“TI”或“TX0”。文档中重复出现的词只对应一个顶点。

参见图2，例如:有一篇文档D,由标题“abcd”和文本“aefg”,字母a,b,c,d,e,f和g表示文档D中的7个不同的单词。因此,相应的子图中有7个分别标记a,b,c,d,e,f,g和六条有向边。

本发明采用标准的图的表示模型对经过数据预处理的网络数据进行表示。这种基于图的文本表示方法不但记录了文档中出现的词及该词出现的次数(词频),还记录了这些词出现的先后次序。

有了文档的表示方法，对于两篇文档的比较就转化为对图的相似性度量，这也是进行文档聚类的基础。图的相似性度量的基本思想:用一个取值范围为[0,l]的函数的值表示两个图的相似性，函数值的大小反映两图的相似程度，值越大表示两个图越相似，当两个图完全相同时,函数取值为1；反之,取值为0。图的相似性计算函数主要有:基于最大公共子图的相似函数,基于图合并的相似函数,基于图合并的未规范化的相似函数,基于最大公共子图和最小公共超图的相似函数,基于最大公共子图和最小公共超图的未规范化的相似性函数等。

典型的基于最大公共子图的相似函数(The Graph Similarity Measure Based on theMaximum Common Subgraph,MCS):

{Sim}_{M C S} (G_{1}, G_{2}) = 1 - \frac{| m c s (G_{1}, G_{2}) |}{\max (| G_{1} |, | G_{2} |)},

其中，G₁和G₂表示两个待比较的图，mcs(G₁,G₂)表示G₁与G₂的最大公共子图，也就是G₁与G₂中相同的顶点和边组成的图；|…|表示图的大小,也就是图的所有顶点的数目和所有边的数目之和，max(...)是一个常用的求最大值的操作。

基于图合并的相似性函数(The Graph Similarity Measure Based on the Idea of

Graph Union,WGU):

{Sim}_{W G U} (G_{1}, G_{2}) = 1 - \frac{| w g u (G_{1}, G_{2}) |}{| G_{1} | + | G_{2} | - | w g u (G_{1}, G_{2}) |},

基于图合并的意思是指公式中分式的分母表示集合理论意义上的两个图的并的大小，|G₁|+|G₂|得到两个图的大小之和，然后减去它们的并集即|wgu(G₁,G₂)|，就得到了它们的并的大小。

传统的事件抽取算法对于每天新来到的报道,就将它们分别与之前所有已发现的事件做相似度比较,如果新报道与某个事件的相似度大于阈值,则将其归入该事件；否则,则该报道成为一个新事件，这是事件检测的一个基本模式,然而,这个模式却没有利用时间信息,从日常看新闻报道可以知道,新闻报道有这么一个规律:同一事件的报道,会集中在某一段时间内(特别是某一天内)发布出来,这是新闻流中的一种常见现象,称为/边缘效应,就是说在新闻流中,相对于发布时间离得比较远的报道,那些发布时间离得近的报道,更有可能是在讨论同一个事件，如何利用这个规律来提高事件检测的准确性,是一个需要考虑的问题,在此基础上,本发明提出了一种考虑时间特性进行聚类的事件检测算法。

算法的基本思想是:如果对每一天(或者定义的其他时间单位，比如每分钟、每小时、每个月)来到的报道先做一次局部聚类的话,会更有可能将相关的报道划分到一起，在这个局部聚类的基础上,再进行一次聚类:将局部聚类出来的新事件和以前聚类出来的旧事件,再进行一次聚类操作,这次聚类操作的目的,是将相近的事件进行归并。最后得出来的结果,也就是最终结果。

算法的第一步,是将每天(或者定义的其他时间单位，比如每分钟、每小时、每个月)新来到的报道作一次局部聚类,从而得出每天的局部事件,称之为候选事件集，算法的描述如下:

输入:新报道的集合NewReportSet

输出:聚类后的事件集合NewTopicSet

(1)首先对已经经过预处理的所有报道(每个报道都是一篇文档)使用标准的图的表示模型进行文本表示；

(2)按时间顺序对报道进行排序；

(3)取第一篇报道,作为第一个事件；

(4)对剩余的报道,依次与现有的事件做相似度计算,所述相似度计算采用基于最大公共子图的相似函数进行，得到与它最相似的事件以及相应的函数值；

(5)如果函数值大于阈值的话,则插入到该函数值所对应的事件中；并且更新该事件的中心；

(6)如果函数值小于阈值的话,则该报道作为一个新的事件,且它本身就是该事件的中心；

(7)重复(4)～(6)直接所有报道都处理完毕；

(8)将结果保留下来,以便后面进行再次聚类。

做完局部聚类之后,就需要进行再次聚类了,这次聚类称之为归并聚类,目的是将局部聚类之后产生的候选事件集合和以往的旧事件集合进行归并,产生最新的事件集合，因此,整个算法称为基于再次聚类的事件检测算法。

基于再次聚类的事件检测算法的描述如下:

输入:旧事件的集合OldTopicSet,新报道的集合NewReportSet

输出:聚类后的事件集合TopicSet

(1)首先,对NewReportSet中的报道进行局部聚类,聚类后的结果放于NewTopicSet中；

(2)按事件起始时间,对事件集NewTopicSet进行排序；

(3)对事件集NewTopicSet中的所有事件,依次与OldTopicSet中的所有事件进行相似度计算,所述相似度计算采用基于最大公共子图的相似函数进行，得到与它最相似的事件和相应的函数值；

(4)如果函数值小于阈值的话,则将NewTopicSet中的事件作为一个新事件；

(5)如果函数值大于阈值的话,则将该事件从NewTopicSet中移除,加入到OldTopicSet中去；

(6)重复(3)～(5)直到NewTopicSet中所有事件都处理完毕；

(7)将聚类结果保留下来,供下一周期的聚类调用。

上述局部聚类和再次聚类算法采用的是Single-pass算法，但上述算法仅仅是示例性的，本领域技术人员可以采用任何可用的聚类算法来实现上述聚类过程。

步骤S400，事件情感分析，对于步骤S300所抽取的事件进行情感分析。

情感分析，又称意见挖掘，是对有情感倾向的文本进行处理归纳的过程，因其巨大的应用价值而得到广泛的研究，现在已经普遍应用于评价用户对产品的满意程度、预测大选结果、预测金融走势等领域。针对文章倾向性方面的研究已经存在大量的工作，但这些已有方法大多集中于从静态的角度对文本倾向性的研究，重点关注单个文本的情感倾向性，将文本情感分析看作是一个三元分类过程(如，积极/中立/消极)，并未动态地将文章串联起来研究情感的演化趋势。另外，这些方法只是从文本内容的角度进行分析，并未针对突发事件，发现社交网络上群体情感随时间的动态变化趋势。

用户对突发事件的情感态度是多元化、动态化的。传统的三元分类模型并不能很好的刻画这种性质。而且随着微博的迅速发展，文本数据流产生速度非常快，快速准确地发现用户对突发事件的情感变化趋势，实时监测微博流上公众的情感状态，对于舆情引导具有十分重要的意义。

本发明提供了一种情感演化分析方法，该方法主要包括：基于包含多种情感类型的情感模型来确定每个文档消息的情感向量；基于文档的情感向量来分析文档情感演化过程，也就是检测对于特定事件公众情感是否发生变化，以及在哪个时刻处于什么原因而发生了变化。该方法还可包括抽取多个情感词和能够表达用户情感的表情符号，采用基于Hownet语义相似性与检索相似性相结合的算法计算情感词之间的相似性，构建情感词相似性矩阵，然后采用聚类算法将所抽取的情感词聚合为多个类型，从而构建包含多种情感类型的情感模型。

用户对突发时间的情感态度是多元化的、动态化的。传统的三元情感分类模型(积极/中立/消极)并不能很好地刻画这种性质。为此在本发明中通过抽取能够表达用户情感的情感词及网络中用户常用的情感符号，并对这些情感词进行聚类，从而得到包含多种情感类型的情感模型。这是因为很多情感词在语义上非常相近，比如高兴和愉快表示都表示喜悦情绪，愤怒和愤慨都表达了用户的悲愤情绪等。这些词实际上具有非常近的相似性，实际上可以看作相同的情感词。

其中，可以通过多种途径来抽取能够表达用户情感的情感词。例如，可以从词典中抽取能表达情感的词语。又例如，也可以从临床心理学中为检测用户情感而制定的《情感检测表》中抽取能表达情感的词语，目前该情感检测表包括212个形容词。接着，可以采用聚类算法，例如AGNES(Agglomerative Nesting)聚类算法，来对所抽取的情感词进行聚类，以将这些情感词聚合成多个情感类型。AGNES算法最初将每个对象作为一个簇，然后这些簇根据某些准则被一步一步地合并。例如，在簇A中的一个对象和簇B中的一个对象之间的距离是所有属于不同簇的对象之间最小的，AB可能被合并。这是一种单链接方法，其每一个簇都可以被簇中所有对象代表，两个簇间的相似度由这两个簇中距离最近的数据点的相似度来确定。具体到本发明的实施例，初始地，可以将每个情感词看作一个类簇，然后根据情感词之间的相似性来进行聚类。

情感词之间的相似性可以是情感词之间的知网(Hownet)语义相似性。Hownet语义相似性主要用于衡量文本中词语的可替换程度。两个情感词w₁，w₂之间的Hownet的语义相似性计算方法如下：

{Sim}_{H} (w_{1}, w_{2}) = \frac{α}{d + α},

其中d表示在Hownet提供的概念树中这两个情感词w₁，w₂之间的路径的长度，在Hownet提供的概念树中任意两个概念之间有且只有一条路径，这条路径的长度代表两个概念语义的距离。α为正的可调参数，一般取0到1之间的一个数值。又例如，也可以基于检索相似性来计算情感词之间的相似性，因为情感上相近的词，其共同出现的概率较大。基于大规模语料库，两个词之间的检索距离可表示为：

D i s (w_{1}, w_{2}) = \frac{m a x {\log f (w_{1}), \log f (w_{2})} - \log f (w_{1}, w_{2})}{\log N - m i n {\log f (w_{1}), \log f (w_{2})}},

其中，f(w_i)表示语料库中包含情感词w_i的文档数，f(w₁,w₂)表示同时包含情感词w₁，w₂的文档数。故两个情感词w₁，w₂之间的检索相似性可表示为：

{Sim}_{R} (w_{1}, w_{2}) = \frac{α}{D i s (w_{1}, w_{2}) + α}

又例如，也可以基于知网语义相似性与检索相似性相结合的方法来计算情感词的相似性。例如，两个情感词语w₁，w₂之间的相似性可表示为：

Sim(w₁,w₂)＝β*Sim_H(w₁,w₂)+(1-β)*Sim_R(w₁,w₂)，0≤β≤1。

通过上述聚类算法并对这些情感词进行聚类，从而得到了多个类簇，也就是得到了经聚合后的多种情感类型。由此得到包括多个情感类型的情感模型。令E＝<e₁,e₂,…,e_i,…e_m>表示情感模型，其中e_i表示一种情感类型，m表示该情感模型中包含的元素的数目。对于每篇文档d，定义d的情感向量为其中，对于情感模型E中的第i个元素，如果文档d具备该情感类型e_i，实际上就是文档d包含属于该情感类型的情感词，则相应地E_d中第i个元素取值为1，否则取值为0，即：

对于每篇文档d，从其情感向量E_d可以抽取出对应的情感模式R_d，即发表该文档的用户的情感模式，也就是在该文档中用户具备的情感类型的集合，即R_d＝∪e_i，例如，假设文档d的情感向量为〈1，0，0，1，0，0…0〉，则对应的情感模式为(e₁，e₄)，即用户在发布该文档时带有情感e₁和情感e₄。

对于文档情感演化可以从文档的角度和从用户的角度进行分析。

本发明的一个实施例中，从文档的角度出发，检测对于突发事件的情感是否发生了变化。令D＝{d₁,d₂,…d_i,…}为数据流文档集合，例如，可以是与某个突发事件的相关文档的集合；每个d_i表示一篇文档，可以用该文档的发表时间来对该文档进行标记。对于给定的时间段T，假设该时间段T被划分为t₁,t₂,…,t_i,…t_p个子时间段，则根据文档的发表时间，D可以划分成一系列不相交子集D(t₁),D(t₂),…,D(t_i),…D(t_p)，使得

D = \cup_{i = 1}^{p} D (t_{i}),

D(t_i)表示时间段t_i内发表的文档的集合。可以用各种时间粒度来对时间段T进行划分，例如，以1天、1周、1月等为单位。对D的每个子集D(t)，可定义时刻t的情感向量E(t)为t时刻内发表的文档的情感向量的总和，即

E (t) = \underset{d &Element; D (t)}{Σ} E_{d}

从而，判断事件情感是否演化的问题可表示为在数据流D中，给定时刻t₁、t₂，研究其情感向量E(t₁)与E(t₂)的关系。若两向量之间或者向量的某元素之间存在明显差异，则说明情感发生了演化。

此外，从文档角度进行分析，还可以通过构造突发事件的情感演化图来快速地发现用户情感变化趋势。首先，确定待分析的数据流中每个文档的情感向量；然后，按时间粒度t对文档的情感向量进行聚合，得到情感向量E(t)，按从大到小的次序从情感向量E(t)中的元素选择K个元素对应的情感类型作为主流情感来构造情感演化图。其中，时间粒度t可以为小时、天、周等等。例如，假设选择以天为单位进行聚合，那么，某一天的主流情感实际上是根据在这一天中发表的包含该情感的博文数量的多少来选择。该情感演化图横向表示时间，以时间粒度t为单位，纵向为每个时间段所选择的K个主流情感。

步骤S500，热点事件抽取，从步骤S300中抽取的事件中再次抽取出热点事件。

热点事件就是以互联网为传播媒介,被大众人群广泛关注,并会在很短的时间内会广泛传播蔓延持续一段时间的,能够反映出互联网舆情的信息集合,其中也包括对互联网热点事件在内的语义化描述以及包括事件的传播方式等。互联网热点事件通常是被广大网民重点关注的信息,相关的信息会在网络中大频率的出现,其中热点词语比较能直接的描述出热点事件的大体内容,一个热点事件必有多个热点事件的特征量来描述,且这些特征量之间具有一定的相似度。

热点事件的特征量有:

事件的报道频率；对于一个比较重要的事件,媒体对它的相关报道将会比平时的增加,那么这个报道频率也会影响到热点事件的关注度,也就是说在一段时间内关于某一个事件的报道数量与报道总数的比值,比值越大,则事件的所受的关注度就越高。

事件的持续时间；对于一个热点事件,如果媒体对它的报道持续时间越长,并引发网民讨论的时间也长,那么也就说明该事件受关注的程度越大。因为每一个事件具有自己的受关注时间属性,我们定义事件的起始时间即为事件刚开始的时间,消亡时间就是当事件的报道低于某个阈值的时刻,因此,把事件的时间的跨度定义为这事件开始时间和消亡时间之差。

事件的阅读量；因为某热点事件的报道大多来自WEB站点,那么点击阅读到事件相关报道的网民越多,也就说明该事件受到的关注度越大,我们就可以用热点事件的相关报道的点击阅读数量来记录事件的关注度。

事件的评论数；如果互联网上网民对某一热点事件的评论数量越多,也能够说明事件的评论数也是影响事件相关度的一个因素。

本申请中对于每个文本，都会标注文本的报道时间(比如新闻报道时间，博客、微博、论坛的发表时间)、文本的点击次数、文本的评论数目，根据文本的报道时间可以确定聚类后得到的事件的报道频率、事件的持续时间；根据文本的点击次数可以确定聚类后得到的事件的阅读量，根据文本的评论数目可以确定聚类后得到的事件的评论数

RF_i：表示事件i的报道频率；

RT_i：表示在预定的N天时间内,媒体对有关事件i的有效报道天数和所有天数的比值,当一天内关于事件i的报道数量大于某一个阈值时,我们即认定该天就为事件i的有效报道天数；

CN_i：表示事件i在预定天数内的网民对它的点击阅读数量；

DN_i：表示事件i在预定天数内的网民对它的评论数；

事件热度计算公式：

R_i＝α₁·RF_i+α₂·RT_i+α₃·CN_i+α₄·DN_i,

R_i表示事件i的热度，α₁、α₂、α₃、α₄为权重系数，当R_i大于给定阈值R时，将事件i确定为热点事件。

本发明对于博客、微博、论坛、新闻报道网页的数据是分别独立进行事件抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点事件集合分别为BLOG、M-BLOG、BBS、NEWS，计算BLOG、M-BLOG、BBS、NEWS的交集，所得到的结果确定为第一热点事件集合，计算BLOG、M-BLOG、BBS、NEWS其中每三个集合的交集，所得到的所有结果的和减去第一热点事件集合确定为第二热点事件集合，计算BLOG、M-BLOG、BBS、NEWS其中每二个集合的交集，所得到的所有结果的和减去第一热点事件集合以及第二热点事件集合确定为第三热点事件集合，集合BLOG、M-BLOG、BBS、NEWS的和减去第一热点事件集合、第二热点事件集合以及第三热点事件集合的结果确定为第四热点事件集合。

由于博客、微博、论坛、新闻报道网页所反映的关注点可能会有所差异，所以当博客、微博、论坛、新闻报道网页同时关注的内容应该是热度最高的内容，博客、微博、论坛、新闻报道网页中三个同时关注的内容热度次之，博客、微博、论坛、新闻报道网页中二个同时关注的内容热度又次之，博客、微博、论坛、新闻报道网页中只有一个关注的内容热度相对最低。

步骤S600，舆情分析，对步骤S500中抽取的热点事件进行演化分析，从而得到舆情趋势。

对于事件所包含的文档集合D＝{d₁,d₂,…d_i,…}，按照文档发表的时间进行聚类，这样就得到了该事件不同时间点的所对应的文档数量，将聚类结果以坐标图的形式展示给用户，坐标横轴表示时间，坐标纵轴表示文档数量，从中可以看出不同时间点对该事件的关注度。

本发明采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析；并通过对不同数据源数据分别进行计算分析，得到不同数据源的热点事件，进而进一步确定事件的热度，从而能够更加客观的得到当前热点事件。本发明为党政机关、大型企业等单位和组织及时发现网络敏感信息、掌握网络舆情热点、把握网络舆情趋势、应对网络舆情危机提供自动化、系统化和科学化的信息支持。有效提高了所述网络舆情监测系统判断的准确性，为网络微信舆情信息的后续处理提供了更为真实、准确的基础。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于大数据的舆情分析方法，包括：

2.如权利要求1所述的基于大数据的舆情分析方法，步骤S100包括：所述数据采集是由网络爬虫来实现的；通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现。

3.如权利要求1所述的基于大数据的舆情分析方法，步骤S200包括：首先对采集的网络数据进行分词和词性标注处理；然后,根据停用词列表,对分词后的结果进行停用词过滤；最后得到用于表示文档的特征项。

4.如权利要求1所述的基于大数据的舆情分析方法，还包括：

5.如权利要求4所述的基于大数据的舆情分析方法，步骤S500包括：

6.如权利要求4所述的基于大数据的舆情分析方法，其中，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，对于博客、微博、论坛、新闻报道网页的数据是分别独立进行事件抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点事件集合分别为BLOG、M-BLOG、BBS、NEWS，计算BLOG、M-BLOG、BBS、NEWS的交集，所得到的结果确定为第一热点事件集合，计算BLOG、M-BLOG、BBS、NEWS其中每三个集合的交集，所得到的所有结果的和减去第一热点事件集合确定为第二热点事件集合，计算BLOG、M-BLOG、 BBS、NEWS其中每二个集合的交集，所得到的所有结果的和减去第一热点事件集合以及第二热点事件集合确定为第三热点事件集合，集合BLOG、M-BLOG、BBS、NEWS的和减去第一热点事件集合、第二热点事件集合以及第三热点事件集合的结果确定为第四热点事件集合。