CN109284432A

CN109284432A - 基于大数据平台的网络舆情分析系统

Info

Publication number: CN109284432A
Application number: CN201810961969.3A
Authority: CN
Inventors: 佘平; 徐逢澍; 李程; 张慧萍; 刘立; 李宁波; 冯馨锐
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-01-29

Abstract

本发明提供了一种基于大数据平台的网络舆情分析系统，其特征在于，包括：采集存储层：对网页中的数据进行采集、存储至大数据数据库和索引构建；分析层：通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析；呈现层：呈现当前的舆情状态。本发明采用大数据思路来解决互联网中的舆情处理，可以满足海量舆情数据的存储，同时利用大数据在海量数据下的机器挖掘的能力，使得海量数据下舆情在自然语言处理，情感分析，热点事情提取更加精准。

Description

基于大数据平台的网络舆情分析系统

技术领域

本发明涉及数据处理领域，具体地，涉及基于大数据平台的网络舆情分析系统。

背景技术

随着互联网的高速发展，互联网中的信息在爆发式增长，传统的数据处理已经不合适处理这样的数据。互联网环境下的网络舆情并不是网络世界中直接存在的数据，而是通过相关技术从海量网络数据中经过提取并分析得来的结果。

采用大数据思路来解决互联网中的舆情处理是一种可行的思路，但是目前没有过相关的技术文献供参考。因此，提供一种基于大数据平台的网络舆情分析系统是目前相关技术领域的研发方向。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于大数据平台的网络舆情分析系统。

根据本发明提供的一种基于大数据平台的网络舆情分析系统，包括：

采集存储层：对网页中的数据进行采集、存储至大数据数据库和索引构建；

分析层：通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析；

呈现层：呈现当前的舆情状态。

较佳的，所述采集存储层包括：

网络爬虫模块：采用网络爬虫对网页中的数据进行爬取；

数据存储模块：将爬取的数据存入大数据数据库；

索引构建模块：在存入数据的同时启动索引后端服务，按时间顺序进行数据库的舆情内容访问，并根据内容进行倒排索引构建。

较佳的，所述网络爬虫模块在爬取的同时结合当前互联网搜索引擎的结果进行爬取修正，不同的网站对象采用不同的网络爬虫模块进行爬取，爬取的结果以文本的方式统一存储到大数据数据库。

较佳的，所述数据存储模块以网页地址和时间戳组成主键，以网页内容为数据值，构建舆情原始内容数据集。

较佳的，所述分析层包括：

文本特征提取模块：对所述采集存储层采集到的数据进行解析梳理，得到文本特征值；

文本分类模块：采用分类器，根据文本特征对网页内容进行分类；

热点聚类模块：对于当天各个类下的文本根据特征向量分别作K均值聚类，生成当日的热点事件，以各个类的质心作为整个热点的特征向量；

舆情热点分析模块：使用分类器对各个网页文本进行正负面分类，并对每个热点事件进行统计，以描述热点事件整体情感倾向或敏感倾向；

热点事件态势预测模块：对热点事件再次进行聚类，以生成对各个热点事件基于时间轴的摘要汇总，对事件的情感倾向或敏感倾向进行线性回归预测。

较佳的，所述文本特征提取模块包括：

文本清洗：对html源网页进行去标签化处理，提取网页中的中英文文本内容，并对gbk、gb2312编码的中文做内码转换，统一成utf8编码；

文本分词：通过词库，对文本进行分词；

文本特征提取：计算文本中各个词语的TF-IDF值，对网页文本构建词频特征向量，并将特征值存储于大数据数据库。

较佳的，所述文本分类模块采用朴素贝叶斯分类器进行分类。

较佳的，所述K均值聚类对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇，让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

较佳的，所述舆情热点分析模块使用支持向量机分类器对各个网页文本进行正负面分类。

较佳的，所述呈现层包括：

-根据用户的关键字进行定向爬取和呈现；

-搜索指定的网页内容；

-通过关键字进行舆情报告分析；

-对当前爬取的舆情进行总体状况统计；

-对舆情发展的趋势进行阈值设置，当敏感信息超过设定值后报警。

与现有技术相比，本发明具有如下的有益效果：

1)由于舆情数据爬取通过多种爬虫形式实现，系统支持的内容更加丰富，同时结合当前的互联网搜索引擎进行修正，充分考虑大家获取舆情信息的途径，使得系统中舆情内容来源更加合理。

2)采用大数据Hbase存储，匹配互联网下舆情的海量数据存储需求，同时具备可扩展的数据存储、高性能的数据访问。在Hbase基础上又结合ElasticSearch 加快舆情内容检索，进一步加速舆情内容的访问查询。

3)在舆情内容先分类的基础上，通过聚类分析出热点，再使用机器学习的多种算法进行分析，在多维度上呈现当前舆情的情感性，敏感性、以及发展态势预测。为用户或企业进行决策提供重要的依据。

4)系统具备高扩展性，系统采用多对象爬虫和多算法分析，用户可以很方便的集成特定的网页爬虫和内容分析引擎，构建自己特色的舆情分析策略，专业化实现舆情系统。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的系统架构图；

图2为本发明舆情信息采集的原理图；

图3为本发明舆情信息分析的原理图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供的一种基于大数据平台的网络舆情分析系统主要分为三层：采集存储层，分析层和呈现层。

1.信息采集存储层

该层主要功能是对数据进行采集、存储和索引构建。包括如下一些模块：

●网络爬虫

该模块主要采用网络爬虫对网页(网页、微博、博客、论坛以及微信公众号等)进行原始内容爬取。在爬取的同时结合当前互联网搜索引擎比如baidu等的结果进行爬取修正，使得爬取的内容更贴合舆情来源，由于网站或论坛的结构不一样，不同的网站对象采用不同的爬虫模块进行爬取，爬取的结果以文本的方式统一存储到大数据数据库 Hbase。

●数据存储

将爬虫爬取的网页原始数据存入Hbase列式数据库，以网络地址和时间戳组成主键，以网络内容为数据值，构建舆情原始内容数据集。

●索引构建

舆情系统采用ElasticSearch作为搜索引擎，系统再数据存储进Hbase的同时会启动索引后端服务，按时间序进行Hbase数据库的舆情内容访问，并根据内容进行倒排索引构建，构建索引后，用户可以通过搜索引擎快速搜索舆情内容。

2.舆情信息分析层

在网络舆情数据存储完成和索引构建好之后，系统通过Spark大数据内存计算框架对接Hbase中的文本数据进行舆情信息的分析，主要包含以下几个模块：

●文本特征提取模块

文本特征提取模块是将采集层得到的网页源码进行解析处理，得到采集网页文本的特征值。

文本特征提取模块主要步骤包括：

1)文本清洗：

负责对html源网页进行去标签化处理，提取网页中的中英文文本内容，并对gbk、gb2312编码的中文做内码转换，统一成utf8编码。

2)文本分词：

通过现有词库，负责对文本进行分词。此功能支持处理英文，支持去除停用词和低频词，支持词库扩展。

3)文本特征提取：

系统通过词频-逆文档频率算法(TF-IDF)构建特征向量，该算法可以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

其中TF(Term Frequency)，表示词条在文章中出现的频率，IDF(InverseDocument Frequency)，表示如果包含某个词的文档越少，则这个词的区分度就越大，也就是IDF 越大。

计算步骤如下：

TF＝该词在文章中的出现次数/文章总词语数

IDF＝log(文档总数/包含该词的文档数+1)

TF-IDF＝TF*IDF

系统通过计算文本中各个词语的TF-IDF值，对网页文本构建词频特征向量，并将特征值存储于HBase。

●文本分类模块

此模块采用朴素贝叶斯(Naive Bayes)分类器，根据文本特征对网页内容进行分类，分成社会、财经、军事、文化、科技、汽车、房产、体育、娱乐、健康等板块。

朴素贝叶斯(Naive Bayes)核心部分是贝叶斯公式：

P(X|Y)＝P(Y|X)*P(X)/P(Y)

其中P(X)叫做先验概率，P(X|Y)叫做后验概率，P(Y|X)叫做似然估计。

在文本分类中，可将Y理解成“特征”，把X理解成“类别”，则贝叶斯公式可理解为：

P(类别|特征)＝P(特征|类别)*P(类别)/P(特征)

当使用朴素贝叶斯分类器对文本分类时，只要判断P(某类别|特征)是否大于其他类别即可确定此文本属于哪一类题材。

●热点聚类模块

此模块对于当天各个板块采集的文本根据特征向量分别作K均值聚类(K-means)，生成当日的热点事件，以各个类的质心作为整个热点的特征向量。

K均值(K-means)算法对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。算法步骤如下：

选择K个点作为初始质心

repeat

将每个点指派到最近的质心，形成K个簇

重新计算每个簇的质心

until簇不发生变化或达到最大迭代次数

在此模块中，热点事件即为某一簇。而热门度即可量化为每一簇所包含的文本特征值的数量。此外，对于文本聚类，文本特征向量之间的距离可用余弦距离求得。其公式如下：

其中，在此模型中，X变量为文本1的特征向量，Y变量为文本2的特征向量，sim(X,Y) 为文本1和文本2的相似距离，为特征向量X和Y的点乘，||x||·||y||为特征向量X和Y和L2乘积。

●舆情热点分析模块

此模块使用现有的支持向量机(Support Vector Machine)分类器对各个网页文本进行正面/负面分类，并对每个热点事件进行统计，以描述热点事件整体情感倾向/敏感倾向。

支持向量机(SVM)算法是根据有限的样本信息，在模型的复杂性与学习能力之间寻求最佳折中，以求获得最好的推广能力。

其主要思想是寻找一个超平面，使得离超平面比较近的点能有更大的间距。为了找到超平面，需要得到距离其最近的样本点作为支持向量。SVM的损失函数为：

s.t.y_i(w^T·Φ(x_i)+b)≥1，i＝1，2，…，n

其中，。可将此损失函数使用KKT条件方法转换，经过对偶转换及求导可得到支持向量。在此模型中，x_i:i文本的特征向量，y_i为i文本的分类值，w,b为基于文本特征向量找到超平面的系数，s.t.代表求解最小值的约束条件。

●热点事件态势预测

此模块对热点事件再次进行聚类，以生成对各个热点事件基于时间轴的摘要汇总，对事件的情感倾向/敏感倾向进行线性回归(Linear Regression)预测。

假设舆情倾向与时间满足线性关系，如下：

h_θ＝θ^Tx

其损失函数为：

为了使得J(θ)最小，可使用随机梯度下降法，从而求得参数向量θ。

在此模块中，x为时间，h为舆情倾向值，根据过去的舆情倾向数据可以得到一个模型(参数向量θ)，并用此模型对舆情倾向的未来趋势做出预测。

3.舆情信息呈现层

舆情系统呈现给用户是当前的网络上的舆情状态，并提供实时的搜索和分析功能，主要的呈现功能如下：

1)基于用户的关键字的原始网页内容列表。用户在系统里设置关键字，系统根据关键字进行定向爬取，并将最新的内容信息呈现在系统里。

2)舆情内容搜索引擎。用户可以在现有的舆情系统进行搜索当前其关心的网页内容。

3)舆情分析报告。用户通过关键字进行舆情报告分析，舆情系统以多维度方式呈现用户关心的舆情，主要是当前网络上相对该关键字的是否敏感，是正面信息还是负面信息，和其热点的相关的其他热点事件，以及当前热点事件的发展趋势，帮助用户针对该舆情事件进行决策提供依据，分析结果以报告形式呈现给用户。

4)舆情统计状态信息。舆情会对当前爬取的舆情信息进行总体状态统计，按时间、来源、数据进行多方面的信息呈现。

5)告警和预警信息。对舆情发展的趋势进行阈值设置，当敏感信息超过设定值后给与用户报警，报警方式支持网站通知、email、短信等。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于大数据平台的网络舆情分析系统，其特征在于，包括：

呈现层：呈现当前的舆情状态。

2.根据权利要求1所述的基于大数据平台的网络舆情分析系统，其特征在于，所述采集存储层包括：

网络爬虫模块：采用网络爬虫对网页中的数据进行爬取；

数据存储模块：将爬取的数据存入大数据数据库；

3.根据权利要求2所述的基于大数据平台的网络舆情分析系统，其特征在于，所述网络爬虫模块在爬取的同时结合当前互联网搜索引擎的结果进行爬取修正，不同的网站对象采用不同的网络爬虫模块进行爬取，爬取的结果以文本的方式统一存储到大数据数据库。

4.根据权利要求2所述的基于大数据平台的网络舆情分析系统，其特征在于，所述数据存储模块以网页地址和时间戳组成主键，以网页内容为数据值，构建舆情原始内容数据集。

5.根据权利要求1所述的基于大数据平台的网络舆情分析系统，其特征在于，所述分析层包括：

6.根据权利要求5所述的基于大数据平台的网络舆情分析系统，其特征在于，所述文本特征提取模块包括：

文本分词：通过词库，对文本进行分词；

7.根据权利要求5所述的基于大数据平台的网络舆情分析系统，其特征在于，所述文本分类模块采用朴素贝叶斯分类器进行分类。

8.根据权利要求5所述的基于大数据平台的网络舆情分析系统，其特征在于，所述K均值聚类对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇，让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

9.根据权利要求5所述的基于大数据平台的网络舆情分析系统，其特征在于，所述舆情热点分析模块使用支持向量机分类器对各个网页文本进行正负面分类。

10.根据权利要求1所述的基于大数据平台的网络舆情分析系统，其特征在于，所述呈现层包括：

-根据用户的关键字进行定向爬取和呈现；

-搜索指定的网页内容；

-通过关键字进行舆情报告分析；

-对当前爬取的舆情进行总体状况统计；