CN109471965A

CN109471965A - 一种基于大数据的网络舆情数据采集、处理方法及监测平台

Info

Publication number: CN109471965A
Application number: CN201811257499.9A
Authority: CN
Inventors: 李鸿钊; 颜龙; 常艳
Original assignee: Sichuan Genius Software Information Network Co Ltd
Current assignee: Sichuan Genius Software Information Network Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-15

Abstract

本发明公开了一种基于大数据的网络舆情数据采集、处理方法及监测平台，所述方法包括持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据；分别对所述第一网络舆情数据进行信息预处理，得到第二网络舆情数据；将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息；采用话题识别和跟踪、文本倾向性分析、热点发现、自动摘要技术中的至少一个对所述第一网络舆情信息进行分析后得到第二网络舆情信息；通过大数据可视化技术将第二网络舆情信息进行显示。本发明能够实现海量网络舆情数据的自动采集和处理，大幅提高网络舆情数据的处理效率，并及时发现舆论热点和各类事件的发展趋势。

Description

一种基于大数据的网络舆情数据采集、处理方法及监测平台

技术领域

本发明属于网络舆情处理技术领域，尤其涉及一种基于大数据的网络舆情数据采集、处理方法及监测平台。

背景技术

舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客观的社会管理者、企业、个人及其他各类组织及其政治、社会和道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。随着社会进入网络时代，舆情出现了新的分支-网络舆情。网络舆情是社会舆情在互联网空间的映射，是社会舆情的直接反映。舆情是一种民意情况，是公众对社会生活中各个方面的问题尤其是热点问题的或显或隐的反应。它不仅包括公开表达的行为、意见和态度，还包括潜在的情绪表现。

在大数据时代网络传播的环境下，数据和信息已几乎渗透到所有行业，网络媒体作为一种新的信息传播形式，已深入到人们的日常生活。网络言论活跃已达到前所未有的程度，通过微博、贴吧、论坛等网络媒介发表对现实生活中某些热点、焦点等问题的意见，而那些具有一定影响力和倾向性的共同意见就构成了网络舆情。中国网络舆情服务产业，正经历着从无到有、从小到大、从粗放到规范的过程。通过检索发现，舆情产业已经形成了以政府、公安、媒体、教育科研、企业为主的五大客户群体的行业格局。

现有技术中，为了实现对网络舆情的了解，以便采取适当的应对措施，出现了网络舆情监控系统。然而，现有的网络舆情监控系统只是简单地对相关信息进行检索，并未对其进行进一步的分析和处理，难以及时发现舆论热点和各类事件的发展趋势。另外，由于网络舆情数据量的巨大，难以实现海量网络舆情数据的自动采集，舆情数据处理效率低下。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于大数据的网络舆情数据采集、处理方法及监测平台，能够实现海量网络舆情数据的自动采集和处理，大幅提高网络舆情数据的处理效率，并及时发现舆论热点和各类事件的发展趋势。

本发明采用的技术方案如下：

第一方面，本发明实施例提供的一种基于大数据的网络舆情数据采集、处理方法，应用于监测平台，所述网络舆情数据采集、处理方法包括：

利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据，其中，所述结构化数据和半结构化数据包括网页、视频、音频和图片数据中的至少一个；

分别对所述第一网络舆情数据进行信息预处理，得到第二网络舆情数据；

将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息；

采用话题识别和跟踪、文本倾向性分析、热点发现、自动摘要技术中的至少一个对所述第一网络舆情信息进行分析后得到第二网络舆情信息；

通过大数据可视化技术将第二网络舆情信息进行显示。

进一步地，所述利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据的步骤中，所述网络舆情数据采集、处理方法还包括：

应用HDFS分布式文件系统和Map-reduce编程模型将所述第一网络舆情数据存储到Hadoop平台。

进一步地，所述对所述网络舆情数据进行信息预处理的步骤，具体包括：

对所述网络舆情数据进行网页净化、网页内容抽取和安全加密中的至少一个。

进一步地，所述将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息的步骤具体包括：

将汇聚后的第二网络舆情数据分成大小固定的多个分片，并为每个分片创建一个任务；

根据所述深度学习模型中节点的处理效率为其分配对应的任务量，所述节点并行处理各自的任务。

进一步地，所述深度学习模型包括卷积神经网络模型、深度信任网络模型和堆栈自编码网络模型。

第二方面，本发明实施例提供的一种监测平台，包括：

大数据采集模块，用于利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据，其中，所述结构化数据和半结构化数据包括网页、视频、音频和图片数据中的至少一个；

预处理模块，用于分别对所述第一网络舆情数据进行信息预处理，得到第二网络舆情数据；

大数据深度加工模块，用于将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息；

大数据分析模块，用于采用话题识别和跟踪、文本倾向性分析、热点发现、自动摘要技术中的至少一个对所述第一网络舆情信息进行分析后得到第二网络舆情信息；

可视化模块，用于通过大数据可视化技术将第二网络舆情信息进行显示。

进一步地，所述大数据采集模块，还用于应用HDFS分布式文件系统和Map-reduce编程模型将所述第一网络舆情数据存储到Hadoop平台。

进一步地，所述预处理模块，具体用于对所述网络舆情数据进行网页净化、网页内容抽取和安全加密中的至少一个。

进一步地，所述大数据深度加工模块，具体用于将汇聚后的第二网络舆情数据分成大小固定的多个分片，并为每个分片创建一个任务；以及

综上所述，本发明利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据，能够实现海量网络舆情数据的自动采集。并分别对所述第一网络舆情数据进行信息预处理，得到第二网络舆情数据，将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息，能够实现海量网络舆情数据的自动处理，大幅提高网络舆情数据的处理效率。另外，采用话题识别和跟踪、文本倾向性分析、热点发现、自动摘要技术中的至少一个对所述第一网络舆情信息进行分析后得到第二网络舆情信息；通过大数据可视化技术将第二网络舆情信息进行显示，从而及时发现舆论热点和各类事件的发展趋势。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种基于大数据的网络舆情数据采集、处理方法的流程示意图。

图2示出了本发明实施例提供的一种监测平台的功能模块框图。

主要元件符号说明：

监测平台100；大数据采集模块101；预处理模块102；大数据深度加工模块103；大数据分析模块104；可视化模块105。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，分别是本发明实施例提供的一种基于大数据的网络舆情数据采集、处理方法的流程示意图和监测平台100的功能模块框图。其中，所述网络舆情数据采集、处理方法可应用于图2所示的监测平台100。本实施例中，所述网络舆情数据采集、处理方法包括以下步骤。

步骤S101：利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据。

其中，所述结构化或半结构化数据主要包括网页、视频、音频和图片数据中的至少一个。另外，所述网络舆情数据采集、处理方法还包括：应用HDFS(Hadoop DistributedFile System)分布式文件系统和Map-reduce编程模型将所述第一网络舆情数据存储到Hadoop平台。

需要说明的是，机器学习技术主要涉及四个方面的内容：理解并且模拟人类的学习过程；研究计算机系统和人类用户之间的自然语言接口；研究基于不完全的信息进行推理的方法，即自动规划问题；构造可发现新事物的程序。机器学习算法包括但不限于，分类算法、聚类算法、关联算法和并行算法等。而网络爬虫技术是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本的技术。实施时，通过机器学习技术和网络爬虫技术能够实现海量网络舆情数据的自动采集。

步骤S102：分别对所述第一网络舆情数据进行信息预处理，得到第二网络舆情数据。

由于所述第一网络舆情数据存在干扰数据，因此需要对所述第一网络舆情数据进行信息预处理。本实施例中，所述信息预处理包括对所述网络舆情数据进行网页净化、网页内容抽取和安全加密中的至少一个，所述第一网络舆情数据经过信息预处理后得到第二网络舆情数据。

步骤S103：将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息。

可以理解的是，所述第二网络舆情数据只是数据本身，数据化的本质是提供信息服务，因此需要挖掘出数据背后蕴藏的有价值的数据信息。本实施例中，首先将所述第二网络舆情数据汇聚后输入到深度学习模型中，再通过所述深度学习模型进行深度加工，以得到第一网络舆情信息。具体地，可以将汇聚后的第二网络舆情数据分成大小固定的多个分片，并为每个分片创建一个任务。然后根据所述深度学习模型中节点的处理效率为其分配对应的任务量，所述节点并行处理各自的任务。如此能够不需要额外的数据传输，从而节省了时间。

本实施例中，所述深度学习模型可以包括卷积神经网络模型、深度信任网络模型和堆栈自编码网络模型。另外，在深度学习训练算法方面，可以采用无监督学习算法对深度结构神经网络进行逐层预训练，能够得到较好的学习结果。如此，能够实现海量网络舆情数据的自动处理，大幅提高网络舆情数据的处理效率。

步骤S104：采用话题识别和跟踪、文本倾向性分析、热点发现、自动摘要技术中的至少一个对所述第一网络舆情信息进行分析后得到第二网络舆情信息。

通过对所述第一网络舆情信息进行分析，能够得到具有统计意义的第二网络舆情信息。所述第二网络舆情信息可以涉及话题识别和跟踪、文本倾向性分析、热点发现、自动摘要等技术。

步骤S105：通过大数据可视化技术将第二网络舆情信息进行显示。

其中，数据可视化主要是借助于图形化手段，清晰有效地传达与沟通信息。本实施例中，为了有效地传达思想概念，美学形式与功能需要齐头并进，通过直观地传达关键的方面与特征，实现对于相当稀疏而又复杂的数据集的深入洞察，从而及时发现舆论热点和各类事件的发展趋势。

进一步参阅图2，本发明实施例提供的监测平台100可以包括大数据采集模块101、预处理模块102、大数据深度加工模块103和大数据分析模块104等。下面将对以上功能模块进行详细描述。

所述大数据采集模块101，用于利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据。

其中，所述结构化或半结构化数据主要包括网页、视频、音频和图片数据中的至少一个。另外，所述大数据采集模块101可以应用HDFS(Hadoop Distributed File System)分布式文件系统和Map-reduce编程模型将所述第一网络舆情数据存储到Hadoop平台。

所述预处理模块102，用于分别对所述第一网络舆情数据进行信息预处理，得到第二网络舆情数据。

所述大数据深度加工模块103，用于将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息。

所述大数据分析模块104，用于采用话题识别和跟踪、文本倾向性分析、热点发现、自动摘要技术中的至少一个对所述第一网络舆情信息进行分析后得到第二网络舆情信息。

所述可视化模块105，用于通过大数据可视化技术将第二网络舆情信息进行显示。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种基于大数据的网络舆情数据采集、处理方法，应用于监测平台，其特征在于，所述网络舆情数据采集、处理方法包括：

通过大数据可视化技术将第二网络舆情信息进行显示。

2.根据权利要求1所述的基于大数据的网络舆情数据采集、处理方法，其特征在于，所述利用机器学习技术和网络爬虫技术持续地从接收到的海量的结构化或半结构化数据中抓取有效的第一网络舆情数据的步骤中，所述网络舆情数据采集、处理方法还包括：

3.根据权利要求1所述的基于大数据的网络舆情数据采集、处理方法，其特征在于，所述对所述网络舆情数据进行信息预处理的步骤，具体包括：

4.根据权利要求1所述的基于大数据的网络舆情数据采集、处理方法，其特征在于，所述将所述第二网络舆情数据汇聚后输入到深度学习模型中进行深度加工，并得到第一网络舆情信息的步骤具体包括：

5.根据权利要求1所述的基于大数据的网络舆情数据采集、处理方法，其特征在于，所述深度学习模型包括卷积神经网络模型、深度信任网络模型和堆栈自编码网络模型。

6.一种监测平台，其特征在于，所述监测平台包括：

7.根据权利要求6所述的监测平台，其特征在于，

所述大数据采集模块，还用于应用HDFS分布式文件系统和Map-reduce编程模型将所述第一网络舆情数据存储到Hadoop平台。

8.根据权利要求6所述的监测平台，其特征在于，

所述预处理模块，具体用于对所述网络舆情数据进行网页净化、网页内容抽取和安全加密中的至少一个。

9.根据权利要求6所述的监测平台，其特征在于，

所述大数据深度加工模块，具体用于将汇聚后的第二网络舆情数据分成大小固定的多个分片，并为每个分片创建一个任务；以及

10.根据权利要求6所述的基于大数据的网络舆情数据采集、处理方法，其特征在于，所述深度学习模型包括卷积神经网络模型、深度信任网络模型和堆栈自编码网络模型。