CN108021651B

CN108021651B - 一种网络舆情风险评估方法及装置

Info

Publication number: CN108021651B
Application number: CN201711241476.4A
Authority: CN
Inventors: 邢国贤; 王石; 赵学豪; 王怡
Original assignee: Zhongke Jinlian Beijing Technology Co ltd
Current assignee: Zhongke Jinlian Beijing Technology Co ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2020-07-28
Anticipated expiration: 2037-11-30
Also published as: CN108021651A

Abstract

本发明实施例公开了一种网络舆情风险评估方法及装置，方法包括：根据网络资源库中的网络资源进行数据采集，得到网络舆情数据；提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果；根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估。本发明实施例通过设置网络资源块和关键词字典，根据网络资源库中的网络资源进行数据采集得到网络舆情数据后，进行分析，并根据分析结果和关键词字典对网络舆情数据进行风险评估，不仅能够实时自动地完成风险评估，而且成本低、深度广、效率高、准确性高。

Description

一种网络舆情风险评估方法及装置

技术领域

本发明实施例涉及网络通信技术领域，具体涉及一种网络舆情风险评估方法及装置。

背景技术

随着大数据分析和机器学习的发展，目前已经广泛地应用各个行业，对互联网的舆情风险评估依赖于获得的互联网数据，如何高效地对互联网的舆情进行风险评估是舆情管理的基本工作。

现有的网络舆情风险评估方法中采集的信息源主要包括类型、信息源广度和媒体类型等，如：普通网页、新闻、论坛、博客、跟帖和回帖；但论坛、博客等时效性强的网站才是舆情监测的重点。现有的舆情分析时提取要素信息包括文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等，牵涉到热点话题识别、转载识别、多文档摘要、倾向性分析、文本聚类与分类等功能。现有的风险评估是对出现危害客户利益的信息或者情报进行实时风险评估，同时对舆情的后续状态进行检测。

随着互联网应用的不断发展，网络舆情信息每时每刻都在不间断的增长，更新数量巨大，数据是动态变化的，常规的舆情分析方法已经无法满足舆情的风险控制，从而导致了缺乏深度、准确性也不够的问题，且现有的方法侧重于舆情监控和系统建设成本，缺少对舆情的实时风险评估功能，同上需要大量的人力对舆情内容进行风险评估。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种网络舆情风险评估方法及装置。

第一方面，本发明实施例提出一种网络舆情风险评估方法，包括：

根据网络资源库中的网络资源进行数据采集，得到网络舆情数据；

提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果；

根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估。

可选地，所述根据网络资源库中的网络资源进行数据采集，得到网络舆情数据，具体包括：

根据网络资源库中的网络资源的属性调用对应的网络爬虫进行周期性数据采集，并对采集的数据进行去重和归一化处理，得到网络舆情数据。

可选地，所述提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果，具体包括：

提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分类，得到分类后舆情数据；

对各分类后舆情数据进行空间分析，得到各分类后舆情数据的地域和地域分布；

统计各分类后舆情数据的地域的活跃度，根据各地域的活跃度对各分类后舆情数据进行量化处理，得到各分类后舆情数据的热度指数；

对各分类后舆情数据进行时间排序，确定各分类后舆情数据的时间窗口和扩散路径；

统计各分类后舆情数据的地域分布的活跃度，根据各地域分布的活跃度得到各分类后舆情数据的区域热度指数；

其中，所述分析结果包括各分类后舆情数据的热度指数、时间窗口、扩散路径和区域热度指数。

可选地，所述根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估，具体包括：

根据所述分析结果和关键词字典中的关键词，采用如下公式一对所述网络舆情数据进行风险评估：

P＝N₁×∑C_i+N₂×∑D_j+N₃×∑T_k+N₄×∑R_m 公式一

其中，P为风险评估的系数，N₁、N₂、N₃和N₄均为加权系数，C_i为关键词的危害等级，D_j为区域热度，T_k为时间窗口，R_m为扩散路径，i、j、k和m均为正整数，各分类后舆情数据的区域热度D_j根据各分类后舆情数据的热度指数和区域热度指数得到。

第二方面，本发明实施例还提出一种网络舆情风险评估装置，包括：

数据采集模块，用于根据网络资源库中的网络资源进行数据采集，得到网络舆情数据；

数据分析模块，用于提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果；

风险评估模块，用于根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估。

可选地，所述数据采集模块具体用于根据网络资源库中的网络资源的属性调用对应的网络爬虫进行周期性数据采集，并对采集的数据进行去重和归一化处理，得到网络舆情数据。

可选地，所述数据分析模块具体包括：

数据分类单元，用于提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分类，得到分类后舆情数据；

数据分析单元，用于对各分类后舆情数据进行空间分析，得到各分类后舆情数据的地域和地域分布；

热度指数计算单元，用于统计各分类后舆情数据的地域的活跃度，根据各地域的活跃度对各分类后舆情数据进行量化处理，得到各分类后舆情数据的热度指数；

排序单元，用于对各分类后舆情数据进行时间排序，确定各分类后舆情数据的时间窗口和扩散路径；

区域热度指数计算单元，用于统计各分类后舆情数据的地域分布的活跃度，根据各地域分布的活跃度得到各分类后舆情数据的区域热度指数；

可选地，所述风险评估模块具体用于根据所述分析结果和关键词字典中的关键词，采用如下公式一对所述网络舆情数据进行风险评估：

P＝N₁×∑C_i+N₂×∑D_j+N₃×∑T_k+N₄×∑R_m 公式一

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过设置网络资源块和关键词字典，根据网络资源库中的网络资源进行数据采集得到网络舆情数据后，进行分析，并根据分析结果和关键词字典对网络舆情数据进行风险评估，不仅能够实时自动地完成风险评估，而且成本低、深度广、效率高、准确性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种网络舆情风险评估方法的流程示意图；

图2为本发明另一实施例提供的一种网络舆情风险评估方法的流程示意图；

图3为本发明一实施例提供的一种网络舆情风险评估装置的结构示意图；

图4为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种网络舆情风险评估方法的流程示意图，包括：

S101、根据网络资源库中的网络资源进行数据采集，得到网络舆情数据。

其中，所述网络资源库为预先建立的数据库，网络资源库是描述网络舆情的来源，每一个记录对应着一个互联网的信息源，同时描述了这个信息源的属性，这个属性定义了数据采集和数据处理的方法。

所述网络舆情数据为数据采集得到的网络舆情相关的数据。

具体地，可以利用网络技术和爬虫技术，定时遍历网络资源库，获得数据采集的来源，根据数据源的属性调用对应的网络爬虫进行数据采集，数据采集的工作是循环进行，采集的数据包含了时间和空间信息，在采集过程中也可以对数据进行去重和归一化处理。

需要说明的是，处理后的采集数据可以以JSON格式进行存储，JSON格式的数据不但能够提高可读性，而且可以减少复杂性，便于数据交换和数据处理。

S102、提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果。

其中，所述要素信息包括文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等信息。

具体地，通过机器学习对所述网络舆情数据进行分析，发现数据之间的相关性，得到分析结果。

S103、根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估。

其中，所述关键词字典为预先建立的字典，是关键词的集合，对每一个关键词预定义了危害度。

具体地，风险评估为量化测评某一事件或事物带来的影响或损失的可能程度。

本实施例通过设置网络资源块和关键词字典，根据网络资源库中的网络资源进行数据采集得到网络舆情数据后，进行分析，并根据分析结果和关键词字典对网络舆情数据进行风险评估，不仅能够实时自动地完成风险评估，而且成本低、深度广、效率高、准确性高。

进一步地，在上述方法实施例的基础上，S101具体包括：

通过对采集的数据进行去重和归一化处理，能够减少重复数据，且得到规范化的数据，方便后续对数据进行处理。

进一步地，在上述方法实施例的基础上，S102具体包括：

S1021、提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分类，得到分类后舆情数据。

S1022、对各分类后舆情数据进行空间分析，得到各分类后舆情数据的地域和地域分布。

S1023、统计各分类后舆情数据的地域的活跃度，根据各地域的活跃度对各分类后舆情数据进行量化处理，得到各分类后舆情数据的热度指数。

S1024、对各分类后舆情数据进行时间排序，确定各分类后舆情数据的时间窗口和扩散路径。

S1025、统计各分类后舆情数据的地域分布的活跃度，根据各地域分布的活跃度得到各分类后舆情数据的区域热度指数。

所述时间窗口为某个特定数据段(时间间隔)。

所述空间分析为对地理位置的区域进行分析。

所述热度为在一段时间内互联网上出现的描述一个事件的活跃度。

具体地，如图2所示，利用网络技术和爬虫技术，定时遍历网络资源库，获得数据采集的来源，根据数据源的属性调用对应的网络爬虫进行数据采集和存储；对存储的舆情数据提取要素信息包括文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等；通过机器学习的方法做话题识别、转载识别、多文档摘要、倾向性分析、文本聚类与分类等分析，自动产生舆情的分类，提取被关注的分类进行进一步的处理。进一步的数据处理是对提取每一个舆情分类的数据集做空间分析，发现这些数据出现的地域和地域分布；统计这个数据集的活跃度，根据活跃度的数据量化成热度指数；对数据集进行时间排序，确定这个数据集的时间窗口期和扩散路径；根据地域分布细分数据集的活跃度产生区域热度指数；最终根据各分析结果和关键词字典进行风险评估。

本实施例通过建立获得舆情数据的网络资源库，这是舆情信息的来源；从舆情来源中提取舆情信息；提供机器学习的方式对舆情信息进行分类；对每个分类结果中的舆情信息进行进一步分析以得到每个分类结果中的舆情信息对应的起源、网络扩散状态、发展趋势、地域信息和时间段信息；根据对舆情信息的分析结果，以时间窗口、空间和热度(区域热度)对舆情进行风险评估，具有成本低、效率高、省时、准确性高的优点。

进一步地，在上述方法实施例的基础上，S103具体包括：

P＝N₁×∑C_i+N₂×∑D_j+N₃×∑T_k+N₄×∑R_m 公式一

具体地，根据舆情分析的计算结果和关键词字典内容进行加权计算得到风险系数，通过风险系数完成风险评估，自动量化风险评估结果，方便用户查看。

图3示出了本实施例提供的一种网络舆情风险评估装置的结构示意图，所述装置包括：数据采集模块301、数据分析模块302和风险评估模块303；其中：

所述数据采集模块301用于根据网络资源库中的网络资源进行数据采集，得到网络舆情数据；

所述数据分析模块302用于提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果；

所述风险评估模块303用于根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估。

具体地，所述数据采集模块301根据网络资源库中的网络资源进行数据采集，得到网络舆情数据；所述数据分析模块302提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果；所述风险评估模块303根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估。

进一步地，在上述装置实施例的基础上，所述数据采集模块301具体用于根据网络资源库中的网络资源的属性调用对应的网络爬虫进行周期性数据采集，并对采集的数据进行去重和归一化处理，得到网络舆情数据。

进一步地，在上述装置实施例的基础上，所述数据分析模块302具体包括：

进一步地，在上述装置实施例的基础上，所述风险评估模块303具体用于根据所述分析结果和关键词字典中的关键词，采用如下公式一对所述网络舆情数据进行风险评估：

P＝N₁×∑C_i+N₂×∑D_j+N₃×∑T_k+N₄×∑R_m 公式一

本实施例所述的网络舆情风险评估装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图4，所述电子设备，包括：处理器(processor)401、存储器(memory)402和总线403；

其中，

所述处理器401和存储器402通过所述总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络舆情风险评估方法，其特征在于，包括：

根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估；

其中，所述根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估，具体包括：

P＝N₁×∑C_i+N₂×∑D_j+N₃×∑T_k+N₄×∑R_m 公式一

2.根据权利要求1所述的方法，其特征在于，所述根据网络资源库中的网络资源进行数据采集，得到网络舆情数据，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述网络舆情数据的要素信息，根据各要素信息对所述网络舆情数据进行分析，得到分析结果，具体包括：

4.一种网络舆情风险评估装置，其特征在于，包括：

风险评估模块，用于根据所述分析结果和关键词字典中的关键词，对所述网络舆情数据进行风险评估；

其中，所述风险评估模块具体用于根据所述分析结果和关键词字典中的关键词，采用如下公式一对所述网络舆情数据进行风险评估：

P＝N₁×∑C_i+N₂×∑D_j+N₃×∑T_k+N₄×∑R_m 公式一

5.根据权利要求4所述的装置，其特征在于，所述数据采集模块具体用于根据网络资源库中的网络资源的属性调用对应的网络爬虫进行周期性数据采集，并对采集的数据进行去重和归一化处理，得到网络舆情数据。

6.根据权利要求4所述的装置，其特征在于，所述数据分析模块具体包括：

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至3任一所述的方法。