CN109840300A

CN109840300A - 网络舆情分析方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109840300A
Application number: CN201910162936.7A
Authority: CN
Inventors: 蔡家坡
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-06-04

Abstract

本发明公开了一种网络舆情分析方法，该方法包括：获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；从所述用户上网行为数据中提取出待分析的网络数据文本；根据预设的分词词库，对所述网络数据文本进行分词处理；统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词；将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。本发明还公开了一种网络舆情分析装置、设备和一种计算机可读存储介质。本发明能够实现对网络舆情风险数据进行识别，从而便于管理者及时地阻止有害网络舆情的传播。

Description

网络舆情分析方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及网络技术领域，尤其涉及网络舆情分析方法、装置、设备及计算机可读存储介质。

背景技术

互联网时代自媒体的发展和壮大，极大地刺激了社会组织舆论场的产生。以高校为例，目前网络互动已成为高校生活中一个重要的组成部分，更是师生获取信息的主要来源之一。校园意见领袖(指给别人提供信息，并同时对他们施加影响的人)对信息的加工和解读已在很大程度上影响着整个校园舆论场的议程设置，其影响力与感召力远超传统媒介。高校师生，作为特殊的受众群体，有着较普通网民更为活跃敏感的思维与反应，也更易在舆论场中进行高频的互动。近年来的一系列高校危机，频频遭遇校园舆论场的网络围攻，由简单的刑事案、失踪案甚至是一则新闻，扩展到网络的社会群体性围观，甚至引爆师生的负面情绪，继而扩展到全社会，对高校声誉产生巨大冲击和影响，这种情况不仅引起了传播学界的关注，更引起各大高校管理者的重视。

然而，在高校，目前并没有较好的检测技术来及时发现校园中出现的网络舆情的传播，高校管理者往往没能在网络舆情大范围的传播之前及时的采取措施进行阻止，从而引发了一系列高校危机。

发明内容

本发明的主要目的在于提出一种网络舆情分析方法、装置、设备及计算机可读存储介质，旨在实现对网络舆情风险数据进行识别，从而便于管理者及时地阻止有害网络舆情的传播。

为实现上述目的，本发明提供一种网络舆情分析方法，所述网络舆情分析方法包括如下步骤：

获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；

从所述用户上网行为数据中提取出待分析的网络数据文本；

根据预设的分词词库，对所述网络数据文本进行分词处理；

统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词；

将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。

优选地，所述获取用户上网行为数据的步骤包括：

从预设的上网行为管理设备获取用户的上网行为日志；

从所述上网行为日志中提取出预设时长内用户基于预设的媒体源进行上网所产生的网络数据，作为用户上网行为数据。

优选地，所述从所述用户上网行为数据中提取出待分析的网络数据文本的步骤包括：

确定所述用户上网行为数据所来源的媒体源类型；

根据预设的与所述媒体源类型对应的提取规则，提取出所述用户上网行为数据中的网络数据文本，作为待分析的网络数据文本。

优选地，所述根据预设的分词词库，对所述网络数据文本进行分词处理的步骤包括：

识别所述网络数据文本中的中文、英文、数字和特殊字符；

对于识别出的特殊字符进行占位标记，对于识别出的数字，按照预设数量为一组进行分词，对于识别出的由连续中文或英文字符组成的语句，判断所述语句是否存在于预设的分词词库中，若是，则将所述语句作为一个分词，否则将所述语句切分为更短的语句进行词库匹配。

优选地，所述统计分词后每个分词的词频的步骤包括：

根据预设的清洗规则对分词处理结果进行数据清洗；

统计数据清洗后的每个分词的词频。

优选地，所述将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据的步骤之后，还包括：

获取用户录入的热点词汇，和/或定时从预设的搜索引擎上获取当前的热点事件名词；

将所述热点词汇和/或所述热点事件名词加入至所述分词词库中。

将所述网络舆情风险数据发送至预设的管理员终端。

此外，为实现上述目的，本发明还提供一种网络舆情分析装置，所述网络舆情分析装置包括：

获取程序模块，用于获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；

提取程序模块，用于从所述用户上网行为数据中提取出待分析的网络数据文本；

分词程序模块，用于根据预设的分词词库，对所述网络数据文本进行分词处理；

统计程序模块，用于统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词；

标记程序模块，用于将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。

此外，为实现上述目的，本发明还提供一种网络舆情分析设备，所述网络舆情分析设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络舆情分析程序，所述网络舆情分析程序被所述处理器执行时实现如上所述的网络舆情分析方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有网络舆情分析程序，所述网络舆情分析程序被处理器执行时实现如上所述的网络舆情分析方法的步骤。

本发明提出的网络舆情分析方法，首先获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；然后从所述用户上网行为数据中提取出待分析的网络数据文本，根据预设的分词词库，对所述网络数据文本进行分词处理；之后，统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词，将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。本发明通过预设分词词库，根据该分词词库对网络数据文本进行分词处理，进而根据分词词频确定重点分词，最终将包含重点分词的所述用户上网行为数据标记为网络舆情风险数据，通过这种方式，实现了对网络舆情风险数据进行识别，从而便于管理者及时地发现网络舆情风险数据，并采取相应措施及时地阻止有害网络舆情的传播。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明网络舆情分析方法第一实施例的流程示意图；

图3为本发明实施例中网络舆情分析设备的部署环境示意图；

图4为本发明实施例中获取到的用户上网行为数据示意图；

图5为本发明网络舆情分析装置一实施例的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；从所述用户上网行为数据中提取出待分析的网络数据文本；根据预设的分词词库，对所述网络数据文本进行分词处理；统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词；将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。

互联网时代自媒体的发展和壮大，极大地刺激了社会组织舆论场的产生。以高校为例，在高校，目前并没有较好的检测技术来及时的发现校园中出现的网络舆情的传播，高校管理者往往没能在网络舆情大范围的传播之前及时的采取措施进行阻止，从而引发了一系列高校危机。

本发明提出的网络舆情分析方法，能够实现对网络舆情风险数据进行识别，从而便于管理者及时地发现网络舆情风险数据，并采取相应措施及时地阻止有害网络舆情的传播。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例网络舆情分析设备可以是PC机或服务器(如X86服务器)等终端设备。

如图1所示，该网络舆情分析设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网络舆情分析程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的网络舆情分析程序，并执行以下网络舆情分析方法实施例中的操作。

基于上述硬件结构，提出本发明网络舆情分析方法实施例。

参照图2，图2为本发明网络舆情分析方法第一实施例的流程示意图，所述方法包括：

步骤S10，获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；

参照图3，图3为本发明实施例中网络舆情分析设备的部署环境示意图。其中，AC为上网行为管理设备，该上网行为管理设备为内网用户终端，如PC(personal computer，个人电脑)、手机、PAD(portable android device，平板电脑)等访问互联网的网关，其功能包括但不限于网页过滤、行为控制、流量管理、防止内网泄密、防范法规风险、互联网访问行为记录、上网安全等；BA为网络舆情分析设备，其上搭载有上网行为分析系统且与AC保持通信，用于实现本实施例中的网络舆情分析方法。

本实施例网络舆情分析方法可以应用于高校、事业单位、企业、政府等社会组织的网络舆情管控场景中。下面，以高校为例进行具体说明。

首先，网络舆情分析设备获取用户上网行为数据，该用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据，其中预设的媒体源包括各种不同类型的应用，如搜索应用、论坛应用、微博应用、即时聊天应用等。

在一实施方式中，所述获取用户上网行为数据的步骤可以包括：从预设的上网行为管理设备获取用户的上网行为日志；从所述上网行为日志中提取出预设时长内用户基于预设的媒体源进行上网所产生的网络数据，作为用户上网行为数据。

具体地，内网学生或教师访问网页时，由上网行为管理设备记录下内网用户的访问行为，形成上网行为日志，该上网行为日志中包括如搜索引擎数据、论坛数据、微博应用数据、IM(Instant Messaging，即时通信)聊天信息等数据，这些日志数据按照预设的频率(如每5分钟)同步到网络舆情分析设备，当然，网络舆情分析设备也可以按照预设的频率主动从上网行为管理设备同步用户的上网行为日志，本实施例对此不作限定；在获取到用户的上网行为日志后，即从该上网行为日志中提取出用户基于预设的媒体源进行上网所产生的网络数据，作为用户上网行为数据。

参照图4，图4为本发明实施例中获取到的用户上网行为数据示意图，图中示出了当预设的媒体源为即时聊天应用时所提取出的用户上网行为数据，该用户上网行为数据包括但不限于用户名、组名、终端类型、应用类型、具体应用、访问控制类型、信息产生时间、详情(聊天内容)等信息，如图中第一条用户上网行为数据记录了财务部张三通过使用PC上的IM应用所产生的聊天信息，且该聊天信息的产生时间为2018-05-28 11:28:25。需要说明的是，管理员可以预先按照学校区域划分用户组别(如1栋和2栋教学楼属于一个组别，3栋和4栋教学楼属于另一个组别)，并设置需要进行网络舆情分析的组别，后续网络舆情分析设备可以提取出预设组别内的用户基于预设的媒体源进行上网所产生的网络数据，作为用户上网行为数据，如此可以针对特定组别内的用户进行网络舆情分析，提高了网络舆情分析的灵活性。

步骤S20，从所述用户上网行为数据中提取出待分析的网络数据文本；

在获取到用户上网行为数据后，进一步从该用户上网行为数据中提取出待分析的网络数据文本。具体地，如果用户上网行为数据是由搜索应用产生，则可以提取出搜索引擎提取所搜索的文本作为待分析的网络数据文本；如果用户上网行为数据是由论坛应用产生，则可以提取出论坛提取发帖与评论的文本作为待分析的网络数据文本；如果用户上网行为数据是由微博应用产生，则可以提取出微博聊天、转发、发出的文本作为待分析的网络数据文本；如果用户上网行为数据是由即时聊天应用产生，则可以提取出聊天内容文本作为待分析的网络数据文本；特别地，当内网智能设备向外网发送一些附件，如普通文本文件(txt、log、html、html等)、办公文档类文件(office系列、pdf、wps等)、单层或多层压缩包(zip、7z、rar、tgz等)时，可以获取这些附件中的文本作为待分析的网络数据文本。

步骤S30，根据预设的分词词库，对所述网络数据文本进行分词处理；

该步骤中，根据预设的分词词库，对上述提取出的网络数据文本进行分词处理，其中分词词库中包含有最近一段时间段的热点词汇，以及管理员所设置的重点关注词汇等。

在一实施方式中，该步骤S30可以包括：识别所述网络数据文本中的中文、英文、数字和特殊字符；对于识别出的特殊字符进行占位标记，对于识别出的数字，按照预设数量为一组进行分词，对于识别出的由连续中文或英文字符组成的语句，判断所述语句是否存在于预设的分词词库中，若是，则将所述语句作为一个分词，否则将所述语句切分为更短的语句进行词库匹配。

具体地，首先识别出网络数据文本中的中文、英文、数字和特殊字符。针对中文，系统可以通过一个unicode(统一码)的中文字符的字节大小识别出一个对应的字符是否为中文；针对英文，系统可以通过字符ascii(American Standard Code for InformationInterchange，美国信息交换标准代码，主要用于显示现代英语和其他西欧语言)是否属于英文符号，识别一个字符是否为英文；针对数字，系统可以通过字符ascii是否处于数字范围，识别出一个字符是否为数字，未识别为中文、英文和数字的其他字符即作为特殊字符。

在分词时，对于特殊字符进行占位标记，例如：“中国，银行”分词结果等同于“中国。银行”的分词结果；对于识别出的数字，按照预设数量为一组进行分词，如每3个数字为一组进行分词；对于识别出的由连续中文或英文字符组成的语句，进行词库查询，判断该语句是否存在于预设的分词词库中，若是，则将该语句作为一个分词，否则将该语句切分为更短的语句进行词库匹配，直至切分得到的所有语句均能匹配到分词词库中的词汇，或者在语句被切分预设次数后，得到的语句仍不能匹配到分词词库中的词汇，由此得到分词处理结果。

例如对文本“学生公寓H256有人玩游戏”，根据上述的分词规则可以分词为：学生，公寓，H，256，有人，玩游戏。

上述分词方式通过对网络数据文本中包含的中文、英文、数字和特殊字符进行分词处理，分词处理结果较为全面且不容易遗漏重点词汇。当然，具体实施时也可以只对网络数据文本中包含的中文进行分词处理，具体实施时可以灵活设置。

步骤S40，统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词；

该步骤中，统计分词后每个分词的词频，即每个分词在网络数据文本中出现的次数，然后，将词频大于或等于预设阈值的分词作为重点分词，其中，预设阈值可以灵活设置，且不同的分词可以设置不同的预设阈值，比如对于一些非常敏感、和重大事件相关的名词，可以将阈值设置得较低，由此能够保证不遗漏相关的重点分词。

进一步地，所述统计分词后每个分词的词频的步骤可以包括：根据预设的清洗规则对分词处理结果进行数据清洗；统计数据清洗后的每个分词的词频。

在统计分词词频时，可以通过预设算法清洗掉分词处理结果中的一些无实际意义的词语或句子，如语气助词等，比如可以利用简单的内置助词表或者利用正则表达式的方式进行清洗，例如针对分词处理结果“学生，公寓，H，256，有人，玩游戏”进行数据清洗之后的分词为“学生，公寓，玩游戏”；之后，再统计数据清洗后的每个分词的词频，由此可以避免统计一些无实际意义的词语或句子，提高统计的效率。

步骤S50，将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。

在识别出重点分词后，即将包含该重点分词的用户上网行为数据标记为网络舆情风险数据。比如识别出图4中的第一条用户上网行为数据对应的网络数据文本中包含重点分词，则将该第一条用户上网行为数据标记为网络舆情风险数据。由此实现了网络舆情风险数据的识别。在识别出网络舆情风险数据后，可以将该网络舆情风险数据以报表的形式进行保存，方便管理员随时查看分析。

本实施例提出的网络舆情分析方法，首先获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；然后从所述用户上网行为数据中提取出待分析的网络数据文本，根据预设的分词词库，对所述网络数据文本进行分词处理；之后，统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词，将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。通过这种方式，本实施例能够实现对网络舆情风险数据进行识别，从而便于管理者及时地发现网络舆情风险数据，并采取相应措施及时地阻止有害网络舆情的传播。

进一步地，基于上述第一实施例，提出本发明网络舆情分析方法第二实施例。

本实施例中，在上述步骤S50之后，还可以包括：获取用户录入的热点词汇，和/或定时从预设的搜索引擎上获取当前的热点事件名词；将所述热点词汇和/或所述热点事件名词加入至所述分词词库中。

具体地，网络舆情分析设备可以接收用户录入的热点词汇，也可以定时从预设的搜索引擎上(如搜索风云榜、热搜)获取当前的热点事件名词，然后将该热点词汇和/或热点事件名词加入至分词词库中，由此可以实现词库的自动完善，提高后续根据词库进行分词的准确性。

进一步地，在上述步骤S50之后，还可以包括：将所述网络舆情风险数据发送至预设的管理员终端。

具体地，本实施例中可以根据网络舆情风险数据生成报表，并预先设置报表推送给管理员的推送周期以及对应的推送邮箱、手机号码或学校内部的IM软件，然后将包含网络舆情风险数据的报表通过该预设的推送方式发送至对应的管理员终端，以便于管理者及时地采取相应措施阻止有害网络舆情的传播。

本发明还提供一种网络舆情分析装置。参照图5，图5为本发明网络舆情分析装置一实施例的模块示意图。本实施例中，所述网络舆情分析装置包括：

获取程序模块10，用于获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；

提取程序模块20，用于从所述用户上网行为数据中提取出待分析的网络数据文本；

分词程序模块30，用于根据预设的分词词库，对所述网络数据文本进行分词处理；

统计程序模块40，用于统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词；

标记程序模块50，用于将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。

上述各功能模块实现的方法可参照本发明安全组件的权限配置方法实施例，此处不再赘述。

本实施例提出的网络舆情分析方法，首先获取程序模块10获取用户上网行为数据，所述用户上网行为数据为预设时长内用户基于预设的媒体源进行上网所产生的网络数据；然后提取程序模块20从所述用户上网行为数据中提取出待分析的网络数据文本，分词程序模块30根据预设的分词词库，对所述网络数据文本进行分词处理；之后，统计程序模块40统计分词后每个分词的词频，将词频大于或等于预设阈值的分词作为重点分词，标记程序模块50将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据。通过这种方式，本实施例能够实现对网络舆情风险数据进行识别，从而便于管理者及时地发现网络舆情风险数据，并采取相应措施及时地阻止有害网络舆情的传播。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有网络舆情分析程序，所述网络舆情分析程序被处理器执行时实现如上所述的网络舆情分析方法的步骤。

其中，在所述处理器上运行的网络舆情分析程序被执行时所实现的方法可参照本发明网络舆情分析方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网络舆情分析方法，其特征在于，所述网络舆情分析方法包括如下步骤：

从所述用户上网行为数据中提取出待分析的网络数据文本；

根据预设的分词词库，对所述网络数据文本进行分词处理；

2.如权利要求1所述的网络舆情分析方法，其特征在于，所述获取用户上网行为数据的步骤包括：

从预设的上网行为管理设备获取用户的上网行为日志；

3.如权利要求1所述的网络舆情分析方法，其特征在于，所述从所述用户上网行为数据中提取出待分析的网络数据文本的步骤包括：

确定所述用户上网行为数据所来源的媒体源类型；

4.如权利要求1所述的网络舆情分析方法，其特征在于，所述根据预设的分词词库，对所述网络数据文本进行分词处理的步骤包括：

识别所述网络数据文本中的中文、英文、数字和特殊字符；

5.如权利要求1所述的网络舆情分析方法，其特征在于，所述统计分词后每个分词的词频的步骤包括：

根据预设的清洗规则对分词处理结果进行数据清洗；

统计数据清洗后的每个分词的词频。

6.如权利要求1至5中任一项所述的网络舆情分析方法，其特征在于，所述将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据的步骤之后，还包括：

7.如权利要求1至5中任一项所述的网络舆情分析方法，其特征在于，所述将包含所述重点分词的所述用户上网行为数据标记为网络舆情风险数据的步骤之后，还包括：

将所述网络舆情风险数据发送至预设的管理员终端。

8.一种网络舆情分析装置，其特征在于，所述网络舆情分析装置包括：

9.一种网络舆情分析设备，其特征在于，所述网络舆情分析设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络舆情分析程序，所述网络舆情分析程序被所述处理器执行时实现如权利要求1至7中任一项所述的网络舆情分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有网络舆情分析程序，所述网络舆情分析程序被处理器执行时实现如权利要求1至7中任一项所述的网络舆情分析方法的步骤。