CN114186118A

CN114186118A - 一种网络舆情话题信息处理系统、方法、存储介质、终端

Info

Publication number: CN114186118A
Application number: CN202111496239.9A
Authority: CN
Inventors: 郭泓颢; 石珺; 李志鹏; 杨阳朝; 廖勇
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-15

Abstract

本发明公开了一种网络舆情话题信息处理系统、方法、存储介质、终端，涉及网络空间认技术知域。利用多类别关键词词库分类统计敏感言论数量并加权统计求和计算量化指标模式引入社交网络整体舆情敏感度与危险度态势情况的量化评估与监测体系，并且灵活针对不同特定话题领域替换话题关键词词库，满足不同用户、不同社交平台在不同话题场景下的网络舆情敏感度与危险度监测与分析需求，补充现有网络舆情监测体系与技术的不足，指标体系数据库构建模块用于构建社交网络舆情风向危度指标体系数据库。本发明为舆情研判提供支撑，高效满足动态变化的网络舆情监测需求，可以为有关部门进行网络舆情态势监测提供更加客观、真实、可靠的参考。

Description

一种网络舆情话题信息处理系统、方法、存储介质、终端

技术领域

本发明属于网络空间认技术知域，尤其涉及一种网络舆情话题敏感性与危险程度信息处理系统、方法、接收用户输入程序存储介质、信息数据处理终端。

背景技术

目前，现有社交平台网络媒体中的敏感与危险舆情监测主要依靠全网舆情关键词自动识别与屏蔽算法，对用户发帖、评论、转发、聊天等内容中出现的敏感词、关键词进行过滤与屏蔽，从而起到降低社交网络媒体平台的文字、言论等信息的敏感性与危险程度的效果。

现有社交网络舆情敏感性与危险程度监测方法主要存在以下几个方面的问题：

(1)现有社交网络敏感与危险舆情监测主要依靠全网舆情信息中的关键词与敏感词自动识别捕捉，并将捕捉到的关键词信息进行过滤、屏蔽，从而阻断可疑敏感信息、危险信息在社交网络上的传播。该方法仅能够从用户端对危险信息、敏感词汇进行识别与阻断，缺少在全网范围内进行的对于社交网络整体舆情态势敏感度、危险度的统计分析，缺乏对于全网舆情敏感词、关键词出现次数、频率、密度等代表言论信息整体敏感程度、危险程度等指标特征的汇总统计，无法为相关监管部门进行行政监管措施提供有效、及时、准确的数据支撑、信息辅助与决策参考功能。

(2)当前的社交网络敏感与危险舆情监测过程中，对不同种类、不同领域、不同敏感度和重要度的敏感词、关键词采取了“一刀切”的封禁模式。互联网用户在社交媒体发言时，只要涉及敏感词词库中的词语都会被识别和屏蔽，相关言论也会在互联网社交媒体中被屏蔽。这种方式忽略了不同敏感词、关键词之间重要程度、危险程度的差异。更加科学合理的做法应为根据危险程度、敏感程度，以及针对不同特定话题的应用场景，对敏感词库、关键词库等进行分类划分，如全网通用的可能包含敏感信息的敏感词库，包含危害社会等危险信息的危险词库，以及面向不同特定话题领域的话题关键词词库等。通过对敏感词语的分类划分，可以针对不同的敏感词类别设定相应的敏感度权重，用于更加真实贴切地计算社交网络整体舆情态势的实际敏感性与危险程度。对于全网采集到的包含敏感词、关键词信息的危险言论，进行统计分析时并非对涉及敏感词汇的言论数量进行简单加和，而是应根据其性质、所属词库类别以及各个词库类别所实际包含的言论数量对不同种类的敏感词词库进行赋权，并计算各类涉及不同敏感词汇词库的危险言论数量的加权和，作为社交网络整体舆情敏感度与危险度态势情况的指标，为有关部门进行网络舆情态势监测提供更加客观、真实、可靠的参考。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术中，在社交网络敏感与危险舆情数据监测与分析中，没有针对涉及不同种类敏感词的危险或敏感社交媒体言论信息分别计算该词库涉及的危险或敏感言论占全网社交媒体言论数量的比重，不能作为该类敏感词库对应的敏感言论信息程度指标。

(2)现有技术，对于社交网络敏感与危险舆情的监测局限于在用户端对网民发帖内容进行关键词识别与过滤，而没有全网信息数据汇总统计与量化检测，造成现有技术获得的数据有效、及时性差，准确率低，在信息辅助与决策参考实用性上受限。

解决以上问题及缺陷的难度为：

(1)对于社交网络言论敏感词的分类整理及对不同类别敏感词的危险程度分级赋权需要网络空间认知域安全领域、社会传播学领域专家的经验知识为依据，及社交网络舆情治理过程中积累的不同种类敏感话题内容与话题所对应的社会事件实际影响力、传播范围、传播路径等互联网大数据和社会实践数据支撑。尤其对于舆情大数据需要较长时间的数据追踪积累、稳定的技术支撑和相关政策法规的支持方可得到全面、可靠、高质量的社交网络舆情分析数据集，从而以此为基础对不同种类的社交网络言论敏感词进行分类整理提炼，并根据社会现实情况对不同类别敏感词的重要程度、危险程度等进行分级赋权，或根据需求灵活调整重点关注的敏感词类别对社交网络舆情进行分析。

(2)对全网信息数据的持续跟踪采集、汇总统计与量化评估需要持续、稳定大量的技术、设备与人力投入，常态化的设备维护更新、采集池动态监测以及相关政策法规的支持。且工程投入可预见的商业回报较贫乏，难以简单调动社会力量的积极性实现。

解决以上问题及缺陷的意义为：

(1)对社交媒体平台言论涉及的舆情敏感词进行全面梳理，根据其所属话题、性质不同进行分类，可以实现结合线上舆情与社会现实情况对不同类别敏感词的重要程度、危险程度等进行分级赋权从而对社交网络敏感信息的实际危险程度进行更加全面、准确的评估，更可以根据针对不同话题领域进行敏感内容筛选的需求灵活调整重点关注的敏感词类别对社交网络舆情进行分析。

(2)对全网信息数据的持续跟踪采集、汇总统计得到的敏感词库更加全面，其包含的话题敏感词更加丰富，从而可以实现更加细致、更加灵活且具有话题针对性的敏感词、关键词、危险词等类别。应用该词库对全网社交媒体言论数据进行舆情敏感程度、危险程度的深度量化评估可以更加全面地涵盖更多话题、更加及时有效，并且在真实反映线下世界舆情事件发展实际情况的能力上准确性更高，大大提升了信息辅助与决策参考的实用价值。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种网络舆情话题敏感性与危险程度信息处理系统及方法。所述技术方案如下：

根据本发明公开实施例的第一方面，提供一种网络舆情话题敏感性与危险程度信息处理系统，应用于客户端，所述网络舆情话题敏感性与危险程度信息处理系统包括：

指标体系数据库构建模块，用于构建社交网络舆情风向危度指标体系数据库；所述社交网络舆情风向危度指标体系包括敏感词危度、危险词危度、话题关键词危度二级指标信息，分别对应当日社交网络用户发帖中包含敏感词词库元素、包含危险词词库元素、以及包含话题关键词词库元素的帖子数量占当日社交网络总发帖数的比重；

二级指标数据信息处理模块，用于对敏感词危度、危险词危度、话题关键词危度二级指标信息进行处理；

舆情危度数据信息处理模块，用于对给定时间范围内每日的敏感词危度、危险词危度、话题关键词危度二级指标数据利用熵权法计算各自权重，根据熵权法赋权结果计算每日各二级指标数据的加权和得出当日舆情危度指标值数。

在本发明一实施例中，所述指标体系数据库构建模块包括：

敏感词危度二级指标信息模块，用于为用户提供敏感词词库包含的当日社交网络平台发送的敏感词发帖数信息；

危险词危度二级指标信息模块，用于为用户提供危险词词库包含的当日社交网络平台发送的危险词发帖数信息；

话题关键词危度二级指标信息模块，用于为用户提供话题关键词词库包含的当日社交网络平台发送的话题关键词发帖数信息；

发帖数比重分析模块，用于分别分析当日社交网络平台发送的敏感词发帖数、危险词发帖数、题关键词发帖数在当日社交网络平台发送帖子总数所占比重。

在本发明一实施例中，所述二级指标数据信息处理模块包括：

词库内有容获取模块，用于定义词库内容，并爬取当日社交网络平台全部发帖内容信息；

词语匹配模块，用于采集到的发帖内容信息用词库进行词语匹配，统计出当日社交网络平台全部发帖中内容包含词库中词语的帖子总数；

二级指标值计算模块，用于计算当日社交网络平台全部发帖中内容包含词库中词语的帖子占当日社交网络平台全部发帖数量的比值作为该二级指标值。

在本发明一实施例中，所述舆情危度数据信息处理模块包括：

权重计算模块，用于在基于不同词库的各二级指标值计算的基础上，对给定时间范围内每日的各二级指标数据利用熵权法计算各自权重；

当日舆情危度指标值获取模块，用于根据熵权法赋权结果计算每日各二级指标数据的加权和得出当日舆情危度指标值。

根据本发明公开实施例的第二方面，提供一种所述网络舆情话题敏感性与危险程度信息处理方法，应用于客户端，包括：

步骤一，构建社交网络舆情风向危度指标体系数据库；

步骤二，二级指标数据信息的处理；

步骤三，舆情危度数据信息的处理。

在本发明一实施例中，所述步骤二具体包括：

第一步，定义词库内容，并爬取当日社交网络平台全部发帖内容信息；

第二步，根据采集到的发帖内容信息用词库进行词语匹配，统计出当日社交网络平台全部发帖中内容包含词库中词语的帖子总数，并计算当日社交网络平台全部发帖中内容包含词库中词语的帖子占当日社交网络平台全部发帖数量的比值作为该二级指标值；计算公式为：

其中，post_count_i为当日社交网络平台的全部发帖中内容包含第i个词库中的词语的帖子数量；post_count_all为当日社交网络平台总发帖量。

在本发明一实施例中，所述步骤三具体包括：

在基于不同词库的各二级指标值计算的基础上，对给定时间范围内每日的各二级指标数据利用熵权法计算各自权重，根据熵权法赋权结果计算每日各二级指标数据的加权和得出当日舆情危度指标值；计算公式为：

fatalness_index＝∑_iweight(index_i)×index_i

其中，weight(x)代表指标x经熵权法赋权后的权重，i为不同种类的词库编号。

根据本发明公开实施例的第三方面，提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述网络舆情话题敏感性与危险程度信息处理方法。

根据本发明公开实施例的第四方面，提供一种信息数据处理终端，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建社交网络舆情风向危度指标体系数据库；

二级指标数据信息的处理；

舆情危度数据信息的处理。

本发明公开的实施例提供的技术方案可以包括以下有益效果：

本发明解决了现有技术以下几个问题：

(1)将社交网络敏感与危险舆情监测所使用的敏感词词库分解为包含敏感信息的敏感词库，包含危害社会等危险信息的危险词库，以及面向不同特定话题领域的话题关键词词库等，针对涉及不同种类敏感词的危险或敏感社交媒体言论信息分别计算该词库涉及的危险或敏感言论占全网社交媒体言论数量的比重，作为该类敏感词库对应的敏感言论程度指标。

(2)实现了对于社交网络整体舆情敏感度与危险度态势情况的量化评估。对于每一类敏感词库对应的敏感言论程度指标在社交网络整体舆情敏感度与危险度态势情况中所占的比重进行赋权，根据赋权结果计算所有类别敏感词库对应的敏感言论程度，即该词库涉及的危险或敏感言论占全网社交媒体言论数量的比重的加权和，作为社交网络整体舆情敏感度与危险度态势情况的量化指标。解决了对于社交网络敏感与危险舆情的监测局限于在用户端对网民发帖内容进行关键词识别与过滤，而没有全网汇总统计与量化检测的问题，可以为有关部门进行网络舆情态势监测提供更加客观、真实、可靠的参考。

本发明创新性地将利用多类别关键词词库分类统计敏感言论数量并加权统计求和计算量化指标模式引入社交网络整体舆情敏感度与危险度态势情况的量化评估与监测体系，将传统的基于用户端的网民言论关键词识别、过滤与屏蔽的社交媒体危险或敏感言论监控与处理方式进一步深入挖掘统计信息，进行汇总分析，更加科学合理地实现了全网舆情敏感度与危险度态势情况的量化评估，并且可以灵活针对不同特定话题领域替换话题关键词词库，满足不同用户、不同社交平台在不同话题场景下的网络舆情敏感度与危险度监测与分析需求，补充了现有网络舆情监测体系与技术的不足，为舆情研判提供支撑，高效满足动态变化的网络舆情监测需求，可以为有关部门进行网络舆情态势监测提供更加客观、真实、可靠的参考。

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的网络舆情话题敏感性与危险程度信息处理系统及方法。

图中：1、指标体系数据库构建模块；1-1、敏感词危度二级指标信息模块；1-2、危险词危度二级指标信息模块；1-3、话题关键词危度二级指标信息模块；1-4、发帖数比重分析模块；2、二级指标数据信息处理模块；2-1、词库内有容获取模块；2-2、词语匹配模块；2-3、二级指标值计算模块；3、舆情危度数据信息处理模块；3-1、权重计算模块；3-2、当日舆情危度指标值获取模块。

图2是本发明实施例提供的网络舆情话题敏感性与危险程度信息处理方法流程图。

图3是本发明实施例提供的构建的社交网络舆情风向危度指标体系数据库示意图。

图4是本发明实施例提供的舆情危度二级指标计算流程图。

图5是本发明实施例提供的网络舆情话题敏感性与危险程度信息处理方法原理图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示，本发明公开实施例所提供的网络舆情话题敏感性与危险程度信息处理系统，应用于客户端，包括：

指标体系数据库构建模块1，用于构建社交网络舆情风向危度指标体系数据库；所述社交网络舆情风向危度指标体系包括敏感词危度、危险词危度、话题关键词危度二级指标信息，分别对应当日社交网络用户发帖中包含敏感词词库元素、包含危险词词库元素、以及包含话题关键词词库元素的帖子数量占当日社交网络总发帖数的比重；

二级指标数据信息处理模块2，用于对敏感词危度、危险词危度、话题关键词危度二级指标信息进行处理；

舆情危度数据信息处理模块3，用于对给定时间范围内每日的敏感词危度、危险词危度、话题关键词危度二级指标数据利用熵权法计算各自权重，根据熵权法赋权结果计算每日各二级指标数据的加权和得出当日舆情危度指标值数。

在本发明一优选实施例中，所述指标体系数据库构建模块1包括：

敏感词危度二级指标信息模块1-1，用于为用户提供敏感词词库包含的当日社交网络平台发送的敏感词发帖数信息；

危险词危度二级指标信息模块1-2，用于为用户提供危险词词库包含的当日社交网络平台发送的危险词发帖数信息；

话题关键词危度二级指标信息模块1-3，用于为用户提供话题关键词词库包含的当日社交网络平台发送的话题关键词发帖数信息；

发帖数比重分析模块1-4，用于分别分析当日社交网络平台发送的敏感词发帖数、危险词发帖数、题关键词发帖数在当日社交网络平台发送帖子总数所占比重。

在本发明一优选实施例中，所述二级指标数据信息处理模块2包括：

词库内有容获取模块2-1，用于定义词库内容，并爬取当日社交网络平台全部发帖内容信息；

词语匹配模块2-2，用于采集到的发帖内容信息用词库进行词语匹配，统计出当日社交网络平台全部发帖中内容包含词库中词语的帖子总数；

二级指标值计算模块2-3，用于计算当日社交网络平台全部发帖中内容包含词库中词语的帖子占当日社交网络平台全部发帖数量的比值作为该二级指标值。

在本发明一优选实施例中，所述舆情危度数据信息处理模块3包括：

权重计算模块3-1，用于在基于不同词库的各二级指标值计算的基础上，对给定时间范围内每日的各二级指标数据利用熵权法计算各自权重；

当日舆情危度指标值获取模块3-2，用于根据熵权法赋权结果计算每日各二级指标数据的加权和得出当日舆情危度指标值。

如图2所示，本发明实施例提供的网络舆情话题敏感性与危险程度信息处理方法包括：

S101,构建社交网络舆情风向危度指标体系数据库。

S102,二级指标数据信息的处理。

S103,舆情危度数据信息的处理。

在本发明一优选实施例中，步骤S101构建的社交网络舆情风向危度指标体系数据库如图3所示。社交网络舆情风向危度指标体系由敏感词危度、危险词危度、话题关键词危度等二级指标构成，分别对应当日社交网络用户发帖中包含敏感词词库元素、包含危险词词库元素、以及包含话题关键词词库元素的帖子数量占当日社交网络总发帖数的比重。其中，敏感词词库、危险词词库、话题关键词词库等可根据用户需求灵活自定义。二级指标通过历史数据应用熵权法进行计算得出各自权重，并根据加权和计算得出整体舆情危度，定量反映全网舆情敏感度与危险度态势的综合情况。

在本发明一优选实施例中，如图4所示，步骤S102对于二级指标的计算，首先定义词库内容，并爬取当日社交网络平台全部发帖内容信息。根据采集到的发帖内容信息用词库进行词语匹配，统计出当日社交网络平台全部发帖中内容包含词库中词语的帖子总数，并计算当日社交网络平台全部发帖中内容包含词库中词语的帖子占当日社交网络平台全部发帖数量的比值作为该二级指标值。其计算公式为：

其中，post_count_i为当日社交网络平台的全部发帖中内容包含第i个词库中的词语的帖子数量。post_count_all为当日社交网络平台总发帖量。

在本发明一优选实施例中，步骤S103舆情危度的计算是在基于不同词库的各二级指标值计算的基础上，对给定时间范围内每日的各二级指标数据利用熵权法计算各自权重，根据熵权法赋权结果计算每日各二级指标数据的加权和得出当日舆情危度指标值。其计算公式为：

fatalness_index＝∑_iweight(index_i)×index_i

下面结合具体实施例对本发明技术方案作进一步描述。

实施例

在本发明一优选实施例中，本发明实施例提供的网络舆情话题敏感性与危险程度信息处理原理如图5所示。

具体包括：

(1)爬取当日社交网络平台全部帖子、设定敏感词词库、设定危险词词库、设定话题关键词词库。

(2)词库过滤得到当日社交网络平台全部帖子中包含敏感词的帖子总数、词库过滤得到当日社交网络平台全部帖子的比重、计算当日包含话题关键词的帖子占当日社交网络平台全部帖子的比重。

(3)利用熵权法计算敏感词帖子比重、危险词帖子比重、话题关键词帖子比重三指标在舆情整体危度中的权重。

(4)计算敏感词帖子比重、危险词帖子比重、话题关键词帖子比重加权和，得到舆情整体危度数据信息。

在实际应用测试中，该技术方案作为国家某重大专项任务的组成部分在对我国某地区社交网络平台舆情信息与社会事件分析过程中发挥了重要作用。在2020年至2021年某连续13个月的持续实验监测过程期间，对某目标社交网络平台监测到多次指标峰值、谷值及整体变化趋势，分别对应到该地区不同线上线下社会事件及社会氛围整体发展趋势。结合其他舆情分析指标与社会新闻事件、该地区政治社会领域专家经验等知识交叉验证，可以发现该技术方案所计算的舆情量化评估指标的转折性变化对把握和预测整体舆情趋势具有重要参考意义。具体而言，其对于临时性的热点话题出现和消失的反应敏感度较低，但在关键节点上转折性的变化更能够体现整体舆情长远发展规律中的趋势性、方向性信号。特别地，某类重点事件容易引起该指标较大幅度上升，其他某两类敏感事件也有较高可能引起该指标较大幅度变化。该实验结果证明了本技术方案对于社交网络舆情与其对应的社会事件监测预警有着良好的标志性作用，从而可以为有关部门进行网络舆情态势监测、社会事件预警与社会治理风险评估提供更加客观、真实、可靠的参考。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims

1.一种网络舆情话题敏感性与危险程度信息处理系统，其特征在于，应用于客户端，所述网络舆情话题敏感性与危险程度信息处理系统包括：

2.根据权利要求1所述的网络舆情话题敏感性与危险程度信息处理系统，其特征在于，所述指标体系数据库构建模块包括：

3.根据权利要求1所述的网络舆情话题敏感性与危险程度信息处理系统，其特征在于，所述二级指标数据信息处理模块包括：

4.根据权利要求1所述的网络舆情话题敏感性与危险程度信息处理系统，其特征在于，所述舆情危度数据信息处理模块包括：

5.一种应用权利要求1～4任意一项所述网络舆情话题敏感性与危险程度信息处理系统的网络舆情话题敏感性与危险程度信息处理方法，其特征在于，应用于客户端，所述网络舆情话题敏感性与危险程度信息处理方法包括：

步骤一，构建社交网络舆情风向危度指标体系数据库；

步骤二，二级指标数据信息的处理；

步骤三，舆情危度数据信息的处理。

6.根据权利要求5所述的网络舆情话题敏感性与危险程度信息处理方法，其特征在于，所述步骤二具体包括：

7.根据权利要求5所述的网络舆情话题敏感性与危险程度信息处理方法，其特征在于，所述步骤三具体包括：

fatalness_index＝∑_iweight(index_i)×index_i

8.根据权利要求5所述的网络舆情话题敏感性与危险程度信息处理方法，其特征在于，所述网络舆情话题敏感性与危险程度信息处理方法进一步包括：

(1)爬取当日社交网络平台全部帖子、设定敏感词词库、设定危险词词库、设定话题关键词词库；

(2)词库过滤得到当日社交网络平台全部帖子中包含敏感词的帖子总数、词库过滤得到当日社交网络平台全部帖子的比重、计算当日包含话题关键词的帖子占当日社交网络平台全部帖子的比重；

(3)利用熵权法计算敏感词帖子比重、危险词帖子比重、话题关键词帖子比重三指标在舆情整体危度中的权重；

9.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求5～8任意一项所述网络舆情话题敏感性与危险程度信息处理方法。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建社交网络舆情风向危度指标体系数据库；

二级指标数据信息的处理；

舆情危度数据信息的处理。