CN111414520A

CN111414520A - 一种舆情信息中敏感信息的智能挖掘系统

Info

Publication number: CN111414520A
Application number: CN202010194818.7A
Authority: CN
Inventors: 李惠柯; 贺成龙; 汤世松; 高峰; 刘蛰; 孟令伍
Original assignee: Nanjing Laiwangxin Technology Research Institute Co ltd
Current assignee: Nanjing Laiwangxin Technology Research Institute Co ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-14
Anticipated expiration: 2040-03-19
Also published as: CN111414520B; WO2021184527A1

Abstract

本发明公开了一种舆情信息中敏感信息的智能挖掘系统，包括：舆情信息预处理模块，用于滤除舆情信息中的杂质信息，获得已过滤舆情信息；敏感信息类别标注模块，用于在信息展示界面接收并记录人工标注信息，获得已标注舆情信息；基于bert模型的敏感信息识别模块，用于根据已标注舆情信息训练敏感信息分类模型获得挖掘模型；舆情信息敏感智能挖掘模块，用于根据挖掘模型实时智能挖掘舆情信息并输出挖掘结果；敏感信息可视化模块，用于将舆情信息与挖掘结果以可视化的形式展示在信息展示界面。采用前述系统，能够结合舆情工作人员的需求，完成舆情信息敏感智能挖掘，方便舆情工作人员实时、便捷地了解和掌握舆情信息，辅助相关工作人员完成决策。

Description

一种舆情信息中敏感信息的智能挖掘系统

技术领域

本发明涉及舆情数据智能分析领域，尤其是涉及根据用户实际需求的舆情信息中敏感信息的智能挖掘系统。

背景技术

随着新时代的发展，网络逐渐成为了人们传播和获取各种信息的主要媒介，网上信息纷繁复杂，增加舆情工作者对信息进行挖掘的时间成本，如何能够更快更有效的挖掘出海量舆情信息中的重点舆情信息是亟待解决的问题。

现有技术中，舆情系统敏感信息挖掘主要依靠敏感词命中方式识别敏感信息，然而，由于新词不断出现，词库难以对敏感词进行完全覆盖。同时，由于同样的关键词汇在不同语言环境下表征意思不一样，现有的舆情系统无法识别语义环境，对负面信息误判概率高。

发明内容

本发明提供了一种舆情信息中敏感信息的智能挖掘系统，以解决现有的舆情工作者对信息进行挖掘的时间成本高，导致难以有效挖掘出海量舆情信息中的重点舆情信息这一问题。

一种舆情信息中敏感信息的智能挖掘系统，所述系统包括：

舆情信息预处理模块，用于滤除抓取的舆情信息中的杂质信息，获得已过滤舆情信息；

敏感信息类别标注模块，用于接收所述已过滤舆情信息，记录所述已过滤舆情信息的人工标注信息，获得已标注舆情信息并存入后台数据库，用于后续分类模型的增量训练；

敏感信息识别模块，用于根据所述已标注舆情信息对bert模型进行微调，在微调过程中，对模型的参数进行调试，直到获得在测试数据集上较好的研判效果，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判；

舆情信息敏感智能挖掘模块，用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感，并输出结果；

敏感信息可视化模块，用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。

进一步地，在一种实现方式中，所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元，通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息，获得已过滤舆情信息，所述杂质信息包括：低俗信息、广告信息、历史信息、链接符号以及表情符号内容；

通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除；

通过所述第二过滤单元对舆情信息中的历史信息进行滤除；

通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。

进一步地，在一种实现方式中，所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法：

所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础，计算待分类项属于每一个可能类别的概率，根据最大概率的类别，确认待分类项的分类；

根据朴素贝叶斯算法，即公式(1)，对所述杂质信息中的低俗信息和广告信息进行识别：

滤除包含低俗信息或广告信息的舆情信息。

进一步地，在一种实现方式中，所述第二过滤单元为基于历史信息关键词的历史信息过滤算法：

所述基于历史信息关键词的历史信息过滤算法，包括：根据历史著名人物及事件关键词，通过关键词匹配方式对所述杂质信息中的历史信息进行识别，所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后，通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。

进一步地，在一种实现方式中，所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法，基于正则表达式去除所述链接符号，包括“http.*”和“https.*”正则式匹配；

所述表情符号主要存在于微博数据中，在采集所述微博数据后，通过匹配文字表情符号的方式，对所述微博数据进行表情符号的过滤，所述表情符号在微博数据中通过文字表情符号进行表示。

进一步地，在一种实现方式中，所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息，所述人工标注信息包括类别信息，所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。

进一步地，在一种实现方式中，所述敏感信息识别模块基于人工标注信息，对所述bert模型进行微调，训练获得敏感信息分类模型；在预设间隔时间后，根据所述敏感信息类别标注模块获得的已标注舆情信息，将线上用户根据标注系统标注的数据与原始基础标注数据融合，对所述bert模型再次进行参数微调，使得所述bert模型适应新增标注数据，获得新的敏感信息分类模型，实现对所述敏感信息分类模型的定时更新。

进一步地，在一种实现方式中，所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现，所述敏感信息可视化模块包括信息筛选单元和信息展示单元；

所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息；

所述信息展示单元用于根据筛选条件显示符合条件的敏感信息。

进一步地，在一种实现方式中，应用于所述系统的一种舆情信息中敏感信息的智能挖掘方法，包括：

步骤101，海量舆情数据预处理，利用贝叶斯模型进行广告信息和低俗信息的过滤，基本历史关键词进行历史信息的过滤；

步骤102，基于bert模型的敏感信息增量训练，利用谷歌开源的bert预训练模型以及标准的敏感信息数据进行分类模型的训练和更新；

步骤103，敏感信息的可视化，根据训练好的敏感信息智能挖掘方法，对抓取的互联网舆情数据进行自动挖掘并于信息展示界面显示，显示模块包含信息筛选单元和信息显示单元，所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息；所述信息显示单元用于根据筛选条件显示符合条件的敏感信息，显示内容包含敏感信息类别，涉及的敏感关键词以及敏感信息的发布时间。

由以上技术方案可知，一种舆情信息中敏感信息的智能挖掘系统，所述系统包括：舆情信息预处理模块，用于滤除抓取的舆情信息中的杂质信息，获得已过滤舆情信息；敏感信息类别标注模块，用于接收所述已过滤舆情信息，记录所述已过滤舆情信息的人工标注信息，获得已标注舆情信息并存入后台数据库，用于后续分类模型的增量训练；敏感信息识别模块，用于根据所述已标注舆情信息对bert模型进行微调，在微调过程中，对模型的参数进行调试，直到获得在测试数据集上较好的研判效果，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判；舆情信息敏感智能挖掘模块，用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感，并输出结果；敏感信息可视化模块，用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。

现有技术中，舆情工作者对信息进行挖掘的时间成本高，导致难以有效挖掘出海量舆情信息中的重点舆情信息。而采用前述方法或系统，能够结合实际舆情工作人员的需求，完成舆情信息敏感类别的智能挖掘，方便舆情工作人员实时、便捷地了解和掌握舆情信息，辅助相关工作人员完成决策，达到了有效挖掘舆情信息中的重点舆情信息的效果。通过舆情信息预处理模块，敏感信息类别标注模块，敏感信息识别模块以及敏感信息可视化模块实现实时、便捷地了解和掌握舆情信息，因此相对于现有技术，本发明所述的一种舆情信息中敏感信息的智能挖掘系统大大提升了对舆情信息中的敏感信息的挖掘效率。

此外，在提升对舆情信息中的敏感信息的挖掘效率的基础上，本发明相对于现有技术，还具有以下有益效果：

(1)利用基于bert预训练的模型进行模型训练及更新，挖掘更加精准化和智能化，相比于目前舆情工作者基于关键词的挖掘方式，挖掘效率得到极大提升。

(2)结合人机融合的学习方式，积累用户标注数据，迭代更新模型，使得模型挖掘越来越接近用户的实际挖掘结果。

(3)提供简洁的可视化显示系统，方便用户快速浏览、捕获敏感信息。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统的系统架构示意图；

图2是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统中展示界面示意图；

图3是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统中实际运行界面示意图；

图4是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统中敏感信息可视化模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本实施例所述的一种舆情信息中敏感信息的智能挖掘系统，包括：

敏感信息类别标注模块，用于接收所述已过滤舆情信息，记录所述已过滤舆情信息的人工标注信息，获得已标注舆情信息并存入后台数据库，用于后续分类模型的增量训练；本实施例中，本发明紧追舆情工作者的实际需求，将舆情敏感信息分为投诉维权、涉法涉诉、安全生产、作风建设、经济金融、民族宗教、拆迁征地、自然灾害、意识形态、食品医药卫生等类别，并设计舆情敏感信息智能挖掘系统。

敏感信息识别模块，用于根据所述已标注舆情信息对bert模型进行微调，在微调过程中，对模型的参数进行调试，直到获得在测试数据集上较好的研判效果，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判，具体的，所述模型的参数包括batchsize、学习率、epochs等参数，通过所述微调，训练获得敏感信息分类模型，用于线上系统实时数据的敏感研判；本实施例中，通过在敏感信息展示系统中，留有进行人工修改标准的操作入口，对于系统挖掘的信息，舆情工作人员可以进行人工挖掘和修改，后台记录操作数据，根据用户操作数据，及时更新训练模型。

本实施例中，所述Bert模型是一种在超大数据集上预训练模型，在实际应用中，微调阶段是根据实际不同任务使用参数不同的网络模型；主要针对某些参数进行不断调整，以期获得效果较好的训练模型。通过所述基于bert模型的敏感信息识别模块能够有效提高挖掘模型的挖掘精度。具体的，将用户历史研判信息文本以及标签作为训练样本，输入bert模型中，修改学习率，批处理量等训练参数，利用GPU对模型进行微调训练。本项目在实施过程中，训练数据和验证数据比例为4:1。利用word2vec技术将训练数据转化为向量，并作为输入数据喂给bert模型，数据标注标签作为输出，采用随机梯度下降算法作为优化算法进行模型的训练，对batchsize、epochs等参数进行多次设置并训练，根据验证集验证效果选择最好的训练模型。

敏感信息可视化模块，用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。通过本实施例所述敏感信息可视化模块，能够方便舆情工作者及时准确掌握舆情动态。具体如图3和图4所示，本实施例中，可视化形式即依托开发的舆情系统，在敏感直通车板块，以人机交互的形式向用户展示每日系统自动研判的敏感舆情，用户可浏览研判结果，同时可在线修正结果，用于后台模型的微调更新。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元，通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息，获得已过滤舆情信息，所述杂质信息包括：低俗信息、广告信息、历史信息、链接符号以及表情符号内容；

通过所述第二过滤单元对舆情信息中的历史信息进行滤除；

本实施例中，预处理阶段的杂质信息过滤，主要是对数据进行杂质信息识别，可以按照第一过滤单元、第二过滤单元和第三过滤单元进行预处理，实际处理过程中，如果识别出来该条信息是低俗或者广告信息，不会再进行历史信息的判断；如果前面两个阶段都没识别出来，则会对信息中链接符号或者表情符号进行过滤。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法：

滤除包含低俗信息或广告信息的舆情信息。本实施例中，在线上数据处理实时流中，在进行数据入库之前，识别到低俗或者广告信息，会给出一个字段标签进行标记，后续的业务需求开发便不再使用这些数据作为分析的依据。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述第二过滤单元为基于历史信息关键词的历史信息过滤算法：

所述基于历史信息关键词的历史信息过滤算法，包括：根据历史著名人物及事件关键词，通过关键词匹配方式对所述杂质信息中的历史信息进行识别，所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后，通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。具体的，所述关键词库中的关键词如“卢沟桥事变”、“康熙大帝”等词汇。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法，基于正则表达式去除所述链接符号，包括“http.*”和“https.*”正则式匹配；

所述表情符号主要存在于微博数据中，在采集所述微博数据后，通过匹配所述文字表情符号的方式，对所述微博数据进行表情符号的过滤，所述表情符号在微博数据中通过文字表情符号进行表示。具体的，所述文字表情符号如“[馋嘴]”、“[给你小心心]”、“[太阳]”等。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息，所述人工标注信息包括类别信息，所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述敏感信息识别模块基于人工标注信息，对所述bert模型进行微调，训练获得敏感信息分类模型，在预设间隔时间后，根据所述敏感信息类别标注模块获得的已标注舆情信息，将线上用户根据标注系统标注的数据与原始基础标注数据融合，对所述bert模型再次进行参数微调，使得所述bert模型适应新增标注数据，获得新的敏感信息分类模型，实现对所述敏感信息分类模型的定时更新。具体的，系统可以设置后台每天凌晨进行数据的融合和模型的再次微调训练。通过本实施例所述的敏感信息标注模块，舆情工作者在使用系统过程中可针对数据分类结果进行系统更新，以便积累更多的标注数据用于分类模型的更新。

本实施例所述的舆情信息中敏感信息的智能挖掘系统中，所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现，所述敏感信息可视化模块包括信息筛选单元和信息展示单元；

此外，基于本实施例所述的舆情信息中敏感信息的智能挖掘系统，本实施还提供一种舆情信息中敏感信息的智能挖掘方法，所述方法包括：

步骤103，敏感信息的可视化，根据训练好的敏感信息智能挖掘方法，对抓取的互联网舆情数据进行自动挖掘并于信息展示界面显示，显示模块包含信息筛选单元和信息显示单元，所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息；所述信息显示单元用于根据筛选条件显示符合条件的敏感信息，显示内容包含敏感信息类别，涉及的敏感关键词以及敏感信息的发布时间。本实施例中，基于历史积累的标注数据，训练出一个基本敏感信息分类模型，用于数据的敏感信息研判，模型上线后，用户在不断使用系统过程中，对模型研判结果进行修正，基于用户在线标注修正的数据对基础模型进行再训练和参数微调，以期模型越来越精准。

本实施例中，完整的舆情信息中敏感信息的智能挖掘系统包括后台计算和前台显示。后台程序接收舆情信息，经过舆情信息预处理模块进行预处理后，输入至训练好的敏感信息分类模型，挖掘输出该条信息的敏感类别，同时获得该条信息包含的敏感词，将挖掘的敏感信息存储至数据表，前台通过查询数据表显示相应敏感信息；同时，前台通过敏感信息类别标注模块提供人机交互接口，用户在使用系统的过程中，可以进行人工审核和挖掘，修改挖掘结果，系统会自动记录用户操作数据，利用用户操作数据进行敏感信息挖掘模型的再训练和更新过程。

本实施例中所述的信息展示界面的布局如图2所示，界面上方为信息筛选区域，筛选条件包含统计周期、媒体分类、敏感程度以及地域；界面下方是敏感信息的显示区，即根据上方筛选条件，显示符合条件的敏感信息，每条敏感信息显示内容包含敏感类别，敏感词，发布时间，标题等信息。本实施例模块具体如下所述：

舆情敏感信息挖掘模块，后台程序实时计算，根据接收到的信息，进行预处理，模型挖掘，并将结果存储至数据表，具体包括：

(a)基于贝叶斯的广告信息过滤。互联网信息包含很多广告信息，对这些杂质信息进行有效过滤，可极大提升信息挖掘的准确率。

(b)基于历史关键人物的历史信息过滤。海量的互联网信息不仅包含广告信息，同时也包含大量历史信息，因此，这部分内容也需要进行过滤。本发明在过滤历史信息这部分数据时，主要是根据历史人物名称过滤，若文本中包含3次及以上的历史人物名字，则认为该段文本主要讲述历史信息。

舆情敏感信息挖掘模型更新，根据用户在使用系统过程中标注的敏感数据，后台进行模型的更新训练和模型文件的保存，用于之后的敏感信息挖掘，具体包括：

(a)基于bert模型的敏感信息挖掘模型训练。Bert是谷歌开源的一种深度学习预训练模型，可有效识别语义信息，本发明将其用于敏感信息挖掘模型的训练与更新上，相比基于现在基于关键词的敏感信息挖掘，准确度得到很大提升。

舆情敏感信息的显示模块，后台实时对舆情信息进行敏感性挖掘，并将结果存入数据表，前台显示区域根据数据库数据进行显示。

(a)条件筛选区域：可筛选的条件包含统计周期、媒体分类、敏感程度以及网站统计；具体的，本实施例中，统计周期可选择4小时，1天，3天，1周；媒体分类可选择新闻、微博、论坛等；敏感程度包括极端敏感、一般敏感以及敏感，用户通过点击鼠标在页面进行条件选择，页面自动刷新显示符合条件的系统自动研判的敏感信息。

(b)敏感信息显示区域：显示挖掘的敏感舆情信息，每条敏感舆情信息显示内容包含：敏感类别，敏感关键词，信息标题，发布时间以及发布网站，具体的，本实施例中，敏感关键词是基于经验总结的一批敏感词，命中即显示；信息标题，发布时间以及发布网站均是在数据爬虫阶段获取，只需显示页面展现这些信息。

上述实施案例，按照前后顺序实施，只有经过信息的预处理才能将数据输入至已训练的挖掘模型进行敏感信息挖掘，只有将挖掘结果存入数据库，前台才可以进行显示。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种舆情信息中敏感信息的智能挖掘系统的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述系统包括：

2.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元，通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息，获得已过滤舆情信息，所述杂质信息包括：低俗信息、广告信息、历史信息、链接符号以及表情符号内容；

通过所述第二过滤单元对舆情信息中的历史信息进行滤除；

3.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法：

滤除包含低俗信息或广告信息的舆情信息。

4.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述第二过滤单元为基于历史信息关键词的历史信息过滤算法：

5.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法，基于正则表达式去除所述链接符号，包括“http.*”和“https.*”正则式匹配；

6.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息，所述人工标注信息包括类别信息，所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。

7.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述敏感信息识别模块基于人工标注信息，对所述bert模型进行微调，训练获得敏感信息分类模型；在预设间隔时间后，根据所述敏感信息类别标注模块获得的已标注舆情信息，将线上用户根据标注系统标注的数据与原始基础标注数据融合，对所述bert模型再次进行参数微调，使得所述bert模型适应新增标注数据，获得新的敏感信息分类模型，实现对所述敏感信息分类模型的定时更新。

8.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现，所述敏感信息可视化模块包括信息筛选单元和信息展示单元；

9.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统，其特征在于，应用于所述系统的一种舆情信息中敏感信息的智能挖掘方法，包括：