CN111414520A - 一种舆情信息中敏感信息的智能挖掘系统 - Google Patents

一种舆情信息中敏感信息的智能挖掘系统 Download PDF

Info

Publication number
CN111414520A
CN111414520A CN202010194818.7A CN202010194818A CN111414520A CN 111414520 A CN111414520 A CN 111414520A CN 202010194818 A CN202010194818 A CN 202010194818A CN 111414520 A CN111414520 A CN 111414520A
Authority
CN
China
Prior art keywords
information
sensitive
public opinion
filtering
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010194818.7A
Other languages
English (en)
Other versions
CN111414520B (zh
Inventor
李惠柯
贺成龙
汤世松
高峰
刘蛰
孟令伍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Laiwangxin Technology Research Institute Co ltd
Original Assignee
Nanjing Laiwangxin Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Laiwangxin Technology Research Institute Co ltd filed Critical Nanjing Laiwangxin Technology Research Institute Co ltd
Priority to CN202010194818.7A priority Critical patent/CN111414520B/zh
Priority to PCT/CN2020/091139 priority patent/WO2021184527A1/zh
Publication of CN111414520A publication Critical patent/CN111414520A/zh
Application granted granted Critical
Publication of CN111414520B publication Critical patent/CN111414520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本发明公开了一种舆情信息中敏感信息的智能挖掘系统,包括:舆情信息预处理模块,用于滤除舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于在信息展示界面接收并记录人工标注信息,获得已标注舆情信息;基于bert模型的敏感信息识别模块,用于根据已标注舆情信息训练敏感信息分类模型获得挖掘模型;舆情信息敏感智能挖掘模块,用于根据挖掘模型实时智能挖掘舆情信息并输出挖掘结果;敏感信息可视化模块,用于将舆情信息与挖掘结果以可视化的形式展示在信息展示界面。采用前述系统,能够结合舆情工作人员的需求,完成舆情信息敏感智能挖掘,方便舆情工作人员实时、便捷地了解和掌握舆情信息,辅助相关工作人员完成决策。

Description

一种舆情信息中敏感信息的智能挖掘系统
技术领域
本发明涉及舆情数据智能分析领域,尤其是涉及根据用户实际需求的舆情信息中敏感信息的智能挖掘系统。
背景技术
随着新时代的发展,网络逐渐成为了人们传播和获取各种信息的主要媒介,网上信息纷繁复杂,增加舆情工作者对信息进行挖掘的时间成本,如何能够更快更有效的挖掘出海量舆情信息中的重点舆情信息是亟待解决的问题。
现有技术中,舆情系统敏感信息挖掘主要依靠敏感词命中方式识别敏感信息,然而,由于新词不断出现,词库难以对敏感词进行完全覆盖。同时,由于同样的关键词汇在不同语言环境下表征意思不一样,现有的舆情系统无法识别语义环境,对负面信息误判概率高。
发明内容
本发明提供了一种舆情信息中敏感信息的智能挖掘系统,以解决现有的舆情工作者对信息进行挖掘的时间成本高,导致难以有效挖掘出海量舆情信息中的重点舆情信息这一问题。
一种舆情信息中敏感信息的智能挖掘系统,所述系统包括:
舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;
敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;
敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;
舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;
敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。
进一步地,在一种实现方式中,所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元,通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息,获得已过滤舆情信息,所述杂质信息包括:低俗信息、广告信息、历史信息、链接符号以及表情符号内容;
通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除;
通过所述第二过滤单元对舆情信息中的历史信息进行滤除;
通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。
进一步地,在一种实现方式中,所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法:
所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础,计算待分类项属于每一个可能类别的概率,根据最大概率的类别,确认待分类项的分类;
根据朴素贝叶斯算法,即公式(1),对所述杂质信息中的低俗信息和广告信息进行识别:
Figure BDA0002417210500000021
滤除包含低俗信息或广告信息的舆情信息。
进一步地,在一种实现方式中,所述第二过滤单元为基于历史信息关键词的历史信息过滤算法:
所述基于历史信息关键词的历史信息过滤算法,包括:根据历史著名人物及事件关键词,通过关键词匹配方式对所述杂质信息中的历史信息进行识别,所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后,通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。
进一步地,在一种实现方式中,所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法,基于正则表达式去除所述链接符号,包括“http.*”和“https.*”正则式匹配;
所述表情符号主要存在于微博数据中,在采集所述微博数据后,通过匹配文字表情符号的方式,对所述微博数据进行表情符号的过滤,所述表情符号在微博数据中通过文字表情符号进行表示。
进一步地,在一种实现方式中,所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息,所述人工标注信息包括类别信息,所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。
进一步地,在一种实现方式中,所述敏感信息识别模块基于人工标注信息,对所述bert模型进行微调,训练获得敏感信息分类模型;在预设间隔时间后,根据所述敏感信息类别标注模块获得的已标注舆情信息,将线上用户根据标注系统标注的数据与原始基础标注数据融合,对所述bert模型再次进行参数微调,使得所述bert模型适应新增标注数据,获得新的敏感信息分类模型,实现对所述敏感信息分类模型的定时更新。
进一步地,在一种实现方式中,所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现,所述敏感信息可视化模块包括信息筛选单元和信息展示单元;
所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;
所述信息展示单元用于根据筛选条件显示符合条件的敏感信息。
进一步地,在一种实现方式中,应用于所述系统的一种舆情信息中敏感信息的智能挖掘方法,包括:
步骤101,海量舆情数据预处理,利用贝叶斯模型进行广告信息和低俗信息的过滤,基本历史关键词进行历史信息的过滤;
步骤102,基于bert模型的敏感信息增量训练,利用谷歌开源的bert预训练模型以及标准的敏感信息数据进行分类模型的训练和更新;
步骤103,敏感信息的可视化,根据训练好的敏感信息智能挖掘方法,对抓取的互联网舆情数据进行自动挖掘并于信息展示界面显示,显示模块包含信息筛选单元和信息显示单元,所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;所述信息显示单元用于根据筛选条件显示符合条件的敏感信息,显示内容包含敏感信息类别,涉及的敏感关键词以及敏感信息的发布时间。
由以上技术方案可知,一种舆情信息中敏感信息的智能挖掘系统,所述系统包括:舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。
现有技术中,舆情工作者对信息进行挖掘的时间成本高,导致难以有效挖掘出海量舆情信息中的重点舆情信息。而采用前述方法或系统,能够结合实际舆情工作人员的需求,完成舆情信息敏感类别的智能挖掘,方便舆情工作人员实时、便捷地了解和掌握舆情信息,辅助相关工作人员完成决策,达到了有效挖掘舆情信息中的重点舆情信息的效果。通过舆情信息预处理模块,敏感信息类别标注模块,敏感信息识别模块以及敏感信息可视化模块实现实时、便捷地了解和掌握舆情信息,因此相对于现有技术,本发明所述的一种舆情信息中敏感信息的智能挖掘系统大大提升了对舆情信息中的敏感信息的挖掘效率。
此外,在提升对舆情信息中的敏感信息的挖掘效率的基础上,本发明相对于现有技术,还具有以下有益效果:
(1)利用基于bert预训练的模型进行模型训练及更新,挖掘更加精准化和智能化,相比于目前舆情工作者基于关键词的挖掘方式,挖掘效率得到极大提升。
(2)结合人机融合的学习方式,积累用户标注数据,迭代更新模型,使得模型挖掘越来越接近用户的实际挖掘结果。
(3)提供简洁的可视化显示系统,方便用户快速浏览、捕获敏感信息。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统的系统架构示意图;
图2是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统中展示界面示意图;
图3是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统中实际运行界面示意图;
图4是本发明实施例部分提供的一种舆情信息中敏感信息的智能挖掘系统中敏感信息可视化模块示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本实施例所述的一种舆情信息中敏感信息的智能挖掘系统,包括:
舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;
敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;本实施例中,本发明紧追舆情工作者的实际需求,将舆情敏感信息分为投诉维权、涉法涉诉、安全生产、作风建设、经济金融、民族宗教、拆迁征地、自然灾害、意识形态、食品医药卫生等类别,并设计舆情敏感信息智能挖掘系统。
敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判,具体的,所述模型的参数包括batchsize、学习率、epochs等参数,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;本实施例中,通过在敏感信息展示系统中,留有进行人工修改标准的操作入口,对于系统挖掘的信息,舆情工作人员可以进行人工挖掘和修改,后台记录操作数据,根据用户操作数据,及时更新训练模型。
本实施例中,所述Bert模型是一种在超大数据集上预训练模型,在实际应用中,微调阶段是根据实际不同任务使用参数不同的网络模型;主要针对某些参数进行不断调整,以期获得效果较好的训练模型。通过所述基于bert模型的敏感信息识别模块能够有效提高挖掘模型的挖掘精度。具体的,将用户历史研判信息文本以及标签作为训练样本,输入bert模型中,修改学习率,批处理量等训练参数,利用GPU对模型进行微调训练。本项目在实施过程中,训练数据和验证数据比例为4:1。利用word2vec技术将训练数据转化为向量,并作为输入数据喂给bert模型,数据标注标签作为输出,采用随机梯度下降算法作为优化算法进行模型的训练,对batchsize、epochs等参数进行多次设置并训练,根据验证集验证效果选择最好的训练模型。
舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;
敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。通过本实施例所述敏感信息可视化模块,能够方便舆情工作者及时准确掌握舆情动态。具体如图3和图4所示,本实施例中,可视化形式即依托开发的舆情系统,在敏感直通车板块,以人机交互的形式向用户展示每日系统自动研判的敏感舆情,用户可浏览研判结果,同时可在线修正结果,用于后台模型的微调更新。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元,通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息,获得已过滤舆情信息,所述杂质信息包括:低俗信息、广告信息、历史信息、链接符号以及表情符号内容;
通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除;
通过所述第二过滤单元对舆情信息中的历史信息进行滤除;
通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。
本实施例中,预处理阶段的杂质信息过滤,主要是对数据进行杂质信息识别,可以按照第一过滤单元、第二过滤单元和第三过滤单元进行预处理,实际处理过程中,如果识别出来该条信息是低俗或者广告信息,不会再进行历史信息的判断;如果前面两个阶段都没识别出来,则会对信息中链接符号或者表情符号进行过滤。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法:
所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础,计算待分类项属于每一个可能类别的概率,根据最大概率的类别,确认待分类项的分类;
根据朴素贝叶斯算法,即公式(1),对所述杂质信息中的低俗信息和广告信息进行识别:
Figure BDA0002417210500000071
滤除包含低俗信息或广告信息的舆情信息。本实施例中,在线上数据处理实时流中,在进行数据入库之前,识别到低俗或者广告信息,会给出一个字段标签进行标记,后续的业务需求开发便不再使用这些数据作为分析的依据。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述第二过滤单元为基于历史信息关键词的历史信息过滤算法:
所述基于历史信息关键词的历史信息过滤算法,包括:根据历史著名人物及事件关键词,通过关键词匹配方式对所述杂质信息中的历史信息进行识别,所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后,通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。具体的,所述关键词库中的关键词如“卢沟桥事变”、“康熙大帝”等词汇。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法,基于正则表达式去除所述链接符号,包括“http.*”和“https.*”正则式匹配;
所述表情符号主要存在于微博数据中,在采集所述微博数据后,通过匹配所述文字表情符号的方式,对所述微博数据进行表情符号的过滤,所述表情符号在微博数据中通过文字表情符号进行表示。具体的,所述文字表情符号如“[馋嘴]”、“[给你小心心]”、“[太阳]”等。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息,所述人工标注信息包括类别信息,所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述敏感信息识别模块基于人工标注信息,对所述bert模型进行微调,训练获得敏感信息分类模型,在预设间隔时间后,根据所述敏感信息类别标注模块获得的已标注舆情信息,将线上用户根据标注系统标注的数据与原始基础标注数据融合,对所述bert模型再次进行参数微调,使得所述bert模型适应新增标注数据,获得新的敏感信息分类模型,实现对所述敏感信息分类模型的定时更新。具体的,系统可以设置后台每天凌晨进行数据的融合和模型的再次微调训练。通过本实施例所述的敏感信息标注模块,舆情工作者在使用系统过程中可针对数据分类结果进行系统更新,以便积累更多的标注数据用于分类模型的更新。
本实施例所述的舆情信息中敏感信息的智能挖掘系统中,所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现,所述敏感信息可视化模块包括信息筛选单元和信息展示单元;
所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;
所述信息展示单元用于根据筛选条件显示符合条件的敏感信息。
此外,基于本实施例所述的舆情信息中敏感信息的智能挖掘系统,本实施还提供一种舆情信息中敏感信息的智能挖掘方法,所述方法包括:
步骤101,海量舆情数据预处理,利用贝叶斯模型进行广告信息和低俗信息的过滤,基本历史关键词进行历史信息的过滤;
步骤102,基于bert模型的敏感信息增量训练,利用谷歌开源的bert预训练模型以及标准的敏感信息数据进行分类模型的训练和更新;
步骤103,敏感信息的可视化,根据训练好的敏感信息智能挖掘方法,对抓取的互联网舆情数据进行自动挖掘并于信息展示界面显示,显示模块包含信息筛选单元和信息显示单元,所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;所述信息显示单元用于根据筛选条件显示符合条件的敏感信息,显示内容包含敏感信息类别,涉及的敏感关键词以及敏感信息的发布时间。本实施例中,基于历史积累的标注数据,训练出一个基本敏感信息分类模型,用于数据的敏感信息研判,模型上线后,用户在不断使用系统过程中,对模型研判结果进行修正,基于用户在线标注修正的数据对基础模型进行再训练和参数微调,以期模型越来越精准。
本实施例中,完整的舆情信息中敏感信息的智能挖掘系统包括后台计算和前台显示。后台程序接收舆情信息,经过舆情信息预处理模块进行预处理后,输入至训练好的敏感信息分类模型,挖掘输出该条信息的敏感类别,同时获得该条信息包含的敏感词,将挖掘的敏感信息存储至数据表,前台通过查询数据表显示相应敏感信息;同时,前台通过敏感信息类别标注模块提供人机交互接口,用户在使用系统的过程中,可以进行人工审核和挖掘,修改挖掘结果,系统会自动记录用户操作数据,利用用户操作数据进行敏感信息挖掘模型的再训练和更新过程。
本实施例中所述的信息展示界面的布局如图2所示,界面上方为信息筛选区域,筛选条件包含统计周期、媒体分类、敏感程度以及地域;界面下方是敏感信息的显示区,即根据上方筛选条件,显示符合条件的敏感信息,每条敏感信息显示内容包含敏感类别,敏感词,发布时间,标题等信息。本实施例模块具体如下所述:
舆情敏感信息挖掘模块,后台程序实时计算,根据接收到的信息,进行预处理,模型挖掘,并将结果存储至数据表,具体包括:
(a)基于贝叶斯的广告信息过滤。互联网信息包含很多广告信息,对这些杂质信息进行有效过滤,可极大提升信息挖掘的准确率。
(b)基于历史关键人物的历史信息过滤。海量的互联网信息不仅包含广告信息,同时也包含大量历史信息,因此,这部分内容也需要进行过滤。本发明在过滤历史信息这部分数据时,主要是根据历史人物名称过滤,若文本中包含3次及以上的历史人物名字,则认为该段文本主要讲述历史信息。
舆情敏感信息挖掘模型更新,根据用户在使用系统过程中标注的敏感数据,后台进行模型的更新训练和模型文件的保存,用于之后的敏感信息挖掘,具体包括:
(a)基于bert模型的敏感信息挖掘模型训练。Bert是谷歌开源的一种深度学习预训练模型,可有效识别语义信息,本发明将其用于敏感信息挖掘模型的训练与更新上,相比基于现在基于关键词的敏感信息挖掘,准确度得到很大提升。
舆情敏感信息的显示模块,后台实时对舆情信息进行敏感性挖掘,并将结果存入数据表,前台显示区域根据数据库数据进行显示。
(a)条件筛选区域:可筛选的条件包含统计周期、媒体分类、敏感程度以及网站统计;具体的,本实施例中,统计周期可选择4小时,1天,3天,1周;媒体分类可选择新闻、微博、论坛等;敏感程度包括极端敏感、一般敏感以及敏感,用户通过点击鼠标在页面进行条件选择,页面自动刷新显示符合条件的系统自动研判的敏感信息。
(b)敏感信息显示区域:显示挖掘的敏感舆情信息,每条敏感舆情信息显示内容包含:敏感类别,敏感关键词,信息标题,发布时间以及发布网站,具体的,本实施例中,敏感关键词是基于经验总结的一批敏感词,命中即显示;信息标题,发布时间以及发布网站均是在数据爬虫阶段获取,只需显示页面展现这些信息。
上述实施案例,按照前后顺序实施,只有经过信息的预处理才能将数据输入至已训练的挖掘模型进行敏感信息挖掘,只有将挖掘结果存入数据库,前台才可以进行显示。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种舆情信息中敏感信息的智能挖掘系统的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (9)

1.一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述系统包括:
舆情信息预处理模块,用于滤除抓取的舆情信息中的杂质信息,获得已过滤舆情信息;
敏感信息类别标注模块,用于接收所述已过滤舆情信息,记录所述已过滤舆情信息的人工标注信息,获得已标注舆情信息并存入后台数据库,用于后续分类模型的增量训练;
敏感信息识别模块,用于根据所述已标注舆情信息对bert模型进行微调,在微调过程中,对模型的参数进行调试,直到获得在测试数据集上较好的研判效果,通过所述微调,训练获得敏感信息分类模型,用于线上系统实时数据的敏感研判;
舆情信息敏感智能挖掘模块,用于根据所述敏感信息分类模型实时智能研判舆情信息是否敏感,并输出结果;
敏感信息可视化模块,用于将所述舆情信息与挖掘结果以可视化的形式展示在信息展示界面。
2.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述舆情信息预处理模块包括第一过滤单元、第二过滤单元和第三过滤单元,通过所述第一过滤单元、第二过滤单元和第三过滤单元滤除所述杂质信息,获得已过滤舆情信息,所述杂质信息包括:低俗信息、广告信息、历史信息、链接符号以及表情符号内容;
通过所述第一过滤单元对舆情信息中的低俗信息和广告信息进行滤除;
通过所述第二过滤单元对舆情信息中的历史信息进行滤除;
通过所述第三过滤单元对舆情信息中的链接符号和表情符号进行滤除。
3.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第一过滤单元为基于朴素贝叶斯模型的低俗信息和广告信息的过滤算法:
所述基于朴素贝叶斯模型的低俗信息和广告的过滤算法以贝叶斯定理为基础,计算待分类项属于每一个可能类别的概率,根据最大概率的类别,确认待分类项的分类;
根据朴素贝叶斯算法,即公式(1),对所述杂质信息中的低俗信息和广告信息进行识别:
Figure FDA0002417210490000021
滤除包含低俗信息或广告信息的舆情信息。
4.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第二过滤单元为基于历史信息关键词的历史信息过滤算法:
所述基于历史信息关键词的历史信息过滤算法,包括:根据历史著名人物及事件关键词,通过关键词匹配方式对所述杂质信息中的历史信息进行识别,所述关键词配对方式即通过搜集历史人物库和重大历史事件关键词形成关键词库后,通过匹配所述关键词库中的相关历史信息滤除包含历史信息的舆情信息。
5.根据权利要求2所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述第三过滤单元为基于正则表达式对连链接符号和表情符号的过滤算法,基于正则表达式去除所述链接符号,包括“http.*”和“https.*”正则式匹配;
所述表情符号主要存在于微博数据中,在采集所述微博数据后,通过匹配文字表情符号的方式,对所述微博数据进行表情符号的过滤,所述表情符号在微博数据中通过文字表情符号进行表示。
6.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述敏感信息标注模块通过信息展示界面接收对所述舆情信息的人工标注信息,所述人工标注信息包括类别信息,所述类别信息包括投诉维权、涉法涉诉、安全生产、经济金融、作风建设、意识形态、自然灾害、拆迁征地以及食品医药卫生。
7.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述敏感信息识别模块基于人工标注信息,对所述bert模型进行微调,训练获得敏感信息分类模型;在预设间隔时间后,根据所述敏感信息类别标注模块获得的已标注舆情信息,将线上用户根据标注系统标注的数据与原始基础标注数据融合,对所述bert模型再次进行参数微调,使得所述bert模型适应新增标注数据,获得新的敏感信息分类模型,实现对所述敏感信息分类模型的定时更新。
8.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,所述敏感信息可视化模块将系统智能挖掘的敏感信息以可视化的形式展现,所述敏感信息可视化模块包括信息筛选单元和信息展示单元;
所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;
所述信息展示单元用于根据筛选条件显示符合条件的敏感信息。
9.根据权利要求1所述的一种舆情信息中敏感信息的智能挖掘系统,其特征在于,应用于所述系统的一种舆情信息中敏感信息的智能挖掘方法,包括:
步骤101,海量舆情数据预处理,利用贝叶斯模型进行广告信息和低俗信息的过滤,基本历史关键词进行历史信息的过滤;
步骤102,基于bert模型的敏感信息增量训练,利用谷歌开源的bert预训练模型以及标准的敏感信息数据进行分类模型的训练和更新;
步骤103,敏感信息的可视化,根据训练好的敏感信息智能挖掘方法,对抓取的互联网舆情数据进行自动挖掘并于信息展示界面显示,显示模块包含信息筛选单元和信息显示单元,所述信息筛选单元用于筛选信息的敏感程度、媒体分类以及网站类别信息;所述信息显示单元用于根据筛选条件显示符合条件的敏感信息,显示内容包含敏感信息类别,涉及的敏感关键词以及敏感信息的发布时间。
CN202010194818.7A 2020-03-19 2020-03-19 一种舆情信息中敏感信息的智能挖掘系统 Active CN111414520B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010194818.7A CN111414520B (zh) 2020-03-19 2020-03-19 一种舆情信息中敏感信息的智能挖掘系统
PCT/CN2020/091139 WO2021184527A1 (zh) 2020-03-19 2020-05-20 一种舆情信息中敏感信息的智能挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010194818.7A CN111414520B (zh) 2020-03-19 2020-03-19 一种舆情信息中敏感信息的智能挖掘系统

Publications (2)

Publication Number Publication Date
CN111414520A true CN111414520A (zh) 2020-07-14
CN111414520B CN111414520B (zh) 2021-03-19

Family

ID=71491168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010194818.7A Active CN111414520B (zh) 2020-03-19 2020-03-19 一种舆情信息中敏感信息的智能挖掘系统

Country Status (2)

Country Link
CN (1) CN111414520B (zh)
WO (1) WO2021184527A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632274A (zh) * 2020-10-29 2021-04-09 中科曙光南京研究院有限公司 一种基于文本处理的异常事件分类方法及系统
CN112711651A (zh) * 2020-12-30 2021-04-27 上海金仕达软件科技有限公司 一种舆情监测方法及系统
CN114090664A (zh) * 2021-12-13 2022-02-25 北京清博智能科技有限公司 一种弱信号事件挖掘生成系统及方法
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统
CN115510500A (zh) * 2022-11-18 2022-12-23 北京国科众安科技有限公司 一种文本内容的敏感分析方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357272A (zh) * 2022-01-17 2022-04-15 安徽恒科信息技术有限公司 一种基于网络爬虫技术的舆情处置决策方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
US20160132818A1 (en) * 2014-11-06 2016-05-12 Charles J. Camenzind Signing Agent Management Software
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN108897784A (zh) * 2018-06-08 2018-11-27 北京航空航天大学 一个基于社交媒体的突发事件多维分析系统
CN108959243A (zh) * 2018-05-17 2018-12-07 中国电子科技集团公司第二十八研究所 一种面向用户角色的通用舆论信息情感识别方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008394B (zh) * 2019-01-22 2023-10-27 创新先进技术有限公司 一种舆情信息的识别方法、装置及设备
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
US20160132818A1 (en) * 2014-11-06 2016-05-12 Charles J. Camenzind Signing Agent Management Software
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN108959243A (zh) * 2018-05-17 2018-12-07 中国电子科技集团公司第二十八研究所 一种面向用户角色的通用舆论信息情感识别方法
CN108897784A (zh) * 2018-06-08 2018-11-27 北京航空航天大学 一个基于社交媒体的突发事件多维分析系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632274A (zh) * 2020-10-29 2021-04-09 中科曙光南京研究院有限公司 一种基于文本处理的异常事件分类方法及系统
CN112632274B (zh) * 2020-10-29 2024-04-26 中科曙光南京研究院有限公司 一种基于文本处理的异常事件分类方法及系统
CN112711651A (zh) * 2020-12-30 2021-04-27 上海金仕达软件科技有限公司 一种舆情监测方法及系统
CN114090664A (zh) * 2021-12-13 2022-02-25 北京清博智能科技有限公司 一种弱信号事件挖掘生成系统及方法
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统
CN115510500A (zh) * 2022-11-18 2022-12-23 北京国科众安科技有限公司 一种文本内容的敏感分析方法及系统
CN115510500B (zh) * 2022-11-18 2023-02-28 北京国科众安科技有限公司 一种文本内容的敏感分析方法及系统

Also Published As

Publication number Publication date
CN111414520B (zh) 2021-03-19
WO2021184527A1 (zh) 2021-09-23

Similar Documents

Publication Publication Date Title
CN111414520B (zh) 一种舆情信息中敏感信息的智能挖掘系统
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
US8868609B2 (en) Tagging method and apparatus based on structured data set
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN108229810A (zh) 基于网络信息资源的行业分析系统及方法
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN110110156A (zh) 行业舆情监控方法、装置、计算机设备及存储介质
CN116662577B (zh) 基于知识图谱的大型语言模型训练方法及装置
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
US20190286753A1 (en) System and methods for generating an enhanced output of relevant content to facilitate content analysis
CN111914087A (zh) 一种舆情分析方法
CN113495959B (zh) 一种基于文本数据的金融舆情识别方法及系统
CN111897963A (zh) 一种基于文本信息和机器学习的商品分类方法
CN115238217B (zh) 一种公告文本中抽取数值信息的方法及终端机
Sui Hierarchical text topic modeling with applications in social media-enabled cyber maintenance decision analysis and quality hypothesis generation
CN101178721A (zh) 一种对论坛中有用帖子信息进行分类并整理的方法
Shi et al. EKGTF: A knowledge-enhanced model for optimizing social network-based meteorological briefings
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
CN110400173A (zh) 市场情绪监测体系建立方法和系统
CN115080636A (zh) 一种基于网络服务的大数据分析系统
CN114970540A (zh) 训练文本审核模型的方法和装置
CN113468331A (zh) 一种舆情信息情绪分类方法
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
CN113609848A (zh) 一种工业产品质量安全监管方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant