CN111931027A - 一种智能新闻舆情预警系统 - Google Patents
一种智能新闻舆情预警系统 Download PDFInfo
- Publication number
- CN111931027A CN111931027A CN202010826493.XA CN202010826493A CN111931027A CN 111931027 A CN111931027 A CN 111931027A CN 202010826493 A CN202010826493 A CN 202010826493A CN 111931027 A CN111931027 A CN 111931027A
- Authority
- CN
- China
- Prior art keywords
- data
- public opinion
- news
- early warning
- news public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013500 data storage Methods 0.000 claims abstract description 41
- 238000012544 monitoring process Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000005065 mining Methods 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 14
- 230000009193 crawling Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 5
- 238000009792 diffusion process Methods 0.000 claims description 3
- 238000003032 molecular docking Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 2
- 238000007664 blowing Methods 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 206010057040 Temperature intolerance Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000008543 heat sensitivity Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000010206 sensitivity analysis Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本申请提供一种智能新闻舆情预警系统,所述智能新闻舆情预警系统包括数据采集模块,用于统一调度采集任务,从互联网采集新闻舆情数据;数据存储模块,用于对数据采集模块采集的新闻舆情数据的分析和存储;服务模块,用于对数据存储模块分析和存储的数据的挖掘和智能分析;以及应用模块,用于实现对本系统的展示,以及用户和系统之间的交互操作;实现了对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种智能新闻舆情预警系统,一种应用所述智能新闻舆情预警系统的系统。
背景技术
随着移动互联网的发展,如今已经进入了一个数据爆炸的时代,如何让人们在海量的数据中找到他们需要的信息将变得越来越难。随着技术的不断更新迭代,逐渐出现了搜索引擎和推荐引擎来帮助人们更便捷的获取信息。
那么,如何能够结合基于新闻信息的海量历史数据,为编辑、记者等新闻媒体从业者提供快速、精准的、“千人千面”的个性化新闻线索推荐和智能吹哨预警支持,从海量新闻信息中高效、智能地获得受关注、感兴趣、有价值的目标新闻信息,切实增强舆情态势感知能力和新闻洞察力,有效提升办公效率和新闻创造能力,从而更加有力地支撑舆情监测、新闻追踪、新闻生产等业务工作,是当前需要解决的问题。
发明内容
本申请的目的在于,提供一种智能新闻舆情预警系统,能够实现对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
为解决上述技术问题,本申请提供一种智能新闻舆情预警系统,作为其中一种实施方式,所述智能新闻舆情预警系统包括:
数据采集模块,用于统一调度采集任务,从互联网采集新闻舆情数据;
数据存储模块,用于对所述数据采集模块采集的新闻舆情数据的分析和存储;
服务模块,用于对所述数据存储模块分析和存储的数据的挖掘和智能分析;
应用模块,用于实现对本系统的展示,以及用户和系统之间的交互操作。
作为其中一种实施方式,所述数据采集模块包括:
定向采集单元,用于对预设网站的新闻信息的实时监控和精准采集;
漫爬采集单元,用于对全球网站扩散网络漫爬,实现互联网新闻舆情数据的发散性采集;
分布式采集控制单元,用于对各分布式采集模块进行新闻舆情数据的采集控制。
作为其中一种实施方式,所述数据采集模块还包括:
元搜索采集单元,用于实时调用多个搜索引擎进行新闻舆情数据的搜索,采集原始网页的新闻舆情数据并抽取所述新闻舆情数据中的关键数据。
作为其中一种实施方式,所述数据采集模块还包括:
第三方数据对接单元,用于整合预设的内部数据库数据以及第三方新闻媒体机构的数据库数据。
作为其中一种实施方式,所述分布式采集控制单元,用于对各分布式采集模块进行新闻舆情数据的采集控制,具体为:
调整各分布式采集模块的子节点的数量来提高集群的负载能力;并通过设定不同的采集策略和网站筛选保证重要舆情新闻的及时采集。
作为其中一种实施方式,所述数据存储模块包括:
数据清洗单元,用于根据预设的过滤规则对所述采集的新闻舆情数据进行清洗过滤,则将清洗过滤的垃圾数据丢弃;再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,将查重后的重复数据丢弃;
数据存储单元,用于存储所述数据分析单元清洗过滤和查重后的新闻舆情数据。
作为其中一种实施方式,所述数据清洗单元还用于:
对清洗过滤后的新闻舆情数据进行实体信息挖掘:抽取所述数据中的人名、地名、机构名等要素,并将所述要素存入所述数据存储单元的keyword字段。
作为其中一种实施方式,所述服务模块包括:
全文检索单元,用于对数据存储模块中存储的新闻舆情数据进行全文检索;
自动分类单元,用于根据预设的分类规则对数据存储模块中存储的新闻舆情数据进行分类;
数据智能分析单元,用于对各数据处理单元处理后的新闻舆情数据,根据预设的监测规则和预警规则进行监测,筛选出符合智能预警要求的新闻舆情数据,并将所述新闻舆情数据进行分级判定。
作为其中一种实施方式,所述服务模块还包括:
知识图谱单元,用于对数据存储模块中的新闻舆情数据进行知识图谱分析,即根据设置的检索条件,从所述数据存储模块中对比实体信息,识别所述新闻舆情数据中的实体、属性和概念描述等相互之间的关系的图谱信息,所述实体信息包括人名、地名、机构名等要素。
作为其中一种实施方式,应用模块包括:
重点监测单元,用于用户自定义对需要重点监测的网站、微博、公众号等媒体进行系统监测;
系统舆情单元,用于对所述数据智能分析单元分级判定的新闻舆情数据,根据不同的判定级别分别通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
本申请提供的智能新闻舆情预警系统,所述智能新闻舆情预警系统包括:数据采集模块,用于统一调度采集任务,从互联网采集新闻舆情数据;数据存储模块,用于对所述数据采集模块采集的新闻舆情数据的分析和存储;服务模块,用于对所述数据存储模块分析和存储的数据的挖掘和智能分析;应用模块,用于实现对本系统的展示,以及用户和系统之间的交互操作;通过上述方式,本申请能够实现对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本申请智能新闻舆情预警系统一实施方式的逻辑结构示意图。
图2为本申请智能新闻舆情预警系统另一实施方式的逻辑结构示意图。
具体实施方式
为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本申请详细说明如下。
通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及效果得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。
实施例一:
请参阅图1,图1为本申请智能新闻舆情预警系统一实施方式的逻辑结构示意图。
其中,本实施方式所述智能新闻舆情预警系统可以包括但不限于如下几个模块。
数据采集模块10,数据采集模块10用于统一调度采集任务,从互联网采集新闻舆情数据;具体的,数据采集模块10从指定的、已配置好的网络站点自动化采集新闻舆情数据,并且在对新闻舆情数据采集过程中,对该新闻舆情数据进行内容要素抽取,具体为抽取新闻舆情数据中的标题、正文、作者、时间等内容要素。
进一步的,数据采集模块10采集数据后,对采集的数据进行初次智能化处理,主要包括清洗过滤和查重处理,然后将初次智能化处理后的数据保存数据库;
清洗过滤和查重处理具体的:
根据预设的过滤规则对采集的新闻舆情数据进行清洗过滤,判断是否为垃圾数据,如果判断出为垃圾数据,则将垃圾数据丢弃;
再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,判断是否为重复数据,如果判断出为重复数据,则将重复数据丢弃。
数据存储模块20,数据存储模块20用于对数据采集模块10采集的新闻舆情数据的分析和存储;
服务模块30,用于对数据存储模块20分析和存储的数据的挖掘和智能分析;
具体的:
对初步智能化处理后的新闻舆情数据进行知识图谱分析,即根据设置的检索条件,从数据库中对比实体信息,识别所述新闻舆情数据中的实体、属性和概念描述等相互之间的关系的图谱信息,其中实体信息包括人名、地名、机构名等要素。
根据已配置的敏感关键词库、敏感事件库、敏感人物库等监测规则过滤分析新闻舆情数据,判断是否命中监测规则,未命中则对数据进行归档,留作后续待查备用;如果命中了,则查看对应的文章信息,然后对文章的热度、敏感度等相关方面进行分析,再根据分析结果对对应的新闻舆情数据进行预警等级判定,进行红色、橙色、蓝色和一般预警,根据不同等级,通过弹框、电话、短信、微信、APP、邮件等方式进行预警;
进一步的,根据已配置的预警规则过滤分析新闻舆情数据,判断是否命中预警规则,未命中则对数据进行归档,留作后续待查备用;如果命中了,则对对应的新闻舆情数据进行预警等级判定,进行红色、橙色、蓝色和一般预警,根据不同等级,通过弹框、电话、短信、微信、APP、邮件等方式进行预警。
需要说明的是,根据监测规则对新闻舆情数据进行过滤分析以及根据预警规则对新闻舆情数据进行过滤分析,可以同步进行,也可以先后进行,此处不做限制。
应用模块40,用于实现对本系统的展示,以及用户和系统之间的交互操作;
进一步的,应用模块40还用于对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据预警级别进行对应的预警处理,具体的:对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,进行红色、橙色、蓝色和一般预警进行级别判定,根据不同判定等级,通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
在本实施例中,智能新闻舆情预警系统的数据采集模块从预设指定网络站点自动化采集新闻舆情数据,然后将采集的新闻舆情数据进行初次智能化处理,并将处理后的数据保存到数据存储模块的数据库,再将保存数据库的数据进行智能分析,然后根据预设的监测规则和预警规则对前述智能分析后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据,最后对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据判定的预警级别进行对应的预警处理;本实施例提供的智能新闻舆情预警系统实现了对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
请参阅图2,图2为本申请智能新闻舆情预警系统一实施方式的逻辑结构示意图。
其中,本实施方式所述智能新闻舆情预警系统可以包括但不限于如下模块:
数据采集模块10,用于统一调度采集任务,从互联网采集新闻舆情数据;
进一步的,数据采集模块10包括:
定向采集单元,用于对预设网站的新闻信息的实时监控和精准采集;
漫爬采集单元,用于对全球网站扩散网络漫爬,实现互联网新闻舆情数据的发散性采集;
分布式采集控制单元,用于对各分布式采集模块进行新闻舆情数据的采集控制;具体的,分布式采集控制单元调整各分布式采集模块的子节点的数量来提高集群的负载能力;并通过设定不同的采集策略和网站筛选保证重要舆情新闻的及时采集。
进一步的,数据采集模块10还包括:
元搜索采集单元,用于实时调用多个搜索引擎进行新闻舆情数据的搜索,采集原始网页的新闻舆情数据并抽取所述新闻舆情数据中的关键数据。
第三方数据对接单元,用于整合预设的内部数据库数据以及第三方新闻媒体机构的数据库数据。
进一步的,数据采集模块10还包括:
内容要素抽取单元,用于在对新闻舆情数据采集过程中,同步对该新闻舆情数据进行内容要素抽取,具体为抽取新闻舆情数据中的标题、正文、作者、时间等内容要素。
进一步的,数据采集模块10还包括:
清洗过滤单元,用于将采集的原始新闻舆情数据首先进行清洗过滤处理,判断前述数据是否为垃圾信息,如果判断出为垃圾数据,则将垃圾数据丢弃。
查重单元,用于根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,判断是否为重复数据,如果判断出为重复数据,则将重复数据丢弃。
数据存储模块20,用于对数据采集模块10采集的新闻舆情数据的分析和存储;
数据存储模块20包括:
数据清洗单元,用于根据预设的过滤规则对所集的新闻舆情数据进行清洗过滤,则将清洗过滤的垃圾数据丢弃;再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,将查重后的重复数据丢弃;
数据存储单元,用于存储数据清洗单元清洗过滤和查重后的新闻舆情数据。
进一步的,数据存储模块20还包括:
数据管理单元,用于对数据清洗单元清洗过滤后的新闻舆情数据进行实体信息挖掘:抽取数据中的人名、地名、机构名等要素,并将该要素存入数据存储单元的keyword字段。
进一步的,数据存储模块20还包括业务数据库、资源索引库和资源文件存储三个部分。
在具体的,业务数据库可以使用MySQL数据库进行存储。目前,主流关系型数据库都提供了主从集群和热备份功能,通过配置两台或多台数据库的主从关系,可以将一台数据库服务器的数据更新同步到另一台服务器上。MySQL作为一种关系型数据库,也支持主从配置。系统利用数据库主从集群的这一功能,实现数据库的读写分离,从而改善数据库的负载压力。系统服务器在写数据的时候,访问Master主数据库,主数据库通过主从复制机制将数据更新同步到Slave从数据库,这样当Web服务器读数据的时候,就可以通过从数据库获得数据。这一方案使得在大量读操作的Web应用可以轻松地读取数据,而主数据库也只承受少量的写入操作,同时可以实现数据热备份,增强数据安全性。数据读写分离方案采用数据库中间件Mycat实现。Mycat是一个位于应用程序与MySQL之间中间件,为了减轻单数据库的压力,可以通过配置实现主从、热备、读写分离、分表分库等功能。从而实现数据库的分布式架构,而不需要对应用程序进行任何修改。
资源索引库,本系统使用全文检索数据库ElasticSearch来存储文本新闻主体关系和媒资数据标引分析后的全文索引数据,支撑数据快速查询和高级检索功能。ElasticSearch是一个基于Lucene的全文检索数据库。它提供了一个基于RESTful接口服务的分布式多用户的全文搜索引擎。Elasticsearch使用Java开发,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。能够满足海量数据实时搜索,具备稳定,可靠,快速的特点。ElasticSearch是对等分布式系统,一个ElasticSearch集群中有多个节点,其中有一个为主节点,这个主节点是通过选举产生的,主从节点是对于集群内部来说的。ElasticSearch的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看ElasticSearch集群,在逻辑上是个整体,你与任何一个节点的通信和与整个ElasticSearch集群通信是等价的。
资源文件存储,本系统采用FastDFS分布式文件存储系统来组织管理文件服务器,用以支撑图片、视频、文档等文件资源的存储、备份、发布、访问、下载等功能实现。FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(包括文件上传和文件下载),等等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如图片网站、视频网站等等。FastDFS充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易搭建一套高性能文件服务器集群提供文件上传、下载等服务。
服务模块30,用于对数据存储模块20分析和存储的数据的挖掘和智能分析;
服务模块30包括:
全文检索单元,用于对数据存储模块中存储的新闻舆情数据进行全文检索;
自动分类单元,用于根据预设的分类规则对数据存储模块中存储的新闻舆情数据进行分类;
数据智能分析单元,用于对各数据处理单元处理后的新闻舆情数据,根据预设的监测规则和预警规则进行监测,筛选出符合智能预警要求的新闻舆情数据,并将所述新闻舆情数据进行分级判定;具体的,根据已配置的敏感关键词库、敏感事件库、敏感人物库等监测规则过滤分析新闻舆情数据,判断是否命中监测规则,未命中则对数据进行归档,留作后续待查备用;如果没有命中监测规则,则对数据进行归档,留作后续待查备用;如果命中监测规则,则查看对应的文章信息,然后对文章的热度、敏感度等相关方面进行分析和归类,并将分析和归类结果保存于数据存储模块20;再根据数据智能分析单元监测分析后的热度敏感度分析和归类结果,以及预警等级判断结果进行综合分析判定,对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,进行红色、橙色、蓝色和一般预警进行级别判定。
进一步的,服务模块30还包括:
知识图谱单元,用于对数据存储模块中的新闻舆情数据进行知识图谱分析,即根据设置的检索条件,从数据存储模块20中对比实体信息,识别新闻舆情数据中的实体、属性和实体之间相互关系的图谱信息,并将相关实体链接到百科解释页面。知识图谱分析输出知识图谱识别数据表;其中,实体信息包括人名、地名、机构名等要素。
其中,知识图谱单元进行知识图谱分析的具体流程为:
首先,将数据库中保存的各种类型数据源的新闻舆情数据中提取出实体、属性信息以及实体间的相互关系,并在此基础上形成本体化的知识表达,获得新知识三元组;在获得新知识三元组之后,需要对其进行融合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;再对于经过知识融合的新知识三元组进行知识加工,即进行质量评估,符合预定的质量要求的合格数据才能进入知识库;其中,部分评估工作需要人工参与甄别,经过质量评估之后,才能将合格的部分加入到知识库中,以确保知识库的质量。
进一步的,知识图谱单元还用于将知识图谱识别数据表以及符合质量要求的知识三元组存储到数据存储模块20,其中,知识图谱识别数据表包括实体、属性信息以及实体间的相互关系,以及融合的数据等等。
应用模块40,用于实现对本系统的展示,以及用户和系统之间的交互操作。
应用模块40包括:
重点监测单元,用于用户自定义对需要重点监测的网站、微博、公众号等媒体进行系统监测;
系统舆情单元,用于对数据智能分析单元分级判定的新闻舆情数据,根据不同的判定级别分别通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。具体的,根据监测分析后的热度敏感度分析和归类结果,以及预警等级判断结果进行综合分析判定,对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,进行红色、橙色、蓝色和一般预警进行级别判定,根据不同判定等级,通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
具体的,系统通过计算预警指数来判定预警等级:预警指数是根据若干指标维度加权计算得出红色、蓝色、橙色和一般舆情等四个预警等级,其中,指标维度包括关键词维度、重点媒体维度、相似文章数维度,以及重要账等等,用户可自定义调整的为关键词维度和重要账号,其中,重要账号包括来源与人物库,其他维度由系统内置,不由用户调整。
预警指数计算公式为:预警指数=关键词匹配度×相似文章数维度+重点媒体维度,其中,关键词匹配度的范围表示查新关键词的相关度,数值范围为0-1;相似文章数表示每条信息相似文章的数量,数值范围为大于等于1;重点媒体维度分为:一般媒体、重要媒体、核心媒体,其中一般媒体数值为80,重要媒体数值为90,核心媒体数值为100;预警指数如果大于等于500,则为红色预警;预警指数如果大于等于400且小于500,则为橙色预警;预警指数如果大于等于300且小于400,则为蓝色预警;预警指数如果小于100,则为一般预警。
进一步的,应用模块40还用于自动生成舆情报告并向用户推送,用户可在客户端选中各种素材,并向服务器发送自动生成舆情报告请求,其中,素材包括预警信息及对应的新闻舆情数据、知识图谱分析数据等。
进一步的,应用模块40还用于根据预先设置的规则,针对符合智能吹哨预警要求的新闻舆情数据进行自动吹哨预警,其中,预警规则可自定义设置,由预警信息由机器自动推送,无人工干预。具体的,将数据存储模块20中存储的新闻舆情数据进行热点舆情的挖掘,然后将该热点舆情进行提炼和分类,分为焦点舆情、高危舆情和负面舆情三类,某一舆情既可以只是其中的一类也可以是其中的两类、三类的交集。然后对提炼和分类的舆情数据进行用户关注关联度判断,判断的依据是用户实际设置的关注方向,如果是与用户关注方向密切相关的舆情,根据对该舆情所属类别的判断把将要发送的舆情警报级别分为红色、橙色、蓝色、一般四种级别。根据设置预警级别、预警条件,给不同级别的用户发送短信、邮件和系统弹出提示,对舆情信息进行预警。
在本实施例中,智能新闻舆情预警系统的数据采集模块从预设指定网络站点自动化采集新闻舆情数据,然后将采集的新闻舆情数据进行初次智能化处理,并将处理后的数据保存到数据存储模块的数据库,再将保存数据库的数据进行智能分析,然后根据预设的监测规则和预警规则对前述智能分析后的数据进行监测,筛选出符合智能吹哨预警要求的新闻舆情数据,最后对符合智能吹哨预警要求的新闻舆情数据进行预警级别判定,并根据判定的预警级别进行对应的预警处理;本实施例提供的智能新闻舆情预警系统实现了对互联网基于新闻信息的智能吹哨预警的采集、分析和预警,从而能够在舆情发生的第一时间,从源头发现、掌握舆情动态,实现对编辑、记者“千人千面”的个性化新闻线索推荐,同时结合微信提醒、电话语音提醒,弹窗提醒等功能,实现对各类网络舆情、新闻线索的实时监测发现和预警提示。
本申请能够实现多层次的数据清理处理过程,可以从数据上实现准确性、完整性、一致性、惟一性、适时性、有效性等多方面效果,可以有效地处理数据的丢失、不一致、重复等问题。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (10)
1.一种智能新闻舆情预警系统,其特征在于,所述智能新闻舆情预警系统包括:
数据采集模块,用于统一调度采集任务,从互联网采集新闻舆情数据;
数据存储模块,用于对所述数据采集模块采集的新闻舆情数据的分析和存储;
服务模块,用于对所述数据存储模块分析和存储的数据的挖掘和智能分析;
应用模块,用于实现对本系统的展示,以及用户和系统之间的交互操作。
2.根据权利要求1所述的系统,其特征在于,所述数据采集模块包括:
定向采集单元,用于对预设网站的新闻信息的实时监控和精准采集;
漫爬采集单元,用于对全球网站扩散网络漫爬,实现互联网新闻舆情数据的发散性采集;
分布式采集控制单元,用于对各分布式采集模块进行新闻舆情数据的采集控制。
3.根据权利要求2所述的系统,其特征在于,所述数据采集模块还包括:
元搜索采集单元,用于实时调用多个搜索引擎进行新闻舆情数据的搜索,采集原始网页的新闻舆情数据并抽取所述新闻舆情数据中的关键数据。
4.根据权利要求3所述的系统,其特征在于,所述数据采集模块还包括:
第三方数据对接单元,用于整合预设的内部数据库数据以及第三方新闻媒体机构的数据库数据。
5.根据权利要求4所述的系统,其特征在于,所述分布式采集控制单元,用于对各分布式采集模块进行新闻舆情数据的采集控制,具体为:
调整各分布式采集模块的子节点的数量来提高集群的负载能力;并通过设定不同的采集策略和网站筛选保证重要舆情新闻的及时采集。
6.根据权利要求5所述的系统,其特征在于,所述数据存储模块包括:
数据清洗单元,用于根据预设的过滤规则对所述采集的新闻舆情数据进行清洗过滤,则将清洗过滤的垃圾数据丢弃;再根据查重规则对已清洗过滤的新闻舆情数据进行查重分析,将查重后的重复数据丢弃;
数据存储单元,用于存储所述数据分析单元清洗过滤和查重后的新闻舆情数据。
7.根据权利要求6所述的系统,其特征在于,所述数据清洗单元还用于:
对清洗过滤后的新闻舆情数据进行实体信息挖掘:抽取所述数据中的人名、地名、机构名等要素,并将所述要素存入所述数据存储单元的keyword字段。
8.根据权利要求7所述的系统,其特征在于,所述服务模块包括:
全文检索单元,用于对数据存储模块中存储的新闻舆情数据进行全文检索;
自动分类单元,用于根据预设的分类规则对数据存储模块中存储的新闻舆情数据进行分类;
数据智能分析单元,用于对各数据处理单元处理后的新闻舆情数据,根据预设的监测规则和预警规则进行监测,筛选出符合智能预警要求的新闻舆情数据,并将所述新闻舆情数据进行分级判定。
9.根据权利要求8所述的系统,其特征在于,所述服务模块还包括:
知识图谱单元,用于对数据存储模块中的新闻舆情数据进行知识图谱分析,即根据设置的检索条件,从所述数据存储模块中对比实体信息,识别所述新闻舆情数据中的实体、属性和概念描述等相互之间的关系的图谱信息,所述实体信息包括人名、地名、机构名等要素。
10.根据权利要求9所述的系统,其特征在于,应用模块包括:
重点监测单元,用于用户自定义对需要重点监测的网站、微博、公众号等媒体进行系统监测;
系统舆情单元,用于对所述数据智能分析单元分级判定的新闻舆情数据,根据不同的判定级别分别通过弹框、电话、短信、微信、APP、邮件等方式向用户发送预警信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826493.XA CN111931027A (zh) | 2020-08-17 | 2020-08-17 | 一种智能新闻舆情预警系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826493.XA CN111931027A (zh) | 2020-08-17 | 2020-08-17 | 一种智能新闻舆情预警系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931027A true CN111931027A (zh) | 2020-11-13 |
Family
ID=73310611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010826493.XA Pending CN111931027A (zh) | 2020-08-17 | 2020-08-17 | 一种智能新闻舆情预警系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931027A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381317A (zh) * | 2020-11-26 | 2021-02-19 | 方是哲如管理咨询有限公司 | 一种组织行为分析和结果预测大数据平台 |
CN112560461A (zh) * | 2020-12-11 | 2021-03-26 | 北京百度网讯科技有限公司 | 新闻线索的生成方法、装置、电子设备及存储介质 |
CN112905800A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 |
CN113392185A (zh) * | 2021-06-10 | 2021-09-14 | 中国联合网络通信集团有限公司 | 舆情预警方法、装置、设备及存储介质 |
CN113536133A (zh) * | 2021-07-30 | 2021-10-22 | 西安康奈网络科技有限公司 | 基于单一舆情事件的互联网数据处理方法 |
CN114661974A (zh) * | 2022-03-21 | 2022-06-24 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
CN115934808B (zh) * | 2023-03-02 | 2023-05-16 | 中国电子科技集团公司第三十研究所 | 一种融入关联分析和风暴抑制机制的网络舆情预警方法 |
TWI814396B (zh) * | 2022-05-25 | 2023-09-01 | 國立成功大學 | 知識圖譜建立方法及系統以及新聞事件對話方法及系統 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101597A (zh) * | 2018-07-31 | 2018-12-28 | 中电传媒股份有限公司 | 一种电力新闻数据采集系统 |
CN110866126A (zh) * | 2019-11-22 | 2020-03-06 | 福建工程学院 | 一种高校网络舆情风险评估方法 |
-
2020
- 2020-08-17 CN CN202010826493.XA patent/CN111931027A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101597A (zh) * | 2018-07-31 | 2018-12-28 | 中电传媒股份有限公司 | 一种电力新闻数据采集系统 |
CN110866126A (zh) * | 2019-11-22 | 2020-03-06 | 福建工程学院 | 一种高校网络舆情风险评估方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381317A (zh) * | 2020-11-26 | 2021-02-19 | 方是哲如管理咨询有限公司 | 一种组织行为分析和结果预测大数据平台 |
CN112560461A (zh) * | 2020-12-11 | 2021-03-26 | 北京百度网讯科技有限公司 | 新闻线索的生成方法、装置、电子设备及存储介质 |
CN112905800A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 |
CN113392185A (zh) * | 2021-06-10 | 2021-09-14 | 中国联合网络通信集团有限公司 | 舆情预警方法、装置、设备及存储介质 |
CN113392185B (zh) * | 2021-06-10 | 2023-06-23 | 中国联合网络通信集团有限公司 | 舆情预警方法、装置、设备及存储介质 |
CN113536133A (zh) * | 2021-07-30 | 2021-10-22 | 西安康奈网络科技有限公司 | 基于单一舆情事件的互联网数据处理方法 |
CN114661974A (zh) * | 2022-03-21 | 2022-06-24 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
CN114661974B (zh) * | 2022-03-21 | 2024-03-08 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
TWI814396B (zh) * | 2022-05-25 | 2023-09-01 | 國立成功大學 | 知識圖譜建立方法及系統以及新聞事件對話方法及系統 |
CN115934808B (zh) * | 2023-03-02 | 2023-05-16 | 中国电子科技集团公司第三十研究所 | 一种融入关联分析和风暴抑制机制的网络舆情预警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11874874B2 (en) | Method and system for identifying and discovering relationships between disparate datasets from multiple sources | |
CN111931027A (zh) | 一种智能新闻舆情预警系统 | |
US9990368B2 (en) | System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
Cuzzocrea et al. | OLAP analysis of multidimensional tweet streams for supporting advanced analytics | |
US20190213407A1 (en) | Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information | |
Qamra et al. | Mining blog stories using community-based and temporal clustering | |
Kofler et al. | User intent in multimedia search: a survey of the state of the art and future challenges | |
US20150095303A1 (en) | Knowledge Graph Generator Enabled by Diagonal Search | |
US9619571B2 (en) | Method for searching related entities through entity co-occurrence | |
CN111984786A (zh) | 一种基于新闻信息的智能吹哨预警方法及服务器 | |
Sundaram et al. | Multimedia semantics: Interactions between content and community | |
EP2406739A2 (en) | System and method for knowledge research | |
WO2007043893A2 (en) | Information access with usage-driven metadata feedback | |
Xu et al. | Wikipedia‐based topic clustering for microblogs | |
US11803600B2 (en) | Systems and methods for intelligent content filtering and persistence | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Tao et al. | Facilitating Twitter data analytics: Platform, language and functionality | |
Gu | Integration and optimization of ancient literature information resources based on big data technology | |
US20160246794A1 (en) | Method for entity-driven alerts based on disambiguated features | |
Spahiu et al. | Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned | |
Vassilakis et al. | Database knowledge enrichment utilizing trending topics from Twitter | |
Kailer et al. | Rated Tags: Adding rating capability to collaborative tagging | |
US20170220644A1 (en) | Media discovery across content respository | |
Kozmina et al. | Perspectives of Information Requirements Analysis in Big Data Projects | |
Srinivasan et al. | Data Aggregation Of Tweets And Topic Modelling Based On The Twitter Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201113 |