CN114090664A - 一种弱信号事件挖掘生成系统及方法 - Google Patents

一种弱信号事件挖掘生成系统及方法 Download PDF

Info

Publication number
CN114090664A
CN114090664A CN202111515846.5A CN202111515846A CN114090664A CN 114090664 A CN114090664 A CN 114090664A CN 202111515846 A CN202111515846 A CN 202111515846A CN 114090664 A CN114090664 A CN 114090664A
Authority
CN
China
Prior art keywords
sensitive
information
list
class
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111515846.5A
Other languages
English (en)
Inventor
朱旭琪
王欢
韩启红
李祖希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingbo Intelligent Technology Co ltd
Original Assignee
Beijing Qingbo Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingbo Intelligent Technology Co ltd filed Critical Beijing Qingbo Intelligent Technology Co ltd
Priority to CN202111515846.5A priority Critical patent/CN114090664A/zh
Publication of CN114090664A publication Critical patent/CN114090664A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种弱信号事件挖掘生成系统,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块,敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库,信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库。本发明通过大数据的收集和分类筛选的方法更利于弱信号的敏感事件发现,及早挖掘尚未成为热点的敏感事件,为预警和处置提供更多时间与机会。

Description

一种弱信号事件挖掘生成系统及方法
技术领域
本发明属于分析处理领域,尤其涉及一种弱信号事件挖掘生成系统。
背景技术
热点事件很难进行预测,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质。究其本质而言,是因为这些事件本身就存在着高度传播性和敏感性,往往伴随着灾难性的后果,并且这种特性是一定的,只要发生了,就会成为焦点,原有更多偏向热点事件生成。为了提前预测事件的发生,得到警示和防范,我们对此做出改进,提出一种弱信号事件挖掘生成系统。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种弱信号事件挖掘生成系统,通过大数据的收集和分类筛选的方法更利于弱信号的敏感事件发现,及早挖掘尚未成为热点的敏感事件,为预警和处置提供更多时间与机会。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种弱信号事件挖掘生成系统,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块;
所述敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库;
所述信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库;
所述筛选模块用于将敏感特征信号、一类排序清单、二类排序清单从数据库中提取,产生敏感弱信号事件集并将最终结果发送给报告生成模块;
所述报告生成模块用于将最终结果生成报告展示。
进一步地,所述筛选模块将一类排序清单与二类排序清单进行对比,分析判断一类排序清单信息是否和二类排序清单信息相重合,若不重合则生成使用集,再将使用集与敏感特征信号匹配筛选,产生最终集,若重合,则删除重合部分。
一种弱信号事件挖掘生成方法:
A、敏感事件定义模块定义敏感事件,根据历史、专家知识形成敏感事件信号特征,包括从非实时交互数据中挖掘、从实时的交互数据中挖掘,对主流搜索引擎数据进行采集,对热度榜单数据进行筛选,制定热度浏览线,高于热度浏览线的进入敏感判断,根据人工判断、热度信息是否属于敏感信息,分出敏感信息和非敏感信息,再将敏感信息发送至数据库;
B、信息采集模块对符合计算时长窗口的全量内容信息做机器聚类,确保信息扫描完整,信息内容不丢失,保证信息采集的全面性,形成一类聚类排序清单,并发送给数据库,再对相应计算时长窗口的媒体类内容信息做机器聚类,对从论坛、微博、电子报、网络电视的媒体类型站点已经出现热点敏感事件的信息做标记,形成二类聚类排序清单,并发送给数据库;
D、分类筛选模块从数据库中提取一类聚类排序清单、二类聚类排序清单、敏感特征信号,通过对比一类排序清单和二类聚类排序清单,判断信息是否重合,若重合则删除,若不重合则提取集合,使用敏感特征信号匹配筛选,并将结果发送至报告生存模块;
E、根据分类筛选得出的最终集合得出最终结果,改结果则为预测的热点敏感事件。
本发明的有益效果是:该种一种弱信号事件挖掘生成系统,通过大数据的收集和分类筛选的方法更利于弱信号的敏感事件发现,及早挖掘尚未成为热点的敏感事件,为预警和处置提供更多时间与机会。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的流程示意图;
图2是本发明的分类筛选流模块程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示的一种弱信号事件挖掘生成系统,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块,敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库,信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库,筛选模块用于将敏感特征信号、一类排序清单、二类排序清单从数据库中提取,产生敏感弱信号事件集并将最终结果发送给报告生成模块,报告生成模块用于将最终结果生成报告展示。
如图2所示,筛选模块将一类排序清单与二类排序清单进行对比,分析判断一类排序清单信息是否和二类排序清单信息相重合,若不重合则生成使用集,再将使用集与敏感特征信号匹配筛选,产生最终集,若重合,则删除重合部分。
一种弱信号事件挖掘生成方法:
A、敏感事件定义模块定义敏感事件,根据历史、专家知识形成敏感事件信号特征,包括从非实时交互数据中挖掘、从实时的交互数据中挖掘,对主流搜索引擎数据进行采集,对热度榜单数据进行筛选,制定热度浏览线,高于热度浏览线的进入敏感判断,根据人工判断、热度信息是否属于敏感信息,分出敏感信息和非敏感信息,再将敏感信息发送至数据库;
B、信息采集模块对符合计算时长窗口的全量内容信息做机器聚类,确保信息扫描完整,信息内容不丢失,保证信息采集的全面性,形成一类聚类排序清单,并发送给数据库,再对相应计算时长窗口的媒体类内容信息做机器聚类,对从论坛、微博、电子报、网络电视的媒体类型站点已经出现热点敏感事件的信息做标记,形成二类聚类排序清单,并发送给数据库;
D、分类筛选模块从数据库中提取一类聚类排序清单、二类聚类排序清单、敏感特征信号,通过对比一类排序清单和二类聚类排序清单,判断信息是否重合,若重合则删除,若不重合则提取集合,使用敏感特征信号匹配筛选,并将结果发送至报告生存模块;
E、根据分类筛选得出的最终集合得出最终结果,改结果则为预测的热点敏感事件。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (3)

1.一种弱信号事件挖掘生成系统,其特征在于,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块;
所述敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库;
所述信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库;
所述筛选模块用于将敏感特征信号、一类排序清单、二类排序清单从数据库中提取,产生敏感弱信号事件集并将最终结果发送给报告生成模块;
所述报告生成模块用于将最终结果生成报告展示。
2.根据权利要求1所述的一种弱信号事件挖掘生成系统,其特征在于,所述筛选模块将一类排序清单与二类排序清单进行对比,分析判断一类排序清单信息是否和二类排序清单信息相重合,若不重合则生成使用集,再将使用集与敏感特征信号匹配筛选,产生最终集,若重合,则删除重合部分。
3.根据权利要求1所述的一种弱信号事件挖掘生成方法,其特征在于,所述方法包括以下步骤:
A、敏感事件定义模块定义敏感事件,根据历史、专家知识形成敏感事件信号特征,包括从非实时交互数据中挖掘、从实时的交互数据中挖掘,对主流搜索引擎数据进行采集,对热度榜单数据进行筛选,制定热度浏览线,高于热度浏览线的进入敏感判断,根据人工判断、热度信息是否属于敏感信息,分出敏感信息和非敏感信息,再将敏感信息发送至数据库;
B、信息采集模块对符合计算时长窗口的全量内容信息做机器聚类,确保信息扫描完整,信息内容不丢失,保证信息采集的全面性,形成一类聚类排序清单,并发送给数据库,再对相应计算时长窗口的媒体类内容信息做机器聚类,对从论坛、微博、电子报、网络电视的媒体类型站点已经出现热点敏感事件的信息做标记,形成二类聚类排序清单,并发送给数据库;
D、分类筛选模块从数据库中提取一类聚类排序清单、二类聚类排序清单、敏感特征信号,通过对比一类排序清单和二类聚类排序清单,判断信息是否重合,若重合则删除,若不重合则提取集合,使用敏感特征信号匹配筛选,并将结果发送至报告生存模块;
E、根据分类筛选得出的最终集合得出最终结果,改结果则为预测的热点敏感事件。
CN202111515846.5A 2021-12-13 2021-12-13 一种弱信号事件挖掘生成系统及方法 Pending CN114090664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111515846.5A CN114090664A (zh) 2021-12-13 2021-12-13 一种弱信号事件挖掘生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111515846.5A CN114090664A (zh) 2021-12-13 2021-12-13 一种弱信号事件挖掘生成系统及方法

Publications (1)

Publication Number Publication Date
CN114090664A true CN114090664A (zh) 2022-02-25

Family

ID=80307127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111515846.5A Pending CN114090664A (zh) 2021-12-13 2021-12-13 一种弱信号事件挖掘生成系统及方法

Country Status (1)

Country Link
CN (1) CN114090664A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN106407563A (zh) * 2016-09-20 2017-02-15 北京工业大学 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法
CN107480127A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 舆情分析方法及装置
CN111414520A (zh) * 2020-03-19 2020-07-14 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN106407563A (zh) * 2016-09-20 2017-02-15 北京工业大学 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法
CN107480127A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 舆情分析方法及装置
CN111414520A (zh) * 2020-03-19 2020-07-14 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统

Similar Documents

Publication Publication Date Title
US10248726B2 (en) Object search by description
CN102208992B (zh) 面向互联网的不良信息过滤系统及其方法
CN103246735B (zh) 一种异常数据处理方法及系统
CN107872454B (zh) 超大型互联网平台威胁信息监测与分析系统及方法
US8373880B2 (en) Technical documents capturing and patents analysis system and method
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
US7613667B2 (en) Methods and systems for analyzing incident reports
CN105843803A (zh) 大数据安全可视化交互分析系统及方法
CN115376045A (zh) 基于多模态融合深度学习的公共安全指挥智能化处理方法
CN106357635A (zh) 一种基于同源框架的漏洞对比分析方法
CN102193918A (zh) 视频检索方法和装置
CN102542061A (zh) 一种产品的智能分类方法
US20170316421A1 (en) Emerging defect and safety surveillance system
CN110688572A (zh) 冷启动状态下搜索意图的识别方法
CN114090664A (zh) 一种弱信号事件挖掘生成系统及方法
CN110968570A (zh) 面向电商平台的分布式大数据挖掘系统
CN111475706B (zh) 一种全天候自动检测重要消息的ai分析预警方法
CN113779250A (zh) 一种标准化文本数据处理系统
CN112287074A (zh) 一种基于数据挖掘的专利信息预测系统
CN111611385A (zh) 基于舆情分析的航班监控预警系统和方法
Chang et al. Identifying wrong-way driving incidents from regular traffic videos using unsupervised trajectory-based method
CN111639117A (zh) 基于数据加工的业务处理方法及装置
KR100450054B1 (ko) 대외정보 시스템 및 대외정보 처리방법
CN109783540A (zh) 一种基于特征码对特定群体人员的分析方法及系统
CN111526053B (zh) 一种基于置信度的网络安全告警处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220225