CN114090664A - 一种弱信号事件挖掘生成系统及方法 - Google Patents
一种弱信号事件挖掘生成系统及方法 Download PDFInfo
- Publication number
- CN114090664A CN114090664A CN202111515846.5A CN202111515846A CN114090664A CN 114090664 A CN114090664 A CN 114090664A CN 202111515846 A CN202111515846 A CN 202111515846A CN 114090664 A CN114090664 A CN 114090664A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- information
- list
- class
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 4
- 230000004083 survival effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种弱信号事件挖掘生成系统,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块,敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库,信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库。本发明通过大数据的收集和分类筛选的方法更利于弱信号的敏感事件发现,及早挖掘尚未成为热点的敏感事件,为预警和处置提供更多时间与机会。
Description
技术领域
本发明属于分析处理领域,尤其涉及一种弱信号事件挖掘生成系统。
背景技术
热点事件很难进行预测,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质。究其本质而言,是因为这些事件本身就存在着高度传播性和敏感性,往往伴随着灾难性的后果,并且这种特性是一定的,只要发生了,就会成为焦点,原有更多偏向热点事件生成。为了提前预测事件的发生,得到警示和防范,我们对此做出改进,提出一种弱信号事件挖掘生成系统。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种弱信号事件挖掘生成系统,通过大数据的收集和分类筛选的方法更利于弱信号的敏感事件发现,及早挖掘尚未成为热点的敏感事件,为预警和处置提供更多时间与机会。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种弱信号事件挖掘生成系统,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块;
所述敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库;
所述信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库;
所述筛选模块用于将敏感特征信号、一类排序清单、二类排序清单从数据库中提取,产生敏感弱信号事件集并将最终结果发送给报告生成模块;
所述报告生成模块用于将最终结果生成报告展示。
进一步地,所述筛选模块将一类排序清单与二类排序清单进行对比,分析判断一类排序清单信息是否和二类排序清单信息相重合,若不重合则生成使用集,再将使用集与敏感特征信号匹配筛选,产生最终集,若重合,则删除重合部分。
一种弱信号事件挖掘生成方法:
A、敏感事件定义模块定义敏感事件,根据历史、专家知识形成敏感事件信号特征,包括从非实时交互数据中挖掘、从实时的交互数据中挖掘,对主流搜索引擎数据进行采集,对热度榜单数据进行筛选,制定热度浏览线,高于热度浏览线的进入敏感判断,根据人工判断、热度信息是否属于敏感信息,分出敏感信息和非敏感信息,再将敏感信息发送至数据库;
B、信息采集模块对符合计算时长窗口的全量内容信息做机器聚类,确保信息扫描完整,信息内容不丢失,保证信息采集的全面性,形成一类聚类排序清单,并发送给数据库,再对相应计算时长窗口的媒体类内容信息做机器聚类,对从论坛、微博、电子报、网络电视的媒体类型站点已经出现热点敏感事件的信息做标记,形成二类聚类排序清单,并发送给数据库;
D、分类筛选模块从数据库中提取一类聚类排序清单、二类聚类排序清单、敏感特征信号,通过对比一类排序清单和二类聚类排序清单,判断信息是否重合,若重合则删除,若不重合则提取集合,使用敏感特征信号匹配筛选,并将结果发送至报告生存模块;
E、根据分类筛选得出的最终集合得出最终结果,改结果则为预测的热点敏感事件。
本发明的有益效果是:该种一种弱信号事件挖掘生成系统,通过大数据的收集和分类筛选的方法更利于弱信号的敏感事件发现,及早挖掘尚未成为热点的敏感事件,为预警和处置提供更多时间与机会。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的流程示意图;
图2是本发明的分类筛选流模块程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示的一种弱信号事件挖掘生成系统,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块,敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库,信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库,筛选模块用于将敏感特征信号、一类排序清单、二类排序清单从数据库中提取,产生敏感弱信号事件集并将最终结果发送给报告生成模块,报告生成模块用于将最终结果生成报告展示。
如图2所示,筛选模块将一类排序清单与二类排序清单进行对比,分析判断一类排序清单信息是否和二类排序清单信息相重合,若不重合则生成使用集,再将使用集与敏感特征信号匹配筛选,产生最终集,若重合,则删除重合部分。
一种弱信号事件挖掘生成方法:
A、敏感事件定义模块定义敏感事件,根据历史、专家知识形成敏感事件信号特征,包括从非实时交互数据中挖掘、从实时的交互数据中挖掘,对主流搜索引擎数据进行采集,对热度榜单数据进行筛选,制定热度浏览线,高于热度浏览线的进入敏感判断,根据人工判断、热度信息是否属于敏感信息,分出敏感信息和非敏感信息,再将敏感信息发送至数据库;
B、信息采集模块对符合计算时长窗口的全量内容信息做机器聚类,确保信息扫描完整,信息内容不丢失,保证信息采集的全面性,形成一类聚类排序清单,并发送给数据库,再对相应计算时长窗口的媒体类内容信息做机器聚类,对从论坛、微博、电子报、网络电视的媒体类型站点已经出现热点敏感事件的信息做标记,形成二类聚类排序清单,并发送给数据库;
D、分类筛选模块从数据库中提取一类聚类排序清单、二类聚类排序清单、敏感特征信号,通过对比一类排序清单和二类聚类排序清单,判断信息是否重合,若重合则删除,若不重合则提取集合,使用敏感特征信号匹配筛选,并将结果发送至报告生存模块;
E、根据分类筛选得出的最终集合得出最终结果,改结果则为预测的热点敏感事件。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (3)
1.一种弱信号事件挖掘生成系统,其特征在于,包括敏感事件定义模块、数据库、信息采集模块、分类筛选模块、报告生成模块;
所述敏感事件定义模块用于定义敏感事件,分为判断热度单元以及判断敏感单元,形成敏感事件信号特征,并发送至数据库;
所述信息采集模块用于对符合计算时长窗口的全量内容信息做机器聚类和相应计算时长窗口的媒体类内容信息做机器聚类,形成一类聚类排序清单、二类聚类排序清单,并发送给数据库;
所述筛选模块用于将敏感特征信号、一类排序清单、二类排序清单从数据库中提取,产生敏感弱信号事件集并将最终结果发送给报告生成模块;
所述报告生成模块用于将最终结果生成报告展示。
2.根据权利要求1所述的一种弱信号事件挖掘生成系统,其特征在于,所述筛选模块将一类排序清单与二类排序清单进行对比,分析判断一类排序清单信息是否和二类排序清单信息相重合,若不重合则生成使用集,再将使用集与敏感特征信号匹配筛选,产生最终集,若重合,则删除重合部分。
3.根据权利要求1所述的一种弱信号事件挖掘生成方法,其特征在于,所述方法包括以下步骤:
A、敏感事件定义模块定义敏感事件,根据历史、专家知识形成敏感事件信号特征,包括从非实时交互数据中挖掘、从实时的交互数据中挖掘,对主流搜索引擎数据进行采集,对热度榜单数据进行筛选,制定热度浏览线,高于热度浏览线的进入敏感判断,根据人工判断、热度信息是否属于敏感信息,分出敏感信息和非敏感信息,再将敏感信息发送至数据库;
B、信息采集模块对符合计算时长窗口的全量内容信息做机器聚类,确保信息扫描完整,信息内容不丢失,保证信息采集的全面性,形成一类聚类排序清单,并发送给数据库,再对相应计算时长窗口的媒体类内容信息做机器聚类,对从论坛、微博、电子报、网络电视的媒体类型站点已经出现热点敏感事件的信息做标记,形成二类聚类排序清单,并发送给数据库;
D、分类筛选模块从数据库中提取一类聚类排序清单、二类聚类排序清单、敏感特征信号,通过对比一类排序清单和二类聚类排序清单,判断信息是否重合,若重合则删除,若不重合则提取集合,使用敏感特征信号匹配筛选,并将结果发送至报告生存模块;
E、根据分类筛选得出的最终集合得出最终结果,改结果则为预测的热点敏感事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111515846.5A CN114090664A (zh) | 2021-12-13 | 2021-12-13 | 一种弱信号事件挖掘生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111515846.5A CN114090664A (zh) | 2021-12-13 | 2021-12-13 | 一种弱信号事件挖掘生成系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114090664A true CN114090664A (zh) | 2022-02-25 |
Family
ID=80307127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111515846.5A Pending CN114090664A (zh) | 2021-12-13 | 2021-12-13 | 一种弱信号事件挖掘生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114090664A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
CN106407563A (zh) * | 2016-09-20 | 2017-02-15 | 北京工业大学 | 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法 |
CN107480127A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 舆情分析方法及装置 |
CN111414520A (zh) * | 2020-03-19 | 2020-07-14 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
-
2021
- 2021-12-13 CN CN202111515846.5A patent/CN114090664A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
CN106407563A (zh) * | 2016-09-20 | 2017-02-15 | 北京工业大学 | 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法 |
CN107480127A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 舆情分析方法及装置 |
CN111414520A (zh) * | 2020-03-19 | 2020-07-14 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10248726B2 (en) | Object search by description | |
CN102208992B (zh) | 面向互联网的不良信息过滤系统及其方法 | |
CN103246735B (zh) | 一种异常数据处理方法及系统 | |
CN107872454B (zh) | 超大型互联网平台威胁信息监测与分析系统及方法 | |
US8373880B2 (en) | Technical documents capturing and patents analysis system and method | |
JP5827208B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
US7613667B2 (en) | Methods and systems for analyzing incident reports | |
CN105843803A (zh) | 大数据安全可视化交互分析系统及方法 | |
CN115376045A (zh) | 基于多模态融合深度学习的公共安全指挥智能化处理方法 | |
CN106357635A (zh) | 一种基于同源框架的漏洞对比分析方法 | |
CN102193918A (zh) | 视频检索方法和装置 | |
CN102542061A (zh) | 一种产品的智能分类方法 | |
US20170316421A1 (en) | Emerging defect and safety surveillance system | |
CN110688572A (zh) | 冷启动状态下搜索意图的识别方法 | |
CN114090664A (zh) | 一种弱信号事件挖掘生成系统及方法 | |
CN110968570A (zh) | 面向电商平台的分布式大数据挖掘系统 | |
CN111475706B (zh) | 一种全天候自动检测重要消息的ai分析预警方法 | |
CN113779250A (zh) | 一种标准化文本数据处理系统 | |
CN112287074A (zh) | 一种基于数据挖掘的专利信息预测系统 | |
CN111611385A (zh) | 基于舆情分析的航班监控预警系统和方法 | |
Chang et al. | Identifying wrong-way driving incidents from regular traffic videos using unsupervised trajectory-based method | |
CN111639117A (zh) | 基于数据加工的业务处理方法及装置 | |
KR100450054B1 (ko) | 대외정보 시스템 및 대외정보 처리방법 | |
CN109783540A (zh) | 一种基于特征码对特定群体人员的分析方法及系统 | |
CN111526053B (zh) | 一种基于置信度的网络安全告警处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220225 |