CN106649329A - 一种安全生产大数据挖掘系统 - Google Patents
一种安全生产大数据挖掘系统 Download PDFInfo
- Publication number
- CN106649329A CN106649329A CN201510724022.7A CN201510724022A CN106649329A CN 106649329 A CN106649329 A CN 106649329A CN 201510724022 A CN201510724022 A CN 201510724022A CN 106649329 A CN106649329 A CN 106649329A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- mining
- value
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及安全生产技术数据领域,特别涉及一种能够有效及时排查事故隐患、降低事故发生的安全生产大数据挖掘系统,其特征在于数据抽取模块,用于获取数据库中关键数据信息,对每个数据信息进行唯一的编号ID;数据预处理模块,用于对从数据库中获取的数据信息进行预处理的数据预处理模块;数据挖掘模块,用于对数据进行运算然后实现挖掘;数据结构分析模块,用于对数据挖掘模块挖掘出来的结果进行分析;结果输出,用于将分析后的结果显示输出。本发明与现有技术相比,能够减少人工的参与量,对事故隐患数据库中输入的数据进行多层面、全方位的挖掘处理,并将挖掘结果进一步结构分析后,进行分类、可视化等处理,具有高效率、高准确、高价值等优点。
Description
技术领域
本发明涉及安全生产技术数据领域,特别涉及一种能够有效及时排查事故隐患、降低事故发生的安全生产大数据挖掘系统。
背景技术
近年来,随着信息技术的高速发展,数据量呈爆炸性增长。安全生产行业数据量增长也呈现出相似的态势,在数据增长过程中发生的事故隐患凸显严重,如何从海量数据中识别出有用的数据,分析潜在事故隐患,已经成为安全生产行业当务之急。目前,安全生产企业事故隐患排查工作主要靠人工,通过数据挖掘人员利用专业知识发现生产中存在的安全隐患,过程显得复杂,因此,这种方式易受到主观因素影响,且很难界定安全与危险状态,可靠性差。
可见在整个数据挖掘过程中,由于安全生产事故隐患数据量大、数据类型繁多不一、价值密度低、处理速度慢,人工无法准确在当前条件下对数据内容进行检索和管理,缺乏对来自不同数据源的离散数据集中分析的问题,安全事件数据库信息难以人为管理。且每个数据库之间的衔接、数据传递和交互很容易出现问题,无法保证有价值的数据得到提取,且数据挖掘效率低。
通过大数据挖掘系统预测隐患事故,防范事故发生是一个亟待解决的难题。如何实现高效率、高准确、高价值的大数据挖掘?提取有价值的信息?针对以上问题,本发明提供了一种安全生产大数据挖掘系统。
发明内容
现有安全生产事故隐患排查主要靠人工完成,通过数据挖掘人员利用专业知识发现生产中存在的安全隐患。面对海量数据,人工操作过程复杂,海量数据对比丧失正确性。无法正确的挖掘出有用的信息,很难界定隐患事故的安全与危险状态。
针对以上问题,本发明提供一种安全生产大数据挖掘系统,以解决现有技术中数据挖掘过程中无法保证数据对比正确性及整个挖掘过程效率低的问题。
本发明提供一种安全生产大数据挖掘系统,如图1所示大数据挖掘过程包括:数据抽取模块101,用于获取数据库中关键数据信息,对每个数据信息进行唯一的编号ID;数据预处理模块102,用于对从数据库中获取的数据信息进行预处理的数据预处理模块;数据挖掘模块103,用于对数据进行运算然后实现挖掘;数据分析模块104,用于对数据挖掘模块挖掘出来的结果进行分析;输出模块105,用于将分析后的结果显示输出。
本发明所述数据抽取模块101,利用数据访问接口规定的数据源和访问方法,从不同的平台和不同的应用中抽取数据,存入系统中,为数据挖掘提供数据来源。采用任务平衡和多线程机制进行,并且在抽取到的数据上增加索引。
本发明所述数据预处理模块102中包括用于填补遗漏的数据值、平滑有噪声的数据、识别或去除异常值的数据清理模块201;用于对数据信息进行编码处理,将数据库中字段的不同取值转换成数码形式,以便于搜索的数据转换模块202;用于将来自多个数据库数据合并到一起的数据集成模块203;用于在不影响最终挖掘结果的情况下减小数据挖掘的范围,以提高效率的数据规约模块204。
本发明所述数据挖掘模块103设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
本发明所述数据分析模块104包括用于获取计算模型输出结果的数据取值模块;用于对数据取值模块获取数据进行有效范围选择的数据选择模块、用于对选择后数据进行聚类分配的聚类分配模块、用于对聚类分配后数据进行分析的数据分析模块以及用于输出数据分析结果的显示输出模块。
本发明与现有技术相比,能够减少人工的参与量,对事故隐患数据库中输入的数据进行多层面、全方位的挖掘处理,并将挖掘结果进一步结构分析后,进行分类、可视化等处理,具有高效率、高准确、高价值等优点。
通过本发明安全生产大数据挖掘系统对安全生产事件信息的收集整理、统一存储,从原始安全生产事件信息数据库中发掘高质量的安全数据信息,自动做出响应,根据事故隐患严重程度给用户提供最为准确的安全隐患信息,以最大化的减少隐患的危害对安全生产产生的负面影响。使用户能有效监控和管理其不断扩大的安全事故隐患,而无需配备更多专业安全人员。
附图说明
图1是根据本发明实施例提供的一种安全生产大数据挖掘的过程图。
图2是根据本发明实施例提供的一种安全生产大数据挖掘预处理框架图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
下面结合附图对本发明作进一步的说明。
如附图1大数据挖掘步骤所示,本发明提出了一种安全生产大数据挖掘系统,其特征在于数据抽取模块101,用于获取数据库中关键数据信息,对每个数据信息进行唯一的编号ID;数据预处理模块102,用于对从数据库中获取的数据信息进行预处理的数据预处理模块;数据挖掘模块103,用于对数据进行运算然后实现挖掘;数据分析模块104,用于对数据挖掘模块挖掘出来的结果进行分析;结果输出105,用于将分析后的结果显示输出。
本发明所述数据抽取模块101,利用数据访问接口规定的数据源和访问方法,从不同的平台和不同的应用中抽取数据,存入系统中,为数据挖掘提供数据来源。采用任务平衡和多线程机制进行,并且在抽取到的数据上增加索引。
本发明所述数据预处理模块102中包括用于填补遗漏的数据值、平滑有噪声的数据、识别或去除异常值的数据清理模块201;用于对数据信息进行编码处理,将数据库中字段的不同取值转换成数码形式,以便于搜索的数据转换模块202;用于将来自多个数据库数据合并到一起的数据集成模块203;用于在不影响最终挖掘结果的情况下减小数据挖掘的范围,以提高效率的数据约束模块204。
所述数据清理模块201,填充缺失的值,光滑噪声并识别离群点,纠正数据库中数据的不一致性。第一步偏差检测,清理每个属性的定义域和数据类型、每个属性可接受的值、值的长度范围,查看是否所有的值都落在期望的值域内、属性之间是否存在已知的依赖;第二步纠正偏差,纠正数据的不一致。偏差检测与纠正偏差过程迭代执行。
所述数据集成模块202,将多个数据库运行环境中的异构数据进行合并,存放在一致的数据库存储中,属性在不同的数据库中设置相同的名称;设置统一的属性定义域;给定每个属性数据类型和取值范围;给定所有的值都落在期望的值域。
所述数据变换模块203,通过将数据库中属性值按比例缩放,使之落入一个特定区间,使用神经网络算法进行分类挖掘,对数据元组中量度的每个属性输入值进行规范化。
所述数据规约模块204用于在不影响最终挖掘结果的情况下减小数据挖掘的范围,以提高挖掘效率。其中包括用于通过离散化数值属性以及泛化字符型属性值来规约数据库中元组的元组规约模块;用于在安全生产海量数据挖掘之前,对属性进行分析、删除与分析任务不相关或不重要属性的属性规约。
本发明所述数据挖掘模块103设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
本发明所述数据分析模块104包括用于获取计算模型输出结果的数据取值模块;用于对数据取值模块获取数据进行有效范围选择的数据选择模块、用于对选择后数据进行聚类分配的聚类分配模块、用于对聚类分配后数据进行分析的数据分析模块以及用于输出数据分析结果的显示输出模块。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (6)
1.一种安全生产大数据挖掘系统,其特征在于数据抽取模块101,用于获取数据库中关键数据信息,对每个数据信息进行唯一的编号ID;数据预处理模块102,用于对从数据库中获取的数据信息进行预处理的数据预处理模块;数据挖掘模块103,用于对数据进行运算然后实现挖掘;数据分析模块104,用于对数据挖掘模块挖掘出来的结果进行分析;输出模块105,用于将分析后的结果显示输出。
2.根据权利要求1所述的一种安全生产大数据挖掘系统,其特征在于所述数据抽取模块101,利用数据访问接口规定的数据源和访问方法,从不同的平台和不同的应用中抽取数据,存入系统中,为数据挖掘提供数据来源;采用任务平衡和多线程机制进行,并且在抽取到的数据上增加索引。
3.根据权利要求1所述的一种安全生产大数据挖掘系统,其特征在于所述数据预处理模块102中包括用于填补遗漏的数据值、平滑有噪声的数据、识别或去除异常值的数据清理模块201;用于对数据信息进行编码处理,将数据库中字段的不同取值转换成数码形式,以便于搜索的数据转换模块202;用于将来自多个数据库数据合并到一起的数据集成模块203;用于在不影响最终挖掘结果的情况下减小数据挖掘的范围,以提高效率的数据约束模块204。
4.根据权利要求3所述一种安全生产大数据挖掘系统,其特征在于包括:
数据清理模块201,填充缺失的值,光滑噪声并识别离群点,纠正数据库中数据的不一致性:第一步偏差检测,清理每个属性的定义域和数据类型、每个属性可接受的值、值的长度范围,查看是否所有的值都落在期望的值域内、属性之间是否存在已知的依赖;第二步纠正偏差,纠正数据的不一致;偏差检测与纠正偏差过程迭代执行;
数据集成模块202,将多个数据库运行环境中的异构数据进行合并,存放在一致的数据库存储中,属性在不同的数据库中设置相同的名称;设置统一的属性定义域;给定每个属性数据类型和取值范围;给定所有的值都落在期望的值域;
数据转换模块203,通过将数据库中属性值按比例缩放,使之落入一个特定区间,使用神经网络算法进行分类挖掘,对数据元组中量度的每个属性输入值进行规范化;
数据规约模块204,用于在不影响最终挖掘结果的情况下减小数据挖掘的范围,以提高挖掘效率:其中包括用于通过离散化数值属性以及泛化字符型属性值来规约数据库中元组的元组规约模块;用于在安全生产海量数据挖掘之前,对属性进行分析、删除与分析任务不相关或不重要属性的属性规约。
5.根据权利要求1所述的一种安全生产大数据挖掘系统,其特征在于所述述数据挖掘模块设有加权平均法处理模块、卡尔曼滤波处理模块、统计决策处理模块以及神经网络处理模块。
6.根据权利要求1所述的一种安全生产大数据挖掘系统,其特征在于所述数据分析模块包括用于获取计算模型输出结果的数据取值模块;用于对数据取值模块获取数据进行有效范围选择的数据选择模块、用于对选择后数据进行聚类分配的聚类分配模块、用于对聚类分配后数据进行分析的数据分析模块以及用于输出数据分析结果的显示输出模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510724022.7A CN106649329A (zh) | 2015-10-30 | 2015-10-30 | 一种安全生产大数据挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510724022.7A CN106649329A (zh) | 2015-10-30 | 2015-10-30 | 一种安全生产大数据挖掘系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649329A true CN106649329A (zh) | 2017-05-10 |
Family
ID=58831239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510724022.7A Pending CN106649329A (zh) | 2015-10-30 | 2015-10-30 | 一种安全生产大数据挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649329A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107248118A (zh) * | 2017-07-24 | 2017-10-13 | 国网节能服务有限公司 | 数据挖掘方法、装置和系统 |
CN109241135A (zh) * | 2018-08-23 | 2019-01-18 | 吾达软件(武汉)股份有限公司 | 一种智能抽取数据的挖掘系统 |
CN110188985A (zh) * | 2019-04-18 | 2019-08-30 | 红云红河烟草(集团)有限责任公司 | 一种卷包车间质量数据处理方法 |
CN110188091A (zh) * | 2019-04-18 | 2019-08-30 | 红云红河烟草(集团)有限责任公司 | 一种卷包车间质量数据预处理方法 |
CN110321369A (zh) * | 2019-05-16 | 2019-10-11 | 国电南瑞科技股份有限公司 | 一种基于大数据的轨道交通事件分析系统和方法 |
CN110708418A (zh) * | 2019-09-09 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 一种识别呼叫方属性的方法及装置 |
CN110781176A (zh) * | 2019-11-06 | 2020-02-11 | 国网山东省电力公司威海供电公司 | 一种基于数据相关性的电网数据质量提升方法 |
CN111738412A (zh) * | 2020-05-28 | 2020-10-02 | 江门职业技术学院 | 一种不完全网络的大数据异常挖掘方法、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092316A (zh) * | 2013-01-22 | 2013-05-08 | 浪潮电子信息产业股份有限公司 | 一种基于数据挖掘的服务器功耗管理系统 |
CN103577605A (zh) * | 2013-11-20 | 2014-02-12 | 贵州电网公司电力调度控制中心 | 基于数据融合和数据挖掘的数据仓库及其应用方法 |
CN103872782A (zh) * | 2014-03-31 | 2014-06-18 | 国家电网公司 | 一种电能质量数据综合服务系统 |
CN104820907A (zh) * | 2015-05-22 | 2015-08-05 | 中国石油化工股份有限公司 | 基于数据挖掘的作业现场安全检查提升方法及系统 |
-
2015
- 2015-10-30 CN CN201510724022.7A patent/CN106649329A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092316A (zh) * | 2013-01-22 | 2013-05-08 | 浪潮电子信息产业股份有限公司 | 一种基于数据挖掘的服务器功耗管理系统 |
CN103577605A (zh) * | 2013-11-20 | 2014-02-12 | 贵州电网公司电力调度控制中心 | 基于数据融合和数据挖掘的数据仓库及其应用方法 |
CN103872782A (zh) * | 2014-03-31 | 2014-06-18 | 国家电网公司 | 一种电能质量数据综合服务系统 |
CN104820907A (zh) * | 2015-05-22 | 2015-08-05 | 中国石油化工股份有限公司 | 基于数据挖掘的作业现场安全检查提升方法及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107248118A (zh) * | 2017-07-24 | 2017-10-13 | 国网节能服务有限公司 | 数据挖掘方法、装置和系统 |
CN109241135A (zh) * | 2018-08-23 | 2019-01-18 | 吾达软件(武汉)股份有限公司 | 一种智能抽取数据的挖掘系统 |
CN109241135B (zh) * | 2018-08-23 | 2021-03-05 | 吾达软件(武汉)股份有限公司 | 一种智能抽取数据的挖掘系统 |
CN110188985A (zh) * | 2019-04-18 | 2019-08-30 | 红云红河烟草(集团)有限责任公司 | 一种卷包车间质量数据处理方法 |
CN110188091A (zh) * | 2019-04-18 | 2019-08-30 | 红云红河烟草(集团)有限责任公司 | 一种卷包车间质量数据预处理方法 |
CN110321369A (zh) * | 2019-05-16 | 2019-10-11 | 国电南瑞科技股份有限公司 | 一种基于大数据的轨道交通事件分析系统和方法 |
CN110708418A (zh) * | 2019-09-09 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 一种识别呼叫方属性的方法及装置 |
CN110708418B (zh) * | 2019-09-09 | 2021-06-29 | 国家计算机网络与信息安全管理中心 | 一种识别呼叫方属性的方法及装置 |
CN110781176A (zh) * | 2019-11-06 | 2020-02-11 | 国网山东省电力公司威海供电公司 | 一种基于数据相关性的电网数据质量提升方法 |
CN111738412A (zh) * | 2020-05-28 | 2020-10-02 | 江门职业技术学院 | 一种不完全网络的大数据异常挖掘方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649329A (zh) | 一种安全生产大数据挖掘系统 | |
US11221832B2 (en) | Pruning engine | |
US10042912B2 (en) | Distributed clustering with outlier detection | |
US10181012B2 (en) | Extracting clinical care pathways correlated with outcomes | |
US9460236B2 (en) | Adaptive variable selection for data clustering | |
Klinkmüller et al. | Increasing recall of process model matching by improved activity label matching | |
US20210209416A1 (en) | Method and apparatus for generating event theme | |
CN110958136A (zh) | 一种基于深度学习的日志分析预警方法 | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
CN108304382B (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN103902582B (zh) | 一种减少数据仓库数据冗余的方法和装置 | |
Fu et al. | Investigating and improving log parsing in practice | |
CN106503755A (zh) | 一种面向故障树的结构相似度匹配方法 | |
CN103064966B (zh) | 一种从单记录网页中抽取规律噪音的方法 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN115640300A (zh) | 一种大数据管理方法、系统、电子设备和存储介质 | |
US10671668B2 (en) | Inferring graph topologies | |
CN106575254A (zh) | 日志分析装置、日志分析系统、日志分析方法以及计算机程序 | |
CN108182178B (zh) | 基于事件文本数据挖掘的地下水水位分析方法与系统 | |
CN113515560A (zh) | 车辆故障的分析方法、装置、电子设备及存储介质 | |
CN112882997A (zh) | 一种基于N-gram与频繁模式挖掘的系统日志解析方法 | |
CN117520033A (zh) | 一种基于日志语义向量化和层次聚类的日志解析方法 | |
Sharma et al. | The way ahead for bug-fix time prediction | |
CN111209158B (zh) | 服务器集群的挖矿监控方法及集群监控系统 | |
CN115062144A (zh) | 一种基于知识库和集成学习的日志异常检测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |