CN113688169B

CN113688169B - 基于大数据分析的矿山安全隐患辨识与预警系统

Info

Publication number: CN113688169B
Application number: CN202110927631.8A
Authority: CN
Inventors: 侯杰; 李国清; 赵威; 王浩; 强兴邦
Original assignee: University of Science and Technology Beijing USTB; Shandong Gold Mining Laizhou Co Ltd Sanshandao Gold Mine
Current assignee: University of Science and Technology Beijing USTB; Shandong Gold Mining Laizhou Co Ltd Sanshandao Gold Mine
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-08-08
Anticipated expiration: 2041-08-11
Also published as: CN113688169A

Abstract

本发明公开了一种基于大数据分析的矿山安全隐患辨识与预警系统，包括：大数据采集模块，用于采集不同来源、不同格式的安全隐患数据；大数据标准化预处理模块，用于对采集的安全隐患数据进行提取、清洗、标准化预处理；大数据分析模块，用于以数据挖掘模型库为基础，对预处理后的数据进行分析，并对分析结果进行结构化存储；大数据可视化模块，用于对大数据分析结果进行可视化呈现，便于安全管理者进行风险预警与科学决策。本发明构建了以智能分析、辨识、挖掘以及知识发现为核心内容的智慧安全分析与预警体系，能够为矿山安全风险识别、危险源分级、安全防控策略以及安全应急处置提供支持。

Description

基于大数据分析的矿山安全隐患辨识与预警系统

技术领域

本发明涉及矿山安全管理技术领域，特别涉及一种基于大数据分析的矿山安全隐患辨识与预警系统。

背景技术

矿山安全管理通常以矿山在生产过程中积累的安全隐患排查数据作为原始数据来源，这些安全隐患检查数据中包含了隐患发生时间、地点、隐患问题描述等大量有效信息。但是安全检查数据存在记录随意、用语不规范、行业习惯用语多、问题描述不清晰等问题，限制了其更深层次的有效利用，同时，矿山安全生产管理的特殊性和复杂性使得相应的采矿安全信息维度众多、内容庞大、层次多极化，因而在传统模式下，管理人员很难全面、实时、直观地掌控和分析矿山的安全生产状况。面对这些格式多样、标准不一、以文本数据为主的非结构化数据，矿山企业缺乏有效的分析方法，难以从海量的安全数据中提取出可指导安全生产的有价值信息，造成了数据资源的堆积与浪费。

经过分析研究，这些安全隐患记录数据呈现出突出的大数据4V特征，即数据体量(Volume)大、种类(Variety)多样、数据增长速度(Velocity)快、价值(Value)密度低。受限于传统数据分析的方法与功能，这些安全数据只用于完成简单的安全问题处理、报表分析和数据统计，数据的生命周期相当短暂，在隐患排查完成后即以分散化、无序化的形式堆积，沉淀成为大量的历史数据，对于增加隐患排查的针对性、可视化描述安全隐患的分布规律和关联关系等远未起到支撑作用。

大数据分析技术是通过分析挖掘算法实现从海量的、价值密度较低的数据中，提取出其中潜在有用的信息的过程，而且分析的对象可以是任何类型的数据。因此本文引入大数据分析中的文本挖掘与可视化方法，对这些矿山安全隐患数据进行分析，挖掘安全隐患中的隐藏知识，以实现安全管控从事后分析到事前预防、从被动应对到主动防控、从单一要素到精细协同的安全管理智能化的目标。

发明内容

本发明的目的在于提供一种基于大数据分析的矿山安全隐患辨识与预警系统，基于大数据平台，以面向不同维度的安全管理主题挖掘、安全风险的智能辨识、安全隐患的产生与分布规律、安全事件产生机理的知识挖掘等大数据分析为基础，建成以智能分析、辨识、挖掘以及知识发现为核心内容的智慧安全分析与预警体系，为矿山安全风险识别、危险源分级、安全防控策略以及安全应急处置提供支持。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于大数据分析的矿山安全隐患辨识与预警系统，包括：

大数据采集模块，用于采集不同来源、不同格式的安全隐患数据；

大数据标准化预处理模块，用于对采集的安全隐患数据进行提取、清洗、标准化预处理；

大数据分析模块，用于以数据挖掘模型库为基础，对预处理后的数据进行分析，并对分析结果进行结构化存储；

大数据可视化模块，用于对大数据分析结果进行可视化呈现，便于安全管理者进行风险预警与科学决策。

优选地，所述大数据标准化预处理模块具体用于：

整合行业语义词库：整合包括采矿工程、矿井通风、矿山地质勘探、矿山应急救援、矿业词汇术语在内的矿山生产专业词库以及安全管理相关词库；

构建自定义词库：在整合行业语义词库的基础上，通过对矿山安全主题数据进行词义分解和关键语义提取，分析矿山安全管理中关注的要素，同时结合矿山安全管理特点构建专门用于矿山安全主题大数据分析的语义词库；

动态更新停用词词库：去掉安全主题数据中的包括虚词、副词、序号在内的无意义内容，保留与安全主题相关的特征词。

优选地，所述大数据分析模块包括：

数据维度划分单元，以5W1H分析方法为指导，通过安全风险的成因要素聚类分析，结合矿山安全主题数据的特点及构成，抽象并归集安全主题数据的描述维度，并对各维度进行概念分层和属性划分；

数据挖掘模型库，包括多种数据挖掘模型，所述数据挖掘模型实例化后嵌入所述数据挖掘模型库，便于大数据分析时进行调用；使用时，针对不同的安全主题数据，选择适合的数据挖掘模型进行大数据分析。

优选地，所述数据挖掘模型库包括：

主题挖掘模型，用于揭示矿山频发、高危、高风险的安全管理主题，实现安全管理主题域的挖掘与归集；

语义网络分析模型，用于以网络格式表达知识构造的模型，通过计算语义距离及安全隐患要素词性，构建安全隐患要素及其共现关系的集合，深层次地表示安全隐患结构、层次及安全隐患间的因果关系，从而直接表达出安全隐患的语义关系；

关联规则挖掘模型，用于挖掘矿山各类危险源之间潜在的、隐含的关联；

隐患分类模型，用于根据矿山安全隐患数据中蕴含的安全隐患的规律、规则和知识，进行安全隐患的自动分类，以实现非结构化矿山隐患文本资源的有序整合；

事故预测模型，用于揭示安全隐患可能的发展走向，并对由安全隐患积累导致的安全生产事故进行预测。

优选地，所述主题挖掘模型采用的算法包括HDP算法、LDA算法、DTM算法、LSA算法和TF-IDF算法；所述语义网络分析模型采用的算法包括LSA算法和BM25算法；所述关联规则挖掘模型采用的算法包括Apriori算法；所述隐患分类模型采用的算法包括支持向量机算法、K最近邻算法、人工神经网络算法和朴素贝叶斯算法；所述事故预测模型采用的算法包括统计回归算法、时间序列算法、马尔科夫链算法、灰色预测算法、神经网络算法和链路预测算法。

优选地，所述大数据可视化模块包括：

图形可视化单元，用于按照人的行为、物的因素、环境影响、管理问题、地点位置五个因素对安全隐患数据中提取的高频词汇进行分类，并通过图形进行可视化展示，以便于后续通过大数据分析方法智能辨识矿山生产过程中的主要危险源；

时序特征可视化单元，用于利用时间线工具对安全隐患频次进行统计并以柱状图的形式进行可视化展示，对安全隐患在时间维度呈现出的变化趋势进行拟合和预测，通过设置预警值的方式，实现基于频次特征的矿山安全隐患预警；

多维特征可视化单元，用于采用桑基图对安全隐患在时间、空间、责任主体和隐患类型呈现出的多维特征进行可视化展示；

层次特征可视化单元，用于利用层次边缘捆绑技术对矿山安全隐患的层次结构特征进行可视化展示。

优选地，所述图形可视化单元通过以下图形中的一种或多种进行可视化展示：词云图、瀑布图、桑基图、层次边缘捆绑图以及ForceAtlas图形。

优选地，所述矿山安全隐患辨识与预警系统还包括系统管理模块，所述系统管理模块用于进行数据接口管理、知识库管理、数据挖掘模型库管理和可视化组件管理。

本发明实施例提供的技术方案带来的有益效果至少包括：

(1)面向文本挖掘的安全隐患多维数据集构建；

本发明对矿山安全隐患数据进行清洗整理，建立安全隐患文本语料库，通过分词、词频统计获得隐患高频词表，对隐患信息进行多维度分类及可视化，获取安全隐患在致因、时间、空间维度分布规律，以词云图、社会网络图形式实现矿山安全隐患信息管理可视化。

(2)安全隐患主题的形成与聚类分析；

本发明基于主题挖掘算法构建矿山安全隐患主题挖掘模型，对矿山隐患数据进行深入挖掘，提取出隐患信息中隐含的隐患种类分布，并通过抽样算法确定最佳隐患主题数量，得到反映矿山安全问题的隐患主题，实现了矿山安全隐患数据中存在隐患问题主题的自动获取，对矿山安全管理工作具有重要意义。

(3)基于安全隐患语义网络的安全隐患辨识；

本发明构建矿山安全隐患语义网络图，实现对矿山安全隐患问题的整体描述，结合中心性分析得出矿山安全隐患各要素间影响程度，并进一步探索以隐患语义网络图为基础的安全隐患辨识分析方法，为矿山隐患辨识分析提供一种新的途径。

(4)面向关联规则模型的安全隐患并发特征分析；

本发明构建了矿山隐患关联规则挖掘模型，对安全隐患信息进行关联规则挖掘，挖掘出引发安全事故的隐患间的内部关联规律，实现了矿山安全隐患数据关联规则的自动获取，通过获取的隐患关联规则可有效指导安全隐患检查工作，提高矿山安全隐患排查效率。

(5)安全大数据分析的实体化应用；

本发明利用大数据平台数据挖掘和汇聚分析优势，建立多维数据分析场景和分析模型，通过可视化技术的运用，将海量数据直观展示，智慧安全管理重点数据醒目呈现，异常数据及时预警，发挥数据运营价值，动态监管矿山安全状况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于大数据分析的矿山安全隐患辨识与预警系统的框架示意图；

图2是本发明实施例提供的矿山安全隐患描述模型示意图；

图3是本发明实施例提供的时序特征可视化结果示意图；

图4是本发明实施例提供的多维特征可视化结果示意图；

图5是本发明实施例提供的层次特征可视化结果示意图；

图6是本发明实施例提供的矿山安全隐患辨识与预警的整体路线图；

图7是本发明实施例提供的人的安全行为词云图；

图8是本发明实施例提供的物的不安全因素词云图；

图9是本发明实施例提供的环境的影响因素词云图；

图10是本发明实施例提供的管理问题词云图；

图11是本发明实施例提供的高频隐患地点气泡图；

图12是本发明实施例提供的矿山安全隐患LDA主题挖掘模型结构图；

图13是本发明实施例提供的矿山安全隐患LDA主题挖掘模型原理图；

图14是本发明实施例提供的吉布斯算法计算过程示意图；

图15是本发明实施例提供的矿山隐患主题挖掘流程示意图；

图16是本发明实施例提供的吉布斯抽样算法结果示意图；

图17是本发明实施例提供的金属地下矿山安全隐患语义网络图；

图18是本发明实施例提供的隐患语义网络密度分析结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种基于大数据分析的矿山安全隐患辨识与预警系统，如图1所示，所述系统包括：

在本发明的实施例中，上述各模块以矿山安全隐患大数据平台为基础性平台，基础性平台分为云计算和大数据分析两部分，云计算为安全隐患数据的存储、模型计算提供支持，大数据分析为安全隐患数据提取、加工、分析和深层次利用提供支撑。从事务处理和服务角度，所述系统可以划分成数据资产管理和平台运维管理两部分，数据资产管理主要包括基础数据采集和数据预处理，平台运维管理包括知识库、算法库、执行分析脚本和数据可视化管理等。

进一步地，所述大数据采集层将不同来源、不同格式的安全隐患数据按照统一的数据标准进行集中存储。安全隐患数据来源广泛，采集形式多样，安全隐患数据主要来源于不同周期、不同主题的矿山现场安全检查工作，数据表现为非结构化文本数据以及图像、视频资料，数据采集形式分为电脑端和移动端软件两种。

进一步地，所述大数据标准化预处理模块具体用于：

本发明实施例中，所述大数据标准化预处理模块将安全隐患文本数据进行提取、转换、清洗、标准化处理后，归集为不同主题的数据仓库，生成面向决策分析需求的数据立方体。安全隐患数据清洗包括缺失数据填补、错误数据修正、以及数据格式统一等；针对文本数据特征，需结合矿山安全知识构建安全隐患标准化词库，运用词库实现安全隐患描述的标准化分词，并从时间、空间、致因、类型、责任主体等维度构建安全隐患数据立方体。

进一步地，所述大数据分析模块包括：

其中，确定数据观察的角度与知识挖掘路径，是大数据分析的前提和基础，这需要对大量隐患信息进行维度化、标准化处理。安全隐患排查记录数据均以非结构或半结构化的文字形式记录，同时数据的记录方式受到检查人员用语习惯影响存在较大差异，为安全知识挖掘带来了难度，为此，探索一种安全数据结构化表达方式十分重要，满足从多个维度对安全问题进行描述的要求。为确保对安全问题描述维度抽取过程的全面性，本发明实施例中以5W1H分析方法(即六何分析方法)为指导，最终提炼出的矿山安全隐患描述模型如图2所示。

数据挖掘模型库是安全隐患分析与辨识的核心部件。通过分析各类数据挖掘算法的优势与适用条件，结合矿山安全隐患数据特征，选择适合处理矿山安全隐患数据的模型，在将模型实例化后嵌入系统模型库，便于数据分析时的自动化、便捷化调用。

具体地，所述数据挖掘模型库包括主题挖掘模型、语义网络分析模型、关联规则挖掘模型、隐患分类模型和事故预测模型。

主题挖掘模型用于揭示矿山频发、高危、高风险的安全管理主题，实现安全管理主题域的挖掘与归集，以此提高矿山安全管理工作的针对性。主题挖掘模型是一种概率生成模型，常用于挖掘大规模文档集的潜在主题，其基本原理是通过词项在文档集中的共现信息，利用概率反推文档的主题结构，进而得到整个文档集的主题分布。主题挖掘模型采用的算法包括：HDP算法、LDA算法、DTM算法、LSA算法和TF-IDF算法等。其中，LDA算法具有较强的泛化能力，适合处理大量数据集，同时该算法对于描述不规范、存在大量专业词汇的文本数据具有较高的准确度，因此，本发明实施例中选用LDA算法进行安全隐患数据的主题挖掘。

随着矿山安全隐患数据容量不断扩大，安全隐患文本表现出海量、无序、离散特征，梳理安全隐患语义脉络成为矿山安全管理的难题之一。语义网络分析模型是一种以网络格式表达知识构造的模型，通过计算语义距离及安全隐患要素词性，构建安全隐患要素及其共现关系的集合，深层次地表示安全隐患结构、层次及安全隐患间的因果关系，从而直接表达出安全隐患的语义关系。语义网络分析模型采用的算法主要包括潜在语义分析(LSA)算法和BM25算法等。

安全隐患的各类危险源不是孤立存在的，它们之间存在潜在的、隐含的关联，矿山各类危险源之间隐含关联规则的揭示对提高危险源识别的准确性和隐患排查效率具有重要作用。关联规则挖掘模型用于挖掘矿山各类危险源之间潜在的、隐含的关联。Apriori算法是挖掘布尔关联规则频繁项目集的经典算法，利用Apriori算法，通过设置适当的支持度、置信度和提升度阈值可以挖掘出引发矿山安全事故的隐患间的内部关联规律，以此为基础构建一种关联隐患预警方法，为隐患的预测性排查和安全事故致因的隐含性要素揭示提供模型支持，有助于矿山企业实现本质安全。

隐患分类模型用于根据矿山安全隐患数据中蕴含的安全隐患的规律、规则和知识，进行安全隐患的自动分类，以实现非结构化矿山隐患文本资源的有序整合。常用的文本分类算法包括：支持向量机算法、K最近邻算法、人工神经网络算法和朴素贝叶斯算法等。其中，支持向量机方法可以保证解的唯一性和全局最优性，解决了神经网络等算法难以避免的局部极值问题，且算法复杂度与样本维度无关，具有稳定性、鲁棒性、高准确率等优点，因此，本发明实施例中优选采用SVM算法进行安全隐患类型的分类。

准确的事故隐患预测能够将安全隐患消灭在萌芽状态，使安全生产事故由事后处置转变为事前预防，保证矿山企业生产安全。事故预测模型用于揭示安全隐患可能的发展走向，并对由安全隐患积累导致的安全生产事故进行预测。常用的事故预测算法有统计回归算法、时间序列算法、马尔科夫链算法、灰色预测算法、神经网络算法和链路预测算法等。本发明实施例中采用ARIMA模型对由安全隐患积累导致的安全生产事故进行预测，通过揭示安全隐患可能的发展走向，使管理人员以全新的视角解决安全隐患特征提取及预测等诸多问题。

进一步地，所述大数据可视化模块包括：

其中，所述图形可视化单元通过以下图形中的一种或多种进行可视化展示：词云图、瀑布图、桑基图、层次边缘捆绑图以及ForceAtlas图形等；

时序特征可视化单元，用于利用时间线工具对安全隐患频次进行统计并以柱状图的形式进行可视化展示，对安全隐患在时间维度呈现出的变化趋势进行拟合和预测，通过设置预警值的方式，实现基于频次特征的矿山安全隐患预警。时序特征可视化结果如图3所示。

多维特征可视化单元，用于采用桑基图对安全隐患在时间、空间、责任主体和隐患类型呈现出的多维特征进行可视化展示。

矿山安全检查从多个维度上考量隐患发生的原因及具体情况，包括时间、地点、隐患问题、责任人、奖惩措施、整改办法等，多维数据可视化可以帮助安全管理人员发现数据多个属性维度间的关系，而高维可视化越有效，识别出潜在的模式、相关性或离群值的概率越高。桑基图可以突出呈现安全隐患的关键信息流动，同时形象地展现隐患特征在不同隐患主体之间的比例关系，有助于管理人员把握安全隐患细节。采用桑基图对安全隐患在时间、空间、责任主体和隐患类型等维度呈现出的多维特征进行可视化，结果如图4所示。图中的每个分支代表1条信息流，分支的宽度和流向分别呈现了不同维度安全隐患的发生频率及特点。

矿山安全隐患数据量庞大且层次结构不清晰，需要借助可视化方法对数据的结构和形式进行转换，更好地呈现出数据间关联、层级与脉络。层次边缘捆绑技术可以用于表示节点间的网络关系，适合节点较多的数据关系可视化。本发明利用层次边缘捆绑技术对矿山安全隐患的层次结构特征进行可视化，结果如图5所示。

进一步地，所述矿山安全隐患辨识与预警系统还包括系统管理模块，所述系统管理模块用于进行数据接口管理、知识库管理、数据挖掘模型库管理和可视化组件管理。

系统管理模块能够保证系统在安全隐患数据来源增加、数据挖掘模型扩充以及可视化形式日益丰富的情况下具有良好的升级能力。

下面以三山岛金矿安全管理体系和大数据平台为例，对本发明的实施过程进行详细的阐述。

本实施例中矿山安全隐患辨识与预警的整体路线如图6所示。

由于安全隐患排查原始数据具有记录随意、内容丢失、录入错误等问题，为了保证文本挖掘效果首先对原始数据进行规范化处理，剔除责任人、责任单位等内容、仅保留数据中时间、地点、隐患问题部分，同时对记录中不规范格式及错别字进行纠正，处理后的规范信息如表1所示。

表1部分安全隐患检查隐患信息

由于文本挖掘对象为矿山隐患排查信息，数据中包含大量矿山生产专业词汇，为了提高文本分词的准确性，在进行文本挖掘前需添加自定义词库。因此，针对安全管控过程中涉及到的安全问题描述，结合通用语义库、矿山生产专业词汇、安全管理专用场景等，构建普遍适用于金属地下矿山的语义分词库。

分词选用jieba包进行，取前200经过处理的高频词作为有效分词结果(最小词频大于45)，部分高频词如表2所示。

表2部分高频隐患词表

分词后将被拆分的同义词进行合并如戴安全帽、安全帽；裂隙、裂缝等。由于挖掘对象为隐患排查信息，分词后出现大量采场、安全、隐患等词汇，这些词汇虽然可以判断文本内容但对隐患挖掘及分析没有明显作用故将其删除。

经过分词与词频统计后的安全隐患词汇中包含了大量隐含信息，其中各类词汇混杂。有表示各类设施与物品的名词例如导爆管、风机、配电箱等，也有表示作业行为的动词包括掘进、冲帮等，表示地点位置的顶板、迎头、斜坡道等。而确定数据观察的角度与知识挖掘路径，是大数据分析的前提和基础，这需要对大量隐患信息进行维度化、标准化处理。安全隐患排查记录数据均以非结构或半结构化的文字形式记录，同时数据的记录方式受到检查人员用语习惯影响存在较大差异，为安全知识挖掘带来了难度，为此，探索一种安全数据结构化表达方式十分重要，满足从多个维度对安全问题进行描述的要求。

为确保对安全问题描述维度抽取过程的全面性，将5W1H要素分析法与矿山的安全生产管理相结合，扩展并形成具备普遍适用性的安全管理要素集，通过安全风险的成因要素聚类分析，结合矿山安全主题数据的特点及主要内容构成，抽象并归集安全主题数据的描述维度，并对各维度进行概念分层和属性划分，形成适用于金属地下矿山安全主题数据结构化表达的体系框架。

在完成安全主题数据的维度定义与格式化的基础上，进一步采用文本聚类方法，将文本特征词归集到相应的维度，形成安全主题多维数据集。采用数理统计分析方法对安全风险产生的频次数据进行加工，形成多维数据集中关于安全风险发生次数方面的事实数据，同时为安全隐患的时空分布规律研究与内蕴知识发现提供格式化的数据集合，实现大量描述性的安全主题数据的标准化和格式化，基于此可得到的安全隐患多维特征分析图。

根据现代安全理论企业安全生产管理要素分为人、物、环、管，即人员的不安全作业行为、设备物料的不安全状态、作业环境的缺陷以及在安全管理中出现的问题都是引发事故的原因。为了从事故致因维度探究矿山安全隐患数据中隐含的信息，按照人的行为、物的因素、环境影响、管理问题、地点位置五个因素对隐患高频词汇进行分类并通过词云图的方式进行可视化表示，利用大数据分析方法智能辨识矿山生产过程中的主要危险源。隐患词汇分类说明如表3所示。

表3金属地下矿山隐患词语分类说明

人员不安全行为分析：

为了揭示安全隐患信息中人员不安全行为所涉及隐患问题，首先对隐患词汇按照人的不安全行为进行分类，分类后结果如表4所示。

表4人的不安全行为分类结果(部分)

从表中可以看出在人的行为中锚杆支护作业问题出现频率最高其次为掘进、冲帮、吊挂等作业行为，反映出在该矿山生产作业时支护作业出现隐患问题最多，且较为严重其次为掘进、冲帮、吊挂等作业行为。

为了更直观的展示分类中人的安全行为概况，采用FineBI进行词云图绘制，通过调节词云图形与颜色并将分后统计好的词频加载生成词云图，如图7所示。图中字体大小代表该问题出现频率，频率越高字体越大。通过词云图的形式将安全隐患信息中人的安全行为进行可视化表示，描述出安全隐患中人因问题的分布情况，相比图表形式使信息表达更直观高效。

物的不安全因素分析：

为了揭示隐患信息中材料设备等不安全因素的影响情况，对隐患词汇按照物的不安全状态进行分类，分类后结果如表5所示。

表5物的不安全因素分类结果(部分)

从表中可以看出在物的因素中风带、风机、配电箱、炸药等排名靠前说明这些设备和材料出现隐患问题较为频繁。从炸药、导爆管、残药等词汇高频出现可以看出，矿山爆破作业中存在不安全因素较多。吉普车、铲运机、电机车、卡车暴露出车辆问题频繁发生。使用词云图对矿山生产中物的不安全因素进行可视化表示，如图8所示。

环境影响分析：

对隐患词汇按照环境的影响因素进行分类，分类后结果如表6所示，从表中可以看出在环境的影响中浮石、照明问题较为严重，其次为积水、通风、淤泥等环境问题。

表6环境影响因素分类结果(部分)

使用词云图对矿山生产中环境的影响因素进行可视化表示，如图9所示。

管理问题分析：

对隐患词汇按照管理问题进行分类，分类后结果如表7所示，从管理问题中可以看出文明生产问题突出，戴安全帽、缺少防护措施、超载等安全管理问题较为常见。在管理问题中从超载、超员、超速、安全带等词汇可以看出，运输作业中暴露出的管理缺陷较为严重。

表7管理问题分类结果(部分)

使用词云图对矿山生产中管理问题进行可视化表示，如图10所示。

隐患地点分析：

对隐患词汇按照隐患发生地点进行分类，分类后结果如表8所示。

表8隐患地点分类结果(部分)

从表中可以看出，在隐患发生地点中顶板出现频率最高暴露出顶板文件较为严峻，其次为迎头(掘进面)、路面与风井。使用气泡图对矿山生产中隐患高频率发生地点进行可视化表示，如图11所示。

由于矿山安全隐患数据存在数据量大、隐患问题复杂多类等特点，在矿山安全管理中难以实现针对隐患数据对隐患类别进行划分，更难以发现安全隐患问题中隐藏的隐患主题。鉴于此，引入主题挖掘算法通过构建矿山隐患主题挖掘模型，对矿山生产作业中存在的隐患问题进行深入挖掘，通过获取的能反映出矿山安全问题的隐患主题，指导矿山安全管理工作针对性的开展。

由于LDA主题模型具有较强的泛化能力，适合处理大量数据集，同时该模型对于描述不规范、存在大量专业词汇的文本数据具有较高的准确度，因此选取LDA主题模型对矿山安全隐患文本数据进行隐患主题挖掘。

LDA主题模型基于贝叶斯概率结构，具有挖掘文本数据中隐患主题的能力。该模型将文档数据集中的每篇文档视为非单一主题，而整体文档是由一系列主题按比例相混杂构成的。

矿山安全隐患主题挖掘模型由三层贝叶斯概率结构组成，由上至下依次为隐患数据、隐患主题、隐患特征词，安全隐患主题挖掘实质为利用隐患词汇的共现特征来挖掘隐患的主题。其结构图如图12所示。

LDA主题模型作为一种无监督的机器学习技术，其模型原理如图13所示。图中K为隐患主题数，N表示隐患数据集D中隐患总数。公式中主题为Φ_1:k，Φ_k表示第k个隐患主题的特征词分布，Φ_k为v维向量(v为词典中词汇总数)；θ_d表示第d条隐患记录的主题分布，θ_d是k维向量(k为隐患主题总数)，θ_d,k表表示第k个隐患主题在第d条隐患记录中的比例；z_d表示第d条隐患数据的全体，其中z_d,n是第d条隐患数据中第n个隐患词汇的主题；w_d为第d条隐患中所有的隐患词汇，其中w_d,n表示第d条隐患数据中第n个隐患词汇。

图中联合分布以及LDA模型的后验概率分别如式(1)式(2)所示：

从矿山LDA主题模型的隐患主题生成过程中可以看出，在模型运算中需要对两个参数进行估计；“隐患集-隐患主题”分布θ_d和“隐患主题-隐患词汇”分布Φ_k。通常使用吉布斯(Gibbs)抽样算法对这两个参数进行计算估计，计算过程如公式(3)所示。

吉布斯(Gibbs)抽样算法的核心原理为：以循环的条件分布抽样方法，使得每次抽样结果近于全概率分布，也就是在每次抽样时只对一个分量进行采样，并且除该分量之外的其他的分量保持不变。因此吉布斯抽样算法适用于大规模数据集中，并且实现起来较为容易。图14为吉布斯算法计算过程，图中p(zi|z_-i,d,w)为更新规则，作用为排除当前词的主题分配。

在对矿山安全隐患进行主题挖掘前需要对矿山安全隐患数据进行预处理，处理过程包括隐患分词与词频统计。为保证主题挖掘准确度，首先需要对分词结果进行加权，随后采用Gibbs抽样算法进行LDA主题模型参数估计，通过10折交叉检验获得最优参数，将结果带入LDA-Gibbs模型进行计算，获取最终主题挖掘结果。具体流程如图15所示。

采用“困惑度”对LDA主题模型最佳主题数进行估计，在困惑度最小时可确定最佳主题数量。通常困惑度越小，主题模型的泛化能力和推广性就越好，困惑度计算公式如式(4)：

式中：p表示困惑度；N_d表示第d条隐患数据中的隐患词数；w_(d,i)为第d条隐患数据中第i个隐患词汇。在实验中依次对隐患主题数T取值10，20，…，100，取a经验值为50/T，β＝0.01，采用10折交叉检验，迭代训练1000次，迭代测试100次。如图16是运用Gibbs抽样算法的计算结果，从图中可以看出，在困惑度最低且出现拐点处确定最优主题数为10个。

由于矿山安全隐患复杂多变，但每种隐患都不能忽视，出现频率较小的安全隐患若不能及时发现仍可能导致安全事故发生，因此在主题模型计算前引入TF-IDF算法进行词向量加权，加权算法如式(5)。

式中：tf(t,d)表示词频；idf(t)表示逆向文件频率。将隐患分词结果经过TF-IDF算法加权后带入参数运用LDA-Gibbs模型计算，得到安全隐患主题10个，将获取的安全隐患主题中的噪声主题词进行删除处理，同时结合矿山生产实际情况对获取的安全隐患主题进行总结划分。经过整理的主题挖掘结果见表9所示。

表9基于LDA的矿山安全隐患主题挖掘结果

通过对主题挖掘结果进行分析及实地调研发现，获得的10个安全隐患主题很好的反应了该矿山在2011年至2021年间存在的主要安全隐患类型。因此说明LDA主题模型对矿山安全隐患文本数据进行主题挖掘的结果具有实际意义，并且获得的矿山安全隐患主题对隐患排查与治理具有重要参考价值。

语义网络思想及围绕语义网络目标实现所开发的一系列技术，称为语义网络技术，简称语义技术(Semantic Technology)。语义技术为异构数据提供数据互操作的技术基础，也为大数据的有效分析提供一种技术途径。语义网络(语义技术)的主要思想包括：

(1)任何信息系统都需要数据；

(2)数据表示要独立于具体的应用和平台，以保证最大程度的可重用性；

(3)采用统一的数据概念表示，以保证数据表示独立于具体系统(可采用Triple/Tuple形式)；

(4)数据应能描述网络资源(要采用RDF/RDFS或其他类似的语言)；

(5)数据应提供初步推理支持(要采用OWL或其他知识表示语言)。值得注意的是RDF/RDFS/OWL均采用Triple语义模型。

以下介绍语义网络在矿山安全隐患分析当中的应用。

矿山安全管理知识可视化需要对原始安全数据中隐含的关联关系、潜在规律进行分析挖掘，矿山安全大数据为安全管理知识可视化提供了数据来源。对于“大数据”的概念，IDC将其定义为：大数据必须是高速、实时的数据量，且数据量超过100TB；如果数据量不大，那么年增长数据量必须大于60％。该定义只是给出了大数据量化的标准，但并不能代表全部大数据的定义，如不相关和不准确的数据就不是大数据。矿山安全生产过程中积累的海量安全数据要成为大数据，需要按照一致性、完整性、实时性、精确性、实体统一性原则对数据进行筛选，只有同时满足这五个原则才能保证数据的有效性，从而保证安全管理者获取安全信息的及时性、准确性、完整性，这也是提高安全管理者对安全信息认知的时效性和精度以及保证安全管理者及时、精准、有效做出安全管理决策的关键。

根据统计发现，矿山生产过程中受到700多种安全隐患的威胁，如果对些隐患进行实时监控，一天将产生300GB左右的数据量。根据对矿山安全大数据特征的分析和对矿山安全大数据属性的分析可知，矿山安全大数据具有4“V”特征，同时也具有多来源对象、多时空尺度、多主题类型、多专业领域等属性。由此可知，矿山安全监测监控系统24h不间断进行监测监控的风速、矿压、温度、人员定位、供电、各种机电设备开停、视频监控录像、安全隐患记录、矿石产量等数据属于大数据的范畴。对这些安全大数据进行分析挖掘和知识可视化研究，揭示其中隐含的重要信息、规律、规则和知识，对提高安全管理的科学性具有重要意义。

对于词频分析只是把隐患因素看作单一的个体，而事故发生由多个隐患因素导致。事故发生各类理论所涉及的因素不同，但理论呈现出相似的结构，可统一用集合表达，描述如式(6)：

Sn＝{T1，T2，T3，T4，…，Tn} (6)

其中：Sn为安全事故；Tn为隐患因素。

根据分词后整理所得高频词表，利用共现分析方法分析安全隐患检查数据中各隐患因素的共现规律，并确定矿山安全隐患因素集合。共现分析原理是统计一组词语在同一文本中出现的次数，并通过词语与共现关系的集合反应隐患数据的主体内容，进而达到在文本数据中集中挖掘隐含知识的目的。通过共词分析导出共现VNA矩阵，既表示各词汇同时出现情况，如表10所示。

表10矿山安全隐患词汇共现矩阵(部分)

将共现矩阵导入NetDraw工具绘制语义网络图，通过调整布局后得到如图17所示的金属地下矿山安全隐患语义网络图。

图中各隐患词汇节点间的连线表示两个隐患词汇共同出现在同一条安全隐患检查记录中，而连线的线条粗细程度代表同出现的频率，频率越高线条越粗。网络图中节点方块的大小代表节点中心度，方块越大则节点中心度越大，节点中心度大小表示出该节点在语义网络中的地位以及重要程度。

语义网络节点中包括：

人的各类作业与不安全行为(掘进、冲帮、刷顶、锚杆支护、超载等)；

设备材料(风带、风机、配电箱、炸药等)；

环境问题(积水、照明、坑洼、淤泥等)；

隐患地点(顶板、路面、迎头等)；

安全隐患状态与程度(冒落、不达标、不彻底、破碎等)。

借助语义网络可以很明显的看出各类隐患词之间的关联关系。隐患语义网络通过节点间箭头与连线，将矿山生产中类作业与不安全行为、设备材料、环境问题、隐患地点、隐患状态与程度关联在一起形成对安全隐患较为完整的描述。

安全隐患语义网络分析流程如下：

(1)语义中心性分析

中心性(Centrality)是社交网络分析(Social network analysis,SNA)中常用的一个概念，用以表达社交网络中一个点或者一个人在整个网络中所在中心的程度，这个程度用数字来表示就被称作为中心度(也就是通过知道一个节点的中心性来了解判断这个节点在这个网络中所占据的重要性的概念)。

既在矿山安全隐患语义网络中，中心度越高的隐患具有更大的影响力。在中心性分析中，度中心度表示网络中一个节点与其他节点直接连接的总和。既在矿山安全隐患语义网络中代表某个隐患问题与其他隐患问题在安全隐患检查中同时出现的次数总和，也就是说度中心度越大，该隐患问题在矿山安全隐患中的影响程度越大。

为了对矿山安全隐患语义网络进行中心性分析，将得到的矿山安全隐患共现VNA矩阵导入社会网络分析算法中，对隐患语义网络进行中心性与网络密度分析。隐患语义网络中心性分析结果如表11所示，表中为节点度中心度排名前20的高频隐患词。

表11隐患语义网络中心性分析结果

同时，输出结果中包括了语义网络中心势及相关参数，在结果中网络中心势(Network Centralization)为8.75％，网络异质性(Heterogeneity)为5.30％。通常来说语义网络中心势越接近于100％其集中趋势越明显。

根据隐患语义网络中心性分析结果，金属地下矿山安全隐患语义网络中心势为8.75％，根据中心势概念可以发现隐患网络中隐患问题集中趋势不明显，这表明该金属地下矿山安全隐患问题以及隐患类型相对分散。

从表11中可以发现，“浮石”、“顶板”、“迎头”、“锚杆支护”点度中心度数值较高，其中“浮石”、“顶板”点度中心度值为9309、7555，说明它们在网络中最为重要，它们是矿山安全隐患语义网络结构中的核心。

从表中可以看出“顶板”、“迎头”、“路面”等表示空间位置的词汇点度中心度数值较高，因此这些地点是安全隐患发生的重点区域，“浮石”、“锚杆支护”、“积水”、“风带”、“照明”等表示隐患内容的词汇点度中心度数值较高，表明这些问题为需要重点防范的安全隐患。

(2)语义网络密度分析

语义网络密度是指在网络中各节点间的连接紧密程度，网络密度由网络中实际存在的节点间连接总数与理论上可能存在的节点间连接数量相比得到，也就是说网络中节点间的连接关系越多则网络密度越大。并且网络整体的密度越大，该网络对其中节点产生的影响就越大。通过网络密度分析得到网络密度分析结果如图18所示。

从网络密度分析结果中可知，该矿山安全隐患语义网络密度(MatrixAverage)为0.0399，结果呈强关联性，表明该矿山安全隐患语义网络中各隐患节点间具有较强关联性。

之后，进行面向关联大数据分析的安全隐患诱导与演化分析。

关联规则反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候，可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance，第二个是关联性association，两者都可以用来描述事件之间的关联程度。主要相关的算法是Apriori算法，使用候选项集找频繁项集。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法，其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

矿山安全事故的发生是由各类隐患共同作用而促成的，同时也说明各类安全隐患并不是单独存在的，它们之间或多或少存在着一定关联关系，如采场出现风机损坏或者风筒破损的情况时会导致采场通风变差、氧气浓度降低、温度升高等问题，因此不同安全隐患间有一定的内在关联性。

安全事故的直接致因是安全隐患，而安全隐患的产生是由危险源的失控引起的。由“伤害金字塔”模型可知，要消除死亡、重伤害等安全事故，就必须消除人的不安全行为、物的不安全状态和管理上的缺陷以及潜在的危险源等。但是暴露安全隐患的各类危险源之间并不是孤立的，它们之间存在潜在的、隐含的关联。

如有研究表明，支护问题是否完好对顶板事故发生具有直接影响；通风混乱、风量不足和无风微风等是导致CO等有毒气体积聚事故的主要原因。揭示暴露安全隐患的各类危险源之间隐含的关联关系，对提高危险源识别的准确性和隐患排查效率具有重要作用。

矿山安全隐患关联分析的核心内容是通过对历史记录的安全隐患信息进行深入分析，挖掘出引发安全事故的隐患间是否存在关联，以及哪些隐患容易同时引发安全事故。通过构建矿山安全隐患关联规则模型可以实现对隐患间内部关联进行深入挖掘分析，从而探索关联规则挖掘方法在金属矿山安全隐患信息管理中的应用，为矿山安全管理决策提供支持。

Apriori算法是挖掘布尔关联规则频繁项目集的经典算法，根据数据类型以及数据量选择Apriori算法进行隐患关联规则挖掘。首先根据矿山隐患数据特征构建基于Apriori算法的矿山隐患关联规则模型。

将矿山安全隐患检查中记录的每条隐患数据记为b₁，则b₁表示该次检查中发现的隐患信息。可将安全隐患数据集B视为由b₁组成的集合，可表示为式(7)：

B＝{b₁，b₂，b₃，…b_i…，b_n} (7)

将矿山安全隐患中每项隐患问题看作一个项目t₁，则可将所有隐患问题构成集合T，每项隐患检查数据b₁都属于隐患问题集合T的一个子集。表示为式(8)：

T＝{t₁，t₂，t₃，…t_j…，t_m} (8)

设定隐患问题集合将T₁在隐患数据集B上的支持度定义为隐患数据B中包含隐患问题T的数量占B数据集总数的百分比，支持度(support)计算公式如式(9)：

其中‖B‖表示安全隐患数据总数，‖{b∈B│T_1∈b}‖表示安全隐患数据集合中包含有T₁隐患问题的隐患条数。当support(T₁)比最小支持度阀值大时，则将T₁称为频繁项集，也就是说T₁隐患问题被频繁查出。

当设定隐患集T₁出现时，有一定的概率可以推出隐患项集T₂，则称T₁、T₂之间存在关联性，表示为且的概率称为置信度(confidence)。置信度可以反应出关联规则的准确程度，指在B隐患数据集中同时包含T₁和T₂隐患问题的隐患条数占仅包含T₁隐患问题的隐患条数的比重。如式(10)所示，式中T₁称为关联规则前项，T₂称为关联规则后项。

将关联规则应用于矿山安全隐患检查工作中的意义在于，如若发现T₁隐患暴露问题时，可以有针对的排查T₂隐患问题是否存在。在进行安全隐患检查时，通过关联规则进行检查比随机检查的工作方式效率更高。

规则提升度为置信度与规则后项先验概率的比值，如式(11)所示，并且规则提升度能够反映规则后项受到规则前项的影响程度。当规则提升度大于1时，表示该规则前项是否出现对后项影响程度很大，即该规则具有较强现实意义；若提升度小于1，表示在前项影响下后项的出现概率小于先验概率，则此关联规则无现实意义；若提升度等于1，表明该规则的前项与后项相互独立，无关联关系。

在进行关联规则挖掘模型构建时选择Apriori程序包，设定合适的支持度和置信度阈值是关联规则挖掘结果是否有效的关键点，阀值设定过低则会使结果数据庞大且得不到有用信息，若是设定过高有可能无法得到期望的结果。目前在进行关联规则挖掘时，参数设定主要依据行业的特点与经验，同时需结合多次试验与结果分析保证挖掘有效性。

地下金属矿山由于作业条件复杂导致隐患种类数量较多，在进行关联规则挖掘时为了避免一些潜在关联性因素被遗漏，在进行挖掘时设定较低的阀值。经过反复实验分析选取的参数为support>0.01、confident>0.5，运行算法后得到51条符合条件的关联规则结果。

表12中列出了结果中部分比较有价值的规则。表中Rules表示关联规则内容，support表示规则的支持度，confident表示规则置信度，lift为规则提升度，count为该规则在数据中出现的次数。

表12关联规则挖掘结果(部分)

同时为了更直观展示地下金属矿山安全隐患间的关联关系，可进行可视化绘图展示，此处不再赘述。

之后，将大数据分析模型进行算法建模并加以软件实现，封装于大数据平台，通过模型的自组织与自调度，实现不同安全主题数据分析需求的实时响应。

(1)大数据分析模型构建：基于大数据分析与可视化技术完成安全隐患时空分布规律可视化、安全管理主题与关联规则挖掘、语义网络分析等模型与算法的构建。

(2)大数据分析模型封装：部署安全主题大数据的提取、清洗、转换等数据结构化操作，采用计算机建模等方法，对所有大数据分析模型和算法进行代码化封装。

(3)模型自组织与自调度：基于高性能的大数据存储与分析平台，通过模型的自组织与自调度，实现不同安全主题数据分析需求的实时响应。

(4)构建矿山安全生产大数据仓库，用于存储和调用机器学习结果。

最后，借助商务智能分析工具完成可视化系统的搭建，将安全生产大数据分析的实体化应用形成的各种分析图表和模型进行集成化展示，通过模型的自组织与自调度，实现不同安全隐患数据分析需求的实时响应，保证所建立的算法与模型可以提供实时化的分析服务，为矿山不同安全管理层级提供有力的数据支撑，实现大数据分析功能的实体化与系统化。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据分析的矿山安全隐患辨识与预警系统，其特征在于，包括：

所述大数据分析模块包括：

数据挖掘模型库，包括多种数据挖掘模型，所述数据挖掘模型实例化后嵌入所述数据挖掘模型库，便于大数据分析时进行调用；使用时，针对不同的安全主题数据，选择适合的数据挖掘模型进行大数据分析；

其中，所述数据挖掘模型库包括：

事故预测模型，用于揭示安全隐患可能的发展走向，并对由安全隐患积累导致的安全生产事故进行预测；

其中，所述主题挖掘模型采用的算法为HDP算法、LDA算法、DTM算法、LSA算法或TF-IDF算法中的任意一种；所述语义网络分析模型采用的算法为LSA算法或BM25算法；所述关联规则挖掘模型采用的算法为Apriori算法；所述隐患分类模型采用的算法为支持向量机算法、K最近邻算法、人工神经网络算法或朴素贝叶斯算法中的任意一种；所述事故预测模型采用的算法为统计回归算法、时间序列算法、马尔科夫链算法、灰色预测算法、神经网络算法或链路预测算法中的任意一种；

大数据可视化模块，用于对大数据分析结果进行可视化呈现，便于安全管理者进行风险预警与科学决策；

所述大数据可视化模块包括：

2.根据权利要求1所述的基于大数据分析的矿山安全隐患辨识与预警系统，其特征在于，所述大数据标准化预处理模块具体用于：

3.根据权利要求1所述的基于大数据分析的矿山安全隐患辨识与预警系统，其特征在于，所述图形可视化单元通过以下图形中的一种或多种进行可视化展示：词云图、瀑布图、桑基图、层次边缘捆绑图以及ForceAtlas图形。

4.根据权利要求1-3中任一项所述的基于大数据分析的矿山安全隐患辨识与预警系统，其特征在于，所述矿山安全隐患辨识与预警系统还包括系统管理模块，所述系统管理模块用于进行数据接口管理、知识库管理、数据挖掘模型库管理和可视化组件管理。