CN114492926A - 一种煤矿安全隐患文本分析预测方法和系统 - Google Patents
一种煤矿安全隐患文本分析预测方法和系统 Download PDFInfo
- Publication number
- CN114492926A CN114492926A CN202111564574.8A CN202111564574A CN114492926A CN 114492926 A CN114492926 A CN 114492926A CN 202111564574 A CN202111564574 A CN 202111564574A CN 114492926 A CN114492926 A CN 114492926A
- Authority
- CN
- China
- Prior art keywords
- potential safety
- safety hazard
- text
- hidden danger
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003245 coal Substances 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000010354 integration Effects 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 12
- 230000000737 periodic effect Effects 0.000 claims description 7
- 238000011550 data transformation method Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 239000013307 optical fiber Substances 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 11
- 238000005065 mining Methods 0.000 abstract description 4
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 231100000279 safety data Toxicity 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Husbandry (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marine Sciences & Fisheries (AREA)
- Primary Health Care (AREA)
- Mining & Mineral Resources (AREA)
- Agronomy & Crop Science (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种煤矿安全隐患文本分析预测方法和系统。该方法包括:基于预先构建的LDA‑Gibbs主题聚类模型,根据安全隐患文本得到的隐患文本向量,确定安全隐患文本的N个文本主题;根据安全隐患文本和每个文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;根据隐患时序数据,基于预设的时序预测模型,对煤矿的安全隐患进行预测。籍此,通过对煤矿现有安全生产工作内涉及较少的安全隐患文本进行挖掘分析,将非结构化的隐患文本转换为机器可以识别的结构化数据,利用时序预测模型,仅通过隐患自身的历史数据对隐患数量进行预测,实现煤矿安全隐患分析预测的自动化处理。
Description
技术领域
本申请涉及煤矿安全技术领域,特别涉及一种煤矿安全隐患文本分析预测方法和系统。
背景技术
目前,虽然煤炭企业均已建成完善的安全生产信息系统,安全生产数据得到丰富。但是,煤炭企业对这些安全数据的处理方式仍以传统的统计分析为主,且其分析的数据存在片面地只针对结构化数据进行分析。然而,安全生产数据不仅包括结构化的数值数据,还包括非结构化的文本数据,对复杂数据进行结构化,不仅会增加计算复杂度,同时也提升了出错的概率。收集到的海量安全数据并没有有效充分利用,煤矿的安全管理更多的是基于经验与直觉判断而非数据论证,极大地阻碍了智慧化矿山的进程推进。
煤矿事故隐患文本作为煤矿安全生产过程中产生的最多的安全数据,采用自然语言,由文字、数字、英文以及标点符号组成。大部分采用汉语的形式表达,由工作人员人工输入记录,是典型的非结构化信息。对煤矿事故隐患文本的精确预测,不仅可以为矿山智慧化建设提供理论依据,也有助于安全管理人员采取针对性预防措施,从而减少事故的发生。
因此,需要提供一种针对上述现有技术不足的改进技术方案。
发明内容
本申请的目的在于提供一种煤矿安全隐患文本分析预测方法和系统,以解决或缓解上述现有技术中存在的问题。
为了实现上述目的,本申请提供如下技术方案:
本申请提供了一种煤矿安全隐患文本分析预测方法,包括:步骤S101、基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题;其中,N为所述安全隐患文本中的隐患类型的数量,取正整数;步骤S102、根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,所述隐患时序数据表征所述预设时间间隔内对应的所述隐患类型的隐患数量;步骤S103、根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测。
优选的,在步骤S101中,所述基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题,包括:步骤S111、基于预设的停用词库和自定义词库,对所述安全隐患文本进行分词,得到所述隐患文本向量;步骤S121、基于预设的困惑度模型,根据所述隐患文本向量,确定所述文本主题的数量;步骤S131、根据所述文本主题的数量,建立所述LDA-Gibbs主题聚类模型,以确定所述安全隐患文本的N个所述文本主题。
优选的,在步骤S102中,所述根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据,包括:步骤S112、分别确定N个所述文本主题对应的隐患关键词;步骤S122、将每个所述文本主题对应的所述隐患关键词与所述安全隐患文本进行匹配,确定所述预设时间间隔内的所述隐患时序数据。
优选的,在步骤S103中,所述时序预测模型为差分整合移动平均自回归模型,对应的,所述根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测,具体为:根据所述隐患时序数据,基于预设的所述差分整合移动平均自回归模型,对所述煤矿的安全隐患进行预测。
优选的,所述根据所述隐患时序数据,基于预设的所述差分整合移动平均自回归模型,对所述煤矿的安全隐患进行预测,包括:步骤S113、对所述隐患时序数据进行白噪声平稳性校验,确定所述隐患时序数据满足预设的平稳性要求;步骤S123、根据满足所述平稳性要求的所述隐患时序数据,确定所述差分整合移动平均自回归模型的模型参数;步骤S133、基于所述模型参数确定的所述差分整合移动平均自回归模型,对所述隐患时序数据依次进行拟合、预测、校验操作,得到所述煤矿的隐患预测数量以及隐患预测趋势。
优选的,在步骤S113中,对所述隐患时序数据进行白噪声平稳性校验,确定所述隐患时序数据满足预设的平稳性要求,具体为:响应于进行白噪声平稳性校验的所述隐患时序数据不满足所述平稳性要求,基于预设的数据变换方法,对所述隐患时序数据进行变换,直至所述隐患时序数据满足所述平稳性要求;其中,所述数据变换方法至少包括:对数变换、周期性移动平均变换、周期性移动差分变换中的一种。
优选的,在步骤S123中,根据满足所述平稳性要求的所述隐患时序数据,确定所述差分整合移动平均自回归模型的模型参数,具体为:计算满足所述平稳性要求的所述隐患时序数据的自相关系数、偏自相关系数和赤池信息值,以确定所述差分整合移动平均自回归模型的所述模型参数。
本申请实施例还提供一种煤矿安全隐患文本分析预测系统,包括:主题确定单元,配置为基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题;其中,N为所述安全隐患文本中的隐患类型的数量,取正整数;时序数据确定单元,配置为根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,所述隐患时序数据表征所述预设时间间隔内对应的所述隐患类型的隐患数量;隐患预测单元,配置为根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测。
有益效果:
本申请中提供的技术方案中,基于预先构建的LDA-Gibbs主题聚类模型,根据由安全隐患文本得到的隐患文本向量,确定安全隐患文本的N个文本主题;然后,根据安全隐患文本和每个文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,隐患时序数据表征预设时间间隔内对应的隐患类型的隐患数量;最后,根据隐患时序数据,基于预设的时序预测模型,对煤矿的安全隐患进行预测。籍此,通过对煤矿现有安全生产工作内涉及较少的安全隐患文本进行挖掘分析,将非结构化的隐患文本转换为及其可以识别的结构化数据,利用时序预测模型,仅通过隐患自身的历史数据对隐患数量进行预测,实现煤矿安全隐患分析预测的自动化处理。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。其中:
图1为根据本申请的一些实施例提供的一种煤矿安全隐患文本分析预测方法的流程示意图;
图2为根据本申请的一些实施例提供的一种煤矿安全隐患文本分析预测方法中步骤S101的流程示意图;
图3为根据本申请的一些实施例提供的安全隐患文本的困惑度变化趋势图;
图4为根据本申请的一些实施例提供的煤矿安全隐患文本分析预测方法中步骤S102的流程示意图;
图5为根据本申请的一些实施例提供的煤矿安全隐患文本分析预测方法中步骤S103的流程示意图;
图6为根据本申请的一些实施例提供的平稳的隐患时序数据作自相关系数的示意图;
图7为根据本申请的一些实施例提供的平稳的隐患时序数据作偏自相关系数的示意图;
图8为根据本申请的一些实施例提供的ARIMA模型的赤池信息值的热力图;
图9为根据本申请的一些实施例提供的通过诊断函数对ARIMA模型的诊断示意图;
图10为根据本申请的一些实施例提供的一种煤矿安全隐患文本分析预测系统的结构示意图;
图11为根据本申请的一些实施例提供的主题确定单元的结构示意图;
图12为根据本申请的一些实施例提供的时序数据确定单元的结构示意图;
图13为根据本申请的一些实施例提供的隐患预测单元的结构示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上,本领域的技术人员将清楚,在不脱离本申请的范围或精神的情况下,可在本申请中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。
本申请实施例中,通过中文分词技术、LDA-Gibbs主题聚类模型与ARIMA时序预测算法,将安全生产隐患文本分割为安全生产特征词并将其向量化,对其进行文本主题聚类,得出隐患主题类别与其关键词,将主题与对应关键词匹配至原隐患文本并统计得出每类隐患对应分布情况,从而使用时序预测法对其安全隐患进行预测。
示例性方法
图1为根据本申请的一些实施例提供的一种煤矿安全隐患文本分析预测方法的流程示意图;如图1所示,该煤矿安全隐患文本分析预测方法包括:
步骤S101、基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定安全隐患文本的N个文本主题;其中,N为所述安全隐患文本中的隐患类型的数量,取正整数;
在本申请实施例中,安全隐患文本为煤矿中记录安全生产过程的数据,通过对安全隐患文本进行处理,将原始的非结构化数据转换为结构化数据,从而使得能够通过计计算机进行快速识别、分析,从而实现对隐患安全文本的快速、有效识别分析。
在本申请实施例中,通过构建安全隐患文本的LDA-Gibbs主题聚类模型,对安全隐患文本进行隐患类型分析,确定煤矿安全隐患中容易发生的隐患类型个数以及不同隐患类型中概率最高的前15个隐患关键词。
图2为根据本申请的一些实施例提供的一种煤矿安全隐患文本分析预测方法中步骤S101的流程示意图;如图2所示,所述基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题,包括:
步骤S111、基于预设的停用词库和自定义词库,对所述安全隐患文本进行分析,得到所述隐患文本向量;
在本申请实施例中,将需要分析的安全隐患文本导入分词工具,并向分词工具的词典内导入停用词库与煤矿领域的专有名词的自定义词库,从而实现对安全隐患文本的正确中文分词。在此,需要说明的是,自定义词库中包括《采矿工程》、《矿山工程》、《煤矿工作》、《煤炭分析词库》,以及互联网中的细胞词库(比如,搜狗词库中的细胞词库)等,将这些词库转化为txt格式进行合并,得到煤矿事故安全隐患文本所需要的自定义词典。
在本申请实施例中,分词工具采用jieba工具,将停用词库与自定义词库导入jieba工具,对安全隐患文本进行中文切词,实现对安全隐患文本进行中文分词。将分词完毕的安全隐患文本构建为文本向量,得到隐患文本向量。具体的,通过向量空间模型将机器无法识别的的非结构化文本信息(安全隐患文本)表示为计算机能够识别的结构化数据(隐患文本向量)。
在本申请实施了中,安全隐患文本可表示为:
Document=D(t1,t2,t3,…,tk,…,tn)
其中,tk表示安全隐患文本中的第k个特征词,n表示安全隐患文本中特征词的数量,k、n均为正整数;
在本申请实施例中,每个特征词tk均对应有一个权重值wk,权重值wk表示特征词tk在安全隐患文本中的重要性,从而,安全隐患文本可表示为:
Document=D((t1,w1),(t2,w2),…,(tk,wk),…,(tp,wn))
从而,通过向量空间模型将分词完毕的安全隐患文本转化为空间向量,得到结构化的隐患文本向量。
步骤S121、基于预设的困惑度模型,根据所述隐患文本向量,确定所述文本主题的数量;
在本申请实施例中,导入隐患文本向量,通过困惑度计算确定文本主题的数量,具体的,按照公式(1)计算困惑度,公式(1)如下:
其中,∑dNd表示文本集的总长度,文本集中包含多个安全隐患文本;p(wd,i)表示文本集中安全隐患文本d中出现第i个单词的概率,p(wd,i)=p(z|d)×p(w|z),其中,p(w|z)表示任一特征词w在文本主题z中出现的概率,p(z|d)表示任一文本主题z在安全隐患文本d中出现的概率。
在本申请实施例中,在将安全隐患文本转化为文本向量后,构建安全隐患文本的文本主题模型。具体的,根据煤矿隐患分类大致确定隐患主题数量在[10,50]之间,另文本主题数K依次取10,20,30……,将处理完毕的语料库代入python程序,其困惑度变化趋势根据对应主题数量,由折线图直观表示出来,由图像可得,最优文本主题数对应为图像最低点的数值。比如,根据现行的煤矿隐患分类标准确定隐患主题数量为37小类,因而,在计算安全隐患文本的困惑度时确定隐患主题数量为37,然后计算困惑度变化趋势,其困惑度变化趋势则根据对应主题数量,由折线图直观表示出来,由图像可得,最优文本主题数对应为图像最低点的数值,如图3所示。
步骤S131、根据所述文本主题的数量,建立所述LDA-Gibbs主题聚类模型,以确定所述安全隐患文本的N个所述文本主题。
在本申请实施例中,通过文本主题的数量建立LDA-Gibbs主题聚类模型,运用该模型对安全隐患文本进行挖掘,进而,确定安全隐患文本的N个文本主题。
步骤S102、根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,所述隐患时序数据表征所述预设时间间隔内对应的所述隐患类型的隐患数量;
在本申请实施例中,对安全隐患文本进行筛选,得到安全隐患文本中的隐患类型,以及与隐患类型相对应的隐患关键词,即与文本主题相对应的隐患关键词。
图4为根据本申请的一些实施例提供的煤矿安全隐患文本分析预测方法中步骤S102的流程示意图;如图4所示,所述根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据,包括:
步骤S112、分别确定N个所述文本主题对应的隐患关键词;
在本申请实施例中,在安全隐患文本中,分别对每个文本主题对应的隐患类型进行筛选,确定每个文本主题对应的隐患关键词。
在本申请实施中,对不同文本主题中的TF-IDF值进行计算,对出现频率较低的词汇进行过滤,或者出现频率较高,但反映该词汇所在文本的主题关联较小的词汇进行过滤,而对反映文档主题特征起到较高作用的词汇挑选出来,作为每个文本主题对应的隐患关键词。
步骤S122、将每个所述文本主题对应的所述隐患关键词与所述安全隐患文本进行匹配,确定所述预设时间间隔内的所述隐患时序数据。
在本申请实施中,将每个隐患类型的隐患关键词依次与整个安全隐患文本进行匹配,同时确定时间间隔,将每个时间间隔内对应隐患类别的隐患数量统计为该隐患类别的隐患时序数据。在此,需要说明的是,预设时间间隔为一个月,通过预设时间间隔确定不同文本主题在设定时间内的隐患数量,以对安全隐患进行准确预测。
步骤S103、根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测。
在本申请实施例中,通过时序预测模型,根据煤矿中历史统计数据的时间序列,对煤矿未来的变化趋势进行预测分析。在此,时序预测模型可以采用自回归模型(AR模型)、滑动平均模型(MA模型)、自回归-滑动平均混合模型(ARMA模型)、差分整合移动平均自回归模型(ARIMA模型)。
在本申请实施例中,所述时序预测模型为差分整合移动平均自回归模型。该差分整合移动平均自回归模型如下公式(2)所示,公式(2)如下:
yt=c+φ1yt-1+φ2yt-2+Λ+φpyt-p+ε1+θ1εt-1+θ2εt-2+Λ+θpεt-p………(2)
其中,yt为当前值,c是常数项,q是阶数,θ1、θp、Λ,φ1、φp为模型的系数,εt为白噪声序列。
在本申请实施例中,在根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测时,根据所述隐患时序数据,基于预设的所述差分整合移动平均自回归模型,对所述煤矿安全隐患数量进行预测。
图5为根据本申请的一些实施例提供的煤矿安全隐患文本分析预测方法中步骤S103的流程示意图;如图5所示,所述根据所述隐患时序数据,基于预设的所述差分整合移动平均自回归模型,对所述煤矿的安全隐患进行预测,包括:
步骤S113、对所述隐患时序数据进行白噪声平稳性校验,确定所述隐患时序数据满足预设的平稳性要求;
在本申请实施例中,基于预设的诊断函数对隐患时序数据进行白噪声平稳性校验;在此,诊断函数可采用python程序中自带的诊断函数,从隐患时序数据的时序图或相关性图的波动程度,确定隐患时序数据是否满足平稳性要求。
具体的,响应于进行白噪声平稳性校验的所述隐患时序数据不满足所述平稳性要求,基于预设的数据变化方法,对所述隐患时序数据进行变换,直至所述隐患时序数据满足所述平稳性要求;其中,所述数据变换方法至少包括:对数变换、周期性移动平均变换、周期性移动差分变换中的一种。
在本申请实施例中,通过对不满足平稳性要求的隐患时序数据统一取对数,通过对数变换实现隐患时序数据的平稳性要求。
在一具体的例子中,部分隐患时序数据的原始数据如表1所示:
表1
在对隐患数据进行时序预测之前,需要对其进行平稳性检验。对隐患时序数据的原始数据进行ADF单位根检验,其检验值表2。
表2
可以看出,原始数据变换进行到一阶差分之后,其数据的平稳性已经满足模型要求,可以进行下一步的建模环节;如果原始数据在经过一阶差分变换后,仍不满足建模要求,可以进行二阶差分变换,直至变换后的数据平稳性满足模型要求。
步骤S123、根据满足所述平稳性要求的所述隐患时序数据,确定所述差分整合移动平均自回归模型的模型参数;
具体的,计算满足所述平稳性要求的所述隐患时序数据的自相关系数、偏自相关系数和赤池信息值,以确定所述差分整合移动平均自回归模型的所述模型参数。
在本申请实施例中,按照公式(3)计算隐患时序数据的自相关系数,公式(3)如下:
按照公式(4)计算隐患时序数据的偏自相关系数,公式(4)如下:
偏自相关系数就是去掉一些变量的影响后再来考察自相关系数。其中,ρ代表偏自相关系数,k代表滞后数,E代表数据序列的期望值。
在本申请实施例中,ARIMA模型是由AR模型与MA模型经过差分化操作后形成的综合模型,该模型的待确定三个模型参数分别为:自回归项阶数p,差分次数d和移动平均项数q。
对处理完成的平稳时序数据(步骤S113)作自相关(ACF)与偏自相关系数(PACF)图像以确定模型参数范围,如图6、图7所示。
由图6、图7得知,由于ACF和PACF图像都成振荡状态,因此都表现出较好的拖尾性,所以一阶差分后的序列数据符合ARIMA模型。同时由于模型阶数通常不会超过预测数据的十分之一,因此对p,q的取值范围定为[0,10]。
在p,q的取值范围内利用python进行循环遍历计算,以确定每个ARIMA模型的赤池信息值,根据其热力图确定赤池信息值(如图8所示)最小值为935.55,从而选择模型参数最优解为p=9,q=4,d=1,但由于7次自回归模型相对较复杂,考虑到模型简化问题,因此选取赤池信息值为942.30时,即p=0,q=6,d=1作为模型参数。
步骤S133、基于所述模型参数确定的所述差分整合移动平均自回归模型,对所述隐患时序数据依次进行拟合、预测、校验操作,得到所述煤矿的隐患预测数据以及隐患预测趋势。
在本申请实施例中,在ARIMA模型的自回归项阶数p,差分次数d和移动平均项数q确定后,基于ARIMA模型,对隐患时序数据进行拟合后预测,确定煤矿的隐患预测数据和隐患预测趋势,并针对预测结果进行效果校验。
在本申请实施例中,通过Python工具中的诊断函数对拟合出的ARIMA模型进行模型诊断。诊断图如图9所示。
在图9中,左上分图的标准化残差图表明,该模型预测值与实际值的残差不存在周期性规律,基本成白噪声形状。该结论可以通过右上的残差分布直方图特性佐证。残差分布直方图的的KDE线与正态分布曲线基本重合。
同样,左下角的理论-实际分布图表示,残差分布遵循标准正态分布。右下角的自相关系数图像表明,该时间序列残差与其本身的滞后值不具有明显相关性。综上所述,ARIMA模型满足残差检验条件。
根据预测数据与原数据的拟合对比图可以得出,该模型能够较好地体现原始数据的趋势线,但具体数值有所差异。根据隐患预测与实际对比图可以得出,ARIMA模型对隐患的数量变化趋势拟合效果较好,可以为煤矿隐患排查治理决策提供一定的信息辅助。
本申请实施例中,基于预先构建的LDA-Gibbs主题聚类模型,根据由安全隐患文本得到的隐患文本向量,确定安全隐患文本的N个文本主题;然后,根据安全隐患文本和每个文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;最后,根据隐患时序数据,基于预设的时序预测模型,对煤矿的安全隐患进行预测。籍此,通过对煤矿现有安全生产工作内涉及较少的安全隐患文本进行挖掘分析,将非结构化的隐患文本转换为及其可以识别的结构化数据,利用时序预测模型,仅通过隐患自身的历史数据对隐患数量进行预测,实现煤矿安全隐患分析预测的自动化处理。
示例性系统
图10为根据本申请的一些实施例提供的一种煤矿安全隐患文本分析预测系统的结构示意图;如图10所示,该煤矿安全隐患文本分析预测系统包括:
主题确定单元501,配置为基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题;其中,N为所述安全隐患文本中的隐患类型的数据,取正整数;
时序数据确定单元502,配置为根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,所述隐患时序数据表征所述预设时间间隔内对应的所述隐患类型的隐患数量;
隐患预测单元503,配置为根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测。
图11为根据本申请的一些实施例提供的主题确定单元的结构示意图;如图11所示,所述主题确定单元501包括:
分词子单元511,配置为基于预设的停用词库和自定义词库,对所述安全隐患文本进行分词,得到所述隐患文本向量;
困惑度子单元521,配置为基于预设的困惑度模型,根据所述隐患文本向量,确定所述文本主题的数量;
主题子单元531,配置为根据所述文本主题的数量,建立所述LDA-Gibbs主题聚类模型,以确定所述安全隐患文本的N个所述文本主题。
图12为根据本申请的一些实施例提供的时序数据确定单元的结构示意图;如图12所示,所述时序数据确定单元502包括:
关键词子单元512,配置为分别确定N个所述文本主题对应的隐患关键词;
时序子单元522,配置为将每个所述文本主题对应的所述隐患关键词与所述安全隐患文本进行匹配,确定所述预设时间间隔内的所述隐患时序数据。
图13为根据本申请的一些实施例提供的隐患预测单元的结构示意图;如图13所示,所述隐患预测单元503包括:
校验子单元513,配置为对所述隐患时序数据进行白噪声平稳性校验,确定所述隐患时序数据满足预设的平稳性要求;
参数子单元523,配置为根据满足所述平稳性要求的所述隐患时序数据,确定所述差分整合移动平均自回归模型的模型参数;
预测子单元533,配置为基于所述模型参数确定的所述差分整合移动平均自回归模型,对所述隐患时序数据依次进行拟合、预测、校验操作,得到所述煤矿的隐患预测数量以及隐患预测趋势。
本申请实施例提供的煤矿安全隐患文本分析预测系统能够实现上述任一煤矿安全隐患文本分析预测方法的步骤、流程,并达到相同的有益效果,在此不再一一赘述。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种煤矿安全隐患文本分析预测方法,其特征在于,包括:
步骤S101、基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题;其中,N为所述安全隐患文本中的隐患类型的数量,取正整数;
步骤S102、根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,所述隐患时序数据表征所述预设时间间隔内对应的所述隐患类型的隐患数量;
步骤S103、根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测。
2.根据权利要求1所述的煤矿安全隐患文本分析预测方法,其特征在于,在步骤S101中,所述基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题,包括:
步骤S111、基于预设的停用词库和自定义词库,对所述安全隐患文本进行分词,得到所述隐患文本向量;
步骤S121、基于预设的困惑度模型,根据所述隐患文本向量,确定所述文本主题的数量;
步骤S131、根据所述文本主题的数量,建立所述LDA-Gibbs主题聚类模型,以确定所述安全隐患文本的N个所述文本主题。
3.根据权利要求1所述的煤矿安全隐患文本分析预测方法,其特征在于,在步骤S102中,所述根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据,包括:
步骤S112、分别确定N个所述文本主题对应的隐患关键词;
步骤S122、将每个所述文本主题对应的所述隐患关键词与所述安全隐患文本进行匹配,确定所述预设时间间隔内的所述隐患时序数据。
4.根据权利要求1所述的煤矿安全隐患文本分析预测方法,其特征在于,在步骤S103中,所述时序预测模型为差分整合移动平均自回归模型,
对应的,
所述根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测,具体为:根据所述隐患时序数据,基于预设的所述差分整合移动平均自回归模型,对所述煤矿的安全隐患进行预测。
5.根据权利要求4所述的煤矿安全隐患文本分析预测方法,其特征在于,所述根据所述隐患时序数据,基于预设的所述差分整合移动平均自回归模型,对所述煤矿的安全隐患进行预测,包括:
步骤S113、对所述隐患时序数据进行白噪声平稳性校验,确定所述隐患时序数据满足预设的平稳性要求;
步骤S123、根据满足所述平稳性要求的所述隐患时序数据,确定所述差分整合移动平均自回归模型的模型参数;
步骤S133、基于所述模型参数确定的所述差分整合移动平均自回归模型,对所述隐患时序数据依次进行拟合、预测、校验操作,得到所述煤矿的隐患预测数量以及隐患预测趋势。
6.根据权利要求5所述的煤矿安全隐患文本分析预测方法,其特征在于,在步骤S113中,对所述隐患时序数据进行白噪声平稳性校验,确定所述隐患时序数据满足预设的平稳性要求,具体为:
响应于进行白噪声平稳性校验的所述隐患时序数据不满足所述平稳性要求,基于预设的数据变换方法,对所述隐患时序数据进行变换,直至所述隐患时序数据满足所述平稳性要求;其中,所述数据变换方法至少包括:对数变换、周期性移动平均变换、周期性移动差分变换中的一种。
7.根据权利要求5所述的煤矿安全隐患文本分析预测方法,其特征在于,在步骤S123中,根据满足所述平稳性要求的所述隐患时序数据,确定所述差分整合移动平均自回归模型的模型参数,具体为:
计算满足所述平稳性要求的所述隐患时序数据的自相关系数、偏自相关系数和赤池信息值,以确定所述差分整合移动平均自回归模型的所述模型参数。
8.一种煤矿安全隐患文本分析预测系统,其特征在于,包括:
主题确定单元,配置为基于预先构建的LDA-Gibbs主题聚类模型,根据所述安全隐患文本得到的隐患文本向量,确定所述安全隐患文本的N个文本主题;其中,N为所述安全隐患文本中的隐患类型的数量,取正整数;
时序数据确定单元,配置为根据所述安全隐患文本和每个所述文本主题相对应的隐患关键词,确定预设时间间隔内的隐患时序数据;其中,所述隐患时序数据表征所述预设时间间隔内对应的所述隐患类型的隐患数量;
隐患预测单元,配置为根据所述隐患时序数据,基于预设的时序预测模型,对所述煤矿的安全隐患进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564574.8A CN114492926A (zh) | 2021-12-20 | 2021-12-20 | 一种煤矿安全隐患文本分析预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564574.8A CN114492926A (zh) | 2021-12-20 | 2021-12-20 | 一种煤矿安全隐患文本分析预测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492926A true CN114492926A (zh) | 2022-05-13 |
Family
ID=81494886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564574.8A Pending CN114492926A (zh) | 2021-12-20 | 2021-12-20 | 一种煤矿安全隐患文本分析预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492926A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186778A (zh) * | 2022-09-13 | 2022-10-14 | 福建省特种设备检验研究院 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
CN116933013A (zh) * | 2023-09-14 | 2023-10-24 | 煤炭科学研究总院有限公司 | 一种基于时频分析的煤矿时序数据分析方法、装置及设备 |
KR102626365B1 (ko) * | 2022-11-10 | 2024-01-18 | 주식회사 에스코컨설턴트 | 시공 현장 통합안전 관리 시스템 |
-
2021
- 2021-12-20 CN CN202111564574.8A patent/CN114492926A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186778A (zh) * | 2022-09-13 | 2022-10-14 | 福建省特种设备检验研究院 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
KR102626365B1 (ko) * | 2022-11-10 | 2024-01-18 | 주식회사 에스코컨설턴트 | 시공 현장 통합안전 관리 시스템 |
CN116933013A (zh) * | 2023-09-14 | 2023-10-24 | 煤炭科学研究总院有限公司 | 一种基于时频分析的煤矿时序数据分析方法、装置及设备 |
CN116933013B (zh) * | 2023-09-14 | 2023-12-26 | 煤炭科学研究总院有限公司 | 一种基于时频分析的煤矿时序数据分析方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114492926A (zh) | 一种煤矿安全隐患文本分析预测方法和系统 | |
US20220405592A1 (en) | Multi-feature log anomaly detection method and system based on log full semantics | |
CN107368542B (zh) | 一种涉密数据的涉密等级评定方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN112966682B (zh) | 一种基于语义分析的档案分类方法及系统 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN114970508A (zh) | 基于数据多源融合的电力文本知识发现方法及设备 | |
CN113901797A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN112818008A (zh) | 核电调试故障智能诊断的方法、系统、介质及电子设备 | |
CN113157903A (zh) | 一种面向多领域的电力词库构建方法 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN114066196A (zh) | 一种电网投资策略优化系统 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN113139705A (zh) | 业务项目的风险识别方法及装置 | |
CN114528848B (zh) | 一种基于指标阈值和语义解析的安全分析和自动评估方法 | |
CN117115581A (zh) | 一种基于多模态深度学习的智能误操作预警方法及系统 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN116756688A (zh) | 一种基于多模态融合算法的舆情风险发现方法 | |
CN116610818A (zh) | 一种输变电工程项目知识库的构建方法及系统 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN113868422A (zh) | 一种多标签稽查工单问题溯源识别方法及装置 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN113674846A (zh) | 基于lstm网络的医院智慧服务舆情监控平台 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |