CN115544272A

CN115544272A - 基于注意力机制的化工事故原因知识图谱构建方法

Info

Publication number: CN115544272A
Application number: CN202211323097.0A
Authority: CN
Inventors: 李鹏博; 陈大龙; 贺尔欣; 孟维
Original assignee: Nanjing Howso Technology Co ltd
Current assignee: Nanjing Howso Technology Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-12-30

Abstract

本发明公开了一种基于注意力机制的化工事故原因知识图谱构建方法，具体包括以下步骤：S1：采集化工事故记录数据，对采集到的化工事故记录数据进行数据清洗；S2：构建出知识图谱的模式层；S3：利用注意力机制构建出知识图谱的数据层；S4：形成知识图谱的完善模式层；S5：将知识图谱中的知识以原因、实体和因果关系三元组的形式导入到知识图谱的数据库中；S6：对致因要素之间存在的关联关系进行分析，从而得出关键致因要素，并针对关键致因要素输出相应的建议显示结果。通过模式层、数据层、完善模式层的步骤构建了化工原因事故知识图谱。该方法可实现自动化抽取文章中的原因实例，并构建化工事故原因知识图谱。

Description

基于注意力机制的化工事故原因知识图谱构建方法

技术领域

本发明属于化工安全领域，尤其涉及一种基于注意力机制的化工事故原因知识图谱构建方法。

背景技术

化工事故是指无意释放一种或多种可能危害人类健康和环境的化学危险物质的事件。化工事故包括有火灾、爆炸、有毒或危险物质的泄漏，可能导致人们生病、受伤或残疾。

随着中国经济的快速发展，在制造生产行业中对危险化学品的需求激增。虽然化工业带来了不错的经济效益，但对安全和环境构成了巨大的风险。拥有完善的事故数据库对于事故预防至关重要。事故预防的决策依据就是对数据库中的过往事故的分析，其中，事故原因是事故数据库所要记录的重要内容，是经过专家分析总结得出关于事故为什么会发生的结论，通过分析历史相似原因来做出预防策略是一种直接而有效的方式。因此，完善的事故原因数据库就是制定预防策略的基础。

然而，目前待需要一种方法将非结构化数据结构化来构建完善的事故原因知识库。我国的化工事故案例还面临着来自与不同的数据源，储存在自然语言文本中难以支持决策等多种问题。事故案例以文本的形式存储为原因分析带来了很大的困扰，虽然能够对事故发生原因进行详细地描述，但受限于文本形式，知识的展示受限，没有标准的存储结构，对人工分析和统计分析都带来了困难，所以必须要将非结构数据结构化。

知识图谱的主要作用就是将非结构化的文本，以能描述现实中概念与概念之间关系的三元组的形式进行结构化存储，通过构建知识图谱能够解决对困扰事故原因分析的问题。Google公司在2012年5月首先提出的知识图谱(Knowledge Graph)，知识图谱(KG)是一种将信息集成到本体中的特殊数据库，一种高效的知识存储和检索工具，改善了搜索的结果，现在已作为搜索引擎在搜索系统中得到了广泛的应用，能够使用三原组表示现实中的各种概念以及这些概念之间的关联关系，然后将知识以直观的形式呈现给用户，为文档中知识的表示提供了一个新的视角和相应的技术。

因此，化工事故原因知识图谱的构建是一个值得研究的课题。基于事故致因模型构建的知识图谱，能够全面地描述并展示事故原因，使管理者更直观地看到事故发生的原因；结构化存储的知也能支持进一步的统计分析，得到泛化性更好的预防策略。

发明内容

本发明要解决的问题是利用注意力机制在事故资料内挖掘致因要素间的关联关系，完成化工事故原因知识图谱的存储，提供一种基于注意力机制的化工事故原因知识图谱构建方法。

为了解决上述技术问题，本发明采用的技术方案为：该基于注意力机制的化工事故原因知识图谱构建方法，具体包括以下步骤：

S1：采集化工事故记录数据，对采集到的化工事故记录数据进行数据清洗；

S2：结合所述步骤S1化工事故的原因和事故中的元素，构建出知识图谱的模式层；

S3：根据原因抽取的流程：原因识别、原因元素识别、原因关系识别，抽取知识图谱中的原因、实体和因果关系，利用注意力机制构建出知识图谱的数据层；

S4：对所述步骤S3中知识图谱的数据层中的原因实例进行聚类得到了致因要素，结合事故原因分类体系，挖掘致因要素之间存在的关联关系，形成知识图谱的完善模式层；

S5：将知识图谱中的知识以原因、实体和因果关系三元组的形式导入到知识图谱的数据库中；

S6：对致因要素之间存在的关联关系进行分析，从而得出关键致因要素，并针对关键致因要素输出相应的建议显示结果。

通过模式层、数据层、完善模式层的步骤构建了化工原因事故知识图谱。知识图谱的模式层构建了知识持久化存储模型，并将原因实例、原因分类体系和关联关系以三元组的形式存储到知识图谱的数据库中。如果当面对新的事故调查报告时，按照流程：原因段落选取，子句分割和文本预处理，向量化，原因子句识别分类，原因元素识别，因果关系抽取，该方法可实现自动化抽取文章中的原因实例，并构建化工事故原因知识图谱。

优选的，在所述步骤S2中，采用SEM事件表示模型确定化工事故的原因和事故中的元素，所述SEM事件表示模型有10种原因属性关系类型：人的不安全行为，行为人，人物；人的不安全行为，违反，规章制度；物的不安全状态，主体，设备；物的不安全状态，主体，危化品；企业决策原因，决策企业，企业；组织外部原因，监管组织，机构组织；管理体系原因，存在问题，规章制度；事故，发生时间，时间；事故，发生地点，地点；事故，事故的类型，类型；其中，与事故之间存在的关系有：直接导致，间接导致和根本原因。

优选的，在所述步骤S4中，具体处理步骤为：

S4-1：首先计算两个句子中所有词汇间的相似度矩阵，然后遍历相似度特征矩阵，取出相似度最大的词语组合；将该相似度所属行和列从相似度特征矩阵中删除，并用列表记录下该相似度，再继续选取余下矩阵中的最大相似度，然后删除，直到矩阵中没有元素，此时可得到子句中词语相似度最大组合列表：

MaxL＝[Sim W_max1，Sim W_max2，…，Sim W_maxk] (1)；

其中，Sim W_max1，Sim W_max2，…，Sim W_maxk表示1...k 个最大相似度特征矩阵；

句子s1、s2的相似度计算公式如下：

其中，k表示最大相似度特征矩阵的数量，i表示1...k中的第i个，

表示第i个最大相似度特征矩阵；

S4-2：对于原因实例聚类使用sklearn提供的评价函数来评价聚类效果，Calinski-Harabasz分数值s的计算公式如下：

其中的m为样本数，k为聚簇数，B_k为聚簇之间的协方差矩阵，W_k为聚簇内数据的协方差矩阵，tr表示矩阵的迹；

S4-3：对所有原因实例进行了聚类，泛化得到抽象的致因要素，基于数据驱动的方式将化工事故中的致因要素完整的罗列了出来；根据知识图谱的模式层本体模型构建的流程，整理致因要素、构建本体的分类体系；对各要素进行整理，合并内容相似的要素得到致因要素之间的上下位关系，并给出每个致因要素的定义，构建出化工事故的致因要素分类体系；

其中，使用Apriori算法挖掘致因要素之间存在的关联关系，所述Apriori 算法是基于已知的知识来进行优化，没有关联关系的致因要素之间的支持度不用计算，包括企业文化与安全管理体系之间存在单向关系；安全管理体系与间接原因之间存在单向的关系；间接原因与不安全动作和不安全物态之间存在单向的关联关系；不安全动作和不安全物态之间存在双向的关系。

优选的，在所述步骤S6中，采用DEMATEL影响分析法对致因要素间的关联关系进行分析，所述DEMATEL影响分析法具体操作步骤为：

S6-1：确定系统中的致因要素；

S6-2：确定因素之间存在的影响关系，并通过一定的量化方法明确因素之间的影响程度大小，从而建立影响度矩阵X；

S6-3：规范化处理矩阵X得到矩阵G；

S6-4：计算系统中致因要素间的综合影响力矩阵T；

S6-5：计算各致因要素的影响度和被影响度，致因要素的影响度为矩阵T中各行元素的相加之和，被影响度为矩阵T中各列元素的相加之和。

优选的，所述步骤S1中，对数据进行清洗时采取以下操作进行处理：

S1-1：针对数据描述内容不全问题，事故描述中没有时间描述，即没有字符“年月日”；没有对原因的描述，即描述中匹配不到“原因”有关字样，则认为该条数据信息不全，去除该条数据；

S1-2：针对数据内容不相关的问题，如在事故描述中没有储罐、油罐类似的描述，则认为该条数据与化工事故无关，去除该条数据；

S1-3：针对数据冗余问题，抽取两条数据中事故发生的日期和伤亡人数，然后对每条数据相互匹配，如两条数据事故调查报告中的事故发生日期和伤亡人数都相同，则可以认定这两条数据事故调查报描述的是同一个事故，去除其中的一条数据；

S1-4：如某一条数据事故调查报告中包含的字数如果少于50字，可以认定该条数据不具有有效的事故调查报告，则去除该条数据。

优选的，所述步骤S2中，对所述知识图谱的模式层构建包括以下步骤：

S2-1：在所述知识图谱的模式层的根本原因模块中增加企业行为决策因素；

S2-2：将所述知识图谱的模式层中事故致因的直接原因模块，分成人的不安全行为和物的不安全状态模块；

S2-3：将所述知识图谱的模式层中事故致因的间接原因模块进行扩展，扩展为不安全常态，将长期存在的不安全现状都归到此模块中；

S2-4：将天气原因、组织外部有关部门监督和外部供应商的产品和服务质量归到所述知识图谱的模式层的企业外部原因模块中。

优选的，所述步骤S3中，所述知识图谱的数据层的构建算法包括以下步骤：

S3-1：基于子句的原因识别方法生成训练语料；

S3-2：利用注意力机制搭建Bert-Bi-LSTM模型，然后将向量化的子句作为输入，输入到Bert-Bi-LSTM模型中进行训练，训练后得到Bert-Bi-LSTM识别分类模型，使用所述Bert-Bi-LSTM识别分类模型对测试集中的数据进行分类来验证模型的效果。

Bert-Bi-LSTM模型，Bi-LSTM即双向LSTM，较单向的LSTM，Bi-LSTM 能更好地捕获句子中上下文的信息，在Bi-LSTM前面新增Bert——基于 Transformer的双向编码器表征，可获取更适合的初始化参数。

附图说明

图1为本发明的基于注意力机制的化工事故原因知识图谱构建方法的原因识别分类模型结果；

图2为本发明的基于注意力机制的化工事故原因知识图谱构建方法的关联关系挖掘结果；

图3为本发明的基于注意力机制的化工事故原因知识图谱构建方法的总的构思图。

具体实施方式

下面结合附图对本发明实施例进行详细描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

该基于注意力机制的化工事故原因知识图谱构建方法，具体包括以下步骤：

所述步骤S1中，对数据进行清洗时采取以下操作进行处理：

S1-4：如某一条数据事故调查报告中包含的字数如果少于50字，可以认定该条数据不具有有效的事故调查报告，则去除该条数据；

在所述步骤S2中，采用SEM事件表示模型确定化工事故的原因和事故中的元素，所述SEM事件表示模型有10种原因属性关系类型：人的不安全行为，行为人，人物；人的不安全行为，违反，规章制度；物的不安全状态，主体，设备；物的不安全状态，主体，危化品；企业决策原因，决策企业，企业；组织外部原因，监管组织，机构组织；管理体系原因，存在问题，规章制度；事故，发生时间，时间；事故，发生地点，地点；事故，事故的类型，类型；其中，与事故之间存在的关系有：直接导致，间接导致和根本原因。

所述步骤S2中，对所述知识图谱的模式层构建包括以下步骤：

S2-4：将天气原因、组织外部有关部门监督和外部供应商的产品和服务质量归到所述知识图谱的模式层的企业外部原因模块中；

所述步骤S3中，所述知识图谱的数据层的构建算法包括以下步骤：

S3-1：基于子句的原因识别方法生成训练语料；

S3-2：利用注意力机制搭建Bert-Bi-LSTM模型，然后将向量化的子句作为输入，输入到Bert-Bi-LSTM模型中进行训练，训练后得到Bert-Bi-LSTM识别分类模型，使用所述Bert-Bi-LSTM识别分类模型对测试集中的数据进行分类来验证模型的效果；

在所述步骤S4中，具体处理步骤为：

MaXL＝[Sim W_max1，Sim W_max2，…，Sim W_maxk] (1)；

句子s1、s2的相似度计算公式如下：

其中，k表示最大相似度特征矩阵的数量，i表示1…k中的第i个，

表示第i个最大相似度特征矩阵；

对于聚类结果来说，聚簇内部数据的协方差越小簇间的协方差越大则表示结果越好，这样Calinski-Harabasz分数会越高；简单来说就是聚类效果越好，该分数就会越高；可以设置k的值为20到40，对每个k的取值进行一次聚类，然后使用这个评价指标评价该次的聚类结果，最后选取使Calinski-Harabasz分数最高的k值作为聚类的结果；本发明分别对7个分类中的原因进行聚类，确定最佳的聚类数；

可将不安全行为分为了5个子类，子类之下又分为了18个细子类；

其中，使用Apriori算法挖掘致因要素之间存在的关联关系，所述Apriori 算法是基于已知的知识来进行优化，没有关联关系的致因要素之间的支持度不用计算，包括企业文化与安全管理体系之间存在单向关系；安全管理体系与间接原因之间存在单向的关系；间接原因与不安全动作和不安全物态之间存在单向的关联关系；不安全动作和不安全物态之间存在双向的关系；

在所述步骤S6中，采用DEMATEL影响分析法对致因要素间的关联关系进行分析，所述DEMATEL影响分析法具体操作步骤为：

S6-1：确定系统中的致因要素；

S6-3：规范化处理矩阵X得到矩阵G；

S6-4：计算系统中致因要素间的综合影响力矩阵T；

具体的，本实施例结果均在Windows10系统Matlab下2015b平台下完成，

(1)首先采集了数据并对数据做了清洗，一共有291篇对化工事故描述的事故调查报告符合要求，将这291篇调查报告作为训练原因分类模型的训练集；训练集中的调查报告是在2020年11月采集到的数据，将12月至今发布在网站上的报告作为测试集，一共15篇，来验证模型训练的效果；

(2)对文档进行处理：事故报告中除了事故原因部分外，其余部分中都没有对事故原因的描述，于是基于规则将文章中的事故原因部分筛选出来，然后使用子句分割的方法将原因部分的描述切分成子句，并基于原因本体模型对子句进行逐一分析和打标，最终一共有8474条子句作为训练集来训练模型，人的不安全行为有1172条，物的不安全状态有937条，不安全常态原因有916条，管理体系原因741条，企业决策原因321条，组织外部原因477条，企业文化原因196 条，数据分布存在不均衡现象，但在可接受范围内，不需要特别处理；如图1 所示的是原因识别分类结果；

(3)对训练集和验证集语料的文本预处理：文本数据预处理包含了分词和词向量化。分词就是将一段文本按照分词算法分割成一段词序列的工作，是词向量化和训练分类模型的基础，借助LTP自然语言工具包对句子进行分词；文本向量化就是将句子分词后形成的词序列以向量的形式表示，词向量模型需要大量相关语料来训练权重，本实施例使用全部7618篇调查报告中对原因的描述来训练词向量模型，训练的word2vec设置的参数为：训练方式为skip-gram模型，输出的向量维数为50维。然后使用训练好的词向量模型将文本向量化；

(4)搭建了Bert-Bi-LSTM模型，然后将向量化的子句作为输入，输入到 Bert-Bi-LSTM模型中进行训练，训练后可以得到一个Bert-Bi-LSTM识别分类模型，最后使用这个模型对测试集中的数据进行分类来验证模型的效果。搭建的 Bert-Bi-LSTM各层网络及参数，数据输入之后首先经过一层dropout层来防止学习过拟合，然后输入到Bert-Bi-LSTM层中学习特征，最后输入到一个全连接层中进行分类。最终对训练好的模型分类效果进行评估，本实施例采用精确率 (Precision)、召回率(Recall)和F1值三个指标来评价模型的性能，如图2所示。

本发明所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或说明或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求述所定义的范围。

Claims

1.一种基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，在所述步骤S2中，采用SEM事件表示模型确定化工事故的原因和事故中的元素，所述SEM事件表示模型有10种原因属性关系类型：人的不安全行为，行为人，人物；人的不安全行为，违反，规章制度；物的不安全状态，主体，设备；物的不安全状态，主体，危化品；企业决策原因，决策企业，企业；组织外部原因，监管组织，机构组织；管理体系原因，存在问题，规章制度；事故，发生时间，时间；事故，发生地点，地点；事故，事故的类型，类型；其中，与事故之间存在的关系有：直接导致，间接导致和根本原因。

3.根据权利要求1所述的基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，在所述步骤S4中，具体处理步骤为：

MaxL＝[Sim W_max1，Sim W_max2，…，Sim W_maxk] (1)；

其中，Sim W_max1，Sim W_max2，…，Sim W_maxk表示1...k个最大相似度特征矩阵；

句子s1、s2的相似度计算公式如下：

表示第i个最大相似度特征矩阵；

其中，使用Apriori算法挖掘致因要素之间存在的关联关系，所述Apriori算法是基于已知的知识来进行优化，没有关联关系的致因要素之间的支持度不用计算，包括企业文化与安全管理体系之间存在单向关系；安全管理体系与间接原因之间存在单向的关系；间接原因与不安全动作和不安全物态之间存在单向的关联关系；不安全动作和不安全物态之间存在双向的关系。

4.根据权利要求1所述的基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，在所述步骤S6中，采用DEMATEL影响分析法对致因要素间的关联关系进行分析，所述DEMATEL影响分析法具体操作步骤为：

S6-1：确定系统中的致因要素；

S6-3：规范化处理矩阵X得到矩阵G；

S6-4：计算系统中致因要素间的综合影响力矩阵T；

5.根据权利要求1-4任一项所述的基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，所述步骤S1中，对数据进行清洗时采取以下操作进行处理：

6.根据权利要求1-4任一项所述的基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，所述步骤S2中，对所述知识图谱的模式层构建包括以下步骤：

7.根据权利要求1-4任一项所述的基于注意力机制的化工事故原因知识图谱构建方法，其特征在于，所述步骤S3中，所述知识图谱的数据层的构建算法包括以下步骤：

S3-1：基于子句的原因识别方法生成训练语料；