CN111667192A

CN111667192A - 一种基于nlp大数据的安全生产风险评估方法

Info

Publication number: CN111667192A
Application number: CN202010534132.8A
Authority: CN
Inventors: 赖兆红
Original assignee: Beijing Zhuoyue Xuntong Technology Co ltd
Current assignee: Beijing Zhuoyue Xuntong Technology Co ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-15

Abstract

本发明公开了一种基于NLP大数据的安全生产风险评估方法，第一步对语料库按段落清洗、去掉数字和特殊字符；第二步根据预定义的分词算法进行分词和段落为单元对每个词计算输入向量V‑input；第三步采用人工神经网络获取隐藏层神经元数值；第四步计算每一个词的神经网络输出；第五步为通过SoftMax计算每个词输出概率值；第六步为输出数值比对，如果不满足则通过代价函数和梯度函数调整学习权重。第七步为反复循环第一步和第六步完成训练。最后根据特征词向量距离和词频获取该风险特征词的权重值作为风险评估的输入。本发明通过已知事故的描述数据来获取风险的关联特征词，得到相关的风险因子或风险源增加安全生产风险数据源输入，提升了安全生产风险评估可靠性。

Description

一种基于NLP大数据的安全生产风险评估方法

技术领域

本发明涉及NLP大数据风险评估技术领域，具体为一种基于NLP大数据的安全生产风险评估方法。

背景技术

目前安全生产风险评估通常采用层次分析法AHP(Analytic HierarchyProcess)、HAZOP(Hazard and Operability analysis，危害与可操作性分析)和SCL等风险评估方法。AHP层次分析方法是认为安全生产风险是由不同的因素组成，并按照因素间的相互关联影响以及隶属关系将因素按不同的层次聚集组合，形成一个多层次的分析结构模型，并且从最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要行给赋予不同的权值。这个权重赋值通常采用专家经验值的方法。而HAZOP风险评估方法也是基于生产经验对每个过程涉及的环节和操作进行打分评估的一种方式。SCL是基于经验的方法，通过列出工艺设备和操作有关的已知类型的危害、设计缺陷表进行评估的方式。这些方法忽略了一个重要的数据来源，即安全生产的事故描述数据和生产过程的隐患数据。这类数据属于文本类型，无法直接进行定量的分析。

因此，以上问题需要解决。

发明内容

本发明的目的在于提供一种基于NLP大数据的安全生产风险评估方法，本发明解决的技术问题：一是如何采用NLP大数据技术手段从海量的安全生产相关文本数据发现风险因子(风险源特征词)，从而提升安全生产风险评估的科学性和可靠性。二是在某些事故数据不足场景下(因为有些安全生产事故场景5是无法重复)如何通过NLP大数据技术解决低频风险特征词难以识别的问题。

为了解决上述技术问题，本发明提供如下技术方案：

一种基于NLP大数据的安全生产风险评估方法，包括以下步骤：

步骤102：准备安全生产风险评估语料库，对语料库按段落切分、清洗、去掉数字和特殊字符；

步骤103：根据预定义的分词算法对段进行分词和以段落为单元对每个词计算输入向量V-input；所述输入向量V-input采用one-hot-representation方法；

步骤104：采用人工神经网络计算隐藏层数据，获取每个词的隐藏层值；人工神经网络计算方法为：每个词向量乘以输入神经网络学习矩阵得出隐藏神经元的数值，输入学习矩阵大小为VxN,其中V代表输入的词个数，N代表的是隐藏层神经元数；

步骤105：通过隐藏层神经元数值和学习权重矩阵，计算输出值；计算输出值的计算方法为：隐藏层的数据乘以输出学习矩阵(大小为NxV),即得到输出值；

步骤106：通过SoftMax对每个输出值计算对应的概率和进行归一化处理，如果概率输出大于80％，否则通过梯度函数反向调整神经网络学习矩阵权值，直到满足输出结果则符合要求；

其中SoftMax函数为：对输出值X_i进行求和作为分母，然后X_i除以分母即得出每个输出值的概率，见如下公式，公式1：

神经网络的cost损失函数为如下，其中Wo为输出词word的值，Wi为目标值，公式2：

E＝-log P(w_O|w_I)

更新神经网络学习矩阵的梯度函数为如下，其中h为隐藏层数值，W为学习矩阵，公式3：

和最后学习权重更新计算公式为，公式4：

步骤107：判断学习输出值是否满足要求，是则进入步骤108，否则重复102-106步骤；

步骤108：判断训练数据是否结束，是则进入步骤109，否则重复步骤102-步骤107，一直到训练数据结束；

步骤109：保存学习结果数据，通过根据安全生产风险的关键词如透水，获取关联词特征词，把特征词定义为风险因子；

步骤110：采用余弦算法对关键词和特征词的向量计算距离dist，所述风险因子权重值定义为关联距离乘以特征词的词频freq，即w＝dist*freq作为安全生产风险评估新的因子输入。

与现有技术相比，本发明的关键点是通过已知事故的描述数据来获取风险的关联特征词，从而得到相关的风险因子或风险源增加安全生产风险数据源输入，从而提升安全生产风险评估可靠性。本发明采用了词向量和概率神经网络混合技术来获取风险特征词，这个方法可以避免低频特征词无法识别的场景。因为如果采用内容匹配的方式，只有高频特征词才可以被发现。如果采用概率向量的方式，是以向量相似度进行比对的，这样低频特征词的向量也会被识别和记录。本发明的技术效果是通过已有事故数据的汇总，采用NLP大数据的方式对事故文本数据进行分析，得出和事故关联的风险特征词包括设备名称、工艺名称、流程节点特征词和任何可能潜在的风险源特征词。通过获取风险关联特征词和结合海量的事故文本数据，提供一种对风险源基于大数据的量化赋权方法。一是提升了安全生产评估风险因子赋权的科学性和可靠性；二是通过大数据对事故数据的分析，可以发现新的风险因子(风险源)，从而补充了安全生产风险评估的数据源。

附图说明

图1是本发明方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种基于NLP大数据的安全生产风险评估方法：包括以下步骤：

步骤101：开始；

安全生产风险评估的文本语料库主要来自事故报告，比如煤矿透水事故。目前一个事故的发生，基本都会有相关的报道并在互联网上可以获取。所以事故的报道可以通过互联网爬虫获取或者从应急管理部门下载事故调查报告。

比如，一个透水事故的描述为：“透水事故主要因素为裂隙水、地表水和老窑水。虽然矿井涌水量不大，但周边老窑密布，其开采深度、范围和井下积水情况不明，是矿井开采的主要水害威胁。加之煤层埋深浅，地表水易沿老窑、采动裂隙和断层进入井下，矿井水患严重，属水文地质条件复杂类型矿井。主副井井底布置有主排水系统，建有容量约300m3/h的水仓。”

第一步就需要对上面这段话去掉300平方米数字和特殊字符/h。是通过汉字编码范围进行去除这些特殊字符和数字的。

步骤103：根据预定义的分词算法对段进行分词和以段落为单元对每个词计算输入向量V-input。

词向量的输入采用one-hot-representation方法，比如：“透水事故主要因素为裂隙水、地表水和老窑水”，分词完之后包含8个词即：[透水,事故,主要,因素,为,裂隙水,地表水,老窑水]，对应的向量vector为[1000000,01000000,00100000,00010000,00001000,0001000,00000100,00000010,00000001].

步骤104：采用人工神经网络计算隐藏层数据，获取每个词的隐藏层值；

人工神经网络计算方法为：每个词向量乘以输入神经网络学习矩阵得出隐藏神经元的数值，输入学习矩阵大小为VxN,其中V代表输入的词个数，N代表的是隐藏层神经元数。

步骤105：通过隐藏层神经元数值和学习权重矩阵，计算输出值；

计算输出值的计算方法为：隐藏层的数据乘以输出学习矩阵(大小为NxV),即得到输出值。

步骤106：通过SoftMax对每个输出值计算对应的概率和进行归一化处理，如果概率输出大于80％，否则通过梯度函数反向调整神经网络学习矩阵权值，直到满足输出结果则符合要求。

E＝-log P(w_O|w_I)

和最后学习权重更新计算公式为，公式4：

步骤108：判断训练数据是否结束，是则进入步骤109，否则重复步骤102-步骤107，一直到训练数据结束。

步骤109：保存学习结果数据，通过根据安全生产风险的关键词如透水，获取关联词特征词(如裂隙水、地表水和老窑水)，把特征词定义为风险源点(即为风险因子)。

步骤110：采用余弦算法对关键词和特征词的向量计算距离dist，该风险因子权重值定义为关联距离乘以特征词的词频freq，即w＝dist*freq作为安全生产风险评估新的因子输入。

本发明中的数据输入为安全生产历史事故语料库。第一步对语料库按段落切分、清洗、去掉数字和特殊字符；第二步根据预定义的分词算法进行分词和以段落为单元对每个词计算输入向量V-input；第三步采用人工神经网络获取计算隐藏层值。第四步计算每个词的人工神经网络输出值。第五步通过SoftMax对每个输出值计算对应的概率和进行归一化处理。第六步为重复1-5步骤直到训练数据完成。第七步为保存学习结果数据，通过根据安全生产风险的关键词如透水，获取关联词特征词(如裂隙水、地表水和老窑水)，把特征词定义为风险源点(即为风险因子)。最后计算特征词的向量距离再和词频相乘，该数值作为风险评估的数值输入。

与现有技术相比，本发明的关键点是通过已知事故的描述数据来获取风险的关联特征词，从而得到相关的风险因子或风险源增加安全生产风险数据源输入，从而提升安全生产风险评估可靠性。本发明采用了词向量和神经网络混合技术来获取风险特征词，这个方法可以避免低频特征词无法识别的场景。因为如果采用内容匹配的方式，只有高频特征词才可以被发现。如果采用向量的方式，是以向量相似度进行比对的，这样低频特征词的向量也会被识别和记录。本发明的技术效果是通过已有事故数据的汇总，采用NLP大数据的方式对事故文本数据进行分析，得出和事故关联的风险特征词包括设备名称、工艺名称、流程节点特征词和任何可能潜在的风险源特征词。通过获取风险关联特征词和结合海量的事故文本数据，提供一种基于大数据的风险源量化赋权方法。一是提升了安全生产评估风险因子赋权的科学性和可靠性；二是通过大数据对事故数据的分析，可以发现新的风险因子(风险源)，从而补充了安全生产风险评估的数据源。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于NLP大数据的安全生产风险评估方法，其特征在于，包括以下步骤：

E＝-log P(w_O|w_I)

和最后学习权重更新计算公式为，公式4：