CN111667192A - 一种基于nlp大数据的安全生产风险评估方法 - Google Patents
一种基于nlp大数据的安全生产风险评估方法 Download PDFInfo
- Publication number
- CN111667192A CN111667192A CN202010534132.8A CN202010534132A CN111667192A CN 111667192 A CN111667192 A CN 111667192A CN 202010534132 A CN202010534132 A CN 202010534132A CN 111667192 A CN111667192 A CN 111667192A
- Authority
- CN
- China
- Prior art keywords
- word
- input
- value
- risk
- safety production
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NLP大数据的安全生产风险评估方法,第一步对语料库按段落清洗、去掉数字和特殊字符;第二步根据预定义的分词算法进行分词和段落为单元对每个词计算输入向量V‑input;第三步采用人工神经网络获取隐藏层神经元数值;第四步计算每一个词的神经网络输出;第五步为通过SoftMax计算每个词输出概率值;第六步为输出数值比对,如果不满足则通过代价函数和梯度函数调整学习权重。第七步为反复循环第一步和第六步完成训练。最后根据特征词向量距离和词频获取该风险特征词的权重值作为风险评估的输入。本发明通过已知事故的描述数据来获取风险的关联特征词,得到相关的风险因子或风险源增加安全生产风险数据源输入,提升了安全生产风险评估可靠性。
Description
技术领域
本发明涉及NLP大数据风险评估技术领域,具体为一种基于NLP大数据的安全生产风险评估方法。
背景技术
目前安全生产风险评估通常采用层次分析法AHP(Analytic HierarchyProcess)、HAZOP(Hazard and Operability analysis,危害与可操作性分析)和SCL等风险评估方法。AHP层次分析方法是认为安全生产风险是由不同的因素组成,并按照因素间的相互关联影响以及隶属关系将因素按不同的层次聚集组合,形成一个多层次的分析结构模型,并且从最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要行给赋予不同的权值。这个权重赋值通常采用专家经验值的方法。而HAZOP风险评估方法也是基于生产经验对每个过程涉及的环节和操作进行打分评估的一种方式。SCL是基于经验的方法,通过列出工艺设备和操作有关的已知类型的危害、设计缺陷表进行评估的方式。这些方法忽略了一个重要的数据来源,即安全生产的事故描述数据和生产过程的隐患数据。这类数据属于文本类型,无法直接进行定量的分析。
因此,以上问题需要解决。
发明内容
本发明的目的在于提供一种基于NLP大数据的安全生产风险评估方法,本发明解决的技术问题:一是如何采用NLP大数据技术手段从海量的安全生产相关文本数据发现风险因子(风险源特征词),从而提升安全生产风险评估的科学性和可靠性。二是在某些事故数据不足场景下(因为有些安全生产事故场景5是无法重复)如何通过NLP大数据技术解决低频风险特征词难以识别的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于NLP大数据的安全生产风险评估方法,包括以下步骤:
步骤102:准备安全生产风险评估语料库,对语料库按段落切分、清洗、去掉数字和特殊字符;
步骤103:根据预定义的分词算法对段进行分词和以段落为单元对每个词计算输入向量V-input;所述输入向量V-input采用one-hot-representation方法;
步骤104:采用人工神经网络计算隐藏层数据,获取每个词的隐藏层值;人工神经网络计算方法为:每个词向量乘以输入神经网络学习矩阵得出隐藏神经元的数值,输入学习矩阵大小为VxN,其中V代表输入的词个数,N代表的是隐藏层神经元数;
步骤105:通过隐藏层神经元数值和学习权重矩阵,计算输出值;计算输出值的计算方法为:隐藏层的数据乘以输出学习矩阵(大小为NxV),即得到输出值;
步骤106:通过SoftMax对每个输出值计算对应的概率和进行归一化处理,如果概率输出大于80%,否则通过梯度函数反向调整神经网络学习矩阵权值,直到满足输出结果则符合要求;
其中SoftMax函数为:对输出值Xi进行求和作为分母,然后Xi除以分母即得出每个输出值的概率,见如下公式,公式1:
神经网络的cost损失函数为如下,其中Wo为输出词word的值,Wi为目标值,公式2:
E=-log P(wO|wI)
更新神经网络学习矩阵的梯度函数为如下,其中h为隐藏层数值,W为学习矩阵,公式3:
和最后学习权重更新计算公式为,公式4:
步骤107:判断学习输出值是否满足要求,是则进入步骤108,否则重复102-106步骤;
步骤108:判断训练数据是否结束,是则进入步骤109,否则重复步骤102-步骤107,一直到训练数据结束;
步骤109:保存学习结果数据,通过根据安全生产风险的关键词如透水,获取关联词特征词,把特征词定义为风险因子;
步骤110:采用余弦算法对关键词和特征词的向量计算距离dist,所述风险因子权重值定义为关联距离乘以特征词的词频freq,即w=dist*freq作为安全生产风险评估新的因子输入。
与现有技术相比,本发明的关键点是通过已知事故的描述数据来获取风险的关联特征词,从而得到相关的风险因子或风险源增加安全生产风险数据源输入,从而提升安全生产风险评估可靠性。本发明采用了词向量和概率神经网络混合技术来获取风险特征词,这个方法可以避免低频特征词无法识别的场景。因为如果采用内容匹配的方式,只有高频特征词才可以被发现。如果采用概率向量的方式,是以向量相似度进行比对的,这样低频特征词的向量也会被识别和记录。本发明的技术效果是通过已有事故数据的汇总,采用NLP大数据的方式对事故文本数据进行分析,得出和事故关联的风险特征词包括设备名称、工艺名称、流程节点特征词和任何可能潜在的风险源特征词。通过获取风险关联特征词和结合海量的事故文本数据,提供一种对风险源基于大数据的量化赋权方法。一是提升了安全生产评估风险因子赋权的科学性和可靠性;二是通过大数据对事故数据的分析,可以发现新的风险因子(风险源),从而补充了安全生产风险评估的数据源。
附图说明
图1是本发明方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种基于NLP大数据的安全生产风险评估方法:包括以下步骤:
步骤101:开始;
步骤102:准备安全生产风险评估语料库,对语料库按段落切分、清洗、去掉数字和特殊字符;
安全生产风险评估的文本语料库主要来自事故报告,比如煤矿透水事故。目前一个事故的发生,基本都会有相关的报道并在互联网上可以获取。所以事故的报道可以通过互联网爬虫获取或者从应急管理部门下载事故调查报告。
比如,一个透水事故的描述为:“透水事故主要因素为裂隙水、地表水和老窑水。虽然矿井涌水量不大,但周边老窑密布,其开采深度、范围和井下积水情况不明,是矿井开采的主要水害威胁。加之煤层埋深浅,地表水易沿老窑、采动裂隙和断层进入井下,矿井水患严重,属水文地质条件复杂类型矿井。主副井井底布置有主排水系统,建有容量约300m3/h的水仓。”
第一步就需要对上面这段话去掉300平方米数字和特殊字符/h。是通过汉字编码范围进行去除这些特殊字符和数字的。
步骤103:根据预定义的分词算法对段进行分词和以段落为单元对每个词计算输入向量V-input。
词向量的输入采用one-hot-representation方法,比如:“透水事故主要因素为裂隙水、地表水和老窑水”,分词完之后包含8个词即:[透水,事故,主要,因素,为,裂隙水,地表水,老窑水],对应的向量vector为[1000000,01000000,00100000,00010000,00001000,0001000,00000100,00000010,00000001].
步骤104:采用人工神经网络计算隐藏层数据,获取每个词的隐藏层值;
人工神经网络计算方法为:每个词向量乘以输入神经网络学习矩阵得出隐藏神经元的数值,输入学习矩阵大小为VxN,其中V代表输入的词个数,N代表的是隐藏层神经元数。
步骤105:通过隐藏层神经元数值和学习权重矩阵,计算输出值;
计算输出值的计算方法为:隐藏层的数据乘以输出学习矩阵(大小为NxV),即得到输出值。
步骤106:通过SoftMax对每个输出值计算对应的概率和进行归一化处理,如果概率输出大于80%,否则通过梯度函数反向调整神经网络学习矩阵权值,直到满足输出结果则符合要求。
其中SoftMax函数为:对输出值Xi进行求和作为分母,然后Xi除以分母即得出每个输出值的概率,见如下公式,公式1:
神经网络的cost损失函数为如下,其中Wo为输出词word的值,Wi为目标值,公式2:
E=-log P(wO|wI)
更新神经网络学习矩阵的梯度函数为如下,其中h为隐藏层数值,W为学习矩阵,公式3:
和最后学习权重更新计算公式为,公式4:
步骤107:判断学习输出值是否满足要求,是则进入步骤108,否则重复102-106步骤;
步骤108:判断训练数据是否结束,是则进入步骤109,否则重复步骤102-步骤107,一直到训练数据结束。
步骤109:保存学习结果数据,通过根据安全生产风险的关键词如透水,获取关联词特征词(如裂隙水、地表水和老窑水),把特征词定义为风险源点(即为风险因子)。
步骤110:采用余弦算法对关键词和特征词的向量计算距离dist,该风险因子权重值定义为关联距离乘以特征词的词频freq,即w=dist*freq作为安全生产风险评估新的因子输入。
本发明中的数据输入为安全生产历史事故语料库。第一步对语料库按段落切分、清洗、去掉数字和特殊字符;第二步根据预定义的分词算法进行分词和以段落为单元对每个词计算输入向量V-input;第三步采用人工神经网络获取计算隐藏层值。第四步计算每个词的人工神经网络输出值。第五步通过SoftMax对每个输出值计算对应的概率和进行归一化处理。第六步为重复1-5步骤直到训练数据完成。第七步为保存学习结果数据,通过根据安全生产风险的关键词如透水,获取关联词特征词(如裂隙水、地表水和老窑水),把特征词定义为风险源点(即为风险因子)。最后计算特征词的向量距离再和词频相乘,该数值作为风险评估的数值输入。
与现有技术相比,本发明的关键点是通过已知事故的描述数据来获取风险的关联特征词,从而得到相关的风险因子或风险源增加安全生产风险数据源输入,从而提升安全生产风险评估可靠性。本发明采用了词向量和神经网络混合技术来获取风险特征词,这个方法可以避免低频特征词无法识别的场景。因为如果采用内容匹配的方式,只有高频特征词才可以被发现。如果采用向量的方式,是以向量相似度进行比对的,这样低频特征词的向量也会被识别和记录。本发明的技术效果是通过已有事故数据的汇总,采用NLP大数据的方式对事故文本数据进行分析,得出和事故关联的风险特征词包括设备名称、工艺名称、流程节点特征词和任何可能潜在的风险源特征词。通过获取风险关联特征词和结合海量的事故文本数据,提供一种基于大数据的风险源量化赋权方法。一是提升了安全生产评估风险因子赋权的科学性和可靠性;二是通过大数据对事故数据的分析,可以发现新的风险因子(风险源),从而补充了安全生产风险评估的数据源。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于NLP大数据的安全生产风险评估方法,其特征在于,包括以下步骤:
步骤102:准备安全生产风险评估语料库,对语料库按段落切分、清洗、去掉数字和特殊字符;
步骤103:根据预定义的分词算法对段进行分词和以段落为单元对每个词计算输入向量V-input;所述输入向量V-input采用one-hot-representation方法;
步骤104:采用人工神经网络计算隐藏层数据,获取每个词的隐藏层值;人工神经网络计算方法为:每个词向量乘以输入神经网络学习矩阵得出隐藏神经元的数值,输入学习矩阵大小为VxN,其中V代表输入的词个数,N代表的是隐藏层神经元数;
步骤105:通过隐藏层神经元数值和学习权重矩阵,计算输出值;计算输出值的计算方法为:隐藏层的数据乘以输出学习矩阵(大小为NxV),即得到输出值;
步骤106:通过SoftMax对每个输出值计算对应的概率和进行归一化处理,如果概率输出大于80%,否则通过梯度函数反向调整神经网络学习矩阵权值,直到满足输出结果则符合要求;
其中SoftMax函数为:对输出值Xi进行求和作为分母,然后Xi除以分母即得出每个输出值的概率,见如下公式,公式1:
神经网络的cost损失函数为如下,其中Wo为输出词word的值,Wi为目标值,公式2:
E=-log P(wO|wI)
更新神经网络学习矩阵的梯度函数为如下,其中h为隐藏层数值,W为学习矩阵,公式3:
和最后学习权重更新计算公式为,公式4:
步骤107:判断学习输出值是否满足要求,是则进入步骤108,否则重复102-106步骤;
步骤108:判断训练数据是否结束,是则进入步骤109,否则重复步骤102-步骤107,一直到训练数据结束;
步骤109:保存学习结果数据,通过根据安全生产风险的关键词如透水,获取关联词特征词,把特征词定义为风险因子;
步骤110:采用余弦算法对关键词和特征词的向量计算距离dist,所述风险因子权重值定义为关联距离乘以特征词的词频freq,即w=dist*freq作为安全生产风险评估新的因子输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010534132.8A CN111667192A (zh) | 2020-06-12 | 2020-06-12 | 一种基于nlp大数据的安全生产风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010534132.8A CN111667192A (zh) | 2020-06-12 | 2020-06-12 | 一种基于nlp大数据的安全生产风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111667192A true CN111667192A (zh) | 2020-09-15 |
Family
ID=72387255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010534132.8A Pending CN111667192A (zh) | 2020-06-12 | 2020-06-12 | 一种基于nlp大数据的安全生产风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667192A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862241A (zh) * | 2020-12-30 | 2021-05-28 | 广州智能科技发展有限公司 | 基于应急安全生产的隐患识别方法、设备及介质 |
CN116341539A (zh) * | 2023-03-02 | 2023-06-27 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种基于nlp大数据的水坝风险挖掘方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN110110330A (zh) * | 2019-04-30 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 基于文本的关键词提取方法和计算机设备 |
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
-
2020
- 2020-06-12 CN CN202010534132.8A patent/CN111667192A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
CN110110330A (zh) * | 2019-04-30 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 基于文本的关键词提取方法和计算机设备 |
Non-Patent Citations (2)
Title |
---|
LILONG117194: "word2vec的通俗理解", 《HTTPS://BLOG.CSDN.NET/LILONG117194/ARTICLE/DETAILS/81979522?OPS_REQUEST_MISC=&REQUEST_ID=&BIZ_ID=102&UTM_TERM=WORD2VEC》 * |
罗小丰同学: "词句相似度计算——余弦相似度", 《HTTPS://BLOG.CSDN.NET/WEIXIN_42078618/ARTICLE/DETAILS/89214445?OPS_REQUEST_MISC》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862241A (zh) * | 2020-12-30 | 2021-05-28 | 广州智能科技发展有限公司 | 基于应急安全生产的隐患识别方法、设备及介质 |
CN116341539A (zh) * | 2023-03-02 | 2023-06-27 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种基于nlp大数据的水坝风险挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Application of an adaptive neuro-fuzzy inference system to ground subsidence hazard mapping | |
CN111667192A (zh) | 一种基于nlp大数据的安全生产风险评估方法 | |
CN108932978B (zh) | 基于过程模拟及不确定性分析的污染物健康风险评价方法 | |
CN108280289B (zh) | 基于局部加权c4.5算法的冲击地压危险等级预测方法 | |
Majdi et al. | Applying evolutionary optimization algorithms for improving fuzzy C-mean clustering performance to predict the deformation modulus of rock mass | |
CN116228021A (zh) | 一种基于环境监测的矿山生态修复评价分析方法及系统 | |
CN112084240B (zh) | 一种群租房智能识别、联动治理方法及系统 | |
CN112990112A (zh) | 边缘引导的循环卷积神经网络建筑物变化检测方法及系统 | |
CN110704694A (zh) | 一种基于网络表示学习的组织层级划分方法及其应用 | |
CN115130375A (zh) | 一种岩爆烈度预测方法 | |
CN116090825A (zh) | 一种基于K-means聚类和神经网络的危险废物出口风险预警方法 | |
CN115017511A (zh) | 一种源代码漏洞检测方法、装置以及存储介质 | |
CN111507155A (zh) | 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置 | |
CN117273430A (zh) | 一种公路施工过程中的风险评估方法 | |
CN117196350B (zh) | 一种矿山地质环境特征监测与恢复治理方法及系统 | |
Lu et al. | Using cased based reasoning for automated safety risk management in construction industry | |
CN116992522A (zh) | 深基坑围护结构变形预测方法、装置、设备及存储介质 | |
CN113920440A (zh) | 垃圾填埋场遥感识别方法、装置和计算机设备 | |
CN109857783B (zh) | 基于深度学习的声纳渗流运动规律发现方法 | |
Xu et al. | RETRACTED ARTICLE: Source discrimination of mine water inrush based on Elman neural network globally optimized by genetic algorithm | |
CN113779888B (zh) | 地面沉降危险性评估方法、装置、设备及存储介质 | |
Wang et al. | A novel multi-input alexnet prediction model for oil and gas production | |
Zalasiński et al. | Intelligent approach to the prediction of changes in biometric attributes | |
CN110097296B (zh) | 流域突发水污染事故的最优应急处理技术筛选方法、应急决策系统 | |
CN110348639A (zh) | 一种煤矿顶板突水危险等级预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |