CN110162508A - 面向过程安全分析的信息标准化方法 - Google Patents

面向过程安全分析的信息标准化方法 Download PDF

Info

Publication number
CN110162508A
CN110162508A CN201910422479.0A CN201910422479A CN110162508A CN 110162508 A CN110162508 A CN 110162508A CN 201910422479 A CN201910422479 A CN 201910422479A CN 110162508 A CN110162508 A CN 110162508A
Authority
CN
China
Prior art keywords
data
hazop
document
word
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910422479.0A
Other languages
English (en)
Inventor
高东
肖遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201910422479.0A priority Critical patent/CN110162508A/zh
Publication of CN110162508A publication Critical patent/CN110162508A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向过程安全分析的数据标准化存储方法,包括:从HAZOP分析文档中读取数据,对读取的数据进行预处理,构建领域词汇表,对HAZOP处理文档进行标准化处理,提取关键信息并存储在OWL文档中。该方法通过使用自然语言处理技术从文本中提取数据并将其存储在owl文档中,将HAZOP分析文档转换为知识本体,将不同的HAZOP分析产生的数据格式统一,使得数据具有良好的重用性。实现了HAZOP分析数据的存储与共享,使大量数据得到有效利用,为HAZOP分析安全评估提供了保障。

Description

面向过程安全分析的信息标准化方法
技术领域
本发明涉及一种数据标准化与存储方法,具体涉及一种面向过程安全分析的信息标准化方法。
背景技术
在原油和天然气的加工过程中,由于工艺复杂,不可避免地会出现各种意外错误。为了避免人员伤亡和经济损失,安全分析对设备尤其重要。过程危害分析(PHA)对于主动识别潜在的安全问题并建议可行的缓解措施非常重要。在现有的PHA技术中,危险和可操作性(HAZOP)分析是原油和天然气加工过程中使用最广泛的分析。传统的HAZOP分析方法大多采用头脑风暴的形式,并将讨论结果记录在电子文档中。但这种方法耗时,费力且昂贵,该方法依赖于HAZOP分析专家的经验,大量形式不同的HAZOP分析报表造成重用率低资源浪费。为了解决这个问题,一些专家设计了软件来辅助HAZOP分析,以提高HAZOP的分析效率。但是,由于无法实现自动分析,HAZOP分析的效率无法从源头得到改善。其他一些专家通过使用规则HAZOP和模型开发了自动HAZOP分析软件,可以大大减少人工工作量和人为分析的错误概率,使得系统安全分析的效率达到很高的水平,但这两种方法产生的数据格式不同,无法达到数据分享的目的。
发明内容
针对现有技术中的不足,本发明的目的是提供一种面向过程安全分析的信息标准化方法,以实现HAZOP分析数据的存储与共享。
本发明的目的是采用下述技术方案实现的:
一种面向过程安全分析的数据标准化存储方法,包括:
从HAZOP分析文档中读取数据;
对读取的数据进行预处理,得到HAZOP处理文档;
构建领域词汇表;
根据领域词汇表对HAZOP处理文档进行标准化处理;
提取关键信息并存储在OWL文档中。
进一步的,所述读取数据包括读取HAZOP分析文档中每个分析节点的原因数据,偏差数据和结果数据。
进一步的,采用自然语言处理技术对读取的数据进行预处理。
进一步的,所述对读取的数据进行预处理包括中文分词,词性标注和删除停用词。
进一步的,所述停用词包括空字符,标点符号和不重要词汇。
进一步的,使用IEC-61882国际标准构建领域词汇表。
进一步的,所述领域词汇表包含领域名词和IEC-61882国际标准中的词汇。
进一步的,所述对HAZOP处理文档进行标准化处理具体包括:
计算所述HAZOP处理文档中的单词与所述领域词汇表中单词的相似度;若计算得到的相似度一致,判定HAZOP处理文档中的单词为同义词,并将所述同义词替换为领域词汇表中的单词;若计算得到的相似度不同,记录单词并手动存储。
进一步的,采用HIT-IR同义词词林计算所述HAZOP处理文档中的单词与所述领域词汇表中单词的相似度。
进一步的,使用自然语言处理技术和所述领域词汇表提取关键信息并存储在OWL文档中。
本申请提供的技术方案可以包括以下有益效果:
本发明提出的一种面向过程安全分析的信息标准化方法,该方法使用自然语言处理技术从文本中提取数据并将其存储在owl文档中,将HAZOP分析文档转换为知识本体,将不同的HAZOP分析产生的数据格式统一,使得数据具有良好的重用性。此外还实现了HAZOP分析数据的存储与共享,使大量数据得到有效利用,为HAZOP分析安全评估提供了保障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是信息标准化方法流程图;
图2是危险情景环示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
第一优选技术方案
图1为信息标准化方法流程图,如图1所示,包括以下步骤:
步骤1.从HAZOP分析文档中读取数据;
HAZOP分析过程主要包括节点划分,确定偏差和风险等级确定等,通过检查每个过程出现偏差的原因和结果,以确定哪些偏差是不可接受的,最后提出改进建议以提高过程安全性和可靠性。在HAZOP分析文档中,由于文档中的数据并不规则,在读取文档数据的过程中,需要将无关的数据过滤掉,只读取HAZOP分析文档中每个分析节点的原因,偏差和结果等参数数据。
步骤2.对读取的数据进行预处理,得到HAZOP处理文档;
本发明采用自然语言处理技术对读取的数据进行预处理,包括中文分词,词性标注和删除停用词。自然语言处理技术(NLP)是人与计算机之间以自然语言进行交流的技术,主要任务包括词法分析、句法分析和语义分析,其中语法分析包括中文分词和词性标注。中文分词是将一个句子逐个分成若干个单词,中文分词的模型很多,一些组织还集成了如分词和词性标注等功能的系统,为用户提供API。本发明采用分词工具ICTCLAS5.0进行中文分词,并对每个单词按照表1所示的部分中文词性标准进行词性标注,如果句子中出现停用词,则将该停用词从句子中删除。所述停用词来源于停用词表,主要包括空字符,标点符号以及其他不重要词汇。
表1部分中文词性标准
词性编码 词性名称
n 名词
d 副词
m 数词
nr 人名
ns 地名
p 介词
r 代词
步骤3.构建领域词汇表;
本发明根据知识本体规则构建领域词汇表。所述领域词汇表由IEC-61882国际标准构建而成,包含领域名词和IEC-61882国际标准中的词汇。其中IEC-61882国际标准是过程工厂集成标准,是危险和可操作性分析的应用指南,也是HAZOP计算机信息存储和构建知识库的标准,可以有效实现集成,共享和交换HAZOP分析数据。使用IEC-61882国际标准构建的领域词汇表定义了该领域识别的词汇知识,使领域知识标准化,还可以用于存储特定域中的数据信息,利用某些工具获取知识,实现知识的共享和重用。构建领域词汇表的关键是获取领域信息,获取领域信息的常用方法是使用每个主题区域的主题词汇表和分类表。本发明使用自然语言技术从文本文档或数据库中获取,并选择OWL作为存储本体知识的语言。
步骤4.对HAZOP处理文档进行标准化处理;
首先计算所述HAZOP处理文档中的单词与所述领域词汇表中单词的相似度;若计算得到的相似度一致,则判定HAZOP处理文档中的单词为同义词,并将所述同义词替换为领域词汇表中的单词;若计算得到的相似度不同,记录单词并手动存储。本发明使用HIR-IR同义词词林(哈尔滨工业大学信息检索实验室,HIT-IR)计算相似度。HIR-IR同义词词林提供了三层编码,大类用大写英文字母表示,中间类用小写英文字母表示,小类用两个十进制整数表示。为方便起见,又分了4级和5级,4级由大写英文字母表示,5级由两个十进制整数表示。将编码的第4级和第5级与原始的三级编码相结合并形成完整的编码,此编码是出现在字典中的单词的唯一代表,共7位编码。第5级的分类结果需要特殊说明,例如,某些行是同义词,某些行是相关词。所以它添加“#”或“=”或“@”来表示第八个编码。“=”的含义是“相等”和“同义”,“#”的含义是“不等”和“相似”,“@”的含义是“不等”和“不同”。如果HAZOP处理文档中的单词与所述领域词汇表中的单词具有相同的编码,并且第八位编码是“=”,则判定HAZOP处理文档中的单词为同义词,使用领域词汇表中的单词替换该同义词,并将单词存储在owl文件中。如果单词不同或单词代码相同但第八个代码不是“=”,则表示这两个单词不是同义词,可以先记录单词再手动存储。
步骤5.提取关键信息并存储在OWL文档中;
本发明使用自然语言处理技术和所述领域词汇表提取关键信息并存储在OWL文档中。
第二优选技术方案
本实施例以煤层间接液化项目石油合成设备的HAZOP分析报告为例,利用java编程语言来实现本发明提出的方法,具体过程如下所述。
1、数据获取和预处理
首先,从HAZOP分析文档中读取每个分析节点的参数,偏差,原因,结果等数据。再使用分词工具ICTCLAS5.0进行数据预处理,包括中文分词,词性标注和删除停用词。例如,处理从文档中读取的原因数据,内容为“除氧水入R-5611101中段流量过小”,分词和词性标注的结果为“除/p氧/n水/n入/v R/o-/wp 5611101/m中段/s流量/n过小/a”。由于文中“R-5611101”是自定义词汇,导致在分词过程中出现分词不准确的情况,因此,在使用分词工具ICTCLAS5.0时,需要加入专业领域词汇,如:除氧水,费托反应器本体,R-5611101,循环换热分离器等,以保证在分词和词性标注的过程能够得到更准确的结果。同时,在读取到编号等词汇时,需要在文档中找到编号所对应的实体,然后将编号替换为实体。处理结果如下:“除氧水/n入/v费托反应器本体/n中段/s流量/n过小/a”;然后再根据停用词表删除不必要的词,最终的处理结果为“除氧水/n费托反应器本体/n流量/n过小/a”。
2、数据存储
在完成上述预处理后,需要将处理后的数据存储在owl文件中。为了简化数据,将处理结果中的“费托反应器本体”删除,得到结果为“除氧水/n流量/n过小/a”。然后使用HIR-IR同义词词林扩展版计算来自数据处理结果与建立的词汇表两个词之间的相似性,例如,“过小”和“较少”具有相同的编码,则使用Jena提供的java A PI来操作数据并将数据存储在owl文件中。再使用Protégé手动将名为“未处理的单词”的文件中的单词添加到owl文件中。
3、数据可视化处理
在获得owl知识本体后,使用Protégé直观地管理owl本体并验证方法的可行性。该知识本体不仅包含节点信息,还包括节点之间的关系,如图2所示的危险情景环,所述危险情景环是由多结点构成的环形路径,每一条完整的路径是一个危险的情节。例如,从“费托反应器本体温度”到“较少”到“无”再回到“费托反应器本体温度”的环路,环路的关系包含偏差,结果。所有环路最多包含一个原因,一个结果和一个偏差。所有来自HAZOP文档的危险情景均可以采用这种方法表示,为安全评估提供了保障。
通过Protégé软件直观地管理OWL文档并验证知识可以看出,本方法能够很好地表达HAZOP分析的知识,实现HAZOP分析数据的集成和共享。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种面向过程安全分析的数据标准化存储方法,其特征在于,包括:
从HAZOP分析文档中读取数据;
对读取的数据进行预处理,得到HAZOP处理文档;
构建领域词汇表;
根据领域词汇表对HAZOP处理文档进行标准化处理;
提取关键信息并存储在OWL文档中。
2.根据权利要求1所述的数据标准化存储方法,其特征在于,所述读取数据包括读取HAZOP分析文档中每个分析节点的原因数据,偏差数据和结果数据。
3.根据权利要求1所述的信息标准化方法,其特征在于,采用自然语言处理技术对读取的数据进行预处理。
4.根据权利要求1所述的信息标准化方法,其特征在于,所述对读取的数据进行预处理包括中文分词,词性标注和删除停用词。
5.根据权利要求4所述的信息标准化方法,其特征在于,所述停用词包括空字符,标点符号和不重要词汇。
6.根据权利要求1所述的信息标准化方法,其特征在于,使用IEC-61882国际标准构建领域词汇表。
7.根据权利要求1或6所述的信息标准化方法,其特征在于,所述领域词汇表包含领域名词和IEC-61882国际标准中的词汇。
8.根据权利要求1所述的信息标准化方法,其特征在于,所述对HAZOP处理文档进行标准化处理具体包括:
计算所述HAZOP处理文档中的单词与所述领域词汇表中单词的相似度;若计算得到的相似度一致,判定HAZOP处理文档中的单词为同义词,并将所述同义词替换为领域词汇表中的单词;若计算得到的相似度不同,记录单词并手动存储。
9.根据权利要求8所述的信息标准化方法,其特征在于,采用HIT-IR同义词词林计算所述HAZOP处理文档中的单词与所述领域词汇表中单词的相似度。
10.根据权利要求1所述的信息标准化方法,其特征在于,使用自然语言处理技术和所述领域词汇表提取关键信息并存储在OWL文档中。
CN201910422479.0A 2019-05-21 2019-05-21 面向过程安全分析的信息标准化方法 Pending CN110162508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910422479.0A CN110162508A (zh) 2019-05-21 2019-05-21 面向过程安全分析的信息标准化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910422479.0A CN110162508A (zh) 2019-05-21 2019-05-21 面向过程安全分析的信息标准化方法

Publications (1)

Publication Number Publication Date
CN110162508A true CN110162508A (zh) 2019-08-23

Family

ID=67631673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910422479.0A Pending CN110162508A (zh) 2019-05-21 2019-05-21 面向过程安全分析的信息标准化方法

Country Status (1)

Country Link
CN (1) CN110162508A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
CN104915760A (zh) * 2015-05-27 2015-09-16 中国石油化工股份有限公司 一种预防大型原油储罐火灾事故的评估方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
US20180357227A1 (en) * 2015-09-16 2018-12-13 John L. Haller, Jr. System and method for analyzing popularity of one or more user defined topics among the big data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
CN104915760A (zh) * 2015-05-27 2015-09-16 中国石油化工股份有限公司 一种预防大型原油储罐火灾事故的评估方法
US20180357227A1 (en) * 2015-09-16 2018-12-13 John L. Haller, Jr. System and method for analyzing popularity of one or more user defined topics among the big data
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI-FENG WANG等: "Automatic hazard analysis of batch operations with Petri nets", 《RELIABILITY ENGINEERING AND SYSTEM SAFETY》 *
赵利华: "基于案例推理的HAZOP分析自动化框架的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
US7295967B2 (en) System and method of analyzing text using dynamic centering resonance analysis
CN104679850B (zh) 地址结构化方法及装置
CN102253930B (zh) 一种文本翻译的方法及装置
RU2732850C1 (ru) Классификация документов по уровням конфиденциальности
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
CN106066866A (zh) 一种英文文献关键短语自动抽取方法与系统
CN105677638B (zh) Web信息抽取方法
CN107039034A (zh) 一种韵律预测方法及系统
CN111061882A (zh) 一种知识图谱构建方法
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
CN100361124C (zh) 用于词分析的系统和方法
Perera et al. A multi-strategy approach for lexicalizing linked open data
JP4085156B2 (ja) テキスト生成方法及びテキスト生成装置
CN113159969A (zh) 一种金融长文本复核系统
US11314922B1 (en) System and method for generating regulatory content requirement descriptions
CN113971210B (zh) 一种数据字典生成方法、装置、电子设备及存储介质
CN116821376B (zh) 煤矿安全生产领域的知识图谱构建方法及系统
CN109033370A (zh) 一种查找相似店铺的方法及装置、店铺接入的方法及装置
Saneifar et al. Terminology extraction from log files
Loglisci et al. Toward geographic information harvesting: Extraction of spatial relational facts from Web documents
US20230419110A1 (en) System and method for generating regulatory content requirement descriptions
CN110162508A (zh) 面向过程安全分析的信息标准化方法
CN114064855A (zh) 一种基于变压器知识库的信息检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication