CN114168745B - 面向环氧乙烷衍生品生产过程的知识图谱构建方法 - Google Patents

面向环氧乙烷衍生品生产过程的知识图谱构建方法 Download PDF

Info

Publication number
CN114168745B
CN114168745B CN202111443714.6A CN202111443714A CN114168745B CN 114168745 B CN114168745 B CN 114168745B CN 202111443714 A CN202111443714 A CN 202111443714A CN 114168745 B CN114168745 B CN 114168745B
Authority
CN
China
Prior art keywords
data
knowledge
eod
layer
ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111443714.6A
Other languages
English (en)
Other versions
CN114168745A (zh
Inventor
段辰明
杨鑫
朱理
徐喜荣
魏小鹏
尹子涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111443714.6A priority Critical patent/CN114168745B/zh
Publication of CN114168745A publication Critical patent/CN114168745A/zh
Application granted granted Critical
Publication of CN114168745B publication Critical patent/CN114168745B/zh
Priority to US17/992,775 priority patent/US20230169309A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于知识图谱技术领域,提供了面向环氧乙烷衍生品生产过程的知识图谱构建方法。根据数据类型及特点,梳理环氧乙烷衍生品生产过程的数据源,将其划分为结构化、非结构化、其他类型三种数据。采用自顶向下和自底向上相结合的方法构建知识图谱的本体层和数据层。提出一种基于数据驱动的增量式本体建模方法,保证知识图谱的可扩展性。面向结构化知识抽取,采用虚拟知识图谱的方法,保证原始数据存储的安全性,提出一种新的映射机制,实现数据实体化。面向非结构化知识抽取,融合预训练语言模型BERT,基于BERT‑BiLSTM‑CRF命名实体识别模型实现实体抽取任务。

Description

面向环氧乙烷衍生品生产过程的知识图谱构建方法
技术领域
本发明属于知识图谱(KnowledgeGraph)技术领域,尤其涉及环氧乙烷衍生品生产过程不同数据来源的知识抽取方法,提出一种面向精细化工生产过程的知识图谱构建方法。
背景技术
精细化工领域是当今化学工业中最具活力的新兴领域之一。近年来,我国精细化工产业正处于快速发展期,其产品因品种多、规模小、指标要求高等特殊性,使得精细化工生产过程工艺复杂、安全风险高。如何改善精细化工生产的安全风险管控措施是亟待解决的本质安全管理问题,具有重要的理论意义和十分迫切的现实意义。
环氧乙烷衍生品(EOD)作为精细化工中的重点生产产品,其安全生产数据具有来源多样、结构复杂、相互关联的特点。第一,环氧乙烷衍生精细化学品的安全监控与决策涉及的信息多种多样,包括仪表测量、图像监测、故障库、故障追踪报告、安检报告、安全状态分析等,数据量庞大;第二,数据类型复杂,有结构化、非结构化、半结构化形态,缺乏统一的语义表达,造成对生产安全知识的理解不充分,描述不准确;第三,数据流同时又包括生产、质量、库存、维护、能耗等环节,这些信息往往独立采集和处置,造成了数据分散,使得数据收集工作繁琐、决策效率低下,无法充分利用相关安全生产信息。
因此,本领域亟需解决对多源的安全生产信息、规则知识、经验知识等进行融合与关联,构建面向设备、过程装置、操作运行的安全生产知识体系,打通精细化工企业所面临的信息孤岛问题,为环氧乙烷衍生品安全生产分析与管控提供全面的数据来源。针对上述问题,本发明提出了面向环氧乙烷衍生品生产过程的知识图谱构建方法,接下来详细介绍知识图谱构建的背景技术。
知识图谱是大规模语义网络,是构建和挖掘信息关联关系的一种重要技术。相比较传统结构化数据处理工具,知识图谱在非结构化和半结构化数据的特征提取、内容检索、表示推理方面更具优势。相对于传统知识工程方法,知识图谱可以通过自动化构建、众包等形式实现大规模知识库的构建,具有良好的扩展性。
面向多源异构数据,每一种数据源的知识化都需要综合各种不同的技术的手段。知识图谱构建的基本流程为:首先确定知识表示模型,实现本体(Ontology)层的定义;接着根据数据来源选择不同的知识抽取方法导入知识,对于非结构数据,需要综合命名实体识别(Named Entity Recognition)、关系抽取(Relation Extraction)、事件抽取(EventExtraction)等自然语言处理技术,实现非结构化知识抽取。对于结构化数据,需要定义数据到本体模型之间的语义映射,实现结构化知识抽取。对于半结构化数据,需要通过包装器的方法完成信息的抽取;最后综合利用知识推理、知识融合等技术对构建的知识图谱进行质量提升。
知识图谱技术与各行业的深度融合和已经成为一个重要趋势。虽然目前精细化工行业已获得和存储了大量工业数据,但是由于缺少智能化手段,这些工业数据没有创造出“1+1>2”的价值。通过知识图谱技术对数据进行提炼、萃取、关联、整合从而形成领域知识,并构建知识引擎从而实现知识应用自动化,已成为行业智能化日渐清晰的一条路径。
发明内容
本发明针对在环氧乙烷衍生品生产过程场景下的知识管理任务,提出了一种完整、准确、高效的精细化工领域知识图谱构建技术。
本发明的技术方案:
面向环氧乙烷衍生品生产过程的知识图谱构建方法,步骤如下:
(1)梳理数据来源
本发明涵盖了环氧乙烷衍生品(EOD)生产过程的以下5种数据:一是EOD流程图和PID图纸,详细描述了EOD工艺流程以及监控样点对应流程中的位置;二是集散控制系统(DCS)中的过程测量数据,即监控样点,用于实时监控生产线的过程变量状态。EOD生产线存在三种类型过程测量数据:压力、温度、流速;三是DCS岗位运行记录表,记录了员工在岗对EOD生产线每一环节的监控及操作行为;四是EOD装置的工艺控制条件,描述了EOD生产线每一个环节、每一个设备的工艺控制范围;五是安全仪表系统(SIS)中的安全联锁规则,用于装置的安全联锁停车;六是危险与可操作性分析(HAZOP)报告,记录了EOD生产过程中异常行为的状态、引发条件、后果、处理方案以及预处理措施等内容;
针对以上6种数据,面向EOD生产过程的知识图谱的构建过程分为两个部分:本体层构建和数据层获取;采用“自顶向下”与“自底向上”相结合的方法构建本体层以及数据层;
(2)基于本体论的知识建模
本体层的构建是抽象出EOD领域内的概念层次结构,定义每个概念的相关属性、关系以及公理准则。由于实际工厂中存在大量多模态数据,本发明中所涉及的数据源仅仅是EOD生产过程中所产生的一部分数据,因此提出了一种基于数据驱动的增量式本体建模方法来逐步构建本体层,完善概念层定义,保证了知识图谱的可扩展性。同时利用OWL语言对本体层进行知识表示和公理的设计。本发明将本体模型定义为:
O=<C,R,A,E,F>
其中,O:EOD本体模型;
C:本体或类,指某一类实体对象或概念的集合;
R:逻辑关系,指本体之间的语义关系;
A:属性关系,指本体具有的属性和属性值;
E:实体,指本体的实例化;
F:函数或公理,用于表示本体间复杂关系的描述逻辑;
基于上述本体模型的定义,构建以EOD生产过程为核心的面向设备结构域、装置结构域、系统结构域、风险原因域、风险类别域和维修措施域6个相互关联的域的本体;采用自顶向下的方法进行本体体系划分,并对本体进行属性关系的定义,搭建EOD知识图谱的本体层框架;同时,将EOD装置的工艺控制条件和SIS安全联锁规则以公理的形式表示,进而对相关实体属性进行约束,使得EOD本体模型具备推理机制;
由于构建知识图谱是一个迭代更新的过程,新知识的融合在填充数据层的同时也会不断完善本体层框架;因此,通过对多源数据的知识抽取,采用自底向上的方式细化和补全本体层相关概念及属性;
(3)基于DCS数据库的结构化知识抽取
DCS数据库将关于EOD生产线监控样点的历史数据存储在关系数据库中;对结构化类型数据进行知识抽取时,为了避免数据的重复冗余,采用虚拟知识图谱的方式对DCS数据库中的数据进行虚拟映射,从而支持以访问知识图谱的形式直接访问关系数据库;
本方法提出了一种新的映射机制实现结构化知识抽取;DCS数据库设计模式是用位号即监控样点作为关系表属性或字段;因此,首先根据关系数据库的设计模式在步骤(2)知识建模的基础上细化本体层相关概念及属性的定义,然后通过映射规则实现三元组映射。基于将监控样点每一条历史数据实体化这一目的,设计了一种新的映射规则:将关系表中的属性定义为知识图谱中的本体,包括时间本体和位号本体;而关系表中的属性值作为知识图谱中的实体存在,每一个传感器实体具有时间戳属性,连接对应时间实体。如下:
ex:EOD/DCS/{PI-3175}a:监控点
ex:EOD/DCS/{TIME}a:时间点
ex:EOD/DCS/{PI-3175}TimeStamp{TIME}
其中,ex代表EOD知识图谱的命名空间,将DCS数据库中的属性为PI-3175的每一条属性值作为实体链接到知识图谱监控点本体上,属性为TIME的每一条属性值作为实体链接到时间点本体上,每一个监控点实体与对应的时间实体通过TimeStamp对象属性相关联。
除了DCS数据库中的生产数据外,DCS岗位运行记录表也是以结构化的形式存储在相应系统平台上,记录了员工在巡检过程中的监控和操作行为,这部分结构化数据通过相同的映射方式实现知识抽取;因此,在本体层定义了员工本体,该员工本体具有工号、工位、在岗时间、生产操作的逻辑属性;然后将记录表相关属性及属性值依次映射到知识图谱上,相关属性包括进料开始、脱气开始、中和剂进入、冷却;
(4)基于HAZOP报告的非结构化知识抽取
HAZOP报告包含了大量EOD生产过程中的事故状态、引发原因、造成后果以及处理措施等异常事件描述。由于HAZOP报告以非结构化文本呈现,需要通过自然语言处理技术,实现从文本中抽取知识。本发明采用命名实体识别技术(NER)进行非结构化知识抽取,需要提取的实体有化学品(Chemical)、事故(Accident)、设备(Equipment)。
首先从HAZOP中提取出相关语句进行数据标注,采用BIO格式进行数据标注,其中B表示实体的第一个字,I表示实体的中间部分,O表示非实体。将数据集相关实体标注为“B-CHE”,“B-ACC”,“B-EQU”,“I-CHE”,“I-ACC”,“I-EQU”,非实体标注为O。标注好的数据集以8:1:1的比例划分成训练集、测试集和验证集。
然后以BERT+BiLSTM+CRF模型作为命名实体识别模型进行训练验证。该模型由Bert、BiLSTM、CRF三个模块组成。
模型第一层利用BERT预训练模进行字嵌入(embedding),有效提取文本中的语义特征。BERT的网络架构使用多层Transformer结构,其本质是通过在海量语料的基础上无监督训练为单词学习一个好的特征表示,更好的融合前后文的知识,为下游任务学习大量的先验的语言、句法、词义等信息;
模型第二层为双向LSTM层,第一层获取的嵌入向量作为第二层LSTM各个时间步的输入。LSTM由3个门控组成:
①遗忘门:ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1为前一时刻的隐藏状态,xt为当前时刻的输入信息,Wf为权重矩阵,bf为偏置项,σ为激活函数;
②输入门:it=σ(Wi·[ht-1,xt]+bi)
进而得到当前时刻的单元状态:
Figure BDA0003383440510000061
Figure BDA0003383440510000062
其中,Wi为权重矩阵,bi为偏置项,Wc为权重矩阵,bc为偏置项,Ct-1为前一时刻的单元状态;
③输出门:Ot=σ(Wo·[ht-1,xt]+bo)
ht=Ot*tanh(Ct)
输入的文本信息从前向和后向两个方向获得隐藏状态序列
Figure BDA0003383440510000071
(前向)、
Figure BDA0003383440510000072
(后向),最后通过拼接得到最终的隐藏状态序列ht
模型第三层将第二层的ht通过线性输出层映射到k维(数据集标注的标签类别数目),得到每一个字属于每一个分类标签的概率,最后通过CRF层计算得分函数,概率最大的标签序列作为预测结果输出,得分函数定义如下:
Figure BDA0003383440510000073
Figure BDA0003383440510000074
其中,
Figure BDA0003383440510000075
代表文本信息中词xi映射到标签yi的非归一化概率,转移矩阵
Figure BDA0003383440510000076
代表标签yi到yi+1的转移概率,通过对所有词xi标签概率矩阵与转移矩阵的求和得到得分函数S(X,y),再利用softmax函数进行归一化得到输入序列属于某一个标签序列的概率P(y|X)。概率最大的序列作为该模型的预测结果。
本发明的有益效果:
(1)自顶向下和自底向上相结合的本体构建方式
本发明结合了EOD生产线数据特点,以生产过程为核心通过人工总结归纳概念自顶向下构建本体层框架。同时考虑到工厂数据多源分散、结构复杂,我们无法一次性抽取出所有知识。因此,我们采用了迭代增量式方法,通过不断获取多模态数据自底向上逐步抽象生成顶层概念,完善和扩充本体层框架。
(2)一种新的结构化知识抽取映射规则
本发明为了将结构化数据以实体形式映射到知识图谱,以更好得与其他数据实体相关联,避免实体的冗余和繁琐,打破了传统的数据库的映射规则,将数据库中的每一条数据实体化、每一列属性本体化,为EOD结构化知识的抽取提供了一种新的映射方式。同时,我们采用虚拟知识图谱的方法实现结构化知识抽取,避免了通过知识图谱向最终用户暴露原始数据源的问题,保证了数据存储在工厂原系统的安全性。集成后的数据相当于原始数据上的一个视图,通常不需要固化,而是可以保持虚拟化,这样也减少了固化视图数据的时间和额外的存储空间,使得数据集成更加高效灵活,具有可扩展性。
(3)非结构化知识抽取模型的有效性
本发明所采用的命名实体识别模型BERT-BiLSTM-CRF,借助了BERT强大的特征提取能力,字嵌入特征的提取是通过BERT的预训练+fine-tune获得,解决了NER标注数据少导致文本信息抽取效果不佳的问题。同时,本发明在标注数据时,每一个字对应一个标签,使得通过BiLSTM层后预测的标签是独立的,考虑到实体内标签预测的一致性,因此使用了CRF来计算整个标签序列的全局最优,从而实现实体识别。
附图说明
图1为本发明EOD知识图谱构建整体流程框架图。
图2为本发明本体层框架图。
图3为本发明非结构化知识抽取的模型图。
具体实施方式
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
本实施例所使用的数据是EOD生产过程的相关数据,共搜集分析了6种数据源。根据数据类型及特点的不同,将其划分为结构化数据、非结构化数据、其他类型数据三种。针对数据的类型和用途分别采用本发明提出的相应方法进行知识建模和知识抽取。
知识图谱本体层的构建以EOD生产过程为核心,首先梳理EOD生产流水线,包括生产环节、生产设备、传感器设备、物料等,抽象出相关概念,进行类别划分,利用OWL语言构建本体层,依据EOD工艺控制条件设计本体的逻辑属性。比如:
①子类说明。声明两个类的子属关系。如:
exp:安全风险owl:subclass exp:环氧乙烷衍生品生产线
exp:后处理owl:subclass exp:工艺流程
②等价性说明。声明两个类、属性和实例是等价的。如:
exp:环氧乙烷衍生品owl:equivalentClassexp:EOD
exp:危险与可操作性分析owl:equivalentClassexp:HAZOP
exp:异丁烯醇聚氧乙烯醚owl:equivalentClassexp:HPEG
③属性互逆说明。声明两个属性有互逆的关系。如:
exp:ConnectToowl:inverseOfexp:ConnectFrom
④属性范围说明。声明属性的主语和谓语的对象范围。如:
exp:reactantrdfs:domainexp:chemical
exp:reactantrdfs:rangeexp:chemical reaction
exp:V-2110储罐温度正常范围rdfs:range exp:20-110
OWL强大的语义表达能力使得可以定义较为复杂的公理准则,利用其推理机制基于公理准则进行前向链推理。比如,在EOD生产过程中,当出现多处异常时,SIS系统会紧急联锁来防止重大事故发生。SIS系统所设计的安全联锁规则可以用OWL的公理表示:
PSHH-3204somexsd:integer[>=700]and
TSHHH-3202some xsd:integer[>=205]
其中,上述语言对一个安全联锁规则实体进行属性约束。当出现以上两个位号PSHHH-3204和TSHH-3202各自联锁值越过界值时,触发该安全联锁规则实体:关闭EOD进料管线阀门。
知识图谱数据层的构建采用结构化知识抽取、非结构化知识抽取的方法,实现将EOD生产过程数据加入到知识库中。DCS数据库、DCS岗位运行记录表等结构化数据通过虚拟知识图谱映射的方式映射到相应本体层。首先确定工厂中数据库的设计模式,包括每一个数据表的属性、域等,将每一种属性定义为本体、域定义为本体的逻辑属性;然后利用Ontop等OBDA系统(基于本体的数据库访问系统)设计映射规则,最后完成数据映射。
HAZOP报告等以文本形式存在的非结构化数据基本涵盖了EOD生产中所涉及的物料、事故、设备等信息,通过命名实体识别(NER)技术将相关实体自动化抽取出来链接到知识图谱。首先采用BIO格式对文本数据进行逐字标注,并将标注好的数据划分为训练集、测试集和验证集;然后利用官方颁布的Bert训练好的模型chinese_L-12_H-768_A-12向量化语料样本,输入到搭建好的BiLSTM+CRF模型中,进行模型训练、测试和验证。
图1为本发明EOD知识图谱构建整体流程框架图。将EOD知识图谱的构建为两部分:本体层构建和数据层构建。本体层采用了自顶向下和自底向上相结合的方法增量迭代式不断扩充本体框架,知识建模的工具使用了斯坦福大学医学院生物信息研究所中心基于Java语言开发的本体编辑和本体开发工具——Protégé。数据层主要以结构化数据和非结构化数据为数据来源,分别采用虚拟映射的方式和命名实体识别技术的方法实现知识抽取,将数据加入到知识库中,同时完善本体层知识体系。
图2为本发明本体层框架图。通过梳理数据源,采用自顶向下的方式对EOD生产过程相关知识进行了分析和类别划分,定义了如图示中的顶层本体框架。主要将EOD生产过程分为了五个大类即顶层本体:工艺流程类、设备装置类、安全风险类、控制系统类和班组日志类。然后以五个大类为基础细化相关概念,通过对不同数据源的知识抽取,抽象出数据实体的概念,不断完善和补充本体层框架。
图3为本发明非结构化知识抽取的模型图。本模型利用强大的预训练语言模型——BERT模型作为字嵌入模块,提取文本中丰富的语义信息特征。BERT由多层Transformer结构组成,图中一个“Trm”对应一个Transformer块。然后将由BERT模块获得的字向量输入BiLSTM模块,学习上下文特征信息,得到每一个字属于每个类别标签的非归一化概率。最后通过CRF层计算每一种标签序列的概率值,得分最高的序列作为模型的输出。

Claims (1)

1.一种面向环氧乙烷衍生品生产过程的知识图谱构建方法,其特征在于,步骤如下:
(1)数据整理
环氧乙烷衍生品EOD生产过程包括6类数据:1)EOD流程图和PID控制图,用于描述EOD工艺流程以及监控样点对应流程中的位置;2)集散控制系统DCS中的过程测量数据即监控样点,用于实时监控生产线的过程变量状态;其中EOD生产线存在三种类型过程测量数据:压力、温度、流速;3)DCS岗位运行记录表,用于记录员工在岗对EOD生产线每一环节的监控及操作行为;4)EOD装置的工艺控制条件,用于描述EOD生产线每一个环节、每一个设备的工艺控制范围;5)安全仪表系统SIS中的安全联锁规则,用于装置的安全联锁停车;6)危险与可操作性分析HAZOP报告,用于记录EOD生产过程中异常行为的状态、引发条件、后果、处理方案以及预处理措施;
针对以上6种数据,面向EOD生产过程的知识图谱的构建过程分为两个部分:本体层构建和数据层获取;采用“自顶向下”与“自底向上”相结合的方法构建本体层以及数据层;
(2)基于本体论的知识建模
本体层的构建是抽象出EOD领域内的概念层次结构,定义每个概念的相关属性、关系以及公理准则;综合考虑EOD生产过程的数据类型及特点,提出一种基于数据驱动的增量式本体建模方法来逐步构建本体层,利用OWL语言对本体层进行知识表示和公理的设计;将本体模型定义为:
O=<C,R,A,E,F>
其中,O:EOD本体模型;
C:本体或类,指某一类实体对象或概念的集合;
R:逻辑关系,指本体之间的语义关系;
A:属性关系,指本体具有的属性和属性值;
E:实体,指本体的实例化;
F:函数或公理,用于表示本体间复杂关系的描述逻辑;
基于上述本体模型的定义,构建以EOD生产过程为核心的面向设备结构域、装置结构域、系统结构域、风险原因域、风险类别域和维修措施域6个相互关联的域的本体;采用自顶向下的方法进行本体体系划分,并对本体进行属性关系的定义,搭建EOD知识图谱的本体层框架;同时,将EOD装置的工艺控制条件和SIS安全联锁规则以公理的形式表示,进而对相关实体属性进行约束,使得EOD本体模型具备推理机制;
由于构建知识图谱是一个迭代更新的过程,新知识的融合在填充数据层的同时也会不断完善本体层框架;因此,通过对多源数据的知识抽取,采用自底向上的方式细化和补全本体层相关概念及属性;
(3)基于DCS数据库的结构化知识抽取
DCS数据库将关于EOD生产线监控样点的历史数据存储在关系数据库中;对结构化类型数据进行知识抽取时,为了避免数据的重复冗余,采用虚拟知识图谱的方式对DCS数据库中的数据进行虚拟映射,从而支持以访问知识图谱的形式直接访问关系数据库;
本方法提出了一种新的映射机制实现结构化知识抽取;DCS数据库设计模式是用位号即监控样点作为关系表属性或字段;因此,首先根据关系数据库的设计模式在步骤(2)知识建模的基础上细化本体层相关概念及属性的定义,然后通过映射规则实现三元组映射;基于将监控样点的每一条历史数据实体化这一目的,设计了一种新的映射规则:将关系表中的属性定义为知识图谱中的本体,包括时间点本体和位号本体;而关系表中的属性值作为知识图谱中的实体存在,每一个位号实体具有时间戳属性,连接对应时间实体;如下:
ex:EOD/DCS/{PI-3175}a:监控样点
ex:EOD/DCS/{TIME}a:时间点
ex:EOD/DCS/{PI-3175}TimeStamp{TIME}
其中,ex代表EOD知识图谱的命名空间,将DCS数据库中的属性为PI-3175的每一条属性值作为实体链接到知识图谱监控样点本体上,属性为TIME的每一条属性值作为实体链接到时间点本体上,每一个监控样点实体与对应的时间实体通过TimeStamp对象属性相关联;
除了DCS数据库中的生产数据外,DCS岗位运行记录表也是以结构化的形式存储在相应系统平台上,记录了员工在巡检过程中的监控和操作行为,这部分结构化数据通过相同的映射方式实现知识抽取;因此,在本体层定义了员工本体,该员工本体具有工号、工位、在岗时间、生产操作的逻辑属性;然后将记录表相关属性及属性值依次映射到知识图谱上,相关属性包括进料开始、脱气开始、中和剂进入、冷却;
(4)基于HAZOP报告的非结构化知识抽取
HAZOP报告包含EOD生产过程中的事故状态、引发原因、造成后果以及处理措施异常事件描述;采用命名实体识别技术进行非结构化知识抽取,需要提取的实体有化学品Chemical、事故Accident、设备Equipment;
首先从HAZOP报告中提取出相关语句进行数据标注,采用BIO格式进行数据标注,其中,B表示实体的第一个字,I表示实体的中间部分,O表示非实体;将数据集相关实体标注为“B-CHE”,“B-ACC”,“B-EQU”,“I-CHE”,“I-ACC”,“I-EQU”,非实体标注为O;标注好的数据集以8:1:1的比例划分成训练集、测试集和验证集;
然后以BERT+BiLSTM+CRF模型作为命名实体识别模型进行训练验证,该模型由Bert、BiLSTM、CRF三个模块组成;
模型第一层利用BERT预训练模型进行字嵌入,提取文本中的语义特征;BERT的网络架构使用多层Transformer结构;
模型第二层为双向LSTM层,第一层获取的嵌入向量作为第二层LSTM各个时间步的输入;LSTM由3个门控组成:
①遗忘门:ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1为前一时刻的隐藏状态,xt为当前时刻的输入信息,Wf为权重矩阵,bf为偏置项,σ为激活函数;
②输入门:it=σ(Wi·[ht-1,xt]+bi)
进而得到当前时刻的单元状态:
Figure FDA0003383440500000041
Figure FDA0003383440500000042
其中,Wi为权重矩阵,bi为偏置项,Wc为权重矩阵,bc为偏置项,Ct-1为前一时刻的单元状态;
③输出门:Ot=σ(Wo·[ht-1,xt]+bo)
ht=Ot*tanh(Ct)
输入的文本信息从前向和后向两个方向获得隐藏状态序列
Figure FDA0003383440500000043
最后通过拼接得到最终的隐藏状态序列ht
模型第三层为CRF层,将第二层的ht通过线性输出层映射到k维即数据集标注的标签类别数目,得到每一个字属于每一个分类标签的概率,最后通过CRF层计算得分函数,概率最大的标签序列作为预测结果输出,得分函数定义如下:
Figure FDA0003383440500000051
Figure FDA0003383440500000052
其中,
Figure FDA0003383440500000053
代表文本信息中词xi映射到标签yi的非归一化概率,转移矩阵
Figure FDA0003383440500000054
代表标签yi到yi+1的转移概率,通过对所有词xi标签概率矩阵与转移矩阵的求和得到得分函数S(X,y),再利用softmax函数进行归一化得到输入序列属于某一个标签序列的概率P(y|X);概率最大的序列作为该模型的预测结果。
CN202111443714.6A 2021-11-30 2021-11-30 面向环氧乙烷衍生品生产过程的知识图谱构建方法 Active CN114168745B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111443714.6A CN114168745B (zh) 2021-11-30 2021-11-30 面向环氧乙烷衍生品生产过程的知识图谱构建方法
US17/992,775 US20230169309A1 (en) 2021-11-30 2022-11-22 Knowledge graph construction method for ethylene oxide derivatives production process

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111443714.6A CN114168745B (zh) 2021-11-30 2021-11-30 面向环氧乙烷衍生品生产过程的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN114168745A CN114168745A (zh) 2022-03-11
CN114168745B true CN114168745B (zh) 2022-08-09

Family

ID=80481728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111443714.6A Active CN114168745B (zh) 2021-11-30 2021-11-30 面向环氧乙烷衍生品生产过程的知识图谱构建方法

Country Status (2)

Country Link
US (1) US20230169309A1 (zh)
CN (1) CN114168745B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501895B (zh) * 2023-06-14 2023-09-01 四创科技有限公司 一种台风时序知识图谱的构建方法及终端
CN116484027B (zh) * 2023-06-20 2023-08-22 北京中科智易科技股份有限公司 基于知识图谱技术建立的军用设备图谱系统
CN116630633B (zh) * 2023-07-26 2023-11-07 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116720819B (zh) * 2023-08-10 2023-10-27 福建省闽清双棱纸业有限公司 一种融合知识图谱和神经网络的浸渍纸原料管理系统
CN116910633B (zh) * 2023-09-14 2024-01-23 北京科东电力控制系统有限责任公司 一种基于多模态知识混合推理的电网故障预测方法
CN117252201B (zh) * 2023-11-17 2024-02-27 山东山大华天软件有限公司 面向知识图谱的离散型制造行业工艺数据提取方法及系统
CN117311298B (zh) * 2023-11-29 2024-02-09 江苏一家园健康科技有限公司 结合pH值控制的产品优化生产方法与系统
CN117436351B (zh) * 2023-12-19 2024-03-29 国网浙江省电力有限公司金华供电公司 复杂气象下基于知识图谱的电网设备故障预测方法及系统
CN117454987B (zh) * 2023-12-25 2024-03-19 临沂大学 基于事件自动抽取的矿山事件知识图谱构建方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110135890A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 基于知识关系挖掘的产品数据推送方法及相关设备
CN110516256A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种中文命名实体提取方法及其系统
CN110609903A (zh) * 2019-08-01 2019-12-24 华为技术有限公司 信息表示方法及装置
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN113434634A (zh) * 2021-06-28 2021-09-24 国网北京市电力公司 知识图谱构建方法、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110135890A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 基于知识关系挖掘的产品数据推送方法及相关设备
CN110609903A (zh) * 2019-08-01 2019-12-24 华为技术有限公司 信息表示方法及装置
CN110516256A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种中文命名实体提取方法及其系统
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN113434634A (zh) * 2021-06-28 2021-09-24 国网北京市电力公司 知识图谱构建方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Machine learning and knowledge graph based design rule construction for additive manufacturing";Hyunwoong Ko等;《Additive Manufacturing》;20210131;第37卷;1-16 *
"面向船舶分段制造过程的动态知识图谱建模方法";宋邓强等;《上海交通大学学报》;20210706;第55卷(第5期);544-556 *

Also Published As

Publication number Publication date
US20230169309A1 (en) 2023-06-01
CN114168745A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN114168745B (zh) 面向环氧乙烷衍生品生产过程的知识图谱构建方法
Zablith et al. Ontology evolution: a process-centric survey
Ling et al. Temporal information extraction
CN113723632A (zh) 一种基于知识图谱的工业设备故障诊断方法
CN108447534A (zh) 一种基于nlp的电子病历数据质量管理方法
CN112100397A (zh) 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
Liu et al. Deep bi-directional interaction network for sentence matching
Yu et al. Digital Twin-enabled and Knowledge-driven decision support for tunnel electromechanical equipment maintenance
Luo et al. Convolutional neural network algorithm–based novel automatic text classification framework for construction accident reports
Okoye Linked open data: State-of-the-art mechanisms and conceptual framework
Jiang et al. Construction of fault diagnosis system for control rod drive mechanism based on knowledge graph and Bayesian inference
Vogt et al. Towards a Rosetta Stone for (meta) data: Learning from natural language to improve semantic and cognitive interoperability
Wang et al. Ids-kg: An industrial dataspace-based knowledge graph construction approach for smart maintenance
Althar et al. Mathematical foundations based statistical modeling of software source code for software system evolution
Amin DeepKAF: a knowledge intensive framework for heterogeneous case-based reasoning in textual domains
Papadakis et al. Ontology-guided Knowledge Graph Construction to Support Scheduling in a Train Maintenance Depot.
Ji et al. Integrating text mining and analytic hierarchy process risk assessment with knowledge graphs for operational risk analysis
Guo et al. Construction and Application of the Knowledge Graph Method in Maintenance of Robot in Automotive Manufacturing Industry
Yang et al. Text classification method for analysing accidents in power system operation
Liu et al. A Knowledge Management Framework for Vehicle Hazard Analysis
Goossens et al. GPT-3 for Decision Logic Modeling.
Xie et al. A lattice LSTM-based framework for knowledge graph construction from power plants maintenance reports
Gala Unified Modeling Language (UML) generation from userrequirements in naturallanguage
CN112860872B (zh) 基于自学习的配电网操作票语义合规性的校验方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant