CN115357693A

CN115357693A - 基于加氢裂化装置知识图谱的智能问答系统的构建方法

Info

Publication number: CN115357693A
Application number: CN202210822379.9A
Authority: CN
Inventors: 褚健; 梁攀飞; 娄海川
Original assignee: Zhejiang Supcon Technology Co Ltd
Current assignee: Zhongkong Technology Co ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-11-18
Anticipated expiration: 2042-07-12
Also published as: CN115357693B

Abstract

本发明公开了一种基于加氢裂化装置知识图谱的智能问答系统的构建方法，包括：11、获取加氢裂化装置的数据；12、对加氢裂化装置的数据的数据进行预处理；13、构建实体列表和关系列表；14、对实体列表和关系列表进行去重操作，然后将实体列表和关系列表写入图数据库，完成加氢裂化装置异常工况处理知识图谱的构建和可视化；15、对预设的用户问题进行分类和解析，再从知识图谱中检索答案并对答案进行处理，然后通过后端Django框架和前端Boostrap框架完成智能问答系统的构建和可视化。在加氢裂化装置发生故障时，本发明能及时提出解决办法，快速和精准的处理异常情况，提高异常处理的效率，为企业减小损失，同时打破了该领域的空白。

Description

基于加氢裂化装置知识图谱的智能问答系统的构建方法

技术领域

本发明涉及一种基于加氢裂化装置知识图谱的智能问答系统的构建方法，属于知识图谱技术领域，具体应用于加氢裂化装置异常工况的处理。

背景技术

加氢裂化装置工况正常运行是企业生产中最重要的一环，针对加氢裂化装置工况发生异常时的解决办法，目前大多数企业都是依靠经验丰富的老员工解决，具有一定的危险性，且可能出现处理不及时等问题，影响企业的收益。

知识图谱技术是融合认知计算、知识表示与推理、信息检索与抽取等方向的交叉研究，以结构化的形式描述客观世界中概念、实体及关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好的组织、管理和理解互联网海量信息的能力。图数据库是基于图论实现的一种新型数据库，图论中的图由若干给定的点和连续两点的线索构成的图形，通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。问答系统具有操作简便，可视化等功能，能够帮助操作人员面对异常工况时冷静及时解决问题。

公开号为CN111241278A的中国专利公开了基于知识图谱的舆情预警方法及装置。通过目标对象的舆情事件及初始知识图谱构建目标知识图谱，分析目标知识图谱中的匹配舆情事件，使得舆情分析结果更为深入、具体，便于较为准确、有效的定位产品问题，并且还会向对应人员发送预警通知，以便于对应人员及时跟进。然而，对于加氢裂化装置应急处理领域目前没有带标注的数据，因此存在部分实体名称多样化，别名多问题，涉及实体融合；实体嵌套问题，涉及实体消歧；实体与实体之间可能不存在关系，也可能存在多种关系，造成关系抽取难；

公开号为CN111311059A的中国专利公开了基于知识图谱的水车室故障诊断方法。该方法构建了水车室故障知识图谱，采用Bayes网络通过学习历史数据自主构建网络，并学习网络参数，能够对不确定性知识进行表达和推理。同时，能够有效的反映出运行中的隐患和问题，对运行的劣化趋势进行判断和预警，能从根本上提前预警和感知顶盖水位的异常变化。但是Bayes模型成立的条件之一是假设属性之间是相互独立的，而这个假设在实际应用中是不成立的。

公开号为CN112307218A的中国专利公开了基于知识图谱的智能电厂典型设备故障诊断知识库构建方法。该方法设计了“双层——三要素”形式的塔形知识图谱架构。通过使用双向GRU模型无监督构建了知识图谱中文本的描述向量，包含文本的语义信息，可用于优化故障诊断知识图谱，提升推理计算效率。但是GRU是序列处理模型，模型训练依赖于上一步的参数，导致模型训练时难以并行；而且假设序列比较长，会导致反向传播求参数的时候存在梯度消失问题。

公开号为CN111951965A的中国专利公开了基于时序知识图谱的全景式健康动态监测与预测系统。采用基于增量的LSTM的健康时序知识图谱链接预测模型。采用LSTM递归神经网络，加入图谱中的上下关联信息，进行序列化学习，接着对时序信息做增量计算，对时序信息提取更精准的特征向量。不断通过增量计算和LSTM递归神经网络进行深层次学习，提高预测准确度。和GRU模型一样，LSTM也是序列模型，同样存在难以并行和梯度消失问题。

以上是部分行业利用知识图谱的优势建立相应的系统或方法以解决领域问题。然而，目前基于加氢裂化装置知识图谱的智能问答系统的构建方法尚属空白。

发明内容

本发明为了克服以上技术的不足，提供了一种基于加氢裂化装置知识图谱的智能问答系统的构建方法。在面对加氢裂化装置发生故障时，本发明能够有效及时提出解决办法，快速和精准的处理异常情况，提高异常处理的效率，为企业减小损失，保证了工厂的利益，同时打破了该领域的空白。

发明概述：

本发明是结合工厂实时数据库和工艺操作规程获得的数据，综合考虑工厂运行过程中可能遇到的问题，有针对性的设计了基于加氢裂化装置知识图谱的智能问答系统的构建方法。基于加氢裂化装置异常工况处理知识图谱在该领域是首创，通过对大量无标注文本进行词向量训练，并结合深度学习模型，采用命名实体识别+关系抽取和联合抽取两种方法采用词粒度提取知识图谱所需要的实体和关系，以便构建<实体，关系，实体>三元组，同时解决实体少和实体嵌套问题。针对实体名称部分过长问题，因为具有流程性特点采用边粒度解决并加入顺序标签，既方便后续对节点的增删改查又提高问题解决的准确性。前后端技术对基于加氢裂化装置知识图谱的智能问答系统进行了可视化。

术语解释：

1、Jieba分词：是一种分词方法。

2、Word2vec：是一群用来产生词向量的相关模型。

3、BERT：Bidirectional Encoder Representations from Transformers，是一个预训练的语言表征模型，能生成深度的双向语言表征。

4、BERT-BiLSTM-CRF：是一种命名实体识别的模型。

5、CasRel：是一种联合抽取框架。

6、Neo4j图数据库：是一种图数据库。

7、Neo4j Browser：图数据库浏览器。

8、py2neo包：用于Python与Neo4j的交互。

9、Graph函数：py2neo包中的函数。

10、actree：AC自动机。

11、Django框架：是一种后端框架。

12、Boostrap框架：是一种前端框架。

本发明克服其技术问题所采用的技术方案是：

一种基于加氢裂化装置知识图谱的智能问答系统的构建方法，应用于加氢裂化装置异常工况的处理，包括如下步骤：

步骤11、获取加氢裂化装置的数据，分为两部分：一部分至少包括工厂实时数据库和工艺操作规程数据，另一部分是应急处理文档数据；

步骤12、对工厂实时数据库和工艺操作规程数据进行预处理，得到命名实体识别数据和词向量；对应急处理文档数据进行预处理，至少得到包括装置名称、工况名称、操作人员、处置要点、关键步骤、操作内容、汇报的信息；

步骤13、从工厂实时数据库和工艺操作规程数据中获得实体和实体间关系三元组，从应急处理文档数据中获取应急方案三元组，将实体和实体间关系三元组与应急方案三元组相结合得到最终的三元组<实体，关系，实体>，并构建实体列表和关系列表；

步骤14、对实体列表和关系列表进行去重操作，得到每个实体和每个关系均唯一的实体列表和关系列表，然后将实体列表和关系列表写入图数据库，完成加氢裂化装置异常工况处理知识图谱的构建和可视化；

步骤15、对预设的用户问题进行分类和解析，再从知识图谱中检索答案并对答案进行处理，然后通过后端Django框架和前端Boostrap框架完成智能问答系统的构建和可视化。

进一步地，步骤11中，从工厂实时数据库和工艺操作规程数据中，至少获取加氢裂化装置的故障诊断和异常处理数据。

进一步地，步骤12中，对工厂实时数据库和工艺操作规程数据进行预处理，具体包括：

步骤121、从工厂实时数据库和工艺操作规程数据中获得非结构化文档和半结构化文档并进行预处理，以提取所有文本数据，然后至少通过Jieba分词和停用词过滤方法处理所得到的文本数据；

步骤122、对经过步骤121处理后的文本数据构建命名实体识别数据；

步骤123、对经步骤121处理后得到的文本数据，通过Word2vec和BERT方法建立词向量。

进一步地，步骤13具体包括：

步骤131、对从工厂实时数据库和工艺操作规程数据中获得的非结构化文档和半结构化文档进行预处理后的数据，采用BERT-BiLSTM-CRF方法进行命名实体识别，存储所识别到的实体，通过人工标注进一步确定命名实体识别方法得到的实体的准确性；

步骤132、采用CasRel联合抽取框架，抽取从工厂实时数据库和工艺操作规程数据中获得的非结构化文档和半结构化文档中的各实体间的关系，构建实体和实体间关系三元组；

步骤133、对从应急处理文档数据中得到的处置要点、关键步骤和操作内容这三部分，首先针对流程性操作内容进行实体处理，进一步构建应急方案三元组；

步骤134、将步骤132获得的实体和实体间关系三元组，与步骤133获得的应急方案三元组通过实体对齐和实体融合方法相结合，得到最终的三元组<实体，关系，实体>，并构建包括装置名称、工况名称、操作人员的实体列表以及包括处置要点、关键步骤、操作内容和汇报的关系列表。

进一步地，步骤133具体包括：

步骤1331、对于处置要点、关键步骤和操作内容三部分，按照操作内容，以每条步骤为粒度进行实体截取；

步骤1332、针对同一操作内容在不同加氢裂化装置异常工况处理中具有不同顺序的问题，通过对相关重复步骤加入在当前加氢裂化装置异常工况处理流程的操作顺序标签作为区分依据。

进一步地，步骤14中，将实体列表和关系列表写入图数据库，完成加氢裂化装置异常工况处理知识图谱的构建和可视化，具体包括：

首先，安装py2neo包，通过py2neo包实现python与Neo4j的交互；

其次，启动Neo4j图数据库，通过py2neo包中的Graph函数将实体列表和关系列表分别写入Neo4j图数据库中，完成加氢裂化装置异常工况处理知识图谱的构建；

最后，打开Neo4j Browser，即可得到所构建的知识图谱的可视化页面。

进一步地，步骤15中，对预设的用户问题进行分类，具体包括：

首先、对步骤14中获得的实体列表进行加载，构建领域actree；

其次、通过步骤12中数据预处理后得到的实体，构建不同种类的实体词表，根据实体词表构建相应的问句疑问词；

最后、对预设的用户问题进行实体规范，从而与知识图谱中的节点名称一致。

进一步地，对预设的用户问题进行实体规范，具体包括：

首先、加载自定义的加氢裂化装置词典，利用jieba分词，对预设的用户问题进行预处理，得到分词列表；

其次、结合加氢裂化装置异常工况处理知识图谱中包含的实体进行实体规范；

最后、根据分类主函数，提取出用户所提出的问句中包含的实体名称和查询类别。

进一步地，步骤15中，对预设的用户问题进行解析，具体包括：

首先、实体类型处理：

根据对预设的用户问题分类后的结果，提取实体名称和查询类别；

构建实体列表，提取预设的用户问题中所有的实体名称，并判断实体列表长度，若长度为一，即只有一个实体，则根据实体内容确认实体所属的类别；否则，即，至少有两个实体，则进一步判断实体列表中的实体是否具有上下文关系，若有上下文关系，则确定预设的用户问题所要询问的实体为知识图谱中出现的哪一个，然后删除其他的实体，若没有上下文关系，则将全部实体作为预设的用户问题中所要询问的实体；

其次、查询类型处理：

针对从应急处理文档数据中得到的实体，构建相应的sql查询语句模板；

根据从预设的用户问题中得到的实体类型，按照所构建的sql查询语句模板返回相应的sql查询语句。

进一步地，步骤15中，从知识图谱中检索答案并对答案进行处理，具体包括：

首先、根据对预设的用户问题进行解析后得到的sql查询语句，从知识图谱中获取答案并返回；

其次、针对获取的答案进行处理：对于具有前后关系的答案，则获取每一条流程中包含的顺序标签属性，根据顺序标签属性确定其前后关系后返回；对于没有前后关系的答案，则直接返回。

进一步地，步骤15中，通过后端Django框架和前端Boostrap框架完成智能问答系统的构建和可视化，具体包括：

首先、采用后端Django框架，至少编写URLs、View、Models、Templates函数，至少实现问答系统的关系查询、图谱检索、问题问答这三个功能，其中，关系查询用于根据头结点和关系返回所有的尾结点，图谱检索用于针对预设的用户问题中包含的实体名称返回相应的知识图谱子图，问题问答用于根据预设的用户问题返回相应的答案；

其次、采用前端Boostrap框架，至少编写index.html和Relation.html前端页面所需要的函数，即完成智能问答系统的构建和可视化。

本发明的有益效果是：

1、本发明至少从工厂实时数据库和工艺操作规程数据以及加氢裂化装置的应急处理数据中获取文本数据，通过对工厂实时数据库和工艺操作规程数据以及应急处理文档数据进行预处理，构建了加氢裂化装置应急处理领域的标注数据，在加氢裂化装置应急处理领域属于首创。

2、本发明使用BERT和CasRel等深度学习模型提取了加氢裂化装置相关的实体及实体间关系，以便构建<实体，关系，实体>三元组，同时解决实体少和实体嵌套问题，进而构建基于加氢裂化装置的知识图谱。

3、本发明建立了一套基于加氢裂化装置知识图谱的智能问答系统的构建方法，至少实现了关系查询、图谱检索和问题问答三种功能。

4、本发明建立的智能问答系统，在面对异常工况装置发生故障时，能够有效及时提出解决办法，提高异常处理效率，为企业减小损失。

5、本发明为制造业的数字化转型奠定了基础，使得传统制造业加速向智能化转型。

附图说明

图1为本发明所述的一种加氢裂化装置知识图谱的智能问答系统的构建方法的流程示意图。

图2为本发明实施例中应用加氢裂化装置知识图谱的智能问答系统进行问答的处理流程。

图3为本发明实施例中以反应进料中断处置为例的部分数据截图。

图4为本发明实施例中反应进料中断处置关键步骤所有关系列表。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

本实施例所述的一种基于加氢裂化装置知识图谱的智能问答系统的构建方法，应用于加氢裂化装置异常工况的处理，如图1所示，包括如下步骤：

步骤11、获取数据：获取加氢裂化装置的数据，分为两部分：一部分至少包括工厂实时数据库和工艺操作规程数据；另一部分是应急处理文档数据。

其中，从工厂实时数据库和工艺操作规程数据中，至少可以获取加氢裂化装置的故障诊断和异常处理数据。

步骤12、数据预处理：对工厂实时数据库和工艺操作规程数据进行预处理，得到命名实体识别数据和词向量；对应急处理文档数据进行预处理，至少得到包括装置名称、工况名称、操作人员、处置要点、关键步骤、操作内容、汇报的信息。

其中，对工厂实时数据库和工艺操作规程数据进行预处理，具体包括：

步骤121、从工厂实时数据库和工艺操作规程数据中获得非结构化文档和半结构化文档并进行预处理，以提取所有文本数据，然后至少通过Jieba分词和停用词过滤方法处理所得到的文本数据。

步骤122、对经过步骤121处理后的文本数据构建命名实体识别数据，这里获得的是命名实体识别模型所需要的数据格式。

步骤13、构建实体列表和关系列表：从工厂实时数据库和工艺操作规程数据中获得实体和实体间关系三元组，从应急处理文档数据中获取应急方案三元组，将实体和实体间关系三元组与应急方案三元组相结合得到最终的三元组<实体，关系，实体>，并构建实体列表和关系列表。

具体地，步骤13包括：

步骤131、对从工厂实时数据库和工艺操作规程数据中获得的非结构化文档和半结构化文档进行预处理后的数据，采用BERT-BiLSTM-CRF方法进行命名实体识别，这里指的是命名实体识别的方法，存储所识别到的实体，通过人工标注进一步确定命名实体识别方法得到的实体的准确性。

步骤132、采用CasRel联合抽取框架，抽取从工厂实时数据库和工艺操作规程数据中获得的非结构化文档和半结构化文档中的各实体间的关系，构建实体和实体间关系三元组。

步骤133、对从应急处理文档数据中得到的处置要点、关键步骤和操作内容这三部分，首先针对流程性操作内容进行实体处理，进一步构建应急方案三元组。具体地，首先，对于处置要点、关键步骤和操作内容三部分，按照操作内容，以每条步骤为粒度进行实体截取；其次，针对同一操作内容在不同加氢裂化装置异常工况处理中具有不同顺序的问题，通过对相关重复步骤加入在当前加氢裂化装置异常工况处理流程的操作顺序标签作为区分依据，方便对加氢裂化装置异常工况处理知识图谱的增删改查，也方便对基于加氢裂化装置知识图谱的智能问答系统所返回的问题答案进行处理，以保证答案仍具有前后关系的逻辑性。

步骤14、加氢裂化装置异常工况处理知识图谱的构建和可视化：分别对实体列表和关系列表进行去重操作，得到每个实体和每个关系均唯一的实体列表和关系列表，然后将实体列表和关系列表写入图数据库，完成加氢裂化装置异常工况处理知识图谱的构建和可视化。

其中，将实体列表和关系列表写入图数据库，完成加氢裂化装置异常工况处理知识图谱的构建和可视化，具体包括：

首先，安装py2neo包，通过py2neo包实现python与Neo4j的交互；

最后，打开Neo4j Browser(Neo4j浏览器)，即可得到所构建的知识图谱的可视化页面。

步骤15、智能问答系统的构建和可视化：对预设的用户问题进行分类和解析，再从知识图谱中检索答案并对答案进行处理，然后通过后端Django框架和前端Boostrap框架完成智能问答系统的构建和可视化。

1、对预设的用户问题进行分类，具体包括：

首先、对步骤14中获得的实体列表进行加载，构建领域actree，以加速检索用户问题中所涉及到的实体。

其次、通过步骤12中数据预处理后得到的实体，构建不同种类的实体词表，例如装置名称，工况名称等，根据实体词表构建相应的问句疑问词。

最后、对预设的用户问题进行实体规范，从而与知识图谱中的节点名称一致。具体地，首先、加载自定义的加氢裂化装置词典，利用jieba分词，对预设的用户问题进行预处理，得到分词列表；其次、结合加氢裂化装置异常工况处理知识图谱中包含的实体进行实体规范；最后、根据分类主函数，提取出用户所提出的问句中包含的实体名称和查询类别，例如关键步骤、处置要点等。

2、对预设的用户问题进行解析，具体包括：

首先、实体类型处理：

构建实体列表，提取预设的用户问题中所有的实体名称，并判断实体列表长度，若长度为一，即只有一个实体，则根据实体内容确认实体所属的类别；否则，即，至少有两个实体，则进一步判断实体列表中的实体是否具有上下文关系，若有上下文关系，则确定预设的用户问题所要询问的实体为知识图谱中出现的哪一个，然后删除其他的实体，若没有上下文关系，则将全部实体作为预设的用户问题中所要询问的实体。

其次、查询类型处理：

3、从知识图谱中检索答案并对答案进行处理，具体包括：

4、通过后端Django框架和前端Boostrap框架完成智能问答系统的构建和可视化，具体包括：

首先、采用后端Django框架，至少编写URLs、View、Models、Templates函数，至少实现问答系统的关系查询、图谱检索、问题问答这三个功能，其中，关系查询用于根据头结点和关系返回所有的尾结点，图谱检索用于针对预设的用户问题中包含的实体名称返回相应的知识图谱子图，问题问答用于根据预设的用户问题返回相应的答案。

下面采用本实施例所构建的基于加氢裂化装置知识图谱的智能问答系统，以“反应进料中断处置”为例进行举例说明智能问答系统的使用方法。

例如，用户提问的问题为：反应进料中断处置工况发生异常处理的关键步骤是哪些？

应用加氢裂化装置知识图谱的智能问答系统进行问答，部分数据截图如图3所示，流程如图2所示，具体包括如下：

步骤21、获取用户问题，如下：

反应进料中断处置工况发生异常处理的关键步骤是哪些？

步骤22、对用户问题进行分词，并实体识别获得所包含的实体和查询类型：

分词结果为：[“反应进料中断处置”、“工况”、“发生”、“异常”、“处理”、“的”、“关键步骤”、“是”、“哪些”、“？”]；

识别的实体包括：反应进料中断处置、工况、关键步骤；

查询类型为：关键步骤。

步骤23、对用户问题包含的实体进行实体融合，同时判断实体是否具有关系，并根据查询类型判断用户查询意图。具体如下：

针对步骤23识别到的实体与加氢裂化装置知识图谱中的实体进行匹配，步骤23识别的实体为“反应进料中断处置、工况、关键步骤”这三个，而加氢裂化装置知识图谱中实体节点工况的子节点包含“反应进料中断处置”，因此判断用户想要询问的是：工况名称为反应进料中断处置的关键步骤；

判断实体是否有关系，具体是判断识别出实体在加氢裂化装置知识图谱是否是同一个实体节点；

可以得知，关系为“关键步骤”，实体名称为“反应进料中断处置”；查询意图为“关键步骤”。

步骤24、构建sql语句，如下：

["match(m:working_condition)-[]->(n:key_step)where m.name＝'反应进料中断处置'return m.name,n.name,n.label order by n.label"]。

步骤25、根据加氢裂化装置知识图谱，返回候选答案，然后对候选答案评分排序，返回分数最高的答案，如图4所示，最终答案如下：

1)确认导致反应进料中断原因；

2)检查反应加热炉F101燃烧情况，确认长明灯正常燃烧；

3)开大一反二反的急冷氢控制反应床层温度；

4)确认好联锁关闭透平HT-101入口切断阀1401UV0703；

5)确认关闭进料泵出口切断阀。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。

Claims

1.一种基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，应用于加氢裂化装置异常工况的处理，包括如下步骤：

2.根据权利要求1所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤11中，从工厂实时数据库和工艺操作规程数据中，至少获取加氢裂化装置的故障诊断和异常处理数据。

3.根据权利要求1所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤12中，对工厂实时数据库和工艺操作规程数据进行预处理，具体包括：

4.根据权利要求1所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤13具体包括：

5.根据权利要求4所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤133具体包括：

6.根据权利要求1所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤14中，将实体列表和关系列表写入图数据库，完成加氢裂化装置异常工况处理知识图谱的构建和可视化，具体包括：

首先，安装py2neo包，通过py2neo包实现python与Neo4j的交互；

7.据权利要求1所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤15中，对预设的用户问题进行分类，具体包括：

8.根据权利要求7所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，对预设的用户问题进行实体规范，具体包括：

9.据权利要求1所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤15中，对预设的用户问题进行解析，具体包括：

首先、实体类型处理：

其次、查询类型处理：

10.据权利要求9所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤15中，从知识图谱中检索答案并对答案进行处理，具体包括：

11.根据权利要求7所述的基于加氢裂化装置知识图谱的智能问答系统的构建方法，其特征在于，步骤15中，通过后端Django框架和前端Boostrap框架完成智能问答系统的构建和可视化，具体包括：