CN116401376A

CN116401376A - 一种面向工艺性检查的知识图谱构建方法及系统

Info

Publication number: CN116401376A
Application number: CN202310372644.2A
Authority: CN
Inventors: 周红桥; 王梅; 任好; 吴钱昊; 魏旭航; 王荧飞; 侯江涛; 徐晨; 刘继红; 卜逸凡; 章振原; 严文强; 杨义
Original assignee: CETC 38 Research Institute
Current assignee: CETC 38 Research Institute
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-07-07

Abstract

本发明公开了一种面向工艺性检查的知识图谱构建方法及系统，属于产品工艺性检查技术领域，包括以下步骤：将不包含工艺性检查信息的内容从工艺性检查文本中去除，得到经过预处理后的文本；基于Bi‑LSTM‑CRF模型从预处理后的文字序列中识别出于工艺性检查相关的命名实体，获得知识图谱实体节点；基于依存句法分析进行三元组抽取，建立实体之间的正确关系；通过抽取的三元组构建知识图谱，将实体描述文本嵌入知识图谱中实现实体融合，得到最终的工艺性检查知识图谱。本发明构建的工艺性检查知识图谱，完善优化了知识库构建模式，增强了工艺性检查的智能性，提高了产品工艺性检查的效率和准确性。

Description

一种面向工艺性检查的知识图谱构建方法及系统

技术领域

本发明涉及产品工艺性检查技术领域，具体涉及一种面向工艺性检查的知识图谱构建方法及系统。

背景技术

随着产品研制规模的不断扩大与生产周期的不断缩短，并行工程的重要性逐渐凸显，面向制造的设计是并行工程思想的核心技术，在面向制造的设计中需要对产品的设计信息进行工艺性审查和制造合理性评价，但在这个过程中由于工艺性检查知识没有得到充分利用而导致设计问题频出，影响产品设计进度、产品设计质量、产品设计成本。汽车、船舶、航空。航天、电子等高端装备行业因产品对象结构特点、批量、周期等因素，工艺流程和工艺知识差异较大。随着工艺性检查智能化需求越来越迫切，工艺性检查知识库的构建对于三维CAPP工艺设计软件的支撑愈发明显。鉴于此，需要基于现有知识库快速构建面向工艺性检查的知识库，以提高产品工艺性检查的效率和准确性。

知识图谱作为一种大规模的语义网络已经成为极具代表性的知识表示方法，它将众多概念、实例依据不同的关系分类组合成为结构化的知识网络，实现对知识的表达与存储。在此基础上实现对知识的重用、搜索和推理。为此，提出一种面向工艺性检查的知识图谱构建方法及系统。

发明内容

本发明所要解决的技术问题在于：如何提高产品工艺性检查的效率和准确性，提供了一种面向工艺性检查的知识图谱构建方法，针对工艺性检查过程中涉及到的工艺知识，采用自底向上的知识图谱构建方法，利用神经网络的方法抽取工艺文本中的结构化信息，形成工艺检查性知识三元组构建知识图谱。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：文本预处理

将不包含工艺性检查信息的内容从工艺性检查文本中去除，得到经过预处理后的文本；

S2：命名实体识别

基于Bi-LSTM-CRF模型从预处理后的文字序列中识别出于工艺性检查相关的命名实体，获得知识图谱实体节点；

S3：三元组抽取

基于依存句法分析进行三元组抽取，建立实体之间的正确关系；

S4：实体描述文本嵌入

通过抽取的三元组构建知识图谱，将实体描述文本嵌入知识图谱中实现实体融合，得到最终的工艺性检查知识图谱。

更进一步地，在所述步骤S1中，具体处理过程如下：

S11：通过文本清洗将工艺性检查文本的封面、引言、目录、版本、参考资料信息筛选去除，并采用正则表达式对工艺性检查文本进行正则删除、替换去除部分标签；

S12：对经过步骤S11处理后的文本进行分词，使连续的子序列文本按照设定规范重新组合成新的词序列，按词语形成独立的单元；

S13：采用Jieba工具包对分词后形成的词组进行词性标注，得到经过预处理后的文本，即文字序列。

更进一步地，在所述步骤S2中，所述Bi-LSTM-CRF模型包括依次连接的文字序列输入层、字/词向量嵌入层、双向长短期记忆网络层、条件随机场层；

所述文字序列输入层为Bi-LSTM-CRF模型的输入层，文字序列按照分词及词性标注结果输入到文字序列输入层中；所述字/词向量嵌入层为Bi-LSTM-CRF模型的嵌入层，分为字向量嵌入层和词向量嵌入层，将文字序列中的每个字或词语的one-hot编码形成一个固定长度和维度的词向量；所述双向长短期记忆网络层包括一个前向LSTM网络、后向LSTM网络，通过忘记门、输入门、输出门三门结构控制，获取观测文字序列特征；所述条件随机场层为Bi-LSTM-CRF模型的输入层，对文字序列进行标记建模，学习已标记后的文字序列特征，识别出文本中的命名实体。

更进一步地，在所述步骤S3中，依存句法分析是在命名实体识别结果的基础上，通过分析文本中词语之间的依存关系，为三元组抽取提供依据。

更进一步地，在所述步骤S3中，依存句法分析是在实体识别结果的基础上，通过分析文本中词语之间的相互依存关系来揭示其语法结构，在句子中以核心动词来支配其他成分，识别文本中的语法成分，即在实体识别的基础上用来获得词与词之间的关系，为三元组抽取提供依据。

更进一步地，

在所述步骤S3中，通过依存句法分析建立实体与依存关系，进而根据依存关系抽取文本中的三元组，具体过程如下：先在依存语义范式(Dependency Semantic NormalForms,DSNF)无监督模型中对相关实体制定规则进行语法构造，在该模型中语法结构分为三类：修饰结构(Modified Construction,MOD)、动词结构(Verbal Construction,VERB)、并列结构(Coordination Construction,COO)；然后根据依存关系识别句子成分之间的语义修饰情况，将实体识别和依存关系分析结合，应用依存语义范式无监督模型实现三元组的抽取。

更进一步地，在所述步骤S4中，采用制定实体描述文本模板的方式，根据实体描述文本模板完善实体信息得到对应的实体描述文本，将实体描述文本嵌入知识图谱中实现实体融合。

更进一步地，实体描述文本模板包括以下实体信息类型：节点标识、节点所处层级、图谱中节点半径大小、节点的名称属性、节点信息描述。

本发明还提供了一种面向工艺性检查的知识图谱构建系统，采用上述的方法构建工艺性检查知识图谱，包括：

预处理模块，用于将不包含工艺性检查信息的内容从工艺性检查文本中去除，得到经过预处理后的文本；

识别模块，用于基于Bi-LSTM-CRF模型从预处理后的文字序列中识别出于工艺性检查相关的命名实体，获得知识图谱实体节点；

抽取模块，用于基于依存句法分析进行三元组抽取，建立实体之间的正确关系；

嵌入模块，用于通过抽取的三元组构建知识图谱，将实体描述文本嵌入知识图谱中实现实体融合，得到最终的工艺性检查知识图谱；

控制处理模块，用于向其他模块发出指令，完成对应处理过程；

所述预处理模块、识别模块、抽取模块、嵌入模块均与控制处理模块通信连接。

本发明相比现有技术具有以下优点：该面向工艺性检查的知识图谱构建方法，构建的工艺性检查知识图谱，完善优化了知识库构建模式，增强了工艺性检查的智能性，提高了产品工艺性检查的效率和准确性。

附图说明

图1是本发明实施例中面向工艺性检查的知识图谱构建方法的流程示意图；

图2是本发明实施例中基于Bi-LSTM-CRF模型的命名实体识别流程示意图；

图3是本发明实施例中依存句法分析的示例图；

图4是本发明实施例中实体描述文本嵌入的示例图。

图中：B-Node为实体起始位置；I-Node为实体中间位置；E-Node为实体末尾位置；O表示不是实体；B-Rel为关系起始位置；“id”为节点标识；“level”为节点所处层级；“r”为图谱中节点半径大小；“name”为节点的名称属性；“description”为节点信息描述。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种技术方案：一种面向工艺性检查的知识图谱构建方法，包括以下步骤：

一、工艺性检查文本预处理

为减小原始文本噪声为后续的知识抽取奠定基础，首先需要将不包含工艺性检查信息的内容从工艺性检查文本中去除。

具体预处理的过程如下：

(1)通过文本清洗将封面、引言、目录、版本、参考资料等无关信息筛选去除，除此之外采用正则表达式对原始文本做正则删除、替换去除不必要的字符、标签和符号，从而达到文本处理要求。

(2)对完成文本清洗步骤的文本进行分词，使连续的子序列文本按词语形成独立的单元构造新的词序列。例如，输入文本示例：“螺旋输送机分为水平式和垂直式两种类型”，经过分词后的输出结果：“螺旋/输送机/分为/水平式/和/垂直式/两种/类型”。

(3)采用Jieba工具包对分词后形成的词组进行词性标注，进一步处理文本。

二、基于Bi-LSTM-CRF模型的命名实体识别

命名实体识别是从文本中识别出与工艺性检查相关的命名实体，以此来获得知识图谱的实体节点。本方法采用基于神经网络的端到端模型进行命名实体识别，模型分为四层，第一层为文字序列输入层；第二层为字/词向量嵌入层；第三层为双向长短期记忆网络(Bi-LSTM)层；第四层为条件随机场(CRF)层。将Bi-LSTM与CRF结合，通过Bi-LSTM获取观测工艺性检查文字序列特征，再输入到CRF层对序列进行标记建模，学习已标记后的序列特征，识别出文本中的命名实体。如图2所示。

对于Bi-LSTM-CRF模型的结构，下面做出详细说明：

(1)文字序列输入层

如图2所示，该层为整体模型的输入层，在该层中输入需要识别的文字序列，例如“零件结构工艺性包含铸造工艺性和锻造工艺性”，该文字序列按照分词及词性标注结果输入到模型中。

(2)字/词向量嵌入层

该层为模型的Embedding层(嵌入层)，分为字向量嵌入层和词向量嵌入层，将分词及词性标注处理后的文字序列中的每个字或词语的one-hot编码(一位有效编码)形成一个固定长度的词向量，维度设置为100维；一个字或词语的序列的表示应为W＝{w₁，...,w_t,w_t+1,...,w_n}。

(3)双向长短期记忆网络层

该层由两个长短期记忆网络构成，一个为前向LSTM网络，另一个为后向LSTM网络，通过忘记门、输入门、输出门三门结构控制，可以双向学习到前后序列之间的依赖关系，较为准确地识别出序列的前后信息，从而可以获取观测序列特征。

(4)条件随机场层

该层为模型的输出层，将上一层(双向长短期记忆网络层)获取得到的观测序列的高维特征输入到条件随机场中作为模型的解码层，提高预测标签之间的合理性，最后输出每一个字或词对应的标签。例子中输出的命名实体识别结果为：零件结构工艺性、铸造工艺性、锻造工艺性。

三、基于依存句法分析的三元组抽取

1、依存句法分析

依存句法分析是在命名实体识别结果的基础上，通过分析文本中词语之间的相互依存关系来揭示其语法结构，在句子中以核心动词来支配其他成分，可以识别文本中的“主谓宾”，“定状补”等语法成分，本质上就是在命名实体识别的基础上用来获得词与词之间的依存关系，为三元组抽取提供依据。依存关系类别如表1所示。

表1依存关系类别

给定一个集合R＝{r₁,…r_R}，其中每个元素表示一种依存关系(如SBV、ATT、VOB等)，每个句子的依存树是一颗有向树G＝(V,A)，满足如下条件：

(1)V＝{0,1,…,n}，V是依存树中顶点的集合；

(2)A∈V×R×V，A是依存树中依存弧的集合；

V是顶点集合，用非负整数表示，V中每个顶点依次与句子中的单词w_i相对应(其中Root标号为0)。A为依存弧集合，用三元组(w_i,r,w_j)表示，w_i与w_j表示顶点，r表示这两个顶点间的依存关系。在依存语法的结构中词与词之间会产生依存关系，构成多个依存对，每个依存对中有一个核心词，也称为支配词，另一个为修饰词，也称为从属词。依存关系用一个带有方向的圆弧表示，称为依存弧，在本实施例中规定依存弧的方向由支配词指向从属词。上述示例的依存句法分析结果如图3所示。

2、三元组抽取

由依存句法分析图可知该文本已经建立好了实体与依存关系，在此基础上根据依存关系抽取文本中的三元组，应用依存语义范式的无监督模型，根据文本情况制定遍历范围，可以提取介词和名词的关系，同时处理处于平行状态的从句。

针对上述文本示例“零件结构工艺性包含铸造工艺性和锻造工艺性”，基于依存语义模型抽取三元组结果如下：

【三元组】：零件结构工艺性包含锻造工艺性

四、实体描述文本嵌入

在知识图谱的构建过程中，将三元组形式转化为实体与实体依存关系链接的形式，是由文本信息转化为图形网络的过程，并没有针对实体进行详细描述，这样的实体信息是不够完整的，目前这种图形网络表示的信息比较有限。因此，实体描述文本是知识网络的重要一部分，本发明采用制定实体描述文本模板的方式，为实体补充信息使其所表达的内容更加完整。将实体描述文本嵌入知识图谱中实现实体融合，增强知识图谱的信息表示能力。

在完善实体描述前，需要制定实体描述文本模板，根据模板可以快速、统一的完善实体信息，制定模板如表2所示。将嵌入信息链接到实体节点，丰富了知识图谱节点的实体信息，如图4所示。

表2实体描述文本模板信息

综上所述，上述实施例的面向工艺性检查的知识图谱构建方法，构建的工艺性检查知识图谱，完善优化了知识库构建模式，增强了工艺性检查的智能性，提高了产品工艺性检查的效率和准确性。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向工艺性检查的知识图谱构建方法，其特征在于，包括以下步骤：

S1：文本预处理

S2：命名实体识别

S3：三元组抽取

S4：实体描述文本嵌入

2.根据权利要求1所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：在所述步骤S1中，具体处理过程如下：

3.根据权利要求1所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：在所述步骤S2中，所述Bi-LSTM-CRF模型包括依次连接的文字序列输入层、字/词向量嵌入层、双向长短期记忆网络层、条件随机场层；

4.根据权利要求1所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：在所述步骤S3中，依存句法分析是在命名实体识别结果的基础上，通过分析文本中词语之间的依存关系，为三元组抽取提供依据。

5.根据权利要求4所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：在所述步骤S3中，依存句法分析是在实体识别结果的基础上，通过分析文本中词语之间的相互依存关系来揭示其语法结构，在句子中以核心动词来支配其他成分，识别文本中的语法成分，即在实体识别的基础上用来获得词与词之间的关系，为三元组抽取提供依据。

6.根据权利要求5所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：在所述步骤S3中，通过依存句法分析建立实体与依存关系，进而根据依存关系抽取文本中的三元组，具体过程如下：先在依存语义范式无监督模型中对相关实体制定规则进行语法构造，在该模型中语法结构分为三类：修饰结构、动词结构、并列结构；然后根据依存关系识别句子成分之间的语义修饰情况，将实体识别和依存关系分析结合，应用依存语义范式无监督模型实现三元组的抽取。

7.根据权利要求1所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：在所述步骤S4中，采用制定实体描述文本模板的方式，根据实体描述文本模板完善实体信息得到对应的实体描述文本，将实体描述文本嵌入知识图谱中实现实体融合。

8.根据权利要求7所述的一种面向工艺性检查的知识图谱构建方法，其特征在于：实体描述文本模板包括以下实体信息类型：节点标识、节点所处层级、图谱中节点半径大小、节点的名称属性、节点信息描述。

9.一种面向工艺性检查的知识图谱构建系统，其特征在于，采用如权利要求1～8任一项所述的方法构建工艺性检查知识图谱，包括：