CN113868432A

CN113868432A - 一种用于钢铁制造企业的知识图谱自动构建方法和系统

Info

Publication number: CN113868432A
Application number: CN202111100811.5A
Authority: CN
Inventors: 董津; 王坚
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-31

Abstract

本发明涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统，方法包括：收集制造企业的文本数据；预处理后构建单句集合；将单句载入BERT预训练模型中，进行分词、向量化和特征提取，输出词序列向量；对词序列向量进行最大池化处理后，与[CLS]向量拼接得到实体向量表示，获取实体识别结果；根据实体向量表示，选取候选关系向量，一起载入关系分类模块中，获取关系分类结果；得到实体关系三元组；对获取三元组进行打分选取正确的三元组，通过路径排序算法挖掘新的三元组，实现知识进化。与现有技术相比，本发明将异构数据抽象成知识，对知识进行建模，同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本。

Description

一种用于钢铁制造企业的知识图谱自动构建方法和系统

技术领域

本发明涉及知识图谱构建技术领域，尤其是涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统。

背景技术

随着互联网、大数据、人工智能等技术的迅猛发展，传统制造业正加速向新一代智能制造迈进，信息化和工业化的两化融合已成为发展趋势。在传统制造向智能制造发展的过程中，伴随着制造系统复杂度日益增加、用户个性化需求不断增长，制造过程中产生的工业数据规模也愈发庞大多元。异构数据会造成信息交互的问题。将异构数据抽象成知识，对知识进行建模，利用知识图谱进行异构数据的集成与融合，不仅可以解决操作障碍，减少数据冗余，还可以加强数据的推理和决策能力。

与通用知识图谱相较而言，领域知识图谱基于特定数据集构建，强调知识的深度。传统的领域知识图谱构建方法依靠专家手工构建，需要花费大量的人力资源，一旦构建的知识图谱规模较为庞大，会耗费大量的时间和精力。目前，对于制造领域知识建模方法的研究尚未形成一个成熟体系。针对钢铁制造企业研究其知识建模方法以及进化机制，构建出高质量、高相关度、语义丰富的知识图谱并对其进行补全，不仅可以解决信息间语义关联少的问题，同时还能提升知识图谱构建效率、降低知识图谱构建成本，十分具有理论研究意义。

近年来，随着深度学习以及自然语言处理技术的不断发展，钢铁领域知识图谱的自动构建成为可能，但仍然存在以下不足之处：(1)现阶段知识抽取大多采用传统的流水线抽取方式，存在多个抽取任务时会造成误差累积。(2)知识建模的过程采用自动形式，注定会使其中包含的知识不具有完整性，即知识库无法包含全部的知识。由于知识图谱的不完整性，知识图谱补全可以用来向知识图谱中添加新的三元组，实现知识的学习与进化。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于钢铁制造企业的知识图谱自动构建方法和系统，将异构数据抽象成知识，对知识进行建模，同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本，并为企业数据管理提供了一条解决之道。

本发明的目的可以通过以下技术方案来实现：

一种用于钢铁制造企业的知识图谱自动构建方法，包括以下步骤：

数据收集步骤：收集制造企业的文本数据；

数据处理步骤：对收集的文本数据进行预处理，构建单句集合；

知识建模步骤：将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中，该BERT预训练模型对单句进行分词并向量化，然后通过双向Transformer结构进行特征提取，输出词序列向量；

对所述词序列向量进行最大池化处理，并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示，最后进行全连接与Softmax处理，得到实体识别结果；

根据所述实体向量表示，选取候选关系向量，并与实体向量表示一起载入预先建立并训练好的关系分类模块中，进行全连接以及Softmax处理，获得关系分类结果；

根据所述实体识别结果以及关系分类结果，得到实体关系三元组，完成知识图谱的构建。

进一步地，所述预处理包括判断文本数据中句子的完整性，对每个句子进行去重和去特殊符号处理。

进一步地，所述双向Transformer结构采用多头注意力机制进行特征聚合，所述多头注意力机制的计算表达式为：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

式中，MultiHead(Q,K,V)为多头注意力机制的输出，Q,K,V分别为词向量矩阵、句向量矩阵和位置向量矩阵，所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出，W^O为附加的权重矩阵，W_i ^Q，W_i ^K，W_i ^V表示不同的线性变换对Q，K，V进行投影，d_k为Q，K，V矩阵的列数。

进一步地，所述词序列向量中，t位置对应的向量表示为：

式中，k为自然数。

进一步地，所述实体向量表示的表达式为：

式中，e_i为经过最大池化处理过后的词向量表示，c为[CLS]向量，符号

为拼接，m为候选实体结束字符所在位置标记，n为候选实体的开头字符所在位置标记；

所述实体识别结果的计算表达式为：

式中，

为实体识别结果，softmax为Softmax处理函数，W为乘法系数，b为加法系数，x_e为实体向量表示。

进一步地，所述关系分类模块获取关系分类结果的计算表达式为：

式中，

为关系分类结果，softmax为Softmax处理函数，W_s为关系分类乘法系数，c_r为候选关系向量，x_e1为c_r前的实体向量表示，x_e2为c_r后的实体向量表示。

进一步地，所述方法还包括知识进化步骤：将获得的实体关系三元组输入预设的词向量嵌入模型中，将抽取得到的知识嵌入低维向量空间，并根据构建的损失函数对实体关系三元组的置信度进行打分，通过预设的置信阈值判断是否为正确的三元组；

将正确的三元组输入改进路径排序算法中，挖掘新的三元组，作为进化后的知识图谱。

进一步地，所述词向量嵌入模型采用用TransE模型对实体关系三元组进行编码，将实体和关系编码到相同维度的向量空间，并假设：

h+r-t≈0

式中，h为头实体向量，r为关系向量，t为尾实体向量；

所述损失函数的计算表达式为：

式中，f_r(h,t)为损失函数的计算结果，符号

为L2范数。

进一步地，所述改进路径排序算法利用双层随机游走机制对路径特征进行评估，该双层随机游走机制中引入向量空间相似性的启发式方法，获取关系路径特征模式。

本发明还提供一种采用如上所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统，包括

数据收集模块，被配置为：收集制造企业的文本数据；

数据处理模块，被配置为：对收集的文本数据进行预处理，构建单句集合；

知识建模模块，被配置为：将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中，该BERT预训练模型对单句进行分词并向量化，然后通过双向Transformer结构进行特征提取，输出词序列向量；

与现有技术相比，本发明具有以下优点：

(1)本发明提供领域知识图谱的自动构建方法，首先通过收集文本获取单句，然后由BERT预训练模型获取词序列向量，并与[CLS]向量拼接得到实体向量表示；一方面由该实体向量表示可获得实体识别结果；另一方面为克服传统的流水线抽取方式存在误差累积的缺陷，本发明将由BERT预训练模型得到的实体向量表示与候选关系向量组合一起载入关系分类模块中，获得关系分类结果，实现将实体识别与关系抽取任务进行联合建模，实现端到端的模型，减少了误差累积，达到了更优的效果。

(2)本发明考虑到知识建模的过程使得知识库无法包含全部的知识，存在知识图谱的不完整性，增设的知识进化模块步骤进行知识图谱补全，实现了知识的学习与进化；

知识进化模块步骤中本发明首先对抽取得到的三元组进行维度转换，然后进行置信度打分，判断出正确的三元组，从而通过改进路径排序算法进行新的三元组的挖掘；

改进路径排序算法利用双层随机游走机制对路径特征进行评估，在随机游走中引入向量空间相似性的启发式方法，放宽采样约束，以缓解路径特征的稀疏性，得到更多的关系路径特征模式，提高了有效关系模式的发现率。

(3)本发明将异构数据抽象成知识，对知识进行建模，同时提升钢铁制造领域知识图谱构建效率、降低钢铁制造领域知识图谱构建成本，并为企业数据管理提供了一条解决之道。

附图说明

图1为本发明实施例中提出的一种用于钢铁制造企业的知识图谱自动构建方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供一种用于钢铁制造企业的知识图谱自动构建方法，包括以下步骤：

数据收集步骤S1：收集制造企业的文本数据；

本实施例中，这一部分由制造企业内外部信息构成，包括企业信息系统数据、生产设备信息以及互联网上的供应商、客户信息，采集到的数据包括专家经验、班组日志以及供应商等信息，以及来自企业信息系统的工艺制度、生产调度计划以及规则数据等，以及设备数据、钢种数据等。这些文本信息是构建制造领域知识图谱的数据来源。

数据处理步骤S2：对收集的文本数据进行预处理，构建单句集合；

本实施例中，在采集到所需数据之后，需要对数据进行预处理，对于数据的特征进行分析，对网页文本进行解析。判断文本中段落句子的完整性，并对每一个句子进行去重、去特殊字符等预处理操作，最终输入到下一部分的是单句的集合；

知识建模步骤S3：使用实体关系联合抽取算法对知识进行抽取以及建模，具体包括以下步骤：

S31：将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中，该BERT预训练模型对单句进行分词并向量化，然后通过双向Transformer结构进行特征提取，输出词序列向量；

本实施例中，对于输入的单句，首先使用BERT预训练模型对其进行分词并向量化；输出的向量由词向量(Token Embedding)、句向量(Segment Embedding)和位置向量(Position Embedding)组成，相加之后送入双向Transformer结构进行特征提取,最后得到含有丰富语义特征的序列向量。深层双向Transformer的模型结构是BERT模型中的核心，使得模型在进行单词的处理时，能够表征单词在上下文中的具体语义。Transformer编码结构采用多头注意力机制，放弃时间循环结构，可以同时处理整个输入序列，多头注意力机制的输出为：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

head_i＝Attention(QWi_i ^Q,KW_i ^K,VW_i ^V)

对于一个长度为n的输入序列，其词序列向量中，t位置对应的向量表示为：

式中，k为自然数；

S32：对BERT预训练模型输出的词序列向量进行最大池化处理，进行平均和之后，并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示x_e；该实体向量表示x_e的表达式为：

为拼接，m为候选实体结束字符所在位置标记，n为候选实体的开头字符所在位置标记；[CLS]向量为能够表示整个文本的语义特征向量；

最后将得到的实体向量x_e送入全连接加Softmax层，计算最有可能的实体标记，公式如下：

式中，

S33：根据所述实体向量表示，选取候选关系向量，并与实体向量表示一起载入预先建立并训练好的关系分类模块中，进行全连接以及Softmax处理，获得关系分类结果；

本实施例中，将获得的实体识别结果以及经BERT预训练模型得到的语句级表征输入至关系分类器中，经过全连接以及Softmax操作，获得关系分类结果；关系分类模块输入由两部分组成，一是在实体识别部分得到的实体向量表示x_e，包括词序列向量以及能够表示整个文本的语义特征向量[CLS]；二是两个实体之间文本的向量表示，即候选关系向量，在进行最大池化处理后与前后的实体向量进行拼接，送入关系分类器中，公式如下：

式中，

为关系分类结果，softmax为Softmax处理函数，W_s为关系分类乘法系数，c_r为候选关系向量，也属于经过最大池化处理过后的词序列向量，x_e1为c_r前的实体向量表示，x_e2为c_r后的实体向量表示。

S34：根据所述实体识别结果以及关系分类结果，得到实体关系三元组，即形如“<加热炉，包括，点火器>”实体关系三元组之后，对其进行筛选，完成知识建模。

作为一种优选的实施方式，本实施例还提供知识进化步骤，具体描述如下：

4、知识进化步骤

知识进化步骤S4：主要任务是进行知识图谱补全，基于已有的知识去推理出新的未知的知识；具体包括以下步骤：

S41：将获得的实体关系三元组输入预设的词向量嵌入模型中，将抽取得到的知识嵌入低维向量空间，并根据构建的损失函数对实体关系三元组的置信度进行打分，通过预设的置信阈值判断是否为正确的三元组；

本实施例中，将实体关系三元组输入至词向量嵌入模型中，将抽取得到的知识嵌入低维向量空间，并使用词向量嵌入模型根据构建的损失函数对三元组的置信度进行打分。具体操作是将三元组中的头尾实体向量投影至该关系对应的超平面上，若三元组为真，那么实体向量将会以较小的误差连接。将损失函数值引入打分函数，对候选事实进行打分，鼓励正确的事实获得较小的数值，以此判断该三元组的可信程度；本实施例采用TransE模型对候选三元组对其进行编码，该模型将关系看作是从头部实体到尾部实体的转移，将知识库中的实体和关系编码到相同维度的向量空间，并假设：

h+r-t≈0

其中，h为头实体向量，r为关系向量，t为尾实体向量。

该模型的损失函数为：

式中，f_r(h,t)为损失函数的计算结果，符号

为L2范数。

最终通过设置阈值，来根据损失函数的结果对其判断其是否为正确的三元组；

S42：将正确的三元组输入改进路径排序算法中，利用双层随机游走机制对路径特征进行评估；

S43：在随机游走中引入向量空间相似性的启发式方法，放宽采样约束，以缓解路径特征的稀疏性，得到更多的关系路径特征模式，提高有效关系模式的发现率；

S44：最终输出补全后的三元组，即进化后的知识。

本实施例还提供一种采用如上所述的一种用于钢铁制造企业的知识图谱自动构建方法的知识图谱自动构建系统，包括

数据收集模块，被配置为：收集制造企业的文本数据；相当于执行上述数据收集步骤S1；

数据处理模块，被配置为：对收集的文本数据进行预处理，构建单句集合；相当于执行上述数据处理步骤S2；

根据所述实体识别结果以及关系分类结果，得到实体关系三元组，完成知识图谱的构建；相当于执行上述知识建模步骤S3；

知识进化模块，被配置为：将获得的实体关系三元组输入预设的词向量嵌入模型中，将抽取得到的知识嵌入低维向量空间，并根据构建的损失函数对实体关系三元组的置信度进行打分，通过预设的置信阈值判断是否为正确的三元组；

将正确的三元组输入改进路径排序算法中，挖掘新的三元组，作为进化后的知识图谱；相当于执行上述知识进化步骤S4。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种用于钢铁制造企业的知识图谱自动构建方法，其特征在于，包括以下步骤：

数据收集步骤：收集制造企业的文本数据；

2.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法，其特征在于，所述预处理包括判断文本数据中句子的完整性，对每个句子进行去重和去特殊符号处理。

3.根据权利要求1所述的一种用于钢铁制造企业的知识图谱自动构建方法，其特征在于，所述双向Transformer结构采用多头注意力机制进行特征聚合，所述多头注意力机制的计算表达式为：

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

式中，MultiHead(Q，K，V)为多头注意力机制的输出，Q，K，V分别为词向量矩阵、句向量矩阵和位置向量矩阵，所述词向量矩阵、句向量矩阵和位置向量矩阵由BERT预训练模型输出，W^O为附加的权重矩阵，W_i ^Q，W_i ^K，W_i ^V表示不同的线性变换对Q，K，V进行投影，d_k为Q，K，V矩阵的列数。

4.根据权利要求3所述的一种用于钢铁制造企业的知识图谱自动构建方法，其特征在于，所述词序列向量中，t位置对应的向量表示为：