CN116595195A

CN116595195A - 一种知识图谱构建方法、装置及介质

Info

Publication number: CN116595195A
Application number: CN202310626389.XA
Authority: CN
Inventors: 张悦
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-15

Abstract

本发明公开了一种知识图谱构建方法、装置及介质，涉及计算机知识图谱领域，解决知识图谱构建中实体重叠与结果三元组重叠等问题，通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；将文本词向量输入到双向环神经网络中得到上下文依赖关系；根据文本词向量与上下文依赖关系得到结果语义向量；通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组，构建所述服务器研发领域的目标知识图谱。使用全词掩蔽双向编码器模型，将全词掩蔽应用在了中文中，适合中文的理解，双向环神经网络模型抽取三元组及使用多头机制的全局指针标记策略，解决了实体重叠与三元组重叠，目标知识图谱为构建搜索引擎对话系统提供基础。

Description

一种知识图谱构建方法、装置及介质

技术领域

本发明涉及计算机知识图谱领域，特别是涉及一种知识图谱构建方法、装置及介质。

背景技术

随着互联网数据的爆炸式增长，大量的知识数据给信息检索带来了挑战。传统的搜索引擎是以字符串和关键词匹配的方式过滤信息，这使得获取信息有一定的局限性。现在以知识图谱为技术核心的搜索引擎和自动问答系统成为了人机交互的新趋势。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。

从原始文本中提取实体和关系是知识图谱构建的重要步骤，大多数用于实体和关系提取的神经网络模型假设一个句子只包含一个关系，无法获得深层语义，无法很好地解决实体重叠与结果三元组重叠等问题。在服务器研发过程中，各领域都积累了大量的研发数据、测试数据、试产数据、项目经验等很有价值的数据和文档，面对有多个结果三元组有重叠、关系类别多的情况时，现有模型的效果就有一定的局限性。

由此可见，如何解决知识图谱构建中实体重叠与结果三元组重叠等问题，是本领域人员亟待解决的技术问题。

发明内容

本发明的目的是提供一种知识图谱构建方法、装置及介质，解决知识图谱构建中实体重叠与结果三元组重叠等问题。

为解决上述技术问题，本发明提供一种知识图谱构建方法，包括：

获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；

根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注；

通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量；

将所述文本词向量输入到双向环神经网络中得到上下文依赖关系；

根据所述文本词向量与所述上下文依赖关系得到结果语义向量；

通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组；

融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。

另一方面，上述知识图谱构建方法中，所述获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据，包括：

使用网络爬虫获取网络上的服务器研发领域的开放数据；

若所述开放数据为非结构化数据，通过多模态数据处理方法将所述开放数据处理为纯文字的形式，得到标准化文本数据。

另一方面，上述知识图谱构建方法中，所述根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注，包括：

获取预设实体与实体关系；

根据所述预设实体与实体关系，通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注。

另一方面，上述知识图谱构建方法中，所述通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量，包括：

将所述标准化文本数据输送到词嵌入层，处理文本序列；

提取文本的语义特征和位置特征，将文本转化成文本词向量；

其中，所述词嵌入层的模型为全词掩蔽双向编码器模型。

另一方面，上述知识图谱构建方法中，通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组，包括：

通过多层的全局指针网络标注所述结果语义向量的起始结束位置，得到子序列；

对每一个所述子序列通过打分函数进行打分，得到每个所述子序列的分数；

输出所述分数大于预设阈值的所述子序列，作为结果三元组。

另一方面，上述知识图谱构建方法中，所述融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱，之前还包括：

将所述结果三元组数据整理成逗号分隔值文件格式。

另一方面，上述知识图谱构建方法中，所述使用网络爬虫获取网络上的服务器研发领域的开放数据，之后还包括：

对所述网络爬虫获取到的所述开放数据进行数据清洗。

为解决上述技术问题，本发明还提供一种知识图谱构建装置，包括：

获取模块，用于获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；

标注模块，用于根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注；

获取词向量模块，用于通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量；

获取依赖关系模块，用于将所述文本词向量输入到双向环神经网络中得到上下文依赖关系；

拼接模块，用于根据所述文本词向量与所述上下文依赖关系得到结果语义向量；

提取结果三元组模块，用于通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组；

输出知识图谱模块，用于融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。

爬取单元，用于使用网络爬虫获取网络上的服务器研发领域的开放数据；

非结构化处理单元，用于若所述开放数据为非结构化数据，通过多模态数据处理方法将所述开放数据处理为纯文字的形式，得到标准化文本数据。

获取关系单元，用于获取预设实体与实体关系；

标注单元，用于根据所述预设实体与实体关系，通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注。

词嵌入层处理单元，用于将所述标准化文本数据输送到词嵌入层，处理文本序列；

提取单元，用于提取文本的语义特征和位置特征，将文本转化成文本词向量；

其中，所述词嵌入层的模型为全词掩蔽双向编码器模型。

获取子序列单元，用于通过多层的全局指针网络标注所述结果语义向量的起始结束位置，得到子序列；

打分单元，用于对每一个所述子序列通过打分函数进行打分，得到每个所述子序列的分数；

输出结果单元，用于输出所述分数大于预设阈值的所述子序列，作为结果三元组。

存储单元，用于将所述结果三元组数据整理成逗号分隔值文件格式。

清洗单元，用于对所述网络爬虫获取到的所述开放数据进行数据清洗。

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的知识图谱构建方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的知识图谱构建方法的步骤。

本发明所提供的知识图谱构建方法，获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；根据预设实体与实体关系对标准化文本数据中的文本进行实体和关系的标注；通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；将文本词向量输入到双向环神经网络中得到上下文依赖关系；根据文本词向量与上下文依赖关系得到结果语义向量；通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组；融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。本发明通过使用改进的全词掩蔽双向编码器模型，提取文本的语义特征和位置特征，把文本转化成语义向量，将全词掩蔽的方法应用在了中文中，即对组成同一个词的汉字全部进行掩蔽，更适合中文语料的理解，这样能够充分获取该词在上下文中的隐含联系。另外使用双向环神经网络模型来进一步地从上下文语境中抽取三元组，使用多头机制的全局指针标记策略解决了解决实体重叠与三元组重叠等问题，避免传统序列标注模型中边界识别错误的发生，提高实体识别的准确性，构建的服务器研发领域的目标知识图谱可以将服务器研发过程中各领域积累的资料更好地组织和关联在一起。

另外，本发明还提供一种装置及介质，与上述方法对应，效果同上。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种知识图谱构建方法的流程图；

图2为本发明实施例提供的一种全局指针标注示意图；

图3为本发明实施例提供的另一种全局指针标注示意图；

图4为本发明实施例提供的一种知识图谱构建的模型框架结构图；

图5为本发明实施例提供的一种知识图谱构建装置的结构图；

图6为本发明实施例提供的另一种知识图谱构建装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种知识图谱构建方法、装置及介质。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

随着互联网数据的爆炸式增长，大量的知识数据给信息检索带来了挑战。传统的搜索引擎是以字符串和关键词匹配的方式过滤信息，这使得获取信息有一定的局限性。现在以知识图谱为技术核心的搜索引擎和自动问答系统成为了人机交互的新趋势。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。知识图谱技术主要应用于金融分析、问答系统、搜索引擎、案件分析等领域。作为自然语言处理的一个研究分支，知识图谱的构建主要涉及的技术有信息的抽取和实体关系的构建。

在现有技术中，知识抽取有的是采用关键词匹配和切割组合的方法，这种方法不够灵活，维护成本较高；有的是抽取数据库中的信息，这种方式局限性较大，对于一些非结构化数据无法有效抽取；若使用单一的神经网络模型，在不同的输入条件下会表现出不同的结果，稳定性较差。双向编码器表示(Bidirectional Encoder Representation fromTransformers，Bert)模型虽然比单一神经网络模型有更好的表现，但是仍然无法获得深层语义，无法很好地解决实体重叠与三元组重叠等问题。词向量模型(Word2vec)为浅而双层的神经网络，用来训练以重新建构语言学之词文本，没有考虑单词的上下文语义，仅仅是通过滑动窗口的形式取单词周围的几个单词作为样本进行训练，是静态特征的提取，这就导致了Word2vec无法解决一词多义的问题。实体-关系抽取的方法分为流水线方法和联合抽取方法两大类，流水线方法将任务分成命名实体识别和关系抽取两个独立的子任务，比较灵活但是忽略了两者之间的相关性。

本发明基于服务器研发领域，在服务器研发过程中，各领域都积累了大量的研发数据、测试数据、试产数据、项目经验等很有价值的数据和文档。除了公司内部积累的资料，在互联网上也有很多专业的领域文献、资料。工程师在检索资料的过程中，需要从不同的文档系统上搜索相关资料，传统的关键词搜索方法匹配度不够精确，大量的文献资料也需要花费大量的时间去阅读并识别有效信息。通过构建领域知识图谱，可以将这些资料更好地组织和关联在一起，形成领域知识库，为后续构建智能搜索引擎和对话系统提供基础。

为解决上述技术问题，本发明实施例提供一种知识图谱构建方法，如图1所示，包括：

S11：获取服务器研发领域的开放数据，并对开放数据进行预处理得到标准化文本数据；

S12：根据预设实体与实体关系对标准化文本数据中的文本进行实体和关系的标注；

S13：通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；

S14：将文本词向量输入到双向环神经网络中得到上下文依赖关系；

S15：根据文本词向量与上下文依赖关系得到结果语义向量；

S16：通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组；

S17：融合并保存结果三元组至图数据库，构建服务器研发领域的目标知识图谱。

本实施例提到的开放数据指的是服务器研发领域的所能查询到的、开放的数据，可以是本公司内部数据库存储的数据，也可以是从网络上提取到的相关数据，可以是研发数据、测试数据、试产数据、项目经验等数据文档，可以是图片、表格、文献等各种数据形式，根据实际的分析需求，设置不同的获取模式即可。

本实施例提到的开放数据不限制其数据格式，从不同的数据来源得到的数据可能包括结构化数据，非结构化数据、半结构化数据，为了后续的分析方便，步骤S11对开放数据进行预处理，得到标准化文本数据，本实施例不限制预处理的具体方式，根据开放数据的具体类型设置对应的预处理方式即可。

步骤S12是需要对步骤S11得到的标准化文本数据进行标注，标注的依据是预设实体与实体关系，本实施例不限制预设实体与实体关系的设置方式，可以是根据本领域技术人员的经验手动设置，也可以是通过机器模型从本领域的文献中进行总结提取得到的，根据实际需求设置即可。得到预设实体与实体关系之后，对步骤S11得到的标准化文本数据进行标注即可。

本实施例提到的全词掩蔽双向编码器模型(Bidirectional EncoderRepresentation from Transformers Whole Word Masking，Roberta-wwm)模型是双向编码器模型(Bidirectional Encoder Representation from Transformers，BERT)模型的改进，加入了整词的mask方法--Whole word masking(wwm)；经Roberta-wwm模型得到的文本词向量能够更完整的保留了文本的语义信息以及上下文的语境信息，避免了由关键词向量表示导致的向量之间的可区分性差的问题，从根本上提升了准确性。

Transformer是一个利用注意力机制来提高模型训练速度的模型。Transformer模型通过采用自注意力机制(Self-Attention)，完全抛弃了传统循环神经网络(RecurrentNeural Network，RNN)在水平方向的传播，只在垂直方向上传播，只需要不断叠加Self-Attention层即可。

本实施例使用Roberta-wwm模型预训练标准化文本，提取文本的语义特征和位置特征，把文本转化成语义向量。Roberta模型是强力优化的bert模型，使用动态的掩蔽(mask)操作代替静态的mask操作，即在模型训练的时候不断更改mask的位置，提高了模型输入的随机性，提升了词语理解的准确性。Roberta-wwm模型则将全词mask的方法应用在了中文中，即对组成同一个词的汉字全部进行mask，更适合中文语料的理解。计算过程如下公式所述：

h₀＝W_s+W_p；

h_α＝trans(h_α-1)，α∈[1，N]；

其中，W_s是词嵌入矩阵，W_p是位置嵌入矩阵，h₀是初始的词嵌入向量。Trans(·)代表Transformer，h_α是隐藏层的状态，是文本在α层Transformer输出的特征向量，N是Transformer的最大层数。

全词掩蔽双向编码器模型作为词嵌入层的模型，处理文本序列，提取文本的语义和位置特征，将文本转化成语义向量。

具体地，所述通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量，包括：

将所述标准化文本数据输送到词嵌入层，处理文本序列；

其中，所述词嵌入层的模型为全词掩蔽双向编码器模型。

另外，本实施例提到的双向环神经网络(Bi-directional Long Short-TermMemory，BiLstm)模型作为特征提取层的模型，由前向长短时记忆网络(Long Short-TermMemory，LSTM)与后向LSTM组合而成。一个是正向去处理输入序列；另一个反向处理序列，处理完成后将两个LSTM的输出拼接起来。双向环神经网络模型通过两层长短时记忆网络的堆叠，使得模型摆脱了只能依据之前时刻的时序信息来预测下一时刻的输出的限制，能更好的结合上下文进行输出。可以有效利用输入的前向和后向特征信息。模型具有稳健性，对词向量和人工特征没有太大的依赖性。

传统的RNN模型在进行反向传播的过程中，梯度值会变小，所以它的记忆是短期的。LSTM模型在RNN的基础上引入了遗忘门、记忆门和输出门，通过对细胞状态中信息遗忘和记忆新的信息，使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，且每个时间步输出的隐层状态由上一个时刻的隐层状态计算而来。向前的LSTM和向后的LSTM结合成BiLstm，可以更好地捕捉双向的语义依赖。将文本的词向量表达和上下文之间的依赖关系拼接成最终的结果语义向量，假设输入是一个带有n个token的句子，得到特征向量H＝[H₁,…,H_n]计算过程如下公式所述：

L＝biLstm(h_N)；

H＝[h_N,L]；

其中，h_N为上述Roberta-wwm模型输出的词嵌入向量，biLstm(·)为BiLstm网络的一系列计算，L是BiLstm网络的输出向量，H是Roberta-wwm模型输出向量与BiLstm网络输出向量拼接成的语义向量。

具体地，步骤S14将文本词向量输入到双向环神经网络中得到上下文依赖关系，包括：

通过所述双向环神经网络对所述所述文本词向量的连续嵌入表示进行从后向前的特征学习；

通过所述双向环神经网络对所述所述文本词向量的连续嵌入表示进行从前向后的特征学习；

获得所述双向环神经网络输出的所述文本词向量包含所述上下文依赖关系。

本实施例通过双向环神经网络进一步进行上下文的特征提取，使词向量学习到观测序列上的依赖关系，获取上下文语境的信息。

步骤S16使用全局指针标记策略，全局指针本质上是一种基于多头注意力机制的标记策略，能有效解决实体重叠和三元组的重叠问题，全局指针网络将实体首尾位置视作整体进行判别，而不是将实体首尾位置分开标注，从而使得模型更具有全局观。全局指针网络可以无差别的识别嵌套实体和非嵌套实体，非嵌套情况下全局指针网络的效果可以媲美序列标注模型CRF的效果，嵌套情况下也可以取得相当不错的效果，因此常被用于嵌套实体的实体识别中，在本实施例中并不涉及嵌套实体的情况，仅通过全局指针网络在实体识别时将候选实体视为整体的特性，识别简单实体，减少边界预测错误的问题。

构建的服务器研发领域的目标知识图谱，将服务器研发过程中各领域积累的大量的资料，以及互联网上的相关资料更好地组织和关联在一起，形成领域知识库。目标知识图谱用于构建服务器的搜索引擎和对话系统。

通过本发明实施例提供的知识图谱构建方法，获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；根据预设实体与实体关系对标准化文本数据中的文本进行实体和关系的标注；通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；将文本词向量输入到双向环神经网络中得到上下文依赖关系；根据文本词向量与上下文依赖关系得到结果语义向量；通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组；融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。本发明通过使用改进的全词掩蔽双向编码器模型，提取文本的语义特征和位置特征，把文本转化成语义向量，将全词掩蔽的方法应用在了中文中，即对组成同一个词的汉字全部进行掩蔽，更适合中文语料的理解，这样能够充分获取该词在上下文中的隐含联系。另外使用双向环神经网络模型来进一步地从上下文语境中抽取三元组，使用多头机制的全局指针标记策略解决了解决实体重叠与三元组重叠等问题，避免传统序列标注模型中边界识别错误的发生，提高实体识别的准确性，构建的服务器研发领域的目标知识图谱可以将服务器研发过程中各领域积累的资料更好地组织和关联在一起，为后续构建智能搜索引擎和对话系统提供基础。

在一种实施例中，上述知识图谱构建方法中，所述获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据，包括：

使用网络爬虫获取网络上的服务器研发领域的开放数据；

本实施例需要对获取到的开放数据进行数据预处理，包括对大量非结构化的图表、文字等进行转化，可以使用多模态数据处理方法，将数据处理成纯文字的形式。多模态深度学习是一个相对较新的领域，它关注从多模态数据中学习的算法。多模态技术为非结构化数据的智能处理提供了可能，包括图像、音频、视频、可携带文件格式(portabledocument format，PDF)和三维(3-dimension，3D)网格。多模态深度学习不仅可以更全面地理解数据，还可以提高模型的效率和准确性。

本实施例知识图谱采用自顶向下的方法来构建。主要数据来源是企业内部试产管理系统的结构化历史数据，精度较高。其次，可使用网络爬虫获取互联网上的试产相关问题文本数据作为辅助，将这些文本整理成文本格式。另外，由于对于爬取到的数据，数据噪声较大，存在数据缺失、重复、异常等，需要进行数据清洗。在一种实施例中，所述使用网络爬虫获取网络上的服务器研发领域的开放数据，之后还包括：

对所述网络爬虫获取到的所述开放数据进行数据清洗。通过数据清洗剔除异常重复数据，补充缺失数据。

在一种实施例中，上述知识图谱构建方法中，所述根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注，包括：

获取预设实体与实体关系；

需要各领域专家定义各领域内的实体概念以及实体之间的关系。然后根据这些定义，对文本数据进行标注。

序列标注(Sequence labeling)是神经语言程序学(Neuro-LinguisticProgramming，NLP)问题中的基本问题。在序列标注中，我们想对一个序列的每一个元素标注一个标签。一般来说，一个序列指的是一个句子，而一个元素指的是句子中的一个词。

序列标注一般可以分为两类：原始标注(Raw labeling)：每个元素都需要被标注为一个标签。联合标注(Joint segmentation and labeling)：所有的分段被标注为同样的标签。常用的序列标注方式有两种：BIO标注法和BIOES标注法。

BIO标注法：B-begin，代表实体的开头；I-inside，代表实体的中间或结尾；O-outside，代表不属于实体。

五位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)BIOES标注法：B-begin，代表实体的开头；I-inside，代表实体的中间；O-outside，代表非实体，用于标记无关字符；E-end，代表实体的结尾；S-single，代表单个字符，本身就是一个实体。

在本实施例中，对上述预处理后的标准化文本进行标准，可以根据收集到的一部分比较有代表性的知识文本进行实体和关系的标注。可以使用实体标注工具(brat rapidannotation tool，BRAT)，将文本文件生成同名的卷积神经网络(Convolutional NeuralNetwork，CNN)格式的文件，然后在配置实体和实体的关系。目前收集到的实体类型主要有：板卡、线缆、焊接、电源、固件等等；收集到的关系主要有：偏位、影响、需要、干涉、风险、磨损、防呆等等。使用的实体标注方式是基于BIOES的标注方式，即“B”为实体开始，“I”为实体内部，“O”为非实体、“E”为实体结束、“S”为单独实体。如表1所示：

表1 BIOES标注示意表

文本	标注
		前	O
置	O
		背	B-板卡
板	E-板卡
		电	B-线缆
源	I-线缆
		线	E-线缆
太	O
		长	O

本实施例通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注，得到五元组，以便于后续通过全局指针网络进行标注提取三元组。

在一种实施例中，上述知识图谱构建方法中，通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组，包括：

为了解决实体和三元组重叠的问题，需要使用多层全局指针标记策略对结果语义向量进行基于打分策略的实体抽取。具体原理如下：

以“GPU挡风罩”为例，“GPU”为芯片，“GPU挡风罩”为部件，存在“CPU”这个实体重叠，需要进行标记，标记方式如图2、图3所示。

全局指针网络将实体的起始结束位置和实体类别作为一个模块进行识别，相当于从五元组(S_h，S_t，P，O_h，O_t)中抽取，其中S_h和S_t分别是主语的首尾位置，P为谓语，O_h和O_t分别是宾语的首尾位置。打分策略的打分函数S(i，j)在训练和预测时都要大于0，则每一层的打分函数计算和输出如下公式所示：

q_i,l＝w_q,lh_i+b_q,l；

k_i,l＝w_kH_i+b_k,l；

L是全局指针的层数，w_q,l，w_k,l是可训练的权重，q_i,l和k_i,l是根据步骤S14中的特征向量H与w_q,l,w_k,l相乘再加权重偏移量b_q,l和b_k,l得到。假设将长度为n的文本w输入到模型中，则S_l(i,j)为文本片段w[i，j]在第l层的打分函数。最后将所有S_l(i,j)输出即得到了消除实体重叠的元组。

在一种实施例中，上述知识图谱构建方法中，所述融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱，之前还包括：

将所述结果三元组数据整理成逗号分隔值文件格式。

逗号分隔值(Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号)，其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。本实施例以逗号分隔值文件格式存储得到的三元组，使数据交换更容易，也更易于导入到电子表格或数据库存储中，使用户可以通过编程轻松地体验工作。

为了是本领域技术人员更好地理解本方案，图4为本发明实施例提供的一种知识图谱构建的模型框架结构图；如图4所示，对所述开放数据进行预处理后得到标准化文本数据输入至全词掩蔽双向编码器模型，得到文本词向量，再将文本词向量输入到双向环神经网络，得到上下文依赖关系；文本词向量与上下文依赖关系拼接得到结果语义向量，结果语义向量输入到全局指针网络，提取得到结果三元组。

在上述实施例中，对于知识图谱构建方法进行了详细描述，本发明还提供知识图谱构建装置对应的实施例。需要说明的是，本发明从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

基于功能模块的角度，图5为本发明实施例提供的一种知识图谱构建装置的结构图，如图5所示，知识图谱构建装置，包括：

获取模块31，用于获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；

标注模块32，用于根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注；

获取词向量模块33，用于通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量；

获取依赖关系模块34，用于将所述文本词向量输入到双向环神经网络中得到上下文依赖关系；

拼接模块35，用于根据所述文本词向量与所述上下文依赖关系得到结果语义向量；

提取结果三元组模块36，用于通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组；

输出知识图谱模块37，用于融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。

本发明实施例提供的知识图谱构建装置，获取模块31获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；标注模块32根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注；获取词向量模块33通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量；获取依赖关系模块34将所述文本词向量输入到双向环神经网络中得到上下文依赖关系；拼接模块35根据所述文本词向量与所述上下文依赖关系得到结果语义向量；提取结果三元组模块36通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组；输出知识图谱模块37融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。本发明通过使用改进的全词掩蔽双向编码器模型，提取文本的语义特征和位置特征，把文本转化成语义向量，将全词掩蔽的方法应用在了中文中，即对组成同一个词的汉字全部进行掩蔽，更适合中文语料的理解，这样能够充分获取该词在上下文中的隐含联系。另外使用双向环神经网络模型来进一步地从上下文语境中抽取三元组，使用多头机制的全局指针标记策略解决了解决实体重叠与三元组重叠等问题，避免传统序列标注模型中边界识别错误的发生，提高实体识别的准确性，构建的服务器研发领域的知识图谱可以将服务器研发过程中各领域积累的资料更好地组织和关联在一起。

另外，装置还包括：

获取关系单元，用于获取预设实体与实体关系；

其中，所述词嵌入层的模型为全词掩蔽双向编码器模型。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图6为本发明实施例提供的另一种知识图谱构建装置的结构图，如图6所示，知识图谱构建装置包括：存储器40，用于存储计算机程序；

处理器41，用于执行计算机程序时实现如上述实施例(知识图谱构建方法)获取用户操作习惯信息的方法的步骤。

本实施例提供的知识图谱构建装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器41可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器41可以采用数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器41也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器41可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器41还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器40可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器40还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器40至少用于存储以下计算机程序401，其中，该计算机程序被处理器41加载并执行之后，能够实现前述任一实施例公开的知识图谱构建方法的相关步骤。另外，存储器40所存储的资源还可以包括操作系统402和数据403等，存储方式可以是短暂存储或者永久存储。其中，操作系统402可以包括Windows、Unix、Linux等。数据403可以包括但不限于实现知识图谱构建方法所涉及到的数据等。

在一些实施例中，知识图谱构建装置还可包括有显示屏42、输入输出接口43、通信接口44、电源45以及通信总线46。

本领域技术人员可以理解，图6中示出的结构并不构成对知识图谱构建装置的限定，可以包括比图示更多或更少的组件。

本发明实施例提供的知识图谱构建装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：知识图谱构建方法，获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；根据预设实体与实体关系对标准化文本数据中的文本进行实体和关系的标注；通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；将文本词向量输入到双向环神经网络中得到上下文依赖关系；根据文本词向量与上下文依赖关系得到结果语义向量；通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组；融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。本发明通过使用改进的全词掩蔽双向编码器模型，提取文本的语义特征和位置特征，把文本转化成语义向量，将全词掩蔽的方法应用在了中文中，即对组成同一个词的汉字全部进行掩蔽，更适合中文语料的理解，这样能够充分获取该词在上下文中的隐含联系。另外使用双向环神经网络模型来进一步地从上下文语境中抽取三元组，使用多头机制的全局指针标记策略解决了解决实体重叠与三元组重叠等问题，避免传统序列标注模型中边界识别错误的发生，提高实体识别的准确性，构建的服务器研发领域的知识图谱可以将服务器研发过程中各领域积累的资料更好地组织和关联在一起。

最后，本发明还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述知识图谱构建方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的计算机可读存储介质，其上存储有计算机程序，当处理器执行该程序时，可实现以下方法：知识图谱构建方法，获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；根据预设实体与实体关系对标准化文本数据中的文本进行实体和关系的标注；通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；将文本词向量输入到双向环神经网络中得到上下文依赖关系；根据文本词向量与上下文依赖关系得到结果语义向量；通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组；融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。本发明通过使用改进的全词掩蔽双向编码器模型，提取文本的语义特征和位置特征，把文本转化成语义向量，将全词掩蔽的方法应用在了中文中，即对组成同一个词的汉字全部进行掩蔽，更适合中文语料的理解，这样能够充分获取该词在上下文中的隐含联系。另外使用双向环神经网络模型来进一步地从上下文语境中抽取三元组，使用多头机制的全局指针标记策略解决了解决实体重叠与三元组重叠等问题，避免传统序列标注模型中边界识别错误的发生，提高实体识别的准确性，构建的服务器研发领域的知识图谱可以将服务器研发过程中各领域积累的资料更好地组织和关联在一起。

以上对本发明所提供的知识图谱构建方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据，包括：

使用网络爬虫获取网络上的服务器研发领域的开放数据；

3.根据权利要求1所述的知识图谱构建方法，其特征在于，所述根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注，包括：

获取预设实体与实体关系；

4.根据权利要求3所述的知识图谱构建方法，其特征在于，所述通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量，包括：

将所述标准化文本数据输送到词嵌入层，处理文本序列；

其中，所述词嵌入层的模型为全词掩蔽双向编码器模型。

5.根据权利要求4所述的知识图谱构建方法，其特征在于，所述通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组，包括：

6.根据权利要求1所述的知识图谱构建方法，其特征在于，所述融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱，之前还包括：

将所述结果三元组数据整理成逗号分隔值文件格式。

7.根据权利要求2所述的知识图谱构建方法，其特征在于，所述使用网络爬虫获取网络上的服务器研发领域的开放数据，之后还包括：

对所述网络爬虫获取到的所述开放数据进行数据清洗。

8.一种知识图谱构建装置，其特征在于，包括：

9.一种知识图谱构建装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的知识图谱构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的知识图谱构建方法的步骤。