CN116049443A

CN116049443A - 一种知识图谱的构造方法、装置、电子设备和存储介质

Info

Publication number: CN116049443A
Application number: CN202310106037.1A
Authority: CN
Inventors: 刘鹏; 张真; 张堃; 朱超; 吴浩宇
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-02

Abstract

本申请公开了知识图谱的构造方法、装置、电子设备和存储介质，所述方法通过获取知识图谱架构，所述知识图谱架构代表了单一方向的语义序列且为全连接关系；获取数据集，所述数据集覆盖所有所述类的实体，所述数据集中的每个数据中包括所述类中的两类实体以及实体的量化值；将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中基于误差实现对实体间连接关系的权重的调整；以最终训练完成的所述神经网络及其对应的实体间的连接关系的权重作为知识图谱。通过本申请解决了传统的知识图谱无法体现实体之间量化关系，从而能够根据带有权重的知识图谱进行更准确的查询。

Description

一种知识图谱的构造方法、装置、电子设备和存储介质

技术领域

本申请涉及到知识图谱技术领域，特别是一种知识图谱的构造方法、装置、电子设备和存储介质

背景技术

知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。知识图谱是人工智能技术的重要分支，在搜索引擎构建、自然语言处理、智能情景分析等领域发挥着重要作用。但是现有的知识图谱对于关系的描述基于语义信息，通常无法量化。

发明内容

本申请实施例提供了一种知识图谱的构造方法、装置、电子设备和存储介质，用于解决现有的知识图谱中对于关系的描述无法量化的技术问题。

本发明的第一个方面，提供一种知识图谱的构造方法，包括：

获取知识图谱架构，所述知识图谱架构代表了单一方向的语义序列，所述知识图谱架构包括至少两个类，每个所述类代表所述语义序列中的不同语义，每个所述类包括至少一个实体，且相邻的所述类之间的实体之间为全连接关系；

获取数据集，所述数据集覆盖所有所述类的实体，所述数据集中的每个数据中包括所述类中的两类实体以及实体的量化值，所述数据中的实体之间的关系与所述知识图谱架构中所代表的对应的部分语义关系一致；

将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中，将每个所述数据中的位于输入-输出方向上靠前一层的实体的量化值赋予所述神经网络对应的节点，根据当前所述神经网络权重获得所述神经网络上与所述数据中位于输入-输出方向上靠后一层的实体对应的节点的输出，基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整；其中，所述当前所述神经网络为根据前一数据训练后获得的神经网络；

以最终训练完成的所述神经网络及其对应的实体间的连接关系的权重作为知识图谱。

进一步的，在本发明中，所述获取知识图谱架构，包括：

获取实体并对所述实体进行语义分类，按所述单一方向的语义序列将所述实体按照所对应的语义类别及序列位置进行分布。

进一步的，在本发明中，所述将所述知识图谱架构作为神经网络通过所述数据集进行训练，包括：

对所述全连接关系中每条边的权重赋予初始值；其中，所述权重为随机数且均小于1，与同一所述实体具有连接关系的前一层的实体的总权重之和为1。

进一步的，在本发明中，所述进行一次基于所述神经网络的输出与实际值之间的误差对实体间连接关系的权重进行调整，包括：按照自所述神经网络由后向前的方向逐层调整。

进一步的，在本发明中，所述逐层调整时采用误差函数梯度下降法进行调整。

本发明的第二个方面，提供一种知识图谱的构造的装置，包括：

知识图谱获取模块，用于获取知识图谱架构，所述知识图谱架构代表了单一方向的语义序列，所述知识图谱架构包括至少两个类，每个所述类代表所述语义序列中的不同语义，每个所述类包括至少一个实体，且相邻的所述类之间的实体之间为全连接关系；

数据集获取模块，用于获取数据集，所述数据集覆盖所有所述类的实体，所述数据集中的每个数据中包括所述类中的两类实体以及实体的量化值，所述数据中的实体之间的关系与所述知识图谱架构中所代表的对应的部分语义关系一致；

训练模块，用于将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中，将每个所述数据中的位于输入-输出方向上靠前一层的实体的量化值赋予所述神经网络对应的节点，根据当前所述神经网络权重获得所述神经网络上与所述数据中位于输入-输出方向上靠后一层的实体对应的节点的输出，基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整；其中，所述当前所述神经网络为根据前一数据训练后获得的神经网络完成模块，用于以最终训练完成的所述神经网络及其对应的实体间的连接关系的权重作为知识图谱；

进一步的，在本发明中，所述知识图谱获取模块，包括：

实体分类模块，用于获取实体并对所述实体进行语义分类，按所述单一方向的语义序列将所述实体按照所对应的语义类别及序列位置进行分布。

进一步的，在本发明中，所述训练模块，包括：

权重初始赋值模块，用于对所述全连接关系中每条边的权重赋予初始值；其中，所述权重为随机数且均小于1，与同一所述实体具有连接关系的前一层的实体的总权重之和为1。

本发明的第三个方面，提供一种电子设备，包括处理器、存储器和存储在所述存储器内的计算机程序，所述计算机程序被配置为被所述处理器运行时执行本发明第一个方面所述的方法。

本发明的第四个方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序用于执行本发明第一个方面所述的方法。

在本申请实施例中，采用了一种知识图谱的构造方法，通过获取知识图谱架构，所述知识图谱架构代表了单一方向的语义序列，所述知识图谱架构包括至少两个类，每个所述类代表所述语义序列中的不同语义，每个所述类包括至少一个实体，且相邻的所述类之间的实体之间为全连接关系；获取数据集，所述数据集覆盖所有所述类的实体，所述数据集中的每个数据中包括所述类中的两类实体以及实体的量化值，所述数据中的实体之间的关系与所述知识图谱架构中所代表的对应的部分语义关系一致；将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中，将每个所述数据中的位于输入-输出方向上靠前一层的实体的量化值赋予所述神经网络对应的节点，根据当前所述神经网络权重获得所述神经网络上与所述数据中位于输入-输出方向上靠后一层的实体对应的节点的输出，基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整；其中，所述当前所述神经网络为根据前一数据训练后获得的神经网络；以最终训练完成的所述神经网络及其对应的实体间的连接关系的权重作为知识图谱。通过本申请解决了传统的知识图谱无法体现实体之间量化关系，从而能够根据带有权重的知识图谱进行更准确的查询。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种知识图谱的构造方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明的实施例针对现有的知识图谱无法体现关系之间的强弱，提供一种知识图谱的构造方法，从而将实体之间的连线强弱用权重的方式呈现出来，可以代表连接关系上的一个实体对另一个实体的影响力的大小。本发明具体通过神经网络的训练过程来实现上述权重的显现，神经网络与知识图谱有类似的结构，其具有多层节点，且层与层之间具有连接关系，但神经网络除了输入和输出层以外，其内部的隐藏层为黑盒，当神经网络训练完成后即可投入使用，人们不会关注中间的黑盒基体什么网络结构以及层与层之间的权重。本申请的实施例另辟蹊径，从神经网络训练的本质出发，将上述训练过程对权重的调整过程显现化，从而将神经网络的黑盒变成白盒，获得了带有权重的知识图谱。

因此，本实施例提出一种知识图谱的构造方法，如图1所示为一种知识图谱的构造方法的流程示意图，如图1所示，所述一种知识图谱的构造方法包括以下步骤：

步骤S102、获取知识图谱架构，所述知识图谱架构代表了单一方向的语义序列，所述知识图谱架构包括至少两个类，每个所述类代表所述语义序列中的不同语义，每个所述类包括至少一个实体，且相邻的所述类之间的实体之间为全连接关系。

上述知识图谱架构与全连接神经网络架构相同，将知识图谱中在语义关系中属于同一类的实体构成神经网络的一层，不同类的实体构成神经网络的其他层，每层中的实体数量不必都相同，为了减少对人经验的依赖，相邻层的实体之间构成全连接关系，即使实际上某个实体与相邻层的另一个实体不相关但仍需要对二者建立连接，他们之间的关系只要通过赋予连接关系的权重为0即可表达，若实际上某个实体与相邻的另一个实体相关，相关程度的强弱通过权重大小的调整即可表达。

现有技术中获得知识图谱架构的方法很多，包括但不限于知识图谱搜索引擎、知识图谱资源库等，其中所述知识图谱搜索引擎可以是具有基于机器学习的信息抽取和检索系统，通过将任何领域的自然语言文本中的知识提取成结构化的数据，并且进行持续聚合和纠错，进而提供可解析、可检索、可溯源的知识体系，其中所述知识图谱资源库可以包括命名实体识别、实体查询、关系查询、知识分类、知识问答等功能。

本发明的实施例中的知识图谱架构的获得可以参照上述现有技术中的方法，但本发明的实施例主要针对的是一种具有单一方向的语义关系的知识图谱，即所述知识图谱架构具有明确的层，第一层仅与第二层发生关系、第二层进一步与第三层发生关系，如此向后传递，因此在某些实施例中，优选本发明的实施例中的知识图谱架构通过如下方式获得：获取实体并对所述实体进行语义分类，按所述单一方向的语义序列将所述实体按照所对应的语义类别及序列位置进行分布。

步骤S104、获取数据集，所述数据集覆盖所有所述类的实体，所述数据集中的每个数据中包括所述类中的两类实体以及实体的量化值，所述数据中的实体之间的关系与所述知识图谱架构中所代表的对应的部分语义关系一致。

上述数据集是作为训练数据用的，因此，数据集中的数据与上述知识图谱架构中的实体对应，并且语义关系也对应。数据集的来源很多，包括但不限于网页、数据库等。根据不同的来源，每个数据可能并不完全能够与知识图谱架构中的实体一一对应，但为了能够起到训练作用，因此所述数据中应至少包括所述知识图谱中的所述类中的两类实体以及他们之间的语义关系。

步骤S106、将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中，将每个所述数据中的位于输入-输出方向上靠前一层的实体的量化值赋予所述神经网络对应的节点，根据当前所述神经网络权重获得所述神经网络上与所述数据中位于输入-输出方向上靠后一层的实体对应的节点的输出，基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整；其中，所述当前所述神经网络为根据前一数据训练后获得的神经网络。

选择所述知识图谱的输入端和输出端分别作为神经网络的输入端和输出端，所述输入端和输出端之间即为神经网络的隐藏层，在本实施例中这些隐藏层的层结构以及每个节点即实体的含义是显现的。在此基础上，每次选用所述数据集中的一个数据，获得所述数据中的不同的两类实体及其量化值，定义这两类实体为第一类实体和第二类实体，其中第一类实体位于输入-输出方向上靠前一层中，第二类实体位于输入-输出方向上靠后一层中。将所述第一类实体的量化值赋给知识图谱中对应的实体，按照输入-输出方向以及当前知识图谱中的每条边的权重向后传播获得所述第二类实体中每个实体的计算值，对比所述数据中对应的第二实体的量化值，能够获得关于第二实体处的误差。上述误差是由与所述第二实体在其前方具有关联关系的实体以及关联的权重强弱决定的。因此，为了调整权重，可以依据上述误差和网络结构自所述第二实体处向前传递上述误差，并优化权重。上述训练过程，类似有监督的神经网络训练过程，但所述数据和常规的神经网络所需的训练数据不同，本发明的实施例中的数据可以对应网络中任意两个不同层，而不必一定是输入层和输出层，这样每个数据单独针对对应的相关层进行训练和调整权重，当层之间的距离间隔较小时，则小范围内调整权重，当层之间的距离间隔较大时，则大范围内调整权重。

在上述实施例中，在训练之初，对所述全连接关系中每条边的权重赋予初始值；其中，所述权重为随机数且均小于1，与同一所述实体具有连接关系的前一层的实体的总权重之和为1。后续的数据均在前一次调整的权重的基础上重复同样的过程，从而进行多次权重调整，并且因为数据集覆盖所有的实体，所以能对知识网络中每条连接关系进行权重调整。

步骤S108、以最终训练完成的所述神经网络及其对应的实体间的连接关系的权重作为知识图谱。

因此，随着训练过程的推进，所述知识图谱中各个连接关系上的权重在逐步调整，始终显现并随着训练结束后获得较为可靠的权重。由此，获得的知识图谱为带权重的知识图谱，对于有直接或间接连接关系的实体均能够量化一个实体对另一个实体的影响大小，能够基于此知识网络更加客观地给出推理。

在上述实施例中，步骤S106中所述基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整，包括：按照自所述神经网络的由后向前的方向逐层调整。

上述过程即为反向误差传播，所谓反向是与神经网络的输入-输出方向相反，即沿输出向输入方向传播误差，并且后一节点上的误差是与与该节点有直接或间接连接关系的节点有关的，因此，通过反向推理能够推算出这些关联节点的相应误差。具体所述反向传播误差计算，包括如下步骤：

步骤S1061、获得所述神经网络在误差传播方向上当前节点中每个节点误差；

步骤S1062、将所述每个节点误差沿按照误差传播方向上后一层节点与所述当前节点的边的权重的比例进行分割获得分割误差；

步骤S1063、将所述分割误差向前一层中对应的节点传播，并将所述前一层中同一节点获得的分割误差求和得到该同一节点的误差。

通过上述反向误差传播获得每个节点的误差，并且根据网络结构重新调整权重使得误差控制在可接受的范围内。

上述误差消失调整过程采用误差函数梯度下降法进行调整。每条连接关系上的权重调整通过下式计算：

。

其中，E为误差函数；α为学习率，用于调节变化的强度以防止超调；W为某一条连接关系上的权重。

代表误差函数斜率，。

上述误差函数斜率公式中，k为下一层实体，j为上一层实体，t_k为下一层实体对应的量化值，o_k为下一层实体的计算量，simoid（）函数为S激活函数，w_j,k为j层的实体与k层的实体之间的权重，o_j为j层实体的输出值，是在与j层实体连接的输入信号上进行加权求和并引用S激活函数得到的结果。

本发明的另一个实施例，提供一种电子设备，包括处理器、存储器和存储在所述存储器内的计算机程序，所述计算机程序被配置为被所述处理器运行时执行前述实施例中所述的知识图谱的构造方法。

本发明的另一个实施例，提供一种存储介质，其上存储有计算机程序，所述计算机程序用于执行所前述实施例中的知识图谱的构造方法。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

例如，通过多个功能模块构成的本发明实施例的一种知识图谱的构造装置，包括：

知识图谱获取模块，用于获取知识图谱架构，所述知识图谱架构代表了单一方向的语义序列，所述知识图谱架构包括至少两个类，每个所述类代表所述语义序列中的不同语义，每个所述类包括至少一个实体，且相邻的所述类之间的实体之间为全连接关系。

训练模块，用于将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中，每个所述数据中的输入量输入所述神经网络后均进行一次基于所述神经网络的输出与实际值之间的误差对实体间连接关系的权重进行调整；

完成模块，用于以最终训练完成的所述神经网络及其对应的实体间的连接关系的权重作为知识图谱。

在上述实施例中，所述知识图谱获取模块，包括：

在上述实施例中，所述训练模块，包括：

上述程序可以运行在处理器中，或者也可以存储在存储器中（或称为计算机可读介质），计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.知识图谱的构造方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取知识图谱架构，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述知识图谱架构作为神经网络通过所述数据集进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整，包括：按照自所述神经网络的由后向前的方向逐层调整。

5.根据权利要求4所述的方法，其特征在于，所述逐层调整时采用误差函数梯度下降法进行调整。

6.知识图谱的构造的装置，其特征在于，包括：

训练模块，用于将所述知识图谱架构作为神经网络通过所述数据集进行训练直至所述神经网络训练完成；其中，所述训练过程中，将每个所述数据中的位于输入-输出方向上靠前一层的实体的量化值赋予所述神经网络对应的节点，根据当前所述神经网络权重获得所述神经网络上与所述数据中位于输入-输出方向上靠后一层的实体对应的节点的输出，基于所述输出与所述数据中位于输入-输出方向上靠后一层的实体的实际值之间的误差对实体间连接关系的权重进行调整；其中，所述当前所述神经网络为根据前一数据训练后获得的神经网络；

7.根据权利要求6所述的装置，其特征在于，所述知识图谱获取模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述训练模块，包括：

9.一种电子设备，其特征在于：包括处理器、存储器和存储在所述存储器内的计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述权利要求1~5中任意一项所述的方法。

10.一种存储介质，其特征在于：其上存储有计算机程序，所述计算机程序用于执行所述权利要求1~5中任意一项所述的方法。