CN111241301A

CN111241301A - 一种面向知识图谱表示学习的分布式框架构建方法

Info

Publication number: CN111241301A
Application number: CN202010023555.3A
Authority: CN
Inventors: 马骏; 张小旺; 饶国政; 冯志勇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-06-05

Abstract

本发明公开一种面向知识图谱表示学习的分布式框架构建方法，包括以下步骤：进行RDF三元组的数据映射，建立原始字符串型数据到整数类型ID的哈希映射，映射后的RDF三元组参与后续处理；将RDF三元组按照每个计算群组的计算能力进行置乱切分并且分配到各个计算群组中；之后随机生成一组向量作为初始化的表示模型，并对该表示模型进行逻辑上的切分，并将逻辑切分结果发送到每个计算群组中，然后计算群组的每个计算节点根据逻辑切分结果进行本地子模型的构建；采用自适应的方法，各个计算节点根据每一轮的随机采样结果，自动在相关的计算节点上完成所需表示模型向量的收集；分布式模型训练和分布式模型聚合。

Description

一种面向知识图谱表示学习的分布式框架构建方法

技术领域

本发明涉及计算机科学技术与应用领域，具体来说，本发明提供了一种分布式学习框架来对大规模知识图谱进行知识表示学习的方法。

背景技术

知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。知识图谱数据使用RDF(Resource Description Framework)即资源描述框架进行表示，其具体的表现形式是RDF三元组(h,r,t)，其中h表示头实体(主语)，r表示关系(谓词)，t表示尾实体(宾语)，如图1所示。知识表示学习是面向知识图谱中实体和关系的表示学习。该技术通过将实体或关系投影到低维向量空间，可以高效地计算实体、关系及其之间的复杂语义关联，有效解决数据稀疏问题。这对知识获取、融合和推理等方面均具有重要意义。

知识表示学习模型中的Translating模型基本思路是将知识图谱中的关系看作是头实体与尾实体间的某种平移向量，其中具有代表性模型有TransE、TransH、TransR等。在每个三元组(h,r,t)中，TransE用关系r的向量l_r看作头实体向量l_h和尾实体向量l_t之间的平移，即：l_h+l_r＝l_t，因此TransE定义了如下的损失函数

即向量l_h+l_r和l_t的L₁或L₂距离。

在分布式机器学习领域，常见的机器学习框架有Tensorflow等。其中Tenserflow是一个基于数据流编程(dataflow programming)的符号数学系统，其被广泛应用于各类机器学习算法的编程实现。Tenserflow的分布式架构是基于参数服务器模式，即有一组参数服务器ps节点作为全局参数的维护节点，并且有多个工作节点worker来进行数据的训练，worker从ps中拉取需要的参数，并每轮训练结束后将参数更新回送到ps节点。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺点：

(1)大规模知识图谱处理成本与效果：目前知识图谱的规模日趋扩大，在单机状态下运行的知识表示模型已经无法满足大规模知识表示学习的需求。当我们为了发掘更加丰富的语义关联，利用超大规模知识图谱来构建更大规模的知识表示模型时，在单机状态下无法构建超出单机内存限制的知识表示模型，并且单机的计算能力不足以在合理的时间内在大数据集上运行表示学习。例如TransE和其一系列拓展模型在进行表示学习的过程中需要花费大量的时间。在FB15k这个数据集下，需要花费78分钟来训练483142个三元组。据此推断，如果训练Freebase-rdf-latest这个拥有19亿个三元组的数据则需要花费大约212天，所以说现有知识表示学习模型进行训练的时间开销是巨大的。

(2)分布式计算的可拓展性和稳定性：现在大部分的分布式机器学习框架都是基于参数服务器模式(Parameter Server)，这种模式需要一个中心节点来协调模型的聚合过程。并且当网络传输代价较大时，中心化模式容易在中心节点形成瓶颈，在网络连接情况比较差的时候尤为明显，其次中心化模式对系统的稳定性要求高，因为它要求中心节点能够稳定的聚合和分发模型，一旦中心节点出错，整个任务必然失败。

(3)跨节点实体或关系向量的融合处理：现在已有的分布式机器学习框架中，并没有对大规模知识表示学习的分布式处理上存在的数据划分、分布式计算架构、不同数据块结果合理融合等方面的问题提出具有针对性的解决方案。尤其是在模型融合方面没有考虑RDF的数据特性和表示学习的特点，不能高效的实现跨节点模型的融合。所以，现在通用的分布式机器学习框架并不能很好的解决大规模知识图谱的表示学习问题，普通的分布式机器学习框架无法保证知识表示的准确性，无法避免语义损失。

发明内容

本发明的目的是为了克服现有技术中的不足，充分利用大规模知识图谱中丰富的语义关系，提供一种面向知识图谱表示学习的分布式框架构建方法，在该框架下，对于需要进行表示学习的大规模知识图谱数据，系统首先将进行混合并行的配置工作，在计算群组之间进行数据并行，在计算节点之间进行模型并行。通过去中心化的计算架构进行训练，各个计算节点自由的进行模型的抽取和放回。在每一轮训练结束后，计算群组之间根据每个组中训练数据的词频分布来设置词频权重，进行计算节点之间进行模型融合，提高后续训练的效果。整个过程提高了处理大数据的能力，避免了语义损失，并且节约了训练时间和成本。

本发明的目的是通过以下技术方案实现的：

一种面向知识图谱表示学习的分布式框架构建方法，包括以下步骤：

(1)数据预处理：分布式计算框架的计算集群初始化，将所有计算节点以自适应的规模进行分组，形成若干个计算群组；统计分析知识图谱数据中的实体和关系出现频率和相对位置的分布。以计算群组为单位统计每个计算群组中的计算节点数，从而取得每个计算群组的负载能力。进行RDF三元组的数据映射，建立原始字符串型数据到整数类型ID的哈希映射，映射后的RDF三元组参与后续处理。

(2)混合并行初始化：将RDF三元组按照每个计算群组的计算能力进行置乱切分并且分配到各个计算群组中。然后随机生成一组向量作为初始化的表示模型，并对该表示模型进行逻辑上的切分，并将逻辑切分结果发送到每个计算群组中，然后计算群组的每个计算节点根据逻辑切分结果进行本地子模型的构建。

(3)参数自适应传递：在同一计算群组中当某个计算节点要使用由其他计算节点维护的模型数据时，需要通过采样到的实体来收集对应的向量，为后序的训练提供支持。在上述表示模型中，在将切分好的数据加载到各计算节点后，每一轮训练的样本通过随机采样所得，所以每一次采样所得到的实体或关系数据在各个节点中的分布也不尽相同。因此为了尽量减小通信开销，避免在每轮迭代中有无用节点参与通信。我们采用自适应的方法，各个计算节点根据每一轮的随机采样结果，自动在相关的计算节点上完成所需表示模型向量的收集。

(4)分布式模型训练：根据上述方法完成共享参数的收集，然后在各个计算节点上分布式的建立对应的损失函数，计算出更新梯度并完成表示模型向量的训练。

(5)分布式模型聚合：在每一轮迭代训练之后，在每个计算群组中各个计算节点将所有实体或关系对应的向量表示，进行收集与合并。因为在不同的计算群组中同一实体或关系存在不同的向量表示。通过考虑词频的向量聚合方式将多种向量进行统一表示。从全局来看，通过同步的方式使各个计算群组同时完成向量的聚合。从而进行下一轮的分布式模型训练。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本方法支持更大规模的数据进行分布式的学习，不仅可以保证维持之前技术的训练效果，而且进一步支持更大规模的知识图谱数据，输出大规模知识图谱中实体和关系通过表示学习所得到的向量，高效的实现大规模知识图谱的构建工作的实现。

2.可支持训练的知识图谱规模：与之前方法相比，本方法的分布式框架能够支持训练更大规模的数据。通过将表示模型进行逻辑划分，从而将巨大的内存需求分配到各计算节点中，每个计算节点只需按照自身负载分析的情况提供较少的内存即可，最终实现了与普通机器单机状态相比，训练规模上的大幅提升。

3.表示学习分布式算法的普适性：对于任何RDF三元组形式的知识图谱数据以及各种知识表示Translating模型算法，都能进行稳定的表示学习，通过对各种Translating模型的深入分析和分布式框架的自适应设计，最终实现了更强的普适性。

4.分布式计算框架的稳定性和拓展性：本方法中的分布式计算模式是去中心化模式。传统的中心化模式中，在中心计算节点会形成计算和管理上的瓶颈，而本方法的去中心化模式中，通过移除中心计算节点，排除了需要维护中心计算节点稳定性的困扰，每个计算节点有更多的自主性，可以根据自己的需求来选择性地仅与相关的其他计算节点通信，还可以有效降低对网络传输的需求，减少网络通信代价，并且使表示模型更新更加自由，易于拓展。

5.分布式知识表示的准确性：在分布式模型训练过程中，各个计算节点之间在每一轮迭代中都会进行有交互的训练，通过分布式模型聚合算法将各个计算节点中训练所得的知识表示向量嵌入到同一个embedding空间中，保证本方法的合理性和训练结果的准确性。

6.本发明针对大规模知识图谱表示学习的分布式处理在并行计算方式、分布式计算架构、模型融合等方面存在的问题，研究面向大规模知识图谱表示学习的分布式架构。在保证学习效果的前提下，充分利用大规模数据和计算资源、降低训练成本和训练时间。

7.本发明通过混合并行计算模式对大规模知识图谱数据和表示模型进行分布式处理，然后通过去中心化的分布式架构对表示模型进行分布式训练，在每轮迭代结束后再通过分布式模型聚合方法将子模型进行聚合。最终将所有实体和关系对应的向量映射到统一的embedding空间。这样，充分利用大规模数据，在避免语义损失的前提下提高知识图谱表示学习效率，为相似度计算和知识补全等工作提供帮助。

附图说明

图1为RDF三元组数据集表示形式；

图2为本发明进行分布式知识表示的总体流程图；

图3为本发明所构建框架的整体架构图；

图4为本发明所构建框架内的混合并行配置模块流程图；

图5为本发明所构建框架内的去中心化训练模块的分布式计算节点通信架构图；

图6为本发明所构建框架内的去中心化训练模块的参数更新流程图；

图7为本发明所构建框架内的分布式聚合执行模块的参数聚合流程图；

图8a和图8b为本发明所构建框架的文本条目与ID的映射实例图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出了一种大规模知识图谱表示学习的分布式框架构建方法。总体流程见图2，整体架构见图3，详见下文描述

步骤一，混和并行模式的配置

混和并行模式的配置是通过本发明的分布式框架对知识图谱进行知识表示学习的第一主要阶段。首先，从各大知识库平台，如FreeBase，WordNet等，下载需要进行训练的知识图谱数据。接下来对得到的数据进行数据预处理和混合并行初始化。具体的操作流程见图3。

负载分析：统计整个分布式集群中计算群组的数量，以及每个计算群组中计算节点的数量，从而每个计算群组的计算能力可以使用计算群组中的计算节点数表示。

数据映射：数据映射包括正向映射与反向映射。使用基于红黑树数据结构建立的map STL分别建立从entity文本条目和relation文本条目到ID的正向映射以及建立从ID到entity文本条目和relation文本条目的反向映射，从而使整个知识库中的实体和关系都有一条特有的文本表示与数字ID相对应的映射。映射部分结果如图8a和图8b所示。

数据切分：首先对整个数据集进行随机置乱处理，然后以负载分析阶段得到的每个计算群组的负载能力为依据对整个数据集进行切分。在一个总共有K个计算群组的系统中，数据集总数据量为N，第i个计算群组的负载能力用S_i表示，第j个计算群组的负载能力用S_j表示，则第j个计算群组所分得的训练数据量可以表示为

词频分析：对于切分后的数据块，通过词频分析得到每个实体或关系在各个数据块中的出现频率。例如，实体e在整个数据集中出现的频率为F，并且e在数据块D_j出现的频率为F_j，则在数据块D_j中实体e对应的词频权重为

从而得出每个数据块中各个实体或关系对应的词频权重。之后将这些切分好的数据集分配到对应的计算群组中。从而实现词频权重与计算群组的对应。

模型逻辑切分：在一个计算群组中通过将表示模型映射到不同的计算节点上，并且按照对应的偏移值排列，从而实现表示模型逻辑上的切分，在计算群组G_j中有T_j个计算节点，表示模型M中共含有COUNT(M)个参数，计算群组G_j中的p_i参数记为

其位置表示为

对应的计算节点号

和所在计算节点中的偏移量

可以用下列公式表示：

模型初始化：在不同的计算群组中，为了保证初始表示模型的一致性，相同的实体和关系拥有相同的初始向量表示。

步骤二，去中心化训练

通过去中心化的架构进行训练是知识表示学习分布式训练的第二主要阶段，将第一阶段得到的数据块加载到各个计算群组，通过映射文件实现数据集中文本条目到id转化，将训练数据加载到内存，为后续的训练做准备。在各个计算群组的每一轮的训练过程中，对各自数据块进行随机采样，构建正样本和负样本。在某一个计算群组中，如果某一节点构建的样本中实体或关系需要用到跨计算节点维护的表示模型向量，则可以自由的进行跨计算节点表示模型向量的收集，如图5图6所示，具体的方法是利用MPI(Message PassingInterface)即信息传递接口以及远程存储访问技术在每个计算节点上开辟一个共享窗口，并将当前计算节点维护的子模型放置到这个共享窗口中，其他计算节点就可以通过拉取远程计算节点中的共享窗口得到所需的表示模型向量，并且在训练结束后将更新后的表示模型向量再回放到其原来的计算节点的共享窗口中，保证后续的训练使用到最新的更新结果。

所以从全局来看，如图3所示，在每个计算群组中，计算节点同步的进行训练，每个计算节点产生的更新直接写入到对应计算节点所维护的子模型中，不需要中心节点进行调度。每个计算群组的公共信息块PIB中的信息为{(G_j,T_j)|j∈{0,1,…,K}}，在每一项中G_j表示计算群组号，T_j表示所在群中的计算节点数，K表示计算群组数。

步骤三分布式模型聚合

在每轮训练结束后，我们通分布式模型聚合将各个计算群组中各自训练出的表示模型副本进行统一。每个计算节点可以通过PIB中信息定位到其他计算群组中参数p_i的位置，即

其中

位于计算群组G_j中。之后计算节点之间独立通信收集所有的p_i进行融合形成新的参数p_i记为

融合函数为：

其中K为计算群组数，

表示参数

对应的实体或关系在Gi计算群组数据集中的词频权重。、

综上，通过上述方法构建的分布式框架结构如图3所示，总共有三个模块：

混合并行配置模块：即完成预处理阶段工作，混合并行配置模块是，如图4所示，首先对整个计算集群负载分析，在数据方面对RDF三元组进行编码，构建实体或关系到ID的映射，并且在数据切分之后对各个数据块进行词频分析；在表示模型方面，根据当前计算群组中的负载能力对表示模型进行逻辑切分，然后在各个计算节点上进行子模型初始化，完成对应子模型的构建。

去中心化训练模块：即进行分布式模型训练阶段，如图5所示，在整个计算架构中，不存在中心节点，每个计算节点可以独立自主的进行表示模型训练。在分布式模型训练更新方面，如图6所示，当前计算节点进行表示模型向量更新时，无论该表示模型被维护在本地还是在其他计算节点上，维护计算节点上的向量都会得到相应的更新；

分布式聚合执行模块：即进行分布式模型聚合阶段，设计的基于词频权重的分布式模型聚合算法，将各个计算群组中的表示模型作为输入，经过分布式聚合算法进行语义保留，得到一个统一的表示模型，如图7所示；

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种面向知识图谱表示学习的分布式框架构建方法，其特征在于，包括以下步骤：

(1)数据预处理：将分布式计算框架的计算集群初始化，将所有计算节点以自适应的规模进行分组，形成若干个计算群组；统计分析知识图谱数据中的实体和关系出现频率和相对位置的分布；以计算群组为单位统计每个计算群组中的计算节点数，从而取得每个计算群组的负载能力；进行RDF三元组的数据映射，建立原始字符串型数据到整数类型ID的哈希映射，映射后的RDF三元组参与后续处理；

(2)混合并行初始化：将RDF三元组按照每个计算群组的计算能力进行置乱切分并且分配到各个计算群组中；之后随机生成一组向量作为初始化的表示模型，并对该表示模型进行逻辑上的切分，并将逻辑切分结果发送到每个计算群组中，然后计算群组的每个计算节点根据逻辑切分结果进行本地子模型的构建；

(3)参数自适应传递：采用自适应的方法，各个计算节点根据每一轮的随机采样结果，自动在相关的计算节点上完成所需表示模型向量的收集；

(4)分布式模型训练：根据上述步骤完成共享参数的收集，然后在各个计算节点上分布式的建立对应的损失函数，计算出更新梯度并完成表示模型向量的训练；

(5)分布式模型聚合：在每一轮迭代训练之后，在每个计算群组中各个计算节点将所有实体或关系对应的向量表示，进行收集与合并。