CN111767411A - 知识图谱表示学习优化方法、设备及可读存储介质 - Google Patents
知识图谱表示学习优化方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111767411A CN111767411A CN202010621827.XA CN202010621827A CN111767411A CN 111767411 A CN111767411 A CN 111767411A CN 202010621827 A CN202010621827 A CN 202010621827A CN 111767411 A CN111767411 A CN 111767411A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge graph
- training sample
- learning
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000005457 optimization Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 349
- 238000004891 communication Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 22
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种知识图谱表示学习优化方法、装置、设备及可读存储介质,所述方法包括:从本地知识图谱数据集中确定训练样本集;基于所述训练样本集联合各所述其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型,其中,各所述其他数据端基于各自本地知识图谱数据集中确定的训练样本集参与联邦学习。本发明中,实现了在联合各个数据端的知识图谱数据集进行知识图谱表示模型的训练,提升模型的知识图谱表示效果的同时,保证了各个数据端的知识图谱数据集的隐私安全。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种知识图谱表示学习优化方法、设备及可读存储介质。
背景技术
大数据为深度学习带来了前所未有的机遇和发展,深度学习依赖于大数据的训练,往往能得到很好的结果。然而,在利用知识的先验性方面,深度学习往往具有局限性。而知识图谱是用于表征知识的一种语义网络,它表达了实体、概念及其之间的语义关联关系,将知识图谱和深度学习相结合是一个将知识的先验性和数据的关联性结合的一个方向。在这其中,知识图谱标识学习是一个具有重要意义的子方向,即研究如何将离散的符号化表示知识用连续数值表示。
目前存在多种表示学习方法,比如基于距离的学习方法,基于翻译的表示学习方法等,这些方法都需要大量的知识图谱数据才能够训练得到效果好的知识图谱表示学习模型。然而,在现实场景中,很少有企业能够拥有一个较完整覆盖领域较全的知识图谱,且一些垂直领域的知识图谱,往往具有隐私性,这些知识是不能共享出去的。这就导致每个企业只能通过自己的知识图谱来进行训练,这样训练出来的模型,往往效果不是很好。如何能够在不泄露隐私的情况下,共同进行知识图谱的表示学习,是一个痛点。
发明内容
本发明的主要目的在于提供一种知识图谱表示学习优化方法、设备及可读存储介质,旨在解决如何能够在不泄露隐私的情况下,共同进行知识图谱的表示学习的问题。
为实现上述目的,本发明提供一种知识图谱表示学习优化方法,所述方法应用于参与联邦学习的数据端,联邦学习架构中还包括参与联邦学习的其他数据端,所述方法包括以下步骤:
从本地知识图谱数据集中确定训练样本集;
基于所述训练样本集联合各所述其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型,其中,各所述其他数据端基于各自本地知识图谱数据集中确定的训练样本集参与联邦学习。
可选地,参与联邦学习的各数据端分别与服务端通信连接,所述从本地知识图谱数据集中确定训练样本集的步骤包括:
将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端;
将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本,将本地的所述知识图谱数据集中包含的三元组数据作为本地训练样本,将所述跨端训练样本和所述本地训练样本作为训练样本集。
可选地,所述将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端的步骤包括:
对本地知识图谱数据集中的各实体元素进行加密后,将所述知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的关系元素和加密态实体元素按照元素的数据来源分发给对应的数据端;
所述将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本的步骤包括:
接收所述服务端发送的所述扩展三元组数据中的关系元素和部分加密态实体元素;
对所述部分加密态实体元素进行解密得到部分实体元素,将所述关系元素和所述部分实体元素作为跨端训练样本。
可选地,所述基于所述训练样本集联合各所述其他数据端对待训练的知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型的步骤包括:
从所述训练样本集中选取参与新一轮联邦学习的训练样本批,将所述训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示;
将各所述向量表示发送给所述服务端,以供所述服务端基于从各数据端接收到的各向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端;
根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型,并检测是否满足联邦学习停止条件;
若检测到满足所述联邦学习停止条件,则停止联邦学习并将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
若检测到不满足所述联邦学习停止条件,则基于更新后的本地知识图谱表示学习模型,再执行所述步骤:从所述训练样本集中选取参与新一轮联邦学习的训练样本批。
为实现上述目的,本发明还提供一种知识图谱表示学习优化方法,所述方法应用于参与联邦学习的服务端,所述服务端与参与联邦学习的各数据端通信连接,所述方法包括以下步骤:
向各所述数据端发送新一轮联邦学习指令,以供所述数据端基于所述指令确定参与新一轮联邦学习的子训练样本批,将所述子训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中得到各元素对应的向量表示;
接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型;
当检测到满足联邦学习停止条件时,向各所述数据端发送停止联邦学习指令,以供所述数据端将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
当检测到不满足所述联邦学习停止条件时,基于更新后的本地知识图谱表示学习模型再执行所述步骤:向各所述数据端发送新一轮联邦学习指令。
可选地,所述方法还包括:
在联邦学习开始前,接收各所述数据端发送的各自本地的知识图谱数据集;
对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据和各知识图谱数据集中包含的三元组数据作为训练样本集;
所述向各所述数据端发送新一轮联邦学习指令的步骤包括:
从所述训练样本集中随机选取新一轮联邦学习的总训练样本批,并基于所述总训练样本批中各三元组数据的数据来源将所述总训练样本批划分为与各数据端对应的子训练样本批;
向各所述数据端发送新一轮联邦学习指令,其中,所述新一轮联邦学习指令中携带所述数据端对应的子训练样本批。
可选地,所述接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型的步骤包括:
接收各所述数据端发送的各加密向量表示;
基于各所述加密向量表示计算得到与各数据端的训练样本批中各三元组数据对应的加密损失;
将所述加密损失分发给对应三元组数据所在的数据端,以供所述数据端对从服务端接收到的加密损失进行解密后,基于解密结果更新所述本地知识图谱表示学习模型。
为实现上述目的,本发明还提供一种知识图谱表示学习优化设备,所述知识图谱表示学习优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识图谱表示学习优化程序,所述知识图谱表示学习优化程序被所述处理器执行时实现如上所述的知识图谱表示学习优化方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有知识图谱表示学习优化程序,所述知识图谱表示学习优化程序被处理器执行时实现如上所述的知识图谱表示学习优化方法的步骤。
本发明中,通过各个数据端从本地的知识图谱数据集中确定训练样本集,并采用各自的训练样本集参与联邦学习得到目标知识图谱表示学习模型,在联邦学习过程中,各个数据端之间并不是互相传递各自的知识图谱数据集,而是通过传递模型训练过程中的中间结果的方式来联合训练知识图谱表示学习模型,故并没有相互泄露各自知识图谱数据集中的隐私数据。因为联合各个数据端的知识图谱数据集进行知识图谱表示学习模型的训练,扩充了用于训练模型的训练数据的数据量,使得相比于以单个数据端的数据训练的模型,本发明中训练得到的模型具备更好的知识图谱表示效果。也即,本发明中,实现了在联合各个数据端的知识图谱数据集进行知识图谱表示模型的训练,提升模型的知识图谱表示效果的同时,保证了各个数据端的知识图谱数据集的隐私安全。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明知识图谱表示学习优化方法第一实施例的流程示意图;
图3为本发明各实施例涉及的一种知识图谱表示学习模型损失函数公式;
图4为本发明各实施例涉及的一种数据端联合训练知识图谱表示学习模型的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例知识图谱表示学习优化设备可以是智能手机、个人计算机和服务器等设备,在此不做具体限制。
如图1所示,该知识图谱表示学习优化设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对知识图谱表示学习优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及知识图谱表示学习优化程序。其中,操作系统是管理和控制设备硬件和软件资源的程序,支持知识图谱表示学习优化程序以及其它软件或程序的运行。
当图1所示的设备是参与联邦学习的数据端时,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与参与联邦学习的服务端和其他数据端建立通信连接;处理器1001可以用于调用存储器1005中存储的知识图谱表示学习优化程序,并执行以下操作:
从本地知识图谱数据集中确定训练样本集;
基于所述训练样本集联合各所述其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型,其中,各所述其他数据端基于各自本地知识图谱数据集中确定的训练样本集参与联邦学习。
进一步地,参与联邦学习的各数据端分别与服务端通信连接,所述从本地知识图谱数据集中确定训练样本集的步骤包括:
将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端;
将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本,将本地的所述知识图谱数据集中包含的三元组数据作为本地训练样本,将所述跨端训练样本和所述本地训练样本作为训练样本集。
进一步地,所述将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端的步骤包括:
对本地知识图谱数据集中的各实体元素进行加密后,将所述知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的关系元素和加密态实体元素按照元素的数据来源分发给对应的数据端;
所述将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本的步骤包括:
接收所述服务端发送的所述扩展三元组数据中的关系元素和部分加密态实体元素;
对所述部分加密态实体元素进行解密得到部分实体元素,将所述关系元素和所述部分实体元素作为跨端训练样本。
进一步地,所述基于所述训练样本集联合各所述其他数据端对待训练的知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型的步骤包括:
从所述训练样本集中选取参与新一轮联邦学习的训练样本批,将所述训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示;
将各所述向量表示发送给所述服务端,以供所述服务端基于从各数据端接收到的各向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端;
根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型,并检测是否满足联邦学习停止条件;
若检测到满足所述联邦学习停止条件,则停止联邦学习并将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
若检测到不满足所述联邦学习停止条件,则基于更新后的本地知识图谱表示学习模型,再执行所述步骤:从所述训练样本集中选取参与新一轮联邦学习的训练样本批。
当图1所示的设备是参与联邦学习的服务端时,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与参与联邦学习的各个数据端建立通信连接;处理器1001可以用于调用存储器1005中存储的知识图谱表示学习优化程序,并执行以下操作:
向各所述数据端发送新一轮联邦学习指令,以供所述数据端基于所述指令确定参与新一轮联邦学习的子训练样本批,将所述子训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中得到各元素对应的向量表示;
接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型;
当检测到满足联邦学习停止条件时,向各所述数据端发送停止联邦学习指令,以供所述数据端将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
当检测到不满足所述联邦学习停止条件时,基于更新后的本地知识图谱表示学习模型再执行所述步骤:向各所述数据端发送新一轮联邦学习指令。
进一步地,处理器1001还可以用于调用存储器1005中存储的知识图谱表示学习优化程序,执行以下操作:
在联邦学习开始前,接收各所述数据端发送的各自本地的知识图谱数据集;
对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据和各知识图谱数据集中包含的三元组数据作为训练样本集;
所述向各所述数据端发送新一轮联邦学习指令的步骤包括:
从所述训练样本集中随机选取新一轮联邦学习的总训练样本批,并基于所述总训练样本批中各三元组数据的数据来源将所述总训练样本批划分为与各数据端对应的子训练样本批;
向各所述数据端发送新一轮联邦学习指令,其中,所述新一轮联邦学习指令中携带所述数据端对应的子训练样本批。
进一步地,所述接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型的步骤包括:
接收各所述数据端发送的各加密向量表示;
基于各所述加密向量表示计算得到与各数据端的训练样本批中各三元组数据对应的加密损失;
将所述加密损失分发给对应三元组数据所在的数据端,以供所述数据端对从服务端接收到的加密损失进行解密后,基于解密结果更新所述本地知识图谱表示学习模型。
基于上述的结构,提出知识图谱表示学习优化方法的各实施例。
参照图2,图2为本发明知识图谱表示学习优化方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明知识图谱表示学习优化方法第一实施例应用于参与联邦学习的数据端,联邦学习架构中还包括参与联邦学习的其他数据端。各个实施例中涉及的各数据端和服务端可以是智能手机、个人计算机和服务器等设备。在本实施例中,知识图谱表示学习优化方法包括:
步骤S10,从本地知识图谱数据集中确定训练样本集;
在本实施例中,各个数据端拥有各自的知识图谱数据集,具体地,可以是各个数据端本地存储有该知识图谱数据集,也可以是数据端可从其他可信方获取该知识图谱数据集。各数据端的知识图谱数据集中具体的数据不相同,例如,不同的数据端部署于不同企业,则各个知识图谱数据集可能来源于不同业务场景,数据端A部署与银行,其拥有的知识图谱数据集是基于银行的信贷业务数据构建的,数据端B部署于社交软件运营公司,其拥有的知识图谱数据集是基于用户社交数据构建的。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成,在本实施例中,将各个节点和边统称为知识图谱中的元素,那么知识图谱数据集中包括知识图谱中各个元素对应的具体数据。知识图谱数据集中各类数据在存储空间中的组织结构在本实施例中并不做限制。基于知识图谱中点与边的关系,知识图谱中元素的逻辑组织形式可以三元组来体现,三元组对应图谱中的两个节点以及两个节点之间的边,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。那么,对应地,从知识图谱数据集中可提取出多条三元组数据,例如,(张三,姐妹,李四)是一条(实体1-关系-实体2)形式的三元组数据,(张三,职业,歌手)是一条(实体-属性-属性值)形式的三元组数据。
单个数据端的知识图谱数据集在数据量上可能达不到使得模型得以充分训练的需求,或者单个数据端的知识图谱数据集在知识种类上可能比较单一,因此,基于单个数据端的知识图谱数据集训练知识图谱表示模型的效果可能不佳,为扩充训练数据的数据量以及丰富训练数据的种类,本实施例中,可联合各个数据端的知识图谱数据集来训练知识图谱表示学习模型。
知识图谱表示学习模型用于将知识图谱中离散型数据表示的元素,转化为连续数值型的向量表示,基于转换得到的低维稠密的向量表示,可结合深度学习模型等复杂模型来解决具体领域的具体问题。例如,在反欺诈应用场景,可基于知识图谱所描绘的社交关系分析和预测用户的欺诈可能性,基于知识图谱表示学习转换得到的向量表示,更加利于采用深度学习模型等复杂模型来做分析和预测。
具体地,各个数据端中可在本地设置初始待训练的知识图谱表示学习模型,即本地知识图谱表示学习模型(以下或简称本地模型)。各个数据端可以基于相同的表示学习方法构建本地模型的模型结构,那么,各个数据端的本地模型在模型结构上可以完全相同,或者也可以存在一些差异,在此不作限制。表示学习方法可以是采用现有的知识图谱表示学习方法中的任一种,例如基于距离的表示学习方法和基于翻译的表示学习方法等,在此不作限制。若各数据端联合建模的过程中有服务端的参与,则也可以由服务端构建初始模型后,将初始模型下发给各个数据端。
数据端可从本地的知识图谱数据集中确定训练样本集,以用于训练本地模型。具体地,数据端可从本地的知识图谱数据集中提取出各个三元组数据,将每个三元组数据作为一条训练样本,由多条训练样本组合训练样本集。
步骤S20,基于所述训练样本集联合各所述其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型,其中,各所述其他数据端基于各自本地知识图谱数据集中确定的训练样本集参与联邦学习。
数据端在确定训练样本集后,基于该训练样本集联合其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型。也即,每个数据端采用各自的训练样本参与联邦学习,对各自的本地模型进行训练,最终得到目标知识图谱表示学习模型。其中,各个数据端联合进行联邦学习的模式可以是现有的横向联邦学习模式。
具体地,在横向联邦学习模式下,各个数据端分别与服务端通信连接,其中,服务端可以是独立于各个数据端的第三方,也可以是在各个数据端中具备公信力的一个数据端。一轮联邦学习过程可以是:数据端先采用训练样本集对本地模型进行本地训练,得到本地模型更新,其中,本地模型更新可以是各个模型参数的梯度值或更新后的模型参数;各数据端将各自的本地模型更新上发给服务端,由服务端对各个数据端的本地模型更新进行联邦平均,得到全局模型更新,并将全局模型更新发送给各个数据端,具体地,服务端将各个数据端发送的梯度值进行平均,或者是将各个数据端发送的更新后的模型参数进行平均;数据端在接收到全局模型更新后,基于全局模型更新对本地模型进行更新,得到更新后的本地模型,具体地,数据端采用全局梯度值来更新本地模型的参数,或者是采用全局模型参数作为本地模型更新后的参数。
需要说明的是,各数据端进行本地训练的过程可以采用现有的知识图谱表示学习模型的训练方法,例如,基于距离的表示学习方法和基于翻译的表示学习方法等,在此不进行详细赘述。
经过多轮联邦学习后,服务端检测到满足联邦学习停止条件时,可向各数据端发送停止指令,各数据端根据停止指令,将当前更新后的本地模型作为目标知识图谱表示学习模型。其中,联邦学习停止条件可以是检测到模型收敛,或检测到联邦学习轮次大于一个最大轮次,或者检测到联邦学习时长大于一个最大时长。
在本实施例中,通过各个数据端从本地的知识图谱数据集中确定训练样本集,并采用各自的训练样本集参与联邦学习得到目标知识图谱表示学习模型,在联邦学习过程中,各个数据端之间并不是互相传递各自的知识图谱数据集,而是通过传递模型训练过程中的中间结果的方式来联合训练知识图谱表示学习模型,故并没有相互泄露各自知识图谱数据集中的隐私数据。因为联合各个数据端的知识图谱数据集进行知识图谱表示学习模型的训练,扩充了用于训练模型的训练数据的数据量,使得相比于以单个数据端的数据训练的模型,本实施例中训练得到的模型具备更好的知识图谱表示效果。也即,本实施例中,实现了在联合各个数据端的知识图谱数据集进行知识图谱表示模型的训练,提升模型的知识图谱表示效果的同时,保证了各个数据端的知识图谱数据集的隐私安全。
进一步地,基于上述第一实施例,提出本发明知识图谱表示学习优化方法第二实施例,在本实施例中,参与联邦学习的各数据端分别与服务端通信连接,所述步骤S10中,从本地知识图谱数据集中确定训练样本集的步骤包括:
步骤S101,将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端;
在本实施例中,数据端本地的知识图谱数据集可以是经过知识推理,进行扩展之后的知识图谱数据集。各个数据端的知识图谱数据集互相之间是独立构建的,没有经过知识推理,为进一步地扩充知识图谱中的知识,可由各个数据端将本地的知识图谱数据集上发至可信的服务端,由服务端对各个数据端的知识图谱数据集进行知识推理,基于各个数据集之间的数据的关联性挖掘出隐藏的知识,以扩充模型训练数据的数据量。其中,服务端可以是独立于各个数据端的可信第三方服务端,也可以是由各个数据端中具有公信力的一个数据端作为服务端。
具体地,服务端在接收到各个数据端发送的知识图谱数据集后,可对各个知识图谱数据集中包含的三元组数据进行知识推理,得到扩展三元组数据。其中,服务端可以先对各个知识图谱数据集中的三元组数据进行对齐操作;对齐操作可以是将不同知识图谱数据集中包含有同一实体元素的多个三元组数据进行对齐;例如,数据端1的数据集中包含一条三元组数据(A,女儿,C),数据端2的数据集中包含一条三元组数据(B,女儿,C),这两条三元组数据中都包含C这一实体元素,故将这两个三元组数据进行对齐;再基于对齐的多个三元组数据进行知识推理得到扩展三元组数据,知识推理的方法可采用现有构建知识图谱方法中的知识推理方法,在此不作详细赘述;例如,对于上述(A,女儿,C)和(B,女儿,C)两条三元组数据,可以推理得到(A,姐妹,B)这一扩展三元组数据。
扩展三元组数据可作为一条训练样本,但是该扩展三元组数据并不能全部发送给各个数据端,因为数据端可能基于扩展三元组数据反推出其他数据端的三元组数据。例如若数据端1获得(A,姐妹,B)这一扩展三元组数据,则可能基于(A,姐妹,B)和本地的(A,女儿,C),反推出数据端2中的(B,女儿,C)。
因此,在本实施例中,服务端可将扩展三元组数据中的元素按照该元素的来源,发送给对应的数据端,也即该元素来源于哪个数据端,就将该元素发送给哪个数据端。其中,扩展三元组数据是由至少两个数据端推理得到的,其中的两个实体元素是分别来自于两个不同的数据端的,例如,上述扩展三元组数据(A,姐妹,B)中的A和B是实体元素,A来自于数据端1,B来自于数据端2;其中的关系元素则是推理出的,则可认为该关系元素是来自于其中一个数据端,也可以是认为该关系元素来自于两个数据端,例如,上述扩展三元组数据(A,姐妹,B)中“姐妹”是关系元素,可认为其来自于数据端1或2,也可认为其来自与数据端1和2,择其一即可。例如,当服务端选择确定关系元素来来源于两个数据端时,对于(A,姐妹,B)这一扩展三元组数据,服务端可将实体元素A和关系元素“姐妹”下发数据端1,将实体元素B和关系元素“姐妹”下发数据端2。
可以理解的是,服务端是将扩展三元组数据中的部分元素下发给一个数据端,部分元素下发给另一数据端,两个数据端接收到的元素组合起来构成该扩展三元组数据。
进一步地,服务端下发三元组数据即是告知各个数据端,进行知识推理后扩展出了哪些三元组数据。那么,为便于后续采用扩展三元组数据训练模型,服务端可对扩展三元组数据以及各个知识图谱数据集中的三元组数据进行编号,服务端可在下发扩展三元组数据时,也下发各条三元组数据的编号,以便服务端和数据端之间在联合训练时可通过编号对训练样本对齐。
步骤S102,将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本,将本地的所述知识图谱数据集中包含的三元组数据作为本地训练样本,将所述跨端训练样本和所述本地训练样本作为训练样本集。
数据端接收服务端下发的扩展三元组数据中的部分元素。数据端将接收到的扩展三元组数据中的部分元素作为跨端训练样本,也即,只拥有一条完整训练样本的一部分,还有一部分在另外的数据端中,故称为跨端训练样本。并将本地的知识图谱数据集中包含的三元组数据作为本地训练样本。可以理解的是,服务端知识推理得到的扩展三元组数据至少有一个,也即可能有多个,数据端的知识图谱数据集中的三元组数据也是有多个,一条三元组数据对应一个训练样本,数据端最终得到多条跨端训练样本和多条本地训练样本。数据端将跨端训练样本和本地训练样本作为训练样本集,也即,训练样本集中包含多条跨端训练样本和多条本地训练样本。
进一步地,当数据端采用包含跨端训练样本的训练样本集与其他数据端进行联邦学习时,对于本地训练样本的部分可采用横向联邦学习模式;对于跨端训练样本的部分则可以采用传统的纵向联邦学习模式,也即,可以看做是两个数据端分别拥有一个训练样本的一部分数据,两方计算各自的损失和梯度时需要用到对方的那一部分数据,而为了避免直接传递数据导致隐私泄露,双方可采用自己那部分的数据计算一个中间结果,将这个中间结果传递给另一方,以供另一方根据这个中间结果计算损失和梯度,进而根据梯度更新模型参数。具体的纵向联邦学习过程可基于上述纵向联邦学习模式的原理,参照传统的纵向联邦学习模式,在此不进行详细赘述。
在本实施例中,通过各个数据端向可信的服务端发送各自的知识图谱数据集,由服务端基于各个知识图谱数据集进行知识推理,挖掘出不同知识图谱数据集之间的隐藏知识,也即扩展三元组数据,实现了在数据端之间互相不泄露隐私的情况下跨端进行知识推理。并通过服务端将扩展三元组数据下发至各个数据端,使得各个数据端联合可采用扩展三元组数据来进行知识图谱表示学习模型的训练,扩充了模型训练数据的数据量,进而提高了模型的知识图谱表示学习效果。并且,服务端是将扩展三元组数据中的元素按照其来源下发给对应的数据端,避免了数据端获取到其他数据端的隐私数据,也就进一步地保障了数据端联合建模过程中的隐私安全。
进一步地,在一些应用场景下,第三方服务端可能不具备公信力或者无法找到可行的第三方服务端,在这种场景下,为保障数据端的隐私数据不会相互之间泄露的同时,也不会泄露给服务端,在一实施方式中,所述步骤S101包括:
步骤S1011,对本地知识图谱数据集中的各实体元素进行加密后,将所述知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的关系元素和加密态实体元素按照元素的数据来源分发给对应的数据端;
数据端可对本地知识图谱数据集中的各个实体元素进行加密。具体地,知识图谱数据集中包含各个元素的数据,数据端对其中的实体元素进行加密,加密可采用常用的加密算法,在此不作限制。数据端将实体元素加密后,将知识图谱数据集发送给服务端,也即,发送给服务端的数据集中的实体元素是处于加密态的。
服务端在接收到各个数据端发送的知识图谱数据集后,对各个知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据。可以理解的是,两个相同的实体元素,加密后的结果也是相同的,故服务端在对各个数据端的知识图谱数据集按照实体元素进行对齐时,并不会受加密的影响,而由于关系元素并没有加密,所以也不会影响服务端根据关系元素进行知识推理。服务端得到的扩展三元组数据中,关系元素是明文状态的,实体元素则仍然是加密态的。服务端按照扩展三元组数据中元素的数据来源,将各元素分发给对应的数据端,也即将关系元素和加密态实体元素按照其数据来源分发给对应的数据端。
所述步骤S102中将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本的步骤包括:
步骤S1021,接收所述服务端发送的所述扩展三元组数据中的关系元素和部分加密态实体元素;
步骤S1022,对所述部分加密态实体元素进行解密得到部分实体元素,将所述关系元素和所述部分实体元素作为跨端训练样本。
数据端接收服务端发送的扩展三元组数据中的关系元素和部分加密态实体元素,其中,部分加密态实体元素是指扩展三元组数据的两个实体元素中其中一个实体元素的加密态。
数据端对部分加密态实体元素进行解密得到部分实体元素。具体地,数据端可采用与加密实体元素时采用的加密算法对应的解密算法来进行解密。在得到部分实体元素后,数据端将关系元素和部分实体元素作为跨端训练样本。
可以理解的是,知识图谱数据集中的实体元素一般是隐私数据,实体元素与实体元素之间的关系也是隐私数据,而服务端接收到的知识图谱数据集中实体元素是加密态的,故没有向服务端泄露各个数据端的实体元素中的隐私;而虽然关系元素是明文状态的,但服务端基于加密态的实体元素,也无法获知实体元素与实体元素之间的关系;并且,通过对关系数据保持明文状态传递给服务端,使得服务端的知识推理过程不会受到影响。
进一步地,基于上述第一和/或二实施例,提出本发明知识图谱表示学习优化方法第三实施例。在本实施例中,所述步骤S20包括:
步骤S201,从所述训练样本集中选取参与新一轮联邦学习的训练样本批,将所述训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示;
由于数据端的训练样本集中,可能包含本地训练样本(训练样本对应的三元组数据全部在本地),也可能包含跨端训练样本(训练样本对应的三元组数据的一部分元素在本地,一部分元素在另一数据端),为联合各个数据端两种训练样本来进行联合知识图谱表示学习模型的建模,在本实施例中,利用知识图谱表示学习模型的特点,提出一种与传统横向联邦学习模式和传统纵向联邦学习模式都不同的联邦学习模式。
具体地,数据端在从本地知识图谱数据集中确定训练样本集后,在新一轮联邦学习开始时,数据端可从训练样本集中选取用于参与新一轮联邦学习的训练样本批,其中,训练样本批中的数据量小于训练样本集中的数据量。
具体可以是由各个数据端从各自的训练样本集中随机选取一些训练样本作为训练样本批;也可以是在服务端有各个数据端的训练样本集构成的总训练样本集时,由服务端从总训练样本集中随机选取一些训练样本作为总训练样本批,并根据这些训练样本的来源,将总训练样本批中的各个训练样本发送给对应的数据端,或者是将训练样本的编号发送各对应的数据端,数据端根据获取到的训练样本或编号,从本地的训练样本集中确定参与新一轮联邦学习的训练样本批。
例如,在第二实施例的基础上,服务端中记录了各个数据端的知识图谱数据集,以及扩展三元组数据,服务端可在每一轮联邦学习开始时,从各个知识图谱数据集中的三元组数据和扩展三元组数据中,随机选取一批三元组数据,作为总训练样本批,并将这些三元组数据的编号,按照三元组数据的来源发送给对应的数据端。对于扩展三元组数据,则将该扩展三元组数据的编号发送给两个数据端,也即以该扩展三元组数据的部分元素作为跨端训练样本的两个数据端。数据端接收到编号后,根据编号从训练样本集中查找到对应的训练样本,其中可能既包括本地训练样本也包括跨端训练样本。
数据端在确定训练样本批后,将训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示。其中,知识图谱表示学习模型的输入数据是知识图谱中的元素,输出数据是该元素的向量表示,元素可以是知识图谱中的各种元素,也即,三元组数据中的元素是分别输入模型的,不要求三元组数据都在同一数据端。利用该特点,当训练样本批中包括跨端训练样本时,数据端可将该跨端训练样本中包括的三元组数据的部分元素分别输入本地模型,由拥有该三元组数据的另一部分元素的另一数据端将另一部分元素输入该数据端的本地模型。利用该特点,数据端可将各个三元组数据中的元素分别输入本地模型,得到各个元素的向量表示,对于具有相同元素的两条三元组数据,只需将该相同的元素输入一次即可。
步骤S202,将各所述向量表示发送给所述服务端,以供所述服务端基于从各数据端接收到的各向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端;
数据端在得到训练样本批中所包含的各个元素的向量表示后,可将各个向量表示发送给服务端。在服务端不属于可信方的场景,数据端也可对各个向量表示进行加密,将加密后的向量表示发送给服务端。加密算法可采用同态加密,同态加密算法的特点是对经过加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。
服务端在接收到各个数据端发送的向量表示后,可将各个向量表示以三元组数据为单位计算损失,也即,每条三元组数据对应一个损失。具体地,知识图谱表示学习模型的损失函数是以三元组为单位计算的,例如,图3所示为基于翻译的表示学习方法对应的损失函数,其中,L是总损失,(subi,reli,reli)是一条三元组数据,i是三元组数据的标号,si是主体subi的向量表示,ri是关系reli的向量表示,oi是客体obji的向量表示。对于跨端训练样本对应的三元组数据,该三元组数据的元素对应的向量表示来自不同的两个数据端,服务端可基于从两个数据端接收到的该三元组数据的元素的向量表示,来计算该三元组数据对应的损失。当两个数据端都拥有该三元组数据中的关系元素时,服务端可对从两个数据端接收到的该关系元素的向量表示计算平均,以平均结果作为该关系元素的最终向量表示。例如,一条三元组数据为(A,姐妹,B),数据端1拥有实体元素A和关系元素“姐妹”,数据端2拥有实体元素B和关系元素“姐妹”;数据端1将A的向量表示和“姐妹”的向量表示发送给服务端,数据端2将B的向量表示和“姐妹”的向量表示发送给服务端;服务端将“姐妹”对应的两个向量表示进行平均,得到“姐妹”的最终向量表示,再基于A、“姐妹”和B三者的向量表示,计算该三元组数据对应的损失。
服务端将损失发送给该损失对应的三元组数据所在的数据端。对于数据端的本地训练样本,服务端将该本地训练样本对应的损失发送给该数据端,对于跨端训练样本,则服务端将该跨端训练样本对应的损失发送给两个数据端。
由于数据端在采用跨端训练样本训练本地模型时,需要用到跨端训练样本对应的三元组数据中另一部分元素来计算损失,进而根据损失更新模型,故,在本实施例中,通过由服务端接收各个数据端发送的向量表示,基于向量表示计算损失并下发的方式,避免了数据端之间直接传递三元组数据,从而避免了数据端之间隐私泄露。
步骤S203,根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型,并检测是否满足联邦学习停止条件;
数据端接收到服务端发送的损失后,可基于损失更新本地模型。具体地,数据端可基于损失按照链式法则,计算得到本地模型的各个模型参数对应的梯度,再根据梯度更新本地模型的各个模型参数,从而实现了对本地模型的更新。其中,基于损失计算梯度,基于梯度更新模型参数的具体过程可参照现有的机器学习模型训练方法中的链式法则和梯度下降算法,在此不进行详细赘述。
数据端在更新本地模型后,可检测是否满足联邦学习停止条件。具体地,可由各个数据端分别检测是否满足联邦学习停止条件,其中,联邦学习停止条件可以是检测到本地模型收敛,或者是检测到联邦学习轮次大于一个最大轮次,或者是检测到联邦学习时长大于一最大时长。还可以是由服务端检测是否满足联邦学习停止条件,若满足联邦学习停止条件,则发送停止指令给数据端;若数据端接收到停止指令,则确定满足联邦学习停止条件,若未收到停止指令,则确定不满足联邦学习停止条件。服务端的联邦学习停止条件可以是检测到总损失小于一个预设阈值,也可以是检测到联邦学习轮次大于一个最大轮次,或者是检测到联邦学习时长大于一最大时长。
步骤S204,若检测到满足所述联邦学习停止条件,则停止联邦学习并将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
步骤S205,若检测到不满足所述联邦学习停止条件,则基于更新后的本地知识图谱表示学习模型,再执行所述步骤:从所述训练样本集中选取参与新一轮联邦学习的训练样本批。
若数据端检测到满足联邦学习停止条件,则停止联邦学习,并将当前更新后的本地模型作为目标知识图谱表示学习模型。若数据端检测到不满足联邦学习停止条件,则在当前更新后的本地模型基础上,再从训练样本集中选取参与下一轮联邦学习的训练样本批,继续下一轮的联邦学习。
需要说明的是,若服务端接收到的向量表示是经过同态加密的,则基于同态加密的原理,基于加密态的向量表示计算得到的损失也是加密态的,服务端将加密态的损失发送给数据端,再由数据端对加密态的损失进行解密,得到明文状态的损失,进而可以根据损失更新模型。整个过程中,服务端获取到的加密的向量表示,从而不会泄露数据端的隐私数据给服务端,保证了数据端的知识图谱数据的隐私安全。
与传统横向联邦学习模式中,各个数据端将模型参数或梯度上方服务端,由服务端进行联邦平均的方式不同,与传统纵向联邦学习中,各个数据端只能采用用户对齐的样本(跨端训练样本)进行纵向联邦,由各个数据端相互发送用于计算梯度的中间结果也不同,在本实施例中,由服务端计算各个数据端的训练样本批中各三元组数据对应的损失,并将损失发送给对应三元组数据所在的数据端,使得各个数据端可根据损失更新各自的本地模型的参数。基于该方法,数据端可同时既包括本地训练样本又包括跨端训练样本的训练样本批参与联邦学习。本实施例中,实现了各个数据端采用各自的知识图谱数据集联合训练知识图谱表示学习模型,扩充了知识图谱表示学习模型的训练数据量,从而提高了模型的知识图谱表示效果,并且实现了当三元组数据在不同的数据端中时,也能够利用该三元组数据来参与知识图谱表示学习模型训练,进一步地扩充了训练数据的数据量。
进一步地,基于上述第一、第二和/或第三实施例,提出本发明知识图谱表示学习优化方法第四实施例。在本实施例中,所述方法应用于参与联邦学习的服务端,所述服务端与参与联邦学习的各个数据端通信连接,所述方法包括:
步骤A10,向各所述数据端发送新一轮联邦学习指令,以供所述数据端基于所述指令确定参与新一轮联邦学习的子训练样本批,将所述子训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中得到各元素对应的向量表示;
由于数据端的训练样本集中,可能包含本地训练样本(训练样本对应的三元组数据全部在本地),也可能包含跨端训练样本(训练样本对应的三元组数据的一部分元素在本地,一部分元素在另一数据端),为联合各个数据端两种训练样本来进行联合知识图谱表示学习模型的建模,在本实施例中,利用知识图谱表示学习模型的特点,提出一种与传统横向联邦学习模式和传统纵向联邦学习模式都不同的联邦学习模式。
具体地,在新一轮联邦学习开始时,服务端可向各个数据端发送新一轮联邦学习指令。各个数据端在接收到新一轮联邦学习指令后,根据该指令确定参与新一轮联邦学习的子训练样本批。具体地,数据端可从本地的知识图谱数据集中确定训练样本集,并从训练样本集中选取用于参与新一轮联邦学习的子训练样本批,其中,子训练样本批中的数据量小于训练样本集中的数据量。
具体可以是由各个数据端从各自的训练样本集中随机选取一些训练样本作为子训练样本批;也可以是在服务端有各个数据端的训练样本集构成的总训练样本集时,由服务端从总训练样本集中随机选取一些训练样本作为总训练样本批,并根据这些训练样本的来源,将总训练样本批中的各个训练样本发送给对应的数据端,或者是将训练样本的编号发送各对应的数据端,数据端根据获取到的训练样本或编号,从本地的训练样本集中确定参与新一轮联邦学习的子训练样本批。
数据端在确定训练样本批后,将训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示。其中,知识图谱表示学习模型的输入数据是知识图谱中的元素,输出数据是该元素的向量表示,元素可以是知识图谱中的各种元素,也即,三元组数据中的元素是分别输入模型的,不要求三元组数据都在同一数据端。利用该特点,当训练样本批中包括跨端训练样本时,数据端可将该跨端训练样本中包括的三元组数据的部分元素分别输入本地模型,由拥有该三元组数据的另一部分元素的另一数据端将另一部分元素输入该数据端的本地模型。利用该特点,数据端可将各个三元组数据中的元素分别输入本地模型,得到各个元素的向量表示,对于具有相同元素的两条三元组数据,只需将该相同的元素输入一次即可。
数据端在得到训练样本批中所包含的各个元素的向量表示后,可将各个向量表示发送给服务端。
步骤A20,接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型;
服务端在接收到各个数据端发送的向量表示后,可将各个向量表示以三元组数据为单位计算损失,也即,每条三元组数据对应一个损失。具体地,知识图谱表示学习模型的损失函数是以三元组为单位计算的。对于跨端训练样本对应的三元组数据,该三元组数据的元素对应的向量表示来自不同的两个数据端,服务端可基于从两个数据端接收到的该三元组数据的元素的向量表示,来计算该三元组数据对应的损失。当两个数据端都拥有该三元组数据中的关系元素时,服务端可对从两个数据端接收到的该关系元素的向量表示计算平均,以平均结果作为该关系元素的最终向量表示。例如,一条三元组数据为(A,姐妹,B),数据端1拥有实体元素A和关系元素“姐妹”,数据端2拥有实体元素B和关系元素“姐妹”;数据端1将A的向量表示和“姐妹”的向量表示发送给服务端,数据端2将B的向量表示和“姐妹”的向量表示发送给服务端;服务端将“姐妹”对应的两个向量表示进行平均,得到“姐妹”的最终向量表示,再基于A、“姐妹”和B三者的向量表示,计算该三元组数据对应的损失。
服务端将损失发送给该损失对应的三元组数据所在的数据端。对于数据端的本地训练样本,服务端将该本地训练样本对应的损失发送给该数据端,对于跨端训练样本,则服务端将该跨端训练样本对应的损失发送给两个数据端。
由于数据端在采用跨端训练样本训练本地模型时,需要用到跨端训练样本对应的三元组数据中另一部分元素来计算损失,进而根据损失更新模型,故,在本实施例中,通过由服务端接收各个数据端发送的向量表示,基于向量表示计算损失并下发的方式,避免了数据端之间直接传递三元组数据,从而避免了数据端之间隐私泄露。
服务端在下发损失后,可检测是否满足联邦学习停止条件,该联邦学习停止条件可以是检测到总损失小于一个预设阈值,也可以是检测到联邦学习轮次大于一个最大轮次,或者是检测到联邦学习时长大于一最大时长。
数据端接收到服务端发送的损失后,可基于损失更新本地模型。具体地,数据端可基于损失按照链式法则,计算得到本地模型的各个模型参数对应的梯度,再根据梯度更新本地模型的各个模型参数,从而实现了对本地模型的更新。其中,基于损失计算梯度,基于梯度更新模型参数的具体过程可参照现有的机器学习模型训练方法中的链式法则和梯度下降算法,在此不进行详细赘述。
步骤A30,当检测到满足联邦学习停止条件时,向各所述数据端发送停止联邦学习指令,以供所述数据端将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
步骤A40,当检测到不满足所述联邦学习停止条件时,基于更新后的本地知识图谱表示学习模型再执行所述步骤:向各所述数据端发送新一轮联邦学习指令。
当服务端检测到满足联邦学习停止条件时,可向数据端发送停止联邦学习指令,数据端接收到停止指令后,停止联邦学习,并将当前更新后的本地模型作为目标知识图谱表示学习模型。
当服务端检测到满足不联邦学习停止条件时,可再次向数据端发送新一轮联邦学习指令,使得数据端在当前更新后的本地模型基础上,再从训练样本集中选取参与下一轮联邦学习的子训练样本批,继续下一轮的联邦学习。
与传统横向联邦学习模式中,各个数据端将模型参数或梯度上方服务端,由服务端进行联邦平均的方式不同,与传统纵向联邦学习中,各个数据端只能采用用户对齐的样本(跨端训练样本)进行纵向联邦,由各个数据端相互发送用于计算梯度的中间结果也不同,在本实施例中,由服务端计算各个数据端的训练样本批中各三元组数据对应的损失,并将损失发送给对应三元组数据所在的数据端,使得各个数据端可根据损失更新各自的本地模型的参数。基于该方法,数据端可同时既包括本地训练样本又包括跨端训练样本的训练样本批参与联邦学习。本实施例中,实现了各个数据端采用各自的知识图谱数据集联合训练知识图谱表示学习模型,扩充了知识图谱表示学习模型的训练数据量,从而提高了模型的知识图谱表示效果,并且实现了当三元组数据在不同的数据端中时,也能够利用该三元组数据来参与知识图谱表示学习模型训练,进一步地扩充了训练数据的数据量。并且,在联合进行知识图谱表示学习过程中,数据端之间并未直接传递知识图谱数据集,而是通过服务端传递损失,避免了数据端互相之间隐私泄露。
进一步地,在一实施方式中,所述方法还包括:
步骤A50,在联邦学习开始前,接收各所述数据端发送的各自本地的知识图谱数据集;
在本实施例中,数据端本地的知识图谱数据集可以是经过知识推理,进行扩展之后的知识图谱数据集。各个数据端的知识图谱数据集互相之间是独立构建的,没有经过知识推理,为进一步地扩充知识图谱中的知识,可由各个数据端将本地的知识图谱数据集上发至可信的服务端,由服务端对各个数据端的知识图谱数据集进行知识推理,基于各个数据集之间的数据的关联性挖掘出隐藏的知识,以扩充模型训练数据的数据量。其中,服务端可以是独立于各个数据端的可信第三方服务端,也可以是由各个数据端中具有公信力的一个数据端来作为服务端。
步骤A60,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据和各知识图谱数据集中包含的三元组数据作为训练样本集;
具体地,服务端在接收到各个数据端发送的知识图谱数据集后,可对各个知识图谱数据集中包含的三元组数据进行知识推理,得到扩展三元组数据。其中,服务端可以先对各个知识图谱数据集中的三元组数据进行对齐操作;对齐操作可以是将不同知识图谱数据集中包含有同一实体元素的多个三元组数据进行对齐;例如,数据端1的数据集中包含一条三元组数据(A,女儿,C),数据端2的数据集中包含一条三元组数据(B,女儿,C),这两条三元组数据中都包含C这一实体元素,故将这两个三元组数据进行对齐;再基于对齐的多个三元组数据进行知识推理得到扩展三元组数据,知识推理的方法可采用现有构建知识图谱方法中的知识推理方法,在此不作详细赘述;例如,对于上述(A,女儿,C)和(B,女儿,C)两条三元组数据,可以推理得到(A,姐妹,B)这一扩展三元组数据。
服务端在推理得到扩展三元组数据后,可将扩展三元组数据和各知识图谱数据集中包含的三元组数据作为训练样本集。具体地,将每条训练样本作为训练样本集中的一个训练样本,该训练样本集即为基于各个数据端的知识图谱数据集构建的整个训练数据集。
所述步骤A10中,向各所述数据端发送新一轮联邦学习指令的步骤包括:
步骤A101,从所述训练样本集中随机选取新一轮联邦学习的总训练样本批,并基于所述总训练样本批中各三元组数据的数据来源将所述总训练样本批划分为与各数据端对应的子训练样本批;
在每次开始新一轮联邦学习时,服务端可从该训练样本集中随机选取一些训练样本,作为总训练样本批。总训练样本批中的三元组数据是来自于不同的数据端的,服务端可将总训练样本批按照三元组数据的数据来源划分为与各个数据端对应的子训练样本批。
对于扩展三元组数据,该扩展三元组数据并不能全部发送给各个数据端,因为数据端可能基于扩展三元组数据反推出其他数据端的三元组数据。例如若数据端1获得(A,姐妹,B)这一扩展三元组数据,则可能基于(A,姐妹,B)和本地的(A,女儿,C),反推出数据端2中的(B,女儿,C)。
因此,在本实施例中,服务端可将扩展三元组数据中的元素按照该元素的来源,划分到对应的数据端,也即该元素来源于哪个数据端,就将该元素划到哪个数据端对应的子训练样本批。其中,扩展三元组数据是由至少两个数据端推理得到的,其中的两个实体元素是分别来自于两个不同的数据端的,例如,上述扩展三元组数据(A,姐妹,B)中的A和B是实体元素,A来自于数据端1,B来自于数据端2;其中的关系元素则是推理出的,则可认为该关系元素是来自于其中一个数据端,也可以是认为该关系元素来自于两个数据端,例如,上述扩展三元组数据(A,姐妹,B)中“姐妹”是关系元素,可认为其来自于数据端1或2,也可认为其来自与数据端1和2,择其一即可。例如,当服务端选择确定关系元素来来源于两个数据端时,对于(A,姐妹,B)这一扩展三元组数据,服务端可将实体元素A和关系元素“姐妹”作为一个跨端训练样本,划分到数据端1对应的子训练样本批,将实体元素B和关系元素“姐妹”作为一个跨端训练样本,划分到数据端2对应的子训练样本批。
步骤A102,向各所述数据端发送新一轮联邦学习指令,其中,所述新一轮联邦学习指令中携带所述数据端对应的子训练样本批。
服务端在划分好各个数据端的子训练样本批后,向各个数据端发送新一轮联邦学习指令,并在该指令中携带有目标数据端对应子训练样本批。
进一步地,服务端可对扩展三元组数据以及各个知识图谱数据集中的三元组数据进行编号,服务端可在下发子训练样本批时,也下发各条三元组数据的编号,以便服务端和数据端之间在联合训练时可通过编号对训练样本对齐。
在本实施例中,通过各个数据端向可信的服务端发送各自的知识图谱数据集,由服务端基于各个知识图谱数据集进行知识推理,挖掘出不同知识图谱数据集之间的隐藏知识,也即扩展三元组数据,实现了在数据端之间互相不泄露隐私的情况下跨端进行知识推理。并通过服务端将扩展三元组数据下发至各个数据端,使得各个数据端联合可采用扩展三元组数据来进行知识图谱表示学习模型的训练,扩充了模型训练数据的数据量,进而提高了模型的知识图谱表示学习效果。并且,服务端是将扩展三元组数据中的元素按照其来源下发给对应的数据端,避免了数据端获取到其他数据端的隐私数据,也就进一步地保障了数据端联合建模过程中的隐私安全。
进一步地,在一些应用场景下,第三方服务端可能不具备公信力或者无法找到可行的第三方服务端,在这种场景下,为保障数据端的隐私数据不会相互之间泄露的同时,也不会泄露给服务端,在一实施方式中,数据端可对本地知识图谱数据集中的各个实体元素进行加密。具体地,知识图谱数据集中包含各个元素的数据,数据端对其中的实体元素进行加密,加密可采用常用的加密算法,在此不作限制。数据端将实体元素加密后,将知识图谱数据集发送给服务端,也即,发送给服务端的数据集中的实体元素是处于加密态的。
服务端在接收到各个数据端发送的知识图谱数据集后,对各个知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据。可以理解的是,两个相同的实体元素,加密后的结果也是相同的,故服务端在对各个数据端的知识图谱数据集按照实体元素进行对齐时,并不会受加密的影响,而由于关系元素并没有加密,所以也不会影响服务端根据关系元素进行知识推理。服务端得到的扩展三元组数据中,关系元素是明文状态的,实体元素则仍然是加密态的。
数据端接收到服务端发送的子训练样本批后,对训练样本批中的加密态实体元素进行解密,即可获得明文状态的实体元素。具体地,数据端可采用与加密实体元素时采用的加密算法对应的解密算法来进行解密。
可以理解的是,知识图谱数据集中的实体元素一般是隐私数据,实体元素与实体元素之间的关系也是隐私数据,而服务端接收到的知识图谱数据集中实体元素是加密态的,故没有向服务端泄露各个数据端的实体元素中的隐私;而虽然关系元素是明文状态的,但服务端基于加密态的实体元素,也无法获知实体元素与实体元素之间的关系;并且,通过对关系数据保持明文状态传递给服务端,使得服务端的知识推理过程不会受到影响。
进一步地,在一实施方式中,所述步骤A20包括:
步骤A201,接收各所述数据端发送的各加密向量表示;
在服务端不属于可信方的场景,数据端可对各个向量表示进行加密,将加密后的向量表示发送给服务端。加密算法可采用同态加密,同态加密算法的特点是对经过加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。
服务端接收各数据端发送的各加密向量表示。
步骤A202,基于各所述加密向量表示计算得到与各数据端的训练样本批中各三元组数据对应的加密损失;
步骤A203,将所述加密损失分发给对应三元组数据所在的数据端,以供所述数据端对从服务端接收到的加密损失进行解密后,基于解密结果更新所述本地知识图谱表示学习模型。
若服务端接收到的向量表示是经过同态加密的,则基于同态加密的原理,基于加密态的向量表示计算得到的损失也是加密态的,服务端将加密态的损失发送给数据端,再由数据端对加密态的损失进行解密,得到明文状态的损失,进而可以根据损失更新模型。整个过程中,服务端获取到的加密的向量表示,从而不会泄露数据端的隐私数据给服务端,保证了数据端的知识图谱数据的隐私安全。
在一实施方式中,各个数据端(client)和服务端(sever)可按照如图4所示的流程联合进行知识图谱表示学习模型训练。各个client将本地知识图谱数据集中的实体元素(对应图中的实体ID)进行加密,将关系元素和加密的实体元素发送给sever;sever基于各个client上发的元素进行知识推理,并基于各个client原始的三元组数据和推理得到的三元组数据构建训练样本集;sever从训练样本集中选取多个训练样本作为训练样本批,并将训练样本批下发给各个client;client对下发的训练样本批解密后,将训练样本批中的各个元素输入本地知识图谱表示学习模型,得到向量表示,并加密后发送给sever;sever根据加密向量表示计算得到加密损失,并将加密损失发送给各个client;各个client对加密损失解密后,利用解密结果更新本地知识图谱表示学习模型;检测到本地知识图谱表示学习模型收敛后,结束训练流程;检测到本地知识图谱表示学习模型未收敛,则再由sever从训练样本集中选取多个训练样本作为训练样本批,并将训练样本批下发给各个client,以进入新一轮的循环。
本实施例方案可以解决知识图谱表示学习中,数据孤岛和数据隐私的问题,使得多方可以在不泄露自己数据隐私的情况下,实现知识图谱表示学习的联合训练,得到一个更强大的知识图谱的表示。
此外本发明实施例还提出一种知识图谱表示学习优化装置,所述装置部署于参与联邦学习的数据端,联邦学习架构中还包括参与联邦学习的其他数据端,所述装置包括:
确定模块,用于从本地知识图谱数据集中确定训练样本集;
联邦学习模块,用于基于所述训练样本集联合各所述其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型,其中,各所述其他数据端基于各自本地知识图谱数据集中确定的训练样本集参与联邦学习。
进一步地,参与联邦学习的各数据端分别与服务端通信连接,所述确定模块包括:
第一发送单元,用于将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端;
第一接收单元,用于将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本,将本地的所述知识图谱数据集中包含的三元组数据作为本地训练样本,将所述跨端训练样本和所述本地训练样本作为训练样本集。
进一步地,所述第一发送单元包括:
加密子单元,用于对本地知识图谱数据集中的各实体元素进行加密后,将所述知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的关系元素和加密态实体元素按照元素的数据来源分发给对应的数据端;
所述第一接收单元包括:
接收子单元,用于接收所述服务端发送的所述扩展三元组数据中的关系元素和部分加密态实体元素;
解密子单元,用于对所述部分加密态实体元素进行解密得到部分实体元素,将所述关系元素和所述部分实体元素作为跨端训练样本。
进一步地,所述联邦学习模块包括:
第一选取单元,用于从所述训练样本集中选取参与新一轮联邦学习的训练样本批,将所述训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示;
第二发送单元,用于将各所述向量表示发送给所述服务端,以供所述服务端基于从各数据端接收到的各向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端;
更新单元,用于根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型,并检测是否满足联邦学习停止条件;
停止单元,用于若检测到满足所述联邦学习停止条件,则停止联邦学习并将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
循环单元,用于若检测到不满足所述联邦学习停止条件,则基于更新后的本地知识图谱表示学习模型,再执行所述步骤:从所述训练样本集中选取参与新一轮联邦学习的训练样本批。
此外本发明实施例还提出一种知识图谱表示学习优化装置,所述装置部署于参与联邦学习的服务端,所述服务端与参与联邦学习的各数据端通信连接,所述装置包括:
发送模块,用于向各所述数据端发送新一轮联邦学习指令,以供所述数据端基于所述指令确定参与新一轮联邦学习的子训练样本批,将所述子训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中得到各元素对应的向量表示;
接收模块,用于接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型;
停止模块,用于当检测到满足联邦学习停止条件时,向各所述数据端发送停止联邦学习指令,以供所述数据端将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
循环模块,用于当检测到不满足所述联邦学习停止条件时,基于更新后的本地知识图谱表示学习模型再执行所述步骤:向各所述数据端发送新一轮联邦学习指令。
进一步地,所述接收模块还用于在联邦学习开始前,接收各所述数据端发送的各自本地的知识图谱数据集;
所述装置还包括:
知识推理模块,用于对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据和各知识图谱数据集中包含的三元组数据作为训练样本集;
所述发送模块包括:
第二选取单元,用于从所述训练样本集中随机选取新一轮联邦学习的总训练样本批,并基于所述总训练样本批中各三元组数据的数据来源将所述总训练样本批划分为与各数据端对应的子训练样本批;
第三发送单元,用于向各所述数据端发送新一轮联邦学习指令,其中,所述新一轮联邦学习指令中携带所述数据端对应的子训练样本批。
进一步地,所述接收模块包括:
第二接收单元,用于接收各所述数据端发送的各加密向量表示;
计算单元,用于基于各所述加密向量表示计算得到与各数据端的训练样本批中各三元组数据对应的加密损失;
第四发送单元,用于将所述加密损失分发给对应三元组数据所在的数据端,以供所述数据端对从服务端接收到的加密损失进行解密后,基于解密结果更新所述本地知识图谱表示学习模型。
本发明知识图谱表示学习优化装置的具体实施方式的拓展内容与上述知识图谱表示学习优化方法各实施例基本相同,在此不做赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有知识图谱表示学习优化程序,所述知识图谱表示学习优化程序被处理器执行时实现如下所述的知识图谱表示学习优化方法的步骤。
本发明知识图谱表示学习优化设备和计算机可读存储介质的各实施例,均可参照本发明知识图谱表示学习优化方法各实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种知识图谱表示学习优化方法,其特征在于,所述方法应用于参与联邦学习的数据端,联邦学习架构中还包括参与联邦学习的其他数据端,所述方法包括以下步骤:
从本地知识图谱数据集中确定训练样本集;
基于所述训练样本集联合各所述其他数据端对本地知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型,其中,各所述其他数据端基于各自本地知识图谱数据集中确定的训练样本集参与联邦学习。
2.如权利要求1所述的知识图谱表示学习优化方法,其特征在于,参与联邦学习的各数据端分别与服务端通信连接,所述从本地知识图谱数据集中确定训练样本集的步骤包括:
将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端;
将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本,将本地的所述知识图谱数据集中包含的三元组数据作为本地训练样本,将所述跨端训练样本和所述本地训练样本作为训练样本集。
3.如权利要求2所述的知识图谱表示学习优化方法,其特征在于,所述将本地的知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的各元素按照元素的数据来源分发给对应的数据端的步骤包括:
对本地知识图谱数据集中的各实体元素进行加密后,将所述知识图谱数据集发送给所述服务端,以供所述服务端在接收到各数据端发送的知识图谱数据集后,对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据中的关系元素和加密态实体元素按照元素的数据来源分发给对应的数据端;
所述将从所述服务端接收到的所述扩展三元组数据中的部分元素作为跨端训练样本的步骤包括:
接收所述服务端发送的所述扩展三元组数据中的关系元素和部分加密态实体元素;
对所述部分加密态实体元素进行解密得到部分实体元素,将所述关系元素和所述部分实体元素作为跨端训练样本。
4.如权利要求1至3中任一项所述的知识图谱表示学习优化方法,其特征在于,所述基于所述训练样本集联合各所述其他数据端对待训练的知识图谱表示学习模型进行联邦学习,得到目标知识图谱表示学习模型的步骤包括:
从所述训练样本集中选取参与新一轮联邦学习的训练样本批,将所述训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中,得到各元素对应的向量表示;
将各所述向量表示发送给所述服务端,以供所述服务端基于从各数据端接收到的各向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端;
根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型,并检测是否满足联邦学习停止条件;
若检测到满足所述联邦学习停止条件,则停止联邦学习并将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
若检测到不满足所述联邦学习停止条件,则基于更新后的本地知识图谱表示学习模型,再执行所述步骤:从所述训练样本集中选取参与新一轮联邦学习的训练样本批。
5.一种知识图谱表示学习优化方法,其特征在于,所述方法应用于参与联邦学习的服务端,所述服务端与参与联邦学习的各数据端通信连接,所述方法包括以下步骤:
向各所述数据端发送新一轮联邦学习指令,以供所述数据端基于所述指令确定参与新一轮联邦学习的子训练样本批,将所述子训练样本批中各三元组数据的各元素分别输入本地知识图谱表示学习模型中得到各元素对应的向量表示;
接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各所述数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型;
当检测到满足联邦学习停止条件时,向各所述数据端发送停止联邦学习指令,以供所述数据端将更新后的本地知识图谱表示学习模型作为目标知识图谱表示学习模型;
当检测到不满足所述联邦学习停止条件时,基于更新后的本地知识图谱表示学习模型再执行所述步骤:向各所述数据端发送新一轮联邦学习指令。
6.如权利要求5所述的知识图谱表示学习优化方法,其特征在于,所述方法还包括:
在联邦学习开始前,接收各所述数据端发送的各自本地的知识图谱数据集;
对各知识图谱数据集中包含的三元组数据进行知识推理得到扩展三元组数据,将所述扩展三元组数据和各知识图谱数据集中包含的三元组数据作为训练样本集;
所述向各所述数据端发送新一轮联邦学习指令的步骤包括:
从所述训练样本集中随机选取新一轮联邦学习的总训练样本批,并基于所述总训练样本批中各三元组数据的数据来源将所述总训练样本批划分为与各数据端对应的子训练样本批;
向各所述数据端发送新一轮联邦学习指令,其中,所述新一轮联邦学习指令中携带所述数据端对应的子训练样本批。
7.如权利要求5至6任一项所述的知识图谱表示学习优化方法,其特征在于,所述接收各所述数据端发送的各向量表示,基于各所述向量表示计算得到与各数据端的训练样本批中各三元组数据对应的损失,并将所述损失分发给对应三元组数据所在的数据端,以供所述数据端根据从所述服务端接收到的损失更新所述本地知识图谱表示学习模型的步骤包括:
接收各所述数据端发送的各加密向量表示;
基于各所述加密向量表示计算得到与各数据端的训练样本批中各三元组数据对应的加密损失;
将所述加密损失分发给对应三元组数据所在的数据端,以供所述数据端对从服务端接收到的加密损失进行解密后,基于解密结果更新所述本地知识图谱表示学习模型。
8.一种知识图谱表示学习优化设备,其特征在于,所述知识图谱表示学习优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识图谱表示学习优化程序,所述知识图谱表示学习优化程序被所述处理器执行时实现如权利要求1至4中任一项所述的知识图谱表示学习优化方法的步骤。
9.一种知识图谱表示学习优化设备,其特征在于,所述知识图谱表示学习优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识图谱表示学习优化程序,所述知识图谱表示学习优化程序被所述处理器执行时实现如权利要求5至7中任一项所述的知识图谱表示学习优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有知识图谱表示学习优化程序,所述知识图谱表示学习优化程序被处理器执行时实现如权利要求1至7中任一项所述的知识图谱表示学习优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621827.XA CN111767411B (zh) | 2020-07-01 | 2020-07-01 | 知识图谱表示学习优化方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621827.XA CN111767411B (zh) | 2020-07-01 | 2020-07-01 | 知识图谱表示学习优化方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767411A true CN111767411A (zh) | 2020-10-13 |
CN111767411B CN111767411B (zh) | 2024-09-24 |
Family
ID=72723265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010621827.XA Active CN111767411B (zh) | 2020-07-01 | 2020-07-01 | 知识图谱表示学习优化方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767411B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886598A (zh) * | 2021-09-27 | 2022-01-04 | 浙江大学 | 一种基于联邦学习的知识图谱表示方法 |
CN114764541A (zh) * | 2020-12-31 | 2022-07-19 | 新智数字科技有限公司 | 一种基于联合学习的设备预测性维护方法及装置 |
CN115062159A (zh) * | 2022-06-13 | 2022-09-16 | 西南交通大学 | 基于联邦学习的多粒度动态知识图谱嵌入模型构造方法 |
CN116757275A (zh) * | 2023-06-07 | 2023-09-15 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116821375A (zh) * | 2023-08-29 | 2023-09-29 | 之江实验室 | 一种跨机构医学知识图谱表示学习方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189825A (zh) * | 2018-08-10 | 2019-01-11 | 深圳前海微众银行股份有限公司 | 横向数据切分联邦学习建模方法、服务器及介质 |
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN110444263A (zh) * | 2019-08-21 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 基于联邦学习的疾病数据处理方法、装置、设备及介质 |
-
2020
- 2020-07-01 CN CN202010621827.XA patent/CN111767411B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN109189825A (zh) * | 2018-08-10 | 2019-01-11 | 深圳前海微众银行股份有限公司 | 横向数据切分联邦学习建模方法、服务器及介质 |
CN110444263A (zh) * | 2019-08-21 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 基于联邦学习的疾病数据处理方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
单纯等: "半监督单样本深度行人重识别方法", 计算机系统应用, vol. 29, no. 1, 15 January 2020 (2020-01-15), pages 256 - 260 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114764541A (zh) * | 2020-12-31 | 2022-07-19 | 新智数字科技有限公司 | 一种基于联合学习的设备预测性维护方法及装置 |
CN113886598A (zh) * | 2021-09-27 | 2022-01-04 | 浙江大学 | 一种基于联邦学习的知识图谱表示方法 |
CN115062159A (zh) * | 2022-06-13 | 2022-09-16 | 西南交通大学 | 基于联邦学习的多粒度动态知识图谱嵌入模型构造方法 |
CN115062159B (zh) * | 2022-06-13 | 2024-05-24 | 西南交通大学 | 基于联邦学习的多粒度事件预警动态知识图谱嵌入模型构造方法 |
CN116757275A (zh) * | 2023-06-07 | 2023-09-15 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116757275B (zh) * | 2023-06-07 | 2024-06-11 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116821375A (zh) * | 2023-08-29 | 2023-09-29 | 之江实验室 | 一种跨机构医学知识图谱表示学习方法及系统 |
CN116821375B (zh) * | 2023-08-29 | 2023-12-22 | 之江实验室 | 一种跨机构医学知识图谱表示学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111767411B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mishra et al. | Delphi: A cryptographic inference system for neural networks | |
CN110601814B (zh) | 联邦学习数据加密方法、装置、设备及可读存储介质 | |
CN110263936B (zh) | 横向联邦学习方法、装置、设备及计算机存储介质 | |
US11902413B2 (en) | Secure machine learning analytics using homomorphic encryption | |
CN111767411B (zh) | 知识图谱表示学习优化方法、设备及可读存储介质 | |
Zheng et al. | Learning the truth privately and confidently: Encrypted confidence-aware truth discovery in mobile crowdsensing | |
WO2021051629A1 (zh) | 联邦学习隐私数据处理方法、设备、系统及存储介质 | |
CN111898137A (zh) | 一种联邦学习的隐私数据处理方法、设备及系统 | |
CN109886417A (zh) | 基于联邦学习的模型参数训练方法、装置、设备及介质 | |
JP6234607B2 (ja) | 処理されたデータを検証する方法および装置 | |
CN110851786A (zh) | 纵向联邦学习优化方法、装置、设备及存储介质 | |
EP4270266A1 (en) | Method and apparatus for updating machine learning model | |
CN111340247A (zh) | 纵向联邦学习系统优化方法、设备及可读存储介质 | |
CN116502732B (zh) | 基于可信执行环境的联邦学习方法以及系统 | |
CN108549824A (zh) | 一种数据脱敏方法及装置 | |
KR20230148200A (ko) | 멀티소스 데이터의 데이터 처리 방법, 장치 및 전자 기기, 저장 매체 | |
CN116681141A (zh) | 隐私保护的联邦学习方法、终端及存储介质 | |
CN114301677A (zh) | 秘钥协商方法、装置、电子设备及存储介质 | |
Parra-Ullauri et al. | Federated Analytics for 6G Networks: Applications, Challenges, and Opportunities | |
CN110175283B (zh) | 一种推荐模型的生成方法及装置 | |
Sun et al. | Joint Top-K Sparsification and Shuffle Model for Communication-Privacy-Accuracy Tradeoffs in Federated Learning-Based IoV | |
Shah et al. | Secure featurization and applications to secure phishing detection | |
Janratchakool et al. | Finding the optimal value for threshold cryptography on cloud computing | |
CN115563564B (zh) | 决策树模型的处理方法、装置、计算机设备和存储介质 | |
CN113094745B (zh) | 基于隐私保护的数据变换方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |