CN109815344A

CN109815344A - 基于参数共享的网络模型训练系统、方法、装置和介质

Info

Publication number: CN109815344A
Application number: CN201910085848.1A
Authority: CN
Inventors: 朱佳; 郑泽涛
Original assignee: Guangzhou Chain-Based Intelligent Technology Co Ltd; South China Normal University
Current assignee: Guangdong SUCHUANG Data Technology Co.,Ltd.
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-05-28
Anticipated expiration: 2039-01-29
Also published as: CN109815344B

Abstract

本发明公开了一种基于参数共享的网络模型训练系统、方法、装置和介质。所述系统包括第一参数模块和第二参数模块，所述第一参数模块用于获取第一本地端对网络模型进行训练时所形成的第一模型参数，并将所述第一模型参数同步到区块链；所述第二参数模块用于从区块链中获取第二本地端请求的第二模型参数并同步到第二本地端；所述第二模型参数用于供第二本地端对网络模型进行训练。本发明通过区块链来实现模型参数的共享，有利于网络模型的大规模应用和相互学习；由于各本地端之间无需进行网络模型训练集和测试集的交换，从而在高效传播网络模型参数的基础上避免敏感数据的泄漏。本发明广泛应用于人工智能技术领域。

Description

基于参数共享的网络模型训练系统、方法、装置和介质

技术领域

本发明涉及人工智能技术领域，尤其是一种基于参数共享的网络模型训练系统、方法、装置和介质。

背景技术

知识图谱和神经网络等网络模型是重要的人工智能工具，具有广泛的用途。例如知识图谱可以用于网络搜索、链接预测、推荐和自然语言处理等用途。这些人工智能工具需要经过训练和测试等步骤后才具有相应的性能，而训练得到的模型参数表示网络模型的形态，模型参数可以通过存储而固定下来并用于下次使用。

根据网络模型的原理，网络模型的性能与其模型参数有关，而模型参数是由训练和测试网络模型时所用的训练集和测试集决定的。在一些特殊领域，所涉及的训练集和测试集具有一定的隐私性和机密性，例如医疗领域所用的训练集和测试集一般是医院的病人数据，金融领域所用的训练集和测试集一般是保险公司的保险数据，这些数据难以公开交流使用，不利于网络模型的大规模应用。

发明内容

为了解决上述技术问题，本发明的目在于提供一种基于参数共享的网络模型训练系统、方法、装置和介质。

本发明包括一种基于参数共享的网络模型训练系统，包括：

第一参数模块，用于获取第一本地端对网络模型进行训练时所形成的第一模型参数，并将所述第一模型参数同步到区块链；

第二参数模块，用于从区块链中获取第二本地端请求的第二模型参数并同步到第二本地端；所述第二模型参数用于供第二本地端对网络模型进行训练。

进一步地，所述第一参数模块还用于在将获取到的第一模型参数同步到区块链之前，对第一模型参数进行剪枝处理。

进一步地，所述第一参数模块还用于在将获取到的第一模型参数同步到区块链之后，对经过剪枝处理的第一模型参数进行压缩处理。

进一步地，还包括令牌消耗模块，所述令牌消耗模块用于在第二模型参数同步到第二本地端之后，从第二本地端扣减令牌。

进一步地，还包括令牌分配模块，所述令牌分配模块用于在令牌消耗模块从第二本地端扣减令牌之后，将令牌消耗模块扣减所得的令牌分配至各待分配本地端；所述待分配本地端是指被用作第二模型参数的部分第一模型参数所对应的第一本地端。

进一步地，所述令牌分配模块包括：

质量分值子模块，用于计算各待分配本地端同步到区块链的第一模型参数的质量分值；

比例分配子模块，用于以各待分配本地端对应的质量分值作为分配比例，将令牌消耗模块扣减所得的令牌按比例分配至各待分配本地端。

进一步地，所述第一模型参数的质量分值是根据第一模型参数的冗余度计算的。

另一方面，本发明实施例还包括一种基于参数共享的网络模型训练方法，包括以下步骤：

当接收到第一本地端的请求时，获取第一本地端对网络模型进行训练时所形成的第一模型参数，并将所述第一模型参数同步到区块链；

当接收到第二本地端的请求时，从区块链中获取第二本地端请求的第二模型参数并同步到第二本地端；所述第二模型参数用于供第二本地端对网络模型进行训练。

另一方面，本发明实施例还包括一种基于参数共享的网络模型训练装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明基于参数共享的网络模型训练方法。

另一方面，本发明实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明基于参数共享的网络模型训练方法。

本发明的有益效果是：通过区块链来实现模型参数的共享，有利于网络模型的大规模应用和相互学习；由于各本地端之间无需进行网络模型训练集和测试集的交换，从而在高效传播网络模型参数的基础上避免敏感数据的泄漏；由于模型参数是以区块的形式存储的区块链中的，每一区块包含加密的散列、时间戳和前一个块的事务数据，因此每一区块是不可篡改的，避免非法人员恶意修改模型参数导致事故发生，保护信息安全；同时区块链技术还使用副本来记录更新日志，因此每一次数据同步都是可追踪的，便于数据追溯处理。

附图说明

图1为实施例中各本地端的连接关系图；

图2为区块链在各节点之间共享数据的原理图；

图3为区块链中每一区块的存储形式原理图；

图4为PCA算法的原理图。

具体实施方式

本实施例可以应用于知识图谱和神经网络等网络模型，这些网络模型在训练和测试过程中所形成的用于表征网络模型的参数称为模型参数。由于这些网络模型的训练、测试以及其他类似过程具有相似性，本实施例中不区分训练和测试过程，所得的参数统称为模型参数。

本实施例包括一种基于参数共享的网络模型训练系统，包括：

所述第一参数模块和第二参数模块，可以是具有相应功能的硬件模块，例如运行相应程序的计算机，也可以是具有相应功能的软件模块，例如运行在计算机上的一段程序。

本实施例中所用的区块链具有去中心化的特点，即区块链连接的各本地端的定位是平等的，并不存在一个中心。本实施例使用区块链系统将各本地端连接在一起，所述本地端可以是高校、医院和企业等科研单位的计算机系统，各本地端的连接关系如图1所示，图1中，每一本地端都是区块链中的一个节点。

由于区块链的去中心化特点，每一本地端都可以向区块链上传数据，上传到的数据则被同步至连接到区块链的其他本地端。本实施例中，将一个向区块链上传数据的本地端称为第一本地端，将一个向区块链下载数据的本地端称为第二本地端，即任何本地端都既能作为第一本地端，也能作为第二本地端。

区块链在各节点之间共享数据的原理如图2所示。图2中，当一个节点需要对区块链数据进行操作(如在账本中添加一条记录)时，将相关操作通过交易(transaction)的形式封装成一组新交易。一些节点还设有验证机制，将无法通过验证的交易从新交易中删除，如图2 中所示的交易2和交易5被删除，使得新交易合法化(valid)。交易1、交易3和交易5被封装为一组元数据(metadata)作为一个新区块(new block)，添加计数器(nonce)和时间戳(timestamp)之后加入到区块链(chain)的末尾，而且，新区块还带有区块链中上一区块的哈希值(previous hash)，这使得区块链中的每一区块都不可篡改。

区块链中每一区块的存储形式如图3所示，每个区块中事务信息的哈希以Merkle树的形式存储在区块中，区块链只记录根哈希，区块链中的每个区块都包含前一个块的散列。

本实施例中，当一个第一本地端对其所安装的网络模型完成训练时，第一参数模块根据得到的第一模型参数生成相应的交易，即在区块链的账本上进行相应的记录，然后根据图2 所示的区块链原理将相应的交易生成新区块并加入到区块链中，从而完成将所述第一模型参数同步到区块链的过程。经过更新后的区块链包含了多个区块，每个区块都包含了相应的第一本地端上传的第一模型参数信息。

由于区块链的去中心化特点，所有节点都可以得到更新后的区块链，即所有本地端都可以在有需求时作为本实施例中的第二本地端，通过第二参数模块从区块链中所需的第二模型参数。本实施例中的第二模型参数指的是区块链中所存储的最新的第一模型参数以及历史的第一模型参数中的全部或部分，即本实施例中的第一模型参数和第二模型参数可以是相同模型参数在不同阶段的名称。

第二本地端得到所需的第二模型参数之后，可以使用第二模型参数来对安装在第二本地端的网络模型进行训练，经过训练得到的网络模型可以获得与安装在相应第一本地端的网络模型相同的性能。

本发明系统通过区块链来实现模型参数的共享，有利于网络模型的大规模应用和相互学习；由于各本地端之间无需进行网络模型训练集和测试集的交换，从而在高效传播网络模型参数的基础上避免敏感数据的泄漏；由于模型参数是以区块的形式存储的区块链中的，每一区块包含加密的散列、时间戳和前一个块的事务数据，因此每一区块是不可篡改的，避免非法人员恶意修改模型参数导致事故发生，保护信息安全；同时区块链技术还使用副本来记录更新日志，因此每一次数据同步都是可追踪的，便于数据追溯处理。

进一步作为优选的实施方式，所述第一参数模块还用于在将获取到的第一模型参数同步到区块链之前，对第一模型参数进行剪枝处理。

本实施例中以TransE和RESCAL等知识图谱为例对剪枝处理进行说明。这些知识图谱使用fb15k数据集进行训练，相关参数如表1所示。

表1

知识图谱模型	根据第一模型参数进行的计算	计算结果(单位：百万)
			TransE	Ο(nd+md)	0.81
RESCAL	Ο(nd+md)	87.80
			SME[LINEAR]	Ο(nd+md<sup>2</sup>)	0.82
SME(BILINEAR)	Ο(nd+md+2d<sup>2</sup>)	0.82
			NTN	Ο(nd+md<sup>3</sup>)	313.25

表1中，n、m和d为第一模型参数，具体地，n为实体数目，m为关系数目，d为嵌入维度。通过以下公式计算阈值：式中α为可以任意设置的权重参数，X_i为各第一模型参数，υ为所有第一模型参数的平均值，N为第一模型参数的个数。在剪枝过程中，将数值大于阈值threshold的计算结果对应的第一模型参数删除，将未被删除的第一模型参数同步到区块链。删除的第一模型参数应当不影响训练效果，可以通过调整权重参数α来决定需要删除的第一模型参数。

通过剪枝处理，可以在不影响第二本地端训练网络模型的基础上，减少同步到区块链的第一模型参数数量，减少对计算、带宽和存储资源的消耗。

进一步作为优选的实施方式，所述第一参数模块还用于在将获取到的第一模型参数同步到区块链之后，对经过剪枝处理的第一模型参数进行压缩处理。

本实施例中，对经过剪枝处理的第一模型参数进行压缩处理所用的算法为PCA算法，PCA 算法的原理如图4所示，它可以降低第一模型参数的维数，同时保持第一模型参数集中方差贡献最大的特征，在不影响第二本地端训练网络模型的基础上进一步减少同步到区块链的第一模型参数的数据量。

进一步作为优选的实施方式，所述系统还包括令牌消耗模块，所述令牌消耗模块用于在第二模型参数同步到第二本地端之后，从第二本地端扣减令牌。

本实施例中的令牌(token)是区块链的一种激励机制，各节点从区块链获取数据时需要支付令牌，之前向区块链上传了被获取的数据的节点将获得令牌，这可以鼓励各节点进行数据共享。

本实施例中，各节点都有相应的令牌账户。第二本地端需要支付相应的令牌才能获取所需的第二模型参数，也就是在第二本地端获取到第二模型参数之前或之后，由令牌消耗模块从第二本地端对应的令牌账户扣减令牌。

进一步作为优选的实施方式，所述系统还包括令牌分配模块，所述令牌分配模块用于在令牌消耗模块从第二本地端扣减令牌之后，将令牌消耗模块扣减所得的令牌分配至各待分配本地端；所述待分配本地端是指被用作第二模型参数的部分第一模型参数所对应的第一本地端。

为了将令牌消耗模块所扣减的令牌全部分配到相应的第一本地端，本实施例中还设置了令牌分配模块。由于第二本地端所获取的第二模型参数来自区块链中所存储的所有第一模型参数中全部或者部分，因此令牌分配模块首先确定第二本地端所获取的第二模型参数具体来自哪些第一本地端所上传的第一模型参数，然后将这些第一本地端确定为待分配本地端，再将令牌消耗模块扣减所得的令牌分配至各待分配本地端

进一步作为优选的实施方式，所述令牌分配模块包括：

本实施例中，所述令牌分配模块具体设置了质量分值子模块和比例分配子模块来完成令牌分配过程。其中，质量分值子模块首先分析各待分配本地端所上传的第一模型参数的质量分值，比例分配子模块以这些质量分值作为分配比例，将令牌消耗模块扣减所得的令牌按比例分配至各待分配本地端。在上述过程中，待分配本地端所上传的第一模型参数的质量分值越高，该待分配本地端所能得到的令牌越多。

进一步作为优选的实施方式，所述第一模型参数的质量分值是根据第一模型参数的冗余度计算的。当网络模型为知识图谱时，第一模型参数以RDF(Resource descriptionframework，资源描述框架)的形式表示，第一模型参数的质量分值的具体计算公式为： Q＝K₁*(1-R)+K₂*V+K₃*URI_(data)。式中，Q为第一模型参数的质量分值，K₁、K₂和 K₃为系数，本实施例中这些系数均设为1，R为第一模型参数的冗余度，为知识图谱中的实体的平均属性数，为知识图谱中URI(Uniform resource identifier，统一资源标识符)的可访问性。其中，DSPO_(data)为知识图谱中的唯一三元组数，SPO_(data)为知识图谱中的三元组数。

本发明还包括一种基于参数共享的网络模型训练方法，包括以下步骤：

S1.当接收到第一本地端的请求时，获取第一本地端对网络模型进行训练时所形成的第一模型参数，并将所述第一模型参数同步到区块链；

S2.当接收到第二本地端的请求时，从区块链中获取第二本地端请求的第二模型参数并同步到第二本地端；所述第二模型参数用于供第二本地端对网络模型进行训练。

其中，步骤S1可以由本发明系统中的第一参数模块来执行，步骤S2可以由本发明系统中的第二参数模块来执行。

本实施例还包括一种基于参数共享的网络模型训练装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明基于参数共享的网络模型训练方法。

本实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明基于参数共享的网络模型训练方法。

本实施例中的基于参数共享的网络模型训练系统和存储介质，可以执行本发明的基于参数共享的网络模型训练方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以下提供一个更为具体的实施例，该实施例使用本发明的方法、系统、装置或存储介质实现，从而通过定量的数据来展示本发明的有益效果。

本实施例在配备8核处理器和16GB内存的服务器上，构建了一个用python实现的分布式知识图谱训练系统。本实施例系统使用TransE来训练数据集。TransE是一种流行的基于翻译的表示学习模型。本实施例对链路预测任务从不同的角度来评价本实施例机制。

本实施例使用Freebase作为评价本实施例机制的数据集。Freebase是一个大型的协作知识库，其目的是创建一个全球资源，使人们和机器能够更多地访问公共信息。目前约有12亿三元组和8 000多万实体。FB15k是从Freebase中提取的一个小数据集，包含14951个实体、 1345个关系和592231个三元组。实验的四个数据集fb15k-1、fb15k-2、fb15k-3、fb15k4分别为从FB15k中随机移除10％，10％，20％，20％的三元组所得。表2显示了四个数据集的详情。

表2

数据集	实体	关系	训练集	验证集	测试集	移除率
							FB15K-1	14951	1345	373093	79949	79949	10％
FB15K-2	14951	1345	373093	79949	79949	10％
							FB15K-3	14951	1345	331639	71066	71066	20％
FB15K-4	14951	1345	331639	71066	71066	20％

本实施例中，知识图谱执行链路预测任务。链路预测即预测一个给定实体与另一个实体是否有特殊关系的任务。给定(r，t)预测h或给定(h，r)预测t，前者表示为(？，r，t)，后者表示(h，r，？)。这种链接预测任务有时也称为实体预测或实体排名。类似的概念也可以用来预测两个给定实体之间的关系，即(h，？，t)，这通常被称为关系预测。

对于评估，一种常见的做法是在有序列表中记录正确答案的等级，以便查看正确答案是否可以排在不正确答案之前。例如，考虑到预测任务(？，director，Psycho)，则排序程序可能会生成一个有序列表(JamesCameron,AlfredHitchcock,GeorgeLucas,QuentinTarantino)，正确的答案AlfredHitchcock排名第二，正确答案排名越靠前则说明效果越好，很多评价标准都是基于这种排序，例如mean rank，mean reciprocal rank，Hit@n，和AUC-PR。在本论文中，本实施例采用了mean rank和Hit@10作为本实施例评价标准。同时，本实施例也采用了将数据设为raw和filter的设置。结果如表4和表5所示。

本实施例还提供了其他比较方法。第一个方法是对数据集进行独立训练。默认参数为：嵌入维数d＝100，学习率r＝0.01，边缘值y＝1。第二种方法参考模型链认为区块链上损失最大的站点应该将其参数同步到其他站点，因为损失最大的站点有最丰富的信息需要学习。与[34] 相反，本实施例认为损失最小的模型产生的参数会更有表现力。因此，本实施例将损失最小的模型参数与区块链上的其他节点同步。第三种方法参考了分布式数据并行机器学习中的模型平均[8，9]的算法模型。数据并行性将计算分布到不同的计算节点，并对不同节点上的模型参数进行了平均化然后用于更新每个节点中的模型。本实施例方法3也对块链上不同节点的参数进行了平均化，并将平均参数同步到其他节点。方法4应用PCA对参数进行处理。G 与本实施例提出的方法不同的是，方法4在上传到区块链之前没有修剪权重。

表4和表5给出了本实施例详细的实验结果。表4中，在“raw”设置下，四个数据集的链接预测结果。对于Mean Rank来说，越低越好。对于Hit@10则更高更好。

表4

表5中，在“filtet”设置下，四个数据集的链接预测结果。对于Mean Rank来说，越低越好。对于Hit@10则更高更好。

表5

表4和表5显示了所有比较方法在所有数据集的结果。“filter”设置下Mean Rank相对更低，Hit@10更高，两种设置的趋势变化是相同的。从两张表中本实施例可以看出，独立训练的效果最差。其他方法通过在训练过程中与外部模型沟通来提高训练效果。本实施例提出的机制比除方法4以外的任何其他机制都表现得更好。与其他简单处理参数的方法相比，本实施例认为方法4的良好性能在于保持了参数的重要特征并将这些特征与其他节点同步。与方法4相比，本实施例在机构中增加了剪枝模块，去除了一些不重要的参数，这稍微影响了训练效果，但训练效果仍在可接受范围内。

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于参数共享的网络模型训练系统，其特征在于，包括：

2.根据权利要求1所述的一种基于参数共享的网络模型训练系统，其特征在于，所述第一参数模块还用于在将获取到的第一模型参数同步到区块链之前，对第一模型参数进行剪枝处理。

3.根据权利要求2所述的一种基于参数共享的网络模型训练系统，其特征在于，所述第一参数模块还用于在将获取到的第一模型参数同步到区块链之后，对经过剪枝处理的第一模型参数进行压缩处理。

4.根据权利要求1所述的一种基于参数共享的网络模型训练系统，其特征在于，还包括令牌消耗模块，所述令牌消耗模块用于在第二模型参数同步到第二本地端之后，从第二本地端扣减令牌。

5.根据权利要求4所述的一种基于参数共享的网络模型训练系统，其特征在于，还包括令牌分配模块，所述令牌分配模块用于在令牌消耗模块从第二本地端扣减令牌之后，将令牌消耗模块扣减所得的令牌分配至各待分配本地端；所述待分配本地端是指被用作第二模型参数的部分第一模型参数所对应的第一本地端。

6.根据权利要求4所述的一种基于参数共享的网络模型训练系统，其特征在于，所述令牌分配模块包括：

7.根据权利要求6所述的一种基于参数共享的网络模型训练系统，其特征在于，所述第一模型参数的质量分值是根据第一模型参数的冗余度计算的。

8.一种基于参数共享的网络模型训练方法，其特征在于，包括以下步骤：

9.一种基于参数共享的网络模型训练装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求8所述方法。

10.一种介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求8所述方法。