CN115510494A

CN115510494A - 一种基于区块链与联邦学习的多方安全数据共享方法

Info

Publication number: CN115510494A
Application number: CN202211253419.9A
Authority: CN
Inventors: 彭长根; 龙洋洋; 陈玉玲; 谭伟杰; 豆慧
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2022-12-23
Anticipated expiration: 2042-10-13
Also published as: CN115510494B

Abstract

本发明公开了一种基于区块链与联邦学习的多方安全数据共享方法。该方法实施步骤如下：数据请求者向其附近的超级节点发出一个数据共享请求，一旦附近的超级节点接收到数据共享请求，它会验证请求者的ID，并对区块链进行检索以确认在此之前该请求是否被处理过。在该过程中，由委员会节点验证分布式数据提供者的模型更新并执行共识过程。数据请求者和数据提供者之间的数据共享事件以事务的形式生成，并在区块链中广播。最后，系统上传全局模型到区块链，返回结果给任务请求者。数值结果表明，该发明能有效防止工业物联网数据中毒攻击，可以有效降低共识计算量，提高模型更新的隐私保护能力，实现工业物联网数据的多方安全共享。

Description

一种基于区块链与联邦学习的多方安全数据共享方法

技术领域

本发明属于工业物联网领域，具体涉及一种基于区块链与联邦学习的多方安全数据共享方法。

背景技术

工业物联网中的数据具有规模大、实时性高、结构复杂的特点，使得工业物联网的安全性和安全需求得到了前所未有的增长。因此，如何在工业物联网中保护和使用这些有价值的数据，以高效、安全、经济的方式共享成为数据所有者和提供商亟待解决的问题。近年来，随着人工智能的发展，人们开始关注基于机器学习的隐私保护。区块链具有去中心化、不可篡改、开放透明和可追溯性等特性，最近被用于工业物联网的联邦学习，以提供数据完整性和激励，吸引足够的客户数据和计算资源用于模型训练。但工业物联网应用需要系统的、整体的体系结构设计来支持系统的开发以及有效的方法来解决工业物联网设备的多方数据共享中数据异构的挑战，而在多个不受信任方之间进行分布式数据共享则需要新的联邦学习机制。2019年Li等人在论文《Smartpc:Hierarchical pace control in real-time federated learning system》中为分层在线速度的智能PC控制框架提出了联邦学习策略，在节约能源的同时平衡训练时间和模型精度。但在传统的联邦学习中，中央服务器将维护全局机器学习模型，这可能会带来不良的安全问题。2022年Feng等人在论文《Blockchain-empowered decentralized horizontal federated learning for 5g-enabled UAVs》针对5G无人机提出了一种区块链授权的分散跨域联邦学习框架，并利用同态加密和多方计算抵御对本地更新的攻击。

作为解决计算和存储资源受限问题的一种方法，区块链在分布式场景中协同使用数据有广泛的应用。但分布式多方数据共享在工业物联网中的应用也仍然面临着一些挑战：一是现有工作通常针对中央服务器或协作者的攻击威胁，而忽略了不诚实协作者破坏联合建模过程所造成的模型质量问题；二是数据提供者在分布式多方数据共享过程中对数据隐私泄露的担忧，导致数据提供者共享数据的意愿持续下降。

综上所述，虽然研究人员们取得了最新的进展和研究成果，但联邦学习中存在的一些分布式安全和效率漏洞，例如共识代价和中毒攻击，这些都还有待改进。通过提供基于区块链的安全模型共享和具有多重隐私保护的联邦学习，在解决分布式安全和效率漏洞问题上会有一定的帮助。

发明内容

本发明的目的是提出一种基于区块链与联邦学习的多方安全数据共享方法，以解决上述技术问题。

为实现上述目的，本发明提供了如下方案：

一种基于区块链与联邦学习的多方安全数据共享方法，该方法包括构建基于区块链与联邦学习的多方安全数据共享模型，该模型可分为两个阶段：数据共享阶段、共识阶段。

(1)数据共享阶段

采用该方法进行一次数据共享的步骤分为：数据共享任务初始化、数据检索、本地模型训练、全局模型聚合、结果反馈；具体过程如下：

(1.1)数据共享任务初始化

任务发起者r向其附近的超级节点SN_req发出一个数据共享请求Req＝{r₁,r₂,...,r_n}，并支付一定数量的代币。请求包含r的ID，数据类别和时间戳，r使用私钥SK_r的数字签名。

(1.2)数据检索

一旦附近的节点SN接收到数据共享请求，它会验证请求者r的ID，并对区块链进行检索以确认在此之前该请求是否被处理过。如果有记录，将从区块链下载模型作为请求r_i的应答返回。

(1.3)本地模型训练

各相关参与节点分别采用梯度下降法进行模型训练。每个参与者使用它的本地数据集和初始模型参数w_ini进行本地模型训练。在t轮迭代中，每个参与节点p_i∈P通过计算局部梯度下降

根据w_i(t-1)在其本地数据D_i上训练一个本地数据模型w_i(t)，如下式所示：

其中，γ为分布式梯度下降的学习率。

然后p_i将训练好的模型参数w_i(t)发送给其他参与者，并上传到区块链进行进一步的验证和聚合。

(1.4)全局模型聚合

一旦接收到模型参数w_i(t)，p_i+1将根据w_i(t)使用其本地数据D_i+1训练一个新的本地数据模型w_i(t+1)，并向其他参与者广播w_i(t+1)。数据模型在参与者之间进行迭代训练。最后，将参与节点的本地模型w_i(t)进行加权，得到全局模型w(t)，如下式所示：

其中，N为节点数量，C_i为节点i在t轮迭代中对整个训练过程的贡献。

(1.5)结果反馈

数据请求者和数据提供者之间的数据共享事件以事务的形式生成，并在区块链中广播。所有记录收集成区块，由收集节点进行加密和签名。经过多次迭代训练，得到了请求任务对应的全局数据模型w(t)。系统根据每个参与者的贡献度，将任务请求者支付的代币作为奖励分配给参与模型训练的数据持有者，这可以激励下次数据持有者积极参与请求任务的模型训练。最后，系统上传并存储全局模型w(t)到区块链，返回结果w(t)给任务请求者。

(2)共识阶段

采用该方法达成一次有效共识的步骤分为：委员会节点及领导选择、本地模型训练、模型更新验证；具体过程如下：

(2.1)委员会节点及领导选择

共识过程是由选定的委员会根据模型训练的质量来选举的。委员会节点是所有参与者节点的一个子集，负责驱动整个共识过程并对请求的数据模型进行学习。准确率最高的委员会节点将作为领导者，汇总这些本地更新，并将汇总结果发送给其他委员会节点进行验证，其余的委员会节点则作为当前共识过程的跟随者。

(2.2)本地模型训练

各参与节点p_i协作训练由数据共享任务请求者发布的初始化全局模型w_ini，并迭代生成他们自己的本地模型更新w_i。然后，各参与节点将其的本地模型更新w_i和数字签名上传到委员会。交易表示FL过程中更新的本地模型w_i(t)的参数，可以记录为ENC(sk_i(t_m),pk_i)。由于大多数节点是诚实的，并希望其自身的交易能在短期内得到验证，我们为每个交易生成一个权重，以提高共识效率，该权重由发行节点计算。交易的权重W(w_i(t))与模型训练的准确性和交易发起节点投入的计算资源成正比，其计算公式是

其中|d_i|是参与者p_i用于本地训练的数据大小，

是参与者p_i用于本地聚合本地模型的累积数据大小，ρ∈[0,1)是一个小的控制因子。s_i是车辆参与者p_i在其本地训练中执行的时间，Acc(w_i(t))是交易发起节点p_i提供的准确度，可以定义为

其中F_i(w)是参与参与者p_i协同训练任务发布者发布的初始化模型参数。

为了确保交易权重的可靠性，我们根据交易本身的权重和其他M笔交易根据验证的准确性估计的权重之和，定义交易的累积权重CW(w_i(t))为

其中W(j)是第j笔交易验证w_i(t)的权重，Acc_j是第j笔交易的发起节点计算的w_i(t)的准确度。

(2.3)模型更新验证

在收到本地模型更新后，委员会节点p_j首先选择累计权重较高的交易进行验证。而后p_j将通过验证发送者的数字签名来验证其合法性，并使用其本地数据集评估本地模型更新的质量。需要注意的是，由于大多数参与节点是诚实的，并且希望他们的交易在短期内得到验证，委员会成员更有可能选择累计权重高的交易进行验证。

委员会节点p_j凭借其自身的数据集，只有训练精度高于给定阈值σ的本地模型更新的交易才会被接受并发送给当前共识过程的领导者，阈值σ是由数据共享任务请求者根据实际应用要求确定。经过t轮的本地训练和聚合，领导者搜集符合条件的本地模型更新，并进行全局聚合。然后，所有的全局模型w(t)会被领导者打包成一个区块

并进行数字签名，区块B_k将被广播给其他跟随者进行验证。注意，H_k是区块B_k的区块头。当跟随者收到B_k时，会验证领导者的数字签名、交易数据、以及所有交易的签名。

本发明的有益效果：本发明提出了一种基于区块链的联合学习方法，用于工业物联网中的多方安全数据共享；本发明通过共享数据模型而不是原始数据，将数据共享问题转化为机器学习问题，使工业物联网终端设备以高效、安全、经济的方式共享其有价值的数据；此外，通过本发明中基于训练质量的共识机制，可以有效降低共识过程的计算量，减少恶意攻击，以及提高多方数据共享过程的准确性和效率。

附图说明

图1为本发明的机制架构图；

图2为本发明的工作流程图；

图3为本发明的基于区块链的联邦学习的共识过程图；

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的架构由区块链模块和分布式客户端组成，如图1所示。区块链由配备了计算和存储资源的实体维护，称为超级节点，可以是边缘计算中的边缘服务器，蜂窝网络中的基站等。出于隐私的考虑和存储的限制，本方法只使用区块链来检索相关数据和管理数据的可访问性，而不记录原始数据。区块链模块中有两种类型的事务：检索事务和数据共享事务。此外，区块链记录了所有数据的共享事件，可以跟踪数据的使用情况，以便进一步审计。客户端可以是机构、智能手机或个人电脑，每个客户端都持有一个本地数据集。客户端可以在自己本地的数据集上训练一个共同的模型，并通过有线或无线连接将他们的本地更新上传到委员会节点。

本发明的工作流程图如图2所示，当任务发起者向其附近的超级节点SN发出一个数据共享请求Req时，其中Fx＝{f1,f2,...,fx}。SN首先搜索区块链，确认之前是否处理过请求Req。如果区块链中有记录，则将请求转发到缓存节点，然后该节点将缓存结果作为结果发送给请求者。否则，对于一个新的数据共享请求，执行任务相关方检索过程，根据注册记录选择参与节点。选定的参与节点一起学习联邦数据模型M。一旦训练好模型，数据请求者r使用Req＝{f1,f2,...,fx}作为模型M的输入，得到对应的共享结果M(Req)。数据模型M可以接受查询集F_x中的任何查询f_x，并为查询提供结果M(f_x)。

具体步骤如下：

(1)数据共享阶段

(1.1)数据共享任务初始化

(1.2)数据检索

(1.3)本地模型训练

各相关参与节点采用分布梯度下降法进行模型训练。每个参与者使用它的本地数据集和初始模型参数w_ini进行本地模型训练。在t轮迭代中，每个参与节点p_i∈P通过计算局部梯度下降

其中，γ为分布式梯度下降的学习率。

(1.4)全局模型聚合

(1.5)结果反馈

(2)共识阶段

如何将附加质量验证所带来的资源成本降至最低，是验证方案所关注的主要问题。通过在多方数据共享场景中使用所提出的基于质量的共识协议，本方法将质量验证过程与联邦学习的更新过程结合起来。

在本方法中有N个代表，其中恶意代表的最大数量为G。为了确保区块链的安全性，假设N>3G+1是令人满意的，领导者在每一轮共识结束时更换。详细的共识过程如图3所示。采用该方法达成一次有效共识的步骤分为：委员会节点及领导选择、本地模型训练、模型更新验证；具体过程如下：

(2.1)委员会节点及领导选择

(2.2)本地模型训练

其中d_i是参与者p_i用于本地训练的数据大小，

为了确保交易权重的可靠性，我们根据交易本身的权重和其他M笔交易根据验证的准确性估计的声誉之和，定义交易的累积权重CW(w_i(t))为

(2.3)模型更新验证

综上所述：本发明的基于区块链的联邦学习方法适用于工业物联网中的多方数据共享。该方法通过共享数据模型而不是原始数据，将数据共享问题转化为机器学习问题，使工业物联网终端设备以高效、安全、经济的方式共享其有价值的数据。通过本发明中基于训练质量的共识协议，可以有效减少共识计算量，减少恶意参与节点的模型中毒、恶意服务器的隐私泄露等恶意攻击。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述方法包括构建基于区块链与联邦学习的多方安全数据共享模型，该模型分为两个阶段：数据共享阶段和共识阶段；该方法包括如下步骤：数据请求者向其附近的超级节点发出一个数据共享请求，一旦附近的超级节点接收到数据共享请求，它会验证请求者的ID，并对区块链进行检索以确认在此之前该请求是否被处理过；如果有记录，将从区块链下载模型作为请求的应答返回；若无，则选择各相关参与节点采用分布梯度下降法进行模型训练；在该过程中，由委员会节点验证分布式数据提供者的模型更新并执行共识过程；数据请求者和数据提供者之间的数据共享事件以事务的形式生成，并在区块链中广播；最后，系统上传全局模型到区块链，返回结果给任务请求者。

2.根据权利要求1所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，在数据共享阶段中，进行一次数据共享的步骤分为：数据共享任务初始化、数据检索、本地模型训练、全局模型聚合、结果反馈；其中，所述数据共享任务初始化包括：任务发起者r向其附近的超级节点SN_req发出一个数据共享请求Req＝{r₁,r₂,...,r_n}，并支付一定数量的代币；请求包含r的ID，数据类别和时间戳，r使用私钥SK_r的数字签名。

3.根据权利要求2所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述数据检索包括：附近的节点SN接收到数据共享请求，它会验证请求者r的ID，并对区块链进行检索以确认在此之前该请求是否被处理过；如果有记录，将从区块链下载模型作为请求r_i的应答返回。

4.根据权利要求2所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述本地模型训练包括：各相关参与节点分别采用梯度下降法进行模型训练；每个参与者使用它的本地数据集和初始模型参数w_ini进行本地模型训练；在t轮迭代中，每个参与节点p_i∈P通过计算局部梯度下降

其中，γ为分布式梯度下降的学习率；

5.根据权利要求2所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述全局模型聚合包括：一旦接收到模型参数w_i(t)，p_i+1将根据w_i(t)使用其本地数据D_i+1训练一个新的本地数据模型w_i(t+1)，并向其他参与者广播w_i(t+1)；数据模型在参与者之间进行迭代训练；最后，将参与节点的本地模型w_i(t)进行加权，得到全局模型w(t)，如下式所示：

6.根据权利要求2所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述结果反馈包括：数据请求者和数据提供者之间的数据共享事件以事务的形式生成，并在区块链中广播；所有记录收集成区块，由收集节点进行加密和签名；经过多次迭代训练，得到了请求任务对应的全局数据模型w(t)；系统根据每个参与者的贡献度，将任务请求者支付的代币作为奖励分配给参与模型训练的数据持有者，以激励下次数据持有者积极参与请求任务的模型训练；最后，系统上传并存储全局模型w(t)到区块链，返回结果w(t)给任务请求者。

7.根据权利要求1所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，在共识阶段中，采用该方法达成一次有效共识的步骤分为：委员会节点及领导选择、本地模型训练、模型更新验证；其中，所述委员会节点及领导选择包括：共识过程是由选定的委员会根据模型训练的质量来选举的；委员会节点是所有参与者节点的一个子集，负责驱动整个共识过程并对请求的数据模型进行学习；准确率最高的委员会节点将作为领导者，汇总这些本地更新，并将汇总结果发送给其他委员会节点进行验证，其余的委员会节点则作为当前共识过程的跟随者。

8.根据权利要求7所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述本地模型训练包括：各参与节点p_i协作训练由数据共享任务请求者发布的初始化全局模型w_ini，并迭代生成他们自己的本地模型更新w_i；然后，各参与节点将其的本地模型更新w_i和数字签名上传到委员会；交易表示FL过程中更新的本地模型w_i(t)的参数，可以记录为ENC(sk_i(t_m),pk_i)；为每个交易生成一个权重，以提高共识效率，该权重由发行节点计算；交易的权重W(w_i(t))与模型训练的准确性和交易发起节点投入的计算资源成正比，其计算公式是：

其中|d_i|是参与者p_i用于本地训练的数据大小，

是参与者p_i用于本地聚合本地模型的累积数据大小，ρ∈[0,1)是一个小的控制因子；s_i是车辆参与者p_i在其本地训练中执行的时间，Acc(w_i(t))是交易发起节点p_i提供的准确度，可以定义为：

其中F_i(w)是参与参与者p_i协同训练任务发布者发布的初始化模型参数；

根据交易本身的权重和其他M笔交易根据验证的准确性估计的权重之和，定义交易的累积权重CW(w_i(t))为：

9.根据权利要求7所述的基于区块链与联邦学习的多方安全数据共享方法，其特征在于，所述模型更新验证包括：在收到本地模型更新后，委员会节点p_j首先选择累计权重较高的交易进行验证；而后p_j将通过验证发送者的数字签名来验证其合法性，并使用其本地数据集评估本地模型更新的质量；委员会节点p_j凭借其自身的数据集，只有训练精度高于给定阈值σ的本地模型更新的交易才会被接受并发送给当前共识过程的领导者，阈值σ是由数据共享任务请求者根据实际应用要求确定；经过t轮的本地训练和聚合，领导者搜集符合条件的本地模型更新，并进行全局聚合；然后，所有的全局模型w(t)会被领导者打包成一个区块

并进行数字签名，区块B_k将被广播给其他跟随者进行验证；当跟随者收到B_k时，会验证领导者的数字签名、交易数据、以及所有交易的签名。