CN116614504B

CN116614504B - 基于斯塔克尔伯格博弈的隐私-效率联合优化方法

Info

Publication number: CN116614504B
Application number: CN202310891007.6A
Authority: CN
Inventors: 刘毅; 程子文; 朱承; 潘永琪; 孙立健; 王博文; 郑雅菱
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-09-15
Anticipated expiration: 2043-07-20
Also published as: CN116614504A

Abstract

本申请涉及一种基于斯塔克尔伯格博弈的隐私‑效率联合优化方法。所述方法包括：边缘客户端根据个性化隐私保护策略对本地模型进行更新，将模型梯度上传到区块链网络；从区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合后验证，根据验证结果从多个边缘客户端中确定边缘客户端作为本轮的获胜者；根据获胜者对应的聚合结果对训练好的初始全局模型进行训练后构建新区块；根据新区块更新区块链；根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，对效用函数进行平衡分析，根据得到的最优联合保护策略对更新后的区块链进行优化。采用本方法能够提高物联网边缘客户端隐私保护和效率。

Description

基于斯塔克尔伯格博弈的隐私-效率联合优化方法

技术领域

本申请涉及物联网技术领域，特别是涉及一种基于斯塔克尔伯格博弈的隐私-效率联合优化方法。

背景技术

近年来，通信和边缘计算技术的快速发展推动了物联网浪潮的进一步发展，并催生出一个蓬勃发展的边缘智能和边缘服务时代。具体而言，在物联网边缘应用广泛使用的情况下，大量用户操作数据已经生成于网络边缘。在人工智能模型驱动下，这些数据的潜在价值可以得到充分释放，并使得大规模监视、监测和分析等活动可以在边缘进行实现，例如健康监测、公共疾病预测、交通拥堵预警等。毫无疑问，物联网边缘终端通过为用户数据提供无处不在的监视和收集正在革新智能医疗、智慧城市、智能交通等领域。但是，当前以云为中心的架构主导着数据收集和分析方式，导致许多孤立系统和数据垄断。在这种情况下，将会引起单点故障攻击高发、应用延迟高以及客户对于数据所有权与获取利益方面低安全保护等问题。

因此，结合区块链和联邦学习（FL）的新兴协作学习可以弥补物联网边缘终端在数据共享方面的不足，并受到了广泛关注。具体而言，区块链扮演着记录学习和共享行为的公共分类账角色。借助智能合约和来自区块链的共识机制，原始FL工作流程可以通过透明交易驱动，并实现去中心化、可信任的协作学习，无需依赖于集中式服务器。反过来，FL机制将物联网边缘终端数据共享任务转化为协同模型训练问题，并分享知识更新，在缓解区块链存储限制影响的同时提高了边缘智能通过AI模型之间的协同效应。

尽管在边缘数据共享网络中使用协作学习提供了连接碎片化物联网边缘终端数据的有前途的解决方案，但基于区块链的协作学习其面临着隐私-效率交叉威胁。一方面，从用户收集的数据包含大量个人敏感信息，尽管FL可以在一定程度上减轻隐私泄露问题，但是仍然可能通过推理攻击披露私人信息，导致物联网边缘终端客户难以维护隐私保护。另一方面，在联邦学习和区块链技术结合的协作学习中，数据共享过程由学习操作和验证共识操作联合驱动。值得注意的是，这两种类型的操作并不总是同步进行，并且会消耗资源限制下端点设备宝贵资源而无意义地重复执行。这些低效和个人信息泄漏之间的重叠漏洞将不可避免地损害物联网边缘终端数据共享安全性和可持续性。许多相关工作已经被开展来改善基于区块链的协作学习中的隐私保护和培训效率，但是这些先前的工作没有考虑到动态情况、资源受限以及开放边缘网络中不同终端设备的学习偏好，并且个性化差分隐私计算和灵活的共识挖矿之间存在资源分配冲突，因此建立一个隐私保护和效率优化的联合优化机制非常重要。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高物联网边缘客户端隐私保护和效率的基于斯塔克尔伯格博弈的隐私-效率联合优化方法。

一种基于斯塔克尔伯格博弈的隐私-效率联合优化方法，所述方法应用于包括区块链以及加入区块链的数据请求者、多个边缘客户端的边缘数据共享网络，所述方法包括：

数据请求者预先构建初始全局模型并对初始全局模型进行训练，将训练好的初始全局模型发送到合格的边缘客户端中；

边缘客户端根据预定义的损失函数对训练好的初始全局模型进行训练，得到本地模型；根据个性化隐私保护策略对本地模型进行更新，得到更新后的本地模型的模型梯度并将模型梯度上传到区块链网络；从区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果；

对边缘客户端中的聚合结果进行验证，得到验证结果；根据验证结果从多个边缘客户端中确定符合预先设置的验证条件的获胜者候选人，将所有获胜者候选人中具有最小时间戳的边缘客户端作为本轮的获胜者；

根据获胜者对应的聚合结果对训练好的初始全局模型进行训练，得到最终全局模型，利用最终全局模型构建新区块；根据新区块更新区块链；

根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，对效用函数进行平衡分析得到协作学习的最优联合保护策略；

根据最优联合保护策略对更新后的区块链进行优化。

在其中一个实施例中，根据个性化隐私保护策略对本地模型进行更新，得到更新后的本地模型的模型梯度，包括：

根据个性化隐私保护策略对本地模型进行更新，得到更新后的本地模型的模型梯度为

；

其中，表示边缘客户端/>在第/>轮得到的本地模型梯度，/>表示本地模型，是拉普拉斯噪声生成函数，/>表示边缘客户端/>的任何相邻数据集/>和/>，训练梯度在第/>轮时的灵敏度，/>表示在第/>轮的隐私预算,/>表示边缘客户端/>在第/>轮时采用的个性化隐私保护策略。

在其中一个实施例中，从区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果，包括：

从区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果

；

其中，表示边缘客户端/>收到的本地模型梯度的数量，/>表示边缘客户端/>在第/>轮得到的本地模型梯度。

在其中一个实施例中，对边缘客户端中的聚合结果进行验证，得到验证结果，包括：

对边缘客户端中的聚合结果进行验证，得到验证结果为

；

其中，表示边缘客户端/>在第/>轮得到的聚合结果，/>表示边缘客户端/>在第/>轮得到的聚合结果，/>表示边缘客户端/>在区块链网络中接收到的聚合结果差异阈值，N表示边缘客户端的总数。

在其中一个实施例中，根据验证结果从多个边缘客户端中确定符合预先设置的验证条件的获胜者候选人，包括：

在区块链网络中，边缘客户端接收到广播的/>后,首先将/>与本地的聚合结果/>进行比较，如果差异小于阈值/>，则/>将被视为有效并标记为1，同时如果边缘客户端/>的验证结果/>，则边缘客户端/>成为获胜者候选人。

在其中一个实施例中，根据获胜者对应的聚合结果对训练好的初始全局模型进行训练，得到最终全局模型，利用最终全局模型构建新区块，包括：

根据获胜者对应的聚合结果对训练好的初始全局模型进行训练，得到最终全局模型为

；

其中，表示学习率，/>表示边缘客户端/>在第/>轮训练好的初始全局模型；

利用最终全局模型构建新区块为

；

其中，表示最终全局模型，/>表示时间戳，表示前一块区块的哈希值，/>表示本轮所产生的所有交易，/>表示本轮区块，/>表示客户端k的签名操作。

在其中一个实施例中，根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，包括：

将数据请求者的效用函数定义为全局模型性能带来的模型增益减去支付给边缘客户端的总奖励为；模型增益为/>，其中，表示预期的最终的模型能够带来的总收益，/>表示在根据个性化隐私保护策略对本地模型进行更新过程中的模型收敛理论上限，/>是单位成本常数；总奖励为。

在其中一个实施例中，将边缘客户端的效用函数定义为边缘客户端在进行聚合任务时的期望奖励和数据请求者支付的模型回报奖励减去本地模型训练成本、隐私泄露成本和共识挖矿成本为；

模型训练成本为，其中，/>表示本地模型训练的单位成本，/>表示边缘客户端/>在第/>轮模型个性化差分隐私保护的资源；

隐私泄露成本为，其中，/>表示隐私泄露单位成本，/>表示在第/>轮的隐私预算，/>表示本地模型大小；

共识挖矿成本为，其中，/>表示共识挖矿的单位成本，/>表示边缘客户端/>在第/>轮分配给自己参与共识挖矿的资源，/>表示挖掘决策。

在其中一个实施例中，最优联合保护策略包括最佳隐私预算和最佳挖掘决策；对效用函数进行平衡分析得到协作学习的最优联合保护策略，包括：

对数据提供者的效用函数进行的一阶导数和二阶导数计算，设置/>得到唯一的最优解，最优解为数据提供者的最优支付策略。

在其中一个实施例中，将边缘客户端的联合优化策略定义为/>，对函数/>关于/>和/>的一阶求导，设置/>和/>得到边缘客户端的最优联合策略，其中/>表示挖掘决策。

上述基于斯塔克尔伯格博弈的隐私-效率联合优化方法，本申请根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，将数据请求者被视为领导者，边缘客户端则作为追随者，对效用函数进行平衡分析得到协作学习中隐私保护和效率优化的联合优化策略，考虑隐私预算和挖掘决策之间的权衡，解决了个性化差分隐私计算和灵活的共识挖矿之间存在资源分配冲突，提高物联网边缘客户端隐私保护和效率。

附图说明

图1为一个实施例中基于斯塔克尔伯格博弈的隐私-效率联合优化方法的流程示意图；

图2为一个实施例中基于斯塔克尔伯格博弈的隐私-效率联合优化机制示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于斯塔克尔伯格博弈的隐私-效率联合优化方法，所述方法应用于包括区块链以及加入区块链的数据请求者、多个边缘客户端的边缘数据共享网络，包括以下步骤：

步骤102，数据请求者预先构建初始全局模型并对初始全局模型进行训练，将训练好的初始全局模型发送到合格的边缘客户端中；

本申请设计了一种具有紧耦合设计的基于区块链去中心化协作学习架构，数据请求者首先构建一个初始全局模型/>，并设定一些训练要求/>，例如数据类型/>、训练优化器/>、学习率/>、全局聚合次数/>等，同时定义训练者数量/>和奖励规则/>。它们被格式化为一条链上交易/>：

；

数据请求者附上数字签名后，交易/>将被发送到区块链网络中。在观察发布的训练任务后，合格的边缘客户端会提交他们的信息，而数据请求者最终会选择/>个合格的候选人来组成一个协作学习小组。

步骤104，边缘客户端根据预定义的损失函数对训练好的初始全局模型进行训练，得到本地模型；根据个性化隐私保护策略对本地模型进行更新，得到更新后的本地模型的模型梯度并将模型梯度上传到区块链网络；从区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果。

在第个训练回合中，每个被选中的客户端/>获得最新的全局模型/>。然后，以如下所示的预定义的损失函数最小化为目标，独立进行本地模型训练，以获取本地更新，

；

为了防止通过模型参数推断出的任何隐私泄露，客户端采用个人隐私增强策略，过程如下：

首先，定义差分隐私（Differential Privacy，DP）如下：对于任意的客户端和其在/>轮的隐私预算/>，如果一个隐私机制/>满足/>-差分隐私，则对于任何仅在一条记录上有所不同的相邻训练数据集/>和/>以及任何输出集合/>, 都满足如下约束：

；

通常具有更小隐私预算的差分隐私保护机制引入了更多噪音并提供了更强的保护，但会降低模型准确性。考虑到物联网终端设备的学习偏好和隐私敏感度因其动态和有限资源而各不相同，提出了个性化的DP隐私保护机制，在此机制中，拉普拉斯噪声可以由客户端根据自身条件自行确定，并添加到本地模型梯度中，在聚合之前进行处理。该过程可以进一步设计为以下两部分。

（1）隐私参数设置：考虑到训练模型的本地梯度是数值数据，因此任意客户端在第/>轮中从/>生成的拉普拉斯噪声/>定义如下：

；

其中，是拉普拉斯噪声生成函数，实际上是从一个均值为零、尺度为/>的拉普拉斯分布/>中抽取的。对于客户端/>的任何相邻数据集/>和/>，训练梯度在第轮时的灵敏度/>满足以下条件：

；

其中，表示训练损失函数，/>是用于限制/>的截断阈值，即/>。根据上述公式，噪声值与训练数据集/>,截断阈值/>以及个人隐私预算/>相关，在不同情况下可以由客户自行确定。

（2）添加个性化噪声：设置隐私参数后，进行个性化差分隐私保护的模型梯度可表示如下:

；

在添加个人化的DP噪声后，客户端使用他们的签名将扰动后的梯度/>上传到区块链网络。

通过添加个性化差分隐私噪声后，模型的性能（如精度等）势必会降低。基于此，设置了个性化差分隐私加噪后的模型收敛理论上限，如下所示，

；

其中，，/>表示学习参数，/>，/>表示差分隐私噪声，由公式拉普拉斯噪声/>计算得到，/>表示数据异构程度，/>表示噪声参数。

通过利用个性化隐私保护策略对本地模型进行更新，避免了通过模型参数推断出的任何隐私泄露。

步骤106，对边缘客户端中的聚合结果进行验证，得到验证结果；根据验证结果从多个边缘客户端中确定符合预先设置的验证条件的获胜者候选人，将所有获胜者候选人中具有最小时间戳的边缘客户端作为本轮的获胜者。

在协作学习中，由于没有集中式的聚合服务器，聚合过程将由训练者执行。为了在物联网边缘环境下保持更高的学习效率，提出了一种灵活的“聚合证明”来取代具有高能耗和浪费时间的共识机制，例如工作量证明。主要过程如下：

（1）计算全局更新：一旦客户端决定参加共识挖矿竞争，它将立即尝试从区块链中搜索本轮所有有关局部梯度的交易信息，并持续执行聚合过程以计算获得/>，如下式所示。因此，在这种情况下，客户端也同时扮演着聚合者的角色，从而减少了资源浪费（例如异步等待时间或无效空块生成），

；

其中，是客户端（在该阶段也可称为矿工）/>收到的本地模型梯度的数量。如果矿工/>获得了计算结果/>，则会立即打包这/>个交易和/>的信息到一个新区块中，附上时间戳/>，并在全网广播这个新块。

（2）共享计算结果并选取获胜者：矿工获得权利生成新区块并更新新全局模型概率不仅取决于计算获得/>的速度，还取决于/>的准确性。我们将矿工/>广播生成的新区块后等待验证结果建模如下:

；

在区块链网络中，某矿工接收到广播的/>后, 它将首先将/>与本地的计算结果/>进行比较。如果差异小于阈值/>，则该结果/>将被视为有效并标记为1。如果矿工/>获得了/>的结果，则将成为获胜者候选人。最后，在所有候选人中具有最小时间戳/>的矿工则最终被视为本轮的获胜者。

客户端将传输一笔签名交易来竞争区块生成的权利，其中包括/>，花费的时间，和时间戳/>。这提供了比传统的基于集中式参数服务器的框架更为强大的鲁棒性，因为所有节点都可以执行合并的角色。

步骤108，根据获胜者对应的聚合结果对训练好的初始全局模型进行训练，得到最终全局模型，利用最终全局模型构建新区块；根据新区块更新区块链。

花费较少时间获得有效聚合结果的参与者将成为计算下一轮更新全局模型的临时领导者，该模型公式为；

同时，临时领导者宣布一个新的块，该块定义了网络的最新状态，包括以前的块哈希，轮次/>，当且仅当该块被认为有效时，该块才被其他参与者接受。然后，一轮新的训练开始了。产生新块的交易如下所示：

；

一旦新块得到确认并附加到区块链上，获胜者负责发布更新的全局模型，然后协作学习开始新一轮。

步骤110，根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，对效用函数进行平衡分析得到协作学习的最优联合保护策略。

如图2所示，考虑到个性化差分隐私计算和灵活的共识挖矿之间存在资源分配冲突，因此建立一个隐私保护和效率优化的联合优化机制非常重要。准确地说，对于具有不同学习偏好和隐私敏感性的物联网边缘客户端来说，隐私预算和挖掘决策/>之间的权衡是必需的。本申请利用斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，在该过程中，数据请求者被视为领导者，而物联网边缘客户端则作为追随者，并根据它们的平衡分析推导出协作学习的最优隐私策略和共识挖矿策略。

由于物联网边缘终端的资源始终是有限的，并不总是能够确保有足够的资源参与以共识为驱动力的聚合过程。因此，该阶段首先提供了一个资源分析策略。假设客户端可用总资源为/>，并且将客户端/>在第/>轮分配给自己参与共识挖矿的资源/>建模如下:

；

其中，是一个比例系数，表示客户端/>愿意提供的挖矿资源的占比，即客户端/>在在第/>轮的共识挖矿策略。除此之外，将客户端/>在第/>轮模型个性化差分隐私保护的资源建模如下:

；

在上式中，假设的值与模型大小/>、计算速率参数/>和隐私计算效用系数呈正相关，与隐私预算/>呈负相关。对于资源受限的物联网边缘终端设备而言，资源分配应遵守以下不等式:

；

然后本申请定义数据请求者的目标是在支付的预算内获得既定要求的全局模型。为了实现这个目标，效用被定义为模型性能带来的模型增益减去支付给数据提供者的总奖励/>：

模型增益：假设所有更新后模型的全局隐私机制满足/>，并将建模为添加定制噪声后协作训练性能量化测量：

；

其中，表示预期的最终的模型能够带来的总收益，/>是单位成本常数。/>与模型收敛性能/>呈负相关关系。/>越小，则表示模型精度水平越高，并且因此可以获得更大的模型收益。

支付奖励：假设数据请求者是场景中的领导者，所以支付奖励/>实际上是每个参与者所有奖励的总和，旨在鼓励他们采用最适合自己的联合优化策略。因此有：

；

其中，是初始奖励列表,/>。

综上所述，数据请求者在第轮的效用可以建模为：

；

边缘客户端的效用函数:如图2所示，任意一个物联网边缘终端的数据者的效用受收到的奖励增益和学习成本的影响。其中，奖励增益包括链上的共识挖矿任务的期望奖励/>和数据请求方支付模型回报/>。为了公平起见，所有客户端的/>和/>都设置为与其分配的共识挖矿资源和隐私预算值成比例，如下：

；

至于学习成本，定义为有以下3部分组成：

训练成本：训练成本/>建模如下：

；

其中，模型训练的单位成本。

隐私泄露成本:将隐私泄漏成本视为对客户端/>部分隐私泄露的经济补偿。将隐私泄露成本建模为与其个性化隐私预算/>成正比的函数，如下所示，

；

其中，是隐私泄露单位成本。

共识挖矿成本：共识挖矿成本/>建模为/>，其中，/>是共识挖矿的单位成本。

综述所述，数据提供者在第轮的效用可以建模为：

；

数据请求者和边缘客户端都在协作学习的每一轮中最大化自己的效用函数。在这个两阶段Stackelberg博弈过程中，博弈过程的领导者（即数据请求方）可以首先调整支付。然后，追随者（即边缘客户端）将选择最佳隐私策略（由/>表示）和最佳挖掘策略（由/>表示），以最大化他们的效用。优化问题可以表述如下：

对于数据请求者而言：；

对于数据提供者而言：；

其中，和/>。/>表示不包括参与者/>的集合。

本申请使用反向归纳法来分析斯塔克伯格博弈的均衡解决方案。首先，分析追随者的博弈效用函数，以确定每个数据提供者的联合保护策略（即最佳隐私预算和最佳挖掘决策）。然后转向数据请求者，通过最大化其效用函数找到最优支付。

数据提供者的最优联合策略：将任参与者的联合优化策略定义为/>，并对函数/>关于/>和/>的一阶求导，可得：

；

接着对其进行二阶求导可得：

；

由上式结果分析可知，因此，每个参与者/>的效用函数在隐私预算/>和挖掘决策/>方面是严格的凸函数。由凸函数性质可知，具有唯一的纳什均衡解，并且可以通过设置/>和/>求解这个唯一解，得到最优联合策略。证明函数设置有效。这里，给出了隐私预算/>和挖掘决策/>之间的关系，如下：

；

边缘客户端的最优支付策略：关于数据请求者的支付策略，我们通过对其效用函数进行关于/>的一阶导数和二阶导数计算，分析结果如下：/>

；

以及

；

由公式可知，/>，可知。也就是说，对于数据请求者来说，可以通过设置/>来确定其唯一的最优解，即最优支付策略。证明函数设置有效。

步骤112，根据最优联合保护策略对更新后的区块链进行优化。

在更新后的区块链的协作学习中利用最优联合保护策略，即最优隐私策略和共识挖矿策略来进行模型优化和聚合计算，能够解决个性化差分隐私计算和灵活的共识挖矿之间存在资源分配冲突，提高物联网边缘客户端隐私保护和效率。

上述基于斯塔克尔伯格博弈的隐私-效率联合优化方法中，本申请根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，将数据请求者被视为领导者，边缘客户端则作为追随者，对效用函数进行平衡分析得到协作学习中隐私保护和效率优化的联合优化策略，考虑隐私预算和挖掘决策之间的权衡，解决了个性化差分隐私计算和灵活的共识挖矿之间存在资源分配冲突，提高物联网边缘客户端隐私保护和效率。

；

对边缘客户端中的聚合结果进行验证，得到验证结果为

；

利用最终全局模型构建新区块为

；

其中，表示最终全局模型，/>表示时间戳，/>表示前一块区块的哈希值，/>表示本轮所产生的所有交易，/>表示本轮区块，/>表示客户端k的签名操作。

将数据请求者的效用函数定义为全局模型性能带来的模型增益减去支付给边缘客户端的总奖励为；模型增益为/>，其中，/>表示预期的最终的模型能够带来的总收益，/>表示在根据个性化隐私保护策略对本地模型进行更新过程中的模型收敛理论上限，/>是单位成本常数；总奖励为/>。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于斯塔克尔伯格博弈的隐私-效率联合优化方法，其特征在于，所述方法应用于包括区块链以及加入区块链的数据请求者、多个边缘客户端的边缘数据共享网络，所述方法包括：

数据请求者预先构建初始全局模型并对所述初始全局模型进行训练，将训练好的初始全局模型发送到合格的边缘客户端中；

边缘客户端根据预定义的损失函数对所述训练好的初始全局模型进行训练，得到本地模型；根据个性化隐私保护策略对所述本地模型进行更新，得到更新后的本地模型的模型梯度并将所述模型梯度上传到区块链网络；从所述区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果；

对边缘客户端中的聚合结果进行验证，得到验证结果；根据所述验证结果从多个边缘客户端中确定符合预先设置的验证条件的获胜者候选人，将所有获胜者候选人中具有最小时间戳的边缘客户端作为本轮的获胜者；

根据所述获胜者对应的聚合结果对所述训练好的初始全局模型进行训练，得到最终全局模型，利用所述最终全局模型构建新区块；根据所述新区块更新区块链；

根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，对所述效用函数进行平衡分析得到协作学习的最优联合保护策略；

根据所述最优联合保护策略对更新后的区块链进行优化。

2.根据权利要求1所述的方法，其特征在于，根据个性化隐私保护策略对所述本地模型进行更新，得到更新后的本地模型的模型梯度，包括：

根据个性化隐私保护策略对所述本地模型进行更新，得到更新后的本地模型的模型梯度为

；

3.根据权利要求2所述的方法，其特征在于，从所述区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果，包括：

从所述区块链网络中搜索本轮能够接收到的本地模型梯度进行聚合，得到聚合结果

；

4.根据权利要求1所述的方法，其特征在于，对边缘客户端中的聚合结果进行验证，得到验证结果，包括：

对边缘客户端中的聚合结果进行验证，得到验证结果为

；

5.根据权利要求4所述的方法，其特征在于，根据所述验证结果从多个边缘客户端中确定符合预先设置的验证条件的获胜者候选人，包括：

在区块链网络中，边缘客户端接收到广播的/>后,首先将/>与本地的聚合结果进行比较，如果差异小于阈值/>，则/>将被视为有效并标记为1，同时如果边缘客户端/>的验证结果/>，则边缘客户端/>成为获胜者候选人。

6.根据权利要求4所述的方法，其特征在于，根据所述获胜者对应的聚合结果对所述训练好的初始全局模型进行训练，得到最终全局模型，利用所述最终全局模型构建新区块，包括：

根据所述获胜者对应的聚合结果对所述训练好的初始全局模型进行训练，得到最终全局模型为

；

利用所述最终全局模型构建新区块为

；

7.根据权利要求4所述的方法，其特征在于，根据斯塔克尔伯格博弈的奖励机制设计数据请求者和边缘客户端的效用函数，包括：

将数据请求者的效用函数定义为全局模型性能带来的模型增益减去支付给边缘客户端的总奖励为；所述模型增益为，其中，/>表示预期的最终的模型能够带来的总收益，/>表示在根据个性化隐私保护策略对本地模型进行更新过程中的模型收敛理论上限，/>是单位成本常数；所述总奖励为/>。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将边缘客户端的效用函数定义为边缘客户端在进行聚合任务时的期望奖励和数据请求者支付的模型回报奖励减去本地模型训练成本、隐私泄露成本和共识挖矿成本为；

所述模型训练成本为，其中，/>表示本地模型训练的单位成本，/>表示边缘客户端/>在第/>轮模型个性化差分隐私保护的资源；

所述隐私泄露成本为，其中，/>表示隐私泄露单位成本，/>表示在第/>轮的隐私预算，/>表示本地模型大小；

所述共识挖矿成本为，其中，/>表示共识挖矿的单位成本，/>表示边缘客户端/>在第/>轮分配给自己参与共识挖矿的资源，表示挖掘决策。

9.根据权利要求4所述的方法，其特征在于，所述最优联合保护策略包括最佳隐私预算和最佳挖掘决策；对所述效用函数进行平衡分析得到协作学习的最优联合保护策略，包括：

对数据提供者的效用函数进行的一阶导数和二阶导数计算，设置/>得到唯一的最优解，所述最优解为数据提供者的最优支付策略。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

将边缘客户端的联合优化策略定义为/>，对函数关于/>和/>的一阶求导，设置和/>得到边缘客户端的最优联合策略，其中/>表示挖掘决策。