CN115345317B

CN115345317B - 一种基于公平理论的面向联邦学习的公平奖励分配方法

Info

Publication number: CN115345317B
Application number: CN202210937456.5A
Authority: CN
Inventors: 王伟; 陈国荣; 马洪亮; 赵庆展; 李超; 段莉; 金�一; 李浥东; 刘吉强
Original assignee: Beijing Jiaotong University; Shihezi University
Current assignee: Beijing Jiaotong University; Shihezi University
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2023-04-07
Anticipated expiration: 2042-08-05
Also published as: CN115345317A; US11935137B2; US20240046372A1

Abstract

本发明提供了一种基于公平理论的面向联邦学习的公平奖励分配方法。该方法包括：将亚当斯的公平理论应用于联邦学习中，参与方综合分析对联邦任务投入的所有因素后，给出本次任务的期望奖励，任务发布者利用参与方的历史任务计算出参与方的声望；参与方利用本地数据参与每轮训练任务，评估参与方的数据贡献、模型贡献和等待时间补贴三因素，综合三因素的贡献结果评估参与方的贡献；当全局模型收敛后，以参与方的实际奖励与期望奖励尽可能接近为目标，根据公平奖励目标函数动态调整三因素权重，获取并分发参与方的实际奖励。本发明综合考虑不同参与方的实际情况，以尽可能满足所有参与方的期望为目标分配实际奖励，实现满足参与方期望的公平性。

Description

一种基于公平理论的面向联邦学习的公平奖励分配方法

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种基于公平理论的面向联邦学习的公平奖励分配方法。

背景技术

联邦学习(Federated Learning)作为一种机器学习方法，实现在多个数据拥有者(参与方)中协同训练全局模型，同时保持训练数据不出本地。联邦学习是数据安全和隐私保护的重要解决方案，引起学术界及工业界的广泛关注。多数传统机器学习方法严重依赖训练的数据量，联邦学习也有这样的倾向性，因此，吸引大量参与方参与联邦学习任务是获得优质模型的重要保证。然而，只考虑参与方数量是不充分的，因为联邦学习存在数据异构(如非独立同分布数据)和资源异构(如计算资源)的问题，参与方的设备具有多样性，既包括算力充足的服务器，也存在资源受限的可穿戴设备，资源受限的设备也是联邦学习任务重要的数据来源。因此，需要设计有效的激励机制来补偿参与方的训练成本，促进异构参与方积极参与训练。

确保激励机制的公平性对于吸引高质量参与方和创建可持续发展的联邦学习生态系统至关重要。值得注意的是，公平并不意味着平等。如果一种激励机制给每一个参与方分配均等的奖励，而忽视参与方的数据和资源等方面的差异，就会产生不公平的现象，这不仅会助长搭便车攻击，也使一些高质量参与方因为受到不公平的对待而不愿意参加联邦学习任务。为此，很多公平感知的激励机制被提出，从本质上来说，这些方法首先评估参与方对全局模型的贡献，然后根据贡献值分配对应的奖励。

这些公平感知的激励机制隐含了一个假设条件，即所有的参与方对基于贡献率分配奖励的方法感到满意，但是这显然不符合社会心理学的研究，所以在很多实际场景中并不成立。因此，设计一种面向联邦学习的基于公平理论的公平奖励分配方法，提供参与方感知的公平性来提高参加联邦学习的积极性，是非常有意义且重要的。

目前，现有技术中的针对奖励公平的方法主要根据固定的贡献-奖励率给联邦学习参与方分配奖励，分为以下四种：

基于数据贡献的分配方法：设置数据质量评估指标，如数据量、数据分布、数据类型等，根据评估结果优先给高数据质量参与方分配更多奖励，而使低质量参与方获得的奖励较少，达到吸引高质量参与方的目的。

基于模型贡献的分配方法：设置对参与方更新模型的评估指标，如模型准确率、模型评分等，根据贡献评估结果，将不同性能的聚合模型作为奖励分配给参与方，使不同模型贡献的参与方获得不同性能的聚合模型。

基于效用博弈的分配方法：效用博弈在劳动力市场和竞争环境中广泛存在，其有效性取决于奖励分配。该方法根据参与方的效用来公平的分配奖励，常用的三种分配方法是平等奖励分配、边际收益和边际损失。

基于声望机制的分配方法：将声望作为一种非金钱激励方式，实现对参与方的奖励。每个参与方都维护一个声望分值，通过评估他们提交的数据来评估参与方的贡献，实现贡献与声望匹配的奖励分配方法。

上述现有技术中的针对奖励公平的方法的缺点包括：现有基于贡献的评估方法，根据贡献率分配奖励实现公平性，这些方案假设所有参与方均认可基于贡献-奖励率的公平性。但是，这种假设是不合理且不全面的，因为被评估的贡献很难包含参与方投入到联邦学习任务的所有方面。根据亚当斯提出的公平理论可知，公平是一个相对的概念，个体对公平待遇的评价和感知依赖于投入-收益比，收益是指获得的奖励，而投入不仅包含被评估的贡献，还有很多其他因素，如热情、经验和宽容等。所以，只依靠贡献评估的方式难以实现符合参与方心理需求的公平性。

发明内容

本发明的实施例提供了一种基于公平理论的面向联邦学习的公平奖励分配方法，以实现联邦学习任务的奖励公平。

为了实现上述目的，本发明采取了如下技术方案。

一种基于公平理论的面向联邦学习的公平奖励分配方法，包括：

将亚当斯的公平理论应用于联邦学习中，实现奖励分配的公平性；在准备阶段，获取参与方的声望及期望奖励；在训练过程中，参与方利用本地数据参与每轮训练任务，同时，评估参与方的数据贡献、模型贡献和等待时间补贴，获取三因素贡献结果；当全局模型收敛后进入奖励分配阶段，以参与方的实际奖励与期望奖励尽可能接近为目标，根据公平奖励目标函数动态调整三因素权重，获取并分发参与方的实际奖励；上述过程的数据均需上传到区块链。本发明综合考虑不同参与方的实际情况，以尽可能满足所有参与方的期望为目标分配实际奖励，实现满足参与方期望的公平性。

优选地，所述的将亚当斯的公平理论应用于联邦学习中，实现奖励分配的公平性，包括：

亚当斯的公平理论认为，个体感知的公平性不仅关注个体(l)与他人(o)的投入(I)-收益(O)比率是否相同，也关注个体目前(c)和过去(h)的投入(I)-收益(O)比率是否相同。收益是指获得的奖励，而投入是指个体为完成任务所贡献的各种因素，包括教育水平、努力程度、时间和容忍度等，不同个体在评估投入因素时可因人而异。亚当斯公平理论可用如下公式表示：

本方法将亚当斯公平理论应用在联邦学习中。联邦学习将参与方的奖励结果公开在区块链上，因此，收益(O)可被所有参与方准确获取，但是，联邦学习保持训练数据在参与方本地，并且参与方之间不能直接通信，因此，难以获取参与方的投入(I)，如数据、算力、时间、积极性等。为此，本方法把公平理论的投入和收益转变为期望奖励E(Expected Reward,ER)和实际奖励A(Actual Reward,AR)，则有：

其中，i和j表示不同的参与方，参与方i将收益转变为ARA_i，并利用个性化的投入评估函数f_i将投入I_i转变为ERE_i，那么，公式(1)和(2)可转变为公式(4)和(5)，公式(4)满足个体与他人的ER(E)-AR(A)比率相同，公式(5)满足个体目前(c)和过去(h)的ER(E)-AR(A)比率相同。本方法提出期望公平来同时满足公式(4)和(5)，将期望公平的目标简化为：

由公式(6)可知，本方法通过让所有参与方的AR与ER尽可能接近来满足公平理论，从而实现参与方期望的公平性，这也可以避免公平理论中个体在感知他人的投入时可能存在的个体偏见问题。

优选地，所述的在准备阶段，获取参与方的声望及期望奖励，包括：

每个参与方在提出ER时可以基于个体认知差异而考虑不同的因素，如本地的数据质量、设备资源、经验和积极性等，可涵盖部分或所有与联邦学习任务相关的因素。参与方i综合分析对联邦任务投入的所有因素后，给出本次任务的期望奖励ER，即E_i。

参与方在无经验或者恶意的情况下，可能提出不符合实际期望的ER。为此，引用声望机制应对该问题。任务发布者利用历史任务计算参与方声望，用于评估参与方给出ER的可信度。结合每个参与方历史的联邦学习任务，评估每次任务ER和AR的匹配程度，匹配度越高则结果越好，并利用遗忘因子作为系数，距离当前时刻越近的任务比重越高，由此得到参与方的声望值。

任务发布者根据参与方的历史声望记录，获取参与方i的声望V_i，计算公式如下：

其中，

与

是参与方i在第t次任务中的实际奖励AR与期望奖励ER，

为第t次任务的遗忘因子。

优选地，所述的在训练过程中，参与方利用本地数据参与每轮训练任务，同时，评估参与方的数据贡献、模型贡献和等待时间补贴，获取三因素贡献结果，包括：

在训练过程中，参与方按照联邦学习的训练规则，参与每轮的训练任务，如在第r轮，首先从区块链下载第r-1轮聚合的全局模型，利用本地数据进行训练，然后将更新后的本地模型上传到区块链。当聚合第r轮的全局模型后，重复该训练过程，直至模型收敛。

在模型训练的同时，需要评估参与方的贡献，但是单一维度难以准确获得参与方贡献。首先，在联邦学习中，参与方的训练数据保持在本地，难以直接获取和准确评估，因此，只依靠数据维度的单一评估方式是不合理的。其次，评估参与方提交的本地模型可以得到模型维度的贡献，但是在non-IID数据分布下，无法选择合适的测试数据集对本地模型进行准确的评估。其次，数据和模型维度的评估难以度量参与方贡献给训练任务的设备资源，如内存、CPU及网络带宽等。最后，参与方的积极性对联邦学习也至关重要，因为即使参与方拥有足够的设备资源，但是，如果参与方消极的训练和延迟上传本地模型，会严重延长训练时间，给整个任务带来负担。值得注意的是，设备资源和积极性的度量可以通过时间维度进行判断，因为在本地模型训练和上传的过程中，较好的设备资源和积极性只需少量训练时间，这也就意味着花费更多等待时间。因此，利用补贴等待时间的方式既考虑了参与方的时间成本，又能提高训练积极性。

通过上述分析可知，多维度(数据、模型和时间)贡献评估的方式可以更合理和准确的获得参与方的贡献，能够避免单一因素带来评估不全面问题。因此，本发明将数据贡献、模型贡献和等待时间补贴作为三因素，综合评估参与方贡献。

参与方i根据公式

计算数据贡献u_1i，D_i为参与方i的数据量，D为全部参与方的数据量，d_i是参与方i与整体数据分布的相似度度量EMD(Earth Mover’sDistance)距离。

模型评估是参与方之间相互评分。在每一轮训练时，参与方利用本地数据对其他参与方提交的本地模型判断准确率，给出评估评分，模型的平均得分即为本轮的模型得分。参与方i在第r轮的模型评估分数为

为第r轮参与方j对参与方i的评分。

可利用区块链记录的本地模型上传时间来获取参与方的等待时间，则参与方i在第r轮的等待时间补贴为

其中，T_*为等待时间阈值，在阈值内的等待时间才能获得奖励。

优选地，所述的当全局模型收敛后进入奖励分配阶段，以参与方的实际奖励与期望奖励尽可能接近为目标，根据公平奖励目标函数动态调整三因素权重，获取并分发参与方的实际奖励，包括：

任务发布者将各个参与方的本地模型进行聚合，根据设定的判定条件判断全局模型是否收敛，如果没有收敛，则各个参与方下载当前的全局模型，继续进行上述训练过程；如果判断全局模型收敛后，进入奖励分发阶段。任务发布者计算参与方i的模型评估总值

和等待时间补贴总值

则参与方i的数据贡献、模型评估和等待时间补贴三因素的评估结果为U_i＝[u_1i,u_2i,u_3i]^T。令数据贡献、模型评估和等待时间补贴三因素的权重为Γ＝[γ₁,γ₂,γ₃]，根据公平奖励分配的目标函数，利用信任域线性约束最小化方法计算出权重Γ，可获得参与方i的实际奖励值A_i＝Γ·U_i，然后将实际奖励值A_i分发给参与方i。其中,公平奖励分配的目标函数为：

以尽可能满足所有参与方的期望为目标计算三因素权重Γ具有如下优势：1)通过权重调整达到尽可能匹配期望的目的，避免权重设计不合理的问题；2)依据被评估的三因素分配AR，有效应对参与方的搭便车攻击；3)避免了直接根据ER分配AR带来激励效果差的问题。

优选地，所述的上述过程的数据均需上传到区块链，包括：

联邦学习过程中的数据，包括参与方的声望及ER、每轮的全局模型和参与方更新的本地模型、贡献三因素和AR，均需上传到区块链，利用区块链防篡改和可追溯的特性让训练和评估过程可被验证，保证公平的奖励机制评估客观且被有效执行。

由上述本发明的实施例提供的技术方案可以看出，本发明利用数据贡献、模型评估和等待时间补贴三因素判断参与方的实际贡献，通过动态分配三因素的权重得到参与方的AR，实现了AR尽可能接近ER的目标。提高了参与方在训练过程中的积极性，同时能有效应对搭便车攻击。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于公平理论的面向联邦学习的公平奖励分配方法的原理图；

图2为本发明实施例提供的一种基于公平理论的面向联邦学习的公平奖励分配方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例从满足参与方自身需求和期望的角度，将贡献公平扩展为参与方的投入公平，实现让参与方满意的公平性。

本发明实施例设计了在联邦学习任务中公平的奖励分配方法，基于亚当斯公平理论，以满足参与方个体期望的方式来达到实现所有参与方投入-收益比相同的目的，进而实现联邦学习的奖励分配公平。

本发明实施例提供的一种基于公平理论的面向联邦学习的公平奖励分配方法的原理图如图1所示，包括如下的处理过程：

将亚当斯的公平理论应用于联邦学习中，实现奖励分配的公平性。亚当斯的公平理论认为，个体感知的公平性不仅关注个体(l)与他人(o)的投入(I)-收益(O)比率是否相同，也关注个体目前(c)和过去(h)的投入(I)-收益(O)比率是否相同。收益是指获得的奖励，而投入是指个体为完成任务所贡献的各种因素，包括教育水平、努力程度、时间和容忍度等，不同个体在评估投入因素时可因人而异。亚当斯公平理论可用如下公式表示：

本方法将亚当斯公平理论应用在联邦学习中。联邦学习将参与方的奖励结果公开在区块链上，因此，收益(O)可被所有参与方准确获取，但是，联邦学习保持训练数据在参与方本地，并且参与方之间不能直接通信，因此，难以获取其他参与方的投入(I)，如数据、算力、时间、积极性等。为此，本发明要求每个参与方在综合考虑投入的所有因素之后，给出本次任务的期望奖励，通过让所有参与方的实际奖励与期望奖励尽可能接近来满足公平理论，从而实现参与方期望的公平性，这也可以避免公平理论中个体在感知他人的投入时可能存在的个体偏见问题。

本发明把公平理论的投入和收益转变为期望奖励E(Expected Reward,ER)和实际奖励A(Actual Reward,AR)，则有：

其中，i和j表示不同的参与方，参与方i将收益转变为ARA_i，并利用个性化的投入评估函数f_i将投入I_i转变为ERE_i，那么，公式(1)和(2)可转变为公式(4)和(5)，公式(4)满足个体与他人的ER(E)-AR(A)比率相同，公式(5)满足个体目前(c)和过去(h)的ER(E)-AR(A)比率相同。因此，为同时满足公式(4)和(5)，本方法提出期望公平，并将期望公平的目标简化为：

在准备(预处理)阶段，任务发布者根据参与方的历史任务评估他们的声望，同时，参与方提交本次任务的期望奖励(Expected Reward,ER)。训练阶段分为模型训练和贡献评估两个方面。在模型训练方面的每轮训练过程中，参与方均需提交更新的模型参数，经全局模型聚合后，参与方下载当前轮的全局模型并进行本地训练，重复该过程直到模型收敛。在贡献评估方面，需从三个维度评估参与方的贡献，包括数据贡献、模型评估和等待时间补贴。在奖励分配阶段，将声望作为参与方的可信度权重，动态调整所有参与方的数据、模型和等待时间三因素权重，使得基于该三因素得到的实际奖励(Actual Reward,AR)与ER尽可能接近，通过满足参与方期望的方式实现公平性。上述过程中的数据均需上传到区块链。

1)所述的将亚当斯的公平理论应用于联邦学习中，实现奖励分配的公平性，包括：

亚当斯的公平理论认为，个体感知的公平性不仅关注个体与他人的投入-收益比是否相同，也关注个体目前和过去的投入-收益比是否相同。在联邦场景中，虽然不同参与方的实际奖励(Actual Reward,AR)可以被获取，但是难以准确得知彼此的投入值。为此，要求每个参与方在综合考虑投入的所有因素之后，给出本次任务的期望奖励(ExpectedReward,ER)，通过让所有参与方的AR与ER尽可能接近来满足公平理论，从而实现参与方期望的公平性，这也可以避免公平理论中个体在感知他人的投入时可能存在的个体偏见问题。

2)所述的声望，包括：

参与方在无经验或者恶意的情况下，可能提出不符合实际期望的ER。为此，引用声望机制应对该问题。利用历史任务计算参与方声望，用于评估参与方给出ER的可信度。任务发布者结合每个参与方历史的联邦学习任务，评估每次任务ER和AR的匹配程度并利用遗忘因子作为系数，距离当前时刻越近的任务比重越高，由此得到参与方的声望值。

4)所述的期望奖励ER，包括：

每个参与方在提出ER时可以基于个体认知差异而考虑不同的因素，如本地的数据质量、设备资源、经验和积极性等，可涵盖部分或所有与联邦学习任务相关的因素。参与方i综合分析对联邦任务投入的所有因素后，给出本次任务的期望奖励ER。

5)所述的三个维度评估参与方的贡献，包括：

通过数据贡献、模型评估和等待时间补贴三个维度来客观全面的分析参与方贡献。其中，利用数据量和EMD(Earth Mover’s Distance)距离来判断数据维度的贡献。在每一轮训练过程中，所有参与方提交本地模型，参与方利用本地数据对其他参与方更新的模型测试准确率，根据准确率进行评分，一个参与方的平均得分即为当前轮模型维度的评估结果。区块链记录的提交时间作为计算等待时间的依据。

6)所述的数据均需上传到区块链，包括：

本发明实施例提供的一种基于公平理论的面向联邦学习的公平奖励分配方法的处理流程如图2所示，包括如下具体步骤：

步骤1、任务发布者发布本次联邦学习任务，如利用MNIST手写数字识别数据集训练两层的卷积神经网络，并说明奖励度量方法。数据拥有者自主选择是否申请参加任务，任务发布者确定参与方成员。

步骤2、在准备阶段，任务发布者根据历史声望记录，获取参与方的声望，声望V为

其中，

与

是参与方i在第t次任务中的实际奖励值AR与ER，

为第t次任务的遗忘因子。然后，参与方i综合考虑对联邦任务投入的所有因素后，给出本次任务的ER，即E_i。

步骤3、在训练阶段，参与方i根据公式

计算数据贡献u_1i，D_i为参与方i的数据量，D为全部参与方的数据量，d_i是参与方i与整体数据分布的相似度度量EMD(Earth Mover’s Distance)距离。参与方i将数据贡献u_1i上传到区块链。

步骤4、在每一轮训练过程中，参与方首先下载初始或聚合后的全局模型，利用本地数据训练该模型获得当前轮的本地模型，模型贡献评估是参与方之间相互评分，参与方利用本地数据对其他参与方提交的本地模型进行分数评估；

参与方i将本地模型和对其它参与方的模型评估分数上传到区块链。任务发布者获取参与方i在第r轮的模型评估分数为

其中，

为第r轮参与方j对参与方i的评分。

区块链记录了各个参与方的本地模型的上传时间，参与方i的等待时间补贴为

任务发布者将各个参与方的本地模型进行聚合，根据设定的判定条件判断全局模型是否收敛，如果没有收敛，则各个参与方下载当前的全局模型，继续进行上述训练过程。重复步骤4，直至全局模型收敛，收敛条件为全局模型准确率满足阈值要求，阈值由任务发布者设定。

步骤5、如果判断全局模型收敛后，进入奖励分发阶段，任务发布者计算参与方i的模型评估总值

和等待时间补贴总值

则参与方i的数据贡献、模型评估和等待时间补贴三因素的评估结果为U_i＝[u_1i,u_2i,u_3i]^T。令数据贡献、模型评估和等待时间补贴三因素的权重为Γ＝[γ₁,γ₂,γ₃]，根据公平奖励分配的目标函数

利用信任域线性约束最小化方法计算出权重Γ，可获得参与方i的实际奖励值A_i＝Γ·U_i，然后将实际奖励值A_i分发给参与方i。

需要注意的是，本方法并不局限于任务发布者来聚合模型以及计算奖励，也可随机选择参与方的代表计算该过程，因为过程中涉及的数据都需要上传到区块链，每个步骤均可查询和可验证，因此，整个训练及奖励分发过程受到全部参与方的监督，可选择任意成员聚合和计算该过程。

综上所述，本发明实施例实现了在联邦学习任务中对亚当斯公平理论的应用，将贡献公平扩展为投入公平，既避免了直接根据ER分配AR带来激励效果差的问题，也不会像其他公平感知的激励机制一样，要求参与方对基于贡献率分配奖励的方法感到满意。本发明综合考虑不同参与方的实际情况，以尽可能满足所有参与方的期望为目标来分配实际奖励，实现满足参与方期望的公平性。

本发明利用声望判断参与方给出ER的可信度，避免了没有经验或者恶意的参与方给出不合理的ER。然后利用数据贡献、模型评估和等待时间补贴三因素判断参与方的实际贡献，通过动态分配三因素的权重得到参与方的AR，实现了AR尽可能接近ER的目标。利用三因素贡献评估的方式提高了参与方在训练过程中的积极性，同时能有效应对搭便车攻击。本发明为实现联邦学习任务的奖励公平提供了理论依据和实践方法，能够促进联邦学习生态系统的稳定和可持续发展。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于公平理论的面向联邦学习的公平奖励分配方法，其特征在于，将亚当斯的公平理论应用于联邦学习中，将亚当斯的公平理论的投入和收益转变为联邦学习中的期望奖励和实际奖励，所述方法包括：

参与方综合分析对联邦任务投入的所有因素后，给出本次任务的期望奖励，任务发布者利用参与方的历史任务计算出参与方的声望；

参与方利用本地数据参与每轮训练任务，评估参与方的数据贡献、模型贡献和等待时间补贴三因素，综合三因素的贡献结果评估参与方的贡献；

当全局模型收敛后进入奖励分配阶段，以参与方的实际奖励与期望奖励尽可能接近为目标，根据公平奖励目标函数动态调整三因素权重，获取并分发参与方的实际奖励；

所述的参与方综合分析对联邦任务投入的所有因素后，给出本次任务的期望奖励，任务发布者利用参与方的历史任务计算出参与方的声望，包括：

在准备阶段，参与方i综合分析对联邦任务投入的所有因素后，给出本次任务的期望奖励ER，即E_i；

任务发布者结合每个参与方历史的联邦学习任务，评估历史任务中ER和实际奖励AR的匹配程度，并利用遗忘因子作为系数，距离当前时刻越近的任务则比重越高，任务发布者根据参与方的历史声望记录，获取参与方i的声望V_i，V_i计算公式如下：

其中，

与

是参与方i在第t次任务中的实际奖励AR与期望奖励ER，

为第t次任务的遗忘因子；

参与方利用本地数据参与每轮训练任务，评估参与方的数据贡献、模型贡献和等待时间补贴三因素，综合三因素的贡献结果评估参与方的贡献，包括：

在训练过程中，参与方按照联邦学习的训练规则，参与每轮的训练任务，在第r轮，从区块链下载第r-1轮聚合的全局模型，利用本地数据进行训练，将更新后的本地模型上传到区块链，当聚合第r轮的全局模型后，重复该训练过程，直至模型收敛；

在贡献评估过程中，将数据贡献、模型贡献和等待时间补贴作为三因素，参与方i根据公式

计算数据贡献u_1i，D_i为参与方i的数据量，D为全部参与方的数据量，d_i是参与方i与整体数据分布的相似度度量EMD距离；

在每一轮训练时，参与方利用本地数据对其他参与方提交的本地模型判断准确率，给出评估分数，模型的平均得分即为本轮的模型得分，参与方i在第r轮的模型评估分数为

其中，

为第r轮参与方j对参与方i的评分；

利用区块链记录的本地模型上传时间来获取参与方的等待时间，则参与方i在第r轮的等待时间补贴为

其中，T_*为等待时间阈值，在阈值内的等待时间才能获得奖励；

综合三因素参与方i的贡献结果评估参与方i的贡献。

2.根据权利要求1所述的方法，其特征在于，所述的当全局模型收敛后进入奖励分配阶段，以参与方的实际奖励与期望奖励尽可能接近为目标，根据公平奖励目标函数动态调整三因素权重，获取并分发参与方的实际奖励，包括：

任务发布者将各个参与方的本地模型进行聚合，根据设定的判定条件判断全局模型是否收敛，如果全局模型没有收敛，则各个参与方下载当前的全局模型，继续进行上述训练过程；

如果判断全局模型收敛后，进入奖励分发阶段，任务发布者计算参与方i的模型评估总值

和等待时间补贴总值

则参与方i的数据贡献、模型评估和等待时间补贴三因素的评估结果为U_i＝[u_1i,u_2i,u_3i]^T，令数据贡献、模型评估和等待时间补贴三因素的权重为Γ＝[γ₁,γ₂,γ₃]，根据公平奖励分配的目标函数，利用信任域线性约束最小化方法计算出权重Γ，获得参与方i的实际奖励值A_i＝Γ·U_i，将实际奖励值A_i分发给参与方i，公平奖励分配的目标函数为：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：联邦学习过程中的数据均需上传到区块链，该数据包括参与方的声望及ER、每轮的全局模型和参与方更新的本地模型、贡献三因素和AR。