CN118070065A

CN118070065A - 一种基于图博弈的模型训练方法、装置、系统及存储介质

Info

Publication number: CN118070065A
Application number: CN202410310741.3A
Authority: CN
Inventors: 王延峰; 陈思衡; 张恩培; 柴静怡
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-05-24

Abstract

本发明公开了一种基于图博弈的模型训练方法、装置、系统及存储介质。该方法包括：客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，并将所述参考模型参数发送至服务器；所述服务器利用所述客户端的分享收益函数确定分享收益，以及利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，并将所述分享收益和所述聚合模型参数发送至所述客户端；所述客户端根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则将更新得到的新参考模型参数发送至所述服务器。本发明实施例的技术方案，不仅确保了客户端间的隐私保护，还实现了在保证经济利益的同时进行联合训练。

Description

一种基于图博弈的模型训练方法、装置、系统及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于图博弈的模型训练方法、装置、系统及存储介质。

背景技术

联邦学习是一种新兴的机器学习范式，它强调隐私保护并促进多方协作。在联邦学习中，多个客户端通过交换模型参数信息，而非直接共享本地数据，来协同训练模型。这种方式确保了数据的隐私性和安全性，因为原始数据不需要离开本地环境。同时，联邦学习框架中存在一个中心节点，即服务器，负责协调和管理模型参数的传输与聚合。作为当前数据孤岛问题的一个有效解决方案，联邦学习允许参与方在遵守隐私安全法律法规的前提下，共同训练出高性能的模型。这种范式打破了数据孤岛的限制，促进了不同数据源之间的合作与知识共享。

目前，联邦学习实现了隐私训练的技术基础，但其中的公平性和主动性问题成为了新的挑战。因为联邦学习的训练过程，都需要客户端的积极参与：客户端不仅需要间接地分享本地的数据，还需要付出本地训练的成本。客户参与联邦学习的原因可能是希望获更好的模型，也可能是希望赚取报酬。针对客户的模型需求，个性化联邦学习(PersonalizedFederated Learning)方法能够为每个客户提供个性化的模型以满足本地任务的需求。

然而，目前的联邦学习方法大多仅考虑单一的参与动机，如个性化联邦学习方法仅考虑模型表现。

发明内容

本发明提供了一种基于图博弈的模型训练方法、装置、系统及存储介质，以解决常规联邦学习方法仅关注单一参与动机的问题。

第一方面，本发明提供了一种基于图博弈的模型训练方法，包括：

客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，并将所述参考模型参数发送至服务器；

所述服务器利用所述客户端的分享收益函数确定分享收益，以及利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，并将所述分享收益和所述聚合模型参数发送至所述客户端，其中，所述分享收益函数基于图博弈原理和所述客户端的分享代价确定；

所述客户端根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则将更新得到的新参考模型参数发送至所述服务器。

第二方面，本发明提供了一种基于图博弈的模型训练装置，所述装置包括客户端中的更新模块和分享参与判断模块，以及服务器中的模型训练模块，其中：

所述更新模块，用于更新上一轮确定的参考模型以得到本轮的参考模型参数，并将所述参考模型参数发送至服务器；

所述模型训练模块，用于利用所述客户端的分享收益函数确定分享收益，以及利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，并将所述分享收益和所述聚合模型参数发送至所述客户端，其中，所述分享收益函数基于图博弈原理和所述客户端的分享代价确定；

所述分享参与判断模块，用于根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则将更新得到的新参考模型参数发送至所述服务器。

第三方面，本发明提供了一种模型训练系统，所述系统包括多个模型训练客户端和模型训练服务器，其中：

所述模型训练客户端能够执行第一方面中所述的基于图博弈的模型训练方法中由客户端执行的步骤；

所述模型训练服务器能够执行第一方面中所述的基于图博弈的模型训练方法中由服务器执行的步骤。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现上述第一方面的基于图博弈的模型训练方法。

本发明提供的基于图博弈的模型训练方案，客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，并将所述参考模型参数发送至服务器，所述服务器利用所述客户端的分享收益函数确定分享收益，以及利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，并将所述分享收益和所述聚合模型参数发送至所述客户端，其中，所述分享收益函数基于图博弈原理和所述客户端的分享代价确定，所述客户端根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则将更新得到的新参考模型参数发送至所述服务器。通过采用上述技术方案，服务器基于联邦学习原理，利用客户端发送的参考模型参数更新聚合模型得到了聚合模型参数，并利用根据图博弈原理和分享代价确定的分享收益函数确定了分享收益，客户端在接收到分享收益和聚合模型参数后，可以根据分享收益确定是否继续参与对聚合模型的训练，本方案不仅确保了客户端间的隐私保护，还实现了在保证经济利益的同时进行联合训练。

应当理解，本部分所描述的内容并非旨在标识本发明的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种基于图博弈的模型训练方法的流程图；

图2是根据本发明实施例二提供的一种基于图博弈的模型训练方法的流程图；

图3是根据本发明实施例三提供的一种基于图博弈的模型训练装置的结构示意图；

图4是根据本发明实施例四提供的一种模型训练系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种基于图博弈的模型训练方法的流程图，本实施例可适用于根据联邦学习，利用多个客户端和服务器对模型训练的情况，该方法可以由基于图博弈的模型训练装置来执行，该基于图博弈的模型训练装置可以采用硬件和/或软件的形式实现，该基于图博弈的模型训练装置可配置于模型训练系统中，该模型训练系统可以包括多个模型训练客户端和模型训练服务器。

如图1所示，该本发明实施例一提供的一种基于图博弈的模型训练方法，具体包括如下步骤：

S101、客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，并将所述参考模型参数发送至服务器。

在本实施例中，客户端可以利用上一轮确定的参考模型的损失函数值以及服务器发送的上一轮的聚合模型参数，对本地的参考模型进行更新，以得到本轮的参考模型参数，并将该参考模型参数发送至服务器端。

S102、所述服务器利用所述客户端的分享收益函数确定分享收益，以及利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，并将所述分享收益和所述聚合模型参数发送至所述客户端，其中，所述分享收益函数基于图博弈原理和所述客户端的分享代价确定。

在本实施例中，服务器可以先利用客户端发送的预设的分享代价和预设的分享收益函数，确定分享收益函数值，即分享收益。分享收益函数可以基于图博弈原理预设，分享收益与分享代价和客户端是否使用使用了参与模型联合训练的其他客户端的参考模型参数有关。分享收益可以用于表征客户端参与对聚合模型的更新的经济收益。不同服务器的分享代价可以不同，不同服务器的分享收益可以不同，同一客户端在不同轮次的分享收益可以不同。服务器还可以利用每个客户端发送的参考模型参数更新参考模型的聚合模型，以得到本轮的聚合模型参数。

S103、所述客户端根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则将更新得到的新参考模型参数发送至所述服务器。

在本实施例中，客户端可以根据分享收益的大小确定是否利用聚合模型参数进行对参考模型的下一轮更新，若分享收益较大，则可以更新轮次，并再次执行步骤103，即利用服务器端发送的聚合模型参数更新参考模型，以得到下一轮的新参考模型参数，并将新参考模型参数发送至服务器。若客户端接收到的分享收益较小，则可以退出当前的聚合模型的训练。通过循环执行上述步骤直至联邦训练的结束，可以得到训练完成的聚合模型。

本发明实施例提供的基于图博弈的模型训练方法，客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，并将所述参考模型参数发送至服务器，所述服务器利用所述客户端的分享收益函数确定分享收益，以及利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，并将所述分享收益和所述聚合模型参数发送至所述客户端，其中，所述分享收益函数基于图博弈原理和所述客户端的分享代价确定，所述客户端根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则将更新得到的新参考模型参数发送至所述服务器。本发明实施例技术方案，服务器基于联邦学习原理，利用客户端发送的参考模型参数训练聚合模型得到了聚合模型参数，并利用根据图博弈原理和分享代价确定的分享收益函数确定了分享收益，客户端在接收到分享收益和聚合模型参数后，可以根据分享收益确定是否继续参与对聚合模型的训练，本方法不仅确保了客户端间的隐私保护，还实现了在保证经济利益的同时进行联合训练。

实施例二

图2为本发明实施例二提供的一种基于图博弈的模型训练方法的流程图，本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化，给出了利用联邦学习对模型训练的具体方式。

可选的，所述客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，包括：所述客户端利用所述服务器上一轮发送的聚合模型参数确定损失函数值；所述客户端确定上一轮的参考模型参数与所述服务器上一轮发送的聚合模型参数的差值的二范数平方值，并利用所述二范数平方值和所述损失函数值，确定本轮的参考模型参数。这样设置的好处在于，客户端通过利用损失函数值和参考模型参数与聚合模型参数的差值的二范数平方值，准确的更新了参考模型参数。

可选的，所述服务器利用所述客户端的分享收益函数确定分享收益，包括：所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的模型共享矩阵和净花销，其中，所述协作收益根据所述客户端的训练样本的数量和本轮的模型共享矩阵确定，所述模型共享矩阵中的元素用于表征所述客户端是否使用了参与所述聚合模型的训练的其他客户端的参考模型参数；所述服务器利用所述参考模型参数的分享代价、所述模型共享矩阵和所述净花销确定分享收益函数值，以得到分享收益。这样设置的好处在于，服务器基于图博弈论，利用每个客户端的协作收益和客户端间的模型差异，确定了表征不同客户端间的经济需求的模型共享矩阵，并通过综合考虑模型差异和协作收益进行模型交易分配，使每个客户端可以挑选经济效益高且参数相近的聚合模型参数进行更新，从而在保证聚合模型的训练效果的前提下，提升训练的经济性。

可选的，所述服务器利用所述参考模型参数训练聚合模型以得到本轮的参考模型参数，包括：所述服务器利用所述参考模型参数对所述客户端间的模型差异进行梯度运算，并利用梯度运算结果和所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数。这样设置的好处在于，服务器通过利用行梯度运算结果和参考模型参数，为每个客户端单独确定了个性化的聚合模型参数，使得本方法能够满足数据异构下客户端的个性化模型需求模型共享矩阵。

如图2所示，本发明实施例二提供的一种基于图博弈的模型训练方法，具体包括如下步骤：

S201、客户端利用服务器上一轮发送的聚合模型参数确定损失函数值。

具体的，客户端通过将服务器上一轮发送的聚合模型参数输入预设的参考模型的损失函数，可以得到损失函数值。其中，若参考模型为分类模型，则损失函数可以为参考模型的输出和标签之间的交叉熵损失函数。

S202、所述客户端确定上一轮的参考模型参数与所述服务器上一轮发送的聚合模型参数的差值的二范数平方值，并利用所述二范数平方值和所述损失函数值，确定本轮的参考模型参数，并将所述参考模型参数发送至服务器。

示例性的，客户端本轮的参考模型参数的确定方式可以为：

其中，为第t轮中第i个客户端的参考模型参数，/>为第t-1轮中第i个客户端的聚合模型参数，L_i为第i个客户端的损失函数，η和λ为预设的超参，argmin表示一个函数在其定义域中取得最小值的参数值，即参考模型参数，||||表示求二范数的平方。可以使用随机梯度下降法(Stochastic Gradient Descent)求解上述函数。第一轮时，服务器下发给每个客户端相同的初始聚合模型参数θ⁰。第i个客户端可以视作当前客户端。

S203、所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的模型共享矩阵和净花销。

其中，所述协作收益根据所述客户端的训练样本的数量和本轮的模型共享矩阵确定，所述模型共享矩阵中的元素用于表征所述客户端是否使用了参与所述聚合模型的训练的其他客户端的参考模型参数。

具体的，可以预先建立协作收益函数，该协作收益的大小与所述客户端的本地数据集中训练样本的数量和客户端是否使用了参与所述聚合模型的训练的其他客户端的参考模型参数相关。服务器利用接收到的客户端发送的参考模型参数确定客户端间的模型差异，然后利用该模型差异和协作收益，可以确定客户端本轮的模型共享矩阵和净花销。其中，净花销可以理解为客户端的净支出，即客户端的支出与收益的差值。

可选的，所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的模型共享矩阵，包括：所述服务器利用所述客户端上一轮的协作收益和上一轮的模型差异，确定目标函数，并利用近似算法确定所述目标函数的局部最优解，以得到所述客户端本轮的模型共享矩阵。

示例性的，模型共享矩阵的目标函数可以为：

其中，为第t轮第i个客户端的模型共享矩阵，n_j为第j个客户端的训练样本数量，n_i为第i个客户端的训练样本数量，/>表示第i个客户端与第j个客户端的模型差异，c＝(c₁,…,c_m)^T，c_m为第m个客户端的分享代价，m为客户端的数量，/>为第i个客户端在t-1轮获得的协作收益。

可选的，协作收益的确定方式可以为：

其中，G_i(A_i)为第i个客户端在t轮获得的协作收益，g_i()为单调增的凹函数，n_j为第j个客户端的训练样本数量。

具体的，该目标函数的求解方式可以使用近似算法搜索局部最优解，具体包括：

1)求解方程获得每个客户端j的阈值/>其中，阈值/>的含义为，当第i个客户端所获得的数据量

∑_j∈[m]A_ijn_j大于时，再加入第j个客户端对第i个客户端的边际效益为负；

2)每次将最大的其他客户端所对应的边权A_ij置为1，直至第i个客户端的总数据量∑_j∈[m]A_ijn_j大于剩余所有其他客户端(j:A_ij＝0)的阈值/>

可选的，所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的净花销，包括：所述服务器利用所述客户端本轮的协作收益和所述客户端间本轮的模型差异，确定相互支付费用，并根据所述相互支付费用确定每个所述客户端本轮的净花销，其中，所述相互支付费用包括每个客户端应接收到的费用和应向参与所述聚合模型的训练的其他客户端支付的费用。

示例性的，净花销的确定方式可以为：

其中，为第i个客户端在第t轮的净花销，/>表示第j个客户端向第i个客户端支付的费用。上述净花销的确定方式可以理解为，若第i个客户端使用了第j个客户端的模型，第i个客户端向第j个客户端支付的费用为E_j表示第j个客户端的单位矩阵，E_i表示第i个客户端的单位矩阵。

可选的，所述客户端间的模型差异的确定方式包括：分别确定每个所述客户端确定的参考模型参数与所述参考模型对应的初始模型参数的差值，并利用所述差值间的余弦相似度确定所述客户端间的模型差异。

示例性的，客户端间的模型差异的确定方式可以为：

d(θ_i,θ_j)＝1-Similarity(θ_i-θ⁰,θ_j-θ⁰)

其中，Similarity(θ_i-θ⁰,θ_j-θ⁰)表示求取θ_i-θ⁰和θ_j-θ⁰余弦相似度，θ_i-θ⁰表示第i个客户端的参考模型参数与参考模型对应的初始模型参数的差值，θ_j-θ⁰表示第j个客户端的参考模型参数与参考模型对应的初始模型参数的差值。

S204、所述服务器利用所述参考模型参数的分享代价、所述模型共享矩阵和所述净花销确定分享收益函数值，以得到分享收益。

示例性的，分享收益的确定方式可以为：

其中，为第t轮的第i个客户端的分享收益。

S205、所述服务器利用所述参考模型参数对所述客户端间的模型差异进行梯度运算，并利用梯度运算结果和所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，将所述分享收益和所述聚合模型参数发送至所述客户端。

具体的，聚合模型参数的确定方式可以为：

其中，为第t轮的第i个客户端的聚合模型参数，/>表示对/>进行梯度运算。

S206、所述客户端根据所述分享收益确定是否利用所述聚合模型参数进行对所述参考模型的下一轮更新，若是，则更新轮次，执行步骤201，若否，则结束。

具体的，此时本轮服务器确定的聚合模型参数即为步骤201中的服务器上一轮发送的聚合模型参数。

可选的，一种可以同时优化模型损失与经济效益的损失函数可以为：

其中，SW(A)＝∑_i∈[m][G_i(A_i)-c^TA_i]。

可选的，可以在不同的场景中验证本方法的有效性，如可以在三种联邦数据异构场景中进行实验。第一种场景下，利用狄利克雷分布将训练样本划分至每个客户端。第二种场景下，所有客户端被分为多个集群，每个集群内的数据分布可以相同，不同集群的数据类别可以不同。第三种场景下，客户端被分为多个集群，集群内的数据分布可以为较均匀的狄利克雷分布，集群间的数据分布可以为较异构的狄利克雷分布。该试验可以在CIFAR-10、Fashion-MNIST、PACS、FEMNIST和Shakespeare等数据集上开展。

示例性的，若在CIFAR-10数据集上进行试验，客户端的本地参考模型可以为SimpleCNN，上述方法中使用的超参λ＝2，超参η＝5，总轮次可以为50轮。客户端的本地训练采用学习率为0.01的随机梯度下降优化器进行参考模型参数的更新，客户端所用的损失函数可以是模型输出和标签之间的交叉熵损失，客户端的训练批大小(batch size)可以为64，客户端的本地训练轮次(local epoch)可以为200。

本发明实施例提供的基于图博弈的模型训练方法，客户端通过利用损失函数值和参考模型参数与聚合模型参数的差值的二范数平方值，准确的更新了参考模型参数，服务器基于图博弈论，利用每个客户端的协作收益和客户端间的模型差异，确定了表征不同客户端间的经济需求的模型共享矩阵，并通过综合考虑模型差异和协作收益进行模型交易分配，使每个客户端可以挑选经济效益高且参数相近的聚合模型参数进行更新，从而在保证聚合模型的训练效果的前提下，提升训练的经济性，并通过利用行梯度运算结果和参考模型参数，为每个客户端单独确定了个性化的聚合模型参数，使得本方法能够满足数据异构下客户端的个性化模型需求模型共享矩阵，本方法基于博弈论原理确定了分享收益，确保了模型训练参与者的行为的合理性。

实施例三

图3为本发明实施例三提供的一种基于图博弈的模型训练装置的结构示意图。如图3所示，所述装置包括客户端中的更新模块301和分享参与判断模块303，以及服务器中的模型训练模块302，其中：

本发明实施例提供的基于图博弈的模型训练装置，服务器基于联邦学习原理，利用客户端发送的参考模型参数训练聚合模型得到了聚合模型参数，并利用根据图博弈原理和分享代价确定的分享收益函数确定了分享收益，客户端在接收到分享收益和聚合模型参数后，可以根据分享收益确定是否继续参与对聚合模型的训练，本装置不仅确保了客户端间的隐私保护，还实现了在保证经济利益的同时进行联合训练。

可选的，更新模块包括：

损失函数值确定单元，用于利用所述服务器上一轮发送的聚合模型参数确定损失函数值；

参考模型参数确定单元，用于确定上一轮的参考模型参数与所述服务器上一轮发送的聚合模型参数的差值的二范数平方值，并利用所述二范数平方值和所述损失函数值，确定本轮的参考模型参数。

可选的，模型训练模块包括：

共享矩阵和净花销确定单元，用于根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的模型共享矩阵和净花销，其中，所述协作收益根据所述客户端的训练样本的数量和本轮的模型共享矩阵确定，所述模型共享矩阵中的元素用于表征所述客户端是否使用了参与所述聚合模型的训练的其他客户端的参考模型参数；

分享收益确定单元，用于利用所述参考模型参数的分享代价、所述模型共享矩阵和所述净花销确定分享收益函数值，以得到分享收益。

可选的，模型训练模块包括：

确定单元，用于利用所述参考模型参数对所述客户端间的模型差异进行梯度运算，并利用梯度运算结果和所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数。

本发明实施例所提供的基于图博弈的模型训练装置可执行本发明任意实施例所提供的基于图博弈的模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的模型训练系统40的结构示意图。本发明实施例五还提供一种基于图博弈的模型训练系统，该系统包括：多个模型训练客户端41和模型训练服务器42，其中：

所述模型训练客户端能够执行上文所述的基于图博弈的模型训练方法中由客户端执行的步骤；所述模型训练服务器能够执行上文所述的基于图博弈的模型训练方法中由服务器执行的步骤。

本发明实施例提供的基于图博弈的模型训练系统，可执行本发明任意实施例所提供的基于图博弈的模型训练方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于图博弈的模型训练方法。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

实施例五

在本发明的上下文中，计算机可读存储介质可以是有形的介质，所述计算机可执行指令在由计算机处理器执行时用于执行基于图博弈的模型训练方法，该方法包括：

所述服务器利用所述参考模型参数训练聚合模型以得到本轮的新参考模型，以及利用所述客户端的分享收益函数确定分享收益，并将所述分享收益和所述新参考模型发送至所述客户端，其中，所述分享收益函数基于图博弈原理和所述客户端的分享代价确定；

所述客户端根据所述分享收益确定是否进行下一轮的对所述新参考模型的更新，若是，则将更新得到的新参考模型参数发送至所述服务器。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

上述提供的计算机设备可用于执行上述任意实施例提供的基于图博弈的模型训练方法，具备相应的功能和有益效果。

值得注意的是，上述基于图博弈的模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述基于图博弈的模型训练方法、装置、系统及存储介质可应用于新一代人工智能国家科技重大专项(编号：2021ZD0112801)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于图博弈的模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述客户端更新上一轮确定的参考模型以得到本轮的参考模型参数，包括：

所述客户端利用所述服务器上一轮发送的聚合模型参数确定损失函数值；

所述客户端确定上一轮的参考模型参数与所述服务器上一轮发送的聚合模型参数的差值的二范数平方值，并利用所述二范数平方值和所述损失函数值，确定本轮的参考模型参数。

3.根据权利要求1所述的方法，其特征在于，所述服务器利用所述客户端的分享收益函数确定分享收益，包括：

所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的模型共享矩阵和净花销，其中，所述协作收益根据所述客户端的训练样本的数量和本轮的模型共享矩阵确定，所述模型共享矩阵中的元素用于表征所述客户端是否使用了参与所述聚合模型的训练的其他客户端的参考模型参数；

所述服务器利用所述参考模型参数的分享代价、所述模型共享矩阵和所述净花销确定分享收益函数值，以得到分享收益。

4.根据权利要求3所述的方法，其特征在于，所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的模型共享矩阵，包括：

所述服务器利用所述客户端上一轮的协作收益和上一轮的模型差异，确定目标函数，并利用近似算法确定所述目标函数的局部最优解，以得到所述客户端本轮的模型共享矩阵。

5.根据权利要求3所述的方法，其特征在于，所述服务器根据所述客户端的协作收益和所述客户端间的模型差异，确定所述客户端本轮的净花销，包括：

所述服务器利用所述客户端本轮的协作收益和所述客户端间本轮的模型差异，确定相互支付费用，并根据所述相互支付费用确定每个所述客户端本轮的净花销，其中，所述相互支付费用包括每个客户端应接收到的费用和应向参与所述聚合模型的训练的其他客户端支付的费用。

6.根据权利要求1所述的方法，其特征在于，所述服务器利用所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数，包括：

所述服务器利用所述参考模型参数对所述客户端间的模型差异进行梯度运算，并利用梯度运算结果和所述参考模型参数更新所述参考模型的聚合模型以得到本轮的聚合模型参数。

7.根据权利要求3所述的方法，其特征在于，所述客户端间的模型差异的确定方式包括：

分别确定每个所述客户端确定的参考模型参数与所述参考模型对应的初始模型参数的差值，并利用所述差值间的余弦相似度确定所述客户端间的模型差异。

8.一种基于图博弈的模型训练装置，其特征在于，所述装置包括客户端中的更新模块和分享参与判断模块，以及服务器中的模型训练模块，其中：

9.一种模型训练系统，其特征在于，所述系统包括多个模型训练客户端和模型训练服务器，其中：

所述模型训练客户端能够执行权利要求1-7中任一项所述的基于图博弈的模型训练方法中由客户端执行的步骤；

所述模型训练服务器能够执行权利要求1-7中任一项所述的基于图博弈的模型训练方法中由服务器执行的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的基于图博弈的模型训练方法。