CN114844653A

CN114844653A - 基于联盟链的可信联邦学习方法

Info

Publication number: CN114844653A
Application number: CN202210777280.1A
Authority: CN
Inventors: 邓庭波; 蔡洁; 胡荣; 向斌; 田谷
Original assignee: Hunan Cryptographic Engineering Research Center Co ltd
Current assignee: Hunan Cryptographic Engineering Research Center Co ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-08-02
Anticipated expiration: 2042-07-04
Also published as: CN114844653B

Abstract

本发明提供了一种基于联盟链的可信联邦学习方法，所述方法包括：由所述客户端选择需要加入的模型，所述服务器向每个所述客户端发送客户证明，并由所述客户端保存所述客户证明；所述客户端从服务器下载当前共享模型的参数，将当前参数加载到本地模型中训练，完成对模型的更新并生成新参数；所述客户端将新参数分发到该模型下超过半数的其他客户端进行测试，并收集其他客户签名后的测试反馈；所述客户端将新参数和测试反馈发给服务器，由所述服务器向其他客户端验证，验证通过后将新参数提交到链中心；所述服务器选择链上最优的参数进行聚合，更新共享模型，直至模型达到训练目标。保证了模型参数的安全性与可靠性，有效降低存储资源的开销。

Description

基于联盟链的可信联邦学习方法

技术领域

本发明涉及社会网络技术领域和模型敏感数据隐私保护技术领域，特别涉及一种基于联盟链的可信联邦学习方法。

背景技术

在“大数据”兴起的当今信息时代，计算机的计算力不断提高，算法的复杂程度不断变大，数据的规模也不断增长，人工智能在越来越多的行业领域中得到了充足的探索与应用。尤其是机器学习（Machine Learning，ML）方法更是越来越多的被运用于分析大量数据以得到结论的领域，但其要求模型能将数据集中聚集到一起进行训练，这就引起了用户对于个人数据的隐私和安全的担忧。随着数据驱动的智能应用快速发展，数据作为机器学习算法中不可或缺的资源变得越来越需要维护，难以得到充分共享。

由于用户隐私安全问题、企业竞争关系和审批流程等因素，这样造成的“数据孤岛”问题在很大程度上影响了当前各种机器学习模型的效率提高问题。此外，数据隐私和安全保护也已经逐渐成为了世界性的趋势。世界各国相继出台相应法案，严厉打击数据安全犯罪行为。在当前形势下，有些企业虽然愿意和其他企业共享数据，但也需要符合相关政策并遵守法律法规，不然很容易造成数据泄露，引发更严重的问题。

联邦学习（Federated Learning，FL）是一种分布式的可以为数据隐私提供有效保护的机器学习框架。在联邦学习过程中，各参与方不用把训练数据提交出去也能本地对某个机器学习模型进行迭代训练，并最终将训练结果提交给中心服务器，以此来更新学习模型，提高模型效率。由于训练数据仍然保存在用户本地，这种机制既实现了对各用户训练数据的充分利用，又有效保护了每个用户数据的隐私安全。客户端在不泄露数据的前提下完成了对模型的更新优化，以至于服务器可以获取到更有价值的信息来构建新的更好的全局模型。

联邦学习技术成功解决了数据孤岛背景下数据共享学习问题，给想要得到更好机器学习模型而不愿意共享数据的参与方提供了极大的便利。但在联邦学习的架构体系中，仍然存在一些缺点和威胁。一是参与边缘智能的节点可能存在恶意行为。这是由于联邦学习框架中服务器没有访问各节点本地数据及其训练过程的权限，使得恶意节点可以上传不正确的模型更新以达到并破坏全局模型的目的。二是各边缘节点由于缺乏足够的激励而不为整个框架系统做出积极的贡献，导致整个框架系统很难吸引足够的训练数据，无法保证最终的智能模型质量，且严重影响了对优质客户端的选择，从而导致全局模型精度降低。

发明内容

本发明提供了一种基于联盟链的可信联邦学习方法，其目的是为了解决联邦学习中出现的参数篡改、恶意节点以及激励机制问题。

为了达到上述目的，本发明提供了一种基于联盟链的可信联邦学习方法，应用于基于联盟链的可信联邦学习系统，所述系统包括：服务器；多个客户端，每个客户端分别与所述服务器相连接，且每个客户端均拥有不同的训练数据集和测试数据集，用于训练和测试参数；所述方法包括：

步骤1，由所述客户端选择需要加入的模型，所述服务器向每个所述客户端发送客户证明，并由所述客户端保存所述客户证明；

步骤2，所述客户端从服务器下载当前共享模型的参数，将当前参数加载到本地模型中训练，完成对模型的更新并生成新参数；

步骤3，所述客户端将新参数分发到该模型下超过半数的其他客户端进行测试，并收集其他客户签名后的测试反馈；

步骤4，所述客户端将新参数和测试反馈发给服务器，由所述服务器向其他客户端验证，验证通过后将新参数提交到链中心；

步骤5，所述服务器选择链上最优的参数进行聚合，更新共享模型，直至模型达到训练目标。

其中，所述方法还包括：

在所述服务器搭建联盟链中心网络，用于存取参数文件、存取模型文件、验证参数和联盟币；

由所述服务器建立神经网络学习模型，取出其中的参数，对所述神经网络学习模型和参数加密后保存加密文件，并上传到链中心。

其中，所述在所述服务器搭建联盟链中心网络的步骤具体包括：

在所述服务器新建一个联盟币数据库并将数据库的散列值上传到联盟链；

由链中心提供数据接口，参与方直接向链中心上传和下载相关文件，其文件名需要经过散列处理，由参与方保管；

由链中心提供验证接口，将参数和联盟币保存在分类账本中，通过比对链中心的账本状态来验证该参数或联盟币的状态是否正确。

其中，所述由所述服务器建立神经网络学习模型，取出其中的参数，对所述神经网络学习模型和参数加密后保存加密文件，并上传到链中心的步骤具体包括：

新建一个神经网络学习模型，并取出其中的参数；

通过AES对称加密分别将模型和参数加密处理后保存为文件，其中，文件名是对随机一串字节的散列以保持其独特性；

文件内容经过散列处理HASH得到文件哈希

，将

和上一次链上哈希

以及IV合并的结果进行一次散列HASH得到新的链上哈希

，上传到链中心。

其中，所述步骤1具体包括：

客户端进行注册，并选择需要加入的模型；

服务器向所述客户端利用RSA签名体制提供客户证明

，并由客户端保存；

服务器分发一定数量的联盟币作为该客户的初始资产，并更改联盟币数据库，将数据库的散列值上传至链中心。

其中，所述步骤2具体包括：

所述客户端向所述服务器提供客户证明，服务器根据所述客户端的RSA公钥进行验证；

服务器将散列处理Hash过的文件名提供给客户端，客户端从链中心下载全局模型的参数，所述参数用AES解密；

客户端向链中心验证该参数是否是最新的模型参数，且未被修改；

客户端将下载的最新参数加载到本地模型进行更新，使用本地训练集进行训练得到最优的新模型参数。

其中，所述步骤3具体包括：

客户端将新参数分发到该模型下超过半数的其他客户端进行测试，且由客户端向自己选择的其他客户端提供一定数量的联盟币，其他客户端根据其提供的联盟币的数量来决定是否需要为其测试参数；

客户端收集其他客户签名后的测试反馈

，测试反馈含有测试结果的正确率和使用RSA签名机制对该结果的签名。

其中，所述步骤4具体包括：

客户端将本地的客户证明

和测试反馈

一并提交给服务器；

服务器验证参数并提供正确性反馈，且所述服务器根据其附带提供的测试反馈

来给予其合适的联盟币奖励，对于可信高效的新参数，服务器会给予更多的联盟币奖励；

客户端将所述新参数提交到链中心。

其中，所述步骤5具体包括：

当链中心有足够数量的客户新参数时，所述服务器向链中心下载新参数并进行聚合，更新全局模型参数；

服务器重新上传全局模型参数到链中心，当参数的训练不满足终止条件时，客户端继续下载参数并完成本地训练更新参数。

其中，所述方法还包括：

所述服务器根据客户端联盟币的数量来选择优质客户端，并聚合所述优质客户端的新参数；

所述服务器定期通过查链上的数据库的散列值来获取客户端联盟币的情况。

本发明的上述方案有如下的有益效果：

本发明的基于联盟链的可信联邦学习方法将模型参数与激励积分同时通过联盟链进行保存，以解决联邦学习中可能出现的参数被篡改、激励不公平等潜在问题，保证了模型参数的安全性与可靠性。通过联邦学习对原始数据的处理，仅存储计算结果，可以降低存储资源的开销，进一步缓解区块链节点有限的存储能力与区块链较大存储需求之间的矛盾。

本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

图1为本发明的基于联盟链的可信联邦学习系统构架图；

图2为本发明的基于联盟链的可信联邦学习方法流程图；

图3为本发明的基于联盟链的可信联邦学习方法中模型初始化的流程图；

图4为本发明的基于联盟链的可信联邦学习方法中模型上传的流程图；

图5为本发明的基于联盟链的可信联邦学习方法中模型请求的流程图；

图6为本发明的基于联盟链的可信联邦学习方法中联盟币上链的流程图；

图7为本发明的基于联盟链的可信联邦学习方法中模型更新的流程图；

图8为本发明的基于联盟链的可信联邦学习方法中参数聚合的流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是锁定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示，本发明的实施例提供了一种基于联盟链的可信联邦学习方法，应用于基于联盟链的可信联邦学习系统，所述系统包括：服务器；多个客户端，每个客户端分别与所述服务器相连接，假设所述系统内有多位客户，每位客户分别拥有不同的训练和测试数据集，主要用于训练和测试参数。客户端选择需要加入的模型，服务器分发客户证明，并由客户妥善保存。客户端从服务器下载当前共享模型的参数，将当前参数加载到本地模型之后，在本地训练，从而完成对模型的更新并生成新参数。客户端将新参数分发到该模型下超过半数的其他客户端进行测试，并收集其他客户签名后的测试反馈。客户端新参数提供给服务器并附带测试反馈，以供服务器向其他客户端验证，验证通过后将新参数上链。服务器选择链上更优的参数进行聚合，从而更新共享模型，直至模型达到训练目标。

本发明的上述实施例增加了客户证明过程来对各个参与方的身份进行识别；同时增加了参数多方测试方案，减少了本地测试结果的偶然性，并使得客户端若通过上传恶意数据来破坏全局模型，必须修改超过半数的其他客户端的测试反馈，对于较大的节点网络来说，发动一次攻击的成本是远大于攻击后获得的收益的，从而避免了恶意节点提供恶意参数的行为。从一定程度上，将互不可信的用户作为参与方整合到一起，建立一个安全可信的合作机制。

如图2所示，所述方法还包括：

系统初始化：

联盟链初始化：

服务器新建一个联盟币数据库并进行运维；其中，每次数据库更改后该数据库的散列值上传到联盟链；

本发明的上述实施例设计了一种合理的激励机制，研究了一种流通于该系统的货币机制“联盟币”，类似于信誉机制，联盟币的存在让服务器方便的辨别各节点的信誉程度。联盟币在节点派发参数时使用，对于参数性能较好或者参数可靠性更高的边缘节点模型，服务器提供更多的联盟币，形成一个双向激励的正反馈循环。同时，用户相互辨别可信度，及时发现存在恶意行为的用户，以解决联邦学习中客户之间的信任问题及服务器遴选优质客户的问题。

链中心提供数据接口：服务器和客户可以直接向链中心上传和下载相关文件，其文件名需要经过散列处理，并且只由数据参与方保管；

链中心提供验证接口：将参数和联盟币保存在分类账本中，服务器通过比对链中心的账本状态来验证该参数或联盟币的状态是否正确；

如图3所示，模型初始化：

服务器新建一个神经网络学习模型，并取出其中的参数；

服务器分别将模型和参数加密处理后保存为文件；

服务器生成AES对称加密机制的密钥，参数需要先经过AES加密方能保存为文件，且其文件名是对随机一串字节的散列以保持其独特性。此AES加密采用CBC模式，其密钥KEY与偏移量IV均长为16字节，通过随机生成，AES加密机制的KEY与IV被保存在同一文件中；

服务器将文件上传到链中心；

参数上链的过程如图4所示，文件内容首先经过散列处理HASH得到文件哈希

，再将

和上一次链上哈希

以及IV合并的结果进行一次散列HASH得到新的链上哈希

，上传到链中心；

实体初始化：

客户端进行注册，并选择需要加入的模型；

服务器向该客户提供AES对称加密机制的密钥和一个客户证明

，并由客户妥善保存，使得服务器和客户端可以相互识别是否处于相同模型之中；

客户证明生成的过程如图5所示。服务器为该客户随机生成一对RSA签名体制的公私钥，并将随机生成的字符串用其RSA私钥进行签名，然后将签名后的结果与该字符串组合后作为客户证明一起发给客户端；

服务器分发一定数量的联盟币作为该客户的初始资产，并更新联盟币数据库和联盟链；

联盟币上链的过程如图6所示，在联盟币的状态发生变化时，服务器将相关数据写入数据库，将联盟币数据库加密并作HASH散列处理，最后将散列值上传至链中心。

模型下载：

客户需要向服务器提供客户证明

；

服务器利用RSA签名体制的公钥进行验证；其中，对每个客户的客户证明使用对应的公钥进行验证；

服务器将HASH散列处理过的文件名提供给客户；

客户从链中心下载全局模型的参数，其中，模型参数用AES对称加密机制的密钥解密，采用同步骤1.2.2对应的CBC模式；

客户向链中心验证该参数是否是最新的模型参数，并且其未被修改。

如图7所示，模型更新：

客户端训练：

每个客户将下载的参数加载到本地模型进行更新；

每个客户使用本地训练集进行训练得到更优的新模型参数；

参数分发多方测试：

客户将新参数分发到该模型下超过半数的其他客户端进行测试；其中，客户向自己选择的其他客户提供一定数量的联盟币，而其他客户也可以根据其提供的联盟币的数量来决定是否需要为其测试参数；

客户收集其他客户签名后的测试反馈

；其中测试反馈含有测试结果的正确率和使用RSA签名机制对该结果的签名；

本地参数上传：

客户将本地的客户证明

和测试反馈

一并提交给服务器；

服务器验证参数并提供正确性反馈；其中，服务器会根据其附带提供的测试反馈

来确认可信高效的新参数，服务器会给予更多的联盟币奖励；

客户将新参数提交到链中心。

如图8所示，参数聚合：

链中心有足够数量的客户新参数时，服务器向链中心下载这些新参数并进行聚合，从而更新全局模型参数；

服务器根据客户联盟币的数量来选择优质客户，聚合这些客户的新参数；其中，联盟币越多者说明该客户平时表现良好，且提供过多次可信高效的训练参数；

服务器定期通过查链上的数据库的散列值以清查客户联盟币情况。对于长时间联盟币没有发生变化的客户，服务器会适当减少其联盟币；对于联盟币过低的客户，服务器会对其发起2次提醒，在提醒无果后会将其清除出该共享模型；

服务器重新上传全局模型参数到链中心；

当参数的训练不满足终止条件，即预先设定的阈值或者训练次数，客户继续下载参数并完成本地训练更新参数。

本发明基于联盟链的可信联邦学习方法实现了抗外部攻击和内部攻击。该方案利用联盟链来保证参数传输的可靠性和模型更新的及时性，以解决联邦学习中可能出现的参数传输过程被篡改问题。该方案设计基于多方测试的参数派发方案来解决参与边缘智能的节点可能存在恶意行为的问题。针对联邦学习中的激励问题，该方案设计一种流通于该系统的货币机制“联盟币”，为联邦学习中各边缘节点的可信度提供有效的保证并激励各节点的正反馈行为，并有利于激励各参与节点提供更好的参数从而得到更佳的全局模型，吸引更多的用户节点参与到该系统中来。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。