CN114580009A

CN114580009A - 基于联邦学习的区块链数据管理方法、系统及存储介质

Info

Publication number: CN114580009A
Application number: CN202210046547.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Jilin Yuanyi Technology Co ltd
Current assignee: Tang Caiyan
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-06-03
Anticipated expiration: 2042-01-13
Also published as: CN114580009B

Abstract

本发明公开了一种基于联邦学习的区块链数据管理方法、系统及存储介质，包括基于区块链的去中心化联邦学习，单个或多个终端设备通过竞争获得出块权，获得出块权的终端设备作为本轮学习的聚合器；聚合器对所有合格的本地模型参数就行聚合并获得全局模型参数，并将本轮全部参数存入区块，全局模型更新并出块后，终端设备从区块链上获取全局参数并进入下一轮的学习；激励机制：参与联邦学习的终端设备根据贡献获得激励；设备选择：基于博弈论和马尔可夫动态决策过程进行设备选择。本发明对参与机器学习的终端设备进行激励，有利于大量数据的获取；使用区块链技术在数据计算环节进行溯源，阻断恶意攻击。

Description

基于联邦学习的区块链数据管理方法、系统及存储介质

技术领域

本发明涉及一种基于联邦学习的区块链数据管理方法、系统及存储介质。

背景技术

市面上的数据资产管理系统目前主要有两种，一种是政府数据银行，主要为基于区块链的政务大数据资产化管理与共享服务平台为主，模式为基于银行货币资产的管理与运营模式，以保护用户数据的所有权、管理权、使用权和收益权为核心，建立大数据资产的管理与运营系统，构造数据确权、汇聚、存储、托管、共享与增值应用的第三方中介综合服务平台，主要采用数据服务模式开展数据资产化的运营服务，属于一种大数据的共享经济平台，主要功能包括数据汇聚、存储、清晰(过滤、整理)、管理、可视化分析与挖掘、数据增值服务接口、数据溯源与确权、数据服务计价、数据收益结算、数据版权与信息安全保护等功能。该系统主要采用各类隐私计算保护数据，数据暴露在中心化的数据库进行计算和清洗。举例，如上海数据交易所的成立预示着这一新资产交易平台的正式落地应用。另一种是只使用区块链技术作为底层数据库，让数据上链而应用层授权数据等不变实现的伪区块链数据管理。

原来的数据机器学习必须将数据传入中心化服务器进行计算，仍然有数据泄漏的风险；同时，联邦学习技术面临恶意攻击越加多种多样，追踪被篡改数据成为必要，无论是现有的几种恶意数据检测方法如Beta信誉计算，隐私计算等，均需要掌握用户所提供的数据，该检测方法为保证准确率需要收集大量数据用于训练检测模型。

发明内容

本发明在此的目的在于提供一种基于联邦学习的区块链数据管理方法，该方法有利于大量数据的获取，能有效阻断恶意攻击。

为此，本发明提供的基于联邦学习的区块链数据管理方法包括：

基于区块链的去中心化联邦学习：单个或多个终端设备通过竞争获得出块权，获得出块权的终端设备作为本轮学习的聚合器；聚合器对所有合格的本地模型参数就行聚合并获得全局模型参数，并将本轮全部参数存入区块，全局模型更新并出块后，终端设备从区块链上获取全局参数并进入下一轮的学习；

激励机制：参与联邦学习的终端设备根据贡献获得激励；

设备选择：基于博弈论和马尔可夫动态决策过程进行设备选择，通过区块链的交叉验证机制和不可篡改性，在每轮学习中选择设备，博弈论和马尔可夫动态决策过程优化设备选择并屏蔽由篡改的数据造成的中毒攻击。

在一些实施方式中，所述基于区块链的去中心化联邦学习包括以下步骤：

(1)初始化，全部终端设备利用区块链中的智能合约统一模型及其参数，并根据模型对本地数据进行清洗；

(2)初始化结束后，各终端设备开始对本地模型进行训练，训练完成的设备进入工作量证明的共识阶段，通过训练生成的参数的准确程度和工作量争取出块权；

(3)获得出块权的终端设备作为本轮学习的聚合器，所有其他参与共识的终端设备将其持有的本地模型参数交予聚合器，每一个模型参数都被认定为一个交易；

(4)聚合器对所有合格的本地模型参数就行聚合并获得全局模型参数，并将本轮全部参数存入区块；全局模型更新并出块后，终端设备从区块链上获取全局参数并进入下一轮的学习。

在一些实施方式中，在终端设备将其持有的本地模型参数交予聚合器过程中所有参与共识的终端设备对其他模型参数进行交叉验证，对偏差较大的模型参数予以剔除并标记状态，该状态可在后续的博弈论中作为输入参数。

在一些实施方式中，所述激励机制包括以下步骤：

(1)建立PoW共识算法；

(2)通过一轮学习，全局模型将通过对所有参与共识的本地模型参数得到优化，通过全局模型参数可以衡量本地模型对齐收敛的贡献程度；

(3)根据终端设备不同的贡献，映射函数将贡献非线性的映射为激励。

在一些实施方式中，建立的PoW共识算法是用一个联邦学习任务取代寻找哈希值。

在一些实施方式中，所述映射函数为S型函数。

在一些实施方式中，所述设备选择包括以下步骤：

(1)对终端设备的行为进行建模，使用设备愿意贡献的计算能力和使用的本地数据作为依据，将其加权获得归一化的设备行为值；

(2)对用于基于区块链的去中心化联邦学习的系统状态进行描述，通过系统是否进一步收敛来描述当前的系统状态，并在系统状态的基础上建立状态转移矩阵描述系统状态的变化趋势；

(3)针对当前行为和系统状态，建立收益函数；

(4)所有参与共识的终端设备都以最大化自己的收益函数为目标根据博弈论建立马尔可夫动态决策过程；

(5)马尔可夫动态决策过程收敛时将得到纳什均衡选择终端设备。

本发明的另一个目的在于提供了一种基于联邦学习的区块链数据管理系统，该系统包括去中心化联邦学习系统和与所述去中心化联邦学习系统通信连接实现数据交互的终端设备，用于实现基于区块链的去中心化联邦学习、激励机制及设备选择。

另外，本发明还提供一种可读存储介质，其上存储有一个或多个程序，其特征在于，该一个或多个程序被一个或多个处理器执行时基于联邦学习的区块链数据管理方法。

本发明的有益效果是：本发明对参与机器学习的终端设备进行激励，有利于大量数据的获取；使用区块链技术在数据计算环节进行溯源，阻断恶意攻击；比差分隐私保护方法在原始感知数据上引入噪声导致恶意数据和正常数据不好区分，区块链联邦学习不会有此问题；比基于匿名的隐私保护手段更加容易检测。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明记载的基于区块链的去中心化联邦学习步骤流程图；

图2为本发明记载的激励机制步骤流程图；

图3为本发明记载的设备选择步骤流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

本发明提供了一种基于联邦学习的区块链数据管理方法，该方法主要从以下三个方面着手：

(1)基于区块链的完全去中心化的联邦学习

由于在联邦学习场景中存在中央服务器作为聚合器处理来自终端设备的模型参数，为了降低由于中央服务器造成的单点故障和中间人攻击，本方法引入共识机制并由变色龙哈希函数连接区块以取消中央服务器。单个或多个终端设备通过竞争获得出块权(作为聚合器)并完成本轮学习过程。终端设备需要证明其处理能力及其所持有的本地数据的优势，获得出块权，可以极大程度的避免中央服务器造成的安全威胁。

(2)基于贡献比例和随机性的个性化激励机制

获得出块权的终端设备将会得到奖励，在联邦学习的场景下，通常由数据奖励和代币奖励两种形式。在该环境下，使用一个更加完善的工作量证明共识算法，其中联邦学习任务将取代寻找哈希值以节省计算资源。参与联邦学习的终端设备将通过Sigmoid函数映射获得个性化的奖励。同时，我们加入随机性进入奖励机制，以确保终端设备无论算力高低都有意愿参加学习过程。

(3)基于博弈论和马尔可夫动态决策过程的设备选择优化方法

终端设备的计算能力和其持有的数据决定了学习的准确度和效率，通过区块链的交叉验证机制和不可篡改性，可以在每轮学习中选择最优设备。这样可以避免大规模终端设备参与造成的处理延迟。同时，通过博弈论和马尔可夫动态决策过程，可以优化设备选择并屏蔽由篡改的数据造成的中毒攻击。

区块链(Blockchain)是借由密码学串接并保护内容的串连文字记录(又称区块)。每一个区块包含了前一个区块的加密散列、相应时间戳记以及交易数据(通常用默克尔树(Merkle tree)算法计算的散列值表示)，这样的设计使得区块内容具有难以篡改的特性。用区块链技术所串接的分布式账本能让两方有效纪录交易，且可永久查验此交易。区块链系统中没有中央服务器，所有操作由区块链的用户节点共同完成，由于区块链的公开账本也被每一个节点备份，进一步体现其去中心化的特性。

请参照图1，基于区块链的去中心化联邦学习主要包含一下步骤：

(1)在初始化阶段，全部终端设备利用区块链中的智能合约等手段统一模型及其参数，并根据模型对本地数据进行清洗；

(2)初始化结束后，各终端设备开始对本地模型进行训练，训练完成的设备进入工作量证明(PoW,Proof-of-Work)的共识阶段，通过训练生成的参数的准确程度和工作量争取出块权，出块权是根据POW的规则来的，即哈希计算；

(4)在数据上传过程中，所有参与共识的终端设备对其他模型参数进行交叉验证(交叉验证的意思是单点发起,全网广播,交叉验证,共同记账，多个节点多账本直接就验证了)，对偏差较大(正常用户所提供的感知数据一般比较相似，而攻击者为了使得判决结果发生偏差需要提供与真实值差异较大的恶意感知数据，本项目拟基于加密数据的相似度计算，提出与隐私保护手段相匹配的移动群智感知恶意数据检测方法，兼顾效率的同时实现在不泄露用户敏感信息的基础上对恶意数据进行抵制，以确保系统对事件判断和知识发现的准确性)的模型参数予以剔除并标记状态，该状态可在后续的博弈论中作为输入参数，用于测试数据；

(5)聚合器对所有合格的本地模型参数就行聚合并获得全局模型参数，并将本轮全部参数存入区块。全局模型更新并出块后，终端设备从区块链上获取全局参数并进入下一轮的学习。

该方法如何根据模型参数判断该设备是否为恶意以及其持有数据是否对学习收敛起到积极作用。同时，在选取合理的模型参数时，应综合考虑设备的异构性带来的的学习参数差异，注意区分具有一定差异的正常数据和恶意数据。为此本发明所提供的方法是经以下途径解决的：

(1)基于状态估计、异常值检测、人工智能和信任管理机制的检测方法未能考虑到隐私保护的情形，故无法直接应用的移动群智感知场景；

(2)加密与匿名相结合的双重隐私保护手段使得难以对感数据进行可靠性估计，也无法将感知数据与其提供者进行关联，为攻击者持续提供恶意感知数据创造了条件；

(3)现有隐私保护前提下应对恶意感知数据的方法，要么无法对感知数据可靠性进行估计或者可靠性估计精度不够，要么无法满足更高要求的隐私保护需求。研究内容从加密与匿名相结合的隐私保护手段入手，充分调研隐私保护手段对恶意数据检测所带来的严峻挑战。考虑到执行同一感知任务时，正常用户所提供的感知数据一般比较相似，而攻击者为了使得判决结果发生偏差需要提供与真实值差异较大的恶意感知数据，本方法基于加密数据的相似度计算，提出与隐私保护手段相匹配的移动群智感知恶意数据检测方法，兼顾效率的同时实现在不泄露用户敏感信息的基础上对恶意数据进行抵制，以确保系统对事件判断和知识发现的准确性。

基于贡献和随机性的个性化激励机制：

由于设备和数据差异，在联邦学习系统中具有高计算性能和优质本地数据的终端设备由于边际效应可能选择拒绝参加学习，因此激励机制对提升高性能设备参与度起到了至关重要的作用。对于奖励机制，传统的区块链模型会一次性将定额数量的奖励给予获得出块权的节点，这也造成了设备参与学习驱动力的流失。因此，本方案采取联邦学习任务作为工作量证明，所有参与学习作出贡献的终端设备都会得到一定程度的个性化奖励。

请参照图2，基于贡献和随机性的个性化激励机制主要包含一下步骤：

(1)首先，个性化激励机制建立在一个改良的PoW共识算法之上，即用一个联邦学习任务取代寻找哈希值的问题，通过这种改良，所有参与设备的算力都能得到充分的利用，所有算力都对学习任务的收敛有所贡献。

(2)通过一轮学习，全局模型将通过对所有参与共识的本地模型参数得到优化，通过全局模型参数可以衡量本地模型对齐收敛的贡献程度；此处共享程度基于贡献比例和随机性的个性化激励机制；由于设备和数据差异，在联邦学习系统中具有高计算性能和优质本地数据的终端设备由于边际效应可能选择拒绝参加学习，因此激励机制对提升高性能设备参与度起到了至关重要的作用。对于奖励机制，传统的区块链模型会一次性将定额数量的奖励给予获得出块权的节点，这也造成了设备参与学习驱动力的流失。因此，此方案采取联邦学习任务作为工作量证明，所有参与学习作出贡献的终端设备都会得到一定程度的个性化奖励。

(3)根据终端设备不同的贡献，通过特殊设计的映射函数(Mapping Function)，比如Sigmoid Function，将贡献非线性的映射为个性化的激励。此处奖励的作用是为了激励设备参与，获得更优质的数据。

(4)针对激励的方法，本方案加入了一定的随机性(POW是不知道谁会最终成为记账节点的，区块链技术记账的方法本身就具有随机性)，这样可以平衡联邦学习系统内部的两极分化，进一步促进无论计算能力高低的终端设备参与到学习过程中。

(5)在联邦学习场景下，数据是一种电子资产，因此可根据不同的场景选择提供数据奖励或者其他代替物通证奖励。作为区块链奖励系统的一种延伸，个性化的激励制度极大程度提高了用户参与度，也正因此提高了联邦学习的性能。

该方案根据全局模型参数判断各个终端设备的贡献值，并设计合理的映射函数将贡献值映射为个性化的奖励值以达到最大化的参与度。

基于博弈论和马尔可夫动态决策过程的设备选择优化方法

由于过多的终端设备参与可能导致联邦学习系统效率低下，尤其在有恶意终端设备的前提下，可能造成学习结果的偏差。因此，在有数量上限的前提下如何选择最优的设备参与学习和共识进程将决定了学习收敛的效率及学习结果的准确性。

请参照图3，基于博弈论和马尔可夫动态决策过程的设备选择优化主要包含一下步骤：

(1)首先要对终端设备的行为进行建模，此处使用设备愿意贡献的计算能力和使用的本地数据作为依据，将其加权获得归一化的设备行为值。

(2)对基于区块链的联邦学习系统状态进行描述，通过系统是否进一步收敛来描述当前的系统状态，并在系统状态的基础上建立状态转移矩阵描述系统状态的变化趋势。

(3)针对当前行为和系统状态，建立收益函数。通过收敛速度来描述系统收益函数，该函数值可取正数或负数以描述收益变化。

(4)所有参与共识的终端设备都以最大化自己的收益函数为目标根据博弈论建立马尔可夫动态决策过程。在多步学习的过程中，行为和状态不断更新以动态获得最高收益。

(5)最终马尔可夫动态决策过程收敛时将得到纳什均衡，即在有限时间窗口内没时间窗口最优的设备选择方法。该纳什均衡的导出也将加速基于区块链的联邦学习的收敛。

本方案设计合理的终端设备行为并确定状态转移矩阵，同时建立理性的收益函数以真实的描述系统状态，最终使得马尔可夫动态决策过程和基于区块链的联邦学习同步加速收敛。

本文提供的方法基于去中心化联邦学习系统和与所述去中心化联邦学习系统通信连接实现数据交互的终端设备构成的系统可以实现，用于实现基于区块链的去中心化联邦学习、激励机制及设备选择。

本文提供的方法及系统实现方法还可以基于以下条件：

(1)尽量使用开源代码库以节约时间成本(Google的TensorFlow Federated

平台、支持安全通信和差分隐私的Pysyft库、支持变色龙哈希函数(ChameleonHash)的Cryptography系统、支持多种区块链实现的Hyperledger平台等)，根据所选数据可靠性的评估算法，兼顾存储与效率时间效率，选取适用的区块链协议，验证分布式隐私保护下通过优化激励机制、优化资格选取及提升中毒攻击抵抗能力的前提下联邦攻击的输出准确度，并进一步分析其工作效率。

(2)基于课题组现有的物联网终端设备、智能移动设备、树莓派等搭建基于区块链的联邦学习平台，对本项目中提出的方案在搭建的平台上部署运行，分析准确性、效率等参数，并根据获得的实验结果通过理论对方案进行优化。

本发明将从设备端数据上传之前对用户的隐私进行保护，防止中央服务器和参与学习的其他终端访问原始数据，联邦学习要求终端设备在本地进行训练并将训练参数返回中央服务器，区块链技术在数据的机器学习过程中起到了激励、溯源等作用，让运营人员及时发现恶意的机器并及时隔离，并通过区块链引入交叉验证过程，实现终端设备可信追溯，阻断了攻击者对系统造成可能的持续影响。区块链联邦学习让数据资产在设备端进行分布式计算，保护用户数据隐私，并采用区块链技术进行溯源，及时阻断恶意攻击。

本发明对于大数据提供方的奖励方式，按贡献进行设备的个性化激励；基于联邦学习的共识算法，实现机器的去中心化学习；通过区块链交叉验证机制对数据的不可篡改性优化设备选择，提高优质终端参与度。

另一方面，本发明还提供一种可读存储介质，其上存储有一个或多个程序，该一个或多个程序被一个或多个处理器执行时实现基于联邦学习的区块链数据管理方法，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。需要说明的是，本技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分步骤，提到的存储介质包括：U盘、随机存取存储器、移动硬盘等各种可以存储程序代码的介质。

本公开已由上述相关实施例加以描述，然而上述实施例仅为实施本公开的范例。必需指出的是，已揭露的实施例并未限制本公开的范围。相反，在不脱离本公开的精神和范围内所作的变动与润饰，均属本公开的专利保护范围。

Claims

1.一种基于联邦学习的区块链数据管理方法，其特征在于，该方法包括：

激励机制：参与联邦学习的终端设备根据贡献获得激励；

2.根据权利要求1所述的基于联邦学习的区块链数据管理方法，其特征在于，所述基于区块链的去中心化联邦学习包括以下步骤：

3.根据权利要求2所述的基于联邦学习的区块链数据管理方法，其特征在于，在终端设备将其持有的本地模型参数交予聚合器过程中所有参与共识的终端设备对其他模型参数进行交叉验证，对偏差较大的模型参数予以剔除并标记状态，该状态可在后续的博弈论中作为输入参数。

4.根据权利要求1所述的基于联邦学习的区块链数据管理方法，其特征在于，所述激励机制包括以下步骤：

(1)建立PoW共识算法；

5.根据权利要求4所述的基于联邦学习的区块链数据管理方法，其特征在于，建立的PoW共识算法是用一个联邦学习任务取代寻找哈希值。

6.根据权利要求4所述的基于联邦学习的区块链数据管理方法，其特征在于，所述映射函数为S型函数。

7.根据权利要求1所述的基于联邦学习的区块链数据管理方法，其特征在于，所述设备选择包括以下步骤：

(3)针对当前行为和系统状态，建立收益函数；

8.基于联邦学习的区块链数据管理系统，其特征在于，该系统包括去中心化联邦学习系统和与所述去中心化联邦学习系统通信连接实现数据交互的终端设备，用于实现基于区块链的去中心化联邦学习、激励机制及设备选择。

9.一种可读存储介质，其上存储有一个或多个程序，其特征在于，该一个或多个程序被一个或多个处理器执行时实现权利要求1～7任一项所述的基于联邦学习的区块链数据管理方法。