CN116471286A - 基于区块链及联邦学习的物联网数据共享方法 - Google Patents
基于区块链及联邦学习的物联网数据共享方法 Download PDFInfo
- Publication number
- CN116471286A CN116471286A CN202310333014.4A CN202310333014A CN116471286A CN 116471286 A CN116471286 A CN 116471286A CN 202310333014 A CN202310333014 A CN 202310333014A CN 116471286 A CN116471286 A CN 116471286A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- node
- reputation
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 98
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims description 39
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000014759 maintenance of location Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001351 cycling effect Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000003679 aging effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 201000003723 learning disability Diseases 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于区块链及联邦学习的物联网数据共享方法,包括步骤:提供分层训练模型框架;终端设备层将本地数据标签分布信息上传至边缘计算层,边缘计算层基于标签相似度的节点聚类算法选择部分终端设备作为参与节点并进行设备集群分组,形成集中式训练模型的集群架构;以集群为单位采用联邦学习的方式进行模型训练,直至得到满足预设精度的全局模型,其中,在进行模型训练时,最大限度的将前一步训练的信息代入到当前步训练的权重迭代中,同时对全部终端设备权重进行加权平均,使集中式训练模型与全局模型之间的权重偏移量小于目标偏移量。本发明解决传统方法模型准确性低、安全性差的问题。
Description
技术领域
本发明涉及物联网技术领域,特别涉及一种基于区块链及联邦学习的物联网数据共享方法。
背景技术
随着物联网技术的蓬勃发展,海量物联网终端设备接入网络产生了大规模的本地运行数据。但这些数据大多由持有者独享,一方面造成数据孤岛问题,另一方面阻碍了基于大数据的高质量模型训练,降低了数据服务应用的效果。与此同时,联邦学习的分布式模型推断特性与物联网非常契合,因此基于联邦学习框架进行物联网数据共享的技术成为了研究热点。
目前,已有大量利用人工智能技术对物联网数据进行数据分析和建模,传统的AI模型训练方式却存在数据泄露、数据来源不足等问题。联邦学习是作为解决以上问题而提出的一种新颖的分布式学习机制,将用户数据保存在设备本地而只共享模型参数,保护了用户隐私,因此引起了物联网领域的广泛关注。然而,在物联网中基于联邦学习的数据共享技术仍面临着以下挑战:
(1)模型准确性低。现实世界的物联网中,数据分布常是不平衡的,表现出非独立同分布(Non-IID)特性。每个客户端设备通过自身传感器模块以及不同的使用频率来生成自己的数据集。这些数据集将存储在设备本地,不会与其他终端共享原始数据,进而导致每个设备数据只含有总体数据集中的几个类别,形成数据标签分布不平衡。标签分布不平衡同样会表现非独立同分布分布特性使局部模型权重发散,尤其是在横向联邦学习的训练过程中。最终,共享的全局模型与理想模型之间的差异不断增大,从而减缓收敛速度,恶化学习性能,影响模型训练效率。另外,在实际训练时,为了提高训练效率,往往仅选择部分参与点进行训练,而部分参与点训练可能会导致权重偏移,更加无法保证模型的准确性。
(2)模型安全性差:传统联邦学习系统为中心式架构,其数据信息流是不对称的。本地参与方模型计算更新完后将梯度或者模型参数上传至中央服务器,中央服务器把参与方信息收集后进行全局计算并返回训练结果。整个全局模型更新始终在中央服务器上完成,这容易触发某些设备的好奇心导致单点故障和隐私泄露问题。另外,联邦学习系统中本地设备并不是完全可信的,参与的设备节点可能会转变为一个恶意节点,从而表现出自利行为,从而影响整个联邦学习系统的安全性。
发明内容
为了解决上述问题,本发明提供了一种基于区块链及联邦学习的物联网数据共享方法,解决了传统基于联邦学习的数据共享方法模型准确性低、安全性差的问题。
本发明通过如下方案来实现:一种基于区块链及联邦学习的物联网数据共享方法,包括步骤:
提供训练模型框架,所述训练模型框架自下而上包括终端设备层、边缘计算层和云服务器,所述终端设备层上的所有终端设备、所述边缘计算层上的所有边缘服务器以及所述云服务器之间均建立有数据连接;
设备集群初始化,所述终端设备在接收到训练任务时,将本地数据标签分布信息上传至边缘计算层,所述边缘计算层根据接收到的所述本地数据标签分布信息基于标签相似度的节点聚类算法选择部分终端设备作为参与节点并进行设备集群分组,将每个设备集群内的参与节点分别关联至一个边缘服务器,形成集中式训练模型的集群架构;
以集群为单位采用联邦学习的方式进行模型训练,直至得到满足预设精度的全局模型,其中,在进行模型训练时,最大限度的将前一步训练的信息代入到当前步训练的权重迭代中,同时对全部终端设备权重进行加权平均,使集中式训练模型与全局模型之间的权重偏移量小于目标偏移量。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,以集群为单位采用联邦学习的方式进行模型训练的步骤包括:
同一个集群的参与节点根据本地数据按序进行模型训练,得到本地模型后上传至关联的边缘服务器;
所述边缘服务器根据接收到的本地模型的参数进行聚合,生成边缘模型后上传至云服务器;
所述云服务器根据接收到的边缘模型的参数进行聚合,生成全局模型,同时对所述边缘计算层的状态信息进行深度强化学习,产生统一且合理的本地训练频次决策,然后将所述全局模型参数及所述本地训练频次决策传送给所述边缘服务器层以更新所述边缘模型,再由所述边缘服务器层传送给所述终端设备层以更新所述本地模型;
迭代循环上述步骤,直至所述全局模型达到预设精度为止。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,所述最大限度的将前一步训练的信息代入到当前步训练的权重迭代中指的是:每个所述参与节点进行模型训练时,将所述参与节点前一步的所有标签的综合权重和信息保留量求和并代入当前步的迭代训练中。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,所述目标偏移量为所有参与节点的加权平均。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于:在每个所述参与节点按序进行模型训练时,于每个集群内选择一个参与节点作为中心节点,除所述中心节点以外的参与节点作为候选节点,在执行训练任务的过程中,所述候选节点对每次节点之间的数据交互更新进行信誉度计算,仅当所述信誉度满足要求时执行所述数据交互更新。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,所述信誉度根据信誉意见计算得出,所述信誉意见包括直接信誉意见和间接信誉意见,所述直接信誉意见包括交互节点彼此的信任度、不信任度和不确定度,其中,所述信任度和所述不信任度以交互后模型更新是否可靠来确定,所述不确定度由交互节点之间的通信链路质量确定,包括传输成功概率和传输不成功概率。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,在确定所述直接信誉意见时考虑模型参数的交互效应、交互频率及交互时效的影响。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,所述间接信誉意见为所述中心节点给所述候选节点的信誉评价,所述中心节点与所述候选节点的交互次数越多,所述候选节点越被所述中心节点所信任,所述间接信誉意见越高。
本发明基于区块链及联邦学习的物联网数据共享方法的进一步改进在于,还包括步骤:根据每个候选节点的信誉度从所有候选节点中选择出一个执行共识算法的领导节点,由所述领导节点进行全局模型的聚合。
本发明包括但不限于以下有益效果:
1、本发明通过分层共享框架的建立,使框架中所有节点均能跟踪任一设备模型交互事件,还可利用事务日志轻松地追踪模型参数在训练过程中更新的来源等。
2、本发明考虑了设备数据标签分布不平衡问题,基于标签分布设计了设备聚类算法,可提高模型准确性,实现高效的数据共享。
3、本发明提出了应最大化客户端信息保留量,以使仅部分节点参与训练而导致的最大权重偏移量小于目标偏移量,以保证通过部分节点参与训练即可得到准确性较高的模型,提高了训练效率。
4、本发明基于节点信誉度设计了更高效的共识算法,不仅维护整个区块链网络节点的公平性和数据一致性,还能够快速排除提供虚假参数的不可靠节点,进一步确保了联邦学习的模型安全。
附图说明
图1示出了本发明集中式训练模型的集群架构拓扑图。
图2示出了本发明数据共享方法的主要流程图。
具体实施方式
为了解决传统基于联邦学习的数据共享方法模型准确性低、安全性差的问题,本发明提供了一种基于区块链及联邦学习的物联网数据共享方法。下面以具体实施例结合附图对该基于区块链及联邦学习的物联网数据共享方法作进一步说明。
一种基于区块链及联邦学习的物联网数据共享方法,包括步骤:
步骤1、在进行数据共享之前,先提供训练模型框架,该训练模型框架自下而上包括终端设备层、边缘计算层和云服务器,该终端设备层上的所有终端设备、该边缘计算层上的所有边缘服务器以及该云服务器之间均建立有数据连接。
步骤2、设备集群初始化。当物联网终端设备在接收到任务请求者下发的训练任务时,物联网终端设备将表征本地数据标签分布的信息主动上传至边缘计算层,该边缘计算层根据接收到的该本地数据标签分布信息基于标签相似度的节点聚类算法选择部分终端设备作为参与节点并进行设备集群分组,将每个设备集群内的参与节点分别关联至一个边缘服务器,形成集中式训练模型的集群架构。
具体来说:由于联邦学习中本地训练数据表现出标签分布不平衡的特征,易导致模型准确性低。因此,该步骤采用基于标签相似度的设备聚类联邦学习算法,以减轻设备标签分布不平衡对联邦学习的影响。假设系统共有D个终端设备节点,对于设备节点d,数据样本大小为nd。任何一个设备节点的标签类别分布都可以用一个标签向量Ld来表示。为了简单起见,统一地给定标签向量的长度,其维度固定为C。因此,标签向量Ld具体为:
其中,表示当前节点d拥有第c类标签的样本数量大小,C表示所有设备节点中样本标签类别的最大值。
ψ代表节点组合ζ标签分布与全局标签分布之间的相似度。越大,则节点组合ζ的标签相似度越大,表明所选节点组合的训练数据倾向于全局数据的独立同分布IID。反之,标签相似度越小。其中,相似度ψ的计算表达式为:
ψζ=1-ψDζ
其中,ψDζ反映了一个集群内节点组合的标签分布与全局分布的距离,具体计算表达式为:
其中,pd(y=i)表示设备节点d中标签类别y为i的数据分布概率,p(y=i)表示在全局数据集中,标签类别y为i的数据分布概率。
步骤3、在集群架构完成后,以集群为单位采用联邦学习的方式进行模型训练,直至得到满足预设精度的全局模型,其中,在进行模型训练时,最大限度的将前一步训练的信息代入到当前步训练的权重迭代中,同时对全部终端设备权重进行加权平均,使集中式训练模型与全局模型之间的权重偏移量小于目标偏移量。
具体来说,如图1所示,该分层联邦学习集群存在3个主要的实体:参与节点、边缘服务器、云服务器,参与节点产生或收集数据,每个节点都有自己的私有数据集,边缘服务器接收参与节点上传的本地模型参数并进行边缘模型聚合,云服务器存储原始模型并与所有参与节点共享全局模型,接收边缘服务器上传的边缘模型以进行全局模型聚合,本实施例中的本地模型、边缘模型及全局模型均为MLP模型。具体地,以集群为单位采用联邦学习的方式进行模型训练的步骤包括:
步骤3.1、同一个集群的参与节点根据本地数据按序进行模型训练,得到本地模型后上传至关联的边缘服务器。
具体来说,为了简化系统的执行复杂度,本方法设定边缘设备(即作为参与节点的终端设备或客户端)只负责收集本地数据,每个边缘设备使用SGD(随机梯度下降法)方法独立地进行训练,假设有1个客户端d,其本地数据样本量为nd,本地数据服从数据分布p(d)。客户端d在第T步的权重更新公式为:
其中,代表T时刻在客户端d的权重w,η为迭代过程中算法的学历比率,p(d)(y=i)表示客户端d中标签类别y为i的数据分布概率,/>表示边缘设备d在T-1时刻权重w的信息保留量,/>表示在对所有类标标签的综合权重和信息保留量的求和,以求最大限度的将T-1时刻的信息带入到T时刻的权重迭代中。
为了使权重迭代更加稳定,本方法针对全体客户端权重进行了加权平均,具体公式为:
其中,表示用求取当前客户端d的节点数量与全体节点数量的比值,从而降低节点数量较少的客户端对整体权重/>的扰动。
另外,还需考虑该集中式训练模型并非是所有终端设备均作为参与节点,而且在实际工作中,为了提高训练效率,也往往不需要所有的客户端进行训练迭代,而是可以选择一部分客户端并以固定学习率η进行T次局部训练迭代,而部分客户端迭代训练可能导致权重偏移,为了将权重偏移量稳定在一定目标偏移量以内,本方法提出应最大化客户端信息保留量g即在引入标签类别y为i时的随机变量λy=i时,求取部分客户端C的信息最大保留量
此时可以得出在T轮训练之后,联邦学习全局模型与集中式训练模型之间的权重偏移量小于目标偏移量,具体可表示为:
其中,(α)T代表转置后的权重序列,∑d∈ζnd代表当前节点d拥有全部标签的样本数量大小,代表当前节点d的样本数量与标签类别y为i的数据分布概率的积和,表示了最大的权重偏移量/>不会超过所有节点的加权平均。
步骤3.2、该边缘服务器根据接收到的本地模型的参数进行聚合,生成边缘模型后上传至云服务器。
具体来说,整个架构的异构性一方面体现在客户端所收集数据在分布和数量上的区别,另一方面则体现在边缘服务器在计算能力和通信资源等方面的差异。对于边缘服务器i在t时刻,其训练状态可以表示为如下形式:
其中表示边缘服务器的联邦学习训练参数,/>表示经过训练后边缘服务器i上损失函数的梯度,fi(t)和Ei(t)则分别表示边缘服务器的计算能力和资源消耗。边缘服务器具有一定的服务范围,它在模型训练过程中所需的数据仅由其服务范围内的边缘设备提供。依据不同的数据集完成模型参数的训练后,边缘服务器需要将更新后的边缘模型上传到云服务器。
步骤3.3、该云服务器根据接收到的边缘模型的参数进行聚合,生成全局模型,同时对该边缘计算层的状态信息进行深度强化学习,产生统一且合理的本地训练频次决策,然后将该全局模型参数及该本地训练频次决策传送给该边缘服务器层以更新该边缘模型,再由该边缘服务器层传送给该终端设备层以更新该本地模型。
步骤3.4、迭代循环上述步骤,直至该全局模型达到预设精度为止。
通过上述过程反复迭代,直到全局模型收敛,训练的结果可以为质量控制与预测性维护做出智能决策。云服务器将任务和初始化的全局模型进行广播。其次是本地模型的训练与更新,当边缘服务器i接收到全局模型/>时,需要利用存储的本地数据Di更新本地模型/>使参数能够最小化损失函数/>
其中t表示经历本地训练的次数,表示利用本地模型/>对样本{xi,yi}得出的估计值和实际值之间的误差,而样本{xi,yi}来源于本地数据Di。在本专利提出的方案中,本地训练频次是由中央服务器上部署的DQN模型统一决定的,所有的边缘服务器需要根据中央服务器的频次决策进行相应轮次的本地模型训练。以经典的FedAvg算法为例,所有本地训练后的模型参数需要上传至云服务器,并由云服务器对本地模型进行基于权重的聚合,从而生成全局模型:
作为一较佳实施方式:在每个该参与节点按序进行模型训练时,于每个集群内选择一个参与节点作为中心节点,除该中心节点以外的参与节点作为候选节点。由于在基于联邦学习的分布式多方协同数据共享中,候选节点可能表现出恶意破坏联邦学习训练的不可靠行为,提供虚假模型参数信息,从而导致联邦学习的全局模型安全受到威胁。为此,本方法基于多权重主观逻辑模型,提出了针对物联网多源数据信息的信誉度计算模型,在一个联邦学习任务训练过程中,该候选节点对每次节点之间的数据交互更新进行信誉度计算,仅当该信誉度满足要求时执行该数据交互更新。
具体地,该信誉度根据信誉意见计算得出,该信誉意见包括直接信誉意见和间接信誉意见,该直接信誉意见包括交互节点彼此的信任度、不信任度和不确定度,用如下向量v表示:
v=(bj→i,dj→i,uj→i)
其中,bj→i代表节点j对节点i的信任度,则dj→i和uj→i代表不信任度和不确定性度,这三个系数取值范围及满足条件如下公示:
bj→i,dj→i,uj→i∈[0,1]
bj→i+dj→i+uj→i=1
在联邦学习的分层共享的场景中,不确定性度uj→i由节点i和节点j的通信链路质量表示,即数据包传输的不成功概率,qj→i代表成功传输的概率。节点j对节点i直接信誉意见的具体元组参数计算如下:
其中,pj和nj代表该次任务中节点j与节点j互动正向和负向事件的数量。如果节点j与节点j广播的本地局部模型参数是可靠的,则节点j与节点j的本次交互事件视为一个正向事件,反之亦然。为判断是否为可靠的模型更新,在训练任务请求下发时会给所有候选节点提供一个小型的、共享的测试数据集。由此,节点j会用测试集对节点i的局部模型参数进行训练,若节点j训练出的测试准确率与其他节点交互的模型准确率差值小于给定阈值,则称为模型可靠更新。此阈值是任务请求者根据应用程序需求确定。根据信誉意见向量v,节点j对节点i的直接信誉度Tj→i的计算如下:
Tj→i=bj→i+γuj→i
其中,γ为给定的常量以表示不确定性影响的权重。
作为一较佳实施方式,在评价信誉度时考虑模型参数的交互效应、交互频率及交互时效的影响。具体来说,
(1)交互效应:不同交互事件对直接信誉意见的影响程度不一样。为了凸显负向交互的严重影响,本方法对不同交互事件赋予了相应的权重,用k和η分别表示事件正向和负向的权重,其k+η=1且k<η。考虑交互效应权重后,将上述直接信誉意见的具体元组参数更新如下:
(2)交互频率:它由节点j和节点i交互的次数与节点j和其他节点之间交互的次数之比表示。较高的交互频率代表在当前环境下节点i提供较好模型参数的表现行为,获得更高信誉意见,因此增大了其成为领导节点的概率。定义频率影响因子为fj→i:
其中,w代表与节点j交互的其他候选节点,Nj→w表示节点j与节点i的交互此时,Si为节点i成为领导节点的次数。
(3)交互时效:在长期地合作训练过程中,节点信誉度会随着时间而变化,因此考虑时效性影响因子vt。近期交互事件对信誉意见影响更大,过去的交互则影响小。定义时效衰减函数来表征信誉受时间的影响:vt=ΓT-t,Γ∈(0,1)是交互事件的衰减参数,t∈(0,T]表示模型训练的交互时间点,T是整个训练过程的全部时间段。最后,上述直接信誉意见的具体元组参数更新为:
因此,节点j与节点i的直接信誉意见更新为同时,可计算直接信誉度是:
最后,考虑到物联网产业数据节点众多,为使节点i的综合信誉意见更真实,本方法将中心节点x给关联候选节点i的信誉评价称为节点i的间接信誉意见,仍然表现为向量形式。如果每当任务请求下发时,满足请求的中心节点x总对节点i积极地转发本地局部模型参数,说明该候选节点值得被信任。随着多次联邦学习的任务训练,节点x对节点i的信任度是有变化的。如果节点x对节点i对其本地局部模型参数进行恶意篡改操作,则节点i会失去中心节点x对其信任。这样不仅降低对节点i响应的积极性,还降低节点i的间接信誉度。定义响应度因子表示为:
在整个区块链网络中,每个候选节点都承担着彼此之间的信誉意见评判和计算工作。直接和间接信誉意见相结合形成对节点i的综合信誉意见。综合信誉意见表示为具体元组参数计算如下:
因此,节点j对节点i的综合信誉度值可由下列公式计算得出,再计算全部候选节点对节点i的平均综合信誉度,即节点i的信誉度。
作为一较佳实施方式,本方法还包括可信共识算法执行步骤:
通过上述节点信誉度计算步骤,从候选节点中选择出一个执行共识算法的领导节点,由其进行联邦学习的全局模型聚合以及最后的全局模型共识出块,并将新生成的全局模型存储于区块链中。
具体来看,首先,每个节点首先随机生成k个节点编号,并将编号发送给所有其他节点,每个节点根据节点编号汇总推荐结果。选择信誉度值最高的节点作为领导节点,由领导节点对当前所有节点的推荐值进行排序。其次,选取前面一定数量的节点(本实施例选择前2000个节点)作为共识节点的候选集合,即所选择2000个节点作为候选节点。如果多个节点具有相同的投票数,优先选择早期加入网络的节点。然后,生产节点与共识节点的选取,领导节点与共识节点的选取引用Algorand中的身份抽取算法,在该函数中主要包含两个函数,抽取算法与验证算法:
Sortition(sk,seedi,τ,role,ω,Wtotal)→(hash,π,j)
VeriySort(pk,hash,seedi,ω,Wtotal)→j
其中,pk,sk为节点的公钥与私钥,τ是预设的期望值,role代表联邦学习中节点的类型,ω代表参与者当前的信誉值,Wtotal代表所有参与者的信誉总和。本专利通过不同的赋值来抽取不同数量的节点,当τ=1时,表示领导节点的抽取,即系统希望信誉值越高的节点具有更高的概率参与聚合模型的验证,因此用户的ω越大,其抽签次数就越多,通过这种抽签方式来防止系统误差。
生产节点收集验证结果,当生产节点收到大于1/2的验证成功的结果后,模型聚合结果验证成功,共识达成。由于每个共识节点的判断均由其自己签署,因此主节点只能对判断进行计数,而不能伪造或篡改该判断,从而达到在区块链及联邦学习框架下物联网多源数据的隐私共享。
本发明所设计的框架中所有节点能跟踪任何一个设备模型交互事件。此外,可利用事务日志轻松地追踪模型参数在训练过程中更新的来源,这是传统联邦学习算法无法做到的。本发明考虑了设备数据标签分布不平衡问题,基于标签分布设计了设备聚类算法可提高模型准确性,实现高效的数据共享。另外,本发明基于节点信誉度设计了更高效的共识算法,不仅维护整个区块链网络节点的公平性和数据一致性,还能够快速排除提供虚假参数的不可靠节点,进一步确保了联邦学习的模型安全。
本发明设备集群采用的分层联邦学习框架可根据实际需求适当增加学习层数,另外,本发明中使用的联邦学习扰动指数,可在实际操作中替换为对于本发明实际分类效果不会产生巨大影响的其他适当函数。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (9)
1.一种基于区块链及联邦学习的物联网数据共享方法,其特征在于,包括步骤:
提供训练模型框架,所述训练模型框架自下而上包括终端设备层、边缘计算层和云服务器,所述终端设备层上的所有终端设备、所述边缘计算层上的所有边缘服务器以及所述云服务器之间均建立有数据连接;
设备集群初始化,所述终端设备在接收到训练任务时,将本地数据标签分布信息上传至边缘计算层,所述边缘计算层根据接收到的所述本地数据标签分布信息基于标签相似度的节点聚类算法选择部分终端设备作为参与节点并进行设备集群分组,将每个设备集群内的参与节点分别关联至一个边缘服务器,形成集中式训练模型的集群架构;
以集群为单位采用联邦学习的方式进行模型训练,直至得到满足预设精度的全局模型,其中,在进行模型训练时,最大限度的将前一步训练的信息代入到当前步训练的权重迭代中,同时对全部终端设备权重进行加权平均,使集中式训练模型与全局模型之间的权重偏移量小于目标偏移量。
2.如权利要求1所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,以集群为单位采用联邦学习的方式进行模型训练的步骤包括:
同一个集群的参与节点根据本地数据按序进行模型训练,得到本地模型后上传至关联的边缘服务器;
所述边缘服务器根据接收到的本地模型的参数进行聚合,生成边缘模型后上传至云服务器;
所述云服务器根据接收到的边缘模型的参数进行聚合,生成全局模型,同时对所述边缘计算层的状态信息进行深度强化学习,产生统一且合理的本地训练频次决策,然后将所述全局模型参数及所述本地训练频次决策传送给所述边缘服务器层以更新所述边缘模型,再由所述边缘服务器层传送给所述终端设备层以更新所述本地模型;
迭代循环上述步骤,直至所述全局模型达到预设精度为止。
3.如权利要求2所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,所述最大限度的将前一步训练的信息代入到当前步训练的权重迭代中指的是:每个所述参与节点进行模型训练时,将所述参与节点前一步的所有标签的综合权重和信息保留量求和并代入当前步的迭代训练中。
4.如权利要求2所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,所述目标偏移量为所有参与节点的加权平均。
5.如权利要求4所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于:在每个所述参与节点按序进行模型训练时,于每个集群内选择一个参与节点作为中心节点,除所述中心节点以外的参与节点作为候选节点,在执行训练任务的过程中,所述候选节点对每次节点之间的数据交互更新进行信誉度计算,仅当所述信誉度满足要求时执行所述数据交互更新。
6.如权利要求5所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,所述信誉度根据信誉意见计算得出,所述信誉意见包括直接信誉意见和间接信誉意见,所述直接信誉意见包括交互节点彼此的信任度、不信任度和不确定度,其中,所述信任度和所述不信任度以交互后模型更新是否可靠来确定,所述不确定度由交互节点之间的通信链路质量确定,包括传输成功概率和传输不成功概率。
7.如权利要求6所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,在确定所述直接信誉意见时考虑模型参数的交互效应、交互频率及交互时效的影响。
8.如权利要求6所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,所述间接信誉意见为所述中心节点给所述候选节点的信誉评价,所述中心节点与所述候选节点的交互次数越多,所述候选节点越被所述中心节点所信任,所述间接信誉意见越高。
9.如权利要求5所述的基于区块链及联邦学习的物联网数据共享方法,其特征在于,还包括步骤:根据每个候选节点的信誉度从所有候选节点中选择出一个执行共识算法的领导节点,由所述领导节点进行全局模型的聚合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310333014.4A CN116471286A (zh) | 2023-03-30 | 2023-03-30 | 基于区块链及联邦学习的物联网数据共享方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310333014.4A CN116471286A (zh) | 2023-03-30 | 2023-03-30 | 基于区块链及联邦学习的物联网数据共享方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116471286A true CN116471286A (zh) | 2023-07-21 |
Family
ID=87183523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310333014.4A Pending CN116471286A (zh) | 2023-03-30 | 2023-03-30 | 基于区块链及联邦学习的物联网数据共享方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116471286A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077817A (zh) * | 2023-10-13 | 2023-11-17 | 之江实验室 | 一种基于标签分布的个性化联邦学习模型训练方法及装置 |
CN117155947A (zh) * | 2023-08-30 | 2023-12-01 | 国网山东省电力公司德州供电公司 | 一种数据资源高可靠实时共享方法及系统 |
CN117475282A (zh) * | 2023-12-28 | 2024-01-30 | 第六镜视觉科技(西安)有限公司 | 目标识别方法、装置、边侧设备和计算机可读存储介质 |
CN117521856A (zh) * | 2023-12-29 | 2024-02-06 | 南京邮电大学 | 一种基于本地特征的大模型切割联邦学习方法及系统 |
CN117915476A (zh) * | 2024-03-13 | 2024-04-19 | 南京大学 | 一种信息集成系统处理方法及系统 |
-
2023
- 2023-03-30 CN CN202310333014.4A patent/CN116471286A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117155947A (zh) * | 2023-08-30 | 2023-12-01 | 国网山东省电力公司德州供电公司 | 一种数据资源高可靠实时共享方法及系统 |
CN117155947B (zh) * | 2023-08-30 | 2024-04-09 | 国网山东省电力公司德州供电公司 | 一种数据资源高可靠实时共享方法及系统 |
CN117077817A (zh) * | 2023-10-13 | 2023-11-17 | 之江实验室 | 一种基于标签分布的个性化联邦学习模型训练方法及装置 |
CN117077817B (zh) * | 2023-10-13 | 2024-01-30 | 之江实验室 | 一种基于标签分布的个性化联邦学习模型训练方法及装置 |
CN117475282A (zh) * | 2023-12-28 | 2024-01-30 | 第六镜视觉科技(西安)有限公司 | 目标识别方法、装置、边侧设备和计算机可读存储介质 |
CN117475282B (zh) * | 2023-12-28 | 2024-05-28 | 第六镜视觉科技(西安)有限公司 | 目标识别方法、装置、边侧设备和计算机可读存储介质 |
CN117521856A (zh) * | 2023-12-29 | 2024-02-06 | 南京邮电大学 | 一种基于本地特征的大模型切割联邦学习方法及系统 |
CN117521856B (zh) * | 2023-12-29 | 2024-03-15 | 南京邮电大学 | 一种基于本地特征的大模型切割联邦学习方法及系统 |
CN117915476A (zh) * | 2024-03-13 | 2024-04-19 | 南京大学 | 一种信息集成系统处理方法及系统 |
CN117915476B (zh) * | 2024-03-13 | 2024-05-14 | 南京大学 | 一种信息集成系统处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191484B (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN116471286A (zh) | 基于区块链及联邦学习的物联网数据共享方法 | |
Xu et al. | Asynchronous federated learning on heterogeneous devices: A survey | |
Yan et al. | Automatic virtual network embedding: A deep reinforcement learning approach with graph convolutional networks | |
Kang et al. | Incentive mechanism for reliable federated learning: A joint optimization approach to combining reputation and contract theory | |
Rjoub et al. | Trust-driven reinforcement selection strategy for federated learning on IoT devices | |
CN115102763B (zh) | 基于可信联邦学习多域DDoS攻击检测方法与装置 | |
Moudoud et al. | Towards a secure and reliable federated learning using blockchain | |
CN112637883A (zh) | 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法 | |
WO2023071626A1 (zh) | 一种联邦学习方法、装置、设备、存储介质及产品 | |
Yang et al. | E-tree learning: A novel decentralized model learning framework for edge ai | |
Xu et al. | Decentralized machine learning through experience-driven method in edge networks | |
CN114301935B (zh) | 一种基于声誉的物联网边云协同联邦学习节点选择方法 | |
Cheng et al. | VNE-HRL: A proactive virtual network embedding algorithm based on hierarchical reinforcement learning | |
Chen et al. | Enhancing decentralized federated learning for non-iid data on heterogeneous devices | |
Xu et al. | Aoi-guaranteed incentive mechanism for mobile crowdsensing with freshness concerns | |
CN116187469A (zh) | 一种基于联邦蒸馏学习框架的客户端成员推理攻击方法 | |
Al Ridhawi et al. | An intelligent blockchain-assisted cooperative framework for industry 4.0 service management | |
CN115759289A (zh) | 基于用户分组协同的联邦学习方法、系统及装置 | |
Ren et al. | A memetic algorithm for cooperative complex task offloading in heterogeneous vehicular networks | |
Huang et al. | Collective reinforcement learning based resource allocation for digital twin service in 6G networks | |
AbdulRahman et al. | Management of digital twin-driven IoT using federated learning | |
Asheralieva et al. | Ultra-reliable low-latency slicing in space-air-ground multi-access edge computing networks for next-generation internet of things and mobile applications | |
Zhao et al. | Energy-efficient and fair iot data distribution in decentralised federated learning | |
Wagle et al. | Embedding alignment for unsupervised federated learning via smart data exchange |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |