CN113779617A - 基于状态通道的联邦学习任务可信监管与调度方法及装置 - Google Patents
基于状态通道的联邦学习任务可信监管与调度方法及装置 Download PDFInfo
- Publication number
- CN113779617A CN113779617A CN202110896359.1A CN202110896359A CN113779617A CN 113779617 A CN113779617 A CN 113779617A CN 202110896359 A CN202110896359 A CN 202110896359A CN 113779617 A CN113779617 A CN 113779617A
- Authority
- CN
- China
- Prior art keywords
- data
- chain
- node
- supervision
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 191
- 230000008569 process Effects 0.000 claims abstract description 124
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000013500 data storage Methods 0.000 claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 15
- 238000007689 inspection Methods 0.000 abstract description 4
- 108091006146 Channels Proteins 0.000 description 109
- 238000007726 management method Methods 0.000 description 20
- 230000008859 change Effects 0.000 description 17
- 238000012795 verification Methods 0.000 description 17
- 239000003795 chemical substances by application Substances 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 230000006399 behavior Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000036541 health Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000013475 authorization Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000013499 data model Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013496 data integrity verification Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000006378 damage Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2141—Access rights, e.g. capability lists, access control lists, access tables, access matrices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于状态通道的联邦学习任务可信监管与调度方法及装置,该方法包括:通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将模型训练过程产生的交易转移到链下完成。本发明引入许可链设计混合联邦学习架构,通过用户代理注册的方式,将节点的身份信息和资源信息存储于区块链,并通过设计链上‑链下的数据存储结构,确保数据真实性,实现数据可信查验,保证联邦学习过程的数据存储可信。
Description
技术领域
本发明涉及可信监管技术领域,尤其涉及一种基于状态通道的联邦学习任务可信监管与调度方法及装置。
背景技术
随着大数据和物联网技术的发展和应用,网络数据爆炸式增长,边缘设备突破通信时延和带宽的束缚,广泛参与到分布式应用中。基于边缘计算技术构建的分布式智能系统迅速增加,企业获得大量价值数据。为充分挖掘数据价值,避免产生数据孤岛,协同共享分散数据,增强数据价值传递,成为了网络发展的必然趋势。但与此同时,用户对于隐私问题的关注度也日渐提高,隐私保护相关条款及法律相继出台,原始数据的共享受到了极大限制。企业普遍希望通过数据共享,强化数据分析,改良产品设计,优化生产计划,提高企业效益,提升企业竞争力。
在这一背景下,联邦学习技术进入大众视野,并作为收集用户键盘输入数据的有效工具得到应用。联邦学习技术能够在实现数据价值聚合的同时,避免原始数据传输造成的数据隐私泄露问题,以数据模型替代原始数据进行价值传递,减轻因大量数据传递造成的网络通信压力,所以联邦学习技术在数据共享领域受到了广泛的关注。作为数据价值聚合的有效工具,联邦学习技术充分发展,目前已经在车联网、工业物联网和智慧城市等许多场景中得到了应用。
然而,由于跨域多利益体间的可信问题难以解决,联邦学习技术的应用多局限于单一业务系统,跨域数据共享的应用较少,这使得数据价值难以得到真正的发挥。为了进一步推动数据共享应用的发展,针对跨域数据共享过程中的可信问题亟待解决。
发明内容
针对现有技术存在的问题,本发明提供一种基于状态通道的联邦学习任务可信监管与调度方法及装置。
本发明提供一种基于状态通道的联邦学习任务可信监管与调度方法,包括:
通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;
基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;
基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
根据本发明提供的一种基于状态通道的联邦学习任务可信监管与调度方法,所述方法还包括:
构建联邦学习任务可信监管类别,所述联邦学习任务可信监管类别包括数据存储可信监管、用户身份可信监管、训练过程可信监管以及训练结果可信监管。
根据本发明提供的一种基于状态通道的联邦学习任务可信监管与调度方法,所述方法还包括数据共享流程,所述数据共享流程由数据请求方、许可链、本地节点和全局节点参与,所述数据请求方、本地节点和全局节点是通过代理注册得到的,所述许可链由所述数据请求方、本地节点和全局节点共同支撑和维护。
根据本发明提供的一种基于状态通道的联邦学习任务可信监管与调度方法,所述通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验,包括:
以交易的形式,将数据共享过程中的关键数据上链存储,所述交易包括用户注册交易、数据注册交易和数据共享交易。
根据本发明提供的一种基于状态通道的联邦学习任务可信监管与调度方法,所述基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份,包括:
以六元组定义模型,分别包括主体属性、客体属性、环境属性、访问操作属性、用户信誉属性以及任务角色属性。
根据本发明提供的一种基于状态通道的联邦学习任务可信监管与调度方法,所述基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成,包括:
锁定参与方的链上状态并构建状态通道;
对状态通道内的数据进行交互;
对链上交易进行清算。
根据本发明提供的一种基于状态通道的联邦学习任务可信监管与调度方法,所述述基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成,还包括:
按照预设时间或者预设交易次数定期更新链上状态,降低计算开销。
本发明还提供一种基于状态通道的联邦学习任务可信监管与调度装置,包括:
完整性校验模块,用于通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;
节点控制模块,用于基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;
数据共享交易模块,用于基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于状态通道的联邦学习任务可信监管与调度方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于状态通道的联邦学习任务可信监管与调度方法的步骤。
本发明提供的基于状态通道的联邦学习任务可信监管与调度方法及装置,引入许可链设计了混合联邦学习架构,通过用户代理注册的方式,将节点的身份信息和资源信息存储于区块链中,并通过设计链上-链下的数据存储结构,确保数据真实性,实现数据的可信查验,保证联邦学习过程的数据存储可信。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于状态通道的联邦学习任务可信监管与调度方法的流程示意图;
图2为本发明提供的数据共享过程的工作流程示意图;
图3为本发明提供的参与FL任务的好节点模型质量变化图;
图4为本发明提供的参与FL任务的坏节点模型质量变化图;
图5为本发明提供的参与FL任务的总节点数量变化图;
图6为本发明提供的参与FL任务的好节点数量变化图;
图7为本发明提供的参与FL任务的坏节点数量变化图;
图8为本发明提供的参与FL任务的好节点信誉值变化图;
图9为本发明提供的参与FL任务的坏节点信誉值变化图;
图10为本发明提供的基于状态通道的联邦学习任务可信监管与调度装置的结构示意图;
图11为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解现有技术的发展状况,对已有的论文和专利进行了检索、比较和分析,筛选出如下与本发明相关度比较高的技术信息:
已有技术方案1:专利号为CN112685776A的《一种基于区块链及隐私安全计算的隐私数据可信验证方法》专利,属于数据可信验证领域,尤其涉及一种基于区块链及隐私安全计算的隐私数据可信验证方法。通过集成区块链和隐私安全计算两项技术,形成了两层架构。隐私安全计算作为链下可信层,进行隐私运算、复杂运算、高频运算等场景;区块链则通过服务层与链下的隐私安全计算进行连通,用于存证隐私安全计算所产生的运算结果,为其赋予不可篡改性。通过创新式的组合使用区块链及隐私安全计算技术,实现了安全、可信的隐私数据可信度验证。该方法一方面可以确保权威部门愿意提供可信数据源,另一方面可以确保数据传输、数据计算、计算结论三个环节的不可篡改,从而真正确保电子数据拥有媲美纸质文档的防伪性能。
然而,对于已有技术方案1,当出现需要使用权威部门掌握的隐私数据、核心数据来对用户提交信息进行可信度验证的场景时,首先将需计算的隐私数据在客户端完成数字信封加密,且发送至隐私安全计算环境的过程中通过SSL/TLS信道保护,确保数据传输环节的不可篡改。其次,隐私数据传入隐私安全计算环境后,将在安全、可信的执行环境“黑箱”中进行解密和计算,该执行环境是全加密的,从而确保数据明文及计算过程不会被外界接触和感知。该方案虽然通过区块链和隐私安全计算确保了数据传输、数据计算、计算结论三个环节的不可篡改,但是仍然缺少对于数据存储的可信管理,难以保证参与传输的数据真实性。本发明将创造更加安全、可信且更趋自动化的信息可信度验证方式,这对涉及大量公民隐私数据的房产品等大宗商品交易场景尤为重要。本发明的运用将使各类商业活动中的隐私数据可信度验证场景,均能基于本发明而做出真实、可信、高效的业务判断,杜绝通过资料造假骗取购房资格的可能性。
已有技术方案2:专利号为CN112967775A的《一种基于区块链的医疗健康数据可信共享方法及系统》专利,属于数据共享领域,尤其提供一种基于区块链的医疗健康数据可信共享方法及系统,该方法包括:获取医疗健康授权数据,并将所述医疗健康授权数据保存到本地服务器中;根据所述医疗健康授权数据,生成查询字符串和对应的哈希值,并将所述查询字符串和所述哈希值上传到区块链系统;根据目标查询字符串,将所述本地服务器中对应的目标医疗健康授权数据发送到查询终端,以供所述查询终端根据目标哈希值,对所述目标医疗健康授权数据进行验证,得到验证通过后的目标医疗健康授权数据。
但是,已有技术方案2并没有适应目前用户对于用户隐私保护的需求,且对于数据传输过程中的可信管理方法设计不足,仍然面临难以满足对于数据共享全流程可信监管的需求的问题。本发明通过使用区块链作为共识管理的基础,解决了医疗健康行业面临的医疗健康数据碎片化、医疗健康数据共享不充分以及医疗健康数据所有者隐私保护的问题。
已有技术方案3:专利号为CN113010906A的《一种基于区块链的可信的数据溯源方法及系统》专利,属于数据溯源领域,尤其涉及一种基于区块链的可信的数据溯源方法及系统。该方法包括:数据上传验证:数据上传前,由验证者验证数据本身的完整性、合法性,验证后的数据上传到区块链附属链;数据可信溯源:对上传至区块链附属链上的数据做溯源操作,构建出数据安全完整可信的生命周期;数据权限控制:设置用户身份,验证身份通过后,针对不同的身份赋予不同的权利与责任;用户行为管控:用户所有行为会在区块链中留存,一旦有恶意行为被发现,可以进行追溯及追责,用户无法否认自己的行为。本发明能够解决现有的数据溯源方式存在的易篡改、数据来源不可信的问题。已有技术方案3解决了现有数据溯源方式存在的易篡改、数据来源不可信的问题,但没有将用户的可信程度加入对用户行为的约束条件中,难以实现对用户的可信监管。
本发明引入许可链设计了混合联邦学习架构,通过用户代理注册的方式,将节点的身份信息和资源信息存储于区块链中,并通过设计链上-链下的数据存储结构确保数据真实性,实现数据的可信查验,保证联邦学习过程的数据存储可信。通过将模型参数等数据共享过程中的关键信息存储在区块链上,实现关键数据的防篡改,以实现本地数据的完整性验证,并保证联邦学习的训练结果可信。基于ABAC访问控制模型,结合节点信誉值和任务角色属性,设计细粒度的访问控制模型,对常规节点和恶意节点加以辨别,约束、规范节点行为,以防止恶意节点窃取用户隐私数据,威胁系统正常运作。并通过在进行模型训练的各参与方之间建立状态通道,在通道中完成模型的训练,只在链上更新最终的训练结果,减轻区块链的存储负担,提高数据共享交易的效率,降低因数据上链而产生的费用,实现对联邦学习过程的可信监管。
图1为本发明提供的基于状态通道的联邦学习任务可信监管与调度方法的流程示意图,如图1所示,本发明提供了一种基于状态通道的联邦学习任务可信监管与调度方法,包括:
步骤101,通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;
步骤102,基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;
步骤103,基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
在本发明中,将区块链与联邦学习技术相结合,设计了一个与许可链结合的混合联邦学习架构,通过用户代理注册的方式,将节点的身份信息和资源信息存储于区块链中,从数据存储、节点身份、训练过程和训练结果四个方面实现对联邦学习全流程的可信监管。
首先在步骤101中,通过面向数据共享的链上-链下的数据存储结构,将本地数据摘要和模型参数等关键数据上链,确保数据真实性,实现数据的完整性校验,保证联邦学习的数据存储和训练结果可信。
其次在步骤102中,基于智能合约面向联邦学习数据共享场景设计一种结合节点信誉值的细粒度数据访问控制模型,保证节点身份可信,控制节点行为,避免因非法用户访问数据导致的数据隐私泄露问题,防止恶意节点窃取用户数据、威胁系统正常运作。
最后在步骤103中,设计基于状态通道的模型训练过程可信监管机制,通过在进行模型训练的各参与方之间建立状态通道,将因模型训练产生的部分交易转移到链下完成,只在链上更新最终的训练结果,减轻区块链的存储负担,提高数据共享交易的效率,降低因数据上链而产生的费用。通过支付准备金和设置挑战期等方式,规范用户行为,监督用户诚实完成链下交易,保证联邦学习过程顺利进行。
本发明提供的基于状态通道的联邦学习任务可信监管与调度方法,引入许可链设计了混合联邦学习架构,通过用户代理注册的方式,将节点的身份信息和资源信息存储于区块链中,并通过设计链上-链下的数据存储结构,确保数据真实性,实现数据的可信查验,保证联邦学习过程的数据存储可信。
在上述实施例的基础上,所述方法包括:
构建联邦学习任务可信监管类别,所述联邦学习任务可信监管类别包括数据存储可信监管、用户身份可信监管、训练过程可信监管以及训练结果可信监管。
在本发明中,基于联邦学习的系统中包含多个利益方,每个利益方都拥有一定量的数据资源,通过数据价值聚合能够使分散的数据资源发挥出更大的价值。各利益方都存在数据共享的需求,但由于数据共享成本的存在,各参与方之间进行数据共享的前提是可以进行相应的利益交换。
这是一种在实际应用中十分常见的情况,以智慧工厂场景为例,各工厂通过工业智能感知系统收集温度、湿度和位移等工业数据。每个工厂可以视作一个利益方,其拥有的工业数据可以描述物料的使用情况、系统的运行情况以及产品的生产情况等。通过数据的协同共享,各工厂可以进行产品设计的优化、仓储管理的改进等,提升生产制造的效率。但是,各工厂的数据收集存在一定的成本,工业数据中也可能包含一定的商业机密信息,直接进行原始数据的共享可能会损害自身利益。联邦学习技术的应用能够很好地解决隐私保护这一问题。然而,在存在多个利益方的情况下,如何确保跨域数据共享过程中联邦学习的可信,建立安全、透明的交易环境是一个亟待解决的问题。本发明的目标是,设计一种面向数据共享的联邦学习可信监管机制,约束节点行为,保障数据共享系统的良性运转。
为了实现对联邦学习全过程的可信监管,结合联邦学习的工作流程,本发明可以将可信监管分为以下四个方面:
一、数据存储可信监管
出于对用户隐私的保护,在联邦学习系统中,用户无需将原始数据上传给中心服务器,用户数据均由用户在本地存储、自行维护。然而,这种方法虽然通过分布式存储避免了因中心服务器遭遇单点攻击而导致的用户数据大批量泄露的问题,但是仍然难以避免用户数据在本地被篡改。将被污染的数据用于数据模型训练会对训练结果产生非常恶劣的影响。为此,需要设计针对数据本地存储的可信监管机制,在保护用户隐私的前提下保证用户数据可信、未被篡改,确保联邦学习过程能够顺利进行。
二、用户身份可信监管
用户提出的数据共享请求可以视作对于部分用户的数据资源的访问请求,由于用户的数据资源往往会包含一些隐私数据,其安全防护面临着巨大挑战。本发明中使用联邦学习技术大大降低了原始数据泄露的风险,但数据共享的实现是以一定的条件为前提的。除了双方达成一致的交易价格外,请求方必须满足一定的条件才能够实现对数据的访问。
三、训练过程可信监管
在实际应用场景中,用户都是自私的,出于对自身利益最大化的追求,用户可能会对训练过程造假,通过伪造训练结果,在未进行本地模型训练的同时参与任务奖励分配,获取非法利益。这类恶意行为会严重影响联邦学习的训练过程,大大降低全局模型的训练效果以及任务的执行效率。为此,需要设计高效的训练过程可信监管机制,在保证用户隐私的前提下,实现对本地模型训练过程的监督。与此同时,要尽量选择合理的监管方法,降低监管机制对联邦学习效率的影响。
四、训练结果可信监管
本地模型参数、模型质量测试结果以及全局模型参数都属于联邦学习的训练结果数据,这些关键数据既是实现对数据共享过程进行追溯的前提,也是后续对节点选择策略进行改进和完善的依据,确保了共享任务收益合理分配、数据共享交易顺利完成。为了实现训练结果数据可信、可追溯,需要设计合理的数据防篡改机制,在保护用户隐私的同时,保证关键数据的安全。
在上述实施例的基础上,所述方法还包括数据共享流程,所述数据共享流程由数据请求方、许可链、本地节点和全局节点参与,所述数据请求方、本地节点和全局节点是通过代理注册得到的,所述许可链由所述数据请求方、本地节点和全局节点共同支撑和维护。
针对上述问题,本发明设计了基于许可链的混合联邦学习架构,架构由三层构成,自下而上分别为用户层、联邦学习层和许可链层。
具体地,用户层是由各类智能传感设备组成的数据采集网络,在智慧能源、智慧交通、智慧医疗和智慧家居等应用场景中收集有效数据,通过跨域的数据共享支撑智慧城市的建设。本发明将拥有一定数据资源,并希望能够通过参与数据共享,获得一定经济效益或者获取其他信息的利益体称为用户。在本发明中,一个用户可以是一个智能传感设备,比如智能手机、笔记本电脑等。但更常见的,一个用户是一个由许多智能设备组成的集体,比如一家企业、一座工厂等。在本发明中,主要针对后者展开研究,这一类用户往往拥有较为丰富的计算、通信和存储资源,管理着其区域内各传感设备采集的数据。一个用户有且仅有一个数据共享系统的入口,本发明将其称为代理,代理设备既可以是用户的本地智能设备,也可以是用户租用的边缘服务器。不论是什么类型的设备,都需要在许可链上登记注册信息,并成功注册后才能成为代理。代理的注册信息主要包括用户的身份信息、地址信息和用户的本地数据资源信息。注册信息在验证通过后会以交易的形式记录到许可链上,用于对用户身份的查验等。代理能够代表用户完成数据共享过程中的一系列操作,比如发起数据共享任务、进行模型训练和参与共识过程等。并且,根据用户当前诉求的不同,代理充当数据请求方或数据提供方,在不同任务中代理的角色可能会发生变化。
在某种意义上,可以将代理网络看作一个联邦学习资源池。每一个数据共享任务相当于建立了一个联邦学习实例,基于节点选择算法筛选得到联邦学习节点集合的过程相当于在进行联邦学习实例化。各代理通过参与数据共享任务,向外提供数据资源、计算资源和通信资源,实现资源的共享。一个数据共享任务通常由一个数据请求方和多个数据提供方组成。任务由数据请求方发起,并由数据提供方中的部分节点执行,被选中参与数据模型训练的节点被称为联邦学习节点。联邦学习节点的选择能够在很大程度上影响模型的训练结果,在数据资源相同或相似的情况下工作质量越高、工作状态越稳定的节点越能贡献更大的数据价值,因此需要设计合理的节点选择机制,在大量相关节点中尽量选择可靠性较高的节点参与数据共享,进行联邦学习。基于信誉值的节点选择机制,通过选择反应节点工作质量和工作状态的参数(比如模型的预测准确度、模型的训练时间、节点的响应时间等),设计合理的节点信誉值计算公式,基于计算结果选择高信誉值的节点参与数据共享任务。这类方法的原理简单、实现难度低,其难点在于如何设计合理的节点信誉值计算方法,使节点的信誉值不仅能够有效地反映出节点的可信程度,还能够在一定程度上预测节点的未来表现。
联邦学习的目标是通过训练得到一个全局数据模型。模型不仅能够实现对数据共享请求的应答,还能够在一定程度上对相关问题的结果进行预测。根据联邦学习节点在联邦学习过程中的不同职能,可以将其分为全局节点(GNode)和本地节点(LNode)。全局节点相当于传统联邦学习架构中的中心聚合器,负责通过一定的机器学习算法,基于本地节点上传的本地模型训练得到全局模型,并将训练结果下发给各本地节点,完成本轮的训练,进入下一轮迭代。本地节点主要负责本地模型的训练和基于LDP(Label DistributionProtocol)等加密算法的本地模型加密,在一些情况下,本地节点也会收到系统下发的模型质量测试任务,基于本地的相关数据,对收到的模型预测准确度进行测试,并将测试结果提交给许可链。这些测试结果在一定程度上反映了被测数据模型的质量,会影响训练节点信誉值的评价结果。基于随机选择等算法,扩大参与模型质量测试的节点集合,可以通过综合分析所有节点的测试结果,提高模型质量评价的可靠性,同时也可以添加奖惩机制驱使代理主动上传真实的本地测试结果。
进一步地,本地节点和全局节点虽然在联邦学习过程中的职能有所区别,但在网络中的地位相同,区块链网络由所有代理节点共同支撑并维护。区块链本质上就是一个分布式的交易账本,账本中存储了区块链系统中所有经过确认的交易。在本发明中,交易可以分为两大类,一类用于记录设备节点或数据资源的注册信息,另一类记录数据共享的各个步骤产生的交易信息及关键数据。这些交易通常会以默克尔树的形式存储在一个个区块中,相邻的区块首尾相连就组成了一条链,这条由区块连接而成的长链就被称作为区块链。区块链根据管理权限的不同可以分为公有链、私有链和联盟链三类,私有链和联盟链又被统称为许可链。与公有链相比,许可链的规模较小、便于监管,并且节点需要经过授权才可进入网络,在一定程度上保证了节点身份的合法性。本发明选用的就是许可链结构,考虑到当前场景对于效率的需求,选用PBFT(Practical Byzantine Fault Tolerance)作为共识机制。PBFT是许可链最常用的共识机制之一,与PoW(Proof of Work)共识机制相比,参与PBFT共识的节点无需通过算力竞争争夺记账权,这使得PBFT共识机制在计算效率和资源损耗上有很大的优势。但是共识机制的选择并不是唯一的,PoS(proof of stake)、DPoS(Delegated Proof of Stake)和PoET(Proof of Elapsed Time)等共识机制也各有优劣,可以根据具体的情况进行更改。
假设联邦学习系统中数据提供方的数量足够多,每一个数据提供方都拥有一个本地数据集,且都同意在系统的交易规则下有偿参与数据共享。图2为本发明提供的数据共享过程的工作流程示意图,如图2所示,数据共享过程会有四个主体参与,分别为数据请求方、许可链、本地节点和全局节点。数据请求方、本地节点和全局节点都是代理,许可链由它们共同支撑和维护。许可链的大部分功能都是通过智能合约实现的,在这里本发明并不对这两者进行区分。具体的步骤如下:
步骤1,当系统中的某个节点产生数据共享请求后,它会向许可链发起共享请求。请求包含两类信息,一类描述请求方对数据类型要求,另一类描述请求方对训练指标的要求(比如数据来源多样性、任务完成时间等)。
步骤2,许可链收到数据共享请求后,首先会对请求的合法性进行验证。验证的内容既包括数据请求的格式是否正确,也包括数据请求方的身份是否合法、是否有权发起数据共享请求等。
步骤3,许可链对收到的数据共享请求进行解析,根据请求中对数据类型的要求以及链上的代理注册信息可以进行链上节点检索,得到本次数据共享任务的相关节点集合。
步骤4,许可链根据节点的信誉值在相关节点集合中进行筛选,选中的节点即可成为联邦学习节点,参与本次数据共享任务。信誉值是反映节点长期表现的节点属性值,能够一定程度上预测节点的未来表现,是判断节点是否可信的重要参考依据。
步骤5,许可链向选中的联邦学习节点发送数据共享请求。
步骤6,数据请求方和联邦学习节点基于反向拍卖等算法通过许可链就交易价格达成一致意见。
步骤7,为了保证双方的经济利益,数据请求方账户中的部分资金被冻结,作为本次交易的保证金。保证金的金额不低于在步骤6中数据请求方与联邦学习节点之间达成的交易总价。在冻结期间,保证金不可以被使用,但仍会存储在数据请求方的账户中。
步骤8,许可链向联邦学习节点发送节点身份的确认信息,并任命其中信誉值最高的节点作为全局节点,其余节点为本地节点。
步骤9,全局节点和本地节点共同进行联邦学习,训练得到全局数据模型。具体的训练过程为本地节点在当前的全局模型和本地相关数据的基础上训练得到本地模型更新(全局节点通过一定的机器学习算法完成对本地模型更新的聚合,得到更新后的全局模型,并将其在下发给本地节点。这个过程不断循环,直到全局数据模型M的质量、迭代次数、训练时间等达到数据请求方对于训练指标的要求。
步骤10,全局节点和本地节点向许可链上传联邦学习训练过程中产生的关键数据。
步骤11,全局节点使用数据请求方的公钥加密全局模型,将加密后的模型参数发送给数据请求方并写到许可链上。经过加密处理,即使恶意节点得到了链上的全局模型数据,在没有请求方私钥的前提下,也无法对数据进行解密,得到全局模型的参数。
步骤12,基于节点激励机制,许可链根据节点的报价以及在训练过程中的表现向联邦学习节点分发任务收益。若节点在训练过程中没有出现违规行为,则可获得全额收益;若出现了被确认的违规行为则会被处罚。
步骤13,许可链解冻数据请求方账户中剩余的本次任务的保证金,使其能够恢复使用,正常参与到其他数据共享交易中。
交易结束后,数据请求方仍然可以向许可链发起对全局模型训练结果的可信验证请求等。许可链确认请求的合法性后,会向数据请求方返回相应的链上数据,通过比对数据摘要的一致性可以确认收到的训练结果是否可信、未被篡改。
在上述实施例的基础上,所述通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验,包括:
以交易的形式,将数据共享过程中的关键数据上链存储,所述交易包括用户注册交易、数据注册交易和数据共享交易。
在本发明中,分析数据、应用数据的前提是能够对数据进行高效收集、安全存储和有效管理。为了实现可信、可追溯的数据共享,需要实现数据的安全存储以及数据的完整性校验。基于区块链的数据存储结构是一种常见的实现数据安全存储的方式。但是,考虑到在当前的数据共享场景下,原始数据上链存储不仅会严重威胁用户隐私、难以实现基于联邦学习的用户隐私保护,还会给区块链带来难以承受的存储压力和大量不必要的资源浪费。针对上述问题,本发明设计了链上链下相结合的数据存储结构,将用户的本地数据摘要以及加密的数据存储地址存储到区块链中,既便于对数据的快速溯源,又可以实现对数据的完整性验证。
用户的个人数据资源不上传至中心数据库,而是由用户在本地存储和自行维护。通过在区块链上存储关键数据以及数据摘要,实现去中心化的可信存储,不仅解决了数据集中存储可能出现的单点故障问题、防止用户隐私泄露,还大大减轻了因大量数据存储和高频数据访问而给区块链带来的压力。为了便于数据共享,用户在进行本地数据存储时以数据集为单位,同一个数据集中的数据资源拥有相同的数据类型和数据结构,不同数据集的大小和数据类型则一般不同。一个用户可以拥有多种不同类型的数据资源,同样的也可以拥有多个数据集。
本发明设计的数据存储架构中存在以下几个实体:
(1)用户:拥有一定的数据资源,且同意在系统的交易规则下进行数据共享,通过提供数据价值以获得一定的利益交换的实体。
(2)本地数据库:用户的数据将存储在其管理的本地数据库中,本地数据库由其自行维护,其他用户没有访问该数据库内数据的权利。
(3)许可链:为了实现数据可信、防篡改和可追溯,将数据的摘要等数据共享过程中的关键信息以交易的形式存储在许可链上,从而实现对数据的完整性验证和数据溯源。
本发明以交易的形式将数据共享过程中的关键数据上链存储。本发明中的交易可以具体分为四类,分别为用户注册交易、数据注册交易、数据共享交易,交易的具体格式和内容如下。
(1)用户注册交易
User={Name,Id,PKey,Balance,Reputation,Issues,UnIssues,Trans-Id,Timestamp};
用户注册交易的数据结构中各字段的含义具体含义如表1所示:
表1
用户注册交易中包含了用户名称、用户编号、用户数据资源标识等用户相关信息,为在数据共享任务的相关节点检索过程提供数据支持。
(2)数据注册交易
Dataset={Name,Id,Metadata,Owner-Id,Address,Trans-Id,Status,Timestamp};
数据资源注册交易的数据结构中各字段的含义具体含义如表2所示:
表2
数据资源是以数据集为单位在许可链上进行注册的。在进行注册前,首先需要得到数据资源的摘要。当用户想要上传某个数据集的信息时,会使用哈希函数来计算文件的独特标识符,计算结果即为数据资源的摘要。完成计算后,本发明将数据集的摘要、数据集的位置索引等关键信息以表2中的数据结构形成交易,并存储在区块链中。本发明中,选用SHA256算法进行哈希计算,得到相应的哈希值。通过哈希函数计算得到的结果是一个长度固定为256位的字符串,解决了大数据集上链存储的问题,有效地降低了区块链的存储压力,很大程度上节省了计算资源。
(3)数据共享交易
Trans={Id,Costs,Buyer,Seller-List,Dataset-List,FL-process,GModel,Status,Timestamp};
数据共享记录交易的数据结构中各字段的含义具体含义如表3所示:
表3
数据共享交易中记录了资源购买方和资源售卖方的身份信息,以及本次数据共享交易的交易价格、模型参数、交易状态、交易结果等信息。通过数据共享交易,本发明可以对数据共享交易及联邦学习过程进行追溯。
本发明通过将数据摘要以及本地模型参数、全局模型参数等联邦学习过程中的关键参数上链存储的方式,利用区块链的去中心化、可追溯、防篡改等特性,实现对数据交易以及联邦学习过程的记录和监管。有数据完整性验证需求的用户可以随时向许可链提交数据完整性验证请求,该请求既可以针对其他用户的本地数据,也可以针对自身数据。许可链接收到用户请求后,会调用相关的链上数据检索合约,在区块体的交易记录中获得对应的数据摘要记录。同时,向被验证用户的客户端发起数据完整性验证请求,系统的本地客户端会对本地相关数据进行哈希,获得当前的数据摘要,将其发送给发起验证请求的用户。请求发起方对比收到的计算结果与链上的记录,如果一致,则检索到的数据没有遭到篡改。
在上述实施例的基础上,所述基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份,包括:
以六元组定义模型,分别包括主体属性、客体属性、环境属性、访问操作属性、用户信誉属性以及任务角色属性。
在本发明中,综合考虑数据共享应用场景以及用户的可信服务需求,基于ABAC访问控制模型(Attribute-Based Access Control),本发明设计了许可链驱动的基于属性的访问控制模型PB-ABAC。为了实现细粒度的访问控制,增强系统安全性,结合RBAC(Role-Based Access Control)和TBAC(Task-Based Access Control)的思想,本发明增加了任务角色属性和用户信誉属性,分别用于表示节点所参与的任务及在其中扮演的角色(数据请求方或数据提供方)和用户的可信程度。根据NIST于2014年发布的关于ABAC的标准,本发明做出以下定义:
定义1,模型的形式定义由六元组(S,O,E,A,TR,UR)组成。S,O,E,A,R,T分别表示主体(Subject,S)、客体(Object,O)、环境(Environment,E)、访问操作(Access,A)、任务角色(Task Role,TR)以及用户信誉(User Reputation,UR)。
定义2,属性(Attribute,Attr)是实体的标识,可以被抽象地定义为三元组以表示属性、属性值以及属性的取值范围之间的关系。本发明中分别用SA,OA,EA,AA,TRA,URA表示主体属性、客体属性、环境属性、访问操作属性、任务角色属性以及用户信誉属性。
定义3,基于属性的访问控制请求AAR(Attribute based Access Request)由六元组Req(SA,OA,EA,AA,TRA,URA)构成,表示主体请求访问时的属性信息,以此作为授权的依据。
定义4,策略定义了在允许的条件下,主体可以对客体执行的操作,其表现形式为:
(permit,deny)←
(Attr(SA),Attr(OA),Attr(EA),Attr(PA),Attr(TA));
其中,Attr(SA),Attr(OA),Attr(EA),Attr(PA),Attr(TA)分别表示主体、客体、环境、访问操作、用户信誉值以及任务角色属性的在访问请求被允许的情况下的取值范围。若访问请求的属性信息符合策略规定的属性取值范围,则允许访问,否则拒绝访问。
进一步地,六类属性的含义如下:
主体属性一般包括提出访问请求的用户的名称、地址等信息;客体属性一般包括被访问资源所在的所属者等信息;环境属性一般包括用户访问的时间、地点,当前的威胁等级,用户的位置等信息;访问操作属性指的是主体对客体提出的操作请求信息,一般包括读、写、执行、修改等;用户信誉属性是根据用户的历史工作表现计算得到的数值信息,用于表示用户的可信程度,信誉值越大,用户的可信程度越高,其取值范围为[0,1];任务角色属性指的是用户参与的任务及在任务中的具体职能,一般由数据对“任务-角色”组成。基于RBAC和TBAC的思想,将“角色”和“任务”作为一个综合的属性加入ABAC的模型中,改进后的ABAC模型中不存在独立的“任务”或“角色”的概念。考虑到本发明的数据共享应用场景,这里的任务视为一次数据共享任务,角色视为用户在共享任务中的具体职能(数据请求方或数据提供方)。
传统的ABAC模型虽然实现了细粒度访问控制,但由于依赖中心化的策略发布机构,存在策略执行情况难以追踪、数据泄露问题难以察觉、策略存储存在被篡改、被泄露的安全隐患等问题,对访问控制模型的正确执行造成了严重挑战。为了解决上述问题,本发明在传统的ABAC模型的基础上,使用智能合约实现策略的制定、存储以及决策等关键功能,并基于本发明的数据共享场景,将任务角色管理TRM(Task Role Management)和用户信誉管理URM(User Reputation Management)模块融入到了基于属性的访问控制模型中。
模型中各模块的功能如下:
(1)策略执行点(Policy Enforcement Point,PEP):策略执行点负责将主体发出的访问请求转变为基于属性的访问请求,发送给PDP请求判决结果。得到PDP的响应后根据PDP的指示执行决策结果,即拒绝或允许本次访问请求。
(2)策略管理点(Policy Administrate Point,PAP):策略管理点负责存储、管理访问控制策略,为PDP的策略决策提供决策依据。
(3)策略信息点(Policy Information Point,PIP):策略信息点负责存储、管理属性信息,会与用户信誉管理点和任务-角色管理点交互,获取用户信誉属性和任务-角色属性信息,为PDP的策略决策以及PEP构建基于属性的访问控制请求提供信息支持。
(4)策略判定点(Policy Decision Point,PDP):策略判定点负责根据访问控制策略和属性信息做出授权决策,决定允许或拒绝用户的访问请求。
(5)任务-角色管理点(Task Role Management Point,TRMP):任务-角色管理点负责读取并管理存储在许可链上的任务-角色属性数据,获取用户参与的任务及其在任务中扮演的具体角色,向PIP提供任务-角色属性信息的补充。
(6)用户信誉管理点(User Reputation Management Point,URMP):用户信誉管理点负责读取并管理存储在许可链上的用户信誉属性数据,获取用户的信誉,向PIP提供用户信誉属性信息的补充。
当一个用户向PEP提交访问控制请求后,PEP会结合PIP提供的属性信息,构建基于属性的访问控制请求,并将请求发送给PDP进行策略决策。PDP分别向PAP和PIP发起信息查询请求。PAP和PIP针对查询请求进行检索,PAP向PDP提供访问授权策略信息,PIP结合收集的TRMP和URMP信息向PDP提供主体、客体、访问控制、环境、任务角色、用户信誉属性信息。PDP基于PAP和PIP反馈的信息判定允许或拒绝访问请求,并将策略决策反馈给PEP。PEP执行PDP的决策,向用户做出反馈。
节点的信誉值是一项能够反映节点历史行为并在一定程度上预测节点未来表现的长期观测指标,是根据节点在一次次数据共享任务中的工作质量迭代计算得来的。本发明中认为在一次数据共享任务中,节点的信誉值会受到两个因素的影响:节点在本次数据共享任务中贡献的数据模型质量qi以及节点参与数据共享的积极性wi。
上述两个指标的均采用[0,1]范围内的数值表示。本发明中使用模型预测结果的准确度来衡量模型的质量,例如,回归任务可以使用绝对平均误差MAE来衡量模型的训练质量。
在联邦学习过程中,参与训练任务的本地节点会以本地相关数据子集作为测试集,根据许可链下发的模型测试请求对部分本地模型更新进行测试,并根据测试结果对模型质量进行评分,最后将评分结果上传至许可链。
在联邦学习结束后,每个联邦学习节点Pi都会得到一个模型质量评价矩阵Qi,
其中,qi,j是节点Pj对节点Pi在每次迭代中得到的本地模型更新的质量测试结果的平均值,若节点Pj没有对节点Pi进行测试,则qi,j=false。基于各节点的模型质量评价矩阵可以计算出各节点的平均模型质量qi,以此作为节点Pi在本次数据共享任务中的模型质量分数,其计算公式如下:
节点Pi的信誉值更新算法如下;
由于设备性能、网络性能的变化,在联邦学习过程中数据提供方可能会出现错误,这是难以避免的。本发明更需要关注的是坏节点的恶意破坏。因此本发明设计了上述算法。在每次数据共享任务结束后,节点Pi的信誉值根据两个因素进行更新,一是节点Pi当前的信誉值二是节点Pi在本次数据共享任务中的信誉反馈节点当前的信誉值越高,的正值对节点信誉值的影响越大,的负值对节点信誉值的影响越小;节点当前的信誉值越低,的正值对节点信誉值的影响越小,的负值对节点信誉值的影响越大。
在上述实施例的基础上,所述基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成,包括:
锁定参与方的链上状态并构建状态通道;
对状态通道内的数据进行交互;
对链上交易进行清算。
在本发明中,使用区块链实现监管,本质上是将过程中的关键数据上链存储。对于联邦学习过程而言,区块链的监管模式有两种实现方式。若只对联邦学习的模型训练结果进行可信存储,联邦学习训练过程中经过多次迭代产生的过程数据无法实现多方验证和链上记录,训练过程难以监管,训练结果的可信性难以保障。若伴随训练过程不断上链过程数据,则需要对每一笔交易进行确认,共识机制的频繁执行将严重影响联邦学习的工作效率,大量数据的链上存储也将给区块链带来极大的存储压力和巨大的计算开销。
为了弥补区块链在过程监管方面的不足,本发明使用了状态通道技术。通过在联邦学习的各参与方之间建立状态通道,对联邦学习的训练数据实行链下通道交互、链上交易清算,在通道内完成对联邦学习训练过程的监管,在链上实现对训练结果的存储。使用状态通道技术后,由于通道内的交互并不形成交易上链存储,无需经过链上共识进行多方验证,节省了交易确认时间,提高了系统工作效率,同时减轻了区块链的存储压力,避免了不必要的资源损耗。
状态通道实际上是区块链的扩容技术,通过将部分流程移到链外完成来提高区块链的工作效率,同时不会增加参与者的风险。目前状态通道的应用主要集中在纯粹的支付通道上,其中最典型的就是比特币的闪电网络。但本质上来讲,状态通道的基本原理都相同。
状态通道的应用流程主要由锁定参与方的链上状态并开辟状态通道,通道内的数据交互,链上交易清算这三个步骤组成。状态通道的建立相当于在通道中建立了各参与方的链上锁定状态的映射,通道内的数据交易并不会影响链上的状态。状态通道内的节点会基于失效树等机制对链下的交易结果达成一致性共识,并完成通道内节点间的链下状态更新,从而实现状态的链下流通。各参与方只能通过提交状态更新来修改链上锁定的状态,有效的状态更新至少要拥有两个参与方的签名。在状态通道接收到有效的状态更新后也不会立刻修改链上数据,而是进入挑战期,在挑战期内其他参与者可对该状态更新提出质疑,若质疑成功则该状态更新失效,质疑方提交的状态成为新的状态更新。通过这些机制的设计,状态通道可以有效地实现对联邦学习训练过程的监管。
为了在实现对联邦学习过程监管的同时,保证联邦学习的工作效率,本发明采用状态通道的方式对联邦学习的模型训练进行可信监管。联邦学习节点获得身份确认、成为本地节点或全局节点后,各本地节点以全局节点作为中间点,与本次数据共享任务的全局节点之间建立状态通道,一个全局节点同时与多个本地节点进行数据的交互。具体来说,基于状态通道的模型训练过程的生命周期包括通道建立、链下流通和链上结算三个阶段:
(1)通道建立:本地节点和全局节点分别向通道状态管理类合约发送当前状态,锁定交易。在节点的链上状态成被锁定后,两节点之间的通道就建立完成。所有节点在通道内都拥有其链上锁定状态的映射,可以进行链下交易。
(2)链下流通:本地节点和全局节点基于失效树等机制,对链下的交易结果达成一致性共识,完成通道内节点间的链下状态更新,实现状态的链下流通。
(3)链上结算:在通道的运行过程中,如果通道节点一致同意关闭通道,则通道节点分别向通道状态管理类合约发送最新的通道结算凭证,完成通道结算过程。为了避免因出现节点掉线、提交旧状态等恶意操作给诚实节点造成损失,当状态通道从一个通道参与者处接收到有效的状态更新后就将进入挑战期。在挑战期内,其他的通道节点可以提交更加新的通道结算凭证。在挑战其结束后,最新的通道结算凭证会被接收为最终状态。
交易双方间的直连状态通道建立之前,若发生交易,首先会查找可借用的他人的状态通道。如果无法通过借用通道实现交易的传输,则在交易双方之间直接建立一条交易通道。
在交易开始前,会对交易双方的账户余额进行查询验证,看是否能够满足交易额度,如果满足则通过状态通道进行交易,否则无法进行交易。
状态通道的建立时间主要有两种限制,一种是设定个人的交易限制额度,每个通道会有一个“通道带宽”,限制通道允许交易的额度。另一种是设定个人的交易次数。链下的交易不受区块大小、节点远近的限制,也不受交易确认时间的限制,无需等待共识,只在链上更新所有交易完成后的最终状态,不仅能够实现对于过程的监管,还能够减轻区块链的存储压力,提高模型训练效率。
所述述基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易移到链下完成,还包括:
按照预设时间或者预设交易次数定期更新链上状态,降低计算开销。
在本发明中,区块链上的每一笔交易的发生都会产生资金和资源消耗,如果小型的交易,比如小额的转账交易或者单一的数据交换等,都在链上存储,不仅会因为频繁地执行智能合约而增加网络负担,还会产生令人难以忍受的高额的交易手续费和确认时间。对于小型的交易来说,用户期望的往往是交易能够即时完成,显然这一类型的交易并不适合在区块链上进行。状态通道解决了上述问题,通过将此类型的交易转移到链下,按照一定的时间或者一定的交易次数定期更新链上状态,不仅降低了计算开销,还提高工作效率。
为了验证节点信誉值更新算法的可行性,本发明设计了如下的仿真实验。考虑到在实际的数据共享场景下,数据请求方在选择联邦学习节点时会同时考虑节点的可靠性和节点的报价,因此本发明采取了一种数据交易方法,首先将所有满足数据相关性条件的节点按照节点信誉值分为两组,信誉值高于中间值0.5的节点归为高信誉节点,低于0.5的节点归为低信誉节点。令所有高信誉值节点报价,并根据请求方对节点多样性的要求在其中选择报价最低的部分节点成为联邦学习节点。若高信誉值节点的数量不足,则任选部分低信誉节点补齐。仿真实验开始后,本发明首先创建1000个节点,并在其中选则333个节点作为坏节点(坏节点的数量约占全部节点的1/3),将所有节点的初始信誉值设定为中间值0.5,数据多样性要求的变化范围为[200,500]。考虑到好节点和坏节点的差异,将好节点的模型质量变化范围设置为[0.5,1],坏节点的模型质量变化范围设置为[0,1],将二者参与任务的积极性均设置为1。在这样的初始化条件下进行500次数据共享任务,得到的联邦学习节点中好节点和坏节点的数量变化、所有好节点和坏节点的信誉值平均值变化以及所有好节点和坏节点提供的模型质量变化曲线。
图3为本发明提供的参与FL任务的好节点模型质量变化图,图4为本发明提供的参与FL任务的坏节点模型质量变化图,可参考图3和图4所示,好节点的平均模型质量变化主要集中在[0.66,0.75]范围内,坏节点的平均模型质量变化主要集中在[0.235,0.265]范围内,与实际情况较为接近。
图5为本发明提供的参与FL任务的总节点数量变化图,图6为本发明提供的参与FL任务的好节点数量变化图,图7为本发明提供的参与FL任务的坏节点数量变化图,如图6和图7所示,随着节点信誉值的变化,数据共享任务中好节点的参与度逐渐提高,相反的,坏节点参与数据共享的程度越来越低。节点的信誉值能够较好的反映节点的性质,满足了本发明对于节点信誉值更新算法的需求。
图8为本发明提供的参与FL任务的好节点信誉值变化图,图9为本发明提供的参与FL任务的坏节点信誉值变化图,如图8和图9所示,受到节点模型质量的影响,好节点的平均信誉值从初始的0.5开始逐渐升高,升高速度逐渐变慢并在最后保持在较高的水平。坏节点的平均信誉值则从初始的0.5开始逐渐降低,降低速度逐渐变慢并在最后降至一较低水平。
图10为本发明提供的基于状态通道的联邦学习任务可信监管与调度装置的结构示意图,如图10所示,本发明提供了一种基于状态通道的联邦学习任务可信监管与调度装置,包括完整性校验模块1001、节点控制模块1002和数据共享交易模块1003,其中,完整性校验模块1001用于通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;节点控制模块1002用于基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;数据共享交易模块1003用于基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
本发明提供的基于状态通道的联邦学习任务可信监管与调度装置,引入许可链设计了混合联邦学习架构,通过用户代理注册的方式,将节点的身份信息和资源信息存储于区块链中,并通过设计链上-链下的数据存储结构,确保数据真实性,实现数据的可信查验,保证联邦学习过程的数据存储可信。
本发明提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图11为本发明提供的电子设备的结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1101、通信接口(CommunicationsInterface)1102、存储器(memory)1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信。处理器1101可以调用存储器1103中的逻辑指令,以执行基于状态通道的联邦学习任务可信监管与调度方法,该方法包括:通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
此外,上述的存储器1103中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于状态通道的联邦学习任务可信监管与调度方法,该方法包括:通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于状态通道的联邦学习任务可信监管与调度方法,该方法包括:通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,包括:
通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;
基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;
基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
2.根据权利要求1所述的基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,所述方法还包括:
构建联邦学习任务可信监管类别,所述联邦学习任务可信监管类别包括数据存储可信监管、用户身份可信监管、训练过程可信监管以及训练结果可信监管。
3.根据权利要求2所述的基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,所述方法还包括数据共享流程,所述数据共享流程由数据请求方、许可链、本地节点和全局节点参与,所述数据请求方、本地节点和全局节点是通过代理注册得到的,所述许可链由所述数据请求方、本地节点和全局节点共同支撑和维护。
4.根据权利要求1所述的基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,所述通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验,包括:
以交易的形式,将数据共享过程中的关键数据上链存储,所述交易包括用户注册交易、数据注册交易和数据共享交易。
5.根据权利要求1所述的基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,所述基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份,包括:
以六元组定义模型,分别包括主体属性、客体属性、环境属性、访问操作属性、用户信誉属性以及任务角色属性。
6.根据权利要求1所述的基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,所述基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成,包括:
锁定参与方的链上状态并构建状态通道;
对状态通道内的数据进行交互;
对链上交易进行清算。
7.根据权利要求6所述的基于状态通道的联邦学习任务可信监管与调度方法,其特征在于,所述述基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成,还包括:
按照预设时间或者预设交易次数定期更新链上状态,降低计算开销。
8.一种基于状态通道的联邦学习任务可信监管与调度装置,其特征在于,包括:
完整性校验模块,用于通过面向数据共享的链上和链下的数据存储结构,将关键数据上链,以对数据的完整性进行校验;
节点控制模块,用于基于智能合约面向联邦学习数据共享场景,建立结合节点信誉值的细粒度数据访问控制模型,以保证节点身份;
数据共享交易模块,用于基于状态通道的模型训练过程可信监管机制,在进行模型训练过程的各参与方之间建立状态通道,并将所述模型训练过程产生的交易转移到链下完成。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于状态通道的联邦学习任务可信监管与调度方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于状态通道的联邦学习任务可信监管与调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110896359.1A CN113779617B (zh) | 2021-08-05 | 2021-08-05 | 基于状态通道的联邦学习任务可信监管与调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110896359.1A CN113779617B (zh) | 2021-08-05 | 2021-08-05 | 基于状态通道的联邦学习任务可信监管与调度方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779617A true CN113779617A (zh) | 2021-12-10 |
CN113779617B CN113779617B (zh) | 2024-01-09 |
Family
ID=78836943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110896359.1A Active CN113779617B (zh) | 2021-08-05 | 2021-08-05 | 基于状态通道的联邦学习任务可信监管与调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779617B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114826603A (zh) * | 2022-03-22 | 2022-07-29 | 上海交通大学 | 多人链下状态通道中信息安全保护实现方法及系统 |
CN116232704A (zh) * | 2023-02-13 | 2023-06-06 | 广州大学 | 一种基于xacml与智能合约的数据受控访问方法及系统 |
CN117472866A (zh) * | 2023-12-27 | 2024-01-30 | 齐鲁工业大学(山东省科学院) | 一种区块链监管与激励下的联邦学习数据共享方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200357084A1 (en) * | 2017-11-01 | 2020-11-12 | Clause, Inc. | System and method for blockchain-based network transitioned by a legal contract |
US20210034779A1 (en) * | 2019-07-31 | 2021-02-04 | Nokia Technologies Oy | User-controlled access to data in a communication network |
CN112632013A (zh) * | 2020-12-07 | 2021-04-09 | 国网辽宁省电力有限公司物资分公司 | 一种基于联邦学习的数据安全可信共享方法和装置 |
CN112765677A (zh) * | 2020-12-30 | 2021-05-07 | 杭州溪塔科技有限公司 | 一种基于区块链的联邦学习方法、装置和系统 |
-
2021
- 2021-08-05 CN CN202110896359.1A patent/CN113779617B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200357084A1 (en) * | 2017-11-01 | 2020-11-12 | Clause, Inc. | System and method for blockchain-based network transitioned by a legal contract |
US20210034779A1 (en) * | 2019-07-31 | 2021-02-04 | Nokia Technologies Oy | User-controlled access to data in a communication network |
CN112632013A (zh) * | 2020-12-07 | 2021-04-09 | 国网辽宁省电力有限公司物资分公司 | 一种基于联邦学习的数据安全可信共享方法和装置 |
CN112765677A (zh) * | 2020-12-30 | 2021-05-07 | 杭州溪塔科技有限公司 | 一种基于区块链的联邦学习方法、装置和系统 |
Non-Patent Citations (1)
Title |
---|
王亚?;: "面向数据共享交换的联邦学习技术发展综述", 无人系统技术, no. 06 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114826603A (zh) * | 2022-03-22 | 2022-07-29 | 上海交通大学 | 多人链下状态通道中信息安全保护实现方法及系统 |
CN114826603B (zh) * | 2022-03-22 | 2023-11-14 | 上海交通大学 | 多人链下状态通道中信息安全保护实现方法及系统 |
CN116232704A (zh) * | 2023-02-13 | 2023-06-06 | 广州大学 | 一种基于xacml与智能合约的数据受控访问方法及系统 |
CN116232704B (zh) * | 2023-02-13 | 2024-05-03 | 广州大学 | 一种基于xacml与智能合约的数据受控访问方法及系统 |
CN117472866A (zh) * | 2023-12-27 | 2024-01-30 | 齐鲁工业大学(山东省科学院) | 一种区块链监管与激励下的联邦学习数据共享方法 |
CN117472866B (zh) * | 2023-12-27 | 2024-03-19 | 齐鲁工业大学(山东省科学院) | 一种区块链监管与激励下的联邦学习数据共享方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113779617B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Biswas et al. | Analysis of barriers to implement blockchain in industry and service sectors | |
Lin et al. | A survey of application research based on blockchain smart contract | |
US10942994B2 (en) | Multicomputer processing for data authentication using a blockchain approach | |
CN109615474B (zh) | 基于区块链的中小企业竞争情报共享平台构建方法 | |
Zheng et al. | Blockchain technology for enterprise credit information sharing in supply chain finance | |
US11159537B2 (en) | Multicomputer processing for data authentication and event execution using a blockchain approach | |
CN111919417A (zh) | 在基于云的计算环境中用共识管理为分布式分类账技术实现超级社区和社区侧链的系统、方法和装置 | |
JP2020535543A (ja) | コンプライアンス対応のトークン化及び資産価値の制御のための方法、装置、及びコンピュータ可読媒体 | |
CN109993647A (zh) | 一种基于区块链的纳税征信系统及处理方法 | |
CN112685766B (zh) | 基于区块链的企业征信管理方法、装置、计算机设备及存储介质 | |
CN113779617B (zh) | 基于状态通道的联邦学习任务可信监管与调度方法及装置 | |
Chen et al. | Research on the risk of block chain technology in Internet finance supported by wireless network | |
Yadav et al. | A scalable trust based consensus mechanism for secure and tamper free property transaction mechanism using DLT | |
Zhang et al. | Federated Learning Meets Blockchain: State Channel-Based Distributed Data-Sharing Trust Supervision Mechanism | |
Yang et al. | An explainable federated learning and blockchain-based secure credit modeling method | |
Anthony Jr | Deployment of distributed ledger and decentralized technology for transition to smart industries | |
Jiang et al. | Decentralized finance (DeFi): A survey | |
US20230342849A1 (en) | Method, apparatus, and computer-readable medium for compliance aware tokenization and control of asset value | |
Asamoah et al. | A Blockchain-Based Crowdsourcing Loan Platform for Funding Higher Education in Developing Countries | |
Lokshina et al. | Revisiting state-of-the-art applications of the blockchain technology: analysis of unresolved issues and potential development | |
US20230092436A1 (en) | Framework for demaraction of digital assets | |
Ali et al. | A systematic review of federated learning incentive mechanisms and associated security challenges | |
KR102450412B1 (ko) | 사물인터넷에서 서비스 수준 협약 기반 공유경제 서비스 제공시스템 및 제공방법 | |
US20230070625A1 (en) | Graph-based analysis and visualization of digital tokens | |
CN114626934A (zh) | 基于区块链的多层级风控系统及管控方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |