CN113268758B - 基于联邦学习的数据共享系统、方法、介质及设备 - Google Patents

基于联邦学习的数据共享系统、方法、介质及设备 Download PDF

Info

Publication number
CN113268758B
CN113268758B CN202110674135.6A CN202110674135A CN113268758B CN 113268758 B CN113268758 B CN 113268758B CN 202110674135 A CN202110674135 A CN 202110674135A CN 113268758 B CN113268758 B CN 113268758B
Authority
CN
China
Prior art keywords
data
training
federal
local
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110674135.6A
Other languages
English (en)
Other versions
CN113268758A (zh
Inventor
赵笑尘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wanxiang Blockchain Inc
Original Assignee
Shanghai Wanxiang Blockchain Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wanxiang Blockchain Inc filed Critical Shanghai Wanxiang Blockchain Inc
Priority to CN202110674135.6A priority Critical patent/CN113268758B/zh
Publication of CN113268758A publication Critical patent/CN113268758A/zh
Application granted granted Critical
Publication of CN113268758B publication Critical patent/CN113268758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Abstract

本发明提供了一种基于联邦学习的数据共享系统、方法、介质及设备,包括:数据平台:收集企业数据并整理为数据集,在联合运算过程中提供算力,对本地数据进行本地运算,根据训练定义对管辖的数据进行加密,并保存和维护训练完成的模型参数和模型文件;联邦工作站:管理模型训练历史、多方协作记录和数据集增补修改历史;联邦中心:发布各企业提供的数据集以及信息,接收和处理来自不同企业的联合运算请求,在联合运算过程中作为可信第三方参与运算。本发明采用横向联邦学习技术,解决了数据不出本地完成多方协同运算的问题,在实现企业数据资产降本增效的同时,保证了企业数据安全。

Description

基于联邦学习的数据共享系统、方法、介质及设备
技术领域
本发明涉及区块链技术领域,具体地,涉及一种基于联邦学习的数据共享系统、方法、介质及设备。
背景技术
企业之间的机器学习模型训练,随着模型结构的复杂度和深度的提高,需要大量的训练数据。这些数据可能包括用户隐私、企业机密,以及来自不适合公开披露的数据源的数据等,因此,尽管不同企业的业务目标相对接近,但是共享数据进行模型训练很难实现。本方法结合联邦学习技术和区块链技术,允许多个参与方“数据不出本地”的进行联合运算,实现跨企业数据协同。
专利文献CN112714050A(申请号:CN202011525604.X)公开了一种基于区块链和联邦学习的数据共享与隐私保护方法,涉及数据安全技术领域,其包括:在同一用户的智能家居场景下,建立设备区块链来管理智能设备的权限,并在多个智能设备之间建立共识机制;在不同用户的智能家居场景下,建立共享区块链来接收上传数据,并管理数据的所有权,随后利用智能合约,实现企业对用户数据的共享交易;完成交易后,企业根据自身业务需求与共享区块链上的用户数据进行联邦学习,进而预测得到服务模型,并存储于模型区块链一,在用户想要获得服务时,在模型区块链一上申请关联服务模型,随后将关联数据作为关联服务模型的输入,得到推荐结果。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于联邦学习的数据共享系统、方法、介质及设备。
根据本发明提供的基于联邦学习的数据共享系统,包括:
数据平台:收集企业数据并整理为数据集,在联合运算过程中提供算力,对本地数据进行本地运算,根据训练定义对管辖的数据进行加密,并保存和维护训练完成的模型参数和模型文件;
联邦工作站:管理模型训练历史、多方协作记录和数据集增补修改历史;
联邦中心:发布各企业提供的数据集以及信息,接收和处理来自不同企业的联合运算请求,在联合运算过程中作为可信第三方参与运算。
优选的,所述数据平台维护和披露数据集属性,包括统计信息和数据来源说明。
优选的,所述联邦工作站抓取和监控多方训练过程中,企业之间互相通信、企业和联邦中心通信时发送的数据。
优选的,所述联邦工作站对数据和模型的变更记录、训练记录,以及联合计算过程中的出口数据进行存证。
优选的,所述联邦中心监控运算过程,提供训练监控面板。
根据本发明提供的基于联邦学习的数据共享方法,包括如下步骤:
步骤1:企业之间通过联邦中心浏览和筛选对方披露的数据集,确定联合运算的算法后发起联合训练请求,在都接受训练请求后本地联邦工作站发起本地训练;
步骤2:联邦工作站从本地数据平台拉取训练数据进行本地计算后,根据联合训练的相关参数,采用不同的加密手段对生成的中间结果或最终结果进行加密;
步骤3:参与训练的企业进行通讯,汇总运算结果;
步骤4:对数据和训练信息进行区块链存证。
优选的,所述训练信息包括:数据集更新信息、模型文件版本信息、训练历史和训练过程中发送出的加密数据。
优选的,联邦中心作为可信第三方参与汇总运算,对汇总运算进行协助且不保存数据,在训练完成后,由参与各方分别持有相关参数或模型。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。
根据本发明提供的一种基于联邦学习的数据共享设备,包括:控制器;
所述控制器包括所述的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的基于联邦学习的数据共享方法的步骤;或者,所述控制器包括所述的基于联邦学习的数据共享系统。
与现有技术相比,本发明具有如下的有益效果:
本发明采用横向联邦学习技术,解决了数据不出本地完成多方协同运算的问题,在实现企业数据资产降本增效的同时,保证了企业数据安全。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为多方协同运算架构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1,根据本发明提供的基于联邦学习的数据共享系统,包括如下模块:
1)企业数据平台:
A、收集和整理数据,供后续协同运算使用;
B、维护和披露数据集属性,包括统计信息、数据来源说明等;
C、在联合运算过程中提供算力,针对本地数据进行本地运算,并根据训练定义,对所管辖的数据进行加密;
D、保存和维护训练完成的模型参数和模型文件。
2)企业联邦工作站:
A、管理模型训练历史、多方协作记录、数据集增补修改历史;
B、抓取和监控多方训练过程中,企业之间互相通信、企业和联邦中心通信时发送的数据;
C、对数据和模型变更记录、训练记录,以及联合计算过程中出口数据进行存证。
3)联邦中心:
A、发布各企业可以提供的数据集以及信息;
B、接收和处理来自不同企业的联合运算请求;
C、在联合运算过程中作为可信第三方,参与运算;
D、监控运算过程,提供训练监控面板。
根据本发明提供的基于联邦学习的数据共享方法,包括如下步骤:
步骤1:企业A或企业B通过联邦中心,浏览和筛选对方披露的数据集,确定联合运算的算法,发起联合训练请求,双方都接受训练请求后,在本地联邦工作站发起本地训练;
步骤2:企业联邦工作站从本地数据平台拉取训练数据,进行本地计算后,根据联合训练的相关参数,采用不同的加密手段对生成的中间结果,或最终结果进行加密;
企业联邦工作站和企业数据平台通过企业内网,或者以太网连接。企业联邦工作站可以通过网络地址、文件存储路径、或数据库操作进行数据的获取。加密手段包括多种多方安全计算领域的手段,例如同态加密、秘密共享、混淆电路、不经意传输等。
步骤3:参与训练的双方进行通讯,汇总运算结果。此步骤也允许联邦中心参与,但联邦中心不保存任何数据,只作为可信第三方,对计算进行协助,训练完成后,相关的参数或模型,由参与各方分别持有;
训练各方的目标,是根据自身的数据对模型的各个参数进行动态调整,使模型能够在自身数据集上获得更好的准确度。而汇总的运算结果,实际上就是多方汇总之后对参数的调整量。得到了调整量后,将调整量发回参与方,用来帮助参与方更新自身模型的参数。迭代上述步骤,其产物实质上就等价于将多方数据明文集中后,进行运算得到的模型。
步骤4:对数据和训练相关信息进行区块链存证。这些信息包括:数据集更新信息、模型文件版本信息、训练历史、一次训练过程中,发送出的加密数据。
区块链存证的具体步骤为:采用链上链下协同的方式,将每次需要进行存证的信息进行打包,并将生成的文件存放在公开存储位置。同时计算生成的文件包的哈希值,将此哈希值保存在区块链上。这样每次获取文件包的时候,通过重新计算哈希值,并于链上存储的哈希进行比较,就可以推断出文件是否经过了二次篡改。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于联邦学习的数据共享系统,其特征在于,包括:
数据平台:收集企业数据并整理为数据集,在联合运算过程中提供算力,对本地数据进行本地运算,根据训练定义对管辖的数据进行加密,并保存和维护训练完成的模型参数和模型文件;
联邦工作站:管理模型训练历史、多方协作记录和数据集增补修改历史;
联邦中心:发布各企业提供的数据集以及信息,接收和处理来自不同企业的联合运算请求,在联合运算过程中作为可信第三方参与运算;
企业A或企业B通过联邦中心,浏览和筛选对方披露的数据集,确定联合运算的算法,发起联合训练请求,双方都接受训练请求后,在本地联邦工作站发起本地训练;参与训练的双方进行通讯,汇总运算结果;此步骤也允许联邦中心参与,但联邦中心不保存任何数据,只作为可信第三方;
企业联邦工作站从本地数据平台拉取训练数据,进行本地计算后,根据联合训练的相关参数,采用不同的加密手段对生成的中间结果,或最终结果进行加密。
2.根据权利要求1所述的基于联邦学习的数据共享系统,其特征在于,所述数据平台维护和披露数据集属性,包括统计信息和数据来源说明。
3.根据权利要求1所述的基于联邦学习的数据共享系统,其特征在于,所述联邦工作站抓取和监控多方训练过程中,企业之间互相通信、企业和联邦中心通信时发送的数据。
4.根据权利要求1所述的基于联邦学习的数据共享系统,其特征在于,所述联邦工作站对数据和模型的变更记录、训练记录,以及联合计算过程中的出口数据进行存证。
5.根据权利要求1所述的基于联邦学习的数据共享系统,其特征在于,所述联邦中心监控运算过程,提供训练监控面板。
6.一种基于联邦学习的数据共享方法,其特征在于,采用权利要求1-5中任一项所述的基于联邦学习的数据共享系统,包括如下步骤:
步骤1:企业之间通过联邦中心浏览和筛选对方披露的数据集,确定联合运算的算法后发起联合训练请求,在都接受训练请求后本地联邦工作站发起本地训练;
步骤2:联邦工作站从本地数据平台拉取训练数据进行本地计算后,根据联合训练的相关参数,采用不同的加密手段对生成的中间结果或最终结果进行加密;
步骤3:参与训练的企业进行通讯,汇总运算结果;
步骤4:对数据和训练信息进行区块链存证。
7.根据权利要求6所述的基于联邦学习的数据共享方法,其特征在于,所述训练信息包括:数据集更新信息、模型文件版本信息、训练历史和训练过程中发送出的加密数据。
8.根据权利要求6所述的基于联邦学习的数据共享方法,其特征在于,联邦中心作为可信第三方参与汇总运算,对汇总运算进行协助且不保存数据,在训练完成后,由参与各方分别持有相关参数或模型。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求6至8中任一项所述的方法的步骤。
10.一种基于联邦学习的数据共享设备,其特征在于,包括:控制器;
所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现权利要求6至8中任一项所述的基于联邦学习的数据共享方法的步骤;或者,所述控制器包括权利要求1至5中任一项所述的基于联邦学习的数据共享系统。
CN202110674135.6A 2021-06-17 2021-06-17 基于联邦学习的数据共享系统、方法、介质及设备 Active CN113268758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110674135.6A CN113268758B (zh) 2021-06-17 2021-06-17 基于联邦学习的数据共享系统、方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110674135.6A CN113268758B (zh) 2021-06-17 2021-06-17 基于联邦学习的数据共享系统、方法、介质及设备

Publications (2)

Publication Number Publication Date
CN113268758A CN113268758A (zh) 2021-08-17
CN113268758B true CN113268758B (zh) 2022-11-04

Family

ID=77235230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110674135.6A Active CN113268758B (zh) 2021-06-17 2021-06-17 基于联邦学习的数据共享系统、方法、介质及设备

Country Status (1)

Country Link
CN (1) CN113268758B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836809B (zh) * 2021-09-26 2023-12-01 上海万向区块链股份公司 基于区块链和联邦学习的跨行业数据联合建模方法及系统
CN114416854B (zh) * 2022-03-29 2022-06-28 北京安华金和科技有限公司 一种数据转换处理方法和系统
CN117670340A (zh) * 2022-08-25 2024-03-08 华为技术有限公司 权益分配方法及装置
CN115865705A (zh) * 2022-11-29 2023-03-28 广发银行股份有限公司 基于监管机构的多方联邦学习系统、方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871702A (zh) * 2019-02-18 2019-06-11 深圳前海微众银行股份有限公司 联邦模型训练方法、系统、设备及计算机可读存储介质
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN111860832A (zh) * 2020-07-01 2020-10-30 广州大学 一种基于联邦学习的增强神经网络防御能力的方法
CN112101489A (zh) * 2020-11-18 2020-12-18 天津开发区精诺瀚海数据科技有限公司 一种联邦学习与深度学习融合驱动的设备故障诊断方法
CN112733967A (zh) * 2021-03-30 2021-04-30 腾讯科技(深圳)有限公司 联邦学习的模型训练方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3085504A1 (fr) * 2018-08-30 2020-03-06 Raphael Louiset Procede securise de partage retarde de donnees entre un utilisateur emetteur et un utilisateur destinataire, avec creation locale d'un conteneur et horodatage sur blockchain.
US10958421B2 (en) * 2018-11-20 2021-03-23 International Business Machines Corporation User access control in blockchain
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN111125779A (zh) * 2019-12-17 2020-05-08 山东浪潮人工智能研究院有限公司 一种基于区块链的联邦学习方法及装置
CN111698322B (zh) * 2020-06-11 2023-05-02 福州数据技术研究院有限公司 一种基于区块链和联邦学习的医疗数据安全共享方法
CN111931242B (zh) * 2020-09-30 2021-02-19 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质
CN112632013A (zh) * 2020-12-07 2021-04-09 国网辽宁省电力有限公司物资分公司 一种基于联邦学习的数据安全可信共享方法和装置
CN112653752B (zh) * 2020-12-18 2022-06-24 重庆大学 基于联邦学习的区块链工业物联网数据共享方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871702A (zh) * 2019-02-18 2019-06-11 深圳前海微众银行股份有限公司 联邦模型训练方法、系统、设备及计算机可读存储介质
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN111860832A (zh) * 2020-07-01 2020-10-30 广州大学 一种基于联邦学习的增强神经网络防御能力的方法
CN112101489A (zh) * 2020-11-18 2020-12-18 天津开发区精诺瀚海数据科技有限公司 一种联邦学习与深度学习融合驱动的设备故障诊断方法
CN112733967A (zh) * 2021-03-30 2021-04-30 腾讯科技(深圳)有限公司 联邦学习的模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113268758A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN113268758B (zh) 基于联邦学习的数据共享系统、方法、介质及设备
CN112435024B (zh) 基于群签名和ca多方认证的联盟链跨链隐私保护方法
CN113204787B (zh) 基于区块链的联邦学习隐私保护方法、系统、设备和介质
DE60303018T2 (de) Mehrbenutzerschlüsselerzeugung auf polynombasis und Authentisierungsverfahren uns System
CN110069475B (zh) 一种基于区块链多方自我维持的制造业跨数据实体溯源方法
CN114697073A (zh) 一种基于区块链的电信运营商数据安全共享方法
CN101309137A (zh) 一种基于秘密共享的单向函数树组播密钥管理方法
WO2018099577A1 (en) System and method for providing a collective decentralized authority for sharing sensitive data
CN107770276A (zh) 一种实现用户数据独立管理与更新的网络系统和方法
CN115169576B (zh) 基于联邦学习的模型训练方法、装置及电子设备
CN104270350B (zh) 一种密钥信息的传输方法和设备
CN109547551B (zh) 一种科技项目动态监管系统
CN112949866A (zh) 泊松回归模型的训练方法、装置、电子设备及存储介质
CN114301677A (zh) 秘钥协商方法、装置、电子设备及存储介质
CN109743297B (zh) 一种巡察办管理服务系统及其工作方法
CN116112185A (zh) 一种基于区块链和零知识证明的隐私数据分享方法
CN113821811B (zh) 基于区块链的数据获取方法及系统、电子设备及存储介质
CN110851804A (zh) 一种基于电子合同的联盟链身份认证方式
CN114844635A (zh) 一种对数据安全地进行Shuffle的方法
CN115085983A (zh) 数据处理方法、装置、计算机可读存储介质和电子设备
CN115277040A (zh) 一种基于区块链技术的医疗健康数据存储和共享方法及系统
CN210745178U (zh) 一种身份认证系统
CN113810421A (zh) 基于区块链的pre物联网数据共享方法及系统
CN116506227B (zh) 数据处理方法、装置、计算机设备和存储介质
CN114244535B (zh) 一种基于区块链技术的城市级公示系统及公示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant