CN111935156B - 一种联邦学习的数据隐私保护方法 - Google Patents

一种联邦学习的数据隐私保护方法 Download PDF

Info

Publication number
CN111935156B
CN111935156B CN202010808771.9A CN202010808771A CN111935156B CN 111935156 B CN111935156 B CN 111935156B CN 202010808771 A CN202010808771 A CN 202010808771A CN 111935156 B CN111935156 B CN 111935156B
Authority
CN
China
Prior art keywords
enterprise
data
model
terminals
collaborator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010808771.9A
Other languages
English (en)
Other versions
CN111935156A (zh
Inventor
吴炎泉
陈思恩
杨紫胜
廖雅哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tech Valley Xiamen Information Technology Co ltd
Original Assignee
Tech Valley Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tech Valley Xiamen Information Technology Co ltd filed Critical Tech Valley Xiamen Information Technology Co ltd
Priority to CN202010808771.9A priority Critical patent/CN111935156B/zh
Publication of CN111935156A publication Critical patent/CN111935156A/zh
Application granted granted Critical
Publication of CN111935156B publication Critical patent/CN111935156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种联邦学习的数据隐私保护方法,包括自治和联合两个步骤,所述自治具体为:两个或两个以上的参与方在各自的终端安装初始化的模型,每个参与方拥有相同的模型,参与方各自使用当地的数据训练模型得到不同的模型参数;所述联合具体为:参与方将所述不同的模型参数同时上传到云端,由所述云端完成模型参数的聚合与更新,并且将更新好的参数返回到各参与方的终端,所述各参与方的终端开始下一次的迭代,重复以上的步骤,直到整个训练过程收敛。本发明实现了在数据不出本地的条件下进行联合建模,利用模型参数的交互代替数据的直接交换,既实现了数据的交互,又解决了数据的隐私和安全问题。

Description

一种联邦学习的数据隐私保护方法
技术领域
本发明涉及计算机技术领域,特别涉及一种联邦学习的数据隐私保护方法。
背景技术
人工智能对于场景和数据的依赖性极大,优质的数据直接决定了模型的质量,但数据的获取却变得困难。这种困境主要在于两个方面:一方面,数据孤岛现象严重,大部分的数据掌握在政府、运营商、互联网企业等三大“数据岛屿群”中,数据的利用率低,成本高;另一方面,数据安全与用户隐私问题越来越受到人们的重视,数据监管愈发严格,数据互通愈发困难。
发明内容
为解决上述问题,本发明提供了一种联邦学习的数据隐私保护方法。
本发明采用以下技术方案:
一种联邦学习的数据隐私保护方法,包括自治和联合两个步骤,所述自治具体为:两个或两个以上的参与方在各自的终端安装初始化的模型,每个参与方拥有相同的模型,参与方各自使用当地的数据训练模型得到不同的模型参数;所述联合具体为:参与方将所述不同的模型参数同时上传到云端,由所述云端完成模型参数的聚合与更新,并且将更新好的参数返回到各参与方的终端,所述各参与方的终端开始下一次的迭代,重复以上的步骤,直到整个训练过程收敛。
进一步地,所述参与方采用企业A和企业B,所述云端采用协作者C。
进一步地,包括如下步骤:
S1、企业A和企业B接受来自协作者C发来的用于加密的公钥,在不公开各自数据的前提下,进行用户样本对齐,确认双方共有用户群体;
S2、企业A和企业B在各自终端安装相同的初始化模型,并利用双方共有用户群体的数据进行模型训练,所述模型训练过程如下:
S21、企业A和企业B在各自的终端安装相同的初始化模型,输入双方共有用户群体数据进行训练;
S22、企业A和企业B之间以加密形式交换用于计算梯度的中间结果;
S23、企业A和企业B分别在加密的条件下进行梯度值的计算,同时企业B根据其标签数据计算损失,企业A和企业B把计算结果汇总给协作者C,协作者C通过汇总结果计算总梯度与损失并将其解密;
S24、协作者C将解密后的总梯度分别回传给企业A和企业B,企业A和企业B根据梯度更新各自模型的参数,并根据更新的模型参数进行下一次的迭代,直到整个训练过程收敛。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明本发明样本对齐和模型训练的过程中,各参与方的数据均保留在本地,且训练中的数据交互采用加密的模型参数进行交互,而不是直接的数据交换,不会导致数据隐私的泄露,实现了在数据不出本地的情况下进行联合建模,且保证了数据的安全;同时各参与方通过联邦学习合作训练的模型整合了多方的数据,实现了数据的共享。
附图说明
图1为本发明实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
一种联邦学习的数据隐私保护方法,包括自治和联合两个步骤,所述自治具体为:两个或两个以上的参与方在各自的终端安装初始化的模型,每个参与方拥有相同的模型,参与方各自使用当地的数据训练模型得到不同的模型参数;所述联合具体为:参与方将所述不同的模型参数同时上传到云端,由所述云端完成模型参数的聚合与更新,并且将更新好的参数返回到各参与方的终端,所述各参与方的终端开始下一次的迭代,重复以上的步骤,直到整个训练过程收敛。
如图1所示,本实施例以包含两个数据拥有方(即企业A和企业B)的场景为例来介绍联邦学习的数据隐私保护方法,该方法可扩展至包含多个数据拥有方的场景。本实施例中,企业A和B想联合训练一个机器学习模型,它们的业务系统分别拥有各自用户的相关数据,此外,企业B还拥有模型需要预测的标签数据,但是出于数据隐私和安全考虑,企业A和企业B无法直接进行数据交换。因此,在参与方采用企业A和企业B的情况下,还引入了作为云端的协作者C,该方法具体包括如下步骤:
S1、企业A和企业B接受来自协作者C发来的用于加密的公钥,在不公开各自数据的前提下,进行用户样本对齐,确认双方共有用户群体;
由于两家企业的用户群体并非完全重合,基于加密的用户样本对齐,在企业A和企业B不公开各自数据的前提下确认双方的共有用户,并且不暴露不互相重叠的用户,以便联合这些用户的特征进行建模。
在确定共有用户群体后,就可以利用这些数据训练机器学习模型。为了保证训练过程中数据的保密性,需要借助第三方协作者C进行加密训练。
S2、企业A和企业B在各自终端安装相同的初始化模型,并利用双方共有用户群体的数据进行模型训练,所述模型训练过程如下:
S21、企业A和企业B在各自的终端安装相同的初始化模型,输入双方共有用户群体数据进行训练;
S22、企业A和企业B之间以加密形式交换用于计算梯度的中间结果;
S23、企业A和企业B分别在加密的条件下进行梯度值的计算,同时企业B根据其标签数据计算损失,企业A和企业B把计算结果汇总给协作者C,协作者C通过汇总结果计算总梯度与损失并将其解密;
S24、协作者C将解密后的总梯度分别回传给企业A和企业B,企业A和企业B根据梯度更新各自模型的参数,并根据更新的模型参数进行下一次的迭代,直到整个训练过程收敛。
在样本对齐及模型训练过程中,企业A和企业B各自的数据均保留在本地,且训练中的数据交互也不会导致数据隐私泄露。因此,双方在联邦学习的帮助下得以实现合作训练模型。
此外,提供数据越多的参与方会看到模型的效果越好,这体现在对自己的贡献和对其他参与方的贡献,从而激励更多的参与方加入到这一数据联邦,实现更加完善的联邦共同建模。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (1)

1.一种联邦学习的数据隐私保护方法,其特征在于:包括自治和联合两个步骤,所述自治具体为:两个或两个以上的参与方在各自的终端安装初始化的模型,每个参与方拥有相同的模型,参与方各自使用当地的数据训练模型得到不同的模型参数;所述联合具体为:参与方将所述不同的模型参数同时上传到云端,由所述云端完成模型参数的聚合与更新,并且将更新好的参数返回到各参与方的终端,所述各参与方的终端开始下一次的迭代,重复以上的步骤,直到整个训练过程收敛;
所述参与方采用企业A和企业B,所述云端采用协作者C;
包括如下步骤:
S1、企业A和企业B接受来自协作者C发来的用于加密的公钥,在不公开各自数据的前提下,进行用户样本对齐,确认双方共有用户群体;
S2、企业A和企业B在各自终端安装相同的初始化模型,并利用双方共有用户群体的数据进行模型训练,所述模型训练过程如下:
S21、企业A和企业B在各自的终端安装相同的初始化模型,输入双方共有用户群体数据进行训练;
S22、企业A和企业B之间以加密形式交换用于计算梯度的中间结果;
S23、企业A和企业B分别在加密的条件下进行梯度值的计算,同时企业B根据其标签数据计算损失,企业A和企业B把计算结果汇总给协作者C,协作者C通过汇总结果计算总梯度与损失并将其解密;
S24、协作者C将解密后的总梯度分别回传给企业A和企业B,企业A和企业B根据梯度更新各自模型的参数,并根据更新的模型参数进行下一次的迭代,直到整个训练过程收敛。
CN202010808771.9A 2020-08-12 2020-08-12 一种联邦学习的数据隐私保护方法 Active CN111935156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010808771.9A CN111935156B (zh) 2020-08-12 2020-08-12 一种联邦学习的数据隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010808771.9A CN111935156B (zh) 2020-08-12 2020-08-12 一种联邦学习的数据隐私保护方法

Publications (2)

Publication Number Publication Date
CN111935156A CN111935156A (zh) 2020-11-13
CN111935156B true CN111935156B (zh) 2022-06-14

Family

ID=73310818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010808771.9A Active CN111935156B (zh) 2020-08-12 2020-08-12 一种联邦学习的数据隐私保护方法

Country Status (1)

Country Link
CN (1) CN111935156B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781082B (zh) * 2020-11-18 2023-04-07 京东城市(北京)数字科技有限公司 区域画像的修正方法、装置、电子设备和可读存储介质
CN112101579B (zh) * 2020-11-18 2021-02-09 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质
CN112418520B (zh) * 2020-11-22 2022-09-20 同济大学 一种基于联邦学习的信用卡交易风险预测方法
CN112446544A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 交通流预测模型训练方法、装置、电子设备及存储介质
CN112885337A (zh) * 2021-01-29 2021-06-01 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN113094735B (zh) * 2021-04-29 2023-03-31 香港中文大学(深圳) 隐私模型训练的方法
CN113537513A (zh) * 2021-07-15 2021-10-22 青岛海尔工业智能研究院有限公司 基于联邦学习的模型训练方法、装置、系统、设备和介质
CN113704779A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 加密的分布式机器学习训练方法
CN114610994A (zh) * 2022-03-09 2022-06-10 支付宝(杭州)信息技术有限公司 基于联合预测的推送方法和系统
CN114745092B (zh) * 2022-04-11 2024-05-24 浙江工商大学 一种基于联邦学习的金融数据共享隐私保护方法
CN115759248B (zh) * 2022-11-07 2023-06-13 吉林大学 基于去中心混合联邦学习的金融系统分析方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110245510A (zh) * 2019-06-19 2019-09-17 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN110795477A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 数据的训练方法及装置、系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679145B2 (en) * 2015-08-07 2020-06-09 Nec Corporation System and method for balancing computation with communication in parallel learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110245510A (zh) * 2019-06-19 2019-09-17 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN110795477A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 数据的训练方法及装置、系统

Also Published As

Publication number Publication date
CN111935156A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111935156B (zh) 一种联邦学习的数据隐私保护方法
Li et al. Privacy-preserving federated learning framework based on chained secure multiparty computing
CN112149160B (zh) 基于同态伪随机数的联邦学习隐私保护方法及系统
CN112183730B (zh) 一种基于共享学习的神经网络模型的训练方法
CN114745092B (zh) 一种基于联邦学习的金融数据共享隐私保护方法
WO2022247576A1 (zh) 一种数据处理方法、装置、设备及计算机可读存储介质
CN111259443A (zh) 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN112288094B (zh) 联邦网络表示学习方法及系统
CN109033865A (zh) 一种空间众包中隐私保护的任务分配方法
CN112163896B (zh) 一种联邦学习系统
US11410081B2 (en) Machine learning with differently masked data in secure multi-party computing
CN114239032A (zh) 基于安全多方计算的多方数据交互方法及系统
CN113609508A (zh) 一种基于区块链的联邦学习方法、装置、设备及存储介质
CN111461712A (zh) 区块链供应链金融场景下的交易隐私保护和分层监管
CN115270145A (zh) 一种基于联盟链和联邦学习的用户窃电行为检测方法及系统
CN116011014A (zh) 一种隐私计算方法和隐私计算系统
CN112905187A (zh) 编译方法、装置、电子设备及存储介质
CN116204897A (zh) 基于隐私计算的税电环联合分析方法、装置及存储介质
CN115630713A (zh) 样本标识符不相同下的纵向联邦学习方法、设备和介质
CN117171779B (zh) 基于交集保护的数据处理装置
CN114124347A (zh) 一种基于区块链的安全多方计算方法及系统
Yuan et al. A privacy-preserving oriented service recommendation approach based on personal data cloud and federated learning
CN111724000B (zh) 一种用户电费回收风险预测方法、装置及系统
CN114462626B (zh) 联邦模型训练方法、装置、终端设备以及存储介质
Zhou et al. A survey of security aggregation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant