CN112632620A - 一种增强隐私保护的联邦学习方法和系统 - Google Patents

一种增强隐私保护的联邦学习方法和系统 Download PDF

Info

Publication number
CN112632620A
CN112632620A CN202011621141.7A CN202011621141A CN112632620A CN 112632620 A CN112632620 A CN 112632620A CN 202011621141 A CN202011621141 A CN 202011621141A CN 112632620 A CN112632620 A CN 112632620A
Authority
CN
China
Prior art keywords
samples
data
sample
privacy
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011621141.7A
Other languages
English (en)
Other versions
CN112632620B (zh
Inventor
李龙飞
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011621141.7A priority Critical patent/CN112632620B/zh
Publication of CN112632620A publication Critical patent/CN112632620A/zh
Application granted granted Critical
Publication of CN112632620B publication Critical patent/CN112632620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书涉及机器学习领域,特别涉及一种增强隐私保护的联邦学习方法和系统。所述方法由多个参与方中的任一训练成员实现,其中,所述参与方包括服务器及多个训练成员,该方法包括:获取隐私样本;获取一个或多个与所述隐私样本同类型的扰动样本;基于所述隐私样本与一个或多个扰动样本生成加密样本;基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。

Description

一种增强隐私保护的联邦学习方法和系统
技术领域
本说明书涉及机器学习领域,特别涉及一种增强隐私保护的联邦学习方法和系统。
背景技术
为了得到更好的机器学习模型,通过多个训练成员的数据进行联合训练,以获取训练好的模型。然而在一些联合训练场景中,各训练成员的训练数据可能涉及用户隐私或商业秘密,训练成员不希望这些训练数据泄露。
因此,有必要提出一种联邦学习方法,以减少隐私数据泄露的可能,并提高数据的安全性。
发明内容
本说明书实施例之一提供一种增强隐私保护的联邦学习方法,所述方法由多个参与方中的任一训练成员实现,其中,所述参与方包括服务器及多个训练成员,该方法包括:获取隐私样本;获取一个或多个与所述隐私样本同类型的扰动样本;基于所述隐私样本与一个或多个扰动样本生成加密样本;基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。
本说明书实施例之一提供一种增强隐私保护的联邦学习系统,其包括:隐私样本获取模块,用于获取隐私样本;扰动样本获取模块,用于获取一个或多个与所述隐私样本同类型的扰动样本;加密样本生成模块,用于基于所述隐私样本与一个或多个扰动样本生成加密样本;联合训练模块,用于基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。
本说明书实施例之一提供一种增强隐私保护的联邦学习装置,包括处理器以及存储介质,所述存储介质用于存储计算机指令,所述处理器用于执行计算机指令中的至少一部分以实现上述增强隐私保护的联邦学习方法。
本说明书实施例之一提供一种增强隐私保护的训练样本处理方法,该方法包括:获取隐私样本;获取一个或多个与所述隐私样本同类型的扰动样本;基于所述隐私样本与一个或多个扰动样本生成加密样本。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的增强隐私保护的联邦学习系统的应用场景示意图;
图2是根据本说明书一些实施例所示的增强隐私保护的联邦学习的示例性流程图;
图3为本说明书一些实施例所示的生成加密样本的示意图;
图4是根据本说明书一些实施例所示的生成加密样本的示例性流程图;
图5是根据本说明书另一些实施例所示的生成加密样本的示例性流程图;
图6是根据本说明书一些实施例所示的增强隐私保护的联邦学习系统的模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的增强隐私保护的联邦学习系统的应用场景示意图。
如图1所示,系统100可以包括训练成员110、网络120和服务器140。
在应用场景中,系统100可以包括多个训练成员110(训练成员110a、训练成员110b和训练成员110c等),每个训练成员持有一部分私有数据。具体的,训练成员110a可以与训练成员110b、训练成员110c协同,对模型进行联合训练。训练成员110各自持有的数据可以储存于自身的存储设备130中。
训练成员110可以用于处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,训练成员110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如,训练成员110可以是分布式系统)。在一些实施例中,训练成员110可以是区域的或者远程的。在一些实施例中,训练成员110可以在云平台上实施,或者以虚拟方式提供。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
在一些实施例中,训练成员110可包含处理器112。处理器112可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理器可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本说明书中描述的功能。在一些实施例中,处理器112可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。仅作为示例,处理器112可以包括中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
存储设备130可以用于存储数据和/或指令,如训练样本、模型参数以及与模型训练过程相关的其他数据。存储设备130可以包括一个或多个存储组件,每个存储组件可以是一个独立的设备,也可以是其他设备的一部分。在一些实施例中,存储设备130可包括随机存取存储器(RAM)、只读存储器(ROM)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。示例性的,大容量储存器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,所述存储设备130可在云平台上实现。
网络120可以连接系统的各组成部分和/或连接系统与外部资源部分。网络120使得各组成部分之间,以及与系统之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种或多种。例如,网络120可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigBee)、近场通信(NFC)、设备内总线、设备内线路、线缆连接等或其任意组合。各部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。在一些实施例中,网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络120可以包括一个或以上网络接入点。例如,网络120可以包括有线或无线网络接入点,例如基站和/或网络交换点,通过这些系统的一个或多个组件可连接到网络120上以交换数据和/或信息。
服务器140可以用于多个用户节点的汇聚。服务器140可以是指包括一方的单台设备或属于一方的设备集群并通过网络接口与接入网相连的节点。在一些实施例中,该设备集群可以是集中式的或者分布式的。在一些实施例中,该设备集群可以是区域的或者远程的。在一些实施例中,服务器140可以包括主机、终端等设备。例如服务器、拥有计算资源的计算机等。
在一些实施例中,联邦学习中所使用的数据可以是来自各行业中的数据,该数据包括但不限于金融行业、保险行业、互联网行业、汽车行业、餐饮行业、电信行业、能源行业、娱乐行业、体育行业、物流行业、医疗行业、安全行业等。
在一些实施例中,联邦学习可以应用于在保证各方数据安全的情况下,各方协同训练机器学习模型供多方使用的场景。联邦学习的参与方包括训练成员110和服务器140。在这个场景中,多个训练成员110拥有自己的数据,训练成员110期望使用彼此的数据来统一训练一个机器学习模型(例如,分类模型、线性回归模型、逻辑回归模型等),但并不希望自己持有的数据(尤其是隐私数据)被泄露。
具体的,在一些实施例中,可以通过训练成员110基于本地数据进行训练得到各自本地的梯度后,训练成员110通过网络120将该梯度上传至服务器140,服务器140将各训练成员110的梯度进行聚合,并将聚合得到的结果发回训练成员110,以便训练成员110更新各自模型。但该场景中,若存在恶意参与方,或训练成员110上传的梯度信息受到攻击者监听的情况下,可能出现恶意参与方或攻击方通过梯度信息反推出训练数据信息,造成隐私数据的泄露。
在一些实施例中,为了避免隐私数据泄露,在各训练成员110上传梯度信息前,训练成员110基于安全多方计算的加密方式对梯度信息进行加密,服务器140基于各方加密后的数据进行聚合。在一些实施例中,安全多方计算的方式包括秘密共享、差分隐私或同态加密等。但实际在联邦训练的场景中,会有较多数量的训练成员110对模型进行联合训练(如数十个或上百个),此时利用安全多方计算会导致计算量大大增加(如采用同态加密会导致训练成员110和服务器140计算量增加至少2个数量级)以及占用大量网络资源的情况(如采用秘密共享,每个训练成员110的每一步计算均需要消耗一组随机数,在该场景下通讯量大且随机数生成压力大)。
在一些实施例中,可以在训练成员110本地对隐私数据进行扰动,使本地得到的梯度信息经过加密,在一些应用场景下,即使不额外使用同态加密、秘密分享等方式对梯度信息进行加密,也可以有效防止攻击者通过梯度信息反推出原始训练数据,达到增强隐私保护的目的。
图2是根据本说明书一些实施例所示的增强隐私保护的联邦学习的示例性流程图。
在一些实施例中,流程200中的一个或多个步骤可以由图1中训练成员110中的任意训练成员,如训练成员110a执行,包括:
步骤210,获取隐私样本。在一些实施例中步骤210可以由隐私样本获取模块610执行。
在一些实施例中,训练成员所持有的私有数据中包括其不希望泄露的隐私数据,隐私数据通常是获取成本较高或涉及用户隐私的一类信息,如人脸图像、病理图像、学术论文和语音通话等。
在一些实施例中,用于联合训练的隐私数据包括隐私样本的特征数据和隐私样本的标签数据。
步骤220,获取一个或多个与所述隐私样本同类型的扰动样本。在一些实施例中,步骤220可以由扰动样本获取模块620执行。
在一些实施例中,隐私样本的类型包括文本数据、音频数据或者图像数据,可以理解的是,以图像数据为例,当隐私样本为图像数据时,训练成员所获取的扰动样本也为图像数据。
需要说明的是,在一些其他实施例中,隐私样本还可以是其他类型,如数值数据等。
在一些实施例中,扰动样本来自公开数据集和/或所述训练成员的私有样本集。继续采用图像数据作为示例,当扰动样本来自公开数据集时,可以通过获取ImageNet等开源数据集中图像数据作为扰动样本;当扰动样本为训练成员的私有样本集时,可以由本地获取与隐私样本相关或不相关的其他图像样本作为扰动样本。在一些其他实施例中,若需要获取多个扰动样本,可以同时从公开数据集和训练成员的私有样本集中分别获取扰动样本。
在一些实施例中,进一步的,所述扰动样本通过对公开数据集和/或所述训练成员的私有样本集中的样本进行分层采样获得。在一些实施例中,数据集中样本可以按照一定的分类原则分为类,如在图像数据集中划分为人、汽车、宠物等不同大类,在宠物类下又可以划分为猫、狗等小类,以此类推,可以将数据集中的样本在不同层级(大类、小类、子类等)上被划分为多个子集。采样时从每一层级的子集内进行单纯随机采样或系统采样,分层采样往往是为保证在采样空间或类型选取上的均匀性及代表性所采用的方法。例如,对于图像数据集,可以在第一层级上的人、汽车、宠物三个子集(大类)中分别采样一定数量的样本,再在第二层级上的猫、狗三个子集(小类)中分别采样一定数量的样本,得到多个扰动样本。在一些实施例中,扰动样本可以通过对公开数据集和/或所述训练成员的私有样本集中的样本直接进行随机采样获得。
步骤230,基于所述隐私样本与一个或多个扰动样本生成加密样本。在一些实施例中,步骤230可以由加密样本生成模块630执行。
图3为本说明书一些实施例所示的生成加密样本的示意图。
在一些实施例中,通过隐私样本与一个或多个同类型的扰动样本共同生成加密样本,使得加密样本中存在较多同类型特征,其中,加密样本包括特征数据及标签数据。参照图3,继续以图像数据为例,图中的扰动样本320也为图像数据,因此基于隐私样本310与扰动样本320所生成的加密样本330的图像数据中除了隐私样本的特征外,还存在扰动样本带来的图形、图块和线条等特征,以增强隐私数据的保护。
在一些实施例中,若攻击者获取到基于该加密样本得到的梯度信息,反推出一部分加密样本信息时,由于其中扰动样本的特征的干扰,攻击者几乎无法完整获取到隐私样本的特征。相较于在隐私样本中添加噪声(如高斯噪声、拉普拉斯噪声)的方案,同类型的扰动能够对隐私样本中特征进行遮盖、隐藏的同时,使得后续步骤中梯度计算、服务器对梯度聚合的过程中,受到的精度影响更小。
在一些实施例中,步骤230中基于所述隐私样本与一个或多个扰动样本生成加密样本的方式并不唯一,在后文中依照流程400和流程500两种方案分别进行描述。
步骤240,基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。在一些实施例中,步骤240可以由联合训练模块640执行。
在一些实施例中,训练成员可以基于加密样本中的特征数据以及标签数据,得到属于该训练成员的本地梯度信息,训练成员将该梯度信息发送至服务器,其他训练成员也将各自梯度信息发送至服务器,服务器对所接收到的梯度信息进行聚合,并将聚合后的梯度信息重新发送至各个训练成员,以对待训练模型进行参数迭代更新,直至训练完成得到训练好的模型。
在一些实施例中,经过加密样本进行训练得到的本地梯度信息可以无需额外加密,即可发送至服务器。
在一些实施例中,其他训练成员可以分别通过其自身持有的隐私样本以及同类型的扰动样本生成加密样本,并利用加密样本得到各自的本地梯度信息。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
本说明书的一些实施例还提供一种增强隐私保护的训练样本处理方法,在一些实施例中,该方法的流程与流程200中步骤210~步骤230类似,可以参见相关描述,在此不再赘述。
图4是根据本说明书一些实施例所示的生成加密样本的示例性流程图。在一些实施例中,流程400可以由加密样本生成模块630执行。
步骤410,对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到所述加密样本的特征数据。
在一些实施例中,可以理解的,若要计算梯度信息,加密样本中需要包括加密样本的特征数据和加密样本的标签数据。加密样本的特征信息基于隐私样本的特征数据和扰动样本的特征数据得到。
在一些实施例中,以基于隐私样本与多个扰动样本生成加密样本为例,步骤410中对所述隐私样本的特征数据和多个扰动样本的特征数据进行加权求和,得到所述加密样本的特征数据。加权求和中隐私样本的特征数据和扰动样本的特征数据的权重系数可以是一组随机生成的非零的数值。示例性的,若扰动样本的数量为2个,那么可以设置隐私样本的特征数据权重为5、第一扰动样本的特征数据权重为2、第二扰动样本的特征数据权重为4,以此计算得到加密样本的特征信息。
在一些实施例中,加权求和中隐私样本的特征数据和扰动样本的特征数据权重系数可以是随机生成的和为1的一组非零数值序列,基于采用扰动样本的数量为2个作为示例,假设随机生成的和为1的一组序列为(0.5、0.3、0.2),故设置隐私样本的特征数据权重系数为0.5、第一扰动样本的特征数据权重系数为0.3、第二扰动样本的特征数据权重系数为0.2,并以此计算得到加密样本的特征信息。
在一些实施例中,隐私样本的特征数据可以表示为向量或矩阵,相应的,扰动样本的特征数据可以是同维的向量或矩阵。例如,均为256×256的矩阵,或者均为128维的向量。当对隐私样本的特征数据与扰动样本的特征数据进行加权求和时,可以理解为对多个矩阵或向量的元素按位加权求和。
步骤420,对所述隐私样本的标签数据和所述一个或多个扰动样本的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据。
在一些实施例中,隐私样本的标签数据和扰动样本的标签数据均为数值化处理后得到的标签数据。继续采用隐私样本的类型为图像数据为例,若隐私样本的标签为分类信息,如猫、人、汽车等,可以将每个标签表示为对应于每一类的概率,如标签数据为(0.12,0.8,0.01),在一些实施例中标签数值也可以取整,此时标签数据为(0,1,0),需要说明的是,在一些实施例中,标签数值化的方式可以是其他任意能够将非数值转换为数值的编码方式,在本说明书中不做限制。
在一些实施例中,与步骤410相似,加权求和得到加密样本的标签数据过程中,隐私样本的标签数据和扰动样本的标签数据的权重系数可以是一组随机生成的数值。在一些实施例中,该权重系数可以是与隐私样本的特征数据和扰动样本的特征数据的权重系数相同的一组数值,在一些其他实施例中,步骤420中可以重新生成一组数值作为标签数据的权重系数。可以理解,隐私样本的标签数据可以表示为单个数值或向量,相应的,扰动样本的标签数据可以是同维的数据。例如,均为单个数值,或者均为3维的向量。当对隐私样本的标签数据与扰动样本的标签数据进行加权求和时,可以理解为对各标签数据的元素按位加权求和。
在一些实施例中,所述加密样本的标签数据还可以只包括隐私样本的标签数据。
图5是根据本说明书另一些实施例所示的生成加密样本的示例性流程图。在一些实施例中,流程500可以由加密样本生成模块630执行。
步骤510,对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到融合特征数据。
在一些实施例中,基于隐私样本的特征数据和扰动样本的特征数据得到融合特征数据。融合特征数据的获取方式与步骤410中隐私样本的特征数据获取方式类似,加权求和得到融合特征数据过程中,隐私样本的标签数据和扰动样本的标签数据的权重系数可以是一组随机生成的数值。
步骤520,生成掩模数据。
在一些实施例中,掩模数据用于对融合特征数据做进一步遮掩。通过扰动样本对隐私样本进行扰动后,利用该掩模数据进一步遮掩后,在个别情况下即使加密梯度信息泄露,攻击者更加难以获取隐私数据相关特征。
在一些实施例中,掩模数据可以是与所述融合特征数据的特征数据维度相同的数据。在一些实施例中,融合特征数据可以表示为向量或矩阵,相应的,掩模数据可以是同维的向量或矩阵。例如,均为256×256的矩阵,或者均为128维的向量。示例性的,当隐私样本为图像数据时,融合特征数据可以表示为256×256的矩阵,掩模数据为与融合特征数据的特征数据相同维度的矩阵。同理可知,当隐私样本为文本数据或音频数据时,融合特征数据可以表示为128维的向量,此时掩模数据为与融合特征数据维度相同的向量。
在一些实施例中,所述掩模数据包括取值为1的元素与取值为-1的元素,且前述两种元素在所述掩模数据中随机分布。继续采用前述示例,当隐私样本为图像数据时,若融合特征数据为4×4的矩阵:
Figure BDA0002874035300000111
在一些实施例中,与融合特征数据同维的掩模数据可以是:
Figure BDA0002874035300000112
在一些实施例中,掩模数据中元素的取值还可以是1和-1之外的取值,如取值为0、1等;此外,在一些其他实施例中,掩模数据中元素的取值类型还可以是三个以上,如掩模数据包括取值为1、-1和2的三个元素。
步骤530,将所述掩模数据与所述融合特征数据进行运算,得到所述加密样本的特征数据。
在一些实施例中,将所述掩模数据与所述融合特征数据进行运算,例如相加、相乘或做与运算等。
在一些实施例中,若融合特征数据为矩阵,掩模数据与所述融合特征数据进行的运算为两矩阵按位相乘,继续采用融合特征数据为4×4的矩阵的示例,两矩阵按位相乘得到的加密样本的特征数据矩阵为:
Figure BDA0002874035300000121
步骤540,对所述隐私样本的标签数据和所述一个或多个扰动样本的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据。
在一些实施例中,步骤540步骤420相似,具体可以参见步骤420相关描述,在此不再赘述。
图6是根据本说明书一些实施例所示的增强隐私保护的联邦学习系统的模块图。
如图6所示,系统600包括隐私样本获取模块610、扰动样本获取模块620、加密样本生成模块630和联合训练模块640。
隐私样本获取模块610可以用于获取隐私样本。
关于隐私样本的更多描述可以在本说明书的其他地方(如步骤210及其相关描述中)找到,在此不作赘述。
扰动样本获取模块620可以用于获取一个或多个与所述隐私样本同类型的扰动样本。
关于扰动样本的更多描述可以在本说明书的其他地方(如步骤220及其相关描述中)找到,在此不作赘述。
加密样本生成模块630可以用于基于所述隐私样本与一个或多个扰动样本生成加密样本。
关于加密样本的更多描述可以在本说明书的其他地方(如步骤230、图4和图5以及其相关描述中)找到,在此不作赘述。
联合训练模块640可以用于基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。
关于联合训练的更多描述可以在本说明书的其他地方(如步骤240及其相关描述中)找到,在此不作赘述。
在一些实施例中,所述加密样本生成模块630,还可以用于:对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到所述加密样本的特征数据;对所述隐私样本的标签数据和所述一个或多个扰动样本中的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据;其中,权重系数为随机生成。
在一些实施例中,所述加密样本生成模块630,还可以用于:对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到融合特征数据;生成掩模数据;将所述掩模数据与所述融合特征数据进行运算,得到所述加密样本的特征数据;对所述隐私样本的标签数据和所述一个或多个扰动样本的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据;其中,权重系数为随机生成。
在一些实施例中,所述掩模数据与所述融合特征数据维度相同,所述运算包括将所述掩模数据与所述融合特征数据按位相乘。
在一些实施例中,所述掩模数据包括取值为1的元素与取值为-1元素,且前述两种元素在所述掩模数据中随机分布。
在一些实施例中,所述扰动样本来自公开数据集和/或所述训练成员的私有样本集。
在一些实施例中,所述扰动样本通过对公开数据集和/或所述训练成员的私有样本集中的样本进行分层采样获得。
在一些实施例中,所述隐私样本的类型包括文本数据、音频数据或者图像数据。
应当理解,图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,装置及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行装置,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的装置及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于候选项显示、确定系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过扰动样本对隐私样本进行扰动,训练成员无需对本地梯度进行额外加密,相对于安全多方计算的方案,计算量增加较少同时不会占用较多网络资源。(2)扰动样本对隐私样本进行扰动后,计算得到的梯度信息是经过加密的,在该梯度信息泄露的情况下,依旧能保护隐私数据的安全。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (18)

1.一种增强隐私保护的联邦学习方法,所述方法由多个参与方中的任一训练成员实现,其中,所述参与方包括服务器及多个训练成员,该方法包括:
获取隐私样本;
获取一个或多个与所述隐私样本同类型的扰动样本;
基于所述隐私样本与一个或多个扰动样本生成加密样本;
基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。
2.如权利要求1所述的方法,所述基于所述隐私样本与一个或多个扰动样本生成加密样本,包括:
对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到所述加密样本的特征数据;
对所述隐私样本的标签数据和所述一个或多个扰动样本中的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据;
其中,权重系数为随机生成。
3.如权利要求1所述的方法,所述基于所述隐私样本与一个或多个扰动样本生成加密样本,包括:
对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到融合特征数据;
生成掩模数据;
将所述掩模数据与所述融合特征数据进行运算,得到所述加密样本的特征数据;
对所述隐私样本的标签数据和所述一个或多个扰动样本的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据;
其中,权重系数为随机生成。
4.如权利要求3所述的方法,所述掩模数据与所述融合特征数据维度相同,所述运算包括将所述掩模数据与所述融合特征数据按位相乘。
5.如权利要求4所述的方法,所述掩模数据包括取值为1的元素与取值为-1的元素,且前述两种元素在所述掩模数据中随机分布。
6.如权利要求1所述的方法,所述扰动样本来自公开数据集和/或所述训练成员的私有样本集。
7.如权利要求6所述的方法,所述扰动样本通过对公开数据集和/或所述训练成员的私有样本集中的样本进行分层采样获得。
8.如权利要求1所述的方法,所述隐私样本的类型包括文本数据、音频数据或者图像数据。
9.一种增强隐私保护的联邦学习系统,其包括:
隐私样本获取模块,用于获取隐私样本;
扰动样本获取模块,用于获取一个或多个与所述隐私样本同类型的扰动样本;
加密样本生成模块,用于基于所述隐私样本与一个或多个扰动样本生成加密样本;
联合训练模块,用于基于所述加密样本,与其他参与方进行联邦学习以对待训练模型进行联合训练。
10.如权利要求9所述的系统,所述加密样本生成模块,还用于:
对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到所述加密样本的特征数据;
对所述隐私样本的标签数据和所述一个或多个扰动样本中的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据;
其中,权重系数为随机生成。
11.如权利要求9所述的系统,所述加密样本生成模块,还用于:
对所述隐私样本的特征数据和一个或多个扰动样本的特征数据进行加权求和,得到融合特征数据;
生成掩模数据;
将所述掩模数据与所述融合特征数据进行运算,得到所述加密样本的特征数据;
对所述隐私样本的标签数据和所述一个或多个扰动样本的至少一个的标签数据进行加权求和,得到所述加密样本的标签数据;
其中,权重系数为随机生成。
12.如权利要求11所述的系统,所述掩模数据与所述融合特征数据维度相同,所述运算包括将所述掩模数据与所述融合特征数据按位相乘。
13.如权利要求12所述的系统,所述掩模数据包括取值为1的元素与取值为-1的元素,且前述两种元素在所述掩模数据中随机分布。
14.如权利要求9所述的系统,所述扰动样本来自公开数据集和/或所述训练成员的私有样本集。
15.如权利要求14所述的系统,所述扰动样本通过对公开数据集和/或所述训练成员的私有样本集中的样本进行分层采样获得。
16.如权利要求9所述的系统,所述隐私样本的类型包括文本数据、音频数据或者图像数据。
17.一种增强隐私保护的联邦学习装置,包括处理器以及存储介质,所述存储介质用于存储计算机指令,所述处理器用于执行计算机指令中的至少一部分以实现如权利要求1~8中任一项所述增强隐私保护的联邦学习方法。
18.一种增强隐私保护的训练样本处理方法,包括:
获取隐私样本;
获取一个或多个与所述隐私样本同类型的扰动样本;
基于所述隐私样本与一个或多个扰动样本生成加密样本。
CN202011621141.7A 2020-12-30 2020-12-30 一种增强隐私保护的联邦学习方法和系统 Active CN112632620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011621141.7A CN112632620B (zh) 2020-12-30 2020-12-30 一种增强隐私保护的联邦学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011621141.7A CN112632620B (zh) 2020-12-30 2020-12-30 一种增强隐私保护的联邦学习方法和系统

Publications (2)

Publication Number Publication Date
CN112632620A true CN112632620A (zh) 2021-04-09
CN112632620B CN112632620B (zh) 2022-08-26

Family

ID=75287660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011621141.7A Active CN112632620B (zh) 2020-12-30 2020-12-30 一种增强隐私保护的联邦学习方法和系统

Country Status (1)

Country Link
CN (1) CN112632620B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515890A (zh) * 2021-05-21 2021-10-19 华北电力大学 一种基于联邦学习的可再生能源日前场景生成方法
CN114091690A (zh) * 2021-11-25 2022-02-25 支付宝(杭州)信息技术有限公司 联邦学习模型的训练方法和调用方法以及联邦学习系统
CN114239070A (zh) * 2021-12-23 2022-03-25 电子科技大学 在联邦学习中移除非规则用户的隐私保护方法
CN116305289A (zh) * 2023-05-15 2023-06-23 湖南工商大学 医疗隐私数据处理方法、装置、计算机设备及存储介质
CN116915405A (zh) * 2023-09-13 2023-10-20 北京数牍科技有限公司 基于隐私保护的数据处理方法、装置、设备及存储介质
WO2023213190A1 (zh) * 2022-05-06 2023-11-09 华为技术有限公司 一种模型安全聚合方法及装置
CN117668874B (zh) * 2023-12-07 2024-06-07 重庆大学 一种基于深度学习训练过程的数据隐私保护方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN110990871A (zh) * 2019-11-29 2020-04-10 腾讯云计算(北京)有限责任公司 基于人工智能的机器学习模型训练方法、预测方法及装置
CN111046433A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 一种基于联邦学习的模型训练方法
CN111738440A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种基于领域自适应与联邦学习的模型训练方法及系统
CN111860832A (zh) * 2020-07-01 2020-10-30 广州大学 一种基于联邦学习的增强神经网络防御能力的方法
US20200358599A1 (en) * 2019-05-07 2020-11-12 International Business Machines Corporation Private and federated learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
US20200358599A1 (en) * 2019-05-07 2020-11-12 International Business Machines Corporation Private and federated learning
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN110990871A (zh) * 2019-11-29 2020-04-10 腾讯云计算(北京)有限责任公司 基于人工智能的机器学习模型训练方法、预测方法及装置
CN111046433A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 一种基于联邦学习的模型训练方法
CN111860832A (zh) * 2020-07-01 2020-10-30 广州大学 一种基于联邦学习的增强神经网络防御能力的方法
CN111738440A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种基于领域自适应与联邦学习的模型训练方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515890A (zh) * 2021-05-21 2021-10-19 华北电力大学 一种基于联邦学习的可再生能源日前场景生成方法
CN113515890B (zh) * 2021-05-21 2024-03-08 华北电力大学 一种基于联邦学习的可再生能源日前场景生成方法
CN114091690A (zh) * 2021-11-25 2022-02-25 支付宝(杭州)信息技术有限公司 联邦学习模型的训练方法和调用方法以及联邦学习系统
CN114239070A (zh) * 2021-12-23 2022-03-25 电子科技大学 在联邦学习中移除非规则用户的隐私保护方法
WO2023213190A1 (zh) * 2022-05-06 2023-11-09 华为技术有限公司 一种模型安全聚合方法及装置
CN116305289A (zh) * 2023-05-15 2023-06-23 湖南工商大学 医疗隐私数据处理方法、装置、计算机设备及存储介质
CN116305289B (zh) * 2023-05-15 2023-08-15 湖南工商大学 医疗隐私数据处理方法、装置、计算机设备及存储介质
CN116915405A (zh) * 2023-09-13 2023-10-20 北京数牍科技有限公司 基于隐私保护的数据处理方法、装置、设备及存储介质
CN116915405B (zh) * 2023-09-13 2023-11-21 北京数牍科技有限公司 基于隐私保护的数据处理方法、装置、设备及存储介质
CN117668874B (zh) * 2023-12-07 2024-06-07 重庆大学 一种基于深度学习训练过程的数据隐私保护方法

Also Published As

Publication number Publication date
CN112632620B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN112632620B (zh) 一种增强隐私保护的联邦学习方法和系统
CN110457912B (zh) 数据处理方法、装置和电子设备
US10552712B2 (en) Training device and training method for training image processing device
CN110929886A (zh) 模型训练、预测方法及其系统
CN110427969B (zh) 数据处理方法、装置和电子设备
CN111523673B (zh) 模型训练方法、装置及系统
WO2022257730A1 (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN107819569A (zh) 登录信息的加密方法及终端设备
CN111144576A (zh) 模型训练方法、装置和电子设备
CN112766514B (zh) 一种联合训练机器学习模型的方法、系统及装置
CN111125727A (zh) 混淆电路生成方法、预测结果确定方法、装置和电子设备
CN110391895B (zh) 数据预处理方法、密文数据获取方法、装置和电子设备
US20240073226A1 (en) Quantum computing machine learning for security threats
CN114282256B (zh) 一种基于秘密分享的排序打乱方法和恢复方法
CN114611128A (zh) 一种纵向联邦学习方法、装置、系统、设备及存储介质
CN113111569A (zh) 乱序处理方法、模型训练方法、装置和计算设备
Leroux et al. Privacy aware offloading of deep neural networks
Hudson A short walk in quantum probability
CN112561085A (zh) 一种基于多方安全计算的多分类模型训练方法和系统
Cai et al. Privacy‐preserving CNN feature extraction and retrieval over medical images
Bienvenüe et al. Likelihood inference for multivariate extreme value distributions whose spectral vectors have known conditional distributions
CN111582284A (zh) 用于图像识别的隐私保护方法、装置和电子设备
CN111784078B (zh) 一种针对决策树的分布式预测方法和系统
CN113946857B (zh) 一种基于数据路由的分布式跨链调度方法及装置
Qurashi et al. Soft relations applied to the substructures of quantale module and their approximation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant