CN111178538A - 垂直数据的联邦学习方法及装置 - Google Patents

垂直数据的联邦学习方法及装置 Download PDF

Info

Publication number
CN111178538A
CN111178538A CN201911298158.0A CN201911298158A CN111178538A CN 111178538 A CN111178538 A CN 111178538A CN 201911298158 A CN201911298158 A CN 201911298158A CN 111178538 A CN111178538 A CN 111178538A
Authority
CN
China
Prior art keywords
data
encryption
sample
information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911298158.0A
Other languages
English (en)
Other versions
CN111178538B (zh
Inventor
徐慧囝
颜亦军
高昊宇
周枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ruixin Data Technology Co Ltd
Original Assignee
Hangzhou Ruixin Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ruixin Data Technology Co Ltd filed Critical Hangzhou Ruixin Data Technology Co Ltd
Priority to CN201911298158.0A priority Critical patent/CN111178538B/zh
Publication of CN111178538A publication Critical patent/CN111178538A/zh
Application granted granted Critical
Publication of CN111178538B publication Critical patent/CN111178538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种垂直数据的联邦学习方法及装置。所述方法应用于协调服务器,包括:接收至少两个数据提供方的样本数据标识符的布隆过滤器;匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;利用公钥加密所述共有数据指示信息,得到加密指示信息;发送样本对齐信息、公钥、加密指示信息以及模型参数至相应的数据提供方;接收至少两个数据提供方的加密模型梯度信息;根据至少两个数据提供方的加密模型梯度信息,更新至少两个数据提供方对应的模型参数。可以实现多个标识符的模糊匹配,提高应用场景的适用性,并可以在保证数据隐私的情况下,实现模型参数的更新。

Description

垂直数据的联邦学习方法及装置
技术领域
本公开涉及大数据安全处理技术领域,尤其涉及一种垂直数据的联邦学 习方法及装置。
背景技术
联邦学习是近年提出的一个机器学习框架,在2016年最先由谷歌提出。 它的诞生是用于解决安卓手机终端用户在本地更新模型的问题。传统机器学 习会将全部数据收集在一个架构的终端或者分布在多个终端,然后对数据进 行机器学习。现有的联邦学习设计理念可以确保数据不会离开安卓手机用户 本地,使得机器学习可以使用手机芯片在本地进行,最后将更新的模型参数 返送给服务器。这使得联邦学习的应用场景多集中关注企业与消费者之间上, 并且,联邦学习多集中在数据水平情况下的机器学习。
但随着日益增长的数据使用和收集,以及大数据应用场景多样化的需求, 组织、机构、企业等之间的数据资产的联邦学习将比企业与个人之间的数据 联邦学习更具潜在意义。而且,现有联邦学习多处于理论阶段,实际研究应 用中也将数据对齐部分作为默认条件。
发明内容
有鉴于此,本公开提出了一种垂直数据的联邦学习方法及装置。
根据本公开的一方面,提供了一种垂直数据的联邦学习方法,应用于协 调服务器,所述方法包括:
接收至少两个数据提供方的样本数据标识符的布隆过滤器;
匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所 述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;
利用公钥加密所述共有数据指示信息,得到加密指示信息;
发送所述样本对齐信息、所述公钥、所述加密指示信息以及模型参数至 相应的数据提供方;
接收所述至少两个数据提供方发送的,根据所述样本对齐信息、所述公 钥、所述加密指示信息以及所述模型参数获取的加密模型梯度信息;
根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个 数据提供方对应的模型参数;
若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型 参数,发送所述目标模型参数至相应的数据提供方,以使所述相应的数据提 供方根据所述目标模型参数预测数据标签。
在一种可能的实现方式中,所述方法还包括:
若更新的模型参数不满足预设条件,将所述更新的模型参数发送至相应 的数据提供方,以使所述相应的数据提供方根据所述样本对齐信息、所述公 钥、所述加密指示向量以及所述更新的模型参数,获取当前的模型梯度信息;
接收所述相应的数据提供方的当前的加密模型梯度信息;
根据所述当前的加密模型梯度信息,更新所述相应的数据提供方对应的 模型参数。
在一种可能的实现方式中,所述根据所述至少两个数据提供方的加密模 型梯度信息,更新所述至少两个数据提供方对应的模型参数,包括:
从所述至少两个数据提供方的加密模型梯度信息中提取与每一个数据 提供方关联的加密模型梯度信息;
根据所述每一个数据提供方关联的加密模型梯度信息,获取每一个数据 提供方对应的加密梯度;
利用所述加密梯度,更新所述每一个数据提供方对应的模型参数。
根据本公开的另一方面,提供了一种垂直数据的联邦学习方法,应用于 数据提供方,所述方法包括:
生成数据提供方的样本数据标识符的布隆过滤器,并将所述布隆过滤器 发送至协调服务器,以使所述协调服务器匹配至少两个数据提供方的样本数 据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息 和共有数据指示信息;并利用公钥加密所述共有数据指示信息,得到加密指 示信息;
接收所述协调服务器发送的样本对齐信息、公钥、加密指示信息以及模 型参数;
根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型 参数,获取加密模型梯度信息;
发送所述加密模型梯度信息至所述协调服务器,以使所述协调 服务器根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少 两个数据提供方对应的模型参数,若更新的模型参数满足预设条件,将所述 更新的模型参数作为目标模型参数;
接收所述目标模型参数;
根据所述目标模型参数预测数据标签。
在一种可能的实现方式中,所述方法还包括:
接收更新的模型参数;
根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述更 新的模型参数,获取当前的加密模型梯度信息;
发送所述当前的加密模型梯度信息至所述协调服务器。
在一种可能的实现方式中,所述根据所述样本对齐信息、所述公钥、所 述加密指示信息以及所述模型参数,获取加密模型梯度信息,包括:
根据所述样本对齐信息,确定目标样本集;
在所述目标样本集中,根据所述公钥、所述加密指示信息以及所述模 型参数,获取加密中间结果;
接收其它数据提供方的加密中间结果;
根据所述加密中间结果和所述其它数据提供方的加密中间结 果,获取所述加密模型梯度信息。
在一种可能的实现方式中,所述在目标样本集中,根据所述公钥、所述 加密指示信息以及所述模型参数,获取加密中间结果,包括:
从所述目标样本集中确定特征矩阵以及标签矩阵;
根据所述特征矩阵、所述加密指示信息以及所述模型参数,获取第一 矩阵结果和第二矩阵结果;
利用所述公钥,加密所述第一矩阵结果和第二矩阵结果,获取加密第一 矩阵结果和加密第二矩阵结果;
与其它数据提供方交换所述加密第二矩阵结果;
根据所述加密第一矩阵结果、所述交换得到的加密第二矩阵结果、所述 加密指示信息以及所述标签矩阵,获取所述加密中间结果。
在一种可能的实现方式中,所述根据所述样本对齐信息,确定目标 样本集,包括:
根据所述样本对齐信息,确定样本集;
选择样本集中的部分样本数据作为所述目标样本集。
根据本公开的另一方面,提供了一种垂直数据的联邦学习装置,应用于 协调服务器,所述装置包括:
第一接收模块,用于接收至少两个数据提供方的样本数据标识符的布隆 过滤器;
匹配模块,用于匹配所述至少两个数据提供方的样本数据标识符的布隆 过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示 信息;
加密模块,用于利用公钥加密所述共有数据指示信息,得到加密指示信 息;
第一发送模块,用于发送所述样本对齐信息、所述公钥、所述加密指示 信息以及模型参数至相应的数据提供方;
第一接收模块,还用于接收所述至少两个数据提供方发送的,根据所述 样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的 加密模型梯度信息;
模型参数更新模块,用于根据所述至少两个数据提供方的加密模型梯度 信息,更新所述至少两个数据提供方对应的模型参数;
目标模型参数确定模块,用于若更新的模型参数满足预设条件,将所述 更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提 供方,以使所述相应的数据提供方根据所述目标模型参数预测数据标签。
根据本公开的另一方面,提供了一种垂直数据的联邦学习装置,应用于 数据提供方,所述装置包括:
布隆过滤器生成模块,用于生成数据提供方的样本数据标识符的布隆过 滤器,并将所述布隆过滤器发送至协调服务器,以使所述协调服务器匹配至 少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据 提供方对应的样本对齐信息和共有数据指示信息;并利用公钥加密所述共有 数据指示信息,得到加密指示信息;
第二接收模块,用于接收所述协调服务器发送的样本对齐信息、公钥、 加密指示信息以及模型参数;
加密模型梯度信息获取模块,用于根据所述样本对齐信息、所述公 钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息;
第二发送模块,用于发送所述加密模型梯度信息至所述协调服 务器,以使所述协调服务器根据所述至少两个数据提供方的加密模型梯 度信息,更新所述至少两个数据提供方对应的模型参数,若更新的模型参数 满足预设条件,将所述更新的模型参数作为目标模型参数;
第二接收模块,还用于接收所述目标模型参数;
标签预测模块,用于根据所述目标模型参数预测数据标签。
根据本公开的另一方面,提供了一种垂直数据的联邦学习装置,包括: 处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为 执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其 上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现 上述方法。
通过匹配样本数据标识符的布隆过滤器,获取所述样本对齐信息和共有 数据指示信息,以及通过联邦学习进行所述模型参数的更新,根据本公开实 施例的垂直数据的联邦学习方法,可以在数据提供方之间不知道共有样本数 据的情况下,实现样本对齐,从而保证数据提供方样本数据的隐私。并且能 够在保证数据提供方样本数据隐私的情况下,使得数据提供方的模型参数的 更新可以利用所有数据提供方的样本数据,提高了数据提供方的共同模型效 益,能够使得数据提供方根据所述目标模型参数预测数据标签的效果与非隐私状态下预测数据标签的效果相同。
另外,通过样本数据标识符的布隆过滤器实现样本对齐,相比于其他单 方向哈希或者加密方式,布隆过滤器能够确保在多个标识符不完全一样的时 候可以模糊匹配,提高了应用场景的适用性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方 面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了 本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的垂直数据的联邦学习方法的场景示意图。
图2示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。
图3示出根据本公开一实施例的步骤S16的流程图。
图4示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。
图5示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。
图6示出根据本公开一实施例的步骤S23的流程图。
图7示出根据本公开一实施例的步骤S232的流程图。
图8示出根据本公开一实施例的步骤S231的流程图。
图9是根据一示例性实施例示出的一种垂直数据的联邦学习装置800的 框图。
图10是根据一示例性实施例示出的一种垂直数据的联邦学习装置1900 的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附 图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施 例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为 “示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的 具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以 实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路 未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的垂直数据的联邦学习方法的场景示意图。 所述联邦学习方法的应用场景可以包括一个协调服务器和至少两个数据提 供方,本公开对所述协调服务器、所述至少两个数据提供方之间的通信方式 不作限定。以两个数据提供方为例,如图1所示,所述联邦学习方法的应用场 景可以包括数据提供方A、数据提供方B、以及协调服务器C。所述数据提供 方A和数据提供方B分别具有模型参数,所述模型参数可以用于预测新数据 的标签。所述模型参数可以通过所述联邦学习方法进行更新,在所述联邦学习过程中,数据提供方A和数据提供方B的样本数据集只在本地,不会进行样 本数据集中任何样本数据的传送,使得样本数据集得到隐私保护。数据提供 方A和数据提供方B可以交换加密中间结果,并可以传送加密模型梯度信息 至所述C,C可以更新数据提供方A和数据提供方B分别对应的模型参数,若 更新的模型参数满足预设条件,可以将所述更新的模型参数作为目标模型参 数,发送所述目标模型参数至相应的数据提供方。所述相应的数据提供方可 以根据所述目标模型参数更新模型参数,并可以根据所述目标模型参数预测 数据标签。
其中,所述样本数据集中的每一个样本数据可以包括样本数据标识符、 样本数据特征(数据特征)和样本数据标签(数据标签)。所述样本数据集可以 包括用户样本数据或企业样本数据等,本公开对此不作限定。所述样本数据 标识符可以用于标识所述每一个样本数据(所述样本数据集中的每一行样本 数据)。所述样本数据特征可以是指所述样本数据标识符的行为信息,所述样 本数据标签可以表征所述样本数据标识符的一个或多个行为是或否的信息。 所述样本数据标签的取值范围可以包括-1和1;或者,所述样本数据标签的取 值范围可以包括0和1。可以预先设置1代表是,0或-1代表否,本公开对此不 作限定。
图2示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。所 述联邦学习方法可以应用于协调服务器。如图2所示,所述方法可以包括:
步骤S11,接收至少两个数据提供方的样本数据标识符的布隆过滤器。
所述布隆过滤器可以是数据提供方生成的,所述数据提供方可以将样本 数据集中的样本数据标识符放入布隆过滤器,并可以对所述布隆过滤器中的 字符进行多次哈希运算,从而计算出每一个样本数据标识符对应的布隆过滤 器。其中,所述布隆过滤器可以是一个向量。所述数据提供方可以将所述布 隆过滤器发送至所述协调服务器。
所述协调服务器可以接收至少两个数据提供方的样本数据标识符的布 隆过滤器。
步骤S12,匹配所述至少两个数据提供方的样本数据标识符的布隆过滤 器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息。
所述样本对齐信息可以为指示数据提供方的样本数据排序方式的信息, 所述样本对其信息可以是向量的形式,例如,可以是样本对其向量。所述至 少两个数据提供方对应的样本对齐向量的长度可以相同。所述样本对齐向量 的长度可以与所述至少两个数据提供方的样本数据标识符的布隆过滤器的 数量中的较小者相同。
所述共有数据指示信息可以是指示各数据提供方之间样本数据标识符 是否共有的信息,所述共有数据指示信息可以是向量的形式,例如,可以是 共有数据指示向量。所述共有数据指示向量可以是由0和1组成的向量,所述 共有数据指示向量的长度可以与所述至少两个数据提供方的样本对齐向量 的长度相同,例如,数据提供方A和数据提供方B的布隆过滤器的数量均为n, 所述共有数据指示向量的长度可以为n,所述共有数据指示向量可以看作是 1×n的矩阵。其中,所述样本对齐信息包括至少两个,即每一个数据提供方 对应一个样本对齐向量。所述共有数据指示信息可以是所述至少两个数据提 供方共同的,即所述共有数据指示信息可以为一个。
需要说明的是,若所述至少两个数据提供方的样本数据的数量不同,即 所述至少两个数据提供方的样本数据标识符的布隆过滤器的数量不同,所述 协调服务器可以确定所述至少两个数据提供方的样本数据中不共有的样本 数据,可以随机删除所述不共有的样本数据中的一个或多个,即可以随机删 除所述不共有的样本数据的布隆过滤器中的一个或多个,能够保证所述至少 两个数据提供方的删除后的样本数据标识符的布隆过滤器的数量相同即可, 从而能够使得获取的所述至少两个数据提供方对应的样本对齐向量的长度 可以相同。
所述协调服务器可以匹配所述至少两个数据提供方的样本数据标识符 的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数 据指示信息。例如,所述协调服务器可以利用现有相似度算法,比如,可以 利用戴斯相似性系数DSC(Dicesimilarity coefficient)匹配不同数据提供方之 间的布隆过滤器,协调服务器可以根据匹配结果,获取各数据提供方的样本 标识符的排序方式(即样本数据排序方式),根据该排序方式,可以获取各数 据提供方的样本对齐信息。所述数据提供方可以根据样本对齐信息,重新排 序所述数据提供方的样本数据。各数据提供方均按照各数据提供方对应的样本对齐信息重新排序样本数据,则可以认为各数据提供方的样本数据实现对 齐。其中,所述
Figure BDA0002321129920000101
所述X可以是所述数据提供方的布隆过 滤器,所述Y可以是其它数据提供方的布隆过滤器。
步骤S13,利用公钥加密所述共有数据指示信息,得到加密指示信息。
所述公钥可以是所述协调服务器根据现有加密算法生成的,例如,所述 协调服务器可以根据Paillier提出的同态加密算法生成一对密钥,所述一对密 钥中可以包括公钥和私钥。所述协调服务器可以利用所述公钥加密所述共有 数据指示信息,得到加密指示信息,可以利用所述私钥进行相应的解密。
步骤S14,发送所述样本对齐信息、所述公钥、所述加密指示信息以及所 述模型参数至相应的数据提供方。
每一个数据提供方对应一个模型参数,所述模型参数可以是一个d×1 矩阵,所述d可以是各数据提供方的样本数据特征的数量之和。在本公开所 述联邦学习方法的开始(或者在所述协调服务器第一次向数据提供方发送模 型参数前),所述协调服务器可以分别为每一个数据提供方设置对应的模型 参数的初始值,例如,所述协调服务器可以随机生成所述模型参数的初始值, 比如可以设置模型参数的初始值为0,即每一个数据提供方对应的模型参数 的初始值可以是全为0的d×1矩阵。需要说明的是,所述协调服务器为每一个数据提供方设置的模型参数的初始值可以相同,也可以不同,本公开对此 不作限定。
所述协调服务器可以发送所述样本对齐信息、所述公钥、所述加密指示 信息以及所述模型参数至相应的数据提供方。
其中,所述模型参数可以包括各数据提供方的模型参数。所述 样本对齐信息可以是所述数据提供方对应的样本对齐信息。
步骤S15,接收所述至少两个数据提供方发送的,根据所述样本对齐信 息、所述公钥、所述加密指示信息以及所述模型参数获取的加密模型梯度 信息。
所述至少两个数据提供方可以根据所述样本对齐信息、所述公钥、所述 加密指示信息以及所述模型参数,获取加密模型梯度信息。其中,所 述加密模型梯度信息的具体计算过程可以在下述数据提供方的联 邦学习中具体描述。所述至少两个数据提供方可以分别发送模型梯度信息 至所述协调服务器。
所述数据提供方的加密模型梯度信息可以是表征数据提供方的模型参 数变化的信息。例如,所述数据提供方的加密模型梯度信息可以是一个d1×1 矩阵,所述矩阵的行数d1可以与所述数据提供方的样本数据特征的数量相同。 例如,数据提供方A的样本数据可以为[样本数据标识符,X1、X2…Xd1,样本 数据标签],其中,X1、X2…Xd1为样本数据特征,所述样本数据特征共有d1 个。所述数据提供方A的加密模型梯度信息可以是至少两个d1×1矩阵。
其中,所述每一个数据提供方(或者说每一个数据提供方发送)的加密模 型梯度信息可以包括至少两个加密模型梯度结果,所述加密模型梯度结果的 数量可以是数据提供方的数量。所述至少两个加密模型梯度结果可以分为两 类:第一加密模型梯度结果和第二加密模型梯度结果,所述第一加密模型梯 度结果可以表征利用所述数据提供方的样本数据标签参与确定的加密模型 梯度结果;所述第二加密模型梯度结果可以表征利用所述数据提供方之外的 其它数据提供方的样本数据标签参与确定的加密模型梯度结果。比如,数据 提供方A的第一加密模型梯度结果可以是利用数据提供方A的样本数据标签 参与确定的加密模型梯度结果。数据提供方A的第二加密模型梯度结果可以 是利用数据提供方A之外的其它数据提供方的样本数据标签参与确定的加密 模型梯度结果。
所述协调服务器可以接收所述至少两个数据提供方发送的,根据所述样 本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的加密 模型梯度信息。
步骤S16,根据所述至少两个数据提供方的模型梯度信息,更新所述至 少两个数据提供方对应的模型参数。
所述协调服务器可以根据所述至少两个数据提供方的加密模型梯度信 息,更新所述至少两个数据提供方对应的模型参数。例如,所述协调服务器 可以从所述加密模型梯度信息中提取出与每一个数据提供方关联的加密模 型梯度信息,所述与每一个数据提供方关联的加密模型梯度信息可以是指利 用所述数据提供方的样本数据标签确定的加密模型梯度信息,比如,对于数 据提供方A,与数据提供方A关联的加密模型梯度信息可以是所述至少两个 数据提供方的加密模型梯度信息中利用所述数据提供方A的样本数据标签确定的加密模型梯度信息。
在一个示例中,所述协调服务器可以根据所述至少两个数据提供方的加 密模型梯度信息,确定所述至少两个数据提供方对应的梯度,可以根据所述 至少两个数据提供方对应的梯度,更新所述至少两个数据提供方对应的模型 参数。举例来说,数据提供方包括数据提供方A和数据提供方B,若所述协调 服务器从所述加密模型梯度信息中提取出与数据提供方A关联的加密模型梯 度信息包括d1×1的矩阵以及d2×1的矩阵,所述d1×1的矩阵可以是数据 提供方A的第一加密模型梯度结果,所述d2×1的矩阵可以是数据提供方B的第二加密模型梯度结果。所述协调服务器可以连接所述d1×1的矩阵和 d2×1的矩阵,获取加密梯度,比如
Figure BDA0002321129920000131
需要说明的是,加密模型梯度信 息都是加密的,所述协调服务器在进行所述连接时,也是在加密状态下进行 的,因此得到的是加密梯度,所述协调服务器可以对
Figure BDA0002321129920000132
进行解密,得到数 据提供方A的梯度。所述协调服务器可以根据数据提供方A的梯度,更新数据 提供方A对应的模型参数。本公开对根据梯度更新模型参数的方式不作限定。更新数据提供方B对应的模型参数与更新数据提供方A对应的模型参数的方 式相同。
步骤S17,若更新的模型参数满足预设条件,将所述更新的模型参数作 为目标模型参数,发送所述目标模型参数至相应的数据提供方,以使所述相 应的数据提供方根据所述目标模型参数预测数据标签。
所述预设条件可以包括更新的模型参数与上次的模型参数之差小于阈 值,所述阈值可以根据实际需求设置。
所述协调服务器可以对每一个数据提供方的更新的模型参数进行判断, 确定更新的模型参数是否满足预设条件,若更新的模型参数满足预设条件 (即满足收敛状态),可以将所述更新的模型参数作为目标模型参数,发送所 述目标模型参数至相应的数据提供方,所述相应的数据提供方可以将所述目 标模型参数作为所述相应的数据提供方的模型参数,不再进行模型参数的更 新。所述相应的数据提供方可以根据所述目标模型参数预测数据标签。例如 发送所述目标模型参数至数据提供方A数据提供方A可以根据接收到的目标 模型参数,预测新数据的数据标签。具体预测数据标签的过程可以参见下述 相关内容,在此不再赘述。
通过匹配样本数据标识符的布隆过滤器,获取所述样本对齐信息和共有 数据指示信息,以及通过联邦学习进行所述模型参数的更新,根据本公开实 施例的垂直数据的联邦学习方法,可以在数据提供方之间不知道共有样本数 据的情况下,实现样本对齐,从而保证数据提供方样本数据的隐私。并且能 够在保证数据提供方样本数据隐私的情况下,使得数据提供方的模型参数的 更新可以利用所有数据提供方的样本数据,提高了数据提供方的共同模型效 益,能够使得数据提供方根据所述目标模型参数预测数据标签的效果与非隐 私状态下预测数据标签的效果相同。
另外,通过样本数据标识符的布隆过滤器实现样本对齐,相比于其他单 方向哈希或者加密方式,布隆过滤器能够确保在多个标识符不完全一样的时 候可以模糊匹配,提高了应用场景的适用性。
如图2所示,在一种可能的实现方式中,所述方法还可以包括:
步骤S18,若更新的模型参数不满足预设条件,将所述更新的模型参数 发送至相应的数据提供方,以使所述相应的数据提供方根据所述样本对齐信 息、所述公钥、所述加密指示向量以及所述更新的模型参数,获取当前的模 型梯度信息;
步骤S19,接收所述相应的数据提供方的当前的加密模型梯度信息;
步骤S20,根据所述当前的加密模型梯度信息,更新所述相应的数据提 供方对应的模型参数。
所述协调服务器可以判断更新的模型参数是否满足预设条件,若更新的 模型参数不满足预设条件(即不满足收敛状态),可以将所述更新的模型参数 发送至相应的数据提供方。并可以接收所述相应的数据提供方的当前的加密 模型梯度信息,所述协调服务器可以根据所述当前的加密模型梯度信息,更 新所述相应的数据提供方对应的模型参数,进入步骤“判断更新的模型参数 是否满足预设条件”,若更新的模型参数满足预设条件,进入步骤S17;若更 新的模型参数不满足预设条件,进入步骤S18,形成再一次的迭代。
图3示出根据本公开一实施例的步骤S16的流程图。如图3所示,在一种 可能的实现方式中,所述步骤S16可以包括:
步骤S161,从所述至少两个数据提供方的加密模型梯度信息中提取与 每一个数据提供方关联的加密模型梯度信息。
所述与每一个数据提供方关联的加密模型梯度信息可以是指利用所述 数据提供方的样本数据标签确定的加密模型梯度信息;或者,所述与每一个 数据提供方关联的加密模型梯度信息可以是指利用所述数据提供方的加密 中间结果(具体参见下述步骤S232)确定的加密模型梯度信息。例如,若数据 提供方包括数据提供方A和数据提供方B,若数据提供方A的加密模型梯 度信息包括XT ASdA、XT ASdB,数据提供方B的加密模型梯度信息包括XT BSdB、XT BSdA。其中,XAS为数据提供方A的特征矩阵,XBS为数据提 供方B的特征矩阵。对于数据提供方A来说,dA可以为所述加密中间结果, dB可以为其它数据提供方(数据提供方B)的加密中间结果;所述 XT ASdA可以为第一加密模型梯度结果,所述XT ASdB可以为第二加密 模型梯度结果。此时,与数据提供方A关联的加密模型梯度信息可以 包括:XT ASdA以及XT BSdA;与数据提供方B关联的加密模型梯度信息可 以包括:XT ASdB以及XT BSdB
步骤S162,根据所述每一个数据提供方关联的加密模型梯度信息,获取 每一个数据提供方对应的加密梯度。
所述协调服务器可以根据所述每一个数据提供方关联的加密模型梯度 信息,获取每一个数据提供方对应的加密梯度。举例来说,对于数据提供方 A,所述协调服务器可以连接XT ASdA以及XT BSdA,若XT ASdA为d1×1的矩 阵、XT BSdA为d2×1的矩阵,获取的数据提供方A对应的加密梯度可以是
Figure BDA0002321129920000161
的矩阵,即所述连接是指将两个矩阵放到一起,得到(d1+d2)×1的矩阵。
步骤S163,利用所述加密梯度,更新所述每一个数据提供方对应的模型 参数。
所述协调服务器可以利用所述加密梯度,更新所述每一个数据提供方对 应的模型参数。
在一个示例中,所述协调服务器可以利用下述公式(1),更新所述每一个 数据提供方对应的模型参数。
θ←θ-η(ΔlS(θ)) (1)
其中,所述ΔlS(θ)为加密梯度,所述η为模型参数更新步数,可以为小于 1的数,例如0.01。
图4示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。所 述垂直数据的联邦学习方法可以应用于数据提供方。如图4所示,所述方法 可以包括:
步骤S21,生成数据提供方的样本数据标识符的布隆过滤器,并将所述 布隆过滤器发送至协调服务器,以使所述协调服务器匹配至少两个数据提供 方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样 本对齐信息和共有数据指示信息;并利用公钥加密所述共有数据指示信息, 得到加密指示信息。
所述协调服务器可以生成数据提供方的样本数据标识符的布隆过滤器, 并可以将所述布隆过滤器发送至协调服务器。具体生成所述布隆过滤器可以 参见上述步骤S11中的相关内容,在此不再赘述。
步骤S22,接收所述协调服务器发送的样本对齐信息、公钥、加密指示信 息以及模型参数;
步骤S23,根据所述样本对齐信息、所述公钥、所述加密指示信息以及 所述模型参数,获取加密模型梯度信息。
每一个数据提供方接收的模型参数可以包括各数据提供方的 模型参数。
所述协调服务器可以接收所述协调服务器发送的样本对齐信息、公 钥、加密指示信息以及模型参数,并可以根据所述样本对齐信息、所述公钥、 所述加密指示信息以及所述模型参数,获取模型梯度信息。例如,所 述协调服务器可以根据所述样本对其信息,重新排序样本数据集中 的样本数据,使得各数据提供方的样本数据能够对齐。在样本数据 对齐的情况下,协调服务器可以选择对齐后的样本数据集中的样本 数据特征以及样本数据标签。所述协调服务器可以根据所述模型参 数、样本数据特征、样本数据标签、所述公钥和所述加密指示信息, 获取加密模型梯度信息。本公开对具体的计算过程不作限定,只要所述加密 模型梯度信息可以表征模型逻辑损失的趋势即可。
步骤S24,发送所述模型梯度信息至所述协调服务器,以使所述 协调服务器根据所述至少两个数据提供方的加密模型梯度信息,更新所述 至少两个数据提供方对应的模型参数,若更新的模型参数满足预设条件,将 所述更新的模型参数作为目标模型参数;
步骤S25,接收所述目标模型参数;
步骤S26,根据所述目标模型参数预测数据标签。
所述数据提供方可以发送所述加密模型梯度信息至所述协调服务器,并 可以接收所述协调服务器发送的所述目标模型参数。所述数据提供方可以根 据所述目标模型参数预测数据标签。
在一个示例中,若数据提供方A接收到目标模型参数θA,在数据提供方 A产生新数据的情况下,所述新数据中的数据特征xi可以包括数据提供方B的 数据特征,即xi∈Rd1+d2,其中,所述新数据与数据提供方A的样本数据可 以形成新的样本数据集,xi可以表示新数据在数据提供方A的所述新的样本 数据集中排在第i行。所述数据提供方A可以用θA对所述新数据进行预测,具 体地,可以计算
Figure BDA0002321129920000181
根据所述pi和预测阈值,预测所述新数据的数 据标签。例如,可以设置所述预测阈值为0.5,若pi<0.5,可以预测所述新 数据的数据标签yi=-1;若pi≥0.5,可以预测所述新数据的数据标签yi= 1。此处仅是示例,不对本申请作任何限定。其中,所述yi与xi对应,即yi是 所述新的样本数据集中第i行的数据特征xi对应的数据标签。由此可见,数据 提供方根据本公开的目标模型参数预测数据标签,可以利用其它数据提供方 的数据特征,使得预测新数据的数据标签更准确。
需要说明的是,若数据提供方A接收所述目标模型参数,所述数据提供 方A可以停止更新所述数据提供方A的模型参数。但所述数据提供方A可以使 用所述目标模型参数继续参与其它数据提供方的加密模型梯度信息的计算 中。在此种情况下,所述协调服务器还需要发送其它数据提供方的模型参数 至数据提供方A(即所述目标模型参数相应的数据提供方)。
根据本公开实施例的垂直数据的联邦学习方法,数据提供方可以在不知 道与其它数据提供方共有样本数据的情况下,实现样本对齐,从而保证数据 提供方样本数据的隐私。并且能够在保证数据提供方样本数据隐私的情况下, 使得数据提供方的模型参数的更新可以利用所有数据提供方的样本数据,提 高了数据提供方的共同模型效益,能够使得数据提供方根据所述目标模型参 数预测数据标签的效果与非隐私状态下预测数据标签的效果相同。
通过将样本数据标识符的布隆过滤器发送至协调服务器,使得所述协调 服务器在实现样本对齐时,相比于其他单方向哈希或者加密方式,能够确保 在多个标识符不完全一样的时候可以模糊匹配,提高了应用场景的适用性。
图5示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。如 图5所示,所述方法还可以包括:
步骤S27,接收更新的模型参数;
步骤S28,根据所述样本对齐信息、所述公钥、所述加密指示信息以及 所述更新的模型参数,获取当前的加密模型梯度信息;
步骤S29,发送所述当前的加密模型梯度信息至所述协调服务器。
所述更新的模型参数可以包括一个或多个数据提供方的更新的模型参 数。其中,所述一个或多个数据提供方可以为不满足收敛状态的数据提供方。
所述数据提供方可以接收更新的模型参数,并可以根据所述样本对齐信 息、所述公钥、所述加密指示信息以及所述更新的模型参数,获取当前的加 密模型梯度信息。所述数据提供方可以发送所述当前的加密模型梯度信息至 所述协调服务器,以使所述协调服务器继续更新所述数据提供方对应的模型 参数。其中,步骤S28的具体过程可以参见步骤S23。
需要说明的是,若不满足收敛状态的数据提供方为一个时,所述协调服 务器可以发送满足收敛状态的数据提供方的目标模型参数至所述数据提供 方,以使满足收敛状态的数据提供方参与不满足收敛状态的数据提供方的所 述当前的加密模型梯度信息的获取过程中。
图6示出根据本公开一实施例的步骤S23的流程图。如图6所示,在一种 可能的实现方式中,所述步骤S23,可以包括:
步骤S231,根据所述样本对齐信息,确定目标样本集。
数据提供方可以根据所述样本对齐信息,确定目标样本集。例 如,数据提供方可以根据所述样本对齐信息,重新排序所述数据提 供方的原样本集中的样本数据,可以将重新排序后的原样本集确定 为所述目标样本集。
步骤S232,在所述目标样本集中,根据所述公钥、所述加密指示信息 以及所述模型参数,获取加密中间结果。
所述数据提供方可以在所述目标样本集中,根据所述公钥、所述加 密指示信息以及所述模型参数,获取加密中间结果。例如,所述数据 提供方可以从所述目标样本集中提取出特征矩阵以及标签矩阵,可以利用 所述特征矩阵、标签矩阵、所述公钥、所述加密指示信息以及所述模型参 数,获取所述加密中间结果。
在一种可能的实现方式中,如图7所示,所述步骤S232可以包 括:
步骤S2321,从所述目标样本集中确定特征矩阵以及标签矩阵。
所述数据提供方可以从所述目标样本集中确定特征矩阵以及 标签矩阵。例如,数据提供方A的目标样本集S中有n个样本数据, 每一个样本数据包括d1个样本数据特征以及一个样本数据标签。其 中,所述d1可以是大于等于1的整数。数据提供方A可以从目标样本集中提取出样本数据特征,形成所述特征矩阵XAS;可以从目标样本 集中提取出样本数据标签,形成标签矩阵yAS。所述XAS可以为n×d1 的矩阵,所述yAS可以为n×1的矩阵。需要说明的是,在提取所述特 征矩阵以及标签矩阵时,要保持特征矩阵以及标签矩阵对应的样本 数据的排序与所述目标样本集中样本数据的排序一致。
步骤S2322,根据所述特征矩阵、所述加密指示信息以及所述模型 参数,获取第一矩阵结果和第二矩阵结果。
所述模型参数可以包括所有数据提供方的模型参数,例如,若 数据提供方包括数据提供方A和数据提供方B,所述数据提供方A和 数据提供方B分别具有θA和θB,所述θA为所述数据提供方A的模型参 数,所述θB为所述数据提供方B的模型参数。θA和θB均可以是 (d1+d2)×1的矩阵,其中,d1为数据提供方A的特征矩阵XAS中每一 行的特征的数量;d2为数据提供方B的特征矩阵XBS中每一行的特征 的数量。所述θA可以表示为
Figure BDA0002321129920000211
其中,所述θAA为d1×1的矩阵,所 述θAB为d2×1的矩阵;所述θB可以表示为
Figure BDA0002321129920000212
其中,所述θBA为d1×1 的矩阵,所述θBB为d2×1的矩阵。即θA和θB都可以划分为两个矩阵: d1×1的矩阵以及d2×1的矩阵。也即每一个数据提供方的模型参数 都可以划分为至少两个矩阵,划分后的各矩阵的行数与各数据提供 方的样本数据特征的数量一致。需要说明的是,本公开中对于矩阵M1和矩阵M2的运算M1M2均表示矩阵M1和矩阵M2相乘,另有说明的 除外。
所述数据提供方A可以利用下述公式(2),获取所述第一矩阵结 果。
Figure BDA0002321129920000221
其中,
Figure BDA0002321129920000222
Ip表示
Figure BDA0002321129920000223
与Ip的点积。例如,若
Figure BDA0002321129920000224
Figure BDA0002321129920000225
Ip
Figure BDA0002321129920000226
Figure BDA0002321129920000227
所述数据提供方A可以利用下述公式(3),获取所述第二矩阵结 果。
Figure BDA0002321129920000228
基于同样的方式,数据提供方B可以获取相应的第一矩阵结果为
Figure BDA0002321129920000229
以及可以获取相应的第二矩阵结果为
Figure BDA00023211299200002210
步骤S2323,利用所述公钥,加密所述第一矩阵结果和第二矩阵结果, 获取加密第一矩阵结果和加密第二矩阵结果。
所述数据提供方可以根据所述公钥,加密所述第一矩阵结果和第二矩阵 结果,获取加密第一矩阵结果和加密第二矩阵结果。例如,所述数据提供方 可以根据所述公钥,分别向所述第一矩阵结果和第二矩阵结果中加入噪音, 获取加密第一矩阵结果和加密第二矩阵结果。本公开对所述加密方式不作限 定。
步骤S2324,与其它数据提供方交换所述加密第二矩阵结果。
所述其它数据提供方获取第一矩阵结果、加密第二矩阵结果的方式与上 述相同。在此不再赘述。即每一个数据提供方均会获取加密第一矩阵结果以 及加密第二矩阵结果,数据提供方之间可以交换各自的加密第二矩阵结果, 在所述交换后,每一个数据提供方均可以获取到其它数据提供方的加密第二 矩阵结果。
步骤S2325,根据所述加密第一矩阵结果、所述交换得到的加密第二矩 阵结果、所述加密指示信息以及所述标签矩阵,获取所述加密中间结果。
所述数据提供方可以根据所述加密第一矩阵结果、所述交换的加密第二 矩阵结果以及所述标签矩阵,获取所述加密中间结果。例如,所述数据提供 方可以根据所述加密指示信息,加密所述标签矩阵,获取加密标签矩阵。所 述数据提供方可以根据所述加密第一矩阵结果、所述交换得到的加密第二矩 阵结果以及所述加密标签矩阵,获取所述加密中间结果。
在一个示例中,在数据提供方包括数据提供方A和数据提供方B的情况 下。所述数据提供方A可以利用下述公式(4),获取数据提供方A对应的加密 矩阵和
Figure BDA0002321129920000231
Figure BDA0002321129920000232
其中,所述
Figure BDA0002321129920000233
为数据提供方A的加密第一矩阵结果;所 述
Figure BDA0002321129920000234
为数据提供方A交换得到的数据提供方B的加密第二矩 阵结果。
数据提供方A可以利用下述公式(5),获取数据提供方A的加密中间结果 dA
Figure BDA0002321129920000235
其中,所述yAS为数据提供方A的标签矩阵,所述
Figure BDA0002321129920000236
为数据提供方A 的加密的标签矩阵。
步骤S233,接收其它数据提供方的加密中间结果。
所述其它数据提供方的加密中间结果的获取方式可以与上述 步骤S232获取加密中间结果的方式相同,在此不再赘述。
步骤S234,根据所述加密中间结果和所述其它数据提供方的加密中间结 果,获取所述加密模型梯度信息。
所述数据提供方可以根据所述加密中间结果和所述其它数据提供方的 加密中间结果,获取所述加密模型梯度信息。例如,所述数据提供方可以利 用特征矩阵的转置矩阵分别乘以加密中间结果和所述其它数据提供方的加 密中间结果,获取所述加密模型梯度信息。
在一个示例中,若数据提供方包括数据提供方A和数据提供方B,数据 提供方A的特征矩阵为XAS。数据提供方A的加密中间结果dA,数据提供方 A还可以接收数据提供方B发送的所述数据提供方B的加密中间结果dB, 数据提供方A可以利用所述XAS的转置矩阵XT AS分别与所述dA、dB做乘法, 得到加密模型梯度信息可以包括XT ASdA、XT ASdB。同理,数据提供方B获 取的加密模型梯度信息可以包括XT BSdB、XT BSdA
数据提供方之间交换的加密中间结果是利用各数据提供方的样本数据 标签获取的,使得数据提供方的加密模型梯度信息包括了各数据提供方的样 本数据标签,打破了单个数据提供方的样本数据的稀缺性,加强了模型学习 能力。而且所述加密模型梯度信息的计算都在本地,保证隐私的同时,提高 了数据提供方的模型效益。
图8示出根据本公开一实施例的步骤S231的流程图。如图8所示,在一种 可能的实现方式中,在一种可能的实现方式中,所述步骤S231可以包括:
步骤S2311,根据所述样本对齐信息,确定样本集;
步骤S2312,选择样本集中的部分样本数据作为所述目标样本 集。
所述数据提供方可以根据所述样本对齐信息,确定样本集,并可以选择 样本集中的部分样本数据作为所述目标样本集。使得数据提供方可以在较小 的目标样本集中,进行模型梯度信息的计算,提高效率。其中,所述数据提 供方每次选择的所述目标样本集可以不同。
图9示出根据本公开一实施例的垂直数据的联邦学习装置的框图。所述 加密装置可以应用于发送端,所述加密装置可以包括:
第一获取模块11,用于获取待加密数据;
第二获取模块12,用于从发送端PCRAM中获取密钥;
加密模块13,用于利用所述密钥对所述待加密数据进行加密。
通过xx。
图10示出根据本公开一实施例的垂直数据的联邦学习装置的框图。
图9是根据一示例性实施例示出的一种垂直数据的联邦学习装置800的 框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设 备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置800可以包括以下一个或多个组件:处理组件802,存储器 804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接 口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数 据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或 多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处 理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交 互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理 组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些 数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系 人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易 失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存 储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存 储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电 源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相 关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的 屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。 如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入 信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上 的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测 与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组 件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍 摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数 据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦 距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括 一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语 音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以 被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频 组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接 口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、 音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的 状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件 的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还 可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存 在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814 可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的 存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用 于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速 度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的 通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它 们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外 部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述 通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC 模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB) 技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻 辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器 或其他电子元件实现,用于执行上述方法。
图10是根据一示例性实施例示出的一种垂直数据的联邦学习装置1900 的框图。例如,装置1900可以被提供为一服务器。参照图10,装置1900包括 处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表 的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。 存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一 组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源 管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一 个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操 作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM, FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如 包括计算机程序指令的存储器804,上述计算机程序指令可由装置800的处理 器820执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包 括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计 算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指 令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设 备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的 任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包 括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、 便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软 盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及 上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时 信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输 媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电 信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到 各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线 网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、 无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计 算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令, 并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可 读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数 据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述 编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过 程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可 以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立 的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在 远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以 通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算 机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特 网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个 性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可 编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现 本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的 流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的 每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指 令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可 编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计 算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框 图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读 程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据 处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介 质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规 定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、 或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行 一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编 程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或 多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和 计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、 程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行 指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图 中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行, 它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可 以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专 用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性 的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和 精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显 而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际 应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理 解本文披露的各实施例。

Claims (12)

1.一种垂直数据的联邦学习方法,其特征在于,应用于协调服务器,所述方法包括:
接收至少两个数据提供方的样本数据标识符的布隆过滤器;
匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;
利用公钥加密所述共有数据指示信息,得到加密指示信息;
发送所述样本对齐信息、所述公钥、所述加密指示信息以及模型参数至相应的数据提供方;
接收所述至少两个数据提供方发送的,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的加密模型梯度信息;
根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数;
若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提供方,以使所述相应的数据提供方根据所述目标模型参数预测数据标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若更新的模型参数不满足预设条件,将所述更新的模型参数发送至相应的数据提供方,以使所述相应的数据提供方根据所述样本对齐信息、所述公钥、所述加密指示向量以及所述更新的模型参数,获取当前的模型梯度信息;
接收所述相应的数据提供方的当前的加密模型梯度信息;
根据所述当前的加密模型梯度信息,更新所述相应的数据提供方对应的模型参数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数,包括:
从所述至少两个数据提供方的加密模型梯度信息中提取与每一个数据提供方关联的加密模型梯度信息;
根据所述每一个数据提供方关联的加密模型梯度信息,获取每一个数据提供方对应的加密梯度;
利用所述加密梯度,更新所述每一个数据提供方对应的模型参数。
4.一种垂直数据的联邦学习方法,其特征在于,应用于数据提供方,所述方法包括:
生成数据提供方的样本数据标识符的布隆过滤器,并将所述布隆过滤器发送至协调服务器,以使所述协调服务器匹配至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;并利用公钥加密所述共有数据指示信息,得到加密指示信息;
接收所述协调服务器发送的样本对齐信息、公钥、加密指示信息以及模型参数;
根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息;
发送所述加密模型梯度信息至所述协调服务器,以使所述协调服务器根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数,若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数;
接收所述目标模型参数;
根据所述目标模型参数预测数据标签。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收更新的模型参数;
根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述更新的模型参数,获取当前的加密模型梯度信息;
发送所述当前的加密模型梯度信息至所述协调服务器。
6.根据权利要求4所述的方法,其特征在于,所述根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息,包括:
根据所述样本对齐信息,确定目标样本集;
在所述目标样本集中,根据所述公钥、所述加密指示信息以及所述模型参数,获取加密中间结果;
接收其它数据提供方的加密中间结果;
根据所述加密中间结果和所述其它数据提供方的加密中间结果,获取所述加密模型梯度信息。
7.根据权利要求6所述的方法,其特征在于,所述在目标样本集中,根据所述公钥、所述加密指示信息以及所述模型参数,获取加密中间结果,包括:
从所述目标样本集中确定特征矩阵以及标签矩阵;
根据所述特征矩阵、所述加密指示信息以及所述模型参数,获取第一矩阵结果和第二矩阵结果;
利用所述公钥,加密所述第一矩阵结果和第二矩阵结果,获取加密第一矩阵结果和加密第二矩阵结果;
与其它数据提供方交换所述加密第二矩阵结果;
根据所述加密第一矩阵结果、所述交换得到的加密第二矩阵结果、所述加密指示信息以及所述标签矩阵,获取所述加密中间结果。
8.根据权利要求6所述的方法,其特征在于,所述根据所述样本对齐信息,确定目标样本集,包括:
根据所述样本对齐信息,确定样本集;
选择样本集中的部分样本数据作为所述目标样本集。
9.一种垂直数据的联邦学习装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令以实现权利要求1至3中任意一项所述的方法。
10.一种垂直数据的联邦学习装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令以实现权利要求4至8中任意一项所述的方法。
11.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至3中任意一项所述的方法。
12.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求4至8中任意一项所述的方法。
CN201911298158.0A 2019-12-17 2019-12-17 垂直数据的联邦学习方法及装置 Active CN111178538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911298158.0A CN111178538B (zh) 2019-12-17 2019-12-17 垂直数据的联邦学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911298158.0A CN111178538B (zh) 2019-12-17 2019-12-17 垂直数据的联邦学习方法及装置

Publications (2)

Publication Number Publication Date
CN111178538A true CN111178538A (zh) 2020-05-19
CN111178538B CN111178538B (zh) 2023-08-15

Family

ID=70652157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911298158.0A Active CN111178538B (zh) 2019-12-17 2019-12-17 垂直数据的联邦学习方法及装置

Country Status (1)

Country Link
CN (1) CN111178538B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510464A (zh) * 2020-06-24 2020-08-07 同盾控股有限公司 一种保护用户隐私的疫情信息共享方法及系统
CN111832050A (zh) * 2020-07-10 2020-10-27 深圳致星科技有限公司 用于联邦学习的基于FPGA芯片实现的Paillier加密方案
CN111915019A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 联邦学习方法、系统、计算机设备和存储介质
CN112102939A (zh) * 2020-07-24 2020-12-18 西安电子科技大学 心脑血管疾病参考信息预测系统、方法、装置及电子设备
CN112150280A (zh) * 2020-10-16 2020-12-29 北京百度网讯科技有限公司 提升匹配效率的联邦学习方法及设备、电子设备和介质
CN112532451A (zh) * 2020-11-30 2021-03-19 安徽工业大学 基于异步通信的分层联邦学习方法、装置、终端设备及存储介质
CN113032838A (zh) * 2021-05-24 2021-06-25 易商征信有限公司 基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质
CN113722738A (zh) * 2021-09-02 2021-11-30 脸萌有限公司 数据保护方法、装置、介质及电子设备
CN113762532A (zh) * 2021-06-28 2021-12-07 京东科技控股股份有限公司 联邦学习模型的训练方法、装置、电子设备和存储介质
WO2022022024A1 (zh) * 2020-07-27 2022-02-03 深圳前海微众银行股份有限公司 训练样本构建方法、装置、设备及计算机可读存储介质
CN114092769A (zh) * 2022-01-20 2022-02-25 国网江西省电力有限公司电力科学研究院 基于联邦学习的变电站多场景巡检分析方法
WO2022142366A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 机器学习模型更新的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034398A (zh) * 2018-08-10 2018-12-18 深圳前海微众银行股份有限公司 基于联邦训练的特征选择方法、装置及存储介质
CN110245510A (zh) * 2019-06-19 2019-09-17 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN110276210A (zh) * 2019-06-12 2019-09-24 深圳前海微众银行股份有限公司 基于联邦学习的模型参数的确定方法及装置
CN110309923A (zh) * 2019-07-03 2019-10-08 深圳前海微众银行股份有限公司 横向联邦学习方法、装置、设备及计算机存储介质
CN110443067A (zh) * 2019-07-30 2019-11-12 卓尔智联(武汉)研究院有限公司 基于隐私保护的联邦建模装置、方法及可读存储介质
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034398A (zh) * 2018-08-10 2018-12-18 深圳前海微众银行股份有限公司 基于联邦训练的特征选择方法、装置及存储介质
CN110276210A (zh) * 2019-06-12 2019-09-24 深圳前海微众银行股份有限公司 基于联邦学习的模型参数的确定方法及装置
CN110245510A (zh) * 2019-06-19 2019-09-17 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN110309923A (zh) * 2019-07-03 2019-10-08 深圳前海微众银行股份有限公司 横向联邦学习方法、装置、设备及计算机存储介质
CN110443067A (zh) * 2019-07-30 2019-11-12 卓尔智联(武汉)研究院有限公司 基于隐私保护的联邦建模装置、方法及可读存储介质
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHI FENG 等: "SecureGBM: Secure Multi-Party Gradient Boosting" *
杨强: "AI与数据隐私保护:联邦学习的破解之道" *
谢丰 等: "联邦学习在泛在电力物联网人工智能领域的应用" *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510464B (zh) * 2020-06-24 2020-10-02 同盾控股有限公司 一种保护用户隐私的疫情信息共享方法及系统
CN111510464A (zh) * 2020-06-24 2020-08-07 同盾控股有限公司 一种保护用户隐私的疫情信息共享方法及系统
CN111832050B (zh) * 2020-07-10 2021-03-26 深圳致星科技有限公司 用于联邦学习的基于FPGA芯片实现的Paillier加密方案
CN111832050A (zh) * 2020-07-10 2020-10-27 深圳致星科技有限公司 用于联邦学习的基于FPGA芯片实现的Paillier加密方案
CN112102939B (zh) * 2020-07-24 2023-08-04 西安电子科技大学 心脑血管疾病参考信息预测系统、方法、装置及电子设备
CN112102939A (zh) * 2020-07-24 2020-12-18 西安电子科技大学 心脑血管疾病参考信息预测系统、方法、装置及电子设备
WO2022022024A1 (zh) * 2020-07-27 2022-02-03 深圳前海微众银行股份有限公司 训练样本构建方法、装置、设备及计算机可读存储介质
WO2021139467A1 (zh) * 2020-08-07 2021-07-15 平安科技(深圳)有限公司 联邦学习方法、系统、计算机设备和存储介质
CN111915019A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 联邦学习方法、系统、计算机设备和存储介质
CN111915019B (zh) * 2020-08-07 2023-06-20 平安科技(深圳)有限公司 联邦学习方法、系统、计算机设备和存储介质
CN112150280A (zh) * 2020-10-16 2020-12-29 北京百度网讯科技有限公司 提升匹配效率的联邦学习方法及设备、电子设备和介质
CN112150280B (zh) * 2020-10-16 2023-06-30 北京百度网讯科技有限公司 提升匹配效率的联邦学习方法及设备、电子设备和介质
CN112532451A (zh) * 2020-11-30 2021-03-19 安徽工业大学 基于异步通信的分层联邦学习方法、装置、终端设备及存储介质
CN112532451B (zh) * 2020-11-30 2022-04-26 安徽工业大学 基于异步通信的分层联邦学习方法、装置、终端设备及存储介质
WO2022142366A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 机器学习模型更新的方法和装置
CN113032838A (zh) * 2021-05-24 2021-06-25 易商征信有限公司 基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质
CN113762532A (zh) * 2021-06-28 2021-12-07 京东科技控股股份有限公司 联邦学习模型的训练方法、装置、电子设备和存储介质
CN113762532B (zh) * 2021-06-28 2024-04-05 京东科技控股股份有限公司 联邦学习模型的训练方法、装置、电子设备和存储介质
CN113722738A (zh) * 2021-09-02 2021-11-30 脸萌有限公司 数据保护方法、装置、介质及电子设备
CN113722738B (zh) * 2021-09-02 2023-08-08 脸萌有限公司 数据保护方法、装置、介质及电子设备
CN114092769B (zh) * 2022-01-20 2022-06-14 国网江西省电力有限公司电力科学研究院 基于联邦学习的变电站多场景巡检分析方法
CN114092769A (zh) * 2022-01-20 2022-02-25 国网江西省电力有限公司电力科学研究院 基于联邦学习的变电站多场景巡检分析方法

Also Published As

Publication number Publication date
CN111178538B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN111178538B (zh) 垂直数据的联邦学习方法及装置
CN109800737B (zh) 面部识别方法及装置、电子设备和存储介质
CN109089133B (zh) 视频处理方法及装置、电子设备和存储介质
CN111524521B (zh) 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
EP3001640A1 (en) Secure information exchange method and wearable device
CN109711546B (zh) 神经网络训练方法及装置、电子设备和存储介质
CN110633700B (zh) 视频处理方法及装置、电子设备和存储介质
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN110781957A (zh) 图像处理方法及装置、电子设备和存储介质
KR101768813B1 (ko) 원격 상담 서비스 제공 시스템 및 시스템 보안방법
CN111898676B (zh) 目标检测方法及装置、电子设备和存储介质
CN110858924A (zh) 视频背景音乐的生成方法及装置
CN110826697B (zh) 获取样本的方法及装置、电子设备和存储介质
CN112861175A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN114666048A (zh) 数据处理方法、装置、电子设备及存储介质
CN110781975B (zh) 图像处理方法及装置、电子设备和存储介质
CN112163046A (zh) 基于区块链的设备数据存储方法、装置及系统
CN109635926B (zh) 用于神经网络的注意力特征获取方法、装置及存储介质
CN109460458B (zh) 查询改写意图的预测方法及装置
CN114861841A (zh) 纵向联邦决策树训练方法及装置
CN112131999B (zh) 身份确定方法及装置、电子设备和存储介质
WO2023024439A1 (zh) 一种行为识别方法及装置、电子设备和存储介质
CN110765111B (zh) 存储和读取方法、装置、电子设备和存储介质
CN112580064B (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant