CN111915019B - 联邦学习方法、系统、计算机设备和存储介质 - Google Patents
联邦学习方法、系统、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111915019B CN111915019B CN202010786546.XA CN202010786546A CN111915019B CN 111915019 B CN111915019 B CN 111915019B CN 202010786546 A CN202010786546 A CN 202010786546A CN 111915019 B CN111915019 B CN 111915019B
- Authority
- CN
- China
- Prior art keywords
- data
- intersection
- sample data
- model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据领域,提供了一种联邦学习方法,所述方法包括:向多个数据提供端发送对应的多个ID交集请求;接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据并将所述多个样本数据上传到区块链中;判断每个样本数据是否存在对应的联邦模型;如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练。本发明有效的提升了联邦学习模型的精准度和业务效果。
Description
技术领域
本发明实施例涉及大数据领域,尤其涉及一种联邦学习方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着大数据时代的来临,在互联网领域中数据孤岛的问题越来越突出。而联邦学习的出现,在一定程度上为解决互联网领域中数据孤岛的问题起到了至关重要的作用。但是,目前的联邦学习大多是在单模型训练的基础上进行,这样虽然可以在一定程度上解决数据孤岛的问题,但是单模型训练方式会使得模型的精准度和业务效果都较低。
因此,如何解决单模型训练的联邦学习使得模型的精准度和业务效果都较低的问题,成为了当前亟需解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种联邦学习方法、系统、计算机设备及计算机可读存储介质,以解决目前单模型训练方式会使得联邦学习模型的精准度和业务效果都较低的技术问题。
为实现上述目的,本发明实施例提供了一种联邦学习方法,所述方法步骤包括:
向多个数据提供端发送对应的多个ID交集请求;
接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,;
判断每个样本数据是否存在对应的联邦模型;
如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及
如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练。
示例性的,所述ID交集请求携带有多个用户ID信息;
所述向多个数据提供端发送对应的多个ID交集请求,其中,每个ID交集请求携带有一个对应目标参数,包括:
向每个数据提供端发送对应的ID交集请求,以使所述每个数据提供端根据对应的ID交集请求携带的用户ID信息返回对应的第一加密数据。
示例性的,所述接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,包括:
接收每个数据提供端返回的所述第一加密数据;
对每个第一加密数据进行加密处理,以得到多个第二加密数据;及
将所述每个第二加密数据发送到对应的数据提供端。
示例性的,每个样本数据包括多个交集数据和多个虚拟特征数据;
所述接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,包括:
获取每个用户ID信息对应的本地用户信息,并根据本地用户信息生成一个对应的目标参数,所述目标参数用于确定对应的联邦模型;
将所述目标参数插入对应的本地用户信息中,以得到多个目标本地用户信息;
对每个目标本地用户信息进行加密操作,以得到多个第三加密数据;及
将每个第三加密数据发送到对应的数据提供端,以每个数据提供端根据对应的第二加密数据和第三加密数据返回对应的多个交集数据和对应的多个虚拟特征数据。
示例性的,所述判断每个样本数据是否存在对应的联邦模型,包括:
对每个样本数据进行解析,以得到对应的目标参数;及
根据所述目标参数判断所述样本数据是否存在对应的联邦模型。
示例性的,所述将根据所述样本数据发送到对应的联邦模型进行训练,包括:
对所述样本数据进行解析,以得到多个交集数据和多个虚拟特征数据;
根据每个交集数据生成一个对应的算子任务,以得到多个算子任务;
为每个算子任务分配一个对应的资源启动,以通过算子任务执行对应的交集数据处理,以得到对应的多个交集特征数据;
通过所述多个交集特征数据和所述多个虚拟特征数据对所述联邦模型进行训练。
示例性的,还包括:
将所述多个样本数据上传到区块链中。
为实现上述目的,本发明实施例还提供了一种联邦学习系统,包括:
发送模块,用于向多个数据提供端发送对应的多个ID交集请求;
接收模块,用于接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,其中,每个样本数据都携带对应的目标参数;
判断模块,用于判断每个样本数据是否存在对应的联邦模型;
训练模块,用于模块,用于如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的联邦学习方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的联邦学习方法的步骤。
本发明实施例提供的联邦学习方法、系统、计算机设备及计算机可读存储介质,本实施例通过为样本数据配置对应的联邦模型,并通过判断每个样本数据是否存在对应的联邦模型确定样本数据配置对应的联邦模型,解决了单模型训练方式会使得联邦学习模型的问题,有效的提升联邦学习模型的精准度和业务效果。
附图说明
图1为本发明实施例联邦学习方法的流程示意图。
图2为本发明联邦学习系统实施例二的程序模块示意图。
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例中,将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例之联邦学习方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,向多个数据提供端发送对应的多个ID交集请求。
所述ID交集请求用于指示所述数据提供端根据所述ID交集请求返回多个用于训练联邦模型的样本数据。其中,为了提高数据传输的安全性以及为了避免用户信息的泄露,所述数据提供端可以对返回的数据进行加密操作。
在一些实施例中,所述数据请求端为服务请求的发起方,拥有向数据提供端发送请求(请求配合支持数据支持)的功能,并可以根据数据提供端返回的数据进行联邦模型的训练。所述数据提供端可以是另一独立完全个体,拥有自身的计算能力,可以响应所述数据请求端发送的ID交集请求,并配合数据请求端完成模型的联邦训练。
示例性的,每个ID交集请求携带有多个用户ID信息;所述步骤S100还可以进一步的包括:向每个数据提供端发送对应的ID交集请求,以使所述每个数据提供端根据对应的ID交集请求携带的用户ID信息返回对应的第一加密数据。
所述数据请求端可以向每个数据提供端发送对应的ID交集请求。在所述数据提供端接收到所述ID交集请求后,可以对所述ID交集请求进行解析,以得到ID交集请求对应的用户ID信息。在一些实施例中,所述数据提供端还可以根据所述用户ID信息从与所述数据提供端关联的数据库中获取与所述用户ID信息对应的目标用户信息,所述目标用户信息为所述用户ID信息对应的用户在所述数据提供端的信息。并通过第一加密算法对所述目标用户信息进行加密操作,以得到第一加密数据。其中,所述数据提供端在接收到所述ID交集请求之后,可以生成对应第一加密算法所需要的密钥。在所述数据提供端得到所述第一加密数据后,可以将所述第一加密数据发送到所述数据请求端。其中,所述第一加密算法可以是非对称加密方法或同态加密方法。所述非对称加密方法需要两个密钥:公开密钥(publickey:简称公钥)和私有密钥(privatekey:简称私钥);公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密;因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法;所述非对称加密算法可以为RSA算法、Elgamal算法、背包算法、Rabin算法、D-H算法、ECC(椭圆曲线加密算法)算法或者SM2算法等。所述同态加密是指对明文进行环上的加法和乘法运算再加密,与加密后对密文进行相应的运算,结果是等价的。
步骤S102,接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据。
所述数据请求端在向多个数据提供端发送对应的ID交集请求后,可以接收到每个数据提供端根据对应的ID交集请求返回的对应的样本数据。
示例性的,所述步骤S102还可以进一步的包括:步骤S102a1,接收每个数据提供端返回的所述第一加密数据;步骤S102a2,对每个第一加密数据进行加密处理,以得到多个第二加密数据;及步骤S102a3,将所述每个第二加密数据发送到对应的数据提供端。
所述数据请求端在接收到所述每个数据提供端返回的所述第一加密数据后,可以通过第二加密算法对所述第一加密数据进行加密操作,以得到第二加密数据。其中,所述第二加密算法可以是非对称加密方法或同态加密方法。所述非对称加密方法需要两个密钥:公开密钥(publickey:简称公钥)和私有密钥(privatekey:简称私钥);公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密;因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法;所述非对称加密算法可以为RSA算法、Elgamal算法、背包算法、Rabin算法、D-H算法、ECC(椭圆曲线加密算法)算法或者SM2算法等。所述同态加密是指对明文进行环上的加法和乘法运算再加密,与加密后对密文进行相应的运算,结果是等价的。
示例性的,每个样本数据包括多个交集数据和多个虚拟特征数据;所述步骤S102还可以进一步的包括:步骤S102b1,获取每个用户ID信息对应的本地用户信息,并根据本地用户信息生成一个对应的目标参数,所述目标参数用于确定对应的联邦模型;步骤S102b2,将所述目标参数插入对应的本地用户信息中,以得到多个目标本地用户信息;步骤S102b3,对每个目标本地用户信息进行加密操作,以得到多个第三加密数据;及步骤S102b4,将每个第三加密数据发送到对应的数据提供端,以每个数据提供端根据对应的第二加密数据和第三加密数据返回对应的多个交集数据和对应的多个虚拟特征数据。
所述数据请求端可以获取每个用户ID信息对应的本地用户信息,所述本地用户信息为目标用户在所述数据请求端的用户信息。根据本地用户信息生成一个对应的目标参数,所述目标参数用于确定对应的联邦模型;其中,所述目标参数可以是根据对应的联邦模型预先配置参数,通过这个目标参数可以确定对应的联邦模型。例如,所述目标参数可以是json格式的数据。
所述数据请求端还可以将所述目标参数插入对应的本地用户信息中,以得到多个目标本地用户信息。并通过第三加密算法对每个目标本地用户信息进行加密处理,以得到多个第三加密数据。其中,所述第三加密算法可以是非对称加密方法或同态加密方法。
在一些实施例中,所述数据请求端还可以将所述第二加密数据和所述第三加密数据发送到预先配置好的交集模型中,以通过所述交集模型对所述第二加密数据进行解密以得到解密结果,并判断所述解密结果与所述第一加密数据是否相同,如果相同则对所述第一加密数据和所述第三加密数据进行交集处理,以得到所述第一加密数据和所述第三加密数据的所述交集数据集和所述非交集数据集。为了保证用户在不同应用中的数据安全,所述数据提供端可以对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征。
示例性的,所述步骤S102还可以进一步的包括:将所述多个样本数据上传到区块链中。
示例性的,将所述多个样本数据上传至区块链可保证其安全性和公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
步骤S104,判断每个样本数据是否存在对应的联邦模型。
示例性的,所述数据请求端可以通过每个样本数据是否存在对应的联邦模型,来确定是否将样本数据发送到目标联邦模型中,以对所述目标联邦模型进行训练。
在一些实施例中,所述数据请求端可以通过多个模型任务的汇总,提高整体模型的业务效果。例如,可以通过ensemble(集成)多个模型,并为每个模型配置一个任务,以通过一个任务对应样本数据,以得到多个解耦互不影响执行的计算的单元任务,单元任务为联邦学习模型训练和ensemble引擎中的任务。其中,所述数据请求端可以通过每个样本数据是否存在对应的联邦模型,来确定所述样本数据对应的单元任务。
示例性的,所述步骤S104还可以进一步的包括:步骤S104a,对每个样本数据进行解析,以得到对应的目标参数;及步骤S104b,根据所述目标参数判断所述样本数据是否存在对应的联邦模型。
所述数据请求端还可以对每个样本数据进行解析,以得到对应的目标参数;其中,所述目标参数用于确定对应的联邦模型。当所述数据请求端得到所述目标参数后,可以根据所述目标参数判断所述样本数据是否存在对应的联邦模型。
步骤S106,如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练。
如果不存在则将所述样本数据发送到目标联邦模型进行训练,以得到训练后的目标联邦模型。在一些实施例中,所述数据请求端可以预先选定训练模型,所述包括训练模型可以包括LR,XGB,DNN模型等。
在一些实施例中,在得到所述数据提供端的样本数据后,所述数据请求端可以对对所述样本数据进行解析,以得到多个交集数据和多个虚拟特征数据。并将所述样本数据中的所述交集数据集和所述多个虚拟特征作为所述预训练联邦模型的联邦训练样本,并通过所述联邦训练样本对目标联邦模型进行训练,以得到训练后的目标联邦模型。本实施例既解决了交集部分样本无信息缺失的完成了任务,又对为交叉部分的数据进行了更好的模型训练,最终得到了一个训练好的目标联邦模型。
示例性的,所述步骤S106还可以进一步的包括:步骤S106a,对所述样本数据进行解析,以得到多个交集数据和多个虚拟特征数据;步骤S106b,根据每个交集数据生成一个对应的算子任务,以得到多个算子任务;步骤S106c,为每个算子任务分配一个对应的资源启动,以通过算子任务执行对应的交集数据处理,以得到对应的多个交集特征数据;及步骤S106d,通过所述多个交集特征数据和所述多个虚拟特征数据对所述联邦模型进行训练。
在一些实施例中,如果所述样本数据存在对应的联邦模型,则说明所述数据请求端预先为所述样本数据配置了对应联邦模型。即,在得到所述数据提供端的样本数据后,所述数据请求端可以对所述样本数据进行解析,以得到多个交集数据和多个虚拟特征数据,以及对应的目标参数(json格式的数据)。提取所述目标参数,所述数据请求端可以根据所述目标参数生成一个对应的算子任务,以得到多个算子任务。为保证多方配合完成任务,在所述数据请求端得到所述目标参数,并开始执行对应的算子任务时,所述数据请求端通信传输相关任务需求至数据提供端,以使数据提供端向所述数据请求端集群索要资源执行收到的任务需求,并配合所述数据提供端成该任务。在一些实施例中,一个对应的算子任务执行处理对应的交集特征数据和所述多个虚拟特征数据。
在一些实施例中,联邦模型训练完成后,可以根据ensemble方法的不同,将训练的结果进行整理存储,输出成打分引擎可以使用的格式。在这里得到的结果相对于传统的单模型结果会有更复杂的表现形式,对打分模型的要求也会更高一些。
实施例二
图2为本发明联邦学习系统实施例二的程序模块示意图。联邦学习系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述联邦学习方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述联邦学习系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
发送模块200,用于向多个数据提供端发送对应的多个ID交集请求;
示例性的,所述ID交集请求携带有多个用户ID信息;所述发送模块200,还用于:向每个数据提供端发送对应的ID交集请求,以使所述每个数据提供端根据对应的ID交集请求携带的用户ID信息返回对应的第一加密数据。
接收模块202,用于接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据;
示例性的,所述接收模块202,还用于:接收每个数据提供端返回的所述第一加密数据;对每个第一加密数据进行加密处理,以得到多个第二加密数据;及将所述每个第二加密数据发送到对应的数据提供端。
示例性的,每个样本数据包括多个交集数据和多个虚拟特征数据;所述接收模块202,还用于:获取每个用户ID信息对应的本地用户信息,并根据本地用户信息生成一个对应的目标参数,所述目标参数用于确定对应的联邦模型;将所述目标参数插入对应的本地用户信息中,以得到多个目标本地用户信息;对每个目标本地用户信息进行加密操作,以得到多个第三加密数据;及将每个第三加密数据发送到对应的数据提供端,以每个数据提供端根据对应的第二加密数据和第三加密数据返回对应的多个交集数据和对应的多个虚拟特征数据。
判断模块204,用于判断每个样本数据是否存在对应的联邦模型;
示例性的,所述判断模块204,还用于:对每个样本数据进行解析,以得到对应的目标参数;及根据所述目标参数判断所述样本数据是否存在对应的联邦模型。
训练模块206,用于如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练。
示例性的,所述训练模块206,还用于:对所述样本数据进行解析,以得到多个交集数据和多个虚拟特征数据;根据每个交集数据生成一个对应的算子任务,以得到多个算子任务;为每个算子任务分配一个对应的资源启动,以通过算子任务执行对应的交集数据处理,以得到对应的多个交集特征数据;通过所述多个交集特征数据和所述多个虚拟特征数据对所述联邦模型进行训练。
示例性的,所述联邦学习系统20还包括,上传模块,所述上传模块,用于::将所述多个样本数据上传到区块链中。
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及联邦学习系统20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的联邦学习系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行联邦学习系统20,以实现实施例一的联邦学习方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communicatI/On,GSM)、宽带码分多址(WidebandCode DivisI/On Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的联邦学习系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了本发明实施例二之所述实现联邦学习系统20的程序模块示意图,该实施例中,所述联邦学习系统20可以被划分为发送模块200、接收模块202、判断模块204和训练模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述联邦学习系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于联邦学习系统20,被处理器执行时实现实施例一的联邦学习方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种联邦学习方法,其特征在于,所述方法包括:
向多个数据提供端发送对应的多个ID交集请求;
接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据;
判断每个样本数据是否存在对应的联邦模型;
如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及
如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练;
其中,所述ID交集请求携带有多个用户ID信息,每个ID交集请求携带有一个对应目标参数;所述向多个数据提供端发送对应的多个ID交集请求,包括:向每个数据提供端发送对应的ID交集请求,以使所述每个数据提供端根据对应的ID交集请求携带的用户ID信息返回对应的第一加密数据;
其中,所述接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,包括:
接收每个数据提供端返回的所述第一加密数据;
对每个第一加密数据进行加密处理,以得到多个第二加密数据;及
将所述每个第二加密数据发送到对应的数据提供端;
其中,每个样本数据包括多个交集数据和多个虚拟特征数据;
所述接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,包括:
获取每个用户ID信息对应的本地用户信息,并根据本地用户信息生成一个对应的目标参数,所述目标参数用于确定对应的联邦模型;
将所述目标参数插入对应的本地用户信息中,以得到多个目标本地用户信息;
对每个目标本地用户信息进行加密操作,以得到多个第三加密数据;及
将每个第三加密数据发送到对应的数据提供端,以每个数据提供端根据对应的第二加密数据和第三加密数据返回对应的多个交集数据和对应的多个虚拟特征数据;
第一加密数据是通过第一加密算法对目标用户信息进行加密操作得到的,目标用户信息为用户ID信息对应的用户在数据提供端的信息,用户ID信息是数据提供端对ID交集请求进行解析得到的。
2. 如权利要求1所述的联邦学习方法,其特征在于,所述判断每个样本数据是否存在对应的联邦模型,包括:
对每个样本数据进行解析,以得到对应的目标参数;及
根据所述目标参数判断所述样本数据是否存在对应的联邦模型。
3.如权利要求1所述的联邦学习方法,其特征在于,所述将根据所述样本数据发送到对应的联邦模型进行训练,包括:
对所述样本数据进行解析,以得到多个交集数据和多个虚拟特征数据;
根据每个交集数据生成一个对应的算子任务,以得到多个算子任务;
为每个算子任务分配一个对应的资源启动,以通过算子任务执行对应的交集数据处理,以得到对应的多个交集特征数据;
通过所述多个交集特征数据和所述多个虚拟特征数据对所述联邦模型进行训练。
4.如权利要求1所述的联邦学习方法,其特征在于,还包括:将所述多个样本数据上传到区块链中。
5.一种联邦学习系统,其特征在于,包括:
发送模块,用于向多个数据提供端发送对应的多个ID交集请求;
接收模块,用于接收每个数据提供端根据对应的ID交集请求返回的对应的样本数据,以得到多个样本数据,其中,每个样本数据都携带对应的目标参数;
判断模块,用于判断每个样本数据是否存在对应的联邦模型;
训练模块,用于模块,用于如果所述样本数据不存在对应的联邦模型,则将所述样本数据发送到目标联邦模型进行训练;及如果所述样本数据存在对应的联邦模型,则将根据所述样本数据发送到对应的联邦模型进行训练;
其中,所述ID交集请求携带有多个用户ID信息,每个ID交集请求携带有一个对应目标参数;所述发送模块,还用于:向每个数据提供端发送对应的ID交集请求,以使所述每个数据提供端根据对应的ID交集请求携带的用户ID信息返回对应的第一加密数据;
其中,所述接收模块,还用于:
接收每个数据提供端返回的所述第一加密数据;
对每个第一加密数据进行加密处理,以得到多个第二加密数据;及
将所述每个第二加密数据发送到对应的数据提供端;
其中,每个样本数据包括多个交集数据和多个虚拟特征数据;
所述接收模块,还用于:
获取每个用户ID信息对应的本地用户信息,并根据本地用户信息生成一个对应的目标参数,所述目标参数用于确定对应的联邦模型;
将所述目标参数插入对应的本地用户信息中,以得到多个目标本地用户信息;
对每个目标本地用户信息进行加密操作,以得到多个第三加密数据;及
将每个第三加密数据发送到对应的数据提供端,以每个数据提供端根据对应的第二加密数据和第三加密数据返回对应的多个交集数据和对应的多个虚拟特征数据;
第一加密数据是通过第一加密算法对目标用户信息进行加密操作得到的,目标用户信息为用户ID信息对应的用户在数据提供端的信息,用户ID信息是数据提供端对ID交集请求进行解析得到的。
6.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的联邦学习方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至4中任一项所述的联邦学习方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786546.XA CN111915019B (zh) | 2020-08-07 | 2020-08-07 | 联邦学习方法、系统、计算机设备和存储介质 |
PCT/CN2020/134837 WO2021139467A1 (zh) | 2020-08-07 | 2020-12-09 | 联邦学习方法、系统、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786546.XA CN111915019B (zh) | 2020-08-07 | 2020-08-07 | 联邦学习方法、系统、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111915019A CN111915019A (zh) | 2020-11-10 |
CN111915019B true CN111915019B (zh) | 2023-06-20 |
Family
ID=73287620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786546.XA Active CN111915019B (zh) | 2020-08-07 | 2020-08-07 | 联邦学习方法、系统、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111915019B (zh) |
WO (1) | WO2021139467A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915019B (zh) * | 2020-08-07 | 2023-06-20 | 平安科技(深圳)有限公司 | 联邦学习方法、系统、计算机设备和存储介质 |
CN112381000B (zh) * | 2020-11-16 | 2024-08-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的人脸识别方法、装置、设备及存储介质 |
CN113222169B (zh) * | 2021-03-18 | 2023-06-23 | 中国地质大学(北京) | 结合大数据分析反馈的联邦机器组合服务方法与系统 |
CN113836559A (zh) * | 2021-09-28 | 2021-12-24 | 中国银联股份有限公司 | 一种联邦学习中的样本对齐方法、装置、设备及存储介质 |
CN114358311B (zh) * | 2021-12-31 | 2023-11-07 | 中国电信股份有限公司 | 纵向联邦数据处理方法及装置 |
CN114648130B (zh) * | 2022-02-07 | 2024-04-16 | 北京航空航天大学 | 纵向联邦学习方法、装置、电子设备及存储介质 |
CN115967560A (zh) * | 2022-12-22 | 2023-04-14 | 中国电信股份有限公司 | 文件管控方法及装置 |
CN117034328B (zh) * | 2023-10-09 | 2024-03-19 | 国网信息通信产业集团有限公司 | 一种改进的基于联邦学习的异常用电检测系统及方法 |
CN117952269A (zh) * | 2024-02-01 | 2024-04-30 | 深圳交易集团有限公司 | 一种基于gis的城市资源智能化预测管理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021986A (zh) * | 2017-10-27 | 2018-05-11 | 平安科技(深圳)有限公司 | 电子装置、多模型样本训练方法和计算机可读存储介质 |
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN109165515A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数获取方法、系统及可读存储介质 |
CN109492420A (zh) * | 2018-12-28 | 2019-03-19 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法、终端、系统及介质 |
CN109886417A (zh) * | 2019-03-01 | 2019-06-14 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法、装置、设备及介质 |
CN111178538A (zh) * | 2019-12-17 | 2020-05-19 | 杭州睿信数据科技有限公司 | 垂直数据的联邦学习方法及装置 |
CN111402095A (zh) * | 2020-03-23 | 2020-07-10 | 温州医科大学 | 一种基于同态加密联邦学习来检测学生行为与心理的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087223B2 (en) * | 2018-07-11 | 2021-08-10 | International Business Machines Corporation | Learning and inferring insights from encrypted data |
CN111915019B (zh) * | 2020-08-07 | 2023-06-20 | 平安科技(深圳)有限公司 | 联邦学习方法、系统、计算机设备和存储介质 |
-
2020
- 2020-08-07 CN CN202010786546.XA patent/CN111915019B/zh active Active
- 2020-12-09 WO PCT/CN2020/134837 patent/WO2021139467A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021986A (zh) * | 2017-10-27 | 2018-05-11 | 平安科技(深圳)有限公司 | 电子装置、多模型样本训练方法和计算机可读存储介质 |
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN109165515A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数获取方法、系统及可读存储介质 |
CN109492420A (zh) * | 2018-12-28 | 2019-03-19 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法、终端、系统及介质 |
CN109886417A (zh) * | 2019-03-01 | 2019-06-14 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法、装置、设备及介质 |
CN111178538A (zh) * | 2019-12-17 | 2020-05-19 | 杭州睿信数据科技有限公司 | 垂直数据的联邦学习方法及装置 |
CN111402095A (zh) * | 2020-03-23 | 2020-07-10 | 温州医科大学 | 一种基于同态加密联邦学习来检测学生行为与心理的方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021139467A1 (zh) | 2021-07-15 |
CN111915019A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111915019B (zh) | 联邦学习方法、系统、计算机设备和存储介质 | |
CN111914277B (zh) | 交集数据的生成方法和基于交集数据的联邦模型训练方法 | |
US11546348B2 (en) | Data service system | |
CN109510840B (zh) | 非结构化数据的共享方法、装置、计算机设备和存储介质 | |
CN112182644A (zh) | 一种数据处理方法、装置和电子设备 | |
CN109951514B (zh) | 基于云存储的文件处理方法、系统及计算机设备 | |
CN111880919B (zh) | 数据调度方法、系统和计算机设备 | |
CN112367164B (zh) | 业务请求处理方法、装置、计算机设备和存储介质 | |
CN110648241B (zh) | 一种基于微服务架构的理赔处理方法及装置 | |
CN113032357A (zh) | 文件的存储方法、装置和服务器 | |
CN113259382B (zh) | 数据传输方法、装置、设备及存储介质 | |
CN114389889B (zh) | 基于区块链技术的文件全生命周期管理方法及装置 | |
CN111984988A (zh) | 加密代码的生成方法、系统、计算机设备与存储介质 | |
CN111224834A (zh) | 模拟测试方法、装置、服务器及存储介质 | |
CN113452526B (zh) | 电子文件存证方法、验证方法及相应装置 | |
CN111404892B (zh) | 数据监管方法、装置和服务器 | |
CN115618380A (zh) | 数据处理方法、装置、设备和介质 | |
WO2024187902A1 (zh) | 一种模型训练方法、装置、存储介质以及电子设备 | |
CN113364595B (zh) | 电网隐私数据签名聚合方法、装置和计算机设备 | |
CN110930193B (zh) | 广告转化率评估方法、装置、计算机设备和存储介质 | |
CN109039651B (zh) | 一种位置信息的传输方法、传输装置及卫星定位系统 | |
CN115758475A (zh) | 资源数据归集方法、装置、计算机设备和存储介质 | |
CN112799744A (zh) | 工业app的调用方法、装置、计算机可读介质及电子设备 | |
CN114745181A (zh) | 数据处理方法和装置 | |
CN112000973A (zh) | 血液数据存储方法、装置、节点服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |