CN115907043A - 基于多方多模型隐私求交的联邦学习内容推送方法及装置 - Google Patents
基于多方多模型隐私求交的联邦学习内容推送方法及装置 Download PDFInfo
- Publication number
- CN115907043A CN115907043A CN202211458848.XA CN202211458848A CN115907043A CN 115907043 A CN115907043 A CN 115907043A CN 202211458848 A CN202211458848 A CN 202211458848A CN 115907043 A CN115907043 A CN 115907043A
- Authority
- CN
- China
- Prior art keywords
- federal learning
- data set
- prediction
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 157
- 239000003999 initiator Substances 0.000 claims abstract description 69
- 238000010276 construction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多方多模型隐私求交的联邦学习内容推送方法及装置,所述方法包括:获取发起方和各个参与方的数据集合;对发起方与所有参与方的数据集合求交,得到联邦学习基础训练数据集;判断联邦学习基础训练数据集中的数据量是否满足预设条件;若不满足,对发起方分别与多个不同参与方的数据集合求交,得到多个联邦学习子训练数据集;从而有效扩大求交后的训练数据,有效解决数据隐私求交带来的数据集规模急剧减少,导致模型无法训练或训练的模型泛化性能差的问题。采用每个联邦学习训练数据集训练对应的联邦学习模型,基于联邦学习模型执行内容推送操作。从而提高内容推送的准确性,提升用户体验。
Description
技术领域
本发明涉及联邦学习技术领域,具体而言,涉及一种基于多方多模型隐私求交的联邦学习内容推送方法、装置、电子设备及计算机可读介质。
背景技术
在机器学习建模过程中,样本数据会涉及到不同领域的数据,例如个人身份信息、金融消费信息、互联网行为信息、地理位置信息等等。为保护用户隐私安全,通常需要使用联邦学习来聚合这些不同领域的数据隐私进行建模,达到“数据可用不可见”的效果。
现有的联邦学习中,通常采取隐私交集(Private Set Intersection,简称为PSI)的方法来聚合数据。多方隐私交集是指多个数据方可以分别获得所有数据方的共同交集,但是不揭露任何共同交集之外的额外信息。由于隐私交集取各个数据方数据集合的交集,因此,隐私交集后,数据集的规模一定会变小,并且数据方越多,求交集后的数据集规模越小,很可能最终的数据集规模过小,无法完成对模型的训练;又或者用较小的数据集训练得到了模型,但由于训练的数据集比较小也会导致模型的泛化能力差,无法实现精准预测。此外,如果模型的测试集也通过上述隐私求交得到,则无法保证对于全量的测试集,都有相应的模型分值产出,这将严重限制模型在生成部署中的应用范围,影响内容推送。
发明内容
有鉴于此,本发明主要目的在于提出一种基于多方多模型隐私求交的联邦学习内容推送方法、装置、电子设备及计算机可读介质,以期至少部分地解决上述技术问题中的至少之一。
为了解决上述技术问题,本发明第一方面提出一种基于多方多模型隐私求交的联邦学习内容推送方法,所述方法包括:
获取联邦学习发起方和各个联邦学习参与方的数据集合;
对联邦学习发起方的数据集合与所有联邦学习参与方的数据集合求交,得到联邦学习基础训练数据集;
判断所述联邦学习基础训练数据集中的数据量是否满足预设条件;
若不满足,对联邦学习发起方的数据集合分别与多个不同联邦学习参与方的数据集合求交,得到多个联邦学习子训练数据集;
采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型;其中:所述联邦学习训练数据集包括:所述联邦学习基础训练数据集和各个联邦学习子训练数据集;每个联邦学习训练数据集对应一个求交协议和一个联邦学习模型;
基于所述联邦学习模型执行内容推送操作。
根据本发明一种优选实施方式,参与方的总数为m,m为大于2的自然数;
若不满足,对发起方的数据集合与每m-i个参与方的数据集合求交,得到多个第i联邦学习子训练数据集;i=1,2…m-1。
根据本发明一种优选实施方式,发起方与参与方的总数为n,参与求交的数据方数量为r;其中:n为大于等于3的自然数,r为大于等于2小于n的自然数;
若不满足,对发起方的数据集合与每r-1个参与方的数据集合求交,得到多个联邦学习子训练数据集;
对应的,所述采用每个联邦学习训练数据集训练对应的联邦学习模型包括:
根据总数n和参与求交的数据方数量r构建对应数量的联邦学习模型;
将每个联邦学习训练数据集分别输入对应的联邦学习模型中进行训练。
根据本发明一种优选实施方式,根据总数n和参与训练模型的数据方数量r构建C(n-1,r-1)+1个对应数量的模型。
根据本发明一种优选实施方式,所述基于所述联邦学习模型执行内容推送操作包括:
对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;
根据预测数据所属的预测数据集选取目标联邦学习模型进行预测;
根据预测结果执行内容推送操作。
根据本发明一种优选实施方式,所述根据预测数据所属的预测数据集选取目标联邦学习模型进行预测包括:
在预测数据所属预测数据集中,按照求交的参与方数量r选择目标联邦学习模型进行预测;
或者:
在预测数据所属预测数据集中,按照求交的参与方的优选级选择目标联邦学习模型进行预测;
或者:
在预测数据所属预测数据集中,按照预测数据集的数据量选择目标联邦学习模型进行预测。
为解决上述技术问题,本发明第二方面提供一种基于多方多模型隐私求交的联邦学习内容推送装置,所述装置包括:
获取模块,用于获取联邦学习发起方和各个联邦学习参与方的数据集合;
第一求交模块,用于对联邦学习发起方的数据集合与所有联邦学习参与方的数据集合求交,得到联邦学习基础训练数据集;
判断模块,用于判断所述联邦学习基础训练数据集中的数据量是否满足预设条件;
第二求交模块,用于若不满足,对联邦学习发起方的数据集合分别与多个不同联邦学习参与方的数据集合求交,得到多个联邦学习子训练数据集;
训练模块,用于采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型;其中:所述联邦学习训练数据集包括:所述联邦学习基础训练数据集和各个联邦学习子训练数据集;每个联邦学习训练数据集对应一个求交协议和一个联邦学习模型;
推送模块,用于基于所述联邦学习模型执行内容推送操作。
根据本发明一种优选实施方式,参与方的总数为m,m为大于2的自然数;
第二求交模块,用于若不满足,对发起方的数据集合与每m-i个参与方的数据集合求交,得到多个第i联邦学习子训练数据集;i=1,2…m-1。
根据本发明一种优选实施方式,发起方与参与方的总数为n,参与求交的数据方数量为r;其中:n为大于等于3的自然数,r为大于等于2小于n的自然数;
第二求交模块,用于若不满足,对发起方的数据集合与每r-1个参与方的数据集合求交,得到多个联邦学习子训练数据集;
对应的,所述训练模块包括:
子构建模块,用于根据总数n和参与求交的数据方数量r构建对应数量的联邦学习模型;
子输入模块,用于将每个联邦学习训练数据集分别输入对应的联邦学习模型中进行训练。
根据本发明一种优选实施方式,所述子构建模块根据总数n和参与训练模型的数据方数量r构建C(n-1,r-1)+1个对应数量的模型。
根据本发明一种优选实施方式,所述推送模块包括:
子求交模块,用于对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;
选取模块,用于根据预测数据所属的预测数据集选取目标联邦学习模型进行预测;
执行模块,用于根据预测结果执行内容推送操作。
根据本发明一种优选实施方式,所述选取模块,用于在预测数据所属预测数据集中,按照求交的参与方数量r选择目标联邦学习模型进行预测;
或者:
所述选取模块,用于在预测数据所属预测数据集中,按照求交的参与方的优选级选择目标联邦学习模型进行预测;
或者:
所述选取模块,用于在预测数据所属预测数据集中,按照预测数据集的数据量选择目标联邦学习模型进行预测。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述任一项所述的方法。
为解决上述技术问题,本发明第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述任一项所述的方法。
本发明对发起方的数据集合与所有参与方的数据集合求交得到联邦学习基础训练数据集后,判断联邦学习基础训练数据集中的数据量是否满足预设条件;若不满足,再对发起方的数据集合与多个不同参与方的数据集合求交得到多个联邦学习子训练数据集,从而有效扩大求交后的训练数据,并对应不同求交协议获得的联邦学习训练数据集训练对应的联邦学习模型,基于联邦学习模型进行内容推送。相比于现有隐私求交,本发明能够将联邦学习模型的准确性提升2%-5%,能够有效解决数据隐私求交带来的数据集规模急剧减少,导致模型无法训练或训练的模型泛化性能差的问题,从而提高内容推送的准确性,提升用户体验。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明实施例一种基于多方多模型隐私求交的联邦学习内容推送方法的流程示意图;
图2是本发明实施例中一种对a、b、c、d四方数据求交的示意图;
图3是本发明实施例一种基于多方多模型隐私求交的联邦学习内容推送的结构框架示意图;
图4是根据本发明的电子设备的示例性实施例的结构框图;
图5是本发明一种计算机可读介质实施例的示意图。
具体实施方式
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。
本发明实施例中,隐私交集指,各个数据方均具有一个集合,数据方经过隐私求交算法之后,多个数据方可以分别获得所有数据方的共同交集,但是不揭露任何共同交集之外的额外信息,实现了求交过程中对数据方集合内容隐私保护的效果。
请参阅图1,图1是本发明提供的一种基于多方多模型隐私求交的联邦学习内容推送方法,应用于联邦学习框架中。其中:多方包含一个发起方和多个参与方,多模型指发起方分别与不同的参与方求交后训练得到的多个模型。如图1所示,所述方法包括:
S1、获取联邦学习发起方和各个联邦学习参与方的数据集合;
其中:联邦学习发起方(简称:发起方)指拥有模型需预测特征值Y,但有可能没有预测所需的特征数据X的数据方,联邦学习参与方(简称:参与方)指没有模型需预测的特征值Y,但拥有模型预测所需的特征数据X的数据方。
本实施例中,发起方数量为一个,参与方数量可以是两个或两个以上。各个数据方的数据集合中包含用于进行隐私求交的客户ID值。
S2、对联邦学习发起方的数据集合与所有联邦学习参与方的数据集合求交,得到联邦学习基础训练数据集;
示例性的,各个数据方可以使用安全的密码学方法(比如同态加密方法)得到求交的结果(用户ID值的交集),而无法得到其他任何信息,从而保护用户隐私。
以表1中的a、b、c、d三个公司作为数据方为例,其中:a为发起方,b、c和d为参与方,a、b、c、d各方数据集合的信息如表1所示:
表1a、b、c、d各方的角色及数据集合信息
如图2,采用同态加密方法对a、b、c、d四方数据集合的用户ID值求交后,只能得到用户ID值为00001-02000的共计2000个数据作为模型的联邦学习基础训练数据集(标记为1),而实际被求交过滤掉的a公司的8000个用户(ID:02001-10000),大部分在另外三家公司中分别有存在的,即:02001-06000在b公司中存在、08001-10000在c公司中存在,00001-03000及05001-10000在d公司存在,仅03001-06000在另外三家公司均不存在。这种方式只关注到发起方与所有参与方的交集,会忽略发起方与其中某几个参与方的交集,会导致可训练的数据急剧减少,特别是联邦学习的参与方数量多的时候,这种现象会比较严重,因此直接采用发起方与所有参与方求交后的数据多模型进行训练,会导致模型精度因训练数据量少而降低。
S3、判断所述联邦学习基础训练数据集中的数据量是否满足预设条件;
其中:所述预设条件可以根据实际情况配置,比如:可以设置一个数据量阈值,若联邦学习基础训练数据集中的数据量大于等于所述数据量阈值,则确定所述联邦学习基础训练数据集中的数据量是否满足预设条件,反之,不满足。或者,可以设置预定百分比,若联邦学习基础训练数据集中的数据量大于等于所述数据方数据集合总量的预定百分比,则确定所述联邦学习基础训练数据集中的数据量是否满足预设条件,反之,不满足。
S4、若不满足,对联邦学习发起方的数据集合分别与多个不同联邦学习参与方的数据集合求交,得到多个联邦学习子训练数据集;
本实施例中,发起方可以分别与多个相同数量的不同参与方求交,比如:总共有m个参与方,m为大于等于2的自然数;则可以分别从m个参与方中取出不同的v个参与方与发起方求交;发起方也可以分别与不同数量的多个参与方求交,比如:总共有m个参与方,则可以从m个参与方中取出v个参与方与发起方求交,再从m个参与方中取出u个参与方与发起方求交;或者,发起方也可以分别与多个相同数量的不同参方及不同数量的多个参与方与方求交,比如:总共有m个参与方,则分别从m个参与方中取出不同的v个参与方与发起方求交;再从m个参与方中取出u个参与方与发起方求交;等等,只要保证每次与发起方求交的参与方不同即可。这样,可以在联邦学习基础训练数据集的基础上,得到多个联邦学习子训练数据集合,扩大模型训练的数据量。
在一种示例中,为了最大限度的扩大模型训练数据量,对发起方与每个参与方的组合求交,可以得到最多的联邦学习子训练数据集。假设参与方的总数为m,对发起方的数据集合与每m-i个参与方的数据集合求交,得到多个第i联邦学习子训练数据集;i=1,2…m-1。
以图2为例,m=3,先将发起方a与每两个参与方的数据集合求交,得到多个第一联邦学习子训练数据集,比如:a与b和c求交,得到第一联邦学习子训练数据集(标记为2),a与c和d求交,得到第一联邦学习子训练数据集(标记为3),a与b和d求交,得到第一联邦学习子训练数据集(标记为4);再将发起方a与每个参与方的数据集合求交,得到多个第二联邦学习子训练数据集,比如:a与b求交,得到第二联邦学习子训练数据集(标记为5),a与c求交,得到第二联邦学习子训练数据集(标记为6),a与d求交,得到第二联邦学习子训练数据集(标记为7)。表2为各个训练数据集的数据信息。
表2为各个训练数据集的数据信息
这样,拥有Y值的a公司的10000个数据,除了仅和其他各参与方没有任何交集的1000个数据(ID:05001-06000)没有用于模型的训练,其他9000个数据都用于多方的模型训练,从而扩大训练数据量,提高联邦学习模型的效果。
在另一示例中,可以根据需要设置参与求交的数据方数量r,对发起方的数据集合与每r个参与方的数据集合求交,得到多个联邦学习子训练数据集。则将发起方的数据集合与每两个参与方的数据集合求交,得到多个联邦学习子训练数据集。其中:r为大于等于2小于发起方与参与方的总数n的自然数。
在又一示例中,可以根据实际需求设置参与求交的固定参与方,所述固定参与方指每次求交都参与的参与方,则可以对发起方的数据集合与包含所述固定参与方的多个参与方的数据集合求交,得到多个联邦学习子训练数据集。比如图2中,可以将b设置为固定参与方,则每次求交过程中,a会与b和另外的参与方的数据集合求交,得到多个联邦学习子训练数据集。其中:每次采用的另外的参与方不同。
S5、采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型;
本实施例中,所述联邦学习训练数据集包括:所述联邦学习基础训练数据集和各个联邦学习子训练数据集;则本步骤可以预先构建与联邦学习训练数据集的个数相同的联邦学习模型,采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型。
其中:联邦学习模型的个数可以根据发起方与参与方的总数n及参与求交的数据方数量确定;参与求交的数据方包括一个发起方和多个参与方。比如:参与求交的数据方数量为r,则需要构建C(n-1,r-1)+1个对应数量的模型。其中:C(n-1,r-1)个联邦学习模型对应联邦学习子训练数据集,1个联邦学习模型对应联邦学习基础训练数据集。表3示出总数n和参与求交的数据方数量r取不同值时对应联邦学习子训练数据集训练的联邦学习模型的数量。
表3n和r取不同值对应联邦学习子训练数据集训练联邦学习模型的数量
S6、基于所述联邦学习模型执行内容推送操作。
示例性的,本步骤可以包括:
S61、对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;
其中:每个联邦学习训练数据集对应一个求交协议和一个联邦学习模型;联邦学习训练数据集对应的求交协议指获得该联邦学习训练数据集时发起方的数据集合分别与对应的不同参与方的数据集合求交的协议,联邦学习训练数据集对应的联邦学习模型指采用该联邦学习训练数据集训练得到的联邦学习模型。
以图2中的场景为例,对一批新的预测数据,其包含新的用户ID值,这些用户ID值不在a公司的数据库中,或者a公司虽有这些ID值,但没有其特征值Y,可以对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;比如:将预测数据的用户ID值分别和b、c、d三方数据集合的用户ID值求交后记为预测数据集1、将预测数据的用户ID值分别和b、c两个数据集合的用户ID值求预测数据集后记为预测数据集2、将预测数据的用户ID值分别和b、d两个数据集合的用户ID值求预测数据集后记为预测数据集3、将预测数据的用户ID值分别和c、d两方数据集合的用户ID值求预测数据集后记为预测数据集4、将预测数据的用户ID值和b数据集合的用户ID值求预测数据集后记为预测数据集5、将预测数据的用户ID值和c数据集合的用户ID值求预测数据集后记为预测数据集6、将预测数据的用户ID值和d数据集合的用户ID值求预测数据集后记为预测数据集7。
S62、根据预测数据所属的预测数据集选取目标联邦学习模型进行预测;
本实施例中,对预测数据求交后,每个预测数据可能会属于多个预测数据集中,可以根据预设规则确定各个预测数据对应的联邦学习模型。比如:可以在所属预测数据集中,按照求交的参与方数量r从高到低的顺序选择目标联邦学习模型对用户数据进行预测。比如:图2中,对于ID值在预测数据集1中的所有用户,使用与预测数据集1对应的联邦学习模型进行预测;对于ID值不在预测数据集1但在预测数据集2中的所有用户,使用与预测数据集2对应的联邦学习模型进行预测;对于ID值不在预测数据集2但在预测数据集5中的所有用户,使用与预测数据集5对应的联邦学习模型进行预测,等等,以此类推。其中:与预测数据集对应的联邦学习模型指与预测数据集采用相同的求交协议得到的联邦学习训练数据集对应的联邦学习模型。
或者,可以预先设置参与方的优先级,在所属预测数据集中,按照求交的参与方的优选级选择目标联邦学习模型对用户数据进行预测。比如:图2中,设置c优先级大于b大于d,则:对于ID值在预测数据集1中的所有用户,使用与预测数据集1对应的联邦学习模型进行预测;对于ID值同时在预测数据集3和4中的所有用户,使用与预测数据集3对应的联邦学习模型进行预测,等等,以此类推。
或者,还可以根据预测数据集的数据量大小,在所属预测数据集中,按照预测数据集的数据量从大到小的顺序选择目标联邦学习模型进行预测。
此外,本实施例中,若在步骤S3中判断结果为:满足,则采用所述联邦学习基础训练数据集训练单一联邦学习模型;对预测数据采用与联邦学习基础训练数据集对应的求交协议求交,得到预测数据集;将所述预测数据集输入所述单一联邦学习模型进行预测。
S63、根据预测结果执行内容推送操作。
本实施例中,联邦学习模型可以根据任务类型进行预测,比如:对于产品喜好类任务,可以预测终端用户的喜好,进而根据预测的产品喜好对终端用户进行内容推送。或者,对于购买力类任务,可以预测终端用户的购买力,进而根据预测的购买力对终端用户进行内容推送,等等。本发明不做具体限定。
图3是本发明一种一种基于多方多模型隐私求交的联邦学习内容推送装置,如图3所示,所述装置包括:
获取模块31,用于获取联邦学习发起方和各个联邦学习参与方的数据集合;
第一求交模块32,用于对联邦学习发起方的数据集合与所有联邦学习参与方的数据集合求交,得到联邦学习基础训练数据集;
判断模块33,用于判断所述联邦学习基础训练数据集中的数据量是否满足预设条件;
第二求交模块34,用于若不满足,对联邦学习发起方的数据集合分别与多个不同联邦学习参与方的数据集合求交,得到多个联邦学习子训练数据集;
训练模块35,用于采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型;其中:所述联邦学习训练数据集包括:所述联邦学习基础训练数据集和各个联邦学习子训练数据集;每个联邦学习训练数据集对应一个求交协议和一个联邦学习模型;
推送模块36,用于基于所述联邦学习模型执行内容推送操作。
在一种可选实施方式中,参与方的总数为m,m为大于2的自然数;
第二求交模块,用于若不满足,对发起方的数据集合与每m-i个参与方的数据集合求交,得到多个第i联邦学习子训练数据集;i=1,2…m-1。
在一种可选实施方式中,发起方与参与方的总数为n,参与求交的数据方数量为r;其中:n为大于等于3的自然数,r为大于等于2小于n的自然数;
第二求交模块,用于若不满足,对发起方的数据集合与每r-1个参与方的数据集合求交,得到多个联邦学习子训练数据集;
对应的,所述训练模块包括:
子构建模块,用于根据总数n和参与求交的数据方数量r构建对应数量的联邦学习模型;
子输入模块,用于将每个联邦学习训练数据集分别输入对应的联邦学习模型中进行训练。
其中,所述子构建模块根据总数n和参与训练模型的数据方数量r构建C(n-1,r-1)+1个对应数量的模型。
在一种实施方式中,所述推送模块包括:
子求交模块,用于对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;
选取模块,用于根据预测数据所属的预测数据集选取目标联邦学习模型进行预测;
执行模块,用于根据预测结果执行内容推送操作。
其中:所述选取模块,用于在预测数据所属预测数据集中,按照求交的参与方数量r选择目标联邦学习模型进行预测;
或者:
所述选取模块,用于在预测数据所属预测数据集中,按照求交的参与方的优选级选择目标联邦学习模型进行预测;
或者:
所述选取模块,用于在预测数据所属预测数据集中,按照预测数据集的数据量选择目标联邦学习模型进行预测。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制,可适用于联邦学习的各方。
如图4所示,该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400可以包括:至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,存储单元420存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本发明各种实施方式的步骤。例如,所述处理单元410可以执行如图1所示的步骤。
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备100与该电子设备400交互,和/或使得该电子设备400能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口450进行,还可以通过网络适配器460与一个或者多个网络进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。
图5是本发明的一个计算机可读介质实施例的示意图。如图5所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明图1的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种基于多方多模型隐私求交的联邦学习内容推送方法,其特征在于,所述方法包括:
获取联邦学习发起方和各个联邦学习参与方的数据集合;
对联邦学习发起方的数据集合与所有联邦学习参与方的数据集合求交,得到联邦学习基础训练数据集;
判断所述联邦学习基础训练数据集中的数据量是否满足预设条件;
若不满足,对联邦学习发起方的数据集合分别与多个不同联邦学习参与方的数据集合求交,得到多个联邦学习子训练数据集;
采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型;其中:所述联邦学习训练数据集包括:所述联邦学习基础训练数据集和各个联邦学习子训练数据集;每个联邦学习训练数据集对应一个求交协议和一个联邦学习模型;
基于所述联邦学习模型执行内容推送操作。
2.根据权利要求1所述的方法,其特征在于,参与方的总数为m,m为大于2的自然数;
若不满足,对发起方的数据集合与每m-i个参与方的数据集合求交,得到多个第i联邦学习子训练数据集;i=1,2…m-1。
3.根据权利要求1所述的方法,其特征在于,发起方与参与方的总数为n,参与求交的数据方数量为r;其中:n为大于等于3的自然数,r为大于等于2小于n的自然数;
若不满足,对发起方的数据集合与每r-1个参与方的数据集合求交,得到多个联邦学习子训练数据集;
对应的,所述采用每个联邦学习训练数据集训练对应的联邦学习模型包括:
根据总数n和参与求交的数据方数量r构建对应数量的联邦学习模型;
将每个联邦学习训练数据集分别输入对应的联邦学习模型中进行训练。
4.根据权利要求3所述的方法,其特征在于,根据总数n和参与训练模型的数据方数量r构建C(n-1,r-1)+1个对应数量的模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述联邦学习模型执行内容推送操作包括:
对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;
根据预测数据所属的预测数据集选取目标联邦学习模型进行预测;
根据预测结果执行内容推送操作。
6.根据权利要求5所述的方法,其特征在于,所述根据预测数据所属的预测数据集选取目标联邦学习模型进行预测包括:
在预测数据所属预测数据集中,按照求交的参与方数量r选择目标联邦学习模型进行预测;
或者:
在预测数据所属预测数据集中,按照求交的参与方的优选级选择目标联邦学习模型进行预测;
或者:
在预测数据所属预测数据集中,按照预测数据集的数据量选择目标联邦学习模型进行预测。
7.一种基于多方多模型隐私求交的联邦学习内容推送装置,其特征在于,所述装置包括:
获取模块,用于获取联邦学习发起方和各个联邦学习参与方的数据集合;
第一求交模块,用于对联邦学习发起方的数据集合与所有联邦学习参与方的数据集合求交,得到联邦学习基础训练数据集;
判断模块,用于判断所述联邦学习基础训练数据集中的数据量是否满足预设条件;
第二求交模块,用于若不满足,对联邦学习发起方的数据集合分别与多个不同联邦学习参与方的数据集合求交,得到多个联邦学习子训练数据集;
训练模块,用于采用每个联邦学习训练数据集训练对应的联邦学习模型,得到多个联邦学习模型;其中:所述联邦学习训练数据集包括:所述联邦学习基础训练数据集和各个联邦学习子训练数据集;每个联邦学习训练数据集对应一个求交协议和一个联邦学习模型;
推送模块,用于基于所述联邦学习模型执行内容推送操作。
8.根据权利要求7所述的装置,其特征在于,参与方的总数为m,m为大于2的自然数;
第二求交模块,用于若不满足,对发起方的数据集合与每m-i个参与方的数据集合求交,得到多个第i联邦学习子训练数据集;i=1,2…m-1。
9.根据权利要求7所述的装置,其特征在于,发起方与参与方的总数为n,参与求交的数据方数量为r;其中:n为大于等于3的自然数,r为大于等于2小于n的自然数;
第二求交模块,用于若不满足,对发起方的数据集合与每r-1个参与方的数据集合求交,得到多个联邦学习子训练数据集;
对应的,所述训练模块包括:
子构建模块,用于根据总数n和参与求交的数据方数量r构建对应数量的联邦学习模型;
子输入模块,用于将每个联邦学习训练数据集分别输入对应的联邦学习模型中进行训练。
10.根据权利要求9所述的装置,其特征在于,所述子构建模块根据总数n和参与训练模型的数据方数量r构建C(n-1,r-1)+1个对应数量的模型。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述推送模块包括:
子求交模块,用于对预测数据采用与各个联邦学习训练数据集对应的求交协议求交,得到各个预测数据集;
选取模块,用于根据预测数据所属的预测数据集选取目标联邦学习模型进行预测;
执行模块,用于根据预测结果执行内容推送操作。
12.根据权利要求11所述的装置,其特征在于,所述选取模块,用于在预测数据所属预测数据集中,按照求交的参与方数量r选择目标联邦学习模型进行预测;
或者:
所述选取模块,用于在预测数据所属预测数据集中,按照求交的参与方的优选级选择目标联邦学习模型进行预测;
或者:
所述选取模块,用于在预测数据所属预测数据集中,按照预测数据集的数据量选择目标联邦学习模型进行预测。
13.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211458848.XA CN115907043A (zh) | 2022-11-18 | 2022-11-18 | 基于多方多模型隐私求交的联邦学习内容推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211458848.XA CN115907043A (zh) | 2022-11-18 | 2022-11-18 | 基于多方多模型隐私求交的联邦学习内容推送方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115907043A true CN115907043A (zh) | 2023-04-04 |
Family
ID=86480942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211458848.XA Pending CN115907043A (zh) | 2022-11-18 | 2022-11-18 | 基于多方多模型隐私求交的联邦学习内容推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115907043A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757275A (zh) * | 2023-06-07 | 2023-09-15 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN117892355A (zh) * | 2024-03-14 | 2024-04-16 | 蓝象智联(杭州)科技有限公司 | 一种基于隐私保护的多方数据联合分析方法及系统 |
-
2022
- 2022-11-18 CN CN202211458848.XA patent/CN115907043A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757275A (zh) * | 2023-06-07 | 2023-09-15 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN116757275B (zh) * | 2023-06-07 | 2024-06-11 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
CN117892355A (zh) * | 2024-03-14 | 2024-04-16 | 蓝象智联(杭州)科技有限公司 | 一种基于隐私保护的多方数据联合分析方法及系统 |
CN117892355B (zh) * | 2024-03-14 | 2024-05-24 | 蓝象智联(杭州)科技有限公司 | 一种基于隐私保护的多方数据联合分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021179720A1 (zh) | 基于联邦学习的用户数据分类方法、装置、设备及介质 | |
CN115907043A (zh) | 基于多方多模型隐私求交的联邦学习内容推送方法及装置 | |
CN108833458B (zh) | 一种应用推荐方法、装置、介质及设备 | |
WO2010065108A1 (en) | Estimating influence | |
CN111695675A (zh) | 联邦学习模型训练方法及相关设备 | |
WO2019019649A1 (zh) | 投资组合产品的生成方法、装置、存储介质和计算机设备 | |
CN106599725B (zh) | 图数据发布的随机化隐私保护方法 | |
CN109687952A (zh) | 数据处理方法及其装置、电子装置及存储介质 | |
CN114818000B (zh) | 隐私保护的集合混淆求交方法、系统及相关设备 | |
Einmahl et al. | Testing the multivariate regular variation model | |
CN114254353A (zh) | 基于隐私保护的数据处理方法、装置和服务器 | |
CN112685788B (zh) | 数据处理方法和装置 | |
Chernov et al. | Supermartingales in prediction with expert advice | |
Song et al. | Group decision making with hesitant fuzzy linguistic preference relations based on multiplicative DEA cross-efficiency and stochastic acceptability analysis | |
CN113807736A (zh) | 一种数据质量评估方法、计算机设备及存储介质 | |
CN110443061A (zh) | 一种数据加密方法和装置 | |
CN115545088B (zh) | 模型构建方法、分类方法、装置和电子设备 | |
CN114331388B (zh) | 基于联邦学习的薪资计算方法、装置、设备及存储介质 | |
CN116049254A (zh) | 一种基于数据库的数据资产统计方法 | |
CN114723239A (zh) | 一种多方协同建模方法、装置、设备、介质及程序产品 | |
CN113989036A (zh) | 一种不暴露入模变量的联邦学习预测方法及系统 | |
CN114298699A (zh) | 非同质化代币的生成方法、获取方法及装置 | |
TWI704469B (zh) | 一種資料統計方法和裝置 | |
CN105913270A (zh) | 一种企业信用评估方法及装置 | |
Acs et al. | The digital ecosystem around the world: a composite indicator analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 1118, No.4, Lane 800, Tongpu Road, Putuo District, Shanghai 200062 Applicant after: SHANGHAI QIYU INFORMATION TECHNOLOGY Co.,Ltd. Address before: 201500 room a1-5962, 58 Fumin Branch Road, Hengsha Township, Chongming District, Shanghai (Shanghai Hengtai Economic Development Zone) Applicant before: SHANGHAI QIYU INFORMATION TECHNOLOGY Co.,Ltd. Country or region before: China |