CN117313897A - 群组特征的联邦学习的数据处理方法、系统及相关装置 - Google Patents
群组特征的联邦学习的数据处理方法、系统及相关装置 Download PDFInfo
- Publication number
- CN117313897A CN117313897A CN202311406055.8A CN202311406055A CN117313897A CN 117313897 A CN117313897 A CN 117313897A CN 202311406055 A CN202311406055 A CN 202311406055A CN 117313897 A CN117313897 A CN 117313897A
- Authority
- CN
- China
- Prior art keywords
- samples
- group
- initiator
- participant
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 239000003999 initiator Substances 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 238000007477 logistic regression Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013475 authorization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种群组特征的联邦学习的数据处理方法、系统及相关装置,所述方法包括:通过发起方和参与方将第一样本集和第二样本集进行样本对齐;通过发起方采用预设分组规则对对齐后的第一样本集进行分组,得到a组样本,a为大于1的整数;通过参与方采用预设分组规则对对齐后的第二样本集进行分组,得到b组样本,b为大于1的整数;通过发起方对a组样本进行运算,得到a个群组样本;通过参与方对b组样本进行运算,得到b个群组样本;通过发起方和参与方根据a个群组样本和b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。本申请实施例可以实现联邦学习中个体特征数据未经授权直接使用。
Description
技术领域
本申请涉及隐私计算技术领域以及计算机技术领域,具体涉及一种群组特征的联邦学习的数据处理方法、系统及相关装置。
背景技术
随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,对用户数据隐私和安全管理的日趋严格将是世界趋势,这为数据分析工作带来了前所未有的挑战。在实际应用之中,不同领域的数据往往存在着很大的互补性,不同组织间有着很大的数据融合需求。然而,基于隐私保护、自身利益和政策监管等因素考虑,各组织间很难将数据进行直接聚合。这种数据孤岛问题给人工智能研究者们提出了很大挑战。
近年来,学术界和工业界开始使用联邦学习的方案来解决这样问题。联邦学习利用密码学、机器学习等知识,力求在保证数据隐私安全及合法合规的前提下提升AI模型的实际效果。其中纵向联邦学习(数据样本一致、特征维度互补)在企业间的使用尤为广泛,但常常涉及到明细数据的访问权限和隐私问题。
在纵向联邦学习计算过程中,需要使用对齐后个体的特征数据。已有的全匿踪联邦学习解决了在不需要对齐结果的情况下完成模型训练的问题,但仍然涉及使用未经授权的历史个体数据,个体数据合规使用需要授权的问题仍然存在。
发明内容
本申请实施例提供了一种群组特征的联邦学习的数据处理方法、系统及相关装置,可以实现联邦学习中个体特征数据未经授权直接使用。
第一方面,本申请实施例提供一种群组特征的联邦学习的数据处理方法,应用于两方计算系统,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;所述方法包括:
通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐;
通过所述发起方采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数;
通过所述参与方采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数;
通过所述发起方对所述a组样本进行运算,得到a个群组样本;
通过所述参与方对所述b组样本进行运算,得到b个群组样本;
通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
第二方面,本申请实施例提供了一种两方计算系统,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;其中,
所述发起方和所述参与方,用于将所述第一样本集和所述第二样本集进行样本对齐;
所述发起方,用于采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数;
所述参与方,用于采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数;
所述发起方,用于对所述a组样本进行运算,得到a个群组样本;
所述参与方,用于对所述b组样本进行运算,得到b个群组样本;
所述发起方和所述参与方,还用于根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的群组特征的联邦学习的数据处理方法、系统及相关装置,应用于两方计算系统,两方计算系统包括:发起方和参与方,发起方包括第一样本集,参与方包括第二样本集,第一样本集和第二样本集两者所拥有的标签类型的数量相同;通过发起方和参与方将第一样本集和第二样本集进行样本对齐,通过发起方采用预设分组规则对对齐后的第一样本集进行分组,得到a组样本,a为大于1的整数,通过参与方采用预设分组规则对对齐后的第二样本集进行分组,得到b组样本,b为大于1的整数,通过发起方对a组样本进行运算,得到a个群组样本,通过参与方对b组样本进行运算,得到b个群组样本,通过发起方和参与方根据a个群组样本和b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛,不仅可以解决联邦学习中个体特征数据未经授权无法直接使用的难题,还可以提升实际应用场景中模型的计算速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种用于实现群组特征的联邦学习的数据处理方法的两方计算系统的架构示意图;
图2是本申请实施例提供的一种群组特征的联邦学习的数据处理方法的流程示意图;
图3是本申请实施例提供的一种群组特征的联邦学习的数据处理方法的又一流程示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所描述的发起方、参与方均可以包括电子设备,电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、行车记录仪、服务器、笔记本电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备(如智能手表、蓝牙耳机)等,上述仅是举例,而非穷举,包含但不限于上述电子设备,该电子设备也可以为云服务器,或者,该电子设备也可以为计算机集群。
下面对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种用于实现群组特征的联邦学习的数据处理方法的两方计算系统的架构示意图,如图所示,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;基于该两方计算系统可以实现如下功能:
所述发起方和所述参与方,用于将所述第一样本集和所述第二样本集进行样本对齐;
所述发起方,用于采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数;
所述参与方,用于采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数;
所述发起方,用于对所述a组样本进行运算,得到a个群组样本;
所述参与方,用于对所述b组样本进行运算,得到b个群组样本;
所述发起方和所述参与方,还用于根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
可选的,在所述根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,包括:
所述发起方,用于将所述a个群组样本打乱,将打乱顺序同步给所述参与方;
所述参与方,用于按照所述打乱顺序将所述b个群组样本进行打乱;
所述发起方和所述参与方,用于根据打乱后的所述a个群组样本和打乱后的所述b个群组样本运行所述指定联邦逻辑回归算法,直到所述联邦学习模型收敛。
可选的,在所述对所述a组样本进行运算,得到a个群组样本方面,包括:
所述发起方,用于对所述a组样本进行求平均运算,得到所述a个群组样本;
所述对所述b组样本进行运算,得到b个群组样本,包括:
所述参与方,用于对所述b组样本进行求平均运算,得到所述b个群组样本。
可选的,基于该两方计算系统可以实现如下功能:
通过所述发起方获取p个第一测试群体特征;通过收敛后的所述联邦学习算法对所述p个第一测试群体特征进行预测,得到p个第一样本预测概率,p为正整数;
通过所述参与方获取q个第二测试群体特征;通过收敛后的所述联邦学习算法对所述q个第二测试群体特征进行预测,得到q个第二样本预测概率,q为正整数;
通过所述发起方根据所述p个第一样本预测概率和所述q个第二样本预测概率确定所述联邦学习模型的目标模型评估值。
可选的,所述将所述第一样本集和所述第二样本集进行样本对齐,包括:
所述发起方和所述参与方,用于采用隐私求交算法将所述第一样本集和所述第二样本集进行样本对齐。
请参阅图2,图2是本申请实施例提供的一种群组特征的联邦学习的数据处理方法的流程示意图,应用于两方计算系统,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;如图所示,本群组特征的联邦学习的数据处理方法包括:
201、通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐。
本申请实施例中,两方计算系统可以包括:发起方和参与方,发起方包括第一样本集,第一样本集可以包括多个样本,参与方包括第二样本集,第二样本集也可以包括多个样本,第一样本集的样本数量与第二样本集的样本数量可以相同或者不同。第一样本集、第二样本集均可以被称之为训练数据。
本申请实施例中,样本即可以为需要进行联邦学习的样本,样本可以包括以下至少一种:图像、年龄数据、消费记录、身份数据、信用记录数据等等,在此不做限定。不同的标签可以对应不同的类别,标签可以是数字、词组、图形等等,在此不做限定。例如,标签可以为0或者1。
举例说明下,以银行A、银行B为例,银行A为发起方,银行B为参与方,则可以对银行A、银行B的样本进行样本对齐。
其中,第一样本集和第二样本集两者所拥有的标签类型相同,即第一样本集拥有2类标签,则第二样本集也可以拥有2类标签。
具体实现中,发起方和参与方可以通过隐私求交算法将第一样本集和第二样本集进行样本对齐。
可选的,上述步骤201,通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐,可以按照如下方式实施:
通过所述发起方和所述参与方采用隐私求交算法将所述第一样本集和所述第二样本集进行样本对齐。
本申请实施例中,发起方和参与方可以采用隐私求交算法将第一样本集和第二样本集进行样本对齐。
举例说明下,假设发起方为A,参与方为B。则A、B在不提供明细特征的前提下,先通过隐私求交技术(PSI)完成训练数据ID对齐。
202、通过所述发起方采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数。
本申请实施例中,预设分组规则可以预先设置或者系统默认,例如,预设分组规则可以为基于样本的顺序ID、样本标签进行分组,先将第一样本集进行样本标签进行分类,再将每一类的样本基于样本的顺序ID进行分组。
具体实现中,发起方可以采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数。
举例说明下,发起方A可以设定分组规则,对本方对齐后的ID进行分组。如一个可行方案是,将相同标签(正/负)的样本进行分组,每5个样本为一组。例如ID为1、5、8、13、19共五个正样本分为一组,ID为2、7、22、26、78共五个负样本分为一组...以此类推。
203、通过所述参与方采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数。
本申请实现中,发起方与参与方的分组方式相同。
本申请实施例中,发起方可以将发起方的分组方法发送给参与方。参与方可以采用预设分组规则对对齐后的第二样本集进行分组,得到b组样本,b为大于1的整数,从而,仅能知道哪些ID为一组,而并不能得知具体样本信息,从而,可以解决联邦学习中个体特征数据未经授权无法直接使用的难题。
具体实现中,a可以等于b。例如,在纵向联邦背景下,双方的分组方法相同,样本相同,持有的样本特征不同。
举例说明下,发起方A将分组方法同步给B。参与方B接收到分组方法后,同步将对齐后的相应ID分为一组。即将1、5、8、13、19共五个样本分为一组,ID为2、7、22、26、78共五个样本分为一组,...,参与方B仅能知道哪些ID为一组,而并不能得知正负样本信息。
204、通过所述发起方对所述a组样本进行运算,得到a个群组样本。
本申请实施例中,发起方可以对a组样本进行运算,得到a个群组样本,即每一组对应一个群组样本。
205、通过所述参与方对所述b组样本进行运算,得到b个群组样本。
本申请实施例中,参与方可以对b组样本进行运算,得到b个群组样本,即每一组对应一个群组样本。
可选的,上述步骤204,通过所述发起方对所述a组样本进行运算,得到a个群组样本,可以按照如下方式实施:
通过所述发起方对所述a组样本进行求平均运算,得到所述a个群组样本;
则上述步骤205,通过所述参与方对所述b组样本进行运算,得到b个群组样本,可以按照如方式实施:
通过所述参与方对所述b组样本进行求平均运算,得到所述b个群组样本。
本申请实施例中,发起方可以对a组样本进行求平均运算,得到a个群组样本,同样的,参与方也可以对b组样本进行求平均运算,得到b个群组样本。
举例说明下,A、B对分组后的样本求平均,得到群组样本。记二分类的标签为0(负样本)或1(正样本),标签为0的样本记为标签为1的样本记为/>每m个相同标签的数据分为一组,对其求均值得到群组样本/>具体如下:
其中,表示群组特征,m为每一组中相同标签的数据的数量,/>表示A或者B标签为0的样本,/>表示A或B标签为1的样本,k表示每一组的起始序号。
其中,针对A、B中每一类标签均可以有相应的群组样本,每一类标签有几个组,便有几个相应的群组样本。
206、通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
本申请实施例中,运行指定联邦逻辑回归算法可以预先设置或者系统默认,例如,指定联邦逻辑回归算法可以包括batchsize为1的联邦逻辑回归算法,即联邦逻辑回归算法中参数batchsize=1。
本申请实施例中,可以通过构建群组特征的方法对联邦学习模型进行了优化,保证模型精度的前提下,提高了联邦学习的训练效率,解决了在现有的法律法规条件下,个体数据未经授权时,联邦学习模型使用受限的问题,另外,还可以提升实际应用场景中模型的计算速度,通过压缩样本后计算效率得到显著提升。
实际应用中,本申请实施例中的优化方法效果较为显著,在大样本量的预测结果上有良好表现。
可选的,上述步骤206,通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,可以包括如下步骤:
61、通过所述发起方将所述a个群组样本打乱,将打乱顺序同步给所述参与方;
62、通过所述参与方按照所述打乱顺序将所述b个群组样本进行打乱;
63、通过所述发起方和所述参与方根据打乱后的所述a个群组样本和打乱后的所述b个群组样本运行所述指定联邦逻辑回归算法,直到所述联邦学习模型收敛。
本申请实施例中,发起方可以将a个群组样本打乱,将打乱顺序同步给参与方,参与方按照打乱顺序将b个群组样本进行打乱,即发起方与参与方均按照相同的打乱顺序进行打乱,再通过发起方和参与方根据打乱后的a个群组样本和打乱后的b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
举例说明下,发起方A将本方的群组样本打乱,并将打乱后顺序同步至B方,参与方B接收打乱后顺序,按接收顺序打乱本方群组样本,A、B双方进行batchsize为1的联邦逻辑回归算法,直至模型收敛,并获得模型参数。
可选的,还可以包括如下步骤:
A1、通过所述发起方获取p个第一测试群体特征;通过收敛后的所述联邦学习算法对所述p个第一测试群体特征进行预测,得到p个第一样本预测概率,p为正整数;
A2、通过所述参与方获取q个第二测试群体特征;通过收敛后的所述联邦学习算法对所述q个第二测试群体特征进行预测,得到q个第二样本预测概率,q为正整数;
A3、通过所述发起方根据所述p个第一样本预测概率和所述q个第二样本预测概率确定所述联邦学习模型的目标模型评估值。
本申请实施例中,p个第一测试群体特征可以理解为发起方的测试集样本的群组特征,其可以采用上述生成群里样本的方式得到,p为正整数。类似的,对应的,q个第二测试群体特征可以理解为参与方的测试集样本的群组特征,q为正整数。
本申请实施例中,发起方可以获取p个第一测试群体特征,通过收敛后的联邦学习算法对p个第一测试群体特征进行预测,得到p个第一样本预测概率。参与方可以获取q个第二测试群体特征,再通过收敛后的联邦学习算法对q个第二测试群体特征进行预测,得到q个第二样本预测概率,再由发起方根据p个第一样本预测概率和q个第二样本预测概率确定联邦学习模型的目标模型评估值。具体实现中,例如,在银行风控信贷等领域,常使用Roc曲线下的面积(Area under Curve,AUC)、KS(Kolmogorov-Smirnov)等指标来评估二分类模型的好坏。这里在双方样本平均之后,可以通过纵向联邦学习算法将双方的不同特征整合到一起进行建模。
具体实现中,也可以采用适用于群组的TOP-K recall的评价指标,该指标在银行等实际业务场景下更具有指导意义。
本申请实施例中,考虑到在纵向联邦学习的模型训练过程中,普遍存在着特征数据未经授权无法直接使用的情况,本申请实施例的主要思路来自最优化方法中的随机梯度下降法与批量梯度下降法的联系。随机梯度下降法为一个样本计算一次梯度,然后进行参数更新;批量梯度下降法为多个样本(称为一个batch)计算一次梯度,然后进行参数更新。在选择合适的学习率条件下,两者都可达到模型最优解。因此,在联邦学习中,可以只使用一个batch的融合特征(即本发明中的群组特征)来进行模型训练,而无需提供个体特征进行随机梯度下降法。但前提是双方的特征需要来自同一组,这可以通过隐私求交技术(PSI)来实现。双方在不提供特征数据的前提下利用PSI隐私求交技术对用户ID进行对齐后,发起方(含有标签方)按照标签对样本进行本地分组,每个分组内样本平均后得一个新样本,将新样本命名为群组样本,新样本的标签为该组所对应的标签,并将分组方法同步给参与方(特征提供方),参与方按照同样方法对其后的样本进行分组并平均,由此得到了一组群组样本,最后对群组样本进行联邦学习方法得到模型。
举例说明下,以两方(A、B)基于群组特征的纵向逻辑回归模型为例,其中A为发起方(含有建模标签方)、B为参与方。该发明的具体实现大致可分为三个部分,第一部分为样本分组生成群组样本,第二部分为联邦模型训练,第三部分为群体模型效果评估。
首先,生成群组样本,具体如下:
1)A、B在不提供明细特征的前提下,先通过隐私求交技术(PSI)完成训练数据ID对齐。
2)发起方A设定分组规则,对本方对齐后的ID进行分组。如一个可行方案是,将相同标签(正/负)的样本进行分组,每5个样本为一组。例如ID为1、5、8、13、19共五个正样本分为一组,ID为2、7、22、26、78共五个负样本分为一组...以此类推。
3)发起方A将分组方法同步给B。参与方B接收到分组方法后,同步将对齐后的相应ID分为一组。即将1、5、8、13、19共五个样本分为一组,ID为2、7、22、26、78共五个样本分为一组,...,B仅能知道哪些ID为一组,而并不能得知正负样本信息。
4)A、B对分组后的样本求平均,得到群组样本。记二分类的标签为0(负样本)或1(正样本),标签为0的样本记为标签为1的样本记为/>每m个相同标签的数据分为一组,对其求均值得到群组样本/>具体如下:
其中,表示群组特征,m为每一组中相同标签的数据的数量,/>表示A或者B标签为0的样本,/>表示A或B标签为1的样本,k表示每一组的起始序号。
其次,联邦模型训练,具体如下:
1)发起方A将本方的群组样本打乱,并将打乱后顺序同步至B方。
2)参与方B接收打乱后顺序,按接收顺序打乱本方群组样本。
3)A、B双方进行batchsize为1的联邦逻辑回归算法,直至模型收敛,并获得模型参数。
最后,群体模型效果评估可以包括如下步骤1)、2):
1)测试集样本也没有特征数据授权时,则根据第一部分的步骤,生成测试集的群组特征,A、B双方利用获得的联邦学习模型参数对测试集群组样本进行模型预测。
2)基于预测值计算二分类评估指标即可。
即可以基于上述二分类评估指标确定最终的群体模型效果评估。
当然,最后,群体模型效果评估可以包括如下步骤3)、步骤4):
3)测试集样本拥有特征数据授权的前提下,A、B双方利用获得的联邦学习模型参数对测试集样本进行模型预测,得到每个样本预测概率。
4)计算TOP-K recall值进行评估,即计算0%-100%正样本的召回率,查看前K%正例的recall值这一指标。
值得注意的是,测试集一般模拟的是真实预测的场景,也就是说,针对的是新样本。而新样本是可以在访问时,进行数据授权声明的,因此,步骤3)、步骤4)在银行等实际业务场景下更具有指导意义,利用每个样本预测概率计算TOP-K recall值进行评估,具体为:计算排名前k%正例的号召率,从而,可以得到最终的群体模型效果评估结果。
再举例说明下,如图3所示,发起方A、参与方B通过PSI技术求交;发起方A对样本分组,将分组方法B同步给参与方B;两方对分组样本求平均得到群组特征;发起方A将本方的群组样本打乱,并将打乱后顺序同步给B方;参与方B接收打乱后顺序,按接收顺序打乱本方群组样本;A、B双方进行bacthsize为1的联邦逻辑回归算法建模;群体模型效果评估。
本申请实施例中,在不损失模型精度和准确率的前提下,通过设计用群组样本代替个体样本建模的思想,有效地保护了个体数据的隐私。并给出了新的模型评估指标,在银行场景下具有参考意义。
可以看出,本申请实施例中所描述的群组特征的联邦学习的数据处理方法,应用于两方计算系统,两方计算系统包括:发起方和参与方,发起方包括第一样本集,参与方包括第二样本集,第一样本集和第二样本集两者所拥有的标签类型的数量相同;通过发起方和参与方将第一样本集和第二样本集进行样本对齐,通过发起方采用预设分组规则对对齐后的第一样本集进行分组,得到a组样本,a为大于1的整数,通过参与方采用预设分组规则对对齐后的第二样本集进行分组,得到b组样本,b为大于1的整数,通过发起方对a组样本进行运算,得到a个群组样本,通过参与方对b组样本进行运算,得到b个群组样本,通过发起方和参与方根据a个群组样本和b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛,不仅可以解决联邦学习中个体特征数据未经授权无法直接使用的难题,还可以提升实际应用场景中模型的计算速度。
与上述实施例一致地,请参阅图4,图4是本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,应用于两方计算系统,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;本申请实施例中,上述程序包括用于执行以下步骤的指令:
通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐;
通过所述发起方采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数;
通过所述参与方采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数;
通过所述发起方对所述a组样本进行运算,得到a个群组样本;
通过所述参与方对所述b组样本进行运算,得到b个群组样本;
通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
可选的,在所述通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法方面,上述程序包括用于执行以下步骤的指令:
通过所述发起方将所述a个群组样本打乱,将打乱顺序同步给所述参与方;
通过所述参与方按照所述打乱顺序将所述b个群组样本进行打乱;
通过所述发起方和所述参与方根据打乱后的所述a个群组样本和打乱后的所述b个群组样本运行所述指定联邦逻辑回归算法,直到所述联邦学习模型收敛。
可选的,在所述通过所述发起方对所述a组样本进行运算,得到a个群组样本方面,上述程序包括用于执行以下步骤的指令:
通过所述发起方对所述a组样本进行求平均运算,得到所述a个群组样本;
则在所述通过所述参与方对所述b组样本进行运算,得到b个群组样本方面,上述程序包括用于执行以下步骤的指令:
通过所述参与方对所述b组样本进行求平均运算,得到所述b个群组样本。
可选的,上述程序还包括用于执行以下步骤的指令:
通过所述发起方获取p个第一测试群体特征;通过收敛后的所述联邦学习算法对所述p个第一测试群体特征进行预测,得到p个第一样本预测概率,p为正整数;
通过所述参与方获取q个第二测试群体特征;通过收敛后的所述联邦学习算法对所述q个第二测试群体特征进行预测,得到q个第二样本预测概率,q为正整数;
通过所述发起方根据所述p个第一样本预测概率和所述q个第二样本预测概率确定所述联邦学习模型的目标模型评估值。
可选的,在所述通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐方面,上述程序包括用于执行以下步骤的指令:
通过所述发起方和所述参与方采用隐私求交算法将所述第一样本集和所述第二样本集进行样本对齐。
可以看出,本申请实施例中所描述的电子设备,应用于两方计算系统,两方计算系统包括:发起方和参与方,发起方包括第一样本集,参与方包括第二样本集,第一样本集和第二样本集两者所拥有的标签类型的数量相同;通过发起方和参与方将第一样本集和第二样本集进行样本对齐,通过发起方采用预设分组规则对对齐后的第一样本集进行分组,得到a组样本,a为大于1的整数,通过参与方采用预设分组规则对对齐后的第二样本集进行分组,得到b组样本,b为大于1的整数,通过发起方对a组样本进行运算,得到a个群组样本,通过参与方对b组样本进行运算,得到b个群组样本,通过发起方和参与方根据a个群组样本和b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛,不仅可以解决联邦学习中个体特征数据未经授权无法直接使用的难题,还可以提升实际应用场景中模型的计算速度。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种群组特征的联邦学习的数据处理方法,其特征在于,应用于两方计算系统,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;所述方法包括:
通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐;
通过所述发起方采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数;
通过所述参与方采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数;
通过所述发起方对所述a组样本进行运算,得到a个群组样本;
通过所述参与方对所述b组样本进行运算,得到b个群组样本;
通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
2.根据权利要求1所述的方法,其特征在于,所述通过所述发起方和所述参与方根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,包括:
通过所述发起方将所述a个群组样本打乱,将打乱顺序同步给所述参与方;
通过所述参与方按照所述打乱顺序将所述b个群组样本进行打乱;
通过所述发起方和所述参与方根据打乱后的所述a个群组样本和打乱后的所述b个群组样本运行所述指定联邦逻辑回归算法,直到所述联邦学习模型收敛。
3.根据权利要求1或2所述的方法,其特征在于,所述通过所述发起方对所述a组样本进行运算,得到a个群组样本,包括:
通过所述发起方对所述a组样本进行求平均运算,得到所述a个群组样本;
则所述通过所述参与方对所述b组样本进行运算,得到b个群组样本,包括:
通过所述参与方对所述b组样本进行求平均运算,得到所述b个群组样本。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
通过所述发起方获取p个第一测试群体特征;通过收敛后的所述联邦学习算法对所述p个第一测试群体特征进行预测,得到p个第一样本预测概率,p为正整数;
通过所述参与方获取q个第二测试群体特征;通过收敛后的所述联邦学习算法对所述q个第二测试群体特征进行预测,得到q个第二样本预测概率,q为正整数;
通过所述发起方根据所述p个第一样本预测概率和所述q个第二样本预测概率确定所述联邦学习模型的目标模型评估值。
5.根据权利要求1或2所述的方法,其特征在于,所述通过所述发起方和所述参与方将所述第一样本集和所述第二样本集进行样本对齐,包括:
通过所述发起方和所述参与方采用隐私求交算法将所述第一样本集和所述第二样本集进行样本对齐。
6.一种两方计算系统,其特征在于,所述两方计算系统包括:发起方和参与方,所述发起方包括第一样本集,所述参与方包括第二样本集,所述第一样本集和所述第二样本集两者所拥有的标签类型的数量相同;其中,
所述发起方和所述参与方,用于将所述第一样本集和所述第二样本集进行样本对齐;
所述发起方,用于采用预设分组规则对对齐后的所述第一样本集进行分组,得到a组样本,a为大于1的整数;
所述参与方,用于采用所述预设分组规则对对齐后的所述第二样本集进行分组,得到b组样本,b为大于1的整数;
所述发起方,用于对所述a组样本进行运算,得到a个群组样本;
所述参与方,用于对所述b组样本进行运算,得到b个群组样本;
所述发起方和所述参与方,还用于根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,直到联邦学习模型收敛。
7.根据权利要求6所述的系统,其特征在于,在所述根据所述a个群组样本和所述b个群组样本运行指定联邦逻辑回归算法,包括:
所述发起方,用于将所述a个群组样本打乱,将打乱顺序同步给所述参与方;
所述参与方,用于按照所述打乱顺序将所述b个群组样本进行打乱;
所述发起方和所述参与方,用于根据打乱后的所述a个群组样本和打乱后的所述b个群组样本运行所述指定联邦逻辑回归算法,直到所述联邦学习模型收敛。
8.根据权利要求6或7所述的系统,其特征在于,在所述对所述a组样本进行运算,得到a个群组样本方面,包括:
所述发起方,用于对所述a组样本进行求平均运算,得到所述a个群组样本;
所述对所述b组样本进行运算,得到b个群组样本,包括:
所述参与方,用于对所述b组样本进行求平均运算,得到所述b个群组样本。
9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311406055.8A CN117313897A (zh) | 2023-10-26 | 2023-10-26 | 群组特征的联邦学习的数据处理方法、系统及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311406055.8A CN117313897A (zh) | 2023-10-26 | 2023-10-26 | 群组特征的联邦学习的数据处理方法、系统及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117313897A true CN117313897A (zh) | 2023-12-29 |
Family
ID=89262132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311406055.8A Pending CN117313897A (zh) | 2023-10-26 | 2023-10-26 | 群组特征的联邦学习的数据处理方法、系统及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313897A (zh) |
-
2023
- 2023-10-26 CN CN202311406055.8A patent/CN117313897A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399742B (zh) | 一种联邦迁移学习模型的训练、预测方法及装置 | |
CN110189192B (zh) | 一种信息推荐模型的生成方法及装置 | |
Chen et al. | An edge traffic flow detection scheme based on deep learning in an intelligent transportation system | |
CN113688855B (zh) | 数据处理方法、联邦学习的训练方法及相关装置、设备 | |
CN106203333A (zh) | 人脸识别方法及系统 | |
CN113505882B (zh) | 基于联邦神经网络模型的数据处理方法、相关设备及介质 | |
CN111612167B (zh) | 机器学习模型的联合训练方法、装置、设备及存储介质 | |
CN110059465A (zh) | 身份验证方法、对抗生成网络的训练方法、装置及设备 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN112862001A (zh) | 一种隐私保护下的去中心化数据建模方法 | |
Zhang et al. | Security and privacy threats to federated learning: Issues, methods, and challenges | |
Liu et al. | D2MIF: A malicious model detection mechanism for federated learning empowered artificial intelligence of things | |
CN109800730A (zh) | 用于生成头像生成模型的方法和装置 | |
WO2023071105A1 (zh) | 一种特征变量的分析方法、装置、计算机设备及存储介质 | |
CN116862012A (zh) | 机器学习模型训练方法、业务数据处理方法、装置及系统 | |
Wang et al. | Eccnas: Efficient crowd counting neural architecture search | |
CN114448601A (zh) | 基于端边云架构的分布式联邦学习的安全防御方法及应用 | |
Yang et al. | A general steganographic framework for neural network models | |
CN114723012A (zh) | 基于分布式训练系统的计算方法和装置 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN116957112A (zh) | 联合模型的训练方法、装置、设备及存储介质 | |
CN117313897A (zh) | 群组特征的联邦学习的数据处理方法、系统及相关装置 | |
CN115544557A (zh) | 一种基于联邦学习的区块链人脸识别系统 | |
Xie et al. | Research and application of intrusion detection method based on hierarchical features | |
CN113254989A (zh) | 目标数据的融合方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |