CN112686391A - 基于联邦学习的建模方法及装置、设备、存储介质 - Google Patents

基于联邦学习的建模方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN112686391A
CN112686391A CN202011611478.XA CN202011611478A CN112686391A CN 112686391 A CN112686391 A CN 112686391A CN 202011611478 A CN202011611478 A CN 202011611478A CN 112686391 A CN112686391 A CN 112686391A
Authority
CN
China
Prior art keywords
task
learning
output
federal
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011611478.XA
Other languages
English (en)
Inventor
林冰垠
范涛
陈天健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011611478.XA priority Critical patent/CN112686391A/zh
Publication of CN112686391A publication Critical patent/CN112686391A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种基于联邦学习的建模方法及装置、设备、存储介质,该方法利用已完成的第一联邦学习任务中算法组件的输出数据或输出模型,直接用于第二联邦学习任务,以获得建模结果,而不必为了获得建模结果,在第二联邦学习任务中再次执行第一联邦学习任务。从而可以在执行第二联邦学习任务时,减少任务执行的工作量和时间,解决现有的联邦学习建模效率低的技术问题,提高联邦学习建模效率,节约资源消耗。

Description

基于联邦学习的建模方法及装置、设备、存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于联邦学习的建模方法及装置、设备、存储介质。
背景技术
联邦学习是一种共享的机器学习模式,它可以解决数据孤岛的问题,通过多方协作,获得共享的机器学习模型。由于其在模型训练过程中需要进行多方交互,例如,模型训练过程中参与各方要进行中间加密结果的交互,并且在同等运行环境下,随着模型迭代次数的增加和模型复杂度的增加,模型训练时长需要更多,因此,联邦学习较普通机器学习运行时长更长。
在实际建模生产应用中,任务复用经常遇到,而现有任务复用通常做法是将该任务的配置信息复用到新的任务中,或在此基础上修改和调整配置。虽然减少了任务配置的麻烦,但新任务同样需要重新启动运行,导致建模效率低。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种基于联邦学习的建模方法及装置、设备、存储介质,旨在解决现有的联邦学习建模效率低的技术问题。
为实现上述目的,本申请提供一种基于联邦学习的建模方法,所述方法包括:
获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;
利用所述任务输出,执行第二联邦学习任务,以获得建模结果;其中,所述任务输出为所述第一联邦学习任务中算法组件的输出数据或输出模型。
可选地,若所述任务输出为所述第一联邦学习任务中算法组件的输出数据;
所述利用所述任务输出,执行第二联邦学习任务,以获得建模结果的步骤,包括:
利用所述输出数据,执行第二联邦学习任务,以获得建模结果。
可选地,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述输出数据输入待训练模型,以获得联邦学习模型。
可选地,所述算法组件为数据处理组件和/或特征工程组件;所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型,以获得多个联邦学习结果。
可选地,所述联邦学习模型包括第一纵向联邦逻辑回归模型和第二纵向联邦逻辑回归模型,所述第一纵向联邦逻辑回归模型和所述第二纵向联邦逻辑回归模型具有不同的参数配置;
所述将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型,以获得多个联邦学习结果的步骤,包括:
将所述输出数据分别输入所述第一纵向联邦逻辑回归模型和所述第二纵向联邦逻辑回归模型,以获得所述第一纵向联邦逻辑回归模型输出的第一联邦学习结果和所述第二纵向联邦逻辑回归模型输出的第二联邦学习结果。
可选地,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,还包括:
将所述输出数据分别输入不同种类的联邦学习模型,以获得多个联邦学习结果。
可选地,所述联邦学习模型还包括纵向联邦模型;
所述将所述输出数据分别输入不同种类的联邦学习模型,以获得多个联邦学习结果的步骤,包括:
将所述输出数据分别输入所述第一纵向联邦逻辑回归模型和所述纵向联邦模型,以获得所述第一纵向联邦逻辑回归模型输出的第一联邦学习结果和所述纵向联邦模型输出的第三联邦学习结果。
可选地,所述第一联邦学习任务包括多个子任务,所述输出数据包括所述多个子任务中子算法组件的多个输出子数据;
所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果。
可选地,所述第二联邦学习任务包括利用模型评估组件进行模型训练评估;所述子算法组件为模型训练组件,所述多个输出子数据为多个模型训练结果数据;
所述基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述多个模型训练结果数据输入模型评估组件,以进行模型训练评估。
可选地,所述第二联邦学习任务还包括联邦处理;所述子算法组件为数据切片组件,所述多个输出子数据为多个切片数据;
所述基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述多个切片数据进行联邦处理,以获得联邦数据;
将所述联邦数据输入待训练模型,以获得联邦学习模型。
可选地,所述联邦处理包括联邦求交集,所述联邦数据包括多个联邦交集数据;
所述将所述多个切片数据进行联邦处理,以获得联邦数据的步骤,具体包括:
将所述多个切片数据进行联邦求交集,以获得多个联邦交集数据;
所述所述联邦数据输入待训练模型,以获得联邦学习模型的步骤,具体包括:
将多个所述联邦交集数据输入待训练模型,以获得联邦学习模型。
可选地,若所述任务输出为所述第一联邦学习任务中算法组件的输出模型;
所述利用所述任务输出,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将输出模型和目标数据输入至与所述输出模型同类的待处理模型组件中,以获得建模结果。
此外,为实现上述目的,本申请还提出一种基于联邦学习的建模装置,所述装置包括:
任务获取模块,用于获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;
任务执行模块,用于利用所述任务输出,执行第二联邦学习任务,以获得建模结果。
此外,为实现上述目的,本申请还提供一种电子设备,所述设备包括处理器,存储器以及存储在所述存储器中的基于联邦学习的建模程序,所述基于联邦学习的建模程序被处理器运行时实现如上述基于联邦学习的建模方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机存储介质,所述计算机存储介质上存储有基于联邦学习的建模程序,所述基于联邦学习的建模程序被处理器运行时实现如上述基于联邦学习的建模方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
本申请所能实现的有益效果。
本申请实施例提出的一种基于联邦学习的建模方法,该方法利用已完成的第一联邦学习任务中算法组件的输出数据或输出模型,直接用于第二联邦学习任务,以获得建模结果,而不必为了获得建模结果,在第二联邦学习任务中再次执行第一联邦学习任务。从而可以在执行第二联邦学习任务时,减少任务执行的工作量和时间,解决现有的联邦学习建模效率低的技术问题,提高联邦学习建模效率,节约资源消耗。
附图说明
图1为本申请实施例涉及的硬件运行环境的电子设备结构示意图;
图2为本申请实施例中基于联邦学习的建模方法流程示意图;
图3为本申请实施例中跨任务数据复用的第一种任务执行流程示意图;
图4为本申请实施例中跨任务数据复用的第二种任务执行流程示意图;
图5为本申请实施例中跨任务数据复用的第三种任务执行流程示意图;
图6为本申请实施例中跨任务数据复用的第四种任务执行流程示意图;
图7为本申请实施例中跨任务数据重叠复用的第一种任务执行流程示意图;
图8(a)和图8(b)为本申请实施例中跨任务数据重叠复用的第二种任务执行流程示意图;
图9(a)和图9(b)为本申请实施例中跨任务数据重叠复用的第三种任务执行流程示意图;
图10为本申请实施例中跨任务模型复用的任务执行流程示意图;
图11为本申请实施例中基于联邦学习的建模装置结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请实施例的主要解决方案是:一种基于联邦学习的建模方法,该方法包括:获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;利用所述任务输出,执行第二联邦学习任务,以获得建模结果;其中,所述任务输出为所述第一联邦学习任务中算法组件的输出数据或输出模型。
联邦机器学习又名联邦学习、联合学习、联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。针对不同数据集,联邦学习分为横向联邦学习(horizontalfederated learning)、纵向联邦学习(vertical federated learning)与联邦迁移学习(Federated Transfer Learning,FmL)。以纵向联邦学习为例,假设包含两个数据拥有方(即企业A和B)的联邦学习构架(该构架可扩展至包含多个数据拥有方的场景)。假设企业A和B想联合训练一个机器学习模型,它们的业务系统分别拥有各自用户的相关数据。此外,企业B还拥有模型需要预测的标签数据。出于数据隐私和安全考虑,A和B无法直接进行数据交换。此时,可使用联邦学习系统建立模型,直接分别利用A和B的数据进行训练,只是对训练过程中的中间数据进行加密交互,最后获得模型。
由于联邦学习的算法在运行过程中需要多方进行交互,例如,模型训练过程中参与各方要进行中间加密结果的交互,并且在同等运行环境下,随着模型迭代次数的增加和模型复杂度的增加,模型训练时长需要更多,例如,对于一般配置的混合运行环境配置(机器数量、cpu、内存等),通常10w级别数据量以上的模型训练,需耗时几小时~十几小时不等。因此,联邦学习较普通机器学习运行时长更长。
具体的,在实际联邦学习建模生产应用中,有如下几个场景通常比较耗时耗力:1)如果需要同时进行不同参数配置下的多个模型效果的对比。没有提前配置好参数时,只能在一个联邦学习任务结束后再次修改参数配置重新启动任务运行,或者提前配置好多个任务参数后同时启动。前者是任务串行耗费大量的运行时间(联邦学习建模通常比机器学习的运行时长更长)、后者是多任务并行但依然消耗大量的环境和机器资源;2)如果需要利用其他已运行完成的任务,通常做法是将该任务的配置信息复用到新的任务中,或在此基础上修改和调整配置,虽然减少了任务配置的麻烦,但仍需在新任务中重新启动执行已完成的任务,同样耗费时间较长。
如果能够将一个联邦学习任务的部分嫁接至另一个任务中——即进行联邦跨任务复用,就能够解决上述的两个场景的问题,从而大大减少运行时间、节省对机器等资源等消耗,从而提高效率、降低成本。为此,本申请提供一种解决方案,利用已完成的第一联邦学习任务中算法组件的输出数据或输出模型,直接用于第二联邦学习任务,以获得建模结果,而不必为了获得建模结果,在第二联邦学习任务中再次执行第一联邦学习任务。从而可以在执行第二联邦学习任务时,减少任务执行的工作量和时间,解决现有的联邦学习建模效率低的技术问题,提高联邦学习建模效率,节约资源消耗。
参照图1,图1为本申请实施例方案涉及的硬件运行环境的电子设备结构示意图。
如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及电子程序。
在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理器1001调用存储器1005中存储的基于联邦学习的建模方法程序,并执行本申请实施例提供的基于联邦学习的建模方法。
参照图2,本申请提供一种基于联邦学习的建模方法,所述方法包括:
S20、获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;
S40、利用所述任务输出,执行第二联邦学习任务,以获得建模结果;其中,所述任务输出为所述第一联邦学习任务中算法组件的输出数据或输出模型。
需要说明的是,在本实施例中,在执行第二联邦学习任务时,可以理解为第一联邦学习任务为第二联邦学习任务的一部分。即,按照现有的方法,为了执行第二联邦学习任务,需要将第一联邦学习任务的执行过程添加到第二联邦学习任务中,以使在执行第二联邦学习任务时,需要再次执行第一联邦学习任务,才能获得第二联邦学习任务的任务输出。而本实施例的复用方法,直接将第一联邦学习任务的输出“嫁接”至第二联邦学习任务中,在执行第二联邦学习任务并获得任务输出的过程中不再执行第一联邦学习任务,而是直接利用第一联邦学习任务的任务输出,因此,可以提高建模的效率。
进一步的理解,联邦学习的跨任务复用是指基于旧任务(即本实施例中的第一联邦学习任务)的基础上创建并运行新的任务(即本实施例中的第二联邦学习任务),即将旧任务的部分算法算子“嫁接”至新的任务中,新任务只需要配置不同的算法部分,而运行新任务的时候也不需要重新运行“嫁接部分”,只需运行新增的部分。
在具体实施过程中,可以利用代码实现将旧任务的部分算法算子“嫁接”至新的任务算法中,新任务只需要配置不同的算法部分。
在本实施例中,联邦学习的跨任务复用可以包括跨任务的输出数据复用和跨任务的输出模型复用。
接下来,结合图2,具体介绍一下本实施例的步骤执行过程中如何实现跨任务的输出数据复用和跨任务的输出模型复用。
首先,执行S20、获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务。
在具体实施过程中,第一联邦学习任务可以是机器学习的模型训练,具体的,可以包括模型训练前的数据和特征处理,也可以包括处理后的数据输入模型进行训练的过程。需要说明的是,在本实施例中,具体的模型种类不受限制,例如逻辑回归(lr)等。
而为了后续直接利用第一联邦学习任务的任务输出,第一联邦学习任务必须为已完成的联邦学习任务,也就是说,第一联邦学习任务已经形成输出的数据或者训练完成的模型。
接下来,执行S40、利用所述任务输出,执行第二联邦学习任务,以获得建模结果;其中,所述任务输出为所述第一联邦学习任务中算法组件的输出数据或输出模型。
在具体实施过程中,与第一联邦学习任务一样,第二联邦学习任务也可以是机器学习的模型训练,具体的,可以包括模型训练前的数据和特征处理,也可以包括处理后的数据输入模型进行训练的过程。
在本实施例中,任务输出为所述第一联邦学习任务中算法组件的输出数据或输出模型。可以理解的是,一个程序中可以有多个算法组件(即程序模块)组成,相互之间互相配合、联系,每个算法组件可以完成一个小任务,从而组成一个能完成目标任务的程序。联邦学习任务也不例外,其通常包括多个算法组件。
本实施例的方法,直接利用算法组件的输出数据或输出模型,而不是现有技术中,只是将旧任务的配置信息连同旧任务的算法一起添加到新任务中,使得在新任务执行过程中,还需要再重新执行新任务中算法组件。因此,本实施例的方法可以提高了执行效率。
下面针对任务输出为输出数据和输出模型的情况进行具体阐述。
若所述任务输出为所述第一联邦学习任务中算法组件的输出数据,即联邦学习跨任务的数据复用;
所述利用所述任务输出,执行第二联邦学习任务,以获得建模结果的步骤,包括:
利用所述输出数据,执行第二联邦学习任务,以获得建模结果。
需要说明的是,跨任务的数据复用又分为单任务复用和多任务复用,以下的第一和第二种情况单任务复用的情况。
作为第一种情况,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述输出数据输入待训练模型,以获得联邦学习模型。
在该种情况下,第二联邦学习任务为模型训练。在本实施例中,第二联邦学习任务也称为任务2,第一联邦学习任务也称为任务1。
举例来说,如图3,为跨任务数据复用的第一种任务执行流程示意图,其具体为一种纵向联邦学习的任务执行流程,其中,任务1包括table reader(表读取组件)、dataio(数据处理组件)、intersection(交集组件)、hetero_feature_binning(纵向联邦特征分箱组件)和hetero_feature_selection(纵向联邦特征选择组件)。任务2在任务1算法组件hetero_feature_selection(特征选择组件)之后连接secureboost code(特征编码组件)和逻辑回归lr,继续进行其他方式的建模;也就是说,任务2直接利用任务1算法组件hetero_feature_selection的输出数据,输入secureboost code(特征编码组件),并进行逻辑回归lr模型训练。在任务2中,不再执行任务1,而是直接将任务1的输出数据输入待训练模型,以获得联邦学习模型。
如图4,为跨任务数据复用的第二种任务执行流程示意图。任务1在纵向联邦特征选择(hetero_feature_selection)组件运行失败,任务2继续任务1中纵向联邦特征分箱(hetero_feature_binning)的输出,连接新的特征选择组件(重新配置该组件参数),并继续连接lr进行建模。
作为第二种情况,所述算法组件为数据处理组件和/或特征工程组件;
在该种实施方式中,输出数据为数据处理和/或特征工程后的数据。
作为一种实施例,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型,以获得多个联邦学习结果。
在具体实施过程中,将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型型,从而可以用于不同参数配置(即用于调参)进行模型训练后的效果对比。
具体的,所述联邦学习模型包括第一纵向联邦逻辑回归模型和第二纵向联邦逻辑回归模型,所述第一纵向联邦逻辑回归模型和所述第二纵向联邦逻辑回归模型具有不同的参数配置;
所述将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型,以获得多个联邦学习结果的步骤,包括:
将所述输出数据分别输入所述第一纵向联邦逻辑回归模型和所述第二纵向联邦逻辑回归模型,以获得所述第一纵向联邦逻辑回归模型输出的第一联邦学习结果和所述第二纵向联邦逻辑回归模型输出的第二联邦学习结果。
举例来说,可以将输出数据分别输入不同参数配置的纵向联邦逻辑回归模型lr2与lr1,以获得同一种类的多个联邦学习模型lr2和lr1。
作为另一实施例,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,还包括:
将所述输出数据分别输入不同种类的联邦学习模型,以获得多个联邦学习结果。
在具体实施过程中,将所述输出数据分别输入不同种类的联邦学习模型,从而可以用于进行多模型效果对比,而直接复用第一联邦学习任务的输出数据,可大大提高多模型效果对比的效率。
具体的,所述联邦学习模型还包括纵向联邦模型;
所述将所述输出数据分别输入不同种类的联邦学习模型,以获得多个联邦学习结果的步骤,包括:
将所述输出数据分别输入所述第一纵向联邦逻辑回归模型和所述纵向联邦模型,以获得所述第一纵向联邦逻辑回归模型输出的第一联邦学习结果和所述纵向联邦模型输出的第三联邦学习结果。
在具体实施过程中,在建模应用中,对于同一结果,可以用不同种类的模型来进行建模,例如,在进行识别或分类任务时,可以利用多种机器学习的模型,但不同种类的模型所建立的模型所达到的分类或识别效果不同,因此,在不知道那种模型效果更好时,需要对于同一份数据,进行多种模型的训练。但一般来说,在模型训练前,都涉及一些预处理,也就是说,在整个模型效果对比任务中,会涉及到一些预处理过程,作为一个完整的任务过程,现有的方法需要对比多少个模型,就需要相应的设置对应数量的完整任务,从而在每个任务中都执行预处理过程。而本实施例的方法可以直接利用预处理的输出数据,输入到多个模型中,从而获得多个结果,以进行模型效果对比。由于不会分别在每个任务中都执行预处理的过程,因此,模型效果对比的整体效率得到了提高。
举例来说,可以将输出数据分别输入纵向联邦secureboost模型和纵向联邦逻辑回归模型lr1进行对比,以获得同一种类的多个联邦学习模型lr2和lr1。
以上是针对单任务数据复用情况的说明,下面在第三种情况中,针对多任务数据复用的情况进行阐述。
作为第三种情况,所述第一联邦学习任务包括多个子任务,所述输出数据包括所述多个子任务中子算法组件的多个输出子数据;
所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,具体包括:
基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果。
在具体实施过程中,对于多任务的情况,可以参考前述单任务的实施方式,这里不再赘述。但需要说明的是,该种情况中的子任务也可以看作是正常的联邦学习任务,因此,多个子任务的情况即是多任务的情况。
在多任务数据复用的情况下,作为一种实施方式,所述第二联邦学习任务包括利用模型评估组件进行模型训练评估;所述子算法组件为模型训练组件,所述多个输出子数据为多个模型训练结果数据;
所述基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果的步骤,具体包括:
将所述多个模型训练结果数据输入模型评估组件,以进行模型训练评估。
在具体实施过程中,当子算法组件为模型训练组件,多个输出子数据为多个模型训练结果数据,本实施例的方法可用于模型评估对比。请参见图5,为跨任务数据复用的第三种任务执行流程示意图。其中,任务3和任务4的模型训练最终在各自的评估evaluation组件中进行模型评估,而任务5将任务3和任务4两个模型输出至同一个evaluation中,这样可以在一个评估报告中同时对比和分析两个模型.
作为另一种可选的实施方式,所述第二联邦学习任务还包括联邦处理;所述子算法组件为数据切片组件,所述多个输出子数据为多个切片数据;
所述基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果的步骤,具体包括:
将所述多个切片数据进行联邦处理,以获得联邦数据;
将所述联邦数据输入待训练模型,以获得联邦学习模型。
在具体实施过程中,多任务数据复用可以提高联邦模型训练的效率,此时,子算法组件为数据切片组件,所述多个输出子数据为多个切片数据。
具体的,所述联邦处理包括联邦求交集,所述联邦数据包括多个联邦交集数据;
所述将所述多个切片数据进行联邦处理,以获得联邦数据的步骤,具体包括:
将所述多个切片数据进行联邦求交集,以获得多个联邦交集数据;
所述所述联邦数据输入待训练模型,以获得联邦学习模型的步骤,具体包括:
将多个所述联邦交集数据输入待训练模型,以获得联邦学习模型
如图6所示,为跨任务数据复用的第四种任务执行流程示意图。假设数据量过大,用于联邦建模的数据经过切片可以提高求交效率,例如可以将几亿数据切片1亿为单位进行联邦取交集,切片后在单独的任务中求交(任务6~任务8),最后进行联邦union(任务9),再用于联邦模型训练。
此外,需要说明的是,对于数据复用的情况,也可以多任务重叠复用。举例来说,新任务复用旧任务的数据,该旧任务也复用了其他旧任务的数据。具体包括:
(1)在单任务数据复用的基础上进行单任务重叠复用,例如,请参见图7,任务2复用了任务1,任务3又复用了任务2;
(2)在多任务数据复用的基础上进行多任务重叠复用,例如,请参见图8(a)和(b),任务3复用了任务1和任务2,任务6又复用了任务4和任务5,任务7复用了任务3和任务6;
(3)混合单任务和多任务数据复用的基础上进行重叠复用,例如,请参见图9(a)和(b),任务3复用了任务1和任务2,任务4又复用了任务3。
以上是跨任务数据复用的实施方式阐述,下面对跨任务模型复用的实施方式进行阐述。
在具体实施过程中,若所述任务输出为所述第一联邦学习任务中算法组件的输出模型;
所述利用所述任务输出,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将输出模型和目标数据输入至与所述输出模型同类的待处理模型组件中,以获得建模结果。
具体的,待处理模型组件可以是预测模型组件或测试模型组件,建模结果可以是模型的预测或验证结果。当任务输出为所述第一联邦学习任务中算法组件的输出模型,在一种场景中,将旧任务中某个算法组件的输出模型,复用到新任务中同类算法组件中,该方式可以用于离线预测。如图10所示,为跨任务模型复用的任务执行流程示意图。当任务10中lr3完成了模型的训练后,将训练好的模型复制给任务11中的lr4,lr4在lr3的基础上直接接入预测数据集或测试数据集,就可以进行模型的预测或验证。因此,本实施例的方法可以在模型的预测或验证中,复用输出模型,提高模型的预测或验证的效率。
需要说明的是,对于模型复用的情况,也可以多任务重叠复用。举例来说,新任务复用旧任务的模型,该旧任务也复用了其他旧任务的模型。具体的复用方式可以参照类似的输出数据复用,这里不再赘述。
此外,需要说明的是,在具体操作过程中,联邦学习的跨任务复用方法无论是通过代码方式还是通过交互式可视化界面操作方式,都可以实现。
其中,代码方式中,新任务的配置文件复制需复用部分,再编辑新增部分,然后发起任务运行时,自动识别原任务ID和被复用组件ID并跳过这部分的运行,直接进行新增组件部分的运行;交互式可视化界面操作中,复制旧任务的算法组件,再连接新的算法组件,发起运行时,直接从新组件部分开始向下执行,操作简便。
交互式可视化界面操作方式也是通过底层代码实现,可以提供一个可视化的操作界面,操作界面中包括多个算法组件,各算法组件之间通过底层代码实现连接,以供用户进行任务复用的组合和选择,从而实现本实施例中的各种实施方式的任务复用。
应当理解的是,以上仅为举例说明,对本申请的技术方案并不构成任何限制,本领域的技术人员在实际应用中可以基于需要进行设置,此处不做限制。
通过上述描述不难发现,由于长文本中目标舆情所涉及的方面有限,所以可以根据有限的短文本多类别集合,来辅助准确高效的基于联邦学习的建模。
本实施例提供的基于联邦学习的建模方法,该方法利用已完成的第一联邦学习任务中算法组件的输出数据或输出模型,直接用于第二联邦学习任务,以获得建模结果,而不必为了获得建模结果,在第二联邦学习任务中再次执行第一联邦学习任务。从而可以在执行第二联邦学习任务时,减少任务执行的工作量和时间,解决现有的联邦学习建模效率低的技术问题,提高联邦学习建模效率,节约资源消耗,节约成本。
此外,本实施例的方法,可以根据实际的建模需求来使用跨任务复用,选择不同的方法和方式,可以巧妙地配置各种任务流,充分利用旧任务中可用资源,进行跨任务的组合。
请参见图8,基于与实施例一同样的发明思路,本申请的实施例还提出一种基于联邦学习的建模装置,所述装置包括:
任务获取模块,用于获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;
任务执行模块,用于利用所述任务输出,执行第二联邦学习任务,以获得建模结果。
需要说明的是,本实施中的基于联邦学习的建模装置与前述实施例一中的基于联邦学习的建模方法一一对应,因此,其各种实施方式也可以参照前述实施例中实施方式,这里不再赘述。
此外,在一种实施例中,本申请还提供一种电子设备,所述设备包括处理器,存储器以及存储在所述存储器中的基于联邦学习的建模程序,所述基于联邦学习的建模程序被处理器运行时实现如前述实施例一中基于联邦学习的建模方法的步骤。
此外,在一种实施例中,本申请还提供一种计算机存储介质,所述计算机存储介质上存储有基于联邦学习的建模程序,所述基于联邦学习的建模程序被处理器运行时实现如前述实施例一中基于联邦学习的建模方法的步骤。
此外,在一种实施例中,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现实施例一的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台多媒体终端设备(可以是手机,计算机,电视接收机,或者网络设备等)执行本申请各个实施例所述的方法
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (14)

1.一种基于联邦学习的建模方法,其特征在于,所述方法包括:
获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;
利用所述任务输出,执行第二联邦学习任务,以获得建模结果;其中,所述任务输出为所述第一联邦学习任务中算法组件的输出数据或输出模型。
2.如权利要求1所述的方法,其特征在于,若所述任务输出为所述第一联邦学习任务中算法组件的输出数据;
所述利用所述任务输出,执行第二联邦学习任务,以获得建模结果的步骤,包括:
利用所述输出数据,执行第二联邦学习任务,以获得建模结果。
3.如权利要求2所述的方法,其特征在于,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述输出数据输入待训练模型,以获得联邦学习模型;
所述算法组件为数据处理组件和/或特征工程组件;所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型,以获得多个联邦学习结果。
4.如权利要求3所述的方法,其特征在于,所述联邦学习模型包括第一纵向联邦逻辑回归模型和第二纵向联邦逻辑回归模型,所述第一纵向联邦逻辑回归模型和所述第二纵向联邦逻辑回归模型具有不同的参数配置;
所述将所述输出数据分别输入不同参数配置的同一种类的联邦学习模型,以获得多个联邦学习结果的步骤,包括:
将所述输出数据分别输入所述第一纵向联邦逻辑回归模型和所述第二纵向联邦逻辑回归模型,以获得所述第一纵向联邦逻辑回归模型输出的第一联邦学习结果和所述第二纵向联邦逻辑回归模型输出的第二联邦学习结果。
5.如权利要求3所述的方法,其特征在于,所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,还包括:
将所述输出数据分别输入不同种类的联邦学习模型,以获得多个联邦学习结果。
6.如权利要求5所述的方法,其特征在于,所述联邦学习模型还包括纵向联邦模型;
所述将所述输出数据分别输入不同种类的联邦学习模型,以获得多个联邦学习结果的步骤,包括:
将所述输出数据分别输入所述第一纵向联邦逻辑回归模型和所述纵向联邦模型,以获得所述第一纵向联邦逻辑回归模型输出的第一联邦学习结果和所述纵向联邦模型输出的第三联邦学习结果。
7.如权利要求2所述的方法,其特征在于,所述第一联邦学习任务包括多个子任务,所述输出数据包括所述多个子任务中子算法组件的多个输出子数据;
所述利用所述输出数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果。
8.如权利要求7所述的方法,其特征在于,所述第二联邦学习任务包括利用模型评估组件进行模型训练评估;所述子算法组件为模型训练组件,所述多个输出子数据为多个模型训练结果数据;
所述基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述多个模型训练结果数据输入模型评估组件,以进行模型训练评估。
9.如权利要求7所述的方法,其特征在于,所述第二联邦学习任务还包括联邦处理,所述联邦处理包括联邦求交集,所述联邦数据包括多个联邦交集数据;所述子算法组件为数据切片组件,所述多个输出子数据为多个切片数据;
所述基于所述多个输出子数据,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将所述多个切片数据进行联邦求交集,以获得多个联邦交集数据;
将多个所述联邦交集数据输入待训练模型,以获得联邦学习模型。
10.如权利要求1所述的方法,其特征在于,若所述任务输出为所述第一联邦学习任务中算法组件的输出模型;
所述利用所述任务输出,执行第二联邦学习任务,以获得建模结果的步骤,包括:
将输出模型和目标数据输入至与所述输出模型同类的待处理模型组件中,以获得建模结果。
11.一种基于联邦学习的建模装置,其特征在于,所述装置包括:
任务获取模块,用于获取第一联邦学习任务的任务输出,所述第一联邦学习任务为已完成的联邦学习任务;
任务执行模块,用于利用所述任务输出,执行第二联邦学习任务,以获得建模结果。
12.一种电子设备,其特征在于,所述设备包括处理器,存储器以及存储在所述存储器中的基于联邦学习的建模程序,所述基于联邦学习的建模程序被处理器运行时实现如权利要求1-10中任一项所述基于联邦学习的建模方法的步骤。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有基于联邦学习的建模程序,所述基于联邦学习的建模程序被处理器运行时实现如权利要求1-10中任一项所述基于联邦学习的建模方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202011611478.XA 2020-12-29 2020-12-29 基于联邦学习的建模方法及装置、设备、存储介质 Pending CN112686391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011611478.XA CN112686391A (zh) 2020-12-29 2020-12-29 基于联邦学习的建模方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011611478.XA CN112686391A (zh) 2020-12-29 2020-12-29 基于联邦学习的建模方法及装置、设备、存储介质

Publications (1)

Publication Number Publication Date
CN112686391A true CN112686391A (zh) 2021-04-20

Family

ID=75455139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011611478.XA Pending CN112686391A (zh) 2020-12-29 2020-12-29 基于联邦学习的建模方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN112686391A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237476A (zh) * 2021-11-15 2022-03-25 深圳致星科技有限公司 基于任务盒的联邦学习任务发起方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237476A (zh) * 2021-11-15 2022-03-25 深圳致星科技有限公司 基于任务盒的联邦学习任务发起方法、装置及介质
CN114237476B (zh) * 2021-11-15 2024-02-27 深圳致星科技有限公司 基于任务盒的联邦学习任务发起方法、装置及介质

Similar Documents

Publication Publication Date Title
CN108958714B (zh) 业务组件式开发方法、装置、计算机设备及存储介质
CN110427252B (zh) 基于任务依赖关系的任务调度方法、装置及存储介质
CN102193793B (zh) 一种实现软件复用的方法和装置
CN109981279B (zh) 一种区块链系统、通信方法、装置、设备及介质
CN113435846A (zh) 业务流程编排方法、装置、计算机设备及存储介质
CN112732227B (zh) 一种工作流引擎及其配置方法、装置
CN110727575B (zh) 一种信息处理方法、系统、装置、以及存储介质
US20210011743A1 (en) Method and system of instantiating persona based user interface notifications
CN113791765B (zh) 云服务的资源编排方法、装置、设备及存储介质
CN111061551A (zh) 节点的合并调度方法、装置、设备及存储介质
CN112685055A (zh) 一种集群的构建方法和装置
CN115860451A (zh) 一种流程运行方法、装置、电子设备及存储介质
CN113094125B (zh) 业务流程处理方法、装置、服务器及存储介质
CN112686391A (zh) 基于联邦学习的建模方法及装置、设备、存储介质
CN114006815B (zh) 云平台节点的自动化部署方法、装置、节点及存储介质
CN111625330A (zh) 跨线程的任务处理方法、装置、服务器及存储介质
CN116501315A (zh) 基于DevOps域的低代码软件开发系统、方法及设备
US9727311B2 (en) Generating a service definition including a common service action
CN115934040A (zh) 一种需求分析方法、装置、电子设备及存储介质
CN111951488B (zh) 智能柜的结构配置方法、装置、计算机设备及存储介质
CN115687054A (zh) 基于业务分割还原的自适应测试方法以及装置
CN114327673A (zh) 一种任务启动方法、装置、电子设备及存储介质
Nakagawa et al. A knowledge-based framework for reference architectures
CN114579202B (zh) 任务处理方法、装置、计算机设备及计算机可读存储介质
CN112433821B (zh) 业务模型的搭建方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination