CN112001500A

CN112001500A - 基于纵向联邦学习系统的模型训练方法、设备及存储介质

Info

Publication number: CN112001500A
Application number: CN202010813995.9A
Authority: CN
Inventors: 夏正勋; 杨一帆
Original assignee: Transwarp Technology Shanghai Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-11-27
Anticipated expiration: 2040-08-13
Also published as: CN112001500B

Abstract

本发明实施例公开了一种基于纵向联邦学习系统的模型训练方法、设备及存储介质。其中，方法包括：提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树；根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划；根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。本发明实施例的方案，无需人工对纵向联邦学习的模型训练过程进行定制开发，简化了基于纵向联邦学习系统的模型训练过程。

Description

基于纵向联邦学习系统的模型训练方法、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种基于纵向联邦学习系统的模型训练方法、设备及存储介质。

背景技术

随着大数据及人工智能技术的发展及大规模应用，企业及相关部门也越来越重视数据安全及数据隐私的保护。联邦学习是一种新兴的人工智能技术，其设计目标是在保障数据安全、保护数据隐私以及保证合法合规的前提下，在多设备(参与方)或多计算节点之间，开展高效率的机器学习。

联邦学习可以分为横向联邦学习及纵向联邦学习，其中，纵向联邦学习需要依据数据分布的特点，对计算(模型训练)过程进行分解并由各设备协作完成；因此，纵向联邦学习算法的计算过程，需要人工根据算法特点及数据特点进行定制开发，导致当前基于纵向联邦学习框架(系统)的模型训练工作较为繁琐。

发明内容

本发明实施例提供一种基于纵向联邦学习系统的模型训练方法、设备及存储介质，无需人工对纵向联邦学习的模型训练过程进行定制开发，简化了基于纵向联邦学习系统的模型训练过程。

第一方面，本发明实施例提供了一种基于纵向联邦学习系统的模型训练方法，所述纵向联邦学习系统包括至少一个主设备和至少一个从设备，所述主设备存储有训练数据集和训练数据标签集，所述从设备仅存储有训练数据集，所述方法包括：

提取待训练模型的目标函数，所述待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；

对所述目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，所述逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果；

根据所述逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，所述物理执行计划中定义计算所述逻辑计划执行树中每个树节点的设备；

根据所述物理执行计划，调度所述纵向联邦学习系统中的各设备对所述待训练模型中包括的各所述模型参数集进行训练。

第二方面，本发明实施例还提供一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

第三方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一实施例所述的基于纵向联邦学习系统的模型训练方法。

本发明实施例通过提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果；根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，物理执行计划中定义计算逻辑计划执行树中每个树节点的设备；根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练，无需人工对纵向联邦学习的模型训练过程进行定制开发，简化了基于纵向联邦学习系统的模型训练过程。

附图说明

图1是本发明实施例一中的一种纵向联邦学习系统的结构示意图；

图2是本发明实施例一中的一种基于纵向联邦学习系统的模型训练方法的流程图；

图3是本发明实施例一中的一种逻辑计划执行树的结构示意图；

图4a是本发明实施例一中列举的一种优化前的计算路由的结构示意图；

图4b是本发明实施例一中列举的一种优化后的计算路由的结构示意图；

图5是本发明实施例二中的一种基于纵向联邦学习系统的模型训练方法的流程图；

图6是本发明实施例二中的一种计算路由的结构示意图；

图7是本发明实施例二中的一种物理执行计划的结构示意图；

图8是本发明实施例三中的一种基于纵向联邦学习系统的模型训练装置的结构示意图；

图9是本发明实施例三中的的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

本文使用的术语“联邦学习”是一种新兴的人工智能技术，其设计目标是在保障数据安全、保护数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间，开展高效率的机器学习。

本文使用的术语“纵向联邦学习”是联邦学习的一个领域，纵向联邦学习需要依据数据分布的特点，对计算过程进行分解并由参与方(本发明实施例中涉及到的主设备或者从设备)协作完成。

本文使用的术语“待训练模型”可以为线性回归模型，也可以为非线性模型，或者其他任意模型，本发明实施例中对其不加以限制。

本文使用的术语“逻辑计划执行树”通过对目标函数中包括的各数据项进行逐层解析得到；逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果。

为了便于理解，将本发明实施例的主要发明构思进行简述。

现有技术中，主要通过人工对纵向联邦学习的算法特点以及数据特点对纵向联邦学习的模型训练过程进行定制开发。

现有技术的方法，导致当前纵向联邦学习的模型训练过程较为繁琐，同时，随着设备数量的增多，其模型训练过程复杂度成倍增加，单纯的依靠人工的定制方式，导致当前纵向联邦学习框架(系统)支持的算法较少，应用场景有限，限制了跨行业跨领域的人工智能技术及产业的发展。

发明人针对上述问题，考虑是否可以通过一种可以无需依靠人工，可以自动地对纵向联邦学习的模型训练过程进行分析的方法，以简化纵向联邦学习的模型训练过程。

基于上述思考，发明人创造性的提出，通过提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果；根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，物理执行计划中定义计算逻辑计划执行树中每个树节点的设备；根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练，实现了对基于纵向联邦学习系统的模型训练过程进行简化。

实施例一

图1为本发明实施例一提供的一种纵向联邦学习系统的结构示意图，其中，纵向联邦学习系统100包括主设备110和从设备120，主设备110中存储有训练数据集和训练数据标签集，从设备120中仅存储有训练数据集；其中，主设备110和从设备120即为纵向联邦学习模型训练的参与方；主设备110和从设备120可以为任一客户端，本发明实施例中对其不加以限制。需要说明的是，本发明实施例中涉及到的主设备和从设备都可以有多个，例如，2个、3个或者5个等，本发明实施例中对其不加以限制。图1中，仅是以一个主设备和一个从设备进行解释说明，其并不是对本发明实施例的限制。

需要说明的是，主设备110和从设备120中存储的训练数据集并不相同，存储在主设备110和从设备120中的训练数据集具有不同的数据特征；例如，主设备110中存储的训练数据集为人物图像数据集，从设备120中存储的数据集为动物图像数据集。同时，在模型训练的过程中，为保护数据安全及隐私，主设备110和从设备120之间不可以传输原始数据，仅可传输加密加扰后的数据。主设备110与从设备120之间可以通过以太网或者IB(Infiniband，无限带宽)网络进行通讯。

在本发明实施例的一个可选实现方式中，纵向联邦学习系统100还可以包括服务器130，服务器130即为纵向联邦学习服务器，可以对外参数服务，其中，参数服务即是为各子节点提供参数交换服务，参数是训练过程中每一轮迭代输出的模型参数、梯度、偏差或者直方图等，本发明实施例中对其不加以限定。

需要说明的是，服务器130、主设备110与从设备120之间，也可以通过以太网或者IB网络进行通讯。

图2是本发明实施例一中的一种基于纵向联邦学习系统的模型训练方法的流程图，本实施例可适用于基于纵向联邦学习系统的模型训练过程，该方法可以由基于纵向联邦学习系统的模型训练装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在计算机设备中，该计算机设备可以为上述涉及到的纵向联邦学习系统100中的主设备110、从设备120、或者其他的计算机、服务器等，本发明实施例中对其不加以限定。具体的，参考图2，该方法具体包括如下步骤：

步骤210、提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集。

其中，待训练模型可以为线性回归模型，也可以为非线性模型，或者其他任意模型，本发明实施例中对其不加以限制。

在本发明实施例的一个可选实现方式中，待训练模型的目标函数可以为：

其中，Θ为模型参数，x为训练数据，y为训练数据标签，λ为正则项系数，i为训练数据集中的训练数据序号。当纵向联邦学习系统包括两个参与方，即如上述实施例中涉及到的纵向联邦学习系统100包括主设备110和从设备120时，可以将待训练模型的目标函数

转换为

其中，Θ_A为主设备110侧的模型参数，x_i ^A为主设备110侧的训练数据，y_i为主设备110侧的训练数据标签，Θ_B为从设备120侧的模型参数，x_i ^B为从设备110侧的训练数据，λ为正则项系数。

示例性的，若纵向联邦学习系统中还包括一个从设备140，那么待训练模型的目标函数

可以转换为

其中，Θ_A为主设备110侧的模型参数，x_i ^A为主设备110侧的训练数据，y_i为主设备110侧的训练数据标签，Θ_B为从设备120侧的模型参数，x_i ^B为从设备110侧的训练数据，Θ_D为从设备140侧的模型参数，x_i ^D为从设备140侧的训练数据，λ为正则项系数。

可选的，在基于纵向联邦学习系统对模型进行训练之前，可以提取待训练模型的目标函数，待训练模型参数可以包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；例如，上述可选实现方式中，待训练模型参数可以包括与主设备110相匹配的模型参数集，也可以包括与从设备120相匹配的模型参数集。

步骤220、对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果。

在本发明实施例的一个可选实现方式中，提取到待训练模型的目标函数之后，可以进一步的对目标函数中包括的各个数据项进行逐层解析，得到逻辑执行计划树；其中，逻辑执行计划树中各树节点与计算表达式相对应，并且上层树节点的计算表达式需要依赖于下层树节点的计算表达式的计算结果计算得到。

可选的，对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，可以包括：根据各训练数据集以及各训练数据标签集对目标函数进行变换，得到与目标函数对应的目标参考函数；其中，目标参考函数中包括各数据项；对目标参考函数中包括的各数据项进行逐层解析，得到逻辑计划执行树。

具体的，可以根据各训练数据集以及各训练数据标签集对待训练模型的目标函数进行变换，例如，可以分别将主设备110的训练数据集和训练数据标签集，以及从设备120的训练数据集代入至待训练模型的目标函数中，从而得到与目标函数对应的目标参考函数。

在本发明实施例的另一个可选实现方式中，根据各所述训练数据集以及各所述训练数据标签集对目标函数进行变换，得到与目标函数对应的目标参考函数，可以包括：分别将各主设备存储的训练数据集和训练数据标签集，以及各从设备存储的训练数据集代入至目标函数中，并对目标函数进行因式分解，得到与目标函数对应的目标参考函数。

示例性的，若目标函数为

其中，Θ为模型参数，x为训练数据，y为训练数据标签，λ为正则项系数，i为训练数据集中的训练数据序号；分别将主设备110存储的训练数据集和训练数据标签集，以及从设备120存储的训练数据集代入至目标函数中，可以得到：

进一步的，对转换后的目标函数

进行因式分解，例如，将训练数据标签集以及训练数据标签集所在的设备的训练数据集合并为一项数据进行处理，可以得到目标参考函数：

在本发明实施例的另一个可选实现方式中，从设备120中也可以存储有训练数据标签集，以及训练数据集，而主设备110中存储有训练数据集，此时，对转换后的目标函数进行因式分解可以得到目标参考函数：

其中，Θ_A为主设备110侧的模型参数，x_i ^A为主设备110侧的训练数据，Θ_B为从设备120侧的模型参数，x_i ^B为从设备110侧的训练数据，y_i为从设备120侧的训练数据标签，λ为正则项系数。

在具体实现中，需要根据偏导对模型参数进行更新，针对上述目标参考函数，与模型参数Θ_A和模型参数Θ_B对应的偏导公式分别为：

其中，d_i＝|Θ_Ax_i ^A-y_i|+|Θ_Bx_i ^B|。

进一步的，可以得到如图3所示的逻辑计划执行树。参考图3，逻辑执行计划树300包括：Θ_A 301、Θ_B 302、Θ_Ax_i ^A-y_i 303、Θ_Bx_i ^B 304、d_i＝|Θ_Ax_i ^A-y_i|+|Θ_Bx_i ^B|305、|Θ_Ax_i ^A-y_i||Θ_Bx_i ^B|306、

以及Γ309；其中，

以及Γ309为计算目标，Θ_A301和Θ_B302为初始的随机参数，Θ_Ax_i ^A-y_i 303、Θ_Bx_i ^B 304、d_i＝|Θ_Ax_i ^A-y_i|+|Θ_Bx_i ^B|305以及|Θ_Ax_i ^A-y_i||Θ_Bx_i ^B|306为中间计算。在如图3所示的逻辑计划执行树中，上层树节点依赖于下层树节点的计算结果，例如，计算

需要说明的是，本发明实施例中涉及到的逻辑计划执行树是带位置信息的逻辑计划，现阶段的联邦学习系统不能交换数据，所有计算只能在原始数据侧进行，因此，本发明实施例中涉及到的逻辑计划执行树与现有的分布式计算图存在较大的差异。

步骤230、根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，物理执行计划中定义计算逻辑计划执行树中每个树节点的设备。

在本发明实施例的一个可选实现方式中，在对待训练模型的目标函数中包括的各数据项进行逐层解析，得到逻辑执行计划树之后，可以进一步的根据逻辑计划树中各树节点所使用的训练数据集和训练数据标签集，或者训练数据集，生成物理执行计划，其中，在物理执行计划中可以定义计算逻辑计划执行树中每个树节点的设备；示例性的，该设备可以为本发明实施例中涉及到的纵向联邦学习系统100中的主设备110或者从设备120。

可选的，根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，可以包括：根据逻辑计划执行树生成计算路由；根据计算路由生成与逻辑计划执行树中各树节点对应的物理执行计划。

其中，本发明实施例中涉及到的计算路由，即为通过哪个设备计算各个模型参数以及各个中间计算，生成计算路由之后，即可根据计算路由生成与逻辑计划执行树中各树节点对应的物理执行计划。

可选的，根据逻辑计划执行树生成计算路由，可以包括：分别确定与各训练数据集和/或各训练数据标签集对应的设备；如果确定与目标训练数据集和目标训练数据标签集对应的设备为目标主设备，则通过目标主设备执行与目标训练数据集和目标训练数据标签集对应的树节点；如果确定与目标训练数据集对应的设备为目标从设备，则通过目标从设备执行与目标训练数据集对应的树节点。

示例性的，在上述例子中，如果确定与训练数据集x_i ^A和训练数据标签集y_i对应的设备为主设备110，则可以通过主设备110执行与训练数据集x_i ^A和训练数据标签集y_i对应的树节点，例如，可以通过主设备110执行如图3所示的逻辑执行计划执行树的树节点301、303以及307；如果确定与训练数据集x_i ^B对应的设备为从设备120，则可以通过从设备120执行与训练数据集x_i ^B对应的树节点，例如，可以通过从设备120执行如图3所示的逻辑执行计划执行树的树节点302、304以及308。

需要说明的是，本发明实施例中涉及到的树节点305、306以及309中既包括主设备的训练数据集、训练数据标签集以及从设备的训练数据集，即树节点305、306以及309的计算位置是可变的，因此，针对树节点305、306以及309从逻辑执行计划生成物理执行计划过程中计算路由的规划可以采用随机计算路由，例如，针对树节点305、306以及309，可以定义通过主设备110进行计算，也可以定义通过从设备120进行计算，本发明实施例中对其不加以限定。

示例性的，当采用随机路由对树节点305、306以及309进行计算时，如图4a所示，需要进行4次网络传输，导致整体计算效率达不到最优；据此，本发明实施例中，对树节点305、306以及309的计算路由进行优化；具体的，将树节点305、306以及309优先选择数据标签所在侧进行计算，即在主设备对可变位置的树节点进行计算；示例性的，在本发明实施例中，可以通过主设备对树节点305、306以及309进行计算。优化后的网络传输示意图如图4b所示，从图4b可以看出，网络传输次数为2次，相较于优化前的网络传输示意图(图4a)，传输次数减少了50％，网络传输效率提升了一倍。

步骤240、根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

具体的，在根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划之后，可以进一步的根据生成的物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

在本发明实施例的一个可选实现方式中，根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练，可以包括：对物理执行计划进行切分，并确定并行计算内容，以调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

示例性的，可以将物理执行计划切分为5个执行阶段，9个流水线子工作流，其中，每个流水线子工作流可以并行执行，每一个阶段的流水线子工作流也可以并行执行；这样设置的好处在于，可以最大化地实现模型训练过程的流水线及计算过程的并行效率。

本实施例的方案，通过提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果；根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，物理执行计划中定义计算逻辑计划执行树中每个树节点的设备；根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练，无需人工对纵向联邦学习的模型训练过程进行定制开发，简化了基于纵向联邦学习系统的模型训练过程，为人工智能技术及产业的发展提供依据。

实施例二

图5是本发明实施例二中的一种基于纵向联邦学习系统的模型训练方法的流程图，本实施例是对上述各技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图5所示，基于纵向联邦学习系统的模型训练方法可以包括如下步骤：

步骤510、提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集。

步骤520、对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果。

步骤530、调度纵向联邦学习系统中的各主设备对第一模型参数集以及第三模型参数集进行训练；和/或调度纵向联邦学习系统中的各从设备对第二模型参数集进行训练。

在本发明实施例中，第一模型参数集可以为上述例子中涉及到的树节点301、303以及307；第二模型参数集可以为上述例子中涉及到的树节点302、304以及308；第三模型参数集可以为上述例子中涉及到的树节点305、306以及309。

在本发明实施例的一个具体示例中，生成物理执行计划之后，可以调度纵向联邦学习系统100中的主设备110对第一模型参数集(树节点301、303以及307)，以及第三模型参数集(树节点305、306以及309)进行训练，即对与第一模型参数集以及第三模型参数集对应的各树节点的表达式或者参数进行计算；同时，也可以调度调度纵向联邦学习系统100中的从设备120对第二模型参数集(树节点302、304以及308)进行训练，即对与第二模型参数集对应的各树节点的表达式或者参数进行计算。

在本发明实施例的另一个可选实现方式中，可以将第一模型参数集，以及第二模型参数集发送至纵向联邦学习系统中的服务器；服务器根据预先设定的学习率对第一模型参数集，以及第二模型参数集进行更新；将第一模型参数集返回至各主设备；将第二模型参数集返回至各从设备。

其中，学习率可以设置为0.025或者0.001等数值，本发明实施例中对其不加以限定。

在本发明实施例的一个可选实现方式中，在调度纵向联邦学习系统中的各主设备对第一模型参数集以及第三模型参数集进行训练，以及调度各从设备对第二模型参数集进行训练之后，各主设备和各从设备可以将第一模型参数集以及第二模型参数的计算结果发送至服务器；服务器根据预先设定的学习率分别对第一模型参数集以及第二模型参数集的计算结果进行更新；并分别将更新后的第一模型参数集返回至各主设备，将更新后的第二模型参数集返回至各从设备。

示例性的，更新后的计算路由如图6所示，其中，服务器630中设置有预先设定的学习率(例如，0.001)，在具体计算过程中，主设备610将树节点307和309的计算结果发送至服务器630，以及从设备620将树节点308的计算结果发送至服务器630；服务器630根据预先设定的学习率，对树节点307和308的计算结果进行更新，并将树节点307的更新结果发送至主设备610，将树节点308的更新结果发送至从设备620。

进一步的，可以根据如图3所示的逻辑执行计划，以及如图6所示的计算路由生成物理执行计划。联邦学习运行时(FL-Runtime)提供了基本操作的API(ApplicationProgramming Interface，应用程序接口)，比如加密计算API、网络传输API、算法的算子API或者参数服务API等等，物理执行计划通常可以由DAG计算图形式组织，其中具体逻辑计算重新用FL-Runtime API表示。为简洁清晰地说明本步骤的具体实现，本实施例使用图4b中的计算路由，其对应生成的物理执行计划可表达为如图7所示，其中random(.)为FL-Runtime中随机函数API接口，HE(.)为FL-Runtime中同态加密函数API接口，Send(.)、Recv(.)为FL-Runtime中网络数据传输函数API接口，Expr(.)为FL-Runtime中表达式计算函数API接口。

步骤540、根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

本实施例的方案，通过调度纵向联邦学习系统中的各主设备对第一模型参数集以及第三模型参数集进行训练；和/或调度纵向联邦学习系统中的各从设备对第二模型参数集进行训练；根据逻辑执行计划，以及计算路由生成物理执行计划，可以自动地生成模型训练过程中的物理执行计划，为简化纵向联邦学习的模型训练过程提供依据。

还需要说明的是，本发明实施例避免了传统算法迁移至联邦学习系统执行环境的人工工作，本发明实施例中算法的迁移工作比如算法分析及计算分解过程等可由编译器自动生成；本发明实施例避免了传统算法迁移至联邦学习执行环境后，需要人工编排参与者之间交互流程的定制化工作，本发明实施例中参与者之间的交互流程(例如，数据加密传输、多方间的参数交换等计算协作过程)可由编译器自动生成。

在本发明实施例的基础上，可以进一步地利用编译优化技术，对自动化过程中产生的逻辑执行计划、物理执行计划、计算流水线进行进一步的优化，通过优化计算过程，提升模型训练的效率及质量；也可以基于自动计算流水线生成计算实现训练过程中参与者数量的动态调整，真正实现多方动态学习，既可以提升了纵向联邦学习的灵活性，实现不停机动态扩缩容训练，又能够提升整个学习系统的健壮性和鲁棒性；还可以通过动态生成以新标签提供方为根的新逻辑执行计划，实现纵向联邦学习实现多方多标签学习，避免了当前纵向联邦学习系统仅能使用一方标签的短板，充分挖掘所有参与方的样本数据及标签数据价值。

实施例三

图8是本发明实施例三中的一种基于纵向联邦学习系统的模型训练装置的结构示意图，该装置可以执行上述各实施例中涉及到的基于纵向联邦学习系统的模型训练方法。参照图8，该装置包括：目标函数提取模块810、逻辑计划执行树确定模块820、物理执行计划生成模块830和模型训练模块840。

其中，目标函数提取模块810，用于提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；

逻辑计划执行树确定模块820，用于对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果；

物理执行计划生成模块830，用于根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，物理执行计划中定义计算逻辑计划执行树中每个树节点的设备；

模型训练模块840，用于根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

本实施例的模块，通过目标函数提取模块提取待训练模型的目标函数；通过逻辑计划执行树确定模块对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树；通过物理执行计划生成模块根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划；通过模型训练模块根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练，无需人工对纵向联邦学习的模型训练过程进行定制开发，简化了基于纵向联邦学习系统的模型训练过程。

可选的，逻辑计划执行树确定模块820，具体用于根据各训练数据集以及各训练数据标签集对目标函数进行变换，得到与目标函数对应的目标参考函数；其中，目标参考函数中包括各数据项；对目标参考函数中包括的各数据项进行逐层解析，得到逻辑计划执行树。

可选的，逻辑计划执行树确定模块820，还具体用于分别将各主设备存储的训练数据集和训练数据标签集，以及各从设备存储的训练数据集代入至目标函数中，并对目标函数进行因式分解，得到与目标函数对应的目标参考函数。

可选的，物理执行计划生成模块830包括：计算路由生成单元和物理执行计划生成单元；

计算路由生成单元，用于根据逻辑计划执行树生成计算路由；

物理执行计划生成单元，用于根据计算路由生成与逻辑计划执行树中各树节点对应的物理执行计划。

可选的，计算路由生成单元，用于分别确定与各训练数据集和/或各训练数据标签集对应的设备；如果确定与目标训练数据集和目标训练数据标签集对应的设备为目标主设备，则通过目标主设备执行与目标训练数据集和目标训练数据标签集对应的树节点；如果确定与目标训练数据集对应的设备为目标从设备，则通过目标从设备执行与目标训练数据集对应的树节点。

可选的，计算路由生成单元，还具体用于调度纵向联邦学习系统中的各主设备对第一模型参数集以及第三模型参数集进行训练；和/或，调度纵向联邦学习系统中的各从设备对第二模型参数集进行训练；其中，模型参数集包括：第一模型参数集、第二模型参数集以及第三模型参数集。

可选的，计算路由生成单元还用于，将第一模型参数集，以及第二模型参数集发送至纵向联邦学习系统中的服务器；服务器根据预先设定的学习率对第一模型参数集，以及第二模型参数集进行更新；将第一模型参数集返回至各主设备；将第二模型参数集返回至各从设备。

可选的，模型训练模块840，具体用于对物理执行计划进行切分，并确定并行计算内容，以调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

本发明实施例所提供的基于纵向联邦学习系统的模型训练装置可执行本发明任意实施例所提供的基于纵向联邦学习系统的模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图9为本发明实施例四提供的一种计算机设备的结构示意图，如图9所示，该计算机设备包括处理器90、存储器91、输入装置92和输出装置93；计算机设备中处理器90的数量可以是一个或多个，图9中以一个处理器90为例；计算机设备中的处理器90、存储器91、输入装置92和输出装置93可以通过总线或其他方式连接，图9中以通过总线连接为例。

存储器91作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于纵向联邦学习系统的模型训练方法对应的程序指令/模块(例如，基于纵向联邦学习系统的模型训练装置中的目标函数提取模块810、逻辑计划执行树确定模块820、物理执行计划生成模块830和模型训练模块840)。处理器90通过运行存储在存储器91中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的基于纵向联邦学习系统的模型训练方法。

存储器91可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器91可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器91可进一步包括相对于处理器90远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置92可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置93可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种基于纵向联邦学习系统的模型训练方法，该方法包括：

提取待训练模型的目标函数，待训练模型包括至少两类模型参数集，每个模型参数集对应匹配的训练数据集和/或训练数据标签集；

对目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，逻辑计划执行树中的各树节点对应于计算表达式，且上层树节点依赖于下层树节点的计算结果；

根据逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，物理执行计划中定义计算逻辑计划执行树中每个树节点的设备；

根据物理执行计划，调度纵向联邦学习系统中的各设备对待训练模型中包括的各模型参数集进行训练。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于纵向联邦学习系统的模型训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于纵向联邦学习系统的模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于纵向联邦学习系统的模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树，包括：

根据各所述训练数据集以及各所述训练数据标签集对所述目标函数进行变换，得到与所述目标函数对应的目标参考函数；其中，所述目标参考函数中包括各所述数据项；

对所述目标参考函数中包括的各所述数据项进行逐层解析，得到所述逻辑计划执行树。

3.根据权利要求2所述的方法，其特征在于，所述纵向联邦学习系统包括的至少一个主设备和至少一个从设备；各所述主设备存储有训练数据集和训练数据标签集，各所述从设备仅存储有训练数据集；

所述根据各所述训练数据集以及各所述训练数据标签集对所述目标函数进行变换，得到与所述目标函数对应的目标参考函数，包括：

分别将各所述主设备存储的训练数据集和训练数据标签集，以及各所述从设备存储的训练数据集代入至所述目标函数中，并对所述目标函数进行因式分解，得到与所述目标函数对应的目标参考函数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划，包括：

根据所述逻辑计划执行树生成计算路由；

根据所述计算路由生成与所述逻辑计划执行树中各树节点对应的所述物理执行计划。

5.根据权利要求4所述的方法，其特征在于，所述根据所述逻辑计划执行树生成计算路由，包括：

分别确定与各所述训练数据集和/或各所述训练数据标签集对应的设备；如果确定与目标训练数据集和目标训练数据标签集对应的设备为目标主设备，则通过所述目标主设备执行与所述目标训练数据集和目标训练数据标签集对应的树节点；

如果确定与目标训练数据集对应的设备为目标从设备，则通过所述目标从设备执行与所述目标训练数据集对应的树节点。

6.根据权利要求3所述的方法，其特征在于，所述根据所述逻辑计划执行树生成计算路由，还包括：

调度所述纵向联邦学习系统中的各所述主设备对第一模型参数集以及第三模型参数集进行训练；

和/或，

调度所述纵向联邦学习系统中的各所述从设备对第二模型参数集进行训练；

其中，所述模型参数集包括：所述第一模型参数集、所述第二模型参数集以及所述第三模型参数集。

7.根据权利要求6所述的方法，其特征在于，在调度所述纵向联邦学习系统中的各所述主设备对第一模型参数集以及所述第三模型参数集进行训练；和/或，调度所述纵向联邦学习系统中的各所述从设备对第二模型参数集进行训练之后，所述方法还包括：

将所述第一模型参数集，以及所述第二模型参数集发送至所述纵向联邦学习系统中的服务器；

所述服务器根据预先设定的学习率对所述第一模型参数集，以及所述第二模型参数集进行更新；

将所述第一模型参数集返回至各所述主设备；将所述第二模型参数集返回至各所述从设备。

8.根据权利要求1所述的方法，其特征在于，所述根据所述物理执行计划，调度所述纵向联邦学习系统中的各设备对所述待训练模型中包括的各所述模型参数集进行训练，包括：

对所述物理执行计划进行切分，并确定并行计算内容，以调度所述纵向联邦学习系统中的各设备对所述待训练模型中包括的各所述模型参数集进行训练。

9.一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

根据所述物理执行计划，调度纵向联邦学习系统中的各设备对所述待训练模型中包括的各所述模型参数集进行训练。

10.根据权利要求9所述的设备，其特征在于，所述处理器是设置为通过以下方式对所述目标函数中包括的各数据项进行逐层解析，得到逻辑计划执行树：

11.根据权利要求10所述的设备，其特征在于，所述纵向联邦学习系统包括的至少一个主设备和至少一个从设备；各所述主设备存储有训练数据集和训练数据标签集，各所述从设备仅存储有训练数据集；

所述处理器是设置为通过以下方式根据各所述训练数据集以及各所述训练数据标签集对所述目标函数进行变换，得到与所述目标函数对应的目标参考函数：

12.根据权利要求9所述的设备，其特征在于，所述处理器是设置为通过以下方式根据所述逻辑计划执行树中各树节点所使用的训练数据集和/或训练数据标签集，生成物理执行计划：

根据所述逻辑计划执行树生成计算路由；

13.根据权利要求12所述的设备，其特征在于，所述处理器是设置为通过以下方式根据所述逻辑计划执行树生成计算路由：

14.根据权利要求11所述的设备，其特征在于，所述处理器还设置为通过以下方式根据所述逻辑计划执行树生成计算路由：

和/或，

15.根据权利要求14所述的设备，其特征在于，所述处理器在调度所述纵向联邦学习系统中的各所述主设备对第一模型参数集以及所述第三模型参数集进行训练；和/或，调度所述纵向联邦学习系统中的各所述从设备对第二模型参数集进行训练之后，还被设置为：

16.根据权利要求9所述的设备，其特征在于，所述处理器被设置为通过以下方式根据所述物理执行计划，调度所述纵向联邦学习系统中的各设备对所述待训练模型中包括的各所述模型参数集进行训练：

17.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一项所述的基于纵向联邦学习系统的模型训练方法。