CN114239820A

CN114239820A - 纵向联邦学习模型的训练方法、装置和计算机设备

Info

Publication number: CN114239820A
Application number: CN202111351559.5A
Authority: CN
Inventors: 刘吉; 余孙婕; 周吉文; 周瑞璞; 窦德景
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-25
Also published as: US20230074417A1; EP4195111A1

Abstract

本申请公开了一种纵向联邦学习模型的训练方法以及装置，涉及大数据领域以及深度学习等计算机技术领域。具体实现方案为：该训练方法应用于第一参与方设备，第一参与方设备拥有标签数据，纵向联邦学习模型包括第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨神经网络的顶层子模型和第二参与方设备中的第二底层子模型。获取第一参与方设备的第一底层输出数据和第二参与方设备发送的第二底层输出数据，将第一底层输出数据和第二底层输出数据输入至交互层子模型，得到交互层输出数据，根据交互层输出数据和顶层子模型，获得顶层输出数据，根据顶层输出数据和标签数据训练纵向联邦学习模型。本申请可以提升联邦学习系统抗攻击的能力。

Description

纵向联邦学习模型的训练方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及大数据领域以及深度学习领域，特别涉及一种纵向联邦学习模型的训练方法、装置、计算机设备和存储介质。

背景技术

联邦学习适用于大规模分布式深度学习模型训练，在提供隐私保护的同时，为局部数据集建立联合模型。在纵向联邦学习场景下，数据集被垂直分割并由不同的参与方拥有，即每个参与方拥有一个不相交的属性子集，目标是在无需将任何数据从一个参与方传输到另一个参与方的前提下，协作学习机器学习模型。

相关技术中，关于纵向联邦学习场景下的安全隐私保护方案，大多着重解决参与方在迭代过程中间结果交换过程中的隐私泄露问题，比如通过差分隐私、同态加密、隐私保护集合交集等方式来解决隐私泄露问题。但是，再实际应用场景下，参与方节点很可能受到攻击，从而大幅影响全局模型的性能。而常见的对更新的中间数据进行降维方法来识别恶意用户适用于非联邦学习框架，在联邦学习中的恶意用户识别的场景中无法发挥很好的效果。

发明内容

本申请提供了一种纵向联邦学习模型的训练方法、装置、计算机设备以及存储介质。

根据本申请的第一方面，提供了一种纵向联邦学习模型的训练方法，应用于第一参与方设备，所述第一参与方设备拥有标签数据，所述纵向联邦学习模型包括所述第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二参与方设备中的第二底层子模型，所述方法包括：

将所述第一参与方设备中的第一训练数据输入至所述第一底层子模型，获得所述第一参与方设备的第一底层输出数据；

获取所述第二参与方设备发送的第二底层输出数据；所述第二底层输出数据是利用第二训练数据和所述第二底层子模型获得的；

将所述第一底层输出数据和所述第二底层输出数据输入至所述交互层子模型，得到交互层输出数据；

将所述交互层输出数据输入至所述顶层子模型，获得顶层输出数据，根据所述顶层输出数据和所述标签数据计算最终误差，并根据所述最终误差对所述纵向联邦学习模型进行训练。

根据本申请的第二方面，提供了一种纵向联邦学习模型的训练装置，应用于第一参与方设备，所述第一参与方设备拥有标签数据，所述纵向联邦学习模型包括所述第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二参与方设备中的第二底层子模型，所述装置包括：

第一获取模块，用于将所述第一参与方设备中的第一训练数据输入至所述第一底层子模型，获得所述第一参与方设备的第一底层输出数据；

第二获取模块，用于获取所述第二参与方设备发送的第二底层输出数据；所述第二底层输出数据是利用第二训练数据和所述第二底层子模型获得的；

第三获取模块，用于将所述第一底层输出数据和所述第二底层输出数据输入至所述交互层子模型，得到交互层输出数据；

训练模块，用于将所述交互层输出数据输入至所述顶层子模型，获得顶层输出数据，根据所述顶层输出数据和所述标签数据计算最终误差，并根据所述最终误差对所述纵向联邦学习模型进行训练。

根据本申请的第三方面，提供了一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述第一方面所述的方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤。

根据本申请的技术方案，可以提升纵向联邦学习系统抗攻击的能力，可以有效限制脏数据和恶意更新的扩散，以抵御攻击，提升了抵御攻击的能力，提高了联邦学习系统的安全性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例所提供的一种纵向联邦学习模型的训练方法的示意图；

图2是根据本申请实施例的纵向联邦学习模型的训练流程示意图；

图3是根据本申请实施例所提供的另一种纵向联邦学习模型的训练方法的示意图；

图4是根据本申请实施例的后向传播最终误差以更新模型参数的流程图；

图5是本申请实施例所提供的一种纵向联邦学习模型的训练装置的结构框图；

图6是根据本申请实施例的用以实现纵向联邦学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

可以理解，联邦学习适用于大规模分布式深度学习模型训练，在提供隐私保护的同时，为局部数据集建立联合模型。在纵向联邦学习场景下，数据集被垂直分割并由不同的参与方拥有，即每个参与方拥有一个不相交的属性子集，目标是在无需将任何数据从一个参与方传输到另一个参与方的前提下，协作学习机器学习模型。相比较横向联邦学习，纵向联邦学习更有利于各企业之间建立合作，使用各自的特有数据，共同建立更加强大的模型。可以将贴有标签的一方称为主动方，其他各方称为被动方。为了训练纵向联邦学习模型，各方以安全的方式迭代交换某些中间结果，直到获得联合训练的模型；在获得经过训练的模型之后，各方利用该模型协同计算预测数据集中新样本的模型预测。通常，纵向联合学习系统假定参与者是诚实的，且在学习结束时，各方仅持有与自身特征相关的模型参数。

与集中式学习方案相比，联邦学习对数据具有天然的隐私保护能力。但与此同时，联邦学习的模型是通过大量不可靠设备和私有的、不可观察的数据集来训练的，因此在实现了一定程度上的隐私保护的同时，造成各方之间无法监督其他参与方的本地数据和训练过程，这种隐形属性可能会带来严重的安全威胁，主要来源于：

(1)不可信的参与方：联邦学习系统中有大量的参与方，很可能包含一个或多个恶意用户，甚至恶意用户会相互勾结，造成更严重的后果；

(2)中间结果的隐私泄露：纵向联邦学习为实现联合模型的训练，在迭代的过程中涉及中间结果的交换，存在隐私泄露的安全问题。

除此之外，最近的一些研究表明，联邦学习中的隐私保护不足以保护底层训练数据免受隐私泄漏的攻击，在训练过程中传递的模型梯度可能会暴露敏感信息，甚至发生严重的信息泄漏。

相关技术中，关于纵向联邦学习场景下的安全隐私保护方案，大多着重解决参与方在迭代过程中间结果交换过程中的隐私泄露问题，例如：

(1)差分隐私：旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会；

(2)同态加密：同态加密允许数据对密文进行计算、排序、搜索、编辑；

(3)隐私保护集合交集(PSI)：在数据由不同管理者持有的条件下，通过PSI计算达到保护隐私与信息共享的双赢局面。

然而，针对不可信的参与方问题，相关技术中非联邦学习解决方案是通过使用降维方法(例如，主成分分析(PCA)、异常检测或可解释性技术)分析更新的梯度来识别脏数据。此外，某些分布式计算资源的拜占庭式故障也会导致模型中毒攻击。在拜占庭失败的情况下，攻击者操控本地模型的更新，从而大大降低了全局模型的性能。为了实现拜占庭鲁棒性，可以通过使用隐马尔可夫模型或安全聚合协议分析更新的梯度来识别恶意用户。

也就是说，相关技术中的纵向联邦学习系统为了保障模型训练过程中的数据隐私问题，引入了差分隐私、同态加密、隐私保护集合交集等解决方案，但这些解决方案着眼于解决迭代过程中间结果交换过程中的隐私泄露问题，而假定参与方是诚实的。但在实际应用场景下，参与方节点很可能收到攻击，从而大幅影响全局模型的性能。而常见的对更新的中间数据进行降维方法来识别恶意用户适用于非联邦学习框架，在联邦学习中的恶意用户识别的场景中无法发挥很好的效果。

基于上述问题，本申请提出了一种纵向联邦学习模型的训练方法、装置、计算机设备和存储介质，可以提升纵向联邦学习系统抗攻击的能力，可以有效限制脏数据和恶意更新的扩散，以抵御攻击，提升了抵御攻击的能力，提高了联邦学习系统的安全性。

图1是本申请实施例所提供的一种纵向联邦学习模型的训练方法的示意图。需要说明的是，本申请实施例的纵向联邦学习模型的训练方法可应用于第一参与方设备。其中，该第一参与方设备可以拥有标签数据。纵向联邦学习模型可以包括第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二参与方设备中的第二底层子模型。例如，如图2所示，第一底层子模型、交互层子模型和顶层子模型部署于第一参与方设备上；第二底层子模型部署于第二参与方设备，第一底层子模型、交互层子模型、顶层子模型和第二底层子模型构成纵向联邦学习模型。

如图1所示，本申请实施例的纵向联邦学习模型的训练方法可以包括如下步骤。

在步骤101中，将第一参与方设备中的第一训练数据输入至第一底层子模型，获得第一参与方设备的第一底层输出数据。

可选地，第一参与方设备与第二参与方设备可通过握手、身份认证预先建立通信连接。可以预先在第一参与方设备和第二参与方设备中配置纵向联邦学习模型的结构，例如，在第一参与方设备上预先配置第一底层子模型、交互层子模型和顶层子模型，其中，该顶层子模型为基于利普希茨Lipschitz神经网络构建的模型。在第二参与方设备上预先配置第二底层子模型。也就是说，待训练的纵向联邦学习模型结构至少包括：第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二底层子模型。其中，第一底层子模型的输入配置为第一训练数据对应的特征数据，第一底层子模型可以是包括多层。第二底层子模型的输入配置为第二参与方设备上的第二训练数据对应的特征数据。交互层子模型可配置为全连接层，交互层子模型的输入可配置为第一底层子模型输出与第二底层子模型输出的串联，即用于拼接第一底层子模型和第二底层子模型的输出，并连接顶层子模型。顶层子模型的输入配置为交互层子模型的输出，顶层子模型用于输出整个纵向联邦学习模型的输出结果。

配置纵向联邦学习模型的模型结构后，需要对模型进行训练，确定纵向联邦学习模型中各层模型的模型参数，以使得训练完成的目标纵向联邦学习模型能够完成目标任务，如预测用户购买意向，预测疾病等。模型训练可以分为多次模型参数更新的过程。在一次模型参数更新的过程中，第一参与方设备将第一训练数据输入第一底层子模型得到第一底层输出数据。

可选地，在本申请一些实施例中，在将第一参与方设备中的第一训练数据输入至第一底层子模型，获得第一参与方设备的第一底层输出数据之前，第一参与方设备可以与第二参与方设备进行样本对齐以确定交集样本。第一参与方设备从样本数据集中获取交集样本对应的第一训练数据。

也就是说，第一参与方设备与第二参与方设备在进行联合训练之前，第一参与方设备可以先与第二参与方设备进行样本对齐，确定交集样本。例如，第一参与方设备中包括第一样本集，第一样本集中包括多个样本的ID，第一参与方设备有第一样本集中各个样本的样本数据构成的第一样本数据集。第二参与方设备中包括第二样本集，第二样本集中包括多个样本的ID，第二参与方设备有第二样本集中各个样本的样本数据构成的第二样本数据集。第一样本集和第二样本集中可能包括不同的样本，而第一参与方设备和第二参与方设备需要采用相同样本的样本数据来进行训练，因此，第一参与方设备和第二参与方设备可先进行样本对齐，确定第一样本集和第二样本集的交集，获得交集样本，交集样本中包括双方共有的样本的ID。

在确定交集样本后，第一参与方设备从第一样本数据集中获取交集样本对应的第一训练数据，也即，从第一样本数据集中选取交集样本中的各个样本对应的样本数据，构成第一训练数据。而第二参与方设备也同样地从第二样本数据集中选取交集样本中的各个样本对应的样本数据，构成第二训练数据。

在步骤102中，获取第二参与方设备发送的第二底层输出数据；第二底层输出数据是利用第二训练数据和第二底层子模型获得的。

可选地，第二参与方设备将第二训练数据输入至第二底层子模型，得到第二底层输出数据，并与第一参与方设备进行交互。第一参与方设备与第二参与方设备交互的过程可以是第二参与方设备将第二底层输出数据发送给第一参与方设备，从而使得第一参与方设备获得第二参与方设备的第二底层输出数据。

为了避免双方的隐私数据泄露给对方或第三方，可选地，第一参与方设备与第二参与方设备可以通过加密技术进行交互，以使得第一参与方设备获得第二参与方设备的第二底层输出数据。

在步骤103中，将第一底层输出数据和第二底层输出数据输入至交互层子模型，得到交互层输出数据。

其中，交互层子模型的输入可配置为第一底层子模型输出与第二底层子模型输出的串联，即用于拼接第一底层子模型和第二底层子模型的输出，并连接顶层子模型。在本实施例中，可以将第一底层输出数据和第二底层输出数据串联输入至交互层子模型，以得到交互层输出数据，即可以得到第一底层输出数据和第二底层输出数据的拼接数据。

在步骤104中，将交互层输出数据输入至顶层子模型，获得顶层输出数据，根据顶层输出数据和标签数据计算最终误差，并根据最终误差对纵向联邦学习模型进行训练。

可选地，将交互层输出数据输入至顶层子模型。顶层子模型可对交互层输出数据进行预测，以得到顶层输出数据。根据顶层输出数据和标签数据，采用预设的损失函数计算最终误差，并根据该最终误差训练纵向联邦学习模型，从而完成该纵向联邦学习模型训练。

根据本申请实施例的纵向联邦学习模型的训练方法，通过基于利普希茨Lipschitz神经网络构建纵向联邦学习模型中的顶层子模型，使得整个纵向联邦学习模型受Lipschitz的约束，保持了表达能力的同时，还可以提升纵向联邦学习系统抗攻击、抗风险的能力，可以有效限制脏数据和恶意更新的扩散，以抵御攻击，从而在保障本地数据隐私安全的同时，还保证了联合模型的性能。

图3是根据本申请实施例所提供的另一种纵向联邦学习模型的训练方法的示意图。如图3所示，该纵向联邦学习模型的训练方法可以包括如下步骤。

在步骤301中，将第一参与方设备中的第一训练数据输入至第一底层子模型，获得第一参与方设备的第一底层输出数据。

在本申请的实施例中，步骤301可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤302中，获取第二参与方设备发送的第二底层输出数据；第二底层输出数据是利用第二训练数据和第二底层子模型获得的。

在本申请的实施例中，步骤302可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤303中，将第一底层输出数据和第二底层输出数据输入至交互层子模型，得到交互层输出数据。

在本申请的实施例中，步骤303可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤304中，将交互层输出数据输入至顶层子模型，获得顶层输出数据。

可选地，将交互层输出数据输入至顶层子模型。顶层子模型可对交互层输出数据进行预测，以得到顶层输出数据。

在步骤305中，根据顶层输出数据和标签数据计算最终误差。

在步骤306中，后向传播最终误差以更新纵向联邦学习模型中各层子模型的模型参数，循环迭代直至满足预审停止条件时得到训练完成的目标纵向联邦学习模型。

可选地，后向传播最终误差，并通过梯度下降方法更新纵向联邦学习模型中各层子模型的模型参数。

在一种实现方式中，如图4所示，上述步骤306，即上述后向传播最终误差以更新纵向联邦学习模型中各层子模型的模型参数的实现方式可包括如下步骤：

在步骤401中，采用最终误差计算顶层子模型的模型参数对应的顶层梯度，并根据顶层梯度更新顶层子模型的模型参数。

在步骤402中，根据最终误差计算得到交互层误差，并根据交互层误差和第一底层输出数据计算得到第一参与方设备对应的第一拼接参数的第一梯度，以及根据交互层误差和第一拼接参数计算得到第一底层子模型误差。

在步骤403中，采用最终误差和第二参与方设备进行交互计算，得到第二参与方设备对应的第二拼接参数的第二梯度和第二底层子模型误差。

在步骤404中，采用第一梯度更新交互层子模型中的第一拼接参数，并根据第一底层子模型误差更新第一底层子模型的模型参数。

在步骤405中，采用第二梯度更新交互层子模型中的第二拼接参数，并将第二底层子模型误差发送给第二参与方设备；第二底层子模型误差用于更新第二底层子模型的模型参数。

值得注意的是，本申请是通过将纵向联邦学习模型中的顶层子模型利用利普希茨Lipschitz神经网络来替代。也就是说，本申请是通过Lipschitz神经网络替代传统神经网络，以便可以提升联邦学习系统抗攻击、抗风险的能力，可以有效限制脏数据和恶意更新的扩散，以抵御攻击。

需要说明的是，在本申请一些实施例中，上述图1至图4中任一实施例中所提到的第一底层子模型中的全连接层可为Lipschitz神经网络；和/或，第二底层子模型中的全连接层为Lipschitz神经网络。例如，第一底层子模型中的全连接层可以为Lipschitz神经网络；或者，第二底层子模型中的全连接层为Lipschitz神经网络。又如，如图2所示，第一底层子模型中的全连接层和第二底层子模型中的全连接层均为Lipschitz神经网络。

本申请中的Lipschitz神经网络是对全连接神经网络在权重和偏差上进行约束后的网络。在一种实现方式中，Lipschitz神经网络包含多层，每一层均施加Lipschitz常量约束；整个所述Lipschitz神经网络的Lipschitz约束是每一层上的Lipschitz常量约束的乘积。其中，图2中“KL”约束即为Lipschitz常量约束。

可选地，Lipschitz神经网络通过在每一层施加Lipschitz常量约束来限制输入扰动在神经网络上的扩散，而整个神经网络的Lipschitz约束是每一层上的Lipschitz常量约束的乘积，使网络输出变化与输入变化成比例，从而提高系统的鲁棒性，以抵御恶意攻击。例如，在多图机器学习模型中，小的输入扰动可以在图内和图间传播，从而极大地放大了输出空间中的扰动，因此Lipschitz神经网络对于此类模型的攻击具有显著的防御效果。Lipschitz神经网络不仅可以应用在客户端本地模型(如第一参与方设备和/或第二参与方设备)中，以限制脏数据在本地模型中的扩散，也可以应用在联合模型(如上述顶层子模型)中，限制恶意更新在联合模型中的扩散，以提高联邦学习系统的鲁棒性。

为了构建Lipschitz神经网络，首先要确定Lipschitz常量约束的实现，包含权重范数约束和梯度范数约束。Lipschitz常量约束和神经网络表达能力常被认为是相互独立的任务。本申请通过将权重范数和梯度范数自适应于多个输入图，限制任何输入扰动的扩散，在获得显著表达能力的同时提高了多图深度学习系统的鲁棒性。下面将从权重范数约束和梯度范数约束两个方面对Lipschitz常量约束做出介绍。

在本申请实施例中，权重范数约束的公式表示如下：

其中，

为l-1层与l层神经网络的权重矩阵，K_l为l层神经网络的梯度范数约束；利用最近矩阵正交化和极分解技术，可以发现权重范数为1/K_l的权重矩阵

近似于全连接神经网络的权重矩阵W_l。

在本申请实施例中，梯度范数约束的公式表示如下：

为激活函数，K_l为l层神经网络的梯度范数约束，

为l层神经网络的激活前矢量。

还需要说明的是，本申请通过引入韦布尔Weibull作为Lipschitz神经网络的激活函数。为了实现更快的收敛，本申请将T个不同参数的Weibull激活函数

复合，使

的上界增加至T。因此，Lipschitz-Weibull激活函数如下：

其中，

为第t个拥有唯一参数λ_t,α_t,μ_t的Weibull激活函数，z是激活前矢量

的一个元素。通过Weibull激活函数可以有效地模拟扰动扩散与攻击失败之间的关系。根据Weibull激活函数，可以得到它的导数如下：

通过在每一层限制权重范数约束和梯度范数约束，整个神经网络的Lipschitz常量被定义如下：

其中，当l>1时

否则

可见Lipschitz常量被约束为1的同时，神经网络仍受到权值和梯度的约束，保持了表达能力。

对于Lipschitz神经网络

和全连接神经网络F，每层间的误差

因此可以根据每层的误差

和

计算得到

通过梯度范数约束

得到

从而根据

和

计算K_l的范围如下：

可以将K_l的上确界确定为l层Lipschitz神经网络的梯度范数K_l的值。

由此，本申请可以给出Lipschitz神经网络的迭代过程如下：

I.通过计算K_l的上确界确定K_l值，K_l值取该神经网络迭代过程中的全局最小值，且不大于1.5；

其中

是l-1层与l层神经网络的权重矩阵，

是l-1层与l层神经网络的偏差。也就是说，可以通过K_l去约束连接层权重和偏差，从而实现连接层的权重和偏差被限制在小范围的波动，从而避免脏数据对整个网络造成过大影响。

III.Lipschitz-Weibull激活函数

计算神经网络梯度反向传播以更新各层模型参数。

根据本申请实施例的纵向联邦学习模型的训练方法，可以提升纵向联邦学习系统抗攻击、抗风险的能力，可以有效限制脏数据和恶意更新的扩散，以抵御攻击，从而在保障本地数据隐私安全的同时，还保证了联合模型的性能。

图5是本申请实施例所提供的一种纵向联邦学习模型的训练装置的结构框图。需要说明的是，本申请实施例的纵向联邦学习模型的训练装置应用于第一参与方设备，所述第一参与方设备拥有标签数据，所述纵向联邦学习模型包括所述第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二参与方设备中的第二底层子模型。如图5所示，该训练装置可以包括：第一获取模块501、第二获取模块502、第三获取模块503和训练模块504。

其中，第一获取模块501用于将第一参与方设备中的第一训练数据输入至第一底层子模型，获得第一参与方设备的第一底层输出数据。

第二获取模块502用于获取第二参与方设备发送的第二底层输出数据；第二底层输出数据是利用第二训练数据和第二底层子模型获得的。

第三获取模块503用于将第一底层输出数据和第二底层输出数据输入至交互层子模型，得到交互层输出数据。

训练模块504用于将交互层输出数据输入至顶层子模型，获得顶层输出数据，根据顶层输出数据和标签数据计算最终误差，并根据最终误差对纵向联邦学习模型进行训练。

在一种实现方式中，训练模块504后向传播所述最终误差以更新所述纵向联邦学习模型中各层子模型的模型参数，循环迭代直至满足预审停止条件时得到训练完成的目标纵向联邦学习模型。

在一种可能的实现方式中，训练模块504后向传播所述最终误差以更新所述纵向联邦学习模型中各层子模型的模型参数的实现方式可如下：采用所述最终误差计算所述顶层子模型的模型参数对应的顶层梯度，并根据所述顶层梯度更新所述顶层子模型的模型参数；根据所述最终误差计算得到交互层误差，并根据所述交互层误差和所述第一底层输出数据计算得到所述第一参与方设备对应的第一拼接参数的第一梯度，以及根据所述交互层误差和所述第一拼接参数计算得到第一底层子模型误差；采用所述最终误差和所述第二参与方设备进行交互计算，得到所述第二参与方设备对应的第二拼接参数的第二梯度和第二底层子模型误差；采用所述第一梯度更新所述交互层子模型中的所述第一拼接参数，并根据所述第一底层子模型误差更新所述第一底层子模型的模型参数；采用所述第二梯度更新所述交互层子模型中的所述第二拼接参数，并将所述第二底层子模型误差发送给所述第二参与方设备；所述第二底层子模型误差用于更新所述第二底层子模型的模型参数。

在一种实现方式中，第一底层子模型中的全连接层为Lipschitz神经网络；和/或，所述第二底层子模型中的全连接层为Lipschitz神经网络。

可选地，Lipschitz神经网络包含多层，每一层均施加Lipschitz常量约束；整个Lipschitz神经网络的Lipschitz约束是每一层上的Lipschitz常量约束的乘积。

在一种实现方式中，Lipschitz常量约束包括权重范数约束和梯度范数约束；其中，权重范数约束的公式表示如下：

其中，

为l-1层与l层神经网络的权重矩阵，K_l为l层神经网络的梯度范数约束；

其中，梯度范数约束的公式表示如下：

为激活函数，K_l为l层神经网络的梯度范数约束，

为l层神经网络的激活前矢量。

在一种可能的实现方式中，激活函数为Lipschitz-韦布尔Weibull激活函数；Lipschitz-Weibull激活函数的公式表示如下：

其中，

的一个元素。

在一种实现方式中，l层神经网络的梯度范数约束K_l的范围如下：

其中，ε为每层间的误差；W_l为全连接神经网络的权重矩阵。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请实施例的纵向联邦学习模型的训练装置，通过基于利普希茨Lipschitz神经网络构建纵向联邦学习模型中的顶层子模型，使得整个纵向联邦学习模型受Lipschitz的约束，保持了表达能力的同时，还可以提升纵向联邦学习系统抗攻击、抗风险的能力，可以有效限制脏数据和恶意更新的扩散，以抵御攻击，从而在保障本地数据隐私安全的同时，还保证了联合模型的性能。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用以实现纵向联邦学习模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的纵向联邦学习模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的纵向联邦学习模型的训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的纵向联邦学习模型的训练方法对应的程序指令/模块(例如，附图5所示的第一获取模块501、第二获取模块502、第三获取模块503和训练模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的纵向联邦学习模型的训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现纵向联邦学习模型的训练方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用以实现纵向联邦学习模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现纵向联邦学习模型的训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用以实现纵向联邦学习模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种纵向联邦学习模型的训练方法，应用于第一参与方设备，所述第一参与方设备拥有标签数据，所述纵向联邦学习模型包括所述第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二参与方设备中的第二底层子模型，所述方法包括：

2.根据权利要求1所述的方法，其中，所述根据所述最终误差对所述纵向联邦学习模型进行训练，包括：

后向传播所述最终误差以更新所述纵向联邦学习模型中各层子模型的模型参数，循环迭代直至满足预审停止条件时得到训练完成的目标纵向联邦学习模型。

3.根据权利要求2所述的方法，其中，所述后向传播所述最终误差以更新所述纵向联邦学习模型中各层子模型的模型参数，包括：

采用所述最终误差计算所述顶层子模型的模型参数对应的顶层梯度，并根据所述顶层梯度更新所述顶层子模型的模型参数；

根据所述最终误差计算得到交互层误差，并根据所述交互层误差和所述第一底层输出数据计算得到所述第一参与方设备对应的第一拼接参数的第一梯度，以及根据所述交互层误差和所述第一拼接参数计算得到第一底层子模型误差；

采用所述最终误差和所述第二参与方设备进行交互计算，得到所述第二参与方设备对应的第二拼接参数的第二梯度和第二底层子模型误差；

采用所述第一梯度更新所述交互层子模型中的所述第一拼接参数，并根据所述第一底层子模型误差更新所述第一底层子模型的模型参数；

采用所述第二梯度更新所述交互层子模型中的所述第二拼接参数，并将所述第二底层子模型误差发送给所述第二参与方设备；所述第二底层子模型误差用于更新所述第二底层子模型的模型参数。

4.根据权利要求1所述的方法，其中，所述第一底层子模型中的全连接层为Lipschitz神经网络；和/或，所述第二底层子模型中的全连接层为Lipschitz神经网络。

5.根据权利要求1至4中任一项所述的方法，其中，所述Lipschitz神经网络包含多层，每一层均施加Lipschitz常量约束；整个所述Lipschitz神经网络的Lipschitz约束是每一层上的Lipschitz常量约束的乘积。

6.根据权利要求5所述的方法，其中，所述Lipschitz常量约束包括权重范数约束和梯度范数约束；其中，

所述权重范数约束的公式表示如下：

其中，

所述梯度范数约束的公式表示如下：

为激活函数，K_l为l层神经网络的梯度范数约束，

为l层神经网络的激活前矢量。

7.根据权利要求6所述的方法，其中，所述激活函数为Lipschitz-韦布尔Weibull激活函数；所述Lipschitz-Weibull激活函数的公式表示如下：

其中，

的一个元素。

8.根据权利要求6或7所述的方法，其中，所述l层神经网络的梯度范数约束K_l的范围如下：

9.一种纵向联邦学习模型的训练装置，应用于第一参与方设备，所述第一参与方设备拥有标签数据，所述纵向联邦学习模型包括所述第一参与方设备中的第一底层子模型、交互层子模型、基于利普希茨Lipschitz神经网络的顶层子模型和第二参与方设备中的第二底层子模型，所述装置包括：

10.根据权利要求9所述的装置，其中，所述训练模块具体用于：

11.根据权利要求10所述的装置，其中，所述训练模块具体用于：

12.根据权利要求9所述的装置，其中，所述第一底层子模型中的全连接层为Lipschitz神经网络；和/或，所述第二底层子模型中的全连接层为Lipschitz神经网络。

13.根据权利要求9至12中任一项所述的装置，其中，所述Lipschitz神经网络包含多层，每一层均施加Lipschitz常量约束；整个所述Lipschitz神经网络的Lipschitz约束是每一层上的Lipschitz常量约束的乘积。

14.根据权利要求13所述的装置，其中，所述Lipschitz常量约束包括权重范数约束和梯度范数约束；其中，

所述权重范数约束的公式表示如下：

其中，

所述梯度范数约束的公式表示如下：

为激活函数，K_l为l层神经网络的梯度范数约束，

为l层神经网络的激活前矢量。

15.根据权利要求14所述的装置，其中，所述激活函数为Lipschitz-韦布尔Weibull激活函数；所述Lipschitz-Weibull激活函数的公式表示如下：

其中，

的一个元素。

16.根据权利要求14或15所述的装置，其中，所述l层神经网络的梯度范数约束K_l的范围如下：

17.一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1至8中任一项所述方法的步骤。