CN116108934A

CN116108934A - 联邦学习系统、联邦学习方法和装置

Info

Publication number: CN116108934A
Application number: CN202310389405.8A
Authority: CN
Inventors: 谢真强; 陶政坪; 钟熠兴; 杨书; 黄果; 胡姣姣; 王胜漪
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-05-12
Anticipated expiration: 2043-04-13
Also published as: CN116108934B

Abstract

本发明提供一种联邦学习系统、联邦学习方法和装置，具体实现方案为：显示操作模块，用于显示多方的数据资源信息、模型算法名称，接收需求方输入的任务信息以及需求方对数据资源信息和模型算法名称的操作，基于操作生成任务请求；数据处理模块，用于接收任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断；响应于需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。通过本实施方式，提高了联邦学习的效率。

Description

联邦学习系统、联邦学习方法和装置

技术领域

本发明涉及计算机技术领域，具体地，涉及一种联邦学习系统、联邦学习方法和装置、计算机可读存储介质。

背景技术

基于隐私计算技术的联邦学习方法大多以区块链、安全多方计算等技术为基础，在社会治理、数字政府、医疗健康等领域有了不少落地经验，一定程度上兼容了数据安全和开放共享。然而，在数据可用不可见的模式下，无筛选性的接受用户方发来的模型训练请求，可能会导致数据不可用或者数据不足以支撑模型训练的情况发生，从而降低了平台使用效率，消耗大量人力、物力及时间资源。

发明内容

本文中描述的实施例提供了一种联邦学习系统、联邦学习方法和装置以及存储有计算机程序的计算机可读存储介质。

根据本发明的第一方面，提供了一种联邦学习系统，该系统包括：显示操作模块，用于显示多方的数据资源信息、模型算法名称，接收需求方输入的任务信息以及需求方对数据资源信息和模型算法名称的操作，基于操作生成任务请求；数据处理模块，用于接收任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断；响应于需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。

在本发明的一些实施例中，上述数据处理模块还用于向显示操作模块发送模型训练状态数据，以在显示操作模块上实时显示各方的模型训练状态。

在本发明的一些实施例中，上述系统还包括：预警模块；预警模块用于向需求方发出警告信息。

在本发明的一些实施例中，上述显示操作模块包括：资源操作界面，用于显示多方的数据资源信息，并在各方的数据资源信息周围显示相应的第一可操作控件；模型算法界面，用于显示至少一个模型算法名称，并在各个模型算法名称周围显示相应的第二可操作控件；任务描述界面，用于显示任务名称输入框以及任务内容输入框；汇聚操作界面，基于需求方对各方的第一可操作控件进行操作的操作信息，确定各方相应的数据资源信息；基于需求方对第二可操作控件进行操作的操作信息，确定相应的模型算法名称；基于任务名称输入框的信息和任务内容的信息，得到任务信息；请求生成子模块，基于汇聚的数据资源信息、模型算法名称，生成任务请求。

根据本发明的第二方面，提供了一种联邦学习方法，该方法包括：接收显示操作模块发送的任务请求和任务信息，任务请求由需求方对显示操作模块上显示的、多方的数据资源信息、模型算法名称进行操作得到；基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断；响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。

在本发明的一些实施例中，上述任务请求包括：数据资源信息；基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断包括：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，确定需求任务有效。

在本发明的一些实施例中，上述数据资源信息包括：标签特征属性以及数据的特征字段，任务请求还包括：模型算法名称，在确定需求任务有效之前，基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断还包括：基于标签特征属性以及数据的特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效。

在本发明的一些实施例中，在对需求任务对应的各方的模型进行联邦训练之前，上述方法还包括：检测需求任务对应的各方中是否有进行联邦学习的新任务方，响应于检测到需求任务的各方中具有新任务方，基于预先设置的保密协议，获取对应该新任务方的数据资源信息的原始数据，并对原始数据进行预处理。

根据本发明的第三方面，提供了一种联邦学习装置。该装置包括：接收单元，被配置成接收显示操作模块发送的任务请求和任务信息，任务请求由需求方对显示操作模块上显示的、多方的数据资源信息、模型算法名称进行操作得到；确定单元，被配置成基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断；训练单元，被配置成响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。

在本发明的一些实施例中，上述任务请求包括：数据资源信息；上述确定单元进一步被配置成：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，确定需求任务有效。

在本发明的一些实施例中，上述数据资源信息包括：标签特征属性以及数据的特征字段，任务请求还包括：模型算法名称，在确定需求任务有效之前，上述确定单元进一步被配置成：基于标签特征属性以及数据的特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效。

在本发明的一些实施例中，上述装置还包括：处理单元，该处理单元被配置成检测需求任务对应的各方中是否有进行联邦学习的新任务方，响应于检测到需求任务的各方中具有新任务方，基于预先设置的保密协议，获取对应该新任务方的数据资源信息的原始数据，并对原始数据进行预处理。

根据本发明的第四方面，提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现根据本发明的第二方面的方法的步骤。

本发明提供的联邦学习系统，显示操作模块接收需求方对数据资源信息和模型算法名称的操作，生成任务请求；数据处理模块基于需求方在显示操作模块输入的任务信息以及任务请求，确定需求方的需求任务，对需求任务进行有效性判断；响应于需求任务有效，对需求任务对应的各方的模型进行训练，得到全局任务模型。由此，通过显示操作模块，可以使用户更好地了解和利用联邦平台数据资源；通过对需求任务进行有效性判断，可以降低需求方的数据适配的试错率，提升了数据利用率。

附图说明

为了更清楚地说明本发明的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本发明的一些实施例，而非对本发明的限制，其中：

图1是根据本发明联邦学习系统的一个实施例的结构示意图；

图2a是根据本发明显示操作模块中显示内容的一种示意图；

图2b是根据本发明显示操作模块中显示内容的另一种示意图；

图3是根据本发明联邦学习方法的一个实施例的流程图；

图4是根据本发明联邦学习装置的一个实施例的结构示意图。

具体实施方式

为了使本发明的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本发明保护的范围。

联邦学习（Federated Learning，FL）指多个客户端在一个中央服务器下协作式地训练模型的机器学习设置，该设置同时保证训练数据去中心化。联邦学习使用局部数据收集和最小化的原则，能够降低使用传统中心化机器学习和数据科学方法带来的一些系统性隐私风险和成本。在联邦学习过程中，各方数据都保留在本地，不泄露隐私也不违反法规；多个参与者联合数据建立虚拟的全局任务模型，并且共同获益；在联邦学习的体系下，各个参与方的身份和地位相同；联邦学习的建模效果和将整个数据集放在一起建模的效果相同。

传统的联邦学习缺乏在多方数据无汇聚情况下统一进行规范化的数据预处理，并且无筛选性的接收需求方发来的模型训练请求，可能会导致数据不可用或者经对齐后的数据不足以支撑全局任务模型训练。

针对上述无筛选的接收需求方发送的训练请求，引起需求任务建模不可靠的问题，本发明提供了一种联邦学习系统，参见图1，其示出了根据本发明联邦学习系统的一种的结构示意图100，该联邦学习系统包括：显示操作模块101和数据处理模块102。

本实施例中，显示操作模块101，用于显示多方的数据资源信息、模型算法名称，接收需求方输入的任务信息以及需求方对数据资源信息和模型算法名称的操作，基于操作生成任务请求。

本实施例中，多方的数据资源信息可以是不同参与方向显示操作模块输入的数据资源表，由于联邦学习具有信息安全性要求，各方的数据资源表仅是用于描述各方数据资源的空表，各个数据资源表具有字段信息。为了得到各方的数据资源信息，显示操作模块可以与各个参与方进行通信，得到表征各方数据资源的数据资源表，并进行显示。

本实施例中，多方的数据资源信息是可以参与联邦学习任务的所有任务方的资源信息，资源信息包括：各方不同方面的数据集，如图2a所示，A、B、C分别为不同的任务方的信用数据集，本实施例中，数据集并不是各方的本地的实际数据，而是反映各方本地数据的数据特征，具体地，可以通过特征字段的形式进行展示，显示操作模块上各方的数据资源信息是预先与各方进行通信之后得到的数据资源信息，可是参与需求方的需求任务所有的数据，也可以是参与需求任务的部分数据。通过需求方在显示操作模块的操作，可以确定需求任务需要的数据资源信息。

可选地，显示操作模块还包括：资源加载子模块，在显示操作模块上的数据资源信息不满足需求方的需求任务时，需求方可以通过资源加载子模块进行资源需求发布；同时用户还可以通过资源加载子模块进行数据资源信息的发布，并显示在显示操作模块上。

本实施例中，需求方是联邦学习的发起方，显示操作模块上可以显示有与需求方的需求任务相关的多方数据资源信息。需求方的数据资源信息包括：数据的特征字段以及标签特征属性，其中特征字段用于表示需求方的数据特征，标签特征属性为需求方所需求的任务目标，例如，需求方为银行，在该银行的字段，客户的名称、规模、信誉度以及子公司等均属于银行的特征字段，需求方需要评估个人信用度，则个人信用度即为标签特征属性。

需要说明的是，不论特征字段还是标签特征属性均属于数据资源信息中各个数据集记载在数据详情中的维度，在各方的数据集的数据详情中，均具有至少一个特征字段，相对于其他参与方的数据资源信息，需求方还具有标签特征属性。如图2b所示，需求方A的数据资源信息是：XX年客户资金交易数据，A数据详情中记载了5个维度，该5个维度包括：Y、X0、X1、X2、X3，其中，Y 表示个人信用情况，X0表示信用卡和个人信贷余额的总金额，X1表示借款人的年龄，X2表示月收入，X3表示抵押贷款和房地产贷款的数量。

本实施例中，显示操作模块101，可以以多种页面的形式显示数据资源信息，并且显示数据资源信息时还可以以不同的分组形式对数据资源信息进行分组，例如，按数据需求分组，或者按照任务需求分组，按照主题分组，按照各方所在行业分组等。

本实施例中，任务信息是需求方的用户向显示操作模块输入的、对需求任务进行描述的信息，具体地，任务信息可以包括：需求任务名称、需求任务目标；模型算法名称是需求任务对应的模型所采用的算法的名称，通过这些算法，数据处理模块可以实现对全局任务模型的训练。

本实施例中，数据处理模块102用于接收任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断；响应于需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。

本实施例中，数据处理模块接收到任务请求之后，分析任务请求中记载的需求任务各方、需求任务的参与方的数据资源信息以及模型算法名称，确定需求方的需求任务的参与方、参与算法，从任务信息中得到需求任务名称，得出具有该需求任务名称的需求任务。

可选地，数据处理模块接收到任务信息之后，基于需求方对任务的描述，可以确定需求任务中部分信息，例如，需求任务目的、需求任务的参与方，基于需求任务中除部分信息之外的信息，可以通过参与方的数据资源信息以及模型算法名称确定。

本实施例中，数据处理模块可以基于接收的任务信息和任务请求确定需求任务是否有效，任务信息用于描述任务目标，任务请求是与需求相关的数据信息，当数据处理模块检测到该数据信息的数量满足任务目标时，确定需求任务有效。

在一个示例中，任务请求包括：数据资源信息；基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断包括：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，确定需求任务有效。

在另一个示例中，数据资源信息包括：标签特征属性以及数据的特征字段，任务请求还包括：模型算法名称，在确定需求任务有效之前，基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断还包括：基于标签特征属性以及数据的特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效。

本实施例中，在需求方发起的需求任务有效之后，数据处理模块建立与任务请求对应的联邦学习任务，使需求任务的各方在各方本地的特定环境下，部署各方模型，然后基于各自本地的数据进行训练参数，得到各自的参数信息，梯度信息；再加密上传到数据处理模块，数据处理模块根据上传的信息进行信息的解密和整合，通过误差设定的目标，判断是否需要继续训练，直到满足训练条件，确定需求任务的各方的模型训练完成，得到综合需求任务各方的模型的信息的全局任务模型。并且全局任务模型可以实现需求方发起的需求任务，在该需求任务下，各方基于各自训练完成模型执行相应的任务。

本实施例提供的联邦学习系统，显示操作模块接收需求方对数据资源信息和模型算法名称的操作，生成任务请求；数据处理模块基于需求方在显示操作模块输入的任务信息以及任务请求，确定需求方的需求任务，对需求任务进行有效性判断；响应于需求任务有效，对需求任务对应的各方的模型进行训练，得到全局任务模型。由此，通过显示操作模块，可以使用户更好地了解和利用联邦平台数据资源；通过对需求任务进行有效性判断，可以降低需求方的数据适配的试错率，提升了数据利用率。

为了使需求方更好地了解各方模型训练情况，在本实施例的一些可选实现方式中，上述数据处理模块还用于向显示操作模块发送模型训练状态数据，以在显示操作模块上实时显示各方的模型训练状态。

本实施例中，模型训练状态数据包括参与需求任务的各方的模型训练状态数据，模型训练状态数据用于反映模型训练过程，例如，模型训练状态数据包括：各方的模型训练进度、全局任务模型完成百分比等。

本实施例中，数据处理模块在各方的模型训练过程中，实时从各方获取模型训练状态信息，并将各方的模型训练状态信息转化为模型训练状态数据显示在显示操作模块上，供需求任务参与的各方进行查看。

本实施例提供的联邦学习系统，通过在显示操作模块上实时显示各方模型训练状态，可以使参与需求任务的各方了解整个全局任务模型进度，为联邦学习提供了可靠地状态查询窗口。

可选地，本实施例的，数据处理模块还用于计算各方的模型训练的第一精度以及需求任务所有方共同训练的第二精度，上述数据处理模块还用于向显示操作模块发送各方的第一精度以及第二精度，以在显示操作模块上实时显示各方的第一精度和第二精度。

在本发明的另一个实施例中，上述联邦学习系统还包括：预警模块，预警模块用于向需求方发出警告信息。

本实施例中，警告信息可以基于需求方的操作的不同，而具有不同的操作内容，例如，需求方的输入的任务信息不具有需求任务的名称，则预警模块发出的警告信息包括：请填写需求任务的名称。

可选地，数据处理模块在需求任务无效时，向预警模块发出预警信息，以使预警模块发出需求任务无效的无效警告。

本实施例中，预警模块可以是显示操作模块上的子模块，也可以是独立于显示操作模块。

本实施例提供的联邦学习系统，包括预警模块，通过预警模块可以有效地提醒需求方，为需求任务的实施提供了可靠的保障。

在本发明的一些可选实现方式中，显示操作模块包括多个界面，在需求方的用户具有需求时，可以操作不同界面，实现任务信息输入以及生成任务请求，其中，任务信息包括：需求任务名称、需求任务介绍，通过任务信息可以确定需求方的具体的需求任务内容，例如，任务信息为：客户个人信用度评估。任务请求包括：需求任务各方的数据资源信息、需求任务的模型算法名称。

具体地，显示操作模块可以包括：资源操作界面、模型算法界面、任务描述界面、汇聚操作界面以及请求生成子模块。其中，资源操作界面、模型算法界面、任务描述界面、汇聚操作界面均是需求方的用户可以操作界面，在资源操作界面、模型算法界面、任务描述界面、汇聚操作界面中，通过需求方的用户的操作实现任务信息的输入以及需求任务对应的数据资源信息和模型算法名称的得到。

本实施例中，资源操作界面，用于显示多方的数据资源信息，并在各方的数据资源信息周围显示相应的第一可操作控件。模型算法界面，用于显示至少一个模型算法名称，并在各个模型算法名称周围显示相应的第二可操作控件。任务描述界面，用于显示任务名称输入框以及任务内容输入框。汇聚操作界面，基于需求方对各方的第一可操作控件进行操作的操作信息，确定各方相应的数据资源信息；基于需求方对第二可操作控件进行操作的操作信息，确定相应的模型算法名称；基于任务名称输入框的信息和任务内容的信息，得到任务信息。请求生成子模块，基于汇聚的数据资源信息、模型算法名称，生成任务请求。

本实施例中，资源操作界面、模型算法界面以及汇聚操作界面在网页上显示均可以采用多张页面进行显示，例如，资源操作界面包括如图2a所示的第一可操作控件和第二可操作控件可以根据用户的操作需求进行具体的设置，例如，第一可控操作控件和第二可控操作控件均为按钮，如图2b中，在A数据详情中具有第一可操作控件“加入购物车”按钮，当需求方的用户点击“加入购物车”按钮，即选取了A对应的数据资源信息。

本实施例中，任务请求是描述需求任务的信息，任务请求也向数据处理模块请求的开启各方模型的联邦学习的请求。请求生成子模块获取数据资源信息中各方的特征字段、各方的名称、需求方的标签特征属性，生成任务请求。

本实施例中提供的显示操作模块，通过用户操作资源操作界面、模型算法界面、任务描述界面以及汇聚操作界面可以得到有效的任务请求，并向数据处理模块发送该任务请求以及任务信息，使数据处理模块可以快速确定需求方的任务需求，并基于显示操作模块输出的任务请求和任务信息核对需求方的需求任务的有效性，提高了需求任务建模的可靠性，保证了联邦学习的实施的可靠性。

为了解决传统技术中，无筛选的接收需求方发送的训练请求，引起需求任务建模不可靠的问题，本发明还提供了一种简单、高效地联邦学习方法，参见图3，其示出了根据本发明联邦学习方法的一个实施例的流程300，该联邦学习方法包括以下步骤：

步骤301，接收显示操作模块发送的任务请求和任务信息。

本实施例中，任务请求由需求方对显示操作模块上显示的、多方的数据资源信息、模型算法名称进行操作得到。通过显示操作模块，需求方的用户可以简单、可靠地发起任务请求。

本实施例中，需求方通过显示操作模块输入任务信息，并基于显示操作模块上显示的各方的数据资源信息和模型算法名称，确定需求任务对应的数据资源和模型算法，显示操作模块基于确定的数据资源和模型算法生成任务请求，并将任务请求发送给联邦学习方法运行于其上的执行主体。

步骤302，基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断。

本实施例中，联邦学习运行于其上的执行主体在接收到任务请求之后，分析任务请求中记载的需求任务各方、需求任务的参与方的数据资源信息以及模型算法名称，确定需求方的需求任务的参与方、参与算法，从任务信息中得到需求任务名称，得出具有改需求任务名称的需求任务。

本实施例中，联邦学习运行于其上的执行主体基于接收的任务信息和任务请求确定需求任务是否有效，任务信息用于描述任务目标，任务请求是与需求相关的数据信息，当数据处理模块检测到该数据信息的数量满足任务目标时，确定需求任务有效。

步骤303，响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。

本实施例中，在需求方发起的需求任务有效之后，执行主体建立与任务请求对应的联邦学习任务，使需求任务的各方在各方本地的特定环境下，部署各方模型，然后基于各自本地的数据进行训练参数，得到各自的参数信息，梯度信息；再加密上传到数据处理模块，数据处理模块根据上传的信息进行信息的解密和整合，通过误差设定的目标，判断是否需要继续训练，直到满足训练条件，确定需求任务的各方的模型训练完成，得到综合需求任务各方的模型的信息的全局任务模型。并且全局任务模型可以实现需求方发起的需求任务，在该需求任务下，各方基于各自训练完成模型执行相应的任务。

本实施例提供的联邦学习方法，首先，接收显示操作模块发送的任务请求和任务信息；其次，基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断；最后，响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。由此，需求方通过显示操作模块，实现了快速、方便的传递需求任务信息，基于用户方提交的任务请求以及任务信息衡量任务的有效性，从而避免因盲目选择合作方数据导致的数据匮乏，无法训练出全局任务模型等情况，从根源上降低用户试错率，节省了联邦学习过程中的人力、物力以及时间资源，从而提高了联邦学习平台的数据利用率。

在本实施例的一些可选实现方式中，任务请求包括：数据资源信息；基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断包括：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，确定需求任务有效。

本实施例中，加密后的资源数据是各方在本地的实际数据，该实际数据对应数据资源信息中的各个字段，例如，数据资源信息的一个字段包括：信用值，则资源数据是该信用值对应的实际数值。

为了降低用户联邦学习的试错率，提高数据使用效率，本发明针对联邦学习实行了有效性判断机制。有效性判断机制的前提是获取用户提交的任务请求，该任务请求是由联邦学习需求方提供，建模需求方可以是政府、公共事业单位、企业、科研院所等需要联邦学习的机构。任务请求信息包括模型算法名称、标签特征属性、参与方数据名称、数据所属机构类别、数据的特征字段等信息。

本实施例中，联邦学习系统中常用的模型算法包括逻辑回归、决策树、卷积神经网络、卷积神经网络等，需求任务对应的各方的模型训练过程中均需要有大量有标注的训练集参与，若没有大量有标注的训练集参与，可能出现各方的模型不收敛等现象，因此需要判断对齐后的数据量的大小是否能满足模型训练要求。

本实施例中，在联邦学习系统中，考虑多方数据并非完全重合，系统进行模型训练前都需要对多方数据进行加密样本对齐。数据资源开发利用场景中的预判机制同样需要用到加密样本对齐，在多参与方不公开各自数据的前提下确认双方的共同用户，并且不暴露互相重叠的用户。

例如，A运营商向联邦学习运行于其上的执行主体提交任务请求，需要联合自身的手机信令数据信息与B运营商提供的用户手机信令信息进行联邦学习，用以分析人群的出行行为、分布特征和联系特征。A运营商数据的数据特征：X1、X2、X3、X4、X5、Y’，与B运营商提供的数据特征：X2、X3、X4、X5、X6、X7，其中X2、X3、X4、X5、X6为重合数据特征。执行主体接收到A运营商提交的任务请求后，通过加密的用户样本对齐技术（如RSA），在不泄露双方数据的前提下对多方数据进行整合，并且统计出数据量重合大小。数据对齐分为横向对齐和纵向对齐，以上例子是一个横向对齐的例子。

例如，银行A向执行主体提交任务请求，需要联合自身的企业贷款信息与企业B提供的企业年度信息进行联邦学习，预测企业信用评分作为企业放贷的主要评判依据。银行提供的企业贷款数据的数据特征：X1、X2、X3、X4、X5、Y’，与企业提供的企业年度信息数据的数据特征：X1、X5、X6、X7、X8、X9存在不同维度的特征属性。执行主体接收到银行A提交的任务请求后，系统通过加密的用户样本对齐技术，在不泄露双方数据的前提下对多方数据进行整合，并且统计出数据量重合大小，即对齐后的数据量的大小。以上例子是一个纵向对齐的例子，对齐后的数据特征：X1、X2、X3、X4、X5、X6、X7、X8、X9、Y’，数据对象为覆盖以上数据特征的多方重合数据，并统计重合数据量。系统设定阈值，当数据量小于阈值，表示对齐后的数据无法支撑模型训练，执行主体需向银行A反馈预警提醒，及时阻止本次联邦学习任务，为银行A重新选定联合对象节省时间成本，减少试错率。

本实施例中，数据量对应的设定阈值可以基于各方的模型算法进行确定，由于不同算法对应的数据量不同，在确定需求任务之后，需求任务对应的模型算法也相应确定，设定阈值大于模型算法对应的数据量。

本实施例提供的对需求任务进行有效性判断方法，基于任务信息，确定需求任务的多个任务方，基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，确定需求任务有效，从而从资源数据的数据量方向衡量了需求任务的有效性，为需求任务的有效性判断提供了一种可选方式。

在本实施例的一些可选实现方式中，数据资源信息包括：标签特征属性以及数据的特征字段，任务请求还包括：模型算法名称，在确定需求任务有效之前，基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断还包括：

基于标签特征属性以及数据的特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效。

本实施例中，可以从需求方操作的任务请求和需求方提供的任务目标分析本次联邦学习的准确率。为了降低用户的试错率，系统需要预估本次需求任务的有效性，根据任务请求和任务信息中的任务目标是否匹配，判断本次需求任务的有效性是一种低成本、高效率的方法。针对无效的任务请求给与警告，以提醒用户方本次模型训练可能无效。

本实施例中，任务类型包括：横向联邦、纵向联邦以及联邦迁移，不同类型的需求任务可以采用不同的模型算法，当从数据资源信息和任务信息中确定出当前任务类型的需求任务对应的算法不一致，确定需求任务无效。反之，当从数据资源信息和任务信息中检测出当前任务类型的需求任务对应的算法一致，确定需求任务有效。

基于标签特征属性以及数据的特征字段得到该联邦请求属于横向联邦任务还是纵向联邦任务。由于联合建模中数据不可见，判断联邦形式的依据为多方数据中数据的特征字段的重合度和标签特征属性，重合度达到一定阈值且标签特征不重合则表示为横向联邦，反之为纵向联邦。

横向联邦常出现在同一机构的多方数据联合建模中，纵向联邦常出现在不同机构的同一区域数据联合建模中。为此，当确定需求任务的任务类型为横向联邦之后，检测任务信息中包括的、不同参与方的任务机构名称是否为同一机构名称，若是，确定与任务机构名称相一致。当确定需求任务的任务类型为纵向联邦之后，检测任务信息中包括的、不同参与方的任务机构名称是否为不同的机构名称，若是，确定与任务机构名称相一致。

例如，A运营商与B运营商的手机信令数据共同构建模型，用以分析人群的出行行为、分布特征和联系特征。该需求任务中同一机构的同类数据存在相似度较高的数据的特征字段，A运营商数据特征：X1、X2、X3、X4、X5、X6、Y’，B运营商数据特征：X2、X3、X4、X5、X6、X7，其中X2、X3、X4、X5、X6为重合数据特征，而活动人群却存在较大不同，因此满足横向联合建模的条件。

例如，一个银行想要联合自己的贷款数据与当地公积金数据共同建模，预测贷款用户征信信息，该需求任务中数据来源于不同机构，多方数据特征差异大，银行数据特征：X1、X2、X3、X4、X5、X6、Y’，公积金数据特征：X6、X7、X8、X9、X10，特征标签属性Y’仅存在于任务发起方，但同一地区的公积金数据较全，基本覆盖当地全部工作人员，因此多方数据的ID对象重合度高，满足纵向联合建模条件。

本实施例提供的对需求任务进行有效性判断方法，基于需求任务的任务类型检测任务类型是否适用于模型算法名称对应的算法，响应于任务类型适用于算法，确定需求任务有效，本实施例从任务请求满足任务信息对应目标的方向衡量了需求任务的有效性，为需求任务的有效性判断提供了一种了另一种可选方式。

针对本发明提供的联邦学习方法，在本发明的另一个实施例中，上述方法还包括：在各方的模型训练过程中，对需求任务进行整体调度，包括状态检查、数据准备、参数配置、任务启动、状态查询和模型评估。

其中，状态检查用于向各方发送服务状态检查的指令，检查各参与方计算资源上的联邦学习任务是否正常开启；数据准备用于向各参与方发送数据格式转换的指令；参数配置用于将设置的参数发送给各参与方的计算资源，指示各参与方生成相应的参数配置文件并保存在计算资源的固定地址下；任务启动向各参与方的计算资源发起任务开始的指令；状态查询用于向各参与方的计算资源发起任务状态查询的指令；模型评估用于向各参与方的计算资源发起模型评估的指令，作为对当前训练完成的模型进行性能度量。

在本发明的另一个实施例中，在对需求任务的判断结果为需求任务有效之后，且在对需求任务对应的各方的模型进行联邦训练之前，上述联邦学习方法还可以包括：检测需求任务对应的各方中是否有进行联邦学习的新任务方，响应于检测到需求任务的各方中具有新任务方，基于预先设置的保密协议，获取对应该新任务方的数据资源信息的原始数据，并对原始数据进行统一化、标准化的预处理。

具体地，预处理包括：对原始数据的特殊符号以及异常数据进行清洗，得到清洗后的数据；对清洗后的数据进行数据量化处理，得到量化后数据；对量化后的数据进行数据标准化处理。

数据预处理包括对原始数据的特殊符号、异常数据进行清洗、数据量化处理、数据标准化处理等操作。数据预处理步骤不仅仅是针对用户方数据，所有参与联邦学习的数据提供方都应在数据接入前做好数据预处理工作，便于需要联邦学习服务时能快速提供可用数据。

本实施例中，特殊符号表示对除常用符号外的其他符号进行过滤删除，以免影响数据量化处理和数据标准化处理。异常数据包括：缺失数据、错误数据以及重复数据，该类数据产生的原因分为机械原因和人为原因，机械原因是由于机械问题导致的数据收集或保存失败造成的数据缺失，人为原因主要是人的主观失误、历史局限或者隐瞒数据造成的数据异常。例如，在个人公积金数据统计中“月缴额”属性为空、“年龄”属性为负数等情况均为机械或者人为原因导致的数据异常。

其中，缺失数据表示针对某一身份ID存在某个属性上的空缺，解决办法是设置阈值Q=(1/10) ×M，其中M表示该表的ID个数，当缺失数量大于阈值Q表示该属性缺失值过多，无法用于模型训练，应删除该属性，当缺失数量小于阈值Q时可采用平均值、热卡、K最近邻、决策树等方法进行填充。

其中，重复数据是指针对同一身份ID其多个属性特征均重复的数据，对重复数据采用去重处理一方面减少模型运算成本，另一方面使特征构建成不可逆矩阵以便于各类算法的正常运行。通过处理各参与方的缺失值、异常值、重复值数据，保持数据分布不变的情况下提升数据质量，为后续模型训练提供数据支撑。

为保证模型的正常运作，各参与方提供的数据必须为可计算数据，因此，必须对经过缺失值、异常值、重复值处理后的数据进行数据定量化处理，数据定量化处理主要针对特征属性为非数字类的数据，同时考虑到模型对原数据的依赖性，定量化操作还需反映出原数据的逻辑关系，而不是文本与数字的简单对应关系。

本实施例中，考虑到数据开发利用的应用场景，定量化处理包括数据量化和数据增量两种方式，数据量化指将一列文本类特征属性转换为可量化的数据特征，数据量化包括二类量化和多类量化，二类量化是针对数据中的“性别”、“是否”等属性。例如，基于手机信令数据中记录人员到访的省市（国内）、国家和地区（国际）信息，分析是否到访其他省市、国家，可以通过采用二类量化方式，通过“0”或者“1”分别代替原二类特征属性。或者个人公积金中的“性别”、“是否贷款”、“是否抵押”等字段均可通过“0”或者“1”分别代替原二类特征属性；多类量化是指除了二类量化的其他特征属性量化，例如，个人公积金中的“汇缴状态”分为“正常汇缴”、“封存”以及“冻结”三种状态，各状态之间没有明显关联关系，因此在多类量化过程中可就以上三种状态分别赋予不同数值。

例如，对于“日期”这类特征属性，从纵向看日期的大小明显存在先后关系，因此时间量化过程中需体现出时间先后关系，统一将“2020年12月20日”、“2020.12.20”等原时间表示形式量化为“20201220”，一方面将日期类属性特征统一量化，另一方面保留原数据的逻辑关系，减少数据量化带来的信息丢失。数据增量是指在原数据的基础上新增特征数据并进行量化处理，单纯的数据量化处理并不能完全地体现出原数据的隐含信息，数据增量处理的意义是让模型学习到隐含在原数据中的有意义的信息。

例如，手机信令数据中记录出行信息的“开始时间”和“结束时间”以及个人公积金数据中的“起缴年月”和“缴至年月”若单纯的进行数据量化只能得到两个日期特征属性的量化形式，而将两个属性特征进行简单相减再量化处理，即可得到一个新的特征属性——“出行时长”或“汇缴时长”，模型在训练过程中针对特定的Y值也许存在对原始数据特征属性不敏感，而对新特征属性敏感的情况，主要原因在于新特征能充分体现出隐含信息，使得模型训练更加精准。定量化操作是数据预处理步骤中的核心，数据量化和数据增量操作均需要结合应用场景和业务需求，选择合适的数据量化和数据增量方法，服务于模型高精度的模型训练。

本实施例中，将定量化的数据进行数据标准化处理是数据预处理的最后一个步骤，数据的标准化是将数据按比例缩放使之落入一个小的特定区间。数据标准化处理的目的是去除特征属性的单位限制，将其转化为无量刚的纯数值，便于不同单位量级的特征进行加权计算。同时在联邦学习中，通过数据标准化处理一方面可以加速模型训练，另一方面能有效保障数据隐私安全。

本实施例中，由于各特征属性的单位量级不同，导致数值差异大，使得模型训练过程中梯度的下降方向呈现“Z”字形，模型迭代缓慢。相比之下，标准化数据下的梯度下降方向更平稳，模型迭代更快更准确；与此同时，经标准化压缩后的数据与原数据差异巨大，从隐私保护角度更符合联邦学习的应用场景，即得到了数据的有效保护，又实现了更快的模型训练。

本实施例中，数据标准化处理的方法可以很多种，包括Min-max（最大-最小）标准化、z-score（z-分数）标准化、小数定标标准化等，考虑到联邦学习场景中各参与方的数据基本趋于稳定，可以选择Min-max标准化方法进行处理，将数据统一压缩到[-1，1]区间内，将原始数据转换为无量钢化数值，使各指标都处于同一个数量级上，从而可参与模型综合训练。

本实施例提供的对新任务方进行的预处理方法，可以有效地对联邦学习中各方的原始数据进行处理，提高了全局任务模型训练的可靠性。

继续参见图4，作为对上述图3所示方法的实现，本申请提供了一种联邦学习装置，该装置与图3所示的方法实施例相对应，该装置可以应用于各种电子设备中。

如图4所示，本实施例的联邦学习装置400可以包括：接收单元401、确定单元402、训练单元403。其中，上述接收单元401，可以被配置成接收显示操作模块发送的任务请求和任务信息，任务请求由需求方对显示操作模块上显示的、多方的数据资源信息、模型算法名称进行操作得到。上述确定单元402，可以被配置成基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断。上述训练单元403，可以被配置成响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。

本实施例提供的联邦学习装置，首先，接收单元401接收显示操作模块发送的任务请求和任务信息；其次，确定单元402基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断；最后，训练单元403响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。由此，需求方通过显示操作模块，实现了快速、方便的传递需求任务信息，基于用户方提交的任务请求以及任务信息衡量任务的有效性，从而避免因盲目选择合作方数据导致的数据匮乏，无法训练出全局任务模型等情况，从根源上降低用户试错率，节省了联邦学习过程中的人力、物力以及时间资源，从而提高了联邦学习平台的数据利用率。

本发明实施例提供的联邦学习装置可以应用于任何具有显示功能的产品，例如，电子纸、移动电话、平板电脑、电视机、笔记本电脑、数码相框、可穿戴设备或导航仪等。

在本发明的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时能够实现如图1至图2所示的方法的步骤。

本发明提供的联邦学习方法，首先，接收显示操作模块发送的任务请求和任务信息；其次，基于任务请求和任务信息，确定需求方的需求任务，并对需求任务进行有效性判断；最后，响应于判断结果为需求任务有效，对需求任务对应的各方的模型进行联邦训练，得到全局任务模型。由此，需求方通过显示操作模块，实现了快速、方便的传递需求任务信息，基于用户方提交的任务请求以及任务信息衡量任务的有效性，从而避免因盲目选择合作方数据导致的数据匮乏，无法训练出全局任务模型等情况，从根源上降低用户试错率，节省了联邦学习过程中的人力、物力以及时间资源，从而提高了联邦学习平台的数据利用率。

附图中的流程图和框图显示了根据本发明的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本发明的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本发明的范围。

以上对本发明的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本发明的精神和范围的情况下对本发明的实施例进行各种修改和变型。本发明的保护范围由所附的权利要求限定。

Claims

1.一种联邦学习系统，所述系统包括：

显示操作模块，用于显示多方的数据资源信息、模型算法名称，接收需求方输入的任务信息以及所述需求方对所述数据资源信息和所述模型算法名称的操作，基于所述操作生成任务请求；

数据处理模块，用于接收所述任务请求和任务信息，确定所述需求方的需求任务，对所述需求任务进行有效性判断；响应于所述需求任务有效，对所述需求任务对应的各方的模型进行联邦训练，得到全局任务模型，其中，所述任务信息是对所述需求任务进行描述的信息，所述数据资源信息包括：标签特征属性以及数据的特征字段，所述特征字段用于表示需求方的数据特征；

基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断包括：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，基于所述标签特征属性以及所述特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效；

所述任务类型包括：横向联邦和纵向联邦，所述基于标签特征属性以及所述特征字段，确定需求任务的任务类型包括：响应于多方的特征字段的重合度达到一定阈值且标签特征属性不重合则表示为所述横向联邦，反之为所述纵向联邦。

2.根据权利要求1所述的系统，其中，所述数据处理模块还用于向所述显示操作模块发送模型训练状态数据，以在所述显示操作模块上实时显示各方的模型训练状态。

3.根据权利要求1所述的系统，所述系统还包括：预警模块；

所述预警模块用于向所述需求方发出警告信息。

4.根据权利要求1所述的系统，其中，所述显示操作模块包括：

资源操作界面，用于显示多方的数据资源信息，并在各方的数据资源信息周围显示相应的第一可操作控件；

模型算法界面，用于显示至少一个模型算法名称，并在各个模型算法名称周围显示相应的第二可操作控件；

任务描述界面，用于显示任务名称输入框以及任务内容输入框；

汇聚操作界面，基于需求方对各方的第一可操作控件进行操作的操作信息，确定各方相应的数据资源信息；基于需求方对第二可操作控件进行操作的操作信息，确定相应的模型算法名称；基于所述任务名称输入框的信息和所述任务内容的信息，得到任务信息；

请求生成子模块，基于汇聚的数据资源信息、模型算法名称，生成任务请求。

5.一种联邦学习方法，所述方法包括：

接收显示操作模块发送的任务请求和任务信息，所述任务请求由需求方对所述显示操作模块上显示的、多方的数据资源信息、模型算法名称进行操作得到；

基于所述任务请求和所述任务信息，确定所述需求方的需求任务，并对所述需求任务进行有效性判断；

响应于判断结果为所述需求任务有效，对所述需求任务对应的各方的模型进行联邦训练，得到全局任务模型，其中，所述任务信息是对所述需求任务进行描述的信息，所述数据资源信息包括：标签特征属性以及数据的特征字段，所述特征字段用于表示需求方的数据特征；

基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断包括：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，基于所述标签特征属性以及所述特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效；所述任务类型包括：横向联邦和纵向联邦，所述基于标签特征属性以及所述特征字段，确定需求任务的任务类型包括：响应于多方的特征字段的重合度达到一定阈值且标签特征属性不重合则表示为所述横向联邦，反之为所述纵向联邦。

6.根据权利要求5所述的方法，其中，在对所述需求任务对应的各方的模型进行联邦训练之前，所述方法还包括：

检测所述需求任务对应的各方中是否有进行联邦学习的新任务方，响应于检测到所述需求任务的各方中具有新任务方，基于预先设置的保密协议，获取对应该新任务方的数据资源信息的原始数据，并对所述原始数据进行预处理。

7.一种联邦学习装置，所述装置包括：

接收单元，被配置成接收显示操作模块发送的任务请求和任务信息，所述任务请求由需求方对所述显示操作模块上显示的、多方的数据资源信息、模型算法名称进行操作得到；

确定单元，被配置成基于所述任务请求和所述任务信息，确定需求方的需求任务，并对所述需求任务进行有效性判断；

训练单元，被配置成响应于判断结果为所述需求任务有效，对所述需求任务对应的各方的模型进行联邦训练，得到全局任务模型，其中，所述任务信息是对所述需求任务进行描述的信息，所述数据资源信息包括：标签特征属性以及数据的特征字段，所述特征字段用于表示需求方的数据特征；

其中，基于任务请求和任务信息，确定需求方的需求任务，对需求任务进行有效性判断包括：基于任务信息，确定需求任务的多个任务方；基于数据资源信息，从各个任务方获取加密后的资源数据；对资源数据进行对齐，并统计对齐后的数据量的大小；响应于数据量的大小满足设定阈值，基于所述标签特征属性以及所述特征字段，确定需求任务的任务类型；检测任务类型是否适用于模型算法名称对应的算法；响应于任务类型适用于模型算法名称对应的算法，确定需求任务有效；

8.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现根据权利要求5或6所述的方法的步骤。