CN110309923B

CN110309923B - 横向联邦学习方法、装置、设备及计算机存储介质

Info

Publication number: CN110309923B
Application number: CN201910597883.1A
Authority: CN
Inventors: 程勇; 衣志昊; 吴文霞; 刘洋; 陈天健
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2024-04-26
Anticipated expiration: 2039-07-03
Also published as: CN110309923A

Abstract

本发明涉及人工智能金融科技(Fintech)技术领域，并公开了一种横向联邦学习方法，该方法包括：在进行横向联邦学习时，目标参与者发送第一数据特征集合到横向联邦学习中的协调者，其中，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合，所述多个参与者包括目标参与者；所述目标参与者接收所述协调者反馈的所述总数据特征集合，并根据所述总数据特征集合确定所述目标参与者的目标数据特征集合；所述目标参与者根据所述目标数据特征集合进行模型训练。本发明还公开了一种横向联邦学习装置、设备和一种计算机存储介质。本发明提高了横向联邦学习构建的联合模型的质量。

Description

横向联邦学习方法、装置、设备及计算机存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及基于人工智能领域的横向联邦学习方法、装置、设备及计算机存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。例如，联邦学习，即通过联合不同的参与者进行机器学习的方法，而其中横向联邦学习则是在参与者(如移动终端或者物联网设备)的数据特征重叠较多，用户重叠较少的情况下，取出参与者用户数据特征相同而用户不完全相同的那部分数据进行联合机器学习。但是目前在构建横向联邦学习应用时，只对参与者拥有数据的数据特征取值范围或取值范围相同的那些数据特征进行联合建模，而放弃取值范围或取值集合不同的数据特征。但是这样建模不能充分利用所有的数据特征，会限制横向联邦学习的应用场景，降低横向联邦学习构建的联合模型的质量。因此，如何提高横向联邦学习构建的联合模型的质量成为目前亟待解决的技术问题。

发明内容

本发明的主要目的在于提出一种横向联邦学习方法、装置、设备及计算机存储介质，旨在提高横向联邦学习构建的联合模型的质量。

为实现上述目的，本发明提供一种横向联邦学习方法，所述横向联邦学习方法包括如下步骤：

在进行横向联邦学习时，目标参与者发送第一数据特征集合到横向联邦学习中的协调者，其中，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合，所述多个参与者包括目标参与者；

所述目标参与者接收所述协调者反馈的所述总数据特征集合，并根据所述总数据特征集合确定所述目标参与者的目标数据特征集合；

所述目标参与者根据所述目标数据特征集合进行模型训练。

可选地，所述根据所述总数据特征集合确定所述目标参与者的目标数据特征集合的步骤，包括：

所述目标参与者检测所述总数据特征集合是否和所述第一数据特征集合相同；

若所述总数据特征集合和所述第一数据特征集合相同，则将所述总数据特征集合作为所述目标参与者的目标数据特征集合。

可选地，所述目标参与者检测所述总数据特征集合是否和所述第一数据特征集合相同的步骤之后，包括：

若所述总数据特征集合和所述第一数据特征集合不相同，则获取所述目标参与者中预设的限制条件；

所述目标参与者根据所述限制条件在所述总数据特征集合中筛选所述目标参与者的目标数据特征集合。

可选地，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合的步骤，包括：

所述协调者接收多个参与者发送的第二数据特征集合，并确定所述第二数据特征集合中各子数据特征集合的数据特征类型是否相同；

若相同，则所述协调者确定各子数据特征集合的取值集合/范围是否相同；

若各所述子数据特征集合的取值集合/范围不相同，则所述协调者将各子数据特征集合中的取值集合/范围进行合并，以生成总数据特征集合。

可选地，所述协调者接收多个参与者发送的第二数据特征集合，并确定所述第二数据特征集合中各子数据特征集合的数据特征类型是否相同的步骤之后，包括：

若不相同，则所述协调者确定所述第二数据特征集合中各子数据特征集合所属的数据特征类型，并将所属同一数据特征类型的子数据特征集合统一为第三数据特征集合；

所述协调者确定所述第三数据特征集合中各子数据特征集合的取值集合/范围是否相同；

若所述第三数据特征集合中各子数据特征集合的取值集合/范围不相同，则所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合。

可选地，所述若所述第三数据特征集合中各子数据特征集合的取值集合/范围不相同，则所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合的步骤，包括：

若所述第三数据特征集合中各子数据特征集合的取值集合/范围不相同，则所述协调者确定所述第三数据特征集合中取值集合/范围不相同的各子数据特征集合的数据数量，并检测所述数据数量是否小于预设数量；

若所述数据数量小于预设数量，则所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合。

可选地，所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合的步骤，包括：

所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以获取合并后的第四数据特征集合；

所述协调者确定未进行合并处理的所述第三数据特征集合，并根据未进行合并处理的所述第三数据特征集合和所述第四数据特征集合确定总数据特征集合。

此外，为实现上述目的，本发明还提供一种横向联邦学习装置，所述横向联邦学习装置包括：

发送模块，用于在进行横向联邦学习时，目标参与者发送第一数据特征集合到横向联邦学习中的协调者，其中，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合，所述多个参与者包括目标参与者；

接收模块，用于所述目标参与者接收所述协调者反馈的所述总数据特征集合，并根据所述总数据特征集合确定所述目标参与者的目标数据特征集合；

训练模块，用于所述目标参与者根据所述目标数据特征集合进行模型训练。

此外，为实现上述目的，本发明还提供一种横向联邦学习设备，所述横向联邦学习设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的横向联邦学习程序，所述横向联邦学习程序被所述处理器执行时实现如上所述的横向联邦学习方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机存储介质，所述计算机存储介质上存储有横向联邦学习程序，所述横向联邦学习程序被处理器执行时实现如上所述的横向联邦学习方法的步骤。

本发明通过在进行横向联邦学习时，目标参与者发送第一数据特征集合到横向联邦学习中的协调者，其中，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合，所述多个参与者包括目标参与者；所述目标参与者接收所述协调者反馈的所述总数据特征集合，并根据所述总数据特征集合确定所述目标参与者的目标数据特征集合；所述目标参与者根据所述目标数据特征集合进行模型训练。通过在目标参与者发送第一数据特征集合到协调者，并接收协调者发送的总数据特征集合，再在总数据特征集合中获取目标参与者对应的目标数据特征集合，并根据目标数据特征集合进行模型训练，从而可以让参与者根据自身需求对总数据特征集合进行甄别，得到目标数据特征集合，可以避免参与者接收协调者对各个参与者发送的第二数据特征集合进行操作得到的总数据特征集合，并根据总数据特征集合直接进行模型训练，而影响联合模型的质量的现象发生，从而也提高了横向联邦学习构建的联合模型的质量。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明横向联邦学习方法第一实施例的流程示意图；

图3为本发明横向联邦学习装置的装置模块示意图；

图4为本发明横向联邦学习方法中合并取值范围集合的场景示意图；

图5为本发明横向联邦学习的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例横向联邦学习设备可以是PC机或服务器设备。

如图1所示，该横向联邦学习设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及横向联邦学习程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的横向联邦学习程序，并执行下述横向联邦学习方法中的操作。

基于上述硬件结构，提出本发明横向联邦学习方法实施例。

参照图2，图2为本发明横向联邦学习方法第一实施例的流程示意图，所述方法包括：

步骤S10，在进行横向联邦学习时，目标参与者发送第一数据特征集合到横向联邦学习中的协调者，其中，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合，所述多个参与者包括目标参与者；

参与者可以是数据拥有者，只使用自己拥有的数据来训练机器学习模型，并向协调者发送模型参数更新。协调者可以是参数服务器，或者是聚合服务器，将接收到的模型参数更新进行融合(如加权平均)，并将融合后的模型参数更新再分发给各个参与者。数据特征可以是指数据的一些特有字段和描述，或者是通过特征工程提取的对数据的描述。例如，对于一条出行记录数据(用户ID，年龄，性别，出行时间，出发地，目的地，出行方式，用时，天气)，其中，用户ID，年龄，性别，出行时间和出行方式等，都是这条数据的数据特征。当有大量数据时，还可以通过特征工程统计每个用户的每个月出行次数，那么“每月出行次数”是通过特征工程提取的数据特征。第一数据特征集合可以是目标参与者向协调者发送的所有数据特征，第二数据特征集合可以是协调者接收到的所有数据特征。总数据特征集合可以是协调者需要向各个参与者发送的数据特征。

目前在构建横向联邦学习应用时，一般只对参与者拥有数据的数据特征取值范围或取值集合相同的那些数据特征进行联合建模，而放弃取值范围或取值集合不同的数据特征。或者是在构建横向联邦学习应用时，当出现参与者有一个或者数据特征取值范围或者取值集合不同时，通过联邦学习对相同的数据特征进行联合建模，而通过参与者本地建模对取值范围或者取值集合不同的数据特征进行独立建模。然而这些方法均会影响横向联邦学习构建的联合模型的质量。

因此，在进行横向联邦学习时，目标参与者会发送第一数据特征集合到横向联邦学习中的协调者，与此同时，协调者除了接收目标参与者发送的第一数据特征集合，还接收其它进行横向联邦学习的参与者发送的数据特征集合，以形成第二数据特征集合，并在确定第二数据特征集合中相同数据特征的子数据特征集合的取值范围/集合存在有不相同的，则对相同数据特征的子数据特征集合的取值范围/集合进行合并处理，以得到总数据特征集合。

另外，为辅助理解对本实施例协调者获取总数据特征集合的理解，下面进行举例说明。

例如，如图4所示，假设存在三个参与者，且三个参与者的数据特征F的取值集合不相同，参与者1的数据特征F的取值集合为(f1、f2、f3、f4)、参与者2的数据特征F的取值集合为(f1，f3，f5，f6)，参与者3的数据特征F的取值集合(f3、f5、f6、f7)，也就是对于这一个数据特征F，三个参与者的数据不能对齐(三个参与者除了一个数据特征F外，其它的数据特征都是对齐的)。此时就可以对这些数据特征进行合并，以得到合并后的数据特征F的取值集合(f1，f2，f3，f4，f5，f6，f7)，也就是取并集的结果作为每个参与者的数据特征F的取值集合。这样一来，每个参与者的数据特征F的取值集合就相同了，也就实现了三个参与者的数据特征F的对齐。

并且需要说明的是，在参与者拥有的数据的大部分特征都是可以对齐的，只有一个或者比较少的几个数据特征不能对齐的情况下，可以采用本实施例提供的技术方案进行模型训练。并且在参与者向协调者发送自身拥有数据的数据特征及取值范围或取值集合时，一个参与者可以同时发送多个不同数据特征的取值范围/取值集合，或者是只发送同一个数据特征的取值范围或集合，具体的在此不做限制。

步骤S20，所述目标参与者接收所述协调者反馈的所述总数据特征集合，并根据所述总数据特征集合确定所述目标参与者的目标数据特征集合；

当协调者将总取值范围集合发送至与各个参与者后，由于使用总取值范围集合可能会扩大部分或者全部参与者对应的取值范围集合，尤其是当数据特征是离散变量时，合并后的取值集合可能会变大。而当数据特征是连续变量时，虽然合并后的取值范围可能会变大，但是不会明显影响联合模型的构建和模型的质量。因此当数据特征是离散变量且合并后的取值集合变大时，在做联邦学习的模型构建过程中，每个参与者在本地训练模型时，可以利用参与者的信息，例如，参与者的ID信息，对参与者的数据特征的真实取值集合进行甄别，进而提高联合模型质量。例如，对于参与者A的数据特征F，其真实的取值集合是(f1，f2，f6，f7)，而通过多个参与者合并后的取值集合扩大为(f1，f2，f3，f4，f5，f6，f7)。在构建联合模型的时候，可以增加一些限制条件，利用参与者A的ID来甄别参与者A的数据特征F的真实取值集合(f1，f2)。例如可以设定参与者A的数据特征F会取值为f3，f4和f5的概率都为零。并且对于数据特征是连续变量的情况，也可以采用类似的甄别方法来提高联合模型的质量，加快联合模型的训练。也就是在目标参与者接收到协调者反馈的目标数据特征集合后，会主动根据此总数据特征集合，以及自身所携带的限制条件来确定目标参与者的目标数据特征集合。

步骤S30，所述目标参与者根据所述目标数据特征集合进行模型训练。

当目标参与者获取到目标数据特征集合后，则可以直接将此目标数据特征集合应用到模型中进行模型训练。

另外，为了辅助理解对本实施例中横向联邦学习的原理，下面进行举例说明。

例如，如图5所示，参与者向协调者汇报数据特征及数据特征的取值范围或取值集合后，协调者统计每个参与者拥有的数据的数据特征的取值范围或取值集合，并且协调者会识别取值范围或取值集合不同的那部分数据特征，并通过协调者对识别出来的数据特征进行数据特征取值范围或取值集合合并。然后协调者向每个参与者分发以获取到的合并的数据特征取值范围或取值集合。而各个参与者会根据获取到的合并的数据特征取值范围或取值集合进行横向联邦学习联合建模，并且参与者在本地训练模型时对数据特征的真实取值范围或取值集合进行甄别，以提高联合模型的质量。

在本实施例中，通过在进行横向联邦学习时，目标参与者发送第一数据特征集合到横向联邦学习中的协调者，其中，所述协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合；所述目标参与者接收所述协调者反馈的所述总数据特征集合，并根据所述总数据特征集合确定所述目标参与者的目标数据特征集合；所述目标参与者根据所述目标数据特征集合进行模型训练。通过在目标参与者发送第一数据特征集合到协调者，并接收协调者发送的总数据特征集合，再在总数据特征集合中获取目标参与者对应的目标数据特征集合，并根据目标数据特征集合进行模型训练，从而可以让参与者根据自身需求对总数据特征集合进行甄别，得到目标数据特征集合，可以避免参与者接收协调者对各个参与者发送的第二数据特征集合进行操作得到的总数据特征集合，并根据总数据特征集合直接进行模型训练，而影响联合模型的质量的现象发生，从而也提高了横向联邦学习构建的联合模型的质量。

进一步地，基于本发明横向联邦学习方法第一实施例，提出本发明横向联邦学习方法第二实施例。本实施例是本发明第一实施例的步骤S20，根据所述总数据特征集合确定所述目标参与者的目标数据特征集合的步骤的细化，包括：

步骤a，所述目标参与者检测所述总数据特征集合是否和所述第一数据特征集合相同；

目标参与者在接收到协调者发送的总数据特征集合后，还需要确定总数据特征集合是否和目标参与者发送给协调者的第一数据特征集合相同，若总数据特征集合和第一数据特征集合相同，则可以直接让目标参与者根据总数据特征集合进行模型训练，若总数据特征集合和第一数据特征集合不相同，则需要根据目标参与者自身的限制在总数据特征集合中筛选出目标数据特征集合，并根据目标数据特征集合进行模型训练。

步骤b，若所述总数据特征集合等于所述第一数据特征集合，则将所述总数据特征集合作为所述目标参与者的目标数据特征集合。

当经过判断发现总数据特征集合等于第一数据特征集合时，则可以将总数据特征集合作为目标参与者的目标数据特征集合，让目标参与者直接进行模型训练。

在本实施例中，通过确定总数据特征集合和第一数据特征集合是否相同，若相同，则可以直接根据总数据特征集合进行模型训练，从而保障了横向联邦建模的模型质量。

具体地，目标参与者检测所述总数据特征集合是否大于第一数据特征集合的步骤之后，包括：

步骤c，若所述总数据特征集合大于所述第一数据特征集合，则获取所述目标参与者中预设的限制条件；

限制条件可以是确定参与者能够根据哪些数据进行模型训练。当经过判断发现总数据特征集合大于第一数据特征集合时，则需要获取目标参与者中预设的限制条件，并根据限制条件来确定参与者可以在总数据特征集合中选择哪些数据进行模型训练。

步骤d，所述目标参与者根据所述限制条件在所述总数据特征集合中筛选所述目标参与者的目标数据特征集合。

当获取到限制条件后，目标参与者会根据此限制条件在总数据特征集合中筛选出目标参与者能够进行模型训练的目标数据特征集合，并根据此目标数据特征集合进行模型训练。如根据参与者的ID在总取值范围集合中确定哪一部分取值范围集合为目标参与者对应的目标数据特征集合，并可以根据此目标数据特征集合进行模型训练。

在本实施例中，通过在总数据特征集合大于第一数据特征集合时，根据目标参与者的限制条件在总数据特征集合中筛选出目标数据特征集合，并根据目标数据特征集合进行模型训练，从而提高了横向联邦建模的模型质量。

进一步地，在本发明第一至第二实施例任意一个的基础上，提出了本发明横向联邦学习方法的第三实施例，本实施例是在本发明第一实施例的步骤S10，协调者接收多个参与者发送的第二数据特征集合，并基于所述第二数据特征集合生成总数据特征集合的步骤的细化，包括：

步骤e，所述协调者接收多个参与者发送的第二数据特征集合，并确定所述第二数据特征集合中各子数据特征集合的数据特征类型是否相同；

子数据特征集合可以是参与者发送的数据集合，协调者在接收到多个参与者发送的字数据集合并形成第二数据特征集合后，会先确定各个子数据特征集合中的数据特征类型，以确定各个子数据特征集合中的数据特征类型是否相同，并根据不同的确定结果执行不同的操作，比如当一部分数据的数据特征类型是连续变量(例如，成年人身高)，一部分数据特征类型是离散变量(例如，出行方式)时，则可以将数据特征类型为连续变量的子数据特征集合划分为一类，将数据特征类型为离散变量的子数据特征集合划分为一类。

步骤f，若相同，则所述协调者确定各子数据特征集合的取值集合/范围是否相同；

当经过判断发现第二数据特征集合中的各个子数据特征集合的数据特征类型相同，则还需要协调者确定各个子数据特征集合的取值集合(例如，步行，自行车，公交，地铁，自驾，高铁，飞机和轮船)或者取值范围(例如，160厘米到190厘米)是否相同，也就是在各个子数据特征集合的数据特征类型为连续变量时，则需要获取各个子数据特征集合的取值范围，并判断是否存在有子数据特征集合的取值范围和其它子数据特征集合的取值范围不同的，若存在，则对各个子数据特征集合进行合并处理。同理，当各个子数据特征集合的数据特征类型为离散变量时，则获取各个子数据特征集合的取值集合，并判断是否存在有子数据特征集合的取值集合和其它子数据特征集合的取值集合不同的，若存在，则对各个子数据特征集合进行合并处理。例如，联邦学习的两个参与者是两家券商(券商A和B)，分别拥有不同的投资客户。现在想通过横向联邦学习对券商A和B的拥有的客户投资数据进行联合建模，构建联合预测模型，用来预测客户的投资行为和习惯，例如，预测什么样的客户在什么时间会购买哪支股票。在客户数据特征中，比较重要的一个特征是客户购买的股票的股票代码(或者股票名称)。在实际应用场景中，券商A和券商B的客户所购买的股票可能不完全相同，即对于股票代码这一个数据特征，券商A拥有的数据的股票代码的取值集合与券商B拥有的数据的股票代码的取值集合不同。此时就可以通过协调者对券商A的取值集合和券商B的取值集合进行合并处理。其中，

步骤g，若各所述子数据特征集合的取值集合/范围不相同，则所述协调者将各子数据特征集合中的的取值集合/范围进行合并，以生成总数据特征集合。

当经过判断各个子数据特征集合的取值集合或者取值范围不相同时，则需要通过协调者将各个子数据特征集合中的取值集合进行合并，将各个子数据特征集合中的取值范围进行合并，以得到总数据特征集合。

在本实施例中，通过在协调者发现参与者发送的第二数据特征集合中的各个子数据特征集合相同，但各个子数据特征集合的取值集合/范围不同时，对各个取值集合/范围进行合并处理，以得到总数据特征集合，从而实现了所有参与者的数据特征对齐，可以在联邦学习建模时使用尽量多的参与者拥有的数据的数据特征，即可以增加数据特征个数，减少不可用的数据特征，提高了横向联邦学习构建的联合模型的质量。

进一步地，协调者接收多个参与者发送的第二数据特征集合，并确定所述第二数据特征集合中各子数据特征集合的数据特征是否相同的步骤之后，包括：

步骤h，若不相同，则所述协调者确定所述第二数据特征集合中各子数据特征集合所属的数据特征类型，并将所属同一数据特征类型的子数据特征集合统一为第三数据特征集合；

当经过判断发现第二数据特征集合中的各个子数据特征集合的数据特征类型不相同时，则协调者需要确定第二数据特征集合中各个子数据特征集合所属的数据特征类型，并将所属同一数据特征类型的子数据特征集合统一为第三数据特征集合。

步骤j，所述协调者确定所述第三数据特征集合中各子数据特征集合的取值集合/范围是否相同；

协调在获取到各个第三数据特征集合后，还需要确定第三数据特征集合中各个子数据特征集合的取值范围或者取值集合是否相同，并根据不同的确定结果执行不同的操作。

步骤k，若所述第三数据特征集合中各子数据特征集合的取值集合/范围不相同，则所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合。

当经过判断发现第三数据特征集合中各子数据特征集合的取值范围或者取值集合不相同，则协调者会将第三数据特征集合中各子数据特征集合的取值范围进行合并，将第三数据特征集合中各子数据特征集合的取值集合进行合并，以便得到总数据特征集合。但是当经过判断发现存在有第三数据特征集合中各子数据特征集合的取值集合或者取值范围相同时，则可以直接对第三数据特征集合中各子数据特征集合进行融合更新处理。

在本实施例中，通过在协调者中确定第二数据特征集合存在多个数据特征时，则获取第三数据特征集合，并在第三数据特征集合中各子数据特征集合的取值集合/范围不相同时，进行合并处理，以生成总数据特征集合，从而实现了所有参与者的数据特征对齐，可以在联邦学习建模时使用尽量多的参与者拥有的数据的数据特征，即可以增加数据特征个数，减少不可用的数据特征，提高了横向联邦学习构建的联合模型的质量。

具体地，若所述第三数据特征集合中各子数据特征集合的取值集合/范围不相同，则所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合的步骤，包括：

步骤x，若所述第三数据特征集合中各子数据特征集合的取值集合/范围不相同，则所述协调者确定所述第三数据特征集合中取值集合/范围不相同的各子数据特征集合的数据数量，并检测所述数据数量是否小于预设数量；

若经过判断发现第三数据特征集合中各个子数据特征集合的取值范围或者取值集合不相同时，则协调者需要确定第三数据特征集合中取值范围或者取值集合不相同的各个子数据特征集合的数据数量，并检测确定数据数量是否小于预设数量，若经过判断发现数据数量小于预设数量，并根据不同的检测结果执行不同的操作。

步骤y，若所述数据数量小于预设数量，则所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合。

当经过判断发现数据数量小于预设数量时，则可以让协调者将第三数据特征集合中的各个子数据特征集合的取值集合或者取值范围进行合并，以便得到总数据特征集合。但是当经过判断发现数据数量不小于预设数量时，则可以使用联邦迁移学习来解决数据特征不能对齐的问题。

在本实施例中，通过确定数据数量是否小于预设数量，并在数据数量小于预设数量时，才进行合并处理，以得到总数据特征集合，从而提高了横向联邦学习构建的联合模型的质量。

具体地，协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以生成总数据特征集合的步骤，包括：

步骤m，所述协调者将所述第三数据特征集合中各子数据特征集合的取值集合/范围进行合并，以获取合并后的第四数据特征集合；

协调者在对第三数据特征集合中各个子数据特征集合的取值范围或者取值集合进行合并后，会获取到合并后的第四数据特征集合，需要说明的是第四数据特征集合的数量由第三数据特征集合决定的，也就是有多少个第三数据特征集合进行合并操作处理，就会产生多少个第四数据特征集合。

步骤n，所述协调者确定未进行合并处理的所述第三数据特征集合，并根据未进行合并处理的所述第三数据特征集合和各所述第四数据特征集合确定总数据特征集合。

协调者在对各个第三数据特征集合均已检测完成后，需要确定哪些第三数据特征集合未进行合并处理，并获取这些未进行合并处理的第三数据特征集合的融合更新数据，并将这些融合更新数据和各个第四数据特征集合一起作为总数据特征集合。

在本实施例中，通过根据集合数量和第四数据特征集合来确定总数据特征集合，从而保障了获取到的总数据特征集合的准确性，提高了横向联邦学习构建的联合模型的质量。

本发明还提供一种横向联邦学习装置，参照图3，所述横向联邦学习装置包括：

进一步地，所述接收模块，还用于：

进一步地，所述发送模块，还用于：

上述各程序模块所执行的方法可参照本发明横向联邦学习方法各个实施例，此处不再赘述。

本发明还提供一种计算机存储介质。

本发明计算机存储介质上存储有横向联邦学习程序，所述横向联邦学习程序被处理器执行时实现如上所述的横向联邦学习方法的步骤。

其中，在所述处理器上运行的横向联邦学习程序被执行时所实现的方法可参照本发明横向联邦学习方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于横向联邦学习模型的用户出行预测方法，其特征在于，应用于目标参与设备，所述基于横向联邦学习模型的用户出行预测方法包括如下步骤：

目标参与设备发送第一用户数据特征集合到横向联邦学习中的协调设备，其中，所述协调设备接收多个参与设备发送的第二用户数据特征集合，并基于所述第二用户数据特征集合生成总用户数据特征集合，所述多个参与设备包括目标参与设备，所述参与设备是指拥有用户数据特征集合的设备，所述用户数据特征集合包括用户ID、年龄、性别、出行时间和出行方式，所述总用户数据特征集合是对所述第二用户数据特征集合中各子用户数据特征集合进行合并处理后所生成的；

所述目标参与设备接收所述协调设备反馈的所述总用户数据特征集合，并根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合，其中，所述限制条件为所述目标参与设备的用户数据特征的真实取值范围或取值集合；

所述目标参与设备根据所述目标用户数据特征集合进行模型训练，而非直接根据所述总用户数据特征集合进行模型训练；

所述目标参与设备基于训练得到的模型对所述目标参与设备中各用户进行用户出行预测；

其中，所述协调设备接收多个参与设备发送的第二用户数据特征集合，并基于所述第二用户数据特征集合生成总用户数据特征集合的步骤包括：

所述协调设备接收多个参与设备发送的第二用户数据特征集合，并确定所述第二用户数据特征集合中各子用户数据特征集合的数据特征类型是否相同；

若所述第二用户数据特征集合中各子用户数据特征集合的数据特征类型相同，则所述协调设备确定各子用户数据特征集合的取值集合/范围是否相同；

若各所述子用户数据特征集合的取值集合/范围不相同，则所述协调设备将各子用户数据特征集合中的取值集合/范围进行合并，以生成总用户数据特征集合；

若所述第二用户数据特征集合中各子用户数据特征集合的数据特征类型不相同，则所述协调设备确定所述第二用户数据特征集合中各子用户数据特征集合所属的数据特征类型，并将所属同一数据特征类型的子用户数据特征集合统一为第三用户数据特征集合；

所述协调设备确定所述第三用户数据特征集合中各子用户数据特征集合的取值集合/范围是否相同；

若所述第三用户数据特征集合中各子用户数据特征集合的取值集合/范围不相同，则所述协调设备确定所述第三用户数据特征集合中取值集合/范围不相同的各子用户数据特征集合的数据数量，并检测所述数据数量是否小于预设数量；

若所述数据数量小于预设数量，则所述协调设备将所述第三用户数据特征集合中各子用户数据特征集合的取值集合/范围进行合并，以生成总用户数据特征集合。

2.如权利要求1所述的基于横向联邦学习模型的用户出行预测方法，其特征在于，所述根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合的步骤，包括：

所述目标参与设备检测所述总用户数据特征集合是否和所述第一用户数据特征集合相同；

若所述总用户数据特征集合和所述第一用户数据特征集合相同，则将所述总用户数据特征集合作为所述目标参与设备的目标用户数据特征集合。

3.根据权利要求2所述的基于横向联邦学习模型的用户出行预测方法，其所述根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合的步骤，包括：

若所述总用户数据特征集合和所述第一用户数据特征集合不相同，则获取所述目标参与设备中预设的限制条件；

所述目标参与设备根据所述限制条件在所述总用户数据特征集合中筛选所述目标参与设备的目标用户数据特征集合。

4.一种基于横向联邦学习模型的用户出行预测方法，其特征在于，应用于协调设备，所述基于横向联邦学习模型的用户出行预测方法包括如下步骤：

协调设备接收多个参与设备发送的第二用户数据特征集合，并基于所述第二用户数据特征集合生成总用户数据特征集合，所述参与设备是指拥有用户数据特征集合的设备，所述用户数据特征集合包括用户ID、年龄、性别、出行时间和出行方式，所述总用户数据特征集合是对所述第二用户数据特征集合中各子用户数据特征集合进行合并处理后所生成的；

所述协调设备将所述总用户数据特征集合反馈给多个参与设备，所述多个参与设备包括目标参与设备，所述目标参与设备根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合，其中，所述限制条件为所述目标参与设备的用户数据特征的真实取值范围或取值集合；所述目标参与设备根据所述目标用户数据特征集合进行模型训练，而非直接根据所述总用户数据特征集合进行模型训练；所述目标参与设备基于训练得到的模型对所述目标参与设备中各用户进行用户出行预测；

5.如权利要求1所述的基于横向联邦学习模型的用户出行预测方法，其特征在于，所述协调设备将所述第三用户数据特征集合中各子用户数据特征集合的取值集合/范围进行合并，以生成总用户数据特征集合的步骤，包括：

所述协调设备将所述第三用户数据特征集合中各子用户数据特征集合的取值集合/范围进行合并，以获取合并后的第四用户数据特征集合；

所述协调设备确定未进行合并处理的所述第三用户数据特征集合，并根据未进行合并处理的所述第三用户数据特征集合和所述第四用户数据特征集合确定总用户数据特征集合。

6.一种基于横向联邦学习模型的用户出行预测装置，其特征在于，所述基于横向联邦学习模型的用户出行预测装置包括：

发送模块，用于在进行横向联邦学习时，目标参与设备发送第一用户数据特征集合到横向联邦学习中的协调设备，其中，所述协调设备接收多个参与设备发送的第二用户数据特征集合，并基于所述第二用户数据特征集合生成总用户数据特征集合，所述多个参与设备包括目标参与设备，所述参与设备是指拥有用户数据特征集合的设备，所述用户数据特征集合包括用户ID、年龄、性别、出行时间和出行方式，所述总用户数据特征集合是对所述第二用户数据特征集合中各子用户数据特征集合进行合并处理后所生成的；

第一接收模块，用于所述目标参与设备接收所述协调设备反馈的所述总用户数据特征集合，并根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合，其中，所述限制条件为所述目标参与设备的用户数据特征的真实取值范围或取值集合；

训练模块，用于所述目标参与设备根据所述目标用户数据特征集合进行模型训练，而非直接根据所述总用户数据特征集合进行模型训练；

预测模块，用于所述目标参与设备基于训练得到的模型对所述目标参与设备中各用户进行用户出行预测；

所述发送模块，还用于：

7.一种基于横向联邦学习模型的用户出行预测装置，其特征在于，所述基于横向联邦学习模型的用户出行预测装置包括：

第二接收模块，用于在进行横向联邦学习时，协调设备接收多个参与设备发送的第二用户数据特征集合，并基于所述第二用户数据特征集合生成总用户数据特征集合，所述参与设备是指拥有用户数据特征集合的设备，所述用户数据特征集合包括用户ID、年龄、性别、出行时间和出行方式，所述总用户数据特征集合是对所述第二用户数据特征集合中各子用户数据特征集合进行合并处理后所生成的；

反馈模块，用于所述协调设备将所述总用户数据特征集合反馈给多个参与设备，所述多个参与设备包括目标参与设备，所述目标参与设备根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合，其中，所述限制条件为所述目标参与设备的用户数据特征的真实取值范围或取值集合；所述目标参与设备根据所述目标用户数据特征集合进行模型训练，而非直接根据所述总用户数据特征集合进行模型训练；所述目标参与设备基于训练得到的模型对所述目标参与设备中各用户进行用户出行预测；

所述第二接收模块，还用于：

8.一种基于横向联邦学习模型的用户出行预测系统，其特征在于，所述基于横向联邦学习模型的用户出行预测系统包括：

协调设备，用于接收多个参与设备发送的第二用户数据特征集合，并基于所述第二用户数据特征集合生成总用户数据特征集合，所述多个参与设备包括目标参与设备，所述参与设备是指拥有用户数据特征集合的设备，所述用户数据特征集合包括用户ID、年龄、性别、出行时间和出行方式，所述总用户数据特征集合是对所述第二用户数据特征集合中各子用户数据特征集合进行合并处理后所生成的；将所述总用户数据特征集合反馈给多个参与设备；

目标参与设备，用于发送第一用户数据特征集合到横向联邦学习中的协调设备；接收所述协调设备反馈的所述总用户数据特征集合，并根据自身所携带的限制条件对所述总用户数据特征集合进行甄别，确定所述目标参与设备的目标用户数据特征集合，其中，所述限制条件为所述目标参与设备的用户数据特征的真实取值范围或取值集合；根据所述目标用户数据特征集合进行模型训练，而非直接根据所述总用户数据特征集合进行模型训练；基于训练得到的模型对所述目标参与设备中各用户进行用户出行预测；

所述协调设备还用于：

接收多个参与设备发送的第二用户数据特征集合，并确定所述第二用户数据特征集合中各子用户数据特征集合的数据特征类型是否相同；

9.一种横向联邦学习设备，其特征在于，所述横向联邦学习设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于横向联邦学习模型的用户出行预测程序，所述基于横向联邦学习模型的用户出行预测程序被所述处理器执行时实现如权利要求1至3中任一项所述的基于横向联邦学习模型的用户出行预测方法的步骤或者如权利要求4至5中任一项所述的基于横向联邦学习模型的用户出行预测方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有基于横向联邦学习模型的用户出行预测程序，所述基于横向联邦学习模型的用户出行预测程序被处理器执行时实现如权利要求1至3中任一项所述的基于横向联邦学习模型的用户出行预测方法的步骤或者如权利要求4至5中任一项所述的基于横向联邦学习模型的用户出行预测方法的步骤。