CN112150280B

CN112150280B - 提升匹配效率的联邦学习方法及设备、电子设备和介质

Info

Publication number: CN112150280B
Application number: CN202011108493.2A
Authority: CN
Inventors: 陈亮辉; 付琰; 周洋杰; 方军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2023-06-30
Anticipated expiration: 2040-10-16
Also published as: CN112150280A; US20210398026A1; EP3859557A2; EP3859557A3; JP2021193568A; KR20210077654A

Abstract

本公开提供一种提升匹配效率的联邦学习方法及设备、电子设备和介质，涉及人工智能技术领域，具体涉及深度学习，可用于云平台。该提升匹配效率的联邦学习方法，包括：响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方；从协调方接收包含所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，协调方上保存有各数据提供方的数据字段；以及分别与剩余数据提供方中的每一个进行联邦建模。

Description

提升匹配效率的联邦学习方法及设备、电子设备和介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习，特别涉及一种提升匹配效率的联邦学习方法及设备、电子设备和介质。

背景技术

联邦学习(Federated Learning)是一种打破数据孤岛、释放AI应用潜能的分布式机器学习技术，能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下，通过交换加密的机器学习中间结果实现联合建模。联邦学习已经广泛适用于金融、消费互联网等行业的业务创新场景。

其中，作为加入到联邦学习的联邦参与者，数据提供方是将自己数据提供给其他联邦参与者进行模型训练的参与者，数据使用方法是使用其他参与者数据进行建模提升自身场景效果的参与者。当越来越多数据提供方加入数据联邦的同时，也加大了数据使用方对应用数据来源的甄选难度。现有的人工梳理判断效率较低，如果联邦参与者比较多，则需要比较长的梳理时间；而且，人工判断主要依赖专家水平，而联邦学习模型有效性取决于比较多的因素，有可能会出现人工判断无效但实际数据有效，或者相反的情况。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一个方面，提供了一种提升匹配效率的联邦学习方法，包括：响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方；从所述协调方接收包含所述所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，所述协调方上保存有各数据提供方的数据字段；以及分别与所述剩余数据提供方中的每一个进行联邦建模。

根据本公开的另一个方面，提供了一种提升匹配效率的联邦学习方法，包括：从数据使用方接收其联邦学习所需的数据字段；将所接收的数据字段与保存的各个数据提供方的数据字段进行比对，以得到比对结果；基于所述比对结果确定包含所述所需的数据字段的数据提供方；以及将所述确定的包含所述所需的数据字段的数据提供方的信息发送到所述数据使用方。

根据本公开的又一个方面，提供了一种提升匹配效率的联邦学习设备，包括：第一响应单元，配置为响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方；接收单元，配置为从所述协调方接收包含所述所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，所述协调方上保存有各数据提供方的数据字段；以及训练单元，配置为分别与所述剩余数据提供方中的每一个进行联邦建模。

根据本公开的又一个方面，提供了一种提升匹配效率的联邦学习设备，包括：接收单元，配置为从数据使用方接收其联邦学习所需的数据字段；第一比对单元，配置为将所接收的数据字段与保存的各个数据提供方的数据字段进行比对，以得到比对结果；第一确定单元，配置为基于所述比对结果确定包含所述所需的数据字段的数据提供方；以及第一发送单元，配置为将所述确定的包含所述所需的数据字段的数据提供方的信息发送到所述数据使用方。

根据本公开的又一个方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行本公开中的一个方面所述的提升匹配效率的联邦学习方法。

根据本公开的又一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由电子设备的处理器执行时，致使电子设备执行本公开中的一个方面所述的提升匹配效率的联邦学习方法。

根据本公开的又一个方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现本公开中的一个方面所述的提升匹配效率的联邦学习方法。

根据本公开的又一个方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行本公开中的另一个方面所述的提升匹配效率的联邦学习方法。

根据本公开的又一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由电子设备的处理器执行时，致使电子设备执行本公开中的另一个方面所述的提升匹配效率的联邦学习方法。

根据本公开的又一个方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现本公开中的另一个方面所述的提升匹配效率的联邦学习方法。

根据本公开的一个方面，该一种提升匹配效率的联邦学习方法可以基于协调者进行数据提供方的筛选，而且由协调方保存数据字段，不用每次模型训练前都要传输数据以进行匹配，提高了计算效率。

根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了现有联邦学习建模场景的示意图；

图2示出了本公开一个示例性实施例的提升匹配效率的联邦学习方法的流程图；

图3示出了根据本公开的实施例的可在其中实施本文描述的各种方法的示例性场景的示意图；

图4示出了本公开另一个示例性实施例的提升匹配效率的联邦学习方法的流程图；

图5示出了本公开示例性实施例的基于用户ID对数据提供方进行筛选的示意图；

图6示出了本公开一个示例性实施例的提升匹配效率的联邦学习设备的结构框图；

图7示出了本公开另一个示例性实施例的提升匹配效率的联邦学习设备的结构框图；以及

图8示出了能够用于实现本公开的实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融工业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。联邦学习作为一种保障数据安全的建模方法，在金融的应用前景广泛，因为此行业受到知识产权、隐私保护、数据安全等因素影响，数据无法被直接聚合来进行机器学习模型训练。利用联邦学习的特性，我们不用导出企业数据，就能够为三方联合构建机器学习模型，既充分保护了用户隐私和数据安全，又为用户提供了个性化的产品服务，从而实现了多方共同受益。

现有的联邦学习建模一般场景是一方为数据使用方，一方为数据提供方。应当理解的是，数据使用方和数据提供方并不固定指定为参与联邦学习建模的某一个或某几个参与者，即之前作为数据使用方的参与者也可以在其他联邦学习建模的参与者发起联合建模请求时作为数据提供方提供建模数据；相应地，之前作为数据提供方的参与者也可以发起联合建模请求以作为数据使用方寻求与其他联邦学习建模的参与者的合作。

随着金融领域的不断发展以及用户需求的不断上涨，不再单单是一个数据使用方和一个数据提供方之间的联邦学习建模，越来越多的可能是多家企业之间联合建模，以期适应业务变化和用户需求的增长。因此，如图1所示，就会出现参与联邦学习建模的有多个数据提供方，即多家企业之间存在合作关系或共同为某项组织的成员。因为各企业之间业务的差异性，当数据提供方很多时，可能并不是每一个数据提供方的数据都与发起联邦建模的数据使用方的需求相匹配。如果数据使用方与每一个数据提供方均联合建模，有些模型可能效果不会很好，这反而浪费了计算资源。因此，在联邦建模之前，需要人工进行梳理判断，以过滤掉不符合数据使用方需求的数据提供方。如果参与的数据提供方比较多，就需要比较长的梳理时间，效率低；而且人工判断严重依赖专家水平，金融领域相比其他领域数据结构和业务场景更加复杂，人工判断主观随意性较强，存在评估结果不够客观准确且效率低的问题。

因此，根据本公开的一个方面，如图2所示，提供了一种提升匹配效率的联邦学习方法，包括：响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方(步骤210)；从所述协调方接收包含所述所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，所述协调方上保存有各数据提供方的数据字段(步骤220)；以及分别与所述剩余数据提供方中的每一个进行联邦建模(步骤230)。

根据本公开的一个方面，该一种提升匹配效率的联邦建模方法可以基于协调者进行数据提供方的筛选，而且由协调方保存数据字段，不用每次模型训练前都要传输数据以进行匹配，提高了计算效率。并且，由双方信任的协调方作为第三方保存和比对数据字段，也防止了数据信息在双方之间的泄露。

图3示出了根据本公开的实施例的可在其中实施本文描述的各种方法的示例性场景的示意图。如图3所示的联邦学习建模场景，在协调方的协调作用下，数据使用方可以与多个数据提供方进行联合建模。图3中虽然示出了4个数据提供方的示例，但可以理解，数据提供方的数量可以为任意的，此处仅示意性展示。在一些示例中，协调方保存有数据提供方提供的其数据字段名，或者以及其他表述。在一般情况下，数据提供方作为相应的企业和平台，其手机和保存的用户数据的字段一般不需要经常变化，因此可以将其数据字段名保存到协调方，从而避免了每次进行联邦学习筛选数据提供方时都要相应的数据提供方重新发送一次其数据字段到数据使用方以进行比对。数据使用方一般作为联邦学习发起者可以设置所需数据字段的关键词发送到协调方，协调方进行比对后将比对结果返回给数据使用方。关键词可以包括与贷款违约相关的字段，例如收入水平、消费水平、历史贷款金额、历史违约次数、历史违约金额等。

根据一些实施例，所述所需的数据字段包括时间范围，例如2018年至2020年之间，以筛选出包含该时间范围的数据提供方。

在一些示例中，该第一阈值表示数据提供方的阈值数量。例如，该第一阈值可以为3，当数据提供方的数量大于3时，则可以使用根据本公开的方法进行筛选数据提供方。如果数据提供方的数量很多，通过根据本公开的方法可以大幅提升建模效率。

根据一些实施例，根据本公开的方法还包括：响应于剩余数据提供方的个数大于所述第一阈值，从协调方获取公钥以加密本地用户ID，所述本地用户ID为数据使用方的用户ID；获取剩余数据提供方中的每一个的经公钥加密后的用户ID，其中剩余数据提供方的公钥从所述协调方获取；将所述本地用户ID与获取的所述剩余数据提供方的用户ID分别进行比对，以获取重合比率；以及筛选重合比率大于第二阈值的数据提供方，以将筛选得到的数据提供方作为新的剩余数据提供方。

在一些示例中，在经过上述数据字段的条件过滤后，会筛选出剩余一部分符合需求的候选数据提供方。协调方可以初始化公钥，并将公钥下发到数据使用方以及各个数据提供方。选定目标主键，例如用户ID，以获取剩余的数据提供方的使用公钥加密后的其用户ID。将获取的用户ID与其自身的通过公钥加密后的用户ID进行匹配，以确定与每一个剩余的数据提供方各自有多少用户ID重合，并确定重合率。例如，该重合率可以表示为重合的用户ID数量除以数据使用方的用户ID总数量。应当理解，其他的重合率计算方式也是可能的。根据不同数据提供方的匹配情况，进行数据提供方的进一步筛选。

在一些示例中，选定的目标主键还可以包括时间戳。即在发送用户ID时附加上时间信息，以在用户ID匹配成功时进一步匹配时间信息，以确定相同用户在不同平台活跃的时间信息是否具有一致性，从而根据时间信息匹配结果进一步确定重合率。

在一些示例中，根据金融场景客户触达成本，一般重合率要达到60％以上模型才能发挥作用，使得收益大于成本，所以可以进一步筛选重合率60％以上的数据提供方。

根据一些实施例，所述公钥通过加密算法在所述协调方上生成，其中，所述加密算法可以包括：RSA算法或Pailler算法。应当理解，可以用于本公开的其他任意加密算法也是可能的，在此不作限制。

在一些示例中，在金融领域中，现有的用户ID一般均可设置为用户手机号或身份证号。因此，在双方用户ID设置一致时，当前用户ID相同时通过相同加密算法加密后的用户ID也是相同的，很容易通过比对的方式确定哪些用户是重合的。

根据一些实施例，根据本公开的方法还包括：响应于所述剩余数据提供方的个数大于所述第一阈值，获取所述剩余数据提供方的相应的数据字段的统计指标；以及基于所述统计指标对所述剩余数据提供方进行筛选，以将筛选得到的数据提供方作为新的剩余数据提供方。

在一些示例中，在经过上述数据字段的条件过滤后，会筛选出剩余一部分符合需求的候选数据提供方。这时如果剩余数据提供方的个数依旧大于第一阈值，则可以继续执行数据字段的统计指标的筛选。进行统计指标筛选的数据字段可以是上述所需数据字段中的一个或多个。

在一些示例中，在经过上述数据字段以及用户ID等目标主键的条件过滤后，如果剩余数据提供方的个数依旧大于第一阈值，则可以继续执行数据字段的统计指标的筛选。进行统计指标筛选的数据字段可以是上述所需数据字段中的一个或多个。

根据一些实施例，所述统计指标包括以下中的一个或多个：均值、最大值和最小值。

在一般情况下，数据提供方作为相应的企业和平台，其手机和保存的用户数据的统计指标可能存在一段时间内的变化，因此可以在数据使用方对经过数据字段筛选后剩余的数据提供方再次进行筛选时，可以直接由数据提供方计算相应字段的统计指标并将其发送到数据使用方。数据使用方将接收到的统计指标与其相应的需求进行匹配，以进一步实现对数据提供方的筛选。这样，减少了数据在不同终端的传输次数，减少了计算资源和响应时间。

根据上述确认后的数据使用方所需数据字段，数据使用方可以直接将其一个或多个所需数据字段的统计指标请求发送到数据使用方，由数据提供方直接将其计算后的统计指标反馈到数据使用方也不会造成具体用户数据的泄露，而且方便快捷。

根据一些实施例，分别与所述剩余数据提供方中的每一个进行联邦建模包括：调用特征筛选模型，分别筛选与各个所述剩余数据提供方共同的特征数据；以及基于所述特征数据分别与所述剩余数据提供方中的每一个进行联邦建模。

当经过数据提供方的筛选以及数据预处理完成后，需要选择有意义的特征输入机器学习的算法和模型进行训练。在实际项目中，可能会有大量的特征可使用，有的特征携带的信息丰富、有的特征携带的信息有重叠、有的特征则属于无关特征。如果所有特征不经筛选地全部作为训练特征，经常会出现维度灾难问题，甚至会降低模型的准确性。因此，我们需要进行特征筛选，排除无效/冗余的特征，把有用的特征挑选出来作为模型的训练数据。

根据一些实施例，特征筛选模型可以包括：XGBoost模型或LightGBM模型。

根据本公开的另一个方面，如图4所示，提供了一种提升匹配效率的联邦学习方法，包括：从数据使用方接收其联邦学习所需的数据字段(步骤410)；将所接收的数据字段与保存的各个数据提供方的数据字段进行比对，以得到比对结果(步骤420)；基于所述比对结果确定包含所述所需的数据字段的数据提供方(步骤430)；以及将所述确定的包含所述所需的数据字段的数据提供方的信息发送到所述数据使用方(步骤440)。

根据本公开的一个方面，该一种提升匹配效率的联邦建模方法可以基于协调者进行数据提供方的筛选，而且由协调方保存数据字段，不用每次模型训练前都要传输数据以进行匹配，提高了计算效率。

根据一些实施例，如图5所示，上述方法还包括：响应于所述剩余数据提供方的个数大于所述第一阈值，初始化公钥以将其发送到所述数据使用方以及所述剩余数据提供方(步骤510)；接收所述数据使用方的通过所述公钥加密后的用户ID以及所述剩余数据提供方的通过所述公钥加密后的用户ID(步骤520)；将所述数据使用方的用户ID与所述剩余数据提供方的用户ID分别进行比对，以获取重合比率(步骤530)；根据获取的所述重合比率确定其重合比率大于第二阈值的数据提供方(步骤540)；以及将所述确定的数据提供方作为新的所述剩余数据提供方发送到所述数据使用方(步骤550)。

在一些示例中，在协调方上进行数据字段的比对之后，如果比对后确认剩余数据提供方的个数大于第一阈值，使得每一个剩余的数据提供方将其用户ID通过协调方下发的公钥加密后发送到协调方；数据使用方也将其用户ID通过协调方下发的公钥(与下发到数据提供方的公钥相同)加密后发送到协调方。在协调方上，将数据使用方的加密后的用户ID与每一个剩余的数据提供方的加密后的用户ID分别进行匹配。如果加密之前的用户ID相同，使用相同的公钥加密后的用户ID一般也一致。因此，可以确认数据使用方与每一个剩余的数据提供方各自有多少用户是重合的。

在一些示例中，发送的信息除了用户ID还可以包括时间戳。即在发送用户ID时附加上时间信息，以在用户ID匹配成功时进一步匹配时间信息，以确定相同用户在不同平台活跃的时间信息是否具有一致性，从而根据时间信息匹配结构进一步确定重合率。

根据一些实施例，还包括：响应于所述剩余数据提供方的个数大于所述第一阈值，获取所述数据使用方的相应数据字段的所需统计指标；获取所述剩余数据提供方的所述相应数据字段的统计指标；以及将所述所需统计指标与所述剩余数据提供方的统计指标进行比对，以获得比对结果；根据所述比对结果确定与所述相应数据字段的所需统计指标相一致的数据提供方；以及将所述确定的数据提供方作为新的所述剩余数据提供方发送到所述数据使用方。

在数据使用方和数据提供方未能直接通信的实施例中，也可以通过所述协调方进行该统计指标的匹配。例如，响应于余数据提供方的个数大于第一阈值，数据使用方将所需数据字段的统计需求发送到协调方，协调方接收到后向相应的数据提供方发送该数据字段的获取请求。数据提供方将计算后的该数据字段的统计指标发送到协调方以进行比对。协调方将比对结果反馈到数据使用方，从而实现剩余数据提供方的进一步筛选。

根据一些实施例，该统计指标包括以下中的一个或多个：均值、最大值和最小值。

根据一些实施例，所需的数据字段包括时间范围，例如2018年至2020年之间，以筛选出包含该时间范围的数据提供方。

根据本公开的又一个方面，如图6所示，提供一种提升匹配效率的联邦学习设备600，包括：第一响应单元610，配置为响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方；接收单元620，配置为从协调方接收包含所述所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，协调方上保存有各数据提供方的数据字段；以及训练单元630，配置为分别与所述剩余数据提供方中的每一个进行联邦建模。

根据一些实施例，还包括：第二响应单元，配置为响应于所述剩余数据提供方的个数大于所述第一阈值，从所述协调方获取公钥以加密本地用户ID，所述本地用户ID为数据使用方的用户ID；获取单元，配置为获取剩余数据提供方中的每一个的经公钥加密后的用户ID，其中所述剩余数据提供方的公钥从所述协调方获取；比对单元，配置为将所述本地用户ID与获取的所述剩余数据提供方的用户ID分别进行比对，以获取重合比率；以及第一筛选单元，配置为筛选重合比率大于第二阈值的数据提供方，以将筛选得到的数据提供方作为新的剩余数据提供方。

根据一些实施例，还包括：第三响应单元，配置为响应于所述剩余数据提供方的个数大于所述第一阈值，获取所述剩余数据提供方的相应的数据字段的统计指标；以及第二筛选单元，配置为基于所述统计指标对所述剩余数据提供方进行筛选，以将筛选得到的数据提供方作为新的剩余数据提供方。

根据一些实施例，所述训练单元配置为执行以下操作：调用特征筛选模型，分别筛选与各个所述剩余数据提供方共同的特征数据；以及基于所述特征数据分别与所述剩余数据提供方中的每一个进行联邦建模。

根据一些实施例，所述所需的数据字段包括时间范围。

这里，提升匹配效率的联邦学习设备600的上述各单元610～630的操作分别与前面描述的步骤210～230的操作类似，在此不再赘述。

根据本公开的又一个方面，如图7所示，提供了一种提升匹配效率的联邦学习设备700，包括接收单元710，配置为从数据使用方接收其联邦学习所需的数据字段；第一比对单元720，配置为将所接收的数据字段与保存的各个数据提供方的数据字段进行比对，以得到比对结果；第一确定单元730，配置为基于所述比对结果确定包含所述所需的数据字段的数据提供方；以及第一发送单元740，配置为将所述确定的包含所述所需的数据字段的数据提供方的信息发送到所述数据使用方。

根据一些实施例，还包括：第一响应单元，配置为响应于所述剩余数据提供方的个数大于所述第一阈值，初始化公钥以将其发送到所述数据使用方以及所述剩余数据提供方；接收单元，配置为接收所述数据使用方的通过所述公钥加密后的用户ID以及所述剩余数据提供方的通过所述公钥加密后的用户ID；第二比对单元，配置为将所述数据使用方的用户ID与所述剩余数据提供方的用户ID分别进行比对，以获取重合比率；第二确定单元，配置为根据获取的所述重合比率确定其重合比率大于第二阈值的数据提供方；以及第二发送单元，配置为将所述确定的数据提供方作为新的所述剩余数据提供方发送到所述数据使用方。

根据一些实施例，还包括：第二响应单元，配置为响应于所述剩余数据提供方的个数大于所述第一阈值，获取所述数据使用方的相应数据字段的所需统计指标；获取单元，配置为获取所述剩余数据提供方的所述相应数据字段的统计指标；以及第三比对单元，配置为将所述所需统计指标与所述剩余数据提供方的统计指标进行比对，以获得比对结果；第三确定单元，配置为根据所述比对结果确定与所述相应数据字段的所需统计指标相一致的数据提供方；以及第三发送单元，配置为将所述确定的数据提供方作为新的所述剩余数据提供方发送到所述数据使用方。

根据一些实施例，统计指标包括以下中的一个或多个：均值、最大值和最小值。

根据一些实施例，所需的数据字段包括时间范围。

这里，提升匹配效率的联邦学习设备700的上述各单元710～740的操作分别与前面描述的步骤410～440的操作类似，在此不再赘述。

参见图8所示，现将描述计算设备2000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述提升匹配效率的联邦学习方法可以各自全部或至少部分地由计算设备2000或类似设备或系统实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中，并且上述提升匹配效率的联邦学习方法可以各自通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地，上述提升匹配效率的联邦学习方法中，步骤210～步骤230可以例如通过处理器2004执行具有步骤210～步骤230的指令的应用程序2018而实现。此外，上述提升匹配效率的联邦学习方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种提升匹配效率的联邦学习方法，包括：

响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方；

从所述协调方接收包含所述所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，所述协调方上保存有各数据提供方的数据字段；

响应于所述剩余数据提供方的个数大于所述第一阈值，从所述协调方获取公钥以加密本地用户ID，所述本地用户ID为数据使用方的用户ID；

获取所述剩余数据提供方中的每一个的经公钥加密后的用户ID，其中所述剩余数据提供方的公钥从所述协调方获取；

将所述本地用户ID与获取的所述剩余数据提供方的用户ID分别进行比对，以获取重合比率；

筛选重合比率大于第二阈值的数据提供方，以将筛选得到的数据提供方作为新的剩余数据提供方；

响应于所述剩余数据提供方的个数大于所述第一阈值，获取所述剩余数据提供方的相应的数据字段的统计指标；

基于所述统计指标对所述剩余数据提供方进行筛选，以将筛选得到的数据提供方作为新的剩余数据提供方；以及

分别与所述剩余数据提供方中的每一个进行联邦建模。

2.如权利要求1所述的方法，所述统计指标包括以下中的一个或多个：均值、最大值和最小值。

3.如权利要求1所述的方法，分别与所述剩余数据提供方中的每一个进行联邦建模包括：

调用特征筛选模型，分别筛选与各个所述剩余数据提供方共同的特征数据；以及

基于所述特征数据分别与所述剩余数据提供方中的每一个进行联邦建模。

4.如权利要求1所述的方法，其中，所述所需的数据字段包括时间范围。

5.一种提升匹配效率的联邦学习设备，包括：

第一响应单元，配置为响应于用于联邦学习的数据提供方的个数大于第一阈值，将联邦学习所需的数据字段发送到协调方；

接收单元，配置为从所述协调方接收包含所述所需的数据字段的数据提供方的信息，以确定剩余数据提供方，其中，所述协调方上保存有各数据提供方的数据字段；

第二响应单元，配置为响应于所述剩余数据提供方的个数大于所述第一阈值，从所述协调方获取公钥以加密本地用户ID，所述本地用户ID为数据使用方的用户ID；

获取单元，配置为获取剩余数据提供方中的每一个的经公钥加密后的用户ID，其中所述剩余数据提供方的公钥从所述协调方获取；

比对单元，配置为将所述本地用户ID与获取的所述剩余数据提供方的用户ID分别进行比对，以获取重合比率；

第一筛选单元，配置为筛选重合比率大于第二阈值的数据提供方，以将筛选得到的数据提供方作为新的剩余数据提供方；

第三响应单元，配置为响应于所述剩余数据提供方的个数大于所述第一阈值，获取所述剩余数据提供方的相应的数据字段的统计指标；以及

第二筛选单元，配置为基于所述统计指标对所述剩余数据提供方进行筛选，以将筛选得到的数据提供方作为新的剩余数据提供方；以及

训练单元，配置为分别与所述剩余数据提供方中的每一个进行联邦建模。

6.如权利要求5所述的设备，所述统计指标包括以下中的一个或多个：均值、最大值和最小值。

7.如权利要求5所述的设备，所述训练单元配置为执行以下操作：

8.如权利要求5所述的设备，其中，所述所需的数据字段包括时间范围。

9.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-4中任一项所述的方法。

10.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-4中任一项所述的方法。