CN114514519A

CN114514519A - 使用异构模型类型和架构的联合学习

Info

Publication number: CN114514519A
Application number: CN201980101110.8A
Authority: CN
Inventors: 佩雷普·萨特什库马; 安克特·尧哈里; 斯瓦鲁普·库马尔·莫哈里克; 萨拉瓦南·M; 安苏·舒克拉
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2019-10-04
Filing date: 2019-10-04
Publication date: 2022-05-17
Also published as: US20220351039A1; JP7383803B2; JP2022551104A; WO2021064737A1; EP4038519A4; EP4038519A1

Abstract

提供了在中心节点或服务器上的方法。该方法包括：从第一用户设备接收第一模型以及从第二用户设备接收第二模型，其中第一模型是神经网络模型类型并具有第一层集，且第二模型是神经网络模型类型并具有不同于第一层集的第二层集；对于第一层集中的每个层，从第一层集中的该层中选择过滤器的第一子集；对于第二层集中的每个层，从第二层集中的该层中选择过滤器的第二子集；通过基于第一层集和第二层集形成全局层集来构建全局模型，使得对于全局层集中的每个层，该层包括基于对应的过滤器的第一子集和/或对应的过滤器的第二子集的过滤器；以及形成全局模型的全连接层，其中全连接层是全局层集的最终层。

Description

使用异构模型类型和架构的联合学习

技术领域

公开了与使用异构模型类型和架构的联合学习相关的实施例。

背景技术

在过去的几年里，机器学习已经在包括与任务自动化和数字化相关的领域的各个领域(例如自然语言处理、计算机视觉、语音识别、物联网(IoT))取得了重大突破。这种成功很大程度上是基于在合适的环境中收集和处理大量数据(所谓的“大数据”)。对于机器学习的某些应用，这种收集数据的需求可能会令人难以置信地侵犯隐私。

例如，作为这种侵犯隐私的数据收集的示例，考虑用于语音识别和语言翻译或用于预测可能在移动电话上键入的下一个单词以帮助人们更快地打字的模型。在这两种情况下，直接根据用户数据(例如，特定用户正在说或输入的内容)而不是使用来自其他(非个性化)源的数据来训练模型是有益的。这样做将允许根据同样被用于做出预测的数据分布来训练模型。然而，由于各种原因，并且尤其是因为这种数据可能非常私密，直接收集这种数据存在问题。用户没有兴趣将他们键入的所有内容发送到他们无法控制的服务器。用户可能特别敏感的数据的其他示例包括财务数据(例如，信用卡交易)或者商业或财产数据。例如，电信运营商收集关于由该电信运营商运营的节点所触发的警报的数据(例如，用于确定假警报与真警报)，但这样的电信运营商通常不希望与他人共享该数据(包括客户数据)。

该问题的一个最近解决方案是引入联合学习，这是机器学习的新方法，其中训练数据根本不会离开用户的计算机。不同于共享他们的数据，个人用户使用本地可用的数据来自己计算权重更新。这是一种无需直接检查集中式服务器上的用户数据即可训练模型的方法。联合学习是机器学习的一种协作形式，其中训练过程分布在许多用户之间。服务器负责协调一切，但大部分工作不是由中心实体来执行，而是由用户联盟来执行。

在联合学习中，在模型初始化之后，可能随机选择某个数量的用户来改进模型。每个被随机选择的用户从服务器接收当前(或全局)模型，并使用他们本地可用的数据来计算模型更新。所有这些更新都被发送回服务器，在服务器处由客户端使用的训练示例的数量来对所有这些更新进行平均、加权。服务器然后通常通过使用某种形式的梯度下降来将该更新应用于模型。

当前的机器学习方法需要有大型数据集可用。这些通常是通过从用户收集海量数据而创建的。联合学习是一种更灵活的技术，其允许在不直接查看数据的情况下训练模型。尽管以分布式方式使用学习算法，但联合学习与在数据中心中使用机器学习的方式非常不同。无法对统计分布做出许多的保证，并且与用户的通信通常缓慢且不稳定。为了能够有效地执行联合学习，可以在每个用户设备内适配适当的优化算法。

发明内容

联合学习基于以下方式：基于分布在多个设备上的数据集来构建机器学习模型，同时防止数据从该多个设备泄漏。在现有联合学习实施方式中，假设用户尝试训练或更新相同的模型类型和模型架构。即，例如，每个用户都在训练相同类型的卷积神经网络(CNN)模型，该卷积神经网络模型具有相同的层并且每个层都具有相同的过滤器。在这种现有实施方式中，用户没有选择他们自己的个人架构和模型类型的自由。这也可能导致诸如本地模型过拟合或本地模型欠拟合的问题，并且如果模型类型或架构不适合某些用户，则可能导致全局模型不是最优的。因此，需要对现有联合学习实施方式进行改进以解决这些问题和其他问题。这种改进应该允许用户运行他们自己的模型类型和模型架构，同时可以例如通过智能地组合各个本地模型以形成全局模型，来使用集中式资源(例如，节点或服务器)处理这些不同的模型架构和模型类型。

本文公开的实施例允许在联合学习的用户之间使用异构模型类型和架构。例如，用户可以针对他们自己的数据选择不同的模型类型和模型架构，并将该数据拟合到这些模型中。例如通过级联对应于每层的选定过滤器，每个用户的本地最佳工作过滤器可被用于构建全局模型。全局模型还可以在从本地模型构建的层的输出处包括全连接层。该全连接层可以在初始层固定的情况下被发送回个人用户，其中，然后在本地针对用户仅训练全连接层。然后可以组合(例如，平均)针对每个个人用户的学习到的权重，以构建全局模型的全连接层权重。

本文提供的实施例使用户能够构建他们自己的模型，同时仍然采用联合学习方法，这让用户可以就哪种模型类型和架构将最适合用户的本地数据做出本地决策，同时通过以保护隐私的方式进行联合学习来从其他用户的输入中受益。实施例还可以减少先前讨论的在使用联合学习方法时可能导致的过拟合和欠拟合问题。此外，实施例可以处理用户之间的不同数据分布，这是当前联合学习技术无法做到的。

根据第一方面，提供了一种在中心节点或服务器上的方法。该方法包括从第一用户设备接收第一模型以及从第二用户设备接收第二模型，其中所述第一模型是神经网络模型类型并具有第一层集，且所述第二模型是所述神经网络模型类型并具有不同于第一层集的第二层集。该方法还包括：对于所述第一层集中的每个层，从所述第一层集中的该层中选择过滤器的第一子集；以及对于所述第二层集中的每个层，从所述第二层集中的该层中选择过滤器的第二子集。该方法还包括通过基于所述第一层集和所述第二层集形成全局层集来构建全局模型，使得对于所述全局层集中的每个层，该层包括基于对应的过滤器的第一子集和/或对应的过滤器的第二子集的过滤器；以及形成所述全局模型的全连接层，其中所述全连接层是所述全局层集的最终层。

在一些实施例中，该方法还包括向包括所述第一用户设备和所述第二用户设备的一个或多个用户设备发送关于所述全局模型的所述全连接层的信息；从所述一个或多个用户设备接收一个或多个系数集，其中所述一个或多个系数集对应于：所述一个或多个用户设备中的每一个设备使用与所述全局模型的所述全连接层有关的信息来训练特定于设备的本地模型的结果；以及通过对所述一个或多个系数集求平均来更新所述全局模型，以产生用于所述全连接层的新系数集。

在一些实施例中，从所述第一层集的层中选择过滤器的第一子集包括：从该层确定k个最佳过滤器，其中所述第一子集包括所确定的k个最佳过滤器。在一些实施例中，从所述第二层集的层中选择过滤器的第二子集包括：从该层确定k个最佳过滤器，其中所述第二子集包括所确定的k个最佳过滤器。在一些实施例中，基于所述第一层集和所述第二层集形成全局层集包括：对于所述第一层集和所述第二层集公共的每个层，通过级联对应的过滤器的第一子集和对应的过滤器的第二子集，在所述全局模型中生成对应层；对于独属于所述第一层集的每个层，通过使用对应的过滤器的第一子集在所述全局模型中生成对应层；以及对于独属于所述第二层集的每个层，通过使用对应的过滤器的第二子集在所述全局模型中生成对应层。

在一些实施例中，该方法还包括：指示第一用户设备和第二用户设备中的一个或多个将其相应的本地模型提取为所述神经网络模型类型。

根据第二方面，提供了一种在用户设备上的利用联合学习的方法，所述联合学习具有异构模型类型和/或架构。该方法包括：将本地模型提取为第一提取模型，其中所述本地模型是第一模型类型，并且所述第一提取模型是不同于所述第一模型类型的第二模型类型；将所述第一提取模型发送给服务器；从所述服务器接收全局模型，其中所述全局模型是所述第二模型类型；以及基于所述全局模型来更新所述本地模型。

在一些实施例中，该方法还包括基于在用户设备处接收到的新数据来更新所述本地模型；将更新后的本地模型提取为第二提取模型，其中所述第二提取模型是所述第二模型类型；以及将所述第二提取模型和所述第一提取模型的加权平均值发送给所述服务器。在一些实施例中，所述第二提取模型和所述第一提取模型的加权平均值由W1+αW2给出，其中W1表示所述第一提取模型，W2表示所述第二提取模型，并且0＜α＜1。

在一些实施例中，该方法还包括基于本地数据来确定所述全局模型的最终层的系数；以及将所述系数发送给中心节点或服务器。

根据第三方面，提供了一种中心节点或服务器。所述中心节点或服务器包括：存储器；以及处理器，耦接到所述存储器。所述处理器被配置为：从第一用户设备接收第一模型以及从第二用户设备接收第二模型，其中所述第一模型是神经网络模型类型并具有第一层集，且所述第二模型是所述神经网络模型类型并具有不同于第一层集的第二层集；对于所述第一层集中的每个层，从所述第一层集中的该层中选择过滤器的第一子集；对于所述第二层集中的每个层，从所述第二层集中的该层中选择过滤器的第二子集；通过基于所述第一层集和所述第二层集形成全局层集来构建全局模型，使得对于所述全局层集中的每个层，该层包括基于对应的过滤器的第一子集和/或对应的过滤器的第二子集的过滤器；以及形成所述全局模型的全连接层，其中所述全连接层是所述全局层集的最终层。

根据第四方面，提供了一种用户设备。所述用户设备包括存储器；以及处理器，耦接到所述存储器。所述处理器被配置为：将本地模型提取为第一提取模型，其中所述本地模型是第一模型类型，并且所述第一提取模型是不同于所述第一模型类型的第二模型类型；将所述第一提取模型发送给服务器；从所述服务器接收全局模型，其中所述全局模型是所述第二模型类型；以及基于所述全局模型来更新所述本地模型。

根据第五方面，提供了一种包括指令的计算机程序，该指令当由处理电路执行时使处理电路执行第一方面或第二方面的实施例中的任一个的方法。

根据第六方面，提供了一种包含第五方面的计算机程序的载体，其中，载体是电信号、光信号、无线电信号和计算机可读存储介质中的一种。

附图说明

本文中所包含并形成说明书一部分的附图示出了各种实施例。

图1示出了根据实施例的联合学习系统。

图2示出了根据实施例的模型。

图3示出了根据实施例的消息图。

图4示出了根据实施例的提取。

图5示出了根据实施例的消息图。

图6是根据实施例的流程图。

图7是根据实施例的流程图。

图8是根据实施例的装置的框图。

图9是根据实施例的装置的框图。

具体实施方式

图1示出了根据实施例的联合学习系统100。如图所示，中心节点或服务器102与一个或多个用户104进行通信。可选地，用户104可以利用多种网络拓扑和/或网络通信系统中的任何一种来彼此进行通信。例如，用户104可以包括诸如智能电话、平板电脑、膝上型计算机、个人计算机之类的用户设备，并且还可以通过诸如因特网(例如，经由WiFi)或通信网络(例如，LTE或5G)的公共网络来通信地耦接。虽然示出了中心节点或服务器102，但中心节点或服务器102的功能可以分布在多个节点和/或服务器上，并且可以在一个或多个用户104之间进行共享。

如本文的实施例中所述的联合学习可以涉及一轮或多轮，其中在每一轮中迭代地训练全局模型。用户104可以向中心节点或服务器进行注册以表明他们愿意参与全局模型的联合学习，并且可以连续地或滚动地这样做。在注册时(并且可能在之后的任何时间)，中心节点或服务器102可以选择模型类型和/或模型架构供本地用户训练。备选地或附加地，中心节点或服务器102可以允许每个用户104为其自己选择模型类型和/或模型架构。中心节点或服务器102可以将初始模型发送给用户104。例如，中心节点或服务器102可以向用户发送(例如，新初始化的或通过前几轮联合学习部分训练的)全局模型。用户104可以用他们自己的数据在本地训练他们的个人模型。然后可以将这种本地训练的结果报告回中心节点或服务器102，该中心节点或服务器102可以汇集结果并更新全局模型。该过程可以迭代重复。此外，在全局模型的每一轮训练中，中心节点或服务器102可以选择所有注册用户104的子集(例如，随机子集)来参与该训练轮。

实施例提供了一种新的架构框架，其中用户104可以在训练他们的系统时选择他们自己的架构模型。通常，架构框架建立了用于在应用域或利益相关者社区内创建、解释、分析和使用架构描述的常见实践。在典型的联合学习系统中，每个用户104具有相同的模型类型和架构，因此组合来自每个用户104的模型输入以形成全局模型相对简单。然而，允许用户104具有异构模型类型和架构提出了以下问题：维护全局模型的中心节点或服务器102如何解决这种异构性。

在一些实施例中，每个个人用户104可以具有作为本地模型的特定类型的神经网络(例如，CNN)。神经网络的特定模型架构不受约束，并且不同的用户104可以具有不同的模型架构。例如，神经网络架构可以指神经元的分层布置以及层之间的连接模式、激活函数和学习方法。具体参考CNN，模型架构可以指CNN的特定层以及与每个层相关联的特定过滤器。换言之，在一些实施例中，不同的用户104可以各自训练本地CNN类型模型，但是在不同的用户104之间，本地CNN模型可以具有不同的层和/或过滤器。典型的联合学习系统无法处理这种情况。因此，需要对联合学习进行一些修改。具体地，在一些实施例中，中心节点或服务器102通过智能地组合不同的本地模型来生成全局模型。通过采用该过程，中心节点或服务器102能够在不同的模型架构上采用联合学习。允许模型架构不受固定模型类型的约束可被称为“相同模型类型，不同模型架构”方法。

在一些实施例中，每个个人用户104可以具有作为本地模型的任何类型的模型以及用户104选择的该模型类型的任何架构。即，模型类型不限于神经网络，而是还可以包括随机森林类型的模型、决策树等。用户104可以通过适合特定模型的方式来训练本地模型。在与中心节点或服务器102共享模型更新之前，作为联合学习方法的一部分，用户104将本地模型转换为公共模型类型和(在一些实施例中)公共架构。该转换过程可以采取模型提取的形式，如本文针对一些实施例所公开的。如果转换是到公共模型类型和模型架构，则中心节点或服务器102基本上可以应用典型的联合学习。如果转换是到公共模型类型(例如，神经网络类型模型)，但不到公共模型架构，则中心节点或服务器102可以采用针对某些实施例描述的“相同模型类型，不同模型架构”方法。允许模型类型和模型架构两者都不受约束可以称为“不同模型类型，不同模型架构”方法。

“相同模型类型，不同模型架构”

如本文所说明的，不同用户104可以具有本地模型，在本地模型之间具有不同模型架构但共享公共模型类型。具体地，本文假设共享的模型类型是神经网络模型类型。这方面的示例是CNN模型类型。在这种情况下，目标是组合不同的模型(例如，不同的CNN模型)以智能地形成全局模型。不同的本地CNN模型可以具有不同的过滤器大小和不同的层数。更一般地(例如，当使用其他类型的神经网络架构时)，不同于用户具有不同层或具有带有不同过滤器的层(如关于CNN所讨论的)，不同的层可以包括对层的神经元结构的考虑，例如不同的层可以具有带有不同权重的神经元。

图2示出了根据实施例的模型。如图所示，本地模型202、204和206各自是CNN模型类型，但具有不同的架构。例如，CNN模型202包括具有过滤器集合211的第一层210。CNN模型204包括具有过滤器集合221的第一层220以及具有过滤器集合223的第二层222。CNN模型206包括具有过滤器集合231的第一层230、具有过滤器集合233的第二层232、以及具有过滤器集合235的第三层234。可以组合不同的本地模型202、204和206以形成全局模型208。全局CNN模型208包括具有过滤器集合241的第一层240、具有过滤器集合243的第二层242、以及具有过滤器集合245的第三层244。

在一些实施例中，模型架构的一些方面可以在用户104之间共享(例如，使用相同的第一层，或者使用公共的过滤器类型)。也有可能两个或更多个用户104可以整体采用相同的架构。然而，通常，预期不同的用户104可以选择不同的模型架构来优化本地性能。因此，虽然模型202、204、206中的每一个模型都具有第一层L1，但是模型202、204、206中的每一个模型的第一层L1可以例如通过具有不同的过滤器集合211、221、231而被不同地构成。

采用本地模型202、204和206中的每一个本地模型的用户104可以例如使用本地数据集(例如，D1、D2、D3)在本地训练他们的个人模型。通常，数据集将包含相似类型的数据，例如为了训练分类器，尽管对每个类别的表示在数据集之间可以不同，但每个数据集可能包括相同的类别。

然后，基于不同的本地模型构建(或更新)全局模型。中心节点或服务器102可以负责与构建全局模型相关联的功能中一些或全部。个人用户104(例如，用户设备)或其他实体也可以执行某些步骤并将这些步骤的结果报告给中心节点或服务器102。

通常，可以通过级联每一个本地模型的每个层中的过滤器来构建全局模型。在一些实施例中，例如通过选择每个层的k个最佳过滤器，可以代之以使用每个层的过滤器子集。k的值(例如，k＝2)可以从一个本地模型到另一个本地模型而变化，并且可以从本地模型中的一层到另一层而变化。在一些实施例中，中心节点或服务器102可以发信号通知每个用户104应该使用的k的值。在一些实施例中，可以从每个本地模型的每个层中选择两个最佳过滤器(k＝2)，而在其他实施例中，可以选择k的不同值(例如，k＝1或k＞2)。在一些实施例中，可以选择k以将层中的过滤器的总数减少相对的量(例如，选择过滤器的前三分之一)。对最佳过滤器的选择可以使用任何合适的技术来确定最佳工作过滤器。例如，申请号为PCT/IN2019/050455的题为“Understanding Deep Learning Models”的PCT申请描述了一些可以使用的这种技术。以这种方式选择过滤器子集可以有助于减少计算负荷，同时还保持较高的准确性。在一些实施例中，中心节点或服务器102可以执行该选择；在一些实施例中，用户104或其他实体可以执行该选择，并将结果报告给中心节点或服务器102。

全局模型208将用于说明该过程。本地模型202、204和206中的每一个包括第一层L1。因此，全局模型208也包括第一层L1，并且全局模型208的L1的过滤器241包括本地模型202、204和206中的每一个模型的过滤器211、221、231(或过滤器子集)，这些过滤器211、221、231被级联在一起。仅本地模型204和206包括第二层L2。因此，全局模型208也包括第二层L2，并且全局模型208的L2的过滤器242包括本地模型204和206中的每一个模型的过滤器222、232(或过滤器子集)，这些过滤器222、232被级联在一起。仅本地模型206包括第三层L3。因此，全局模型208也包括第三层L3，并且全局模型208的L3的过滤器245包括本地模型206的过滤器235(或过滤器子集)。

换言之，如果N(M_i)表示本地模型M_i的层数，则在此，全局模型将被构建为至少具有max(N(M_i))个层，其中max运算符用在正从其构建(或更新)全局模型的所有本地模型M_i上。对于全局模型的给定层L_j，层L_j包括过滤器

其中索引i的范围涵盖具有第j层的不同本地模型，并且Fi指特定本地模型M_i的第j层的过滤器(或过滤器子集)。

表示级联，并且

其中集合I＝{i}。

在级联本地模型之后，可以通过向模型添加密集层(例如，全连接层)作为最终层来进一步构建全局模型。

一旦由此构建(或更新)了全局模型，就可以生成用于训练模型的等式。这些等式可以被发送给可各自训练最后的密集层(例如通过保持其他本地过滤器不变)的不同用户104。已经在本地训练了最后的密集层的用户104然后可以将他们的本地密集层的模型系数报告给中心节点或服务器102。最终，全局模型可以组合来自报告模型系数的不同用户104的这种系数以形成全局模型。例如，组合模型系数可以包括对系数进行平均，包括通过使用加权平均，例如由每个用户104训练的本地数据量来进行加权。

在实施例中，以此方式构建的全局模型将具有鲁棒性并且包含从不同本地模型学习的特征。这种全局模型例如作为分类器可以工作良好。该实施例的优点还在于可以仅基于单个用户104来更新全局模型(除了基于来自多个用户104的输入来更新之外)。在该单用户更新案例中，仅最后层的权重可以通过保持其他所有内容固定来调整。

图3示出了根据实施例的消息图。如图所示，用户104(例如，第一用户302和第二用户304)与中心节点或服务器102一起工作以更新全局模型。第一用户302和第二用户304各自在310和314处训练他们各自的本地模型，并且各自在312和316处将他们的本地模型报告给中心节点或服务器102。模型的训练和报告可以同时进行，或者可以在一定程度上交错进行。在继续之前，中心节点或服务器102可以等待直到它从它期望报告的每个用户104接收模型报告，或者它可以等待直到接收到阈值数量的这种模型报告，或者它可以等待某个时间段，或者任何组合。在已经接收到模型报告之后，中心节点或服务器102可以构建或更新全局模型(例如，如上所述，例如通过在每个层连接不同本地模型的过滤器或过滤器子集，并添加密集全连接层作为最终层)，并形成训练全局模型的密集层所需的等式。然后中心节点或服务器102在320和322处将密集层等式报告给第一用户302和第二用户304。接下来，第一用户302和第二用户304在324和328处使用他们的本地模型来训练密集层，并将他们已经在326和330处训练的密集层等式的系数报告回中心节点或服务器102。利用该信息，中心节点或服务器102从而可以通过基于来自本地用户104的系数更新密集层来更新全局模型。

“不同模型类型，不同模型架构”

如本文所说明的，不同用户可以具有带有不同模型类型和不同模型架构的本地模型。该方法要解决的问题是，不同本地模型之间的模型类型和模型架构两者的不受约束的性质使得组合不同本地模型难以解决，因为可用模型类型之间可存在显著差异，使得应用于一种模型类型的训练可能对应用于另一种模型类型的训练没有任何意义。例如，用户可能会拟合诸如随机森林类型模型、决策树等的不同模型。

为了解决该问题，实施例将本地模型转换为公共模型类型，并且在一些实施例中还转换为公共模型架构。转换模型的一种方法是使用模型提取方法。模型提取可以将任何模型(例如，在大量数据上训练的复杂模型)转换为更小、更简单的模型。该想法是在复杂模型的输出而不是原始输出上训练更简单的模型。这可以将在复杂模型上学习到的特征转化到更简单的模型。这样，任何复杂的模型都可以通过保留特征转换为更简单的模型。

图4示出了根据实施例的提取。提取有两种模型，本地模型402(也称为“教师”模型)和提取模型404(也称为“学生”模型)。通常，教师模型很复杂，并且使用GPU或具有类似处理资源的另一设备进行训练，而学生模型是在计算资源不太强大的设备上进行训练。这不是必须的，但是，因为“学生”模型比原来的“教师”模型更容易进行训练，所以可以使用更少的处理资源来训练它。为了保持“教师”模型的知识，在“教师”模型的预测的概率上训练“学生”模型。本地模型402和提取模型404可以是不同的模型类型和/或模型架构。

在一些实施例中，具有他们自己的个人模型的一个或多个个人用户104可将他们的本地模型转换(例如，通过提取)为具有指定模型类型和模型架构的提取模型，该个人模型可能具有不同模型类型和模型架构。例如，中心节点或服务器102可以向每个用户指示用户104应该将模型提取为什么模型类型和模型架构。模型类型对于每个用户104而言将是公共的，但模型架构在一些实施例中可以不同。

提取的本地模型然后可被发送给中心节点或服务器102，并在那里被组合以构建(或更新)全局模型。中心节点或服务器102然后可以将全局模型发送给用户104中的一个或多个。作为响应，接收到更新后的全局模型的用户104可以基于该全局模型来更新他们自己的个人本地模型。

在一些实施例中，被发送给中心节点或服务器102的提取模型可以基于先前的提取模型。假设用户104先前已经发送(例如，在最近一轮联合学习中)第一提取模型，该第一提取模型表示对用户104的本地模型的提取。用户104然后可以基于在用户104处接收到的新数据来更新本地模型，并且可以基于更新后的本地模型来提取第二提取模型。用户104然后可以取第一提取模型和第二提取模型的加权平均值(例如，W1+αW2，其中W1表示第一提取模型，W2表示第二提取模型，并且0＜α＜1)，并将第一提取模型和第二提取模型的加权平均值发送给中心节点或服务器102。中心节点或服务器102然后可以使用该加权平均值来更新全局模型。

图5示出了根据实施例的消息图。如图所示，用户104(例如，第一用户302和第二用户304)与中心节点或服务器102一起工作以更新全局模型。第一用户302和第二用户304各自在510和514处提取他们各自的本地模型，并且各自在512和516处将他们的提取模型报告给中心节点或服务器102。模型的训练和报告可以同时进行，或者可以在一定程度上交错进行。在继续之前，中心节点或服务器102可以等待直到它从它期望报告的每个用户104接收模型报告，或者它可以等待直到接收到阈值数量的这种模型报告，或者它可以等待某个时间段，或者任何组合。在已经接收到模型报告之后，中心节点或服务器102可以构建或更新全局模型318(例如，如公开的实施例中所描述的)。然后中心节点或服务器102在520和522处将全局模型报告给第一用户302和第二用户304。接下来，第一用户302和第二用户304然后在524和526处基于全局模型来更新他们各自的本地模型(例如，如公开的实施例中所描述的)。

返回到每个用户102具有针对相同CNN模型类型的不同模型架构的示例，提供了与所提出的实施例相关的数学公式。对于给定的CNN，每个过滤器的输出可以表示为

这对于N个过滤器有效，并且其中输入数据(in[k])的大小为M，过滤器(c)的大小为P，步长为1。即，in[k]表示过滤器的输入(大小为M)的第k个元素，而c[j]是过滤器(大小为P)的第j个元素。此外，出于说明的目的，在该CNN模型中仅考虑了一个层。上述表示确保了输入数据与过滤器系数之间的点积。从该表示中，可以通过使用反向传播来学习过滤器系数c。通常，在这些过滤器中，仅少数(例如，两个或三个)过滤器将会工作良好。因此，上面的等式可以简化为仅工作良好的过滤器的一个子集N_S(N_S≤N)。如上所述，可以通过各种方法获得这些过滤器(即，与其他过滤器相比工作良好)。

如本文所讨论的，然后可以构建全局模型，该全局模型针对每个层采用了不同用户的模型中的每一个模型的过滤器并将它们级联。全局模型还包括作为最终层的全连接密集层。对于具有L个节点(或神经元)的全连接层，该层的数学公式可以表示为：

其中cm表示最佳工作过滤器的子集中的过滤器之一，W是最终层的权重集合，b是偏差，以及g(.)是最终层的激活函数。全连接层的输入在传递到该层之前将被平坦化(flatten)。该等式被发送给用户中的每一个，以使用常规反向传播技术来计算权重。假设不同用户学习到的权重为W₁，W₂，......，W_U，其中U是联合学习方法中用户的数量，全局模型最终层权重可以通过进行平均来确定，例如

示例：

准备以下示例以评估实施例的性能。收集了与三个电信运营商相对应的警报数据集。该三个电信运营商对应于三个不同的用户。警报数据集具有相同的特征并具有不同的模式。目标是基于特征将警报分类为真警报和假警报。

用户可以选择它们自己的模型。在该示例中，每个用户都可以针对CNN模型类型选择具体架构。即，每个用户相比于其他用户可以选择不同数量的层以及每层中的不同过滤器。

对于该示例，运营商1(第一用户)选择拟合三层CNN，其中，第一层中有32个过滤器，第二层中有64个过滤器，以及最后层中有32个过滤器。类似地，运营商2(第二用户)选择拟合双层CNN，其中，第一层中有32层，而第二层中有16层。最后，运营商3(第三用户)选择拟合五层CNN，其中，前四层中的每个层中有32个过滤器，而第五层中有8个过滤器。这些模型是基于可用于每个运营商的数据的性质来选择的，并且可以基于当前轮的联合学习来选择模型。

全局模型构建如下。全局模型中的层数包含不同本地模型所具有的最大层数，这里为5层。识别出每个本地模型的每个层中的前两个过滤器，并且用每个本地模型的每个层的两个过滤器来构建全局模型。具体地，全局模型的第一层包含6个过滤器(来自每个本地模型的第一层)，第二层包含6个过滤器(来自每个本地模型的第二层)，第三层包含来自第一模型的两个过滤器和来自第三模型的两个过滤器，第四层包含来自第三模型的第四层的两个过滤器，以及第五层包含来自第三模型的第五层的两个过滤器。接下来，将密集全连接层构建为全局模型的最终层。密集层具有10个节点(神经元)。一旦被构建，就将全局模型发送给用户以训练最后层，并收集每个本地模型的训练结果(系数)。然后对这些系数进行求平均以获得全局模型的最后层。

将这个应用于电信运营商的该三个数据集，针对本地模型获得的准确率为82％、88％和75％。一旦全局模型被构建，在本地模型处获得的准确率就提高到86％、94％和80％。从示例中可以看出，所公开实施例的联合学习模型是良好的，并且在与本地模型相比时可以产生更好的模型。

图6示出了根据实施例的流程图。过程600是由中心节点或服务器执行的方法。过程600可以从步骤s602开始。

步骤s602包括：从第一用户设备接收第一模型以及从第二用户设备接收第二模型，其中第一模型是神经网络模型类型并具有第一层集，且第二模型是该神经网络模型类型并具有不同于第一层集的第二层集。

步骤s604包括：对于第一层集中的每个层，从第一层集中的该层中选择过滤器的第一子集。

步骤s606包括：对于第二层集中的每个层，从第二层集中的该层中选择过滤器的第二子集。

步骤s608包括通过基于第一层集和第二层集形成全局层集来构建全局模型，使得对于全局层集中的每个层，该层包括基于对应的过滤器的第一子集和/或对应的过滤器的第二子集的过滤器。

步骤s610包括形成全局模型的全连接层，其中全连接层是全局层集的最终层。

在一些实施例中，该方法还可以包括：向包括第一用户设备和第二用户设备的一个或多个用户设备发送关于全局模型的全连接层的信息；从该一个或多个用户设备接收一个或多个系数集，其中该一个或多个系数集对应于：该一个或多个用户设备中的每一个设备使用与全局模型的全连接层有关的信息来训练特定于设备的本地模型的结果；以及通过对该一个或多个系数集求平均来更新述全局模型，以产生用于全连接层的新系数集。

在一些实施例中，从第一层集的层中选择过滤器的第一子集包括：从该层确定k个最佳过滤器，其中第一子集包括所确定的k个最佳过滤器。在一些实施例中，从第二层集的层中选择过滤器的第二子集包括：从该层确定k个最佳过滤器，其中第二子集包括所确定的k个最佳过滤器。在一些实施例中，基于第一层集和第二层集形成全局层集包括：对于第一层集和第二层集公共的每个层，通过级联对应的过滤器的第一子集和对应的过滤器的第二子集，在全局模型中生成对应层；对于独属于第一层集的每个层，通过使用对应的过滤器的第一子集在全局模型中生成对应层；以及对于独属于第二层集的每个层，通过使用对应的过滤器的第二子集在全局模型中生成对应层。

在一些实施例中，该方法还可以包括：指示第一用户设备和第二用户设备中的一个或多个将其相应的本地模型提取为该神经网络模型类型。

图7示出了根据实施例的流程图。过程700是由用户104(例如，用户设备)执行的方法。过程700可以从步骤s702开始。

步骤s702包括将本地模型提取为第一提取模型，其中本地模型是第一模型类型，并且第一提取模型是不同于第一模型类型的第二模型类型。

步骤s704包括将第一提取模型发送给服务器。

步骤s706包括从服务器接收全局模型，其中全局模型是第二模型类型。

步骤s708包括基于全局模型来更新本地模型。

在一些实施例中，该方法还可以包括基于在用户设备处接收到的新数据来更新本地模型；将更新后的本地模型提取为第二提取模型，其中第二提取模型是第二模型类型；以及将第二提取模型和第一提取模型的加权平均值发送给服务器。在一些实施例中，第二提取模型和第一提取模型的加权平均值由W1+αW2给出，其中W1表示第一提取模型，W2表示第二提取模型，并且0＜α＜1。

在一些实施例中，该方法还可以包括基于本地数据来确定全局模型的最终层的系数；以及将该系数发送给中心节点或服务器。

图8是根据一些实施例的装置800(例如，用户102和/或中心节点或服务器104)的框图。如图8所示，该装置可以包括：处理电路(PC)802，其可以包括一个或多个处理器(P)855(例如，通用微处理器和/或一个或多个其他处理器，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等)；网络接口848包括发送器(Tx)845和接收器(Rx)847，用于使装置能够向连接到网络810(例如，互联网协议(IP)网络)的其他节点发送数据以及从其接收数据，网络接口848连接到该网络810；以及本地存储单元(又名“数据存储系统”)808，其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备。在PC802包括可编程处理器的实施例中，可以提供计算机程序产品(CPP)841。CPP 841包括存储计算机程序(CP)843的计算机可读介质(CRM)842，该计算机程序(CP)843包括计算机可读指令(CRI)844。CRM842可以是非暂时性计算机可读介质，例如磁介质(例如，硬盘)、光学介质、存储器设备(例如，随机存取存储器、闪存)等。在一些实施例中，计算机程序843的CRI844被配置为使得当由PC802执行时，该CRI使装置执行本文描述的步骤(例如，本文参考流程图描述的步骤)。在其他实施例中，该装置可以被配置为执行本文描述的步骤而不需要代码。即，例如，PC 802可以仅由一个或多个ASIC组成。因此，本文描述的实施例的特征可以以硬件和/或软件方式来实现。

图9是根据一些其他实施例的装置800的示意性框图。装置800包括一个或多个模块900，其中每个模块以软件实现。模块900提供本文描述的装置800的功能(例如，本文例如关于图6至图7的步骤)。

尽管本文描述了本公开的各种实施例，但应当理解，其仅以示例而非限制的方式提出。因此，本公开的宽度和范围不应当受到上述示例性实施例中任意一个的限制。此外，上述要素以其所有可能变型进行的任意组合都包含在本公开中，除非另有指示或以其他方式和上下文明确冲突。

附加地，尽管上文描述并附图中示出的处理被示为一系列步骤，但其仅用于说明目的。因此，可以想到可增加一些步骤、可省略一些步骤，可重排步骤顺序，以及可并行执行一些步骤。

Claims

1.一种在中心节点或服务器上的方法，所述方法包括：

从第一用户设备接收第一模型以及从第二用户设备接收第二模型，其中所述第一模型是神经网络模型类型并具有第一层集，且所述第二模型是所述神经网络模型类型并具有不同于第一层集的第二层集；

对于所述第一层集中的每个层，从所述第一层集中的该层中选择过滤器的第一子集；

对于所述第二层集中的每个层，从所述第二层集中的该层中选择过滤器的第二子集；

通过基于所述第一层集和所述第二层集形成全局层集来构建全局模型，使得对于所述全局层集中的每个层，该层包括基于对应的过滤器的第一子集和/或对应的过滤器的第二子集的过滤器；以及

形成所述全局模型的全连接层，其中所述全连接层是所述全局层集的最终层。

2.根据权利要求1所述的方法，还包括：

向包括所述第一用户设备和所述第二用户设备的一个或多个用户设备发送关于所述全局模型的所述全连接层的信息；

从所述一个或多个用户设备接收一个或多个系数集，其中所述一个或多个系数集对应于：所述一个或多个用户设备中的每一个设备使用与所述全局模型的所述全连接层有关的信息来训练特定于设备的本地模型的结果；以及

通过对所述一个或多个系数集求平均来更新所述全局模型，以产生用于所述全连接层的新系数集。

3.根据权利要求1至2中任一项所述的方法，其中，从所述第一层集的层中选择过滤器的第一子集包括：从该层确定k个最佳过滤器，其中所述第一子集包括所确定的k个最佳过滤器。

4.根据权利要求1至2中任一项所述的方法，其中，从所述第二层集的层中选择过滤器的第二子集包括：从该层确定k个最佳过滤器，其中所述第二子集包括所确定的k个最佳过滤器。

5.根据权利要求1至4中任一项所述的方法，其中，基于所述第一层集和所述第二层集形成全局层集包括：

对于所述第一层集和所述第二层集公共的每个层，通过级联对应的过滤器的第一子集和对应的过滤器的第二子集，在所述全局模型中生成对应层；

对于独属于所述第一层集的每个层，通过使用对应的过滤器的第一子集在所述全局模型中生成对应层；以及

对于独属于所述第二层集的每个层，通过使用对应的过滤器的第二子集在所述全局模型中生成对应层。

6.根据权利要求1至5中任一项所述的方法，还包括：指示第一用户设备和第二用户设备中的一个或多个将其相应的本地模型提取为所述神经网络模型类型。

7.一种在用户设备上的利用联合学习的方法，所述联合学习具有异构模型类型和/或架构，所述方法包括：

将本地模型提取为第一提取模型，其中所述本地模型是第一模型类型，并且所述第一提取模型是不同于所述第一模型类型的第二模型类型；

将所述第一提取模型发送给服务器；

从所述服务器接收全局模型，其中所述全局模型是所述第二模型类型；以及

基于所述全局模型来更新所述本地模型。

8.根据权利要求7所述的方法，还包括：

基于在用户设备处接收到的新数据来更新所述本地模型；

将更新后的本地模型提取为第二提取模型，其中所述第二提取模型是所述第二模型类型；

将所述第二提取模型和所述第一提取模型的加权平均值发送给所述服务器。

9.根据权利要求8所述的方法，其中，所述第二提取模型和所述第一提取模型的加权平均值由W1+αW2给出，其中W1表示所述第一提取模型，W2表示所述第二提取模型，并且0＜α＜1。

10.根据权利要求7至9中任一项所述的方法，还包括：

基于本地数据来确定所述全局模型的最终层的系数；以及

将所述系数发送给中心节点或服务器。

11.一种中心节点或服务器，包括：

存储器；以及

处理器，耦接到所述存储器，其中所述处理器被配置为：

12.根据权利要求11所述的中心节点或服务器，其中，所述处理器还被配置为：

13.根据权利要求11至12中任一项所述的中心节点或服务器，其中，从所述第一层集的层中选择过滤器的第一子集包括：从该层确定k个最佳过滤器，其中所述第一子集包括所确定的k个最佳过滤器。

14.根据权利要求11至12中任一项所述的中心节点或服务器，其中，从所述第二层集的层中选择过滤器的第二子集包括：从该层确定k个最佳过滤器，其中所述第二子集包括所确定的k个最佳过滤器。

15.根据权利要求11至14中任一项所述的中心节点或服务器，其中，基于所述第一层集和所述第二层集形成全局层集包括：

16.根据权利要求11至15中任一项所述的中心节点或服务器，其中，所述处理器还被配置为：指示第一用户设备和第二用户设备中的一个或多个将其相应的本地模型提取为所述神经网络模型类型。

17.一种用户设备，包括：

存储器；

处理器，耦接到所述存储器，其中所述处理器被配置为：

将所述第一提取模型发送给服务器；

基于所述全局模型来更新所述本地模型。

18.根据权利要求17所述的用户设备，其中，所述处理器还被配置为：

基于在用户设备处接收到的新数据来更新所述本地模型；

19.根据权利要求18所述的用户设备，其中，所述第二提取模型和所述第一提取模型的加权平均值由W1+αW2给出，其中W1表示所述第一提取模型，W2表示所述第二提取模型，并且0＜α＜1。

20.根据权利要求17至19中任一项所述的用户设备，其中，所述处理器还被配置为：

基于本地数据来确定所述全局模型的最终层的系数；以及

将所述系数发送给中心节点或服务器。

21.一种计算机程序，包括指令，所述指令当由处理电路执行时使所述处理电路执行根据权利要求1至10中任一项所述的方法。

22.一种包含权利要求21所述的计算机程序的载体，其中，所述载体是电信号、光信号、无线电信号和计算机可读存储介质之一。