CN116745782A

CN116745782A - 具有使用异构标签分布的新标签的分布式机器学习

Info

Publication number: CN116745782A
Application number: CN202180092196.XA
Authority: CN
Inventors: G·古塔姆克里施纳; S·K·佩雷普
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-09-12
Also published as: EP4285292A1; US20240095539A1; WO2022162677A1

Abstract

一种用于分布式机器学习(ML)的方法包括向包括第一本地计算装置和第二本地计算装置的多个本地计算装置提供包括第一标签集合的第一数据集。所述方法进一步包括从第一本地计算装置接收来自使用第一标签集合训练第一本地ML模型的第一ML模型概率值集合。所述方法进一步包括从第二本地计算装置接收来自使用第一标签集合和不同于第一标签集合中的任何标签的一个或多个标签训练第二本地ML模型的第二ML模型概率值集合。所述方法进一步包括使用所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合来生成权重矩阵。所述方法进一步包括通过使用所生成的权重矩阵进行采样来生成第三ML模型概率值集合。

Description

具有使用异构标签分布的新标签的分布式机器学习

技术领域

公开的是涉及分布式机器学习的实施例，并且特定地，公开的是涉及具有使用异构标签分布的新标签的分布式机器学习(诸如例如，联合学习)的实施例。

背景技术

在过去几年中，机器学习已经在各个领域(诸如自然语言处理、计算机视觉、语音识别、和物联网(IoT))中产生了重大突破，其中一些突破涉及自动化和数字化任务。这种成功大多数源于在合适的环境中收集和处理大数据。对于机器学习的一些应用来说，收集数据的这种过程可能难以置信地侵犯隐私。一个潜在用例是改进语音识别和语言翻译的结果，而另一个是预测在移动电话上键入的下一个单词，以提高打字者的速度和生产率。在两种情况下，将有益的是，直接在相同数据上训练而不是使用来自其它源的数据。这将允许在同样用于进行预测的相同数据分布(i.i.d.——独立同分布)上训练机器学习(ML)模型(本文也称为“模型”)。然而，由于隐私考虑，直接收集此类数据可能不总是可行的。用户可能不喜欢也没有兴趣将他们键入的所有内容发送到远程服务器/云。

解决这一点的一个最近的解决方案是引入联合学习，一种新的分布式机器学习方法，其中训练数据根本不离开用户的计算装置。代替直接共享它们的数据，客户端计算装置本身使用它们的本地可用数据来计算权重更新。这是一种在不直接检查服务器节点或计算装置上的客户端或用户的数据的情况下训练模型的方式。联合学习是机器学习的一种协作形式，其中训练过程被分布在许多用户中。服务器节点或计算装置具有在模型之间进行协调的角色，但是大部分工作不再由中央实体来执行，而是由用户或客户端的联盟(federation)来执行。

在每个用户或客户端计算装置中初始化模型之后，随机选择一定数量的装置来改进模型。每个被采样的用户或客户端计算装置从服务器节点或计算装置接收当前模型，并使用其本地可用数据来计算模型更新。所有这些更新都被发送回服务器节点或计算装置，在所述服务器节点或计算装置对它们进行平均，并根据客户端使用的训练示例的数量进行加权。然后，服务器节点或计算装置通常通过使用某种形式的梯度下降将该更新应用于模型。

当前的机器学习方法要求大型数据集的可用性，这些数据集通常通过从用户或客户端计算装置收集大量数据来创建。联合学习是一种更灵活的技术，其允许在不直接看到数据的情况下训练模型。虽然机器学习过程以分布式方式使用，但联合学习与常规机器学习在数据中心中使用的方式非常不同。联合学习中使用的本地数据可能不具有与传统机器学习过程中相同的关于数据分布的保证，并且通信在本地用户或客户端计算装置与服务器节点或计算装置之间经常是缓慢且不稳定的。为了能够高效地执行联合学习，需要在每个用户机器或计算装置内适配适当的优化过程。例如，不同的电信运营商将各自生成巨大的警报数据集和相关特征。在这种情况下，与真警报列表相比，可能存在好的假警报列表。对于这样的机器学习分类任务，典型地，预先将要求中央中枢/储存库中的所有运营商的数据集。这是要求的，因为不同的运营商将包含各种特征，并且结果模型将学习它们的特性。然而，这种场景在实时情况下是极其不切实际的，因为它要求多个规章和地理许可；并且此外，对于运营商来说，这极其侵犯隐私。运营商通常将不想在其场所之外共享其客户的数据。因此，诸如联合学习之类的分布式机器学习可以提供一种合适的备选方案，在这种情况下能利用该备选方案来获得更大的益处。

发明内容

分布式机器学习(诸如联合学习)的概念是基于分布在多个计算装置上的数据集来建立机器学习模型，同时防止数据泄漏。参见例如Bonawitz、Keith等人的“Towardsfederated learning at scale:System design”arXiv预印本arXiv：1902.01046(2019)。最近的挑战和改进已聚焦于克服联合学习中的统计挑战。也有研究努力使联合学习更加个性化。上述工作都聚焦于装置上联合学习，其中涉及分布式移动用户交互，并且大规模分布中的通信成本、不平衡的数据分布、以及装置可靠性是优化的一些主要因素。

然而，提出的当前联合学习方法存在缺点。通常固有地假设用户或客户端计算装置(本文也称为客户端或用户)试图训练/更新相同的模型架构。在这种情况下，客户端或用户不能自由选择它们自己的架构和ML建模技术。这对于客户端或用户来说可能是个问题，因为其可能导致计算装置上的本地模型过拟合或欠拟合。在模型更新之后，这也可能导致全局服务器节点或计算装置(下文也称为全局用户)中不胜任的全局模型。因此，对于客户端或用户来说，可能优选的是，选择适合其便利性的其自己的架构/模型，并且中央资源可以用于以有效的方式组合这些(潜在不同的)模型。

当前方法的另一个缺点是实时客户端或用户可能不具有遵循i.i.d.分布的样本。例如，在迭代中，客户端或用户A能够具有100个正样本和50个负样本，而用户B能够具有50个正样本、30个中性样本和0个负样本。在这种情况下，具有这些样本的联合学习设置中的模型可能导致较差的全局模型。

此外，当前的联合学习方法只能处理每个本地模型跨所有客户端或用户具有相同标签的情形，并且不提供处理独特标签或仅可适用于客户端或用户子集的标签的灵活性。然而，在许多实际应用中，对于每个本地模型，由于其对特定区域、人口统计等的依赖性和约束，具有可能仅适用于客户端或用户子集的独特标签或者新的或重叠的未见到标签可能是重要且常见的场景。在这种情况下，跨特定于区域的所有数据点可能存在不同的标签。

最近，本主题申请的受让人开发了一种能够实现在联合学习的用户之间使用异构模型类型和架构的方法，并在PCT/IN2019/050736中公开。此外，本主题申请的受让人开发了一种能够处理联合学习设置中的异构标签和异构模型的方法，并在PCT/IN2020/050618中公开。然而，仍然存在对于一种能够处理分布式机器学习设置中的新的且未见到的异构标签的方法的需要。

本文所公开的实施例提供了能够处理分布式机器学习设置中的新的且未见到的异构标签的方法。本文所公开的实施例提供了这样一种方式，例如在联合学习中，针对给定的感兴趣问题(即图像分类、文本分类等)，为所有用户处理具有异构标签分布的新的未见到标签。术语“标签”和“类别”在本文中可互换使用，并且本文所公开和要求保护的方法适用于并适配于处理新的且未见到的异构标签和类别两者，如这些术语在本文中所使用的那样，并且也如本领域普通技术人员通常理解的那样。如关于示例性实施例进一步详细描述的，类别可以是例如“猫”、“狗”、“大象”等，并且类似地，来自这些类的标签包括“猫”、“狗”、“大象”等的特定实例。

虽然实施例处理联合学习设置中的未见到异构标签，但是通常假设存在对所有本地客户端或用户以及全局用户可用的公共数据集。本地用户发送从公共数据集获得的softmax概率，而不是将本地模型更新发送给全局用户。本文所公开的实施例通过从类别相似性矩阵合成数据印象(Data Impression)而学习新的类别(标签)，来提供具有零次学习机制(zero-shot learning mechanism)的框架。在一些实施例中，为了结合报告标签的本地客户端或用户的可信度，使用用于验证跨本地客户端或用户所新报告的类别(标签)的无监督聚类技术。

以这种方式，例如，新的类别(标签)被再次添加到公共数据集中，以用于下一次联合学习迭代。实施例的附加优点是本地客户端或用户能够在联合学习方法中拟合它们自己的模型(异构模型)。

实施例还能够有利地处理新的且未见到的异构标签，使得本地客户端或用户能够在联合学习期间跨本地装置具有不同的新的且未见到的类别(标签)，处理跨用户的异构标签分布(这在大多数行业中是常见的)，以及处理跨用户的不同数据分布和模型架构。

根据第一方面，提供了一种在中央计算装置用于分布式机器学习(ML)的方法。所述方法包括向包括第一本地计算装置和第二本地计算装置的多个本地计算装置提供包括第一标签集合的第一数据集。所述方法进一步包括从所述第一本地计算装置接收来自使用所述第一标签集合训练第一本地ML模型的第一ML模型概率值集合。所述方法进一步包括从所述第二本地计算装置接收来自使用所述第一标签集合和不同于所述第一标签集合中的任何标签的一个或多个标签训练第二本地ML模型的第二ML模型概率值集合。所述方法进一步包括使用所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合来生成权重矩阵。所述方法进一步包括通过使用所生成的权重矩阵进行采样来生成第三ML模型概率值集合。所述方法进一步包括使用所生成的第三ML模型概率值集合来生成第一数据印象集合，其中所述第一数据印象集合包括不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的数据印象。所述方法进一步包括通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类来生成第二数据印象集合。所述方法进一步包括使用所生成的第二数据印象集合来训练全局ML模型。

在一些实施例中，所述方法进一步包括通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的所述第二数据印象集合和所述第一数据印象集合进行平均来生成第四ML模型概率值集合。在一些实施例中，所述方法进一步包括向包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置提供所生成的第四ML模型概率值集合，以用于训练本地ML模型。

在一些实施例中，所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合是以下之一：Softmax值、sigmoid值和Dirichlet值。在一些实施例中，使用所生成的权重矩阵进行采样是根据Softmax值和Dirichlet分布函数。在一些实施例中，所生成的权重矩阵是类别相似性矩阵。在一些实施例中，使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类是根据k-medoids聚类算法，并且使用elbow方法来确定聚类k的数量。

根据第二方面，提供了一种在本地计算装置用于分布式机器学习(ML)学习的方法。所述方法包括接收包括第一标签集合的第一数据集。所述方法进一步包括生成包括来自所接收的第一数据集的所述第一标签集合以及不同于所述第一标签集合中的任何标签的一个或多个标签的第二数据集。所述方法进一步包括使用所生成的第二数据集来训练本地ML模型。所述方法进一步包括使用不同于所述第一标签集合中的任何标签的所述一个或多个标签来生成权重矩阵。所述方法进一步包括通过使用所生成的权重矩阵和所训练的本地ML模型来生成ML模型概率值集合。所述方法进一步包括向中央计算装置提供所生成的ML模型概率值集合。

在一些实施例中，所接收的第一数据集是公共数据集，并且所生成的第二数据集是私有数据集。在一些实施例中，所述本地ML模型是以下之一：卷积神经网络(CNN)、人工神经网络(ANN)和递归神经网络(RNN)。在一些实施例中，所述方法进一步包括从所述中央计算装置接收ML模型概率值集合，所述ML模型概率值集合表示使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的第二数据印象集合和第一数据印象集合进行平均。在一些实施例中，所述方法进一步包括使用所接收的ML模型概率值集合来训练所述本地ML模型。

在一些实施例中，包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置包括被配置成使用所训练的本地ML模型对警报类型进行分类的多个无线电网络节点。在一些实施例中，包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置包括被配置成使用所训练的本地ML模型对警报类型进行分类的多个无线传感器装置。

根据第三方面，提供了一种中央计算装置。所述中央计算装置包括存储器以及耦合到所述存储器的处理器。所述处理器被配置成向包括第一本地计算装置和第二本地计算装置的多个本地计算装置提供包括第一标签集合的第一数据集。所述处理器进一步被配置成从所述第一本地计算装置接收来自使用所述第一标签集合训练第一本地ML模型的第一ML模型概率值集合。所述处理器进一步被配置成从所述第二本地计算装置接收来自使用所述第一标签集合和不同于所述第一标签集合中的任何标签的一个或多个标签训练第二本地ML模型的第二ML模型概率值集合。所述处理器进一步被配置成使用所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合来生成权重矩阵。所述处理器进一步被配置成通过使用所生成的权重矩阵进行采样来生成第三ML模型概率值集合。所述处理器进一步被配置成使用所生成的第三ML模型概率值集合来生成第一数据印象集合，其中所述第一数据印象集合包括不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的数据印象。所述处理器进一步被配置成通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类来生成第二数据印象集合。所述处理器进一步被配置成使用所生成的第二数据印象集合来训练全局ML模型。

在一些实施例中，所述处理器进一步配置成通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的所生成的第二数据印象集合和所生成的第一数据印象集合进行平均来生成第四ML模型概率值集合。在一些实施例中，所述处理器进一步配置成向包括所述第一本地计算装置和所述第二本地计算装置的多个本地计算装置提供所生成的第四ML模型概率值集合，以用于训练本地ML模型。

根据第四方面，提供了一种本地计算装置。所述本地计算装置包括存储器和耦合到所述存储器的处理器。所述处理器被配置成接收包括第一标签集合的第一数据集。所述处理器进一步被配置成生成包括来自所接收的第一数据集的所述第一标签集合以及不同于所述第一标签集合中的任何标签的一个或多个标签的第二数据集。所述处理器进一步被配置成使用所生成的第二数据集来训练本地ML模型。所述处理器进一步被配置成使用不同于所述第一标签集合中的任何标签的所述一个或多个标签来生成权重矩阵。所述处理器进一步被配置成通过使用所生成的权重矩阵和所训练的本地ML模型来生成模型概率值集合。所述处理器进一步被配置成向中央计算装置提供所生成的模型概率值集合。

在一些实施例中，所接收的第一数据集是公共数据集，并且所生成的第二数据集是私有数据集。在一些实施例中，所述本地ML模型是以下之一：卷积神经网络(CNN)、人工神经网络(ANN)和递归神经网络(RNN)。在一些实施例中，所述处理器进一步配置成从所述中央计算装置接收ML模型概率值集合，所述ML模型概率值集合表示使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的第二数据印象集合和第一数据印象集合进行平均。在一些实施例中，所述处理器进一步配置成使用所接收的ML模型概率值集合来训练所述本地ML模型。

在一些实施例中，所述本地计算装置包括无线电网络节点，并且所述处理器进一步配置成使用所训练的本地ML模型对警报类型进行分类。在一些实施例中，所述本地计算装置包括无线传感器装置，并且所述处理器进一步配置成使用所训练的本地ML模型对警报类型进行分类。

根据第五方面，提供了一种包括指令的计算机程序，所述指令当由处理电路模块执行时，使得所述处理电路模块执行根据第一或第二方面的实施例中任一实施例所述的方法。

根据第六方面，提供了一种包含根据第五方面所述的计算机程序的载体，其中，所述载体是以下之一：电子信号、光信号、无线电信号、和计算机可读存储介质。

附图说明

结合在本文中并形成说明书一部分的附图示出了各种实施例。

图1示出了根据实施例的联合学习系统。

图2示出了根据实施例的联合学习系统。

图3A示出了根据实施例的消息图。

图3B示出了根据实施例的消息图。

图4A是根据实施例的流程图。

图4B是根据实施例的流程图。

图5A是根据实施例的流程图。

图5B是根据实施例的流程图。

图6是根据实施例的设备的框图。

图7是根据实施例的设备的框图。

具体实施方式

图1示出了根据实施例的联合学习的系统100。如图所示，中央计算装置102与一个或多个本地计算装置104通信。如本文进一步详细描述的，在一些实施例中，本地客户端或用户与本地计算装置104相关联，并且全局用户与中央服务器或计算装置102相关联。在一些实施例中，本地计算装置104或本地用户可以利用各种网络拓扑和/或网络通信系统中的任一种来相互通信。在一些实施例中，中央计算装置102可以包括服务器装置、云服务器或诸如此类。在一些实施例中，本地计算装置104可以包括用户装置或用户设备(UE)，诸如智能电话、平板计算机、膝上型计算机、个人计算机等等，并且还可以通过公共网络而被通信地耦合，所述公共网络诸如是互联网(例如，经由WiFi)或通信网络(例如，LTE或5G)。虽然示出了中央计算装置，但是中央计算装置102的功能性可以跨多个节点、计算装置和/或服务器分布，并且可以在本地计算装置104中的一个或多个之间共享。

如本文实施例中描述的联合学习可以涉及一轮或多轮，其中在每轮中迭代地训练全局模型。本地计算装置104可以向中央计算装置102注册，以指示它们参与全局模型的联合学习的意愿，并且可以连续地或在滚动的基础上这样做。在注册时(并且可能在此后的任何时间)，中央计算装置102可以为本地计算装置选择模型类型和/或模型架构来训练。备选地或附加地，中央计算装置102可以允许每个本地计算装置104为自己选择模型类型和/或模型架构。中央计算装置102可以向本地用户104传送初始模型。例如，中央计算装置102可以向本地用户104传送全局模型(例如，新初始化的或通过前几轮联合学习部分训练的)。本地用户104可以用它们自己的数据在本地训练它们的各个模型。这种本地训练的结果然后可以被报告回中央计算装置102，中央计算装置102可以汇集(pool)这些结果并更新全局模型。这个过程可以反复重复。此外，在训练全局模型的每一轮，中央计算装置102可以选择所有注册的本地用户104的子集(例如，随机子集)来参与训练轮。

本文公开的实施例提供了一种在不同的本地用户或计算装置104之间处理新的未见到异构标签的方式。

为了展示在本地用户中具有异构标签分布的新的未见到类别或标签的一般场景，让我们假设在具有三个本地用户的跨不同动物的联合学习设置中的图像分类任务。在这个示例中，在联合学习的第一次迭代中，用户1可能具有来自两个类别的标签——‘猫’和‘狗’；用户2可能具有来自两个类别的标签——‘狗’和‘猪’；并且用户3可能具有来自两个类别的标签——‘猫’和‘猪’。在第二次或随后的迭代中，在这个示例中，对于用户1，存在具有标签‘羊’的新类别，对于用户3，存在标签‘大象’的新类别。在这个示例中，对于所有的用户，他们都致力于图像分类，并且对于不同的用户，图像的标签非常不同。这是一个典型的场景，其中新标签在用户之间具有异构标签分布。

一般而言，与许多不同行业相关的许多不同类型的问题将具有本地用户104，本地用户104具有新的未见到的异构标签。例如，让我们假设本地用户是电信运营商。极其常见的是，运营商有不同数据分布以及伴随不同数据分布的不同标签。一些标签在这些运营商之间是通用的，而一些标签倾向于是非常独特的或更专业的，并且仅迎合某些运营商或某些区域内的运营商。此外，取决于特定运营商、运营商的区域等，由于各种原因，可能出现新的且未见到的标签。在这种情形下，本文实施例提供了联合学习框架中的通用且统一的模型，因为运营商由于隐私考虑通常将不传输数据，并且只能收集见解(insight)。

解决这个问题的一个挑战是将这些不同的本地标签(包括现有的异构标签和新的未见到的标签)以及模型组合成单个全局模型。这不是直截了当的，因为本地用户看不到其它本地用户的标签分布，并且本地模型通常被构建为仅描述它们所具有的本地标签。因此，存在对于一种能够将这些本地模型组合成全局模型的方法的需要。

在一些实施例中，公共数据集可以对所有本地用户和全局用户可用。公共数据集包含与跨所有本地用户的所有标签的并集相关的数据。例如，假设用户1的标签集合是U₁，用户2的标签集合是U₂，…，用户P的标签集合是U_P，所有标签的并集形成了全局用户标签集合{U₁∪U₂∪U₃...∪U_P}。多个本地计算装置在每个联合学习(FL)迭代中包括不同的模型架构，并且每个本地计算装置中的输入数据包括在一些FL迭代中具有新类别和标签的数据，其中在每个FL迭代中具有独特的或重叠的类别。建立具有标签集合的初始公共数据集，该标签集合由跨所有本地用户计算装置可访问的所有标签组成，并且当新的类别(标签)通过不同迭代而进入时，该数据集被更新。该公共数据集被用作测试集合，并且它在FL迭代期间不会暴露给本地模型，以便在测试时普遍有一致性。存在没有本地用户报告新类别，或者任何(或所有)本地用户报告新类别的情况。还存在关于来自本地用户的新类别的所报告标签是否值得信赖的考虑。

在示例性实施例中，流传送入本地用户的新标签不存在于公共数据集。所有本地用户都知道其它本地用户具有的所有标签。

匿名化数据印象

本文公开的实施例使得能够在不知道数据的情况下在联合学习设置中跨不同本地用户检测相似标签。本文公开的实施例使得能够在不实际传输数据和标识关于匿名化数据的相似性的情况下构造匿名化数据。在一些实施例中，使用零次学习(zero-shotlearning)来生成匿名化数据印象，以计算匿名化数据。

在一些实施例中，提供了ML模型M，其在输入X和输出y之间相关，其中X∈R^M ^xN是可用特征的集合，并且y∈R^M表示M个样本的标签(类别)空间的维度。如本文描述的示例性实施例中所使用的，特征可以是例如狗、猫、大象等的图像中来自图案、颜色、形状、纹理、尺寸等的特性，诸如例如皮毛、毛发、棕色、灰色、有棱角、光滑等。在本文公开的方法的一些应用中，诸如例如对于基于正常数据的分类，特征能够是能用于分类的传感器数据集合。具有X的相同属性的匿名化特征集合X*能够通过例如利用下面的示例性算法来创建，下面将参考“对Softmax值进行采样”和“创建数据印象”来进一步详细解释该示例性算法

对Softmax值进行采样

在一些实施例中，来自Dirichlet分布的softmax值被采样。该分布可以通过使用权重矩阵来控制，诸如例如类别/标签相似性矩阵。类别相似性矩阵包括关于类别(标签)彼此有多相似的信息。如果类别(标签)相似，则softmax值将可能均匀地集中在这些类别(标签)上，并且反之亦然。

通过考虑每个本地模型的最后一层的权重来获得类别相似性矩阵。该权重矩阵能够用于本地ML模型和全局ML模型两者。一般而言，任何ML模型都可以具有作为具有softmax非线性的全连接层的最终层。如果类别(标签)相似，则前一层到类别(标签)的节点的连接之间将存在相似的权重。例如，类别相似性矩阵(C)能够被构造为例如：

其中w_i是将先前层节点连接到类别节点i的权重的向量，并且C∈R^K×K是数据中K个类的相似性矩阵。

在构建了类别相似性矩阵的情况下，下一步是将softmax值采样为：

Softmax＝Dir(K，C)

其中，Dir是Dirichlet分布函数，并且C是集中参数，其控制softmax值在数据中的类别上的分布。

创建数据印象

在一些实施例中，Y^k＝[y₁ ^k，y₂ ^k，…，y_N ^k]∈R^K ^X ^N，K是数据中类别(标签)的数量，对应于类别(标签)K的N个softmax向量，从前一步构造的Dirichlet分布中采样——即对softmax值的采样。使用这些softmax值，通过使用模型M和采样的softmax值Y^k解决以下优化问题来计算输入数据特征(数据印象)：

X*＝arg min_X L_CE(y_i ^k，M(X))

为了解决优化问题，将输入X初始化为随机输入并进行迭代，直到交叉熵损失(L_CE)变化小于两次迭代之间的有效值。对K个类别(标签)中的每一个重复该过程，并且获得每个类别(标签)的数据印象，其表示每个类别(标签)的匿名化数据特征。例如，在将本文公开的方法应用于图像分类问题的示例性实施例中，匿名化数据特征能够是负责分类的匿名化(即，看起来相似)图像特征集合。在另一个示例中，在将本文公开的方法应用于传感器数据分类问题的示例性实施例中，匿名化数据特征能够是负责分类的匿名化传感器数据集合。

所公开的方法的实施例使得能够处理联合学习中的异构标签以及异构模型，这在用户从具有多个且完全不同标签的不同组织参与的应用中非常有用。所公开的方法的另一个优点是，它们能够处理样本跨所有用户的不同分布，这在任何应用中都能够是常见的。

参考图2、图3A、图3B、图4A、图4B、图5A和图5B进一步讨论用于创建匿名化数据印象的前述步骤的应用，包括对softmax值进行采样和创建数据印象，以及所提供的示例性算法。

图2示出了根据一些实施例的系统300。系统200包括三个用户104，标记为“本地计算装置1”、“本地计算装置2”和“本地计算装置3”。这些用户可能有异构标签，包括在不同迭代期间流传送入的新的未见到的标签。继续上述示例图像分类，在联合学习的第一次迭代中，用户1、本地计算装置1可以具有来自两个类别的标签——‘猫’和‘狗’；用户2、本地计算装置2可以具有来自两个类别的标签——‘狗’和‘猪’；并且用户3、本地计算装置3可以具有来自两个类别的标签——‘猫’和‘猪’。在第二次或随后的迭代中，在该示例中，对于用户1、本地计算装置1，存在具有标签‘羊’的新类别，对于用户3、本地计算装置3，存在具有标签‘大象’的新类别。

如图所示，用户、本地计算装置104中的每个包括本地ML模型。用户1，本地计算装置1包括本地ML模型M1；用户2，本地计算装置2包括本地ML模型M2；并且用户3，本地计算装置3包括本地ML模型M3。本地ML模型M1、M2和M3中的每个可以是相同或不同的模型类型(CNN模型、人工神经网络(ANN)模型、和RNN模型)。

系统200还包括中央计算装置102，其包括全局ML模型。

如上所述，对于联合学习的给定迭代，新标签(类别)可以流传送入用户、本地计算装置104。如果标签(类别)没有被报告，我们训练新标签(类别)连同公共数据集，并将新的模型权重发送给全局用户。如果用户报告新标签(类别)，我们使用简单的k-medoids聚类算法对每个新标签(类别)的平均数据印象进行聚类，并使用elbow运算来确定聚类k的最佳数量。将新聚类k视为新标签(类别)，我们计算每个新标签(类别)的数据印象，并再次将新的数据印象添加到公共数据集，并将新标签(类别)添加到公共标签(类别)集合。

如图所示，存在三种不同的本地装置，其包括不同的标签和架构。在存在于中央计算装置102中的中央全局ML模型以及用户是本地计算装置104(例如，具有嵌入式系统或移动电话的配置)之间发生交互。

针对本地计算装置用户的每个本地用户的ML模型训练以及将ML模型概率值传输给中央计算装置102的全局用户能够在低资源受约束装置上运行，诸如例如具有～256MBRAM的装置。这使得根据本文描述的实施例的联合学习方法适合于在许多类型的本地客户端计算装置上运行，包括诸如智能手机之类的当代移动/嵌入式装置。有利地，根据本文描述的实施例的联合学习方法对于本地用户和本地计算装置来说不是计算密集型的，并且能够在低功率受约束装置中被实现。

示例

我们收集了数据中所有标签的公共数据集，并使其可用于所有用户——这里是电信运营商。公共数据集由对应于三个电信运营商的警报数据集组成。例如，第一运营商具有三个标签{l₁，l₂，l₃}，第二运营商具有三个标签{l₂，l₃，l₄}，并且第三运营商具有三个标签。{l₂，l₄，l₅}。数据集具有相似的特征，但是具有不同的模式和不同的标签。在该示例中，第一运营商具有带有新标签l₆的传入数据，而第三运营商具有带有新标签l₇的传入数据。由于来自一个运营商的很少的地理和技术创新，可能存在来自该运营商的新标签，这是该运营商先前未见到的，或者是其它运营商或全局模型未见到的。用户中的每个用户的目标是基于警报各自的特征而将警报分类为真警报或假警报

用户有权选择构建其自己的模型。在该示例中，给予用户构建卷积神经网络(CNN)模型的选择。然而，与常规联合学习设置不同，给予用户设计架构的选择，即不同数量的层和每个层中的过滤器。

如上所述，在该示例中，存在三个不同的运营商。三个不同的运营商选择拟合三个不同的CNN模型。基于数据集，运营商1选择拟合三层CNN，其中每个层中分别具有32个、64个和32个过滤器。类似地，运营商2选择拟合两层ANN模型，其中每个层中分别具有32个和64个过滤器。第三运营商选择拟合两层递归神经网络(RNN)，其中每个层具有32个和50个单元。基于数据的性质和不同的迭代来选择这些模型。

在这种情况下，全局模型被构造如下。本地模型的softmax概率是在本地模型中的标签有权访问的公共数据的子集上计算的。创建全局模型中相应新标签的新数据的数据印象。在仅跨新标签数据进行聚类之后，相应的新标签数据被添加到公共数据集。现在，新标签集合包括被添加到初始标签集合中的l₆和l₇。计算所有本地softmax概率的所有分布的基于标签的平均值，并将其发送回本地用户。对于联合学习模型的多次迭代，重复这些步骤。

针对三个本地模型所获得的最终平均值精度为82％、88％和75％。在构造全局模型之后，在三个本地模型处获得的最终精度是85％、93％和79％。以这种方式，我们评估，当与本地模型自身操作相比时，本文公开的联合学习模型和方法是有效的，并且产生更好的结果。该模型运行50次迭代，并且我们跨三次不同的实验性检验来报告这些精度，并且我们对精度进行平均。

图3A示出了根据实施例的消息图300。本地用户或客户端计算装置104(示出了三个本地用户)和中央计算装置102相互通信。在310、312和314，中央计算装置102首先向每个本地计算装置104提供公共数据集。每个本地计算装置104具有本地ML模型——本地计算装置1具有本地ML模型M1320；本地计算装置2具有本地ML模型M2322；并且本地计算装置3具有本地ML模型M3324。每个本地计算装置104还具有私有数据集——本地计算装置1具有私有数据集加上(一个或多个)新标签330；本地计算装置2具有私有数据集——没有(一个或多个)新标签332；并且本地计算装置3具有私有数据集加上(一个或多个)新标签334。如上面参考图2所描述的以及下面参考图5A更详细描述的，每个本地计算装置使用所接收的公共数据集和它们自己的私有数据集，包括通过在本地计算装置1和本地计算装置3的情况下的(一个或多个)新标签，来训练它们的本地ML模型并生成权重矩阵和模型概率值，它们被提供给中央计算装置102。在步骤340，本地计算装置1向中央计算装置提供ML模型概率值(M1)，并且在步骤342，本地计算装置3向中央计算装置提供ML模型概率值(M3)。如下面参考图4A进一步详细解释的，在从本地计算装置接收到ML模型概率值之后，中央计算装置使用所接收的ML模型概率值来生成权重矩阵，使用所生成的权重矩阵来执行采样，并且通过聚类来生成数据印象，包括新标签的数据印象。使用所生成的数据印象来训练全局ML模型345。

图3B示出了根据实施例的消息图300的其它消息。如参考图3A所示，使用包括新标签的所生成的数据印象来训练全局ML模型345。所训练的全局ML模型是图3B中所示的用于中央计算装置102的经更新全局ML模型350。如下面参考图4B进一步详细解释的，中央计算装置通过使用所生成的数据印象(包括新标签的数据印象)进行平均来生成ML模型概率值。在360、362和364，中央计算装置102将这些ML模型概率值提供给每个本地计算装置104。每个本地计算装置104使用所接收的ML模型概率值来训练，并且此后，本地计算装置1具有更新的本地ML模型M1370；本地计算装置2具有更新的本地ML模型M2372；并且本地计算装置3具有更新的本地ML模型M3374。

图4A示出了根据实施例的流程图。过程400是在中央计算装置用于分布式机器学习(ML)的方法。过程400可以从步骤s402开始。

步骤s402包括向包括第一本地计算装置和第二本地计算装置的多个本地计算装置提供包括第一标签集合的第一数据集。

步骤s404包括从第一本地计算装置接收来自使用第一标签集合训练第一本地ML模型的第一ML模型概率值集合。

步骤s406包括从第二本地计算装置接收来自使用第一标签集合和不同于第一标签集合中的任何标签的一个或多个标签训练第二本地ML模型的第二ML模型概率值集合。

步骤s408包括使用所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合来生成权重矩阵。

步骤s410包括通过使用所生成的权重矩阵进行采样来生成第三ML模型概率值集合。

步骤s412包括使用所生成的第三ML模型概率值集合来生成第一数据印象集合，其中第一数据印象集合包括不同于第一标签集合中的任何标签的所述一个或多个标签中的每个标签的数据印象。

步骤s414包括通过使用不同于第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类来生成第二数据印象集合。

步骤s416包括使用所生成的第二数据印象集合来训练全局ML模型。

图4B示出了根据实施例的流程图。在一些实施例中，过程400还包括过程450的步骤。过程450可以从步骤s452开始。

步骤s452包括通过使用不同于第一标签集合中的任何标签的所述一个或多个标签和第一标签集合的每个标签的第二数据印象集合和第一数据印象集合进行平均来生成第四ML模型概率值集合。

步骤s454包括向包括第一本地计算装置和第二本地计算装置的所述多个本地计算装置提供所生成的第四ML模型概率值集合，以用于训练本地ML模型。

在一些实施例中，所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合是以下之一：Softmax值、sigmoid值和Dirichlet值。在一些实施例中，使用所生成的权重矩阵进行采样是根据Softmax值和Dirichlet分布函数。在一些实施例中，所生成的权重矩阵是类别相似性矩阵。在一些实施例中，使用不同于第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合的聚类是根据k-medoids聚类算法，并且使用elbow方法来确定聚类k的数量。

图5A示出了根据实施例的流程图。过程500是在本地计算装置用于分布式机器学习(ML)的方法。过程500可以从步骤s502开始。

步骤s502包括接收包括第一标签集合的第一数据集。

步骤s504生成包括来自所接收的第一数据集的第一标签集合以及不同于第一标签集合中的任何标签的所述一个或多个标签的第二数据集。

步骤s506使用所生成的第二数据集来训练本地ML模型。

步骤s508使用不同于第一标签集合中的任何标签的所述一个或多个标签来生成权重矩阵。

步骤s510通过使用所生成的权重矩阵和所训练的本地ML模型来生成ML模型概率值集合。

步骤s512向中央计算装置提供所生成的ML模型概率值集合。

图5B示出了根据实施例的流程图。在一些实施例中，过程500还包括过程550的步骤。过程550可以从步骤s552开始。

步骤s552包括从中央计算装置接收ML模型概率值集合，其表示使用不同于第一标签集合中的任何标签的所述一个或多个标签和第一标签集合的每个标签的第二数据印象集合和第一数据印象集合进行平均。

步骤s554包括使用所接收的ML模型概率值集合来训练本地ML模型。

在一些实施例中，所接收的第一数据集是公共数据集，并且所生成的第二数据集是私有数据集。在一些实施例中，本地ML模型是以下之一：卷积神经网络(CNN)、人工神经网络(ANN)、和递归神经网络(RNN)。

在一些实施例中，包括第一本地计算装置和第二本地计算装置的所述多个本地计算装置包括多个无线电网络节点，其被配置成使用所训练的本地ML模型对警报类型进行分类。在一些实施例中，包括第一本地计算装置和第二本地计算装置的所述多个本地计算装置包括多个无线传感器装置，其被配置成使用所训练的本地ML模型对警报类型进行分类。

图6是根据一些实施例的设备600(例如，本地计算装置104和/或中央计算装置102)的框图。如图6中所示，所述设备可以包括：处理电路模块(PC)602，其可以包括一个或多个处理器(P)655(例如，通用微处理器和/或一个或多个其它处理器，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)和诸如此类)；网络接口648，其包括传送器(Tx)645和接收器(Rx)647以用于使得设备能够向连接到网络610(例如，因特网协议(IP)网络)的其它计算装置传送数据和从连接到网络610(例如，因特网协议(IP)网络)的其它计算装置接收数据，所述网络接口648被连接到网络610；以及本地存储单元(也称为“数据存储系统”)608，其可以包括一个或多个非易失性存储装置和/或一个或多个易失性存储装置。在PC 602包括可编程处理器的实施例中，可以提供计算机程序产品(CPP)641。CPP 641包括存储包括计算机可读指令(CRI)644的计算机程序(CP)643的计算机可读介质(CRM)642。CRM 642可以是非暂时性计算机可读介质，诸如磁介质(例如，硬盘)、光介质、存储器装置(例如，随机存取存储器、闪速存储器)和诸如此类。在一些实施例中，计算机程序643的CRI 644被配置成使得当被PC 602执行时，CRI使得所述设备执行本文描述的步骤(例如，本文参考流程图描述的步骤)。在其它实施例中，所述设备可以被配置成执行本文描述的步骤，而不需要代码。也就是说，例如，PC 602可以仅由一个或多个ASIC组成。因此，本文描述的实施例的特征可以在硬件和/或软件中被实现。

图7是根据一些其它实施例的设备600的示意性框图。设备600包括一个或多个模块700，其中的每个模块都在软件中被实现。(一个或多个)模块700提供本文描述的设备600的功能性(例如，本文例如关于图2、图3、图4A、图4B、图5A、图5B的步骤)。

虽然本文描述了本公开的各种实施例，但是应该理解，它们仅通过示例而不是限制的方式被呈现。因此，本公开的广度和范围不应受到上述示例性实施例中任一实施例所限制。此外，除非本文另有指示或者与上下文另有明显矛盾，否则本公开涵盖上述元素在其所有可能变型中的任何组合。

此外，虽然上述过程和附图中所示过程被示出为一系列步骤，但这仅仅是为了说明的目的而进行的。因此，设想的是，可以添加一些步骤，可以省略一些步骤，可以重新布置步骤的顺序，并且可以并行执行一些步骤。

Claims

1.一种在中央计算装置用于分布式机器学习(ML)的方法，所述方法包括：

向包括第一本地计算装置和第二本地计算装置的多个本地计算装置提供包括第一标签集合的第一数据集；

从所述第一本地计算装置接收来自使用所述第一标签集合训练第一本地ML模型的第一ML模型概率值集合；

从所述第二本地计算装置接收来自使用所述第一标签集合和不同于所述第一标签集合中的任何标签的一个或多个标签训练第二本地ML模型的第二ML模型概率值集合；

使用所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合来生成权重矩阵；

通过使用所生成的权重矩阵进行采样来生成第三ML模型概率值集合；

使用所生成的第三ML模型概率值集合来生成第一数据印象集合，其中所述第一数据印象集合包括不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的数据印象；

通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类来生成第二数据印象集合；以及

使用所生成的第二数据印象集合来训练全局ML模型。

2.如权利要求1所述的方法，进一步包括：

通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的所述第二数据印象集合和所述第一数据印象集合进行平均来生成第四ML模型概率值集合；以及

向包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置提供所生成的第四ML模型概率值集合，以用于训练本地ML模型。

3.如权利要求1-2中任一项所述的方法，其中，所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合是以下之一：Softmax值、sigmoid值和Dirichlet值。

4.如权利要求1-3中任一项所述的方法，其中，所生成的权重矩阵是类别相似性矩阵，并且所述类别相似性矩阵根据下式来生成：

其中w_i是将先前层节点连接到类别节点i的权重的向量，并且C∈R^K×K是所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合中的K个标签的相似性矩阵。

5.如权利要求1-4中任一项所述的方法，其中，使用所生成的权重矩阵进行采样是根据：

Softmax＝Dir(K，C)

其中Dir是Dirichlet分布函数，并且C是集中参数，所述集中参数控制在所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合中的标签上的Softmax值的散布。

6.如权利要求1-5中任一项所述的方法，其中，使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类是根据k-medoids聚类算法，并且使用elbow方法来确定聚类k的数量。

7.如权利要求1-6中任一项所述的方法，其中，使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类是根据：

其中

是具有标签k的用户的集合。

8.如权利要求2所述的方法，其中，生成所生成的第四模型概率值集合是根据：

其中

其中acc是由给定本地ML模型的正确分类样本与总样本之比所定义的精度函数。

9.一种在本地计算装置用于分布式机器学习(ML)学习的方法，所述方法包括：

接收包括第一标签集合的第一数据集；

生成包括来自所接收的第一数据集的所述第一标签集合以及不同于所述第一标签集合中的任何标签的一个或多个标签的第二数据集；

使用所生成的第二数据集来训练本地ML模型；

使用不同于所述第一标签集合中的任何标签的所述一个或多个标签来生成权重矩阵；

通过使用所生成的权重矩阵和所训练的本地ML模型来生成ML模型概率值集合；以及

向中央计算装置提供所生成的ML模型概率值集合。

10.如权利要求9所述的方法，其中，所接收的第一数据集是公共数据集，并且所生成的第二数据集是私有数据集。

11.如权利要求9-10中任一项所述的方法，其中，所述本地ML模型是以下之一：卷积神经网络(CNN)、人工神经网络(ANN)和递归神经网络(RNN)。

12.如权利要求9-11中任一项所述的方法，进一步包括：

从所述中央计算装置接收ML模型概率值集合，所述ML模型概率值集合表示使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的第二数据印象集合和第一数据印象集合进行平均；以及

使用所接收的ML模型概率值集合来训练所述本地ML模型。

13.如权利要求1-12中任一项所述的方法，其中，包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置包括被配置成使用所训练的本地ML模型对警报类型进行分类的多个无线电网络节点。

14.如权利要求1-12中任一项所述的方法，其中，包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置包括被配置成使用所训练的本地ML模型对警报类型进行分类的多个无线传感器装置。

15.一种中央计算装置，包括：

存储器；以及

耦合到所述存储器的处理器，其中所述处理器被配置成：

使用所生成的第二数据印象集合来训练全局ML模型。

16.如权利要求15所述的中央计算装置，其中所述处理器进一步配置成：

通过使用不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的所生成的第二数据印象集合和所生成的第一数据印象集合进行平均来生成第四ML模型概率值集合；以及

向包括所述第一本地计算装置和所述第二本地计算装置的多个本地计算装置提供所生成的第四ML模型概率值集合，以用于训练本地ML模型。

17.如权利要求15-16中任一项所述的中央计算装置，其中，所接收的第一ML模型概率值集合和所接收的第二ML模型概率值集合是以下之一：Softmax值、sigmoid值和Dirichlet值。

18.如权利要求15-17中任一项所述的中央计算装置，其中，所生成的权重矩阵是类别相似性矩阵，并且所述类别相似性矩阵根据下式来生成：

19.如权利要求15-18中任一项所述的中央计算装置，其中，使用所生成的权重矩阵进行采样是根据：

Softmax＝Dir(K，C)

20.如权利要求15-19中任一项所述的中央计算装置，其中，使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类是根据k-medoids聚类算法，并且使用elbow方法来确定聚类k的数量。

21.如权利要求15-20中任一项所述的中央计算装置，其中，使用不同于所述第一标签集合中的任何标签的所述一个或多个标签中的每个标签的所生成的第一数据印象集合进行聚类是根据：

其中

是具有标签k的用户的集合。

22.如权利要求16所述的中央计算装置，其中，生成不同于所述第一标签集合中的任何标签的所述一个或多个标签和所述第一标签集合的每个标签的所述第四ML模型概率值集合是根据：

其中

23.如权利要求15-22中任一项所述的中央计算装置，其中，包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置包括被配置成使用所训练的本地ML模型对警报类型进行分类的多个无线电网络节点。

24.如权利要求15-22中任一项所述的中央计算装置，其中，包括所述第一本地计算装置和所述第二本地计算装置的所述多个本地计算装置包括被配置成使用所训练的本地ML模型对警报类型进行分类的多个无线传感器装置。

25.一种本地计算装置，包括：

存储器；

耦合到所述存储器的处理器，其中所述处理器被配置成：

接收包括第一标签集合的第一数据集；

使用所生成的第二数据集来训练本地ML模型；

通过使用所生成的权重矩阵和所训练的本地ML模型来生成模型概率值集合；以及

向中央计算装置提供所生成的模型概率值集合。

26.如权利要求25所述的本地计算装置，其中，所接收的第一数据集是公共数据集，并且所生成的第二数据集是私有数据集。

27.如权利要求25-26中任一项所述的本地计算装置，其中，所述本地ML模型是以下之一：卷积神经网络(CNN)、人工神经网络(ANN)和递归神经网络(RNN)。

28.如权利要求25-27中任一项所述的本地计算装置，其中所述处理器进一步配置成：

使用所接收的ML模型概率值集合来训练所述本地ML模型。

29.如权利要求25-28中任一项所述的本地计算装置，其中，所述本地计算装置包括无线电网络节点，并且所述处理器进一步配置成使用所训练的本地ML模型对警报类型进行分类。

30.如权利要求25-28中任一项所述的本地计算装置，其中，所述本地计算装置包括无线传感器装置，并且所述处理器进一步配置成使用所训练的本地ML模型对警报类型进行分类。

31.一种包括指令的计算机程序，所述指令当由处理电路模块执行时，使得所述处理电路模块执行如权利要求1-14中任一项所述的方法。

32.一种包含如权利要求31所述的计算机程序的载体，其中，所述载体是以下之一：电子信号、光信号、无线电信号、和计算机可读存储介质。