CN114787824A

CN114787824A - 联合混合模型

Info

Publication number: CN114787824A
Application number: CN202080084734.6A
Authority: CN
Inventors: M·雷瑟; M·威林; E·加维斯; C·路易索斯
Original assignee: Qualcomm Technologies Inc
Current assignee: Qualcomm Technologies Inc
Priority date: 2019-12-13
Filing date: 2020-12-14
Publication date: 2022-07-22
Also published as: JP2023505973A; BR112022011012A2; US20230036702A1; WO2021119601A1; EP4073714A1; KR20220112766A

Abstract

本文描述的各方面提供了一种处理数据的方法，包括：接收针对多个机器学习模型的全局参数集合；根据该全局参数集合用该多个机器学习模型来处理本地地存储在处理设备上的数据以生成机器学习模型输出；在该处理设备处接收关于针对该多个机器学习模型的机器学习模型输出的用户反馈；基于机器学习输出和用户反馈来执行对该多个机器学习模型的优化以生成经本地更新的机器学习模型参数；将经本地更新的机器学习模型参数发送到远程处理设备；以及接收针对多个机器学习模型的经全局更新的机器学习模型参数集合。

Description

联合混合模型

相关申请的交叉引用

本申请要求于2019年12月13日提交的希腊临时专利申请No.20190100556的权益和优先权，该申请的全部内容通过援引被纳入于此。

引言

本公开的各方面涉及机器学习模型，且更具体地涉及联合混合模型。

机器学习可以产生经训练模型(例如，人工神经网络、树或其他结构)，其表示对先验已知的训练数据集合的广义拟合。将经训练模型应用于新数据产生推断，这可被用于获得关于新数据的洞察。在一些情形中，将模型应用于新数据被描述为对新数据“运行推断”。

机器学习模型被越来越多地用于各种领域，包括用于分类、检测和识别任务。例如，机器学习模型正被用于基于由电子设备上的一个或多个机载传感器所提供的传感器数据在这些设备上执行复杂任务，诸如自动检测图像中的特征(例如，面部)。

常规机器学习常常以集中式的方式来执行，诸如将训练数据收集到集中式储存库中并集体处理训练数据以训练机器学习模型的情况。这么做简化了机器学习的某些方面。例如，具有统一的训练数据集允许根据针对该训练数据集中的变量的独立和相同分布(IID)假设来处理数据，这意味着从训练数据集中得出的所有训练数据实例(例如，观察值)都源于相同的生成过程，其没有过去生成的样本的记忆。这一假设因而允许将训练数据更容易地拆分为训练数据子集和验证数据子集，因为这两个子集被认为是分布相同的。此外，这一假设是标准最大似然优化目标的基础。

现代电子设备，特别是分散式的便携式电子设备、物联网(IoT)设备、常开(AON)设备和其他“边缘”设备，正越来越多地具备执行机器学习任务的能力。因此，利用这些设备作为机器学习计算资源很有吸引力。然而，在许多上下文中，使用分散式处理办法来生成适用全局的机器学习模型可能是不可能或不切实际的。例如，物理限制(诸如处理速度、网络速度、电池寿命等)以及政策限制(诸如隐私法、安全要求等)可能会限制使用更广泛的计算资源来分散化机器学习模型的训练的能力。

将与机器学习相关的处理分发到处于“边缘”的各个设备(诸如前述便携式电子设备)的联合学习试图克服上述一些分散式处理问题。不幸的是，数据处理的分散化显式地打破了标准IID假设，该假设是各种机器学习技术的标准最大似然优化目标的基础。因此，联合学习可能导致当前的机器学习技术的性能降级。

因此，需要用于在不破坏现有机器学习技术的有效性的情况下执行联合学习的改进的方法。

简要概述

在第一方面，一种处理数据的方法，包括：在处理设备s处接收针对多个机器学习模型K中的每一机器学习模型k的全局参数集合

针对该多个机器学习模型K中的每一相应机器学习模型k：在该处理设备处根据全局参数集合

用相应的机器学习模型k来处理本地地存储在该处理设备上的数据以生成机器学习模型输出y_s,k；在该处理设备处接收关于机器学习模型输出y_s,k的用户反馈；在该处理设备处基于机器学习模型输出y_s,k以及与机器学习模型输出y_s,k相关联的用户反馈来执行对该相应机器学习模型k的优化以生成经本地更新的机器学习模型参数

以及将经本地更新的机器学习模型参数

发送到远程处理设备；以及从该远程处理设备接收针对该多个机器学习模型K中的每一机器学习模型k的经全局更新的机器学习模型参数集合

其中针对每一相应机器学习模型k的经全局更新的机器学习模型参数

至少部分地基于经本地更新的机器学习模型参数

在第二方面，一种处理数据的方法，包括：针对多个模型K中的每一相应模型k：针对多个远程处理设备S中的每一相应远程处理设备s：从服务器向该相应远程处理设备s发送针对该相应机器学习模型k的初始全局模型参数集合

以及在该服务器处从该相应远程处理设备s接收针对该相应机器学习模型k的经更新的模型参数集合

以及在该服务器处基于从该多个远程处理设备S中的每一远程处理设备s接收的经更新的模型参数集合

来执行对该相应机器学习模型k的优化以生成经更新的全局模型参数集合

以及从该服务器向该多个远程处理设备S中的每一远程处理设备s发送针对该多个模型K中的每一机器学习模型k的经更新的全局模型参数集合

其他方面涉及：一种装置，其被配置成执行本文中所描述的方法；以及一种包括计算机可执行指令的非瞬态计算机可读介质，这些计算机可执行指令在由设备的处理器执行时使该设备执行本文中所描述的方法。

以下描述和相关附图详细阐述了一个或多个实施例的某些解说性特征。

附图简述

附图描绘了该一个或多个实施例的某些方面，并且因此不被认为限制本公开的范围。

图1描绘了一示例机器学习模型架构。

图2描绘了基于以上导出的等式的联合混合算法的示例。

图3描绘了一种在设备上处理联合混合模型数据的示例方法。

图4描绘了一种在集中式设备(诸如服务器设备)上处理联合混合模型数据的示例方法。

图5解说了可被配置成执行本文所描述的方法的一示例电子设备。

图6描绘了可被配置成执行本文所描述的方法的一示例多处理器处理系统。

为了促成理解，在可能之处使用了相同的附图标记来指定各附图共有的相同要素。构想一个实施例的要素和特征可有益地纳入其他实施例而无需进一步引述。

详细描述

本公开的各方面提供了用于基于使用多个模型实例(或“专家”)来执行最大似然优化从而缓解不符合独立和相同分布(IID)假设的训练数据的影响来改进联合机器学习性能的各装置、方法、处理系统和计算机可读介质。有益的是，本文所描述的联合混合模型方法可以跨联合设备同步地或异步地执行。因而，这些联合混合模型方法特别有用于利用低功率处理系统(诸如移动设备，IoT设备，边缘设备，以及具有处理、功率、数据连接和/或存储器大小限制的其他处理设备)来进行联合学习。

神经网络、深度神经网络和深度学习的简要背景

神经网络被组织成各个互连节点层。一般来说，节点(或神经元)是计算发生的位置。例如，节点可将输入数据与放大或减弱该输入数据的权重(或系数)集合相组合。输入信号的放大或减弱因而可被认为是对关于网络试图要学习的任务的各个输入的相对重要性的指派。一般来说，输入权重积被求和(或累加)并且接着求得的和被传递通过节点的激活函数以确定该信号是否以及在多大程度上应当进一步前进通过网络。

在最基本的实现中，神经网络可具有输入层、隐藏层和输出层。“深度”神经网络一般具有一个以上的隐藏层。

深度学习是一种训练深度神经网络的方法。一般来说，深度学习将到网络的输入映射到来自网络的输出，并且因而有时被称为“通用近似器”，因为它可以学习以近似任何输入x与任何输出y之间的未知函数f(x)＝y。换言之，深度学习找到将x转变成y的正确f。

更具体地，深度学习基于相异的特征集合(其是来自前一层的输出)来训练每一节点层。因而，通过深度神经网络的每一相继层，特征可变得更加复杂。深度学习之所以强大是因为它能够从输入数据中渐进地提取更高级别的特征并通过多个层次和级别的抽象构建输入数据的有用特征表示来执行复杂任务，诸如对象识别。

例如，如果向深度神经网络的第一层呈递视觉数据，则第一层可学习以识别输入数据中的相对简单的特征(诸如边缘)。在另一示例中，如果向深度神经网络的第一层呈递音频数据，则第一层可学习以识别输入数据中的特定频率中的频谱功率。深度神经网络的第二层接着可基于第一层的输出来学习以识别特征的组合，诸如视觉数据的简单形状或音频数据的声音组合。更高层接着可学习以识别视觉数据中的复杂形状或音频数据中的词语。再高层可学习以识别常见视觉对象或口述短语。因而，深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。

机器学习模型最大似然优化

机器学习模型采用许多形式，诸如神经网络(例如，深度神经网络和卷积神经网络)、回归(例如，逻辑或线性)、决策树(包括随机树森林)、支持向量机、级联分类器以及其他形式。虽然贯穿全文将神经网络作为用于本文所描述的方法的一个示例应用来讨论，但这些相同的方法可同样地被应用于其他类型的机器学习模型。

在机器学习中，模型的训练可被认为是通过取得观察值集合并执行最大似然估计以使得目标概率被最大化的一种优化过程。在统计学上，最大似然估计是一种通过最大化似然函数来估计概率分布的参数的方法，以使得在假定统计模型下所观察到的数据是最有可能的。因而，在机器学习模型的上下文中，可以导出以下表达式：

在前面的表达式中，

是最大似然估计器，x¹,…,x^M是M个观察值，g是取得观察值的函数，p_model是在同一空间上由θ索引的概率分布，而

是

的经验分布的期望。

混合模型

混合模型是一种概率模型，用于表示数据总群体中子群体的存在，而不要求观察到的数据集标识个体观察值所属的子群体。因而，混合模型对应于混合分布，其表示观察值在观察值总群体中的概率分布。混合模型可被用于在仅给出池化群体的观察值而没有子群体身份信息的情况下作出关于子群体属性的统计学推断。

实现混合模型的一些方式涉及将假定的子群体身份归因于个体观察值(或对此类子群体的权重)的步骤，在这些情形中，这些可被认为是无监督学习或聚类规程的类型。例如，高斯混合是包括若干高斯函数的函数，每一高斯函数由k∈{1,…,K}标识，其中K是数据集中共享一些共同特性(诸如统计分布、数据点的中心等)的群集的数目。混合中的每一个体高斯函数k可包括以下参数：定义其中心的平均μ；定义其宽度的协方差Σ(等效于多变量场景中的椭球体的尺寸)；以及定义高斯函数大小的混合概率π。

关于每个高斯函数的参数集可被定义为θ＝{π,μ,Σ}。接着最大化算法可被应用以确定θ的最优值，诸如期望最大化(EM)算法。例如，可根据下式来计算最优值：

值得注意的是，这是一个示例公式，并且其他示例公式也是可能的。

联合机器学习

常规机器学习利用集中式数据收集和处理架构。作为对比，联合机器学习将机器学习过程分布到多个设备，这些设备具有可能未被共享到集中式数据集中的它们自己的联合数据集。因而，联合机器学习使得各种“边缘”处理设备(诸如智能电话)能够使用个体边缘处理设备上的训练数据来协作地学习共享机器学习模型但不共享该个体设备数据。相反，边缘处理设备仅仅共享从它们自己的本地模型优化规程得到的模型参数，诸如权重和偏置。因而，数据无需通过网络被传输到集中式储存库，这降低了数据传输成本同时还改进了数据安全性和保密性。

值得注意的是，由于具有可用计算资源的边缘处理设备的数量迅速增加，以及此类边缘处理设备的处理能力不断增长，联合机器学习正变得极具吸引力。尽管与专门构建的机器学习处理系统(例如，大型机、服务器、超级计算机等)相比，边缘处理设备在逐个单元的基础上可能没那么强大，但它们的绝对数量可以弥补其相对较低的处理能力。此外，边缘设备(诸如智能电话)正越来越多地纳入被专门构建以用于执行机器学习处理的专用处理芯片，诸如神经处理器。因而，在一些实例中，边缘设备可由于其专用机器学习硬件而比标准计算设备具备更多能力。

如本文所描述的，模型混合可被用于组合多个模型(或子模型或专家)以生成最终模型。

联合学习架构的示例

图1描绘了一示例联合学习架构100。

在该示例中，移动设备102A-C(其是边缘处理设备的示例)各自分别具有本地数据存储104A-C并且分别具有本地机器学习模型实例106A-C。例如，移动设备102A包括初始机器学习模型实例106A，其可以从例如全局机器学习协调器108(在一些示例中其可以是软件提供者)进行接收。移动设备102A-C中的每一者可使用其相应的机器学习模型实例(106A-C)来进行某一有用任务，诸如处理本地数据104A-C，并且进一步执行对其相应的机器学习模型实例(106A-C)的本地训练和优化。

例如，移动设备102A可使用其机器学习模型106A来对作为数据104A存储在移动设备102A上的图片执行面部识别。因为这些照片可被认为是私密的，所以移动设备102A可能不想要或者可能被阻止将其照片数据与全局模型协调器108共享。然而，移动设备102A可能愿意或被准许与全局模型协调器108共享其本地模型更新，诸如对模型参数(例如，权重和偏置)的更新。类似地，移动设备102B和102C可按照相同的方式分别使用它们的本地机器学习模型实例106B和106C，并且还与全局模型协调器108共享它们的本地模型更新但不共享用于生成本地模型更新的底层数据(104B和104C)。

全局模型协调器108可使用全部的本地模型更新来确定全局(或共识)模型更新，其随后可被分发到移动设备102A-C。以此方式，可在不使训练数据和处理集中化的情况下使用移动设备102A-C来执行联合机器学习。

因而，联合学习架构100允许机器学习模型的分散式部署和训练，这可有益地减少等待时间、网络使用和功耗，同时维护数据隐私性和安全性并且提高对原本空闲的计算资源的利用率。此外，联合学习架构100有益地允许本地模型(例如，106A-C)在不同设备上不同地演进而同时基于本地模型演进来训练全局模型。

值得注意的是，分别存储在移动设备102A-C上且被机器学习模型106A-C使用的本地数据可被称为个体数据碎片(例如，数据104A-C)和/或联合数据。因为这些数据碎片是由不同用户在不同设备上生成的且从未被混合，所以它们不能被假定相对于彼此是独立和相同分布(IID)的。对于因设备而异的、未被组合以用于训练机器学习模型的任何种类的数据，这一结论更普遍地成立。只有通过分别组合移动设备102A-C的个体数据集104A-C才能够生成其中IID假设成立的全局数据集。

具有联合混合模型的机器学习

为了克服用于联合机器学习的联合数据(诸如参考图1讨论的数据104A-C)的非IID特性，最大似然优化方法可被扩展为K个不同的预测模型或“专家”的混合。每一专家被预期要对联结数据空间(例如，组合了全部的联合数据空间的数据空间)中的一个区域建模。为了这么做，可以作出如下假定：观察到的数据(例如，由图1中的移动设备102A-C生成的数据)是从K个个体预测模型的混合创建的。因而，例如，移动设备102A上的模型106C在联合混合模型学习的上下文中可被认为是包括多个(K个)混合模型分量(例如，专家)的单个模型。有益的是，联合混合模型用作用于向使用该模型的应用提供输入以及从该应用接收输出的单个模型。

在一个示例中，K个专家可以指K个不同的神经网络模型。在一些情形中，这些神经网络可具有相同的架构，而在其他情形中，它们可以是不同的。令Z是所有z_s,i的集合，其中针对每一数据点(y_s,i,x_s,i)存在一个z。则z_s,i指示K个专家(例如，在该示例中的神经网络)中的哪一者被选择来对特定数据点(y_s,i,x_s,i)建模。

可以提出关于模型的不同问题，诸如：给定K个神经网络，哪个个体神经网络k用于描述数据点是“最佳的”，或者每个个体神经网络k对给定数据点建模有多好(例如，可计算z_s,i上的后验值)。在本文所描述的方法中，确定哪个专家(例如，神经网络)k在K个专家集合中是“最佳的”不一定是目标。相反，目标是训练K个专家(例如，神经网络)以使得每一专家专攻于全局数据集的不同部分。

在联合训练上下文中，数据D＝{(x₁,y₁,…,(x_N,y_N)可跨S个不同的碎片(或集合)被拆分，以使得每一碎片s拥有N_s个数据点。可以进一步假定：跨全部S个碎片的数据(例如，D＝D₁∪…∪D_S)汲取自K个群集，其参数w跨每一个体群集中的所有碎片被共享。

该模型的总概率则为：

可以假定：要被聚集的数据是在一个位置中以计算该模型的正确梯度。因而，通过根据下式来计算关于w的梯度来最大化数据对数似然率：

在联合学习场景中，全局服务器(例如，图1中的全局模型协调器108)向每一本地作业器(例如，图1中的移动设备102A-C)发送当前参数w的副本。每一作业器s的任务是计算总梯度中对应于它们的N_s个数据点的那部分(在等式(5)方括号内)。代替每一本地作业器仅执行一次梯度更新，本地作业器对它们的本地参数副本执行若干次梯度更新，这允许本地地前进而不依赖于频繁、慢速且可能成本高昂的数据通信。

在一些情形中，基于每一本地作业器根据等式(5)对梯度的重复确定来对来自各个本地作业器的更新进行平均并不能最优地执行。这是因为以下事实：使用自适应学习速率优化算法(诸如Adam(其被设计成用于训练深度神经网络))来加速每一本地碎片上的学习进度是有益的。由于每一本地作业器维护个体Adam动量，因此对所得到的更新简单地进行平均并不能将每个碎片相比于其他碎片而言对(集合K中的)特定专家k的影响正确地纳入考虑。

对这一技术模型优化问题的一个技术解决方案是进一步发展等式(5)。为了便于标记，重点可以是关于仅一个混合分量w_k的梯度，并且“软”计数N_sk可以根据下式来定义：

等式(6)因而允许等式(5)如下进行扩展：

在等式(11)中，本地作业器针对τ个步骤计算并应用方括号内的梯度。在对

的τ个本地更新之后(得到

)，每一本地作业器向全局服务器发送经更新的参数集合

全局服务器接着通过计算“有效梯度”将这些经更新的参数解读为对当前全局服务器参数的改变。例如：

图2描绘了基于以上导出的等式的联合混合算法的示例。

注意，图2中的算法是分布式同步训练算法的示例，并且可存在这一算法的变体。例如，可针对异步训练上下文来改变该算法。

生成更具表现力的先验值

等式(1)的公式可以被进一步扩展以允许更具表现力的先验值p(z_s,i)，通过该值要为数据点(y_s,i,x_s,i)选择专家k。此处，下标s和i分别枚举碎片和一个碎片内的数据点，如参考等式(1)所描述的。直观地，应当从全部K个专家中选择最适于执行针对特定机器学习模型的分类(或回归)任务的专家k。在一个实施例中，关于应当对专家k的预测设置多少权重的决策可以通过查看输入x_s,i来作出，而非例如将均等的概率指派给集合K中的每一专家k。

为了确定基于数据点x的p(z＝j|x)，映射需要被参数化以及被学习。在一个实施例中，这可以通过例如根据下式将p(z＝k|x)解读为(无监督)聚类问题的责任来达成：

因而，每一聚类由φ_k参数化，其中在聚类k与专家k之间存在一对一的对应关系，其中k′表示总和的索引。作为同一算法公式的一部分，参数φ_k与wk连带地优化。按照与针对算法1中的wk所描述的相同方式，参数φ_k通过使用本地数据执行本地更新来训练并且被周期性地发送到(例如与之同步)全局服务器(例如，图1中的全局模型协调器108)。

在边缘设备上处理联合混合模型数据的示例方法

图3描绘了在边缘设备(诸如举例来说图1中的移动设备102A-C)上处理联合混合模型数据的示例方法300。

方法300开始于步骤302，在边缘处理设备s处接收针对多个机器学习模型K中的每一机器学习模型k的全局参数集合

方法300继续至步骤304，针对多个机器学习模型K中的每一相应机器学习模型k：在边缘处理设备处根据全局参数集合

用相应的机器学习模型k来处理本地地存储在边缘处理设备上的数据以生成机器学习模型输出y_s,k。.

方法300继续至步骤306，针对多个机器学习模型K中的每一相应机器学习模型k：在边缘处理设备处接收关于机器学习模型输出y_s,k的用户反馈。

方法300接着继续至步骤308，针对多个机器学习模型K中的每一相应机器学习模型k：在边缘处理设备处基于机器学习输出y_s,k以及与机器学习模型输出y_s,k相关联的用户反馈来执行对相应机器学习模型k的优化以生成经本地更新的机器学习模型参数

注意，在一些实施例中，除了模型k的y_s,k，优化还取决于所有其他模型k^*的所有其他模型输出

方法300继续至步骤310，针对多个机器学习模型K中的每一相应机器学习模型k：将经本地更新的机器学习模型参数

发送到远程处理设备。

方法300继续至步骤312，从远程处理设备接收针对多个机器学习模型K中的每一机器学习模型k的经全局更新的机器学习模型参数集合

在方法300的一些实施例中，针对每一相应机器学习模型k的经全局更新的机器学习模型参数

至少部分地基于经本地更新的机器学习模型参数

方法300的一些实施例进一步包括：在将经本地更新的机器学习模型参数

发送到远程处理设备之前，在边缘处理设备处执行数次优化τ。

在方法300的一些实施例中，针对多个机器学习模型K中的每一相应机器学习模型k的经全局更新的机器学习模型参数集合

至少部分地基于第二边缘处理设备的经本地更新的机器学习模型参数。

在方法300的一些实施例中，用户反馈包括对机器学习模型输出的正确性的指示。

在方法300的一些实施例中，本地地存储在边缘处理设备上的数据是以下各项中的一者：图像数据、音频数据、或视频数据。

在方法300的一些实施例中，边缘处理设备是智能电话或物联网设备中的一者。

在服务器设备上处理联合混合模型数据的示例方法

图4描绘了一种在集中式设备(诸如服务器设备(例如图1中的全局模型协调器108))上处理联合混合模型数据的示例方法400。

方法400开始于步骤402，从服务器向相应的远程处理设备s发送针对相应的机器学习模型k的初始模型参数集合

方法400接着继续至步骤404，在服务器处从相应的远程处理设备s接收针对相应机器学习模型k的经更新的模型参数集合

方法400接着继续至步骤406，在服务器处基于从多个远程处理设备S中的每一远程处理设备s接收的经更新的模型参数集合

来执行对相应机器学习模型k的优化以生成经更新的全局模型参数集合

注意，在一些实施例中，步骤402-406可以针对多个模型K中的每一相应模型k以及针对多个远程处理设备S中的每一相应远程处理设备s迭代地执行。

方法400接着可继续至步骤408，从服务器向多个远程处理设备S中的每一远程处理设备s发送针对多个模型K中的每一机器学习模型k的经更新的全局模型参数集合

在方法400的一些实施例中，在服务器处执行对相应机器学习模型k的优化包括根据下式来计算有效梯度：

方法400的一些实施例进一步包括：针对多个模型K中的每一相应模型k：确定通过由针对相应模型k的加权参数φ_k而参数化的对应密度估计器p(x|φ_k)。加权参数φ_k可被用于基于模型输入将k个模型(或子模型)组合成单个模型输出。以此方式，多个模型(例如，K个模型)可经由加权参数φ_k被训练和“混合”。

方法400的一些实施例进一步包括：根据下式来确定相应模型k的先验混合权重：

在方法400的一些实施例中，远程处理设备是智能电话。

在方法400的一些实施例中，远程处理设备是物联网设备。

在方法400的一些实施例中，多个模型K中的每一相应模型k是神经网络模型。在方法400的一些实施例中，其中多个模型K中的每一相应模型k包括相同的网络结构。在方法400的一些实施例中，多个模型K中的一者或多者包括与该多个模型K中的其他模型不同的网络结构。

示例处理系统

图5解说了示例电子设备500。电子设备500可被配置成执行本文所描述的方法，包括参照图3和4所描述的方法。

电子设备500包括中央处理单元(CPU)502，其在一些实施例中可以是多核CPU。在CPU 502处执行的指令可例如从与CPU 502相关联的程序存储器加载或可从存储器块524加载。

电子设备500还包括为特定功能定制的附加处理块，诸如图形处理单元(GPU)504、数字信号处理器(DSP)506、神经处理单元(NPU)508、多媒体处理块510、多媒体处理单元510、以及无线连通性块512。

NPU(诸如508)一般是被配置成用于实现用于执行机器学习算法(诸如用于处理人工神经网络(ANN)、深度神经网络(DNN)、随机森林(RF)等的算法)的所有必要的控制和算术逻辑的专用电路。NPU有时可被替换地称为张量处理单元(TPU)、神经网络处理器(NNP)、智能处理单元(IPU)、视觉处理单元(VPU)或图形处理单元。

NPU(诸如508)可被配置成加速常见机器学习任务(诸如图像分类、机器翻译、对象检测以及各种其他预测模型)的执行。在一些实施例中，多个NPU可被实例化在单个芯片(诸如片上系统(SoC))上，而在其他实施例中，多个NPU可以是专用神经网络加速器的一部分。

NPU可被优化以用于训练或推断，或者在一些情形中可被配置成平衡训练与推断之间的性能。对于能够执行训练和推断两者的NPU，这两个任务可能通常仍然是独立执行的。

被设计成加速训练的NPU一般可被配置成加速对新模型的优化，这是涉及输入现有数据集(常常是被标记的或含标签的)、在数据集上进行迭代、以及接着调节模型参数(诸如权重和偏置)以便改进模型性能的高度计算密集的操作。一般而言，基于错误预测进行优化涉及往回传递通过模型的各个层并确定梯度以减少预测误差。

被设计成加速推断的NPU一般被配置成在完整模型上操作。此类NPU因而可被配置成输入新的数据片段以及通过已经训练好的模型来快速处理该数据片段以生成模型输出(例如推断)。

在一种实现中，NPU 508是CPU 502、GPU 504和/或DSP 506中的一者或多者的一部分。

在一些实施例中，无线连通性块512可包括例如用于第三代(3G)连通性、第四代(4G)连通性(例如，4G LTE)、第五代连通性(例如，5G或NR)、Wi-Fi连通性、蓝牙连通性、以及无线数据传输标准的组件。无线连通性处理块512进一步连接到一个或多个天线514。

电子设备500还可包括与任何方式的传感器相关联的一个或多个传感器处理器516、与任何方式的图像传感器相关联的一个或多个图像信号处理器(ISP)518、和/或可包括基于卫星的定位系统组件(例如，GPS或GLONASS)以及惯性定位系统组件的导航处理器520。

电子设备500还可包括一个或多个输入和/或输出设备522，诸如屏幕、触敏表面(包括触敏显示器)、物理按钮、扬声器、话筒等等。

在一些实施例中，电子设备500的一个或多个处理器可基于ARM或RISC-V指令集。

电子设备500还包括存储器524，该存储器524代表一个或多个静态和/或动态存储器，诸如动态随机存取存储器、基于闪存的静态存储器等等。在该示例中，存储器524包括计算机可执行组件，其可由电子设备500的前述处理器中的一个或多个处理器执行。具体地，在该实施例中，存储器524包括发送组件524A、接收组件524B、处理组件524C、确定组件524D、输出组件524E、训练组件524F、推断组件524G以及优化组件524H。所描绘的组件以及未描绘的其他组件可被配置成执行本文所描述的方法的各方面。

一般而言，电子设备500和/或其组件可被配置成执行本文所描述的方法。

值得注意的是，在其他实施例中，电子设备500的各方面可被略去，诸如在电子设备500是服务器计算机或类似物的情况下。例如，在其他实施例中，多媒体组件510、无线连通性512、传感器516、ISP 518和/或导航组件520可被略去。此外，电子设备500的各方面可以是分布式的，诸如在基于云的处理环境中。

图6描绘了可以使用本文所描述的实施例来实现的示例多处理器处理系统600。例如，多处理系统600可以代表图5的电子设备500的各个处理器。

在该示例中，系统600包括处理器601、603和605，但在其他示例中，可以使用任何数目的个体处理器。此外，尽管被类似地描绘，但处理器601、603和605可以代表电子设备中的各种不同种类的处理器，诸如如本文所描述的CPU、GPU、DSP、NPU等。

处理器601、603和605中的每一者包括指令调度器、各种硬件子组件(例如，硬件X、硬件Y和硬件Z)和本地存储器。在一些实施例中，本地存储器可以是紧密耦合存储器(TCM)。注意，尽管在该示例中处理器601、603和605中的每一者的组件被示为是相同的，但在其他示例中，处理器601、603和605中的一些或每一者可具有不同的硬件配置、不同的硬件元件等。

处理器601、603和605中的每一者还与全局存储器(诸如DDR存储器、或其他类型的易失性工作存储器)处于数据通信。例如，全局存储器607可以代表图5的存储器524。

在一些实现中，在多处理器处理系统(诸如600)中，处理器之一可以充当主处理器。例如，在该示例中，处理器601可以是主处理器。主处理器可以包括编译器，编译器在被执行时可以确定模型(诸如神经网络)将如何被处理系统600的各种组件处理。例如，硬件并行性可以通过将模型的各处理部分映射到给定处理器(例如，处理器601)内的各种硬件(例如，硬件X、硬件Y和硬件Z)、以及将模型的各处理部分映射到其他处理器(例如，处理器603和605)及其相关联的硬件来实现。例如，本文所描述的并行框处理架构中的各并行框可被映射到处理器601、603和605中的各个硬件的不同各部分。

示例条款

条款1：一种处理数据的方法，包括：在处理设备处接收针对多个机器学习模型中的每一机器学习模型的全局参数集合；针对所述多个机器学习模型中的每一相应机器学习模型：在所述处理设备处根据所述全局参数集合用相应的机器学习模型来处理本地地存储在所述处理设备上的数据以生成机器学习模型输出；在所述处理设备处接收关于所述机器学习模型输出的用户反馈；在所述处理设备处基于所述机器学习模型输出以及与所述机器学习模型输出相关联的所述用户反馈来执行对所述相应机器学习模型的优化以生成经本地更新的机器学习模型参数；以及将所述经本地更新的机器学习模型参数发送到远程处理设备；以及从所述远程处理设备接收针对所述多个机器学习模型中的每一机器学习模型的经全局更新的机器学习模型参数集合，其中针对每一相应机器学习模型的经全局更新的机器学习模型参数集合至少部分地基于所述经本地更新的机器学习模型参数。

条款2：如条款1所述的方法，进一步包括：在将所述经本地更新的机器学习模型参数发送到所述远程处理设备之前，在所述处理设备处执行数次优化。

条款3：如条款1-2中任一项所述的方法，其中针对所述多个机器学习模型中的每一相应机器学习模型的所述经全局更新的机器学习模型参数集合至少部分地基于第二处理设备的经本地更新的机器学习模型参数。

条款4：如条款1-3中任一项所述的方法，其中所述用户反馈包括对所述机器学习模型输出的正确性的指示。

条款5：如条款1-4中任一项所述的方法，其中本地地存储在所述处理设备上的所述数据是以下各项中的一者：图像数据、音频数据、或视频数据。

条款6：如条款1-5中任一项所述的方法，其中所述处理设备是智能电话或物联网设备中的一者。

条款7：如条款1-6中任一项所述的方法，其中在所述处理设备处用所述机器学习模型来处理本地地存储在所述处理设备上的数据至少部分地由一个或多个神经处理单元来执行。

条款8：如条款1-7中任一项所述的方法，其中在所述处理设备处执行对所述机器学习模型的优化至少部分地由一个或多个神经处理单元来执行。

条款9：一种处理数据的方法，包括：针对多个机器学习模型中的每一相应机器学习模型：针对多个远程处理设备中的每一相应远程处理设备：从服务器向所述相应远程处理设备发送针对所述相应机器学习模型的初始全局模型参数集合；以及在所述服务器处从所述相应远程处理设备接收针对所述相应机器学习模型的经更新的模型参数集合；以及在所述服务器处基于从所述多个远程处理设备中的每一远程处理设备接收的所述经更新的模型参数集合来执行对所述相应机器学习模型的优化以生成经更新的全局模型参数集合；以及从所述服务器向所述多个远程处理设备中的每一远程处理设备发送针对所述多个机器学习模型中的每一机器学习模型的所述经更新的全局模型参数集合。

条款10：如条款9所述的方法，其中在所述服务器处执行对所述相应机器学习模型的优化包括计算所述相应机器学习模型的所述初始全局模型参数集合中的每一模型参数的有效梯度。

条款11：如条款9-10中任一项所述的方法，进一步包括：针对所述多个机器学习模型中的每一相应机器学习模型，确定由所述相应机器学习模型的加权参数而参数化的对应密度估计器。

条款12：如条款11所述的方法，进一步包括：确定所述相应机器学习模型的先验混合权重。

条款13：如条款9-12中任一项所述的方法，其中所述多个远程处理设备包括智能电话。

条款14：如条款9-13中任一项所述的方法，其中所述多个远程处理设备包括物联网设备。

条款15：如条款9-14中任一项所述的方法，其中所述多个机器学习模型中的每一相应机器学习模型是神经网络模型。

条款16：如条款15所述的方法，其中所述多个机器学习模型中的每一相应机器学习模型包括相同的网络结构。

条款17：一种处理系统，包括：包括计算机可执行指令的存储器；一个或多个处理器，所述一个或多个处理器被配置成执行所述计算机可执行指令并使所述处理系统执行根据条款1-16中任一项所述的方法。

条款18：一种处理系统，包括用于执行根据条款1-16中任一项所述的方法的装置。

条款19：一种包括计算机可执行指令的非瞬态计算机可读介质，所述计算机可执行指令在由处理系统的一个或多个处理器执行时使该处理系统执行根据条款1-16中任一项所述的方法。

条款20：一种实现在计算机可读存储介质上的计算机程序产品，所述计算机可读存储介质包括用于执行根据条款1-16中任一项所述的方法的代码。

附加考虑

提供先前描述是为了使本领域任何技术人员均能够实践本文中所描述的各个实施例。本文所讨论的示例并非是对权利要求中阐述的范围、适用性或者实施例的限定。对这些实施例的各种修改将容易为本领域技术人员所明白，并且在本文中所定义的普适原理可被应用于其他实施例。例如，可以对所讨论的要素的功能和布置作出改变而不会脱离本公开的范围。各种示例可恰适地省略、替代、或添加各种规程或组件。例如，可以按与所描述的次序不同的次序来执行所描述的方法，并且可以添加、省略、或组合各种步骤。而且，参照一些示例所描述的特征可在一些其他示例中被组合。例如，可使用本文中所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为本文中所阐述的本公开的各个方面的补充或者不同于本文中所阐述的本公开的各个方面的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，本文中所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

如本文中所使用的，术语“示例性”意指“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

如本文中所使用的，引述一列项目“中的至少一者”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：a、b、c、a-b、a-c、b-c、和a-b-c，以及具有多重相同元素的任何组合(例如，a-a、a-a-a、a-a-b、a-a-c、a-b-b、a-c-c、b-b、b-b-b、b-b-c、c-c、和c-c-c，或者a、b和c的任何其他排序)。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明及诸如此类。而且，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)及诸如此类。而且，“确定”可包括解析、选择、选取、建立及诸如此类。

本文中所公开的各方法包括用于实现方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。此外，上述方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般地，在存在附图中解说的操作的场合，这些操作可具有带相似编号的相应配对装置加功能组件。

以下权利要求并非旨在被限定于本文中示出的实施例，而是应被授予与权利要求的语言相一致的全部范围。在权利要求内，对单数元素的引用不旨在意指“有且只有一个”(除非专门如此声明)，而是“一个或多个”。除非特别另外声明，否则术语“一些/某个”指的是一个或多个。权利要求的任何要素都不应当在35 U.S.C.§112(f)的规定下来解释，除非该要素是使用短语“用于……的装置”来明确叙述的或者在方法权利要求情形中该要素是使用短语“用于……的步骤”来叙述的。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。此外，本文所公开的任何内容都不旨在捐献于公众，无论此类公开内容是否明确记载在权利要求书中。

Claims

1.一种处理数据的方法，包括：

在处理设备处接收针对多个机器学习模型中的每一机器学习模型的全局参数集合；

针对所述多个机器学习模型中的每一相应机器学习模型：

在所述处理设备处根据所述全局参数集合用相应的机器学习模型来处理本地地存储在所述处理设备上的数据以生成机器学习模型输出；

在所述处理设备处接收关于所述机器学习模型输出的用户反馈；

在所述处理设备处基于所述机器学习模型输出以及与所述机器学习模型输出相关联的所述用户反馈来执行对所述相应机器学习模型的优化以生成经本地更新的机器学习模型参数；以及

将所述经本地更新的机器学习模型参数发送到远程处理设备；以及

从所述远程处理设备接收针对所述多个机器学习模型中的每一机器学习模型的经全局更新的机器学习模型参数集合，

其中针对每一相应机器学习模型的经全局更新的机器学习模型参数集合至少部分地基于所述经本地更新的机器学习模型参数。

2.如权利要求1所述的方法，进一步包括：在将所述经本地更新的机器学习模型参数发送到所述远程处理设备之前，在所述处理设备处执行数次优化。

3.如权利要求1所述的方法，其中针对所述多个机器学习模型中的每一相应机器学习模型的所述经全局更新的机器学习模型参数集合至少部分地基于第二处理设备的经本地更新的机器学习模型参数。

4.如权利要求1所述的方法，其中所述用户反馈包括对所述机器学习模型输出的正确性的指示。

5.如权利要求1所述的方法，其中本地地存储在所述处理设备上的所述数据是以下各项中的一者：图像数据、音频数据、或视频数据。

6.如权利要求1所述的方法，其中所述处理设备是智能电话或物联网设备中的一者。

7.如权利要求1所述的方法，其中在所述处理设备处用所述机器学习模型来处理本地地存储在所述处理设备上的所述数据至少部分地由一个或多个神经处理单元来执行。

8.如权利要求1所述的方法，其中在所述处理设备处执行对所述机器学习模型的优化至少部分地由一个或多个神经处理单元来执行。

9.一种处理设备，包括：

包括计算机可执行指令的存储器；

一个或多个处理器，所述一个或多个处理器被配置成执行所述计算机可执行指令并使所述处理设备执行以下操作：

接收针对多个机器学习模型中的每一机器学习模型的全局参数集合；

针对所述多个机器学习模型中的每一相应机器学习模型：

根据所述全局参数集合用相应的机器学习模型来处理本地地存储在所述处理设备上的数据以生成机器学习模型输出；

接收关于机器学习模型输出的用户反馈；

基于所述机器学习模型输出以及与所述机器学习模型输出相关联的所述用户反馈来执行对所述相应机器学习模型的优化以生成经本地更新的机器学习模型参数；以及

10.如权利要求9所述的处理设备，其中所述一个或多个处理器被进一步配置成使所述处理设备在将所述经本地更新的机器学习模型参数发送到所述远程处理设备之前执行数次优化。

11.如权利要求9所述的处理设备，其中针对所述多个机器学习模型中的每一相应机器学习模型的所述经全局更新的机器学习模型参数集合至少部分地基于第二处理设备的经本地更新的机器学习模型参数。

12.如权利要求9所述的处理设备，其中所述用户反馈包括对所述机器学习模型输出的正确性的指示。

13.如权利要求9所述的处理设备，其中所述处理设备是智能电话或物联网设备中的一者。

14.如权利要求9所述的处理设备，其中所述一个或多个处理器中的一者是被配置成用所述机器学习模型来处理本地地存储在所述处理设备上的所述数据的神经处理单元。

15.如权利要求9所述的处理设备，其中所述一个或多个处理器中的一者是被配置成执行对所述机器学习模型的优化的神经处理单元。

16.一种处理数据的方法，包括：

针对多个机器学习模型中的每一相应机器学习模型：

针对多个远程处理设备中的每一相应远程处理设备：

从服务器向所述相应远程处理设备发送针对所述相应机器学习模型的初始全局模型参数集合；以及

在所述服务器处从所述相应远程处理设备接收针对所述相应机器学习模型的经更新的模型参数集合；以及

在所述服务器处基于从所述多个远程处理设备中的每一远程处理设备接收的所述经更新的模型参数集合来执行对所述相应机器学习模型的优化以生成经更新的全局模型参数集合；以及

从所述服务器向所述多个远程处理设备中的每一远程处理设备发送针对所述多个机器学习模型中的每一机器学习模型的所述经更新的全局模型参数集合。

17.如权利要求16所述的方法，其中在所述服务器处执行对所述相应机器学习模型的优化包括计算所述相应机器学习模型的所述初始全局模型参数集合中的每一模型参数的有效梯度。

18.如权利要求16所述的方法，进一步包括：针对所述多个机器学习模型中的每一相应机器学习模型，确定由所述相应机器学习模型的加权参数而参数化的对应密度估计器。

19.如权利要求18所述的方法，进一步包括：确定所述相应机器学习模型的先验混合权重。

20.如权利要求16所述的方法，其中所述多个远程处理设备包括智能电话。

21.如权利要求16所述的方法，其中所述多个远程处理设备包括物联网设备。

22.如权利要求16所述的方法，其中所述多个机器学习模型中的每一相应机器学习模型是神经网络模型。

23.如权利要求22所述的方法，其中所述多个机器学习模型中的每一相应机器学习模型包括相同的网络结构。

24.一种处理设备，包括：

包括计算机可执行指令的存储器；

针对多个机器学习模型中的每一相应机器学习模型：

针对多个远程处理设备中的每一相应远程处理设备：

向所述相应远程处理设备发送针对所述相应机器学习模型的初始全局模型参数集合；以及

从所述相应远程处理设备接收针对所述相应机器学习模型的经更新的模型参数集合；以及

基于从所述多个远程处理设备中的每一远程处理设备接收的所述经更新的模型参数集合来执行对所述相应机器学习模型的优化以生成经更新的全局模型参数集合；以及

向所述多个远程处理设备中的每一远程处理设备发送针对所述多个机器学习模型中的每一机器学习模型的所述经更新的全局模型参数集合。

25.如权利要求24所述的处理设备，其中为了执行对所述相应机器学习模型的优化，所述一个或多个处理器被进一步配置成使所述处理设备计算所述相应机器学习模型的所述初始全局模型参数集合中的每一模型参数的有效梯度。

26.如权利要求24所述的处理设备，其中所述一个或多个处理器被进一步配置成使所述处理设备：针对所述多个机器学习模型中的每一相应机器学习模型，确定由所述相应机器学习模型的加权参数而参数化的对应密度估计器。

27.如权利要求26所述的处理设备，其中所述一个或多个处理器被进一步配置成使所述处理设备：针对所述多个机器学习模型中的每一相应机器学习模型，确定所述相应机器学习模型的先验混合权重。

28.如权利要求24所述的处理设备，其中所述多个远程处理设备包括智能电话。

29.如权利要求24所述的处理设备，其中所述多个机器学习模型中的每一相应机器学习模型是神经网络模型。

30.如权利要求29所述的处理设备，其中所述多个机器学习模型中的每一相应机器学习模型包括相同的网络结构。