CN116384504A

CN116384504A - 联邦迁移学习系统

Info

Publication number: CN116384504A
Application number: CN202310163408.XA
Authority: CN
Inventors: 徐思雅; 张彪; 邵苏杰; 郭少勇; 邹杰; 王嘉欣
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-07-04

Abstract

本发明提供一种联邦迁移学习系统。包括：云服务器、边缘组件和用户组件，边缘组件包括多个边缘服务器，用户组件包括多个用户终端；云服务器用于基于各边缘服务器发出的特征信息将多个边缘服务器划分为多个边缘协作域，并确定域首服务器和域成员服务器；边缘服务器用于选择目标用户终端并发送全局模型的参数及训练信息，还用于获取训练参数并进行边缘聚合以获得边缘模型；域首服务器用于将同一个边缘协作域中的所有边缘模型进行全局聚合以获得域模型，域首服务器还用于当域模型的准确度达到预设阈值时，将域模型发送至云服务器；目标用户终端用于训练本地模型，以获得训练参数。该系统能够满足用户个性化需求，改善模型的收敛性。

Description

联邦迁移学习系统

技术领域

本发明涉及机器学习技术领域，尤其涉及一种联邦迁移学习系统。

背景技术

随着物联网的快速发展，海量的图像数据产生在各种具有感知能力的智能设备上(比如智能手机，智能汽车和安防设备等)。借助人工智能技术，我们可以利用这些图像数据训练机器学习模型，并将其应用于智慧城市、智慧医疗等场景。传统的集中式机器学习模式，采取“先训练后部署”的方式，将用户终端采集的图像数据集中到云中心后，再由云中心的服务器训练一个通用的机器学习模型。然而这种集中式的模型训练模式会受到通信、计算和存储资源条件的限制，无法满足实时推理对于时延的要求。边缘计算技术的出现，使得用户终端可以将复杂的计算任务卸载到邻近的边缘服务器上，由边缘服务器来完成模型的训练，从而有效降低数据处理和传输的时延。不过，用户仍然需要通过公共的无线网络将自己的个人数据上传给附近的边缘服务器，这个过程中存在着用户个人隐私泄露的风险。并且，传输图像、视频等体积较大的数据还会给用户终端和边缘服务器带来极大的通信流量压力，这两个缺陷严重降低了在物联网中实现大规模分布式机器学习业务的可行性。

联邦学习是一种让多个用户终端协作训练一个机器学习模型，而用户的个人数据不用离开本地的分布式机器学习模式，可以有效降低用户隐私泄露的风险。在横向联邦学习架构中，聚合器(比如参数服务器)将初始的全局模型分发给所有参与联邦学习任务的用户终端，用户终端利用自身的计算资源和本地数据进行模型训练，并将更新后的模型参数上传给聚合器，最后聚合器计算所有终端提交的模型参数的平均值得到下一轮的全局模型，经过多轮的迭代，最终得到训练完成的全局模型。但是，将横向联邦学习应用于物联网场景时，由于用户终端所处的地理位置和其对应的用户行为偏好的不同，用户对应的图像数据是非独立同分布的(non-IID)，非独立同分布的数据会极大降低全局模型的收敛性，并且由于全局数据分布与用户终端数据分布的不一致，一个通用的全局模型也很难满足不同用户的个性化需求，导致联邦学习最终训练得到的全局模型在用户的本地数据上表现不佳。

发明内容

本发明提供一种联邦迁移学习系统，用以解决现有技术中用户图像数据非独立同分布引起的全局模型收敛性降低及一个全局模型难以满足用户个性化需求的问题，实现一种基于边缘服务器中公共图像数据的相似性将数据相似的区域构建为一个边缘协作域，通过分别训练各边缘协作域的域模型来满足用户的个性化需求，并且通过先聚合边缘模型，由边缘模型聚合得到域模型，使得域模型的收敛性得到了一定程度的改善。

本发明提供一种联邦迁移学习系统，包括：云服务器、边缘组件和用户组件，所述边缘组件包括多个边缘服务器，所述用户组件包括多个用户终端；

所述云服务器用于基于各所述边缘服务器发出的特征信息将多个所述边缘服务器划分为多个边缘协作域，并在各所述边缘协作域中的多个边缘服务器中确定域首服务器和域成员服务器；

所述边缘服务器用于基于用户终端的加入请求选择目标用户终端并将全局模型的参数及训练信息发送至选择的目标用户终端，还用于获取对应的所述目标用户终端发送的训练参数并进行边缘聚合以获得边缘模型；

所述域首服务器用于将同一个边缘协作域中的所有所述边缘模型进行全局聚合以获得域模型，所述域首服务器还用于当所述域模型的准确度达到预设阈值时，将所述域模型发送至所述云服务器；

所述目标用户终端用于根据对应的所述边缘服务器发送的所述全局模型的参数和所述训练信息，并基于本地数据样本训练本地模型，以获得所述训练参数。

根据本发明提供的一种联邦迁移学习系统，所述云服务器还用于基于各所述边缘服务器上的公共图像数据进行预训练以获得初始的所述全局模型，并将初始的所述全局模型发送至各所述边缘服务器。

根据本发明提供的一种联邦迁移学习系统，各所述边缘服务器还用于基于初始的所述全局模型生成初始的所述特征信息并将初始的所述特征信息发送至所述云服务器。

根据本发明提供的一种联邦迁移学习系统，所述边缘服务器具体用于：

将所述全局模型的参数及所述训练信息发送至对应的所述目标用户终端；

获取对应的所述目标用户终端发送的所述训练参数；

边缘聚合各所述目标用户终端的所述训练参数以获得初始边缘模型；

将所述初始边缘模型作为新一轮的所述全局模型，并将其参数发送至重新选择的所述目标用户终端；

重复执行上述步骤预设轮数后，获得所述边缘模型。

根据本发明提供的一种联邦迁移学习系统，所述边缘服务器用于边缘聚合各所述目标用户终端的所述训练参数以获得初始边缘模型时，具体包括：

将所有所述训练参数按照层号进行对齐；

基于各所述训练参数的新旧程度，对各所述训练参数进行边缘聚合以获得所述初始边缘模型。

根据本发明提供的一种联邦迁移学习系统，所述域首服务器还用于：

当所述域模型的准确度未达到预设阈值时，将所述域模型作为新一轮的所述全局模型发送至同一个边缘协作域中的所述域成员服务器。

根据本发明提供的一种联邦迁移学习系统，所述域首服务器和所述域成员服务器在获得预设轮次的所述域模型后，分别还用于：

基于预设轮次的所述域模型，生成新一轮的所述特征信息并发送至所述云服务器。

根据本发明提供的一种联邦迁移学习系统，所述域首服务器和所述域成员服务器在获得预设轮次的所述域模型后，分别具体用于：

从所属的公共图像数据中随机采样获得预设数量的数据样本；

以预设轮次的所述域模型作为特征提取器压缩所述数据样本的特征空间；

利用感知哈希算法计算压缩后所述数据样本的指纹向量；

将所述数据样本的指纹向量进行堆叠得到所述特征信息。

根据本发明提供的一种联邦迁移学习系统，所述云服务器具体用于：

基于各所述边缘服务器的发出的特征信息，计算任意两个所述边缘服务器的相似度；

根据任意两个所述边缘服务器的相似度，构建相似度图；

根据所述相似度图，基于谱聚类算法将多个所述边缘服务器划分为多个边缘协作域；

根据各所述边缘协作域中各所述边缘服务器的资源情况，确定所述域首服务器和所述域成员服务器。

根据本发明提供的一种联邦迁移学习系统，所述目标用户终端具体用于：

根据对应的所述边缘服务器发送的所述全局模型的参数和所述训练信息确定本地模型中的迁移层和训练层；

将所述全局模型中所述迁移层对应模型层的参数迁移到所述本地模型的迁移层；

训练所述本地模型中训练层的参数以获得训练参数。

本发明提供的联邦迁移学习系统，通过云服务器将公共图像数据特征相似的边缘服务器划分为同一个边缘协作域，由于边缘服务器中的公共图像数据能够一定程度上反映边缘服务器所在区域的目标用户终端的图像数据特征，因此通过边缘协作域中的目标用户终端的本地模型来进一步获得域模型，多个边缘协作域的多个域模型可以满足多种用户的个性化需求；进一步的，通过边缘协作域中的目标用户终端的本地模型来进一步获得域模型时，先进行边缘聚合获得边缘模型，再通过聚合同一边缘协作域中的边缘模型来获得域模型，基于上述分层聚合机制，使得得到的域模型的收敛性得到了一定程度的改善。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的联邦迁移学习系统的结构示意图；

图2是本发明提供的边缘服务器与用户终端间通信过程示意图；

图3是本发明提供的联邦迁移学习系统的工作流程示意图；

图4是本发明提供的边缘服务器进行边缘聚合的示意图；

图5是本发明提供的边缘协作域构建方法的流程示意图；

图6是本发明提供的实验结果示意图之一；

图7是本发明提供的实验结果示意图之二；

图8是本发明提供的实验结果示意图之三；

图9是本发明提供的实验结果示意图之四；

图10是本发明提供的实验结果示意图之五；

图11是本发明提供的实验结果示意图之六。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图11描述本发明提供一种联邦迁移学习系统，该系统包括：云服务器、边缘组件和用户组件，所述边缘组件包括多个边缘服务器，所述用户组件包括多个用户终端；所述云服务器用于基于各所述边缘服务器发出的特征信息将多个所述边缘服务器划分为多个边缘协作域，并在各所述边缘协作域中的多个边缘服务器中确定域首服务器和域成员服务器；所述边缘服务器用于基于用户终端的加入请求选择目标用户终端并将全局模型的参数及训练信息发送至选择的目标用户终端，还用于获取对应的所述目标用户终端发送的训练参数并进行边缘聚合以获得边缘模型；所述域首服务器用于将同一个边缘协作域中的所有所述边缘模型进行全局聚合以获得域模型，所述域首服务器还用于当所述域模型的准确度达到预设阈值时，将所述域模型发送至所述云服务器；所述目标用户终端用于根据对应的所述边缘服务器发送的所述全局模型的参数和所述训练信息，并基于本地数据样本训练本地模型，以获得所述训练参数。

具体的，参考图1中所示，该联邦学习系统由云服务器、边缘组件和用户组件构成，边缘组件包括M个边缘服务器，用户组件包括N个用户终端，用S＝{s₁,…s_M}表示M个边缘服务器组成的边缘组件，用v＝{V₁,…v_N}表示N个用户终端组成的用户组件。云服务器获取边缘服务器发出的特征信息，该特征信息为各边缘服务器基于自身的公共图像数据获得的。云服务器根据各特征信息可以将多个边缘服务器划分为多个边缘协作域，每个边缘协作域中的边缘服务器的公共图像数据具有一定的相似性，其中，公共图像数据为边缘服务器所在区域的公共设施采集的图像数据，如公共摄像头采集的图像数据等。

边缘协作域集合可以表示为ED＝{ED₁,…ED_k}，元素ED_k表示边缘协作域，集合

表示归属于边缘服务器s_j∈S的目标用户终端集合，即/>

表示用户终端v_i为被边缘服务器s_j选中参与联邦学习任务的目标用户终端。在每个边缘协作域中，云服务器会根据其中各边缘服务器的资源容量选择资源容量最大的边缘服务器作为域首服务器，其余的作为域成员服务器，其中，边缘服务器的资源可以包括计算资源和内存资源。

为了提高整个联邦迁移学习系统的效率，边缘服务器会对每个申请参与学习的用户终端进行选择，只有被选中的目标用户终端才会与边缘服务器建立连接，才有资格参加联邦学习任务，这样可以避免由超时事件导致的资源浪费。不过，太过严苛的选择条件会导致有资格参与任务的用户终端数量很少，从而影响到边缘模型的收敛速度，所以，可以采用最小本地迭代轮数和最大批量来估计用户终端的时延，如果该时延小于边缘服务器通信窗口的剩余时间就将该用户终端作为目标用户终端选中。

在一个通信轮次中，用户终端的时延主要包括通信时延和计算时延两部分，在计算量较大的深度学习任务中，计算时延是主要部分。

(1)通信时延：主要包括用户终端下载全局模型的参数和上传训练参数的时延。为了时延计算的统一性，此处仅仅考虑模型参数作为传输的内容，而不考虑模型结构所带来的通信开销。同时，我们假设终端的下载和上传时的带宽是相同的。用户终端v_i的数据传输速率δ_i可以根据香农公式计算如下：

其中，B_i是用户终端v_i的可用带宽，ρ_i是传输功率，ψ_i是用户终端v_i和边缘服务器之间建立传输信道的增益，N₀是高斯噪声功率。

于是，用户终端v_i的通信时延为：

其中，λ_i为迁移向量，表示迁移的是模型的哪些层，w_G为全局模型，w_i为本地模型，全局模型的参数和本地模型的参数在数据大小上是一致的，因此|w_G|＝|w_i|。

(2)计算时延：用户终端的计算量主要来自本地模型的训练。在深度学习任务中，本地模型的训练由前向传播和反向传播两部分构成。其中，反向传播过程会计算所有模型参数的梯度，并通过随机梯度下降算法(SGD)更新模型的参数。所以，用户终端v_i的计算时延为：

其中，C_i是用户终端v_i单位时间内可执行的浮点操作数，用于表示该用户终端的计算能力，e_i是用户终端v_i训练本地模型的迭代轮数，而b_i是该迭代轮数训练的批量大小，|D_i|表示用户终端v_i的训练数据集中的样本个数，Φ为训练单个本地数据样本时前向传播所需的浮点计算量，Φ′为训练单个本地数据样本时反向传播执行随机梯度下降算法(SGD)所需的浮点计算量。

可以理解的是，被选中的目标用户终端可以在通信窗口期内的任何时刻提交本地模型梯度更新，提交完成后也无需等待对应边缘服务器对应的其他目标用户终端提交完成，所以不存在等待时延。于是，在一个通信轮次中，用户终端v_i的总时延表示为：

图2描述了边缘服务器和用户终端之间的一个通信轮次。用户终端与边缘服务器建立连接的过程为：首先，用户终端向边缘服务器发起参与训练任务的请求信息Q_i＝<B_i,C_i,|D_i|>。然后，边缘服务器根据公式(4)估计用户终端的时延

其中迁移向量λ_i设置为单位α＝<1,...1>(即不进行参数迁移)，迭代轮数设置为最小值e_min，批量大小设置为最大值b_max。如果时延/>

不超过本轮边缘服务器通信窗口的剩余时间T^free，则将用户终端v_i加入被选中的目标用户终端集合/>

并将T^free作为边缘服务器与用户终端之间所建立连接的超时时间/>

被选中后，边缘服务器给目标用户终端发送一个允许参与任务的响应消息，该响应消息中包含全局模型的参数、连接超时时间/>

训练单个本地数据样本时前向传播所需的浮点计算量Φ和训练单个本地数据样本时反向传播执行随机梯度下降算法(SGD)所需的浮点计算量Φ′，被选中的用户终端基于响应消息基于本地用户图像数据进行本地训练获得本地模型。当未被选中时，边缘服务器给未选中的用户终端发送一个不允许参与任务的响应消息，该响应消息中的全局模型的参数和超时时间分别设置为空和0，以拒绝用户终端的本次参与请求。

如图3所示，该联邦迁移学习系统的具体工作为：

边缘组件中的所有边缘服务器将基于自身公共图像数据得到的特征信息发送至云服务器，云服务器基于各特征信息将多个边缘服务器基于相似性划分为多个边缘协作域，且在各边缘协作域中确定域首服务器和域成员服务器并将域首服务器中的网络地址广播给各域成员服务器，使得各域成员服务器与对应的域首服务器建立连接，其中域首服务器与云服务器建立连接，各域成员服务器与对应的域首服务器建立连接后则不需要与云服务器通信。

各边缘服务器根据用户终端的加入请求选择目标用户终端。

域首服务器和域成员服务器将全局模型的参数及训练信息(即上述允许参与任务的响应消息)发送给对应的目标用户终端，目标用户终端利用本地用户图像数据进行本地训练获得本地模型，将本地模型的训练参数通过Wi-Fi或5G蜂窝网络发送给对应的域首服务器或域成员服务器，其中，训练时目标用户终端根据自身的资源情况仅训练本地模型的部分层的参数，其余层的参数可以从全局模型中进行迁移。

域首服务器和域成员服务器分别将获得的对应的目标用户终端的训练参数进行边缘聚合，获得边缘模型，域首服务器聚合协作域内所有的边缘模型，得到域模型。该系统持续进行学习训练，直到获得的域模型的准确度达到预设阈值后将该域模型发送至云服务器，以用于之后的模型部署，或是可以作为其他联邦学习任务的初始的全局模型。其中，持续进行上述学习训练时可以将边缘聚合的边缘模型或全局聚合的域模型作为新一轮的全局模型发送至目标用户终端，以使目标用户终端进行多个通信轮次的训练。进一步的，在联邦迁移学习系统中，边缘服务器区域内的用户终端的通信和计算资源都是有限且时变的，因此在每个边缘聚合轮次中，即每次下发全局模型前，域首服务器和域成员服务器均需要在用户终端中重新选择目标用户终端。

本发明提供的联邦迁移学习系统，通过云服务器将公共图像数据特征相似的边缘服务器划分为同一个边缘协作域，由于边缘服务器中的公共图像数据能够一定程度上反映边缘服务器所在区域的目标用户终端的图像数据特征，因此通过边缘协作域中的目标用户终端的本地模型来进一步获得域模型，多个边缘协作域的多个域模型可以满足多种用户的个性化需求；进一步的，通过边缘协作域中的目标用户终端的本地模型来进一步获得域模型时，先进行边缘聚合获得边缘模型，再通过聚合同一边缘协作域中的边缘模型来获得域模型，基于上述分层聚合机制，使得得到的域模型的收敛性得到了一定程度的改善，提高了学习系统的通信和计算效率。

在一个实施例中，所述云服务器还用于基于各所述边缘服务器上的公共图像数据进行预训练以获得初始的所述全局模型，并将初始的所述全局模型发送至各所述边缘服务器。

具体的，联邦迁移学习任务开始时的初始的全局模型可以是由云服务器获得并发出的，云服务器获取所有边缘服务器的公共图像数据进行预训练，从而获得初始的全局模型，并将该初始的全局模型发送到各边缘服务器。

在一个实时例中，各所述边缘服务器还用于基于初始的所述全局模型生成初始的所述特征信息并将初始的所述特征信息发送至所述云服务器。

具体的，边缘服务器s_j从它的公共图像数据集合

中随机采样N_s个数据样本，并以初始的全局模型作为特征提取器，压缩这些采样数据样本的特征空间。接着，边缘服务器s_j利用感知哈希算法计算每个压缩后样本的N_d维指纹向量/>

并将所有指纹向量/>

堆叠得到特征矩阵H_j：/>

所有边缘服务器将自己的特征矩阵H_j作为初始的特征信息发送给云服务器。对于任意两个边缘服务器s_i和S_j，云服务器根据高斯相似度函数计算它们之间的数据相似度SL_ij:

其中，σ²表示边缘服务器s_i所有指纹向量和边缘服务器s_j所有指纹向量的方差。

基于相似度，云服务器将多个边缘服务器划分为多个边缘协作域。

在一个实施例中，所述边缘服务器具体用于：将所述全局模型的参数及所述训练信息发送至对应的所述目标用户终端；获取对应的所述目标用户终端发送的所述训练参数；边缘聚合各所述目标用户终端的所述训练参数以获得初始边缘模型；将所述初始边缘模型作为新一轮的所述全局模型，并将其参数发送至重新选择的所述目标用户终端；重复执行上述步骤预设轮数后，获得所述边缘模型。

具体的，如图2所示，在域首服务器对边缘模型进行全局聚合前，会进行多轮本地模型的训练，并进行多次边缘聚合。具体为，边缘服务器将全局模型的参数及所述训练信息发送至对应的目标用户终端，目标用户终端进行本地训练后将训练参数发送到边缘服务器，边缘服务器聚合所有对应的目标用户终端的训练参数后获得初始边缘模型，边缘服务器重新选择对应的目标用户终端，将初始边缘模型作为新一轮的全局模型，并将新一轮的全局模型的参数发送至重新选择的目标用户终端。重复执行上述步骤预设轮数后，将第预设轮数边缘聚合得到的初始边缘模型作为边缘模型以供对应的域首服务器进行全局聚合获得域模型。

其中，云服务器在完成边缘协作域的划分后，云服务器将域模型的准确度要求发送给每个边缘协作域的域首服务器。然后，域首服务器确定域聚合周期，并将其作为任务信息告知边缘协作域内的所有域成员服务器，收到任务信息后，每一个域成员服务器需要根据服务区域内终端的资源状况确定通信窗口大小和每个全局聚合轮次中边缘聚合的轮数。

对于每个用户终端

用F(w_i)表示其本地模型w_i在训练数据集/>

下的损失函数：

其中，|D_i|为训练数据集中的样本个数，f(·)为用户指定的与训练数据集的数据类型相关的损失函数，比如均方误差(MSE)，交叉熵损失(CE)等。

边缘服务器S_j将目标用户终端集合

内所有目标用户终端提交的训练参数聚合，得到初始的边缘模型/>

则该初始的边缘模型的损失函数/>

可以为：

其中，

为被边缘服务器S_j选中的目标用户终端集合/>

中所有目标用户终端的训练数据集中的样本的总数。

进一步的，还可以利用每个边缘服务器的平均数据相似度

作为近似系数正则化其边缘模型/>

此时，边缘模型的损失函数/>

可以变形为：

其中，|ED_k|表示边缘协作域ED_k中用户终端的总数。

在一个实施例中，所述边缘服务器用于边缘聚合各所述目标用户终端的所述训练参数以获得初始边缘模型时，具体包括：将所有所述训练参数按照层号进行对齐；基于各所述训练参数的新旧程度，对各所述训练参数进行边缘聚合以获得所述初始边缘模型。

具体的，分层聚合机制由两种不同时间尺度的聚合构成，分别是边缘聚合和全局聚合。前者在目标用户终端和边缘服务器之间训练边缘模型，而后者在域首服务器和域成员服务器之间训练边缘协作域的域模型。

如图4所示，示出了边缘聚合的示例。目标用户终端在完成本地训练后，将更新后的本地模型的训练层的训练参数上传给所属的边缘服务器。然后，边缘服务器将所有选中的目标用户终端上传的训练参数按照层号进行对齐。由于不同目标用户终端的资源状况不同，它们提交的训练参数的更新频率也不同，将不同时期的训练参数直接进行边缘聚合会影响域模型的收敛。所以定义目标用户终端v_i的本地模型更新的陈旧度θ_i，用于表示目标用户终端所提交训练参数的陈旧程度：

其中，t是当前的边缘聚合轮次，T_i是目标用户终端v_i与边缘服务器通信的轮数，而β是陈旧度影响系数。

边缘服务器基于陈旧度对不同目标用户终端提交的训练参数加权并执行边缘聚合得到下一轮边缘聚合的作为新一轮的全局模型的初始边缘模型

对于目标用户终端未上传的本地模型迁移层的参数，边缘服务器在执行聚合时使用当前边缘模型相应层的参数

代替。

在预设轮数边缘聚合后，边缘协作域的所有域成员服务器将各自的边缘模型

发送给边缘协作域内的域首服务器。由于每个边缘服务器下目标用户终端的训练策略是不同的，所以每个边缘模型的训练程度也是不同的，越多的训练层参与到边缘模型的训练，则边缘服务器s_j对域模型的贡献就越大。因此，在这里定义边缘服务器s_j的平均训练量：

其中，

表示边缘服务器s_j在当前全局聚合轮次中边缘聚合轮数，/>

表示目标用户终端集合/>

中终端总数，‖λ_i(t)‖表示迁移向量λ_i(t)的模。

域首服务器基于各边缘服务器的平均训练量执行域聚合，得到域模型w_G(t+1)：

其中，

为边缘协作域ED_k内所有目标用户终端的训练数据集中的样本的总数。

域首服务器将边缘协作域ED_k内所有域成员服务器提交的边缘模型参数进行全局聚合，得到域模型即新一轮的全局模型w_G，w_G的损失函数为：

该系统的联邦学习任务的优化目标为在不发生超时和内存溢出的情况下，确定合适的迁移层即迁移向量λ_i和相应的训练层，从而以最小化域模型的损失函数值为目标，损失函数如下：

限制条件(a)给出了迁移向量中每个元素的取值范围，限制条件(b)要求各目标用户终端v_i在每一个通信轮次中的时延τ(λ_i,e_i,b_i)要小于边缘协作域的通信窗口t_E，而限制条件(c)要求目标用户终端b_i在一个通信轮次中的内存资源r(λ_i,b_i)占用要小于等于其可用内存资源

在一个实施例中，所述域首服务器还用于：当所述域模型的准确度未达到预设阈值时，将所述域模型作为新一轮的所述全局模型发送至同一个边缘协作域中的所述域成员服务器。

具体的，域模型的准确度达到预设阈值，则说明学习任务完成。当域模型的准确度达不到预设阈值则说明学习任务没有完成，需要继续进行学习，此时域首服务器需要将该域模型作为下一个全局聚合轮次的全局模型发送给同一个边缘协作域中的所述域成员服务器。该边缘协作域中的边缘服务器继续选择目标用户终端进行训练。

在一个实施例中，所述域首服务器和所述域成员服务器在获得预设轮次的所述域模型后，分别还用于：基于预设轮次的所述域模型，生成新一轮的所述特征信息并发送至所述云服务器。

具体的，由于初始的全局模型在训练初期的特征提取能力还不高，这就可能导致边缘服务器之间的相似度的初始的计算值与真实值还存在偏差。因此，可以使用经过多轮训练更新后的域模型作为边缘服务器数据样本的特征提取器进行特征信息的提取，以供云服务器进行边缘协作域的重新划分，进一步的，考虑到边缘服务器波动的资源状况，有必要在重新划分边缘协作域后，重新选择每个边缘协作域的域首服务器。

在一个实施例中，所述域首服务器和所述域成员服务器在获得预设轮次的所述域模型后，分别具体用于：从所属的公共图像数据中随机采样获得预设数量的数据样本；以预设轮次的所述域模型作为特征提取器压缩所述数据样本的特征空间；利用感知哈希算法计算压缩后所述数据样本的指纹向量；将所述数据样本的指纹向量进行堆叠得到所述特征信息。

具体的，如图5中所示，边缘服务器重新确定特征信息时，边缘服务器s_j从它的公共图像数据集合

中随机采样N_s个数据样本，并以预设轮次的域模型作为特征提取器，压缩这些采样数据样本的特征空间。接着，边缘服务器s_j利用感知哈希算法计算每个压缩后样本的N_d维指纹向量/>

并将所有指纹向量堆叠得到特征矩阵H_j：

所有边缘服务器将自己的特征矩阵作为重新划分边缘协作域的特征信息发送给云服务器。对于任意两个边缘服务器s_i和s_j，云服务器根据高斯相似度函数计算它们之间的数据相似度SL_ij：

基于相似度，云服务器将多个边缘服务器重新划分为多个边缘协作域，并重新确定域首服务器。

进一步的，重新划分边缘协作域后，在新的边缘协作域中，域首服务器在前一轮全局聚合轮次获得的域模型为该边缘协作域新一轮全局聚合轮次的全局模型。该全局模型被域首服务器下发给同一个边缘协作域中的域成员服务器，域首服务器和域成员服务器将其下发给对应的目标用户终端，以供目标用户终端进行本地训练。

在一个实施例中，所述云服务器具体用于：基于各所述边缘服务器的发出的特征信息，计算任意两个所述边缘服务器的相似度；根据任意两个所述边缘服务器的相似度，构建相似度图；根据所述相似度图，基于谱聚类算法将多个所述边缘服务器划分为多个边缘协作域；根据各所述边缘协作域中各所述边缘服务器的资源情况，确定所述域首服务器和所述域成员服务器。

具体的，如图5中所示，云服务器在完成任意两个边缘服务器的相似度计算后，便能够基于相似度建立相似度图G＝(ES,SL)。在相似度图中，顶点集合ES＝{ES₁,…,ES_M}中的元素代表所有的边缘服务器，而边集合SL＝{SL_ij,i,j∈S}中的元素代表任意两个边缘服务器

之间的数据相似度。然后，根据相似度图G，云服务器执行基于正则化拉普拉斯矩阵的谱聚类算法，将所有边缘服务器划分成K个边缘协作训练域。该聚类结果是通过将拉普拉斯矩阵L的前K个特征向量输入K-Means聚类算法得到的，其中K的值可以由启发式的特征值差值搜索算法确定。正则化的拉普拉斯矩阵L计算方法如下：

其中，I是单位矩阵，

和/>

分别是相似图G的邻接矩阵和度矩阵。

在每一个边缘协作训练域中，云服务器根据边缘服务器的资源状况将所有边缘服务器划分成一个域首服务器和若干个域成员服务器。域首服务器作为整个边缘协作域的控制器，负责执行域聚合获得域模型以及与云服务器通信。由于域首服务器需要承担额外的工作量，所以我们必须选择资源丰富的边缘服务器担任这个角色，在此，我们定义任意边缘服务器s_j的资源容量为：

其中，

表示边缘服务器选中的目标用户终端的个数，/>

是边缘协作域被选中的目标用户终端总数，而/>

和/>

分别是边缘服务器的可用带宽和算力，ω₁、ω₂和ω₃为权重参数。

云服务器会选择资源容量最大的边缘服务器作为边缘协作域的域首服务器，并将其网络地址广播给剩余的域成员服务器。与域首服务器建立连接后，所有域成员服务器在执行学习任务的过程中都不再需要与云服务器通信。

本系统用过云服务器基于相似度的聚类方法来构建边缘协作域，以缓解数据异构对模型收敛性的影响；利用谱聚类算法构建边缘协作域，同时考虑了用户终端的数据分布和资源条件，从而在增强边缘服务器之间协作的同时加速域模型的收敛。

在一个实施例中，所述目标用户终端具体用于：根据对应的所述边缘服务器发送的所述全局模型的参数和所述训练信息确定本地模型中的迁移层和训练层；将所述全局模型中所述迁移层对应模型层的参数迁移到所述本地模型的迁移层；训练所述本地模型中训练层的参数以获得训练参数。

具体的，目标终端设备的资源主要包括算力资源和内存资源两部分。算力资源是指终端设备计算单元(CPU或GPU)的处理能力，它会影响到目标用户终端完本地模型训练的时间。内存资源会直接决定目标用户终端能否参与联邦学习任务。内存资源的占用主要由数据占用和模型占用两部分构成。

(1)模型占用：当训练深度学习模型时，计算单元会将模型参数、模型参数梯度和优化器保存的梯度信息这三部分加载到内存中。本实施例中，目标用户终端将全局模型的各层参数按照是否参与训练，划分为迁移层和训练层，其中迁移层的参数不具有梯度，相对应地优化器也不会保存这些参数的梯度信息，因此模型占用为：

其中，λ_i＝<a_i1,a_i2,…,a_iK>,a_k∈{0,1}是用户终端的迁移向量，用于表示本地模型的第k层是否参与本地训练，a_k＝1则第k层为训练层，a_k＝0则第k层为迁移层。w_i＝{w_i1,…,w_iK}是目标用户终端的本地模型各层的参数，g_i＝{g_i1,…,g_iK}为本地模型各层参数的梯度，|w_i|和|g_i|分别表示本地模型参数和梯度的数据大小，

为本地模型的内存占用系数，其与具体的机器学习框架有关。

(2)数据占用：采用随机梯度下降算法SGD更新模型参数时，需要将批量大小的数据样本加载到内存中作为模型的输入，并且在前向传播的过程中还会产生大量的与模型参数相关的中间变量。增大批量大小可以减少模型一次迭代的时间，但会相应地增加内存资源的占用。目标用户终端v_i的训练数据对内存资源的占用为：

其中，b_i是终端v_i训练数据的批量大小，d是单个数据样本的大小，

为中间变量的内存占用系数，其与具体的机器学习框架有关。

于是，在一个通信轮次中，目标用户终端v_i的内存资源占用为：

被选中的目标用户终端在开始本地训练之前，需要根据自身的资源状况，以及边缘服务器给出的全局模型、训练单个本地数据样本时前向传播所需的浮点计算量Φ、训练单个本地数据样本时反向传播执行随机梯度下降算法(SGD)所需的浮点计算量Φ′和连接的超时时间

确定将边缘模型哪些层的参数直接迁移到本地模型中，并且相应地调整迭代轮数e_i和批量大小b_i这两个训练参数。

根据公式(20)可知，用户终端v_i的迁移向量λ_i会影响到模型梯度对内存资源的占用。当λ_i越接近单位向量，迁移层数就越少，目标用户终端的内存资源消耗就越大。当目标用户终端的总内存资源消耗大于其可用内存资源时，目标用户终端就会发生内存溢出事件。而根据公式(4)可知，不同的迁移向量λ_i还会影响到目标用户终端的计算时延和通信时延，当目标用户终端的总时延大于边缘服务器给出的超时时间就会发生超时事件。超时和内存溢出事件都会导致的目标用户终端参与联邦学习任务失败，这会严重影响联邦学习系统的稳定。但是，迁移层数越多，边缘模型的收敛速度越慢。所以，本地训练时，迁移层数的优化是模型质量和资源消耗之间的权衡问题。训练策略制定的目标是在不发生内存溢出和超时事件的前提下，通过调整迁移向量和训练参数来最大化迁移层数，从而保证边缘模型的质量和整个联邦迁移学习系统的稳定。

由于内存是否溢出决定了目标用户终端能否执行联邦学习任务，所以我们先根据目标用户终端的可用内存资源确定迁移向量λ_i，尽可能最大化迁移层数以优先保证边缘模型的质量，并在相应的λ_i下确定最大的批量大小b_j以便缩短计算时延。对于每一个λ_i，假设目标用户终端上一个通信轮次中的批量大小为b′_i，则批量的最大值可计算为：

其中，r(λ_i,b′_i)表示目标用户终端上一个通信轮次中的内存资源占用。

然后，目标用户终端再根据超时时间

调整迁移向量λ_i，并在相应的λ_i下最大化本地迭代轮数e_i，以充分利用计算资源和通信窗口。对于每一个λ_i，假设目标用户终端上一个通信轮次中的本地迭代轮数为e′_i，则本地迭代轮数最大值可计算为：

其中，τ(λ_i,e′_i,b_i)表示目标用户终端在上一个通信轮次中的时延。

由于深度神经网络DNN某些层之间可能存在依赖关系，无法单独被迁移，因此边缘服务器中具有可选的迁移向量集合x(每个迁移向量对应的迁移层数和计算量递减)。初次与边缘服务器建立连接的目标用户终端，边缘服务器会发送迁移向量集合x至该目标用户终端。反之，目标用户终端从上一个通信轮次设置的迁移向量位置，向两侧线性探索可行的迁移向量。

目标用户终端根据自身的资源情况确定迁移向量，在一定程度上解决了由于各用户终端资源异构的问题导致的联邦学习效率较差的问题。

下面，结合实例实验说明本联邦迁移学习系统的优点：

实验中，我们使用由五个计算节点组成的系统作为实验平台。这五个计算节点包括一台服务器和四台装配有显卡的笔记本电脑(表1给出了笔记本电脑的硬件配置)，笔记本电脑通过Wi-Fi与服务器相连接。我们在服务器上开辟一个单独的进程模拟云服务器，再开辟多个进程来模拟边缘服务器，每个进程都会在指定的端口监听来自用户终端的访问请求。同时，我们在四台计算能力不一的笔记本电脑上开辟多个进程来模拟车辆用户终端，每个进程被分配了不同大小的可用带宽和显卡内存，从而模拟资源异构的网络环境。

表1

设备	带宽/Mbps	算力/TFLOPS	显存/GB
				1	100	15.3	8
2	100	2.7	2
				3	100	5.2	4
4	10	5.2	4

(1)模型和数据

本实验中，使用YOLOv5作为训练模型，采用目标检测数据集COCO和KITTI作为数据集。其中，COCO数据集是一个由微软发布的的大规模图像数据集，它包含330K张图片，总共80个目标类别，它作为云端预训练YOLOV5模型所用的公共图像数据集。而KITTI是一个用于自动驾驶领域的图像数据集，它包括五个数据采集场景和8个标签类别，我们给每个边缘服务器和其服务区域内的终端分配一个场景的部分图像数据来模拟真实环境。为了评估数据异构对模型性能的影响，我们在给终端分配KITTI数据集中的样本时使用了两种数据划分方法：1)IID：数据样本被随机均分给所有终端和边缘服务器，因此所有节点的数据分布都是相似的。2)Non-IID：将所有数据按照标签分成三类，每个边缘服务器和终端被分配到其中的两类数据，而完全缺失剩余一种类别的数据。

(2)基准和评价标准

本实验中，为了评估本申请技术方案的性能表现，我们设置了三个参照的基准方案如下。在每个方案中，我们都设置了相同的资源分配，并且使用了同一个初始全局模型。其中，方案(a)是最典型的联邦学习方法，而方案(b)为去除了资源感知和边缘协作域，但损失函数添加了近似项的联邦学习方法，方案(c)为构建边缘协作域但仅迁移固定层的联邦学习方法。将损失函数值和平均精确度(mAP@0.5和mAP@0.5:0.95)作为模型的评价标准，将平均时延和平均内存资源占用作为联邦学习系统的评价标准。

(a)FedAvg：不构建协作域(单个边缘服务器)且用户终端训练整个本地模型的参数(即对于每个用户终端，即迁移向量λ_j＝<1,…,1>为定值)。

(b)FedProx：在FedAvg基础上为本地模型的损失函数添加近似项来缓解数据异构问题，不采用协作域和迁移学习方法。

(c)FTL：构建边缘协作域但执行固定的迁移学习方法，迁移边缘模型除输出层以外的其他所有层。

(3)训练参数

本实验中，全局聚合轮数T设置为20。本地模型训练时随机梯度下降算法SGD的学习率η设为0.01，默认的迭代轮数和批量大小为4和16，批量大小的取值范围为

所有训练数据中所有图片的分辨率和通道数统一分别为640×640和3。在构建协作域时，边缘服务器采样的数据样本数为10。

实验结果：

(1)首先对比了本技术方案中联邦迁移学习系统提供的学习方法RFTL-EC与其他基准方案在损失函数值和识别准确性上的差异。在这里我们将通信窗口的大小统一设置为180s，RFTL-EC的批量大小和迭代轮数会自适应调整而其他方案的这些参数均设为默认值。从图6可以看出RFTL-EC在模型收敛速度方面明显优于迁移固定层数的FTL方案和典型联邦学习算法FedAvg。并且，相较面向异构环境的FedProx算法能够进一步加快模型的收敛。从图7可知，RFTL-EC在20轮全局聚合后平均精度(mAP_0.5:0.95)可以达到0.43，分别比FedAvg和FedProx高出38％和16％，在第5轮全局聚合时，RFTL-EC的进度就接近训练20个轮的FedAvg算法。此外，我们从图7还可知，FedAvg和FedProx算法下模型的平均精确度在若干轮全局聚合轮次后出现了下降的情况。这主要是因为在这些算法中，终端可能会因为超时或内存溢出的发生而无法参与训练，从而导致模型的训练效果出现明显的波动。需要注意的是，由于FTL算法只训练模型的输出层，模型的收敛速度很慢，在许多轮训练后平均精度仍然只有0.16。这表明，联邦迁移算法必须要面向实际的场景优化后才能使用。

(2)其次，我们在非独立同分布non-IID数据分布下评估构建边缘协作域对最终训练得到的模型质量的影响。在这里，我们分别为FedAvg和FedProx算法添加了边缘协作域结构，得到了两个人工修改的算法FedAvg-EC和FedProx-EC。从图8可以看出，在同样具有边缘协作域的情况下，RFTL-EC的平均精度仍然要比FedAvg-EC和FedProx-EC算法分别高出25％和14％。我们从图8还可知，边缘协作域结构的加入将FedAvg算法的平均精度提升了9％，这是因为边缘协作域强化了边缘服务器之间的协作，从而加快了模型的收敛速度。并且本方案所提出的基于数据相似的协作域构建方法能够进一步减轻数据分布不一致的程度。

(3)最后，我们比较了资源感知功能在不同的通信窗口下对整个联邦学习系统运行效率的影响，包括平均终端失败次数，平均时延和平均内存消耗率。为了更清楚地说明动态迁移学习的作用，我们增加了一个算法FTL-Backbone作为对照，在该算法中，终端只训练迁移本地模型的骨干层，这会比通用的FTL消耗更多的资源。图9比较了几种方案在不同大小的通信窗口下的平均终端失败次数。从中我们可以看出，随着通信窗口的增大，所有方案的失败次数都在减少。不过，当通信窗口较小时，RFTL-EC中终端的失败次数要明显少于其他所有方案。这是因为当通信窗口较小时，RFTL-EC通过增加迁移层数，减少本地迭代轮数来避免超时和内存溢出的发生。由于不采用迁移学习并且训练参数固定，FedAvg算法在通信窗口为120秒时，终端平均失败次数接近19，这意味着几乎所有终端都无法在超时时间内顺利完成本地模型训练并上传。图10与图11分别比较了几种方案的平均时延和平均内存资源消耗。从中我们可以看出，RFTL-EC的时延和内存资源消耗随着通信窗口的增大而增加。在通信窗口为120秒时，RFTL-EC的时延和内存资源消耗小于其他所有方案，而在通信窗口为270秒时，这两个指标超过了FedAvg算法。这是因为通过当通信窗口充裕时，RFTL-EC在资源条件的约束下通过增加终端的本地训练量来提高全局模型的质量。虽然FTL算法也能够有效减少平均时延和平均内存消耗，但是通过和RFTL-EC和FTL-Backbone的对比可知，该算法无法充分利用终端的通信和计算资源。这主要是因为FTL在所有的资源情况和时延要求下都只训练全局模型的输出层，这造成了资源和通信窗口的浪费。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种联邦迁移学习系统，其特征在于，包括：云服务器、边缘组件和用户组件，所述边缘组件包括多个边缘服务器，所述用户组件包括多个用户终端；

2.根据权利要求1所述的联邦迁移学习系统，其特征在于，所述云服务器还用于基于各所述边缘服务器上的公共图像数据进行预训练以获得初始的所述全局模型，并将初始的所述全局模型发送至各所述边缘服务器。

3.根据权利要求2所述的联邦迁移学习系统，其特征在于，各所述边缘服务器还用于基于初始的所述全局模型生成初始的所述特征信息并将初始的所述特征信息发送至所述云服务器。

4.根据权利要求1所述的联邦迁移学习系统，其特征在于，所述边缘服务器具体用于：

获取对应的所述目标用户终端发送的所述训练参数；

重复执行上述步骤预设轮数后，获得所述边缘模型。

5.根据权利要求4所述的联邦迁移学习系统，其特征在于，所述边缘服务器用于边缘聚合各所述目标用户终端的所述训练参数以获得初始边缘模型时，具体包括：

将所有所述训练参数按照层号进行对齐；

6.根据权利要求1至5任一项所述的联邦迁移学习系统，其特征在于，所述域首服务器还用于：

7.根据权利要求6所述的联邦迁移学习系统，其特征在于，所述域首服务器和所述域成员服务器在获得预设轮次的所述域模型后，分别还用于：

8.根据权利要求7所述的联邦迁移学习系统，其特征在于，所述域首服务器和所述域成员服务器在获得预设轮次的所述域模型后，分别具体用于：

利用感知哈希算法计算压缩后所述数据样本的指纹向量；

将所述数据样本的指纹向量进行堆叠得到所述特征信息。

9.根据权利要求1所述的联邦迁移学习系统，其特征在于，所述云服务器具体用于：

根据任意两个所述边缘服务器的相似度，构建相似度图；

10.根据权利要求1所述的联邦迁移学习系统，其特征在于，所述目标用户终端具体用于：

根据对应的所述边缘服务器发送的所述全局模型的参数和所述训练信息，确定本地模型中的迁移层和训练层；

训练所述本地模型中训练层的参数以获得训练参数。