CN117951749A

CN117951749A - 一种基于动态引导注意力的联邦多任务学习方法

Info

Publication number: CN117951749A
Application number: CN202410353594.8A
Authority: CN
Inventors: 管洪清; 徐亮; 张元杰; 孙浩云; 郝焕萍; 于润杰; 王伟
Original assignee: Qingdao Windaka Technology Co ltd
Current assignee: Qingdao Windaka Technology Co ltd
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-04-30
Anticipated expiration: 2044-03-27
Also published as: CN117951749B

Abstract

本发明公开了一种基于动态引导注意力的联邦多任务学习方法，涉及深度学习技术领域，包括：在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练，每一种任务得到一个本地模型中间结果，将多个本地模型中间结果发送至联邦中央节点；联邦中央节点中的多任务接收器接收本地模型中间结果并发送至多任务分层融合器；在第一次融合之前，多任务分层融合器初始化一个动态引导注意力层，并将其添加到各个本地模型中间结果中；在多任务分层融合器中生成全局模型并发送至各个联邦训练节点；训练器接收所述全局模型并执行下一轮迭代训练；重复训练得到一个多任务神经网络模型。实现多类型数据的融合学习，提高模型的泛化性和鲁棒性。

Description

一种基于动态引导注意力的联邦多任务学习方法

技术领域

本发明涉及深度学习技术领域，特别涉及一种基于动态引导注意力的联邦多任务学习方法。

背景技术

随着物联网设备在智能城市、医疗、农业、工业等各个领域的快速发展和部署，产生了来自不同领域的海量物联网数据。这些数据通常具有隐私敏感性，难以相互共享。如何在不损害其安全性和隐私性的前提下，有效地利用这些私有数据，是机器学习和人工智能面临的一个关键挑战。联邦学习是一种有前景的解决方案，它可以在不将原始数据传输到中央服务器的情况下，实现多个本地节点的协同训练，从而应对物联网场景中巨大的计算和隐私保护的挑战。然而，现有的联邦学习方法大多局限于特定的任务场景，它们为每个数据拥有者或任务开发一个个性化的模型。这限制了它们的数据来源和适用性，难以适应不同的领域或场景。

以智慧社区视频分析为例，多任务场景包括行人属性分析任务、车辆属性分析任务、宠物属性分析任务，通常的分析方法是分别用三个对应的模型对视频流进行分析，但是处理效率低下，而且这些任务的数据可能分别存在于各个社区的服务器中，出于数据隐私的前提，各个社区的服务器的数据不能进行共享，导致这些数据无法进行有效共享训练。

联邦多任务学习是一种新兴的方法，它可以将来自不同领域或任务的数据集融合起来，对一个单一的全局模型进行微调，使其可以应用于各种情况。与联邦学习相比，联邦多任务学习不仅增强了全局模型的数据来源和适用性，而且通过利用不同任务之间的共性和差异，提高了全局模型的泛化能力和性能。然而，联邦多任务学习仍然面临着各种挑战，例如如何处理不同任务数据之间严重的非独立同分布问题以及如何协调多任务之间的均衡性。

有鉴于此，本文提出了一种基于动态引导注意力的联邦多任务学习方法。

发明内容

本发明提供一种基于动态引导注意力的联邦多任务学习方法，可以在保障数据隐私的前提下，实现多种类型数据的融合学习，提高模型的泛化性和鲁棒性。

根据本公开的一方面，提供了一种基于动态引导注意力的联邦多任务学习方法，包括以下步骤：

步骤1：对于多个联邦训练节点，在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练，每一种任务对应神经网络库中的一个网络，每一种任务得到一个本地模型中间结果，将多个本地模型中间结果发送至联邦中央节点；其中，所述联邦训练节点为一个服务器或包含多个服务器的集群；

步骤2：联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息，将采集到的模型和任务类型信息发送至多任务分层融合器；

步骤3：在第一次融合之前，多任务分层融合器初始化一个动态引导注意力层，并将动态引导注意力层添加到各个本地模型中间结果中；

步骤4：在多任务分层融合器中，根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点；

步骤5：在多个联邦训练节点中，各个节点的训练器接收所述全局模型并执行下一轮迭代训练；

步骤6：重复步骤1-步骤5，直到达到预设的训练终止条件，得到一个多任务神经网络模型。

在一种可能的实现方式中，步骤1：对于多个联邦训练节点，在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练，每一种任务对应神经网络库中的一个网络，每一种任务得到一个本地模型中间结果，将多个本地模型中间结果发送至联邦中央节点，包括：

根据任务需求和本地数据库中的数据集设计多个神经网络模型，并将所述多个神经网络模型存储到本地神经网络数据库；

用数据库中的每一种任务数据集分别对本地神经网络库中与任务对应的神经网络进行训练，当数据库中的所有任务数据集都完成一次训练后，保存每一种任务的模型参数为本地模型中间结果；

其中，所述多个神经网络模型结构有相同的基础特征层和特征金子塔网络结构FPN层；

训练器将本地模型中间结果发送至联邦中央节点，并停止训练。

在一种可能的实现方式中，所述步骤2：联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息，将采集到的模型和任务类型信息发送至多任务分层融合器，包括：

多任务接收器监听所有的联邦训练节点，接收各个联邦节点发送来的本地模型中间结果和其所包含的任务类型信息；当所有的本地模型中间结果和任务类型信息都接受完毕之后，将所有的本地模型中间结果和任务类型信息发送至多任务分层融合器。

在一种可能的实现方式中，所述在第一次融合之前，多任务分层融合器初始化一个动态引导注意力层，并将动态引导注意力层添加到各个本地模型中间结果中，包括：

多任务分层融合器为每个节点的本地模型中间结果初始化一个动态引导注意力层，并将所述动态引导注意力层添加到所述基础特征层之后。

在一种可能的实现方式中，所述步骤4：在多任务分层融合器中，根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点，包括：

步骤4.1，对所有联邦节点的本地模型中间结果的特征提取层进行平均加权融合，生成全局特征提取层；

步骤4.2，对所有联邦节点的本地模型中间结果中相同任务的FPN层进行平均加权融合，为每个任务生成一个特定任务FPN层；

步骤4.3，对所有联邦节点的本地模型中间结果的FPN层进行平均加权融合，生成全局FPN层；

步骤4.4，对所有联邦节点的本地模型中间结果中相同任务的动态引导注意力层进行加权融合，为每个任务生成一个特定任务动态引导注意力层；

步骤4.5，对所有联邦节点的本地模型中间结果中相同任务的下游任务层进行加权融合，为每个任务生成一个特定下游任务层；

步骤4.6，全局特征提取层、全局FPN层、特定任务FPN层、特定任务动态引导注意力层、特定下游任务层联合组成全局模型，多任务融合器将全局模型发送至联邦训练节点。

在一种可能的实现方式中，所述在多个联邦训练节点中，各个节点的训练器接收所述全局模型并执行下一轮迭代训练，包括：

步骤5.1，各个联邦训练节点中的训练器监听并接收联邦中央节点发送来的全局模型；

步骤5.2，用全局模型的全局特征提取层参数替换本地各个模型中间结果的特征提取层参数；

步骤5.3，用全局模型的特定任务FPN层参数替换本地各个模型中间结果中该任务的FPN层参数；

步骤5.4，判断本地神经网络库中的本地模型中间结果是否包含全局FPN层；

如果本地神经网络库中的本地模型中间结果不包含全局FPN层，则在本地模型中间结果的特征提取层之后添加一个全局FPN层，并用全局模型中的全局FPN层的参数对添加的全局FPN层进行初始化；

如果本地模型中间结果已包含全局FPN层，则用全局模型中的全局FPN层参数替换本地模型中间结果中的全局FPN层参数；

步骤5.5，判断本地神经网络库中的本地模型中间结果中是否包含动态引导注意力层；

如果本地神经网络库中的本地模型中间结果中不包含动态引导注意力层，则在本地模型中间结果的特定任务FPN层之后添加与所述特定任务对应的特定任务动态引导注意力层，并用全局模型中的所述特定任务的特定任务动态引导注意力层的参数对添加的动态引导注意力层进行初始化；

如果本地模型中间结果已包含动态引导注意力层，则用全局模型中的与本地模型中间结果的任务对应的特定任务动态引导注意力层参数替换本地模型中间结果中的动态引导注意力层参数；

步骤5.6，训练器以更新后的本地模型中间结果为初始模型进行下一轮训练。

在一种可能的实现方式中，在所述动态引导注意力层中进行如下处理：

本地模型中间结果中的FPN层产生的特征作为输入特征，全局FPN层产生的特征作为引导特征；

所述输入特征和所述引导特征作为动态引导注意力层的输入；

所述引导特征在动态引导注意力层中经过一个1×1的下采样卷积和一个3×3的卷积后，进入动态卷积模块；

在动态卷积模块中将经过卷积处理后的引导特征依次经过全连接层和门线控制单元的处理，接着经过一个残差模块，在残差模块中用全连接层生成动态权重，动态权重和门线控制单元的输出进行卷积得到卷积的结果，所述卷积的结果经过一个全连接层处理后输出动态卷积模块的结果；

动态卷积残差模块的结果经与所述3×3的卷积的结果经过一个1×1的上采样卷积生成动态加权后的引导特征；将动态加权后的引导特征与所述输入特征融合得到针对该任务的输出特征；

所述输出特征作为下游任务层的输入特征。

与现有技术相比，本发明的有益效果是：

本公开实施例的一种基于动态引导注意力的联邦多任务学习方法。针对数据隐私的场景，设计并实现联邦多任务学习网络模型的训练，该模型实现数据的共享而且保障数据隐私性，首先用联邦学习的框架实现联邦训练节点中的服务器的数据的隐私共享，然后在联邦学习框架的基础上增加多任务学习的方法，实现了将任务集成到一个全局的多任务网络模型中，任务之间共享基础特征，因此在模型使用过程中基础特征的提取只用一次即可处理多个任务，大大提高了处理效率，同时任务之间可以通过基础特征共享实现特征的互补，提高了模型的鲁棒性；同时为了实现各个节点的神经网络模型在中央节点进行融合，在模型框架中设计一种引导注意力机制，引导多任务进行联邦融合训练。

本发明提出了一种基于动态引导注意力的联邦多任务学习方法，可以在保障数据隐私的前提下，实现多种类型数据的融合学习，提高模型的泛化性和鲁棒性。

本发明应用了动态引导注意力策略，通过该策略动态引导联邦多任务的本地融合，抑制任务之间的干扰特征，增强该任务的有用互补特征，提高模型的鲁棒性。

附图说明

图1示出本公开一实施例的基于动态引导注意力的联邦多任务学习框架的示意框图。

图2示出本公开一实施例的联邦多任务模型训练过程中本地模型中新增模块的网络结构示意图。

图3示出本公开一实施例的动态引导注意力层的网络结构框图。

图4示出本公开一实施例的一种基于动态引导注意力的联邦多任务学习方法的流程图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图4示出本公开一实施例的一种基于动态引导注意力的联邦多任务学习方法的流程图。一种基于动态引导注意力的联邦多任务学习方法，包括以下步骤：

S01,步骤1：对于多个联邦训练节点，在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练，每一种任务对应神经网络库中的一个网络，每一种任务得到一个本地模型中间结果，将多个本地模型中间结果发送至联邦中央节点；其中，所述联邦训练节点为一个服务器或包含多个服务器的集群；

S02，步骤2：联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息，将采集到的模型和任务类型信息发送至多任务分层融合器；

S03，步骤3：在第一次融合之前，多任务分层融合器初始化一个动态引导注意力层，并将动态引导注意力层添加到各个本地模型中间结果中；

S04，步骤4：在多任务分层融合器中，根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点；

S05，步骤5：在多个联邦训练节点中，各个节点的训练器接收所述全局模型并执行下一轮迭代训练；

S06，步骤6：重复步骤1-步骤5，直到达到预设的训练终止条件，得到一个多任务神经网络模型。

例如，所述训练终止条件可以是最大迭代训练次数，所述最大迭代训练次数可以根据实际情况进行设置，本实施例不对此进行限制。

以智慧社区视频分析为例，多任务场景包括行人属性分析任务、车辆属性分析任务、宠物属性分析任务，本公开实施例的一种基于动态引导注意力的联邦多任务学习方法，然后在联邦学习框架的基础上增加多任务学习的方法，实现了将任务集成到一个全局的多任务网络模型中，任务之间共享基础特征，因此在模型使用过程中基础特征的提取只用一次即可处理多个任务，大大提高了处理效率，同时任务之间可以通过基础特征共享实现特征的互补，提高了模型的鲁棒性；同时为了实现各个节点的神经网络模型在中央节点进行融合，在模型框架中设计一种引导注意力机制，引导多任务进行联邦融合训练。解决了现有技术中的如下问题：用三个对应的模型对视频流进行分析，但是处理效率低下，而且这些任务的数据可能分别存在于各个社区的服务器中，出于数据隐私的前提，各个社区的服务器的数据不能进行共享，导致这些数据无法进行有效共享训练。

在联邦中央节点中，对本地模型中增加全局FPN任务层和动态引导注意力层，引导本地任务训练，提高多任务模型鲁棒性。

图1示出本公开一实施例的基于动态引导注意力的联邦多任务学习框架的示意框图。如图1所示，联邦多任务的训练框架，在联邦训练节点中保护数据隐私的前提下实现多种类型数据的融合训练。以智慧社区视频分析为例，多任务场景包括行人属性分析任务、车辆属性分析任务、宠物属性分析任务。图1所示，联邦训练节点可以有多个，联邦训练节点（联邦节点）包括：多任务网络模型，本地数据库（任务1数据，任务2数据，任务3数据），训练器，训练生成本地模型1，本地模型2，本地模型3。

联邦中央节点（云服务器或中央节点）包括：多任务接收器（接收器），多任务分层融合器。图1中示出了，接收器接收来自各个联邦训练节点的本地模型中间结果，形成任务1模型集合，任务2模型集合，任务3模型集合。

多任务分层融合器形成全局模型集合，全局模型集合包括全局特征提取层、全局FPN层、特定任务FPN层（任务1FPN，任务2FPN，任务n FPN）、特定任务动态引导注意力层（动态引导注意力1，动态引导注意力2，动态引导注意力n）、特定下游任务层（下游任务1，下游任务2，下游任务n）。

本地数据库：存储本地数据集，数据库中的数据不进行交互，保障数据隐私性。

多任务网络：针对本地数据集设计的本地多任务网络，包含共享的特征提取层、全局FPN层、任务FPN层、动态引导注意力层和多任务分支。

训练器：执行本地神经网络模型训练，用本地数据库中的数据集训练本地多任务网络，同时负责接收来自联邦中央节点的全局模型参数并更新到本地网络模型中。训练器是软件程序，用于执行训练、接收、发送等操作。

多任务接收器：接收来自各个联邦训练节点的本地模型，并发送至多任务分层融合器。

多任务分层融合器：根据任务类型和模型中的不同模块进行分层融合生成全局模型，融和后的全局模型包括全局特征提取层，全局FPN层，各个任务的特定任务FPN层，各个任务的动态引导注意力层，各个下游任务分支。

在训练过程中，联邦训练节点中的训练器用本地数据库中的各个任务数据对本地神经网络库中对应的神经网络进行训练，得到各个本地模型中间结果，并将各个本地模型中间结果发送至联邦中央节点；联邦中央节点中的多任务接收器接收来自各个节点的各个本地模型并记录任务类型，将采集到的模型和任务信息发送至多任务分层融合器；多任务分层融合器根据任务类型对本地模型中间结果的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点；联邦训练节点中的训练器接收全局模型并执行下一轮迭代训练。其中，联邦训练节点可以是一台计算机或是一个计算机集群。

其中，所述多个神经网络模型结构有相同的基础特征层和特征金子塔网络结构FPN（Feature Pyramid Networks，特征金子塔网络结构）层，以保证可以实现后续多任务学习的特征共享；

在一种可能的实现方式中，所述步骤3：所述在第一次融合之前，多任务分层融合器初始化一个动态引导注意力层，并将动态引导注意力层添加到各个本地模型中间结果中，包括：

图2示出本公开一实施例的联邦多任务模型训练过程中本地模型中新增模块的网络结构示意图。如图2所示，新增模块包括全局FPN层和动态引导注意力层，他们与已有的基础特征层和特定任务FPN层之间的网络结构如图2所示，顺序为基础特征层、特定任务FPN层、全局任务FPN层（全局FPN层），动态引导注意力层。动态引导注意力层生成对应的预测任务1，预测任务2，预测任务3。

其中，特定任务FPN层用于生成特定任务的特征信息，全局FPN层用于生成全局任务的特征信息。

图3示出本公开一实施例的动态引导注意力层的网络结构框图。如图3所示，动态引导注意力层包括1×1卷积模块，3×3卷积模块，动态卷积模块，求和模块，1×1卷积模块，求和模块。其中，所述动态卷积模块包括：全连接层，门控线性单元，门控线性单元之后的全连接层，门控线性单元之后卷积层，卷积层之后的全连接层。在一种可能的实现方式中，在所述动态引导注意力层中进行如下处理：

所述输出特征作为下游任务的输入特征。

动态引导注意力层的作用是捕捉任务之间的相关信息，从而通过动态加权来增强有用的互补特征，屏蔽任务之间互相干扰的噪音特征。

在残差模块中用全连接层生成动态权重，用动态权重为后续的卷积加权从而抑制噪音特征，增强有用互补特征。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于动态引导注意力的联邦多任务学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于动态引导注意力的联邦多任务学习方法，其特征在于，步骤1：对于多个联邦训练节点，在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练，每一种任务对应神经网络库中的一个网络，每一种任务得到一个本地模型中间结果，将多个本地模型中间结果发送至联邦中央节点，包括：

3.根据权利要求1所述的一种基于动态引导注意力的联邦多任务学习方法，其特征在于，所述步骤2：联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息，将采集到的模型和任务类型信息发送至多任务分层融合器，包括：

4.根据权利要求2所述的一种基于动态引导注意力的联邦多任务学习方法，其特征在于，所述在第一次融合之前，多任务分层融合器初始化一个动态引导注意力层，并将动态引导注意力层添加到各个本地模型中间结果中，包括：

5.根据权利要求1所述的一种基于动态引导注意力的联邦多任务学习方法，其特征在于，所述步骤4：在多任务分层融合器中，根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点，包括：

6.根据权利要求5所述的一种基于动态引导注意力的联邦多任务学习方法，其特征在于，所述在多个联邦训练节点中，各个节点的训练器接收所述全局模型并执行下一轮迭代训练，包括：

7.根据权利要求6所述的一种基于动态引导注意力的联邦多任务学习方法，其特征在于，在所述动态引导注意力层中进行如下处理：

所述输出特征作为下游任务层的输入特征。