CN117951749A - 一种基于动态引导注意力的联邦多任务学习方法 - Google Patents
一种基于动态引导注意力的联邦多任务学习方法 Download PDFInfo
- Publication number
- CN117951749A CN117951749A CN202410353594.8A CN202410353594A CN117951749A CN 117951749 A CN117951749 A CN 117951749A CN 202410353594 A CN202410353594 A CN 202410353594A CN 117951749 A CN117951749 A CN 117951749A
- Authority
- CN
- China
- Prior art keywords
- task
- layer
- federal
- local
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 103
- 230000004927 fusion Effects 0.000 claims abstract description 72
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态引导注意力的联邦多任务学习方法,涉及深度学习技术领域,包括:在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点;联邦中央节点中的多任务接收器接收本地模型中间结果并发送至多任务分层融合器;在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将其添加到各个本地模型中间结果中;在多任务分层融合器中生成全局模型并发送至各个联邦训练节点;训练器接收所述全局模型并执行下一轮迭代训练;重复训练得到一个多任务神经网络模型。实现多类型数据的融合学习,提高模型的泛化性和鲁棒性。
Description
技术领域
本发明涉及深度学习技术领域,特别涉及一种基于动态引导注意力的联邦多任务学习方法。
背景技术
随着物联网设备在智能城市、医疗、农业、工业等各个领域的快速发展和部署,产生了来自不同领域的海量物联网数据。这些数据通常具有隐私敏感性,难以相互共享。如何在不损害其安全性和隐私性的前提下,有效地利用这些私有数据,是机器学习和人工智能面临的一个关键挑战。联邦学习是一种有前景的解决方案,它可以在不将原始数据传输到中央服务器的情况下,实现多个本地节点的协同训练,从而应对物联网场景中巨大的计算和隐私保护的挑战。然而,现有的联邦学习方法大多局限于特定的任务场景,它们为每个数据拥有者或任务开发一个个性化的模型。这限制了它们的数据来源和适用性,难以适应不同的领域或场景。
以智慧社区视频分析为例,多任务场景包括行人属性分析任务、车辆属性分析任务、宠物属性分析任务,通常的分析方法是分别用三个对应的模型对视频流进行分析,但是处理效率低下,而且这些任务的数据可能分别存在于各个社区的服务器中,出于数据隐私的前提,各个社区的服务器的数据不能进行共享,导致这些数据无法进行有效共享训练。
联邦多任务学习是一种新兴的方法,它可以将来自不同领域或任务的数据集融合起来,对一个单一的全局模型进行微调,使其可以应用于各种情况。与联邦学习相比,联邦多任务学习不仅增强了全局模型的数据来源和适用性,而且通过利用不同任务之间的共性和差异,提高了全局模型的泛化能力和性能。然而,联邦多任务学习仍然面临着各种挑战,例如如何处理不同任务数据之间严重的非独立同分布问题以及如何协调多任务之间的均衡性。
有鉴于此,本文提出了一种基于动态引导注意力的联邦多任务学习方法。
发明内容
本发明提供一种基于动态引导注意力的联邦多任务学习方法,可以在保障数据隐私的前提下,实现多种类型数据的融合学习,提高模型的泛化性 和鲁棒性。
根据本公开的一方面,提供了一种基于动态引导注意力的联邦多任务学习方法,包括以下步骤:
步骤1:对于多个联邦训练节点,在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务对应神经网络库中的一个网络,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点;其中,所述联邦训练节点为一个服务器或包含多个服务器的集群;
步骤2:联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息,将采集到的模型和任务类型信息发送至多任务分层融合器;
步骤3:在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将动态引导注意力层添加到各个本地模型中间结果中;
步骤4:在多任务分层融合器中,根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点;
步骤5:在多个联邦训练节点中,各个节点的训练器接收所述全局模型并执行下一轮迭代训练;
步骤6:重复步骤1-步骤5,直到达到预设的训练终止条件,得到一个多任务神经网络模型。
在一种可能的实现方式中,步骤1:对于多个联邦训练节点,在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务对应神经网络库中的一个网络,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点,包括:
根据任务需求和本地数据库中的数据集设计多个神经网络模型,并将所述多个神经网络模型存储到本地神经网络数据库;
用数据库中的每一种任务数据集分别对本地神经网络库中与任务对应的神经网络进行训练,当数据库中的所有任务数据集都完成一次训练后,保存每一种任务的模型参数为本地模型中间结果;
其中,所述多个神经网络模型结构有相同的基础特征层和特征金子塔网络结构FPN层;
训练器将本地模型中间结果发送至联邦中央节点,并停止训练。
在一种可能的实现方式中,所述步骤2:联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息,将采集到的模型和任务类型信息发送至多任务分层融合器,包括:
多任务接收器监听所有的联邦训练节点,接收各个联邦节点发送来的本地模型中间结果和其所包含的任务类型信息;当所有的本地模型中间结果和任务类型信息都接受完毕之后,将所有的本地模型中间结果和任务类型信息发送至多任务分层融合器。
在一种可能的实现方式中,所述在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将动态引导注意力层添加到各个本地模型中间结果中,包括:
多任务分层融合器为每个节点的本地模型中间结果初始化一个动态引导注意力层,并将所述动态引导注意力层添加到所述基础特征层之后。
在一种可能的实现方式中,所述步骤4:在多任务分层融合器中,根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点,包括:
步骤4.1,对所有联邦节点的本地模型中间结果的特征提取层进行平均加权融合,生成全局特征提取层;
步骤4.2,对所有联邦节点的本地模型中间结果中相同任务的FPN层进行平均加权融合,为每个任务生成一个特定任务FPN层;
步骤4.3,对所有联邦节点的本地模型中间结果的FPN层进行平均加权融合,生成全局FPN层;
步骤4.4,对所有联邦节点的本地模型中间结果中相同任务的动态引导注意力层进行加权融合,为每个任务生成一个特定任务动态引导注意力层;
步骤4.5,对所有联邦节点的本地模型中间结果中相同任务的下游任务层进行加权融合,为每个任务生成一个特定下游任务层;
步骤4.6,全局特征提取层、全局FPN层、特定任务FPN层、特定任务动态引导注意力层、特定下游任务层联合组成全局模型,多任务融合器将全局模型发送至联邦训练节点。
在一种可能的实现方式中,所述在多个联邦训练节点中,各个节点的训练器接收所述全局模型并执行下一轮迭代训练,包括:
步骤5.1,各个联邦训练节点中的训练器监听并接收联邦中央节点发送来的全局模型;
步骤5.2,用全局模型的全局特征提取层参数替换本地各个模型中间结果的特征提取层参数;
步骤5.3,用全局模型的特定任务FPN层参数替换本地各个模型中间结果中该任务的FPN层参数;
步骤5.4,判断本地神经网络库中的本地模型中间结果是否包含全局FPN层;
如果本地神经网络库中的本地模型中间结果不包含全局FPN层,则在本地模型中间结果的特征提取层之后添加一个全局FPN层,并用全局模型中的全局FPN层的参数对添加的全局FPN层进行初始化;
如果本地模型中间结果已包含全局FPN层,则用全局模型中的全局FPN层参数替换本地模型中间结果中的全局FPN层参数;
步骤5.5,判断本地神经网络库中的本地模型中间结果中是否包含动态引导注意力层;
如果本地神经网络库中的本地模型中间结果中不包含动态引导注意力层,则在本地模型中间结果的特定任务FPN层之后添加与所述特定任务对应的特定任务动态引导注意力层,并用全局模型中的所述特定任务的特定任务动态引导注意力层的参数对添加的动态引导注意力层进行初始化;
如果本地模型中间结果已包含动态引导注意力层,则用全局模型中的与本地模型中间结果的任务对应的特定任务动态引导注意力层参数替换本地模型中间结果中的动态引导注意力层参数;
步骤5.6,训练器以更新后的本地模型中间结果为初始模型进行下一轮训练。
在一种可能的实现方式中,在所述动态引导注意力层中进行如下处理:
本地模型中间结果中的FPN层产生的特征作为输入特征,全局FPN层产生的特征作为引导特征;
所述输入特征和所述引导特征作为动态引导注意力层的输入;
所述引导特征在动态引导注意力层中经过一个1×1的下采样卷积和一个3×3的卷积后,进入动态卷积模块;
在动态卷积模块中将经过卷积处理后的引导特征依次经过全连接层和门线控制单元的处理,接着经过一个残差模块,在残差模块中用全连接层生成动态权重,动态权重和门线控制单元的输出进行卷积得到卷积的结果,所述卷积的结果经过一个全连接层处理后输出动态卷积模块的结果;
动态卷积残差模块的结果经与所述3×3的卷积的结果经过一个1×1的上采样卷积生成动态加权后的引导特征;将动态加权后的引导特征与所述输入特征融合得到针对该任务的输出特征;
所述输出特征作为下游任务层的输入特征。
与现有技术相比,本发明的有益效果是:
本公开实施例的一种基于动态引导注意力的联邦多任务学习方法。针对数据隐私的场景,设计并实现联邦多任务学习网络模型的训练,该模型实现数据的共享而且保障数据隐私性,首先用联邦学习的框架实现联邦训练节点中的服务器的数据的隐私共享,然后在联邦学习框架的基础上增加多任务学习的方法,实现了将任务集成到一个全局的多任务网络模型中,任务之间共享基础特征,因此在模型使用过程中基础特征的提取只用一次即可处理多个任务,大大提高了处理效率,同时任务之间可以通过基础特征共享实现特征的互补,提高了模型的鲁棒性;同时为了实现各个节点的神经网络模型在中央节点进行融合,在模型框架中设计一种引导注意力机制,引导多任务进行联邦融合训练。
本发明提出了一种基于动态引导注意力的联邦多任务学习方法,可以在保障数据隐私的前提下,实现多种类型数据的融合学习,提高模型的泛化性和鲁棒性。
本发明应用了动态引导注意力策略,通过该策略动态引导联邦多任务的本地融合,抑制任务之间的干扰特征,增强该任务的有用互补特征,提高模型的鲁棒性。
附图说明
图1示出本公开一实施例的基于动态引导注意力的联邦多任务学习框架的示意框图。
图2示出本公开一实施例的联邦多任务模型训练过程中本地模型中新增模块的网络结构示意图。
图3示出本公开一实施例的动态引导注意力层的网络结构框图。
图4示出本公开一实施例的一种基于动态引导注意力的联邦多任务学习方法的流程图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图4示出本公开一实施例的一种基于动态引导注意力的联邦多任务学习方法的流程图。一种基于动态引导注意力的联邦多任务学习方法,包括以下步骤:
S01,步骤1:对于多个联邦训练节点,在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务对应神经网络库中的一个网络,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点;其中,所述联邦训练节点为一个服务器或包含多个服务器的集群;
S02,步骤2:联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息,将采集到的模型和任务类型信息发送至多任务分层融合器;
S03,步骤3:在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将动态引导注意力层添加到各个本地模型中间结果中;
S04,步骤4:在多任务分层融合器中,根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点;
S05,步骤5:在多个联邦训练节点中,各个节点的训练器接收所述全局模型并执行下一轮迭代训练;
S06,步骤6:重复步骤1-步骤5,直到达到预设的训练终止条件,得到一个多任务神经网络模型。
例如,所述训练终止条件可以是最大迭代训练次数,所述最大迭代训练次数可以根据实际情况进行设置,本实施例不对此进行限制。
以智慧社区视频分析为例,多任务场景包括行人属性分析任务、车辆属性分析任务、宠物属性分析任务,本公开实施例的一种基于动态引导注意力的联邦多任务学习方法,然后在联邦学习框架的基础上增加多任务学习的方法,实现了将任务集成到一个全局的多任务网络模型中,任务之间共享基础特征,因此在模型使用过程中基础特征的提取只用一次即可处理多个任务,大大提高了处理效率,同时任务之间可以通过基础特征共享实现特征的互补,提高了模型的鲁棒性;同时为了实现各个节点的神经网络模型在中央节点进行融合,在模型框架中设计一种引导注意力机制,引导多任务进行联邦融合训练。解决了现有技术中的如下问题:用三个对应的模型对视频流进行分析,但是处理效率低下,而且这些任务的数据可能分别存在于各个社区的服务器中,出于数据隐私的前提,各个社区的服务器的数据不能进行共享,导致这些数据无法进行有效共享训练。
在联邦中央节点中,对本地模型中增加全局FPN任务层和动态引导注意力层,引导本地任务训练,提高多任务模型鲁棒性。
图1示出本公开一实施例的基于动态引导注意力的联邦多任务学习框架的示意框图。如图1所示,联邦多任务的训练框架,在联邦训练节点中保护数据隐私的前提下实现多种类型数据的融合训练。以智慧社区视频分析为例,多任务场景包括行人属性分析任务、车辆属性分析任务、宠物属性分析任务。图1所示,联邦训练节点可以有多个,联邦训练节点(联邦节点)包括:多任务网络模型,本地数据库(任务1数据,任务2数据,任务3数据),训练器,训练生成本地模型1,本地模型2,本地模型3。
联邦中央节点(云服务器或中央节点)包括:多任务接收器(接收器),多任务分层融合器。图1中示出了,接收器接收来自各个联邦训练节点的本地模型中间结果,形成任务1模型集合,任务2模型集合,任务3模型集合。
多任务分层融合器形成全局模型集合,全局模型集合包括全局特征提取层、全局FPN层、特定任务FPN层(任务1FPN,任务2FPN,任务n FPN)、特定任务动态引导注意力层(动态引导注意力1,动态引导注意力2,动态引导注意力n)、特定下游任务层(下游任务1,下游任务2,下游任务n)。
本地数据库:存储本地数据集,数据库中的数据不进行交互,保障数据隐私性。
多任务网络:针对本地数据集设计的本地多任务网络,包含共享的特征提取层、全局FPN层、任务FPN层、动态引导注意力层和多任务分支。
训练器:执行本地神经网络模型训练,用本地数据库中的数据集训练本地多任务网络,同时负责接收来自联邦中央节点的全局模型参数并更新到本地网络模型中。训练器是软件程序,用于执行训练、接收、发送等操作。
多任务接收器:接收来自各个联邦训练节点的本地模型,并发送至多任务分层融合器。
多任务分层融合器:根据任务类型和模型中的不同模块进行分层融合生成全局模型,融和后的全局模型包括全局特征提取层,全局FPN层,各个任务的特定任务FPN层,各个任务的动态引导注意力层,各个下游任务分支。
在训练过程中,联邦训练节点中的训练器用本地数据库中的各个任务数据对本地神经网络库中对应的神经网络进行训练,得到各个本地模型中间结果,并将各个本地模型中间结果发送至联邦中央节点;联邦中央节点中的多任务接收器接收来自各个节点的各个本地模型并记录任务类型,将采集到的模型和任务信息发送至多任务分层融合器;多任务分层融合器根据任务类型对本地模型中间结果的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点;联邦训练节点中的训练器接收全局模型并执行下一轮迭代训练。其中,联邦训练节点可以是一台计算机或是一个计算机集群。
在一种可能的实现方式中,步骤1:对于多个联邦训练节点,在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务对应神经网络库中的一个网络,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点,包括:
根据任务需求和本地数据库中的数据集设计多个神经网络模型,并将所述多个神经网络模型存储到本地神经网络数据库;
用数据库中的每一种任务数据集分别对本地神经网络库中与任务对应的神经网络进行训练,当数据库中的所有任务数据集都完成一次训练后,保存每一种任务的模型参数为本地模型中间结果;
其中,所述多个神经网络模型结构有相同的基础特征层和特征金子塔网络结构FPN(Feature Pyramid Networks,特征金子塔网络结构)层,以保证可以实现后续多任务学习的特征共享;
训练器将本地模型中间结果发送至联邦中央节点,并停止训练。
在一种可能的实现方式中,所述步骤2:联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息,将采集到的模型和任务类型信息发送至多任务分层融合器,包括:
多任务接收器监听所有的联邦训练节点,接收各个联邦节点发送来的本地模型中间结果和其所包含的任务类型信息;当所有的本地模型中间结果和任务类型信息都接受完毕之后,将所有的本地模型中间结果和任务类型信息发送至多任务分层融合器。
在一种可能的实现方式中,所述步骤3:所述在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将动态引导注意力层添加到各个本地模型中间结果中,包括:
多任务分层融合器为每个节点的本地模型中间结果初始化一个动态引导注意力层,并将所述动态引导注意力层添加到所述基础特征层之后。
在一种可能的实现方式中,所述步骤4:在多任务分层融合器中,根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点,包括:
步骤4.1,对所有联邦节点的本地模型中间结果的特征提取层进行平均加权融合,生成全局特征提取层;
步骤4.2,对所有联邦节点的本地模型中间结果中相同任务的FPN层进行平均加权融合,为每个任务生成一个特定任务FPN层;
步骤4.3,对所有联邦节点的本地模型中间结果的FPN层进行平均加权融合,生成全局FPN层;
步骤4.4,对所有联邦节点的本地模型中间结果中相同任务的动态引导注意力层进行加权融合,为每个任务生成一个特定任务动态引导注意力层;
步骤4.5,对所有联邦节点的本地模型中间结果中相同任务的下游任务层进行加权融合,为每个任务生成一个特定下游任务层;
步骤4.6,全局特征提取层、全局FPN层、特定任务FPN层、特定任务动态引导注意力层、特定下游任务层联合组成全局模型,多任务融合器将全局模型发送至联邦训练节点。
图2示出本公开一实施例的联邦多任务模型训练过程中本地模型中新增模块的网络结构示意图。如图2所示,新增模块包括全局FPN层和动态引导注意力层,他们与已有的基础特征层和特定任务FPN层之间的网络结构如图2所示,顺序为基础特征层、特定任务FPN层、全局任务FPN层(全局FPN层),动态引导注意力层。动态引导注意力层生成对应的预测任务1,预测任务2,预测任务3。
其中,特定任务FPN层用于生成特定任务的特征信息,全局FPN层用于生成全局任务的特征信息。
在一种可能的实现方式中,所述在多个联邦训练节点中,各个节点的训练器接收所述全局模型并执行下一轮迭代训练,包括:
步骤5.1,各个联邦训练节点中的训练器监听并接收联邦中央节点发送来的全局模型;
步骤5.2,用全局模型的全局特征提取层参数替换本地各个模型中间结果的特征提取层参数;
步骤5.3,用全局模型的特定任务FPN层参数替换本地各个模型中间结果中该任务的FPN层参数;
步骤5.4,判断本地神经网络库中的本地模型中间结果是否包含全局FPN层;
如果本地神经网络库中的本地模型中间结果不包含全局FPN层,则在本地模型中间结果的特征提取层之后添加一个全局FPN层,并用全局模型中的全局FPN层的参数对添加的全局FPN层进行初始化;
如果本地模型中间结果已包含全局FPN层,则用全局模型中的全局FPN层参数替换本地模型中间结果中的全局FPN层参数;
步骤5.5,判断本地神经网络库中的本地模型中间结果中是否包含动态引导注意力层;
如果本地神经网络库中的本地模型中间结果中不包含动态引导注意力层,则在本地模型中间结果的特定任务FPN层之后添加与所述特定任务对应的特定任务动态引导注意力层,并用全局模型中的所述特定任务的特定任务动态引导注意力层的参数对添加的动态引导注意力层进行初始化;
如果本地模型中间结果已包含动态引导注意力层,则用全局模型中的与本地模型中间结果的任务对应的特定任务动态引导注意力层参数替换本地模型中间结果中的动态引导注意力层参数;
步骤5.6,训练器以更新后的本地模型中间结果为初始模型进行下一轮训练。
图3示出本公开一实施例的动态引导注意力层的网络结构框图。如图3所示,动态引导注意力层包括1×1卷积模块,3×3卷积模块,动态卷积模块,求和模块,1×1卷积模块,求和模块。其中,所述动态卷积模块包括:全连接层,门控线性单元,门控线性单元之后的全连接层,门控线性单元之后卷积层,卷积层之后的全连接层。在一种可能的实现方式中,在所述动态引导注意力层中进行如下处理:
本地模型中间结果中的FPN层产生的特征作为输入特征,全局FPN层产生的特征作为引导特征;
所述输入特征和所述引导特征作为动态引导注意力层的输入;
所述引导特征在动态引导注意力层中经过一个1×1的下采样卷积和一个3×3的卷积后,进入动态卷积模块;
在动态卷积模块中将经过卷积处理后的引导特征依次经过全连接层和门线控制单元的处理,接着经过一个残差模块,在残差模块中用全连接层生成动态权重,动态权重和门线控制单元的输出进行卷积得到卷积的结果,所述卷积的结果经过一个全连接层处理后输出动态卷积模块的结果;
动态卷积残差模块的结果经与所述3×3的卷积的结果经过一个1×1的上采样卷积生成动态加权后的引导特征;将动态加权后的引导特征与所述输入特征融合得到针对该任务的输出特征;
所述输出特征作为下游任务的输入特征。
动态引导注意力层的作用是捕捉任务之间的相关信息,从而通过动态加权来增强有用的互补特征,屏蔽任务之间互相干扰的噪音特征。
在残差模块中用全连接层生成动态权重,用动态权重为后续的卷积加权从而抑制噪音特征,增强有用互补特征。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (7)
1.一种基于动态引导注意力的联邦多任务学习方法,其特征在于,包括以下步骤:
步骤1:对于多个联邦训练节点,在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务对应神经网络库中的一个网络,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点;其中,所述联邦训练节点为一个服务器或包含多个服务器的集群;
步骤2:联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息,将采集到的模型和任务类型信息发送至多任务分层融合器;
步骤3:在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将动态引导注意力层添加到各个本地模型中间结果中;
步骤4:在多任务分层融合器中,根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点;
步骤5:在多个联邦训练节点中,各个节点的训练器接收所述全局模型并执行下一轮迭代训练;
步骤6:重复步骤1-步骤5,直到达到预设的训练终止条件,得到一个多任务神经网络模型。
2.根据权利要求1所述的一种基于动态引导注意力的联邦多任务学习方法,其特征在于,步骤1:对于多个联邦训练节点,在每个联邦训练节点中训练器用本地数据库中的数据集对本地神经网络库进行训练,每一种任务对应神经网络库中的一个网络,每一种任务得到一个本地模型中间结果,将多个本地模型中间结果发送至联邦中央节点,包括:
根据任务需求和本地数据库中的数据集设计多个神经网络模型,并将所述多个神经网络模型存储到本地神经网络数据库;
用数据库中的每一种任务数据集分别对本地神经网络库中与任务对应的神经网络进行训练,当数据库中的所有任务数据集都完成一次训练后,保存每一种任务的模型参数为本地模型中间结果;
其中,所述多个神经网络模型结构有相同的基础特征层和特征金子塔网络结构FPN层;
训练器将本地模型中间结果发送至联邦中央节点,并停止训练。
3.根据权利要求1所述的一种基于动态引导注意力的联邦多任务学习方法,其特征在于,所述步骤2:联邦中央节点中的多任务接收器接收来自各个联邦训练节点的本地模型中间结果并记录任务类型信息,将采集到的模型和任务类型信息发送至多任务分层融合器,包括:
多任务接收器监听所有的联邦训练节点,接收各个联邦节点发送来的本地模型中间结果和其所包含的任务类型信息;当所有的本地模型中间结果和任务类型信息都接受完毕之后,将所有的本地模型中间结果和任务类型信息发送至多任务分层融合器。
4.根据权利要求2所述的一种基于动态引导注意力的联邦多任务学习方法,其特征在于,所述在第一次融合之前,多任务分层融合器初始化一个动态引导注意力层,并将动态引导注意力层添加到各个本地模型中间结果中,包括:
多任务分层融合器为每个节点的本地模型中间结果初始化一个动态引导注意力层,并将所述动态引导注意力层添加到所述基础特征层之后。
5.根据权利要求1所述的一种基于动态引导注意力的联邦多任务学习方法,其特征在于,所述步骤4:在多任务分层融合器中,根据任务类型对本地模型中间结果中的各个模块进行分层融合生成全局模型并发送至各个联邦训练节点,包括:
步骤4.1,对所有联邦节点的本地模型中间结果的特征提取层进行平均加权融合,生成全局特征提取层;
步骤4.2,对所有联邦节点的本地模型中间结果中相同任务的FPN层进行平均加权融合,为每个任务生成一个特定任务FPN层;
步骤4.3,对所有联邦节点的本地模型中间结果的FPN层进行平均加权融合,生成全局FPN层;
步骤4.4,对所有联邦节点的本地模型中间结果中相同任务的动态引导注意力层进行加权融合,为每个任务生成一个特定任务动态引导注意力层;
步骤4.5,对所有联邦节点的本地模型中间结果中相同任务的下游任务层进行加权融合,为每个任务生成一个特定下游任务层;
步骤4.6,全局特征提取层、全局FPN层、特定任务FPN层、特定任务动态引导注意力层、特定下游任务层联合组成全局模型,多任务融合器将全局模型发送至联邦训练节点。
6.根据权利要求5所述的一种基于动态引导注意力的联邦多任务学习方法,其特征在于,所述在多个联邦训练节点中,各个节点的训练器接收所述全局模型并执行下一轮迭代训练,包括:
步骤5.1,各个联邦训练节点中的训练器监听并接收联邦中央节点发送来的全局模型;
步骤5.2,用全局模型的全局特征提取层参数替换本地各个模型中间结果的特征提取层参数;
步骤5.3,用全局模型的特定任务FPN层参数替换本地各个模型中间结果中该任务的FPN层参数;
步骤5.4,判断本地神经网络库中的本地模型中间结果是否包含全局FPN层;
如果本地神经网络库中的本地模型中间结果不包含全局FPN层,则在本地模型中间结果的特征提取层之后添加一个全局FPN层,并用全局模型中的全局FPN层的参数对添加的全局FPN层进行初始化;
如果本地模型中间结果已包含全局FPN层,则用全局模型中的全局FPN层参数替换本地模型中间结果中的全局FPN层参数;
步骤5.5,判断本地神经网络库中的本地模型中间结果中是否包含动态引导注意力层;
如果本地神经网络库中的本地模型中间结果中不包含动态引导注意力层,则在本地模型中间结果的特定任务FPN层之后添加与所述特定任务对应的特定任务动态引导注意力层,并用全局模型中的所述特定任务的特定任务动态引导注意力层的参数对添加的动态引导注意力层进行初始化;
如果本地模型中间结果已包含动态引导注意力层,则用全局模型中的与本地模型中间结果的任务对应的特定任务动态引导注意力层参数替换本地模型中间结果中的动态引导注意力层参数;
步骤5.6,训练器以更新后的本地模型中间结果为初始模型进行下一轮训练。
7.根据权利要求6所述的一种基于动态引导注意力的联邦多任务学习方法,其特征在于,在所述动态引导注意力层中进行如下处理:
本地模型中间结果中的FPN层产生的特征作为输入特征,全局FPN层产生的特征作为引导特征;
所述输入特征和所述引导特征作为动态引导注意力层的输入;
所述引导特征在动态引导注意力层中经过一个1×1的下采样卷积和一个3×3的卷积后,进入动态卷积模块;
在动态卷积模块中将经过卷积处理后的引导特征依次经过全连接层和门线控制单元的处理,接着经过一个残差模块,在残差模块中用全连接层生成动态权重,动态权重和门线控制单元的输出进行卷积得到卷积的结果,所述卷积的结果经过一个全连接层处理后输出动态卷积模块的结果;
动态卷积残差模块的结果经与所述3×3的卷积的结果经过一个1×1的上采样卷积生成动态加权后的引导特征;将动态加权后的引导特征与所述输入特征融合得到针对该任务的输出特征;
所述输出特征作为下游任务层的输入特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410353594.8A CN117951749B (zh) | 2024-03-27 | 2024-03-27 | 一种基于动态引导注意力的联邦多任务学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410353594.8A CN117951749B (zh) | 2024-03-27 | 2024-03-27 | 一种基于动态引导注意力的联邦多任务学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117951749A true CN117951749A (zh) | 2024-04-30 |
CN117951749B CN117951749B (zh) | 2024-06-07 |
Family
ID=90798586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410353594.8A Active CN117951749B (zh) | 2024-03-27 | 2024-03-27 | 一种基于动态引导注意力的联邦多任务学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117951749B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
US20200387762A1 (en) * | 2019-06-04 | 2020-12-10 | Beijing Institute Of Technology | Multi-task learning incorporating dependencies method for bionic eye's face attribute recognition |
US20210191967A1 (en) * | 2019-12-23 | 2021-06-24 | Apple Inc. | Timeline generation |
CN113139600A (zh) * | 2021-04-23 | 2021-07-20 | 广东安恒电力科技有限公司 | 基于联邦学习的智能电网设备异常检测方法和系统 |
CN113344806A (zh) * | 2021-07-23 | 2021-09-03 | 中山大学 | 一种基于全局特征融合注意力网络的图像去雾方法与系统 |
CN114254761A (zh) * | 2021-12-22 | 2022-03-29 | 安徽兰科智能科技有限公司 | 一种适用于异构网络的通用联邦学习实现方法 |
CN114612408A (zh) * | 2022-03-04 | 2022-06-10 | 拓微摹心数据科技(南京)有限公司 | 一种基于联邦深度学习的心脏图像处理方法 |
CN114998104A (zh) * | 2022-06-02 | 2022-09-02 | 青岛大学 | 一种基于分层学习与特征分离的超分辨率图像重建方法及系统 |
CN115310603A (zh) * | 2022-06-30 | 2022-11-08 | 华南理工大学 | 一种基于联邦迁移学习的装配监测模型训练方法及系统 |
CN115562244A (zh) * | 2022-10-26 | 2023-01-03 | 河北工业大学 | 一种基于动态联邦学习的设备故障诊断方法 |
CN115861650A (zh) * | 2022-12-14 | 2023-03-28 | 安徽大学 | 基于注意力机制和联邦学习的阴影检测方法、装置 |
CN116192307A (zh) * | 2023-03-06 | 2023-05-30 | 西安电子科技大学 | 非高斯噪声下分布式协同的多天线协作频谱智能感知方法、系统、设备及介质 |
CN116245886A (zh) * | 2023-02-15 | 2023-06-09 | 大连理工大学 | 一种基于联邦学习与注意力机制的医学图像分割方法 |
CN116957106A (zh) * | 2023-07-18 | 2023-10-27 | 北京交通大学 | 一种基于动态注意力机制的联邦学习模型训练方法 |
CN117009924A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 电子病历引导的多模态自适应多中心数据融合方法及系统 |
CN117036162A (zh) * | 2023-06-19 | 2023-11-10 | 河北大学 | 轻量级胸部ct图像超分辨率的残差特征注意力融合方法 |
CN117708872A (zh) * | 2023-11-28 | 2024-03-15 | 西华大学 | 一种面向车联网的分层异步联邦学习隐私保护方法 |
-
2024
- 2024-03-27 CN CN202410353594.8A patent/CN117951749B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200387762A1 (en) * | 2019-06-04 | 2020-12-10 | Beijing Institute Of Technology | Multi-task learning incorporating dependencies method for bionic eye's face attribute recognition |
US20210191967A1 (en) * | 2019-12-23 | 2021-06-24 | Apple Inc. | Timeline generation |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN113139600A (zh) * | 2021-04-23 | 2021-07-20 | 广东安恒电力科技有限公司 | 基于联邦学习的智能电网设备异常检测方法和系统 |
CN113344806A (zh) * | 2021-07-23 | 2021-09-03 | 中山大学 | 一种基于全局特征融合注意力网络的图像去雾方法与系统 |
CN114254761A (zh) * | 2021-12-22 | 2022-03-29 | 安徽兰科智能科技有限公司 | 一种适用于异构网络的通用联邦学习实现方法 |
CN114612408A (zh) * | 2022-03-04 | 2022-06-10 | 拓微摹心数据科技(南京)有限公司 | 一种基于联邦深度学习的心脏图像处理方法 |
CN114998104A (zh) * | 2022-06-02 | 2022-09-02 | 青岛大学 | 一种基于分层学习与特征分离的超分辨率图像重建方法及系统 |
CN115310603A (zh) * | 2022-06-30 | 2022-11-08 | 华南理工大学 | 一种基于联邦迁移学习的装配监测模型训练方法及系统 |
CN115562244A (zh) * | 2022-10-26 | 2023-01-03 | 河北工业大学 | 一种基于动态联邦学习的设备故障诊断方法 |
CN115861650A (zh) * | 2022-12-14 | 2023-03-28 | 安徽大学 | 基于注意力机制和联邦学习的阴影检测方法、装置 |
CN116245886A (zh) * | 2023-02-15 | 2023-06-09 | 大连理工大学 | 一种基于联邦学习与注意力机制的医学图像分割方法 |
CN116192307A (zh) * | 2023-03-06 | 2023-05-30 | 西安电子科技大学 | 非高斯噪声下分布式协同的多天线协作频谱智能感知方法、系统、设备及介质 |
CN117036162A (zh) * | 2023-06-19 | 2023-11-10 | 河北大学 | 轻量级胸部ct图像超分辨率的残差特征注意力融合方法 |
CN116957106A (zh) * | 2023-07-18 | 2023-10-27 | 北京交通大学 | 一种基于动态注意力机制的联邦学习模型训练方法 |
CN117009924A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 电子病历引导的多模态自适应多中心数据融合方法及系统 |
CN117708872A (zh) * | 2023-11-28 | 2024-03-15 | 西华大学 | 一种面向车联网的分层异步联邦学习隐私保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117951749B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389078B (zh) | 图像分割方法、相应的装置及电子设备 | |
Mallmann et al. | PPCensor: Architecture for real-time pornography detection in video streaming | |
CN113221183A (zh) | 实现隐私保护的多方协同更新模型的方法、装置及系统 | |
CN117499658A (zh) | 使用神经网络生成视频帧 | |
CN114936377A (zh) | 模型训练和身份匿名化方法、装置、设备及存储介质 | |
Quader et al. | Weight excitation: Built-in attention mechanisms in convolutional neural networks | |
US20220207861A1 (en) | Methods, devices, and computer readable storage media for image processing | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN117951749B (zh) | 一种基于动态引导注意力的联邦多任务学习方法 | |
KR20220039313A (ko) | 뉴럴 네트워크 연산 처리 방법 및 장치 | |
CN114764593A (zh) | 一种模型训练方法、模型训练装置及电子设备 | |
CN112487931B (zh) | 对抗攻击的方法、装置、可读介质和电子设备 | |
CN113542527A (zh) | 一种人脸图像传输方法、装置、电子设备及存储介质 | |
US20230290128A1 (en) | Model training method and apparatus, deidentification method and apparatus, device, and storage medium | |
CN117710688B (zh) | 基于卷积和注意力相结合特征提取的目标跟踪方法及系统 | |
CN113569605B (zh) | 视频信息处理方法、装置、电子设备及存储介质 | |
CN114154645B (zh) | 跨中心图像联合学习方法、系统、存储介质及电子设备 | |
Jothi Lakshmi et al. | TA-DNN—two stage attention-based deep neural network for single image rain removal | |
CN112561778B (zh) | 图像风格化处理方法、装置、设备及存储介质 | |
CN113591868A (zh) | 一种基于全双工策略的视频目标分割方法及系统 | |
CN115423858A (zh) | 一种单目深度估计方法、装置、电子设备及存储介质 | |
Liao et al. | MWformer: a novel low computational cost image restoration algorithm | |
CN114330512A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN118552639A (zh) | 图像生成方法、装置、计算机、存储介质及程序产品 | |
CN115203228A (zh) | 数据处理方法、装置、介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |