CN109711529A - 一种基于值迭代网络的跨领域联邦学习模型及方法 - Google Patents

一种基于值迭代网络的跨领域联邦学习模型及方法 Download PDF

Info

Publication number
CN109711529A
CN109711529A CN201811346991.3A CN201811346991A CN109711529A CN 109711529 A CN109711529 A CN 109711529A CN 201811346991 A CN201811346991 A CN 201811346991A CN 109711529 A CN109711529 A CN 109711529A
Authority
CN
China
Prior art keywords
network
vin
parameter
federated
fields
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811346991.3A
Other languages
English (en)
Other versions
CN109711529B (zh
Inventor
申珺怡
卓汉逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811346991.3A priority Critical patent/CN109711529B/zh
Publication of CN109711529A publication Critical patent/CN109711529A/zh
Application granted granted Critical
Publication of CN109711529B publication Critical patent/CN109711529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于值迭代网络的跨领域联邦学习模型及方法,该模型包括:数据准备单元,用于通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;Federated‑VIN网络建立单元,用于建立基于值迭代网络的Federated‑VIN网络结构,构建源领域与目标领域的值迭代模块的全连接,并根据新构建的网络定义新的关于两领域的联合损失函数;迭代单元,用于于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;后向更新单元,用于后向计算更新网络参数,根据该联合损失函数交替后向更新两领域的VIN参数及全连接参数。

Description

一种基于值迭代网络的跨领域联邦学习模型及方法
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于值迭代网络的跨领域联邦学习模型及方法。
背景技术
强化学习(Reinforcement Learning,RL)是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价,而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少,智能体必须靠自身的经历进行学习。通过这种方式,在行动-评价的环境中获得知识,改进行动方案以适应环境。
深度强化学习(Deep Reinforcement Learning,DRL)是将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。DRL是一种端对端(end-to-end)的感知与控制系统,具有很强的通用性。其学习过程可以描述为:在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;再基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;最后环境对此动作做出反应,并得到下一个观察;通过不断循环以上过程,最终可以得到实现目标的最优策略。
现有技术中,具有较好泛化能力的深度强化学习模型是值迭代网络(ValueIteration Networks,VINs),值迭代网络VINs引入了一个具备规划能力的值迭代模块(VI),在引入的该空间进行辅助策略的求解,VINs将奖励函数和转移函数也参数化,具体地采用了CNN结构表示,使得能够求导进行端到端地学习;引入了CNN模拟的值迭代算法迭代更新多次值函数,使得最优策略更具有泛化能力;并在策略的求解当中引入注意力机制(attention);最后整个VINs网络可等价为一个嵌套的CNN网络,且能够使用后向更新算法更新参数,预测最优策略。
然而,由于VINs方法是针对一个特定领域预测最优策略的模型,如果两个相似领域具有不同的特征空间或不同的动作空间,那么VINs方法需要在各自领域分别单独训练。因此该方法对于新的领域需要高成本地重新训练模型,并且每个领域需要足够多的训练数据,当新领域的数据量不足时,模型的预测准确率低。
迁移学习(Transfer Learning)是一种机器学习的方法,指的是一个预训练的模型被重新用在另一个任务中。迁移学习与多任务学习以及概念飘移这些问题相关,它不是一个专门的机器学习领域。然而,迁移学习在某些深度学习问题中是非常受欢迎的,例如在具有大量训练深度模型所需的资源或者具有大量的用来预训练模型的数据集的情况。仅在第一个任务中的深度模型特征是泛化特征的时候,迁移学习才会起作用。深度学习中的这种迁移被称作归纳迁移。就是通过使用一个适用于不同但是相关的任务的模型,以一种有利的方式缩小可能模型的搜索范围。深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法,通常这些预训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源,迁移学习可以将已习得的强大技能迁移到相关的的问题上。
现有的基于DRL的迁移学习方法有Actor-Mimic,该方法提出一个基于深度强化学习的多任务模型,并且在给定源领域预训练好的Actor-Mimic模型后,将其迁移作为目标领域的初始化,使得目标领域重新训练出一个得分更高的模型。
Actor-Mimic迁移学习方法首先是以深度强化学习DRL的多任务模型为基础,该多任务模型通过多个领域共享CNN中间特征提取层的参数,而在输入层和输出的全连接层保留各自领域独特的参数,使用多个领域的所有数据共同训练出一个预训练Actor-Mimic模型,对于目标领域,在迁移时首先给定在源领域预训练好的模型参数,将其作为目标领域模型的初始化;再使用目标领域的所有数据集,在目标领域重新学习整套参数,训练出一个得分更高的模型。
然而,现有Actor-Mimic迁移学习是基于传统的DRL网络,没有利用VINs网络泛化能力强的优点,Actor-Mimic的迁移策略在目标领域只做了初始化的作用,目标领域的所有参数仍需重新训练,没有减少需要学习的参数量,并且Actor-Mimic迁移学习方法在源领域或目标领域进行训练时,对每个领域同样需要大量的数据集;在训练时数据之间是互相可见的,共享了数据信息,没有做到保护原始数据隐私。
迁移学习的问题在于没有考虑对源模型或者源数据的隐私保护;两个领域的特征空间完全不同(不能做特征空间映射)的情况下,不能迁移学习,迁移学习是可能存在性能损失的,当模型从源领域迁移到目标领域仅作为初始化时,从模型中学到的一大部分关于源领域的知识可能丢失,只有和目标领域共享的部分知识保留,甚至在领域相似度不高时会出现负迁移,然而联邦学习可以在不共享数据的前提下,利用双方的数据实现两个领域的模型增长。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于值迭代网络的跨领域联邦学习模型及方法,以通过源领域与目标领域值迭代模块的全连接,实现相似知识的互相利用,从而提高各自最优策略的预测准确率。
本发明之另一目的在于提供一种基于值迭代网络的跨领域联邦学习模型及方法,以实现在不共享数据的前提下,保护数据隐私,同时利用双方的数据实现模型效果增长。
为达上述目的,本发明提出一种基于值迭代网络的跨领域联邦学习模型,包括:
数据准备单元,用于通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;
Federated-VIN网络建立单元102,用于建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;
值迭代执行单元,用于于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;
后向更新单元,用于后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数。
优选地,所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域,输入模型的状态观测包括当前位置、目标位置和网格地图图像,模型输出即当前状态下的最优动作策略。
优选地,输入模型的状态观测,所述数据准备单元对每个轨迹中的每个状态s(i,j),生成一个2*m*n大小的状态观测图像,图像的第一通道对网格地图障碍物的存在进行编码,而第二通道对目标位置进行编码,一条完整的观测向量由地图和状态s(i,j)组成,并对每个输入状态,生成一个动作标注作为专家策略。
优选地,所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接,该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度,具有较高相似性的跨域动作分配较大的权重。
优选地,所述新的关于两领域的联合损失函数为:
LFVINA,θB,θt)=LAA,θt)+LEB,θt)
其中θt表示全连接权重,A、B分别表示联邦学习的两领域。具体地,Lii,θt)表示每个领域更新时的目标函数:Lii,θt)=Lii)+Lti,θt),其中Lti,θt)表示Federated-VIN中全连接权重的损失函数。
优选地,所述值迭代执行单元在每个迭代步根据Federated-VIN网络,将两领域各自的部分观测特征输入网络,并通过值迭代网络VIN前向计算得到各自的动作预测结果。
优选地,所述值迭代执行单元前向计算中,将每一次迭代近似为将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程。
优选地,所述后向更新单元采用交替更新方式,首先对Federated-VIN固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
为达到上述目的,本发明还提供一种基于值迭代网络的跨领域联邦学习方法,包括如下步骤:
步骤S1,通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;
步骤S2,建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;
步骤S3,于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;
步骤S4,通过后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数。
优选地,于步骤S4中,采用交替更新方式,首先对Federated-VIN网络固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
与现有技术相比,本发明一种基于值迭代网络的跨领域联邦学习模型及方法通过通过构建源领域与目标领域的值迭代模块之间的全连接,建立了领域之间的相似关系,并能端到端地自动学习该相似性,以作为联邦学习知识利用的桥梁,并提出了训练模型时的交替学习,使得两领域互相利用内部知识、互相提升,从而提高各自最优策略的预测准确率,本发明相对于现有的单独的值迭代网络而言,可以克服单个领域依赖大规模数据训练的高计算复杂性和成本消耗等缺陷,相对于传统迁移学习而言,实现在不共享数据的前提下,保护数据隐私,同时利用双方的数据实现模型效果增长。
附图说明
图1为本发明一种基于值迭代网络的跨领域联邦学习模型的结构示意图;
图2为本发明具体实施中VI模块K次值迭代示意图;
图3为本发明一种基于值迭代网络的跨领域联邦学习方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
在介绍本发明之前,先对本发明所涉及的缩略语和关键术语定义如下:
深度学习:深度学习是由Hinton等人于2006年提出,是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别图像、文字等数据。
卷积神经网络:卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。一般地,CNN的基本结构包括卷积层(convolutional layer)和池化层(poolinglayer),其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
强化学习:强化学习(reinforcement learning,RL),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价,而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少,智能体必须靠自身的经历进行学习。通过这种方式,在行动-评价的环境中获得知识,改进行动方案以适应环境。
值迭代网络:值迭代网络(Value Iteration Networks,VINs)为了解决深度强化学习当中泛化能力差的问题,引入了一个具备规划能力的值迭代模块(Value IterationModule,VI Module)。在一般性的策略表示当中加入了一个规划模块,引入的该空间辅助策略的求解,使得学习到的最优策略更具有泛化能力。
图1为本发明一种基于值迭代网络的跨领域联邦学习模型的结构示意图。如图1所示本发明一种基于值迭代网络的跨领域联邦学习模型,包括:
数据准备单元101,用于通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入,在本发明具体实施例中,两个不同部分观测状态s(i,j)和s′(i,j)分别作为两个领域,领域A和领域B的输入。
具体地,数据准备单元101采用随机设置障碍物的网格地图中的路径规划作为实验领域,其中输入模型的状态观测包括当前位置、目标位置和网格地图图像。具体而言,对于每个轨迹中的每个状态s(i,j),生成一个(2*m*n)大小的状态观测图像,图像的第一通道对网格地图障碍物的存在进行编码(对于障碍物为1,否则为0),而第二通道对目标位置(目标处的1,否则为0)进行编码。一条完整的观测向量由地图和状态s(i,j)组成。此外,对于每个输入状态,需要生成一个动作标注作为专家策略,表示在该状态下最优路径策略将采取的动作决策。在本发明的网格地图领域中,动作空间共有8个可执行动作:{东、西、北、南、东北、西北、东南、西南}。
网格领域规划的复杂性一般取决于障碍物的数量及其在网格地图上的分布。因此,可以根据不同数量的障碍和不同大小的网格地图作为不同训练领域进行联邦学习。例如两个域分别是尺寸为8*8和16*16的网格地图,随机地放置比例为30%或50%的障碍物。另外,许多其他应用领域,比如导航、仓库调度等可以匹配对应到具有不同复杂性的网格地图中,因此Federated-VIN对多种规划领域均有效。
本发明中预测精确度是通过计算每个网络对应领域的所有试验中成功试验的比例来定义的。因此,对于测试集中的每个状态,若与专家动作相同,则预测动作被认为是成功的。
Federated-VIN网络建立单元102,用于建立基于VIN(Value IterationNetworks,值迭代网络)的Federated-VIN网络结构,并构建源领域与目标领域值迭代模块的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的损失函数。
在本发明具体实施例中,Federated-VIN网络建立单元102建立Federated-VIN网络结构,Federated-VIN具有具备规划能力的值迭代模块(VI),Federated-VIN网络建立单元102构建源领域与目标领域的VI模块的连接,由于VIN网络中Q学习层每个卷积通道对应于该领域中特定动作a的Q函数Q(s,a),包含了关于该领域的策略规划信息。本发明中,在两领域Q学习层的各个动作通道之间构建了全连接网络,该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度,具有较高相似性的跨域动作分配较大的权重。因此,Federated-VIN网络可以自动学习两个域之间的动作相似度,从而减少了人工选择相似动作对进行迁移的人力成本。
本发明将这种连接建立在VI模块中,实现了联邦学习中的双方原始数据保密。由于两个领域的预测目标都是学习最优路径从起点到给定目标点,两领域的状态观测不同,但其中通过VIN学习到的部分策略预测知识是重合的。因此基于VIN可以实现在不共享输入的原始数据前提下,利用双方的部分观测及网络隐藏知识实现双方模型增长。本发明Federated-VIN的做法是,首先通过各自领域的VI模块加密策略信息,再通过全连接桥梁交换知识的手段,建立动作对的相似度并进行沟通,在加密状态下用全连接权重迁移共有的部分知识。因为原始的状态观测数据并没有得到交换,交换的只是VI模块学习后共有的部分信息,因此达到了数据隐私保护,然后,双方将各自拥有的不同部分观测数据作为输入,迭代地进行训练模型、交换参数、更新参数。基于Federated-VIN的知识迁移,双方不能互相反推出对方拥有的、自己没有的观测特征,因此数据隐私仍然得到了保护。
对于单领域VIN中,损失函数可用交叉熵损失表示:
对于本发明的Federated-VIN,定义新的关于两领域的联合损失函数,并加入全连接权重的学习目标,LFVIN表示为:
LFVINA,θB,θt)=LAA,θt)+LBB,θt)
其中θt表示全连接权重,A、B分别表示联邦学习的两领域。具体地,Lii,θt)表示每个领域更新时的目标函数:Lii,θt)=Lii)+Lti,θt),其中Lti,θt)表示了Federated-VIN中全连接权重的损失函数,可以将其定义为平方差损失,例如对于领域A:LtA,θt)=||θB-F(θA,θt)||2,对于领域B后向更新时同理:LtB,θt)=||θA-F(θB,θt)||2
值迭代执行单元103,于训练时首先对两领域VIN进行前向计算,通过VI模块实现若干次迭代,在每个迭代步根据Federated-VIN联邦网络,将两领域各自的部分观测特征输入网络,并通过VIN前向计算各自的动作预测结果。
对两领域VIN进行前向计算,在每个迭代步根据Federated-VIN联邦网络,输入两领域各自的部分观测状态,并通过前向计算得到各自的动作预测结果πA和πB
在传统的强化学习中,值迭代算法是常用且有效的用于计算最优值函数和最优策略的迭代求解算法。每次迭代中,根据贝尔曼(Bellman)方程更新V函数和Q函数:
其中,
Qn(s,a)=R(s,a)+γ∑s′P(s′|s,α)Vn(s′).
值迭代网络VIN的特点即是利用可导的卷积神经网络近似模拟实现了该传统值迭代算法的过程。本发明中VI模块的具体结构如图2,该模块每一次迭代可近似为是将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程;在卷积计算层,每一个特征图对应该领域中一个具体的动作a对应的Q函数的结果,卷积层中的特征图数量与动作空间数量一致。且卷积层当中的卷积核参数正好对应于值迭代中的状态转移概率函数。因此,卷积计算求得Q函数可表示为:
卷积计算得到结果后,对不同通道的Q值进行最大池化操作,即最大池化层实现Vn+1(s)=maxaQn(s,a),这一步的迭代更新V函数。下一步迭代时,同理,把该步求得的Vn和奖励函数R叠加起来传入卷积层和最大池化层,如此循环K步,实现K次值函数的迭代更新,于是这样的VI模块便具备了值迭代的功能,同时该CNN网络能够通过现有的后向更新(BP)算法来进行参数的学习。
后向更新单元104,用于后向计算更新网络参数,根据新定义的损失函数交替后向更新两领域的VIN参数及全连接参数。即后向更新单元104采用交替更新方式,对Federated-VIN先固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
在Federated-VIN中,两领域的VIN采用CNN网络结构表示,前向计算后通过端到端地最优化损失函数LFVINA,θB,θt),再实现网络的反向传播更新,从而学习到联合参数,例如通过随机梯度下降的最优化学习方法。对于单领域VIN,Lii)对应可得到以下梯度:
基于该梯度,在Federated-VIN中依次后向计算更新网络参数θA,θB,θt。即先固定领域B的网络参数θB,根据损失函数LAA,θt)更新目标领域参数θA;再固定目标领域A的网络参数θA,根据损失函数LBB,θt)更新源领域参数θB;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数θt。迭代地进行训练模型、交换参数、交替更新参数,最后Federated-VIN学习到接近于专家标注策略的最优策略,从而达到互相利用知识进行联邦学习的目的。
图3为本发明一种基于值迭代网络的跨领域联邦学习方法的步骤流程图。如图3所示,本发明一种基于值迭代网络的跨领域联邦学习方法,包括如下步骤:
步骤S1,通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入。
具体地,于步骤S1中,采用随机设置障碍物的网格地图中的路径规划作为实验领域,其中输入模型的状态观测包括当前位置、目标位置和网格地图图像。具体而言,对于每个轨迹中的每个状态s(i,j),生成一个(2*m*n)大小的状态观测图像,图像的第一通道对网格地图障碍物的存在进行编码(对于障碍物为1,否则为0),而第二通道对目标位置(目标处的1,否则为0)进行编码。一条完整的观测向量由地图和状态s(i,j)组成。此外,对于每个输入状态,需要生成一个动作标注作为专家策略,表示在该状态下最优路径策略将采取的动作决策。在本发明的网格地图领域中,动作空间共有8个可执行动作:{东、西、北、南、东北、西北、东南、西南}。
步骤S2,建立基于VIN(Value Iteration Networks,值迭代网络)的Federated-VIN网络结构,并构建源领域与目标领域值迭代模块的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的损失函数。
在本发明具体实施例中,于步骤S2中,首先建立Federated-VIN网络结构,该Federated-VIN网络具有具备规划能力的值迭代模块(VI),然后构建源领域与目标领域的VI模块的连接,由于VIN网络中Q学习层每个卷积通道对应于该领域中特定动作a的Q函数Q(s,a),包含了关于该领域的策略规划信息,本发明中,在两领域Q学习层的各个动作通道之间构建了全连接网络,该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度,具有较高相似性的跨域动作分配较大的权重。因此,Federated-VIN网络可以自动学习两个域之间的动作相似度,从而减少了人工选择相似动作对进行迁移的人力成本。
本发明将这种连接建立在VI模块中,实现了联邦学习中的双方原始数据保密。由于两个领域的预测目标都是学习最优路径从起点到给定目标点,两领域的状态观测不同,但其中通过VIN学习到的部分策略预测知识是重合的。因此基于VIN可以实现在不共享输入的原始数据前提下,利用双方的部分观测及网络隐藏知识实现双方模型增长。本发明Federated-VIN的做法是,首先通过各自领域的VI模块加密策略信息,再通过全连接桥梁交换知识的手段,建立动作对的相似度并进行沟通,在加密状态下用全连接权重迁移共有的部分知识。因为原始的状态观测数据并没有得到交换,交换的只是VI模块学习后共有的部分信息,因此达到了数据隐私保护,然后,双方将各自拥有的不同部分观测数据作为输入,迭代地进行训练模型、交换参数、更新参数。基于Federated-VIN的知识迁移,双方不能互相反推出对方拥有的、自己没有的观测特征,因此数据隐私仍然得到了保护。
对于本发明的Federated-VIN,定义新的关于两领域的联合损失函数,并加入全连接权重的学习目标,LFVIN表示为:
LFVINA,θB,θt)=LAA,θt)+LBB,θt)
其中θt表示全连接权重,A、B分别表示联邦学习的两领域。具体地,Lii,θt)表示每个领域更新时的目标函数:Lii,θt)=Lii)+Lti,θt),其中Lti,θt)表示了Federated-VIN中全连接权重的损失函数,可以将其定义为平方差损失,例如对于领域A:LtA,θt)=||θB-F(θA,θt)||2,对于领域B后向更新时同理:LtB,θt)=||θA-F(θB,θt)||2
步骤S3,于训练时首先对两领域VIN进行前向计算,通过VI模块实现若干次迭代,在每个迭代步根据Federated-VIN联邦网络,将两领域各自的部分观测特征输入网络,并通过VIN前向计算各自的动作预测结果。用于于训练时对两领域的VI模块分别进行前向计算,并对VI模块进行若干次值迭代
也就是说,于步骤S3中,对两领域VIN进行前向计算,在每个迭代步根据Federated-VIN联邦网络,输入两领域各自的部分观测状态,并通过前向计算得到各自的动作预测结果πA和πB
值迭代网络VIN的特点即是利用可导的卷积神经网络近似模拟实现了传统值迭代算法的过程。本发明中VI模块的具体结构如图2,该模块每一次迭代可近似为是将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程;在卷积计算层,每一个特征图对应该领域中一个具体的动作a对应的Q函数的结果,卷积层中的特征图数量与动作空间数量一致。且卷积层当中的卷积核参数正好对应于值迭代中的状态转移概率函数。因此,卷积计算求得Q函数可表示为:
卷积计算得到结果后,对不同通道的Q值进行最大池化操作,即最大池化层实现Vn+1(s)=maxaQn(s,a),这一步的迭代更新V函数。下一步迭代时,同理,把该步求得的Vn和奖励函数R叠加起来传入卷积层和最大池化层,如此循环K步,实现K次值函数的迭代更新,于是这样的VI模块便具备了值迭代的功能,同时该CNN网络能够通过现有的后向更新(BP)算法来进行参数的学习。
步骤S4,后向计算更新网络参数,根据新定义的损失函数交替后向更新两领域的VIN参数及全连接参数。即采用交替更新方式,对Federated-VIN先固定源领域的网络参数,根据损失函数更新目标领域参数;再固定目标领域的网络参数,根据损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
在Federated-VIN中,两领域的VIN采用CNN网络结构表示,前向计算后通过端到端地最优化损失函数LFVINA,θB,θt),再实现网络的反向传播更新,从而学习到联合参数,例如通过随机梯度下降的最优化学习方法。对于单领域VIN,Lii)对应可得到以下梯度:
基于该梯度,在Federated-VIN中依次后向计算更新网络参数θA,θB,θt。即先固定领域B的网络参数θB,根据损失函数LAA,θt)更新目标领域参数θA;再固定目标领域A的网络参数θA,根据损失函数LBB,θt)更新源领域参数θB;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数θt。迭代地进行训练模型、交换参数、交替更新参数,最后Federated-VIN学习到接近于专家标注策略的最优策略,从而达到互相利用知识进行联邦学习的目的。
综上所述,本发明一种基于值迭代网络的跨领域联邦学习模型及方法通过通过构建源领域与目标领域的值迭代模块之间的全连接,建立了领域之间的相似关系,并能端到端地自动学习该相似性,以作为联邦学习知识利用的桥梁,并提出了训练模型时的交替学习,使得两领域互相利用内部知识、互相提升,从而提高各自最优策略的预测准确率,本发明相对于现有的单独的值迭代网络而言,可以克服单个领域依赖大规模数据训练的高计算复杂性和成本消耗等缺陷,相对于传统迁移学习而言,实现在不共享数据的前提下,保护数据隐私,同时利用双方的数据实现模型效果增长。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于值迭代网络的跨领域联邦学习模型,包括:
数据准备单元,用于通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;
Federated-VIN网络建立单元102,用于建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;
值迭代执行单元,用于于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;
后向更新单元,用于后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数。
2.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域,输入模型的状态观测包括当前位置、目标位置和网格地图图像,模型输出即当前状态下的最优动作策略。
3.如权利要求2所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:输入模型的状态观测,所述数据准备单元对每个轨迹中的每个状态s(i,j),生成一个2*m*n大小的状态观测图像,图像的第一通道对网格地图障碍物的存在进行编码,而第二通道对目标位置进行编码,一条完整的观测向量由地图和状态s(i,j)组成,并对每个输入状态,生成一个动作标注作为专家策略。
4.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接,该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度,具有较高相似性的跨域动作分配较大的权重。
5.如权利要求4所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于,所述新的关于两领域的联合损失函数为:
LFVINA,θB,θt)=LAA,θt)+LBB,θt)
其中θt表示全连接权重,A、B分别表示联邦学习的两领域,Lii,θt)表示每个领域更新时的目标函数:Lii,θt)=Lii)+Lti,θt),其中Lti,θt)表示Federated-VIN中全连接权重的损失函数。
6.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述值迭代执行单元在每个迭代步根据Federated-VIN网络,将两领域各自的部分观测特征输入网络,并通过值迭代网络VIN前向计算得到各自的动作预测结果。
7.如权利要求6所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述值迭代执行单元前向计算中,将每一次迭代近似为将上一次迭代的值函数Vn和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程。
8.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型,其特征在于:所述后向更新单元采用交替更新方式,首先对Federated-VIN固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
9.一种基于值迭代网络的跨领域联邦学习方法,包括如下步骤:
步骤S1,通过使用网格地图的路径规划领域作为训练环境,将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入;
步骤S2,建立基于值迭代网络VIN的Federated-VIN网络结构,构建源领域与目标领域的值迭代模块VI的全连接,每个连接权重对应源领域与目标领域之间该对动作的相似度,并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数;
步骤S3,于训练时对两领域的VI模块分别进行前向计算,通过VI模块实现若干次值迭代;
步骤S4,通过后向计算更新网络参数,根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数。
10.如权利要求9所述的一种基于值迭代网络的跨领域联邦学习方法,其特征在于:于步骤S4中,采用交替更新方式,首先对Federated-VIN网络固定源领域的网络参数,根据联合损失函数更新目标领域参数;再固定目标领域的网络参数,根据联合损失函数更新源领域参数;最后将两领域的VIN参数固定,作为不可训练参数,更新Federated-VIN中的全连接桥梁参数,从而达到训练过程交替更新,互相利用知识联邦学习的目的。
CN201811346991.3A 2018-11-13 2018-11-13 一种基于值迭代网络的跨领域联邦学习模型及方法 Active CN109711529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811346991.3A CN109711529B (zh) 2018-11-13 2018-11-13 一种基于值迭代网络的跨领域联邦学习模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811346991.3A CN109711529B (zh) 2018-11-13 2018-11-13 一种基于值迭代网络的跨领域联邦学习模型及方法

Publications (2)

Publication Number Publication Date
CN109711529A true CN109711529A (zh) 2019-05-03
CN109711529B CN109711529B (zh) 2022-11-08

Family

ID=66254869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811346991.3A Active CN109711529B (zh) 2018-11-13 2018-11-13 一种基于值迭代网络的跨领域联邦学习模型及方法

Country Status (1)

Country Link
CN (1) CN109711529B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232652A (zh) * 2019-05-27 2019-09-13 珠海格力电器股份有限公司 图像处理引擎处理方法、用于终端的图像处理方法、终端
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110378487A (zh) * 2019-07-18 2019-10-25 深圳前海微众银行股份有限公司 横向联邦学习中模型参数验证方法、装置、设备及介质
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN111062493A (zh) * 2019-12-20 2020-04-24 深圳前海微众银行股份有限公司 基于公共数据的纵向联邦方法、装置、设备及介质
CN111104731A (zh) * 2019-11-19 2020-05-05 北京集奥聚合科技有限公司 一种用于联邦学习的图形化模型全生命周期建模方法
CN111126609A (zh) * 2019-12-20 2020-05-08 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质
CN111210003A (zh) * 2019-12-30 2020-05-29 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN111222646A (zh) * 2019-12-11 2020-06-02 深圳逻辑汇科技有限公司 联邦学习机制的设计方法、装置和存储介质
CN111221963A (zh) * 2019-11-19 2020-06-02 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111310932A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 横向联邦学习系统优化方法、装置、设备及可读存储介质
CN111401557A (zh) * 2020-06-03 2020-07-10 超参数科技(深圳)有限公司 智能体决策制定方法、ai模型训练方法、服务器及介质
CN111428801A (zh) * 2020-03-30 2020-07-17 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111461442A (zh) * 2020-04-07 2020-07-28 中国科学技术大学 基于联邦学习的知识追踪的方法及系统
CN111737921A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 基于循环神经网络的数据处理方法、设备及介质
WO2021022707A1 (zh) * 2019-08-06 2021-02-11 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
CN112418434A (zh) * 2020-11-06 2021-02-26 中国石油大学(华东) 一种基于强化学习的联邦学习模型融合策略
CN112669216A (zh) * 2021-01-05 2021-04-16 华南理工大学 一种基于联邦学习的并行空洞新结构的超分辨率重构网络
CN112734030A (zh) * 2020-12-31 2021-04-30 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
WO2021092977A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 纵向联邦学习优化方法、装置、设备及存储介质
CN113269807A (zh) * 2020-02-17 2021-08-17 株式会社日立制作所 对物体辨识模型的沿用可否进行判定的系统及方法
CN113449319A (zh) * 2021-06-23 2021-09-28 华东师范大学 一种面向跨筒仓联邦学习的保护本地隐私的梯度下降方法
CN113553377A (zh) * 2021-07-21 2021-10-26 湖南天河国云科技有限公司 基于区块链和联邦学习的数据共享方法及装置
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113837108A (zh) * 2021-09-26 2021-12-24 重庆中科云从科技有限公司 人脸识别方法、装置及计算机可读存储介质
WO2022160578A1 (zh) * 2021-01-27 2022-08-04 深圳前海微众银行股份有限公司 基于状态转移核优化的数据处理方法、装置、设备及介质
CN115037669A (zh) * 2022-04-27 2022-09-09 东北大学 一种基于联邦学习的跨域数据传输方法
US11588621B2 (en) 2019-12-06 2023-02-21 International Business Machines Corporation Efficient private vertical federated learning
US11645582B2 (en) 2020-03-27 2023-05-09 International Business Machines Corporation Parameter sharing in federated learning
CN117575291A (zh) * 2024-01-15 2024-02-20 湖南科技大学 基于边缘参数熵的联邦学习的数据协同管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100010943A1 (en) * 2008-07-09 2010-01-14 Masato Ito Learning device, learning method, and program
US20150301510A1 (en) * 2014-04-22 2015-10-22 Siegmund Düll Controlling a Target System
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107527068A (zh) * 2017-08-07 2017-12-29 南京信息工程大学 基于cnn和域自适应学习的车型识别方法
WO2018137357A1 (zh) * 2017-01-24 2018-08-02 北京大学 一种目标检测性能优化的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100010943A1 (en) * 2008-07-09 2010-01-14 Masato Ito Learning device, learning method, and program
US20150301510A1 (en) * 2014-04-22 2015-10-22 Siegmund Düll Controlling a Target System
WO2018137357A1 (zh) * 2017-01-24 2018-08-02 北京大学 一种目标检测性能优化的方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107527068A (zh) * 2017-08-07 2017-12-29 南京信息工程大学 基于cnn和域自适应学习的车型识别方法

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232652A (zh) * 2019-05-27 2019-09-13 珠海格力电器股份有限公司 图像处理引擎处理方法、用于终端的图像处理方法、终端
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110378487A (zh) * 2019-07-18 2019-10-25 深圳前海微众银行股份有限公司 横向联邦学习中模型参数验证方法、装置、设备及介质
CN110378487B (zh) * 2019-07-18 2021-02-26 深圳前海微众银行股份有限公司 横向联邦学习中模型参数验证方法、装置、设备及介质
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN110399742B (zh) * 2019-07-29 2020-12-18 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
WO2021022707A1 (zh) * 2019-08-06 2021-02-11 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
WO2021092977A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 纵向联邦学习优化方法、装置、设备及存储介质
CN111221963A (zh) * 2019-11-19 2020-06-02 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111221963B (zh) * 2019-11-19 2023-05-12 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111104731B (zh) * 2019-11-19 2023-09-15 北京集奥聚合科技有限公司 一种用于联邦学习的图形化模型全生命周期建模方法
CN111104731A (zh) * 2019-11-19 2020-05-05 北京集奥聚合科技有限公司 一种用于联邦学习的图形化模型全生命周期建模方法
US11588621B2 (en) 2019-12-06 2023-02-21 International Business Machines Corporation Efficient private vertical federated learning
CN111222646A (zh) * 2019-12-11 2020-06-02 深圳逻辑汇科技有限公司 联邦学习机制的设计方法、装置和存储介质
CN111062493A (zh) * 2019-12-20 2020-04-24 深圳前海微众银行股份有限公司 基于公共数据的纵向联邦方法、装置、设备及介质
CN111062493B (zh) * 2019-12-20 2021-06-15 深圳前海微众银行股份有限公司 基于公共数据的纵向联邦方法、装置、设备及介质
CN111126609A (zh) * 2019-12-20 2020-05-08 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质
CN111126609B (zh) * 2019-12-20 2021-04-23 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质
CN111210003A (zh) * 2019-12-30 2020-05-29 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN111210003B (zh) * 2019-12-30 2021-03-19 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN111310932A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 横向联邦学习系统优化方法、装置、设备及可读存储介质
CN113269807A (zh) * 2020-02-17 2021-08-17 株式会社日立制作所 对物体辨识模型的沿用可否进行判定的系统及方法
US11645582B2 (en) 2020-03-27 2023-05-09 International Business Machines Corporation Parameter sharing in federated learning
CN111428801A (zh) * 2020-03-30 2020-07-17 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111428801B (zh) * 2020-03-30 2022-09-27 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111461442A (zh) * 2020-04-07 2020-07-28 中国科学技术大学 基于联邦学习的知识追踪的方法及系统
CN111461442B (zh) * 2020-04-07 2023-08-29 中国科学技术大学 基于联邦学习的知识追踪的方法及系统
CN111401557A (zh) * 2020-06-03 2020-07-10 超参数科技(深圳)有限公司 智能体决策制定方法、ai模型训练方法、服务器及介质
CN111737921B (zh) * 2020-06-24 2024-04-26 深圳前海微众银行股份有限公司 基于循环神经网络的数据处理方法、设备及介质
CN111737921A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 基于循环神经网络的数据处理方法、设备及介质
CN112418434A (zh) * 2020-11-06 2021-02-26 中国石油大学(华东) 一种基于强化学习的联邦学习模型融合策略
CN112734030A (zh) * 2020-12-31 2021-04-30 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
CN112734030B (zh) * 2020-12-31 2022-09-02 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
CN112669216A (zh) * 2021-01-05 2021-04-16 华南理工大学 一种基于联邦学习的并行空洞新结构的超分辨率重构网络
CN112669216B (zh) * 2021-01-05 2022-04-22 华南理工大学 一种基于联邦学习的并行空洞新结构的超分辨率重构网络
WO2022160578A1 (zh) * 2021-01-27 2022-08-04 深圳前海微众银行股份有限公司 基于状态转移核优化的数据处理方法、装置、设备及介质
CN113449319A (zh) * 2021-06-23 2021-09-28 华东师范大学 一种面向跨筒仓联邦学习的保护本地隐私的梯度下降方法
CN113449319B (zh) * 2021-06-23 2022-08-19 华东师范大学 一种面向跨筒仓联邦学习的保护本地隐私的梯度下降方法
CN113553377B (zh) * 2021-07-21 2022-06-21 湖南天河国云科技有限公司 基于区块链和联邦学习的数据共享方法及装置
CN113553377A (zh) * 2021-07-21 2021-10-26 湖南天河国云科技有限公司 基于区块链和联邦学习的数据共享方法及装置
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113673696B (zh) * 2021-08-20 2024-03-22 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113837108A (zh) * 2021-09-26 2021-12-24 重庆中科云从科技有限公司 人脸识别方法、装置及计算机可读存储介质
CN113837108B (zh) * 2021-09-26 2023-05-23 重庆中科云从科技有限公司 人脸识别方法、装置及计算机可读存储介质
CN115037669A (zh) * 2022-04-27 2022-09-09 东北大学 一种基于联邦学习的跨域数据传输方法
CN117575291A (zh) * 2024-01-15 2024-02-20 湖南科技大学 基于边缘参数熵的联邦学习的数据协同管理方法
CN117575291B (zh) * 2024-01-15 2024-05-10 湖南科技大学 基于边缘参数熵的联邦学习的数据协同管理方法

Also Published As

Publication number Publication date
CN109711529B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN109711529A (zh) 一种基于值迭代网络的跨领域联邦学习模型及方法
Nishi et al. Traffic signal control based on reinforcement learning with graph convolutional neural nets
Gupta et al. Unifying map and landmark based representations for visual navigation
Chen et al. Vehicle trajectory prediction based on intention-aware non-autoregressive transformer with multi-attention learning for Internet of Vehicles
Ong et al. Memetic computation—past, present & future [research frontier]
WO2018054330A1 (zh) 数据处理方法、装置和存储介质
Gao et al. Ship collision avoidance anthropomorphic decision-making for structured learning based on AIS with Seq-CGAN
CN110032782A (zh) 一种城市级智能交通信号控制系统及方法
CN109726903A (zh) 基于注意力机制的分布式多智能体协同决策方法
Shi et al. Marl sim2real transfer: Merging physical reality with digital virtuality in metaverse
CN110490128A (zh) 一种基于加密神经网络的手写识别方法
Wang et al. Interpretable decision-making for autonomous vehicles at highway on-ramps with latent space reinforcement learning
CN108334677A (zh) 一种基于gru网络的uuv实时避碰规划方法
Fridman et al. Deeptraffic: Driving fast through dense traffic with deep reinforcement learning
CN110210462A (zh) 一种基于卷积神经网络的仿生海马认知地图构建方法
CN109389246B (zh) 一种基于神经网络的交通工具目的地区域范围预测方法
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
Yu et al. Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem
Wang et al. Building transportation foundation model via generative graph transformer
Liu et al. Graph neural network based behavior prediction to support multi-agent reinforcement learning in military training simulations
Xing et al. Robot path planner based on deep reinforcement learning and the seeker optimization algorithm
Guan et al. Ab-mapper: Attention and bicnet based multi-agent path planning for dynamic environment
Yan Research on path planning of robot based on artificial intelligence algorithm
Zhang et al. Stm-gail: Spatial-Temporal meta-gail for learning diverse human driving strategies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant