CN109711529A

CN109711529A - 一种基于值迭代网络的跨领域联邦学习模型及方法

Info

Publication number: CN109711529A
Application number: CN201811346991.3A
Authority: CN
Inventors: 申珺怡; 卓汉逵
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-05-03
Anticipated expiration: 2038-11-13
Also published as: CN109711529B

Abstract

本发明公开了一种基于值迭代网络的跨领域联邦学习模型及方法，该模型包括：数据准备单元，用于通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入；Federated‑VIN网络建立单元，用于建立基于值迭代网络的Federated‑VIN网络结构，构建源领域与目标领域的值迭代模块的全连接，并根据新构建的网络定义新的关于两领域的联合损失函数；迭代单元，用于于训练时对两领域的VI模块分别进行前向计算，通过VI模块实现若干次值迭代；后向更新单元，用于后向计算更新网络参数，根据该联合损失函数交替后向更新两领域的VIN参数及全连接参数。

Description

一种基于值迭代网络的跨领域联邦学习模型及方法

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于值迭代网络的跨领域联邦学习模型及方法。

背景技术

强化学习(Reinforcement Learning,RL)是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，在行动-评价的环境中获得知识，改进行动方案以适应环境。

深度强化学习(Deep Reinforcement Learning,DRL)是将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。DRL是一种端对端(end-to-end)的感知与控制系统，具有很强的通用性。其学习过程可以描述为：在每个时刻agent与环境交互得到一个高维度的观察，并利用DL方法来感知观察，以得到具体的状态特征表示；再基于预期回报来评价各动作的价值函数，并通过某种策略将当前状态映射为相应的动作；最后环境对此动作做出反应，并得到下一个观察；通过不断循环以上过程，最终可以得到实现目标的最优策略。

现有技术中，具有较好泛化能力的深度强化学习模型是值迭代网络(ValueIteration Networks,VINs)，值迭代网络VINs引入了一个具备规划能力的值迭代模块(VI)，在引入的该空间进行辅助策略的求解，VINs将奖励函数和转移函数也参数化，具体地采用了CNN结构表示，使得能够求导进行端到端地学习；引入了CNN模拟的值迭代算法迭代更新多次值函数，使得最优策略更具有泛化能力；并在策略的求解当中引入注意力机制(attention)；最后整个VINs网络可等价为一个嵌套的CNN网络，且能够使用后向更新算法更新参数，预测最优策略。

然而，由于VINs方法是针对一个特定领域预测最优策略的模型，如果两个相似领域具有不同的特征空间或不同的动作空间，那么VINs方法需要在各自领域分别单独训练。因此该方法对于新的领域需要高成本地重新训练模型，并且每个领域需要足够多的训练数据，当新领域的数据量不足时，模型的预测准确率低。

迁移学习(Transfer Learning)是一种机器学习的方法，指的是一个预训练的模型被重新用在另一个任务中。迁移学习与多任务学习以及概念飘移这些问题相关，它不是一个专门的机器学习领域。然而，迁移学习在某些深度学习问题中是非常受欢迎的，例如在具有大量训练深度模型所需的资源或者具有大量的用来预训练模型的数据集的情况。仅在第一个任务中的深度模型特征是泛化特征的时候，迁移学习才会起作用。深度学习中的这种迁移被称作归纳迁移。就是通过使用一个适用于不同但是相关的任务的模型，以一种有利的方式缩小可能模型的搜索范围。深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法，通常这些预训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源，迁移学习可以将已习得的强大技能迁移到相关的的问题上。

现有的基于DRL的迁移学习方法有Actor-Mimic,该方法提出一个基于深度强化学习的多任务模型，并且在给定源领域预训练好的Actor-Mimic模型后，将其迁移作为目标领域的初始化，使得目标领域重新训练出一个得分更高的模型。

Actor-Mimic迁移学习方法首先是以深度强化学习DRL的多任务模型为基础，该多任务模型通过多个领域共享CNN中间特征提取层的参数，而在输入层和输出的全连接层保留各自领域独特的参数，使用多个领域的所有数据共同训练出一个预训练Actor-Mimic模型，对于目标领域，在迁移时首先给定在源领域预训练好的模型参数，将其作为目标领域模型的初始化；再使用目标领域的所有数据集，在目标领域重新学习整套参数，训练出一个得分更高的模型。

然而，现有Actor-Mimic迁移学习是基于传统的DRL网络，没有利用VINs网络泛化能力强的优点，Actor-Mimic的迁移策略在目标领域只做了初始化的作用，目标领域的所有参数仍需重新训练，没有减少需要学习的参数量，并且Actor-Mimic迁移学习方法在源领域或目标领域进行训练时，对每个领域同样需要大量的数据集；在训练时数据之间是互相可见的，共享了数据信息，没有做到保护原始数据隐私。

迁移学习的问题在于没有考虑对源模型或者源数据的隐私保护；两个领域的特征空间完全不同(不能做特征空间映射)的情况下，不能迁移学习，迁移学习是可能存在性能损失的，当模型从源领域迁移到目标领域仅作为初始化时，从模型中学到的一大部分关于源领域的知识可能丢失，只有和目标领域共享的部分知识保留，甚至在领域相似度不高时会出现负迁移，然而联邦学习可以在不共享数据的前提下，利用双方的数据实现两个领域的模型增长。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于值迭代网络的跨领域联邦学习模型及方法，以通过源领域与目标领域值迭代模块的全连接，实现相似知识的互相利用，从而提高各自最优策略的预测准确率。

本发明之另一目的在于提供一种基于值迭代网络的跨领域联邦学习模型及方法，以实现在不共享数据的前提下，保护数据隐私，同时利用双方的数据实现模型效果增长。

为达上述目的，本发明提出一种基于值迭代网络的跨领域联邦学习模型，包括：

数据准备单元，用于通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入；

Federated-VIN网络建立单元102，用于建立基于值迭代网络VIN的Federated-VIN网络结构，构建源领域与目标领域的值迭代模块VI的全连接，每个连接权重对应源领域与目标领域之间该对动作的相似度，并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数；

值迭代执行单元，用于于训练时对两领域的VI模块分别进行前向计算，通过VI模块实现若干次值迭代；

后向更新单元，用于后向计算更新网络参数，根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数。

优选地，所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域，输入模型的状态观测包括当前位置、目标位置和网格地图图像，模型输出即当前状态下的最优动作策略。

优选地，输入模型的状态观测，所述数据准备单元对每个轨迹中的每个状态s(i，j)，生成一个2*m*n大小的状态观测图像，图像的第一通道对网格地图障碍物的存在进行编码，而第二通道对目标位置进行编码，一条完整的观测向量由地图和状态s(i，j)组成，并对每个输入状态，生成一个动作标注作为专家策略。

优选地，所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接，该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度，具有较高相似性的跨域动作分配较大的权重。

优选地，所述新的关于两领域的联合损失函数为：

L_FVIN(θ_A，θ_B，θ_t)＝L_A(θ_A，θ_t)+L_E(θ_B，θ_t)

其中θ_t表示全连接权重，A、B分别表示联邦学习的两领域。具体地，L_i(θ_i，θ_t)表示每个领域更新时的目标函数：L_i(θ_i，θ_t)＝L_i(θ_i)+L_t(θ_i，θ_t)，其中L_t(θ_i，θ_t)表示Federated-VIN中全连接权重的损失函数。

优选地，所述值迭代执行单元在每个迭代步根据Federated-VIN网络，将两领域各自的部分观测特征输入网络，并通过值迭代网络VIN前向计算得到各自的动作预测结果。

优选地，所述值迭代执行单元前向计算中，将每一次迭代近似为将上一次迭代的值函数V_n和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程。

优选地，所述后向更新单元采用交替更新方式，首先对Federated-VIN固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

为达到上述目的，本发明还提供一种基于值迭代网络的跨领域联邦学习方法，包括如下步骤：

步骤S1，通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入；

步骤S2，建立基于值迭代网络VIN的Federated-VIN网络结构，构建源领域与目标领域的值迭代模块VI的全连接，每个连接权重对应源领域与目标领域之间该对动作的相似度，并根据新构建的Federated-VIN网络定义新的关于两领域的联合损失函数；

步骤S3，于训练时对两领域的VI模块分别进行前向计算，通过VI模块实现若干次值迭代；

步骤S4，通过后向计算更新网络参数，根据所述联合损失函数交替后向更新两领域的VIN参数及全连接参数。

优选地，于步骤S4中，采用交替更新方式，首先对Federated-VIN网络固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

与现有技术相比，本发明一种基于值迭代网络的跨领域联邦学习模型及方法通过通过构建源领域与目标领域的值迭代模块之间的全连接，建立了领域之间的相似关系，并能端到端地自动学习该相似性，以作为联邦学习知识利用的桥梁，并提出了训练模型时的交替学习，使得两领域互相利用内部知识、互相提升，从而提高各自最优策略的预测准确率，本发明相对于现有的单独的值迭代网络而言，可以克服单个领域依赖大规模数据训练的高计算复杂性和成本消耗等缺陷，相对于传统迁移学习而言，实现在不共享数据的前提下，保护数据隐私，同时利用双方的数据实现模型效果增长。

附图说明

图1为本发明一种基于值迭代网络的跨领域联邦学习模型的结构示意图；

图2为本发明具体实施中VI模块K次值迭代示意图；

图3为本发明一种基于值迭代网络的跨领域联邦学习方法的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

在介绍本发明之前，先对本发明所涉及的缩略语和关键术语定义如下：

深度学习：深度学习是由Hinton等人于2006年提出，是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别图像、文字等数据。

卷积神经网络：卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。一般地，CNN的基本结构包括卷积层(convolutional layer)和池化层(poolinglayer)，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

强化学习：强化学习(reinforcement learning,RL)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，在行动-评价的环境中获得知识，改进行动方案以适应环境。

值迭代网络：值迭代网络(Value Iteration Networks,VINs)为了解决深度强化学习当中泛化能力差的问题，引入了一个具备规划能力的值迭代模块(Value IterationModule,VI Module)。在一般性的策略表示当中加入了一个规划模块,引入的该空间辅助策略的求解，使得学习到的最优策略更具有泛化能力。

图1为本发明一种基于值迭代网络的跨领域联邦学习模型的结构示意图。如图1所示本发明一种基于值迭代网络的跨领域联邦学习模型，包括：

数据准备单元101，用于通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入，在本发明具体实施例中，两个不同部分观测状态s(i，j)和s′(i，j)分别作为两个领域，领域A和领域B的输入。

具体地，数据准备单元101采用随机设置障碍物的网格地图中的路径规划作为实验领域，其中输入模型的状态观测包括当前位置、目标位置和网格地图图像。具体而言，对于每个轨迹中的每个状态s(i，j)，生成一个(2*m*n)大小的状态观测图像，图像的第一通道对网格地图障碍物的存在进行编码(对于障碍物为1，否则为0)，而第二通道对目标位置(目标处的1，否则为0)进行编码。一条完整的观测向量由地图和状态s(i，j)组成。此外，对于每个输入状态，需要生成一个动作标注作为专家策略，表示在该状态下最优路径策略将采取的动作决策。在本发明的网格地图领域中，动作空间共有8个可执行动作：{东、西、北、南、东北、西北、东南、西南}。

网格领域规划的复杂性一般取决于障碍物的数量及其在网格地图上的分布。因此，可以根据不同数量的障碍和不同大小的网格地图作为不同训练领域进行联邦学习。例如两个域分别是尺寸为8*8和16*16的网格地图，随机地放置比例为30％或50％的障碍物。另外，许多其他应用领域，比如导航、仓库调度等可以匹配对应到具有不同复杂性的网格地图中，因此Federated-VIN对多种规划领域均有效。

本发明中预测精确度是通过计算每个网络对应领域的所有试验中成功试验的比例来定义的。因此，对于测试集中的每个状态，若与专家动作相同，则预测动作被认为是成功的。

Federated-VIN网络建立单元102，用于建立基于VIN(Value IterationNetworks,值迭代网络)的Federated-VIN网络结构，并构建源领域与目标领域值迭代模块的全连接，每个连接权重对应源领域与目标领域之间该对动作的相似度，并根据新构建的Federated-VIN网络定义新的损失函数。

在本发明具体实施例中，Federated-VIN网络建立单元102建立Federated-VIN网络结构，Federated-VIN具有具备规划能力的值迭代模块(VI)，Federated-VIN网络建立单元102构建源领域与目标领域的VI模块的连接，由于VIN网络中Q学习层每个卷积通道对应于该领域中特定动作a的Q函数Q(s，a)，包含了关于该领域的策略规划信息。本发明中，在两领域Q学习层的各个动作通道之间构建了全连接网络，该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度，具有较高相似性的跨域动作分配较大的权重。因此，Federated-VIN网络可以自动学习两个域之间的动作相似度，从而减少了人工选择相似动作对进行迁移的人力成本。

本发明将这种连接建立在VI模块中，实现了联邦学习中的双方原始数据保密。由于两个领域的预测目标都是学习最优路径从起点到给定目标点，两领域的状态观测不同，但其中通过VIN学习到的部分策略预测知识是重合的。因此基于VIN可以实现在不共享输入的原始数据前提下，利用双方的部分观测及网络隐藏知识实现双方模型增长。本发明Federated-VIN的做法是，首先通过各自领域的VI模块加密策略信息，再通过全连接桥梁交换知识的手段，建立动作对的相似度并进行沟通，在加密状态下用全连接权重迁移共有的部分知识。因为原始的状态观测数据并没有得到交换，交换的只是VI模块学习后共有的部分信息，因此达到了数据隐私保护，然后，双方将各自拥有的不同部分观测数据作为输入，迭代地进行训练模型、交换参数、更新参数。基于Federated-VIN的知识迁移，双方不能互相反推出对方拥有的、自己没有的观测特征，因此数据隐私仍然得到了保护。

对于单领域VIN中，损失函数可用交叉熵损失表示：

对于本发明的Federated-VIN，定义新的关于两领域的联合损失函数，并加入全连接权重的学习目标，L_FVIN表示为：

L_FVIN(θ_A，θ_B，θ_t)＝L_A(θ_A，θ_t)+L_B(θ_B，θ_t)

其中θ_t表示全连接权重，A、B分别表示联邦学习的两领域。具体地，L_i(θ_i，θ_t)表示每个领域更新时的目标函数：L_i(θ_i，θ_t)＝L_i(θ_i)+L_t(θ_i，θ_t)，其中L_t(θ_i，θ_t)表示了Federated-VIN中全连接权重的损失函数，可以将其定义为平方差损失，例如对于领域A：L_t(θ_A，θ_t)＝||θ_B-F(θ_A，θ_t)||²，对于领域B后向更新时同理：L_t(θ_B，θ_t)＝||θ_A-F(θ_B，θ_t)||²。

值迭代执行单元103，于训练时首先对两领域VIN进行前向计算，通过VI模块实现若干次迭代，在每个迭代步根据Federated-VIN联邦网络，将两领域各自的部分观测特征输入网络，并通过VIN前向计算各自的动作预测结果。

对两领域VIN进行前向计算，在每个迭代步根据Federated-VIN联邦网络，输入两领域各自的部分观测状态，并通过前向计算得到各自的动作预测结果π_A和π_B。

在传统的强化学习中，值迭代算法是常用且有效的用于计算最优值函数和最优策略的迭代求解算法。每次迭代中，根据贝尔曼(Bellman)方程更新V函数和Q函数：

其中，

Q_n(s，a)＝R(s，a)+γ∑_s′P(s′|s，α)V_n(s′).

值迭代网络VIN的特点即是利用可导的卷积神经网络近似模拟实现了该传统值迭代算法的过程。本发明中VI模块的具体结构如图2，该模块每一次迭代可近似为是将上一次迭代的值函数V_n和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程；在卷积计算层，每一个特征图对应该领域中一个具体的动作a对应的Q函数的结果，卷积层中的特征图数量与动作空间数量一致。且卷积层当中的卷积核参数正好对应于值迭代中的状态转移概率函数。因此，卷积计算求得Q函数可表示为：

卷积计算得到结果后，对不同通道的Q值进行最大池化操作，即最大池化层实现V_n+1(s)＝max_aQ_n(s，a)，这一步的迭代更新V函数。下一步迭代时，同理，把该步求得的V_n和奖励函数R叠加起来传入卷积层和最大池化层，如此循环K步，实现K次值函数的迭代更新，于是这样的VI模块便具备了值迭代的功能，同时该CNN网络能够通过现有的后向更新(BP)算法来进行参数的学习。

后向更新单元104，用于后向计算更新网络参数，根据新定义的损失函数交替后向更新两领域的VIN参数及全连接参数。即后向更新单元104采用交替更新方式，对Federated-VIN先固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

在Federated-VIN中，两领域的VIN采用CNN网络结构表示，前向计算后通过端到端地最优化损失函数L_FVIN(θ_A，θ_B，θ_t)，再实现网络的反向传播更新，从而学习到联合参数，例如通过随机梯度下降的最优化学习方法。对于单领域VIN，L_i(θ_i)对应可得到以下梯度：

基于该梯度，在Federated-VIN中依次后向计算更新网络参数θ_A，θ_B，θ_t。即先固定领域B的网络参数θ_B，根据损失函数L_A(θ_A，θ_t)更新目标领域参数θ_A；再固定目标领域A的网络参数θ_A，根据损失函数L_B(θ_B，θ_t)更新源领域参数θ_B；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数θ_t。迭代地进行训练模型、交换参数、交替更新参数，最后Federated-VIN学习到接近于专家标注策略的最优策略，从而达到互相利用知识进行联邦学习的目的。

图3为本发明一种基于值迭代网络的跨领域联邦学习方法的步骤流程图。如图3所示，本发明一种基于值迭代网络的跨领域联邦学习方法，包括如下步骤：

步骤S1，通过使用网格地图的路径规划领域作为训练环境，将同一地图中的两个不同部分观测状态作为联邦学习两个领域各自的输入。

具体地，于步骤S1中，采用随机设置障碍物的网格地图中的路径规划作为实验领域，其中输入模型的状态观测包括当前位置、目标位置和网格地图图像。具体而言，对于每个轨迹中的每个状态s(i，j)，生成一个(2*m*n)大小的状态观测图像，图像的第一通道对网格地图障碍物的存在进行编码(对于障碍物为1，否则为0)，而第二通道对目标位置(目标处的1，否则为0)进行编码。一条完整的观测向量由地图和状态s(i，j)组成。此外，对于每个输入状态，需要生成一个动作标注作为专家策略，表示在该状态下最优路径策略将采取的动作决策。在本发明的网格地图领域中，动作空间共有8个可执行动作：{东、西、北、南、东北、西北、东南、西南}。

步骤S2,建立基于VIN(Value Iteration Networks,值迭代网络)的Federated-VIN网络结构，并构建源领域与目标领域值迭代模块的全连接，每个连接权重对应源领域与目标领域之间该对动作的相似度，并根据新构建的Federated-VIN网络定义新的损失函数。

在本发明具体实施例中，于步骤S2中，首先建立Federated-VIN网络结构，该Federated-VIN网络具有具备规划能力的值迭代模块(VI)，然后构建源领域与目标领域的VI模块的连接，由于VIN网络中Q学习层每个卷积通道对应于该领域中特定动作a的Q函数Q(s，a)，包含了关于该领域的策略规划信息，本发明中，在两领域Q学习层的各个动作通道之间构建了全连接网络，该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度，具有较高相似性的跨域动作分配较大的权重。因此，Federated-VIN网络可以自动学习两个域之间的动作相似度，从而减少了人工选择相似动作对进行迁移的人力成本。

L_FVIN(θ_A，θ_B，θ_t)＝L_A(θ_A，θ_t)+L_B(θ_B，θ_t)

步骤S3，于训练时首先对两领域VIN进行前向计算，通过VI模块实现若干次迭代，在每个迭代步根据Federated-VIN联邦网络，将两领域各自的部分观测特征输入网络，并通过VIN前向计算各自的动作预测结果。用于于训练时对两领域的VI模块分别进行前向计算，并对VI模块进行若干次值迭代

也就是说，于步骤S3中，对两领域VIN进行前向计算，在每个迭代步根据Federated-VIN联邦网络，输入两领域各自的部分观测状态，并通过前向计算得到各自的动作预测结果π_A和π_B。

值迭代网络VIN的特点即是利用可导的卷积神经网络近似模拟实现了传统值迭代算法的过程。本发明中VI模块的具体结构如图2，该模块每一次迭代可近似为是将上一次迭代的值函数V_n和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程；在卷积计算层，每一个特征图对应该领域中一个具体的动作a对应的Q函数的结果，卷积层中的特征图数量与动作空间数量一致。且卷积层当中的卷积核参数正好对应于值迭代中的状态转移概率函数。因此，卷积计算求得Q函数可表示为：

步骤S4，后向计算更新网络参数，根据新定义的损失函数交替后向更新两领域的VIN参数及全连接参数。即采用交替更新方式，对Federated-VIN先固定源领域的网络参数，根据损失函数更新目标领域参数；再固定目标领域的网络参数，根据损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

综上所述，本发明一种基于值迭代网络的跨领域联邦学习模型及方法通过通过构建源领域与目标领域的值迭代模块之间的全连接，建立了领域之间的相似关系，并能端到端地自动学习该相似性，以作为联邦学习知识利用的桥梁，并提出了训练模型时的交替学习，使得两领域互相利用内部知识、互相提升，从而提高各自最优策略的预测准确率，本发明相对于现有的单独的值迭代网络而言，可以克服单个领域依赖大规模数据训练的高计算复杂性和成本消耗等缺陷，相对于传统迁移学习而言，实现在不共享数据的前提下，保护数据隐私，同时利用双方的数据实现模型效果增长。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于值迭代网络的跨领域联邦学习模型，包括：

2.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述数据准备单元采用随机设置障碍物的网格地图中的路径规划作为实验领域，输入模型的状态观测包括当前位置、目标位置和网格地图图像，模型输出即当前状态下的最优动作策略。

3.如权利要求2所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：输入模型的状态观测，所述数据准备单元对每个轨迹中的每个状态s(i，j)，生成一个2*m*n大小的状态观测图像，图像的第一通道对网格地图障碍物的存在进行编码，而第二通道对目标位置进行编码，一条完整的观测向量由地图和状态s(i，j)组成，并对每个输入状态，生成一个动作标注作为专家策略。

4.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述Federated-VIN网络建立单元在两领域的VI模块的Q学习层的各个动作通道之间构建了全连接，该全连接桥梁的每个连接权重对应源领域与目标领域之间该对动作的相似度，具有较高相似性的跨域动作分配较大的权重。

5.如权利要求4所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于，所述新的关于两领域的联合损失函数为：

L_FVIN(θ_A，θ_B，θ_t)＝L_A(θ_A，θ_t)+L_B(θ_B，θ_t)

其中θ_t表示全连接权重，A、B分别表示联邦学习的两领域，L_i(θ_i，θ_t)表示每个领域更新时的目标函数：L_i(θ_i，θ_t)＝L_i(θ_i)+L_t(θ_i，θ_t)，其中L_t(θ_i，θ_t)表示Federated-VIN中全连接权重的损失函数。

6.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述值迭代执行单元在每个迭代步根据Federated-VIN网络，将两领域各自的部分观测特征输入网络，并通过值迭代网络VIN前向计算得到各自的动作预测结果。

7.如权利要求6所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述值迭代执行单元前向计算中，将每一次迭代近似为将上一次迭代的值函数V_n和奖励函数R经过卷积计算以及最大池化计算来模拟基于Bellman方程的值迭代算法过程。

8.如权利要求1所述的一种基于值迭代网络的跨领域联邦学习模型，其特征在于：所述后向更新单元采用交替更新方式，首先对Federated-VIN固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。

9.一种基于值迭代网络的跨领域联邦学习方法，包括如下步骤：

10.如权利要求9所述的一种基于值迭代网络的跨领域联邦学习方法，其特征在于：于步骤S4中，采用交替更新方式，首先对Federated-VIN网络固定源领域的网络参数，根据联合损失函数更新目标领域参数；再固定目标领域的网络参数，根据联合损失函数更新源领域参数；最后将两领域的VIN参数固定，作为不可训练参数，更新Federated-VIN中的全连接桥梁参数，从而达到训练过程交替更新，互相利用知识联邦学习的目的。