CN114202031A

CN114202031A - 一种基于强化学习的多源域迁移目标识别方法

Info

Publication number: CN114202031A
Application number: CN202111539029.3A
Authority: CN
Inventors: 孔万增; 崔岂铨; 金宣妤; 李倪; 刘栋军; 刘国文; 郭继伟
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-18

Abstract

本发明公开一种基于强化学习的多源域迁移目标识别方法。本发明使用强化学习来训练数据选择策略，以选择高质量的源域数据，目的是防止负转移及多个源域和目标域之间存在的域差异。在源域数据上的数据选择器“作用”以找到用于优化TL模型的子集，而TL模型的性能可以提供“奖励”以更新选择器。我们基于SoftActor‑Critic(柔性执行器‑评价器)算法框架构建加强数据选择器，并将其集成到基于DNN的迁移学习模型，从而变成强化迁移学习(RTL)方法。经过不同的状态，奖励和策略优化方法的设置，确认本发明提供的模型的稳健性。对PI和NLI任务的广泛实验表明，本发明提供的模型可以优于具有统计显着改进的现有方法。

Description

一种基于强化学习的多源域迁移目标识别方法

技术领域

本发明属于强化学习与迁移学习交叉领域，具体涉及一种基于强化学习SoftActor-Critic(柔性执行器-评价器)算法进行多源域间数据选择的方法。

背景技术

强化学习主要解决智能决策问题，它被构造为与环境交互的智能体。强化学习中，人工智能(AI)面临类似游戏的情况(即模拟)。人工智能通过反复试验来提出问题的解决方案。智能体缓慢而稳定地学习在不确定的、潜在复杂的环境中实现目标，但我们不能指望智能体盲目地偶然发现完美的解决方案。这是交互发挥作用的地方，为智能体提供了环境状态，这成为智能体采取行动的输入基础。一个动作首先向智能体提供奖励(注意，根据问题的适应度函数，奖励可以是正的也可以是负的)，基于此奖励，智能体内部的策略(ML模型)适应学习。其次，它会影响环境并改变它的状态，这意味着下一个循环的输入会发生变化。这个循环一直持续到创建一个最佳智能体。这个循环试图复制我们在自然界中看到的生物体在其生命周期中的学习循环。在大多数情况下，环境会在一定数量的循环后或有条件地重置。注意，可以同时运行多个智能体以更快地获得解决方案，但所有智能体都是独立运行的。

在多源域适到目标域的适配当中，不仅源域和目标域之间存在明显的域差异，而且也存在于多个源域之间，因此我们就要考虑域适应问题。

发明内容

本发明的一个目的是针对现有技术的不足，提出一种基于强化学习Soft Actor-Critic(执行器-评价器)算法的多源域数据选择的方法。首先，构造数据选择器，我们将迁移学习设置中的源数据选择设置为马尔可夫决策过程，通过强化学习来解决。强化学习数据选择器是与TL模型交互的智能体。智能体根据学习策略采取操作或丢弃给定源样本。智能体基于给定关于描述给定样本的若干特征的状态表示的决定。TL模型评估智能体的行为产生的奖励以指导智能体的学习。智能体的目标是最大限度的提高其收到的预期未来总奖励。

本发明提供的基于强化学习的多源域迁移目标识别方法，其具体步骤如下：

步骤1：多源域适配

分别获取多个有标签的源域数据和无标签的目标域数据。源域数据与目标域数据为包含相同类别的目标的图像。各源域数据的集合S＝{S₁,…,S_Ns}，Ns为源域数量。

步骤2：数据选择

利用强化学习数据选择器从源数据集中选择样本，输送至共享编码器中；强化学习数据选择器使用状态、行为和奖励作为筛选机制，对源域中的样本进行筛选。所述的强化学习数据选择器中使用的SAC算法包括一个actor网络和四个critic网络。

步骤3：模型训练

筛选出的样本输入到共享编码器中作为训练集；在训练期间，TL模型和强化学习数据选择器联合学习，进一步保留或删除源域的样本。利用训练好的TL模型对目标域样本进行识别。

作为优选，步骤2中所述的状态、行为和奖励具体如下：

状态：给定源域X_i的状态表示为连续的真实值矢量

其中，l是状态矢量的尺寸，S_i代表以下功能的串联：

(1)隐藏的表示Z_i，它是给定共享编码器的输出。

(2)源模型X_i的训练损失。

(3)目标模型Y_i的测试损失。

(4)共享编码器在源模型X_i上的预测概率。

(5)共享编码器在目标模型Y_i上的预测概率。

行为：表示为a_i∈{0,1}，其用于指示从源数据中删除或保留样本，根据学习策略函数Π(S_i)产生的概率分布来采样a_i。Π(S_i)的表达式如下：

Π(S_i)＝softmax(W₂H_i+b₂)

H_i＝tan(W_lS_i+b₂)

其中，W_k和b_k是策略网络中的第k层的重量矩阵和偏置载体，k＝1,2,...,l；l为策略网络中的层数；H_i是中间隐藏状态。

奖励：预期总奖励r'_b的表达式如下：

其中，N是本轮中样本批次的数目；b为当前批次的序号；r'_b是样当前批次b的预期总奖励，γ是奖励折扣系数；k为策略网络的当前层序号。

作为优选，步骤2中所述的SAC算法的更新步骤为：

目标找到最柔性策略π^*：

其中，

为策略π下获得的期望；R(S_t,a_t)为在s_t状态下选择行为a_t获得的奖励；s_t为状态；a_t为行为；t表示时刻；α为温度系数，用来平衡环境给出的奖励和策略熵之间的重要程度。

为熵。

构建柔性值函数V^π(s_t)如下：

其中，π(·|s_t)为所有动作的概率，Q(s_t,a_t)为动作值函数。

利用在学习样本的环境中采样构建柔性动作值函数Q^π(s,a)如下：

其中，V^π(s')为状态s'下的柔性值函数，P(s'|s,a)从环境中获得的轨迹样本。

利用贝尔曼期望等式构建柔性动作值函数Q^π(s,a)如下：

其中，Q^π(a',π(s')为上一策略中获得的柔性值函数。

进行策略改进如下：

其中，π_new为更新后的策略；

是求出最小的

为经验池的KL散度(相对熵)，Q^old(s_t,·)为先前策略下的Q值函数，

为梯度的常量。

作为优选，步骤2中，数据选择器从多源域中随机挑选一批样本放入经验池中，从经验池采样一个batch数据，进行Q Critic网络和V Critic网络的更新，产生的组合loss值对Actor网络进行梯度下降训练，以找到更优的策略。经验池中进行采样的一个batch数据作为源域，与目标域以TL模型为基础进行迁移学习。TL模型的loss差作为奖励用于对Actor网络的更新。

作为优选，步骤3中，在优化TL模型时，基于一批训练样本计算梯度。通过选择有用的源域数据，强化学习数据选择器在源模型更新的每一次迭代之前进行干预。TL模型更新包括共享编码器的更新。TL模型依次提供奖励来评估数据选择的效用。在每一轮之后，策略网络使用Soft Actor-Critic算法更新，包括状态、动作以及奖励。

迭代中，总损失

的表达式如下：

其中，

为第一次的损失；

为域对齐损耗；λ是一个独立的权重参数，它控制损失组件之间的折衷。

第一次的损失

的表达式如下：

其中，f_θ为分类模型；

为源域中的样本。

域对齐损耗

的表达式如下：

其中，D^T是目标域数据；

是源数据域之间的差异度量。

利用总损失

对TL模型进行更新；迭代中相邻两次获取的总损失

的差值作为奖励，进行样本的删除与保留；提高源域到目标域的迁移效果。

本发明的有益效果为：

本发明使用强化学习来训练数据选择策略，以选择高质量的源域数据，目的是防止负转移及多个源域和目标域之间存在的域差异。在源域数据上的数据选择器“作用”以找到用于优化TL模型的子集，而TL模型的性能可以提供“奖励”以更新选择器。我们基于SoftActor-Critic(柔性执行器-评价器)算法框架构建加强数据选择器，并将其集成到基于DNN的迁移学习模型，从而变成强化迁移学习(RTL)方法。经过不同的状态，奖励和策略优化方法的设置，确认本发明提供的模型的稳健性。对PI和NLI任务的广泛实验表明，本发明提供的模型可以优于具有统计显着改进的现有方法。最后，本发明使用Wassersein距离来测量数据选择前后的源和目标域距离，结果显示本发明能够选择具有与目标域数据类似的概率分布的源域数据。

附图说明

图1为本发明中Soft Actor-Critic(柔性执行器-评价器)算法原理图。

图2为本发明中Soft Actor-Critic(柔性执行器-评价器)算法的网络框架图。

图3为本发明的流程图。

图4为本发明与现有技术的处理结果对比图。

具体实施方式

下面结合具体实例，对本发明做进一步的实施分析。

一种基于强化学习的多源域迁移目标识别方法，具体步骤如下：

步骤1：多源域适配

我们使用DomainNet数据集进行测试，其中包含，来自不同图像样式的6个域的345种图像集共0.6百万张图片：其中包含clipart(剪贴画)、infograph(象形画)、painting(油画)、quickdraw(涂鸦)、real(高清图)和sketch(素描)。我们将real域作为目标域，其余作为源域。首先进行域对齐。

多源域适配旨在从几个源域S＝{S₁,…,S_Ns}绘制到目标域T的源数据分布上的传输模型；Ns为源域数量，本实施例中，Ns取值为5。我们考虑参数θ的分类模型f_θ，其映射图像x∈X到类预测y∈Y＝{1,…,C}；其中，C是类的数量，x是图像空间。目标是调整源数据集

的模型参数θ，从源域分布S(y_i是示例标签

的单热编码)到目标数据集

目标分布中未标记的示例。值得注意的是，在最常见的问题中，每个源示例的原点域

是未知的，许多方法都会忽略这一点。假设源数据集

包含域标签z_i＝{1,…,Ns}，将源域和域标签对齐。

步骤2：数据选择

利用强化学习数据选择器从源数据集(clipart(剪贴画),infograph(象形画),painting(油画),quickdraw(涂鸦),sketch(素描))中选择样本，输送至共享编码器中；强化学习数据选择器中使用状态、行为和奖励作为筛选机制。我们将在以下介绍状态、行为和奖励：

状态：给定源域X_i的状态表示为连续的真实值矢量

其中，l是状态矢量的尺寸，S_i代表以下功能的串联：

(6)隐藏的表示Z_i，它是给定共享编码器的输出。

(7)源模型X_i的训练损失。

(8)目标模型Y_i的测试损失。

(9)共享编码器在源模型X_i上的预测概率。

(10)共享编码器在目标模型Y_i上的预测概率。

第一个特征旨在向数据选择器呈现原始内容。特征(3)和特征(5)基于直觉，有用的源域培训数据将在对目标模型上相对较高的信心分类。特征(2)和特征(4)也作为获取特征(3)的输入，并且与源模型上的特征(5)相对应。

行为：行为表示为a_i∈{0,1}，它指示是否从源数据中删除或保留样本，根据学习策略函数Π(S_i)产生的概率分布来采样a_i。Π(S_i)定义如下：

Π(S_i)＝P(a_i|S_i)＝softmax(W₂H_i+b₂)

H_i＝tan(W_lS_i+b₂)

奖励：数据选择器采取操作以从源数据集中选择数据，并形成一批新的源数据

我们使用

来更新源模型，并使用奖励函数

获取立即奖励r_b。与传统的强化学习相比，基于一个状态采样并从环境中获取一个奖励，我们的行为基于一批状态进行采样并获得一个奖励以提高模型训练效率。

奖励被设置为每批处理的目标域验证数据上的预测准确性。为了准确评估

的效用，在更新源模型和更新目标模型之前获得奖励r_b。对于极其罕见的情况(即

)，我们跳过此步骤的源模型的更新。

在一轮之后，计算每批的预期总奖励r'_b，其表达式如下：

如图1和2所示，强化学习数据选择器用于对多源域进行样本的选择和迁移学习。强化学习数据选择器使用的SAC算法(即Soft Actor-Critic，柔性执行器-评价器)，由一个actor网络和四个critic网络组成，即由状态价值估计v和Target v网络，以及动作-状态价值估计Q₀和Q₁网络组成，SAC算法的更新步骤为：

目标找到最柔性策略π^*：

其中，

为策略π下获得的期望；R(s_t,a_t)为在s_t状态下选择行为a_t获得的奖励；a_t为状态；a_t为行为；t表示时刻；α为温度系数，用来平衡环境给出的奖励和策略熵之间的重要程度。

为熵。

构建柔性值函数V^π(s_t)如下：

其中，π(·|s_t)为所有动作的概率，Q(s_t,a_t)为动作值函数。

利用贝尔曼期望等式构建柔性动作值函数Q^π(s,a)如下：

其中，Q^π(a',π(s')为上一策略中获得的柔性值函数。

进行策略改进如下：

其中，π_new为更新后的策略；

是求出最小的

为梯度的常量。

在实现中，需要根据实际情况设计策略网络来表示π_θ(a|s)，在给定状态下，输出动作选择的概率。分别讨论离散动作空间和连续动作空间下的网络设计。

(1)在离散动作空间中，输入为状态的表示，输出节点与动作个数相等，后接Softmax层。

(2)在连续动作空间中，输入为状态的表示，输出的设计方式有多种。一般假设每个动作的输出服从高斯分布，因此可以输出每个动作的均值。

数据选择器从多源域中随机挑选一批样本放入经验池中，从经验池采样一个batch数据，进行Q Critic网络和V Critic的更新，产生的组合loss值对Actor网络进行梯度下降训练，以找到更优的策略。经验池中进行采样的一个batch数据作为源域，与目标域以TL模型为基础进行迁移学习。TL模型的loss差作为奖励用于对Actor网络的更新。

步骤3：模型训练

经过选择器筛选出的样本输入到共享编码器中作为训练集；最终我们根据迁移效果选择保留和删除源域的样本。在训练期间，TL模型和强化学习数据选择器联合学习。为了优化策略网络，我们使用Soft Actor-Critic(柔性执行器-评价器)算法。为了优化TL模型，我们使用梯度下降方法来最小化损失函数。我们首先使用迭代的TL模型进行预训练，然后开始进行联合训练过程。

在优化TL模型时，基于一批训练样本计算梯度。TL模型利用源域和目标域中的训练数据以获得更好的模型性能。通过选择有用的源域数据，强化学习数据选择器在源模型更新的每一次迭代之前进行干预。因此干预过程对所计算的源模型更新的梯度产生影响。TL模型更新包括共享编码器的更新。TL模型依次提供奖励来评估数据选择的效用。在每一轮之后，策略网络使用Soft Actor-Critic(柔性执行器-评价器)算法更新，包括状态、动作以及奖励。

像往常一样用于域适应问题，此模型是通过两种损失的组合学习的。

其中，

为总损失；

为第一次的损失；

第一次的损失

是源数据D^S上的跨熵损失，其表达式如下：

域对齐损耗

鼓励最小化源域和目标域之间的距离，其表达式如下：

其中，D^T是目标域数据，且

是源数据域之间的差异度量。

可以是先前提出用于域适应的任何距离度量。这两个损失都是在源数据集D^S上运行，即不需要域标签，甚至没有单一域和多个域之间的差异。对于多源域适应的域常用的域对齐损耗还需要评估所有源域和目标域之间的成对距离。

利用总损失

对TL模型进行更新；迭代中相邻两次获取的总损失

利用训练好的TL模型对目标域样本进行识别。

图3为基于强化学习的多源域迁移目标识别方法的框架流程图，由两个主要部分组成：强化学习数据选择器和TL模型。“共享编码器”是指嵌入在TL模型中的基础模型。强化学习数据选择器选择源数据的一部分，并将它们输送到每个迭代的TL模型中。TL模型在目标域上生成奖励以用于数据选择器的域验证数据。目标域送入TL模型。

本发明提供参数设置和实现详细信息如下。所有参数都以TensorFlow⁶实现。用于可分解模型的隐藏层的大小为200。PI的最大序列长度为40，对于NLI为50，掩模填充以避免影响梯度。包括策略网络的隐藏层的大小的超参数，并使用目标域验证数据调整奖励折扣系数。检查点在每个轮次的末尾保存，并在测试集上生成评估。所有型号都使用ADAM使用NVIDIA Titan x GPU训练。迁移模型的初始学习率为0.001，策略网络为0.02。β₁和β₂的参数分别为0.9和0.999。值估计器网络的隐藏层大小和优化方法与策略网络相同。最终我们得到的训练结果图为图4，其中左边为损失，右边为准确率(实曲线是采用本发明的处理结果)，从图中可以看出刚开始时，基于SAC的方法的损失略高，准确率也略低，随着轮数的增加，此方法产生的损失曲线明显低于非SAC算法的损失，准确率也在非SAC算法的曲线之上，准确率较非SAC方法高。

Claims

1.一种基于强化学习的多源域迁移目标识别方法，其特征在于：步骤1：多源域适配

分别获取多个有标签的源域数据和无标签的目标域数据；源域数据与目标域数据为包含相同类别的目标的图像；各源域数据的集合S＝{S₁，...，S_Ns}，Ns为源域数量；

步骤2：数据选择

利用强化学习数据选择器从源数据集中选择样本，输送至共享编码器中；强化学习数据选择器使用状态、行为和奖励作为筛选机制，对源域中的样本进行筛选；所述的强化学习数据选择器中使用的SAC算法包括一个actor网络和四个critic网络；

步骤3：模型训练

筛选出的样本输入到共享编码器中作为训练集；在训练期间，TL模型和强化学习数据选择器联合学习，进一步保留或删除源域的样本；利用训练好的TL模型对目标域样本进行识别。

2.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法，其特征在于：步骤2中所述的状态、行为和奖励具体如下：

状态：给定源域X_i的状态表示为连续的真实值矢量

其中，l是状态矢量的尺寸，S_i代表以下功能的串联：

(1)隐藏的表示Z_i，它是给定共享编码器的输出；

(2)源模型X_i的训练损失；

(3)目标模型Y_i的测试损失；

(4)共享编码器在源模型X_i上的预测概率；

(5)共享编码器在目标模型Y_i上的预测概率；

行为：表示为a_i∈{0，1}，其用于指示从源数据中删除或保留样本，根据学习策略函数Π(S_i)产生的概率分布来采样a_i；Π(S_i)的表达式如下：

Π(S_i)＝softmax(W₂H_i+b₂)

H_i＝tan(W_lS_i+b₂)

其中，W_k和b_k是策略网络中的第k层的重量矩阵和偏置载体，k＝1，2，...，l；l为策略网络中的层数；H_i是中间隐藏状态；

奖励：预期总奖励r′_b的表达式如下：

其中，N是本轮中样本批次的数目；b为当前批次的序号；r′_b是样当前批次b的预期总奖励，γ是奖励折扣系数；k为策略网络的当前层序号。

3.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法，其特征在于：步骤2中所述的SAC算法的更新步骤为：

目标找到最柔性策略π^*：

其中，

为策略π下获得的期望；R(s_t，a_t)为在s_t状态下选择行为a_t获得的奖励；s_t为状态；a_t为行为；t表示时刻；α为温度系数，用来平衡环境给出的奖励和策略熵之间的重要程度；

为熵；

构建柔性值函数V^π(s_t)如下：

其中，π(·|s_t)为所有动作的概率，Q(s_t，a_t)为动作值函数；

利用在学习样本的环境中采样构建柔性动作值函数Q^π(s，a)如下：

其中，V^π(s′)为状态s′下的柔性值函数，P(s′|s，a)从环境中获得的轨迹样本，

利用贝尔曼期望等式构建柔性动作值函数Q^π(s，a)如下：

其中，Q^π(a′，π(s′)为上一策略中获得的柔性值函数；

进行策略改进如下：

其中，π_new为更新后的策略；

是求出最小的

为经验池的KL散度(相对熵)，Q^old(s_t，·)为先前策略下的Q值函数，

为梯度的常量。

4.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法，其特征在于：步骤2中，数据选择器从多源域中随机挑选一批样本放入经验池中，从经验池采样一个batch数据，进行Q Critic网络和V Critic网络的更新，产生的组合loss值对Actor网络进行梯度下降训练，以找到更优的策略；经验池中进行采样的一个batch数据作为源域，与目标域以TL模型为基础进行迁移学习；TL模型的loss差作为奖励用于对Actor网络的更新。

5.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法，其特征在于：步骤3中，在优化TL模型时，基于一批训练样本计算梯度；通过选择有用的源域数据，强化学习数据选择器在源模型更新的每一次迭代之前进行干预；TL模型更新包括共享编码器的更新；TL模型依次提供奖励来评估数据选择的效用；在每一轮之后，策略网络使用SoftActor-Critic算法更新，包括状态、动作以及奖励；

迭代中，总损失