CN114202031A - 一种基于强化学习的多源域迁移目标识别方法 - Google Patents

一种基于强化学习的多源域迁移目标识别方法 Download PDF

Info

Publication number
CN114202031A
CN114202031A CN202111539029.3A CN202111539029A CN114202031A CN 114202031 A CN114202031 A CN 114202031A CN 202111539029 A CN202111539029 A CN 202111539029A CN 114202031 A CN114202031 A CN 114202031A
Authority
CN
China
Prior art keywords
model
source
data
domain
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111539029.3A
Other languages
English (en)
Inventor
孔万增
崔岂铨
金宣妤
李倪
刘栋军
刘国文
郭继伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111539029.3A priority Critical patent/CN114202031A/zh
Publication of CN114202031A publication Critical patent/CN114202031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于强化学习的多源域迁移目标识别方法。本发明使用强化学习来训练数据选择策略,以选择高质量的源域数据,目的是防止负转移及多个源域和目标域之间存在的域差异。在源域数据上的数据选择器“作用”以找到用于优化TL模型的子集,而TL模型的性能可以提供“奖励”以更新选择器。我们基于SoftActor‑Critic(柔性执行器‑评价器)算法框架构建加强数据选择器,并将其集成到基于DNN的迁移学习模型,从而变成强化迁移学习(RTL)方法。经过不同的状态,奖励和策略优化方法的设置,确认本发明提供的模型的稳健性。对PI和NLI任务的广泛实验表明,本发明提供的模型可以优于具有统计显着改进的现有方法。

Description

一种基于强化学习的多源域迁移目标识别方法
技术领域
本发明属于强化学习与迁移学习交叉领域,具体涉及一种基于强化学习SoftActor-Critic(柔性执行器-评价器)算法进行多源域间数据选择的方法。
背景技术
强化学习主要解决智能决策问题,它被构造为与环境交互的智能体。强化学习中,人工智能(AI)面临类似游戏的情况(即模拟)。人工智能通过反复试验来提出问题的解决方案。智能体缓慢而稳定地学习在不确定的、潜在复杂的环境中实现目标,但我们不能指望智能体盲目地偶然发现完美的解决方案。这是交互发挥作用的地方,为智能体提供了环境状态,这成为智能体采取行动的输入基础。一个动作首先向智能体提供奖励(注意,根据问题的适应度函数,奖励可以是正的也可以是负的),基于此奖励,智能体内部的策略(ML模型)适应学习。其次,它会影响环境并改变它的状态,这意味着下一个循环的输入会发生变化。这个循环一直持续到创建一个最佳智能体。这个循环试图复制我们在自然界中看到的生物体在其生命周期中的学习循环。在大多数情况下,环境会在一定数量的循环后或有条件地重置。注意,可以同时运行多个智能体以更快地获得解决方案,但所有智能体都是独立运行的。
在多源域适到目标域的适配当中,不仅源域和目标域之间存在明显的域差异,而且也存在于多个源域之间,因此我们就要考虑域适应问题。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于强化学习Soft Actor-Critic(执行器-评价器)算法的多源域数据选择的方法。首先,构造数据选择器,我们将迁移学习设置中的源数据选择设置为马尔可夫决策过程,通过强化学习来解决。强化学习数据选择器是与TL模型交互的智能体。智能体根据学习策略采取操作或丢弃给定源样本。智能体基于给定关于描述给定样本的若干特征的状态表示的决定。TL模型评估智能体的行为产生的奖励以指导智能体的学习。智能体的目标是最大限度的提高其收到的预期未来总奖励。
本发明提供的基于强化学习的多源域迁移目标识别方法,其具体步骤如下:
步骤1:多源域适配
分别获取多个有标签的源域数据和无标签的目标域数据。源域数据与目标域数据为包含相同类别的目标的图像。各源域数据的集合S={S1,…,SNs},Ns为源域数量。
步骤2:数据选择
利用强化学习数据选择器从源数据集中选择样本,输送至共享编码器中;强化学习数据选择器使用状态、行为和奖励作为筛选机制,对源域中的样本进行筛选。所述的强化学习数据选择器中使用的SAC算法包括一个actor网络和四个critic网络。
步骤3:模型训练
筛选出的样本输入到共享编码器中作为训练集;在训练期间,TL模型和强化学习数据选择器联合学习,进一步保留或删除源域的样本。利用训练好的TL模型对目标域样本进行识别。
作为优选,步骤2中所述的状态、行为和奖励具体如下:
状态:给定源域Xi的状态表示为连续的真实值矢量
Figure BDA0003413369310000021
其中,l是状态矢量的尺寸,Si代表以下功能的串联:
(1)隐藏的表示Zi,它是给定共享编码器的输出。
(2)源模型Xi的训练损失。
(3)目标模型Yi的测试损失。
(4)共享编码器在源模型Xi上的预测概率。
(5)共享编码器在目标模型Yi上的预测概率。
行为:表示为ai∈{0,1},其用于指示从源数据中删除或保留样本,根据学习策略函数Π(Si)产生的概率分布来采样ai。Π(Si)的表达式如下:
Π(Si)=softmax(W2Hi+b2)
Hi=tan(WlSi+b2)
其中,Wk和bk是策略网络中的第k层的重量矩阵和偏置载体,k=1,2,...,l;l为策略网络中的层数;Hi是中间隐藏状态。
奖励:预期总奖励r'b的表达式如下:
Figure BDA0003413369310000022
其中,N是本轮中样本批次的数目;b为当前批次的序号;r'b是样当前批次b的预期总奖励,γ是奖励折扣系数;k为策略网络的当前层序号。
作为优选,步骤2中所述的SAC算法的更新步骤为:
目标找到最柔性策略π*
Figure BDA0003413369310000031
其中,
Figure BDA0003413369310000032
为策略π下获得的期望;R(St,at)为在st状态下选择行为at获得的奖励;st为状态;at为行为;t表示时刻;α为温度系数,用来平衡环境给出的奖励和策略熵之间的重要程度。
Figure BDA0003413369310000033
为熵。
构建柔性值函数Vπ(st)如下:
Figure BDA0003413369310000034
其中,π(·|st)为所有动作的概率,Q(st,at)为动作值函数。
利用在学习样本的环境中采样构建柔性动作值函数Qπ(s,a)如下:
Figure BDA0003413369310000035
其中,Vπ(s')为状态s'下的柔性值函数,P(s'|s,a)从环境中获得的轨迹样本。
利用贝尔曼期望等式构建柔性动作值函数Qπ(s,a)如下:
Figure BDA0003413369310000036
其中,Qπ(a',π(s')为上一策略中获得的柔性值函数。
进行策略改进如下:
Figure BDA0003413369310000037
其中,πnew为更新后的策略;
Figure BDA0003413369310000038
是求出最小的
Figure BDA0003413369310000039
Figure BDA00034133693100000310
为经验池的KL散度(相对熵),Qold(st,·)为先前策略下的Q值函数,
Figure BDA00034133693100000311
为梯度的常量。
作为优选,步骤2中,数据选择器从多源域中随机挑选一批样本放入经验池中,从经验池采样一个batch数据,进行Q Critic网络和V Critic网络的更新,产生的组合loss值对Actor网络进行梯度下降训练,以找到更优的策略。经验池中进行采样的一个batch数据作为源域,与目标域以TL模型为基础进行迁移学习。TL模型的loss差作为奖励用于对Actor网络的更新。
作为优选,步骤3中,在优化TL模型时,基于一批训练样本计算梯度。通过选择有用的源域数据,强化学习数据选择器在源模型更新的每一次迭代之前进行干预。TL模型更新包括共享编码器的更新。TL模型依次提供奖励来评估数据选择的效用。在每一轮之后,策略网络使用Soft Actor-Critic算法更新,包括状态、动作以及奖励。
迭代中,总损失
Figure BDA00034133693100000312
的表达式如下:
Figure BDA0003413369310000041
其中,
Figure BDA0003413369310000042
为第一次的损失;
Figure BDA0003413369310000043
为域对齐损耗;λ是一个独立的权重参数,它控制损失组件之间的折衷。
第一次的损失
Figure BDA0003413369310000044
的表达式如下:
Figure BDA0003413369310000045
其中,fθ为分类模型;
Figure BDA0003413369310000046
为源域中的样本。
域对齐损耗
Figure BDA0003413369310000047
的表达式如下:
Figure BDA0003413369310000048
其中,DT是目标域数据;
Figure BDA0003413369310000049
是源数据域之间的差异度量。
利用总损失
Figure BDA00034133693100000410
对TL模型进行更新;迭代中相邻两次获取的总损失
Figure BDA00034133693100000411
的差值作为奖励,进行样本的删除与保留;提高源域到目标域的迁移效果。
本发明的有益效果为:
本发明使用强化学习来训练数据选择策略,以选择高质量的源域数据,目的是防止负转移及多个源域和目标域之间存在的域差异。在源域数据上的数据选择器“作用”以找到用于优化TL模型的子集,而TL模型的性能可以提供“奖励”以更新选择器。我们基于SoftActor-Critic(柔性执行器-评价器)算法框架构建加强数据选择器,并将其集成到基于DNN的迁移学习模型,从而变成强化迁移学习(RTL)方法。经过不同的状态,奖励和策略优化方法的设置,确认本发明提供的模型的稳健性。对PI和NLI任务的广泛实验表明,本发明提供的模型可以优于具有统计显着改进的现有方法。最后,本发明使用Wassersein距离来测量数据选择前后的源和目标域距离,结果显示本发明能够选择具有与目标域数据类似的概率分布的源域数据。
附图说明
图1为本发明中Soft Actor-Critic(柔性执行器-评价器)算法原理图。
图2为本发明中Soft Actor-Critic(柔性执行器-评价器)算法的网络框架图。
图3为本发明的流程图。
图4为本发明与现有技术的处理结果对比图。
具体实施方式
下面结合具体实例,对本发明做进一步的实施分析。
一种基于强化学习的多源域迁移目标识别方法,具体步骤如下:
步骤1:多源域适配
我们使用DomainNet数据集进行测试,其中包含,来自不同图像样式的6个域的345种图像集共0.6百万张图片:其中包含clipart(剪贴画)、infograph(象形画)、painting(油画)、quickdraw(涂鸦)、real(高清图)和sketch(素描)。我们将real域作为目标域,其余作为源域。首先进行域对齐。
多源域适配旨在从几个源域S={S1,…,SNs}绘制到目标域T的源数据分布上的传输模型;Ns为源域数量,本实施例中,Ns取值为5。我们考虑参数θ的分类模型fθ,其映射图像x∈X到类预测y∈Y={1,…,C};其中,C是类的数量,x是图像空间。目标是调整源数据集
Figure BDA0003413369310000051
的模型参数θ,从源域分布S(yi是示例标签
Figure BDA0003413369310000052
的单热编码)到目标数据集
Figure BDA0003413369310000053
目标分布中未标记的示例。值得注意的是,在最常见的问题中,每个源示例的原点域
Figure BDA0003413369310000054
是未知的,许多方法都会忽略这一点。假设源数据集
Figure BDA0003413369310000055
包含域标签zi={1,…,Ns},将源域和域标签对齐。
步骤2:数据选择
利用强化学习数据选择器从源数据集(clipart(剪贴画),infograph(象形画),painting(油画),quickdraw(涂鸦),sketch(素描))中选择样本,输送至共享编码器中;强化学习数据选择器中使用状态、行为和奖励作为筛选机制。我们将在以下介绍状态、行为和奖励:
状态:给定源域Xi的状态表示为连续的真实值矢量
Figure BDA0003413369310000056
其中,l是状态矢量的尺寸,Si代表以下功能的串联:
(6)隐藏的表示Zi,它是给定共享编码器的输出。
(7)源模型Xi的训练损失。
(8)目标模型Yi的测试损失。
(9)共享编码器在源模型Xi上的预测概率。
(10)共享编码器在目标模型Yi上的预测概率。
第一个特征旨在向数据选择器呈现原始内容。特征(3)和特征(5)基于直觉,有用的源域培训数据将在对目标模型上相对较高的信心分类。特征(2)和特征(4)也作为获取特征(3)的输入,并且与源模型上的特征(5)相对应。
行为:行为表示为ai∈{0,1},它指示是否从源数据中删除或保留样本,根据学习策略函数Π(Si)产生的概率分布来采样ai。Π(Si)定义如下:
Π(Si)=P(ai|Si)=softmax(W2Hi+b2)
Hi=tan(WlSi+b2)
其中,Wk和bk是策略网络中的第k层的重量矩阵和偏置载体,k=1,2,...,l;l为策略网络中的层数;Hi是中间隐藏状态。
奖励:数据选择器采取操作以从源数据集中选择数据,并形成一批新的源数据
Figure BDA0003413369310000061
我们使用
Figure BDA0003413369310000062
来更新源模型,并使用奖励函数
Figure BDA0003413369310000063
获取立即奖励rb。与传统的强化学习相比,基于一个状态采样并从环境中获取一个奖励,我们的行为基于一批状态进行采样并获得一个奖励以提高模型训练效率。
奖励被设置为每批处理的目标域验证数据上的预测准确性。为了准确评估
Figure BDA0003413369310000064
的效用,在更新源模型和更新目标模型之前获得奖励rb。对于极其罕见的情况(即
Figure BDA0003413369310000065
),我们跳过此步骤的源模型的更新。
在一轮之后,计算每批的预期总奖励r'b,其表达式如下:
Figure BDA0003413369310000066
其中,N是本轮中样本批次的数目;b为当前批次的序号;r'b是样当前批次b的预期总奖励,γ是奖励折扣系数;k为策略网络的当前层序号。
如图1和2所示,强化学习数据选择器用于对多源域进行样本的选择和迁移学习。强化学习数据选择器使用的SAC算法(即Soft Actor-Critic,柔性执行器-评价器),由一个actor网络和四个critic网络组成,即由状态价值估计v和Target v网络,以及动作-状态价值估计Q0和Q1网络组成,SAC算法的更新步骤为:
目标找到最柔性策略π*
Figure BDA0003413369310000067
其中,
Figure BDA0003413369310000068
为策略π下获得的期望;R(st,at)为在st状态下选择行为at获得的奖励;at为状态;at为行为;t表示时刻;α为温度系数,用来平衡环境给出的奖励和策略熵之间的重要程度。
Figure BDA0003413369310000069
为熵。
构建柔性值函数Vπ(st)如下:
Figure BDA00034133693100000610
其中,π(·|st)为所有动作的概率,Q(st,at)为动作值函数。
利用在学习样本的环境中采样构建柔性动作值函数Qπ(s,a)如下:
Figure BDA00034133693100000611
其中,Vπ(s')为状态s'下的柔性值函数,P(s'|s,a)从环境中获得的轨迹样本。
利用贝尔曼期望等式构建柔性动作值函数Qπ(s,a)如下:
Figure BDA0003413369310000071
其中,Qπ(a',π(s')为上一策略中获得的柔性值函数。
进行策略改进如下:
Figure BDA0003413369310000072
其中,πnew为更新后的策略;
Figure BDA0003413369310000073
是求出最小的
Figure BDA0003413369310000074
Figure BDA0003413369310000075
为经验池的KL散度(相对熵),Qold(st,·)为先前策略下的Q值函数,
Figure BDA0003413369310000076
为梯度的常量。
在实现中,需要根据实际情况设计策略网络来表示πθ(a|s),在给定状态下,输出动作选择的概率。分别讨论离散动作空间和连续动作空间下的网络设计。
(1)在离散动作空间中,输入为状态的表示,输出节点与动作个数相等,后接Softmax层。
(2)在连续动作空间中,输入为状态的表示,输出的设计方式有多种。一般假设每个动作的输出服从高斯分布,因此可以输出每个动作的均值。
数据选择器从多源域中随机挑选一批样本放入经验池中,从经验池采样一个batch数据,进行Q Critic网络和V Critic的更新,产生的组合loss值对Actor网络进行梯度下降训练,以找到更优的策略。经验池中进行采样的一个batch数据作为源域,与目标域以TL模型为基础进行迁移学习。TL模型的loss差作为奖励用于对Actor网络的更新。
步骤3:模型训练
经过选择器筛选出的样本输入到共享编码器中作为训练集;最终我们根据迁移效果选择保留和删除源域的样本。在训练期间,TL模型和强化学习数据选择器联合学习。为了优化策略网络,我们使用Soft Actor-Critic(柔性执行器-评价器)算法。为了优化TL模型,我们使用梯度下降方法来最小化损失函数。我们首先使用迭代的TL模型进行预训练,然后开始进行联合训练过程。
在优化TL模型时,基于一批训练样本计算梯度。TL模型利用源域和目标域中的训练数据以获得更好的模型性能。通过选择有用的源域数据,强化学习数据选择器在源模型更新的每一次迭代之前进行干预。因此干预过程对所计算的源模型更新的梯度产生影响。TL模型更新包括共享编码器的更新。TL模型依次提供奖励来评估数据选择的效用。在每一轮之后,策略网络使用Soft Actor-Critic(柔性执行器-评价器)算法更新,包括状态、动作以及奖励。
像往常一样用于域适应问题,此模型是通过两种损失的组合学习的。
Figure BDA0003413369310000081
其中,
Figure BDA0003413369310000082
为总损失;
Figure BDA0003413369310000083
为第一次的损失;
Figure BDA0003413369310000084
为域对齐损耗;λ是一个独立的权重参数,它控制损失组件之间的折衷。
第一次的损失
Figure BDA0003413369310000085
是源数据DS上的跨熵损失,其表达式如下:
Figure BDA0003413369310000086
域对齐损耗
Figure BDA0003413369310000087
鼓励最小化源域和目标域之间的距离,其表达式如下:
Figure BDA0003413369310000088
其中,DT是目标域数据,且
Figure BDA0003413369310000089
是源数据域之间的差异度量。
Figure BDA00034133693100000810
可以是先前提出用于域适应的任何距离度量。这两个损失都是在源数据集DS上运行,即不需要域标签,甚至没有单一域和多个域之间的差异。对于多源域适应的域常用的域对齐损耗还需要评估所有源域和目标域之间的成对距离。
利用总损失
Figure BDA00034133693100000811
对TL模型进行更新;迭代中相邻两次获取的总损失
Figure BDA00034133693100000813
的差值作为奖励,进行样本的删除与保留;提高源域到目标域的迁移效果。
利用训练好的TL模型对目标域样本进行识别。
图3为基于强化学习的多源域迁移目标识别方法的框架流程图,由两个主要部分组成:强化学习数据选择器和TL模型。“共享编码器”是指嵌入在TL模型中的基础模型。强化学习数据选择器选择源数据的一部分,并将它们输送到每个迭代的TL模型中。TL模型在目标域上生成奖励以用于数据选择器的域验证数据。目标域送入TL模型。
本发明提供参数设置和实现详细信息如下。所有参数都以TensorFlow6实现。用于可分解模型的隐藏层的大小为200。PI的最大序列长度为40,对于NLI为50,掩模填充以避免影响梯度。包括策略网络的隐藏层的大小的超参数,并使用目标域验证数据调整奖励折扣系数。检查点在每个轮次的末尾保存,并在测试集上生成评估。所有型号都使用ADAM使用NVIDIA Titan x GPU训练。迁移模型的初始学习率为0.001,策略网络为0.02。β1和β2的参数分别为0.9和0.999。值估计器网络的隐藏层大小和优化方法与策略网络相同。最终我们得到的训练结果图为图4,其中左边为损失,右边为准确率(实曲线是采用本发明的处理结果),从图中可以看出刚开始时,基于SAC的方法的损失略高,准确率也略低,随着轮数的增加,此方法产生的损失曲线明显低于非SAC算法的损失,准确率也在非SAC算法的曲线之上,准确率较非SAC方法高。

Claims (5)

1.一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤1:多源域适配
分别获取多个有标签的源域数据和无标签的目标域数据;源域数据与目标域数据为包含相同类别的目标的图像;各源域数据的集合S={S1,...,SNs},Ns为源域数量;
步骤2:数据选择
利用强化学习数据选择器从源数据集中选择样本,输送至共享编码器中;强化学习数据选择器使用状态、行为和奖励作为筛选机制,对源域中的样本进行筛选;所述的强化学习数据选择器中使用的SAC算法包括一个actor网络和四个critic网络;
步骤3:模型训练
筛选出的样本输入到共享编码器中作为训练集;在训练期间,TL模型和强化学习数据选择器联合学习,进一步保留或删除源域的样本;利用训练好的TL模型对目标域样本进行识别。
2.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤2中所述的状态、行为和奖励具体如下:
状态:给定源域Xi的状态表示为连续的真实值矢量
Figure FDA0003413369300000011
其中,l是状态矢量的尺寸,Si代表以下功能的串联:
(1)隐藏的表示Zi,它是给定共享编码器的输出;
(2)源模型Xi的训练损失;
(3)目标模型Yi的测试损失;
(4)共享编码器在源模型Xi上的预测概率;
(5)共享编码器在目标模型Yi上的预测概率;
行为:表示为ai∈{0,1},其用于指示从源数据中删除或保留样本,根据学习策略函数Π(Si)产生的概率分布来采样ai;Π(Si)的表达式如下:
Π(Si)=softmax(W2Hi+b2)
Hi=tan(WlSi+b2)
其中,Wk和bk是策略网络中的第k层的重量矩阵和偏置载体,k=1,2,...,l;l为策略网络中的层数;Hi是中间隐藏状态;
奖励:预期总奖励r′b的表达式如下:
Figure FDA0003413369300000021
其中,N是本轮中样本批次的数目;b为当前批次的序号;r′b是样当前批次b的预期总奖励,γ是奖励折扣系数;k为策略网络的当前层序号。
3.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤2中所述的SAC算法的更新步骤为:
目标找到最柔性策略π*
Figure FDA0003413369300000022
其中,
Figure FDA0003413369300000023
为策略π下获得的期望;R(st,at)为在st状态下选择行为at获得的奖励;st为状态;at为行为;t表示时刻;α为温度系数,用来平衡环境给出的奖励和策略熵之间的重要程度;
Figure FDA0003413369300000024
为熵;
构建柔性值函数Vπ(st)如下:
Figure FDA0003413369300000025
其中,π(·|st)为所有动作的概率,Q(st,at)为动作值函数;
利用在学习样本的环境中采样构建柔性动作值函数Qπ(s,a)如下:
Figure FDA0003413369300000026
其中,Vπ(s′)为状态s′下的柔性值函数,P(s′|s,a)从环境中获得的轨迹样本,
利用贝尔曼期望等式构建柔性动作值函数Qπ(s,a)如下:
Figure FDA0003413369300000027
其中,Qπ(a′,π(s′)为上一策略中获得的柔性值函数;
进行策略改进如下:
Figure FDA0003413369300000028
其中,πnew为更新后的策略;
Figure FDA0003413369300000029
是求出最小的
Figure FDA00034133693000000210
Figure FDA00034133693000000211
为经验池的KL散度(相对熵),Qold(st,·)为先前策略下的Q值函数,
Figure FDA00034133693000000212
为梯度的常量。
4.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤2中,数据选择器从多源域中随机挑选一批样本放入经验池中,从经验池采样一个batch数据,进行Q Critic网络和V Critic网络的更新,产生的组合loss值对Actor网络进行梯度下降训练,以找到更优的策略;经验池中进行采样的一个batch数据作为源域,与目标域以TL模型为基础进行迁移学习;TL模型的loss差作为奖励用于对Actor网络的更新。
5.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤3中,在优化TL模型时,基于一批训练样本计算梯度;通过选择有用的源域数据,强化学习数据选择器在源模型更新的每一次迭代之前进行干预;TL模型更新包括共享编码器的更新;TL模型依次提供奖励来评估数据选择的效用;在每一轮之后,策略网络使用SoftActor-Critic算法更新,包括状态、动作以及奖励;
迭代中,总损失
Figure FDA00034133693000000311
的表达式如下:
Figure FDA0003413369300000031
其中,
Figure FDA0003413369300000032
为第一次的损失;
Figure FDA0003413369300000033
为域对齐损耗;λ是一个独立的权重参数,它控制损失组件之间的折衷;
第一次的损失
Figure FDA0003413369300000034
的表达式如下:
Figure FDA0003413369300000035
其中,fθ为分类模型;
Figure FDA0003413369300000036
为源域中的样本;
域对齐损耗
Figure FDA0003413369300000037
的表达式如下:
Figure FDA0003413369300000038
其中,DT是目标域数据;
Figure FDA0003413369300000039
是源数据域之间的差异度量;
利用总损失
Figure FDA00034133693000000310
对TL模型进行更新;迭代中相邻两次获取的总损失
Figure FDA00034133693000000312
的差值作为奖励,进行样本的删除与保留;提高源域到目标域的迁移效果。
CN202111539029.3A 2021-12-15 2021-12-15 一种基于强化学习的多源域迁移目标识别方法 Pending CN114202031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111539029.3A CN114202031A (zh) 2021-12-15 2021-12-15 一种基于强化学习的多源域迁移目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111539029.3A CN114202031A (zh) 2021-12-15 2021-12-15 一种基于强化学习的多源域迁移目标识别方法

Publications (1)

Publication Number Publication Date
CN114202031A true CN114202031A (zh) 2022-03-18

Family

ID=80654312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111539029.3A Pending CN114202031A (zh) 2021-12-15 2021-12-15 一种基于强化学习的多源域迁移目标识别方法

Country Status (1)

Country Link
CN (1) CN114202031A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738299A (zh) * 2023-08-16 2023-09-12 西南交通大学 一种高速列车蛇行状态识别与峰值预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034976A1 (en) * 2019-08-02 2021-02-04 Google Llc Framework for Learning to Transfer Learn
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034976A1 (en) * 2019-08-02 2021-02-04 Google Llc Framework for Learning to Transfer Learn
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TUOMAS HAARNOJA等: "Soft Actor-Critic Algorithms and Applications", HTTPS://ARXIV.ORG/ABS/1812.05905, 29 January 2019 (2019-01-29), pages 1 - 17 *
ZHIHONG CHEN等: "Selective Transfer with Reinforced Transfer Network for Partial Domain Adaptation", HTTPS://ARXIV.ORG/ABS/1905.10756, 28 April 2020 (2020-04-28), pages 1 - 9 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738299A (zh) * 2023-08-16 2023-09-12 西南交通大学 一种高速列车蛇行状态识别与峰值预测方法
CN116738299B (zh) * 2023-08-16 2023-10-20 西南交通大学 一种高速列车蛇行状态识别与峰值预测方法

Similar Documents

Publication Publication Date Title
Cui et al. A new hyperparameters optimization method for convolutional neural networks
Zhang et al. Generative flow networks for discrete probabilistic modeling
CN111832627B (zh) 抑制标签噪声的图像分类模型训练方法、分类方法及系统
CN110321811B (zh) 深度逆强化学习的无人机航拍视频中的目标检测方法
CN107508866B (zh) 减小移动设备端神经网络模型更新的传输消耗的方法
CN110909926A (zh) 基于tcn-lstm的太阳能光伏发电预测方法
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN113191484A (zh) 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN108170529A (zh) 一种基于长短期记忆网络的云数据中心负载预测方法
CN109558898B (zh) 一种基于深度神经网络的高置信度的多选择学习方法
Liu et al. Rest: Constructing rectilinear steiner minimum tree via reinforcement learning
CN113947133B (zh) 小样本图像识别的任务重要性感知元学习方法
Wiggers et al. Predictive sampling with forecasting autoregressive models
CN115018191A (zh) 一种基于小样本数据的碳排放量预测方法
CN114202031A (zh) 一种基于强化学习的多源域迁移目标识别方法
CN112131403B (zh) 一种动态环境下的知识图谱表示学习方法
CN110209933A (zh) 一种基于回归树上下文特征自动编码的偏置张量分解方法
CN116341605A (zh) 一种基于反向学习策略的灰狼算法混合优化方法
CN114463540A (zh) 使用神经网络对图像进行分割
CN116775687A (zh) 一种基于数模共生的时间序列预测闭环框架
Gaikwad et al. Survey on meta learning algorithms for few shot learning
CN112949590B (zh) 一种跨域行人重识别模型构建方法及构建系统
Zhang et al. Noise-aware local model training mechanism for federated learning
Shen et al. Variational sequential optimal experimental design using reinforcement learning
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination