CN114202031A - 一种基于强化学习的多源域迁移目标识别方法 - Google Patents
一种基于强化学习的多源域迁移目标识别方法 Download PDFInfo
- Publication number
- CN114202031A CN114202031A CN202111539029.3A CN202111539029A CN114202031A CN 114202031 A CN114202031 A CN 114202031A CN 202111539029 A CN202111539029 A CN 202111539029A CN 114202031 A CN114202031 A CN 114202031A
- Authority
- CN
- China
- Prior art keywords
- model
- source
- data
- domain
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013508 migration Methods 0.000 title claims abstract description 19
- 230000005012 migration Effects 0.000 title claims abstract description 19
- 230000009975 flexible effect Effects 0.000 claims abstract description 12
- 230000006872 improvement Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 18
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013526 transfer learning Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 16
- 238000010200 validation analysis Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于强化学习的多源域迁移目标识别方法。本发明使用强化学习来训练数据选择策略,以选择高质量的源域数据,目的是防止负转移及多个源域和目标域之间存在的域差异。在源域数据上的数据选择器“作用”以找到用于优化TL模型的子集,而TL模型的性能可以提供“奖励”以更新选择器。我们基于SoftActor‑Critic(柔性执行器‑评价器)算法框架构建加强数据选择器,并将其集成到基于DNN的迁移学习模型,从而变成强化迁移学习(RTL)方法。经过不同的状态,奖励和策略优化方法的设置,确认本发明提供的模型的稳健性。对PI和NLI任务的广泛实验表明,本发明提供的模型可以优于具有统计显着改进的现有方法。
Description
技术领域
本发明属于强化学习与迁移学习交叉领域,具体涉及一种基于强化学习SoftActor-Critic(柔性执行器-评价器)算法进行多源域间数据选择的方法。
背景技术
强化学习主要解决智能决策问题,它被构造为与环境交互的智能体。强化学习中,人工智能(AI)面临类似游戏的情况(即模拟)。人工智能通过反复试验来提出问题的解决方案。智能体缓慢而稳定地学习在不确定的、潜在复杂的环境中实现目标,但我们不能指望智能体盲目地偶然发现完美的解决方案。这是交互发挥作用的地方,为智能体提供了环境状态,这成为智能体采取行动的输入基础。一个动作首先向智能体提供奖励(注意,根据问题的适应度函数,奖励可以是正的也可以是负的),基于此奖励,智能体内部的策略(ML模型)适应学习。其次,它会影响环境并改变它的状态,这意味着下一个循环的输入会发生变化。这个循环一直持续到创建一个最佳智能体。这个循环试图复制我们在自然界中看到的生物体在其生命周期中的学习循环。在大多数情况下,环境会在一定数量的循环后或有条件地重置。注意,可以同时运行多个智能体以更快地获得解决方案,但所有智能体都是独立运行的。
在多源域适到目标域的适配当中,不仅源域和目标域之间存在明显的域差异,而且也存在于多个源域之间,因此我们就要考虑域适应问题。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于强化学习Soft Actor-Critic(执行器-评价器)算法的多源域数据选择的方法。首先,构造数据选择器,我们将迁移学习设置中的源数据选择设置为马尔可夫决策过程,通过强化学习来解决。强化学习数据选择器是与TL模型交互的智能体。智能体根据学习策略采取操作或丢弃给定源样本。智能体基于给定关于描述给定样本的若干特征的状态表示的决定。TL模型评估智能体的行为产生的奖励以指导智能体的学习。智能体的目标是最大限度的提高其收到的预期未来总奖励。
本发明提供的基于强化学习的多源域迁移目标识别方法,其具体步骤如下:
步骤1:多源域适配
分别获取多个有标签的源域数据和无标签的目标域数据。源域数据与目标域数据为包含相同类别的目标的图像。各源域数据的集合S={S1,…,SNs},Ns为源域数量。
步骤2:数据选择
利用强化学习数据选择器从源数据集中选择样本,输送至共享编码器中;强化学习数据选择器使用状态、行为和奖励作为筛选机制,对源域中的样本进行筛选。所述的强化学习数据选择器中使用的SAC算法包括一个actor网络和四个critic网络。
步骤3:模型训练
筛选出的样本输入到共享编码器中作为训练集;在训练期间,TL模型和强化学习数据选择器联合学习,进一步保留或删除源域的样本。利用训练好的TL模型对目标域样本进行识别。
作为优选,步骤2中所述的状态、行为和奖励具体如下:
(1)隐藏的表示Zi,它是给定共享编码器的输出。
(2)源模型Xi的训练损失。
(3)目标模型Yi的测试损失。
(4)共享编码器在源模型Xi上的预测概率。
(5)共享编码器在目标模型Yi上的预测概率。
行为:表示为ai∈{0,1},其用于指示从源数据中删除或保留样本,根据学习策略函数Π(Si)产生的概率分布来采样ai。Π(Si)的表达式如下:
Π(Si)=softmax(W2Hi+b2)
Hi=tan(WlSi+b2)
其中,Wk和bk是策略网络中的第k层的重量矩阵和偏置载体,k=1,2,...,l;l为策略网络中的层数;Hi是中间隐藏状态。
奖励:预期总奖励r'b的表达式如下:
其中,N是本轮中样本批次的数目;b为当前批次的序号;r'b是样当前批次b的预期总奖励,γ是奖励折扣系数;k为策略网络的当前层序号。
作为优选,步骤2中所述的SAC算法的更新步骤为:
目标找到最柔性策略π*:
构建柔性值函数Vπ(st)如下:
其中,π(·|st)为所有动作的概率,Q(st,at)为动作值函数。
利用在学习样本的环境中采样构建柔性动作值函数Qπ(s,a)如下:
其中,Vπ(s')为状态s'下的柔性值函数,P(s'|s,a)从环境中获得的轨迹样本。
利用贝尔曼期望等式构建柔性动作值函数Qπ(s,a)如下:
其中,Qπ(a',π(s')为上一策略中获得的柔性值函数。
进行策略改进如下:
作为优选,步骤2中,数据选择器从多源域中随机挑选一批样本放入经验池中,从经验池采样一个batch数据,进行Q Critic网络和V Critic网络的更新,产生的组合loss值对Actor网络进行梯度下降训练,以找到更优的策略。经验池中进行采样的一个batch数据作为源域,与目标域以TL模型为基础进行迁移学习。TL模型的loss差作为奖励用于对Actor网络的更新。
作为优选,步骤3中,在优化TL模型时,基于一批训练样本计算梯度。通过选择有用的源域数据,强化学习数据选择器在源模型更新的每一次迭代之前进行干预。TL模型更新包括共享编码器的更新。TL模型依次提供奖励来评估数据选择的效用。在每一轮之后,策略网络使用Soft Actor-Critic算法更新,包括状态、动作以及奖励。
本发明的有益效果为:
本发明使用强化学习来训练数据选择策略,以选择高质量的源域数据,目的是防止负转移及多个源域和目标域之间存在的域差异。在源域数据上的数据选择器“作用”以找到用于优化TL模型的子集,而TL模型的性能可以提供“奖励”以更新选择器。我们基于SoftActor-Critic(柔性执行器-评价器)算法框架构建加强数据选择器,并将其集成到基于DNN的迁移学习模型,从而变成强化迁移学习(RTL)方法。经过不同的状态,奖励和策略优化方法的设置,确认本发明提供的模型的稳健性。对PI和NLI任务的广泛实验表明,本发明提供的模型可以优于具有统计显着改进的现有方法。最后,本发明使用Wassersein距离来测量数据选择前后的源和目标域距离,结果显示本发明能够选择具有与目标域数据类似的概率分布的源域数据。
附图说明
图1为本发明中Soft Actor-Critic(柔性执行器-评价器)算法原理图。
图2为本发明中Soft Actor-Critic(柔性执行器-评价器)算法的网络框架图。
图3为本发明的流程图。
图4为本发明与现有技术的处理结果对比图。
具体实施方式
下面结合具体实例,对本发明做进一步的实施分析。
一种基于强化学习的多源域迁移目标识别方法,具体步骤如下:
步骤1:多源域适配
我们使用DomainNet数据集进行测试,其中包含,来自不同图像样式的6个域的345种图像集共0.6百万张图片:其中包含clipart(剪贴画)、infograph(象形画)、painting(油画)、quickdraw(涂鸦)、real(高清图)和sketch(素描)。我们将real域作为目标域,其余作为源域。首先进行域对齐。
多源域适配旨在从几个源域S={S1,…,SNs}绘制到目标域T的源数据分布上的传输模型;Ns为源域数量,本实施例中,Ns取值为5。我们考虑参数θ的分类模型fθ,其映射图像x∈X到类预测y∈Y={1,…,C};其中,C是类的数量,x是图像空间。目标是调整源数据集的模型参数θ,从源域分布S(yi是示例标签的单热编码)到目标数据集目标分布中未标记的示例。值得注意的是,在最常见的问题中,每个源示例的原点域是未知的,许多方法都会忽略这一点。假设源数据集包含域标签zi={1,…,Ns},将源域和域标签对齐。
步骤2:数据选择
利用强化学习数据选择器从源数据集(clipart(剪贴画),infograph(象形画),painting(油画),quickdraw(涂鸦),sketch(素描))中选择样本,输送至共享编码器中;强化学习数据选择器中使用状态、行为和奖励作为筛选机制。我们将在以下介绍状态、行为和奖励:
(6)隐藏的表示Zi,它是给定共享编码器的输出。
(7)源模型Xi的训练损失。
(8)目标模型Yi的测试损失。
(9)共享编码器在源模型Xi上的预测概率。
(10)共享编码器在目标模型Yi上的预测概率。
第一个特征旨在向数据选择器呈现原始内容。特征(3)和特征(5)基于直觉,有用的源域培训数据将在对目标模型上相对较高的信心分类。特征(2)和特征(4)也作为获取特征(3)的输入,并且与源模型上的特征(5)相对应。
行为:行为表示为ai∈{0,1},它指示是否从源数据中删除或保留样本,根据学习策略函数Π(Si)产生的概率分布来采样ai。Π(Si)定义如下:
Π(Si)=P(ai|Si)=softmax(W2Hi+b2)
Hi=tan(WlSi+b2)
其中,Wk和bk是策略网络中的第k层的重量矩阵和偏置载体,k=1,2,...,l;l为策略网络中的层数;Hi是中间隐藏状态。
奖励:数据选择器采取操作以从源数据集中选择数据,并形成一批新的源数据我们使用来更新源模型,并使用奖励函数获取立即奖励rb。与传统的强化学习相比,基于一个状态采样并从环境中获取一个奖励,我们的行为基于一批状态进行采样并获得一个奖励以提高模型训练效率。
在一轮之后,计算每批的预期总奖励r'b,其表达式如下:
其中,N是本轮中样本批次的数目;b为当前批次的序号;r'b是样当前批次b的预期总奖励,γ是奖励折扣系数;k为策略网络的当前层序号。
如图1和2所示,强化学习数据选择器用于对多源域进行样本的选择和迁移学习。强化学习数据选择器使用的SAC算法(即Soft Actor-Critic,柔性执行器-评价器),由一个actor网络和四个critic网络组成,即由状态价值估计v和Target v网络,以及动作-状态价值估计Q0和Q1网络组成,SAC算法的更新步骤为:
目标找到最柔性策略π*:
构建柔性值函数Vπ(st)如下:
其中,π(·|st)为所有动作的概率,Q(st,at)为动作值函数。
利用在学习样本的环境中采样构建柔性动作值函数Qπ(s,a)如下:
其中,Vπ(s')为状态s'下的柔性值函数,P(s'|s,a)从环境中获得的轨迹样本。
利用贝尔曼期望等式构建柔性动作值函数Qπ(s,a)如下:
其中,Qπ(a',π(s')为上一策略中获得的柔性值函数。
进行策略改进如下:
在实现中,需要根据实际情况设计策略网络来表示πθ(a|s),在给定状态下,输出动作选择的概率。分别讨论离散动作空间和连续动作空间下的网络设计。
(1)在离散动作空间中,输入为状态的表示,输出节点与动作个数相等,后接Softmax层。
(2)在连续动作空间中,输入为状态的表示,输出的设计方式有多种。一般假设每个动作的输出服从高斯分布,因此可以输出每个动作的均值。
数据选择器从多源域中随机挑选一批样本放入经验池中,从经验池采样一个batch数据,进行Q Critic网络和V Critic的更新,产生的组合loss值对Actor网络进行梯度下降训练,以找到更优的策略。经验池中进行采样的一个batch数据作为源域,与目标域以TL模型为基础进行迁移学习。TL模型的loss差作为奖励用于对Actor网络的更新。
步骤3:模型训练
经过选择器筛选出的样本输入到共享编码器中作为训练集;最终我们根据迁移效果选择保留和删除源域的样本。在训练期间,TL模型和强化学习数据选择器联合学习。为了优化策略网络,我们使用Soft Actor-Critic(柔性执行器-评价器)算法。为了优化TL模型,我们使用梯度下降方法来最小化损失函数。我们首先使用迭代的TL模型进行预训练,然后开始进行联合训练过程。
在优化TL模型时,基于一批训练样本计算梯度。TL模型利用源域和目标域中的训练数据以获得更好的模型性能。通过选择有用的源域数据,强化学习数据选择器在源模型更新的每一次迭代之前进行干预。因此干预过程对所计算的源模型更新的梯度产生影响。TL模型更新包括共享编码器的更新。TL模型依次提供奖励来评估数据选择的效用。在每一轮之后,策略网络使用Soft Actor-Critic(柔性执行器-评价器)算法更新,包括状态、动作以及奖励。
像往常一样用于域适应问题,此模型是通过两种损失的组合学习的。
其中,DT是目标域数据,且是源数据域之间的差异度量。可以是先前提出用于域适应的任何距离度量。这两个损失都是在源数据集DS上运行,即不需要域标签,甚至没有单一域和多个域之间的差异。对于多源域适应的域常用的域对齐损耗还需要评估所有源域和目标域之间的成对距离。
利用训练好的TL模型对目标域样本进行识别。
图3为基于强化学习的多源域迁移目标识别方法的框架流程图,由两个主要部分组成:强化学习数据选择器和TL模型。“共享编码器”是指嵌入在TL模型中的基础模型。强化学习数据选择器选择源数据的一部分,并将它们输送到每个迭代的TL模型中。TL模型在目标域上生成奖励以用于数据选择器的域验证数据。目标域送入TL模型。
本发明提供参数设置和实现详细信息如下。所有参数都以TensorFlow6实现。用于可分解模型的隐藏层的大小为200。PI的最大序列长度为40,对于NLI为50,掩模填充以避免影响梯度。包括策略网络的隐藏层的大小的超参数,并使用目标域验证数据调整奖励折扣系数。检查点在每个轮次的末尾保存,并在测试集上生成评估。所有型号都使用ADAM使用NVIDIA Titan x GPU训练。迁移模型的初始学习率为0.001,策略网络为0.02。β1和β2的参数分别为0.9和0.999。值估计器网络的隐藏层大小和优化方法与策略网络相同。最终我们得到的训练结果图为图4,其中左边为损失,右边为准确率(实曲线是采用本发明的处理结果),从图中可以看出刚开始时,基于SAC的方法的损失略高,准确率也略低,随着轮数的增加,此方法产生的损失曲线明显低于非SAC算法的损失,准确率也在非SAC算法的曲线之上,准确率较非SAC方法高。
Claims (5)
1.一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤1:多源域适配
分别获取多个有标签的源域数据和无标签的目标域数据;源域数据与目标域数据为包含相同类别的目标的图像;各源域数据的集合S={S1,...,SNs},Ns为源域数量;
步骤2:数据选择
利用强化学习数据选择器从源数据集中选择样本,输送至共享编码器中;强化学习数据选择器使用状态、行为和奖励作为筛选机制,对源域中的样本进行筛选;所述的强化学习数据选择器中使用的SAC算法包括一个actor网络和四个critic网络;
步骤3:模型训练
筛选出的样本输入到共享编码器中作为训练集;在训练期间,TL模型和强化学习数据选择器联合学习,进一步保留或删除源域的样本;利用训练好的TL模型对目标域样本进行识别。
2.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤2中所述的状态、行为和奖励具体如下:
(1)隐藏的表示Zi,它是给定共享编码器的输出;
(2)源模型Xi的训练损失;
(3)目标模型Yi的测试损失;
(4)共享编码器在源模型Xi上的预测概率;
(5)共享编码器在目标模型Yi上的预测概率;
行为:表示为ai∈{0,1},其用于指示从源数据中删除或保留样本,根据学习策略函数Π(Si)产生的概率分布来采样ai;Π(Si)的表达式如下:
Π(Si)=softmax(W2Hi+b2)
Hi=tan(WlSi+b2)
其中,Wk和bk是策略网络中的第k层的重量矩阵和偏置载体,k=1,2,...,l;l为策略网络中的层数;Hi是中间隐藏状态;
奖励:预期总奖励r′b的表达式如下:
其中,N是本轮中样本批次的数目;b为当前批次的序号;r′b是样当前批次b的预期总奖励,γ是奖励折扣系数;k为策略网络的当前层序号。
3.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤2中所述的SAC算法的更新步骤为:
目标找到最柔性策略π*:
构建柔性值函数Vπ(st)如下:
其中,π(·|st)为所有动作的概率,Q(st,at)为动作值函数;
利用在学习样本的环境中采样构建柔性动作值函数Qπ(s,a)如下:
其中,Vπ(s′)为状态s′下的柔性值函数,P(s′|s,a)从环境中获得的轨迹样本,
利用贝尔曼期望等式构建柔性动作值函数Qπ(s,a)如下:
其中,Qπ(a′,π(s′)为上一策略中获得的柔性值函数;
进行策略改进如下:
4.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤2中,数据选择器从多源域中随机挑选一批样本放入经验池中,从经验池采样一个batch数据,进行Q Critic网络和V Critic网络的更新,产生的组合loss值对Actor网络进行梯度下降训练,以找到更优的策略;经验池中进行采样的一个batch数据作为源域,与目标域以TL模型为基础进行迁移学习;TL模型的loss差作为奖励用于对Actor网络的更新。
5.根据权利要求1所述的一种基于强化学习的多源域迁移目标识别方法,其特征在于:步骤3中,在优化TL模型时,基于一批训练样本计算梯度;通过选择有用的源域数据,强化学习数据选择器在源模型更新的每一次迭代之前进行干预;TL模型更新包括共享编码器的更新;TL模型依次提供奖励来评估数据选择的效用;在每一轮之后,策略网络使用SoftActor-Critic算法更新,包括状态、动作以及奖励;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111539029.3A CN114202031A (zh) | 2021-12-15 | 2021-12-15 | 一种基于强化学习的多源域迁移目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111539029.3A CN114202031A (zh) | 2021-12-15 | 2021-12-15 | 一种基于强化学习的多源域迁移目标识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114202031A true CN114202031A (zh) | 2022-03-18 |
Family
ID=80654312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111539029.3A Pending CN114202031A (zh) | 2021-12-15 | 2021-12-15 | 一种基于强化学习的多源域迁移目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114202031A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738299A (zh) * | 2023-08-16 | 2023-09-12 | 西南交通大学 | 一种高速列车蛇行状态识别与峰值预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034976A1 (en) * | 2019-08-02 | 2021-02-04 | Google Llc | Framework for Learning to Transfer Learn |
CN113276852A (zh) * | 2021-04-08 | 2021-08-20 | 南京大学 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
-
2021
- 2021-12-15 CN CN202111539029.3A patent/CN114202031A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034976A1 (en) * | 2019-08-02 | 2021-02-04 | Google Llc | Framework for Learning to Transfer Learn |
CN113276852A (zh) * | 2021-04-08 | 2021-08-20 | 南京大学 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
Non-Patent Citations (2)
Title |
---|
TUOMAS HAARNOJA等: "Soft Actor-Critic Algorithms and Applications", HTTPS://ARXIV.ORG/ABS/1812.05905, 29 January 2019 (2019-01-29), pages 1 - 17 * |
ZHIHONG CHEN等: "Selective Transfer with Reinforced Transfer Network for Partial Domain Adaptation", HTTPS://ARXIV.ORG/ABS/1905.10756, 28 April 2020 (2020-04-28), pages 1 - 9 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738299A (zh) * | 2023-08-16 | 2023-09-12 | 西南交通大学 | 一种高速列车蛇行状态识别与峰值预测方法 |
CN116738299B (zh) * | 2023-08-16 | 2023-10-20 | 西南交通大学 | 一种高速列车蛇行状态识别与峰值预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | A new hyperparameters optimization method for convolutional neural networks | |
Zhang et al. | Generative flow networks for discrete probabilistic modeling | |
CN111832627B (zh) | 抑制标签噪声的图像分类模型训练方法、分类方法及系统 | |
CN110321811B (zh) | 深度逆强化学习的无人机航拍视频中的目标检测方法 | |
CN107508866B (zh) | 减小移动设备端神经网络模型更新的传输消耗的方法 | |
CN110909926A (zh) | 基于tcn-lstm的太阳能光伏发电预测方法 | |
CN113361680B (zh) | 一种神经网络架构搜索方法、装置、设备及介质 | |
CN113191484A (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN108170529A (zh) | 一种基于长短期记忆网络的云数据中心负载预测方法 | |
CN109558898B (zh) | 一种基于深度神经网络的高置信度的多选择学习方法 | |
Liu et al. | Rest: Constructing rectilinear steiner minimum tree via reinforcement learning | |
CN113947133B (zh) | 小样本图像识别的任务重要性感知元学习方法 | |
Wiggers et al. | Predictive sampling with forecasting autoregressive models | |
CN115018191A (zh) | 一种基于小样本数据的碳排放量预测方法 | |
CN114202031A (zh) | 一种基于强化学习的多源域迁移目标识别方法 | |
CN112131403B (zh) | 一种动态环境下的知识图谱表示学习方法 | |
CN110209933A (zh) | 一种基于回归树上下文特征自动编码的偏置张量分解方法 | |
CN116341605A (zh) | 一种基于反向学习策略的灰狼算法混合优化方法 | |
CN114463540A (zh) | 使用神经网络对图像进行分割 | |
CN116775687A (zh) | 一种基于数模共生的时间序列预测闭环框架 | |
Gaikwad et al. | Survey on meta learning algorithms for few shot learning | |
CN112949590B (zh) | 一种跨域行人重识别模型构建方法及构建系统 | |
Zhang et al. | Noise-aware local model training mechanism for federated learning | |
Shen et al. | Variational sequential optimal experimental design using reinforcement learning | |
CN116486150A (zh) | 一种基于不确定性感知的图像分类模型回归误差消减方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |