CN112884125A

CN112884125A - 迁移强化学习控制方法、系统、存储介质、设备及应用

Info

Publication number: CN112884125A
Application number: CN202110211236.XA
Authority: CN
Inventors: 李光亮; 隽荣顺; 黄杰; 沙启鑫; 何波
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-01

Abstract

本发明属于机器人控制技术领域，公开了一种迁移强化学习控制方法、系统、存储介质、设备及应用，采用交互渐进网络学习，先对人的评估以反馈网络进行建模预训练，用于在训练策略时预测人的评估；对使用渐进式网络迁移后的策略进行训练时，同时使用人的实时评估和反馈网络的预测作为奖励函数。其允许人类训练者对状态动作提供评估，由状态动作对序列{(s₀,a₀),...,(s_n,a_n)}组成，从评估中训练人的反馈网络并且该网络被当作渐进式网络迁移后的策略训练中的奖励函数。本发明能够有效的对不同环境的策略进行迁移；在具有离散和连续动作的任务之间，即使当渐进网络学习从具有高维状态空间的任务迁移到那些具有低维状态空间的任务效果很小时，能更好、更快地进行迁移学习。

Description

迁移强化学习控制方法、系统、存储介质、设备及应用

技术领域

本发明属于机器人控制技术领域，尤其涉及一种迁移强化学习控制方法、系统、存储介质、设备及应用。

背景技术

目前：近期深度学习中的进展让强化学习能够应用于解决高维度的状态空间和动作空间任务。深度强化学习在以下领域也取得了较大的成功：如直接从像素中学习玩Atari游戏，AlphaGo击败了人类世界冠军等等。但是，在实际环境中将DRL方法应用于机器人控制时，智能体通常必须面对两个主要挑战：采样效率和安全性问题。首先，DRL智能体通常需要数以千万计的样本来学习最佳策略，而机器人在现实世界中收集这种规模的样本将花费数月的时间。其次，智能体通过DRL学习需要在环境中进行大规模随机采样以进行反复试验，因此在某些时刻，其行为可能会损坏机器人本身，甚至破坏周围环境中的生物。

在模拟环境中进行采样比直接在现实世界中学习更快，更便宜，更安全，但是直接在现实世界中使用在模拟器中训练的策略是困难且冒险的，因为在模拟和现实之间存在差距。如何弥合这一差距引起了广泛的关注。为了解决这个问题，人们提出了许多模拟到现实的算法，例如领域自适应，逆动力学模型，领域随机化和渐进网络等。

其中，渐进神经网络在不同任务之间具有正传递，而无需指定源任务和目标任务。也就是说，即使对于具有与源任务不同的动作和状态空间的目标任务，渐进式智能体也可以具有更好的学习能力和更快的学习速度。尽管渐进式可以加快目标任务中的学习速度，但是在学习最佳策略之前，受过源任务训练的策略仍然需要大量样本进行探索，这可能仍会引发安全问题，尤其是对于现实世界中的机器人学习而言，而且有些时候目标任务的奖励函数难以进行准确定义。

通过上述分析，现有技术存在的问题及缺陷为：现有渐进式可以加快目标任务中的学习速度，受过源任务训练的策略仍然需要大量样本进行探索，引发安全问题，尤其是对于现实世界中的机器人学习而言，而且有些时候目标任务的奖励函数难以进行准确定义。

解决以上问题和缺陷的难度为：如何在渐进式网络加快目标学习任务的同时，进一步缩小采样数量，进一步提高渐进式智能体的学习速度，保证在现实世界中机器人可以不依赖奖励函数就能完成目标。

解决以上问题及缺陷的意义为：进一步加快渐进式网络在目标任务学习速度，减少采样数量，并且能让机器人在现实世界中在没有定义奖励函数的情况下完成目标，降低机器人因采样过多而出现的安全问题。

发明内容

针对现有技术存在的问题，本发明提供了一种迁移强化学习控制方法、系统、存储介质、设备及应用。

本发明是这样实现的，一种迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法包括：

人的反馈网络从人的评估中进行预训练，用于在训练策略时预测人的评估。首先在目标域进行随机采样，根据目标域的当前状态和随机选择的动作，训练者给出状态动作对的评估奖励，人的反馈网络以状态动作对为输入，人的评估奖励为标签进行训练，考虑到不同的环境中人类对于状态动作有着不同的评估标准，我们对状态和动作分别添加权重α和β作为最终网络输入，使用人的反馈网络是为了减少训练者的工作量并且加快迁移后的智能体学习速度；

对使用渐进式网络迁移后的策略进行训练时，使用人的评估和反馈网络的输出作为奖励。在源任务训练好的策略，用渐进式网络进行迁移，源任务策略作为渐进式网络的第一列，将目标环境的状态和智能体选择的动作加权后输入进人的反馈网络，人的反馈网络输出作为奖励反馈给智能体，智能体进行学习直至收敛，使用渐进式网络是为了充分利用源任务学习到的知识并加快目标域学习速度，提高智能体训练稳定性，减少灾难性遗忘出现的概率。

进一步，所述迁移强化学习控制方法的交互渐进网络学习允许人类训练者首先对状态动作提供评估，由状态动作对序列{(s₀,a₀),...,(s_n,a_n)}组成，从评估中训练人的反馈网络并且该网络被当作渐进式网络迁移后的策略训练中的奖励函数。

进一步，所述迁移强化学习控制方法采用的奖励网络的损失函数是标准均方误差，给定输入和收到的人工评估反馈，希望最小化HRN损失：

其中R_d是基于对状态S采取动作A的评估而来的人类奖励，α和β用于权衡人类对于状态和动作的加权权重。

进一步，所述迁移强化学习控制方法在更新策略之前，HRN对人的奖励预测；在人类奖励网络HRN足够好之后，将从源任务训练并修改后的策略转移到目标任务，采用渐进式网络进行学习；在将源策略迁移到目标任务之后，继续给予人工奖励，训练人工奖励函数HRN。

进一步，所述迁移强化学习控制方法的渐进式网络中，神经网络具有L层和激活函数

其中n_i是第i层的神经元。渐进式网络始于单列神经网络，当切换到第二列时，第一列神经网络的参数θ⁽¹⁾被冻结，第二列神经网络的参数θ⁽²⁾随机初始化，第二列的激活函数接受来自第一列和第二列神经网络的前一层输出，当泛化到K列时，总结为如下：

其中

是K列中i层的权重矩阵，

是来自j列的i-1层的横向连接。

进一步，所述迁移强化学习控制方法将渐进式网络应用于深度强化学习时，每列均经过训练以解决马尔可夫决策过程：第K列定义策略π^(k)(a|s)，在目标环境状态s下采取动作a，基于动作生成概率分布

在每个时间步长，智能体都会从此概率分布采取操作，产生后续状态。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

人的反馈网络从人的评估中进行预训练，用于在训练策略时预测人的评估；

对使用渐进式网络迁移后的策略进行训练时，使用人的评估和反馈网络的输出作为奖励。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种机器人控制信息数据处理终端，所述机器人控制信息数据处理终端用于实现所述的迁移强化学习控制方法。

本发明的另一目的在于提供一种实施所述迁移强化学习控制方法的迁移强化学习控制系统，所述迁移强化学习控制系统包括：

预训练模块，用于实现人的反馈网络从人的评估中进行预训练，用于在训练策略时预测人的评估；

评估和反馈网络输出模块，用于对使用渐进式网络迁移后的策略进行训练时，使用人的评估和反馈网络的输出作为奖励。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明对于在具有离散或连续动作的任务之间进行迁移学习，当从具有低维状态空间的任务转移至具有高维状态空间的任务时，渐进式网络学习具有良好的性能，但对于具有高维状态空间的任务迁移到低维状态空间的任务几乎没有效果；本发明提出的IPNL方法可以使智能体在两种情况下更快地学习更好的性能。

本发明提出的IPNL方法可以在具有离散和连续动作的任务之间更好、更快地进行迁移学习，即使当渐进网络学习从具有高维状态空间的任务迁移到那些具有低维状态空间的任务效果很小。

本发明对于具有离散或连续动作的任务，当从具有低维状态空间的任务转移到具有高维状态空间的任务时，渐进网络智能体具有良好的迁移学习性能。而交互强化学习DQN/DDPG智能体甚至比PNN智能体更快地学习获得更好或类似的性能。通过将交互强化学习和渐进网络结合为IPNL方法，智能体可以学习比PNN智能和交互强化学习DQN/DDPG智能体具有更好或类似的性能且策略更稳定。

本发明对于具有离散或连续动作的任务，当从具有高维状态空间的任务转移到具有低维状态空间的任务时，渐进网络智能体具有较小的迁移学习性能，但交互强化学习DQN/DDPG智能体仍然比PNN智能体更快地学习获得更好或类似的性能。更重要的是，通过将交互强化学习和渐进网络结合为IPNL方法，智能体可以学习比交互强化学习DQN/DDPG智能体具有更好或类似的性能且策略更稳定。

在本发明提出的IPNL方法中，交互强化学习和渐进网有很好的协同作用，即使当渐进网在任务之间的迁移效果甚微时。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的迁移强化学习控制方法流程图。

图2是本发明实施例提供的迁移强化学习控制系统的结构示意图；

图2中：1、预训练模块；2、评估和反馈网络输出模块。

图3是本发明实施例提供的五个测试环境的屏幕截图；

图3中：(a)CarPole；(b)MountainCar；(c)InvertedPendulum；(d)InveredDoublePendulum。

图4-图7是本发明实施例提供的不同环境的不同算法的学习曲线对比示意图。

图8是本发明实施例提供的迁移强化学习控制方法的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种迁移强化学习控制方法、系统、存储介质、设备及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的迁移强化学习控制方法包括以下步骤：

S101：人的反馈网络从人的评估中进行预训练，用于在训练策略时预测人的评估。首先在目标域进行随机采样，根据目标域的当前状态和随机选择的动作，训练者给出状态动作对的评估奖励，人的反馈网络以状态动作对为输入，人的评估奖励为标签进行训练，考虑到不同的环境中人类对于状态动作有着不同的评估标准，我们对状态和动作分别添加权重α和β作为最终网络输入；

S102：对使用渐进式网络迁移后的策略进行训练时，使用人的评估和反馈网络的输出作为奖励。在源任务训练好的策略，用渐进式网络进行迁移，源任务策略作为渐进式网络的第将目标环境的状态和智能体选择的动作加权后输入进人的反馈网络，人的反馈网络输出作为奖励反馈给智能体，智能体进行学习直至收敛。

本发明的交互渐进网络学习允许人类训练者首先对状态动作提供评估，由状态动作对序列{(s₀,a₀),...,(s_n,a_n)}组成，从评估中训练人的反馈网络并且该网络被当作渐进式网络迁移后的策略训练中的奖励函数。

本发明提供的迁移强化学习控制方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的迁移强化学习控制方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的迁移强化学习控制系统包括：

预训练模块1，用于实现人的反馈网络从人的评估中进行预训练，用于在训练策略时预测人的评估；

评估和反馈网络输出模块2，用于对使用渐进式网络迁移后的策略进行训练时，使用人的评估和反馈网络的输出作为奖励。

下面结合附图对本发明的技术方案作进一步的描述。

如图7所示，本发明的迁移强化学习控制方法通过将渐进式网络与交互式强化学习相结合来改进渐进式网络。智能体可以比渐进式网络和交互式强化学习智能体更快地获得最佳策略，并且该方法允许智能体在两种情况下更快地学习更好的性能。更重要的是，本发明的进一步分析表明，即使渐进式网络学习在任务之间的转移效果很小的情况下，渐进式网络与交互式强化学习之间也存在协同作用，以改善智能体的学习。

本发明不是在耗费所有时间让人类训练者给予奖励，而是训练了人类奖励网络HRN来预测任务中的人类反馈。本发明的方法采用的奖励网络的损失函数是标准均方误差。也就是说，给定输入和收到的人工评估反馈，本发明希望最小化HRN损失：

其中R_d是基于对状态S采取动作A的评估而来的人类奖励，α和β用于权衡人类对于状态和动作的加权权重。评估智能体行为价值时，之所以使用α和β，是因为人类可能会在不同任务中对状态和动作进行不同的加权。本发明认为，在学习过程开始时预测不准确的人类奖励近似值会对政策学习产生不良影响。本发明的方法可以确保在更新策略之前，HRN对人的奖励有良好的预测。在人类奖励网络HRN足够好之后，将从源任务训练并修改后的策略转移到目标任务，采用渐进式网络进行学习。在将源策略迁移到目标任务之后，人类可以继续给予人工奖励，以进一步训练人工奖励函数HRN。

在本发明的渐进式网络中，神经网络具有L层和激活函数

其中n_i是第i层的神经元。渐进式网络始于单列神经网络，当切换到第二列时，第一列神经网络的参数θ⁽¹⁾被冻结，第二列神经网络的参数θ⁽²⁾随机初始化，第二列的激活函数接受来自第一列和第二列神经网络的前一层输出。当泛化到K列时，可总结为如下：

其中

是K列中i层的权重矩阵，

是来自j列的i-1层的横向连接。

将渐进式网络应用于深度强化学习时，每列均经过训练以解决马尔可夫决策过程：第K列定义策略π^(k)(a|s)，在目标环境状态s下采取动作a，基于动作生成概率分布

在每个时间步长，智能体都会从此概率分布采取操作，从而产生后续状态。

随着人们对强化学习的关注日益增加，标准强化学习的较长学习时间成为一项不容忽视的挑战。因此，提出了奖励塑造以通过标准强化学习加快智能体学习。对于现实世界中的机器人学习，大量的失败工作使人们注意到，奖励塑形可以提高机器人在复杂任务中的学习性能。基于奖励塑造，交互式强化学习可以使智能体从智能体设计者甚至非专业的人员学习。受本发明之前介绍的奖励塑造工作启发，在交互式强化学习中，人类专家可以观察智能体在环境中的行为并提供评估反馈，用于训练强化学习智能体。智能体每次在状态中执行动作时，训练者都会提供评估反馈，以确定所选动作的价值，智能体使用此人类反馈来更新策略。使用交互式强化学习训练的策略通常具有更快的收敛速度，并且智能体的行为将更符合人类的期望。

下面结合实验对本发明的技术效果作详细的描述。

为了验证本发明，通过使用来自OpenAI Gym的五个具有离散和连续动作空间的强化学习任务进行实验来测试本发明提出的方法：CartPole，MountainCar，MoutainCarContinuous，InvertedPendulum和InvertedDoublePendulum。本发明提供以下五个任务的详细说明：

(1)任务介绍：

Cartpole：在本发明的实验中使用了CartPole-v0，它具有一个四维连续状态空间和两维离散动作空间。在该任务中，将平衡杆连接到推车，该推车可以沿着无摩擦的轨道移动。智能体可以通过向推车施加+1或-1的力来控制推车，以防止杆子掉落。当杆子与垂直线的夹角超过15度时，或者推车从中心移出2.4个单位以上时，回合结束。

MountainCar：在本发明的实验中使用了MountainCar-v0，它具有二维连续状态空间和三维离散动作空间。环境的状态信息由汽车的位置和速度表示，动作包括向左，向右行驶或停留在该位置。回合开始时，汽车始终位于两座山之间的山谷中。智能体的目标是到达右侧的山顶，但是汽车的引擎功率不足以单次通过。

MountainCarContinuous：使用了MountainCarContinuous-v0，它与MountainCar-v0相同，只是动作是一维且连续的。

InvertedPendulum：本发明的实验中使用了InvertedPendulum-v2，这是CartPole的3D环境，具有一维连续动作空间。

InvertedDoublePendulum：在任务中，小车连接了两个摆锤，此任务的目的是通过在小车中施加连续动作，以使两个摆锤处于直立位置。状态空间由11维连续向量表示，该向量由手推车的状态信息和两个极点组成。动作空间是一维连续的。

(2)实验设置：

本发明主要进行了两组实验来测试：在具有离散动作空间的任务之间迁移学习和在具有连续动作空间的任务之间迁移学习。为了在具有离散动作空间的任务之间进行迁移学习，首先在MountainCar-v0中训练了一个DQN智能体作为源任务，然后使用渐进网络PNN和本发明提出的方法IPNL将其迁移到CartPole-v0，以了解本发明的方法在从低维连续状态空间到高维空间任务之间转移的效果。本发明还训练了CartPole-v0中的DQN智能体作为源任务，并使用PNN和本发明提出的方法IPNL迁移到MountainCar-v0，以验证本发明的方法从具有高维连续状态空间的任务转移到低维任务的效果。为了在具有连续动作空间的任务之间迁移学习，以了解本发明的方法在具有相同动作空间维度但从高维连续状态空间转移到低维状态空间的任务之间迁移的效果，本发明在InvertedPendulum-v2训练，然后使用PNN和本发明提出的方法IPNL迁移到MountainCarContinuous-v0。此外，为了看到本发明的方法在具有相同维度的动作空间但从高维连续状态空间到更高维度的任务之间迁移的效果，在InvertedPendulum-v2中训练的策略也通过PNN和本发明提出的方法IPNL迁移到InvertedDoublePendulum-v2。本发明还在目标任务中训练了一个交互式强化学习智能体，该智能体从两个实验中训练的人的奖励函数提供的奖励学习，以进行比较。

(3)实验结果：

实验结果中各种算法的学习率设置都是相同的。图4-图7所示了两组实验中所有方法的学习曲线：在具有离散动作的任务之间迁移以及具有连续动作的任务之间迁移。

1)在离散动作空间的任务之间进行迁移

图4所示了从具有二维状态空间的MountainCar任务向具有二维状态空间的CartPole任务迁移的PNN和IPNL智能体的学习性能。除此之外，还在CartPole中训练了DQN智能体作为对比。MountainCar和CartPole的动作空间几乎相同，除了MountainCar还有一个额外的“留在原地”动作，这对CartPole没有意义。从图4可以看出，DQN智能体通常可以在CartPole中训练约700回合后，可以得到一个很好的策略，而从MountainCar迁移的PNN智能体可以在400回合学习得到更好的策略，但是两种智能体在前200回合中的学习速度都差不多。本发明提出的IPNL方法得到的策略比他们两个都好，而且只训练了200回合。

图5所示了从CartPole任务迁移到MountainCar任务的PNN和IPNL智能体的学习性能。在MountainCar中训练了一个DQN智能体，作为比较的基准。

与图4不同，图5所示DQN智能体可以在MountainCar进行大约30回合训练后学习一个较好的策略，但是从CartPole迁移的PNN智能体与DQN具有类似的学习性能和速度。尽管如此，通过本发明提出的IPNL方法，智能体可以比两者都更好、更快地学习。

2)在连续动作空间的任务之间进行迁移

图6所示了从具有四维状态空间的InvertedPendulum任务迁移到具有二维状态空间的MountainCarContinuous任务的PNN和IPNL智能体的学习曲线。这两个任务都具有一维连续动作空间。除此之外，在MountainCarContinuous中也训练了一个DDPG智能体作为比较的基准。从图6中本发明可以看到，DDPG智能体通常在MountainCarContinuous中经过大约200回合的训练后可以学习得到较好的策略。但是，从InvertedPendulum迁移的PNN智能体可以在略少于150回合的训练后学习得到类似的性能，比DDPG智能体学习速度稍快。相比之下，本发明提出的IPNL方法训练的智能体几乎可以在大约十几个回合训练后获得具有最佳性能且更稳定的策略。

图7所示了PNN和IPNL智能体从具有11维状态空间的InvertedPendulum任务迁移到InvertedDoublePendulum任务的学习性能。这两个任务都具有一维连续动作空间。本发明还在InvertedDoublePendulum训练了一个DDPG智能体以进行比较。从图7中本发明可以看到，DDPG智能体在InvertedDoublePendulum中经过大约5500回合的训练后可以学习获得良好的策略，而从InvertedPendulum迁移的PNN智能体只用3000回合可以学习获得类似的性能。与DDPG和PNN智能体相比，使用本发明提出的IPNL方法训练的智能体学习速度更快，可以获得相同但更稳定的性能。

总而言之，本发明的结果表明，对于在具有离散或连续动作的任务之间进行迁移学习，当从具有低维状态空间的任务转移至具有高维状态空间的任务时，渐进式网络学习具有良好的性能，但对于具有高维状态空间的任务迁移到低维状态空间的任务几乎没有效果。但是，本发明提出的IPNL方法可以使智能体在两种情况下更快地学习更好的性能。

(4)算法成分分析

图4-图7中的实验结果表明，本发明提出的IPNL方法可以在具有离散和连续动作的任务之间更好、更快地进行迁移学习，即使当渐进网络学习从具有高维状态空间的任务迁移到那些具有低维状态空间的任务效果很小。为了进一步研究原因，本发明还在上述实验的目标任务中训练了一种从人类奖励中学习的交互强化学习智能体，以研究人类奖励网络和渐进网络在本发明的方法中的效果。

图4和图7所示，对于具有离散或连续动作的任务，当从具有低维状态空间的任务转移到具有高维状态空间的任务时，渐进网络智能体具有良好的迁移学习性能。而交互强化学习DQN/DDPG智能体甚至比PNN智能体更快地学习获得更好或类似的性能。通过将交互强化学习和渐进网络结合为本发明提出的IPNL方法，智能体可以学习比PNN智能和交互强化学习DQN/DDPG智能体具有更好或类似的性能且策略更稳定。

尽管如此，图5和图6所示，对于具有离散或连续动作的任务，当从具有高维状态空间的任务转移到具有低维状态空间的任务时，渐进网络智能体具有较小的迁移学习性能，但交互强化学习DQN/DDPG智能体仍然比PNN智能体更快地学习获得更好或类似的性能。更重要的是，通过将交互强化学习和渐进网络结合为本发明提出的IPNL方法，智能体可以学习比交互强化学习DQN/DDPG智能体具有更好或类似的性能且策略更稳定。

总之，以上分析所示，在本发明提出的IPNL方法中，交互强化学习和渐进网有很好的协同作用，即使当渐进网在任务之间的迁移效果甚微时。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法包括：

2.如权利要求1所述的迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法的交互渐进网络学习允许人类训练者首先对状态动作提供评估，由状态动作对序列{(s₀，a₀)，...，(s_n，a_n)}组成，从评估中训练人的反馈网络并且该网络被当作渐进式网络迁移后的策略训练中的奖励函数。

3.如权利要求1所述的迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法采用的奖励网络的损失函数是标准均方误差，给定输入和收到的人工评估反馈，希望最小化HRN损失：

其中

是基于对状态S采取动作A的评估而来的人类奖励，α和β用于权衡人类对于状态和动作的加权权重。

4.如权利要求1所述的迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法在更新策略之前，HRN对人的奖励预测；在人类奖励网络HRN足够好之后，将从源任务训练并修改后的策略转移到目标任务，采用渐进式网络进行学习；在将源策略迁移到目标任务之后，继续给予人工奖励，训练人工奖励函数HRN。

5.如权利要求1所述的迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法的渐进式网络中，神经网络具有L层和激活函数

其中n_i是第i层的神经元；渐进式网络始于单列神经网络，当切换到第二列时，第一列神经网络的参数θ⁽¹⁾被冻结，第二列神经网络的参数θ⁽²⁾随机初始化，第二列的激活函数接受来自第一列和第二列神经网络的前一层输出，当泛化到K列时，总结为如下：

其中

是K列中i层的权重矩阵，

是来自j列的i-1层的横向连接。

6.如权利要求5所述的迁移强化学习控制方法，其特征在于，所述迁移强化学习控制方法将渐进式网络应用于深度强化学习时，每列均经过训练以解决马尔可夫决策过程：第K列定义策略π^(k)(a|s)，在目标环境状态s下采取动作a，基于动作生成概率分布

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

9.一种机器人控制信息数据处理终端，其特征在于，所述机器人控制信息数据处理终端用于实现权利要求1～6任意一项所述的迁移强化学习控制方法。

10.一种实施权利要求1～6任意一项所述迁移强化学习控制方法的迁移强化学习控制系统，其特征在于，所述迁移强化学习控制系统包括：