CN116892932B

CN116892932B - 一种结合好奇心机制与自模仿学习的导航决策方法

Info

Publication number: CN116892932B
Application number: CN202310634852.5A
Authority: CN
Inventors: 臧兆祥; 吕相霖
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2024-04-30
Anticipated expiration: 2043-05-31
Also published as: CN116892932A

Abstract

一种结合好奇心机制与自模仿学习的导航决策方法，包括仿真环境的配置、对图像信息编码、智能体与环境互动获取信息并存入经验池、基于时间步进行采样获取数据、将获取数据作为输入至ICM算法模型获得内在奖励、把观测数据与总奖励作为输入至SIL算法模型学习新策略、智能体训练、训练结果分析。本发明的有益效果为:所提出的PPO‑CI算法有利于鼓励智能体探索更多未知的场景，应对更为复杂的情况，在部分可观测环境中智能体能够通过模仿好奇心引领下所获取的高回报轨迹使得训练快速达到收敛效果,该方法能应对随机多变的无地图场景，能够完成更为复杂的探索任务。

Description

一种结合好奇心机制与自模仿学习的导航决策方法

技术领域

本发明属于计算机技术领域，具体涉及一种结合好奇心机制与自模仿学习的导航决策方法。

背景技术

近年来许多学者尝试通过深度强化学习算法解决未知环境(非完备信息)中的决策问题，未知环境中的智能决策过程又被称为部分可观测马尔科夫过程(POMDP)。但POMDP任务常存在着信息缺失与稀疏奖励在该类环境中仅能依靠当前状态获取的部分环境信息进行分析与决策。稀疏奖励问题是指任务的奖励必须在一定的时间步内完成特定的操作或任务才能获取，这使得智能体在探索过程中很难收到奖励信号，以此很难获取更好的动作选择，使得智能体在无地图的环境中常常迷失方向，无法完成导航任务。

针对以上问题，学者们主要采用回放历史信息、好奇心探索机制等方法。申请公布号为CN114781644A的专利文献公开了一种基于好奇心和对经验数据的优先化进行探索的方法，该方法通过策略之间的相似性来计算最终奖励；并将策略之间的差异结果放在回放缓冲器上执行聚类,并且对簇中的数据执行采样。申请公布号为CN113156940A的专利文献公开了一种基于好奇心-贪婪奖励函数的机器人路径规划的方法，该方法通过好奇心奖励函数、贪心奖励函数和奖励融合函数,引导机器人进入正确的探索方向,融合两种奖励函数,在不同的规划阶段得到更准确有效的奖励值,有助于提高机器人路径规划能力。但上述方法都不能有效地解决探索过度与利用不足的平衡问题，并且也不能高效地完成探索任务。

随着深度强化学习的发展，自模仿学习算法被提出用于解决经验数据利用效率低的问题，该算法通过模仿自身生成的优质探索轨迹提高探索效率，但也存在缺乏自主探索的能力。而好奇心算法正是促进智能体进行探索的有效方法。

因此，申请人提出一种结合好奇心机制与自模仿学习的导航决策方法。

发明内容

本发明的目的是为了解决现有技术存在的对于部分可观测环境探索任务中无法高效地解决稀疏奖励与信息缺失等问题，而提供的一种结合好奇心机制与自模仿学习的导航决策方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种结合好奇心机制与自模仿学习的导航决策方法，它包括以下步骤：

步骤1：初始化仿真环境的动作、状态信息，初始化经验池；

步骤2：设置智能体的神经网络模型，初始化网络参数，并设定算法的超参数；

步骤3：对环境中的图像信息进行编码，压缩状态信息；

步骤4：智能体与环境交互，获取动作并反馈给环境获取下一状态信息与奖励值，然后存入经验池中；

步骤5：对每一时间步，使用当前的策略网络在环境中进行采样，得到观测数据和采取的动作，经过ICM算法的内在动力学模型进行处理，预测下一个时间步的观测数据和奖励信号，将这个奖励信号与环境反馈的奖励信号进行加权平均，得到新的奖励信号；

步骤6：将新的策略网络和旧的策略网络进行比较，使用PPO算法来更新策略网络的参数；

步骤7：将得到的观测数据和新的奖励信号作为输入，使用SIL算法来学习一个新的策略；具体的，SIL算法选择那些奖励折扣累积值最大的样本，或者选择和最大值相差不超过一定阈值的所有样本作为更新策略网络的经验数据；

步骤8：重复步骤4到步骤7，直到智能体的策略收敛到最优解或达到一定的迭代次数，最终完成探索任务。

在步骤3中，具体包括以下步骤：

3-1：将由步骤1获取到的环境数据中的图像信息进行整体编码处理；

3-2：根据图像中某个单位的独特信息进行特殊细节编码设计；

3-3：整合状态信息，将图像数据信息最终压缩成编码信息，提高训练效率。

在步骤4中，具体包括以下步骤：

4-1将当前的状态信息输入到策略网络中获取选择的动作以及所有动作对应的概率；

4-2将所选动作输入到环境中的step函数中获取奖励，下一状态信息以及完成信息等。

在步骤5中，具体如下：

将当前状态信息以及步骤4获取的下一状态信息和选取动作输入到ICM动力学模型中，预测下一个时间步的状态信息，ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间，通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值，具体涉及到的公式如：

其中r_t为t时刻获得的总奖励值，为经过ICM动力学模型计算所得的内在奖励值，为与环境互动所获得的外在奖励值；

通过具有参数θ_P的深度神经网络来表示策略π(s_t；θ_P),使用参数θ_P进行优化获得最大的期望奖励值总和∑_tr_t。

通过输入当前状态s_t与下一状态s_t+1和训练参数θ_I来预测从s_t转移到s_t+1的动作g表示为学习函数，也被称为逆动力学模型，通过不断训练与优化参数θ_I达到最佳的学习效果；/>是测量预测动作与实际动作之间差异的损失函数，通过最小化损失函数获取θ_I的最大似然估计值已更新预测动作估计值。

除逆动力学模型之外，还训练了另一个神经网络，将当前采取动作a_t与当前状态的特征编码φ(s_t)作为输入，预测下一个时间步t+1处的状态特征编码；

其中，是φ(s_t+1)的预测估计，通过最小化损失函数L_F来优化神经网络参数θ_F，学习函数f也被称为前向动力学模型，/>表示L2范数的平方，内在奖励计算如式所示：

其中，η是缩放因子，表示L2范数的平方，最终智能体的学习优化问题为公式：

其中，β是相对于前向模型损失对逆模型损失进行加权的标量，而λ是相对于学习固有奖励的重要性对策略梯度损失的重要性进行加权的标量。

在步骤6中，具体如下：

通过基于梯度裁剪的PPO算法进行策略更新，使用重要性采样评估新旧策略的差距，重要性采样公式为:

其中，θ为策略参数，π_θold(a|s)表示旧策略，π_θ(a|s)表示新策略。PPO算法通过梯度裁剪，限制策略参数的更新幅度，其公式如：

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]

其中，r(θ)为重要性采样比，clip为裁剪函数，ε为超参数，A为优势函数，Q(s,a)代表在状态s下采取动作a的累积奖励值，V(s,a)为状态估计值，当优势函数A＞0时，说明该动作比平均动作好，需要增大该动作选择概率，当A＜0时，则需要减少该动作的选择概率，PPO算法较其他深度强化学习算法更保守，设置了上限为1+ε，下限为1-ε的区间限制策略参数更新幅度，保证新策略与旧策略相差不大，分别计算策略损失熵与价值损失熵，策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值，最后反向传播，更新策略参数,策略梯度参数更新公式为：

其中，θ为策略参数，argmax表使期望取得最大值时得求值函数，L^CLIP(θ)表示PPO-clip算法的损失函数。

在步骤7中，具体如下：

7-1：初始化经验缓冲池大小，然后通过智能体与环境互动产生探索经验与累计奖励并存入经验池；

7-2：利用经验池中良好的状态动作对进行轨迹模仿，训练一个新的策略网络，计算公式如：

其中，为SIL算法的总损失函数，/>为SIL算法的策略损失函数，/>为对应的价值损失函数，而β^sil为价值损失函数对应的超参数，V_θ(s)代表对应状态s的价值函数，(·)₊表示为max(·,0)，以此鼓励智能体模仿自己的决定，只有当这些决定所获得回报比预期更大时才选择更新/>||.||²表示欧几里得范数。

与现有技术相比，本发明具有如下技术效果：

1)本发明以好奇心机制与自模仿学习算法思想为基础，提出了一种融合好奇心与自模仿学习的深度强化学习算法(Proximal Policy OptimizationwithCuriosityandImitation，即PPO-CI算法)；

2)本发明算法利用好奇心鼓励智能体探索未知场景，避免局部收敛的情况，并且充分利用自模仿学习从具有良好探索表现的历史经验数据中学习和改进。该算法平衡了探索不足与探索过度的问题，同时具有较快达到收敛效果的优势，能有效解决未知环境中的探索任务；

3)本发明使用基于自模仿学习与好奇心机制结合的深度强化学习算法(即PPO-CI算法)有利于鼓励智能体探索更多未知的场景，应对更为复杂的情况，在部分可观测环境中智能体能够通过模仿好奇心引领下所获取的高回报轨迹使得训练快速达到收敛效果。且该方法能应对随机多变的无地图场景，能够完成更为复杂的探索任务。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明中好奇心算法的原理图；

图2为本发明中好奇心算法与强化学习结合运用的框架图。

具体实施方式

本发明提出了一种结合好奇心算法(ICM算法)与自模仿学习算法(SIL算法)的近端策略优化算法(即PPO-CI算法)以解决POMDP探索任务。首先初始化网络参数与状态、动作等信息；然后基于时间步进行采样，得到观测数据和采取的动作；接着将观测数据和采取的动作作为输入，经ICM算法模型获得内在奖励，并与环境反馈的外在奖励进行加权，获得总奖励值；将观测数据与总奖励作为输入，经SIL算法学习新策略；通过比较新旧策略，更新PPO算法策略网络参数。

本发明的技术方案是基于好奇心与自模仿学习的近端策略优化算法，包括以下步骤：

步骤1.初始化仿真环境的动作、状态信息，初始化经验池。

步骤2.设置智能体的神经网络模型，初始化网络参数，并设定算法的超参数；

步骤3.对环境中的图像信息进行编码，压缩状态信息，提高训练效率。

步骤4.智能体与环境交互，获取动作并反馈给环境获取下一状态信息与奖励值，然后存入经验池中。

步骤5.对每一时间步，使用当前的策略网络在环境中进行采样，得到观测数据和采取的动作，经过ICM算法的内在动力学模型进行处理，预测下一个时间步的观测数据和奖励信号。将这个奖励信号与环境反馈的奖励信号进行加权平均，得到新的奖励信号；

步骤6.将新的策略网络和旧的策略网络进行比较，使用PPO算法来更新策略网络的参数。

步骤7.将得到的观测数据和新的奖励信号作为输入，使用SIL算法来学习一个新的策略。具体而言，SIL算法选择那些奖励折扣累积值最大的样本，或者选择和最大值相差不超过一定阈值的所有样本作为更新策略网络的经验数据。这样做的目的是为了让代理尽可能地学习到最优的轨迹，从而改善策略。

步骤8.重复步骤4到步骤7，直到智能体的策略收敛到最优解或达到一定的迭代次数，最终完成探索任务。

步骤3具体包括：

3.1.将步骤1获取到的环境数据中的图像信息进行整体编码处理。

3.2根据图像中某个单位的独特信息进行特殊细节编码设计。

3.3整合状态信息，将图像数据信息最终压缩成编码信息，提高训练效率。

步骤4具体包括：

4.1将当前的状态信息输入到策略网络中获取选择的动作以及所有动作对应的概率。

4.2将所选动作输入到环境中的step函数中获取奖励，下一状态信息以及完成信息等。

步骤5具体包括:

将当前状态信息以及步骤4获取的下一状态信息和选取动作输入到ICM动力学模型中，预测下一个时间步的状态信息。ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间，通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值。具体涉及到的公式如：

其中r_t为t时刻获得的总奖励值，为经过ICM动力学模型计算所得的内在奖励值，为与环境互动所获得的外在奖励值。

通过输入当前状态s_t与下一状态s_t+1和训练参数θ_I来预测从s_t转移到s_t+1的动作g表示为学习函数，也被称为逆动力学模型。通过不断训练与优化参数θ_I达到最佳的学习效果。/>是测量预测动作与实际动作之间差异的损失函数。通过最小化损失函数获取θ_I的最大似然估计值已更新预测动作估计值。

除逆动力学模型之外，还训练了另一个神经网络，将当前采取动作a_t与当前状态的特征编码φ(s_t)作为输入，预测下一个时间步t+1处的状态特征编码。

其中是φ(s_t+1)的预测估计，通过最小化损失函数L_F来优化神经网络参数θ_F，学习函数f也被称为前向动力学模型，/>表示L2范数的平方，内在奖励计算如式所示：

其中η是缩放因子，表示L2范数的平方，最终智能体的学习优化问题为公式：

其中β是相对于前向模型损失对逆模型损失进行加权的标量，而λ是相对于学习固有奖励的重要性对策略梯度损失的重要性进行加权的标量。

步骤6具体包括：

通过基于梯度裁剪的PPO算法进行策略更新，使用重要性采样评估新旧策略的差距。重要性采样公式为:

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]

其中，r(θ)为重要性采样比，clip为裁剪函数，ε为超参数，A为优势函数，Q(s,a)代表在状态s下采取动作a的累积奖励值，V(s,a)为状态估计值。当优势函数A＞0时，说明该动作比平均动作好，需要增大该动作选择概率，当A＜0时，则需要减少该动作的选择概率。PPO算法较其他深度强化学习算法更保守，设置了上限为1+ε，下限为1-ε的区间限制策略参数更新幅度，保证新策略与旧策略相差不大。分别计算策略损失熵与价值损失熵。策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值，最后反向传播，更新策略参数,策略梯度参数更新公式为：

步骤7具体包括：

7.1初始化经验缓冲池大小，然后通过智能体与环境互动产生探索经验与累计奖励并存入经验池。

7.2利用经验池中良好的状态动作对进行轨迹模仿，训练一个新的策略网络。计算公式如：

下面结合具体实施例对本发明作进一步的解释：

基于自模仿学习与好奇心机制的PPO-CI导航算法，包括以下步骤：启动仿真环境、初始化网络参数与状态与动作信息以及经验池、对图像信息编码、智能体与环境互动获取信息并存入经验池、基于时间步进行采样获取数据，将获取数据作为输入至ICM算法模型获得内在奖励并加权环境奖励获取总奖励值、通过比较新旧策略，更新PPO和ICM算法的网络参数、将观测数据与总奖励作为输入至SIL算法模型学习新策略、反复重复步骤以上步骤直至算法收敛、通过可视化工具以及模型评估观察模型效果。

步骤3：将图像像素信息进行编码，压缩信息空间提升算法训练速度，获取到编码数据：x₁,…,x_t。具体环境信息如表1、表2和表3所示:

表1环境颜色编码信息

颜色	红色	绿色	蓝色	紫色	黄色	灰色
							编号	0	1	2	3	4	5

表2环境目标物种类编码信息

目标物种类	不可见	无实物	墙	地板	门
						编号	0	1	2	3	4

表3环境目标物状态编码信息

目标物状态	开放	关闭	锁定
				编号	0	1	2

步骤4：在当前时间步中智能体与环境互动获取当前的状态信息s_t，并基于该状态信息获取采取的动作a_t，再将动作反馈给环境获取下一状态信息s_t+1与奖励值R_t，然后将数据(s_t,a_t,R_t,s_t+1)存入经验池,供后续训练调用。

步骤5：基于时间步进行采样获取观测数据和采取的动作，将观测数据和采取的动作作为输入至ICM算法模型获得内在奖励，并于环境反馈的外在奖励进行加权，获得总奖励值。其中ICM算法的模型如图1所示。ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间，通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值。ICM算法与强化学习结合的工作机制如图2所示。总奖励计算公式为：

其中r_t为t时刻获得的总奖励值，为经过ICM动力学模型计算所得的内在奖励值，为与环境互动所获得的外在奖励值，在稀疏奖励任务中大部分情况为0。而内在奖励计算公式为：

φ(s_t)为状态s_t的特征编码，而是φ(s_t+1)的预测估计，通过最小化损失函数L_F来优化神经网络参数θ_F，η是缩放因子，/>表示L2范数的平方。

步骤6：采用PPO算法进行训练，将经验池中的数据按一定比例抽出，使用这批样本数据来更新策略网络的参数，从而让策略函数接近于最优策略函数。计算更新后的策略函数和旧策略函数之间的距离，并根据距离大小来更新策略函数的参数。其中PPO算法与自模仿学习结合的损失函数由其策略函数损失与价值函数损失加权所得，具体公式为：

其中，为PPO算法的总损失函数，/>为PPO的策略网络损失函数，/>为PPO的价值网络损失函数，π_θ(a|s)是根据参数θ的策略函数在状态s下选取动作a的概率估计值，/>表示策略π_θ之间的交叉熵，V_θ(s_t)表示s_t状态下的价值评估值，而/>表示的是n步累计的总价值，||.||²表示欧几里得范数。

本发明提出的PPO-CI算法分为两个训练模块，自模仿学习算法模块与PPO结合ICM算法的训练模块。涉及到PPO与ICM结合算法的训练损失函数如：

其中，L^CILP+VF+S(θ)为PPO算法的损失函数，为PPO算法的策略梯度的损失，为PPO算法的价值函数的损失，S(s_t)指的是交叉熵的损失，而c₁和c₂为其对应系数。V_θ(s_t)表示基于状态s_t的预测价值函数值，V_t ^targ表示目标网络的value值。/>为ICM算法的前向模型损失值。

步骤7：将步骤5中采集的数据信息与经过ICM模型所计算的加权总奖励输入到SIL模型中，通过选择表现较好的一些轨迹进行复制。使用复制的轨迹训练一个新的策略网络，然后将训练好的新策略网络来执行策略改进，进一步优化策略并收集更多的数据。SIL算法总损失函数由对应的策略损失函数与值损失函数加权所得，具体如公式：

步骤8具体包括：

不断重复步骤4至步骤7直至算法收敛，直至完成探索任务或达到设置的迭代次数。

步骤9：为了比较训练模型的优劣，一个评估模型模块被设立，该模块从智能体与100个交互episode中获取表现最差的10次的reward值。然后，使用这些reward值与仅使用SIL模型、仅使用ICM模型和传统PPO算法模型进行比较，以分析各模型的优劣。另外，还设置了可视化模型评估，以观察基于PPO-CI算法在环境中的每一步决策，并分析该模型的性能。

Claims

1.一种结合好奇心机制与自模仿学习的导航决策方法，其特征在于，它包括以下步骤：

步骤1：初始化仿真环境的动作、状态信息，初始化经验池；

步骤3：对环境中的图像信息进行编码，压缩状态信息；

2.根据权利要求1所述的方法，其特征在于，在步骤3中，具体包括以下步骤：

3.根据权利要求1所述的方法，其特征在于，在步骤4中，具体包括以下步骤：

4-2将所选动作输入到环境中的step函数中获取奖励，下一状态信息以及完成信息。

4.根据权利要求1所述的方法，其特征在于，在步骤5中，具体如下：

其中r_t为t时刻获得的总奖励值，为经过ICM动力学模型计算所得的内在奖励值，/>为与环境互动所获得的外在奖励值；

通过具有参数θ_P的深度神经网络来表示策略π(s_t；θ_P),使用参数θ_P进行优化获得最大的期望奖励值总和∑_tr_t；

通过输入当前状态s_t与下一状态s_t+1和训练参数θ_I来预测从s_t转移到s_t+1的动作g表示为学习函数，也被称为逆动力学模型，通过不断训练与优化参数θ_I达到最佳的学习效果；是测量预测动作与实际动作之间差异的损失函数，通过最小化损失函数获取θ_I的最大似然估计值已更新预测动作估计值；

其中，是φ(s_t+1)的预测估计，通过最小化损失函数L_F来优化神经网络参数θ_F，学习函数f也被称为前向动力学模型，内在奖励计算如式所示：

5.根据权利要求1所述的方法，其特征在于，在步骤6中，具体如下：

其中，θ为策略参数，r(θ)表示重要性采样比，π_θold(a|s)表示旧策略，π_θ(a|s)表示新策略；通过梯度裁剪，限制策略参数的更新幅度，其公式如：

A＝Q(s,a)-V(s,a)

L^CLIP(θ)＝E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A)]

其中ε为超参数，A为优势函数，clip为裁剪函数，Q(s,a)代表在状态s下采取动作a的累积奖励值，V(s,a)为状态估计值，L^CLIP(θ)表示PPO-clip算法的损失函数；当优势函数A>0时，说明该动作比平均动作好，需要增大该动作选择概率，当A<0时，则需要减少该动作的选择概率，PPO算法较其他深度强化学习算法更保守，设置了上限为1+ε，下限为1-ε的区间限制策略参数更新幅度，保证新策略与旧策略相差不大，分别计算策略损失熵与价值损失熵，策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值，最后反向传播，更新策略参数,策略梯度参数更新公式为：

6.根据权利要求1所述的方法，其特征在于，在步骤7中，具体如下：

其中，为SIL算法的总损失函数，/>为SIL算法的策略损失函数，/>为对应的价值损失函数，而β^sil为价值损失函数对应的超参数，π_θ(a|s)是根据参数θ的策略函数在状态s下选取动作a的概率估计值，D代表经验池，R为累积奖励值，V_θ(s)代表对应状态s的价值函数，(·)₊表示为max(·,0)，以此鼓励智能体模仿自己的决定，只有当这些决定所获得回报比预期更大时才选择更新/>||.||²表示欧几里得范数。