CN108762249B

CN108762249B - 基于近似模型多步优化的清洁机器人最优路径规划方法

Info

Publication number: CN108762249B
Application number: CN201810385471.7A
Authority: CN
Inventors: 钟珊; 龚声蓉; 董瑞志; 姚宇峰; 马帅
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2019-11-08
Anticipated expiration: 2038-04-26
Also published as: CN108762249A

Abstract

本发明公开了一种基于近似模型多步优化的清洁机器人最优路径规划方法，包括初始化模型、超参数、环境，选择探索策略并以当前样本更新模型，更新值函数、策略和当前状态，判断当前情节是否结束进而利用当前采样轨迹更新轨迹池，利用重构采样轨迹更新轨迹池，然后由轨迹池中所有轨迹来更新模型，采用模型进行规划，判断是否达到最大情节数，最后根据学习到最优策略来来获取清洁机器人规划的最优路径。本发明通过采用采样轨迹和单个样本同时对模型进行更新，提高模型学习的精度，同时利用该模型进行规划，提高值函数、策略和整个算法的学习速度，同时提高样本的利用效率，实现在更短的时间内采用更少的样本来获得清洁机器人进行规划的最优路径。

Description

基于近似模型多步优化的清洁机器人最优路径规划方法

技术领域

本发明涉及一种清洁机器人路径规划方法，特别是涉及一种基于近似模型多步优化的清洁机器人最优路径规划方法。

背景技术

清洁机器人的自主路径规划问题，是控制领域中的一个常见问题。该问题可以将机器人所有可能的状态建模为状态空间，将其可以发生的所有动作建模为动作空间，将当前状态发生动作后达到的下一个可能状态建模为迁移函数，并将到达下一个状态所获得的立即奖赏建模为奖赏函数，即将该问题转换为一个马尔科夫决策过程。解决该问题的常规思路是采用离散的强化学习方法，如Q学习和SARSA算法来求解，如直接离散状态空间和动作空间，即将状态空间划分为若干的格子，将动作空间转换为向上、向下、向左和向右的动作，即将清洁机器人的规划问题转换为迷宫的最短路径规划问题。该方法对于小规模的状态空间是切实可行的，但是当状态空间足够大，同时障碍物分布复杂时，采用该方法无法获取清洁机器人的最优路径。

策略搜索是一种应用于连续状态和动作空间的强化学习方法，行动者评论家方法在策略搜索算法的基础上，加入了值函数的估计，可以更快地获取连续空间的最优行为策略，是解决连续空间问题的一种有效方法。然而，无论是策略搜索算法还是行动者评论家算法都属于模型无关的算法，即直接通过机器人与环境交互获取的样本来学习值函数策略，需通过大量样本才能学习到一个较好的策略，因此，具有样本效率不高的缺点。

模型相关的学习方法假设模型事先存在，该类方法具有较高的样本效率，通常能利用模型进行规划来加速策略的求解。然而，现实世界中的大部分问题中，模型事先是未知的，如果利用模型规划来加速策略或整个算法的收敛过程，那么就需要实现学习一个模型。当学习的模型足够精确时，能加速策略和算法的收敛，而当学习的模型不够精确时，利用该模型来进行规划，反而会阻碍策略的最优解的获取。

发明内容

针对上述现有技术缺陷，本发明的任务在于提供一种基于近似模型多步优化的清洁机器人最优路径规划方法，在较短时间内学习一个更精确的模型，并利用模型和在线学习来获得清洁机器人进行规划的最优路径。

本发明技术方案是这样的：一种基于近似模型多步优化的清洁机器人最优路径规划方法，包括以下步骤：

步骤1)、初始化模型，设置环境的状态空间X和动作空间U；

步骤2)、初始化超参数，设置折扣率γ，衰减因子λ，情节数，高斯函数的探索方差，每个情节所包含的最大时间步，值函数的学习率，策略的学习率，模型的学习率，规划的次数；

步骤3)、初始化环境，设置机器人的当前状态x和边界位置，以及环境中所有的障碍物和垃圾位置；

步骤4)、选择探索策略：选择高斯函数N(u^*,σ)作为动作选择策略，即以当前最优动作u^*作为高斯函数的均值，以探索项σ作为高斯函数的方差，选择当前状态下清洁机器人执行的动作u；

步骤5)、获取当前样本：在当前状态x下，执行步骤(4)中确定的动作u，得到清洁机器人的下一个状态x'，立即奖赏r；

步骤6)、采用当前样本更新模型：更新近似模型中的状态迁移函数和奖赏函数参数向量；

步骤7)、更新值函数：更新值函数的参数向量；

步骤8)、更新策略：更新策略的参数向量；

步骤9)、更新采样轨迹：将当前样本(x,u,x',r)加入当前采样轨迹中(x₀,u₀,x₀',r₀),(x₁,u₁,x₁',r₁),...,(x,u,x',r)，其中(x₀,u₀,x₀',r₀)表示时间步为0对应的样本，x₀表示时间步为0时的状态，u₀表示时间步为0时的动作，x₀'表示状态x₀执行动作u₀后得到的下一个状态，r₀表示状态x₀执行动作u₀后得到的立即奖赏，(x₁,u₁,x₁',r₁)表示时间步为1对应的样本，x₁表示时间步为1时的状态，u₁表示时间步为1时的动作，x₁'表示状态x₁执行动作u₁后得到的下一个状态，r₁表示状态x₁执行动作u₁后得到的立即奖赏；

步骤10)、更新当前状态：x＝x'；

步骤11)、判断当前情节是否结束：如果结束，转入步骤12)，否则转入步骤4)；

步骤12)、利用当前采样路径更新轨迹池：将当前采样轨迹(x₀,u₀,x₀',r₀),(x₁,u₁,x₁',r₁),...,(x_n,u_n,x_n',r_n)加入到轨迹池D中，(x_n,u_n,x_n',r_n)表示时间步为n对应的样本，x_n表示时间步为n时的状态，u_n表示时间步为n时的动作，x_n'表示状态x_n执行动作u_n后得到的下一个状态，r_n表示状态x_n执行动作u_n后得到的立即奖赏；

步骤13)、利用重构采样轨迹更新轨迹池：利用当前采样轨迹构建模拟轨迹(x₀,u₀,x_0,p',r_0,p),(x_o,p,u₁,x_1,p',r_1,p),...,(x_n-1,p,u_n,x_n,p',r_n,p)，并重构该轨迹，其中(x₀,u₀,x_0,p',r_0,p)表示时间步为0对应的模拟样本，x_0,p'表示状态x₀执行动作u₀后根据模型得到的下一个状态，r_0,p表示状态x₀执行动作u₀后得到的立即奖赏，(x_o,p,u₁,x_1,p',r_1,p)表示时间步为1对应的模拟样本，x_0,p表示时间步为1对应的模拟状态，x_1,p'表示状态x_0,p执行动作u₁后根据模型得到的下一个状态，r_1,p表示状态x_0,p执行动作u₁后得到的立即奖赏，(x_n-1,p,u_n,x_n,p',r_n,p)表示时间步为n对应的模拟样本，x_n-1,p表示时间步为n对应的模拟状态，x_n,p'表示状态x_n-1,p执行动作u_n后根据模型得到的下一个状态，r_n,p表示状态x_n-1,p执行动作u_n后得到的立即奖赏,将重构的轨迹(x_0,p',u₁,x₁,r₁),(x_1,p',u₁,x₂,r₂),...,(x_n-1,p',u_n,x_n,r_n)加入到轨迹池D中；

步骤14)、采用轨迹池中所有轨迹来更新模型；

步骤15)、采用模型进行规划；

步骤16)、判断是否达到最大情节数：如果达到，转入步骤17)，否则转入步骤3)继续执行；

步骤17)、根据学习到的最优策略来获取清洁机器人规划的最优路径。

作为优选的技术方案，步骤(6)中的状态迁移函数和奖赏函数的近似公式为x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t，其中，x_t表示时间步为t时的状态，u_t表示时间步为t时的动作,φ^T表示状态动作的特征函数的转置,θ为状态迁移函数的参数向量，υ为奖赏函数的参数向量，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和α是模型即状态迁移函数和奖赏函数的学习率，为根据模型的状态迁移函数得到的下一状态估计值，为根据模型的奖赏函数得到的奖赏估计值。

作为优选的技术方案，步骤(7)中的值函数的近似公式为：采用梯度下降法进行更新，其参数向量为：表示状态x对应的特征函数，α₁为值函数的学习率。

作为优选的技术方案，步骤(8)中的策略的近似公式为：采用梯度下降法进行更新，其参数向量为：表示状态x对应的特征函数，α₂为策略的学习率，V(x_t)为状态x_t对应的值函数。

作为优选的技术方案，步骤(13)中的模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列，并利用学习的模型x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t来对下一个状态和奖赏进行预测，递归进行预测后将生成整个模拟的采样序列，其中φ为采用高斯函数表示的状态动作对的特征，x_t表示时间步为t时的状态，u_t表示时间步为t时的动作,φ^T表示状态动作的特征函数的转置,θ_t为模型中状态迁移函数的参数向量，υ_t表示模型中奖赏函数的参数向量。

作为优选的技术方案，步骤(14)中基于轨迹池的模型更新方式为：对于轨迹池中的所有轨迹，以及轨迹中的每个样本，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和x_t表示时间步t对应的状态，u_t表示时间步为t时的动作，φ^T表示状态动作的特征函数的转置，α是模型即状态迁移函数和奖赏函数的学习率，x_t+1为下一状态的真实值，为根据模型的状态迁移函数得到的下一状态估计值；r_t+1表示立即奖赏的真实值，为根据模型的奖赏函数得到的奖赏估计值。。

作为优选的技术方案，步骤(15)是在一定的规划次数下，迭代地利用模型x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t生成下一个状态和奖赏，并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζ_t+1＝ζ_t+α₂(r+γV(x_t+1)-V(x_t))(u-u*)^T(x_t)，其中，为高斯函数表示的状态特征，x_t+1为下一状态的真实值，φ^T表示状态动作的特征函数的转置，表示状态x对应的特征函数，x_t表示时间步t对应的状态，u_t表示时间步为t时的动作，θ_t为模型中状态迁移函数的参数向量，V(x_t)状态x_t对应的值函数，υ_t表示模型中奖赏函数的参数向量。表示状态x_t的特征，α₁为值函数的学习率，α₂为策略的学习率，r_t+1＝φ^T(x_t,u_t)υ_t表示立即奖赏的估计表达式。

本发明与现有技术相比的优点在于：

(1)采用高斯函数表示状态动作特征，并通过线性函数逼近器来组合该特征以及参数向量，使得该模型表示方法，不仅具有线性函数逼近器的形式简单的优点，同时所需样本量更少。由于组合了高斯函数表示的特征，使得该线性函数逼近器的表示能力大为增加。

(2)采用采样轨迹和样本同时对模型进行更新。当机器人获取一条完整的路径后，再利用该条轨迹和样本同时对模型更新，同时利用单步更新和多步更新，以提高模型进行单步和多步预测的能力。

针对较为大规模和复杂的清洁机器人行为规划问题，本发明方法在行动者-评论家的框架内，通过对模型的表示方法以及模型更新阶段的多步更新机制进行设计，使得学习的模型具有较高的精确度。当利用较为精确的近似模型来进行规划时，可以明显地促进策略和算法收敛，从而实现清洁机器人更好地避障和寻找最优路径。

附图说明

图1为本发明方法流程示意图；

图2为本发明实施例中的布局示意图；

图3为本发明实施例中生成的某条最优路径示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

请结合图1所示，本实施例涉及的基于近似模型多步优化的清洁机器人最优路径规划方法，包括以下步骤：

步骤1)、初始化模型，设置环境状态空间X为两个房间的水平和垂直坐标的界限值，动作空间U中的动作为机器人沿着[-π,+π]角度进行移动一个定值；

步骤2)、初始化超参数，设置折扣率γ＝0.9，衰减因子λ＝0.9，情节数＝200，高斯函数的探索方差为0.2，每个情节所包含的最大时间步为200，值函数的学习率为0.6，策略的学习率为0.6，模型的学习率为0.5，规划的次数为100；

步骤4)、选择探索策略：选择高斯函数N(u^*,0.2)作为动作选择策略，获得当前状态下清洁机器人执行的动作u；

步骤5)、在当前状态x下，执行步骤(4)中确定的动作u，得到清洁机器人的下一个状态x'，立即奖赏r，从而生成当前样本(x,u,x',r)；

步骤6)、状态迁移函数和奖赏函数的近似公式为x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t，其中，θ为状态迁移函数的参数向量，υ为奖赏函数的参数向量，采用单步的预测误差作为梯度信号，由当前样本(x,u,x',r)得到参数向量的更新公式为：和

步骤7)、更新值函数：值函数的近似公式为：由当前样本(x,u,x',r)采用梯度下降法进行更新，其参数向量为：

步骤8)、更新策略：策略的近似公式为：由当前样本(x,u,x',r)采用梯度下降法进行更新，其参数向量为：

步骤9)、更新采样轨迹：将当前样本(x,u,x',r)加入当前采样路径中(x₀,u₀,x₀',r₀),(x₁,u₁,x₁',r₁),...,(x,u,x',r)；

步骤10)、更新当前状态：x＝x'；

步骤11)、更新当前时间步(递增1)，如果已经达到最大时间步200或者已实现目标，则情节结束，转入步骤12)；否则转入步骤4)；

步骤12)、利用当前采样轨迹更新轨迹池：将当前采样轨迹(x₀,u₀,x₀',r₀),(x₁,u₁,x₁',r₁),...,(x_n,u_n,x_n',r_n)加入到轨迹池D中：

步骤13)、利用重构采样轨迹更新轨迹池：利用当前采样轨迹构建模拟轨迹(x₀,u₀,x_0,p',r_0,p),(x_op,u₁,x_1,p',r_1,p),...,(x_n-1,p,u_n,x_n,p',r_n,p)，并重构该轨迹，将重构的轨迹(x_0,p',u₁,x₁,r₁),(x_1,p',u₁,x₂,r₂),...,(x'_n-1,p,u_n,x_n,r_n)加入到轨迹池D中；模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列，并利用学习的模型x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t来对下一个状态和奖赏进行预测，递归进行预测后将生成整个模拟的采样序列，其中φ为采用高斯函数表示的状态动作对的特征；

步骤14)、对于轨迹池中的所有轨迹，以及轨迹中的每个样本，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和

步骤15)、采用模型进行100次规划，即迭代地利用模型x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t生成下一个状态和奖赏，并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζ_t+1＝ζ_t+α₂(r+γV(x_t+1)-V(x_t))(u-u*)^T(x_t)，其中，为高斯函数表示的状态特征；

步骤16)、判断情节是否达到最大值200：如果达到，转入步骤17)，否则转入步骤3)继续执行；

步骤17)、根据学习到最优策略来获取清洁机器人规划的最优路径。

参见图2所示，清洁机器人的活动范围是左边的卧室和右边的客厅，清洁机器人当前在右边的客厅中，客厅中有餐桌和沙发等家具，除此之外还有一些随机摆放的障碍物(圆形所示)，地面上有一些需要清扫的垃圾(星形图所示)。清洁机器人的目标就是在避开家具和障碍物的条件下，将客厅和卧室的垃圾清扫完毕。根据房间的布置，清洁机器人在打扫完客厅后，需要经过中间的房门才能顺利进入卧室。机器人头部均匀地安装有距离传感器，每个传感器都能探测其正前方1单位长度内是否有障碍物。清洁机器人在房间中初始位置是随机的，它的目标是尽可能快地打扫完所有的垃圾，当该目标被实现后，清洁机器人会获得的奖赏值为10；当在房间中碰到障碍物时，会得到一个-20的奖赏；其它情况下获得的立即奖赏为-1。当扫地机器人在图1所示的初始位置时，采用本专利在该场景中实施后，得到的一条最优的清扫路径如图3所示。

Claims

1.一种基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，包括一下步骤：

步骤1)、初始化模型，设置环境的状态空间X和动作空间U；

步骤7)、更新值函数：更新值函数的参数向量；

步骤8)、更新策略：更新策略的参数向量；

步骤10)、更新当前状态：x＝x'；

步骤14)、采用轨迹池中所有轨迹来更新模型；

步骤15)、采用模型进行规划；

2.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(6)中的状态迁移函数和奖赏函数的近似公式为x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t，其中，x_t表示时间步为t时的状态，u_t表示时间步为t时的动作,φ^T表示状态动作的特征函数的转置,θ为状态迁移函数的参数向量，υ为奖赏函数的参数向量，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和α是模型即状态迁移函数和奖赏函数的学习率，为根据模型的状态迁移函数得到的下一状态估计值，为根据模型的奖赏函数得到的奖赏估计值。

3.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(7)中的值函数的近似公式为：采用梯度下降法进行更新，其参数向量为：表示状态x对应的特征函数，α₁为值函数的学习率。

4.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(8)中的策略的近似公式为：采用梯度下降法进行更新，其参数向量为：表示状态x对应的特征函数，α₂为策略的学习率，V(x_t)为状态x_t对应的值函数。

5.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(13)中的模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列，并利用学习的模型x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t来对下一个状态和奖赏进行预测，递归进行预测后将生成整个模拟的采样序列，其中φ为采用高斯函数表示的状态动作对的特征，x_t表示时间步为t时的状态，u_t表示时间步为t时的动作,φ^T表示状态动作的特征函数的转置,θ_t为模型中状态迁移函数的参数向量，υ_t表示模型中奖赏函数的参数向量。

6.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(14)中基于轨迹池的模型更新方式为：对于轨迹池中的所有轨迹，以及轨迹中的每个样本，采用单步的预测误差作为梯度信号，得到参数向量的更新公式为：和x_t表示时间步t对应的状态，u_t表示时间步为t时的动作，φ^T表示状态动作的特征函数的转置，α是模型即状态迁移函数和奖赏函数的学习率，x_t+1为下一状态的真实值，为根据模型的状态迁移函数得到的下一状态估计值；r_t+1表示立即奖赏的真实值，为根据模型的奖赏函数得到的奖赏估计值。

7.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法，其特征在于，步骤(15)是在一定的规划次数下，迭代地利用模型x_t+1＝φ^T(x_t,u_t)θ_t和r_t+1＝φ^T(x_t,u_t)υ_t生成下一个状态和奖赏，并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζ_t+1＝ζ_t+α₂(r+γV(x_t+1)-V(x_t))(u-u*)^T(x_t)，其中，为高斯函数表示的状态特征，x_t+1为下一状态的真实值，φ^T表示状态动作的特征函数的转置，表示状态x对应的特征函数，x_t表示时间步t对应的状态，u_t表示时间步为t时的动作，θ_t为模型中状态迁移函数的参数向量，V(x_t)状态x_t对应的值函数，υ_t表示模型中奖赏函数的参数向量, 表示状态x_t的特征，α₁为值函数的学习率，α₂为策略的学习率，r_t+1＝φ^T(x_t,u_t)υ_t表示立即奖赏的估计表达式。