CN108762249B - 基于近似模型多步优化的清洁机器人最优路径规划方法 - Google Patents

基于近似模型多步优化的清洁机器人最优路径规划方法 Download PDF

Info

Publication number
CN108762249B
CN108762249B CN201810385471.7A CN201810385471A CN108762249B CN 108762249 B CN108762249 B CN 108762249B CN 201810385471 A CN201810385471 A CN 201810385471A CN 108762249 B CN108762249 B CN 108762249B
Authority
CN
China
Prior art keywords
state
model
indicate
track
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810385471.7A
Other languages
English (en)
Other versions
CN108762249A (zh
Inventor
钟珊
龚声蓉
董瑞志
姚宇峰
马帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changshu Institute of Technology
Original Assignee
Changshu Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changshu Institute of Technology filed Critical Changshu Institute of Technology
Priority to CN201810385471.7A priority Critical patent/CN108762249B/zh
Publication of CN108762249A publication Critical patent/CN108762249A/zh
Application granted granted Critical
Publication of CN108762249B publication Critical patent/CN108762249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Abstract

本发明公开了一种基于近似模型多步优化的清洁机器人最优路径规划方法,包括初始化模型、超参数、环境,选择探索策略并以当前样本更新模型,更新值函数、策略和当前状态,判断当前情节是否结束进而利用当前采样轨迹更新轨迹池,利用重构采样轨迹更新轨迹池,然后由轨迹池中所有轨迹来更新模型,采用模型进行规划,判断是否达到最大情节数,最后根据学习到最优策略来来获取清洁机器人规划的最优路径。本发明通过采用采样轨迹和单个样本同时对模型进行更新,提高模型学习的精度,同时利用该模型进行规划,提高值函数、策略和整个算法的学习速度,同时提高样本的利用效率,实现在更短的时间内采用更少的样本来获得清洁机器人进行规划的最优路径。

Description

基于近似模型多步优化的清洁机器人最优路径规划方法
技术领域
本发明涉及一种清洁机器人路径规划方法,特别是涉及一种基于近似模型多步优化的清洁机器人最优路径规划方法。
背景技术
清洁机器人的自主路径规划问题,是控制领域中的一个常见问题。该问题可以将机器人所有可能的状态建模为状态空间,将其可以发生的所有动作建模为动作空间,将当前状态发生动作后达到的下一个可能状态建模为迁移函数,并将到达下一个状态所获得的立即奖赏建模为奖赏函数,即将该问题转换为一个马尔科夫决策过程。解决该问题的常规思路是采用离散的强化学习方法,如Q学习和SARSA算法来求解,如直接离散状态空间和动作空间,即将状态空间划分为若干的格子,将动作空间转换为向上、向下、向左和向右的动作,即将清洁机器人的规划问题转换为迷宫的最短路径规划问题。该方法对于小规模的状态空间是切实可行的,但是当状态空间足够大,同时障碍物分布复杂时,采用该方法无法获取清洁机器人的最优路径。
策略搜索是一种应用于连续状态和动作空间的强化学习方法,行动者评论家方法在策略搜索算法的基础上,加入了值函数的估计,可以更快地获取连续空间的最优行为策略,是解决连续空间问题的一种有效方法。然而,无论是策略搜索算法还是行动者评论家算法都属于模型无关的算法,即直接通过机器人与环境交互获取的样本来学习值函数策略,需通过大量样本才能学习到一个较好的策略,因此,具有样本效率不高的缺点。
模型相关的学习方法假设模型事先存在,该类方法具有较高的样本效率,通常能利用模型进行规划来加速策略的求解。然而,现实世界中的大部分问题中,模型事先是未知的,如果利用模型规划来加速策略或整个算法的收敛过程,那么就需要实现学习一个模型。当学习的模型足够精确时,能加速策略和算法的收敛,而当学习的模型不够精确时,利用该模型来进行规划,反而会阻碍策略的最优解的获取。
发明内容
针对上述现有技术缺陷,本发明的任务在于提供一种基于近似模型多步优化的清洁机器人最优路径规划方法,在较短时间内学习一个更精确的模型,并利用模型和在线学习来获得清洁机器人进行规划的最优路径。
本发明技术方案是这样的:一种基于近似模型多步优化的清洁机器人最优路径规划方法,包括以下步骤:
步骤1)、初始化模型,设置环境的状态空间X和动作空间U;
步骤2)、初始化超参数,设置折扣率γ,衰减因子λ,情节数,高斯函数的探索方差,每个情节所包含的最大时间步,值函数的学习率,策略的学习率,模型的学习率,规划的次数;
步骤3)、初始化环境,设置机器人的当前状态x和边界位置,以及环境中所有的障碍物和垃圾位置;
步骤4)、选择探索策略:选择高斯函数N(u*,σ)作为动作选择策略,即以当前最优动作u*作为高斯函数的均值,以探索项σ作为高斯函数的方差,选择当前状态下清洁机器人执行的动作u;
步骤5)、获取当前样本:在当前状态x下,执行步骤(4)中确定的动作u,得到清洁机器人的下一个状态x',立即奖赏r;
步骤6)、采用当前样本更新模型:更新近似模型中的状态迁移函数和奖赏函数参数向量;
步骤7)、更新值函数:更新值函数的参数向量;
步骤8)、更新策略:更新策略的参数向量;
步骤9)、更新采样轨迹:将当前样本(x,u,x',r)加入当前采样轨迹中(x0,u0,x0',r0),(x1,u1,x1',r1),...,(x,u,x',r),其中(x0,u0,x0',r0)表示时间步为0对应的样本,x0表示时间步为0时的状态,u0表示时间步为0时的动作,x0'表示状态x0执行动作u0后得到的下一个状态,r0表示状态x0执行动作u0后得到的立即奖赏,(x1,u1,x1',r1)表示时间步为1对应的样本,x1表示时间步为1时的状态,u1表示时间步为1时的动作,x1'表示状态x1执行动作u1后得到的下一个状态,r1表示状态x1执行动作u1后得到的立即奖赏;
步骤10)、更新当前状态:x=x';
步骤11)、判断当前情节是否结束:如果结束,转入步骤12),否则转入步骤4);
步骤12)、利用当前采样路径更新轨迹池:将当前采样轨迹(x0,u0,x0',r0),(x1,u1,x1',r1),...,(xn,un,xn',rn)加入到轨迹池D中,(xn,un,xn',rn)表示时间步为n对应的样本,xn表示时间步为n时的状态,un表示时间步为n时的动作,xn'表示状态xn执行动作un后得到的下一个状态,rn表示状态xn执行动作un后得到的立即奖赏;
步骤13)、利用重构采样轨迹更新轨迹池:利用当前采样轨迹构建模拟轨迹(x0,u0,x0,p',r0,p),(xo,p,u1,x1,p',r1,p),...,(xn-1,p,un,xn,p',rn,p),并重构该轨迹,其中(x0,u0,x0,p',r0,p)表示时间步为0对应的模拟样本,x0,p'表示状态x0执行动作u0后根据模型得到的下一个状态,r0,p表示状态x0执行动作u0后得到的立即奖赏,(xo,p,u1,x1,p',r1,p)表示时间步为1对应的模拟样本,x0,p表示时间步为1对应的模拟状态,x1,p'表示状态x0,p执行动作u1后根据模型得到的下一个状态,r1,p表示状态x0,p执行动作u1后得到的立即奖赏,(xn-1,p,un,xn,p',rn,p)表示时间步为n对应的模拟样本,xn-1,p表示时间步为n对应的模拟状态,xn,p'表示状态xn-1,p执行动作un后根据模型得到的下一个状态,rn,p表示状态xn-1,p执行动作un后得到的立即奖赏,将重构的轨迹(x0,p',u1,x1,r1),(x1,p',u1,x2,r2),...,(xn-1,p',un,xn,rn)加入到轨迹池D中;
步骤14)、采用轨迹池中所有轨迹来更新模型;
步骤15)、采用模型进行规划;
步骤16)、判断是否达到最大情节数:如果达到,转入步骤17),否则转入步骤3)继续执行;
步骤17)、根据学习到的最优策略来获取清洁机器人规划的最优路径。
作为优选的技术方案,步骤(6)中的状态迁移函数和奖赏函数的近似公式为xt+1=φT(xt,utt和rt+1=φT(xt,utt,其中,xt表示时间步为t时的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为:α是模型即状态迁移函数和奖赏函数的学习率,为根据模型的状态迁移函数得到的下一状态估计值,为根据模型的奖赏函数得到的奖赏估计值。
作为优选的技术方案,步骤(7)中的值函数的近似公式为:采用梯度下降法进行更新,其参数向量为: 表示状态x对应的特征函数,α1为值函数的学习率。
作为优选的技术方案,步骤(8)中的策略的近似公式为:采用梯度下降法进行更新,其参数向量为: 表示状态x对应的特征函数,α2为策略的学习率,V(xt)为状态xt对应的值函数。
作为优选的技术方案,步骤(13)中的模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列,并利用学习的模型xt+1=φT(xt,utt和rt+1=φT(xt,utt来对下一个状态和奖赏进行预测,递归进行预测后将生成整个模拟的采样序列,其中φ为采用高斯函数表示的状态动作对的特征,xt表示时间步为t时的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θt为模型中状态迁移函数的参数向量,υt表示模型中奖赏函数的参数向量。
作为优选的技术方案,步骤(14)中基于轨迹池的模型更新方式为:对于轨迹池中的所有轨迹,以及轨迹中的每个样本,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为:xt表示时间步t对应的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,α是模型即状态迁移函数和奖赏函数的学习率,xt+1为下一状态的真实值,为根据模型的状态迁移函数得到的下一状态估计值;rt+1表示立即奖赏的真实值,为根据模型的奖赏函数得到的奖赏估计值。。
作为优选的技术方案,步骤(15)是在一定的规划次数下,迭代地利用模型xt+1=φT(xt,utt和rt+1=φT(xt,utt生成下一个状态和奖赏,并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζt+1=ζt2(r+γV(xt+1)-V(xt))(u-u*)T(xt),其中,为高斯函数表示的状态特征,xt+1为下一状态的真实值,φT表示状态动作的特征函数的转置,表示状态x对应的特征函数,xt表示时间步t对应的状态,ut表示时间步为t时的动作,θt为模型中状态迁移函数的参数向量,V(xt)状态xt对应的值函数,υt表示模型中奖赏函数的参数向量。表示状态xt的特征,α1为值函数的学习率,α2为策略的学习率,rt+1=φT(xt,utt表示立即奖赏的估计表达式。
本发明与现有技术相比的优点在于:
(1)采用高斯函数表示状态动作特征,并通过线性函数逼近器来组合该特征以及参数向量,使得该模型表示方法,不仅具有线性函数逼近器的形式简单的优点,同时所需样本量更少。由于组合了高斯函数表示的特征,使得该线性函数逼近器的表示能力大为增加。
(2)采用采样轨迹和样本同时对模型进行更新。当机器人获取一条完整的路径后,再利用该条轨迹和样本同时对模型更新,同时利用单步更新和多步更新,以提高模型进行单步和多步预测的能力。
针对较为大规模和复杂的清洁机器人行为规划问题,本发明方法在行动者-评论家的框架内,通过对模型的表示方法以及模型更新阶段的多步更新机制进行设计,使得学习的模型具有较高的精确度。当利用较为精确的近似模型来进行规划时,可以明显地促进策略和算法收敛,从而实现清洁机器人更好地避障和寻找最优路径。
附图说明
图1为本发明方法流程示意图;
图2为本发明实施例中的布局示意图;
图3为本发明实施例中生成的某条最优路径示意图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
请结合图1所示,本实施例涉及的基于近似模型多步优化的清洁机器人最优路径规划方法,包括以下步骤:
步骤1)、初始化模型,设置环境状态空间X为两个房间的水平和垂直坐标的界限值,动作空间U中的动作为机器人沿着[-π,+π]角度进行移动一个定值;
步骤2)、初始化超参数,设置折扣率γ=0.9,衰减因子λ=0.9,情节数=200,高斯函数的探索方差为0.2,每个情节所包含的最大时间步为200,值函数的学习率为0.6,策略的学习率为0.6,模型的学习率为0.5,规划的次数为100;
步骤3)、初始化环境,设置机器人的当前状态x和边界位置,以及环境中所有的障碍物和垃圾位置;
步骤4)、选择探索策略:选择高斯函数N(u*,0.2)作为动作选择策略,获得当前状态下清洁机器人执行的动作u;
步骤5)、在当前状态x下,执行步骤(4)中确定的动作u,得到清洁机器人的下一个状态x',立即奖赏r,从而生成当前样本(x,u,x',r);
步骤6)、状态迁移函数和奖赏函数的近似公式为xt+1=φT(xt,utt和rt+1=φT(xt,utt,其中,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量,采用单步的预测误差作为梯度信号,由当前样本(x,u,x',r)得到参数向量的更新公式为:
步骤7)、更新值函数:值函数的近似公式为:由当前样本(x,u,x',r)采用梯度下降法进行更新,其参数向量为:
步骤8)、更新策略:策略的近似公式为:由当前样本(x,u,x',r)采用梯度下降法进行更新,其参数向量为:
步骤9)、更新采样轨迹:将当前样本(x,u,x',r)加入当前采样路径中(x0,u0,x0',r0),(x1,u1,x1',r1),...,(x,u,x',r);
步骤10)、更新当前状态:x=x';
步骤11)、更新当前时间步(递增1),如果已经达到最大时间步200或者已实现目标,则情节结束,转入步骤12);否则转入步骤4);
步骤12)、利用当前采样轨迹更新轨迹池:将当前采样轨迹(x0,u0,x0',r0),(x1,u1,x1',r1),...,(xn,un,xn',rn)加入到轨迹池D中:
步骤13)、利用重构采样轨迹更新轨迹池:利用当前采样轨迹构建模拟轨迹(x0,u0,x0,p',r0,p),(xop,u1,x1,p',r1,p),...,(xn-1,p,un,xn,p',rn,p),并重构该轨迹,将重构的轨迹(x0,p',u1,x1,r1),(x1,p',u1,x2,r2),...,(x'n-1,p,un,xn,rn)加入到轨迹池D中;模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列,并利用学习的模型xt+1=φT(xt,utt和rt+1=φT(xt,utt来对下一个状态和奖赏进行预测,递归进行预测后将生成整个模拟的采样序列,其中φ为采用高斯函数表示的状态动作对的特征;
步骤14)、对于轨迹池中的所有轨迹,以及轨迹中的每个样本,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为:
步骤15)、采用模型进行100次规划,即迭代地利用模型xt+1=φT(xt,utt和rt+1=φT(xt,utt生成下一个状态和奖赏,并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζt+1=ζt2(r+γV(xt+1)-V(xt))(u-u*)T(xt),其中,为高斯函数表示的状态特征;
步骤16)、判断情节是否达到最大值200:如果达到,转入步骤17),否则转入步骤3)继续执行;
步骤17)、根据学习到最优策略来获取清洁机器人规划的最优路径。
参见图2所示,清洁机器人的活动范围是左边的卧室和右边的客厅,清洁机器人当前在右边的客厅中,客厅中有餐桌和沙发等家具,除此之外还有一些随机摆放的障碍物(圆形所示),地面上有一些需要清扫的垃圾(星形图所示)。清洁机器人的目标就是在避开家具和障碍物的条件下,将客厅和卧室的垃圾清扫完毕。根据房间的布置,清洁机器人在打扫完客厅后,需要经过中间的房门才能顺利进入卧室。机器人头部均匀地安装有距离传感器,每个传感器都能探测其正前方1单位长度内是否有障碍物。清洁机器人在房间中初始位置是随机的,它的目标是尽可能快地打扫完所有的垃圾,当该目标被实现后,清洁机器人会获得的奖赏值为10;当在房间中碰到障碍物时,会得到一个-20的奖赏;其它情况下获得的立即奖赏为-1。当扫地机器人在图1所示的初始位置时,采用本专利在该场景中实施后,得到的一条最优的清扫路径如图3所示。

Claims (7)

1.一种基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,包括一下步骤:
步骤1)、初始化模型,设置环境的状态空间X和动作空间U;
步骤2)、初始化超参数,设置折扣率γ,衰减因子λ,情节数,高斯函数的探索方差,每个情节所包含的最大时间步,值函数的学习率,策略的学习率,模型的学习率,规划的次数;
步骤3)、初始化环境,设置机器人的当前状态x和边界位置,以及环境中所有的障碍物和垃圾位置;
步骤4)、选择探索策略:选择高斯函数N(u*,σ)作为动作选择策略,即以当前最优动作u*作为高斯函数的均值,以探索项σ作为高斯函数的方差,选择当前状态下清洁机器人执行的动作u;
步骤5)、获取当前样本:在当前状态x下,执行步骤(4)中确定的动作u,得到清洁机器人的下一个状态x',立即奖赏r;
步骤6)、采用当前样本更新模型:更新近似模型中的状态迁移函数和奖赏函数参数向量;
步骤7)、更新值函数:更新值函数的参数向量;
步骤8)、更新策略:更新策略的参数向量;
步骤9)、更新采样轨迹:将当前样本(x,u,x',r)加入当前采样轨迹中(x0,u0,x0',r0),(x1,u1,x1',r1),...,(x,u,x',r),其中(x0,u0,x0',r0)表示时间步为0对应的样本,x0表示时间步为0时的状态,u0表示时间步为0时的动作,x0'表示状态x0执行动作u0后得到的下一个状态,r0表示状态x0执行动作u0后得到的立即奖赏,(x1,u1,x1',r1)表示时间步为1对应的样本,x1表示时间步为1时的状态,u1表示时间步为1时的动作,x1'表示状态x1执行动作u1后得到的下一个状态,r1表示状态x1执行动作u1后得到的立即奖赏;
步骤10)、更新当前状态:x=x';
步骤11)、判断当前情节是否结束:如果结束,转入步骤12),否则转入步骤4);
步骤12)、利用当前采样路径更新轨迹池:将当前采样轨迹(x0,u0,x0',r0),(x1,u1,x1',r1),...,(xn,un,xn',rn)加入到轨迹池D中,(xn,un,xn',rn)表示时间步为n对应的样本,xn表示时间步为n时的状态,un表示时间步为n时的动作,xn'表示状态xn执行动作un后得到的下一个状态,rn表示状态xn执行动作un后得到的立即奖赏;
步骤13)、利用重构采样轨迹更新轨迹池:利用当前采样轨迹构建模拟轨迹(x0,u0,x0,p',r0,p),(xo,p,u1,x1,p',r1,p),...,(xn-1,p,un,xn,p',rn,p),并重构该轨迹,其中(x0,u0,x0,p',r0,p)表示时间步为0对应的模拟样本,x0,p'表示状态x0执行动作u0后根据模型得到的下一个状态,r0,p表示状态x0执行动作u0后得到的立即奖赏,(xo,p,u1,x1,p',r1,p)表示时间步为1对应的模拟样本,x0,p表示时间步为1对应的模拟状态,x1,p'表示状态x0,p执行动作u1后根据模型得到的下一个状态,r1,p表示状态x0,p执行动作u1后得到的立即奖赏,(xn-1,p,un,xn,p',rn,p)表示时间步为n对应的模拟样本,xn-1,p表示时间步为n对应的模拟状态,xn,p'表示状态xn-1,p执行动作un后根据模型得到的下一个状态,rn,p表示状态xn-1,p执行动作un后得到的立即奖赏,将重构的轨迹(x0,p',u1,x1,r1),(x1,p',u1,x2,r2),...,(xn-1,p',un,xn,rn)加入到轨迹池D中;
步骤14)、采用轨迹池中所有轨迹来更新模型;
步骤15)、采用模型进行规划;
步骤16)、判断是否达到最大情节数:如果达到,转入步骤17),否则转入步骤3)继续执行;
步骤17)、根据学习到的最优策略来获取清洁机器人规划的最优路径。
2.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(6)中的状态迁移函数和奖赏函数的近似公式为xt+1=φT(xt,utt和rt+1=φT(xt,utt,其中,xt表示时间步为t时的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为:α是模型即状态迁移函数和奖赏函数的学习率,为根据模型的状态迁移函数得到的下一状态估计值,为根据模型的奖赏函数得到的奖赏估计值。
3.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(7)中的值函数的近似公式为:采用梯度下降法进行更新,其参数向量为: 表示状态x对应的特征函数,α1为值函数的学习率。
4.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(8)中的策略的近似公式为:采用梯度下降法进行更新,其参数向量为: 表示状态x对应的特征函数,α2为策略的学习率,V(xt)为状态xt对应的值函数。
5.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(13)中的模拟轨迹即获取真实轨迹的初始状态和实际发生的动作序列,并利用学习的模型xt+1=φT(xt,utt和rt+1=φT(xt,utt来对下一个状态和奖赏进行预测,递归进行预测后将生成整个模拟的采样序列,其中φ为采用高斯函数表示的状态动作对的特征,xt表示时间步为t时的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,θt为模型中状态迁移函数的参数向量,υt表示模型中奖赏函数的参数向量。
6.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(14)中基于轨迹池的模型更新方式为:对于轨迹池中的所有轨迹,以及轨迹中的每个样本,采用单步的预测误差作为梯度信号,得到参数向量的更新公式为:xt表示时间步t对应的状态,ut表示时间步为t时的动作,φT表示状态动作的特征函数的转置,α是模型即状态迁移函数和奖赏函数的学习率,xt+1为下一状态的真实值,为根据模型的状态迁移函数得到的下一状态估计值;rt+1表示立即奖赏的真实值,为根据模型的奖赏函数得到的奖赏估计值。
7.根据权利要求1所述的基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,步骤(15)是在一定的规划次数下,迭代地利用模型xt+1=φT(xt,utt和rt+1=φT(xt,utt生成下一个状态和奖赏,并利用下一个状态和奖赏来更新值函数参数向量和策略参数向量和ζt+1=ζt2(r+γV(xt+1)-V(xt))(u-u*)T(xt),其中,为高斯函数表示的状态特征,xt+1为下一状态的真实值,φT表示状态动作的特征函数的转置,表示状态x对应的特征函数,xt表示时间步t对应的状态,ut表示时间步为t时的动作,θt为模型中状态迁移函数的参数向量,V(xt)状态xt对应的值函数,υt表示模型中奖赏函数的参数向量, 表示状态xt的特征,α1为值函数的学习率,α2为策略的学习率,rt+1=φT(xt,utt表示立即奖赏的估计表达式。
CN201810385471.7A 2018-04-26 2018-04-26 基于近似模型多步优化的清洁机器人最优路径规划方法 Active CN108762249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810385471.7A CN108762249B (zh) 2018-04-26 2018-04-26 基于近似模型多步优化的清洁机器人最优路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810385471.7A CN108762249B (zh) 2018-04-26 2018-04-26 基于近似模型多步优化的清洁机器人最优路径规划方法

Publications (2)

Publication Number Publication Date
CN108762249A CN108762249A (zh) 2018-11-06
CN108762249B true CN108762249B (zh) 2019-11-08

Family

ID=64011869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810385471.7A Active CN108762249B (zh) 2018-04-26 2018-04-26 基于近似模型多步优化的清洁机器人最优路径规划方法

Country Status (1)

Country Link
CN (1) CN108762249B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240091B (zh) * 2018-11-13 2020-08-11 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN110378439B (zh) * 2019-08-09 2021-03-30 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110941268B (zh) * 2019-11-20 2022-09-02 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN112101556B (zh) * 2020-08-25 2021-08-10 清华大学 识别与去除环境观测量中冗余信息的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799179B (zh) * 2012-07-06 2014-12-31 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102819264B (zh) * 2012-07-30 2015-01-21 山东大学 移动机器人路径规划q学习初始化方法
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
US8996177B2 (en) * 2013-03-15 2015-03-31 Brain Corporation Robotic training apparatus and methods
CN105137967B (zh) * 2015-07-16 2018-01-19 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105740644B (zh) * 2016-03-24 2018-04-13 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN105690392B (zh) * 2016-04-14 2017-11-28 苏州大学 基于行动者‑评论家方法的机器人运动控制方法和装置
CN106094817B (zh) * 2016-06-14 2018-12-11 华南理工大学 基于大数据方式的强化学习仿人机器人步态规划方法
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法
CN107748566B (zh) * 2017-09-20 2020-04-24 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法

Also Published As

Publication number Publication date
CN108762249A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108762249B (zh) 基于近似模型多步优化的清洁机器人最优路径规划方法
Grisetti et al. Improving grid-based slam with rao-blackwellized particle filters by adaptive proposals and selective resampling
Hejna III et al. Few-shot preference learning for human-in-the-loop rl
CN108115681A (zh) 机器人的模仿学习方法、装置、机器人及存储介质
CN104408760A (zh) 一种基于双目视觉的高精度虚拟装配系统算法
Morris et al. Multiple map hypotheses for planning and navigating in non-stationary environments
Tastan et al. Learning to intercept opponents in first person shooter games
Lee et al. Monte-carlo tree search in continuous action spaces with value gradients
EP3656513A1 (en) Method and system for predicting a motion trajectory of a robot moving between a given pair of robotic locations
CN114460943A (zh) 服务机器人自适应目标导航方法及系统
CN110111359A (zh) 多目标对象跟踪方法、执行该方法的设备和计算机程序
Wahid et al. Learning object-conditioned exploration using distributed soft actor critic
Puig et al. Nopa: Neurally-guided online probabilistic assistance for building socially intelligent home assistants
Stahlke et al. Usertesting without the user: Opportunities and challenges of an ai-driven approach in games user research
CN112180916A (zh) 一种适应复杂环境的家庭服务机器人智能导航算法
Gupta et al. Predicting motion plans for articulating everyday objects
Riccio et al. LoOP: Iterative learning for optimistic planning on robots
Loiterton et al. Simulation, calibration and validation of recreational agents in an urban park environment
CN113139024A (zh) 面向maddpg多智能体强化学习模型的可视分析方法
Aish et al. Ex silico ad vivo: computational simulation and urban design at Foster+ partners
CN112017265A (zh) 一种基于图神经网络的虚拟人运动仿真方法
Li et al. Improving interactive reinforcement agent planning with human demonstration
Mellmann et al. Advances on simulation based selection of actions for a humanoid soccer-robot
Liang et al. Low-cost data-driven estimation of indoor occupancy based on carbon dioxide (CO2) concentration: A multi-scenario case study
Pong Goal-Directed Exploration and Skill Reuse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant