CN110941268A - 一种基于Sarsa安全模型的无人自动小车的控制方法 - Google Patents

一种基于Sarsa安全模型的无人自动小车的控制方法 Download PDF

Info

Publication number
CN110941268A
CN110941268A CN201911139128.5A CN201911139128A CN110941268A CN 110941268 A CN110941268 A CN 110941268A CN 201911139128 A CN201911139128 A CN 201911139128A CN 110941268 A CN110941268 A CN 110941268A
Authority
CN
China
Prior art keywords
action
state
unmanned automatic
sarsa
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911139128.5A
Other languages
English (en)
Other versions
CN110941268B (zh
Inventor
朱斐
葛洋洋
凌兴宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201911139128.5A priority Critical patent/CN110941268B/zh
Publication of CN110941268A publication Critical patent/CN110941268A/zh
Application granted granted Critical
Publication of CN110941268B publication Critical patent/CN110941268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于Sarsa安全模型的无人自动小车的控制方法,包括如下步骤:初始化,选择初始状态和初始动作;将初始状态置为当前状态,将初始动作置为当前动作;执行当前动作,无人自动小车进入下一状态并获得回报值;对约束函数进行线性处理;用拉格朗日乘数法求解无人自动小车处于下一状态时可执行的下一安全最优动作;完成Q值函数、状态空间和动作空间的更新。本发明将多维约束进行线性化,可以保证状态‑动作值函数和约束函数可求导,并且避免在求解过程中无人自动小车无法获得最佳动作,然后采用拉格朗日乘数法进行求解,提高了无人自动小车在当前状态下选择安全最优动作的效率和精确度。

Description

一种基于Sarsa安全模型的无人自动小车的控制方法
技术领域
本发明涉及人工智能及控制技术领域,具体涉及一种基于Sars a安全模型的无人自动小车的控制方法。
背景技术
无人自动小车可以应用于工厂中重物的搬运、餐厅送菜以及解决快递最后一公里的配送问题等。无人自动小车在工厂中可以用于搬运危险易碎、重量或体积较大的物品,这不仅可以提高工厂的运作效率,也减轻了员工的劳动强度。无人自动小车在餐厅送菜和快递配送行业中的应用可以降低工作人员的工作强度,提高作业的效率,提高客户的满意度。然而实际应用中对无人自动小车在复杂任务场景中的安全要求越来越高。在实际应用中,无人自动小车需要躲避出现在任务路径上的障碍物。如何保证无人自动小车在完成复杂环境中任务的同时,合理规避路径上的障碍物以及突然出现的障碍物是问题研究的重点。
强化学习是智能体通过与环境进行交互,获得最大化的回报值及完成其他特定目标的一种方法。随着对强化学习的不断研究,强化学习逐渐应用在自动控制领域并取得了一定的成果,然而在基于强化学习的无人自动小车的应用中,保证无人自动小车的安全是一个关键问题。安全强化学习方法(safe reinforcement learning,简称SRL)是在强化学习方法的基础上进行设计的,可以用来解决无人自动小车的安全问题,该方法在无人自动小车学习决策的过程中最大化相关问题的期望回报值,并在无人自动小车的整个学习或调度的过程中确保合理的系统性能及满足安全约束。现有的安全强化学习方法在前期探索阶段需要无人自动小车不断的进入危险状态进行“试错式学习”,或者需要收集大量额外的环境信息以及专家指导。这不仅增加了无人自动小车的学习成本,并且在实际应用中,无人自动小车的很多损害是不可逆的,以往的方法没有彻底解决无人自动小车的安全问题,且表现难以令人满意。
发明内容
本发明的目的是提供一种基于Sarsa安全模型的无人自动小车的控制方法,可以确保无人自动小车在移动过程中躲避障碍物。
为实现上述发明目的,本发明提供以下的技术方案:一种基于Sarsa安全模型的无人自动小车的控制方法,包括如下步骤:
S1、初始化状态-动作值函数Q(x,u),其中,
Figure BDA0002280416260000022
u∈U(x),获取步长α、回报值R、折扣因子γ、策略参数ε、权重参数β,初始化状态空间X和动作空间U,选择初始状态和初始动作;
S2将初始状态置为当前状态x,将初始动作置为当前动作u;
S3、执行当前动作u,无人自动小车进入下一状态x并获得回报值R;
S4、对约束函数
Figure BDA0002280416260000021
进行线性处理;
S5、用拉格朗日乘数法求解无人自动小车处于下一状态x′时可执行的下一安全最优动作u*
S6、完成Q值函数、状态空间X和动作空间U的更新;
S7、判断下状态是否为目标状态,如是,则结束本次控制,如否,则进入步骤S8;
S8、将下一状态x置为当前状态x,将下一安全最优动作u*置为当前动作u,回到步骤S3。
进一步的,Sarsa安全模型满足如下公式:
x′=f(x,u),表示无人自动小车处于当前状态x执行动作u后进入下一状态x′的概率。
进一步的,Sarsa安全模型满足如下公式:
Figure BDA0002280416260000031
表示下一状态x′是否满足安全约束,可以由当前状态x和执行的当前动作u决定,即下一状态x是安全的是因为无人自动小车所处的当前状态x是安全的,当前动作u是安全动作;
符号
Figure BDA0002280416260000032
指符号左边的内容被定义为右边的内容。
进一步的,采用如下公式对约束函数进行线性处理:
Figure BDA0002280416260000033
其中,符号≈表示左边由右边近似得到;
下标t表示无人自动小车运动的时间;
上标T表示对向量或矩阵做转置运算;
g(xt;ωi)表示以xt作为输入,输出和ut有相同维数的一个向量。
进一步的,采用如下公式计算ωi
Figure BDA0002280416260000034
D={(xt,ut,x′t)},表示集合D由三元组(xt,ut,x′t)组成,表示智能体在当前状态xt,执行当前动作ut进入下一状态xt,目标函数的最优解在集合D中找到。
进一步的,Sarsa安全模型满足如下条件:
Figure BDA0002280416260000041
Figure BDA0002280416260000042
其中:
Figure BDA0002280416260000043
为目标函数;
Figure BDA0002280416260000044
为约束函数;
S.t.表示满足,即目标函数在优化的过程中满足约束函数;
下标t和t+1表示无人自动小车运动的时间;
i表示第i个约束;
Ci为一个常量值。
进一步的,采用如下公式计算下一安全最优动作:
Figure BDA0002280416260000045
其中,满足
Figure BDA0002280416260000046
的当前状态xt和当前动作ut是局部最优解,该局部最优解用梯度下降法求得,局部最优解是全局最优解;
λi是拉格朗日不定乘子,代表约束函数变化时,目标函数的变动。
由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明公开的基于Sarsa安全模型的无人自动小车的控制方法,目的在于克服现有安全强化学习方法的不足,提供一种更智能、更精确的安全强化学习方法,并将该方法应用在无人自动小车的障碍规避问题上。安全Sarsa方法是在Sarsa方法的基础上进行设计的,Sarsa方法是基于马尔可夫决策过程的一种强化学习方法。无人自动小车用安全Sarsa方法求解在当前状态下可以执行的最优动作的过程中不仅要得到最大的状态-动作值,同时也要满足安全约束的要求,从而获得安全的最优动作,避免碰到障碍物进入危险状态而遭受危害。为求解得到无人自动小车的安全最优动作,本发明将多维约束进行线性化,可以保证状态-动作值函数和约束函数可求导,并且避免在求解过程中无人自动小车无法获得最佳动作,然后采用拉格朗日乘数法进行求解,提高了无人自动小车在当前状态下选择安全最优动作的效率和精确度。
附图说明
图1为本发明中控制方法的示意图;
图2为本发明中的无人自动小车运行示意图。
具体实施方式
下面结合本发明的原理、附图以及实施例对本发明进一步描述。
参见图1和图2,如其中的图例所示,图2中,自动小车1沿路径运行,需要躲避静态障碍物2、躲避行人3、躲避向任意方向运动的动态障碍物4,基于Sarsa安全模型的无人自动小车的控制方法包括如下步骤:
S1、初始化状态-动作值函数Q(x,u),其中,
Figure BDA0002280416260000051
u∈U(x),获取步长α、回报值R、折扣因子γ、策略参数ε、权重参数β,初始化状态空间X和动作空间U,选择初始状态和初始动作;
S2将初始状态置为当前状态x,将初始动作置为当前动作u;
S3、执行当前动作u,无人自动小车进入下一状态x并获得回报值R;
S4、对约束函数
Figure BDA0002280416260000052
进行线性处理;
S5、用拉格朗日乘数法求解无人自动小车处于下一状态x′时可执行的下一安全最优动作u*
S6、完成Q值函数、状态空间X和动作空间U的更新;
S7、判断下状态是否为目标状态,如是,则结束本次控制,如否,则进入步骤S8;
S8、将下一状态x置为当前状态x,将下一安全最优动作u*置为当前动作u,回到步骤S3。
本实施例中优选的实施方式,Sarsa安全模型满足如下公式:
x′=f(x,u),表示无人自动小车处于当前状态x执行动作u后进入下一状态x′的概率。
本实施例中优选的实施方式,Sarsa安全模型满足如下公式:
Figure BDA0002280416260000061
表示下一状态x′是否满足安全约束,可以由当前状态x和执行的当前动作u决定,即下一状态x′是安全的是因为无人自动小车所处的当前状态x是安全的,当前动作u是安全动作;
符号
Figure BDA0002280416260000062
脂符号左边的内容被定义为右边的内容。
本实施例中优选的实施方式,采用如下公式对约束函数进行线性处理:
Figure BDA0002280416260000063
其中,符号≈表示左边由右边近似得到;
下标t表示无人自动小车运动的时间;
上标T表示对向量或矩阵做转置运算;
g(xt;ωi)表示以xt作为输入,输出和ut有相同维数的一个向量。
本实施例中优选的实施方式,采用如下公式计算ωi
Figure BDA0002280416260000071
Figure BDA0002280416260000072
表示集合D由三元组(xt,ut,x′t)组成,表示智能体在当前状态xt,执行当前动作ut进入下一状态xt,目标函数的最优解在集合D中找到。
进一步的,Sarsa安全模型满足如下条件:
Figure BDA0002280416260000073
Figure BDA0002280416260000074
其中:
Figure BDA0002280416260000075
为目标函数;
Figure BDA0002280416260000076
为约束函数;
S.t.表示满足,即目标函数在优化的过程中满足约束函数;
下标t和t+1表示无人自动小车运动的时间;
i表示第i个约束;
Ci为一个常量值。
本实施例中优选的实施方式,采用如下公式计算下一安全最优动作:
Figure BDA0002280416260000081
其中,满足
Figure BDA0002280416260000082
的当前状态xt和当前动作ut是局部最优解,该局部最优解用梯度下降法求得,局部最优解是全局最优解;
λi是拉格朗日不定乘子,代表约束函数变化时,目标函数的变动。
具体的:安全Sarsa方法包括多个步骤,初始化状态-动作值Q(x,u),
Figure BDA0002280416260000083
u∈U(x)和获取步长α、回报值r、折扣因子γ、策略参数ε、权重参数β等环境信息;在外层循环执行时首先需要初始化状态空间X和动作空间U并选择初始安全动作u;内层循环的每个时间步内需要细分步骤,首先执行动作u,无人自动小车进入下一状态x’并获得回报值r,然后对约束函数进行线性近似处理,再用拉格朗日乘数法求解无人自动小车处于状态x’时可执行的安全最优动作u*,最后完成Q值函数、状态和动作的更新。详细步骤如下:
步骤一:初始化环境信息
初始化状态-动作值函数Q(x,u),
Figure BDA0002280416260000084
u∈U(x)和获取步长α、回报值r、折扣因子γ、策略参数ε、权重参数β等环境信息,为无人自动小车在环境中进行探索学习和状态-动作值Q(x,u)的迭代做好准备。
步骤二:外层循环开始前的初始化操作
在该循环开始时首先需要初始化状态空间X和动作空间U并选择初始安全动作u。
步骤三:无人自动小车与环境交互,在受限的情况下进行学习并获得长期累积回报最大值
3.1.执行动作u,无人自动小车进入下一状态x’并获得回报值r
3.2.对约束函数进行线性近似处理
安全Sarsa方法是在Sarsa方法的基础上增加多维安全约束来保证无人自动小车的安全的,为了高效准确的求解无人自动小车每一步的安全最优动作,本发明提出用拉格朗日乘数法求解安全Sarsa方法,拉格朗日乘数法求解最优化问题的要求是目标函数和约束函数一阶连续可导,目标函数在时间连续的情况下是一阶连续可导的,但是约束函数在构造的过程中不一定可以保证一阶连续可导,解决方法是通过对约束函数线性化实现约束函数的可导性。由于无人自动小车的下一状态是由当前状态和当前采取的动作决定的,可得:
x′=f(x,u) (1)
Figure BDA0002280416260000091
上述公式(1)表示无人自动小车处于当前状态x执行动作u后进入下一状态x’的概率,公式(2)表示状态x’是否满足安全约束,可以由上一状态x和执行的动作u决定,即状态x’是安全的是因为智能体所处的上一状态是安全的,并执行了安全动作u。符号
Figure BDA0002280416260000092
指符号左边的内容被定义为右边的内容。在求解过程中,为使求解得到的结果是全局最优解,这就需要目标函数和约束函数是凸函数,根据Sarsa方法中状态-动作值函数的定义可知,目标函数是凸函数,但是约束函数可能不是凸函数,如果将约束函数进行线性近似,由于线性函数一定是凸函数,故由此得到的约束函数是凸函数。此时用安全Sarsa方法一定可以得到无人自动小车当前状态下的全局最优安全动作。对约束函数进行线性近似有:
Figure BDA0002280416260000101
上式中符号≈表示左边由右边近似得到,下标t表示无人自动小车运动的时间,上标T表示对向量或矩阵做转置运算。其中g(xt;ωi)以xt作为输入,输出和ut有相同维数的一个向量,而ωi可通过求解函数(4)得到:
Figure BDA0002280416260000102
上述公式中,集合D由三元组(xt,ut,xt’)组成,(xt,ut,xt’)表示智能体在当前状态xt,执行动作ut进入下一状态xt’,目标函数的最优解在集合D中找到。
3.3.用拉格朗日乘数法求解无人自动小车处于状态x’时可执行的安全最优动作u*
故对约束函数进行线性近似后可以得到如下的求解公式:
Figure BDA0002280416260000103
Figure BDA0002280416260000104
根据拉格朗日乘数法将上述求解公式转化为如下形式:
Figure BDA0002280416260000105
公式(6)中,满足
Figure BDA0002280416260000106
Figure BDA0002280416260000107
的当前状态xt和动作ut是局部最优解,该局部最优解用梯度下降法求得,当公式(6)为凸函数时,局部最优解是全局最优解。λi是拉格朗日不定乘子,代表约束函数变化时,目标函数的变动,由于最优解满足约束ci(xt,ut)-Ci=0,所以λi的取值不会影响最优化问题的求解。
3.4.完成Q值函数、状态和动作的更新,本次时间步执行结束。
安全Sarsa方法将约束函数线性化,使目标函数和约束函数转化为凸函数,所以,由拉格朗日乘数法求解得到的最优解是全局最优解。该方法使无人自动小车在运行过程中的动作满足约束条件,避免无人自动小车执行危险动作进入危险状态造成不必要的损害。安全Sarsa方法不仅可以应用在状态空间和动作空间是离散的情况下,也很好的解决了在状态空间和动作空间是连续情况下的问题求解。
所述状态为位置,所述动作为向某个方向移动,所述无人自动小车包括控制装置、转向驱动装置以及移动驱动装置,所述控制装置为所述Sarsa安全模型,所述转向驱动装置和所述移动驱动装置均为伺服电机。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,包括如下步骤:
S1、初始化状态-动作值函数Q(x,u),其中,
Figure FDA0002280416250000012
u∈U(x),获取步长α、回报值R、折扣因子γ、策略参数ε、权重参数β,初始化状态空间X和动作空间U,选择初始状态和初始动作;
S2 将初始状态置为当前状态x,将初始动作置为当前动作u;
S3、执行当前动作u,无人自动小车进入下一状态x′并获得回报值R;
S4、对约束函数
Figure FDA0002280416250000011
进行线性处理;
S5、用拉格朗日乘数法求解无人自动小车处于下一状态x′时可执行的下一安全最优动作u*
S6、完成Q值函数、状态空间X和动作空间U的更新;
S7、判断下状态是否为目标状态,如是,则结束本次控制,如否,则进入步骤S8;
S8、将下一状态x′置为当前状态x,将下一安全最优动作u*置为当前动作u,回到步骤S3。
2.如权利要求1所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,Sarsa安全模型满足如下公式:
x′=f(x,u),表示无人自动小车处于当前状态x执行动作u后进入下一状态x′的概率。
3.如权利要求1所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,Sarsa安全模型满足如下公式:
Figure FDA0002280416250000021
表示下一状态x′是否满足安全约束,可以由当前状态x和执行的当前动作u决定,即下一状态x′是安全的是因为无人自动小车所处的当前状态x是安全的,当前动作u是安全动作;
符号
Figure FDA0002280416250000023
指符号左边的内容被定义为右边的内容。
4.如权利要求1所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,采用如下公式对约束函数进行线性处理:
Figure FDA0002280416250000024
其中,符号≈表示左边由右边近似得到;
下标t表示无人自动小车运动的时间;
上标T表示对向量或矩阵做转置运算;
g(xt;ωi)表示以xt作为输入,输出和ut有相同维数的一个向量。
5.如权利要求4所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,采用如下公式计算ωi
Figure FDA0002280416250000025
D={(xt,ut,x′t)},表示集合D由三元组(xt,ut,x′t)组成,表示智能体在当前状态xt,执行当前动作ut进入下一状态x′t,目标函数的最优解在集合D中找到。
6.如权利要求4所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,Sarsa安全模型满足如下条件:
Figure FDA0002280416250000031
Figure FDA0002280416250000032
其中:
Figure FDA0002280416250000033
为目标函数;
Figure FDA0002280416250000034
为约束函数;
s.t.表示满足,即目标函数在优化的过程中满足约束函数;
下标t和t+1表示无人自动小车运动的时间;
i表示第i个约束;
Ci为一个常量值。
7.如权利要求6所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,采用如下公式计算下一安全最优动作:
Figure FDA0002280416250000035
其中,满足
Figure FDA0002280416250000036
的当前状态xt和当前动作ut是局部最优解,该局部最优解用梯度下降法求得,局部最优解是全局最优解;
λi是拉格朗日不定乘子,代表约束函数变化时,目标函数的变动。
8.如权利要求1所述的基于Sarsa安全模型的无人自动小车的控制方法,所述状态为位置,所述动作为向某个方向移动。
9.如权利要求1至8任一所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,所述无人自动小车包括控制装置、转向驱动装置以及移动驱动装置,所述控制装置为所述Sarsa安全模型。
10.如权利要求9所述的基于Sarsa安全模型的无人自动小车的控制方法,其特征在于,所述转向驱动装置和所述移动驱动装置均为伺服电机。
CN201911139128.5A 2019-11-20 2019-11-20 一种基于Sarsa安全模型的无人自动小车的控制方法 Active CN110941268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911139128.5A CN110941268B (zh) 2019-11-20 2019-11-20 一种基于Sarsa安全模型的无人自动小车的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911139128.5A CN110941268B (zh) 2019-11-20 2019-11-20 一种基于Sarsa安全模型的无人自动小车的控制方法

Publications (2)

Publication Number Publication Date
CN110941268A true CN110941268A (zh) 2020-03-31
CN110941268B CN110941268B (zh) 2022-09-02

Family

ID=69907094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911139128.5A Active CN110941268B (zh) 2019-11-20 2019-11-20 一种基于Sarsa安全模型的无人自动小车的控制方法

Country Status (1)

Country Link
CN (1) CN110941268B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN107066558A (zh) * 2017-03-28 2017-08-18 北京百度网讯科技有限公司 基于人工智能的引导项推荐方法及装置、设备与可读介质
CN108418800A (zh) * 2018-02-01 2018-08-17 国网江苏省电力有限公司苏州供电分公司 基于资格迹和在线更新式的电力信息系统安全策略系统
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN109491494A (zh) * 2018-11-26 2019-03-19 北京地平线机器人技术研发有限公司 功率参数的调整方法、装置及强化学习模型训练方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110083165A (zh) * 2019-05-21 2019-08-02 大连大学 一种机器人在复杂狭窄环境下路径规划方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN107066558A (zh) * 2017-03-28 2017-08-18 北京百度网讯科技有限公司 基于人工智能的引导项推荐方法及装置、设备与可读介质
CN108418800A (zh) * 2018-02-01 2018-08-17 国网江苏省电力有限公司苏州供电分公司 基于资格迹和在线更新式的电力信息系统安全策略系统
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN109491494A (zh) * 2018-11-26 2019-03-19 北京地平线机器人技术研发有限公司 功率参数的调整方法、装置及强化学习模型训练方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110083165A (zh) * 2019-05-21 2019-08-02 大连大学 一种机器人在复杂狭窄环境下路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
钟珊 等: "一种近似模型表示的启发式Dyna优化算法", 《计算机研究与发展》 *
陈建平 等: "基于值函数迁移的启发式Sarsa算法", 《通信学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN111896006B (zh) * 2020-08-11 2022-10-04 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115202341B (zh) * 2022-06-16 2023-11-03 同济大学 一种自动驾驶车辆横向运动控制方法及系统

Also Published As

Publication number Publication date
CN110941268B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
JP6610915B2 (ja) 車両を制御するコントローラー及び方法並びに非一時的コンピューター可読メモリ
Kroemer et al. Towards learning hierarchical skills for multi-phase manipulation tasks
CN113498523B (zh) 用于控制机器对象的操作的装置和方法以及存储介质
Huq et al. Mobile robot navigation using motor schema and fuzzy context dependent behavior modulation
CN111665853B (zh) 一种面向规划控制联合优化的无人车辆运动规划方法
CN110941268B (zh) 一种基于Sarsa安全模型的无人自动小车的控制方法
Qi et al. Towards latent space based manipulation of elastic rods using autoencoder models and robust centerline extractions
CN104880707B (zh) 一种基于自适应转移概率矩阵的交互多模型跟踪方法
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
Saviolo et al. Learning quadrotor dynamics for precise, safe, and agile flight control
Lavrenov et al. Modified spline-based navigation: guaranteed safety for obstacle avoidance
Pan et al. Sample efficient path integral control under uncertainty
Al Dabooni et al. Heuristic dynamic programming for mobile robot path planning based on Dyna approach
McKinnon et al. Learning probabilistic models for safe predictive control in unknown environments
Ahmed et al. Space deformation based path planning for Mobile Robots
Okuyama et al. Minimum-time trajectory planning for a differential drive mobile robot considering non-slipping constraints
CN114193443A (zh) 用于控制机器人设备的设备和方法
CN117388870A (zh) 应用于激光雷达感知模型的真值生成方法、装置及介质
Lampton et al. Reinforcement learning of morphing airfoils with aerodynamic and structural effects
US11163273B2 (en) Active set based interior point optimization method for predictive control
Das Sharma et al. Experimental study II: Vision-based navigation of mobile robots
Afzali et al. A Modified Convergence DDPG Algorithm for Robotic Manipulation
Hong et al. Dynamics-aware metric embedding: Metric learning in a latent space for visual planning
Leca et al. Sensor-based algorithm for collision-free avoidance of mobile robots in complex dynamic environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant