CN108762281A - 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 - Google Patents

一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 Download PDF

Info

Publication number
CN108762281A
CN108762281A CN201810589927.1A CN201810589927A CN108762281A CN 108762281 A CN108762281 A CN 108762281A CN 201810589927 A CN201810589927 A CN 201810589927A CN 108762281 A CN108762281 A CN 108762281A
Authority
CN
China
Prior art keywords
auv
angle
state
decision
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810589927.1A
Other languages
English (en)
Inventor
王卓
胡磊
冯晓宁
姚淑香
隋炎橙
徐沈方
张佩
张士伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201810589927.1A priority Critical patent/CN108762281A/zh
Publication of CN108762281A publication Critical patent/CN108762281A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles

Abstract

本发明提出一种基于记忆关联强化学习的实时水下机器人智能决策方法,属于算法技术领域,具体为一种基于RBF神经网络和Q学习结合的水下机器人路径规划智能决策方法。通过Q学习的自主学习能力和RBF神经网络的函数逼近能力,可实现水下机器人在路径探索过程中逐步学习的功能。首先定义针对于路径规划的Q学习四元组,分别为:环境状态,行为动作,及时得分,状态转移,探索过程中逐步更新状态‑动作值函数Q(s,a)进行学习;然后利用RBF神经网络拟合Q学习的结果,即状态动作值函数;最后更新完成的神经网络权值即为学习的结果,此神经网络提供了环境状态到行为的映射关系,可用于未知环境下的智能决策。

Description

一种基于记忆关联强化学习的嵌入式实时水下机器人智能决 策方法
技术领域
本发明涉及一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,具体说是一种基于RBF神经网络和Q学习结合的水下机器人路径规划的智能决策方法,属于算法领域。
背景技术
水下机器人具有无碰撞规划的能力是顺利执行任务的一个先决条件,路径规划任务就是搜索一条从起始位置到目标位置的无碰撞路径,同时优化性能指标如距离,时间或能耗,其中距离是最常采用的标准。根据机器人所具有的先验信息的多少,可将路径规划方法划分为全局和局部两种算法,其中局部的路径规划可以通过传感器在线探测机器人的工作环境信息,根据每一时刻的环境信息,来进行此时刻AUV的行为决策。全局路径规划是根据已知的全部环境信息来进行最优路径的搜索。全局路径规划方法有可视图法,自由空间法,栅格法等。局部路径规划方法常用的有人工势场法,遗传算法,神经网络法,模糊逻辑方法等。
目前,模糊逻辑、人工势场法、遗传算法、随机树、神经网络等都是较为成功有效的机器人路径规划方法,但这些方法通常需要假设完整的环境配置信息,然而,在大量的实际应用中需要智能体具有适应不确定性环境的能力。强化学习(ReinforcementLearning,RL)方法通过智能体与未知环境交互,并尝试动作选择使累积回报最大,该方法通常运用马尔可夫决策过程(MDP)进行环境建模,通常MDP模型主要针对理想情况下的单智能体系统。另外智能体环境状态的不确定性也可由部分可观测马尔可夫决策过程进行描述。强化学习算法通过智能体与环境的交互进行学习并优化控制参数,在先验信息较少的复杂优化决策问题中具有广阔的应用前景。
发明内容
本发明提供了一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,此模型经过大量的训练后,最终可建立环境状态与行为动作的最优映射关系,训练好的模型可用于水下机器人在未知环境下的智能决策。
本发明提供的方法通过以下步骤实现:
1.AUV在起点由声纳感知环境状态s;
2.感知当前环境状态,根据策略(开始为随机选择)选择一个AUV转角行为(a);
3.执行该转角动作(a),得到奖励(r),状态转移到s_;
4.将获得的(s,a,r,s_)样本存储到样本池中,并判断样本池中的样本个数是否达到规定数目100:达到,样本中随机抽取30个样本作为神经元中心ci,初始化神经网络,转到步骤5,以后将不再执行次步骤;未达到,转到步骤2;
5.在样本池中随机抽取60个样本,将s作为网络输入,得到以a为动作的Q(st,at),得到所有动作的Q(st+1,at+1)值;
6.根据公式计算出Q值对应的target_Q值:使用Q和target_Q训练网络,表达式如下:
7.判断s_是否终止点:是终止点,回到步骤1;非终止点,则当前状态更新为s_,返回到步骤2。
8.训练结束,获得训练好的决策神经网络。
本发明提供的方法的优势在于:在本发明提供的方法的作用下,水下机器人可以实时的避开周围障碍物,并规划出从起点到终点的一条最短路径。
附图说明
图1是强化学习的基本原理图;
图2是本发明提出的基于神经网络和Q学习结合的水下机器人智能决策方法示意图;
图3是本发明中AUV在时间和空间运动示意图;
图4是神经网络结构示意图。
具体实施方式
下面结合附图对本发明做进一步说明:
图1为强化学习的基本原理图,强化学习算法是一种可以与环境进行交互的在线学习算法,分为训练阶段和执行阶段,在训练阶段,Agent处于某一环境状态中,在此环境状态下执行某个动作,状态发生转移,同时获得即时的得分,此得分表示对于执行此动作好坏的一种评价。并将此得分以Q值的方式存储起来,重复以上状态转移的过程,Agent可在与环境的交互中学得有利于自身即得分大的行为,从而避免不利行为的发生。
图2为本发明结合神经网络和强化学习算法来实现水下机器人的智能决策算法,具体设计如下:
1.基本问题描述
如图3所示,路径规划的环境设置为二维平面,建立环境地图的全局坐标系O-XY。当AUV获取需要的周围环境信息后,这些信息包括目标点的位置,AUV的位置速度大小和艏向角,以及障碍物位置信息。在这里,u为AUV的速度大小,ct为艏向角,(xt,yt)为t时刻的位置坐标,Dt为时间间隔,AUV的决策输出包括速度和艏向角。假设(fx,fy)为下一时刻AUV的位置坐标,可以表示为下式:
fx=xt+u×cos(ct) (1)
fy=yt+u×sin(ct) (2)
2.基于强化学习的AUV智能决策方法
强化学习算法是一种可以与环境进行交互的在线学习算法,其基于马尔科夫过程(MDP)来进行决策,马尔科夫五元组由(S,A,T,R,V)来表示,S表示状态空间的集合,A表示动作空间的集合,T表示状态转移函数,R表示S状态下采取动作A的回报函数,V为决策目标函数。强化学习基于此马尔科夫四元组期望得到最优的策略Π。Π表示,在任意的状态s下,Agent采取某个动作a,可以使得期望总回报值最大,也就是决策目标V最大。
(1)马尔科夫五元组的定义
对于水下机器人智能决策问题来说,状态s代表任意时刻水下机器人感受到周围环境信息,此信息包括周围障碍物的方向和距离以及此刻艏向角和目标点的夹角信息。具体表现为声纳在7个方向上探测的障碍物距离信息加上此刻AUV艏向角和目标位置的夹角tr,7个方向分别为:以艏向方向为基础的0°,30°,60°,90°,-30°,-60°,-90°。同时将感知到的距离信息进行量化处理,声纳最远可探测距离为5,障碍物距离AUV的距离为d,di为声纳第i个方向的量化结果,量化规则如下:
tr为艏向角和目标点夹角,量化规则为:
动作A表示水下机器人不同的转角和速度信息。为简化问题,动作设为AUV定速下的转角运动,转向角分别为0°,10°,20°,30°,-10°,-20°,-30°。行为选择策略定义如下:随机选择概率ε=0.1,每次选择动作前产生随机数rand,则
回报函数R表示水下机器人在某一状态s1采取动作a1后,进而状态转移到s2,AUV所获得的即时回报值r。本专利采用以下简单的方法定义强化信号,在每一步均能对权值进行修正,且计算简单。设某时刻水下机器人到障碍物的最小距离为mind,水下机器人t时刻到目标的距离为d1,前一时刻到目标的距离为d0,ds为设定的安全域值,则评价规则r如下确定:
目标函数V指的是初始状态s0下执行相应策略π得到的折扣累计回报,rt为t时刻即使评价值(策略π表示在任意状态s下,得到的某一动作a),公式如下:
其中γ为折扣值,一般取为0.9。
本发明选用强化学习中的Q_learning算法,这是一种与模型无关的强化学习算法,每次通过在环境中采样的方式进行学习,采用状态动作对Q(s,a)作为估计函数,Q(s,a)表示在任意状态s下,采取任意动作a,并且状态持续转移下去,总的期望得分。Q学习迭代时,智能体需要在迭代时考虑每一个状态动作对的值。Q算法的更新方式如下:
其中maxQ(st+1,a)为在St+1状态下可获得的最大Q值,rt+1为即时得分。α为学习率。
(2)利用强化学习实现AUV决策的作用方式
水下机器人与环境交互学习的过程为:在初始环境状态下s0下,采取动作a0,状态转移到s1,同时获得即时回报r0,在s1状态下,采取某一动作a1,状态转移到s2,获得即时回报r1,将产生的样本(st,a,r,st+1)先存储到记忆池中,记忆池可以设计为一个矩阵,维持记忆池容量为某个值N,若样本数量多于记忆池容量N,则将最先进入记忆池中的样本剔除,加入新产生的样本。此过程持续进行下去,直到达到目标状态为止,转而水下机器人再次回到起始点,重复以上过程继续学习。将每一步产生的即时得分r进行折扣累加和,即时回报的折扣累计和作为Q(s,a)的期望回报值,本专利由上面递推公式得到折扣累计和作为Q(s,a)。通过强化学习,最终可以得到一个关于所有(状态-动作)对的Q值得分表,也就是期望回报值。强化学习算法的学习过程就是更新此Q值表的过程。学习结束后,任意状态下最大Q值所对应的动作,即为最优动作。
3.神经网络拟合Q值表
对于水下机器人智能决策问题来说,由于状态空间较大,会造成状态组合爆炸的问题,基于查表法的更新方式不再满足任务要求,本专利引入RBF神经网络代替Q值表,做值函数的近似。RBF网络能够逼近任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,具体做法如下:
根据图4建立RBF神经网络,RBF网络使用径向基函数作为隐层神经元的的激活函数,输出层则是对隐层神经元输出的线性组合,本专利的径向基函数采用常用的高斯径向基函数其中x为神经网络输入向量,xi为隐层第i个神经元所对应的中心,每个隐层中心都在记忆池中采取随机抽样来确定,βi由反向传播算法来更新。神经网络的输入为经过量化后的环境状态s,输入层m有8个神经元,输出层为每个动作对应的Q值,输出层有7个神经元,隐含层p有30个神经元,以此神经网络去拟合上述所说的Q值表,这样,基于神经网络的强化学习可以处理大规模,复杂,连续状态空间的任务,并且由较强的泛化能力。可以减小计算量和存储空间的开销。AUV通过与环境交互获得的得分信息,作为神经网络的学习内容,来更新网络的权值。训练结束后,神经网络权值就存储了学到的知识,神经网络就可以作为环境状态与AUV转角动作的映射关系。
4.算法流程如下:
1.AUV在起点由声纳感知环境状态s;
2.感知当前环境状态,根据策略(开始为随机选择)选择一个AUV转角行为(a);
3.执行该转角动作(a),得到奖励(r),状态转移到s_;
4.将获得的(s,a,r,s_)样本存储到样本池中,并判断样本池中的样本个数是否达到规定数目100:达到,样本中随机抽取30个样本作为神经元中心ci,初始化神经网络,转到步骤5,以后将不再执行次步骤;未达到,转到步骤2;
5.在样本池中随机抽取60个样本,将s作为网络输入,得到以a为动作的Q(st,at),得到所有动作的Q(st+1,at+1)值;
6.根据公式计算出Q值对应的target_Q值:使用Q和target_Q训练网络,表达式如下:
7.判断s_是否终止点:是终止点,回到步骤1;非终止点,则当前状态更新为s_,返回到步骤2。
8.训练结束,获得训练好的决策神经网络。
通过在环境中的大量训练,AUV已获得了自主避障且趋近目标点的智能决策行为,当AUV在新的位置环境中执行任务时,通过此强化学习训练出的决策网络,仍可以顺利完成任务。

Claims (4)

1.一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,其特征在于:
(1)AUV在起点由声纳感知环境状态s;
(2)感知当前环境状态,根据策略(开始为随机选择)选择一个AUV转角行为(a);
(3)执行该转角动作(a),得到奖励(r),状态转移到s_;
(4)将获得的(s,a,r,s_)样本存储到样本池中,并判断样本池中的样本个数是否达到规定数目100:达到,样本中随机抽取30个样本作为神经元中心ci,初始化神经网络,转到步骤(5),以后将不再执行次步骤;未达到,转到步骤(2);
(5)在样本池中随机抽取60个样本,将s作为网络输入,得到以a为动作的Q(st,at),得到所有动作的Q(st+1,at+1)值;
(6)根据公式计算出Q值对应的target_Q值:使用Q和target_Q训练网络,表达式如下:
(7)判断s_是否终止点:是终止点,回到步骤(1);非终止点,则当前状态更新为s_,返回到步骤(2);
(8)训练结束,获得训练好的决策神经网络。
2.根据权利要求1所述的一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,其特征在于:所述的AUV在起点由声纳感知环境状态模型如下:路径规划的环境设置为二维平面,建立环境地图的全局坐标系O-XY,当AUV获取需要的周围环境信息后,这些信息包括目标点的位置,AUV的位置速度大小和艏向角,以及障碍物位置信息,u为AUV的速度大小,ct为艏向角,(xt,yt)为t时刻的位置坐标,Dt为时间间隔,AUV的决策输出包括速度和艏向角,假设(fx,fy)为下一时刻AUV的位置坐标,可以表示为下式:
fx=xt+u×cos(ct) (1)
fy=yt+u×sin(ct) (2)
3.根据权利要求1所述的一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,其特征在于:所述的环境状态s代表任意时刻水下机器人感受到周围环境信息,此信息包括周围障碍物的方向和距离以及此刻艏向角和目标点的夹角信息,具体表现为声纳在7个方向上探测的障碍物距离信息加上此刻AUV艏向角和目标位置的夹角tr,7个方向分别为:以艏向方向为基础的0°,30°,60°,90°,-30°,-60°,-90°,同时将感知到的距离信息进行量化处理,声纳最远可探测距离为5,障碍物距离AUV的距离为d,di为声纳第i个方向的量化结果,量化规则如下:
tr为艏向角和目标点夹角,量化规则为:
4.根据权利要求1所述的一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,其特征在于:所述的AUV转角行为的判断过程如下:动作设为AUV定速下的转角运动,转向角分别为0°,10°,20°,30°,-10°,-20°,-30°,行为选择策略定义如下:随机选择概率ε=0.1,每次选择动作前产生随机数rand,则
回报函数R表示水下机器人在某一状态s1采取动作a1后,进而状态转移到s2,AUV所获得的即时回报值r,采用以下简单的方法定义强化信号,在每一步均能对权值进行修正,设某时刻水下机器人到障碍物的最小距离为mind,水下机器人t时刻到目标的距离为d1,前一时刻到目标的距离为d0,ds为设定的安全域值,则评价规则r如下确定:
目标函数V指的是初始状态s0下执行相应策略π得到的折扣累计回报,rt为t时刻即使评价值(策略π表示在任意状态s下,得到的某一动作a),公式如下:
其中γ为折扣值,一般取为0.9。
CN201810589927.1A 2018-06-08 2018-06-08 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 Pending CN108762281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810589927.1A CN108762281A (zh) 2018-06-08 2018-06-08 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810589927.1A CN108762281A (zh) 2018-06-08 2018-06-08 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法

Publications (1)

Publication Number Publication Date
CN108762281A true CN108762281A (zh) 2018-11-06

Family

ID=63999628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810589927.1A Pending CN108762281A (zh) 2018-06-08 2018-06-08 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法

Country Status (1)

Country Link
CN (1) CN108762281A (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471446A (zh) * 2018-11-08 2019-03-15 淮阴师范学院 一种基于神经网络的全覆盖路径规划方法
CN109711040A (zh) * 2018-12-25 2019-05-03 南京天洑软件有限公司 一种基于搜索方向学习的智能工业设计强化学习算法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN109828463A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种海流干扰自适应波浪滑翔器艏向控制方法
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法
CN110618686A (zh) * 2019-10-30 2019-12-27 江苏科技大学 基于显式模型预测控制的无人船航迹控制方法
CN110703792A (zh) * 2019-11-07 2020-01-17 江苏科技大学 基于增强学习的水下机器人姿态控制方法
CN110738356A (zh) * 2019-09-20 2020-01-31 西北工业大学 一种基于sdn增强网络的电动汽车充电智能调度方法
CN110779132A (zh) * 2019-11-13 2020-02-11 垚控科技(上海)有限公司 一种基于强化学习的空调系统的水泵设备运行控制系统
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111240344A (zh) * 2020-02-11 2020-06-05 哈尔滨工程大学 一种基于双神经网络强化学习技术的自主水下机器人无模型控制方法
CN111290270A (zh) * 2020-02-11 2020-06-16 哈尔滨工程大学 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法
CN111337931A (zh) * 2020-03-19 2020-06-26 哈尔滨工程大学 一种auv目标搜索方法
CN111368633A (zh) * 2020-01-18 2020-07-03 中国海洋大学 一种基于auv的侧扫声呐图像识别方法
CN111645079A (zh) * 2020-08-04 2020-09-11 天津滨电电力工程有限公司 一种带电作业机器人机械臂路径规划控制装置及其方法
CN111882062A (zh) * 2020-07-24 2020-11-03 哈尔滨工业大学(威海) 一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
CN112149835A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 一种网络重构方法及装置
CN112215346A (zh) * 2020-10-20 2021-01-12 陈永聪 一种类人通用人工智能的实现方法
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112348285A (zh) * 2020-11-27 2021-02-09 中国科学院空天信息创新研究院 一种基于深度强化学习的动态环境下人群疏散模拟方法
CN112491712A (zh) * 2020-11-30 2021-03-12 复旦大学 一种基于多智能体深度强化学习的数据包路由算法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN113170001A (zh) * 2018-12-12 2021-07-23 西门子股份公司 适配在网关上执行的软件应用程序
CN113313249A (zh) * 2021-05-08 2021-08-27 华南理工大学 一种基于强化学习系统实现的动态集成训练方法
CN113515130A (zh) * 2021-08-26 2021-10-19 鲁东大学 用于智能体路径规划的方法和存储介质
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN113671834A (zh) * 2021-08-24 2021-11-19 郑州大学 一种机器人柔性行为决策方法及设备
CN114161419A (zh) * 2021-12-13 2022-03-11 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN114326734A (zh) * 2021-12-29 2022-04-12 中原动力智能机器人有限公司 一种路径规划方法及装置
CN114367988A (zh) * 2022-02-11 2022-04-19 煤炭科学研究总院有限公司 一种煤矿自主巡检平台上的机械臂运动规划方法和装置
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114995468A (zh) * 2022-06-06 2022-09-02 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249734A (ja) * 1998-03-03 1999-09-17 Mitsubishi Heavy Ind Ltd 自律誘導装置
WO2006122030A2 (en) * 2005-05-07 2006-11-16 Thaler Stephen L Device for the autonomous bootstrapping of useful information
JP2009223444A (ja) * 2008-03-13 2009-10-01 Sony Corp 情報処理装置および方法、並びにプログラム
CN104020770A (zh) * 2014-06-13 2014-09-03 哈尔滨工程大学 基于多项式的uuv空间轨迹规划方法
CN104571113A (zh) * 2015-01-20 2015-04-29 博康智能网络科技股份有限公司 移动机器人的路径规划方法
EP2990902A1 (en) * 2014-08-26 2016-03-02 CNH Industrial America LLC Method and system for controlling a vehicle to a moving point
CN106843225A (zh) * 2017-03-15 2017-06-13 宜宾学院 一种变电站巡检机器人路径规划系统
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
US20180011488A1 (en) * 2016-07-08 2018-01-11 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
CN107729953A (zh) * 2017-09-18 2018-02-23 清华大学 基于连续状态行为域强化学习的机器人羽状流追踪方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249734A (ja) * 1998-03-03 1999-09-17 Mitsubishi Heavy Ind Ltd 自律誘導装置
WO2006122030A2 (en) * 2005-05-07 2006-11-16 Thaler Stephen L Device for the autonomous bootstrapping of useful information
JP2009223444A (ja) * 2008-03-13 2009-10-01 Sony Corp 情報処理装置および方法、並びにプログラム
CN104020770A (zh) * 2014-06-13 2014-09-03 哈尔滨工程大学 基于多项式的uuv空间轨迹规划方法
EP2990902A1 (en) * 2014-08-26 2016-03-02 CNH Industrial America LLC Method and system for controlling a vehicle to a moving point
CN104571113A (zh) * 2015-01-20 2015-04-29 博康智能网络科技股份有限公司 移动机器人的路径规划方法
US20180011488A1 (en) * 2016-07-08 2018-01-11 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
CN106843225A (zh) * 2017-03-15 2017-06-13 宜宾学院 一种变电站巡检机器人路径规划系统
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107729953A (zh) * 2017-09-18 2018-02-23 清华大学 基于连续状态行为域强化学习的机器人羽状流追踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
NGO ANH VIEN 等: "Obstacle Avoidance Path Planning for Mobile Robot Based on Ant-Q Reinforcement Learning Algorithm", 《ADVANCES IN NEURAL NETWORKS》 *
刘仕超: "基于强化学习的移动机器人路径规划研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
孙魁: "基于强化学习的AUV避障研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
徐莉: "Q-learning研究及其在AUV局部路径规划中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
梁泉: "未知环境中基于强化学习的移动机器人路径规划", 《机电工程》 *

Cited By (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471446A (zh) * 2018-11-08 2019-03-15 淮阴师范学院 一种基于神经网络的全覆盖路径规划方法
CN113170001A (zh) * 2018-12-12 2021-07-23 西门子股份公司 适配在网关上执行的软件应用程序
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN109711040A (zh) * 2018-12-25 2019-05-03 南京天洑软件有限公司 一种基于搜索方向学习的智能工业设计强化学习算法
CN109711040B (zh) * 2018-12-25 2023-06-02 南京天洑软件有限公司 一种基于搜索方向学习的智能工业设计强化学习算法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109828463A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种海流干扰自适应波浪滑翔器艏向控制方法
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN110196605B (zh) * 2019-04-26 2022-03-22 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN112149835B (zh) * 2019-06-28 2024-03-05 杭州海康威视数字技术股份有限公司 一种网络重构方法及装置
CN112149835A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 一种网络重构方法及装置
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法
CN110738356A (zh) * 2019-09-20 2020-01-31 西北工业大学 一种基于sdn增强网络的电动汽车充电智能调度方法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN112799386B (zh) * 2019-10-25 2021-11-23 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN110618686A (zh) * 2019-10-30 2019-12-27 江苏科技大学 基于显式模型预测控制的无人船航迹控制方法
CN110703792A (zh) * 2019-11-07 2020-01-17 江苏科技大学 基于增强学习的水下机器人姿态控制方法
CN110703792B (zh) * 2019-11-07 2022-12-30 江苏科技大学 基于增强学习的水下机器人姿态控制方法
CN110779132A (zh) * 2019-11-13 2020-02-11 垚控科技(上海)有限公司 一种基于强化学习的空调系统的水泵设备运行控制系统
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111368633A (zh) * 2020-01-18 2020-07-03 中国海洋大学 一种基于auv的侧扫声呐图像识别方法
CN111290270A (zh) * 2020-02-11 2020-06-16 哈尔滨工程大学 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法
CN111290270B (zh) * 2020-02-11 2022-06-03 哈尔滨工程大学 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法
CN111240344B (zh) * 2020-02-11 2023-04-07 哈尔滨工程大学 基于强化学习技术的自主水下机器人无模型控制方法
CN111240344A (zh) * 2020-02-11 2020-06-05 哈尔滨工程大学 一种基于双神经网络强化学习技术的自主水下机器人无模型控制方法
CN111337931A (zh) * 2020-03-19 2020-06-26 哈尔滨工程大学 一种auv目标搜索方法
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
CN111882062B (zh) * 2020-07-24 2023-12-01 哈尔滨工业大学(威海) 一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法
CN111882062A (zh) * 2020-07-24 2020-11-03 哈尔滨工业大学(威海) 一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法
CN111645079A (zh) * 2020-08-04 2020-09-11 天津滨电电力工程有限公司 一种带电作业机器人机械臂路径规划控制装置及其方法
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112241176B (zh) * 2020-10-16 2022-10-28 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112215346A (zh) * 2020-10-20 2021-01-12 陈永聪 一种类人通用人工智能的实现方法
CN112232350B (zh) * 2020-10-27 2022-04-19 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112348285A (zh) * 2020-11-27 2021-02-09 中国科学院空天信息创新研究院 一种基于深度强化学习的动态环境下人群疏散模拟方法
CN112491712B (zh) * 2020-11-30 2021-08-17 复旦大学 一种基于多智能体深度强化学习的数据包路由算法
CN112491712A (zh) * 2020-11-30 2021-03-12 复旦大学 一种基于多智能体深度强化学习的数据包路由算法
CN113313249A (zh) * 2021-05-08 2021-08-27 华南理工大学 一种基于强化学习系统实现的动态集成训练方法
CN113313249B (zh) * 2021-05-08 2023-07-18 华南理工大学 一种基于强化学习系统实现的动态集成训练方法
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN113671834A (zh) * 2021-08-24 2021-11-19 郑州大学 一种机器人柔性行为决策方法及设备
CN113671834B (zh) * 2021-08-24 2023-09-01 郑州大学 一种机器人柔性行为决策方法及设备
CN113515130A (zh) * 2021-08-26 2021-10-19 鲁东大学 用于智能体路径规划的方法和存储介质
CN113515130B (zh) * 2021-08-26 2024-02-02 鲁东大学 用于智能体路径规划的方法和存储介质
CN114161419B (zh) * 2021-12-13 2023-09-15 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN114161419A (zh) * 2021-12-13 2022-03-11 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN114326734A (zh) * 2021-12-29 2022-04-12 中原动力智能机器人有限公司 一种路径规划方法及装置
CN114326734B (zh) * 2021-12-29 2024-03-08 中原动力智能机器人有限公司 一种路径规划方法及装置
CN114367988B (zh) * 2022-02-11 2023-11-17 煤炭科学研究总院有限公司 一种煤矿自主巡检平台上的机械臂运动规划方法和装置
CN114367988A (zh) * 2022-02-11 2022-04-19 煤炭科学研究总院有限公司 一种煤矿自主巡检平台上的机械臂运动规划方法和装置
CN114800510B (zh) * 2022-05-06 2024-01-23 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114995468A (zh) * 2022-06-06 2022-09-02 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法

Similar Documents

Publication Publication Date Title
CN108762281A (zh) 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN108873687B (zh) 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN110745136B (zh) 一种驾驶自适应控制方法
Lin et al. An improved recurrent neural network for unmanned underwater vehicle online obstacle avoidance
CN109784201B (zh) 基于四维风险评估的auv动态避障方法
CN113052372B (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN111695690A (zh) 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN111063218A (zh) 一种船舶避碰决策方法
CN110472738A (zh) 一种基于深度强化学习的无人艇实时避障算法
Kazem et al. Modified vector field histogram with a neural network learning model for mobile robot path planning and obstacle avoidance.
CN113010963A (zh) 基于深度强化学习的变质量水下航行器避障方法及系统
CN109540163A (zh) 一种基于差分进化和模糊控制相结合的避障路径规划算法
CN110716575A (zh) 基于深度双q网络强化学习的uuv实时避碰规划方法
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
Fagg et al. Rapid reinforcement learning for reactive control policy design in autonomous robots
Liu et al. Reinforcement learning-based collision avoidance: Impact of reward function and knowledge transfer
CN116501069A (zh) 一种基于多智能体强化学习的水面无人集群航路规划方法
Cheng et al. A neural network based mobile robot navigation approach using reinforcement learning parameter tuning mechanism
Jin et al. A game-theoretic reinforcement learning approach for adaptive interaction at intersections
Yan et al. Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning
CN110032189A (zh) 一种不依赖地图的智能仓储移动机器人路径规划方法
Zhu et al. Path planning algorithm for AUV based on a Fuzzy-PSO in dynamic environments
CN116080688B (zh) 一种类脑启发的智能驾驶视觉辅助方法、装置及存储介质
Wang et al. MUTS-based cooperative target stalking for a multi-USV system
Qiao et al. Application of reinforcement learning based on neural network to dynamic obstacle avoidance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication