CN110716574A - 一种基于深度q网络的uuv实时避碰规划方法 - Google Patents
一种基于深度q网络的uuv实时避碰规划方法 Download PDFInfo
- Publication number
- CN110716574A CN110716574A CN201910934428.6A CN201910934428A CN110716574A CN 110716574 A CN110716574 A CN 110716574A CN 201910934428 A CN201910934428 A CN 201910934428A CN 110716574 A CN110716574 A CN 110716574A
- Authority
- CN
- China
- Prior art keywords
- uuv
- network
- environment
- deep
- collision avoidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000013178 mathematical model Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于UUV控制技术领域,具体涉及一种基于深度Q网络的UUV实时避碰规划方法。本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型,不对输入的声呐数据进行人工提取特征和特征匹配,直接从原始数据集上学习状态与动作的映射关系,将深度学习和强化学习相结合应用到避碰规划问题的解决上。本发明使用深度强化学习,无需像深度学习那样进行大规模的采样和做标签,也不像传统的方法需建立环境和UUV本身的数学模型,无需环境的模型,采用强化学习不会因为路径过于复杂而无法执行策略,使其在实际应用中缩短了项目的开发周期、实施更加简洁、高效、鲁棒性高。
Description
技术领域
本发明属于UUV控制技术领域,具体涉及一种基于深度Q网络的UUV实时避碰规划方法。
背景技术
海洋环境的复杂性、不确定性因素的影响,使得UUV的局部路径规划有其特殊性,对于水下机器人的自适应性有更高的要求。UUV工作在这种环境下,很难获取环境的精确数学模型。要想安全、可靠地完成指定任务,UUV必须具备逐渐适应环境和处理各种突发情况的能力,这就要求UUV具有较强的灵活性和适应性。对于处理未知、变化的环境下UUV局部路径规划方法已经取得大量成果,比如基于模型的反应式方法,如人工势场法和沿障碍物边缘行走法基于行为的反应式、模糊逻辑控制方法、神经网络法和遗传算法等方法。而对于UUV在动态的未知环境下的规划,这些方法很多时候都无能为力,让UUV自主地学习并作出决策成为了一个新的研究方向。
发明内容
本发明的目的在于提供使UUV在未知的环境下,通过与环境进行交互并利用反馈的奖励信号进行学习,最终实现在复杂未知环境下的路径规划的一种基于深度Q网络的UUV实时避碰规划方法。
本发明的目的通过如下技术方案实现:包括以下步骤:
步骤2:通过伪随机法选取动作at,设定UUV速度为恒定值v,计算深度Q网络的输出动作的Q值;
步骤3:将UUV的速度v和动作at输入UUV的模型,根据导引算法得到UUV下一时刻的期望路径点;
步骤4:检测UUV下一时刻的期望路径点是否碰到障碍物;若碰到障碍物,则返回步骤1;若没有碰到障碍物,则从环境中返回奖励值,更新网络中的权值wi;
步骤5:重复步骤2至步骤4,直到学习完成;
步骤6:将UUV实际环境及自身状态信息输入学习完成后的模型中,实现UUV的实时避碰规划。
本发明还可以包括:
所述的步骤2中Q值的计算方法具体为:
其中r为奖励值;π为状态对动作的映射。
所述的步骤4中更新网络中的权值wi的方法具体为:采用长短时记忆的循环神经网络结构LSTM-RNN代替传统的神经网络,使用损失函数最小化来训练网络,具体公式为:
所述的步骤3中的导引算法具体为:
e=||pc-p||2-R
其中,p(xt,yt)表示AUV的当前位置;pc(xc,yc)表示过渡弧的中心位置,R是过渡弧的半径;θr(e)是前视矢量Δ和矢量之间的角度,Δ是与下一个期望轨迹平行的前视矢量;e表示当前AUV的交叉跟踪误差;θd(e)代表期望的角度;θ(t)是矢量和X轴之间的角度。
本发明的有益效果在于:
本发明中UUV通过与环境之间不断地试错交互,利用成功或失败的经验,产生奖励或惩罚的信号不断地改进UUV的性能,让其具有自我学习的能力,当时间趋于无穷远时,UUV的策略将取得理论上的最优策略。本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型,不对输入的声呐数据进行人工提取特征和特征匹配,直接从原始数据集上学习状态与动作的映射关系,将深度学习和强化学习相结合应用到避碰规划问题的解决上。本发明使用深度强化学习,无需像深度学习那样进行大规模的采样和做标签,也不像传统的方法需建立环境和UUV本身的数学模型,无需环境的模型,采用强化学习不会因为路径过于复杂而无法执行策略,使其在实际应用中缩短了项目的开发周期、实施更加简洁、高效、鲁棒性高。
附图说明
图1是UUV环境感知模型示意图。
图2是基于DQN的UUV避碰规划网络结构图。
图3是DQN网络学习过程中的损失函数收敛曲线图。
图4是UUV视线导引系统示意图。
图5是DQN算法的避碰示意图。
图6是DQN算法在方形障碍里的避碰示意图。
图7是本发明的总体流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明的目的是提供一种使UUV在未知的环境下,通过与环境进行交互并利用反馈的奖励信号进行学习,最终实现在复杂未知环境下的路径规划。UUV通过与环境之间不断地试错交互,利用成功或失败的经验,产生奖励或惩罚的信号不断地改进UUV的性能,让其具有自我学习的能力,当时间趋于无穷远时,UUV的策略将取得理论上的最优策略。
本发明的关键点:
1、奖励函数的设定2、输出转艏角的合理设计3、网络结构的设计
步骤2:通过伪随机法选取动作at,设定UUV速度为恒定值v,计算深度Q网络的输出动作的Q值;本实施例里输出对应的是离散转艏角(-10,-5,-3,0,3,5,10),根据算法选取其中的最大值所对应的转艏角;
步骤3:将UUV的速度v和动作at输入UUV的模型,根据导引算法得到UUV下一时刻的期望路径点;
步骤4:检测UUV下一时刻的期望路径点是否碰到障碍物;若碰到障碍物,则返回步骤1;若没有碰到障碍物,则从环境中返回奖励值,更新网络中的权值wi;到达目标点时,给予正的奖励值并初始化环境;
步骤5:重复步骤2至步骤4,直到学习完成;
步骤6:将UUV实际环境及自身状态信息输入学习完成后的模型中,实现UUV的实时避碰规划。
建立UUV的环境感知模型如图1所示全局坐标系XOY和船体坐标系XRORYR,UUV的速度指向YR轴,将声呐的探测区域分为13个单元,求得每个单元到障碍的距离di(i=0,1,2,....12)将该值预处理后得到网络的输入量。UUV的当前艏向为θ,目标与UUV的夹角为θg,得到UUV的趋向目标点的转角为θtg=θ-θg,将改角度加入状态空间中,可增大UUV到达目标点的概率。
设定奖励值函数
其中,d表示UUV与障碍得距离。
策略选取模块的实现:
伪随机法:给定状态s,具有最高值的动作被选择的初始概率为Ps,如果该动作没有被选中,则Agent在所有可能的动作中随机地选择下一个动作。
算法的实现原理:
Q-Learning可以用各种神经网络来实现,网络的输入为状态矢量每个网络的输出对应于一个动作的Q值,即Q(st,ai)。用神经网络实现的关键是算法的确定。动作值函数应用在很多强化学习算法,在st执行动作at并在此后遵循此策略π(π是状态对动作的映射)得到的期望返回累积期望奖励值Rt,根据Q函数的定义得:
最优的Q值也满足Bellman公式:
Bellman公式的意思是如果Qπ(st+1,at+1)在状态st+1下所有可能动作at+1的Q值都是已知的,那么最优的策略就是选取使期望值最大化的动作。强化学习的基本思想就是通过不断地迭代公式(3)得到动作值函数的估计值。
假设目标策略是确定性的用函数π来表示:则可去掉内部的期望符号,得到:
上式的期望值仅依赖于环境,可以从策略π产生的不同随机行为转换中学习到离策略的Qμ。
Q-learning最普遍的离策略算法,若使用贪婪策略则π(s)=argmaxa Q(s,a),在实际中,由于动作值函数是在独立的序列上进行估计,并没有形成一般性。相反普遍使用值函数逼近器去估计动作值函数Q(s,a;θ)≈Q*(s,a),其中Q*(s,a)代表最优值。在强化学习中,线性函数逼近器仅能解决简单的问题,后来又发展出非线性的函数逼近器,比如神经网络。在本专利中采用长短时记忆(Long Short-Term Memory,LSTM)的循环神经网络(Recurrent Neural Networks,RNN)结构LSTM-RNN代替了传统的神经网络。使用损失函数最小化来训练网络:
其中,yi=r(st,at)+γQ(st+1,π(st+1)|wi-1)是第i次迭代的目标值,当优化损失函数Li(wi)时,上次迭代的参数wi-1保持不变,值得注意的是,目标值依赖于网络的参数w为神经网络的权值,与监督学习中目标值是固定的不同之处。
损失函数Li(wi)对网络权值wi求偏导:
不用直接计算上式的期望值,而是通过随机梯度下降不断地优化损失函数。若在每个时间步更新权值w,那么期望值可用从行为分布和环境中进行采样得到,这与基本的Q学习类似。注意此算法是无模型的:它直接从环境中采样而不用构造明确的环境估计器,来解决强化学习任务。它也是离策略的,从行为分布中学习到贪婪策略以确保对状态空间有足够的探索。
在UUV导航过程中,当两个转向控制命令不一致时发生轨迹切换。为了使轨迹更平滑并实现精确的跟踪控制,本专利使用视线方法来解决这个问题,具有引导算法的UUV可以完美地跟踪所需的轨迹。通过检查图4得到以下公式:
e=||pc-p||2-R (7)
其中,p(xt,yt)表示AUV的当前位置,pc(xc,yc)表示过渡弧的中心位置,R是其半径。θr(e)是前视矢量Δ和矢量之间的角度,其中Δ是与下一个期望轨迹平行的前视矢量,e表示当前AUV的交叉跟踪误差,θd(e)代表期望的角度,θ(t)是矢量和X轴之间的角度。
将上述学习的网络模型保存后应用于测试环境来测试算法的性能。在仿真环境中学习完之后,将学好的模型应用到随机生成的测试环境中,观测UUV的局部路径规划能力。
本发明使网络体系在复杂环境的局部避碰规划时具有自我学习的能力实现端到端模型,不对输入的声呐数据进行人工提取特征、特征匹配,直接从原始数据集上学习状态与动作的映射关系,将深度学习和强化学习相结合应用到避碰规划问题的解决上,使用深度强化学习,无需像深度学习那样进行大规模的采样、做标签。也不像传统的方法需建立环境和UUV本身的数学模型。它无需环境的模型,采用强化学习不会因为路径过于复杂而无法执行策略,使其在实际应用中缩短了项目的开发周期、算法实现更加简洁、高效、算法鲁棒性高。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于深度Q网络的UUV实时避碰规划方法,其特征在于,包括以下步骤:
步骤2:通过伪随机法选取动作at,设定UUV速度为恒定值v,计算深度Q网络的输出动作的Q值;
步骤3:将UUV的速度v和动作at输入UUV的模型,根据导引算法得到UUV下一时刻的期望路径点;
步骤4:检测UUV下一时刻的期望路径点是否碰到障碍物;若碰到障碍物,则返回步骤1;若没有碰到障碍物,则从环境中返回奖励值,更新网络中的权值wi;
步骤5:重复步骤2至步骤4,直到学习完成;
步骤6:将UUV实际环境及自身状态信息输入学习完成后的模型中,实现UUV的实时避碰规划。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910934428.6A CN110716574B (zh) | 2019-09-29 | 2019-09-29 | 一种基于深度q网络的uuv实时避碰规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910934428.6A CN110716574B (zh) | 2019-09-29 | 2019-09-29 | 一种基于深度q网络的uuv实时避碰规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110716574A true CN110716574A (zh) | 2020-01-21 |
CN110716574B CN110716574B (zh) | 2023-05-02 |
Family
ID=69211151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910934428.6A Active CN110716574B (zh) | 2019-09-29 | 2019-09-29 | 一种基于深度q网络的uuv实时避碰规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110716574B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340868A (zh) * | 2020-02-26 | 2020-06-26 | 大连海事大学 | 基于视觉深度估计的无人水下航行器自主决策控制方法 |
CN112015081A (zh) * | 2020-06-18 | 2020-12-01 | 浙江大学 | Siso紧格式无模型控制器基于pso-lstm协同算法的参数自整定方法 |
CN112947421A (zh) * | 2021-01-28 | 2021-06-11 | 西北工业大学 | 一种基于强化学习的auv自主避障方法 |
CN113052372A (zh) * | 2021-03-17 | 2021-06-29 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100256909A1 (en) * | 2004-06-18 | 2010-10-07 | Geneva Aerospace, Inc. | Collision avoidance for vehicle control systems |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
US20180231985A1 (en) * | 2016-12-22 | 2018-08-16 | TCL Research America Inc. | System and method for vision-based flight self-stabilization by deep gated recurrent q-networks |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109283842A (zh) * | 2018-08-02 | 2019-01-29 | 哈尔滨工程大学 | 一种无人艇航迹跟踪智能学习控制方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN109828458A (zh) * | 2019-02-26 | 2019-05-31 | 中国海洋大学 | 一种波浪滑翔器路径跟踪控制方法 |
CN109828570A (zh) * | 2019-02-18 | 2019-05-31 | 哈尔滨工程大学 | 一种自适应边界层水面无人艇控制导引方法 |
US20200293883A1 (en) * | 2017-10-27 | 2020-09-17 | Deepmind Technologies Limited | Distributional reinforcement learning for continuous control tasks |
-
2019
- 2019-09-29 CN CN201910934428.6A patent/CN110716574B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100256909A1 (en) * | 2004-06-18 | 2010-10-07 | Geneva Aerospace, Inc. | Collision avoidance for vehicle control systems |
US20180231985A1 (en) * | 2016-12-22 | 2018-08-16 | TCL Research America Inc. | System and method for vision-based flight self-stabilization by deep gated recurrent q-networks |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
US20200293883A1 (en) * | 2017-10-27 | 2020-09-17 | Deepmind Technologies Limited | Distributional reinforcement learning for continuous control tasks |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109283842A (zh) * | 2018-08-02 | 2019-01-29 | 哈尔滨工程大学 | 一种无人艇航迹跟踪智能学习控制方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN109828570A (zh) * | 2019-02-18 | 2019-05-31 | 哈尔滨工程大学 | 一种自适应边界层水面无人艇控制导引方法 |
CN109828458A (zh) * | 2019-02-26 | 2019-05-31 | 中国海洋大学 | 一种波浪滑翔器路径跟踪控制方法 |
Non-Patent Citations (2)
Title |
---|
曾江峰等: "基于切换视线法的欠驱动无人艇鲁棒自适应", 《兵工学报》 * |
陈霄等: "欠驱动无人艇自适应滑模航迹跟踪控制", 《国防科技大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340868A (zh) * | 2020-02-26 | 2020-06-26 | 大连海事大学 | 基于视觉深度估计的无人水下航行器自主决策控制方法 |
CN111340868B (zh) * | 2020-02-26 | 2023-06-02 | 大连海事大学 | 基于视觉深度估计的无人水下航行器自主决策控制方法 |
CN112015081A (zh) * | 2020-06-18 | 2020-12-01 | 浙江大学 | Siso紧格式无模型控制器基于pso-lstm协同算法的参数自整定方法 |
CN112015081B (zh) * | 2020-06-18 | 2021-12-17 | 浙江大学 | Siso紧格式无模型控制器基于pso-lstm协同算法的参数自整定方法 |
CN112947421A (zh) * | 2021-01-28 | 2021-06-11 | 西北工业大学 | 一种基于强化学习的auv自主避障方法 |
CN113052372A (zh) * | 2021-03-17 | 2021-06-29 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113052372B (zh) * | 2021-03-17 | 2022-08-02 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110716574B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Learn to navigate: cooperative path planning for unmanned surface vehicles using deep reinforcement learning | |
Jiang et al. | Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge | |
CN110333739B (zh) | 一种基于强化学习的auv行为规划及动作控制方法 | |
Chiang et al. | RL-RRT: Kinodynamic motion planning via learning reachability estimators from RL policies | |
CN110716574B (zh) | 一种基于深度q网络的uuv实时避碰规划方法 | |
CN109241552B (zh) | 一种基于多约束目标的水下机器人运动规划方法 | |
CN108873687B (zh) | 一种基于深度q学习的智能水下机器人行为体系结规划方法 | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
Lin et al. | An improved recurrent neural network for unmanned underwater vehicle online obstacle avoidance | |
Zhao et al. | A novel direct trajectory planning approach based on generative adversarial networks and rapidly-exploring random tree | |
Grigorescu et al. | Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles | |
CN109784201B (zh) | 基于四维风险评估的auv动态避障方法 | |
CN113052372B (zh) | 一种基于深度强化学习的动态auv追踪路径规划方法 | |
CN110716575A (zh) | 基于深度双q网络强化学习的uuv实时避碰规划方法 | |
Bansal et al. | A hamilton-jacobi reachability-based framework for predicting and analyzing human motion for safe planning | |
JP2006320997A (ja) | ロボット行動選択装置及びロボット行動選択方法 | |
Zhou et al. | Obstacle avoidance strategy for an autonomous surface vessel based on modified deep deterministic policy gradient | |
Fan et al. | Learning resilient behaviors for navigation under uncertainty | |
Yan et al. | Reinforcement learning-based autonomous navigation and obstacle avoidance for USVs under partially observable conditions | |
CN114485673B (zh) | 基于深度强化学习的服务机器人人群感知导航方法及系统 | |
Jin et al. | Soft formation control for unmanned surface vehicles under environmental disturbance using multi-task reinforcement learning | |
Vibhute | Adaptive dynamic programming based motion control of autonomous underwater vehicles | |
Hamad et al. | Path Planning of Mobile Robot Based on Modification of Vector Field Histogram using Neuro-Fuzzy Algorithm. | |
Borquez et al. | Parameter-conditioned reachable sets for updating safety assurances online | |
Guo et al. | Optimal navigation for AGVs: A soft actor–critic-based reinforcement learning approach with composite auxiliary rewards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |