CN108803615A - 一种基于深度强化学习的虚拟人未知环境导航算法 - Google Patents

一种基于深度强化学习的虚拟人未知环境导航算法 Download PDF

Info

Publication number
CN108803615A
CN108803615A CN201810727033.4A CN201810727033A CN108803615A CN 108803615 A CN108803615 A CN 108803615A CN 201810727033 A CN201810727033 A CN 201810727033A CN 108803615 A CN108803615 A CN 108803615A
Authority
CN
China
Prior art keywords
visual human
circumstances
actor
point information
deeply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810727033.4A
Other languages
English (en)
Other versions
CN108803615B (zh
Inventor
孙立博
秦文虎
王建鹏
翟金凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810727033.4A priority Critical patent/CN108803615B/zh
Publication of CN108803615A publication Critical patent/CN108803615A/zh
Application granted granted Critical
Publication of CN108803615B publication Critical patent/CN108803615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Information Transfer Between Computers (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了基于深度强化学习的虚拟人未知环境导航算法。所述算法通过以下方式实现:首先对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达,然后构建基于Actor‑Critic框架的深度强化学习结构,最后Actor根据当前环境状态选择合适动作,并通过Critic给出的评价不断进行训练学习,从而获取最优控制策略,使得虚拟人能够成功躲避障碍物,顺利到达目标点。本发明提出的基于深度强化学习的虚拟人未知环境导航算法不仅具有较好的逼真性和较强的通用性,还体现了人类对未知环境的自学习能力。

Description

一种基于深度强化学习的虚拟人未知环境导航算法
技术领域:
本发明涉及虚拟人仿真和路径规划领域,特别涉及一种基于深度强化学习的虚拟人未知环境导航算法。
背景技术:
路径规划是人类基本的行为能力之一,是保证人类在现实生活中不与其他障碍物和个体发生碰撞,更好地向目标前进的关键。在虚拟人仿真研究中,也应该体现这一基本行为特性,使得虚拟人能够按照自然合理的路径运动,顺利到达目标位置。而真实有效地模拟路径规划行为,不仅能够提高虚拟人的智能性,还能够为更高层的虚拟人行为仿真提供重要保障。
虚拟人路径规划算法大体上可分为全局路径规划算法和局部路径规划算法两类。全局路径规划算法主要用于处理环境完全已知的情况,虚拟人可根据环境先验信息,找出从起始点到目标点的满足一定要求的最优路径。局部路径规划算法主要用于处理环境未知或者部分未知的情况。但是当虚拟人对环境信息完全未知时,局部路径规划算法只能保证其不与其他静动态障碍物和虚拟人发生碰撞,不能保证其顺利到达目标点,而且,已有的未知环境导航算法通常采用如Q学习等强化学习算法,但是这些算法要求状态和动作空间必须离散,也就是说,基于强化学习的未知环境导航算法在规划路径的真实性方面还有待进一步提高,因此,本发明从提高规划路径的真实性角度出发,研究基于深度强化学习的虚拟人未知环境导航算法。通过本发明的研究,不仅能够为虚拟人找出一条从起始点到目标点的无碰撞的平滑自然的路径,而且无需对环境进行建模,还体现了人类对未知环境的自学习能力。综上所述,研究基于深度强化学习的虚拟人未知环境导航算法具有重要的理论意义和工程应用价值。
发明内容
本发明的目的是提供一种基于深度强化学习的虚拟人未知环境导航算法,能够解决传统的强化学习方法应用于导航中状态和动作空间必须离散的问题。
上述的目的通过以下技术方案实现:
一种基于深度强化学习的虚拟人未知环境导航算法,该方法包括如下步骤:
S1.对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达;
S2.构建基于Actor-Critic框架的深度强化学习结构,该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,虚拟人的行为作为输出;
S3.对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,训练完成后,即可得到一条从起始点到目标点的无碰撞的平滑自然的路径。
进一步地,步骤S1中所述的对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达的具体方法,包括步骤:
S11.设定虚拟人可感知的虚拟场景范围为5m×5m,具体描述为,以虚拟人当前位置为参考,向前延伸4米,向后扩展1米;
S12.在可感知的虚拟场景范围内进行均匀网格采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,进而得到虚拟人当前状态下可感知的虚拟场景范围的虚拟环境状态E,E表征为像素16×16的网格;
S13.将虚拟人的当前状态表征为C(pcc),其中,pc为虚拟人当前状态下的位置,θc为虚拟人当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为G(θtar,dtar),其中,θtar为虚拟人当前状态下的位置与目标点位置间连线与水平位置的夹角,dtar为虚拟人当前状态下的位置与目标点位置之间的距离;将虚拟人的行为表征为A(ρaa),其中,ρa为虚拟人单步运动的距离,θa为虚拟人单步运动的朝向,为更加真实地模拟虚拟人行为,θa需满足0≤θa≤π。
进一步地,步骤S2所述构建基于Actor-Critic框架的深度强化学习结构,该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,虚拟人的行为作为输出,具体方法包括:
S21.分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
S22.虚拟人可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合虚拟人的当前状态以及目标点信息再通过两次全连接层的变换,最后经过一层线性变换输出虚拟人的行为。
进一步地,步骤S3中所述对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,包括步骤:
S31.Actor根据当前环境状态s和目标g选择合适动作a,在通过计算回报函数获得奖励r后,状态从s转移到s′,将s,g,a,r,s′组合为一个元组τ=(s,g,a,r,s′),并将其存放在经验回放池D中;
S32.虚拟人采用步骤(3.1)的方式向目标点运动,直至达到指定步数T;
S33.更新Critic网络参数θv
S34.更新Actor网络参数θμ
S35.重复步骤S31至步骤S34,直到迭代达到最大步数或损失值小于给定阈值。
进一步地,步骤S33中所述的更新Critic网络参数θv,包括步骤:
S331.从经验回放池D中随机采样n个元组τi=(si,gi,ai,ri,si′);
S332.对每个τi,计算yi=ri+γV(si′,giv);
S333.更新θv,即
进一步地,步骤S34中所述更新Actor网络参数θμ,包括步骤:
S341.从经验回放池D中随机采样n个元组τj=(sj,gj,aj,rj,s′j);
S342.对每个τj,计算δj=rj+γV(s′j,gjv)-V(si,gjv);
S343.更新θμ,即
本发明所产生的有益效果:
1、本发明的一种基于深度强化学习的虚拟人未知环境导航算法不受应用场景和环境因素的限制,无需对环境进行建模即可为虚拟人找出一条从起始点到目标点的无碰撞的路径,因此,该算法具有较强的通用性和灵活性。
2、本发明的一种基于深度强化学习的虚拟人未知环境导航算法解决了传统的强化学习应用于导航中状态和动作空间必须离散的问题,不仅提高了路径规划的真实性,还体现了人类对未知环境的自学习能力。
附图说明
图1为本发明的一种基于深度强化学习的虚拟人未知环境导航算法的框架图;
图2为本发明对虚拟人可感知范围进行均匀采样的示意图;
图3为本发明实施例中基于Actor-Critic框架的深度强化学习结构;
图4为本发明对深度强化学习结构中的Actor网络和Critic网络的参数进行训练的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
在本实施例中,如图1所示的流程图给出了本实施例的具体过程:
步骤101、对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达,具体步骤包括:
(1)设定虚拟人可感知的虚拟场景范围为5m×5m,具体描述为,以虚拟人当前位置为参考,向前延伸4米,向后扩展1米;
(2)如图2所示,在感知范围内进行均匀网格采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,进而得到虚拟人当前状态下可感知区域的虚拟环境状态E,E表征为像素16×16的网格;
(3)将虚拟人的当前状态表征为C(pcc),其中,pc为虚拟人当前状态下的位置,θc为虚拟人当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为G(θtar,dtar),其中,θtar为虚拟人当前状态下的位置与目标点位置间连线与水平位置的夹角,dtar为虚拟人当前状态下的位置与目标点位置之间的距离;将虚拟人的行为表征为A(ρaa),其中,ρa为虚拟人单步运动的距离,θa为虚拟人单步运动的朝向,为更加真实地模拟虚拟人行为,θa需满足0≤θa≤π;
步骤102、如图3所示,构建基于Actor-Critic框架的深度强化学习结构,该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,虚拟人的行为作为输出,具体步骤包括:
(1)分别为Actor和Critic构建结构相同的包括6层的深度卷积神经网络,该网络由2个卷积层、3个全连接层和1个线性输出层组成,前5层激活函数均为Relu函数,其表达式为f(x)=max(0,x);
(2)虚拟人可感知区域的虚拟环境状态首先通过两个卷积核分别为5×5和3×3的卷积层以及一个节点数为64的全连接层获得一个中间特征向量,然后结合虚拟人的当前状态以及目标点信息再通过两个节点数分别为256和128的全连接层的变换,最后经过一层线性变换输出虚拟人的行为。
步骤103、对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,如图4所示,具体步骤包括:
(1)Actor根据当前环境状态s和目标g选择合适动作a,在通过计算回报函数获得奖励r后,其中,状态从s转移到s′,将s,g,a,r,s′组合为一个元组τ=(s,g,a,r,s′),并将其存放在经验回放池D中;
(2)虚拟人采用步骤(1)的方式向目标点运动,直至达到指定步数T;
(3)更新Critic网络参数θv
(4)更新Actor网络参数θμ
(5)重复步骤(3)至步骤(4),直到迭代达到最大步数或损失值小于给定阈值。
具体地,步骤(3)更新Critic网络参数θv,包括步骤:
(1)从经验回放池D中随机采样n个元组τi=(si,gi,ai,ri,s′i);
(2)对每个τi,计算yi=ri+γV(s′i,giv);
(3)更新θv,即
具体地,步骤(4)更新Actor网络参数θμ,包括步骤:
(5.1)从经验回放池D中随机采样n个元组τj=(sj,gj,aj,rj,s′j);
(5.2)对每个τj,计算δj=rj+γV(s′j,gjv)-V(si,gjv);
(5.3)更新θμ,即
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于深度强化学习的虚拟人未知环境导航算法,其特征在于,该方法包括如下步骤:
S1.对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达;
S2.构建基于Actor-Critic框架的深度强化学习结构,该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,虚拟人的行为作为输出;
S3.对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,训练完成后,即可得到一条从起始点到目标点的无碰撞的平滑自然的路径。
2.根据权利要求1所述的基于深度强化学习的虚拟人未知环境导航算法,其特征在于,步骤S1中所述的对虚拟人可感知区域的环境状态、虚拟人状态、起始点信息、目标点信息和行为进行表达的具体方法,包括步骤:
S11.设定虚拟人可感知的虚拟场景范围为5m×5m,具体描述为,以虚拟人当前位置为参考,向前延伸4米,向后扩展1米;
S12.在可感知的虚拟场景范围内进行均匀网格采样,地形平坦无障碍物处采样为0,有障碍物处采样为1,进而得到虚拟人当前状态下可感知的虚拟场景范围的虚拟环境状态E,E表征为像素16×16的网格;
S13.将虚拟人的当前状态表征为C(pcc),其中,pc为虚拟人当前状态下的位置,θc为虚拟人当前状态下的朝向;将起始点信息表征为ps,即起始点的位置;将目标点信息表征为G(θtar,dtar),其中,θtar为虚拟人当前状态下的位置与目标点位置间连线与水平位置的夹角,dtar为虚拟人当前状态下的位置与目标点位置之间的距离;将虚拟人的行为表征为A(ρaa),其中,ρa为虚拟人单步运动的距离,θa为虚拟人单步运动的朝向,为更加真实地模拟虚拟人行为,θa需满足0≤θa≤π。
3.根据权利要求1所述的基于深度强化学习的虚拟人未知环境导航算法,其特征在于,步骤S2所述构建基于Actor-Critic框架的深度强化学习结构,该结构以虚拟人的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入,虚拟人的行为作为输出,具体方法包括:
S21.分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由若干卷积层和全连接层组成;
S22.虚拟人可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量,然后结合虚拟人的当前状态以及目标点信息再通过两次全连接层的变换,最后经过一层线性变换输出虚拟人的行为。
4.根据权利要求1所述的基于深度强化学习的虚拟人未知环境导航算法,其特征在于,步骤S3中所述对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,包括步骤:
S31.Actor根据当前环境状态s和目标g选择合适动作a,在通过计算回报函数获得奖励r后,状态从s转移到s′,将s,g,a,r,s′组合为一个元组τ=(s,g,a,r,s′),并将其存放在经验回放池D中;
S32.虚拟人采用步骤(3.1)的方式向目标点运动,直至达到指定步数T;
S33.更新Critic网络参数θv
S34.更新Actor网络参数θμ
S35.重复步骤S31至步骤S34,直到迭代达到最大步数或损失值小于给定阈值。
5.根据权利要求4所述的基于深度强化学习的虚拟人未知环境导航算法,其特征在于,步骤S33中所述的更新Critic网络参数θv,包括步骤:
S331.从经验回放池D中随机采样n个元组τi=(si,gi,ai,ri,s′i);
S332.对每个τi,计算yi=ri+γV(s′i,giv);
S333.更新θv,即
6.根据权利要求4所述的基于深度强化学习的虚拟人未知环境导航算法,其特征在于,步骤S34中所述更新Actor网络参数θμ,包括步骤:
S341.从经验回放池D中随机采样n个元组τj=(sj,gj,aj,rj,s′j);
S342.对每个τj,计算δj=rj+γV(s′j,gjv)-V(si,gjv);
S343.更新θμ,即
CN201810727033.4A 2018-07-03 2018-07-03 一种基于深度强化学习的虚拟人未知环境导航算法 Active CN108803615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810727033.4A CN108803615B (zh) 2018-07-03 2018-07-03 一种基于深度强化学习的虚拟人未知环境导航算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810727033.4A CN108803615B (zh) 2018-07-03 2018-07-03 一种基于深度强化学习的虚拟人未知环境导航算法

Publications (2)

Publication Number Publication Date
CN108803615A true CN108803615A (zh) 2018-11-13
CN108803615B CN108803615B (zh) 2021-03-23

Family

ID=64074651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810727033.4A Active CN108803615B (zh) 2018-07-03 2018-07-03 一种基于深度强化学习的虚拟人未知环境导航算法

Country Status (1)

Country Link
CN (1) CN108803615B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743666A (zh) * 2018-12-27 2019-05-10 北京普诺兴科技有限公司 基于增强学习的室内声源移动方法、介质、设备和装置
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109855616A (zh) * 2019-01-16 2019-06-07 电子科技大学 一种基于虚拟环境和强化学习的多传感器机器人导航方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110672101A (zh) * 2019-09-20 2020-01-10 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质
CN110968102A (zh) * 2019-12-27 2020-04-07 东南大学 一种基于深度强化学习的多agent避碰方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111292401A (zh) * 2020-01-15 2020-06-16 腾讯科技(深圳)有限公司 动画处理方法、装置、计算机存储介质及电子设备
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN111917642A (zh) * 2020-07-14 2020-11-10 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN114489038A (zh) * 2021-12-08 2022-05-13 农芯(南京)智慧农业研究院有限公司 一种基于强化学习的农林用车辆的导航控制方法
CN114594793A (zh) * 2022-03-07 2022-06-07 四川大学 一种基站无人机的路径规划方法
CN115113963A (zh) * 2022-06-29 2022-09-27 北京百度网讯科技有限公司 信息展示方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198854A1 (en) * 2001-03-30 2002-12-26 Berenji Hamid R. Convergent actor critic-based fuzzy reinforcement learning apparatus and method
CN104595106A (zh) * 2014-05-19 2015-05-06 湖南工业大学 基于强化学习补偿的风力发电变桨距控制方法
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和系统
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198854A1 (en) * 2001-03-30 2002-12-26 Berenji Hamid R. Convergent actor critic-based fuzzy reinforcement learning apparatus and method
CN104595106A (zh) * 2014-05-19 2015-05-06 湖南工业大学 基于强化学习补偿的风力发电变桨距控制方法
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和系统
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JAGODNIK, KATHLEEN M.; THOMAS, PHILIP S.; VAN DEN BOGERT, ANTONI: "Training an Actor-Critic Reinforcement Learning Controller for", 《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING》 *
QUAN-YONG FAN;GUANG-HONG YANG: "Adaptive Actor–Critic Design-Based Integral", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
朱斐; 刘全; 傅启明; 伏玉琛: "一种用于连续动作空间的最小二乘行动者-评论家方法", 《计算机研究与发展》 *
王建鹏; 秦文虎; 孙立博: "基于生物力学的虚拟人运动控制及行走仿真", 《计算机辅助设计与图形学学报》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743666A (zh) * 2018-12-27 2019-05-10 北京普诺兴科技有限公司 基于增强学习的室内声源移动方法、介质、设备和装置
CN109855616A (zh) * 2019-01-16 2019-06-07 电子科技大学 一种基于虚拟环境和强化学习的多传感器机器人导航方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110672101B (zh) * 2019-09-20 2021-09-28 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质
CN110672101A (zh) * 2019-09-20 2020-01-10 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110632931B (zh) * 2019-10-09 2022-06-21 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN110968102A (zh) * 2019-12-27 2020-04-07 东南大学 一种基于深度强化学习的多agent避碰方法
CN110968102B (zh) * 2019-12-27 2022-08-26 东南大学 一种基于深度强化学习的多agent避碰方法
US11747155B2 (en) 2019-12-31 2023-09-05 Goertek Inc. Global path planning method and device for an unmanned vehicle
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111292401A (zh) * 2020-01-15 2020-06-16 腾讯科技(深圳)有限公司 动画处理方法、装置、计算机存储介质及电子设备
US11790587B2 (en) 2020-01-15 2023-10-17 Tencent Technology (Shenzhen) Company Limited Animation processing method and apparatus, computer storage medium, and electronic device
CN111292401B (zh) * 2020-01-15 2022-05-03 腾讯科技(深圳)有限公司 动画处理方法、装置、计算机存储介质及电子设备
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN111917642B (zh) * 2020-07-14 2021-04-27 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN111917642A (zh) * 2020-07-14 2020-11-10 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN114489038A (zh) * 2021-12-08 2022-05-13 农芯(南京)智慧农业研究院有限公司 一种基于强化学习的农林用车辆的导航控制方法
CN114489038B (zh) * 2021-12-08 2024-02-27 农芯(南京)智慧农业研究院有限公司 一种基于强化学习的农林用车辆的导航控制方法
CN114594793A (zh) * 2022-03-07 2022-06-07 四川大学 一种基站无人机的路径规划方法
CN115113963A (zh) * 2022-06-29 2022-09-27 北京百度网讯科技有限公司 信息展示方法、装置、电子设备以及存储介质
CN115113963B (zh) * 2022-06-29 2023-04-07 北京百度网讯科技有限公司 信息展示方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN108803615B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN108803615A (zh) 一种基于深度强化学习的虚拟人未知环境导航算法
CN109635917B (zh) 一种多智能体合作决策及训练方法
Kavousi-Fard et al. A new fuzzy-based combined prediction interval for wind power forecasting
CN107608372B (zh) 一种基于改进rrt算法与改进ph曲线相结合的多无人机协同航迹规划方法
CN108375379A (zh) 基于变异的双重dqn的快速路径规划方法及移动机器人
CN108115681A (zh) 机器人的模仿学习方法、装置、机器人及存储介质
CN111141300A (zh) 基于深度强化学习的智能移动平台无地图自主导航方法
CN110223323A (zh) 基于深度特征自适应相关滤波的目标跟踪方法
CN111105034B (zh) 基于反事实回报的多智能体深度强化学习方法、系统
CN106874914A (zh) 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN105740644A (zh) 一种基于模型学习的清洁机器人最优目标路径规划方法
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
Ibrahim et al. Novel optimization algorithm inspired by camel traveling behavior
Zhang et al. Quota: The quantile option architecture for reinforcement learning
CN107253195A (zh) 一种运载机器人手臂操控自适应混合学习映射智能控制方法及系统
CN108536144A (zh) 一种融合稠密卷积网络和竞争架构的路径规划方法
CN108762249B (zh) 基于近似模型多步优化的清洁机器人最优路径规划方法
Hafez et al. Improving robot dual-system motor learning with intrinsically motivated meta-control and latent-space experience imagination
CN110968102B (zh) 一种基于深度强化学习的多agent避碰方法
CN109800517A (zh) 一种改进的磁流变阻尼器逆向建模方法
Hu et al. Graph Soft Actor–Critic Reinforcement Learning for Large-Scale Distributed Multirobot Coordination
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Chang et al. Learning and evaluating human-like NPC behaviors in dynamic games
Riccio et al. LoOP: Iterative learning for optimistic planning on robots
Zhou et al. Deep reinforcement learning based intelligent decision making for two-player sequential game with uncertain irrational player

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant