CN110728368A - 一种仿真机器人深度强化学习的加速方法 - Google Patents

一种仿真机器人深度强化学习的加速方法 Download PDF

Info

Publication number
CN110728368A
CN110728368A CN201911021049.4A CN201911021049A CN110728368A CN 110728368 A CN110728368 A CN 110728368A CN 201911021049 A CN201911021049 A CN 201911021049A CN 110728368 A CN110728368 A CN 110728368A
Authority
CN
China
Prior art keywords
environment
node
learning
reinforcement learning
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911021049.4A
Other languages
English (en)
Other versions
CN110728368B (zh
Inventor
唐玉华
黄达
杨绍武
徐利洋
蔡中轩
李明龙
粱震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201911021049.4A priority Critical patent/CN110728368B/zh
Publication of CN110728368A publication Critical patent/CN110728368A/zh
Application granted granted Critical
Publication of CN110728368B publication Critical patent/CN110728368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明属于机器人领域,公开了一种仿真机器人深度强化学习的加速方法,目的是加速学习过程从而减少机器人深度强化学习研究、调试、部署的时间开销。本发明的技术方案是:选取一个节点为学习节点,其他节点为环境节点;每个环境节点处理与一个机器人仿真器实例的交互细节,提供统一的环境交互消息接口;学习节点采用帧仿真的形式与各个环境节点之间通过消息接口进行环境交互,同时从多个环境中收集学习数据,从而加速强化学习。本发明通过环境节点抽象在适配各种机器人仿真器的同时,解耦了学习算法开发与仿真交互细节,且消息通信允许各环境节点与仿真器实例部署在分布式计算环境中,具有易部署、可扩展的优势。

Description

一种仿真机器人深度强化学习的加速方法
技术领域
本发明属于机器人领域,涉及机器人在仿真环境中深度强化学习的加速方法,可以应用到智能机器人的避障、导航、编队、多机器人协同等机器人控制任务中。
背景技术
强化学习是机器人领域采用的重要技术之一,通过强化学习,机器人可以通过不断尝试,自主学习一套完成任务的行动策略,这种自学习的能力在难以人工设计行动策略的复杂场景中具有重要意义。
强化学习用于解决序贯决策问题,学习者(即智能体)根据行动策略结合当前环境状态尝试做出行动(初始策略通常是一种随机策略),根据这一步行动下的任务完成情况获取奖励或惩罚(即负奖励)的学习信号,通过学习信号调整优化行动策略,一步一步尝试直到学习到能够满足任务需求的行动策略。由于机器人的控制本身就是一个序贯决策问题,即不断地根据当前对环境的观察,做出采取何种行动的决策,因此强化学习在移动机器人避障、编队、机械臂控制、多机器人协同等领域都有广泛的应用。深度学习技术的引入使得深度强化学习算法可以直接从原始的高维传感器输入(如相机、激光雷达等)计算需要采取的行动,极大地提升了机器人强化学习的实用性。
然而,强化学习取得良好的结果需要建立在对行动的充分采样的基础上,即通过足够多次的尝试获取经验数据来更新行动策略,深度强化学习由于学习参数多,对经验数据的需求量非常巨大。在机器人领域,由于实物机器人行动慢且实验成本高,通常通过计算机仿真机器人进行行动尝试,收集学习数据。对于基于仿真的学习,一方面要求仿真环境尽可能的逼真,使学习结果更加便于向实际迁移,但另一方面,仿真环境越逼真,计算代价越大,因此基于仿真的机器人强化学习面临着巨大的训练时间成本,仿真环境演化部分成为了限制机器人深度强化学习速度的瓶颈。
如何加速机器人深度强化学习训练过程是本领域技术人员极为关注的技术问题。
发明内容
本发明要解决的技术问题是提供一种在单位时间内收集更多的机器人仿真经验数据的方法,在保持原有算法实现的基础上,加速机器人深度强化学习算法的学习过程。
本发明的技术方案是:
一种仿真机器人深度强化学习的加速方法,包括以下步骤:
第一步:选取一个节点为学习节点,其他节点为环境节点,进行初始化操作,具体启动的环境节点数根据应用所需的并行化规模确定,包括以下步骤:
1.1在学习节点中初始化需要加速的深度强化学习智能体与代理环境;
1.2为每个机器人仿真器实例初始化一个环境节点,环境节点维护与机器人仿真器实例通信细节,提供统一的消息接口与学习节点的代理环境通信;
第二步:学习节点通知所有环境节点重置仿真环境,包括以下步骤:
2.1在学习节点调用代理环境的重置方法;
2.2代理环境向各个环境节点发送重置消息;
2.3各个环境节点将对应的机器人仿真器重置,接收到重置后的传感器数据后,将传感器数据发回代理环境;
2.4代理环境将传感器数据作为重置方法的返回值返回;
在这一步中,学习节点与环境节点的交互通过一个代理环境来实现,代理环境为每个环境节点维护一个环境句柄从而与特定环境节点交互并维护环境信息,代理环境与强化学习智能体之间维持了原有强化学习算法与单个环境交互的接口,从而兼容原有的强化学习智能体实现。
第三步:学习节点采用帧仿真的形式通过代理环境与各个环境节点交互,同时从多个环境中收集学习数据进行强化学习,包括以下步骤:
3.1深度强化学习智能体根据各环境的传感器数据计算各环境中仿真机器人应当采取的行动,调用代理环境的迭代方法;
3.2代理环境向各个环境节点发送迭代消息,其中包含仿真机器人应当采取的行动;
3.3各个环境节点将行动指令发送给机器人仿真器,仿真机器人行动并接收到行动后的传感器数据后,根据任务目标计算本次行动的奖励值,判定任务尝试是否终止,将这些信息发回代理环境;
3.4学习节点从代理环境的重置方法返回值获取各个环境中这次行动的反馈数据,按照各个环境逐条保存到队列中,作为强化学习的经验数据;
3.5强化学习智能体根据经验数据进行策略更新,更新的频率可自由设置在一步尝试后、或几步尝试后、或一轮尝试后,强化学习智能体更新策略时按照各个环境的经验数据逐个串行更新;
3.6判断强化学习是否结束,如果结束,则保存强化学习策略并终止学习节点,如果未结束,则根据本轮尝试是否结束重置相应的仿真环境,返回步骤3.1,否则继续进行下一帧的仿真与经验收集,返回步骤3.2。
优选的,在所述第一步设置一个学习节点与多个从属环境节点,将强化学习算法与仿真环境通信解耦,学习节点运行强化学习算法,每个环境节点维护与对应机器人仿真器的通信细节,可采用的通信手段包括TCP(Transmission Control Protocol)、UDP(UserDatagram Protocol)、ROS(Robot Operating System)等通信协议或中间件。
优选的,第二步所述的代理环境具有与单个环境相同的接口:重置和迭代,从而基于代理环境的强化学习过程不需要改变已有的针对单个环境的强化学习算法的实现。
优选的,第三步所述的学习节点采用帧仿真的形式在各环境节点尝试行动,并将来自不同仿真环境的经验数据逐条存入队列。
采用本发明能达到以下有益效果:
(1)本发明通过环境节点的抽象,允许适配各种机器人仿真器,同时提供统一的环境调用接口,解耦了强化学习算法开发与机器人仿真器的交互细节,修改机器人仿真环境只需修改环境节点,而无需修改学习节点,因为环境节点提供了接口抽象;
(2)本发明通过在学习节点设计代理环境管理与所有的环境节点的通信,使环境节点对开发者透明,开发者只需关心强化学习智能体与代理环境的交互,通过保持代理环境的接口与串行的强化学习算法兼容,允许在不修改原有强化学习算法的基础上,以任意的并行规模进行加速;
(3)本发明中环境节点与学习节点的设计允许各环境节点与仿真器实例部署在分布式计算环境中,具有易部署、可扩展的优势,分布式的部署方式允许利用计算机集群大规模地并行机器人仿真器解决复杂的深度强化学习问题。
附图说明
图1是本发明总体系统框架图;
图2是环境节点消息订阅/发布图;
图3是学习节点中代理环境的消息订阅/发布图;
图4是学习节点中学习过程的流程图;
图5是不同并行规模加速下的效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
一种仿真机器人深度强化学习的加速方法,包括以下步骤:
第一步:选取一个节点为学习节点,其他节点为环境节点,进行初始化操作,整个系统的结构如图1所示,具体启动的环境节点数根据应用所需的并行化规模确定,包括以下步骤:
1.1在学习节点中初始化需要加速的深度强化学习智能体与代理环境;
1.2为每个机器人仿真器实例初始化一个环境节点,环境节点维护与机器人仿真器实例通信细节,提供统一的消息接口与学习节点的代理环境通信;
在这一步中,环境节点既要与仿真器进行通信,又要与学习节点进行通信,环境节点与学习节点、仿真器之间的消息发布、订阅关系如图2所示;经过环境节点抽象后,学习节点无需关心仿真器,只需要与环境节点通信,图3给出了学习节点的消息发布与订阅关系。这些仿真器和环境节点可以在一台计算机上运行,也可以分布式地运行在多台计算机组成的集群上。
第二步:学习节点通知所有环境节点重置仿真环境,包括以下步骤:
2.1在学习节点调用代理环境的重置方法;
2.2代理环境向各个环境节点发送重置消息;
2.3各个环境节点将对应的机器人仿真器重置,接收到重置后的传感器数据后,将传感器数据发回代理环境;
2.4代理环境将传感器数据作为重置方法的返回值返回;
在这一步中,学习节点与环境节点的交互的通过一个代理环境来实现,代理环境为每个环境节点维护一个环境句柄从而与特定环境节点交互并维护环境信息,代理环境与强化学习智能体之间维持了原有强化学习算法与单个环境交互的接口,从而兼容原有的强化学习智能体实现。
第三步:学习节点采用帧仿真的形式通过代理环境与各个环境节点交互,同时从多个环境中收集学习数据进行强化学习,流程如图4所示,包括以下步骤:
3.1深度强化学习智能体根据各环境的传感器数据计算各环境中仿真机器人应当采取的行动,调用代理环境的迭代方法;
3.2代理环境向各个环境节点发送迭代消息,其中包含仿真机器人应当采取的行动;
3.3各个环境节点将行动指令发送给机器人仿真器,仿真机器人行动并接收到行动后的传感器数据后,根据任务目标计算本次行动的奖励值,判定任务尝试是否终止,将这些信息发回代理环境;
3.4学习节点从代理环境的重置方法返回值获取各个环境中这次行动的反馈数据,按照各个环境逐条保存到队列中,作为强化学习的经验数据;
3.5强化学习智能体根据经验数据进行策略更新,更新的频率可自由设置在一步尝试后、或几步尝试后、或一轮尝试后,强化学习智能体更新策略时按照各个环境的经验数据逐个串行更新;
3.6判断强化学习是否结束,如果结束,则保存强化学习策略并终止学习节点,如果未结束,则根据本轮尝试是否结束重置相应的仿真环境,返回步骤3.1,否则继续进行下一帧的仿真与经验收集,返回步骤3.2。优选的,在所述第一步设置一个学习节点与多个从属环境节点,将强化学习算法与仿真环境通信解耦,学习节点运行强化学习算法,每个环境节点维护与对应机器人仿真器的通信细节,可采用的通信手段包括TCP(TransmissionControl Protocol)、UDP(User Datagram Protocol)、ROS(Robot Operating System)等通信协议或中间件。
优选的,第二步所述的代理环境具有与单个环境相同的接口:重置和迭代,从而基于代理环境的强化学习过程不需要改变已有的针对单个环境的强化学习算法的实现。
优选的,第三步所述的学习节点采用帧仿真的形式在各环境节点尝试行动,并将来自不同仿真环境的经验数据逐条存入队列。
使用不同并行规模对强化学习效果进行了验证,验证场景为移动机器人在迷宫自主漫游,结果如图5所示,只要机器人没有碰撞障碍物就会持续获得奖励,奖励越高代表机器人漫游的时间越长,一旦碰撞障碍物,漫游结束并获得一个惩罚。由于初始策略是随机的,机器人初期尝试一轮漫游只能获得很少的奖励,随着强化学习过程进行,机器人不断收集尝试经验并更新策略,逐渐在一轮漫游中获得越来越多的奖励。验证结果表明,随着并行化规模的提升,机器人获得奖励的增长速度加快,取得相同学习效果所需的时间缩短,在相同学习时间下能够取得更好的学习效果。一方面,相同时间内经验数据的增多能够触发更多对策略的更新,另一方面,更多的经验数据意味着对行动的更充分的采样,即更多次数的尝试,因而能够支持强化学习算法最终取得更优的学习效果。
本发明通过并行地在多个仿真环境实例中进行学习加速仿真机器人的深度强化学习训练过程,采用由学习节点和环境节点构成的“主-从”架构。其中,学习节点运行强化学习算法,强化学习智能体与一个代理环境交互,代理环境具有和单个环境相同的交互接口以确保对已有强化学习算法实现的兼容,代理环境与多个环境节点通信以实现强化学习算法与环境的交互。环境节点提供了统一的交互接口供代理环境调用,维护与具体机器人仿真器的通信,从而解耦了强化学习算法部分与机器人仿真器通信部分,通过环境节点适配各种机器人仿真器。学习节点、环境节点、仿真环境实例能够分布式地部署在计算机集群,这种松耦合的设计提供了丰富的可扩展能力,支持更大的并行化规模以充分利用硬件的并行化资源。本发明能够加速机器人强化学习的训练过程,降低机器人强化学习的研究、调试、部署的时间成本,能够应用于移动机器人避障、编队、机械臂控制、多机器人协同等领域。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (4)

1.一种仿真机器人深度强化学习的加速方法,其特征在于,包括以下步骤:
第一步:选取一个节点为学习节点,其他节点为环境节点,进行初始化操作,具体启动的环境节点数根据应用所需的并行化规模确定,包括以下步骤:
1.1在学习节点中初始化需要加速的深度强化学习智能体与代理环境;
1.2为每个机器人仿真器实例初始化一个环境节点,环境节点维护与机器人仿真器实例通信细节,提供统一的消息接口与学习节点的代理环境通信;
第二步:学习节点通知所有环境节点重置仿真环境,包括以下步骤:
2.1在学习节点调用代理环境的重置方法;
2.2代理环境向各个环境节点发送重置消息;
2.3各个环境节点将对应的机器人仿真器重置,接收到重置后的传感器数据后,将传感器数据发回代理环境;
2.4代理环境将传感器数据作为重置方法的返回值返回;
在这一步中,学习节点与环境节点的交互通过一个代理环境来实现,代理环境为每个环境节点维护一个环境句柄从而与特定环境节点交互并维护环境信息,代理环境与强化学习智能体之间维持了原有强化学习算法与单个环境交互的接口,从而兼容原有的强化学习智能体实现;
第三步:学习节点采用帧仿真的形式通过代理环境与各个环境节点交互,同时从多个环境中收集学习数据进行强化学习,包括以下步骤:
3.1深度强化学习智能体根据各环境的传感器数据计算各环境中仿真机器人应当采取的行动,调用代理环境的迭代方法;
3.2代理环境向各个环境节点发送迭代消息,其中包含仿真机器人应当采取的行动;
3.3各个环境节点将行动指令发送给机器人仿真器,仿真机器人行动并接收到行动后的传感器数据后,根据任务目标计算本次行动的奖励值,判定任务尝试是否终止,将这些信息发回代理环境;
3.4学习节点从代理环境的重置方法返回值获取各个环境中这次行动的反馈数据,按照各个环境逐条保存到队列中,作为强化学习的经验数据;
3.5强化学习智能体根据经验数据进行策略更新,更新的频率可自由设置在一步尝试后、或几步尝试后、或一轮尝试后,强化学习智能体更新策略时按照各个环境的经验数据逐个串行更新;
3.6判断强化学习是否结束,如果结束,则保存强化学习策略并终止学习节点,如果未结束,则根据本轮尝试是否结束重置相应的仿真环境,返回步骤3.1,否则继续进行下一帧的仿真与经验收集,返回步骤3.2。
2.如权利要求1所述的一种仿真机器人深度强化学习的加速方法,其特征在于:在所述第一步设置一个学习节点与多个从属环境节点,将强化学习算法与仿真环境通信解耦,学习节点运行强化学习算法,每个环境节点维护与对应机器人仿真器的通信细节,采用的通信手段包括TCP、UDP、ROS等通信协议或中间件。
3.如权利要求1所述的一种仿真机器人深度强化学习的加速方法,其特征在于:第二步所述的代理环境具有与单个环境相同的接口:重置和迭代,从而基于代理环境的强化学习过程不需要改变已有的针对单个环境的强化学习算法的实现。
4.如权利要求1所述的仿真机器人深度强化学习的加速方法,其特征在于:第三步所述的学习节点采用帧仿真的形式在各环境节点尝试行动,并将来自不同仿真环境的经验数据逐条存入队列。
CN201911021049.4A 2019-10-25 2019-10-25 一种仿真机器人深度强化学习的加速方法 Active CN110728368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911021049.4A CN110728368B (zh) 2019-10-25 2019-10-25 一种仿真机器人深度强化学习的加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911021049.4A CN110728368B (zh) 2019-10-25 2019-10-25 一种仿真机器人深度强化学习的加速方法

Publications (2)

Publication Number Publication Date
CN110728368A true CN110728368A (zh) 2020-01-24
CN110728368B CN110728368B (zh) 2022-03-15

Family

ID=69222045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911021049.4A Active CN110728368B (zh) 2019-10-25 2019-10-25 一种仿真机器人深度强化学习的加速方法

Country Status (1)

Country Link
CN (1) CN110728368B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783224A (zh) * 2020-06-22 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 一种深度强化学习模型无人机部署试验方法和系统
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN113157953A (zh) * 2021-02-24 2021-07-23 山东大学 一种跨终端图片传输方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN109906132A (zh) * 2016-09-15 2019-06-18 谷歌有限责任公司 机器人操纵的深度强化学习
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110084307A (zh) * 2019-04-30 2019-08-02 东北大学 一种基于深度强化学习的移动机器人视觉跟随方法
CN110209152A (zh) * 2019-06-14 2019-09-06 哈尔滨工程大学 智能水下机器人垂直面路径跟随的深度强化学习控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109906132A (zh) * 2016-09-15 2019-06-18 谷歌有限责任公司 机器人操纵的深度强化学习
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110084307A (zh) * 2019-04-30 2019-08-02 东北大学 一种基于深度强化学习的移动机器人视觉跟随方法
CN110209152A (zh) * 2019-06-14 2019-09-06 哈尔滨工程大学 智能水下机器人垂直面路径跟随的深度强化学习控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEKSANDRA FAUST 等: "PRM-RL: Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning", 《2018 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 *
AMIR RAMEZANI DOORAKI 等: "An End-to-End Deep Reinforcement Learning-Based Intelligent Agent Capable of Autonomous Exploration in Unknown Environments", 《SENSORS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111781922B (zh) * 2020-06-15 2021-10-26 中山大学 一种基于深度强化学习的多机器人协同导航方法
CN111783224A (zh) * 2020-06-22 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 一种深度强化学习模型无人机部署试验方法和系统
CN111783224B (zh) * 2020-06-22 2024-01-02 中国人民解放军军事科学院国防科技创新研究院 一种深度强化学习模型无人机部署试验方法和系统
CN113157953A (zh) * 2021-02-24 2021-07-23 山东大学 一种跨终端图片传输方法及系统
CN113157953B (zh) * 2021-02-24 2022-04-29 山东大学 一种跨终端图片传输方法及系统

Also Published As

Publication number Publication date
CN110728368B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN110728368B (zh) 一种仿真机器人深度强化学习的加速方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN110084375A (zh) 一种基于深度强化学习的多agent协作框架
US8612197B1 (en) Large scale simulation architecture for distributed networking waveforms
Obst et al. Spark–a generic simulator for physical multi-agent simulations
KR102535644B1 (ko) 인공지능 에이전트 학습을 위한 모의 실험 환경 제공 장치 및 방법
Walker et al. Bilateral teleoperation over networks based on stochastic switching approach
D’Urso et al. An integrated framework for the realistic simulation of multi-UAV applications
CN113377030A (zh) 一种路口信号控制模型的确定方法和相关装置
CN111860777B (zh) 面向超实时仿真环境的分布式强化学习训练方法及装置
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN112462602B (zh) 一种在DoS攻击下保持移动舞台车队安全间距的分布式控制方法
CN113642243A (zh) 多机器人的深度强化学习系统、训练方法、设备及介质
Janczykowski et al. Large-scale urban traffic simulation with Scala and high-performance computing system
CN114861826A (zh) 基于分布式设计的大规模强化学习训练框架系统
Althoff et al. An architecture for real-time control in multi-robot systems
CN112434792A (zh) 一种用于多智能体系统协同通信和控制的强化学习算法
CN112257874A (zh) 分布式机器学习系统的机器学习方法、装置、系统
Hoxie et al. Developments in standards for networked virtual reality
CN111526177B (zh) 面向智慧城市信息-物理融合的智能物联网系统构建方法
US10230583B1 (en) Multi-node object simulation
US20230311323A1 (en) Methods and systems for improving controlling of a robot
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
CN107609631B (zh) Unity中实现群集AI的方法、存储介质
CN110012021A (zh) 一种移动边缘计算下的自适应计算迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant