CN112925307B - 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 - Google Patents

一种用于智能仓储机器人系统的分布式多机器人路径规划方法 Download PDF

Info

Publication number
CN112925307B
CN112925307B CN202110077352.7A CN202110077352A CN112925307B CN 112925307 B CN112925307 B CN 112925307B CN 202110077352 A CN202110077352 A CN 202110077352A CN 112925307 B CN112925307 B CN 112925307B
Authority
CN
China
Prior art keywords
robot
reward
axis direction
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110077352.7A
Other languages
English (en)
Other versions
CN112925307A (zh
Inventor
郑彬
陈林
赵永廷
王小军
孙小勇
高鹏
肖剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing Institute of Green and Intelligent Technology of CAS
Priority to CN202110077352.7A priority Critical patent/CN112925307B/zh
Publication of CN112925307A publication Critical patent/CN112925307A/zh
Application granted granted Critical
Publication of CN112925307B publication Critical patent/CN112925307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种用于智能仓储机器人系统的分布式多机器人路径规划方法,属于多机器人自动控制技术领域,在格子地图工作空间中,将机器人状态输入到DQN神经网络中产生动作,通过动作作用于环境中,得到下一个时刻的状态和奖励,所述奖励包括引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向的第一部分奖励,以及指导机器人在行驶的过程中避免与其他机器人的碰撞的第二部分奖励。本发明利用DQN训练算法得到一个策略,该策略可以很好的指导机器人在智能仓储空间中从它的初始位置行驶至目标位置,在行驶的过程中,能够避免与其他机器人碰撞。并且尽量减少机器人在行驶的过程中转换方向,提高机器人完成任务的效率。

Description

一种用于智能仓储机器人系统的分布式多机器人路径规划 方法
技术领域
本发明属于多机器人自动控制技术领域,涉及一种用于智能仓储机器人系统的分布式多机器人路径规划方法。
背景技术
智能仓储空间中通常布置有几十甚至上百台机器人,这些机器人通常是24小时连续不断地运输商品。目前,大多数智能仓储系统都采用的是集中式控制方法,中央服务器掌握全部环境信息以及各受控机器人的信息,运用规划算法、优化算法,中央对任务进行分解和分配,向各受控机器人发布命令,组织多个受控机器人共同完成任务。该方法严重依赖于机器人与中央控制器之间的通信,一旦中央控制器出现问题,那么整个智能仓储机器人系统将会瘫痪。该方法的灵活性差,当系统中机器人的个数增加或减少时,原有的规划结果无效,需重新规划。该方法的适应性差,中央服务器在复杂多变的环境中无法保证各受控机器人快速地响应外界的变化,做出适当的决策。因此该结构不适合动态、开放的环境。
发明内容
有鉴于此,本发明的目的在于基于深度强化学习DQN网络,提供一种新的应用于智能仓储机器人系统的分布式多机器人路径规划算法。本发明利用DQN训练算法得到一个策略,该策略可以很好的指导机器人在智能仓储空间中从它的初始位置行驶至目标位置,在行驶的过程中,能够避免与其他机器人碰撞。并且尽量减少机器人在行驶的过程中转换方向,提高机器人完成任务的效率。
为达到上述目的,本发明提供如下技术方案:
一种用于智能仓储机器人系统的分布式多机器人路径规划方法,在格子地图工作空间中运行机器人,将机器人状态输入到DQN(Deep Q Network)神经网络中产生动作,通过动作作用于环境中,得到下一个时刻的状态和奖励,所述奖励包括引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向的第一部分奖励,以及指导机器人在行驶的过程中避免与其他机器人的碰撞的第二部分奖励。
进一步,机器人在kT时刻的状态为skT,T为机器人以速度v移动一个格子所需要的时间;状态skT包括三部分,第一部分为激光雷达扫描周围360°距离的数据so kT,第二部分为当前机器人相对于目标的位置sg kT,第三部分为上一个时刻机器人执行的动作sa kT
Figure BDA0002908054680000021
进一步,根据机器人工作的格子地图工作空间,机器人在kT时刻的动作空间As包含五个动作,分别为前进、后退、往左、往右和停止;在kT时刻机器人将状态输入DQN神经网络得到动作akT
akT~πθ(akT|skT),k=0,1,2,... (2)
As={(v,0),(-v,0),(0,v),(0,-v),(0,0)} (3)。
进一步,第i个机器人的奖励ri kT包括第一部分奖励(gr)i kT和第二部分奖励(cr)i kT
Figure BDA0002908054680000022
进一步,对于第一部分奖励(gr)i kT,如公式(5)所示,当机器人的位置到达目标位置时奖励设置为rarrival=1;当机器人的上一个动作为(0,v)和(0,-v)并且没有到达目标位置时,y轴方向的相对位置的奖励权重设置大于x轴方向(w2>w1);当机器人的上一个动作为(v,0)和(-v,0)并且没有到达目标位置时,x轴方向的相对位置的奖励权重设置大于y轴方向(w2>w1);
Figure BDA0002908054680000023
进一步,对于第二部分奖励(cr)i kT如公式(6)所示,当两个机器发生碰撞的时候设置一个负的奖励rcollision=-1;
Figure BDA0002908054680000024
其中D代表机器人的边长为D。
本发明的有益效果在于:本发明利用DQN训练算法得到一个策略,该策略可以很好的指导机器人在智能仓储空间中从它的初始位置行驶至目标位置,在行驶的过程中,能够避免与其他机器人碰撞。并且尽量减少机器人在行驶的过程中转换方向,提高机器人完成任务的效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为训练策略框架图;
图2为DQN神经网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明根据智能仓储空间中使用的格子地图工作空间,设置强化学习中机器人的动作空间、状态空间和奖励。本发明中,训练策略采用DQN算法,整体训练框架如图1所示,机器人将状态skT输入神经网络产生动作作用于环境中得到下一个时刻的状态s(k+1)T和奖励r(k+1)T
状态:机器人在kT(T为机器人以速度v移动一个格子所需要的时间)时刻的状态skT分别由三个部分组成,第一部分是激光雷达扫描周围360°距离的数据so kT,第二部分为当前机器人相对于目标的位置sg kT,第三部分为上一个时刻机器人执行的动作sa kT
Figure BDA0002908054680000041
动作:根据机器人工作的格子地图工作空间,机器人在kT时刻的动作空间As包含5个动作,分别为前进、后退、往左、往右和停止。在kT时刻机器人将状态喂入DQN神经网络(如图1所示)得到动作akT。DQN神经网络的结构如图2所示,包括两个一维卷积神经网络Conv1D,两个全连接神经网络FC。将so kT输入Conv1D,经过两层Conv1D到达FC,再结合sg kT和sa kT输入第二个FC,最后通过Q(s,a)得到动作akT
akT~πθ(akT|skT),k=0,1,2,... (2)
As={(v,0),(-v,0),(0,v),(0,-v),(0,0)} (3)
奖励:奖励部分是强化学习中最为关键的一环,在本发明中,第i个机器人的奖励ri kT(如公式4所示)总共包含了两个部分组成。首先为了引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向,设计第一部分奖励(gr)i kT。其次,为了指导机器人在行驶的过程中避免与其他机器人的碰撞,设计第二部分奖励(cr)i kT
Figure BDA0002908054680000042
本发明中,(gr)i kT的设计如公式5所示。当机器人的位置到达目标位置时奖励设置为rarrival=1。当机器人的上一个动作为(0,v)和(0,-v)并且没有到达目标位置时,y轴方向的相对位置的奖励权重设置大于x轴方向(w2>w1)。同理,当机器人的上一个动作为(v,0)和(-v,0)并且没有到达目标位置时,x轴方向的相对位置的奖励权重设置大于y轴方向(w2>w1)。
Figure BDA0002908054680000043
本发明中,(cr)i kT的设计如公式6所示。当两个机器发生碰撞的时候设置一个负的奖励rcollision=-1。公式6中的D代表机器人的边长为D。
Figure BDA0002908054680000051
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种用于智能仓储机器人系统的分布式多机器人路径规划方法,其特征在于:在格子地图工作空间中运行机器人,将机器人状态输入到DQN神经网络中产生动作,通过动作作用于环境中,得到下一个时刻的状态和奖励,所述奖励包括引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向的第一部分奖励,以及指导机器人在行驶的过程中避免与其他机器人的碰撞的第二部分奖励;
第i个机器人的奖励ri kT包括第一部分奖励(gr)i kT和第二部分奖励(cr)i kT
Figure FDA0004047773380000011
对于第一部分奖励(gr)i kT,如公式(5)所示,当机器人的位置到达目标位置时奖励设置为rarrival=1;当机器人的上一个动作为(0,v)和(0,-v)并且没有到达目标位置时,y轴方向的相对位置的奖励权重设置大于x轴方向,其中w2>w1;当机器人的上一个动作为(v,0)和(-v,0)并且没有到达目标位置时,x轴方向的相对位置的奖励权重设置大于y轴方向,其中w1>w2,其中w1为x轴方向的相对位置的奖励权重,w2为y轴方向的相对位置的奖励权重;
Figure FDA0004047773380000012
其中sa kT为上一个时刻机器人执行的动作;
对于第二部分奖励(cr)i kT如公式(6)所示,当两个机器发生碰撞的时候设置一个负的奖励rcollision=-1;
Figure FDA0004047773380000013
其中D代表机器人的边长为D。
2.根据权利要求1所述的用于智能仓储机器人系统的分布式多机器人路径规划方法,其特征在于:机器人在kT时刻的状态为skT,T为机器人以速度v移动一个格子所需要的时间;状态skT包括三部分,第一部分为激光雷达扫描周围360°距离的数据so kT,第二部分为当前机器人相对于目标的位置sg kT,第三部分为上一个时刻机器人执行的动作sa kT
Figure FDA0004047773380000021
3.根据权利要求1所述的用于智能仓储机器人系统的分布式多机器人路径规划方法,其特征在于:根据机器人工作的格子地图工作空间,机器人在kT时刻的动作空间As包含五个动作,分别为前进、后退、往左、往右和停止;在kT时刻机器人将状态输入DQN神经网络得到动作akT
akT~πθ(akT|skT),k=0,1,2,... (2)
As={(v,0),(-v,0),(0,v),(0,-v),(0,0)} (3)。
CN202110077352.7A 2021-01-20 2021-01-20 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 Active CN112925307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110077352.7A CN112925307B (zh) 2021-01-20 2021-01-20 一种用于智能仓储机器人系统的分布式多机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110077352.7A CN112925307B (zh) 2021-01-20 2021-01-20 一种用于智能仓储机器人系统的分布式多机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN112925307A CN112925307A (zh) 2021-06-08
CN112925307B true CN112925307B (zh) 2023-03-24

Family

ID=76165116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110077352.7A Active CN112925307B (zh) 2021-01-20 2021-01-20 一种用于智能仓储机器人系统的分布式多机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN112925307B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907248B (zh) * 2022-10-26 2023-07-14 山东大学 基于几何图神经网络的多机器人未知环境路径规划方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
WO2020181729A1 (zh) * 2019-03-08 2020-09-17 江苏海事职业技术学院 一种基于分布式并行计算的路径规划方法及其系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2928262C (en) * 2010-12-30 2018-06-26 Irobot Corporation Mobile robot system
JP2016016475A (ja) * 2014-07-08 2016-02-01 株式会社東芝 複数ロボットの制御システム及び方法
CN108268031A (zh) * 2016-12-30 2018-07-10 深圳光启合众科技有限公司 路径规划方法、装置及机器人
CN107423838A (zh) * 2017-04-16 2017-12-01 江西理工大学 基于混沌引力搜索的车辆路径规划方法
CN108873687B (zh) * 2018-07-11 2020-06-26 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109407676B (zh) * 2018-12-20 2019-08-02 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的机器人避障方法
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法
US11351987B2 (en) * 2019-09-13 2022-06-07 Intel Corporation Proactive vehicle safety system
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN110986951B (zh) * 2019-12-11 2023-03-24 广州市技田信息技术有限公司 一种基于惩罚权重的路径规划方法、导航格以及栅格地图
CN111152227A (zh) * 2020-01-19 2020-05-15 聊城鑫泰机床有限公司 一种基于引导式dqn控制的机械臂控制方法
CN111422741B (zh) * 2020-03-24 2022-02-11 苏州西弗智能科技有限公司 一种桥式起重机运动路径规划方法
CN111366169B (zh) * 2020-04-09 2022-02-15 湖南工学院 一种确定性移动机器人路径规划方法
CN111487864B (zh) * 2020-05-14 2023-04-18 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN112046484B (zh) * 2020-09-21 2021-08-03 吉林大学 一种基于q学习的车辆变道超车路径规划方法
CN112179367B (zh) * 2020-09-25 2023-07-04 广东海洋大学 一种基于深度强化学习的智能体自主导航方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020181729A1 (zh) * 2019-03-08 2020-09-17 江苏海事职业技术学院 一种基于分布式并行计算的路径规划方法及其系统
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Application_of_Deep_Q-Learning_for_Wheel_Mobile_Robot_Navigation;Prases K. Mohanty;《2017 3rd International Conference on Computational Intelligence and Networks (CINE)》;全文 *
基于多智能体强化学习的多AGV路径规划方法;刘辉;《自动化与仪表》;全文 *

Also Published As

Publication number Publication date
CN112925307A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112835333B (zh) 一种基于深度强化学习多agv避障与路径规划方法及系统
CN112925307B (zh) 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
Jin et al. Hierarchical and stable multiagent reinforcement learning for cooperative navigation control
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
Cao et al. The optimization research of formation control for multiple mobile robots
Parhi et al. Navigation of multiple humanoid robots using hybrid adaptive swarm‐adaptive ant colony optimisation technique
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
Kumar et al. Trajectory planning and control of multiple mobile robot using hybrid MKH-fuzzy logic controller
CN116069023B (zh) 一种基于深度强化学习的多无人车编队控制方法和系统
Chen et al. Multi-agent path finding using imitation-reinforcement learning with transformer
Zennir et al. Comparison of PID and fuzzy controller for path tracking control of autonomous electrical vehicles
Lee Federated reinforcement learning-based UAV swarm system for aerial remote sensing
CN115097816B (zh) 一种模块化多机器人协作控制方法
Kafiev et al. Fuzzy logic based control system for automated guided vehicle
WO2021238723A1 (zh) 自动驾驶设备的控制方法、装置、系统及存储介质
Demir et al. Heuristic trajectory planning of robot manipulator
Pratihar et al. Path planning for cooperating robots using a GA-fuzzy approach
Chen et al. Multi-robot navigation based on velocity obstacle prediction in dynamic crowded environments
Khachumov An Approach to Formation Control of UAVs Based on Applying Adapted Kohonen Neural Network
CN117606490B (zh) 一种水下自主航行器协同搜索路径规划方法
CN116755329B (zh) 一种基于深度强化学习的多智能体的避险逃生方法及装置
Ji A Decentralized Path Planning Model Based on Deep Reinforcement Learning
Guo et al. Path Planning for Mobile Robots Based on Algorithm Fusion
CN115755949A (zh) 一种基于多智能体深度强化学习的多无人机编队集群控制方法
Wu et al. Mapless Navigation Based on VDAS-PPO Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant