CN112925307B - 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 - Google Patents
一种用于智能仓储机器人系统的分布式多机器人路径规划方法 Download PDFInfo
- Publication number
- CN112925307B CN112925307B CN202110077352.7A CN202110077352A CN112925307B CN 112925307 B CN112925307 B CN 112925307B CN 202110077352 A CN202110077352 A CN 202110077352A CN 112925307 B CN112925307 B CN 112925307B
- Authority
- CN
- China
- Prior art keywords
- robot
- reward
- axis direction
- action
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000002787 reinforcement Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种用于智能仓储机器人系统的分布式多机器人路径规划方法,属于多机器人自动控制技术领域,在格子地图工作空间中,将机器人状态输入到DQN神经网络中产生动作,通过动作作用于环境中,得到下一个时刻的状态和奖励,所述奖励包括引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向的第一部分奖励,以及指导机器人在行驶的过程中避免与其他机器人的碰撞的第二部分奖励。本发明利用DQN训练算法得到一个策略,该策略可以很好的指导机器人在智能仓储空间中从它的初始位置行驶至目标位置,在行驶的过程中,能够避免与其他机器人碰撞。并且尽量减少机器人在行驶的过程中转换方向,提高机器人完成任务的效率。
Description
技术领域
本发明属于多机器人自动控制技术领域,涉及一种用于智能仓储机器人系统的分布式多机器人路径规划方法。
背景技术
智能仓储空间中通常布置有几十甚至上百台机器人,这些机器人通常是24小时连续不断地运输商品。目前,大多数智能仓储系统都采用的是集中式控制方法,中央服务器掌握全部环境信息以及各受控机器人的信息,运用规划算法、优化算法,中央对任务进行分解和分配,向各受控机器人发布命令,组织多个受控机器人共同完成任务。该方法严重依赖于机器人与中央控制器之间的通信,一旦中央控制器出现问题,那么整个智能仓储机器人系统将会瘫痪。该方法的灵活性差,当系统中机器人的个数增加或减少时,原有的规划结果无效,需重新规划。该方法的适应性差,中央服务器在复杂多变的环境中无法保证各受控机器人快速地响应外界的变化,做出适当的决策。因此该结构不适合动态、开放的环境。
发明内容
有鉴于此,本发明的目的在于基于深度强化学习DQN网络,提供一种新的应用于智能仓储机器人系统的分布式多机器人路径规划算法。本发明利用DQN训练算法得到一个策略,该策略可以很好的指导机器人在智能仓储空间中从它的初始位置行驶至目标位置,在行驶的过程中,能够避免与其他机器人碰撞。并且尽量减少机器人在行驶的过程中转换方向,提高机器人完成任务的效率。
为达到上述目的,本发明提供如下技术方案:
一种用于智能仓储机器人系统的分布式多机器人路径规划方法,在格子地图工作空间中运行机器人,将机器人状态输入到DQN(Deep Q Network)神经网络中产生动作,通过动作作用于环境中,得到下一个时刻的状态和奖励,所述奖励包括引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向的第一部分奖励,以及指导机器人在行驶的过程中避免与其他机器人的碰撞的第二部分奖励。
进一步,机器人在kT时刻的状态为skT,T为机器人以速度v移动一个格子所需要的时间;状态skT包括三部分,第一部分为激光雷达扫描周围360°距离的数据so kT,第二部分为当前机器人相对于目标的位置sg kT,第三部分为上一个时刻机器人执行的动作sa kT;
进一步,根据机器人工作的格子地图工作空间,机器人在kT时刻的动作空间As包含五个动作,分别为前进、后退、往左、往右和停止;在kT时刻机器人将状态输入DQN神经网络得到动作akT;
akT~πθ(akT|skT),k=0,1,2,... (2)
As={(v,0),(-v,0),(0,v),(0,-v),(0,0)} (3)。
进一步,第i个机器人的奖励ri kT包括第一部分奖励(gr)i kT和第二部分奖励(cr)i kT:
进一步,对于第一部分奖励(gr)i kT,如公式(5)所示,当机器人的位置到达目标位置时奖励设置为rarrival=1;当机器人的上一个动作为(0,v)和(0,-v)并且没有到达目标位置时,y轴方向的相对位置的奖励权重设置大于x轴方向(w2>w1);当机器人的上一个动作为(v,0)和(-v,0)并且没有到达目标位置时,x轴方向的相对位置的奖励权重设置大于y轴方向(w2>w1);
进一步,对于第二部分奖励(cr)i kT如公式(6)所示,当两个机器发生碰撞的时候设置一个负的奖励rcollision=-1;
其中D代表机器人的边长为D。
本发明的有益效果在于:本发明利用DQN训练算法得到一个策略,该策略可以很好的指导机器人在智能仓储空间中从它的初始位置行驶至目标位置,在行驶的过程中,能够避免与其他机器人碰撞。并且尽量减少机器人在行驶的过程中转换方向,提高机器人完成任务的效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为训练策略框架图;
图2为DQN神经网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明根据智能仓储空间中使用的格子地图工作空间,设置强化学习中机器人的动作空间、状态空间和奖励。本发明中,训练策略采用DQN算法,整体训练框架如图1所示,机器人将状态skT输入神经网络产生动作作用于环境中得到下一个时刻的状态s(k+1)T和奖励r(k+1)T。
状态:机器人在kT(T为机器人以速度v移动一个格子所需要的时间)时刻的状态skT分别由三个部分组成,第一部分是激光雷达扫描周围360°距离的数据so kT,第二部分为当前机器人相对于目标的位置sg kT,第三部分为上一个时刻机器人执行的动作sa kT。
动作:根据机器人工作的格子地图工作空间,机器人在kT时刻的动作空间As包含5个动作,分别为前进、后退、往左、往右和停止。在kT时刻机器人将状态喂入DQN神经网络(如图1所示)得到动作akT。DQN神经网络的结构如图2所示,包括两个一维卷积神经网络Conv1D,两个全连接神经网络FC。将so kT输入Conv1D,经过两层Conv1D到达FC,再结合sg kT和sa kT输入第二个FC,最后通过Q(s,a)得到动作akT。
akT~πθ(akT|skT),k=0,1,2,... (2)
As={(v,0),(-v,0),(0,v),(0,-v),(0,0)} (3)
奖励:奖励部分是强化学习中最为关键的一环,在本发明中,第i个机器人的奖励ri kT(如公式4所示)总共包含了两个部分组成。首先为了引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向,设计第一部分奖励(gr)i kT。其次,为了指导机器人在行驶的过程中避免与其他机器人的碰撞,设计第二部分奖励(cr)i kT。
本发明中,(gr)i kT的设计如公式5所示。当机器人的位置到达目标位置时奖励设置为rarrival=1。当机器人的上一个动作为(0,v)和(0,-v)并且没有到达目标位置时,y轴方向的相对位置的奖励权重设置大于x轴方向(w2>w1)。同理,当机器人的上一个动作为(v,0)和(-v,0)并且没有到达目标位置时,x轴方向的相对位置的奖励权重设置大于y轴方向(w2>w1)。
本发明中,(cr)i kT的设计如公式6所示。当两个机器发生碰撞的时候设置一个负的奖励rcollision=-1。公式6中的D代表机器人的边长为D。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种用于智能仓储机器人系统的分布式多机器人路径规划方法,其特征在于:在格子地图工作空间中运行机器人,将机器人状态输入到DQN神经网络中产生动作,通过动作作用于环境中,得到下一个时刻的状态和奖励,所述奖励包括引导机器人从初始位置行驶至终止位置并且行驶的过程中尽量减少转换方向的第一部分奖励,以及指导机器人在行驶的过程中避免与其他机器人的碰撞的第二部分奖励;
第i个机器人的奖励ri kT包括第一部分奖励(gr)i kT和第二部分奖励(cr)i kT:
对于第一部分奖励(gr)i kT,如公式(5)所示,当机器人的位置到达目标位置时奖励设置为rarrival=1;当机器人的上一个动作为(0,v)和(0,-v)并且没有到达目标位置时,y轴方向的相对位置的奖励权重设置大于x轴方向,其中w2>w1;当机器人的上一个动作为(v,0)和(-v,0)并且没有到达目标位置时,x轴方向的相对位置的奖励权重设置大于y轴方向,其中w1>w2,其中w1为x轴方向的相对位置的奖励权重,w2为y轴方向的相对位置的奖励权重;
其中sa kT为上一个时刻机器人执行的动作;
对于第二部分奖励(cr)i kT如公式(6)所示,当两个机器发生碰撞的时候设置一个负的奖励rcollision=-1;
其中D代表机器人的边长为D。
3.根据权利要求1所述的用于智能仓储机器人系统的分布式多机器人路径规划方法,其特征在于:根据机器人工作的格子地图工作空间,机器人在kT时刻的动作空间As包含五个动作,分别为前进、后退、往左、往右和停止;在kT时刻机器人将状态输入DQN神经网络得到动作akT;
akT~πθ(akT|skT),k=0,1,2,... (2)
As={(v,0),(-v,0),(0,v),(0,-v),(0,0)} (3)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077352.7A CN112925307B (zh) | 2021-01-20 | 2021-01-20 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077352.7A CN112925307B (zh) | 2021-01-20 | 2021-01-20 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112925307A CN112925307A (zh) | 2021-06-08 |
CN112925307B true CN112925307B (zh) | 2023-03-24 |
Family
ID=76165116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110077352.7A Active CN112925307B (zh) | 2021-01-20 | 2021-01-20 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925307B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907248B (zh) * | 2022-10-26 | 2023-07-14 | 山东大学 | 基于几何图神经网络的多机器人未知环境路径规划方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
WO2020181729A1 (zh) * | 2019-03-08 | 2020-09-17 | 江苏海事职业技术学院 | 一种基于分布式并行计算的路径规划方法及其系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2928262C (en) * | 2010-12-30 | 2018-06-26 | Irobot Corporation | Mobile robot system |
JP2016016475A (ja) * | 2014-07-08 | 2016-02-01 | 株式会社東芝 | 複数ロボットの制御システム及び方法 |
CN108268031A (zh) * | 2016-12-30 | 2018-07-10 | 深圳光启合众科技有限公司 | 路径规划方法、装置及机器人 |
CN107423838A (zh) * | 2017-04-16 | 2017-12-01 | 江西理工大学 | 基于混沌引力搜索的车辆路径规划方法 |
CN108873687B (zh) * | 2018-07-11 | 2020-06-26 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN109407676B (zh) * | 2018-12-20 | 2019-08-02 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
CN110389591A (zh) * | 2019-08-29 | 2019-10-29 | 哈尔滨工程大学 | 一种基于dbq算法的路径规划方法 |
US11351987B2 (en) * | 2019-09-13 | 2022-06-07 | Intel Corporation | Proactive vehicle safety system |
CN110703766B (zh) * | 2019-11-07 | 2022-01-11 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
CN110977967A (zh) * | 2019-11-29 | 2020-04-10 | 天津博诺智创机器人技术有限公司 | 一种基于深度强化学习的机器人路径规划方法 |
CN110986951B (zh) * | 2019-12-11 | 2023-03-24 | 广州市技田信息技术有限公司 | 一种基于惩罚权重的路径规划方法、导航格以及栅格地图 |
CN111152227A (zh) * | 2020-01-19 | 2020-05-15 | 聊城鑫泰机床有限公司 | 一种基于引导式dqn控制的机械臂控制方法 |
CN111422741B (zh) * | 2020-03-24 | 2022-02-11 | 苏州西弗智能科技有限公司 | 一种桥式起重机运动路径规划方法 |
CN111366169B (zh) * | 2020-04-09 | 2022-02-15 | 湖南工学院 | 一种确定性移动机器人路径规划方法 |
CN111487864B (zh) * | 2020-05-14 | 2023-04-18 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN112046484B (zh) * | 2020-09-21 | 2021-08-03 | 吉林大学 | 一种基于q学习的车辆变道超车路径规划方法 |
CN112179367B (zh) * | 2020-09-25 | 2023-07-04 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
-
2021
- 2021-01-20 CN CN202110077352.7A patent/CN112925307B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181729A1 (zh) * | 2019-03-08 | 2020-09-17 | 江苏海事职业技术学院 | 一种基于分布式并行计算的路径规划方法及其系统 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
Non-Patent Citations (2)
Title |
---|
Application_of_Deep_Q-Learning_for_Wheel_Mobile_Robot_Navigation;Prases K. Mohanty;《2017 3rd International Conference on Computational Intelligence and Networks (CINE)》;全文 * |
基于多智能体强化学习的多AGV路径规划方法;刘辉;《自动化与仪表》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112925307A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112835333B (zh) | 一种基于深度强化学习多agv避障与路径规划方法及系统 | |
CN112925307B (zh) | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 | |
Jin et al. | Hierarchical and stable multiagent reinforcement learning for cooperative navigation control | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
Cao et al. | The optimization research of formation control for multiple mobile robots | |
Parhi et al. | Navigation of multiple humanoid robots using hybrid adaptive swarm‐adaptive ant colony optimisation technique | |
CN113485323B (zh) | 一种级联多移动机器人灵活编队方法 | |
Kumar et al. | Trajectory planning and control of multiple mobile robot using hybrid MKH-fuzzy logic controller | |
CN116069023B (zh) | 一种基于深度强化学习的多无人车编队控制方法和系统 | |
Chen et al. | Multi-agent path finding using imitation-reinforcement learning with transformer | |
Zennir et al. | Comparison of PID and fuzzy controller for path tracking control of autonomous electrical vehicles | |
Lee | Federated reinforcement learning-based UAV swarm system for aerial remote sensing | |
CN115097816B (zh) | 一种模块化多机器人协作控制方法 | |
Kafiev et al. | Fuzzy logic based control system for automated guided vehicle | |
WO2021238723A1 (zh) | 自动驾驶设备的控制方法、装置、系统及存储介质 | |
Demir et al. | Heuristic trajectory planning of robot manipulator | |
Pratihar et al. | Path planning for cooperating robots using a GA-fuzzy approach | |
Chen et al. | Multi-robot navigation based on velocity obstacle prediction in dynamic crowded environments | |
Khachumov | An Approach to Formation Control of UAVs Based on Applying Adapted Kohonen Neural Network | |
CN117606490B (zh) | 一种水下自主航行器协同搜索路径规划方法 | |
CN116755329B (zh) | 一种基于深度强化学习的多智能体的避险逃生方法及装置 | |
Ji | A Decentralized Path Planning Model Based on Deep Reinforcement Learning | |
Guo et al. | Path Planning for Mobile Robots Based on Algorithm Fusion | |
CN115755949A (zh) | 一种基于多智能体深度强化学习的多无人机编队集群控制方法 | |
Wu et al. | Mapless Navigation Based on VDAS-PPO Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |