CN116501034A - 基于迁移强化学习的vex机器人路径规划方法 - Google Patents
基于迁移强化学习的vex机器人路径规划方法 Download PDFInfo
- Publication number
- CN116501034A CN116501034A CN202310282213.7A CN202310282213A CN116501034A CN 116501034 A CN116501034 A CN 116501034A CN 202310282213 A CN202310282213 A CN 202310282213A CN 116501034 A CN116501034 A CN 116501034A
- Authority
- CN
- China
- Prior art keywords
- robot
- path
- path planning
- grid
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012546 transfer Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000005012 migration Effects 0.000 claims abstract description 19
- 238000013508 migration Methods 0.000 claims abstract description 19
- 238000004088 simulation Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 23
- 230000033001 locomotion Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 29
- 238000004904 shortening Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 25
- 238000002474 experimental method Methods 0.000 description 14
- 238000013526 transfer learning Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004883 computer application Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 241000218645 Cedrus Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000026058 directional locomotion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0219—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
机器人执行任务时需要具备移动控制和路径规划的能力,其中合理的路径规划能够降低时间成本、提高工作效率。针对传统路径规划在不同任务之间学习经验难以迁移的问题,本发明提出一种基于迁移强化学习的VEX机器人路径规划方法,首先,用栅格法对当前比赛场地进行划分,智能体使用强化学习设计单场比赛的最优路径,获得学习经验;接着,智能体使用迁移强化学习重用源任务的先验经验,将之迁移到下一个比赛,从而缩短了新场地的路径搜索时间。“合纵连横”和“一触即发”比赛下的仿真结果表明,相比于传统的A*算法、Dijkstra算法,本方法在降低模型训练时间的同时提高了路径规划的准确性,有效解决了高相关性路径规划任务之间的经验共享问题。
Description
技术领域
本发明是一种AI技术在VEX机器人竞赛的应用方法,具体是基于迁移强化学习的VEX机器人路径规划方法。
背景技术
信息化与智能化的时代潮流推动着机器人技术的飞速发展,机器人被广泛应用于各类工业、农业、医疗居家服务以及军事科考等重要领域。目前,机器人技术被众多国家列为重点发展的一项高新技术,并且相关产业是衡量综合国力强弱的重要标志[1]。为了主动适应国际新技术发展的形势,开创新型的智能产业模式,教育部从2017年2月开始积极推进新工科建设,目标是培养造就一批创新型工程科技人才,增强高新科技的国际竞争力[2]。特别是机器人的不断普及和应用,急需大量从事研究和实践复杂多样应用场景的机器人技术工程师。机器人竞赛因其具有前沿性、综合性、实践性等优点,成为了培养创新型人才的主要手段和重要突破口。
VEX是美国太空总署、美国易安信公司、亚洲机器人联盟雪佛龙、德州仪器、诺斯罗普·格鲁曼公司和其他美国公司共同大力支持的机器人项目。比赛由十五秒的自主时间和一分四十五秒的操作手控制时间组成。比赛目标是通过机器人将得分物移动到规定区域来达到比对方联队更高的分数。若要在自动程序阶段获得尽可能高的分数,则设计合理的机器人最优路径规划尤为重要。
机器人路径规划的目标是在一个有障碍物的空间中快速规划出一条无碰撞的最优路径,使机器人能平滑、稳定地从起始地到达目标地[3]。路径规划算法有传统的A*算法[4]、Dijkstra算法[5]、人工势场法[6]等以及基于进化算法的遗传算法[7]、粒子群算法[8]、蚁群算法[9]等。其中传统算法需要对复杂的规划空间和障碍物进行精确地建模,并且环境越复杂,规划效率越低;进化算法虽学习能力强,但实时性差、计算量大且易于陷入局部最优解。针对传统算法存在的问题,研究者利用强化学习(Reinforcement Learning,RL)引导机器人在未知环境状态中不断与环境交互,通过试错寻找更准确的移动方向。强化学习无需先验知识,根据感知到的环境信息选择动作,再结合奖励判断动作价值,指导机器人正确执行设计的任务,因而非常适合于机器人路径规划的自主学习。文献[10]提出了一种全局引导强化学习方法(G2RL),当机器人遇到障碍物时无需重新调用强化学习寻找替代路径,而是利用已学习的全局经验以分布式响应的方式解决机器人路径规划问题。实验结果表明,G2RL在不同的地图类型、障碍物密度下均具有良好的路径寻优性能。文献[11]提出了一种能量感知覆盖路径规划(CTPP)框架,该框架根据机器人的移动学(包括变换、平移和定向动作)和所需能量来设计强化学习的动作空间和奖励函数,并且经过模型训练获得了以最少能量和时间从源地点到目标地点的最优路径。考虑包含静态和动态障碍物的最优路径,文献[12]提出了一种将ε-贪婪策略与模拟退火冷却调度控制相结合的动作选择策略,结合启发式奖励函数解决了未知环境下探索-利用的难题。同时,在实际机器人操作系统(ROS)下提高了无碰撞路径规划的全局搜索性能和学习效率。
上述文献设计了单一场景下多种基于强化学习的路径规划方法。注意到VEX机器人竞赛中相同赛季的比赛规则和场地设置具有一致性,不同赛季的比赛规则和场地设置具有相似性。为了提高多种赛制中自动程序阶段的路径规划效率,赛队中程序员需要重用学习经验,将之在不同比赛之间进行迁移。迁移学习(Transfer Learning,TL)[12]利用事先学习的知识和技能,能够在小样本情况下训练模型来实现新任务的快速求解,同时提升模型的鲁棒性和泛化性。文献[13]设计了一种基于协方差矩阵自适应进化策略的动态近端策略优化方法。在训练阶段,训练机器人学习能够避开障碍物的策略;在测试阶段,利用迁移学习将训练参数转移到新环境作为初始参数来探寻最优路径,大大减少了训练深度网络所需的计算时间。将迁移学习引入强化学习,研究者获得了一种新的深度学习模-迁移强化学习(Transfer Reinforcement Learning,TRL)[14][15],该模型可以降低多种相关场景下强化学习的训练时间。在Open AI健身房的实际场景下,文献[16]尝试应用强化学习在火灾蔓延情况下生成最优疏散路径。首先在91个房间的建筑体上测试训练好的深度Q学习(DeepQ-Learning,DQL)模型,然后利用迁移学习将学习经验迁移至其他大型复杂建筑体上,使得DQL可以在较大的操作空间中加速探索到最优疏散路径。文献[17]采用迁移学习设计了一种适应动态环境的机器人快速路径规划方法。首先在静态环境下对Q网络进行预训练;接着将训练后的参数作为新环境下Q网络的初始参数,通过参数微调将训练收敛时间从1033回合缩短到450回合,在保证路径规划准确率的同时加快了训练速度。文献[18]提出了一种基于改进Q-learning的迁移学习算法来解决机器人路径规划问题。应用基于动作集、状态转移函数和奖励函数的Kantorovich度量有效估计了两个应用场景下马尔可夫决策过程(Markov Decision Process,MDP)之间的相似度,从而实现了改进Q-learning在不同场景之间的迁移,使得智能体比传统Q-learning更快探索到无障碍路径。
发明内容
针对传统路径规划方法寻路效率不高以及相似场景下路径规划经验无法共享的问题,本发明提出一种基于迁移强化学习的VEX机器人路径规划方法。
首先,在栅格地图环境下,智能体利用强化学习不断与环境交互而探索到“合纵连横”和“一触即发”单场比赛中机器人的最优路径。
接着,智能体利用迁移学习将上一场比赛的学习经验迁移到相同赛制的下一场比赛或者不相同赛制的下一场比赛,再根据当前环境完成动作选择策略,高效寻找到机器人的最优路径。
最后,实验结果表明,“合纵连横”和“一触即发”比赛中迁移强化学习的路径规划时间比A*算法、Dijkstra算法分别减少了66.5%、16.5%和52%、19.4%。本发明减少了智能体在高度相关比赛中对未知环境的无效探索,降低模型训练时间的同时提高了路径规划准确率,有效解决了高相关路径规划任务之间经验迁移问题。
附图说明
图1是“合纵连横”的场地布局俯视图;
图2是“一触即发”的场地布局俯视图;
图3是“合纵连横”场地的栅格示意图;
图4是“一触即发”场地的栅格示意图;
图5是机器人8种移动方向示意图;
图6是“合纵连横”下两场比赛之间学习经验迁移的示意图;
图7是“合纵连横”和“一触即发”下两场比赛之间学习经验迁移的示意图;
图8是“合纵连横”下Q-learning的收敛曲线图;
图9(a)~图9(c)分别是实验1~实验3对应的“合纵连横”下Q-learning的最优路径图;
图10是“合纵连横”下迁移强化学习的收敛曲线图;
图11(a)~图11(c)分别是实验4~实验6对应的“合纵连横”下迁移强化学习的最优路径图;
图12是从“合纵连横”到“一触即发”的迁移强化学习收敛曲线图;
图13是从“合纵连横”到“一触即发”的迁移强化学习最优路径图;
图14(a)~图14(c)分别是三种方法对应的“合纵连横”下起始栅格坐标(0,2)的最优路径图;
图15(a)~图15(c)分别是三种方法对应的“合纵连横”下起始栅格坐标(0,3)的最优路径图;
图16(a)~图16(c)分别是三种方法对应的“一触即发”下起始栅格坐标(0,1)的最优路径图。
具体实施方式
下面结合附图与具体实施方式对本发明进一步说明。
1发明概述
本发明利用迁移强化学习探索VEX自动赛阶段中机器人的最优路径,首先用栅格法划分比赛场地,建立机器人路径规划的目标优化模型;接着,利用强化学习求解单场比赛的机器人最优路径;然后,根据上一场比赛的学习经验,利用迁移强化学习求解下一场比赛的机器人最优路径;最后,对“合纵连横”和“一触即发”比赛进行仿真实验,评估基于迁移强化学习的路径规划性能。
本方法展现VEX竞赛中快速、高效探索机器人最优路径的过程。相比于传统的A*算法、Dijkstra算法,本方法在降低模型训练时间的同时提高了路径规划的准确性,有效解决了高相关性路径规划任务之间的经验共享问题。
2 机器人路径规划建模
2.1 比赛任务描述
VEX机器人竞赛在12英尺×12英尺的正方形场地上进行,红、蓝联队的各自两个赛队在包含前十五秒自动赛阶段和后一分四十五秒手动控制阶段的比赛中互相竞争。在自动赛阶段,各赛队的程序员要根据赛季要求设计机器人避开障碍物的移动路径,以最快的速度到达目标地、完成对抗任务。VEX竞赛是包括多种赛制的机器人比赛,其中有“合纵连横”、“一触即发”比赛。
如图1所示,“合纵连横”的场地有9个纵横桩以及红、蓝联队各自的16个球。比赛开始前,红、蓝联队分别使用1个红球和1个蓝球作为预装。比赛过程中各联队将对应颜色的球放入纵横桩后得分。例如,红方联队的机器人携带预装球从出发区域的任意坐标到达东南角的纵横桩A,将球投入该纵横桩后得分。自动赛阶段结束时,任意联队在其纵横内达成连横就能获得自动获胜分,得分最高的联队将获得自动阶段奖励分。
如图2所示,“一触即发”的场地有3个中立环塔与60个曲环以及红、蓝联队各自的6个预装曲环、2个联队环塔、1个平衡桥。任意联队在比赛过程中将曲环放入环塔、将环塔移入本方区域及爬上平衡桥,比赛结束时即可得分。例如,红方联队的机器人可以直接移动到环塔A的曲环位置,将预装曲环放入环塔;也可以先移动到坐标a,待对方将曲环放入环塔B后直接将环塔B移入自己方得分。比赛结束时,任意联队的AWP线达成移除且两个赛队的环塔至少有一个曲环得分就能获得自动获胜分,得分最高的联队获得自动阶段奖励分。
由上可见,VEX竞赛中机器人路径规划是比赛各个环节得分的关键,特别是自动赛阶段。赛队中程序员需要根据图1和图2的场地布局,设计可行、高效的路径规划,为机器人寻找一条从起始地到目标地的长度最短的无碰撞路径。
2.2路径规划模型
为了建立机器人路径规划的模型环境,VEX竞赛场地被划分成一个二维栅格图,并将栅格属性定义为机器人的移动情况及障碍物的信息。图3和图4显示“合纵连横”和“一触即发”的场地均被划分成9×9的删格图,每个栅格宽度为l=4/3英尺,其中黑色栅格表示纵横桩、环塔或平衡桥等,白色栅格表示无障碍物的可移动区域。
机器人在每个栅格上有若干种移动方向,但为了避免高复杂度的模型,考虑有代表性的8种移动方向:向前、向后、向左、向右、向右前、向右后、向左后、向左前,如图5所示。机器人从初始栅格坐标(xorigin,yorigin)向目标栅格坐标(xtarget,ytarget)移动的过程中,若令移动速度为v,则到达当前栅格坐标(x,y)的移动时间可表示为
其中n1和n2分别表示机器人向前、向后、向左、向右方向以及向右前、向右后、向左后、向左前方向移动的栅格总数,n=n1+n2表示机器人8个方向移动的栅格总数。另外,相应于8个移动方向,定义向前为零度方向,顺时针为正向,逆时针为负向,则机器人转动角度θ的集合可表示为
结合移动方向和转动角度,机器人在自动赛阶段的路径规划可建模为如下的目标优化问题
s.t.tn≤15s (2a)
θ∈Θ (2b)
其中,约束条件(2a)表示机器人移动时间不超过15s,约束条件(2b)表示机器人有8个移动方向。下面,首先利用强化学习求解问题P1,寻找单场比赛的机器人最优路径。
2基于强化学习的单场比赛路径规划
2.1 Q-learning原理
Q-learning是Watkins在1989年提出的一种无模型强化学习算法,它将智能体(Agent)和环境的交互看作一个马尔科夫决策过程,其模型可以表示为一个四元组<S,A,P,R>,其中S={s1,...,sn}表示环境状态集合,A={a1,...,an}表示可执行的动作集合,P表示状态转移概率,R表示执行动作A后的即时收益。
每一轮学习中智能体感知环境状态后由当前策略π选择一个动作作用于环境,环境状态由此发生变化,同时产生奖赏值r=(s,a)反馈给智能体。智能体根据回报和当前环境状态更新策略。经过不断地学习,智能体最终找到最大化期望的长期累积回报Vπ(s)的最优策略π*(s)
其中γ∈(0,1)为折扣因子。根据Bellman最优准则,式(3)的最大值为
其中R(s,a)为r(s,a)的数学期望,Ps,s′(a)为状态s在动作a作用下转移到状态s′的概率。
Q-learning可在R(s,a)和Ps,s′(a)未知时,通过简单的Q值迭代寻找满足式(4)的最优策略π*。将策略π对应的每一个状态-动作对(s,a)与一个Q值关联
则式(5)中Q值的更新公式为
其中学习速率α(0<α<1)越大,算法收敛越快。随着迭代次数增加,Q(s,a)将以概率1收敛到最优值Q*(s,a),同时获得最优策略
2.2基于强化学习的路径规划
VEX竞赛的每一场比赛均需要赛队中程序员设计自动赛阶段的机器人移动路径。针对单场比赛的路径规划,程序员应用Q-learning探索机器人的最优路径。具体地,四元组<S,A,P,R>可作如下的描述:
(1)外界环境状态S={1,…,81}表示比赛场地被划分的81个栅格序列。
(2)动作集合A={1,…,8}表示机器人向前、向后、向左、向右、向右前、向右后、向左后、向左前8个移动方向序列。
(3)奖赏函数r=r(s,a)为系统在状态s∈S下选择动作a∈A的最大收益,即
其中,Dis表示机器人当前坐标与目标坐标的欧式距离。机器人越接近目标栅格,前进一格所获负奖励越小;遇到障碍物获得负奖励会促使智能体作出更优的移动决策,帮助机器人更快到达目标栅格。
根据上述问题描述,基于Q-learning的路径规划方法设计如下:
Step 1初始化:纵横桩、环塔、曲环、平衡桥的栅格位置,机器人起始栅格和目标栅格的坐标,Q表和R表;
Step 2动作选择:智能体利用ε-贪婪策略在动作集合A中选择机器人的移动方向,即以概率ε∈[0,1]选择状态s下Q值最大的动作,同时以1-ε的概率随机选择动作;
Step 3更新Q值:结合记录的状态-动作(s,a)及奖赏值r,依据式(6)更新Q(s,a);
Step 4迭代训练:重复步骤Step2~Step3,直至Q表收敛;
Step 5路径求解:智能体在已训练的Q表上查找当前比赛的机器人最优路径,并由主控板发出移动指令,指导机器人以最快速度到达目标栅格。
3基于迁移强化学习的两场比赛路径规划
3.1迁移强化学习原理
通常,使用AI技术的实际场景在应用初期缺少开发经验,而迁移学习可以引入另一个应用场景中训练成熟的AI模型,帮助提升本地AI模型的性能[19]。具体地,假设给定源域Ds和学习任务Ts、目标域Dt和学习任务Tt,迁移学习通过获取Ds和Ts的知识来帮助提升Dt中Tt的学习能力,其中Ds≠Dt,Ts≠Tt。易见,迁移学习将源任务的学习经验应用到目标任务,使得目标任务的训练更加高效。
在新任务的初始学习阶段,强化学习的探索较为盲目。智能体经过与环境交互的不断训练后才能收敛到最优解。若新任务与源任务有较强的相关性,则智能体的探索动作会出现较多重复,从而大大增加了计算成本。为了避免智能体在新环境的盲目探索,迁移学习被引入强化学习形成迁移强化学习[20]。智能体重用源任务的学习知识,将之作为先验知识来加速新任务的模型训练,降低全局寻优难度。
3.2基于迁移强化学习的路径规划
VEX竞赛的每一赛季分为省赛、国赛、世锦赛等不同级别的比赛。考虑到对手更换、比赛规则变化等实际情况,程序员需要在上一场比赛结束后调整下一场比赛的机器人路径策略。两场比赛的环境、目标等高度相似,符合迁移强化学习的应用条件。于是,定义上一场比赛的路径规划是源任务,下一场比赛的路径规划是目标任务。无需从头开始训练Q表,程序员重用上一场比赛的寻路经验,在节省大量训练成本下求出下一场比赛的最优路径。
图6给出了“合纵连横”中两场比赛之间路径规划经验的迁移,即相同类别比赛之间的知识迁移。当对手更换使得红队或者蓝队需要更换机器人的起始栅格时,智能体先读取上一场比赛的Q表和R表,再根据下一场比赛的初始状态重新训练Q表来获得新的最优路径。
“合纵连横”与“一触即发”的比赛环境和机器人任务也具有高度相似性,例如比赛时间、场地大小都一致,避开障碍物将得分物移动到目标栅格的任务都一致。因此,程序员可以使用迁移强化学习在不同类别比赛之间进行知识迁移,如图7所示。根据“一触即发”场地环境修改“合纵连横”的R表后,智能体在“合纵连横”的Q表上进行模型训练,在先验知识的指导下快速探索到新的最优路径。
4仿真实验与结果分析
下面,对本发明基于迁移强化学习的VEX机器人路径规划方法进行仿真实验。对比A*算法、Dijkstra算法,通过分析和评估VEX竞赛中机器人路径规划的性能来验证本发明的可行性和有效性。
4.1强化学习路径规划的性能分析
本发明以“合纵连横”为例展示基于Q-learning的机器人路径探索过程,其中模型训练过程中设置学习率α为0.01,折扣系数γ为0.9,最大迭代次数为2000。
本发明设计了三组实验:设置起始栅格坐标分别为(0,5),(0,6),(0,7),对应的目标栅格坐标都为(8,8);都进行2000次模型训练。如图8所示,随着智能体对环境了解的逐渐深入,学习经验产生了指导作用,使得奖赏值逐渐增加,最终分别在862,778,748次迭代后完成了收敛。相应地,图9给出了迭代收敛后实验1~实验3的机器人最优路径。易见,利用Q-learning可以顺利地求解出不同起始栅格的最优路径,大大增加了自动赛阶段的得分几率。
4.2迁移强化学习路径规划的性能分析
单场比赛的Q-learning训练提供了学习经验,智能体可以利用迁移强化学习将成熟经验迁移到下一场比赛。本发明选取实验2的路径规划作为源任务,将之从“合纵连横”的一场比赛迁移到另外三场比赛。设置起始栅格坐标分别为(0,1),(0,2),(0,3),对应的目标栅格坐标都为(8,8)。图10显示,实验4~实验6在开始迭代时奖赏值都呈现快速上升趋势,分别经过564次、473次、296次迭代就完成了收敛,训练次数明显少于实验1~实验3。显然,源任务的学习经验对目标任务起到了指导作用,减少了智能体探索环境的盲目性。相应地,图11显示机器人在三条最短路径上行进十分顺畅,可以很快到达目标栅格。
接着,本发明将“合纵连横”的学习经验迁移到“一触即发”比赛中,即不同类别比赛之间的知识迁移。实验7~实验8设置起始栅格坐标分别为(0,0),(0,1),对应的目标栅格坐标都为(8,8)。此时,源任务和目标任务的场地环境和路径起点均发生了较大变化,所以源任务的学习经验并不能完全适用于目标任务,智能体需要根据新的环境状态修改源任务的学习经验。相比于图11中目标任务与源任务有较高的相似性,图12中迭代前期的奖赏值出现了一些波动。但是,随着学习次数的增加和学习经验的积累,奖赏值逐步趋于收敛。最终,实验7~实验8分别经过539次、473次迭代后完成了收敛,多于实验4~实验6的迭代次数而少于实验1~实验3的迭代次数。结合图13中2条机器人移动路径,学习经验在高相似比赛之间迁移可以低计算成本获得最优路径。
4.3三种路径规划方法的性能比较
本发明比较A*算法、Dijkstra算法和迁移强化学习方法的路径规划性能。设置“合纵连横”的起始栅格坐标为(0,2),(0,3),对应的目标栅格坐标都为(8,8)。图14和图15分别给出了三种方法的最优路径且长度均为8。类似地,图16给出了起始栅格坐标为(0,1)时“一触即发”下三条最优路径且长度均为9。虽然三种方法的最优路径长度相等,但是训练时间有较大差异。表1显示,“合纵连横”下迁移强化学习的训练时间比A*算法、Dijkstra算法分别减少了66.5%、16.5%,而“一触即发”下分别减少了52%、19.4%。这说明不论是“合纵连横”还是“一触即发”,迁移强化学习重用上一场比赛知识而提高了对新任务的学习能力。因此,它能够以最快速度搜索到最优路径,从而有效解决了传统路径规划效率不高的问题,同时较大降低了模型训练时间。
表1三种路径规划方法的训练时间对比
5结论
针对传统路径规划方法寻路效率不高的问题,本发明提出基于迁移强化学习的VEX机器人路径规划方法。首先用栅格法划分比赛场地,并通过智能体与环境的交互定义奖赏函数。接着,利用迁移的路径规划经验指导智能体的动作选择,获得新的机器人最优路径。寻路期间减少智能体对环境的盲目探索进一步提高了模型收敛速度。对比A*算法、Dijkstra算法,在“合纵连横”和“一触即发”比赛下的仿真结果表明,该方法能够更高效地解决机器人路径规划问题。
6参考文献
[1]陶永,刘海涛,王田苗,韩栋明.我国服务机器人技术研究进展与产业化发展趋势[J].机械工程学报,2022:1-19.
[2]左国玉,雷飞,乔俊飞.新工科背景下基于机器人竞赛的创新人才培养模式[J].高教学刊,2021,6:44-47.
[3]Dam T,Chalvatzaki G,Peters J,Pajarinen J.Monte-Carlo robot pathplanning[J].IEEE Robotics and Automation Letters,2022,7(4):11213-11220.
[4]李晓辉,苗苗,冉保健,等.基于改进A*算法的无人机避障路径规划[J].计算机系统应用,2021,30(02):255-259.
[5]车建涛,高方玉,解玉文,等.基于Dijkstra算法的水下机器人路径规划[J].机械设计与研究,2020,36(1):44-48.
[6]王硕,段蓉凯,廖与禾.机器人路径规划中快速扩展随机树算法的改进研究[J].西安交通大学学报,2022,56(7):1-8.
[7]Alireza M,Vincent D,Tony W.Experimental study of path planningproblem using EMCOA for a holonomic mobile robot[J].Journal of SystemsEngineering and Electronics,2021,32(6):1450-1462.
[8]Wahab M N A,Lee C M,Akbar M F,Hassan F H.Path planning for mobilerobot navigation in unknown indoor environments using hybrid PSOFS algorithm[J].IEEE Access,2020,8:161805-161815.
[9]Duan C X,Zhang P.Path planning for welding robot based on antcolony optimization algorithm[C].2021 3rd International Conference onArtificial Intelligence and Advanced Manufacture(AIAM)Manchester,UnitedKingdom,23-25October 2021,pp:23-25.
[10]Wang B,Liu Z,Li Q,Prorok A.Mobile robot path planning in dynamicenvironments through globally guided reinforcement learning[J].IEEE Roboticsand Automation Letters,5(4):6932-6939.
[11]Le A V,Parween P T,Kyaw R E,Mohan T H.Reinforcement learning-based energy-aware area coverage for reconfigurable Rombo Tiling robot[J].IEEE Access,2020,8:209750-209761.[12]Pei M,An H,Liu B,Wang C.An improvedDyna-Q algorithm for mobile robot path planning in unknown dynamicenvironment[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2022,52(7):4415-4425.
[13]Wen S H,Wen Z T,Zhang D.A multi-robot path-planning algorithm forautonomous navigation using meta-reinforcement learning based on transferlearning[J].Applied Soft Computing.2021,110:107605-107619.
[14]Niu S,Liu Y,Wang J,Song H.A decade survey of transfer learning(2010-2020)[J].IEEE Transactions on Artificial Intelligence,2020,1(2):151-166.
[15]曾睿,周建,刘满禄,等.双Q网络学习的迁移强化学习算法[J].计算机应用研究,2021,38(06):1699-1703.
[16]Sharma J,Andersen P A,Granmo O C,Goodwin M.Deep Q-learning withQ-matrix transfer learning for novel fire evacuation environment.IEEETransactions on Systems,Man,and Cybernetics:Systems,2021,51(12):7363-7381.
[17]胡晓东,黄学祥,胡天健,王峰林,梁书立.一种动态环境下空间机器人的快速路径规划方法[J].空间控制技术与应用,2018,44(05):14-21.
[18]Wu S,Hu J,Zhao C,Pan Q.Path planning for autonomous mobile robotusing transfer learning-based Q-learning[C].2020 3rd International Conferenceon Unmanned Systems(ICUS),Harbin,China,2020,pp:88-93.
[19]崔员宁,李静,陈琰,等.TransPath:一种基于深度迁移强化学习的知识推理方法[J].小型微型计算机系统,2022,43(03):536-543.
[20]曾睿,周建,刘满禄,等.双Q网络学习的迁移强化学习算法[J].计算机应用研究,2021,38(06):1699-1703.
Claims (4)
1.一种基于迁移强化学习的VEX机器人路径规划方法,本方法的应用场景为:VEX竞赛中红队和蓝队各由两支赛队组成,双方在包含前十五秒自动赛阶段和后一分四十五秒手动控制阶段的比赛中互相竞争;在自动赛阶段,各赛队的程序员根据赛季要求设计机器人避开障碍物的移动路径,以最快的速度到达目标地、完成对抗任务;
其特征是所述移动路径的路径规划方法的设计步骤包括:
1)建立VEX机器人的路径规划模型;
2)利用强化学习求解单场比赛的最优路径;
3)利用迁移强化学习求解两场比赛的最优路径;
4)针对“合纵连横”和“一触即发”比赛实例进行仿真实验,评估步骤2)和步骤3)的所得路径的规划性能;
在步骤1)中,机器人的路径规划模型建立过程为:
1.1)将VEX机器人竞赛的比赛场地划分为一个9×9的栅格图,每个栅格宽度为l=4/3英尺,并将栅格属性定义为机器人的移动情况及障碍物的信息;
1.2)机器人在每个栅格上的移动方向定义为8种移动方向:向前、向后、向左、向右、向右前、向右后、向左后、向左前;
机器人从初始栅格坐标(xorigin,yorigin)向目标栅格坐标(xtarget,ytarget)移动的过程中,令移动速度为v,则到达当前栅格坐标(x,y)的移动时间表示为
其中,n1和n2分别表示机器人向前、向后、向左、向右方向以及向右前、向右后、向左后、向左前方向移动的栅格总数,n=n1+n2表示机器人8个方向移动的栅格总数;定义向前为零度方向,顺时针为正向,逆时针为负向,则机器人转动角度θ的集合表示为
1.3)结合移动方向和转动角度,机器人在自动赛阶段的路径规划建模为如下的目标优化问题P1
P1:
s.t.tn≤15秒 (2a)
θ∈Θ (2b)
其中,约束条件(2a)表示机器人移动时间不超过15秒,约束条件(2b)表示机器人有8个移动方向;
在步骤2)中,P1是一个非线性规划问题,利用强化学习寻找单场比赛的机器人的最优路径:
针对单场比赛的路径规划,使用Q-learning探索机器人的最优路径;
在步骤3)中:考虑到对手更换、比赛规则变化这些实际情况,需要在上一场比赛结束后调整下一场比赛的机器人路径策略;
3.1)定义“合纵连横”或者“一触即发”自动赛阶段的上一场比赛的路径规划是源任务,下一场比赛的路径规划是目标任务;仅重用上一场比赛的寻路经验求出下一场比赛的最优路径;
3.2)“合纵连横”与“一触即发”自动赛阶段的比赛环境和机器人任务有高度相似性,则根据“一触即发”场地环境修改“合纵连横”的R表,在“合纵连横”的Q表上进行模型训练,在先验知识的指导下快速探索到新的最优路径;
在步骤4)中,以“合纵连横”与“一触即发”作为样例来测试步骤2)和步骤3)所得的路径规划,并分析和评估机器人路径规划的性能;
4.1)强化学习路径规划的性能分析
以VEX竞赛“合纵连横”为样例展示基于Q-learning的机器人路径探索过程,验证其路径规划的性能优势;
4.2)迁移强化学习路径规划的性能分析
将“合纵连横”一场比赛的路径规划经验迁移到另外三场比赛,验证知识在同类比赛之间迁移的可行性;同时,将“合纵连横”的路径规划经验迁移到“一触即发”比赛中,验证知识在不同类别比赛之间迁移的可行性;
4.3)与其它路径规划方法进行对比
对比其它典型路径规划方法和步骤2)和步骤3)得到最优路径的性能高低。
2.根据权利要求1所述的基于迁移强化学习的VEX机器人路径规划方法,其特征是特征是在步骤2)中,使用Q-learning探索机器人的最优路径具体为:
四元组<S,A,P,R>作如下的描述
(1)外界环境状态S={1,…,81}表示比赛场地被划分的81个栅格序列;
(2)动作集合A={1,…,8}表示机器人向前、向后、向左、向右、向右前、向右后、向左后、向左前8个移动方向序列;
(3)奖赏函数r=r(s,a)为在状态s∈S下选择动作a∈A的最大收益,即
其中,Dis表示机器人当前坐标与目标坐标的欧式距离;机器人越接近目标栅格,前进一格所获负奖励越小;遇到障碍物获得负奖励会促使智能体作出更优的移动决策,帮助机器人更快到达目标栅格。
3.根据权利要求1所述的基于迁移强化学习的VEX机器人路径规划方法,其特征是步骤2)中设计得到机器人寻找最优路径的步骤为:
Step 1初始化:纵横桩、环塔、曲环、平衡桥的栅格位置,机器人起始栅格和目标栅格的坐标,Q表和R表;
Step 2动作选择:智能体利用ε-贪婪策略在动作集合A中选择机器人的移动方向,即以概率ε∈[0,1]选择状态s下Q值最大的动作,同时以1-ε的概率随机选择动作;
Step 3更新Q值:结合记录的状态-动作(s,a)及奖赏值r,更新Q(s,a);
Step 4迭代训练:重复步骤Step2~Step3,直至Q表收敛;
Step 5路径求解:智能体在已训练的Q表上查找当前比赛的机器人最优路径,并由主控板发出移动指令,指导机器人以最快速度到达目标栅格。
4.根据权利要求1所述的基于迁移强化学习的VEX机器人路径规划方法,其特征是步骤3)中,定义上一场比赛的路径规划是源任务,下一场比赛的路径规划是目标任务。程序员重用上一场比赛的寻路经验求出下一场比赛的最优路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310282213.7A CN116501034A (zh) | 2023-03-22 | 2023-03-22 | 基于迁移强化学习的vex机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310282213.7A CN116501034A (zh) | 2023-03-22 | 2023-03-22 | 基于迁移强化学习的vex机器人路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116501034A true CN116501034A (zh) | 2023-07-28 |
Family
ID=87317369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310282213.7A Pending CN116501034A (zh) | 2023-03-22 | 2023-03-22 | 基于迁移强化学习的vex机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501034A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437287A (zh) * | 2023-12-14 | 2024-01-23 | 深圳大学 | 一种结构先验知识增广与迁移的水下定位方法 |
-
2023
- 2023-03-22 CN CN202310282213.7A patent/CN116501034A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437287A (zh) * | 2023-12-14 | 2024-01-23 | 深圳大学 | 一种结构先验知识增广与迁移的水下定位方法 |
CN117437287B (zh) * | 2023-12-14 | 2024-03-19 | 深圳大学 | 一种结构先验知识增广与迁移的水下定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107272705B (zh) | 一种智能环境下机器人路径的多神经网络控制规划方法 | |
Orozco-Rosas et al. | Mobile robot path planning using membrane evolutionary artificial potential field | |
CN110083165B (zh) | 一种机器人在复杂狭窄环境下路径规划方法 | |
Leottau et al. | Decentralized reinforcement learning of robot behaviors | |
Debnath et al. | A review on graph search algorithms for optimal energy efficient path planning for an unmanned air vehicle | |
CN110766254A (zh) | 一种基于改进遗传算法的多无人机协同任务分配方法 | |
CN110488859A (zh) | 一种基于改进Q-learning算法的无人机航路规划方法 | |
Goldhoorn et al. | Continuous real time POMCP to find-and-follow people by a humanoid service robot | |
CN116501034A (zh) | 基于迁移强化学习的vex机器人路径规划方法 | |
Sadhu et al. | A modified imperialist competitive algorithm for multi-robot stick-carrying application | |
Wu et al. | Torch: Strategy evolution in swarm robots using heterogeneous–homogeneous coevolution method | |
Fang et al. | Intelligent obstacle avoidance path planning method for picking manipulator combined with artificial potential field method | |
Gao et al. | Asymmetric self-play-enabled intelligent heterogeneous multirobot catching system using deep multiagent reinforcement learning | |
CN107024220B (zh) | 基于强化学习蟑螂算法的机器人路径规划方法 | |
Zhao et al. | A fast robot path planning algorithm based on bidirectional associative learning | |
Elfwing et al. | Evolutionary development of hierarchical learning structures | |
CN113156940B (zh) | 基于好奇心-贪婪奖励函数的机器人路径规划的方法 | |
Mitchell et al. | Fuzzy logic decision making for autonomous robotic applications | |
Woodford et al. | Evolving snake robot controllers using artificial neural networks as an alternative to a physics-based simulator | |
Qiu et al. | Obstacle avoidance planning combining reinforcement learning and RRT* applied to underwater operations | |
Schaff et al. | N-limb: Neural limb optimization for efficient morphological design | |
Pham et al. | Decision-making strategy for multi-agents using a probabilistic approach: application in soccer robotics | |
Junkai et al. | Hybrid particle swarm optimisation approach for 3D path planning of UAV | |
CN116227622A (zh) | 基于深度强化学习的多智能体地标覆盖方法及系统 | |
Gunardi et al. | Mathematics base for mobile robot navigation using mirror petri net Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |