CN116540701A - 一种路径规划方法、系统、装置及存储介质 - Google Patents
一种路径规划方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN116540701A CN116540701A CN202310424084.0A CN202310424084A CN116540701A CN 116540701 A CN116540701 A CN 116540701A CN 202310424084 A CN202310424084 A CN 202310424084A CN 116540701 A CN116540701 A CN 116540701A
- Authority
- CN
- China
- Prior art keywords
- data
- path planning
- state information
- preliminary
- mobile robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000004088 simulation Methods 0.000 claims abstract description 50
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000002787 reinforcement Effects 0.000 claims abstract description 19
- 230000007613 environmental effect Effects 0.000 claims abstract description 15
- 230000033001 locomotion Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001050985 Disco Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000007514 turning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
- 230000009012 visual motion Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0219—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种路径规划方法、系统、装置及存储介质,方法包括:获取目的地指令和移动机器人的传感数据;根据所述传感数据,确定所述移动机器人的状态信息;获取环境模型数据;所述环境模型数据表征路径规划的仿真场景,所述环境模型数据包括所述仿真场景中的实体数据和设备数据;根据所述目的地指令、所述状态信息和所述环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;基于所述初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。本发明实施例基于仿真场景的缓解模型数据进行路径规划,结合强化学习,能够高效准确实现路径规划,可广泛应用于数据处理技术领域。
Description
技术领域
本发明涉及数据处理技术领域,尤其是一种路径规划方法、系统、装置及存储介质。
背景技术
自主移动机器人小车的智能化是一个正在发展的火热趋势,其中自动导航方向,是相对成熟的领域。常见的方案是基于Ndt(Normal Distributions Transform,正态分布变换)的定位建图算法的原理及源码分析,并在仿真环境下可视化功能复现,该算法广泛应用于自动驾驶和机器人定位。自主导航主要方向是对可行使区域进行实时监测并规划最优路线,包括视觉与雷达对可行使区域的感知检测,预警检测以及路径规划导航等。使用卷积神经网络对实时传感器采取的信息进行监测处理,判断可行使区域与实时路径规划,可以极大地减少机器人作业时的安全与行驶预警保护。
路径规划部分在无人小车架构体系当中分属控制或决策部分。路径规划模块性能的高低直接关系车辆行驶路径选择的优劣和行驶的流畅度,而路径规划算法的性能优劣很大程度上取决于规划算法的优劣,如何在各种场景下迅速、准确的规划出一条高效路径是一个亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供一种路径规划方法、系统、装置及存储介质,能够高效准确实现路径规划。
一方面,本发明的实施例提供了一种路径规划方法,包括:
获取目的地指令和移动机器人的传感数据;
根据传感数据,确定移动机器人的状态信息;
获取环境模型数据;环境模型数据表征路径规划的仿真场景,环境模型数据包括仿真场景中的实体数据和设备数据;
根据目的地指令、状态信息和环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;
基于初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。
可选地,传感数据包括视觉传感数据、激光传感数据和方向传感数据,根据传感数据,确定移动机器人的状态信息,包括:
对视觉传感数据、激光传感数据和方向传感数据进行数据融合和滤波处理,得到移动机器人的状态信息;状态信息包括移动机器人的位置数据、速度数据和方向数据。
可选地,初步路径规划这一步骤中,包括:
将状态信息输入Transformer编码器,并通过连接处理和第一MLP更新状态信息。
可选地,状态信息包括位置数据、速度数据和方向数据,将状态信息输入Transformer编码器,并通过连接处理和第一MLP更新状态信息,包括:
通过位置编码器编码位置数据,和,通过角度编码器编码方向数据,和通过第二MLP编码速度数据;
对位置编码器、角度编码器和第二MLP的编码结果进行连接处理,将连接处理的结果馈入第一MLP更新状态信息。
可选地,更新状态信息这一步骤中,包括:
利用条件变分自编码器学习仿真环境中参与对象的潜在运动特质,得到运动预测数据;
通过运动预测数据更新状态信息。
可选地,初步路径规划这一步骤中,包括:
通过时序反向传播算法结合梯度重新参数化进行初步路径规划的样本预测;
基于样本预测的结果,进行策略回滚,并结合损失函数进行初步路径规划的训练;损失函数包括重构损失、散度损失和交叉熵损失。
可选地,通过强化学习进行路径优化,包括:
通过强化学习算法Q-learning进行路径优化。
另一方面,本发明的实施例提供了一种路径规划系统,包括:
第一模块,用于获取目的地指令和移动机器人的传感数据;
第二模块,用于根据传感数据,确定移动机器人的状态信息;
第三模块,用于获取环境模型数据;环境模型数据表征路径规划的仿真场景,环境模型数据包括仿真场景中的实体数据和设备数据;
第四模块,用于根据目的地指令、状态信息和环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;
第五模块,用于基于初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。
另一方面,本发明的实施例提供了一种路径规划装置,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
另一方面,本发明的实施例提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明实施例首先获取目的地指令和移动机器人的传感数据;根据传感数据,确定移动机器人的状态信息;获取环境模型数据;环境模型数据表征路径规划的仿真场景,环境模型数据包括仿真场景中的实体数据和设备数据;根据目的地指令、状态信息和环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;基于初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。本发明实施例基于仿真场景的缓解模型数据进行路径规划,结合强化学习,能够高效准确实现路径规划。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种路径规划方法的流程示意图;
图2为本发明实施例提供的仿真规划器的交互架构示意图;
图3为本发明实施例提供的策略模块的流程架构示意图;
图4为本发明实施例提供的状态解码器的流程架构示意图;
图5为本发明实施例提供的路径规划训练的流程示意图;
图6为本发明实施例提供的一种路径规划方法的总体流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先需要说明的是,根据对环境信息的把握程度可把路径规划划分为基于先验完全信息的全局路径规划和基于传感器信息的局部路径规划。其中,从获取障碍物信息是静态或是动态的角度看,全局路径规划属于静态规划,局部路径规划属于动态规划。全局路径规划需要掌握所有的环境信息,根据环境地图的所有信息进行路径规划;局部路径规划只需要由传感器实时采集环境信息,了解环境地图信息,然后确定出所在地图的位置及其局部的障碍物分布情况,从而可以选出从当前结点到某一子目标结点的最优路径。
在全局路径规划算法中,大致可分为三类:传统算法(迪克斯特拉、A*算法等)、智能算法(PSO(Particle Swarm Optimization)算法、遗传算法、强化学习等)、传统与智能相结合的算法。
在工业生产环境中实现自主移动机器人小车的自动驾驶,小车的规划模块必须解决作业人员和障碍物以及指示标志等的高度交互式规划场景。尽管这是一个必要的步骤,但在工厂生产路径上对规划算法的验证往往过于昂贵和危险。因此,仿真技术已被广泛采用。虽然全堆栈模拟器在测试AD堆栈和训练视觉运动策略方面很流行,但它们并不是开发规划算法的最佳选择,因为模拟的场景不像在现实世界中遇到的场景那样复杂和现实。
鉴于此,一方面,如图1所示,本发明的实施例提供了一种路径规划方法,包括:
S100、获取目的地指令和移动机器人的传感数据;
具体地,通过目的地指令确定路径规划的目的地,以AMR(Autonomous MobileRobot,自主移动机器人)小车实施为例,通过获取自主移动机器人的自动驾驶控制系统数据,包括视觉传感器数据、激光传感器数据、方向传感器数据等。
S200、根据传感数据,确定移动机器人的状态信息;
需要说明的是,传感数据包括视觉传感数据、激光传感数据和方向传感数据,一些实施例中,包括:对视觉传感数据、激光传感数据和方向传感数据进行数据融合和滤波处理,得到移动机器人的状态信息;状态信息包括移动机器人的位置数据、速度数据和方向数据。
具体地,一些具体实施例中,可以通过传感器数据处理模块确定状态数据,该模块将机器人的传感器数据输入处理器实现如下的数据处理过程:通过数据融合和滤波等算法对数据进行处理,得到机器人在仿真器中的当前状态,包括位置、速度、方向等数据。
S300、获取环境模型数据;
需要说明的是,环境模型数据表征路径规划的仿真场景,环境模型数据包括仿真场景中的实体数据和设备数据。
具体地,一些具体实施例中,可以从环境模型模块获取环境模型数据,具体该模块中包括了高精度的环境模型和模拟工厂中的各种实体和设备数据。该模块将模拟器环境中的实体和设备数据输入处理器,用于机器人运动路径的规划和仿真。
S400、根据目的地指令、状态信息和环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;
一些实施例中,可以通过路径规划器模块进行初步路径规划,具体该模块将状态信息、基于目的地指令确定的目的地和环境模型数据作为输入,通过A*、Dijkstra等算法进行初步路径规划,得到初步路径规划数据。
需要说明的是,一些实施例中,初步路径规划这一步骤中,包括:将状态信息输入Transformer编码器,并通过连接处理和第一MLP更新状态信息。其中,状态信息包括位置数据、速度数据和方向数据,一些实施例中,包括:通过位置编码器编码位置数据,和,通过角度编码器编码方向数据,和通过第二MLP编码速度数据;对位置编码器、角度编码器和第二MLP的编码结果进行连接处理,将连接处理的结果馈入第一MLP更新状态信息。
其中,一些实施例中,更新状态信息这一步骤中,包括:利用条件变分自编码器学习仿真环境中参与对象的潜在运动特质,得到运动预测数据;通过运动预测数据更新状态信息。
其中,一些实施例中,初步路径规划这一步骤中,包括:通过时序反向传播算法结合梯度重新参数化进行初步路径规划的样本预测;基于样本预测的结果,进行策略回滚,并结合损失函数进行初步路径规划的训练;损失函数包括重构损失、散度损失和交叉熵损失。
具体地,一些具体实施例通过仿真规划器实现初步路径规划,如图2所示,仿真规划器主要分为三个模块:
1、策略模块:如图3所示,根据当前状态包括速度位置坐标st(图3中,Position(x,y)表示位置,Unit Direction(cosθ,sinθ)表示方向,Other Statesμ表示其它状态,如速度)更新确定下一步状态st+1。在编码st后,顺序注入到编码状态st中。使用Transformer编码器(transform的训练是并行的,所有的字全部同时训练,这样就大大加快了计算效率,该模型使用了位置嵌入来对语言的顺序进行理解,使用子注意力机制和全连接层来进行计算)和交互来更新st,以关注工厂高精度地图M和工厂机床和物流规则Ct。交互式Transformer使用自我关注跨越多机器人维度,使多机器可以相互关注。在推理时间,非仿真规划器的状态也将通过仿真规划器进行处理,以便仿真规划器可以对其进行反应。在融合地图、工厂行驶指示线规则和其他机器如机床等状态后,每个机器人都有一个递归单元来聚合其历史,因为模拟状态不是马尔可夫的。然后通过连接和残差MLP将输出单个自主移动机器人的个人目标和个性相结合。
2、脉络模块:分为状态解码和目的地设定
①状态解码器:在实现状态编码器时,使用点积注意力(dotproduct attention)来表示共享的脉络信息,如地图、工厂行驶指示线规则和机器人,机床,行人等状态,并将它们合并到全局坐标系中。这种方法比将全局信息转换为每个车辆的局部坐标系更加高效。然而,点积注意力单独不能有效地对全局到局部坐标系的转换进行建模。为了解决这个问题,引入位置编码器(PE)。在没有PE的情况下,VectorNet(图3)必须将所有上下文信息转换为每个车辆的局部坐标系。SceneTransformer(图4)将位置的PE与方向向量的单位向量以及其他属性μ连接起来,然后将其馈入MLP进行处理。然后介绍了一种改进的状态编码器,使用PE对方向向量进行编码并在MLP之后添加PE,以提高编码效果。接着,提出了一种更好的状态编码器,使用角度编码器(AE)对角度信息进行编码,解决了现有编码器对方向信息不敏感的问题。最后,使用状态编码器对地图、交通信号灯和车辆状态进行编码,使用了Transformers用于线路子图。其中,SceneTransformer处理状态信息的表达式如下:
S=MLP(PE(x),PE(y),AE(θ),MLP(μ))
S=cat(PE(x),PE(y),AE(θ),MLP(μ))
AE2i(θ)=sin(θ·i);AE2i+1(θ)=cos(θ·i);i∈[0,...,demb/2]
其中,S表示状态在全局坐标中并通过点积合并将全局信息转换为每个机器人的本地坐标,PE表示位置编码器,AE表示角度编码器,MLP(μ)表示第二MLP的编码结果(前面的MLP表示第一MLP),cat表示连接处理,ω表示基本频率,demb表示状态向量的嵌入维度,i表示是一个变量,用于表示位置编码(PE)和角度编码(AE)中的峰值函数的索引。其中,两个S公式都是TrafficBots中用于生成交通参与者状态向量的公式,但它们的编码方式不同。第一个公式S=MLP使用位置编码(PE)和角度编码(cos和sin)对位置和方向进行编码,并将它们与其他属性一起输入到多层感知机(MLP)中。这种编码方式可以在不使用位置嵌入(PE)的情况下,将所有上下文转换为每个参与者的本地坐标系。第二个公式S=cat(使用位置编码(PE)、角度编码(AE)和多层感知机(MLP)对交通参与者状态进行编码。其中,AE是一种特殊的正弦峰值函数,用于对弧度偏航角进行编码。
②目的地:引入一个导航器,一旦当前目标到达,就指定下一个目标来解决这个问题。然而,为每个参与者运行在线导航器的计算成本很高。在短期规划和小地图的仿真中,估计近期未来的一个目的地并在到达该目的地后切换到无条件策略就足够了。由于目的地在任何运动预测数据集中都不可用,因此我们使用启发式选择的地图折线来近似目的地。
③人机混场:工厂不同工种参与者来提高交通参与者运动预测精度。为了解决工厂交通参与者运动预测中存在的不确定性,引入了每个不同工种参与者的潜在运动特质,并使用条件变分自编码器(CVAE)来学习这些特质。设定不同工种参与者的潜在运动特质是不变的,因为交通参与者的行为风格在剧集内不会改变。通过引入潜在运动特质,取得了比其他方法更好的运动预测效果。
3、训练(图5):采用了reparameterization gradients通过根据一组特定于模型的超参数修改梯度来添加先验知识,称为梯度重新参数化和时序反向传播算法(BPTT,back-propagation through time)方法。在训练过程中,首先将地图、交通灯和GT(GroundTruth)的代理状态编码,然后预测出posterior zpost、prior zprior和destination g。在根据GT destination^g和zpost样本进行策略回滚的同时,采用平滑L1距离的重构损失、自由nats限制下的zpost和zprior之间的KL散度损失以及目的地预测的交叉熵损失,同时通过BPTT进行联合训练。在BPTT期间,采用了停止action的梯度并只允许state的梯度进行反向传播。
仿真规划器(对应图5的LigongBot)作为路径规划的一部分,使用仿真规划器生成的丰富的行为预测来帮助自动驾驶AMR小车在工业化场景做出更好的路径规划决策。具体来说,可以使用仿真规划器生成的预测轨迹来预测其他交通参与者的未来行为,进而帮助AMR规划更安全、更高效的路径。例如,如果仿真规划器预测到前方人或者其他设备将转弯,AMR小车可以选择避让或者跟随转弯。此外,仿真规划器中的导航和个性信息也可以被用来指导路径规划。例如,AMR小车可以利用仿真规划器中多个小车的目的地信息来规划自己的路径,从而避免与其他交通参与者冲突。总之,仿真规划器提供了一种丰富的、可配置的工厂交通模拟方法,可以为路径规划提供有价值的信息和指导,从而提高AMR小车的安全性和工厂运输生产的效率。
一些具体实施例中,通过如下步骤实现训练过程:
1.以工厂的场景为例,小车需要从加工中心去到质检中心,需要定义小车可以采取的操作,例如可以避开在岗的工作人员,以及小车运行的状态。在这种情况下,小车的状态可以包括它的位置、速度、朝向等信息,而可选的操作可以是转弯、加速或减速等。
2.需要定义奖励函数,定义应该怎样避开人和插车,机器等移动和不可移动障碍物,以告诉小车它在行驶过程中做得好或做得不好。例如,如果小车成功到达目的地,那么它会获得一个积极的奖励,但如果小车与其他车辆相撞或违反交通规则,那么它会受到一个负面的奖励。
3.放进仿真规划器(Ligongbot)训练,让小车在提前建立好的工厂运行环境仿真中进行多次尝试,并记录它在每次尝试中采取的行动和获得的奖励。使用这些数据来训练一个神经网络,该神经网络可以将小车的状态映射到采取行动的概率,并尝试最大化小车在行驶过程中获得的总奖励。
4.一旦训练完成,可以根据训练的结果在本身规划器的配合下,来指定小车在最优符合机加工环境的路径上进行运作。
S500、基于初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据;
需要说明的是,一些实施例中,通过强化学习进行路径优化,包括:通过强化学习算法Q-learning进行路径优化。
具体地,一些具体实施例中,可以通过优化模块实现路径优化,该模块具体实现如下步骤:将初步路径规划数据作为输入,通过强化学习算法Q-learning等优化算法,对路径进行优化,得到最优路径规划数据(即目标路径规划数据)。
进一步,可以通过运动控制模块基于目标路径规划数据控制自主移动机器人的运动,该模块具体实现如下步骤:将最优路径规划数据作为输入,通过运动学算法控制机器人的运动,指导机器人在仿真器中运动。
具体地,一些具体实施例中,如图6所示,可以通过如下步骤进行路径规划:
1.获取机器人自动驾驶控制系统数据,包括视觉传感器数据、激光传感器数据、方向传感器数据等。
2.将机器人放置于仿真规划器(图示Ligongbot仿真模拟器)中,并模拟真实工厂场景,获取仿真规划器环境模型数据。
3.将机器人传感器数据输入处理器进行数据处理和分析,以生成机器人在仿真器中的当前状态,并根据当前状态执行相应的操作,如加速、刹车、转向等。
4.利用路径规划器模块,对当前状态进行分析和处理,得到初步路径规划数据。
5.将初步路径规划数据作为输入,通过优化模块,对路径进行优化,得到最优路径规划数据。
6.将最优路径规划数据作为输出,指导机器人在仿真器中运动。
7.将机器人在仿真器中的行动记录下来,并将其保存到数据存储设备中,以便下次使用。
8.对机器人(小车)在真实环境中的行动进行验证和调整,以优化路径规划算法。
综上,本发明实施例评估了交通机器人的仿真任务和运动预测任务。通过运动预测表述为一个先验模拟,一个标准的替代任务指标来评估模拟保真度。在工业机器人显示了用闭环策略解决运动预测的潜力,本发明使用世界模型来解决数据驱动的交通模拟,并提出了交通机器人,一个基于运动预测和端到端驱动的多智能体策略。通过引入导航目的地和潜在人格来提高模拟的可配置性,并通过引入一种新的角度PE来提高模拟的可扩展性。相对于现有技术,本发明至少包括如下有益效果:1.引入仿真规划器的基于真实场景专门为工业化生产环境量身定制的世界模型模型,对比现有的数据驱动的仿真器,拥有更好的可配置性和可扩展性。2.引入了一个导航信息以目的地为标的和一个时间不变的方式,对比传统数据驱动的强化学习,更多接近于真实的运行场景。3.引入一种新的状态解码器,一种新的角度位置编码方案,允许所有智能体共享相同的向量化脉络,并使用基于点积注意力的架构。4.引入真实工业化场景中的机床,行人,还有行驶指示线规则,可以模拟逼真的多智能体行为,并在运动预测任务上实现良好的性能。5.模型易于训练,各个任务都能取得很高的准确率。6.因为引入了角度位置解码方案,使得的overlap低于普通的训练模型。
另一方面,本发明的实施例提供了一种路径规划系统,包括:第一模块,用于获取目的地指令和移动机器人的传感数据;第二模块,用于根据传感数据,确定移动机器人的状态信息;第三模块,用于获取环境模型数据;环境模型数据表征路径规划的仿真场景,环境模型数据包括仿真场景中的实体数据和设备数据;第四模块,用于根据目的地指令、状态信息和环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;第五模块,用于基于初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种路径规划装置,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用,或结合这些指令执行装置、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种路径规划方法,其特征在于,包括:
获取目的地指令和移动机器人的传感数据;
根据所述传感数据,确定所述移动机器人的状态信息;
获取环境模型数据;所述环境模型数据表征路径规划的仿真场景,所述环境模型数据包括所述仿真场景中的实体数据和设备数据;
根据所述目的地指令、所述状态信息和所述环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;
基于所述初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。
2.根据权利要求1所述的一种路径规划方法,所述传感数据包括视觉传感数据、激光传感数据和方向传感数据,所述根据所述传感数据,确定所述移动机器人的状态信息,包括:
对所述视觉传感数据、所述激光传感数据和所述方向传感数据进行数据融合和滤波处理,得到所述移动机器人的状态信息;所述状态信息包括所述移动机器人的位置数据、速度数据和方向数据。
3.根据权利要求1所述的一种路径规划方法,其特征在于,所述初步路径规划这一步骤中,包括:
将所述状态信息输入Transformer编码器,并通过连接处理和第一MLP更新所述状态信息。
4.根据权利要求3所述的一种路径规划方法,其特征在于,所述状态信息包括位置数据、速度数据和方向数据,所述将所述状态信息输入Transformer编码器,并通过连接处理和第一MLP更新所述状态信息,包括:
通过位置编码器编码所述位置数据,和,通过角度编码器编码所述方向数据,和通过第二MLP编码所述速度数据;
对所述位置编码器、所述角度编码器和所述第二MLP的编码结果进行所述连接处理,将所述连接处理的结果馈入所述第一MLP更新所述状态信息。
5.根据权利要求3所述的一种路径规划方法,其特征在于,所述更新所述状态信息这一步骤中,包括:
利用条件变分自编码器学习所述仿真环境中参与对象的潜在运动特质,得到运动预测数据;
通过所述运动预测数据更新所述状态信息。
6.根据权利要求1所述的一种路径规划方法,所述初步路径规划这一步骤中,包括:
通过时序反向传播算法结合梯度重新参数化进行所述初步路径规划的样本预测;
基于所述样本预测的结果,进行策略回滚,并结合损失函数进行所述初步路径规划的训练;所述损失函数包括重构损失、散度损失和交叉熵损失。
7.根据权利要求1所述的一种路径规划方法,所述通过强化学习进行路径优化,包括:
通过强化学习算法Q-learning进行路径优化。
8.一种路径规划系统,其特征在于,包括:
第一模块,用于获取目的地指令和移动机器人的传感数据;
第二模块,用于根据所述传感数据,确定所述移动机器人的状态信息;
第三模块,用于获取环境模型数据;所述环境模型数据表征路径规划的仿真场景,所述环境模型数据包括所述仿真场景中的实体数据和设备数据;
第四模块,用于根据所述目的地指令、所述状态信息和所述环境模型数据,通过路径规划算法进行初步路径规划,得到初步路径规划数据;
第五模块,用于基于所述初步路径规划数据,通过强化学习进行路径优化,得到目标路径规划数据。
9.一种路径规划装置,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310424084.0A CN116540701B (zh) | 2023-04-19 | 2023-04-19 | 一种路径规划方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310424084.0A CN116540701B (zh) | 2023-04-19 | 2023-04-19 | 一种路径规划方法、系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116540701A true CN116540701A (zh) | 2023-08-04 |
CN116540701B CN116540701B (zh) | 2024-03-05 |
Family
ID=87453387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310424084.0A Active CN116540701B (zh) | 2023-04-19 | 2023-04-19 | 一种路径规划方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116540701B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753371A (zh) * | 2020-06-04 | 2020-10-09 | 纵目科技(上海)股份有限公司 | 一种车身控制网络模型的训练方法、系统、终端和存储介质 |
CN111857107A (zh) * | 2020-06-10 | 2020-10-30 | 同济大学 | 基于学习组件库的辅助型移动机器人导航控制系统和方法 |
US20210191404A1 (en) * | 2018-02-28 | 2021-06-24 | Five AI Limited | Path planning in mobile robots |
US20220214692A1 (en) * | 2021-01-05 | 2022-07-07 | Ford Global Technologies, Llc | VIsion-Based Robot Navigation By Coupling Deep Reinforcement Learning And A Path Planning Algorithm |
WO2022214414A1 (de) * | 2021-04-07 | 2022-10-13 | Zf Friedrichshafen Ag | Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien |
CN115470934A (zh) * | 2022-09-14 | 2022-12-13 | 天津大学 | 一种基于序列模型的海洋环境下的强化学习路径规划算法 |
CN115617036A (zh) * | 2022-09-13 | 2023-01-17 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
-
2023
- 2023-04-19 CN CN202310424084.0A patent/CN116540701B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210191404A1 (en) * | 2018-02-28 | 2021-06-24 | Five AI Limited | Path planning in mobile robots |
CN111753371A (zh) * | 2020-06-04 | 2020-10-09 | 纵目科技(上海)股份有限公司 | 一种车身控制网络模型的训练方法、系统、终端和存储介质 |
CN111857107A (zh) * | 2020-06-10 | 2020-10-30 | 同济大学 | 基于学习组件库的辅助型移动机器人导航控制系统和方法 |
US20220214692A1 (en) * | 2021-01-05 | 2022-07-07 | Ford Global Technologies, Llc | VIsion-Based Robot Navigation By Coupling Deep Reinforcement Learning And A Path Planning Algorithm |
WO2022214414A1 (de) * | 2021-04-07 | 2022-10-13 | Zf Friedrichshafen Ag | Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien |
CN115617036A (zh) * | 2022-09-13 | 2023-01-17 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
CN115470934A (zh) * | 2022-09-14 | 2022-12-13 | 天津大学 | 一种基于序列模型的海洋环境下的强化学习路径规划算法 |
Also Published As
Publication number | Publication date |
---|---|
CN116540701B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tampuu et al. | A survey of end-to-end driving: Architectures and training methods | |
Chen et al. | Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety | |
Stahl et al. | Multilayer graph-based trajectory planning for race vehicles in dynamic scenarios | |
US11243532B1 (en) | Evaluating varying-sized action spaces using reinforcement learning | |
Hu et al. | Safe local motion planning with self-supervised freespace forecasting | |
CN115843347A (zh) | 从记录数据生成自主车辆模拟数据 | |
Betz et al. | What can we learn from autonomous level-5 motorsport? | |
Xu et al. | System and experiments of model-driven motion planning and control for autonomous vehicles | |
Gómez et al. | Optimal motion planning by reinforcement learning in autonomous mobile vehicles | |
Heinrich | Planning universal on-road driving strategies for automated vehicles | |
Kuo et al. | Trajectory prediction with linguistic representations | |
Johnson et al. | Experimental Evaluation and Formal Analysis of High‐Level Tasks with Dynamic Obstacle Anticipation on a Full‐Sized Autonomous Vehicle | |
Zhou et al. | Identify, estimate and bound the uncertainty of reinforcement learning for autonomous driving | |
Cai et al. | Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection | |
Tong et al. | A search-based motion planner utilizing a monitoring functionality for initiating minimal risk maneuvers | |
Xu et al. | Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning | |
CN116448134B (zh) | 基于风险场与不确定分析的车辆路径规划方法及装置 | |
Jiang et al. | A reinforcement learning benchmark for autonomous driving in general urban scenarios | |
CN116540701B (zh) | 一种路径规划方法、系统、装置及存储介质 | |
Sell et al. | Safety toolkit for automated vehicle shuttle-Practical implementation of digital twin | |
Batkovic | Enabling Safe Autonomous Driving in Uncertain Environments | |
Zhong et al. | CLAP: Cloud-and-learning-compatible autonomous driving platform | |
Aghdasian et al. | Autonomous Driving using Residual Sensor Fusion and Deep Reinforcement Learning | |
CN115900725A (zh) | 路径规划装置、电子设备、存储介质和相关方法 | |
CN113778080B (zh) | 单轨双轮机器人的控制方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |