CN111061277B - 一种无人车全局路径规划方法和装置 - Google Patents

一种无人车全局路径规划方法和装置 Download PDF

Info

Publication number
CN111061277B
CN111061277B CN201911414795.XA CN201911414795A CN111061277B CN 111061277 B CN111061277 B CN 111061277B CN 201911414795 A CN201911414795 A CN 201911414795A CN 111061277 B CN111061277 B CN 111061277B
Authority
CN
China
Prior art keywords
unmanned vehicle
neural network
state
reinforcement learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911414795.XA
Other languages
English (en)
Other versions
CN111061277A (zh
Inventor
王学强
张一凡
邹李兵
李保明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN201911414795.XA priority Critical patent/CN111061277B/zh
Publication of CN111061277A publication Critical patent/CN111061277A/zh
Priority to US17/593,618 priority patent/US11747155B2/en
Priority to PCT/CN2020/123474 priority patent/WO2021135554A1/zh
Application granted granted Critical
Publication of CN111061277B publication Critical patent/CN111061277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0289Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无人车全局路径规划方法和装置,该方法包括:通过强化学习方法建立对象模型,对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;基于对象模型,搭建深度强化学习神经网络,并利用无人车状态和地图图片对深度强化学习神经网络进行训练,得到稳定的神经网络模型;启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中,根据深度强化学习神经网络输出的路径规划结果的评估指标,生成无人车的运动路径。本发明通过地图图片标识场景中的环境信息,通过深度神经网络提取地图特征,简化了对地图场景的建模过程。

Description

一种无人车全局路径规划方法和装置
技术领域
本发明涉及无人车全局路径规划领域,具体涉及一种无人车全局路径规划方法和装置。
背景技术
近年来,无人车在智能制造和物流领域的应用逐步推广普及,有效的提高了生产、制造和搬运环节的运输效率,减轻人力工作负担。其中,全局路径规划方法引导无人车在工作场景内搜索最佳路径,能够提高无人车的工作效率,避免产生碰撞等问题。常见的路径规划算法,例如A*算法,人工势场法等方法,存在计算代价高,容易陷入局部最小解等问题。基于深度强化学习方法的人工智能算法,能够不依赖人工进行轨迹标记,适用于动态变化的场景。深度强化学习方法将强化学习和深度神经网络相结合,其中强化学习主要采用试错(trial and error)方法搜寻最优策略,深度神经网络有助于强化学习解决高维空间输入和动作空间连续等问题。同时,随着深度神经网络在图像分类和识别领域的迅速发展,通过深度神经网络能够准确提取地图图片的特征并有效表达信息。以上工作为基于地图图片和无人车状态实现全局路径规划提供了理论基础。
然而,在无人车全局路径规划实现过程中,目前仍然存在建模困难,神经网络模型训练时间长、模型性能差等一系列问题。
发明内容
鉴于上述问题,本发明实施例提出了一种无人车全局路径规划方法和装置,以便解决或者部分解决上述问题。
依据本发明实施例的一个方面,提供了一种无人车全局路径规划方法,该方法包括:
通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;
基于建立的对象模型,搭建深度强化学习神经网络,并利用无人车状态和环境状态的地图图片对深度强化学习神经网络进行训练,直至得到稳定的神经网络模型;
启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中,根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径。
依据本发明实施例的又一方面,提供了一种无人车全局路径规划装置,该装置包括:
建模单元,用于通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;
训练单元,用于基于建立的对象模型,搭建深度强化学习神经网络,并利用无人车状态和环境状态的地图图片对深度强化学习神经网络进行训练,直至得到稳定的神经网络模型;
实施单元,用于启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中,根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径。
本发明实施例通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,基于该对象模型搭建深度强化学习神经网络,则在启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中,即可生成无人车的运动路径,从而实现了基于地图图片的无人车全局路径规划。
本发明实施例的技术方案通过对象模型中的地图图片标识场景中的环境信息,以任务场景的地图图片和无人车状态作为路径规划的输入,显著简化了对地图场景的建模过程;通过深度神经网络提取地图特征,并应用场景的地图图片实现路径规划,准确率和效率都得到大幅提高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例示出的一种无人车全局路径规划方法的流程示意图;
图2为本发明实施例示出的一种基于GA3C框架建立的深度强化学习训练框架的结构示意图;
图3为本发明实施例示出的一种多GPU的神经网络搭建方法的流程示意图;
图4为本发明实施例示出的一种深度强化学习神经网络训练方法的流程示意图;
图5为本发明实施例示出的一种多GPU神经网络的参数更新方法的流程示意图;
图6为本发明实施例示出的一种无人车全局路径规划装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1为本发明实施例示出的一种无人车全局路径规划方法的流程示意图,如图1所示,本实施例的无人车全局路径规划方法,包括如下步骤:
步骤S110,通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标。
步骤S120,基于建立的对象模型,搭建深度强化学习神经网络,并利用无人车状态和环境状态的地图图片对深度强化学习神经网络进行训练,直至得到稳定的神经网络模型。
步骤S130,启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中,根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径。
综上所述,本发明的技术方案,通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,基于该对象模型搭建深度强化学习神经网络,则在启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中,即可生成无人车的运动路径,从而实现了基于地图图片的无人车全局路径规划。本发明实施例的技术方案通过对象模型中的地图图片标识场景中的环境信息,以任务场景的地图图片和无人车状态作为路径规划的输入,显著简化了对地图场景的建模过程;通过深度神经网络提取地图特征,应用场景的地图图片实现路径规划,准确率和效率都得到大幅提高。
基于图1中所示的方案,进一步的,本发明的一个实施例中,上述步骤S110具体是使用马尔可夫决策过程{s,a,p,r,γ},描述无人车路径规划的序列决策过程,并结合强化学习方法建立对象模型。马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。
在本实施例的无人车全局路径规划应用场景中,对象模型包括:状态s、动作a、状态转移模型p、奖励r、折扣因子γ。上述各对象模型具体内容如下。
状态s包括:无人车状态sa和环境状态se,其中:
无人车状态sa包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向,无人车状态sa的获得方式不依赖于特定传感器,表示如下:
Figure BDA0002350902330000051
其中,在基于环境的全局坐标系Σe下,(px,py)表示无人车的当前位置,θ表示方向,r表示车体尺寸,(pgx,pgy)表示目标位置,θg表示目标方向,在基于无人车的本体坐标系Σb下,v表示线速度,ω表示角速度。
本实施例以地图和无人车状态作为输入,构建地图的方法和获得无人车状态的方式不依赖于特定传感器,适用范围广泛。
环境状态se通过以图片表示的地图进行描述,描述环境状态se的图片为全局地图图片,该全局地图图片上至少标识出地图的通行区域、障碍区域,以限定无人车路径规划的范围,表示如下:
Figure BDA0002350902330000052
其中,
Figure BDA0002350902330000053
表示实数集。
t时刻无人车的当前状态st表示为st=[sa;se]。
无人车采取的动作a包括无人车在本体坐标系Σb下的线速度v和角速度ω,动作a基于本体坐标系Σb描述,不受不同场景下全局坐标系Σe的坐标变换影响,t时刻的动作at表示如下:
Figure BDA0002350902330000061
状态转移模型p表示无人车在当前状态st采取动作at,转移到下一状态st+1的概率分布,表示如下:
P(st+1,st|at)
奖励r描述的是对无人车采取的动作给予的奖励,该奖励包括至少两种描述类型,第一种描述类型为在无人车到达或靠近目标时给予的奖励Rgoal,第二种描述类型为在无人车碰撞或靠近障碍物时给予的惩罚Rcoll
具体的,通过下述方式设置第一种描述类型:当无人车到达目标位置时,给予正值的最大奖励值;基于距离设置折扣系数,由折扣系数和最大奖励值计算折扣奖励值,当无人车与目标位置的距离小于距离阈值时,给予折扣奖励值;以及当无人车与目标位置的距离大于距离阈值时,不给予奖励。
表示如下:
Figure BDA0002350902330000062
其中,式(1)表示无人车到达目标位置pg和目标方向θg时,给予奖励α;为了体现出奖励的性质,α采用正值;
式(2)表示无人车靠近目标位置pg时(即无人车与目标的距离小于距离阈值)给予奖励i*α,i表示基于距离计算的折扣系数;式(3)表示无人车远离目标位置pg时(即无人车与目标的距离大于距离阈值)不给予奖励。
具体的,通过下述方式设置第二种描述类型:无人车与障碍物的距离小于第一阈值条件时,给予负值的最大惩罚值;基于距离设置折扣系数,由折扣系数和最大惩罚值计算折扣惩罚值,当无人车与障碍物的距离大于所述第一阈值条件且小于第二阈值条件时,给予折扣惩罚值;以及当无人车与障碍物的距离大于第二阈值条件时,不给予惩罚。
表示如下:
Figure BDA0002350902330000071
其中,式(1)表示无人车与障碍物距离dcoll小于阈值条件tcoll时(即无人车与障碍物的距离小于第一阈值条件),给予惩罚ξ;式(2)表示无人车靠近障碍物时(即无人车与障碍物的距离大于所述第一阈值条件且小于第二阈值条件)给予惩罚j*ξ,j表示基于距离计算的折扣系数,m表示系数;式(3)表示无人车与障碍物的距离dcoll在阈值条件以外时(即无人车与障碍物的距离大于第二阈值条件时)不给予惩罚。
在t时刻,完整的奖励函数Rt表述为:
Rt=Rgoal+Rcoll
折扣因子γ是在计算无人车执行多个动作所获得奖励时使用的衰减因子γ∈[0,1),用于调整值函数的输出。
本实施例所建立的对象模型中,无人车状态不依赖于传感器而获得,环境状态采用全局地图图片进行描述,克服了现有技术中存在的依赖人工进行标记,计算代价高,依赖于特定传感器装置,适用范围狭窄等问题。
本发明的一个实施例中,上述步骤S110建立的用于描述路径规划结果的评估指标的对象模型包括:策略π和值函数V。其中,
策略π的目的为最小化到达目标位置和目标方向的期望时间,并避免与环境障碍物发生碰撞。根据无人车在t时刻的状态st,无人车选择动作at的策略π可描述为:
π:(at|st;θt)
其中,θt表示t时刻神经网络的参数。该策略π的主旨为最小化到达目标位置pg和目标方向θg的期望时间,并避免与环境障碍物发生碰撞。
值函数V用于描述无人车在t时刻的状态st(包括无人车状态sa和环境状态se)下,采取策略π的预期收益,可描述为:
Figure BDA0002350902330000081
其中,
Figure BDA0002350902330000082
表示期望。
本发明的一个实施例中,上述步骤S120中的“基于建立的对象模型,搭建深度强化学习神经网络”包括:
基于GA3C框架建立深度强化学习训练框架,搭建深度强化学习神经网络;建立的深度强化学习训练框架由无人车构成的智能体、数据队列和单GPU的神经网络三个部分组成。
需要说明的是,GA3C是指应用于图形处理器(Graphics Processing Unit,GPU)的异步优势评价器算法(Asynchronous Advantage Actor-Critic,A3C)。GA3C框架使用GPU进行强化学习训练,能够提升模型训练速度和性能。
本发明的一个实施例中,上述步骤S120进一步包括:在GA3C框架中添加多个并行运算GPU,搭建基于多GPU的神经网络;本实施例中深度强化学习训练框架由智能体、数据队列和多GPU的神经网络组成。
图2为本发明实施例示出的一种基于GA3C框架建立的深度强化学习训练框架的结构示意图。如图2所示,本实施例中的深度强化学习训练框架200包括:
由无人车构成的智能体210,用于与外界环境交互,实时获取无人车的状态s、动作a等数据,为搭建深度强化学习训练框架的提供数据。
数据队列220中包括有预测器和训练器,得到的训练数据和预测数据均存储在该数据队列中。
其中,通过预测器根据当前策略π选择动作a,并收集状态s、动作a和奖励r作为训练数据,输入训练器进行训练,并通过预测器输入当前状态s到神经网络,从神经网络得到策略π和值函数V,并选择动作a,计算奖励r得到预测数据;通过训练器输入状态s、动作a、奖励r到神经网络,训练神经网络,以更新神经网络的参数。
多GPU的神经网络230,由多个并行运算的单GPU组成,构成多GPU的神经网络。
本发明将单GPU的GA3C框架改进至多GPU的GA3C框架,多GPU训练方式,能够并行处理训练数据,包括地图图片和无人车状态。在多GPU并行运算方法下,GA3C框架的数据处理效率提升,模型训练时间缩短,模型性能更好。
图3为本发明实施例示出的一种搭建深度强化学习神经网络方法的流程示意图。采用卷积神经网络、全连接神经网络搭建每个单GPU的神经网络。如图3所示,本实施例的单GPU的神经网络搭建方法包括如下步骤:
步骤S310,将地图图片输入到卷积神经网络,得到地图图片的特征向量,将无人车状态输入到单隐层全连接神经网络,得到状态输出向量。
其中,地图图片指以图片方式表示任务场景中的障碍物区域、通行区域等图形特征。无人车状态包含无人车的位置、方向、速度、目标位置、目标方向等状态。环境状态的地图图片和无人车状态即为该单GPU的神经网络的输入。
步骤S320,将地图图片的特征向量和状态输出向量进行拼接融合后输入到双隐层全连接神经网络。
其中,全连接神经网络中的1个隐藏层由1个全连接层和1个激活函数组成。
步骤S330,由双隐层全连接神经网络输出策略π和值函数V。双隐层全连接神经网络的输出即为该单GPU的神经网络的输出。
图4为本发明实施例示出的一种深度强化学习神经网络训练方法的流程示意图,如图4所示,本实施例的训练深度强化学习神经网络的方法包括如下步骤:
步骤S410,将环境状态se的地图图片、无人车状态sa作为训练数据。
步骤S420,随机初始化神经网络参数,基于动作a和获得的奖励r,计算策略损失函数fπ(θ)和值函数损失函数fv(θ)。
步骤S430,通过反向传播算法,更新各个GPU中神经网络的参数,训练深度强化学习神经网络。
其中,策略损失函数fπ(θ)表示为:
fπ(θ)=logπ(at|st;θ)(Rt-V(st;θt))+βH(π(st;θ))
其中,Rt表示奖励函数,V(st;θt)表示值函数,βH(π(st;θ))表示策略损失函数fπ(θ)中的正则项,起到调节fπ(θ)的作用。
值函数损失函数fv(θ)表示为:
fv(θ)=(Rt-V(st;θt))2
同样其中,Rt表示奖励函数,V(st;θt)表示值函数。
步骤S440,检测一段时间内累积的奖励r、策略损失函数fπ(θ)和值函数损失函数fv(θ)的变化过程,根据奖励和损失函数判断神经网络的性能,直至得到稳定的神经网络模型。
其中,累积的奖励越高,表示神经网络的性能越好,损失函数的值越低,表示神经网络的性能越好。当奖励和损失函数的值均到达稳定区间,则可得到稳定的神经网络模型。
图5为本发明实施例示出的一种多GPU神经网络的参数更新方法的流程示意图,如图5所示,上述步骤S430中的“通过反向传播算法,更新各个GPU中神经网络的参数”包括如下步骤:
步骤S510,将神经网络分布到n个GPU中,n≥2。
步骤S520,将当前训练轮次的训练数据平均分布到各个GPU中,并输入到神经网络得到参数的梯度(grad,var),其中grad表示梯度,var表示变量。
步骤S530,根据各个GPU得到的梯度(grad,var)计算参数的平均梯度mean(grad,var)。
步骤S540,基于该平均梯度mean(grad,var),同步更新各个GPU中神经网络的参数。
本发明的一个实施例中,上述步骤S130中“根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径”包括:在输出的策略π中选取概率最大的动作作为当前无人车的动作,将当前任务场景下的环境状态的地图图片和无人车状态不断输入到训练后的深度强化学习神经网络中,直至无人车到达目标,获取无人车从起点直至到达目标的所有动作,生成无人车的运动路径。
综上所述,本发明的技术方案,以环境状态的全局地图图片和无人车状态作为输入,构建地图的方法和获得无人车状态的方式不依赖于特定传感器,适用范围广泛;通过地图图片标识场景中的环境信息,通过深度神经网络提取地图特征,并应用场景的地图图片实现路径规划,简化了建模过程;采用卷积神经网络、全连接神经网络等神经网络结构建立深度强化学习网络,改进基于单GPU的GA3C框架至多GPU的GA3C框架,在多GPU并行运算方法下,数据处理效率提升,模型训练时间缩短,模型性能更好。
图6为本发明实施例示出的一种无人车全局路径规划装置的结构示意图,如图6所示,本实施例的无人车全局路径规划装置600包括:
建模单元610,用于通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,所述对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;
训练单元620,用于基于建立的对象模型,搭建深度强化学习神经网络,并利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练,直至得到稳定的神经网络模型;
实施单元630,用于启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的所述深度强化学习神经网络中,根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径。
本发明的一个实施例中,上述建模单元610具体用于,使用马尔可夫决策过程{s,a,p,r,γ}描述所述对象模型,该对象模型包括:状态s、动作a、状态转移模型p、奖励r、折扣因子γ;在本发明的无人车全局路径规划应用场景中,上述各对象模型具体定义如下:
状态s包括:无人车状态sa和环境状态se,t时刻的状态st表示为st=[sa;se];其中:无人车状态不依赖于传感器而获得,无人车状态sa包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向;描述环境状态se的图片为全局地图图片,该全局地图图片上至少标识出地图的通行区域、障碍区域;
动作a包括无人车在本体坐标系下的线速度和角速度,t时刻的动作,表示为at
状态转移模型p表示无人车在当前状态st采取动作at,转移到下一状态st+1的概率分布;
奖励r描述的是对无人车采取的动作给予的奖励,该奖励包括至少两种描述类型,第一种描述类型为在无人车到达或靠近目标时给予的奖励,第二种描述类型为在无人车碰撞或靠近障碍物时给予的惩罚;
折扣因子γ是在计算无人车执行多个动作所获得奖励时使用的衰减因子,用于调整值函数的输出。
本发明的一个实施例中,上述训练单元620包括:
训练框架构建模块,用于基于GA3C框架建立深度强化学习训练框架;以及
神经网络构建模块,用于在GA3C框架中添加多个并行运算GPU,搭建基于多GPU的神经网络。
本发明的一个实施例中,上述训练框架构建模块具体用于:
建立由无人车构成的智能体、数据队列和多GPU的神经网络三个部分构成的深度强化学习训练框架,其中,所述智能体与外界环境交互,所述数据队列中包括有预测器和训练器,得到的训练数据和预测数据均存储在所述数据队列中;
通过预测器根据当前策略π选择动作a,并收集状态s、动作a和奖励r作为训练数据,输入训练器进行训练;通过预测器输入当前状态s到神经网络,从神经网络得到策略π和值函数V,并选择动作a,计算奖励r得到预测数据;通过训练器输入状态s、动作a、奖励r到神经网络,训练神经网络,以更新神经网络的参数。
基于多GPU的神经网络由多个单GPU的神经网络构成。本发明的一个实施例中,上述神经网络构建模块具体用于:
采用卷积神经网络、全连接神经网络搭建每个单GPU的神经网络,其中,单GPU的神经网络的输入为环境状态的地图图片和无人车状态;
将地图图片输入到卷积神经网络,得到地图图片的特征向量,将无人车状态输入到单隐层全连接神经网络,得到状态输出向量,以及将地图图片的特征向量和状态输出向量进行拼接融合后输入到双隐层全连接神经网络,由双隐层全连接神经网络输出策略π和值函数V,该双隐层全连接神经网络输出即为每个单GPU的神经网络的输出。
本发明的一个实施例中,上述的训练单元620还具体用于,将环境状态se的地图图片、无人车状态sa作为训练数据;随机初始化神经网络参数,基于动作a和获得的奖励r,计算策略损失函数和值函数损失函数;通过反向传播算法,更新各个GPU中神经网络的参数,训练所述深度强化学习神经网络;检测一段时间内累积的奖励r、策略损失函数和值函数损失函数的变化过程,根据奖励和损失函数判断神经网络的性能,直至得到稳定的神经网络模型。
其中,上述训练单元620中的“通过反向传播算法,更新各个GPU中神经网络的参数”包括:将神经网络分布到n个GPU中,n≥2;将当前训练轮次的训练数据平均分布到各个GPU中,并输入到神经网络得到参数的梯度(grad,var);根据各个GPU得到的梯度(grad,var)计算参数的平均梯度mean(grad,var);基于所述平均梯度mean(grad,var),同步更新各个GPU中神经网络的参数。
本发明的一个实施例中,上述的实施单元630具体用于,在输出的策略π中选取概率最大的动作作为当前无人车的动作,获取无人车从起点直至到达目标的所有动作,生成无人车的运动路径。
以上所描述的装置实施例仅仅是示意性的,具体实施方式可以参照前述方法实施例的具体实施方式进行,在此不再赘述。
需要说明的是,装置实施例中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明的具体实施方式,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本发明的目的,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种无人车全局路径规划方法,其特征在于,所述方法包括:
通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,所述对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;
基于建立的对象模型,搭建深度强化学习神经网络,并利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练,直至得到稳定的神经网络模型;
启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的所述深度强化学习神经网络中,根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径;
所述无人车状态不依赖于传感器而获得,无人车状态sa包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向;表示如下:
Figure FDA0003292803860000011
其中,在基于环境的全局坐标系Σe下,(px,py)表示无人车的当前位置,θ表示方向,r表示车体尺寸,(pgx,pgy)表示目标位置,θg表示目标方向,在基于无人车的本体坐标系Σb下,v表示线速度,ω表示角速度;
描述所述环境状态se的图片为全局地图图片,该全局地图图片上至少标识出地图的通行区域、障碍区域;
所述路径规划结果的评估指标包括:策略π和值函数V;
所述策略π的目的为最小化到达目标位置和目标方向的期望时间,并避免与环境障碍物发生碰撞;
所述值函数V用于描述在无人车状态sa和环境状态se下,采取策略π的预期收益。
2.如权利要求1所述的方法,其特征在于,
使用马尔可夫决策过程{s,a,p,r,γ}描述所述对象模型,所述对象模型包括:状态s、动作a、状态转移模型p、奖励r、折扣因子γ;其中,
所述状态s包括:无人车状态sa和环境状态se,t时刻的当前状态st表示为st=[sa;se];
所述动作a包括无人车在本体坐标系下的线速度和角速度,t时刻的动作,表示为at
所述状态转移模型p表示无人车在当前状态st采取动作at,转移到下一状态st+1的概率分布;
所述奖励r描述的是对无人车采取的动作给予的奖励,该奖励包括至少两种描述类型,第一种描述类型为在无人车到达或靠近目标时给予的奖励,第二种描述类型为在无人车碰撞或靠近障碍物时给予的惩罚;
所述折扣因子γ是在计算无人车执行多个动作所获得奖励时使用的衰减因子,用于调整值函数的输出。
3.如权利要求2所述的方法,其特征在于,
通过下述方式设置所述第一种描述类型:
当无人车到达目标位置时,给予正值的最大奖励值;
基于距离设置折扣系数,由折扣系数和最大奖励值计算折扣奖励值,当无人车与目标位置的距离小于距离阈值时,给予折扣奖励值;以及
当无人车与目标位置的距离大于距离阈值时,不给予奖励;
通过下述方式设置所述第二种描述类型:
无人车与障碍物的距离小于第一阈值条件时,给予负值的最大惩罚值;
基于距离设置折扣系数,由折扣系数和最大惩罚值计算折扣惩罚值,当无人车与障碍物的距离大于所述第一阈值条件且小于第二阈值条件时,给予折扣惩罚值;以及
当无人车与障碍物的距离大于所述第二阈值条件时,不给予惩罚。
4.如权利要求2所述的方法,其特征在于,所述根据神经网络输出的路径规划结果的评估指标,生成无人车的运动路径包括:
在输出的策略π中选取概率最大的动作作为当前无人车的动作,获取无人车从起点直至到达目标的所有动作,生成无人车的运动路径。
5.如权利要求2或4所述的方法,其特征在于,所述基于建立的对象模型,搭建深度强化学习神经网络包括:
基于GA3C训练框架建立深度强化学习训练框架,搭建深度强化学习神经网络;建立的深度强化学习训练框架由无人车构成的智能体、数据队列和基于GPU的神经网络三个部分组成,其中,
所述智能体与外界环境交互,所述数据队列中包括有预测器和训练器,得到的训练数据和预测数据均存储在所述数据队列中;
通过所述预测器根据当前策略π选择动作a,并收集状态s、动作a和奖励r作为训练数据,输入所述训练器进行训练;
通过所述预测器输入当前状态s到所述基于GPU的神经网络,从所述基于GPU的神经网络得到策略π和值函数V,并选择动作a,计算奖励r得到预测数据;
通过所述训练器输入状态s、动作a、奖励r到所述基于GPU的神经网络,训练所述基于GPU的神经网络,以更新所述基于GPU的神经网络的参数。
6.如权利要求5所述的方法,其特征在于,在GA3C训练框架中添加多个并行运算GPU,建立基于多GPU的神经网络;所述深度强化学习训练框架由智能体、数据队列和多GPU的神经网络组成。
7.如权利要求6所述的方法,其特征在于,所述搭建深度强化学习神经网络包括:
采用卷积神经网络、全连接神经网络搭建所述基于GPU的神经网络,其中,
所述基于GPU的神经网络的输入为环境状态的地图图片和无人车状态,
将地图图片输入到所述卷积神经网络,得到地图图片的特征向量,将无人车状态输入到单隐层全连接神经网络,得到状态输出向量;地图图片的特征向量和状态输出向量进行拼接融合后输入到双隐层全连接神经网络,由双隐层全连接神经网络输出策略π和值函数V;
所述基于GPU的神经网络的输出为所述双隐层全连接神经网络的输出。
8.如权利要求7所述的方法,其特征在于,所述利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练,直至得到稳定的神经网络模型,包括:
将环境状态se的地图图片、无人车状态sa作为训练数据;
随机初始化神经网络参数,基于动作a和获得的奖励r,计算策略损失函数和值函数损失函数;
通过反向传播算法,更新各个GPU中神经网络的参数,训练所述深度强化学习神经网络;
检测一段时间内累积的奖励r、策略损失函数和值函数损失函数的变化过程,根据奖励和损失函数判断神经网络的性能,直至得到稳定的神经网络模型。
9.如权利要求8所述的方法,其特征在于,所述通过反向传播算法,更新各个GPU中神经网络的参数包括:
将神经网络分布到n个GPU中,n≥2;
将当前训练轮次的训练数据平均分布到各个GPU中,并输入到神经网络得到参数的梯度;
根据各个GPU得到的梯度计算参数的平均梯度;
基于所述平均梯度,同步更新各个GPU中神经网络的参数。
10.一种无人车全局路径规划装置,其特征在于,所述装置包括:
建模单元,用于通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型,所述对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;
训练单元,用于基于建立的对象模型,搭建深度强化学习神经网络,并利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练,直至得到稳定的神经网络模型;
实施单元,用于启动路径规划后,将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的所述深度强化学习神经网络中,根据深度强化神经网络输出的路径规划结果的评估指标,生成无人车的运动路径;
所述无人车状态不依赖于传感器而获得,无人车状态sa包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向;表示如下:
Figure FDA0003292803860000051
其中,在基于环境的全局坐标系Σe下,(px,py)表示无人车的当前位置,θ表示方向,r表示车体尺寸,(pgx,pgy)表示目标位置,θg表示目标方向,在基于无人车的本体坐标系Σb下,v表示线速度,ω表示角速度;
描述所述环境状态se的图片为全局地图图片,该全局地图图片上至少标识出地图的通行区域、障碍区域;
所述路径规划结果的评估指标包括:策略π和值函数V;
所述策略π的目的为最小化到达目标位置和目标方向的期望时间,并避免与环境障碍物发生碰撞;
所述值函数V用于描述在无人车状态sa和环境状态se下,采取策略π的预期收益。
11.如权利要求10所述的装置,其特征在于,所述训练单元具体用于,
基于GA3C训练框架建立深度强化学习训练框架,搭建深度强化学习神经网络;以及在GA3C训练框架中添加多个并行运算GPU,建立基于多GPU的神经网络;所述深度强化学习训练框架由智能体、数据队列和多GPU的神经网络组成。
CN201911414795.XA 2019-12-31 2019-12-31 一种无人车全局路径规划方法和装置 Active CN111061277B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911414795.XA CN111061277B (zh) 2019-12-31 2019-12-31 一种无人车全局路径规划方法和装置
US17/593,618 US11747155B2 (en) 2019-12-31 2020-10-24 Global path planning method and device for an unmanned vehicle
PCT/CN2020/123474 WO2021135554A1 (zh) 2019-12-31 2020-10-24 一种无人车全局路径规划方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911414795.XA CN111061277B (zh) 2019-12-31 2019-12-31 一种无人车全局路径规划方法和装置

Publications (2)

Publication Number Publication Date
CN111061277A CN111061277A (zh) 2020-04-24
CN111061277B true CN111061277B (zh) 2022-04-05

Family

ID=70305678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911414795.XA Active CN111061277B (zh) 2019-12-31 2019-12-31 一种无人车全局路径规划方法和装置

Country Status (3)

Country Link
US (1) US11747155B2 (zh)
CN (1) CN111061277B (zh)
WO (1) WO2021135554A1 (zh)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3523760B1 (en) * 2016-11-04 2024-01-24 DeepMind Technologies Limited Reinforcement learning systems
US20220371616A1 (en) * 2019-10-29 2022-11-24 WHILL, Inc. System in facility and electric mobility vehicle
CN111061277B (zh) 2019-12-31 2022-04-05 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111515961B (zh) * 2020-06-02 2022-06-21 南京大学 一种适用于移动机械臂的强化学习奖励方法
US11034364B1 (en) * 2020-06-05 2021-06-15 Gatik Ai Inc. Method and system for context-aware decision making of an autonomous agent
CN111752274B (zh) * 2020-06-17 2022-06-24 杭州电子科技大学 一种基于强化学习的激光agv的路径跟踪控制方法
CN111882030B (zh) * 2020-06-29 2023-12-05 武汉钢铁有限公司 一种基于深度强化学习的加锭策略方法
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
WO2022006873A1 (en) * 2020-07-10 2022-01-13 Beijing Didi Infinity Technology And Development Co., Ltd. Vehicle repositioning on mobility-on-demand platforms
CN112015174B (zh) * 2020-07-10 2022-06-28 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN111780777B (zh) * 2020-07-13 2022-10-21 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
US11835958B2 (en) * 2020-07-28 2023-12-05 Huawei Technologies Co., Ltd. Predictive motion planning system and method
CN112069903B (zh) * 2020-08-07 2023-12-22 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN112212872B (zh) * 2020-10-19 2022-03-11 合肥工业大学 基于激光雷达和导航地图的端到端自动驾驶方法及系统
CN112589805A (zh) * 2020-12-21 2021-04-02 航天东方红卫星有限公司 一种空间环境下动态路径演示方法
CN112581026B (zh) * 2020-12-29 2022-08-12 杭州趣链科技有限公司 一种联盟链上物流机器人联合路径规划方法
CN112835333B (zh) * 2020-12-31 2022-03-15 北京工商大学 一种基于深度强化学习多agv避障与路径规划方法及系统
CN112836852B (zh) * 2020-12-31 2024-05-31 中国电子科技集团公司信息科学研究院 一种基于强化学习的无人平台路径规划方法及装置
CN113111192B (zh) * 2021-04-28 2022-03-29 清华大学 智能体主动构建环境场景图谱的方法、设备和探索方法
CN113296500B (zh) * 2021-04-30 2023-04-25 浙江吉利控股集团有限公司 一种局部路径规划方法及系统
CN113110516B (zh) * 2021-05-20 2023-12-22 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN113592162B (zh) * 2021-07-22 2023-06-02 西北工业大学 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN113625733A (zh) * 2021-08-04 2021-11-09 北京工业大学 一种基于ddpg多目标三维无人机路径规划方法
CN113627533B (zh) * 2021-08-11 2023-11-10 北京邮电大学 一种基于强化学习的电力设备检修决策生成方法
CN113625718B (zh) * 2021-08-12 2023-07-21 上汽大众汽车有限公司 车辆的行驶路径规划方法
CN113485380B (zh) * 2021-08-20 2022-04-12 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113741444B (zh) * 2021-08-26 2023-10-20 北京理工大学 一种基于多智能体邻近交互与轨迹预测的路径规划方法
CN113985870B (zh) * 2021-10-19 2023-10-03 复旦大学 一种基于元强化学习的路径规划方法
CN114022069A (zh) * 2021-10-29 2022-02-08 中山大学 一种面向农村电商物流的配送中心选址方法
CN114154400B (zh) * 2021-11-15 2023-12-05 中国人民解放军63963部队 无人车辆健康状态检测系统及检测方法
CN114153213A (zh) * 2021-12-01 2022-03-08 吉林大学 一种基于路径规划的深度强化学习智能车行为决策方法
CN114167898B (zh) * 2021-12-15 2023-10-03 南京航空航天大学 一种无人机收集数据的全局路径规划方法及系统
CN114326734B (zh) * 2021-12-29 2024-03-08 中原动力智能机器人有限公司 一种路径规划方法及装置
CN114630299B (zh) * 2022-03-08 2024-04-23 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法
CN114543831B (zh) * 2022-04-18 2022-10-18 季华实验室 基于驾驶风格的路径规划方法、装置、设备及存储介质
CN114779780B (zh) * 2022-04-26 2023-05-12 四川大学 一种随机环境下路径规划方法及系统
CN114943278B (zh) * 2022-04-27 2023-09-12 浙江大学 基于强化学习的持续在线群体激励方法、装置及存储介质
CN114919581B (zh) * 2022-05-11 2024-04-26 中南大学 智能车辆无序交叉路口的行为决策方法、计算机装置
CN115145281A (zh) * 2022-07-19 2022-10-04 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法
US11862016B1 (en) 2022-07-19 2024-01-02 Jiangsu University Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection
CN115314399B (zh) * 2022-08-05 2023-09-15 北京航空航天大学 一种基于逆强化学习的数据中心流量调度方法
CN115421494A (zh) * 2022-09-19 2022-12-02 西安交通大学 清洁机器人路径规划方法、系统、计算机设备及存储介质
CN115457782B (zh) * 2022-09-19 2023-11-03 吉林大学 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法
CN115731436B (zh) * 2022-09-21 2023-09-26 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法
CN115249134B (zh) * 2022-09-23 2022-12-23 江西锦路科技开发有限公司 一种用于无人机的资源分配方法、装置、设备及存储介质
CN115562345B (zh) * 2022-10-28 2023-06-27 北京理工大学 一种基于深度强化学习的无人机侦测轨迹规划方法
CN115493597B (zh) * 2022-11-15 2023-04-18 山东大学 一种基于sac算法的auv路径规划控制方法
CN115731690B (zh) * 2022-11-18 2023-11-28 北京理工大学 一种基于图神经网络强化学习的无人公交集群决策方法
CN115892067B (zh) * 2022-11-23 2024-01-26 禾多科技(北京)有限公司 目标车辆的行驶方法、装置、存储介质及电子装置
CN115790635A (zh) * 2023-01-31 2023-03-14 西华大学 基于区块链的无人驾驶运输车行驶路线规划方法及装置
CN115809502B (zh) * 2023-02-09 2023-04-25 西南交通大学 一种山区铁路大临工程配套道路的智能规划与设计方法
CN115828831B (zh) * 2023-02-14 2023-06-09 之江实验室 基于深度强化学习的多芯粒芯片算子放置策略生成方法
CN116451934B (zh) * 2023-03-16 2024-02-06 中国人民解放军国防科技大学 多无人机边缘计算路径优化与依赖任务调度优化方法及系统
CN116243716B (zh) * 2023-05-08 2023-07-18 中铁第四勘察设计院集团有限公司 一种融合机器视觉的集装箱智能举升控制方法及系统
CN117075596B (zh) * 2023-05-24 2024-04-26 陕西科技大学 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统
CN116504089B (zh) * 2023-06-27 2023-09-12 东风悦享科技有限公司 一种基于路面破损因素的无人公交集群灵活调度系统
CN116612654B (zh) * 2023-07-21 2023-11-24 北京斯年智驾科技有限公司 一种无人驾驶车队调度方法、装置及电子设备
CN116638528B (zh) * 2023-07-26 2023-09-22 深圳墨影科技有限公司 一种机器人移动协作系统的混合调度方法
CN116663939B (zh) * 2023-07-31 2023-10-17 北京理工大学 一种无人车路径规划场景及任务的复杂度评价方法和系统
CN117273590A (zh) * 2023-10-19 2023-12-22 苏州大学 一种求解车辆路径优化问题的神经组合优化方法及系统
CN117141520B (zh) * 2023-10-31 2024-01-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种实时轨迹规划方法、装置和设备
CN117191046B (zh) * 2023-11-03 2024-01-26 齐鲁工业大学(山东省科学院) 基于深度强化学习和图神经网络的人群导航方法及系统
CN117232531B (zh) * 2023-11-14 2024-01-30 长沙小钴科技有限公司 机器人导航规划方法及存储介质和终端设备
CN117360552B (zh) * 2023-12-06 2024-03-26 苏州元脑智能科技有限公司 一种车辆控制方法、装置、设备及可读存储介质
CN117383460B (zh) * 2023-12-13 2024-03-12 甘肃送变电工程有限公司 一种全电动控制的gis设备安装用升降式搬运平台
CN117518836B (zh) * 2024-01-04 2024-04-09 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303710B (zh) 2015-10-30 2017-08-29 成都秦川物联网科技股份有限公司 物联网智能燃气表阶梯计价的实现方法
CN106970615B (zh) 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881B (zh) * 2017-05-17 2019-11-08 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN109509254B (zh) * 2017-09-14 2024-01-02 中兴通讯股份有限公司 三维地图构建方法、装置及存储介质
CN108062699B (zh) * 2017-12-04 2021-09-28 覃士忠 个性化车辆管理方法
US20190184561A1 (en) * 2017-12-15 2019-06-20 The Regents Of The University Of California Machine Learning based Fixed-Time Optimal Path Generation
US11108678B2 (en) * 2017-12-18 2021-08-31 Cisco Technology, Inc. Inspired path computation in a network
JP7353747B2 (ja) * 2018-01-12 2023-10-02 キヤノン株式会社 情報処理装置、システム、方法、およびプログラム
KR102180036B1 (ko) * 2018-04-24 2020-11-17 국방과학연구소 대상체의 예측 경로 데이터를 생성하는 방법, 장치 및 무인 차량
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
US11966838B2 (en) * 2018-06-19 2024-04-23 Nvidia Corporation Behavior-guided path planning in autonomous machine applications
CN108803615B (zh) * 2018-07-03 2021-03-23 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
KR102091580B1 (ko) * 2019-07-09 2020-03-20 주식회사 모빌테크 이동식 도면화 시스템을 이용한 도로 표지 정보 수집 방법
CN110568841A (zh) * 2019-08-05 2019-12-13 西藏宁算科技集团有限公司 一种自动驾驶决策方法及系统
CN110333739B (zh) * 2019-08-21 2020-07-31 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110530371B (zh) * 2019-09-06 2021-05-18 电子科技大学 一种基于深度强化学习的室内地图匹配方法
US11788846B2 (en) * 2019-09-30 2023-10-17 Lyft, Inc. Mapping and determining scenarios for geographic regions
CN111061277B (zh) 2019-12-31 2022-04-05 歌尔股份有限公司 一种无人车全局路径规划方法和装置

Also Published As

Publication number Publication date
US20220196414A1 (en) 2022-06-23
US11747155B2 (en) 2023-09-05
CN111061277A (zh) 2020-04-24
WO2021135554A1 (zh) 2021-07-08

Similar Documents

Publication Publication Date Title
CN111061277B (zh) 一种无人车全局路径规划方法和装置
Chen et al. Parallel planning: A new motion planning framework for autonomous driving
CN111578940B (zh) 一种基于跨传感器迁移学习的室内单目导航方法及系统
CN108594858B (zh) 马尔科夫运动目标的无人机搜索方法及装置
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
Ouahouah et al. Deep-reinforcement-learning-based collision avoidance in uav environment
Min et al. Deep Q learning based high level driving policy determination
WO2022007179A1 (zh) 一种多agv运动规划方法、装置和系统
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
US20220156576A1 (en) Methods and systems for predicting dynamic object behavior
CN112651374B (zh) 一种基于社会信息的未来轨迹预测方法及自动驾驶系统
Anzalone et al. An end-to-end curriculum learning approach for autonomous driving scenarios
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
Khalil et al. Exploiting multi-modal fusion for urban autonomous driving using latent deep reinforcement learning
CN113238970B (zh) 自动驾驶模型的训练方法、评测方法、控制方法及装置
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
Kim et al. An open-source low-cost mobile robot system with an RGB-D camera and efficient real-time navigation algorithm
Gao et al. Autonomous driving based on modified sac algorithm through imitation learning pretraining
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN115981302A (zh) 车辆跟驰换道行为决策方法、装置及电子设备
CN114527759A (zh) 一种基于分层强化学习的端到端驾驶方法
Gharaee et al. A Bayesian approach to reinforcement learning of vision-based vehicular control
Fennessy Autonomous vehicle end-to-end reinforcement learning model and the effects of image segmentation on model quality
Zangirolami et al. Impact of multi-armed bandit strategies on deep recurrent reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant