CN111026127A - 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 - Google Patents

基于部分可观测迁移强化学习的自动驾驶决策方法及系统 Download PDF

Info

Publication number
CN111026127A
CN111026127A CN201911373375.1A CN201911373375A CN111026127A CN 111026127 A CN111026127 A CN 111026127A CN 201911373375 A CN201911373375 A CN 201911373375A CN 111026127 A CN111026127 A CN 111026127A
Authority
CN
China
Prior art keywords
driving
unit
decision
value
scheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911373375.1A
Other languages
English (en)
Other versions
CN111026127B (zh
Inventor
章宗长
俞扬
周志华
王艺深
蒋俊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201911373375.1A priority Critical patent/CN111026127B/zh
Publication of CN111026127A publication Critical patent/CN111026127A/zh
Application granted granted Critical
Publication of CN111026127B publication Critical patent/CN111026127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Abstract

本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。

Description

基于部分可观测迁移强化学习的自动驾驶决策方法及系统
技术领域
本发明涉及一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,适用部分可观测的行车环境,属于汽车自动驾驶技术领域。
背景技术
自动驾驶需要解决三个问题:定位、路径规划和驾驶行为的选择。目前,“我在哪”的问题可以使用多种传感器融合技术来解决,“怎么去”的问题可以使用Dijkstra、A*、动态规划等算法来解决。然而,驾驶行为选择问题,如在城市路上如何行驶或在夜间行车怎样保证安全,仍然是当今的研究热点。
我们把汽车的行驶过程看作是一个部分可观测的马尔可夫决策过程(PartiallyObservable Markov Decision Process,POMDP)。这导致在行车过程中,车辆无法感知环境的真实状态,它只能得到真实状态的局部信息——观测。
进一步地,在真实场景下,我们还会遇到这些问题:首先,在设计一个智能体用强化学习学得与环境交互的最优策略之前,需要定义何为最优。这是通过奖励函数来体现的。设计者在设计任务时,需要根据任务执行的目的来定义奖励函数。例如,在自动驾驶任务中,奖励函数的设计需要综合安全性、舒适性、高效性等各方面因素。因此,设计一个好的奖励函数是非常困难的。
其次,模拟器中的驾驶环境与真实的驾驶环境存在着巨大的差异,导致行车策略在模拟器中的表现优异,但在真实环境中的效果较差。
最后,强化学习需要消耗大量的计算资源,且得到的策略的泛化性能有待改进。
以上这些都导致我们很难使用单纯的强化学习方法来从零开始学得健壮的、可靠的、安全的行车策略。
迁移学习可以利用先验知识来完成任务。然而,由于目标任务和源任务在动力学系统上的不同,使用单个源任务得到的先验知识并不总能完美地解决目标任务中的子问题。以自动驾驶为例,因为高速路和城市道路在车道数量、车流密度以及车速限制的不同,基于城市道路得到的行车策略在高速路上的性能可能是差强人意的。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,在部分可观测的驾驶环境下实现了车辆安全、可靠的行驶。本发明是基于迁移学习和强化学习理论实现的,而非以基于规则的方式。迁移学习可以利用已有的驾驶方案来实现自动驾驶。与其它算法相比,基于迁移学习的自动驾驶决策系统更加高效、安全。然而,无人车在行驶过程中必然会遇到不同的路况。单一的驾驶方案可能只适合于某些场景,所以为了使驾驶决策系统更加高效、健壮,提出了基于多驾驶方案的迁移学习自动驾驶决策系统。显然,如何根据环境信息来选择驾驶方案成为该系统的难点。进一步地,如果某一驾驶方案能够使车辆在当前路况下安全、快速地行驶,则会给该方案一个高的评分(奖励);反之,如果发生车祸,则会给一个低的评分。我们期望在整个行驶过程中得到的累计评分最大。即,需要找到某种路况到驾驶方案的映射,使得在此映射下将得到最大的累计评分。因此,使用强化学习来寻找最优映射,解决多驾驶方案迁移学习系统中何时使用何种驾驶方案的难题。
在本发明中,自动驾驶模型由情景单元、感知单元、决策单元、动作规划单元和控制单元五部分构成。本发明的亮点在于,通过在神经网络中添加卷积层的方式来识别车辆周围的障碍物,保证行车安全;通过在神经网络中添加长短时记忆单元的方式来记忆重要的历史信息,以应对部分可观测的行车环境;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值,即缓解Q学习使用单估计器导致的Q值被高估和双Q学习使用双估计器导致的Q值被低估的影响;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。本发明提出的自动驾驶方法提高了环境信息的利用率,弥补了传统自动驾驶方法在时间效率上的不足,使得行车过程更加安全稳定,提升了用户体验。
技术方案:一种基于部分可观测迁移强化学习的自动驾驶决策方法,通过对不同路况下的行车策略进行迁移,解决了在传统自动驾驶方案中出现的单策略迁移健壮性差、多策略迁移存在信息丢失(甚至存在负迁移)的问题。该方法具有可靠性高、鲁棒性强等优点,在自动驾驶领域具有广泛的应用前景。
具体包括如下步骤:
S1、基于虚拟环境数据库提供的环境模型,情景单元使用强化学习算法得到相应的驾驶策略
Figure BDA0002340285230000031
因为集合
Figure BDA0002340285230000032
中的任一策略都只适用于部分场景,所以将驾驶策略集合
Figure BDA0002340285230000033
扩展为驾驶方案集合
Figure BDA0002340285230000034
对任一驾驶方案oi={Iii,β(x,oi;θβ)},除驾驶策略πi外,它还包含适用该方案的观测集合Ii和终止函数β(x,oi;θβ)。进一步地,方案中的终止函数被表示成一个神经网络——终止网络,该网络将在决策单元中被反向传播算法进一步优化。最后,将驾驶方案集合
Figure BDA0002340285230000035
添加到驾驶方案数据库中。
S2、在决策单元中,初始化Q值网络Q(x,o;θ)、终止网络β(x,o;θβ)及相应的目标网络Q(x,o;θ-)和
Figure BDA0002340285230000036
把从驾驶方案数据库中选择的驾驶方案集合Π={o1,…,oi,…,on}视为动作集合A。
S3、在时刻t,感知单元将观测xt输入到决策单元的Q值网络中。随后,Q值网络输出驾驶方案oi的Q值Q(xt,oi;θ),其中i={1,2,…,n}。
S4、在决策单元中,使用最大熵Mellowmax算法将驾驶方案oi在观测xt下的Q值Q(xt,oi;θ)转换为概率值Pi。此阶段将输出概率分布{P1,…,Pi,…,Pn}。计算公式为:
Figure BDA0002340285230000037
其中,索引i={1,2,…,n};ηmm为权重系数。基于最大熵的思想,ηmm需要满足下式:
Figure BDA0002340285230000038
公式(1)中的Δ是Mellowmax算子。与玻尔兹曼软最大化算子不同,Mellowmax算子具有非膨胀的优良性质,能保证收敛到唯一的不动点。Δ的定义如下:
Figure BDA0002340285230000039
其中,ω是调整因子,它的值是2。
因为公式(1)是二阶可导的,因此使用牛顿迭代法来得到ηmm的值。
S5、决策单元将基于S4得到的概率分布选出驾驶方案oi={Iii,β(x,oi;θβ)};然后,动作规划单元将根据驾驶方案oi中的策略πi,决定在观测xt下智能体(如汽车)要执行的动作at;接着,控制单元将动作at转换为控制信号,改变车辆的行驶状态;最后,感知单元会将奖励rt和下一个观测xt+1反馈给智能体。将(xt,at,rt,xt+1)看作是一个经验元组,存放到回放池D中。
S6、在决策单元中,从回放池D中随机抽取经验元组(xj,aj,rj,xj+1)。
S7、在决策单元中,获得在观测xj+1下最大Q值对应的行车方案omax和最小Q值对应的行车方案omin
Figure BDA0002340285230000041
Figure BDA0002340285230000042
S8、在决策单元中,计算权重w:
Figure BDA0002340285230000043
其中,c为调整因子,它的值是5。
S9、在决策单元中,使用玻尔兹曼软最大化算法将驾驶方案oi的Q值Q(xt,oi;θ)转换为概率值Pi。计算公式为:
Figure BDA0002340285230000044
其中,i={1,2,…,n};τ为权重系数。τ越大,越倾向于随机地选择驾驶方案;τ越小,越倾向于选择最大Q值对应的方案。τ是一个关于时间t的函数,定义如下:
τ(t)=max(1-0.001t,0.001)
然后,根据驾驶方案的概率分布{P1,…,Pi,…,Pn}选出目标驾驶方案otarget。Pi越大,选择对应的驾驶方案的概率越大。
S10、在决策单元中,计算驾驶方案oi的目标值yi
Figure BDA0002340285230000051
其中,折扣因子γ表示对未来奖励的重视程度,它的值是0.98;索引i的取值范围是{1,2,…,n}。
S11、在决策单元中,计算驾驶方案oi的损失Li
Li=πi(aj|xj)(yi-Q(xj,oi;θ))2
通过最小化损失,使实际值逐渐逼近真实值。其中,πi(aj|xj)表示策略πi在观测xj下选择动作aj的概率;索引i的取值范围是{1,2,…,n}。
S12、在决策单元中,使用梯度下降算法更新Q值网络参数。
S13、在决策单元中,使用反向传播算法更新终止网络的参数。即:
Figure BDA0002340285230000052
其中,i={1,2,…,n}。
S14、在决策单元中,对于观测xt+1,基于终止概率β(xt+1,oi;θβ)来判断驾驶方案oi是否是可靠的。如果β(xt+1,oi;θβ)<η,那么就认为方案oi在路况xt+1下是可靠的,执行方案重用,即继续使用驾驶方案oi与环境交互;如果β(xt+1,oi;θβ)≥η,那么就认为方案oi在路况xt+1下是不安全的,选择新的驾驶方案。其中,η是安全阈值。
S15、在决策单元中,每与环境进行K次交互,便将Q值网络和终止网络的参数赋值给对应的目标网络。
S16、重复S4——S15,直至到达终止状态T。
实现基于部分可观测迁移强化学习的自动驾驶决策方法的系统,包括情景单元、感知单元、决策单元、动作规划单元和控制单元。
情景单元:从虚拟环境数据库中读取虚拟环境模型,输出驾驶方案。在该单元中,使用强化学习算法学得驾驶策略。显然,该策略只在某些特殊的路况下有着好的性能。为此,将驾驶策略扩展为驾驶方案。除驾驶策略外,驾驶方案还包含适用该策略的观测集合和终止函数。进一步地,终止函数被表示成一个神经网络——终止网络。终止网络将在决策单元中被反向传播算法进一步优化。最后,情景单元输出的驾驶方案将会被添加到驾驶方案数据库中。
感知单元:感知当前环境并对环境数据进行处理,输出观测和奖励。感知单元包括摄像头、全球定位系统、惯性传感器、毫米波雷达、激光雷达等一系列传感器,所做的工作包括障碍物识别、定位、测距等,收集的数据包括路况图像、经纬度和雷达的点云数据等。
决策单元:基于感知单元输出的观测和奖励来决定采用哪种驾驶方案。由于当前使用的驾驶方案并不总是适用于整个旅途,所以使用迁移强化学习算法,针对不同的道路情况使用不同的驾驶方案。更具体地说,如果业务员要到另一座城市拜访客户,他的旅程可能是“城市路——高速路——城市路”。此时,决策单元会根据感知单元传递的信息,如天气、时间、道路标识等,从驾驶方案数据库中有选择地读取多个候选方案。通过进一步地分析,决策单元将输出最适合当前场景的驾驶方案。对上例而言,决策单元将依次输出“大雾清晨城市路驾驶方案——晴朗正午高速路驾驶方案——大雨傍晚城市路驾驶方案”。
为了达到上述目的,决策单元使用了两个神经网络——Q值网络和终止网络。并且,在两个神经网络中都加入了卷积层,来识别车辆周围的障碍物;在两个神经网络中都加入了长短时记忆层(Long Short-Term Memory,LSTM),以应对部分可观测的行车环境。
动作规划单元:基于决策单元给出的驾驶方案和路况信息来生成动作。动作是对车辆行为变化的描述。以清晨大雾天气的城市道路为例,该单元将基于决策单元输出的“大雾清晨城市路驾驶方案”,生成包含“打开雾灯、减速10%、向右变道”等行车信息的动作。
控制单元:将动作规划单元输出的动作转换为控制信号,改变行车环境。例如,若动作中包含“打开雾灯、减速10%、向右变道”的信息,控制单元将会发出相应的控制信号,让无人车拨动雾灯按钮、减少输油量、顺时针转动方向盘。控制单元通过调用CAN接口来实现对车辆的控制。
有益效果:与现有技术相比,本发明提供的基于部分可观测迁移强化学习的自动驾驶决策方法及系统,具有如下优点:
传统的自动驾驶都是基于规则的自动驾驶策略,只能解决预设场景下的行车决策问题。若环境发生改变或是在一个完全陌生的环境下驾驶,已有行车方案的表现将会变得很糟糕。而本发明提出的自动驾驶模型则是以自适应的方式实现驾驶方案的切换。
为了识别车辆周围的障碍物、保障行车安全,本发明将卷积层添加到Q值网络和目标Q值网络中;为了记忆重要的历史信息、应对部分可观测的路况,本发明将长短时记忆层添加到Q值网络和目标Q值网络中。
本发明将迁移学习和强化学习相结合,在降低计算资源消耗的同时,提升了行车决策模型的学习效率,改进了环境信息的利用率,弥补了传统自动驾驶方法在时间效率上的不足,使得行车过程更加安全稳定,提升了用户体验。
本发明使用加权深度双Q网络算法来更准确地估计Q值,即缓解Q学习使用单估计器导致的Q值被高估和双Q学习使用双估计器导致的Q值被低估的影响。该算法基于发明人于2017年提出的一种改进Q学习算法——加权双Q算法。进一步地,由于两个Q值网络并非是完全去耦合的,使得高估情况仍有可能发生。为此,我们用玻尔兹曼软最大化算子取代加权深度双Q网络算法中的最大化算子,来更好地消除高估问题带来的影响。
本发明使用最大熵Mellowmax算法来选择驾驶方案。该算法不仅可以缓解人类偏好对选择结果的干扰,还能够避免在∈-greedy算法中出现的次优动作和最差动作被等概率选中的情形。
附图说明
图1为本发明系统的实施例框架图;
图2为本发明系统的决策单元示意图;
图3为本发明决策单元实现流程图;
图4为本发明神经网络结构示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
在本发明中,驾驶方案由观测集合、驾驶策略以及终止函数构成,待完成的任务是从地图上一点快速、安全地到达另一点。显然,如果某一驾驶方案在当前路况下能够可靠地行驶,则该方案会被给予一个正的奖励值;否则,给予一个负的奖励值。为使累计奖励最大,我们需要找到从路况到驾驶方案的最优映射。值得注意的是,本发明并没有使用强化学习去求解最优的行车策略,而是利用强化学习得到在当前行驶环境下的最优驾驶方案。
驾驶决策模型的理论基础是迁移学习和强化学习。迁移学习可以利用已有的驾驶算法来使车辆在目标道路上行驶。然而,目标道路(如从上海到南京)中可能存在多种驾驶场景(如高速路、城市道路),基于单驾驶方案的迁移学习是不健壮的,多驾驶方案的迁移学习又不可避免地会涉及到何时使用何种方案的难题。对此,强化学习是一种好的算法。强化学习的目标是找到路况到驾驶方案的最佳映射,进而使累计奖励最大。也就是说,基于当前的驾驶方案集合和动力学系统,强化学习给出了驾驶方案的最优组合。车辆遵循该组合可以快速、安全地到达目的地。
车辆可能会在某段时间内总是使用同一种驾驶方案。如图2所示,提出了一种终止算法。该算法被用来判断驾驶方案在未来路况下的安全性。即,如果某种方案在未来路况下是安全的,则无人车继续使用该方案;否则,基于不同驾驶方案的Q值选择新的方案。
如图3所示,基于部分可观测迁移强化学习的自动驾驶决策方法的实现系统中有两个神经网络——Q值网络和终止网络。
如图4所示,在两个神经网络中都加入了卷积层,来识别车辆周围的障碍物。这种结构对平移、缩放、倾斜等各种变形具有高度不变性。与全连接层相比,卷积层有局部感知和参数共享的特点。局部感知是指卷积核每次只对图像的局部像素进行处理,然后在更高层将这些局部信息归纳合并,进而得到图像的全部表征信息;权值共享减少了待训练参数的数量,降低了网络模型的复杂度。
如图4所示,在两个神经网络中都加入了长短时记忆层,以应对部分可观测的行车环境。在行车过程中,感知单元每秒生成的数据能达到GB级别。在数据量大的情况下,与门循环单元(Gated Recurrent Unit,GRU)相比,长短时记忆单元表达性能更好,因此我们在神经网络中添加长短时记忆单元来记忆历史环境信息,以应对部分可观测的环境,使得行车过程更加安全可靠。
如图1所示,自动驾驶系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。
情景单元:从虚拟环境数据库中读取虚拟环境模型,输出驾驶方案。在该单元中,我们使用强化学习算法学得驾驶策略。显然,该策略只在某些特殊的路况下有着好的性能。为此,本实施例将驾驶策略扩展为驾驶方案。除驾驶策略外,驾驶方案还包含适用该策略的观测集合和终止函数。进一步地,本实施例中的终止函数被表示成一个神经网络——终止网络。终止网络将在决策单元中被反向传播算法进一步优化。最后,情景单元输出的驾驶方案将会被添加到驾驶方案数据库中。
感知单元:感知当前环境并对环境数据进行处理,输出观测和奖励。感知单元包括摄像头、全球定位系统、惯性传感器、毫米波雷达、激光雷达等一系列传感器,所做的工作包括障碍物识别、定位、测距等,收集的数据包括路况图像、经纬度和雷达的点云数据等。
决策单元:基于感知单元输出的观测和奖励来决定采用哪种驾驶方案。由于当前使用的驾驶方案并不总是适用于整个旅途,所以我们使用迁移强化学习算法,针对不同的道路情况使用不同的驾驶方案。更具体地说,如果业务员要到另一座城市拜访客户,他的旅程可能是“城市路——高速路——城市路”。此时,决策单元会根据感知单元传递的信息,如天气、时间、道路标识等,从驾驶方案数据库中有选择地读取多个候选方案。通过进一步地分析,决策单元将输出最适合当前场景的驾驶方案。对上例而言,决策单元将依次输出“大雾清晨城市路驾驶方案——晴朗正午高速路驾驶方案——大雨傍晚城市路驾驶方案”。
为了达到上述目的,决策单元使用了两个神经网络——Q值网络和终止网络。并且,在两个神经网络中都加入了卷积层,来识别车辆周围的障碍物;在两个神经网络中都加入了长短时记忆层,以应对部分可观测的行车环境。
动作规划单元:基于决策单元给出的驾驶方案和路况信息来生成动作。动作是对车辆行为变化的描述。以清晨大雾天气的城市道路为例,该单元将基于决策单元输出的“大雾清晨城市路驾驶方案”,生成包含“打开雾灯、减速10%、向右变道”等行车信息的动作。
控制单元:将动作规划单元输出的动作转换为控制信号,改变行车环境。例如,若动作中包含“打开雾灯、减速10%、向右变道”的信息,控制单元将会发出相应的控制信号,让无人车拨动雾灯按钮、减少输油量、顺时针转动方向盘。控制单元通过调用CAN接口来实现对车辆的控制。
基于部分可观测迁移强化学习的自动驾驶决策方法,根据所给的驾驶方案集,结合实际环境,利用强化学习选择合适的驾驶方案。基于部分可观测迁移强化学习的自动驾驶决策系统的执行过程为:
S1、基于虚拟环境数据库提供的环境模型,情景单元使用强化学习算法得到相应的驾驶策略
Figure BDA0002340285230000101
因为集合
Figure BDA0002340285230000102
中的任一策略都只适用于部分场景,所以将驾驶策略集合
Figure BDA0002340285230000107
扩展为驾驶方案集合
Figure BDA0002340285230000103
对任一驾驶方案oi={Iii,β(x,oi;θβ)},除驾驶策略πi外,它还包含适用该方案的观测集合Ii和终止函数β(x,oi;θβ)。进一步地,方案中的终止函数被表示成一个神经网络——终止网络,该网络将在决策单元中被反向传播算法进一步优化。最后,将驾驶方案集合
Figure BDA0002340285230000104
添加到驾驶方案数据库中。
S2、在决策单元中,初始化Q值网络Q(x,o;θ)、终止网络β(x,o;θβ)及相应的目标网络Q(x,o;θ-)和
Figure BDA0002340285230000105
把从驾驶方案数据库中选择的驾驶方案集合Π={o1,…,oi,…,on}视为动作集合A。
S3、在时刻t,感知单元将观测xt输入到决策单元的Q值网络中。随后,Q值网络输出驾驶方案oi的Q值Q(xt,oi;θ),其中i={1,2,…,n}。
S4、在决策单元中,使用最大熵Mellowmax算法将驾驶方案oi在观测xt下的Q值Q(xt,oi;θ)转换为概率值Pi。此阶段将输出概率分布{P1,…,Pi,…,Pn}。计算公式为:
Figure BDA0002340285230000106
其中,索引i={1,2,…,n};ηmm为权重系数。基于最大熵的思想,ηmm需要满足下式:
Figure BDA0002340285230000111
公式(1)中的Δ是Mellowmax算子。与玻尔兹曼软最大化算子不同,Mellowmax算子具有非膨胀的优良性质,能保证收敛到唯一的不动点。Δ的定义如下:
Figure BDA0002340285230000112
其中,ω是调整因子,在本实施例中它的值是2。
因为公式(1)是二阶可导的,因此本实施例使用牛顿迭代法来得到ηmm的值。
S5、决策单元将基于S4得到的概率分布选出驾驶方案oi={Iii,β(x,oi;θβ)};然后,动作规划单元将根据驾驶方案oi中的策略πi,决定在观测xt下智能体(如汽车)要执行的动作at;接着,控制单元将动作at转换为控制信号,改变车辆的行驶状态;最后,感知单元会将奖励rt和下一个观测xt+1反馈给智能体。本实施例将(xt,at,rt,xt+1)看作是一个经验元组,存放到回放池
Figure BDA0002340285230000116
中。
S6、在决策单元中,从回放池
Figure BDA0002340285230000117
中随机抽取经验元组(xj,aj,rj,xj+1)。
S7、在决策单元中,获得在观测xj+1下最大Q值对应的行车方案omax和最小Q值对应的行车方案omin
Figure BDA0002340285230000113
Figure BDA0002340285230000114
S8、在决策单元中,计算权重w:
Figure BDA0002340285230000115
其中,c为调整因子,在本实施例中它的值是5。
S9、在决策单元中,使用玻尔兹曼软最大化算法将驾驶方案oi的Q值Q(xt,oi;θ)转换为概率值Pi。计算公式为:
Figure BDA0002340285230000121
其中,i={1,2,…,n};τ为权重系数。τ越大,越倾向于随机地选择驾驶方案;τ越小,越倾向于选择最大Q值对应的方案。在本实施例中,τ是一个关于时间t的函数,定义如下:
τ(t)=max(1-0.001t,0.001)
然后,根据驾驶方案的概率分布{P1,…,Pi,…,Pn}选出目标驾驶方案otarget。Pi越大,选择对应的驾驶方案的概率越大。
S10、在决策单元中,计算驾驶方案oi的目标值yi
Figure BDA0002340285230000122
其中,折扣因子γ表示对未来奖励的重视程度,在本实施例中它的值是0.98;索引i的取值范围是{1,2,…,n 。
S11、在决策单元中,计算驾驶方案oi的损失Li
Li=πi(aj|xj)(yi-Q(xj,oi;θ))2
通过最小化损失,使实际值逐渐逼近真实值。其中,πi(aj|xj)表示策略πi在观测xj下选择动作aj的概率;索引i的取值范围是{1,2,…,n}。
S12、在决策单元中,使用梯度下降算法更新Q值网络参数。
S13、在决策单元中,使用反向传播算法更新终止网络的参数。即:
Figure BDA0002340285230000123
其中,i={1,2,…,n}。
S14、在决策单元中,对于观测xt+1,基于终止概率β(xt+1,oi;θβ)来判断驾驶方案oi是否是可靠的。如果β(xt+1,oi;θβ)<η,那么就认为方案oi在路况xt+1下是可靠的,执行方案重用,即继续使用驾驶方案oi与环境交互;如果β(xt+1,oi;θβ)≥η,那么就认为方案oi在路况xt+1下是不安全的,选择新的驾驶方案。其中,η是安全阈值。
S15、在决策单元中,每与环境进行K次交互,便将Q值网络和终止网络的参数赋值给对应的目标网络。
S16、重复S4——S15,直至到达终止状态T。

Claims (10)

1.一种基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,包括如下步骤:
S1、基于虚拟环境数据库提供的环境模型,情景单元使用强化学习算法得到相应的驾驶策略
Figure FDA0002340285220000011
接着,情景单元将驾驶策略集合
Figure FDA0002340285220000012
扩展为驾驶方案集合
Figure FDA0002340285220000013
最后,情景单元输出的驾驶方案集合
Figure FDA0002340285220000014
将被添加到驾驶方案数据库中;
S2、在决策单元中,初始化Q值网络Q(x,o;θ)、终止网络β(x,o;θβ)及相应的目标网络Q(x,o;θ-)和
Figure FDA0002340285220000015
把从驾驶方案数据库中选择的驾驶方案集合Π={o1,…,oi,…,on}视为动作集合A;
S3、在时刻t,感知单元将观测xt输入到决策单元的Q值网络中;随后,Q值网络输出驾驶方案oi的Q值Q(xt,oi;θ),其中i={1,2,…,n};
S4、在决策单元中,使用最大熵Mellowmax算法将驾驶方案oi的Q值Q(xt,oi;θ)转换为概率值Pi;此阶段将输出概率分布{P1,…,Pi,…,Pn};其中i={1,2,…,n};
S5、决策单元将基于S4得到的概率分布选出驾驶方案oi={Ii,πi,β(x,oi;θβ)};然后,动作规划单元将根据驾驶方案oi中的策略πi,决定在观测xt下智能体要执行的动作at;接着,控制单元将动作at转换成控制信号,改变车辆的行驶状态;最后,感知单元会将奖励rt和下一个观测xt+1反馈给智能体;将(xt,at,rt,xt+1)看作是一个经验元组,存放到回放池
Figure FDA0002340285220000016
中;
S6、在决策单元中,从回放池
Figure FDA0002340285220000017
中随机抽取经验元组(xj,aj,rj,xj+1);
S7、在决策单元中,获得在观测xj+1下最大Q值对应的行车方案omax和最小Q值对应的行车方案omin;
S8、在决策单元中,计算权重w;
S9、在决策单元中,使用玻尔兹曼软最大化算法选择目标驾驶方案otarget
S10、在决策单元中,计算驾驶方案oi的目标值yi
S11、在决策单元中,计算驾驶方案oi的损失Li
S12、在决策单元中,使用梯度下降算法更新Q值网络参数;
S13、在决策单元中,使用反向传播算法更新终止网络的参数;
S14、在决策单元中,对于观测xt+1,基于终止概率β(xt+1,oi;θβ)来判断驾驶方案oi是否是可靠的;如果是可靠的,执行方案重用,即继续使用驾驶方案oi与环境交互;如果是不安全的,选择新的驾驶方案;
S15、在决策单元中,每与环境进行K次交互,便将Q值网络和终止网络的参数赋值给对应的目标网络;
S16、重复S4——S15,直至到达终止状态T。
2.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,情景单元使用虚拟环境数据库得到相应的驾驶方案
Figure FDA0002340285220000021
实现过程为:基于虚拟环境数据库提供的环境模型,情景单元使用强化学习算法得到相应的驾驶策略
Figure FDA0002340285220000022
因为集合
Figure FDA0002340285220000023
中的任一策略都只适用于部分场景,所以将驾驶策略集合
Figure FDA0002340285220000024
扩展为驾驶方案集合
Figure FDA0002340285220000025
对任一驾驶方案oi={Ii,πi,β(x,oi;θβ)},除驾驶策略πi外,它还包含适用该方案的观测集合Ii和终止函数β(x,oi;θβ);终止函数被表示成一个神经网络——终止网络,该网络将在决策单元中被反向传播算法进一步优化;最后,将驾驶方案集合
Figure FDA0002340285220000028
添加到驾驶方案数据库中。
3.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,S4,在决策单元中,使用最大熵Mellowmax算法将驾驶方案oi在观测xt下的Q值Q(xt,oi;θ)转换为概率值Pi;计算公式为:
Figure FDA0002340285220000026
其中,索引i={1,2,…,n};ηmm为权重系数;基于最大熵的思想,ηmm需要满足下式:
Figure FDA0002340285220000027
公式(1)中的Δ是Mellowmax算子;Δ的定义如下:
Figure FDA0002340285220000031
其中,ω是调整因子;
因为公式(1)是二阶可导的,因此使用牛顿迭代法来得到ηmm的值。
4.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,S7,在决策单元中,获得在观测xj+1下最大Q值对应的行车方案omax和最小Q值对应的行车方案omin
Figure FDA0002340285220000032
Figure FDA0002340285220000033
S8,在决策单元中,计算权重w:
Figure FDA0002340285220000034
其中,c为调整因子。
5.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,S9,在决策单元中,使用玻尔兹曼软最大化算法选择目标驾驶方案otarget的过程为:
首先,使用玻尔兹曼软最大化算法将驾驶方案oi的Q值Q(xt,oi;θ)转换为概率值Pi;计算公式为:
Figure FDA0002340285220000035
其中,i={1,2,…,n};τ为权重系数;τ是一个关于时间t的函数,定义如下:
τ(t)=max(1-0.001t,0.001)
然后,根据驾驶方案的概率分布{P1,…,Pi,…,Pn}选出目标驾驶方案otarget
6.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,S10,在决策单元中,计算驾驶方案oi的目标值yi
Figure FDA0002340285220000041
其中,折扣因子γ表示对未来奖励的重视程度,索引i的取值范围是{1,2,…,n}。
7.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,S11,在决策单元中,计算驾驶方案oi的损失Li
Li=πi(aj|xj)(yi-Q(xj,oi;θ))2
其中,πi(aj|xj)表示策略πi在观测xj下选择动作aj的概率;索引i的取值范围是{1,2,…,n};
S13,在决策单元中,使用反向传播算法更新终止网络的参数;即:
Figure FDA0002340285220000042
其中,i={1,2,…,n}。
8.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法,其特征在于,S14,在决策单元中,基于观测xt+1,使用终止概率β(xt+1,oi;θβ)来判断驾驶方案oi是否是可靠的;如果β(xt+1,oi;θβ)<η,那么就认为方案oi在路况xt+1下是可靠的,将继续使用驾驶方案oi与环境交互;如果β(xt+1,oi;θβ)≥η,那么就认为方案oi在路况xt+1下是不合适的,将会选择新的驾驶方案;其中,η是安全阈值。
9.一种基于部分可观测迁移强化学习的自动驾驶决策系统,其特征在于,包括情景单元、感知单元、决策单元、动作规划单元和控制单元;
情景单元:从虚拟环境数据库中读取虚拟环境模型,输出驾驶方案;
感知单元:感知当前环境并对环境数据进行处理,输出观测和奖励;
决策单元:基于感知单元输出的观测和奖励来决定采用哪种驾驶方案;
动作规划单元:基于决策单元给出的驾驶方案和路况信息来生成动作;
控制单元:将动作规划单元输出的动作转换为控制信号,改变行车状态。
10.如权利要求9所述的基于部分可观测迁移强化学习的自动驾驶决策系统,其特征在于,决策单元包括两个神经网络——Q值网络和终止网络;在两个神经网络中都加入了卷积层,来识别车辆周围的障碍物;在两个神经网络中都加入了长短时记忆层,以应对部分可观测的行车环境。
CN201911373375.1A 2019-12-27 2019-12-27 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 Active CN111026127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373375.1A CN111026127B (zh) 2019-12-27 2019-12-27 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373375.1A CN111026127B (zh) 2019-12-27 2019-12-27 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Publications (2)

Publication Number Publication Date
CN111026127A true CN111026127A (zh) 2020-04-17
CN111026127B CN111026127B (zh) 2021-09-28

Family

ID=70215048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373375.1A Active CN111026127B (zh) 2019-12-27 2019-12-27 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Country Status (1)

Country Link
CN (1) CN111026127B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111784142A (zh) * 2020-06-24 2020-10-16 吉林大学 高级驾驶辅助系统任务复杂度量化模型
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112650220A (zh) * 2020-12-04 2021-04-13 东风汽车集团有限公司 一种车辆自动驾驶方法、车载控制器及系统
CN112700642A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113015196A (zh) * 2021-02-23 2021-06-22 重庆邮电大学 一种基于状态感知的网络切片故障愈合方法
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113160562A (zh) * 2021-03-30 2021-07-23 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113269040A (zh) * 2021-04-25 2021-08-17 南京大学 结合图象识别与激光雷达点云分割的驾驶环境感知方法
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113276883A (zh) * 2021-04-28 2021-08-20 南京大学 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN113665593A (zh) * 2021-10-22 2021-11-19 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN113821041A (zh) * 2021-10-09 2021-12-21 中山大学 一种多机器人协同导航与避障的方法
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN114884994A (zh) * 2022-05-09 2022-08-09 山东高速建设管理集团有限公司 一种基于迁移学习的车路协同信息融合方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292392A (zh) * 2017-05-11 2017-10-24 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶系统及方法
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN108803609A (zh) * 2018-06-11 2018-11-13 苏州大学 基于约束在线规划的部分可观察自动驾驶决策方法及系统
CN108877267A (zh) * 2018-08-06 2018-11-23 武汉理工大学 一种基于车载单目相机的交叉路口检测方法
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN109572550A (zh) * 2018-12-28 2019-04-05 西安航空学院 一种行车轨迹预测方法、系统、计算机设备及存储介质
CN109726676A (zh) * 2018-12-28 2019-05-07 苏州大学 自动驾驶系统的规划方法
CN109814565A (zh) * 2019-01-30 2019-05-28 上海海事大学 时空双流数据驱动深度q学习的无人船智能航行控制方法
CN110027553A (zh) * 2019-04-10 2019-07-19 湖南大学 一种基于深度强化学习的防碰撞控制方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292392A (zh) * 2017-05-11 2017-10-24 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶系统及方法
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN108803609A (zh) * 2018-06-11 2018-11-13 苏州大学 基于约束在线规划的部分可观察自动驾驶决策方法及系统
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN108877267A (zh) * 2018-08-06 2018-11-23 武汉理工大学 一种基于车载单目相机的交叉路口检测方法
CN109572550A (zh) * 2018-12-28 2019-04-05 西安航空学院 一种行车轨迹预测方法、系统、计算机设备及存储介质
CN109726676A (zh) * 2018-12-28 2019-05-07 苏州大学 自动驾驶系统的规划方法
CN109814565A (zh) * 2019-01-30 2019-05-28 上海海事大学 时空双流数据驱动深度q学习的无人船智能航行控制方法
CN110027553A (zh) * 2019-04-10 2019-07-19 湖南大学 一种基于深度强化学习的防碰撞控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARRYON D. TIJSMA等: "《Comparing exploration strategies for Q-learning in random stochastic mazes》", 《2016 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE (SSCI)》 *
SEUNGCHAN KIM等: "《Removing the Target Network from Deep Q-Networks with the Mellowmax Operator》", 《AAMAS 2019》 *
刘全等: "《深度强化学习综述》", 《计算机学报》 *
徐进等: "《基于多重门限机制的异步深度强化学习》", 《计算机学报》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111562740B (zh) * 2020-05-06 2021-04-23 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111784142A (zh) * 2020-06-24 2020-10-16 吉林大学 高级驾驶辅助系统任务复杂度量化模型
CN111784142B (zh) * 2020-06-24 2022-08-26 吉林大学 高级驾驶辅助系统任务复杂度量化模型的建立方法
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN111845773B (zh) * 2020-07-06 2021-10-26 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN112162555B (zh) * 2020-09-23 2021-07-16 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN112650220A (zh) * 2020-12-04 2021-04-13 东风汽车集团有限公司 一种车辆自动驾驶方法、车载控制器及系统
CN112700642A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
CN113015196A (zh) * 2021-02-23 2021-06-22 重庆邮电大学 一种基于状态感知的网络切片故障愈合方法
CN112965499B (zh) * 2021-03-08 2022-11-01 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113160562B (zh) * 2021-03-30 2022-04-22 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113160562A (zh) * 2021-03-30 2021-07-23 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113044064B (zh) * 2021-04-01 2022-07-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113269040A (zh) * 2021-04-25 2021-08-17 南京大学 结合图象识别与激光雷达点云分割的驾驶环境感知方法
CN113276883A (zh) * 2021-04-28 2021-08-20 南京大学 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN113821041A (zh) * 2021-10-09 2021-12-21 中山大学 一种多机器人协同导航与避障的方法
CN113665593A (zh) * 2021-10-22 2021-11-19 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN114884994A (zh) * 2022-05-09 2022-08-09 山东高速建设管理集团有限公司 一种基于迁移学习的车路协同信息融合方法及系统

Also Published As

Publication number Publication date
CN111026127B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN111026127B (zh) 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法
US11835958B2 (en) Predictive motion planning system and method
EP3693944A1 (en) Method and device for short-term path planning of autonomous driving through information fusion by using v2x communication and image processing
CN112212872B (zh) 基于激光雷达和导航地图的端到端自动驾驶方法及系统
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN104897168B (zh) 基于道路危险评估的智能车路径搜索方法及系统
CN112249032B (zh) 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN110796856A (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
CN111311945A (zh) 一种融合视觉和传感器信息的驾驶决策系统及方法
Scheel et al. Situation assessment for planning lane changes: Combining recurrent models and prediction
CN110617829B (zh) 用于预测车辆的可能行驶路线的方法和装置
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN112444263A (zh) 全局路径规划方法及装置
CN111874007A (zh) 基于知识与数据驱动的无人车分层决策方法、系统、装置
CN116476863A (zh) 基于深度强化学习的自动驾驶横纵向一体化决策方法
CN113743469A (zh) 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113255054A (zh) 一种基于异构融合特征的强化学习自动驾驶方法
CN117406756B (zh) 一种运动轨迹参数的确定方法、装置、设备和存储介质
Xiaoqiang et al. Graph convolution reinforcement learning for decision-making in highway overtaking scenario
CN116448135A (zh) 基于深度强化学习的路径规划方法、装置和车辆
Mueller Reinforcement Learning: MDP applied to autonomous navigation
CN114708568A (zh) 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant