CN113561986A - 自动驾驶汽车决策方法及装置 - Google Patents
自动驾驶汽车决策方法及装置 Download PDFInfo
- Publication number
- CN113561986A CN113561986A CN202110946405.4A CN202110946405A CN113561986A CN 113561986 A CN113561986 A CN 113561986A CN 202110946405 A CN202110946405 A CN 202110946405A CN 113561986 A CN113561986 A CN 113561986A
- Authority
- CN
- China
- Prior art keywords
- driving
- decision model
- decision
- layer
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000009471 action Effects 0.000 claims abstract description 138
- 230000006870 function Effects 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000002787 reinforcement Effects 0.000 claims abstract description 37
- 238000004088 simulation Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 230000036461 convulsion Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000010391 action planning Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明实施例提供一种自动驾驶汽车决策方法及装置,所述方法包括:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,基于强化学习确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,通过上层驾驶场景决策模型,输出匹配的实时驾驶场景,然后确定对应的下层驾驶动作决策模型,输出对应的驾驶动作并执行。采用本方法能够更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。
Description
技术领域
本发明涉及自动驾驶技术领域,尤其涉及一种自动驾驶汽车决策方法及装置。
背景技术
当自动驾驶决策控制包括环境预测、行为决策、动作及路径规划等模块,环境预测的主要作用是对感知层识别到的物体进行行为预测并生成时间和空间维度上的轨迹传递给后续模块。行为决策在自动驾驶系统中扮演着“副驾驶”的角色,它汇集了周边车辆的重要信息,决定自动驾驶汽车的行驶策略和动作。动作规划是在决策层传递来的瞬时动作进行规划,例如转弯、避障等。路径规划会对较长时间内车辆行驶路径的规划,给定起始点和目标点,按照性能指标规划出一条无碰撞、能安全到达的有效路径。
但是,在现实环境中的复杂驾驶环境中,为了提高驾驶效率和驾驶安全性,人类驾驶员在一段距离内可能历经了多种驾驶场景,如跟车、换道、超车以及弯道行驶等,这些场景中每一个都包含了许多关键状态需要重点学习,如果只用强化学习的方法很难考虑到不同场景下的所有关键状态,同时也会导致学习效率低下。另外,相较于人类驾驶员,强化学习在学习更细节的人类驾驶方面比较困难。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种自动驾驶汽车决策方法及装置。
本发明实施例提供一种自动驾驶汽车决策方法,包括:
获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
在其中一个实施例中,所述方法还包括:
步骤1.1:获取所述不同驾驶场景下的标准驾驶演示数据,计算所述标准驾驶演示数据的特征统计期望;
步骤1.4:采用最大熵逆强化学习的方法, 利用正向强化学习的方法寻找多组最/次优的轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量;
步骤1.7:得到该驾驶场景下的最优奖励函数。
在其中一个实施例中,所述方法还包括:
步骤2.1:在所述更新奖励函数下进行正向强化学习训练,将训练时的n组次优轨迹及奖励保存至轨迹库;
步骤2.2: 用训练好的模型测试,生成m组测试轨迹及其奖励并加入轨迹库;
步骤2.3:在轨迹库中选取奖励最大的前h组数据作为当前奖励函数下的最/次优轨迹输出,对这些轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率,然后估计轨迹的期望特征统计量。
在其中一个实施例中,所述方法还包括:
步骤3.2:初始化网络模型参数;
步骤3.3:初始化环境、车辆状态;
步骤3.4:基于车辆当前的状态s,利用贪婪策略在网络模型估计出的最优动作和随机动作之间随机选取动作;
步骤3.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤3.9:重复上述步骤3.4至步骤3.8,发生碰撞或到达终止时间即终止,终止后从步骤3.3开始新回合训练直至模型收敛,训练回合结束;
步骤3.10:输出该驾驶场景下的下层驾驶动作决策模型。
在其中一个实施例中,所述方法还包括:
所述上层驾驶场景决策模型的决策时间的时间间隔为所述下层驾驶动作决策模型的决策时间的时间间隔的3倍。
在其中一个实施例中,所述交通状态,包括:
自车速度、自车横纵向位置、自车与周围车辆的相对位置。
在其中一个实施例中,所述特征统计量,包括:
速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。
本发明实施例提供一种自动驾驶汽车决策装置,包括:
获取模块,用于获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
第一训练模块,用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
第二获取模块,用于根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
自动驾驶模块,用于检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述自动驾驶汽车决策方法的步骤。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述自动驾驶汽车决策方法的步骤。
本发明实施例提供的自动驾驶汽车决策方法及装置,获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。这样能够在上层通过构建驾驶场景选择模型,下层通过模仿学习驾驶行为,设计出更标准的奖励函数,进一步地构建驾驶动作决策模型,可以更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中自动驾驶汽车决策方法的流程图;
图2为本发明实施例中自动驾驶汽车决策装置的结构图;
图3为本发明实施例中电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的自动驾驶汽车决策方法的流程示意图,如图1所示,本发明实施例提供了一种自动驾驶汽车决策方法,包括:
步骤S101,获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数。
具体地,获取不同驾驶场景下的标准驾驶演示数据,其中,驾驶场景可以包括跟车行驶、换道行驶、弯道行驶以及超越前车等场景,标准驾驶演示数据为专家驾驶时的数据,数据特征统计包括速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。然后根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的自主学习的最优奖励函数。
另外,模仿学习的具体步骤可以包括:
步骤S102,基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型。
具体地,使用训练出的最优奖励函数,基于强化学习对该奖励函数下的动作决策进行训练,构建出不同驾驶场景下的驾驶动作决策模型,具体步骤包括
步骤3.2:初始化网络模型参数;
步骤3.3:初始化环境、车辆状态;
步骤3.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤3.9:重复上述步骤3.4至步骤3.8,发生碰撞或到达终止时间即终止,终止后从步骤3.3开始新回合训练直至模型收敛,训练回合结束;
步骤3.10:输出该驾驶场景下的下层驾驶动作决策模型。
步骤S103,根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型
具体地,根据驾驶场景可以获取当前的交通状态,其中,车辆的交通状态可以包括自车速度、自车横纵向位置、自车与周围车辆的相对位置等数据,根据交通状态可以确定下层驾驶动作决策模型对应的上层驾驶场景决策模型,上层场景决策模型是获取交通状态后基于模仿学习训练出来的决策模型,上层是场景决策的模仿学习,下层是动作决策的模仿学习,其中,上层驾驶场景决策可以包括跟车行驶、换道行驶、弯道行驶以及超越前车等决策。
具体的上层驾驶场景决策模建立步骤包括:
步骤4.1:初始化环境、车辆状态;
步骤4.2:通过自车传感器获取车辆当前的交通状态s并输入到上层驾驶场景选择模型中;
步骤4.4:上层决策模型根据车辆当前状态s从上层动作空间选择一个上层动作ah(每一个动作映射到一个驾驶场景)并输出给下层动作决策层;
步骤4.4:根据上层动作映射的驾驶场景,调用下层当前驾驶场景下的驾驶动作决策模型;
步骤4.5:下层动作决策模型根据车辆当前的状态s输出相应的驾驶动作a,比如加速度或变道指令等;
步骤4.6:在下层动作执行完毕之后,通过传感器获取车辆更新后的状态s’;
步骤4.7:在上层模块中,根据车辆更新后的状态,评估该状态下的速度、跟车距离、碰撞时间(TTC)以及是否发生碰撞设定奖励函数,给定本次驾驶场景选择的奖励值r;
步骤4.8:将上层两个时刻的初始状态s、驾驶动作ah、奖励值r以及更新状态s’作为样本(s,ah,r,s’)保存至经验回放池;
步骤4.9:上层智能体在经验回放池中通过批次采样训练决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤4.10:重复上述4.2~4.9步骤,发生碰撞或到达终止时间即终止,终止后从4.1开始新回合训练直至模型收敛,训练回合结束。
步骤4.11:输出自动驾驶汽车的上层驾驶场景决策模型。
另外,在通过上层驾驶场景决策模型和下层驾驶动作决策模型决定自动驾驶动作时,上层驾驶场景决策模型的决策时间的时间间隔为下层驾驶动作决策模型的决策时间的时间间隔的3倍。比如本实施例中上层驾驶场景决策模型中上层动作决策的时间间隔为0.3s,下层驾驶动作决策模型中驾驶动作指令决策的时间间隔为0.1s。
步骤S104,检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,其中,标准驾驶演示数据为当前的实际交通状态,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
具体地,检测到汽车处于自动驾驶过程中时,获取自动驾驶模式的实时交通状态,然后结合上层驾驶场景决策模型根据自车当前状态输出匹配的实时驾驶场景,并根据实时驾驶场景调用相应的有针对性的下层决策模型进行驾驶动作决策,具体为确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。
本发明实施例提供的一种自动驾驶汽车决策方法,获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。这样能够在上层通过构建驾驶场景选择模型,下层通过模仿学习驾驶行为,设计出更标准的奖励函数,进一步地构建驾驶动作决策模型,可以更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。
在上述实施例的基础上,所述自动驾驶汽车决策方法,还包括:
步骤2.1:在所述更新奖励函数下进行正向强化学习训练,将训练时的n组次优轨迹及奖励保存至轨迹库;
步骤2.2: 用训练好的模型测试,生成m组测试轨迹及其奖励并加入轨迹库;
本发明实施例中,
基于最优的奖励函数,并通过强化学习对该奖励函数下的动作决策进行训练,在训练和测试过程中可以得到该奖励函数下的多组最/次优轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量,具体的详细步骤包括:
步骤2.1.2:初始化网络模型参数;
步骤2.1.3:初始化环境、车辆状态;
步骤2.1.5:在当前状态s采取动作后得到新的状态s’,对s’进行特征统计;
步骤2.1.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤2.1.9:重复上述步骤2.1.4至步骤2.1.8,发生碰撞或到达终止时间即终止,终止后从步骤2.1.3开始新回合训练直至模型收敛,将训练时的100组次优轨迹及奖励保存至轨迹库,训练回合结束;
步骤2.1.10:用训练好的模型测试,生成测试轨迹及其奖励并加入轨迹库;
本发明实施例通过用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量,进一步保证了期望特征统计的准确性。
图2为本发明实施例提供的一种自动驾驶汽车决策装置,包括:第一获取模块S201、训练模块S202、第二获取模块S203、自动驾驶模块S204,其中:
获取模块S201,用于获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数。
第一训练模块S202,用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型。
第二训练模块S203,用于根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型。
自动驾驶模块S204,用于检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
关于自动驾驶汽车决策装置的具体限定可以参见上文中对于自动驾驶汽车决策方法的限定,在此不再赘述。上述自动驾驶汽车决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302、通信接口(Communications Interface)303和通信总线304,其中,处理器301,存储器302,通信接口303通过通信总线304完成相互间的通信。处理器301可以调用存储器302中的逻辑指令,以执行如下方法:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种自动驾驶汽车决策方法,其特征在于,包括:
获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
2.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数,包括:
步骤1.1:获取所述不同驾驶场景下的标准驾驶演示数据,计算所述标准驾驶演示数据的特征统计期望;
步骤1.4:采用最大熵逆强化学习的方法, 利用正向强化学习的方法寻找多组最/次优的轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量;
4.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述基于所述最优奖励函数对对应的驾驶动作进行训练,得到下层驾驶动作决策模型,包括:
步骤3.2:初始化网络模型参数;
步骤3.3:初始化环境、车辆状态;
步骤3.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤3.9:重复上述步骤3.4至步骤3.8,发生碰撞或到达终止时间即终止,终止后从步骤3.3开始新回合训练直至模型收敛,训练回合结束;
步骤3.10:输出该驾驶场景下的下层驾驶动作决策模型。
5.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述方法还包括:
所述上层驾驶场景决策模型的决策时间的时间间隔为所述下层驾驶动作决策模型的决策时间的时间间隔的3倍。
6.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述交通状态,包括:
自车速度、自车横纵向位置、自车与周围车辆的相对位置。
7.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述特征统计量,包括:
速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。
8.一种自动驾驶汽车决策装置,其特征在于,所述装置包括:
获取模块,用于获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
第一训练模块,用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
第二训练模块,用于根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
自动驾驶模块,用于检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述自动驾驶汽车决策方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述自动驾驶汽车决策方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946405.4A CN113561986B (zh) | 2021-08-18 | 2021-08-18 | 自动驾驶汽车决策方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946405.4A CN113561986B (zh) | 2021-08-18 | 2021-08-18 | 自动驾驶汽车决策方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113561986A true CN113561986A (zh) | 2021-10-29 |
CN113561986B CN113561986B (zh) | 2024-03-15 |
Family
ID=78171945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110946405.4A Active CN113561986B (zh) | 2021-08-18 | 2021-08-18 | 自动驾驶汽车决策方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113561986B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138642A (zh) * | 2021-11-26 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种根据环境状态自动选择适应函数的方法、装置、设备 |
CN114162144A (zh) * | 2022-01-06 | 2022-03-11 | 苏州挚途科技有限公司 | 自动驾驶决策方法、装置以及电子设备 |
CN114179835A (zh) * | 2021-12-30 | 2022-03-15 | 清华大学苏州汽车研究院(吴江) | 基于真实场景下强化学习的自动驾驶车辆决策训练方法 |
CN114355793A (zh) * | 2021-12-24 | 2022-04-15 | 阿波罗智能技术(北京)有限公司 | 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置 |
WO2023102962A1 (zh) * | 2021-12-06 | 2023-06-15 | 深圳先进技术研究院 | 一种训练端到端的自动驾驶策略的方法 |
CN117172123A (zh) * | 2023-09-13 | 2023-12-05 | 江苏大块头智驾科技有限公司 | 用于矿山自动驾驶的传感器数据处理方法及系统 |
CN117698685A (zh) * | 2024-02-06 | 2024-03-15 | 北京航空航天大学 | 一种面向动态场景的混动汽车自适应能量管理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111289978A (zh) * | 2020-02-13 | 2020-06-16 | 北京享云智汇科技有限公司 | 一种车辆无人驾驶行为决策的方法和系统 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策系统的方法、系统和介质 |
CN112508164A (zh) * | 2020-07-24 | 2021-03-16 | 北京航空航天大学 | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 |
DE102019216232A1 (de) * | 2019-10-22 | 2021-04-22 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs |
CN113264059A (zh) * | 2021-05-17 | 2021-08-17 | 北京工业大学 | 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法 |
-
2021
- 2021-08-18 CN CN202110946405.4A patent/CN113561986B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
DE102019216232A1 (de) * | 2019-10-22 | 2021-04-22 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111289978A (zh) * | 2020-02-13 | 2020-06-16 | 北京享云智汇科技有限公司 | 一种车辆无人驾驶行为决策的方法和系统 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策系统的方法、系统和介质 |
CN112508164A (zh) * | 2020-07-24 | 2021-03-16 | 北京航空航天大学 | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 |
CN113264059A (zh) * | 2021-05-17 | 2021-08-17 | 北京工业大学 | 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法 |
Non-Patent Citations (1)
Title |
---|
章军辉;李庆;陈大鹏;: "基于BP神经网络的纵向避撞安全辅助算法", 西安交通大学学报, no. 07 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138642A (zh) * | 2021-11-26 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种根据环境状态自动选择适应函数的方法、装置、设备 |
CN114138642B (zh) * | 2021-11-26 | 2023-08-29 | 苏州浪潮智能科技有限公司 | 一种根据环境状态自动选择适应函数的方法、装置、设备 |
WO2023102962A1 (zh) * | 2021-12-06 | 2023-06-15 | 深圳先进技术研究院 | 一种训练端到端的自动驾驶策略的方法 |
CN114355793B (zh) * | 2021-12-24 | 2023-12-29 | 阿波罗智能技术(北京)有限公司 | 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置 |
CN114355793A (zh) * | 2021-12-24 | 2022-04-15 | 阿波罗智能技术(北京)有限公司 | 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置 |
CN114179835A (zh) * | 2021-12-30 | 2022-03-15 | 清华大学苏州汽车研究院(吴江) | 基于真实场景下强化学习的自动驾驶车辆决策训练方法 |
CN114179835B (zh) * | 2021-12-30 | 2024-01-05 | 清华大学苏州汽车研究院(吴江) | 基于真实场景下强化学习的自动驾驶车辆决策训练方法 |
CN114162144B (zh) * | 2022-01-06 | 2024-02-02 | 苏州挚途科技有限公司 | 自动驾驶决策方法、装置以及电子设备 |
CN114162144A (zh) * | 2022-01-06 | 2022-03-11 | 苏州挚途科技有限公司 | 自动驾驶决策方法、装置以及电子设备 |
CN117172123A (zh) * | 2023-09-13 | 2023-12-05 | 江苏大块头智驾科技有限公司 | 用于矿山自动驾驶的传感器数据处理方法及系统 |
CN117172123B (zh) * | 2023-09-13 | 2024-03-08 | 江苏大块头智驾科技有限公司 | 用于矿山自动驾驶的传感器数据处理方法及系统 |
CN117698685A (zh) * | 2024-02-06 | 2024-03-15 | 北京航空航天大学 | 一种面向动态场景的混动汽车自适应能量管理方法 |
CN117698685B (zh) * | 2024-02-06 | 2024-04-09 | 北京航空航天大学 | 一种面向动态场景的混动汽车自适应能量管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113561986B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
CN110235148B (zh) | 训练动作选择神经网络 | |
Albaba et al. | Driver modeling through deep reinforcement learning and behavioral game theory | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN109908591B (zh) | 一种虚拟对象的决策方法、模型构建方法和装置 | |
CN109726804B (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
US20230367934A1 (en) | Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
CN114139637B (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
CN114194211A (zh) | 一种自动驾驶方法、装置及电子设备和存储介质 | |
CN114261400B (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN112172813A (zh) | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 | |
US20230162539A1 (en) | Driving decision-making method and apparatus and chip | |
CN118171723A (zh) | 智能驾驶策略的部署方法、装置、设备、存储介质和程序产品 | |
CN117610681A (zh) | 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 | |
CN115427966A (zh) | 通过具有不确定性估计的强化学习的战术决策制定 | |
CN113240118B (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN116301022A (zh) | 基于深度强化学习的无人机集群任务规划方法和装置 | |
CN115743168A (zh) | 用于换道决策的模型训练方法、目标车道确定方法及装置 | |
CN114104005B (zh) | 自动驾驶设备的决策方法、装置、设备及可读存储介质 | |
US20220150148A1 (en) | Latency mitigation system and method | |
CN116047902A (zh) | 一种机器人在人群中导航的方法、装置、设备及存储介质 | |
CN115457240A (zh) | 图像目标驱动导航方法、装置、设备和存储介质 | |
CN116882607B (zh) | 一种基于路径规划任务的关键节点识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |