CN110673602B - 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 - Google Patents
一种强化学习模型、车辆自动驾驶决策的方法和车载设备 Download PDFInfo
- Publication number
- CN110673602B CN110673602B CN201911018399.5A CN201911018399A CN110673602B CN 110673602 B CN110673602 B CN 110673602B CN 201911018399 A CN201911018399 A CN 201911018399A CN 110673602 B CN110673602 B CN 110673602B
- Authority
- CN
- China
- Prior art keywords
- value
- different actions
- actual
- vehicle
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 141
- 238000011156 evaluation Methods 0.000 claims abstract description 58
- 230000002787 reinforcement Effects 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 abstract description 20
- 230000000875 corresponding effect Effects 0.000 description 66
- 239000003795 chemical substances by application Substances 0.000 description 25
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 9
- 230000007613 environmental effect Effects 0.000 description 9
- 230000001276 controlling effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Feedback Control In General (AREA)
Abstract
本公开实施例涉及一种强化学习模型、车辆自动驾驶决策的方法和车载设备,强化学习模型包括:评价网络、控制网络和策略网络;评价网络,用于基于状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;控制网络,用于基于状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;策略网络,用于基于状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。本公开实施例中,增加控制网络,使得强化学习模型考虑智能体所处状态的可控性,减少智能体进入危险状态的次数,提高训练效率。
Description
技术领域
本公开实施例涉及智能驾驶技术领域,具体涉及一种强化学习模型、车辆自动驾驶决策的方法、车载设备和存储介质。
背景技术
智能驾驶车辆的决策过程为:基于实时感知的环境信息、车辆自身运动状态以及周围动态障碍物的动作(预测动作),自主产生运动策略的过程。因此,亟需提供一种车辆自动驾驶决策的方案,提高训练效率和稳定性。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种强化学习模型、车辆自动驾驶决策的方法、车载设备和存储介质。
第一方面,本公开实施例提出一种强化学习模型,包括:评价网络、控制网络和策略网络;
所述评价网络,用于基于状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;
所述控制网络,用于基于状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;
所述策略网络,用于基于状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。
第二方面,本公开实施例还提出一种车辆自动驾驶决策的方法,包括:
获取车辆传感器采集的信息,其中,所述车辆传感器采集的信息作为状态信息;
基于所述状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;
基于所述状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;
基于所述状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。
第三方面,本公开实施例还提出一种车载设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如第二方面所述方法的步骤。
第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第二方面所述方法的步骤。
可见,本公开实施例的至少一个实施例中,增加控制网络,使得强化学习模型考虑智能体所处状态的可控性,减少智能体进入危险状态的次数,提高训练效率。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为现有强化学习模型的架构图;
图2为本公开实施例提供的一种强化学习模型的架构图;
图3是本公开实施例提供的一种智能驾驶车辆的整体架构图;
图4是本公开实施例提供的一种智能驾驶系统的框图;
图5是本公开实施例提供的一种决策模块的框图;
图6是本公开实施例提供的一种车载设备的框图;
图7是本公开实施例提供的一种车辆自动驾驶决策的方法流程图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
目前智能驾驶车辆的决策方案主要有基于规则限定的决策方案、基于深度学习的决策方案以及基于强化学习的决策方案。
基于规则限定的决策方案使用专家库,例如状态机模型,但规则数有限,当环境状态增多时,基于规则限定的模型难以维护,且模型无法覆盖所有可能的环境状态,因此模型难以泛化到其他场景。
基于深度学习的决策方案使用深度卷积神经网络,实现了智能驾驶车辆的端到端控制,即建立一个从传感器到驾驶动作的直接映射,网络的输入包括摄像头拍摄的实时图像、车辆的位置信息等,输出为车辆的直接控制量,例如刹车、油门及转向等。但基于深度学习的决策方案需要大量带标签的训练数据训练网络,而训练数据需要人为采集并且标注,工作量较大且耗时,此外,基于深度学习的决策方案将决策过程简化为端到端(即状态到动作)的映射,神经网络被视为黑盒子,缺乏透明性,进而带来安全隐患。
基于强化学习的决策方案是一种在线学习的方案,训练样本可以通过智能体与环境交互获得,而无需人为收集数据并做标注,智能体通过自身采集的训练样本,在每个状态,根据最优策略选择相应的动作,以此最大化其期望奖励值,如此的迭代过程已被证明能收敛至最优策略,然而,由于传统强化学习对高维度数据的迭代周期过长,其难以在复杂决策问题上得到应用。随着深度学习的流行,有学者尝试将深度学习与强化学习结合,形成能处理高维输入的深度强化学习框架。该框架在无人车决策领域也有相应的应用,其在训练的过程中可以自发地收集训练数据并通过这些训练样本生成最优策略,然而强化学习本质上是一种试错的方法,在训练过程中智能体可能会进入不安全的状态(针对无人车可能是发生碰撞或驶向道路外等),一方面会造成物理伤害,另一方面会导致训练效率低下,因智能体将时间浪费在收集不必要的训练样本中。
在强化学习中,需考虑探索与利用的平衡,一方面要使智能体能够充分利用已学得的知识,另一方面又要鼓励智能体去探索未知的领域以搜索到更优的解。但对于存在安全隐患的场景,探索未知领域不仅存在危险,也会降低学习效率,因为智能体会将时间花费在不必要的探索中,因此,本公开实施例提供一种强化学习模型,增加控制网络,使得强化学习模型考虑智能体所处状态的可控性,能够减少智能体进入危险状态的次数,提高训练效率。
为便于理解强化学习,描述强化学习的基础概念如下:在每个时刻t,智能体通过观测环境得到状态信息(state):st,即时刻t对应的状态信息,进而做出动作(action):at,即时刻t对应的动作,并从环境(Environment)获得奖励值(reward):rt,即时刻t做出动作at对应的奖励值;rt表示在环境状态st下执行动作at的好坏程度。智能体为了最大化奖励值,需要学习最佳的状态动作对,即策略π,策略可以是确定的或者是一个随机分布。在强化学习中,训练智能体的最终目的是学习最优策略,进而智能体使用最优策略在特定环境中的动作能获得最大的奖励值。
DDPG(Deep Deterministic Policy Gradient)由深度学习与DPG(DeterministicPolicy Gradient)结合而得,DPG即确定性的动作策略,每一步的动作通过策略函数直接获得确定的值:at=μ(st|θμ),μ即最优动作策略。DDPG将深度学习神经网络融合进DPG,采用卷积神经网络作为ActorNet(策略网络)和CriticNet(评价网络),并使用深度学习的方法来训练上述两个神经网络。
基于以上强化学习的基础概念,在一些实施例中,本公开实施例提供的强化学习模型,可应用于存在安全隐患的场景,例如车辆自动驾驶决策场景。图1为现有强化学习模型的架构图,图1的强化学习模型为DDPG,在DDPG中,ActorNet(策略网络)根据CriticNet(评价网络)输出的实际评价值(实际Q值)更新网络参数,CriticNet(评价网络)根据TDerror(时序差分误差值)更新网络参数,使智能体朝着最大化奖励值的方向选择动作值,但在训练的过程中,DDPG没有考虑状态的安全性,导致智能体进入不安全的状态,同时降低了训练效率。
图2为本公开实施例提供的强化学习模型架构图,对比图1和图2,可见,本公开实施例的强化学习模型增加控制网络(ControlNet),使得强化学习模型考虑智能体所处状态的可控性(controllability)。状态的controllability是指,假如一个智能体想保持安全,则其会倾向于搜索动作更易预测的某些状态,这些状态即为controllable状态。通过鼓励智能体去探索controllable状态,能够减少智能体进入危险状态的次数,提高训练效率。
如图2所示,本公开实施例提供的强化学习模型包括:评价网络(CriticNet)、控制网络(ControlNet)和策略网络(ActorNet)。
评价网络(CriticNet)用于评价动作的好坏。在一些实施例中,CriticNet用于基于状态信息(state)和不同动作(action),确定不同动作对应的估计评价值(估计Q值)和时序差分误差值(TD error),并输出不同动作对应的实际评价值(实际Q值)。在一些实施例中,状态信息和动作可以组成状态动作对,可记为(s,a)。同一state,不同action,可组成不同的状态动作对。评价网络的输入实质上为状态动作对,但为了简化图示,图2中CriticNet的输入为state。图2中Value Function(值函数)的输出为估计Q值。TD error为估计Q值与实际Q值之间的差值。在一些实施例中,TD error可表示为:δt=rt+1+γQ(st+1,at+1)-Q(st,at),其中,δt为TD error;γ为折扣因子,表示对未来奖励值的衰减值;Q(st,at)表示t时刻的动作状态对(st,at)对应的实际Q值,“rt+1+γQ(st+1,at+1)”表示t+1时刻的动作状态对(st+1,at+1)对应的估计Q值。在一些实施例中,图2中CriticNet参数的更新方式与图1中CriticNet参数的更新方式相同,不再赘述。
控制网络(ControlNet)用于估计状态的controllability。在一些实施例中,ControlNet用于基于状态信息(state)和不同动作对应的时序差分误差值(TD error),确定不同动作对应的估计控制值(估计C值),并输出不同动作对应的实际控制值(实际C值)。在一些实施例中,控制网络的输入实质上为state和TD error,但为了简化图示,图2中ControlNet的输入为TD error。在一些实施例中,连续动作的任一瞬时值对应一个TDerror以及一个估计C值,也即估计C值与TD error存在对应关系,本实施例中,估计C值为对应的TD error的平均绝对离差,表示为:Cπ(s,a)=-Eπ[|δt||st,at],其中,E表示期望。在一些实施例中,控制网络实质上为神经网络,训练控制网络时,最小化控制网络的损失函数的值,以更新控制网络的参数;其中,控制网络的损失函数为估计C值和实际C值的函数。
策略网络(ActorNet)用于生成动作。在一些实施例中,ActorNet用于基于状态信息(state)、不同动作对应的实际评价值(实际Q值)和实际控制值(实际C值),输出决策的一个动作。在一些实施例中,策略网络的输入实质上为state、实际Q值和实际C值,但为了简化示图,图2中ActorNet的输入为state。在一些实施例中,训练策略网络时,最大化策略网络的决策函数的值,以更新策略网络的参数;其中,策略网络的决策函数为实际Q值与实际C值的函数。相比图1中的ActorNet,图2中的ActorNet根据实际Q值与实际C值更新网络参数,并非仅根据实际Q值更新网络,而实际C值又与TD error相关,因此,TD error不仅用于更新CriticNet,还用于更新ActorNet,进而鼓励智能体探索更controllable的状态,同时,ControlNet参数的更新也使得ControlNet的估计C值更准确。在一些实施例中,策略网络,用于基于state、不同动作对应的实际Q值和实际C值,最大化决策值;并输出最大化决策值对应的动作。其中,决策值通过下式确定:J=Q+ωC;其中,J为决策值,Q为实际Q值,ω为预设权重,用于控制controllability的重要性,C为实际C值。
以图2为例,进一步描述本公开实施例提供的强化学习模型。CriticNet的参数记为Q(s,a|θQ),说明CriticNet的输入为状态动作对,ControlNet的参数记为C(s,a|θC),说明ControlNet的输入为状态动作对,ActorNet的参数记为μ(s|θμ),说明ActorNet的输入为状态信息,其中,θQ、θC和θμ分别表示评价网络(CriticNet)、控制网络(ControlNet)和策略网络(ActorNet)的权值。依据目前的策略选择动作at=μ(st|θμ)+Nt,其中,Nt为t时刻的噪声,并执行该动作,获得奖励值rt和下一步状态st+1;将(st,at,rt,st+1)存入replay memorybuffer(回放记忆池)中,作为训练网络的数据集;随机选取minibatch(si,airi,si+1);首先更新CriticNet的参数,其次更新ActorNet的参数,最后更新ControlNet的参数。
CriticNet的参数更新方式与DDPG相同,最小化以下函数:
其中,yi可以理解为估计Q值,Q(si,ai|θQ)可以理解为实际Q值,N为采集的样本数量。
ActorNet的参数更新,需要最小化ActorNet的决策函数的值,其中,决策函数如下:
其中,θQ、θC和θμ分别表示评价网络(CriticNet)、控制网络(ControlNet)和策略网络(ActorNet)的权值。N为采集的样本数量。J表示值函数,表示对值函数求梯度,通过梯度可以最大化值函数的值。表示Q值对动作a的梯度,表示C值对动作a的梯度,表不策略网络对θμ的梯度。
ControlNet的参数更新,需要最小化ControlNet的损失函数的值,其中,损失函数如下:
其中,μ′(si)|δ(si,μ′(si|θμ′))|为估计C值,C(si,ai|θC)为实际C值,N为采集的样本数量。
三个网络同时训练,可以鼓励智能体朝最大化Q值和controllability的方向选择动作。
基于图2所示的强化学习模型,本公开实施例还提供一种车辆自动驾驶决策的方法,可应用于智能驾驶车辆。图3为本公开实施例提供的一种智能驾驶车辆的整体架构图。
如图3所示,智能驾驶车辆包括:传感器组、智能驾驶系统300、车辆底层执行系统以及其他可用于驱动车辆和控制车辆运行的部件。
传感器组,用于采集车辆外界环境的数据和探测车辆的位置数据。传感器组例如包括但不限于摄像头、激光雷达、毫米波雷达、超声波雷达、GPS(Global PositioningSystem,全球定位系统)和IMU(Inertial Measurement Unit,惯性测量单元)中的至少一个。
在一些实施例中,传感器组,还用于采集车辆的动力学数据,传感器组例如还包括但不限于车轮转速传感器、速度传感器、加速度传感器、方向盘转角传感器、前轮转角传感器中的至少一个。
智能驾驶系统300,用于获取传感器组的数据,传感器组中所有传感器在智能驾驶车辆行驶过程中都以较高的频率传送数据。
智能驾驶系统300,还用于基于传感器组的数据进行环境感知和车辆定位,并基于环境感知信息和车辆定位信息进行路径规划和决策,以及基于规划的路径生成车辆控制指令,从而控制车辆按照规划路径行驶。
在一些实施例中,智能驾驶系统300,还用于获取车辆传感器采集的信息;基于所述状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;基于所述状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;基于所述状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。
在一些实施例中,智能驾驶系统100可以为软件系统、硬件系统或者软硬件结合的系统。例如,智能驾驶系统100是运行在操作系统上的软件系统,车载硬件系统是支持操作系统运行的硬件系统。
在一些实施例中,智能驾驶系统100,还用于与云端服务器无线通信,交互各种信息。在一些实施例中,智能驾驶系统100与云端服务器通过无线通讯网络(例如包括但不限于GPRS网络、Zigbee网络、Wifi网络、3G网络、4G网络、5G网络等无线通讯网络)进行无线通信。
在一些实施例中,云端服务器是由车辆服务商所建立的云端服务器,提供云存储和云计算的功能。在一些实施例中,云端服务器中建立车辆端档案。在一些实施例中,车辆端档案中储存智能驾驶系统100上传的各种信息。在一些实施例中,云端服务器可以实时同步车辆端产生的驾驶数据。
在一些实施例中,云端服务器可以是一个服务器,也可以是一个服务器群组。服务器群组可以是集中式的,也可以是分布式的。分布式服务器,有利于任务在多个分布式服务器进行分配与优化,克服传统集中式服务器资源紧张与响应瓶颈的缺陷。在一些实施例中,云端服务器可以是本地的或远程的。
在一些实施例中,云端服务器可用于对车辆端进行停车收费、过路收费等。在一些实施例中,云端服务器还用于分析驾驶员的驾驶行为,并且对驾驶员的驾驶行为进行安全等级评估。
车辆底层执行系统,用于接收车辆控制指令,实现对车辆行驶的控制。在一些实施例中,车辆底层执行系统包括但不限于:转向系统、制动系统和驱动系统。转向系统、制动系统和驱动系统属于车辆领域成熟系统,在此不再赘述。
在一些实施例中,智能驾驶车辆还可包括图3中未示出的车辆CAN总线,车辆CAN总线连接车辆底层执行系统。智能驾驶系统300与车辆底层执行系统之间的信息交互通过车辆CAN总线进行传递。
在一些实施例中,智能驾驶车辆既可以通过驾驶员又可以通过智能驾驶系统300控制车辆行驶。在人工驾驶模式下,驾驶员通过操作控制车辆行驶的装置驾驶车辆,控制车辆行驶的装置例如包括但不限于制动踏板、方向盘和油门踏板等。控制车辆行驶的装置可直接操作车辆底层执行系统控制车辆行驶。
在一些实施例中,智能驾驶车辆也可以为无人车,车辆的驾驶控制由智能驾驶系统300来执行。
图4为本公开实施例提供的一种智能驾驶系统400的框图。在一些实施例中,智能驾驶系统400可以实现为图3中的智能驾驶系统300或者智能驾驶系统300的一部分,用于控制车辆行驶。
如图4所示,智能驾驶系统400可划分为多个模块,例如可包括:感知模块401、规划模块402、控制模块403、决策模块404以及其他一些可用于智能驾驶的模块。
感知模块401用于进行环境感知与定位。在一些实施例中,感知模块401用于获取传感器数据、V2X(Vehicle to X,车用无线通信)数据、高精度地图等数据。在一些实施例中,感知模块401用于基于获取的传感器数据、V2X(Vehicle to X,车用无线通信)数据、高精度地图等数据中的至少一种,进行环境感知与定位。
在一些实施例中,感知模块401用于生成感知定位信息,实现对障碍物感知、摄像头图像的可行驶区域识别以及车辆的定位等。
环境感知(Environmental Perception)可以理解为对于环境的场景理解能力,例如障碍物的位置,道路标志/标记的检测,行人/车辆的检测等数据的语义分类。在一些实施例中,环境感知可采用融合摄像头、激光雷达、毫米波雷达等多种传感器的数据进行环境感知。
定位(Localization)属于感知的一部分,是确定智能驾驶车辆相对于环境的位置的能力。定位可采用:GPS定位,GPS的定位精度在数十米到厘米级别,定位精度高;定位还可采用融合GPS和惯性导航系统(Inertial Navigation System)的定位方法。定位还可采用SLAM(Simultaneous LocalizationAnd Mapping,同步定位与地图构建),SLAM的目标即构建地图的同时使用该地图进行定位,SLAM通过利用已经观测到的环境特征确定当前车辆的位置以及当前观测特征的位置。
V2X是智能交通运输系统的关键技术,使得车与车、车与基站、基站与基站之间能够通信,从而获得实时路况、道路信息、行人信息等一系列交通信息,提高智能驾驶安全性、减少拥堵、提高交通效率、提供车载娱乐信息等。
高精度地图是智能驾驶领域中使用的地理地图,与传统地图相比,不同之处在于:1)高精度地图包括大量的驾驶辅助信息,例如依托道路网的精确三维表征:包括交叉路口局和路标位置等;2)高精度地图还包括大量的语义信息,例如报告交通灯上不同颜色的含义,又例如指示道路的速度限制,以及左转车道开始的位置;3)高精度地图能达到厘米级的精度,确保智能驾驶车辆的安全行驶。
规划模块402用于基于感知模块401生成的感知定位信息,进行路径规划和决策。
在一些实施例中,规划模块402用于基于感知模块401生成的感知定位信息,并结合V2X数据、高精度地图等数据中的至少一种,进行路径规划和决策。
在一些实施例中,规划模块402用于规划路径,决策:行为(例如包括但不限于跟车、超车、停车、绕行等)、车辆航向、车辆速度、车辆的期望加速度、期望的方向盘转角等,生成规划决策信息。
控制模块403用于基于规划模块402生成的规划决策信息,进行路径跟踪和轨迹跟踪。
在一些实施例中,控制模块403用于生成车辆底层执行系统的控制指令,并下发控制指令,以使车辆底层执行系统控制车辆按照期望路径行驶,例如通过控制方向盘、刹车以及油门对车辆进行横向和纵向控制。
在一些实施例中,控制模块403还用于基于路径跟踪算法计算前轮转角。
在一些实施例中,路径跟踪过程中的期望路径曲线与时间参数无关,跟踪控制时,可以假设智能驾驶车辆以当前速度匀速前进,以一定的代价规则使行驶路径趋近于期望路径;而轨迹跟踪时,期望路径曲线与时间和空间均相关,并要求智能驾驶车辆在规定的时间内到达某一预设好的参考路径点。
路径跟踪不同于轨迹跟踪,不受制于时间约束,只需要在一定误差范围内跟踪期望路径。
决策模块404用于获取车辆传感器采集的信息,其中,所述车辆传感器采集的信息作为状态信息;基于所述状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;基于所述状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;基于所述状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。
在一些实施例中,决策模块404的功能可集成到感知模块401、规划模块402或控制模块403中,也可配置为与智能驾驶系统400相独立的模块,决策模块404可以为软件模块、硬件模块或者软硬件结合的模块。例如,决策模块404是运行在操作系统上的软件模块,车载硬件系统是支持操作系统运行的硬件系统。
图5为本公开实施例提供的一种决策模块500的框图。在一些实施例中,决策模块500可以实现为图4中的决策模块404或者决策模块404的一部分。
如图5所示,决策模块500可包括但不限于以下单元:获取单元501、评价单元502、控制单元503和决策单元504。
获取单元501,用于获取车辆传感器采集的信息。在一些实施例中,车辆传感器采集的信息例如包括但不限于:车速、位置、车道信息等等。
评价单元502用于评价动作的好坏。在一些实施例中,评价单元502用于基于所述状态信息和不同动作(action),确定不同动作对应的估计评价值(估计Q值)和时序差分误差值(TD error),并输出不同动作对应的实际评价值(实际Q值)。本实施例中,将车辆传感器采集的信息作为状态信息(state)。在一些实施例中,TD error为估计Q值与实际Q值之间的差值。在一些实施例中,TD error可表示为:δt=rt+1+γQ(st+1-at+1)-Q(st,at),其中,δt为TD error;γ为折扣因子,表示对未来奖励值的衰减值;Q(st,at)表示t时刻的动作状态对(st,at)对应的实际Q值,“rt+1+γQ(st+1,at+1)”表示t+1时刻的动作状态对(st+1,at+1)对应的估计Q值。在一些实施例,不同动作为预设动作空间中的动作。动作空间可以理解为车辆所能执行的动作的集合。动作空间中的动作例如为刹车、加速、转动方向盘等。在一些实施例中,预设动作空间为连续动作空间,也即,刹车力度、油门开度、方向盘转动角度等的取值范围是连续范围。在另一些实施例中,预设动作空间为离散动作空间。
在一些实施例中,评价单元502确定不同动作对应的估计评价值(估计Q值)的过程中,奖励值(reward)设置如下:确定车辆处于预定车道后,基于车辆航向角与预定车道的前进方向之间的夹角,确定奖励值为正值且奖励值为夹角的第一函数。在一些实施例中,第一函数使得夹角越大,奖励值越小。在一些实施例中,奖励值(reward)还设置如下:确定车辆偏离预定车道后,基于车辆航向角与预定车道的前进方向之间的夹角,确定奖励值为负值且奖励值为夹角的第二函数;并在确定车辆发送碰撞后,确定奖励值为预设负值。在一些实施例中,第二函数使得夹角越大,奖励值越小。
控制单元503用于估计状态的controllability。在一些实施例中,控制单元503用于基于所述状态信息和不同动作对应的时序差分误差值(TD error),确定不同动作对应的估计控制值(估计C值),并输出不同动作对应的实际控制值(实际C值)。在一些实施例中,连续动作的任一瞬时值对应一个TD error以及一个估计C值,也即估计C值与TD error存在对应关系,本实施例中,估计C值为对应的TD error的平均绝对离差,表示为:Cπ(s,a)=-Eπ[|δt||st,at],其中,E表示期望。
决策单元504用于生成动作。在一些实施例中,决策单元504用于基于所述状态信息、不同动作对应的实际评价值(实际Q值)和实际控制值(实际C值),输出决策的一个动作。在一些实施例中,决策单元504用于基于所述状态信息、不同动作对应的实际Q值和实际C值,最大化决策值;并输出最大化决策值对应的动作。其中,决策值通过下式确定:J=Q+ωC;其中,J为决策值,Q为实际Q值,ω为预设权重,用于控制controllability的重要性,C为实际C值。
在一些实施例中,决策模块500中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如获取单元501、评价单元502、控制单元503和决策单元504可以实现为一个单元;获取单元501、评价单元502、控制单元503或决策单元504也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图6是本公开实施例提供的一种车载设备的结构示意图。车载设备可支持智能驾驶系统的运行。
如图6所示,车载设备包括:至少一个处理器601、至少一个存储器602和至少一个通信接口603。车载设备中的各个组件通过总线系统604耦合在一起。通信接口603,用于与外部设备之间的信息传输。可理解地,总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图6中将各种总线都标为总线系统604。
可以理解,本实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例提供的强化学习模型或车辆自动驾驶决策的方法的程序可以包含在应用程序中。
在本公开实施例中,处理器601通过调用存储器602存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器601用于执行本公开实施例提供的强化学习模型或车辆自动驾驶决策的方法各实施例的步骤。
本公开实施例提供的强化学习模型或车辆自动驾驶决策的方法可以应用于处理器601中,或者由处理器601实现。处理器601可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的强化学习模型或车辆自动驾驶决策的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成方法的步骤。
图7为本公开实施例提供的一种车辆自动驾驶决策的方法流程图。该方法的执行主体为车载设备,在一些实施例中,该方法的执行主体为车载设备所支持的智能驾驶系统。
如图7所示,车辆自动驾驶决策的方法可包括但不限于如下步骤701至704:
701、获取车辆传感器采集的信息,其中,所述车辆传感器采集的信息作为状态信息。在一些实施例中,车辆传感器采集的信息例如包括但不限于:车速、位置、车道信息等等。
702、基于所述状态信息和不同动作(action),确定不同动作对应的估计评价值(估计Q值)和时序差分误差值(TD error),并输出不同动作对应的实际评价值(实际Q值)。本实施例中,将车辆传感器采集的信息作为状态信息(state)。在一些实施例中,TD error为估计Q值与实际Q值之间的差值。在一些实施例中,TD error可表示为:δt=rt+1+γQ(st+1,at+1)-Q(st,at),其中,δt为TD error;γ为折扣因子,表示对未来奖励值的衰减值;Q(st,at)表示t时刻的动作状态对(st,at)对应的实际Q值,“rt+1+γQ(st+1,at+1)”表示t+1时刻的动作状态对(st+1,at+1)对应的估计Q值。在一些实施例,不同动作为预设动作空间中的动作。动作空间可以理解为车辆所能执行的动作的集合。动作空间中的动作例如为刹车、加速、转动方向盘等。在一些实施例中,预设动作空间为连续动作空间,也即,刹车力度、油门开度、方向盘转动角度等的取值范围是连续范围。在另一些实施例中,预设动作空间为离散动作空间。
在一些实施例中,确定不同动作对应的估计评价值(估计Q值)的过程中,奖励值(reward)设置如下:确定车辆处于预定车道后,基于车辆航向角与预定车道的前进方向之间的夹角,确定奖励值为正值且奖励值为夹角的第一函数。在一些实施例中,第一函数使得夹角越大,奖励值越小。在一些实施例中,奖励值(reward)还设置如下:确定车辆偏离预定车道后,基于车辆航向角与预定车道的前进方向之间的夹角,确定奖励值为负值且奖励值为夹角的第二函数;并在确定车辆发送碰撞后,确定奖励值为预设负值。在一些实施例中,第二函数使得夹角越大,奖励值越小。
703、基于所述状态信息和不同动作对应的时序差分误差值(TD error),确定不同动作对应的估计控制值(估计C值),并输出不同动作对应的实际控制值(实际C值)。在一些实施例中,连续动作的任一瞬时值对应一个TD error以及一个估计C值,也即估计C值与TDerror存在对应关系,本实施例中,估计C值为对应的TD error的平均绝对离差,表示为:Cπ(s,a)=-Eπ[|δt||st,at],其中,E表示期望。
704、基于所述状态信息、不同动作对应的实际评价值(实际Q值)和实际控制值(实际C值),输出决策的一个动作。在一些实施例中,决策单元504用于基于所述状态信息、不同动作对应的实际Q值和实际C值,最大化决策值;并输出最大化决策值对应的动作。其中,决策值通过下式确定:J=Q+ωC;其中,J为决策值,Q为实际Q值,ω为预设权重,用于控制controllability的重要性,C为实际C值。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如车辆自动驾驶决策的方法各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (14)
1.一种强化学习模型,其特征在于,包括:评价网络、控制网络和策略网络;
所述评价网络,用于基于状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;
所述控制网络,用于基于状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;
所述策略网络,用于基于状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。
2.根据权利要求1所述的强化学习模型,其特征在于,所述估计控制值为对应的时序差分误差值的平均绝对离差。
3.根据权利要求1所述的强化学习模型,其特征在于,训练所述控制网络时,最小化所述控制网络的损失函数的值,以更新所述控制网络的参数;
其中,所述控制网络的损失函数为估计控制值和实际控制值的函数。
4.根据权利要求1所述的强化学习模型,其特征在于,训练所述策略网络时,最大化所述策略网络的决策函数的值,以更新所述策略网络的参数;
其中,所述策略网络的决策函数为实际评价值与实际控制值的函数。
5.根据权利要求1所述的强化学习模型,其特征在于,所述策略网络,用于基于所述状态信息、所述不同动作对应的实际评价值和实际控制值,最大化决策值;输出最大化决策值对应的动作。
6.根据权利要求5所述的强化学习模型,其特征在于,所述决策值通过下式确定:
J=Q+ωC;
其中,J为决策值,Q为实际评价值,ω为预设权重,C为实际控制值。
7.一种车辆自动驾驶决策的方法,其特征在于,包括:
获取车辆传感器采集的信息,其中,所述车辆传感器采集的信息作为状态信息;
基于所述状态信息和不同动作,确定不同动作对应的估计评价值和时序差分误差值,并输出不同动作对应的实际评价值;
基于所述状态信息和不同动作对应的时序差分误差值,确定不同动作对应的估计控制值,并输出不同动作对应的实际控制值;
基于所述状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作。
8.根据权利要求7所述的方法,其特征在于,所述估计控制值为对应的时序差分误差值的平均绝对离差。
9.根据权利要求7所述的方法,其特征在于,所述确定不同动作对应的估计评价值的过程中,奖励值设置如下:
确定车辆处于预定车道后,基于车辆航向角与预定车道的前进方向之间的夹角,确定奖励值为正值且奖励值为夹角的第一函数。
10.根据权利要求7所述的方法,其特征在于,所述确定不同动作对应的估计评价值的过程中,奖励值设置如下:
确定车辆偏离预定车道后,基于车辆航向角与预定车道的前进方向之间的夹角,确定奖励值为负值且奖励值为夹角的第二函数;
确定车辆发送碰撞后,确定奖励值为预设负值。
11.根据权利要求7所述的方法,其特征在于,基于所述状态信息、不同动作对应的实际评价值和实际控制值,输出决策的一个动作,包括:
基于所述状态信息、所述不同动作对应的实际评价值和实际控制值,最大化决策值;
输出最大化决策值对应的动作。
12.根据权利要求11所述的方法,其特征在于,所述决策值通过下式确定:
J=Q+ωC;
其中,J为决策值,Q为实际评价值,ω为预设权重,C为实际控制值。
13.一种车载设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求7至12任一项所述方法的步骤。
14.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求7至12任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911018399.5A CN110673602B (zh) | 2019-10-24 | 2019-10-24 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911018399.5A CN110673602B (zh) | 2019-10-24 | 2019-10-24 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110673602A CN110673602A (zh) | 2020-01-10 |
CN110673602B true CN110673602B (zh) | 2022-11-25 |
Family
ID=69084177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911018399.5A Active CN110673602B (zh) | 2019-10-24 | 2019-10-24 | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110673602B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508256A (zh) * | 2020-03-17 | 2020-08-07 | 重庆大学 | 一种基于区域时空域的交通信息重构方法及智能交通系统 |
CN111832652B (zh) * | 2020-07-14 | 2023-12-19 | 北京罗克维尔斯科技有限公司 | 决策模型的训练方法及装置 |
CN112269385B (zh) * | 2020-10-23 | 2021-09-07 | 北京理工大学 | 云端无人车动力学控制系统和方法 |
CN112249032B (zh) * | 2020-10-29 | 2022-02-18 | 浪潮(北京)电子信息产业有限公司 | 一种自动驾驶决策方法、系统、设备及计算机存储介质 |
CN112347900B (zh) * | 2020-11-04 | 2022-10-14 | 中国海洋大学 | 基于距离估计的单目视觉水下目标自动抓取方法 |
CN112476424A (zh) * | 2020-11-13 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 机器人控制方法、装置、设备及计算机存储介质 |
CN112614343B (zh) * | 2020-12-11 | 2022-08-19 | 多伦科技股份有限公司 | 基于随机策略梯度的交通信号控制方法、系统及电子设备 |
US20220219731A1 (en) * | 2021-01-14 | 2022-07-14 | Cavh Llc | Intelligent information conversion for automatic driving |
CN113359771B (zh) * | 2021-07-06 | 2022-09-30 | 贵州大学 | 一种基于强化学习的智能自动驾驶控制方法 |
CN113627480B (zh) * | 2021-07-09 | 2023-08-08 | 武汉大学 | 一种基于强化学习的极化sar影像分类方法 |
CN114013443B (zh) * | 2021-11-12 | 2022-09-23 | 哈尔滨工业大学 | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 |
CN116149338A (zh) * | 2023-04-14 | 2023-05-23 | 哈尔滨工业大学人工智能研究院有限公司 | 一种自动驾驶控制方法、系统及喷雾机 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105644548A (zh) * | 2015-12-28 | 2016-06-08 | 中国科学院深圳先进技术研究院 | 混合动力汽车的能量控制方法及装置 |
CN106873566A (zh) * | 2017-03-14 | 2017-06-20 | 东北大学 | 一种基于深度学习的无人驾驶物流车 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN107168303A (zh) * | 2017-03-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种汽车的自动驾驶方法及装置 |
CN107182206A (zh) * | 2016-06-08 | 2017-09-19 | 驭势科技(北京)有限公司 | 车辆自动驾驶的速度规划方法、装置及计算装置 |
CN107200017A (zh) * | 2017-05-22 | 2017-09-26 | 北京联合大学 | 一种基于深度学习的无人驾驶车辆控制系统 |
CN108009587A (zh) * | 2017-12-01 | 2018-05-08 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
WO2018147871A1 (en) * | 2017-02-10 | 2018-08-16 | Nissan North America, Inc. | Autonomous vehicle operational management |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109582022A (zh) * | 2018-12-20 | 2019-04-05 | 驭势科技(北京)有限公司 | 一种自动驾驶策略决策系统与方法 |
WO2019071909A1 (zh) * | 2017-10-11 | 2019-04-18 | 苏州大学张家港工业技术研究院 | 基于相对熵深度逆强化学习的自动驾驶系统及方法 |
CN110084375A (zh) * | 2019-04-26 | 2019-08-02 | 东南大学 | 一种基于深度强化学习的多agent协作框架 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7894917B2 (en) * | 2006-10-20 | 2011-02-22 | Rockwell Automation Technologies, Inc. | Automatic fault tuning |
-
2019
- 2019-10-24 CN CN201911018399.5A patent/CN110673602B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105644548A (zh) * | 2015-12-28 | 2016-06-08 | 中国科学院深圳先进技术研究院 | 混合动力汽车的能量控制方法及装置 |
CN107182206A (zh) * | 2016-06-08 | 2017-09-19 | 驭势科技(北京)有限公司 | 车辆自动驾驶的速度规划方法、装置及计算装置 |
WO2018147871A1 (en) * | 2017-02-10 | 2018-08-16 | Nissan North America, Inc. | Autonomous vehicle operational management |
CN106873566A (zh) * | 2017-03-14 | 2017-06-20 | 东北大学 | 一种基于深度学习的无人驾驶物流车 |
CN107168303A (zh) * | 2017-03-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种汽车的自动驾驶方法及装置 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN107200017A (zh) * | 2017-05-22 | 2017-09-26 | 北京联合大学 | 一种基于深度学习的无人驾驶车辆控制系统 |
WO2019071909A1 (zh) * | 2017-10-11 | 2019-04-18 | 苏州大学张家港工业技术研究院 | 基于相对熵深度逆强化学习的自动驾驶系统及方法 |
CN108009587A (zh) * | 2017-12-01 | 2018-05-08 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109582022A (zh) * | 2018-12-20 | 2019-04-05 | 驭势科技(北京)有限公司 | 一种自动驾驶策略决策系统与方法 |
CN110084375A (zh) * | 2019-04-26 | 2019-08-02 | 东南大学 | 一种基于深度强化学习的多agent协作框架 |
Non-Patent Citations (5)
Title |
---|
Continuous Control in Car Simulator with Deep Reinforcement Learning;Fan Yang ETAL;《Proceedings of the 2018 2nd International Conference on Computer Science and Artificial Intelligence》;20181231;第566–570页 * |
Vibration Control of a Vehicle Active Suspension System Using a DDPG Algorithm;Seong-Jae Kim;Hyun-Soo Kim;Dong-Joong Kang;《2018 18th International Conference on Control, Automation and Systems (ICCAS)》;20181231;第1654-1656页 * |
从虚拟到现实的智能车辆深度强化学习控制研究;杨顺;《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅱ辑》;20191015;第C035-9页 * |
基于深度强化学习的无人驾驶智能决策控制研究;左思翔;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20190115;第C035-325页 * |
改进深度确定性策略梯度算法及其在控制中的应用;张浩昱,熊凯;《计算机科学》;20190630;第555-557、570页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110673602A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110673602B (zh) | 一种强化学习模型、车辆自动驾驶决策的方法和车载设备 | |
CN110861650B (zh) | 车辆的路径规划方法、装置,车载设备和存储介质 | |
US11157008B2 (en) | Autonomous vehicle routing using annotated maps | |
CN110562258B (zh) | 一种车辆自动换道决策的方法、车载设备和存储介质 | |
US11537127B2 (en) | Systems and methods for vehicle motion planning based on uncertainty | |
US20190146508A1 (en) | Dynamic vehicle routing using annotated maps and profiles | |
EP4141736A1 (en) | Lane tracking method and apparatus | |
US20200134494A1 (en) | Systems and Methods for Generating Artificial Scenarios for an Autonomous Vehicle | |
CN112829753B (zh) | 基于毫米波雷达的护栏估计方法、车载设备和存储介质 | |
CN110606070B (zh) | 一种智能驾驶车辆及其制动方法、车载设备和存储介质 | |
US10836405B2 (en) | Continual planning and metareasoning for controlling an autonomous vehicle | |
CN110568847B (zh) | 一种车辆的智能控制系统、方法,车载设备和存储介质 | |
US11613269B2 (en) | Learning safety and human-centered constraints in autonomous vehicles | |
US20230048680A1 (en) | Method and apparatus for passing through barrier gate crossbar by vehicle | |
CN110562269A (zh) | 一种智能驾驶车辆故障处理的方法、车载设备和存储介质 | |
CN110544389A (zh) | 一种自动驾驶管控方法、装置及系统 | |
US20230168368A1 (en) | Guardrail estimation method based on multi-sensor data fusion, and vehicle-mounted device | |
CN110426215B (zh) | 一种用于车辆平顺性测试的模型建立方法及智能驾驶系统 | |
CN113272750A (zh) | 一种交通拥堵辅助驾驶方法、系统、车载设备和存储介质 | |
Chipka et al. | Estimation and navigation methods with limited information for autonomous urban driving | |
US12086695B2 (en) | System and method for training a multi-task model | |
CN110435668B (zh) | 智能驾驶车辆执行机构的失效检测方法、模块和车载设备 | |
US11733696B2 (en) | Detecting loops for autonomous vehicles | |
US20240211046A1 (en) | Vision-Based Road Feel Enhancement in Vehicles | |
US20240092356A1 (en) | System and method for training a policy using closed-loop weighted empirical risk minimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |