CN110406530A

CN110406530A - 一种自动驾驶方法、装置、设备和车辆

Info

Publication number: CN110406530A
Application number: CN201910589624.4A
Authority: CN
Inventors: 胡悦
Original assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-11-05
Anticipated expiration: 2039-07-02
Also published as: CN110406530B

Abstract

本发明涉及智能驾驶技术领域，尤其涉及一种自动驾驶方法、装置、设备和车辆。所述方法包括：获取环境感知数据和车辆状态参数；将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别，得到离散型动作的目标参数；将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别，得到连续型动作的目标参数；当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时，基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。本发明能够实现车辆在复杂场景中离散型动作和连续型动作的控制参数的输出、匹配和同步，提高车辆自动驾驶的可控性和安全性，改善用户体验。

Description

一种自动驾驶方法、装置、设备和车辆

技术领域

本发明涉及智能驾驶技术领域，尤其涉及一种自动驾驶方法、装置、设备和车辆。

背景技术

自动驾驶汽车一般通过获取周边环境、自车状态和位置等信息，如感知周边物体等的预测轨迹等，结合车辆的驾驶任务和当前位置等对车辆做出合理的决策规划与控制。自动驾驶汽车的决策方法一般可以分为基于规则的决策方法和基于学习的决策方法。基于规则的自动驾驶决策方法主要对车辆的行为进行定性划分，基于规则确定驾驶行为。然而，自动驾驶汽车是一个典型的具有非线性、不确定性和时变性的系统，在复杂场景中，由于自动驾驶决策方法的运动学和动力学等模型过于简化，无法满足复杂不确定场景下的自动驾驶决策需求。基于学习的自动驾驶决策方法一般根据输入的环境信息直接输出车辆的控制行为，无需经过行为决策、局部路径规划、路径跟踪控制等基于规则的自动驾驶决策方法的层级流程，简化了自动驾驶汽车决策系统的结构。但是现有技术普遍专注于车辆在某一场景下或某一控制量的决策与控制，不能适应自动驾驶汽车在复杂场景所需的所有动作集，以及多个控制量协同作用下的匹配和同步。

因此，需要设计一种优化的自动驾驶决策架构和方法，提高自动驾驶车辆在复杂场景下的可控性和决策合理性。

发明内容

本发明提供了一种自动驾驶方法、装置、设备和车辆，可以提高车辆的自动驾驶在复杂环境下的安全和可控性，改善用户体验。

一方面，本发明提供了一种自动驾驶方法，所述方法包括：

获取环境感知数据和车辆状态参数；

将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别，得到离散型动作的目标参数；

将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别，得到连续型动作的目标参数；

当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时，基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。

另一方面，本发明提供了一种自动驾驶装置，所述装置包括：

环境交互单元：用于获取环境感知数据和车辆状态参数；

离散型动作参数确定单元：用于将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别，得到离散型动作的目标参数；

连续型动作参数确定单元：用于将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别，得到连续型动作的目标参数；

自动驾驶控制单元：用于当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时，基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。

另一方面，本发明提供了一种自动泊车设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的自动驾驶方法。

另一方面，本发明提供了一种车辆，包括上述的自动驾驶设备。

本发明提供的自动泊车方法、装置、设备和车辆，具有如下技术效果：

本发明基于车辆的驾驶数据和建立的学习模型实现车辆自动驾驶的端对端训练，实现车辆在复杂场景中离散型动作和连续型动作的控制参数的输出、匹配和同步，提高车辆自动驾驶的可控性和安全性，改善用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种自动驾驶方法的流程图；

图2是本发明实施例提供的自动驾驶方法的决策流程图；

图3是本发明实施例提供的自动驾驶方法的决策控制框架；

图4是本发明实施例提供的一种自动驾驶装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供一种自动驾驶方法，图1是所述方法的流程示意图。本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置、设备或系统产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。请参考图1-图2，所述方法可以包括：

S100：获取环境感知数据和车辆状态参数。

本说明书实施例中，获取所述环境感知数据和车辆状态参数的系统可以包括但不限于车辆的摄像系统、雷达系统(如毫米波雷达、超声波雷达、激光雷达等)、传感器系统(GPS传感器、车速传感器、碰撞传感器、轮速传感器等) 以及其他车载系统等；还可以包括驾驶环境中的与自动驾驶相关的，能够与车辆建立通信连接的系统。

在实际应用中，所述环境感知数据可以包括但不限于车道信息、车辆周围的移动目标信息、固定障碍物信息、交通信号、温湿度数据、气压数据、能见度数据等，所述车辆状态参数包括但不限于车速、轮速、加速度、剩余电量参数、剩余油量参数、方向盘转角、制动踏板液压力、路面附着系数、当前档位和当前灯光状态等能够反映车辆运行状态或运行效果的数据参数。

S200：将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别，得到离散型动作的目标参数。

本说明书实施例中，所述离散型动作包括离散的控制动作或输出具有时间间隔的控制动作，例如档位信号控制、灯光状态控制、车辆鸣笛控制、上电或下电控制等。

在实际应用中，所述第一动作参数识别模型可以根据环境感知数据和车辆状态参数与离散型动作的控制参数的对应关系，输出离散型动作的目标参数。

S300：将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别，得到连续型动作的目标参数。

本说明书实施例中，所述连续型动作包括具有连续量的控制动作，例如车速控制、轮速控制、方向盘转角控制、制动踏板液压力控制、胎压控制和车内温湿度控制等。

在实际应用中，所述第二动作参数识别模型可以根据环境感知数据和车辆状态参数与连续型动作的控制参数的对应关系，输出连续型动作的目标参数。

S400：当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时，基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。

本说明书实施例中，所述离散型动作的目标参数和所述连续型动作的目标参数是通过不同的动作参数识别模型获取的，因此可能存在二者输出值不匹配或不同步。车辆的自动驾驶装置或系统中可以包括输出动作判断模块，用于判断基于当前环境感知数据和车辆状态参数条件下，得到的离散型动作的目标参数和连续型动作的目标参数是否匹配。

在实际应用中，车辆的自动驾驶装置或系统中可以包括离散型动作参数和连续型动作参数的对应关系或约束条件，该对应关系或约束条件可以是根据车辆参数设置的，也可以是在训练学习模型中习得的。

具体实施例中，车辆可以根据环境感知数据和车辆状态参数确定当前的环境状态，例如车辆所处的驾驶场景等。并且，车辆的第一动作参数识别模型和第二动作参数识别模型可以存储有与驾驶场景所对应的与自动驾驶相关的控制决策，例如所述环境感知数据中包含固定障碍物信息，可以对应于减速和/或曲线行驶避障决策，基于该环境感知数据和车辆状态参数输出相应的目标制动液压力、目标方向盘转角、目标车速和目标档位等，以控制车辆自动行驶。当然，当车辆的第一动作参数识别模型和第二动作参数识别模型未存储有当前的驾驶场景或者为存储当前驾驶场景所对应的控制决策，可以确定相似的驾驶场景和控制决策的对应关系，确定输出相应的离散型动作和/或连续型动作的目标参数。同时，车辆可以记录当前的未存储的驾驶场景和控制决策，以及本次输出的目标参数对应的结果，如是否成功避障等。

综上，基于车辆的驾驶数据和建立的学习模型实现车辆自动驾驶的端对端训练，实现车辆在复杂场景中离散型动作和连续型动作的控制参数的输出、匹配和同步，提高车辆自动驾驶的可控性和安全性，改善用户体验。

基于上述具体实施方式，在本说明书实施例中，所述方法还可以包括：

S500：当所述离散型动作的目标参数和所述连续型动作的目标参数不匹配时，基于所述连续型动作的目标参数修正所述离散型动作的目标参数；

在实际应用中，可以通过上述的离散型动作参数和连续型动作参数的对应关系或约束条件得到离散型动作对应的期望参数。

在具体实施例中，可以选择所述期望参数作为离散型动作的目标参数，还可以是基于车辆当前的离散型动作参数和所述期望参数，通过上述约束条件或者车辆自动驾驶装置或系统中的其它控制条件确定所述离散型动作的目标参数。

S600：根据所述连续型动作的目标参数和修正后的所述离散型动作的目标参数控制车辆自动驾驶。

基于上述具体实施方式，在具体实施例中，所述第一动作参数识别模型包括采用下述方式确定：

S1101：获取第一训练数据，所述第一训练数据包括环境感知数据和车辆状态参数；

在实际应用中，所述第一训练数据可以包括是车辆行驶过程中获取的驾驶数据，也可以是仿真环境下获取的模拟车辆行驶的驾驶数据。所述驾驶数据可以包括如环境感知数据和车辆状态参数，或者还可以包括如车辆事故数据、导航数据、驾驶员习惯等，或者还可以包括上述各数据或参数之间的时间对应关系等。

S1102：将所述第一训练数据输入预设深度学习模型进行离散型动作参数识别训练，得到所述第一动作参数识别模型。

在实际应用中，所述第一动作参数识别模型可以是基于深度学习等机器学习的方式训练得到的模型。可以通过深度学习算法构建预设深度学习模型，将第一训练数据输入该预设深度学习模型中，对车辆的离散型输出动作进行训练和学习，确定驾驶场景、驾驶任务等与离散型动作的目标参数的对应关系，或者环境感知数据、车辆状态参数与离散型动作的目标参数的对应关系。

在一些实施例中，所述预设深度学习模型和所述第一动作参数识别模型可以采用深度Q学习(Deep Q-Learning Network，DQN)等算法建立。

基于上述具体实施方式，在具体实施例中，所述第二动作参数识别模型包括采用下述方式确定：

S2101：获取第二训练数据，所述第二训练数据包括环境感知数据和车辆状态参数；

在实际应用中，所述第二训练数据可以与所述第一训练数据相同，具体如前文所述。所述第二训练数据也可以与所述第一训练数据不同，所述第一训练数据可以是与所述离散型动作参数相关的环境感知数据和车辆状态参数等驾驶数据，所述第二训练数据可以是与所述连续型动作参数相关的环境感知数据和车辆状态参数等驾驶数据。

S2102：将所述第二训练数据输入预设强化学习模型进行连续型动作参数识别训练，得到所述第二动作参数识别模型。

在实际应用中，所述第二动作参数识别模型可以是基于强化学习等机器学习的方式训练得到的模型。可以通过强化学习算法构建预设强化学习模型，将第二训练数据输入该预设强化学习模型中，对车辆的连续型输出动作进行训练和学习，确定驾驶场景、驾驶任务等与连续型动作的目标参数的对应关系，或者环境感知数据、车辆状态参数与连续型动作的目标参数的对应关系。

在一些实施例中，所述预设强化学习模型和所述第二动作参数识别模型可以是采用深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)等算法建立。

需要注意的是，所述第一动作参数识别模型可以包括第一经验池，所述第一训练数据可以存储在所述第一经验池中。所述第二动作参数识别模型可以包括第二经验池，所述第二训练数据可以存储在所述第二经验池中。所述第一经验池和所述第二经验池可以相同，即所述第一动作参数识别模型和所述第二动作参数识别模型可以共用经验池。通过共用经验池可以降低对车辆自动驾驶系统、装置或设备对于存储和计算资源的需求。

进一步地，所述经验池中还可以包括第一训练数据和/或第二训练数据和动作参数的对应关系，该动作参数包括离散型动作的目标参数和/或连续性动作的目标参数。以及，还可以包括第一训练数据和/或第二训练数据、动作参数和回报值之间的对应关系。

在一个具体实施例中，如图3，对于离散型动作，采用DQN算法建立所述第一动作参数识别模型，实现其训练和学习。

进一步地，DQN的损失函数如公式(1)，其中θ是网络参数，s表征车辆获取的环境感知数据和车辆状态参数，a表征离散型动作的目标参数，r表征赏罚函数，γ表征折扣因子，γ的取值范围为[0,1)。

L(θ)＝E[(TargetQ-Q(s,a；θ))²] (1)

进一步地，目标Q函数为：

然后求L(θ)关于θ的梯度，使用随机梯度下降等方法更新网络参数。

更进一步地，对于连续性动作，采用DDPG算法建立所述第二动作参数识别模型，实现其训练和学习。在DDPG算法中，采用Actor-Critic框架，分别使用参数为θ^μ和θ^Q的深度神经网络来表示确定性策略a＝π(s∣θ^μ)和动作值函数 Q(s,a∣θ^Q)，其中，s表征车辆获取的环境感知数据和车辆状态参数，a表征连续型动作的目标参数，r表征赏罚函数，γ表征折扣因子，γ的取值范围为[0,1)。其中，策略网络(Actor网络)用来更新策略，输出连续性控制动作；值网络(Critic 网络)用来逼近状态动作对的值函数，并提供梯度信息。DDPG的目标函数被定义为带折扣的总回报：

通过随机梯度法对目标函数进行端对端的优化。DDPG的目标函数关于θ^μ的梯度等价于DDPG的Q值函数关于θ^Q的期望梯度：

根据确定性策略a＝π(s|θ^μ)可得：

沿着提升DDPG的Q值的方向更新策略网络的参数。通过DQN中更新值网络的方法来更新Critic网络，梯度信息为:

TargetQ＝r+γQ'(s',π(s'|θ^μ')|θ^Q') (7)

其中θ^μ’和θ^Q’分别表示目标策略网络和目标值网络的参数，用随机梯度下降等方法更新值网络。

在DQN和DDPG中，均采用目标值网络产生Target Q值。引入目标值网络，在一段时间里目标Q值是保持不变的，一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。使用经验池回放降低信息之间的关联性。

需要注意的是，可以通过预训练对所述经验池的数据进行约束和聚类处理、迁移学习等，以加速训练和学习过程，同时降低对车载系统、装置或设备的存储和计算能力的要求。预训练可以通过仿真环境或采集驾驶员的驾驶数据对价值网络的参数初始化进行训练，取代一般的参数随机初始化或服从某种特定分布的初始化方法。由于在驾驶数据中存在大量的冗余数据，以及一些无意义数据，通过约束和聚类处理，可以提高训练和学习效率。通过将经过仿真环境或实车环境训练一段时间的模型迁移到另一车载环境或终端设备上，可以加速训练过程。

基于上述具体实施方式，在具体实施例中，所述离散型动作的目标参数和所述连续型动作的目标参数是否匹配包括采用下述方式确定：

S3101：获取所述离散型动作的目标参数和所述连续型动作的目标参数所对应的约束条件；

S3102：判断所述离散型动作的目标参数和所述连续型动作的目标参数是否满足所述约束条件；

S3103：若满足，则确定所述离散型动作的目标参数和所述连续型动作的目标参数匹配。

在实际应用中，所述约束条件可以表征一个或多个离散型动作的目标参数与一个或多个连续型动作的目标参数的对应关系。

基于上述具体实施方式，在具体实施例中，所述车辆状态参数包括离散型动作的当前参数，所述基于所述连续型动作的目标参数修正所述离散型动作的目标参数包括采用下述方式修正：

基于所述连续型动作的目标参数将所述离散型动作的目标参数修正为匹配所述离散型动作的当前参数且满足所述约束条件所对应的参数值。

在实际应用中，所述约束条件中一个连续型动作的目标参数可以对应一个离散型动作的一个或多个目标参数数值。

在一些实施例中，基于所述约束条件可以确定与连续型动作的目标参数对应的离散型动作的多个目标参数数值，获取该多个目标参数数值与离散型动作的当前参数的对比结果，选择最接近当前参数数值的目标参数作为匹配所述离散型动作的当前参数的参数值，即将该最接近的参数值作为离散型动作的目标参数的输出结果。

在另一些实施例中，基于所述约束条件可以确定一个或多个连续型动作的目标参数对应的多个离散型动作的目标参数，当前每个离散型动作也可以包括多个目标参数数值。获取所有的离散型动作的目标参数与相应的离散型动作的当前参数的相似度，将相似度最高的多个离散型动作的目标参数集作为输出结果。

在一个具体实施例中，车辆的档位信号和车速之间的约束关系如公式(8) 所示，1档信号的车速范围是小于等于20km/h，2档信号的车速范围是大于 10km/h小于等于30km/h，3档的车速范围是大于20km/h小于等于40km/h，5 档的车速范围是大于40km/h。其中，离散型动作的目标参数与连续型动作的目标参数是由不同的算法模型生成，可能存在目标档位指令与目标车速指令不匹配的情况。因此，车辆的环境交互单元将DQN产生的离散型动作的目标参数和DDPG产生的连续型动作的目标参数进行匹配和同步，即目标档位指令与目标车速指令的匹配与同步。

进一步地，以DDPG输出的目标车速为基准进行匹配：环境交互单元基于公式(8)中的约束条件判断DDPG输出的目标车速和DQN输出的目标档位是否匹配；若DQN输出的目标档位指令在其对应的速度范围内，则环境交互单元输出DQN的目标档位结果；若DQN输出的目标档位指令不在该档位对应的速度范围内，则根据约束条件和车辆当前档位状态对DDPG输出的目标车速进行修正，具体可以为，将目标档位修正为满足约束条件公式(8)且最接近当前档位的档位参数值。

示例的，当在某一时刻，DDPG输出的目标车速为25km/h，DQN输出的目标档位指令为3档。环境交互单元判断25km/h和3档指令满足式(8)的约束，因此直接将目标车速25km/h和3档指令下发至车辆的自动驾驶控制单元。若 DDPG输出的目标车速为25km/h，DQN输出的目标指令为5档，则环境交互单元判断DQN输出的目标档位指令与目标车速指令不能满足(8)式的约束，此时环境交互单元需要修正DQN输出的目标档位指令，修正原则为最接近当前档位且满足式(8)约束的档位，具体为：获取车辆的当前档位参数，若车辆当前时刻的档位为1档，则将目标档位指令修正至2档；若车辆当前时刻档位为5 档，则将目标档位指令修正至3档。进一步地，环境交互单元将修正后的(匹配和同步后的)目标车速指令和目次档位指令下发至车辆的自动驾驶控制单元中，控制车辆变速变档。

基于上述具体实施方式，在具体实施例中，所述预设深度学习模型和/或所述预设强化学习模型包括采用下述方式确定：

S4101：获取环境感知数据和车辆状态参数，所述环境感知数据和车辆状态参数包括图像数据信息和/或参数数值型信息；

在实际应用中，前文所述的第一训练数据和/或第二训练数据可以包括图像数据信息和/或参数数值型信息。

具体地，所述环境感知数据和车辆状态参数也可以包括图像数据信息和/或参数数值型信息。

在一些实施例中，所述图像数据信息可以是通过车辆的摄像系统获取的，或者还可以是通过车辆周围环境中摄像设备获取的；所述参数数值型信息可以是通过车辆的传感器系统、雷达系统、车载控制系统等获取的，或者还可以是通过车辆周围环境中设备和/或云端获取的。

S4102a：将所述图像数据信息输入深度卷积神经网络进行网络训练，得到图像数据处理子模型；

S4102b：将所述参数数值型信息输入深度神经网络进行网络训练，得到数值数据处理子模型；

S4103a：基于所述图像数据处理子模型和/或所述数值数据处理子模型建立所述预设深度学习模型；

和/或，

S4103b：基于所述图像数据处理子模型和/或所述数值数据处理子模型建立所述预设强化学习模型。

在实际应用中，根据输入的信息类型的异构性采用了不同的价值函数构建网络，实现端对端的学习与训练。当输入的信息类型仅包括图像或视频等图像数据信息，则采用深度卷积神经网络进行网络训练，得到图像数据处理子模型，并建立预设深度学习模型和预设强化学习模型；当输入的信息类型仅包括参数数值型信息，则采用深度神经网络进行网络训练，得到数值数据处理子模型，并建立预设深度学习模型和预设强化学习模型。当输入的信息类型包括上述二者，则基于图像数据处理子模型和/或所述数值数据处理子模型建立预设深度学习模型和预设强化学习模型。

需要说明的是，在一些实施例中，所述预设深度学习模型能够识别输入的第一训练数据中的信息类型，所述预设强化学习模型也能够识别输入的第二训练数据中的信息类型。进而基于图像数据处理子模型处理图像数据信息，基于数值数据处理子模型处理参数数值型信息，最终基于深度学习算法或强化学习算法实现端对端训练，得到第一动作参数识别模型和第二动作参数识别模型。

本发明实施例还提供了一种自动驾驶设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述所述的自动驾驶方法。

本说明书实施例中，所述存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供了一种自动驾驶装置，如图4所示，所述装置可以包括：

环境交互单元10：用于获取环境感知数据和车辆状态参数；

离散型动作参数确定单元20：用于将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别，得到离散型动作的目标参数；

连续型动作参数确定单元30：用于将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别，得到连续型动作的目标参数；

自动驾驶控制单元40：用于当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时，基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。

在具体实施例中，本说明书的自动驾驶装置还可以包括：

参数修正单元：用于当所述离散型动作的目标参数和所述连续型动作的目标参数不匹配时，基于所述连续型动作的目标参数修正所述离散型动作的目标参数；

所述自动驾驶控制单元40还用于根据所述连续型动作的目标参数和修正后的所述离散型动作的目标参数控制车辆自动驾驶。

在一些实施例中，所述离散型动作的目标参数和所述连续型动作的目标参数是否匹配包括采用下述方式确定：

约束条件获取单元：用于获取所述离散型动作的目标参数和所述连续型动作的目标参数所对应的约束条件；

约束条件判断单元：用于判断所述离散型动作的目标参数和所述连续型动作的目标参数是否满足所述约束条件；以及，

若满足，则确定所述离散型动作的目标参数和所述连续型动作的目标参数匹配。

在一些实施例中，所述车辆状态参数包括离散型动作的当前参数，所述参数修正单元可以具体用于：

在一些实施例中，本说明书的自动驾驶装置还可以包括第一动作参数识别模型确定单元：用于获取第一训练数据，所述第一训练数据包括环境感知数据和车辆状态参数；以及，

将所述第一训练数据输入预设深度学习模型进行离散型动作参数识别训练，得到所述第一动作参数识别模型。

在一些实施例中，本说明书的自动驾驶装置还可以包括第二动作参数识别模型确定单元：用于获取第二训练数据，所述第二训练数据包括环境感知数据和车辆状态参数；以及，

将所述第二训练数据输入预设强化学习模型进行连续型动作参数识别训练，得到所述第二动作参数识别模型。

进一步地，在一些实施例中，本说明书的自动驾驶装置还可以包括预设学习模型建立单元，包括：

信息类型识别模块：用于获取环境感知数据和车辆状态参数，所述环境感知数据和车辆状态参数包括图像数据信息和/或参数数值型信息；

图像数据处理子模型构造模块：用于将所述图像数据信息输入深度卷积神经网络进行网络训练，得到图像数据处理子模型；

数值数据处理子模型构造模块：用于将所述参数数值型信息输入深度神经网络进行网络训练，得到数值数据处理子模型；

预设深度学习模型构造模块：用于基于所述图像数据处理子模型和/或所述数值数据处理子模型建立所述预设深度学习模型；

和/或，

预设强化学习模型构造模块：用于基于所述图像数据处理子模型和/或所述数值数据处理子模型建立所述预设强化学习模型。

所述的装置实施例中的装置与方法实施例基于同样地发明构思。

需要说明的是：本说明书中的装置或设备实施例中，装置或设备可以是与车辆的控制系统相互独立设置的，也可以是基于车辆的控制系统设置的。

本发明实施例还提供了一种车辆，所述车辆包括上述所述的自动驾驶设备。

由上述本发明提供的自动驾驶方法、装置、设备和车辆的实施例可见，本发明基于车辆的驾驶数据和建立的学习模型实现车辆自动驾驶的端对端训练，实现车辆在复杂场景中离散型动作和连续型动作的控制参数的输出、匹配和同步，提高车辆自动驾驶的可控性和安全性，改善用户体验。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动驾驶方法，其特征在于，所述方法包括：

获取环境感知数据和车辆状态参数；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述离散型动作的目标参数和所述连续型动作的目标参数不匹配时，基于所述连续型动作的目标参数修正所述离散型动作的目标参数；

根据所述连续型动作的目标参数和修正后的所述离散型动作的目标参数控制车辆自动驾驶。

3.根据权利要求2所述的方法，其特征在于，所述离散型动作的目标参数和所述连续型动作的目标参数是否匹配包括采用下述方式确定：

获取所述离散型动作的目标参数和所述连续型动作的目标参数所对应的约束条件；

判断所述离散型动作的目标参数和所述连续型动作的目标参数是否满足所述约束条件；

4.根据权利要求2或3所述的方法，其特征在于，所述车辆状态参数包括离散型动作的当前参数，所述基于所述连续型动作的目标参数修正所述离散型动作的目标参数包括采用下述方式修正：

5.根据权利要求1所述的方法，其特征在于，所述第一动作参数识别模型包括采用下述方式确定：

获取第一训练数据，所述第一训练数据包括环境感知数据和车辆状态参数；

6.根据权利要求5所述的方法，其特征在于，所述第二动作参数识别模型包括采用下述方式确定：

获取第二训练数据，所述第二训练数据包括环境感知数据和车辆状态参数；

7.根据权利要求6所述的方法，其特征在于，所述预设深度学习模型和所述预设强化学习模型包括采用下述方式确定：

获取环境感知数据和车辆状态参数，所述环境感知数据和车辆状态参数包括图像数据信息和/或参数数值型信息；

将所述图像数据信息输入深度卷积神经网络进行网络训练，得到图像数据处理子模型；

将所述参数数值型信息输入深度神经网络进行网络训练，得到数值数据处理子模型；

基于所述图像数据处理子模型和/或所述数值数据处理子模型建立所述预设深度学习模型；

和/或，

基于所述图像数据处理子模型和/或所述数值数据处理子模型建立所述预设强化学习模型。

8.一种自动驾驶装置，其特征在于，所述装置包括：

环境交互单元：用于获取环境感知数据和车辆状态参数；

9.一种自动驾驶设备，包括处理器和存储器，其特征在于，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7中任一所述的自动泊车方法。

10.一种车辆，其特征在于，所述车辆包括权利要求9中所述的自动驾驶设备。