CN112100787B

CN112100787B - 车辆动作预测方法、装置、电子设备及存储介质

Info

Publication number: CN112100787B
Application number: CN201910450761.XA
Authority: CN
Inventors: 石含飞; 李似锦; 刘庆龙; 梁智; 李鹏程
Original assignee: Shenzhen Fengchi Shunxing Information Technology Co Ltd
Current assignee: Shenzhen Fengchi Shunxing Information Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2023-12-08
Anticipated expiration: 2039-05-28
Also published as: CN112100787A

Abstract

本发明实施例公开了一种车辆动作预测方法、装置、电子设备及存储介质。该方法包括：获取车辆驾驶的样本数据；根据样本数据中多张样本状态图构建多个样本四元组；根据多个样本四元组和每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；根据车辆动作预测模型预测车辆动作。本发明实施例通过车辆驾驶的样本数据中的样本状态图构建样本四元组，来训练预设的车辆神经网络初始模型，得到车辆动作预测模型，即训练车辆神经网络初始模型的数据不是直接获取的样本数据，而是构建的样本四元组，使得后续利用车辆动作预测模型对待车辆动作进行预测时，提升了预测准确度及鲁棒性。

Description

车辆动作预测方法、装置、电子设备及存储介质

技术领域

本发明涉及车辆控制技术领域，具体涉及一种车辆动作预测方法、装置、电子设备及存储介质。

背景技术

车辆自动控制或者车辆自动驾驶，其实就是将一些自动控制的技术运用到汽车中，由以往的提高机械性能发展为辅助或部分取代或全部取代人的操纵，达到减少由于人的局限性造成的事故，减轻驾驶强度提高交通效率。

车辆自动控制包括横向控制和纵向控制，纵向控制是在行车速度方向上的控制，即车速以及本车与前后车或障碍物距离的自动控制巡航控制就是一种纵向控制。这类控制问题可归结为对发动机输出和刹车的控制，各种发动机模型、汽车运行模型和刹车过程模型与不同的控制器算法结合，构成了各种各样的纵向控制模式。横向控制指垂直于运动方向上的控制，对于汽车也就是转向控制。目标是控制汽车自动保持期望的行车路线，并在不同的车速、载荷、风阻、路况下有很好的乘坐舒适性。横向控制有两种基本设计方法，一种是基于驾驶员模拟的方法；另一种是给予汽车横向运动力学模型的控制方法。

当实现了车辆纵向和横向的自动控制，就可以按给定目标和约束自动控制车运行。所以，从车辆本身来说.自动驾驶就是综合纵向和横向控制。但要真正实现点到点的自动驾驶运行，车辆控制系统必须获取道路和周边交通情况的详细动态信息和具有高度智能的控制性能。

传统的车辆横纵向控制需要显示对车辆周边环境建模，而由于环境的复杂性，显示的环境建模存在一定的局限性，算法鲁棒性不强，适应场景单一，从而导致其后的控制策略需要不断地添加以处理某些新出现的情景，且由于人工设计的控制策略终究有限，不能覆盖所有可能的场景。

发明内容

本发明实施例提供一种车辆动作预测方法、装置、电子设备及存储介质，使得后续利用车辆动作预测模型对待车辆动作进行预测时，提升了预测准确度及鲁棒性。

第一方面，本申请提供一种车辆动作预测方法，所述车辆动作预测方法包括：

获取车辆驾驶的样本数据，所述样本数据中包括车辆外部环境的连续多张样本状态图，以及每张样本状态图对应的车辆动作真实值；

根据所述多张样本状态图构建多个样本四元组；

根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；

根据所述车辆动作预测模型预测车辆动作。

在本申请一些实施例中，所述根据所述样本状态图构建多个样本四元组，包括：

从所述多张样本状态图中分别提取车辆状态信息；

依次以所述多张样本状态图中每张样本状态图为目标样本状态图，根据所述目标样本状态图对应的车辆状态信息构建样本四元组；

其中，所述样本四元组为(s,a,r,s_)，其中，s为从当前样本状态图提取得到的车辆状态信息，a为当前车辆状态下车辆执行的第一动作；r为当前车辆状态下执行第一动作a后获得的即时奖励，s_为当前车辆状态下执行第一动作a并延时预设时间后，所得样本状态图经提取得到的车辆状态信息。

在本申请一些实施例中，所述根据所述目标样本状态图对应的车辆状态信息构建样本四元组，包括：

获取所述目标样本状态图对应的车辆状态信息；

获取所述目标样本状态图对应的车辆状态下，车辆执行的第一动作；

根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的即时奖励；

获取所述目标样本状态图经预设时间之后的样本状态图的车辆状态信息；

根据所述目标样本状态图对应的车辆状态信息、所述第一动作、所述即使奖励以及所述目标样本状态图经预设时间之后的样本状态图的车辆状态信息，构建所述样本四元组。

在本申请一些实施例中，所述根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的即时奖励，包括：

根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的主奖励；

获取当前车辆状态的前一个车辆状态下第二动作的幅度，以及所述第一动作的幅度；

计算所述第一动作的幅度以及所述第二动作的幅度之差，作为所述动作奖励；

根据所述主奖励和所述动作奖励，计算所述即时奖励。

在本申请一些实施例中，所述根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的主奖励，包括：

从所述车辆状态信息获取所述车辆与前方最近车辆的直线距离；

获取所述车辆当前的车速；

根据所述直线距离和所述车辆的车速，计算所述主奖励。

在本申请一些实施例中，所述根据所述主奖励和所述动作奖励，计算所述即时奖励，包括：

若所述直线距离在第一预设阈值范围内，则获取预设的正向奖励，并计算所述主奖励、所述动作奖励和所述正向奖励的和值，作为所述即时奖励；

若所述直线距离在第二预设阈值范围内，则获取预设的负向奖励，并计算所述主奖励、所述动作奖励和所述负向奖励的和值，作为所述即时奖励；

若所述直线距离在所述第一预设阈值范围和所述第二预设阈值范围之外，则计算所述主奖励和所述动作奖励的和值，作为所述即时奖励。

在本申请一些实施例中，所述根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络，得到车辆动作预测模型，包括：

将所述多个样本四元组依次输入到所述车辆神经网络初始模型，以获取每张样本状态图对应的车辆动作预测值；

对每张样本状态图对应的车辆动作真实值和车辆动作预测值进行收敛，得到所述车辆动作预测模型。

第二方面，本申请提供一种车辆动作预测装置，所述车辆动作预测装置包括：

获取单元，用于获取车辆驾驶的样本数据，所述样本数据中包括车辆外部环境的连续多张样本状态图，以及每张样本状态图对应的车辆动作真实值；

构建单元，用于根据所述多张样本状态图构建多个样本四元组；

训练单元，用于根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；

预测单元，用于根据所述车辆动作预测模型预测车辆动作。

在本申请一些实施例中，所述构建单元具体用于：

从所述多张样本状态图中分别提取车辆状态信息；

在本申请一些实施例中，所述构建单元具体用于：

获取所述目标样本状态图对应的车辆状态信息；

在本申请一些实施例中，所述构建单元具体用于：

根据所述主奖励和所述动作奖励，计算所述即时奖励。

在本申请一些实施例中，所述构建单元具体用于：

获取所述车辆当前的车速；

根据所述直线距离和所述车辆的车速，计算所述主奖励。

在本申请一些实施例中，所述构建单元具体用于：

在本申请一些实施例中，所述训练单元具体用于：

第三方面，本申请提供一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的车辆动作预测方法。

第四方面，本申请还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行第一方面中任一项所述的车辆动作预测方法中的步骤。

本发明实施例中，通过获取车辆驾驶的样本数据；根据样本数据中多张样本状态图构建多个样本四元组；根据多个样本四元组和每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；根据车辆动作预测模型预测车辆动作。本发明实施例通过车辆驾驶的样本数据中的样本状态图构建样本四元组，来训练预设的车辆神经网络初始模型，得到车辆动作预测模型，即训练车辆神经网络初始模型的数据不是直接获取的样本数据，而是构建的样本四元组，使得后续利用车辆动作预测模型对待车辆动作进行预测时，提升了预测准确度及鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的车辆动作预测方法的一个实施例流程示意图；

图2是图1所示实施例中步骤102的一个实施例流程示意图；

图3是图2所示实施例中步骤202的一个实施例流程示意图；

图4是本发明实施例提供的车辆动作预测装置的一个实施例结构示意图；

图5是本发明实施例提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本发明实施例提供一种车辆动作预测方法、装置、电子设备及存储介质。以下分别进行详细说明。

首先，本发明实施例中提供一种车辆动作预测方法，所述车辆动作预测方法包括：获取车辆驾驶的样本数据，所述样本数据中包括车辆外部环境的连续多张样本状态图，以及每张样本状态图对应的车辆动作真实值；根据所述多张样本状态图构建多个样本四元组；根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；根据所述车辆动作预测模型预测车辆动作。

如图1所示，为本发明实施例中车辆动作预测方法的一个实施例流程示意图，该车辆动作预测方法包括：

101、获取车辆驾驶的样本数据。

其中，车辆驾驶的样本数据可以包括车辆人工驾驶的样本数据，和/或车辆自动驾驶的样本数据，所述样本数据中包括车辆外部环境的连续多张样本状态图，以及每张样本状态图对应的车辆动作真实值。具体的，该样本状态图可以是车辆驾驶时车辆前方的场景图，可以通过设置在车辆上的摄像头进行拍摄。另外，该多张样本状态图是连续拍摄的。每张样本状态图对应的一个车辆动作真实值，即车辆在当前样本状态图的状态下，人工或自动操作车辆的动作对应的值，对于车辆横向控制，车辆动作真实值为方向盘转角，对于车辆纵向控制，车辆动作真实值为车速。

102、根据所述多张样本状态图构建多个样本四元组。

其中，多个样本四元组中样本四元组中具有固定的数据组成，在本发明一个具体实施方式中，所述样本四元组为(s,a,r,s_)，其中，s为从当前样本状态图提取得到的车辆状态信息，a为当前车辆状态下车辆执行的第一动作；r为当前车辆状态下执行第一动作a后获得的即时奖励，s_为当前车辆状态下执行第一动作a并延时预设时间后，所得样本状态图经提取得到的车辆状态信息。具体的，车辆状态信息可以是样本状态图经图像处理(例如灰度处理)后得到车辆状态特征图，也可以是通过预设的图像处理神经网络模型进行处理得到车辆状态特征图，。

由于数字图像数据可以用矩阵来表示，因此可以采用矩阵理论和矩阵算法对数字图像进行分析和处理，得到图像的矩阵表示。最典型的例子是灰度图像，灰度图像的像素数据就是一个矩阵，矩阵的行对应图像的高(单位为像素)，矩阵的列对应图像的宽(单位为像素)，矩阵的元素对应图像的像素，矩阵元素的值就是像素的灰度值。本发明实施例中，该样本状态图、车辆状态特征图都可以是采用矩阵来表示数字图像，符合图像的行列特性，同时也便于程序的寻址操作，使得计算机图像编程十分方便。

103、根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型。

104、根据所述车辆动作预测模型预测车辆动作。

本发明实施例通过驾驶的样本数据中的样本状态图构建样本四元组，来训练预设的车辆神经网络初始模型，得到车辆动作预测模型，即训练车辆神经网络初始模型的数据不是直接获取的样本数据，而是构建的样本四元组，使得后续利用车辆动作预测模型对待车辆动作进行预测时，提升了预测准确度及鲁棒性。

在本发明的一些实施例中，如图2所示，步骤102中所述根据所述样本状态图构建多个样本四元组，具体可以包括：

201、从所述多张样本状态图中分别提取车辆状态信息。

具体的，从所述多张样本状态图中分别提取车辆状态信息可以是：对所述多张样本状态图中每张样本状态图分别进行预设的图像处理(如灰度处理)，得到车辆状态特征图，该车辆状态特征图即车辆状态信息。

202、依次以所述多张样本状态图中每张样本状态图为目标样本状态图，根据所述目标样本状态图对应的车辆状态信息构建样本四元组。

以上述样本四元组为(s,a,r,s_)为例，在具体实施时，如图3所示，步骤202中所述根据所述目标样本状态图对应的车辆状态信息构建样本四元组，具体可以包括：

301、获取所述目标样本状态图对应的车辆状态信息。

其中，车辆状态信息s即步骤201中的车辆状态信息。

302、获取所述目标样本状态图对应的车辆状态下，车辆执行的第一动作。

本实施例中，步骤101中样本数据中还包括每张样本状态图对应的车辆状态下，车辆执行的动作。此时，即可以直接从样本数据中获取目标样本状态图对应的车辆状态下，车辆执行的第一动作a。

303、根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的即时奖励。

其中，车辆状态信息为s，即时奖励为r，第一动作a。在本发明一些实施例中，所述根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的即时奖励，包括：根据所述车辆状态信息s，计算当前车辆状态下执行第一动作a后获得的主奖励rm；获取当前车辆状态s的前一个车辆状态下第二动作的幅度，以及所述第一动作a的幅度；计算所述第一动作的幅度以及所述第二动作的幅度之差，作为所述动作奖励rs；根据所述主奖励rm和所述动作奖励rs，计算所述即时奖励r。

本发明实施例中车辆动作预测方法还包括：从所述车辆状态信息获取车辆纵向轴线与车道中线的距离以及车辆纵向轴线与车道中线的夹角。

对于车辆横向控制，主奖励rm与车辆纵向轴线与车道中线的距离、车辆纵向轴线与车道中线的夹角二者为一次线性关系，车辆偏离车道越远，主奖励rm越小，反之越大；对于车辆纵向控制，在车辆前方未有障碍物时，本发明实施例中约定车辆作定速运动，故主奖励rm设定为实际车速与设定车速之差的绝对值的减函数，在车辆前方有障碍物时，当本车辆与前方最近车辆的距离在刹车范围内，设定rm的目标是使得车速依据距离的减小而衰减，即是v＝f(d)，其中v为车辆车速，f(d)为当前车辆与所述车辆前方最近车辆的直线距离。

具体的，在一些具体实施例中，所述根据所述主奖励rm和所述动作奖励rs，计算所述即时奖励r。，可以包括：从所述车辆状态信息获取所述车辆与前方最近车辆的直线距离f(d)；获取所述车辆当前的车速v；根据所述直线距离f(d)和所述车辆的车速v，计算所述主奖励rm。在具体实施时，可以根据预设公式计算主奖励rm，例如该预设公式可以是rm＝-|(v-αf(d))|，其中，α为预设的固定参数。

另外，本发明实施例中，无论车辆横向控制还是车辆纵向控制，对于可能发生的危险接触(实际中用本车辆与前方最近车辆的距离小于一定阈值度量，而非实际碰撞)，则在原有奖励的基础上另外再附加一个预设的负向奖励，对于表现比较好的动作，在原有奖励的基础上再附加一个预设的正向奖励，其中，为了避免危险，车辆动作应趋于保守，此时，负向奖励的绝对值可大于正向奖励，在具体实施时，负向奖励的绝对值可以远大于正向奖励，例如相差预设倍数，或者相差一个或多个数量级。

因此，根据所述主奖励rm和所述动作奖励rs，计算所述即时奖励r可以包括：若所述直线距离f(d)在第一预设阈值范围内，则获取预设的正向奖励rsa，并计算所述主奖励rm、所述动作奖励rs和所述正向奖励rsa的和值，作为所述即时奖励r；若所述直线距离f(d)在第二预设阈值范围内，则获取预设的负向奖励rsb，并计算所述主奖励rm、所述动作奖励rs和所述负向奖励rsb的和值，作为所述即时奖励r；若所述直线距离f(d)在所述第一预设阈值范围和所述第二预设阈值范围之外，则计算所述主奖励rm和所述动作奖励rs的和值，作为所述即时奖励r。即根据所述主奖励rm和所述动作奖励rs，计算所述即时奖励r有多种实现方式，具体如下：

(1)主奖励rm和动作奖励rs之和在第一预设阈值范围内。

此时，获取预设的正向奖励rsa，计算即时奖励r＝rm+ra+rsa。

(2)主奖励rm和动作奖励rs之和在第二预设阈值范围内。

此时，获取预设的负向奖励rsb，计算即时奖励r＝rm+ra+rsb。其中，负向奖励rsb为负数，且rsb的绝对值大于rsa。

(3)主奖励rm和动作奖励rs之和在中间范围内。

主奖励rm和动作奖励rs之和既不再第一预设阈值范围，也不在第二预设阈值范围，则在中间范围内，其中，第一预设阈值范围＞中间范围＞第二预设阈值范围。例如，第一预设阈值范围为大于50m，第二预设阈值范围为小于5m，中间范围为[5m,50m]。则在当前车辆与前方最近车辆距离大于50m时，表示车辆处于安全操作范围内，可以在原有奖励的基础上(rm+rs)再附加一个预设的正向奖励rsa；在当前车辆与前方最近车辆距离小于5m时，表示车辆可能发生危险接触，可以在原有奖励的基础上(rm+rs)再附加一个预设的负向奖励rsb。在当前车辆与前方最近车辆距离在[5m,50m]时，表示车辆正常行驶，可以直接以原有奖励的基础上(rm+rs)作为即时奖励r，不作其他处理。

304、获取所述目标样本状态图经预设时间之后的样本状态图的车辆状态信息。

305、根据所述目标样本状态图对应的车辆状态信息、所述第一动作、所述即使奖励以及所述目标样本状态图经预设时间之后的样本状态图的车辆状态信息，构建所述样本四元组。

具体的，即根据步骤301～304中的车辆状态信息s，车辆执行的第一动作a，即时奖励r和目标样本状态图经预设时间之后的样本状态图的车辆状态信息s_构建样本四元组。

由于步骤101中多张样本状态图为连续的样本状态图，因此可以获取所述目标样本状态图经预设时间之后的样本状态图的车辆状态信息，该预设时间之后的样本状态图可以是目标样本状态图之后的下一帧图像。

在本发明一些实施例中，步骤103中所述根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络，得到车辆动作预测模型，包括：

(1)将所述多个样本四元组依次输入到所述车辆神经网络初始模型，以获取每张样本状态图对应的车辆动作预测值。

其中，该车辆神经网络初始模型为预先构建的，车辆神经网络初始模型可以是卷积神经网络(CNN，Convolutional Neural Network)模型。

(2)对每张样本状态图对应的车辆动作真实值和车辆动作预测值进行收敛，得到所述车辆动作预测模型。

例如，具体可以采用预设损失函数对每张样本状态图对应的车辆动作真实值和车辆动作预测值进行收敛，得到车辆动作预测模型。其中，该损失函数可以根据实际应用需求进行灵活设置，比如，损失函数可以为交叉熵损失函数。通过降低每张样本状态图对应的车辆动作真实值和车辆动作预测值之间的误差，进行不断训练，以调整车辆动作预测模型的参数至合适数值，便可得到车辆动作预测模型。具体的，即根据预设损失函数对每张样本状态图对应的车辆动作真实值和车辆动作预测值进行计算，得到多张样本状态图对应的损失值；对车辆动作预测初始模型的参数进行调整，直到调整后的参数使得多张样本状态图对应的损失值小于或等于预设阈值时，停止调整，得到车辆动作预测模型。

在得到车辆动作预测模型之后，可以根据车辆动作预测模型预测车辆动作，具体的，根据所述车辆动作预测模型预测车辆动作可以包括：获取车辆连续的车辆状态图；将所述车辆状态图输入所述车辆动作预测模型，预测所述车辆动作。其中，车辆状态图可以是设置在车辆上的摄像头(如车辆前视摄像头)进行拍摄的。

本发明实施例中，车辆动作预测模型可以是深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)模型，DDPG算法模型是一个典型的Actor-Critic模型，DDPG模型由两个网络构成，其中actor网络进行动作预测，critic网络是传统的Q网络，用于对状态动作对的价值进行评估并提供改进梯度信息。

本发明实施例中，当车辆动作预测模型为DDPG模型时，当训练得到DDPG模型之后，该车辆动作预测方法还可以包括：在actor网络输出的动作a基础上，再附加一个ou noise作为随机扰动项，用于探索动作与状态空间，此时不再人工驾驶，智能体(车)完成一个轮次(episode)的探索后，将该轮次(episode)的数据加入样本池，然后随机从样本池中选择某个episode，再从episode中选择m个(m为正整数)连续的强化学习样本四元组(s,a,r,s_)，构成一个小的序列，反复进行此操作直到样本数量到达所设定的批数量Batch_size，m为DDPG模型中LSTM层所设定的序列长度，选定样本后，就对强化学习网络DDPG进行优化，优化完成后再次随机选择样本重复优化，一般完成一个episode的探索后，要进行连续的n次(n为正整数)优化，然后再进行下一个episode的探索与数据采集，如此探索与优化在训练过程中交替进行。当探索达到一定的步数后，对ou noise探索的力度进行衰减，减小动作的噪声量，当训练达到一定的轮次且DDPG模型收敛后，停止训练，仅使用DDPG模型中的actor网络进行动作预测，即可完成对车辆的横纵向控制，上述过程进一步提高了车辆动作预测模型预测车辆动作的准确度。

为了更好实施本发明实施例中车辆动作预测方法，在车辆动作预测方法基础之上，本发明实施例中还提供一种车辆动作预测装置，如图4所示，为车辆动作预测装置的一个实施例结构示意图，该车辆动作预测装置400包括：

获取单元401，用于获取车辆驾驶的样本数据，所述样本数据中包括车辆外部环境的连续多张样本状态图和每张样本状态图对应的车辆动作真实值；

构建单元402，用于根据所述多张样本状态图构建多个样本四元组；

训练单元403，用于根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；

预测单元404，用于根据所述车辆动作预测模型预测车辆动作。

本发明实施例中，通过获取单元401获取车辆驾驶的样本数据；构建单元402根据样本数据中多张样本状态图构建多个样本四元组；训练单元403根据多个样本四元组和每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络初始模型，得到车辆动作预测模型；预测单元404根据车辆动作预测模型预测车辆动作。本发明实施例通过车辆驾驶的样本数据中的样本状态图构建样本四元组，来训练预设的车辆神经网络初始模型，得到车辆动作预测模型，即训练车辆神经网络初始模型的数据不是直接获取的样本数据，而是构建的样本四元组，使得后续利用车辆动作预测模型对待车辆动作进行预测时，提升了预测准确度及鲁棒性。

在本发明一些实施例中，所述构建单元402具体用于：

从所述多张样本状态图中分别提取车辆状态信息；

在本发明一些实施例中，所述构建单元402具体用于：

获取所述目标样本状态图对应的车辆状态信息；

在本发明一些实施例中，所述构建单元402具体用于：

根据所述主奖励和所述动作奖励，计算所述即时奖励。

在本发明一些实施例中，所述构建单元402具体用于：

获取所述车辆当前的车速；

根据所述直线距离和所述车辆的车速，计算所述主奖励。

在本发明一些实施例中，所述构建单元402具体用于：

在本发明一些实施例中，所述训练单元403具体用于：

本发明实施例还提供一种电子设备，其集成了本发明实施例所提供的任一种车辆动作预测装置，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述日志采集方法实施例中任一实施例中所述的车辆动作预测方法中的步骤。

本发明实施例还提供一种电子设备，其集成了本发明实施例所提供的任一种车辆动作预测装置。如图5所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

电子设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取车辆驾驶的样本数据，所述样本数据中包括车辆外部环境的连续多张样本状态图和每张样本状态图对应的车辆动作真实值；

根据所述多张样本状态图构建多个样本四元组；

根据所述车辆动作预测模型预测车辆动作。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。该存储介质中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种车辆动作预测方法中的步骤。例如，该指令可以执行如下步骤：

根据所述多张样本状态图构建多个样本四元组；

根据所述车辆动作预测模型预测车辆动作。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种车辆动作预测方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车辆动作预测方法，其特征在于，所述车辆动作预测方法包括：

根据所述多张样本状态图构建多个样本四元组；

根据所述车辆动作预测模型预测车辆动作；

所述根据所述样本状态图构建多个样本四元组，包括：

从所述多张样本状态图中分别提取车辆状态信息；

其中，所述样本四元组为(s,a,r,s_)，s为从当前样本状态图提取得到的车辆状态信息，a为当前车辆状态下车辆执行的第一动作；r为当前车辆状态下执行第一动作a后获得的即时奖励，s_为当前车辆状态下执行第一动作a并延时预设时间后，所得样本状态图经提取得到的车辆状态信息。

2.根据权利要求1所述的车辆动作预测方法，其特征在于，所述根据所述目标样本状态图对应的车辆状态信息构建样本四元组，包括：

获取所述目标样本状态图对应的车辆状态信息；

根据所述目标样本状态图对应的车辆状态信息、所述第一动作、所述即时奖励以及所述目标样本状态图经预设时间之后的样本状态图的车辆状态信息，构建所述样本四元组。

3.根据权利要求2所述的车辆动作预测方法，其特征在于，所述根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的即时奖励，包括：

计算所述第一动作的幅度以及所述第二动作的幅度之差，作为动作奖励；

根据所述主奖励和所述动作奖励，计算所述即时奖励。

4.根据权利要求3所述的车辆动作预测方法，其特征在于，所述根据所述车辆状态信息，计算当前车辆状态下执行第一动作后获得的主奖励，包括：

获取所述车辆当前的车速；

根据所述直线距离和所述车辆的车速，计算所述主奖励。

5.根据权利要求4所述的车辆动作预测方法，其特征在于，所述根据所述主奖励和所述动作奖励，计算所述即时奖励，包括：

6.根据权利要求1所述的车辆动作预测方法，其特征在于，所述根据所述多个样本四元组和所述每张样本状态图对应的车辆动作真实值，训练预设的车辆神经网络，得到车辆动作预测模型，包括：

7.一种车辆动作预测装置，其特征在于，所述车辆动作预测装置包括：

预测单元，用于根据所述车辆动作预测模型预测车辆动作；

所述根据所述样本状态图构建多个样本四元组，包括：

从所述多张样本状态图中分别提取车辆状态信息；

8.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至6中任一项所述的车辆动作预测方法。

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的车辆动作预测方法中的步骤。