CN114543831A

CN114543831A - 基于驾驶风格的路径规划方法、装置、设备及存储介质

Info

Publication number: CN114543831A
Application number: CN202210404091.XA
Authority: CN
Inventors: 王济宇; 张晟东; 焦家辉; 张立华; 李志建; 蔡维嘉; 邓涛; 何昊名; 古家威; 李伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-05-27
Anticipated expiration: 2042-04-18
Also published as: CN114543831B

Abstract

本发明涉及智能导航技术领域，具体公开了一种基于驾驶风格的路径规划方法、装置、设备及存储介质，其中，方法包括以下步骤：获取全局路径信息、车辆位置信息及驾驶风格类型；建立深度神经网络模型；生成多条形状不同的备选局部路径信息；选择一条备选局部路径信息作为试探执行路径；跟踪试探执行路径，并根据驾驶风格类型评价试探执行路径以生成反馈奖励信息；利用时序差分采样法根据反馈奖励信息更新深度神经网络模型；输出深度神经网络模型作为期望驾驶风格模型以进行路径规划。该方法获取的期望驾驶风格模型更加贴近人类的驾驶习惯、倾向，并有效提高了模型的训练和收敛速度。

Description

基于驾驶风格的路径规划方法、装置、设备及存储介质

技术领域

本申请涉及智能导航技术领域，具体而言，涉及一种基于驾驶风格的路径规划方法、装置、设备及存储介质。

背景技术

随着汽车产业的快速发展和汽车保有量的不断攀升，自动驾驶技术飞速发展，各大车企在该领域争相竞逐。

现有的车辆智能路径生成方法一般仅能生成整体规划的全局路径，也有一些做法能根据传感器数据生成避障移动路径，但这些路径均未能结合驾驶员自身的驾驶习惯等信息进行匹配调节，最多只提出了贴合路面情况的最优路径方案，无法满足用户使用需求。

针对上述问题，目前尚未有有效的技术解决方案。

发明内容

本申请的目的在于提供一种基于驾驶风格的路径规划方法、装置、设备及存储介质，使期望驾驶风格模型更加贴近人类的驾驶习惯、倾向。

第一方面，本申请提供了一种基于驾驶风格的路径规划方法，用于规划车辆行驶路径，所述方法包括以下步骤：

获取全局路径信息、车辆位置信息及驾驶风格类型；

根据本车信息、环境信息、交通信息组成的特征向量建立深度神经网络模型；

根据所述全局路径信息和所述车辆位置信息生成多条形状不同的备选局部路径信息；

根据贪心策略选择一条所述备选局部路径信息作为试探执行路径；

跟踪所述试探执行路径，并根据所述驾驶风格类型评价所述试探执行路径以生成反馈奖励信息；

利用时序差分采样法根据所述反馈奖励信息更新所述深度神经网络模型的价值函数，以使所述深度神经网络模型逐步收敛；

在所述深度神经网络模型收敛或所述深度神经网络模型达到最大学习步长时，输出所述深度神经网络模型作为期望驾驶风格模型以进行路径规划。

本申请的一种基于驾驶风格的路径规划方法，通过设计深度神经网络模型，然后根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息，使得该深度神经网络模型根据贪心策略和时序差分采样法选择备选局部路径信息以逐步更新深度神经网络模型，在更新过程中利用驾驶风格类型评价试探执行路径以生成用于更新该深度神经网络模型的反馈奖励信息，使得最终深度神经网络模型收敛，在决策过程中考虑了驾驶风格类型的特点，即将驾驶风格类型评价标准添加到强化学习中，使期望驾驶风格模型拟人化，更加贴近人类的驾驶习惯、倾向。

所述的一种基于驾驶风格的路径规划方法，其中，所述本车信息包括本车外形尺寸参数和本车动力学参数；所述环境信息包括本车所在道路特征参数信息；所述交通信息包括本车状态信息和本车与周边交通参与者的关系信息。

所述的一种基于驾驶风格的路径规划方法，其中，所述根据所述全局路径信息和所述车辆位置信息生成多条形状不同的备选局部路径信息的步骤包括：

根据所述全局路径信息获取所述备选局部路径信息的朝向信息；

根据所述车辆位置信息获取所述备选局部路径信息的起点信息；

基于预设的曲线模型结合所述朝向信息及所述起点信息生成多条形状不同的所述备选局部路径信息。

该示例的方法采用基于预设的曲线模型结合所述朝向信息及所述起点信息生成多条形状不同的所述备选局部路径信息的做法，能使训练出来的期望驾驶风格模型适应性更强并能作出更合适的路径决策。

所述的一种基于驾驶风格的路径规划方法，其中，所述根据贪心策略选择一条所述备选局部路径信息作为试探执行路径的步骤包括：

根据所述深度神经网络模型计算每条所述备选局部路径信息的选取概率；

基于所述选取概率根据所述贪心策略概率性地选择对应价值函数最大的备选局部路径信息作为试探执行路径。

所述的一种基于驾驶风格的路径规划方法，其中，所述跟踪所述试探执行路径，并根据所述驾驶风格类型评价所述试探执行路径以生成反馈奖励信息的步骤包括：

获取所述驾驶风格类型的车辆横向特征和车辆纵向特征；

根据所述车辆横向特征和所述车辆纵向特征建立反馈评价函数；

跟踪所述试探执行路径，并利用所述反馈评价函数评价所述试探执行路径生成反馈奖励信息。

在该示例的方法中，反馈奖励信息表征了试探执行路径的驾驶风格类型与确定的驾驶风格类型之间的特征差异性，两者越接近即表明该驾驶风格类型更倾向选择该试探执行路径进行行驶，故反馈奖励值更高，反之反馈奖励值更低。

所述的一种基于驾驶风格的路径规划方法，其中，所述车辆横向特征包括：车辆与道路中心线平均距离、车辆与道路中心线距离标准差、方向盘角速度的标准差、横向加速度的最大值和横向加速度的标准差；

所述车辆纵向特征包括：纵向加速度的最大值和纵向加速度的标准差。

所述的一种基于驾驶风格的路径规划方法，其中，所述跟踪所述试探执行路径，并利用所述反馈评价函数评价所述试探执行路径生成反馈奖励信息的步骤包括：

跟踪所述试探执行路径，按照预设的采样频率在所述试探执行路径上设定采样点；

在各所述采样点利用所述反馈评价函数评价所述试探执行路径，生成相应的所述反馈奖励信息。

在价值函数的更新过程中，该示例的方法引入根据驾驶风格类型评价获取的反馈奖励信息，能使符合该驾驶风格类型的备选局部路径信息对应的价值函数更高，使得训练后的深度神经网络模型更倾向于选择这些备选局部路径信息，以贴近人类的驾驶习惯、倾向。

第二方面，本申请还提供了一种基于驾驶风格的路径规划装置，用于规划车辆行驶路径，所述装置包括：

获取模块，用于获取全局路径信息、车辆位置信息及驾驶风格类型；

建模模块，用于根据本车信息、环境信息、交通信息组成的特征向量建立深度神经网络模型；

路径生成模块，用于根据所述全局路径信息和所述车辆位置信息生成多条形状不同的备选局部路径信息；

策略模块，用于根据贪心策略选择一条所述备选局部路径信息作为试探执行路径；

反馈模块，用于跟踪所述试探执行路径，并根据所述驾驶风格类型评价所述试探执行路径以生成反馈奖励信息；

更新模块，用于利用时序差分采样法根据所述反馈奖励信息更新所述深度神经网络模型的价值函数，以使所述深度神经网络模型逐步收敛；

输出模块，用于在所述深度神经网络模型收敛或所述深度神经网络模型达到最大学习步长时，输出所述深度神经网络模型作为期望驾驶风格模型以进行路径规划。

本申请的一种基于驾驶风格的路径规划装置，通过设计深度神经网络模型，并在深度神经网络模型更新过程中利用驾驶风格类型评价试探执行路径以生成用于更新该深度神经网络模型的反馈奖励信息，使得最终深度神经网络模型收敛，在决策过程中考虑了驾驶风格类型的特点，使期望驾驶风格模型拟人化，更加贴近人类的驾驶习惯、倾向；其次，在深度神经网络模型学习过程中，根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息供该深度神经网络模型进行决策，使得强化学习所需的训练参数维度降低，有效提高了模型的训练和收敛速度。

第三方面，本申请还提供了一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

由上可知，本申请提供了一种基于驾驶风格的路径规划方法、装置、设备及存储介质，其中，方法在深度神经网络模型更新过程中利用驾驶风格类型评价试探执行路径以生成用于更新该深度神经网络模型的反馈奖励信息，在决策过程中考虑了驾驶风格类型的特点，使期望驾驶风格模型更加贴近人类的驾驶习惯、倾向；其次，在深度神经网络模型学习过程中，根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息供该深度神经网络模型进行决策，使得强化学习所需的训练参数维度降低，有效提高了模型的训练和收敛速度。

附图说明

图1为本申请实施例提供的基于驾驶风格的路径规划方法的流程图。

图2为一种双阶段曲线模型的构造示意图。

图3为多条备选局部路径信息的设计示意图。

图4为本申请实施例提供的基于驾驶风格的路径规划装置的结构示意图。

图5为本申请实施例提供的电子设备的结构示意图。

附图标记：201、获取模块；202、建模模块；203、路径生成模块；204、策略模块；205、反馈模块；206、更新模块；207、输出模块；301、处理器；302、存储器；303、通信总线。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

车辆行驶路径生成决策与规划作为新一代智能网联汽车的最核心功能，总体上有三种解决方案：基于逻辑与规则的规划，端对端深度网络学习和强化学习。

其中，基于逻辑与规则的方法由人手工建模，场景切换时往往要重新定义模型与添加约束，可拓展性相对较差。

端对端深度网络以大量的专家数据作为驱动，模糊了决策、规划与跟踪模块的界限，将摄像头、雷达的传感器信息经过网络后，直接输出指令给车辆执行层，但也存在数据采集困难、模型可解释性差等缺点。

强化学习作为一种模拟人类学习过程，将智能体放在环境中不断探索尝试与强化记忆的算法，一定程度上提高了规划决策的智能水平上限，与深度学习相比较，它并不需要带有标签的数据，在陌生环境在中适应性强。

本申请实施例提供的基于驾驶风格的路径规划方法、装置、设备及存储介质采用的是强化学习的车辆行驶路径生成决策，以将人-车-路等多种要素融为一体进行路径规划。

第一方面，请参照图1-图3，图1-图3是本申请一些实施例中的一种基于驾驶风格的路径规划方法，用于规划车辆行驶路径，方法包括以下步骤：

S1、获取全局路径信息、车辆位置信息及驾驶风格类型；

具体地，全局路径信息为当前车辆的总的导航路径，可以是人为设定的，也可以是根据现有的导航软件自动生成，还可以是根据当前路网信息规划生成；在本实施例中，该全局路径信息优选为根据路网信息规划出的全局静态导航路径，且优选为基于OpenDrive格式的高精度地图进行生成。

具体地，车辆位置信息为当前车辆所在的位置信息，能通过车辆定位传感器采集生成，车辆定位传感器包括但不限于GPS、IMU、激光雷达、V2V和V2R中的一种或多种，利用这些车辆定位传感器能精确完成车辆定位以获取车辆位置信息。

具体地，驾驶风格类型为车辆行驶的移动习惯，用于描述车辆行驶时针对一些具体路况对于驾驶操作的倾向性选择。

更具体地，在本申请实施例中，驾驶风格类型主要包括较保守多跟车型、正常型和较激进易超车型三种，较保守多跟车型的驾驶风格类型为倾向与车保持一定距离进行跟随驾驶的操作类型，较激进易超车型的驾驶风格类型为倾向在限速范围内尽可能超过车速低于限速的车辆进行驾驶的操作类型，正常型的驾驶风格类型为倾向保持车道不变进行驾驶的操作类型；三种驾驶风格类型均有各自倾向的驾驶逻辑，与人类驾驶风格分类较为接近。

更具体地，在别的实施例中，还可以对上述的驾驶风格类型进行更细节的分类，如将较保守多跟车型分为快车道跟车型和慢车道跟车型等，驾驶风格类型不限于上述的分类方式，可根据实际使用需求和模拟需求按照驾驶行为的倾向性进行分类。

S2、根据本车信息、环境信息、交通信息组成的特征向量建立深度神经网络模型；

具体地，根据本车信息、环境信息、交通信息组成的特征向量后，通过输入特征向量的维度定义深度神经网络模型的输入维度，输入驾驶行为的种类（即关于输出路径的选择结果）定义深度神经网络模型的输出维度，再定义深度神经网络模型的中间层以完成深度神经网络模型的构建。

更具体地，建立深度神经网络模型后需要随机初始化整个深度神经网络模型，确保该深度神经网络模型能正常启用。

S3、根据全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息；

具体地，车辆位置信息表征了当前车辆在道路上的具体位置，全局路径信息表征了车辆要达到具体目的地的道路延伸方向。

更具体地，局部备选路径信息为当前车辆在道路中可选的行驶车道路径，即沿全局路径信息指向的道路中可选的具体移动路径，即形状不同的备选局部路径信息表征了车辆在当前道路中可选的不同具体移动路径。

S4、根据贪心策略选择一条备选局部路径信息作为试探执行路径；

具体地，贪心策略为深度神经网络模型的决策手段，能根据当前深度神经网络模型的状态来抉择动作，在本申请实施例中，选择备选局部路径信息为深度神经网络模型的抉择动作行为。

S5、跟踪试探执行路径，并根据驾驶风格类型评价试探执行路径以生成反馈奖励信息；

具体地，在车辆行驶过程中，不同驾驶风格类型驾驶方式会使得车辆具有不同特点的行驶路径，因此，在深度神经网络模型选取试探执行路径后，本申请实施例的方法能根据步骤S1获取的驾驶风格类型的特点评价该试探执行路径是否符合该驾驶风格类型的驾驶倾向，其中，该驾驶风格类型的预期行驶路径与该试探执行路径越相似则能生成更高的反馈奖励信息，越不相似则生成更低的反馈奖励信息；其中，反馈奖励信息可以是正值，也可以是负值。

更具体地，试探执行路径为车辆尚未行驶的路径，跟踪试探执行路径相当于模拟车辆行驶该路径，即相当于产生了车辆行驶试探执行路径的后继状态，生成的反馈奖励信息为假定车辆行驶该路径时产生的评价结果，故该反馈奖励信息属于后继状态的反馈奖励信息。

S6、利用时序差分采样法根据反馈奖励信息更新深度神经网络模型的价值函数，以使深度神经网络模型逐步收敛；

具体地，时间差分方采样法（TD法）结合了蒙特卡罗的采样方法和动态规划方法的bootstrapping算法(利用后继状态的价值函数估计当前值函数的算法)更新深度神经网络模型，具有更新速度快的特点。

更具体地，本申请实施例结合步骤S4选择的试探执行路径，然后利用步骤S5的试探执行路径，生成后继状态的反馈奖励信息和后继状态以利用步骤S6的时序差分采样法更新深度神经网络模型的价值函数，以逐步更新深度神经网络模型，使得深度神经网络模型逐步收敛，获取当前价值最大的抉择；其中，在价值函数的更新过程中，后继状态的反馈奖励信息为时序差分采样法的奖励信息，使得该深度神经网络模型逐步收敛为匹配于驾驶风格类型的抉择模型。

S7、在深度神经网络模型收敛或深度神经网络模型达到最大学习步长时，输出深度神经网络模型作为期望驾驶风格模型以进行路径规划。

具体地，在深度神经网络模型更新过程中，应当理解为重复执行步骤S4-S6以持续进行强化学习直至深度神经网络模型收敛或深度神经网络模型达到最大学习步长结束当前强化学习过程，深度神经网络模型收敛表明了当前模型输出的路径为最贴合该驾驶风格类型的行驶路径；深度神经网络模型达到最大学习步长表明该深度神经网络模型达学习率达到最大值，当前模型输出的路径也为最贴合该驾驶风格类型的行驶路径。

本申请实施例的一种基于驾驶风格的路径规划方法，通过设计深度神经网络模型，然后根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息，使得该深度神经网络模型根据贪心策略和时序差分采样法选择备选局部路径信息以逐步更新深度神经网络模型，在更新过程中利用驾驶风格类型评价试探执行路径以生成用于更新该深度神经网络模型的反馈奖励信息，使得最终深度神经网络模型收敛，在决策过程中考虑了驾驶风格类型的特点，即将驾驶风格类型评价标准添加到强化学习中，使期望驾驶风格模型拟人化，更加贴近人类的驾驶习惯、倾向。

另外，本申请实施例的一种基于驾驶风格的路径规划方法，在深度神经网络模型学习过程中，根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息供该深度神经网络模型进行决策，使得强化学习所需的训练参数维度降低，有效提高了模型的训练和收敛速度。

在一些优选的实施方式中，本车信息用于表征当前驾驶车辆的基础参数和运行参数的数据信息，包括本车外形尺寸参数和本车动力学参数；

环境信息用于表征当前驾驶车辆所在区域的固有特性信息，包括本车所在道路特征参数信息，如道路宽度、直线度、车道数量及车道宽度等；

交通信息用于表征当前驾驶车辆与外部其他运动物体的关系信息，主要针对与其他在道路上行驶的车辆的关系信息，包括本车状态信息和本车与周边交通参与者的关系信息，其中，本车状态信息包括本车在车道中的位置、朝向及运动方向等信息，本车与周边交通参与者的关系信息包括本车与其他附近交通参与者的相对位置、相对位移速度等信息。

具体地，特征向量为深度神经网络模型的输入源，在深度神经网络模型建立后，通过获取上述这些参数的值并转换为能表征当前外界信息的实际特征向量，供给深度神经网络模型进行深度学习以做出合适的决策。

具体地，本车参数中本车外形尺寸参数能通过预先输入或获知车型后从数据库中提取，本车动力学参数能通过与车辆自身的控制器通讯获取。

具体地，道路特征参数信息能通过结合全局路径信息和车辆位置信息分析获取，或根据车辆位置信息从互联网中获取。

具体地，交通信息表征了车辆对外界信息的感知能力，能通过一些搭载在车辆的传感器并结合相应的通讯手段进行获取，本申请实施例中的方法优选以车路协同系统获取交通信息，该系统以车辆和道路为主体，依托先进的通讯技术为媒介，再结合计算机技术、数据处理技术等，让道路交通基础设施与车辆进行数据交互，达到信息共享的目的，使得每个车辆个体均能获取整个路面的交通信息，具有感知盲区更小、范围覆盖全面、信息精度高的特点。

更具体地，车路协同系统精一般包含智能路侧系统，该系统包括摄像头、毫米波雷达、边缘计算设备和设置在车辆上的车载处理器（VCU），车载处理器能进行自身感知以及与其他设备进行通讯，能获取准确的交通信息。

在一些优选的实施方式中，根据全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息的步骤包括：

S31、根据全局路径信息获取备选局部路径信息的朝向信息；

具体地，全局路径信息为全局静态导航路径，故可以理解为一条拟合的用于指导车辆移动到终点的线段，由此，全局路径信息可用于指示车辆的移动朝向，该移动朝向可指导或限定备选局部路径信息的朝向，从而确定备选局部路径的朝向信息。

S32、根据车辆位置信息获取备选局部路径信息的起点信息；

具体地，备选局部路径信息为当前车辆在道路中可选的行驶车道路径，因此，备选局部路径信息的起点为车辆当前所在位置，获取车辆位置信息便能直接确定备选局部路径信息的起点信息。

S33、基于预设的曲线模型结合朝向信息及起点信息生成多条形状不同的备选局部路径信息。

具体地，在确定备选局部路径信息的起点信息和朝向信息后，将起点信息和朝向信息投入预设的曲线模型中，并调整曲线模型的参数值便能生成多条形状不同、起点相同、朝向相关的备选局部路径信息，这些备选局部路径信息均是车辆在实际移动中在路面可选的移动路径。

更具体地，设置不同的曲线模型可生成不同形状的备选局部路径信息，如设计双阶段曲线模型可以生成多条向外扩散展开的备选局部路径信息，又如设计三阶段曲线模型可以生成多条向外扩散最后回归一起的备选局部路径信息。

更具体地，在本申请实施例中，曲线模型优选为双阶段曲线模型，这种曲线模型生成的备选局部路径信息与车辆切换车道的驾驶轨迹相似，更贴合实际驾驶，且实际车辆行驶的轨迹可以由多个曲线模型生成的备选局部路径信息组合而成，如车辆A从车辆B正后方超车至车辆B的正前方，则车辆A产生了两次变道行为，该移动轨迹可以由两条首尾连接的双阶段曲线组成，即两条不同时刻产生的备选局部路径信息能构成一致的轨迹，本申请实施例的方法采用的双阶段曲线模型具有结构简单、适用性广的特点，能使训练出来的期望驾驶风格模型适应性更强，并能作出更合适的路径决策。

更具体地，双阶段曲线模型为SN坐标系的双阶段表达式，该表达式为：

（1）

如图2所示，为式（1）生成的一条曲线，s为曲线点的S轴坐标，s _i为本车所在的S轴坐标，s _f为第一阶段和第二阶段的临界点，s _e为曲线在S轴方向延伸的最大距离，定义△s=s- s _i，q _i为车辆所在的N轴坐标，θ _i为备选局部路径信息的起始偏移角度，q _f为曲线偏移全局路径信息的距离，a、b、c均为代价系数；通过设定不同的a、b、c、q _f 、s _f 、s _e便能获取形态各异的不同的曲线，且这些曲线第二阶段为相互平行的直线段；根据朝向信息和起点信息调整这些曲线的位置和朝向，即将坐标（s _i ,q _i）调整为与起点信息重合，将s _f至s _e段直线调整为与朝向信息平行，便能获取图3所示的多条备选局部路径信息。

在一些优选的实施方式中，根据贪心策略选择一条备选局部路径信息作为试探执行路径的步骤包括：

S41、根据深度神经网络模型计算每条备选局部路径信息的选取概率；

具体地，根据深度神经网络模型向前传递（向前传播），计算每条备选局部路径信息的选取概率，选取不同的备选局部路径信息代表了不同的驾驶行为，该选取概率为根据深度神经网络模型最后一层的softmax函数计算获得。

S42、基于选取概率根据贪心策略概率性地选择对应价值函数最大的备选局部路径信息作为试探执行路径。

具体地，贪心策略即ε-greedy策略，为动作价值(action values)期望最大化的选择策略，能迅速作出动作价值大的决策，利于深度神经网络模型进行快速收敛。

更具体地，贪心策略表示在智能体做决策时，有一很小的正数 ϵ ( < 1 )的概率随机选择未知的一个动作，剩下 1 − ϵ的概率选择已有动作中动作价值最大的动作。

在一些优选的实施方式中，跟踪试探执行路径，并根据驾驶风格类型评价试探执行路径以生成反馈奖励信息的步骤包括：

S51、获取驾驶风格类型的车辆横向特征和车辆纵向特征；

具体地，驾驶风格类型用于大概描述驾驶风格的倾向性，在本申请实施例中，需结合具体的车辆横向特征和车辆纵向特征进行描述，以从参数或特征值的角度明确区分不同驾驶风格类型。

S52、根据车辆横向特征和车辆纵向特征建立反馈评价函数；

具体地，不同驾驶风格类型具有不同的车辆横向特征和车辆纵向特征，由于驾驶风格类型在步骤S1中已经确认，故能获取该类驾驶风格类型的具体的确定的车辆横向特征和车辆纵向特征，根据这些确定的车辆横向特征和车辆纵向特征建立的反馈评价函数，能根据当前选择的备选局部路径信息的车辆横向特征和车辆纵向特征与由驾驶风格类型确定的车辆横向特征和车辆纵向特征进行比较，获取前者与后者之间的差异性。

更具体地，步骤S52建立的反馈评价函数为基于步骤S51获取的车辆横向特征和车辆纵向特征进行建立的，即运用该反馈评价函数能计算当前选择的备选局部路径信息的车辆横向特征和车辆纵向特征与由驾驶风格类型确定的车辆横向特征和车辆纵向特征之间的差异性，在本实施例中，并限定反馈评价函数的类型，只要是能反映两种数据的差值函数均能采用，如方差、标准差、均方差等函数。

S53、跟踪试探执行路径，并利用反馈评价函数评价试探执行路径生成反馈奖励信息。

具体地，利用反馈评价函数评价试探执行路径生成反馈奖励信息的过程为将当前选择的备选局部路径信息的车辆横向特征代入反馈评价函数中进行计算，得出的结果值即为反馈奖励信息。

具体地，该反馈奖励信息表征了试探执行路径的驾驶风格类型与确定的驾驶风格类型之间的特征差异性，两者越接近即表明该驾驶风格类型更倾向选择该试探执行路径进行行驶，故反馈奖励信息更高，反之反馈奖励信息更低。

在一些优选的实施方式中，利用反馈评价函数评价试探执行路径生成反馈奖励信息的过程还设有碰撞惩罚机制，由于备选局部路径信息是基于曲线模型生成的，实际使用时可能会出现与车道边缘及其他车辆碰撞的路径，在步骤S53评价这类试探执行路径时，发现试探执行路径与车道或车辆产生碰撞则生成惩罚信息以降低该反馈奖励信息，降低该决策的价值函数进而降低选取这些备选局部路径的选取概率或减少这些备选局部路径的生成概率。

在一些优选的实施方式中，车辆横向特征包括：车辆与道路中心线平均距离、车辆与道路中心线距离标准差、方向盘角速度的标准差、横向加速度的最大值和横向加速度的标准差；

车辆纵向特征包括：纵向加速度的最大值和纵向加速度的标准差。

具体地，将车辆横向特征和车辆纵向特征细分上述这些依赖传感器或计算可得的具体参数值，能建立更加精准的反馈评价函数，能更精确地反映试探执行路径与驾驶风格类型的关系。

更具体地，横向纵向可以是以车辆朝向进行区分（如车辆朝向为纵向），也可以是以车道延伸方向进行区分（如车道延伸方向为纵向），在本实施例中，优选为以车辆朝向进行区分。

更具体地，考虑到各个特征指标之间的耦合关联性，对驾驶风格类型的分析（获取驾驶风格类型的车辆横向特征和车辆纵向特征的过程）采用主成分分析法，对上述所有特征进行敏感性分析以降低数据维度，并去除掉相关次要非敏感信息，使得本申请实施例的方法能利用已经标定好的不同风格驾驶员数据，提取前N个主成分，并获取其主成分的均值，以描述该种驾驶风格类型。

在一些优选的实施方式中，跟踪试探执行路径，并利用反馈评价函数评价试探执行路径生成反馈奖励信息的步骤包括：

S531、跟踪试探执行路径，按照预设的采样频率在试探执行路径上设定采样点；

S532、在各采样点利用反馈评价函数评价试探执行路径，生成相应的反馈奖励信息。

具体地，TD法利用后继状态的价值函数估计当前价值函数，故在试探执行路径上设置多个采样点以在一个跟踪过程中使用多段采样信息更新该决策的价值函数，能使该深度神经网络模型更快收敛。

更具体地，TD法采用下式更新价值函数：

Q（S _t ，A _t）←Q（S _t ，A _t）＋α[R _t＋1＋γQ（S _t＋1 ，A _t＋1）－Q（S _t ，A _t）] （2）

其中，S _t为当前状态信息（当前的状态空间），A _t为当前动作信息（即贪婪策略选择试探执行路径这一行为），Q（S _t ，A _t）为当前价值函数，R _t+1为t+1采样点（即相对于当前状态信息的试探执行路径中的第一个采样点）的反馈奖励信息，Q（S _t+1 ，A _t+1）为t+1采样点的价值函数，γ为折现系数，α为迭代系数；由此可见，式（2）中利用t+1采样点的反馈奖励信息和价值函数来更新当前价值函数，即利用后继状态的价值函数估计当前价值函数，从而快速判断该试探执行路径的价值大小，以更新深度神经网络模型，使得深度神经网络模型增大或减小该备选局部路径信息的选择概率；此外，在价值函数的更新过程中，引入根据驾驶风格类型评价获取的反馈奖励信息，能使符合该驾驶风格类型的备选局部路径信息对应的价值函数更高，使得训练后的深度神经网络模型更倾向于选择这些备选局部路径信息，以贴近人类的驾驶习惯、倾向。

第二方面，请参照图4，图4是本申请一些实施例中提供的一种基于驾驶风格的路径规划装置，用于规划车辆行驶路径，装置包括：

获取模块201，用于获取全局路径信息、车辆位置信息及驾驶风格类型；

建模模块202，用于根据本车信息、环境信息、交通信息组成的特征向量建立深度神经网络模型；

路径生成模块203，用于根据全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息；

策略模块204，用于根据贪心策略选择一条备选局部路径信息作为试探执行路径；

反馈模块205，用于跟踪试探执行路径，并根据驾驶风格类型评价试探执行路径以生成反馈奖励信息；

更新模块206，用于利用时序差分采样法根据反馈奖励信息更新深度神经网络模型的价值函数，以使深度神经网络模型逐步收敛；

输出模块207，用于在深度神经网络模型收敛或深度神经网络模型达到最大学习步长时，输出深度神经网络模型作为期望驾驶风格模型以进行路径规划。

本申请实施例的一种基于驾驶风格的路径规划装置，通过设计深度神经网络模型，并在深度神经网络模型更新过程中利用驾驶风格类型评价试探执行路径以生成用于更新该深度神经网络模型的反馈奖励信息，使得最终深度神经网络模型收敛，在决策过程中考虑了驾驶风格类型的特点，使期望驾驶风格模型拟人化，更加贴近人类的驾驶习惯、倾向；其次，在深度神经网络模型学习过程中，根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息供该深度神经网络模型进行决策，使得强化学习所需的训练参数维度降低，有效提高了模型的训练和收敛速度。

第三方面，请参照图5，图5为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器301和存储器302，处理器301和存储器302通过通信总线303和/或其他形式的连接机构（未标出）互连并相互通讯，存储器302存储有处理器301可执行的计算机程序，当计算设备运行时，处理器301执行该计算机程序，以执行时执行上述实施例的任一可选的实现方式中的方法。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

综上，本申请实施例提供了一种基于驾驶风格的路径规划方法、装置、设备及存储介质，其中，方法在深度神经网络模型更新过程中利用驾驶风格类型评价试探执行路径以生成用于更新该深度神经网络模型的反馈奖励信息，在决策过程中考虑了驾驶风格类型的特点，使期望驾驶风格模型更加贴近人类的驾驶习惯、倾向；其次，在深度神经网络模型学习过程中，根据当前全局路径信息和车辆位置信息生成多条形状不同的备选局部路径信息供该深度神经网络模型进行决策，使得强化学习所需的训练参数维度降低，有效提高了模型的训练和收敛速度。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于驾驶风格的路径规划方法，用于规划车辆行驶路径，其特征在于，所述方法包括以下步骤：

获取全局路径信息、车辆位置信息及驾驶风格类型；

2.根据权利要求1所述的一种基于驾驶风格的路径规划方法，其特征在于，所述本车信息包括本车外形尺寸参数和本车动力学参数；所述环境信息包括本车所在道路特征参数信息；所述交通信息包括本车状态信息和本车与周边交通参与者的关系信息。

3.根据权利要求1所述的一种基于驾驶风格的路径规划方法，其特征在于，所述根据所述全局路径信息和所述车辆位置信息生成多条形状不同的备选局部路径信息的步骤包括：

4.根据权利要求1所述的一种基于驾驶风格的路径规划方法，其特征在于，所述根据贪心策略选择一条所述备选局部路径信息作为试探执行路径的步骤包括：

5.根据权利要求1所述的一种基于驾驶风格的路径规划方法，其特征在于，所述跟踪所述试探执行路径，并根据所述驾驶风格类型评价所述试探执行路径以生成反馈奖励信息的步骤包括：

获取所述驾驶风格类型的车辆横向特征和车辆纵向特征；

6.根据权利要求5所述的一种基于驾驶风格的路径规划方法，其特征在于，所述车辆横向特征包括：车辆与道路中心线平均距离、车辆与道路中心线距离标准差、方向盘角速度的标准差、横向加速度的最大值和横向加速度的标准差；

7.根据权利要求5所述的一种基于驾驶风格的路径规划方法，其特征在于，所述跟踪所述试探执行路径，并利用所述反馈评价函数评价所述试探执行路径生成反馈奖励信息的步骤包括：

8.一种基于驾驶风格的路径规划装置，用于规划车辆行驶路径，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一项所述方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一项所述方法中的步骤。