CN117455004A

CN117455004A - 一种车辆自动驾驶模型的智能学习方法及装置

Info

Publication number: CN117455004A
Application number: CN202311229994.XA
Authority: CN
Inventors: 廖律超; 曾界茂; 钟宏景; 邹复民; 王志民; 王峰; 张庆永; 石金进; 熊鎔; 江文霞
Original assignee: Fujian University Of Science And Technology
Current assignee: Fujian University Of Science And Technology
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-26

Abstract

本发明公开一种车辆自动驾驶模型的智能学习方法及装置，通过将当前驾驶场景数据与驾驶策略库进行匹配，得到与当前场景对应的历史驾驶场景数据以及历史模型策略数据，并通过对当前驾驶场景数据以及当前模型策略数据进行分析，分别得到相对驾驶策略评价值以及自身驾驶策略评价值两个方面的评价值，通过评价值对车辆行驶策略Loss值判断当前驾驶策略的优劣，并基于当前模型策略数据以及车辆行驶策略Loss值进行模型训练，所得到的模型能够在训练场景中实现决策最优从而实现车辆评估虚拟驾驶员控制策略的优劣，以及通过将训练结果上传所述驾驶策略库将学习到的驾驶经验推广，使得车辆能够在线自主学习多风格驾驶经验。

Description

一种车辆自动驾驶模型的智能学习方法及装置

技术领域

本发明涉及智能驾驶技术领域，特别是涉及一种车辆自动驾驶模型的智能学习方法及装置。

背景技术

目前，自动驾驶技术已经在全球范围内得到了广泛的应用。其中，基于深度学习的自动驾驶技术尤为突出。但利用深度学习训练可靠的自动驾驶方法需要大量数据才能得以进行，并且用于深度学习方法训练的数据集会极大地影响着自动驾驶算法的性能。

然而，传统的自动驾驶数据采集方法采集到的驾驶数据主要包含车辆、环境和驾驶员相关数据。但这些数据由于缺乏数据标记，难以计算其损失函数的值(Lose值)，因而难以适用基于深度学习的自动驾驶模型学习，而采用人工标记的方法，耗时且成本高，往往导致样本覆盖面有限，难以采集“长尾场景”等小概率事件的样本数据。同时，现有技术中还通过单车辆与车辆车载智能驾驶系统之间的驾驶决策的对比来收集数据并进行仿真从而实现学习人类的驾驶经验。但该方式局限于单车辆学习，单车辆学习到的经验并不能推广。并且该方法还需要通过仿真才能得以进行，无法完全做到车辆自主学习。

发明内容

本发明所要解决的技术问题是：提供一种车辆自动驾驶模型的智能学习方法及装置，能够在线自主学习多风格人类驾驶经验。

为了解决上述技术问题，本发明采用的技术方案为：

一种车辆自动驾驶模型的智能学习方法，包括：

获取当前驾驶场景数据以及当前模型策略数据；

将所述当前驾驶场景数据与驾驶策略库进行匹配，得到与所述当前驾驶场景数据对应的历史驾驶场景数据以及历史模型策略数据；

通过所述历史模型策略数据对所述当前模型策略数据进行分析，得到相对驾驶策略评价值；

根据所述相对驾驶策略评价值与目标值计算车辆行驶策略Loss值；

通过所述当前模型策略数据以及所述车辆行驶策略Loss值进行模型训练，并将训练结果上传所述驾驶策略库。

为了解决上述技术问题，本发明采用的另一技术方案为：

一种车辆自动驾驶模型的智能学习装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的一种车辆自动驾驶模型的智能学习方法的各个步骤。

本发明的有益效果在于：通过在车辆驾驶过程中获取当前驾驶场景数据后，将当前驾驶场景数据与存储有大量驾驶数据的驾驶策略库进行匹配，得到与当前场景对应的历史驾驶场景数据以及历史模型策略数据，并通过将当前驾驶场景数据与历史驾驶场景数据进行分析，以及将当前模型策略数据与历史模型策略数据进行分析，得到相对驾驶策略评价值，最终再通过计算相对驾驶策略评价值以及目标值对应的车辆行驶策略Loss值(损失函数的值)判断当前驾驶策略的优劣，并基于当前模型策略数据以及车辆行驶策略Loss值进行模型训练，所得到的模型能够在训练场景中实现决策最优从而实现车辆评估虚拟驾驶员控制策略的优劣，以及通过将训练结果上传所述驾驶策略库将学习到的驾驶经验推广，使得车辆能够在线自主学习多风格驾驶经验。

附图说明

图1为本发明实施例中的一种车辆自动驾驶模型的智能学习方法的步骤流程图；

图2为本发明实施例中的一种车辆自动驾驶模型的智能学习方法的另一步骤流程图；

图3为本发明实施例中的一种车辆自动驾驶模型的智能学习方法中静态分析示意图；

图4为本发明实施例中的一种车辆自动驾驶模型的智能学习方法中动态分析示意图；

图5为本发明实施例中的一种车辆自动驾驶模型的智能学习装置的结构示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，一种车辆自动驾驶模型的智能学习方法，包括：

获取当前驾驶场景数据以及当前模型策略数据；

根据所述相对驾驶策略评价值以及目标值计算车辆行驶策略Loss值；

由上述描述可知，本发明的有益效果在于：通过在车辆驾驶过程中获取当前驾驶场景数据后，将当前驾驶场景数据与存储有大量驾驶数据的驾驶策略库进行匹配，得到与当前场景对应的历史驾驶场景数据以及历史模型策略数据，并通过将当前驾驶场景数据与历史驾驶场景数据进行分析，以及将当前模型策略数据与历史模型策略数据进行分析，得到相对驾驶策略评价值，最终再通过计算相对驾驶策略评价值以及目标值对应的车辆行驶策略Loss值判断当前驾驶策略的优劣，并基于当前模型策略数据以及车辆行驶策略Loss值进行模型训练，所得到的模型能够在训练场景中实现决策最优从而实现车辆评估虚拟驾驶员控制策略的优劣，以及通过将训练结果上传所述驾驶策略库将学习到的驾驶经验推广，使得车辆能够在线自主学习多风格驾驶经验。

进一步地，所述当前模型策略数据包括车辆速度以及车辆方向盘偏转角度；

通过所述历史模型策略数据对所述当前模型策略数据进行分析，得到相对驾驶策略评价值包括：

根据所述历史模型策略数据对所述车辆速度进行正态分布分析，得到车辆速度分布值；以及根据所述历史模型策略数据对所述车辆方向盘偏转角度进行正态分布分析，得到车辆方向盘偏转角度分布值；

分别对所述车辆速度分布值以及车辆方向盘偏转角度分布值进行归一化处理，得到车辆速度归一值以及车辆方向盘偏转角度归一值；

根据所述车辆速度归一值以及车辆方向盘偏转角度归一值得到所述相对驾驶策略评价值。

由上述描述可知，基于历史模型策略数据分别对车辆速度以及车辆方向盘偏转角度进行正态分布分析，得到对应的车辆速度分布值以及车辆方向盘偏转角度分布值作为车辆驾驶策略的判断标准，再通过归一化处理将车辆速度分布值以及车辆方向盘偏转角度分布值，从而得到统一整合的相对驾驶策略评价值，更适用于对驾驶策略的优劣进行判断。

进一步地，所述根据所述历史模型策略数据对所述车辆速度进行正态分布分析，得到车辆速度分布值包括：

根据所述历史模型策略数据生成车辆速度正态分布参数；

根据所述车辆速度正态分布参数得到车辆速度正态分布函数；

根据所述车辆速度以及所述车辆速度正态分布函数得到所述车辆速度分布值。

由上述描述可知，基于历史模型策略数据得到对应的车辆速度正态分布函数，并根据车辆速度正态分布函数对当前的车辆速度进行分析，将当前的车辆速度与历史数据中该场景下的车辆速度进行对比，从而分析得到当前的车辆速度对应的分布值，即得到与历史车辆平均速度之间的偏差程度，进而有效判断当前驾驶策略的优劣。

进一步地，所述根据所述历史模型策略数据对所述车辆方向盘偏转角度进行正态分布分析，得到车辆方向盘偏转角度分布值包括：

根据所述历史模型策略数据生成车辆方向盘偏转角度正态分布参数；

根据所述车辆方向盘偏转角度正态分布参数得到车辆方向盘偏转角度正态分布函数；

根据所述车辆方向盘偏转角度以及所述车辆方向盘偏转角度正态分布函数得到所述车辆方向盘偏转角度分布值。

由上述描述可知，基于历史模型策略数据得到对应的车辆方向盘偏转角度正态分布函数，并根据车辆方向盘偏转角度正态分布函数对当前的车辆方向盘偏转角度进行分析，将当前的车辆方向盘偏转角度与历史数据中该场景下的车辆方向盘偏转角度进行对比，从而分析得到当前的车辆方向盘偏转角度对应的分布值，即得到与历史车辆方向盘偏转角度之间的偏差程度，进而有效判断当前驾驶策略的优劣。

进一步地，所述当前驾驶场景数据包括车身信息以及前车信息；

所述通过所述历史模型策略数据对所述当前模型策略数据进行分析，得到相对驾驶策略评价值还包括：

根据所述当前驾驶场景数据以及所述历史驾驶场景数据确定车道信息；

根据所述车道信息以及车身信息得到静态评价值；

根据所述前车信息以及车辆速度得到动态评价值；

根据所述静态评价值以及动态评价值得到自身驾驶策略评价值；

根据所述自身驾驶策略评价值更新所述相对驾驶策略评价值。

由上述描述可知，通过当前驾驶场景数据以及历史驾驶场景数据确定车道信息后，基于车道信息以及车身信息得到静态评价值，以及基于前车信息以及车辆速度得到动态评价值，即分别考虑车辆的静态驾驶情况和动态驾驶情况，并通过静态评价值以及动态评价值得到自身驾驶策略评价值，从而基于自身驾驶策略评价值能够有效的对车辆驾驶状态优劣进行判断。

进一步地，所述车道信息包括车道宽度；所述车身信息包括车身宽度；

所述根据所述车道信息以及车身信息得到静态评价值包括：

根据所述车道宽度以及所述车身宽度得到车辆与车道之间的最短距离；

根据所述最短距离与所述车道宽度之间的比值得到所述静态评价值。

由上述描述可知，基于车道宽度、车身宽度以及车辆与车道之间的最短距离对车辆的静态驾驶情况进行分析，从而得到车辆与当前车道之间的静态关系，并通过两者之间的间距判断当前驾驶策略的优劣，实现对车辆与车道之间的静态分析。

进一步地，所述前车信息包括前车车距；

所述根据所述前车信息以及车辆速度得到动态评价值包括：

根据所述车辆速度得到安全车距；

根据所述前车车距与所述安全车距之间的比值得到所述动态评价值。

由上述描述可知，通过车辆速度得到安全车距，并将当前车辆对应的安全车距与前车车距进行对比，从而得到当前车辆与前车之间的动态关系，实现对车辆的动态分析。

进一步地，所述根据所述自身驾驶策略评价值更新所述相对驾驶策略评价值包括：

根据所述相对驾驶策略评价值以及自身驾驶策略评价值得到加权驾驶策略评价值；

所述根据所述相对驾驶策略评价值与目标值计算车辆行驶策略Loss值包括：

根据所述加权驾驶策略评价值计算所述车辆行驶策略Loss值，具体的：

其中，m表示样本数，h_θ表示网络处理函数(即上述评价体系处理模型)，x⁽ⁱ⁾表示第i个驾驶策略样本，V_max表示目标值(即策略优劣评价最大值，作为实施例，可设置成100)，λ表示正则化项权重因子，θ_j表示第j个正则化系数，n表示正则化系数的数量(即模型参数的总数量)。

由上述描述可知，通过对相对驾驶策略评价值以及自身驾驶策略评价值进行加权计算得到加权驾驶策略评价值，从而能够根据不同场景调整权重值，使得加权驾驶策略评价值更加贴合当前场景，得到更加精确的学习数据。

本发明另一实施例提供一种车辆自动驾驶模型学习装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的一种车辆自动驾驶模型的智能学习方法的各个步骤。

本发明提供的车辆自动驾驶模型的智能学习方法及装置，能够适用于自动驾驶车辆场景，通过在启动车辆时同时启动车辆的智能驾驶系统，使得车辆在行驶过程中能够智能驾驶系统对驾驶员的驾驶策略进行评估并学习，以下通过具体实施方式进行说明：

实施例一

请参照图1以及图2，一种车辆自动驾驶模型的智能学习方法，包括：

S0、真实驾驶员在行驶前启动车辆，同时启动车辆的智能驾驶系统，即启动虚拟驾驶员，并设置真实驾驶员的驾驶决策与虚拟驾驶员做出的驾驶决策互不影响，即车辆的行驶决策完全由真实驾驶员控制，虚拟驾驶员做出的驾驶决策只用于记录；真实驾驶员仅提供相应驾驶场景，目的是为了实现在真实驾驶员的驾驶过程中对应的驾驶场景下，对虚拟驾驶员做出的驾驶决策进行评价和优化。

S1、获取当前驾驶场景数据以及当前模型策略数据；其中，本实施例中主要对驾驶数据中的车辆速度和方向盘偏转角度情况进行驾驶控制决策优劣评价分析，即所述当前模型策略数据主要包括车辆速度以及车辆方向盘偏转角度；基于不同评价方式还可以结合油门开度等信息作进一步的分析；所述当前驾驶场景数据包括车道信息、车身信息、前车信息以及外部环境信息；同时，可以根据路段长度将不同的场景区分；可根据该路段的历史数据进行设置，如每100米为一个路段或50米为一个路段等设置方式；以及通过路段特点进行分段，如将弯道入口作为路段起点，将弯道出口作为路段重点等设置方式。

S2、将所述当前驾驶场景数据与驾驶策略库进行匹配，得到与所述当前驾驶场景数据对应的历史驾驶场景数据以及历史模型策略数据；即可通过外部环境信息与驾驶策略库进行匹配，得到该外部环境信息对应的历史驾驶场景数据。

S3、通过所述历史模型策略数据对所述当前模型策略数据进行分析，得到相对驾驶策略评价值，包括以下步骤：

S31、根据所述历史模型策略数据对所述车辆速度进行正态分布分析，得到车辆速度分布值，具体的：

S311、根据所述历史模型策略数据生成车辆速度正态分布参数；即分别得到正态分布的位置参数μ₁，以及正态分布的尺度参数σ₁，两者均由当前路段对应的所述历史驾驶场景数据计算生成；

S312、根据所述车辆速度正态分布参数得到车辆速度正态分布函数，即得到：

其中，f_v(x)表示车辆当前速度的概率分布值，x₁表示车辆速度；

S313、根据所述车辆速度以及所述车辆速度正态分布函数得到所述车辆速度分布值；即，将所述车辆速度带入所述车辆速度正态分布函数后，得到其对应的所述车辆速度分布值的数值；

S32、根据所述历史模型策略数据对所述车辆方向盘偏转角度进行正态分布分析，得到车辆方向盘偏转角度分布值，具体的：

S321、根据所述历史模型策略数据生成车辆方向盘偏转角度正态分布参数；即分别得到正态分布的位置参数μ₂，以及正态分布的尺度参数σ₂，两者均由当前路段对应的所述历史驾驶场景数据计算生成；

S322、根据所述车辆方向盘偏转角度正态分布参数得到车辆方向盘偏转角度正态分布函数，即得到：

其中，f_Ω(x)表示车辆当前速度的概率分布值，x₂表示车辆方向盘偏转角度；

S323、根据所述车辆方向盘偏转角度以及所述车辆方向盘偏转角度正态分布函数得到所述车辆方向盘偏转角度分布值，即将所述车辆方向盘偏转角度带入所述车辆方向盘偏转角度正态分布函数后，得到其对应的所述车辆方向盘偏转角度分布值的数值；

S33、分别对所述车辆速度分布值以及车辆方向盘偏转角度分布值进行归一化处理，得到车辆速度归一值以及车辆方向盘偏转角度归一值；本实施例中采用最大最小归一化函数对所述车辆速度分布值以及车辆方向盘偏转角度分布值进行归一化处理，如下：

其中，f_i为所述车辆速度分布值或所述车辆方向盘偏转角度分布值；

S34、根据所述车辆速度归一值以及车辆方向盘偏转角度归一值得到所述相对驾驶策略评价值，即得到：

V_α＝f_α(N(f_v(x)),N(f_Ω(x)))；

其中，V_α表示相对驾驶策略评价值，f_α为三维评价的累计函数，其值域设置为[0,V_max]。作为实施例，f_α可采用加权和等方式进行计算。

S4、对所述当前驾驶场景数据以及历史驾驶场景数据进行自分析，得到自身驾驶策略评价值，包括：

S41、根据所述当前驾驶场景数据以及所述历史驾驶场景数据确定车道信息；即确定车道宽度、车道中心线等车道信息；

S42、根据所述车道信息以及车身信息得到静态评价值，其中，所述车道信息包括车道宽度d₁；当道路中未设置车道线时，则根据所述历史驾驶场景数据获取历史驾驶轨迹的概率分布最大值，并将该概率分布最大值设置为车道虚拟中心线；所述车身信息包括车身宽度d_车辆，具体步骤如下：

请参照图3以及图4，S421、根据所述车道宽度以及所述车身宽度得到车辆与车道之间的最短距离，即得到所述最短距离为d₂；

S422、根据所述最短距离与所述车道宽度之间的比值得到所述静态评价值，具体的：

其中，V_β为静态评价值，其取值为[0,V_max]；

S43、根据所述前车信息以及车辆速度得到动态评价值；其中，所述前车信息包括前车车距d₄；在另一可选的实施方式中，可以通过动态场景中车辆与其他车辆相对距离、相对速度、刹车距离特性等作为安全性评估指标和车载驾驶平稳度等行程综合评估指标；其中，车辆与其他车辆的距离安全性评估具体表现，可根据当前相对车速换算成国家规定的刹车安全距离设置为阈值，通过车辆和其他车辆的相对距离与该阈值的比较来进行评分，具体步骤如下：

S431、根据所述车辆速度得到安全车距，具体的：

d_f＝f_s(v₁)；

其中，f_s为所述车辆速度与所述安全车距之间的比例系数，比例系数范围为1-1.5倍，可根据不同的车型调整对应的比例系数，如本实施例中设置为1.5；d_f为安全车距，v₁为车辆速度；如还可以通过当前车辆与前车之间速度差进行评分，即此时v₁为车辆速度差；

S432、根据所述前车车距与所述安全车距之间的比值得到所述动态评价值，包括：

其中，V_γ为动态评价值，其取值为[0,V_max]；

S44、根据所述相对驾驶策略评价，静态评价值以及动态评价值得到所述自身驾驶策略评价值，即根据所述相对驾驶策略评价V_α，静态评价值V_β以及动态评价值V_γ得到所述自身驾驶策略评价值：

V＝f(V_α,V_β,V_γ)

式中：V为最终驾驶策略评价值，f为三维评价的累计函数，其值域设置为[0,V_max]。作为实施例，f可采用加权和等方式进行计算。

S5、根据所述相对驾驶策略评价值以及目标值100计算车辆行驶策略Loss值，具体的：

S51、根据所述相对驾驶策略评价值以及自身驾驶策略评价值得到加权驾驶策略评价值；

S52、根据所述加权驾驶策略评价值计算所述车辆行驶策略Loss值，即：

其中，m表示样本数，h_θ表示网络处理函数(即上述评价体系处理模型)，x⁽ⁱ⁾表示第i个驾驶策略样本，V_max表示目标值(即策略优劣评价最大值，作为实施例，可设置为100)，λ表示正则化项权重因子，θ_j表示第j个正则化系数，n表示正则化系数的数量(即模型参数的总数量)。

S6、通过所述当前模型策略数据以及所述车辆行驶策略Loss值进行模型训练，并将训练结果上传所述驾驶策略库。

实施例二

请参照图5，一种车辆自动驾驶模型学习装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例一中所述的一种车辆自动驾驶模型的智能学习方法的各个步骤。

综上所述，本发明提供的一种车辆自动驾驶模型的智能学习方法及装置，通过采集并记录人类驾驶员的海量驾驶数据，将虚拟驾驶员的驾驶策略在呈正态分布的多风格驾驶策略库进行匹配得到样本值并计算出相应的loss值，进而实现车辆评估人类驾驶员控制策略的优劣，并实现车辆在线自主学习多风格人类驾驶经验；同时，将车辆感知到的场景分为静态和动态两种场景，在静态场景中基于路面情况以及车道线等相对固定的路况场景对驾驶策略作为安全性评估指标；在动态场景中基于当前车辆与前车之间的关系作为安全性评估指标，从而结合静态和动态两种场景提高对驾驶策略评判精度。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种车辆自动驾驶模型的智能学习方法，其特征在于，包括：

获取当前驾驶场景数据以及当前模型策略数据；

2.根据权利要求1所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述当前模型策略数据包括车辆速度以及车辆方向盘偏转角度；

所述通过所述历史模型策略数据对所述当前模型策略数据进行分析，得到相对驾驶策略评价值包括：

3.根据权利要求2所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述根据所述历史模型策略数据对所述车辆速度进行正态分布分析，得到车辆速度分布值包括：

根据所述历史模型策略数据生成车辆速度正态分布参数；

4.根据权利要求2所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述根据所述历史模型策略数据对所述车辆方向盘偏转角度进行正态分布分析，得到车辆方向盘偏转角度分布值包括：

5.根据权利要求2所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述当前驾驶场景数据包括车身信息以及前车信息；

根据所述车道信息以及车身信息得到静态评价值；

根据所述前车信息以及车辆速度得到动态评价值；

6.根据权利要求5所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述车道信息包括车道宽度；所述车身信息包括车身宽度；

所述根据所述车道信息以及车身信息得到静态评价值包括：

7.根据权利要求5所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述前车信息包括前车车距；

所述根据所述前车信息以及车辆速度得到动态评价值包括：

根据所述车辆速度得到安全车距；

8.根据权利要求5所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述根据所述自身驾驶策略评价值更新所述相对驾驶策略评价值包括：

根据所述加权驾驶策略评价值计算所述车辆行驶策略Loss值。

9.根据权利要求8所述的一种车辆自动驾驶模型的智能学习方法，其特征在于，所述根据所述加权驾驶策略评价值计算所述车辆行驶策略Loss值包括：

其中，m表示样本数，h_θ表示网络处理函数，x⁽ⁱ⁾表示第i个驾驶策略样本，V_max表示目标值，λ表示正则化项权重因子，θ_j表示第j个正则化系数，n表示正则化系数的数量。

10.一种车辆自动驾驶模型学习装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述的一种车辆自动驾驶模型的智能学习方法的各个步骤。