CN117454737A

CN117454737A - 一种用于自动驾驶车辆学习性能力的评价方法及系统

Info

Publication number: CN117454737A
Application number: CN202310860151.3A
Authority: CN
Inventors: 李成; 邓锐; 苏奕敏; 叶晓倩; 周俊洁
Original assignee: Shanghai Jiaotong University; SAIC Volkswagen Automotive Co Ltd
Current assignee: Shanghai Jiaotong University; SAIC Volkswagen Automotive Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2024-01-26

Abstract

本发明公开了一种用于自动驾驶车辆学习性能力的评价方法，其包括：构建基于测试车辆的原始状态和目标状态的奖励函数；将测试车辆置于仿真测试场景中进行若干次测试，获得每一次测试车辆的完成状态；基于每一次测试车辆的完成状态，采用学习算法训练所述奖励函数；获得该学习算法下的奖励函数的值随测试次数变化的学习曲线；基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量，用于评价学习性能力。相应地，本发明还公开了一种用于自动驾驶车辆学习性能力的评价系统。本发明其从时间维度对自动驾驶车辆的测试评价进行了分析，通过提出的三个指标：学习时间、学习速度和学习容量，以衡量自动驾驶车辆算法的学习进化能力。

Description

一种用于自动驾驶车辆学习性能力的评价方法及系统

技术领域

本发明涉及一种测试方法及系统，尤其涉及一种对自动驾驶车辆算法进行评价的方法及系统。

背景技术

近年来，随着人工智能技术的发展，自动驾驶技术的相关研究也越来越多。在自动驾驶车辆的研发过程中，需要对其进行大量的测试与评价，以保证自动驾驶车辆的安全性与可靠性。研究自动驾驶车辆的评价指标有利于促进自动驾驶车辆的设计和生产，提高自动驾驶车辆的智能化水平。

目前对自动驾驶车辆的评价主要着重于从安全性、舒适性等方面对车辆进行评价，大多数都为横向比较，即在相同测试场景中，从多个维度全面综合地比较多辆自动驾驶车辆的性能水平。而对于纵向比较，即自动驾驶车辆的学习进化能力，则缺少相应的技术手段。

目前自动驾驶车辆是朝着SAE提出的L5级完全自动化级别发展，各大企业和厂商研发的自动驾驶车辆也多基于机器学习等方法，具有一定的学习能力，能够通过多次训练、测试，从历史数据中更新算法，在下一次测试中做出更好的表现。

基于当前的状况，期望提供一种方法，其能够对自动驾驶算法的学习进化能力进行评价，以推动自动驾驶车辆的开发。

发明内容

本发明的目的之一在于提供一种用于自动驾驶车辆学习性能力的评价方法，其从时间维度对自动驾驶车辆的学习算法进行了分析，通过提出的三个指标：学习时间、学习速度和学习容量，以此衡量自动驾驶车辆算法的学习进化能力。

为了实现上述目的，本发明提出了一种用于自动驾驶车辆学习性能力的评价方法，其包括步骤：

构建基于测试车辆的原始状态和目标状态的奖励函数；

将测试车辆置于仿真测试场景中进行若干次测试，获得每一次测试车辆的完成状态；

基于每一次测试车辆的完成状态，采用学习算法训练所述奖励函数；

获得该学习算法下的奖励函数的值随测试次数变化的学习曲线；

基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量，用于评价学习性能力。

在本发明所述的用于自动驾驶车辆学习性能力的评价方法中，可以根据不同的测试场景，构建不同的奖励函数，由于奖励函数的构建是现有学习算法中已经广泛采用的技术，而非本发明的改进点，因此本发明在此对其不再进行过多介绍和描述。

本发明对自动驾驶车辆进行大量仿真测试，然后根据仿真测试的结果采用不同的学习算法对奖励函数训练，然后根据自动驾驶车辆的学习算法在不同训练次数下功能完成度上的评分来获得学习曲线，根据学习曲线可获得自动不同的学习算法的学习时间、学习速度、学习容量。比较不同的学习算法的学习时间、学习速度、学习容量，就可以评价各学习算法的学习性。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价方法中：

所述学习时间为奖励函数的值达到设定值时的测试次数；

所述学习速度V(t)被表示为：其中Δt表示变化时间，ΔS(t)表示变化时间内的奖励函数的值的变化量；

所述学习容量S_lc被表示为：其中Δt表示时间的变化，S(t)表示t时刻奖励函数的值。

其中，学习时间是判断学习算法是否能够在较少的训练次数中达到较好的行驶效果的一个指标。在多次迭代(即训练)后，自动驾驶车辆的表现会趋于稳定，最终得到一个稳定的评分(即奖励函数的值)。在一些更具体的实施方式中，若奖励函数的值(也即车辆评分)在一定次数的测试后波动幅度设定的阈值内，例如在5％以内，则可以认为车辆算法稳定，此时的奖励函数的值记为S_f。由此，在一个具体的实例中，学习时间可以定义为奖励函数的值达到0.9S_f时的测试次数S_l。该指标反映自动驾驶算法的收敛快慢，学习时间越小的车辆，越快到达稳定态，学习性越强。

在整个测试过程中，自动驾驶车辆性能评分(即奖励函数的值)的上升速率也会有变化，存在前期分数上升较快的车辆，在后期训练中上升较慢的情况。这种趋势无法通过学习时间表现出来，因此本发明还采用了学习速度V(t)来评价学习性，如公式(1)所示：

该指标可以反映自动驾驶算法在整个过程中的学习能力，是对学习时间的补充，根据该指标不仅仅可以得到最终收敛的快慢，还可以观察车辆算法学习能力的整体变化。

另外，由于不同自动驾驶车辆算法的学习曲线表现出来的形式各不相同，仅从曲线上，有时难以比较。因此本发明还提出了学习容量S_lc的评价指标，以对车辆算法学习能力的综合表现情况进行定量计算，以量化的指标形式对车辆进行评价。在学习曲线上，学习容量S_lc表现为特定训练次数内学习曲线与时间轴所围的面积：

在训练次数相同的情况下，学习容量S_lc越高的车辆学习算法，其学习性越强，在相同次数内提升幅度越大。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价方法中，获得该学习算法下的奖励函数的值随测试次数变化的学习曲线具体包括：

获得采用该学习算法训练所述奖励函数过程中的若干个时间步长的奖励函数时间序列；

对奖励函数时间序列进行滤波平滑处理，以得到该学习算法下的学习曲线。

在这种实施方式中，训练次数可以被转换为时间步长来进行表征。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价方法中，获得采用该学习算法训练所述奖励函数过程中的若干个时间步长的奖励函数时间序列具体包括：

调整该学习算法的参数，以获得不同参数对应的若干个时间步长的若干个奖励函数时间序列；

对奖励函数时间序列进行滤波平滑处理，以得到该学习算法下的学习曲线具体包括：

对各奖励函数时间序列进行滤波平滑处理，以得到该学习算法下对应于不同参数的若干个学习曲线。

也就是说，在上述这种实施方式中，在采用学习算法训练奖励函数的过程中，还可以调整学习算法的参数，进而获得各不同的参数对应的学习曲线，从而分析各参数对学习性的影响。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价方法中，在基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量步骤之后还包括：

对该学习算法的各参数对应的各学习时间、学习速度和学习容量分别进行归一化处理，以得到学习时间评分S_l ^′、学习速度评分V_t ^′和学习容量评分S_l ^′ _c。

归一化处理可通过下式进行计算：

其中S_lmax,S_lmin分别表示对应各参数的所有的测试中最长的学习时间和最短的学习时间；V_tmax,V_tmin分别表示对应各参数的所有的测试中最快的学习速度和最慢的学习速度；S_lcmax,S_lcmin分别表示对应各参数的所有的测试中最高的学习容量和最低的学习容量。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价方法中，在得到学习时间评分、学习速度评分和学习容量评分步骤之后还包括：

基于该学习算法的学习时间评分、学习速度评分和学习容量评分，得到学习性能力评分。

在该实施方式中，自动驾驶车辆的该学习算法的整体学习性能力评分由学习时间评分、学习速度评分和学习容量数评分三部分加权得到，计算方法如下所示：

S＝α1S_l ^′+β1V_t ^′+γ1S_l ^′ _c (6)

其中α1，β1和γ1分别为学习时间评分、学习速度评分和学习容量评分的权重系数，其值是可以设置的，例如可以均设置1/3。S_l ^′，V_t ^′和S_l ^′ _c分别表示归一化后得到的学习时间评分、学习速度评分和学习容量评分。

该学习性能力评分可以综合反映当前评测的学习算法的整体学习能力，分数越高，学习能力越强，同时该指标能直观反映当前自动驾驶车辆学习算法优化过程中学习性能力的好坏，分数比前一次高可认为本次算法迭代优化有效，从而加速算法有效迭代优化。

本发明的另一目的之一在于提供一种用于自动驾驶车辆学习性能力的评价系统，该系统可以从时间维度对自动驾驶车辆算法的三个指标：学习时间、学习速度和学习容量进行分析，以衡量自动驾驶车辆算法的学习进化能力。

基于上述发明目的，本发明提供了一种用于自动驾驶车辆学习性能力的评价系统，其包括：

奖励函数构建模块，其构建基于测试车辆的原始状态和目标状态的奖励函数；

测试模块，将测试车辆置于仿真测试场景中进行若干次测试，获得每一次测试车辆的完成状态；

训练模块，其基于每一次测试车辆的完成状态，采用学习算法训练所述奖励函数；

评价模块，其获得该学习算法下的奖励函数的值随测试次数变化的学习曲线；并基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量，用于评价学习性能力。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，所述评价模块获得该学习算法下的奖励函数的值随测试次数变化的学习曲线具体执行步骤：

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，获得采用该学习算法训练所述奖励函数过程中的若干个时间步长的奖励函数时间序列具体包括：

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，所述评价模块在基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量步骤之后还执行：

对学习算法的各参数对应的各学习时间、学习速度和学习容量分别进行归一化处理，以得到学习时间评分、学习速度评分和学习容量评分。

进一步地，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，所述评价模块在得到学习时间评分、学习速度评分和学习容量评分步骤之后还执行：

本发明所述的用于自动驾驶车辆学习性能力的评价方法及系统具有如下特点和有益效果：

本发明从时间维度对自动驾驶车辆的测试评价进行了分析，提出了学习时间、学习速度和学习容量三个指标，并给出具体的量化评价方式，以此衡量自动驾驶车辆算法的学习进化能力。

本发明针对不同学习算法的学习曲线进行分析，基于学习时间、学习速度和学习容量三个学习性指标的具体结果，比较学习时间长短、学习速度快慢、学习容量大小，从而对自动驾驶车辆算法的学习性有一个直观的认识和衡量。

本发明通过学习时间、学习速度和学习容量三大指标，能够研究不同车辆算法的学习能力的差异，拓展了自动驾驶车辆的评价维度。

附图说明

图1示意性地显示了本发明所述的用于自动驾驶车辆学习性能力的评价方法在一种实施方式下获得的学习曲线。

图2显示了采用本发明所述的用于自动驾驶车辆学习性能力的评价方法对SAC算法进行学习性能力评价的奖励函数随时间步长的变化曲线。

图3显示了根据本发明的评价方法，在SAC算法中，不同学习率α对学习速度的影响变化曲线图。

图4显示了根据本发明的评价方法，在SAC算法中，不同折扣系数γ对学习速度的影响变化曲线图。

图5显示了根据本发明的评价方法，在DDPG算法中，不同学习率α对学习速度的影响变化曲线图。

图6显示了根据本发明的评价方法，同一参数下(α＝0.001,γ＝0.95)的SAC算法与DDPG算法得到的不同算法的学习速度曲线图。

具体实施方式

下面将结合说明书附图和具体的实施例对本发明所述的用于自动驾驶车辆学习性能力的评价方法及系统做进一步的解释和说明，然而该解释和说明并不对本发明的技术方案构成不当限定。

以下根据本发明，以基于强化学习的泊车入库算法为例，通过采用不同的学习算法(SAC算法和DDPG算法)，以及更改算法中的两个参数：学习率α和折扣系数γ，对本发明进行进一步的说明和解释。

在一个具体的实例中，在基于OpenAI gym Python工具包搭建的开源仿真环境highway_env中进行泊车入库的仿真与分析。

首先进行仿真环境的相关设置。在该仿真环境中，车辆需要从随机的起始位置，停入随机选定的车位。车辆的姿态和位置越靠近停车位，车辆获得的累积奖励R_t就越高。设定车辆的状态s为：

s＝[x,y,v_x,v_y,cosψ,sinψ] (7)

其中，(x,y)为车辆位置，v_x和v_y分别为车辆横向和纵向速度,v_x＝vcosψ,v_y＝vsinψ，v为车辆速度，ψ为车辆航向角。

在一个具体的实例中，车辆动作设定为车辆的加速度a和转向角δ：

a∈[-5,5]m/s²

δ∈[-π/4,π/4]rad (8)

在获得车辆动作后，车辆下一时刻的状态可以通过动作自行车模型获得：

其中β＝tan^-1(1/2tanδ)，Δt为时间步长，在一个具体的实例中，其取为0.2s，l为车辆轴距。

基于上述案例，在一些实施方式中，用于自动驾驶车辆学习性能力的评价方法可以包括步骤：

100：构建基于测试车辆的原始状态和目标状态的奖励函数。

奖励函数R与车辆位姿和是否发生碰撞有关，基于此，将奖励函数定义为公式(11)，从而车辆的姿态和位置越靠近停车位，获得的奖励就越高，即奖励函数的值就越高。学习算法的目标就是最大化累积奖励。

其中，s为车辆状态[x,y,v_x,v_y,cosψ,sinψ]，s_g为车辆目标状态[x_g,y_g,0,0,cosψ_g,sinψ_g]，x_g,y_g,ψ_g与选定的目标车位的位置和朝向有关。collision∈{0,1}，由于仿真环境中只有一辆车辆，因此不会发生碰撞，collision取为0。‖s-s_g‖_W,p＝(∑_i|W_i(s-s_g)_i|^p/^1/p，p表示范数，在一个具体的实例中其可以取0.5。奖励权重W定义为W＝[1,0.3,0,0,0,02,0,02]；i表示向量维度，对于本例子来说，i＝6，当奖励函数的值小于设定的目标值时可以认为车辆成功倒入车位。学习性指标中的车辆得分Score取学习算法中的奖励函数的值。

200：将测试车辆置于上述仿真测试场景中进行若干次测试(例如迭代30万次)，获得每一次测试车辆的完成状态；以及基于每一次测试车辆的完成状态，采用SAC(SoftActor-Critic)算法或DDPG(Deep Deterministic Policy Gradient)算法训练奖励函数。

300：在训练过程中，获得SAC算法下对应不同的学习率α和折扣系数γ的奖励函数的值随测试次数(例如30万次)或时间变化的奖励函数时间序列；对奖励函数时间序列进行滤波平滑处理(在一个具体的实例中，可以采用Savitzky-Golay滤波器进行平滑处理)，得到SAC算法下对应不同的学习率α和折扣系数γ的该学习算法下的学习曲线。

同样地，对于DDPG算法，获得DDPG算法下对应不同的学习率α和折扣系数γ的奖励函数的值随测试次数(例如30万次)或时间变化的奖励函数时间序列；对奖励函数时间序列进行滤波平滑处理(在一个具体的实例中，可以采用Savitzky-Golay滤波器进行平滑处理)，得到DDPG算法下对应不同的学习率α和折扣系数γ的该学习算法下的学习曲线。

400：基于上述各学习曲线，提取该学习曲线对应的学习时间、学习速度和学习容量。

其中，学习时间S_l为奖励函数的值达到设定值时的测试次数，学习速度其中Δt表示变化时间，ΔS(t)表示变化时间内的奖励函数的值的变化量。学习容量S_lc被表示为：/>

在一些更具体的实施方式中，若奖励函数的值(也即车辆评分)在一定次数的测试后波动幅度设定的阈值内，例如在5％以内，则可以认为车辆算法稳定，此时的奖励函数的值记为S_f。由此，在一个具体的实例中，学习时间可以定义为奖励函数的值达到0.9S_f时的测试次数。

图2显示了根据本发明对SAC算法进行评价，α＝0.001,γ＝0.95，训练过程中迭代30万次，得到的奖励函数的时间序列I。通过Savitzky-Golay滤波器进行平滑，得到的学习曲线为图2中相对光滑的曲线II。

图3显示了根据本发明在SAC算法中，不同α对学习速度的影响变化曲线图。

图3中的曲线1，曲线2和曲线3分别显示了α取值为0.001，0.003和0.005的学习速度曲线。

图4显示了根据本发明在SAC算法中，不同γ对学习速度的影响变化曲线图。

图4中的曲线1，曲线2和曲线3分别显示了折扣系数γ取值为0.95，0.9和0.85的学习速度曲线。

图5显示了根据本发明在DDPG算法中，不同α对学习速度的影响变化曲线图。

图5中的曲线1，曲线2、曲线3、曲线4和曲线5分别显示了α取值为0.00001，0.00005，0.0001，0.0005和0.001的学习速度曲线。

图6显示了根据本发明对同一参数下(α＝0.001,γ＝0.95)的SAC算法下的学习速度曲线A与DDPG算法下的学习速度曲线B。

从图3至图6可以看出，采用本发明所述的评价方法，可以针对不同的学习算法以及同一种学习算法下不同的参数，例如学习率α和折扣系数γ，进行学习性能力的量化地直接评价。

在优选的实施方式中，为了进一步直观地显示各学习算法的学习性能力，还可以对该学习算法的各参数对应的各学习时间、学习速度和学习容量分别进行归一化处理，以得到学习时间评分S_l ^′、学习速度评分S_t ^′和学习容量评分S_l ^′ _c。

归一化处理可通过下式进行计算：

在此基础上，在一些实施方式中，在得到学习时间评分、学习速度评分和学习容量评分步骤之后，还可以基于该学习算法的学习时间评分、学习速度评分和学习容量评分，得到学习性能力评分。

S＝α1S_l ^′+β1V_t ^′+γ1S_l ^′ _c (6)

表1就显示了基于本发明的评价方法对SAC算法和DDPG算法两种不同的学习算法、在不同的参数下，获得的学习时间、学习速度、和学习容量的评价结果，以及按照上述步骤计算获得的学习性能力评分。

从表1可以看出，在SAC算法和DDPG算法两种不同的算法下，更改不同参数，经过20万次时间步长的学习，可以得到相应的学习时间、学习速度和学习容量数据。在没有曲线的情况下，可以直接基于学习时间、学习速度和学习容量的数值计算获得学习性能力评分，从而综合反映当前评价的学习算法的整体学习能力。学习性能力评分的分数越高，学习能力越强。

从表1可以看出，DDPG算法的学习性能力明显强于SAC算法。

本发明的另一个实施方式还提供了一种用于自动驾驶车辆学习性能力的评价系统，其包括：

在另外一些实施方式中，该评价模块获得该学习算法下的奖励函数的值随测试次数变化的学习曲线具体执行步骤：

在另外一些实施方式中，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，获得采用该学习算法训练所述奖励函数过程中的若干个时间步长的奖励函数时间序列具体包括：

在另外一些实施方式中，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，所述评价模块在基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量步骤之后还执行：

在另外一些实施方式中，在本发明所述的用于自动驾驶车辆学习性能力的评价系统中，所述评价模块在得到学习时间评分、学习速度评分和学习容量评分步骤之后还执行：

需要说明的是，本发明保护范围中现有技术部分并不局限于本申请文件所给出的实施例，所有不与本发明的方案相矛盾的现有技术，包括但不局限于在先专利文献、在先公开出版物，在先公开使用等等，都可纳入本发明的保护范围。

此外，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

还需要注意的是，以上所列举的实施例仅为本发明具体实施例。显然本发明不局限于以上实施例，随之做出的类似变化或变形是本领域技术人员能从本发明公开的内容直接得出或者很容易便联想到的，均应属于本发明的保护范围。

Claims

1.一种用于自动驾驶车辆学习性能力的评价方法，其特征在于，包括：

构建基于测试车辆的原始状态和目标状态的奖励函数；

2.如权利要求1所述的用于自动驾驶车辆学习性能力的评价方法，其特征在于，获得该学习算法下的奖励函数的值随测试次数变化的学习曲线具体包括：

3.如权利要求2所述的用于自动驾驶车辆学习性能力的评价方法，其特征在于，获得采用该学习算法训练所述奖励函数过程中的若干个时间步长的奖励函数时间序列具体包括：

4.如权利要求3所述的用于自动驾驶车辆学习性能力的评价方法，其特征在于，在基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量步骤之后还包括：

对该学习算法的各参数对应的各学习时间、学习速度和学习容量分别进行归一化处理，以得到学习时间评分、学习速度评分和学习容量评分。

5.如权利要求4所述的用于自动驾驶车辆学习性能力的评价方法，其特征在于，在得到学习时间评分、学习速度评分和学习容量评分步骤之后还包括：

6.如权利要求1所述的用于自动驾驶车辆学习性能力的评价方法，其特征在于：

所述学习时间为奖励函数的值达到设定值时的测试次数；

所述学习速度V(t)被表示为：其中Δt表示时间的变化，

ΔS(t)表示变化时间内的奖励函数的值的变化量；

7.一种用于自动驾驶车辆学习性能力的评价系统，其特征在于，包括：

8.如权利要求7所述的用于自动驾驶车辆学习性能力的评价系统，其特征在于，所述评价模块获得该学习算法下的奖励函数的值随测试次数变化的学习曲线具体执行步骤：

9.如权利要求8所述的用于自动驾驶车辆学习性能力的评价系统，其特征在于，获得采用该学习算法训练所述奖励函数过程中若干个时间步长下的奖励函数时间序列具体包括：

10.如权利要求9所述的用于自动驾驶车辆学习性能力的评价系统，其特征在于，所述评价模块在基于所述学习曲线提取该学习算法的学习时间、学习速度和学习容量步骤之后还执行：

11.如权利要求10所述的用于自动驾驶车辆学习性能力的评价系统，其特征在于，所述评价模块在得到学习时间评分、学习速度评分和学习容量评分步骤之后还执行：