CN116331206A

CN116331206A - 一种智能汽车安全行驶的决策方法及系统

Info

Publication number: CN116331206A
Application number: CN202310363022.3A
Authority: CN
Inventors: 张卫东; 向思薇; 柏林; 胡小波; 贺通; 史颂华; 郭东生; 谢威; 吴迪
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-27
Anticipated expiration: 2043-04-06
Also published as: CN116331206B

Abstract

本发明公开一种智能汽车安全行驶的决策方法及系统，涉及智能汽车决策技术领域。所述方法包括：采集目标智能汽车在高速路的行驶参数；所述行驶参数包括车辆速度、车头角度、位置信息和车道情况；所述车道情况为与相邻车辆的时距变化；根据所述行驶参数和合规性强化学习决策模型，确定最优换道超车动作；所述合规性强化学习决策模型是根据深度强化学习网络和回报函数构建的；所述回报函数是根据超车判断条件和预设最小安全距离确定的；所述回报函数为在超车过程中车辆违规的事故程度。本发明能够提高智能汽车安全行驶的决策准确率。

Description

一种智能汽车安全行驶的决策方法及系统

技术领域

本发明涉及智能汽车决策技术领域，特别是涉及一种智能汽车安全行驶的决策方法及系统。

背景技术

道路法规不仅是安全的重要保障，也是交通事故责任划定的关键凭证。因此，道路法规数字化基础上的合规性决策，对保障道路安全非常重要。道路法规数字化是合规性决策的基础，但面临一系列问题：交通标志与标线繁多复杂，对机器而言理解困难；道路法规主要面向人类驾驶员，充斥大量模糊语言，无法准确对应车辆驾驶行为。因此，目前的研究存在无法将复杂模糊的道路法规转变成机器可识别的语言，从而导致现有技术对智能汽车安全行驶的决策准确率不高。

发明内容

本发明的目的是提供一种智能汽车安全行驶的决策方法及系统，能够提高智能汽车安全行驶的决策准确率。

为实现上述目的，本发明提供了如下方案：

一种智能汽车安全行驶的决策方法，包括：

采集目标智能汽车在高速路的行驶参数；所述行驶参数包括车辆速度、车头角度、位置信息和车道情况；所述车道情况为与相邻车辆的时距变化；

根据所述行驶参数和合规性强化学习决策模型，确定最优换道超车动作；所述合规性强化学习决策模型是根据深度强化学习网络和回报函数构建的；所述回报函数是根据超车判断条件和预设最小安全距离确定的；所述回报函数为在超车过程中车辆违规的事故程度。

可选地，所述超车判断条件包括超车触发判断条件、超车换道前判断条件、超车判断条件和回归车道前判断条件。

可选地，根据所述行驶参数和合规性强化学习决策模型，确定最优换道超车动作，具体包括：

根据预设道路规定确定超车判断条件；

根据所述行驶参数、所述超车判断条件和所述预设最小安全距离，确定所述行驶参数对应的回报函数；

根据所述行驶参数及对应的回报函数确定最优换道超车动作。

可选地，根据预设道路规定确定超车判断条件，具体包括：

对所述预设道路规定进行关键流程和语义定义提取，得到关键条件；

对所述关键条件进行逻辑提取，得到条件逻辑；所述条件逻辑包括原子命题、逻辑算子和时序逻辑；

对所述条件逻辑进行抽象编码，得到线性时序逻辑公式，并将所述线性时序逻辑公式确定为超车判断条件。

可选地，根据所述行驶参数、所述超车判断条件和所述预设最小安全距离，确定所述行驶参数对应的回报函数，具体包括：

根据所述行驶参数判断所述目标智能汽车是否满足所述超车判断条件，得到超车判断结果；

根据所述超车判断结果和所述预设最小安全距离确定所述行驶参数对应的回报函数。

可选地，所述合规性强化学习决策模型的训练过程具体为：

获取训练数据；所述训练数据包括训练智能汽车的行驶状态及对应的换道超车动作和回报函数；

构建基于前馈神经网络的深度强化学习网络；

将所述训练数据输入所述深度强化学习网络，并根据损失函数、预设迭代模式和预设迭代次数进行训练，将训练好的深度强化学习网络确定为合规性强化学习决策模型。

可选地，所述预设迭代模式包括第一训练模式和第二训练模式；所述第一训练模式为他车在被自车超过之后加速行驶；所述第二训练模式为他车在被自车超过之后保持原速行驶。

可选地，所述深度强化学习网络包括依次连接的卷积层和全连接层；所述卷积层的非线性激活函数为relu函数；所述全连接层的非线性激活函数为tanh函数。

可选地，所述超车判断条件将超车过程划分为超车前、超车中和超车完成三个阶段。

本发明还提供了一种智能汽车安全行驶的决策系统，包括：

数据采集模块，用于采集目标智能汽车在高速路的行驶参数；所述行驶参数包括车辆速度、车头角度、位置信息和车道情况；所述车道情况为与相邻车辆的时距变化；

行驶决策模块，用于根据所述行驶参数和合规性强化学习决策模型，确定最优换道超车动作；所述合规性强化学习决策模型是根据深度强化学习网络和回报函数构建的；所述回报函数是根据超车判断条件和预设最小安全距离确定的；所述回报函数为在超车过程中车辆违规的事故程度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种智能汽车安全行驶的决策方法及系统，所述方法包括利用合规性强化学习决策模型对采集的目标智能汽车在高速路的行驶参数进行决策判断，得到最优换道超车动作，其中，合规性强化学习决策模型是根据深度强化学习网络和回报函数构建的，通过将深度强化学习网络结合回报函数，能够实现使模型输出的结果结合车辆违规的事故程度的影响因素，提高了智能汽车在换道超车时的决策准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明智能汽车安全行驶的决策方法的流程示意图；

图2为本实施例中合规性监测模块的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种智能汽车安全行驶的决策方法，包括：

步骤100：采集目标智能汽车在高速路的行驶参数；所述行驶参数包括车辆速度、车头角度、位置信息和车道情况；所述车道情况为与相邻车辆的时距变化。其中，所述超车判断条件包括超车触发判断条件、超车换道前判断条件、超车判断条件和回归车道前判断条件。

步骤200：根据所述行驶参数和合规性强化学习决策模型，确定最优换道超车动作；所述合规性强化学习决策模型是根据深度强化学习网络和回报函数构建的；所述回报函数是根据超车判断条件和预设最小安全距离确定的；所述回报函数为在超车过程中车辆违规的事故程度。

作为步骤200的一种具体实施方式，包括：

步骤110：根据预设道路规定确定超车判断条件。具体过程为：

对所述预设道路规定进行关键流程和语义定义提取，得到关键条件；对所述关键条件进行逻辑提取，得到条件逻辑；所述条件逻辑包括原子命题、逻辑算子和时序逻辑；对所述条件逻辑进行抽象编码，得到线性时序逻辑公式，并将所述线性时序逻辑公式确定为超车判断条件。

步骤120：根据所述行驶参数、所述超车判断条件和所述预设最小安全距离，确定所述行驶参数对应的回报函数。具体过程为：

根据所述行驶参数判断所述目标智能汽车是否满足所述超车判断条件，得到超车判断结果；根据所述超车判断结果和所述预设最小安全距离确定所述行驶参数对应的回报函数。所述超车判断条件将超车过程划分为超车前、超车中和超车完成三个阶段。

步骤130：根据所述行驶参数及对应的回报函数确定最优换道超车动作。

其中，所述合规性强化学习决策模型的训练过程具体为：

获取训练数据；所述训练数据包括训练智能汽车的行驶状态及对应的换道超车动作和回报函数；构建基于前馈神经网络的深度强化学习网络；将所述训练数据输入所述深度强化学习网络，并根据损失函数、预设迭代模式和预设迭代次数进行训练，将训练好的深度强化学习网络确定为合规性强化学习决策模型。

在本实施例中，所述预设迭代模式包括第一训练模式和第二训练模式；所述第一训练模式为他车在被自车超过之后加速行驶；所述第二训练模式为他车在被自车超过之后保持原速行驶。所述深度强化学习网络包括依次连接的卷积层和全连接层；所述卷积层的非线性激活函数为relu函数；所述全连接层的非线性激活函数为tanh函数。

在上述方案的基础上，提供如下实施例：

本实施例将车辆违规程度加入强化学习的回报函数中进行训练，得到合规性强化学习决策模型。该发明将法规数字化融入合规性监测和决策，并结合强化学习进行训练，提高了智能汽车在换道超车时的决策安全性。

S1：道路法规数字化；选取与超车相关的道路法规，进行道路法规数字化，具体内容如表1所示。

表1道路法规数字化表

所述S1步骤中，道路法规数字化包括提取条件逻辑，利用线性时序逻辑公式对该道路法规进行抽象编码，翻译出原子命题和条件逻辑，具体为：提取关键流程和语义定义后，进行逻辑分析，提取条件逻辑，将所选道路法规拆分为原子命题、逻辑算子和时序逻辑，得到线性时序逻辑公式，从而能够对车辆驾驶行为进行约束和限制。

所述S1步骤中得到的线性时序逻辑公式如下：

actOvertake指超车触发条件，st代指自车的状态：stBehind指自车在后，stAhead指自车在前，stLeft指自车在左，stProperDistance指自车与其他道路参与者保持合适距离。

该公式的意义为：满足超车触发条件actOvertake后，整个超车过程中需要满足：自车从左侧车道(即超车道)进行超车；全过程中，自车需要与其他车辆保持合适距离。

S2：搭建高速路场景；使用Carla搭建高速路场景，设定场景中的物体和参数，具体参数如表2所示。

所述高速路场景的物体包括在原始车道行驶的自车与他车。

所述自车的参数包括初始位置和朝向，超车完成前直行时油门开度，换道时油门开度，超车完成后油门开度。

所述他车的参数包括初始位置和朝向，自车向左换道前的油门开度，自车向左换道后的油门开度。

初始条件下，自车在后，他车在前，同在原车道行驶。原车道左侧的车道为超车道。自车需要换道至超车道后，从左侧超越他车，并在超车结束后回到原车道，在y方向到达指定位置。

表2设定场景具体参数表

S3：设计合规性监测模块；设计合规性监测模块，监测超车过程中车辆的违规程度。

所述合规性监测模块包括条件判断和监测模块：

所述条件判断包括：超车触发条件判断，超车换道前条件判断，超车条件判断，回归车道前条件判断。所述条件判断将超车划分为三个阶段：超车前、超车中、超车完成。所述划分标准为自车的车辆速度、车头角度、位置信息和车道情况。

将所述自车在所述S2步骤中的场景中当前时刻的速度大小值作为所述车辆速度；将所述自车在所述S2步骤中的场景中当前时刻的车头角度作为所述车头角度值；将所述自车在所述S2步骤中的场景中当前时刻所在位置的横坐标和纵坐标作为所述位置信息；将所述自车在所述S2步骤中的场景中当前时刻自车的车道作为所述车道情况。

所述合规性监测模块包括向左换道监测，超车中过程检测，回归原车道监测。所述合规性监测模块的具体流程如2所示：

1.首先判断是否满足超车触发条件，若自车速度大于前车速度，则进入合规性监测。

2.超车前，判断是否满足超车换道前条件：是否与被超车辆保持纵向安全距离、超车道后方是否安全、超车道前方是否安全。若满足换道条件，则进入向左换道的合规性监测。

3.超车时，判断是否满足超车条件：是否与被超车辆保持侧向安全距离。若满足超车条件，进行超车中过程的合规性监测。

4.超过前车后，进行回归原车道前条件判断：原车道内后方是否安全、原车道内前方是否安全。若满足回归原车道前条件，则进行回归原车道监测。

当S3步骤中的合规性监测模块监测自车自车在行驶过程中是否与周围车辆保持一定的时距，最终输出超车过程中车辆的违规程度，判断阈值一般由数据集和经验值给出。

S4：建立合规性强化学习决策模型；所述S4步骤中，所述建立合规性强化学习决策模型步骤包括：定义和设定所述建立合规性强化学习决策模型的状态集、动作集和回报函数。

所述状态集表示为：

s＝[y_other-y_ego，v_ego-v_other，l]＝[Δd，Δv]

其中，y代表纵向坐标，下标other代表他车，ego代表自车，由于车辆行驶过程中纵坐标不断减小，Δd＝y_other-y_ego代表自车领先他车的距离，而Δv＝v_ego-v_other代表自车与他车的速度差，l代表自车车道情况。

所述动作集表示为：

其中，

表示所述动作集；a表示换道情况，a＝0对应换道，a＝1对应不换道。

所述回报函数表示为：

其中，r_law＝sgn(Δd-max(mind，Δv×TTC))代表车辆违规程度，mind为最小安全距离，TTC为碰撞时间。y_ego代表自车完成超车后回到原车道时的y坐标。自车行驶过程中y坐标一直在减小，故y_ego越大，自车换道完成时间越早。若自车未完成超车任务，回报函数置为-20。若自车与他车发生碰，回报函数置为-100。比起未完成超车任务，更不希望发生碰撞事故，故碰撞事故的回报函数比未完成超车任务的回报函数更小。

S5：训练合规性强化学习决策模型得到安全决策；通过迭代训练合规性强化学习决策模型，获得所述智能汽车的安全决策。所述迭代过程如下：自车根据当前状态做出决策，执行动作命令与环境交互后产生新的状态，并返回新状态以及动作相应的回报函数(由合规性监测模块给出)，通过损失函数来更新模型的参数，使得模型不断学习得到最优策略。

所述通过迭代训练获得所述自动驾驶车辆智能体模型的最优行为的步骤满足公式：

其中，R_t表示时刻的最大化预期的回报；r_t+k表示t+k时刻的回报，t、k为自然数；π表示驾驶策略；γ为折扣因子，γ_t表示时刻的回报折扣；s_t表示t时刻的状态；a_t表示t时刻的动作；使用前馈神经网络实现深度强化学习网络(DQN网络)以优化R_t；分析迭代足够次数后的学习曲线，判断对所述合规性强化学习决策模型的训练是否充分。内置卷积网络的非线性激活函数为relu函数，全连接网络的非线性激活函数为tanh函数。训练迭代次数为500，学习率为1e-5。

所述S5步骤中的迭代训练有两种他车行为模式：

acc episode：他车在被自车超过之后加速行驶；

normal episode：他车在被自车超过之后保持原速行驶。

S6：分析得到所述合规性强化学习决策模型对智能汽车决策安全性的影响；使用所述S3步骤中用Carla搭建的高速路场景中进行测试，分从自车超车过程中与他车的距离分析合规性强化学习决策模型对决策安全性的影响。

测试地图选择了Carla车辆仿真平台的Town05地图，测试过程中，所述合规性强化学习模型运行情况下，自车换道超车时与他车间的纵向、横向距离较大，比对照组更安全。

综合分析得到的结论是：本实施例将法规数字化融入合规性监测和决策，并结合强化学习进行训练，采用基于道路法规数字化的智能汽车安全决策方法可以保证超车换道场景下的安全距离，避免了碰撞的发生，有效提高了智能汽车在换道超车时的决策安全性。

此外，本发明还提供了一种智能汽车安全行驶的决策系统，包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能汽车安全行驶的决策方法，其特征在于，包括：

2.根据权利要求1所述的智能汽车安全行驶的决策方法，其特征在于，所述超车判断条件包括超车触发判断条件、超车换道前判断条件、超车判断条件和回归车道前判断条件。

3.根据权利要求1所述的智能汽车安全行驶的决策方法，其特征在于，根据所述行驶参数和合规性强化学习决策模型，确定最优换道超车动作，具体包括：

根据预设道路规定确定超车判断条件；

4.根据权利要求3所述的智能汽车安全行驶的决策方法，其特征在于，根据预设道路规定确定超车判断条件，具体包括：

5.根据权利要求3所述的智能汽车安全行驶的决策方法，其特征在于，根据所述行驶参数、所述超车判断条件和所述预设最小安全距离，确定所述行驶参数对应的回报函数，具体包括：

6.根据权利要求1所述的智能汽车安全行驶的决策方法，其特征在于，所述合规性强化学习决策模型的训练过程具体为：

构建基于前馈神经网络的深度强化学习网络；

7.根据权利要求6所述的智能汽车安全行驶的决策方法，其特征在于，所述预设迭代模式包括第一训练模式和第二训练模式；所述第一训练模式为他车在被自车超过之后加速行驶；所述第二训练模式为他车在被自车超过之后保持原速行驶。

8.根据权利要求6所述的智能汽车安全行驶的决策方法，其特征在于，所述深度强化学习网络包括依次连接的卷积层和全连接层；所述卷积层的非线性激活函数为relu函数；所述全连接层的非线性激活函数为tanh函数。

9.根据权利要求1所述的智能汽车安全行驶的决策方法，其特征在于，所述超车判断条件将超车过程划分为超车前、超车中和超车完成三个阶段。

10.一种智能汽车安全行驶的决策系统，其特征在于，包括：