CN117275240A

CN117275240A - 考虑多类型驾驶风格的交通信号强化学习控制方法和装置

Info

Publication number: CN117275240A
Application number: CN202311554142.8A
Authority: CN
Inventors: 徐图; 庞钰琪; 李碧清; 曲鑫; 朱永东; 华炜
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2023-12-22
Anticipated expiration: 2043-11-21
Also published as: CN117275240B

Abstract

本发明公开了一种考虑多类型驾驶风格的交通信号强化学习控制方法和装置。包括：基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别；获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格；设置强化学习环境，包括状态空间、动作空间和奖励函数；对强化学习智能体进行训练；将完成训练的智能体部署在路口，实现交通信号的强化学习控制。本发明相比传统交通信号控制方法，考虑了实时的交通流量，更加智慧化；相比于其他强化学习交通控制方法，考虑了多类型的驾驶风格，有助于进一步提升交通效率。

Description

考虑多类型驾驶风格的交通信号强化学习控制方法和装置

技术领域

本发明涉及智能交通技术领域，具体涉及一种考虑多类型驾驶风格的交通信号强化学习控制方法和装置。

背景技术

大量研究表明，在完全网联自动驾驶的环境下，自动驾驶车的存在能够提升交通流通行效率以及交通流的稳定性。然而，这些研究对网联技术的成熟度，自动驾驶车的可控性、渗透率，均作了较理想的假设。在自动驾驶车不可控的情况下，较为可行的方法依旧是对路侧的交通控制系统进行优化（信号等优化、可变限速），从而降低交通延误。

近年来，随着大数据、车联网、人工智能等新技术与交通行业的深度融合，交通控制研究已呈现由传统的交通工程学方法向以强化学习为代表的人工智能方法转变的趋势。已有学者证明在路口使用基于强化学习的交通信号控制方法可以提升交通效率，然而在未来自动/人工驾驶车混合行驶的交通流中，存在大量不同的驾驶风格，人的驾驶风格多样且随机性强，自动驾驶车虽然采用的是确定性的算法，但交通流中存在着不同的车辆品牌，同一种品牌的自动驾驶车也存在不同种驾驶模式。多类型的驾驶风格导致了优化算法效果的不可控。针对以上难点，需要设计一种考虑多类型驾驶风格的交通控制优化方法。从而有力推进自动驾驶的产业化应用，推动智慧交通、物联网等新兴产业的发展。

因此本方法考虑网联自动驾驶环境下，依托路口周围所有车辆的轨迹信息，实现驾驶风格的快速分类，并将车辆的驾驶风格与路口拓扑、车辆位置等信息一并作为强化学习环境中的状态变量，进而实现考虑多类型驾驶风格的基于强化学习的交通信号控制方法。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种考虑多类型驾驶风格的交通信号强化学习控制方法和装置。

本发明的目的是通过以下技术方案来实现的：一种考虑多类型驾驶风格的交通信号强化学习控制方法，包括：

基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别；

获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格；

设置强化学习环境，包括状态空间、动作空间和奖励函数；所述状态空间用于表征车辆位置、车辆速度、车辆驾驶风格和信号灯状态；所述动作空间用于表征强化学习智能体在路口的动作；所述奖励函数用于表征车辆平均延误；

对强化学习智能体进行训练；

使用训练好的强化学习智能体，进行交通控制。

进一步地，所述基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别包括：

获取若干辆车辆在一段时间内的时空轨迹数据，提取表征指标，使用主成分分析法进行降维，得到若干个主成分元素；再采用K-means聚类分析方法对车辆进行分类，确定K值，从而将车辆的驾驶风格分为K类；针对每类驾驶风格的车辆，依托IDM车辆跟驰模型，得到K组不同的模型参数；并依托每一组模型参数的数值确定车辆驾驶风格的类别；

所述表征指标包括最大速度、平均速度、速度标准差、最大加速度、最大减速度、平均加速度、加速度标准差、最大跟驰间距、最小跟驰间距、平均跟驰间距、跟驰间距的标准差、平均速度差和速度差的标准差；所述模型参数包括目标速度、安全车头时距、最小安全车距、自车的最大加速度和舒适减速度。

进一步地，所述获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格包括：

对路口环境中的每辆车，根据其历史轨迹x，获取实际加速度，并计算得到似然函数值/>，找到使/>取值最大的一组模型参数/>作为该辆车的IDM车辆跟驰模型参数，从而确定该辆车的驾驶风格；

其中，为目标速度，T为安全车头时距，/>为最小安全车距，/>为自车的最大加速度，/>为舒适减速度。

进一步地，所述对强化学习智能体进行训练包括：

采用交通仿真工具模拟强化学习环境，将仿真环境中的状态空间、动作空间和奖励函数传递给强化学习智能体，从而对强化学习智能体进行训练。

进一步地，所述交通仿真工具包括SUMO仿真工具。

进一步地，所述强化学习智能体采用深度Q学习的方法来选取最优的动作；具体为：采用深度神经网络：/>来估计动作-价值函数，将t时刻的强化学习环境/>输入神经网络/>，输出动作空间A中每个动作/>的分数，分数最高即为最优的动作；

在训练过程中，采用贝尔曼方程更新动作价值函数：

其中，为学习率，/>为回报的折扣率，/>为/>时刻环境观测到的奖励，/>为神经网络参数，S为状态空间。

进一步地，所述使用训练好的强化学习智能体，进行交通控制包括：

通过车辆联网，获取所有驶向路口车辆的位置、速度与轨迹信息，判断每辆车的驾驶风格，实时获取交通状态；将交通状态传给强化学习智能体，在每个时刻，强化学习智能体依据训练好的动作-价值函数，选取最优动作并且执行。

一种考虑多类型驾驶风格的交通信号强化学习控制装置，包括

离线聚类模块：用于基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别；

在线辨识模块，用于获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格；

智能体训练模块，用于设置强化学习环境，并对强化学习智能体进行训练；强化学习环境包括状态空间、动作空间和奖励函数；所述状态空间用于表征车辆位置、车辆速度、车辆驾驶风格和信号灯状态；所述动作空间用于表征强化学习智能体在路口的动作；所述奖励函数用于表征车辆平均延误；

交通控制模块，用于使用训练好的强化学习智能体，进行交通控制。

一种考虑多类型驾驶风格的交通信号强化学习控制装置，包括一个或多个处理器，用于实现上述的一种考虑多类型驾驶风格的交通信号强化学习控制方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的一种考虑多类型驾驶风格的交通信号强化学习控制方法。

本发明的有益效果是：本发明相比传统交通信号控制方法，考虑了实时的交通流量，更加智慧化；相比于传统强化学习算法，本方法将车辆驾驶风格加入强化学习环境的状态变量中，使得强化学习算法的状态信息更加丰富，从而提升算法的训练效果，提升路口的交通流效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种考虑多类型驾驶风格的交通信号强化学习控制方法的流程示意图；

图2为离线聚类模块和在线辨识模块的流程示意图；

图3为强化学习环境状态变量设置的示意图；

图4为强化学习智能体训练与SUMO仿真交互方法示意图；

图5为本发明实施例提供的一种硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明申请在网联自动驾驶环境下，依托路口周围所有车辆的轨迹信息，实现驾驶风格的快速分类，并将车辆的驾驶风格与路口拓扑、车辆位置等信息一并作为强化学习环境中的状态变量，进而实现考虑多类型驾驶风格的基于强化学习的交通信号控制方法。

实施例1

如图1所示，第一方面，本发明提供了一种考虑多类型驾驶风格的交通信号强化学习控制方法。包括以下步骤：

步骤一：基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别；

具体的，学习路口周围驾驶员的整体风格种类，即确定驾驶风格的数目与类型。采用Next Generation Simulation（NGSIM）交通轨迹数据集作为历史数据，选取666辆车辆，通过每辆车其15秒内时间内的完整时空轨迹，提取最大速度、平均速度、速度标准差、最大加速度、最大减速度、平均加速度、加速度标准差、最大跟驰间距、最小跟驰间距、平均跟驰间距、跟驰间距的标准差、平均速度差、速度差的标准差这13种车辆跟驰行为的表征指标；其中，速度差是指与前车的速度差。将这些表征指标记作，使用主成分分析法对数据进行降维，保留90%以上的数据方差，从而得到2个主成分元素：/>。从而将数据降至2维。

接着采用K-means聚类分析方法对车辆进行分类，用肘部法则选取最合适的K值，y轴为SSE（Sum of the Squared Errors-误差平方和），x轴为K的取值，随着x的增加，SSE会随之降低，当下降幅度明显趋向于缓慢的时候，取该值为K的值。本实施例中，得到K值为3，从而将车辆驾驶风格分为3类。

针对属于第类驾驶风格的车辆，依托IDM车辆跟驰模型计算车辆的加速度/>：

其中为目标速度，T为安全车头时距，/>为最小安全车距，/>为自车的最大加速度，/>为舒适减速度，v为自车的当前车速，/>为前车的当前车速，d为当前自车与前车的间距，/>为模型的中间参数，/>为加速度指数。进一步针对每一类驾驶风格车辆的轨迹数据，估计模型参数/>使得模型输出值与实际值误差最小。一共可以得到3组不同的参数：/>，并依托每一组模型参数的数值比如最小安全车距、自车的最大加速度的数值对驾驶风格进行分类：激进型、中间型、保守型。见图3。若车辆分类数更多，则可以从保守到激进程度，给每一类赋予一个数值。

步骤二：获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格；

在实际交通控制过程中，实时获取车辆驾驶风格，对算法的实时性要求高，需要在采用少量的轨迹数据对驾驶风格进行快速的辨识；为了进行车辆驾驶风格的快速辨识，采用极大似然估计法，即将由IDM模型预测的与实际轨迹中的/>进行比较，假设实际加速度/>符合正态分布，其均值为/>，/>为正态分布的随机变量，/>为/>的标准差：

对路口环境中的每辆车，可以根据其历史轨迹x，获取，并计算得到似然函数值/>：

其中，n为采样点数量，t_i为第i个采样点对应的采样时间。

找到使取值最大的一组/>作为该辆车的IDM模型参数/>，根据步骤一中的分类结果，确定该辆车的驾驶风格。

通过以上步骤，实现了路口驾驶风格的快速辨识，作用有二：（1）将车的驾驶风格记为作为环境状态变量，丰富状态信息，（2）在交通仿真中，通过对驾驶风格的描述，对车辆轨迹的预测更加精准，使环境能够输出更准确的奖励值，有助于强化学习算法的训练。

步骤三：设置强化学习环境，包括状态空间、动作空间和奖励函数；所述状态空间用于表征车辆位置、车辆速度、车辆驾驶风格和信号灯状态；所述动作空间用于表征强化学习智能体在路口的动作；所述奖励函数用于表征车辆平均延误；

状态空间S：针对路口的四个方向的每条车道，将从停止线开始长度的距离划分成等长度的元胞，每个元胞的长度为/>。由此，路口周围的状态可以用/>维的矩阵来描述。状态空间一共包含4个/>矩阵。如图3所示，矩阵1：代表车辆位置，元胞内如果有车，则记为1，如果没有车，则记为0；矩阵2：代表车辆速度，元胞内如果有车，则记录车辆速度，如果没有车，则记为0；矩阵3：代表车辆驾驶风格，元胞内如果有车，则记录车辆驾驶风格/>，如果没有车，则记为0；矩阵4：代表信号灯状态，如果元胞内如果有信号灯，则记录信号灯当前状态（数字化的红黄绿表征），如果没有信号灯，则记为其他数字。相比其他强化学习方法，该方法融入了车辆的驾驶风格，使得状态空间的信息更加丰富，控制效果更好。

动作空间A：强化学习智能体在观测环境之后，需要从动作空间中选择相应的动作。首先规定绿灯（G）为可以通行，黄灯（Y）代表可以小心通行，红灯（R）代表不可以通行。规定东南西北分别为ESWN ，左转弯为L，则可以选择的四组动作为,其中NSG代表南北向绿灯，东西向红灯、EWG代表东西向绿灯，南北向红灯、NSLG代表南北向左转优先信号、EWLG代表东西向左转优先信号。在t时刻，智能体可以在动作空间A选择动作，如果/>与/>相同，则维持信号相位不变，若/>与/>不同，需要在相位转换之间增加对应的黄灯相位。

奖励函数R：智能体在观测环境之后，需要从动作空间中选择并执行相应的动作，环境需要返回给智能体相应的奖励。在该方法中，定义奖励为车辆平均延误，其中/>为该车辆已经行驶的时间，/>为该辆车已经行驶的距离，/>为该辆车的目标速度。

设置强化学习环境用于对强化学习智能体；具体的，强化学习智能体采用深度Q学习的方法来选取最优的动作。采用深度神经网络：/>来估计动作-价值函数，第一层输入维度为状态空间的维度4个/>，输出维度为512，第二层输入维度为512，输出维度为4。在完成训练之后，在t时刻将环境/>输入神经网络/>，输出4维矩阵，其中每个元素分别对应动作空间/>中每个动作的分数，选取分数最高的/>，即为最优的动作。在训练过程中，采用贝尔曼方程更新动作价值函数的值：

其中为学习率，/>为回报的折扣率，/>为/>时刻环境观测到的奖励，其中神经网络的参数/>采用梯度下降法来进行训练，直到算法收敛。

步骤四：对强化学习智能体的训练；所述步骤四通过以下子步骤来具体实现：

（4.1）采用SUMO交通仿真工具辅助算法训练与评估验证，包括路网构建、信号灯设置、车流生成、延误计算等。

（4.2）将拟采用交通信号控制方法的路口的路网，在SUMO仿真工具中进行还原，包括各进口道的车道数以及车道的编排方法，构建与实际路口相符合的交通信号相位。进一步的，在SUMO交通仿真中生成车流时，依照步骤（1.3）中的K种风格进行生成，每种风格采用不同的IDM模型参数。

（4.3）仿真开始后，采用TRACI接口与智能体进行互动，将仿真环境中的状态空间、动作空间与奖励函数传递给强化学习智能体，从而帮助强化学习智能体完成训练。如图4所示。

步骤五：使用训练好的智能体，进行交通控制；所述步骤五通过以下子步骤来具体实现：

（5.1）使用训练好的强化学习智能体，在实际路口，进行交通控制；

（5.2）通过车辆联网，获取所有驶向路口车辆的位置、速度与轨迹信息。并且通过步骤一中的确定的车辆驾驶风格类别，判断每辆车的驾驶风格；从而实时获取交通状态；

（5.3）将交通状态传给强化学习智能体，在每个时刻，强化学习智能体依据训练好的动作-价值函数，返回打分最高的动作，并且执行。

第二方面，本发明还提供了一种考虑多类型驾驶风格的交通信号强化学习控制装置，包括：

离线聚类模块：如图2所示，用于基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别；

在线辨识模块，如图2所示，用于获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格；

与前述一种考虑多类型驾驶风格的交通信号强化学习控制方法的实施例相对应，本发明还提供了一种考虑多类型驾驶风格的交通信号强化学习控制装置的实施例。

参见图5，本发明实施例提供的一种考虑多类型驾驶风格的交通信号强化学习控制装置，包括一个或多个处理器，用于实现上述实施例中的一种考虑多类型驾驶风格的交通信号强化学习控制方法。

本发明的一种考虑多类型驾驶风格的交通信号强化学习控制装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明的一种考虑多类型驾驶风格的交通信号强化学习控制装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种考虑多类型驾驶风格的交通信号强化学习控制方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，包括：

对强化学习智能体进行训练；

使用训练好的强化学习智能体，进行交通控制。

2.根据权利要求1所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，所述基于路口周围车辆的历史轨迹数据，确定车辆驾驶风格的类别具体为：

获取若干辆车辆在一段时间内的历史轨迹数据，提取表征指标，使用主成分分析法进行降维，得到若干个主成分元素；再采用K-means聚类分析方法对车辆进行分类，确定K值，从而将车辆的驾驶风格分为K类；针对每类驾驶风格的车辆，依托IDM车辆跟驰模型，得到K组不同的模型参数；并依托每一组模型参数的数值确定车辆驾驶风格的类别；

3.根据权利要求1所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，所述获取路口周围车辆的实时轨迹数据，结合确定的车辆驾驶风格类别，实时获取车辆驾驶风格具体为：

对路口环境中的每辆车，根据其实时轨迹x，获取实际加速度a_real，并计算得到似然函数值，找到使/>取值最大的一组IDM车辆跟驰模型参数/>作为该辆车的IDM车辆跟驰模型参数，从而确定该辆车的驾驶风格；

其中，为目标速度，T为安全车头时距，d_min为最小安全车距，a_m为自车的最大加速度，b_comf为舒适减速度。

4.根据权利要求1所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，所述对强化学习智能体进行训练具体为：

5.根据权利要求4所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，所述交通仿真工具包括SUMO仿真工具。

6.根据权利要求1所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，所述强化学习智能体采用深度Q学习的方法来选取最优的动作；具体为：采用深度神经网络：/>来估计动作-价值函数，将t时刻的强化学习环境s_t输入神经网络，输出动作空间A中每个动作a_t的分数，分数最高即为最优的动作；

在训练过程中，采用贝尔曼方程更新动作价值函数：

,其中，/>为学习率，/>为回报的折扣率，r_t+1为t+1时刻环境观测到的奖励，/>为神经网络参数，S为状态空间。

7.根据权利要求1所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法，其特征在于，所述使用训练好的强化学习智能体，进行交通控制具体为：

8.一种考虑多类型驾驶风格的交通信号强化学习控制装置，其特征在于，包括

9.一种考虑多类型驾驶风格的交通信号强化学习控制装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-7中任一项所述的一种考虑多类型驾驶风格的交通信号强化学习控制方法。