CN114708744B

CN114708744B - 一种基于融合交通信息的车辆启动优化控制方法与装置

Info

Publication number: CN114708744B
Application number: CN202210284981.1A
Authority: CN
Inventors: 李梦林; 刘浩然; 闫梅; 何洪文; 徐宏扬; 李国通; 金立生
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2023-06-09
Anticipated expiration: 2042-03-22
Also published as: CN114708744A

Abstract

本发明涉及基于融合交通信息的车辆启动优化控制方法，包括下述步骤在车辆停车或怠速时，获取当前交通流、受控车辆状态矢量、交通信号灯状态、以及交通信号灯距离受控车辆的距离作为受控车辆的状态信息；在车辆停止时，通过车辆启动优化控制模型基于状态信息判断下一时刻受控车辆是否启动。所述车辆启动优化控制模型建立了车辆状态信息和是否启动之间的对应关系。当车辆停止后，本发明的技术方案能够根据车辆当前状态判断车辆是否启动，以在不额外增加时间成本的基础上，减少车辆启停，从而减少启动能耗。本发明根据方法实现了相应的装置。

Description

一种基于融合交通信息的车辆启动优化控制方法与装置

技术领域

本公开涉及车辆启动优化控制，尤其涉及一种基于融合交通信息的车辆启动优化控制方法与装置。

背景技术

在车辆行驶途中，复杂的工况会导致频繁的启停，如，堵车时，车辆在等待前车移动过程中，车辆会断续启停，进行短时间短距离低速行驶，这个过程中车辆的启停会导致额外的能量浪费；对于公交车而言，当公交车从公交站出发时，往往会因交通拥堵等问题再度停车，频繁的启停导致能耗效率降低，等等。行车路途中的工况信息会对能量管理效果产生重要影响，因此，融合交通信息，对车辆的启动进行优化控制才能更有效的利用能量。但是，目前无法直接利用行驶过程中的多源高维信息进行优化控制。主要是因为，一方面，直接使用获取的多源高维信息会大大增加优化算法的计算量，导致求解用时过长或者无法求解。另一方面，这些高源多维的行驶工况信息在不同方面具有不同的特征，信息关联较为隐晦，难以直接利用。

发明内容

有鉴于此，本申请的主要目的在于提供一种基于融合交通信息的车辆启动优化控制方法和/或装置，通过所述方法和/或装置根据车辆停车或怠速的状态，判断车辆是否启动，以在不额外增加时间成本的基础上，减少车辆启停。

基于上述目的，本发明的技术方案如下：

第一方面，本发明提出一种基于融合交通信息的车辆启动优化控制方法，所述方法包括下述步骤：

S100、在车辆停车或怠速时，获取当前交通流、受控车辆状态矢量、交通信号灯状态、以及交通信号灯距离受控车辆的距离作为受控车辆的状态信息；

S200、在车辆停止时，通过车辆启动优化控制模型基于状态信息判断下一时刻受控车辆是否启动；

所述交通流为受控车辆能获得其当前位置前后设定范围内的其它非控制车辆的位置和车速；

所述受控车辆状态矢量包括受控车辆的位置和车速；

所述交通信号灯状态包括信号灯的相位和持续时间；

所述车辆启动优化控制模型中在下述假设基础上，建立了车辆状态信息和是否启动之间的对应关系：

受控车辆符合智能驾驶模型，车辆遵守交通规则。

优选地，在所述方法中，所述车辆启动优化控制模型采用DQN网络模型实现。

优选地，在所述方法中，所述交通流基于栅格灰度图获得，并进一步地通过深度残差网络处理为一维数据；所述基于栅格灰度图为以受控车辆为轴心、前后各L距离长度的区域的栅格地图；L为设定值。

优选地，在所述方法中，所述交通流、受控车辆状态矢量、交通信号灯状态通过L2范数统一到相同的度量范围中。

优选地，在所述方法中，所述DQN网络模型通过下述步骤进行训练：

S201、仿真生成受控车辆的状态信息；

S202、判断受控车辆是否处于停止状态；若车辆处于停止状态，则将当前状态信息作为DQN网络模型的状态输入；若DQN网络模型处于初始化状态，则根据ε贪婪策略随机选择车辆的启动决策作为初始动作输出，否则选择动作价值函数最大的启动决策作为动作输出，执行S203；若车辆处于行驶状态，则返回S201；

S203、按照启动决策对受控车辆进行控制；

S204、根据受控车辆的速度工况所需的功率和工况所需的时间计算奖励，并根据受控车辆在执行启动策略运行设定时间后的交通流数据，获取下一时刻的状态信息；

S205、将当前状态信息、当前状态信息对应的动作、奖励以及下一时刻的状态信息作为经验样本存储在记忆池；

S206、随机从记忆池中选择样本，样本数量为设定值，并采用梯度下降方式更新DQN的参数；

S207、判断DQN网络是否达到停止训练条件，若没有，则返回步骤S201。

第二方面，本发明提出了一种基于融合交通信息的车辆启动优化控制装置，所述装置包括智能体模块、环境模块；

所述智能体模块，用于在车辆停车或怠速时，获取当前交通流、受控车辆状态矢量、交通信号灯状态、以及交通信号灯距离受控车辆的距离作为受控车辆的状态信息；在车辆停止时，通过车辆启动优化控制模型基于状态信息判断下一时刻受控车辆是否启动；并将判断结果发送给环境模块；

所述环境模块，用于接收智能体模块的判断结果，并将该判断结果作用于受控车辆；

所述受控车辆状态矢量包括受控车辆的位置和车速；

所述交通信号灯状态包括信号灯的相位和持续时间；

受控车辆符合智能驾驶模型，车辆遵守交通规则。

优选地，在所述装置中，所述车辆启动优化控制模型采用DQN网络模型实现。

优选地，在所述装置中，所述交通流基于栅格灰度图获得，并进一步地通过深度残差网络处理为一维数据；所述基于栅格灰度图为以受控车辆为轴心、前后各L距离长度的区域的栅格地图；L为设定值。

优选地，在所述装置中，所述交通流、受控车辆状态矢量、交通信号灯状态通过L2范数统一到相同的度量范围中。

优选地，在所述装置中，所述DQN网络模型通过下述步骤进行训练：

S201、仿真生成受控车辆的状态信息；

S203、按照启动决策对受控车辆进行控制；

与现有技术相比，本发明具有下述有益技术效果：

(1)当车辆停止后，本发明的技术方案能够根据车辆当前状态判断车辆是否启动，以在不额外增加时间成本的基础上，减少车辆启停，从而减少启动能耗。

(2)通过DQN网络模型作为车辆启动优化控制模型，能够在较少样本的情况下，实现较快的学习，减少训练时间，且预测准确性高。

(3)通过采用基于栅格灰度图的受控车辆周围交通流状态表达，以克服由于有限范围车辆数的变化，导致传统的以每个车辆单独状态表达的方式存在状态长度不固定的问题，从而有利于DQN网络模型对规则的学习。

(4)通过将车辆状态信息进行统一到相同的度量范围，实现多源信息融合。

(5)通过仿真获得训练数据，能够减少数据噪音和对数据的预处理操作，快速验证方法和/或装置的有效性；通过设置记忆池，可提高DQN网络模型的泛化能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1、本发明基于融合交通信息的车辆启动优化控制流程示意图；

图2、基于栅格灰度图交通流表示法的示意图；

图3、为深度残差网络的完整结构示意图；

图4、为具体的残差基础块结构的一个示意图；

图5、为具体的残差基础块结构的另一示意图；

图6、状态量的级联示意图；

图7、本发明基于融合交通信息的车辆启动优化控制示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

在实施例1中，采用如图1所示的方法，实现车辆启动优化控制。该方法包括下述步骤：

S200、在车辆停止时，通过车辆启动优化控制模型基于状态信息判断下一时刻受控车辆是否启动。

在实施例1中，车辆网环境下的车辆启动优化控制，触发条件是在车辆停车或怠速的状态，然后启动车辆的启动优化控制，即：根据车辆当前状态判断车辆是否启动，以在不额外增加时间成本的基础上，减少车辆启停，从而减少启动能耗。

所述交通流为受控车辆能获得其当前位置前后设定范围内的其它非控制车辆的位置和车速；所述受控车辆状态矢量包括受控车辆的位置和车速；所述交通信号灯状态包括信号灯的相位和持续时间。交通信号灯配时固定时长、不固定时长均可。所述车辆启动优化控制模型中在下述假设基础上，建立了车辆状态信息和是否启动之间的对应关系。假设包括：

受控车辆在行驶过程中，符合智能驾驶模型；不随车流量或时间变化而变化。由于在融合交通信息的受控车辆周围车辆参数获取中，车辆之间的通讯往往会受到距离的限制，因此只能获取有限范围的周围车辆状态信息，故设定受控车辆能够获取车辆当前位置前后100米内的信息，包括车流分布和周围车辆的速度分布等；车辆严格遵守交通规则。

优选地，所述交通流基于栅格灰度图获得，并进一步地通过深度残差网络处理为一维数据；所述基于栅格灰度图为以受控车辆为轴心、前后各L距离长度的区域的栅格地图；L为设定值。进一步地，所述交通流、受控车辆状态矢量、交通信号灯状态通过L2范数统一到相同的度量范围中。

采用基于栅格灰度图的受控车辆周围交通流状态表达，可以克服由于有限范围车辆数的变化，传统的以每个车辆单独状态表达的方式存在状态长度不固定的问题。

如图2所示，车辆由不同颜色不同大小的长方形代表，车辆的长度直接由长方形的长度来表示。以单向车道的信息，在信息提取过程中只提取了单线三车道的信息。交通流信息的提取步骤如下：

1)首先，以受控车辆为轴心，前后L为获取受控车辆前后车流量信息的范围，在车辆行驶方向，以米为单位进行离散受控车辆前后各L距离长度的区域，横向以车道为单位进行离散，获得受控车辆周围的栅格地图，本发明假设L为100米；

2)从实际交通流中首先将车辆的位置和车辆大小提取出来，依据离散位置离散到位置栅格地图中，未完全占满的栅格按完整处理，如图2中间的三车道位置栅格信息所示；

3)计算提取受控车辆及其前后L范围内的车辆速度，根据车辆车速对相应的栅格做灰度处理，车速从0-120km/h灰度划分为255(1-256)个点，离散点无车时，该点置为零代表此处无车辆，提取车辆位置、大小和速度信息后得到如图2最上面的三车道速度灰度栅格信息所示交通流信息。

上述基于栅格灰度图交通流表示法中，将交通流信息处理成了数据维度不随位置变化而尺度变化的灰度图数据。其中L为100m，车道数目为3，此每次栅格灰度图中交通流包含200×3＝600维，每个点有256种状态可能。因此，需要在原来数据的基础上进行降维处理，可采用基于深度残差网络实现对灰度图像数据的表征提取的同时实现降维。

为此，建立一个具有50层的深度残差网络，其结构如图3～5所示。图3所示为深度残差网络的完整网络结构，主要由卷积层、批量标准化、激活函数、最大池化层(Maxpooling)、卷积模块(Conv Blocks)、特征模块(Identity Blocks)、平均池化层(Averagepooling)等组成。图4和5所示为具体的残差基础块结构，两者的区别在于短连接(shortcutconnection)的结构不同，图4为直接连接，图5)为通过CNN模块和Batch Norm实现短连接。深度残差网络的完整网络结构中包含多组残差基础块，每组基础块由一个Conv Block和几个Identity Block组成。本发明所用的深层残差网络的卷积块参数如表1所示，例如Conv3由1个Conv Bloc和2个Identity Block组成，和2个Identity B1_ock组成，总共3个block。至此，多维度的交通状态特征数据表示可简化为有2048种可能的一维数组。

表1

通过深度残差网络把多维数据降成一维数据，而车辆状态矢量和交通信号灯状态分别为3维和2维数据，通过L2范数规范化三个状态向量，将三个不同维度的向量统一到相同的度量范围中，再将各向量级联成一个向量作为受控车辆的状态向量，如图6所示，实现多源信息融合，以方便建立车辆状态信息和是否启动之间的对应关系。

优选地，所述车辆启动优化控制模型采用DQN网络模型实现。在所述方法中，所述DQN网络模型通过下述步骤进行训练：

S201、仿真生成受控车辆的状态信息；

S203、按照启动决策对受控车辆进行控制；

在上述训练过程中，启动决策为车辆是否前进的布尔值。在本实施例中，若车辆启动行驶，则启动决策为1，若车辆停车等待，则启动决策为0。奖励的计算以速度工况所需的功率和工况所需的时间为参考。以公交车节能和高效为目的，因此优选将奖励的计算函数设计为如下形式：

公式1中：

代表奖励中的时间因素的权重因子；Tt_req代表需求的时间。

在实施例2中，采用了一种装置，实现基于融合交通信息的车辆启动优化控制。所述装置包括智能体模块、环境模块。所述智能体模块，用于在车辆停车或怠速时，获取当前交通流、受控车辆状态矢量、交通信号灯状态、以及交通信号灯距离受控车辆的距离作为受控车辆的状态信息；在车辆停止时，通过车辆启动优化控制模型基于状态信息判断下一时刻受控车辆是否启动；并将判断结果发送给环境模块；所述环境模块，用于接收智能体模块的判断结果，并将该判断结果作用于受控车辆。智能体模块和环境模块相互配合，控制受控车辆在停止时是否启动，以在不额外增加时间成本的基础上，减少车辆启停。

在实施例2中，交通信号灯配时固定时长、不固定时长均可。车辆网环境下的车辆启动优化控制的主要架构如图7融合交通信息车辆启动优化控制所示。当车辆停止后，智能体模块根据车辆当前状态判断车辆是否启动，以在不额外增加时间成本的基础上，减少车辆启停，从而减少启动能耗。

优选地，智能体模块中的车辆启动优化控制模型采用DQN网络模型实现。基于DQN网络模型的车辆启动优化控制过程满足以下基本假设：在SUMO仿真环境下车辆行驶过程的跟随模型不变，即符合IDM跟随模型；受控车辆能够获取车辆当前位置前后各100米的信息，包括车流分布和周围车辆的速度分布等；车辆严格遵循交通规则。基于强化学习的车辆启动优化控制中，状态量包括交通流、受控车辆所在的位置、以及交通信号灯的配位、配时和距受控车辆的距离，交通流指的是仿真路网上受控车辆前后100米范围内的其他非控制车辆的位置和车速；奖励函数是行程时间；控制动作是车辆是否启动，即控制动作为启动策略。

作为DQN网络模型输入的状态量，包括交通流数据、受控车辆状态矢量、交通信号灯状态，这些数据的获取以及处理过程同实施例1中的方法，最后获取三者级联的一维状态向量，如图6所示。

在实施例2中，DQN网络模型的训练过程中，受控车辆沿公交线路循环运行，仿真具体流程如下：

(1)依据SUMO交通流设置，运行SUMO交通路网仿真，受控公交车出发，通过SUMO端服务器以UDP协议方式发送交通流数据，包括受控车辆车速、车辆位置所在道路路段坡道、路面类型、下一交叉口信号灯相位及配时、受控车辆前后100m范围非控制车辆的车速及位置。

(2)运行MATLAB仿真环境或其它仿真下的深度强化学习算法，初始化动作价值网络Q参数θ₀和目标价值函数Q^*参数

初始化记忆池；将来自SUMO的交通流数据、受控车辆的位置及车道、交通信号灯的信息等建立级联状态变量sta_t；

(3)判断受控车辆是否处于停止状态：若受控车辆处于停止状体，根据ε贪婪策略随机选择车辆启动行为动作act_t，否则根据目标价值网络选择动作价值函数最大的启动行为动作，并将启动决策通过MATLAB端服务器发送给SUMO端；若受控车辆处于行驶状态，继续进行交通流仿真，不对其进行干扰；

(4)SUMO端服务器收到MATLAB端的启动指令决策后，SUMO交通路网仿真系统按照启动行为决策对受控车辆控制，并将运行1s后的交通流数据发送回MATLAB端；

(5)MATLAB环境下强化学习智能体根据反馈信息计算奖励r_t，根据返回的交通流数据级联下一时刻状态量sta_t+1；

(6)将(sta_t，act_t，r_t，sta_t+1)作为一组经验样本存储到记忆池，若记忆池中的样本数超出记忆池容量N，将初始存储的经验样本剔除；用于优化启动行为的智能体模块随机从记忆池中选择一定量的经验样本，并采用梯度下降方式更新DQN网络模型Q(sta，act；θ)；

(7)每优化DQN网络模型Q(sta，act；θ)迭代20次，更新DQN网络模型一次，即Q^*(sta，act；θ)＝Q(sta，act；θ)；

(8)重复(1)～(7)直到DQN网络稳定即算法收敛或达到设定的最大迭代次数。

上述过程中，动作act_t的值为车辆是否前进的布尔值，若车辆启动行驶，则为1；若车辆停车等待，则为0。奖励r_t的计算同公式1。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本公开方法和/或可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于融合交通信息的车辆启动优化控制方法，其特征在于，所述方法包括下述步骤：

所述受控车辆状态矢量包括受控车辆的位置和车速；

所述交通信号灯状态包括信号灯的相位和持续时间；

受控车辆符合智能驾驶模型，车辆遵守交通规则；

所述车辆启动优化控制模型采用DQN网络模型实现，所述DQN网络模型通过下述步骤进行训练：

S201、仿真生成受控车辆的状态信息；

S203、按照启动决策对受控车辆进行控制；

2.根据权利要求1所述的方法，其特征在于，所述交通流基于栅格灰度图获得，并进一步地通过深度残差网络处理为一维数据；

所述基于栅格灰度图为以受控车辆为轴心、前后各L距离长度的区域的栅格地图；L为设定值。

3.根据权利要求1所述的方法，其特征在于，所述交通流、受控车辆状态矢量、交通信号灯状态通过L2范数统一到相同的度量范围中。

4.一种基于融合交通信息的车辆启动优化控制装置，其特征在于，所述装置包括智能体模块、环境模块；

所述受控车辆状态矢量包括受控车辆的位置和车速；

所述交通信号灯状态包括信号灯的相位和持续时间；

受控车辆符合智能驾驶模型，车辆遵守交通规则；

S201、仿真生成受控车辆的状态信息；

S203、按照启动决策对受控车辆进行控制；

5.根据权利要求4所述的装置，其特征在于，所述交通流基于栅格灰度图获得，并进一步地通过深度残差网络处理为一维数据；

6.根据权利要求4所述的装置，其特征在于，所述交通流、受控车辆状态矢量、交通信号灯状态通过L2范数统一到相同的度量范围中。