CN116259175A

CN116259175A - 一种面向多样化动态信号灯模式的车速推荐方法及装置

Info

Publication number: CN116259175A
Application number: CN202211719951.5A
Authority: CN
Inventors: 赵东; 马华东; 朱波青; 丁立戈; 王兆丰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-13

Abstract

本发明公开了一种面向多样化动态信号灯模式的车速推荐方法及装置，首先根据邻接路口及自身路口的交通状况，利用相位感知注意力机制推测几秒后本路口各个车道的车辆数占比；然后根据前K个时间段的本路口各个车道的车辆数占比和推测的几秒后本路口各个车道的车辆数占比，利用模仿学习来近似估计信号灯的最优偏好，利用LSTM模型推测接下来一段时间的信号灯相位变化序列；最后根据预测的信号灯相位变化序列，结合多种传感器获取的交通状况，利用策略梯度强化学习的方法给出在多维数据影响下的对多个目标进行优化的绿灯最优速度。本发明可应用于城市道路的任意场景，且推荐速度为多目标最优速度，保证绿灯最优速度推荐算法的安全性、高效性和省时特性。

Description

一种面向多样化动态信号灯模式的车速推荐方法及装置

技术领域

本发明涉及车路协同、绿灯最优速度推荐技术领域，尤其涉及一种面向多样化动态信号灯模式的车速推荐方法及装置。

背景技术

绿灯最优速度推荐算法旨在提供合适的速度建议，可使车辆在信号灯为绿灯时通过交叉路口，从而减少停止等待的时间，提升整体交通通行效率以及减少车辆燃油消耗和二氧化碳的排放。该算法需要综合考虑交叉路口信号灯信息和车辆周围路况，使得所推荐的最优速度能够逼近多指标评价体系下的最优解。

绿灯最优速度推荐的相关概念早在20世纪就已被提出，根据交通信号灯模式和速度推荐形式可分为如下两类：

(1)基于已知交通信号灯信息推荐在一段路径上的最优速度。传统交通信号灯基本为固定轮询模式，信号灯在几个相位之间进行有序切换，相关信息固定已知。此时可以给出在整段道路上的匀速行驶速度，以使车辆在绿灯情况下通过路口。但这种方法过于理想化，车辆难以保证在整段道路上进行精准匀速运动，且在进行速度切换时，也会有速度差过大难以控制的问题。

(2)基于已知交通信号灯信息实时推荐最优速度。这种方法在进行速度推荐时是根据实时环境信息进行的实时速度建议，一般会采用深度强化学习相关算法进行模型训练。因此所推荐的速度是对于当前环境的最优速度，且也会注重推荐策略的长期影响。然而，为了提升通行效率，部分城市和地区已经采用智能信号灯控制策略，从而使得交通信号灯信息不可提前预知。在这种情况下，该种方法只能进行智能跟随前车的速度推荐，调控好坏极大程度上受前车的影响，且无法适应城市场景交通信号灯的限制。

而智能信号灯控制策略可分为如下两类：(1)基于规则的信号灯控制策略，该种方法可根据动态交通环境自适应地改变相位顺序和各自的持续时间。(2)基于深度强化学习的信号灯控制策略，该种方法可根据原始数据隐式预测交通变化，从而给出相较规则方式更优的信号灯控制策略。

由此可知，智能信号灯控制策略与车辆的时空变化紧密相关。而目前还没有面向智能信号灯的车速推荐方法的研究。

因此，本发明综合以上问题，提出了基于多样化动态信号灯模式下的最优速度推荐算法，通过将车辆与交通信号灯建模为相互协作的异构协同智能体，可对固定和智能模式下的信号灯进行预测，并且考虑多维信息的关联性，如交通状况、信号灯状况和周围路况，从而给出在完整行驶路径下的实时绿灯最优速度建议。

发明内容

本发明的目的是提出一种面向多样化动态信号灯模式的车速推荐方法及装置，基于异构协同的车速推荐方法，主要用于为城市道路上行驶的车辆提供合理车速建议，使用户可以获得更优的出行体验，在舒适性、快捷性、安全性等方面得到提升，克服传统绿灯最优速度建议方法的缺点和局限性，通过对交叉路口智能信号灯进行时空预测来与车速调控协作优化交通状况。

本发明基于当前交通流状况影响交叉路口信号灯的变化，因此可用交通流数据对信号灯变化进行预测，再通过毫米波雷达、GPS等多种传感器获取车辆周围感知信息，综合以上多因素信息可为用户提供整段路径上的最优速度规划，同时兼顾多个目标的优化，通过手机语音播报和界面显示的双重提醒，可达到安全高效辅助用户出行的目的。

为了实现上述目的，本发明提供如下技术方案：

第一方面，本发明提供一种面向多样化动态信号灯模式的车速推荐方法，包括以下步骤：

S1、根据邻接路口及自身路口的交通状况，利用相位感知注意力机制推测几秒后本路口各个车道的车辆数占比；

S2、根据前K个时间段的本路口各个车道的车辆数占比和推测的几秒后本路口各个车道的车辆数占比，利用模仿学习来近似估计信号灯的最优偏好，利用LSTM模型推测接下来一段时间的信号灯相位变化序列；

S3、根据预测的信号灯相位变化序列，结合多种传感器获取的交通状况，利用策略梯度强化学习的方法给出在多维数据影响下的对多个目标进行优化的绿灯最优速度。

进一步地，步骤S1的具体过程为：

S11、将本路口及其邻接路口的状态信息输入到全连接网络中提取出隐藏特征H_j；状态信息包括每个驶入车道的等待车辆数和当前信号灯相位；

S12、计算出相位感知注意力分数α_ji：

其中r_ji是相位感知注意力分数的相关系数，计算公式如下：

其中，连通与非连通表示从I_j到I_i由于信号灯的影响是否可通行，β为超参数，用来平衡不同路口对本路口之间的影响，设置数值为0.5；

为本路口I_i的所有邻接路口到本路口的通行时间的平均值，

表示与本路口I_i在地理上有邻接关系的路口集合；T_ji为邻接路口I_j到本路口I_i的平均通行时间，通过邻接路口I_j和本路口I_i之间的距离和平均行驶速度计算出；

S13、将每个路口的隐藏特征H_j和相应的相位感知注意力分数α_ji进行结合：

其中W_q、W_c为权重矩阵，b_q为偏差向量；

S14、利用全连接网络得到最终的本路口每个驶入车道的车辆数占比

进一步地，步骤S2的具体过程为：

S21、以n秒为时间间隔，输出t′秒后的信号灯预测相位序列

S22、对每个预测值单独训练，每个训练模型得出本路口I_i每个信号灯相位的概率分布

最终信号灯预测相位为：

S23、经由一层LSTM网络和两层全连接网络，最终的激活函数为softmax函数，得出每个信号灯相位的概率分布。

进一步地，步骤S3中的多种传感器包括：

部署在车辆保险杠前端的毫米波雷达和部署在车内用于连接毫米波雷达的蓝牙转换器，用于持续监测与前方车辆的相对位置和相对速度；

驾驶员手机中的GPS和加速计，用于实时获取车辆自身的位置信息和速度；

以及道路基础设施的摄像头，用于捕获全局交通状况。

进一步地，步骤S3中获取的交通状况包括局部信息

和全局信息

局部信息包括：车辆速度v_t、与前方车辆的相对速度Δv_t和相对距离Δs_t；全局信息包括当前位置距离前方信号灯的距离d_t和预计到达时间ΔT_t，以及信号灯预测相位序列

进一步地，步骤S3对多个目标进行优化，包括从车辆的旅行时间、安全性和绿灯通过率三个方面进行了奖励函数的设置，其中：

车辆的旅行时间的奖励函数设置公式如下：

其中，v_max表示城市道路中的限速，即允许行驶的最大速度；v_t表示当前时刻车辆自身速度值，k是该公式中的超参数，使得kv_t的最大值为1；

采用碰撞时间来衡量潜在危险行为的发生概率，安全性奖励函数设置公式如下：

其中，η是该公式中的超参数，意为安全距离，被设置为0.8；

车辆的绿灯通过率的奖励函数为R₃，根据车辆通过路口的预测时间和预测相位来计算车辆是否在未来为绿灯通行，绿灯时为1，否则为-1；

最终的奖励函数为R＝R₁+R₂+R₃。

进一步地，步骤S3的策略梯度强化学习模型训练过程采用贝尔曼方程得到最优累计折扣奖励值。

进一步地，步骤S3的策略梯度强化学习模型训练过程为：将状态S_t，动作a_t，奖励r_t以及下一个时间步的状态S_t+1以元组形式[S_t，a_t,r_t,S_t+1]存储到记忆池中，每次随机抽取一批数据进行训练，actor网络的梯度更新方向为提升其优势值，损失函数为：

其中，

为actor行为网络p_θ(s，a)和actor目标网络p′_θ(s，a)之间的比值，使用clip()函数将更新幅度限制在[1-ε，1+ε]之间，其中的优势值为：

其中，γ表示折扣值，

和

分别为critic行为网络和critic策略网络的价值函数值，critic网络的损失函数为：

进一步地，步骤S3给出的绿灯最优速度以加速度a_t输出，加速度的取值范围设置为[-4m/s²，2m/s²]。

第二方面，本发明还提供了一种面向多样化动态信号灯模式的车速推荐装置，所述装置包括以下模块，以实现上述任一项所述的面向多样化动态信号灯模式的车速推荐方法的步骤：

车流时空关系推理模块，用于根据邻接路口及自身路口的交通状况，利用相位感知注意力机制推测几秒后本路口各个车道的车辆数占比；

信号灯行为近似模块，用于根据前K个时间段的本路口各个车道的车辆数占比和推测的几秒后本路口各个车道的车辆数占比，利用模仿学习来近似估计信号灯的最优偏好，利用LSTM模型推测接下来一段时间的信号灯相位变化序列；

速度推荐模块，用于根据预测的信号灯相位变化序列，结合多种传感器获取的交通状况，利用策略梯度强化学习的方法给出在多维数据影响下的对多个目标进行优化的绿灯最优速度。

第三方面，本发明还提供一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一面向多样化动态信号灯模式的车速推荐方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一面向多样化动态信号灯模式的车速推荐方法的步骤。

与现有技术相比，本发明的有益效果为：

现有的绿灯最优速度推荐算法存在以下缺点：一方面，用户参与度不高，场景受限。为了保证推荐速度逼近最优解，以往算法往往基于确切固定的信号灯控制策略下进行速度推荐，但当前部分城市和地区已经开始应用智能信号灯进行交通调控，其特点是信号灯信息不能提前预知，这在很大程度上影响了用户参与度；另外一些方法聚焦于利用周围信息进行速度推荐，例如被调控车辆以最佳速度平稳跟随前车，这种只考虑前车信息的方法强依赖于前方车辆的调控好坏，在实际的应用过程中，用户往往因场景受限而无法保证使用效率。另一方面，速度推荐效率低，推荐目标单一。现有的速度推荐方法只注重给用户提供在单一目标下的速度，例如在省时模式下的最快速度，在省油模式下的最节省油耗的速度，或者是在舒适模式下的基于闭环的平稳速度。这些策略的逻辑过于简单，不能满足用户的多种需求。

相比之下，本发明提出的面向多样化动态信号灯模式的车速推荐方法及装置，可应用于城市道路的任意场景，且推荐速度为多目标最优速度。根据智能信号灯控制策略与交通流状况紧密相关进行反推理，从而预测未来一段时间的信号灯相位序列，使得车速推荐场景不再受限于固定的交通灯调控场景；与此同时，本发明将车辆周围信息与整体交通信息作为综合考虑因素，也不再局限于跟随前车的场景。此外，通过深度强化学习中的奖励函数设置，也能保证了绿灯最优速度推荐算法的安全性、高效性和省时特性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向多样化动态信号灯模式的车速推荐方法及装置的系统架构示意图。

图2为本发明实施例提供的手机端速度推荐界面。

图3为本发明实施例提供的实现面向多样化动态信号灯模式的车速推荐方法及装置的一种电子设备结构示意图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实例仅仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的面向多样化动态信号灯模式的车速推荐方法和装置整体系统架构如图1所示，包括车流时空关系推理模块、信号灯行为近似模块和速度推荐模块，车流时空关系推理模块根据周围路口及自身路口的交通状况推测几秒后本路口各个车道的车辆数百分比情况；信号灯行为近似模块将信号灯时空关系推理模块的输出作为输入，并利用模仿学习来近似估计信号灯的最优偏好，从而推测接下来一段时间信号灯相位变化序列；接下来速度推荐模块根据上一个模块预测的信号灯相位变化序列，结合多种传感器获取的交通状况利用策略梯度强化学习的方法来给出在多维数据影响下的对多个目标进行优化的绿灯最优速度。

(1)车流时空关系推理模块

车流时空关系推理模块需要借助在时间和空间上有关联的邻近路口信息来推测本路口未来一段时间的车流变化情况。在空间关系上，需要考虑多智能体路口之间的时空关联性来推理在未来一段时间可能驶入本路口的车辆；时间关系上，需要结合信号灯变化情况以及信号灯所影响的车道内车辆情况来推理本路口未来一段时间的车辆变化。尽管之前有很多工作能够对道路状况进行预测，但这些工作一般集中于区域级、分钟级的道路变化情况，无法做到车道级、分秒级的细粒度精确预测推理。由于道路网络之间的连接关系，图注意力机制可通过注意力分数反映各个路口之间的影响程度。但信号灯的变化频率以及对车流量形成的瞬时差异使得单纯的图注意力机制无法企及，因此本发明提出一种相位感知注意力机制。

首先将本路口及其邻接路口的状态信息(每个驶入车道的等待车辆数和当前信号灯相位)输入到全连接网络中提取出隐藏特征H_j。然后计算出相位感知注意力分数，这里本方法通过邻接路口I_j和本路口I_i之间的距离和平均行驶速度计算出I_j到I_i的平均通行时间T_ji,而本路口I_i的所有邻接路口到本路口的通行时间的平均值为

其中

表示与本路口I_i在地理上有邻接关系的路口集合。由此可以计算出其注意力分数的相关系数:

其中，连通与非连通表示从I_j到I_i由于信号灯的影响是否可通行。β为该公式的超参数，用来平衡不同路口对本路口之间的影响，这里设置数值为0.5，接下来可以使用softmax()函数来对相关系数进行规范化处理，得到最终的注意力分数：

相位感知注意力机制反映了不同路口对本路口的影响，需要注意，本路口对自身的影响最为强烈。

接下来将每个路口的隐藏特征H_j和相应的注意力分数α_ji进行结合：

其中W_q、W_c为权重矩阵，b_q为偏差向量。然后再利用全连接网络得到最终的本路口每个驶入车道的车辆数占比

(2)信号灯行为近似模块

信号灯行为近似模块旨在预测信号灯未来一段时间的相位变化。对于智能信号灯，其控制策略需要利用驶入车道车辆分布和当前的信号灯相位情况来决定未来的调控方向。一般情况下，可使用离线监督学习方式借助海量数据资源进行策略推断，如图像分类技术。但信号灯控制策略具有长尾效应，其策略为实时序列决策，会对未来一段时间产生影响。因此，这里需要通过具有时空关联性的历史观测数据进行信号灯控制策略的拟合。模仿学习可以进行策略的逻辑和偏好的提取，而LSTM(Long Short-Term Memory)模型可进行相位序列的时间关联性提取。这两项技术的具体使用方法如下：

首先，输入为前K个时间段的历史观测数据(信号灯相位和路口驶入车道的车辆数占比)和由第一个模块得到的路口驶入车道的预测车辆数占比。输出为t′s后的信号灯相位，以20s为间隔(即20s，40s，60s)，目前输出未来一分钟内的预测相位序列

三次预测值单独训练，即有三个独立模型。每个模型都会得出路口I_i每个信号灯相位的概率分布

最终结果预测相位为：

网络部分先后经由一层LSTM网络和两层全连接网络，最终的激活函数为softmax()函数，可以得出每个相位的概率分布。其余设置如优化器使用Adam优化器，损失函数为交叉熵损失函数。

(3)速度推荐模块

速度推荐模块使用强化学习方法中的PPO(proximal policy optimization)算法，该方法被证明在多个场景中都能达到更优的结果，且更适合处理连续空间控制问题。PPO算法是AC(Actor-Critic)体系中的一种算法，该体系一般采用多个actor进行信息收集，使用一个集中的critic进行策略控制，保证信息收集的全面性和调控的统一性。下面分别对智能体设计和模型训练进行介绍。

(A)智能体设计

首先需要对车辆的实时环境信息进行准确、全面、完整的信息获取，因此，本算法提取了如下信息作为强化学习模型的输入S_t，分为局部信息

和全局信息

局部信息包括：车辆速度v_t、与前方车辆的相对速度Δv_t和相对距离Δs_t。全局信息包括当前位置距离前方信号灯的距离d_t和预计到达时间ΔT_t，以及通过第二个模块得到的预测信号灯序列

这里需要将以上信息进行归一化处理消除信息维度差异带来的权重分配的影响，然后通过神经网络得到模型的输出——加速度a_t。加速度相比直接输出速度，更加注重车辆行驶轨迹的平滑性，消除了速度差变化剧烈难以控制带来的影响,本发明中的加速度取值范围设置为[-4m/s²，2m/s²]。而本发明中的最优速度推荐算法另一亮点还在于奖励函数的设置。

强化学习的奖励函数设置是其中的关键环节，决定了模型的优化方向，且最终目的为最大化长期累积奖励函数值。而本算法的目标是给车辆提供基于当前环境下的最优速度，使用户获得满意的出行体验。在奖励函数设置方面，需要注重同时对多个目标进行优化，保证车辆速度建议的全局最优性。这里本方法对车辆的旅行时间、安全性和绿灯通过率三个方面进行了考虑。进行了奖励函数的设置：

首先，为了使车辆以正常速度行驶，并且尽可能减少旅行时间消耗，本方法进行了与车辆速度有关的奖励函数设置，公式如下：

其中，v_max表示城市道路中的限速，即允许行驶的最大速度。v_t表示当前时刻车辆自身速度值，k是该公式中的超参数，使得kv_a的最大值为1。

第二项注重车辆在行驶过程中的安全性，这里只考虑道路其余车辆造成的危险性，因此本发明采用碰撞时间TTC(Time To Collision)来衡量潜在危险行为的发生概率，公式如下：

η是该公式中的超参数，意为安全距离，被设置为0.8。

第三项R₃为车辆的绿灯通过率，车辆是否在信号灯为绿灯时刚好通过红绿灯在实时调控的过程中是小概率发生事件，会带来稀疏奖励的影响。因此，本发明根据车辆通过路口的预测时间和预测相位来计算车辆是否在未来为绿灯通行，绿灯时为1，否则为-1。

综上，可以得到了最终的奖励函数为R＝R₁+R₂+R₃。

(B)模型训练

模型训练的关键思想是采用贝尔曼方程得到最优累计折扣奖励值。在本算法中，多个actor进行信息收集，将状态S_t，动作a_t，奖励r_t以及下一个时间步的状态S_t+1以元组形式[S_t，a_t,r_t,S_t+1]存储到记忆池中，每次随机抽取一批数据进行训练，一般为128。actor网络的梯度更新方向为提升其优势值,损失函数为：

其中，

为actor行为网络p_θ(s，a)和actor目标网络p′_θ(s，a)之间的比值，为了保证渐进式更新，本方法使用clip()函数将更新幅度限制在[1-ε，1+ε]之间，其中的优势值为：

其中，γ表示折扣值，

和

分别为critic行为网络和critic策略网络的价值函数值。critic网络的损失函数为：

至此，可以得到算法推荐的最优速度。

此外，为了便于在实际行驶过程使用，本发明利用智能手机便于携带的特点，进行了原型系统的开发工作，帮助用户实时获取最优速度建议，优化出行体验。所需信息都可通过感知设备得出。例如，可以将毫米波雷达部署在车辆保险杠前端，所连接的蓝牙转换器部署在车内，以此可持续监测与前方车辆的相对位置和相对速度；手机中的GPS、加速计也可实时获取车辆自身的位置信息和速度；道路基础设施如摄像头也可捕获全局交通状况。以上信息都可通过5G、WiFi等通信技术上传至云端服务器进行信息处理利用。

在实际使用过程中，需要用户在使用该APP时打开蓝牙设置，输入目的地进行导航，该APP会通过语音播报和界面显示的方法给用户进行实时速度推荐。速度推荐界面如图2所示。该界面借助高德导航相关组件，有当前行驶路径和当前速度等信息显示。

相应于上述本发明实施例提供的一种基于视频生成毫米波雷达数据的装置，本发明实施例还提供了一种电子设备。

如图3所示，该电子设备包括处理器201、通信接口202、存储器203和通信总线204，其中，处理器201，通信接口202，存储器203通过通信总线204完成相互间的通信，

存储器203，用于存放计算机程序；

处理器201，用于执行存储器203上所存放的程序时，实现上述本发明实施例提供的任一面向多样化动态信号灯模式的车速推荐方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一面向多样化动态信号灯模式的车速推荐方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一面向多样化动态信号灯模式的车速推荐方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字终端设备线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种面向多样化动态信号灯模式的车速推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S1的具体过程为：

S12、计算出相位感知注意力分数α_ji：

其中r_ji是相位感知注意力分数的相关系数，计算公式如下：

为本路口I_i的所有邻接路口到本路口的通行时间的平均值，

其中W_q、W_c为权重矩阵，b_q为偏差向量；

3.根据权利要求1所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S2的具体过程为：

S21、以n秒为时间间隔，输出t′秒后的信号灯预测相位序列

最终信号灯预测相位为：

4.根据权利要求1所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S3中的多种传感器包括：

以及道路基础设施的摄像头，用于捕获全局交通状况。

5.根据权利要求4所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S3中获取的交通状况包括局部信息

和全局信息

6.根据权利要求1所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S3对多个目标进行优化，包括从车辆的旅行时间、安全性和绿灯通过率三个方面进行了奖励函数的设置，其中：

车辆的旅行时间的奖励函数设置公式如下：

最终的奖励函数为R＝R₁+R₂+R₃。

7.根据权利要求6所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S3的策略梯度强化学习模型训练过程采用贝尔曼方程得到最优累计折扣奖励值。

8.根据权利要求7所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S3的策略梯度强化学习模型训练过程为：将状态S_t，动作a_t，奖励r_t以及下一个时间步的状态S_t+1以元组形式[S_t，a_t,r_t,S_t+1]存储到记忆池中，每次随机抽取一批数据进行训练，actor网络的梯度更新方向为提升其优势值，损失函数为：

其中，

其中，γ表示折扣值，

和

9.根据权利要求1所述的面向多样化动态信号灯模式的车速推荐方法，其特征在于，步骤S3给出的绿灯最优速度以加速度a_t输出，加速度的取值范围设置为[-4m/s²，2m/s²]。

10.一种面向多样化动态信号灯模式的车速推荐装置，其特征在于，所述装置包括以下模块，以实现权利要求1-9任一项所述的方法：