CN112339756A

CN112339756A - 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法

Info

Publication number: CN112339756A
Application number: CN202011098570.0A
Authority: CN
Inventors: 宋康; 张榆川; 谢辉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-02-09
Anticipated expiration: 2040-10-14
Also published as: CN112339756B

Abstract

本发明公开了一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，包括以下步骤：步骤1，判断车辆是否可以在当前限速下通过路口，如果可以通过执行步骤5；如果不能通过刹停执行步骤2；步骤2，由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程；步骤3，计算在步骤2中车辆获得的奖励值；步骤4，根据步骤3中得到的奖励值，对Q表或神经网络进行训练学习和更新，如果Q表或神经网络已经收敛，则执行步骤5；如果未收敛，则再返回执行步骤2；步骤5，如果上一步骤是步骤4，得到满足条件的优化车速曲线并发送给车辆执行，如果上一步骤是步骤1，由驾驶员规划车速。本发明可实现制动能量的最大化回收。

Description

一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法

技术领域

本发明涉及智能网联汽车路口速度规划技术领域，特别是涉及一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法。

背景技术

在车辆制动过程中利用电机主动回收制动能量，是混合动力汽车、纯电动汽车等新能源汽车实现节能的重要技术途径。其中，红绿灯路口附近的减速制动过程，是新能源车辆运行中面临的典型场景。而路口的车速规划与制动策略，对于车辆的能效具有重要影响。然而，对于传统的车辆控制，由于控制系统能够无法提前获取路口信息，因此，行车过程的速度主要取决于驾驶员的主观判断。由于该过程受到驾驶风格和驾驶经验等多种因素对影响，车辆难以最大化地回收制动动能。

近年来，随着国家智能网联战略的推进和实施，车辆与交通设施、车辆与云，以及车辆与车辆之间的互联逐步实现，走入大众生活。智能网联汽车成为解决城市交通问题、提高车辆通行效率、降低车辆能耗的一种新手段。例如，通过在红绿灯路口建立车载设备与路测设备通信的V2I(Vehicle to Infrastructure)系统，车辆控制系统能够提前获取红绿灯路口的交通信息。在这样的条件下，控制系统可以对车辆的制动过程进行多目标优化，有望改善能量回收效率、路口通行效率，以及驾驶平顺性等。

然而，欲解决上述多目标优化问题，传统方法往往需要准确的车辆和交通信息模型。由于模型的精确建立比较困难，传统方法在实际应用中受到制约。近些年来，随着机器学习的发展，一些具备反馈迭代能力的人工智能优化算法得到了广泛应用在不同领域取得了理想的效果。

例如，在混动车辆结合交通信息进行能量管理方面，候立良(侯立良.基于交通信息的插电式混合动力汽车能量管理策略实验研究[D].重庆：重庆大学,2018)采用遗传算法获得行驶距离、等效因子、SOC等初始参数值map图，根据未来路段平均车速采用动态规划生成SOC参考曲线，改进了等效燃油消耗最小策略，使运行成本下降了5.6％。高俊(高俊.面向PHEV能量管理的短期工况预测与长期交通信息生成技术研究[D].重庆：重庆大学,2018)提出了融合随机过程与机器学习的组合预测算法，采用神经网络加马尔科夫链对面向PHEV能量管理的短期工况进行了预测，结合模型预测控制实现了能耗成本的降低。陈达奇(陈达奇.考虑实时交通信息的插电式混合动力汽车预测能量管理策略研究[D].重庆：重庆大学,2018)提出了基于支持向量机(SVM)工况识别的预测方法，采用SVM对指数预测模型中的衰减因子进行工况识别从而优化了车速预测效果，结合模型预测控制经济性提高了6.18％。但是，上述研究均只考虑了通过交通监管平台、地图导航运营商采集的路段车速、拥堵情况等较为粗略的宏观交通信息，并未能反映如红绿灯时间等瞬态的、实时的、局部的路况信息。

在路口车速规划方面，孟竹(孟竹.V2I环境下面向最小油耗的信号交叉口单车车速引导策略研究[D].武汉:武汉理工大学,2018)建立了车速-油耗微观模型，考虑V2I信息划分了通过红绿灯路口的不同场景并建立了对应的速度控制算法，通过仿真和实车验证证明能够将油耗水平降低17％；但该研究假设车辆匀加速或匀减速后再匀速行驶或停车，考虑场景较为简单。余开江(余开江，许孝卓，胡治国，等.基于交通信号灯信息的混合动力汽车节能预测控制方法[J].河北科技大学学报:2015,35(5):480-485)等建立了匀速行驶和及时通过信号灯路口的最优控制问题模型和评价函数，使燃油经济性提高了1.79％；但该方法需要采用哈密尔顿函数求解，较为复杂。张博等(张博，郭戈，王丽媛，等.基于信号灯状态的燃油最优车速规划与控制[J].自动化学报:2018,44(3):461-470)通过V2I反馈信息的预测，对不停车通过信号灯的速度进行了规划，通过模型预测控制计算了车辆最优控制输入，实现了油耗的降低；但该方法只考虑了不停车通过路口的场景，缺少对不能通过路口需在路口前停车的考虑。且上述研究主要面向燃油车，缺少对新能源汽车、尤其是在其能量回收方面的相关研究。

发明内容

本发明的目的是针对现有技术中存在的路口速度规划存在局限性的问题，而提供一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，对车辆的制动过程进行多目标优化，提高车辆考虑能量回收、驾驶平顺性、行驶效率的综合效益。其中，强化学习作为机器学习中的一种代表性算法，具有不依赖模型、具备自主迭代自学习的优点。

为实现本发明的目的所采用的技术方案是：

一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，包括以下步骤：

步骤1，根据V2I信息获取车辆距离路口的距离以及信号灯状态和剩余时间，判断车辆是否可以在当前限速下通过路口，如果可以通过，则执行步骤5；如果不能通过，需要刹停，则执行步骤2；

步骤2，由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程；

步骤3，计算在步骤2中车辆获得的奖励值；

步骤4，根据步骤3中得到的奖励值，对Q表或神经网络进行训练学习和更新，如果Q表或神经网络已经收敛，则执行步骤5；如果未收敛，则再返回执行步骤2；

步骤5，如果上一步骤是步骤4，在对步骤2、3、4进行反复迭代Q表或神经网络达到收敛后，得到满足条件的优化车速曲线并发送给车辆执行，如果上一步骤是步骤1，由驾驶员规划车速。

在上述技术方案中，所述步骤1中根据V2I信息包括车辆进入V2I通信范围时初始时刻距离路口的距离x₀、车速v₀、红绿灯的状态、剩余时间t₀以及当前限速v_max。

在上述技术方案中，所述步骤2中由强化学习算法模拟车辆制动过程为：将车辆当前时刻距离路口的距离x_t以及车速v_t输入给Q表或神经网络，有ε的概率由其输出当前时刻车辆应采取的减速度值a_t，有1-ε的概率不通过Q表或神经网络决策而从离散的减速度取值集合中随机选择减速度值，ε为决策贪心率，其值介于0到1，将x_t、v_t、a_t输入到所述车辆仿真模型执行，计算得到下一采样时刻车辆距离路口的距离x_t+1、车速v_t+1，并进行迭代更新x_t＝x_t+1、v_t＝v_t+1。

在上述技术方案中，所述步骤3中，如果x_t≥0且v_t≥0，t时刻总奖励值定义为R_t＝β₁R_distance+β₂R_soc+β₃R_a，β₁、β₂、β₃为三种不同奖励值的权重，SOC增量的奖励值R_soc＝SOC_t-SOC_t-1，SOC值由所述车辆仿真模型给出，到路口距离的奖励值为

驾驶平顺性的奖励值为R_a＝a_t-a_t-1，如果x_t和v_t超出边界，即x_t<0或v_t<0，则R_t为可标定参数，优选为-100。

在上述技术方案中，计算总奖励值前，对各奖励值按照下式

进行归一化处理，其中y′为归一化的数值，y为R_soc、R_distance或R_a，y_min为R_soc、R_distance或R_a的最小值，y_max为R_soc、R_distance或R_a的最大值。

在上述技术方案中，β₁>β₂>β₃。

在上述技术方案中，在强化学习算法中，强化学习的状态为s_t＝[x_t v_t]，动作为A_t＝a_t，边界条件为0≤x_t≤x₀，0≤v_t≤v₀，定义车辆从进入V2I通信范围初始时刻开始直到超出或到达状态的边界条件时的历程为一回合，定义每一时刻即求解的时间步长的决策更新为一步，每个回合由每一时刻每一单步的求解组成，当前状态在根据决策执行选择的动作后进入下一状态并由历史数据或车辆仿真模型反馈奖励值从而对Q表或神经网络进行学习更新，再进行下一步决策、往复进行，当达到或超过状态的边界条件时如x_t<0或v_t<0，该回合结束，进入下一回合的学习训练，重新回到初始状态、时间清零重新开始，直到获得确定的满足问题要求的结果，此时视为整个训练学习结束，输出动作序列作用于实际车辆执行。

在上述技术方案中，所述步骤4中，Q表是存储Q值的表格，其中存储了每个状态-动作对下的Q值，Q(x,v,a)＝Q(sⁱ,a)，其中

i＝(x₀-x_t)*(v₀+1)+(v₀+1)-v_t。

在上述技术方案中，所述步骤2和4中，用Q表进行学习时采用q-learning算法，在每一步决策更新结束后，依照公式Q(s_t,A_t)＝Q(s_t,A_t)+α(R+γQ_max(s_t+1)-Q(s_t,A_t))对Q值进行更新。其中，s_t表示t时刻状态，A_t表示t时刻动作；α为学习效率，表示对误差的学习多少程度；γ为折扣因子，表示对未来状态Q值的考虑程度；Q_max(s_t+1)表示下一时刻状态s_t+1所对应的最大Q值。

在上述技术方案中，所述步骤2和4中，用神经网络进行学习时，采用DQN算法。

与现有技术相比，本发明的有益效果是：

1.本发明针对纯电动及混合动力车辆，设计了针对红绿灯路口的车速规划算法，可以给无人驾驶车辆提供最佳速度规划或给人工驾驶车辆提供驾驶建议，实现制动能量的最大化回收，同时兼顾驾驶平顺性。

2.本发明所采用的强化学习算法不依赖于精确的对象模型，具备自学习能力可以快速适应不同车辆。

附图说明

图1是本发明算法的求解原理图。

图2是本算法执行的流程图。

图3是其中DQN算法的原理示意图。

图4、5是实施例2的车速、SOC的相关结果。

图6、7是实施例3的车速、SOC的相关结果。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

步骤1，判断车辆是否可以在当前限速下通过路口：根据通过V2I获得的路口交通信息和车辆自身状态信息判断车辆能否通过路口，具体包括车辆进入V2I通信范围时初始时刻距离路口的距离x₀、车速v₀、红绿灯的状态、剩余时间t₀以及当前限速v_max，如果可以通过，则执行步骤5；如果不能通过，需要刹停，则执行步骤2。

步骤2，由算法模拟车辆制动过程：将车辆当前时刻距离路口的当前距离x_t以及当前车速v_t输入给Q表或神经网络，有ε的概率由其输出当前时刻车辆应采取的减速度值a_t，有1-ε的概率不通过Q表或神经网络决策而从离散的减速度取值集合中随机选择减速度值(ε称为决策贪心率)。同时，将x_t、v_t、a_t输入到车辆仿真模型执行，计算得到下一采样时刻车辆距离路口的距离x_t+1、下一采样时刻车辆的车速v_t+1，并进行迭代更新x_t＝x_t+1、v_t＝v_t+1。

步骤3，计算步骤2中车辆仿真模型在执行a_t后所获得的奖励值：如果x_t≥0且v_t≥0，t时刻总奖励值定义为R_t＝β₁R_distance+β₂R_soc+β₃R_a，式中β₁、β₂、β₃为三种不同奖励值的权重。SOC增量的奖励值具体定义为R_soc＝SOC_t-SOC_t-1(SOC值由步骤2中车辆仿真模型给出)，到路口距离的奖励值具体定义为

驾驶平顺性的奖励值具体定义为R_a＝a_t-a_t-1。如果x_t和v_t超出边界，即x_t<0或v_t<0，则R_t＝-100。

步骤4，根据步骤3中得到的奖励值，对Q表或神经网络进行训练更新。如果Q表或神经网络已经收敛，则执行步骤5；如果未收敛，则再返回执行步骤2。若此时x_t<0或v_t<0，则重新令车辆回到初始状态，即令：x_t＝x₀，v_t＝v₀。

步骤5，生成车速曲线供车辆执行：如果上一步骤是步骤4，则由Q表或神经网络生成一条理想的经过优化的制动过程车速曲线，该曲线能满足车辆恰好在路口前减速刹停的要求，将得到的车速曲线发送给车辆执行；如果上一步骤是步骤1，说明车辆无需在路口刹停，由驾驶员规划车速。

作为优选的，所述步骤2中，车辆仿真模型通常在相关软件平台上进行建立，能够反映实际车辆的物理特性和运行规律，模拟车辆的实际运行过程，具体建模方法可参考《汽车发动机与传动系统建模及控制》(拉尔斯·埃里克松(Lars Eriksson).汽车发动机与传动系统建模及控制[M].北京:化学工业出版社,2018.)

作为优选的，所述步骤2中，定义强化学习的状态(state)为s_t＝[x_t v_t]，动作(action)为A_t＝a_t，边界条件为0≤x_t≤x₀，0≤v_t≤v₀，定义车辆从初始状态开始直到超出或到达状态的边界条件时的历程为一回合(eposide)，定义每一时刻即求解的时间步长的决策更新为一步(count)。每个回合是由每一时刻每一单步的求解组成的，如图1所示，当前状态在根据决策执行选择的动作后进入下一状态并由历史数据或模型反馈奖励值从而对Q表或神经网络进行学习更新，再进行下一步决策、往复进行。当达到或超过状态的边界条件时如x_t<0或v_t<0，该回合结束，进入下一回合的学习训练，重新回到初始状态、时间清零重新开始，直到获得确定的满足问题要求的结果。此时视为整个训练学习结束，输出动作序列作用于实际车辆执行。算法的整个流程如图2所示。

作为优选的，所述步骤2中，Q表是存储Q值的表格，其中存储了每个状态-动作对下的Q值(状态-动作需离散处理)。Q值表示了某个状态下采取某个动作所能获得的当前和未来回报的组合。需要注意的是由于Q表为二维，只能存储一个维度的状态，而本问题中状态具有两个维度，因此需要对两个维度的状态进行扁平化降维处理变为一维。如公式

i＝(x₀-x_t)*(v₀+1)+(v₀+1)-v_t所示，即对x和v的所有可能取值进行组合，不同的组合统一用sⁱ进行编号表示，Q(x,v,a)＝Q(sⁱ,a)。

作为优选的，所述步骤3中三项奖励值的设计反映了本问题的三个主要控制目标：车辆到路口前恰好减速为0刹停、尽可能多地回收电能、保证驾驶平顺性，由于上述三项奖励值代表的物理意义不同，数值差距比较大，所以在计算前均按需按照下式

进行归一化处理，y′为归一化的数值，y为R_soc、R_distance或R_a，y_min为R_soc、R_distance或R_a的最小值，y_max为R_soc、R_distance或R_a的最大值。式中相应的最值可由车辆的历史数据或者根据车辆仿真模型获得。三项奖励值的权重β₁、β₂、β₃可根据对不同控制目标的侧重进行取值，但为保证满足本问题的基本需求车辆到路口前恰好减速为0刹停，建议β₁>β₂>β₃。

作为优选的，所述步骤4中，如果选择用Q表进行学习即采用q-learning算法，则在每一步决策更新结束后，依照公式Q(s_t,A_t)＝Q(s_t,A_t)+α(R+γQ_max(s_t+1)-Q(s_t,A_t))对Q值进行更新。其中，s_t表示t时刻状态，A_t表示t时刻动作；α为学习效率，表示对误差的学习多少程度；γ为折扣因子，表示对未来状态Q值的考虑程度；Q_max(s_t+1)表示下一时刻状态s_t+1所对应的最大Q值。决策贪心率ε，其值介于0到1，随着训练次数和回合数的增加其值可逐渐增大。整个决策学习过程如下：从初始状态出发，有ε的概率在Q表中查找使对应状态下Q值最大的动作值并决定采用此动作，有1-ε的概率不按Q值进行决策而随机选择动作。

作为优选的，所述步骤2和4中，也可选择采用神经网络来拟合Q值、代替Q表，即采用DQN(deep q-network)算法。用神经网络来代替Q表格的方法为行业内技术人员所熟知的技术。具体可以参考：刘全，翟建伟，章宗长，等.深度强化学习综述[J].计算机学报:2018,41(1):1-27。

实施例2(采用基于Q表的q-learning方法)

步骤1，判断车辆是否可以在当前限速下通过路口：

设本例中x₀＝200m、v₀＝50km/h，车辆最大减速度a_limit＝2.5m/s²，由V2I获得此时路口为红灯且剩余时间为t₀＝40s。由于t₀>v₀/a_limit，表明车辆在该信号灯周期内仍无法通过路口，需要在路口前刹停，符合本算法使用场景。

步骤2，由算法模拟车辆制动过程：

值得说明的是，在初始时(第一回合第一步)默认Q表为空。将车辆当前时刻距离路口的距离x_t以及车速v_t输入给Q表，由其输出当前时刻车辆应采取的减速度值a_t。同时，将x_t、v_t、a_t输入到车辆仿真模型(本例中车辆仿真模型根据车辆实际参数在matlab-simulink中搭建)执行，计算得到下一采样时刻车辆的x_t+1、v_t+1，并进行迭代更新x_t＝x_t+1、v_t＝v_t+1。以上过程称为1步。

步骤3，计算步骤2中车辆仿真模型在执行a_t后所获得的奖励值：

即计算车辆在完成1步模拟计算之后的奖励值。如果x_t≥0且v_t≥0，t时刻总奖励值为R_t＝β₁R_distance+β₂R_soc+β₃R_a，此时均为鼓励式奖励(R_t>0)，β₁＝50、β₂＝30、β₃＝20，R_distance、R_soc、R_a的计算数据均由车辆仿真模型给出。如果x_t和v_t超出边界，即x_t<0或v_t<0，则施加惩罚性奖励R_t＝-100。

步骤4，根据步骤3中得到的奖励值，对Q表进行训练更新：

Q值更新公式为Q(s,a)＝Q(s,a)+α(R+γQ_max(s′)-Q(s,a))，在执行完每一步后需对Q值进行更新，并将更新的Q值存储在Q表中。如果Q表已经收敛，说明Q表的学习训练过程已完成，则执行步骤5；如果未收敛，则再返回执行步骤2，进行下一步的模拟计算与训练。若此时x_t<0或v_t<0，说明该模拟回合已经结束，则重新令车辆回到初始状态：x_t＝x₀，v_t＝v₀，再进行下一回合的模拟计算。

步骤5，由Q表或神经网络生成一条理想的经过优化的制动过程车速曲线，该曲线能满足车辆恰好在路口前减速刹停的要求。将得到的车速曲线发送给车辆执行。

针对某P2型混动架构车辆，在matlab-simulink平台上建立了车辆仿真模型，主要的数学模型表达式如下。公式(1)、(2)为电机扭矩计算模型，T_m为电机输出扭矩，T_mreq为电机需求扭矩，T_mloss为电机损失扭矩，J_m为电机转动惯量，ω_m为电机转速，α₁、α₂、α₃分别为静摩擦系数、黏性摩擦系数、库伦摩擦系数。式(3)至(6)为电池等效电路基本方程及相关参数计算模型，V_OC为电池开路电压，ξ(t)为电池荷电状态，Q(t)为电池荷电状态I_bat为电池电流，R_bat为电池等效内阻，P_bat为电池功率。式(7)至(9)为车辆空气阻力、轮胎滚动阻力、车辆行驶阻力矩的计算公式。式中ρ_air表示空气密度，c_d表示风阻系数，A表示车辆迎风面积，V_veh表示车速，m_veh为车辆质量，b₁、b₂为滚阻系数，f_b为刹车阻力，r_veh为车轮半径。

(1)

(2)T_mloss＝α₁ω_m+α₂ω_m+α₃sgn(ω_m)

(3)V_OC(ξ(t))I_bat(t)+R_batI_bat(t)²＝P_bat(t)

(4)

(5)

(6)

(7)

(8)f_r＝m_veh(b₁+b₂V_veh)

(9)TQ_veh＝(f_a+f_r+f_b)*r_veh

针对该P2型混动架构车辆，在matlab-simulink平台上对以上步骤进行了实施验证。在大约经过30000个回合的模拟计算与训练之后结果收敛，并将步骤5得出的结果与视为全局最优的动态规划曲线和匀减速参考曲线进行了相关对比。结果如图4、5所示，在初始电池SOC值为0.6的情况下，动态规划曲线的终值SOC为0.60074、均减速曲线为0.60047、q-learning为0.60067；q-learning与动态规划相比能量回收效果的差幅只有9.45％，相比于均减速参考曲线增幅到达42.55％，说明本发明的算法能够获得求解问题的近似全局最优解，具有较好的优化能力，取得了一定效果。

从其中求解结果也可以探究出在新能源车辆接近红绿灯路口减速刹车过程中车速对能量回收效果的影响规律：减速初期车速快，制动电机效率较高，同时为避免该部分大份额能量被此时较大的风阻和滚阻消耗浪费，采用较大减速度、较大制动力矩能够有利于能量的高效回收，显著提高能量回收的效果；随后主要依据到路口的距离进行灵活规划，采用较小减速度、较小制动力矩有利于延长行驶路程，确保车辆在到达路口时刹停减速为0，同时也延长了末期能量回收的时间，进一步加强能量回收的效果。

实施例3(如图3所示，采用基于神经网络的DQN方法)

DQN方法可参见刘全，翟建伟，章宗长，等.深度强化学习综述[J].计算机学报:2018,41(1):1-27，在此不再赘述，在实施例2的基础上，采用基于神经网络代替Q表的DQN方法对本发明进行了验证。结果如图6、7所示，DQN求解的终值SOC为0.6006887，相比q-learning的终值SOC 0.6006736，得到了进一步提升，增幅为2.24％；DQN求解得到的速度曲线平顺性更好、更加平滑均匀，没有出现q-learning后期减速度突变变大采用DQN算法所求解相对q-learning求解结果进行了进一步的优化，回收能量增加了2.24％，并且驾驶平顺性得到进一步提高，速度曲线以及终值SOC结果更加接近动态规划。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，包括以下步骤：

步骤1，根据V2I信息获取车辆距离路口的距离以及信号灯状态和剩余时间，判断车辆是否可以在当前限速下通过路口，如果可以通过，则执行步骤5；如果不能通过，刹停并执行步骤2；

步骤3，计算在步骤2中车辆获得的奖励值；

2.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，所述步骤1中根据V2I信息包括车辆进入V2I通信范围时初始时刻距离路口的距离x₀、车速v₀、红绿灯的状态、剩余时间t₀以及当前限速v_max。

3.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，所述步骤2中由强化学习算法模拟车辆制动过程为：将车辆当前时刻距离路口的距离x_t以及车速v_t输入给Q表或神经网络，有ε的概率由其输出当前时刻车辆应采取的减速度值a_t，有1-ε的概率不通过Q表或神经网络决策而从离散的减速度取值集合中随机选择减速度值，ε为决策贪心率，其值介于0到1，将x_t、v_t、a_t输入到所述车辆仿真模型执行，计算得到下一采样时刻车辆距离路口的距离x_t+1、车速v_t+1，并进行迭代更新x_t＝x_t+1、v_t＝v_t+1。

4.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，所述步骤3中，如果x_t≥0且v_t≥0，t时刻总奖励值定义为R_t＝β₁R_distance+β₂R_soc+β₃R_a，β₁、β₂、β₃为三种不同奖励值的权重，SOC增量的奖励值R_soc＝SOC_t-SOC_t-1，SOC值由所述车辆仿真模型给出，到路口距离的奖励值为

5.如权利要求4所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，计算总奖励值前，对各奖励值按照下式

6.如权利要求4所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，β₁>β₂>β₃。

7.如权利要求3所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，在强化学习算法中，强化学习的状态为s_t＝[x_t v_t]，动作为A_t＝a_t，边界条件为0≤x_t≤x₀，0≤v_t≤v₀，定义车辆从进入V2I通信范围初始时刻开始直到超出或到达状态的边界条件时的历程为一回合，定义每一时刻即求解的时间步长的决策更新为一步，每个回合由每一时刻每一单步的求解组成，当前状态在根据决策执行选择的动作后进入下一状态并由历史数据或车辆仿真模型反馈奖励值从而对Q表或神经网络进行学习更新，再进行下一步决策、往复进行，当达到或超过状态的边界条件时如x_t<0或v_t<0，该回合结束，进入下一回合的学习训练，重新回到初始状态、时间清零重新开始，直到获得确定的满足问题要求的结果，此时视为整个训练学习结束，输出动作序列作用于实际车辆执行。

8.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，所述步骤4中，Q表是存储Q值的表格，其中存储了每个状态-动作对下的Q值，Q(x,v,a)＝Q(sⁱ,a)，其中

9.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，所述步骤2和4中，用Q表进行学习时采用q-learning算法，在每一步决策更新结束后，依照公式Q(s_t,A_t)＝Q(s_t,A_t)+α(R+γQ_max(s_t+1)-Q(s_t,A_t))对Q值进行更新，其中，s_t表示t时刻状态，A_t表示t时刻动作；α为学习效率，表示对误差的学习多少程度；γ为折扣因子，表示对未来状态Q值的考虑程度；Q_max(s_t+1)表示下一时刻状态s_t+1所对应的最大Q值。

10.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法，其特征在于，所述步骤2和4中，用神经网络进行学习时，采用DQN算法。