CN108427985A

CN108427985A - 一种基于深度强化学习的插电式混合动力车辆能量管理方法

Info

Publication number: CN108427985A
Application number: CN201810003466.5A
Authority: CN
Inventors: 彭剑坤; 何洪文; 谭华春; 李岳骋; 李梦林
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-08-21
Anticipated expiration: 2038-01-02
Also published as: CN108427985B

Abstract

本发明提供了一种基于深度强化学习的插电式混合动力车辆能量管理方法，其对多源高维行驶工况信息进行了表征提取，并处理为低维表征向量；利用冗余信息剔除算法，对所得低维表征向量、车辆自身状态信息、坡度等工况状态表征进行降维、融合处理，得到低维连续工况信息；构建基于深度强化学习的插电式混合动力车辆能量管理框架，输入低维连续工况信息，完成离线训练；利用训练好的策略控制能量分配，为综合考虑了多源高维行驶工况信息对插电式混合动力车辆能量管理效果的影响提供了途径，并可利用强化学习自主学习最优能量分配方案，挖掘其节能潜力。

Description

一种基于深度强化学习的插电式混合动力车辆能量管理方法

技术领域

本发明涉及一种插电式混合动力车辆能量管理方法，尤其涉及一种基于深度强化学习的插电式混合动力车辆能量管理方法。

背景技术

目前，基于优化的插电式混合动力车辆能量管理方法主要包括以动态规划为代表的全局优化方法，和以等效燃油消耗最小策略和模型预测控制等为代表的实时优化方法，在求解这些优化方法时，大多需对不同工况状态参数进行网格划分的离散化处理后，再作为控制系统的状态输入，且常会通过增加网格密度或状态的数量来挖掘最优性能，但这将使得优化算法的计算量呈指数倍增长，引发维数灾变，导致无法求解，所以很难综合考虑实际行驶环境与交通条件(如前方车辆行人、交通信号灯、车辆附近交通流状态等)以及车辆自身状态参数(如车速、加速度、动力电池荷电状态等)，而这些工况信息都会对能量管理效果产生重要影响。另一方面，这些行驶工况信息在连续性、离散性、随机性等方面特征不一，所形成的信息系统是一种多源、高维的信息系统，传统优化方法也难以挖掘出其与能量管理效果之间的潜在关系。因此，如何在车辆的能量管理策略中结合上述工况信息，使得控制系统具有处理多源高维状态信息的能力，是本领域中亟待解决的问题。

发明内容

针对上述本领域中存在的技术问题，本发明提供了一种插电式混合动力车辆能量管理方法，具体包括以下步骤：

步骤1、利用深层卷积神经网络(CNN)以及长短期记忆神经网络(LSTM)分别对车载视觉信息和交通状态信息进行表征提取，获知PHEV前方车辆、行人、交通灯等车载视觉信息对未来工况及能量管理效果的影响机理，并挖掘PHEV附近交通流状态对车辆未来工况的影响机制。

步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息，以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理，得到低维连续型工况状态。

步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量，利用深层神经网络构建动作价值函数，建立所述车辆的工况状态与控制动作价值的非线性映射关系，挖掘多源高维工况信息对能量管理效果的作用机理。

步骤4、基于所述步骤(3)中构建的所述动作价值函数，确定能量管理中的状态变量、动作变量、反馈奖励、策略等基本要素，建立基于深度强化学习的插电式混合动力车辆能量管理模型。

步骤5、对所述步骤4中建立的所述能量管理模型进行训练。

步骤6、将训练好策略用于PHEV能量管理。

进一步地，所述步骤1所述的利用深层卷积神经网络对车载视觉信息进行表征提取，具体包括以下步骤：

基于深层卷积神经网络充分利用图像自身特性的局部连接与权值共享特点，在其层间使用额外短连接，优化网络结构，构建深层卷积残差网络，以解决深层网络梯度弥散的问题，为深层卷积神经网络的训练做准备：

其中in[m，n]表示二维卷积运算的输入；f[m，n]表示卷积核；out[m，n]表示二维卷积运算的输出；h^k表示卷积神经网络中某一层第k个特征图谱；W^k表示卷积核权重；b_k表示偏置权重，并采用PRELU神经元激活函数。

将构建的深层卷积残差网络，在ImageNet数据库上进行预训练，得到具有良好泛化推广能力的深层卷积神经网络；

将训练所得深层卷积神经网络的用于车载视频图像，用于PHEV能量管理中的视觉信息表征提取，最终得到车载视觉信息表征向量。

进一步地，所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取，具体包括以下步骤：

(2.1)根据当前交通状态信息x^t，t-1时刻隐向量h^t-1，计算长短期记忆神经网络在t时刻的单元输入：

z^t＝g(W_zx^t+R_zh^t-1+b_z)；

(2.2)计算长短期记忆神经网络在t时刻单元输入门i^t，以控制单元输入z^t对 t时刻单元状态c^t的影响程度：

i^t＝σ(W_ix^t+R_ih^t-1+p_i⊙c^t-1+b_i；

(2.3)计算长短期记忆神经网络在t时刻单元遗忘门f^t，以控制单元输入c^t-1对t时刻单元状态c^t的影响程度：

f^t＝σ(W_fx^t+R_fh^t-1+p_f⊙c^t-1+b_f)；

(2.4)计算长短期记忆神经网络在t时刻单元状态：

c^t＝i^t⊙z^t+f^t⊙c^t-1)；

(2.5)计算长短期记忆神经网络在t时刻单元输出门o^t，控制t时刻单元状态对LSTM在t+1时刻单元的影响程度：

o^t＝σ(W_ox^t+R_oh^t-1+p_o⊙c^t+b_o)；

(2.6)计算t时刻单元输出：

h^t＝o^t⊙g(c^t)

其中，x_t为t时刻的输入向量；W为输入权重矩阵；R为递归权重矩阵；p为状态权重向量；b为偏置权重向量；σ，g均为非线性神经元激活函数，σ为sigmoid 函数，g为tanh函数；⊙指元素积；权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。

(2.7)将每个时间步长的交通状态信息输入长短期记忆神经网络单元，挖掘出交通状态在时间序列上的潜在相关性，输出表征向量。

进一步地，所述步骤2中所述的对工况状态表征进行降维、融合处理，具体包括以下步骤：

首先把数据统一到同一尺度下，通过L2范数规范化各表征向量，然后级联为一个向量，得到行驶工况状态高维表征向量X；

以X作为输入，使用降噪自编码算法，通过非监督学习方式，最大化输入与隐层表征间的互信息，学习到隐含在高维数据中的低维流形学习结构，实现去噪自编码非监督冗余信息去除及数据降维，得到低维向量Y：指定映射函数为非线性仿射变换，s代表非线性函数，W，b，W′，b′表示映射矩阵和偏置向量，对此目标函数进行优化，实现高维表征向量的冗余信息去除及降维：

其中，为经验样本平均，p(X|Y)为X关于Y的概率分布。

将所得到的低维向量Y当作输入X，重复执行上述方法得到更低维的向量Y，逐层贪婪训练，最终便完成了对该级联向量进行冗余信息剔除及降维处理，得到当前车辆自身及环境状态的低维表征向量，实现多源高维数据的信息融合。

进一步地，所述步骤4具体包括以下步骤：

(4.1)建立静态插电式混合动力车辆仿真模型，其输入为电动机和发动机的供能比例；通过动力学相关计算将供能比例转换为发动机转矩、转速、电机转矩等具体控制量；模型各动力部件对控制量做出响应；最终得到当前时刻对应的瞬时油耗，为动作价值计算提供依据，同时也得到下一时刻的车辆自身状态。

(4.2)将步骤2所得表征当前车辆自身及环境状态的低维表征向量作为输入量(状态向量s_t)，以PHEV能量管理的全部可能动作α_t的价值Q(s_t，α_t)作为输出，建立深度价值函数估计网络Deep-Q-Network(DQN)，记为Q。其中，PHEV能量管理的全部可能动作是指对动作空间内各动作量(连续量，如供能比例)离散化后的全部动作(离散值)，其数量取决于离散程度的大小。上述神经网络结构为：输入层(输入维数与状态向量s_t维数一致)-卷积层(1层)-全连接层(3层)- 输出层(输出维数与全部动作的数量一致)，初始化网络参数为θ。

(4.3)选择电动机和发动机供能比例作为强化学习的动作变量α。将当前动作α_t输入静态PHEV仿真模型，得到车辆在当前状态s_t下执行动作α_t的瞬时油耗 (L)，将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏γ_t。根据PHEV 模型仿真结果记录车辆下一时刻自身的状态；重新执得到下一时刻的车载视觉信息表征向量和时序交通信息表征向量；并完成多源高维工况信息融合处理，得到下一时刻车辆自身及环境状态的低维表征向量s_t+1。

将每一时刻的{s_t，α_t，γ_t，s_t+1}作为一个独立样本e_t进行存储，保存到经验池D中，用于后续DQN训练。经验池D中存放的最大样本数量为10000，当实际样本数量超过10000时，不断用最新的样本替换经验池D中最旧的样本。

(4.4)在状态s_t下，执行随机过程N，在可行动作空间中随机选择动作。

进一步地，所述步骤5具体包括以下步骤：

(5.1)设置最大迭代次数n，初始迭代次数i＝1；清空经验池D；设定ε-greedy算法中的探索因子ε＝1；复制与Q结构、参数均相同的目标网络Q′，其网络参数记为θ′。

(5.2)把t时刻的状态s_t输入Q′，得到所有动作的价值Q′(s_t，α_t)。依据ε-greedy算法选择动作：生成一个随机数rand∈(0，1)，若rand＜ε，则按照随机过程N选择动作α_t，否则将选择的动作α_t输入PHEV模型，得到反馈奖赏γ_t；按步骤(4.3)所述，得到下一时刻车辆自身及环境状态的低维表征向量s_t+1。将t时刻样本e_t＝{s_t，α_t，γ_t，s_t+1}存入经验池D中。

(5.3)若经验池D内样本数量尚未达到最大值，重复步骤(5.2)，产生t+1 时刻的样本e_t+1，直到经验池D中样本容量达到最大值，D＝{e₁，e₂，...，e₁₀₀₀₀}，执行步骤(5.4)；否则，重复步骤(5.2)，用最新的样本替换经验池D中最旧的样本，直到向经验池D内加入1000个新的样本后执行步骤(5.4)。

(5.4)从经验池D中随机抽取一个小批量的样本(100个)。DQN网络训练目标为最小化损失函数L，对于从经验池D中抽取的小批量样本，损失函数计算L为：

其中，γ为折扣系数，表示在下一时刻状态s_t+1下，以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值；该式表示从经验池D中采样得到小批量经验样本并计算其损失函数。

(5.5)应用随机梯度下降变种优化算法Adam训练DQN，计算网络参数更新梯度：

其中，表示网络的动作价值输出对网络参数的导数。

根据Adam算法确定学习率并更新DQN：

其中，α为由Adam算法得出的网络参数更新速率；τ为目标网络学习率(τ＜＜1)。

(5.6)更新训练参数，判断训练是否完成，其中迭代次数为i＝i+1，更新探索因子

若i＞n，则退出训练过程；否则，计算第i次迭代网络Q和网络Q′的参数之差δ＝|θ-θ′|，若δ小于某一设定阈值，完成训练，否则执行步骤(5.3)。

所述步骤6具体包括以下步骤：

获取当前时刻车辆自身及环境状态的低维表征向量s：通过步骤1，利用训练所得深层卷积神经网络得到当前时刻的车载视觉信息表征，利用长短期记忆神经网络得到交通状态信息表征，执行步骤2得到低维表征向量s。

将当前状态s输入神经网络Q，计算作为执行动作，完成当前时刻的插电式混合动力汽车能量分配。

重复上述两个步骤直到控制任务完成。

根据上述本发明所提供的方法，对多源高维行驶工况信息进行了表征提取，并处理为低维表征向量；利用冗余信息剔除算法，对所得低维表征向量、车辆自身状态信息、坡度等工况状态表征进行降维、融合处理，得到低维连续工况信息；构建基于深度强化学习的插电式混合动力车辆能量管理框架，输入低维连续工况信息，完成离线训练；利用训练好的策略控制能量分配，综合考虑了多源高维行驶工况信息对插电式混合动力车辆能量管理效果的影响提供了途径，并可利用强化学习自主学习最优能量分配方案，挖掘其节能潜力。

附图说明

图1是根据本发明所提供的方法的整体流程示意图

图2是对车载视觉信息和交通状态信息进行表征提取的流程示意图

图3是深层神经网络的工况状态与动作价值非线性映射的示意图

图4是对车载视觉信息进行表征提取的示意图

图5是对交通数据信息进行表征提取的示意图

图6是多源高维工况信息降维、融合流程

图7是基于深度强化学习对能量管理模型的训练过程

具体实施方式

下面结合附图对本申请的技术方案做出进一步详尽的阐释。

如图1所示，本发明提供了一种插电式混合动力车辆能量管理方法，具体包括以下步骤：

步骤1、利用深层卷积神经网络以及长短期记忆神经网络分别对车载视觉信息和交通状态信息进行表征提取。

步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量，基于深层神经网络构建动作价值函数，建立所述车辆的工况状态与控制动作价值的非线性映射关系。

步骤4、基于所述步骤(3)中构建的所述动作价值函数，确定状态变量、动作变量、反馈奖励、能量管理策略，建立基于深度强化学习插电式混合动力车辆能量管理模型。

步骤5、对所述步骤4中建立的所述能量管理模型进行训练。

步骤6、将训练好策略用于PHEV能量管理。

如图2、4所示，在本申请的一个优选实施例中，所述步骤1所述的利用深层卷积神经网络对车载视觉信息进行表征提取，具体包括以下步骤：

基于深层卷积神经网在其层间使用额外短连接，构建深层卷积残差网络，以解决深层网络梯度弥散的问题，为深层卷积神经网络的训练做准备：

其中in[m，n]表示二维卷积运算的输入；f[m，n]表示卷积核；out[m，n]表示二维卷积运算的输出；h^k表示卷积神经网络中某一层第k个特征图谱；W^k表示卷积核权重；b_k表示偏置权重，并采用PRELU神经元激活函数；

将构建的深层卷积残差网络，在ImageNet数据库上进行预训练，得到深层卷积神经网络；

将训练所得深层卷积神经网络的用于车载视频图像，得到车载视觉信息表征向量。

如图2、5所示，在本申请的一个优选实施例中，所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取，具体包括以下步骤：

根据当前交通状态信息x^t，t-1时刻隐向量h^t-1，计算长短期记忆神经网络在 t时刻的单元输入：

z^t＝g(W_zx^t+R_zh^t-1+b_z)；

计算长短期记忆神经网络在t时刻单元输入门i^t，以控制单元输入z^t对t时刻单元状态c^t的影响程度：

i^t＝σ(W_ix^t+R_ih^t-1+p_i⊙c^t-1+b_i；

计算长短期记忆神经网络在t时刻单元遗忘门f^t，以控制单元输入c^t-1对t 时刻单元状态c^t的影响程度：

f^t＝σ(W_fx^t+R_fh^t-1+p_f⊙c^t-1+b_f)；

计算长短期记忆神经网络在t时刻单元状态：

c^t＝i^t⊙z^t+f^t⊙c^t-1)；

计算长短期记忆神经网络在t时刻单元输出门o^t，控制t时刻单元状态对LSTM 在t+1时刻单元的影响程度：

o^t＝σ(W_ox^t+R_oh^t-1+p_o⊙c^t+b_o)；

计算t时刻单元输出：

h^t＝o^t⊙g(c^t)

将每个时间步长的交通状态信息输入长短期记忆神经网络单元，输出工况状态表征向量。

如图6所示，在本申请的一个优选实施例中，所述步骤2中所述的对工况状态表征向量进行降维、融合处理，具体包括以下步骤：

以X作为输入，使用降噪自编码算法，通过非监督学习方式，最大化输入与隐层表征间的互信息，学习到隐含在高维数据中的低维流形学习结构，实现去噪自编码非监督冗余信息去除及数据降维，得到低维向量Y：指定映射函数为非线性仿射变换，s代表非线性函数，W，b，W′，b′表示映射矩阵和偏置向量，对此映射函数进行优化，实现高维表征向量的冗余信息去除及降维：

其中，为经验样本平均，p(X|Y)为X关于Y的概率分布。

如图3所示，所述步骤4具体包括以下步骤：

建立静态插电式混合动力车辆仿真模型，其输入为电动机和发动机的供能比例，得到当前时刻对应的瞬时油耗，为动作价值计算提供依据，同时也得到下一时刻的车辆自身状态；

将步骤2得到的低维表征向量记为s_t作为输入量，以能量管理的全部可能动作α_t的价值Q(s_t，α_t)作为输出，建立深度价值函数估计神经网络记为Q；所述网络结构为：输入层，其输入维数与状态向量s_t维数一致；1层卷积层；3层全连接层；输出层，其输出维数与全部动作的数量一致，初始化网络参数为θ；

选择电动机和发动机供能比例作为强化学习的动作变量α；将当前动作α_t输入所述仿真模型，得到车辆在当前状态s_t下执行动作α_t的瞬时油耗(L)，将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏γ_t；根据模型仿真结果记录车辆下一时刻自身的状态；重复提取下一时刻的车载视觉信息表征向量和时序交通信息表征向量，并执行降维、融合处理，得到下一时刻车辆自身及环境状态的低维表征向量s_t+1；

将每一时刻的{s_t，α_t，γ_t，s_t+1}作为一个独立样本e_t进行存储，保存到经验池D中，用于后续网络Q的训练；经验池D中存放的最大样本数量为10000，当实际样本数量超过10000时，不断用最新的样本替换经验池D中最旧的样本；

在状态s_t下，执行随机过程N，在可行动作空间中随机选择动作。

如图7所示，在本申请的一个优选实施例中，所述步骤5具体包括以下步骤：

设置最大迭代次数n，初始迭代次数i＝1；清空经验池D；设定ε-greedy算法中的探索因子ε＝1；复制与Q结构、参数均相同的目标网络Q′，其网络参数记为θ′；

把t时刻的状态s_t输入Q′，得到所有动作的价值Q′(s_t，α_t)。依据ε-greedy算法选择动作：生成一个随机数rand∈(0，1)，若rand＜ε，则按照随机过程N选择动作α_t，否则将选择的动作α_t输入PHEV模型，得到反馈奖赏γ_t；获取下一时刻车辆自身及环境状态的低维表征向量s_t+1；将t时刻样本 e_t＝{s_t，α_t，γ_t，s_t+1}存入经验池D中；

重复产生t+1时刻的样本e_t+1，直到经验池D中样本容量达到最大值， D＝{e₁，e₂，...，e₁₀₀₀₀}，执行后续流程；否则，重复用最新的样本替换经验池D中最旧的样本，直到向经验池D内加入1000个新的样本并执行后续步骤；

从经验池D中随机抽取一个小批量的样本，网络Q的训练目标为最小化损失函数L，对于从经验池D中抽取的小批量样本，损失函数计算L为：

应用随机梯度下降变种优化算法Adam训练网络，计算网络参数更新梯度：

其中，表示网络的动作价值输出对网络参数的导数。

根据Adam算法确定学习率并更新网络：

更新训练参数，判断训练是否完成，其中迭代次数为i＝i+1，更新探索因子

若i＞n，则退出训练过程；否则，计算第i次迭代网络Q和网络Q′的参数之差δ＝|θ-θ′|，若δ小于某一设定阈值，完成训练，否则重复执行训练过程。

所述步骤6具体包括以下步骤：

重复上述两个步骤直到控制任务完成。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度强化学习的插电式混合动力车辆能量管理方法，其特征在于：

具体包括以下步骤：

步骤1、利用深层卷积神经网络以及长短期记忆神经网络分别对车载视觉信息和交通状态信息进行表征提取；

步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息，以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理，得到低维连续型工况状态；

步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量，基于深层神经网络构建动作价值函数，建立所述车辆的工况状态与控制动作价值的非线性映射关系；

步骤4、基于所述步骤(3)中构建的所述动作价值函数，确定状态变量、动作变量、反馈奖励、能量管理策略，建立基于深度强化学习插电式混合动力车辆能量管理模型；

步骤5、对所述步骤4中建立的所述能量管理模型进行训练；

步骤6、训练完毕后，执行相应的能量管理策略。

2.如权利要求1所述的方法，其特征在于：所述步骤1中的利用深层卷积神经网络对车载视觉信息进行表征提取，具体包括以下步骤：

其中in[m，n]表示二维卷积运算的输入；f[m，n]表示卷积核；out[m，n]表示二维卷积运算的输出；h^k表示卷积神经网络中某一层第k个特征图谱；W^k表示卷积核权重，x表示状态；b_k表示偏置权重，并采用PRELU神经元激活函数；

3.如权利要求2所述的方法，其特征在于：所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取，具体包括以下步骤：

根据当前交通状态信息x^t，t-1时刻隐向量h^t-1，计算长短期记忆神经网络在t时刻的单元输入：

z^t＝g(W_zx^t+R_zh^t-1+b_z)；

i^t＝σ(W_ix^t+R_ih^t-1+p_i⊙c^t-1+b_i；

计算长短期记忆神经网络在t时刻单元遗忘门f^t，以控制单元输入c^t-1对t时刻单元状态c^t的影响程度：

f^t＝σ(W_fx^t+R_fh^t-1+p_f⊙c^t-1+b_f)；

计算长短期记忆神经网络在t时刻单元状态：

c^t＝i^t⊙z^t+f^t⊙c^t-1)；

计算长短期记忆神经网络在t时刻单元输出门o^t，控制t时刻单元状态对长短期记忆神经网络在t+1时刻单元的影响程度：

o^t＝σ(W_ox^t+R_oh^t-1+p_o⊙c^t+b_o)；

计算t时刻单元输出：

h^t＝o^t⊙g(c^t)

其中，x_t为t时刻的输入向量；Ｗ为输入权重矩阵；R为递归权重矩阵；p为状态权重向量；b为偏置权重向量；σ，g均为非线性神经元激活函数，σ为sigmoid函数，g为tanh函数；⊙指元素积；各权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。

4.如权利要求3所述的方法，其特征在于：所述步骤2中所述的对工况状态表征向量进行降维、融合处理，具体包括以下步骤：

首先把数据统一到同一尺度下，通过L2范数规范化各表征向量，然后级联为一个向量，得到行驶工况状态高维表征向量X；以X作为输入，使用降噪自编码算法，通过非监督学习方式，最大化输入与隐层表征间的互信息，学习到隐含在高维数据中的低维流形学习结构，实现去噪自编码非监督冗余信息去除及数据降维，得到低维向量Y：指定映射函数为非线性仿射变换，s代表非线性函数，W，b，W’，b’表示映射矩阵和偏置向量，对此映射函数进行优化，实现高维表征向量的冗余信息去除及降维：

其中，为经验样本平均，p(X|Y)为X关于Y的概率分布。

5.如权利要求4所述的方法，其特征在于：建立静态插电式混合动力车辆仿真模型，其输入为电动机和发动机的供能比例，得到当前时刻对应的瞬时油耗，为动作价值计算提供依据，同时也得到下一时刻的车辆自身状态；

将步骤2得到的低维表征向量记为s_t作为输入量，以能量管理的全部可能动作a_t的价值Q(s_t，a_t)作为输出，建立深度价值函数估计神经网络记为；所述网络结构为：1层输入层，其输入维数与状态向量s_t维数一致；1层卷积层；3层全连接层；1层输出层，其输出维数与全部动作的数量一致，初始化网络参数为θ；

选择电动机和发动机供能比例作为强化学习的动作变量a；将当前动作a_t输入所述仿真模型，得到车辆在当前状态s_t下执行动作a_t的瞬时油耗，将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏r_t；根据模型仿真结果记录车辆下一时刻自身的状态；重复提取下一时刻的车载视觉信息表征向量和时序交通信息表征向量，并执行降维、融合处理，得到下一时刻车辆自身及环境状态的低维表征向量s_t+1；

将每一时刻的{s_t，a_t，r_t，s_t+1}作为一个独立样本e_t进行存储，保存到经验池D中，用于后续网络Q的训练；经验池D中存放的最大样本数量为10000，当实际样本数量超过10000时，不断用最新的样本替换经验池D中最旧的样本；

6.如权利要求5所述的方法，其特征在于：所述步骤5具体包括以下步骤：

把t时刻的状态s_t输入Q′，得到所有动作的价值Q′(s_t，a_t)。依据ε-greedy算法选择动作：生成一个随机数rand∈(0，1)，若rand＜ε，则按照随机过程N选择动作a_t，否则将选择的动作a_t输入所述仿真模型，得到反馈奖赏r_t；获取下一时刻车辆自身及环境状态的低维表征向量s_t+1；将t时刻样本e_t＝{s_t，a_t，r_t，s_t+1}存入经验池D中；

重复产生t+1时刻的样本e_t+1，直到经验池D中样本容量达到最大值，D＝{e₁，e₂，...，e₁₀₀₀₀}，执行后续流程；否则，重复用最新的样本替换经验池D中最旧的样本，直到向经验池D内加入1000个新的样本并执行后续步骤；

其中，γ为折扣系数，表示在下一时刻状态s_t+1下，以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值；该式表示从经验池D中采样得到小批量经验样本并计算其损失函数；

其中，表示网络的动作价值输出对网络参数的导数；

根据Adam算法确定学习率并更新网络：