CN115284973A

CN115284973A - 基于改进多目标Double DQN的燃料电池汽车能量管理方法

Info

Publication number: CN115284973A
Application number: CN202211095257.0A
Authority: CN
Inventors: 付建勤; 孙希雷; 周峰; 李超; 刘敬平
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-11-04
Anticipated expiration: 2042-09-05
Also published as: CN115284973B

Abstract

本发明涉及一种基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，属于新能源汽车领域。由三部分组成：第一部分为建立燃料电池混合动力汽车的能量管理系统模型，主要包括整车纵向动力学模型、燃料电池氢耗模型、燃料电池寿命模型、动力电池等效电路模型和动力电池衰减模型；第二部分为获取燃料电池混合动力汽车在实际行驶中的状态信息，主要包括车辆状态信息、燃料电池状态信息和动力电池状态信息；第三部分提出了改进多目标Double DQN算法，并基于改进多目标Double DQN算法，以燃料电池混合动力汽车的经济性、燃料电池的寿命和动力电池的寿命为目标，实现了燃料电池混合动力汽车能量管理策略的多目标优化。

Description

基于改进多目标Double DQN的燃料电池汽车能量管理方法

技术领域

本发明涉及新能源汽车技术领域，特别涉及一种基于改进多目标Double DQN的燃料电池汽车能量管理方法。

背景技术

日益增长的能源需求和不断加重的环境问题成为了全球面临的两个重要挑战，各个国家也都意识到了局势的严峻性并积极采取有效措施来应对这些挑战。汽车工业首当其冲，传统燃油汽车是能源问题和环境问题的主要元凶，因此伴随着电气化、智能化、网联化和共享化，汽车工业正经历着前所未有的变革，具有新型动力总成的新能源汽车不断涌现，如插电式混合动力汽车、纯电动汽车和燃料电池汽车等。燃料电池混合动力汽车(FCHEV)具有近零排放、能量转换效率高、低噪音等优点，已成为实现节能减排和汽车产业升级的重要工具，得到了不同国家的各个汽车厂商的青睐。

“能量管理”是指通过设计高水平的控制算法，决定产生合适的功率以及不同动力源之间的功率分流。能量管理技术作为FCHEV的关键技术之一，在提升经济性、增大能量转换效率、延长动力电池和燃料电池的使用寿命等方面发挥着重要的作用。能量管理策略(EMS)主要分为两种：基于规则的EMS和基于优化的EMS，其中，基于规则的EMS具有容易实现和实时性好的优点，但由于其往往针对特定工况制定，因此其适应性较差。基于优化的EMS的效果一般比较好，但往往存在计算量大、实时性差、适应性较差和成本过高等缺点。

随着人工智能技术的发展，基于学习的EMS由于实时性好、适应性强和优化效果好等优点，吸引了众多学者和汽车厂商的关注。因此，将人工智能技术与汽车能量管理结合起来，实现车辆能量的智能管理，成为了一个新的热门方向。

动态规划(DP)是一种解决大数量级多阶段决策问题的全局优化方法，源于运筹学，在工程生产、自动化控制和科学管理等方面发挥着巨大的作用。动态规划的核心是Bellman于1957年提出的最优化原理，即整个的最优策略具有以下性质：无论初始状态和决策如何，对于以初始决策而形成的状态作为初始系统而言，今后的决策序列必须构成最优策略。因此，动态规划可以将一个多步最优控制问题转化为多个单步最优控制问题，依赖高性能计算求解。

动态规划算法主要包括约束条件、状态变量、控制变量、状态转移方程、代价函数和最优控制序列几个要素，其求解流程如图1所示。在k阶段，结合满足约束条件的控制变量和状态转移方程，得到k+1阶段的状态变量并产生代价函数，在k+1阶段时，改变后的状态变量将作为初始状态变量来产生下一阶段的状态变量，通过迭代最终输出最优控制序列。将动态规划算法用于车辆的能量管理时，需要提前知道整个行驶工况才能求解，但在车辆实际行驶过程中，无法提前预知整个行驶工况，因此动态规划算法虽然可以求得理论最优解，但却无法实现在线应用，其针对特定工况制定的策略也不具有适应性。另外，由于迭代求解，动态规划算法的计算量很大，计算成本很高。

发明内容

本发明提供一种基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法包括以下步骤：

步骤S1，建立FCHEV整车能量管理系统模型，主要包括整车纵向动力学模型、燃料电池氢耗模型、燃料电池寿命模型、动力电池等效电路模型和动力电池衰减模型；

步骤S2，获取燃料电池混合动力汽车在实际行驶中的状态信息，主要包括车辆状态信息、燃料电池状态信息和动力电池状态信息；

步骤S3，以燃料电池混合动力汽车的经济性、动力电池寿命和燃料电池寿命为目标，基于IMDDQN算法对燃料电池混合动力汽车能量管理策略进行多目标寻优。

更进一步地，在步骤S1中，所述整车纵向动力学模型为：

其中，F_D为驱动力，P_D为驱动功率，P_N为需求功率，P_FC为燃料电池功率，P_Bat为动力电池功率，v为车速，η_DC/AC为DC/AC转换器的效率，η_DC/DC为DC/DC转换器的效率，η_Motor为电机效率，η_Tran为齿轮传动效率，F_Roll、F_Air、P_Grade、F_Acc分别为车辆行驶中的滚动阻力、空气阻力、坡度阻力和加速阻力，分别通过下式获取：

其中，A为车辆的迎风面积，C_D为空气阻力系数，ρ为空气密度，c_R为滚动阻力系数，m为车辆的总质量，g为重力加速度，θ为道路坡度，δ为车辆旋转质量换算系数，

为行驶加速度。

更进一步地，在步骤S1中，燃料电池氢耗模型为：

其中，

为氢气的低热值，η_FC为燃料电池的效率，

为氢耗量，P_stack为燃料电池堆输出功率，P_AUX为辅助设备消耗功率，

为与氢气流量消耗有关的理论功率。

更进一步地，在步骤S1中，对燃料电池的寿命影响进行量化处理：

其中，T_FC为燃料电池的可用寿命，ΔP为燃料电池电压退化的最大值，k_P燃料电池环境修正系数，k₁、k₂、k₃、k₄分别为燃料电池启停工况、怠速工况、负载变化工况、重负载工况的衰退系数，n₁、t₁、t₂、t₃分别为启停次数、怠速时间、负载变化时间和重负载时间。

更进一步地，在步骤S1中，动力电池等效电路模型为：

其中，I_Bat为电池电流，U_Bat为开路电流，R_Bat为电池内阻，SOC(0)为SOC初始值，Q_Bat为电池容量。

更进一步地，在步骤S1中，动力电池衰减模型为：

其中，Q_Loss为电池容量衰减，α和β为常数项，E_A为活化能，I_C为电池充放电倍率，η为I_C的补偿系数，R为摩尔气体常数，T_K为环境的热力学温度，Ah为安时通量，z为幂指数因子，EOL为电池寿命终止，

为额定条件下电池的充放电倍率，σ(I_C，T_K，SOC)为影响因子，用以表征实际运行条件对电池容量衰减的影响，γ(I_C，T_K，SOC)为实际运行条件下电池寿命终止时流经电池的总电量，Ah_eff为流经电池的有效电量，当Ah_eff＝τ时表示电池寿命终止，因此可减少Ah_eff来减缓电池寿命衰减程度。

更进一步地，在步骤3中，假设智能体的有限状态集合为S＝{s₁，s₂，…，s_n}，有限动作序列为A＝{a₁，a₂，…，a_n}，当智能体的当前状态为s_t∈S，采取动作为a_t∈A时，在环境的作用下智能体的状态转移为新的状态s_t+1∈S，产生的即时奖励为r(s_t，a_t)；

当智能体状态为s_t、采取动作为a_t的最优动作价值函数Q^*(s_t，a_t)为：

最优动作价值函数Q^*(s_t，a_t)遵循贝尔曼方程：

Q^*(s_t，a_t)＝E[r(s_t，a_t)+γQ^*(s_t+1，a_t+1)|s_t，a_t]

其中，R_t为带折扣的累计奖励，

γ为折扣因子，γ∈[0，1]，T为终止时间；

基于IMDDQN算法的目标是以最大化累计奖励的方式来选择智能体的动作，即综合考虑即时奖励和未来奖励，不断改进策略π使得获得的累计奖励最大，从而得到最佳策略π^*(a|s)，其中，策略π为智能体采取的一系列动作。

更进一步地，所述IMDDQN算法包括如下步骤：

步骤S31，将智能体的状态信息s_t输入到评价网络中，输出为有限个离散动作对应的动作价值函数值Q，选择最大Q对应的动作，或者随机生成一个动作，记作a_t，将动作a_t输入到智能体，通过与环境的作用得到奖励r(s_t，a_t)和下一个状态信息s_t+1，并将当前状态s_t、选择的动作a_t、得到的奖励r(s_t，a_t)和下一个状态s_t+1存储至经验池；

然后将状态信息s_t+1输入到评价网络中，循环步骤S31，直到存储了一定数量的e_t＝(s_t，a_t，r(s_t，a_t)，s_t+1)，选择动作时采用ε-greedy算法来实现探索和利用之间的平衡，保证充分的探索以及合理的利用：

其中，ε∈[0，1]为探索率，算法以ε的概率选择探索，以1-ε的概率选择最大Q对应的动作；

在选择最大Q对应的动作时，引入Pareto理论，使得Q扩展为多目标动作价值函数，此时奖励函数r也由单个函数变为函数组；选出Q的Pareto最优前沿上的多个Pareto最优解一同存储到经验池中，即假设存在m个Pareto最优解，则有m个e存储至经验池：

其中，

为动作为a_i时产生的下一个状态信息；

步骤S32，从经验池中随机抽取一部分样本e，首先将e中的状态信息s_t输入到评价网络中，得到所有动作的Q值，然后根据e中的动作a_t选取其对应的Q值，记作Q(s_t，a_t|θ)，θ表示评价网络的参数；

其次，将e中的下一个状态信息s_t+1输入到评价网络中，得到所有动作的Q值，找到最大值Q对应的动作，记作max_a_t+1；

步骤S33，将步骤S32中采样的e中的下一个状态信息s_t+1输入到目标网络中，得到所有动作的Q值，然后通过步骤S32中得到的max_a_t+1选择其对应的Q值，记作Q(s_t+1，max_a_t+1；θ′)，θ′表示目标网络的参数；

步骤S34，损失函数Loss反向传播，采用梯度下降法更新评价网络中的参数，损失函数为均方误差(MSE)，损失计算公式为：

其中，E为从经验池采样的e的个数；

步骤S35，循环步骤S31-S34，每过C步后，将评价网络的参数更新到目标网络中。

本发明达到的有益效果是：

本发明同时考虑了燃料电池混合动力汽车的经济性、燃料电池的寿命和动力电池的寿命，实现了对燃料电池混合动力汽车能量管理策略的多目标寻优。

本发明通过使用IMDDQN算法对燃料电池混合动力汽车的能量管理策略寻优，在保证策略实时性的同时，实现了策略的最优性。

本发明基于IMDDQN算法的能量管理策略，通过不断学习，提高策略的最优性和普适性，摆脱了先前能量管理策略对行驶工况的依赖性，保证了标准测试工况下的最优性以及实际行驶工况下的最优性，提高了策略的自适应性。

本发明建立了燃料电池混合动力汽车的能量管理策略的多目标寻优，考虑了汽车经济性、燃料电池寿命和动力电池寿命多个目标，相对于现有技术，本发明提供的模型经过了反复的查阅和校准，具有更高的准确率。

本发明提供的IMDDQN算法是基于目前存在的Double DQN深度强化学习算法进行改进，原算法的奖励函数是单一函数，而现实中的优化问题大多是多目标的，因此，DoubleDQN算法在解决多目标优化时，只能将每个目标乘以权重，然后求和变为一个目标，而这样做，首先权重并不好确定，大多数只能依据经验确定，其次这样寻优也只是总和最小，并不能说明每个目标都得到了最优。因此，基于以上缺点，本方法将Double DQN进行了改进，变为了改进多目标Double DQN，即本方法中的IMDDQN，将奖励函数由单一函数变为由多个函数组成的函数组，将动作价值函数Q由单个数值变为数组，并改变了在原算法的对应部分进行了修改，如寻找最大Q对应的动作并储存至经验池，改为了寻找Pareto最优前沿，并将多个Pareto最优解储存至经验池。经过这样改进，IMDDQN可以真正的实现多目标寻优，使得实际问题中的多目标深度强化学习寻优更加方便，性能也更加好。

附图说明

图1是本发明实施例中基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法流程图；

图2是本发明实施例中燃料电池混合动力汽车的动力系统结构；

图3是本发明实施例中IMDDQN算法流程图。

具体实施方式

下面结合附图对本发明的技术方案进行更详细的说明，本发明包括但不仅限于下述实施例。

如附图1所示，本发明提出了一种基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，包括如下步骤：

步骤S1，建立FCHEV整车能量管理系统模型，主要包括整车纵向动力学模型、燃料电池氢耗模型、燃料电池寿命模型、动力电池等效电路模型和动力电池衰减模型。

如附图2所示，燃料电池混合动力汽车的动力系统结构。

步骤S11，整车纵向动力学模型建立：

其中，F_D为驱动力，P_D为驱动功率，P_N为需求功率，P_FC为燃料电池功率，P_Bat为动力电池功率，v为车速，η_DC/AC为DC/AC转换器的效率，η_DC/DC为DC/DC转换器的效率，η_Motor为电机效率，η_Tran为齿轮传动效率，F_Roll、F_Air、F_Grade、F_Acc分别为车辆行驶中的滚动阻力、空气阻力、坡度阻力和加速阻力，分别通过下式进行计算：

为行驶加速度。

步骤S12，燃料电池氢耗模型建立：

其中，

为氢气的低热值，η_FC为燃料电池的效率，

为与氢气流量消耗有关的理论功率。

步骤S13，燃料电池寿命模型建立：

燃料电池堆频繁启停，输出功率频繁变化，高负载输出以及高电位会影响燃料电池的寿命，因此，将这些因素对燃料电池的寿命影响进行量化处理：

步骤S14，动力电池等效电路模型建立：

步骤S15，动力电池衰减模型建立：

步骤S2，获取燃料电池混合动力汽车在实际行驶中的状态信息，主要包括车辆状态信息、燃料电池状态信息和动力电池状态信息三部分。

步骤S21，车辆状态信息。主要包括了车辆参数信息如整车质量、迎风面积、传动效率等，环境信息参数如道路坡度、环境温度等，车辆的行驶状态信息如瞬时车速、电机转速、电机效率、DC/DC转换器效率、DC/AC转换器效率等。

步骤S22，燃料电池状态信息。主要包括了燃料电池的实际功率、效率、氢耗、启停次数、怠速时间、可用寿命等。

步骤S23，动力电池状态信息。主要包括电池电流、开路电压、内阻、电池容量衰减、SOC、电池终止寿命等。

IMDDQN算法通过智能体的不断试错来进行学习，通过智能体与环境的交互作用获得奖励来指导学习。在本实施例中，智能体是建立的燃料电池混合动力汽车整车能量管理系统模型。

假设智能体的有限状态集合为S＝{s₁，s₂，…，s_n}，有限动作序列为A＝{a₁，a₂，…，a_n}，当智能体的当前状态为s_t∈S，采取动作为a_t∈A时，在环境的作用下智能体的状态转移为新的状态s_t+1∈S，产生的即时奖励为r(s_t，a_t)。

深度强化学习的目标是以最大化累计奖励的方式来选择智能体的动作，即综合考虑即时奖励和未来奖励，不断改进策略π使得获得的累计奖励最大，从而得到最佳策略π^*(a|s)。其中，策略π为智能体采取的一系列动作。

其中，R_t为带折扣的累计奖励，

γ为折扣因子，γ∈[0，1]，T为终止时间。最优动作价值函数Q^*(s_t，a_t)遵循贝尔曼方程：

Q^*(s_t，a_t)＝E[r(s_t，a_t)+γQ^*(s_t+1，a_t+1)|s_t，a_t]

如附图3所示，IMDDQN算法的主要流程如下步骤：

步骤S31，如附图3中虚线框①所示，将智能体的状态信息s_t输入到评价网络中，输出为有限个离散动作对应的动作价值函数值Q，选择最大Q对应的动作(即利用)，或者随机生成一个动作(即探索)，记作a_t，将动作a_t输入到智能体，通过与环境的作用得到奖励r(s_t，a_t)和下一个状态信息s_t+1，并将当前状态s_t、选择的动作a_t、得到的奖励r(s_t，a_t)和下一个状态s_t+1存储至经验池。然后将状态信息s_t+1输入到评价网络中，循环步骤S31，直到存储了一定数量的e_t＝(s_t，a_t，r(s_t，a_t)，s_t+1)，在这个过程中评价网络中的参数并没有更新。其中，选择动作时采用ε-greedy算法来实现探索和利用之间的平衡，保证充分的探索以及合理的利用：

其中，ε∈[0，1]为探索率，算法以ε的概率选择探索，以1-ε的概率选择最大Q对应的动作。因此，为了保证深度强化学习算法的性能，防止陷入局部最优，ε一般设置较大的初始值以保证足够的探索能力，随着迭代的进行，ε取值逐渐减小以保证充分的利用，加快算法的收敛。

在选择最大Q对应的动作时，引入Pareto理论，使得Q扩展为多目标动作价值函数，此时奖励函数r也由单个函数变为函数组。具体来讲，Q由一个数扩展为一个数组，数组的维度由设定目标的个数决定。将Q扩展为多目标动作价值函数之后，除了在寻找最大Q时采用不同的算法，其余的均与原算法保持一致。在寻找最大Q时，由于原算法为一个数，因此只需将Q进行简单的数值比较即可，而当Q扩展为一个数组后，按照原来的简单数值比较无法寻找最大Q，因此，引入了Pareto理论来比较不同数组之间的优劣，从而找到最优数组Q。

Pareto最优前沿：假设该多目标问题存在i个目标函数，A、B为其两个可行解，若解A的所有目标函数值均优于解B，则称解A优于解B，即解A支配解B；若解A只有部分目标函数优于解B，则称解A和解B无差别，即解A非支配解B。若在可行空间中，解A的目标函数值优于其他任何解，则称A为最优解；若在可行空间中，找不到其他的解更优于解A，则称解A为Pareto最优解。对于多目标优化问题，一般不存在最优解，而是存在多个Pareto最优解，所有Pareto最优解组成Pareto最优前沿。

基于以上分析和Pareto最优前沿的性质，选出Q的Pareto最优前沿上的多个Pareto最优解一同存储到经验池中。即假设存在m个Pareto最优解，则有m个e存储至经验池：

其中，

为动作为a_i时产生的下一个状态信息。

步骤S32，如附图3中虚线框②所示，从经验池中随机抽取一部分样本e，首先将e中的状态信息s_t输入到评价网络中，得到所有动作的Q值，然后根据e中的动作a_t选取其对应的Q值，记作Q(s_t，a_t|θ)，θ表示评价网络的参数。其次，将e中的下一个状态信息s_t+1输入到评价网络中，得到所有动作的Q值，找到最大值Q对应的动作，记作max_a_t+1。其中，选取最大值对应的动作时，仍然采用Pareto理论得到Pareto最优前沿，并在Pareto最优前沿上随机选取一个Pareto最优解，得到这个Pareto最优解对应的动作。

步骤S33，如附图3中虚线框③所示，将步骤S32中采样的e中的下一个状态信息s_t+1输入到目标网络中，得到所有动作的Q值，然后通过步骤S32中得到的max_a_t+1选择其对应的Q值，记作Q(s_t+1，max_a_t+1；θ′)，θ′表示目标网络的参数。

步骤S34，如附图3中虚线框④所示，损失函数Loss反向传播，采用梯度下降法更新评价网络中的参数。损失函数为均方误差(MSE)，损失计算公式为：

其中，E为从经验池采样的e的个数。

以燃料电池混合动力汽车的经济性、动力电池寿命和燃料电池寿命为目标，基于IMDDQN算法对燃料电池混合动力汽车能量管理策略进行多目标寻优。

经济性指标：燃料电池混合动力汽车动力电池SOC的开始值和结束值保持相等，均为SOC设定值，即SOC_start＝SOC_end＝SOC_{Targ et}，则燃料电池的经济性指标为燃料电池氢耗量

和行驶结束后动力电池SOC偏移设定值的程度

动力电池寿命指标：流经电池的有效电量Ah_eff。

燃料电池寿命指标：燃料电池的可用寿命T_FC。

由于IMDDQN算法通过最大化累计奖励进行寻优，而在燃料电池混合动力汽车的能量管理中，燃料电池氢耗量

动力电池SOC偏移设定值的程度D＝(SOC_end-SOC_{Targ et})²和流经电池的有效电量Ah_eff均为越小越好，燃料电池的可用寿命T_FC则为越大越好，因此，奖励函数为

状态变量：将燃料电池混合动力汽车的车速、加速度、动力电池SOC和电池安时通量作为状态变量，即s＝{v，acc，SOC，Ah}。

动作变量：燃料电池混合动力汽车能量管理策略的目的是实现动力源功率的最优分配，关键在于确定燃料电池的输出功率，因此，将燃料电池的输出功率P_FC作为动作变量，即a＝{P_FC}。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据实施例和附图公开内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变换或更改的设计，都落入本发明保护的范围。

Claims

1.一种基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法包括以下步骤：

2.根据权利要求1所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤S1中，所述整车纵向动力学模型为：

其中，F_D为驱动力，P_D为驱动功率，P_N为需求功率，P_FC为燃料电池功率，P_Bat为动力电池功率，v为车速，η_DC/AC为DC/AC转换器的效率，η_DC/DC为DC/DC转换器的效率，η_Motor为电机效率，η_Tran为齿轮传动效率，F_Roll、F_Air、F_Grade、F_Acc分别为车辆行驶中的滚动阻力、空气阻力、坡度阻力和加速阻力，分别通过下式获取：

为行驶加速度。

3.根据权利要求1所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤S1中，燃料电池氢耗模型为：

其中，

为氢气的低热值，η_FC为燃料电池的效率，

为与氢气流量消耗有关的理论功率。

4.根据权利要求1所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤S1中，对燃料电池的寿命影响进行量化处理：

5.根据权利要求1所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤S1中，动力电池等效电路模型为：

6.根据权利要求1所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤S1中，动力电池衰减模型为：

为额定条件下电池的充放电倍率，σ(I_C,T_K,SOC)为影响因子，用以表征实际运行条件对电池容量衰减的影响，γ(I_C,T_K,SOC)为实际运行条件下电池寿命终止时流经电池的总电量，Ah_eff为流经电池的有效电量，当Ah_eff＝τ时表示电池寿命终止，因此可减少Ah_eff来减缓电池寿命衰减程度。

7.根据权利要求1所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤3中，假设智能体的有限状态集合为S＝{s₁,s₂,…,s_n}，有限动作序列为A＝{a₁,a₂,…,a_n}，当智能体的当前状态为s_t∈S，采取动作为a_t∈A时，在环境的作用下智能体的状态转移为新的状态s_t+1∈S，产生的即时奖励为r(s_t,a_t)；

当智能体状态为s_t、采取动作为a_t的最优动作价值函数Q^*(s_t,a_t)为：

最优动作价值函数Q^*(s_t,a_t)遵循贝尔曼方程：

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γQ^*(s_t+1,a_t+1)|s_t,a_t]

其中，R_t为带折扣的累计奖励，

γ为折扣因子，γ∈[0,1]，T为终止时间；

8.根据权利要求7所述基于改进多目标Double DQN算法的燃料电池混合动力汽车能量管理方法，其特征在于，在步骤3中，所述IMDDQN算法包括如下步骤：

步骤S31，将智能体的状态信息s_t输入到评价网络中，输出为有限个离散动作对应的动作价值函数值Q，选择最大Q对应的动作，或者随机生成一个动作，记作a_t，将动作a_t输入到智能体，通过与环境的作用得到奖励r(s_t,a_t)和下一个状态信息s_t+1，并将当前状态s_t、选择的动作a_t、得到的奖励r(s_t,a_t)和下一个状态s_t+1存储至经验池；

然后将状态信息s_t+1输入到评价网络中，循环步骤S31，直到存储了一定数量的e_t＝(s_t,a_t,r(s_t,a_t),s_t+1)，选择动作时采用ε-greedy算法来实现探索和利用之间的平衡，保证充分的探索以及合理的利用：

其中，ε∈[0,1]为探索率，算法以ε的概率选择探索，以1-ε的概率选择最大Q对应的动作；

其中，

为动作为a_i时产生的下一个状态信息；

步骤S32，从经验池中随机抽取一部分样本e，首先将e中的状态信息s_t输入到评价网络中，得到所有动作的Q值，然后根据e中的动作a_t选取其对应的Q值，记作Q(s_t,a_t|θ)，θ表示评价网络的参数；

步骤S33，将步骤S32中采样的e中的下一个状态信息s_t+1输入到目标网络中，得到所有动作的Q值，然后通过步骤S32中得到的max_a_t+1选择其对应的Q值，记作Q(s_t+1,max_a_t+1；θ′)，θ′表示目标网络的参数；

其中，E为从经验池采样的e的个数；