CN117002475A

CN117002475A - 混合动力车能量优化控制方法、装置、电子设备及存储介质

Info

Publication number: CN117002475A
Application number: CN202311219459.6A
Authority: CN
Inventors: 马永娟; 顾王文; 王计广; 胥峰; 陈旭东; 黄佑贤; 李建微; 代兴海; 佘红楼; 何建良; 李智鹏; 杨书恒
Original assignee: Cnr Automobile Inspection Center Kunming Co ltd
Current assignee: Cnr Automobile Inspection Center Kunming Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-11-07

Abstract

本发明公开一种混合动力车能量优化控制方法、装置、电子设备及存储介质，涉及车辆相关技术领域。方法包括：根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，根据预测车速和预测加速度，计算预测车速对应的需求功率；选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列；将最优转矩分配序列中的第一组转矩作用到车辆上。本发明能满足驾驶员对整车驱动力的需求，同时又能优化动力源传递动力以及系统能量效率。

Description

混合动力车能量优化控制方法、装置、电子设备及存储介质

技术领域

本发明涉及车辆相关技术领域，特别是一种混合动力车能量优化控制方法、装置、电子设备及存储介质。

背景技术

混合动力电动汽车(非增程式)具有发动机和电机等两种以上动力源，动力源输出的动力通过协调后经由传动系统驱动整车行驶。不同的布置结构能实现不同的工作模式，在满足车辆动力需求的同时，降低了油耗，减小污染物的排放。既能克服纯电动汽车续驶里程不足的问题，而且也没有燃料电池汽车适应性差、安全性低的问题，因此混合动力汽车的生产研究在现阶段炙手可热。能量管理策略是混合动力汽车的关键技术，对整车的燃油经济性、动力性等具有决定性作用。对整车进行能量管理就是在满足整车需求动力的前提下，实现对动力源转矩的优化分配，使整车性能最佳，因此需要制定合理的能量管理策略。

模型预测控制(Model Predictive Control)，简称MPC，最初应用于工业控制过程，用于解决多变量约束优化控制问题。从数学与控制理论的层面来看，混合动力汽车的能量管理策略问题可以归属于一个受限制性条件约束的非线性动态最优化控制问题。MPC将复杂的优化问题划分为有限预测时域内的数学规划问题并分区域求解，提高计算效率的同时还能获得局部最优解。MPC的控制原理为在每一个采样时刻，都遵循3个步骤：预测系统未来动态—求解优化问题—解的第1个元素作用于系统，在下一个时刻，将测量的实际输出值与参考值作比较后修正预测模型，重新进行求解，重复进行上述步骤滚动求解优化问题，直到预测时域结束。

然而，现有技术缺乏基于MPC对动力源转矩的优化分配方法。

发明内容

基于此，有必要针对现有技术缺乏基于MPC对动力源转矩的优化分配方法的技术问题，提供一种混合动力车能量优化控制方法、装置、电子设备及存储介质。

本发明提供一种混合动力车能量优化控制方法，包括：

步骤一，根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域；

步骤二，选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，所述最优转矩分配序列包括预测时域内当前时刻之后每一预测时刻的一组转矩分配，所述转矩分配包括电动机转矩和/或发动机转矩；

步骤三，将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述步骤一到所述步骤三，直到达到预测时域的最后一个预测时刻。

进一步地，所述根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，包括：

获取根据车辆历史车速及历史加速度计算得到的多步马尔科夫预测模型，所述多步马尔科夫预测模型包括每一车速下每一加速度对应的转移加速度的转移概率；

将实测车速作为输入车速，将实测加速度作为输入加速度，依次对预测时域内当前时刻之后每一所述预测时刻执行预测操作，每一预测操作，包括：

在所述多步马尔科夫预测模型中，从所述输入车速对应的所有所述转移加速度中，选择最大转移概率对应的转移加速度作为预测加速度，根据预测加速度与所述输入车速，计算所述预测时刻的预测车速，以所述预测加速度作为下一预测时刻的输入加速度，以所述预测车速作为下一预测时刻的输入车速。

进一步地，所述根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，包括：

计算所述预测车速对应的需求功率为：其中P_req为车辆行驶需求功率，m为整车质量，g为重力加速度，f为车辆的轮胎滚动阻力系数，C_D为空气阻力系数，δ为旋转质量换算系数，A为迎风面积，/>为所述预测加速度，v为所述预测车速，K为常数。

进一步地，所述选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，包括：

选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作；

执行迭代计算，每次迭代计算中，依次对每一所述预测时刻执行强化学习操作，所述强化学习操作，包括：

在所述预测时刻，利用概率贪婪策略选择动作变量作为所述预测时刻的选择动作，计算将所述选择动作作用于车辆时得到的整车燃油消耗量发动机燃油消耗量以及电能等效燃油能量，基于所述发动机燃油消耗量以及所述电能等效燃油能量，计算选择动作的立即回报，根据所述立即回报，更新关于状态与动作的状态动作值；

完成一次迭代计算后，判断是否满足迭代结束条件，如果满足迭代结束条件，则停止迭代，根据本次迭代计算得到的每个预测时刻对应的最优动作，计算最优转矩分配序列，否则执行下一次迭代，每个预测时刻对应的最优动作为所述预测时刻的状态的最小状态动作值对应的动作。

更进一步地，所述基于所述发动机燃油消耗量以及所述电能等效燃油能量，计算选择动作的立即回报，包括：

计算选择动作a的立即回报为：r_t(s,a)＝m_fuel+m_ele+β(SOC(t)-SOC_ref(t))²，其中，r_t(s,a)为预测时刻t下状态s与动作a的立即回报，m_fuel为所述发动机燃油消耗量，m_ele为所述电能等效燃油能量，β为权重系数，SOC(t)为预测时刻t时的荷电状态，SOC_ref(t)为预测时刻t时的荷电状态参考值。

进一步地，还包括，进行如下约束：

其中：n_e(k)表示k时刻的发动机转速，n_{e_max}(k)为k时刻发动机转速的最大值，n_{e_min}(k)为k时刻发动机转速的最小值；T_m(k)为k时刻的电动机转矩，T_{m_max}(k)为k时刻电机转矩的最大值，T_{m_min}(k)为k时刻电机转矩的最小值，T_e(k)为k时刻的发动机转矩，T_{e_max}(k)为k时刻发动机转矩的最大值，T_{e_min}(k)为k时刻发动机转矩的最小值，P_m(k)为k时刻电动机功率，P_{m_max}(k)为k时刻电机功率的最大值，P_{e_min}(k)为k时刻电机功率的最小值，P_e(k)为k时刻发动机功率，P_{e_max}(k)为k时刻发动机功率的最大值，P_{e_min}(k)为k时刻发动机功率的最小值，SOC(k)为k时刻电池的荷电状态。

本发明提供一种混合动力车辆能量优化控制装置，包括：

车速加速度预测模块，用于根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域；

强化学习模块，用于选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，所述最优转矩分配序列包括预测时域内当前时刻之后每一预测时刻的一组转矩分配，所述转矩分配包括电动机转矩和/或发动机转矩；

反馈校正模块，用于将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述车速加速度预测模块、所述强化学习模块以及所述反馈校正模块，直到达到预测时域的最后一个预测时刻。

本发明提供一种电子设备，包括：

至少一个处理器；以及，

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被至少一个所述处理器执行的指令，所述指令被至少一个所述处理器执行，以使至少一个所述处理器能够执行如前所述的混合动力车能量优化控制方法。

本发明提供一种存储介质，所述存储介质存储计算机指令，当计算机执行所述计算机指令时，用于执行如前所述的混合动力车能量优化控制方法的所有步骤。

本发明提供一种车辆，包括如前所述的混合动力车能量优化控制装置、或者如前所述的电子设备。

本发明计算当前时刻之后，预测时域内多个预测时刻的预测车速和预测加速度，并根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率；然后采用强化学习，选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，将所述最优转矩分配序列中的第一组转矩作用到车辆上，从而提高混合动力汽车的燃油经济性和动力性，使发动机和电机的动力进行合理分配，既能满足驾驶员对整车驱动力的需求，同时又能优化动力源传递动力以及系统能量效率。

附图说明

图1为本发明一实施例一种混合动力车能量优化控制方法的工作流程图；

图2为本发明另一实施例一种混合动力车能量优化控制方法的工作流程图；

图3为滚动优化示意图；

图4为本发明最佳实施例DQN学习算法流程示意图；

图5为本发明最佳实施例一种混合动力车能量优化控制方法的工作流程图；

图6为本发明一实施例一种种混合动力车辆能量优化控制装置示意图；

图7为本发明一种电子设备的硬件结构示意图。

具体实施方式

下面结合附图来进一步说明本发明的具体实施方式。其中相同的零部件用相同的附图标记表示。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

如图1所示为本发明一实施例一种混合动力车能量优化控制方法的工作流程图，包括：

步骤S101，根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域；

步骤S102，选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，所述最优转矩分配序列包括预测时域内当前时刻之后每一预测时刻的一组转矩分配，所述转矩分配包括电动机转矩和/或发动机转矩；

步骤S103，将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述步骤S101到所述步骤S103，直到达到预测时域的最后一个预测时刻。

具体来说，本发明可以应用在车辆具有处理能力的电子设备，例如电子控制器单元(Electronic Control Unit，ECU)或者可扩展型多域控制单元(Extended DomainControl Unit，XCU)上。

电子设备首先执行步骤S101，根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域。

具体地，以欧洲汽车行驶油耗测试工况(ECE_EUDC)、城市道路工况标准循环工况(Urban Dynamometer Driving Schedule，UDDS)为数据基础，提取车速及加速度数据，建立预测模型。其中，ECE为联合国欧洲经济委员会的汽车法规(Economic Commission forEurope，ECE)EUDC为市郊循环工况(Extra Urban Driving Cycle，EUDC)。

然后将当前时刻的实测车速及实测加速度代入预测模型，得到预测时域内多个预测时刻的预测车速和预测加速度。

预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域，预测时域不包括响应优化控制请求时刻。预测时域的时长长度预先确定。在预测时域内每间隔一定步长为一个预测时刻。例如，对于响应优化控制请求时刻k，则选定响应优化控制请求时刻k之后的时长p为预测时域，则时刻k+1、k+2、……k+n_p为预测时域中的预测时刻。预测时域在执行步骤S101至步骤S103的过程中保持不变，但用于预测计算的当前时刻随计算改变。

然后，根据车辆参数以及每个预测车速计算对应的需求功率，并基于每个预测车速的需求功率，计算需求功率转移矩阵。

之后执行步骤S102，执行强化学习。

具体地，选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列。

强化学习具体可以采用Q学习。Q学习是强化学习的一种，一种由数据驱动的表格型智能算法，它基于数据不断地进行“试错”学习来寻优。由有限状态集S、有限动作集A、状态的概率转移矩阵P、立即回报r和折扣因子γ五要素组成。该算法以控制系统为智能体，除控制系统外为环境，控制变量为动作。该算法针对状态-动作值Q(s,a)进行迭代更新，智能体需要不断探索环境来寻找最优Q(s,a)值所对应的动作策略。

Q学习算法的工作原理：在当前k时刻，智能体从环境中获取当前时刻的状态s，利用ε-greedy策略选择合适的动作a作用于环境，获得当前状态-动作对的立即回报r，同时获取k+1时刻状态s_t+1，并评估回报以此来更新状态-动作值Q(s,a)值。智能体探索环境的过程也称为学习的过程，经过不断的迭代学习，直至Q(s,a)表收敛，利用贪婪策略(greedy策略)，选择每一状态对应最大奖励的动作，最终获得所有状态的最优控制策略。

本实施例中，以电池荷电状态、需求功率为状态s，以电动机转矩和/或发动机转矩作为动作a执行Q学习。在每个预测时刻，利用概率贪婪策略选择每个预测时刻的动作a，并更新所选择动作的其中r为立即回报，γ为折扣因子，α为学习率,/>为所有的Q值中的最小值。每一个预测时刻的状态为基于步骤S101得到的该预测时刻的预测车速和预测加速度所确定的电池荷电状态、需求功率。同时，基于每个预测时刻所对应的状态，选择该状态对应的最小的Q(s，a)值，该最小的Q(s,a)值所对应的动作即为该预测时刻的最优动作。而由于本实施例中的动作为转矩分配，因此，将多个预测时刻的最优动作组成最优矩阵分配序列，最优转矩分配序列包括预测时域内当前时刻之后每一预测时刻的一组转矩分配。

由于整车采用电动机或者发动机驱动，因此在确定了电动机转矩之后则能得到发动机转矩，或者在确定了发动机转矩后则能同时确定电动机转矩。因此，可以选择电动机转矩作为动作a进行强化学习，在学习后，基于电动机转矩确定发动机转矩。也可以选择发动机转矩作为动作a进行强化学习，在学习后，基于发动机转矩确定电动机转矩。也可以同时选择电动机转矩和发动机转矩作为动作a进行强化学习。

强化学习还可以采用DQN算法。DQN算法也是一种强化学习算法，建立在Q学习算法上，主要是为了解决Q学习算法当状态动作变量维度过多或离散程度过高时，会出现维度灾难或寻优速度慢的问题。需要注意的是，Q学习算法是表格型的强化学习算法(针对有限的状态空间)，其状态-动作值对应着一张表格，状态-动作值的迭代更新就是表格的迭代更新,Q学习算法更新值函数时，只有当前状态s处的值函数改变。而DQN算法是值函数逼近方法(针对状态空间维数很大)，状态-动作值对应一个逼近函数Q(s,a,θ),DQN算法更新值函数时，更新的是参数θ，θ改变，任意处的状态-动作值都改变。DQN算法利用深度卷积神经网络逼近值函数，而θ表示的是神经网络里每层网络的权重。当网络结构确定时，θ就代表值函数。

最后，执行步骤S103，将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述步骤S101到所述步骤S103，直到达到预测时域的最后一个预测时刻。

根据步骤S102的滚动优化过程可以获得当前k时刻的最佳电机转矩分配序列[Tm(k)，Tm(k+1/k)，…，Tm(k+n_p/k)]，其中，Tm(k+n_p/k)表示在k时刻预测通过求解后得到的预测时刻k+n_p的转矩分配序列。在实际控制中，只将最优转矩序列的第1个值Tm(k)作用于车辆。在k+1时刻，首先检测车辆的实际车速及加速度输出值，重新执行步骤S101至步骤S103，刷新预测模型，对预测时域内k+1时刻之后的预测时刻的车辆速度和车辆加速度进行重新预测得到新的预测车速和预测加速度，基于更新的预测值重新优化转矩分配。例如，在k+1时刻刷新模型，重新执行步骤S101至步骤S103对k+2～k+n_p时刻进行更新，之后在时刻k+n时刻刷新模型，重新执行步骤S101至步骤S103对k+n+1～k+n_p时刻进行更新。如此类推，在每一个时刻都重复上述3个步骤，直到预测时域结束，即可获得预测时域内的最优转矩分配序列。

如图2所示为本发明另一实施例中一种混合动力车能量优化控制方法的工作流程图，包括：

步骤S201，获取根据车辆历史车速及历史加速度计算得到的多步马尔科夫预测模型，所述多步马尔科夫预测模型包括每一车速下每一加速度对应的转移加速度的转移概率。

步骤S202，将实测车速作为输入车速，将实测加速度作为输入加速度，依次对预测时域内当前时刻之后每一所述预测时刻执行预测操作，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域，每一预测操作，包括：

步骤S203，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率。

在其中一个实施例中，所述根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，包括：

步骤S204，选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作；

步骤S205，执行迭代计算，每次迭代计算中，依次对每一所述预测时刻执行强化学习操作，所述强化学习操作，包括：

完成一次迭代计算后，判断是否满足迭代结束条件，如果满足迭代结束条件，则停止迭代，根据本次迭代计算得到的每个预测时刻对应的最优动作，计算最优转矩分配序列，所述最优转矩分配序列包括预测时域内每一预测时刻的一组转矩分配，所述转矩分配包括电动机转矩和/或发动机转矩，否则执行下一次迭代，每个预测时刻对应的最优动作为所述预测时刻的状态的最小状态动作值对应的动作。

在其中一个实施例中，所述基于所述发动机燃油消耗量以及所述电能等效燃油能量，计算选择动作的立即回报，包括：

在其中一个实施例中，还包括，进行如下约束：

步骤S206，将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述步骤S201到所述步骤S206，直到达到预测时域的最后一个预测时刻。

具体来说，首先，执行步骤S201，获取根据车辆历史车速及历史加速度计算得到的多步马尔科夫预测模型，所述多步马尔科夫预测模型包括每一车速下每一加速度对应的转移加速度的转移概率。

具体地，应用多步马尔科夫(Markov)模型预测未来的工况数据(车速、加速度预测)。

首先执行加速度的预测

(1)以ECE_EUDC、UDDS标准循环工况为数据基础，提取车速及加速度数据，建立多步Markov预测模型。采样步长取1s，工况最高车速为120km/h，车速离散间隔为5km/h；工况最大加速度为1.5m/s²，工况最小加速度为-1.5m/s²，加速度离散间隔为0.1m/s²。将车速及加速度按式所示的离散间隔进行离散。

(2)假设当前时刻为k，记录在每一时刻，当前时刻车速及加速度到预测时域p(p＝1,2,3,…,p)内任意时刻的车速及加速度变化信息，即可获得每一离散的车速z下，加速度由当前时刻的状态i转移到下一时刻状态j的次数S_i，j，根据式计算得到该车速下加速度由i转移的总次数S_i。

(3)利用最大似然估计法计算获得每一离散车速下加速度的转移概率。P_z,i,j为当前离散车速z下，加速度由i转移到j的概率。每一个离散车速值下都会对应p个加速度转移概率矩阵，这些转移概率矩阵即所建立的多步Markov预测模型，对相应时长的加速度进行预测。

然后执行步骤S202，将实测车速作为输入车速，将实测加速度作为输入加速度，依次对预测时域内当前时刻之后每一所述预测时刻执行预测操作，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域，每一预测操作，包括：

具体地，进行车速的预测

基于上述建立的多步Markov预测模型，结合当前时刻k的车速v(k)及加速度a(k)作为转移概率矩阵的输入，选取概率最大的加速度值作为下一时刻k+1的实际加速度值a(k+1)，由式v(k+1)＝v(k)+a(k)t计算得到下一时刻的车速值v(k+1)。在k+1时刻及未来有限时刻重复此过程即可获得预测时域内的全部车速及加速度信息。

利用建立的多步Markov模型，在不同预测时域下分别对车速进行预测，选用均方根误差对预测结果进行评价。

其中：R(k)为k时刻预测时域内的均方根误差，v(k+i)为k时刻循环工况的实际车速，v_np(k+i)为k时刻预测得到的车速，n_p为预测时域，Re为整个循环工况内总的均方根误差，L为循环工况的总时长。Re的值越小，说明预测车速与实际车速之间的差距越小，预测结果越准确。

然后执行步骤S203，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率。

优选地，K为21.15。

具体地，根据预测获得的加速度结合式求出预测时域内的需求功率。

其中P_req为车辆行驶需求功率，F_f为滚动阻力，F_w为空气阻力，F_j为加速阻力，m为整车质量，g为重力加速度，f为车辆的轮胎滚动阻力系数，C_D为空气阻力系数，δ为旋转质量换算系数，A为迎风面积，为所述预测加速度，v为所述预测车速。

本实施例根据车辆参数计算车速的需求功率。

然后，执行步骤S204，选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作。

具体地，采用DQN算法进行优化求解。首先，计算出预测时域内每一离散车速下的需求功率转移概率矩阵；其次，选取预测时域内电池荷电状态C、需求功率Preq为状态变量，电动机转矩Tm为控制(动作)变量，以整车燃油消耗量最小为优化目标，建立优化模型，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列。

首先，选取预测时域内电池荷电状态SOC、需求功率Preq为状态变量，电动机转矩Tm为动作变量，具体如下：

通过等效因子将电池能量变化等效为燃油消耗，构建以整车等效燃油消耗量最小为目标的回报函数，将最小累积回报的期望作为目标函数。

其中，t是预测时域k～k+n_p,该目标函数是最小累积回报的期望值。

其中：k～k+n_p为预测时域，J_k为预测时域内的优化目标，通过求解累积回报的期望得到。Q^* _k(s,a)是最优的状态-动作值，γ为折扣因子，r为状态-动作的立即回报。

基于所述发动机燃油消耗量以及所述电能等效燃油能量，结合预测时刻的荷电状态，计算选择动作的立即回报。

本实施例为了维持SOC的平衡，在结合荷电状态计算立即回报。

具体地，通过等效因子将电池能量变化等效为燃油消耗，构建以整车等效燃油消耗量最小为目标的回报函数。

本实施例的回报函数包含燃油消耗量与电能的等效燃油消耗量之和，同时，为了维持SOC的平衡，在回报函数中加入了SOC惩罚函数。

在其中一个实施例中，还包括，进行如下约束：

为了保护电池，防止其过充或过放，需将电池的SOC限定在参考范围内。在优化过程中，转矩、转速等因素也会对优化结果造成干扰，因此，在预测时域k～k+n_p对相关变量做如下约束：

其中：n_e(k)表示k时刻的发动机转速，r/min；n_{e_max}(k)、n_{e_min}(k)为k时刻发动机转速的最大、最小值，r/min；T_m(k)为k时刻的电动机转矩，N·m；T_{m_max}(k)、T_{m_min}(k)为k时刻电机转矩的最大、最小值，N·m；T_e(k)为k时刻的发动机转矩；T_{e_max}(k)、T_{e_min}(k)为k时刻发动机转矩的最大、最小值，N·m；P_m(k)为k时刻电动机功率，kw；P_{m_max}(k)、P_{e_min}(k)为k时刻电机功率的最大、最小值，kw；P_e(k)为k时刻发动机功率，kw；P_{e_max}(k)、P_{e_min}(k)为k时刻发动机功率的最大、最小值，kw；SOC(k)为k时刻电池的荷电状态SOC。

然后执行步骤S205，执行迭代计算，每次迭代计算中，依次对每一所述预测时刻执行强化学习操作，所述强化学习操作，包括：

具体地，利用深度Q学习算法(DQN)滚动优化求解，获得最优控制序列。

滚动优化如图3所示，在每一个预测时域内，根据当前时刻的状态对未来有限时域内的状态进行预测。预测出状态后，对优化问题进行求解，求解的过程是MPC框架中的滚动优化求解，就是在每一时刻，优化过程是从该时刻到预测时域的范围内，后续时刻根据当前时刻执行的动作改变状态，然后依次得到相应的动作。在下一时刻时，优化范围会同时向前滚动一个采样时段，每一时刻的控制量也随优化时段向前更新。

DQN算法是通过不断地训练迭代Q网络，从而获取最优的策略，根据车辆当前状态，采用ε贪心算法选取动作(以概率ε选取最大的Q值所对应的动作值，以1-ε的概率选取其他动作)，避免陷入局部最优。其次，通过当前状态以及选取的动作计算出当前的回报值以及下一时刻的状态，储存到经验池中，当经验池储存到一定数量时，为了避免训练样本的相关性，增加训练效率，随机从经验池中选取样本对其进行网络训练。两个训练网络结构相同，分别为目标网路和评估网络，评估网络用于获取当前状态-动作所对应的Q值，输出为Q(s_t,a_t；θ)，目标网络则通过下一刻的状态，输出相应下一时刻状态-动作所对应的Q(s_t+1,a_t+1；θ^-)，然后计算目标Q_target＝r+γmin Q(s_t+1,a_t+1；θ^-)，最后不断地通过以损失函数最小化为目标，采用梯度下降不断的更新评估网络的参数，以尽可能的让评估Q值逼近目标Q值。为了增加算法的稳定性，每隔一定的时间步长，将评估网络的参数复制给目标网络。不断的迭代求解，直到预测时域结束。

在一些实施例中，迭代结束条件为相邻迭代次数的累计评估状态动作值之间的差值绝对值小于预设阈值，所述累计评估状态动作值为每个预测时刻的状态所对应的所有状态动作值的最小值的累计值。

具体地，在每个预测时刻选择一个最小的状态动作值，将所有预测时刻所选择的状态动作值累计，得到本次迭代的累计评估状态动作值(累计评估Q值)。比较相邻两次迭代次数的累计评估状态动作值，如果差值绝对值小于预设阈值则迭代结束。

如图4所示为DQN学习算法流程示意图，包括：

步骤S401,初始化DQN基本参数。经验池容量N，随机抽取样本数量为n_b，迭代次数n，评估网络参数θ，目标网络参数θ-，探索率ε和折扣因子γ。

步骤S402，选取状态和动作。选取预测时域内电池荷电状态SOC、需求功率Preq为状态变量，电动机转矩Tm为动作变量。

步骤S403，储存样本到经验池。运用ε-greedy策略，得到当前状态s_t下的最优动作a_t，如下式所示，并将当前状态s_t、动作a_t、回报值r_t和下一时刻的状态s_t+1储存到经验池，即：et＝(s_t,a_t,r_t,s_t+1)。

其中，A(s)为使得状态动作值最小的动作的个数，π(a|s)为对于状态s选择动作a的概率，当动作a为最小Q值所对应的动作时，其选择概率为/>当动作a不为最小Q值所对应的动作时，其选择概率为/>

步骤S404，网络训练。当经验池存储一定量的样本时，从经验池中随机选取n_b个样本进行训练。

步骤S405，网络参数更新。利用损失函梯度下降法，反向更新评估网络。损失函数为：

L(θ)＝E{[r+γmin Q(s_t+1,a_t+1；θ^-)-Q(s_t,a_t；θ)]²}

步骤S406，更新目标网络。每隔一定步长step_c，将评估网络权重参数复制给目标网络。

步骤S407，判断t是否达到预测时域T_pre，若是，执行步骤S408；反之重复步骤S403至S406。

步骤S408，判断迭代结束。判断相邻迭代次数的累计评估Q值之间的差值是否小于一定的阀值0.01，若是则迭代结束，计算整车等效燃油消耗量，否则继续迭代训练。

步骤S409，确定最优策略。将收敛后的Q(s,a)中，每个预测时刻的状态所对应的所有状态动作值的最小值所对应的动作作为该预测时刻的最优动作，将每个预测时刻的最优动作的集合作为最优转矩分配序列。

最后，步骤S206，将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述步骤S201到所述步骤S206，直到达到预测时域的最后一个预测时刻。

具体地，执行反馈校正

根据步骤S205的滚动优化过程可以获得当前k时刻的最佳电机转矩分配序列[T_m(k)，T_m(k+1/k)，…，T_m(k+n_p/k)]。在实际控制中，只将最优转矩序列的第1个值T_m(k)作用于车辆。在k+1时刻，首先检测车辆的实际车速及加速度输出值，刷新预测模型，对预测时域内k+1时刻之后的预测时刻的车辆速度和车辆加速度进行重新预测得到新的预测车速和预测加速度，基于更新的预测值重新优化转矩分配。在每一个时刻都重复上述S201至步骤S206，直到预测时域结束，即可获得预测时域内的最优转矩分配序列。

本实施例提供一种有效解决插电式混合动力汽车(非增程式)能量管理问题的方法，以解决现有技术中能量管理问题依靠专家知识和经验，存在一定局限性无法实现在线实时控的问题。通过反馈校正模型，形成闭环控制，可以有效减小控制误差，提高控制系统鲁棒性的同时，还能获得最优的燃油经济性。

如图5所示为本发明最佳实施例一种混合动力车能量优化控制方法的工作流程图，包括：

步骤S501,获取ECE_EUDC、UDDS标准循环工况；

步骤S502，以ECE_EUDC、UDDS标准循环工况为数据基础，提取车速及加速度数据，建立多步Markov预测模型；

步骤S503，计算预测时域内的全部车速及加速度信息；

步骤S504，求出预测时域内的需求功率；

步骤S505，采用DQN算法进行优化求解，得到预测时域内燃油消耗量最小所对应的最优转矩分配序列；

步骤S506，将最优转矩序列的第1个值Tm(k)作用于车辆；

步骤S507，检测车辆的实际车速及加速度输出值，如果当前时刻k＞n_p,则可以输出预测时域内的最优转矩分配序列，否则令k＝k+1，执行步骤S502，刷新预测模型，对未来有限时域内的车辆加速度进行重新预测。

基于相同的发明构思，如图6所示为本发明一实施例一种种混合动力车辆能量优化控制装置示意图，包括：

车速加速度预测模块601，用于根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，所述预测时域为接收到优化控制请求后，在响应优化控制请求时刻之后预设时长的时间域；

强化学习模块602，用于选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，所述最优转矩分配序列包括预测时域内当前时刻之后每一预测时刻的一组转矩分配，所述转矩分配包括电动机转矩和/或发动机转矩；

反馈校正模块603，用于将所述最优转矩分配序列中的第一组转矩作用到车辆上，更新当前时刻为下一所述预测时刻，更新实测车速及实测加速度，并再次执行所述车速加速度预测模块、所述强化学习模块以及所述反馈校正模块，直到达到预测时域的最后一个预测时刻。

在其中一个实施例中，所述根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，包括：

在其中一个实施例中，所述选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，包括：

在其中一个实施例中，还包括约束模块，用于进行如下约束：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图7所示为本发明一种电子设备的硬件结构示意图，包括：

至少一个处理器701；以及，

与至少一个所述处理器701通信连接的存储器702；其中，

所述存储器702存储有可被至少一个所述处理器执行的指令，所述指令被至少一个所述处理器执行，以使至少一个所述处理器能够执行如前所述的混合动力车能量优化控制方法。

图7中以一个处理器701为例。

电子设备还可以包括：输入装置703和显示装置704。

处理器701、存储器702、输入装置703及显示装置704可以通过总线或者其他方式连接，图中以通过总线连接为例。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的混合动力车能量优化控制方法对应的程序指令/模块，例如，图1、图2所示的方法流程。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，即实现上述实施例中的混合动力车能量优化控制方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据混合动力车能量优化控制方法的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行混合动力车能量优化控制方法的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置703可接收输入的用户点击，以及产生与混合动力车能量优化控制方法的用户设置以及功能控制有关的信号输入。显示装置704可包括显示屏等显示设备。

在所述一个或者多个模块存储在所述存储器702中，当被所述一个或者多个处理器701运行时，执行上述任意方法实施例中的混合动力车能量优化控制方法。

本发明一实施例提供一种存储介质，所述存储介质存储计算机指令，当计算机执行所述计算机指令时，用于执行如前所述的混合动力车能量优化控制方法的所有步骤。

本发明一实施例提供一种车辆，包括如前所述的混合动力车能量优化控制装置、或者如前所述的电子设备。可以理解的，车辆也可以包括：处理器、存储器以及计算机程序。其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现本公开实施例所提供的混合动力车能量优化控制方法。其中，处理器、存储器已在图7所示实施例说明的部分在此不做赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种混合动力车辆能量优化控制方法，其特征在于，包括：

2.根据权利要求1所述的混合动力车辆能量优化控制方法，其特征在于，所述根据实测车速及实测加速度，计算预测时域内当前时刻之后每一预测时刻的预测车速和预测加速度，包括：

3.根据权利要求1所述的混合动力车辆能量优化控制方法，其特征在于，所述根据所述预测车速和所述预测加速度，计算所述预测车速对应的需求功率，包括：

4.根据权利要求1所述的混合动力车辆能量优化控制方法，其特征在于，所述选取预测时域内当前时刻之后每一预测时刻对应的电池荷电状态、需求功率为强化学习的状态，电动机转矩和/或发动机转矩为强化学习的动作，以整车燃油消耗量最小为优化目标，通过强化学习，获得预测时域内燃油消耗量最小所对应的最优转矩分配序列，包括：

5.根据权利要求4所述的混合动力车辆能量优化控制方法，其特征在于，所述基于所述发动机燃油消耗量以及所述电能等效燃油能量，计算选择动作的立即回报，包括：

6.根据权利要求1所述的混合动力车辆能量优化控制方法，其特征在于，还包括，进行如下约束：

7.一种混合动力车辆能量优化控制装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被至少一个所述处理器执行的指令，所述指令被至少一个所述处理器执行，以使至少一个所述处理器能够执行如权利要求1至6任一项所述的混合动力车能量优化控制方法。

9.一种存储介质，其特征在于，所述存储介质存储计算机指令，当计算机执行所述计算机指令时，用于执行如权利要求1至6任一项所述的混合动力车能量优化控制方法的所有步骤。

10.一种车辆，其特征在于，包括如权利要求7所述的混合动力车能量优化控制装置、或者如权利要求8所述的电子设备。