CN111959509B

CN111959509B - 基于状态空间域电池能量均衡的q学习再生制动控制策略

Info

Publication number: CN111959509B
Application number: CN202010839976.3A
Authority: CN
Inventors: 尹燕莉; 张刘峰; 潘小亮
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2022-06-17
Anticipated expiration: 2040-08-19
Also published as: CN111959509A

Abstract

本申请提供一种基于状态空间域电池能量均衡的Q学习再生制动控制策略，所述策略包括以下步骤：S1：基于电池能量时域‑空间域转换，确定再生制动参考平均回收能量；S2：构建修正函数，修正所述参考平均回收能量；S3：根据修正后的参考平均回收能量和Q学习算法，确定电机再生转矩最优分配策略，即电机再生转矩分配MAP图；S4：采集在线工况数据，确定所述在线工况数据确定平均车速V、电池荷电状态SOC和需求功率P_req，根据所述需求功率P_req和电池荷电状态SOC在步骤S3的MAP图中确定与所述在线工况数据的对应的电机再生转矩分配值，即获得在线工况电机再生转矩序列。本申请的控制策略能实现再生制动过程中每一状态的电池能量全局均衡控制。

Description

基于状态空间域电池能量均衡的Q学习再生制动控制策略

技术领域

本发明涉及混合动力再生制动控制技术领域，尤其涉及一种基于状态空间域电池能量均衡的Q学习再生制动控制策略。

背景技术

再生制动在制动工况将电动机切换成发电机运转，利用车的惯性带动电动机转子旋转而产生反转力矩，将一部分的动能或势能转化为电能并加以储存或利用，是能量回收的过程。再生制动控制策略是混合动力汽车提高能量利用率的一项关键技术。混合动力汽车电池能量本质上来源于燃油能量与制动回收。在整车运行中，电池起到一个对能量利用率的调节作用，以使得整车的能量流更加的稳定与高效。通过对混合动力汽车电池功能特性的分析可知，电池荷电状态(SOC)在工况结束时要尽可能的与初始SOC接近，因此，在制定混合动力汽车再生制动策略时不仅要确保能量回收最大化，还要确保电池能量全局均衡变化。为了保持再生制动过程中电池能量变化均衡，通过限制SOC保持电池能量变化均衡的方法被广泛应用到再生制动控制策略中，但现有控制方法未能从全局的角度考虑每一状态的电池能量均衡，难以做到能量回收最大化与电池能量变化平衡的均衡控制。

因此，亟需一种能够实现能量回收最大化和保持电池能量全局均衡的再生制动控制方法。

发明内容

有鉴于此，本发明提供一种基于状态空间域电池能量均衡的Q学习再生制动控制策略，其特征在于：所述策略包括以下步骤：

S1：基于电池能量时域-空间域转换，确定再生制动参考平均回收能量；

S2：构建修正函数，修正所述参考平均回收能量；

S3：根据修正后的参考平均回收能量和Q学习算法，确定电机再生转矩最优分配策略，即电机再生转矩分配MAP图；

S4：采集在线工况数据，确定所述在线工况数据确定平均车速V、电池荷电状态SOC和需求功率P_req，根据所述需求功率P_req和电池荷电状态SOC在步骤S3的MAP图中确定与所述在线工况数据的对应的电机再生转矩分配值，即获得在线工况电机再生转矩序列。

进一步，所述再生制动参考平均回收能量采用如法方法确定：

S11：选择离线工况的平均车速为状态，将平均车速离散得到状态集S：

其中，S表示状态集合，

表示离散后的第一个状态，

表示离散后的第k个状态，

表示离散后的第n个状态；

S12：将电池时域能量转换到空间域能量，从空间维度计算第k个状态的电池能量变化值Δe_bk：

其中，Δe_bk表示第k个状态电池能量变化值，Δe_bk-out表示第k个状态驱动过程电池变化的能量，Δe_bk-in表示第k个状态制动过程电池变化的能量,τ表示第k个状态在时域上发生电池能量变化的时间；

S13：由第k个状态的电池能量变化值Δe_bk，计算第k个状态的制动过程参考平均回收能量

其中，

表示第k个状态再生制动参考平均回收能量的等效油耗,λ表示等效因子，

表示第k个状态再生制动参考平均回收能量；

所述等效因子λ采用如下方法确定：

其中，

表示电机的平均效率，

表示发动机的平均效率，

表示电池平均放电效率，

表示电池平均充电效率；

所述第k个状态再生制动参考平均回收能量

采用如下方法确定：

其中，

表示第k个状态再生制动参考平均回收能量，Δe_bk-tra表示第k个状态驱动过程电池能量变化值，T_bk,bra表示第k个状态发生制动的时间；

所述第k个状态驱动部分电池能量变化值Δe_bk-tra采用如下方法确定；

Δe_bk,tra＝∫_tractionΔe_bk-outdt (6)

其中，Δe_bk-tra表示第k个状态驱动过程电池能量变化值，Δe_bk-out表示第k个状态电池驱动过程变化的能量，t表示时间。

进一步，所述修正函数f(ΔP_req,ΔSOC)采用如下方法确定；

其中，f(ΔP_req,ΔSOC)表示修正函数，P_req,i表示当前状态第i个需求功率，SOC_j表示当前状态第j个电池荷电状态，

表示当前状态下的平均需求功率，

分别为当前状态下的平均电池荷电状态SOC，SOC_ref表示参考电池荷电状态的参考值；

所述参考平均回收能量采用如下方法修正：

其中，

表示第k个状态下P_req,i与SOC_j对应的修正后的参考回收能量，P_req,i表示第k个状态的第i个需求功率，SOC_j表示第k个状态的第j个电池荷电状态，f(ΔP_req,ΔSOC)表示修正函数，

表示第k个状态再生制动参考平均回收能量的等效油耗。

进一步，所述电机再生转矩最优分配MAP图采用如下方法确定：

S31：初始化Q学习算法的探索率ε、学习率α、折扣因子γ和设置迭代次数N和状态变量k，其中，N＝1，k＝1；

S32：令s＝[SOC,v,P_req],a＝[T_m]，即选择车速v，电池荷电状态SOC和需求功率P_req为状态变量，电机转矩T_m为优化变量；

S33:构建回报函数r(s,a)，所述回报函数r(s,a)如下：

其中，r(s,a)表示当前状态s与动作a的回报，a_ele表示当前状态s与对应动作a的电池能量变化值，λ为等效因子，

表示当前车速下的需求功率P_req和电池荷电状态SOC对应的参考回收量，β表示权重因子；

S34：确定最小Q(s,a)值对应的动作：

其中，π(a|s)表示最小Q(s,a)值对应的动作策略，ε表示探索率，α表示学习率，A(s)表示当前状态s下可行动作的总个数；

S35：更新当前动作Q(s,a)值：

Q(s,a)←Q(s,a)+α[r+γminQ(s',a')-Q(s,a)] (11)

其中，α表示学习率，r表示当前状态s与动作a对应的回报，γ表示折扣因子；

S36：判断k是否小于k_final，其中，k表示状态变量，k_final表示最终状态的变量值，即判断当前状态是否为最终状态，若是，则进入下一步，若否，k＝k+1，并进入步骤S32；

S37：判断相邻迭代次数的Q(s,a)值的绝对值之差是否小于阈值，若是，表明策略收敛，结束，若否，N＝N+1，并进入步骤S32；

收敛后的Q(s,a)值对应的策略作为最优策略。

本发明的有益技术效果：基于电池能量与时间对应的同时又与状态一一对应，本申请将基于电池时域能量关系转换为基于平均车速的电池空间域能量关系，从电池能量空间域的维度出发，建立了以平均车速为状态的离线工况电池能量空间化数值模型，运用Q学习算法，在获得电池能量全局均衡变化策略的同时并运用电池能量空间域全局均衡的理论，在实现电池驱动和制动工况能量平衡的基础上，实现制动能量回收最大化。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的流程图。

图2为本发明获得参考回收能量的流程图。

图3为本发明基于状态空间域电池能量均衡的Q学习再生制动控制策略的流程图。

图4为本申请确定在线工况电机再生转矩序列的流程图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明：

本发明提供的一种基于状态空间域电池能量均衡的Q学习再生制动控制策略，其特征在于：所述策略包括以下步骤：如图1所示，

S2：构建修正函数，修正所述参考平均回收能量；

S3：根据修正后的参考平均回收能量和Q学习算法，确定电机再生转矩最优分配策略，即电机再生转矩分配MAP图；其中，MAP图表示发动机在各种工况下所需的点火控制曲线图；

在本实施例中，如图2所示，所述再生制动参考平均回收能量采用如法方法确定：

其中，S表示状态集合，

表示离散后的第一个状态，

表示离散后的第k个状态，

表示离散后的第n个状态；

Δe_bk＝∫_tractionΔe_bk-outdτ+∫_brakingΔe_bk-indτ (2)

其中，

表示第k个状态再生制动参考平均回收能量；

所述等效因子λ采用如下方法确定：

其中，

表示电机的平均效率，

表示发动机的平均效率，

表示电池平均放电效率，

表示电池平均充电效率；

所述第k个状态再生制动参考平均回收能量

采用如下方法确定：

其中，

Δe_bk,tra＝∫_tractionΔe_bk-outdt (6)

电池时域能量，没有考虑状态驱动过程电池能量全局变化，不能获得每一状态的电池能量全局均衡；将电池时域能量转换为空间域能量可以有效地将独立的状态能量均衡聚类到多种单一状态能量均衡，实现状态的驱动与制动过程电池能量全局均衡。

在本实施例中，所述修正函数f(P_req,SOC)采用如下方法确定；

表示当前状态下的平均需求功率，

所述参考平均回收能量采用如下方法修正：

其中，

表示第k个状态再生制动参考平均回收能量的等效油耗。

对于同一平均车速，其所对应的需求功率P_req和电池SOC有不同的组合。状态组合不同，参考回收能量也是不同的。比如：当P_req较大，SOC较低时，参考回收能量应高于参考平均回收能量；当P_req较小，SOC较高时，参考回收能量应低于参考平均回收能量。在整车再生制动过程优化中，同一平均车速下，不同的P_req和SOC组合回收能量不同。当P_req绝对值高于

SOC低于SOC_ref时，参考回收能量具有增大的趋势；相反，具有减小的趋势。参考回收能量与状态组合的变化趋势，通过修正系数对平均参考回收能量的修正，可以实现不同状态组合回收能量的动态调整，获得能适应不同状态组合的参考回收能量，增强本申请提供的再生制动策略的适应性。

在本实施例中，如图3所示，所述电机再生转矩最优分配MAP图采用如下方法确定：

S33:构建回报函数r(s,a)，所述回报函数r(s,a)如下：

表示当前车速下的需求功率P_req和电池荷电状态SOC对应的参考回收量，β表示##；

S34：确定最小Q(s,a)值对应的动作：

其中，π(a|s)表示最小Q(s,a)值对应的动作策略，ε表示探索率，α表示学习率，A(s)表示##；

S35：更新当前动作Q(s,a)值：

Q(s,a)←Q(s,a)+α[r+γminQ(s',a')-Q(s,a)] (11)

收敛后的Q(s,a)值对应的策略作为最优策略。

Q学习算法是一种智能算法，将时域状态转化为空间域，可以对每一状态的最优策略进行迭代优化，优化结果为每一状态的最优策略MAP图，降低了优化结果对工况的耦合性，提升了优化结果对其他工况的适应性。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。