CN116834511A

CN116834511A - 基于Q-learning的纯电动汽车热管理控制方法

Info

Publication number: CN116834511A
Application number: CN202310917248.3A
Authority: CN
Inventors: 詹森; 黄榆; 李宗华; 赵树恩; 隗寒冰
Original assignee: Deep Blue Automotive Technology Co ltd; Chongqing Jiaotong University
Current assignee: Deep Blue Automotive Technology Co ltd; Chongqing Jiaotong University
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-03

Abstract

本发明公开了一种基于Q‑learning的纯电动汽车热管理控制方法，包括：S1.采集车辆当前状态信息；S2.确定车辆需求功率；S3.基于车辆当前状态信息以及车辆需求功率，采用Q‑learning算法求解最优的电池加热功率和最优的乘员舱加热功率；S4.通过最优的电池加热功率和最优的乘员舱加热功率分别对电池以及乘员舱进行加热。本发明能够在实际应用过程中，实时调整热管理控制，将集成热管理系统的温度控制在最佳工作温度范围内。

Description

基于Q-learning的纯电动汽车热管理控制方法

技术领域

本发明涉及电动汽车热管理领域，具体涉及一种基于Q-learning的纯电动汽车热管理控制方法。

背景技术

近年来，为了缓解环境污染带来的危害，国家提出了“双碳”目标，要求汽车领域朝着低碳化转型。纯电动汽车因其无污染零排放等优点成为未来行业发展的趋势，动力电池作为纯电动汽车唯一动力源，受温度影响严重，尤其在高寒低温场景下更为明显，使得纯电动汽车在市场中进一步推广受到阻碍。

现阶段，将热管理从单一模式向集成模式进行转化管理，已经成为纯电动汽车进行热管理控制的发展趋势，集成模式主要是将电池热管理、电机热管理以及乘员舱热管理等三部分结合起来进行能量管理；目前，现有的技术大多是基于规则或是基于优化的控制策略进行热管理，这些策略的制定多是基于已知的工况进行预先设定，从而导致这些策略对于实时工况的适应性较差，无法满足实时的热管理控制。因此，需要一种基于Q-learning的纯电动汽车热管理控制方法，能够解决以上问题。

发明内容

有鉴于此，本发明的目的是克服现有技术中的缺陷，提供基于Q-learning的纯电动汽车热管理控制方法，能够在实际应用过程中，实时调整热管理控制，将集成热管理系统的温度控制在最佳工作温度范围内。

本发明的基于Q-learning的纯电动汽车热管理控制方法，包括如下步骤：

S1.采集车辆当前状态信息，所述状态信息包括车速、电池温度、电池SOC、电机温度和乘员舱温度；

S2.确定车辆需求功率；

S3.基于车辆当前状态信息以及车辆需求功率，采用Q-learning算法求解最优的电池加热功率和最优的乘员舱加热功率；

S4.通过最优的电池加热功率和最优的乘员舱加热功率分别对电池以及乘员舱进行加热。

进一步，根据驱动力与行驶阻力平衡方程计算得到车辆需求功率P_req：

其中，P_f为行驶阻力消耗的功率；P_i为坡道阻力消耗的功率；P_w为空气阻力消耗的功率；P_j为加速阻力消耗的功率；u为车速；G为汽车重力；f为滚动阻力系数；α为道路坡度；C_d为空气阻力系数；A为迎风面积；δ为旋转质量换算系数；m为汽车质量；t为时间。

进一步，所述步骤S3，具体包括：

S31.初始化状态-动作值函数Q(s,a)，将Q(s,a)中的所有元素都赋值为0；

S32.给定探索率ε、学习率α和折扣因子γ，并设定算法迭代次数N；

S33.选择需求功率P_req、电池SOC、电池温度T_bat、乘员舱温度T_cbn作为状态变量，选择电池加热功率P_bat和乘员舱加热功率P_cbn作为控制变量，并设计目标函数和约束条件；

S34.给定初始状态s，根据ε-greedy策略选择状态s的动作a：

其中，A(s)为对应状态s下的动作；

S35.根据ε-greedy策略选择状态s下的动作a并获得回报r和下一状态s'；

S36.更新迭代状态-动作值函数Q(s,a)：

Q(s,a)←Q(s,a)+α[r(s,a)+γminQ(s',a')-Q(s,a)]；

其中，r为状态-动作的立即回报函数；a'为下一状态s'的动作；

S37.若更新迭代后的状态-动作值函数满足设定的误差阈值，则此时的状态-动作值函数收敛，利用收敛后的状态-动作值函Q(s,a)，选择最小Q(s,a)值对应的动作为每个状态的最优策略，并将所述最优策略下对应的电池加热功率和乘员舱加热功率作为最优的电池加热功率和最优的乘员舱加热功率。

进一步，设计目标函数，具体包括：

考虑整车经济性、动力性和乘员舱舒适性建立目标函数J：

其中，Q^*(s,a)是最优的状态-动作值函数；代表整个求解过程中的累计期望；γ为折扣因子；r_t+1为求解阶段t+1下的状态-动作立即回报函数；

根据如下公式确定函数r_t+1：

其中，J₁(x(k),u(k))'为第k时刻整车经济性评价函数J₁(x(k),u(k))进行归一化后的函数；J₂(x(k),u(k))'为第k时刻整车动力性评价函数J₂(x(k),u(k))进行归一化后的函数；J₃(x(k),u(k))'为第k时刻乘员舱舒适性评价函数J₃(x(k),u(k))进行归一化后的函数；k取值为1,2，…，K，K为总时间长度；w₁、w₂、w₃为权重系数。

进一步，所述约束条件为：

其中，T_bat(k)为k时刻的电池温度，T_{bat_min}、T_{bat_max}分别为电池温度的上限和下限；SOC(k)为k时刻的电池剩余电量，SOC_min、SOC_max分别为电池剩余电量的上限和下限；T_cab(k)为k时刻的乘员舱温度，T_{cab_min}、T_{cab_max}分别为乘员舱温度的上限和下限；P_bat(k)为k时刻的电池加热功率，P_{bat_min}、P_{bat_max}分别为电池加热功率的上限和下限；P_cab(k)为k时刻的乘员舱加热功率，P_{cab_min}、P_{cab_max}分别为乘员舱加热功率的上限和下限。

进一步，根据如下公式确定第k时刻整车经济性评价函数J₁(x(k),u(k))：

J₁(x(k),u(k))＝SOC(k+1)-SOC(k)；

其中，SOC(k+1)为第k+1时刻的电池剩余电量；SOC(k)为第k时刻的电池剩余电量；

根据如下公式确定第k时刻整车动力性评价函数J₂(x(k),u(k))：

其中，P_batpwr(k)为第k时刻时电池最大放电功率，t、t+1分别为当前时刻和下一时刻；

根据如下公式确定第k时刻乘员舱舒适性评价函数J₃(x(k),u(k))：

其中，T_tar为乘员舱目标温度，T_cab(k)为第k时刻时乘员舱温度。

本发明的有益效果是：本发明公开的一种基于Q-learning的纯电动汽车热管理控制方法，通过获取车辆当前状态信息以及车辆需求功率，采用Q-learning算法求解最优的电池加热功率和最优的乘员舱加热功率，将集成热管理系统的温度控制在最佳工作温度范围内，在一定程度上有效改进了热管理策略对于未知工况的适应能力。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的热管理控制方法流程示意图；

图2为本发明的强化学习示意图；

图3(a)为本发明的WLTC工况下需求功率概率转移矩阵图；

图3(b)为本发明的NEDC工况下需求功率概率转移矩阵图；

图4为本发明的基于Q-learning算法的最优加热功率求解流程示意图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明，如图所示：

S2.确定车辆需求功率；

本实施例中，步骤S2中，根据驱动力与行驶阻力平衡方程计算得到车辆需求功率P_req：

当然了，为了适应未来工况，可以根据当前的车辆需求功率计算下一工况下的车辆需求功率；根据最大似然估计法和最邻近法，构建出需求功率概率转移矩阵，从而可以得到不同工况下的车辆需求功率，为后续的热管理控制提供了数据支持。其中，如图3所示，分别展示了WLTC工况下以及NEDC工况下的需求功率概率转移矩阵图；WLTC(Worldwideharmonized Light vehicles Test Cycle)工况和NEDC(New European Driving Cycle)工况都是用于汽车燃消耗测试和排放测试的标准化驾驶循环。

本实施例中，如图2及图4所示，所述步骤S3，具体包括：

S34.给定初始状态s，根据ε-greedy策略选择状态s的动作a：

其中，A(s)为对应状态s下的动作；

S36.更新迭代状态-动作值函数Q(s,a)：

Q(s,a)←Q(s,a)+α[r(s,a)+γminQ(s',a')-Q(s,a)]；

S37.若更新迭代后的状态-动作值函数满足设定的误差阈值，则此时的状态-动作值函数收敛，利用收敛后的状态-动作值函Q(s,a)，选择最小Q(s,a)值对应的动作为每个状态的最优策略，并将所述最优策略下对应的电池加热功率和乘员舱加热功率作为最优的电池加热功率和最优的乘员舱加热功率。其中，误差阈值可以根据实际工况进行设定，比如取值为0.01。

通过上述基于Q-learning算法的解算方法，不断迭代更新控制策略，在处理高度复杂的计算及分析时具有突出的优势，从而得到最优的电池加热功率和最优的乘员舱加热功率。

本实施例中，设计目标函数，具体包括：

在满足乘员舱、动力电池等相关约束条件的情况下，考虑整车经济性、动力性和乘员舱舒适性建立目标函数J：

根据如下公式确定函数r_t+1：

其中，J₁(x(k),u(k))'为第k时刻整车经济性评价函数J₁(x(k),u(k))进行归一化后的函数；J₂(x(k),u(k))'为第k时刻整车动力性评价函数J₂(x(k),u(k))进行归一化后的函数；J₃(x(k),u(k))'为第k时刻乘员舱舒适性评价函数J₃(x(k),u(k))进行归一化后的函数；k取值为1,2，…，K，K为总时间长度；w₁、w₂、w₃为权重系数，取值均为1/3。

本实施例中，所述约束条件为：

本实施例中，根据如下公式确定第k时刻整车经济性评价函数J₁(x(k),u(k))：

J₁(x(k),u(k))＝SOC(k+1)-SOC(k)；

根据如下公式确定第k时刻整车动力性评价函数J₂(x(k),u(k))：

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Q-learning的纯电动汽车热管理控制方法，其特征在于：包括如下步骤：

S2.确定车辆需求功率；

2.根据权利要求1所述的基于Q-learning的纯电动汽车热管理控制方法，其特征在于：根据驱动力与行驶阻力平衡方程计算得到车辆需求功率P_req：

3.根据权利要求1所述的基于Q-learning的纯电动汽车热管理控制方法，其特征在于：所述步骤S3，具体包括：

S34.给定初始状态s，根据ε-greedy策略选择状态s的动作a：

其中，A(s)为对应状态s下的动作；

S36.更新迭代状态-动作值函数Q(s,a)：

Q(s,a)←Q(s,a)+α[r(s,a)+γminQ(s',a')-Q(s,a)]；

4.根据权利要求3所述的基于Q-learning的纯电动汽车热管理控制方法，其特征在于：设计目标函数，具体包括：

考虑整车经济性、动力性和乘员舱舒适性建立目标函数J：

根据如下公式确定函数r_t+1：

5.根据权利要求3所述的基于Q-learning的纯电动汽车热管理控制方法，其特征在于：所述约束条件为：

6.根据权利要求4所述的基于Q-learning的纯电动汽车热管理控制方法，其特征在于：根据如下公式确定第k时刻整车经济性评价函数J₁(x(k),u(k))：

J₁(x(k),u(k))＝SOC(k+1)-SOC(k)；

根据如下公式确定第k时刻整车动力性评价函数J₂(x(k),u(k))：