CN112249002A

CN112249002A - 一种基于td3的启发式串并联混合动力能量管理方法

Info

Publication number: CN112249002A
Application number: CN202011008778.9A
Authority: CN
Inventors: 周健豪; 薛四伍; 廖宇晖; 刘军; 薛源
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-22
Anticipated expiration: 2040-09-23
Also published as: CN112249002B

Abstract

本发明公开一种基于TD3的启发式串并联混合动力能量管理方法，属于混合动力汽车技术领域，能够有效提高混合动力车辆的燃油经济性；使用TD3代理并结合基于经验的启发式探索可以有效加快训练收敛速度和训练效果，解决相关技术中缺乏一种串并联式混合动力汽车在线能量管理方法的技术问题。本发明包括：建立串并联式混合动力汽车模型；获取不同工况下影响所述能量管理的参数；基于影响所述能量管理的参数和观测量，利用改进的DDPG代理——双延迟深度确定性策略梯度(TD3代理)并结合启发式探索进行模型训练，获得训练后的深度强化学习代理；基于上述代理进行实际行驶过程中的能量管理控制。

Description

一种基于TD3的启发式串并联混合动力能量管理方法

技术领域

本发明属于混合动力汽车技术领域，特别涉及一种基于TD3的启发式串并联混合动力能量管理方法。

背景技术

现今实时在线应用的混合动力汽车的能量管理方法大多是基于规则，通过专业经验，制定一定的能量管理阈值，比如最常见的插电式混合动力的规则是先进行电池能量的消耗，然后进行电池电量的保持，进行能量管理。基于优化的策略具有代表基准的是动态规划(DP)，在全局工况信息已知的情况下离线得到的混合动力公交车最优能量管理，但无法在线应用。

在现有实时在线技术中，利用工程师经验制定规则进行规则上能量管理或者在速度预测的模型预测控制进行能量管理。但是基于规则的能量管理效果不够显著，且针对工况单一，基于优化的DP需要全局工况已知，不能进行实时在线运用，模型预测控制可以做到优化和实时进行，但预测控制步长不能选择过大，这意味着优化结果有着一定的局限性，只能做到局部最优。

这几年对于神经网络研究的兴起，一种能量管理的新策略，强化学习策略逐渐引起了极大的关注，它能够做到实时在线应用。但是普通的强化学习无法做到高维度和连续动作控制，因此控制效果并不显著，而普通的深度强化学习在训练速度和控制效果上仍存在着训练慢控制不完美等问题。

发明内容

本发明提供了一种基于TD3的启发式串并联混合动力能量管理方法，能够更加有效的实现对混合动力汽车能量管理，减少能源消耗和计算成本。

为实现以上目的，本发明采用以下技术方案：

一种基于TD3的启发式串并联混合动力能量管理方法，包括以下步骤：

步骤S1：建立被动混联式汽车模型，包括汽车动力学和电池模型；

步骤S2：获取实验车辆在固定路线工况下影响能量管理的参数；

步骤S3：基于所述影响能量管理的参数和观测量，结合启发式策略利用TD3代理训练模型，获得训练后的深度强化学习代理；

步骤S4：获取汽车实际行驶中影响能量管理的参数和观测值，基于所述实际行驶中影响所述能量管理的参数，以及所述训练后的深度强化学习代理，进行能量管理。

以上所述步骤中，所述影响能量管理的参数包括混合动力汽车不同工况的道路坡度和车载质量变化量；

所述影响能量管理的观测量包括汽车的速度、加速度、电池SOC、当前时刻燃油消耗量、SOC与参考SOC之间的差值、公交车位移以及可测量干扰即道路坡度和车载质量变化量；

所述混联式混合动力汽车动力学如下：

其中，T_out是驱动轴扭矩；R是汽车车轮半径；F_a是汽车惯性阻力；F_r是汽车空气阻力；F_g是汽车坡道阻力；F_f是汽车滚动阻力；m是汽车质量；v是汽车速度；a是汽车加速度；ρ是空气密度；A是汽车迎风面积；C_D是空气阻力系数；α是汽车道路坡度；μ_r为滚动阻力系数；

所述电池模型为：

其中P_batt(t)是电池功率；V_oc是电池电压；I_b(t)是电池电流；r_int是电池电阻；

其中η_m是电机效率；ω_m和ω_e是电机和发动机转速；SOC是电池荷电状态；Q_max是电池最大容量；

所述全局能量管理的目标函数：

其中，

是取样时间内燃油消耗量，β是积极的权重因子，表明对燃油消耗和电池电量消耗的一种平衡等效；SOC_ref表示SOC参考值；

所述TD3代理是一种改进的DDPG算法，分别是建立两个Critic评价网络，在目标Actor网络中加入选择噪声，以及进行参数的延迟更新三个改进的地方改进训练速度和控制效果；

步骤S3具体包括以下步骤：

(1)在每次训练中，将当前时刻的SOC、SOC与参考SOC之间的差值、汽车速度、汽车位移、汽车加速度、燃油消耗量、道路坡度、车载质量变化量作为TD3代理的观测值输入数据，以及当前时刻的奖励值作为TD3代理的奖励值输入数据，将这时候得到的经验储存在Sumtree中；

(2)利用PER在经验池中进行优先采样，进行TD3代理的神经网络进行训练得到进行神经网络参数的更新从而最终得到收敛的代理，在所述实验车辆上采集到等效燃油消耗；

(3)以预设的采样频率采集所述实验车辆在不同工况下影响能量管理的参数和观测量，并对采集到数据进行平滑处理和归一化处理，将处理后的数据再输入给深度强化学习代理；

通过等效燃油消耗量比值R，对深度强化学习的控制效果进行评价，等效燃油消耗量比值反映了实际控制的效果与DP基准之间的比较，当R值越接近0，则效果好，计算比值R值的公式如下：

其中，R表示为DP基准数据与实际数据之间的比值，S_RL表示利用深度强化学习训练得到的等效燃油消耗量，S_DP表示在DP基准下得到的等效燃油消耗量基准数据。

步骤S4具体包括以下步骤：获取所述汽车实际行驶中影响所述能量管理的参数；将所述观测值输入步骤S3中所述训练好的深度强化学习代理，输出为当前时刻下一时刻所述混联式混合动力汽车控制量即发动机扭矩和转速以及电机转矩，其中，所述当前时刻为当前观测量所处时刻。

有益效果：本发明提供了一种基于TD3的启发式串并联混合动力能量管理方法，利用改进DDPG的TD3代理，分别从建立两个Critic评价网络、在目标Actor网络中加入选择噪声以及进行参数的延迟更新三个地方改进训练速度和控制效果，该启发式策略利用经验知识进行规则的制订，成功减少TD3代理的无效探索区域以及成功解决串并联式的工作模式问题，利用规则以及将离合器状态设置为控制量分别为0(断开)和1(闭合)状态以及其他动作设置为T_ISG和T_m、n_e成功解决工作模式导致的模型复杂问题；

本发明考虑了道路坡度和车载质量变化影响能量管理的参数，此外结合经验知识进行的启发式探索和能量管理局部控制，对能量管理进行了改进和提高；获取实验车辆在不同工况下等效燃油消耗和影响能量管理的参数；基于影响所述能量管理的参数和观测量，训练深度强化学习TD3代理模型，获得训练后的代理；获取汽车实际行驶中影响能量管理的参数，基于实际行驶中影响能量管理的参数，以及训练后的代理，进行混合动力汽车的能量管理，从而能有效控制能量优化，并能实时在线应用。本发明的方法可以进行串并联式混合动力系统能量管理，并且考虑了道路坡度情况和车载质量变化量对能量管理的影响，此外利用经验构造的Local控制器进行辅助的启发式控制更好训练TD3代理；对DDPG改进得到的TD3代理也更加有效的实现对混合动力汽车能量管理，减少了能源消耗和计算成本。

附图说明

图1是本发明实施例提供的深度强化学习TD3代理的整体框架的示意图；

图2是本发明实施例提供的一种混合动力汽车能量管理的方法的流程图；

图3是本发明实施例提供的一种深度强化学习代理TD3代理的网格结构和参数更新示意图；

图4是本发明实施例提供的一种利用经验构造的局部控制器；

图5是本发明实施例提供的加入启发式探索局部控制器的收敛图。

具体实施例

下面结合附图和具体实施例对本发明进行详细说明：

图1是本申请实施例提供的深度强化学习TD3代理的整体框架的示意图；

如图1所示，在该实施环境中，通过采集实验车辆在固定路线工况下可能影响能量管理的参数，并将奖励值和可能影响能量管理的参数和观测量作为输入数据，将可能影响能量管理参数输入被控对象，将输入数据分别输入到TD3代理深度强化学习代理和局部控制器中，然后结合TD3代理和局部控制器输出控制量最优action即发动机转矩和转速以及电机转矩，再将控制信号输出给被控对象，在固定工况和影响能量管理参数共同作用下得到新的输入数据以及奖励值，将输入数据、控制量、奖励值等经验值输入到TD3代理深度强化学习代理中进行训练，并利用时序差分(TD-error)对代理中的Crtic参数进行调整，利用反向梯度下降对Actor参数进行更新，从而完成一次训练。通过上述反复不断的学习训练，最终建立训练后的收敛的代理。

如图2所示，一种基于TD3的启发式串并联混合动力能量管理方法，该方法具体流程包括：

步骤201，获取实验车辆在不同工况下影响能量管理的参数。

其中，工况可以表示实验车辆的行驶速度随着时间的变化，比如，汽车的起始站点到终点站点的时间为1800s，速度变化情况人如何，这可以作为一个工况。在本实施例中，使用WLTP作为实验训练工况，并采集该实验车辆在该工况下循环至少三次的数据，以保证训练数据的可靠性。

影响能量管理的参数可以是混合动力汽车不同工况的道路情况即道路坡度、车载质量变化的至少一种参数。

在实施中，获取实验车辆在各个工况下的至少一个可能影响能量管理的参数，在至少一个可能影响能量管理的参数中，选取影响能量管理的参数。通过读取在汽车安装的燃油消耗量和电池电量传感器上的数据，获取实验车辆在该工况下等效燃油消耗。

可选的，以预设的采样频率采集实验车辆在各个工况下等效燃油消耗和影响能量管理的参数和观测量，并对采集到的参数进行平滑处理和归一化处理。

其中，由于采样频率越大，则采样点之间的间隔越小,获得的数据就越多,这些数据之间的相关性越大，使得最终训练出的代理模型输出的结果更加的准确。技术人员可以预先设置采样时间间隔，根据采样时间间隔对行驶时的实验车辆进行采样。例如，技术人员可以将采样频率设置为1HZ。

通过对采集到的数据进行平滑处理，可以达到对采集到的不准确的数据进行抑制的目的。通过对采集到参数进行归一化处理，使得让不同的参数所对应的数值有一定的比较性，同时也提高了代理网络模型的准确性，而且对于奖励值的设定有大的帮助。

具体的，在本实施例中的归一化过程，由于上述过程中已经获取多组参数项，可以通过确定每组参数项中的最大参数值和最小参数值，并根据确定出的最大参数值和最小参数值，可以通过下述公式计算：

其中，X为每组参数项中的参数归一化处理后的数据，x_min为每组参数项中的最小参数值，x_max为每组参数项中的最大参数值。

步骤202，基于影响能量管理的参数和观测值，利用TD3代理深度强化学习结合Local control控制器训练代理模型，获得训练后的收敛代理。

其中深度强化学习DDPG是一种智能体通过不断“试错”来进行自学习最优策略的马尔科夫决策过程，一种基于DQL的经验回放和双网络结构基础上的具有Actor-Critic神经网络架构的连续控制动作的DRL算法。DDPG的Actor-Crtic网络分别是Q函数(Critic)和策略函数(Actor)，为了避免参数耦合性过高的基于Actor-Critic网络结构的当前网络和目标网络，目标网络参数的更新如下式所示，是一种更平滑的软跟新：

其中θ_Q和θ_μ分别是当前网络中Critic和Actor网络的参数，这里的超参数τ≤1，其中当前网络的Critic网络参数跟新是基于TD算法(TD-error的平方均值)。智能体将观测信号通过确定性策略函数μ(s)的Actor神经网络，与随机政策不同直接得到动作a＝μ(s|θ_μ)+N。其中N为可根据具体任务选择的随机噪声函数。选择的是拉普拉斯噪声。被控对象通过执行动作a得到新的观测量s^*以及奖励r，将(s,a,r,s^*)存入记忆池中，然后从记忆池中优先取样M个样本，将s^*输入到目标网络中的Actor网络，便可得到a^*，其中

Critic网络通过观测量s和Actor网络得到的a利用贝尔曼方程学习得到行动值函数Q(s,a)，目标Critic网络是通过下一时刻的观测量s^*和奖励r以及目标Actor网络得到的a^*计算目标Q值Q^*(s,a)，

Q^*(s,a)＝E[r(s,a)+γQ^*(s^*,a^*)] (6)

其中Q^*(s,a)代表目标Q值，s表示这一时刻的观测量，a表示代理中动作网络选定的行动，E表示一种等式运算，r(s,a)表示在这种观测量和动作量导致的奖励，γ代表学习率，Q^*(s^*,a^*)表示下一状态下的目标Q值，被控对象通过执行动作a得到新的观测量s^*以及在代理中选择的下一时刻动作a^*那么TD-error的计算方式如下：

其中y表示目标Q值的近似等效，L_k是累计误差，Q(s_i,a_i)是当前网络中的估计Q值，M是具体回放经验池每次更新取样数目的的多少，利用梯度下降最小化损失函数便可以更新Critic网络，其中γ作为折扣因子γ≤1，γ越大越注重长远利益。

当前网络中的Actor网络参数是通过动作值函数将状态映射到指定动作来更新，通过神经网络的梯度反向传播来跟新：

其中，μ表示当前网络动作函数，即动作网络的拟合函数，θ表示神经网络的参数，

表示求偏微分但DDPG的Critic网络由于存在着max操作

Q(s,a)←r(s,a)+γmax_a*Q(s^*,a^*) (9)

TD3代理受到Double Q-learning的启发，使用两个独立的Critic网络进行Q值估计来防止过高估计，又提出了目标策略平滑处理和延迟更新策略

首先就是将原本只有一个Critic神经网络Q值变成两个，目标Critic网络的Q值都是根据目标Actor网络的动作a得到Q值如下：

因为有两个Critic目标评价网络，所以Q₁ ^*表示第一个目标评价网络Q值，Q₂ ^*表示第二个目标评价网路Q值，μ^*表示目标网络动作值函数，θ_μ*表示目标Actor网络参数，选取其中的最小值作为目标Q值，代入到贝尔曼方程中，影响TD-error的计算中，这有助于抵消Q值的过高估计，公式如下：

其次，为了消除误差的影响，加入了目标策略平滑处理，在目标Actor网络的输出动作中加入一个噪声∈来进行正则化的处理，目标Actor的动作如下式：

其中，a^*表示目标动作，∈是服从于上下限的-c到c值，平均值为0，标准差为σ的正态分布的噪声信号，利用延迟更新策略，将当前网络中的Actor策略网络以及所有的目标网络与当前网络中Critic网络相比更新频率要更低，即当前Critic网络每更新d次，其他网络更新一次。这种处理方式可以在引入策略更新之前，先将错误最小化，减少累计误差降低方差，减少不必要的重复更新，得到的策略质量越高，有助于TD3代理的稳定，减少波动。

综上，TD3代理的神经网络结构和参数更新如图3所示：

在实际过程中，将代理模型的神经元个数设置为200、100、50个，为了准确评价深度强化学习能量管理的效果，可以通过等效燃油消耗量比值R，对深度强化学习的控制效果进行评价。

等效燃油消耗量比值反映了实际控制的效果与DP基准之间的比较，当R值越接近0，则效果好。计算比值R值的公式如下：

需要说明的是，通过计算出在基准数据与实际数据之间的比值和均方根，来评价训练完成后的非线性自回归动态神经网络模型的预测性能，例如，当获得的比值接近于0，均方根接近于0，这表明由深度强化学习训练完成后的代理模型具有很好的控制性能。

可选的，训练方法可以是TD3代理算法，也可以是DDPG算法、DQN。为了使深度强化学习算法控制数据更加的准确，可以使用多种反向传播训练方法分别对代理模型进行训练，并在每种反向传播训练方法的训练过程中计算出R值，以R值为指标来比较各个反向传播训练方法的控制性能，进而确定出训练效果最好的DRL代理。

其中启发式探索结合的经验构成的Local control局部控制器如图4所示：

首先将制动模式考虑进来，将电池SOC考虑进来决定是否进行制动能量回收，只要通过观测量就可得到总的需求扭矩，对总需求扭矩大小进行正负判断，如果是负的制动模式，然后如果电池SOC达到上限，则单纯制动，否则进行制动能量回收，无论哪种形式，发动机和ISG都不工作，离合器都将处于断开状态。

然后通过观测量逆向传动得到电机的工作转速，判断工作转速是否满足发动机的最低工作转速，如果不满足工作转速，则离合器断开，这种工作模式下对电池SOC也进行判断，当SOC超过上限时，电池单独提供驱动，发动机和ISG电机不工作，当SOC低于下限时，发动机和ISG电机以最大扭矩工作，发动机和ISG电机转速由深度强化学习代理控制，电池依然提供所有的驱动。当SOC处于正常水平，电机依然提供所有驱动需求，发动机扭矩和转速都由深度强化学习的控制量ISG电机扭矩和发动机转速控制。

当转速处于一个正常的区间时，首先通过观测量判断外界需求扭矩是否超过电机最大扭矩，当超过最大扭矩时，则离合器必须处于闭合状态，发动机提供部分扭矩帮助，然后判断SOC范围，如果SOC超过上限，则电机以最大扭矩提供，发动机提供剩余扭矩，ISG电机不工作，如果SOC低于下限，则发动机以最大扭矩工作，电机不工作，ISG电机以发动机扭矩减去需求扭矩工作，这种情况下发动机转速等于电机转速，无须深度强化学习进行控制。当SOC处于正常水平时，发动机和ISG电机转速与电机转速依然相同，无须深度强化学习代理控制，电机扭矩和发动机扭矩由代理控制量得到，而发动机扭矩等于总需求扭矩与电机扭矩只差以及与ISG电机扭矩之和得到。

步骤303，获取汽车实际行驶中影响能量管理的参数和观测量，基于实际行驶中影响能量管理的参数，以及训练后的TD3代理模型，控制汽车能量管理。

其中，由于在上述步骤中已经获得了影响能量管理的参数项，以及训练后的代理模型，便可以实时将影响能量的参数和观测量输入训练后的代理模型，在局部控制器的帮助下来控制汽车的行驶和能量管理。

具体的，若要控制汽车在当前时刻的控制行动，需要获取在预估时刻影响能量管理的参数和观测量，如混合动力汽车不同工况下的道路坡度情况和车载质量变化的至少一种参数。汽车的速度、加速度、电池荷电状态、当前时刻燃油消耗量、SOC与参考SOC之间的差值、公交车位移。将这些参数输入训练后的代理模型，结合局部控制器输出汽车在预估时刻的控制行动，其中，预估时刻为当前时刻的下一个进行参数采样的时刻，也就是，预估时刻是当前时刻对应的采样点的下一个采样点对应的时刻，其中具体的控制行动包括离合器状态，发动机和ISG电机扭矩和转速以及电机扭矩。

图5显示了DDPG的改进算法TD3以及在TD3中加入启发式探索的Local控制器的收敛对比图，从图中可以看出，TD3的收敛速度比DDPG快，且收敛点燃油经济性也更好；加入局部控制器的启发式探索起点就不是混乱的，而是在一个较为合理的点开始，且收敛速度和效果也更好。

上述提供的方法可以进行混合动力汽车的能量管理，减少了等效燃油消耗。

以上所述仅为本发明的优选实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于TD3的启发式串并联混合动力能量管理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，所述影响能量管理的参数包括混合动力汽车不同工况的道路坡度和车载质量变化量；所述影响能量管理的观测量包括汽车的速度、加速度、电池SOC、当前时刻燃油消耗量、SOC与参考SOC之间的差值、公交车位移以及可测量干扰即道路坡度和车载质量变化量。

3.根据权利要求1所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，所述混联式混合动力汽车动力学如下：

其中，T_out是驱动轴扭矩；R是汽车车轮半径；F_a是汽车惯性阻力；F_r是汽车空气阻力；F_g是汽车坡道阻力；F_f是汽车滚动阻力；m是汽车质量；v是汽车速度；a是汽车加速度；ρ是空气密度；A是汽车迎风面积；C_D是空气阻力系数；α是汽车道路坡度；μ_r为滚动阻力系数。

4.根据权利要求1所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，所述电池模型为：

其中η_m是电机效率；ω_m和ω_e是电机和发动机转速；SOC是电池荷电状态；Q_max是电池最大容量。

5.根据权利要求1所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，所述全局能量管理的目标函数：

其中，

是取样时间内燃油消耗量，β是积极的权重因子，表明对燃油消耗和电池电量消耗的一种平衡等效；SOC_ref表示SOC参考值。

6.根据权利要求1所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，步骤S3具体包括以下步骤：

(3)以预设的采样频率采集所述实验车辆在不同工况下影响能量管理的参数和观测量，并对采集到数据进行平滑处理和归一化处理，将处理后的数据再输入给深度强化学习代理，有利于代理中神经网络的训练。

7.根据权利要求1或6所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，所述TD3代理是一种改进的DDPG算法，分别通过建立两个Critic评价网络，在目标Actor网络中加入选择噪声，进行参数的延迟更新来改进训练速度和控制效果。

8.根据权利要求6所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，通过等效燃油消耗量比值R，对深度强化学习的控制效果进行评价，等效燃油消耗量比值反映了实际控制的效果与DP基准之间的比较，当R值越接近0，则效果好，计算比值R值的公式如下：

9.根据权利要求1所述的基于TD3的启发式串并联混合动力能量管理方法，其特征在于，步骤S4具体包括以下步骤：获取所述汽车实际行驶中影响所述能量管理的参数；将所述观测值输入步骤S3中所述训练好的深度强化学习代理，输出为当前时刻下一时刻所述混联式混合动力汽车控制量即发动机扭矩和转速以及电机转矩，其中，所述当前时刻为当前观测量所处时刻。