CN111845701B

CN111845701B - 一种跟车环境下基于深度强化学习的hev能量管理方法

Info

Publication number: CN111845701B
Application number: CN202010777968.0A
Authority: CN
Inventors: 唐小林; 陈佳信; 杨凯; 邓忠伟; 胡晓松; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2021-03-30
Anticipated expiration: 2040-08-05
Also published as: CN111845701A

Abstract

本发明涉及一种跟车环境下基于深度强化学习的HEV能量管理方法，属于智能混合动力汽车控制领域。该方法包括：基于跟随车的实时车速等信息，确定两车之间的最短安全距离以及最长跟车距离；建立串联式DDPG算法模型，学习跟车速度规划策略以及能量管理控制策略；定义DDPG算法中的变量空间；当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后，结束离线训练过程并且保存持久化模型；制定评价指标，并且利用动态规划算法作为能量管理策略的对比标准。本发明针对具有自动跟车功能的智能混合动力汽车，利用深度强化学习算法，完成跟车环境的速度规划以及传动系统的能量管理，实现整车的综合控制。

Description

一种跟车环境下基于深度强化学习的HEV能量管理方法

技术领域

本发明属于智能混合动力汽车控制领域，涉及一种跟车环境下基于深度强化学习的HEV能量管理方法。

背景技术

汽车产业的发展方向大致可分为新能源化与智能化。其中，智能汽车已经成为当前的热门研究课题，通过智能汽车可以彻底解放人类的主动驾驶活动，让日常生活变得更加轻松自在。自动驾驶模式下的跟车行驶属于一项基本功能，通过组建车队的形式进行列队驾驶，将大幅度地减小除领航车以外其余车辆驾驶员的驾驶疲劳，并且采用间歇性地更换领航车的方式，在保证安全性的情况下能够让整个车队在最短时间内到达目的地。同时，有了领航车的存在后，后方跟随车辆的空气阻力系数将会大大较小，可有效减少跟随车的燃油消耗量。

目前，自动跟车属于智能车的研究领域，而能量管理策略的研究主要面向的是混合动力汽车，前者是智能化方面，后者是新能源化方向。因此，亟需一种针对智能化与新能源化的交叉方向，在一辆具有智能控制的混合动力汽车内，同步实现无人驾驶与功率分配的最优控制方法。

发明内容

有鉴于此，本发明的目的在于提供一种跟车环境下基于深度强化学习的HEV能量管理方法，同时解决自动跟车的速度规划以及混合动力汽车的能量管理，实现无人驾驶与功率分配的最优控制，适用于无人驾驶的混合动力汽车。

为达到上述目的，本发明提供如下技术方案：

一种跟车环境下基于深度强化学习的HEV能量管理方法，包括以下步骤：

S1：建立环境模型：建立跟车环境模型以及混合动力汽车传动系统模型，并利用V2V技术采集领航车的主要行驶信息，包括实时行驶速度、加速度以及转向角等；

S2：确定跟车距离范围：基于跟随车的实时车速等信息，计算两车之间的最短安全距离以及最长跟车距离；

S3：构建算法模型：建立基于深度强化学习的串联式深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)算法模型，同时学习跟车速度规划策略以及能量管理控制策略；

S4：确定算法变量空间：定义DDPG算法中的状态变量空间、动作变量空间以及奖励函数；

S5：离线训练阶段：当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后，结束离线训练过程并且保存持久化模型；

S6：在线测试阶段：采用新的速度工况测试算法的训练效果，制定用来评判跟车效果的评价指标，并且利用动态规划算法作为能量管理策略的对比标准。

进一步，步骤S1中，建立跟车环境模型以及车辆传动系统模型，通过组建车队环境让后车在保持安全距离下紧跟领航车，具体包括：领航车利用V2V技术采集主要行驶信息，包括实时行驶速度、加速度以及转向角等，传输给跟随车，以便后车保持最佳跟车状态，其中加速度按照下式确定：

其中，v_1st为t时刻的前车速度，a_1st为t时刻的前车加速度，Δt为时间间隔。

混合动力汽车传动系统模型主要包括发动机模型、电机模型、电池模型以及传动系统模型。

进一步，步骤S2中，确定跟车距离范围，具体包括以下步骤：

S21：结合后车的实时车速以及当前的路面条件，计算车辆的制动距离，并且以制动距离作为最短安全距离，计算公式为：

其中，s为制动距离，τ'₂为制动器空行程时间，τ"₂为制动减速度线性增长时间，u_a0为起始制动车速，a_bmax为制动减速度；

S22：为防止有其余机动车辆随意变道插入车队中，将最长跟车距离定义为最短安全距离加常规乘用车的车身长度。

进一步，所述步骤S3具体包括：建立串联式DDPG算法模型，选择神经网络结构，前车根据输入的环境状态信息学习跟车速度规划策略，后车根据前车的速度规划策略学习混合动力汽车的能量管理控制策略。

进一步，步骤S4中，在深度强化学习算法的计算过程中，需要根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数，具体包括：

(1)针对用于学习跟车速度规划的DDPG算法模型，状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度和两车间隔距离等；动作变量定义为后车加速度；奖励函数根据两车的实时距离定义为曲线函数形式；

(2)针对用于学习能量管理策略的DDPG算法模型，状态变量包括后车行驶车速、后车加速度、电池SOC和整车需求功率P_demand等；动作变量定义为后车发动机的输出功率；奖励函数定义为瞬时燃油消耗率以及SOC的实时偏差，具体奖励函数为：

其中，α与β为权重参数，

为发动机瞬时燃油消耗量，SOC_target为参考SOC,T_eng与ω_eng分别为发动机转矩与发动机转速。

进一步，步骤S5中，离线训练过程具体包括以下步骤：

S51：连接环境模型与算法模型，搭建环境与智能体的交互式学习框架；

S52：定义超参数以及经验池容量，在学习过程中经验池依次记录单步过程的训练样本，在经验池充满后新的样本数据将重新依次占据经验池空间，样本数据sample具体定义为：

sample＝{S,A,R,S'}

其中，S为当前状态，A为当前动作，R为奖励值，S'为执行动作后转移的下一个状态；

S53：设置神经网络的更新策略，在每次更新过程中，从经验池中随机抽取32组样本数据对算法模型中的神经网络进行参数更新，智能体通过损失函数计算与策略梯度更新；

S54：采用ε-贪婪算法选择动作，将算法在动作空间中选择随机动作的概率逐步由100％衰减至10％，相反，选择最佳控制动作的概率将逐步提升；

S55：开始迭代训练方式，直到两个算法模型的总奖励值都达到收敛状态并且最终学习效果达到理想状态后结束学习过程，并保存神经网络持久化模型。

更进一步，步骤S53中，损失函数及策略梯度更新公式为：

其中，r为单步奖励，s与s'分别为当前状态量与下一时刻状态量，a为当前动作量，θ^Q、θ^μ分别为评论家网络参数与演员神经网络参数，

分别为评论家目标网络参数与演员目标神经网络参数，Q(s,a|θ^Q)为动作值函数，L(s,a|θ^Q)为损失函数，α为学习率，τ为目标网络的跟踪率，μ_T(·)为目标网络拟合的策略函数，μ为在线网络拟合的策略函数，Q_T(·)为目标动作值。

进一步，步骤S6中，在线测试过程具体包括以下步骤：

S61：选择一段新的行驶工况让领航车运行，对后车加载之前保存的持久化控制策略模型，开始进行在线测试过程，进而得到后车的速度曲线以及燃油消耗量；

S62：比较速度规划策略，在测试结束后，后车会产生一条跟车情况下的速度曲线，以前车的速度曲线作为对比标准，分别计算后车速度的特征参数，例如：平均速度v_mean、平均加速度a_mean、最大车速v_max、怠速时间比r_idel、冲击度da/dt等，最终以误差值表示跟车效果，最佳状态下两条速度曲线应该完全相同，但是随着实际驾驶情况的随机变化，后车速度必然会存在部分差异；

S63：比较能量管理策略，获得后车的速度曲线后，利用动态规划算法计算燃油消耗量，将后车的实际燃油消耗与动态规划的计算结果进行对比评价。

本发明的有益效果在于：本发明针对具有自动跟车功能的智能混合动力汽车，利用深度强化学习算法，完成跟车环境的速度规划以及传动系统的能量管理，实现整车的综合控制。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是本发明的HEV能量管理方法整体流程图；

图2是混合动力汽车传动结构；

图3是跟车环境下的前后车距离范围示意图；

图4是跟车速度规划策略的奖励函数曲线图；

图5是本发明中混合动力汽车能量管理策略算法框架图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图5，图1为本发明优选的一种跟车环境下基于深度强化学习的混合动力汽车能量管理策略，适用于智能混合动力汽车，该方法具体包括以下步骤：

S1：建立跟车环境模型以及车辆传动系统模型，利用V2V技术采集领航车的实时行驶速度、加速度以及转向角等；

建立两车跟随环境模型以及混合动力汽车传动系统模型，通过组建车队环境让后车在保持安全距离下紧跟领航车，而领航车利用V2V通信技术将主要行驶信息，例如：速度、加速度等，传输给跟随车，以便后车保持最佳跟车状态，其中加速度按照下式确定：

其中，v_1st为t时刻的前车速度，时间间隔Δt＝1，a_1st为t时刻的前车加速度；

混合动力汽车传动系统模型主要包括发动机模型、电机模型、电池模型以及传动系统模型，具体结构如图2所示。

S2：基于跟随车的实时车速等信息，计算两车之间的最短安全距离以及最长跟车距离。具体包括以下步骤：

S21：结合后车的实时车速以及当前的路面条件，计算车辆的制动距离，并且以制动距离作为最短安全距离，具体计算如式；

其中，s为制动距离，τ'₂为制动器空行程时间，τ"₂为制动减速度线性增长时间，u_a0为起始制动车速，a_bmax为制动减速度。

S22：为防止有其余机动车辆随意变道插入车队中，将最长跟车距离定义为最短安全距离加常规乘用车的车身长度，跟车环境如图3所示。

S3：建立深度强化学习中深度确定性策略梯度(DDPG)的串联式算法框架，同时学习跟车速度规划策略以及能量管理控制策略。具体包括：

选择神经网络结构，建立串联式深度确定性策略梯度DDPG的算法模型，前者根据输入的环境状态信息学习跟车速度规划策略，后者根据前者的速度规划策略学习混合动力汽车的能量管理控制策略。

S4：定义DDPG算法中的状态变量空间，动作变量空间以及奖励函数。

在深度强化学习算法的计算过程中，需要根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数。具体包括：

S41：针对用于学习跟车速度规划的深度确定性策略梯度DDPG算法框架，状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度、两车间隔距离等；动作变量定义为后车加速度；奖励函数根据两车的实时距离定义为曲线函数形式，具体奖励函数如图4所示；

S42：针对用于学习能量管理策略的深度确定性策略梯度DDPG算法框架，状态变量包括后车行驶车速、后车加速度、电池SOC、整车需求功率P_demand等；动作变量定义为后车发动机的输出功率；奖励函数定义为瞬时燃油消耗率以及SOC的实时偏差

具体奖励函数如式：

其中，α与β为权重参数，

具体需求功率计算如式：

其中，P_demand为整车需求功率，m为整车质量，G为整车重量，f为滚动阻力系数，i为道路坡度，C_D为空气阻力系数，A为迎风面积，u_a为行驶速度，du/dt为车辆纵向加速度，δ为旋转质量换算系数，η_T为传动系效率。

S5：离线训练阶段，当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后，结束离线训练过程并且保存持久化模型。具体包括：

S51：连接环境模块与智能体算法模块，搭建环境与智能体的交互式学习框架，具体算法框架如图5所示；

sample＝{S,A,R,S'}

其中，S为当前状态，A为当前动作，R为奖励值，S'为执行动作后转移的下一个状态。

S53：设置神经网络的更新策略，在每次更新过程中，从经验池中随机抽取32组样本数据对算法框架中的神经网络进行参数更新，智能体通过损失函数计算与策略梯度更新，实现神经网络的学习更新步骤，具体损失函数及策略梯度更新公式如下：

分别为评论家目标网络参数与演员目标神经网络参数，Q(s,a|θ^Q)为动作值函数，L(s,a|θ^Q)为损失函数，α为学习率，τ为目标网络的跟踪率，μ_T(·)为目标网络拟合的策略函数，μ为在线网络拟合的策略函数，Q_T(·)为目标动作值；

S6：在线测试阶段，采用新的速度工况测试算法的训练效果，制定用来评判跟车效果的评价指标，并且利用动态规划算法作为能量管理策略的对比标准。

S61：选择一段新的行驶工况让领航车运行，对后车加载之前保存的持久化控制策略模型，开始进行在线测试过程，进而可得到后车的速度曲线以及燃油消耗量；

S62：比较速度规划策略，在测试结束后，后车会产生一条跟车情况下的速度曲线，以前车的速度曲线作为对比标准，分别计算后车速度的特征参数，例如：平均速度v_mean、平均加速度a_mean、最大车速v_max、怠速时间比r_idel、冲击度da/dt等，最终以误差值表示跟车效果，最佳状态下两条速度曲线应该完全相同，但是随着实际驾驶情况的随机变化，后车速度必然会存在部分差异。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，该方法包括以下步骤：

S1：建立环境模型：建立跟车环境模型以及混合动力汽车传动系统模型，并利用V2V技术采集领航车的行驶信息；

S2：确定跟车距离范围：计算两车之间的最短安全距离以及最长跟车距离；

2.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，步骤S1中，建立跟车环境模型以及车辆传动系统模型，通过组建车队环境让后车在保持安全距离下紧跟领航车，具体包括：领航车利用V2V技术采集行驶信息，包括实时行驶速度、加速度以及转向角，其中加速度按照下式确定：

3.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，步骤S2中，确定跟车距离范围，具体包括以下步骤：

S22：将最长跟车距离定义为最短安全距离加常规乘用车的车身长度。

4.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，所述步骤S3具体包括：建立串联式DDPG算法模型，选择神经网络结构，前车根据输入的环境状态信息学习跟车速度规划策略，后车根据前车的速度规划策略学习混合动力汽车的能量管理控制策略。

5.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，步骤S4中，根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数，具体包括：

(1)针对用于学习跟车速度规划的DDPG算法模型，状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度和两车间隔距离；动作变量定义为后车加速度；奖励函数根据两车的实时距离定义为曲线函数形式；

(2)针对用于学习能量管理策略的DDPG算法模型，状态变量包括后车行驶车速、后车加速度、电池SOC和整车需求功率P_demand；动作变量定义为后车发动机的输出功率；奖励函数定义为瞬时燃油消耗率以及SOC的实时偏差，具体奖励函数为：

其中，α与β为权重参数，

6.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，步骤S5中，离线训练过程具体包括以下步骤：

sample＝{S,A,R,S'}

S53：设置神经网络的更新策略，在每次更新过程中，从经验池中随机抽取样本数据对算法模型中的神经网络进行参数更新，智能体通过损失函数计算与策略梯度更新；

7.根据权利要求6所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，步骤S53中，损失函数及策略梯度更新公式为：

分别为评论家目标网络参数与演员目标神经网络参数，Q(s,a|θ^Q)为动作值函数，L(s,a|θ^Q)为损失函数，α为学习率，τ为目标网络的跟踪率；μ_T(·)为目标网络拟合的策略函数，μ为在线网络拟合的策略函数，Q_T(·)为目标动作值。

8.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法，其特征在于，步骤S6中，在线测试过程具体包括以下步骤：

S62：比较速度规划策略，在测试结束后，后车会产生一条跟车情况下的速度曲线，以前车的速度曲线作为对比标准，分别计算后车速度的特征参数，最终以误差值表示跟车效果；