CN111731303B

CN111731303B - 一种基于深度强化学习a3c算法的hev能量管理方法

Info

Publication number: CN111731303B
Application number: CN202010657917.4A
Authority: CN
Inventors: 唐小林; 陈佳信; 蒲华燕; 张志强; 阳鑫; 胡晓松; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-04-23
Anticipated expiration: 2040-07-09
Also published as: CN111731303A

Abstract

本发明涉及一种基于深度强化学习A3C算法的HEV能量管理方法，属于新能源汽车领域。该方法包括：S1：根据工况的特征参数划分车辆行驶标准工况；S2：计算整车的需求功率；S3：确定需要的状态变量、动作变量以及奖励函数；S4：建立A3C算法模型，设定环境‑智能体模块；S5：根据电池SOC以及需求功率的大小，设计并加入基于规则的发动机启停策略；S6：环境‑智能体模块中分别加载不同类型的标准工况，通过不断迭代试错的学习方式训练算法模型中的深度神经网络，当总奖励处于稳定收敛状态后结束训练过程，并且保存全局神经网络的持久化模型。本发明在保证燃油经济性的条件下实现对所有随机工况的自适应能力。

Description

一种基于深度强化学习A3C算法的HEV能量管理方法

技术领域

本发明属于新能源汽车领域，涉及一种基于深度强化学习A3C算法的混合动力汽车能量管理策略。

背景技术

混合动力汽车作为汽车产业从燃油车向纯电动汽车发展的过渡产品，克服了纯电动汽车的续航里程问题以及燃油车的油耗与排放问题，因此在新能源汽车产业发展的大背景下同样拥有的良好的发展前景，而其中的核心技术——混合动力汽车能量管理策略，始终是混合动力汽车领域研究的重点课题。

近年来，Google Deep Mind团队将深度学习和强化学习相结合，提出了更加具有智能感的学习算法——深度强化学习，并且研发了围棋机器人Alpha Go。汽车工程领域研究人员也开始将深度强化学习应用于设计能量管理策略，并且形成了能量管理算法的新类型——基于学习。目前使用较多的深度强化学习算法是深度值网络(Deep Q-Learning,DQN)与深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)。

简单来说，深度值网络算法是在强化学习中Q-Learning算法的基础上，引入了深度学习中的深度神经网络(Deep Neural Network,DNN)，利用一个深度神经网络拟合原先Q-Learning算法中的二维值函数表格，进而使得DQN算法不再受到“维度灾难”的影响。通过环境模块的状态量与奖励值以及智能体模块的动作量之间相互传输，在不断迭代试错的学习方法之下可以找到最优能量管理策略。同时DQN也加入经验回放机制与目标神经网络，目的是为了减少更新深度神经网络时样本数据之间的相关性，从而实现对神经网络更加全面的训练效果。DDPG则是在演员-评论家算法的基础上发展出来的，通常建立两种深度神经网络——演员网络与评论家网络，前者用于拟合策略函数而后者用于拟合值函数。DDPG最大的优势就在于可以对动作变量不进行离散化处理，这一点是DQN做不到的，因此DQN适用于离散控制动作而DDPG适用于连续控制动作。而两者在控制动作的选择原则上也有明显不同，DQN是根据已有的值函数选择相应更优的动作，而DDPG是先根据随机的策略函数选择动作，再利用评论家网络对动作进行评价，从而对演员网络的控制策略进行梯度修正。

因此，亟需一种新的算法来优化管理混合动力汽车(HEV)能量。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习A3C算法的HEV能量管理方法，通过分布式的学习思路，分别设置四个环境-智能体的学习模块，并且将各个学习环境设定为不同类型的标准工况，利用单独的环境-智能体模块学习某一类工况下的最优能量管理策略，从而建立四个学习模块就实现对所有类型工况更加全面的学习效果，最终利用全局神经网络汇总每个环境-智能体模块所学到的能量管理策略，在保证燃油经济性的条件下实现对所有随机工况的自适应能力。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习A3C算法的HEV能量管理方法，包括以下步骤：

S1：基于车辆行驶标准工况数据，按照工况的特征参数划分标准工况；

S2：建立混合动力汽车的动力学模型，计算整车的需求功率；

S3：根据能量管理策略确定需要的状态变量、动作变量以及奖励函数；

S4：建立异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法模型，并设定四个用于学习的环境-智能体模块；

S5：根据电池SOC以及需求功率的大小，设计并加入基于规则的发动机启停策略；

S6：结合混合动力汽车的动力学模型与A3C模型，四个环境-智能体模块中分别加载不同类型的标准工况，通过不断迭代试错的学习方式训练算法模型中的深度神经网络，当总奖励处于稳定收敛状态后结束训练过程，并且保存全局神经网络的持久化模型；

S7：训练完毕后，结合多组新的不同类型随机工况测试全局神经网络学习效果。

进一步，所述步骤S1中，标准工况划分的具体方法是：根据平均速度v_mean、平均加速度a_mean、怠速时间比t_idel、最大速度v_max和最大加速度a_max等特征参数，采用聚类方法将所有工况数据划分为具有代表性的四类：拥堵工况、城区工况、郊区工况和高速工况。

进一步，所述步骤S2中，计算相应时刻整车的需求功率为：

其中，P_demand为整车需求功率，m为整车质量，G为整车重量，f为滚动阻力系数，i为道路坡度，C_D为空气阻力系数，A为迎风面积，u_a为行驶速度，

为车辆纵向加速度，δ为旋转质量换算系数，η_T为传动系效率。

进一步，所述步骤S3具体包括：

(1)为了充分表征混合动力汽车的模拟行驶状态，定义状态变量包括行驶速度u_a、车辆纵向加速度a、电池SOC和整车需求功率P_demand；

(2)定义动作变量为发动机节气门开度throttle；

(3)定义奖励函数为：

其中，α、β为权重参数，

为发动机瞬时燃油消耗量，SOC_target为参考SOC,T_eng、ω_eng分别为发动机转矩与发动机转速。

进一步，所述步骤S4中，建立A3C算法模型具体包括：根据电脑CPU核数建立A3C算法模型的四个环境-智能体模块，并且在TensorFlow深度学习框架下建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络，指定每个模块分别针对一种类型的标准工况搭建环境。

进一步，所述步骤S5中，发动机启停策略具体包括：根据需求功率将问题划分为四部分：

(1)需求功率小于零时，发动机关闭，当前车辆处于再生制动状态；

(2)需求功率等于零时，发动机关闭，当前车辆处于静止状态；

(3)需求功率大于零且大于电机最大功率时，发动机启动，当前车辆处于混合驱动状态；

(4)需求功率大于零但小于电机最大功率时，根据SOC进行划分：当SOC大于上限阈值，关闭发动机；当SOC小于下限阈值，启动发动机；当SOC在规定范围内，保持发动机当前启停状态，直到SOC达到阈值后改变；当前车辆运行状态在纯电动驱动模式与行车充电模式之间互相切换。

进一步，所述步骤S6具体包括以下步骤：

S61：结合整车环境模块与A3C算法模块，构建交互式算法空间；

S62：针对单个智能体与环境的交互模块，定义以整车实时状态参数以及相应奖励值作为智能体模块中神经网络的输入参数，将神经网络所输出的控制变量作为环境模块中整车模型的输入参数，并且在车辆执行控制命令后产生新的奖励值；

S63：智能体模块通过复制全局网络参数完成初始化，并且在不断地迭代学习过程中更新神经网络参数；

S64：所有环境-智能体模型在CPU四个线程上同时展开在不同工况下的能量管理策略学习过程，智能体通过损失函数计算与策略梯度更新，实现神经网络的学习更新步骤，具体损失函数及策略梯度更新公式如下：

式中，r为单步奖励，s与s'分别为当前状态量与下一时刻状态量，a与a'分别为当前动作量与下一时刻动作量，θ、ω分别为当前时刻的演员神经网络参数与评论家网络参数，θ'、ω'为下一时刻的演员神经网络参数与评论家网络参数，Q(s,a；ω)为动作值函数，V(s；ω')为状态值函数，L(ω_i)为损失函数，δ、γ为权重参数，R为奖励值；

S65：全局神经网络利用汇集所有环境-智能体中的演员神经网络的参数实现自身的参数更新，并且在全局神经网络更新结束后，又将参数复制给每个环境-智能体模块；

S66：反复迭代，直到学习出理想效果为止，训练结束后保存全局神经网络持久化模型。

进一步，所述步骤S7中，保存并测试神经网络模型，具体包括以下步骤：

S71：完成训练后，将全局神经网络保存为持久化模型文件；

S72：重新选择四种类型的新标准工况进行组合，并且作为测试工况；

S73：在测试程序中加载全局神经网络持久化模型，通过运行测试工况并获得相应的燃油消耗量，再利用动态规划算法得出的燃油消耗量作为对比标准，完成对神经网络学习效果的测试工作。

本发明的有益效果在于：与基于规则与基于优化的传统混合动力汽车能量管理策略相比，本发明提出的异步优势演员-评论家算法是在深度强化学习算法的大背景下，具有极佳的计算速度，完全能够实现在线控制；在完成良好的训练效果后，通过对神经网络所拟合的能量管理策略进行测试，可以得到与动态规划算法相近的燃油经济性，并且因为是同时学习多种不同类型的标准工况，所以与传统能量管理策略相比，具有更好的随机工况适应性，从而实现更广的应用范围；在控制变量与动作变量的选择方面，异步优势演员-评论家算法基于演员-评论家框架，同样不会受到动态规划等算法存在的“维度灾难”与“离散误差”的限制。

与同为深度强化学习的深度值网络与深度确定性策略梯度算法相比，异步优势演员-评论家算法采用分布式学习思维，四个环境-智能体模块同时学习不同环境下的能量管理策略，使得最终汇集与全局神经网络的能量管理策略可以在任意类型的随机工况下都能实现最优功率分配控制，从而在保证燃油经济性的基础上，进一步提高了混合动力汽车能量管理策略对于随机工况的适应性。当然，这种分布式学习算法也可以采用四个学习模块同时在一种环境下进行学习过程，此时学习速度将是原先速度的几倍，可以极大地提高学习效率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是本发明所述HEV能量管理方法的流程图；

图2是混合动力汽车传动系统结构框图；

图3是异步优势演员-评论家算法框架；

图4是发动机启停策略示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图1为一种基于深度强化学习A3C算法的混合动力汽车能量管理策略，流程如图1所示，具体包括以下步骤：

S1：根据平均速度v_mean、平均加速度a_mean、怠速时间比t_idel、最大速度v_max和最大加速度a_max等工况特征参数，采用聚类方法将所有工况分为具有代表性的四类：拥堵工况、城区工况、郊区工况、高速工况。

S2：建立混合动力汽车整车动力学模型，计算相应时刻整车需求功率：

为车辆纵向加速度，δ为旋转质量换算系数，η_T为传动系效率。混合动力汽车传动系统结构如图2所示。

S3：定义状态变量、动作变量以及奖励函数，具体包括：

(1)为了充分表征混合动力汽车的模拟行驶状态，定义状态变量S中包括行驶速度u_a、车辆纵向加速度a、电池SOC和整车需求功率P_demand，从而构建四维状态变量空间；

(2)定义动作变量A中包括发动机节气门开度throttle＝[0,1]；

(3)奖励函数R定义为

其中，α、β为权重参数，

为发动机瞬时燃油消耗量，SOC_target为参考SOC,T_eng、ω_eng分别为发动机转矩与发动机转速。在整个工况行驶过程中，边界条件设置为：

T_{eng_min}＜T_eng＜T_{eng_max}

ω_{eng_min}＜ω_eng＜ω_{eng_max}

SOC_min＜SOC＜SOC_max

其中，T_{eng_max}和T_{eng_min}分别为发动机转矩的上下限值；ω_{eng_max}和ω_{eng_min}分别为发动机转速的上下限值；SOC_max和SOC_min分别为SOC的上下限值，应当强调的是，发动机转速范围的限定应当充分考虑换挡情况进行设定。

S4：异步优势演员-评论家算法能够建立的环境-智能体模块数目取决于电脑CPU核数，因此选择创建四个环境-智能体模块，并且在Python环境下利用TensorFlow深度学习框架建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络，指定每个模块分别针对一种类型的标准工况搭建环境，算法框架如图3所示；

S5：根据电池SOC以及需求功率的大小，设计并加入基于规则的发动机启停策略。具体实现方法为：根据需求功率将问题划分为四部分：需求功率小于零；需求功率等于零；需求功率大于零但小于电机最大功率；需求功率大于零且大于电机最大功率，具体如图4所示；

(4)针对需求功率大于零但小于电机最大功率的情况，再根据SOC进行划分：当SOC大于上限阈值SOC_max，关闭发动机；当SOC小于下限阈值SOC_min，启动发动机；当SOC在规定范围内，保持发动机当前启停状态，直到SOC达到阈值后改变；当前车辆运行状态在纯电动驱动模式与行车充电模式之间互相切换。

S6：结合混合动力汽车整车模型与异步优势演员-评论家算法模型，四个环境模块中分别加载不同类型的标准工况，通过不断迭代地试错式学习方式训练算法模型中的神经网络，当总奖励函数稳定收敛状态结束训练过程并保存全局神经网络持久化模型。具体步骤如下：

S61：结合整车环境模块与异步优势演员-评论家算法模块，构建交互式算法空间；

S62：针对单个智能体与环境的交互模块，定义以整车实时状态参数以及相应奖励值作为智能体模块中神经网络的输入参数，而将神经网络所输出的控制变量作为环境模块中整车模型的输入参数，并且在车辆执行控制命令后产生新的奖励值；

S63：智能体模块通过复制全局网络参数完成初始化，并且在不断地迭代学习过程中更新神经网络参数，其中用于更新神经网络的参数来自于经验池，利用经验回放机制将每次状态转移过程以样本数据sample的形式保存，对sample的定义如式：

sample＝{S,A,R,S'}

其中，S为当前状态，A为当前动作，R为奖励值，S'为执行动作后转移的下一个状态。通过从经验池中随机抽取32个或64个样本数据对智能体模块的神经网络进行参数更新。

S65：每个智能体将自己所学到的参数更新到全局网络中，在全局网络整合各部分智能体参数后再反向更新智能体中的神经网络参数；

S66：反复迭代，直到得出理想效果为止，即总奖励函数值已经保持在稳定收敛状态，训练结束后利用save函数将全局神经网络保存为持久化模型。

S7：保存并测试神经网络模型，具体步骤如下：

S71：完成训练后，将全局神经网络保存为持久化模型文件；

S72：重新选择四种类型的新标准工况进行组合，并且作为测试工况，例如：分别选择NYCC(拥堵工况)、UDDS(城区工况)、CYC_WVUSUB(郊区工况)、HWEET(高速工况)作为每个学习模块里神经网络的训练工况，而测试工况则选择其他的新工况合成一组的复合类型工况对神经网络进行测试；

S73：在测试程序中加载全局神经网络持久化模型，通过运行复合测试工况获得相应的燃油消耗量，再利用动态规划算法得出测试工况的燃油消耗量作为对比标准，完成对神经网络。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习A3C算法的HEV能量管理方法，其特征在于，该方法包括以下步骤：

S4：建立A3C算法模型，并设定四个用于学习的环境-智能体模块；所述A3C算法为异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法；

S6：结合混合动力汽车的动力学模型与A3C算法模型，四个环境-智能体模块中分别加载不同类型的标准工况，通过不断迭代试错的学习方式训练算法模型中的深度神经网络，当总奖励处于稳定收敛状态后结束训练过程，并且保存全局神经网络的持久化模型；

2.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S1中，标准工况划分的具体方法是：根据平均速度v_mean、平均加速度a_mean、怠速时间比t_idel、最大速度v_max和最大加速度a_max，采用聚类方法将所有工况数据划分为四类：拥堵工况、城区工况、郊区工况和高速工况。

3.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S2中，计算相应时刻整车的需求功率为：

4.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S3具体包括：

(1)定义状态变量包括行驶速度u_a、车辆纵向加速度a、电池SOC和整车需求功率P_demand；

(2)定义动作变量为发动机节气门开度throttle；

(3)定义奖励函数为：

其中，α、β为权重参数，

5.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S4中，建立A3C算法模型具体包括：根据电脑CPU核数建立A3C算法模型的四个环境-智能体模块，并且在TensorFlow深度学习框架下建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络，指定每个模块分别针对一种类型的标准工况搭建环境。

6.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S5中，发动机启停策略具体包括：根据需求功率将问题划分为四部分：

7.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S6具体包括以下步骤：

8.根据权利要求1所述的HEV能量管理方法，其特征在于，所述步骤S7中，保存并测试神经网络模型，具体包括以下步骤：

S71：完成训练后，将全局神经网络保存为持久化模型文件；