CN115470700A

CN115470700A - 基于强化学习训练网络模型的混动车辆能量管理方法

Info

Publication number: CN115470700A
Application number: CN202211071479.9A
Authority: CN
Inventors: 洪泽; 许雪梅; 司文; 薛翔
Original assignee: Getec Vehicle Technology Suzhou Co ltd
Current assignee: Getec Vehicle Technology Suzhou Co ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-13

Abstract

本发明揭示了一种基于强化学习训练网络模型的混动车辆能量管理方法，包括以下步骤：自定义基本元素，建立混动车辆的应用场景数据库，据其相应选择用于强化学习算法训练的数据集，构建强化学习训练网络模型，进行算法迭代训练，提取训练得到的能量管理策略函数。本发明在强化学习训练网络模型中创新地增加了代价函数c，因此其训练评价指标除了累积奖励值Σr外，还包括累积代价值Σc和期望最小代价值Min(Σc)，整体算法鲁棒性更好；奖励函数和代价函数分开设置，使得强化学习算法的训练目标明确、可解释性更高；可以快速满足客户对于混动车辆的定制化需求。

Description

基于强化学习训练网络模型的混动车辆能量管理方法

技术领域

本发明涉及混动车辆动力控制领域，尤其是一种基于强化学习训练网络模型的混动车辆能量管理方法。

背景技术

如今，传统燃料汽车所使用的汽油、柴油等燃料面临着日益枯竭的危机，同时汽车尾气排放对环境也带来越来越严重的污染，新能源汽车成为汽车发展的必然趋势。作为新能源汽车形式的一种，纯电动汽车在续航里程、电池寿命、使用成本等方面还存在许多尚未有效解决的问题。作为由传统燃料汽车向纯电动汽车过渡的一种形式，混合动力汽车(Hybrid Electric Vehicles，HEVs)成为当前汽车领域研究的重点。混合动力汽车的动力系统由多个动力源组成，通过能量管理策略可以实现需求功率在多个动力源之间的合理分配以及动力系统各部件之间的协调控制，从而达到在保持良好动力性的前提下，提高整车经济性能的目的。

目前混合动力汽车的能量管理大多是基于规则的策略，通过制定一定的能量管理阈值，最常见的插电式混合动力的规则是先进行电池能量的消耗，然后进行电池电量的保持，进行规则上的能量控制。例如：固定点式策略、功率跟随策略等。基于优化的策略具有代表基准的是动态规划(DP)，在全局工况信息已知的情况下离线得到的混合动力汽车相对最优能量管理，它利用速度工况已知，对混合动力汽车发动机和电池进行相应最优的能量需求分配，来得到最优能量管理。在现有技术中，利用工程师经验制定规则进行规则上能量管理或者基于优化的在速度已知或者预测的基础上选择的模型预测控制进行能量管理，进而调节混合动力汽车的等效燃油消耗的大小。

不过目前的能量管理方法虽然能够实现混合动力车辆能量管理的基本功能，但是对于车辆行驶工况的适应性较差，难以协调和优化能量管理的多个目标，例如动力性、经济性、NVH性能和客户用车成本等。

基于大数据训练的强化学习算法在机器人控制和图像语音识别等领域应用广泛，近年来也逐步应用于智能网联电动车辆的一些关键性技术研究，例如车辆周围环境识别、车辆驾驶决策、整车能量管理等。目前，由于强化学习算法种类较多，不同的算法因子和训练数据设置会影响强化学习的效果，使得训练得出的能量控制策略泛化性能较弱、鲁棒性较差，难以直接应用于实际车辆的控制。

发明内容

本发明的目的在于解决上述技术问题，提供一种基于强化学习训练网络模型的混动车辆能量管理方法。

本发明的目的通过以下技术方案来实现：

一种基于强化学习训练网络模型的混动车辆能量管理方法，包括如下步骤：

S1、自定义基本元素：环境状态观测变量S、奖励函数r、代价函数c、状态转移概率函数p和动作变量A，并对策略函数π进行初始化设置；

S2、建立混动车辆的应用场景数据库，并据其相应选择用于强化学习算法训练的数据集；

S3、在MATLAB/Simulink环境中构建强化学习训练网络模型，进行算法迭代训练，同时记录各个时刻的环境状态观测变量S、累积奖励值Σr和累积代价值Σc；在预设的系统约束条件下，经过多次迭代训练，当所述累积奖励值Σr和累积代价值Σc收敛到一个稳定值时结束强化学习训练；

S4、提取训练得到的能量管理策略函数π，将训练得到的强化学习训练网络模型迁移到实车进行验证，接着把验证得到的实车数据再返回输入到所述应用场景数据库的数据集中进行二次迭代优化，得到优化后的能量管理策略。

优选的，所述强化学习训练网络模型的强化学习算法为DQN算法、DDPG算法、A3C算法。

优选的，所述环境状态变量S选取自电池荷电状态SOC、油位信号。

优选的，所述奖励函数r选取自燃油消耗量、电消耗量、续航里程、SOC剩余量。

优选的，所述代价函数c选取加油成本、充电成本、充电时长、冷箱待机时长。

优选的，所述动作变量A选取车辆运行模式切换指令和增程发电功率点切换指令。

优选的，所述状态转移概率函数p是基于马尔科夫决策过程来计算而来。

优选的，所述数据集包括WLTC,CLTC,NEDC标准循环工况，或者实车采集的测试数据。

优选的，步骤S3中，所述预设的系统约束条件是指在MDP的基础上增加对于长期折扣代价的约束，使强化学习转化为一个受限马尔科夫决策过程，目标是在满足长期代价的情况下最大化受益，为奖励函数r和代价函数c中各变量的边界阈值。

优选的，所述训练得到的能量管理策略函数π选取累积奖励值Σr最大、并且累积代价值Σc最小的能量管理策略函数。

本发明的有益效果主要体现在：在强化学习训练网络模型中创新地增加了代价函数c，因此其训练评价指标除了累积奖励值Σr外，还包括累积代价值Σc和期望最小代价值Min(Σc)，整体算法鲁棒性更好；奖励函数和代价函数分开设置，使得强化学习算法的训练目标明确、可解释性更高；可以快速满足客户对于混动车辆的定制化需求。

附图说明

图1：为本发明优选实施例的强化学习算法原理图。

图2：为本发明优选实施例的强化学习算法流程示意图。

图3：为本发明优选实施例的强化学习训练评价指标示意图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明提出了一种改进型强化学习训练算法，用于解决现有的技术问题，包括但不局限于：能量管理策略的多目标优化问题；强化学习算法的鲁棒性问题；混动车辆的应用场景泛化问题。结合图1所示，本发明的改进型强化学习训练算法是一种基于模型与数据交互训练的马尔科夫决策过程，一般来讲，主要包括5个基本元素：环境状态观测变量S、车辆的动作变量A、状态转移概率函数p、奖励函数r、代价函数c，通过这些元素训练得到策略函数π。

车辆实时感知当前的环境状态观测变量S和奖励函数r，通过预设的策略函数π计算出下一时刻的动作变量A及其状态转移概率p,通过大数据的迭代训练得到奖励最大化的策略函数，作为强化学习的结果。本发明对传统的强化学习算法结构进行改进，增加一个代价函数c,用于计算各个时刻的代价值。结合图3所示，本发明训练评价指标除了累积奖励值Σr外，还包括累积代价值Σc和期望最小代价Min(Σc)；其中，累积奖励值在训练过程中会逐渐增加并收敛到一个稳定值，累积代价值会逐渐降低并趋于设定的期望最小代价值，使得强化学习的结果是在约束范围内累积代价值最小、累积奖励值最大的策略函数。

具体结合图2所示，本发明揭示的基于强化学习训练网络模型的混动车辆能量管理方法，包括如下步骤。

根据客户需求定义基本元素：环境状态观测变量S、奖励函数r、代价函数c、状态转移概率函数p和动作变量A，并对策略函数π进行初始化设置。

建立混动车辆的应用场景数据库，据其相应选择用于强化学习算法训练的数据集。

在MATLAB/Simulink环境中构建强化学习训练网络模型，进行算法迭代训练，同时记录各个时刻的环境状态观测变量S、累积奖励值Σr和累积代价值Σc；在预设的系统约束条件下，经过多次迭代训练，当所述累积奖励值Σr和累积代价值Σc收敛到一个稳定值时结束强化学习训练；所述预设的系统约束条件是指在MDP的基础上增加对于长期折扣代价(Long-term discounted costs)的约束，使强化学习转化为一个受限马尔科夫决策过程(CMDP)，目标是在满足长期代价的情况下最大化受益，具体指奖励函数r和成本函数c中各变量的边界阈值，用于提高限定场景的强化学习效率。

提取训练得到的能量管理策略函数π，将训练得到的强化学习训练网络模型迁移到实车进行验证，同时把验证得到的实车数据返回输入到所述应用场景数据库进行二次迭代优化，得到优化后的满足客户需求和系统优化目标的能量管理策略。所述训练得到的能量管理策略函数π选取累积奖励值Σr最大、并且累积代价值Σc最小的能量管理策略函数。

具体的，所述强化学习训练网络模型的强化学习算法为DQN算法、DDPG算法、A3C算法。

所述环境状态变量S选取电池荷电状态SOC(表示电池包电量变化情况，由BMS估算得到，并且通过CAN总线发送给整车控制器)、油位信号(表示油箱油量变化情况，由EMS解析传感器信号得到，并且通过CAN总线发送给整车控制器)等。

所述奖励函数r选取自燃油消耗量、电消耗量、续航里程、SOC剩余量等整车性能指标，奖励函数的变量定义主要参考整车性能指标。本发明能量管理策略在优化过程中是将其指标最大化。

新引入的所述代价函数c选取加油成本、充电成本、充电时长、冷箱待机时长等，代价函数的变量定义主要参考客户使用需求。本发明能量管理策略在优化过程中要兼顾客户的经济成本和时间成本，使其代价最小化。

所述动作变量A选取车辆运行模式切换指令(包括纯电模式和增程模式)和增程发电功率点切换指令(包括0～35KW功率范围内的发电扭矩和发电转速目标值)等。

所述状态转移概率函数p是基于马尔科夫决策过程(Markov Decision Process,简称MDP)来计算的，即假设转化到下一个状态s′的概率仅与上一个状态s相关，与之前的状态无关。

所述数据集包括WLTC,CLTC,NEDC等标准循环工况，或者实车采集的测试数据。

以增程混动冷链物流车为例，客户对于车辆的使用有着明确的线路规划和成本控制目标，因此在运用强化学习算法进行能量管理策略训练时要充分考虑客户的场景应用需求，技术实施方案如下：

1)环境状态观测变量S：选取电池荷电状态SOC、油位信号等；

2)动作变量A：选取车辆运行模式切换指令(包括纯电模式和增程模式)和增程发电功率点切换指令等；

3)奖励函数r:选取燃油消耗量、电消耗量、续航里程、SOC剩余量等；

4)代价函数c:选取加油成本、充电成本、充电时长、冷箱待机时长等；

5)训练策略：选取DQN算法；

6)训练数据：选取CLTC标准驾驶循环、城市物流车专用驾驶循环。

进行算法迭代训练，同时记录各个时刻的环境状态观测变量S、累积奖励值Σr和累积代价值Σc；累积奖励值在训练过程中会逐渐增加并收敛到一个稳定值，累积代价值会逐渐降低并趋于设定的期望最小代价值，使得强化学习的结果是在约束范围内累积代价值最小、累积奖励值最大的策略函数。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于强化学习训练网络模型的混动车辆能量管理方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的方法，其特征在于：所述强化学习训练网络模型的强化学习算法为DQN算法、DDPG算法、A3C算法。

3.根据权利要求1所述的方法，其特征在于：所述环境状态变量S选取自电池荷电状态SOC、油位信号。

4.根据权利要求1所述的方法，其特征在于：所述奖励函数r选取自燃油消耗量、电消耗量、续航里程、SOC剩余量。

5.根据权利要求1所述的方法，其特征在于：所述代价函数c选取加油成本、充电成本、充电时长、冷箱待机时长。

6.根据权利要求1所述的方法，其特征在于：所述动作变量A选取车辆运行模式切换指令和增程发电功率点切换指令。

7.根据权利要求1所述的方法，其特征在于：所述状态转移概率函数p是基于马尔科夫决策过程来计算而来。

8.根据权利要求1所述的方法，其特征在于：所述数据集包括WLTC,CLTC,NEDC标准循环工况，或者实车采集的测试数据。

9.根据权利要求1所述的方法，其特征在于：步骤S3中，所述预设的系统约束条件是指在MDP的基础上增加对于长期折扣代价的约束，使强化学习转化为一个受限马尔科夫决策过程，目标是在满足长期代价的情况下最大化受益，为奖励函数r和代价函数c中各变量的边界阈值。

10.根据权利要求1所述的方法，其特征在于：所述训练得到的能量管理策略函数π选取累积奖励值Σr最大、并且累积代价值Σc最小的能量管理策略函数。