CN113200148A

CN113200148A - 一种基于深度强化学习的氢燃料无人机能量管理方法

Info

Publication number: CN113200148A
Application number: CN202110685973.3A
Authority: CN
Inventors: 吴宇; 张明轩; 王宇杨; 黄文霄; 皇甫宜耿; 马睿; 李晨; 陈博源
Original assignee: Northwestern Polytechnical University; Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-08-03

Abstract

本发明涉及一种基于深度强化学习的氢燃料无人机能量管理方法，根据飞机的不同飞行剖面，建立HEUA的速度模型、空气密度和质量损失模型和推进载荷模型，得到在此飞行状态下的负载功率。接着建立基于强化学习的ECMS能量控制模型，由负载功率得到此状态下锂电池和氢燃料电池的功率分配，得到飞行剖面下的功率分配曲线并精确计算SOC值的变化量，得到其下降曲线。实现对无人机飞行过程中能量的自主管理。

Description

一种基于深度强化学习的氢燃料无人机能量管理方法

技术领域

本发明属于能量管理领域，特别涉及一种基于深度强化学习的氢燃料无人机能量管理方法。

背景技术

燃料电池是一种持续添加燃料以维持电力的新型电池，其所需的燃料常为“氢气”，具有零排放、无污染的特点，可以有效地缓解能源危机和环境污染问题，被认为是二十一世纪最有发展前景的能源之一。

目前国内外对氢燃料电池的研究已较为成熟，尤其是在汽车方面，有多种基于插电式混合动力电动汽车(PHEV)实时节能优化算法，其能源管理策略通常是基于启发式规则的，因为此方法对计算量的要求不高，可产生高计算效率。然而，基于规则的控制策略在算法设计上往往主要依赖于专家经验和工程实践，依据实现设计好的规则，判断无人机应该运行的工作模式，使得氢燃料电池和锂电池和功率得到一个合理的分配。这种控制方法策略较为简单，但对工程师的经验阅历要求较高，无法满足无人机飞行过程中的实时动态变化。因此，需要考虑一种基于深度强化学习的无模型最优控制方法。这种控制方法可以使无人机在飞行过程中，自主判断并学习已飞行阶段的能量分配管理成效，并在后续未知的飞行剖面情况下实现对能量的最佳自主分配。

发明内容

本发明解决的技术问题是：为了解决现有技术存在的不足，提出一种新颖的基于深度强化学习的无人机能量管理方法，本方法只需对无人机的飞行状态的变化进行感知，得到其功率消耗值，即可通过强化学习方法得出此飞行阶段的最佳能量管理策略，合理分配锂电池与氢燃料电池的功率，进而得到锂电池SOC值下降曲线，同时精确计算得出燃料电池中氢气的消耗量。

本发明的技术方案是：一种基于深度强化学习的氢燃料无人机能量管理方法，包括以下步骤：

步骤1：计算无人机所需负载功率，包括以下子步骤：

步骤1.1：建立HEUA的速度模型；

定义无人机整个航时为T，在第t个时间间隔处的飞行距离是真实空气速度随飞行持续时间t的积累，FD^t表示第t个时间段内的飞行距离：

将速度分解为垂直方向和飞行距离方向的分速度，垂直方向的速度

和真实空气速度的加速度

由飞行高度和真实空气速度定义：

步骤1.2：建立空气密度和质量损失模型；

空气密度与飞行高度成线性关系：

ρ(h_t)＝ρ₀·(k_h·h_t+b_h) (3)

HEUA的总质量是HEUA的净质量和有效载荷质量之和：

HEUA净质量将随着燃料的消耗而减少：

步骤1.3：建立飞机推进载荷模型；

在D_t基础上，将HEUA的推进载荷建模如下：

其中，P_vet和P_TAS分别是垂直方向和水平方向上的推进载荷；

步骤2：建立ECMS模型，得到Li电池与氢燃料电池的能量分配约束方程，再应用深度强化学习推测未知飞行状态下的电池能量分配方法，并得出两种电池在不同条件下的最优分配策略，实现基于无人机飞行状态的能源分配自主化：包括以下子步骤：

步骤2.1：状态变量的定义及状态更迭；

取电池的SOC值为唯一的状态变量，即

其中i(t)是每个取样时间段内的电流，取决于上个时间段采取的电池功率值。Q(t)为总电量，SOC_init为SOC的初始值。

步骤2.2：动作的定义及选取；

取每一次的锂电池功率为动作，即P_batt的值：

action(t)＝＜P_batt(t)＞ (9)

依照强化学习的原则，在每一个状态下选取收益值最大的动作。

步骤2.3：电池能量分配的目标优化；

目标优化函数为：

E＝(P_fc+αP_batt)ΔT (9)

能量由电池各部分功率等效得出，其中α为等效因子，可经验的表示为：

最终得到无人机不同工况下锂电池和燃料电池能量分配管理结果。

本发明进一步的技术方案是：电池功率满足以下约束：

其中P_load由力学模型计算得出。

本发明进一步的技术方案是：深度强化学习算法中的收益值定义为：

发明效果

本发明的技术效果在于：本发明通过对不同飞行剖面下飞行状态变化的学习，可以对未知的飞行状态进行推测，并得出其条件下的最优分配策略，实现自主化；同时根据计算电池消耗结果，利用氢燃料电池减少锂电池的工作负荷，延长其寿命，保护环境、减少污染；同时可以对无人机电池更换策略周期起到一定的指导作用，提高无人机飞行的安全性。具体产生的有益效果如下：

(1)从方案中可以看出，本发明实现了基于无人机飞行剖面的力学与强化学习能量管理模型的有机结合，并基于无人机飞行模式的特点对强化学习模型进行了优化，实现了自主学习管理，具有较好的实用性。

(2)从方案中还可以看出，本发明能够利用氢燃料电池减少锂电池的功率负荷，起到降低环境污染、节省能源的好处。

(3)本发明不仅可以得到氢燃料电池的消耗量，同时可以得到锂电池的SOC变化，可以对两种电池的状态进行实时监测，对无人机电池更换策略周期起到参考作用。

显然，本发明的能量管理模型可以推广到更多具有混合式动力的工具中。

附图说明

图1为飞机飞行剖面示意图。

图2为锂电池和氢燃料电池的消耗功率图。

图3为锂电池SOC变化曲线。

图4为整体流程实施图。

图5为飞机负载功率图。

图6为DQN算法流程示意图。

图7为基于规则的算法与基于强化学习的算法消耗能量对比图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见图1-图7，本发明所采用的技术方案是：根据飞机的不同飞行剖面，建立HEUA的速度模型、空气密度和质量损失模型和推进载荷模型，得到在此飞行状态下的负载功率。接着建立基于强化学习的ECMS能量控制模型，由负载功率得到此状态下锂电池和氢燃料电池的功率分配，得到飞行剖面下的功率分配曲线并精确计算SOC值的变化量，得到其下降曲线。实现对无人机飞行过程中能量的自主管理。具体技术方案如下：

一种基于深度强化学习的氢燃料无人机能量管理模型，实现了基于无人机飞行剖面的力学与强化学习能量管理模型的有机结合。其特征在于，基于无人机飞行模式的特点对强化学习模型进行了优化，由负载功率得到此状态下锂电池和氢燃料电池的功率分配，得到飞行剖面下的功率分配曲线并精确计算SOC值的变化量，从而降低传统能量管理方法下的能源消耗，起到节省能源、降低环境污染的好处。同时，本方案也可以对两种电池的状态进行实时监测，对无人机电池更换策略周期也有一定的参考作用。

基于深度强化学习的氢燃料无人机能量管理模型，包括以下步骤：

1.实时计算无人机所需负载功率。本技术方案与其他混合式燃料工具(如汽车)的主要区别在于：根据飞机的不同飞行剖面，通过建立HEUA的速度模型、空气密度及质量损失模型和推进载荷模型，实时得到无人机不同飞行状态下的负载功率，为深度强化学习提供功率需求及边界条件：

步骤1：建立HEUA的速度模型；

无人机整个航时为T，在第t个时间间隔处的飞行距离是真实空气速度随飞行持续时间t的积累，FD^t表示第t个时间段内的飞行距离：

将速度分解为垂直方向和飞行距离方向的分速度。垂直方向(飞行高度方向)的速度

和真实空气速度(飞行距离方向)的加速度

由飞行高度和真实空气速度定义：

步骤2：建立空气密度和质量损失模型；

空气密度与飞行高度成线性关系：

ρ(h_t)＝ρ₀·(k_h·h_t+b_h) (3)

HEUA的总质量是HEUA的净质量和有效载荷质量之和：

HEUA净质量将随着燃料的消耗而减少：

步骤3：建立飞机推进载荷模型；

在D_t基础上，将HEUA的推进载荷建模如下：

其中，P_vet和P_TAS分别是垂直方向和水平方向上的推进载荷。

2.将深度强化学习应用在无人机Li电池及氢燃料电池的能量管理分配中。通过建立ECMS模型，得到Li电池与氢燃料电池的能量分配约束方程，再应用深度强化学习推测未知飞行状态下的电池能量分配方法，并得出前述两种电池在不同条件下的最优分配策略，实现基于无人机飞行状态的能源分配自主化：

步骤1：状态变量的定义及状态更迭；

取电池的SOC值为唯一的状态变量，即

步骤2：动作的定义及选取；

取每一次的锂电池功率为动作，即P_batt的值：

action(t)＝＜P_batt(t)＞ (9)

步骤3：电池能量分配的目标优化；

目标优化函数为：

E＝(P_fc+αP_batt)ΔT (9)

通过DQN(深度强化学习)来进行学习计算，以得到无人机不同工况下锂电池和燃料电池能量分配管理结果。

所述电池功率满足以下约束：

其中P_load由力学模型计算得出。

深度强化学习算法中的收益值定义为：

本发明提出根据飞机的飞行剖面建立了力学模型，得出飞机在不同阶段的功率分布，飞机分飞行剖面及各个状态功率的分布如图1所示；接着基于ECMS控制模型，通过深度强化学习算法求解出了燃料电池和锂电池的功率分配图，如图2所示，其中燃料电池的最大功率P_max＝100kw。根据锂电池的消耗功率我们可以进一步计算出其SOC的变化曲线，如图3所示。从结果中可以看出，燃料电池的功率分布与飞行剖面匹配较好，锂电池也在燃料电池功率较低时给予能量补充。下面进行详细说明。

第一部分：力学模型的建立

首先建立无人机在飞行过程中的力学模型。将无人机的典型飞行过程分为4个阶段：爬升，盘旋，巡航和下降阶段。整个航时为T，且在第t个时间间隔处的飞行距离是真实空气速度随飞行持续时间t的积累，FD^t表示第t个时间段内的飞行距离：

接着将速度分解为垂直方向和飞行距离方向的分速度进行求解。垂直方向(飞行高度方向)的速度

和真实空气速度(飞行距离方向)的加速度

由飞行高度和真实空气速度定义：

空气密度和质量损失模型的建立如下：

空气密度与飞行高度成线性关系：

ρ(h_t)＝ρ₀·(k_h·h_t+b_h)

HEUA的总质量是HEUA的净质量和有效载荷质量之和：

HEUA净质量将随着燃料的消耗而减少：

最后建立飞机推进载荷的模型：

其中气动阻力D_t由两部分组成，零升力阻力C_D0和诱导阻力K_Ind。在D_t基础上，将HEUA的推进载荷建模如下：

其中，P_vet和P_TAS分别是垂直方向和水平方向上的推进载荷。

第二部分：基于强化学习的能量管理模型

1.状态变量的定义及状态更迭

取电池的SOC值为唯一的状态变量，即

2.动作的定义及选取

取每一次的锂电池功率为动作，即P_batt的值：

action(t)＝＜P_batt(t)＞

3.最优判断及收益值定义

(1)最优判断

目标优化函数：

E＝(P_fc+αP_batt)ΔT

能量是由电池各部分功率等效来的，其中α为等效因子，可经验的表示为：

其中各个变量满足以下约束：

其中P_load由力学模型计算得出。

(2)收益值定义

第三部分：力学模型、能量管理模型的融合实现方法

综上，我们通过力学模型的建立，得到各个任务刨面所需的负载功率，再将负载功率作为能量管理模型需要满足的能源供应量，通过锂电池与燃料电池进行供能，以最优受益

为判断准则，用DQN(深度强化学习)来进行学习计算：DQN与Qleanring类似都是基于值迭代的算法，但是在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维时，使用Q-Table不动作空间和状态太大十分困难。所以在此处可以把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。因此将DeepLearning与Reinforcement Learning结合，使用深度神经网络对复杂特征的提取有很好效果，可以得到我们所需的最优解。

DQN算法的流程如图6所示，具体规则如下：①：初始化回放记忆池，为神经网络做训练准备；②：利从当前环境中选取(s，a，r，s’)存入回放记忆单元中，其中s为当前的状态即当前SOC值，s’为采取动作后的状态即下一状态SOC值，a为当前采取的动作值，即Pbatt；③：当前值网络从回放记忆单元中选取(s，a)，以选取当前动作值；目标值网络从回放记忆单元中选取(s’，a)，以打乱相关性。④：每一个动作值对应一个选取概率，即为Q＝(s，a，θ)，θ表示网络参数为均方误差损失，由误差函数得出。从这些Q中选择最大的作为本次动作的选取。⑤：误差函数梯度由当前值网络和目标值网络由误差函数得出，引入当前值网络更新Q的值。

案例

为了更好的验证模型的准确性和可行性，下面结合附图和实施例对本发明进一步说明。通过阅读参考文献得到一具体飞行剖面下的飞行距离、有效载荷、服务负荷等物理参数并在表1中示意出来：

表1：案例中所取飞行剖面的物理量

通过所列表格中的数据和所述力学模型建立方法，得到了飞机在此飞行剖面下不同时刻的负载功率如附图5所示。

对于无人机中的Li电池和燃料电池的初始约束如表2所示：

表2：Li电池和燃料电池的初始约束

立，将无人机在飞行过程中的Li电池与氢燃料电池的能量分配分别通过基于规则的算法和深度学习算法，得到不同方法下的能量分配方法，并进行比对。

(1)基于规则的方法

根据不同状态下的负载功率，我们定义Li电池的输出功率满足以下规则：

根据此规则，计算每一时间间隔内的能量：

E₁(i)＝(P_fc(i)+αP_batt(i))·ΔT

对所有时间间隔下的能量进行累加：

最终得到，在此案例的飞行剖面下，无人机消耗总能量为3151.44KJ。

(2)基于深度学习的方法

根据所述基于强化学习的能量管理模型，计算得到每一时间间隔下的能量E₂(i)，对能量进行累加：

最终得到，在此案例的飞行剖面下，无人机消耗总能量为3085.34KJ。

表3：基于规则的算法与基于强化学习的算法消耗能量对比

在两种方法下得到的能量对比如图7所示。

可以看出燃料电池的功率分布与飞行剖面匹配较好，燃料电池在锂电池较低时给予能量补充。起到了降低传统能量管理方法下的能源消耗，节省能源、降低环境污染的好处。综上所述，本方法达到了设计的要求。

对于附图做出以下的解释说明：图1是我们对飞机飞行任务中飞行高度与飞行距离的关系的呈现，是各飞行刨面所需功率的获取依据，飞机在此飞行任务下的各剖面负载功率由图5给出；图2表达了在图1展示的飞行任务中，通过深度强化学习进行能量管理后的燃料电池、锂电池的能量消耗情况，可以看出随着学习次数的提升，能量管理效果越来越好。图3表示在基于深度强化学习的能量关系方法下，锂电池SOC的变化曲。可以看出在飞行任务执行过程中，锂电池SOC在较低容量时下降变得缓慢，很好的避免了锂电池的过分消耗；图4为本方法实现思路框图；

图6为DQN流程算法框图；图7为基于规则能量管理的能量消耗结果与深度强化学习结果的对比图，可以看出，基于深度强化学习后的能量消耗明显低于基于规则的能量消耗。