CN115408948A

CN115408948A - 一种氢气加注的最优策略确定方法、系统及电子设备

Info

Publication number: CN115408948A
Application number: CN202211269394.1A
Authority: CN
Inventors: 李建威; 王天赐; 贾博文; 张大鹏; 万鑫铭; 吕洪
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-11-29
Anticipated expiration: 2042-10-18
Also published as: CN115408948B

Abstract

本发明涉及一种氢气加注的最优策略确定方法、系统及电子设备，属于氢气加注技术领域。本发明利用评估网络模型选取加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注动作，作为最优加注动作；利用热力学模型，进行状态更新，利用目标网络模型对评估网络模型进行训练，直到达到加注终点，获得1条加注策略，此时将训练后的评估网络模型的参数复制给目标网络模型，采用上述步骤获取N条加注策略，从中选取最优加注策略。本发明结合储氢瓶的热力学模型与深度强化学习方法实时设计出最优加注策略，实现不同的初始储氢瓶压强、温度与固定加注时间条件下，使储氢瓶内温度上升尽可能小。

Description

一种氢气加注的最优策略确定方法、系统及电子设备

技术领域

本发明涉及氢气加注技术领域，特别是涉及一种氢气加注的最优策略确定方法、系统及电子设备。

背景技术

随着与日俱增的化石能源消耗，温室气体的排放对全球气候的影响不断加剧。氢能，作为替代石油和天然气最有潜力的能源之一，备受研究人员关注。燃料电池汽车作为氢能在交通运输领域的主要应用载体也成为汽车行业的下一片蓝海。燃料电池电动汽车相比起动力电池汽车，具有高效率、低噪声、无污染、加注速度快等优势。燃料电池汽车的加注速度和续航里程是由加注过程车载储氢瓶内的压强、温度变化情况决定的。一方面储氢瓶的加注过程中的温升现象引起储氢密度降低，减小燃料电池汽车的续驶里程。另一方面，车载储氢瓶的温度和压强变化对储氢瓶的疲劳损伤有直接关系，所以对储氢瓶的安全性有重要影响。如何针对储氢瓶的不同状态制定加注策略，以提高加注速度，并减小加注过程中引起的储氢瓶内的温度的变化。

发明内容

有鉴于此，本发明提供了一种氢气加注的最优策略确定方法、系统及电子设备，以实现针对储氢瓶的不同状态制定加注策略，提高加注速度，并减小加注过程中引起的储氢瓶内的温度的变化。

为实现上述目的，本发明提供了如下方案：

一种氢气加注的最优策略确定方法，所述方法包括如下步骤：

构建储氢瓶的热力学模型，并将储氢瓶的初始的状态设置为储氢瓶的当前状态；所述状态包括储氢瓶内氢气区的温度、储氢瓶的铝内胆内壁的温度和储氢瓶内氢气的压强；

基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作；所述加注动作包括加注氢气的质量流量，所述最优加注动作为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注动作；

基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，作为储氢瓶的当前状态，并根据目标网络模型对评估网络模型进行训练；

返回步骤“基于储氢瓶的当前状态，利用深度强化学习模型选取下一个最优加注动作”，直到达到加注终点，获得第j条加注策略，并将训练后的评估网络模型的参数复制给所述目标网络模型，令j的数值增加1，并将储氢瓶的初始的状态作为储氢瓶的当前状态，返回步骤“基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作”，直到获得N条加注策略；

在N条加注策略中选取最优加注策略；所述最优加注策略为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注策略。

可选的，所述基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，具体包括：

基于所述热力学模型，确定执行所述最优加注动作后的储氢瓶内氢气区的温度；

根据储氢瓶内氢气区的温度，基于所述热力学模型，计算储氢瓶的铝内胆内壁的温度和储氢瓶内氢气的压强。

可选的，所述基于所述热力学模型，确定执行所述最优加注动作后的储氢瓶内氢气区的温度，具体包括：

基于所述热力学模型，计算储氢瓶的总等效阻值为：

；

其中，R _all为储氢瓶的总等效阻值，

为储气瓶的氢气区与铝内胆内壁的热对流热阻，

为储气瓶的铝内胆的热阻，R _{C_re}为储气瓶的碳纤维层的热阻，

为大气区与储氢瓶的碳纤维层外壁的热对流内阻；

根据储氢瓶的总等效阻值，确定执行所述最优加注动作后的储氢瓶内氢气区的温度为：

；

；

；

；

；

；

其中，

为储氢瓶内氢气区的温度，

、

和

分别为特征温度、转化系数和特征时间；

为计算系数，

为动能转换系数，γ为比热容比；

为加注氢气的温度，T ₄为储氢瓶外部大气区的温度，

为加注氢气的质量流量，

为气体常数，

为氢气的等容比热容，

为加注氢气的压强，

表示数值为

的常数，

为加注孔的面积，

为氢气的等压比热容；

为储气瓶内初始的氢气质量，

为加注时间。

可选的，所述根据储氢瓶内氢气区的温度，基于所述热力学模型，计算储氢瓶的铝内胆内壁的温度和储氢瓶内氢气的压强，具体包括：

根据所述热力学模型，确定储氢瓶的氢气区与铝内胆内壁的热对流热阻；

根据储氢瓶内氢气区的温度和储氢瓶的氢气区与铝内胆内壁的热对流热阻，计算储氢瓶的铝内胆内壁的温度为：

；

其中，T _{2_in}为储氢瓶的铝内胆内壁的温度，

为储氢瓶的氢气区与铝内胆内壁的热对流热阻，R _all为储氢瓶的总等效阻值，T ₄为储氢瓶外部大气区的温度，T ₁为储氢瓶内氢气区的温度；

根据储氢瓶内氢气区的温度，计算储氢瓶内氢气的压强为：

；

其中，P ₁为储氢瓶内氢气的压强，ρ为储氢瓶内氢气的密度，

为气体常数，

表示数值为

的常数。

可选的，所述根据目标网络模型对评估网络模型进行训练，具体包括：

根据执行所述最优加注动作后所述储氢瓶的状态计算执行所述最优加注动作的第一奖励值；

将执行所述最优加注动作之前的储氢瓶的状态、所述最优加注动作、所述第一奖励值及执行所述最优加注动作之后的储氢瓶的状态作为经验条，加入经验池；

从所述经验池中选取多个经验条，作为训练经验条；

利用所述目标网络模型，计算执行每个所述训练经验条中的最优加注动作的第二奖励值；

以所述训练经验条中的执行最优加注动作之前的储氢瓶的状态、最优加注动为输入，以所述训练经验条的第二奖励值为输出期望值，训练所述评估网络模型。

可选的，所述第一奖励值的计算公式为：

；

其中，R ₁为第一奖励值，

和

分别为执行最优加注动作后所述储氢瓶的状态中的储氢瓶内氢气区的温度和储氢瓶的铝内胆内壁的温度，k ₁和k ₂分别为储氢瓶内氢气区的温度和储氢瓶的铝内胆内壁的温度的重要性系数，

为加注氢气的质量流量。

可选的，所述第二奖励值的计算公式为：

；

其中，R ₂为第二奖励值，f为折扣因子，

为输入为

和

时目标神经网络模型的输出，

为执行最优加注动作之后的储氢瓶的状态，

为最优加注动作。

可选的，在N条加注策略中选取最优加注策略，具体包括：

利用如下公式计算每条加注策略的总奖励值；

；

其中，R _total表示加注策略的总奖励值，K表示加注策略中包含的加注动作的个数，

表示执行第k个加注动作的第一奖励值；

选取总奖励值最大的加注策略作为最优加注策略。

一种氢气加注的最优策略确定系统，所述系统应用于上述的方法，所述系统包括：

初始化模块，用于构建储氢瓶的热力学模型，并将储氢瓶的初始的状态设置为储氢瓶的当前状态；所述状态包括储氢瓶内氢气区的温度、储氢瓶的铝内胆内壁的温度和储氢瓶内氢气的压强；

最优加注动作选取模块，用于基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作；所述加注动作包括加注氢气的质量流量，所述最优加注动作为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注动作；

训练模块，用于基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，作为储氢瓶的当前状态，并根据目标网络模型对评估网络模型进行训练；

返回模块，用于返回步骤“基于储氢瓶的当前状态，利用深度强化学习模型选取下一个最优加注动作”，直到达到加注终点，获得第j条加注策略，并将训练后的评估网络模型的参数复制给所述目标网络模型，令j的数值增加1，并将储氢瓶的初始的状态作为储氢瓶的当前状态，返回步骤“基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作”，直到获得N条加注策略；

最优加注策略选取模块，用于在N条加注策略中选取最优加注策略所述最优加注策略为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注策略。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现上述的方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种氢气加注的最优策略确定方法、系统及电子设备，所述方法包括如下步骤：构建储氢瓶的热力学模型，并将储氢瓶的初始的状态设置为储氢瓶的当前状态；基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作；基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，作为储氢瓶的当前状态，并根据目标网络模型对评估网络模型进行训练；返回步骤“基于储氢瓶的当前状态，利用深度强化学习模型选取下一个最优加注动作”，直到达到加注终点，获得第j条加注策略，并将训练后的评估网络模型的参数复制给所述目标网络模型，令j的数值增加1，并将储氢瓶的初始的状态作为储氢瓶的当前状态，返回步骤“基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作”，直到获得N条加注策略；在N条加注策略中选取最优加注策略。本发明结合储氢瓶的热力学模型与深度强化学习方法（评估网络模型和目标网络模型）实时设计出最优加注策略，进而实现在不同的初始储氢瓶压强、温度与固定加注时间条件下，使氢气加注量最多、温度上升尽可能小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种氢气加注的最优策略确定方法的流程图；

图2为本发明实施例提供的储氢瓶的结构示意图；

图3为本发明实施例提供的储氢瓶传热示意图；

图4为本发明实施例提供的最优加注策略获取的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种氢气加注的最优策略确定方法、系统及电子设备，以实现针对储氢瓶的不同状态制定加注策略，提高加注速度，并减小加注过程中引起的储氢瓶内的温度的变化。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前，氢气加注策略的研究还停留在在加注过程中给出一系列的氢气质量流量的限制条件，不能为初始压强、温度不同的储氢瓶制定最优的加注策略，保证在给定的时间内加注最多的氢气，同时满足压强和温度的限制条件。

武汉理工大学的周鑫在论文车载储氢罐加注过程的模拟与性能预测中，建立了简易储氢瓶热力学模型，给出了在恒质量流量下储氢瓶内氢气温度、压强的变化。但是文中并未给出最优的加注策略，同时忽略储氢瓶壁之间的热传导。

浙江大学的郭进兴在论文高压氢循环试验系统温度控制与能耗优化设计方法研究中，建立了氢循环储氢瓶热力学模型，考虑了高压过程中氢气关键物性参数的变化，给出了恒质量流量下储氢瓶内气体、气瓶外壁温度变化，并设计了氢循环试验系统。但是其复杂的热力学模型不能实时为不同温度、压强下的储氢瓶设计最优的加注策略。

本发明提出一种氢气加注的最优策略确定方法、系统及电子设备，旨在结合储氢瓶热力学模型与深度强化学习方法实时设计出最优加注策略，进而实现在不同的初始储氢瓶压强、温度与固定加注时间条件下，氢气加注量最多、温度上升尽可能小。

实施例1

如图1所示，本发明实施例1提供一种氢气加注的最优策略确定方法，所述方法包括如下步骤：

步骤101，构建储氢瓶的热力学模型，并将储氢瓶的初始的状态设置为储氢瓶的当前状态；所述状态包括储氢瓶内氢气区的温度、储氢瓶的铝内胆内壁的温度和储氢瓶内氢气的压强；

构建储氢瓶的热力学模型具体包括如下步骤：

1、储氢瓶特征参数设计

本发明实施例中采用的储氢瓶的结构如图2所示，整个储氢瓶分为四个区域。区域①为储氢瓶内部氢气区，存储氢气；区域②为铝内胆层，主要起气体密封和缠绕芯模的作用，基本不承受载荷；区域③为碳纤维层，采用碳纤维浸渍树脂，主要为储氢瓶提供强度，满足承载要求；区域④是大气区。储氢瓶的具体参数如表1所示。

表1 储氢瓶尺寸参数(mm)

铝内胆公称外径	234
		铝内胆壁厚	5
碳纤维层公称外径	270
		碳纤维层壁厚	13
公称总长度	875

2、储氢瓶的热力学建模

在热力学模型中，为了方便计算传热面积和储氢瓶体积，储氢瓶可视为两个半球壳加一个圆筒。由于储氢瓶长度比厚度大得多，所以其传热是沿着壁厚方向。并且在氢气加注开始时，这四个区域的温度都相同，为20℃。假设整个过程是一维稳态导热，并且无内热源。换热过程如图3所示，图3中，T ₁为储氢瓶内氢气区的温度，T _{2_in}为储氢瓶的铝内胆内壁的温度，T _mid为铝内胆与碳纤维层交界处的温度，T _{3_out}为大气区与碳纤维层外壁的交界处的温度，T ₄为大气区的温度，两个气体区会与相接触的固体层进行对流换热，固体层之间存在热传导，各区域热传导率如表2所示。

表2 储氢瓶材料热传导率(W/m*K)

铝	238
		碳纤维	5.95
树脂	0.3

由于碳纤维层是由体积分数为65%的碳纤维与体积分数为35%的树脂组成，该层的热传导率需要用复合材料热传导率计算公式计算。

；

其中

是碳纤维层的热传导率，单位为

，

是碳纤维材料的热传导率，单位为

，

是树脂材料的热传导率，单位为

，

是碳纤维材料的体积分数，

是树脂材料的体积分数。

氢气区的热对流以强制对流为主，氢气区的对流换热系数

在25-100

之间。大气区的热对流以自然换热为主，并且在实际情况下储氢瓶置于燃料电池汽车内部，空气的换热效率更低，大气区的对流换热系数

可设置为8

。

氢气区与铝内胆内壁的热对流热阻：

；

；

其中，r为铝内胆内壁半径，单位为m，H为圆筒的长，单位为m，

为氢气区与铝内胆内壁的换热面积，单位为

，

为氢气区与铝内胆内壁的热对流热阻，单位为

。

铝内胆内壁与铝内胆外壁的热传导热阻分为两个部分，第一个是中间圆筒壁热阻，第二个是两个半球壳热阻：

；

；

；

其中，

是铝内胆与碳纤维层交界处的半径，单位为

，

是铝内胆层圆筒壁的热阻，单位为

，

是铝内胆层两个半球壳的热阻，单位为

，

是铝内胆的热阻，单位为

，

是铝内胆层的热传导率，单位为

，

为铝内胆与碳纤维层交界处的半径。

碳纤维层热阻计算与铝内胆层类似：

；

；

；

其中，R是碳纤维层外壁的半径，单位为

，

是碳纤维层圆筒壁的热阻，

是碳纤维层两个半球壳的热阻，单位为

，

是碳纤维层的热阻，单位为

。

大气区与碳纤维层外壁的热对流内阻：

；

；

其中，

为大气区与碳纤维层外壁的换热面积，单位为

，

是大气区与碳纤维层外壁的热对流内阻，单位为

。

氢气在高压过程中不满足理想气体条件，建立的实际气体状态方程：

；

其中，

是氢气的密度，单位为

，

是气体常数，单位为

，α是一个值为

的常数，单位为

，P为氢气的压强，T为氢气的温度。

将储氢瓶视为一个整体，注入储氢瓶的氢气温度和压强分别为

，

，此时应注意注入储氢瓶的氢气比焓是一个常数。则可以得到能量守恒和质量守恒方程：

；

；

；

；

；

；

；

其中，

为储氢瓶内氢气的质量，单位为kg，

是储氢瓶初始氢气质量，单位为kg，

为加注氢气的质量流量，即采取的动作，单位为

，t为加注时间，

是加注孔的面积，单位为

，c是氢气加注的速度，单位为m/s，

是储氢瓶的容积，单位为

，

是氢气的等容比热容，单位为J/kg*K，

是氢气的等压比热容，单位为J/kg*K，

为储氢瓶的总等效阻值，

为储氢瓶的氢气区与铝内胆内壁的热对流热阻，

为储氢瓶的铝内胆的热阻，

为储氢瓶的碳纤维层的热阻，

为大气区与储氢瓶的碳纤维层外壁的热对流内阻，

为氢气区氢气的比内能，

为加注氢气的比焓。

令：

；

；

；

；

；

展开式如下：

；

；

其中，

为储氢瓶内氢气区的温度，

、

和

分别为特征温度、转化系数和特征时间；

为计算系数，

为动能转换系数，γ为比热容比；

为加注氢气的温度，T ₄为储氢瓶外部大气区的温度，

为加注氢气的质量流量，

为气体常数，

为氢气的等容比热容，

为加注氢气的压强，

表示数值为

的常数，

为加注孔的面积，

为氢气的等压比热容；

为储气瓶内初始的氢气质量，

为加注时间。

t小于等于5，是因为每5秒钟，采取一个动作。更新状态时，将t=5代入，获得新的T ₁。

其中n是一个常数，需要初始条件确定。第一步的初始条件为t=0，T ₁=293.15K。第二步的初始条件t=0，T ₁是第一步的结果。

同时由于该储氢瓶热力学模型是一维稳态导热模型，各部分传热速率相等，只要求解出储氢瓶氢气的温度，就可以获取同时刻下铝内胆内壁温度。

；

；

每一步更新T ₁之后，就可以更新T _{2_in}。

；

。

步骤102，基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作；所述加注动作包括加注氢气的质量流量，所述最优加注动作为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注动作。

步骤103，基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，作为储氢瓶的当前状态，并根据目标网络模型对评估网络模型进行训练。

步骤104，返回步骤“基于储氢瓶的当前状态，利用深度强化学习模型选取下一个最优加注动作”，直到达到加注终点，获得第j条加注策略，并将训练后的评估网络模型的参数复制给所述目标网络模型，令j的数值增加1，并将储氢瓶的初始的状态作为储氢瓶的当前状态，返回步骤“基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作”，直到获得N条加注策略。

步骤105，在N条加注策略中选取最优加注策略；所述最优加注策略为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注策略。

示例性的，如图4所示，步骤102-105具体包括如下步骤：

将整个储氢瓶视为一个智能体(Agent)，其状态空间为储氢瓶内氢气区的温度、压强和铝内胆内壁的温度。因为氢气加注过程是一个升温过程，而材料的最高温度出现在铝内胆内壁。加氢速度每五秒钟更新一次，动作空间则设置加氢速度0.5g/s-4g/s，公差为0.5g/s，共8个动作。奖励函数需要同时考虑加氢速度和温度变化，温度的上升过大会导致材料的热疲劳，加氢速度则影响到加氢用时。加注的终点则是储氢瓶内部的压强达到70MP。

求解最优策略需要的参数设置：设置气加注氢气的温度

，气加注氢气的压强

，储氢瓶的初始状态（储氢瓶内氢气区的温度T ₁、储氢瓶内氢气的压强P ₁的初始值），迭代总次数N和两个神经网络(评价网络模型

和目标网络模型

)。

状态初始化：在每一次迭代中，初始化储氢瓶的状态

、

，并设置总奖励值

。

动作选择：输入当前的状态值到评估网络模型

，评估网络模型

给出当前状态下采取每个动作的预估奖励，选取预估奖励值最大的动作，即为最优加注动作

，基于上述热力学模型获得执行该最优加注动作后到达新的状态

，

和

分别为执行最优加注动作后所述储氢瓶的状态中的储氢瓶内氢气区的温度和储氢瓶的铝内胆内壁的温度，

为执行最优加注动作之后储氢瓶内氢气的压强，根据

、

以及加注氢气的质量流量

，计算出一个真实奖励值，即第一奖励值，其计算公式为：

;

其中，

为第一奖励值，

和

分别为储氢瓶内氢气区的温度和储氢瓶的铝内胆内壁的温度的重要性系数（可以根据实际情况赋值），

为加注氢气的质量流量。

记忆储存：将该步生成的经验条

存入经验池，如果存储的经验条超出了经验池的容量，就删除早期的经验条，存入新经验条，其中，

为执行最优加注动作之前的储氢瓶的状态，

为执行最优加注动作之后的储氢瓶的状态。

经验回放：抽取一批个数为I的经验条

，作为训练经验条，i表示第i个训练经验条，其取值范围为1至I之间的整数，

为第i个训练经验条中的执行最优加注动作之前的储氢瓶的状态，

为行第i个训练经验条中的最优加注动作，

为第i个训练经验条中执行最优加注动作的第一奖励值、

为第i个训练经验条中执行最优加注动作之后的储氢瓶的状态。

训练网络：利用目标网络模型

获取训练经验条的奖励估计值，即第二奖励值：

。训练评价网络模型

，使评价网络模型

输出的预估奖励更接近该第二奖励值。

判断是否到达加注终点，如果

中

，则表示达到加注终点，

为执行最优加注动作之后储氢瓶内氢气的压强，将评价网络模型

的权重参数复制给目标网络模型

，否则就更新当前状态为

，记录该步采取的动作，并进行总奖励更新

，重复进行动作选择、记忆储存、经验回放、训练网络步骤。

本发明实施例引入目标网络模型主要的作用是增加了学习的稳定性。在权重更新(训练评估网络模型)的过程中，只更新评估网络模型的权重，而不更新目标网络模型的权重。这样，更新权重时的

不会在每次训练中变化，是一个固定的目标。

判断迭代次数是否达到规定的总迭代次数（即加注策略的数量达到N，其中N为加注策略的条数阈值，其中加注策略的条数与迭代次数一一对应，因为每一次迭代过程中均可获得一条加注策略），如果超出总迭代次数，则选取历次迭代中最大的

对应的加注策略（即多个加注动作组成的动作序列）作为最优的加注策略。

实施例2

本发明实施例2提供一种氢气加注的最优策略确定系统，所述系统应用于实施例1中的方法，所述系统包括：

初始化模块，用于构建储氢瓶的热力学模型，并将储氢瓶的初始的状态设置为储氢瓶的当前状态；所述状态包括储氢瓶内氢气区的温度、储氢瓶的铝内胆内壁的温度和储氢瓶内氢气的压强。

最优加注动作选取模块，用于基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作；所述加注动作包括加注氢气的质量流量，所述最优加注动作为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注动作。

训练模块，用于基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，作为储氢瓶的当前状态，并根据目标网络模型对评估网络模型进行训练。

返回模块，用于返回步骤“基于储氢瓶的当前状态，利用深度强化学习模型选取下一个最优加注动作”，直到达到加注终点，获得第j条加注策略，并将训练后的评估网络模型的参数复制给所述目标网络模型，令j的数值增加1，并将储氢瓶的初始的状态作为储氢瓶的当前状态，返回步骤“基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作”，直到获得N条加注策略。

实施例3

本发明实施例3提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1中的方法。

实施例4

本发明实施例4提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现实施例1中的方法。

基于上述实施例本发明的技术方案的优点如下：

本发明实施例在建立储氢瓶的热力学模型时考虑了储氢瓶固体层的热传导，同时根据实际情况简化储氢瓶传热模型为一维稳态传热且无内热源。该模型贴合实际，而且计算简单，实时性好。

对于任何的储氢瓶初始状态以及加注的氢气温度

，压强

，都能制定一个最优的加注策略，适用性强。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明实施例中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种氢气加注的最优策略确定方法，其特征在于，所述方法包括如下步骤：

基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作；所述加注动作包括加注氢气的质量流量；所述最优加注动作为加注速度最快且引起储氢瓶内氢气区的温度及储氢瓶的铝内胆内壁的温度的变化最小的加注动作；

返回步骤“基于储氢瓶的当前状态，利用深度强化学习模型选取下一个最优加注动作”，直到达到加注终点，获得第j条加注策略，将训练后的评估网络模型的参数复制给所述目标网络模型，令j的数值增加1，并将储氢瓶的初始的状态作为储氢瓶的当前状态，返回步骤“基于储氢瓶的当前状态，利用评估网络模型选取下一个最优加注动作”，直到获得N条加注策略；

2.根据权利要求1所述的氢气加注的最优策略确定方法，其特征在于，所述基于所述热力学模型，确定执行所述最优加注动作后所述储氢瓶的状态，具体包括：

3.根据权利要求2所述的氢气加注的最优策略确定方法，其特征在于，所述基于所述热力学模型，确定执行所述最优加注动作后的储氢瓶内氢气区的温度，具体包括：

基于所述热力学模型，计算储氢瓶的总等效阻值为：