CN116596340A

CN116596340A - 具有工况适应性的船舶综合能源系统能量管理策略

Info

Publication number: CN116596340A
Application number: CN202310576020.2A
Authority: CN
Inventors: 王荣杰; 司玉鹏; 周文婷; 林安辉; 王亦春; 蒋德松
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-15

Abstract

针对动态工况下船舶综合能源系统能量优化调度问题，本发明提出一种具有工况适应性的船舶综合能源系统能量管理策略。该策略采用深度双Q网络以最小化系统运行成本为目标，运用历史航行数据高效学习最佳调度策略，并利用模型参数迁移方法，将历史工况的策略网络参数转移到新工况，使新工况的策略网络快速收敛。实船数据模拟船舶航行试验结果表明，该策略能够有效提升系统对动态工况的适应性。

Description

具有工况适应性的船舶综合能源系统能量管理策略

技术领域

本发明属于新能源船舶能量管理技术领域，具体涉及一种具有工况适应性的船舶综合能源系统能量管理策略。

背景技术

庞大的海洋运输体系对经济发展具有巨大的推动作用，但同时也意味着巨大的污染排放。尽管典型的近海船舶尺寸相比于远洋运输船舶小很多，但是近海船舶的排放量在全球船队总排放量中占据相当大的比例。据估计，全球70％的航运排放物产生于海岸线400公里以内。比如，硫氧化物排放会损害人体呼吸系统，并且通过形成酸雨对敏感的生态系统造成破坏。长期暴露于氮氧化物可导致呼吸道和肺癌死亡。根据Sofiev等人的研究，即使运用更加清洁的船用燃料，每年仍有大约25万人死亡和640万儿童哮喘病例与船舶的PM_2.5有关。由此可以看出，航运业面临的节能减排问题亟待解决，特别是在近海水域作业的船舶。

新能源具有丰富、可再生、清洁等优势，成为船舶向绿色化转型的绝佳选择。因此，在常规能源系统中引入新能源发电设备的船舶综合能源系统，是船舶实现高输出、低能耗、少污染可持续发展目标的一种有效方式。但新能源出力的间歇性、航行环境的不确定性，船舶作业的多样性，使得新能源船舶电力系统的运行工况复杂多变，而当前的能量管理策略无法满足船舶综合能源系统运行工况多样化的需求，系统的能源管理面临着极大的挑战。因此，需要开发新的能量管理策略，以提高船舶综合能源系统自主化、智能化、协同化水平。近年来，以强化学习为代表的类脑智能技术的逐渐兴起，将强化学习与能量管理策略交相融合的绿色智能技术受到高度关注。

文献Energy optimal dispatching of ship's integrated power systembased on deep reinforcement learning[J].Electric Power Systems Research,2022,208:107885.考虑到推进负荷的波动和高能脉冲负荷的间歇性对船舶电力系统能量管理的影响，提出一种基于深度Q网络算法的船舶综合能源系统能量管理方法，该方法无需对系统不确定性进行精确建模，便可获得综合能源系统的能量优化调度序列，实现对发电机组和储能系统充放电状态的实时控制，保证全电船综合能源系统的安全经济运行。文献Reliable power scheduling of an emission-free ship:multiobjective deepreinforcement learning[J].IEEE Transactions on TransportationElectrification,2020,6(2):832-843.提出了一种基于深度Q网络的混合储能系统多目标优化调度方法。该方法在考虑能量管理成本的同时，引入负荷损失期望(LOLE)指标来评价系统的可靠性，实现纯电动渡轮零排放且具有经济效益的能源管理。文献Cost-effectivereinforcement learning energy management for plug-in hybrid fuel cell andbattery ships[J].Applied Energy,2020,275:115258.提出了一种基于DDQN算法的能量管理策略，旨在实现混合燃料电池和蓄电池推进系统的最优控制，进而降低系统的成本、提高能源利用率并减少环境污染。文献A Data-driven intelligent energy efficiencymanagement system for ships[J].IEEE Intelligent Transportation SystemsMagazine,2023,15(1):270-284.采用物理模型和经验模型相结合的集成机器学习方法对主机的能源效率进行回归分析，以实现船舶能源效率的全面评估。并提出了一种基于分段回归的新型修正优化方法，帮助船舶运营商判断主机和船舶工作状况，并采取适当的控制策略以降低主机的能源消耗。由此可以看出，基于机器学习的能量管理策略能够根据环境信息自适应地学习和调整策略网络参数，以适应不同运行工况下的负载需求，有效地提高了能源利用率和系统性能。并且该方法可以实现“边决策边学习”的增量学习，非常适合解决新能源船舶电力系统的优化调度问题。但是该方法对数据的依赖性较强，且机器学习的过程难以解释，学习到的策略难以得知。

综上所述，将新能源发电技术引入船舶电力系统可以明显提高能源利用率、减少污染排放量，但是新能源船舶电力系统多能融合的复杂性，为系统的能量管理带来了新的挑战。构建适用于船舶综合能源的能量优化调度方法，使各类型设备相互协调配合以平抑系统波动，成为新能源应用于船舶的关键。因此，开展具有工况适应性的船舶综合能源系统能量管理策略研究符合“双碳”战略的需求，对于推动船舶能源装备发展和绿色航运转型具有极其重要的意义。

发明内容

针对动态工况下船舶综合能源系统能量优化调度问题，本发明提出一种具有工况适应性的船舶综合能源系统能量管理策略，或者说基于深度双Q网络算法的船舶综合能源系统可迁移能量管理策略。该策略采用深度双Q网络以最小化系统运行成本为目标，运用历史航行数据高效学习最佳调度策略，并利用模型参数迁移方法，将历史工况的策略网络参数转移到新工况，使新工况的策略网络快速收敛。实船数据模拟船舶航行试验结果表明，该策略能够有效提升系统对动态工况的适应性。

本发明具体采用以下技术方案：

一种具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：基于包含分布式发电单元、负荷和储能系统的船舶综合能源系统，所述分布式发电单元包括：光伏发电单元、风力发电单元、燃料电池、柴油发电机；

基于马尔可夫决策过程对船舶综合能源系统能量管理问题进行建模，利用深度双Q网络对马尔可夫决策模型进行求解以学习船舶综合能源系统的最佳能量优化调度方案，并在不同工况下通过迁移学习的方式构建能量管理策略，以提高策略网络在新工况下的收敛速度。

进一步地，所述新能源船舶综合能源系统以孤岛模式运行，其中以风力发电模块和光伏发电模块为主要供电单元，燃料电池和柴油机为辅助供电单元，储能模块和储氢模块作为储能单元；当风力发电以及光伏发电无法满足负载需求时，储能单元用于弥补电力短缺；当清洁能源输出功率高于负载需求时，多余的能量存入蓄电池或用于电解水产生氢气供后续使用；在缺电时段，储存能量用于满足负荷需求。

进一步地，基于深度双Q网络的船舶综合能源系统可迁移能量管理策略的具体步骤如下：

步骤S1：分别搭建目标网络和评估网络，并初始化两个网络的权重参数w和w’；

步骤S2：获取船舶综合能源系统的初始状态s₁；

步骤S3：在每个控制时段t，智能体基于当前状态s_t和策略π_w(a|s)，输出每种动作对应的Q值，并根据ε-greed策略选择动作a_t；

步骤S4：环境基于当前智能体选择的动作a_t改变环境中各类型设备的状态s_t+1并获得回报r_t；

步骤S5：将经验(s_t,a_t,s_t+1,r_t+1)存储到经验回放池；

步骤S6：通过随机小批量抽取N个经验样本(s_n,a_n,r_n+1,s_n+1)，n＝1，2，…，N，计算损失函数，并更新网络参数w；

步骤S7：每隔固定时间间隔步长T，将评估网络权重复制到目标网络w’＝w，对目标网络进行更新；

步骤S8：该段航行周期是否终止，否则返回步骤S3；

步骤S9：判断是否达到训练终止条件，如果是，保存能量管理决策智能体网络模型的权重参数，否则返回步骤S2；

步骤S10：利用基于深度双Q网络的能量管理决策智能体确定最佳的能量优化调度动作；

步骤S11：若船舶的航行工况发生改变，将能量管理决策智能体学习到的一个领域的最佳网络权重参数复制到另一个新领域作为先验知识，以提高新领域决策网络训练的收敛速度。

进一步地，在步骤S3中：智能体的当前状态s_t表示为：

根据ε-greed策略选择动作a_t具体为；

a_t＝[P_t ^batt,ψ_t]

进一步地，在步骤S4中：环境基于当前智能体选择的动作a_t改变环境中各类型设备的状态s_t+1并获得回报r_t具体为；

进一步地，步骤S6中，计算损失函数考虑以下约束条件：

船舶综合能源系统以孤岛模式运行，无外部电源辅助供电，故为保证船舶综合能源系统的安全可靠运行，船舶综合能源系统运行过程中应保持实时的供需平衡，由下式描述：

P_avail(t)+P_d(t)+P_batt(t)+P_Fc(t)＝P_load(t)

柴油发电机实时能量输出相关约束由下式描述：

-D_dΔt≤P_d(t+Δt)-P_d(t)≤D_uΔt

式中，和/>分别表示柴油机的最大最小输出功率，D_d和D_u分别表示柴油发电机的向下和向上爬坡速率；

对于储能系统，过充过放都将影响设备的使用寿命，为了在保证船舶电力系统安全可靠运行的前提下，提高储能系统的寿命，蓄电池和燃料电池的实时输出功率约束由下式描述：

对蓄电池的荷电状态进行约束，由下式描述：

式中，和/>分别表示蓄电池荷电状态的上下限；/>和/>分别表示蓄电池的最大最小输出功率，/>和/>分别表示燃料电池的最大最小输出功率。

相比于现有技术，本发明及其优选方案考虑到航行工况变化对发电设备和负载的影响，提出一种具有工况适应性的能量管理策略。由于船舶综合能源系统供给侧和需求侧的随机性，将船舶综合能源系统的优化调度建模为马尔可夫决策过程，然后在连续状态空间和离散动作空间中，采用DDQN算法对马尔可夫决策模型进行求解，并与模型参数迁移策略相结合，提高策略网络在新工况下的收敛速度。算例仿真结果表明，该策略能够根据船舶综合能源系统输出的功率以及负荷需求信息实现各分布式能量源的调度，相比于基于优化的能量管理策略，目标平均值更优，说明该策略能够很好地适应光伏、风电出力的不确定性。并且可以看出引入模型参数迁移策略后，策略网络在新工况下能够更快地实现收敛，提高了策略的响应速度和工况适应性。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1本发明实施例船舶综合能源系统示意图。

图2本发明实施例能量管理策略网络迁移模型示意图。

图3本发明实施例DDQN算法流程图。

图4本发明实施例DDQN能量管理决策智能体累计回报的平均值收敛曲线图。

图5本发明实施例航程2-9中各供电源的出力情况图。

图6本发明实施例航线一中DDQN智能体的功率分配情况图。

图7本发明实施例燃料电池的输出功率以及储氢罐中氢气的含量图。

图8本发明实施例蓄电池的储能变化及荷电状态图。

图9本发明实施例夏季场景下DDQN能量管理策略收敛过程图。

图10本发明实施例夏季航行过程中各供能单元的出力情况图。

图11本发明实施例某航次运行过程中DDQN智能体的功率分配情况图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

1船舶综合能源系统理论模型

本发明研究的船舶综合能源系统基本架构如图1所示，包含分布式发电单元(光伏发电单元、风力发电单元、燃料电池、柴油发电机)，相关负荷和储能系统。

新能源船舶综合能源系统以孤岛模式运行，其中以风力发电模块和光伏发电模块为主要供电单元，燃料电池和柴油机为辅助供电单元，储能模块和储氢模块作为储能单元。当风力发电以及光伏发电无法满足负载需求时，储能单元将弥补电力短缺。同时，当清洁能源输出功率高于负载需求时，多余的能量将存入蓄电池或用于电解水产生氢气供后续使用。在缺电时段，储存能量将被用于满足负荷需求，提高了系统的可靠性和能源的可持续性。

1.1清洁能源发电模块

1、光伏发电模块

单个光伏发电板t时刻的输出功率由公式(1)描述：

式(1)中，p_pv(t)为单个光伏发电板t时刻的输出功率；P_max为单个光伏发电板的最大输出功率；I(t)为t时刻太阳的辐射强度；T_c(t)为光伏组件t时段的运行温度；I_r光伏组件辐射强度参考值；T_c(t)为功率温度系数；T_r为标准测试条件下光伏组件的运行温度。

单个光伏发电板t时刻的运行温度由公式(2)描述：

式(2)中，T_e(t)为t时刻的环境温度；NOCT为光伏发电板的额定运行温度。

光伏发电单元t时刻的总输出功率由公式(3)描述：

P_PV(t)＝N_PV×p_PV(t) (3)

式(3)中，P_PV(t)光伏发电单元t时段输出总功率；N_PV为系统中光伏发电板的总数。

2、风力发电模块

风力发电模块的输出功率主要取决于风力机轮毂高度处的风速大小。风能经过风力发电机组之后，一部分机械能将会转化为电能。风力发电机的二次功率输出模型由式(4)描述：

式(4)中，v_t为t时刻的风速；v_r为风机的额定风速；P_{r_WT}为额定风速所对应的风机额定功率；v_min为风机的启动风速；v_max为风机的预警风速。当风速小于切入速度v_min时，无电能输出。在切入速度和额定风速(v_min～v_r)之间时风力机输出功率与风速的立方直接相关。当风速超过额定值时，需要将输出功率限制在固定值。当风速高于预警速度v_max时，风电系统将停止运行，以保护系统部件，这样发电机和相应的电力电子设备才不会损坏。

风力发电模块输出的总功率由公式(5)描述：

P_WT(t)＝N_WT×p_WT(t) (5)

式(5)中，P_WT(t)风力发电模块t时刻输出总功率；N_WT为系统中风机的总数。

1.2质子交换膜燃料电池

以氢气为主要能量源的质子交换膜燃料电池的输出功率由公式(6)描述：

式(6)中，为氢气的低热值/> 为t时刻储氢罐中的氢气量；η_T为热力学效率(在25℃时为0.98)；U_f为燃料利用率；η_FC为燃料电池的效率；/>为储氢罐的容量；/>为储氢罐中最低储氢量。

燃料电池单位时间内氢气的消耗量由公式(7)和(8)描述：

F_FC(t)＝a_FC×p_FC(t)+b_FC (7)

式(7)和(8)中，F_FC(t)为t时刻氢气的消耗；a_FC和b_FC为燃料电池堆栈运行时的线性化系数；为t时刻储氢罐释放的氢气量。

质子交换膜燃料电池的效率由式(9)描述：

式(9)中，为氢气的高热值(120-140MJ/kg)；/>为氢气的流量。

1.3储能模块

作为新能源船舶可控单元之一，储能装置需考虑功率输出的约束，同时储能荷电状态还受前一时刻的充放电功率影响，具有时序性的约束。储能装置需根据负荷和可再生能源盈缺情况选择合适的充放电时机，以实现经济运行和削峰填谷的优化目标。优化储能充放电策略可实现更有效的能量利用和经济运行。同时，在新能源不足时，储能装置可提供备用能源，保证船舶安全可靠运行。因此，充分利用储能装置可提高新能源船舶的整体性能和运行效率。

1、电解槽和储氢罐

电解槽中氢气的产生量与所需功率关系由式(10)描述：

式(10)中，P_E(t)为t时刻电解槽消耗的功率；为t时刻电解槽产生的氢气量；η_E为电解槽效率。

储氢罐中氢气量由式(11)描述：

式(11)中，为t时刻储氢罐中剩余氢气量。

2、蓄电池

混合能源系统中光伏发电和风力发电等清洁能源发电模块的功率输出随光照、风速等环境条件的变化而变化，且电力负载具有突变性。因此，为了提高整个系统的稳定性，在系统中配备响应速度快的蓄电池。电池最大储存能量e_{max_batt}

与最小储存能量e_{min_batt}的关系由式(12)描述：

e_{min_batt}＝(1-DOD)×e_{max_batt} (12)

式(12)中，DOD为电池最大放电深度；如果计系统中配备的蓄电池数为N_batt；则蓄电池组的最大电能容量为E_{max_batt}＝N_batt×e_{max_batt}；最小电能容量为E_{min_batt}＝N_batt×e_{min_batt}。

蓄电池一般作为辅助供电单元使用，在风力发电与光伏发电产生的电能之和大于负载需求时，对蓄电池进行充电，此时蓄电池的电能变化由式(13)描述；若风力发电与光伏发电产生的总电能不能满足负载需求时蓄电池将放电，此时蓄电池的电能变化由式(14)描述：

式(13)和(14)中，E_batt(t)为蓄电池组在t时刻储存的总电能；P_load(t)为t时刻负载对蓄电池电能的需求量；η_inv为逆变器转换率；η_{batt_c}为电池组充电效率；η_{batt_d}为电池组放电效率。

蓄电池的荷电状态由式(15)描述：

式(15)中，SOC(t)为t时段蓄电池的荷电状态。

则蓄电池t时段的放电功率由式(16)描述：

式(16)中，P_batt(t)为t时刻蓄电池组的放电功率。

则储能模块t时段的放电功率由式(17)描述：

P_s(t)＝P_FC(t)+P_batt(t) (17)

1.4柴油发电机模块

若t时刻风力发电、光伏发电以及储能模块的电能之和不能满足负载需求，则启动柴油机，所需柴油机的输出功率由式(18)描述：

式(18)中，P_D(t)为柴油机在t时刻的输出功率；P_load(t)为t时刻的负载。

柴油发电机的输出功率由油耗所决定，故柴油机的功率输出与燃油消耗率的关系由式(19)描述：

f_D(t)＝μ_D×P_rate+v_D×P_D(t) (19)

式(19)中，f_D(t)为柴油机t时段的燃油消耗量；P_rate为柴油机的额定输出功率；参数为μ_D燃油曲线截距系数；v_D为燃油曲线斜率。

1.5船舶综合能源系统能量管理马尔科夫决策过程建模

船舶综合能源系统的运行过程是一个随机过程，因此可以基于马尔可夫决策过程对船舶综合能源系统能量管理问题进行建模。然后，采用深度强化学习智能体与环境反复交互的经验调整能量优化调度策略。MDP通常由状态空间S，动作空间A，奖励函数R和值函数进行描述：

状态：描述当前时刻t系统的状态信息。在本发明最优能量管理问题中，由风光发电系统输出功率、负荷需求、储氢罐中的氢气量和蓄电池的荷电状态组成，t时刻环境状态s_t可以由式(20)描述：

式(20)中，P_t ^PV表示当前时段光伏发电系统的输出功率；P_t ^WT表示当前时段风力发电系统的输出功率；P_t ^load表示当前时段船舶的电力负载需求；P_t ^d表示当前时段柴油机的输出功率；为当前时段储氢罐中氢气量；SoC_t ^batt为当前时段蓄电池的荷电状态。

动作：给定状态s_t，智能体通过采取与系统状态相关的动作a_t与环境进行交互。在本实施例中，智能体采取的动作用于调整每个时间步内可控发电设备的输出功率。船舶综合能源系统中，可控的能源设备包括蓄电池、燃料电池系统以及柴油机。在t时刻的动作a_t可由式(21)描述：

式(21)中，O_t ^FC、O_t ^d和O_t ^batt分别表示当前时刻t燃料电池、柴油机和蓄电池的控制动作，其中燃料电池系统和蓄电池包括放能、储能和空闲三种状态。

由于DDQN网络只能处理离散的动作，若将上述决策变量全部作为DDQN网络的动作，会出现动作空间组合数量大，神经网络输出维数高，训练难度大的问题。根据能量守恒定律可知，动作空间A中的任何变量都可以通过其它两个变量计算获得，从而可以将动作空间简化为t时段蓄电池的输出功率，以及燃料电池和柴油机的动作优先级组成。故t时刻的动作a_t由式(22)描述：

a_t＝[P_t ^batt,ψ_t] (22)

式(22)中，ψ_t等于0或1，表示燃料电池和柴油机的动作优先级，若ψ_t＝0，柴油机优先动作，即当清洁能源发电设备和蓄电池的能量不能满足负载需求时，由柴油机优先供电；若ψ_t＝1，首选设备为燃料电池，当风光发电系统和蓄电池的输出功率不能完全满足载荷需求时，优先使用燃料电池，若仍无法满足负荷需求，剩余的能量将自动由柴油机提供。

回报：本发明制定的回报函数由四部分组成。第一部分为储能系统超过相关约束条件进行惩罚，惩罚函数由式(23)、(24)和(25)描述：

式(23)、(24)和(25)中，和/>分别表示当前时段t储能系统、蓄电池和储氢罐的越限惩罚；/>表示为当前时段t燃料电池消耗的氢气量；P_batt(t)表示当前时段t蓄电池的输出功率；/>和C_batt分别表示储氢罐和蓄电池的越限惩罚系数。

第二部分为了提高清洁能源发电系统的电能利用率，减少“弃电失衡”现象，引入“弃电”惩罚和“失衡”惩罚，由式(26)和式(27)描述：

式(26)和式(27)中，表示当前时刻t的弃电惩罚，/>表示当前时刻t的失衡惩罚，P_exc(t)表示当前时刻t的弃电功率，P_ub(t)表示当前时刻t的失衡功率，C_exc表示“弃电”惩罚系数，C_ub表示“失衡”惩罚系数。

第三部分为了降低船舶综合能源系统的能耗。引入燃料消耗成本，包括柴油机的燃油成本、燃料电池燃氢成本和电解槽制氢收益，由式(28)描述：

式(28)中，表示当前时刻t的燃料消耗成本，C_d和/>分别表示柴油和氢气的单价，Fu_d(t)表示当前时刻t柴油机的燃油消耗量，/>和/>分别表示当前时刻t系统消耗和产生的氢气量。

第四部分为了降低船舶的污染气体排放量，引入污染治理费用惩罚，由式(29)描述：

式(29)中，表示当前时段t系统污染物治理成本，C_c、C_N和C_S分别表示碳氧化物、氮氧化物和硫氧化物的治理成本单价，O_C、O_N和O_S分别表示柴油燃烧产生的碳氧化物、氮氧化物和硫氧化物排放量系数。

综上，当前时刻t的回报函数由式(30)描述：

式(30)中，r^e(t)表示当前时刻t环境的回报函数。

值函数：本发明以总体运营费用的期望最小为目标，寻找最合适的能量管理策略π，实现船舶综合能源系统的能量优化调度。其目标函数由式(31)描述：

1.6船舶综合能源系统运行约束

船舶综合能源系统以孤岛模式运行，无外部电源辅助供电，故为保证船舶综合能源系统的安全可靠运行，船舶综合能源系统运行过程中应保持实时的供需平衡，由式(32)描述：

P_avail(t)+P_d(t)+P_batt(t)+P_Fc(t)＝P_load(t) (32)

柴油发电机实时能量输出相关约束由式(33)和式(34)描述：

-D_dΔt≤P_d(t+Δt)-P_d(t)≤D_uΔt (34)

式(33)和(34)中，和/>分别表示柴油机的最大最小输出功率，D_d和D_u

分别表示柴油发电机的向下和向上爬坡速率。

对于储能系统，过充过放都将影响设备的使用寿命，为了在保证船舶电力系统安全可靠运行的前提下，提高储能系统的寿命，蓄电池和燃料电池的实时输出功率约束由式(35)描述，对蓄电池的荷电状态进行约束，由式(36)描述：

式(35)和式(36)中，和/>分别表示蓄电池荷电状态的上下限，分别为0.1和0.9；/>和/>分别表示蓄电池的最大最小输出功率，/>和/>分别表示燃料电池的最大最小输出功率。

2基于DDQN算法的船舶综合能源系统可迁移能量管理策略

2.1深度Q网络算法

在Q-learning中，Q函数的更新迭代公式根据Bellman方程以递归方式描述，如式(37)所示。

式(37)中，μ表示学习率，a_t+1为s_t+1状态下可以执行的动作。Bellman方程表明，Q值可以通过自举方式进行更新，即可以通过使用Q的当前估计来改进Q的未来估计。一般情况下，强化学习算法可以基于智能体与环境的相互作用对价值函数进行迭代优化，使价值函数最大化，从而得到最优的动作策略集π*。然而，对于要解决的船舶综合能源系统能量优化问题，由于值函数的状态空间是连续的，所以不能以状态传递函数或表的形式计算。因此，值函数应该用函数逼近法表示，这样强化学习算法才能用于解决具有复杂不确定性的系统优化问题。

为了规避基于表格的Q-learnin高纬计算困难问题，采用基于Q网络的深度强化学习算法，通过深度神经网络逼近值函数，即Q(s,a)≈Q(s,a|w)，每个值函数对应一组参数Q(s,a|w)。在神经网络中，参数w是每个网络层的权值。使用状态值作为神经网络的输入，输出为每个状态-动作对的Q值。此时，更新值函数Q实际上就是更新参数w，使用平方误差MSE作为误差函数，由式(38)描述：

/>

式(38)中，用表示目标Q值，用Q_π(s_t,a_t|w)表示动作对应的动作Q值。

由于强化学习收集的数据是由智能体与环境之间的交互产生的，这意味着这些数据之间存在相关性，使用这些数据来训练网络参数会使深度神经网络的性能不稳定。因此，为了降低数据之间的相关性，提高深度神经网络训练的稳定性，DQN算法引入了一种经验重放机制。该方法将数据存储在重放缓冲区中，然后采用随机抽样的方法批量从重放缓冲区中提取数据来训练神经网络，可以降低采样数据的时间相关性。

由于在目标Q值函数和动作Q值函数中都存在参数w，因此采用小批量半梯度下降的方式更新参数，假设抽取n个样本作为对期望值的采样估计，更新公式由式(39)和式(40)描述：

式(39)和(40)中，为梯度计算函数。通过误差函数L对参数w进行反馈更新，使网络的实际输出值函数Q接近目标值。由式(40)可以发现，神经网络参数的输出目标值会继续参与网络参数w的训练，这会导致Q网络训练不稳定。因此，为了降低数据之间的相关性，提高神经网络训练的稳定性，DQN算法引入了固定目标参数机制。采用目标网络和评价网络两个独立的网络，实现参数的迭代更新，减小目标值与评价值之间误差函数的损失值，获得最优输出Q值。用于计算值函数的动作评价网络参数w在每一步中更新一次，而目标网络参数在固定数量的步骤后更新。

此外，强化学习算法需要在探索和利用之间保持平衡，以选择agent的动作。通过探索的过程，agent可以获得更多关于未知环境的信息，利用过程使agent能够根据当前信息做出最佳决策。因此，为了避免算法陷入局部最优，获得全局最优策略π*，本实施例采用ε-贪心策略选取策略π。其具体选择方法如式(41)所示，即智能体在动作空间A中随机选择任意动作的概率为ε。并且ε值随着算法的迭代逐渐衰减，保证了神经网络参数在强化学习后期趋于稳定，值函数Q能快速达到最优值，提高了算法的训练效率。

2.2深度双Q网络

本实施例利用深度双Q网络(Q学习的一种变体)来学习船舶综合能源系统的最佳能量优化调度方案。DDQN在不向DQN引入额外神经网络的情况下，通过解耦目标Q值动作的选择和目标Q值的计算来消除过度估计问题。深度双Q网络不再是直接在目标Q网络里面找各个动作中最大Q值，而是在当前Q网络中先找出最大Q值对应的动作，然后利用选择出来的动作在目标网络中计算目标Q值，如式(42)所示。

y_j＝r_j+γQ(s_j+1,argmax_a(Q(s_j+1,a|w))|w') (42)

最后，在深度神经网络训练完成后，可以对其网络参数进行存储，方便直接调用训练后的模型来实现船舶综合能源系统能量的优化调度。

2.3策略网络模型参数迁移

当航行周期改变时，神经网络将需要重新训练，这是一项耗时费力的任务。本发明将深度强化学习与迁移学习相结合，提出一种基于DDQN算法的船舶综合能源系统可迁移能量管理策略，该策略将一个领域的知识作为先验经验转移到另一个新领域，使新领域的网络快速达到收敛值。

模型参数迁移是目前应用最为广泛的一种迁移学习方法。其基本思想为通过源域训练好的模型与目标域的模型实现参数共享。因此，本实施例运用模型参数迁移思想，构建适用于不同航行周期的深度强化学习能量管理决策智能体，不仅节省了模型的训练时间，还使模型的鲁棒性和泛化能力得到明显的提高。深度强化学习能量管理迁移过程中将不同工况下获取的数据集分别作为源域和目标域，该方法具体步骤如图2所示：

Step1：保存源域(工况1)数据集训练好的DDQN策略网络参数。

Step2：在目标域(工况2)构建同源域相同结构和超参数的DDQN策略网络，并将保存的源域策略网络参数迁移至目标域，作为经验用于目标域策略网络的训练。

Step3：运用少量样本对目标域策略网络模型进行微调。

Step4：完成目标域DDQN能量管理决策智能体的构建。

3具有工况适应性的船舶综合能源系统能量管理实现流程

基于DDQN算法的船舶综合能源系统可迁移能量管理策略的流程图如图3所示，具体步骤如下。

Step1：分别搭建目标网络和评估网络，并初始化两个网络的权重参数w和w’。

Step2：获取船舶综合能源系统的初始状态s₁。

Step3：在每个控制时段t，智能体基于当前状态s_t(式20)和策略π_w(a|s)，输出每种动作对应的Q值，并根据ε-greed策略选择动作a_t(式22)。

Step4：环境基于当前智能体选择的动作a_t改变环境中各类型设备的状态s_t+1并获得回报r_t(式23)。

Step5：将经验(s_t,a_t,s_t+1,r_t+1)存储到经验回放池。

Step6：通过随机小批量抽取N个经验样本(s_n,a_n,r_n+1,s_n+1)，n＝1，2，…，N，利用式(32)、(33)和(34)计算损失函数，并更新网络参数w。

Step7：每隔固定时间间隔步长T，将评估网络权重复制到目标网络w’＝w，对目标网络进行更新。

Step8：该段航行周期是否终止，否则返回Step3。

Step9：判断是否达到训练终止条件，如果是，保存能量管理决策智能体网络模型的权重参数，否则返回Step2。

Step10：利用基于DDQN的能量管理决策智能体确定最佳的能量优化调度动作。

Step11：若船舶的航行周期发生改变，将能量管理决策智能体学习到的一个领域的最佳网络权重参数复制到另一个新领域作为先验知识，提高新领域决策网络训练的收敛速度。

4算例仿真与分析

4.1算例设置

本发明提出的基于DDQN算法的船舶综合能源系统可迁移能量管理策略使用的编程语言基于深度学习包“Tensorflow 1.15.0和keras”编写，语言环境为Python 3.7。使用深度强化学习工具包OpenAI Gym来实现船舶综合能源系统的模拟仿真。仿真环境的计算机配备Intel Core i7-11700 CPU,16GB RAM,英伟达GeForce GTX 3060GPU。

搭建一个四层的DDQN决策智能体网络模型，Q网络的输入是一个包含光伏模块输出功率，风力发电模块输出功率，柴油发电机输出功率，蓄电池荷电状态，储氢罐氢气量和负荷需求的五维特征向量Q网络有两个隐藏层，每一层有100个神经元。隐藏层的激活函数都是ReLU函数，输出层未应用激活函数以允许负值动作的输出，Q网络的输出是蓄电池动作对应的Q值，以及能量不足或能量过剩条件下，指定燃料电池或柴油机优先级动作对应的Q值，根据蓄电池的功率约束条件，蓄电池动作可以离散为[-1，-0.8，-0.6，-0.4，-0.2，0，0.2，0.4，0.6，0.8，1]×(1-DOD)×E_max，优先级动作可以离散为[0，1]，动作空间表示为3种可控发电设备的22种动作组合，因此，输出层是由22个线性神经元组成的全连接层。DDQN决策智能体网络模型超参数见表1。

表1 DDQN决策智能体网络模型超参数

参数	值
		学习率α	0.00025
迭代更新步数	3000
		ε-greed的初始值	0.8
ε-greed的最小值	0.001
		ε-greed每个训练步衰减大小	0.000125
经验回放池大小D	10000
		小批量数据采样大小N	128
目标网络更新间隔步长T	50
		评估Q网络优化器	RMSprop

4.2仿真试验及结果分析

为验证本发明提出的船舶综合能源系统能量管理策略的有效性，运用预处理后的航行数据，对基于DDQN算法的可迁移能量管理策略进行训练及验证，该船冬季采集到的历史航次信息如表2所示。以航线二到航线九的数据作为训练集对智能体进行训练。

表2冬季部分航次信息

/>

在航行过程中，智能体将接收到来自环境的风光发电系统输出功率，蓄电池的荷电状态，储氢罐中的氢气量，负荷需求以及动作回报。然后，DDQN能量管理决策智能体基于回报值来调整策略网络模型的参数，直到获得最小回报。为了使模型训练更加平稳的收敛，对船舶综合能源系统的环境回报作缩放处理。图4展示了基于DDQN算法经过3000次训练的船舶综合能源系统累积回报的平均值收敛曲线。

由图4可以看出，在训练初期，由于智能体对环境信息不熟悉以及每个航线的输入数据的差异性，使得训练过程中环境的回报不断振荡，且无法选择可靠地动作以获得较高的回报。然而，随着智能体与环境交互次数的增加，学习样本达到一定程度时，智能体根据Q值不断改善控制动作，最终DDQN算法的累计回报值逐渐收敛到一个稳定的目标回报值，从而获得最佳的能量管理控制策略。

基于DDQN算法的船舶综合能源系统能量管理策略经过3000次的优化迭代后，智能体可获得理想的能量管理策略，以航线2～航线9的合成连续工况数据作为输入对其进行验证，获得该航程中各供电设备的出力情况如图5所示。

从图5可以看出，利用提出的基于DDQN算法的能量管理策略能够根据各类型设备的状态信息，做出合理的能量优化调度方案，每小时的负荷需求得到了完全供应，且能够满足各供电设备的约束条件。

由于能量管理策略旨在用于未来的航程，而未来的航程不会有预先确定的数据，因此DDQN策略应用一组验证航程数据(航线一作为验证航程，该航程数据不包括在训练数据集中)，以检测智能体在未知工况的性能。图6展示了验证航程下DDQN智能体的功率分配情况。

由图6可以看出，当清洁能源模块输出功率处于低谷期时，船舶载荷主要由柴油发电机提供，清洁能源模块的输出功率充足时，电池充电、电解槽电解水生成氢气。由此可知，外部环境对清洁能源模块最大输出功率的影响会辐射到整个船舶综合能源系统，间接影响到不同时期各供电设备的运行状况，供电设备与负荷之间的良性互动保证了船舶综合能源系统的稳定运行。在第52时和78时，系统的供能大于负载需求，出现弃电现象，这是因为此时储能设备受约束条件限制无法吸收多余能量。

该航次燃料电池的功率变化以及储氢罐中氢气的含量如图7所示。蓄电池的功率变化以及荷电状态如图8所示。

图7中，F-L表示燃料电池为负载供电的输出功率，D-F表示柴油机为电解槽的供电功率，P-F表示清洁能源发电设备为电解槽供电的输出功率。图8中，B-L表示蓄电池为负载供电的输出功率，D-B表示柴油机为蓄电池充电的输出功率，P-B表示清洁能源发电设备为蓄电池充电的输出功率。

由图7可以看出，DDQN智能体能够充分利用燃料电池长期储能的特性，能够根据该航次的运行工况信息，合理规划储氢罐中氢气的释放量，提高了系统中能量的可用性。由图8可以看出，DDQN智能体频繁地调整蓄电池的功率输出，有效避免了柴油机不必要的大幅调整，从而降低柴油机设备的损耗。此外，电池的荷电状态在10％以上，在电池的安全运行范围之内，有效地防止了电池过度放电。综上，蓄电池和储氢罐的引入降低了清洁能源的不确定性，提高了系统的可靠性。

为了说明本发明提出的能量管理策略的优越性，与应用基于粒子群优化的能量管理策略的船舶综合能源系统以及柴油机单独工作的系统进行对比。表3展示了船舶能源系统运行成本和燃料成本，计算依据文献Moniruzzaman M,Hasan S.Cost analysis of PV/Wind/Diesel/Grid connected hybrid systems[C]//International conference onInformatics,Electronics&Vision,2012:727-730.；表4展示了船舶综合能源系统的污染物排放和治理成本，计算依据文献Mohamed,FA,Koivo H N.System modelling and onlineoptimal management ofmicrogrid using mesh adaptive direct search[J].International Journal of Electrical Power&Energy Systems,2010,32(5):398-407.。

表3该航程船舶综合能源系统运行成本和燃油成本

	DDQN	PSO	柴油机单独工作
				燃油成本($)	4.043×10⁴	4.226×10⁴	5.206×10⁴
总成本(S)	5.462×10⁴	5.628×10⁴	6.6715×10⁴

表4该航程船舶综合能源系统各类型污染物排放量和治理成本

由表3可知，经本发明提出的能量管理策略优化后，系统燃料成本和总运行成本均显著降低，船舶运行经济性提高。从表4可以看出，DDQN优化后的污染物排放量比PSO优化时降低了约13.49％，比柴油机单独运行时降低了约30.88％，满足船舶能效运行指数(EEOI)的环保要求。有效降低了船舶的废气排放量，符合绿色可持续发展要求。

为了验证该模型的可迁移性，将运用冬季航行数据训练好的策略网络参数转移到新航次(夏季某航次)，运用该航次数据经训练3000次获得的累积回报平均值收敛曲线如图9所示。

由图9可以看出，运用夏季采集到的航线数据样本进行迁移试验，训练初始阶段获得的Q值已较为接近目标Q值，新工况下策略网络的收敛较快，提高了智能体的响应时间。

图10展示了夏季航行过程中各供能单元的出力情况。图11展示了夏季某航次运行过程中DDQN智能体的功率分配情况。

由图10和图11可以看出，在新的运行工况中，DDQN智能体能够充分地调动各供电源，以满足该场景下船舶的电力需求，且可以在满足各类型设备运行约束的同时合理地分配给类型设备的放电功率。

5结语

本发明考虑到航行工况变化对发电设备和负载的影响，提出一种具有工况适应性的能量管理策略。由于船舶综合能源系统供给侧和需求侧的随机性，将船舶综合能源系统的优化调度建模为马尔可夫决策过程，然后在连续状态空间和离散动作空间中，采用DDQN算法对马尔可夫决策模型进行求解，并与模型参数迁移策略相结合，提高策略网络在新工况下的收敛速度。最后，运用冬季航行实验数据对DDQN算法进行训练和验证(DDQN智能体用航线2～航线9的航行数据集进行训练，随后通过航线1的数据进行验证)，并采用环境信息变化较大的夏季数据集测试策略的可迁移性。算例仿真结果表明，该策略能够根据船舶综合能源系统输出的功率以及负荷需求信息实现各分布式能量源的调度，相比于基于优化的能量管理策略，目标平均值更优，说明该策略能够很好地适应光伏、风电出力的不确定性。并且可以看出引入模型参数迁移策略后，策略网络在新工况下能够更快地实现收敛，提高了策略的响应速度和工况适应性。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的具有工况适应性的船舶综合能源系统能量管理策略，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：基于包含分布式发电单元、负荷和储能系统的船舶综合能源系统，所述分布式发电单元包括：光伏发电单元、风力发电单元、燃料电池、柴油发电机；

2.根据权利要求1所述的具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：所述新能源船舶综合能源系统以孤岛模式运行，其中以风力发电模块和光伏发电模块为主要供电单元，燃料电池和柴油机为辅助供电单元，储能模块和储氢模块作为储能单元；当风力发电以及光伏发电无法满足负载需求时，储能单元用于弥补电力短缺；当清洁能源输出功率高于负载需求时，多余的能量存入蓄电池或用于电解水产生氢气供后续使用；在缺电时段，储存能量用于满足负荷需求。

3.根据权利要求2所述的具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：

基于深度双Q网络的船舶综合能源系统可迁移能量管理策略的具体步骤如下：

步骤S2：获取船舶综合能源系统的初始状态s₁；

步骤S5：将经验(s_t,a_t,s_t+1,r_t+1)存储到经验回放池；

步骤S8：该段航行周期是否终止，否则返回步骤S3；

4.根据权利要求3所述的具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：

在步骤S3中：智能体的当前状态s_t表示为：

式中，P_t ^PV表示当前时段光伏发电系统的输出功率；P_t ^WT表示当前时段风力发电系统的输出功率；P_t ^load表示当前时段船舶的电力负载需求；P_t ^d表示当前时段柴油机的输出功率；为当前时段储氢罐中氢气量；SoC_t ^batt为当前时段蓄电池的荷电状态；

根据ε-greed策略选择动作a_t具体为；

a_t＝[P_t ^batt,ψ_t]

上式中，ψ_t等于0或1，表示燃料电池和柴油机的动作优先级，若ψ_t＝0，柴油机优先动作，即当清洁能源发电设备和蓄电池的能量不能满足负载需求时，由柴油机优先供电；若ψ_t＝1，首选设备为燃料电池，当风光发电系统和蓄电池的输出功率不能完全满足载荷需求时，优先使用燃料电池，若仍无法满足负荷需求，剩余的能量将自动由柴油机提供。

5.根据权利要求4所述的具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：

在步骤S4中：环境基于当前智能体选择的动作a_t改变环境中各类型设备的状态s_t+1并获得回报r_t具体为；

上式中，r_s ^p(t)、和/>分别表示当前时段t储能系统、蓄电池和储氢罐的越限惩罚；/>表示为当前时段t燃料电池消耗的氢气量；P_batt(t)表示当前时段t蓄电池的输出功率；/>和C_batt分别表示储氢罐和蓄电池的越限惩罚系数。

6.根据权利要求5所述的具有工况适应性的船舶综合能源系统能量管理策略，其特征在于：

步骤S6中，计算损失函数考虑以下约束条件：

P_avail(t)+P_d(t)+P_batt(t)+P_Fc(t)＝P_load(t)

柴油发电机实时能量输出相关约束由下式描述：

-D_dΔt≤P_d(t+Δt)-P_d(t)≤D_uΔt

对蓄电池的荷电状态进行约束，由下式描述：