CN114301095B

CN114301095B - 一种基于多能源分布式无线岸电系统的ppo2能量管理方法

Info

Publication number: CN114301095B
Application number: CN202111667111.4A
Authority: CN
Inventors: 袁裕鹏; 王小宇; 陈明爽; 胡东亮
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-11-17
Anticipated expiration: 2041-12-31
Also published as: CN114301095A

Abstract

本发明公开了一种基于多能源分布式无线岸电系统的PPO2能量管理方法。本发明包括多能源分布式无线岸电系统和能量管理方法。本发明方法能够限制神经网络当中新策略更新幅度，提升整个系统策略更新和收敛速度。在供需功率平衡的条件下，保证用电经济性、新能源的优先利用和电池系统的安全输出，实现三个能源供给端优化协同供电。方法包括：基于靠港供电设备的运行状态，获取数据参数；设置PPO2算法模型的系统状态变量、系统动作变量和奖励函数；构建基于PPO2的算法的深度神经网络模型；根据奖励函数，设计整个系统的工作模式；输入数据集训练PPO2算法模型，保存训练完成后的PPO2算法能量管理模型；将训练后的PPO2算法能量管理模型应用到发明系统中进行能量管理。

Description

一种基于多能源分布式无线岸电系统的PPO2能量管理方法

技术领域

本发明属于岸电能量管理技术领域，具体涉及一种基于多能源分布式无线岸电系统的PPO2能量管理方法。

背景技术

海洋运输在全球经济的发展中扮演着十分重要的角色，全球约有90％的贸易活动通过船舶来完成。其在产生巨大经济效益的同时，也带来了较为严重的港口周边及海洋环境污染。

目前，在船舶在港口停泊时的所需的电能可分为生活用电和工作用电两类，船舶靠港所需的电能若主要启用停泊柴油发电机为船舶提供，会严重影响港区的环境。因此目前船舶停泊期间国家提倡使用岸电供电方式。但是传统的岸电多采用电气直接连接的方式，存在安全性低、工作量大、电缆等物资消耗量大等明显问题。

本发明所提出的多能源分布式无线岸电系统是一种创新型的岸电系统类型，实现了太阳能光伏电池组对于岸电单一市电的有效替换，使整个系统更加适应于恶劣的港口用电环境，提高了船舶岸电系统的输电效率和安全系数，为港口节能减排的工作提供有效的技术方案。

进一步的，目前对于能量的管理方法分为三大类:分别是基于规则、基于优化和基于学习的能量管理方法。

基于规则的控制方法逻辑简单，但受到人类专业知识等方面的限制，难以达到最优的经济效率；基于优化的控制方法需要提前得到部分实际信息，在实时性的表现上不佳。部分基于传统学习的能量管理方法极易出现维度灾难等实际应用问题，本发明中所应用的基于PPO2算法的能量管理方法可以兼顾能量管理系统的实时性和控制效果的优化性。

PPO2算法最突出的优点就是可以实现对所收集到的采样数据重复利用，限制神经网络当中新的策略更新的幅度，实现小批量的多训练次数对目标函数的更新，并且本算法可以在一阶的优化条件下以更加简单易实现的方式达到与Trust Region PolicyOptimization(TRPO)相同的可靠性与多方面的性能。有效的降低训练结果的方差，并且在一定程度上提升算法参数更新的速度。

目前，几乎没有基于深度强化学习方法对港口岸电系统进行能量管理的相关研究，也没有基于深度强化学习的PPO2算法的方法相关的研究。因此以本发明所提出的多能源分布式无线岸电系统为基体的能量管理具有新颖性和创新型。

发明内容：

本发明公开了一种基于多能源分布式无线岸电系统的PPO2能量管理方法。

所述多能源分布式无线岸电系统，其特征在于，包括：

太阳能光伏电池组、蓄电池组、市电电源接口、光伏直流变换模块、电池直流变换模块、整流模块、能量管理系统、逆变模块、无线输电系统、船舶用电接收端、船端无线信号传输模块、光伏直流电压传感器、光伏直流电流传感器、电池直流电压传感器、电池直流电流传感器、市电交流电流传感器、市电交流电流传感器、光伏直流变换电压传感器、光伏直流变换电流传感器、电池直流变换电压传感器、电池直流变换电流传感器、整流电压传感器、整流电流传感器、逆变电压传感器、逆变电流传感器、无线传输线圈距离传感器；

所述太阳能光伏电池组与所述光伏直流变换模块连接；所述蓄电池组与所述电池直流变换模块连接；所述市电电源接口与所述整流模块连接；所述整流模块与所述逆变模块连接；所述逆变模块与所述无线输电系统连接；所述无线输电系统与所述船舶用电接收端通过无线输电方式连接；

所述光伏直流变换模块与所述的光伏直流变换电压传感器、光伏直流变换电流传感器依次连接；所述电池直流变换模块与所述的电池直流变换电压传感器、电池直流变换电流传感器依次连接；所述整流模块与所述的整流电压传感器、整流电流传感器依次连接；所述逆变模块与所述的逆变电压传感器、逆变电流传感器相连；所述无线输电系统与无线传输线圈距离传感器连接；

所述太阳能光伏电池组与所述的光伏直流电压传感器、光伏直流电流传感器依次连接；所述蓄电池组与所述的电池直流电压传感器、电池直流电流传感器依次连接；所述市电电源接口与所述的市电交流电流传感器、市电交流电流传感器依次连接；

所述船端无线信号传输模块与船舶用电系统相连，并将船舶用电系统中船舶需求交流电压信号与船舶用电系统中船舶需求交流电流信号无线传输至所述能量管理系统；

所述能量管理系统分别与所述的光伏直流电压传感器、光伏直流电流传感器、电池直流电压传感器、电池直流电流传感器、市电交流电流传感器、市电交流电流传感器、光伏直流变换电压传感器、光伏直流变换电流传感器、电池直流变换电压传感器、电池直流变换电流传感器、整流电压传感器、整流电流传感器、逆变电压传感器、逆变电流传感器、无线传输线圈距离传感器、船端无线信号传输模块依次建立连接；

所述太阳能光伏电池组用于生成光伏直流电源，将光伏直流电源传输至所述光伏直流变换模块；所述光伏直流变换模块根据所述能量管理系统控制将光伏直流电源转换为电压变换后光伏直流电源，将电压变换后光伏直流电源传输至所述逆变模块；

所述蓄电池组用于生成电池直流电源，将蓄电池组直流电源传输至所述电池直流变换模块；所述电池直流变换模块根据所述能量管理系统控制将电池直流电源转换为电压变换后电池直流电源，将电压变换后电池直流电源传输至所述逆变模块；

所述市电电源接口用于接入市电交流电源，将市电交流电源传输至所述整流模块；所述整流模块根据所述能量管理系统控制将市电交流电源转换为市电直流电源，将市电直流电源传输至所述逆变模块；

所述逆变模块分别将电压变换后光伏直流电源、电压变换后电池直流电源、市电直流电源分别根据能量管理系统逆变控制得到船舶交流电源，将船舶交流电源传输至所述无线输电系统；

所述无线输电系统将船舶交流电源通过无线输电方式传输至所述船舶用电接收端；

所述光伏直流电压传感器用于实时采集光伏直流电压，并传输至所述能量管理系统；

所述光伏直流电流传感器用于实时采集光伏直流电流，并传输至所述能量管理系统；

所述光伏直流变换电压传感器用于实时采集电压变换后光伏直流电压，并传输至所述能量管理系统；

所述光伏直流变换电流传感器用于实时采集电压变换后光伏直流电流，并传输至所述能量管理系统；

所述电池直流电压传感器用于实时采集电池直流电压，并传输至所述能量管理系统；

所述电池直流电流传感器用于实时采集电池直流电流，并传输至所述能量管理系统；

所述电池直流变换电压传感器用于实时采集电压变换后电池直流电压，并传输至所述能量管理系统；

所述电池直流变换电流传感器用于实时采集电压变换后电池直电流，并传输至所述能量管理系统；

所述市电交流电流传感器用于实时采集市电交流电流，并传输至所述能量管理系统；

所述市电交流电流传感器用于实时采集市电交流电压，并传输至所述能量管理系统；

所述整流电压传感器用于实时采集市电直流电压，并传输至所述能量管理系统；

所述整流电流传感器用于实时采集市电交流电流，并传输至所述能量管理系统；

所述逆变电压传感器用于实时采集逆变后的交流电压，并传输至所述能量管理系统；

所述逆变电流传感器用于实时采集逆变后的交流电流，并传输至所述能量管理系统；

所述无线传输线圈距离传感器用于实时采集无线传输线圈距离，并传输至所述能量管理系统；

所述能量管理系统通过所述基于改进深度强化学习PPO2算法控制，负责在船舶用电功率和岸电供电功率匹配的前提下，调节太阳能光伏电池组、蓄电池组和市电电源输出功率的合理分配，实现整个分布式岸电系统高效运行。

所述PPO2能量管理方法包括以下步骤：

步骤1：根据光伏直流电压信号和光伏直流电流信号计算实时太阳能光伏电池组的输出功率，根据船舶需求端交流电压信号和船舶需求端交流电流信号计算实时船舶的需求功率，根据初始电池容量、标称电池容量和电池直流电流信号计算蓄电池组荷电状态SOC；

步骤2：根据实时太阳能光伏电池组的输出功率、实时船舶的需求功率、实时蓄电池组荷电状态SOC构建系统状态变量；根据实时太阳能光伏电池组的输出功率、实时太阳能光伏电池组的输出功率构建系统动作变量；根据t时刻动作变量所对应的市电的经济运营成本、蓄电池组SOC状态以及太阳能光伏电池组、蓄电池组、市电电源接口输出功率构建奖励函数；

步骤3：引入前馈神经网络，所述前馈神经网络由Actor网络和Critic网络级联构成，所述能量管理系统将船舶停靠期间需求功率数据集样本输入至前馈神经网络进行训练，结合船舶停靠期间系统状态变量以及系统动作变量数据集构建Actor网络损失函数，结合船舶停靠期间系统状态变量样本与奖励函数值构建Critic网络损失函数，通过改进的PPO2算法优化训练Actor网络损失函数，通过改进的PPO2算法优化训练Critic网络损失函数；

步骤4：根据奖励函数，设计整个系统的工作模式划分为岸电启动阶段、用电阶段和停止向靠港船舶供电阶段三部分，将划分的三种工作模式作为专家意见插入到算法模型中指导全局动作变量搜索，对整个无线岸电系统供电全过程进行不同的工作模式划分，帮助神经网络减小动作搜索空间，加快算法收敛速度，同时可以更好的完善整个岸电系统的电力储存功能。

步骤5：所述能量管理系统将已存在的现有船舶停靠期间历史需求功率作为数据集样本输入至前馈神经网络进行训练，通过参数及策略的不断迭代训练，至算法稳定收敛状态，得到优化后的Actor神经网络和优化后的Critic神经网络，保存全局的训练数据生成训练完毕的PPO2算法能量管理模型。

步骤6：将训练完成后的PPO2算法能量管理模型应用到多能源分布式无线岸电系统中开展能量管理工作。

作为优选，步骤1所述的计算第t时刻太阳能光伏电池组的输出功率为：

P_solar,t＝U_solar,t·I_solar,t

步骤1所述的计算第t时刻船舶的需求功率为：

P_req,t＝U_req,t·I_req,t

其中，U_solar,t为第t时刻采集的光伏直流电压信号，I_solar,t第t时刻采集的光伏直流电流信号，U_req,t第t时刻采集的船舶需求端交流电压信号，I_reqt第t时刻采集的船舶需求端交流电流信号。

步骤1所述的第t时刻蓄电池组荷电状态SOC为：

其中，Q₀为初始电池容量，Q为标称电池容量，I_t为i＝t时刻采集的到的电池直流电流信号。

作为优选，步骤2所述系统状态变量的定义为：

s_t＝{SOC_t，P_solar,t，P_req,t}^T

其中，SOC_t为第t时刻蓄电池组荷电状态SOC，P_solar,t为第t时刻太阳能光伏电池组的输出功率，P_req,t为第t时刻船舶的需求功率。

步骤2所述动作变量的定义为a＝{P_bat,t，P_solar,t}^T；

对应的市电电源接口输出功率通过以下公式求解：

P_com,t＝P_req,t―P_bat,t―P_solar,t

其中，P_bat,t为第t时刻蓄电池组的输出功率，P_solar,t为第t时刻太阳能光伏电池组的输出功率,P_com,t为第t时刻市电电源接口的输出功率.

其中，第t时刻蓄电池组的输出功率P_{bat_t}计算公式为:

P_bat,t＝U_bat,t·I_bat,t

U_bat,t为第t时刻采集的电池直流电压信号，I_bat,t第t时刻采集的电池直流电流信号

根据t时刻动作变量所对应的市电的经济运营成本、蓄电池组SOC状态以及太阳能光伏电池组、蓄电池组、市电电源接口输出功率构建奖励函数，所述智能体的奖励函数的公式如下所示：

r＝{―a·cost_t+b·(soc_exp―soc_t)+c·penalty_t―d·|P_solar,t―P_{solar_opt}|²)}

其中，a为奖励函数设置的市电的经济运营成本超参数，b为奖励函数设置的蓄电池组的SOC超参数，c为放电功率越界惩罚超参数，d为太阳能光伏电池组的最佳输出功率超参数，起到平衡cost、SOC、Penalty与|P_solar,t―P_{solar_opt}|标准的作用，cost_t为t时刻整个岸电系统使用市电的经济运营成本，根据当地电价进行计算，soc_exp为对于蓄电池组期望的SOC的参考值，soc_t为t时刻蓄电池组的SOC值，penalty_t为t时刻太阳能光伏电池组模块放电功率相对应的越界惩罚，P_{solar_opt}为太阳能光伏电池组的最佳输出功率，P_{solar_t}为t时刻太阳能光伏电池组的输出功率；

采集的t时刻的无线输电线圈的传输距离D_t，用以计算t时刻需求功率P_req，t所对应的无线供电线圈的输入功率P_out，t，其转换关系为：

P_out，t＝P_req,t·η

其中，η为第t时刻传输距离D_t所对应的无线供电线圈传输效率，P_req,t为第t时刻船舶的需求功率。

作为优选，步骤3所述船舶停靠期间需求功率数据集样本为收集的大量船舶多次停靠期间需求功率数据。

步骤3所述Actor网络损失函数为：

其中，为需要优化的算法中的目标函数，/>表示基于θ^K的优势函数；/>表示t时刻两个策略的概率比值；clip为裁剪损失函数，ε为裁剪损失函数的参数，θ和θ^K为构建Actor策略网络时所需要的策略参数，其中θ^K为Actor网络更新过程中的参考参数，是在上一次计算中得到的，θ是与环境实时交互并且更新，每次达到采样的数据样本数量Batch_size后，将参数θ的值赋值给参数θ^K进行继续的往复更新。

步骤3所述的Critic网络损失函数为：

其中，γ为奖励折扣率，r_t′为t′时刻的奖励值，为状态s_t下的状态价值函数。

步骤3所述Actor网络改进的PPO2算法的“ASMGrad”优化方法为：

其中，θ为构建Actor策略网络时所需要的策略参数，，m_{t_A}和v_{t_A}为Critic策略网络参数更新中所需要的参数，是v_{t_A}的估计量，J_PPO2为需要优化Actor网络的目标函数，，α_A为神经网络学习率。

步骤3所述Critic网络改进的PPO2算法的ASMGrad优化方法为：

其中，为构建Critic策略网络时所需要的策略参数v_{t_C}，m_{t_C}为Critic策略网络参数更新中所需要的参数，/>是v_{t_C}的估计量，/>为需要优化Critic网络的损失函数，

作为优选，步骤4中所述的岸电启动阶段为设定的船舶从接受无线岸电系统供电开始的k分钟；用电阶段为船舶从接受无线岸电系统供电开始的k分钟后到无线输电线圈的传输距离大于传输最大距离期间的供电阶段；停止向靠港船舶供电阶段为无线输电线圈的传输距离大于传输最大距离期间后的阶段。其中，不同阶段太阳能光伏电池组、蓄电池组以及市电电源接口的供电限制不同。

作为优选，步骤6具体的实现步骤如下：

步骤6.1：通过岸电系统的上述传感器件获取算法所需的输入数据，进行上述步骤1所述计算处理之后，可以得到整个能源系统在t时刻的状态量集合s_t：

s_t＝{soc_t，P_solat,t，P_req,t}^T

步骤6.1步：将获取到的状态量的集合s_t＝{soc_t，P_solar,t，P_req,t}^T输入到训练完成的基于DRL的PPO2算法模型中，能量管理系统与环境做交互得到对应的系统输出动作a(蓄电池组输出功率及太阳能光伏电池组输出功率)与状态s_。

步骤6.3：将所得到的系统输出动作a和状态s_输入到训练完成的基于DRL的PPO2算法模型中，得到t+1时刻的状态量集合。

S_t+1＝{soc_t+1，P_solar,t+1，P_req,t+1}^T

步骤6.4：循环进行步骤6.1至步骤6.3，直至整个多能源分布式无线岸电系统的能量管理系统完成对于靠港作业船舶的按需供电协调分配任务。

本发明提出对基于PPO2算法的多能源分布式无线岸电系统的集成设计，促进无线电能传输技术在港口的应用，对于港口生态的节能减排，绿色化发展有着重要的借鉴意义；同时提出了基于改进深度强化学的多能源分布式无线岸电能量管理方法，可兼顾整个系统能量管理方法的最优性和实时性，在一定程度上提高整个能量管理系统的工作效率以及经济性。在处理本发明系统中出现的连续性动作问题时，可以平滑整个系统出现的功率波动，维持太阳能光伏电池组和蓄电池组在高效安全的功率输出区间。提高多能源分布式无线岸电系统在各种多变的工况下的工况适应性和表现性，提高港口新能源利用效率，减少岸电系统对于单一市电消耗的发明目的。

附图说明

图1：为本发明系统结构示意图；

图2：为本发明一个实施例的能量管理方法结构示意图；

图3：为本发明整体方法流程图。

具体实施方式

下面结合图1至图3介绍本发明的具体实施方式一种基于多能源分布式无线岸电系统的改进深度强化学习能量管理方法。

所述多能源分布式无线岸电系统，见图1，其特征在于，包括：

所述能量管理系统分别与所述的光伏直流电压传感器、光伏直流电流传感器、电池直流电压传感器、电池直流电流传感器、市电交流电流传感器、市电交流电流传感器、光伏直流变换电压传感器、光伏直流变换电流传感器、电池直流变换电压传感器、电池直流变换电流传感器、整流电压传感器、整流电流传感器、逆变电压传感器、逆变电流传感器、无线传输线圈距离传感器、船端无线信号传输模块依次建立连接。

所述整流电流传感器用于实时采集市电直流电流，并传输至所述能量管理系统；

所述能量管理系统包括基于深度神经网络的能量管理系统(EMS)控制器，通过所述基于改进深度强化学习PPO2算法控制，负责在船舶用电功率和岸电供电功率匹配的前提下，调节太阳能光伏电池组、蓄电池组和市电电源输出功率的合理分配，实现整个分布式岸电系统高效运行。

所述改进深度强化学习能量管理方法包括以下步骤，如图3所示：

步骤1所述的计算第t时刻太阳能光伏电池组的输出功率为：

P_solar,t＝U_solar,t·I_solar,t

步骤1所述的计算第t时刻船舶的需求功率为：

P_req,t＝U_req,t·I_req,t

其中，U_solar,t为第t时刻采集的光伏直流电压信号单位是V，I_solar,t第t时刻采集的光伏直流电流信号，单位是A，U_req,t第t时刻采集的船舶需求端交流电压信号，单位是V，I_reqt第t时刻采集的船舶需求端交流电流信号，单位是A。

步骤1所述的第t时刻蓄电池组荷电状态SOC为：

其中，Q₀为初始电池容量，Q为标称电池容量，I_t为i＝t时刻到的电池直流电流信号。

步骤2所述系统状态变量的定义为：

s_t＝{SOC_t，P_solar,t，P_req,t}^T

其中，SOC_t为第t时刻蓄电池组荷电状态SOC，P_solar,t为第t时刻太阳能光伏电池组的输出功率，单位是KW，P_req,t为第t时刻船舶的需求功率，单位是KW。

步骤2所述动作变量的定义为a＝{P_bat,t，P_solar,t}^T；

对应的市电电源接口输出功率通过以下公式求解：

P_com,t＝P_req,t―P_bat,t―P_solar,t

其中，P_bat,t为第t时刻蓄电池组的输出功率，P_solar,t为第t时刻太阳能光伏电池组的输出功率,P_com,t为第t时刻市电电源接口的输出功率，单位均是KW。

其中，第t时刻蓄电池组的输出功率P_{bat_t}计算公式为:

P_bat,t＝U_bat,t·I_bat,t

U_bat,t为第t时刻采集的电池直流电压信号，单位是V，I_bat,t第t时刻采集的电池直流电流信号，单位是A；

其中，a为奖励函数设置的市电的经济运营成本超参数，b为奖励函数设置的蓄电池组的SOC超参数，c为放电功率越界惩罚超参数，d为太阳能光伏电池组的最佳输出功率超参数，起到平衡cost、SOC、Penalty与|P_solar,t―P_{solar_opt}|标准的作用，cost_t为t时刻整个岸电系统使用市电的经济运营成本，根据当地电价进行计算，soc_exp为对于蓄电池组期望的SOC的参考值，soc_t为t时刻蓄电池组的SOC值，penalty_t为t时刻太阳能光伏电池组放电功率相对应的越界惩罚，P_{solar_opt}为太阳能光伏电池组的最佳输出功率，P_{solar_t}为t时刻太阳能光伏电池组的输出功率。对a、b、c、d四个参数进行参数调节，最终使d的权重效果最大，依次为d、b、a、c，其中c的权重效果最小。

采集t时刻的无线输电线圈的传输距离D_t，用以计算t时刻需求功率P_req，t所对应的无线供电线圈的输入功率P_out，t，其转换关系为：

P_out，t＝P_req,t·η

其中，η为第t时刻传输距离D_t所对应的无线供电线圈传输效率，P_req,t为第t时刻船舶的需求功率，单位是KW。

其中对于整个系统的动作状态设立的范围，为了更加平滑以及更加高效的实现整个系统的能量管理方法的输出，本发明中智能体在与环境做交互后探索输出的为连续状态下的动作变量。进一步的，为了保证蓄电池组的正常放电以及健康使用，要对其SOC的适用范围作进一步的规范限制。其中蓄电池组的SOC要维持[0.4,0.9]内，以保证电池具有较小利于电池健康的内阻，始终维持在较高的放电状态中。

为了确保整个岸电系统的安全稳定的工作，各个分布式的能源系统输出功率P还需要满足以下的限制条件：

P_min≤P≤P_max

其中min和max分别代表各个功率变量的上限和下限。

设置算法的结构参数包括训练轮次episodes、权重因子、神经网络中的经验池容量N和每一批处理的样本数量batch_size等，episodes设置值为500，神经网络中的经验池容量N设置为10000，Batch_size设置值为64。

进一步的本发明所使用的神经网络激活函数为Leaky ReLu函数，与近期应用十分广泛的ReLu激活函数相比，Leaky ReLu可以改善当x小于0时所造成的“ReLu死亡”问题，同时可以增加函数的非线性表达。其中对于激活函数的参数设定a为0.25。进一步的LeakyReLu函数的表达式如下：

其中对于激活函数参数设定a为0.25。

步骤3所述船舶停靠期间需求功率数据集样本为收集的大量船舶多次停靠期间需求功率数据。

步骤3所述Actor网络损失函数为：

其中，为需要优化的算法中的目标函数，/>表示基于θ^K的优势函数；

表示t时刻两个策略的概率比值；clip为裁剪损失函数，ε为裁剪损失函数的参数，数值为0.2，θ和θ^K为构建Actor策略网络时所需要的策略参数，其中θ^K为Actor网络更新过程中的参考参数，是在上一次计算中得到的，θ是与环境实时交互并且更新。

将发明中的超参数ε设为0.2，可以控制的值在[0.8,1.2]之间，即当目标函数值小于1―ε或者大于1+ε时对其进行截断处理。防止智能体一味的追求得到大概率的P_θ(s_t|a_t)而造成两模型的差距过大，减小总体的收益，以达到算法在运行的过程中更加的容易收敛的目的。

具体的Actor神经网络可分为两个网络，分别为Actor_new网络和Actor_old网络，具体的，当到达设定一个循环内的步数后，将记忆池中的储存的的s状态值输入到Actor_new网络和Actor_old网络中，得到对应的正态分布中，再将所有随机采样的Actions输入到正态分布当中得到对应的概率P，进一步的应用Actor的客观函数，进行计算，反向传播更新Actor_new网络的参数值θ。将更新的Actor_new参数θ复制到Actor_old网络参数θ^K，重复以上的步骤，将得到的状态集合的数据输入到Actor_new和Actor_old两个网络当中，运用公式来计算，然后求得对应的最佳的θ值。当经验池中的样本数量达到设定的数量上限之后，会对经验池中的样本进行清除，并且重新储存新一批样本。

步骤3所述的Critic网络优势函数：

其中δ_t＝r_t+γV(S_t+1)―V(S_t)

其中γ为奖励折扣率，r_t′为t′时刻的奖励值，为状态s_t下的状态价值函数。

步骤3所述的Critic网络损失函数为：

步骤3所述Actor网络改进的PPO2算法的“ASMGrad”优化方法为：

其中，θ为构建Actor策略网络时所需要的策略参数，，m_{t_A}和v_{t_A}为Critic策略网络参数更新中所需要的参数，初始值设为0，是v_{t_A}的估计量，J_PPO2为需要优化Actor网络的目标函数，α_A为Actor神经网络学习率，初始值为0.01。

β₁＝0.9，β₂＝0.999，∈＝10^―7。

步骤3所述Critic网络改进的PPO2算法的ASMGrad优化方法为：

其中，为构建Critic策略网络时所需要的策略参数。/>为Critic策略网络参数更新中所需要的参数，初始值设为0，/>是v_{t_C}的估计量，α_C为Critic神经网络学习率，初始值为0.01，/>为需要优化Critic网络的损失函数，

β₁＝0.9，β₂＝0.999，∈＝10^―7。

步骤4：根据奖励函数，设计整个系统的工作模式划分为岸电启动阶段、用电阶段和停止向靠港船舶供电阶段三部分，将划分的三种工作模式作为专家意见插入到算法模型中指导全局动作变量搜索，对整个无线岸电系统供电的全过程进行不同的工作模式划分，帮助神经网络减小动作搜索空间，加快算法收敛速度，同时可以更好的完善整个岸电系统的电力储存功能。

步骤4中所述的岸电启动阶段为设定的船舶从接受无线岸电系统供电开始的k分钟，当靠港船舶开始接收岸电系统所提供的电能时，原则上优选的由太阳能光伏电池组和蓄电池组提供电能，若所需供电的船舶由于吨位多大或者特种作业而导致的开始供电期间用电功率过高等情况，进一步决定是否需要市电参与供电；用电阶段为船舶从接受无线岸电系统供电开始的k分钟后到无线输电线圈的传输距离大于传输最大距离期间的供电阶段，所述的用电阶段，蓄电池组，太阳能光伏电池组与市电电源接口协同供给电能。优选的由太阳能光伏电池组单独提供电能，保持本系统无线供电模块的电压电流在需求设定值范围内。此时若太阳能光伏电池组功率有盈余，则除了向船舶端负载提供功率外，剩余的能量对能源模块中的蓄电池组供电；停止向靠港船舶供电阶段为无线输电线圈的传输距离大于传输最大距离期间后的阶段，当靠港供电船舶断开岸电时，若市电在刚刚结束的供电工作中参与其中，由市电先断开连接，太阳能光伏电池组在停止向船舶供电后，转向对蓄电池组充电。

步骤6具体的实现步骤如下：

s_t＝{soc_t，P_solar,t，P_req,t}^T

S_t+1＝{soc_t+1，P_solar,t+1，P_req,t+1}^T

以上所述，仅为本发明专利的具体实施方式，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明专利的保护范围之内。因此，本发明专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于多能源分布式无线岸电系统的PPO2能量管理方法，其特征在于，

所述多能源分布式无线岸电系统包括：

能量管理系统通过基于改进深度强化学习PPO2算法控制，负责在船舶用电功率和岸电供电功率匹配的前提下，调节太阳能光伏电池组、蓄电池组和市电电源输出功率的合理分配，实现整个分布式岸电系统高效运行；

所述PPO2能量管理方法包括以下步骤：

步骤4：根据奖励函数，设计整个系统的工作模式划分为岸电启动阶段、用电阶段和停止向靠港船舶供电阶段三部分，将划分的三种工作模式作为专家意见插入到算法模型中指导全局动作变量搜索，对整个无线岸电系统供电全过程进行不同的工作模式划分，帮助神经网络减小动作搜索空间，加快算法收敛速度，同时更好的完善整个岸电系统的电力储存功能；

步骤5：所述能量管理系统将已存在的现有船舶停靠期间历史需求功率作为数据集样本输入至前馈神经网络进行训练，通过参数及策略的不断迭代训练，至算法稳定收敛状态，得到优化后的Actor神经网络和优化后的Critic神经网络，保存全局的训练数据生成训练完毕的PPO2算法能量管理模型；

2.根据权利要求1所述的基于多能源分布式无线岸电系统的PPO2能量管理方法，其特征在于，

步骤1所述计算实时太阳能光伏电池组的输出功率为：

P_solar，t＝U_solar，t·I_solar，t

步骤1所述的计算实时船舶的需求功率为：

P_req，t＝U_req，t·I_req，t

其中，U_solar，t为第t时刻采集的光伏直流电压信号，I_solar，t为第t时刻采集的光伏直流电流信号，U_req，t第t时刻采集的船舶需求端交流电压信号，I_reqt第t时刻采集的船舶需求端交流电流信号；

步骤1所述计算蓄电池组荷电状态SOC为：

3.根据权利要求1所述的基于多能源分布式无线岸电系统的PPO2能量管理方法，其特征在于，

步骤2所述系统状态变量的定义为：

s_t＝{SOC_t，P_solar，t，P_req，t}^T

其中，SOC_t为第t时刻蓄电池组荷电状态SOC，P_solar，t为第t时刻太阳能光伏电池组的输出功率，P_req，t为第t时刻船舶的需求功率；

步骤2所述动作变量的定义为a＝{P_bat,t，P_solar，t}^T；

对应的市电电源接口输出功率通过以下公式求解：

P_com，t＝P_req，t-P_bat，t-P_solar，t

其中，P_bat，t为第t时刻蓄电池组的输出功率，P_solar，t为第t时刻太阳能光伏电池组的输出功率，P_com，t为第t时刻市电电源接口的输出功率.

其中，第t时刻蓄电池组的输出功率P_{bat_t}计算公式为：

P_bat，t＝U_bat，t·I_bat，t

U_bat，t为第t时刻采集的电池直流电压信号，I_bat，t第t时刻采集的电池直流电流信号

根据t时刻动作变量所对应的市电的经济运营成本、蓄电池组SOC状态以及太阳能光伏电池组、蓄电池组、市电电源接口输出功率构建奖励函数，所述奖励函数的公式如下所示：

r＝{-a·cost_t+b·(soc_exp-soc_t)+c·penalty_t-d·|P_solar，t-P_{solar_opt}|²)}

其中，a为奖励函数设置的市电的经济运营成本超参数，b为奖励函数设置的蓄电池组的SOC超参数，c为放电功率越界惩罚超参数，d为太阳能光伏电池组的最佳输出功率超参数，起到平衡cost、SOC、Penalty与|P_solar，t-P_{solar_opt}|标准的作用，cost_t为t时刻整个岸电系统使用市电的经济运营成本，根据当地电价进行计算，soc_exp为对于蓄电池组期望的SOC的参考值，soc_t为t时刻蓄电池组的SOC值，penalty_t为t时刻太阳能光伏电池组模块放电功率相对应的越界惩罚，P_{solar_opt}为太阳能光伏电池组的最佳输出功率，P_{solar_t}为t时刻太阳能光伏电池组的输出功率；

采集t时刻的无线输电线圈的传输距离Dt，用以计算t时刻需求功率P_req，t所对应的无线供电线圈的输入功率P_out，t，其转换关系为：

P_out，t＝P_req，t·η

其中，η为第t时刻传输距离D_t所对应的无线供电线圈传输效率，P_req，t为第t时刻船舶的需求功率。

4.根据权利要求1所述的基于多能源分布式无线岸电系统的PPO2能量管理方法，其特征在于，步骤3所述船舶停靠期间需求功率数据集样本为收集的大量船舶多次停靠期间需求功率数据；

步骤3所述Actor网络损失函数为：

其中，为需要优化的算法中的目标函数，/>表示基于θ^K的优势函数；/>表示t时刻两个策略的概率比值；clip为裁剪损失函数，ε为裁剪损失函数的参数，θ和θ^K为构建Actor策略网络时所需要的策略参数，其中θ^K为Actor网络更新过程中的参考参数，是在上一次计算中得到的，θ是与环境实时交互并且更新，每次达到采样的数据样本数量Batch_size后，将参数θ的值赋值给参数θ^K进行继续的往复更新；

步骤3所述的Critic网络损失函数为：

其中，γ为奖励折扣率，r_t，为t′时刻的奖励值，为状态s_t下的状态价值函数；

步骤3所述Actor网络改进的PPO2算法的“ASMGrad”优化方法为：

其中，θ为构建Actor策略网络时所需要的策略参数，m_{t_A}和v_{t_A}为Critic策略网络参数更新中所需要的参数，是v_{t_A}的估计量，J_PPO2为需要优化Actor网络的目标函数，α_A为神经网络学习率；

步骤3所述Critic网络改进的PPO2算法的ASMGrad优化方法为：

其中，为构建Critic策略网络时所需要的策略参数v_{t_C}，m_{t_C}为Critic策略网络参数更新中所需要的参数，/>是v_{t_C}的估计量，/>为需要优化Critic网络的损失函数。

5.根据权利要求1所述的基于多能源分布式无线岸电系统的PPO2能量管理方法，其特征在于，

步骤4中所述的岸电启动阶段为设定的船舶从接受无线岸电系统供电开始的k分钟；用电阶段为船舶从接受无线岸电系统供电开始的k分钟后到无线输电线圈的传输距离大于传输最大距离期间的供电阶段；停止向靠港船舶供电阶段为无线输电线圈的传输距离大于传输最大距离期间后的阶段；其中，不同阶段太阳能光伏电池组、蓄电池组以及市电电源接口的供电限制不同。

6.根据权利要求1所述的基于多能源分布式无线岸电系统的PPO2能量管理方法，其特征在于，步骤6具体的实现步骤如下：

步骤6.1：通过岸电系统的传感器件获取算法所需的输入数据，进行上述步骤1所述计算处理之后，得到整个能源系统在t时刻的状态量集合s_t：

s_t＝{soc_t，P_solar，t，P_req，t}^T

步骤6.2：将获取到的状态量的集合s_t＝{soc_t，P_solar，t，P_req，t}^T输入到训练完成的基于DRL的PPO2算法模型中，能量管理系统与环境做交互得到对应的系统输出动作a(蓄电池组输出功率及太阳能光伏电池组输出功率)与状态s_；

步骤6.3：将所得到的系统输出动作a和状态s_输入到训练完成的基于DRL的PPO2算法模型中，得到t+1时刻的状态量集合；

S_t+1＝{soc_t+1，P_solar，t+1，P_req，t+1}^T