CN115864526A

CN115864526A - 电力调度方法、电子设备、车载微电网、存储介质

Info

Publication number: CN115864526A
Application number: CN202211464114.2A
Authority: CN
Inventors: 梁淑芬; 林妍; 曾以宽; 张悦; 卢苇; 余朝伟
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-28

Abstract

本申请提供了一种电力调度方法、车载微电网、电子设备、存储介质，方法包括：通过第一时间周期内的副微电网的第一发电量、主微电网的第一耗电量和副微电网的第二耗电量确定第一时间周期内的各个单位时长的电池充放电边界阈值；通过主微电网的实时电量、副微电网的实时电量、外部电网实时电价和所有电池充放电边界阈值训练策略网络；将主微电网的实时电量、副微电网的实时电量、外部电网实时电价和电池充放电边界阈值输入预训练的策略网络，输出电力调度策略。通过微电网自身发电量和耗电量确定每个单位时长的充放电阈值，通过预设策略模型根据该判断每个时刻的充放电动作，输出电力调度策略。由此提高电动车电量使用效率，降低行驶成本。

Description

电力调度方法、电子设备、车载微电网、存储介质

技术领域

本申请涉及电力调度领域，特别涉及一种电力调度方法、电子设备、车载微电网和计算机可读存储介质。

背景技术

近年来，光伏电动车越来越广泛地进入到市场中，光伏电动车因其装配有太阳能电池板，能够利用太阳能发电为其装载的电池充电。在合适的行驶环境下，光伏电动车能够做到“自给自足”地行驶。但是，光伏发电不稳定，容易受到外界温度、光照条件和用电负载等因素的影响，所以在大多数情况下，太阳能主要作为是辅助供能的角色。

因缺少灵活的能源管理策略，光伏电动车往往不能最大化光伏电能的利用率。一方面，光伏电动车在白天处于停放状态时，可以利用太阳能为电动车充电，但当电动车电池满载时，该时段太阳能发电产生的电量就浪费了；另一方面，光伏电动车在行驶前需要补充电量，大多数情况下电动车会将电量充满，当在行驶过程中，太阳能发电产生的电能大于行驶所需电量时，会出现电量浪费的现象，此外，在白天用电高峰期间充电时，不仅会对电网造成很大的压力，同时还以较高的电价向电网购电，这往往导致电动车的行驶成本高，因此如何制定灵活的能源管理策略，提高光伏电动车电量利用率，降低光伏电动车行驶成本是亟待解决的问题。

发明内容

为解决上述问题，本申请实施例提出一种电力调度方法、电子设备、车载微电网和计算机可读存储介质，通过指定合理的能源管理策略，提高光伏电动车电量利用率，降低光伏电动车行驶成本，

所述方法包括：

获取第一时间周期内的副微电网的第一发电量、主微电网的第一耗电量和副微电网的第二耗电量，其中所述第一时间周期包括多个预设单位时长；

根据所述第一发电量、所述第一耗电量和所述第二耗电量确定第一时间周期内的各个所述预设单位时长的电池充放电边界阈值；

通过所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所有所述电池充放电边界阈值训练预设策略网络；

将所述主微电网的实时电量、所述副微电网的实时电量、所述外部电网实时电价和所述电池充放电边界阈值输入预训练的所述预设策略网络，输出电力调度策略。

在一些实施例中，所述方法还包括：

获取第二时间周期内的所述副微电网的发电量影响参数、所述主微电网耗电功率和所述副微电网耗电功率，其中，所述第二时间周期和所述第一时间周期是连续且时间跨度相等的两个时间区间；

通过所述发电量影响参数、所述主微电网耗电功率和所述副微电网耗电功率训练预设预测模型；

将所述主微电网耗电功率、所述副微电网耗电功率和第一时间周期内的所述发电量影响参数输入预训练的所述预设预测模型，得到所述第一时间周期内的所述第一发电量、所述第一耗电量和所述第二耗电量；其中，所述预设预测模型用于根据第一时间周期内的所述发电功率影响参数、所述主微电网耗电功率和所述副微电网耗电功率预测所述第一时间周期内的所述第一发电量、所述第一耗电量和所述第二耗电量。

在一些实施例中，所述预设策略网络包括第一网络和目标网络，所述第一网络包括第一动作网络和第一评价网络，所述目标网络包括目标动作网络和预设目标评价网络，所述通过所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所有所述电池充放电边界阈值训练预设策略网络，包括：

将所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所述电池充放电边界阈值输入所述第一动作网络，得到第一动作；

将所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价、所述电池充放电边界阈值、所述第一动作输入第一评价网络，得到所述第一动作的奖励值；

根据所述第一动作网络的参数和所述第一评价网络的参数优化所述第一动作网络的参数；

根据所述第一评价网络的参数、所述预设目标动作网络的参数和所述预设目标评价网络的参数优化所述第一评价网络的参数。

在一些实施例中，所述根据所述第一动作网络的参数和所述第一评价网络的参数优化所述第一动作网络的参数，包括：

通过随机梯度优化所述第一动作网络的参数；

所述随机梯度是：

其中，

是所述随机梯度，θ^μ是所述第一动作网络的参数，θ^Q是第一评价网络的参数，Q(s,a|θ^Q)表示所述第一评价网络中的Q值函数，a是所述第一动作，s表示当前状态，所述当前状态包括所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所述电池充放电边界阈值。

在一些实施例中，所述根据所述第一评价网络的参数、所述目标动作网络的参数和所述预设目标评价网络的参数优化所述第一评价网络的参数，包括：

通过预设损失函数更新所述第一评价网络的参数；

其中，所述预设损失函数是：

L(θ^Q)＝E_{s，a，r，s′，D}(TD_Error)²

TD_Error＝[r+γQ′(s′，π(s′|θ^μ′)|θ^Q′)]-Q(s，a|θ^Q)

其中，θ^μ′是所述预设目标动作网络的参数，θ^Q′是所述预设目标评价网络的参数，Q′(s′，π(s′|θ^μ′)|θ^Q′)表示所述预设目标评价网络中的Q值函数，γ是折扣因子，a是所述第一动作，s表示当前状态，所述当前状态包括所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所述电池充放电边界阈值。

在一些实施例中，所述电池充放电边界阈值包括所述主微电网允许的最大容量和所述主微电网允许和最小容量，其特征在于，所述将所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价、所述电池充放电边界阈值、所述第一动作输入第一评价网络，得到所述第一动作的奖励值，包括：

通过如下奖励函数确定所述奖励值：

其中，a_t表示t时刻的所述第一动作，a₁至a₄分别是a_t的四种取值，分别代表四种不同的所述第一动作，r_t表示所述第一动作a_t的奖励值，k_dh表示放电奖励因子，kch表示充电奖励因子，γ表示折扣因子，

表示t时刻所述副微电网充放电电量，/>

表示t时刻所述副微电网向所述主微电网输入的电量，/>

表示t时刻所述外部电网实时电价，S_t表示t时刻所述主微电网的实时电量，/>

表示t时刻所述主微电网允许的最小容量，/>

表示t时刻所述主微电网允许的最大容量。

在一些实施例中，所述方法还包括：

将每个所述第一动作和对应的所述奖励值构成回放经验；

将所有回放经验构成经验池；

对所述经验池中的所有所述回放经验设置采样权重，其中所述采样权重表示从所述经验池中选取回放经验作为样本训练所述预设策略网络时的优先级；

根据所述采样权重从所述经验池中抽取所述回放经验作为样本训练所述预设策略网络；

其中，所述采样权重通过如下公式确定；

其中，其中，S是所述经验池容量大小，β是控制矫正的范围参数，W_j表示第j条所述回放经验的采样权重；rank(j)是第j条回放经验的排位，rank(j)根据第j条回放经验对应的所述第一评价网络的参数、所述预设目标动作网络的参数和所述预设目标评价网络的参数确定；N是存储在所述经验池中的回放经验的数量；ι为控制优先级的参数。

本申请实施例的第二方面提出一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如第一方面实施例任意一项所述的电力调度方法。

本申请实施例的第三方面提出一种车载微电网，所述车载微电网包括：

主微电网，包括蓄电池、底盘负载、其中所述蓄电池向所述底盘负载供电；

副微电网，包括光伏储能模块、至少一个冷链负载，其中，所述光伏储能系统包括光伏发电系统和动力电池，所述光伏储能模块向所述冷链负载供电；

决策模块，所述决策模块包括有如第二方面实施例所述的电子设备；

其中所述主微电网和所述副微电网之间通电，所述主微电网和所述副微电网均与外部电网通电。

本申请实施例的第四方面提出一种计算机可读存储介质，其特征在于，所述一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器运行，以实现如第一方面实施例中任一项所述的方法。

本申请实施例提出一种电力调度方法、电子设备、车载微电网和计算机可读存储介质，方法包括：获取第一时间周期内的副微电网的第一发电量、主微电网的第一耗电量和副微电网的第二耗电量，其中所述第一时间周期包括多个预设单位时长；根据所述第一发电量、所述第一耗电量和所述第二耗电量确定第一时间周期内的各个所述预设单位时长的电池充放电边界阈值；通过所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所有所述电池充放电边界阈值训练预设策略网络；将所述主微电网的实时电量、所述副微电网的实时电量、所述外部电网实时电价和所述电池充放电边界阈值输入预训练的所述预设策略网络，输出电力调度策略。通过根据第一时间周期内的发电量和耗电量，以此确定充电阈值和放电阈值，充放电边界阈值用于从外部电网购电或向外部电网售电的阈值，再根据该充放电阈值以及主微电网和副微电网的实时电量以及外部电网的实时电价作为样本训练预设策略模型，再通过预训练的预设策略模型根据充放电阈值、主微电网以及副微电网的实时电量以及外部电网实时电价生成电力调度策略，由此，实现根据实时电量微电网自身的耗电与发电量确定各单位时间的用电需求，并结合主微电网和副微电网实时储电量，外部电网的实时电价确定电力调度策略，实现在满足自身用电负荷需求的前提下在高电价时向外部电网售电，及时将多余电量以高电价出售，并在低电价时从外部电网购电满足自身用电负荷，有效提高光伏电动车电量利用率，降低车辆行驶成本。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明一个实施例提供的一种电力调度方法的流程图；

图2是本发明一个实施例提供的一种电力调度方法的子流程图；

图3是本发明一个实施例提供的一种电力调度方法的子流程图；

图4是本发明提出的一种车载微电网的结构示意图；

图5是本发明一个实施例提供的一种电子设备结构示意图。

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序运行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

本申请实施例的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请实施例中的具体含义。

本申请实施例的第一方面提出一种电力调度方法，方法包括但不限于如下步骤S101至步骤S104。

步骤S101，获取第一时间周期内的副微电网的第一发电量、主微电网的第一耗电量和副微电网的第二耗电量，其中第一时间周期包括多个预设单位时长；

步骤S102，根据第一发电量、第一耗电量和第二耗电量确定第一时间周期内的各个预设单位时长的电池充放电边界阈值；

步骤S103，通过主微电网的实时电量、副微电网的实时电量、外部电网实时电价和所有电池充放电边界阈值训练预设策略网络；

步骤S104，将主微电网的实时电量、副微电网的实时电量、外部电网实时电价和电池充放电边界阈值输入预训练的预设策略网络，输出电力调度策略。

在一些实施例中，第一时间周期可以是下一个24小时周期，预设单位时长是每个一小时的时长跨度，可以理解的是，汽车行驶在大多数情况下具有周期性，比如在特定时间段上班，特定时间段下班，其余时间停放不动等，基于此，可以根据上一时间周期的电动车第一发电量、第一耗电量和第二耗电量预测下一时间周期的第一发电量、第一耗电量和第二耗电量。

在一些实施例中，第一时间周期内各单位时长的电动车发电量以及耗电量后，可以根据其功率平衡计算出电动车各个单位时长的充放电边界阈值，具体的，即根据耗电量与发电量的差值，设置一定的数值波动区间，在电动车的实时储电量高于该区间的上边界阈值时认为电动车电量富余，可以向外部电网售电，当电动车实时储电量低于该区间的下边界阈值时，可以认为电动车缺点，需从外部电网购电以满足电动车符合需求。

在一些实施例中，预设策略网络可以是DDPG(Deep Determi ni st ic Po l icy，深度确定性策略梯度)网络，预训练后的DDPG网络可以与实时环境交互，获取外部电网实时电价以更新状态空间从而更新奖励函数，根据奖励函数计算动作空间内存储的所有动作对应于该奖励函数的奖励值，从中选取奖励值最高动作以确定下一时间点的最优动作。

在本申请实施例中，通过预测第一时间周期的第一发电量、第一耗电量和第二耗电量并以此确定各个单位时长的充放电边界阈值，以该充放电边界阈值和外部电网的实时电价训练预设策略模型，并将该充放电边界阈值和外部电网实时电价输入到预训练的预设策略模型中，得到每个特定时间点的最优动作，从而确定电力调度策略，以此使电动车在保证自身行驶电力负荷需求下，在低电价且储电量不足以支持电动车符合需求时从外部电网购电，在高电价且电动车发电量富余时向外部电网售电，从而提高电动车用电效率，提高车载微电网的发电收益，降低电动车行驶成本。

参照图2，本申请实施例所提出的电力调度方法还包括但不限于如下步骤S201至步骤S203。

步骤S201，获取第二时间周期内的副微电网的发电量影响参数、主微电网耗电功率和副微电网耗电功率，其中，第二时间周期和第一时间周期是连续且时间跨度相等的两个时间区间；

步骤S202，通过发电量影响参数、主微电网耗电功率和副微电网耗电功率训练预设预测模型；

步骤S203，将主微电网耗电功率、副微电网耗电功率和第一时间周期内的发电量影响参数输入预训练的预设预测模型，得到第一时间周期内的第一发电量、第一耗电量和第二耗电量；其中，预设预测模型用于根据第一时间周期内的发电功率影响参数、主微电网耗电功率和副微电网耗电功率预测第一时间周期内的第一发电量、第一耗电量和第二耗电量。

可以理解的是，其中第二时间周期和第一时间周期是连续且时间跨度相等的两个时间区间，具体的，以时间跨度为24小时为例，第二时间周期和第一时间周期即是连续的前后两天，以副微电网通过光伏发电产生发电量为例，发电量影响参数可以是第二时间周期内的天气湿度、温度、风速、地区辐射值等影响光伏发电效率的参数，可以通过对应的传感器等获取这些参数，预设预测模型可以是LSTM(Long Short Term Memory，长短时记忆)模型，通过第二时间周期内的发电量影响参数、主微电网耗电功率以及副微电网耗电功率训练该LSTM模型，得到预训练的预设预测模型后，预设预测模型可以根据发电量影响参数、主微电网以及副微电网的耗电功率预测第二时间周期内各单位时长的发电量和耗电量，鉴于电动车行驶具备周期性，即对车主而言，一般会在每天的固定时间用车，其余时间停车的用户习惯，基于此，可以将第二时间周期内各个单位时长的耗电量作为作为第一时间周期内各个单位时长的耗电量，而预训练的LSTM模型可以根据发电量影响参数预测发电量，基于此，通过网络数据或其它方式，比如天气预报等，可以获取第一时间周期内的发电量影响参数，基于此，即可预测第一时间周期内的第一发电量，由此，即可预测第一时间周期内的第一发电量、第一耗电量和第二耗电量。

在本申请实施例中，通过第二时间周期的发电量影响参数、主微电网耗电功率和副微电网耗电功率训练预设预测模型，在得到预训练的预设预测模型后，根据主微电网耗电功率、副微电网耗电功率以及第一时间周期的发电量影响参数预测第一时间周期内的第一发电量、第一耗电量和第二耗电量，基于此，基于此，每天通过网络数据获取当天的发电量影响参数，再进一步预测当天发电量，可以提前考虑温度、湿度、所在地区的太阳辐射等变量对发电量的影响，从而制定对应的电力调度策略。

在一些实施例中，参照图3，步骤S103包括但不限于如下步骤S301至步骤S304.

步骤S301，将主微电网的实时电量、副微电网的实时电量、外部电网实时电价和电池充放电边界阈值输入第一动作网络，得到第一动作；

步骤S302，将主微电网的实时电量、副微电网的实时电量、外部电网实时电价、电池充放电边界阈值、第一动作输入第一评价网络，得到第一动作的奖励值；

步骤S303，根据第一动作网络的参数和第一评价网络的参数优化第一动作网络的参数；

步骤S304，根据第一评价网络的参数、预设目标动作网络的参数和预设目标评价网络的参数优化第一评价网络的参数。

在一些实施例中，预设策略网络包括第一网络和目标网络，第一网络包括第一动作网络和第一评价网络，目标网络包括目标动作网络和预设目标评价网络。第一动作网络用于根据主微电网实时电量、副微电网实施实时电量、外部电网电价以及电池的充放电边界阈值输出一个第一动作，比如根据上述参数判断此时应该从副微电网向主微电网输电，此即为第一动作，可以理解的是，第一动作网络输出的是一个值，比如a₁，而该数值则表示副微电网给负载供电。而第一评价网络用于确定第一动作网络所输出的第一动作的奖励值，该奖励值越高，则表示在当前时刻采取该第一动作的收益越大。预设目标动作网络和预设目标评价网络则是用于判断第一动作网络和第一评价网络的优化程度，具体的，当第一评价网络的参数与预设目标评价网络的参数之间的差值越小，则说明第一评价网络优化得越好。可以理解的是，预设目标动作网络以及预设目标评价网络没间隔固定时间后会根据更新因子自动更新，具体的，参照如下公式：

″

θ^Q′←αθ^Q+(1-α)θ^Q′

θ^μ′←αθ^μ+(1-α)θ^μ′

在一些实施例中，可以通过随机梯度优化第一动作网络的参数；

随机梯度是：

其中，

是所述随机梯度，θ^μ是第一动作网络的参数，θ^Q是第一评价网络的参数，Q(s,a|θ^Q)表示第一评价网络中的Q值函数，a是第一动作，s表示当前状态，当前状态包括主微电网的实时电量、副微电网的实时电量、外部电网实时电价和电池充放电边界阈值。

在一些实施例中，可以通过预设损失函数更新第一评价网络的参数；

其中，预设损失函数是：

L(θ^Q)＝E_s,a,r,s′D(TD_Error)²

TD_Error＝[r+γ^Q′(s′,π(s′|θ^μ′)|θ^Q′)]-Q(s,a|θ^Q)

其中，θ^μ′是预设目标动作网络的参数，θ^Q′是预设目标评价网络的参数，Q′(s′,π(s′|θ^μ′)|θ^Q′)表示预设目标评价网络中的Q值函数，γ是折扣因子，a是第一动作，s表示当前状态，当前状态包括主微电网的实时电量、副微电网的实时电量、外部电网实时电价和电池充放电边界阈值。

在一些实施例中，电池充放电边界阈值包括主微电网允许的最大容量和主微电网允许和最小容量，步骤S302包括：

通过如下奖励函数确定奖励值：

其中，a_t表示t时刻的第一动作，a₁表示副微电网给负载供电，a₂表示光伏发电系统和副微电网同时给负载供电，a₃表示光伏发电系统给副微电网供电的同时副微电网给负载供电，a₄表示光伏系统给副微电网供电，r_t表示第一动作a_t的奖励值，k_dh表示放电奖励因子，k_ch表示充电奖励因子，γ表示折扣因子，

表示t时刻副微电网充放电电量，/>

表示t时刻副微电网向主微电网输入的电量，/>

表示t时刻外部电网实时电价，S_t表示t时刻主微电网的实时电量，/>

表示t时刻主微电网允许的最小容量，/>

表示t时刻主微电网允许的最大容量。

可以理解的是，为降低电动车行驶成本，应在保持车载微电网储电量足以支持电动车行驶的前提下，尽可能选择在高电价时向外部电网出售剩余电量，在低电价时从外部电网购电补充电量，基于此，将微电网收益公式设置为如下公式：

其中，n为时间序列的长度；t表示当前时刻；α为初始购入电量时的电价；

为t时刻从副微电网向主微电网输出电量时外部电网的电价；/>

为t时刻主微电网输入副微电网时外部电网的电价；/>

为初始购入电量；/>

为t时刻副微电网输入主微电网的电量；/>

为t时刻主微电网输入副微电网的电量。

将副微电网的充放电方程设置为如下公式：

其中，η_c□表示电池充电效率；

为t时刻充电功率；η_dc为电池放电效率；/>

为t时刻放电功率；/>

为最大放电功率；/>

为最大充电功率。

将电动车的功率平衡约束设置为如下公式：

其中，

为t时刻光伏系统的发电量；/>

为t时刻动力电池充放电电量；

为t时刻负载的耗电量；/>

为t时刻副微电网向主微电网输入的电量。

基于上述约束条件，可以得到奖励函数如下：

其中，a_t表示t时刻的第一动作，a₁至a₄分别是a_t的四种取值，分别代表四种不同的第一动作，r_t表示第一动作a_t的奖励值，k_dh表示放电奖励因子，k_ch表示充电奖励因子，γ表示折扣因子，

表示t时刻副微电网充放电电量，/>

表示t时刻副微电网向主微电网输入的电量，/>

表示t时刻外部电网实时电价，St表示t时刻主微电网的实时电量，/>

表示t时刻主微电网允许的最小容量，/>

表示t时刻主微电网允许的最大容量。

可以理解的是，副微电网包括光伏发电系统和动力电池，a₁表示动力电池给负载供电，a₂表示光伏发电系统和动力电池同时给负载供电，a₃表示光伏发电系统给动力电池供电的同时动力电池给负载供电，a₄表示光伏系统给动力电池供电。

可以理解的是，预设策略网络最后会通过上述奖励函数，计算出t时刻每个动作的奖励值，并将奖励值最高的动作作为a_t的取值输出，基于此，即可确定出每个t时刻采取的最优动作。

在本申请实施例中，根据外部电网实时电价、车载微电网的充放电方程以及功率平衡约束条件计算在上述约束条件下的奖励函数，通过奖励函数确定每个特定时间点采取哪种动作可以使第一时间周期内电动车所获得的收益最大，根据该奖励函数计算每个t时刻采取特定动作时的奖励值，奖励值高则说明t时刻采取该动作能获得较高收益，奖励值低这说明t时刻采取该特定动作收益较低，基于此，通过第一评价网络输出的奖励值确定第一动作网络所采取的动作的收益高低，在每个t时刻均采取奖励值高的动作，从而使车载微电网收益最大，降低电动车行驶成本。

在一些实施例中，电力调度方法还包括：

将每个第一动作和对应的奖励值构成回放经验；

将所有回放经验构成经验池；

对经验池中的所有回放经验设置采样权重，其中采样权重表示从经验池中选取回放经验作为样本训练预设策略网络时的优先级；

根据采样权重从经验池中抽取回放经验作为样本训练预设策略网络；

其中，采样权重通过如下公式确定；

其中，其中，S是经验池容量大小，β是控制矫正的范围参数，W_j表示第j条回放经验的采样权重；rank(j)是第j条回放经验的排位，rank(j)根据第j条回放经验对应的第一评价网络的参数、预设目标动作网络的参数和预设目标评价网络的参数确定；N是存储在经验池中的回放经验的数量；ι为控制优先级的参数。

其中，rank(j)根据第一评价网络的参数、预设目标动作网络的参数和预设目标评价网络的参数确定，具体的，设第一评价网络的参数为θ^Q，预设目标动作网络的参数为θ^μ′，预设目标评价网络的参数θ^Q′，则第一评价网络和预设目标评价网络的TD误差为TD_Error＝[r+γQ′(s′,π(s′|θ^μ′)|θ^Q′)]-Q(s,a|θ^Q)，根据每条回放经验对应的第一评价网络的TD误差的大小对每条回放经验进行进行排序从而确定每条回放经验的排位rank(j)。

在本申请实施例中，通过PER(Prioritized Experience Replay，优先经验回放)改进训练预设策略网络时的回放经验机制，通过以第j条回放经验对应的第一评价网络的参数与预设目标评价网络的参数之间的TD误差确定第j条回放经验的采样权重，为TD误差小、即所对应的第一评价网络与预设目标评价网络较为接近的回放经验设置较高的采样权重，从而在从经验池中采样回放经验训练预设策略网络时，会优先采样权重高的回放经验，而该部分回放经验所对应的第一评价网络与预设目标评价网络之间的误差较小，选用权重高的回放经验训练预设策略网络会使预设策略网络的第一评价网络更快收敛于预设目标评价网络，基于此，可以有效加快模型训练过程，提高训练模型的效率。

参照图4，本申请实施例还提出一种车载微电网，包括：

主微电网，包括蓄电池401、底盘负载402、其中蓄电池向底盘负载供电；

副微电网，包括光伏储能模块、至少一个冷链负载411，其中，光伏储能系统包括光伏发电系统412和动力电池413，光伏储能模块向冷链负载供电；

决策模块420，决策模块包括有用于执行上述电力调度方法的电子设备；

其中主微电网和副微电网之间通电，主微电网和副微电网均与外部电网通电。

参照图5，本申请实施例第五方面还提出一种电子设备500，包括：

至少一个处理器，以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如本申请第四方面实施例中任一项的方法。

下面结合图5对电子设备500的硬件结构进行详细说明。该计算机设备包括：处理器510、存储器520、输入/输出接口530、通信接口540和总线550。

处理器510，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器520，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器520可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器520中，并由处理器510来调用执行本公开实施例的电力调度方法；

输入/输出接口530，用于实现信息输入及输出；

通信接口540，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线550，在设备的各个组件(例如处理器510、存储器520、输入/输出接口530和通信接口540)之间传输信息；

其中处理器510、存储器520、输入/输出接口530和通信接口540通过总线550实现彼此之间在设备内部的通信连接。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序运行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际运行的顺序有可能根据实际情况改变。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种电力调度方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述预设策略网络包括第一网络和目标网络，所述第一网络包括第一动作网络和第一评价网络，所述目标网络包括目标动作网络和预设目标评价网络，所述通过所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所有所述电池充放电边界阈值训练预设策略网络，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一动作网络的参数和所述第一评价网络的参数优化所述第一动作网络的参数，包括：

通过随机梯度优化所述第一动作网络的参数；

所述随机梯度是：

/>

其中，

是所述随机梯度，θ^μ是所述第一动作网络的参数，θ^Q是第一评价网络的参数，Q(s，a|θ^Q)表示所述第一评价网络中的Q值函数，a是所述第一动作，s表示当前状态，所述当前状态包括所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价和所述电池充放电边界阈值。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一评价网络的参数、所述预设目标动作网络的参数和所述预设目标评价网络的参数优化所述第一评价网络的参数，包括：

通过预设损失函数更新所述第一评价网络的参数；

其中，所述预设损失函数是：

L(θ^Q)＝E_{s，a，r，s′D}(TD_Error)²

TD_Error＝[r+γQ′(s′，T(s′|θ^μ′)|θ^Q′)]-Q(s，a|θ^Q)

6.根据权利要求3所述的方法，所述电池充放电边界阈值包括所述主微电网允许的最大容量和所述主微电网允许和最小容量，其特征在于，所述将所述主微电网的实时电量、所述副微电网的实时电量、外部电网实时电价、所述电池充放电边界阈值、所述第一动作输入第一评价网络，得到所述第一动作的奖励值，包括：

通过如下奖励函数确定所述奖励值：

其中，a_t表示t时刻的所述第一动作，a₁至a₄分别是a_t的四种取值，分别代表四种不同的所述第一动作，r_t表示所述第一动作a_t的奖励值，k_dh表示放电奖励因子，k_ch表示充电奖励因子，γ表示折扣因子，

表示t时刻所述副微电网充放电电量，/>

表示t时刻所述副微电网向所述主微电网输入的电量，/>

表示t时刻所述外部电网实时电价，St表示t时刻所述主微电网的实时电量，/>

表示t时刻所述主微电网允许的最小容量，/>

表示t时刻所述主微电网允许的最大容量。

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将每个所述第一动作和对应的所述奖励值构成回放经验；

将所有回放经验构成经验池；

其中，所述采样权重通过如下公式确定；

其中，其中，S是所述经验池容量大小，β是控制矫正的范围参数，W_j表示第j条所述回放经验的采样权重；rank(j)是第j条回放经验的排位，rank(j)根据第j条回放经验对应的所述第一评价网络的参数、所述预设目标动作网络的参数和所述预设目标评价网络的参数确定；N是存储在所述经验池中的回放经验的数量；L为控制优先级的参数。

8.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的电力调度方法。

9.一种车载微电网，所述车载微电网包括：

10.一种计算机可读存储介质，其特征在于，所述一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器运行，以实现如权利要求1至7中任一项所述的方法。