CN112132350B

CN112132350B - 一种实时需求响应方法和装置

Info

Publication number: CN112132350B
Application number: CN202011036049.4A
Authority: CN
Inventors: 周娟; 赖伟坚; 尹健锋; 杨德玲; 李敬航; 张鑫; 李敬光; 陈威洪; 林泽宏; 张世斌
Original assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2022-05-10
Anticipated expiration: 2040-09-27
Also published as: CN112132350A

Abstract

本发明公开了一种实时需求响应方法和装置，包括基于Copula函数对柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型，其中，每个柔性负荷的随机变量的数量至少为1；利用柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景；根据柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型；利用强化学习算法建立实时需求响应模型的求解策略。本发明充分挖掘了供给侧发电机和需求侧柔性负荷的互动优化调度空间，最大化了电力系统的整体效益，有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。

Description

一种实时需求响应方法和装置

技术领域

本发明实施例涉及实时需求响应策略技术领域，尤其涉及一种实时需求响应方法和装置。

背景技术

需求响应(Demand Response，DR)指的是需求侧对供给侧和市场状况所作出的反应，是电力体制改革下需求侧与供给侧之间的主要互动手段，具有削峰填谷的作用。随着智能用电的发展，在一定范围内可调节的柔性负荷越来越多，如空调、洗衣机等可转移负荷和电动汽车、储能等双向可控负荷。在可参与需求响应的用户中，居民负荷具有很大的潜力，能够通过参与需求响应有效地解决电网波动问题。

但是，仅靠供给侧的调节能力难以解决大规模波动性新能源发电接入后的实时供需平衡问题。

发明内容

本发明提供一种实时需求响应方法和装置，充分挖掘了供给侧发电机和需求侧柔性负荷的互动优化调度空间，最大化了电力系统的整体效益，有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。

本发明实施例提供了一种实时需求响应方法，包括：

基于Copula函数对柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型，其中，每个所述柔性负荷的随机变量的数量至少为1；

利用所述柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景；

根据所述柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型；

利用强化学习算法建立所述实时需求响应模型的求解策略。

进一步地，所述基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型包括：

建立每个所述柔性负荷的随机变量μ的累积分布函数：

其中，μ为所述柔性负荷的随机变量；

利用Gaussian Copula函数以及所述随机变量μ的所述累积分布函数建立所述柔性负荷模型：

其中，μ_d为服从[0，1]区间均匀分布的所述柔性负荷的随机变量，d为随机变量μ的个数；θ为相关系数矩阵；

为相关系数矩阵为θ的标准多元Gaussian分布函数；

为标准Gaussian分布函数的逆函数；

基于所述累积分布函数以及极大化伪对数似然函数对所述柔性负荷模型中的参数θ进行估计：

进一步地，所述利用所述柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景包括：

利用所述柔性负荷模型进行蒙特卡洛模拟，生成N组模拟数据；

利用逆概率分布函数将N组所述模拟数据转换为所述柔性负荷参与实时需求响应的N个所述柔性负荷场景。

进一步地，所述根据所述柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型包括：

根据所述柔性负荷场景，建立所述实时需求响应模型：

其中，

其中，

为领导者的最优策略；

为领导者的可选策略；

为所有跟随者的最优策略；

为第i个跟随者的最优策略；E_leader为领导者的效益函数；E_i为第i个跟随者的效益函数；A_i为跟随者的可选择策略。

进一步地，所述方法还包括：

根据所述实时需求响应模型，所述电力系统的总效益E为：

其中，

Ω_d为负荷的集合，Ω_s为发电机的集合；

为用户效用函数，

α_j、ω_j为第j个柔性负荷的效用参数，P_Dj为第j个柔性负荷的有功需求，P_Dj,T0为T₀时刻第j个柔性负荷的有功需求，P_Dj,T为T时刻第j个柔性负荷的有功需求，N_S为所述柔性负荷场景的总场景数，P_S为场景S的概率，且

T_N为调度计划总时段，其中，

表示当前第一阶段，即调度时刻T₀的用户效用函数，

表示未来第二阶段，即调度时刻T₀+1的用户效用函数；

f_i ^s为发电成本函数，

a_i、b_i、c_i为第i台发电机的发电成本参数，P_Gi,T₀为T₀时刻第i台发电机的有功功率，P_Gi ^min、P_Gi ^max分别为第i台发电机的有功功率最小值和最大值。

进一步地，所述利用强化学习算法建立所述实时需求响应模型的求解策略包括：

利用Q学习算法对所述实时需求响应模型进行求解。

进一步地，所述利用Q学习算法对所述实时需求响应模型进行求解包括：

基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式：

其中，上标k和j分别为第k次迭代和第j个个体，下标i为第i个智能体，α为学习因子，γ为折扣因子，ΔQ是知识增量，R(s^k,s^k+1,a^k)是在动作a^k发生时从状态s^k转换到状态s^k ⁺¹的奖励函数，a_i是可选动作；

基于所述知识矩阵迭代表达式更新所述知识矩阵，并在更新完所述知识矩阵之后将当前策略上传至领导者。

进一步地，在所述基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前，还包括：

根据ε-贪婪规则，基于当前知识矩阵选择动作a^k：

其中，ε为贪婪行为的概率，a_rand表示随机动作；

在得知其他跟随者当前的最优决策情况下，计算每个跟随者的目标函数F_i，其中，

E_i ^other为除去第i个跟随者的电力系统的系统效益，F_i表示第i个跟随者的目标函数；

基于蚁群算法合作机制建立奖励函数R(s^k,s^k+1,a^k)：

其中，p_m为一个为正乘数，c_f为保证所述奖励函数为正的校正系数，F_i ^kj为第i个智能体的第k次迭代中的所述目标函数，SA_i ^Best表示第i个智能体的第k次迭代中最优个体的状态–动作对集合。

进一步地，在所述基于所述知识矩阵迭代表达式更新所述知识矩阵之前，还包括：

判断迭代次数k是否到达预设最大值，若达到所述预设最大值则执行基于所述知识矩阵迭代表达式更新所述知识矩阵的动作，否则，重新执行所述根据ε-贪婪规则，基于当前知识矩阵选择动作a^k的步骤。

本发明实施例还提供了一种实时需求响应装置，包括：

第一建模单元，用于基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型，其中，每个所述柔性负荷的随机变量的数量至少为1；

场景生成单元，用于利用所述柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景；

第二建模单元，用于根据所述柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型；

求解单元，用于利用强化学习算法建立所述实时需求响应模型的求解策略。

附图说明

图1是本发明实施例提供的一种实时需求响应方法的流程图；

图2是本发明实施例提供的一种实时需求响应方法中步骤S101的流程图；

图3是本发明实施例提供的一种实时需求响应方法中步骤S102的流程图；

图4是本发明实施例提供的电力系统基于Stackelberg博弈的实时供需互动示意图；

图5是本发明实施例提供的当前和未来两阶段的实时需求响应示意图；

图6是本发明实施例提供的知识矩阵学习过程示意图；

图7是本发明实施例提供的利用Q学习算法对实时需求响应模型进行求解的流程图；

图8是本发明实施例提供的一种实时需求响应装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

需要说明的是，本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于限定特定顺序。本发明下述各个实施例可以单独执行，各个实施例之间也可以相互结合执行，本发明实施例对此不作具体限制。

图1是本发明实施例提供的一种实时需求响应方法的流程图。

如图1所示，实时需求响应方法包括如下步骤：

步骤S101，基于Copula函数对柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型，其中，每个柔性负荷的随机变量的数量至少为1。

具体地，Copula函数描述的是变量间的相关性，实际上是一类将联合分布函数与它们各自的边缘分布函数连接在一起的函数，因此也有人将它称为连接函数。示例性地，对于常见柔性负荷，如居民负荷中的照明负荷和空调负荷来说，照明负荷由于用户用电行为的不确定性而具有随机性，空调负荷受外界环境温度及人体舒适度的影响而具有随机性，因此可以收集照明负荷的每日开启时间、运行时间，以及空调房间内每小时的环境温度等具有相关性的参数作为随机变量，利用Copula函数对照明负荷和空调负荷的各随机变量进行概率分布建模。

图2是本发明实施例提供的一种实时需求响应方法中步骤S101的流程图。

可选地，如图2所示，步骤S101，基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型包括如下步骤：

步骤S1011，建立每个柔性负荷的随机变量μ的累积分布函数：

其中，μ为柔性负荷的随机变量。

示例性地，以照明负荷的每日开启时间、运行时间或空调负荷的环境温度等随机变量为例，首先提取各随机变量近期的历史数据，然后对每个随机变量μ进行核密度估计，得到该随机变量的累计分布函数：

其中，μ为柔性负荷的某个随机变量。

步骤S1012，利用Gaussian Copula函数以及随机变量μ的累积分布函数建立柔性负荷模型：

其中，μ_d为服从[0，1]区间均匀分布的柔性负荷的随机变量，d为随机变量μ的个数；θ为相关系数矩阵；

为相关系数矩阵为θ的标准多元Gaussian分布函数；

为标准Gaussian分布函数的逆函数。

具体地，在得到柔性负荷的各随机变量的累积分布函数之后，利用GaussianCopula函数以及随机变量μ的累积分布函数建立柔性负荷模型。

步骤S1013，基于累积分布函数以及极大化伪对数似然函数对柔性负荷模型中的参数θ进行估计：

具体地，柔性负荷模块中的参数θ为相关系数矩阵，通过累积分布函数

和极大化伪对数似然函数对参数θ进行估计，得到

步骤S102，利用柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景。

图3是本发明实施例提供的一种实时需求响应方法中步骤S102的流程图。

可选地，如图3所示，步骤S102，利用柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景包括如下步骤：

步骤S1021，利用柔性负荷模型进行蒙特卡洛模拟，生成N组模拟数据；

步骤S1022，利用逆概率分布函数将N组模拟数据转换为柔性负荷参与实时需求响应的N个柔性负荷场景。

具体地，在对柔性负荷的每个随机变量完成Copula函数建模，得到柔性负荷模型之后，利用建立的柔性负荷模型进行蒙特卡洛模拟，可以生成N组模拟数据，需要说明的是，上述N组模拟数据指的是对于每个随机变量μ均能生成N组模拟数据，进而利用逆概率分布函数将N组模拟数据转换为柔性负荷参与实时需求响应的N个柔性负荷场景。例如，对于照明负荷来说，照明的短暂开启为照明的一个柔性负荷场景，照明的长时间开启为照明的另一个柔性负荷场景。

图4是本发明实施例提供的电力系统基于Stackelberg博弈的实时供需互动示意图。

步骤S103，根据柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型。

具体地，Stackelberg博弈，即斯塔克伯格博弈，是一个两阶段的完全信息动态博弈，博弈的时间是序贯的，主要思想为双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化，从而达到纳什均衡。在Stackelberg博弈模型中，先作出决策的一方被称为领导者，在领导者之后，剩余的参与者根据领导者的决策进行决策，被称为跟随者，然后领导者再根据跟随者的决策对自己的决策进行调整，如此往复，直到达到纳什均衡。

可选地，步骤S103，根据柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型包括：

根据柔性负荷场景，建立实时需求响应模型：

其中，

其中，

为领导者的最优策略；

为领导者的可选策略；

为所有跟随者的最优策略；

具体地，参见图4，在Stackelberg博弈中，对于电力系统来说，可以选取一台供给侧的发电机作为一个领导者，其他发电机G₁，G₂……和需求侧的柔性负荷N₁，N₂……均作为多个跟随者，图4中的实线箭头表示电流走向，虚线箭头表示信息流走向，即在领导者做出决策之后供给侧跟随者和需求侧跟随者会获取到该策略，并根据该策略做出决策，领导者也会获取到跟随者的决策，发电机会根据最终决策输出相应的电能至负荷侧，上述过程都是实时进行的。

领导者根据跟随者的决策结果进行决策，可以有效地进行集中协调；各跟随者根据上层领导者的决策结果分别进行最优决策。当跟随者观察到领导者给出最优决策时，假设博弈场上其他跟随者的功率不变，选择一个使得自身效益最高的策略，其模型可以表述为：

其中，E_leader为领导者的效益函数，即一台发电机的效益函数，E_i为第i个跟随者的效益函数，即第i个柔性负荷的效益函数；在实际电力系统运行过程中，希望所有发电机以及所有柔性负荷的总效益能够达到最优。

可选地，实时需求响应方法还包括如下步骤：

根据实时需求响应模型，电力系统的总效益E为：

其中，

Ω_d为负荷的集合，Ω_s为发电机的集合；

为用户效用函数，

α_j、ω_j为第j个柔性负荷的效用参数，P_Dj为第j个柔性负荷的有功需求，P_Dj,T0为T₀时刻第j个柔性负荷的有功需求，P_Dj,T为T时刻第j个柔性负荷的有功需求，N_S为柔性负荷场景的总场景数，P_S为场景S的概率，且

T_N为调度计划总时段，其中，

表示当前第一阶段，即调度时刻T₀的用户效用函数，

表示未来第二阶段，即调度时刻T₀+1的用户效用函数。f_i ^s为发电成本函数，

具体地，电力系统的总效益E：

即为所有发电机以及所有柔性负荷的总效益。综合考虑当前时段和未来时段的响应最优效果，在步骤S102所进行的蒙特卡洛模拟场景的基础上，考虑了未来时段负荷不确定因素，建立了两阶段的实时需求响应模型。

首先，获取发电成本函数

以及发电机容量约束

第二，建立用户效用函数。负荷聚合商能够协调某一区域的大量柔性负荷，从而参与到需求响应调度。基于微观学理论，引入效用函数来描述用户消耗一定电量所获得的满意度水平：

其中，a_j、ω_j为第j个柔性负荷的效用参数，P_Dj为第j个柔性负荷的有功需求。

为用户效用函数，表示当前第一阶段，即当前实时调度时刻T₀的最优需求响应模型。参见图5，图5即为当前和未来两阶段的实时需求响应示意图。

第三，参见图5，未来第二阶段为从T₀+1时刻到调度计划结束的最优需求响应模型，其蒙特卡洛所模拟出来的多个柔性负荷场景可用于该阶段的调度，上述用户效用函数

可进一步表述为：

步骤S104，利用强化学习算法建立实时需求响应模型的求解策略。

具体地，为了综合考虑用户用电的随机性以及电力系统的整体效益，利用强化学习算法对两阶段的实时需求相应模型进行求解，建立起实时需求相应的求解策略。

可选地，步骤S104，利用强化学习算法建立实时需求响应模型的求解策略包括：利用Q学习算法对实时需求响应模型进行求解。

具体地，Q学习算法是强化学习算法的一种，Q学习算法的概念为通过与环境的不断交互来学习新的知识，并将其储存在状态-动作对的知识矩阵Q(s，a)中，再利用该知识矩阵与环境进行交互，直至迭代结束。其迭代次数可以依据需要设置。

图6是本发明实施例提供的知识矩阵学习过程示意图。

传统Q学习中单个智能体只有单个个体进行学习，本申请提供的实时需求相应方法中引入包含多个合作个体的智能体来加快学习效率，其学习过程参见图4，Q_i ¹,Q_i ²,…,Q_i ^k表示多个合作个体，状态s和奖励R均为环境根据知识矩阵Q_i所选择的动作a的反馈信息。

图7是本发明实施例提供的利用Q学习算法对实时需求响应模型进行求解的流程图。

可选地，如图7所示，利用Q学习算法对实时需求响应模型进行求解包括如下步骤：

步骤S1，基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式：

其中，上标k和j分别为第k次迭代和第j个个体，下标i为第i个智能体，α为学习因子，γ为折扣因子，ΔQ是知识增量，R(s^k,s^k+1,a^k)是在动作a^k发生时从状态s^k转换到状态s^k ⁺¹的奖励函数，a_i是可选动作。

步骤S2，基于知识矩阵迭代表达式更新知识矩阵，并在更新完知识矩阵之后将当前策略上传至领导者。

示例性地，可以设置总个体个数J为30，学习因子α为0.1，折扣因子γ为0.1带入知识矩阵迭代表达式进行计算，在计算完成之后，基于知识矩阵迭代表达式更新知识矩阵，并在更新完知识矩阵之后，将当前策略上传至领导者。

可选地，如图7所示，在步骤S1，基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前，还包括如下步骤：

步骤S11，根据ε-贪婪规则，基于当前知识矩阵选择动作a^k：

其中，ε为贪婪行为的概率，a_rand表示随机动作。

具体地，为了在探索和利用直接取得平衡，引入ε-贪婪规则根据当前的知识矩阵选择动作a^k，ε为利用率，代表贪婪行为的概率，示例性地，可以设置利用率ε为0.9。

步骤S12，在得知其他跟随者当前的最优决策情况下，计算每个跟随者的目标函数F_i，其中，

E_i ^other为除去第i个跟随者的电力系统的系统效益，F_i表示第i个跟随者的目标函数。

具体地，为了使系统总效益E最大化，每个跟随者的目标函数都包含了系统效益E，领导者负责控制功率平衡，不参与博弈过程，第i个跟随者的目标函数可表述为：

在知晓其他跟随者当前的最优决策的情况下，计算每个跟随者的目标函数F_i。

步骤S13，基于蚁群算法合作机制建立奖励函数R(s^k,s^k+1,a^k)：

其中，p_m为一个为正乘数，c_f为保证奖励函数为正的校正系数，F_i ^kj为第i个智能体的第k次迭代中的目标函数，SA_i ^Best表示第i个智能体的第k次迭代中最优个体的状态–动作对集合。

具体地，奖励函数是对未知环境探索的反馈，与最优知识矩阵的收敛速度相关，因此引入蚁群算法合作机制来设计奖励函数，可以有效提高收敛速度。示例性地，可以设置正乘数p_m为10³，校正系数c_f为0。

可选地，如图7所示，在步骤S2，基于知识矩阵迭代表达式更新知识矩阵之前，还包括如下步骤：

步骤S21，判断迭代次数k是否到达预设最大值，若达到预设最大值则执行基于知识矩阵迭代表达式更新知识矩阵的动作，否则，重新执行根据ε-贪婪规则，基于当前知识矩阵选择动作a^k的步骤。

示例性地，本申请中可以设置最大迭代次数K为20次，即预设最大值为20，在基于知识矩阵迭代表达式更新知识矩阵之前，还需要判断迭代次数k是否达到最大迭代次数K的值，若达到，则输出结果，并利用输出的结果更新知识矩阵，否则，给当前k值加1，即图7中所示k＝k+1，并返回执行步骤S11，根据ε-贪婪规则，基于当前知识矩阵选择动作a^k，直至k值达到预设最大值。

本发明所提供的实时需求响应方法具有如下的优点及效果：

(1)考虑了不同柔性负荷的用电随机性，并且综合考虑了当前时段和未来时段的响应最优效果，实现了两阶段的实时需求响应。

(2)基于Stackelberg博弈模型实现了不同利益主体的目标协调与利益博弈，即实现了供给侧与需求侧之间的目标协调与利益博弈，充分挖掘了供给侧发电机和需求侧柔性负荷之间的互动优化调度空间，最大化了电力系统的整体效益。

(3)通过Q学习算法对实时需求相应模型进行求解，求解过程中引入了含有多个个体的智能体来增加学习效率。

(4)有效解决了大规模波动性新能源发电接入后的实时供需平衡问题。

本发明实施例还提供了一种实时需求响应装置，该实时需求响应装置用于执行本发明上述实施例所提供的实时需求响应方法，以下对本发明实施例提供的实时需求响应装置做具体介绍。

图8是本发明实施例提供的一种实时需求响应装置的结构图，如图8所示，该实时需求响应装置主要包括：第一建模单元51，场景生成单元52，第二建模单元53和求解单元54，其中：

第一建模单元51，用于基于Copula函数对获取到的每个柔性负荷的随机变量进行概率分布建模，得到柔性负荷模型，其中，每个柔性负荷的随机变量的数量至少为1；

场景生成单元52，用于利用柔性负荷模型进行蒙特卡洛模拟，生成用于实施需求响应调度的柔性负荷场景；

第二建模单元53，用于根据柔性负荷场景，利用Stackelberg博弈建立电力系统的当前与未来两阶段的实时需求响应模型；

求解单元54，用于利用强化学习算法建立实时需求响应模型的求解策略。

可选地，第一建模单元51包括：

第一建模子单元，用于建立每个柔性负荷的随机变量μ的累积分布函数：

其中，μ为柔性负荷的随机变量；

第二建模子单元，用于利用Gaussian Copula函数以及随机变量μ的累积分布函数建立柔性负荷模型：

为相关系数矩阵为θ的标准多元Gaussian分布函数；

为标准Gaussian分布函数的逆函数；

估计子单元，用于基于累积分布函数以及极大化伪对数似然函数对柔性负荷模型中的参数θ进行估计：

可选地，场景生成单元52包括：

生成子单元，用于利用柔性负荷模型进行蒙特卡洛模拟，生成N组模拟数据；

转换子单元，用于利用逆概率分布函数将N组模拟数据转换为柔性负荷参与实时需求响应的N个柔性负荷场景。

可选地，第二建模单元53包括：

第一建立子单元，用于根据柔性负荷场景，建立实时需求响应模型：

其中，

其中，

为领导者的最优策略；

为领导者的可选策略；

为所有跟随者的最优策略；

可选地，实时需求响应装置还包括：

效益计算单元，用于根据实时需求响应模型计算电力系统的总效益E为：

其中，

Ωd为负荷的集合，Ωs为发电机的集合；

为用户效用函数，

T_N为调度计划总时段，其中，

表示当前第一阶段，即调度时刻T₀的用户效用函数，

表示未来第二阶段，即调度时刻T₀+1的用户效用函数；

f_i ^s为发电成本函数，

可选地，求解单元54用于利用Q学习算法对实时需求响应模型进行求解。

可选地，求解单元54包括：

确定子单元，用于基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式：

更新子单元，用于基于知识矩阵迭代表达式更新知识矩阵，并在更新完知识矩阵之后将当前策略上传至领导者。

可选地，求解单元54还包括：

选择子单元，用于在确定子单元基于奖励函数以及当前知识矩阵确定第i个智能体的知识矩阵迭代表达式之前，根据ε-贪婪规则，基于当前知识矩阵选择动作a^k：

其中，ε为贪婪行为的概率，a_rand表示随机动作；

计算子单元，用于在得知其他跟随者当前的最优决策情况下，计算每个跟随者的目标函数F_i，其中，

第二建立子单元，，用于基于蚁群算法合作机制建立奖励函数R(s^k,s^k+1,a^k)：

可选地，求解单元54还包括：

判断子单元，用于在更新子单元基于知识矩阵迭代表达式更新知识矩阵之前，判断迭代次数k是否到达预设最大值，若达到预设最大值则执行基于知识矩阵迭代表达式更新知识矩阵的动作，否则，重新执行选择子单元根据ε-贪婪规则，基于当前知识矩阵选择动作a^k的步骤。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供的实时需求响应方法，与上述实施例提供的实时需求响应装置具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。