CN116681269B

CN116681269B - 一种电网交互型高效居民建筑智能协同运行优化方法

Info

Publication number: CN116681269B
Application number: CN202310968502.2A
Authority: CN
Inventors: 余亮; 檀洋阳; 张爽; 张丁凡; 岳东; 窦春霞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-13
Anticipated expiration: 2043-08-03
Also published as: CN116681269A

Abstract

本发明公开了一种电网交互型高效居民建筑智能协同运行优化方法，包括以下步骤：在满足用户热舒适性和电网服务需求的前提下，建立居民建筑群运行成本最小化问题，并将其分解为一个主问题和多个从问题；将每个从问题建模为马尔可夫决策过程；利用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练；将训练得到的智能体策略作为从问题的求解器；在交替方向乘子法框架下迭代求解从问题和主问题；迭代结束后，将从问题的解作为运行决策进行部署。与现有基于学习的方法相比，本发明方法支持分布式训练和分布式执行协同，具有更高的可扩展性、更强的建筑能源隐私信息保护能力、更优质的电网服务提供能力和更大的运行成本节省潜力。

Description

一种电网交互型高效居民建筑智能协同运行优化方法

技术领域

本发明涉及一种电网交互型高效居民建筑智能协同运行优化方法，属于居民建筑协同运行与人工智能交叉技术领域。

背景技术

当前电网面临多方面的压力，如不断增长的电力需求、不断增加的新能源占比、有限的输配电容量等。为了缓解电网压力，一种有前景的方法是将建筑纳入到电网运行和规划中。建筑作为一个国家的电力消耗大户，其占比高达40％-70％。而且，建筑负荷需求具有非常高的灵活性。在上述背景下，电网交互型高效建筑的概念被提出，它旨在利用智能技术和建筑内部的分布式能量资源提供需求灵活性，进而实现建筑能量成本、用户舒适性和电网服务的联合优化。通过参与电网服务，电网交互型高效建筑可帮助电网提升可靠性、电能质量、分布式能源资源的占比，降低输配电成本、碳排放等。而且，建筑拥有者通过获得电网给予的经济补偿降低能量成本。因此，非常有必要设计智能的协同策略优化电网交互型高效建筑的运行。

现有关于电网交互型高效建筑的运行方法大致可分为两类：基于模型的运行方法和基于学习的运行方法。前者需要知晓明确的建筑热动态性模型，而后者对建筑热动态性模型的形式无任何要求。基于模型的运行方法主要包括主对偶算法、基于凸优化的算法、分布式模型预测控制及分布式滑模控制等。基于学习的运行方法主要基于多智能体软行动者评论家算法、零阶梯度估计策略优化算法、确定性策略梯度算法等。虽然上述基于学习的运行方法取得了一定的效果，但它们均未考虑多个居民建筑协同运行提供电网发电容量服务并联合优化各自的能量成本和用户舒适性。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种电网交互型高效居民建筑智能协同运行优化方法，能够在于在满足用户热舒适性和电网服务需求的前提下，最小化大规模居民建筑运行成本。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种电网交互型高效居民建筑智能协同运行优化方法，包括如下步骤：

在满足室内温度和空气质量在目标范围和电网服务需求的前提下，建立居民建筑群的协同运行成本最小化问题；

采用交替方向乘子法框架将协同运行成本最小化问题分解为一个主问题和多个从问题；

对主问题和多个从问题进行迭代求解，获取主问题和多个从问题的最终求解结果；

将多个从问题的最终求解结果作为运行决策部署到电网交互型高效居民建筑群的运行环境中；

其中，所述主问题的求解包括：采用凸优化理论对主问题进行求解，获取主问题的闭式解；

所述从问题的求解包括：将每个从问题重新建模为马尔可夫决策过程，并构建每个马尔可夫决策过程相关的智能体；采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练；通过每个训练好的智能体策略对相应的从问题进行求解，获取每个从问题的策略解。

可选的，所述协同运行成本最小化问题包括决策变量、约束条件以及目标函数；

所述决策变量包括居民建筑i在时隙t的储能系统充/放电功率f_i,t，居民建筑i的暖通空调系统在时隙t的输入功率e_i,t；

所述约束条件包括：

式中，T_i,t为居民建筑i在时隙t的室内温度，和/>分别为居民建筑i目标范围的最低室内温度与最高室内温度；/>为居民建筑i的暖通空调系统的额定功率；/>为居民建筑的热动态性模型，T_i,t+1为居民建筑i在时隙t+1的室内温度，/>为在时隙t的室外温度，ω_i,t为居民建筑i在时隙t的热扰动；B_i,t为居民建筑i在时隙t的储能系统能级，和/>为居民建筑i的储能系统最低能级和最高能级；当f_i,t<0时，f_i,t＝d_i,t,c_i,t＝0，f_i,t为居民建筑i在时隙t的储能系统放电功率；当f_i,t≥0时，f_i,t＝c_i,t,d_i,t＝0，f_i,t为居民建筑i在时隙t的储能系统充电功率；c_i,t为居民建筑i在时隙t的充电功率、d_i,t为居民建筑i在时隙t的放电功率、η_i,c为居民建筑i的储能系统充电效率，η_i,d为居民建筑i的储能系统放电效率，/>为居民建筑i的储能系统最大放电功率，/>为居民建筑i的储能系统最大充电功率；p_i,t为居民建筑i在时隙t的可再生能源的发电输出；b_i,t为居民建筑i在时隙t的固定负载需求，/>为所有居民建筑在时隙t协同提供电网服务需求所需满足的功率需求上限；N为居民建筑的数量；

所述目标函数为：

式中，为期望运算符，T为时隙总数，Φ_i,t为居民建筑i在时隙t的运行成本。

可选的，所述主问题表达式为：

每个所述从问题对应一个居民建筑，对于居民建筑i，其从问题表达式为：

式中，ρ>0为正常数，z_e,i,t为与e_i,t相关的辅助变量，z_f,i,t为与f_i,t相关的辅助变量，y_e,i,t为与辅助约束z_e,i,t＝e_i,t相关的对偶变量，y_f,i,t为与辅助约束z_f,i,t＝f_i,t相关的对偶变量。

可选的，所述采用凸优化理论对主问题进行求解包括：

判断下式是否成立：

若成立，则主问题的闭式解为：

z_e,i,t＝e_i,t+y_e,i,t

z_f,i,t＝f_i,t+y_f,i,t

若不成立，则主问题的闭式解为：

可选的，所述马尔可夫决策过程中环境状态、动作、奖励函数的表达式为：

a_i,t＝(e_i,t,f_i,t)

r_i,t+1＝-β_iC_1,i,t(s_i,t,a_i,t)-C_2,i,t(s_i,t)-ζ_iC_3,i,t(s_i,t,a_i,t)

式中，s_i,t、a_i,t、r_i,t+1分别为与居民建筑i相关的智能体在时隙t的环境状态、动作和奖励函数；v_t为时隙t的购电电价，t′为时隙t的当前绝对时间在一天内的相对时间序号，z_e,i,t-y_e,i,t和z_f,i,t-y_f,i,t分别为与e_i,t和f_i,t相关的辅助变量与对偶变量差值；C_1,i,t为居民建筑i在时隙t与暖通空调系统能耗和储能系统折损相关的惩罚成本，C_2,i,t为居民建筑i在时隙t与室内温度偏离相关的惩罚成本，C_3,i,t为在时隙t居民建筑i对应的从问题中二次型惩罚项相关的惩罚成本；β_i为居民建筑i的暖通空调系统能耗和储能系统折损导致的惩罚成本相对于室内温度偏离导致的惩罚成本的重要性系数，ζ_i为在时隙t居民建筑i对应的从问题中二次型惩罚项相对于室内温度偏离惩罚成本的重要性系数。

可选的，所述智能体包括行动者网络、目标行动者网络、评论家网络、目标评论家网络；所述行动者网络和目标行动者网络的结构相同，所述评论家网络和目标评论家网络的结构相同；

所述行动者网络输入为环境状态，输出高斯分布均值和协方差矩阵乔列斯基分解得到的下三角矩阵所有元素；所述行动者网络包括一个输入层、多个隐藏层和一个输出层；所述行动者网络的输入层的神经元个数与环境状态的分量数目相同，所述行动者网络的输出层的神经元个数为n_a+n_a(n_a+1)/2，n_a表示动作a_i,t的分量数目；

所述评论家网络输入为环境状态和相应的动作，输出为Q值函数，所述Q值函数为智能体在环境状态下采取相应的动作后的累积折扣奖励期望值；所述评论家网络包括两个输入层、多个隐藏层和一个输出层，所述评论家网络的两个输入层的神经元个数分别与环境状态和相应的动作的分量数目相同，所述评论家网络的输出层的神经元个数为1。

可选的，所述采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练包括：

针对居民建筑i对应的马尔可夫决策过程相关的智能体，初始化电网交互型高效居民建筑的运行环境、时隙t＝1，重复执行预设的训练迭代步骤直至t>WT，W为预设的训练片段数；

所述训练迭代步骤包括：

获取居民建筑i相关的智能体在时隙t的环境状态s_i,t；

基于环境状态s_i,t，居民建筑i相关的智能体输出动作a_i,t；

将动作a_i,t应用于电网交互型高效居民建筑的运行环境得到时隙t+1的环境状态s_i,t+1和时隙t的奖励函数r_i,t+1；

将构建四元组(s_i,t,a_i,t,r_i,t+1,s_i,t+1)存储到经验池D_i中，并令t＝t+1；

若t/K＝0，K为预设常数，则从经验池D_i中提取小批量四元组作为训练样本，利用最大后验策略优化算法对居民建筑i相关的智能体的行动者网络和评论家网络进行训练。

可选的，所述智能体中评论家网络通过最小化损失函数进行更新，所述最小化损失函数为：

式中，θ_i、θ_i ^′为居民建筑i相关的智能体中评论家网络和目标评论家网络的参数，J为评论家网络对应的训练样本的数量，训练样本j为为参数θ_i、θ_i ^′下的状态动作值函数，γ为折扣系数，π_i,old为居民建筑i相关的智能体中目标行动者网络输出对应的策略，a表示根据策略π_i,old采取的动作；

所述目标评论家网络的参数更新为：

式中，为取值在0到1范围内的常数。

可选的，所述智能体中行动者网络的更新包括：

初始化居民建筑i相关的智能体中目标行动者网络输出对应的策略Φ_i为居民建筑i相关的智能体中行动者网络的参数，重复执行预设的更新迭代步骤直至更新迭代次数u>U，U为预设的更新迭代最大次数；

所述更新迭代步骤包括：

居民建筑i相关的智能体从经验池D_i抽取L个训练样本，训练样本l为

获得非参数化策略：

式中，a_m为环境状态根据策略/>采取的动作m，1≤m≤M，M为环境状态/>根据策略π_i,Φ ^_'采取的动作的数量；exp为指数函数；Φ_i ^'为居民建筑i相关的智能体中目标行动者网络的参数；

为熵减少限制系数，η为中间变量；

更新参数化策略：

构建数据集基于构建的数据集获取更新后的参数化策略：

式中，π_i,new为居民建筑i相关的智能体更新后的参数化策略，κ_π为限制参数化策略变化的系数，KL为KL散度函数，为拉格朗日系数；

所述目标行动者网络的参数更新为：

式中，为取值在0到1范围内的常数。

可选的，所述对主问题和多个从问题进行迭代求解包括：

初始化时隙t＝1，重复执行预设的测试迭代步骤直至t>HT，H为预设的测试片段数；

所述测试迭代步骤包括：

初始化迭代步数k＝0、辅助变量对偶变量/>环境状态/>重复执行预设的交替方向乘子法框架迭代步骤直至k>K，K为预设的交替方向乘子法最大迭代步数；

所述交替方向乘子法框架迭代步骤包括：

利用训练好的智能体策略根据输入的环境状态输出动作/>

将动作带入主问题，采用凸优化理论对主问题进行求解，获取辅助变量/>

根据动作和辅助变量/>计算对偶变量：

判断是否成立，ε为预设阈值：

若成立，则将动作作为居民建筑i在时隙t对应从问题的最终求解结果，辅助变量/>作为居民建筑i在时隙t对应主问题的最终求解结果；令t＝t+1，并重置测试迭代步骤；

若不成立，则根据辅助变量和对偶变量/>更新环境状态生成环境状态/>令k＝k+1。

与现有技术相比，本发明所达到的有益效果：

本发明提供的一种电网交互型高效居民建筑智能协同运行优化方法，采用交替方向乘子法将上述运行成本最小化问题分解成主问题和从问题，其中主问题可采用凸优化理论直接求解，从问题为与每个居民建筑相关的运行优化问题，可采用深度强化学习算法进行求解；通过在交替方向乘子法框架下交替求解从问题和主问题，最终得到原始运行优化问题的解；该发明方法无需预测任何不确定性参数、无需知晓明确的建筑热动态特性模型、具有低计算复杂度、可保护每个建筑能源隐私信息、具有高可扩展性、运行成本节省潜力大等优势。

附图说明

图1是本发明实施例一提供的电网交互型居民建筑智能协同运行优化方法流程图。

图2是本发明实施例一提供的多种方案的平均每个居民建筑运行成本对比图。

图3是本发明实施例一提供的多种方案的平均温度偏离对比图。

图4是本发明实施例一提供的多种方案的电网发电类型服务需求的功率限制偏离对比图。

图5是本发明实施例一提供的多种方案的提供电网服务细节图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明实施例提供了一种电网交互型高效居民建筑智能协同运行优化方法，包括如下步骤：

S1、在满足室内温度和空气质量在目标范围和电网服务需求的前提下，建立居民建筑群的协同运行成本最小化问题。

协同运行成本最小化问题包括决策变量、约束条件以及目标函数：

(1)决策变量包括居民建筑i在时隙t的储能系统充/放电功率f_i,t，居民建筑i的暖通空调系统在时隙t的输入功率e_i,t。

(2)约束条件包括：

式中，χ为居民建筑为电网提供发电类型服务的时间段，λ为取值在0到1范围内的常数。

(3)目标函数为：

S2、采用交替方向乘子法框架将协同运行成本最小化问题分解为一个主问题和多个从问题；

(1)主问题表达式为：

(2)每个从问题对应一个居民建筑，对于居民建筑i，其从问题表达式为：

S3、对主问题和多个从问题进行迭代求解，获取主问题和多个从问题的最终求解结果；

主问题的求解包括：采用凸优化理论对主问题进行求解，获取主问题的闭式解；具体的，采用凸优化理论对主问题进行求解包括：

判断下式是否成立：

若成立，则主问题的闭式解为：

z_e,i,t＝e_i,t+y_e,i,t

z_f,i,t＝f_i,t+y_f,i,t

若不成立，则主问题的闭式解为：

从问题的求解包括：

A、将每个从问题重新建模为马尔可夫决策过程，并构建每个马尔可夫决策过程相关的智能体；

A.1、马尔可夫决策过程中环境状态、动作、奖励函数的表达式为：

a_i,t＝(e_i,t,f_i,t)

r_i,t+1＝-β_iC_1,i,t(s_i,t,a_i,t)-C_2,i,t(s_i,t)-ζ_iC_3,i,t(s_i,t,a_i,t)

式中，s_i,t、a_i,t、r_i,t+1分别为与居民建筑i相关的智能体在时隙t的环境状态、动作和奖励函数；v_t为时隙t的购电电价，t′为时隙t的当前绝对时间在一天内的相对时间序号，z_e,i,t-y_e,i,t和z_f,i,t-y_f,i,t分别为与e_i,t和f_i,t相关的辅助变量与对偶变量差值；C_1,i,t为居民建筑i在时隙t与暖通空调系统能耗和储能系统折损相关的惩罚成本，C_2,i,t为居民建筑i在时隙t与室内温度偏离相关的惩罚成本，C_3,i,t为在时隙t居民建筑i对应的从问题中二次型惩罚项相关的惩罚成本；β_i为居民建筑i的暖通空调系统能耗和储能系统折损导致的惩罚成本相对于室内温度偏离导致的惩罚成本的重要性系数，ζ_i为在时隙t居民建筑i对应的从问题中二次型惩罚项相对于室内温度偏离惩罚成本的重要性系数；

式中，u_t为时隙t的售电电价，ψ为储能系统的折旧成本；g_i,t＝(b_i,t+e_i,t+f_i,t-p_i,t)表示从电网买电功率(实施例中假定每个时隙的长度为1个小时，因此功率等价于能量)，[·]⁺表示对大括号内的值取正(小于0则为0，大于等于0则值不变)；

A.2、智能体包括行动者网络、目标行动者网络、评论家网络、目标评论家网络；行动者网络和目标行动者网络的结构相同，评论家网络和目标评论家网络的结构相同；

行动者网络输入为环境状态，输出高斯分布均值和协方差矩阵乔列斯基分解得到的下三角矩阵所有元素；行动者网络包括一个输入层、多个隐藏层和一个输出层；行动者网络的输入层的神经元个数与环境状态的分量数目相同，行动者网络的输出层的神经元个数为n_a+n_a(n_a+1)/2，n_a表示动作a_i,t的分量数目；

评论家网络输入为环境状态和相应的动作，输出为Q值函数，Q值函数为智能体在环境状态下采取相应的动作后的累积折扣奖励期望值；评论家网络包括两个输入层、多个隐藏层和一个输出层，评论家网络的两个输入层的神经元个数分别与环境状态和相应的动作的分量数目相同，评论家网络的输出层的神经元个数为1。

B、采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练；具体包括：

B.1、针对居民建筑i对应的马尔可夫决策过程相关的智能体，初始化电网交互型高效居民建筑的运行环境、时隙t＝1，重复执行预设的训练迭代步骤直至t>WT，W为预设的训练片段数；

训练迭代步骤包括：

获取居民建筑i相关的智能体在时隙t的环境状态s_i,t；

基于环境状态s_i,t，居民建筑i相关的智能体输出动作a_i,t；

B.2、智能体中评论家网络通过最小化损失函数进行更新，最小化损失函数为：

式中，θ_i、θ′_i为居民建筑i相关的智能体中评论家网络和目标评论家网络的参数，J为评论家网络对应的训练样本的数量，训练样本j为为参数θ_i、θ′_i下的状态动作值函数，γ为折扣系数，π_i,old为居民建筑i相关的智能体中目标行动者网络输出对应的策略，a表示根据策略π_i,old采取的动作；

目标评论家网络的参数更新为：

式中，为取值在0到1范围内的常数。

B.3、智能体中行动者网络的更新包括：

更新迭代步骤包括：

获得非参数化策略：

为熵减少限制系数，η为中间变量；

更新参数化策略：

构建数据集基于构建的数据集获取更新后的参数化策略：

目标行动者网络的参数更新为：

式中，为取值在0到1范围内的常数。

C、通过每个训练好的智能体策略对相应的从问题进行求解，获取每个从问题的策略解，具体包括：

测试迭代步骤包括：

交替方向乘子法框架迭代步骤包括：

利用训练好的智能体策略根据输入的环境状态输出动作/>

根据动作和辅助变量/>计算对偶变量：

判断是否成立，ε为预设阈值：

若不成立，则根据辅助变量和对偶变量/>更新环境状态/>生成环境状态/>令k＝k+1。

S4、将多个从问题的最终求解结果作为运行决策部署到电网交互型高效居民建筑群的运行环境中。

为了展示本发明所提方法的有效性，引入四组对比方案。方案B1采用传统的开/关方式对居民建筑暖通空调系统和储能系统进行控制。以制冷模式为例，当室内温度高于舒适温度带上限时，暖通空调系统的输入功率设置为最大；当室内温度低于舒适温度带下限时，关闭暖通空调系统；其他时候下的暖通空调系统保持原输入功率。当可再生能源产出量超出消耗量时，优先将多余的能源存入储能系统，若储能系统已满，则将剩余的电能卖给大电网。当消耗量超出可再生能源产出量时，储能系统放电。若储能系统已空，则直接从电网买入。方案B2表示采用基于多智能体深度确定性策略梯度算法得到的运行方法，方案B3表示采用多智能体近端策略优化算法得到的运行方法。方案B4采取与本专利相同的方法，但在测试阶段不进行协同，即不提供电网服务。方案Proposed为本专利方法。在本实施例中，居民建筑数N＝10，总时隙数T＝480。

不同方案的性能比较如图2、图3、图4所示。可以观察到，B1的性能最差。与方案B1相比，所提出的算法可分别降低运行成本，温度偏移，电网服务需求限制偏移10.47％、81.45％和81.79％。此外，当温度偏移小于0.08时，所提出的算法可以实现比方案B2和方案B3更低的运行成本和电网服务需求偏移。具体而言，与方案B2相比，所提出的方法可分别降低运行成本4.71％和电网服务需求限制偏移65.06％。与方案B3相比，所提出的方法可分别降低运行成本5.13％和电网服务需求限制偏移74.5％。通过比较方案B4和所提方法可知，所提方法能在牺牲较小平均温度偏离和平均能量成本的同时显著降低电网服务需求限制偏移，这表明本发明方法可通过执行协同实现更好地提供电网服务。

图5是本发明方法实施例和其他方案提供电网服务细节图。相比于方案B1、方案B2和方案B3，所提出的方法能更好地满足电网服务需求。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种电网交互型高效居民建筑智能协同运行优化方法，其特征在于，包括如下步骤：

所述从问题的求解包括：将每个从问题重新建模为马尔可夫决策过程，并构建每个马尔可夫决策过程相关的智能体；采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练；通过每个训练好的智能体策略对相应的从问题进行求解，获取每个从问题的策略解；

其中，所述协同运行成本最小化问题包括决策变量、约束条件以及目标函数；

所述约束条件包括：

式中，T_i,t为居民建筑i在时隙t的室内温度，T_i ^min和T_i ^max分别为居民建筑i目标范围的最低室内温度与最高室内温度；为居民建筑i的暖通空调系统的额定功率；/>为居民建筑的热动态性模型，T_i,t+1为居民建筑i在时隙t+1的室内温度，/>为在时隙t的室外温度，ω_i,t为居民建筑i在时隙t的热扰动；B_i,t为居民建筑i在时隙t的储能系统能级，/>和为居民建筑i的储能系统最低能级和最高能级；当f_i,t<0时，f_i,t＝d_i,t,c_i,t＝0，f_i,t为居民建筑i在时隙t的储能系统放电功率；当f_i,t≥0时，f_i,t＝c_i,t,d_i,t＝0，f_i,t为居民建筑i在时隙t的储能系统充电功率；c_i,t为居民建筑i在时隙t的充电功率、d_i,t为居民建筑i在时隙t的放电功率、η_i,c为居民建筑i的储能系统充电效率，η_i,d为居民建筑i的储能系统放电效率，/>为居民建筑i的储能系统最大放电功率，/>为居民建筑i的储能系统最大充电功率；p_i,t为居民建筑i在时隙t的可再生能源的发电输出；b_i,t为居民建筑i在时隙t的固定负载需求，/>为所有居民建筑在时隙t协同提供电网服务需求所需满足的功率需求上限；N为居民建筑的数量；

所述目标函数为：

式中，为期望运算符，T为时隙总数，Φ_i,t为居民建筑i在时隙t的运行成本；

其中，所述主问题表达式为：

式中，ρ>0为正常数，z_e,i,t为与e_i,t相关的辅助变量，z_f,i,t为与f_i,t相关的辅助变量，y_e,i,t为与辅助约束z_e,i,t＝e_i,t相关的对偶变量，y_f,i,t为与辅助约束z_f,i,t＝f_i,t相关的对偶变量；

其中，所述采用凸优化理论对主问题进行求解包括：

判断下式是否成立：

若成立，则主问题的闭式解为：

z_e,i,t＝e_i,t+y_e,i,t

z_f,i,t＝f_i,t+y_f,i,t

若不成立，则主问题的闭式解为：

2.根据权利要求1所述的电网交互型高效居民建筑智能协同运行优化方法，其特征在于，所述马尔可夫决策过程中环境状态、动作、奖励函数的表达式为：

a_i,t＝(e_i,t,f_i,t)

r_i,t+1＝-β_iC_1,i,t(s_i,t,a_i,t)-C_2,i,t(s_i,t)-ζ_iC_3,i,t(s_i,t,a_i,t)

3.根据权利要求2所述的电网交互型高效居民建筑智能协同运行优化方法，其特征在于，所述智能体包括行动者网络、目标行动者网络、评论家网络、目标评论家网络；所述行动者网络和目标行动者网络的结构相同，所述评论家网络和目标评论家网络的结构相同；

4.根据权利要求3所述的电网交互型高效居民建筑智能协同运行优化方法，其特征在于，所述采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练包括：

所述训练迭代步骤包括：

获取居民建筑i相关的智能体在时隙t的环境状态s_i,t；

基于环境状态s_i,t，居民建筑i相关的智能体输出动作a_i,t；

5.根据权利要求4所述的电网交互型高效居民建筑智能协同运行优化方法，其特征在于，所述智能体中评论家网络通过最小化损失函数进行更新，所述最小化损失函数为：

所述目标评论家网络的参数更新为：

式中，为取值在0到1范围内的常数。

6.根据权利要求4所述的一种电网交互型高效居民建筑智能协同运行优化方法，其特征在于，所述智能体中行动者网络的更新包括：

所述更新迭代步骤包括：

获得非参数化策略：

式中，a_m为环境状态根据策略/>采取的动作m，1≤m≤M，M为环境状态/>根据策略采取的动作的数量；exp为指数函数；Φ_i ^_'为居民建筑i相关的智能体中目标行动者网络的参数；

为熵减少限制系数，η为中间变量；

更新参数化策略：

构建数据集基于构建的数据集获取更新后的参数化策略：

所述目标行动者网络的参数更新为：

式中，为取值在0到1范围内的常数。

7.根据权利要求2所述的电网交互型高效居民建筑智能协同运行优化方法，其特征在于，所述对主问题和多个从问题进行迭代求解包括：

所述测试迭代步骤包括：

所述交替方向乘子法框架迭代步骤包括：

利用训练好的智能体策略根据输入的环境状态输出动作/>

根据动作和辅助变量/>计算对偶变量：

判断是否成立，ε为预设阈值：