CN112381271B

CN112381271B - 一种快速对抗深度置信网络的分布式多目标优化加速方法

Info

Publication number: CN112381271B
Application number: CN202011189644.1A
Authority: CN
Inventors: 殷林飞; 徐紫东; 高放
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-07-15
Anticipated expiration: 2040-10-30
Also published as: CN112381271A

Abstract

本发明提出一种快速对抗深度置信网络的分布式多目标优化加速方法，该方法包括了生成式对抗网络的样本数据生成方法和基于深度置信网络的调度优化决策加速方法。首先，通过纳什博弈帕累托多目标优化方法，综合考虑低成本、低碳排放和高舒适度三个目标进行优化。然后，通过生成式对抗网络生成大量样本数据，为深度置信网络的调度优化决策提供数据支持。最后，通过已完成预学习的深度置信网络实现群体智能决策，从而实现信息‑物理‑社会融合能源系统(微元网)的整体最优调度。本发明所提的方法，考虑了能源的社会性，实现了多目标优化的最佳折中，可以利用有限的信息生成大量的数据以辅助决策过程，达到加速优化过程的效果。

Description

一种快速对抗深度置信网络的分布式多目标优化加速方法

技术领域

本发明属于电力系统最优调度与控制决策领域，涉及一种基于人工智能技术的多目标优化加速方法，适用于电力系统的优化调度。

背景技术

现如今分布式可再生能源发电技术发展迅速，以风能和光伏为代表的可再生能源发电系统的大量接入，给传统电网带来了极大的挑战。一直以来，电力系统的调度控制体系是集控式的，即通过输电运营商和配电运营商对电力系统进行层次性管理。这种管理模式对只有传统发电厂的电力系统是有效的，然而当大量的出力大小不确定和波动大的分布式电源接入后，这种响应速度慢的调度控制体系就难以实现功率的合理分配。近年来，微电网技术得到了广泛的研究和发展，微电网是将分布式电源、负荷和储能系统组合为一个可控的整体，它既可以工作在并网模式，为主网提供频率支撑或电压支撑；也可以工作在并网模式，保证内部配电线路的电压稳定和内部负荷的用电需求，通过集控式的优化调度方法可以满足功率的平衡。但是随着系统的规模扩大，这种集中能源管理系统要从各个部分收集大量的数据，进行大规模的计算，得出的结果往往难以满足要求，同时随着物联网技术的发展和电力市场改革的深入，人类社会信息对电力系统的影响进一步加深。

因此，在调度控制时就需要考虑社会因素的影响，从而导致了优化目标个数增多。同时，随着电网拓扑结构的复杂度上升和样本数据容量的增加，传统的多目标优化方法迭代求解过程将会非常缓慢。

发明内容

本发明所提的一种快速对抗深度置信网络的分布式多目标优化加速方法，该方法包括了利用生成式对抗网络的样本数据生成方法和基于深度置信网络的调度优化决策加速方法。首先，通过纳什博弈帕累托多目标优化方法，综合考虑低成本、低碳排放和高舒适度三个目标进行优化。然后，利用生成式对抗网络生成大量样本数据，为深度置信网络的调度优化决策提供数据支持，通过已完成预学习的深度置信网络实现群体智能决策，从而实现信息-物理-社会融合能源系统(微元网)的整体最优调度。

为了协调成本、碳排放和用户舒适度三者之间的关系，本发明采用多目标优化模型。提出的三个目标函数分别如下：

1)发电成本最小：

式中，n和m分别为微元网中火电机组和水电机组的数量；P_thi、P_hyi、P_w和P_pv分别为火电、水电、风电和光伏所发出的有功功率；C_thi(P_thi)、C_hyi(P_hyi)、C_w(P_w)和C_pv(P_pv)分别为火电、水电、风电和光伏的发电成本。

2)碳排放量最小：

式中，α_i、β_i和γ_i分别为火电机组的碳排放系数；P_thi为火电机组的出力。

3)用户舒适度最高：

式中，N为微元网中用户的数量；v(i)和g(i)为惩罚函数；T_r和T_w分别为当前室温和水温；f_r和f_w分别为当前室温和水温与用户期望室温和水温差的平方，计算公式如下：

f_r(T_r(i))＝(T_r(i)-E_r(i))² (4)

f_w(T_w(i))＝(T_w(i)-E_w(i))² (5)

式中，E_r和E_w分别为用户期望室温和水温。

等式和不等式约束可由下式表示：

式中，P_loss为总有功损耗；P_load为总有功负荷；Q_thi、Q_hyi、Q_w和Q_pv分别为火电、水电、风电和光伏所发出的无功功率；Q_loss为总无功损耗；Q_load为总无功负荷；P_G和Q_G分别代表各个类型发电机的有功和无功出力；P_G,min和P_G,max分别为有功出力的最小和最大值；Q_G,min和Q_G,max分别为无功出力的最小值和最大值；V_j为节点j的电压；V_j,min和V_j,max分别为节点j的最小电压和最大电压；S_i为线路传输功率；S_i,max为线路最大传输功率；T_r,max和T_w,max分别为最高室温和最高水温。

本发明采用帕累托多目标优化方法，可以用如下数学式来表示优化过程：

MinF_i(X)，i＝1,2,...,M_obj (7)

式中，F_i是第i个目标函数；X为决策向量；M_obj为目标函数的个数，本发明中M_obj＝3。

约束条件：

式中，M_ineq为不等式约束的个数；M_eq为等式约束的个数；M_dv为决策向量的个数；g_i(X)为不等式约束的表达式；h_i(X)为等式约束的表达式；L_i和U_i分别为第i个决策向量X_i的最小值和最大值。帕累托多目标优化最终是得到一组优化解而不是一个最优解，如果解向量X_a优于解向量X_b(如式(9)所示)，则解向量X_b即可被解向量X_a覆盖或支配。

任何不受其它解支配的解则称为非支配解，在整个搜索空间中都不能被覆盖或被支配的解就是帕累托最优解，将这些解映射到目标空间的适应度向量为帕累托前沿，可表示为：

式中，PF为帕累托前沿；X^*为一组帕累托最优解。

将所有满足约束条件的多个初始可行解定义为多个原始人类个体，纳什博弈帕累托多目标优化方法的每个循环周期内部落都要经历部落划分、部落繁衍和部落迁徙三个阶段，不断地逼近最佳“栖息地”，即逼近帕累托前沿。

为了提高生存率，原始人类会自发的形成许多部落，各部落间保持着一定的距离。首先根据一个随机选择的目标函数值对全部个体按降序进行排列。然后，在每一个循环周期中，均匀地选择N_tr个初始成员，以每个初始成员为基础形成部落，并且计算出每个个体和初始成员的欧式距离(如式(11)所示)。最后，根据个体间的距离来将剩下的成员分配到各个部落。

式中，d_ij为个体i与个体j之间的距离；f_i ^k与f_j ^k分别为第i个个体与第j个个体的第k个目标值；f_kmax与f_kmin分别为第k个目标的最大值与最小值；N₀为个体数；N_tr为部落数；Dim为目标函数个数。

划分好部落后，根据非支配排序和共享度计算出每个个体的适应度，然后根据逼近帕累托前沿的程度，将每个部落成员分配了不同的角色，分别为强者(强者中共享度最小的为首领)、平民和迁徙者。

若现有的生存空间减小，一些个体就会迁徙到其它适合生存的空间来：

x_i ^k＝rand (12)

式中，x_i ^k为第k个目标函数中的第i个个体的位置；rand代表取随机数，其范围为[x_kmin,x_kmax]；x_kmax和x_kmin分别为第k个目标函数中每个个体位置的最大和最小值。

一般来说，非支配个体的数量将随着方法的循环而增加，该方法将通过迭代逐步降低迁移概率来动态调整迁移者的数量：

式中，p_mig为迁徙概率；p_max和p_min分别为最大和最小迁徙概率；It为当前迭代次数；It_max为最大迭代次数；sinh()为双曲正弦函数；C_mig和k_mig分别为确定双曲正弦函数的变化斜率。

纳什博弈平衡：

式中，h_ij是对应的第i个目标函数的第j个帕累托优化解(PF中的第j个元素)；v_i表示为第i个目标函数的拟合值期望的上限；M_pf是预先指定的大小，表示有限的PF集；ω_i是对于第i个目标函数的相对重要性的权重。

约束条件：

式中，f_ij是对应于第i个目标函数的第j个帕累托优化解的规范适应值。

帕累托部落进化方法是一种模拟原始人类社会性活动的启发式仿生方法。将所有满足约束条件的多个初始可行解定义为多个原始人类个体，纳什博弈帕累托多目标优化方法的每个循环周期内部落都要经历部落划分、部落繁衍和部落迁徙三个阶段，不断地逼近最佳“栖息地”，即逼近帕累托前沿。每一次迭代过程都要经历三个阶段，同时也需要进行多次迭代，因此非常耗时。针对帕累托多目标优化方法的这一缺陷，本发明提出了基于深度置信网络的调度优化决策加速方法。该方法具体步骤如下：

(1)随机选取m个样本进行k次迭代；

(2)得到一组训练数据X_i＝[x₁,x₂,...,x_n]i＝1,2,...,(m×k)，将其输入到深度置信网络进行预学习；

(3)将所有样本数据输入已完成预学习的深度置信网络中，得到初步最优解X_pr；

(4)在X_pr附近选取新的样本，再利用纳什博弈帕累托多目标优化方法求解最优解。

本发明所采用的深度置信网络是一个多层的概率生成模型，由多个受限波尔兹曼机和一个回归层栈式叠加而成。其中，受限波尔兹曼机是对玻尔兹曼机的简化，是一个两层的神经网络。输入层由可见变量v构成，v之间无权值连接；输出层由隐藏变量h构成，h之间也无权值连接。仅在v和h之间存在权值连接，且v和h只能取0或1,两种状态。

可见单元可由向量v＝[v₁,v₂,v₃,...,v_n]^T表示，隐藏单元可由向量h＝[h₁,h₂,h₃,...,h_m]^T表示，内部参数向量可表示为θ，T表示转置，那么基于能量模型联合概率分布为：

式中，Z(θ)为归一化因子；exp()为指数函数；E(v,h；θ)为能量函数，可表示为：

式中，a_i为可见单元i的偏置；b_j为隐藏单元j的偏置；w_ij为可见单元i与隐藏单元j的神经元连接权重。

当可见变量v给定时，隐藏变量h可表示为：

式中，

为sigmoid激活函数。

同样地，当隐藏变量h给定时，可见变量v可表示为：

受限玻尔兹曼机训练的目的是使可见层v的联合概率密度最大，对于一个训练样本集S＝{v¹,v²,...,v^s}，v¹、v²、…、v^s分别为第1个到第s个样本数据，需要调整参数θ使得对数似然函数L(θ)最大，由极大似然估计原理可得：

式中，

表示求当对数似然函数L(θ)取最大值时θ的值；s为训练样本数据的个数；v^k为第k个样本数据。

多层受限波尔兹曼机可以通过贪婪学习的逐层预训练方式提取输入数据的隐含特征。完成了前向预训练后，需要进行反向调整，回归层就起到了反向微调的作用，把提取的数据隐含特征映射到输出值上。上述两个阶段完成后，即完成了深度置信网络的参数θ的学习。

通过生成式对抗网络可以生成海量的模拟场景，构成深度置信网络的样本数据产生系统。该网络由一个生成器和一个判别器构成，生成器的目的是尽量生成接近真实样本分布的数据，判别器的目的是尽量判别输入的数据是来自真实样本集还是生成器。生成器和判别器的目标函数分别如下：

式中，log()表示求对数，P_data为真实数据样本分布，在本发明中代表来自微元网的真实运行数据的分布；D(x)为真实数据x在判别器D中判别为真的概率；

表示当x服从真实样本分布时求期望；P_z为噪声分布；D(G(z))为生成的数据G(z)在判别器D中判别为真的概率；

表示z服从噪声分布时求期望。

网络总目标可以描述为：

生成式对抗网络绕过了复杂的生成器数据概率分布求取过程，而是用一个深度神经网络加上噪声分布来逼近生成器数据的概率分布。其优化问题是一个最小最大问题，生成器和判别器相互博弈，实现共同提升。

附图说明

图1是本发明方法的总流程图。

图2是帕累托部落进化方法的计算框架图。

图3是深度置信网络的框架图。

具体实施方式

本发明提出的一种快速对抗深度置信网络的分布式多目标优化加速方法，结合附图详细说明如下：

图1是本发明方法的总流程图，具体包括以下步骤：

(1)构建多目标优化函数，综合考虑低成本、低碳排放和高舒适度三个目标进行优化；

(2)随机选取m个样本进行k次迭代，得到一组训练数据X_i＝[x₁,x₂,...,x_n]i＝1,2,...,(m×k)，将其输入到深度置信网络进行预学习；

(3)利用生成式对抗网络，生成海量虚拟场景，构成深度置信网络的样本数据产生系统，并且将所有样本数据输入已完成预学习的深度置信网络中，得到初步最优解X_pr；

(4)在初步最优解X_pr附近选取样本数据，再次利用纳什博弈帕累托多目标优化方法，实现微元网的快速调度优化决策。

图2是帕累托部落进化方法的计算框架图，将所有满足约束条件的多个初始可行解定义为多个原始人类个体，纳什博弈帕累托多目标优化方法的每个循环周期内部落都要经历部落划分、部落繁衍和部落迁徙三个阶段，不断地逼近最佳“栖息地”，即逼近帕累托前沿。

为了提高生存率，原始人类会自发的形成许多部落，各部落间保持着一定的距离。首先根据一个随机选择的目标函数值对全部个体按降序进行排列；然后，在每一个循环周期中，均匀地选择N_tr个初始成员，以每个初始成员为基础形成部落，并且计算出每个个体和初始成员的欧式距离；最后，根据个体间的距离来将剩下的成员分配到各个部落。

得到多个帕累托前沿之后，采用基于纳什博弈平衡的决策方法确定最优折中解。

图3是深度置信网络的框架图，本发明所采用的深度置信网络是一个多层的概率生成模型，由多个受限波尔兹曼机和一个回归层栈式叠加而成。其中，受限波尔兹曼机是对波尔兹曼机的简化，是一个两层的神经网络。输入层由可见变量v构成，v之间无权值连接；输出层由隐藏变量h构成，h之间也无权值连接。仅在v和h之间存在权值连接，且v和h只能取0或1两种状态。

受限波尔兹曼机可以通过贪婪学习的逐层预训练方式提取输入数据的隐含特征。完成了前向预训练后，需要进行反向调整，回归层就起到了反向微调的作用，把提取的数据隐含特征映射到输出值上。上述两个阶段完成后，即完成了深度置信网络的参数θ的学习。

Claims

1.一种快速对抗深度置信网络的分布式多目标优化加速方法，其特征在于，该方法提出优化加速方法和样本数据生成方法，即基于深度置信网络的调度优化决策加速方法和利用生成式对抗网络的样本数据生成方法；同时提出纳什博弈帕累托多目标优化方法，该方法在使用过程中的步骤为：

(1)提出纳什博弈帕累托多目标优化方法，综合考虑低成本、低碳排放和高舒适度三个目标进行优化，将得到的结果用来训练深度置信网络；

三个目标函数分别如下：

1)发电成本最小：

式中，n和m分别为微元网中火电机组和水电机组的数量，P_thi、P_hyi、P_w和P_pv分别为火电、水电、风电和光伏所发出的有功功率，C_thi(P_thi)、C_hyi(P_hyi)、C_w(P_w)和C_pv(P_pv)分别为火电、水电、风电和光伏的发电成本；

2)碳排放量最小：

式中，α_i、β_i和γ_i为火电机组的碳排放系数，P_thi为火电机组的出力；

3)用户舒适度最高：

式中，N为微元网中用户的数量，v(i)和g(i)为惩罚函数，T_r和T_w分别为当前室温和当前水温，f_r和f_w分别为当前室温和水温与用户期望室温差和水温差的平方，计算公式如下：

f_r(T_r(i))＝(T_r(i)-E_r(i))²，

f_w(T_w(i))＝(T_w(i)-E_w(i))²，

式中，E_r和E_w分别为用户期望室温和期望水温；

等式和不等式约束由下式表示：

式中，P_loss为总有功损耗，P_load为总有功负荷，Q_thi、Q_hyi、Q_w和Q_pv分别为火电、水电、风电和光伏所发出的无功功率，Q_loss为总无功损耗，Q_load为总无功负荷，P_G和Q_G分别代表各个类型发电机的有功和无功出力，P_G,min和P_G,max分别为有功出力的最小值和最大值，Q_G,min和Q_G,max分别为无功出力的最小值和最大值，V_j为节点j的电压，V_j,min和V_j,max分别为节点j的最小电压和最大电压，S_i为线路传输功率，S_i,max为线路最大传输功率，T_r,max和T_w,max分别为最高室温和最高水温；

帕累托多目标优化方法用如下数学式来表示优化过程：

MinF_i(X)，i＝1,2,...,M_obj，

式中，F_i为第i个目标函数；X为决策向量；M_obj为目标函数的个数，M_obj＝3；

约束条件：

式中，M_ineq为不等式约束的个数，M_eq为等式约束的个数，M_dv为决策向量的个数，g_i(X)为不等式约束的表达式，h_i(X)为等式约束的表达式，L_i和U_i分别为第i个决策向量X_i的最小值和最大值；帕累托多目标优化最终是得到一组优化解；如果解向量X_a优于解向量X_b，则解向量X_b即被解向量X_a覆盖或支配，如下式；

在整个搜索空间中都不能被覆盖或被支配的解即为帕累托最优解，将这些解映射到目标空间的适应度向量为帕累托前沿，表示为：

PF＝{F＝(F₁(X),F₂(X),...,F_Mobj(X))|X∈X^*}，

式中，PF为帕累托前沿，X^*为一组帕累托最优解；

纳什博弈帕累托多目标优化方法的每个循环周期内部落都经历部落划分、部落繁衍和部落迁徙三个阶段；不断地逼近最佳“栖息地”，即逼近帕累托前沿；首先，根据一个随机选择的目标函数值对全部个体按降序进行排列；然后，在每一个循环周期中，均匀地选择N_tr个初始成员，以每个初始成员为基础形成部落，并且计算出每个个体和初始成员的欧式距离；最后，根据个体间的距离来将剩下的成员分配到各个部落，每个个体和初始成员的欧式距离的计算式如下：

式中，d_ij为个体i与个体j之间的欧式距离，f_i ^k与f_j ^k分别为第i个个体与第j个个体的第k个目标值，f_kmax与f_kmin分别为第k个目标的最大值与最小值，N₀为个体数，N_tr为部落数，Dim为目标函数个数；

x_i ^k＝rand

式中，x_i ^k为第k个目标函数中的第i个个体的位置，rand代表取随机数，其范围为[x_kmin,x_kmax]，x_kmax和x_kmin分别为第k个目标函数中每个个体位置的最大值和最小值；

非支配个体的数量将随着循环而增加，通过迭代逐步降低迁移概率来动态调整迁移者的数量：

式中，p_mig为迁徙概率，p_max和p_min分别为最大和最小迁徙概率，It为当前迭代次数，It_max为最大迭代次数，sinh()为双曲正弦函数，C_mig和k_mig分别为确定双曲正弦函数的变化斜率；

纳什博弈平衡由下式表示：

式中，h_ij是对应的第i个目标函数的第j个帕累托优化解(PF中的第j个元素)，v_i表示为第i个目标函数的拟合值期望的上限，M_pf是预先指定的大小，表示有限的PF集，ω_i是对于第i个目标函数的相对重要性的权重，f_ij是对应于第i个目标函数的第j个帕累托优化解的规范适应值；

约束条件：

(2)利用生成式对抗网络，生成海量虚拟场景，构成深度置信网络的样本数据产生系统；

(3)将所有样本数据输入已完成预学习的深度置信网络中，即通过已完成网络参数θ学习的深度置信网络得到初步最优解X_pr；

深度置信网络，具有多层神经网络结构，特征提取能力强，通过预学习获取输入的训练样本数据与输出的初步最优值之间的关系；一旦完成预学习，深度置信网络能够快速从海量样本中获取初步最优值；深度置信网络是一个多层的概率生成模型，由多个受限波尔兹曼机和一个回归层栈式叠加而成，输入层由可见变量v构成，输出层由隐藏变量h构成；

可见单元由向量v＝[v₁,v₂,v₃,...,v_n]^T表示，隐藏单元由向量h＝[h₁,h₂,h₃,...,h_m]^T表示，内部参数表示为θ，T表示转置，基于能量模型联合概率分布为：

式中，Z(θ)为归一化因子，exp()为指数函数，E(v,h；θ)为能量函数，表示为：

式中，a_i为可见单元i的偏置，b_j为隐藏单元j的偏置，w_ij为可见单元i与隐藏单元j的神经元连接权重；

当可见变量v给定时，隐藏变量h表示为：

式中，

为sigmoid激活函数；

当隐藏变量h给定时，可见变量v表示为：

受限玻尔兹曼机训练的目的是使可见层v的联合概率密度最大，对于一个训练样本集S＝{v¹,v²,...,v^s}，v¹、v²、…、v^s分别为第1个到第s个样本数据，需要调整参数θ使得对数似然函数L(θ)最大，由极大似然估计原理得：

式中，

表示求当对数似然函数L(θ)取最大值时θ的值，s为训练样本数据的个数，v^k为第k个样本数据；

多层受限波尔兹曼机通过贪婪学习的逐层预训练方式提取输入数据的隐含特征；完成前向预训练后，需要进行反向调整；回归层起到反向微调的作用，把提取的数据隐含特征映射到输出值上；上述两个阶段完成后，即完成深度置信网络的参数θ的学习；

2.如权利要求1所述的快速对抗深度置信网络的分布式多目标优化加速方法，其特征在于，所述步骤(2)中提出的生成式对抗网络；通过该网络生成海量的模拟场景，构成深度置信网络的样本数据产生系统，解决电力系统中真实数据样本少，训练数据不够的问题，生成器和判别器的目标函数分别如下：

式中，log()表示求对数，P_data为真实样本数据的分布，代表来自微元网的真实运行数据的分布，D(x)为真实样本数据x在判别器D中判别为真的概率，

表示当x服从真实样本分布时求期望；P_z为噪声分布，D(G(z))为生成的数据G(z)在判别器D中判别为真的概率，

表示z服从噪声分布时求期望；

网络总目标描述为：

3.如权利要求1所述的快速对抗深度置信网络的分布式多目标优化加速方法，其特征在于，所述步骤(4)中提出的纳什博弈帕累托多目标优化方法，重复步骤(1)的优化过程即可。