CN112488224B - 模型训练方法、装置、计算机设备及存储介质 - Google Patents
模型训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112488224B CN112488224B CN202011424463.2A CN202011424463A CN112488224B CN 112488224 B CN112488224 B CN 112488224B CN 202011424463 A CN202011424463 A CN 202011424463A CN 112488224 B CN112488224 B CN 112488224B
- Authority
- CN
- China
- Prior art keywords
- network
- sample set
- state sample
- parameters
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 48
- 230000009467 reduction Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000000470 constituent Substances 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011946 reduction process Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010248 power generation Methods 0.000 description 4
- 238000004146 energy storage Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本申请公开了一种模型训练方法、装置、计算机设备及存储介质,涉及微网能量调度领域,通过从预设状态样本集合中获取初始状态样本集合输入至Actor网络中得到动作集合,并基于初始状态样本集合和动作集合确定下一步状态样本集合并进行压缩感知还原处理得到目标状态样本集合,并计算该目标状态样本集合的回报,最后将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。在本申请实施例中通过压缩感知还原处理对Actor网络进行训练,能够得到得到Actor网络所确定的能量调度策略,使多微网能量调度模型在不影响训练效果的情况下,能够利用较少的训练集进行训练。
Description
技术领域
本申请涉及微网能量调度领域,特别是涉及一种模型训练方法、装置、计算机设备及存储介质。
背景技术
由于光伏、风力等可再生分布式能源的应用越来越广,以多微网形式运行的能量组织形式正在成为主流,是解决新能源消纳的有效途径。单个微网通常由太阳能发电设备,风力发电设备,储能,负载等组成,在临近地区内多个微网组成多微网。为了保障多微网安全可靠的运行,需要对多微网进行合理的能量优化调度。
现有技术中,对多微网进行合理的能量优化调度通常是通过建立多微网能量调度模型来实现,通过采集多微网能量调度模型中所需的控制变量参数的训练集对多微网能量调度模型进行训练得到。
然而,多微网能量调度模型中所涉及的参数过多,需要采集大量训练集对多微网能量调度模型进行训练,训练的效率较低。
发明内容
基于此,本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质,可以通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下,利用较少的训练集进行训练。
第一方面,提供了一种模型训练方法,该方法包括:
从预设状态样本集合中获取初始状态样本集合,其中,该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,该初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数;将初始状态样本集合输入至Actor网络中,得到该Actor网络输出的动作集合,该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作;基于初始状态样本集合和动作集合确定下一步状态样本集合,并对该下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,该目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数;计算目标状态样本集合的回报;将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。
在其中一个实施例中,基于初始状态样本集合和动作集合确定下一步状态样本集合,包括:
将初始状态样本集合和动作集合代入至环境中,得到下一步状态样本集合,其中,该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。
在其中一个实施例中,对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,包括:
根据预设状态样本集合确定稀疏变换矩阵;确定随机变换矩阵;基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵,计算目标状态样本集合。
在其中一个实施例中,计算目标状态样本集合的回报,包括:
将目标状态样本集合带入至预设的离散的目标函数中,得到目标状态样本集合的回报。
在其中一个实施例中,将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数,包括:
将预设状态样本集合和目标状态样本集合输入至Critic网络中,得到Critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计;根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数。
在其中一个实施例中,根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数,包括:
根据第一价值估计、第二价值估计以及回报计算误差,根据该误差调整Actor网络的网络参数以及Critic网络的网络参数。
在其中一个实施例中,根据误差调整Actor网络的网络参数以及Critic网络的网络参数,包括:
根据误差以及第一公式更新Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,ζ为误差,为梯度算符,π(S,θa)为Actor网络;
根据误差以及第二公式更新Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计,/>为l2范数。
第二方面,提供了一种模型训练装置,该模型训练装置包括:
获取模块,用于从预设状态样本集合中获取初始状态样本集合,其中,该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数;
输入模块,用于将初始状态样本集合输入至Actor网络中,得到该Actor网络输出的动作集合,该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作;
压缩感知还原模块,用于基于初始状态样本集合和动作集合确定下一步状态样本集合,并对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数;
计算模块,用于计算目标状态样本集合的回报;
调整模块,用于将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。
在其中一个实施例中,压缩感知还原模块具体用于:
将初始状态样本集合和动作集合代入至环境中,得到下一步状态样本集合,其中,该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。
在其中一个实施例中,压缩感知还原模块,具体用于:
根据预设状态样本集合确定稀疏变换矩阵;确定随机变换矩阵;基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵,计算目标状态样本集合。
在其中一个实施例中,计算模块具体用于:
将目标状态样本集合带入至预设的离散的目标函数中,得到目标状态样本集合的回报。
在其中一个实施例中,调整模块具体用于:
将预设状态样本集合和目标状态样本集合输入至Critic网络中,得到Critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计;根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数。
在其中一个实施例中,调整模块具体用于:
根据第一价值估计、第二价值估计以及回报计算误差;根据该误差调整Actor网络的网络参数以及Critic网络的网络参数。
在其中一个实施例中,调整模块具体用于:
根据误差以及第一公式更新Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,ζ为误差,为梯度算符,π(S,θa)为Actor网络;
根据误差以及第二公式更新Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的模型训练方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的模型训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的技术方案中,首先从预设状态样本集合中获取初始状态样本集合,将初始状态样本集合输入至Actor网络中得到动作集合,并基于初始状态样本集合和动作集合确定下一步状态样本集合,然后对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,并计算该目标状态样本集合的回报,最后将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。在本申请实施例中利用压缩感知还原处理得到的目标样本集合对Actor网络进行训练,相比于现有技术中在多微网能量调度模型中需要采集大量训练集对多微网能量调度模型进行训练,本申请实施例提供的技术方案通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下,利用较少的训练集进行训练,节约了模型训练时间。
附图说明
图1为本申请实施例提供的一种实施环境的示意图;
图2为本申请实施例提供的一种模型训练方法的流程图;
图3为本申请实施例提供的一种模型训练方法的流程图;
图4为本申请实施例提供的一种模型训练方法的流程图;
图5为本申请实施例提供的一种模型训练装置的框图;
图6为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
当前,由于光伏、风力等可再生分布式能源的应用越来越广,以多微网形式运行的能量组织形式正在成为主流,是解决新能源消纳的有效途径。单个微网通常由太阳能发电设备,风力发电设备,储能,负载等组成,在临近地区内多个微网组成多微网。为了保障多微网安全可靠的运行,需要对多微网进行合理的能量优化调度。
现有技术中,多微网进行合理的能量优化调度通常是通过建立多微网能量调度模型来实现,通过采集多微网能量调度模型中所需的状态样本的训练集对多微网能量调度模型进行训练得到。多微网能量调度模型中所涉及的参数过多,需要采集大量训练集对多微网能量调度模型进行训练,训练的效率较低。
有鉴于此,本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质,通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下,利用较少的训练集进行训练。
下面,将对本申请实施例提供的模型训练方法所涉及到的实施环境进行说明。
图1为本申请实施例提供的模型训练方法所涉及到的实施环境的示意图。如图1所示,该实施环境可以包括终端101和服务器102,其中,终端101和服务器102之间可以通过有线或无线的方式进行通信。
终端101可以将从多微网中采集到的状态样本发送至服务器102,服务器102中存储有Actor网络和Critic网络,Actor网络和Critic网络能够利用接收到的状态样本进行训练。
其中,终端101可以为光伏功率采集终端或微网中其他状态样本采集终端。服务器102可以为一台服务器,也可以为由多台服务器组成的服务器集群。下述方法实施例中,均以执行主体是服务器102为例来进行说明。
请参考图2,其示出了本申请实施例提供的一种模型训练方法的流程图,该模型训练方法可以应用于上文所述实施环境中的服务器中。如图2所示,该模型训练方法可以包括以下步骤:
步骤201、服务器从预设状态样本集合中获取初始状态样本集合。
预设状态样本集合可以是在n个历史时间节点分别测得的多微网中的构成元素的状态参数,该状态参数可以为光伏、风机、负载、储能等元素的功率,比如服务器接收到采集终端在n个历史时间节点分别测得的光伏功率,预设状态样本集合可以用数学语言表示为s(t1),s(t2),...s(tn)。
初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数,初始状态样本集合可以是训练时在预设状态样本集合中所选定的部分状态样本集合,比如初始状态样本集合可以是m个历史时间节点分别测得的光伏功率,初始状态样本集合可以用数学语言表示为s(t1),s(t2),...s(tm),由于预设状态样本集合包括了初始状态样本集合,所以初始状态样本集合为预设状态样本集合的子集,n>m,且n和m均为正整数。
步骤202、服务器将初始状态样本集合输入至Actor网络中,得到Actor网络输出的动作集合。
其中,Actor网络是策略函数,其可以表示为π(s;θa),s表示状态样本,θa表示Actor网络参数。
服务器将初始状态样本集合s(t1),s(t2),...s(tm)输入至Actor网络π(s;θa)中,确定动作集合u(t1),u(t2),...u(tm),动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作。
步骤203、服务器基于初始状态样本集合和动作集合确定下一步状态样本集合,并对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合。
在本申请的可选实施例中,服务器将初始状态样本集合s(t1),s(t2),...s(tm)和动作集合u(t1),u(t2),...u(tm)代入至环境中,确定下一步状态样本集合s'(t1),s'(t2),...s'(tm)。在本申请实施例中环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。例如,在仿真模型搭建的微网结构中,环境即为微网的仿真模型。
在得到s'(t1),s'(t2),...s'(tm)之后,服务器可以对下一步状态样本集合进行压缩感知还原处理,从而得到目标状态样本集合S(t1),S(t2),...S(tn),其中,压缩感知还原处理可以是将m维的状态样本还原为n维的状态样本的算法。
目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数。
步骤204、服务器计算目标状态样本集合的回报。
目标状态样本集合的回报可以是目标状态样本集合根据离散的目标函数在各个时间节点上的差值映射。其中,目标函数指的是多微网能量调度模型的目标函数,离散的目标函数是指在各个时间节点上的积分。
通过S(t1),S(t2),...S(tn)和离散的目标函数J确定出在n个时间节点上的回报R(S(t))={R(S(t1)),R(S(t2)),...R(S(tn))}。
步骤205、服务器将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。
其中,Critic网络是评价函数,其可以表示为V(s;θc)。
服务器根据预设状态样本集合s(t1),s(t2),...s(tn),目标状态样本集合S(t1),S(t2),...S(tn)和回报R(S(t))={R(S(t1)),R(S(t2)),...R(S(tn))}输入到Critic网络V(s;θc)中,得到误差以及均方差损失函数。
并根据输出对Actor网络的网络参数θa以及Critic网络的网络参数θc进行更新,得到更新后的Actor网络的网络参数θa'和Critic网络的网络参数θc'。
本申请实施例提供的技术方案中,首先从预设状态样本集合中获取初始状态样本集合,将初始状态样本集合输入至Actor网络中,并输出动作集合,并基于初始状态样本集合和动作集合确定下一步状态样本集合,然后对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,并计算目标状态样本集合的回报,最后将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。在本申请实施例中利用压缩感知还原处理得到的目标样本集合对Actor网络进行训练,相比于现有技术中在多微网能量调度模型中需要采集大量训练集对多微网能量调度模型进行训练,本申请实施例提供的技术方案通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下,利用较少的训练集进行训练,节约了模型训练时间。
在本申请的可选实施例中,如图3所示,服务器对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,该技术过程包括以下步骤:
步骤301、服务器根据预设状态样本集合确定稀疏变换矩阵。
服务器设置稀疏表达系数x,并根据预设状态样本集合s=s(t1),s(t2),...s(tn),确定稀疏变换矩阵x具有稀疏性,Φ的维度为n×n。
步骤302、服务器确定随机变换矩阵。
服务器根据均匀随机分布进行随机采样,确定随机变化矩阵Ψ,Ψ的维度为m×n。
步骤303、服务器基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵,计算目标状态样本集合。
服务器根据下一步状态样本集合s'=s'(t1),s'(t2),...s'(tm)、稀疏变换矩阵Φ以及随机变换矩阵Ψ进行计算,通过求解第三公式求得稀疏表达系数X。
其中,第三公式为:
其中,为l1范数,具体是指向量中各个元素绝对值之和,/>为l2范数,是指向量各元素的平方和然后求平方根,σ为设定的阈值,为极小值。
通过第三公式求得稀疏表达系数X并通过S=ΦX得到目标状态样本集合S=S(t1),S(t2),...S(tn)。
在本申请的可选实施例中,如图4所示,服务器将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数,该技术过程包括以下步骤:
步骤401、服务器将预设状态样本集合和目标状态样本集合输入至Critic网络中,得到Critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计。
第一价值估计可以是预设状态样本集合输入至Critic网络所得到的各个历史时间节点的估计值。
第二价值估计可以是目标状态样本集合输入至Critic网络所得到的各个历史时间节点的估计值。
服务器根据预设状态样本集合s=s(t1),s(t2),...s(tn)和目标状态样本集合S=S(t1),S(t2),...S(tn)输入至Critic网络V(s;θc)中,分别得到第一价值估计和第二价值估计V(s(t))={V(s(t1),V(s(t2)),...V(s(tn))},V(S(t))={V(S(t1)),V(S(t2)),...V(S(tn))}。
步骤402、服务器根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数。
服务器根据第一价值估计V(s(t))={V(s(t1),V(s(t2)),...V(s(tn))}、第二价值估计V(S(t))={V(S(t1)),V(S(t2)),...V(S(tn))}以及回报R(S(t))={R(S(t1)),R(S(t2)),...R(S(tn))}计算误差:
其中i=1,2...n,γ为折扣因子。
在计算得到误差之后,服务器可以根据误差调整Actor网络的网络参数以及Critic网络的网络参数。
其中,在本申请的一个可选实施例中,服务器可以根据所述误差以及第一公式更新所述Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,为误差,/>为梯度算符,π(S,θa)为Actor网络;
此外,服务器还可以根据所述误差以及第二公式更新所述Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计,/>为l2范数,是指向量各元素的平方和然后求平方根。
通过训练不断更新Actor网络的网络参数和Critic网络的网络参数,设置最大回合数结束上述步骤训练,并将根据最终确定的Actor网络给出目标函数的能量调度策略。
请参考图5,其示出了本申请实施例提供的一种模型训练装置500的框图,该模型训练装置500可以配置于服务器中。如图5所示,该模型训练装置500可以包括:获取模块501、输入模块502、压缩感知还原模块503、计算模块504以及调整模块505。
获取模块501,用于从预设状态样本集合中获取初始状态样本集合,其中,该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数。
输入模块502,用于将初始状态样本集合输入至Actor网络中,得到该Actor网络输出的动作集合,该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作。
压缩感知还原模块503,用于基于初始状态样本集合和动作集合确定下一步状态样本集合,并对下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数。
计算模块504,用于计算目标状态样本集合的回报。
调整模块505,用于将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请的可选实施例中,该压缩感知还原模块503,具体用于:将初始状态样本集合和动作集合代入至环境中,得到下一步状态样本集合,其中,该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。
在本申请的可选实施例中,该压缩感知还原模块503,具体用于:根据预设状态样本集合确定稀疏变换矩阵;确定随机变换矩阵;基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵,计算目标状态样本集合。
在本申请的可选实施例中,该计算模块504具体用于:将目标状态样本集合带入至预设的离散的目标函数中,得到目标状态样本集合的回报。
在本申请的可选实施例中,该调整模块505具体用于:
将预设状态样本集合和目标状态样本集合输入至Critic网络中,得到Critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计;根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请的可选实施例中,该调整模块505具体用于:
根据第一价值估计、第二价值估计以及回报计算误差;根据该误差调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请的可选实施例中,该调整模块505具体用于:
根据误差以及第一公式更新Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,为误差,/>为梯度算符,π(S,θa)为Actor网络;
根据误差以及第二公式更新Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计,/>为l2范数。
关于模型训练装置的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练方法。
本领域技术人员可以理解,如图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
从预设状态样本集合中获取初始状态样本集合,其中,该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,该初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数;将初始状态样本集合输入至Actor网络中,得到该Actor网络输出的动作集合,该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作;基于初始状态样本集合和动作集合确定下一步状态样本集合,并对该下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,该目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数;计算目标状态样本集合的回报;将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:将初始状态样本集合和动作集合代入至环境中,得到下一步状态样本集合,其中,该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。
在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预设状态样本集合确定稀疏变换矩阵;确定随机变换矩阵;基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵,计算目标状态样本集合。
在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标状态样本集合带入至预设的离散的目标函数中,得到目标状态样本集合的回报。
在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:将预设状态样本集合和目标状态样本集合输入至Critic网络中,得到Critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计;根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:根据第一价值估计、第二价值估计以及回报计算误差;根据该误差调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:根据误差以及第一公式更新Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,为误差,/>为梯度算符,π(S,θa)为Actor网络;
根据误差以及第二公式更新Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
从预设状态样本集合中获取初始状态样本集合,其中,该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,该初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数;将初始状态样本集合输入至Actor网络中,得到该Actor网络输出的动作集合,该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作;基于初始状态样本集合和动作集合确定下一步状态样本集合,并对该下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,该目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数;计算目标状态样本集合的回报;将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中,并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:将初始状态样本集合和动作集合代入至环境中,得到下一步状态样本集合,其中,该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预设状态样本集合确定稀疏变换矩阵;确定随机变换矩阵;基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵,计算目标状态样本集合。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标状态样本集合带入至预设的离散的目标函数中,得到目标状态样本集合的回报。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:将预设状态样本集合以及目标状态样本集合输入至Critic网络中,得到Critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计;根据第一价值估计、第二价值估计以及回报调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据第一价值估计、第二价值估计以及回报计算误差;根据该误差调整Actor网络的网络参数以及Critic网络的网络参数。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据误差以及第一公式更新Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,ζ为误差,为梯度算符,π(S,θa)为Actor网络;
根据误差以及第二公式更新Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以M种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种模型训练方法,其特征在于,所述方法包括:
从预设状态样本集合中获取初始状态样本集合,其中,所述预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,所述初始状态样本集合包括在m个历史时间节点分别测得的所述多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数;
将所述初始状态样本集合输入至Actor网络中,得到所述Actor网络输出的动作集合,所述动作集合包括对所述多微网中的构成元素的工作状态进行调整的m个调整动作;
基于所述初始状态样本集合和所述动作集合确定下一步状态样本集合,并对所述下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,所述目标状态样本集合包括在n个时间节点所述多微网中的构成元素的状态参数;
计算所述目标状态样本集合的回报;
将所述预设状态样本集合、所述目标状态样本集合以及所述回报输入至Critic网络中,并根据所述Critic网络的输出调整所述Actor网络的网络参数以及所述Critic网络的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始状态样本集合和所述动作集合确定下一步状态样本集合,包括:
将所述初始状态样本集合和所述动作集合代入至环境中,得到所述下一步状态样本集合,其中,所述环境用于模拟仿真所述多微网的各个构成元素以及各个构成元素的交互关系。
3.根据权利要求1所述的方法,其特征在于,所述对所述下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,包括:
根据所述预设状态样本集合确定稀疏变换矩阵;
确定随机变换矩阵;
基于所述下一步状态样本集合、所述稀疏变换矩阵以及所述随机变换矩阵,计算所述目标状态样本集合。
4.根据权利要求1所述的方法,其特征在于,所述计算所述目标状态样本集合的回报,包括:
将所述目标状态样本集合带入至预设的离散的目标函数中,得到所述目标状态样本集合的回报。
5.根据权利要求1所述的方法,其特征在于,所述将所述预设状态样本集合、所述目标状态样本集合以及所述回报输入至Critic网络中,并根据所述Critic网络的输出调整所述Actor网络的网络参数以及所述Critic网络的网络参数,包括:
将所述预设状态样本集合和所述目标状态样本集合输入至所述Critic网络中,得到所述Critic网络输出的与所述预设状态样本集合对应的第一价值估计以及与所述目标状态样本集合对应的第二价值估计;
根据所述第一价值估计、所述第二价值估计以及所述回报调整所述Actor网络的网络参数以及所述Critic网络的网络参数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一价值估计、所述第二价值估计以及所述回报调整所述Actor网络的网络参数以及所述Critic网络的网络参数,包括:
根据所述第一价值估计、所述第二价值估计以及所述回报计算误差;
根据所述误差调整所述Actor网络的网络参数以及所述Critic网络的网络参数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述误差调整所述Actor网络的网络参数以及所述Critic网络的网络参数,包括:
根据所述误差以及第一公式更新所述Actor网络的网络参数,其中,第一公式为:
其中,θa'为Actor网络更新后的网络参数,θa为Actor网络更新前的网络参数,αa为Actor网络学习率,ζ为误差,为梯度算符,π(S,θa)为Actor网络;
根据所述误差以及第二公式更新所述Critic网络的网络参数,其中,第二公式为:
其中,θc'为Critic网络更新后的网络参数,θc为Critic网络更新前的网络参数,αc为Critic网络学习率,ε(θc)为均方差损失函数,R(S(t))为目标状态样本集合的回报,V(s(t))为第一价值估计,V(S(t))为第二价值估计,/>为l2范数。
8.一种模型训练装置,其特征在于,所述装置包括:
获取模块,从预设状态样本集合中获取初始状态样本集合,其中,所述预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数,所述初始状态样本集合包括在m个历史时间节点分别测得的所述多微网中的构成元素的状态参数,m为正整数,n为大于m的正整数;
输入模块,用于将所述初始状态样本集合输入至Actor网络中,得到所述Actor网络输出的动作集合,所述动作集合包括对所述多微网中的构成元素的工作状态进行调整的m个调整动作;
压缩感知还原模块,用于基于所述初始状态样本集合和所述动作集合确定下一步状态样本集合,并对所述下一步状态样本集合进行压缩感知还原处理,得到目标状态样本集合,其中,所述目标状态样本集合包括在n个时间节点所述多微网中的构成元素的状态参数;
计算模块,用于计算所述目标状态样本集合的回报;
调整模块,用于将所述预设状态样本集合、所述目标状态样本集合以及所述回报输入至Critic网络中,并根据所述Critic网络的输出调整所述Actor网络的网络参数以及所述Critic网络的网络参数。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的模型训练方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424463.2A CN112488224B (zh) | 2020-12-08 | 2020-12-08 | 模型训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424463.2A CN112488224B (zh) | 2020-12-08 | 2020-12-08 | 模型训练方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488224A CN112488224A (zh) | 2021-03-12 |
CN112488224B true CN112488224B (zh) | 2023-11-28 |
Family
ID=74940853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424463.2A Active CN112488224B (zh) | 2020-12-08 | 2020-12-08 | 模型训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488224B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114202229B (zh) * | 2021-12-20 | 2023-06-30 | 南方电网数字电网研究院有限公司 | 基于深度强化学习的微电网的能量管理策略的确定方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019175058A (ja) * | 2018-03-28 | 2019-10-10 | 株式会社豊田中央研究所 | 強化学習装置、強化学習プログラム、及び強化学習方法 |
CN111600851A (zh) * | 2020-04-27 | 2020-08-28 | 浙江工业大学 | 面向深度强化学习模型的特征过滤防御方法 |
-
2020
- 2020-12-08 CN CN202011424463.2A patent/CN112488224B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019175058A (ja) * | 2018-03-28 | 2019-10-10 | 株式会社豊田中央研究所 | 強化学習装置、強化学習プログラム、及び強化学習方法 |
CN111600851A (zh) * | 2020-04-27 | 2020-08-28 | 浙江工业大学 | 面向深度强化学习模型的特征过滤防御方法 |
Non-Patent Citations (1)
Title |
---|
基于压缩感知的电力设备状态感知技术;丁晖;赵海丞;刘家强;任梦婕;戴睿;;高电压技术;第46卷(第6期);第1877-1885页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112488224A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874581B (zh) | 一种基于bp神经网络模型的建筑空调能耗预测方法 | |
CN107436971B (zh) | 适用于非正定型相关性控制的改进拉丁超立方抽样方法 | |
CN108336739B (zh) | 一种基于rbf神经网络的概率潮流在线计算方法 | |
CN109638883B (zh) | 电网电压控制方法、装置、计算机设备和存储介质 | |
CN110518591B (zh) | 一种不确定电力系统的潮流计算方法 | |
CN112488224B (zh) | 模型训练方法、装置、计算机设备及存储介质 | |
CN113887801A (zh) | 建筑冷负荷预测方法、系统、设备及可读存储介质 | |
Wang et al. | A data-driven uncertainty quantification method for stochastic economic dispatch | |
CN111600309B (zh) | 电压控制方法、装置、设备、计算机设备和存储介质 | |
CN113328467B (zh) | 一种概率电压稳定性评估方法、系统、终端设备及介质 | |
CN107846022B (zh) | 基于ilutp预处理并行迭代法的大规模配电网潮流分析方法 | |
CN111507591B (zh) | 电力系统状态确定方法、装置、计算机介质及存储介质 | |
CN111612648B (zh) | 光伏发电预测模型的训练方法、装置和计算机设备 | |
CN112016702A (zh) | 基于迁移学习的医疗数据处理方法、装置、设备及介质 | |
CN110222469B (zh) | 一种电路电流电压仿真计算方法 | |
CN113672870A (zh) | 故障事件概率估算方法、装置、计算机设备和存储介质 | |
CN113449863A (zh) | 一种基于查表的神经网络量化方法 | |
CN112600221B (zh) | 无功补偿装置配置方法、装置、设备及存储介质 | |
CN112307230B (zh) | 一种数据存储的方法、及其数据获取方法、装置 | |
CN109494747A (zh) | 一种基于交替梯度算法的电网概率潮流计算方法 | |
Hu et al. | Short-Term Wind Power Forcasting with Multiple Train-Test Splits Integrated Temporal Convolutional Network | |
CN114757440A (zh) | 分散式风电功率预测方法、模型训练方法、设备及介质 | |
CN116383659A (zh) | 用于机器学习特征工程的参数优化方法和装置 | |
CN106126316B (zh) | 基于随机点配置方法的电磁仿真快速参数扫描方法 | |
CN116011336A (zh) | 电网拓扑变更元件的辨识方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |