CN110930016A - 一种基于深度q学习的梯级水库随机优化调度方法 - Google Patents

一种基于深度q学习的梯级水库随机优化调度方法 Download PDF

Info

Publication number
CN110930016A
CN110930016A CN201911134887.2A CN201911134887A CN110930016A CN 110930016 A CN110930016 A CN 110930016A CN 201911134887 A CN201911134887 A CN 201911134887A CN 110930016 A CN110930016 A CN 110930016A
Authority
CN
China
Prior art keywords
state
value
reservoir
period
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911134887.2A
Other languages
English (en)
Inventor
石强
刘江鹏
王炜
余跃
郑凯新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN201911134887.2A priority Critical patent/CN110930016A/zh
Publication of CN110930016A publication Critical patent/CN110930016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度Q学习的梯级水库随机优化调度方法,包括描述水库的入库径过程:建立马尔科夫决策过程MDPS模型;建立概率转移矩阵:建立梯级水库随机优化调度模型;确定模型的约束函数:引入深度神经网络,提取梯级水库径流状态特征,同时实现对调度模型的目标值函数进行近似表示和优化;将强化学习运用到水库随机优化调度中;建立DQN模型;采用深度强化学习算法,求解梯级水库随机优化调度模型。本发明一种基于深度Q学习的梯级水库随机优化调度方法,实现了梯级水库随机优化调度,使得在调度期内充分利用发电机组,用电需求和各种约束条件得到满足,年平均发电收益最大。

Description

一种基于深度Q学习的梯级水库随机优化调度方法
技术领域
本发明涉及梯级水库随机优化调度领域,具体为一种基于深度Q学习的梯级水库随机优化调度方法。
背景技术
水电能源是一种可再生的清洁能源。我们国家水能资源丰富,应用前景广阔,依据水资源的分布已建成大量水电站,梯级水电站已经成为我国主要的水电系统,具有防洪、发电、灌溉、供水等多方面效益。梯级水电站各个电站之间既存在着电力联系,又存在水资源的合理分配等问题,在满足电力系统运行要求的同时,还要考虑发电与用水之间的协调配合才能取得最大化的综合效益。水库长期随机优化调度,一般以一年为一个调度周期,是一个典型的多目标、多阶段、高维度、非凸性、离散的优化问题,很难找出理论上的最优解。
尽管一些随机动态规划的变式被应用于水电调度的最优控制中,但这类算法一直存在“维数灾”问题,当维数大时,计算时间将会很长,数据存储量巨大。发电量最大模型是传统研究水库长期优化调度问题常用的模型,为提高求解效率在原有算法基础上精细化改进、降低优化调度模型维数,或引入多核并行计算、集群计算等新兴计算基数,成为一些学者深入研究的热点。这些方法均可获得最优解或近似最优解,但“维数灾”问题并没有得到较好的解决,同时受水电站运行积累偏差、负荷需求偏差和径流预报偏差的影响,水电站的运行状态会发生偏离,则原有最优调度方案实际指导意义不佳。
强化学习(RL)是人工智能领域中机器学习(ML)方法的一个重要分支,也是处理多阶段决策问题的一种有效手段。在机器学习术语中,强化学习(RL)表述为一个由奖励驱使的试错过程,即Agent通过与复杂的环境反复交互,随着时间的推移,在试错中不断修正行动的策略,最终获得最大限度的预期累积收益,得到一系列策略序列。深度学习(DL)作为ML的一个分支,含有多个隐含层的感知器,主要采用基于人工神经网络的各种方法来实现ML的技术,并且自主学习特征,目前在计算机视觉、翻译及语义挖掘和图像处理等方面得到成功应用。由强化学习(RL)和深度学习(DL)发展而来的的深度强化学习(DRL),已成为人工智能领域热门的研究对象之一。已有学者将具有多阶段决策的强化学习方法应用到水库长期随机优化调度中,尝试解决“维数灾”问题,还有学者将深度学习运用到提取水库调度函数或规则中。不过对于水库随机优化调度问题少有人将强化学习和深度学习相结合,在水库长期随机调度应用中展开研究。
发明内容
本发明提供一种基于深度Q学习的梯级水库随机优化调度方法,将考虑马尔可夫过程的深度强化学习的模型及算法引入梯级水库长期随机优化调度问题中,考虑入库径流随机过程和随机变量的马尔可夫决策过程,并应用深度学习(Tensorflow框架)充分利用和挖掘水库数据,对神经网络进行训练,充分获取水库知识,得到基于深度强化学习的梯级水库长期随机优化调度模型。本发明实现了梯级水库随机优化调度,使得在调度期内充分利用发电机组,用电需求和各种约束条件得到满足,年平均发电收益最大。
本发明采取的技术方案为:
一种基于深度Q学习的梯级水库随机优化调度方法,包括以下步骤:
步骤1、描述水库的入库径过程:
步骤2、建立马尔科夫决策过程MDPS模型;
步骤3、建立概率转移矩阵:
步骤4、建立梯级水库随机优化调度模型;
步骤5、确定模型的约束函数:
步骤6、引入深度神经网络,提取梯级水库径流状态特征,同时实现对调度模型的目标值函数进行近似表示和优化;
步骤7、将强化学习运用到水库随机优化调度中;
步骤8、建立DQN模型;
步骤9、采用深度强化学习算法,求解梯级水库随机优化调度模型。
本发明一种基于深度Q学习的梯级水库随机优化调度方法,技术效果如下:
1:本发明的深度强化学习将具有感知能力的深度学习与具有决策能力的强化学习相结合,通过端对端的学习实现对输入和输出的控制。由于学习了低维特征表示和强大的函数逼近性质的神经网络,因此它能够用深度神经网络紧密地表示高维观测和Q函数,将先前在RL中的工作扩展到求解高维问题,利用经验重放和目标网络两种技术解决了RL中函数逼近的基本不稳定性问题,同时通过表示学习而非表格和传统的非参数方法,可以有效地处理“维数灾”问题。
2:本发明在充分学习水库历史调度数据的基础上,采用深度强化学习方法研究基于大数据的梯级水库随机优化调度问题,为水库系统的预报、调度等环节的提供参考。
3:本发明中深度神经网络能够自动进行特征提取,所以使用深度神经网络既能提取梯级水库径流状态特征,又易于训练,进而实现对调度策略目标值函数进行近似表示和优化。
4:本发明方法将具有自我感知能力的DL和具有主动决策能力的RL紧密结合,加速深度学习模型算法的训练过程,便于深度学习模型快速求解水库随机优化调度模型的最优解。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明的功能结构示意图;
图2为本发明的马尔科夫决策过程图;
图3为本发明的深度学习网络图;
图4为本发明的强化学习示意图;
图5为本发明的深度强化学习流程图。
具体实施方式
一种基于深度Q学习的梯级水库随机优化调度方法,包括以下步骤:
步骤1、描述水库的入库径流过程:
利用水库历年的入库流量数据求得所述的入库径流流量的均值
Figure BDA0002279321550000031
变差系数CVQi和偏差系数CSQi,进而得到该水库符合皮尔逊III型概率密度分布的统计参数,相关统计参数可以通过以下公式求得:
Figure BDA0002279321550000032
Figure BDA0002279321550000033
Figure BDA0002279321550000034
CSQi=KCVQi
式中:系数K可由适线法得到;n表示统计样本年数;Qij表示j年i时段入库径流流量。
σQi表示:第i时段的均方差;
Figure BDA0002279321550000035
表示含义:第i时段的入库径流平均值;CVQi表示含义:第i时段的变差系数;CSQi表示第i时段的的偏差系数;K范围:1~3。
步骤2、建立马尔科夫决策过程MDPS模型:
马尔科夫决策过程指的是考虑一个学习系统或智能体(Agent)或决策者(decision maker)和环境相互作用。马尔科夫决策过程具有以下特点:无后效性;状态转移具有不确定性;Agent所处的每步状态明确。其整个过程可以分为:①、马尔科夫性、②.马尔科夫过程、③、马尔科夫决策过程。
由以上过程可以建立一个马尔科夫决策过程MDPS模型,这是一种在强化学习中广泛采用的环境与环境交互模型。马尔科夫性指下一状态仅与当前动作状态有关,而马尔科夫决策过程的状态转移矩阵概率包含动作。Agent周期或连续地观察具有马尔科夫性的随机动态系统,序贯地作出相应决策,如图2所示。
步骤3、建立概率转移矩阵:
由步骤1和步骤2,确定入库径流状态转移过程符合何种马尔科夫过程(独立过程、简单过程或复杂过程),进而确定各时段入库径流的数据对应的状态和状态间的概率转移矩阵,相关系数由实际观测资料计算:
Figure BDA0002279321550000041
其中:rt,t+1表示t时段与t+1时段的相关系数;n为统计样本年数;Qi t、Qi t+1分别表示t时段与t+1时段的入库径流量;
Figure BDA0002279321550000042
分别表示t时段与t+1时段径流值的均值;σt、σt+1分别表示t时段与t+1时段径流值的均方差。
为求解随机动态规划问题,建立状态转移概率矩阵,P(Xt+1|Xt)为马尔科夫链于t时段到t+1时段的转移概率,即:pjk=P(Xt+1|Xt),第t个时段的状态转移概率矩阵如下:
Figure BDA0002279321550000043
P11…P1n表示:从t时段的1状态转移到t+1时段的n状态的概率;Pm1…Pmn表示:从t时段的m状态转移到t+1时段的n状态的概率。
由下式:即可得到状态转移概率矩阵中的各元素,从而求得状态转移概率矩阵:
Figure BDA0002279321550000044
fjk表示:从j状态转移到k状态的频数、N:表示入库径流离散的状态总数(1~N)、j/k:表示入库径流离散状态,j为前一阶段离散状态,k为后一阶段离散状态。
步骤4、建立梯级水库随机优化调度模型:
以梯级水库随机优化调度模型的年发电量期望值最大,作为模型的目标函数。累加各水库各时段发电量期望值,即可求解总发电量的期望值E*,其目标函数表达式为:
Figure BDA0002279321550000051
Et表达式由如下式子推导:
Figure BDA0002279321550000052
其中j离散状态下的Hj发电水头:Hj=Zsy-Zxy=(Zt-Zt+1)/2-Zxy
其中:Vi,t表示t时段的初蓄水量;
Figure BDA0002279321550000053
表示t时段的发电流量值;式中,Ei,t为t时段i水库的发电量;T为总调度周期时段;Ri,t为t时段i水库的指标函数;Vi(i=1~M)为均匀离散的M个库容值;
Figure BDA0002279321550000054
为t时段的按皮尔逊Ⅲ型分布计算获得拟合频率离散的水库各时段随机来水量流量值;
Figure BDA0002279321550000055
表示t时段的发电流量值,m3/s;i水库t时刻状态转移概率为
Figure BDA0002279321550000056
其中,k∈(1~N),具体求解过程详见步骤1至步骤3;
步骤5、确定模型的约束函数:
水量平衡约束:
Figure BDA0002279321550000057
发电流量约束:
Figure BDA0002279321550000058
出力约束:Pt,min≤Pt≤Pt,max
库容约束:Vt,min≤Vt≤Vt,max
水库水位约束:Zt,min≤Zt≤Zt,max
其中:Vt、Vt+1分别表示t时段的初、末蓄水量;
Figure BDA0002279321550000059
为t时段的按皮尔逊Ⅲ型分布计算获得拟合频率离散的水库各时段随机来水量流量值;
Figure BDA00022793215500000510
表示t时段的发电流量值;
Figure BDA00022793215500000511
分别表示t时段水库最小、最大发电流量;Pt表示t时段实际出力;Pt,min、Pt,max分别为表示t时段水库最小、最大出力约束;Vt表示t时段库容;Vt,min、Vt,max分别表示t时段的最小、最大库容;Zt表示t时段上游水位;Zt,min、Zt,max分别表示t时段的最低、最高上游水位。
步骤6、引入深度神经网络:
本发明拟采用TensorFlow搭建神经网络框架,并采用强化学习算法对所述的神经网络进行加速训练。TensorFlow由Google公司在2015年11月开发,核心部分使用C++编写的,有完整的Python API和C++接口,同时还有一个基于C的客户端API。该机器学习框架专为在依赖机器学习的项目中使用而设计,包含数值计算形式的数据流图的库,使得开发人员能够跨多种设备启动深度学习框架,是目前最流行的深度神经网络模型。
一般TensorFlow框架在处理机器学习问题有以下步骤:
S1:确定特征,收集训练数据;
S2:确定模型;
S3:根据样本训练模型(train),确定模型参数;
S4:根据测试数据,评估模型的预测功能(test)。
目前典型的深度学习模型包括:卷积神经网络(CNN),卷积神经网络深度置信网络(DBN)、受限玻尔兹曼机(RBM)等。传统机器学习系统的网络称为“浅层网络”,一般由1个输入层,1个隐藏层和1个输出层组成,如传统的ANN(Artificial neural network,ANN)模型一般由以上三层神经网络组成,故称其为“浅”层神经网络。工作机理其完全可以类比成一个元函数:Y=W*X+b。一个简单的神经网络可以理解为两次一元函数的输入和输出间的映射。
第一次:Y1=A1(W1*X+b1),其中X表示原始数据的输入,A1代表激活函数。
第二次:Y2=A2(W2*Y1+b2),其中Y1表示第一次的输出,A2是激活函数。参数W1、W2、b1、b2原则上各不相同。
而深度学习网络层数一般远大于所述的ANN层数。深度神经网络能够自动进行特征提取,所以使用深度神经网络既能提取梯级水库径流状态特征,又易于训练,进而实现对调度策略目标值函数进行近似表示和优化,如图3所示。
梯级水库历史数据基于二八定律,将数据集样本分区:确定的训练样本占比80%和测试样本占比20%。
神经网络的学习中所用的指标称为损失函数(loss function)。这个损失函数一般用均方误差等。损失函数是表明神经网络性能的指标,反映当前的神经网络对所述数据拟合的程度。均方误差:可以用作损失函数的函数有很多,其中最有名的是均方误差(meansquared error)。所述的均方误差如下式所示:
Figure BDA0002279321550000071
这里,yk是表示神经网络的输出,tk表示监督数据,k表示数据的维数。
神经网络中含有激活函数,使得神经网络具有处理非线性问题的能力。如果不能选择合适的激活函数,很难看到优化效果。常用的激活函数有:tanh,sigmoid,relu等,一般情况可先采用tanh函数尝试。
步骤7、将强化学习运用到水库随机优化调度中:
强化学习的起源最早可以追溯到1956年的Bewllman最优方程。RL框架主要由Agent和环境(Environment)两部分组成。强化学习是通过构建一个系统(Agent),在与环境(Environment)交互的过程中提高系统的性能,Agent以接受长期奖励值最大为目标,依据某种策略选定一个动作并作用于环境,最终决定遇到每一种状态时应该采取何种动作。RL的目的就是系统从环境到行为映射的学习,以使目标值函数最大,如图4所示。
本发明中的强化学习以Q-learning算法为例:Q学习算法实质上为一种无模型的迭代算法。Q学习算法在t=T+1时以任意Q0开始运行,在每个时间步t中,Q学习以时序差分方程来更新其Q值。算法基本形式为:
Figure BDA0002279321550000072
其中,Q(St,At)表示所述的Agent在状态S时,采取动作A所获得的奖励折扣值;其中,α∈[0,1]为学习率,反映RL过程中误差被学习的效率;γ表示对将来奖励的折扣,反映将来奖励对现在的影响程度。时序差分定义为最优Q值在(st,at)上的更新估计值
Figure BDA0002279321550000073
与当前估计值Qt(st,at)的差。
Rt+1表示下一时刻的奖励值,γ表示折扣因子,
Figure BDA0002279321550000074
表示St+1状态时利用贪婪决策选取是的Q值最大的动作。
一般而言单纯将强化学习运用到水库随机优化调度中,可以建立基于强化学习理论的水库长期随机优化调度问题的主要特征,并针对强化学习算法中的状态集合S、动作集合A、和奖励矩阵R进行合理定义。首先,状态集合S是将库容V或上游水位Z离散为从小到大的M个值(i=1~M),因此每一个时段状态集合S中的元素可分作M个值(i=1~M),因此每一个时段状态集合S中的元素可分作M个状态;其次,动作集A为水库调度模型中的历年逐月、从小到大离散的若干个发电流量Qfd;最后再根据水库调度手册中的相关参数及状态集合S和动作集合A中各元素值,确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值。
步骤8、建立DQN模型,算法流程如下:
Figure BDA0002279321550000081
步骤9、采用深度强化学习算法,求解梯级水库随机优化调度模型:
深度强化学习算法将具有感知能力的深度学习和具有决策能力的强化学习紧密结合在一起,构成深度强化学习对所述的梯级水库历史数据进行学习,在符合水库优化调度规则和相关约束的条件下作出决策。本发明采用DRL中的深度Q学习算法(DQL)是基传统Q-学习算法的改良,Q-学习算法在人工智能领域和水资源管理中也被广泛应用,该算法在迭代时遵循“状态-动作-奖励”规律,并以Q(S,A)作为估计值函数,而使得奖励值最大的行为即为在该状态下最优的决策。
在Q算法做初始化策略时,通常采用ε-greedy贪婪决策作为迭代策略,如下:
Figure BDA0002279321550000091
式中,
Figure BDA0002279321550000092
表示在t时刻,st状态下,迭代第i次的最优策略;pij表示由当前状态转移至下一状态的概率。状态集合S、动作集合A、和奖励矩阵R中各元素值,用于确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值。RL旨在寻找最佳策略π,使得在该策略下做出的序贯决策获得累计的回报期望最大:
Figure BDA0002279321550000093
R(τ)表示在最佳策略π下获得的奖励、pπ(τ)表示取得最佳策略π的概率。
除考虑无模型强化学习算法的马尔科夫过程,对于强化学习模型中学习次数较多且收敛速度较慢的情况,尝试对学习率α进行改进:
α=1/Nψ
式中:N为迭代次数,ψ为参数,且ψ∈[0.5,1],如果状态和动作空间是离散且有限的,当转移数量Nψ趋近与无穷时,则Q学习渐进收敛至Q*(最优值)。
通过贪心策略选择动作,直到值函数收敛,得到最优策略:
Figure BDA0002279321550000094
Figure BDA0002279321550000095
为使得Q(s,a)值最大所选取的最优动作a;通过以上策略可为各状态寻找到最佳动作,在梯级水库随机优化调度问题中,其状态空间呈现高维特征,在计算和存储所述的“状态-动作”时,“维度灾”问题较为严重。而DQN算法采用值函数近似逼近的方法得到Q值,求解方法如下:
Q(s,a)=f(s,a)
上式中,函数映射关系中的Q值与状态及动作,通过深度神经网络进行训练和学习。对“当前值”网络和“目标值”两个神经网络设置相同的网络结构、设置不同的网络参数进行训练,实现对当前Q值与目标Q值的更新,并选取所述的当前Q值与目标Q值差值的平方作为损失函数对网络反向传递更新。DQN主要使用2种技术来解决RL中的函数逼近不稳定问题:经验重放和目标网络。
对于高维状态空间,DQN算法把状态S作为输入,形如[Q(s1,a1),Q(s2,a2),…,Q(sn,an)]的矩阵作为状态S下采取的所有概率的动作所对应的奖惩值,通过对数据的训练和学习积累经验并学习历史经验,形成状态S与所述矩阵之间的映射,再从中选取具有最优动作的Q值“状态-动作对”。当然本发明中的所述的DQN神经网络可以选择含有参数θ的卷积神经网络作为Q值函数逼近器,从历史的经验回放池中采样所需学习的历史经验数据更新网络参数,所述的逼近器更新推导公式如下:
Figure BDA0002279321550000101
上式中,θi+1表示更新后的训练网络的参数;θi表示当前训练网络的参数;s表示当前状态;a表示当前动作;r表示奖赏信号;E(s,a,r,s')表示每个时间步下agent与环境交互得到的转移样本、Q(s,a;θi)表示在状态s和动作a下,选取θi参数训练网络获得的Q值;
Figure BDA0002279321550000102
表示为使得
Figure BDA0002279321550000103
值最大的动作a';s'表示下一时刻状态;a'表示下一时刻动作;γ表示折扣因子;
Figure BDA0002279321550000104
表示目标网络的参数;
Figure BDA0002279321550000105
为梯度符号,即
Figure BDA0002279321550000106
为Q(s,a;θi)的梯度。
同时需要注意:神经网络的规模、参数选择等问题一般都是由经验来确定,其中算法参数选取很重要,如所述的学习率α表示值函数取得最优值的速率,需要根据具体训练效果选取,否则可能出现网络训练不收敛的情况,所以深度神经网络训练稳定性在此基础上有很多提升空间。选择一些优秀的优化器将有助于得到讲好的训练效果和稳定性收益,如通过随机梯度下降法(SDG)优化得到的网络参数可能是一个局部最优值,还有提升的空间,还可以选择其他优化器如:Adam,Nadam等,按照实际的训练情况进行选取。
本发明所述的DQN模型,较传统的深度学习或是强化学习在处理梯级水库随机优化调度问题上,有如下3个方面的改进:
其一:利用深度(卷积)神经网络来逼近和拟合得到目标值函数,同时利用经验回放对强化学习过程中学到的决策知识进行训练和学习,设置“当前值”网络和“目标值”两个神经网络两个独立的目标网络分别来处理时间差分(TD)算法中的如何得到偏差来更新网络的问题。
其二:由于使用强化学习策略,经验回放技术和设置特定的Q值网络,所述的DQN模型,有效解决了解决梯级水库随机优化调度中常遇见的“维数灾难问题”,同时使用神经网络获取非线性动作值函数的逼近器带来的网络训练易发散和稳定性不高的问题,扩大了传统单一深度学习和强化学习的适用性。强化学习的不断试错,主动学习和作出决策,深度学习网络的经验回放提升了水库历史数据的学习效率,以上过程的结合稳定了动作值函数的训练过程。
其三:通过强化学习奖赏机制和深度神经网络合理的参数设置,网络的梯度得以限制,不易出现梯度消失的情况,获得具有鲁棒性能更强的训练效果。所述的DQN模型设置了网络系统训练误差值,当模型训练误差小于设定误差值或者达到设置的迭代次数时,输出求解结果,训练效果将会得到保证。所述的深度Q学习梯级水库随机优化调度模型的流程请参见图5。

Claims (10)

1.一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于包括以下步骤:
步骤1、描述水库的入库径流过程:
步骤2、建立马尔科夫决策过程MDPS模型;
步骤3、建立概率转移矩阵:
步骤4、建立梯级水库随机优化调度模型;
步骤5、确定模型的约束函数:
步骤6、引入深度神经网络,提取梯级水库径流状态特征,同时实现对调度模型的目标值函数进行近似表示和优化;
步骤7、将强化学习运用到水库随机优化调度中;
步骤8、建立DQN模型;
步骤9、采用深度强化学习算法,求解梯级水库随机优化调度模型。
2.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤1中,利用水库历年的入库径流流量数据,求得入库径流流量的均值
Figure FDA0002279321540000011
变差系数CVQi和偏差系数CSQi,进而得到该水库符合皮尔逊III型概率密度分布的统计参数,相关统计参数通过以下公式求得:
Figure FDA0002279321540000012
Figure FDA0002279321540000013
Figure FDA0002279321540000014
CSQi=KCVQi
式中:系数K由适线法得到;n表示统计样本年数;Qij表示j年i时段入库径流流量;
σQi为第i时段的均方差;
Figure FDA0002279321540000015
为第i时段的入库径流平均值;CVQi为第i时段的变差系数;CSQi为第i时段的的偏差系数;K范围:1~3。
3.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤3中,建立概率转移矩阵:
由步骤1和步骤2,确定入库径流状态转移过程符合何种马尔科夫过程,进而确定各时段入库径流的数据对应的状态和状态间的概率转移矩阵,相关系数由实际观测资料计算:
Figure FDA0002279321540000021
其中:rt,t+1表示t时段与t+1时段的相关系数;n为统计样本年数;Qi t、Qi t+1分别表示t时段与t+1时段的入库径流量;
Figure FDA0002279321540000022
分别表示t时段与t+1时段径流值的均值;σt、σt+1分别表示t时段与t+1时段径流值的均方差;
为求解随机动态规划问题,建立状态转移概率矩阵,P(Xt+1|Xt)为马尔科夫链于t时段到t+1时段的转移概率,即:pjk=P(Xt+1|Xt),第t个时段的状态转移概率矩阵如下:
Figure FDA0002279321540000023
P11…P1n表示从t时段的1状态转移到t+1时段的n状态的概率;Pm1…Pmn表示从t时段的m状态转移到t+1时段的n状态的概率;
由下式:即可得到状态转移概率矩阵中的各元素,从而求得状态转移概率矩阵:
Figure FDA0002279321540000024
fjk表示从j状态转移到k状态的频数、N入库径流离散的状态总数(1~N)、j/k表示入库径流离散状态,j为前一阶段离散状态,k为后一阶段离散状态。
4.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤4中,建立梯级水库随机优化调度模型:
以梯级水库随机优化调度模型的年发电量期望值最大,作为模型的目标函数;累加各水库各时段发电量期望值,即可求解总发电量的期望值E*,其目标函数表达式为:
Figure FDA0002279321540000025
Et表达式由如下式子推导:
Figure FDA0002279321540000031
其中j离散状态下的Hj发电水头:Hj=Zsy-Zxy=(Zt-Zt+1)/2-Zxy
其中:Vi,t表示t时段的初蓄水量;
Figure FDA0002279321540000032
表示t时段的发电流量值;Ei,t为t时段i水库的发电量;T为总调度周期时段;Ri,t为t时段i水库的指标函数;Vi(i=1~M)为均匀离散的M个库容值;
Figure FDA0002279321540000033
为t时段的按皮尔逊Ⅲ型分布计算获得拟合频率离散的水库各时段随机来水量流量值;
Figure FDA0002279321540000034
表示t时段的发电流量值,m3/s;i水库t时刻状态转移概率为
Figure FDA0002279321540000035
其中,k∈(1~N)。
5.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤5中,确定模型的约束函数:
水量平衡约束:
Figure FDA0002279321540000036
发电流量约束:
Figure FDA0002279321540000037
出力约束:Pt,min≤Pt≤Pt,max
库容约束:Vt,min≤Vt≤Vt,max
水库水位约束:Zt,min≤Zt≤Zt,max
其中:Vt、Vt+1分别表示t时段的初、末蓄水量;
Figure FDA0002279321540000038
为t时段的按皮尔逊Ⅲ型分布计算获得拟合频率离散的水库各时段随机来水量流量值;
Figure FDA0002279321540000039
表示t时段的发电流量值;
Figure FDA00022793215400000310
分别表示t时段水库最小、最大发电流量;Pt表示t时段实际出力;Pt,min、Pt,max分别为表示t时段水库最小、最大出力约束;Vt表示t时段库容;Vt,min、Vt,max分别表示t时段的最小、最大库容;Zt表示t时段上游水位;Zt,min、Zt,max分别表示t时段的最低、最高上游水位。
6.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤6中,深度神经网络能够自动进行特征提取,使用深度神经网络既能提取梯级水库径流状态特征,又易于训练,进而实现对调度策略目标值函数进行近似表示和优化;梯级水库历史数据基于二八定律,将数据集样本分区:确定的训练样本占比80%和测试样本占比20%;
神经网络的学习中所用的指标称为损失函数(loss function);这个损失函数一般用均方误差;损失函数是表明神经网络性能的指标,反映当前的神经网络对所述数据拟合的程度;所述的均方误差如下式所示:
Figure FDA0002279321540000041
其中,yk是表示神经网络的输出,tk表示监督数据,k表示数据的维数。
7.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤6中,所述步骤7中,强化学习采用Q-learning算法,Q学习算法实质上为一种无模型的迭代算法;Q学习算法在t=T+1时以任意Q0开始运行,在每个时间步t中,Q学习以时序差分方程来更新其Q值;算法基本形式为:
Figure FDA0002279321540000042
其中,Q(St,At)表示所述的Agent在状态S时,采取动作A所获得的奖励折扣值;其中,所述的α∈[0,1]为学习率,反映RL过程中误差被学习的效率;γ表示对将来奖励的折扣,反映将来奖励对现在的影响程度;时序差分定义为最优Q值在(st,at)上的更新估计值
Figure FDA0002279321540000043
与当前估计值Qt(st,at)的差;
将强化学习运用到水库随机优化调度中,能够建立基于强化学习理论的水库长期随机优化调度问题的主要特征,并针对强化学习算法中的状态集合S、动作集合A、和奖励矩阵R进行合理定义;首先,状态集合S是将库容V或上游水位Z离散为从小到大的M个值(i=1~M),因此每一个时段状态集合S中的元素可分作M个值(i=1~M),因此每一个时段状态集合S中的元素可分作M个状态;其次,动作集A为水库调度模型中的历年逐月、从小到大离散的若干个发电流量Qfd;最后再根据水库调度手册中的相关参数及状态集合S和动作集合A中各元素值,确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值。
8.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤9中,采用DRL中的深度Q学习算法DQL是基传统Q-学习算法的改良,Q-学习算法在迭代时遵循“状态-动作-奖励”规律,并以Q(S,A)作为估计值函数,而使得奖励值最大的行为即为在该状态下最优的决策;
在Q算法做初始化策略时,采用ε-greedy贪婪决策作为迭代策略,如下:
Figure FDA0002279321540000051
式中,所述的
Figure FDA0002279321540000052
表示在t时刻,st状态下,迭代第i次的最优策略;所述的pij表示由当前状态转移至下一状态的概率;状态集合S、动作集合A、和奖励矩阵R中各元素值,用于确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值;RL旨在寻找最佳策略π,使得在该策略下做出的序贯决策获得累计的回报期望最大:
Figure FDA0002279321540000053
R(τ)表示在最佳策略π下获得的奖励、pπ(τ):取得最佳策略π的概率;除考虑无模型强化学习算法的马尔科夫过程,对于强化学习模型中学习次数较多且收敛速度较慢的情况,尝试对学习率α进行改进:
α=1/Nψ
式中:N为迭代次数,ψ为参数,且ψ∈[0.5,1],如果状态和动作空间是离散且有限的,当转移数量Nψ趋近与无穷时,则Q学习渐进收敛至Q*最优值;
通过贪心策略选择动作,直到值函数收敛,得到最优策略:
Figure FDA0002279321540000054
Figure FDA0002279321540000055
为使得Q(s,a)值最大所选取的最优动作a;通过以上策略,能够为各状态寻找到最佳动作,在梯级水库随机优化调度问题中,其状态空间呈现高维特征,在计算和存储所述的“状态-动作”时,“维度灾”问题较为严重。
9.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法,其特征在于:所述步骤9中,DQN算法采用值函数近似逼近的方法得到Q值,求解方法如下:
Q(s,a)=f(s,a)
上式中,函数映射关系中的Q值与状态及动作,通过深度神经网络进行训练和学习;对“当前值”网络和“目标值”两个神经网络设置相同的网络结构、设置不同的网络参数进行训练,实现对当前Q值与目标Q值的更新,并选取所述的当前Q值与目标Q值差值的平方作为损失函数对网络反向传递更新;
对于高维状态空间,DQN算法把状态S作为输入,形如:[Q(s1,a1),Q(s2,a2),…,Q(sn,an)]的矩阵作为状态S下采取的所有概率的动作所对应的奖惩值,通过对数据的训练和学习积累经验并学习历史经验,形成状态S与所述矩阵之间的映射,再从中选取具有最优动作的Q值“状态-动作对”;DQN神经网络能够选择含有参数θ的卷积神经网络作为Q值函数逼近器,从历史的经验回放池中采样所需学习的历史经验数据更新网络参数,逼近器更新推导公式如下:
Figure FDA0002279321540000061
上式中,θi+1表示更新后的训练网络的参数;θi表示当前训练网络的参数;s表示当前状态;a表示当前动作;r表示奖赏信号;E(s,a,r,s')表示每个时间步下agent与环境交互得到的转移样本、Q(s,a;θi)表示在状态s和动作a下,选取θi参数训练网络获得的Q值;
Figure FDA0002279321540000062
表示为使得Q(s',a';θi -)值最大的动作a';s'表示下一时刻状态;a'表示下一时刻动作;γ表示折扣因子;θi -表示目标网络的参数;
Figure FDA0002279321540000063
为梯度符号,即
Figure FDA0002279321540000064
为Q(s,a;θi)的梯度。
10.DQN模型,在梯级水库随机优化调度中的应用。
CN201911134887.2A 2019-11-19 2019-11-19 一种基于深度q学习的梯级水库随机优化调度方法 Pending CN110930016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911134887.2A CN110930016A (zh) 2019-11-19 2019-11-19 一种基于深度q学习的梯级水库随机优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911134887.2A CN110930016A (zh) 2019-11-19 2019-11-19 一种基于深度q学习的梯级水库随机优化调度方法

Publications (1)

Publication Number Publication Date
CN110930016A true CN110930016A (zh) 2020-03-27

Family

ID=69850292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911134887.2A Pending CN110930016A (zh) 2019-11-19 2019-11-19 一种基于深度q学习的梯级水库随机优化调度方法

Country Status (1)

Country Link
CN (1) CN110930016A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445081A (zh) * 2020-04-01 2020-07-24 浙江大学 产品作业动态调度的数字孪生虚实自适应迭代优化方法
CN111637444A (zh) * 2020-06-05 2020-09-08 沈阳航空航天大学 一种基于q学习的核电蒸汽发生器水位控制方法
CN111651220A (zh) * 2020-06-04 2020-09-11 上海电力大学 一种基于深度强化学习的Spark参数自动优化方法及系统
CN111740925A (zh) * 2020-05-29 2020-10-02 北京航空航天大学 一种基于深度强化学习的Coflow调度方法
CN111768028A (zh) * 2020-06-05 2020-10-13 天津大学 一种基于深度强化学习的gwlf模型参数调节方法
CN112068420A (zh) * 2020-07-30 2020-12-11 同济大学 一种排水系统实时控制方法与装置
CN112241123A (zh) * 2020-10-23 2021-01-19 南京航空航天大学 基于深度强化学习的航空发动机加速控制方法
CN112364972A (zh) * 2020-07-23 2021-02-12 北方自动控制技术研究所 基于深度强化学习的无人战车分队火力分配方法
CN112395690A (zh) * 2020-11-24 2021-02-23 中国人民解放军海军航空大学 基于强化学习的舰载机舰面保障流程优化方法
CN112488564A (zh) * 2020-12-11 2021-03-12 华中科技大学 基于随机分形-逐次逼近算法的梯级电站调度方法及系统
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统
CN112688809A (zh) * 2020-12-21 2021-04-20 声耕智能科技(西安)研究院有限公司 一种扩散自适应网络学习方法、系统、终端及存储介质
CN112734172A (zh) * 2020-12-25 2021-04-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN112884239A (zh) * 2021-03-12 2021-06-01 重庆大学 一种基于深度强化学习的航天起爆器生产调度方法
CN112966445A (zh) * 2021-03-15 2021-06-15 河海大学 一种基于强化学习模型fqi的水库防洪优化调度方法
CN112990582A (zh) * 2021-03-17 2021-06-18 南方电网科学研究院有限责任公司 一种智能电网调度方法及系统
CN113112051A (zh) * 2021-03-11 2021-07-13 同济大学 一种基于增强学习的串行生产系统生产维护联合优化方法
CN113110067A (zh) * 2021-05-20 2021-07-13 国网湖南省电力有限公司 一种小水电站的水头优化方法、装置、设备及介质
CN113191543A (zh) * 2021-04-27 2021-07-30 西安理工大学 考虑水资源供需过程关联性与随机性的水库优化调度方法
CN113204583A (zh) * 2021-04-14 2021-08-03 武汉大学 水库群调度决策行为挖掘方法和水库调度自动控制装置
CN113255206A (zh) * 2021-04-02 2021-08-13 河海大学 一种基于深度强化学习的水文预报模型参数率定方法
CN113344332A (zh) * 2021-05-10 2021-09-03 山东师范大学 一种带运输过程和机器状态的车间调度方法及系统
CN113505649A (zh) * 2021-06-10 2021-10-15 广州杰赛科技股份有限公司 一种自来水加氯控制方法及装置
CN113780737A (zh) * 2021-08-10 2021-12-10 武汉飞恩微电子有限公司 基于机器学习的作业调度优化方法、装置、设备及介质
CN113837475A (zh) * 2021-09-27 2021-12-24 中水珠江规划勘测设计有限公司 有向图深度神经网络径流概率预报方法、系统、设备及终端
CN113869795A (zh) * 2021-10-26 2021-12-31 大连理工大学 一种工业副产煤气系统长期调度方法
CN114218867A (zh) * 2021-12-20 2022-03-22 暨南大学 基于熵优化安全强化学习的特种设备流程控制方法及系统
CN115033343A (zh) * 2022-05-27 2022-09-09 河南大学 一种云环境下遥感数据流程调度模型的建立方法
CN115049292A (zh) * 2022-06-28 2022-09-13 中国水利水电科学研究院 一种基于dqn深度强化学习算法的单一水库智能防洪调度方法
CN116843149A (zh) * 2023-07-11 2023-10-03 深圳市深水水务咨询有限公司 一种基于生成式学习的水库防洪调度方法
CN117236478A (zh) * 2023-06-01 2023-12-15 南京航空航天大学 基于Transformer改进深度强化学习的多目标多水库调度优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345068A (zh) * 2018-08-27 2019-02-15 河海大学 一种基于余留期效益函数近似的水电站水库两阶段随机优化调度方法
CN109447336A (zh) * 2018-10-22 2019-03-08 南瑞集团有限公司 一种上游水库与其反调节水库坝间水位优化控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345068A (zh) * 2018-08-27 2019-02-15 河海大学 一种基于余留期效益函数近似的水电站水库两阶段随机优化调度方法
CN109447336A (zh) * 2018-10-22 2019-03-08 南瑞集团有限公司 一种上游水库与其反调节水库坝间水位优化控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
李文武: "基于随机动态规划的混合式抽水蓄能电站水库中长期优化调度研究", vol. 41, no. 41, pages 86 - 93 *
李文武;张雪映;DANIEL ELIOTE MBANZE;吴巍;: "基于SARSA算法的水库长期随机优化调度研究", vol. 36, no. 36, pages 72 - 75 *
李鹏程: "基于值函数的强化学习在直复营销中的研究", 《中国优秀硕士学位论文全文库》, pages 34 - 39 *
王康: "基于深度强化学习在游戏上的应用", 《中国优秀硕士学位论文全文库》, pages 29 - 35 *
舒凌洲;吴佳;王晨;: "基于深度强化学习的城市交通信号控制算法", vol. 39, no. 39, pages 1495 - 1499 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445081A (zh) * 2020-04-01 2020-07-24 浙江大学 产品作业动态调度的数字孪生虚实自适应迭代优化方法
CN111740925A (zh) * 2020-05-29 2020-10-02 北京航空航天大学 一种基于深度强化学习的Coflow调度方法
CN111740925B (zh) * 2020-05-29 2021-09-24 北京航空航天大学 一种基于深度强化学习的Coflow调度方法
CN111651220A (zh) * 2020-06-04 2020-09-11 上海电力大学 一种基于深度强化学习的Spark参数自动优化方法及系统
CN111651220B (zh) * 2020-06-04 2023-08-18 上海电力大学 一种基于深度强化学习的Spark参数自动优化方法及系统
CN111637444A (zh) * 2020-06-05 2020-09-08 沈阳航空航天大学 一种基于q学习的核电蒸汽发生器水位控制方法
CN111768028A (zh) * 2020-06-05 2020-10-13 天津大学 一种基于深度强化学习的gwlf模型参数调节方法
CN111637444B (zh) * 2020-06-05 2021-10-22 沈阳航空航天大学 一种基于q学习的核电蒸汽发生器水位控制方法
CN111768028B (zh) * 2020-06-05 2022-05-27 天津大学 一种基于深度强化学习的gwlf模型参数调节方法
CN112364972B (zh) * 2020-07-23 2024-01-05 北方自动控制技术研究所 基于深度强化学习的无人战车分队火力分配方法
CN112364972A (zh) * 2020-07-23 2021-02-12 北方自动控制技术研究所 基于深度强化学习的无人战车分队火力分配方法
CN112068420A (zh) * 2020-07-30 2020-12-11 同济大学 一种排水系统实时控制方法与装置
CN112241123A (zh) * 2020-10-23 2021-01-19 南京航空航天大学 基于深度强化学习的航空发动机加速控制方法
CN112395690A (zh) * 2020-11-24 2021-02-23 中国人民解放军海军航空大学 基于强化学习的舰载机舰面保障流程优化方法
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统
CN112614009B (zh) * 2020-12-07 2023-08-25 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统
CN112488564A (zh) * 2020-12-11 2021-03-12 华中科技大学 基于随机分形-逐次逼近算法的梯级电站调度方法及系统
CN112488564B (zh) * 2020-12-11 2023-11-14 华中科技大学 基于随机分形-逐次逼近算法的梯级电站调度方法及系统
CN112688809A (zh) * 2020-12-21 2021-04-20 声耕智能科技(西安)研究院有限公司 一种扩散自适应网络学习方法、系统、终端及存储介质
CN112688809B (zh) * 2020-12-21 2023-10-03 声耕智能科技(西安)研究院有限公司 一种扩散自适应网络学习方法、系统、终端及存储介质
CN112734172A (zh) * 2020-12-25 2021-04-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN113112051A (zh) * 2021-03-11 2021-07-13 同济大学 一种基于增强学习的串行生产系统生产维护联合优化方法
CN112884239B (zh) * 2021-03-12 2023-12-19 重庆大学 一种基于深度强化学习的航天起爆器生产调度方法
CN112884239A (zh) * 2021-03-12 2021-06-01 重庆大学 一种基于深度强化学习的航天起爆器生产调度方法
CN112966445B (zh) * 2021-03-15 2022-10-14 河海大学 一种基于强化学习模型fqi的水库防洪优化调度方法
CN112966445A (zh) * 2021-03-15 2021-06-15 河海大学 一种基于强化学习模型fqi的水库防洪优化调度方法
CN112990582A (zh) * 2021-03-17 2021-06-18 南方电网科学研究院有限责任公司 一种智能电网调度方法及系统
CN113255206A (zh) * 2021-04-02 2021-08-13 河海大学 一种基于深度强化学习的水文预报模型参数率定方法
CN113204583A (zh) * 2021-04-14 2021-08-03 武汉大学 水库群调度决策行为挖掘方法和水库调度自动控制装置
CN113204583B (zh) * 2021-04-14 2022-11-01 武汉大学 水库群调度决策行为挖掘方法和水库调度自动控制装置
CN113191543A (zh) * 2021-04-27 2021-07-30 西安理工大学 考虑水资源供需过程关联性与随机性的水库优化调度方法
CN113344332A (zh) * 2021-05-10 2021-09-03 山东师范大学 一种带运输过程和机器状态的车间调度方法及系统
CN113110067A (zh) * 2021-05-20 2021-07-13 国网湖南省电力有限公司 一种小水电站的水头优化方法、装置、设备及介质
CN113505649B (zh) * 2021-06-10 2023-11-17 广州杰赛科技股份有限公司 一种自来水加氯控制方法及装置
CN113505649A (zh) * 2021-06-10 2021-10-15 广州杰赛科技股份有限公司 一种自来水加氯控制方法及装置
CN113780737A (zh) * 2021-08-10 2021-12-10 武汉飞恩微电子有限公司 基于机器学习的作业调度优化方法、装置、设备及介质
CN113837475A (zh) * 2021-09-27 2021-12-24 中水珠江规划勘测设计有限公司 有向图深度神经网络径流概率预报方法、系统、设备及终端
CN113837475B (zh) * 2021-09-27 2024-04-05 中水珠江规划勘测设计有限公司 有向图深度神经网络径流概率预报方法、系统、设备及终端
CN113869795A (zh) * 2021-10-26 2021-12-31 大连理工大学 一种工业副产煤气系统长期调度方法
CN113869795B (zh) * 2021-10-26 2022-08-05 大连理工大学 一种工业副产煤气系统长期调度方法
CN114218867A (zh) * 2021-12-20 2022-03-22 暨南大学 基于熵优化安全强化学习的特种设备流程控制方法及系统
CN115033343A (zh) * 2022-05-27 2022-09-09 河南大学 一种云环境下遥感数据流程调度模型的建立方法
CN115033343B (zh) * 2022-05-27 2024-03-01 河南大学 一种云环境下遥感数据流程调度模型的建立方法
CN115049292A (zh) * 2022-06-28 2022-09-13 中国水利水电科学研究院 一种基于dqn深度强化学习算法的单一水库智能防洪调度方法
CN117236478A (zh) * 2023-06-01 2023-12-15 南京航空航天大学 基于Transformer改进深度强化学习的多目标多水库调度优化方法
CN117236478B (zh) * 2023-06-01 2024-04-26 南京航空航天大学 基于Transformer改进深度强化学习的多目标多水库调度优化方法
CN116843149A (zh) * 2023-07-11 2023-10-03 深圳市深水水务咨询有限公司 一种基于生成式学习的水库防洪调度方法

Similar Documents

Publication Publication Date Title
CN110930016A (zh) 一种基于深度q学习的梯级水库随机优化调度方法
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
CN115333143B (zh) 基于双神经网络的深度学习多智能体微电网协同控制方法
CN112529283A (zh) 基于注意力机制的综合能源系统短期负荷预测方法
CN110222938B (zh) 一种梯级水电站群短期调峰调度协同优化方法和系统
WO2022036778A1 (zh) 一种输配协同负荷恢复优化控制方法及系统
CN112036633B (zh) 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法
WO2023070293A1 (zh) 一种工业副产煤气系统长期调度方法
CN115544899B (zh) 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN115577647B (zh) 电网故障类型识别方法与智能体构建方法
CN111767621A (zh) 一种基于知识迁移q学习算法的多能源系统优化调度方法
CN109413746B (zh) 一种混合能源供能的通信系统中最优化能量分配方法
CN115395502A (zh) 一种光伏电站功率预测方法及系统
Morales-Hernández et al. Online learning of windmill time series using Long Short-term Cognitive Networks
CN115912430A (zh) 基于云边端协同的大规模储能电站资源分配方法及系统
CN115018179A (zh) 一种基于CNN-BiGRU超短期电力负荷预测方法
Cao et al. Probabilistic electricity demand forecasting with transformer-guided state space model
CN113298329A (zh) 训练、策略生成方法、系统、计算机装置及存储介质
Tang et al. Voltage Control Strategy of Distribution Networks with Distributed Photovoltaic Based on Multi-agent Deep Reinforcement Learning
Liu Machine learning for wind power prediction
CN111260500B (zh) 一种基于Hadoop的小水电分布式差分进化调度方法
CN116436013B (zh) 配电系统功率分配方法、系统、计算机设备及存储介质
Sedlak et al. Active Inference on the Edge: A Design Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination