CN112036633B - 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法 - Google Patents

一种基于水库生态发电多目标中长期随机调度模型的优化调度方法 Download PDF

Info

Publication number
CN112036633B
CN112036633B CN202010871614.2A CN202010871614A CN112036633B CN 112036633 B CN112036633 B CN 112036633B CN 202010871614 A CN202010871614 A CN 202010871614A CN 112036633 B CN112036633 B CN 112036633B
Authority
CN
China
Prior art keywords
reservoir
ecological
power generation
period
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010871614.2A
Other languages
English (en)
Other versions
CN112036633A (zh
Inventor
李文武
严展鹏
刘江鹏
徐康
马浩云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202010871614.2A priority Critical patent/CN112036633B/zh
Publication of CN112036633A publication Critical patent/CN112036633A/zh
Application granted granted Critical
Publication of CN112036633B publication Critical patent/CN112036633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明提供了一种水库生态发电多目标中长期随机调度模型的构建方法以及优化调度方法,本发明采用Tennant法中的理想生态流量。优化调度模型的建立包括:首先建立水库发电目标函数以及生态流量贴近度目标函数,紧接着通过这两个目标函数归一化处理得到发电和生态综合效益的多目标函数,尽量使得发电和生态综合效益最大。接着描述水库生态随机调度模型的约束条件,然后将径流随机过程和随机变量的马尔可夫决策过程引入水库生态发电中长期随机优化调度问题中。Q‑learning算法是一种可以确定最优决策策略的强化学习算法,无需环境模型,可以充分利用和挖掘水库入库径流数据,实现水库经济效益和生态效益的统一。

Description

一种基于水库生态发电多目标中长期随机调度模型的优化调 度方法
技术领域
本发明涉及节能环保产业的生态环保领域,具体涉及一种基于水库生态发电多目标中长期随机调度模型的优化调度方法。
背景技术
修建大坝形成水库是实现水资源时空科学配置,提高水资源可持续优化利用率、促进国家经济平稳发展的重要手段。水电站水库在调度中一般重点关注发电等经济效益,未充分考虑生态环境的需水量,不可避免地会对河流的生态产生影响。为了实现水库运行的生态目标,需要开展水库生态调度。水库生态调度在传统水库调度的基础上增加了生态流量考虑。生态流量是生态调度研究中一个重要的概念,指能够维持生态系统健康发展以及保障人类生存发展所需要的河道流量。现有的方法中,缺乏一种适用于水库生态发电的多目标中长期随机调度模型。
发明内容
本发明提出一种基于水库生态发电多目标中长期随机调度模型的优化调度方法,用于解决或者至少部分解决现有技术中存在的水库生态发电调度准确性不高技术问题。
为了解决上述技术问题,本发明提供了第一方面提供了一种水库生态发电多目标中长期随机调度模型的构建方法,包括:
S1:根据水库的水位和发电情况,构建发电量贴近度目标函数:
Ht=Zt,sy-Zt,xy=(Zt+Zt+1)/2-Zt,xy (1)
Figure GDA0003005045020000011
Figure GDA0003005045020000012
Figure GDA0003005045020000013
Zt,sy和Zt,xy分别为水库t时段的上下游平均水位,Zt和Zt+1分别为水库t时段的初末水位,Ht是t时段的平均发电水头,pt,jk是t时段入库径流状态为Qt,fd相应的条件概率,其中,j=1~N,k∈[1,N],N为入库径流离散状态数,A是综合出力系数,Qt,fd是t时段的发电流量,Δtt是水库计算时段小时数,ELEC是水库总发电量的期望值,P为水库总装机容量,E1为水库总装机容量与一个调度周期时长的乘积,ZEfd是水库发电量贴近度目标函数,用以计算水库发电量贴近度;
S2:根据出库流量和生态流量需求,构建生态流量贴近度目标函数:
Figure GDA0003005045020000021
Figure GDA0003005045020000022
Qt为控制断面t时段出库流量,
Figure GDA0003005045020000023
为生态流程,用以控制断面t时段的生态流量需求,Ft为生态流量贴近函数,ZEco为生态流量贴近度,
S3:根据发电量贴近度目标函数和生态流量贴近度目标函数构建多目标函数,将其作为水库生态发电多目标中长期随机调度模型:
W=max[λfd*ZEfdEco*ZEco] (7)
λfd和λEco分别为发电量贴近度和生态流量贴近度的权重,ZEfd为水库发电量贴近度,ZEco为生态流量贴近度,W为水库生态发电多目标中长期综合贴近指数。
在一种实施方式中,所述方法还包括构建水库生态发电多目标中长期随机调度模型的约束条件,其中约束条件包括:
约束1:水电量平衡方程,其公式为:
Vt+1=Vt+(Qrk,t-Qfd,t)Δti (8)
式中,Vt和Vt+1分别为t时段的初、末蓄水量;Qrk,t为t时段的入库流量;Qfd,t为t时段的发电流量;
约束2:发电流量约束,其公式为:
Qfd,t,min≤Qfd,t≤Qfd,t,max (9)
式中,Qfd,t为t时段水库的实际发电流量,Qfd,t,min和Qfd,t,max分别为t时段水库的最小、最大发电流量;
约束3:水库水电站的出力约束,其公式为:
Pt,min≤Pt≤Pt,max (10)
式中,Pt为t时段水库的实际出力,Pt,min和Pt,max分别为t时段水库最小、最大出力约束;
约束4:水库库容约束,其公式为:
Vt,min≤Vt≤Vt,max (11)
式中,Vt为t时段水库库容,Vt,min和Vt,max分别为t时段最小、最大库容;
约束5:上下游水位约束,其公式为:
Zt,min≤Zt≤Zt,max (12)
式中,Zt为t时段的水库上游水位,Zt,min和Zt,max分别为t时段的最低、最高上游水位。
在一种实施方式中,采用蒙大拿法计算河流理想生态流量,其中,生态流量的计算方法为:
Figure GDA0003005045020000031
Figure GDA0003005045020000032
为理想生态流量,λideal为理想生态流量系数,
Figure GDA0003005045020000033
表示t时段的多年平均流量。
基于同样的发明构思,本发明第二方面提供了一种优化调度方法,基于第一方面所构建的水库生态发电多目标中长期随机调度模型实现,优化调度方法包括:
采用强化学习的Q-learning算法对水库生态发电多目标中长期随机调度模型进行求解,得到目标函数W水库生态发电多目标中长期综合贴近指数最大以及水库各时段的最优出库流量
Figure GDA0003005045020000034
将其作为优化调度结果。
在一种实施方式中,采用强化学习的Q-leaming算法对水库生态发电多目标中长期随机调度模型进行求解,包括:
S1:采用具有马尔可夫性的随机入库径流序列水库中各级水库在各时段的来水,通过皮尔逊III型分布模拟得出径流随机值计算状态转移概率矩阵,用以表示水库入库径流随机分析;
S2:根据水库约束条件中设置的水位的上下限值,按照指定的步长s1从下限值到上限值进行等距离散化处理,得出离散化的水位集合S作为Q-learning算法中的状态集合,同时对拟合出来的随机入库流量值也按照一定的步长k1进行离散化处理,得出的离散化的入库径流集合K作为Q-learning算法中的入库流量状态集合;
S3:状态变量St对应于水库各时段初的水位Zt,动作变量at对应于水库各时段的出库流量Qt,ck,奖励值r为水库各时段的发电量贴近度和生态流量贴近度之和,值函数Qt(s,a)为采取一定出库流量后,目标函数W的质量,最优策略序列π为水库整个调度周期内的最优动作序列,随机变量为水库各时段的入库径流Qt,rk,利用Q-learning算法进行求解,需要通过不断地试错和动作选择,逐步更新Q值表,得到最终的调度结果。
在一种实施方式中,步骤S1包括:
S1.1:水库的中长期调度的调度周期为一年,同时将整个调度周期按月划分为12个时段,根据水库历年入库流量,求解水库各时段的皮尔逊III型概率密度曲线的统计参数,并在海森几率格纸中绘制概率密度曲线,通过曲线筛选出水库各时段对应来水频率的一组模拟径流随机值;
S1.2:结合历史径流数据与各时段的模拟径流随机值,求解水库来水在相邻两个时段之间的相关性以及状态转移概率矩阵。
在一种实施方式中,步骤S1.2包括:
利用马尔可夫相关性检验公式求解出t时段与t+1时段之间的相关系数,并判定其马尔科夫性:
Figure GDA0003005045020000041
式中,rt,t+1为水库相邻时段不同径流值之间转移的相关系数,Ns为样本的总年份数,
Figure GDA0003005045020000042
为水库t时段和t+1时段第i年的实际入库径流值,
Figure GDA0003005045020000043
为水库t时段和t+1时段第i年的实际入库径流均值,σt、σt+1分别为t时段实际入库径流的均方差和t+1时段实际入库径流的均方差;
求出第t时段与t+1时段之间的状态转移矩阵,具体为:按照频率将入库径流划分为N个区段,有pjk=P(St+1|St),其中,j,k分别表示第t和t+1时段入库径流序列所在的区段,第t个时段状态转移概率矩阵形式为:
Figure GDA0003005045020000044
式中,Pt为状态转移概率矩阵,pi,j为模拟径流随机值由i状态转移到j状态的概率值。
在一种实施方式中,S3具体包括:
S3.1:确定最后一个时段的发电和生态综合效益、倒数第二时段的发电和生态综合效益以及后续时段直至初始时段的累计发电和生态综合效益;
S3.2:设各时段初离散水位状态集为S,时段出库流量的动作集为A,学习率α,衰减因子γ,以及贪婪决策的探索率ε,设置每组状态动作集合[Vn,i,Vn,j]所对应的阶段发电和生态综合效益为奖励矩阵R,设置初始Q值矩阵Q(s,a)和迭代轮数n;
S3.3:设置水库的起调水位,随机产生一个0-1之间的均匀分布小数ξ,使用ε-贪婪决策,若ξ≤ε则采取探索策略,在动作集A中随机选择一个动作a为当前状态s选择的动作,反之则在Q值矩阵Q(s,a)中选择状态s对应的最大Q值,然后通过Q值确定下一动作a;
S3.4:通过当前状态动作集合(s,a),得出在始末水位状态下本时段采取动作时所获得的奖励值R(s,a),将当前状态s采取动作a获得的新状态s′赋值给s,根据时序差分法通过下一时刻的价值更新前一时刻的价值的思想,通过状态转换得到初始的状态St,ε贪婪策略选择动作at,达到下一个状态St+1,并且得到环境给出的即时回报rt+1,然后根据贪婪决策选择下一阶段的执行策略,即对Q值表进行迭代循环更新,具体更新公式如下:
对值函数方程进行如下计算:
Figure GDA0003005045020000051
式中:
Figure GDA0003005045020000052
为t+1时段采用策略π得到状态动作对(s,a)时的Q值函数,
Figure GDA0003005045020000053
为t时段采用策略π得到状态动作对(s,a)时的Q值函数,α为Q-learning算法的学习率,
Figure GDA0003005045020000054
为采取动作a后状态由s转移到s′的回报值,γ为Q-learning算法的奖赏折扣率,
Figure GDA0003005045020000055
为t时段采用策略π得到状态动作对(s′,a′)时的Q值函数,通过对Q值函数进行不断的试错更新,最终形成一个以s,a分别为横纵坐标,以离散的水位数为维数的Q矩阵;
S3.5:将下一阶段状态s′赋值给s,下一阶段的a′赋值给a,若此时的s为目标状态,则此轮迭代完成,否则转移到S3.3,当智能体达到目标状态,算法终止一次分幕,此时初始状态所用的Q矩阵已经是上一次循环更新的Q矩阵,最后算法继续从初始状态开始新的迭代循环,直到学习周期结束,直到迭代次数完成或Q(s,a)收敛;
S3.6:根据已经收敛的Q(s,a),通过对Q矩阵进行最大值逐步寻优,得出最优的策略π,进而得出从初始水位开始到最末水位的发电和生态综合效益以及水库各时段的最优出库流量
Figure GDA0003005045020000061
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种水库生态发电多目标中长期随机调度模型的构建方法以及优化调度方法,在研究中多个目标同时优化,考虑水电站调蓄能力和功能,协调其社会、生态效益,建立以发电量为主,兼顾生态系统保护的多目标水库调度模型,分析满足不同生态流量约束方案下的水库调度方式,及其对发电、生态环境等整体效益的影响。总体来说,兼顾了理想生态流量需求;针对枯水年份来水偏少的特征,优化调度在保证、适宜生态需求的同时将理想生态缺水量控制在较低水平,可以充分利用和挖掘水库入库径流数据,进而有效提升梯级水库生态发电调度的准确性。
进一步地,针对传统水库调度忽视流域生态环境保护,破坏河流生态系统稳定性的问题,采用考虑生态流量,协调社会经济效益与生态效益,保护物种多样性,满足河流自净需求,恢复自然水文情势,防止水体污染。
进一步地,采用的是随机模型,更符合水库中长期调度入库的实际情况,通过皮尔逊III型分布模拟得出的径流随机值计算状态转移概率矩阵。考虑不同时段之间入库径流的马尔可夫性,能够更好的反映天然径流的随机,避免了采用特定年份历史数据作为入库径流时的偶然性。
进一步地,强化学习是智能体以″试错″的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价,不是告诉强化学习系统如何去产生正确的动作。而Q-learning学习属于强化学习,不需要建立环境模型,是一种基于数值迭代的规划方法,在Q-learning学习过程中,智能体根据当前状态选择一个动作,执行该动作后会得到环境的激励,智能体需要根据该激励值和环境状态选择下一个动作。Q-learning在一定条件下只需采用贪心策略即可保证收敛,故其是目前有效的模型无关强化学习算法。学习中无需做线性假设,根据与环境交互来不断逼近优;当外界环境改变,反馈有相应变化,进而会导致智能体寻求新环境下的最优,即可随时根据条件做出调整。该学习对该生态随机调度模型进行求解,将克服随机动态规划算法所带来的维数灾问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为采用强化学习算法进行优化调度的流程图;
图2为本发明的Q-learning求解方法流程图。
具体实施方式
本发明的目的是针对现有方法对水库的调度效果准确性不够的技术问题,提出一种基于水库生态发电多目标中长期随机调度模型的优化调度方法。考虑不同时段之间入库径流的马尔可夫性的随机优化调度模型,生态流量计算采用Tennant法,算法采用大数据机器学习中的强化学习Q-learning算法。
为了达到上述技术效果,本发明的主要构思如下:
公开了一种基于水库生态发电多目标中长期随机优化调度模型的优化调度方法,传统的水库等水利工程在调度中过度社会效益,未充分考虑生态环境的需水量,不可避免地会对河流的生态产生影响。为了协调水库社会经济目标与生态之间的关系,提高调度的准确性,提出开展水库生态调度。水库生态调度在传统水库调度的基础上考虑了生态流量,本发明采用Tennant法中的理想生态流量。优化调度模型的建立包括:首先建立水库发电目标函数以及生态流量贴近度目标函数,紧接着通过这两个目标函数归一化处理得到发电和生态综合效益的多目标函数,尽量使得发电和生态综合效益最大。接着描述水库生态随机调度模型的约束条件,包括:水电量平衡方程、发电流量约束、水库出力约束、水库库容约束以及上下游水位约束,然后将径流随机过程和随机变量的马尔可夫决策过程引入水库生态发电中长期随机优化调度问题中。采用传统随机动态规划优化方法求解呈现一定的局限性,使维数灾问题将变得尤为突出,求解难度大,计算效率低。探索合理高效的求解算法是水电调度工作亟待解决的重要课题,在现有计算条件下强化学习中的Q-learning算法能有效缩短程序运行时间,从而缓解SDP方法存在的维数灾问题。该算法中无须做线性假设,根据与环境交互来不断逼近优,当外界环境改变,反馈有相应变化,进而会导致智能体寻求新环境下的最优,即可随时根据条件对该生态发电随机调度模型求解作出调整。本发明能在保证水库水电站出力的前提下提高生态需求,对于水库水资源利用具有较高指导意义。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
本发明实施例提供了一种水库生态发电多目标中长期随机调度模型的构建方法,包括:
S1:根据水库的水位和发电情况,构建发电量贴近度目标函数:
Ht=Zt,sy-Zt,xy=(Zt+Zt+1)/2-Zt,xy (1)
Figure GDA0003005045020000081
Figure GDA0003005045020000082
Figure GDA0003005045020000083
Zt,sy和Zt,xy分别为水库t时段的上下游平均水位,Zt和Zt+1分别为水库t时段的初末水位,Ht是t时段的平均发电水头,pt,jk是t时段入库径流状态为Qt,fd相应的条件概率,其中,j=1~N,k∈[1,N],N为入库径流离散状态数,A是综合出力系数,Qt,fd是t时段的发电流量,Δtt是水库计算时段小时数,ELEC是水库总发电量的期望值,P为水库总装机容量,E1为水库总装机容量与一个调度周期时长的乘积,ZEfd是水库发电量贴近度目标函数,用以计算水库发电量贴近度;
S2:根据出库流量和生态流量需求,构建生态流量贴近度目标函数:
Figure GDA0003005045020000084
Figure GDA0003005045020000091
Qt为控制断面t时段出库流量,
Figure GDA0003005045020000092
为生态流程,用以控制断面t时段的生态流量需求,Ft为生态流量贴近函数,ZEco为生态流量贴近度,
S3:根据发电量贴近度目标函数和生态流量贴近度目标函数构建多目标函数,将其作为水库生态发电多目标中长期随机调度模型:
W=max[λfd*ZEfdEco*ZEco] (7)
λfd和λEco分别为发电量贴近度和生态流量贴近度的权重,ZEfd为水库发电量贴近度,ZEco为生态流量贴近度,W为水库生态发电多目标中长期综合贴近指数。
具体来说,发电量贴近度目标函数为常规水库发电模型。生态流量贴近度表示实际生态流量相对生态流量要求的满足程度。因此需要求解生态流量大小。
在一种实施方式中,所述方法还包括构建水库生态发电多目标中长期随机调度模型的约束条件,其中约束条件包括:
约束1:水电量平衡方程,其公式为:
Vt+1=Vt+(Qrk,t-Qfd,t)Δti (8)
式中,Vt和Vt+1分别为t时段的初、末蓄水量;Qrk,t为t时段的入库流量;Qfd,t为t时段的发电流量;
约束2:发电流量约束,其公式为:
Qfd,t,min≤Qfd,t≤Qfd,t,max (9)
式中,Qfd,t为t时段水库的实际发电流量,Qfd,t,min和Qfd,t,max分别为t时段水库的最小、最大发电流量;
约束3:水库水电站的出力约束,其公式为:
Pt,min≤Pt≤Pt,max (10)
式中,Pt为t时段水库的实际出力,Pt,min和Pt,max分别为t时段水库最小、最大出力约束;
约束4:水库库容约束,其公式为:
Vt,min≤Vt≤Vt,max (11)
式中,Vt为t时段水库库容,Vt,min和Vt,max分别为t时段最小、最大库容;
约束5:上下游水位约束,其公式为:
Zt,min≤Zt≤Zt,max (12)
式中,Zt为t时段的水库上游水位,Zt,min和Zt,max分别为t时段的最低、最高上游水位。
在一种实施方式中,采用蒙大拿法计算河流理想生态流量,其中,生态流量的计算方法为:
Figure GDA0003005045020000101
Figure GDA0003005045020000102
为理想生态流量,λideal为理想生态流量系数,
Figure GDA0003005045020000103
表示t时段的多年平均流量。
具体来说,生态流量采用蒙大拿法,即Tennant法,在水资源分析中,常按流量分为丰水年(流量<25%)、平水年(25%≤流量≤75%)和枯水年(流量>75%),根据Tennant法对河流生态流量的分级标准,将不同来水年中各月多年平均流量的10%、30%、60%和100%分别作为最小、适中、最佳生态流量下限和最佳生态流量上限。本发明采用理想生态流量,其计算公式如公式(13)所示。
基于同样的发明构思,本发明基于实施例一中所构建的水库生态发电多目标中长期随机调度模型,提出了一种优化调度方法。具体参见实施例二。
实施例二
本实施例提供了一种优化调度方法,基于实施例一所构建的水库生态发电多目标中长期随机调度模型实现,优化调度方法包括:
采用强化学习的Q-learning算法对水库生态发电多目标中长期随机调度模型进行求解,得到目标函数W水库生态发电多目标中长期综合贴近指数最大以及水库各时段的最优出库流量
Figure GDA0003005045020000104
将其作为优化调度结果。
具体来说,本发明在考虑生态因素下开展发电和生态相结合的多目标中长期优化调度,考虑入库径流的随机性,通过强化学习算法求解。首先将水库调度目标和生态调度目标归一化处理,接着将水库中长期随机调度视为马尔可夫决策过程,最后利用强化学习的算法求解该问题。Q-learning算法是一种可以确定最优决策策略的强化学习算法,无需环境模型,可以充分利用和挖掘水库入库径流数据,进而有效提升梯级水库生态发电调度的准确性。
请参见图1,为采用强化学习算法进行优化调度的流程图;其中,水库随机入库径流分析包括随机入库径流的求解以及状态转移概率的求解。
在一种实施方式中,采用强化学习的Q-learning算法对水库生态发电多目标中长期随机调度模型进行求解,包括:
S1:采用具有马尔可夫性的随机入库径流序列水库中各级水库在各时段的来水,通过皮尔逊III型分布模拟得出径流随机值计算状态转移概率矩阵,用以表示水库入库径流随机分析;
S2:根据水库约束条件中设置的水位的上下限值,按照指定的步长s1从下限值到上限值进行等距离散化处理,得出离散化的水位集合S作为Q-learning算法中的状态集合,同时对拟合出来的随机入库流量值也按照一定的步长k1进行离散化处理,得出的离散化的入库径流集合K作为Q-learning算法中的入库流量状态集合;
S3:状态变量St对应于水库各时段初的水位Zt,动作变量at对应于水库各时段的出库流量Qt,ck,奖励值r为水库各时段的发电量贴近度和生态流量贴近度之和,值函数Qt(s,a)为采取一定出库流量后,目标函数W的质量,最优策略序列π为水库整个调度周期内的最优动作序列,随机变量为水库各时段的入库径流Qt,rk,利用Q-learning算法进行求解,需要通过不断地试错和动作选择,逐步更新Q值表,得到最终的调度结果。
具体来说,采用强化学习的Q-learning算法,在一定条件下只需采用贪心策略即可保证收敛,故其是目前有效的模型无关强化学习算法。学习中无需做线性假设,根据与环境交互来不断逼近优;当外界环境改变,反馈有相应变化,进而会导致智能体寻求新环境下的最优,即可随时根据条件做出调整。也就是Q-learning算法需要通过不断地试错和动作选择,逐步更新Q值表(动作值函数)。即:设定了一个奖励函数,根据ε-贪心策略(ε-greedy,ε为探索因子(0≤ε≤1))选取动作指令,执行动作指令并根据奖励函数更新Q值表,然后生成状态参数,根据状态参数和ε-贪心策略选取下一动作,然后继续执行动作指令并更新Q值表,直到更新得到最终的Q值表,最后据Q值表得到最优调度。该学习对该生态随机调度模型进行求解,将克服随机动态规划算法所带来的维数灾问题。对水库生态调度随机优化模型进行优化计算,得到目标函数W水库生态发电多目标中长期综合贴近指数最大,也就是发电和生态综合效益最大。
即,采用强化学习的Q-learning算法得到目标函数W水库生态发电多目标中长期综合贴近指数最大,也就是发电和生态综合效益最大,以及水库各时段的最优出库流量
Figure GDA0003005045020000121
强化学习算法的具体求解过程请参见图2。
具体实施过程中,本发明水库的中长期调度的调度周期为一年,同时将整个调度周期按月划分为12个时段。水库中长期调度中各时段来水是不确定的,是一个周期性的连续性随机过程,径流值则表现为一个随机变量,并且服从皮尔逊III型分布。因此采用具有马尔可夫性的随机入库径流序列水库中各级水库在各时段的来水。根据水库历年入库流量,求解水库各时段的皮尔逊III型概率密度曲线的统计参数,将概率密度曲线参数,与历史径流数据带入海森几率格纸中,由适线法确定对应于各种概率密度的最优径流曲线。根据曲线选取各个时段代表性的N个概率,作为特征概率,并选取所对应的N个入库径流值作为入库径流特征值。通过皮尔逊III型分布模拟得出径流随机值计算状态转移概率矩阵,也表示水库入库径流随机分析。
S2中,对水库任一时段始末库容分别为Vi和Vj时,进行阶段收益求解,通过状态转移矩阵求解和Bellman方程求解水库在下一时刻水位随机情况下的余留收益,从而得到强化学习算法中的收益矩阵。也就是发电和生态综合效益。
利用Q-learning算法进行求解,先是有分幕,接着对每个分幕中Q值更新,Q值更新中需要计算回报。需要通过不断地试错和动作选择,逐步更新Q值表(动作值函数)。即:设定了一个奖励函数,根据ε-贪心策略(ε-greedy,ε为探索因子(0≤ε≤1))选取动作指令,执行动作指令并根据奖励函数更新Q值表,然后生成状态参数,根据状态参数和ε-贪心策略选取下一动作,然后继续执行动作指令并更新Q值表,直到更新得到最终的Q值表,最后据Q值表得到最优路径。
求解步骤如下:
S3中,状态变量St对应于水库各时段初的水位Zt,动作变量at对应于水库各时段的出库流量Qt,ck,奖励值r为水库各时段的发电量贴近度和生态流量贴近度之和,值函数Qt(s,a)为采取一定出库流量后,目标函数W的质量,最优策略序列π为水库整个调度周期内的最优动作序列,随机变量为水库各时段的入库径流Qt,rk。根据Q-learning算法试错的原理,从第一阶段水库起调水位V0开始进行尝试,对每一组[Vj,Vj]均对出库寻优计算,直到进行到最后一个阶段,完成一次寻优,对划分好状态和动作的Q值表进行初始化,将表格中的Q值全部初始化为0,然后根据时序差分法通过下一时刻的价值更新前一时刻的价值的思想对值函数进行更新,注意,每次初始状态所用的Q矩阵已经是上一次迭代循环更新的Q矩阵,通过状态转换得到初始的状态St,ε-贪婪策略选择动作at,达到下一个状态St+1,并且得到环境给出的即时回报rt+1,然后根据贪婪决策选择下一阶段的执行策略,即对Q值表进行迭代循环更新,具体更新公式如下:
Figure GDA0003005045020000131
式中:
Figure GDA0003005045020000132
为t+1时段采用策略π得到状态动作对(s,a)时的Q值函数,
Figure GDA0003005045020000133
为t时段采用策略π得到的状态动作对(s,a)时的Q值函数,α为Q-learning算法的学习率,
Figure GDA0003005045020000134
为采取动作a后状态由s转移到s′的回报值。γ为Q-learning算法的奖赏折扣率,
Figure GDA0003005045020000135
为t时段采用策略π得到状态动作对(s′,a)时Q值函数。
通过对Q值函数进行不断的试错更新,最终形成一个以s,a分别为横纵坐标,以离散的水位数为维数的Q矩阵。
重复对当前状态Vi进行观察,当智能体达到目标状态,算法终止一次分幕,最后算法继续从初始状态开始新的迭代循环,直到学习周期结束,直到迭代循环次数完成,或直到Q矩阵收敛。通过对Q矩阵进行最大值逐步寻优,得出最优的策略,即可得到目标函数W水库生态发电多目标中长期综合贴近指数最大,也就是发电和生态综合效益最大,以及水库各时段的最优出库流量
Figure GDA0003005045020000136
在一种实施方式中,步骤S1包括:
S1.1:水库的中长期调度的调度周期为一年,同时将整个调度周期按月划分为12个时段,根据水库历年入库流量,求解水库各时段的皮尔逊III型概率密度曲线的统计参数,并在海森几率格纸中绘制概率密度曲线,通过曲线筛选出水库各时段对应来水频率的一组模拟径流随机值;
S1.2:结合历史径流数据与各时段的模拟径流随机值,求解水库来水在相邻两个时段之间的相关性以及状态转移概率矩阵。
具体来说,水库中长期调度中各时段来水一般是不确定的,是一个周期性的连续性随机过程,径流值则表现为一个随机变量,并且服从皮尔逊III型分布。
在一种实施方式中,步骤S1.2包括:
利用马尔可夫相关性检验公式求解出t时段与t+1时段之间的相关系数,并判定其马尔科夫性:
Figure GDA0003005045020000141
式中,rt,t+1为水库相邻时段不同径流值之间转移的相关系数,Ns为样本的总年份数,
Figure GDA0003005045020000142
为水库t时段和t+1时段第i年的实际入库径流值,
Figure GDA0003005045020000143
为水库t时段和t+1时段第i年的实际入库径流均值,σt、σt+1分别为t时段实际入库径流的均方差和t+1时段实际入库径流的均方差;
求出第t时段与t+1时段之间的状态转移矩阵,具体为:按照频率将入库径流划分为N个区段,有pjk=P(St+1|St),其中,j,k分别表示第t和t+1时段入库径流序列所在的区段,第t个时段状态转移概率矩阵形式为:
Figure GDA0003005045020000144
式中,Pt为状态转移概率矩阵,pi,j为模拟径流随机值由i状态转移到j状态的概率值。
需要说明的是,S1.2中求解的状态转移概率矩阵在后续模型求解步骤中均需要使用,发电量贴近度目标函数中有一个变量是Pt,jk,这个变量与S1.2中的状态转移概率矩阵对应,也就是前文提到的条件概率的集合,S1.2中的马尔可夫相关性检验主要是为了验证研究对象的历史径流符合马尔科夫性。
在一种实施方式中,S3具体包括:
S3.1:确定最后一个时段的发电和生态综合效益、倒数第二时段的发电和生态综合效益以及后续时段直至初始时段的累计发电和生态综合效益;
S3.2:设各时段初离散水位状态集为S,时段出库流量的动作集为A,学习率α,衰减因子γ,以及贪婪决策的探索率ε,设置每组状态动作集合[Vn,i,Vn,j]所对应的阶段发电和生态综合效益为奖励矩阵R,设置初始Q值矩阵Q(s,a)和迭代轮数n;
S3.3:设置水库的起调水位,随机产生一个0-1之间的均匀分布小数ξ,使用ε-贪婪决策,若ξ≤ε则采取探索策略,在动作集A中随机选择一个动作a为当前状态s选择的动作,反之则在Q值矩阵Q(s,a)中选择状态s对应的最大Q值,然后通过Q值确定下一动作a;
S3.4:通过当前状态动作集合(s,a),得出在始末水位状态下本时段采取动作时所获得的奖励值R(s,a),将当前状态s采取动作a获得的新状态s′赋值给s,根据时序差分法通过下一时刻的价值更新前一时刻的价值的思想,通过状态转换得到初始的状态St,ε贪婪策略选择动作at,达到下一个状态St+1,并且得到环境给出的即时回报rt+1,然后根据贪婪决策选择下一阶段的执行策略,即对Q值表进行迭代循环更新,具体更新公式如下:
对值函数方程进行如下计算:
Figure GDA0003005045020000151
式中:
Figure GDA0003005045020000152
为t+1时段采用策略π得到状态动作对(s,a)时的Q值函数,
Figure GDA0003005045020000153
为t时段采用策略π得到状态动作对(s,a)时的Q值函数,α为Q-learning算法的学习率,
Figure GDA0003005045020000154
为采取动作a后状态由s转移到s′的回报值,γ为Q-learning算法的奖赏折扣率,
Figure GDA0003005045020000155
为t时段采用策略π得到状态动作对(s′,a′)时的Q值函数,通过对Q值函数进行不断的试错更新,最终形成一个以s,a分别为横纵坐标,以离散的水位数为维数的Q矩阵;
S3.5:将下一阶段状态s′赋值给s,下一阶段的a′赋值给a,若此时的s为目标状态,则此轮迭代完成,否则转移到S3.3,当智能体达到目标状态,算法终止一次分幕,此时初始状态所用的Q矩阵已经是上一次循环更新的Q矩阵,最后算法继续从初始状态开始新的迭代循环,直到学习周期结束,直到迭代次数完成或Q(s,a)收敛;
S3.6:根据已经收敛的Q(s,a),通过对Q矩阵进行最大值逐步寻优,得出最优的策略π,进而得出从初始水位开始到最末水位的发电和生态综合效益以及水库各时段的最优出库流量
Figure GDA0003005045020000156
具体来说,S3.1中,在确定最后一个时段的发电和生态综合效益时,最后一个阶段的余留效益取0,该时段N种代表入库流量下所对应的发电和生态综合效益即为本阶段的值。在确定倒数第二时段的发电和生态综合效益是,假设本时段初末水位均离散为M种状态,且该时段入库流量同样取N种。先求出每一种代表流量下本时段初末状态水位的阶段发电和生态综合效益,然后再根据状态转移概率矩阵可得倒数第二时段在N种代表流量下对应于最后一个时段的余留效益值,最后根据求倒数第二时段的累计发电和生态综合效益=阶段发电和生态综合效益+余留效益值。对于后续时段直至初始时段的累计发电和生态综合效益,均采用倒数第二时段的发电和生态综合效益所述的确定方法(由于调度周期划分为12个时段,每个时段的求解方式相同,因此不一一进行介绍)进行求解。
本发明属于水库生态优化调度领域,是一种水库生态发电多目标随机优化调度模型及求解方法,应用前景广泛,适合广泛推广。技术效果如下:
效果1:针对传统水库调度忽视流域生态环境保护,破坏河流生态系统稳定性的问题,采用考虑生态流量,协调社会经济效益与生态效益,保护物种多样性,满足河流自净需求,恢复自然水文情势,防止水体污染。
效果2:采用的是随机模型,更符合水库中长期调度入库的实际情况,通过皮尔逊III型分布模拟得出的径流随机值计算状态转移概率矩阵。考虑不同时段之间入库径流的马尔可夫性,能够更好的反映天然径流的随机,避免了采用特定年份历史数据作为入库径流时的偶然性。
效果3:强化学习是智能体以″试错″的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价,不是告诉强化学习系统如何去产生正确的动作。而Q-learning学习属于强化学习,不需要建立环境模型,是一种基于数值迭代的规划方法,在Q-learning学习过程中,智能体根据当前状态选择一个动作,执行该动作后会得到环境的激励,智能体需要根据该激励值和环境状态选择下一个动作。Q-learning在一定条件下只需采用贪心策略即可保证收敛,故其是目前有效的模型无关强化学习算法。学习中无需做线性假设,根据与环境交互来不断逼近优;当外界环境改变,反馈有相应变化,进而会导致智能体寻求新环境下的最优,即可随时根据条件做出调整。该学习对该生态随机调度模型进行求解,将克服随机动态规划算法所带来的维数灾问题。
效果4:在研究中多个目标同时优化,考虑水电站调蓄能力和功能,协调其社会、生态效益,建立以发电量为主,兼顾生态系统保护的多目标水库调度模型,分析满足不同生态流量约束方案下的水库调度方式,及其对发电、生态环境等整体效益的影响。总体来说,兼顾了理想生态流量需求;针对枯水年份来水偏少的特征,优化调度在保证、适宜生态需求的同时将理想生态缺水量控制在较低水平。
本发明中所描述的具体实施的例子仅仅是对本发明的系统的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形(即采用类似的替代方式),但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

Claims (5)

1.一种基于水库生态发电多目标中长期随机调度模型的优化调度方法,其特征在于,水库生态发电多目标中长期随机调度模型的构建包括:
根据水库的水位和发电情况,构建发电量贴近度目标函数:
Ht=Zt,sy-Zt,xy=(Zt+Zt+1)/2-Zt,xy (1)
Figure FDA0003005045010000011
Figure FDA0003005045010000012
Figure FDA0003005045010000013
Zt,sy和Zt,xy分别为水库t时段的上下游平均水位,Zt和Zt+1分别为水库t时段的初末水位,Ht是t时段的平均发电水头,pt,jk是t时段入库径流状态为Qt,fd相应的条件概率,其中,j=1~N,k∈[1,N],N为入库径流离散状态数,A是综合出力系数,Qt,fd是t时段的发电流量,Δtt是水库计算时段小时数,ELEC是水库总发电量的期望值,P为水库总装机容量,E1为水库总装机容量与一个调度周期时长的乘积,ZEfd是水库发电量贴近度目标函数,用以计算水库发电量贴近度;
根据出库流量和生态流量需求,构建生态流量贴近度目标函数:
Figure FDA0003005045010000014
Figure FDA0003005045010000015
Qt为控制断面t时段出库流量,
Figure FDA0003005045010000016
为生态流程,用以控制断面t时段的生态流量需求,Ft为生态流量贴近函数,ZEco为生态流量贴近度,
根据发电量贴近度目标函数和生态流量贴近度目标函数构建多目标函数,将其作为水库生态发电多目标中长期随机调度模型:
W=max[λfd*ZEfdEco*ZEco] (7)
λfd和λEco分别为发电量贴近度和生态流量贴近度的权重,ZEfd为水库发电量贴近度,ZEco为生态流量贴近度,W为水库生态发电多目标中长期综合贴近指数;
水库生态发电多目标中长期随机调度模型的构建还包括构建水库生态发电多目标中长期随机调度模型的约束条件,其中约束条件包括:
约束1:水电量平衡方程,其公式为:
Vt+1=Vt+(Qrk,t-Qfd,t)Δti (8)
式中,Vt和Vt+1分别为t时段的初、末蓄水量;Qrk,t为t时段的入库流量;Qfd,t为t时段的发电流量;
约束2:发电流量约束,其公式为:
Qfd,t,min≤Qfd,t≤Qfd,t,max (9)
式中,Qfd,t为t时段水库的实际发电流量,Qfd,t,min和Qfd,t,max分别为t时段水库的最小、最大发电流量;
约束3:水库水电站的出力约束,其公式为:
Pt,min≤Pt≤Pt,max (10)
式中,Pt为t时段水库的实际出力,Pt,min和Pt,max分别为t时段水库最小、最大出力约束;
约束4:水库库容约束,其公式为:
Vt,min≤Vt≤Vt,max (11)
式中,Vt为t时段水库库容,Vt,min和Vt,max分别为t时段最小、最大库容;
约束5:上下游水位约束,其公式为:
Zt,min≤Zt≤Zt,max (12)
式中,Zt为t时段的水库上游水位,Zt,min和Zt,max分别为t时段的最低、最高上游水位;
优化调度方法包括:
采用强化学习的Q-learning算法对水库生态发电多目标中长期随机调度模型进行求解,得到目标函数W水库生态发电多目标中长期综合贴近指数最大以及水库各时段的最优出库流量
Figure FDA0003005045010000021
将其作为优化调度结果;
优化调度方法中采用强化学习的Q-learning算法对水库生态发电多目标中长期随机调度模型进行求解,包括:
S1:采用具有马尔可夫性的随机入库径流序列水库中各级水库在各时段的来水,通过皮尔逊Ⅲ型分布模拟得出径流随机值计算状态转移概率矩阵,用以表示水库入库径流随机分析;
S2:根据水库约束条件中设置的水位的上下限值,按照指定的步长s1从下限值到上限值进行等距离散化处理,得出离散化的水位集合S作为Q-learning算法中的状态集合,同时对拟合出来的随机入库流量值也按照一定的步长k1进行离散化处理,得出的离散化的入库径流集合K作为Q-learning算法中的入库流量状态集合;
S3:状态变量St对应于水库各时段初的水位Zt,动作变量at对应于水库各时段的出库流量Qt,ck,奖励值r为水库各时段的发电量贴近度和生态流量贴近度之和,值函数Qt(s,a)为采取一定出库流量后,目标函数W的质量,最优策略序列π为水库整个调度周期内的最优动作序列,随机变量为水库各时段的入库径流Qt,rk,利用Q-learning算法进行求解,需要通过不断地试错和动作选择,逐步更新Q值表,得到最终的调度结果。
2.如权利要求1所述的优化调度方法,其特征在于,采用蒙大拿法计算河流理想生态流量,其中,生态流量的计算方法为:
Figure FDA0003005045010000031
Figure FDA0003005045010000032
为理想生态流量,λideal为理想生态流量系数,
Figure FDA0003005045010000033
表示t时段的多年平均流量。
3.如权利要求1所述的优化调度方法,其特征在于,步骤S1包括:
S1.1:水库的中长期调度的调度周期为一年,同时将整个调度周期按月划分为12个时段,根据水库历年入库流量,求解水库各时段的皮尔逊Ⅲ型概率密度曲线的统计参数,并在海森几率格纸中绘制概率密度曲线,通过曲线筛选出水库各时段对应来水频率的一组模拟径流随机值;
S1.2:结合历史径流数据与各时段的模拟径流随机值,求解水库来水在相邻两个时段之间的相关性以及状态转移概率矩阵。
4.如权利要求3所述的优化调度方法,其特征在于,步骤S1.2包括:
利用马尔可夫相关性检验公式求解出t时段与t+1时段之间的相关系数,并判定其马尔科夫性:
Figure FDA0003005045010000034
式中,rt,t+1为水库相邻时段不同径流值之间转移的相关系数,Ns为样本的总年份数,
Figure FDA0003005045010000035
为水库t时段和t+1时段第i年的实际入库径流值,
Figure FDA0003005045010000036
为水库t时段和t+1时段第i年的实际入库径流均值,σt、σt+1分别为t时段实际入库径流的均方差和t+1时段实际入库径流的均方差;
求出第t时段与t+1时段之间的状态转移矩阵,具体为:按照频率将入库径流划分为N个区段,有pjk=P(St+1|St),其中,j,k分别表示第t和t+1时段入库径流序列所在的区段,第t个时段状态转移概率矩阵形式为:
Figure FDA0003005045010000041
式中,Pt为状态转移概率矩阵,pi,j为模拟径流随机值由i状态转移到j状态的概率值。
5.如权利要求1所述的优化调度方法,其特征在于,S3具体包括:
S3.1:确定最后一个时段的发电和生态综合效益、倒数第二时段的发电和生态综合效益以及后续时段直至初始时段的累计发电和生态综合效益;
S3.2:设各时段初离散水位状态集为S,时段出库流量的动作集为A,学习率α,衰减因子γ,以及贪婪决策的探索率ε,设置每组状态动作集合[Vn,i,Vn,j]所对应的阶段发电和生态综合效益为奖励矩阵R,设置初始Q值矩阵Q(s,a)和迭代轮数n;
S3.3:设置水库的起调水位,随机产生一个0-1之间的均匀分布小数ξ,使用ε-贪婪决策,若ξ≤ε则采取探索策略,在动作集A中随机选择一个动作a为当前状态s选择的动作,反之则在Q值矩阵Q(s,a)中选择状态s对应的最大Q值,然后通过Q值确定下一动作a;
S3.4:通过当前状态动作集合(s,a),得出在始末水位状态下本时段采取动作时所获得的奖励值R(s,a),将当前状态s采取动作a获得的新状态s′赋值给s,根据时序差分法通过下一时刻的价值更新前一时刻的价值的思想,通过状态转换得到初始的状态St,ε贪婪策略选择动作at,达到下一个状态St+1,并且得到环境给出的即时回报rt+1,然后根据贪婪决策选择下一阶段的执行策略,即对Q值表进行迭代循环更新,具体更新公式如下:
对值函数方程进行如下计算:
Figure FDA0003005045010000042
式中:
Figure FDA0003005045010000051
为t+1时段采用策略π得到状态动作对(s,a)时的Q值函数,
Figure FDA0003005045010000052
为t时段采用策略π得到状态动作对(s,a)时的Q值函数,α为Q-learning算法的学习率,
Figure FDA0003005045010000053
为采取动作a后状态由s转移到s′的回报值,γ为Q-learning算法的奖赏折扣率,
Figure FDA0003005045010000054
为t时段采用策略π得到状态动作对(s′,a′)时的Q值函数,通过对Q值函数进行不断的试错更新,最终形成一个以s,a分别为横纵坐标,以离散的水位数为维数的Q矩阵;
S3.5:将下一阶段状态s′赋值给s,下一阶段的a′赋值给a,若此时的s为目标状态,则此轮迭代完成,否则转移到S3.3,当智能体达到目标状态,算法终止一次分幕,此时初始状态所用的Q矩阵已经是上一次循环更新的Q矩阵,最后算法继续从初始状态开始新的迭代循环,直到学习周期结束,直到迭代次数完成或Q(s,a)收敛;
S3.6:根据已经收敛的Q(s,a),通过对Q矩阵进行最大值逐步寻优,得出最优的策略π,进而得出从初始水位开始到最末水位的发电和生态综合效益以及水库各时段的最优出库流量
Figure FDA0003005045010000055
CN202010871614.2A 2020-08-26 2020-08-26 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法 Active CN112036633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010871614.2A CN112036633B (zh) 2020-08-26 2020-08-26 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010871614.2A CN112036633B (zh) 2020-08-26 2020-08-26 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法

Publications (2)

Publication Number Publication Date
CN112036633A CN112036633A (zh) 2020-12-04
CN112036633B true CN112036633B (zh) 2021-06-04

Family

ID=73580860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010871614.2A Active CN112036633B (zh) 2020-08-26 2020-08-26 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法

Country Status (1)

Country Link
CN (1) CN112036633B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239642B (zh) * 2021-04-12 2023-04-07 大唐甘肃发电有限公司碧口水力发电厂 一种计算水库入库流量的方法
CN113110067A (zh) * 2021-05-20 2021-07-13 国网湖南省电力有限公司 一种小水电站的水头优化方法、装置、设备及介质
CN113361818B (zh) * 2021-07-07 2023-09-22 西安热工研究院有限公司 一种水电机组中长期发电优化方法及系统
CN114784797B (zh) * 2022-04-25 2024-01-19 东南大学溧阳研究院 一种计及多重不确定性的住宅综合能源系统的热电优化日前调度方法
CN114784884B (zh) * 2022-06-21 2022-09-23 国能大渡河流域水电开发有限公司 一种基于调度模型的梯级水电站调度方法及系统
CN115857451B (zh) * 2022-12-02 2023-08-25 武汉纺织大学 一种基于强化学习的流水车间加工调度方法
CN115952958B (zh) * 2023-03-14 2023-07-11 珠江水利委员会珠江水利科学研究院 基于maddpg强化学习的水库群联合优化调度方法
CN117236478B (zh) * 2023-06-01 2024-04-26 南京航空航天大学 基于Transformer改进深度强化学习的多目标多水库调度优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392446A (zh) * 2017-07-03 2017-11-24 华中科技大学 一种基于敏感性分析的梯级水电站调度方案评价方法
CN110880048A (zh) * 2019-11-06 2020-03-13 国网湖北省电力有限公司宜昌供电公司 一种梯级水库生态随机优化调度模型及求解方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682409A (zh) * 2012-05-10 2012-09-19 中国水利水电科学研究院 一种基于gams非线性规划梯级水库群优化调度方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392446A (zh) * 2017-07-03 2017-11-24 华中科技大学 一种基于敏感性分析的梯级水电站调度方案评价方法
CN110880048A (zh) * 2019-11-06 2020-03-13 国网湖北省电力有限公司宜昌供电公司 一种梯级水库生态随机优化调度模型及求解方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Research on the Application of Bat Algorithm in the Medium and Long Term Optimization of Reservoir Operation;Wang Jingyi;《2018 10th International Conference on Modelling, Identification and Control (ICMIC)》;20181112;全文 *
基于SARSA算法的水库长期随机优化调度研究;李文武等;《水电能源科学》;20180930;第72-75页 *
杨哲等.考虑不同生态流量要求梯级水库群生态调度及其算法.《天津大学学报(自然科学与工程技术版)》.2018, *
考虑不同生态流量要求梯级水库群生态调度及其算法;杨哲等;《天津大学学报(自然科学与工程技术版)》;20181231;参见摘要,正文第1节 *

Also Published As

Publication number Publication date
CN112036633A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112036633B (zh) 一种基于水库生态发电多目标中长期随机调度模型的优化调度方法
CN110880048B (zh) 一种梯级水库生态随机优化调度模型及求解方法
CN108416691B (zh) 一种能源替代环保潜力计算方法
CN110930016A (zh) 一种基于深度q学习的梯级水库随机优化调度方法
CN107292766B (zh) 面向风电消纳的电力系统调峰手段经济性评估方法与系统
CN109146121A (zh) 基于pso-bp模型的停限产情况下的电量预测方法
CN105631528B (zh) 一种基于nsga-ii和近似动态规划的多目标动态最优潮流求解方法
CN107203687A (zh) 吸收塔脱硫过程多目标协同智能优化控制方法
CN107563538B (zh) 大电网平台下的面向关键水位控制的多目标水库群调度优化方法
CN112036632B (zh) 一种基于梯级水库生态发电多目标中长期随机调度模型的优化调度方法
WO2023070293A1 (zh) 一种工业副产煤气系统长期调度方法
CN112184479B (zh) 一种水库群调度规则型式和参数对气候变化的适应性研究方法
CN111428970A (zh) 一种大规模水电站群跨省外送能力分析模型及求解方法
CN104182804A (zh) 一种预测出力不确定小水电与大中型水电站协调的日前发电方法
Manowska Analysis and forecasting of the primary energy consumption in Poland using deep learning
CN114722709A (zh) 兼顾发电量和最小出力的梯级水库群优化调度方法及系统
CN108537370A (zh) 基于混合智能降维算法的特大流域水电站群优化调度方法
CN113255982A (zh) 一种风光水互补系统中长期优化调度方法
CN115907402B (zh) 一种梯级水电站联合保证出力的推求方法及系统
CN108108837A (zh) 一种地区新能源电源结构优化预测方法和系统
Li et al. Short-term load forecasting for an industrial park using LSTM-RNN considering energy storage
Lu et al. Forecasting China’s per capita living energy consumption by employing a novel DGM (1, 1, tα) model with fractional order accumulation
CN113191543A (zh) 考虑水资源供需过程关联性与随机性的水库优化调度方法
CN110348121A (zh) 一种水电系统应对径流变化适应性调控与评价方法及系统
Liu et al. Overview of the Application of Artificial Intelligence in Several Key Issues of Water Conservancy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant