CN110930016A

CN110930016A - 一种基于深度q学习的梯级水库随机优化调度方法

Info

Publication number: CN110930016A
Application number: CN201911134887.2A
Authority: CN
Inventors: 石强; 刘江鹏; 王炜; 余跃; 郑凯新
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-27

Abstract

一种基于深度Q学习的梯级水库随机优化调度方法，包括描述水库的入库径过程：建立马尔科夫决策过程MDPS模型；建立概率转移矩阵：建立梯级水库随机优化调度模型；确定模型的约束函数：引入深度神经网络，提取梯级水库径流状态特征，同时实现对调度模型的目标值函数进行近似表示和优化；将强化学习运用到水库随机优化调度中；建立DQN模型；采用深度强化学习算法，求解梯级水库随机优化调度模型。本发明一种基于深度Q学习的梯级水库随机优化调度方法，实现了梯级水库随机优化调度，使得在调度期内充分利用发电机组，用电需求和各种约束条件得到满足，年平均发电收益最大。

Description

一种基于深度Q学习的梯级水库随机优化调度方法

技术领域

本发明涉及梯级水库随机优化调度领域，具体为一种基于深度Q学习的梯级水库随机优化调度方法。

背景技术

水电能源是一种可再生的清洁能源。我们国家水能资源丰富，应用前景广阔，依据水资源的分布已建成大量水电站，梯级水电站已经成为我国主要的水电系统，具有防洪、发电、灌溉、供水等多方面效益。梯级水电站各个电站之间既存在着电力联系，又存在水资源的合理分配等问题，在满足电力系统运行要求的同时，还要考虑发电与用水之间的协调配合才能取得最大化的综合效益。水库长期随机优化调度，一般以一年为一个调度周期，是一个典型的多目标、多阶段、高维度、非凸性、离散的优化问题，很难找出理论上的最优解。

尽管一些随机动态规划的变式被应用于水电调度的最优控制中，但这类算法一直存在“维数灾”问题，当维数大时，计算时间将会很长，数据存储量巨大。发电量最大模型是传统研究水库长期优化调度问题常用的模型，为提高求解效率在原有算法基础上精细化改进、降低优化调度模型维数，或引入多核并行计算、集群计算等新兴计算基数，成为一些学者深入研究的热点。这些方法均可获得最优解或近似最优解，但“维数灾”问题并没有得到较好的解决，同时受水电站运行积累偏差、负荷需求偏差和径流预报偏差的影响，水电站的运行状态会发生偏离，则原有最优调度方案实际指导意义不佳。

强化学习(RL)是人工智能领域中机器学习(ML)方法的一个重要分支，也是处理多阶段决策问题的一种有效手段。在机器学习术语中，强化学习(RL)表述为一个由奖励驱使的试错过程，即Agent通过与复杂的环境反复交互，随着时间的推移，在试错中不断修正行动的策略，最终获得最大限度的预期累积收益，得到一系列策略序列。深度学习(DL)作为ML的一个分支，含有多个隐含层的感知器，主要采用基于人工神经网络的各种方法来实现ML的技术，并且自主学习特征，目前在计算机视觉、翻译及语义挖掘和图像处理等方面得到成功应用。由强化学习(RL)和深度学习(DL)发展而来的的深度强化学习(DRL)，已成为人工智能领域热门的研究对象之一。已有学者将具有多阶段决策的强化学习方法应用到水库长期随机优化调度中，尝试解决“维数灾”问题，还有学者将深度学习运用到提取水库调度函数或规则中。不过对于水库随机优化调度问题少有人将强化学习和深度学习相结合，在水库长期随机调度应用中展开研究。

发明内容

本发明提供一种基于深度Q学习的梯级水库随机优化调度方法，将考虑马尔可夫过程的深度强化学习的模型及算法引入梯级水库长期随机优化调度问题中，考虑入库径流随机过程和随机变量的马尔可夫决策过程，并应用深度学习(Tensorflow框架)充分利用和挖掘水库数据，对神经网络进行训练，充分获取水库知识，得到基于深度强化学习的梯级水库长期随机优化调度模型。本发明实现了梯级水库随机优化调度，使得在调度期内充分利用发电机组，用电需求和各种约束条件得到满足，年平均发电收益最大。

本发明采取的技术方案为：

一种基于深度Q学习的梯级水库随机优化调度方法，包括以下步骤：

步骤1、描述水库的入库径过程：

步骤2、建立马尔科夫决策过程MDPS模型；

步骤3、建立概率转移矩阵：

步骤4、建立梯级水库随机优化调度模型；

步骤5、确定模型的约束函数：

步骤6、引入深度神经网络，提取梯级水库径流状态特征，同时实现对调度模型的目标值函数进行近似表示和优化；

步骤7、将强化学习运用到水库随机优化调度中；

步骤8、建立DQN模型；

步骤9、采用深度强化学习算法，求解梯级水库随机优化调度模型。

本发明一种基于深度Q学习的梯级水库随机优化调度方法，技术效果如下：

1：本发明的深度强化学习将具有感知能力的深度学习与具有决策能力的强化学习相结合，通过端对端的学习实现对输入和输出的控制。由于学习了低维特征表示和强大的函数逼近性质的神经网络，因此它能够用深度神经网络紧密地表示高维观测和Q函数，将先前在RL中的工作扩展到求解高维问题，利用经验重放和目标网络两种技术解决了RL中函数逼近的基本不稳定性问题，同时通过表示学习而非表格和传统的非参数方法，可以有效地处理“维数灾”问题。

2：本发明在充分学习水库历史调度数据的基础上，采用深度强化学习方法研究基于大数据的梯级水库随机优化调度问题，为水库系统的预报、调度等环节的提供参考。

3：本发明中深度神经网络能够自动进行特征提取，所以使用深度神经网络既能提取梯级水库径流状态特征，又易于训练，进而实现对调度策略目标值函数进行近似表示和优化。

4：本发明方法将具有自我感知能力的DL和具有主动决策能力的RL紧密结合，加速深度学习模型算法的训练过程，便于深度学习模型快速求解水库随机优化调度模型的最优解。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明的功能结构示意图；

图2为本发明的马尔科夫决策过程图；

图3为本发明的深度学习网络图；

图4为本发明的强化学习示意图；

图5为本发明的深度强化学习流程图。

具体实施方式

步骤1、描述水库的入库径流过程：

利用水库历年的入库流量数据求得所述的入库径流流量的均值

变差系数C_VQi和偏差系数C_SQi，进而得到该水库符合皮尔逊III型概率密度分布的统计参数，相关统计参数可以通过以下公式求得：

C_SQi＝KC_VQi

式中：系数K可由适线法得到；n表示统计样本年数；Q_ij表示j年i时段入库径流流量。

σ_Qi表示：第i时段的均方差；

表示含义：第i时段的入库径流平均值；C_VQi表示含义：第i时段的变差系数；C_SQi表示第i时段的的偏差系数；K范围：1～3。

步骤2、建立马尔科夫决策过程MDPS模型：

马尔科夫决策过程指的是考虑一个学习系统或智能体(Agent)或决策者(decision maker)和环境相互作用。马尔科夫决策过程具有以下特点：无后效性；状态转移具有不确定性；Agent所处的每步状态明确。其整个过程可以分为：①、马尔科夫性、②.马尔科夫过程、③、马尔科夫决策过程。

由以上过程可以建立一个马尔科夫决策过程MDPS模型，这是一种在强化学习中广泛采用的环境与环境交互模型。马尔科夫性指下一状态仅与当前动作状态有关，而马尔科夫决策过程的状态转移矩阵概率包含动作。Agent周期或连续地观察具有马尔科夫性的随机动态系统，序贯地作出相应决策，如图2所示。

步骤3、建立概率转移矩阵：

由步骤1和步骤2，确定入库径流状态转移过程符合何种马尔科夫过程(独立过程、简单过程或复杂过程)，进而确定各时段入库径流的数据对应的状态和状态间的概率转移矩阵，相关系数由实际观测资料计算：

其中：r_t,t+1表示t时段与t+1时段的相关系数；n为统计样本年数；Qⁱ _t、Qⁱ _t+1分别表示t时段与t+1时段的入库径流量；

分别表示t时段与t+1时段径流值的均值；σ_t、σ_t+1分别表示t时段与t+1时段径流值的均方差。

为求解随机动态规划问题，建立状态转移概率矩阵，P(X_t+1|X_t)为马尔科夫链于t时段到t+1时段的转移概率，即：p_jk＝P(X_t+1|X_t)，第t个时段的状态转移概率矩阵如下：

P₁₁…P_1n表示：从t时段的1状态转移到t+1时段的n状态的概率；P_m1…P_mn表示：从t时段的m状态转移到t+1时段的n状态的概率。

由下式：即可得到状态转移概率矩阵中的各元素，从而求得状态转移概率矩阵：

f_jk表示：从j状态转移到k状态的频数、N：表示入库径流离散的状态总数(1～N)、j/k：表示入库径流离散状态，j为前一阶段离散状态，k为后一阶段离散状态。

步骤4、建立梯级水库随机优化调度模型：

以梯级水库随机优化调度模型的年发电量期望值最大，作为模型的目标函数。累加各水库各时段发电量期望值，即可求解总发电量的期望值E^*，其目标函数表达式为：

E_t表达式由如下式子推导：

其中j离散状态下的H_j发电水头：H_j＝Z_sy-Z_xy＝(Z_t-Z_t+1)/2-Z_xy。

其中：V_i,t表示t时段的初蓄水量；

表示t时段的发电流量值；式中,E_i,t为t时段i水库的发电量；T为总调度周期时段；R_i,t为t时段i水库的指标函数；V_i(i＝1～M)为均匀离散的M个库容值；

为t时段的按皮尔逊Ⅲ型分布计算获得拟合频率离散的水库各时段随机来水量流量值；

表示t时段的发电流量值，m³/s；i水库t时刻状态转移概率为

其中，k∈(1～N)，具体求解过程详见步骤1至步骤3；

步骤5、确定模型的约束函数：

水量平衡约束：

发电流量约束：

出力约束：P_t,min≤P_t≤P_t,max，

库容约束：V_t,min≤V_t≤V_t,max，

水库水位约束：Z_t,min≤Z_t≤Z_t,max。

其中：V_t、V_t+1分别表示t时段的初、末蓄水量；

表示t时段的发电流量值；

分别表示t时段水库最小、最大发电流量；P_t表示t时段实际出力；P_t,min、P_t,max分别为表示t时段水库最小、最大出力约束；V_t表示t时段库容；V_t,min、V_t,max分别表示t时段的最小、最大库容；Z_t表示t时段上游水位；Z_t,min、Z_t,max分别表示t时段的最低、最高上游水位。

步骤6、引入深度神经网络：

本发明拟采用TensorFlow搭建神经网络框架，并采用强化学习算法对所述的神经网络进行加速训练。TensorFlow由Google公司在2015年11月开发，核心部分使用C++编写的，有完整的Python API和C++接口，同时还有一个基于C的客户端API。该机器学习框架专为在依赖机器学习的项目中使用而设计，包含数值计算形式的数据流图的库，使得开发人员能够跨多种设备启动深度学习框架，是目前最流行的深度神经网络模型。

一般TensorFlow框架在处理机器学习问题有以下步骤：

S1:确定特征，收集训练数据；

S2:确定模型；

S3:根据样本训练模型(train)，确定模型参数；

S4:根据测试数据，评估模型的预测功能(test)。

目前典型的深度学习模型包括：卷积神经网络(CNN)，卷积神经网络深度置信网络(DBN)、受限玻尔兹曼机(RBM)等。传统机器学习系统的网络称为“浅层网络”，一般由1个输入层，1个隐藏层和1个输出层组成，如传统的ANN(Artificial neural network,ANN)模型一般由以上三层神经网络组成，故称其为“浅”层神经网络。工作机理其完全可以类比成一个元函数：Y＝W*X+b。一个简单的神经网络可以理解为两次一元函数的输入和输出间的映射。

第一次：Y₁＝A₁(W₁*X+b₁)，其中X表示原始数据的输入，A₁代表激活函数。

第二次：Y₂＝A₂(W₂*Y₁+b₂)，其中Y₁表示第一次的输出，A₂是激活函数。参数W₁、W₂、b₁、b₂原则上各不相同。

而深度学习网络层数一般远大于所述的ANN层数。深度神经网络能够自动进行特征提取，所以使用深度神经网络既能提取梯级水库径流状态特征，又易于训练，进而实现对调度策略目标值函数进行近似表示和优化，如图3所示。

梯级水库历史数据基于二八定律，将数据集样本分区：确定的训练样本占比80％和测试样本占比20％。

神经网络的学习中所用的指标称为损失函数(loss function)。这个损失函数一般用均方误差等。损失函数是表明神经网络性能的指标，反映当前的神经网络对所述数据拟合的程度。均方误差:可以用作损失函数的函数有很多，其中最有名的是均方误差(meansquared error)。所述的均方误差如下式所示：

这里，y_k是表示神经网络的输出，t_k表示监督数据，k表示数据的维数。

神经网络中含有激活函数，使得神经网络具有处理非线性问题的能力。如果不能选择合适的激活函数，很难看到优化效果。常用的激活函数有：tanh，sigmoid，relu等，一般情况可先采用tanh函数尝试。

步骤7、将强化学习运用到水库随机优化调度中：

强化学习的起源最早可以追溯到1956年的Bewllman最优方程。RL框架主要由Agent和环境(Environment)两部分组成。强化学习是通过构建一个系统(Agent)，在与环境(Environment)交互的过程中提高系统的性能，Agent以接受长期奖励值最大为目标，依据某种策略选定一个动作并作用于环境，最终决定遇到每一种状态时应该采取何种动作。RL的目的就是系统从环境到行为映射的学习，以使目标值函数最大，如图4所示。

本发明中的强化学习以Q-learning算法为例：Q学习算法实质上为一种无模型的迭代算法。Q学习算法在t＝T+1时以任意Q₀开始运行，在每个时间步t中，Q学习以时序差分方程来更新其Q值。算法基本形式为：

其中，Q(S_t,A_t)表示所述的Agent在状态S时，采取动作A所获得的奖励折扣值；其中，α∈[0,1]为学习率，反映RL过程中误差被学习的效率；γ表示对将来奖励的折扣，反映将来奖励对现在的影响程度。时序差分定义为最优Q值在(s_t,a_t)上的更新估计值

与当前估计值Q_t(s_t,a_t)的差。

R_t+1表示下一时刻的奖励值，γ表示折扣因子，

表示S_t+1状态时利用贪婪决策选取是的Q值最大的动作。

一般而言单纯将强化学习运用到水库随机优化调度中，可以建立基于强化学习理论的水库长期随机优化调度问题的主要特征，并针对强化学习算法中的状态集合S、动作集合A、和奖励矩阵R进行合理定义。首先，状态集合S是将库容V或上游水位Z离散为从小到大的M个值(i＝1～M)，因此每一个时段状态集合S中的元素可分作M个值(i＝1～M)，因此每一个时段状态集合S中的元素可分作M个状态；其次，动作集A为水库调度模型中的历年逐月、从小到大离散的若干个发电流量Q_fd；最后再根据水库调度手册中的相关参数及状态集合S和动作集合A中各元素值，确定奖励矩阵中的元素值r_t(s_t,s_t+1,a_t)，即当前时段的状态s_t采取任一动作a_t更新到下一时段的状态s_t+1所获得的奖励值。

步骤8、建立DQN模型，算法流程如下：

步骤9、采用深度强化学习算法，求解梯级水库随机优化调度模型：

深度强化学习算法将具有感知能力的深度学习和具有决策能力的强化学习紧密结合在一起，构成深度强化学习对所述的梯级水库历史数据进行学习，在符合水库优化调度规则和相关约束的条件下作出决策。本发明采用DRL中的深度Q学习算法(DQL)是基传统Q-学习算法的改良，Q-学习算法在人工智能领域和水资源管理中也被广泛应用，该算法在迭代时遵循“状态-动作-奖励”规律，并以Q(S，A)作为估计值函数，而使得奖励值最大的行为即为在该状态下最优的决策。

在Q算法做初始化策略时，通常采用ε-greedy贪婪决策作为迭代策略，如下：

式中，

表示在t时刻，s_t状态下，迭代第i次的最优策略；p_ij表示由当前状态转移至下一状态的概率。状态集合S、动作集合A、和奖励矩阵R中各元素值，用于确定奖励矩阵中的元素值r_t(s_t,s_t+1,a_t)，即当前时段的状态s_t采取任一动作a_t更新到下一时段的状态s_t+1所获得的奖励值。RL旨在寻找最佳策略π，使得在该策略下做出的序贯决策获得累计的回报期望最大:

R(τ)表示在最佳策略π下获得的奖励、p_π(τ)表示取得最佳策略π的概率。

除考虑无模型强化学习算法的马尔科夫过程，对于强化学习模型中学习次数较多且收敛速度较慢的情况，尝试对学习率α进行改进:

α＝1/N^ψ；

式中：N为迭代次数，ψ为参数，且ψ∈[0.5,1]，如果状态和动作空间是离散且有限的，当转移数量N^ψ趋近与无穷时，则Q学习渐进收敛至Q^*(最优值)。

通过贪心策略选择动作，直到值函数收敛，得到最优策略：

为使得Q(s,a)值最大所选取的最优动作a；通过以上策略可为各状态寻找到最佳动作，在梯级水库随机优化调度问题中，其状态空间呈现高维特征，在计算和存储所述的“状态-动作”时，“维度灾”问题较为严重。而DQN算法采用值函数近似逼近的方法得到Q值，求解方法如下：

Q(s,a)＝f(s,a)

上式中，函数映射关系中的Q值与状态及动作，通过深度神经网络进行训练和学习。对“当前值”网络和“目标值”两个神经网络设置相同的网络结构、设置不同的网络参数进行训练，实现对当前Q值与目标Q值的更新，并选取所述的当前Q值与目标Q值差值的平方作为损失函数对网络反向传递更新。DQN主要使用2种技术来解决RL中的函数逼近不稳定问题：经验重放和目标网络。

对于高维状态空间，DQN算法把状态S作为输入，形如[Q(s1，a1)，Q(s2，a2)，…，Q(sn，an)]的矩阵作为状态S下采取的所有概率的动作所对应的奖惩值，通过对数据的训练和学习积累经验并学习历史经验，形成状态S与所述矩阵之间的映射，再从中选取具有最优动作的Q值“状态-动作对”。当然本发明中的所述的DQN神经网络可以选择含有参数θ的卷积神经网络作为Q值函数逼近器，从历史的经验回放池中采样所需学习的历史经验数据更新网络参数，所述的逼近器更新推导公式如下：

上式中，θ_i+1表示更新后的训练网络的参数；θ_i表示当前训练网络的参数；s表示当前状态；a表示当前动作；r表示奖赏信号；E_(s,a,r,s')表示每个时间步下agent与环境交互得到的转移样本、Q(s,a；θ_i)表示在状态s和动作a下，选取θ_i参数训练网络获得的Q值；

表示为使得

值最大的动作a'；s'表示下一时刻状态；a'表示下一时刻动作；γ表示折扣因子；

表示目标网络的参数；

为梯度符号，即

为Q(s,a；θ_i)的梯度。

同时需要注意：神经网络的规模、参数选择等问题一般都是由经验来确定，其中算法参数选取很重要，如所述的学习率α表示值函数取得最优值的速率，需要根据具体训练效果选取，否则可能出现网络训练不收敛的情况，所以深度神经网络训练稳定性在此基础上有很多提升空间。选择一些优秀的优化器将有助于得到讲好的训练效果和稳定性收益，如通过随机梯度下降法(SDG)优化得到的网络参数可能是一个局部最优值，还有提升的空间，还可以选择其他优化器如：Adam，Nadam等，按照实际的训练情况进行选取。

本发明所述的DQN模型，较传统的深度学习或是强化学习在处理梯级水库随机优化调度问题上，有如下3个方面的改进：

其一：利用深度(卷积)神经网络来逼近和拟合得到目标值函数，同时利用经验回放对强化学习过程中学到的决策知识进行训练和学习，设置“当前值”网络和“目标值”两个神经网络两个独立的目标网络分别来处理时间差分(TD)算法中的如何得到偏差来更新网络的问题。

其二：由于使用强化学习策略，经验回放技术和设置特定的Q值网络,所述的DQN模型，有效解决了解决梯级水库随机优化调度中常遇见的“维数灾难问题”，同时使用神经网络获取非线性动作值函数的逼近器带来的网络训练易发散和稳定性不高的问题，扩大了传统单一深度学习和强化学习的适用性。强化学习的不断试错，主动学习和作出决策，深度学习网络的经验回放提升了水库历史数据的学习效率，以上过程的结合稳定了动作值函数的训练过程。

其三：通过强化学习奖赏机制和深度神经网络合理的参数设置，网络的梯度得以限制，不易出现梯度消失的情况，获得具有鲁棒性能更强的训练效果。所述的DQN模型设置了网络系统训练误差值，当模型训练误差小于设定误差值或者达到设置的迭代次数时，输出求解结果，训练效果将会得到保证。所述的深度Q学习梯级水库随机优化调度模型的流程请参见图5。

Claims

1.一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于包括以下步骤：

步骤1、描述水库的入库径流过程：

步骤2、建立马尔科夫决策过程MDPS模型；

步骤3、建立概率转移矩阵：

步骤4、建立梯级水库随机优化调度模型；

步骤5、确定模型的约束函数：

步骤7、将强化学习运用到水库随机优化调度中；

步骤8、建立DQN模型；

2.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤1中，利用水库历年的入库径流流量数据，求得入库径流流量的均值

变差系数C_VQi和偏差系数C_SQi，进而得到该水库符合皮尔逊III型概率密度分布的统计参数，相关统计参数通过以下公式求得：

C_SQi＝KC_VQi；

式中：系数K由适线法得到；n表示统计样本年数；Q_ij表示j年i时段入库径流流量；

σ_Qi为第i时段的均方差；

为第i时段的入库径流平均值；C_VQi为第i时段的变差系数；C_SQi为第i时段的的偏差系数；K范围：1～3。

3.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤3中，建立概率转移矩阵：

由步骤1和步骤2，确定入库径流状态转移过程符合何种马尔科夫过程，进而确定各时段入库径流的数据对应的状态和状态间的概率转移矩阵，相关系数由实际观测资料计算：

分别表示t时段与t+1时段径流值的均值；σ_t、σ_t+1分别表示t时段与t+1时段径流值的均方差；

P₁₁…P_1n表示从t时段的1状态转移到t+1时段的n状态的概率；P_m1…P_mn表示从t时段的m状态转移到t+1时段的n状态的概率；

f_jk表示从j状态转移到k状态的频数、N入库径流离散的状态总数(1～N)、j/k表示入库径流离散状态，j为前一阶段离散状态，k为后一阶段离散状态。

4.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤4中，建立梯级水库随机优化调度模型：

以梯级水库随机优化调度模型的年发电量期望值最大，作为模型的目标函数；累加各水库各时段发电量期望值，即可求解总发电量的期望值E^*，其目标函数表达式为：

E_t表达式由如下式子推导：

其中j离散状态下的H_j发电水头：H_j＝Z_sy-Z_xy＝(Z_t-Z_t+1)/2-Z_xy；

其中：V_i,t表示t时段的初蓄水量；

表示t时段的发电流量值；E_i,t为t时段i水库的发电量；T为总调度周期时段；R_i,t为t时段i水库的指标函数；V_i(i＝1～M)为均匀离散的M个库容值；

表示t时段的发电流量值，m³/s；i水库t时刻状态转移概率为

其中，k∈(1～N)。

5.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤5中，确定模型的约束函数：

水量平衡约束：

发电流量约束：

出力约束：P_t,min≤P_t≤P_t,max，

库容约束：V_t,min≤V_t≤V_t,max，

水库水位约束：Z_t,min≤Z_t≤Z_t,max；

其中：V_t、V_t+1分别表示t时段的初、末蓄水量；

表示t时段的发电流量值；

6.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤6中，深度神经网络能够自动进行特征提取，使用深度神经网络既能提取梯级水库径流状态特征，又易于训练，进而实现对调度策略目标值函数进行近似表示和优化；梯级水库历史数据基于二八定律，将数据集样本分区：确定的训练样本占比80％和测试样本占比20％；

神经网络的学习中所用的指标称为损失函数(loss function)；这个损失函数一般用均方误差；损失函数是表明神经网络性能的指标，反映当前的神经网络对所述数据拟合的程度；所述的均方误差如下式所示：

其中，y_k是表示神经网络的输出，t_k表示监督数据，k表示数据的维数。

7.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤6中，所述步骤7中，强化学习采用Q-learning算法，Q学习算法实质上为一种无模型的迭代算法；Q学习算法在t＝T+1时以任意Q₀开始运行，在每个时间步t中，Q学习以时序差分方程来更新其Q值；算法基本形式为：

其中，Q(S_t,A_t)表示所述的Agent在状态S时，采取动作A所获得的奖励折扣值；其中，所述的α∈[0,1]为学习率，反映RL过程中误差被学习的效率；γ表示对将来奖励的折扣，反映将来奖励对现在的影响程度；时序差分定义为最优Q值在(s_t,a_t)上的更新估计值

与当前估计值Q_t(s_t,a_t)的差；

将强化学习运用到水库随机优化调度中，能够建立基于强化学习理论的水库长期随机优化调度问题的主要特征，并针对强化学习算法中的状态集合S、动作集合A、和奖励矩阵R进行合理定义；首先，状态集合S是将库容V或上游水位Z离散为从小到大的M个值(i＝1～M)，因此每一个时段状态集合S中的元素可分作M个值(i＝1～M)，因此每一个时段状态集合S中的元素可分作M个状态；其次，动作集A为水库调度模型中的历年逐月、从小到大离散的若干个发电流量Q_fd；最后再根据水库调度手册中的相关参数及状态集合S和动作集合A中各元素值，确定奖励矩阵中的元素值r_t(s_t,s_t+1,a_t)，即当前时段的状态s_t采取任一动作a_t更新到下一时段的状态s_t+1所获得的奖励值。

8.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤9中，采用DRL中的深度Q学习算法DQL是基传统Q-学习算法的改良，Q-学习算法在迭代时遵循“状态-动作-奖励”规律，并以Q(S，A)作为估计值函数，而使得奖励值最大的行为即为在该状态下最优的决策；

在Q算法做初始化策略时，采用ε-greedy贪婪决策作为迭代策略，如下：

式中，所述的

表示在t时刻，s_t状态下，迭代第i次的最优策略；所述的p_ij表示由当前状态转移至下一状态的概率；状态集合S、动作集合A、和奖励矩阵R中各元素值，用于确定奖励矩阵中的元素值r_t(s_t,s_t+1,a_t)，即当前时段的状态s_t采取任一动作a_t更新到下一时段的状态s_t+1所获得的奖励值；RL旨在寻找最佳策略π，使得在该策略下做出的序贯决策获得累计的回报期望最大:

R(τ)表示在最佳策略π下获得的奖励、p_π(τ)：取得最佳策略π的概率；除考虑无模型强化学习算法的马尔科夫过程，对于强化学习模型中学习次数较多且收敛速度较慢的情况，尝试对学习率α进行改进:

α＝1/N^ψ

式中：N为迭代次数，ψ为参数，且ψ∈[0.5,1]，如果状态和动作空间是离散且有限的，当转移数量N^ψ趋近与无穷时，则Q学习渐进收敛至Q^*最优值；

通过贪心策略选择动作，直到值函数收敛，得到最优策略：

为使得Q(s,a)值最大所选取的最优动作a；通过以上策略，能够为各状态寻找到最佳动作，在梯级水库随机优化调度问题中，其状态空间呈现高维特征，在计算和存储所述的“状态-动作”时，“维度灾”问题较为严重。

9.根据权利要求1所述一种基于深度Q学习的梯级水库随机优化调度方法，其特征在于：所述步骤9中，DQN算法采用值函数近似逼近的方法得到Q值，求解方法如下：

Q(s,a)＝f(s,a)

上式中，函数映射关系中的Q值与状态及动作，通过深度神经网络进行训练和学习；对“当前值”网络和“目标值”两个神经网络设置相同的网络结构、设置不同的网络参数进行训练，实现对当前Q值与目标Q值的更新，并选取所述的当前Q值与目标Q值差值的平方作为损失函数对网络反向传递更新；

对于高维状态空间，DQN算法把状态S作为输入，形如:[Q(s1，a1)，Q(s2，a2)，…，Q(sn，an)]的矩阵作为状态S下采取的所有概率的动作所对应的奖惩值，通过对数据的训练和学习积累经验并学习历史经验，形成状态S与所述矩阵之间的映射，再从中选取具有最优动作的Q值“状态-动作对”；DQN神经网络能够选择含有参数θ的卷积神经网络作为Q值函数逼近器，从历史的经验回放池中采样所需学习的历史经验数据更新网络参数，逼近器更新推导公式如下：

表示为使得Q(s',a'；θ_i ^-)值最大的动作a'；s'表示下一时刻状态；a'表示下一时刻动作；γ表示折扣因子；θ_i ^-表示目标网络的参数；

为梯度符号，即

为Q(s,a；θ_i)的梯度。

10.DQN模型，在梯级水库随机优化调度中的应用。