CN113988358A

CN113988358A - 基于迁移强化学习的碳排放指数预测与治理方法

Info

Publication number: CN113988358A
Application number: CN202111047552.4A
Authority: CN
Inventors: 张志亮; 赵永国; 杨荣霞; 曹熙; 张仙梅; 郭鑫
Original assignee: China Southern Power Grid Big Data Service Co ltd
Current assignee: China Southern Power Grid Big Data Service Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2022-01-28

Abstract

本发明涉及一种基于迁移强化学习的碳排放指数预测与治理方法，是针对现有同类技术中碳排放指数迁移强化学习和预测治理方法较难准确精准预测，以及较难最大化治理的技术问题。其要点是该预测方法通过迁移学习方法对具有相似特征区域的碳排放模型进行迁移，共享碳排放指数预测的信息；将迁移学习预测到的碳排放指数作为强化学习状态的输入，结合强化学习MDP进行碳排放治理建模，构建奖赏函数，运用强化学习算法实现预测。该治理方法利用MDP构建大规模自适应动态治理工具选择和组合，并利用强化学习的方法进行最优化策略求解，这个最优策略将引导整个治理工具组合过程达到最终目标，最优的工具组合方案即为MDP最优策略所对应的动作序列。

Description

基于迁移强化学习的碳排放指数预测与治理方法

技术领域

本发明涉及碳排放指数预测与治理的方法，是一种基于迁移强化学习的碳排放指数预测与治理方法。

背景技术

目前，由于电力行业的碳排放指数是结合电力碳排放总量指标、电力排放强度指标和零碳电能占比三个指标构成的，三个指标具有相互侧重又相互支撑。因此电力碳排放充电行业碳排放指数涉及时域、地域和成分(即电力碳排放总量指标、电力排放强度指标和零碳电能占比)三个维度来刻画。现有一些碳排放方法涉及电力系统，如中国专利文献中披露的申请号202010242390.9，申请公布日2020.08.11，发明名称“一种电力系统碳排放风险控制优化方法”；另一些通过碳排放来约束电动汽车的保有量，如中国专利文献中披露的申请号 202010002492.3，申请公布日2020.04.03，发明名称“一种基于碳排放约束的电动汽车保有量预测方法及系统”。但从一个地区对碳排放指数构建碳排放的预测模型，直接使用很难适用于其他区域，除此之外，碳排放指数跟时间有关系，不同时间尺度下，碳排放的趋势和特征也是不同的，因此传统的机器学习模型用于不同区域的碳排放指数预测，其预测准确性和性能将会大打折扣。上述预测方法的传统机器学习模型用于不同区域的碳排放指数预测，其预测准确性和性能将会大打折扣；对应的治理方法在治理质量和组合效率上较难最大化满足治理的需求，并且没有考虑组合方案的适应性和面对大规模治理工具组合场景的可扩展性问题。

发明内容

为克服上述不足，本发明的目的是向本领域提供一种基于迁移强化学习的碳排放指数预测与治理方法，使其主要解决现有同类技术中碳排放指数迁移强化学习和预测治理方法较难准确精准预测，以及较难最大化治理的技术问题。其目的是通过如下技术方案实现的。

一种基于迁移强化学习的碳排放指数预测方法，该预测方法由基于迁移学习的碳排放指数预测和基于强化学习的碳排放治理行为建模两个部分组成；其特征在于该预测方法通过迁移学习方法对具有相似特征区域的碳排放模型进行迁移，共享碳排放指数预测的信息；再此基础上，将迁移学习预测到的碳排放指数作为强化学习状态的输入，结合强化学习MDP进行碳排放治理建模，构建奖赏函数，运用强化学习算法实现碳排放治理效果的预测，提高碳排放治理行为预测的精度。

该预测方法的具体步骤如下：步骤一，对某一个区域的历史数据进行建模，生成碳排放指数预测器；步骤二，找到相似特征的样本，以现有的预测器为基准，辅助其他区域生成满足自身分布的预测器；步骤三，在线更新初始预测器，采用集成权重调正算法生成一个最终的预测器；步骤四，采用强化学习对碳排放治理行为的效果进行控制。

所述步骤一的具体步骤如下：1、借助历史数据信息，把每一个监测点采集回来的数据按照时间序列进行排序，为提取历史数据的时空特征提供数据基础；2、采用深度学习对历史数据的时空信息进行提取，卷积层为分别是3×3，4×3，5×3，步长为2，对历史数据进行多尺度高层次时空特征提取；3、采用流形学习，对多尺度高层次时空特征进行降维，并以降维后的特征作为神经网络的输入层，经过神经网络隐含层，最后得到神经网络的输出——未来一个时间段该区域的碳排放指数预测值，生成一个预测器。

所述步骤二的具体步骤如下：

1、对每一个区域的历史数据采用深度学习，实现多尺度高层次时空特征提取；

2、采用流形学习，对多尺度高层次时空特征进行降维，具体流程为：

假设某个地区i的多尺度高层次时空特征X_T＝{x₁,x₂,...x_T}^N∈R^N，T表示每一个预测周期，每一个预测周期的碳排放指数为Y＝{I₁,I₂,...,I_T}^NI∈R^NI；采用流形学习——LE算法实现高维到低维的映射；

3、LE算法侧重于保持局部领域结构，其认为，高维空间数据近邻点经过降维在低维空间的投影也应该是近邻的；以特征映射的方式实现了高维数据的降维，得到的低维数据的结构特征具有投影不变形的特征；加入高维数据的两个样本点具有近邻的特征，x_i与x_j为近邻点，对邻域内所有点计算两两距离并结合权重形成邻域图；在此基础上，构建邻域权重矩阵；在保持邻域图结构不变性的基础上，通过投影实现高维数据的降维；

目标函数为：

q_i与q_j是高维数据x_i与x_j的低维映射位置；

4、采用LE算法实现多尺度高层次时空特征从高维到低维的转换，假设某个地区i的多尺度高层次时空特征X_T＝{x₁,x₂,...x_T}^N，T表示每一个预测周期，每一个预测周期的碳排放指数为

根据LE算法，建立邻域图G，V表示X_T＝{x₁,x₂,...x_T}^N多尺度高层次时空特征数据，E表示多尺度高层次时空特征数据之间的邻近关系，然后采用(LE算法)流形学习算法实现低维空间q_i与碳排放指数y_i的最小值拟合；根据上述思路，建立目标函数：

其中，q＝min{q₁,q₂,...,q_T}^d∈R^d，是通过上一步的LE算法求解出来的低维映射；

5、在获得低维空间q_i后，采用相似性对多尺度高层次时空的低维映射特征进行相似性判断；

如果低维映射特征的相似性大于设定的阈值，那么将其作为一组，否则归为不同一组；

6、多任务学习——基于聚类的多任务学习，每个聚类都生成一个预测器，形成每一个区域的初始预测器。

所述步骤二的目标函数求解，对数据进行如下处理：

1)选择合适的邻域并构造邻域图；在选取邻域点之后，将数据X与邻域点进行连接，构造邻域图G＝(V,E)，V代表邻域图中的节点集合，E代表邻域图的边集合；

2)选择权重，权重选择有两种方式，第一种是无差异的权重，如果e(i,j)∈E，代表邻域图节点x_i与节点x_j是直接相连，那么权重为1，否则为0；第二种是根据两点之间的距离计算权重，采取第二种方法计算两点之间的权重；采用高斯核函数表示邻域图节点之间的权重，具体表示为：

由公式2可知，两点的距离越小，那么权重越大；

3)特征映射，获得权重后，目标函数简化为：

其中，拉普拉斯矩阵L＝D-W，

其中矩阵D直接测度邻域图中节点集合V的重要性.当D(i,i)值越大，节点V_i的重要性越大；因此高维到低维空间映射的距离最小化转变为：

为了保证低维空间的维度不小于d-1维，在高维到低维空间映射过程中引入一个任意比例因子，表示的约束条件q^TDq＝1；采用拉格朗日乘数对约束条件进行求导，得到：

Lq＝λDq(公式5)

其中，λ为拉格朗日乘子，由于

是特征值为0的特征向量，因此无法反映高维数据的结构特征；为了保证q的平移不变性的特征，增加一个约束条件，q^TDl＝0；公

式4改写为：

由Rayleittz-Riz定理可知，将高维空间与流形进行对齐，低维空间的映射结果就是L 的d+1维向量v₂,v₃,v₄,...,v_d+1，最后得到低维嵌入结果q＝[v₂,v₃,v₄,...,v_d+1]^T。

该治理方法利用MDP构建大规模自适应动态治理工具选择和组合，并利用强化学习的方法进行最优化策略求解，这个最优策略将引导整个治理工具组合过程达到最终目标，最优的工具组合方案即为MDP最优策略所对应的动作序列；其特征在于该治理方法的步骤具体如下：

1、首先，该方法需要对大规模自适应的治理工具组合问题建模，一个MDP建模的治理工具组合用一个六组表示MDP-WSC＝<S,s₀,S_r,A(.),P,R>；

其中，S表示环境中的状态集，s₀∈S是治理工具组合执行的环境初始状态，

表示治理工具组合执行的终止状态集，只要达到S_r达到任何一个状态，治理工具更新就终止；A(.) 表示可调用的动作集合，也就是所有状态下可调用的治理工具集合，A(s)表示在状态s下可调用的治理工具集合，同一状态下可调用的治理工具一般具有相似的功能，但各种工具的效用值是不同的；P表示一个状态转移函数，P(s'|s,a)表示在状态s下调用治理工具集合后，转移到状态s’；R是回报函数，R(s'|s,a)表示在状态s下调用治理工具集合后，转移到状态s’的回报值；状态转移函数P和回报值函数R唯一确定一个MDP模型，因此，评价MDP策略的优略是无限适于的折扣累计回报值；在上述场景设定下，MDP确定性的最优策略π^*是根据贪婪算法有折扣累计的回报值V^*表征；也就是最优策略π^*下的最优状态函数V^*，满足以下条件：

2、接着，基于强化学习的MDP求解，基于核的非参数核函数逼近器对最优服务组合方案进行求解；所谓非参数核函数逼近技术就是无需事先确定函数的形式核参数个数，直接通过观察到的碳排放指数状态转移的回报值自动调整得出，更适合在线学习；并采用高斯核函数，采用Q-learning的方法实现MDP求解；

所述算法的流程如下：

1)初始化：确定折扣率γ，高斯核学习率α，高斯核k(x,x’)＝k_xx’，高斯核的特征尺度σ_k，

初始状态s₀，终止状态s_r，BV＝{}；

2)重复：学习每一个在线片段，采用贪婪算法选择服务a_τ，观察回报值R_T,s_T+1，令z_T＝＜s_τ,a_τ＞；

是观察到的效用值向量对应于状态动作对的样本集合；给定一些数据点

对应于输入域Z，期望在新的输入点z_τ+1预测Q值函数y_τ+ ¹的值；假设K(Z，Z)为核矩阵，则对应的K_l,m＝k(z_l,z_m)表示状态动作对z_l和z_m之间的协方差；K(Z,z_τ+1)表示核向量对应于τ+1次评估；

表示评估的不确定性；得出Q值得评估值和协方差为：

采用Q-learning算法更新Q函数值，公式为：

根据每次观察到的数据更新模型

观察的准确性依赖于当前模型的准确性，高斯噪音

是一个正规化项，阻止模型快速收敛到一个正确的最优评估Q^*。

本发明的碳排放指数建模方式科学，模型自学习能力强，用于预测精确度高，实现了最大化治理；其适合用于电力行业中碳排放指数的预测和治理，及其同类方法的技术改进。

附图说明

图1是本发明的预测方法建模工作原理流程方框图。

图2是图1的初始预测器工作原理流程方框图。

图3是图2的预测器中降维工作原理流程方框图。

图4是图2的多层预测器神经网络工作原理流程方框图。

图5是图2的更新一个区域预测器工作原理流程方框图。

具体实施方式

现结合附图，对本发明的具体实施步骤进行进一步的具体描述。

该碳排放指数预测方法具体步骤如下：

步骤一，对某一个区域的历史数据进行建模，生成碳排放指数预测器。如图1所示，具体步骤如下：

1、借助历史数据信息，把每一个监测点采集回来的数据按照时间序列进行排序，为提取历史数据的时空特征提供数据基础；

2、采用深度学习对历史数据的时空信息进行提取，卷积层为分别是3×3，4×3，5×3，步长为2，对历史数据进行多尺度高层次时空特征提取；

3、采用流形学习，对多尺度高层次时空特征进行降维，并以降维后的特征作为神经网络的输入层，经过神经网络隐含层，最后得到神经网络的输出——未来一个时间段该区域的碳排放指数预测值。至此，生成一个预测器。

步骤二，找到相似特征的样本，以现有的预测器为基准，辅助其他区域生成满足自身分布的预测器。预测器假定训练域与测试域独立同分布，将训练数据得到的预测模型，直接用于测试数据。但是在实际中，训练域和测试域的分布存在差异，如果将不同分布的数据放进模型中，则学习性能将会大打折扣，为了应对这个问题，采用领域自适应学习来实现不同地区的碳排放指数的预测问题。如图2所示，具体步骤如下：

2、采用流形学习，对多尺度高层次时空特征进行降维，如图3所示，具体流程为：

假设某个地区i的多尺度高层次时空特征X_T＝{x₁,x₂,...x_T}^N∈R^N，T表示每一个预测周期，每一个预测周期的碳排放指数为

采用流形学习——LE算法(拉普拉斯映射算法)实现高维到低维的映射。下面先介绍LE算法的原理，再说明如何将LE算法进行特征的降维的。

3、LE算法侧重于保持局部领域结构，其认为，高维空间数据近邻点经过降维在低维空间的投影也应该是近邻的。以特征映射的方式实现了高维数据的降维，得到的低维数据的结构特征具有投影不变形的特征。加入高维数据的两个样本点具有近邻的特征，x_i与x_j为近邻点，对邻域内所有点计算两两距离并结合权重形成邻域图。在此基础上，构建邻域权重矩阵。在保持邻域图结构不变性的基础上，通过投影实现高维数据的降维。

目标函数为：

q_i与q_j是高维数据x_i与x_j的低维映射位置。

为了求解目标函数，对数据进行如下处理：

1)选择合适的邻域并构造邻域图。在选取邻域点之后，将数据X与邻域点进行连接，构造邻域图G＝(V,E)，V代表邻域图中的节点集合，E代表邻域图的边集合。

2)选择权重，权重选择有两种方式，第一种是无差异的权重，如果e(i,j)∈E，代表邻域图节点x_i与节点x_j是直接相连，那么权重为1，否则为0；第二种是根据两点之间的距离计算权重，采取第二种方法计算两点之间的权重。采用高斯核函数表示邻域图节点之间的权重，具体表示为：

由公式2可知，两点的距离越小，那么权重越大。

3)特征映射，获得权重后，目标函数简化为：

其中，拉普拉斯矩阵L＝D-W，

Lq＝λDq(公式5)

其中，λ为拉格朗日乘子，由于

式4改写为：

根据LE算法，建立邻域图G，V表示X_T＝{x₁,x₂,...x_T}^N多尺度高层次时空特征数据，E 表示多尺度高层次时空特征数据之间的邻近关系，然后采用(LE算法)流形学习算法实现低维空间q_i与碳排放指数y_i的最小值拟合。根据上述思路，建立目标函数：

其中，q＝min{q₁,q₂,...,q_T}^d∈R^d，是通过上一步的LE算法求解出来的低维映射。

5、在获得低维空间q_i后，采用相似性对多尺度高层次时空的低维映射特征进行相似性判断。

如果低维映射特征的相似性大于设定的阈值，那么将其作为一组，否则归为不同一组。

从而对上述的每一个聚类组数据的多尺度高层次时空特征放进去神经网络，每一个聚类都生成一个预测器，并采用集成学习，采用对预测器进行合并，形成每一个区域的初始的预测器，下图展现多聚类的多任务学习。上面是监测点的初始预测器，这里是一个区域初始的预测器形成，如图4所示。

步骤三，在线更新初始预测器，采用集成权重调正算法生成一个最终的预测器。由于碳排放数据是持续更新的，因此对新的一批数据进行训练，生成一个新的预测器，并对比区域初始预测器的性能，对预测器进行权重更新，基于更新后的权重，采用加权平均的方法调整每一个预测器的权重，形成一个在线更新预测器的过程；最后，基于更新的预测器，得到该区域的碳排放指数预测值，如图5所示。

步骤四，采用强化学习对碳排放治理行为的效果进行控制。碳排放治理行为理解为：一个具有m个治理手段的系统，每个抽选治理手段有n个候选治理工具组合，就会有mⁿ组合治理方式；碳排放治理效果是从相互独立的候选治理工具选取n个治理工具，根据给定的效用函数，把不同治理工具的属性值映射成单个效用值，然后选择具有最大效用值的工具组合。

根据上述预测方法在治理质量和组合效率上需要最大化满足治理的需求，但是还需要考虑组合方案的适应性和面对大规模治理工具组合场景的可扩展性问题。因此，该治理方法基于组合治理行为质量和强化学习方法的内在自适应性的考虑，找到基于强化学习的治理效用的治理工具组合优化方案，改善上述基于治理效用的治理工具组合方法在大规模治理和治理行为自适应方面的缺陷，以及自适应治理工具组合在大规模和动态性上的限制，优化的治理工具组合方法既能提供一个高质量的治理手段，又能适应治理工具组合内外部环境的动态变化，而且能够在大规模的治理工具组合场景下达到具有竞争性的效率。

该治理方法的治理工具自适应组合的目标是，面对大量抽象治理工具、候选治理工具和动态变化的环境，寻找最优的组合方案以最大程度满足碳排放指数降低的要求，实现组合的自适应性，可扩展性，并具有竞争性的计算效率。因此，该治理方法把强化学习的方法和基于治理效用的治理工具组合方法整合起来，寻找在大规模治理工具组合场景下组合效率、自适应性、可扩展性更加优化的治理工具组合方案。该治理方法利用MDP构建大规模自适应动态治理工具选择和组合，并利用强化学习的方法进行最优化策略求解，这个最优策略将引导整个治理工具组合过程达到最终目标，最优的工具组合方案即为MDP最优策略所对应的动作序列。

该治理方法的具体步骤如下：

1、首先，该方法需要对大规模自适应的治理工具组合问题建模，一个MDP建模的治理工具组合用一个六组表示MDP-WSC＝<S,s₀,S_r,A(.),P,R>。

表示治理工具组合执行的终止状态集，只要达到S_r达到任何一个状态，治理工具更新就终止；A(.) 表示可调用的动作集合，也就是所有状态下可调用的治理工具集合，A(s)表示在状态s下可调用的治理工具集合，同一状态下可调用的治理工具一般具有相似的功能，但各种工具的效用值是不同的。P表示一个状态转移函数，P(s'|s,a)表示在状态s下调用治理工具集合后，转移到状态s’。R是回报函数，R(s'|s,a)表示在状态s下调用治理工具集合后，转移到状态s’的回报值。状态转移函数P和回报值函数R唯一确定一个MDP模型，因此，评价MDP策略的优略是无限适于的折扣累计回报值。在上述场景设定下，MDP确定性的最优策略π^*是根据贪婪算法有折扣累计的回报值V^*表征。也就是最优策略π^*下的最优状态函数V^*，满足以下条件：

2、接着，基于强化学习的MDP求解，基于核的非参数核函数逼近器对最优服务组合方案进行求解。所谓非参数核函数逼近技术就是无需事先确定函数的形式核参数个数，直接通过观察到的碳排放指数状态转移的回报值自动调整得出，更适合在线学习；并采用高斯核函数，采用Q-learning的方法实现MDP求解；算法的流程如下：

1)初始化：确定折扣率γ，高斯核学习率α，高斯核k(x,x’)＝k_xx ^’。高斯核的特征尺度σ_k，

初始状态s₀，终止状态s_r。BV＝{}。

对应于输入域Z，期望在新的输入点z_τ+1预测Q值函数y_τ+ ¹的值。假设K(Z，Z)为核矩阵，则对应的K_l,m＝k(z_l,z_m)表示状态动作对z_l和z_m之间的协方差。K(Z,z_τ+1)表示核向量对应于τ+1次评估。

表示评估的不确定性。得出Q值得评估值和协方差为：

采用Q-learning算法更新Q函数值，公式为：

根据每次观察到的数据更新模型

观察的准确性依赖于当前模型的准确性，高斯噪音

3)最后，找到最优评估Q^*，找到目标状态s_τ+1，治理工具更新就终止。

综上所述，该方法提出了一种基于迁移强化学习的碳排放指数预测与治理方法，并且该方法基于迁移学习的碳排放指数预测和基于强化学习的碳排放治理行为建模。该方法的创新点具体如下：1、针对碳排放数据涉及时域、地域和成分多维度刻画问题，采用深度学习实现时空特征的提取，并流形降维的基础上，采用聚类的多任务学习的方法构建初始预测器，能够最大程度上提升迁移学习的性能；再获得初始预测器的基础上，结合集成学习的方法实现在线数据的学习，实现预测器的定期更新，提升预测器的可用性和时效性。2、构建强化学习的碳排放治理行为模型，该模型能够很好地模拟治理工具选择组合流程的环境，并把治理效用值集成到模型中，针对该模型采用Q-learning求解，实现对治理工具组合质量、组合自适应性和组合效率的多重考虑。3、在强化学习方法求解中，对大规模工具组合场景，提出根据组合模型，利用强化学习的方法求解，并且奸对大规模的服务组合场景，提出高斯噪音

正则化项，收敛速度快，提高了强化求解效率。

Claims

1.一种基于迁移强化学习的碳排放指数预测方法，该预测方法由基于迁移学习的碳排放指数预测和基于强化学习的碳排放治理行为建模两个部分组成；其特征在于该预测方法通过迁移学习方法对具有相似特征区域的碳排放模型进行迁移，共享碳排放指数预测的信息；再此基础上，将迁移学习预测到的碳排放指数作为强化学习状态的输入，结合强化学习MDP进行碳排放治理建模，构建奖赏函数，运用强化学习算法实现碳排放治理效果的预测，提高碳排放治理行为预测的精度。

2.根据权利要求1所述的基于迁移强化学习的碳排放指数预测方法，其特征在于该预测方法的具体步骤如下：步骤一，对某一个区域的历史数据进行建模，生成碳排放指数预测器；步骤二，找到相似特征的样本，以现有的预测器为基准，辅助其他区域生成满足自身分布的预测器；步骤三，在线更新初始预测器，采用集成权重调正算法生成一个最终的预测器；步骤四，采用强化学习对碳排放治理行为的效果进行控制。

3.根据权利要求2所述的基于迁移强化学习的碳排放指数预测方法，其特征在于所述步骤一的具体步骤如下：1、借助历史数据信息，把每一个监测点采集回来的数据按照时间序列进行排序，为提取历史数据的时空特征提供数据基础；2、采用深度学习对历史数据的时空信息进行提取，卷积层为分别是3×3，4×3，5×3，步长为2，对历史数据进行多尺度高层次时空特征提取；3、采用流形学习，对多尺度高层次时空特征进行降维，并以降维后的特征作为神经网络的输入层，经过神经网络隐含层，最后得到神经网络的输出——未来一个时间段该区域的碳排放指数预测值，生成一个预测器。

4.根据权利要求2所述的基于迁移强化学习的碳排放指数预测方法，其特征在于所述步骤二的具体步骤如下：

采用流形学习——LE算法实现高维到低维的映射；

目标函数为：

q_i与q_j是高维数据x_i与x_j的低维映射位置；

5.根据权利要求4所述的基于迁移强化学习的碳排放指数预测方法，其特征在于所述步骤二的目标函数求解，对数据进行如下处理：

由公式2可知，两点的距离越小，那么权重越大；

3)特征映射，获得权重后，目标函数简化为：

其中，拉普拉斯矩阵L＝D-W，

Lq＝λDq (公式5)

其中，λ为拉格朗日乘子，由于

是特征值为0的特征向量，因此无法反映高维数据的结构特征；为了保证q的平移不变性的特征，增加一个约束条件，q^TDl＝0；公式4改写为：

由Rayleittz-Riz定理可知，将高维空间与流形进行对齐，低维空间的映射结果就是L的d+1维向量v₂,v₃,v₄,...,v_d+1，最后得到低维嵌入结果q＝[v₂,v₃,v₄,...,v_d+1]^T。

6.根据权利要求2所述的基于迁移强化学习的碳排放指数治理方法，其特征在于该治理方法利用MDP构建大规模自适应动态治理工具选择和组合，并利用强化学习的方法进行最优化策略求解，这个最优策略将引导整个治理工具组合过程达到最终目标，最优的工具组合方案即为MDP最优策略所对应的动作序列；其特征在于该治理方法的步骤具体如下：

表示治理工具组合执行的终止状态集，只要达到S_r达到任何一个状态，治理工具更新就终止；A(.)表示可调用的动作集合，也就是所有状态下可调用的治理工具集合，A(s)表示在状态s下可调用的治理工具集合，同一状态下可调用的治理工具一般具有相似的功能，但各种工具的效用值是不同的；P表示一个状态转移函数，P(s'|s,a)表示在状态s下调用治理工具集合后，转移到状态s’；R是回报函数，R(s'|s,a)表示在状态s下调用治理工具集合后，转移到状态s’的回报值；状态转移函数P和回报值函数R唯一确定一个MDP模型，因此，评价MDP策略的优略是无限适于的折扣累计回报值；在上述场景设定下，MDP确定性的最优策略π^*是根据贪婪算法有折扣累计的回报值V^*表征；也就是最优策略π^*下的最优状态函数V^*，满足以下条件：