CN104715343A

CN104715343A - 一种基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法

Info

Publication number: CN104715343A
Application number: CN201510150631.6A
Authority: CN
Inventors: 黄杰; 周霞; 李威; 方勇杰; 薛峰; 丁军策; 苏寅生; 黄河; 李建设
Original assignee: China Southern Power Grid Co Ltd; Nari Technology Co Ltd; Nanjing NARI Group Corp
Current assignee: China Southern Power Grid Co Ltd; Nari Technology Co Ltd; Nanjing NARI Group Corp
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-06-17

Abstract

本发明公开了一种基于强化学习算法和自适应序贯重点抽样的电力系统充裕度评估方法，属于电力系统及其自动化领域。本发明首先对随机变量进行分类，初始化各个随机变量的重要性矩阵，然后基于各个随机变量的重要性矩阵，计算各个随机变量的重点抽样概率分布密度函数，抽取所有随机变量的样本集根据偏置系数进行筛选，若本次抽取的样本集通过筛选，则进行确定性的充裕度指标计算，否则重复抽样，反复进行充裕度指标计算，直至指标计算结果收敛。本发明解决了高维不确定变量重点抽样密度不易构建的问题，可以大大提高抽样效率，为电力系统充裕指标的快速评估提供高效、可靠的仿真计算方法。

Description

一种基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法

技术领域

本发明属于电力系统及其自动化技术领域，更准确地说本发明涉及一种基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法。

背景技术

发电容量的充裕性是指在计及机组的计划和非计划停运，且元件不过载，母线电压和系统频率维持在允许范围内的条件下，满足用户需求功率和电量的能力。电网运行中应留有一定发电容量作为备用容量，以应付负荷突然变动、电网故障、发电设备随机停运等情况的出现，从而将电力供需矛盾给社会和企业带来的不利影响降至最低程度。通常将发电容量充裕性区分为运行发电容量充裕性、装机发电容量充裕性，本发明主要用于与电网安全备用密切相关的运行发电容量充裕性问题。

目前，发电容量充裕度的决策常用的是确定性方法，或用失负荷概率(LOLP)或电力不足期望值(EENS)等指标来考虑不确定性。运行发电容量充裕性反映在备用容量的各种侧面上，包括时间尺度(实时运行、日运行、长期)、响应速度(旋转、热、冷)、地域及物理量(有功、无功)等各类备用容量。

不确定性环境下电力系统充裕度评估技术大致分为仿真方法和解析方法。典型的解析方法是半不变量法(Cumulants Method，CM)，通过引入半不变量(Cumulants)的概念进行估计。CM方法计算效率高，但是在解析过程中需要做出假设，并进行复杂的数学推导。点估计法(Point Estimate，PM)可认为是仿真方法和解析方法的结合，通过泰勒级数展开解析确定每个随机变量的若干个固定采样点，并以此为样本进行仿真计算，以提高仿真效率，常用的有两/三点估计法。

蒙特卡罗方法(Monte Carlo，MC)是典型的仿真方法，基于概率密度分布进行随机采样获得变量的样本，进而对事件的潜在风险进行估计。假设需要估计的问题为l＝∫_xh(x)f(x)dx，其中X为符合概率分布f(X)的多维随机变量，h(X)为需要进行评估的目标函数。MC方法将基于f(X)对X进行随机抽样，对l进行估计MC方法的优点在于结果可靠，但是计算量极大，尤其是所估计事件发生概率较低时。

随着不确定性维数和问题复杂度提高，解析类方法的不足开始慢慢显现，难以保证问题的解析解的存在以及稳定可靠的分析结果，而采用MC方法对小概率高风险事件风险进行评估时，由于该类事件的抽样概率极低，往往需要在抽取海量样本后，才能捕捉到小概率高风险事件的发生，大量仿真资源消耗在了低风险事件上，这限制了MC方法的应用，且无法满足在线分析对于计算效率的要求，已有研究集中在蒙特卡罗方法的改进以及相关衍生方法的开发。

针对MC方法处理小概率事件时耗时过长的缺陷，一些改进MC方法被提出，以期在尽量保证估计精度的前提下提高计算效率。目前应用于电力系统不确定性分析的改进MC方法包括：重点抽样方法(Importance Sampling，IS)，马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo，MCMC)，分层抽样方法(Stratified Sampling，SS)等。

与MC方法不同，IS方法不以f(X)为抽样分布，而是通过选择不同于f(X)的重点抽样分布g(X)，以期从多维抽样空间中快速抽取到对估计结果更重要的样本，以提高仿真效率。同时IS需要利用偏置系数(也称为权值)w(X)＝f(X)/g(X)对l进行无偏估计：

l = E_{f} [h (X)] = &Integral; h (x) \frac{f (x)}{g (x)} g (x) dx = E_{g} [h (X) w (X)] .

IS的原理简单明晰，通过重点抽样分布来更频繁的抽取重要的抽样空间，并用偏置系数纠正估计的偏差。其关键在于重点抽样分布的选取，合适的重点抽样分布可以大大提高仿真效率，而不合适的重点抽样分布甚至可能使仿真效率劣于MC方法。

发明内容

本发明的目的是：为了克服现有技术的不足，给出一种基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法。该方法通过构建重要性矩阵，从某初始重点抽样分布开始，在反复依次抽样计算的同时，根据已有计算结果，采用强化学习算法来迭代构建高维确定性因素的重点抽样分析。这种迭代更新重点抽样分布的重点抽样可以称为自适应序贯重点抽样。该方法保证了充裕度评估结果与初始抽样分布的无关性，通过对历史仿真结果的信息挖掘利用以及对其余状态空间的探索，保证了充裕度评估的效率和精度。

具体地说，本发明是采用以下技术方案实现的，包括如下步骤：

1)对随机变量进行分类，采用电力系统负荷水平作为反映当前电力系统状态的“状态”变量s；将反映参与者状态或决策的随机变量划归为“行动”变量；电力系统负荷水平为连续随机变量，“行动”变量包括连续随机变量和离散随机变量，将各个“行动”变量记为a_i，1＜＜i＜＜N_A，N_A为“行动”变量的个数；

2)对电力系统负荷水平以及“行动”变量中的连续随机变量进行分层离散化形成各个随机变量的重要性矩阵，以及对“行动”变量中的离散随机变量形成重要性矩阵，然后对所有随机变量的重要性矩阵赋予统一的初值；

3)基于各个随机变量的重要性矩阵，以Boltzmann函数的形式，计算各个随机变量的重点抽样概率分布密度函数；

4)基于步骤3)计算所得的各个随机变量的重点抽样概率分布密度函数，进行序贯重点抽样，首先对“状态”变量进行重点抽样，而后基于所抽取的“状态”变量样本值，根据重点抽样条件概率，抽取所有“行动”变量的样本；

5)序贯重点抽样后，获得所有随机变量的样本集，根据随机变量的原有概率分布和重点抽样概率分布，进行偏置系数计算，并采用舍取控制对偏置系数进行筛选，去除偏置系数过小的样本以提高仿真效率；若本次抽取的样本集通过舍取控制的筛选，则继续至步骤6)，否则返回步骤4)；

6)基于通过筛选的样本集进行充裕度指标计算，基于指标计算结果，采用强化学习算法更新各个随机变量的重要性矩阵；

7)根据充裕度指标的计算结果，以及每个计算结果的偏置系数，对电力系统充裕度进行评估，并判断结果的收敛性，若收敛，则计算结束，否则返回步骤3)。

上述技术方案的进一步特征在于，所述步骤2)中对电力系统负荷水平以及“行动”变量中的连续随机变量进行分层离散化的方法为：基于每个连续型随机变量的累积分布函数，按预先设定的取值区间数目，进行分层离散化。

上述技术方案的进一步特征在于，所述步骤2)中，“状态”变量s的重要性矩阵I_s为1×M的矩阵，I_s中各个元素对应了“状态”变量s在各取值区间的重要程度，M为s的取值区间数目；各“行动”变量a_i的重要性矩阵I_a,i为M×N_i的矩阵，其中N_i对“行动”变量中的连续随机变量而言为其取值区间数目，对“行动”变量中的离散随机变量而言为其原有取值数目，I_a,i描述在系统各个“状态”取值区间下各“行动”变量a_i的各取值区间或取值的重要程度；将所有随机变量的重要性矩阵中元素统一赋值为1。

上述技术方案的进一步特征在于，所述步骤3)的具体过程如下：

基于各随机变量的重要性矩阵，以Boltzmann函数形式，构建其重点抽样概率分布密度，先根据公式(1)计算“状态”变量s重点抽样概率分布密度g_s(j)：

g_{s} (j) = \frac{e^{I_{s}^{k} (j) / τ}}{Σ_{m = 1}^{M} e^{I_{s}^{k} (m) / τ}} - - - (1)

其中，为在第k次抽样时，“状态”变量s第j个取值区间的重要性数值，g_s(j)代表“状态”变量s第j个取值区间的重点抽样概率，变量τ为控制历史信息挖掘和未知空间探索程度的参数，其取值根据的取值范围制定；

然后计算各“行动”变量的重点抽样概率分布密度，假定第k次抽样时，“状态”变量s的抽样值位于第个取值区间，则根据公式(2)计算“行动”变量a_i的重点抽样概率分布密度

g_{a, i} (a_{i, j} | {\overset{&OverBar;}{s}}^{k}) = \frac{e^{{I^{k}}_{a, i} ({\overset{&OverBar;}{s}}^{k}, j) / τ}}{Σ_{n = 1}^{N} e^{{I^{k}}_{a, i} ({\overset{&OverBar;}{s}}^{k}, n) / τ}} - - - (2)

其中，为在第k次抽样时“行动”变量a_i重要性矩阵中第行第j列元素的取值，代表“行动”变量a_i在“状态”变量s第个取值区间下选择第j个取值区间或取值的重点抽样概率。

上述技术方案的进一步特征在于，所述步骤4)的“状态”变量s的抽样方法为，首先根据g_s(j)抽取s的取值区间，而后在该取值区间内，按连续均匀分布抽取s的抽样值，此时“状态”变量s的具体抽样值的重点抽样概率与其具体抽样值所处取值区间的重点抽样概率相同；

“行动”变量的抽样方法为，对连续随机变量，首先根据抽取a_i的取值区间，而后在该取值区间内，按连续均匀分布抽取a_i的抽样值，此时“行动”变量a_i的具体抽样值的重点抽样概率与其在“状态”变量s第个取值区间下选择其具体抽样值所处取值区间的重点抽样概率相同；对离散随机变量，根据抽取a_i的取值，此时“行动”变量a_i的具体抽样值的重点抽样概率就是其在“状态”变量s第个取值区间下选择其具体抽样值的重点抽样概率。

上述技术方案的进一步特征在于，所述步骤5)中偏置系数的计算和筛选方法为：

5-1)根据公式(3)计算第k次抽样结果的偏置系数w^k：

w^{k} = w (x^{k}) = \frac{π (x^{k})}{g (x^{k})} = \frac{f_{s} (s^{k}) Π_{i = 1}^{N_{A}} f_{a, i} (a_{i}^{k} | s^{k})}{{g^{'}}_{s} (s^{k}) Π_{i = 1}^{N_{A}} {g^{'}}_{a, i} (a_{i}^{k} | s^{k})} - - - (3)

其中，s^k为“状态”变量s在第k次抽样时抽取的具体抽样值，s^k所处的取值区间为为第i个“行动”变量a_i在第k次抽样时抽取的具体抽样值，当a_i为连续随机变量时，所处的取值区间为π(x^k)为样本集x^k的原有取值概率，而g(x^k)为样本集x^k的重点抽样取值概率；f_s(s^k)和分别为“状态”变量样本值s^k和“行动”变量样本值的原有取值概率，g'_s(s^k)和分别为“状态”变量s的具体抽样值s^k的重点抽样概率和“行动”变量a_i的具体抽样值的重点抽样概率；

5-2)以概率决定是否接受该样本集，在[0,1]区间以平均分布抽取随机数rnd，若rnd≤r，则接受并根据本次抽取的样本集x^k计算充裕度指标v^k，同时将偏置系数更新为w^k＝w^k/r，否则弃用该样本集，此处c为预先设置的阈值。

上述技术方案的进一步特征在于，所述步骤6)中的重要性矩阵的更新方法为：

首先对“行动”变量进行重要性矩阵的自适应更新，根据公式(4)的方法更新“行动”变量a_i重要性矩阵中对应本次所抽取样本的值：

I_{a, i}^{k + 1} (s, a) = \{\begin{matrix} I_{a, i}^{k} (s, a) (1 - λ) + λ v^{k}; & if s = {\overset{&OverBar;}{s}}^{k}, a = {\overset{&OverBar;}{a}}_{i}^{k} \\ I_{a, i}^{k} (s, a); & else \end{matrix} - - - (4)

其中，λ是学习系数，在0到1范围内取值；

若所有“行动”变量的重要性矩阵更新完毕，则基于这些重要性矩阵来更新“状态”变量的重要性矩阵，按公式(5)对“状态”变量s的重要性矩阵进行更新：

I_{s}^{k + 1} ({\overset{&OverBar;}{s}}^{k}) = Σ_{i = 1}^{N_{A}} Σ_{n = 1}^{N_{i}} I_{a, i}^{k + 1} ({\overset{&OverBar;}{s}}^{k}, n) - - - (5) .

本发明的有益效果如下：本发明通过基于强化学习算法自适应的更新高维不确定性的重点抽样概率分布密度，保证评估结果与初始抽样分布的无关性，解决了高维不确定性的重点抽样概率分布密度难以构建的难题。本发明对历史仿真结果的信息挖掘利用以及对其余状态空间的探索，着重在充裕度事件易发生的取值空间中抽样，同时进行无偏估计，保证了充裕度评估的效率和精度。总而言之，本发明通过集中在易引发充裕度事件的样本空间进行抽样，可以大大提高抽样效率，从而为电力系统充裕指标的快速评估提供高效、可靠的仿真计算方法。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面参照附图并结合实例对本发明作进一步详细描述。

如图1所示，本发明方法的主要包括以下几个步骤：

步骤1，对随机变量进行分类，将反映当前电力系统状态的随机变量划归为“状态”变量s，本实施例中采用电力系统负荷水平作为“状态”变量s，该变量为连续随机变量；将反映参与者状态或决策的随机变量划归为“行动”变量，“行动”变量包括连续随机变量(如发电出力等)和离散随机变量(如机组运行状态等)，将各个“行动”变量记为a_i，1＜＜i＜＜N_A，N_A为“行动”变量的个数。

步骤2，对电力系统负荷水平以及“行动”变量中的连续随机变量进行分层离散化形成各个随机变量的重要性矩阵，以及对“行动”变量中的离散随机变量形成重要性矩阵，然后对所有随机变量的重要性矩阵赋予统一的初值。

其中，对电力系统负荷水平以及“行动”变量中的连续随机变量进行分层离散化的方法为：基于每个连续型随机变量的累积分布函数，按预先设定的取值区间数目，进行分层离散化。“状态”变量s的重要性矩阵I_s为1×M的矩阵，I_s中各个元素对应了“状态”变量s在各取值区间的重要程度，M为s的取值区间数目；各“行动”变量a_i的重要性矩阵I_a,i为M×N_i的矩阵，其中N_i对“行动”变量中的连续随机变量而言为其取值区间数目，对“行动”变量中的离散随机变量而言为其原有取值数目，I_a,i描述在系统各个“状态”取值区间下各“行动”变量a_i的各取值区间或取值的重要程度。将所有随机变量的重要性矩阵中元素统一赋值为1。

步骤3，基于各个随机变量的重要性矩阵，以Boltzmann函数的形式，计算各个随机变量的重点抽样概率分布密度函数，其具体计算方法为：

g_{s} (j) = \frac{e^{I_{s}^{k} (j) / τ}}{Σ_{m = 1}^{M} e^{I_{s}^{k} (m) / τ}} - - - (1)

其中，为在第k次抽样时，“状态”变量s第j个取值区间的重要性数值，g_s(j)代表“状态”变量s第j个取值区间的重点抽样概率，变量τ为控制历史信息挖掘和未知空间探索程度的参数，其取值根据的取值范围制定。

g_{a, i} (a_{i, j} | {\overset{&OverBar;}{s}}^{k}) = \frac{e^{{I^{k}}_{a, i} ({\overset{&OverBar;}{s}}^{k}, j) / τ}}{Σ_{n = 1}^{N} e^{{I^{k}}_{a, i} ({\overset{&OverBar;}{s}}^{k}, n) / τ}} - - - (2)

其中，为在第k次抽样时“行动”变量a_i重要性矩阵中第行第j列元素的取值，代表“行动”变量a_i在“状态”变量s第个取值区间下选择第j个取值区间或取值的重点抽样条件概率。

步骤4，基于步骤3)计算所得的各个随机变量的重点抽样概率分布密度函数，进行序贯重点抽样，首先对“状态”变量进行重点抽样，而后基于所抽取的“状态”变量样本值，根据重点抽样条件概率，抽取所有“行动”变量的样本。

首先根据g_s(j)抽取s的取值区间，而后在该取值区间内，按连续均匀分布抽取s的抽样值，此时“状态”变量s的具体抽样值的重点抽样概率与其具体抽样值所处取值区间的重点抽样概率相同。

“行动”变量的抽样方法为，对连续随机变量，首先根据抽取a_i的取值区间，而后在该取值区间内，按连续均匀分布抽取a_i的抽样值，此时“行动”变量a_i的具体抽样值的重点抽样概率与其在“状态”变量s第个取值区间下选择其具体抽样值所处取值区间的重点抽样条件概率相同；对离散随机变量，根据抽取a_i的取值，此时“行动”变量a_i的具体抽样值的重点抽样概率就是其在“状态”变量s第个取值区间下选择其具体抽样值的重点抽样条件概率

步骤5，序贯重点抽样后，获得所有随机变量的样本集，根据随机变量的原有概率分布和重点抽样概率分布，进行偏置系数计算，并采用舍取控制对偏置系数进行筛选，去除偏置系数过小的样本以提高仿真效率；若本次抽取的样本集通过舍取控制的筛选，则继续至步骤6，否则返回步骤4。偏置系数的计算和筛选方法如下：

5-1)根据公式(3)计算第k次抽样结果的偏置系数w^k：

w^{k} = w (x^{k}) = \frac{π (x^{k})}{g (x^{k})} = \frac{f_{s} (s^{k}) Π_{i = 1}^{N_{A}} f_{a, i} (a_{i}^{k} | s^{k})}{{g^{'}}_{s} (s^{k}) Π_{i = 1}^{N_{A}} {g^{'}}_{a, i} (a_{i}^{k} | s^{k})} - - - (3)

5-2)以概率决定是否接受该样本集，在[0,1]区间以平均分布抽取随机数rnd，若rnd≤r，则接受并根据本次抽取的样本集x^k计算充裕度指标v^k，同时将偏置系数更新为w^k＝w^k/r，否则弃用该样本集，此处c为预先设置的阈值，其值在0到1范围内，比w^k的普遍取值略小，以起到舍取作用，具体值根据实际情况确定。

充裕度指标v^k可采用现有技术中反映电力系统充裕性的各种指标，如电能不足期望值等，具体计算方式均为现有技术，在此不再赘述。

步骤6，基于通过筛选的样本集进行充裕度指标计算，基于指标计算结果，采用强化学习算法更新各个随机变量的重要性矩阵。重要性矩阵的更新方法如下：

I_{a, i}^{k + 1} (s, a) = \{\begin{matrix} I_{a, i}^{k} (s, a) (1 - λ) + λ v^{k}; & if s = {\overset{&OverBar;}{s}}^{k}, a = {\overset{&OverBar;}{a}}_{i}^{k} \\ I_{a, i}^{k} (s, a); & else \end{matrix} - - - (4)

其中，λ是学习系数，在0到1范围内取值；

I_{s}^{k + 1} ({\overset{&OverBar;}{s}}^{k}) = Σ_{i = 1}^{N_{A}} Σ_{n = 1}^{N_{i}} I_{a, i}^{k + 1} ({\overset{&OverBar;}{s}}^{k}, n) - - - (5) .

步骤7，根据充裕度指标的计算结果，以及每个计算结果的偏置系数，对电力系统充裕度进行评估，并判断结果的收敛性，若收敛，则计算结束，否则返回步骤3继续计算。

综上所述，本发明通过在迭代序贯重点抽样过程中，基于充裕度评估结果进行强化学习并构建高维不确定性随机因素的重点抽样概率分布密度，基于此进一步指导后续抽样，并计算偏置系数来完成充裕度指标的无偏估计。本发明解决了传统重点抽样方法中重点抽样概率分布密度难以构建的难题，在充裕度事件易发生的取值空间中对随机因素进行抽样，并通过偏置系数的舍取控制进一步提升了仿真效率，使用偏置系数完成了充裕度指标的无偏估计，在效率和精度之间取得了平衡。

虽然本发明已以较佳实施例公开如上，但实施例并不是用来限定本发明的。在不脱离本发明之精神和范围内，所做的任何等效变化或润饰，同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims

1.基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，所述步骤2)中对电力系统负荷水平以及“行动”变量中的连续随机变量进行分层离散化的方法为：基于每个连续型随机变量的累积分布函数，按预先设定的取值区间数目，进行分层离散化。

3.根据权利要求2所述的基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，所述步骤2)中，“状态”变量s的重要性矩阵I_s为1×M的矩阵，I_s中各个元素对应了“状态”变量s在各取值区间的重要程度，M为s的取值区间数目；各“行动”变量a_i的重要性矩阵I_a,i为M×N_i的矩阵，其中N_i对“行动”变量中的连续随机变量而言为其取值区间数目，对“行动”变量中的离散随机变量而言为其原有取值数目，I_a,i描述在系统各个“状态”取值区间下各“行动”变量a_i的各取值区间或取值的重要程度；将所有随机变量的重要性矩阵中元素统一赋值为1。

4.根据权利要求3所述的基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，所述步骤3)的具体过程如下：

g_{s} (j) = \frac{e^{I_{s}^{k} (j) / τ}}{Σ_{m = 1}^{M} e^{I_{s}^{k} (m) / τ}} - - - (1)

g_{a, i} (a_{i, j} | {\overset{&OverBar;}{s}}^{k}) = \frac{e^{{I^{k}}_{a, i} ({\overset{&OverBar;}{s}}^{k}, j) / τ}}{Σ_{n = 1}^{N} e^{{I^{k}}_{a, i} ({\overset{&OverBar;}{s}}^{k}, n) / τ}} - - - (2)

5.根据权利要求4所述的基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，所述步骤4)的“状态”变量s的抽样方法为，首先根据g_s(j)抽取s的取值区间，而后在该取值区间内，按连续均匀分布抽取s的抽样值，此时“状态”变量s的具体抽样值的重点抽样概率与其具体抽样值所处取值区间的重点抽样概率相同；

“行动”变量的抽样方法为，对连续随机变量，首先根据抽取a_i的取值区间，而后在该取值区间内，按连续均匀分布抽取a_i的抽样值，此时“行动”变量a_i的具体抽样值的重点抽样概率与其在“状态”变量s第个取值区间下选择其具体抽样值所处取值区间的重点抽样条件概率相同；对离散随机变量，根据抽取a_i的取值，此时“行动”变量a_i的具体抽样值的重点抽样概率就是其在“状态”变量s第个取值区间下选择其具体抽样值的重点抽样条件概率。

6.根据权利要求5所述的基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，所述步骤5)中偏置系数的计算和筛选方法为：

5-1)根据公式(3)计算第k次抽样结果的偏置系数w^k：

w^{k} = w (x^{k}) = \frac{π (x^{k})}{g (x^{k})} = \frac{f_{s} (s^{k}) Π_{i = 1}^{N_{A}} f_{a, i} (a_{i}^{k} | s^{k})}{{g^{'}}_{s} (s^{k}) Π_{i = 1}^{N_{A}} {g^{'}}_{a, i} (a_{i}^{k} | s^{k})} - - - (3)

7.根据权利要求6所述的基于强化学习和自适应序贯重点抽样的电力系统充裕度评估方法，其特征在于，所述步骤6)中的重要性矩阵的更新方法为：

I_{a, i}^{k + 1} (s, a) = \{\begin{matrix} I_{a, i}^{k} (s, a) (1 - λ) + {λv}^{k}; & ifs = {\overset{&OverBar;}{s}}^{k}, a = {\overset{&OverBar;}{a}}_{i}^{k} \\ I_{a, i}^{k} (s, a); & else \end{matrix} - - - (4)

其中，λ是学习系数，在0到1范围内取值；

I_{s}^{k + 1} ({\overset{&OverBar;}{s}}^{k}) = Σ_{i = 1}^{N_{A}} Σ_{n = 1}^{N_{i}} I_{a, i}^{k + 1} ({\overset{&OverBar;}{s}}^{k}, n) - - - (5) .