CN107622038A

CN107622038A - 基于核密度估计的概率潮流输出随机变量评估方法

Info

Publication number: CN107622038A
Application number: CN201710891575.0A
Authority: CN
Inventors: 冯煜尧; 冯楠; 崔勇; 张琪祁; 张开宇; 李禹鹏; 严正; 何琨; 马俊宇
Original assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-01-23

Abstract

本发明提出了一种基于核密度估计的概率潮流输出随机变量评估方法，其包含：S1、计算随机变量的概率密度函数的核密度估计：S2、计算核密度估计的带宽；S3、基于扩散方程计算基于高斯核的核密度估计，以获得输出随机变量的概率分布函数。其优点是：实现了基于扩散方程的核密度估计的快速算法。

Description

基于核密度估计的概率潮流输出随机变量评估方法

技术领域

本发明涉及一种基于核密度估计的概率潮流输出随机变量评估方法。

背景技术

概率潮流模拟法能得到输出随机变量的样本数据，根据样本数据可以计算输出随机变量的期望和标准差。由于输入随机变量可能非正态分布，且概率潮流方程为高维非线性方程组，所以输出随机变量往往非正态分布。对于非正态随机变量，期望和标准差不能完全表示其概率分布。因此在概率潮流计算中，必须根据输出随机变量的样本数据拟合其概率密度函数和累积概率分布，以准确评估概率潮流计算结果。

核密度估计(KernelDensity Estimation,KDE)是一种估计随机变量概率分布的非参数方法，但是在电力系统领域中KDE的研究较少。

发明内容

本发明的目的在于提供一种基于核密度估计的概率潮流输出随机变量评估方法，通过离散余弦变换和逆离散余弦变换实现了基于扩散方程的核密度估计(Diffusion-based Kernel DensityMethod,DKDM)的快速算法。

为了达到上述目的，本发明通过以下技术方案实现：

一种基于核密度估计的概率潮流输出随机变量评估方法，其特征是，包含：

S1、计算随机变量的概率密度函数的核密度估计：

S2、计算核密度估计的带宽；

S3、基于扩散方程计算基于高斯核的核密度估计，以获得输出随机变量的概率分布函数。

上述的基于核密度估计的概率潮流输出随机变量评估方法，其中，所述的步骤S3具体包含：

在概率潮流计算中，设某个输出随机变量y的样本数据为y^{1},y^{2},…,y^{N}，则其概率密度函数和累积概率分布按照如下方式获得：

S31、确定输出随机变量y的定义域

LB＝min(y^{i})-λ_l(max(y^{i})-min(y^{i}))

UB＝max(y^{i})+λ_u(max(y^{i})-min(y^{i}))

式中：i＝1,2,…,N；λ_l和λ_u为正数；LB为随机变量定义域的下界；UB为随机变量定义域的上界；

S32、定义区间[LB,UB]中的n个网格点U_j：

U_j＝LB+j/n·(UB-LB),j＝0,1,...,n-1

式中：n为正整数；

S33、计算每个区间[U_j,U_j+1)中的样本y^{i}的个数H(j)(j＝0,1,…,n-1)；

S34、将n个网格点U_j映射到区间[0,1]中：

V_j＝(U_j-LB)/(UB-LB)＝j/n

S35、计算系数a_k；

S36、计算核密度估计带宽；

S37、计算概率密度

S38、将映射到区间[LB,UB]上，求得输出随机变量y的概率密度

S39、采用数值积分计算输出随机变量y的累积概率分布

上述的基于核密度估计的概率潮流输出随机变量评估方法，其中：

所述的核密度估计的带宽计算方法为交叉验证法或插入法。

本发明与现有技术相比具有以下优点：实现了基于扩散方程的核密度估计的快速算法。

附图说明

图1为本发明的实施例中真实的概率密度和KDE估计的概率密度及每个样本点对估计值的贡献；

图2为本发明的实施例中带宽为0.1时KDE估计得到的概率密度系数；

图3为本发明的实施例中带宽为1.0时KDE估计得到的概率密度系数。

具体实施方式

以下结合附图，通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

本发明提出了一种基于核密度估计的概率潮流输出随机变量评估方法，其包含：

S1、计算随机变量x的概率密度函数的核密度估计：

式中：x^{1},x^{2},…,x^{N}为随机变量x的N个样本；h为带宽；K(·)为核函数，并满足如下条件：

当N→∞，h→0且Nh→∞时，依概率收敛于f。本实施例中选用高斯分布作为核函数，其数学表达式为：

图1给出了KDE估计的示意图。假设随机变量x服从混合正态分布函数0.5×N(μ＝1,σ²＝(1/3)²)+0.5×N(μ＝-1,σ²＝(1/3)²)，根据x的概率分布函数任意获得10个样本。设KDE的核函数为高斯核函数，带宽为0.3，采用KDE估计x的概率密度函数，其结果如图2～3所示。其中实曲为随机变量x真实的概率密度函数，虚线为KDE估计得到的概率密度函数及每个样本点对KDE估计值的贡献。对于每个样本点x^{i}，其对KDE估计值的贡献为(1/(Nh)K((x-x^{i})/h))(1/N乘以期望为x^{i}，标准差为h正态分布函数)，最终KDE的估计值为所有样本点的贡献之和(所有缩小比例的正态分布函数之和)。

根据KDE理论，相比于核函数，带宽h对KDE估计结果的影响更大。当带宽h过小时，核密度估计曲线可能光滑性很差，表现出真实概率密度函数所没有的多峰特性；当带宽h过大时，核密度估计曲线可能过于平滑，掩盖真实概率密度函数的较多细节。图2、3给出了带宽为0.1和1.0时KDE的估计结果，由图可知，带宽过大或者过小都会使得估计结果与真实概率密度函数有很大偏差，因此在KDE中，必须合理选择带宽以得到较为准确的结果。此外，KDE假设随机变量的定义域是无界的。因此若定义域有界，KDE对概率分布边界的估计与真实值并不一致，需要进行边界校正以获得准确的概率分布。

S2、计算核密度估计的带宽；

KDE的带宽计算方法通常有两类：交叉验证法(Cross-Validation,CV)和插入法(Plug-In,PI)。

1)交叉验证法

KDE估计值和真实概率密度函数f的区别可表示为：

式中：第一项可由样本数据计算得到；第二项可表示为估计值的期望；第三项与带宽h无关，可被省略。所以上式可被简化为：

交叉验证法的主要任务是精确估计式(5)中的第二项。

2)插入法

核密度估计值和真实概率密度函数f差别的期望为：

式中：

定义渐近均方误差(Asymptotic Mean Integrated Squared Error,AMISE)为：

则渐近最优带宽为：

在式(9)中，只有R(f”)是未知的，所以插入法的主要任务是估计R(f”)的值。

在上述两类带宽计算方法中，最为常用的是Silverman所提出的经验法则(Ruleof Thumb,ROT)：假设真实的f为正态概率密度函数N(0,σ²)，则R(f”)＝(3π^-0.5σ^-5)/8，若核函数为高斯核函数，则可以得到最优带宽h＝1.06σN^-1/5。当数据分布接近正态分布时，该方法得到的带宽较为准确；但是当真实分布为非对称或是多峰分布时，该方法得到的带宽可能过大，使得估计结果过于平滑。因此有很多学者提出了各种改进的带宽计算方法，其中较为优秀的方法包括Sheather-Jones插入法(Sheather-Jones Plug-in,SJPI)和单侧交叉验证法(One-Sided Cross-Validation,OSCV)等等。

S3、基于扩散方程计算基于高斯核的核密度估计，以获得输出随机变量的概率分布函数；

基于高斯核的KDE估计也可以表示为如下形式：

式中：

式中：等同于式(1)中的h，为带宽。

式(10)为下述扩散偏微分方程(Diffusion Partial Differential Equation,DPDE)的唯一解：

上式的初始条件为：

式中：δ为狄拉克函数。

当随机变量x的定义域有界时，需要对式(1)进行边界校正。若采用DPDE，则仅需在有界的定义域上求解式(12)，同时考虑初始条件(13)和如下诺埃曼边界条件(Neumannboundary condition)：

式中：xl和xu分别为随机变量x定义域的下界和上界。

假设定义域为[0,1]，则基于扩散方程的核密度估计的解析解为：

式中：κ为θ函数，其表达式为：

式(15)为式(1)的另外一种形式，其同时考虑带宽计算和边界校正。当随机变量的定义域有界时，在不靠近定义域边界的部分，式(15)和式(1)的估计结果相同，在靠近定义域边界的部分，式(15)能得到和真实概率密度函数相一致的结果，而式(1)的估计结果和真实概率密度函数有较大偏差。

基于扩散方程的核密度估计实现方法为：

式(15)中的θ函数κ可以表示为：

因此，基于扩散方程的核密度估计可以近似表示为：

式中：n为很大的正整数，可根据需要进行选择；系数a_k为：

对于k＝1,2,…,n-1，a_k可由下式估计得到：

式中：H(j)为在区间[j/n,(j+1)/n)中的x^{i}的个数。

将H(j)/N定义为w(j)，则a_k的计算公式为：

式中：

式(21)的表达式表明：a_k可由离散余弦变换(Discrete Cosine Transform,DCT)计算得到。元素个数为n的向量的DCT可由n点的快速傅立叶变换(Fast FourierTransform,FFT)实现，n点的FFT的计算复杂度为O(n log₂n)。

对于x＝(2j+1)/2n(j＝0,1,…,n-1)，概率密度函数的核密度估计值为：

根据式(23)的表达式，概率密度的估计值可由逆离散余弦变换(InverseDiscrete Cosine Transform,IDCT)计算得到。元素个数为n的向量的IDCT可由n点的逆快速傅立叶逆变换(InverseFast Fourier Transform,IFFT)实现，n点的IFFT的计算复杂度为O(nlog₂n)。

本实施例中采用改进插入法计算最优带宽，其计算公式为：

式中：γ^[l](t)＝γ₁(γ₂(…γ_l(t)…)) l≥1；

在本节中l设置为7，通过非线性方程的迭代法求解式(24)即可求得t。

输出随机变量概率分布的估计方法：

本实施例采用基于扩散方程的核密度方法(Diffusion-based Kernel DensityMethod,DKDM)获得输出随机变量的概率分布函数。在概率潮流计算中，设某个输出随机变量y的样本数据为y^{1},y^{2},…,y^{N}，则其概率密度函数和累积概率分布可按照如下方式获得：

S31、确定输出随机变量y的定义域

式中：i＝1,2,…,N；λ_l和λ_u为正数，在本节中设为0.2；LB为随机变量定义域的下界；UB为随机变量定义域的上界。

S32、定义区间[LB,UB]中的n个网格点U_j：

U_j＝LB+j/n·(UB-LB),j＝0,1,...,n-1 (26)

式中：n为很大的正整数，在本节中选取n＝2¹⁵。

S33、计算每个区间[U_j,U_j+1)中的样本y^{i}的个数H(j)(j＝0,1,…,n-1)。

S34、将n个网格点U_j映射到区间[0,1]中：

V_j＝(U_j-LB)/(UB-LB)＝j/n (27)

S35、采用式(21)计算系数a_k。

S36、采用式(24)计算核密度估计带宽。

S37、采用式(23)计算概率密度

S38、将映射到区间[LB,UB]上，求得输出随机变量y的概率密度

式中：y_j＝Uj+(UB-LB)/(2n)；j＝0,1,…,n-1。

S39、采用数值积分计算输出随机变量y的累积概率分布

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于核密度估计的概率潮流输出随机变量评估方法，其特征在于，包含：

S1、计算随机变量的概率密度函数的核密度估计：

S2、计算核密度估计的带宽；

2.如权利要求1所述的基于核密度估计的概率潮流输出随机变量评估方法，其特征在于，所述的步骤S3具体包含：

S31、确定输出随机变量y的定义域

LB＝min(y^{i})-λ_l(max(y^{i})-min(y^{i}))

UB＝max(y^{i})+λ_u(max(y^{i})-min(y^{i}))

式中：i＝1,2,…,N；λ_l和λ_u为正数；LB为随机变量定义域的下界；

UB为随机变量定义域的上界；

S32、定义区间[LB,UB]中的n个网格点U_j：

U_j＝LB+j/n·(UB-LB),j＝0,1,...,n-1

式中：n为正整数；

S34、将n个网格点U_j映射到区间[0,1]中：

V_j＝(U_j-LB)/(UB-LB)＝j/n

S35、计算系数a_k；

S36、计算核密度估计带宽；

S37、计算概率密度

S38、将映射到区间[LB,UB]上，求得输出随机变量y的概率密度

S39、采用数值积分计算输出随机变量y的累积概率分布

<mrow> <mover> <mi>F</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>U</mi> <mi>B</mi> <mo>-</mo> <mi>L</mi> <mi>B</mi> </mrow> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>j</mi> </munderover> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

3.如权利要求1所述的基于核密度估计的概率潮流输出随机变量评估方法，其特征在于：

所述的核密度估计的带宽计算方法为交叉验证法或插入法。