CN107944622A

CN107944622A - 基于连续时段聚类的风电功率预测方法

Info

Publication number: CN107944622A
Application number: CN201711167328.2A
Authority: CN
Inventors: 彭文; 张智源
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-04-20
Anticipated expiration: 2037-11-21
Also published as: CN107944622B

Abstract

本发明涉及机器学习和风力发电领域，特别涉及基于连续时段聚类的风电功率预测方法。包括，在基于相似日预测方法的基础上，分别采用Elman神经网络和支持向量机作为预测模型，进行迭代预测，确定相似时段长度：结合功率向量和气象信息，根据相似时段长度，通过两阶段搜索策略，确定相似度衡量标准，在历史数据中寻找最佳相似时段集合；基于Elman神经网络，创建风电功率预测模型，将所得到的最佳相似时段集合作为训练数据，通过风电功率预测模型进行迭代计算，完成未来时段的风电功率预测。本发明在相似日预测方法的基础上引入气象因素，采用基于聚类‑分类的相似时段选取策略，可以快速地寻找最佳相似时段集合，提高预测精度和准确率。

Description

基于连续时段聚类的风电功率预测方法

技术领域

本发明涉及机器学习和风力发电领域，特别涉及基于连续时段聚类的风电功率预测方法。

背景技术

随着世界能源的减少，可再生新能源的研发和利用成为当务之急。风能具有范围广、可再生和无污染等优点，逐步成为最具发展前景的能源。但自然风具有随机性和间歇性，大规模风电集中接入时会对电网的安全稳定运行带来威胁，风电功率预测是解决这一难题的有效途径。

常用的风电功率预测方法有物理法和统计法，物理法不依赖风电场的历史数据，只需要风电场详细的物理信息和数字天气预报数据对风电场所在地进行物理建模。但由于风电场输出功率受到当地环境因素的影响，且不同时刻的地理环境因素有较大的差异，导致物理法普适性较差，很难推广。统计法则利用学习模型，在历史数据中获取输入数据(风速、风向、天气类型等)与风功率之间的映射关系，比较常见的方法有人工神经网络和支持向量机等。但由于电力系统及风速均为复杂的非线性动态过程，很难准确地描述实际情况。

基于相似日的预测作为一种有效方法，已被广泛应用到负荷预测和光伏预测中，并取得了不错的效果，一些学者也尝试将其引入到风电功率预测中。通过对历史风速数据进行无监督聚类来选择相似日，解决了聚类中存在的硬划分的问题。但无监督聚类方法对样本的依赖性较大，容易产生过多的分类，预测的精度难以保障；通过将相似日细分为“相似时段”，先寻找预测时刻前12h变化相似的风电功率曲线作为“基准段”，再寻找与预测时刻后12h变化相似的日特征向量作为“预测段”，实现了层次预测，但在建立模型时，只考虑到了相似日功率之间的对应关系，并没有考虑到基准功率曲线和气象特征值的影响。

发明内容

针对上述问题，本发明提出了基于连续时段聚类的风电功率预测方法，包括：

步骤1：在相似日预测方法的基础上，选择过去一年的历史功率值集合为训练集，未来3个月的功率值集合为测试集，采用Elman神经网络和支持向量机作为预测模型，分别进行迭代预测，根据不同长度的相似时段预测误差，确定相似时段长度；

步骤2：结合历史功率和气象信息，根据步骤1所得的相似时段长度，采用两阶段搜索策略，在第一阶段搜索时，首先在历史功率和气象信息中提取功率向量、气象特征向量，其次，对所有功率向量进行特征提取，并采用K-means算法进行聚类，最后，通过对功率向量进行分类，确定其所属的类簇；在第二阶段搜索时，结合气象信息确定相似度衡量标准，在历史气象数据中寻找最佳相似时段集合；

步骤3：基于Elman神经网络，创建风电功率预测模型，将步骤2所得到的最佳相似时段集合作为训练数据，通过风电功率预测模型进行迭代计算，完成未来时段的风电功率预测。

所述步骤1具体包括：将相似时段长度分别设置为6、12、18和24小时，每日的功率误差e_MAPE为：

其中，p_i为实际功率；为预测功率；p_cap为风机开机容量；N_p为每日预测数据个数，

预测模型的平均功率误差为：

其中，M_p为预测天数，是第j日的误差结果，

根据得到的不同长度的相似时段预测误差，选择相似时段长度为12h。

所述步骤2具体包括：结合功率向量与气象信息，构建特征向量Xⁱ为：

其中，N＝L×D，D是每小时功率数据个数，L为相似时段长度；x_i1,...,x_iN为功率向量的连续N个功率值；M为功率向量区间个数；为每个区间的平均值，M取4或者6；和分别为x_i1,...,x_iN中的最小、最大和平均功率值，

采用K-means方法对特征向量集合进行聚类，集合中元素Xⁱ和X^j之间的距离d(Xⁱ,X^j)为：

d(Xⁱ,X^j)＝1-r_ij (3a)

其中，r_ij是Xⁱ和X^j的皮尔逊系数；和分别表示Xⁱ和X^j的均值；和是Xⁱ和X^j的第t个分量，T为Xⁱ的模，T＝N+M+3，类簇个数K_M决定着聚类结果，K_M取值范围为9至20；

采用自适应KNN算法进行分类，特征向量Xⁱ作为分类算法的样本数据，将当前时刻前L小时功率数据定义为基准向量X_B，作为分类的目标向量，应用公式(3)，计算目标向量与所有类簇之间的距离，选取距离最小的类簇作为分类结果；

风力机捕获功率P为：

其中，C_p为风轮功率系数；ρ_air为空气密度；S为扫过风机叶片的面积；V_wind为风速，

选取预测时刻之后L小时内的气象数据，构造气象特征向量W为：

W＝{V_max,V_min,V_ave,sinθ_ave,cosθ_ave,P_ave,H_ave,T_ave}

其中，V_max为最大风速值；V_min为最小风速值；V_ave为平均风速值；sinθ_ave为平均风向的正弦值；cosθ_ave为平均风向的余弦值；P_ave为平均压强值；H_ave为平均湿度，T_ave为平均温度，

结合曲线趋势相似性和气象特征向量的物理相似性，确定相似度衡量标准S_iB为：

S_iB＝1-[αd(X^B,Xⁱ)+(1-α)D(W^B,Wⁱ)] (5)

其中，α为权重系数；X^B为基准特征向量；Xⁱ为类簇Cluster_f中的元素；W^B为X^B之后L小时的基准气象特征向量；Wⁱ为Xⁱ之后L小时的气象特征向量；d(·)为公式(3a)中的距离；D(·)为气象特征向量间的距离，选择欧式距离，并预先对其进行归一化处理，

采用公式(5)，计算基准特征向量X^B与类簇Cluster_f中所有元素的相似程度，排序后选取其中数值最大的N_f个元素为最佳相似时段集合S_f。

所述步骤3具体包括：所述风电功率预测模型的输入向量包含两部分，一是预测时刻的气象信息，包括风速、风向正弦，风向余弦、气压、湿度和温度值，二是预测时刻之前L小时的功率向量，风电功率预测模型的输出值为预测时刻对应的功率值，将步骤2所得到的最佳相似时段集合作为训练数据，通过风电功率预测模型进行迭代计算，完成未来时段的风电功率预测。

所述步骤2具体还包括：分类结果评价标准定义为目标样本与其所属类簇中所有样本的平均距离

其中，d(·)是公式(3)中距离公式，X^j是类簇中的元素，是其样本总数，K_M取值为13。

有益效果

本发明针对风力发电不具有明显日周期性的特点，基于相似日的预测方法，提出了基于相似时段聚类的风电功率预测方法，与相似日相比，相似时段能够从历史数据中挖掘出更多有价值的信息；气象因素的引入有助于提高功率预测的准确性；基于聚类-分类的相似时段选取策略可以快速地寻找最优集合，提高了预测精度和准确率。

附图说明

图1为相似时段与相似日示意图；

图2为历史功率向量示意图；

图3为Elman神经网络结构图；

图4功率预测过程示意图；

图5类簇中的功率曲线示意图；

图6不同α取值时功率预测误差曲线示意图。

具体实施方式

下面结合附图，对实施例作详细说明。

实施例1

如图1所示，直接应用传统的基于相似日的方法进行风电功率预测，效果不甚理想。如果以日为单位分析数据，则上方的功率曲线由于与目标功率曲线相似程度较低会被忽略，造成信息丢失。但适当缩短时间周期后，则可挖掘历史数据中蕴含着有效信息。相似时段长度的选择非常关键，时间尺度过长，则会引入无关的数据，致使预测过程耗时且准确率降低。反之，则无法体现功率曲线的变化趋势及潜在的规律信息。

以贵州地区某风电场为研究对象，实验数据取自2015年9月至2016年12月期间贵州省某风电场的运行数据，天气预报数据来源于NWP。

结合功率向量与气象信息，构建新的特征向量为：

其中，N＝L*D，D是每小时功率数据个数，x_i1,...,x_iN为功率向量P_i的连续N个功率值。M是将P_i细分的区间个数，用以表达功率的走向趋势，是每个区间的平均值，M可以取4或者6。和分别表示P_i的最小、最大和平均功率；H为功率的间隔

实验过程中，模型参数设置为：L＝12，H＝6，D＝4，M＝4。

分别采用Elman神经网络和支持向量机作为预测模型，对未来24小时的功率值，分辨率为15min，进行迭代预测。相似时段长度分别设置为6、12、18和24小时，预测模型参数如表1所示。

表1预测模型参数

选择2015年9月至2016年9月的数据作为训练集，10月至12月的数据作为测试集，

每日的功率误差e_MAPE为：

其中，p_i为实际功率；为预测功率；p_cap为风机开机容量，N_p为每日预测数据个数，预测模型的平均功率误差为：

其中，M_p为预测天数，是第j日的误差结果。

表2是上述两种模型的预测误差统计结果，

表2月平均误差率统计结果

根据表2数据显示，相似时段长度为12h时两种模型的预测效果均为最好，。从不同长度的相似时段预测误差上来看，Elman神经网络要低于SVM，说明Elman神经网络对于拟合波动性较强的风功率值具有更好的适应性。

在第一阶段搜索时，首先在历史功率和气象数据中以间隔H小时提取长度为L小时的功率向量、气象特征向量和长度为12小时的气象特征向量，如图2所示。其中L为相似时段长度，H<＝L为提取间隔，当H＝L时，提取的功率向量间没有重复，当H<L时，功率向量间有重复部分，且H越小重叠部分越多。其次，对所有功率向量进行特征提取，并采用K-means算法进行聚类。最后，将当前时刻前L小时功率数据定义为基准功率向量，通过对基准功率向量进行分类，确定其所属的类簇。

当进行第二阶段搜索时，结合气象因素特征确定的相似度衡量标准，针对类簇中若干功率向量，选择与预测日距离最近的功率向量作为最优相似时段集合。

集合中两个元素Xⁱ和X^j之间的距离定义为：

d(Xⁱ,X^j)＝1-r_ij (3a)

其中，r_ij是Xⁱ和X^j的皮尔逊系数，和分别表示Xⁱ和X^j的均值，和是Xⁱ和X^j的第t个分量，T为Xⁱ的模，T＝N+M+3。

采用K-means方法对上述特征向量集合进行聚类，对扩展向量聚类后，寻找相似时段转变为对基准向量P_B进行分类的问题。选择自适应K-NN方法完成分类过程，具体步骤为：

(1)将历史特征向量Xⁱ作为分类算法的样本数据，由P_B构造新的基准向量X_B，作为分类的目标向量；

(2)应用公式(3)，计算目标向量与所有类簇之间的距离，选取距离最小的类簇作为分类结果。

由于受到地势和气候的影响，风电功率不仅仅受风速的影响，风力机捕获功率可用下式表示：

其中，P代表风力机捕获功率，C_p代表风轮功率系数，ρ_air代表空气密度，S代表扫过风机叶片的面积，V_wind代表风速。

由式(4)可知，除了风速外，风力机捕获功率还受风向、温度和气压等因素影响，其中风向决定着扫过风机叶片的面积的大小，而温度、湿度和气压会改变空气密度。选取预测时刻之后L小时内的气象数据，构造气象特征向量为：

W＝{V_max,V_min,V_ave,sinθ_ave,cosθ_ave,P_ave,H_ave,T_ave}

其中，V_max为最大风速值；V_min为最小风速值；V_ave为平均风速值；sinθ_ave为平均风向的正弦值；cosθ_ave为平均风向的余弦值；P_ave为平均压强值；H_ave为平均湿度，T_ave为平均温度。

S_iB＝1-[αd(X^B,Xⁱ)+(1-α)D(W^B,Wⁱ)] (5)

其中，α为权重系数；X^B为基准特征向量；Xⁱ为类簇Cluster_f中的元素；W^B为X^B之后L小时的基准气象特征向量；Wⁱ为Xⁱ之后L小时的气象特征向量；d(·)为公式(3a)中的距离；D(·)为气象特征向量间的距离，选择欧式距离，并预先对其进行归一化处理。

Elman神经网络是一种典型的动态神经网络，由输入层、隐含层、承接层和输出层组成，网络结构如图3所示。承接层通过记忆隐含层在前一时刻的输出值来进行信号的反馈，增加了网络处理动态信息的能力，对于处理波动性较大的风电功率数据具有很好的适应性。

基于Elman神经网络，建立风电功率预测模型，所述预测模型的输入向量包含两部分，一是预测时刻的气象预报信息，包括风速、风向正弦，风向余弦、气压、湿度和温度值，二是预测时刻之前L小时的功率向量，而模型的输出为预测时刻对应的功率值。

在进行风电功率短期预测时，采用迭代方式逐一时刻预测未来的功率值，预测过程如图4所示。每次迭代过程中，首先寻找最佳相似时段集合S_f，然后将其作为训练集完成预测模型的建立，再应用Elman神经网络得到下一时刻的功率值。

类簇个数K_M决定着聚类结果，进而影响相似时段选取质量。为了设置最佳K_M值，选取2015年9月至2016年9月的数据进行聚类实验，采用2016年10月至12月的数据作为分类测试样本。结合实际风电运行情况和专业人员经验，K_M取值范围设定为9至20，分别独立完成实验过程，分类结果评价标准定义为目标样本与其所属类簇中所有样本的平均距离公式为：

其中d(·)是公式(3)中距离公式，X^j是类簇中的元素，是其样本总数。

结果如表3所示：

表3不同迭代间隔不同聚类数量下的平均分类距离

由表3可以看出，当K_M取值较小时，彼此相似度较低的个体被归为同一个类簇，导致分类效果不够理想。随着K_M值增加，结果逐渐改善，但K_M增加到一定数值时，过多的类簇会干扰目标样本的分类效果，使其不能准确地归为所属类簇。实验数据表明，K_M取13时，总体效果最理想，图5是其中两个类簇的样本曲线，两类曲线波动趋势差异较大，说明了聚类结果区分明显。

分析历史数据可知，相同的气象条件下功率曲线存在差异，而不同的气象条件也可能得到相似的功率曲线。仍然以2016年10月至12月作为测试阶段，分别为α设置不同的数值，重复执行相似时段选取过程，对应功率预测误差如图6所示。

从图6可以看出，仅考虑功率曲线的效果优于仅考虑气象因素，但两者都不够理想。主要原因是选取相似时段时功率曲线比气象因素具有更高的参考价值，统计结果表明功率曲线相似时气象因素也相似的概率大于气象因素相似时功率曲线也相似的概率。因此，功率曲线权重较大时，分类效果更好，尤其是α＝0.7时达到最佳。

Elman神经网络模型的输入直接影响着功率预测效果，为了分析不同模型的预测性能，将模型输入只包含功率向量的算法称为Elman-P，只包含气象因素的算法称为Elman-W，同时包含功率向量和气象因素的算法称之为Elman-PW。独立地应用三种预测算法，对2016年10月至12月期间进行功率预测，预测误差如表4所示。

表4不同模型的预测结果

从平均误差来看，Elman-PW算法明显优于其他两种算法，体现了多元数据对预测准确性的贡献。但同时也会发现，最坏误差中Elman-P要好于另两种算法，通过查看数据得知Elman-W算法和Elman-PW算法的最坏误差均出现在同一时间段，而且该段时间内的气象数据有明显的异常。

与基于相似日的预测方法不同，本发明的研究对象是比相似日具有更灵活时间尺度的相似时段。为了说明本发明的有效性，针对相同的数据集，采用本发明和现有算法独立地完成预测工作，结果如表5所示。

表5不同模型的风功率预测效果

每次预测过程中，现有算法都会搜索相似日，而忽略很多有价值的信息，而本发明则能很好地保留并利用其包含的有效信息。进一步分析表5中的数据，实验共计预测92日数据(现有算法执行92次预测，本发明执行184次预测)，本发明占优的有45日，结果相当的有34日，落后的有13日。本发明能够挖掘更多蕴含在历史数据中的规律信息，准确性整体上优于基于相似日的预测方法。

此实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于连续时段聚类的风电功率预测方法，其特征在于，包括步骤如下，

2.根据权利要求1所述的基于连续时段聚类的风电功率预测方法，其特征在于，所述步骤1具体包括：将相似时段长度分别设置为6、12、18和24小时，每日的功率误差e_MAPE为：

<mrow> <msub> <mi>e</mi> <mrow> <mi>M</mi> <mi>A</mi> <mi>P</mi> <mi>E</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>p</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>p</mi> </msub> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mover> <mi>p</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> <msub> <mi>p</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>p</mi> </mrow> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

预测模型的平均功率误差为：

<mrow> <msub> <mover> <mi>e</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>M</mi> <mi>A</mi> <mi>P</mi> <mi>E</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>M</mi> <mi>p</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>M</mi> <mi>p</mi> </msub> </munderover> <msubsup> <mi>e</mi> <mrow> <mi>M</mi> <mi>A</mi> <mi>P</mi> <mi>E</mi> </mrow> <mi>j</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，M_p为预测天数，是第j日的误差结果，

3.根据权利要求1所述的基于连续时段聚类的风电功率预测方法，其特征在于，所述步骤2具体包括：结合功率向量与气象信息，构建特征向量Xⁱ为：

<mrow> <msup> <mi>X</mi> <mi>i</mi> </msup> <mo>=</mo> <mo>{</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>N</mi> </mrow> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>i</mi> <mi>M</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>min</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>max</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>e</mi> </mrow> </msubsup> <mo>}</mo> </mrow>

其中，N＝L×D，D是每小时功率数据个数，L为相似时段长度；x_i1,...,x_iN为功率向量的连续N个功率值；M为功率向量区间个数，；为每个区间的平均值，M取4或者6；和分别为x_i1,...,x_iN中的最小、最大和平均功率值，

d(Xⁱ,X^j)＝1-r_ij (3a)

<mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>-</mo> <mover> <msup> <mi>X</mi> <mi>i</mi> </msup> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>t</mi> <mi>j</mi> </msubsup> <mo>-</mo> <mover> <msup> <mi>X</mi> <mi>j</mi> </msup> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>-</mo> <mover> <msup> <mi>X</mi> <mi>i</mi> </msup> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>t</mi> <mi>j</mi> </msubsup> <mo>-</mo> <mover> <msup> <mi>X</mi> <mi>j</mi> </msup> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mi>b</mi> <mo>)</mo> </mrow> </mrow>

风力机捕获功率P为：

W＝{V_max,V_min,V_ave,sinθ_ave,cosθ_ave,P_ave,H_ave,T_ave}

S_iB＝1-[αd(X^B,Xⁱ)+(1-α)D(W^B,Wⁱ)] (5)

4.根据权利要求1所述的基于连续时段聚类的风电功率预测方法，其特征在于，所述步骤3具体包括：所述风电功率预测模型的输入向量包含两部分，一是预测时刻的气象信息，包括风速、风向正弦，风向余弦、气压、湿度和温度值，二是预测时刻之前L小时的功率向量，风电功率预测模型的输出值为预测时刻对应的功率值，将步骤2所得到的最佳相似时段集合作为训练数据，通过风电功率预测模型进行迭代计算，完成未来时段的风电功率预测。

5.根据权利要求3所述的基于连续时段聚类的风电功率预测方法，其特征在于，所述步骤2具体还包括：分类结果评价标准定义为目标样本与其所属类簇中所有样本的平均距离

<mrow> <mover> <mi>D</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mn>1</mn> <mover> <mi>N</mi> <mo>&OverBar;</mo> </mover> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mover> <mi>N</mi> <mo>&OverBar;</mo> </mover> </munderover> <mi>d</mi> <mrow> <mo>(</mo> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mo>,</mo> <msup> <mi>X</mi> <mi>j</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>