CN110990768A - 基于互信息值的发电机组性能各参数数据类型确定方法 - Google Patents
基于互信息值的发电机组性能各参数数据类型确定方法 Download PDFInfo
- Publication number
- CN110990768A CN110990768A CN201911080870.3A CN201911080870A CN110990768A CN 110990768 A CN110990768 A CN 110990768A CN 201911080870 A CN201911080870 A CN 201911080870A CN 110990768 A CN110990768 A CN 110990768A
- Authority
- CN
- China
- Prior art keywords
- data
- generator set
- mutual information
- parameter
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 241000039077 Copula Species 0.000 claims abstract description 34
- 238000013480 data collection Methods 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 238000005315 distribution function Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000010248 power generation Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 abstract description 3
- 230000001186 cumulative effect Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 3
- 230000009194 climbing Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011425 standardization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Wind Motors (AREA)
Abstract
本发明公开一种基于互信息值的发电机组性能各参数数据类型确定方法。它是将采集的到发电机组的各种物理参数数据,利用Copula函数以及Copula密度函数的计算得到互信息值,排序确定发电机组性能各物理参数数据与风电机组实际输出功率之间的互信息关系。不仅可以反映数据间除线性外的相关关系,同时也不需要进行数据集的富化从而节省计算资源。改善现有依据线性相关性研究数据收集的富化问题和局限性。
Description
技术领域
本发明属于电力系统数据处理的方法,具体涉及一种发电系统后评价时,发电机组性能各物理参数数据类型相关性的确定方法。
背景技术
随着风电行业快速发展,大量风力发电机组已累计运行多年,风电场高效运维及提质增效需求凸显,同时风电行业平价进程持续推进,风电开发商对于风电场后评估工作的精细化要求也随之提高。而在所有风电场后评估工作中,风电机组性能评估是最为重要的一项内容。而现有技术手段下,风电场后评估工作中主要使用风机SCADA(SupervisoryControl And Data Acquisition,即数据采集与监视控制系统)数据。但SCADA数据采集系统往往采集的数据类型种类繁多,数量从几十个到上百个不等,其覆盖的物理量范围也较广,包括但不限于气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等,同时针对风机的任意部件,以上物理变量通常配备有单独的传感器测量。在这些不同的数据类型中,并不是所有的数据类型都与后评估工作中风机性能表现相关。所以研究一种能够从SCADA数据类型中判别与风电机组性能“相关“性最高的数据类型的方法是十分必要的。
目前国内外对于SCADA数据类型与风电机组性能“相关“性的判定多采用线性相关方法,此方法将分别将不同的SCADA数据类型与风电机组输出功率进行线性回归分析,并以最终两者的线性相关性系数R2作为判定标准,线性相关性系数的值越高表明该SCADA数据类型越能反映风电机组的性能表现。然而线性相关方法不论是从全局出发还是将数据进行区间分段再分别分析,都存在一定的局限性,最主要的就是此类相关性分析法均只能反应数据间的线性相关关系,虽然数据集的富化(如将原始数据的幂次方也作为数据集的一部分使用,这样就可以在相关性分析同体现数据间的高阶关系)可以一定程度上改善这一问题,但是数据集的富化一方面依赖于经验(即富化的程度),另一方面其也会使得数据量呈指数级增长。
CN102103037B公开了一种《汽轮发电机组低频振动与功率递增相关性分析方法》;仅仅解决低频振动与功率递增相关性,参数数据单一,不适合于多参数条件的相关性研究。
CN110378504A公开了一种《一种基于高维Copula技术的光伏发电爬坡事件概率预测方法》,提供的高维Copula建模方法,根据光伏功率爬坡特征量之间的随机相关性,建立各个特征量的条件概率模型。它的应用是基于确定数据相关性后,得到各爬坡特征量的点预测值,给出预测值的置信区间;提高概率预测的精确性和鲁棒性。
发明内容
本发明的目的在于解决发电机组后评价过程中,数据相关性仅通过线性相关方法,只能反应数据间的线性相关关系的局限性问题,提供一种基于互信息值的发电机组性能各参数数据类型确定方法。
本发明的技术方案为:一种基于互信息值的发电机组性能各参数数据类型确定方法,将采集的到发电机组的各种物理参数数据,利用Copula函数以及Copula密度函数的计算得到互信息值,排序确定发电机组性能各物理参数数据与风电机组实际输出功率之间的互信息关系。
上述获得各种物理参数数据均是可以直接用于Copula函数的有效数据。
在实际的数据采集过程中,可能采集到明显无效的数据,在采用上述计算方案是需要去掉无效的数据,可以称为数据过滤,也可以称为数据去噪。
上述各种物理参数数据是风机数据采集与监视控制系统SCADA(SupervisoryControl And Data Acquisition)采集到的数据,包括但不限于气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等。
优选的技术方案为:利用Copula函数计算之前,对采集的到发电机组的各种物理参数数据进行转换,将物理数据量转化为Copula函数可接受的数学数字变量。
优选的技术方案为:所述数学数字变量是数据标准化。
优选的技术方案为:所述数据标准化的方法采用min-max标准化法。
优选的技术方案为:对采集的到发电机组的各种物理参数数据进行处理,包括数据过滤。
所述数据标准化的方法采用min-max标准化法。
优选的技术方案为:所述Copula函数的计算采用的是经验分布函数的计算方法。
优选的技术方案为:所述Copula密度函数的计算采用的是基于Beta函数的核密度估计法。
优选的技术方案为:所述发电机组是风力发电机组。
优选的技术方案为:采集的物理参数数据是基于风力发电数据采集与监视控制系统采集得到的。
本专利的基于互信息判定SCADA数据类型与风电机组性能“相关“性的方法,不仅可以反映数据间除线性外的相关关系,同时也不需要进行数据集的富化从而节省计算资源。改善现有依据线性相关性研究数据收集的富化问题和局限性,也包含数据间的线性相关性。
附图说明
图1为本发明实施例的程序流程图。
图2为本发明互信息与信息熵关系示意图。
具体实施方式
下面以风力发电机组说明本发明权利要求书的技术特征,以便于本领域技术人员理解本发明技术解决方案,但本发明的保护范围不限于下列的具体实施方式。
如图1所示
S101,获取风力发电机组的各种物理参数数据:可以利用风机数据采集与监视控制系统SCADA(Supervisory Control And Data Acquisition)采集到的数据,包括但不限于气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等。
S102数据过滤:,采用分位数离群值过滤法对风电机组的每个SCADA数据类型进行数据过滤。
SCADA数据采集的数据类型多种多样,每个数据通道在其测量时间段内,均采用十分钟步长的时间序列记录。因此若统计每个数据类型的分布,可以得到其各自的平均值与标准偏差值。不论是哪一种类型的数据,在其测量周期内,会由于某些客观原因存在测量数据不合理的数据(例如,风速出现负值,功率出现负值等),对于这些不合理数据需要进行过滤,采用的方法是分位数离群值过滤法(Quantile outlier filter)。即首先将每个数据类型中明显不符合物理规律的数据删除(如风速小于0,功率小于0等),之后假定每个数据类型的分布符合正态分布,接着为每个数据类型设定一个合理的统计致信分位数区间,以95%分位数为例,最后检验每个测量数据与该数据类型平均值的差异,当且仅当这一差异小于等于1.65倍的标准偏差时,才认为该数据是合理的。该过滤方法的数学表达如下:
x is valid,if|x-xmean|≤1.65σx
实际操作中,以SCADA数据中的风速数据为例,只需针对风速数据时间序列统计出其平均风速以及风速标准偏差,再将风速数据时间序列代入上式进行数据过滤即可,其他SCADA记录数据处理方式以此类推。
S103数据转化---数据标准化:将过滤后的数据采用min-max标准化方法进行维度标准化。
过滤后的数据仍然不能直接用于后续分析。本发明中的互信息计算对于入口数据的维度差异均极为敏感,若不同数据类型之间量级差异过大,则会导致计算效率下降或结果不准确。
因此过滤后的SCADA数据需要进一步进行标准化。采用的方法为min-max标准化法,该方法的数学表达如下所示,经过此方法后,SCADA数据中所有的数据类型均会标准化至[0,1]区间之内:
其中,dataoriginal是实际采集到的物理量中的一个数据值,min(data)是实际采集到的相同物理量数据值中最小数据,max(data)是实际采集到的相同物理量数据值中最大数据。
实际操作中以SCADA数据中的风速数据为例,只需统计过滤后的风速时间序列的最大值及最小值,再将风速数据时间序列代入上式进行数据标准化即可,其他SCADA记录数据处理方式以此类推。
采用经验分布函数法计算每个SCADA数据类型与风电机组输出功率之间的Copula函数。
根据Shannon在信息论中的定义以双连续随机变量x和y为例,其之间的互信息可以定义为如下形式。
或如下形式
I(x;y)=H(x)-H(x|y)=H(y)-H(y|x)=H(x)+H(y)-H(x,y)=H(x,y)-H(x|y)-H(y|x)
其中p(x,y)为随机变量X和Y的联合概率分布函数,px(x)和py(y)则分别为随机变量x和随机变量y的边缘分布,X和Y分别为两个随机变量的定义域。
H(x)为随机变量X的边缘熵,H(y)为随机变量Y的边缘熵。
H(x)=E[-log(px(x))]=-∫xpx(x)logpx(x)dx
H(y|x)为随机变量Y在随机变量X下的条件熵,H(x|y)为随机变量X在随机变量Y下的条件熵。
H(x,y)为随机变量X与随机变量Y的联合熵。
H(x,y)=-∫x∫yp(x,y)logp(x,y)dxdy
图2是以上各类信息熵与互信息的关系示意图。
可见如果想直接通过以上定义式计算互信息,则需要已知各随机变量的边缘分布函数以及联合分布函数。实际情况中,随机变量的边缘分布以及联合分布均无法被准确测量或获得。因此需要找到一种不依赖随机变量边缘分布与联合分布的互信息计算方法。
基于得到的Copula函数进一步采用核密度函数估计法计算SCADA数据类型与风电机组输出功率之间的Copula密度函数。
借由Sklar定理可知若P为多维随机变量x=x_1...x_N的联合累积分布函数(joint cumulative distribution function),同时多维随机变量x具有边缘分布{P_i,i=1,...,N},则P可以通过Copula函数C以及边缘累积分布函数(margin cumulativedistribution function)Pi来表达。
P(x)=C(P1(x1),...,PN(xN))
将上式改写为双随机变量形式。
P(x,y)=C(Px(x),Py(y))
再通过联合累积分布函数的定义式可知:
P(x,y)=∫x∫yp(x,y)dxdy
因此若将Sklar定理公式两边同时进行微分,则有:
进一步整理最终得到:
p(x,y)=c(Px(x),Py(y))px(x)py(y)
I(x;y)=∫x∫yc(Px(x),Py(y))px(x)py(y)log(c(Px(x),Py(y))dxdy
设Px(x)=a,Py(y)=b,则上式可最终整理为:
I(x;y)=∫0 1∫0 1c(a,b)logc(a,b)dadb
可以发现借由Copula函数以及Copula密度函数,互信息的计算可以绕开随机变量的边缘概率分布以及联合概率分布获取,同时从Copula相关计算出发,可以注意到其与随机变量的联合累积概率分布相关,相较于实际应用中较难测量与估计的概率分布函数,累积概率分布可以通过无参估计(nonparametric estimation)来获得,最终使得随机变量之间的互信息可以被计算出来。
S104 Copula函数计算
对于Copula计算采用了经验分布函数法(empirical distribution function),对于随机变量x以及随机变量y的一组采样{xi,yi}N,将Sklar定理公式中的联合累积概率分布函数P(x,y)通过采样数据的累计求和代替,即可得到经验Copula函数的数学表达:
式中的两个随机变量的边缘累积概率函数P_x(x_i)和P_y(y_i)则可以通过基于采样的经验分布公式来近似:
S105 Copula密度函数的计算
在经验Copula函数计算得到之后,下一步需要根据经验Copula函数进一步计算其密度函数,本专利中采用了核密度估计法(kernel density estimation),最终可以推导得到Copula密度函数的估计式:
实际操作中,需要将上式中随机变量Y替换为SCADA数据中筛选和标准化后的风机实际输出功率;随机变量X依次替换为SCADA数据中筛选和标准化后的其他数据类型,如气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等。然后将(a,b)依次取遍[0,h,2h……,1]X[0,h,2h……,1]的所有可能组合。
举例说明(a,b)依次取遍[0,h,2h……,1]X[0,h,2h……,1]的所有可能组合,假设h为0.1即(a,b)在a=0时可以为(0,0),(0,0.1),(0,0.2),(0,0.3),(0,0.4),(0,0.5),(0,0.6),(0,0.7),(0,0.8),(0,0.9),(0,1.0)。(a,b)在a=0.1时可以为(0.1,0),(0.1,0.1),(0.1,0.2),(0.1,0.3),(0.1,0.4),(0.1,0.5),(0.1,0.6),(0.1,0.7),(0.1,0.8),(0.1,0.9),(0.1,1.0)。以此类推,a的值共可取0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0。
上式中K_x和K_y分别为针对不同随机变量所使用的核(kernel)函数,可以选择的核函数有很多,包括但不局限于Beta函数,高斯函数等,h为密度函数评估中所使用的窗宽(bandwidth),典型取值为对应数据类型数据总量的五次方根分之一
S106互信息值计算
采用核密度估计法得到每个SCADA数据类型(如气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等)与风电机组输出功率的Copula密度函数后,进一步即可采用下式计算两者的互信息。
利用公式
I(x;y)=∫0 1∫0 1c(a,b)logc(a,b)dadb
计算各SCADA数据类型与风电机组输出功率之间的互信息值。
S107互信息值排序
将上面计算得到的所有SCADA数据类型与风电机组输出功率的互信息值由大到小降序排列,排名越靠前的数据类型即为与风电机组性能“相关性”越高的数据类型。
本发明利用信息论中,互信息值反映不同随机变量间相互携带信息量的多少,评价发电机组(特别是风力发电系统的数据离散性系统中)性能各参数数据类型的相关性,适用于SCADA数据的繁杂系统,评价全面,系统,准确性高。
Claims (9)
1.一种基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:将采集的到发电机组的各种物理参数数据,利用Copula函数以及Copula密度函数的计算得到互信息值,排序确定发电机组性能各物理参数数据与风电机组实际输出功率之间的互信息关系。
2.如权利要求1所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:利用Copula函数计算之前,对采集的到发电机组的各种物理参数数据进行转换,将物理数据量转化为Copula函数可接受的数学数字变量。
3.如权利要求2所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:所述数学数字变量是数据标准化。
4.如权利要求4所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:所述数据标准化的方法采用min-max标准化法。
5.如权利要求1所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:对采集的到发电机组的各种物理参数数据进行处理,包括数据过滤。
6.如权利要求1所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:所述Copula函数的计算采用的是经验分布函数的计算方法。
7.如权利要求1所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:所述Copula密度函数的计算采用的是基于Beta函数的核密度估计法。
8.如权利要求1所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:所述发电机组是风力发电机组。
9.如权利要求1或6所述基于互信息值的发电机组性能各参数数据类型确定方法,其特征是:采集的物理参数数据是基于风力发电数据采集与监视控制系统采集得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911080870.3A CN110990768A (zh) | 2019-11-07 | 2019-11-07 | 基于互信息值的发电机组性能各参数数据类型确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911080870.3A CN110990768A (zh) | 2019-11-07 | 2019-11-07 | 基于互信息值的发电机组性能各参数数据类型确定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990768A true CN110990768A (zh) | 2020-04-10 |
Family
ID=70083304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911080870.3A Pending CN110990768A (zh) | 2019-11-07 | 2019-11-07 | 基于互信息值的发电机组性能各参数数据类型确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990768A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114912168A (zh) * | 2022-04-21 | 2022-08-16 | 华中科技大学 | 隧道结构损伤识别的子区间划分方法、系统、可存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106662072A (zh) * | 2014-11-18 | 2017-05-10 | Abb瑞士股份有限公司 | 风力发电机状态监控方法与系统 |
US20190066133A1 (en) * | 2016-11-11 | 2019-02-28 | Jpmorgan Chase Bank, N.A. | System and method for providing data science as a service |
-
2019
- 2019-11-07 CN CN201911080870.3A patent/CN110990768A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106662072A (zh) * | 2014-11-18 | 2017-05-10 | Abb瑞士股份有限公司 | 风力发电机状态监控方法与系统 |
US20190066133A1 (en) * | 2016-11-11 | 2019-02-28 | Jpmorgan Chase Bank, N.A. | System and method for providing data science as a service |
Non-Patent Citations (2)
Title |
---|
MIAN DU ET AL.: ""A Parameter Selection Method for Wind Turbine Health Management through SCADA Data"", vol. 10, pages 253 - 266 * |
舒晓惠: "《非线性协整时间序列的非参数方法及其应用研究》", vol. 1, 西南交通大学出版社, pages: 80 - 81 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114912168A (zh) * | 2022-04-21 | 2022-08-16 | 华中科技大学 | 隧道结构损伤识别的子区间划分方法、系统、可存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107885959B (zh) | 一种基于置信等效功率曲线带的风电建模及性能评估方法 | |
WO2021213192A1 (zh) | 一种基于通用分布的负荷预测方法及负荷预测系统 | |
CN110070282B (zh) | 一种基于综合关联度的低压台区线损影响因素分析方法 | |
CN102562469B (zh) | 基于校正算法的短期风力发电机输出功率预测方法 | |
DE112016005511T5 (de) | Verfahren zum Bewerten von Leistungscharakteristiken von Windkraftanlagen, Vorrichtung und Speichermedium | |
CN111539553A (zh) | 基于svr算法和偏峰度的风电机组发电机故障预警方法 | |
CN108197394A (zh) | 一种风速曲线仿真方法 | |
CN116128167B (zh) | 一种基于云计算实时监测的分布式光伏发电分析方法 | |
CN117556366B (zh) | 基于数据筛选的数据异常检测系统及方法 | |
CN110991701A (zh) | 一种基于数据融合的风电场风机风速预测方法及系统 | |
CN101673096B (zh) | 一种丹参注射液生产浓缩过程密度的软测量方法 | |
CN118194607B (zh) | 一种用于锅炉机组数据动态建模方法及系统 | |
CN116882079A (zh) | 一种水泵特性曲线自适应校准及预测方法 | |
CN101446828A (zh) | 一种非线性过程质量预报方法 | |
CN110990768A (zh) | 基于互信息值的发电机组性能各参数数据类型确定方法 | |
CN102539823A (zh) | 一种wtg风速分布的预测方法 | |
CN117200223A (zh) | 日前电力负荷预测方法和装置 | |
CN110555566B (zh) | 一种基于b样条分位数回归的光电概率密度预测方法 | |
CN110083804B (zh) | 基于条件分布回归的风电场scada数据缺失的智能修复方法 | |
CN117273195A (zh) | 一种蒸汽供热系统需求负荷预测方法 | |
CN111738556A (zh) | 一种基于机头微气候评估风机发电能力的方法 | |
CN114118633B (zh) | 一种基于先行关系的指标自优化预测方法及装置 | |
CN107633271B (zh) | 电力系统稳态可用度非精确概率计算方法 | |
Qiao et al. | Research on SCADA data preprocessing method of Wind Turbine | |
CN110322063B (zh) | 一种耗电功率仿真预测方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |