CN106599587A - 一种大坝变形分析中的因子抽取方法 - Google Patents

一种大坝变形分析中的因子抽取方法 Download PDF

Info

Publication number
CN106599587A
CN106599587A CN201611182094.4A CN201611182094A CN106599587A CN 106599587 A CN106599587 A CN 106599587A CN 201611182094 A CN201611182094 A CN 201611182094A CN 106599587 A CN106599587 A CN 106599587A
Authority
CN
China
Prior art keywords
factor
principal component
sequence
measured value
factors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611182094.4A
Other languages
English (en)
Inventor
花胜强
蔡杰
纪菁
孙毅
李宁宁
郑慧娟
冯慧阳
姚驰
高磊
郑健兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing NARI Group Corp
State Grid Electric Power Research Institute
Original Assignee
Nanjing NARI Group Corp
State Grid Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing NARI Group Corp, State Grid Electric Power Research Institute filed Critical Nanjing NARI Group Corp
Priority to CN201611182094.4A priority Critical patent/CN106599587A/zh
Publication of CN106599587A publication Critical patent/CN106599587A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种大坝变形分析中的因子抽取方法,其特征是,包括:基于3σ准则对原始因子序列进行降噪,然后对序列中每个因子进行归一化;基于时效将变形效应量和各个因子的测值进行测次对齐;基于变形效应量和因子主成分的互信息最大原则,依次抽取因子的主成分向量;对主成分向量按照主成分贡献率从大到小排序,并按照主成分贡献率总和标准抽取得到最终的因子转换矩阵。本发明对因子序列进行降噪、去量纲、时序对齐数据预处理,提高了因子样本的可信度;通过综合最大化因子的方差及变形效应量和因子的相关性全面抽取因子的主成分向量,提高了因子抽取的精度。

Description

一种大坝变形分析中的因子抽取方法
技术领域
本发明属于水位测量技术领域,具体涉及一种大坝变形分析中的因子抽取方法。
背景技术
基于回归建模的统计方法是目前大坝变形监测分析的主要手段之一,而因子空间和样本质量决定了回归统计的精度上限,选用合适的回归模型和算法只能逼近该上限。通常,在对大坝变形进行分析时会选取多个回归因子,如多个承前时段内水头的1至4次方值及温度值,多个周期的温度谐波因子,以及多种函数的时效因子。但是由此也衍生了一系列问题,首先,高维度下数据处理的时空复杂度剧增;其次,非相关因子及因子间互相关性会严重干扰回归分析的精度,降低模型的泛化能力和可解释性;最后,不同因子的采样周期差异、数据的非标准化表示等都会影响模型的可信度。因此,如何处理和抽取合理的回归因子,对基于统计方法的大坝变形监测分析具有决定性的意义。
目前业界内变形分析的因子抽取,普遍是基于主成分分析、独立成分分析、典型相关性分析及偏最小二乘回归分析的原理进行抽取和变换的。
本发明人发现,目前行业内进行大坝安全评价的主要缺点包括:
1)主成分分析、独立成分分析侧重于因子侧的最大化信息表述和抽取,典型相关性分析侧重于效应量和因子的相关性最大化,都不够全面;
2)典型相关性分析和偏最小二乘回归分析都只能考察变量的线性相关性,对于非线性系统则容易失真;
3)数据的预处理也极为重要,如果对未经降噪、去量纲、时序对齐等预处理的因子样本直接进行统计分析,那分析结论的精度通常是不可接受的。
通过以上可以看出,行业内目前普遍采用的因子抽取和变换方法都存在着一定的不足和缺陷,影响了大坝安全分析后续工作的进一步展开。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种大坝变形分析中的因子抽取方法,对因子序列进行降噪、去量纲、时序对齐数据预处理,提高了因子样本的可信度;通过综合最大化因子的方差及变形效应量和因子的相关性全面抽取因子的主成分向量,提高了因子抽取的精度。
为解决上述技术问题,本发明提供了一种大坝变形分析中的因子抽取方法,其特征是,包括:
步骤S1,基于3σ准则对原始因子序列进行降噪,然后对序列中每个因子进行归一化;
步骤S2,基于时效将变形效应量和各个因子的测值进行测次对齐;
步骤S3,基于变形效应量和因子主成分的互信息最大原则,依次抽取因子的主成分向量;
步骤S4,对主成分向量按照主成分贡献率从大到小排序,并按照主成分贡献率总和标准抽取得到最终的因子转换矩阵。
进一步的,根据每个因子的原始样本序列,计算出其均值μ和标准差σ,然后遍历序列的每一个原始测值V,如果满足:|V-μ|≥3σ,即判定该值为离群点,予以剔除。
进一步的,归一化的公式为:V’=(V-Vmin)/(Vmax-Vmin),其中,V’为因子变换后的新测值,V为因子原始测值,Vmin为本序列中此因子原始测值中的最小值,Vmax为本序列中此因子原始测值中的最大值。
进一步的,将变形效应量和各个因子的测值进行测次对齐的具体过程为:迭代的遍历变形效应量及每个因子的测值序列,在有效的时间跨度内,寻找到一组变形效应量和各个因子都完整的测值组,且该组的总时间跨度无法再减少;重复迭代以上操作,直到无法再得到测次为止。
进一步的,使用互信息来表征变形效应量和因子之间相关性,求取主成分的目标函数形式化表述为:
Maximum:I(Y;Xu)
Subject to:||u||=1
其中,u为单位向量,表征因子矩阵X主成分的转换系数;
引入拉格朗日乘子,得到:Γ=I(Y;Xu)-λ(uTu-1)/2,两边对u做偏导,即可解得互信息矩阵I的本征值和本征向量;根据本征值的降序排列,可得到对应的本征向量集合,此即为因子的各个主成分转换向量。
进一步的,对于第k个主成分转换向量,定义其主成分贡献率δk为:
式中,λk为第k个主成分转换向量对应的本征值,n为因子的总数,也是主成分转换向量的总数。
与现有技术相比,本发明所达到的有益效果是:本发明首先通过降噪、归一化和测次对齐对因子序列进行数据预处理,为后续的因子抽取提供可信的样本基础;其次,通过综合最大化因子的方差及变形效应量和因子的相关性抽取因子的主成分向量,而不是单纯的因子主成分分析,使得因子的抽取更为合理;使用基于互信息而非协方差的相关性检验,避免了仅能衡量线性相关的局限性,进一步提高了因子抽取的精度;最后,基于主成分贡献率排序及贡献率总和标准抽取得到最终的因子转换矩阵;为后续大坝安全监测的成因分析和回归预测,提供了更为全面和精密的基础。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实际大坝安全监测中,影响变形效应量Y的环境因子包括很多,如何抽取合理环境因子,对基于统计方法的大坝变形监测分析具有决定性的意义。
本发明的一种大坝变形分析中的因子抽取方法,如图1所示,包含以下步骤:
步骤S1,基于3σ准则对原始因子序列进行降噪,然后对序列中每个因子进行归一化。
因子序列原始样本中的粗差对于后续的统计分析可能会有极大的影响,甚至使得分析失效,例如因子归一化、某些分类和回归算法对于离群点类的粗差比较敏感,因此应首先去除离群点,本实施例中采用3σ准则来过滤离群点。
根据每个因子的原始样本序列,计算出其均值μ和标准差σ,然后遍历序列的每一个原始测值V,如果满足:|V-μ|≥3σ,即判定该值为离群点,予以剔除。
接下来对每个因子进行归一化以去掉量纲。对于某因子的测值序列,进行如下变换:V’=(V-Vmin)/(Vmax-Vmin),其中,V’为因子变换后的新测值,V为因子原始测值,Vmin为本序列中此因子原始测值中的最小值,Vmax为本序列中此因子原始测值中的最大值。
步骤S2,基于时效将变形效应量和各个因子的测值进行测次对齐。
实际大坝安全监测中,变形效应量和各个环境因子难以保证完全同步测量,存在测量时序错位的问题。因此,需对变形效应量和各个因子的测值进行测次对齐。
其具体处理过程为:迭代的遍历变形效应量及每个因子的测值序列,在有效的时间跨度内(本实施例指定为24小时),寻找到一组变形效应量和各个因子都完整的测值组,且该组的总时间跨度无法再减少,即为一个完整的测次,重复迭代以上操作,直到无法再得到测次为止,这样可以从所有样本中挑选出测次对齐的样本,得到较佳的样本质量。
先通过降噪、归一化和测次对齐对因子序列进行数据预处理,为后续的因子抽取提供可信的样本基础。
步骤S3,基于变形效应量和因子主成分的互信息最大原则,依次抽取因子的主成分向量;
现有技术中已知互信息是两个变量间相关性的度量,表示两个变量间共有信息量的程度,不同于协方差,互信息可以衡量各种关系的相关性。两个变量X和Y的互信息I(X;Y)如下:
其中,p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
对于因子的主成分转换系数u,应具有如下性质:首选,因子矩阵在主成分上的投影向量Xu,其方差Var(Xu)应最大化;其次,因子矩阵在主成分上的投影向量Xu,应与变形效应量Y具有最大相关性。因此,考虑因子矩阵在主成分上的投影向量Xu、变形效应量Y的协方差Cov(Y,Xu):
其中,变形效应量Y的方差Var(Y)为定值,因此,使得Xu的方差Var(Xu)、Y与Xu的相关性Corr(Y,Xu)同时达到最大的问题,转换为了求解协方差Cov(Y,Xu)最大的问题。协方差计算的是两个变量的线性相关程度。考虑到满足因子和变形效应量Y间非线性相关性挖掘的要求(例如变形效应量可能是水位的幂函数而非线性函数),本发明使用互信息来表征相关性。非线性的相关性通过协方差是挖掘不出来的,但是互信息可以。
首先,推导出协方差最大就是因子抽取的目标函数,其次,说明互信息代替协方差,这样不但可以挖掘线性相关,同时也能挖掘非线性的各种相关性。所以目标函数形式化表述为:
Maximum:I(Y;Xu)
Subject to:||u||=1
其中,u为单位向量,表征因子矩阵X主成分的转换系数。
引入拉格朗日乘子,得到:Γ=I(Y;Xu)-λ(uTu-1)/2,两边对u做偏导,变成了I*u=λu的形式了,即可转为对互信息矩阵I的本征值和本征向量的求解问题。求得的本征向量,就是主成分转换系数u。根据本征值的降序排列,可得到对应的本征向量集合,此即为因子的各个主成分转换向量。
使用基于互信息而非协方差的相关性检验,能更全面的进行因子的抽取和转换;避免了仅能衡量线性相关的局限性,进一步提高了因子抽取的精度,为后续大坝安全监测的成因分析和回归预测,提供了更为全面和精密的基础。
步骤S4,对主成分向量按照主成分贡献率从大到小排序,并按照主成分贡献率总和标准抽取得到最终的因子转换矩阵。
对于第k个主成分转换向量,定义其主成分贡献率δk为:
式中,λk为第k个主成分转换向量对应的本征值,n为因子的总数,也是主成分转换向量的总数。
根据λk由高到低的顺序,依次累加其对应的δk,当总和占全部δk总和的98%以上时候,即停止选择,则之前所有入选的λk对应的主成分转换向量集合,即为最终的因子抽取的转换矩阵。
本发明首先通过降噪、归一化和测次对齐进行数据预处理,为后续的因子抽取提供可信的样本基础;其次,通过综合最大化因子的方差及变形效应量和因子的相关性抽取因子的主成分向量,而不是单纯的因子主成分分析,使得因子的抽取更为合理;使用基于互信息而非协方差的相关性检验,避免了仅能衡量线性相关的局限性,进一步提高了因子抽取的精度;最后,基于主成分贡献率排序及贡献率总和标准抽取得到最终的因子转换矩阵;为后续大坝安全监测的成因分析和回归预测,提供了更为全面和精密的基础。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (6)

1.一种大坝变形分析中的因子抽取方法,其特征是,包括:
步骤S1,基于3σ准则对原始因子序列进行降噪,然后对序列中每个因子进行归一化;
步骤S2,基于时效将变形效应量和各个因子的测值进行测次对齐;
步骤S3,基于变形效应量和因子主成分的互信息最大原则,依次抽取因子的主成分向量;
步骤S4,对主成分向量按照主成分贡献率从大到小排序,并按照主成分贡献率总和标准抽取得到最终的因子转换矩阵。
2.根据权利要求1所述的一种大坝变形分析中的因子抽取方法,其特征是,根据每个因子的原始样本序列,计算出其均值μ和标准差σ,然后遍历序列的每一个原始测值V,如果满足:|V-μ|≥3σ,即判定该值为离群点,予以剔除。
3.根据权利要求1所述的一种大坝变形分析中的因子抽取方法,其特征是,归一化的公式为:V’=(V-Vmin)/(Vmax-Vmin),其中,V’为因子变换后的新测值,V为因子原始测值,Vmin为本序列中此因子原始测值中的最小值,Vmax为本序列中此因子原始测值中的最大值。
4.根据权利要求1所述的一种大坝变形分析中的因子抽取方法,其特征是,将变形效应量和各个因子的测值进行测次对齐的具体过程为:迭代的遍历变形效应量及每个因子的测值序列,在有效的时间跨度内,寻找到一组变形效应量和各个因子都完整的测值组,且该组的总时间跨度无法再减少;重复迭代以上操作,直到无法再得到测次为止。
5.根据权利要求1所述的一种大坝变形分析中的因子抽取方法,其特征是,使用互信息来表征变形效应量和因子之间相关性,求取主成分的目标函数形式化表述为:
Maximum:I(Y;Xu)
Subject to:||u||=1
其中,u为单位向量,表征因子矩阵X主成分的转换系数;
引入拉格朗日乘子,得到:Γ=I(Y;Xu)-λ(uTu-1)/2,两边对u做偏导,即可求得互信息矩阵I的本征值和本征向量;根据本征值的降序排列,可得到对应的本征向量集合,此即为因子的各个主成分转换向量。
6.根据权利要求1所述的一种大坝变形分析中的因子抽取方法,其特征是,对于第k个主成分转换向量,定义其主成分贡献率δk为:
δ k = λ k Σ m = 1 n λ m
式中,λk为第k个主成分转换向量对应的本征值,n为因子的总数,也是主成分转换向量的总数。
CN201611182094.4A 2016-12-20 2016-12-20 一种大坝变形分析中的因子抽取方法 Pending CN106599587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611182094.4A CN106599587A (zh) 2016-12-20 2016-12-20 一种大坝变形分析中的因子抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611182094.4A CN106599587A (zh) 2016-12-20 2016-12-20 一种大坝变形分析中的因子抽取方法

Publications (1)

Publication Number Publication Date
CN106599587A true CN106599587A (zh) 2017-04-26

Family

ID=58599694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611182094.4A Pending CN106599587A (zh) 2016-12-20 2016-12-20 一种大坝变形分析中的因子抽取方法

Country Status (1)

Country Link
CN (1) CN106599587A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197824A (zh) * 2018-01-29 2018-06-22 河海大学 一种高坝服役安全空间警戒域诊断方法
CN111222095A (zh) * 2019-12-19 2020-06-02 国网电力科学研究院有限公司 一种大坝变形监测中的粗差判别方法、装置及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104613923A (zh) * 2015-03-01 2015-05-13 河南理工大学 一种变形监测安全评估系统及评估方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104613923A (zh) * 2015-03-01 2015-05-13 河南理工大学 一种变形监测安全评估系统及评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HU QUNGE ET AL.: "Dam Deformation Analysis Based on Ridge Regression", 《IEEE》 *
范雪莉: "基于互信息的主成分分析特征选择算法", 《控制与决策》 *
郑付刚: "主成分回归分析在确定大坝效应量分量中的应用", 《水力发电》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197824A (zh) * 2018-01-29 2018-06-22 河海大学 一种高坝服役安全空间警戒域诊断方法
CN111222095A (zh) * 2019-12-19 2020-06-02 国网电力科学研究院有限公司 一种大坝变形监测中的粗差判别方法、装置及系统
CN111222095B (zh) * 2019-12-19 2023-06-16 国网电力科学研究院有限公司 一种大坝变形监测中的粗差判别方法、装置及系统

Similar Documents

Publication Publication Date Title
Xu et al. Cross-version defect prediction via hybrid active learning with kernel principal component analysis
CN110458230A (zh) 一种基于多判据融合的配变用采数据异常甄别方法
CN110472846A (zh) 核电厂热工水力安全分析最佳估算加不确定性方法
CN109767054A (zh) 基于深度神经网络算法的能效云评估方法及边缘能效网关
CN107807860B (zh) 一种基于矩阵分解的电力故障分析方法及系统
CN107832927B (zh) 基于灰色关联分析法的10kV线路线变关系评价方法
Feng et al. Data mining for abnormal power consumption pattern detection based on local matrix reconstruction
CN109740687A (zh) 一种基于dlae的发酵过程故障监测方法
CN109388774A (zh) 一种基于对比法的火电厂NOx预测模型变量特征提取方法
CN116821832A (zh) 针对高压工商业用户用电负荷的异常数据辨识与修正方法
CN106599587A (zh) 一种大坝变形分析中的因子抽取方法
Kumar et al. Deep Learning based Fault Detection in Power Transmission Lines
Wu The comparison of forecasting analysis based on the ARIMA-LSTM hybrid models
CN113281229A (zh) 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN115935283B (zh) 一种基于多元非线性因果分析的干旱成因溯源方法
CN113804657B (zh) 一种基于多元回归结合稀疏自编码器光谱特征降维方法
Tan et al. Amortized Bayesian Parameter Estimation Approach for WECC Composite Load Model
CN111612277A (zh) 用于预测行业用电量的空间协同预测方法
Zhang A Neural Network Model for Business Performance Management Based on Random Matrix Theory
Liu et al. A baseline evaluation method based on principal component analysis for software test case design
Cheng et al. Fault Detection Based on Least Squares with Limited Samples
Prabowo et al. Green Finance and Green Economic Trade Off Economic and Environtment in Indonesia: English
Zhou et al. Remaining Useful Life Prediction of Aero-Engine using CNN-LSTM and mRMR Feature Selection
CN106845862A (zh) 一种海外石油投资风险关键要素识别方法
Shi Green building energy consumption data detection method based on Naive Bayesian algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication