CN106599587A

CN106599587A - 一种大坝变形分析中的因子抽取方法

Info

Publication number: CN106599587A
Application number: CN201611182094.4A
Authority: CN
Inventors: 花胜强; 蔡杰; 纪菁; 孙毅; 李宁宁; 郑慧娟; 冯慧阳; 姚驰; 高磊; 郑健兵
Original assignee: Nanjing NARI Group Corp; State Grid Electric Power Research Institute
Current assignee: Nanjing NARI Group Corp; State Grid Electric Power Research Institute
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-04-26

Abstract

本发明公开了一种大坝变形分析中的因子抽取方法，其特征是，包括：基于3σ准则对原始因子序列进行降噪，然后对序列中每个因子进行归一化；基于时效将变形效应量和各个因子的测值进行测次对齐；基于变形效应量和因子主成分的互信息最大原则，依次抽取因子的主成分向量；对主成分向量按照主成分贡献率从大到小排序，并按照主成分贡献率总和标准抽取得到最终的因子转换矩阵。本发明对因子序列进行降噪、去量纲、时序对齐数据预处理，提高了因子样本的可信度；通过综合最大化因子的方差及变形效应量和因子的相关性全面抽取因子的主成分向量，提高了因子抽取的精度。

Description

一种大坝变形分析中的因子抽取方法

技术领域

本发明属于水位测量技术领域，具体涉及一种大坝变形分析中的因子抽取方法。

背景技术

基于回归建模的统计方法是目前大坝变形监测分析的主要手段之一，而因子空间和样本质量决定了回归统计的精度上限，选用合适的回归模型和算法只能逼近该上限。通常，在对大坝变形进行分析时会选取多个回归因子，如多个承前时段内水头的1至4次方值及温度值，多个周期的温度谐波因子，以及多种函数的时效因子。但是由此也衍生了一系列问题，首先，高维度下数据处理的时空复杂度剧增；其次，非相关因子及因子间互相关性会严重干扰回归分析的精度，降低模型的泛化能力和可解释性；最后，不同因子的采样周期差异、数据的非标准化表示等都会影响模型的可信度。因此，如何处理和抽取合理的回归因子，对基于统计方法的大坝变形监测分析具有决定性的意义。

目前业界内变形分析的因子抽取，普遍是基于主成分分析、独立成分分析、典型相关性分析及偏最小二乘回归分析的原理进行抽取和变换的。

本发明人发现，目前行业内进行大坝安全评价的主要缺点包括：

1)主成分分析、独立成分分析侧重于因子侧的最大化信息表述和抽取，典型相关性分析侧重于效应量和因子的相关性最大化，都不够全面；

2)典型相关性分析和偏最小二乘回归分析都只能考察变量的线性相关性,对于非线性系统则容易失真；

3)数据的预处理也极为重要，如果对未经降噪、去量纲、时序对齐等预处理的因子样本直接进行统计分析，那分析结论的精度通常是不可接受的。

通过以上可以看出，行业内目前普遍采用的因子抽取和变换方法都存在着一定的不足和缺陷，影响了大坝安全分析后续工作的进一步展开。

发明内容

本发明的目的在于克服现有技术中的不足，提供了一种大坝变形分析中的因子抽取方法，对因子序列进行降噪、去量纲、时序对齐数据预处理，提高了因子样本的可信度；通过综合最大化因子的方差及变形效应量和因子的相关性全面抽取因子的主成分向量，提高了因子抽取的精度。

为解决上述技术问题，本发明提供了一种大坝变形分析中的因子抽取方法，其特征是，包括：

步骤S1，基于3σ准则对原始因子序列进行降噪，然后对序列中每个因子进行归一化；

步骤S2，基于时效将变形效应量和各个因子的测值进行测次对齐；

步骤S3，基于变形效应量和因子主成分的互信息最大原则，依次抽取因子的主成分向量；

步骤S4，对主成分向量按照主成分贡献率从大到小排序，并按照主成分贡献率总和标准抽取得到最终的因子转换矩阵。

进一步的，根据每个因子的原始样本序列，计算出其均值μ和标准差σ，然后遍历序列的每一个原始测值V，如果满足：|V-μ|≥3σ，即判定该值为离群点，予以剔除。

进一步的，归一化的公式为：V’＝(V-V_min)/(V_max-V_min)，其中，V’为因子变换后的新测值，V为因子原始测值，V_min为本序列中此因子原始测值中的最小值，V_max为本序列中此因子原始测值中的最大值。

进一步的，将变形效应量和各个因子的测值进行测次对齐的具体过程为：迭代的遍历变形效应量及每个因子的测值序列，在有效的时间跨度内，寻找到一组变形效应量和各个因子都完整的测值组，且该组的总时间跨度无法再减少；重复迭代以上操作，直到无法再得到测次为止。

进一步的，使用互信息来表征变形效应量和因子之间相关性，求取主成分的目标函数形式化表述为：

Maximum:I(Y；Xu)

Subject to:||u||＝1

其中，u为单位向量，表征因子矩阵X主成分的转换系数；

引入拉格朗日乘子，得到：Γ＝I(Y；Xu)-λ(u^Tu-1)/2，两边对u做偏导，即可解得互信息矩阵I的本征值和本征向量；根据本征值的降序排列，可得到对应的本征向量集合，此即为因子的各个主成分转换向量。

进一步的，对于第k个主成分转换向量，定义其主成分贡献率δ_k为：

式中，λ_k为第k个主成分转换向量对应的本征值，n为因子的总数，也是主成分转换向量的总数。

与现有技术相比，本发明所达到的有益效果是：本发明首先通过降噪、归一化和测次对齐对因子序列进行数据预处理，为后续的因子抽取提供可信的样本基础；其次，通过综合最大化因子的方差及变形效应量和因子的相关性抽取因子的主成分向量，而不是单纯的因子主成分分析，使得因子的抽取更为合理；使用基于互信息而非协方差的相关性检验，避免了仅能衡量线性相关的局限性，进一步提高了因子抽取的精度；最后，基于主成分贡献率排序及贡献率总和标准抽取得到最终的因子转换矩阵；为后续大坝安全监测的成因分析和回归预测，提供了更为全面和精密的基础。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实际大坝安全监测中，影响变形效应量Y的环境因子包括很多，如何抽取合理环境因子，对基于统计方法的大坝变形监测分析具有决定性的意义。

本发明的一种大坝变形分析中的因子抽取方法，如图1所示，包含以下步骤：

步骤S1，基于3σ准则对原始因子序列进行降噪，然后对序列中每个因子进行归一化。

因子序列原始样本中的粗差对于后续的统计分析可能会有极大的影响，甚至使得分析失效，例如因子归一化、某些分类和回归算法对于离群点类的粗差比较敏感，因此应首先去除离群点，本实施例中采用3σ准则来过滤离群点。

根据每个因子的原始样本序列，计算出其均值μ和标准差σ，然后遍历序列的每一个原始测值V，如果满足：|V-μ|≥3σ，即判定该值为离群点，予以剔除。

接下来对每个因子进行归一化以去掉量纲。对于某因子的测值序列，进行如下变换：V’＝(V-V_min)/(V_max-V_min)，其中，V’为因子变换后的新测值，V为因子原始测值，V_min为本序列中此因子原始测值中的最小值，V_max为本序列中此因子原始测值中的最大值。

步骤S2，基于时效将变形效应量和各个因子的测值进行测次对齐。

实际大坝安全监测中，变形效应量和各个环境因子难以保证完全同步测量，存在测量时序错位的问题。因此，需对变形效应量和各个因子的测值进行测次对齐。

其具体处理过程为：迭代的遍历变形效应量及每个因子的测值序列，在有效的时间跨度内(本实施例指定为24小时)，寻找到一组变形效应量和各个因子都完整的测值组，且该组的总时间跨度无法再减少，即为一个完整的测次，重复迭代以上操作，直到无法再得到测次为止，这样可以从所有样本中挑选出测次对齐的样本，得到较佳的样本质量。

先通过降噪、归一化和测次对齐对因子序列进行数据预处理，为后续的因子抽取提供可信的样本基础。

现有技术中已知互信息是两个变量间相关性的度量，表示两个变量间共有信息量的程度，不同于协方差，互信息可以衡量各种关系的相关性。两个变量X和Y的互信息I(X；Y)如下：

其中，p(x,y)是X和Y的联合概率分布函数，而p(x)和p(y)分别是X和Y的边缘概率分布函数。

对于因子的主成分转换系数u，应具有如下性质：首选，因子矩阵在主成分上的投影向量Xu，其方差Var(Xu)应最大化；其次，因子矩阵在主成分上的投影向量Xu，应与变形效应量Y具有最大相关性。因此，考虑因子矩阵在主成分上的投影向量Xu、变形效应量Y的协方差Cov(Y,Xu):

其中，变形效应量Y的方差Var(Y)为定值，因此，使得Xu的方差Var(Xu)、Y与Xu的相关性Corr(Y,Xu)同时达到最大的问题，转换为了求解协方差Cov(Y,Xu)最大的问题。协方差计算的是两个变量的线性相关程度。考虑到满足因子和变形效应量Y间非线性相关性挖掘的要求(例如变形效应量可能是水位的幂函数而非线性函数)，本发明使用互信息来表征相关性。非线性的相关性通过协方差是挖掘不出来的，但是互信息可以。

首先，推导出协方差最大就是因子抽取的目标函数，其次，说明互信息代替协方差，这样不但可以挖掘线性相关，同时也能挖掘非线性的各种相关性。所以目标函数形式化表述为：

Maximum:I(Y；Xu)

Subject to:||u||＝1

其中，u为单位向量，表征因子矩阵X主成分的转换系数。

引入拉格朗日乘子，得到：Γ＝I(Y；Xu)-λ(u^Tu-1)/2，两边对u做偏导，变成了I*u＝λu的形式了，即可转为对互信息矩阵I的本征值和本征向量的求解问题。求得的本征向量，就是主成分转换系数u。根据本征值的降序排列，可得到对应的本征向量集合，此即为因子的各个主成分转换向量。

使用基于互信息而非协方差的相关性检验，能更全面的进行因子的抽取和转换；避免了仅能衡量线性相关的局限性，进一步提高了因子抽取的精度，为后续大坝安全监测的成因分析和回归预测，提供了更为全面和精密的基础。

对于第k个主成分转换向量，定义其主成分贡献率δ_k为：

根据λ_k由高到低的顺序，依次累加其对应的δ_k，当总和占全部δ_k总和的98％以上时候，即停止选择，则之前所有入选的λ_k对应的主成分转换向量集合，即为最终的因子抽取的转换矩阵。

本发明首先通过降噪、归一化和测次对齐进行数据预处理，为后续的因子抽取提供可信的样本基础；其次，通过综合最大化因子的方差及变形效应量和因子的相关性抽取因子的主成分向量，而不是单纯的因子主成分分析，使得因子的抽取更为合理；使用基于互信息而非协方差的相关性检验，避免了仅能衡量线性相关的局限性，进一步提高了因子抽取的精度；最后，基于主成分贡献率排序及贡献率总和标准抽取得到最终的因子转换矩阵；为后续大坝安全监测的成因分析和回归预测，提供了更为全面和精密的基础。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种大坝变形分析中的因子抽取方法，其特征是，包括：

2.根据权利要求1所述的一种大坝变形分析中的因子抽取方法，其特征是，根据每个因子的原始样本序列，计算出其均值μ和标准差σ，然后遍历序列的每一个原始测值V，如果满足：|V-μ|≥3σ，即判定该值为离群点，予以剔除。

3.根据权利要求1所述的一种大坝变形分析中的因子抽取方法，其特征是，归一化的公式为：V’＝(V-V_min)/(V_max-V_min)，其中，V’为因子变换后的新测值，V为因子原始测值，V_min为本序列中此因子原始测值中的最小值，V_max为本序列中此因子原始测值中的最大值。

4.根据权利要求1所述的一种大坝变形分析中的因子抽取方法，其特征是，将变形效应量和各个因子的测值进行测次对齐的具体过程为：迭代的遍历变形效应量及每个因子的测值序列，在有效的时间跨度内，寻找到一组变形效应量和各个因子都完整的测值组，且该组的总时间跨度无法再减少；重复迭代以上操作，直到无法再得到测次为止。

5.根据权利要求1所述的一种大坝变形分析中的因子抽取方法，其特征是，使用互信息来表征变形效应量和因子之间相关性，求取主成分的目标函数形式化表述为：

Maximum:I(Y；Xu)

Subject to:||u||＝1

其中，u为单位向量，表征因子矩阵X主成分的转换系数；

引入拉格朗日乘子，得到：Γ＝I(Y；Xu)-λ(u^Tu-1)/2，两边对u做偏导，即可求得互信息矩阵I的本征值和本征向量；根据本征值的降序排列，可得到对应的本征向量集合，此即为因子的各个主成分转换向量。

6.根据权利要求1所述的一种大坝变形分析中的因子抽取方法，其特征是，对于第k个主成分转换向量，定义其主成分贡献率δ_k为：

δ_{k} = \frac{λ_{k}}{Σ_{m = 1}^{n} λ_{m}}