CN117034166A - 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法 - Google Patents

一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法 Download PDF

Info

Publication number
CN117034166A
CN117034166A CN202310884115.0A CN202310884115A CN117034166A CN 117034166 A CN117034166 A CN 117034166A CN 202310884115 A CN202310884115 A CN 202310884115A CN 117034166 A CN117034166 A CN 117034166A
Authority
CN
China
Prior art keywords
data
value
robust
factors
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310884115.0A
Other languages
English (en)
Inventor
张瀚
宋崇能
李艳玲
陈建康
裴亮
吴震宇
周靖人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310884115.0A priority Critical patent/CN117034166A/zh
Publication of CN117034166A publication Critical patent/CN117034166A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,该算法引入AR因子避免传统模型无法模拟随机变量的缺陷,采用极值和稳健估计对效应量进行清洗避免计算杠杆效应,通过改进M稳健首轮残差计算模式以及优化权重分配函数避免极大测值造成模型崩溃问题,采用残差四分位差、离散四分位差、测量精度三值中的最大值作为异常识标准改进评判标准不合理问题,根据测值的变化规律修订评判阈值,避免单一标准造成评判不合理问题。采用C#语言编制,通过Windows Communication Foundation(WCF)模式与现有监测信息管理系统无缝对接,同时利用多线程技术实现按电站、测点类型的并行计算,以及根据测值特征选择最高效评判方法来提高算法的识别效率。

Description

一种自适应不同离异因子的稳健大坝监测异常数据在线识别 方法
技术领域
本发明涉及大坝安全监控技术领域,具体涉及一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法。
背景技术
大坝运行安全关系着电站自身效益和下游流域的安全,掌握大坝性态安全是事关国民安全的大事。监测数据是掌握大坝安全的重要途径,为此在大坝枢纽和近库岸会埋设大量监测仪器。然而,由于仪器不稳定或信号干扰等原因,测值中不可避免会存在异常值,异常值会污染数据规律,导致分析结论的偏离,因此异常值审核是大坝安全管理中的首要工作。常见异常识别方法的有依拉特准则(又叫3准则)、统计回归残差法、稳健回归残差法等,这些方法来源实验数据的统计,然而由于大坝安全监测数据类型多,影响因子不同,测点异常情况众多,常见方法考虑模型因子单一,泛化能力低,同时未考虑极端异常值导致的杠杆效应、极大测值崩溃、标准过严等问题,无法适应大坝安全监测多类型数据而导致误判漏判率高、识别效率低等问题尚未有效解决,更谈不上模型自适应的监测数据高效精准识别问题。因此,开展大坝安全监测异常数据智能辨识方法研究,对提高大坝安全监测数据的可靠性、保障大坝运行安全以及丰富和发展大坝安全监测数据处理技术,具有重要的理论与现实意义。
发明内容
针对上述问题,本发明提供一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法。
本发明采用下述的技术方案:
一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,包括以下步骤:
步骤1:采集监测测点新源数据入大坝监测库,测值状态项VALUE_STATUS标记为0,代表数据未进行审核;
步骤2:评判步骤1所述新入库数据是否超量程,超量程数据为错误数据,VALUE_STATUS标记为4,未超量程数据进行后续异常分析;
步骤3:通过大坝监测库测点历史序列数据计算标准差sigma:
当sigma<0.01,该测点为平稳性变化数据,直接进入异常标准评判;
当sigma0.01≥0.01,该测点为非平稳性变化数据;
步骤4:对非平稳性变化数据,根据测点类型INSTRID匹配数学模型,引入时间序列模型因子,时间序列模型因子包括环境因子、时间因子以及随机误差因子,并对环境因子和测值进行识别和修正;
步骤5:对步骤4所述测值存在修正的数据进行进行稳健迭代运算,迭代直到稳定进入异常评判;
步骤6:异常评判标准采用残差四分位差、离散四分位差、测量精度三值中的最大值,识别为正常值VALUE_STATUS=1,异常值VALUE_STATUS=2;
步骤7:工程人员审核异常值,当审核正确:
VALUE_STATUS=1,VALUE_CHECK_BY_USE=1。
进一步的,所述步骤4中环境因子根据测点类型选择自动匹配水位因子、温度因子、降雨因子。
进一步的,所述步骤4中随机误差因子:
式中:为监测序列数据,排序按日期顺序排序。
进一步的,所述步骤4中对环境因子和测值进行识别和修正的具体方法如下:
采用极值法识别并修正环境因子:
其中Emin、Emax为最小值和最大值;
采用稳健评估对测值进行识别修正,修正测值为w(ui)y(ti),w(ui)为采用huber函数计算出的权重系数。
进一步的,所述步骤5的具体步骤如下:
步骤51:通过一般最小二乘回归(OLS)求出初始系数β0=(XTX)-1XTY,系数为X为根据环境量和时间序列建立的效应量矩阵;
步骤52:由β0求出预测值获得初始残差
步骤53:由于OLS获得不具备尺度同变性,为此引入稳健尺度估计S使残差标准化,常定义S=MAD/0.6745,MAD是中位绝对离差,计算式为Eq:
MAD=median|yi-M|(其中M是中位数)
残差标准化c取1.345;
步骤54:选择改进权函数,根据初始/>求得预备权数wi(ui);
步骤55:再利用β1=(XTWX)-1XTWy,求得新的
重读:52-55,直到β稳定。
进一步的,所述步骤6中异常评判标准的具体步骤如下:
获取测值得日波动序列Δy(ti):
计算日波动四分位间距,为了尺度统一,同前取IQR(f)/1.3490为标准;
根据评判数据距上一个数据间隔天数计算y(ti)评判准则,计算式为
最后选三者最大值作为评判标准C:
c=max(IQR(σ),IQR(f),d)。
进一步的,在进行步骤6中审核异常值之前还需对审核值进行评判,评判的具体方法如下:
根据进行异常值评判,D为99.7%置信水平下的预测值置信区间自适应半径,
其中ω0为权重函数,同稳健回归均函数;评c价尺度,tα/2为正态分布在1-α置信水平下对应概率的分位点,根据正态分布在三个标准差范围内的概率选取置信水平为99.7%;X为由水位、降雨、温度、时效等构成的历史环境量变量矩阵;X0为实时环境量矩阵;W为等价权矩阵。
本发明的有益效果是:
根据测点类型自适应训勇合理的环境影响及AR因子,该算法引入AR因子避免传统模型无法模拟随机变量的缺陷,采用极值和稳健估计对效应量进行清洗避免计算杠杆效应,通过改进M稳健首轮残差计算模式以及优化权重分配函数避免极大测值造成模型崩溃问题,采用残差四分位差、离散四分位差、测量精度三值中的最大值作为异常识标准改进评判标准不合理问题,根据测值的变化规律修订评判阈值,避免单一标准造成评判不合理问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1为本发明流程示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明进一步说明。
如图1所示,一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,包括以下步骤:
步骤1:采集监测测点新源数据入大坝监测库,测值状态项VALUE_STATUS标记为0,代表数据未进行审核;
步骤2:评判步骤1所述新入库数据是否超量程,超量程数据为错误数据,VALUE_STATUS标记为4,未超量程数据进行后续异常分析;
步骤3:通过大坝检测库测点历史序列数据计算标准差sigma:
其中历史数据代表数据库已有的数据,步骤1采集的数据为新源数据,当评判为正确后,下次使用时就是历史数据,历史数据会随着时间不断增多。
当sigma<0.01,该测点为平稳性变化数据,直接进入异常标准评判;
当sigma0.01≥0.01,该测点为非平稳性变化数据。
步骤4:对非平稳性变化数据,根据测点类型INSTRID匹配数学模型,引入时间序列模型因子(AR因子),时间序列模型因子包括环境因子、时间因子以及随机误差因子,并对环境因子和测值进行识别和修正;
其中数学模型包括应力模型、变形模型、渗透压力模型、渗流模型;
所述步骤4中AR因子包括环境因子、时间因子以及随机误差因子;
随机误差因子:
式中:为监测序列数据,排序按日期顺序排序。
p称为阶数,确定阶数可以由自相关系ACFt和偏自相关系数PACFt确定,当ACF拖尾,PACF截位时,模型阶数PACF截位值由确定,其中自相关系数和偏自相关系数表示如下:
环境因子根据测点类型选择自动匹配最合适的水位因子、温度因子、降雨因子,时效根据测点类型、变化规律匹配选择时效因子。
其中:ha--基岩高程;hu--监测日上游水位;hd--监测日下游水位;t--监测日至起测日累计天数;θ--为监测日至起测日累计天数除以100;Hui、Hdi--监测日当天、监测日前1~4天、前5~10天、前11~20天、前21~30天的平均上游水位和平均下游水位(i=1~5);Hu0i、Hd0i--初始监测日上述各时段对应的上下游水位平均值(i=1~5);Pi--监测日当天降雨量、监测日前1天降雨量、监测日前2天降雨量、监测日前3、4两天降雨量均值、监测日前5~15天降雨量均值、监测日前16~30天的平均降雨量(i=1~6);WL(ti)(i=1,2L8)--分别表示渗流观测日前1、2、5、10、15、20、25、30天各时段的平均降雨量。
当建模效应量中存在异常,将会产生杠杆效应,造成模型的偏差,为此计算前对作为效应量的中环境量Ej(ti)和测值y(ti)进行识别和修正。
因此对环境因子和测值进行识别和修正的具体方法如下:
采用极值法识别并修正环境因子:
其中Emin、Emax为最小值和最大值;
采用稳健评估对于测值进行识别修正,修正测值为w(ui)y(ti),w(ui)为采用huber函数计算出的权重系数。
还需要对修正效应量和测值采用OLS计算系数β0以及复相关系数R,当R>0.8且IsCorrection为true,说明OLS回归模型效果良好,直接进入异常值评价。
步骤5:对步骤4所述测值存在修正的数据进行进行稳健迭代运算,迭代直到稳定进入异常评判。
所述步骤5的具体步骤如下:
步骤51:通过一般最小二乘回归(OLS)求出初始系数β0=(XTX)-1XTY,系数为X为根据环境量和时间序列建立的效应量矩阵;
步骤52:由β0求出预测值获得初始残差
步骤53:由于OLS获得不具备尺度同变性,为此引入稳健尺度估计S使残差标准化,常定义S=MAD/0.6745,MAD是中位绝对离差,计算式为Eq.:
MAD=median|yi-M|(其中M是中位数)
残差标准化c取1.345;
步骤54:选择改进权函数,根据初始/>求得预备权数wi(ui);
步骤55:再利用β1=(XTWX)-1XTWy,求得新的
重读:52-55,直到β稳定。
步骤6:异常评判,标准采用残差四分位差、离散四分位差、测量精度三值中的最大值,识别为正常值VALUE_STATUS=1,异常值VALUE_STATUS=2。其中异常评判标准的具体步骤如下:
获取测值得日波动序列Δy(ti):
计算日波动四分位间距,为了尺度统一,同前取IQR(f)/1.3490为标准;
根据评判数据距上一个数据间隔天数计算y(ti)评判准则,计算式为
最后选三者最大值作为评判标准C:
c=max(IQR(σ),IQR(f),d)。
因为实测值y(ti)与拟合值之差则由较大的误差σt(ti)(系统误差,随机误差、粗差等)和服从标准正态分布的白噪音σv(ti)组成,σt(ti)+σv(ti)称之为剩余误差,因此模型建立之后仅需对剩余误差进行判别,即可识别异常测值,其中,剩余误差可以表示为:
步骤7:工程人员审核异常值,当审核正确:
VALUE_STATUS=1,VALUE_CHECK_BY_USE=1。
在进行步骤6中审核异常值之前还需对审核值进行评判,评判的具体方法如下:
根据进行异常值评判,D为99.7%置信水平下的预测值置信区间自适应半径,
其中ω0为权重函数,同稳健回归均函数;评c价尺度,tα/2为正态分布在1-α置信水平下对应概率的分位点,根据正态分布在三个标准差范围内的概率选取置信水平为99.7%;X为由水位、降雨、温度、时效等构成的历史环境量变量矩阵;X0为实时环境量矩阵;W为等价权矩阵。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (7)

1.一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,包括如下步骤:
步骤1:采集监测测点新源数据入大坝监测库,测值状态项VALUE_STATUS标记为0,代表数据未进行审核;
步骤2:评判步骤1所述新入库数据是否超量程,超量程数据为错误数据,VALUE_STATUS标记为4,未超量程数据进行后续异常分析;
步骤3:通过大坝监测库测点历史序列数据计算标准差sigma:
当sigma<0.01,该测点为平稳性变化数据,直接进入异常标准评判;
当sigma0.01≥0.01,该测点为非平稳性变化数据;
步骤4:对非平稳性变化数据,根据测点类型INSTRID匹配数学模型,引入时间序列模型因子,时间序列模型因子包括环境因子、时间因子以及随机误差因子,并对环境因子和测值进行识别和修正;
步骤5:对步骤4所述测值存在修正的数据进行进行稳健迭代运算,迭代直到稳定进入异常评判;
步骤6:异常评判,标准采用残差四分位差、离散四分位差、测量精度三值中的最大值,识别为正常值VALUE_STATUS=1,异常值VALUE_STATUS=2;
步骤7:工程人员审核异常值,当审核正确:
VALUE_STATUS=1,VALUE_CHECK_BY_USE=1。
2.根据权利要求1所述一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,所述步骤4中环境因子根据测点类型选择自动匹配水位因子、温度因子、降雨因子。
3.根据权利要求1所述一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,所述步骤4中
随机误差因子:
式中:为监测序列数据,排序按日期顺序排序。
4.根据权利要求1所述一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,所述步骤4中对环境因子和测值进行识别和修正的具体方法如下:
采用极值法识别并修正环境因子:
其中Emin、Emax为最小值和最大值;
采用稳健评估对测值进行识别修正,修正测值为w(ui)y(ti),w(ui)为采用huber函数计算出的权重系数。
5.根据权利要求1所述一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,所述步骤5的具体步骤如下:
步骤51:通过一般最小二乘回归(OLS)求出初始系数β0=(XTX)-1XTY,系数为X为根据环境量和时间序列建立的效应量矩阵;
步骤52:由β0求出预测值获得初始残差
步骤53:由于OLS获得不具备尺度同变性,为此引入稳健尺度估计S使残差标准化,常定义S=MAD/0.6745,MAD是中位绝对离差,计算式为Eq:
MAD=median|yi-M|(其中M是中位数)
残差标准化c取1.345;
步骤54:选择改进权函数,根据初始/>求得预备权数wi(ui);
步骤55:再利用β1=(XTWX)-1XTWy,求得新的
重读:52-55,直到β稳定。
6.根据权利要求1所述一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,所述步骤6中异常评判标准的具体步骤如下:获取测值得日波动序列Δy(ti):
计算日波动四分位间距,为了尺度统一,同前取IQR(f)/1.3490为标准;
根据评判数据距上一个数据间隔天数计算y(ti)评判准则,计算式为
最后选三者最大值作为评判标准C:
c=max(IQR(σ),IQR(f),d)。
7.根据权利要求1所述一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法,其特征在于,在进行步骤6中审核异常值之前还需对审核值进行评判,评判的具体方法如下:
根据进行异常值评判,D为99.7%置信水平下的预测值置信区间自适应半径,
其中ω0为权重函数,同稳健回归均函数;评c价尺度,tα/2为正态分布在1-α置信水平下对应概率的分位点,根据正态分布在三个标准差范围内的概率选取置信水平为99.7%;X为由水位、降雨、温度、时效等构成的历史环境量变量矩阵;X0为实时环境量矩阵;W为等价权矩阵。
CN202310884115.0A 2023-07-18 2023-07-18 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法 Pending CN117034166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310884115.0A CN117034166A (zh) 2023-07-18 2023-07-18 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310884115.0A CN117034166A (zh) 2023-07-18 2023-07-18 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法

Publications (1)

Publication Number Publication Date
CN117034166A true CN117034166A (zh) 2023-11-10

Family

ID=88621704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310884115.0A Pending CN117034166A (zh) 2023-07-18 2023-07-18 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法

Country Status (1)

Country Link
CN (1) CN117034166A (zh)

Similar Documents

Publication Publication Date Title
CN112232447B (zh) 一种电力设备状态监测数据的完整样本集的构建方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN108319649B (zh) 一种提高水情水调数据质量的系统和方法
CN109085805B (zh) 一种基于多采样率因子分析模型的工业过程故障检测方法
CN112598172A (zh) 一种风电机组轴承温度预警方法
CN115993856B (zh) 一种厂房多区域环境条件管控方法及系统
CN115062272A (zh) 一种水质监测数据异常识别及预警方法
CN116073436B (zh) 一种光伏新能源电力系统容量优化控制方法
CN111680398B (zh) 一种基于Holt-Winters模型的单机性能退化预测方法
CN113760880A (zh) 一种水质自动监测数据的预处理方法
CN111861206A (zh) 一种基于企业电力大数据的工业行业景气指数获取方法
CN116502160A (zh) 一种电量数据自动采集系统
CN110852906B (zh) 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统
CN117029968A (zh) 一种流量数据的诊断方法、系统、存储介质和电子设备
CN113095579B (zh) 一种耦合伯努利-伽马-高斯分布的日尺度降水预报校正方法
CN116503025B (zh) 一种基于工作流引擎的业务工单流程处理方法
CN117034166A (zh) 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法
CN113836813B (zh) 一种基于数据分析的高炉风口漏水检测方法
CN114861810A (zh) 煤气化装置工艺诊断方法及系统
CN113986892A (zh) 一种火电机组煤耗预测、数据清洗方法及系统
CN114493234A (zh) 一种供水管网关键压力控制点的识别方法
CN110175705B (zh) 一种负荷预测方法及包含该方法的存储器、系统
CN112015778A (zh) 一种水指纹预测算法
CN114819743B (zh) 一种化工企业能耗诊断分析方法
CN117670000B (zh) 基于组合预测模型的泵站供水量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination