发明内容
本发明提供了基于DE-LOF的混凝土坝奇异值检测方法,解决了现有技术中存在的监测数据大小敏感、局部奇异特征鲁钝、奇异判定标准模糊、奇异检测效率低下问题。
为达到上述目的,本发明所述基于DE-LOF的混凝土坝奇异值检测方法,包括以下步骤:
步骤1、获取原始混凝土坝变形监测数据样本;
步骤2、对原始混凝土坝变形监测数据样本进行差分扩大处理,得到差分扩大变形序列数据样本;
步骤3、计算差分扩大变形序列数据样本中所有数据点的局部异常因子,得到局部异常因子数据序列;
步骤4、根据局部异常因子构建奇异值判定阈值;
步骤5、利用奇异值判定阈值对混凝土坝变形监测奇异值检测。
进一步的,步骤2包括以下步骤:
步骤2.1、对原始混凝土坝变形监测数据样本进行差分扩大处理,通过差分扩大处理得到变形差分时间序列数据样本c:
c=[c1,c2,…,cn-1] (1);
对于其中的任一数据样本cj,计算公式如下:
cj=yi,j+1-yi,j (2);
yi=[yi,1,yi,2,…,yi,n], (3);
yi为混凝土坝体第i个变形测点的n个监测数据组成的混凝土坝变形监测数据样本;
步骤2.2、计算变形差分序列数据样本c的均值μ和标准差σ:
步骤2.3、对经过差分扩大处理的变形差分时间序列数据样本进行标准化及扩大化处理,经标准化和扩大化处理之后的差分扩大变形序列数据样本z为:
z=[z1,z2,…,zn-1] (6)
对于其中的第l个数据样本zl,其计算公式如下:
其中,w为扩大因子。
进一步的,步骤3具体为:
步骤3.1、计算数据点的第k距离邻域;步骤3.2、计算数据点的局部可达距离;步骤3.3、计算数据点的局部可达密度;步骤3.4、根据数据点的第k距离邻域,数据点的局部可达距离和数据点的局部可达密度计算数据点的局部异常因子,所有数据点的局部异常因子组成局部异常因子数据序列。
进一步的,步骤3.1具体为:
对于差分扩大变形序列数据样本中的任一数据点p的第k距离为dk(p),定义为数据样本z中到点p距离最近的第k个点到点p的距离,这k个点组成的第k距离邻域记为Nk(p)。
进一步的,步骤3.2具体为:
定义数据样本z中的任意两个数据点p和点q两者之间的第k可达距离为dk(p,q);
dk(p,q)=max{dk(p),d(p,q)} (8)
其中,点q到点p的第k可达距离dk(p,q)取dk(p)和d(p,q)的最大值,d(p,q)为q到点p的距离,距离点p最近的k个点的可达距离相同。
进一步的,步骤3.3中,计算数据点的局部可达密度ρk(p)计算公式为:
进一步的,步骤3.4中,数据点的局部异常因子的计算公式为:
ρk(q)为数据点p邻域Nk(p)中所有数据点局部可达密度,数据点p的局部异常因子LOFk(p)代表该点的离散程度。
进一步的,步骤4具体为:通过对局部异常因子数据序列的均值进行区间估计,将估计值μlof在置信度为1-α的置信区间上边界值作为正常值和奇异值的判别阈值LOFk,计算正常值和奇异值的判别阈值LOFk;
正常值和奇异值的判别阈值LOFk计算过程如下:
Xlof样本均值μlof的无偏估计为:
Xlof样本标准差σlof的无偏估计为:
为第l个局部异常因子;μ
lof为局部异常因子数据序列均值的无偏估计值;
由于
通过正态分布性质可得
且不依赖任何其他参数,按照标准正态分布的上α分位数的定义得到:
上式中:
为局部异常因子数据序列的计算平均值;P{·}为事件发生的概率;Z
α/2为
的上侧α/2分位数;
得到在显著性水平α下,数据样本置信度为1-α的置信区间为:
选取局部异常因子数据样本均值置信区间上边界作为正常值和奇异值的判别阈值,即:
进一步的,步骤5具体为:以LOFk作为判定标准进行正常值和奇异值的区分,计算每个数据样本的局部异常因子:
如果LOFk(p)>LOFk,则数据点p的局部可达密度小于邻域点局部可达密度,判定数据点p为奇异值;
如果LOFk(p)≤LOFk,则数据点p的局部可达密度接近或大于邻域点局部可达密度,判定数据点p为正常值。
一种计算机设备,包括电连接的存储器和处理器,所述存储器上存储有可在处理器上运行的计算程序,所述处理器执行所述计算程序时,实现上述的方法的步骤。
与现有技术相比,本发明至少具有以下有益的技术效果:
基于DE-LOF的混凝土坝奇异值检测方法,以具有局部奇异特征敏感的局部异常因子方法为基础,融合差分扩大理论,强化了数据样本间的差异特征,提高了其对混凝土坝变形监测数据的适应性,增强了其对混凝土坝变形监测数据中奇异值的敏感度;同时基于表征数据样本局部异常特征的局部异常因子数据序列,借助典型小概率原理构建了科学合理、含义明确的混凝土坝变形监测数据奇异值判定标准。相较于传统的混凝土坝变形监测奇异值检测方法,基于DE-LOF的混凝土坝奇异值检测方法对奇异值敏感度较高,智能挖掘不符合效应量物理力学行为模式的异质性数据,有效地降低了漏检率和误检率,明显地提高了变形监测奇异值检测效率和智能化水平,这既是后续混凝土坝安全性态分析结果真实、可靠的前提,也是构建混凝土坝实时智能监控体系的关键。
具体实施方式
为了使本发明的目的和技术方案更加清晰和便于理解。以下结合附图和实施例,对本发明进行进一步的详细说明,此处所描述的具体实施例仅用于解释本发明,并非用于限定本发明。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
一种基于DE-LOF的混凝土坝奇异值检测方法,针对混凝土坝变形监测数据邻间变幅微小、分布规律复杂、局部奇异特征突出、形成机理复杂的特殊性,引入局部奇异特征敏感的局部异常因子(Local Outlier Factor,LOF),通过对监测数据进行差分扩大(Difference and Expansion,DE)处理以提高LOF方法对数据的适应性和敏感性,同时将典型小概率原理融合到LOF方法中获取科学合理的奇异值判定标准。
本发明基于DE-LOF的混凝土坝奇异值检测方法,具体按照以下步骤进行实施:
步骤1、获取原始混凝土坝变形监测数据样本;
原始混凝土坝变形监测数据样本为Y=[y1,y2,…,yi,…,yN],N为混凝土坝体所有变形测点的个数;
具体为:在水压力、泥沙压力、温度荷载作用下,混凝土坝体第i个变形测点的n个监测数据组成的混凝土坝变形监测数据样本yi为:
yi=[yi,1,yi,2,…,yi,n] (1);
步骤2、对原始混凝土坝变形监测数据样本进行差分扩大处理;
步骤2.1、首先对原始混凝土坝变形监测数据样本进行差分扩大处理,通过差分扩大处理得到变形差分时间序列数据样本c,从而准确描述混凝土坝变形时间序列数据样本的变化特征:
c=[c1,c2,…,cn-1] (2);
对于其中的任一数据样本cj,计算公式如下:
cj=yi,j+1-yi,j (3);
步骤2.2、对于n个变形监测数据样本yi经差分处理之后得到含有n-1个变形差分序列数据样本c,通过计算得到反映序列数据变化趋势的均值μ和反映序列数据变异特征的标准差σ,计算公式如下:
步骤2.3、对经过差分扩大处理的变形差分数据样本进行标准化及扩大化处理,经标准化和扩大化处理之后的差分扩大变形序列数据样本z为:
z=[z1,z2,…,zn-1] (6)
对于其中的第l个数据样本zl,其计算公式如下:
其中,w为扩大因子,其取值为100。
对经过差分标准化处理的变形差分监测序列数据进行扩大处理,克服混凝土坝变形监测奇异值检测中存在的监测数据数值偏小、局部奇异值检测困难、奇异值检测精度低的问题;从而克服局部异常因子方法对于数值较小的数据存在的不敏感缺陷,提高数据样本对局部异常因子方法的灵敏度,准确识别出混凝土坝变形监测数据中的全局奇异值和局部奇异值,有效克服局部异常因子方法检测性能受变形监测数据数值微小影响较大的缺点。
步骤3、计算步骤2得到的差分扩大变形序列数据样本z中所有数据点的关键参数;
步骤3.1、计算数据点的第k距离邻域;
步骤3.1具体为:对于步骤2得到的差分扩大变形序列数据样本z,其中的任一数据点p的第k距离为dk(p),定义为数据样本z中到点p距离最近的第k个点到点p的距离,这k个点组成的第k距离邻域记为Nk(p),选取欧几里得距离进行数据点k距离的度量;
步骤3.2、计算数据点的局部可达距离;
步骤3.2具体为:定义数据样本z中的任意两个数据点p和点q两者之间的第k可达距离为dk(p,q);
dk(p,q)=max{dk(p),d(p,q)} (8)
其中,点q到点p的第k可达距离dk(p,q)取dk(p)和d(p,q)的最大值,d(p,q)为q到点p的距离,距离点p最近的k个点的可达距离相同。
步骤3.3、计算数据点的局部可达密度,具体为:样本数据点p的局部可达密度ρk(p)为点p到邻域内所有数据点的平均局部可达距离的倒数,即:
当邻域边界上存在若干个数据点时,仍按照一个数据点进行计数,即数据点p的第k邻域边界内除p点外共有k-1个数据点,邻域边界上数据点可以有多个;
如果数据点p为正常值,点p和周围大部分数据点距离较近,局部可达距离即取较小的dk(p),可达距离的平均值相应地取较小值,最终求取的局部可达密度就越大;相反,如果数据点p为奇异值,点p和周围大部分数据点距离较远,可达距离即取较大的d(p,q),可达距离的平均值相应地取较大值,最终求取的局部可达密度就越小。
步骤3.4、计算每个数据点的局部异常因子,具体为:定义数据点的局部异常因子为数据点p邻域Nk(p)中所有数据点局部可达密度与数据点p局部可达密度比值的平均值,衡量数据点p相较于周围数据点的离散度,即:
ρk(q)为数据点p邻域Nk(p)中所有数据点局部可达密度,数据点p的局部异常因子LOFk(p)代表该点的离散程度。
所有数据点的局部异常因子组成局部异常因子数据序列。
步骤4、构建奇异值判定阈值;
步骤4具体为:通过对局部异常因子数据序列的均值进行区间估计,将估计值μlof在置信度为1-α的置信区间上边界值作为正常值和奇异值的判别阈值LOFk,获取正常值和奇异值的判别阈值LOFk;
其中,正常值和奇异值的判别阈值LOFk计算过程如下:
基于奇异值在样本中占比较小的假设,局部异常因子数据序列
服从正态分布规律,通过典型小概率理论得出正常值和奇异值的判别阈值LOF
k,具体过程如下:
Xlof样本均值μlof的无偏估计为:
Xlof样本标准差σlof的无偏估计为:
为第l个局部异常因子;μ
lof为局部异常因子数据序列均值的无偏估计值;
由于
通过正态分布性质可得
且不依赖任何其他参数,按照标准正态分布的上α分位数的定义得到:
上式中:
为局部异常因子数据序列的计算平均值;P{·}为事件发生的概率;Z
α/2为
的上侧α/2分位数。
得到在显著性水平α下,数据样本置信度为1-α的置信区间为:
由于局部异常因子均为正值,且其中的奇异值的局部异常因子均大于正常值的局部异常因子,选取局部异常因子数据样本均值置信区间上边界作为正常值和奇异值的判别阈值,即:
步骤5、混凝土坝变形监测奇异值检测;
步骤5具体为:以LOFk作为判定标准进行正常值和奇异值的区分,计算每个数据样本的局部异常因子;
如果LOFk(p)>LOFk,则数据点p的局部可达密度小于邻域点局部可达密度,判定数据点p与周围数据不属于同一类,即为奇异值;
如果LOFk(p)≤LOFk,则数据点p的局部可达密度接近或大于邻域点局部可达密度,定数据点p与周围数据属于同一类,即为正常值;奇异值检测中的局部异常因子判定阈值根据实际分析问题确定以获得较为理想的检测效果。
本发明基于DE-LOF的混凝土坝奇异值检测方法,通过具有n个数据样本的混凝土坝变形监测序列yi经差分扩大处理之后,得到n-1个数据样本的混凝土坝差分扩大变形监测序列z,通过计算所有数据点的第k距离邻域、局部可达距离、局部可达密度、局部异常因子关键参数,通过计算每个样本数据点的局部异常因子,并将其与给定的阈值进行对比,判断该数据是否为奇异值,样本数据点的局部异常因子求解,通过对比分析各测点的离散程度以实现监测数据奇异值检测。
实施例1
本实施例基于DE-LOF的混凝土坝奇异值检测方法,具体按照以下步骤进行实施:
步骤1、获取原始混凝土坝变形监测数据样本;针对某位于福建省汀江干流河段的水电站,枢纽由碾压混凝土重力坝、坝顶开敞式溢洪道、地下发电厂房等建筑物组成。混凝土重力坝最大坝高113.00m,坝顶全长308.50m,坝顶高程179.00m。枢纽工程设置了变形、渗流、应力应变和环境量等较为全面的监测项目,其中变形监测包括正垂线、倒垂线、引张线和视准线等,坝顶水平位移采用引张线法进行监测。本实施例采用坝顶引张线EX3、EX4和EX5测点2008年1月1日~2008年12月31日水平位移监测数据进行奇异值检测分析。
如图1所示,EX3、EX4和EX5测点水平位移过程线,如图2所示,EX4测点水平位移奇异值。为了验证奇异值检测方法的性能,通过专家经验、有限元建模分析、统计模型分析的手段确定变形监测数据中的奇异值,其中既包括仪器故障、测度误差原因引起的粗差值,也包括水位突变、结构加固原因引起的变异值。
步骤2、对混凝土坝变形监测数据进行差分扩大标准化处理;对坝顶引张线EX3、EX4和EX5测点2008年1月1日~2008年12月31日水平位移监测数据进行差分扩大标准化处理。
步骤3、计算数据样本的局部异常因子;以引张线EX3、EX4和EX5测点2008年1月1日~2008年12月31日变形监测数据样本为例,分别计算各数据点的局部异常因子。EX3测点变形数据局部异常因子散点图,如图4所示;EX4测点变形数据局部异常因子散点图,如图3所示;EX5测点变形数据局部异常因子散点图,如图5所示。
步骤4、构建奇异值判定阈值;为了保证采用小概率理论获取的LOFk进行数据样本奇异值检测的准确性,选取置信水平α=0.0023,可认为数据样本落于置信区间具有99.77%的保证率,依据典型小概率原理,即认为监测数据奇异值检测结果真实可靠。通过实验分析可知,计算得到EX4测点变形监测数据局部异常因子序列样本均值无偏估计为1.31,样本方差无偏估计为1.59,置信区间上边界为1.58,因此选取LOFk=1.58作为EX4测点变形监测正常值与奇异值的判别阈值。同理,通过计算可以获取引张线EX3和EX5测点2008年1月1日~2008年12月31日变形监测数据样本各测点的局部异常因子,通过典型小概率原理确定引张线EX3和EX5测点对应的奇异值判定阈值分别为1.47和1.40。
步骤5、混凝土坝变形监测奇异值检测;对于EX4测点的变形监测数据,当数据点的局部异常因子LOFk(p)<1.58时,表明数据点局部异常因子分布集中,偏差较小,各数据点局部可达密度接近,均属于正常值;当数据点的局部异常因子LOFk(p)>1.58时,数据点局部异常因子分布零散,偏差较大,这些数据点局部可达密度与正常值偏差较大,均属于奇异值,基于DE-LOF的混凝土坝EX4测点变形奇异值检测结果,如图3所示。
对于EX3测点的变形监测数据,当数据点的局部异常因子LOFk(p)<1.47时,表明数据点局部异常因子分布集中,偏差较小,各数据点局部可达密度接近,均属于正常值;当数据点的局部异常因子LOFk(p)>1.47时,数据点局部异常因子分布零散,偏差较大,这些数据点局部可达密度与正常值偏差较大,均属于奇异值,基于DE-LOF的混凝土坝EX3测点变形奇异值检测结果,如图4所示。
对于EX5测点的变形监测数据,当数据点的局部异常因子LOFk(p)<1.40时,表明数据点局部异常因子分布集中,偏差较小,各数据点局部可达密度接近,均属于正常值;当数据点的局部异常因子LOFk(p)>1.40时,数据点局部异常因子分布零散,偏差较大,这些数据点局部可达密度与正常值偏差较大,均属于奇异值,基于DE-LOF的混凝土坝EX5测点变形奇异值检测结果,如图5所示。
为了对比各测点和各模型的奇异值检测性能,计算了对应的精准率、召回率和加权评价指标,借此对其进行评价。表1为多测点奇异值检测结果评价指标表。
表1多测点奇异值检测结果评价指标表
以混凝土坝EX3、EX4和EX5测点变形监测数据为基础,通过采用LOF、DE-LOF方法对其分别进行奇异值检测可知:相较于基于LOF的奇异值检测方法,基于DE-LOF的奇异值检测方法在变形监测数据上均表现出了较优的检测性能,奇异值召回率均高于90%,可以有效地检测出数据中存在的奇异值,同时其检测结果加权评价指标均高于80%,其检测性能受检测数据改变影响波动较小,具有较高的普适性和稳定性。
实施例2
本发明提供的一种计算机设备,如图6所示,包括电连接的存储器和处理器,其中,存储器上存储有可在处理器上运行的计算程序,所述处理器执行所述计算程序时,实现上述的基于DE-LOF的混凝土坝奇异值检测方法方法的步骤。
本发明基于DE-LOF的混凝土坝变形监测奇异值检测方法,智能挖掘不符合效应量物理力学行为模式的异质性数据,有效地提高变形监测奇异值检测效率和智能化水平。本发明的敏感性强,对数据样本中的奇异值具有较高的敏感度,有效地检测出其中的奇异值,具有较高的召回率;误判率低,精准率明显高于统计分析法、模型分析法和部分智能分析法,在保证较高召回率的基础上,有效地降低检测误判率,综合检测性能较优;稳定性高,对于不同的混凝土坝变形监测数据均具有良好的适应性,在给定的数据样本中均可以有效地检测出奇异值,具有良好的稳定性。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。