CN110197211A - 一种面向大坝安全监测数据的相似性数据聚类方法 - Google Patents

一种面向大坝安全监测数据的相似性数据聚类方法 Download PDF

Info

Publication number
CN110197211A
CN110197211A CN201910414107.3A CN201910414107A CN110197211A CN 110197211 A CN110197211 A CN 110197211A CN 201910414107 A CN201910414107 A CN 201910414107A CN 110197211 A CN110197211 A CN 110197211A
Authority
CN
China
Prior art keywords
sub
sequence
data
distance
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910414107.3A
Other languages
English (en)
Inventor
毛莺池
钱俊
卢吉
王龙宝
曹海
唐清弟
曹学兴
杨念东
蒋金磊
平萍
谭彬
张浩江
梁国峰
段云超
孙建英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Group Technology Innovation Center Co Ltd, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN201910414107.3A priority Critical patent/CN110197211A/zh
Publication of CN110197211A publication Critical patent/CN110197211A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向大坝安全监测数据的相似性数据聚类方法,步骤为:利用EMD算法分离单测点序列趋势项与高频噪声,采用累积和控制图的拐点检测方法对时间序列变化点进行检测,分裂得到所有子序列集合;在计算子序列距离问题上采用DTW距离度量方法,动态计算两条子序列数据之间的距离最小值;利用层次聚类将挖掘出的子时间序列聚类,通过得到的树状聚类图,动态分析不同聚类数下的时间序列聚类分布情况。本发明合理分析监测数据相似性,可以挖掘出同一监测点在时间序列上的相关性,同时能量化安全监测数据之间相关性大小。经相似性分析处理后的监测数据,能准确反映大坝在时间维度上的变化趋势,结合变化趋势规律能有效降低后续监测数据挖掘难度。

Description

一种面向大坝安全监测数据的相似性数据聚类方法
技术领域
本发明属于大坝安全监测时空序列预测技术领域,特别涉及一种面向大坝安全监测数据的相似性数据聚类方法。
背景技术
大坝安全监测数据是大坝运行状态的整体表现,在受相同或相似外界因素影响下,其各区域之间数据必定存在相关性,这种相关性主要表现在时间序列趋势变化相似或空间趋势变化相似上。如大坝顺河向位移与各个坝段压力应变存在相似变化趋势,大坝中各区域温度与应压力之间的存在相关性等。合理分析监测数据相似性,通过相似性分析不仅可以挖掘出哪些监测变量之间具有相关性,同时能量化安全监测数据之间相关性大小。经相似性分析处理后的监测数据,能准确反映大坝在时间与空间维度上的变化趋势,结合变化趋势规律能有效降低后续监测数据挖掘难度。
针对大坝安全监测中存在的大量时间序列数据,对序列的相似性分析能挖掘出其潜在的规律对后续研究提供可靠依据。在序列长度研究方面,根据序列长度是否一致,将序列相似性度量分为锁步距离与动态距离,分析锁步距离计算简单复杂度不高但可扩展性低,动态距离计算复杂但扩展性强。基于不同时间序列相似性度量方法的特点,序列相似性度量被广泛应用在经济、医学、交通等领域用来解决序列间的相似性计算、数据补全等问题。在医学领域,对医学上的心电图、脑电图、肌电图等时间序列进行相似性分析,提取不同类型序列变化模板,在未知疾病类型的情况下对疾病或症状进行分类。上述介绍通过序列整体分析相似性,即在判断两条序列相似考虑从一条序列变化为另一条序列整体最小代价。
发明内容
发明目的:为了克服现有技术中传统结构力学模型对数据处理单一,且受限于技术人员的工程认知和专业知识水平,监测异常甄别的质量和效率偏低的问题,本发明提供一种面向大坝安全监测数据的相似性数据聚类方法,合理分析监测数据相似性,不仅可以挖掘出哪些监测变量之间具有相关性,同时能量化安全监测数据之间相关性大小;经相似性分析处理后的监测数据,能准确反映大坝在时间维度上的变化趋势,结合变化趋势规律能有效降低后续监测数据挖掘难度。
技术方案:为实现上述目的,本发明提供一种面向大坝安全监测数据的相似性数据聚类方法,包括如下步骤:
(1)在对一整条长时间序列进行处理前,采用自相关性检验方法分析该序列是否适合子序列挖掘;为保证数据平滑,采用EMD算法处理数据依据数据自身的时间尺度特征来进行信号分解。
(2)在时间序列当中任意一点xt,能够利用其相邻的两个序列时间点xt-1,xt+1表示其瞬间序列变化趋势。累积和(Cumulative Sum,CUSUM)控制图的拐点检测方法多用于数据中突变点即序列变化点检测,通过持续分裂,最终得到所有子序列集合。
(3)对时间序列形态挖掘过程当中,距离衡量方法决定了挖掘聚类效果。采用DTW方法计算子序列间的距离,解决了大坝子序列间长度不相等和数据伸缩变形无法比较的问题,对连续数据漂移、伸缩、平移问题都具有很好的适应性。
所述利用自相关性检验方法和EMD方法对数据处理的具体步骤如下:
(1.1)时间序列自相关性检验:长度为n的时间序列数据S={x1,x2,...,xt},subi={xi,...,xi+k}为i到i+k连续时间范围内的观测序列,subj={xj,.....,xj+l}为j到j+l连续时间范围的观测序列。其中1≤i<i+k≤n,1≤j<j+l≤n,i≠j,k>0,l>0。若存在函数A,当A(subi)≈A(subj)则有subi与subi为一组自相似对,记作I=<subi,subj>。;
(1.2)自相关性方法分析序列自相关性:自相关性方法(Auto CorrelationFunction ACF)在时间序列分析时,被用来分析同一条序列中的滞后自相关性规律:
E代表期望,k表示滞后的时间戳,σ代表数据标准差,S(t)表示序列中t时刻监测值,S(t+k)表示在t+k时刻的时间序列监测值,μtt+k表示同一条时间序列中在t,t+k时刻的期望值;
(1.3)EMD模态分解:EMD处理数据依据数据自身的时间尺度特征来进行信号分解,即局部平稳化,而无须预先设定基函数,将含有噪声的信号分解为一组变化单一的本征模函数(IMF Intrinsic Mode Function),且IMF须满足以下两个性质:函数在整个时间范围内,局部极值点和过零点的数目必须相等,或最多相差一个;在任意时刻,局部最大值的包络(上包络线)和局部最小值的包络(下包络线)平均必须为零;
(1.4)计算均值包络线:
(1.5)计算剩余项:h1(t)=r1(t)-m1(t),r1(t)为原始序列S(t),e+(t)为r1(t)的上包络线,e-(t)为r1(t)下包络线,m1(t)表示r1(t)序列的均值包络线;
(1.6)若h1(t)满足上述IMF两个条件,则h1(t)为原数据的第一个本征函数记作c1(t)=h1(t)并令r1(t)剩余项r2(t)=r1(t)-c1(t)继续寻找下一个IMF,若h1(t)不满足条件,则h2(t)=h1(t)-m1(t)不断计算剩余项的上下包络线,减去上下包络线平均值,直到所有数据满足上述条件为止。最终得到原始时间序列n个本征函数ci(t)与趋势项rn(t);
(1.7)根据IMF序列的特征频率变化区间,序列分割时能够依据频率范围选择指定误差范围内的IMF组合最终达到CUSUM分裂所要求的平滑数据。
所述内容利用累积和控制图的拐点检测方法分裂整条序列数据的具体步骤如下:
(2.1)求序列均值;
(2.2)设定累积和初值为0,计算各点累积和;
(2.3)求得该序列数据最大累积和:
split_point=max(abs(B(i)))
B(i)函数表示每个时间点累积和结果,xi为时间点i值,∑xi/n为整个序列的平均值。式中split_point表示累积和序列中绝对值最大值点,通过得到绝对最大值下标,找出原始序列变化的累积最大点,对于大坝监测点顺河向位移数据中突变点也正表示序列模式转换点;
(2.4)迭代分割:基于已求得的拐点,将序列分割为两段,各段序列继续采用如上步骤找出累积和最大的拐点,进行迭代分割,直至分割序列长度均小于设定的最短序列,最终得到所有子序列集合。
所述内容采用标准化DTW算法计算子序列间距离;层次聚类将子序列进行聚类的具体步骤如下:
(3.1)计算两个子序列间的距离:对于两个子序列sub1,sub2,长度分别为l1,l2,两者DTW距离计算:
D(i,j)=d(xi,xj)+min{D(i-1,j),D(i,j-1),D(i-1,j-1)}
D(i,j)表示在以l1,l2构造的l1xl2大小矩阵中下标为i,j位置的最大相似度。d(xi,xj)为xi,xj两点之间欧式距离。DTW计算过程中,在所有路径中找出最优路径使得两条时间序列数据之间距离最小;
(3.2)对距离进行标准化处理:DTW序列相似性衡量结果仅能够表示两条序列间转化所需要的最小距离。当有多条序列距离比较时会出现无法比较的情况,因此对聚类中多个子序列之间距离Ddtw大小进行标准化处理:
Ddtw(subi,subj)为动态时间弯曲距离,max(len(subi),len(subj))为两条子序列中较长序列长度。由DTW计算过程知Ddtw(subi,subj)为对齐两条序列所花费的最小整体代价。Ddtw(subi,subj)包含两条序列的长度因素,直接使用Ddtw作为聚类依据缺乏合理性。利用Ddtw(subi,subj)除以max(len(subi),len(subj))保证所有Ddtw(subi,subj)距离为均值,因此使用作为聚类判别标准;
(3.3)计算相似度距离矩阵:由于DTW距离满足对称性,因此关于SIM计算矩阵同样属于对称矩阵,计算过程中仅考虑计算矩阵上三角矩阵或下三角矩阵;
(3.4)利用距离矩阵进行聚类:聚类过程中利用SIM矩阵不断计算两个聚类之间最小平均距离,当两个聚类属于最小距离时则合并两聚类形成较大的聚类,最终将所有序列归并到同一聚类中。
有益效果:本发明与现有技术相比具有以下优点:
1.EMD算法将原本含有噪声及趋势的序列被分解为各个本征函数以及趋势序列,根据IMF序列的特征频率变化区间,序列分割时能够依据频率范围选择指定误差范围内的IMF组合,最终达到CUSUM分裂所要求的平滑数据,去除了原始数据中趋势项与高频噪声。
2.累积和(Cumulative Sum,CUSUM)控制图的拐点检测方法通过持续分裂,最终得到所有子序列集合,解决了长序列的分割问题,以便进行后续子序列的层次聚类。
3.采用DTW方法计算子序列间的距离,解决了大坝子序列间长度不相等和数据伸缩变形无法比较的问题,对连续数据漂移、伸缩、平移问题都具有很好的适应性。
附图说明
图1为具体实施例中子序列挖掘实例数据图;
图2为具体实施例中子序列挖掘总体思路图;
图3为具体实施例中累积和控制图拐点检测法分割序列示意图;
图4为具体实施例中监测序列自相关性检验图;
图5为具体实施例中EMD算法降噪分解示意图;
图6为具体实施例中监测序列层次聚类分析示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
已知有1200高程29坝段中某测点顺河向位移监测数据。数据时间跨度为2012-01-01至2018-08-01共10158条监测值。此时间段内数据依据工程经验被先验分割标注为泄洪期、枯水期、蓄水期等10类序列段,如图1所示序列。
图2给出了本发明提供的面向大坝安全监测数据的相似性数据聚类方法的总体思路,它介绍本发明的主要工作流程,具体实施如下:
(1)在对一整条长时间序列进行处理前,采用自相关性检验方法分析该序列是否适合子序列挖掘;为保证数据平滑,采用EMD算法处理数据依据数据自身的时间尺度特征来进行信号分解,即局部平稳化,而无须预先设定基函数。
(1.1)时间序列自相关性检验:长度为n的时间序列数据S={x1,x2,…,xt},subi={xi,…,xi+k}为i到i+k连续时间范围内的观测序列,subj={xj,…..,xj+l}为j到j+l连续时间范围的观测序列。其中1≤i<i+k≤n,1≤j<j+l≤n,i≠j,k>0,l>0。若存在函数A,当A(subi)≈A(subj)则有subi与subi为一组自相似对,记作I=<subi,subj>。;
(1.2)自相关性方法分析序列自相关性:自相关性方法(Auto CorrelationFunction ACF)在时间序列分析时,被用来分析同一条序列中的滞后自相关性规律:
E代表期望,k表示滞后的时间戳,σ代表数据标准差,S(t)表示序列中t时刻监测值,S(t+k)表示在t+k时刻的时间序列监测值,μtt+k表示同一条时间序列中在t,t+k时刻的期望值,相关性检验结果如图4所示,对于t时刻大坝顺河向位移值与滞后500、900、2400的顺河向位移值相关性最大,但随着时间的推移,顺河向位移自相关性在时间序列上逐渐降低;
(1.3)EMD模态分解:EMD处理数据依据数据自身的时间尺度特征来进行信号分解,即局部平稳化,而无须预先设定基函数,将性能不好的信号分解为一组性能较好的本征模函数(IMFIntrinsic Mode Function),且IMF须满足以下两个性质:函数在整个时间范围内,局部极值点和过零点的数目必须相等,或最多相差一个;在任意时刻,局部最大值的包络(上包络线)和局部最小值的包络(下包络线)平均必须为零;
(1.4)计算均值包络线:
(1.5)计算剩余项:h1(t)=r1(t)-m1(t),r1(t)为原始序列S(t),e+(t)为r1(t)的上包络线,e-(t)为r1(t)下包络线,m1(t)表示r1(t)序列的均值包络线;
(1.6)若h1(t)满足上述IMF两个条件,则h1(t)为原数据的第一个本征函数记作c1(t)=h1(t)并令r1(t)剩余项r2(t)=r1(t)-c1(t)继续寻找下一个IMF,若h1(t)不满足条件,则h2(t)=h1(t)-m1(t)不断计算剩余项的上下包络线,减去上下包络线平均值,直到所有数据满足上述条件为止。最终得到原始时间序列n个本征函数ci(t)与趋势项rn(t);
(1.7)EMD分解C4-A29-IP-01顺河向位移分解结果如图5所示,原本含有噪声及趋势的序列被分解为各个本征函数以及趋势序列。根据IMF序列的特征频率变化区间,序列分割时能够依据频率范围选择指定误差范围内的IMF组合最终达到CUSUM分裂所要求的平滑数据。
(2)在时间序列当中任意一点xt,能够利用其相邻的两个序列时间点xt-1,xt+1表示其瞬间序列变化趋势。累积和(Cumulative Sum,CUSUM)控制图的拐点检测方法多用于数据中突变点即序列变化点检测,通过持续分裂,最终得到所有子序列集合。
(2.1)求序列均值;
(2.2)设定累积和初值为0,计算各点累积和;
(2.3)求得该序列数据最大累积和:
split_point=max(abs(B(i)))
B(i)函数表示每个时间点累积和结果,xi为时间点i值,∑xi/n为整个序列的平均值。式(3-2)中split_point表示累积和序列中绝对值最大值点,通过得到绝对最大值下标,找出原始序列变化的累积最大点,对于大坝监测点顺河向位移数据中突变点也正表示序列模式转换点,如图3所示,C4-A29-IP-01监测点顺河向位移首次计算累积和得出的分裂点split_point过程;
(2.4)迭代分割:通过图3累积求和得出原始数据在时间点6480位置,累积和整体趋势发生变化,因此第一次时间序列分裂点在t=6480。由t=6480位置将原始顺河向位移数据分割成两条子序列sub1,sub2,设置子序列最小长度阈值为lmin,若sub1或sub2子序列长度大于阈值lmin且累积和存在极值点则继续分裂,最终得到所有子序列集合。
(3)对时间序列形态挖掘过程当中,距离衡量方法决定了挖掘聚类效果。采用DTW方法计算子序列间的距离,解决了大坝子序列间长度不相等和数据伸缩变形无法比较的问题,对连续数据漂移、伸缩、平移问题都具有很好的适应性。
(3.1)计算两个子序列间的距离:对于两个子序列sub1,sub2,长度分别为l1,l2,两者DTW距离计算:
D(i,j)=d(xi,xj)+min{D(i-1,j),D(i,j-1),D(i-1,j-1)}
D(i,j)表示在以l1,l2构造的l1xl2大小矩阵中下标为i,j位置的最大相似度。d(xi,xj)为xi,xj两点之间欧式距离。DTW计算过程中,在所有路径中找出最优路径使得两条时间序列数据之间距离最小;
(3.2)对距离进行标准化处理:DTW序列相似性衡量结果仅能够表示两条序列间转化所需要的最小距离。当有多条序列距离比较时会出现无法比较的情况,因此对聚类中多个子序列之间距离Ddtw大小进行标准化处理:
Ddtw(subi,subj)为动态时间弯曲距离,max(len(subi),len(subj))为两条子序列中较长序列长度。由DTW计算过程知Ddtw(subi,subj)为对齐两条序列所花费的最小整体代价。Ddtw(subi,subj)包含两条序列的长度因素,直接使用Ddtw作为聚类依据缺乏合理性。利用Ddtw(subi,subj)除以max(len(subi),len(subj))保证所有Ddtw(subi,subj)距离为均值,因此使用作为聚类判别标准;
(3.3)计算相似度距离矩阵:由于DTW距离满足对称性,因此关于SIM计算矩阵同样属于对称矩阵,计算过程中仅考虑计算矩阵上三角矩阵或下三角矩阵;
(3.4)利用距离矩阵进行聚类:聚类过程中利用SIM矩阵不断计算两个聚类之间最小平均距离,当两个聚类属于最小距离时则合并两聚类形成较大的聚类,最终将所有序列归并到同一聚类中。C4-A29-IP-01序列进行子序列聚类部分结果如图6所示,根据子时间序列特点,选择自底向上方式层次聚类方式,聚类方法最初将所有子时间序列本身作为一个聚类簇,然后找出距离最近的两个簇,将相似的子序列合并为较大的簇,不断重复以上步骤直到所有的时间序列归纳到一个簇中。如图6中所示,对大坝时间序列相似分析中则是采用相似性度量方法不断的将相似时间子序列聚类。层次聚类应用在子时间序列聚类中不仅能直观得出聚类情况,同时能够通过得到的树状聚类图,动态分析不同聚类数下的时间序列聚类分布情况。

Claims (5)

1.一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,包括如下步骤:
(1)对待处理的完整的长时间大坝监测序列数据,采用自相关性检验方法分析该序列是否适合子序列挖掘;采用EMD算法处理数据依据数据自身的时间尺度特征来进行信号分解,保证数据平滑;
(2)采用累积和控制图的拐点检测方法,检测序列数据中的突变点,通过持续分裂,最终得到所有子序列集合;
(3)对时间序列形态挖掘过程当中,采用DTW方法计算子序列间的距离,比较大坝监测数不同子序列间距离,评价挖掘聚类效果。
2.根据权利要求1所述的一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,所述步骤(1)中采用自相关性检验方法和EMD方法对数据处理的具体步骤如下:
(1.1)时间序列自相关性检验:长度为n的时间序列数据S={x1,x2,…,xt},subi={xi,…,xi+k}为i到i+k连续时间范围内的观测序列,subj={xj,…..,xj+l}为j到j+l连续时间范围的观测序列;其中1≤i<i+k≤n,1≤j<j+l≤n,i≠j,k>0,l>0;若存在函数A,当A(subi)≈A(subj)则有subi与subi为一组自相似对,记作I=<subi,subj>;
(1.2)自相关性方法分析序列自相关性:自相关性方法在时间序列分析时,被用来分析同一条序列中的滞后自相关性规律:
E代表期望,k表示滞后的时间戳,σ代表数据标准差,S(t)表示序列中t时刻监测值,S(t+k)表示在t+k时刻的时间序列监测值,μt,μt+k表示同一条时间序列中在t,t+k时刻的期望值;
(1.3)EMD模态分解:EMD处理数据依据数据自身的时间尺度特征来进行信号分解,即局部平稳化,而无须预先设定基函数,将含有噪声的信号分解为一组变化单一的本征模函数IMF,且IMF须满足以下两个性质:函数在整个时间范围内,局部极值点和过零点的数目必须相等,或最多相差一个;在任意时刻,局部最大值的包络即上包络线和局部最小值的包络即下包络线平均必须为零;
(1.4)计算均值包络线:
(1.5)计算剩余项:h1(t)=r1(t)-m1(t),r1(t)为原始序列S(t),e+(t)为r1(t)的上包络线,e_(t)为r1(t)下包络线,m1(t)表示r1(t)序列的均值包络线;
(1.6)不断计算剩余项的上下包络线,减去上下包络线平均值,直到所有数据满足上述条件为止;最终得到原始时间序列n个本征函数ci(t)与趋势项rn(t);
(1.7)根据IMF序列的特征频率变化区间,序列分割时能够依据频率范围选择指定误差范围内的IMF组合最终达到CUSUM分裂所要求的平滑数据。
3.根据权利要求1所述的一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,所述步骤(2)中采用累积和控制图的拐点检测方法分裂整条序列数据的具体步骤如下:
(2.1)求序列均值;
(2.2)设定累积和初值为0,计算各点累积和;
(2.3)求得该序列数据最大累积和,并记录该处的拐点xi
(2.4)迭代分割:基于已得的xi,将序列分割为两段,各段序列继续采用如上步骤找出累积和最大的拐点,进行迭代分割,直至分割序列长度均小于设定的最短序列,最终得到所有子序列集合。
4.根据权利要求1所述的一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,所述步骤(3)中采用标准化DTW算法计算子序列间距离;层次聚类将子序列进行聚类的具体步骤如下:
(3.1)计算两个子序列间的距离:对于两个子序列sub1,sub2,长度分别为l1,l2,两者DTW距离计算:
D(i,j)=d(xi,xj)+min{D(i-1,j),D(i,j-1),D(i-1,j-1)}
D(i,j)表示在以l1,l2构造的l1xl2大小矩阵中下标为i,j位置的最大相似度;d(xi,xj)为xi,xj两点之间欧式距离;DTW计算过程中,在所有路径中找出最优路径使得两条时间序列数据之间距离最小;
(3.2)对距离进行标准化处理:DTW序列相似性衡量结果仅能够表示两条序列间转化所需要的最小距离;当有多条序列距离比较时会出现无法比较的情况,因此对聚类中多个子序列之间距离Ddtw大小进行标准化处理:
Ddtw(subi,subj)为动态时间弯曲距离,max(len(subi),len(subj))为两条子序列中较长序列长度;由DTW计算过程知Ddtw(subi,subj)为对齐两条序列所花费的最小整体代价;Ddtw(subi,subj)包含两条序列的长度因素,直接使用Ddtw作为聚类依据缺乏合理性;利用Ddtw(subi,subj)除以max(len(subi),len(subj))保证所有Ddtw(subi,subj)距离为均值,因此使用作为聚类判别标准;
(3.3)计算相似度距离矩阵;
(3.4)利用距离矩阵进行聚类:聚类过程中利用SIM矩阵不断计算两个聚类之间最小平均距离,当两个聚类属于最小距离时则合并两聚类形成较大的聚类,最终将所有序列归并到同一聚类中。
5.根据权利要求3所述的一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,所述步骤(2.3)中求得该序列数据最大累积和,并记录该处的拐点xi的具体步骤如下:
求得该序列数据最大累积和:
split_point=max(abs(B(i)))
B(i)函数表示每个时间点累积和结果,xi为时间点i值,∑xi/n为整个序列的平均值;其中split_point表示累积和序列中绝对值最大值点,通过得到绝对最大值下标,找出原始序列变化的累积最大点,对于大坝监测点顺河向位移数据中突变点也正表示序列模式转换点。
CN201910414107.3A 2019-05-17 2019-05-17 一种面向大坝安全监测数据的相似性数据聚类方法 Pending CN110197211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910414107.3A CN110197211A (zh) 2019-05-17 2019-05-17 一种面向大坝安全监测数据的相似性数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910414107.3A CN110197211A (zh) 2019-05-17 2019-05-17 一种面向大坝安全监测数据的相似性数据聚类方法

Publications (1)

Publication Number Publication Date
CN110197211A true CN110197211A (zh) 2019-09-03

Family

ID=67751534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910414107.3A Pending CN110197211A (zh) 2019-05-17 2019-05-17 一种面向大坝安全监测数据的相似性数据聚类方法

Country Status (1)

Country Link
CN (1) CN110197211A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766054A (zh) * 2019-09-23 2020-02-07 东软集团股份有限公司 一种压裂砂堵的预警方法、装置、存储介质及设备
CN110824304A (zh) * 2019-10-16 2020-02-21 福建和盛高科技产业有限公司 一种氧化锌避雷器绝缘劣化趋势分析方法
CN110837874A (zh) * 2019-11-18 2020-02-25 上海新炬网络信息技术股份有限公司 基于时间序列分类的业务数据异常检测方法
CN110956206A (zh) * 2019-11-22 2020-04-03 珠海复旦创新研究院 时间序列状态识别方法、装置及设备
CN112035718A (zh) * 2020-08-13 2020-12-04 西安外事学院 基于趋势一致性匹配的时间序列分类方法的肉类检测方法
CN112526931A (zh) * 2020-11-27 2021-03-19 江苏科技大学 一种船用柴油机机身孔系镗削加工过程质量控制方法
CN113391052A (zh) * 2021-05-19 2021-09-14 山东省气象信息中心(山东省气象档案馆) 基于emd-dtw的土壤水分观测数据异常值检测方法
US20230184926A1 (en) * 2021-12-15 2023-06-15 GM Global Technology Operations LLC Radar anti-spoofing system for identifying ghost objects created by reciprocity-based sensor spoofing
CN116304751A (zh) * 2023-05-23 2023-06-23 天佑京铁轨道技术有限公司 用于动车组部件检修的运行数据处理方法
CN116401561A (zh) * 2022-12-08 2023-07-07 国网湖北省电力有限公司信息通信公司 一种基于局部时域特征的设备级运行状态序列的时间关联聚类方法
CN116705180A (zh) * 2023-08-08 2023-09-05 山东北国发展集团有限公司 基于多维数据分析的n2o催化分解监测方法及系统
CN116953488A (zh) * 2023-09-19 2023-10-27 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法
CN106228002A (zh) * 2016-07-19 2016-12-14 北京工业大学 一种基于二次筛选的高效率异常时序数据提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法
CN106228002A (zh) * 2016-07-19 2016-12-14 北京工业大学 一种基于二次筛选的高效率异常时序数据提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任江涛等: "一种时间序列快速分段及符号化方法", 《计算机科学》 *
高静等: "经验模态分解的理论研究及应用", 《科技导报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766054B (zh) * 2019-09-23 2022-05-10 东软集团股份有限公司 一种压裂砂堵的预警方法、装置、存储介质及设备
CN110766054A (zh) * 2019-09-23 2020-02-07 东软集团股份有限公司 一种压裂砂堵的预警方法、装置、存储介质及设备
CN110824304A (zh) * 2019-10-16 2020-02-21 福建和盛高科技产业有限公司 一种氧化锌避雷器绝缘劣化趋势分析方法
CN110837874A (zh) * 2019-11-18 2020-02-25 上海新炬网络信息技术股份有限公司 基于时间序列分类的业务数据异常检测方法
CN110837874B (zh) * 2019-11-18 2023-05-26 上海新炬网络信息技术股份有限公司 基于时间序列分类的业务数据异常检测方法
CN110956206A (zh) * 2019-11-22 2020-04-03 珠海复旦创新研究院 时间序列状态识别方法、装置及设备
CN112035718A (zh) * 2020-08-13 2020-12-04 西安外事学院 基于趋势一致性匹配的时间序列分类方法的肉类检测方法
CN112035718B (zh) * 2020-08-13 2023-07-21 西安外事学院 基于趋势一致性匹配的时间序列分类方法的肉类检测方法
CN112526931A (zh) * 2020-11-27 2021-03-19 江苏科技大学 一种船用柴油机机身孔系镗削加工过程质量控制方法
CN113391052A (zh) * 2021-05-19 2021-09-14 山东省气象信息中心(山东省气象档案馆) 基于emd-dtw的土壤水分观测数据异常值检测方法
US20230184926A1 (en) * 2021-12-15 2023-06-15 GM Global Technology Operations LLC Radar anti-spoofing system for identifying ghost objects created by reciprocity-based sensor spoofing
CN116401561A (zh) * 2022-12-08 2023-07-07 国网湖北省电力有限公司信息通信公司 一种基于局部时域特征的设备级运行状态序列的时间关联聚类方法
CN116401561B (zh) * 2022-12-08 2023-10-31 国网湖北省电力有限公司信息通信公司 一种设备级运行状态序列的时间关联聚类方法
CN116304751A (zh) * 2023-05-23 2023-06-23 天佑京铁轨道技术有限公司 用于动车组部件检修的运行数据处理方法
CN116705180A (zh) * 2023-08-08 2023-09-05 山东北国发展集团有限公司 基于多维数据分析的n2o催化分解监测方法及系统
CN116705180B (zh) * 2023-08-08 2023-10-31 山东北国发展集团有限公司 基于多维数据分析的n2o催化分解监测方法及系统
CN116953488A (zh) * 2023-09-19 2023-10-27 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法
CN116953488B (zh) * 2023-09-19 2023-12-12 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法

Similar Documents

Publication Publication Date Title
CN110197211A (zh) 一种面向大坝安全监测数据的相似性数据聚类方法
Vijayarajeswari et al. Classification of mammogram for early detection of breast cancer using SVM classifier and Hough transform
Mishra et al. Local fractal dimension based ECG arrhythmia classification
CN104424386A (zh) 基于多参数磁共振影像的前列腺癌计算机辅助识别系统
Si et al. A feature extraction method based on composite multi-scale permutation entropy and Laplacian score for shearer cutting state recognition
Taqi et al. Skin lesion detection by android camera based on SSD-Mo-bilenet and tensorflow object detection API
Yang et al. A convolutional neural network trained with dermoscopic images of psoriasis performed on par with 230 dermatologists
Zhang et al. Feature-transfer network and local background suppression for microaneurysm detection
EP3817648A1 (en) Method for diagnosing, predicting, determining prognosis, monitoring, or staging disease based on vascularization patterns
Choubey et al. A new feature extraction and classification mechanisms For EEG signal processing
Jothi et al. Soft set based feature selection approach for lung cancer images
Chang et al. Fast and efficient lung disease classification using hierarchical one-against-all support vector machine and cost-sensitive feature selection
CN110956155B (zh) 基于co数据的综采工作面作业工序模糊聚类识别方法
CN112037906A (zh) 一种长时生理信号时间序列的样本数据的扩充方法及系统
CN113345588A (zh) 一种不完备数据集快速属性约简方法
Zhang et al. A novel method for fast and accurate similarity measure in time series field
CN113066544A (zh) 基于CAA-Net与LightGBM的FVEP特征点检测方法
CN110647870B (zh) 一种基于滑动窗计算静息态fMRI数据近似熵的方法
CN109907730A (zh) 一种数据处理方法、装置、及存储介质和计算机设备
Liu et al. Study on the prediction method of long-term benign and malignant pulmonary lesions based on lstm
Sonavane et al. Classification of MRI brain tumor and mammogram images using adaboost and learning vector quantization neural network
Poirier–Herbeck et al. Unknown-length motif discovery methods in environmental monitoring time series
CN114548259B (zh) 一种基于半监督Semi-KNN模型的PISA故障识别方法
CN116712089B (zh) 富集癫痫发作间期的癫痫样放电和预测致病灶的方法
CN114587397B (zh) 一种基于神经网络的计算机辅助术前肺癌患者n2期淋巴结预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190903

RJ01 Rejection of invention patent application after publication