CN111612048A - 无监督聚类异常检测的方法 - Google Patents

无监督聚类异常检测的方法 Download PDF

Info

Publication number
CN111612048A
CN111612048A CN202010361681.XA CN202010361681A CN111612048A CN 111612048 A CN111612048 A CN 111612048A CN 202010361681 A CN202010361681 A CN 202010361681A CN 111612048 A CN111612048 A CN 111612048A
Authority
CN
China
Prior art keywords
data
cluster
kth
telemetering
kth target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010361681.XA
Other languages
English (en)
Other versions
CN111612048B (zh
Inventor
袁线
李卫平
高宇
郭小红
程富强
付枫
周轩
张雷
王超
蔡立锋
张峻华
林海晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Xian Satellite Control Center
Original Assignee
China Xian Satellite Control Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Xian Satellite Control Center filed Critical China Xian Satellite Control Center
Priority to CN202010361681.XA priority Critical patent/CN111612048B/zh
Publication of CN111612048A publication Critical patent/CN111612048A/zh
Application granted granted Critical
Publication of CN111612048B publication Critical patent/CN111612048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Selective Calling Equipment (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本公开提供一种无监督聚类异常检测的方法,涉及航天器异常检测方法,能够解决目前航天器运行的精确物理解析模型,过多依赖于航天器系统的先验知识,在实际应用中模型难以建立、知识难以获取等的问题。具体技术方案为:利用已积累的航天器大量正常状态数据,从样本数据中时标对齐、等间隔采样,生成样本数据,基于归纳学习的思想,通过无监督聚类分析建立航天器正常状态数据模型。利用聚类结果计算样本数据的最小距离,统计分析样本数据的最小距离集,利用高斯分布建立遥测数据异常检测的门限阈值。在此基础上,通过判断航天器实时观测数据与正常状态数据模型之间的偏离程度,实现异常数据检测。本发明用于航天器遥测数据进行处理和分析。

Description

无监督聚类异常检测的方法
技术领域
本公开涉及无线电跟踪测量数据处理与应用领域,适用于对航天器遥测数据进行处理和分析,尤其涉及一种无监督聚类异常检测的方法
背景技术
由于在轨卫星长期运行在复杂、恶劣的空间环境中,受到多种不确定性因素的影响,其性能与功能可能会出现变化,反映在遥测参数上也会有所变化,如果在轨卫星发生异常,相应的遥测参数也会发生变化。因此,分析在轨卫星遥测数据的变化规律,研究在轨卫星异常检测方法,提早发现在轨卫星异常征兆,提前采取措施避免可能发生的重大故障,降低卫星在轨运行风险,对提高卫星在轨运行的安全性和可靠性具有重要的意义;
工程中对航天器异常检测方法主要包括基于知识的门限检测方法和基于物理模型的方法。门限检测方法简单、易于实现,但在实际中很难给出合理的门限范围,而且由于门限是预先给定的,因此无法检测未知故障。基于模型的故障检测方法通过建立系统正常状态的解析模型,利用数学模型和观测输入输出量的残差来检测系统异常或故障,但是目前很难建立航天器运行的精确物理解析模型。无论门限检测方法还是基于模型的方法,这些方法都过多依赖于航天器系统的先验知识,在实际应用中存在模型难以建立、知识难以获取等问题。
发明内容
本公开实施例提供一种无监督聚类异常检测的方法,能够解决过多依赖于航天器系统的先验知识,在实际应用中模型难以建立、知识难以获取等的问题。所述技术方案如下:
根据本公开实施例提供一种无监督聚类异常检测的方法,该方法包括:
对n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列,第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;
优选地,第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;为,判断所述第K个目标遥测数据的数据类型,按照所述第K个目标遥测数据序列的时标,在所述n个原始序列记录数据中获取所述第K个目标遥测数据,得到赋值后所述第K个目标遥测数据序列;
第K个目标遥测数据经过标准化处理后获得所述目标遥测数据的数据向量X,所述第K个目标遥测数据的数据向量X的各个分量进行时标对齐后,通过Single-Linkage聚类方法建模,获得聚类模型集S;
优选地,第K个目标遥测数据经过标准化处理为,采用Z-score方法进行标准化处理获得目标遥测数据集D;
第K个目标遥测数据集D至少一个所述目标遥测数据子集D′,与所述聚类模型集S之间的距离,获得所述第K个目标遥测数据的检测门限阈值;
优选地,第K个目标遥测数据的数据向量X到所述聚类模型集S中的每一个聚类的距离计算获得最小距离,所述最小距离超出所述检测门限阈值,所述第K个目标遥测数据为异常。
在一个实施例中,对n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列前,
还包括,对n个原始遥测数据设定时间间隔td,建立等时间间隔采用获得第K个目标遥测数据序列x(t),设定第K个目标遥测序列起始时间ts,时间间隔td,td<te-ts,建立等时间间隔所述第K个遥测数据目标遥测序列;
{(t,x(t))|t=ts+p·td,p=0,1,2,…P-1},
x(t)表示对应t时刻第K个目标遥测数据
m为所述目标遥测数据序列长度,
Figure BDA0002475217280000021
floor函数表示向下取整。
在一个实施例中,判断第K个目标遥测数据的数据类型,按照第K个目标遥测数据序列的时标,在所述n个原始序列记录数据中提取第K个目标遥测数据值,获得赋值后第K个目标遥测数据序列为;
优选地,判断所述第K个遥测数据的数据类型为离散型数据量的遥测数据时,按照n个原始遥测数据第K个遥测数据序列sk(t)记录中找到与第K个目标遥测数据时标最接近的时刻,获得第K个目标遥测数据,并得到赋值后的目标遥测序列;
优选地,判断第K个遥测数据的数据类型为连续型数据量的遥测数据时,按照n个原始遥测数据第K个目标遥测数据序列xk(t)的时标,在n个原始序列sk(t)记录中找到与所述第K个目标遥测数据时标最接近的前后5个时刻,采用拉格朗日插值法确定第K个目标遥测数据,并得到赋值后的第K个目标遥测数控序列。
在一个实施例中,第K个目标遥测数据的数据中的K值小于n值,则令K=K+1,重新对所述第k个目标遥测数据建立等时间间隔所述第k个目标遥测数据序列;否则循环处理。
优选地,第K个目标遥测数据采用Z-score方法进行标准化处理获得第K个目标遥测数据集D;
其中,采用Z-score方法,公式
Figure BDA0002475217280000031
其中,均值为
Figure BDA0002475217280000032
标准差为
Figure BDA0002475217280000033
其中x′ij为标准化后的变量值,xij为实际变量值;
采用随机抽样的方法将第K个数据集D划分为两个互斥的数据集D1和D2,满足D1∪D2=D,
Figure BDA0002475217280000034
其中
Figure BDA0002475217280000035
为空集。
在一个实施例中,第K个目标遥测数据集D通过采样Single-Linkage聚类方法建模,获得所述聚类模型集S;
优选地,获得聚类模型集S为初始化聚类集合S为空集
Figure BDA0002475217280000044
根据抽样方法计算最大允许的聚类半径r,设置α=1/r;从所述数据集D1中经过标准化处理的数据向量X(1)获得聚类模型集S。
在一个实施例中,采样Single-Linkage聚类方法建模,获得聚类模型集S,还包括,经过标准化处理的获得第K个目标遥测数据向量X,用于创建至少一个新的聚类,将所述第K个目标遥测数据向量X加入所述聚类模型集S;
如果聚类模型集S为空集,则创建一个新的聚类,将所述目标遥测数据向量X加入所述聚类模型集S;
否则,在所述聚类模型集S中寻找聚类C,使得所述聚类模型集对于集合S中所有的聚类Ci,sim(X,C)>sim(X,Ci);
如果sim(X,C)>α,将第K个目标遥测数据向量X加入所述聚类C;否则,创建一个新的聚类Cn,将第K个目标遥测数据向量X加入类聚类Cn,将聚类Cn加入所述聚类模型集S,其中,α为最大允许的聚类半径r的倒数,即α=1/r。
优选地,聚类模型集S将K个目标遥测数据向量X循环加入集合S,形成所述聚类模型集S,获得所述聚类模型集S的每个聚类的中心点Oi和最大半径Ri,其中j=1,2,…,l。
在一个实施例中,检测门限阈值为集合的平均值与3倍标准差之和;
其中,第K个目标遥测数据集D的子集D2计算D2中的每个数据向数据向量
Figure BDA0002475217280000041
与所述聚类模型集S之间的距离,得到距离集合{di,i=1,2,3,…,n},n为数据集D2中数据向量的个数,计算距离集合{di,i=1,2,3,…,n}的平均值
Figure BDA0002475217280000042
和标准差
Figure BDA0002475217280000043
获取检测门限阈值为距离集合的平均值和3倍的标准差β=μ+3σ。
优选地,第K个目标遥测数据的数据向量X到聚类模型集S中的每一个聚类的距离计算获得最小距离,最小距离超出所述检测门限阈值,第K个目标遥测数据为异常;
其中,第K个目标遥测数据的数据向量的各个分量进行时标对齐,X进行Z-score标准化处理,所述标准化处理后的数据向量X到聚类模型集S中的每一个聚类Cj的距离zj=dis(X,Oj)-Rj,j=1,2,…,l;
计算获得最小距离zmin=min{zj,j=1,2,…,l};
若最小距离zmin>β,第K个目标遥测数据为异常。
本公开实施例提供的本公开一种无监督聚类异常检测的方法,利用已积累的航天器大量正常状态数据,从样本数据中时标对齐、等间隔采样,生成样本数据,基于归纳学习的思想,通过无监督聚类分析建立航天器正常状态数据模型。利用聚类结果计算样本数据的最小距离,统计分析样本数据的最小距离集,利用高斯分布建立遥测数据异常检测的门限阈值,通过判断航天器实时观测数据与正常状态数据模型之间的偏离程度,实现异常数据检测。有利于从航天器遥测参数时间序列数据中发现异常数据,有利于辅助航天器异常分析时的参数排查定位。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例提供的一种无监督聚类异常检测的方法的流程示意图;
图2是本公开实施例提供一种无监督聚类异常检测的方法应用案例最小距离序列图;
图3是本公开实施例提供一种标对齐与等间隔样本序列生成逻辑示意图
图4是本公开实施例提供一种无监督聚类异常检测的方法建模样本准备应用逻辑示意图;
图5是本公开实施例提一种无监督聚类异常检测的方法Single-Linkage聚类建模应用逻辑示意图;
图6是本公开实施例提供一种无监督聚类异常检测的方法检测门限阈值逻辑示意图;
图7是本公开实施例提供一种无监督聚类异常检测的方法检测门限阈值检测异常数据逻辑示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供一种是本公开实施例提供的一种无监督聚类异常检测的方法流程图,如图1所示,该数据传输方法包括以下步骤:
S01、对n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列,所述第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;
第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;是指判断第K个目标遥测数据的数据类型,按照第K个目标遥测数据序列的时标,在n个原始序列记录数据中获取第K个目标遥测数据,得到赋值后第K个目标遥测数据序列;
起在一个实施例中,对n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列前,还包括对n个原始遥测数据设定时间间隔td,建立等时间间隔采用获得第K个目标遥测数据序列x(t),设定第K个目标遥测序列起始时间ts,时间间隔td,td<te-ts,建立等时间间隔第K个遥测数据目标遥测序列;
{(t,x(t))|t=ts+p·td,p=0,1,2,…P-1},
x(t)表示对应t时刻第K个目标遥测数据
m为所述目标遥测数据序列长度,
Figure BDA0002475217280000071
floor函数表示向下取整。
在一个实施例中,判断第K个目标遥测数据的数据类型,按照所述第K个目标遥测数据序列的时标,在所述n个原始序列记录数据中提取第K个目标遥测数据值,获得赋值后第K个目标遥测数据序列为;
判断第K个遥测数据的数据类型为离散型数据量的遥测数据时,按照n个原始遥测数据第K个遥测数据序列sk(t)记录中找到与第K个目标遥测数据时标最接近的时刻,获得第K个目标遥测数据,并得到赋值后的目标遥测序列;
判断第K个遥测数据的数据类型为连续型数据量的遥测数据时,按照所述n个原始遥测数据第K个目标遥测数据序列xk(t)的时标,在n个原始序列sk(t)记录中找到与第K个目标遥测数据时标最接近的前后5个时刻,采用拉格朗日插值法确定第K个目标遥测数据,并得到赋值后的所述第K个目标遥测数控序列。
其中,第K个目标遥测数据的数据中的第值小于n值,则令K=K+1,重新对第K个目标遥测数据建立等时间间隔所述第K个目标遥测数据序列;否则循环处理。
S02、第K个目标遥测数据经过标准化处理后获得目标遥测数据的数据向量X,第K个目标遥测数据的数据向量X的各个分量进行时标对齐后,通过Single-Linkage聚类方法建模,获得聚类模型集S;权
在一个实施例中,采用Single-Linkage聚类方法建模,需要做建模样本准备,第K个目标遥测数据经过标准化处理为,采用Z-score方法进行标准化处理获得目标遥测数据集D;(
第K个目标遥测数据采用Z-score方法进行标准化处理获得第K个目标遥测数据集D;
其中,采用Z-score方法,公式
Figure BDA0002475217280000081
其中,均值为
Figure BDA0002475217280000082
标准差为
Figure BDA0002475217280000083
其中x′ij为标准化后的变量值,xij为实际变量值;
采用随机抽样的方法将所述第K个数据集D划分为两个互斥的数据集D1和D2,满足D1∪D2=D,
Figure BDA0002475217280000084
其中
Figure BDA0002475217280000085
为空集。
在一个实施例中,第K个目标遥测数据集D通过采样Single-Linkage聚类方法建模,获得所述聚类模型集S;
获得所述聚类模型集S为初始化所述聚类集合S为空集
Figure BDA0002475217280000086
根据抽样方法计算最大允许的聚类半径r,设置α=1/r;从数据集D1中经过标准化处理的数据向量X(1)获得聚类模型集S。
在一个实施例中,采样Single-Linkage聚类方法建模,获得聚类模型集S,还包括,经过标准化处理的获得目标遥测数据向量X,用于创建至少一个新的聚类,将第K个目标遥测数据向量X加入所述聚类模型集S;
如果聚类模型集S为空集,则创建一个新的聚类,将第K个目标遥测数据向量X加入聚类模型集S;
否则,在聚类模型集S中寻找聚类C,使得聚类模型集对于集合S中所有的聚类Ci,sim(X,C)>sim(X,Ci);
如果sim(X,C)>α,将所述第K个目标遥测数据向量X加入所述聚类C;否则,创建一个新的聚类Cn,将所述第K个目标遥测数据向量X加入类聚类Cn,将所述聚类Cn加入所述聚类模型集S,其中,α为最大允许的聚类半径r的倒数,即α=1/r。
303、第K个目标遥测数据集D至少一个目标遥测数据子集D′,与聚类模型集S之间的距离,获得第K个目标遥测数据的检测门限阈值;
在一个实施例中,聚类模型集S将K个目标遥测数据向量X循环加入集合S,形成聚类模型集S,获得聚类模型集S的每个聚类的中心点Oi和最大半径Ri,其中j=1,2,…,l。(
在一个实施例中,第K个目标遥测数据集D的子集D2计算D2中的每个数据向数据向量
Figure BDA0002475217280000091
与聚类模型集S之间的距离,得到距离集合{di,i=1,2,3,…,n},n为数据集D2中数据向量的个数,计算距离集合{di,i=1,2,3,…,n}的平均值
Figure BDA0002475217280000092
和标准差
Figure BDA0002475217280000093
获取检测门限阈值为距离集合的平均值和3倍的标准差β=μ+3σ。步骤4.1-4.4)从权
404、第K个目标遥测数据的数据向量X到聚类模型集S中的每一个聚类的距离计算获得最小距离,最小距离超出所述检测门限阈值,第K个目标遥测数据为异常。(步骤5.1-5.5)
在一个实施例中,所述目标遥测数据的数据向量的各个分量进行时标对齐,X进行Z-score标准化处理,所述标准化处理后的数据向量X到聚类模型集S中的每一个聚类Cj的距离zj=dis(X,Oj)-Rj,j=1,2,…,l;
计算获得最小距离zmin=min{zj,j=1,2,…,l};
若最小距离zmin>β,第K个目标遥测数据为异常。
本公开实施例提供的本公开一种无监督聚类异常检测的方法,利用已积累的航天器大量正常状态数据,从样本数据中时标对齐、等间隔采样,生成样本数据,基于归纳学习的思想,通过无监督聚类分析建立航天器正常状态数据模型。利用聚类结果计算样本数据的最小距离,统计分析样本数据的最小距离集,利用高斯分布建立遥测数据异常检测的门限阈值,通过判断航天器实时观测数据与正常状态数据模型之间的偏离程度,实现异常数据检测。有利于从航天器遥测参数时间序列数据中发现异常数据,有利于辅助航天器异常分析时的参数排查定位。
实施例一、
时标对齐与等间隔样本序列生成;
对n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列,第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;
设共有n个航天器遥测参数,记第k个遥测参数的原始时间序列数据为{(t,sk(t)),t∈[ts,te]},其中t表示时刻,sk(t)表示对应t时刻的第k个遥测参数的数据值,ts表示起始时间,te表示结束时间。
在一个实施例中,如图3所示,时标对齐与等间隔样本序列生成包括如下步骤101:给定n个航天器遥测参数,以及样本序列起始时间ts和结束时间te,给定时间间隔td,满足td<te-ts,设参数k=1。
102对第k个遥测参数建立等时间间隔样本序列
{(t,xk(t))|t=ts+(p-1)·td,p=1,2,…,m},k=1,2,…,n,
其中xk(t)表示对应t时刻第k个遥测参数的样本值,初始化时赋值为空,m为样本序列的长度,
Figure BDA0002475217280000101
floor函数表示向下取整。
103:判断第k个遥测参数的数据类型,若其为离散型数据量,则转步骤104,否则转步骤105。
104:对于离散型数据量的遥测参数,按照样本序列xk(t)的时标,在原始序列sk(t)记录中逐步找到与样本时标最接近的时刻,提取该时刻的数据值作为样本值,可得赋值后的样本序列{xk(ts+(p-1)·td)|p=1,2,…,m},转步骤106.
105:对于连续型数据量的遥测参数,按照样本序列xk(t)的时标,在原始序列sk(t)记录中找到与样本时标最接近的前后5个时刻,分别记为t-2,t-1,t0,t1,t2,采用拉格朗日插值法确定t时刻的数据值作为样本值,可得赋值后的样本序列{xk(ts+(p-1)·td)|p=1,2,…,m},转步骤106。
106:若k<n,则令k=k+1,转步骤102,否则循环处理结束。
在本施例中,选取某型卫星的陀螺马达电流和温度遥测两个卫星遥测数据在2014-01-01至2014-12-31期间的遥测数据,共得到12119组数据,数据格式为[时间,参数值1,参数值2]。取时标间隔1小时,根据步骤501中的时标对齐方法,建立样本序列{x(t)},样本序列长度为8760。
本公开实施例提供的本公开一种无监督聚类异常检测的方法,利用已积累的航天器大量正常状态数据,从样本数据中时标对齐、等间隔采样,生成样本数据,基于归纳学习的思想,为无监督聚类分析建立航天器正常状态数据模型对应的数据做好准备。
实施例二
1、建模样本准备;
在一个实施例中,如图4所示,第K个目标遥测数据经过标准化处理后获得所述目标遥测数据的数据向量X,第K个目标遥测数据的数据向量X的各个分量进行时标对齐后,通过Single-Linkage聚类方法建模,获得聚类模型集S;建模样本准备包括如下步骤:
201:设有n个遥测参数的m个样本数据Xi∈Rn,i=1,2,…,m,
其中样本Xi=(xi1,xi2,…,xin),
分别计算每一个遥测参数样本数据的均值
Figure BDA0002475217280000111
和标准差
Figure BDA0002475217280000112
202:采用Z-score方法按照公式
Figure BDA0002475217280000121
对参数进行标准化处理,其中x′ij为标准化后的变量值,xij为实际变量值。
203:输出标准化处理后的数据集D={X′i,i=1,…,m},其中Xi'=(x′i1,x′i2,…,x′in)。
204:采用随机抽样的方法将数据集D划分为两个互斥的数据集D1和D2,满足D1∪D2=D,
Figure BDA0002475217280000122
其中
Figure BDA0002475217280000123
为空集。
针对上述建立的样本序列{x(t)},按照步骤202中的方法进行归一化处理后建立样本数据集D,按照7:3比例对样本数据集D进行随机抽样可得数据集D1和D2
2、Single-Linkage聚类建模
在一个实施例中如图5所示,通过Single-Linkage聚类建模
301:初始化聚类集合S为空集
Figure BDA0002475217280000124
根据抽样方法计算最大允许的聚类半径r,设置α=1/r。
302:从数据集D1中获得一个经过标准化处理的数据向量X(1)
303:如果聚类集合S为空集,则创建一个新的聚类,将X(1)加入该类,转步骤305;否则,在集合S中寻找聚类C,使得对于聚类集合S中所有的聚类Cj,都有sim(X,C)≥sim(X,Cj)。
304:如果sim(X(1),C)>α,那么将X(1)加入聚类C;否则,创建一个新的聚类Cn,将X(1)加入聚类Cn,并将聚类Cn加入集合S。
305:重复步骤302到304,直到D1中所有的数据向量处理完毕。
306:得到聚类模型集S={C1,C2,…,Cl}后,计算每个聚类Cj的中心点Oj和最大半径Rj,j=1,2,…,l。
在数据集D1中,根据抽样方法计算可得最大聚类半径r=1.56,设置
Figure BDA0002475217280000131
对数据集D1,按照步骤3利用Single-Linkage聚类方法进行聚类,可得到聚类模型集S,其中S中共包含20个聚类。
本公开实施例提供的本公开一种无监督聚类异常检测的方法,利用已积累的航天器大量正常状态数据,从样本数据中时标对齐、等间隔采样,生成样本数据,基于归纳学习的思想,通过Single-Linkage聚类建模达到无监督聚类分析建立航天器正常状态数据模型,
实施例三
计算检测门限阈值;
在一个实施例中如图6所示;获得所述第K个目标遥测数据的检测门限阈值步骤如下;
401:取数据集D的子集D2
402:计算D2中的每个数据向量
Figure BDA0002475217280000132
与聚类模型集S之间的距离
Figure BDA0002475217280000133
得到距离集合{di,i=1,2,3,…,n},n为数据集D2中数据向量的个数。
403:计算距离集合{di,i=1,2,3,…,n}的平均值
Figure BDA0002475217280000134
和标准差
Figure BDA0002475217280000135
404:取门限阈值β=μ+3σ。
在数据集D2中,按照步骤4计算可得数据异常检测的检测门限β=0.55。
实施例四
在一个实施例中,如图7所示,航天器遥测数据的实时检测异常数据;包括步骤如下:
501:实时获取当前测量数据向量X。
502:依据实施例一的步骤对数据向量X的各个分量进行时标对齐。
503:依据实施例二的步骤202对时标对齐后的数据向量X进行Z-score标准化处理。
504:计算标准化处理后的数据向量X到聚类模型集S中的每一个聚类Cj的距离zj=dis(X,Oj)-Rj,j=1,2,…,l。
505:计算最小距离zmin=min{zj,j=1,2,…,l}。
506:若最小距离zmin>β,则说明有异常数据发生。
在一个实施例中,按照505步骤对航天器2015-01-01至2015-12-31期间的遥测数据时间序列进行检测。检测效果如图2中所示,是根据2014年的遥测数据建立的样本聚类集和检测阈值,然后计算2015年的遥测数据与样本聚类集的最小距离,图2表示最小距离序列图,其中红色直线表示的是检测阈值,第一点表示第一次超出阈值的时刻,第二,三点分别表示最小距离的特性与之前发生明显变化的时刻。横轴方向表示时间,纵轴反向表示某一时刻的遥测数据与聚类集的最小距离,由图可见,算法检测出航天器遥测数据分别在2015-5-09 15:00,2015-10-15 00:00和2015-11-18 05:00处发生了数据的跳变,这些跳变点的数据被标记为了异常变化点。
本公开实施例提供的本公开一种无监督聚类异常检测的方法,利用已积累的航天器大量正常状态数据,从样本数据中时标对齐、等间隔采样,生成样本数据,基于归纳学习的思想,通过无监督聚类分析建立航天器正常状态数据模型。利用聚类结果计算样本数据的最小距离,统计分析样本数据的最小距离集,利用高斯分布建立遥测数据异常检测的门限阈值,通过判断航天器实时观测数据与正常状态数据模型之间的偏离程度,实现异常数据检测。有利于从航天器遥测参数时间序列数据中发现异常数据,有利于辅助航天器异常分析时的参数排查定位。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

Claims (10)

1.一种无监督聚类异常检测的方法,其特征在于,所述方法包括,
对n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列,所述第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;
所述第K个目标遥测数据序列经过时标对齐获得第K个目标遥测数据;为,判断所述第K个目标遥测数据的数据类型,按照所述第K个目标遥测数据序列的时标,在所述n个原始序列记录数据中获取所述第K个目标遥测数据,得到赋值后所述第K个目标遥测数据序列;
所述第K个目标遥测数据经过标准化处理后获得所述目标遥测数据的数据向量X,所述第K个目标遥测数据的数据向量X的各个分量进行时标对齐后,通过Single-Linkage聚类方法建模,获得聚类模型集S;
所述第K个目标遥测数据经过标准化处理为,采用Z-score方法进行标准化处理获得目标遥测数据集D;
所述第K个目标遥测数据集D至少一个所述目标遥测数据子集D′,与所述聚类模型集S之间的距离,获得所述第K个目标遥测数据的检测门限阈值;
所述第K个目标遥测数据的数据向量X到所述聚类模型集S中的每一个聚类的距离计算获得最小距离,所述最小距离超出所述检测门限阈值,所述第K个目标遥测数据为异常。
2.根据权利要求1所述的无监督聚类异常检测的方法,其特征在于,
对所述n个原始遥测数据第K个遥测数据建立等时间间隔第K个目标遥测数据序列前,
还包括,对所述n个原始遥测数据设定时间间隔td,建立等时间间隔采用获得所述第K个目标遥测数据序列x(t),设定所述第K个目标遥测序列起始时间ts,时间间隔td,td<te-ts,建立等时间间隔所述第K个遥测数据目标遥测序列;
{(t,x(t))|t=ts+p·td,p=0,1,2,…P-1},
x(t)表示对应t时刻第K个目标遥测数据
m为所述目标遥测数据序列长度,
Figure RE-FDA0002563358150000011
floor函数表示向下取整。
3.根据权利要求2所述的无监督聚类异常检测的方法,其特征在于,
所述判断第K个目标遥测数据的数据类型,按照所述第K个目标遥测数据序列的时标,在所述n个原始序列记录数据中提取第K个目标遥测数据值,获得赋值后第K个目标遥测数据序列为;
判断所述第K个遥测数据的数据类型为离散型数据量的遥测数据时,按照所述n个原始遥测数据第K个遥测数据序列sk(t)记录中找到与所述第K个目标遥测数据时标最接近的时刻,获得所述第K个目标遥测数据,并得到赋值后的目标遥测序列;
判断所述第K个遥测数据的数据类型为连续型数据量的遥测数据时,按照所述n个原始遥测数据第K个目标遥测数据序列xk(t)的时标,在n个原始序列sk(t)记录中找到与所述第K个目标遥测数据时标最接近的前后5个时刻,采用拉格朗日插值法确定所述第K个目标遥测数据,并得到赋值后的所述第K个目标遥测数控序列。
4.根据权利要求3所述无监督聚类异常检测的方法,其特征在于,所述第K个目标遥测数据的数据中的K值小于n值,则令K=K+1,重新对所述第k个目标遥测数据建立等时间间隔所述第k个目标遥测数据序列;否则循环处理。
5.根据权利要求4所述无监督聚类异常检测的方法,其特征在于,所述第K个目标遥测数据采用Z-score方法进行标准化处理获得第K个目标遥测数据集D;
其中,采用Z-score方法,公式
Figure RE-FDA0002563358150000021
其中,均值为
Figure RE-FDA0002563358150000022
标准差为
Figure RE-FDA0002563358150000023
其中x′ij为标准化后的变量值,xij为实际变量值;
采用随机抽样的方法将所述第K个数据集D划分为两个互斥的数据集D1和D2,满足D1∪D2=D,
Figure RE-FDA0002563358150000031
其中
Figure RE-FDA0002563358150000032
为空集。
6.根据权利要求5所述的无监督聚类异常检测的方法,其特征在于,所述第K个目标遥测数据集D通过采样Single-Linkage聚类方法建模,获得所述聚类模型集S;
所述获得所述聚类模型集S为初始化所述聚类集合S为空集
Figure RE-FDA0002563358150000033
根据抽样方法计算最大允许的聚类半径r,设置α=1/r;从所述数据集D1中经过标准化处理的数据向量X(1)获得聚类模型集S。
7.根据权利要求6所述的无监督聚类异常检测的方法,其特征在于,所述采样Single-Linkage聚类方法建模,获得所述聚类模型集S,还包括,经过标准化处理的获得第K个目标遥测数据向量X,用于创建至少一个新的聚类,将所述第K个目标遥测数据向量X加入所述聚类模型集S;
如果所述聚类模型集S为空集,则创建一个新的聚类,将所述目标遥测数据向量X加入所述聚类模型集S;
否则,在所述聚类模型集S中寻找聚类C,使得所述聚类模型集对于集合S中所有的聚类Ci,sim(X,C)>sim(X,Ci);
如果sim(X,C)>α,将所述第K个目标遥测数据向量X加入所述聚类C;否则,创建一个新的聚类Cn,将所述第K个目标遥测数据向量X加入类聚类Cn,将所述聚类Cn加入所述聚类模型集S,其中,α为最大允许的聚类半径r的倒数,即α=1/r。
8.根据权利要求7所述的无监督聚类异常检测的方法,其特征在于,所述聚类模型集S将所述K个目标遥测数据向量X循环加入集合S,形成所述聚类模型集S,获得所述聚类模型集S的每个聚类的中心点Oi和最大半径Ri,其中j=1,2,…,l。
9.根据权利要求1至8任一项所述的无监督聚类异常检测的方法,其特征在于,所述检测门限阈值为集合的平均值与3倍标准差之和;
其中,第K个目标遥测数据集D的子集D2计算D2中的每个数据向数据向量
Figure RE-FDA0002563358150000041
与所述聚类模型集S之间的距离,得到距离集合{di,i=1,2,3,…,n},n为数据集D2中数据向量的个数,计算距离集合{di,i=1,2,3,…,n}的平均值
Figure RE-FDA0002563358150000042
和标准差
Figure RE-FDA0002563358150000043
获取检测门限阈值为距离集合的平均值和3倍的标准差β=μ+3σ。
10.根据权利要求1至8任一项所述的无监督聚类异常检测的方法,其特征在于,所述第K个目标遥测数据的数据向量X到所述聚类模型集S中的每一个聚类的距离计算获得最小距离,所述最小距离超出所述检测门限阈值,所述第K个目标遥测数据为异常;
还包括,所述目标遥测数据的数据向量的各个分量进行时标对齐,X进行Z-score标准化处理,所述标准化处理后的数据向量X到聚类模型集S中的每一个聚类Cj的距离zj=dis(X,Oj)-Rj,j=1,2,…,l;
计算获得最小距离zmin=min{zj,j=1,2,…,l};
若最小距离zmin>β,所述第K个目标遥测数据为异常。
CN202010361681.XA 2020-04-30 2020-04-30 无监督聚类异常检测的方法 Active CN111612048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010361681.XA CN111612048B (zh) 2020-04-30 2020-04-30 无监督聚类异常检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010361681.XA CN111612048B (zh) 2020-04-30 2020-04-30 无监督聚类异常检测的方法

Publications (2)

Publication Number Publication Date
CN111612048A true CN111612048A (zh) 2020-09-01
CN111612048B CN111612048B (zh) 2023-03-10

Family

ID=72199772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010361681.XA Active CN111612048B (zh) 2020-04-30 2020-04-30 无监督聚类异常检测的方法

Country Status (1)

Country Link
CN (1) CN111612048B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257755A (zh) * 2020-09-24 2021-01-22 北京航天测控技术有限公司 航天器运行状态的分析方法和装置
CN113312809A (zh) * 2021-04-06 2021-08-27 北京航空航天大学 一种基于相关团划分的航天器遥测数据多参数异常检测方法
CN113344093A (zh) * 2021-06-21 2021-09-03 成都民航空管科技发展有限公司 一种多源ads-b数据异常时标检测方法及系统
CN114398988A (zh) * 2022-01-14 2022-04-26 成都秦川物联网科技股份有限公司 一种天然气能量计量点检测装置的检测方法和系统
CN118133435A (zh) * 2024-05-08 2024-06-04 北京理工大学长三角研究院(嘉兴) 基于svr与聚类的复杂航天器在轨异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561878A (zh) * 2009-05-31 2009-10-21 河海大学 基于改进cure聚类算法的无监督异常检测方法和系统
CN102542159A (zh) * 2011-12-08 2012-07-04 北京空间飞行器总体设计部 一种在轨航天器状态预测方法
WO2013010569A1 (en) * 2011-07-15 2013-01-24 European Space Agency Method and apparatus for monitoring an operational state of a system on the basis of telemetry data
CN105205288A (zh) * 2015-10-28 2015-12-30 中国人民解放军国防科学技术大学 基于模式演化的卫星长期在轨运行状态的预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561878A (zh) * 2009-05-31 2009-10-21 河海大学 基于改进cure聚类算法的无监督异常检测方法和系统
WO2013010569A1 (en) * 2011-07-15 2013-01-24 European Space Agency Method and apparatus for monitoring an operational state of a system on the basis of telemetry data
CN102542159A (zh) * 2011-12-08 2012-07-04 北京空间飞行器总体设计部 一种在轨航天器状态预测方法
CN105205288A (zh) * 2015-10-28 2015-12-30 中国人民解放军国防科学技术大学 基于模式演化的卫星长期在轨运行状态的预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨甲森等: "基于遥测数据相关性的航天器异常检测", 《仪器仪表学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257755A (zh) * 2020-09-24 2021-01-22 北京航天测控技术有限公司 航天器运行状态的分析方法和装置
CN112257755B (zh) * 2020-09-24 2023-07-28 北京航天测控技术有限公司 航天器运行状态的分析方法和装置
CN113312809A (zh) * 2021-04-06 2021-08-27 北京航空航天大学 一种基于相关团划分的航天器遥测数据多参数异常检测方法
CN113344093A (zh) * 2021-06-21 2021-09-03 成都民航空管科技发展有限公司 一种多源ads-b数据异常时标检测方法及系统
CN113344093B (zh) * 2021-06-21 2022-07-05 成都民航空管科技发展有限公司 一种多源ads-b数据异常时标检测方法及系统
CN114398988A (zh) * 2022-01-14 2022-04-26 成都秦川物联网科技股份有限公司 一种天然气能量计量点检测装置的检测方法和系统
CN118133435A (zh) * 2024-05-08 2024-06-04 北京理工大学长三角研究院(嘉兴) 基于svr与聚类的复杂航天器在轨异常检测方法

Also Published As

Publication number Publication date
CN111612048B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN111612048B (zh) 无监督聚类异常检测的方法
Li et al. A multivariate sign chart for monitoring process shape parameters
CN106773693B (zh) 一种工业控制多回路振荡行为稀疏因果分析方法
CN111612050B (zh) 遥测数据异常检测的方法
CN108829878B (zh) 一种工业实验数据异常点检测方法及装置
CN111079836A (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN104899327A (zh) 一种无类别标签的时间序列异常检测方法
CN103197663B (zh) 一种故障预测方法及系统
US10943174B2 (en) Anomaly identification method for structural monitoring data considering spatial-temporal correlation
US12079303B2 (en) Degradation detection system
US20180046917A1 (en) Identification of process anomalies in a technical facility
US20180137409A1 (en) Method of constructing an artifical intelligence super deep layer learning model, device, mobile terminal, and software program of the same
CN111191726A (zh) 一种基于弱监督学习多层感知器的故障分类方法
CN106599367A (zh) 一种航天器状态异常检测方法
CN114265882A (zh) 时序信号点异常检测方法、系统、设备及介质
Zhang et al. Neural network based uncertainty prediction for autonomous vehicle application
CN117171702A (zh) 一种基于深度学习的多模态电网故障检测方法和系统
CN110244690B (zh) 一种多变量工业过程故障辨识方法及系统
CN115795401A (zh) 海洋牧场全要素监测传感器多数据融合系统
CN117591819A (zh) 一种考虑扰动强度阈值与鲁棒性分析的大型设备故障诊断方法
CN105678256A (zh) 信号处理方法、信号处理装置及信号处理系统
US20230086261A1 (en) Clustering device, clustering method, and clustering program
CN114061592B (zh) 基于多模型的自适应鲁棒auv导航方法
CN114139643B (zh) 一种基于机器视觉的单甘酯质量检测方法及系统
CN114037012B (zh) 基于相关性分析与深度学习的飞行数据异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant