CN114443338A - 面向稀疏负样本的异常检测方法、模型构建方法及装置 - Google Patents

面向稀疏负样本的异常检测方法、模型构建方法及装置 Download PDF

Info

Publication number
CN114443338A
CN114443338A CN202210106023.5A CN202210106023A CN114443338A CN 114443338 A CN114443338 A CN 114443338A CN 202210106023 A CN202210106023 A CN 202210106023A CN 114443338 A CN114443338 A CN 114443338A
Authority
CN
China
Prior art keywords
data
sample
sparse
value
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210106023.5A
Other languages
English (en)
Inventor
鄢红枚
郭旦怀
申莉
张建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sunwise Space Technology Ltd
Original Assignee
Beijing Sunwise Space Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sunwise Space Technology Ltd filed Critical Beijing Sunwise Space Technology Ltd
Priority to CN202210106023.5A priority Critical patent/CN114443338A/zh
Publication of CN114443338A publication Critical patent/CN114443338A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

一种面向稀疏负样本的异常检测方法、模型构建方法及装置,模型构建方法包括:对稀疏负样本数据所处的不同工况进行聚类划分;对当前工况数据集进行空值清洗、无效值处理、数据归一化;对预处理后的数据进行平稳性检验、相关性分析、相似性分析;根据校验及分析结果进行特征工程,计算提取特征并进行特征降维;采用以二叉树为基准的集成算法构建异常检测模型,从降维后的特征组成的样本集中获取训练集,以训练集训练异常检测模型。考虑数据相关性,结合不同维度的特征构建方法提取更准确、有解释性的特征向量空间,有效处理非平稳非线性的历史数据,对极度不均衡样本的高维特征向量进行建模,提高算法模型的可解释性、减少对数据均衡性的依赖。

Description

面向稀疏负样本的异常检测方法、模型构建方法及装置
技术领域
本发明属于装备的故障诊断和智能运维领域,涉及异常检测,尤其涉及一种面向稀疏负样本的异常检测方法、模型构建方法及装置。
背景技术
异常检测是一种运维保障服务,通过对传感器采集的监测参数进行分析,将异常行为从正常行为中分离,并试图找到能检测异常状态的方法,对实时运行的数据进行检测,对发生异常的数据对应的部件采取维保措施,避免因异常处理不及时导致发生严重故障。初期的异常检测策略主要是基于人工定义的规则,并且在后续判别上需要人为跟踪分析,随着诸如航天器这种复杂设备的分系统越来越复杂多元,监测参数越来越多,因此与异常相关的规则越来越复杂,人为的获取全面可靠的规则难度较高,这给异常检测带来了挑战。基于历史检测数据通过数据分析和挖掘获取对异常检测有效的规则和特征信息,建立有效的异常检测模型,可以弥补专家规则获取困难、更新不及时的困难,有助于进一步判断部件和设备的有效状态,为故障诊断和健康评估提供基础,提前给出预警信息。
衡量异常检测模型性能的重要指标是误报率和漏报率,提高检测率的关键在于充分分析和挖掘出历史数据中对异常检测有效的成分,充分考虑多个参数自身特性、参数与参数之间的关联性,并建立准确率高、鲁棒性能优异的算法模型,当发生异常时,通过与算法模型相对应的一组或者多组遥测参数可以映射其对应的状态是否为异常,或者学习异常状态和正常状态之间的偏离关系模型。
目前常用的建模算法包括无监督的聚类,有监督的分类和回归算法,建模前的数据分析也包含很多,因此为了学习得到一个误报率和漏报率都比较低的算法模型,需要全面充分的对单个变量的多种尺度特征以及多变量之间的关联特征进行分析评估,选择能有效衡量正常和异常状态的特征作为算法模型的输入,同时还需要选择合适匹配的算法。
随着复杂设备的可靠度和冗余度越来越高,测试和运行过程中的发生的异常或故障越来越少,因此有效的异常数据越来越稀缺,造成了历史数据的样本极度不均衡。同时,由于航天器的内部结构复杂程度越来越高,因此产生的数据大多呈现非线性非平稳的特点,常规的有监督算法模型和线性回归拟合模型不再适用,且基础的时域特征无法表征数据随时间非平稳变动的隐含特征。面对历史数据存在稀疏负样本的情况,需要从单一的正常状态数据入手,建立表征正常状态数据的模型。
现有技术条件下,对稀疏负样本数据建立异常检测模型的关键在于数据处理阶段的特征选择以及模型构建过程中智能算法的选择和调试,这决定的实时异常检测的准确率和效率,以往的策略主要基于相同型号的专家阈值规则和参数之间关联规则对数据的状态进行监测识别,建立完善、准确、高效的规则库需要耗费大量的人力物力,自动化程度低,而且对于新研制的装备分系统的规则信息更为缺乏,因此健全的规则库几乎不存在;基于纯数据驱动的方法存在忽略遥测数据本身特征和相互特征的缺点。如何在数据驱动建模过程中考虑数据本身的特性是异常检测需要解决的重要问题。
发明内容
针对上述现有技术不足,本发明提供一种面向稀疏负样本的异常检测方法、模型构建方法及装置,提取准确有效的异常状态特征并学习稀疏负样本数据中正常状态和异常状态的特性做描述,在数据分析阶段考虑数据的相关性机理,并结合不同维度的特征构建方法提取更准确、有解释性的特征向量空间,有效处理非平稳非线性的历史数据,对极度不均衡样本的高维特征向量进行建模,并将不同工况区分进行特征迁移学习,结合聚类算法和新异类算法模型,以实现异常检测模型构建,提高算法模型的可解释性、完善遥测参数的规则信息、减少对数据均衡性的依赖。
为了实现本发明的目的,拟采用以下方案:
一种面向稀疏负样本的异常检测模型构建方法,其特征在于,包括步骤:
S1、对样本数据所处的不同工况进行聚类划分,将样本数据分为不同数据集,所述样本数据为稀疏负样本。根据样本点的分簇情况将数据分为不同工况,后续继续相应工况开展分析和建模,对于实时数据的异常检测也需要根据工况分别检测。
S2、选择当前工况对应的数据集进行数据预处理,数据预处理包括空值清洗、无效值处理、数据归一化。
S21、空值清洗:根据空值的占比对数据集进行删除或者填充,设置行或者列对应数据的空值比例,当空值大于该比例时,直接删除该行或者列,反之填充0或者均值。
S22、无效值处理:使用箱线图对于符合预设异常度的数据点进行剔除。
S23、数据归一化:对数据集的数据做线性转换,使结果落在预定区间[a,b]内。一般是[0,1]区间,可根据最大值、最小值转换,也可根据均值和方差进行转换。
S3、数据分析,结合先验知识的数据特性,对预处理后的数据(遥测数据)进行可视化描述分析、统计分析、频域分析和时频域分析,统计分析包括单参数的平稳性检验和多参数的相关性分析和相似性分析等。
S31、可视化描述,计算常规统计量,对数据的分布进行观察了解;
S32、统计分析,对数据/信号进行相关性分析,计算Pearson、Spearman、kendall相关系数,三种相关系数的阈值按照统计分析的理论,按照bagging的理论多次有放回的随机选择样本计算相关系数,首先筛选出不符合高度相关性的参数组,即基础相关系数需要大于0.8,在符合初步条件的基础上,按照统计理论,计算其期望作为相关系数阈值,该阈值即可作为初步的评判依据;然后对信号进行平稳性检验,采用ADF检验评估信号是否平稳;还需要对信号进行相似性分析,包括计算欧式距离、曼哈顿距离和动态时间规划,分析两两之间的相似度。
S4、特征工程:对数据按照滑窗方式对每个子序列样本依次计算多维特征,并结合数据的统计分析特性和特征的冗余情况对特征进行选择和提取。
S41、特征构建,根据对信号的分析结果进行不同域的特征提取,按照滑动窗口的方式将时间序列的信号分成多个子序列,对于序列长度为N的数据,设置窗口的大小为m,每次移动的速度为p,每次选取m长度的子序列计算特征值,然后在时间轴上滑动p,重复计算特征值。对于平稳的信号提取时域特征,包括有量纲指标有均值、均方根值、峭度、方根幅值、峰峰值、方差和标准差以及无量指标有峰值指标、脉冲指标、波形指标、裕度指标、峭度指标。对于非平稳的信号提取时频域特征,包括对子序列进行n层小波包分解之后提取2 n-1个节点上的分解系数的能量值,分解的方式如下公式,将信号分别通过高通滤波器和低通滤波器分解到不同尺度上,分解系数如下公式表示:
Figure 412136DEST_PATH_IMAGE001
其中g(k)h(k)分别表示低通滤波器组和高通滤波器组,用矩阵表示。
提取经验模态分解特征,对子序列进行EMD分解,并提取有效成分的IMF分量,并计算能量熵值作为特征。
S42、特征降维,对特征采取无监督的相关系数剔除和主成分分析进行降维。
S5、异常检测模型构建:选择无监督的新异类算法,用于对无标签的单类样本检测新异类,由于极度不均衡的样本大都只包含正常状态样本,因此主要是对正常状态进行描述,并且训练的模型还需要能描述异常样本,采用以二叉树为基准的集成算法构建异常检测模型,将降维的特征向量空间作为算法输入,调节算法的污染度和其它参数,将特征组成的样本集划分成训练集和测试集,使用训练集训练模型并使用测试集对模型进行评估。
一种面向稀疏负样本的异常检测模型构建装置,包括:
聚类模块,用于对样本数据所处的不同工况进行聚类划分,将样本数据分为不同数据集,所述样本数据为稀疏负样本;
预处理模块,用于选择当前工况对应的数据集进行数据预处理,数据预处理包括空值清洗、无效值处理和数据归一化;
分析模块,用于结合先验知识的数据特性对预处理后的数据进行平稳性检验、相关性分析、相似性分析;
特征模块,用于根据校验及分析结果进行不同域的特征提取,提取采用滑窗方式将预处理后的数据分成多个子序列,并对每个子序列样本依次计算多维特征;并用于对特征采取无监督的相关系数剔除和主成分分析进行降维;
模型构建模块,用于采用以二叉树为基准的集成算法构建异常检测模型,并从降维后的特征组成的样本集中获取训练集,以训练集训练异常检测模型。
一种面向稀疏负样本的异常检测方法,包括步骤:对输入的实时稀疏负样本数据进行特征提取和降维,然后输入面向稀疏负样本的异常检测模型构建方法获得的异常检测模型,利用异常检测模型进行异常判别,输出异常检测结果。
一种面向稀疏负样本的异常检测装置,包括:
特征提取模块,用于对输入的实时稀疏负样本数据进行特征提取和降维;
异常检测模型,用于将特征提取模块处理后的特征作为输入以进行异常判别,输出异常检测结果;所述异常检测模型通过所述的面向稀疏负样本的异常检测模型构建方法,或通过所述的面向稀疏负样本的异常检测模型构建装置获得。
一种面向稀疏负样本的异常检测设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行面向稀疏负样本的异常检测模型构建方法,或执行面向稀疏负样本的异常检测方法。
一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行面向稀疏负样本的异常检测模型构建方法,或执行面向稀疏负样本的异常检测方法。
本发明的有益效果在于:
本发明面向来源主要是高可靠性、高冗余性的系统部件的稀疏负样本的数据,这种数据常常伴随这工况所涉及到的工况繁多、异常状态的表现形式众多且指标不一致,通过本发明的方案只需要运行和测试阶段的正常状态样本数据以及先验的基本数据特性,就可以据此将不同工况区分并分别建模,并能结合相关性机理分析提取多域合理有效的特征,并训练出用于实时数据异常检测的异常检测模型,从而提高测试数据和先验知识的利用效率,提升状态检测和状态监测的准确率和鲁棒性。
附图说明
本文描述的附图只是为了说明所选实施例,而不是所有可能的实施方案,更不是意图限制本发明的范围。
图1为本申请实施例的面向稀疏负样本的异常检测方法的整体流程图。
图2为本申请实施例的衍生特征构建过程。
图3为本申请实施例的异常检测模型模型构建流程图。
图4为本申请实施例的异常检测模型示意图。
图5为本申请实施例的异常检测结果示意图。
图6为本申请实施例的异常检测模型构建装置结构框图。
图7为本申请实施例的异常检测装置结构框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明做进一步的详细描述。
本申请实施例的一个方面,提供一种面向稀疏负样本的异常检测模型构建方法,如图1中的建模层流程示意图所示,具体包括如下步骤:
S0、首先从历史数据库中获取目标对象的历史数据,作为样本数据。所述样本数据为稀疏负样本,属于复杂装备系统的数据。
S1、对复杂装备系统的样本数据所处的不同飞行工况进行kmeans聚类划分,根据三轴姿态数据的分簇情况将历史数据分为姿态稳定段工况和姿态机动段工况。由于三轴姿态数据为三维数据,选择的曼哈顿距离作为聚类标准,对于给定的样本数据,设置预定的簇数为5,根据轮廓系数和类间距离的分布,采用手肘法判断当前样本数据分为2簇,并结合姿态数据角速度和角度信息结合判断工况为姿态稳定段和姿态机动段,将样本数据分为对应的两个数据集:姿态稳定段工况的数据集为54366条,姿态机动段工况的数据集为1700多条。
S2、选择当前工况对应的数据集进行数据预处理,数据预处理包括空值清洗、无效值处理、数据归一化,以及基于数据的先验特性信息筛选和融合数据。
S21、空值清洗:根据空值的占比对数据集进行删除或者填充,设置行或者列对应数据的空值比例,当空值大于该比例时,直接删除该行或者列,反之填充0或者均值。比如:对于测试任务中断而记录错误以及冗余部件热备份的数据为空值的情况,删除空值比例大于20%的列,其余列的空值设置/填充为列数据的均值。
S22、无效值处理:使用箱线图对于符合预设异常度的数据点进行剔除。
首先计算数据集的最值、下四分位数Q1、中位数Q2、上四分位数Q3,然后计算最小估计值为Q1-k(Q3-Q1)、最大估计值为Q3+k(Q3-Q1),k=1.5表示中度异常,k=3表示极度异常,将极度异常的数据点清除。
S23、数据归一化:对数据集的数据做线性转换,使结果落在预定区间[a,b]内。一般是[0,1]区间,可根据最大值、最小值转换,也可根据均值和方差进行转换。对于测试数据不服从统计分布的情况,选择对分布没有要求的最大最小值归一化处理,落在[0,1]区间内,转换的公式为:x *=xi-min(xi)/(max(xi)-min(xi)),xi表示测试数据的值,计算遥测参数的最大值和最小值,对所有参数进行转换,使其能在相同的量级中进行运算比较。
S3、数据分析:结合先验知识的数据特性,了解到对遥测数据不同角度的太敏之间数据存在相关性,对预处理后的数据进行可视化描述分析、统计分析、频域分析和时频域分析,统计分析包括单参数的平稳性检验和多参数的相关性分析和相似性分析等。
S31:可视化描述分析,计算常规统计量均值、方差、中位数和最值,分不同的试验段观察统计量的变化情况,对数据绘制一维、二维和三维的可视化分布观察。
S32、统计分析中,对数据进行相关性分析,计算所有变量两两之间的Pearson、Spearman、kendall相关系数,记录对相关系数大于0.8的变量对;对数据进行平稳性校验,采用ADF检验评估信号是否平稳,设置置信度为95%,结合一维散点图和检验值共同分析平稳性;相似性分析,是通过计算欧式距离、曼哈顿距离和动态时间规划,分析两两之间的相似度实现。
S4、特征工程:对数据按照滑窗方式对每个子序列样本依次计算多维特征,并结合数据的统计分析特性和特征的冗余情况对特征进行选择和提取。
S41、特征构建,流程如图2所示,根据校验及分析结果进行不同域的特征提取,按照滑动窗口的方式将时间序列的信号分成多个子序列,对于序列长度为N的数据,设置窗口的大小为m,每次滑动的速度为p,每次选取m长度的子序列计算特征值,然后在时间轴上滑动p,重复计算特征值。具体的,对S3中相关系数大于0.8的参数对划分窗口,窗口大小设置1000,每次移动的速度为200,计算每个子序列对的相关系数,保存在数据表中。
若平稳性校验为平稳,比如平稳的角速度和位置信号,提取时域特征,包括有量纲指标和无量纲指标,有量纲指标包括均值、均方根值、峭度、方根幅值、峰峰值、方差和标准差,无量指标包括峰值指标、脉冲指标、波形指标、裕度指标、峭度指标。
若平稳性校验不为平稳,比如非平稳的零偏和太敏角度信号,提取时频域特征,包括小波包特征和EMD特征,提取小波包特征是对子序列进行n层小波包分解之后提取2 n-1个节点上的分解系数的能量值,分解的方式如下公式,将预处理后的数据分别通过高通滤波器和低通滤波器分解到不同尺度上:
Figure 735801DEST_PATH_IMAGE001
其中g(k)h(k)分别表示低通滤波器组和高通滤波器组,用矩阵表示。
具体的,可以是对子序列进行3层小波包分解之后提取8个节点上分解系数的能量值。提取EMD特征(经验模态分解特征)是对子序列进行EMD分解,并提取前5个有效成分较高的IMF分量,并计算能量熵值作为特征。
若相关性分析满足相关性,提取相关系数特征;若不满足相关性,结束。
S42、特征降维,针对稀疏负样本属于无监督的状况,对特征采取无监督的相关系数剔除和主成分分析(PCA)进行降维。分别计算特征向量之间的preason相关系数,对于相关系数超过0.8的特征组合,剔除其中一个特征,递归剔除冗余特征。
对于相关系数均不高的高维特征向量集则采用PCA进行降维,将高维特征通过正交变换将其转换为一组线性不相关的变量,转换之后的这组变量则为主成分,可有效对构建较多的衍生特征进行降维处理。具体的:首先是对原始d维数据做标准化处理,构造样本的方差矩阵,计算协方差矩阵的特征值和相应的特征向量,选择与前k个最大特征值对应的特征向量,其中k为新特征空间的维度(k<=d),通过前k个特征向量构建映射矩阵W,通过映射矩阵W将d维的输入数据集X转换到新的k维特征子空间,选择能使方差贡献率百分比达到95%的主成分。
S5、异常检测模型构建:选择无监督的新异类算法,采用以二叉树为基准的集成算法构建异常检测模型,将降维的特征向量空间作为算法输入,调节算法的污染度和其它参数,将特征组成的样本集划分成训练集和测试集,使用训练集训练模型并使用测试集对模型进行评估。
S51、将提取的特征向量组成的样本集按照设置的不同随机数种子和不同的比例划分成训练集和测试集,具体的比例可为0.4,分成训练集train_set和测试集test_set,调用sklean中的样本处理接口。
S52、对于极度不均衡的样本,建模的机器学习算法必须包含两个要点,一是不能对标签有限制,二是不仅需要能表述正常状态的样本,还需要能描述异常样本。设备发生异常时,监测参数往往会在某个域度的特征上表现出与正常状态下不一样。此为由于稀疏负样本的异常数据表现形式即为少且不同,因此如何将正常与异常划分并且能表征划分异常的依据则是算法模型需要,本实例采用的异常检测算法是以一种以二叉树为基准的集成算法,其划分的依据就是稀疏异常数据少且不同,依据通过树的节点可根据特征属性的差异分开,而正常样本是通过聚类之后保留的密度较高的簇,因此需要被划分多次才能被隔离,密度较低的异常点则会比较同意被隔离,构建的流程如图3所示。主要包括树的生成和集成、异常的判别。
树的生成和集成包括:
S521、随机从正常样本中选择256个样本点,作为二叉树的根节点;
S522、随机选择样本集(前面步骤获得的特征组成的)的一个属性q,并以属性q的属性值q_value的最大值、最小值中的随机一个值作为分割点p,设置树的深度h_limit=ceiling(log2256),ceiling表示对数函数计算值的取整;
S523、判断当前结点所处的深度是否达到预设树的最大深度,样本集中的属性值q_value相差是否不超过预定百分比。通过添加差值阈值判据,避免了树的节点过多导致算法模型的复杂度高,避免了由于异常状态的机理不同导致同一批样本中存在不同形式的异常数据,而不同原因导致的异常数据之间也存在差异。然后根据每个样本点属性q_value和分割点p的比较分为左右子节点,循环的构建多颗二叉树。
若当前结点所处的深度未达到预设树的最大深度,且样本集中的属性值q_value相差超过预定百分比,则判断分割点p与每个样本点属性值q_value的差值,若差值大于0,作为左结点,然后循环执行S522,若差值小于等于0,作为右节点,然后循环执行S522;
若当前结点所处的深度达到预设树的最大深度,或样本集中的属性值q_value相差不超过预定百分比,则确定叶子结点,输出一棵树,并判断当前输出的树的颗数是否达到预设值,若否,则循环执行S522,若是,则结束。
形成的异常检测模型如图4所示。
异常判别包括:
S531、将样本x遍历每棵树;
S532、根据落在的每棵树的结点所处的深度均值作为路径长度h(x),包含n个样本的数据集X的树平均路径长度则为c(x)=2H(n-1)-2(n-1)n,其中,H(n-1)=ln(n-1)+0.5772156649;
S533、计算异常得分s(x,n)=2-E(h(x))c(n),当样本x的路径的期望E(h(x))→c(n)时,s→0.5,不易区分是否是异常,当E(h(x))→0时,s→1,异常得分接近1,判定为异常,当E(h(x))→n-1,判别为正常。
S6:模型评估,由于当前数据集不存在异常样本,但是不同工况下的数据差异很大,因此使用交互验证的方式对模型进行评估,使用机动段的数据对平稳段的进行评估,异常检测准确率能达到95%。常规的分类算法例如SVM或者随机森林对模型训练阶段就需要引入均衡且有标签的负样本,因此不适用于这种无标签且不极度不均衡的数据。
在此基础上,本申请实施例的另一方面,提供一种面向稀疏负样本的异常检测方法,如图1中检测层流程所示,具体包括如下步骤:
对输入的实时稀疏负样本数据进行特征提取和降维,然后输入本申请实施例构建方法获得的异常检测模型,利用异常检测模型进行异常判别,输出异常检测结果。
具体的,对实时数据按照相应的特征构建方式提取衍生特征,并进行降维处理,作为已训练好的异常检测模型的输入,对实时数据进行检测,与姿态数据设置的阈值异常判别方法相比准确率可提高90%以上,如图5所示,两条竖线外均为稳定段的数据,使用其中的60%作为训练集训练异常检测模型,对异常数据Error的检测准确率可达到98%。
进一步,通过对异常检测结果构建样本库,以用于进行模型评估。
本申请实施例的另一方面,提供一种面向稀疏负样本的异常检测模型构建装置,如图6所示,包括聚类模块、预处理模块、分析模块、特征模块、模型构建模块。
聚类模块用于对样本数据所处的不同工况进行聚类划分,将样本数据分为不同数据集,所述样本数据为稀疏负样本。聚类模块具体进行聚类划分方式如前文实施例中的S1所述。
预处理模块用于选择当前工况对应的数据集进行数据预处理,数据预处理包括空值清洗、无效值处理和数据归一化。预处理模块具体进行数据预处理方式如前文实施例中的S2所述。
分析模块用于结合先验知识的数据特性对预处理后的数据进行平稳性检验、相关性分析、相似性分析。分析模块具体进行校验及分析方式如图前文实施例中的S3所述。
特征模块用于根据校验及分析结果进行不同域的特征提取,提取采用滑窗方式将预处理后的数据分成多个子序列,并对每个子序列样本依次计算多维特征;并用于对特征采取无监督的相关系数剔除和主成分分析进行降维。特征模块具体进行计算提取和降维方式如全文实施例的S4所述。
模型构建模块用于采用以二叉树为基准的集成算法构建异常检测模型,并从降维后的特征组成的样本集中获取训练集,以训练集训练异常检测模型。模型构建模块具体进行构建方式如前文实施例的S5所示。
本申请实施例的另一方面,提供一种面向稀疏负样本的异常检测装置,如图7所示,包括特征提取模块和异常检测模型。具体的,所述异常检测模型本申请实施例的面向稀疏负样本的异常检测模型构建方法,或面向稀疏负样本的异常检测模型构建装置获得模型。
特征提取模块用于对实时数据按照相应的特征构建方式提取衍生特征,并进行降维处理,作为已训练好的异常检测模型的输入;异常检测模型用于将特征提取模块处理后的特征作为输入以进行异常判别,输出异常检测结果。
本申请实施例的另一方面,提供一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本申请实施例所述的面向稀疏负样本的异常检测模型构建方法,或面向稀疏负样本的异常检测方法。
本申请实施例的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本申请实施例所述的面向稀疏负样本的异常检测模型构建方法,或执行面向稀疏负样本的异常检测方法。
以上仅为本发明的优选实施例,并不表示是唯一的或是限制本发明。本领域技术人员应理解,在不脱离本发明的范围情况下,对本发明进行的各种改变或同等替换,均属于本发明保护的范围。

Claims (10)

1.一种面向稀疏负样本的异常检测模型构建方法,其特征在于,包括步骤:
S1、对样本数据所处的不同工况进行聚类划分,将样本数据分为不同数据集,所述样本数据为稀疏负样本;
S2、选择当前工况对应的数据集进行数据预处理,数据预处理包括空值清洗、无效值处理和数据归一化;
S3、结合先验知识的数据特性对预处理后的数据进行平稳性检验、相关性分析、相似性分析;
S4、特征工程:
S41、特征构建,根据校验及分析结果进行不同域的特征提取,提取采用滑窗方式将预处理后的数据分成多个子序列,并对每个子序列样本依次计算多维特征;
S42、特征降维,对特征采取无监督的相关系数剔除和主成分分析进行降维;
S5、采用以二叉树为基准的集成算法构建异常检测模型,并从降维后的特征组成的样本集中获取训练集,以训练集训练异常检测模型。
2.根据权利要求1所述的面向稀疏负样本的异常检测模型构建方法,其特征在于,采用以二叉树为基准的集成算法构建异常检测模型,包括树的生成和集成:
S521、随机从正常样本中选择预定数量的样本点,作为二叉树的根节点;
S522、随机选择样本集的一个属性q,并以属性q的属性值q_value的最大值、最小值中的随机一个值作为分割点p,设置树的深度h_limit=ceiling(log2256);
S523、判断当前结点所处的深度是否达到预设树的最大深度,样本集中的属性值q_value相差是否不超过预定百分比;
若当前结点所处的深度未达到预设树的最大深度,且样本集中的属性值q_value相差超过预定百分比,则判断分割点p与每个样本点属性值q_value的差值,若差值大于0,作为左结点,然后循环执行S522,若差值小于等于0,作为右节点,然后循环执行S522;
若当前结点所处的深度达到预设树的最大深度,或样本集中的属性值q_value相差不超过预定百分比,则确定叶子结点,输出一棵树,并判断当前输出的树的颗数是否达到预设值,若否,则循环执行S522,若是,则结束。
3.根据权利要求2所述的面向稀疏负样本的异常检测模型构建方法,其特征在于,采用以二叉树为基准的集成算法构建异常检测模型,还包括异常判别:
S531、将样本x遍历每棵树;
S532、根据落在的每棵树的结点所处的深度均值作为路径长度h(x),包含n个样本的数据集X的树平均路径长度则为c(x)=2H(n-1)-2(n-1)n,其中,H(n-1)=ln(n-1)+0.5772156649;
S533、计算异常得分s(x,n)=2-E(h(x))c(n),当样本x的路径的期望E(h(x))→c(n)时,s→0.5,不易区分是否是异常,当E(h(x))→0时,s→1,异常得分接近1,判定为异常,当E(h(x))→n-1,判别为正常。
4.根据权利要求1所述的面向稀疏负样本的异常检测模型构建方法,其特征在于,S1中具体是对复杂装备系统的样本数据所处的不同飞行工况进行kmeans聚类划分,选择的曼哈顿距离作为聚类标准,对于给定的样本数据,设置预定的簇数,根据轮廓系数和类间距离的分布,采用手肘法判断当前样本数据分为2簇,并结合姿态数据角速度和角度信息结合判断工况为姿态稳定段和姿态机动段,将样本数据分为对应的两个数据集。
5.根据权利要求1所述的面向稀疏负样本的异常检测模型构建方法,其特征在于,根据校验及分析结果进行不同域的特征提取,具体是:
若平稳性校验为平稳,提取时域特征,包括有量纲指标和无量纲指标,有量纲指标包括均值、均方根值、峭度、方根幅值、峰峰值、方差和标准差,无量指标包括峰值指标、脉冲指标、波形指标、裕度指标、峭度指标;
若平稳性校验不为平稳,提取时频域特征,包括小波包特征和EMD特征,提取小波包特征是对子序列进行n层小波包分解之后提取2 n-1个节点上的分解系数的能量值,分解的方式如下公式,将预处理后的数据分别通过高通滤波器和低通滤波器分解到不同尺度上,
Figure DEST_PATH_IMAGE001
其中g(k)h(k)分别表示低通滤波器组和高通滤波器组,用矩阵表示;
提取EMD特征是对子序列进行EMD分解,并提取有效成分的IMF分量,并计算能量熵值作为特征;
若相关性分析满足相关性,提取相关系数特征;若不满足相关性,结束。
6.一种面向稀疏负样本的异常检测模型构建装置,其特征在于,包括:
聚类模块,用于对样本数据所处的不同工况进行聚类划分,将样本数据分为不同数据集,所述样本数据为稀疏负样本;
预处理模块,用于选择当前工况对应的数据集进行数据预处理,数据预处理包括空值清洗、无效值处理和数据归一化;
分析模块,用于结合先验知识的数据特性对预处理后的数据进行平稳性检验、相关性分析、相似性分析;
特征模块,用于根据校验及分析结果进行不同域的特征提取,提取采用滑窗方式将预处理后的数据分成多个子序列,并对每个子序列样本依次计算多维特征;并用于对特征采取无监督的相关系数剔除和主成分分析进行降维;
模型构建模块,用于采用以二叉树为基准的集成算法构建异常检测模型,并从降维后的特征组成的样本集中获取训练集,以训练集训练异常检测模型。
7.一种面向稀疏负样本的异常检测方法,其特征在于,包括步骤:
对输入的实时稀疏负样本数据进行特征提取和降维,然后输入通过权利要求1~5中任意一项所述的面向稀疏负样本的异常检测模型构建方法获得的异常检测模型,利用异常检测模型进行异常判别,输出异常检测结果。
8.一种面向稀疏负样本的异常检测装置,其特征在于,包括:
特征提取模块,用于对输入的实时稀疏负样本数据进行特征提取和降维;
异常检测模型,用于将特征提取模块处理后的特征作为输入以进行异常判别,输出异常检测结果;所述异常检测模型通过权利要求1~5中任意一项所述的面向稀疏负样本的异常检测模型构建方法获得,或通过权利要求6所述的面向稀疏负样本的异常检测模型构建装置获得。
9.一种面向稀疏负样本的异常检测设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;其特征在于,在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1~5中任意一项所述的面向稀疏负样本的异常检测模型构建方法,或执行如权利要求7所述的面向稀疏负样本的异常检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1~5中任意一项所述的面向稀疏负样本的异常检测模型构建方法,或执行如权利要求7所述的面向稀疏负样本的异常检测方法。
CN202210106023.5A 2022-01-28 2022-01-28 面向稀疏负样本的异常检测方法、模型构建方法及装置 Pending CN114443338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210106023.5A CN114443338A (zh) 2022-01-28 2022-01-28 面向稀疏负样本的异常检测方法、模型构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210106023.5A CN114443338A (zh) 2022-01-28 2022-01-28 面向稀疏负样本的异常检测方法、模型构建方法及装置

Publications (1)

Publication Number Publication Date
CN114443338A true CN114443338A (zh) 2022-05-06

Family

ID=81369465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210106023.5A Pending CN114443338A (zh) 2022-01-28 2022-01-28 面向稀疏负样本的异常检测方法、模型构建方法及装置

Country Status (1)

Country Link
CN (1) CN114443338A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115825755A (zh) * 2022-12-30 2023-03-21 哈尔滨光宇新能源有限公司 一种储能电池电芯电压一致性评估方法
CN116186503A (zh) * 2022-12-05 2023-05-30 广州大学 一种面向工控系统的恶意流量检测方法、装置及计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186503A (zh) * 2022-12-05 2023-05-30 广州大学 一种面向工控系统的恶意流量检测方法、装置及计算机存储介质
CN115825755A (zh) * 2022-12-30 2023-03-21 哈尔滨光宇新能源有限公司 一种储能电池电芯电压一致性评估方法
CN115825755B (zh) * 2022-12-30 2023-09-19 哈尔滨昆宇新能源有限公司 一种储能电池电芯电压一致性评估方法

Similar Documents

Publication Publication Date Title
US8630962B2 (en) Error detection method and its system for early detection of errors in a planar or facilities
US11669080B2 (en) Abnormality detection device, abnormality detection method, and program
CN114443338A (zh) 面向稀疏负样本的异常检测方法、模型构建方法及装置
CN113255848A (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN111898639B (zh) 基于降维的分层时间记忆工业异常检测方法与装置
KR100795227B1 (ko) 센서 어레이 신호 패턴 분석 방법 및 장치
CN116861354A (zh) 电力变压器监测数据的异常识别及模式区分方法及系统
CN115062272A (zh) 一种水质监测数据异常识别及预警方法
US11692910B2 (en) Abnormality diagnostic device, abnormality diagnostic method, and program
Lei et al. Fault diagnosis of rotating machinery based on a new hybrid clustering algorithm
CN113780432B (zh) 基于增强学习的网络信息系统运维异常智能检测方法
Sun et al. A wireless sensor network node fault diagnosis model based on belief rule base with power set
CN115310499B (zh) 一种基于数据融合的工业设备故障诊断系统及方法
Davy et al. Generative supervised classification using dirichlet process priors
Alinezhad et al. A modified bag-of-words representation for industrial alarm floods
Kim et al. Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams
CN115576981A (zh) 一种基于有监督算法与无监督算法相结合的异常检测方法
CN114046816B (zh) 基于轻量级梯度提升决策树的传感器信号故障诊断方法
CN114137915A (zh) 一种工业设备的故障诊断方法
Cannarile et al. A novel method for sensor data validation based on the analysis of wavelet transform scalograms
Soleimani-Babakamali Toward a general novelty detection framework in structural health monitoring; challenges and opportunities in deep learning
CN112541554B (zh) 基于时间约束的核稀疏表示的多模态过程监控方法及系统
Wang et al. Study on missing data filling algorithm of nuclear power plant operation parameters
Li et al. Control chart pattern recognition under small shifts based on multi-scale weighted ordinal pattern and ensemble classifier
Zhang et al. Predictive temporal patterns detection in multivariate dynamic data system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination