CN111931834B - 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质 - Google Patents

基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质 Download PDF

Info

Publication number
CN111931834B
CN111931834B CN202010755731.2A CN202010755731A CN111931834B CN 111931834 B CN111931834 B CN 111931834B CN 202010755731 A CN202010755731 A CN 202010755731A CN 111931834 B CN111931834 B CN 111931834B
Authority
CN
China
Prior art keywords
data
detection
abnormal
period
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010755731.2A
Other languages
English (en)
Other versions
CN111931834A (zh
Inventor
杨海东
印四华
徐康康
朱成就
许志城
胡罗克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010755731.2A priority Critical patent/CN111931834B/zh
Publication of CN111931834A publication Critical patent/CN111931834A/zh
Application granted granted Critical
Publication of CN111931834B publication Critical patent/CN111931834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及流数据异常检测技术领域,更具体地,涉及基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质,包括以下步骤:S10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;S20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;S30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;S40:判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。能够对模型进行实时更新,解决了流数据中存在噪声和概念漂移导致异常检测结果不精确的问题。

Description

基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质
技术领域
本发明涉及流数据异常检测技术领域,更具体地,涉及基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质。
背景技术
我国是铝型材生产、出口和消费大国。2015年我国铝型材加工材产量达到26000kt/a,铝合金挤压材产量达到14000kt/a,居世界前列。进一步的数据统计显示,2017年中国挤压铝材产量继续攀升,达到了19500kt/a,占全球总产量的55%,拥有各种挤压力的现代化油压机约1850台,约占全球总台数的70%。铝材生产与消费规模在不断扩大,对铝型材生产过程的进一步分析,已经成为促进铝材生产进一步发展的迫切需求。
传感器设备具有价格低廉以及非侵入性的特性,促使物联网技术正越来越多地被应用到工业大数据领域中。由于生产流程复杂,工业设备上的传感器数量众多且取样频率高,数据累积速度极快。产生的数据具有时间序列排布、数据维度高且存在大量无标签数据、机理模型复杂等特点,并且特殊工况的发生常常会带来较大的经济损失。挤压机是铝型材生产线上的核心设备,在发展过程中其结构日趋于大型化、复杂化及自动化,若能对生产过程中出现的异常及时进行检测与分析,将会提高整个生产过程的效率,从而带来较大的应用价值。
异常检测一直以来都是数据挖掘领域的研究热点,被广泛应用于设备状态监测、网络入侵检测以及金融欺诈检测等领域。目前,面向工业生产的异常检测方法的研究主要集中在利用不同的异常检测方法解决不同工业生产环境下的特定问题上。
为了避免发电厂汽轮机健康监测系统由于噪声问题出现不必要的假警报与故障误诊,Ajami应用主成分分析法(PCA)排除了次要的影响因素,提升了故障诊断的正确性和有效性;Kim结合无标签传感设备与边缘计算的场景提出了一种压缩卷积变分自编码器方法(SCVAE),用来解决无标签传感设备在小型生产工厂中的异常检测问题;在分切机运行质量管理与质量控制研究中,kanawaday利用差分整合移动平均自回归(ARIMA)模型对分切机可能产生的错误和质量缺陷进行预测,优化了整个生产过程;针对挤压机设备异常原因复杂、检测方法时效性不足等问题,现有技术中还提出了一种基于贝叶斯网络的铝型材挤压过程异常检测方法,极大地缩短了网络构建周期,提高了检测的效率。但是由于挤压机流数据中存在的噪声和概念漂移导致异常检测结果不精确,基于贝叶斯网络的铝型材挤压过程异常检测方法也无法解决该问题。
另外,在实际场景中,工业生产数据更多的是以流数据的形式表现的。流数据通常数量巨大、生成速度快,而且其分布可能会随着时间的推移而发生变化,即概念漂移现象,导致异常检测结果不精确的问题。现有的HS-Trees算法检测异常存在反馈延迟问题。因此面向流数据的异常检测模型必须及时更新,适应可能发生变化的数据,保证模型的有效性。另外HS-Trees算法的反馈延迟问题的根源在于,在不同长度的检测周期中评分函数值域会发生改变,从而无法通过同一阈值对异常数据进行划分。
发明内容
本发明的目的在于克服现有技术中异常检不精确的不足,提供基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质,能够对模型进行实时更新,解决了流数据中存在噪声和概念漂移导致异常检测结果不精确的问题。
为解决上述技术问题,本发明采用的技术方案是:基于孤立森林算法的铝型材挤压过程流数据异常检测方法,包括以下步骤:
S10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;
S20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;
S30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;
S40:判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。
进一步的,所述的流数据为随时间变化不断增长的数据,所述的流数据包括:
多维流数据:记一组n维时间序列流数据X=<X1,X2,…,Xn>,则任一维度Xi=<…,Xi1,…,Xij,…>;其中,Xij表示第i维数据在j时刻的值,任意一对数(Xij,Xi(j+1))所在两个时刻之间严格递增,且Xi的长度随着新数据的流入不断增长;
多维流数据子序列:在一组n维时间序列流数据X=<X1,X2,…,Xn>中,记长度为m的n维流数据子序列X’=<X1’,X2’,…,Xn’>;其中,对于任一维度Xi’=<Xi1,…,Xim>,|Xi’|=m;
统计特征值:对于任一长度为m的子序列Xi’=<Xi1,…,Xim>,利用不同的描述统计量公式对子序列进行计算得到的值,称为统计特征值;其中,所述的描述统计量包括均值、方差、峰度以及偏度;对于一个长度为m的子序列Xi’,其统计特征值计算公式如式(1)~式(4)所示;
均值是数据中心位置的一种度量,反映总体数据的一般水平,其计算式为:
Figure BDA0002611506640000031
方差反映了数据的变异程度,可以衡量一组数据离散程度,其计算式为:
Figure BDA0002611506640000032
偏度是统计数据分布偏斜方向和程度的度量;偏度小于0,表示当前数据分布为左偏态;反之,表示当前数据分布为右偏态;偏度的绝对值越高,表示数据分布的偏离程度越高,其计算式为
Figure BDA0002611506640000033
峰度是描述总体序列中数据分布形态陡缓程度的统计量;峰度越大表示序列分布越陡峭,峰度越小表示序列数据分布越平坦,其计算式为
Figure BDA0002611506640000034
设备状态向量:设任一统计特征值的计算函数为f(X),其中X为序列数据;对于一组多维流数据子序列X’=<X1’,X2’,…,Xn’>,称多维流数据子序列的统计向量stat(X’)=<f(X1’),f(X2’),…,f(Xn’)>为设备在子序列所属时间段的设备状态向量。
进一步的,在步骤S20中,异常检测过程包括以下步骤:
S201:切割多维流数据子序列;
S202:对切割后的子序列数据进行统计特征值的提取;
S203:构建MHSIF异常检测模型;
S204:采用对MHSIF异常检测模型步骤S202中提取后数据进行异常检测;
S205:合并检测结果并记录周期异常数;
S206:输出检测结果。
进一步的,步骤S201的具体过程为:在子树的构造阶段,得到数据各维度的取值边界,随机选择某一维度,以该维度的中点作为划分点切割子空间。
进一步的,步骤S202的具体过程包括以下步骤:
S2021:通过统计特征名称得到预先定义好的统计特征计算函数;
S2022:按照预先设置好的子序列长度截取多维流数据子序列,并使用统计特征计算函数计算出子序列的统计特征向量;
S2023:合并并输出多维流数据各个统计特征值计算结果。
进一步的,在步骤S202中通过统计特征值提取算法进行统计特征值的提取:
Figure BDA0002611506640000041
进一步的,在步骤S203中,通过MHSIF模型构建算法构建MHSIF异常检测模型:
Figure BDA0002611506640000051
进一步的,步骤S204具体包括以下步骤:
S2041:在开始检测前,判断当前是否进入新的检测周期;进入新的检测周期前,若前一检测周期异常率高于阈值则认为模型出现概念漂移,使用前一周期数据更新模型节点质量并重置记录模型状态的相关变量;
S2042:分别用对应的特征森林计算不同类别特征的平均异常值;计算出平均异常值后进行归一化;
S2043:若某特征归一化后的异常值超过阈值则认为该特征可能存在异常;若数据序列中出现异常的特征数超过两种则认为该数据序列为异常数据序列。
进一步的,在步骤S2042中,
设有任一统计特征向量x,对应的特征值森林T,T的检测周期为n,子树的最大深度为max_depth,则特征向量x在T中的异常值归一化计算公式如式(6)所示;
Figure BDA0002611506640000052
Figure BDA0002611506640000053
H(k)=ln(k)+ξ,ξ=0.5772156649   (8)
式中:E(score(x,t))表示特征向量x在特征值森林中的平均异常分数,c(n)表示在特征值森林中查找失败的平均异常值,H(k)为调和数公式,ξ为欧拉常数计算公式,对归一化后的异常值,判断异常数据的标准为:若特征向量的异常值小于或接近0.5,则认为其是正常实例的可能性较大;若特征向量的异常值远大于0.5,则认为其是异常的可能性很大。
进一步的,在步骤S204中采用MHSIF异常检测算法进行异常检测:
Figure BDA0002611506640000061
基于孤立森林算法的铝型材挤压过程流数据异常检测的电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器,其中,所述的存储器存储有可被所述的处理器执行的指令,所述的指令被至少一个处理器执行,以使至少一个处理器能够:
读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;
进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;
判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;
判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。
进一步的,所述的异常检测过程包括以下步骤:
S201:切割多维流数据子序列;
S202:对切割后的子序列数据进行统计特征值的提取;
S203:构建MHSIF异常检测模型;
S204:采用对MHSIF异常检测模型步骤S202中提取后数据进行异常检测;
S205:合并检测结果并记录周期异常数;
S206:输出检测结果。
存储介质,所述的存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行上述基于孤立森林算法的铝型材挤压过程流数据异常检测方法的所有步骤。
与现有技术相比,本发明的有益效果是:
1、本发明对计算出来的异常值进行归一化,使算法可以利用阈值判断实时反馈异常检测的结果,解决了现有技术中存在的结果反馈延迟问题,使其能更好地适应流数据应用场景;
2、本发明抽取数据的序列特征用来表示设备在某一时间段的状态,避免了噪声数据对异常检测效果的影响,解决了流数据中存在噪声和概念漂移导致异常检测结果不精确的问题。
附图说明
图1为本发明在一个实施例中整体流程示意图;
图2为本发明在一个实施例中异常检测过程示意图;
图3为本发明在一个实施例中HTTP测试数据异常值分布散点图;
图4为本发明在一个实施例中HTTP测试集异常值概率密度分布图;
图5为本发明在一个实施例中不同更新策略下MSHIF算法查全率对比图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例1:
本实施例公开基一种于孤立森林算法的铝型材挤压过程流数据异常检测方法,该方法在半空间孤立森林(HS-Trees)模型的基础上提出,其中半空间孤立森林(HS-Trees)模型子树的建立过程主要分为子树构造与节点质量计算两个阶段。在子树的构造阶段,得到数据各维度的取值边界,随机选择某一维度,以该维度的中点作为划分点切割子空间。更新子空间的维度信息,再次对各子空间进行划分,迭代划分过程得到半空间树,如算法1所示。
算法1 HS-Trees子树构建算法-BuildTree
Figure BDA0002611506640000081
Figure BDA0002611506640000091
在节点质量计算阶段,记录子树各节点中一个检测周期内数据点经过的次数,作为对应节点的质量。子树建立完成后,使用评分函数计算新数据点的异常值,其表达式为。
Figure BDA0002611506640000092
式中:node表示在树T中x经过的所有节点,node.mass表示节点的质量,h为对应节点在树中的深度。
在HS-Trees算法中,称各子树异常值的均值为该数据点的异常值。异常值越小表示该数据点是异常数据的可能性越大,且异常值的大小随子树数量的增多趋于稳定。
在本方法中,其包括以下步骤:
S10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;
S20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;
S30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;
S40:判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。
具体地,流数据为随时间变化不断增长的数据,所述的流数据包括:
多维流数据:记一组n维时间序列流数据X=<X1,X2,…,Xn>,则任一维度Xi=<…,Xi1,…,Xij,…>;其中,Xij表示第i维数据在j时刻的值,任意一对数(Xij,Xi(j+1))所在两个时刻之间严格递增,且Xi的长度随着新数据的流入不断增长;
多维流数据子序列:在一组n维时间序列流数据X=<X1,X2,…,Xn>中,记长度为m的n维流数据子序列X’=<X1’,X2’,…,Xn’>;其中,对于任一维度Xi’=<Xi1,…,Xim>,|Xi’|=m;
统计特征值:对于任一长度为m的子序列Xi’=<Xi1,…,Xim>,利用不同的描述统计量公式对子序列进行计算得到的值,称为统计特征值;其中,所述的描述统计量包括均值、方差、峰度以及偏度;对于一个长度为m的子序列Xi’,其统计特征值计算公式如式(1)~式(4)所示;
均值是数据中心位置的一种度量,反映总体数据的一般水平,其计算式为:
Figure BDA0002611506640000101
方差反映了数据的变异程度,可以衡量一组数据离散程度,其计算式为:
Figure BDA0002611506640000102
偏度是统计数据分布偏斜方向和程度的度量;偏度小于0,表示当前数据分布为左偏态;反之,表示当前数据分布为右偏态;偏度的绝对值越高,表示数据分布的偏离程度越高,其计算式为
Figure BDA0002611506640000103
峰度是描述总体序列中数据分布形态陡缓程度的统计量;峰度越大表示序列分布越陡峭,峰度越小表示序列数据分布越平坦,其计算式为
Figure BDA0002611506640000104
设备状态向量:设任一统计特征值的计算函数为f(X),其中X为序列数据;对于一组多维流数据子序列X’=<X1’,X2’,…,Xn’>,称多维流数据子序列的统计向量stat(X’)=<f(X1’),f(X2’),…,f(Xn’)>为设备在子序列所属时间段的设备状态向量。
结合HS-Trees算法效率高、时间复杂度低的特点与时间序列数据连续相关的特性,本发明以多维流数据子序列的统计向量作为基本检测单元,在开始阶段需要先对多维流数据子序列进行切割,经由统计特征提取算法转换成多种统计特征值后,再由对应的MHSIF异常检测模型计算出对应统计特征向量的异常值,因此,在步骤S20中的异常检测过程如图2所示,包括:
S201:切割多维流数据子序列;
S202:对切割后的子序列数据进行统计特征值的提取;
S203:构建MHSIF异常检测模型;
S204:采用对MHSIF异常检测模型步骤S202中提取后数据进行异常检测;
S205:合并检测结果并记录周期异常数;
S206:输出检测结果。
其中,步骤S201的具体过程为:在子树的构造阶段,得到数据各维度的取值边界,随机选择某一维度,以该维度的中点作为划分点切割子空间。
步骤S202的具体过程包括:
S2021:通过统计特征名称得到预先定义好的统计特征计算函数;
S2022:按照预先设置好的子序列长度截取多维流数据子序列,并使用统计特征计算函数计算出子序列的统计特征向量;
S2023:合并并输出多维流数据各个统计特征值计算结果。
在本实施例中,步骤S204具体包括以下步骤:
S2041:在开始检测前,判断当前是否进入新的检测周期;进入新的检测周期前,若前一检测周期异常率高于阈值则认为模型出现概念漂移,使用前一周期数据更新模型节点质量并重置记录模型状态的相关变量;
S2042:分别用对应的特征森林计算不同类别特征的平均异常值;计算出平均异常值后进行归一化;
S2043:若某特征归一化后的异常值超过阈值则认为该特征可能存在异常;若数据序列中出现异常的特征数超过两种则认为该数据序列为异常数据序列。
进一步的,在步骤S2042中,
设有任一统计特征向量x,对应的特征值森林T,T的检测周期为n,子树的最大深度为max_depth,则特征向量x在T中的异常值归一化计算公式如式(6)所示;
Figure BDA0002611506640000111
Figure BDA0002611506640000112
H(k)=ln(k)+ξ,ξ=0.5772156649   (8)
式中:E(score(x,t))表示特征向量x在特征值森林中的平均异常分数,c(n)表示在特征值森林中查找失败的平均异常值,H(k)为调和数公式,ξ为欧拉常数计算公式,对归一化后的异常值,判断异常数据的标准为:若特征向量的异常值小于或接近0.5,则认为其是正常实例的可能性较大;若特征向量的异常值远大于0.5,则认为其是异常的可能性很大。
特别地,步骤S202中所述的统计特征值的提取通过统计特征值提取算法进行实现,该算法存储于计算机指令中,并由计算机执行,该算法包括:
Figure BDA0002611506640000121
另外,步骤S203中,通过MHSIF模型构建算法构建MHSIF异常检测模型,MHSIF模型构建算法,该算法存储于计算机指令中,并由计算机执行,该算法包括:
Figure BDA0002611506640000122
Figure BDA0002611506640000131
在本实施例中,在步骤S204中采用MHSIF异常检测算法进行异常检测,该算法存储于计算机指令中,并由计算机执行,该算法包括:
Figure BDA0002611506640000132
Figure BDA0002611506640000141
在本实施例中,还公开一种基于孤立森林算法的铝型材挤压过程流数据异常检测的电子设备,包括:
至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述的存储器存储有可被所述的处理器执行的指令,所述的指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
另外,本实施例还公开了一种存储介质,所述的存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行上述基于孤立森林算法的铝型材挤压过程流数据异常检测方法的所有步骤。
实施例2:
本实施例应用实施例1中的方法、设备和存储介质对挤压机进行了实验,实验结果证明,本发明所提出的方法不仅可以实时地检测出挤压机在运行中存在的状态异常,而且有较高的准确性。
该实验具体如下:
1)实验环境与数据
本发明的实验所使用的环境为Intel(R)Core(TM)i5-7300HQ@2.5GHz,16GB RAM,Windows 10 64位系统,算法采用Python 3.7实现。
2)评价指标
本发明采用异常检测领域中最常用的三个指标,正确率、查全率以及精确率,对模型的异常检测性能进行验证。其中,正确率表示模型判断正确的数量占总数据的比例;查全率表示被正确检测出来的异常数目占实际异常总数的比例;精确率表示被正确检测出来的异常数目占被检测为异常的总数的比例。
为了评估MHSIF算法的有效性及检测效果,本实施例设计了两个实验:①验证改进后的HS-Trees模型是否能在原始环境中有效地区分异常数据,解决原算法中异常结果反馈存在延迟的问题;②验证异常检测算法在挤压机流数据的背景下的检测效果。实验使用Ting K M,Zhou G T,Liu F T,et al.Mass estimation and its applications[C]//Proceedings of the 16th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining,Washington,DC,USA,July 25-28,2010.ACM,2010.中所公开的HS-Trees模型设置的相关参数,将检测周期设置为250,森林子树数目为25,子树的最大深度设为15。
3)实验一
实验一使用KDDCup99数据库中的HTTP与SMTP入侵检测数据集进行实验,Ting KM,Zhou G T,Liu F T,et al.Mass estimation and its applications[C]//Proceedingsof the 16th ACM SIGKDD International Conference on Knowledge Discovery andData Mining,Washington,DC,USA,July 25-28,2010.ACM,2010.用其作为实验数据集用来验证HS-Trees模型的有效性。将数据库中的数据导入至本发明中所述的设备中执行,将HS-Trees算法中的评分函数替换为异常值归一化公式,即式(6),将判断异常的阈值设置为0.6。取数据集中各1000条数据作为测试数据,使用替换评分函数后的HS-Trees算法对数据进行异常检测。
使用改进后的HS-Trees算法对HTTP测试数据集进行异常检测。计算后的异常值分布散点图和概率密度分布图如图3和图4所示。由图可知,算法成功将模型计算的异常值范围限制在0到1之间,并且标签为正常的数据的异常值主要集中在0~0.5范围内,标签为异常的数据的异常值主要集中在0.5~1范围内,表明使用本发明所提的判断异常数据的标准可以有效地将异常数据识别出来。并且标签为正常的数据的异常值主要集中在0~0.5范围内,标签为异常的数据的异常值主要集中在0.5~1范围内,表明使用本发明所提的判断异常数据的标准可以有效地将异常数据识别出来。
由表1可知,新的异常数据判断策略有效地检测出了HTTP数据集和SMTP数据集中的异常。使用异常值归一化公式计算异常值可以在保证算法检测性能不降低的前提下解决原算法中异常结果反馈存在延迟的问题。
表1 改进HS-Trees算法异常检测算法结果
Figure BDA0002611506640000151
4)实验二
实验二使用的数据来源于华南某大型铝型材生产企业能源管理系统的数据库,本发明选择挤压车间中型号为SY-3600Ton的挤压机设备在2018年1月至3月采集的生产数据,其中数据为每10秒采集一次的流数据,包含了挤压机、棒炉、冷床、模具炉以及风冷电柜等采集点的用电量、电流和电压数据。将上述数据导入至本方法所述的设备中执行。
在实验前,先对数据进行降采样,取得数据间时间间隔为1分钟的时序数据集,其中,将电量等累计数据进行偏移量计算,得到固定时间间隔的电量偏移量集合,其余数据进行时间间隔等距采样。设当周期内异常率超过3%时认为模型存在概念漂移,以是否更新模型作为变量条件,子序列长度设置为6,使用MHSIF算法进行实验。
由图5可知,随着检测周期的切换,挤压机流数据会发生概念漂移现象,没有采用更新策略的MHSIF模型的查全率在逐步降低。
由表2可知,与采用不更新策略的模型相比,采用更新策略的MHSIF算法在正确率、查全率以及精确率三个方面都有较大的优势。本发明所提出的方案可以有效地检测挤压机在运行中可能存在的设备状态异常。
表2 MHSIF算法异常检测算法结果
Figure BDA0002611506640000161
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,包括以下步骤:
S10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;
S20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;
S30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;
S40:判断当前周期异常率是否大于阈值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止;
其中,所述的流数据为随时间变化不断增长的数据,所述的流数据包括:
多维流数据:记一组n维时间序列流数据X=<X1,X2,…,Xn>,则任一维度Xi=<Xi1,…,Xij,…>;其中,Xij表示第i维数据在j时刻的值,任意一对数(Xij,Xi(j+1))所在两个时刻之间严格递增,且Xi的长度随着新数据的流入不断增长;
多维流数据子序列:在一组n维时间序列流数据X=<X1,X2,…,Xn>中,记长度为m的n维流数据子序列X’=<X1’,X2’,…,Xn’>;其中,对于任一维度Xi’=<Xi1,…,Xim>,|Xi’|=m;
统计特征值:对于任一长度为m的子序列Xi’=<Xi1,…,Xim>,利用不同的描述统计量公式对子序列进行计算得到的值,称为统计特征值;其中,所述的描述统计量包括均值、方差、峰度以及偏度;对于一个长度为m的子序列Xi’,其统计特征值计算公式如式(1)~式(4)所示;
均值是数据中心位置的一种度量,反映总体数据的一般水平,其计算式为:
Figure FDA0004120078820000011
方差反映了数据的变异程度,可以衡量一组数据离散程度,其计算式为:
Figure FDA0004120078820000012
偏度是统计数据分布偏斜方向和程度的度量;偏度小于0,表示当前数据分布为左偏态;反之,表示当前数据分布为右偏态;偏度的绝对值越高,表示数据分布的偏离程度越高,其计算式为
Figure FDA0004120078820000021
峰度是描述总体序列中数据分布形态陡缓程度的统计量;峰度越大表示序列分布越陡峭,峰度越小表示序列数据分布越平坦,其计算式为
Figure FDA0004120078820000022
设备状态向量:设任一统计特征值的计算函数为f(X),其中X为序列数据;对于一组多维流数据子序列X’=<X1’,X2’,…,Xn’>,称多维流数据子序列的统计向量stat(X’)=<f(X1’),f(X2’),…,f(Xn’)>为设备在子序列所属时间段的设备状态向量。
2.根据权利要求1所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,在步骤S20中,异常检测过程包括以下步骤:
S201:切割多维流数据子序列;
S202:对切割后的子序列数据进行统计特征值的提取;
S203:构建MHSIF异常检测模型;
S204:采用MHSIF异常检测模型对步骤S202中提取后数据进行异常检测;
S205:合并检测结果并记录周期异常数;
S206:输出检测结果。
3.根据权利要求2所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,步骤S201的具体过程为:在子树的构造阶段,得到数据各维度的取值边界,随机选择某一维度,以该维度的中点作为划分点切割子空间。
4.根据权利要求3所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,步骤S202的具体过程包括以下步骤:
S2021:通过统计特征名称得到预先定义好的统计特征计算函数;
S2022:按照预先设置好的子序列长度截取多维流数据子序列,并使用统计特征计算函数计算出子序列的统计特征向量;
S2023:合并并输出多维流数据各个统计特征值计算结果。
5.根据权利要求2所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,步骤S204具体包括以下步骤:
S2041:在开始检测前,判断当前是否进入新的检测周期;进入新的检测周期前,若前一检测周期异常率高于阈值则认为模型出现概念漂移,使用前一周期数据更新模型节点质量并重置记录模型状态的相关变量;
S2042:分别用对应的特征森林计算不同类别特征的平均异常值;计算出平均异常值后进行归一化;
S2043:若某特征归一化后的异常值超过阈值则认为该特征可能存在异常;若数据序列中出现异常的特征数超过两种则认为该数据序列为异常数据序列。
6.根据权利要求5所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,在步骤S2042中,设有任一统计特征向量x,对应的特征值森林T,T的检测周期为n,子树的最大深度为max_depth,则特征向量x在T中的异常值归一化计算公式如式(6)所示;
Figure FDA0004120078820000031
Figure FDA0004120078820000032
H(k)=ln(k)+ξ,ξ=0.5772156649                    (8)
式中:E(score(x,t))表示特征向量x在特征值森林中的平均异常分数,c(n)表示在特征值森林中查找失败的平均异常值,H(k)为调和数公式,ξ为欧拉常数计算公式,对归一化后的异常值,判断异常数据的标准为:若特征向量的异常值在0~0.5范围内,则认为其是正常实例的可能性较大;若特征向量的异常值在0.5~1范围内,则认为其是异常的可能性很大。
7.一种应用于权利要求1~6任一项所述的基于孤立森林算法的铝型材挤压过程流数据异常检测的电子设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器,其中,所述的存储器存储有可被所述的处理器执行的指令,所述的指令被至少一个处理器执行,以使至少一个处理器能够:
读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;
进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;
判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;
判断当前周期异常率是否大于阈值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。
8.根据权利要求7所述的基于孤立森林算法的铝型材挤压过程流数据异常检测的电子设备,其特征在于,所述异常检测过程包括以下步骤:
S201:切割多维流数据子序列;
S202:对切割后的子序列数据进行统计特征值的提取;
S203:构建MHSIF异常检测模型;
S204:采用MHSIF异常检测模型对步骤S202中提取后数据进行异常检测;
S205:合并检测结果并记录周期异常数;
S206:输出检测结果。
9.一种存储介质,其特征在于,所述的存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如权利要求1-6任一所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法的所有步骤。
CN202010755731.2A 2020-07-31 2020-07-31 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质 Active CN111931834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010755731.2A CN111931834B (zh) 2020-07-31 2020-07-31 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010755731.2A CN111931834B (zh) 2020-07-31 2020-07-31 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111931834A CN111931834A (zh) 2020-11-13
CN111931834B true CN111931834B (zh) 2023-05-02

Family

ID=73315854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010755731.2A Active CN111931834B (zh) 2020-07-31 2020-07-31 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111931834B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420652B (zh) * 2021-06-22 2023-07-14 中冶赛迪信息技术(重庆)有限公司 一种时序信号片段异常识别方法、系统、介质及终端
CN113496440B (zh) * 2021-06-28 2023-12-12 国网上海市电力公司 一种用户异常用电检测方法及系统
CN113822379B (zh) * 2021-11-22 2022-02-22 成都数联云算科技有限公司 工艺制程异常分析方法、装置、电子设备及存储介质
CN115775122B (zh) * 2022-11-23 2023-12-15 北京城建集团有限责任公司 建筑材料检测验收方法
CN116011894B (zh) * 2023-03-28 2023-06-02 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334105A (zh) * 2019-07-12 2019-10-15 河海大学常州校区 一种基于Storm的流数据异常检测算法
CN110930012A (zh) * 2019-11-15 2020-03-27 广东工业大学 基于敏感性分析及改进阴性选择法的能耗异常定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6782679B2 (ja) * 2016-12-06 2020-11-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置、情報処理方法及びプログラム
CN107657288B (zh) * 2017-10-26 2020-07-03 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN109308306B (zh) * 2018-09-29 2021-07-06 重庆大学 一种基于孤立森林的用户用电异常行为检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334105A (zh) * 2019-07-12 2019-10-15 河海大学常州校区 一种基于Storm的流数据异常检测算法
CN110930012A (zh) * 2019-11-15 2020-03-27 广东工业大学 基于敏感性分析及改进阴性选择法的能耗异常定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fast Anomaly Detection for Streaming Data;Tan S C et al;《Proceedings of the 22nd International Joint Conference on Artificial Intelligence》;20111231;第1511-1516页 *
基于GA-SVR的挤压机能耗异常检测模型研究.pdf;杨海东等;《机床与液压》;20190315;正文第1-6页 *

Also Published As

Publication number Publication date
CN111931834A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931834B (zh) 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质
US11243524B2 (en) System and method for unsupervised root cause analysis of machine failures
CN108038044B (zh) 一种面向连续被监测对象的异常检测方法
de la Hermosa González Wind farm monitoring using Mahalanobis distance and fuzzy clustering
Marti-Puig et al. Effects of the pre-processing algorithms in fault diagnosis of wind turbines
CN111080074B (zh) 基于网络多特征关联的系统服役安全态势要素获取方法
KR20170078252A (ko) 시계열의 데이터를 모니터링 하는 방법 및 그 장치
CN113225209B (zh) 一种基于时间序列相似检索的网络监控实时预警方法
Folmer et al. Detection of temporal dependencies in alarm time series of industrial plants
Calvo-Bascones et al. A collaborative network of digital twins for anomaly detection applications of complex systems. Snitch Digital Twin concept
CN110858072B (zh) 设备运行状态的确定方法及装置
Du et al. Behavioral anomaly detection approach based on log monitoring
CN114881167B (zh) 异常检测方法、装置、电子设备和介质
Zhu et al. Res-HSA: Residual hybrid network with self-attention mechanism for RUL prediction of rotating machinery
Wen et al. A new multi-sensor fusion with hybrid Convolutional Neural Network with Wiener model for remaining useful life estimation
Liu et al. Wind turbine anomaly detection based on SCADA: A deep autoencoder enhanced by fault instances
Guo et al. Manufacturing process monitoring with nonparametric change-point detection in automotive industry
Karuppusamy Machine learning approach to predictive maintenance in manufacturing industry-a comparative study
CN111314110B (zh) 一种用于分布式系统的故障预警方法
CN117034169A (zh) 基于时序因果关系网络的电网主变设备异常状态预测方法
CN114595784A (zh) 物联网多上下文场景的分布式异常检测方法
CN111931798B (zh) 进行冷头状态分类检测和寿命预测的方法
CN117235651B (zh) 基于物联网的企业信息数据优化管理系统
Bones et al. Clustering Multivariate Climate Data Streamsusing Fractal Dimension.
Kovito Fault Detection of Mechanical Equipment Failure Detection Using Intelligent Data Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant