CN114692738A - 一种轻量级实时时间序列异常检测方法 - Google Patents

一种轻量级实时时间序列异常检测方法 Download PDF

Info

Publication number
CN114692738A
CN114692738A CN202210264098.6A CN202210264098A CN114692738A CN 114692738 A CN114692738 A CN 114692738A CN 202210264098 A CN202210264098 A CN 202210264098A CN 114692738 A CN114692738 A CN 114692738A
Authority
CN
China
Prior art keywords
aare
data
value
model
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210264098.6A
Other languages
English (en)
Inventor
潘晓光
王小华
张雅娜
陈亮
李娟�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202210264098.6A priority Critical patent/CN114692738A/zh
Publication of CN114692738A publication Critical patent/CN114692738A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于物联网技术领域,具体涉及一种轻量级实时时间序列异常检测方法,包括如下步骤:数据构建:通过时间窗口截取一段数据,作为训练数据;模型构建:将窗口内数据作为训练集,采用自监督方式构建LSTM模型;在线预测:将训练的模型作为检测模型,对之后一定数目的点进行预测;异常检测:计算AARE值,根据AARE值判断数据是否存在异常。本申请主要根据LSTM可以对序列时序关系进行建模,借助统计方法AARE快速对序列进行异常检测。通过以上两步可以避免对异常标记开销,并实现快速对异常数据进行检测。本方案可以达到不弱于其他基于监督学习方式的精度,但开销及相应时间大大小于这些模型。

Description

一种轻量级实时时间序列异常检测方法
技术领域
本发明属于物联网技术领域,具体涉及一种轻量级实时时间序列异常检测方法。
背景技术
在时间序列数据中检测出少部分具有离群、震荡等异常情况的点,以及对异常区域的定位可以在关键时刻提供重要信息。现实中异常点缺乏标记,且不同应用中异常表现形式又有所不同,更重要的是现实中的异常需要被快速检测到,否则可能会导致业务受损。
现有方案一方面需要大量标记数据,然而获取大量标记样本在现实中极为困难,这将导致很高的成本,同时不同应用中,异常形式也有所不同;另一方面,现有方案计算量大难以实时响应异常检测需求,同时由于需要大量数据进行离线训练故无法应对冷启动问题。
发明内容
本发明通过利用少量点学习LSTM序列预测模型,每经过一定的点,计算平均相对误差,并计算误差值的标准差,若该段范围内计算的平均相对误差在3-内,则该段点正常;否则异常,改用最近一段时间的点构建LSTM模型,对该段的点进行预测,若偏离估计值一个阈值则判定该点异常。本发明提供了一种轻量级实时时间序列异常检测方法,包括如下步骤
S100、数据构建:通过时间窗口截取一段数据,作为训练数据;
S200、模型构建:将窗口内数据作为训练集,采用自监督方式构建LSTM模型;
S300、在线预测:将训练的模型作为检测模型,对之后一定数目的点进行预测;
S400、异常检测:计算AARE值,根据AARE值判断数据是否存在异常。
进一步的,步骤S100中,采用基于时间窗口的方法,时间窗口大小设置为b,首先采集b给时序点的值,作为训练数据,其中需要保证起始的b个点不包含异常点信息。
进一步的,步骤S200具体为:采用LSTM模型,并且将数据以自监督的方式进行训练,使得模型学习数据中的时序规律,对后续未遵循时序特征的点当做异常点来处理,将LSTM设置为单层,且隐层神经元个数设置为10,从而使得模型在线上推理中拥有更短的响应时间。
进一步的,S300具体为:在线上使用中,以时间窗口的大小为单位,向后预测b个点的值,并计算平均相对误差AARE,计算方法如下:
Figure BDA0003551900470000021
其中vy为该点实际值,
Figure BDA0003551900470000022
为LSTM给出预测值,然后计算AARE标准差:
Figure BDA0003551900470000023
结合标准差,计算AARE阈值:
thdAARE=μAARE+3·σ
将计算的AARE值与阈值thdAARE进行比较,若计算得到的AARE值在阈值3-δ内则判定该段无异常点并继续监测,否则转入异常诊断步骤。
进一步的,所述S400具体为:由于计算得到的AARE值已经发生变化,所以可以判断此时数据时序结构已发生变化,因此不能基于历史的时序信息构建的模型进行检测,为了获取到最新的数据时序结构,用最近b个点构建新的LSTM模型,重新对该段进行预测,若某个点的预测值与观测值相差超过某个阈值则判定该点异常,同时由于数据时序结构已经变化,因此需要更新AARE均值及阈值,更新方式通过AARE阈值计算公式。
本发明与现有技术相比,具有的有益效果是:
本方案研究了一种基于长短时记忆网络的轻量化实时异常检测算法,主要根据LSTM可以对序列时序关系进行建模,借助统计方法AARE快速对序列进行异常检测。通过以上两步可以避免对异常标记开销,并实现快速对异常数据进行检测。本方案可以达到不弱于其他基于监督学习方式的精度,但开销及相应时间大大小于这些模型。
附图说明
图1本发明的主要步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种轻量级实时时间序列异常检测方法,如图1所示,包括下列步骤:
S100、数据构建:通过时间窗口截取一段数据,作为训练数据;为了避免异常标记开销,需要采取自监督的方式进行学习。我们采取从数据中获取信息来指导异常检测,为了实现轻量化目标,我们需要尽量减少训练所需的数据,因为这将使得我们整体的模型构建开销更小且时间更短。这里我们采用基于时间窗口的方法,我们时间窗口大小设置为b,我们首先采集b给时序点的值,作为训练数据。注意,我们需要保证起始的b个点不包含异常点信息。
S200、模型构建:将窗口内数据作为训练集,采用自监督方式构建LSTM模型;
S300、在线预测:将训练的模型作为检测模型,对之后一定数目的点进行预测;
S400、异常检测:计算AARE值,根据AARE值判断数据是否存在异常。
进一步的,步骤S100中,采用基于时间窗口的方法,时间窗口大小设置为b,首先采集b给时序点的值,作为训练数据,其中需要保证起始的b个点不包含异常点信息。
进一步的,步骤S200具体为:这里我们采用LSTM模型,并且将数据以自监督的方式进行训练。这样可以使得模型学习数据中的时序规律,对后续未遵循时序特征的点当做异常点来处理。具体的,我们将LSTM设置为单层,且隐层神经元个数设置为10,这样可以使得模型在线上推理中拥有更短的响应时间。
进一步的,S300具体为:在线上使用中,以时间窗口的大小为单位,向后预测b个点的值,并计算平均相对误差AARE,计算方法如下:
Figure BDA0003551900470000041
其中vy为该点实际值,
Figure BDA0003551900470000042
为LSTM给出预测值,然后计算AARE标准差:
Figure BDA0003551900470000043
结合标准差,计算AARE阈值:
thdAARE=μAARE+3·σ
将计算的AARE值与阈值thdAARE进行比较,若计算得到的AARE值在阈值3-δ内则判定该段无异常点并继续监测,否则转入异常诊断步骤。
进一步的,所述S400具体为:由于计算得到的AARE值已经发生变化,所以可以判断此时数据时序结构已发生变化,因此不能基于历史的时序信息构建的模型进行检测。为了获取到最新的数据时序结构,我们用最近b个点构建新的LSTM模型,重新对该段进行预测,若某个点的预测值与观测值相差超过某个阈值则判定该点异常。同时由于数据时序结构已经变化,因此我们需要更新AARE均值及阈值,更新方式可参考上述的AARE阈值计算公式。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (5)

1.一种轻量级实时时间序列异常检测方法,其特征在于:包括如下步骤
S100、数据构建:通过时间窗口截取一段数据,作为训练数据;
S200、模型构建:将窗口内数据作为训练集,采用自监督方式构建LSTM模型;
S300、在线预测:将训练的模型作为检测模型,对之后一定数目的点进行预测;
S400、异常检测:计算AARE值,根据AARE值判断数据是否存在异常。
2.根据权利要求1所述的一种轻量级实时时间序列异常检测方法,其特征在于:步骤S100中,采用基于时间窗口的方法,时间窗口大小设置为b,首先采集b给时序点的值,作为训练数据,其中需要保证起始的b个点不包含异常点信息。
3.根据权利要求2所述的一种轻量级实时时间序列异常检测方法,其特征在于:步骤S200具体为:采用LSTM模型,并且将数据以自监督的方式进行训练,使得模型学习数据中的时序规律,对后续未遵循时序特征的点当做异常点来处理,将LSTM设置为单层,且隐层神经元个数设置为10,从而使得模型在线上推理中拥有更短的响应时间。
4.根据权利要求3所述的一种轻量级实时时间序列异常检测方法,其特征在于:S300具体为:在线上使用中,以时间窗口的大小为单位,向后预测b个点的值,并计算平均相对误差AARE,计算方法如下:
Figure FDA0003551900460000011
其中vy为该点实际值,
Figure FDA0003551900460000012
为LSTM给出预测值,然后计算AARE标准差:
Figure FDA0003551900460000021
结合标准差,计算AARE阈值:
thdAARE=μAARE+3·σ
将计算的AARE值与阈值thdAARE进行比较,若计算得到的AARE值在阈值3-δ内则判定该段无异常点并继续监测,否则转入异常诊断步骤。
5.根据权利要求4所述的一种轻量级实时时间序列异常检测方法,其特征在于:所述S400具体为:由于计算得到的AARE值已经发生变化,所以可以判断此时数据时序结构已发生变化,因此不能基于历史的时序信息构建的模型进行检测,为了获取到最新的数据时序结构,用最近b个点构建新的LSTM模型,重新对该段进行预测,若某个点的预测值与观测值相差超过某个阈值则判定该点异常,同时由于数据时序结构已经变化,因此需要更新AARE均值及阈值,更新方式通过AARE阈值计算公式。
CN202210264098.6A 2022-03-17 2022-03-17 一种轻量级实时时间序列异常检测方法 Pending CN114692738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210264098.6A CN114692738A (zh) 2022-03-17 2022-03-17 一种轻量级实时时间序列异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210264098.6A CN114692738A (zh) 2022-03-17 2022-03-17 一种轻量级实时时间序列异常检测方法

Publications (1)

Publication Number Publication Date
CN114692738A true CN114692738A (zh) 2022-07-01

Family

ID=82140009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210264098.6A Pending CN114692738A (zh) 2022-03-17 2022-03-17 一种轻量级实时时间序列异常检测方法

Country Status (1)

Country Link
CN (1) CN114692738A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357840A (zh) * 2022-10-24 2022-11-18 中国水利水电第七工程局有限公司 基于Python语言的设备计算公式的计算方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357840A (zh) * 2022-10-24 2022-11-18 中国水利水电第七工程局有限公司 基于Python语言的设备计算公式的计算方法、装置及电子设备
CN115357840B (zh) * 2022-10-24 2023-01-24 中国水利水电第七工程局有限公司 基于Python语言的设备计算公式的计算方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107092582B (zh) 一种基于残差后验的异常值在线检测及置信度评估方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN112926273B (zh) 一种多元退化设备剩余寿命预测方法
CN111813084B (zh) 一种基于深度学习的机械装备故障诊断方法
WO2022126526A1 (zh) 一种电池温度预测方法及系统
JP2019527413A (ja) 根本的原因分析を実行してプラントワイド操業での希少イベントの発生の予測モデルを構築するコンピュータシステムおよび方法
CN108764568B (zh) 一种基于lstm网络的数据预测模型调优方法及装置
Lee et al. Studies on the GAN-based anomaly detection methods for the time series data
CN111582542B (zh) 一种基于异常修复的电力负荷预测方法及系统
CN110824914B (zh) 一种基于pca-lstm网络的废水处理智能监控方法
CN112734128A (zh) 一种基于优化rbf的7日电力负荷峰值预测方法
CN112990435A (zh) 一种长短时记忆网络电站风机故障预警方法及系统
CN110309537B (zh) 一种飞行器的智能健康预测方法及系统
CN107862324A (zh) 一种基于mwspca的cbr预测模型智能化预警方法
CN112949836A (zh) 对时变分布数据进行回归预测在线迁移学习的方法
CN111598328A (zh) 一种计及疫情事件的电力负荷预测方法
CN114692738A (zh) 一种轻量级实时时间序列异常检测方法
CN113606833B (zh) 基于lstm循环神经网络的冰箱故障预测系统
CN112651444B (zh) 一种基于自学习的非平稳过程异常检测方法
CN113159395A (zh) 一种基于深度学习的污水处理厂进水流量预测方法及系统
US20140052425A1 (en) Method and apparatus for evaluating a model of an industrial plant process
CN116398823A (zh) 一种基于算法的燃气管道检测预警系统及方法
CN109993271A (zh) 基于博弈理论的灰色神经网络预测方法
CN113468720B (zh) 一种数模联动的随机退化设备寿命预测方法
CN112801815B (zh) 一种基于联邦学习的电力通信网络故障预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination