CN112148955A - 一种物联网时序数据异常检测方法及系统 - Google Patents

一种物联网时序数据异常检测方法及系统 Download PDF

Info

Publication number
CN112148955A
CN112148955A CN202011137988.8A CN202011137988A CN112148955A CN 112148955 A CN112148955 A CN 112148955A CN 202011137988 A CN202011137988 A CN 202011137988A CN 112148955 A CN112148955 A CN 112148955A
Authority
CN
China
Prior art keywords
internet
things
data
tested
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011137988.8A
Other languages
English (en)
Other versions
CN112148955B (zh
Inventor
关东海
肖辉
袁伟伟
陈兵
屠要峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202011137988.8A priority Critical patent/CN112148955B/zh
Publication of CN112148955A publication Critical patent/CN112148955A/zh
Application granted granted Critical
Publication of CN112148955B publication Critical patent/CN112148955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种物联网时序数据异常检测方法及系统。所述方法包括:获取待测试的物联网时序数据;对待测试的物联网时序数据进行划分得到待测试时间序列数据段集;将待测试时间序列数据段集输入至训练好的半监督自编码模型中得到检测结果;训练好的半监督自编码模型是以无标记的物联网时序数据、有标记的物联网时序数据待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的。本发明能在提高时序数据异常检测的准确度的同时,降低成本。

Description

一种物联网时序数据异常检测方法及系统
技术领域
本发明涉及时序数据检测领域,特别是涉及一种物联网时序数据异常检测方法及系统。
背景技术
随着各种领域数字化的普及,许多配备传感器的设备产生了大量的时间数据,形成时间序列。这类时间序列产生广泛,在许多应用领域都有应用,如金融、生物、交通和医疗保健等。在各种领域,如预测性维护、入侵检测、防欺诈、云平台监控与管理等许多现实应用中,时间序列的异常检测是必需的。
时间序列异常检测的研究由来已久。然而,由于时间序列在真实环境下的多样化、时间序列标注标签的高成本等原因,传统算法都无法获得令人满意的有效性与泛用性。随着近年来深度学习技术的不断进步,相较于传统算法,深度学习可以更好地学习到时间序列数据中的空间、时间依赖性,更加适合处理时间序列的异常检测问题。
在物联网时序数据异常检测时,通常采用无监督的时序数据异常检测方法和有监督的时序数据异常检测方法。自编码器算法是时间序列异常检测的一个常用无监督算法。自编码器算法使用只包含正常样本的训练数据进行模型训练,学习了正常样本的概率分布,并对此模型下测试样本的似然性进行阈值划分,将测试样本分类为正常或异常。考虑到时间序列数据之间的时间依赖性,具有记忆性的循环神经网络(RNN)成为了学习时间序列数据分布的更优选择。大数据时代的到来,由于RNN在长时间依赖问题上存在的缺陷,解决了长时间依赖问题的长短期记忆人工神经网络(LSTM)算法成为了最佳选择。基于LSTM的自编码器通过编码器将训练数据压缩成潜在空间表征,然后通过解码器将表征结合注意力机制重构为输出。通过计算重构输出与原始数据之间的重构误差,将其与设定的阈值进行比较,来对数据进行分类。对于无监督的时序数据异常检测方法,目前有大量的研究,但是无监督算法在指标方面通常不令人满意,存在准确率和召回率不平衡的问题。虽然有监督算法能够获得更好的性能指标,但是其需要大量的有标签数据,在大数据背景下成本过大,在实际应用中适用性不高。基于此,亟需一种检测准确性高、成本低的物联网时序数据异常检测方法出现。
发明内容
基于此,有必要提供一种物联网时序数据异常检测方法及系统,以在提高时序数据异常检测的准确度的同时,降低成本。
为实现上述目的,本发明提供了如下方案:
一种物联网时序数据异常检测方法,包括:
获取待测试的物联网时序数据;
对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集;
将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果;所述训练好的半监督自编码模型是以待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的;所述待训练的物联网时序数据包括无标记的物联网时序数据和有标记的物联网时序数据。
可选的,所述将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果,具体包括:
将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到待测试时间序列数据段集的重构数据;
基于所述重构数据,计算所述待测试时间序列数据段集中各待测试时间序列数据段的重构误差;
当所述重构误差大于设定阈值时,将对应的待测试时间序列数据段确定为异常样本;当所述重构误差小于或等于设定阈值时,将对应的待测试时间序列数据段确定为正常样本。
可选的,所述损失函数为
Figure BDA0002737358850000021
其中,xu为无标记的物联网时序数据;x′u为xu经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000022
为有标记的物联网时序数据中的正常样本数据;
Figure BDA0002737358850000031
为有标记的物联网时序数据中的异常样本数据;
Figure BDA0002737358850000032
Figure BDA0002737358850000033
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000034
Figure BDA0002737358850000035
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;η为有标记的物联网时序数据在损失函数中占的权重。
可选的,在所述获取待测试的物联网时序数据之后,还包括:
采用min-max标准化对所述待测试的物联网时序数据进行归一化处理。
可选的,所述对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集,具体包括:
采用滑动窗口对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
本发明还提供了一种物联网时序数据异常检测系统,包括:
数据获取模块,用于获取待测试的物联网时序数据;
数据划分模块,用于对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集;
检测模块,用于将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果;所述训练好的半监督自编码模型是以待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的;所述待训练的物联网时序数据包括无标记的物联网时序数据和有标记的物联网时序数据。
可选的,所述检测模块,具体包括:
重构单元,用于将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到待测试时间序列数据段集的重构数据;
重构误差计算单元,用于基于所述重构数据,计算所述待测试时间序列数据段集中各待测试时间序列数据段的重构误差;
检测结果确定单元,用于当所述重构误差大于设定阈值时,将对应的待测试时间序列数据段确定为异常样本;当所述重构误差小于或等于设定阈值时,将对应的待测试时间序列数据段确定为正常样本。
可选的,所述检测模块中的所述损失函数为
Figure BDA0002737358850000041
其中,xu为无标记的物联网时序数据;x′u为xu经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000042
为有标记的物联网时序数据中的正常样本数据;
Figure BDA0002737358850000043
为有标记的物联网时序数据中的异常样本数据;
Figure BDA0002737358850000044
Figure BDA0002737358850000045
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000046
Figure BDA0002737358850000047
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;η为有标记的物联网时序数据在损失函数中占的权重。
可选的,所述物联网时序数据异常检测系统还包括:
归一化处理模块,用于采用min-max标准化对所述待测试的物联网时序数据进行归一化处理。
可选的,所述数据划分模块,具体包括:
划分单元,用于采用滑动窗口对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
与现有技术相比,本发明的有益效果是:
本发明提出了一种物联网时序数据异常检测方法及系统,通过获取部分有标记的物联网时序数据,将有标记的物联网时序数据和无标记的物联网时序数据作为训练集进行模型训练,这样能够采用有标记的物联网时序数来增强无监督算法模型的性能指标。本发明采用少量有标记的物联网时序数据来训练模型,使得在该模型下的待测试的物联网时序数据中,正常数据的重构误差更小,异常数据的重构误差更大,实现了在提高时序数据异常检测的准确度的同时,降低成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的物联网时序数据异常检测方法的流程图;
图2为本发明实施例提供的物联网时序数据异常检测方法的具体实现过程图;
图3为本发明实施例提供的物联网时序数据异常检测系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本实施例针对无监督的时序数据异常检测方法和有监督的时序数据异常检测方法存在的问题,提出了一种半监督学习方法来解决。半监督学习是将监督学习与无监督学习相结合的一种学习方法。半监督学习在使用大量未标记数据的同时,也会使用标记数据,来进行模型训练工作。在各种领域中,除了大量的无标记数据,有时也会存在少量有标记的数据,两种数据拥有着相同的数据分布,因此可以对LSTM自编码器模型进行更改,使用少量有标记的数据来训练模型,使得在该模型下的测试数据中,正常数据的重构误差更小,异常数据的重构误差更大,提高了模型的准确度。
为了部署半监督异常检测算法,首先需要获取部分有标签数据,然后调整无监督算法模型的损失函数使得有标签数据对算法模型进行训练优化。本实施例中的方法只需要获取到少量无标签数据,就可以提高算法模型的整体指标。
图1为本发明实施例提供的物联网时序数据异常检测方法的流程图。参见图1,本实施例的物联网时序数据异常检测方法,包括:
步骤101:获取待测试的物联网时序数据。
步骤102:对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。具体的:
采用滑动窗口对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
步骤103:将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果;所述训练好的半监督自编码模型是以待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的;所述待训练的物联网时序数据包括无标记的物联网时序数据和有标记的物联网时序数据。
所述损失函数为
Figure BDA0002737358850000061
其中,xu为无标记的物联网时序数据;x′u为xu经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000062
为有标记的物联网时序数据中的正常样本数据;
Figure BDA0002737358850000063
为有标记的物联网时序数据中的异常样本数据;
Figure BDA0002737358850000064
Figure BDA0002737358850000065
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000066
Figure BDA0002737358850000067
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;η为有标记的物联网时序数据在损失函数中占的权重。
该步骤103,具体包括:
将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到待测试时间序列数据段集的重构数据。
基于所述重构数据,计算所述待测试时间序列数据段集中各待测试时间序列数据段的重构误差;当所述重构误差大于设定阈值时,将对应的待测试时间序列数据段确定为异常样本;当所述重构误差小于或等于设定阈值时,将对应的待测试时间序列数据段确定为正常样本。
本实施例中,在步骤101之后还包括:采用min-max标准化对所述待测试的物联网时序数据进行归一化处理。
在实际应用中,上述实施例中的物联网时序数据异常检测方法的具体实现过程如下:
步骤1获取待训练物联网(IOT)领域的无标记时间序列数据集Tu、标记时间序列数据集Tl以及时间序列测试集Ttest
对于标记数据集Tl,通过数据的异常标记是否为异常分为正常数据集
Figure BDA0002737358850000068
和异常数据集
Figure BDA0002737358850000069
步骤2对步骤1中的数据进行归一化处理,使得每个数据的取值在[0,1]之间。
由于不同时间段的时间序列数据取值范围不同,所以用min-max标准化对所有数据的取值范围进行归一化,转换函数为
Figure BDA0002737358850000071
其中xi是第i个数据的原始值,xmax和xmin分别为与数据同一时间段的最大值和最小值,x为该数据归一化后的值。
步骤3设置大小为k的滑动窗口,将每个时间序列数据集变为时间序列数据段集,分别为无标记数据段集Xu、标记数据段集Xl、测试数据段集Xtest
针对步骤2中的任一数据集T={x1,x2,…,xn},设置大小为k的滑动窗口,可以获得数据段Si={xi,xi+1,…,xi+k-1};1<i<n,总共n-k+1个数据段组成了新的数据段集。若原始数据集存在标记属性,则针对该数据集形成的数据段,如果数据段中包含至少一个异常点,那么标记当前数据段为异常。
对于标记数据段集Xl,通过数据段的异常标记是否为异常分为正常数据集
Figure BDA0002737358850000072
和异常数据集
Figure BDA0002737358850000073
步骤4构建基于LSTM和注意力机制的半监督自编码器模型,并使用Xu和Xl进行模型训练。
通常的自编码器模型的损失函数计算方法为:
min||xu-x′u||2
其中,xu代表训练样本,通常情况下全为正常样本;x′u为经过自编码器重构后的样本数据。
自编码器通过最小化损失函数来使得重构后的样本尽可能的逼近原始数据,从而学习原始数据的数据分布。
本实施例中,由于训练数据加入了有标记的数据,所以需要对损失函数进行修改,修改后的损失函数为:
Figure BDA0002737358850000081
修改后的损失函数可以做到对于正常样本,其重构误差尽量小;对于异常样本,其重构误差尽量大。从而在对测试样本进行重构时,正常样本的重构误差会远小于异常样本的重构误差,提高最终分类的准确性。
步骤5使用步骤4中训练的模型,对测试集Xtest进行数据重构,计算测试集数据重构误差errors。
errors由测试集中每个数据的重构误差error组成,error的计算公式为:
error=||xtest-xtest||2
其中,xtest为测试集数据,x′test为xtest通过模型重构后的数据。
步骤6通过观察步骤5中重构误差errors的数据分布,设置阈值α,通过比较errors与α,输出最终结果。
判断最终分类结果的计算方式为:
Figure BDA0002737358850000082
步骤7对步骤6中的分类结果计算精确率(Precision)、召回率(Recall)、F1_Score等指标,验证本实施例的可用性。
精确率、召回率、F1_Score指标分别表示:
精确率(Precision):成功识别出的异常点占识别为异常点的比例。
召回率(Recall):成功识别的异常点占实际异常点总数的比例。
F1_Score:精确率和召回率两个指标之间的平衡。F1_Score越高,模型就越好。
基于以上内容,本实施例的物联网时序数据异常检测方法的具体实现过程如图2所示。
下面对本实施例的物联网时序数据异常检测方法的检测效果进行了验证。上述物联网时序数据异常检测方法可称为SSAD-LSTM-AAE。首先使用有标记的训练集和无标记的训练集对自编码器模型进行训练,为了最大化时间序列数据的时间依赖性,要对数据进行重新构造。具体地,使用滑动窗口,将时间序列数据变为时间序列数据段,这样能够更好地提取时间序列数据的时间依赖性,进而利于LSTM自编码器压缩到潜在空间的特征包含更多的时间依赖性,从而提高模型整体的性能。同无监督的异常检测方法相比,本实施例中的方法在精确率、召回率、F1_Score等评价指标上有一定的性能提升。
以下详细地描述本实施例在来自Yahoo!Webscope公开的2个数据集、NAB公开的人工数据集上的测试效果,并与无监督的异常检测方法进行比较。
实验中,我们使用了Yahoo!Webscope公开的A1Benchmark和A2Benchmark两个数据集,以及NAB公开的人工数据集。针对Yahoo!Webscope公开的数据集,取其中无异常或结尾处存在少量异常的数据集,去除存在的少量异常点,形成无标记数据集Tu,取同时包含异常点和正常点的数据集形成标记数据集Tl。针对NAB公开的数据集,取其中的无异常数据集形成无标记数据集Tu,取其中包含异常点的数据集无标记数据集Tl。表1列出了选择的时间序列数据集。
表1选择的时间序列数据集
Figure BDA0002737358850000091
为了验证本实施例中模型在不同有标记数据占比情景下的可用性,将对有标记数据进行数据截取,形成不同的有标记数据占比。表2列出了在不同Tl占比下的数据集。为了验证本实施例中方法有着更好的性能指标,设置滑动窗口大小为400,η取值为1.0,分别比较了无监督LSTM自编码器(LSMT-AE)和半监督LSTM自编码器(SSAD-LSTM-AE)、无监督带注意力机制的LSTM自编码器(LSTM-AAE)和半监督带注意力机制的LSTM自编码器(SSAD-LSTM-AAE),表3至表5展示了在不同有标记数据占比的情景下,各种模型的精确率、召回率、F1_Score等指标。
表2不同Tl占比下的时间序列数据集
Figure BDA0002737358850000101
表3 20%有标记数据占比的情景下模型性能
Figure BDA0002737358850000111
表4 30%有标记数据占比的情景下模型性能
Figure BDA0002737358850000112
表5 50%有标记数据占比的情景下模型性能
Figure BDA0002737358850000121
表3至表5的结果表明,在绝大多数情景下,SSAD-LSTM-AE和SSAD-LSTM-AAE可以达在3个数据集上达到更好的性能。不同的有标记数据占比的实验对比结果可以看出,随着有标记数据占比的提高,模型的性能也在逐步提升。
本发明还提供了一种物联网时序数据异常检测系统,图3为本发明实施例提供的物联网时序数据异常检测系统的结构图。
参见图3,本实施例的物联网时序数据异常检测系统包括:
数据获取模块201,用于获取待测试的物联网时序数据。
数据划分模块202,用于对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
检测模块203,用于将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果;所述训练好的半监督自编码模型是以待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的;所述待训练的物联网时序数据包括无标记的物联网时序数据和有标记的物联网时序数据。
作为一种可选的实施方式,所述检测模块203,具体包括:
重构单元,用于将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到待测试时间序列数据段集的重构数据。
重构误差计算单元,用于基于所述重构数据,计算所述待测试时间序列数据段集中各待测试时间序列数据段的重构误差。
检测结果确定单元,用于当所述重构误差大于设定阈值时,将对应的待测试时间序列数据段确定为异常样本;当所述重构误差小于或等于设定阈值时,将对应的待测试时间序列数据段确定为正常样本。
作为一种可选的实施方式,所述检测模块203中的所述损失函数为
Figure BDA0002737358850000131
其中,xu为无标记的物联网时序数据;x′u为xu经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000132
为有标记的物联网时序数据中的正常样本数据;
Figure BDA0002737358850000133
为有标记的物联网时序数据中的异常样本数据;
Figure BDA0002737358850000134
Figure BDA0002737358850000135
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure BDA0002737358850000136
Figure BDA0002737358850000137
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;η为有标记的物联网时序数据在损失函数中占的权重。
作为一种可选的实施方式,所述物联网时序数据异常检测系统还包括:
归一化处理模块,用于采用min-max标准化对所述待测试的物联网时序数据进行归一化处理。
作为一种可选的实施方式,所述数据划分模块202,具体包括:
划分单元,用于采用滑动窗口对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种物联网时序数据异常检测方法,其特征在于,包括:
获取待测试的物联网时序数据;
对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集;
将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果;所述训练好的半监督自编码模型是以待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的;所述待训练的物联网时序数据包括无标记的物联网时序数据和有标记的物联网时序数据。
2.根据权利要求1所述的一种物联网时序数据异常检测方法,其特征在于,所述将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果,具体包括:
将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到待测试时间序列数据段集的重构数据;
基于所述重构数据,计算所述待测试时间序列数据段集中各待测试时间序列数据段的重构误差;
当所述重构误差大于设定阈值时,将对应的待测试时间序列数据段确定为异常样本;当所述重构误差小于或等于设定阈值时,将对应的待测试时间序列数据段确定为正常样本。
3.根据权利要求1所述的一种物联网时序数据异常检测方法,其特征在于,所述损失函数为
Figure FDA0002737358840000011
其中,xu为无标记的物联网时序数据;x′u为xu经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure FDA0002737358840000012
为有标记的物联网时序数据中的正常样本数据;
Figure FDA0002737358840000013
为有标记的物联网时序数据中的异常样本数据;
Figure FDA0002737358840000014
Figure FDA0002737358840000015
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure FDA0002737358840000016
Figure FDA0002737358840000017
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;η为有标记的物联网时序数据在损失函数中占的权重。
4.根据权利要求1所述的一种物联网时序数据异常检测方法,其特征在于,在所述获取待测试的物联网时序数据之后,还包括:
采用min-max标准化对所述待测试的物联网时序数据进行归一化处理。
5.根据权利要求1所述的一种物联网时序数据异常检测方法,其特征在于,所述对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集,具体包括:
采用滑动窗口对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
6.一种物联网时序数据异常检测系统,其特征在于,包括:
数据获取模块,用于获取待测试的物联网时序数据;
数据划分模块,用于对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集;
检测模块,用于将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到检测结果;所述训练好的半监督自编码模型是以待训练的物联网时序数据为输入,以对应的类标签为输出,以损失函数最小为目标对基于LSTM和注意力机制的半监督自编码器模型进行训练得到的;所述待训练的物联网时序数据包括无标记的物联网时序数据和有标记的物联网时序数据。
7.根据权利要求6所述的一种物联网时序数据异常检测系统,其特征在于,所述检测模块,具体包括:
重构单元,用于将所述待测试时间序列数据段集输入至训练好的半监督自编码模型中,得到待测试时间序列数据段集的重构数据;
重构误差计算单元,用于基于所述重构数据,计算所述待测试时间序列数据段集中各待测试时间序列数据段的重构误差;
检测结果确定单元,用于当所述重构误差大于设定阈值时,将对应的待测试时间序列数据段确定为异常样本;当所述重构误差小于或等于设定阈值时,将对应的待测试时间序列数据段确定为正常样本。
8.根据权利要求6所述的一种物联网时序数据异常检测系统,其特征在于,所述检测模块中的所述损失函数为
Figure FDA0002737358840000031
其中,xu为无标记的物联网时序数据;x′u为xu经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure FDA0002737358840000032
为有标记的物联网时序数据中的正常样本数据;
Figure FDA0002737358840000033
为有标记的物联网时序数据中的异常样本数据;
Figure FDA0002737358840000034
Figure FDA0002737358840000035
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;
Figure FDA0002737358840000036
Figure FDA0002737358840000037
经过基于LSTM和注意力机制的半监督自编码器模型重构后的样本数据;η为有标记的物联网时序数据在损失函数中占的权重。
9.根据权利要求6所述的一种物联网时序数据异常检测系统,其特征在于,还包括:
归一化处理模块,用于采用min-max标准化对所述待测试的物联网时序数据进行归一化处理。
10.根据权利要求6所述的一种物联网时序数据异常检测系统,其特征在于,所述数据划分模块,具体包括:
划分单元,用于采用滑动窗口对所述待测试的物联网时序数据进行划分得到待测试时间序列数据段集。
CN202011137988.8A 2020-10-22 2020-10-22 一种物联网时序数据异常检测方法及系统 Active CN112148955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011137988.8A CN112148955B (zh) 2020-10-22 2020-10-22 一种物联网时序数据异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011137988.8A CN112148955B (zh) 2020-10-22 2020-10-22 一种物联网时序数据异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN112148955A true CN112148955A (zh) 2020-12-29
CN112148955B CN112148955B (zh) 2024-06-18

Family

ID=73954562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011137988.8A Active CN112148955B (zh) 2020-10-22 2020-10-22 一种物联网时序数据异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN112148955B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988186A (zh) * 2021-02-19 2021-06-18 支付宝(杭州)信息技术有限公司 异常检测系统的更新方法及装置
CN113067754A (zh) * 2021-04-13 2021-07-02 南京航空航天大学 一种半监督时间序列异常检测方法及系统
CN113556319A (zh) * 2021-06-11 2021-10-26 杭州电子科技大学 物联网下基于长短期记忆自编码分类器的入侵检测方法
CN114065862A (zh) * 2021-11-18 2022-02-18 南京航空航天大学 一种多维时序数据异常检测方法和系统
CN114139648A (zh) * 2021-12-07 2022-03-04 北京科技大学 一种尾矿充填管路异常智能检测方法及系统
CN114692767A (zh) * 2022-03-31 2022-07-01 中国电信股份有限公司 异常检测方法和装置、计算机可读存储介质、电子设备
CN114816825A (zh) * 2022-06-23 2022-07-29 光谷技术有限公司 一种物联网网关数据纠错方法
CN114925808A (zh) * 2022-04-15 2022-08-19 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN115134176A (zh) * 2022-09-02 2022-09-30 南京航空航天大学 一种基于不完全监督的暗网加密流量分类方法
CN115208645A (zh) * 2022-07-01 2022-10-18 西安电子科技大学 基于改进gan的入侵检测数据重构方法
CN115291108A (zh) * 2022-06-27 2022-11-04 东莞新能安科技有限公司 数据生成方法、装置、设备及计算机程序产品
CN115983087A (zh) * 2022-09-16 2023-04-18 山东财经大学 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN113807396B (zh) * 2021-08-12 2023-07-18 华南理工大学 一种物联网高维数据异常检测方法、系统、装置及介质
WO2023178467A1 (en) * 2022-03-21 2023-09-28 Qualcomm Incorporated Energy-efficient anomaly detection and inference on embedded systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561084A (zh) * 2018-11-20 2019-04-02 四川长虹电器股份有限公司 基于lstm自编码网络的url参数异常值检测方法
CN111142501A (zh) * 2019-12-27 2020-05-12 浙江科技学院 基于半监督自回归动态隐变量模型的故障检测方法
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561084A (zh) * 2018-11-20 2019-04-02 四川长虹电器股份有限公司 基于lstm自编码网络的url参数异常值检测方法
CN111142501A (zh) * 2019-12-27 2020-05-12 浙江科技学院 基于半监督自回归动态隐变量模型的故障检测方法
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及系统

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988186A (zh) * 2021-02-19 2021-06-18 支付宝(杭州)信息技术有限公司 异常检测系统的更新方法及装置
CN112988186B (zh) * 2021-02-19 2022-07-19 支付宝(杭州)信息技术有限公司 异常检测系统的更新方法及装置
CN113067754A (zh) * 2021-04-13 2021-07-02 南京航空航天大学 一种半监督时间序列异常检测方法及系统
CN113067754B (zh) * 2021-04-13 2022-04-26 南京航空航天大学 一种半监督时间序列异常检测方法及系统
CN113556319B (zh) * 2021-06-11 2022-09-30 杭州电子科技大学 物联网下基于长短期记忆自编码分类器的入侵检测方法
CN113556319A (zh) * 2021-06-11 2021-10-26 杭州电子科技大学 物联网下基于长短期记忆自编码分类器的入侵检测方法
CN113807396B (zh) * 2021-08-12 2023-07-18 华南理工大学 一种物联网高维数据异常检测方法、系统、装置及介质
CN114065862A (zh) * 2021-11-18 2022-02-18 南京航空航天大学 一种多维时序数据异常检测方法和系统
CN114065862B (zh) * 2021-11-18 2024-02-13 南京航空航天大学 一种多维时序数据异常检测方法和系统
CN114139648A (zh) * 2021-12-07 2022-03-04 北京科技大学 一种尾矿充填管路异常智能检测方法及系统
WO2023178467A1 (en) * 2022-03-21 2023-09-28 Qualcomm Incorporated Energy-efficient anomaly detection and inference on embedded systems
CN114692767A (zh) * 2022-03-31 2022-07-01 中国电信股份有限公司 异常检测方法和装置、计算机可读存储介质、电子设备
CN114692767B (zh) * 2022-03-31 2024-01-19 中国电信股份有限公司 异常检测方法和装置、计算机可读存储介质、电子设备
CN114925808A (zh) * 2022-04-15 2022-08-19 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN114925808B (zh) * 2022-04-15 2023-10-10 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN114816825B (zh) * 2022-06-23 2022-09-09 光谷技术有限公司 一种物联网网关数据纠错方法
CN114816825A (zh) * 2022-06-23 2022-07-29 光谷技术有限公司 一种物联网网关数据纠错方法
CN115291108A (zh) * 2022-06-27 2022-11-04 东莞新能安科技有限公司 数据生成方法、装置、设备及计算机程序产品
CN115208645A (zh) * 2022-07-01 2022-10-18 西安电子科技大学 基于改进gan的入侵检测数据重构方法
CN115208645B (zh) * 2022-07-01 2023-10-03 西安电子科技大学 基于改进gan的入侵检测数据重构方法
CN115134176A (zh) * 2022-09-02 2022-09-30 南京航空航天大学 一种基于不完全监督的暗网加密流量分类方法
CN115134176B (zh) * 2022-09-02 2022-11-29 南京航空航天大学 一种基于不完全监督的暗网加密流量分类方法
CN115983087A (zh) * 2022-09-16 2023-04-18 山东财经大学 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN115983087B (zh) * 2022-09-16 2023-10-13 山东财经大学 一种注意力机制与lstm结合检测时序数据异常方法及终端机

Also Published As

Publication number Publication date
CN112148955B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN112148955A (zh) 一种物联网时序数据异常检测方法及系统
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
JP6793774B2 (ja) パラメータの多次元時系列を分類するためのシステムおよび方法
CN112700408B (zh) 模型训练方法、图像质量评估方法及装置
CN105069483B (zh) 一种对分类数据集进行测试的方法
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN113807396B (zh) 一种物联网高维数据异常检测方法、系统、装置及介质
CN111158964B (zh) 一种磁盘故障预测方法、系统、装置及存储介质
Mooij et al. Distinguishing between cause and effect
CN104038792A (zh) 用于iptv监管的视频内容分析方法及设备
CN115456107A (zh) 一种时间序列异常检测系统及方法
CN116596556A (zh) 肉牛追溯管理系统及方法
Fu et al. MCA-DTCN: A novel dual-task temporal convolutional network with multi-channel attention for first prediction time detection and remaining useful life prediction
CN109977400B (zh) 一种校验处理的方法、装置、计算机存储介质及终端
CN116628612A (zh) 一种无监督异常检测方法、装置、介质及设备
US20230126567A1 (en) Operation system, operation method and recording medium having recorded thereon operation program
Adi et al. Classification of 20 news group with Naïve Bayes classifier
CN116821672A (zh) 基于半监督的运维故障样本的数据治理方法
CN111105041A (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN115115920A (zh) 一种数据训练方法及装置
CN114297385A (zh) 模型训练方法、文本分类方法、系统、设备及介质
CN113313254A (zh) 面向记忆增强元学习的深度学习模型去偏方法
CN115808504B (zh) 一种用于浓度预测的气体传感器在线漂移补偿方法
CN114580372B (zh) 文本处理方法、装置、设备和存储介质
CN115589608B (zh) 物联网数据异常检测模型训练方法、异常检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant