CN117312769A

CN117312769A - 一种基于BiLSTM的物联网时序数据异常检测方法

Info

Publication number: CN117312769A
Application number: CN202311216850.0A
Authority: CN
Inventors: 张翼英; 张磊; 李子纤; 李思维; 张亚男; 张贤坤
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-29

Abstract

本发明涉及数据检测技术领域，具体涉及一种基于BiLSTM的物联网时序数据异常检测方法，包括：获取上一时段的物联网感知时序数据，并进行预处理；将预处理后的时序数据输入预先训练好的BiLSTM模型，输出下一时段的预测时序数据；将下一时段采集的实际时序数据与预测时序数据间的残差分别与预设的多个阈值进行比较，若大于阈值，则标记为异常值，否则标记为正常值；若某一数据点被标记为异常值的次数多于被标记为正常值的次数，则判定该数据点为异常数据。本发明考虑了物联网感知数据的时序特征，同时对物联网感知数据进行多阈值判断，保证检测结果的准确性。

Description

一种基于BiLSTM的物联网时序数据异常检测方法

技术领域

本发明涉及数据检测技术领域，更具体的说是涉及一种基于BiLSTM的物联网时序数据异常检测方法。

背景技术

随着物联网和计算机技术快速发展，社会中的智能化设备和数字化设备也越来越多，这些设备需要全面感知物理世界、事务流程等，因此需要海量部署各类传感装置。由于物联网感知要求实时性、全面性，实现海量数据可靠、可信采集成为挑战。同时，物联网数据具有明显的时间敏感性，物联网感知层传感装置采集数据带有时序性特征，为了保证物联网系统及设备的正常运行，提升数据质量，降低数据异常带来的损失，需要对传感装置采集到的数据进行异常检测。

现有的相关研究方法有基于距离的异常检测方法K-最近邻算法和基于BP神经网络的检测方法，K-最近邻算法的实质是根据邻居来判断自己自身是否异常，是一种实现较为简单的机器学习算法，其偶然性较大，且并没有考虑数据的时序性，误判性较大。BP神经网络虽具有强大的学习能力，但在处理时序数据与其他时序处理模型仍有较大差距，BP神经网络对时序数据的时序特征学习能力较弱，且对异常数据进行预测后，采用统计学知识来进行异常数据的检测，偶然性较大，检测准确率较低。

因此，如何考虑物联网数据的时序性，并提高数据异常检测的准确率，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于BiLSTM的物联网时序数据异常检测方法，考虑了物联网感知数据的时序特征，同时对物联网感知数据进行多阈值判断，保证检测结果的准确性。

为了实现上述目的，本发明采用如下技术方案：

一种基于BiLSTM的物联网时序数据异常检测方法，包括：

获取上一时段的物联网感知时序数据，并进行预处理；

将预处理后的时序数据输入预先训练好的BiLSTM模型，输出下一时段的预测时序数据；

将下一时段采集的实际时序数据与预测时序数据间的残差分别与预设的多个阈值进行比较，若大于阈值，则标记为异常值，否则标记为正常值；

若某一数据点被标记为异常值的次数多于被标记为正常值的次数，则判定该数据点为异常数据。

进一步的，对上一时段的物联网感知时序数据进行预处理的方式包括：缺失值填充和去除噪声值。

进一步的，所述缺失值填充过程为：

若某一时间点存在数值缺失，则根据该点的左右临近两个数据点进行数值估计，并根据该点与左右两个数据点的距离分配权重，填充公式为：

其中，(x₁,y₁)表示需要插值的数据点，(x₀,y₀)和(x₂,y₂)分别表示需要插值点的左右两个数据点；x_i表示时间点，y_i表示对应时间点采集到的数据。

进一步的，所述去除噪声值包括：

计算上一时刻物联网感知时序数据的平均值和标准差，若某一数据点与平均值间的距离是标准差的3倍以上，则认为该数据点为噪声值，并去除。

进一步的，采用三个阈值联合判定某一数据点的异常状态，三个阈值分别为阈值一、阈值二和阈值三。

进一步的，所述采用三个阈值联合判定某一数据点的异常状态，包括：

将下一时段采集的实际时序数据与预测时序数据间的残差与阈值一比较，比较结果为：r1＝loss(i)-th1，其中loss(i)＝|y(i)-x(i)|，表示第i个时间点下实际采集数据y(i)与BiLSTM模型输出的预测数据x(i)间的残差，th1表示阈值一；

若r1>0，则标记第i个采集时刻采集的数据点为异常值，否则为正常值；

将下一时段采集的实际时序数据与预测时序数据间的残差与阈值二比较，比较结果为：r2＝loss(i)-th2，其中，th2表示阈值二；

若r2>0，则标记第i个时间点采集的数据点为异常值，否则为正常值；

将下一时段采集的实际时序数据与预测时序数据间的残差与阈值三比较，比较结果为：r3＝loss(i)-th3，其中，th3表示阈值三；

若r3>0，则标记第i个时间点采集的数据点为异常值，否则为正常值；

判断第i个时间点采集的数据点被标记为正常值的次数是否大于被标记为异常值的次数，若大于，则该数据点为正常数据，否则为异常数据。

进一步的，阈值一为残差的均方根误差，其表示形式为：

其中，y(i)表示第i个时间点所采集的实际数据，x(i)为BiLSTM模型输出的第i个时间点的预测数据；n表示下一时段共包含n个采集时间点，即共采集n次数据。

进一步的，阈值二为残差的平均值，其表示形式为：

其中，y(i)表示第i个时间点所采集的实际数据，x(i)为BiLSTM模型输出的第i个时间点的预测数据；n表示下一时段共包含n个采集时间点。

进一步的，阈值三为残差的标准差，其表示形式为：

其中，y(i)表示第i个时间点所采集的实际数据，x(i)为BiLSTM模型输出的第i个时间点的预测数据；表示下一时间段中n次采集的实际数据的平均值。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于BiLSTM的物联网时序数据异常检测方法，首先对上一时段采集到的数据进行预处理，保证这段数据的连续性，以保证准确预测出下一时段数据。之后将预处理之后的数据通过BiLSTM模型进行预测得到预测数据，将模型的预测数据作为下一时段的正确时序数据；最后设立多个阈值进行异常检测，将每个时间点下预测得到的正确时序数据与采集到的时序数据做残差后，再分别与不同阈值进行比较，与多个阈值比较完毕后，查看此点是被标记为正常值的次数与异常值的次数，如果被标记为异常值的次数多于正常值的次数，则说明此值异常，否则正常，大大提高了异常检测的准确率，减少数据的误判。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于BiLSTM的物联网时序数据异常检测方法流程图；

图2为缺失值填充前的数据曲线图；

图3为缺失值填充后的数据曲线图；

图4为异常检测结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于BiLSTM的物联网时序数据异常检测方法，包括：

获取上一时段的物联网感知时序数据，并进行预处理；

在一个实施例中，对上一时段的物联网感知时序数据进行预处理的方式包括：缺失值填充和去除噪声值。

具体来说，感知层采集到的数据由于某种原因在某个时间点会有缺失值，因此需要选取合适的方法来对该点的缺失值填充，通过填充缺失值来保证时间序列的连续性，保证这段数据的连续性才能准确预测出下一时域数据。计算数据序列的平均值是一种较为常见的方式，但该方式在数据较多时计算量较大。本实施例采用线性插值，它根据一维数据序列中需要插值的点的左右临近两个数据来进行数值估计，根据到这两个点的距离来分配比重，既减轻了计算量也保证了填充的准确性。

已知点(x₀,y₀)、(x₁,y₁)、(x₂,y₂)，当y₁存在缺失值时，填充公式如下：

在外界天气或者人为情况下，传感装置采集到的数据有时会与正常情况出现较大差距，在异常检测之前将较为明显的异常数据剔除出来，可以保证接下来预测的准确性，提高检测的准确率。

可以根据统计学中常用的3σ原则来对噪声值进行初步的识别处理。假设数据集的均值是μ，标准差是σ，数据落在区间(μ-3σ,μ+3σ)之外的概率仅有0.27％，(μ-3σ,μ+3σ)区间内的概率为99.74％。所以本实施例将数据集中超过(μ-3σ,μ+3σ)认为是噪声值。故先求出该数据集特征列的特征值的平均值和标准差。若某值与平均值的距离是3倍或者是更多倍数的标准差，即可以被认为是噪声值，并去除。

进行数据预测时，考虑到感知层传感装置采集到的数据带有时序性特征，对于这种时序数据的预测问题，本发明实施例选择BiLSTM模型，其能够捕捉时序数据的双向时间序列信息，更深层次挖掘时间序列信息，更加准确的预测接下来的时序数据。

具体来说，将感知终端采集到的数据x(n)(n＝1,2,3,…,n)经过预处理后传入BiLSTM模型，得到预测数据y(n)。

BiLSTM是一种序列处理模型，由两个LSTM组成。其中BiLSTM模型包含三个门：分别是遗忘门、输入门和输出门，这三个门共同处理时序信息。我们用x_t代表当前的输入信息，c_t-1代表细胞状态(状态记忆单元)，即上一时刻的时序信息，h_t-1代表隐藏单元状态。

在t时刻，遗忘门通过进入的若干之前时刻的信息来输出当前时刻的信息，其输入来自前一个隐藏单元状态的信息和当前输入的信息。输出计算公式：

f_t＝σ(W_fh_t-1+U_fx_t+b_f)

其中，W_f，U_f是权重，b_f是偏置,σ是sigmoid激活函数。

输入门分为两部分:第一部分使用sigmoid激活函数，输出为i_t，决定了当前时刻的输入数据x_t中多少信息需要被加入到时序信息中；第二部分使用双曲正切函数,输出是a_t，代表当前时刻的候选时序信息。这两部分共同决定了需要保留在状态存储单元中的向量。计算公式是：

i_t＝σ(W_ih_t-1+U_ix_i+b_i)

a_t＝tanh(W_ah_t-1+U_ax_i+b_a)

其中W_i，U_i，W_a，U_a是权重，b_i，b_a是偏置。

此时，细胞的状态通过更新门更新为C_t，更新门由两部分组成，第一部分是上一个细胞的状态C_t-1与输出门f_t Hadamard乘积的结果,第二部分是输入门的i_t与a_tHadamard乘积的结果。

C_t＝C_t-1⊙f_t+i_t⊙a_t

其中⊙是矩阵对应元素的乘积。

最后，输出门的输出o_t和细胞状态C_t相乘，得细胞的最终输出h_t，可表示为：

o_t＝σ(W_oh_t-1+U_ox_t+b_o)

h_t＝o_t⊙tanh(C_t)

BiLSTM可以同时利用过去时刻和未来时刻的信息，两个LSTM分别处理两个方向的时间序列信息。BiLSTM有效地提升了对时间序列数据的处理能力，改善了LSTM无法建模序列从后到前的信息，更深层次的挖掘数据时间序列特征，通过BiLSTM可以更好的捕捉双向的时间序列信息。

在一个具体实施例中，采用三个阈值联合判定某一数据点的异常状态，三个阈值分别为阈值一、阈值二和阈值三。在传统的异常点检测算法中，往往存在阈值选择困难的情况，阈值的选择对检测的结果有很大影响。因此，为了使检测结果更可靠，本发明用BiLSTM模型的预测值与真实值的残差分别与多个阈值进行比较，具体采用三个阈值，大于阈值则认为异常点，通过三个阈值联合判定后选取大多数结果即可认为是否异常，避免了单阈值的误判。

具体来说，首先计算下一时段中第i个时间点下实际采集数据y(i)与BiLSTM模型输出的预测数据x(i)间的残差，假设y(n)为BiLSTM的预测值，x(n)为采集到的真实值，n＝1,2,3…。根据以下公式来计算残差：

loss(n)＝|y(n)-x(n)|

然后，将下一时段采集的实际时序数据与预测时序数据间的残差与阈值一比较，比较结果为：r1＝loss(i)-th1，其中loss(i)＝|y(i)-x(i)|，表示第i个时间点下实际采集数据y(i)与BiLSTM模型输出的预测数据x(i)间的残差，th1表示阈值一；

本实施例中，阈值一为残差的均方根误差，均方根误差是各数据偏离真实值差值的平方和采集次数比值n的平方根，也就是残差平方和的平方根，均方根误差对一组测量中的特大或特小误差反映非常敏感，所以，均方根误差能够很好地反映出采集数据的准确度。其表示形式为：

若r1>0，则标记第i个采集时刻采集的数据点为异常值，否则为正常值。

再将下一时段采集的实际时序数据与预测时序数据间的残差与阈值二比较，比较结果为：r2＝loss(i)-th2，其中，th2表示阈值二；阈值二为残差的平均值，其表示形式为：

若r2>0，则标记第i个时间点采集的数据点为异常值，否则为正常值。

再将下一时段采集的实际时序数据与预测时序数据间的残差与阈值三比较，比较结果为：r3＝loss(i)-th3，其中，th3表示阈值三；阈值三为残差的标准差，标准差是一组数据平均值分散程度的一种度量，通过数据与阈值三的比较可以描述数据偏离均值的程度，其表示形式为：

其中，表示下一时间段中n次采集的实际数据的平均值。

最后，与三个阈值比较完毕后，查看第i个时间点采集的数据被标记为正常值的次数与异常值的次数，判断第i个时间点采集的数据点被标记为正常值的次数是否大于被标记为异常值的次数，若大于，则该数据点为正常数据，否则为异常数据。

下面，以一个具体实例说明本发明进行数据异常检测的具体过程。

首先，获取上一时段的物联网感知时序数据，并填充缺失值，如图2所示，为传感装置采集到的一天中的风速数据，在6时和20时数据缺失造成了数据序列的不连续性，采用线性插值法对这两点的数据填充，填充后如图3所示。

可以看到填充后数据曲线已经连续，没有较大的下滑或上升，填充数据有利于后面的数据预测，数据如果缺失前后的数据差别较大，在预测时会影响预测的效果从而影响整个的异常数据检测效果。

填充完成后计算数据集的平均值u和标准差σ，根据3σ原则，数据在区间(μ-3θ,μ+3θ)外的是噪声值，可以认为区间之外的数据是噪声值，将这些数据从数据集中剔除出去，保证数据集的准确性。缺失值填充和噪声处理结束后，将数据集输入BiLSTM模型得到下一时间段的预测值。

将下一日每一时间的预测值与采集到的真实值做残差，预测值为y(n)＝{y(n)|n＝1,2,…24}，真实值为x(n)＝{x(n)|n＝1,2,…,24}，可得残差为loss(n)＝|y(n)-x(n)|。

将每一时刻的残差loss(n)首先与阈值一进行比较，阈值一为：

若残差大于阈值一说明标记此点值是异常值，若小于等于则标记此点是正常值。

接下来将残差继续与阈值二比较，阈值二为：

若残差大于阈值二说明标记此点值是异常值，若小于等于则标记此点是正常值。

最后将残差与阈值三比较，阈值三为：

若残差大于阈值三说明标记此点值是异常值，若小于等于则标记此点是正常值。

比较每个点标记为正常和异常的次数，若正常次数大于异常次数则说明此点是正常值，反之为异常值。

如图4为某段时间采集到的电压值异常检测结果，将异常点加粗，以粗点标记异常点，可标记为红色。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于BiLSTM的物联网时序数据异常检测方法，其特征在于，包括：

获取上一时段的物联网感知时序数据，并进行预处理；

2.根据权利要求1所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，对上一时段的物联网感知时序数据进行预处理的方式包括：缺失值填充和去除噪声值。

3.根据权利要求2所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，所述缺失值填充过程为：

4.根据权利要求2所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，所述去除噪声值包括：

5.根据权利要求1所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，采用三个阈值联合判定某一数据点的异常状态，三个阈值分别为阈值一、阈值二和阈值三。

6.根据权利要求5所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，所述采用三个阈值联合判定某一数据点的异常状态，包括：

7.根据权利要求5所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，阈值一为残差的均方根误差，其表示形式为：

8.根据权利要求5所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，阈值二为残差的平均值，其表示形式为：

9.根据权利要求5所述的基于BiLSTM的物联网时序数据异常检测方法，其特征在于，阈值三为残差的标准差，其表示形式为：