CN110751199A

CN110751199A - 一种基于贝叶斯神经网络的卫星异常检测方法

Info

Publication number: CN110751199A
Application number: CN201910976398.5A
Authority: CN
Inventors: 皮德常; 陈俊夫; 赵晓东
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-04

Abstract

本发明公开了一种基于贝叶斯神经网络的卫星异常检测方法，包括：与使用传统神经网络的异常检测的方法不同，将贝叶斯思想引入神经网络，网络的权重不再是单值，而是符合某种概率分布。贝叶斯思想赋予神经网络不确定性，给予神经网络这一黑盒模型更好的数学解释。首先，依据卫星数据来构建传统的长短时神经网络。其次，引入贝叶斯思想，建立贝叶斯长短时神经网络，使用dropout方法来进行近似推断，通过最小化网络权重的近似分布和后验分布之间KL散度来学习网络权重。接着，通过蒙特卡洛采样近似权重分布的方式输出网络结果。然后，采用预测熵和互信息这两种度量方式来计算异常检测分类结果的不确定性。最后，通过人工或者自编码器来对具有高不确定的分类样本进行进一步的判断，从而能够更好地提高异常检测的准确率。

Description

一种基于贝叶斯神经网络的卫星异常检测方法

技术领域

本发明涉及一种基于贝叶斯神经网络的新型卫星异常数据检测方法，是针对卫星异常数据检测的方法，属于工程应用与信息科学的交叉领域。

背景技术

卫星是一个由相互关联、相互制约的众多部件组成的复杂系统，它是遥测感知、无线通信、导航控制等多学科技术的融合，卫星开启了人类探索浩瀚宇宙的大门。由于卫星长期处在太阳辐射等恶劣的外太空环境下，其在轨运行期间可能会发生无法预料的异常或故障，提前采取措施及时发现这些无法预料的异常或故障，能够保障卫星长期稳定运行。因此，异常检测在卫星故障排查和实时健康检测等领域起着重要的作用。

考虑到卫星复杂的设计结构和恶劣的工作环境，无法直接在外太空的环境下进行异常检测。目前，采用最多的方法是通过在卫星各部件上安装多个传感器直接采集卫星各部件的在轨运行数据，将在轨运行数据传输到地面遥测中心存储为时序数据，然后对卫星时序遥测数据进行分析，实现对卫星的异常检测。

为保障卫星在轨运行的安全性和稳定性，开展卫星实时异常检测技术具有显著的经济和社会效益。卫星故障的前期表现是卫星异常，及时发现卫星异常并采取措施将有可能避免故障的发生。由于卫星的造价高、制造周期长等特点，现有的方法无法在不损坏卫星本身的前提下以低人力、财力、成本的方式对其进行实时异常检测，因此，通过对卫星遥测数据进行分析，并实时检测其潜在异常，识别故障发生前期的微小异常，并通过地面监控系统对卫星运行状态进行相应的调整，可及时避免故障的发生，从而提升卫星在轨运行的稳定性和可靠性，延长卫星在轨寿命并确保其能顺利完成飞行任务。

卫星的异常检测严重依赖模型的准确度，一个过度自信的决策可能低估异常遥测数据带来的危险。并且，该领域数据集不平衡(卫星遥测数据中的正常数据远远多于异常)，这种情况会导致传统模型在采样的类别上发生过拟合现象。将神经网络看作一个概率模型，则传统的神经网络的参数学习可以视为点估计。从概率论的角度来说，使用点估计作为基于任何分类的权重是不合理的。另一方面，贝叶斯神经网络在过拟合现象上更加鲁棒，并且能进行不确定性的度量。不确定性的量化提供了对于新遥测数据异常的直接知识，它扩展了对卫星遥测数据的科学认识。

发明内容

发明目的：本发明的目的是提供一种具有决策置信度的卫星异常检测法。该方法将贝叶斯思想引入神经网络，网络的权重不再是单值，而是概率分布。首先，依据卫星数据来构建长短时记忆神经网络。其次，引入贝叶斯思想，使用dropout方法来进行近似推断，通过最小化网络权重的近似分布和后验分布之间KL散度来学习网络权重。接着，通过蒙特卡洛dropout的方式输出网络结果。然后，采用预测熵和互信息这两种度量来计算异常检测分类结果的不确定性。最后，通过自编码器来对具有高不确定的分类样本进行进一步的判断，从而能够更好地提高异常检测的准确率。

技术方案：为实现上述目的，本发明提出一种基于贝叶斯神经网络的卫星异常检测方法。大多数现有的异常检测方法基于传统的神经网络。然而，卫星的异常检测严重依赖模型的准确度，一个过度自信的决策可能低估异常遥测数据带来的危险。将神经网络看作一个概率模型，则传统的神经网络的参数学习可以视为点估计。从概率论的角度来说，使用点估计作为基于任何分类的权重是不合理的。首先，依据卫星数据来构建传统的长短时记忆神经网络。其次，引入贝叶斯思想，使用dropout方法来进行近似推断，利用dropout技术来最小化网络权重的近似分布和后验分布之间KL散度。然后，采用了预测熵和互信息这两种度量方式来计算异常检测分类结果的不确定性。最后，通过自编码器来对具有高不确定的分类样本进行进一步的判断，从而能够更好地提高异常检测的准确率。其具体的技术方案包括以下几个步骤：

步骤一：建立长短时记忆神经网络(LSTM)。

LSTM中保存的历史信息受输入门、遗忘门和输出控制门控制。X是输入数据，h是LSTM的单元输出，c是LSTM记忆单元的值。公式(1)-公式(6)阐述了双向LSTM的搭建过程。

其中，

是当前时刻记忆单元的候选值，W_xc是t时刻输入数据的权值，x^t是t时刻的输入数据，W_hc对应上一时刻LSTM单元的输出的权值，b_c是偏置参数。

i^t＝σ(W_xix^t-1+W_hih^t-1+W_cic^t-1+b_i) (2)

其中，i^t是输入门当前的状态值，受当前输入数据x^t、上一时刻LSTM的输出h^t-1和上一时刻LSTM记忆单元c^t-1的影响。W_xi、W_hi、W_ci分别为对应的权值。

f^t＝σ(W_xfx^t-1+W_hfh^t-1+W_cfc^t-1+b_f) (3)

其中，f^t是遗忘门当前的状态值，遗忘门是控制历史信息对当前记忆单位的影响；W_xf、W_hf、W_cf分别为对应的权值。

其中，c^t是t时刻记忆单元的状态值，⊙表示元素间的点积，逐点相乘。记忆单元的状态值由输入门和遗忘门共同调节。

o^t＝σ(W_xox^t-1+W_hoh^t-1+W_coc^t-1+b_o) (5)

其中，o^t是输出门的输出状态值，控制记忆单元状态值的输出；W_xo、W_ho、W_co分别为对应的权值。

h^t＝o^t⊙tanh(c^t) (6)

其中，h^t是t时刻LSTM单元的输出状态值。

步骤二：使用蒙特卡洛dropout技术实现贝叶斯长短时记忆神经网络。

该发明在贝叶斯LSTM中使用dropout进行近似推理。dropout可以被认为是一种从模型的后验分布中获取样本的方法。该技术与贝叶斯神经网络中贝努利分布在网络权值上的变分推断相联系。我们利用该方法对LSTM执行贝叶斯推断。

贝叶斯神经网络重点在于给定观测到的标签Y和数据X，计算权值w的后验分布，计算公式如下：

p(w|X，Y) (7)

这个后验分布通常是不容易直接处理的，我们使用变分推论来近似它。因此，通过最小化近似分布与后验分布之间的KL散度来学习网络的权值w＝{W₁，...，W_L}，计算方式见公式(8)。

KL[q(w)||p(w|X，Y)] (8)

其中q(w)是一个权重矩阵的分布，这个矩阵的列被随机设为0。对于LSTM，这些权重矩阵W_l是第l层上的所有权值，每个权重矩阵W_l的维度为K_l-1×K_l。q(w)可以定义为公式(9)：

给定概率p_l和权重矩阵M_l作为变分参数。二进制变量z_l，k＝0对应着第l层的第k个神经单元的输出被丢弃。显然，可以把矩阵与z_l，k构成的对角矩阵相乘，通过这种方式将dropout应用于神经单元的输出。

结合步骤一中构建的LSTM神经网络，本发明中所采用的近似分布可以表示如公式(10)：

其中，c₀＝0，h₀＝0。本发明通过单个样本的蒙特卡洛积分来估算该分布：

该方法构造了一个无偏的估计。该贝叶斯网络的优化目标变成了如公式(12)：

步骤三：计算检测结果的不确定性。

卫星的异常检测实际上是一种分类问题，将卫星时序数据分为正常和异常两类。本发明引入了两种不确定性度量标准。

(1)预测熵

预测熵可以通过收集随机T步神经网络输出的概率向量来近似，对于每一个类C，对每一个类输出的概率向量进行平均，从而得出p(y＝c|x，D_train)。换句话说，就是用

来近似p(y＝c|x，D_train)。其中，在模型参数取

时，

表示输入数据x输出类别为C概率。详细的公式推导如公式(13)：

(2)互信息

作为预测熵的一种替代方法，在模型参数w的后验分布与预测值y之间，互信息提供了一种不同的不确定性测度，计算见公式(14)：

步骤四：对具有高不确定性样本进行进一步的检验。

对于具有高不确定性的分类结果的样本，往往是因为在该权重分布下，神经网络无法对该样本进行准确判断。对这些高不确定性样本进行进一步的检验是提升异常检测效果的关键。将这些样本提交给专家进行进一步分析，虽然能够得到精确的分析结果，但是专家数量和精力是有限的，需要提出一种替代方案。本发明设计一种基于变分自编码器的无监督检测方案替代专家检测。具体步骤如下：

(1)引入隐变量：当训练一个生成模型，在维度之间的依赖越复杂，模型训练越困难。此时需要一个隐变量z，并能从先验p(z)中采样。假设有一个函数族，即生成器f(z；θ)，θ是向量参数。通过优化θ能高概率的产生类似x的样本；

(2)建立损失函数：训练变分自编码器时，要考虑生成数据与真实数据的差异，以及编码器中后验概率密度和解码器中后验概率密度的差异。由此，得到自编码器的损失函数，如公式(15)：

其中，L_VAE代表变分自编码器的误差，L_R代表样本重构误差，

代表近似后验概率和真实后验概率的KL散度。

(3)基于马氏距离的误差度量：卫星正常运行时，通过自编码器会生成极其相似的数据。当卫星异常时，自编码器学习好的参数将无法继续重构异常样本。为了衡量这种重构误差，采用马氏距离度量这种误差。其计算公式见公式(16)：

式中的x表示一个样本，μ表示样本均值，∑^-1表示样本空间的协方差矩阵的逆矩阵；

有益效果：本发明针对卫星遥测数据异常检测问题，提出了一种基于贝叶斯长短时记忆神经网络的异常检测方法。与传统的深度学习方法不同，该方法可以输出卫星异常检测决策置信度。将贝叶斯思想引入神经网络，网络的权重不再是单值，而是概率分布。首先，依据卫星数据来构建传统的长短时记忆神经网络。其次，引入贝叶斯思想，使用dropout方法来进行近似推断，通过最小化网络权重的近似分布和后验分布之间KL散度来学习网络权重。然后，采用了预测熵和互信息这两种度量方式来计算异常检测分类结果的不确定性。最后，通过人工或者自编码器来对具有高不确定的分类样本进行进一步的判断，从而能够更好地提高异常检测的准确率。

附图说明

图1是方法流程图。

图2是LSTM结构示意图。

具体实施方式

下面结合附图，对本发明做进一步说明。

本发明针对卫星传感器数据异常检测问题，提出了一种基于贝叶斯长短时记忆神经网络的异常检测方法。与传统的深度学习方法不同，该方法可以输出卫星异常检测决策置信度。将贝叶斯思想引入神经网络，网络的权重不再是单值，而是符合某种概率分布。首先，依据卫星数据来构建传统的长短时神经网络。其次，引入贝叶斯思想，使用dropout方法来进行近似推断，通过最小化网络权重的近似分布和后验分布之间KL散度学习网络权重。然后，采用了预测熵和互信息这两种度量方式来计算异常检测分类结果的不确定性。最后，通过自编码器来对具有高不确定的分类样本进行进一步的判断。具体实施步骤如下，且具体流程见附图1。

1长短时神经网络

LSTM中保存的历史信息受输入门、遗忘门和输出控制门控制。X是输入数据，h是LSTM的单元输出，c是LSTM记忆单元的值。网络结构见附图2。公式(17-22)阐述了双向LSTM的搭建过程。

其中，

i^t＝σ(W_xtx^t-1+W_hih^t-1+W_cic^t-1+b_i) (18)

f^t＝σ(W_xfx^t-1+W_hfh^t-1+W_cfc^t-1+b_f) (19)

o^t＝σ(W_xox^t-1+W_hoh^t-1+W_coc^t-1+b_o) (21)

h^t＝o^t⊙tanh(c^t) (22)

其中，h^t是t时刻LSTM单元的输出状态值。

2贝叶斯长短时记忆神经网络

该发明在贝叶斯LSTM中使用dropout进行近似推理。dropout可以被认为是一种从模型的后验分布中获取样本的方法。该技术与贝叶斯神经网络的变分推论有关，贝叶斯神经网络的伯努利分布超过了网络的权值。我们利用该方法对LSTM执行贝叶斯推断。

贝叶斯神经网络重点在于给定观测到的标签Y和数据X，计算权值w的后验分布，计算公式(23)如下：

p(w|X，Y) (23)

这个后验分布通常是不容易直接处理的，我们使用变分推论来近似它。因此，通过最小化近似分布与后验分布之间的KL散度来学习网络的权值w＝{W₁，...，W_L}，KL散度公式如(24)：

KL[q(w)||p(w|X，Y)] (24)

其中q(w)是一个权重矩阵的分布，这个矩阵的列被随机设为0。对于LSTM，这些权重矩阵W_l是第l层上的所有权值，每个权重矩阵W_l的维度为K_l-1×K_l。q(w)可以定义为公式(25)：

结合步骤一中构建的LSTM神经网络，本发明中所采用的近似分布可以表示为公式(26)：

其中，c₀＝0，h₀＝0。本发明通过单个样本的蒙特卡洛积分来估算该分布，如公式(27)：

该方法构造了一个无偏的估计。该贝叶斯网络的优化目标变成了如下公式(28)：

根据公式(25)定义了近似分布q(w)，然后公式(29)对权重矩阵的某列进行因式分解。对于每一层l，定义一个权值矩阵列w_lk：

其中，变分参数m_lk(列向量)，方差σ²和dropout概率p是提前设置好的。我们优化了随机权重矩阵的变分参数；这些参数对应于传统LSTM神经网络中的权重矩阵。

通过采样

通过模型输出

相当于神经网络在前向传递过程中，每个权值矩阵的列W_l的某些值随机归零，执行dropout。预测值可以用传统LSTM神经网络的方式前向传递来近似，结果如公式(30)。

其中，

在测试阶段采用dropout并且计算均值结果，也就是采用蒙特卡洛dropout输出结果。

3不确定性度量

卫星的异常检测实际上是一种分类问题，将卫星时序数据分为正常和异常两类。我们引入了两种不确定性度量标准。

(1)预测熵

来近似p(y＝c|x，D_train)。其中，在模型参数取

时，

表示输入数据x输出类别为C概率。详细的公式推导见公式(31)：

其中，

随着T的增加

与H[y|x，D_train]之间的偏差越来越小。

(2)互信息

作为预测熵的一种替代方法，在模型参数w的后验分布与预测值y之间，互信息提供了一种不同的不确定性测度，见公式(32)：

互信息可以使用类似于预测熵的方法来进行近似计算，计算方式见(33)：

其中，

4基于变分自编码器的专家替代方案

对于具有高不确定性的分类结果的样本，往往是因为在该权重分布下，神经网络无法对该样本进行准确判断。对这些高不确定性样本进行进一步的检验是提升异常检测效果的关键。将这些样本提交给专家进行进一步分析，虽然能够得到精确的分析结果，但是专家数量和精力是有限的，需要提出一种替代方案。本发明设计一种基于变分自编码器的无监督检测方案替代专家检测

变分自编码器是一种将降维与生成模型结合的深度学习方法。它的结构包含一个编码器和解码器。其中，编码器将样本x编码为一个隐变量z，解码器将z重构为

可以用如下公示(34)表达：

其中，E(·)代表编码器，D(·)代表解码器，

是经过自编分编码器重构过的样本，z是符合方差为σ且均值为0的高斯分布。

当训练变分自编码器时，要考虑生成数据与真实数据的差异和编码器中后验概率密度和解码器中后验概率密度的差异。由此，可以得到自编码器的损失函数，见公式(35)：

其中，L_VAE代表变分自编码器的误差，L_R表示样本重构误差，

代表近似后验概率和真实后验概率的KL散度。

当卫星在轨正常运行时，把遥测数据输入建立的自编码器，会生成极其相似的数据。当卫星发生异常时，原先建立的自编码器将无法正常重构异常样本。

考虑到卫星传感器之间复杂联系，不同传感器之间存在相关性，以及变化尺度的不同，本文采用马氏距离作为衡量这种误差的方法。其计算公式(36)如下：

其中，x表示一个样本，μ表示样本均值，∑^-1表示样本空间的协方差矩阵的逆矩阵。

为了衡量自编码器的重构误差，采用马氏距离来计算重构数据R(i)在该数据集上的重构误差得分(RE_Score)，计算公式(37)如下：

其中，x(i)表示第i个数据记录，表示经过自编码器重构的第i个数据记录，表示数据集的协方差矩阵的逆矩阵。

RE_Score在高维空间中是一种相对鲁棒性的重构误差度量值，它反应了卫星遥测数据重构误差变化的趋势。为了监测这一趋势并且检测异常变动，一种方法是设置一个固定的阈值，当RE_Score超过这个阈值时候，这就意味着卫星分系统可能出现了问题，需要发出告警。这种基于固定阈值的卫星部件警报规则可以采用公式(38)描述：

Claims

1.一种基于贝叶斯神经网络的卫星遥测数据异常检测方法，其主要特征包括如下步骤：

(1)建立长短时记忆神经网络：长短时神经网络其能够在输入和输出序列之间的映射过程中利用上下文相关信息，能够学习卫星遥测数据中蕴含的长期依赖关系；

(2)使用蒙特卡洛dropout技术实现贝叶斯长短时记忆神经网络：贝叶斯LSTM中使用dropout进行近似推理。dropout是一种从模型的后验分布中获取样本的方法。该技术与贝叶斯神经网络中贝努利分布在网络权值上的变分推断相联系；

(3)计算检测结果的不确定性：卫星异常检测实际上是一种分类问题，将卫星时序数据分为正常和异常两类。本发明引入了两种不确定性度量标准。

(4)对具有高不确定性样本进行检验：具有高不确定性的分类结果的样本，往往是因为在该权重分布下，神经网络无法对该样本进行准确判断。本发明设计一种基于变分自编码器的无监督检测方案。

2.根据权利要求1基于贝叶斯神经网络的卫星遥测数据异常检测方法，其特征在于，步骤(1)建立长短时记忆神经网络，其实现方法包括：

其中，是当前时刻记忆单元的候选值，W_xc是t时刻输入数据的权值，x^t是t时刻的输入数据，W_hc对应上一时刻LSTM单元的输出的权值，b_c是偏置参数。

i^t＝σ(W_xix^t-1+W_hih^t-1+W_cic^t-1+b_i) (2)

f^t＝σ(W_xfx^t-1+W_hfh^t-1+W_cfc^t-1+b_f) (3)

o^t＝σ(W_xox^t-1+W_hoh^t-1+W_coc^t-1+b_o) (5)

h^t＝o^t⊙tanh(c^t) (6)

其中，h^t是t时刻LSTM单元的输出状态值。

3.根据权利要求1基于贝叶斯神经网络的卫星遥测数据异常检测方法，其特征在于，步骤(2)使用蒙特卡洛dropout技术实现贝叶斯长短时记忆神经网络，其实现方法包括：

贝叶斯神经网络重点在于给定观测到的标签Y和数据X，计算权值w的后验分布，计算公式(7)如下：

p(w|X，Y) (7)

这个后验分布通常难以直接处理的，使用变分推论来近似。因此，通过最小化近似分布与后验分布之间的KL散度来学习网络的权值w＝{W₁，...，W_L}，KL散度表示如公式(8)。

KL[q(w)||p(w|X，Y)] (8)

结合步骤(1)中构建的LSTM神经网络，本发明所采用的近似分布采用公式(10)表示：

其中，c₀＝0，h₀＝0。本发明通过单个样本的蒙特卡洛积分来估算该分布，见公式(11)：

4.根据权利要求1基于贝叶斯神经网络的卫星遥测数据异常检测方法，其特征在于，步骤(4)计算检测结果的不确定性，其实现方法包括：

(1)预测熵

预测熵可以通过收集随机T步神经网络输出的概率向量来近似，对于每一个类C，对每一个类输出的概率向量进行平均，从而得出p(y＝c|x，D_train)。即用

来近似p(y＝c|x，D_train)。其中，在模型参数取

时，

表示输入数据x输出类别为C概率。详细计算推导如公式(13)：

其中，

随着T的增加

与H[y|x，D_train]之间的偏差越来越小。

(2)互信息

作为预测熵的一种替代方法，在模型参数w的后验分布与预测值y之间，互信息提供了一种不同的不确定性测度，互信息计算见公式(14)：

互信息可以使用类似于预测熵的方法来进行近似计算，见公式(15)：

其中，

5.根据权利要求1基于贝叶斯神经网络的卫星遥测数据异常检测方法，其特征在于，步骤(4)对具有高不确定性样本进行检验，其实现方法包括：

对于具有高不确定性的分类结果样本，往往是因为在该权重分布下，神经网络无法对该样本进行准确判断。对这些高不确定性样本进行进一步的检验是提升异常检测效果的关键。本发明设计一种基于变分自编码器的无监督检测方案。

变分自编码器是一种将降维与生成模型结合的深度学习方法。它包含编码器和解码器。其中，编码器将样本x编码为一个隐变量z，解码器将z重构为可以用公式(16)表达：

其中，E(·)代表编码器，D(·)代表解码器，

当训练变分自编码器时，要考虑生成数据与真实数据的差异和编码器中后验概率密度和解码器中后验概率密度的差异。由此，可以得到自编码器的损失函数，见公式(17)：

代表近似后验概率和真实后验概率的KL散度。

当卫星正常运行时，把遥测数据输入建立的自编码器，会生成极其相似的数据。当卫星发生异常时，原先建立的自编码器将无法正常重构异常样本。

考虑到卫星传感器之间复杂联系，不同传感器之间存在相关性，以及变化尺度的不同，本发明采用马氏距离作为衡量误差的方法。其计算如公式(18)：

为了衡量自编码器的重构误差，采用马氏距离来计算重构数据R(i)在该数据集上的重构误差得分(RE_Score)，计算公式(19)如下：

其中，x(i)表示第i个数据记录，

表示经过自编码器重构的第i个数据记录，

表示数据集的协方差矩阵的逆矩阵。

RE_Score在高维空间中是一种相对鲁棒性的重构误差度量值，它反应了卫星遥测数据重构误差变化的趋势。为了监测这一趋势并且检测异常变动，一种方法是设置一个固定的阈值，当RE_Score超过这个阈值时候，这就意味着卫星某系统可能出现了问题，需要发出告警。这种基于固定阈值的卫星部件警报规则可以采用公式(20)描述：