CN107092582B

CN107092582B - 一种基于残差后验的异常值在线检测及置信度评估方法

Info

Publication number: CN107092582B
Application number: CN201710206884.XA
Authority: CN
Inventors: 孙栓柱; 帅云峰; 周春蕾; 张友卫; 代家元; 李春岩; 杨晨琛; 王林; 魏威; 周志兴; 佘国金
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Jiangsu Fangtian Power Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2021-04-27
Anticipated expiration: 2037-03-31
Also published as: CN107092582A

Abstract

本发明公开了一种基于残差后验的异常值在线检测及置信度评估方法，包括：采集数据,建立时间序列数据，对时间序列数据进行线性拟合得到当前时刻的数据与之前p个数据的线性组合公式，预测后续时间的数据值；将预测的数据值与实际检测的数据值进行对比，得到预测残差序列；采用KDE核密度估计法确定预测残差序列的概率密度函数；对预测残差序列进行后验比检验，判断当前时刻的数据是否为异常点；以时间序列数据作为输入，建立SOM状态模型，得到状态序列和状态转移概率矩阵，定义异常打分函数，输出异常评分。本发明通过比较数据为异常点和正常点的概率大小，在线辨识污染物排放浓度时序数据中的异常值，提高了异常值判断的准确性和可靠性。

Description

一种基于残差后验的异常值在线检测及置信度评估方法

技术领域

本发明涉及燃煤机组污染物排放浓度数据监测领域，具体涉及一种基于残差后验的异常值在线检测及置信度评估方法。

背景技术

为了有效降低燃煤机组污染物排放指标，我国近年来提出了燃煤机组污染物排放达到燃气机组排放指标的相关政策，即燃煤机组超低排放。江苏省燃煤机组于2014年开始大力开展超低排放改造，目前，约80％左右的135MW及以上机组已完成超低排放改造，并实现了污染物相关参数的在线监管，其中包括负荷工况参数和烟囱排口SO₂、NOx、烟尘浓度、氧量、温度、湿度、压力以及相关环保系统过程辅助参数。

随着超低排放改造工作的不断开展，燃煤机组污染物排放浓度数据的正常与否成为发电企业关注的焦点问题之一。燃煤机组超低排放监测数据随时间变化，是典型的时间序列数据。此外，超低排放浓度数据以10秒的时间间隔采集，一年的数据记录条数在315万左右。因此，超低排放浓度异常值辨识方法有2个任务：

1)异常值检测：根据近期数据的变化趋势，动态识别现场采集数据中与当前变化规律不一致的异常点；

2)异常值置信度评估：根据历史数据的长期变化规律，判断任务1)中发现的异常点是否合理，降低误报警的可能性。

早期的异常值检测方法大多基于统计学原理，需要事先假设样本的数据分布模型，然后采用假设检验的方法判断数据是否异常，但是通常情况下都缺少对样本的先验知识，假设检验的前提不成立，这就极大地降低了检测方法的可信度。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于残差后验的异常值在线检测及置信度评估方法，本基于残差后验的异常值在线检测及置信度评估方法通过比较数据为异常点和正常点的概率大小，在线辨识污染物排放浓度时序数据中的异常值。

为实现上述技术目的，本发明采取的技术方案为：

一种基于残差后验的异常值在线检测及置信度评估方法，包括以下步骤：

步骤1：采集燃煤机组超低排放浓度历史数据，根据历史数据建立时间序列数据，对时间序列数据进行线性拟合得到当前时刻的数据与之前p个数据的线性组合公式，预测后续时间的数据值；

步骤2：将步骤1预测的数据值与实际检测的数据值进行对比，得到预测残差序列；

步骤3：采用KDE核密度估计法确定预测残差序列的概率密度函数，根据概率密度函数计算当前时刻的残差概率；

步骤4：应用Bayesian原理对预测残差序列进行后验比检验，判断当前时刻的数据是否为异常点，如果为异常点，执行步骤5，否则输出正常并结束；

步骤5：采用SOM神经网络，以步骤1中的时间序列数据作为输入进行训练从而建立SOM状态模型，得到离散的状态序列和状态转移概率矩阵，根据从状态转移概率矩阵查得的数据状态改变发生的概率计算当前时刻数据的异常得分，确定数据异常置信度；

步骤6：根据数据异常置信度，辨识燃煤机组污染物排放浓度时序数据中的异常值，实现污染物排放浓度数据的正常与否的在线检测。

作为本发明进一步改进的技术方案，所述的步骤1包括：

(1)采集燃煤机组超低排放浓度历史数据，根据历史数据建立时间序列数据{x₁，x₂...，x_t}，其中t为时间，x_t为时刻t采集的数据，p阶AR模型AR(p)将时间序列当前值x_t建模为它的p个相邻历史值的线性组合，并加上常数项和随机误差，模型如下：

式中：a₀是常数项；a_i(i＝1，2，...，p)是自回归系数；ε_t代表随机误差，是均值为0、方差为σ²且相互独立的白噪声序列；

(2)选取一个大小固定为L的滑动窗口，从时间序列数据中选取需要预测的当前t时刻的前L个数据{x_t-L，x_t-L+1...，x_t-1}，将前L个数据{x_t-L，x_t-L+1...，x_t-1}导入滑动窗口内，利用窗口中的数据对AR模型进行在线训练，确定p、a₀、a_i和ε_t的值，用训练好的AR模型预测当前t时刻的数据。

作为本发明进一步改进的技术方案，所述的步骤2包括：

(1)将步骤1中当前t时刻的实际检测数据减去预测数据从而求得当前t时刻的残差e_t，并按照下列公式(2)求得前L个预测数据的残差{e_t-L，e_t-L+1...，e_t-1}，从而获得残差序列

公式如下：

其中i＝t-L，...，t，e_i为时刻i的残差，x_i为时刻i的实际检测的真实数据，

为时刻i的预测数据。

作为本发明进一步改进的技术方案，所述的步骤3包括：

采用KDE核密度估计法得到预测残差序列

的概率密度函数，根据概率密度函数求得时间段(t-L，t)中任意时间点i的残差e_i的概率p(e_i)，p(e_i)取其所属值域区间的概率作为此点的概率，则当前t时刻的残差概率

为：

作为本发明进一步改进的技术方案，所述的步骤4包括：

(1)假设：H₀为当前t时刻的数据x_t未发生异常，是正常点；H₁为当前t时刻的数据x_t为异常点；

(2)上述假设H₀和H₁的残差概率分别为：

公式(4)和公式(5)中：p(·|·)表示高斯条件概率；v_L为t时刻的前L个残差序列{e_t-L，e_t-L+1...，e_t-1}的高斯分布方差，v_t为当t时刻的数据x_t发生异常时残差e_t的方差；公式(4)表示在假设H₀下，t时刻的数据x_t为正常点的残差概率，由于H₀假设t时刻数据未发生异常，因此t时刻的数据的方差与前面L个数据的方差相同，均为v_L；公式(5)表示在假设H₁下，t时刻的数据x_t为异常点的残差概率，在H₁假设下t时刻数据的方差与前面L个数据的方差不同，t时刻数据的方差用v_t表示；

(3)根据贝叶斯公式确定假设H₀和H₁的后验概率分别为：

式中：p(H₀)和p(H₁)分别为假设H₀和H₁的先验概率，且p(H₀)+p(H₁)＝1，

是拟合残差e_i(i＝t-L，...，t)的先验概率，即步骤3求得的时刻t的残差概率

(4)确定假设H₀和H₁边缘化处理后的后验概率，计算公式为：

式中函数Γ(·)为伽马函数，通过下述近似方程计算：

其中：

公式(8)和公式(9)的后验概率表示了残差e_i(i＝t-L，...，t)在取当前时刻的值时，假设H₀和H₁成立的概率；

(5)计算后验概率对数比φ(t)从而判断假设H₀和H₁中哪一个假设成立，计算公式如下：

预先设定后验概率对数比φ(t)的检测阈值η，即按照下式对时序数据进行异常值检验：

即当后验概率对数比φ(t)小于等于检测阈值η时，假设H₁成立，执行步骤5，否则，假设H₀成立，输出正常并结束。

作为本发明进一步改进的技术方案，所述的步骤5包括：

(1)随机生成SOM神经网络的输出层中神经元的初始状态向量；

(2)将时间序列数据{x₁，x₂...，x_t}作为SOM神经网络的输入向量x(t)并进行输入，对输入向量遍历输出层的每个神经元，计算输入向量和输出层神经元状态向量m_i(t)之间的相似度，以距离最小的神经元为最佳匹配单元；

(3)按照下列公式更新最佳匹配单元邻域内神经元状态向量：

m_i(t+1)＝m_i(t)+h_C(x)，i(x(t)-m_i(t)) (14)；

其中：m_i(t+1)为更新的神经元状态向量，i表示神经元下标，t为学习步长；x(t)为第t步中的训练样本x；h_C(x)，i是递减的近邻函数，其第一个下标C＝C(x)，定义如下：

式中m_C(t)是第t步中所有神经元状态向量中与输入样本x(t)最相似的神经元，称作最佳匹配单元；其中近邻函数h_C(x)，i采用高斯函数：

式中：0＜α(t)＜1是单调递减的学习系数；r_i、r_C是神经元的位置，σ(t)是近邻函数的宽度；

(4)增加步长t，然后返回(2)，直至步长超出预先设定的循环次数，建立SOM状态模型，获得输出节点的离散的状态序列{C₁，C₂...，C_K}和输出层神经元之间的状态转移概率矩阵，状态转移概率矩阵中的第i行第j列的元素值p_i，j表示从状态C_i转移到状态C_j的概率，转移概率p_i，j为：

(5)当前t时刻的数据x_t为待评估的异常值，其前一个时刻的数据记为x_t-1，通过已训练好的SOM神经网络得到x_t对应的状态C_t和x_t-1对应的状态C_t-1，查询状态转移概率矩阵，选取状态C_t-1转移几率最大的状态C_l，选取状态C_t-1转移到状态C_t的转移概率p_t-1，t和状态C_t-1转移到C_l的转移概率p_t-1，l，由此定义异常打分函数：

其中转移概率p_t-1，t、p_t-1，l均通过状态转移概率矩阵查得，s为异常评分；

(6)从公式(18)中可以确定当前t时刻的数据x_t的异常打分值s，输出异常评分s，得到异常置信度；

(7)返回步骤1，通过向后滑动大小固定为L的滑动窗口从而容纳最新一个时刻的数据，移除最旧时刻的数据，对AR模型进行动态更新，从而预测后续时刻的数据，将后续时刻的数据作为新的当前时刻的数据并依次按照步骤2、步骤3、步骤4和步骤5的顺序判断当前时刻的数据是否为异常点，进而依次输出后续时刻数据的异常评分。

作为本发明进一步改进的技术方案，所述的步骤1包括：定期对滑动窗口进行批量动态更新，采集新的X个燃煤机组超低排放浓度历史数据，其中X＜L，将最近一次建立AR模型时间点后的X个数据加入滑动窗口，同时将滑动窗口中时间最早的X个数据移除，重新建立AR模型，再将新的X个数据加入时间序列数据中从而作为SOM状态模型的新的训练样本集。

本发明的方法主要用于对燃煤机组污染物排放浓度监测时序数据异常值在线辨识，提高了异常值判断的准确性和可靠性，旨在为相关政府部门实施节能减排精细化管理提供更为良好的技术支撑，提升在线监测管理水平和快速响应能力。本发明的方法使用了无需先验知识的后验比检验方法，不要求数据分布满足正态性要求，也无需事先给出数据异常标记，提高了方法的通用性，降低了样本预处理的难度和工作量；而SOM状态模型可以实现高维数据到低维数据的转换，能够满足燃煤机组环保设施运行参数繁多、记录数庞大的高维数据处理场景，使得方法具有较好的适用性和扩展性。由于方法实现了在线检测功能，并提供了模型更新方法，使得模型能及时根据数据实际变化情况进行调整，也有效地提高了模型的准确性、可靠性和适应性；同时，本发明通过比较数据为异常点和正常点的概率大小，在线辨识污染物排放浓度时序数据中的异常值；基于SOM状态转移概率矩阵，根据历史上数据状态变化的规律对异常值出现的可能性进行估算，对检测出的异常点进行置信度评估，进一步对异常点进行确认，减少误报警。

附图说明

图1为本发明的流程图。

图2为本发明实施例的测试机组烟尘排放浓度预测数据和实际检测数据对比示意图。

图3为本发明实施例的测试机组烟尘排放浓度残差时序图。

图4为本发明实施例的测试机组烟尘排放浓度后验概率对数比时序图。

具体实施方式

下面根据图1、图2、图3和图4对本发明的具体实施方式作出进一步说明：

本发明对于某一给定的时间序列数据{x₁，x₂...，x_N}，判断一个新来数据点x是否为异常点并评估该数据点的异常置信度的总体思路如图1所示，可以分为模型离线训练、异常值在线辨识及模型批量更新三个阶段。

模型离线训练阶段：建立AR预测模型和SOM状态模型。

异常值在线辨识阶段：对预测残差序列进行基于贝叶斯公式的假设检验，利用先验概率和条件概率分别计算得到新来数据点为正常点和异常点的后验概率，用这两者的后验概率对数比作为指标，判断新来数据点是否为异常点。对于检测出的异常点，进一步利用模型离线训练阶段得到的SOM状态模型和状态转移概率矩阵计算出从前一个数据状态转移到该待检测异常点对应状态的可能性，由此可以推算出该点的异常度评分，进而评估该数据点有多大的可能性是一个异常点。

模型批量更新阶段：对于在线辨识模型，由于当前数据与之前p个数据的线性关系是不断变化的，因此AR模型和SOM状态模型在运行了一段时间后都需要进行更新，以便模型能及时反映数据的变化趋势。此时，只需将最近一次建模时间点后的m个数据加入训练样本集，同时将样本集中时间最早的m个数据移除，然后再次进入模型离线训练阶段重新建模，就可以完成模型的批量更新。通过定期更新模型，可使模型能动态调整以随时保持与数据变化规律同步，这样可以有效提高异常点识别的准确度。

具体的，一种基于残差后验的异常值在线检测及置信度评估方法，包括以下步骤：

AR模型，描述的是时间序列当前值与历史值之间的线性关系，分析和表征时间序列数据之间的相互依赖性与相关性，是一种线性预测方法；所述的步骤1包括：

(2)选取一个大小固定为L的滑动窗口，从时间序列数据中选取需要预测的当前t时刻的前L个数据{x_t-L，x_t-L+1...，x_t-1}，将前L个数据{x_t-L，x_t-L+1...，x_t-1}导入滑动窗口内，利用窗口中的数据对AR模型进行在线训练，确定p、a₀、a_i和ε_t的值，用训练好的AR模型预测当前t时刻的数据。在此阶段，可通过向后滑动窗口容纳最新的数据、移除最旧的数据改变训练集，对AR模型进行动态更新。

所述的步骤2包括：(1)将步骤1中当前t时刻的实际检测数据减去预测数据从而求得当前t时刻的残差e_t，并按照下列公式(2)求得前L个预测数据的残差{e_t-L，e_t-L+1...，e_t-1}，从而获得残差序列

公式如下：

为时刻i的预测数据，其中前L个预测数据均是按照步骤1的方法训练AR模型并通过训练好的AR模型进行预测的。

核密度估计是一类基于概率密度函数的非参数估计方法，它从数据样本本身出发研究数据分布的特征，其基本思想是：基于已知的历史数据，对未知总体的概率密度函数进行估计，使估计得到的密度函数与真正的密度函数间的均方积分误差最小。核密度估计方法，就是借助一个移动的单元格(核函数)放在每一个数据点的位置上；然后，将核函数的作用效果叠加起来，获得一条光滑的曲线。而核函数的选择条件为单个峰值下的函数面积为1。

假设x₁，x₂...，x_N为独立同分布F的N个样本点，设其概率密度为f，则其核密度函数估计为：

公式中的K(·)被称为核函数，通常满足对称性及∫K(x)dx＝1。核函数是一种加权函数，利用数据点x_i到x的距离(x-x_i)来决定x_i在估计点x的密度时所起的作用。一般选择标准正态函数作为核函数，如公式(4)所示，则离x点越近的样本点其加权也越大。

公式(3)中的h(h＞0)是一个平滑参数，称为带宽，带宽值的选择对估计f(x)的影响很大。当h很小时，只有特别接近x的点才起较大作用；随着h的增大，则距离x远一些点的作用也随之增加。标准正态核函数的带宽h可由Silverman拇指法则得到：

式中σ是样本标准差。

所述的步骤3包括：采用KDE核密度估计法即通过上述公式(3)、公式(4)和公式(5)求出预测残差序列

的概率密度函数，就可以利用其计算时刻t的残差概率

具体计算方法如下：AR模型预测后所得残差序列为

根据概率密度函数求得时间段(t-L，t)中任意时间点i的残差e_i的概率p(e_i)，p(e_i)取其所属值域区间的概率作为此点的概率，则当前t时刻的残差概率

为：

步骤4中对AR模型的预测残差序列进行后验比检验，主要原理如下：选取一个大小固定为L的滑动窗口，检验当前数据是否与其前L个数据服从同一均值为零、方差为v_L的高斯分布N(0，v_L)，如果服从同一分布则判断其为正常点，否则为异常点；所述的步骤4具体包括：

(2)上述假设H₀和H₁的残差概率分别为：

公式(7)和公式(8)中：p(·|·)表示高斯条件概率；v_L为t时刻的前L个残差序列{e_t-L，e_t-L+1...，e_t-1}的高斯分布方差，v_t为当t时刻的数据x_t发生异常时残差e_t的方差；公式(7)表示在假设H₀下，t时刻的数据x_t为正常点的残差概率，由于H₀假设t时刻数据未发生异常，因此t时刻的数据的方差与前面L个数据的方差相同，均为v_L；公式(8)表示在假设H₁下，t时刻的数据x_t为异常点的残差概率，在H₁假设下t时刻数据的方差与前面L个数据的方差不同，t时刻数据的方差用v_t表示；

(3)由于方差在零均值高斯概率函数中是个敏感度极高的参数，为了克服方差估计对异常值检测准确性的影响，采用边缘化处理方法，对方差进行积分处理；由此，根据贝叶斯公式确定假设H₀和H₁的后验概率分别为：

式中：p(H₀)和p(H₁)分别为假设H₀和H₁的先验概率，且p(H₀)+p(H₁)＝1，如果异常值置信度设为95％，则p(H₀)＝0.05、p(H₁)＝0.95；

是拟合残差e_i(i＝t-L，...，t)的先验概率，通过上述KDE方法估计得到的残差概率密度函数计算，即步骤3求得的时刻t的残差概率

式中函数Γ(·)为伽马函数，通过下述近似方程计算：

其中：

公式(11)和公式(12)的后验概率表示了残差e_i(i＝t-L，...，t)在取当前时刻的值时，假设H₀和H₁成立的概率，可以直接反映数据的异常情况，因此，可以利用这2个假设后验概率的大小关系来判断哪个假设成立，当前时刻的数据是否为异常点；

(5)计算后验概率对数比φ(t)从而判断假设H₀和H₁中哪一个假设成立，后验概率对数比φ(t)作为异常值判断依据，计算公式如下：

从公式(15)可以看出，如果x_t异常，则异常假设H₁的后验概率

远大于正常假设H₀的后验概率

这时φ(t)＜1，否则相反。如果预先设定后验概率对数比φ(t)的检测阈值为η，即按照下式对时序数据进行异常值检验：

即当后验概率对数比φ(t)小于等于检测阈值η时，假设H₁成立，执行步骤5，否则，假设H₀成立，输出正常并结束。式(16)中检测阈值η取值一般在1左右，通常取0.95。

SOM神经网络，可以在一维或二维的处理单元阵列上，形成输入信号的特征拓扑分布。它由输入层和输出层组成，输入层神经元为一维矩阵，接收网络的输入信号，其个数由输入向量个数决定；输出层的神经元按照一定的方式排列成一个二维节点矩阵；输入层与输出层的神经元之间通过权值相互联结。SOM神经网络对数据进行无监督学习聚类，训练时采用“竞争学习”的方式，让输出层各神经元通过竞争与输入模式进行匹配，最后仅有一个神经元成为竞争的胜者，这个获胜的神经元就代表对输入模式的分类。由于无监督学习的训练样本中不含有期望输出(即样本的分类标签)，没有任何先验知识，因此SOM神经网络适用于对数据量大、不含类标签的数据进行聚类分析。

具体的，SOM将整个时间序列数据{x₁，x₂，...，x_t}作为输入，序列C＝{C₁，C₂...，C_K}作为输出，将时间序列转化为线性空间中的离散点序列。对每一个时间点t，离散点C_t∈{C₁，C₂...，C_K}表示最接近x_t的状态，从本质上看SOM实现了对时间序列数据的状态聚类。

假设SOM模型输出神经元i代表的状态向量为m_i(t)，当训练样本x提供给网络的时候，会计算样本与每个状态向量之间的欧氏距离，即样本与状态向量的相似度，然后根据相似度调整输出神经元状态向量，促使相似神经元彼此相邻、不相似的神经元间距离最大，使得在训练结束时输出层能最好得描述输入样本的数据分布。神经元对应状态向量m_i(t)按照下式进行更新：

m_i(t+1)＝m_i(t)+h_C(x)，i(x(t)-m_i(t)) (17)；

所述的步骤5的SOM网络的学习算法具体步骤包括：

(1)随机生成SOM神经网络的输出层中神经元的初始状态向量；

(2)将整个时间序列数据{x₁，x₂...，x_t}作为SOM神经网络的输入向量x(t)并进行输入，对输入向量遍历输出层的每个神经元，计算输入向量和输出层神经元状态向量m_i(t)之间的相似度，以距离最小的神经元为最佳匹配单元；

(3)按照公式(17)更新最佳匹配单元邻域内神经元状态向量：

(4)增加步长t，然后返回(2)，直至步长超出预先设定的循环次数，建立SOM状态模型，SOM状态模型训练结束后，得到一个输出节点的离散的状态序列{C₁，C₂...，C_K}和一个输出层神经元之间的状态转移概率矩阵，状态转移概率矩阵中的第i行第j列的元素值p_i，j表示从状态C_i转移到状态C_j的概率，其计算方法为：假设一个时间序列{x_t，x_t+1}，通过SOM神经网络转换得到对应的状态序列{C_i，C_j}；由于x_t+1出现在x_t之后，可以认为发生了一次从状态C_i到C_j的转移，这个转移概率p_i，j可以按下式计算：

(5)在状态转移概率矩阵中，对角线元素(状态保持不变)取值最大，最靠近转移概率矩阵对角线元素(近邻状态之间转移)的数值次之，矩阵外围元素数值最小。对于平稳数据序列，其最大转移概率也不过在0.6左右，近邻状态转移概率降幅明显，有些甚至降至0.1左右，概率值相差不明显。而且，SOM状态模型输出的状态聚类越多，则状态转移的组合数也越多，状态转移概率也会相应下降，这使得无法通过单纯比较状态转移概率来判断异常点是否成立。因此，定义异常打分函数，参考最大-最小比较的思路，通过比较异常状态转移概率(最小概率)与最频繁发生的状态转移概率(最大概率)，得到一个更为显著的评价指标，对检测出来的异常点进行置信度评估；具体如下：当前t时刻的数据x_t为待评估的异常值，其前一个时刻的数据记为x_t-1，通过已训练好的SOM神经网络得到x_t对应的状态C_t和x_t-1对应的状态C_t-1，查询状态转移概率矩阵，选取状态C_t-1最有可能转移的状态C_l，得到状态C_t-1转移到状态C_t的转移概率p_t-1，t和状态C_t-1转移到C_l的转移概率p_t-1，l，由此定义异常打分函数：

(6)从公式(21)中可以确定当前t时刻的数据x_t的异常打分值s，输出异常评分s，得到异常置信度；

(7)返回步骤1，通过向后滑动大小固定为L的滑动窗口从而容纳最新一个时刻的数据，移除最旧时刻的数据，对AR模型进行动态更新，从而预测后续时刻的数据，将后续时刻的数据作为新的当前时刻的数据并依次按照步骤2、步骤3、步骤4和步骤5的顺序判断当前时刻的数据是否为异常点，进而依次输出后续时刻的数据为异常点的异常评分。

AR模型和SOM状态模型在运行了一段时间后都需要进行数据批量更新，以便模型能及时反映数据的变化趋势，即所述的步骤1还包括：定期对滑动窗口进行批量动态更新，采集新的X个燃煤机组超低排放浓度历史数据，其中X＜L，将最近一次建立AR模型时间点后的X个数据加入滑动窗口，同时将滑动窗口中时间最早的X个数据移除，重新建立AR模型，再将新的X个数据加入时间序列数据中作为SOM状态模型的新的训练样本集。

以一台装机容量为330MW的燃煤机组作为测试机组，以烟尘排放浓度为目标测点，选择2015年7月至2016年6月1年的烟尘超低排放浓度数据为样本建立模型，以2016年7月1日数据为测试样本，对烟尘排放浓度异常值进行辨识。

利用训练样本建立AR模型，得到一个60阶的自回归线性公式，用这个公式对测试时间段的烟尘排放浓度进行预测，预测值与实际值对比、预测残差分别如图2和图3所示。

从图2和图3中可以看出，在第243和723个样本数据处预测值和实际值偏差较大，残差出现突变。我们选择大小为L＝90的滑动窗口对上述残差序列进行后验比检验，然后以检测阈值η＝0.8对后验概率比进行异常值检测，得到的后验概率比及异常值检测结果如图4所示。从图4可以看出，第243和723个样本数据的后验概率比分别为0.45和0.5，均低于0.8的检测阈值，较其它正常点的后验概率比明显偏小。因此，在检测阈值为0.8的情况下能检测出所有异常点。

为了评估异常值检测结果的准确性，用相同的训练样本进行建模，得到一个6×6的SOM状态模型，其转移概率矩阵见下表。可以看出，矩阵对角线元素(用灰色背景标识)的概率值最大，越往矩阵外围元素概率值越小，说明相似状态间的转移发生比较频繁，越不相似的状态之间发生转移的概率越少甚至不发生。

烟尘排放浓度状态转移概率矩阵简化表

对于上述检测到的第一个异常点，即第243个样本数据，其状态为C₈，其前一个数据的状态为C₂₂。查找上表的状态转移概率矩阵，发现状态C₂₂最有可能转移到状态C₂₂，其转移概率为p_22，22＝0.615，状态C₂₂转移到第243个样本数据对应状态C₈的概率为p_22，8＝0，则其打分函数s＝1-p_22，8/p_22，22＝1-0/0.615＝1，说明该点一定是一个异常点。

对于上述检测到的第二个异常点，即第723个样本数据，其状态为C₈，其前一个数据的状态为C₃₆。由上表可得，状态C₃₆最有可能转移到状态C₃₆，其转移概率为p_36，36＝0.745，状态C₃₆转移到该样本数据对应状态C₈的概率为p_36，8＝0.068，则其打分函数s＝1-p_36，8/p_36，36＝1-0.068/0.745＝0.909，说明该点有大约91％的可能性是一个异常点。由此可见，前一节的异常值检测结果还是比较准确的，检测方法的可靠性较高。

本发明的方法使用了无需先验知识的后验比检验方法，不要求数据分布满足正态性要求，也无需事先给出数据异常标记，提高了方法的通用性，降低了样本预处理的难度和工作量；而SOM状态模型可以实现高维数据到低维数据的转换，能够满足燃煤机组环保设施运行参数繁多、记录数庞大的高维数据处理场景，使得方法具有较好的适用性和扩展性。同时，由于方法实现了在线检测功能，并提供了模型批量更新方法，使得模型能及时根据数据实际变化情况进行调整，也有效地提高了模型的准确性、可靠性和适应性。

本发明的保护范围包括但不限于以上实施方式，本发明的保护范围以权利要求书为准，任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。

Claims

1.一种基于残差后验的异常值在线检测及置信度评估方法，其特征在于：包括以下步骤：

步骤5：采用SOM神经网络，以步骤1中的时间序列数据作为输入进行训练从而建立SOM状态模型，得到离散的状态序列和状态转移概率矩阵，定义异常打分函数，根据从状态转移概率矩阵查得的数据状态改变发生的概率计算当前时刻数据的异常得分，确定数据异常置信度；

2.根据权利要求1所述的基于残差后验的异常值在线检测及置信度评估方法，其特征在于：所述的步骤1包括：

3.根据权利要求2所述的基于残差后验的异常值在线检测及置信度评估方法，其特征在于：所述的步骤2包括：

(1)将步骤1中当前t时刻的实际检测数据减去预测数据从而求得当前t时刻的残差e_t，并按照下列公式(2)求得前L+1个预测数据的残差{e_t-L，e_t-L+1...，e_t-1}，从而获得残差序列

公式如下：

为时刻i的预测数据。

4.根据权利要求3所述的基于残差后验的异常值在线检测及置信度评估方法，其特征在于：所述的步骤3包括：

采用KDE核密度估计法得到预测残差序列

为：

5.根据权利要求4所述的基于残差后验的异常值在线检测及置信度评估方法，其特征在于：所述的步骤4包括：

(2)上述假设H₀和H₁的残差概率分别为：

公式(4)和公式(5)中：p(·|·)表示高斯条件概率；v_L为t时刻的前L个残差序列{e_t-L，e_t-L+1...，e_t-1}的高斯分布方差，v_t为当t时刻的数据x_t发生异常时残差e_t的方差；公式(4)表示在H₀假设下，t时刻的数据x_t为正常点的残差概率，由于H₀假设t时刻数据未发生异常，因此t时刻的数据的方差与前面L个数据的方差相同，均为v_L；公式(5)表示在H₁假设下，t时刻的数据x_t为异常点的残差概率，在H₁假设下t时刻数据的方差与前面L个数据的方差不同，t时刻数据的方差用v_t表示；

(3)根据贝叶斯公式确定假设H₀和H₁的后验概率分别为：

式中函数Γ(·)为伽马函数，通过下述近似方程计算：

其中：

6.根据权利要求5所述的基于残差后验的异常值在线检测及置信度评估方法，其特征在于：所述的步骤5包括：

(1)随机生成SOM神经网络的输出层中神经元的初始状态向量；

(3)按照下列公式更新最佳匹配单元邻域内神经元状态向量：

m_i(t+1)＝m_i(t)+h_C(x)，i(x(t)-m_i(t)) (14)；

式中：0＜α(t)＜1是单调递减的学习系数；r_i、r_C是神经元的位置，σ(t)是近邻函数的宽度；(4)增加步长t，然后返回(2)，直至步长超出预先设定的循环次数，建立SOM状态模型，获得输出节点的离散的状态序列{C₁，C₂...，C_K}和输出层神经元之间的状态转移概率矩阵，状态转移概率矩阵中的第i行第j列的元素值p_i，j表示从状态C_i转移到状态C_j的概率，转移概率p_i，j为：

7.根据权利要求2所述的基于残差后验的异常值在线检测及置信度评估方法，其特征在于：所述的步骤1包括：定期对滑动窗口进行批量动态更新，采集新的X个燃煤机组超低排放浓度历史数据，其中X＜L，将最近一次建立AR模型时间点后的X个数据加入滑动窗口，同时将滑动窗口中时间最早的X个数据移除，重新建立AR模型，再将新的X个数据加入时间序列数据中从而作为SOM状态模型的新的训练样本集。