CN116991137B

CN116991137B - 一种面向概念漂移的可适应可解释的工控系统异常检测方法

Info

Publication number: CN116991137B
Application number: CN202310809566.8A
Authority: CN
Inventors: 徐丽娟; 韩梓昱; 赵大伟; 娄国庆; 赵梓程; 杨志; 宋维钊
Original assignee: Qilu University of Technology; National Supercomputing Center in Jinan
Current assignee: Qilu University of Technology; National Supercomputing Center in Jinan
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2024-03-26
Anticipated expiration: 2043-07-04
Also published as: CN116991137A

Abstract

本发明涉及一种面向概念漂移的可适应可解释的工控系统异常检测方法，包括：步骤1：获取不同时期的工控数据样本，包括历史数据和新数据，训练异常检测模型，保存训练参数；步骤2：校准异常检测模型的输出结果；步骤3：漂移检测；步骤4：漂移解释；步骤5：将发生概念漂移的新样本和旧样本中没有过时的样本组合起来，重新训练异常检测模型，适应漂移；步骤6：将归一化处理后的待检测工控数据输入步骤5处理后的适应漂移的异常检测模型，输出异常检测结果。本发明判断是否发生了概念漂移。本发明适应概念漂移的过程中防止模型忘记旧分布中没有过时的样本，同时又能学习到新分布中发生概念漂移的正常样本的问题，适应漂移降低模型的误报率。

Description

一种面向概念漂移的可适应可解释的工控系统异常检测方法

技术领域

本发明涉及工控系统无监督异常检测概念漂移解释和适应领域，尤其涉及一种面向概念漂移的可适应可解释的工控系统异常检测方法。

背景技术

异常检测(Anomaly Detection)，也称为离群点检测(Outlier Detection)，是指在数据中寻找与其他数据明显不同或不符合预期行为的数据点。异常检测可以用于数据分析、工业控制、网络安全、金融欺诈检测等领域，是数据分析和机器学习中的一项重要任务。异常检测在工控领域中扮演着重要的角色。在工控领域中，存在着大量现场设备状态数据流，这些数据流可以用于检测异常行为。异常数据可能是故障或攻击的迹象，及时地识别和处理异常数据可以保证工控系统的稳定运行和安全性。近年来，基于深度学习的异常检测算法在检测的准确率和降低误报率方面取得了长足的进步，可以检测工控系统受到的攻击和潜在威胁，以便及时采取必要的措施。

机器学习算法取得巨大的成功背后是一个中心假设：训练和测试数据是从相同的基础分布中独立抽取的。在工控安全领域中，这个假设往往不成立，因为随着互联网的快速发展，以前相对封闭和独立的工业控制系统正逐渐变得开放化和互联化，会随时涌入新的攻击方式，新的绕过方式，训练集的数据分布并不等同于真实的数据分布，机器学习模型学到的决策边界并不一定适用于真实的外部环境，因此机器学习应用在工控安全领域中最大的障碍就是概念漂移问题。

由于异常检测方法通过零正例学习来得到预训练模型，即可以在没有异常数据的情况下检测到异常，因此可以免疫恶意/异常行为的漂移。但是，当正常数据的分布发生变化时，正常数据有可能会被判定为异常，从而产生更严重的影响。在实际应用中，数据的分布会以不可预测的方式随着外部环境、系统故障或者数据源本身的非平稳变化而发生变化。例如，新补丁、设备和协议的引入都有可能改变正常模式。如果这种正常数据的漂移没有被检测到并进行适应，则会导致大量误报和漏报，即原先预训练的模型或规则不再适用于当前的数据，从而影响系统的可靠性和安全性。因此，如何解决正常数据概念漂移问题成为了工控系统异常检测领域中一个重要的研究方向。

近年来针对概念漂移的问题，人们已经提出了许多方法，例如：

1.数据监测与漂移检测：及时发现概念漂移是解决问题的第一步。监测输入数据的统计特性，包括特征分布、标签分布等，以及监测模型的预测结果和性能变化。可以使用统计方法、假设检验、累积误差等技术来检测概念漂移的发生，一旦发现数据分布发生变化，就可以采取相应的措施。

2.动态模型更新：随着数据分布的变化，动态地更新模型以适应新的数据。可以采用增量学习(Incremental Learning)或在线学习(Online Learning)的方法，在保持旧知识的基础上引入新数据并更新模型参数，以反映新的数据分布。

3.定期重新训练：定期重新训练模型是解决概念漂移的一种简单有效的方法。通过定期使用最新的数据重新训练模型，可以使模型保持对新数据的适应能力。

然而，现有的大多数研究主要关注监督学习模型上的异常行为概念漂移，而对于工控系统无监督异常检测模型上正常数据发生概念漂移的研究甚少，并且缺乏对概念漂移样本的可解释性研究，使用者只能检测到概念漂移的发生，并不能知道具体是哪些特征维度(在工控领域，即传感器或执行器)发生了变化从而导致概念漂移的发生。

发明内容

针对现有工控系统异常检测概念漂移解释和适应技术的不足，本发明提供了一种面向概念漂移的可适应可解释的工控系统异常检测方法。

本发明旨在解决工控系统无监督异常检测模型中正常数据发生概念漂移后，如何以无监督的方式检测概念漂移，如何从样本级别和特征级别两个维度解释检测到的漂移样本，以及如何在适应概念漂移的过程中防止模型忘记旧分布中没有过时的样本，同时又能学习到新分布中发生概念漂移的正常样本的问题。目的是为工控领域异常检测发生概念漂移时提供可解释性，同时通过适应漂移降低模型的误报率。

本发明首先从仅包含正常数据的历史数据集上学习一个异常检测模型，校准异常检测模型的输出结果，将模型输出的概率值转换为更准确的概率估计，强制将异常检测模型输出有意义的概率信息。通过假设检验对新旧样本分布进行统计比较，利用KL散度来衡量两个概率分布之间的差异。利用搜索优化算法寻找发生概念漂移的新样本和过时的旧样本，利用SHAP对发生概念漂移的新样本进行解释，找到发生概念漂移的特征维度。最后将发生概念漂移的新样本和旧样本中没有过时的样本组合起来，重新训练异常检测模型，适应漂移。本发明能够对工控异常检测中正常数据的概念漂移现象进行检测，并对漂移样本进行样本级别和特征级别的解释，同时使模型适应概念漂移。

术语解释：

1、KL散度：又称相对熵(relative entropy)，是信息论中的一个概念。KL散度用于度量两个概率分布之间的差异性，即在相同事件空间中，两个概率分布之间的信息量差异。

2、SHAP：全称为Shapley Additive Explanations，是一种用于解释机器学习模型的方法。它是基于博弈论中的Shapley值概念而提出的，旨在解释特征如何影响模型预测结果。SHAP的优点在于，它可以给出每个特征对预测结果的具体影响，而不是像一些传统的解释方法只能给出特征的重要性排序。此外，SHAP还可以针对不同的特征取值情况进行解释，帮助用户更好地理解模型的预测结果。

3、概念漂移：概念漂移(Concept Drift)是指数据分布随时间的变化，导致在预测或分类任务中模型的表现逐渐降低的现象。在机器学习和数据挖掘领域中，模型通常是在一个静态数据集上训练的，然而在现实世界中，数据往往是动态的，因此模型在部署后可能会受到数据分布变化的影响。概念漂移的发生可以是因为许多原因，例如外部环境因素的变化、新的行为模式的出现或者数据采集过程中的问题等。

4、自编码器：自编码器(Autoencoder)是一种无监督学习的神经网络模型，用于学习有效的数据表示或特征提取。它由两部分组成：编码器(Encoder)和解码器(Decoder)。编码器将输入数据压缩为低维表示，而解码器将该低维表示映射回原始输入空间。当输入数据包含异常或不寻常的模式时，自编码器可能无法准确地重构这些异常模式，从而产生较高的重构误差。基于这个原理，可以使用自编码器进行异常检测。训练阶段，自编码器只使用正常的数据进行训练，使其学习正常数据的内在表示。然后，在测试阶段，使用已经训练好的自编码器对新的输入数据进行重构，并计算重构误差。如果重构误差超过了预先设定的阈值，就可以将其视为异常数据。

5、sklearn中的IsotonicRegression类：是scikit-learn库中用于执行保序回归(Isotonic Regression)的类。保序回归是一种非参数的回归方法，用于建立输入特征和目标变量之间的单调递增(或递减)关系，在有足量样本的支持下可以对分类器(异常检测模型)进行校准。

本发明的技术方案为：

一种面向概念漂移的可适应可解释的工控系统异常检测方法，包括：

步骤1：获取不同时期的工控数据样本，包括历史数据和新数据，利用归一化处理之后的历史数据对基于深度学习的异常检测模型进行训练，保存异常检测模型的训练参数；

步骤2：校准异常检测模型的输出结果，强制异常检测模型输出有意义的概率值，该概率值表示样本属于正常类别的概率；

步骤3：漂移检测，通过假设检验对新旧样本分布进行统计比较，用KL散度来衡量两个概率分布之间的差异；

步骤4：漂移解释，利用搜索优化算法寻找发生概念漂移的新样本和过时的旧样本，利用SHAP对发生概念漂移的新样本进行解释，找到发生概念漂移的特征维度；

步骤5：将发生概念漂移的新样本和旧样本中没有过时的样本组合起来，重新训练异常检测模型，适应漂移；

步骤6：将归一化处理后的待检测工控数据输入步骤5处理后的适应漂移的异常检测模型，输出异常检测结果。

根据本发明优选的，步骤1的具体实现过程包括：

获取不同时期正常运行的数据，用X^o来表示过去采集到的旧数据样本即旧样本；用Xⁿ来表示与旧数据相比有一定时间跨度的新数据样本即新样本；

对X^o和Xⁿ做归一化处理，按时间顺序分割数据集，用旧样本X^o中一部分数据作为训练集另一部分数据作为测试集/>

用训练集来训练一个无监督的基于深度学习的异常检测模型f，保存f的训练参数。

根据本发明优选的，异常检测模型是自编码器AutoEncoder。

根据本发明优选的，步骤2的具体实现过程包括：

用旧样本X^o中的测试集来校准异常检测模型的输出；包括：

首先，用步骤1训练好的异常检测模型f来评估测试集根均方误差(RMSE)作为异常检测模型f的输出；

其次，将未校准的输出按降序排列，未校准的输出是指异常检测模型直接输出的数值，具体是指自编码器的重构误差(根均方误差RMSE)；将排列后的未校准的输出值作为校准器C的输入x_group，未校准的输出值即异常检测模型输出的值，生成相应的输出y_group；

y_group的生成方式是：通过计算每个未校准的输出值在排列后的列表中的位置，除以所有数据点的总数，得到归一化为[0,1]范围内的值；这样，y_group反映了每个未校准概率值在排序后的列表中的相对位置；具体如式(Ⅰ)、式(Ⅱ)所示：

y_group＝C(x_group)(Ⅱ)

式(Ⅰ)、式(Ⅱ)中，f()是异常检测模型；C()是校准器；

最后，将x_group和y_group作为训练数据来拟合、校准异常检测模型。

进一步优选的，拟合，是指：学习生成一个单调递增的校准函数，该校准函数将未校准的概率值映射到校准后的概率值。校准，是指：根据校准模型学习到的转换函数，将模型输出映射到校准后的概率值。

根据本发明优选的，步骤3的具体实现过程包括：

首先,计算旧样本X^o中的测试集与新样本Xⁿ的校准输出，为了表示分布，C(f(x^o))和C(f(xⁿ))的离散分布通过K bins频率直方图来计算，得到旧分布和新分布如式(Ⅲ)和式(Ⅳ)所示：

式(Ⅲ)、式(Ⅳ)中，f()是异常检测模型；C()是校准器；是计算校准输出的离散分布，通过K bins的频率直方图计算出来；P_org代表旧样本的离散分布(直方图)；Q_org代表新样本的离散分布(直方图)；

然后，通过假设检验来对这两个离散分布P_org和Q_org进行统计比较，通过置换检验来比较这两个离散分布P_org和Q_org之间的差异；具体是指：

原假设H₀是C(f(X^o))和C(f(Xⁿ))来自于同一分布即没有发生概念漂移，备择假设H₁是C(f(X^o))和C(f(Xⁿ))来自于不同的分布即发生了概念漂移；

使用KL散度来衡量这两个离散分布P_org和Q_org之间的差异并作为测试统计量；

使用置换检验来计算p值：首先，通过式(Ⅵ)计算出这两个离散分布P_org和Q_org之间的原始检验统计量S_org，原始检验统计量S_org用于衡量这两个离散分布P_org和Q_org之间的差异或偏移程度；然后，将旧数据样本与新样本Xⁿ联合起来随机洗牌并重采样，重新分成两组，重新计算直方图(式(Ⅲ)或式(Ⅳ)的运算)，通过式(Ⅶ)获得两个新离散分布/>和/>最后，通过式(Ⅷ)，通过比较实际观察到的原始测试统计量与所有重排组合之后的测试统计量的比例来计算p值；

S_org←D_KL(P_org||Q_org)(Ⅵ)

将p值与一个统计阈值μ进行比较来确定是否存在显著差异；如果p值小于统计阈值μ，则拒绝零假设并认为这两个离散分布P_org和Q_org之间存在显著差异，即发生了概念漂移；否则，则不能拒绝零假设，并认为这两个离散分布P_org和Q_org之间不存在显著差异，即没有发生概念漂移。

进一步优选的，对于定义在同一概率空间上的离散分布和/>KL散度定义如(Ⅴ)所示：

其中，P和Q分别表示两个离散概率分布，P(i)和Q(i)分别表示P和Q在事件i上的概率。

根据本发明优选的，步骤4中，若发生了概念漂移，通过一个优化问题来寻找导致正常数据发生漂移的重要样本；掩码向量m^o和mⁿ对应X^o和Xⁿ，和/>表示X^o和Xⁿ中的i个样本是否被选择，若/>为1，则X^o和Xⁿ中的i个样本被选择；若/>为0，则X^o和Xⁿ中的i个样本不被选择；具体实现过程包括：

首先，创建与旧样本X^o和新样本Xⁿ相同形状的掩码向量m^o和mⁿ；

然后，使用均匀分布初始化m^o和mⁿ，范围为[0,1]；优化损失函数L₁、L_H分别如式(Ⅸ)、(Ⅹ)所示：

式(Ⅸ)、(Ⅹ)中，符号表示将两个行向量逐行连接起来，形成一个新的行向量；符号⊙表示对两个行向量进行Hadamard积(element-wise product)，即将两个向量对应位置上的元素相乘得到一个新的行向量；

L₁即准确度损失，计算相对频率的bin数为M，并且将校准输出转换为M-bin相对频率直方图向量；

L₂是交叉熵损失，用于衡量掩码的确定性程度(要么接近0，要么接近1)；

使用随机梯度下降(SGD)优化器优化上面的损失函数，得到旧样本X^o和新样本Cⁿ对应的掩码向量m^o和mⁿ；使用阈值对掩码向量m^o和mⁿ进行二值化处理，将大于阈值t的值设为1，小于等于阈值t的值设为0；这样，离散化后的掩码向量m^o和mⁿ只有两个取值：0和1；

根据掩码将与之相对应的样本分成三部分，分别是：过时的旧样本old_delete；没有过时的旧样本old_remain；发生概念漂移的新样本new_shift；

掩码向量对应的旧样本/>归类为一类样本即过时的旧样本；掩码向量对应的旧样本/>归类为二类样本即没有过时的旧样本；掩码向量/>对应的新样本/>归类为三类样本即发生概念漂移的新样本；

最后，使用SHAP库中的`DeepExplainer`类来为检测到的漂移样本提供特征级别的解释，包括：

1)使用一类样本来创建SHAP解释器；SHAP解释器使用一类样本这个数据集来分析异常检测模型的结构和权重，并计算特征对于预测结果的贡献；

2)使用三类样本作为计算SHAP值的测试数据集，输出的Shapely值做漂移特征重要性评估：Shapely值提供了每个特征对于异常检测模型预测结果的贡献程度；通过分析Shapely值，识别出哪些特征对于数据样本发生概念漂移起到了关键作用。

根据本发明优选的，步骤6中，待检测工控数据包括从不同的工控设备组件包括传感器、执行器、阀门分别收集到的液位数据和阀门开关数据，液位数据是指液位高度，阀门开关数据包括阀门开启、关闭或中间位置状态。

根据本发明优选的，步骤5的具体实现过程包括：

将二类样本和三类样本组合起来，作为一个新的数据集，重新训练异常检测模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现面向概念漂移的可适应可解释的异常检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现面向概念漂移的可适应可解释的异常检测方法的步骤。

本发明的有益效果为：

现有的大多数研究主要关注监督学习模型上的异常行为概念漂移，而对于无监督异常检测模型上正常数据发生概念漂移的研究甚少。与现有的概念漂移检测解释和适应方法相比，本发明的有益效果有以下几点：

1、本发明针对无监督异常检测中正常数据提供概念漂移检测，通过假设检验对新旧样本分布进行统计比较，利用KL散度来衡量两个概率分布之间的差异，从而判断是否发生了概念漂移。

2、本发明利用搜索优化算法寻找发生概念漂移的新样本和过时的旧样本，利用SHAP对发生概念漂移的新样本进行解释，找到发生概念漂移的特征维度，从样本级别和特征级别两个维度解释检测到的漂移样本。

3、本发明将发生概念漂移的新样本和旧样本中没有过时的样本组合起来，重新训练异常检测模型，适应概念漂移的过程中防止模型忘记旧分布中没有过时的样本，同时又能学习到新分布中发生概念漂移的正常样本的问题，适应漂移降低模型的误报率。

附图说明

图1为本发明一种面向概念漂移的可适应可解释的异常检测方法总体框架示意图；

图2为用SHAP检测到发生概念漂移的特征维度排名示意图；

图3(a)为执行器P402在2015年和2017年收集到的数值示意图；

图3(b)为执行器P401在2015年和2017年收集到的数值示意图；

图3(c)为传感器AIT402在2015年和2017年收集到的数值示意图；

图3(d)为传感器DPIT301在2015年和2017年收集到的数值示意图；

图3(e)为执行器P302在2015年和2017年收集到的数值示意图；

图3(f)为执行器P301在2015年和2017年收集到的数值示意图；

图3(g)为传感器PIT502在2015年和2017年收集到的数值示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例1

一种面向概念漂移的可适应可解释的工控系统异常检测方法，如图1所示，包括：

步骤1：获取不同时期的工控数据样本，包括历史数据(旧数据)和新数据，利用归一化处理之后的历史数据对基于深度学习的异常检测模型进行训练，保存异常检测模型的训练参数；

步骤2：校准异常检测模型的输出结果，强制异常检测模型输出有意义的概率值，该概率值表示样本属于正常类别的概率；以方便后续检测是否发生概念漂移；校准是指将模型输出的概率值转换为更准确的概率估计；校准输出是将异常检测模型的原始输出映射到一个新的概率空间，使得输出结果更符合预期的概率分布。具体而言，校准器将异常检测模型的输出值映射到一个范围在0到1之间的概率值，以表示样本属于正常类别的概率。

步骤4：漂移解释，利用搜索优化算法寻找发生概念漂移的新样本和过时的旧样本，利用SHAP对发生概念漂移的新样本进行解释，找到发生概念漂移的特征维度；从样本级别和特征级别两个维度提供解释；

实施例2

根据实施例1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其区别在于：

步骤1的具体实现过程包括：

获取不同时期正常运行的数据，用X^o来表示过去采集到的旧数据样本即旧样本(已经被异常检测模型学习/适应的数据)；用Xⁿ来表示与旧数据相比有一定时间跨度的新数据样本即新样本；

异常检测模型是自编码器AutoEncoder。

步骤2的具体实现过程包括：

用旧样本X^o中的测试集来校准异常检测模型的输出；包括：

y_group＝C(x_group) (Ⅱ)

式(Ⅰ)、式(Ⅱ)中，f()是异常检测模型；C()是校准器；

最后，使用sklearn中的IsotonicRegression类的fit方法，将x_group和y_group作为训练数据来拟合、校准异常检测模型。

拟合，是指：学习生成一个单调递增的校准函数，该校准函数将未校准的概率值映射到校准后的概率值。训练好的校准模型可以用于将新的未校准的概率值转换为校准后的概率值。校准，是指：根据校准模型学习到的转换函数，将模型输出映射到校准后的概率值。校准的目标是使得校准后的概率值更准确地反映真实的概率分布。

使用sklearn中的IsotonicRegression类的fit方法来拟合、校准异常检测模型。

步骤3的具体实现过程包括：

具体来说，将数据集划分为K个区间，每个区间内的样本数量大致相等。然后，统计每个区间内的样本数量，并将其绘制成频率直方图。通过这种方式，我们可以将连续的数据转换为离散的概率分布，并用于后续的假设检验。

对于定义在同一概率空间上的离散分布和/>KL散度定义如(Ⅴ)所示：

使用置换检验来计算p值：置换检验的核心思想是，在原假设H₀下，样本是可交换的。因此，本发明可以通过对样本进行随机重排来模拟原假设，并计算出每次随机重排后得到的差异值。具体地，首先，通过式(Ⅵ)计算出这两个离散分布P_org和Q_org之间的原始检验统计量S_org，原始检验统计量S_org用于衡量这两个离散分布P_org和Q_org之间的差异或偏移程度；然后，将旧数据样本与新样本Xⁿ联合起来随机洗牌并重采样，重新分成两组，重新计算直方图(式(Ⅲ)或式(Ⅳ)的运算)，通过式(Ⅶ)获得两个新离散分布/>和/>最后，通过式(Ⅷ)，通过比较实际观察到的原始测试统计量与所有重排组合之后的测试统计量的比例来计算p值；

S_org←D_KL(P_org||Q_org)(Ⅵ)

在置换检验中，p值用于衡量两个离散概率分布之间的差异是否显著，p值越小表示观察到的差异越显著，即更有可能拒绝零假设。通常情况下，p值是一个介于0和1之间的数字，将p值与一个统计阈值μ进行比较来确定是否存在显著差异；如果p值小于统计阈值μ，则拒绝零假设并认为这两个离散分布P_org和Q_org之间存在显著差异，即发生了概念漂移；否则，则不能拒绝零假设，并认为这两个离散分布P_org和Q_org之间不存在显著差异，即没有发生概念漂移。

步骤4中，若发生了概念漂移，通过一个优化问题来寻找导致正常数据发生漂移的重要样本；这里引入了掩码思想，掩码向量m^o和mⁿ对应X^o和Xⁿ，和/>表示X^o和Xⁿ中的i个样本是否被选择，若/>为1，则X^o和Xⁿ中的i个样本被选择；若/>为0，则X^o和Xⁿ中的i个样本不被选择；具体实现过程包括：

然后，使用均匀分布初始化m^o和mⁿ，范围为[0,1]；优化损失函数L₁、L₂分别如式(Ⅸ)、(Ⅹ)所示：

L₁即准确度损失，通过重构新的分布来“修复”正常数据发生的漂移。与概念漂移检测一样，这里仍然使用KL散度来衡量新分布和重构分布之间的距离。计算相对频率的bin数为M，并且将校准输出转换为M-bin相对频率直方图向量；

L_H是交叉熵损失，用于衡量掩码的确定性程度(要么接近0，要么接近1)；

使用随机梯度下降(SGD)优化器优化上面的损失函数，得到旧样本X^o和新样本Xⁿ对应的掩码向量m^o和mⁿ；使用阈值对掩码向量m^o和mⁿ进行二值化处理，将大于阈值t的值设为1，小于等于阈值t的值设为0；这样，离散化后的掩码向量m^o和mⁿ只有两个取值：0和1；

1)使用一类样本来创建SHAP解释器；SHAP解释器使用一类样本这个数据集来分析异常检测模型的结构和权重，并计算特征对于预测结果的贡献；通过使用一类样本作为创建SHAP的数据集，不仅可以减少计算成本和时间，同时还能够更加准确的捕捉和评估漂移样本特征的贡献。

2)使用三类样本作为计算SHAP值的测试数据集，输出的Shapely值做漂移特征重要性评估：Shapely值提供了每个特征对于异常检测模型预测结果的贡献程度；通过分析Shapely值，识别出哪些特征对于数据样本发生概念漂移起到了关键作用。从而评估特征的重要性。

步骤6中，待检测工控数据包括从不同的工控设备组件包括传感器、执行器、阀门分别收集到的液位数据和阀门开关数据，液位数据是指液位高度，阀门开关数据包括阀门开启、关闭或中间位置状态。

步骤5的具体实现过程包括：将二类样本和三类样本组合起来，作为一个新的数据集，重新训练异常检测模型。从而适应概念漂移，降低误报率。

实施例3

根据实施例2所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其区别在于：

本实施例使用SHAP库中的`DeepExplainer`类来为检测到的漂移样本提供特征级别的解释。首先使用一类样本(过时的旧样本)来创建SHAP解释器。SHAP解释器使用这个数据集来分析模型的结构和权重，并计算特征对于预测结果的贡献。通过使用一类样本作为创建SHAP的数据集，不仅可以减少计算成本和时间，同时还能够更加准确的捕捉和评估漂移样本特征的贡献。

使用三类样本(发生概念漂移的新样本)来作为计算SHAP值的测试数据集，输出的Shapely值可以做漂移特征重要性评估：Shapely值提供了每个特征对于模型预测结果的贡献程度。通过分析Shapely值，可以识别出哪些特征对于数据样本发生概念漂移起到了关键作用，从而评估特征的重要性。

本实施例选择新加坡科技与设计大学网络安全研究中心提供的安全水处理(SWaT)数据集进行验证。

本实施例的实验条件如下：

windows10 64位系统，Google Colab，Pytorch框架。

以误报率(False Positive Rate,FPR)对本方法概念漂移的适应性能进行评估，具体定义如下：

其中，FP表示假阳性(False Positive)的数量，TN表示真阴性(True Negative)的数量。误报率是指异常检测模型将正常样本错误地判定为异常的比例。

为便于理解，下面以具体实例对本发明进行说明：

获取不同时期的数据，用基于深度学习的异常检测模型对归一化处理之后的数据进行训练，保存模型的训练参数；

获取SWaT数据集在2015年12月份连续正常运行7天所收集到的495000条数据(前30分钟是正常操作之外的维护部分，没有训练价值，故删除)和2017年6月份从持续正常运行136个小时的SWaT系统中收集的13661历史数据。使用最小最大值归一化(Min-MaxNormalization)对所有的数据样本进行预处理。注意，本数据集中全为正常数据，没有异常数据。

在本实例中，SWaT数据集的特征维度为51，采用2015年的数据集中前100000条数据作为异常检测模型的训练集，后100000条数据作为概念漂移校准测试集；2017年的所有数据都作为概念漂移检测、解释和适应的测试集。

校准异常检测模型的输出结果，强制将异常检测模型输出有意义的概率信息，以方便后续检测是否发生概念漂移；(校准是指将模型输出的概率值转换为更准确的概率估计)

漂移检测，通过假设检验对新旧样本分布进行统计比较，用KL散度来衡量两个概率分布之间的差异；

置换检验的迭代次数可以影响偏移检测的准确性和稳定性，在本实例中，置换实验的迭代次数设置为1000；

分布直方图用于将旧分布和新分布的结果分成多个区间，分布直方图的bin数量，可以影响对分布差异的敏感度，在本实例中，K bin的数量为10，表示将结果分成10个区间；

漂移检测的阈值在本方法中，将统计阈值μ设置为0.01(即p<0.01表示存在显著差异)。

漂移解释，利用搜索优化算法寻找发生概念漂移的新样本和过时的旧样本，利用SHAP对发生概念漂移的新样本进行解释，找到发生概念漂移的特征维度；在本实例中，二值化处理中阈值t的值设置为0.5。

计算相对频率的bin数为M，并且将校准输出转换为M-bin相对频率直方图向量。在本实例中，M-bin被设置为50。

在本实例中，使用SHAP库中的`DeepExplainer`类来为检测到的漂移样本提供特征级别的解释。首先利用漂移样本级别解释中的一类样本(过时的旧样本)来创建SHAP解释器。SHAP解释器使用这个数据集来分析模型的结构和权重，并计算特征对于预测结果的贡献。通过使用一类样本作为创建SHAP的数据集，不仅可以减少计算成本和时间，同时还能够更加准确的捕捉和评估漂移样本特征的贡献。

接下来使用三类样本(发生概念漂移的新样本)来作为计算SHAP值的测试数据集，输出的Shapely值可以做漂移特征重要性评估：Shapely值提供了每个特征对于模型预测结果的贡献程度。通过分析Shapely值，可以识别出哪些特征对于数据样本发生概念漂移起到了关键作用，从而评估特征的重要性。特征的重要性排名如图2所示。横轴表示特征的重要性值，是根据SHAP值计算得出的。重要性值衡量了每个特征对于模型预测结果的影响程度，一定程度上也反映了发生概念漂移的程度。数值越大表示特征对预测结果的影响越大。纵轴表示特征的名称。越靠上的特征重要性值越大，发生概念漂移的可能性也越大。从图2可知，检测到的发生概念漂移的特征依次为：P402、LIT101、AIT402、DPIT301、P302和PIT502(只观察前六个特征)。

表1是对部分设备组件特征维度的介绍。

表1

名称	设备类别	功能描述
			P302	执行器	超滤进水泵，将超滤进水箱中的水通过超滤过滤泵送至反渗透进水箱。
P301(备用)	执行器	功能同P302,是一个备用组件。
			P402	执行器	泵，将水从反渗透进水箱泵到紫外线除氯器。
P401(备用)	执行器	功能同P402，是一个备用组件。
			AIT402	传感器	ORP计，控制NaHSO_e加药(P203)和NaOCL加药(P205)。
DPIT301	传感器	差压指示变送器，控制反冲洗过程。
			PIT502	传感器	压力表，RO渗透液压力。

图3(a)至图3(g)是SWaT数据集在2015年和2017年收集到的部分特征维度的数值变化图，其中，Dividing Line作为分割两个时间段(2015年和2017年)的分割线。可以观察到部分特征维度在时隔两年再采集的时候发生了概念漂移。

图3(a)和图3(b)是执行器P402和P401，可以从图观察到，在2015年，P402处于活动状态，P401作为备用组件没有被启动过；在2017年，P401处于活动状态而P402从没有被启动过。这两个执行器互为备用组件，可以相互替代，不同的年份收集数据者使用了不同的执行器来控制这一功能，但异常检测模型在2015年只学习到了P402处于活动状态而P401处于备用组件状态从未活动，因此在2017年使用备用组件实现同样功能时，会发生概念漂移的情况，从而产生误报。

图3(c)是传感器AIT402，可以从图中观察到，不同年份该传感器的变化趋势有所不同。

图3(d)是传感器DPIT301，可以从图中观察到，不同年份该传感器收集到的数值的平均值有所不同，在2015年收集到该传感器的数值大约在20左右，而在2017年收集到该传感器的数值大约在18左右。

图3(e)和图3(f)分别是执行器P302和P301，具体情况同图3(a)和图3(b)中的P402和P401，此处不赘述。

图3(g)是传感器PIT502，可以从图中观察到，不同年份该传感器收集到的数值变化趋势有所不同，在2015年收集到的数据变化较为平缓，而在2017年收集到的数据呈现有规律的起伏变化。

漂移适应。将二类样本(没有过时的旧样本)和三类样本(发生概念漂移的新样本)组合起来，作为一个新的数据集，重新训练异常检测模型，从而适应概念漂移，降低误报率。

表2为用SWaT数据集在2015年收集的数据作为训练集训练的模型，来测试2017年数据的误报率情况。

表2

由表2可知，本发明的适应方法可以在发生概念漂移的情况下将误报率降低14％以上。

实施例4

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一所述的面向概念漂移的可适应可解释的异常检测方法的步骤。

实施例5

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1-3任一所述的面向概念漂移的可适应可解释的异常检测方法的步骤。

Claims

1.一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，包括：

步骤6：将归一化处理后的待检测工控数据输入步骤5处理后的适应漂移的异常检测模型，输出异常检测结果；

步骤4中，若发生了概念漂移，通过一个优化问题来寻找导致正常数据发生漂移的重要样本；掩码向量m^o和mⁿ对应X^o和Xⁿ，和/>表示X^o和Xⁿ中的i个样本是否被选择，若/>为1，则X^o和Xⁿ中的i个样本被选择；若/>为0，则X^o和Xⁿ中的i个样本不被选择；具体实现过程包括：

式(Ⅸ)、(Ⅹ)中，符号表示将两个行向量逐行连接起来，形成一个新的行向量；符号⊙表示对两个行向量进行Hadamard积，即将两个向量对应位置上的元素相乘得到一个新的行向量；

L₂是交叉熵损失，用于衡量掩码的确定性程度；

使用随机梯度下降优化器优化上面的损失函数，得到旧样本X^o和新样本Cⁿ对应的掩码向量m^o和mⁿ；使用阈值对掩码向量m^o和mⁿ进行二值化处理，将大于阈值t的值设为1，小于等于阈值t的值设为0；这样，离散化后的掩码向量m^o和mⁿ只有两个取值：0和1；

掩码向量对应的旧样本/>归类为一类样本即过时的旧样本；掩码向量/>对应的旧样本/>归类为二类样本即没有过时的旧样本；掩码向量/>对应的新样本/>归类为三类样本即发生概念漂移的新样本；

2.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，步骤1的具体实现过程包括：

3.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，异常检测模型是自编码器AutoEncoder。

4.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，步骤2的具体实现过程包括：

用旧样本X^o中的测试集来校准异常检测模型的输出；包括：

首先，用步骤1训练好的异常检测模型f来评估测试集根均方误差作为异常检测模型f的输出；

其次，将未校准的输出按降序排列，未校准的输出是指异常检测模型直接输出的数值，具体是指自编码器的重构误差；将排列后的未校准的输出值作为校准器C的输入x_group，未校准的输出值即异常检测模型输出的值，生成相应的输出y_group；

y_group＝C(x_group)(Ⅱ)

式(Ⅰ)、式(Ⅱ)中，f()是异常检测模型；C()是校准器；

5.根据权利要求4所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，拟合，是指：学习生成一个单调递增的校准函数，该校准函数将未校准的概率值映射到校准后的概率值；校准，是指：根据校准模型学习到的转换函数，将模型输出映射到校准后的概率值。

6.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，步骤3的具体实现过程包括：

式(Ⅲ)、式(Ⅳ)中，f()是异常检测模型；C()是校准器；是计算校准输出的离散分布，通过K bins的频率直方图计算出来；P_org代表旧样本的离散分布；Q_org代表新样本的离散分布；

原假设H_>是C(f(X^o))和C(f(Xⁿ))来自于同一分布即没有发生概念漂移，备择假设H₁是C(f(X^o))和C(f(Xⁿ))来自于不同的分布即发生了概念漂移；

使用置换检验来计算p值：首先，通过式(Ⅵ)计算出这两个离散分布P_org和Q_org之间的原始检验统计量S_org

，原始检验统计量S_org用于衡量这两个离散分布P_org和Q_org之间的差异或偏移程度；然后，将旧数据样本与新样本Xⁿ联合起来随机洗牌并重采样，重新分成两组，重新计算直方图，通过式(Ⅶ)获得两个新离散分布/>和/>最后，通过式(Ⅷ)，通过比较实际观察到的原始测试统计量与所有重排组合之后的测试统计量的比例来计算p值；

S_org←D_KL(P_org||Q_org)(Ⅵ)

7.根据权利要求/6所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，对于定义在同一概率空间上的离散分布和/>KL散度定义如(Ⅴ)所示：

8.根据权利要求1-7任一所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，步骤6中，待检测工控数据包括从不同的工控设备组件包括传感器、执行器、阀门分别收集到的液位数据和阀门开关数据，液位数据是指液位高度，阀门开关数据包括阀门开启、关闭或中间位置状态。

9.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法，其特征在于，步骤5的具体实现过程包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-9任一所述的面向概念漂移的可适应可解释的异常检测方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任一所述的面向概念漂移的可适应可解释的异常检测方法的步骤。