CN116304641B - 基于参考点搜索和特征交互的异常检测解释方法及系统 - Google Patents
基于参考点搜索和特征交互的异常检测解释方法及系统 Download PDFInfo
- Publication number
- CN116304641B CN116304641B CN202310537570.3A CN202310537570A CN116304641B CN 116304641 B CN116304641 B CN 116304641B CN 202310537570 A CN202310537570 A CN 202310537570A CN 116304641 B CN116304641 B CN 116304641B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- data
- reference point
- feature
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 108
- 230000003993 interaction Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000002159 abnormal effect Effects 0.000 claims abstract description 126
- 230000002441 reversible effect Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 30
- 230000005856 abnormality Effects 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Abstract
本发明公开了一种基于参考点搜索和特征交互的异常检测解释方法及系统,涉及异常检测可解释性技术领域,该方法包括:获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点;基于最优参考点和异常点之间的差异,确定高异常特征维度;利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。本发明能够提高异常检测模型的可解释性,同时保证解释性能和时间效率之间的平衡。
Description
技术领域
本发明涉及异常检测可解释性技术领域,尤其涉及一种基于参考点搜索和特征交互的异常检测解释方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
异常检测是一种重要的数据分析技术,可以用于检测数据中的异常点,异常点可以是突发事件、异常行为或其他不正常的数据值。异常检测已经成为数据分析、工业控制、网络安全等领域的重要应用。近年来,基于深度学习的异常检测算法在检测的准确率和降低误报率方面取得了长足的进步,能够帮助人们快速识别和发现数据中的异常点,例如故障、突发事件、错误数据等,以便及时采取必要的措施。但是,当前深度学习技术的最大挑战是缺乏可解释性。与传统的基于规则的异常检测算法相比,基于深度学习的异常检测算法只能返回“正常”或“异常”,用户无法确定是哪个关键特征导致了异常。因此,为异常检测模型提供可解释性是非常重要的,其可以帮助用户理解模型的决策过程和原理,提高模型的可信度和可靠性。
近年来,为监督学习模型提出的解释方法已被广泛应用于图像分析、自然语言处理和医学等领域。然而,针对用于基于深度学习的无监督异常检测模型的可解释性研究较少。
为了进一步提高深度学习模型的透明度和可信度,目前提出了多种可解释性方法。然而由于对可解释性研究的角度不同,所提出的可解释性方法也不同,一般可以分为两类:固有解释(也称为透明解释)和事后解释。其中,固有解释是指模型本身具有一定的解释能力,如决策树、线性回归、朴素贝叶斯模型等。除了某些具有内在解释能力的模型外,近年来,许多研究人员将图神经网络和注意力机制引入到异常解释的研究中,实现对异常的透明解释。事后解释是指利用可解释方法对已设计好的模型进行解释,给出决策依据,其中包括基于近似的、基于扰动的和基于反向传播等的解释方法。基于近似的解释方法是用一个简单的模型,如线性模型,来近似复杂的深度学习模型的决策边界;基于扰动的解释方法是通过对输入特征维度上产生扰动来观察输出的相应变化,以此探究输入特征对系统决策的重要性;基于反向传播的可解释性方法是指利用神经网络中信息流的反向传递来理解输入的变化对输出的影响,以解释输入特征对相应输出决策的重要性大小。
由于事后解释具有更强的适用性,因此,目前基于深度学习的异常检测模型常采用事后解释的可解释方法。尽管学术界对基于深度学习模型的可解释性进行了广泛的研究,但是,现有的解释方法并不能直接应用于无监督的异常检测上,其原因在于:
首先,与其他领域不同,异常检测在安全领域的应用较多,安全专家对解释的关注点不同,对解释的稳定性、可读性和可靠性的要求更高。在安全领域,数据通常是高维的特征向量,需要避免缺乏稳定性的解释结果的情况;
其次,当被检测的数据集中数据类型存在差异时,异常检测模型对不同数据类型的学习能力会有差异,在解释这些数据时会有偏向性,导致解释的准确率较低。例如,在工控系统中,传感器收集到的连续变量数据更容易被学习并检测到,而执行器收集到的二元状态数据不易被解释;在水处理系统中,当对水处理系统中的泵发起攻击时,更有可能在液位传感器中发现异常情况。
发明内容
为解决上述现有技术的不足,本发明提供了一种基于参考点搜索和特征交互的异常检测解释方法及系统,从异常检测模型中提取异常数据,利用参考点搜索算法和基于有限差分法的交互检测算法,获取异常数据的解释结果,解决现有的异常检测可解释性方法解释准确率低、缺乏稳定性和可靠性,以及不同特征之间潜在交互关系挖掘和解释不足的问题,提高异常检测模型的可解释性,同时保证解释性能和时间效率之间的平衡。
第一方面,本公开提供了一种基于参考点搜索和特征交互的异常检测解释方法。
一种基于参考点搜索和特征交互的异常检测解释方法,包括:
获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;
以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点;
基于最优参考点和异常点之间的差异,确定高异常特征维度;
利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;
根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
第二方面,本公开提供了一种基于参考点搜索和特征交互的异常检测解释系统。
一种基于参考点搜索和特征交互的异常检测解释系统,包括:
异常数据获取模块,用于获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;
最优参考点确定模块,用于以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点;
高异常特征维度确定模块,用于基于最优参考点和异常点之间的差异,确定高异常特征维度;
交互强度计算模块,用于利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;
解释结果获取模块,用于根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
以上一个或多个技术方案存在以下有益效果:
1、本发明提供了一种基于参考点搜索和特征交互的异常检测解释方法及系统,利用搜索优化算法为异常数据寻找到一个参考点,同时通过反向梯度传播获取特征重要性,然后利用参考点和异常点之间差异找到高异常特征维度,之后利用基于有限差分法的交互检测算法来探索异常点中不同特征之间的潜在特征交互,最后根据交互强度结果确定强交互的特征,结合基于参考点搜索方法得到的高异常特征,组成异常数据的解释结果。本发明能够有效提高对异常检测算法解释的准确率,能够检测到不同特征之间的交互关系,并且能使解释性能和时间效率达到平衡。
2、本发明提出了参考点搜索方法,利用参考点来准确定位与异常点之间的最有效差异,特征重要性通过在搜索参考点过程中的反向梯度来获取。基于参考点搜索的方法适用性强,可以为基于重构和基于预测的异常检测算法提供解释;同时,解释是通过比较异常点及其参考点之间的差异得出的,具有高度的可靠性,能更好地满足安全领域的可解释需求。
3、本发明引入了基于有限差分法的交互检测方法来探索不同特征之间的潜在关系。在参考点搜索方法的基础上,预先学习到高异常特征维度,避免了大量的无效操作,提高了交互检测的效率,并具有保持性能和时间效率平衡的效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例所述基于参考点搜索和特征交互的异常检测解释方法的流程图;
图2为本发明实施例中基于参考点搜索和特征交互的异常检测解释方法的总框架图;
图3为本发明实施例中基于有限差分法的交互强度评估方法所得结果的示意图,其中(a)为特征和特征/>之间没有交互作用的示意图,(b)为特征/>和特征/>之间有交互作用的示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释
1、反向梯度传播:用于训练神经网络的基本方法之一,也是现代深度学习的基石之一。通过计算每个神经元对最终输出的误差的贡献来更新神经元之间的权重,以使得网络能够适应新的数据。反向传播算法的核心思想是利用链式法则计算误差的梯度,从输出层开始,通过逐层向后计算每个神经元的误差梯度,最终得到每个神经元对应的权重的梯度。这种算法使得神经网络的训练可以高效地进行,尤其是在大规模数据集上。
2、有限差分法:一种数值计算方法,通过用有限差分逼近导数来求解微分方程。这一方法将一个连续的函数空间离散化成一个网格,然后利用差分近似来计算函数在网格上的导数,从而求解偏微分方程。
3、特征交互:特征交互是机器学习中的一种现象,即两个或多个特征之间的关系对目标变量的综合影响是单个特征所无法预测的。当特征在预测模型中相互作用时,预测不能表示为特征效果的总和,因为一个特征的效果取决于其他特征的值。
实施例一
本实施例提供了一种基于参考点搜索和特征交互的异常检测解释方法,首先利用搜索优化算法为异常数据寻找到一个参考点,同时通过反向梯度传播获取特征重要性,然后利用参考点和异常点之间差异找到高异常特征维度,之后利用基于有限差分法的交互检测算法来探索异常点中不同特征之间的潜在特征交互,最后根据交互强度结果确定强交互的特征,结合基于参考点搜索方法得到的高异常特征,组成异常数据的解释结果。本实施例通过上述方法,能够解决异常检测可解释性方法解释准确率低、缺乏稳定性和可靠性,以及不同特征之间潜在交互关系挖掘和解释不足的问题,能够有效提高对异常检测算法解释的准确率,能够检测到不同特征之间的交互关系,并且能使解释性能和时间效率达到平衡。本实施例上述方法,如图1所示,具体包括以下步骤:
步骤S1、获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;
步骤S2、以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点;
步骤S3、基于最优参考点和异常点之间的差异,确定高异常特征维度;
步骤S4、利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;
步骤S5、根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
上述步骤S1中,获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据。具体的,如图2所示,从不同领域中采集待检测数据,采集的数据包括工控数据、金融数据、网络数据、医疗数据等,针对某一领域中采集的待检测数据,获取大量包含多个不同特征维度的数据,构成数据集。以工控领域为例,获取工控系统中传感器收集到的连续变量数据、执行器收集到的二元状态数据等不同特征维度的数据,构成数据集。将该数据集划分为训练集和测试集,利用训练集训练异常检测模型,利用训练完成的异常检测模型检测测试集中的异常数据,进而获取测试集中的异常数据。
在本实施例中,获取待检测数据集,该数据集中的数据共有p个不同的特征维度,将正常数据作为训练集,利用训练集训练得到一个异常检测模型,然后利用该异常检测模型/>对测试集进行检测,判断是否发生异常,假设被异常检测模型/>检测出其中的一个异常数据为/>,/>,该异常数据有p个特征维度,同时该异常数据/>为需要被解释的数据。
优选的,利用训练集训练得到异常检测模型后,保存该异常检测模型的训练参数。
进一步的,在上述利用训练集训练异常检测模型以及利用异常检测模型检测测试集之前,还包括对数据集中的数据进行预处理,该预处理包括数据归一化或数据标准化,以便于后续模型的训练及算法的应用。
上述步骤S2中,以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点。在本实施例中,首先,以检测出的异常数据作为异常点,将寻找该异常点的最优参考点的问题转换为参考点搜索优化过程,令表示被搜索的参考点,则参考点搜索优化算法的目标如下式所示:
(1)
(2)
上式中,表示/>范数;/>表示/>范数;/>为加权系数;/>为损失函数;/>表示异常检测模型;/>为阈值;/>为自定义的可调参数;p为该数据集本身的特征数大小,由被检测数据的特征总数决定。
上述参考点搜索优化过程由三个损失函数组成,式(1)中第一项为稳定性损失,用范数来衡量,目的是使参考点/>尽可能地接近异常点/>;式(1)中第二项为简洁性损失,通过使/>范数来衡量/>中非零元素的总数,从而减少参考点/>与异常点/>之间的差异,并提高解释结果的可读性;式(2)为保真度损失,以确保搜索到的参考点/>被异常检测模型判定为正常,搜索参考点/>的目标是检测异常检测模型/>的决策边界,所以该损失函数不应该无限制地最小化,因此,采用/>函数/>来限制损失接近阈值/>,损失函数/>采用均方误差(MSE,Mean Square Error)损失函数,阈值/>从已经训练好的异常检测模型中获得。进一步的,为了确保参考点/>处于决策边界的“正常的一侧”,将阈值/>减去一个小的值/>。其中,加权系数/>和参数/>为自定义的可调参数。
通过基于梯度的优化方法,利用Adam优化器,解决上述迭代优化过程。在每次迭代中,搜索并定位参考点中对最小化目标函数影响较小的一些特征维度;然后,针对该搜索并定位的特征维度,其值将被异常点/>中的相应值取代,只保留参考点/>中最重要的维度。因此,/>可以通过只改变少数有影响力的维度来有效限制,同时也可以减少无效维度对解释结果的干扰。
为了简明扼要地描述,将上述由多个损失函数组成的参考点搜索目标函数简化为,通过基于梯度的优化方法进行迭代求解。在每次迭代中,用/>表示第/>次迭代的参考点。上述迭代求解的过程包括:
首先,计算目标函数在第/>次迭代的参考点/>处的梯度,用/>表示。本实施例不直接使用梯度来精确测量第/>次迭代的参考点第i个特征维度/>的有效性,而是利用梯度与该特征维度的乘积,计算参考点中每个特征维度的重要性。因此,通过求解式(3)来选择有效维度。
,/>(3)
上式(3)中,表示特征的数量,即特征的维度;/>表示当前计算的特征序号;/>表示迭代次数。
通过上述对参考点中每个特征维度的重要性进行计算和排序,选择重要的特征维度。然后,对于每个/>,即对于每个非重要特征对应的值/>,将参考点中第i个非重要特征对应的值用异常点中第i个特征对应的值/>替换掉,结束当前次的迭代。其中,迭代次数s为用户自定义的可调参数。
上述步骤利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点。反向梯度传播具体体现在基于梯度的优化方法中,利用梯度下降法在每次迭代中不断降低损失函数,在该过程中利用反向梯度传播算法来计算梯度,获取输出相对于输入特征的梯度。通过利用反向梯度传播算法,能够计算出每个神经元对输出的贡献,从而揭示梯度下降过程中特征的不同重要性,基于计算得到的每个特征的梯度,可以得到特征重要性排序,以此确定每次迭代过程中对损失函数影响最大的特征。
通过上述步骤S2,计算得到检测出的异常点对应的最优参考点,然后执行步骤S3,基于最优参考点和异常点之间的差异,确定高异常特征维度。
具体的,将搜索得到的参考点与被解释的异常点/>进行对比,通过比较两者之间相同特征的差异大小来获取异常特征重要性排名,其中,差异大小是计算异常点和参考点差值的平方,特征维度的重要性=/>,求平方是为了消除正负号的影响。之后,将上述所求得的差异大小(即特征维度重要性)从小到大排列,前K个特征维度是差异较大的特征维度,即重要的(异常分数较高)的特征维度,取前K个异常分数最高的特征维度作为解释和被交互检测的特征维度,用下式(4)表示为:
(4)
步骤S4中,利用基于有限差分法的交互检测算法,计算异常点中高异常特征与其余特征组成的特征对之间的交互强度。具体的,假设是步骤S3中得到的异常点/>中高异常分数的特征维度(即特征,特征维度和特征所指代相同),/>则是异常点/>中其余的特征维度,那么,特征/>和特征/>之间的交互强度用下式(5)表示为:
(5)
上式中,“:=”表示“被定义为”,具体表示左侧的变量或表达式被定义为右侧的值或表达式。
进一步的,若接近零,则/>和/>之间为弱交互作用;若/>明显大于零,那么/>和/>之间为强相互作用。
在本实施例中,利用有限差分法计算两个特征之间的交互强度。具体的,利用有限差分法在给定异常点上近似计算海森矩阵Hessian,用下式(6)表示为:
(6)
上式(6)中,和/>表示特征/>和特征/>的扰动大小;/>表示独热码,是一个与异常点/>特征维度大小相同、由0和1组成的向量,异常点/>中的第/>个高异常分数的特征/>对应的独热码/>为1,其余特征对应的独热码/>为0,通过该设置保证异常点/>中的p个特征只扰动/>;/>同样表示独热码,是一个与异常点/>特征维度大小相同、由0和1组成的向量,异常点/>中的第/>个非高异常分数的特征/>对应的独热码/>为1,其余特征对应的独热码/>为0。
结合图3对上式进行进一步的说明。利用有限差分法计算特征和/>之间的交互强度(i,j在图3中分别对应1,2),上式(6)对应图3,式中/>、、/>和/>分别表示图3中的四个点,对这四个点作公式(6)中的加减运算,就能得出特征/>和/>之间的交互强度近似值。其中,/>为已经求得的高异常分数特征,而/>则为其余特征。/>和/>为步长,即图3中与中心点之间的距离,由于x是一个具有p个特征的向量,因此需要加入独热码/>来控制需要扰动的特征。根据图3所示的有限差分法近似计算局部曲率的示意图,可以直观的看出/>和/>(即/>和/>)之间是否存在交互作用:如图3中的(a)所示,特征/>和特征/>之间没有交互作用(其为平面,经过上式(6)计算,其运算结果会趋于0);如图3中的(b)所示,特征/>和特征/>之间有交互作用(其为曲面)。图3中的横轴和纵轴无实际含义,仅表示数值,无单位,横轴和纵轴的数字代表的是各个点的横、纵坐标。
基于和/>这两个特征进行计算,其中/>为已经求得的高异常分数特征,而/>则为其余特征,其目的是为了检测这个高异常特征是否与其余特征之间存在交互作用。通过上述步骤,能够得到p-1个交互强度值,将这p-1个交互强度值从大到小排列,选前I个特征,作为与已经求得的高异常分数特征具有较强交互作用的特征。
上述步骤S5中,根据交互强度确定强交互作用的特征维度,结合高异常特征,得到异常数据的解释结果。
设被解释的特征维度大小为,则解释结果包括基于参考点搜索优化算法找到的前/>个异常特征维度和基于交互检测方法找到的前/>个强交互作用的特征维度。其中,,/>、/>、/>均是用户自定义的可调参数。
为了进一步验证本实施例上述方案的优越性,本实施例选择新加坡科技与设计大学网络安全研究中心提供的安全水处理(SWaT)数据集以及安全配水(WADI)数据集进行验证。
本实施例的实验条件为:windows10 64位系统,Google Colab(谷歌提供的免费笔记本环境),Pytorch框架(深度学习框架)。同时,以解释准确率(IA,InterpretationAccuracy)对可解释模型的性能进行评估,该解释准确率的具体定义为:
其中,是所有被解释数据的数量;/>是被解释器正确解释数据的数量。
以具体实例对本实施例所述方案进行说明:
第一步,获取数据,训练异常检测模型并检测。
分别获取SWaT和WADI的初始训练数据集。在本实施例中,SWaT的特征维度为51,初始训练集的长度为47519条,测试集的长度为44991条,其中异常数据为5344条,共发起36种不同的攻击类型;WADI的特征维度为127,初始训练集的长度为102697条,测试集的长度为17280条,其中异常数据为976条,共发起15种不同的攻击类型。利用训练集训练异常检测模型并检测测试集数据。本实施例中,选用DAGMM和LSTM-AD两个异常检测模型。其中,DAGMM(Deep Autoencoding Gaussian Mixture Model,深度自编码高斯混合模型)和LSTM-AD(Long Short Term Memory Networks for Anomaly Detection,用于异常检测的长短期记忆网络模型)均为现有异常检测算法。
第二步,以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,为异常点寻找并确定一个最优参考点。
搜索算法由三个损失函数组成,稳定性损失的目的是使参考点尽可能地接近异常点/>;简洁性损失的目的是减少参考点/>与异常点/>之间的差异,提高解释结果的可读性;保真度损失的目的是确保搜索到的参考点/>被异常检测模型判定为正常。
在本实验中,稳定性损失的加权系数的取值为0.001;保真度损失中的/>取值为0.01,迭代次数的最大值设置为100,当损失函数小于0.00001时停止搜索;损失函数/>使用均方误差(MSE)损失函数。
第三步,基于最优参考点和异常点之间的差异,确定高异常特征维度。
第四步,利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度。
本实验中,扰动大小和/>均设为1。在SWaT数据集上对交互检测的效果进行测试,选择4个针对执行器的攻击来进行实验,攻击详情如下表1所示,其中,P-x0y是阀门控制器,MV-x0y是电动阀门执行器,LIT-x0y是液位传感器。
表1 四个针对执行器的攻击实验
获取DAGMM异常检测模型在受到攻击#1、攻击#2的交互检测热图,以及获取LSTM-AD异常检测模型在受到攻击#3、攻击#4的交互检测热图,根据交互检测热图进行交互强度判断,颜色越深,表示交互强度越强。
相比于计算所有特征对之间的交互强度,只计算高异常特征与其余特征之间的交互强度在时间效率上更有优势,其时间效率对比如下表2所示,表2是本实施例在SWaT和WADI两个数据集上对DAGMM和LSTM-AD两个异常检测模型的交互检测效率对比表。
表2 不同异常检测模型的交互检测效率对比表
第五步,根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
在本实验中,被解释的特征维度从1依次测试到5,其中,/>是参考点搜索方法得到的前/>个异常特征维度,/>是交互检测方法找到的前I个强交互作用特征维度,IA为解释准确率。
本实施例总,将解释LSTM-AD异常检测模型。第一种情况是无论是否被检测到,测试集中的所有异常都将被解释,在两个数据集上的解释准确率如下表3所示。
表3 不同数据集的解释所有异常的解释准确率
第二种情况是只对被异常检测模型判断为真阳性(TP)的样本进行解释,在两个数据集上的解释准确率如下表4所示。
表4 不同数据集的仅解释检测异常的解释准确率
由上表3和表4可知,本实施例的检测结果在M=3(即K1+I2)及以上时,在两个数据集上可以达到更高的解释精度。
实施例二
本实施例提供了一种基于参考点搜索和特征交互的异常检测解释系统,包括:
异常数据获取模块,用于获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;
最优参考点确定模块,用于以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点;
高异常特征维度确定模块,用于基于最优参考点和异常点之间的差异,确定高异常特征维度;
交互强度计算模块,用于利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;
解释结果获取模块,用于根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于参考点搜索和特征交互的异常检测解释方法,其特征是,包括:
获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;包括:采集待检测数据,获取大量包含多个不同特征维度的数据,构成数据集;所述待检测数据包括工控数据,所述工控数据包括工控系统中传感器收集到的连续变量数据、执行器收集到的二元状态数据这些不同特征维度的数据;
将获取的数据集划分为训练集和测试集,利用训练集训练异常检测模型,利用训练完成的异常检测模型检测测试集中的异常数据,获取测试集中的异常数据;
以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点,包括:
以检测出的异常数据作为异常点,将寻找该异常点的最优参考点的问题转换为参考点搜索优化过程,构建参考点搜索的目标函数;
通过基于梯度的优化方法,进行参考点搜索优化的迭代求解;在每次迭代中,计算目标函数在当前迭代中参考点各特征维度的梯度,以特征维度及其梯度的乘积作为该特征维度的重要性,依据重要性排序选择重要的特征维度,将参考点中非重要特征对应的值替换为异常点中对应特征所对应的值;
通过迭代求解,获取最终的最优参考点;
基于最优参考点和异常点之间的差异,确定高异常特征维度;
利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;
根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
2.如权利要求1所述的基于参考点搜索和特征交互的异常检测解释方法,其特征是,在利用训练集训练异常检测模型以及利用异常检测模型检测测试集之前,还包括对数据集中的数据进行预处理;所述预处理包括数据归一化或数据标准化。
3.如权利要求1所述的基于参考点搜索和特征交互的异常检测解释方法,其特征是,所述基于最优参考点和异常点之间的差异,确定高异常特征维度,包括:
将搜索得到的最优参考点与异常点进行对比,通过比较两者之间相同特征的差异大小,获取异常特征重要性排名;
取前K个异常分数最高的特征维度作为高异常特征维度。
4.如权利要求1所述的基于参考点搜索和特征交互的异常检测解释方法,其特征是,所述交互强度的计算公式为:
其中,表示异常点/>中高异常分数的特征维度,/>表示异常点/>中其余的特征维度,表示异常检测模型。
5.一种基于参考点搜索和特征交互的异常检测解释系统,其特征是,包括:
异常数据获取模块,用于获取包含多个不同特征维度的数据集,利用异常检测模型检测出数据集中的异常数据;包括:采集待检测数据,获取大量包含多个不同特征维度的数据,构成数据集;所述待检测数据包括工控数据,所述工控数据包括工控系统中传感器收集到的连续变量数据、执行器收集到的二元状态数据这些不同特征维度的数据;
将获取的数据集划分为训练集和测试集,利用训练集训练异常检测模型,利用训练完成的异常检测模型检测测试集中的异常数据,获取测试集中的异常数据;
最优参考点确定模块,用于以检测出的异常数据为异常点,利用基于反向梯度传播的参考点搜索算法,寻找并确定该异常点的最优参考点,包括:
以检测出的异常数据作为异常点,将寻找该异常点的最优参考点的问题转换为参考点搜索优化过程,构建参考点搜索的目标函数;
通过基于梯度的优化方法,进行参考点搜索优化的迭代求解;在每次迭代中,计算目标函数在当前迭代中参考点各特征维度的梯度,以特征维度及其梯度的乘积作为该特征维度的重要性,依据重要性排序选择重要的特征维度,将参考点中非重要特征对应的值替换为异常点中对应特征所对应的值;
通过迭代求解,获取最终的最优参考点;
高异常特征维度确定模块,用于基于最优参考点和异常点之间的差异,确定高异常特征维度;
交互强度计算模块,用于利用基于有限差分法的交互检测算法,计算得到异常点中高异常特征与其余特征组成的特征对之间的交互强度;
解释结果获取模块,用于根据交互强度确定强交互作用的特征维度,结合高异常特征维度,得到异常数据的解释结果。
6.如权利要求5所述的基于参考点搜索和特征交互的异常检测解释系统,其特征是,所述基于最优参考点和异常点之间的差异,确定高异常特征维度,包括:
将搜索得到的最优参考点与异常点进行对比,通过比较两者之间相同特征的差异大小,获取异常特征重要性排名;
取前K个异常分数最高的特征维度作为高异常特征维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310537570.3A CN116304641B (zh) | 2023-05-15 | 2023-05-15 | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310537570.3A CN116304641B (zh) | 2023-05-15 | 2023-05-15 | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304641A CN116304641A (zh) | 2023-06-23 |
CN116304641B true CN116304641B (zh) | 2023-09-15 |
Family
ID=86789100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310537570.3A Active CN116304641B (zh) | 2023-05-15 | 2023-05-15 | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304641B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020078059A1 (zh) * | 2018-10-17 | 2020-04-23 | 阿里巴巴集团控股有限公司 | 一种异常检测的解释特征确定方法和装置 |
CN112165464A (zh) * | 2020-09-15 | 2021-01-01 | 江南大学 | 一种基于深度学习的工控混合入侵检测方法 |
CN113518011A (zh) * | 2021-09-10 | 2021-10-19 | 阿里云计算有限公司 | 异常检测方法和装置、电子设备及计算机可读存储介质 |
CN113792776A (zh) * | 2021-09-03 | 2021-12-14 | 清华大学 | 面向网络安全异常检测中深度学习模型的解释方法 |
CN115270986A (zh) * | 2022-08-08 | 2022-11-01 | 贵州电网有限责任公司电力科学研究院 | 数据异常检测方法、装置和计算机设备 |
JP7240691B1 (ja) * | 2021-09-08 | 2023-03-16 | 山東大学 | データドライブの能動配電網異常状態検知方法及びシステム |
CN116032557A (zh) * | 2022-12-09 | 2023-04-28 | 清华大学 | 一种网络安全异常检测中深度学习模型的更新方法与装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714940B2 (en) * | 2001-11-15 | 2004-03-30 | International Business Machines Corporation | Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data |
US20120137367A1 (en) * | 2009-11-06 | 2012-05-31 | Cataphora, Inc. | Continuous anomaly detection based on behavior modeling and heterogeneous information analysis |
AU2019398468A1 (en) * | 2018-12-13 | 2021-07-15 | DataRobot, Inc. | Methods for detecting and interpreting data anomalies, and related systems and devices |
-
2023
- 2023-05-15 CN CN202310537570.3A patent/CN116304641B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020078059A1 (zh) * | 2018-10-17 | 2020-04-23 | 阿里巴巴集团控股有限公司 | 一种异常检测的解释特征确定方法和装置 |
CN112165464A (zh) * | 2020-09-15 | 2021-01-01 | 江南大学 | 一种基于深度学习的工控混合入侵检测方法 |
CN113792776A (zh) * | 2021-09-03 | 2021-12-14 | 清华大学 | 面向网络安全异常检测中深度学习模型的解释方法 |
JP7240691B1 (ja) * | 2021-09-08 | 2023-03-16 | 山東大学 | データドライブの能動配電網異常状態検知方法及びシステム |
CN113518011A (zh) * | 2021-09-10 | 2021-10-19 | 阿里云计算有限公司 | 异常检测方法和装置、电子设备及计算机可读存储介质 |
CN115270986A (zh) * | 2022-08-08 | 2022-11-01 | 贵州电网有限责任公司电力科学研究院 | 数据异常检测方法、装置和计算机设备 |
CN116032557A (zh) * | 2022-12-09 | 2023-04-28 | 清华大学 | 一种网络安全异常检测中深度学习模型的更新方法与装置 |
Non-Patent Citations (5)
Title |
---|
Fault diagnosis in multi-level inverter system using adaptive back propagation neural network;B. Phaneendra Babu等;IEEE;全文 * |
余立苹 ; 李云飞 ; 朱世行 ; .基于高维数据流的异常检测算法.计算机工程.2018,(01),全文. * |
基于数据关联性分析的飞轮异常检测;龚学兵;王日新;徐敏强;;航空学报(第03期);全文 * |
基于高维数据流的异常检测算法;余立苹;李云飞;朱世行;;计算机工程(第01期);全文 * |
龚学兵 ; 王日新 ; 徐敏强 ; .基于数据关联性分析的飞轮异常检测.航空学报.(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116304641A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kundu et al. | AltWOA: Altruistic Whale Optimization Algorithm for feature selection on microarray datasets | |
Wang et al. | Advanced fault diagnosis method for nuclear power plant based on convolutional gated recurrent network and enhanced particle swarm optimization | |
CN113642431B (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
Liang et al. | Multi-scale dynamic adaptive residual network for fault diagnosis | |
Ribeiro et al. | Towards a deep unified framework for nuclear reactor perturbation analysis | |
CN106060008A (zh) | 一种网络入侵异常检测方法 | |
Xiao et al. | Addressing overfitting problem in deep learning-based solutions for next generation data-driven networks | |
Liu et al. | Correntropy long short term memory soft sensor for quality prediction in industrial polyethylene process | |
US20210110409A1 (en) | False detection rate control with null-hypothesis | |
Badriyah et al. | Improving stroke diagnosis accuracy using hyperparameter optimized deep learning | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN108876038B (zh) | 大数据、人工智能、超算协同的材料性能预测方法 | |
CN112613032B (zh) | 基于系统调用序列的主机入侵检测方法及装置 | |
CN116304641B (zh) | 基于参考点搜索和特征交互的异常检测解释方法及系统 | |
CN116910573B (zh) | 异常诊断模型的训练方法及装置、电子设备和存储介质 | |
Li et al. | Research on short term prediction method of thermal hydraulic transient operation parameters based on automated deep learning | |
CN105824785A (zh) | 基于惩罚回归的快速异常点检测方法 | |
CN116359738A (zh) | 电池的健康状态监测方法、装置、设备及存储介质 | |
Park et al. | Multiclass autoencoder-based active learning for sensor-based human activity recognition | |
CN116959561B (zh) | 一种基于神经网络模型的基因相互作用预测方法和装置 | |
CN117153421A (zh) | 一种基于神经网络算法的数据监测方法及装置 | |
Fernandez-Lozano et al. | Texture classification using kernel-based techniques | |
US11645555B2 (en) | Feature selection using Sobolev Independence Criterion | |
CN116302848B (zh) | 一种评估值被带偏的检测方法、装置、电子设备及介质 | |
Rongali et al. | Parameter optimization of support vector machine by improved ant colony optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |