CN114168648B

CN114168648B - 基于连续监督的鲁棒深度半监督异常检测方法及系统

Info

Publication number: CN114168648B
Application number: CN202111334962.7A
Authority: CN
Inventors: 蹇松雷; 徐鸿祚; 黄辰林; 谭郁松; 李宝; 董攀; 丁滟; 任怡; 王晓川; 张建锋; 谭霜
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2024-05-14
Anticipated expiration: 2041-11-11
Also published as: CN114168648A

Abstract

本发明公开了一种基于连续监督的鲁棒深度半监督异常检测方法及系统，本发明包括训练由数据表征模块和异常评分模块两者构成的神经网络的步骤：设定迭代轮次和批量大小；在每一个迭代轮次和批量的情况下，取训练集数据中随机选取两份未标注数据以及一份已知的标注异常数据构成最小批量数据；将最小批量数据通过数据表征模块得到在隐表征空间内的嵌入向量；将在隐表征空间内的嵌入向量通过异常评分模块得到异常分数向量；将在隐表征空间内的嵌入向量、异常分数向量输入损失函数以计算总损失；根据总损失更新网络的模型参数。本发明能够解决现有半监督异常检测方法受到未标注数据异常污染以及间接离散监督影响的问题，可获得更好的检测效果。

Description

基于连续监督的鲁棒深度半监督异常检测方法及系统

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于连续监督的鲁棒深度半监督异常检测方法及系统。

背景技术

异常是偏离其他大多数样本的数据，以至于让人们怀疑其是由不同机制产生的。异常检测是一种用于识别这些显著不同于预期的异常数据的技术，其在许多关键领域有着广泛的应用，例如网络安全、金融监控、风险管理和AI医疗诊断。这些应用往往很难提供足够的标注数据，因此异常检测通常被定义为无监督问题。

业内已提出了各种无监督异常检测方法，如基于统计特征的方法、基于密度的方法、基于聚类的方法。近些年，无监督深度异常检测方法利用自编码器、生成对抗网络以及他们的各种变种学习数据的正常分布和模式，并将异常定义为具有较高重构损失的数据。然而，无监督异常检测方法通常会导致报警风暴，即由于报警数量巨大导致分析人员很难及时处理所有检测到的异常数据而忽略真正的潜在风险。在没有任何先验信息表明什么样的数据是异常的情况下，准确地检测人们真正感兴趣的真实异常是极具挑战性的。事实上，许多实际应用都会保存与重要历史故障、事故或其他负面事件相关的数据，例如，欺诈检测中识别出的欺诈交易、医疗诊断中的确诊病例以及入侵检测中追踪到的攻击威胁。因此从这些记录中可以提取有限的真实异常数据。这些有限的真实异常数据激发了学术界对于半监督异常检测的研究兴趣，即通过这些已知异常与未标注数据一起训练异常检测模型，与仅利用未标注数据的无监督方法相比，这些半监督异常检测方法的检测性能有了显著提升。半监督异常检测中的一部分方法主要关注如何学习更好的表征，即利用超球体、熵或互信息等不同标准将已知异常数据与未标记数据在隐表征空间中分开。然而，这些方法学习数据异常程度的优化方式是间接的，异常分数只能孤立地从模型中导出。另一部分方法通过提出新的目标函数实现了以端到端的方式生成异常分数，如利用偏差损失函数、配对训练样本并使用序数回归以及深度概率生成模型，但是利用的监督信号仍然是离散的。另外，以上这些现有方法通常简单地假设所有未标注数据均为正常。

综上，目前现有半监督异常检测存在着两个关键问题。(1)未标注数据中的异常污染：尽管由于异常的稀疏性，大部分未标注数据是正常数据样本，但未标注数据中仍然包含着一些异常数据，即异常污染。由于很多现有研究简单地假设所有未标注数据均为正常样本，异常污染可能会极大地干扰这些异常检测模型。(2)异常分数优化利用的间接离散的监督信号：很多实际场景通常需要异常检测模型输出异常分数用于指示异常程度，以便分析人员检查排名靠前的异常。一部分现有深度异常检测方法的优化目标主要是为了学习更好的特征表示而非异常分数，因此这些方法只能间接地优化和输出异常分数。虽然目前已有一些现有方法可以直接产生异常分数作为输出，但这些方法均使用的是离散的监督信号优化异常分数，如二元标签或序数回归标签，但异常分数本质上是呈现连续分布的，利用连续的异常分数监督信息进行优化才可以获得更好的检测效果。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于连续监督的鲁棒深度半监督异常检测方法及系统，本发明能够解决现有半监督异常检测方法受到未标注数据异常污染以及间接离散监督影响的问题，可获得更好的检测效果。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于连续监督的鲁棒深度半监督异常检测方法，包括训练由数据表征模块f和异常评分模块g两者构成的神经网络的步骤：

1)设定迭代轮次epoch和每次迭代的批量大小batch-size；

2)取训练集数据中随机选取两份未标注数据和/>以及一份已知的标注异常数据/>构成最小批量数据/>

3)将最小批量数据通过数据表征模块f得到在隐表征空间内的嵌入向量；

4)将在隐表征空间内的嵌入向量通过异常评分模块g得到异常分数向量；

5)将在隐表征空间内的嵌入向量、异常分数向量输入损失函数以计算总损失；

6)根据总损失更新网络的模型参数；

7)判断本迭代轮次的批量数量达到批量大小batch-size是否成立，若不成立，则跳转执行步骤2)；否则，跳转下一步；

8)判断迭代轮次的总数量达到迭代轮次epoch是否成立，若不成立，则跳转执行步骤7)；否则，判定训练结束，将最终得到的网络的模型参数作为训练结果输出。

可选地，步骤5)中计算总损失的计算函数表达式为：

上式中，表示总损失，w_f为正则化项/>的权值，w_φ为损失函数/>的权值，其中/>为最小批量数据，/>为对原始数据的随机凸组合结果。

可选地，所述正则化项的计算函数表达式为：

上式中，d(·|·)定义为欧拉距离，max为最大值函数，f(n)为未标注数据中未标注数据n经过数据表征模块f得到在隐表征空间内的嵌入向量，f(q)为未标注数据/>中未标注数据q经过数据表征模块f得到在隐表征空间内的嵌入向量，f(a)为已知的标注异常数据/>中已知的标注异常数据a经过数据表征模块f得到在隐表征空间内的嵌入向量，e为设定距离。

可选地，正则化项的权值w_f的计算函数表达式为：

上式中，为正则化项/>T为温度系数，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值。

可选地，对原始数据的随机凸组合结果的计算函数表达式为：

上式中，分别为对原始数据的随机凸组合结果/>中的元素，λ为凸组合权重系数，x_i和x_j分别为最小批量数据/>中的任意两个原始数据样本，y_i和y_j分别为x_i和x_j对应标签，正常数据设定为-1，异常数据设定为+1，Beta(α,α)为贝塔分布，α为贝塔分布中的参数。

可选地，损失函数的计算函数表达式为：

上式中，分别为对原始数据的随机凸组合结果/>的中的元素，/>为已知的标注异常数据，a,y⁺分别为已知的标注异常数据/>中的元素，/>为元素/>经过数据表征模块f和异常评分模块g后得到的异常分数，φ(a)为元素a经过数据表征模块f和异常评分模块g后得到的异常分数，/>和L(φ(a),+1)均为/>损失。

可选地，损失/>和L(φ(a),+1)的计算函数表达式为：

上式中，表示/>或L(φ(a),+1)，λ为/>损失中的参数，当小于λ时/>为均方误差损失，当/>大于λ时/>为平均绝对误差损失。

可选地，损失函数的权值w_φ的计算函数表达式为：

上式中，为损失函数/>T为温度系数，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值。

此外，本发明还提供一种基于连续监督的鲁棒深度半监督异常检测系统，包括相互连接的微处理器和存储器，该微处理器中存储有被编程或配置以执行所述基于连续监督的鲁棒深度半监督异常检测方法的步骤。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于连续监督的鲁棒深度半监督异常检测方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明中的基于凸组合的数据增强技术可以充分利用少量已知异常数据，将已知异常数据与未知样本结合，生成带有连续异常分数标注的增强样本为异常评分模型提供直接连续的监督信号，另一方面，这些增强样本对未知数据中的异常污染具有较好鲁棒性，异常污染通过与真实正常数据和已知异常数据的组合可以降低其干扰性。本发明能够解决现有半监督异常检测方法受到未标注数据异常污染以及间接离散监督影响的问题，可获得更好的检测效果。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中的损失函数以及训练流程图。

图3为本发明实施例中的神经网络架构图。

具体实施方式

实施例一：

下文将以由数据表征模块f和异常评分模块g两者构成的神经网络(网络入侵检测神经网络)为例，对本发明基于连续监督的鲁棒深度半监督异常检测方法以及系统进行进一步的详细说明。需要说明的是，本发明基于连续监督的鲁棒深度半监督异常检测方法以及系统实现了对上述由数据表征模块f和异常评分模块g两者构成的神经网络的通用训练方法，由数据表征模块f和异常评分模块g两者构成的神经网络的用途不限于此。由数据表征模块f和异常评分模块g两者构成的神经网络可广泛应用于多种现实场景。

如图1所示，本实施例基于连续监督的鲁棒深度半监督异常检测方法包括训练由数据表征模块f和异常评分模块g两者构成的神经网络的步骤：

1)设定迭代轮次epoch和每次迭代的批量大小batch-size；

6)根据总损失更新网络的模型参数；

如图2所示，本实施例中步骤5)中计算总损失的计算函数表达式为：

上式中，表示总损失，w_f为正则化项/>的权值，w_φ为损失函数/>的权值，其中/>为最小批量数据，/>为对原始数据的随机凸组合结果。根据上述函数可知，本实施例中计算总的损失函数时，定义为异常评分损失和隐表征空间中三元组损失的正则化项的动态加权平均，两个损失项的权值通过当前最小批量数据/>的损失相较于上一个迭代轮次epoch中所有最小批量数据/>的平均损失/>的下降速度确定。根据总损失函数优化模型参数使得/>尽可能小。本实施例中，通过基于三元组损失的正则化项对模型隐表征空间进行约束，起到模型正则化的作用，可有效解决或减缓模型对于未标注数据中异常污染的过拟合情况。基于凸组合的数据增强技术可以充分利用少量已知异常数据，将已知异常数据与未知样本结合，生成带有连续异常分数标注的增强样本为异常评分模型提供直接连续的监督信号，另一方面，这些增强样本对未知数据中的异常污染具有较好鲁棒性，异常污染通过与真实正常数据和已知异常数据的组合可以降低其干扰性。

计算最小批量数据中数据经过数据表征层f后在表征空间内进行三元组损失计算，将已知异常数据样本a在隐表征空间中尽可能远离锚未标注样本n，并使用另一未标注样本q与锚未标注样本n的距离作为参照，计算的损失项作为模型的正则化项。即，本实施例中正则化项/>的计算函数表达式为：

本实施例中，正则化项的权值w_f的计算函数表达式为：

上式中，为正则化项/>T为温度系数(类似于Softmax函数，温度系数越小，权值相差越大，温度系数越大，权值相差越小)，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值。

计算最小批量数据中数据最终异常评分的损失。由于原有监督信号仍然是离散的二元标签，因此本发明中利用凸组合将原有数据进行增强以获得连续监督信号，假设原有未标注样本的异常标注是-1，已知异常样本的异常分数标注是+1，即本实施例中对原始数据的随机凸组合结果/>的计算函数表达式为：

异常分数的损失最终通过回归损失函数进行计算，本发明中可使用MSE、MAE、log-cosh等多种回归损失实现，即计算新生成的最小批量数据/>和原有最小批量数据/>中的已知异常数据分数与其分数标注的差距，本实施例中损失函数/>的计算函数表达式为：

本实施例中，损失/>和L(φ(a),+1)的计算函数表达式为：

本实施例中，损失函数的权值w_φ的计算函数表达式为：

如图2和图3所示，本实施例方法中涉及数据表征模块f、异常评分模块g、基于隐表征空间三元组损失的正则化项基于凸组合数据增强的异常评分损失函数/>以及/>与的动态平均。各个模块详细描述如下：

数据表征模块f中可学习参数为Θ_f，异常评分模块g中可学习参数为Θ_g。数据表征模块学习输入数据的新的表征，将原始数据映射到新的隐表征空间中。异常评分模块将数据的新的表征转换为数据的单变量异常分数，形成端到端的训练模式。

基于隐表征空间三元组损失的正则化项用于对隐表征空间中的数据空间位置进行约束，三元组损失将已知异常数据样本与未标注数据样本在隐表征空间中进行分离，并使用未标注样本间的距离作为参照，使两者距离差至少大于e的距离，从而实现对模型的正则化作用。/>的计算函数表达式如式(2)所示。

基于凸组合数据增强的异常评分损失函数用于直接优化模型的异常评分能力，通过利用凸组合生成新的带有连续监督信号的增强数据样本，新的增强数据样本生成方式为对原始数据进行随机凸组合。对原始数据的随机凸组合结果/>的计算函数表达式如式(4)所示。

由于异常分数本身呈现连续分布，因此利用带有连续监督信号的增强数据样本可以更细粒度地指导异常评分的优化过程。另外，异常通常具有稀有性，未标记数据中仍然以真正的正常数据为主，所以这些未标注数据中的异常数据通过与已知异常或真实的正常数据结合可减轻异常污染的影响，因此本发明具有对异常污染更强的鲁棒性。损失函数的计算函数表达式为如式(5)所示。

损失函数与正则化项/>通过动态加权平均进行组合，目的是为了平衡两个损失项的优化速度，根据上一轮epoch中的损失值判定损失值下降速度，然后利用下降速度定义权值，对两损失项的优化速度进行权衡平均，/>和/>损失项权值的计算函数表达式为如式(3)和式(7)所示。由此可得因此总损失函数计算函数表达式为如式(1)所示。

图3是实施例中的神经网络架构图。本实施例采用全连接神经网络处理表格型多维数据，网络包括数据表征模块f和异常评分模块g，共四层全连接神经网络，激活函数采用泄露修正线性单元(Leaky Rectified Linear Unit,LeakyReLU)，最后一层采用tanh激活函数将异常分数放缩至[-1,+1]区间，第二层表征层不使用激活函数。四层的可学习参数分别为以及神经网络直接输出mini-batch中全部数据样本的异常分数向量参见图1可知，在训练时首先设定最大epoch数和每epoch最大batch数，在训练数据中随机选取两份的未标注数据/>和/>以及一份已知异常/>由于已知异常数量较少，通过在生成mini-batch中对已知异常的频繁采样缓解数据类别不平衡的影响。然后，mini-batch内全部数据经过数据表征模块f，得到数据在隐表征空间内的嵌入向量，然后利用这些嵌入向量输入异常评分模块，得到所有数据的异常分数向量。异常分数向量输入损失函数，数据的嵌入向量输入正则化项，计算总的损失，然后根据总损失函数更新网络参数，直至达到最大epoch数，形成一个稳定的异常评分模型。测试过程中，将数据输入数据表征模块和异常评分模块可直接输出表示异常程度的异常分数，从而实现异常检测。

通过上述训练，使得由数据表征模块f和异常评分模块g两者构成的神经网络(网络入侵检测神经网络)在网络安全入侵检测中，通过少量历史攻击样本结合大量未知网络数据流输入，即可有效发现和预警网络数据流中的潜在威胁，对维护信息系统的机密性、完整性和可用性具有重要意义。

此外，本实施例还提供一种基于连续监督的鲁棒深度半监督异常检测系统，包括相互连接的微处理器和存储器，该微处理器中存储有被编程或配置以执行前述基于连续监督的鲁棒深度半监督异常检测方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于连续监督的鲁棒深度半监督异常检测方法的计算机程序。

实施例二：

本实施例与实施例一基本相同，其主要区别点为由数据表征模块f和异常评分模块g两者构成的神经网络的用途不同。本实施例中，由数据表征模块f和异常评分模块g两者构成的神经网络用于金融欺诈检测中，利用金融交易数据和用户特征，发现身份盗用、信用卡欺诈，以及金融市场“老鼠仓”等违规操作，可有效维护用户财产安全和市场金融安全。

实施例三：

本实施例与实施例一基本相同，其主要区别点为由数据表征模块f和异常评分模块g两者构成的神经网络的用途不同。本实施例中，由数据表征模块f和异常评分模块g两者构成的神经网络用于大型数据中心、超级计算机系统、工控系统等大规模系统中，通常使用海量系统指标实时监测系统状态，本发明可辅助运维人员智能检测、预警系统异常状态从而避免未知故障导致宕机等严重事故的发生，保证系统的高稳定性和高可用性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于连续监督的鲁棒深度半监督异常检测方法，其特征在于，包括训练由数据表征模块和异常评分模块/>两者构成的神经网络的步骤：

1）设定迭代轮次epoch和每次迭代的批量大小batch-size；

2）取训练集数据中随机选取两份未标注数据和/>以及一份已知的标注异常数据/>构成最小批量数据/>；

3）将最小批量数据通过数据表征模块/>得到在隐表征空间内的嵌入向量；

4）将在隐表征空间内的嵌入向量通过异常评分模块得到异常分数向量；

5）将在隐表征空间内的嵌入向量、异常分数向量输入损失函数以计算总损失；

6）根据总损失更新网络的模型参数；

7）判断本迭代轮次的批量数量达到批量大小batch-size是否成立，若不成立，则跳转执行步骤2）；否则，跳转下一步；

8）判断迭代轮次的总数量达到迭代轮次epoch是否成立，若不成立，则跳转执行步骤7）；否则，判定训练结束，将最终得到的网络的模型参数作为训练结果输出；

步骤5）中计算总损失的计算函数表达式为：

，

上式中，表示总损失，/>为正则化项/>的权值，/>为损失函数/>的权值，其中/>为最小批量数据，/>为对原始数据的随机凸组合结果；

所述正则化项的计算函数表达式为：

，

上式中，定义为欧拉距离，/>为最大值函数，/>为未标注数据/>中未标注数据/>经过数据表征模块/>得到在隐表征空间内的嵌入向量，/>为未标注数据/>中未标注数据/>经过数据表征模块/>得到在隐表征空间内的嵌入向量，/>为已知的标注异常数据中已知的标注异常数据/>经过数据表征模块/>得到在隐表征空间内的嵌入向量，/>为设定距离；

对原始数据的随机凸组合结果的计算函数表达式为：

，

上式中，分别为对原始数据的随机凸组合结果/>中的元素，/>为凸组合权重系数，/>和分别为最小批量数据/>中的任意两个原始数据样本，/>和/>分别为/>和/>对应标签，正常数据设定为-1，异常数据设定为+1，/>为贝塔分布，/>为贝塔分布中的参数；

损失函数的计算函数表达式为：

，

上式中，分别为对原始数据的随机凸组合结果/>的中的元素，/>为已知的标注异常数据，/>分别为已知的标注异常数据/>中的元素，/>为元素/>经过数据表征模块/>和异常评分模块/>后得到的异常分数，/>为元素/>经过数据表征模块/>和异常评分模块/>后得到的异常分数，/>和/>均为smooth-/>损失。

2.根据权利要求1所述的基于连续监督的鲁棒深度半监督异常检测方法，其特征在于，正则化项的权值/>的计算函数表达式为：

，

上式中，为正则化项/>，/>为温度系数，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值。

3.根据权利要求1所述的基于连续监督的鲁棒深度半监督异常检测方法，其特征在于，smooth-损失/>和/>的计算函数表达式为：

，

上式中，表示/>或/>，/>为smooth-/>损失中的参数，当/>小于/>时/>为均方误差损失，当/>大于/>时/>为平均绝对误差损失。

4.根据权利要求1所述的基于连续监督的鲁棒深度半监督异常检测方法，其特征在于，损失函数的权值/>的计算函数表达式为：

，

上式中，为损失函数/>，/>为温度系数， />为上一迭代轮次epoch中所有最小批量数据对应/>的平均值，/>为上一迭代轮次epoch中所有最小批量数据对应/>的平均值。

5.一种基于连续监督的鲁棒深度半监督异常检测系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器中存储有被编程或配置以执行权利要求1～4中任意一项所述基于连续监督的鲁棒深度半监督异常检测方法的步骤。

6.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～4中任意一项所述基于连续监督的鲁棒深度半监督异常检测方法的计算机程序。