CN115514580A

CN115514580A - 一种自编码器溯源入侵检测方法及装置

Info

Publication number: CN115514580A
Application number: CN202211414142.3A
Authority: CN
Inventors: 张海霞; 谢雨来; 吴雅锋; 冯丹; 周潘
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2022-12-23
Anticipated expiration: 2042-11-11
Also published as: CN115514580B

Abstract

本发明涉及一种自编码器溯源入侵检测方法及装置，根据用户行为的溯源数据构建表示用户行为的溯源图；根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，每个溯源子图代表用户的一个行为实例；所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度；将非欧空间的溯源子图转变为欧式空间的图序列，得到行为实例序列；将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。本发明能有效解决现有技术难以从海量溯源数据中挖掘分析出异常操作，分析工作量巨大而导致检测效果不佳的问题。

Description

一种自编码器溯源入侵检测方法及装置

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于重叠社区发现的自编码器溯源入侵检测方法及装置。

背景技术

入侵检测技术是网络安全领域中的核心技术之一，该技术收集信息是通过分析那些存在于计算机系统、计算机网络中的关键节点，以此来探查在系统或网络中是否存在违反安全策略的异常行为或者遭遇攻击型的现象，入侵检测作为一种主动防护技术可有效克服传统技术存在的静态防护能力、被动防御等缺陷。

虽然传统的基于溯源的入侵检测方法在一定程度上能够获得良好的检测效果，但随着用户行为逐渐变的多样化，复杂化，这就导致溯源追踪系统收集的溯源数据逐渐增大，这就增加了传统入侵检测方法的分析工作量。不仅如此，目前攻击者擅长将自己的攻击操作隐藏在大量的正常操作中，这就使得这些传统的入侵检测方法难以从海量的溯源数据中挖掘出攻击操作以识别异常行为，同时在分析攻击操作的同时，还需要分析相关的正常操作，这就导致检测效果不佳同时还耗费大量的分析时间。

发明内容

本发明提供一种基于重叠社区发现的自编码器溯源入侵检测方法及装置，以此来解决现有技术难以从海量溯源数据中挖掘分析出异常操作，分析工作量巨大而导致检测效果不佳的问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种自编码器溯源入侵检测方法，包括：

根据由溯源追踪系统收集的用户行为的溯源数据构建表示用户行为的溯源图；

溯源图中的节点包括：文件、进程、套接字、管道；节点自身拥有不同数目的属性，节点与节点之间存在描述用户操作的依赖关系。

根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，每个溯源子图代表用户的一个行为实例；所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度；

将非欧空间的溯源子图转变为欧式空间的图序列，得到行为实例序列；

将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。

进一步的，所述节点重要度的获取方法，包括：

向溯源图中添加与所有节点都有双向关系的公共节点G，并将对公共节点G的节点依赖度D设为0，其余的节点的节点依赖度D设为1；节点依赖度D用来衡量节点之间的依赖关系；

利用下式进行迭代的更新各节点的D值，直到所有节点的D值稳定不变；

式中的t表示迭代轮次，

表示节点p的子节点集合；

表示节点j的出度；

将收敛状态下公共节点G的D值平分给每一个节点，如下式所示：

式中

表示第i个节点的节点依赖度，

表示最终收敛时第i个节点的节点依赖度，

表示最终收敛时公共节点G的节点依赖度，

表示最终收敛时的迭代轮次；

利用下式计算溯源图中的每个节点重要度NI：

式中，

为节点p的节点依赖度，

为节点p的属性值，

为节点属性占比。

进一步的，根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，包括：

S301，计算所有未标记的节点的平均节点重要度，作为标签传播阈值T；

S302，选择节点重要度NI大于标签传播阈值T的未标记的节点作为备选标记节点，并按照节点重要度NI的大小进行排序；

S303，依次判断每一备选标记节点是否为比其排序靠前的节点的子节点，若不是则将该备选标记节点本身的ID值作为其标签值完成标记；

S304，将标记完成的节点按照节点重要度NI的大小进行排序，并利用标记完成的节点的标签值标记其子节点；重复步骤S304，直至无新增被标记的节点；

S305，判断溯源图中所有节点是否还存在未被标记的节点，若是则跳转至步骤S301，否则按照标签值将所述溯源图划分为多个溯源子图。

进一步的，根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，还包括：

判断所述溯源图中的任一节点是否存在父节点且该节点的标签是否与其父节点的标签相同；

若该节点存在父节点且该节点的标签与其父节点的标签不一致，则计算该节点与与其标签一致的溯源子图的关联度

以及该节点与与其具有不同标签的父节点所在的溯源子图的关联度

；

若

，则新增标签值给该节点，新增的标签值为

对应的溯源子图的标签值；

所述节点p与溯源子图C之间的关联度Co，如下式所示：

式中，

为溯源子图C中与节点p相邻的所有节点的集合，

为溯源图中与节点p 相邻的所有节点的集合。

进一步的，将非欧空间的溯源子图转变为欧式空间的图序列，得到行为实例序列，包括：

将溯源子图中的节点，按照节点重要度由大到小排序，获得前K个节点作为中心节点；

分别对每个中心节点构造邻域，将中心节点放入邻域，再将中心节点的子节点按照节点重要度排序后放入邻域，再依次获取新放入邻域的节点的未被访问过的子节点并按照节点重要度排序后放入邻域，直至没有节点被放入邻域内；

针对每一个邻域，若其大小大于K时，则对于除中心节点外的节点重要度排序前K-1的每一个节点，将其与相邻节点进行聚合并更新其节点重要度；

对于每个中心节点，依次获取邻域内节点的节点重要度得到长度为K的第一序列，若长度不足则以0填充；并按照中心节点在溯源子图中的排序，将第一序列排列得到长度为K*K的第二序列，若长度不足则以0填充，所述第二序列即为溯源子图对应的行为实例序列。

进一步的，将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测，包括：

将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征；

利用二分K-means聚类方法对所述行为实例特征进行聚类，得到行为实例特征代表；

根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为。

进一步的，根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为，包括：

对于用户行为的每一个行为实例特征代表，计算其与规则库中所有行为实例特征代表的余弦距离，若最小的余弦距离大于距离阈值，则该行为实例特征代表所对应的用户行为为异常行为；

所述规则库中的行为特征实例代表为正常用户行为对应的行为实例特征代表。

第二方面，本发明提供一种自编码器溯源入侵检测装置，包括：

预处理模块，根据用户行为的溯源数据构建表示用户行为的溯源图；

行为实例划分模块，根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，每个溯源子图代表用户的一个行为实例；所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度；

行为实例序列化模块，将非欧空间的溯源子图转变为欧式空间的图序列，得到行为实例序列；

异常判断模块，将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。

第三方面，本发明提供一种电子设备，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述计算机软件程序，进而实现本发明第一方面所述的一种自编码器溯源入侵检测方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，所述存储介质中存储有用于实现本发明第一方面所述的一种自编码器溯源入侵检测方法的计算机软件程序。

本发明的有益效果是：（1）本发明提出了一种基于重叠社区发现的自编码器溯源入侵检测方法，该方法通过对组成用户行为的行为实例进行分析提取特征，对聚类后的特征进行分析以高效精准的检测异常行为。

（2）本发明通过提出重叠社区划分算法对组成用户行为的行为实例进行准确合理的划分。

（3）本发明通过使用自编码器准确挖掘行为实例的溯源特征，为提高分析效率，对各用户行为中的各行为实例提取的特征进行聚类后对特征代表进行分析，以此完成精准的入侵检测分析。

（4）本发明能够高效精准的通过分析行为实例特征来识别出用户行为类别，同时可以拥有较低的分析时间开销。

附图说明

图1为本发明实施例提供的基于重叠社区发现的自编码器溯源入侵检测方法流程示意图；

图2为本发明实施例提供的重叠社区划分方法流程示意图；

图3为本发明实施例展示的重叠节点的实例图；

图4为本发明实施例提供的对隶属于一个行为实例的序列化方法流程示意图；

图5为本发明实施例提供的卷积神经网络结构示意图；

图6为本发明实施例提供的基于重叠社区发现的自编码器溯源入侵检测装置结构示意图；

图7为本发明实施例提供的电子设备的实施例示意图；

图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的基于重叠社区发现的自编码器溯源入侵检测方法流程示意图。如图1所示，该方法，包括以下步骤：

S100，根据用户行为的溯源数据构建表示用户行为的溯源图。

通过从溯源追踪系统中收集的表示用户行为的溯源信息中提取有用的信息包括节点之间的依赖关系，节点自身的属性个数以形成精简的表示用户行为的溯源图。丢弃那些不必要的溯源信息以减少分析工作量。

S200，根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，每个溯源子图代表用户的一个行为实例。

所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度。

节点重要度定义如下：

向溯源图中添加与所有节点都有双向关系的公共节点G，这样我们可以得到一个强连通的新溯源图。然后将对公共节点G的节点依赖度D设为0，其余的节点的节点依赖度D设为1。节点依赖度D用来衡量节点之间的依赖关系。

接着利用下式进行迭代的更新各节点的D值，直到所有节点的D值稳定不变；

（1）

式中的t表示迭代轮次，

表示节点p的子节点集合；

表示节点j的出度（对于有向图来说，顶点的出边条数称为该顶点的出度，顶点的入边条数称为该顶点的入度）。该公式表示，一个节点下一轮的依赖度的值为本轮其子节点的依赖度与其出度的比的总和。

然后再将收敛状态下公共节点G的D值平分给每一个节点；如公式（2）所示。其中

表示最终收敛时的迭代轮次。

（2）

式中

表示第i个节点的节点依赖度，

表示最终收敛时第i个节点的节点依赖度，

表示最终收敛时公共节点G的节点依赖度，

表示最终收敛时的迭代轮次。

当我们计算完节点依赖度D之后，我们再利用公式（3）计算溯源图中的每个节点重要度NI：

（3）

式中，

为节点p的节点依赖度，

为节点p的属性值，

为节点属性占比，该值经过超参实验调整为：0.375。

根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，如图2所示，包括以下步骤：

S201，标签初始化：利用节点重要度来作为标签传播的依据，将当前未被标记节点的平均节点重要度作为标签传播的阈值T，选择NI值大于阈值T的未被标记节点作为初始被标记节点的备选，然后将其按NI值由大到小排序后，依次判断当前节点是否为当前备选节点中NI值比他大的节点的子节点，若不是则将该节点作为初始被标记节点并将其本身ID值作为其标签值。

S202，广泛标签传播：将已被标记节点按NI由大到小排序后依次将其标签传播至其未被标记的子节点，并将本轮新被标记节点作为下一轮主动传播标签的节点。不断重复此步骤直到没有新增被标记节点为止。

S203，广泛标签传播：在当前阈值下标签传播结束后，为了保证标签传播充分，则继续利用当前未被标记节点的平均节点重要度来更新阈值T，并重复步骤S201、S202，直到更新T没有新被初始化的节点为止。

S204，重叠社区发现：当完成标签传播后，就对重叠社区进行发现。首先判断所述溯源图中的任一节点是否存在父节点且该节点的标签是否与其父节点的标签相同；图3是本发明展示的重叠节点的实例，其中节点7就为重叠节点。

；

若

，则新增标签值给该节点，新增的标签值为

对应的溯源子图的标签值；

所述节点p与溯源子图C之间的关联度Co，如下式所示：

（4）

式中，

为溯源子图C中与节点p相邻的所有节点的集合，

为溯源图中与节点p 相邻的所有节点的集合。

S300，将非欧空间的溯源子图转变为欧式空间的图序列，得到行为实例序列。

在将行为实例送入自编码器训练之前需要将其对应的为非欧空间的溯源子图处理成欧式空间的图序列。将利用节点聚合优化的图序列化算法来序列化溯源子图，同时保证保留重要溯源信息。图4是本发明展示的对隶属于一个行为实例的序列化算法步骤。

首先，将溯源子图中的节点，按照节点重要度由大到小排序，获得前K个节点作为中心节点；

其次，分别对每个中心节点构造邻域，将中心节点放入邻域，再将中心节点的子节点按照节点重要度排序后放入邻域，再依次获取新放入邻域的节点的未被访问过的子节点并按照节点重要度排序后放入邻域，重复此步骤，直至没有节点被放入邻域内；

最后，针对每一个邻域，若其大小大于K时，若直接丢弃超过K的节点则会丢失部分重要溯源信息，便利用节点聚合来保留溯源信息。对于除中心节点外的节点重要度排序靠前的K-1的每一个节点，将其与相邻节点进行聚合并更新其节点重要度；即获得当前节点的子节点且未被作为其他已经聚合的节点的子节点的平均节点重要度，然后将该值与当前节点的节点重要度相加以更新当前节点的节点重要度。如公式（5）所示，一个节点的新节点重要度

等于该节点的原始节点重要度

与其相邻子节点的平均节点重要度相加。

（5）

对于每个中心节点，依次获取邻域内节点的节点重要度得到长度为K的第一序列，若长度不足则以0填充；并按照中心节点在溯源子图中的排序，将第一序列排列得到长度为K*K的第二序列，若长度不足则以0填充，所述第二序列即为溯源子图对应的行为实例序列。K值通过超参实验调整为：16。

S400，将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。

自编码器相较于其他网络能够进行无监督学习，且善于学习非线性特征的特点，因此设计自编码器模型来提取行为实例特征，并为减少分析时间，利用二分K-means聚类方法对行为实例特征进行聚类，对聚类后的行为实例特征进行分析来完成异常行为检测。图5是本发明实时提供的卷积神经网络设计图。

自编码器的编码器由3层“卷积-池化”层，每一层使用SELU激活函数来完成非线性变换，增强模型的表达。在编码器之后增加一层dropout层以避免过拟合，增强泛化能力。解码器由3层“卷积-上采样”层组成对特征图进行放大。通过训练自编码器来重建输入，通过计算输入与输出之间的均方根误差（RMSE）作为损失函数，并使用Adam优化器反向调优。假设输出为

，原始输入为

。RMSE的计算公式（6）所示。

（6）

训练阶段

本实施例使用正常用户行为作为训练数据集，通过前序步骤获得组成各用户行为的行为实例序列送入自编码器中进行模型训练，通过不断的减小重构误差来调整模型参数从而得到优良的模型。

测试阶段

本发明使用正常用户行为作为规则数据集，通过前序步骤获得组成各用户行为的行为实例序列送入训练好的自编码器模型，并获得编码器的输出作为各行为实例的特征，然后利用二分k-means聚类对各用户行为中的行为实例特征进行聚类获得特征代表作为规则库。本发明将用于获得误报率的正常数据集命名为测试集1，将用于获得检测率的异常数据集命名为测试集2。将这两个测试集分别通过以上步骤获得各用户行为的行为实例特征代表，通过对各个行为实例代表分析来完成用户行为类别分析。

针对每个行为实例特征代表，计算其与规则库中所有的特征代表的余弦距离D，计算公式如（7）所示。

（7）

余弦距离越小则表示两者之间的差异越小。若一个行为实例特征代表与规则库中代表的最小的余弦距离

仍大于预设阈值，则说明该行为实例特征代表为异常，那么即可判断整个用户行为为异常。

通过使用余弦距离判断两个特征代表之间的差异性，余弦距离越大表示两个特征代表之间的差异越大。对于一个用户行为来说，当存在一个特征代表被判定为异常则说明整个用户行为为异常。判断一个特征代表是否为异常，则将其与规则库中所有的特征代表进行比对，当其与规则库中最小的余弦距离仍大于阈值，则说明该特征代表为异常，则可判断整个用户行为为异常，否则只有当所有的特征代表都为正常才可说明整个用户行为为正常。

为了节约判断用户行为的时间，则可通过判断一个用户行为中的各行为实例特征代表的

中的最大值

是否大于阈值，若该值大于阈值则说明用户行为中存在异常行为实例，即该用户行为为异常行为，否则可判断该行为是正常行为。

其中，阈值通过根据获得的检测效果自适应的调整以便获得最优检测效果。本发明针对阈值使用自适应动态调整，阈值初值为测试集2中最小余弦距离，此时可以保证检测出所有的异常行为，为了使综合的检测效果最好即尽可能的正确判断用户行为类别，可将阈值进行自增或自减，即当将阈值增加后正确判断用户行为类别的个数反而减少，则将阈值自减后可得到最佳阈值。

检测阶段

将所述行为实例序列输入到以训练好的自编码器模型中提取行为实例特征；

对于用户行为的每一个行为实例特征代表，计算其与规则库中所有行为实例特征代表的余弦距离，若最小的余弦距离大于距离阈值，则该行为实例特征代表所对应的用户行为为异常行为。这里的距离阈值为测试阶段经过调整后得到的最佳阈值。

在上述实施例的基础上，本发明实施例还提供一种基于重叠社区发现的自编码器溯源入侵检测装置，如图6所示，该装置包括：

请参阅图7，图7为本发明实施例提供的电子设备的实施例示意图。如图7所示，本发明实施例提了一种电子设备500，包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现以下步骤：

S100，根据用户行为的溯源数据构建表示用户行为的溯源图；

S200，根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图，每个溯源子图代表用户的一个行为实例；

S300，将非欧空间的溯源子图转变为欧式空间的图序列，得到行为实例序列；

请参阅图8，图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图8所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：

S100，根据用户行为的溯源数据构建表示用户行为的溯源图；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。