CN116155626B

CN116155626B - 一种基于跨主机异常行为识别的复杂网络攻击检测方法

Info

Publication number: CN116155626B
Application number: CN202310423444.5A
Authority: CN
Inventors: 吕明琪; 刘海文; 谢海江; 朱添田; 陈铁明; 路晓明; 姚一杨
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-07-25
Anticipated expiration: 2043-04-20
Also published as: CN116155626A

Abstract

本发明公开了一种基于跨主机异常行为识别的复杂网络攻击检测方法，包括如下步骤：1)首先采集主机内核日志数据构建主机内关联图，然后采用图卷积网络抽取特征，最后采用自动编码机检测主机内关联图中的异常节点；2)首先采用网络流量日志数据构建主机间交互图，然后基于主机间交互图序列训练预测模型，最后根据预测差异检测主机间交互图中的异常边；3)首先根据主机内和主机间异常检测结果构建跨主机异常关联图，然后采用PageRank算法对异常分数进行传播，最后基于异常分数确认受攻击主机。本发明通过跨主机联合网络攻击检测，使得主机内的恶意操作事件和主机间的横向移动事件互相验证，可有效降低误报率。

Description

一种基于跨主机异常行为识别的复杂网络攻击检测方法

技术领域

本发明涉及网络安全和深度学习技术，具体涉及一种基于跨主机异常行为识别的复杂网络攻击检测方法。

背景技术

复杂网络攻击在现代网络中变得日益突出。复杂网络攻击是一种持续时间久、攻击手段多的网络攻击方式。攻击者会采用各种手段渗透进目标网络中的主机，然后从一台主机横向移动到另一台主机，来进行内部侦查和数据窃取。复杂网络攻击的这些特性使得传统的单点网络攻击方法难以应对。

最近的工作表明，溯源图是用于检测复杂网络攻击最有效的工具。溯源图是在系统内核日志数据上构建的一种关联图，其节点代表系统实体（如进程、文件），边代表系统事件（如进程读文件）。溯源图可以很好地捕捉系统实体之间的控制流和数据流，更好地体现了系统事件之间的上下文关联和因果关系，因此对于检测长时间、多步骤的复杂网络攻击具有较好的效果。另一方面，随着深度学习的快速发展，深度学习技术也逐渐被用于复杂网络攻击检测任务，特别是可有效处理溯源图的图神经网络技术。

然而，现有融合溯源图与深度学习的复杂网络攻击检测技术仍存在不足：首先，现有技术仍然以检测单一攻击事件为主，无法对多个主机的攻击事件进行关联分析。其次，现有技术由于缺乏攻击事件的关联分析，导致误报率很高。再次，现有技术依赖大量有标注的训练样本。

发明内容

针对现有技术的不足，本发明提供了一种基于跨主机异常行为识别的复杂网络攻击检测方法。

本发明的技术方案如下：

一种基于跨主机异常行为识别的复杂网络攻击检测方法，包括如下步骤：

1) 主机内异常行为检测：首先采集主机内核日志数据构建主机内关联图，然后采用图卷积网络抽取特征，最后采用自动编码机检测主机内关联图中的异常节点。

2) 主机间异常行为检测：首先采用网络流量日志数据构建主机间交互图，然后基于主机间交互图序列训练预测模型，最后根据预测差异检测主机间交互图中的异常边。

3) 跨主机网络攻击检测：首先根据主机内和主机间异常检测结果构建跨主机异常关联图，然后采用PageRank算法对异常分数进行传播，最后基于异常分数确认受攻击主机。

进一步的，所述步骤1)中，主机内异常行为检测的详细步骤如下：

1.1) 主机内良性关联图构建：针对目标网络中的每一台主机H _k，采用操作系统内核日志采集工具采集主机正常运行过程中的系统日志数据，并组织成一个关联图nIAG _k；其中，nIAG _k的节点为系统实体，边为系统实体之间的交互事件。

1-2) 节点初始特征抽取：对于nIAG _k中的每一个节点v _i，初始特征向量为x_i =[a _i1, a _i2, …, a _iN]；其中，a _ij为v _i在nIAG _k中与其一跳邻居节点相连的边的集合中第j种类型边的数量。

1-3) 节点语义特征抽取：采用图卷积神经网络对nIAG _k进行处理，更新nIAG _k每个节点的特征向量，得到每个节点v _i的语义特征向量y_i。

1-4) 自动编码机训练：首先，收集所有主机的nIAG _k中的所有“进程”节点的语义特征向量；然后，将这些语义特征向量输入一个自动编码机进行训练；该自动编码机采用两个多层感知机分别作为编码器和解码器，编码器将输入的语义特征向量y_i编码成一个低维的隐向量，解码器将隐向量解码成一个与输入语义特征向量同维度的重构向量z_i；训练的目标为使得输入的语义特征向量y_i与输出的重构向量z_i的差异最小化。

1-5) 主机内异常检测：首先，对于目标网络中的每台主机H _k，采集实时系统日志数据并构建关联图rIAG _k；然后，基于步骤1-2)和1-3)的方法抽取rIAG _k中每个节点的语义特征向量；最后，将rIAG _k中的每个“进程”节点v _i的语义特征向量y_i输入步骤1-4)训练好的自动编码机，得到输出的重构向量z_i。如果y_i与z_i的差异大于指定阈值，则认为v _i是异常节点。

1-6) 主机内异常打分：首先根据公式(1)计算每个异常节点v _i的异常分数，然后根据公式(2)计算主机H _k的异常分数；其中，B(H _k)代表主机H _k中异常节点的集合；

(1)

(2)

进一步的，所述步骤2)中，主机间异常行为检测的详细步骤如下：

2-1) 主机间交互时序图构建：针对目标网络中的所有主机，采用网络流量抓取工具采集正常运行过程中主机间网络交互的日志数据；在每一个离散的时间点t上，主机间交互图IRG _t的节点为主机，边为在时间点t – 1和t之间不同主机之间的交互；则连续时间点的主机间交互图可组织成一个主机间交互图的序列IRGS =<IRG ₁, IRG ₂, …, IRG _T>。

2-2) 训练集构建：采用窗口大小为w、步长为1的滑动窗口对主机间交互图的历史序列进行分割，得到大量训练样本，形成训练集SS，SS中每个训练样本S _t = (D _t, L _t)。其中，D _t =<IRG _t-w, IRG _t-w+1, …, IRG _t-1>为S _t的数据部分，L _t = IRG _t为S _t的标签部分。

2-3) 主机间交互图预测模型训练：基于训练集SS训练一个预测模型，根据连续w个主机间交互图预测下一个主机间交互图；假设输入样本为S _t，则预测模型的结构分成如下4层：

输入层：由于不同主机间交互图的节点集合是相同的，因此仅采用主机间交互图的边集合的邻接矩阵作为输入，即输入为<IRA_t-w, IRA_t-w+1, …, IRA_t-1>，其中IRA_k为IRG _k的边集合的邻接矩阵。

卷积层：将每个IRA_k输入一个卷积神经网络，生成特征矩阵CM_k。

循环层：将连续的t个特征矩阵<CM_t-w, CM_t-w+1, …, CM_t-1>输入一个LSTM，生成特征矩阵RM。

输出层：将RM输入一个全连接神经网络，生成预测的时间点t的邻接矩阵pIRA_t。

2-4) 主机间异常检测：首先，根据步骤2-1)生成当前时间点t之前的w个主机间交互图D _t =<IRG _t-w, IRG _t-w+1, …, IRG _t-1>；然后，将D _t输入步骤2-3)训练好的预测模型，预测得到时间点t的邻接矩阵pIRA_t；最后，将pIRA_t与时间点t的真实邻接矩阵IRA_t进行比较，如果pIRA_t[i][j] = 0，而IRA_t[i][j] = 1，代表模型预测主机H _i和H _j间在时间点t应该没有交互而实际上它们间有交互，则认为主机H _i和H _j间在时间点t的交互是异常的。

进一步的，所述步骤3)中，跨主机复杂网络攻击检测的详细步骤如下：

3-1) 跨主机异常关联图构建：给定时间点t、主机内数据采集时间跨度w、以及目标网络中的主机集合HS = {H ₁, H ₂, …, H _M}，跨主机异常关联图构建步骤如下：

3-1-1) 根据步骤1-1)采集HS中每台主机在时间点t – w到t之间的系统日志数据，并为每台主机H _k构建一个实时主机内关联图rIAG _k。

3-1-2) 基于每台主机H _k的实时主机内关联图rIAG _k，根据步骤1-5)检测rIAG _k中的异常节点，并根据步骤1-6)为每台主机H _k进行异常打分。

3-1-3) 根据步骤2-1)采集时间点t – w到t之间的主机间交互图，形成主机间交互图序列D _t =<IRG _t-w, IRG _t-w+1, …, IRG _t-1>。

3-1-4) 根据步骤2-4)检测时间点t的主机间的交互异常。

3-1-5) 构建跨主机异常关联图CG；其中，每个节点p _k代表一台主机H _k；如果主机H _i和H _j间在时间点t的交互是异常的，则节点p _i和p _j间存在一条边。

3-2) 异常分数传播：采用PageRank算法对CG中每个节点的权重进行迭代式更新，步骤如下：

3-2-1) 设置CG中每个节点p _k的初始权重PR(p _k)为H _k的异常分数s _k。

3-2-2) 对CG中的每个节点p _k，根据公式(3)更新其权重。其中，d为阻尼系数，N _CG为CG中节点的数量，I(p _k)为节点p _k的所有入边对应的节点的集合，L(p _i)为节点p _i的出度。

(3)

3-2-3) 如果本次迭代之后所有节点的权重变化量小于指定阈值，或迭代次数达到指定上限，则停止迭代，否则跳转到步骤3-2-2)重新开始迭代。

3-3) 受攻击主机检测：将CG中权重高于指定阈值的节点所代表的主机确认为受攻击主机，将一对有边相连的受攻击主机确认为攻击者的横向移动。

相比与现有技术，本发明的优势在于：

(1) 通过跨主机联合网络攻击检测，使得主机内的恶意操作事件和主机间的横向移动事件互相验证，可有效降低误报率；

(2) 采用自监督的深度学习技术，无需任何实际的网络攻击训练样本。

附图说明

图1为本发明方法流程图；

图2为本发明主机内关联图节点初始特征抽取实例图；

图3为本发明主机间交互图序列实例图；

图4为本发明主机间交互图预测模型网络结构图；

图5为本发明实施例1主机内良性关联图；

图6为本发明实施例1主机间交互图序列图；

图7为本发明实施例1实时检测输入图；

图8为本发明实施例1跨主机异常关联图。

具体实施方式

下面将结合附图对本发明作进一步描述。

参考图1，一种基于跨主机异常行为识别的复杂网络攻击检测方法，包括如下步骤：

主机内异常行为检测的详细步骤如下：

1-1) 主机内良性关联图构建：针对目标网络中的每一台主机H _k，采用操作系统内核日志采集工具（如Windows系统的ETW、Linux系统的Auditd）采集主机正常运行过程中的系统日志数据，并组织成一个关联图nIAG _k（称为正常主机内关联图）；其中，nIAG _k的节点为系统实体（如进程、文件），边为系统实体之间的交互事件（如进程读文件）。

1-2) 节点初始特征抽取：对于nIAG _k中的每一个节点v _i，初始特征向量为x_i =[a _i1, a _i2, …, a _iN]；其中，a _ij为v _i在nIAG _k中与其一跳邻居节点相连的边的集合中第j种类型边的数量（边的类型一共N种）；图2给出了一个实施例，假设边的类型一共有8种，中心节点v ₀与其一跳邻居节点相连的边一共有6条（边上的数字为类型编号），则v ₀的初始特征向量为[2, 1, 1, 1, 0, 0, 0, 1]。

1-5) 主机内异常检测：首先，对于目标网络中的每台主机H _k，采集实时系统日志数据并构建关联图rIAG _k（称为实时主机内关联图）；然后，基于步骤1-2)和1-3)的方法抽取rIAG _k中每个节点的语义特征向量；最后，将rIAG _k中的每个“进程”节点v _i的语义特征向量y_i输入步骤1-4)训练好的自动编码机，得到输出的重构向量z_i；如果y_i与z_i的差异大于指定阈值，则认为v _i是异常节点。

1-6) 主机内异常打分：首先根据公式(1)计算每个异常节点v _i的异常分数，然后根据公式(2)计算主机H _k的异常分数；其中，B(H _k)代表主机H _k中异常节点的集合。

(1)

(2)

主机间异常行为检测的详细步骤如下：

2-1) 主机间交互时序图构建：针对目标网络中的所有主机，采用网络流量抓取工具采集正常运行过程中主机间网络交互的日志数据；在每一个离散的时间点t上，主机间交互图IRG _t的节点为主机，边为在时间点t – 1和t之间不同主机之间的交互。则连续时间点的主机间交互图可组织成一个主机间交互图的序列IRGS =<IRG ₁, IRG ₂, …, IRG _T>。图3给出了一个实例，时间点t ₁，用户A的主机访问域控制器主机进行身份验证；时间点t ₂，用户A的主机访问文件服务器主机。可见，不同时间点的主机间交互图的节点集合是相同的，而边集合不同。

2-3) 主机间交互图预测模型训练：基于训练集SS训练一个预测模型，根据连续w个主机间交互图预测下一个主机间交互图。

假设输入样本为S _t，则预测模型的结构如图4所示，分成如下4层：

2-4) 主机间异常检测：首先，根据步骤2-1)生成当前时间点t之前的w个主机间交互图D _t =<IRG _t-w, IRG _t-w+1, …, IRG _t-1>。然后，将D _t输入步骤2-3)训练好的预测模型，预测得到时间点t的邻接矩阵pIRA_t。最后，将pIRA_t与时间点t的真实邻接矩阵IRA_t进行比较，如果pIRA_t[i][j] = 0，而IRA_t[i][j] = 1，代表模型预测主机H _i和H _j间在时间点t应该没有交互而实际上它们间有交互，则认为主机H _i和H _j间在时间点t的交互是异常的。

3) 跨主机复杂网络攻击检测：首先根据主机内和主机间异常检测结果构建跨主机异常关联图，然后采用PageRank算法对异常分数进行传播，最后基于异常分数确认受攻击主机。

跨主机复杂网络攻击检测的详细步骤如下：

3-1-2) 基于每台主机H _k的实时主机内关联图rIAG _k，根据步骤1-5)检测rIAG _k中的异常节点，并根据步骤1-6)为每台主机H _k进行异常打分（H _k的异常分数记为s _k）。

3-1-4) 根据步骤2-4)检测时间点t的主机间的交互异常。

3-1-5) 构建跨主机异常关联图CG。其中，每个节点p _k代表一台主机H _k；如果主机H _i和H _j间在时间点t的交互是异常的，则节点p _i和p _j间存在一条边。

(3)

实施例1

给定一个包含多台主机和一个域控制器的小型网络系统，在每台主机中安装系统内核日志采集工具，在域控制器中安装网络流量抓取工具。在此基础上，本实施案例包括模型训练和实时检测两个部分，模型训练包括主机内异常行为检测模型训练和主机间异常行为检测模型训练两个部分。

1、主机内异常行为检测模型训练

(1) 使用系统内核日志采集工具采集每台主机正常工作过程中的日志数据，并根据步骤1-1)构建主机内良性关联图，如图5所示给出了一个主机内良性关联图的实例。

(2) 根据步骤1-2)抽取主机内良性关联图中节点的初始特征，假定主机内良性关联图总共有7种类型的边，即[读取, 打开, 写入, 接受, 创建, 执行, 发送]，则winword.exe节点的初始特征为[3, 1, 2, 0, 0, 0, 0]；然后，根据步骤1-3)更新所有节点的特征向量；最后，根据步骤1-4)输入所有节点的特征向量，训练一个自动编码机M ₁。

2、主机间异常行为检测模型训练

(1) 使用网络流量抓取工具采集网络系统中主机之间的交互数据，并根据步骤2-1)构建主机间交互图序列，如图6所示给出了一个主机间交互图序列的实例（图中每条边代表在该时间段内主机间发生的交互）。

(2) 根据步骤2-2)构建训练集，然后根据步骤2-3)训练一个主机间交互图预测模型M ₂。

3、实时检测

(1) 给定当前时刻t，采集[t-w, t)时间范围内每台主机的主机内关联图，以及网络系统的主机间交互图序列，作为实时检测的输入；如图7所示给出了一个实时检测输入的实例。

(2) 采用模型M ₁，根据步骤1-5)检测主机内异常，并根据步骤1-6)计算异常分数；采用模型M ₂，根据步骤2-3)检测主机间异常。假设检测到的异常交互为e ₄、e ₅、e ₆，主机3、主机4、主机5的异常分数分别为98、6、13，则根据步骤3-1-5)构建跨主机异常关联图（如图8所示）。然后，根据步骤3-2)计算得到主机3、主机4、主机5的最终异常分数，假设分别为102、18、21，则最终判定主机3为受攻击主机。

Claims

1.一种基于跨主机异常行为识别的复杂网络攻击检测方法，其特征在于，包括如下步骤：

1) 主机内异常行为检测：首先采集主机内核日志数据构建主机内关联图，然后采用图卷积网络抽取特征，最后采用自动编码机检测主机内关联图中的异常节点；

2) 主机间异常行为检测：首先采用网络流量日志数据构建主机间交互图，然后基于主机间交互图序列训练预测模型，最后根据预测差异检测主机间交互图中的异常边；

3) 跨主机网络攻击检测：首先根据主机内和主机间异常检测结果构建跨主机异常关联图，然后采用PageRank算法对异常分数进行传播，最后基于异常分数确认受攻击主机；

步骤3)中，跨主机复杂网络攻击检测的具体步骤如下：

3-1) 跨主机异常关联图构建：给定时间点t、主机内数据采集时间跨度w、以及目标网络中的主机集合HS，构建跨主机异常关联图CG；

步骤3-1）中跨主机异常关联图构建步骤如下：

3-1-1) 根据每台主机在时间点t –w到t之间的系统日志数据，构建关联图rIAG _k；

3-1-2) 基于步骤3-1-1) 中的关联图rIAG _k，根据步骤1-5)检测关联图rIAG _k中的异常节点，并根据步骤1-6)为每台主机进行异常打分，异常分数记为s _k；

3-1-3) 采集时间点t – w到t之间的主机间交互图，形成主机间交互图序列D _t = <IRG _t-w, IRG _t-w+1, …, IRG _t-1>；

3-1-4) 根据步骤2-4)检测时间点t的主机间的交互异常；

3-1-5) 构建跨主机异常关联图CG；

3-2) 异常分数传播：采用PageRank算法对跨主机异常关联图CG中每个节点的权重进行迭代式更新；

步骤3-2）具体步骤如下：

3-2-1) 设置跨主机异常关联图CG中每个节点p _k的初始权重PR(p _k)为主机H _k的异常分数s _k；

3-2-2) 对跨主机异常关联图CG中的每个节点p _k，根据公式(3)更新其权重；其中，d为阻尼系数，N _CG为CG中节点的数量，I(p _k)为节点p _k的所有入边对应的节点的集合，L(p _i)为节点p _i的出度；

（3）

3-2-3) 当本次迭代之后所有节点的权重变化量小于指定阈值，或迭代次数达到指定上限，则停止迭代，否则跳转到步骤3-2-2)重新开始迭代；

3-3) 受攻击主机检测：将跨主机异常关联图CG中权重高于指定阈值的节点所代表的主机确认为受攻击主机，将一对有边相连的受攻击主机确认为攻击者的横向移动。

2.根据权利要求1所述的一种基于跨主机异常行为识别的复杂网络攻击检测方法，其特征在于，步骤1)中，主机内异常行为检测的具体步骤如下：

1-1) 主机内良性关联图构建：采集主机正常运行过程中系统日志数据，构建关联图nIAG _k；其中，关联图nIAG _k的节点为系统实体，边为系统实体之间的交互事件；

1-2) 节点初始特征抽取：对于关联图nIAG _k中的每一个节点，初始特征向量为x_i =[a _i1, a _i2, …, a _iN]；其中，a _ij为节点在关联图nIAG _k中与其一跳邻居节点相连的边的集合中第j种类型边的数量；

1-3) 节点语义特征抽取：采用图卷积神经网络对关联图nIAG _k进行处理，更新关联图nIAG _k每个节点的特征向量，得到每个节点的语义特征向量；

1-4) 自动编码机训练：收集所有主机的关联图nIAG _k中所有进程节点的语义特征向量，将上述语义特征向量输入自动编码机进行训练，输出重构向量；

1-5) 主机内异常检测：采集实时系统日志数据构建关联图rIAG _k；抽取关联图rIAG _k中每个进程节点的语义特征向量y_i，并输入至步骤1-4)训练好的自动编码机，得到输出的重构向量z_i；当语义特征向量y_i与重构向量z_i的差异大于指定阈值，则进程节点是异常节点；

1-6) 主机内异常打分：根据公式(1)计算每个异常节点v _i的异常分数，根据公式(2)计算主机H _k的异常分数；其中，B(H _k)代表主机H _k中异常节点的集合；

（1）

（2）

3.根据权利要求2所述的一种基于跨主机异常行为识别的复杂网络攻击检测方法，其特征在于，步骤2) 中，主机间异常行为检测的具体步骤如下：

2-1) 主机间交互时序图构建：采集主机间网络交互的日志数据构建主机间交互图IRG _t；在每一个离散的时间点t上，主机间交互图IRG _t的节点为主机，边为在时间点t – 1和t之间不同主机之间的交互；则连续时间点的主机间交互图组织成主机间交互图的序列IRGS= <IRG ₁, IRG ₂, …, IRG _T>；

2-2) 训练集构建：采用窗口大小为w、步长为1的滑动窗口对主机间交互图的序列进行分割，形成训练集SS，SS中每个训练样本S _t = (D _t, L _t)；其中，D _t为S _t的数据部分，L _t 为S _t的标签部分；

2-3) 主机间交互图预测模型训练：基于训练集SS训练一个预测模型，根据连续w个主机间交互图预测下一个主机间交互图；

2-4) 主机间异常检测：根据步骤2-1)生成时间点t之前的w个主机间交互图D _t= <IRG _t-w, IRG _t-w+1, …, IRG _t-1>；将D _t输入步骤2-3)训练好的预测模型，预测得到时间点t的邻接矩阵pIRA_t；将邻接矩阵pIRA_t与时间点t的真实邻接矩阵IRA_t进行比较，判断主机H _i和主机H _j间在时间点t的交互是否异常。

4.根据权利要求3所述的一种基于跨主机异常行为识别的复杂网络攻击检测方法，其特征在于，步骤2-3）中预测模型的结构包括如下4层：

输入层：采用主机间交互图的边集合的邻接矩阵IRA_k作为输入；

卷积层：将每个IRA_k输入一个卷积神经网络，生成特征矩阵CM_k；

循环层：将连续的t个特征矩阵CM_k输入一个LSTM，生成特征矩阵RM；