CN112765603A

CN112765603A - 一种结合系统日志与起源图的异常溯源方法

Info

Publication number: CN112765603A
Application number: CN202110122056.4A
Authority: CN
Inventors: 牛伟纳; 余真奇; 张小松; 张滋润; 李信强; 赵振扉
Original assignee: University of Electronic Science and Technology of China; Nsfocus Technologies Group Co Ltd
Current assignee: University of Electronic Science and Technology of China; Nsfocus Technologies Group Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-07
Anticipated expiration: 2041-01-28
Also published as: CN112765603B

Abstract

本发明涉及计算机技术领域，提出了一种结合系统日志与起源图的异常溯源方法。主旨在于解决多系统多日志类型的处理问题，主要方案包括采用起源图收集器来收集细粒度日志；(2)对收集到的系统日志进行向量化并精简细粒度日志，形成特定的五元组格式；(3)针对细粒度日志构建起源图，存储在图数据库中；(4)通过结合注意力机制的双向LSTM网络对正常日志数据特征向量进行模型训练，捕获正常日志数据之间的关系，用以检测异常日志；(5)通过检测结果结合起源图，利用时间维度给起源图中的节点分配异常度，并通过异常度来提取攻击路径，从而确定恶意攻击的源头。

Description

一种结合系统日志与起源图的异常溯源方法

技术领域

本发明涉及计算机技术领域，特别涉及计算机操作系统中恶意攻击的溯源方法。可以通过系统日志的恶意检测和使用细粒度日志构建的起源图来描述并复现恶意攻击行为，提取攻击路径。

背景技术

近年来信息技术的飞速发展，全球高级持续性威胁(APT)活动高度活跃，具有强烈政治、经济意图的相关攻击组织不断发起窃取国家机密信息或重要企业商业信息、破坏网络基础设施的攻击活动，并且具有强隐蔽性的APT行为踪迹在海量正常行为背景数据中占比较小，网络空间安全形势不容乐观。利用机器学习的算法来检测系统日志，收集系统细粒度日志构建起源图，结合检测结果和起源图有利于复现恶意攻击路径，发掘攻击模式，针对性的采取措施，并指导防御方法。

目前比较流行的针对系统日志的恶意检测与溯源研究主要有：基于图匹配的方法，通过分析日志中的实体间操作构成起源图，然后利用专门设计的图匹配算法，快速的在起源图中定位攻击源，能够克服威胁情报和起源图的节点匹配问题，然而提取起源图需要大量人工操作，很难涵盖各种形式的攻击；基于异常检测的方法，通过量化系统日志序列图中的可以程度进行检测，再利用历史统计就可以发现系统中的异常，然而很多攻击行为具有强隐蔽性，很难通过历史统计发现异常；基于标签传播的方法，通过分配标签给日志节点，设计标签传播规则，通过边缘传递来迭代计算分类，但是，根据标签的传播正常行为的进程记录也被分配给标记，造成大量的假阳性，并且给初始节点分配标签需要耗费大量人力物力，且标签的准确性有待考证。

目前比较流行的对于网络攻击组织溯源的方法主要有：分析攻击者使用的 IP地址进行溯源，分析攻击组织使用的域名信息进行溯源，分析攻击组织入侵后的行为日志进行溯源，分析攻击事件中的全流量进行溯源，分析攻击中使用的恶意代码进行溯源，或者基于威胁情报信息进行溯源等等。现有技术的缺陷在于，当获得大量攻击事件的基础设施数据时，仅仅依靠特征值匹配而弱化了实体之间具有的复杂关系，难以快速准确地定位攻击组织，溯源结果的可靠性往往也不高。

发明内容

可以发现，针对系统日志的检测方法已经成熟，但系统日志的图构建需要根据自定义的构建规则，难以发掘攻击路径。而起源图的构建是根据系统进程间信息，易发掘攻击路径，直接通过起源图进行异常检测却具有较高的复杂度。本发明的目的在于，提供一个结合系统日志与起源图的异常溯源方法，通过系统日志的检测结果结合起源图，利用时间等维度给起源图中的节点分配异常度，并通过异常度来提取攻击路径，从而确定恶意攻击的源头。

为了实现这个方案，本发明采用了如下的技术方案：

一种结合系统日志与起源图的异常溯源方法，方法包括：

步骤1：通过收集器来收集恶意攻击的粗粒度系统级日志和细粒度进程内信息流；

步骤2：对收集到的日志进行初步处理，对细粒度日志进行切片，并规范为五元组，然后对粗粒度系统日志进行向量化，提取序列的隐含表达特征向量；

步骤3：通过收集的细粒度日志构建起源图，并合并具有相同前驱节点的无后继节点，并存储在图数据库中；

步骤4：利用粗粒度系统日志的隐含表达特征向量训练一个双向LSTM网络模型，捕获正常日志之间的关系，用以检测系统中的恶意行为；

步骤5：根据步骤4中检测出的恶意行为的日志的时间维度，对步骤3中构建的起源图节点进行异常度赋权，通过计算异常度最大的路径匹配攻击路径，获取无入度的源初节点是为攻击起始节点。

上述技术方案中，步骤1中，粗粒度系统级日志为原生系统的日志，包括系统的审计日志、数据库日志、中间件日志、SFTP日志；收集器主要用来部署收集细粒度日志，包括文件创建读取、邮件发送、启动程序、浏览器访问。

上述技术方案中，步骤2中，对步骤1中收集到的细粒度日志进行初步处理，对细粒度日志进行切片，将切分日志规范为五元组；通过基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec将粗粒度系统日志进行向量化，提取序列的隐含表达特征向量。

上述技术方案中，所述的细粒度日志预处理过程，其切片为根据细粒度日志中的实体、活动来切片，

实体定义为：某个进程或者某个文件其本身的属性，如进程id，进程所属程序的版本号，文件哈希，文件类型；

活动定义为：两个实体间的访问，如某进程读取文件，某进程创建新的进程，写套接字；则一个活动可以表示为一个具有两个节点和一条有向边的简单图，其中边的起始节点为边指向节点的父节点，随后根据日志的格式将其活动信息处理为五元组，形式如：{User，Obj，Op，T，time}

其中User是该活动的操作者，也就是父节点所属的用户；Obj指的是操作的父节点的属性集合；Op则是操作的类型的集合，有写文件读写操作、浏览器访问操作；T则是日志记录的操作的目标，子节点的属性集合，time为时间维度。

上述技术方案中，所述的基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec分为四个步骤：

从日志中提取模板，将历史日志与模板匹配；

根据模板创建一个正反义词集合；

将模板中包含的词生成词向量；

把每个模板中的词对应的词向量加权平均，得到模板的向量化表示；

通过日志解析提取日志序列特征和事件数量序列特征，根据日志向量提取会话时间间隔序列特征。

上述技术方案中，向量化和特征提取部分为通过正则匹配每一条系统日志，去掉其中的数字类和冠词，最后对于每条日志都会得到由一个个英文单词组成的词序列[word₁,word₂,…,word_n]，通过自然语言处理的词嵌入技术将每条日志的语意序列转为定长的特征向量，最终日志文件将解析为日志语意特征向量序列[vec₁,vec₂,…,vec_n]，vec_i是第i行日志转为的日志语意特征向量；

接着使用滑动窗口的方法，将该序列划分为多个子序列；

对于上面序列的每个小窗口，均和日志事件对应，而每个窗口的事件类型的数量分布在正常日志和异常日志中是不同的，因此我们统计每个窗口中不同日志事件类型出现的数量，构成C_i＝{c_i(V₁)，c_i(V₂)，K，c_i(V_n)}，其中，C_i为第i个子序列也就是一个窗口，每个元素表示为对应的日志在该序列中出现的次数，如果有w个子序列，则形成了一个w*n的计数矩阵，

还会提取会话时间间隔特征，对于属于同一会话的日志序列，提取日志输出的间隔时间作为另外的会话时间间隔特征输入到模型。

上述技术方案中，所述步骤3中，通过收集的细粒度日志构建起源图，其构建方式为：

对于每一个活动Act_i为一个五元组{User,Obi,Op,T,time}，在实体集合E (|E|＝n)中匹配Ent_i＝User,User∈Act_i作为图中节点Ent_i，匹配Ent_j＝T,T ∈Act_i作为图中另一个节点Ent_j，并生成有向边

从Ent_i到Ent_j，循环这个过程，直到所有的活动都构建完成；

为了简化提取攻击路径的步骤，对每一个实体集合E中的节点在边集S中有：

如果有边

均有Ent_j，Ent_j+1......Ent_m∈E，且不存在

其中k＝1，2，3......n，则合并Ent_j，Ent_j+1......Ent_m为一个节点集合E_set，边

合并为一条边S＇i，把构建的起源图存入图数据库中。

上述技术方案中，所述步骤4中，双向LSTM网络模型输入为原始系统日志的特征向量表示C，输出为日志的异常状态；

首先，根据正常日志的特征向量，训练一个结合注意力机制的Bi-LSTM模型，即在提取特征C₀之后通过计算初始状态s₀与每个状态之间的相关性α当作当前输出状态s₁的权重，得到新的状态C₁，不断重复这个过程，得到收敛状态的α为模型的参数，在输入某些日志到模型中进行检测，当得到与正常日志不同的输出时，则判定为异常。

上述技术方案中，所述步骤5中，根据步骤4得到的系统日志检测结果，针对其中的异常日志，对构建的起源图的相应的边赋予异常度，异常度的赋予函数为：

其中t_S为边的时间维度，t为边S_i的弧头Ent_i的时间维度，σ为异常衰减率，threshold为时间阈值，决定了异常日志记录的时间间隔；

计算了每条边的异常度之后，找出图中以异常点为起始的最长路径即为攻击路径，该节点即为源节点，即：

得到的S′即为攻击路径的边集，边集中时间维度最早的无入度节点为攻击源。

上述技术方案中，参数σ和threshold根据系统日志的时间粒度来确定，在网络服务器上，时间阈值较大，在实时系统中阈值较小，一般计算为系统日志和起源图边集的时间间隔平均值，

其中t_i为节点Ent_i的时间维度。

本发明同现有技术相比，其有益效果表现在：

一、通过自然语言处理的词嵌入框架来对系统粗粒度日志进行表征，克服了多系统多日志类型的处理问题；

二、通过无监督学习对系统粗粒度日志进行分类可以不依赖人为定义的标签，仅根据以往的检测结果进行反馈，能够很好的解决监督学习中需要大量人工标记的数据的问题，并且在系统的多种复杂类型中提取特征，利用无监督学习耗费的人工资源也比关键字匹配或基于关联规则的匹配的方法要少；

三、节点的异常度通过时间衰减率调整，可以减少诸如网络数据上行下载、读写大文件造成的写日志时间偏差，增高提取的攻击路径可信度；

四、利用异常节点的时间维度，可以更好的辅助起源图进行攻击路径提取，以丰富明确攻击源头和攻击路径，通过这种方法提取的路径具有较高的可解释性，并且攻击路径可以作为攻击手段的指纹便于安全人员的防御设计和后续研究。

附图说明

图1是本发明的总体框架图；

图2是本发明提供的日志检测模块示意图；

图3是本发明提供的提取攻击路径模块的示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

实施例

为使本发明的目的，技术方案及效果更加明确、清晰，下面参照附图并举实例来对本发明进一步详细说明。

1.日志采集

首先通过采用第三方的收集器来收集恶意攻击的粗粒度系统级日志和细粒度进程内信息流。使用诸如FUSE、PASS、Camflow等第三方的细粒度日志采集器来部署收集细粒度日志，包括文件创建读取、邮件发送、启动程序、浏览器访问等操作。而粗粒度系统级日志为系统的审计日志、数据库日志、中间件日志、SFTP(Secure File Transfer Protocol)日志等原生系统的日志。

2.日志处理

然后对收集到的粗细粒度日志进行初步处理，对细粒度日志进行切片，将切分日志规范为五元组。其切片为根据细粒度日志中的实体、活动来切片。实体(Entity)定义为：某个进程或者某个文件其本身的属性，比如进程id，进程所属程序的版本号，文件哈希，文件类型等。活动(Activity)定义为：两个实体间的访问，比如某进程读取文件，某进程创建新的进程，写套接字等。则一个活动可以表示为一个具有两个节点和一条有向边的简单图，其中边的起始节点为边指向节点的父节点。随后根据日志的格式将其活动信息处理为五元组，形式如：{User，Obj，Op，T，time}。其中User是该活动的操作者，也就是父节点所属的用户；Obj指的是操作的父节点的属性集合；Op则是操作的类型的集合，有写文件读写操作、浏览器访问操作等；T则是日志记录的操作的目标，子节点的属性集合，time为时间维度。

对粗粒度日志则通过正则匹配每一条系统日志，去掉其中的数字类和一些像 a、the等之类的冠词，最后对于每条日志都会得到由一个个英文单词组成的词序列[word₁,word₂,…,word_n]。通过自然语言处理的词嵌入技术将每条日志的语意序列转为定长的特征向量。最终日志文件将解析为日志语意特征向量序列 [vec₁,vec₂,…,vec_n]，vec_i是第i行日志转为的日志语意特征向量。

接着使用滑动窗口的方法，将该序列划分为多个子序列。

对于上面序列的每个小窗口，均和日志事件对应，而每个窗口的事件类型的数量分布在正常日志和异常日志中是不同的，因此我们统计每个窗口中不同日志事件类型出现的数量，构成C_i＝{c_i(V₁)，c_i(V₂)，K，c_i(V_n)}，其中，C_i为第i个子序列也就是一个窗口，每个元素表示为对应的日志在该序列中出现的次数。如果有w个子序列，则形成了一个w*n的计数矩阵。本发明中还会提取会话时间间隔特征，对于属于同一会话的日志序列，提取日志输出的间隔时间作为另外的会话时间间隔特征。

3.训练模型

根据正常日志的上述特征向量，训练一个结合注意力机制的Bi-LSTM模型，即在提取特征C₀之后通过计算初始状态s₀与每个状态之间的相关性α当作当前输出状态s₁的权重，得到新的状态C₁。不断重复这个过程，得到收敛状态的α为模型的参数。在输入某些日志到模型中进行检测，当得到与正常日志不同的输出时，则判定为异常。

4.构造起源图

对于细粒度日志中的每一个活动Act_i为一个五元组{User,Obj,Op,T,time}，在实体集合E(|E|＝n)中匹配Ent_i＝User,User∈Act_i作为图中节点Ent_i，匹配En t_j＝T,T∈Act_i作为图中另一个节点Ent_j，并生成有向边

从Ent_i到Ent_j，循环这个过程，直到所有的活动都构建完成。为了简化提取攻击路径的步骤，对每一个E中的节点在边集S中有：

如果有边

均有Ent_j，Ent_j+1......Ent_m∈E，且不存在

合并为一条边S＇_i。把构建的起源图存入图数据库中。

5.提取攻击路径

根据得到的系统日志检测结果，针对其中的异常日志，对构建的起源图的相应的边赋予异常度，异常度的赋予函数为：

其中t_S为边的时间维度，t为边S_i的弧头Ent_i的时间维度，σ为异常衰减率，threshold为时间阈值，决定了异常日志记录的时间间隔。

参数σ和threshold需要根据系统日志的时间粒度来确定，特别的在网络服务器上，时间阈值较大，在实时系统中阈值较小，一般计算为系统日志和起源图边集的时间间隔平均值。

其中t_i为节点Ent_i的时间维度。

在计算了每条边的异常度之后，找出图中以异常点为起始的最长路径即为攻击路径，该节点即为源节点。即：

得到的S′即为攻击路径的边集。边集中时间维度最早的无入度节点为攻击源。

Claims

1.一种结合系统日志与起源图的异常溯源方法，其特征在于，方法包括：

2.根据权利要求1的所述一种结合系统日志与起源图的异常溯源方法，其特征在于，步骤1中，粗粒度系统级日志为原生系统的日志，包括系统的审计日志、数据库日志、中间件日志、SFTP日志；收集器主要用来部署收集细粒度日志，包括文件创建读取、邮件发送、启动程序、浏览器访问。

3.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，步骤2中，对步骤1中收集到的细粒度日志进行初步处理，对细粒度日志进行切片，将切分日志规范为五元组；通过基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec将粗粒度系统日志进行向量化，提取序列的隐含表达特征向量。

4.根据权利要求3所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，所述的细粒度日志预处理过程，其切片为根据细粒度日志中的实体、活动来切片，

活动定义为：两个实体间的访问，如某进程读取文件，某进程创建新的进程，写套接字；则一个活动可以表示为一个具有两个节点和一条有向边的简单图，其中边的起始节点为边指向节点的父节点，随后根据日志的格式将其活动信息处理为五元组，形式如：{User,Obj,Op,T,time}

5.根据权利要求3所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，所述的基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec分为四个步骤：

从日志中提取模板，将历史日志与模板匹配；

根据模板创建一个正反义词集合；

将模板中包含的词生成词向量；

6.根据权利要求5所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，向量化和特征提取部分为通过正则匹配每一条系统日志，去掉其中的数字类和冠词，最后对于每条日志都会得到由一个个英文单词组成的词序列[word₁,word₂,…,word_n]，通过自然语言处理的词嵌入技术将每条日志的语意序列转为定长的特征向量，最终日志文件将解析为日志语意特征向量序列[vec₁,vec₂,…,vec_n]，vec_i是第i行日志转为的日志语意特征向量；

接着使用滑动窗口的方法，将该序列划分为多个子序列；

对于上面序列的每个小窗口，均和日志事件对应，而每个窗口的事件类型的数量分布在正常日志和异常日志中是不同的，因此我们统计每个窗口中不同日志事件类型出现的数量，构成C_i＝{c_i(V₁),c_i(V₂),…,c_i(V_n)}，其中，C_i为第i个子序列也就是一个窗口,每个元素表示为对应的日志在该序列中出现的次数，如果有w个子序列，则形成了一个w*n的计数矩阵，

7.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，所述步骤3中，通过收集的细粒度日志构建起源图，其构建方式为：

对于每一个活动Act_i为一个五元组{User,Obj,Op,T,time}，在实体集合E(|E|＝n)中匹配Ent_i＝User,User∈Act_i作为图中节点Ent_i，匹配Ent_j＝T,T∈Act_i作为图中另一个节点Ent_j，并生成有向边

从Ent_i到Ent_j，循环这个过程，直到所有的活动都构建完成；

如果有边

均有Ent_j，Ent_j+1……Ent_m∈E,且不存在

其中k＝1,2,3……n，则合并Ent_j，Ent_j+1……Ent_m为一个节点集合E_set，边

合并为一条边S'_i，把构建的起源图存入图数据库中。

8.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，所述步骤4中，双向LSTM网络模型输入为原始系统日志的特征向量表示C，输出为日志的异常状态；

9.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法，其特征在于，所述步骤5中，根据步骤4得到的系统日志检测结果，针对其中的异常日志，对构建的起源图的相应的边赋予异常度，异常度的赋予函数为：

10.根据权利要求9的一种结合系统日志与起源图的异常溯源方法，其特征在于，参数σ和threshold根据系统日志的时间粒度来确定，在网络服务器上，时间阈值较大，在实时系统中阈值较小，一般计算为系统日志和起源图边集的时间间隔平均值，

其中t_i为节点Ent_i的时间维度。