CN112765603B - 一种结合系统日志与起源图的异常溯源方法 - Google Patents

一种结合系统日志与起源图的异常溯源方法 Download PDF

Info

Publication number
CN112765603B
CN112765603B CN202110122056.4A CN202110122056A CN112765603B CN 112765603 B CN112765603 B CN 112765603B CN 202110122056 A CN202110122056 A CN 202110122056A CN 112765603 B CN112765603 B CN 112765603B
Authority
CN
China
Prior art keywords
log
logs
grained
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110122056.4A
Other languages
English (en)
Other versions
CN112765603A (zh
Inventor
牛伟纳
余真奇
张小松
张润滋
李信强
赵振扉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Nsfocus Technologies Group Co Ltd
Original Assignee
University of Electronic Science and Technology of China
Nsfocus Technologies Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Nsfocus Technologies Group Co Ltd filed Critical University of Electronic Science and Technology of China
Priority to CN202110122056.4A priority Critical patent/CN112765603B/zh
Publication of CN112765603A publication Critical patent/CN112765603A/zh
Application granted granted Critical
Publication of CN112765603B publication Critical patent/CN112765603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,提出了一种结合系统日志与起源图的异常溯源方法。主旨在于解决多系统多日志类型的处理问题,主要方案包括采用起源图收集器来收集细粒度日志;(2)对收集到的系统日志进行向量化并精简细粒度日志,形成特定的五元组格式;(3)针对细粒度日志构建起源图,存储在图数据库中;(4)通过结合注意力机制的双向LSTM网络对正常日志数据特征向量进行模型训练,捕获正常日志数据之间的关系,用以检测异常日志;(5)通过检测结果结合起源图,利用时间维度给起源图中的节点分配异常度,并通过异常度来提取攻击路径,从而确定恶意攻击的源头。

Description

一种结合系统日志与起源图的异常溯源方法
技术领域
本发明涉及计算机技术领域,特别涉及计算机操作系统中恶意攻击的溯源方法。可以通过系统日志的恶意检测和使用细粒度日志构建的起源图来描述并复现恶意攻击行为,提取攻击路径。
背景技术
近年来信息技术的飞速发展,全球高级持续性威胁(APT)活动高度活跃,具有强烈政治、经济意图的相关攻击组织不断发起窃取国家机密信息或重要企业商业信息、破坏网络基础设施的攻击活动,并且具有强隐蔽性的APT行为踪迹在海量正常行为背景数据中占比较小,网络空间安全形势不容乐观。利用机器学习的算法来检测系统日志,收集系统细粒度日志构建起源图,结合检测结果和起源图有利于复现恶意攻击路径,发掘攻击模式,针对性的采取措施,并指导防御方法。
目前比较流行的针对系统日志的恶意检测与溯源研究主要有:基于图匹配的方法,通过分析日志中的实体间操作构成起源图,然后利用专门设计的图匹配算法,快速的在起源图中定位攻击源,能够克服威胁情报和起源图的节点匹配问题,然而提取起源图需要大量人工操作,很难涵盖各种形式的攻击;基于异常检测的方法,通过量化系统日志序列图中的可以程度进行检测,再利用历史统计就可以发现系统中的异常,然而很多攻击行为具有强隐蔽性,很难通过历史统计发现异常;基于标签传播的方法,通过分配标签给日志节点,设计标签传播规则,通过边缘传递来迭代计算分类,但是,根据标签的传播正常行为的进程记录也被分配给标记,造成大量的假阳性,并且给初始节点分配标签需要耗费大量人力物力,且标签的准确性有待考证。
目前比较流行的对于网络攻击组织溯源的方法主要有:分析攻击者使用的 IP地址进行溯源,分析攻击组织使用的域名信息进行溯源,分析攻击组织入侵后的行为日志进行溯源,分析攻击事件中的全流量进行溯源,分析攻击中使用的恶意代码进行溯源,或者基于威胁情报信息进行溯源等等。现有技术的缺陷在于,当获得大量攻击事件的基础设施数据时,仅仅依靠特征值匹配而弱化了实体之间具有的复杂关系,难以快速准确地定位攻击组织,溯源结果的可靠性往往也不高。
发明内容
可以发现,针对系统日志的检测方法已经成熟,但系统日志的图构建需要根据自定义的构建规则,难以发掘攻击路径。而起源图的构建是根据系统进程间信息,易发掘攻击路径,直接通过起源图进行异常检测却具有较高的复杂度。本发明的目的在于,提供一个结合系统日志与起源图的异常溯源方法,通过系统日志的检测结果结合起源图,利用时间等维度给起源图中的节点分配异常度,并通过异常度来提取攻击路径,从而确定恶意攻击的源头。
为了实现这个方案,本发明采用了如下的技术方案:
一种结合系统日志与起源图的异常溯源方法,方法包括:
步骤1:通过收集器来收集恶意攻击的粗粒度系统级日志和细粒度进程内信息流;
步骤2:对收集到的日志进行初步处理,对细粒度日志进行切片,并规范为五元组,然后对粗粒度系统日志进行向量化,提取序列的隐含表达特征向量;
步骤3:通过收集的细粒度日志构建起源图,并合并具有相同前驱节点的无后继节点,并存储在图数据库中;
步骤4:利用粗粒度系统日志的隐含表达特征向量训练一个双向LSTM网络模型,捕获正常日志之间的关系,用以检测系统中的恶意行为;
步骤5:根据步骤4中检测出的恶意行为的日志的时间维度,对步骤3中构建的起源图节点进行异常度赋权,通过计算异常度最大的路径匹配攻击路径,获取无入度的源初节点是为攻击起始节点。
上述技术方案中,步骤1中,粗粒度系统级日志为原生系统的日志,包括系统的审计日志、数据库日志、中间件日志、SFTP日志;收集器主要用来部署收集细粒度日志,包括文件创建读取、邮件发送、启动程序、浏览器访问。
上述技术方案中,步骤2中,对步骤1中收集到的细粒度日志进行初步处理,对细粒度日志进行切片,将切分日志规范为五元组;通过基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec将粗粒度系统日志进行向量化,提取序列的隐含表达特征向量。
上述技术方案中,所述的细粒度日志预处理过程,其切片为根据细粒度日志中的实体、活动来切片,
实体定义为:某个进程或者某个文件其本身的属性,如进程id,进程所属程序的版本号,文件哈希,文件类型;
活动定义为:两个实体间的访问,如某进程读取文件,某进程创建新的进程,写套接字;则一个活动可以表示为一个具有两个节点和一条有向边的简单图,其中边的起始节点为边指向节点的父节点,随后根据日志的格式将其活动信息处理为五元组,形式如:{User,Obj,Op,T,time}
其中User是该活动的操作者,也就是父节点所属的用户;Obj指的是操作的父节点的属性集合;Op则是操作的类型的集合,有写文件读写操作、浏览器访问操作;T则是日志记录的操作的目标,子节点的属性集合,time为时间维度。
上述技术方案中,所述的基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec分为四个步骤:
从日志中提取模板,将历史日志与模板匹配;
根据模板创建一个正反义词集合;
将模板中包含的词生成词向量;
把每个模板中的词对应的词向量加权平均,得到模板的向量化表示;
通过日志解析提取日志序列特征和事件数量序列特征,根据日志向量提取会话时间间隔序列特征。
上述技术方案中,向量化和特征提取部分为通过正则匹配每一条系统日志,去掉其中的数字类和冠词,最后对于每条日志都会得到由一个个英文单词组成的词序列[word1,word2,…,wordn],通过自然语言处理的词嵌入技术将每条日志的语意序列转为定长的特征向量,最终日志文件将解析为日志语意特征向量序列[vec1,vec2,…,vecn],veci是第i行日志转为的日志语意特征向量;
接着使用滑动窗口的方法,将该序列划分为多个子序列;
对于上面序列的每个小窗口,均和日志事件对应,而每个窗口的事件类型的数量分布在正常日志和异常日志中是不同的,因此我们统计每个窗口中不同日志事件类型出现的数量,构成Ci={ci(V1),ci(V2),K,ci(Vn)},其中,Ci为第i个子序列也就是一个窗口,每个元素表示为对应的日志在该序列中出现的次数,如果有w个子序列,则形成了一个w*n的计数矩阵,
还会提取会话时间间隔特征,对于属于同一会话的日志序列,提取日志输出的间隔时间作为另外的会话时间间隔特征输入到模型。
上述技术方案中,所述步骤3中,通过收集的细粒度日志构建起源图,其构建方式为:
对于每一个活动Acti为一个五元组{User,Obi,Op,T,time},在实体集合E (|E|=n)中匹配Enti=User,User∈Acti作为图中节点Enti,匹配Entj=T,T ∈Acti作为图中另一个节点Entj,并生成有向边
Figure DEST_PATH_GDA0003007175000000051
从Enti到Entj,循环这个过程,直到所有的活动都构建完成;
为了简化提取攻击路径的步骤,对每一个实体集合E中的节点在边集S中有:
如果有边
Figure BDA0002920217800000052
均有Entj,Entj+1......Entm∈E,且不存在
Figure BDA0002920217800000053
其中k=1,2,3......n,则合并Entj,Entj+1......Entm为一个节点集合Eset,边
Figure BDA0002920217800000054
合并为一条边S'i,把构建的起源图存入图数据库中。
上述技术方案中,所述步骤4中,双向LSTM网络模型输入为原始系统日志的特征向量表示C,输出为日志的异常状态;
首先,根据正常日志的特征向量,训练一个结合注意力机制的Bi-LSTM模型,即在提取特征C0之后通过计算初始状态s0与每个状态之间的相关性α当作当前输出状态s1的权重,得到新的状态C1,不断重复这个过程,得到收敛状态的α为模型的参数,在输入某些日志到模型中进行检测,当得到与正常日志不同的输出时,则判定为异常。
上述技术方案中,所述步骤5中,根据步骤4得到的系统日志检测结果,针对其中的异常日志,对构建的起源图的相应的边赋予异常度,异常度的赋予函数为:
Figure BDA0002920217800000056
其中tS为边的时间维度,t为边Si的弧头Enti的时间维度,σ为异常衰减率,threshold为时间阈值,决定了异常日志记录的时间间隔;
计算了每条边的异常度之后,找出图中以异常点为起始的最长路径即为攻击路径,该节点即为源节点,即:
Figure BDA0002920217800000061
得到的S′即为攻击路径的边集,边集中时间维度最早的无入度节点为攻击源。
上述技术方案中,参数σ和threshold根据系统日志的时间粒度来确定,在网络服务器上,时间阈值较大,在实时系统中阈值较小,一般计算为系统日志和起源图边集的时间间隔平均值,
Figure BDA0002920217800000062
其中ti为节点Enti的时间维度。
本发明同现有技术相比,其有益效果表现在:
一、通过自然语言处理的词嵌入框架来对系统粗粒度日志进行表征,克服了多系统多日志类型的处理问题;
二、通过无监督学习对系统粗粒度日志进行分类可以不依赖人为定义的标签,仅根据以往的检测结果进行反馈,能够很好的解决监督学习中需要大量人工标记的数据的问题,并且在系统的多种复杂类型中提取特征,利用无监督学习耗费的人工资源也比关键字匹配或基于关联规则的匹配的方法要少;
三、节点的异常度通过时间衰减率调整,可以减少诸如网络数据上行下载、读写大文件造成的写日志时间偏差,增高提取的攻击路径可信度;
四、利用异常节点的时间维度,可以更好的辅助起源图进行攻击路径提取,以丰富明确攻击源头和攻击路径,通过这种方法提取的路径具有较高的可解释性,并且攻击路径可以作为攻击手段的指纹便于安全人员的防御设计和后续研究。
附图说明
图1是本发明的总体框架图;
图2是本发明提供的日志检测模块示意图;
图3是本发明提供的提取攻击路径模块的示意图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
实施例
为使本发明的目的,技术方案及效果更加明确、清晰,下面参照附图并举实例来对本发明进一步详细说明。
1.日志采集
首先通过采用第三方的收集器来收集恶意攻击的粗粒度系统级日志和细粒度进程内信息流。使用诸如FUSE、PASS、Camflow等第三方的细粒度日志采集器来部署收集细粒度日志,包括文件创建读取、邮件发送、启动程序、浏览器访问等操作。而粗粒度系统级日志为系统的审计日志、数据库日志、中间件日志、SFTP(Secure File Transfer Protocol)日志等原生系统的日志。
2.日志处理
然后对收集到的粗细粒度日志进行初步处理,对细粒度日志进行切片,将切分日志规范为五元组。其切片为根据细粒度日志中的实体、活动来切片。实体(Entity)定义为:某个进程或者某个文件其本身的属性,比如进程id,进程所属程序的版本号,文件哈希,文件类型等。活动(Activity)定义为:两个实体间的访问,比如某进程读取文件,某进程创建新的进程,写套接字等。则一个活动可以表示为一个具有两个节点和一条有向边的简单图,其中边的起始节点为边指向节点的父节点。随后根据日志的格式将其活动信息处理为五元组,形式如:{User,Obj,Op,T,time}。其中User是该活动的操作者,也就是父节点所属的用户;Obj指的是操作的父节点的属性集合;Op则是操作的类型的集合,有写文件读写操作、浏览器访问操作等;T则是日志记录的操作的目标,子节点的属性集合,time为时间维度。
对粗粒度日志则通过正则匹配每一条系统日志,去掉其中的数字类和一些像 a、the等之类的冠词,最后对于每条日志都会得到由一个个英文单词组成的词序列[word1,word2,…,wordn]。通过自然语言处理的词嵌入技术将每条日志的语意序列转为定长的特征向量。最终日志文件将解析为日志语意特征向量序列 [vec1,vec2,…,vecn],veci是第i行日志转为的日志语意特征向量。
接着使用滑动窗口的方法,将该序列划分为多个子序列。
对于上面序列的每个小窗口,均和日志事件对应,而每个窗口的事件类型的数量分布在正常日志和异常日志中是不同的,因此我们统计每个窗口中不同日志事件类型出现的数量,构成Ci={ci(V1),ci(V2),K,ci(Vn)},其中,Ci为第i个子序列也就是一个窗口,每个元素表示为对应的日志在该序列中出现的次数。如果有w个子序列,则形成了一个w*n的计数矩阵。本发明中还会提取会话时间间隔特征,对于属于同一会话的日志序列,提取日志输出的间隔时间作为另外的会话时间间隔特征。
3.训练模型
根据正常日志的上述特征向量,训练一个结合注意力机制的Bi-LSTM模型,即在提取特征C0之后通过计算初始状态s0与每个状态之间的相关性α当作当前输出状态s1的权重,得到新的状态C1。不断重复这个过程,得到收敛状态的α为模型的参数。在输入某些日志到模型中进行检测,当得到与正常日志不同的输出时,则判定为异常。
4.构造起源图
对于细粒度日志中的每一个活动Acti为一个五元组{User,Obj,Op,T,time},在实体集合E(|E|=n)中匹配Enti=User,User∈Acti作为图中节点Enti,匹配En tj=T,T∈Acti作为图中另一个节点Entj,并生成有向边
Figure DEST_PATH_GDA0003007175000000091
从Enti到Entj,循环这个过程,直到所有的活动都构建完成。为了简化提取攻击路径的步骤,对每一个E中的节点在边集S中有:
如果有边
Figure BDA0002920217800000091
均有Entj,Entj+1......Entm∈E,且不存在
Figure BDA0002920217800000092
其中k=1,2,3......n,则合并Entj,Entj+1......Entm为一个节点集合Eset,边
Figure BDA0002920217800000093
合并为一条边S'i。把构建的起源图存入图数据库中。
5.提取攻击路径
根据得到的系统日志检测结果,针对其中的异常日志,对构建的起源图的相应的边赋予异常度,异常度的赋予函数为:
Figure BDA0002920217800000095
其中tS为边的时间维度,t为边Si的弧头Enti的时间维度,σ为异常衰减率,threshold为时间阈值,决定了异常日志记录的时间间隔。
参数σ和threshold需要根据系统日志的时间粒度来确定,特别的在网络服务器上,时间阈值较大,在实时系统中阈值较小,一般计算为系统日志和起源图边集的时间间隔平均值。
Figure BDA0002920217800000101
其中ti为节点Enti的时间维度。
Figure BDA0002920217800000102
在计算了每条边的异常度之后,找出图中以异常点为起始的最长路径即为攻击路径,该节点即为源节点。即:
得到的S′即为攻击路径的边集。边集中时间维度最早的无入度节点为攻击源。

Claims (7)

1.一种结合系统日志与起源图的异常溯源方法,其特征在于,方法包括:
步骤1:通过收集器来收集恶意攻击的粗粒度系统级日志和细粒度进程内信息流;
步骤2:对收集到的日志进行初步处理,对细粒度日志进行切片,并规范为五元组,然后对粗粒度系统日志进行向量化,提取序列的隐含表达特征向量;
步骤3:通过收集的细粒度日志构建起源图,并合并具有相同前驱节点的无后继节点,并存储在图数据库中;
步骤4:利用粗粒度系统日志的隐含表达特征向量训练一个双向LSTM网络模型,捕获正常日志之间的关系,用以检测系统中的恶意行为;
步骤5:根据步骤4中检测出的恶意行为的日志的时间维度,对步骤3中构建的起源图节点进行异常度赋权,通过计算异常度最大的路径匹配攻击路径,获取无入度的源初节点是为攻击起始节点;
步骤2中,对步骤1中收集到的细粒度日志进行初步处理,对细粒度日志进行切片,将切分日志规范为五元组;通过基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec将粗粒度系统日志进行向量化,提取序列的隐含表达特征向量;所述的细粒度日志预处理过程,其切片为根据细粒度日志中的实体、活动来切片,
实体定义为:某个进程或者某个文件其本身的属性,如进程id,进程所属程序的版本号,文件哈希,文件类型;
活动定义为:两个实体间的访问,如某进程读取文件,某进程创建新的进程,写套接字;则一个活动可以表示为一个具有两个节点和一条有向边的简单图,其中边的起始节点为边指向节点的父节点,随后根据日志的格式将其活动信息处理为五元组,形式如:{User,Obj,Op,T,time};
其中User是该活动的操作者,也就是父节点所属的用户;Obj指的是操作的父节点的属性集合;Op则是操作的类型的集合,有写文件读写操作、浏览器访问操作;T则是日志记录的操作的目标,子节点的属性集合,time为时间维度;
向量化和特征提取部分为通过正则匹配每一条系统日志,去掉其中的数字类和冠词,最后对于每条日志都会得到由一个个英文单词组成的词序列
Figure FDA0003511943850000021
通过自然语言处理的词嵌入技术将每条日志的语意序列转为定长的特征向量,最终日志文件将解析为日志语意特征向量序列
Figure FDA0003511943850000022
Figure FDA0003511943850000023
是第i行日志转为的日志语意特征向量;
接着使用滑动窗口的方法,将该序列划分为多个子序列;
对于上面序列的每个小窗口,均和日志事件对应,而每个窗口的事件类型的数量分布在正常日志和异常日志中是不同的,因此我们统计每个窗口中不同日志事件类型出现的数量,构成Ci={ci(V1),ci(V2),...,ci(Vn)},其中,Ci为第i个子序列也就是一个窗口,每个元素表示为对应的日志在该序列中出现的次数,如果有w个子序列,则形成了一个w*n的计数矩阵,
还会提取会话时间间隔特征,对于属于同一会话的日志序列,提取日志输出的间隔时间作为另外的会话时间间隔特征输入到模型。
2.根据权利要求1的所述一种结合系统日志与起源图的异常溯源方法,其特征在于,步骤1中,粗粒度系统级日志为原生系统的日志,包括系统的审计日志、数据库日志、中间件日志、SFTP日志;收集器主要用来部署收集细粒度日志,包括文件创建读取、邮件发送、启动程序、浏览器访问。
3.根据权利要求2所述的一种结合系统日志与起源图的异常溯源方法,其特征在于,所述的基于同义词和反义词的自然语言处理的词嵌入框架Template2Vec分为四个步骤:
从日志中提取模板,将历史日志与模板匹配;
根据模板创建一个正反义词集合;
将模板中包含的词生成词向量;
把每个模板中的词对应的词向量加权平均,得到模板的向量化表示;
通过日志解析提取日志序列特征和事件数量序列特征,根据日志向量提取会话时间间隔序列特征。
4.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法,其特征在于,所述步骤3中,通过收集的细粒度日志构建起源图,其构建方式为:
对于每一个活动
Figure FDA00035119438500000312
为一个五元组{User,Obj,Op,T,time},在实体集合E(|E|=n)中匹配
Figure FDA00035119438500000313
作为图中节点
Figure FDA0003511943850000032
匹配
Figure FDA0003511943850000033
作为图中另一个节点
Figure FDA0003511943850000034
并生成有向边
Figure FDA0003511943850000035
Figure FDA0003511943850000036
Figure FDA0003511943850000037
循环这个过程,直到所有的活动都构建完成;
为了简化提取攻击路径的步骤,对每一个实体集合E中的节点在边集S中有:
如果有边
Figure FDA0003511943850000038
均有
Figure FDA0003511943850000039
且不存在
Figure FDA00035119438500000310
其中k=1,2,3......n,则合并Entj,Entj+1......Entm为一个节点集合Eset,边
Figure FDA00035119438500000311
合并为一条边S′i,把构建的起源图存入图数据库中。
5.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法,其特征在于,所述步骤4中,双向LSTM网络模型输入为原始系统日志的特征向量表示C,输出为日志的异常状态;
首先,根据正常日志的特征向量,训练一个结合注意力机制的Bi-LSTM模型,即在提取特征C0之后通过计算初始状态s0与每个状态之间的相关性α当作当前输出状态s1的权重,得到新的状态C1,不断重复这个过程,得到收敛状态的α为模型的参数,在输入某些日志到模型中进行检测,当得到与正常日志不同的输出时,则判定为异常。
6.根据权利要求1所述的一种结合系统日志与起源图的异常溯源方法,其特征在于,所述步骤5中,根据步骤4得到的系统日志检测结果,针对其中的异常日志,对构建的起源图的相应的边赋予异常度,异常度的赋予函数为:
Figure FDA0003511943850000041
其中tS为边的时间维度,t为边Si的弧头
Figure FDA0003511943850000042
的时间维度,σ为异常衰减率,threshold为时间阈值,决定了异常日志记录的时间间隔;
计算了每条边的异常度之后,找出图中以异常点为起始的最长路径即为攻击路径,该节点即为源节点,即:
Figure FDA0003511943850000043
得到的S′即为攻击路径的边集,边集中时间维度最早的无入度节点为攻击源。
7.根据权利要求6的一种结合系统日志与起源图的异常溯源方法,其特征在于,参数σ和threshold根据系统日志的时间粒度来确定,在网络服务器上,时间阈值较大,在实时系统中阈值较小,一般计算为系统日志和起源图边集的时间间隔平均值,
Figure FDA0003511943850000044
其中ti为节点
Figure FDA0003511943850000051
的时间维度。
CN202110122056.4A 2021-01-28 2021-01-28 一种结合系统日志与起源图的异常溯源方法 Active CN112765603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110122056.4A CN112765603B (zh) 2021-01-28 2021-01-28 一种结合系统日志与起源图的异常溯源方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110122056.4A CN112765603B (zh) 2021-01-28 2021-01-28 一种结合系统日志与起源图的异常溯源方法

Publications (2)

Publication Number Publication Date
CN112765603A CN112765603A (zh) 2021-05-07
CN112765603B true CN112765603B (zh) 2022-04-05

Family

ID=75706561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110122056.4A Active CN112765603B (zh) 2021-01-28 2021-01-28 一种结合系统日志与起源图的异常溯源方法

Country Status (1)

Country Link
CN (1) CN112765603B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890821B (zh) * 2021-09-24 2023-11-17 绿盟科技集团股份有限公司 一种日志关联的方法、装置及电子设备
CN114584379B (zh) * 2022-03-07 2023-05-30 四川大学 基于优化特征提取粒度的日志异常检测方法
CN115185525B (zh) * 2022-05-17 2023-07-18 贝壳找房(北京)科技有限公司 数据倾斜代码块定位方法、装置、设备及介质
CN115296832B (zh) * 2022-06-06 2024-01-26 清华大学 应用服务端的攻击溯源方法及装置
CN115065556B (zh) * 2022-07-28 2022-11-22 国网浙江省电力有限公司 一种基于图对比学习的日志恶意行为检测方法及系统
CN115146271B (zh) * 2022-09-02 2022-11-25 浙江工业大学 一种基于因果分析的apt溯源研判方法
CN115333874B (zh) * 2022-10-18 2023-04-28 北京珞安科技有限责任公司 一种工业终端主机监测方法
CN115543951B (zh) * 2022-11-30 2023-04-07 浙江工业大学 一种基于起源图的日志采集、压缩、存储方法
CN115622802B (zh) * 2022-12-02 2023-04-07 北京志翔科技股份有限公司 攻击溯源方法、装置、设备和存储介质
CN116074092B (zh) * 2023-02-07 2024-02-20 电子科技大学 一种基于异构图注意力网络的攻击场景重构系统
CN116155626B (zh) * 2023-04-20 2023-07-25 浙江工业大学 一种基于跨主机异常行为识别的复杂网络攻击检测方法
CN116881903B (zh) * 2023-07-14 2024-02-06 暨南大学 一种面向溯源图入侵检测的恶意行为子图分级提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008053A (zh) * 2014-05-28 2014-08-27 电子科技大学 一种用于漏洞发掘的动态符号执行路径搜索方法
CN106341426A (zh) * 2016-11-11 2017-01-18 中国南方电网有限责任公司 一种防御apt攻击的方法及安全控制器
CN108712369A (zh) * 2018-03-29 2018-10-26 中国工程物理研究院计算机应用研究所 一种工业控制网多属性约束访问控制决策系统和方法
CN112269316A (zh) * 2020-10-28 2021-01-26 中国科学院信息工程研究所 一种基于图神经网络的高鲁棒性威胁狩猎系统与方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286979B (zh) * 2008-06-03 2011-02-09 电子科技大学 一种网络攻击检测方法
US10454940B2 (en) * 2016-05-11 2019-10-22 Oracle International Corporation Identity cloud service authorization model
CN107659543B (zh) * 2016-07-26 2020-12-01 北京计算机技术及应用研究所 面向云平台apt攻击的防护方法
CN107103252A (zh) * 2017-04-27 2017-08-29 电子科技大学 基于区块链的数据访问控制方法
CN107832619B (zh) * 2017-10-10 2020-12-15 电子科技大学 Android平台下应用程序漏洞自动化挖掘系统及方法
CN109861844B (zh) * 2018-12-07 2021-09-03 中国人民大学 一种基于日志的云服务问题细粒度智能溯源方法
US11520877B2 (en) * 2018-12-12 2022-12-06 Raytheon Company Resilient multi-variant execution verification
CN110704874B (zh) * 2019-09-27 2023-06-20 西北大学 一种基于数据溯源的隐私泄露防护方法
CN111523588B (zh) * 2020-04-20 2022-04-29 电子科技大学 基于改进的lstm对apt攻击恶意软件流量进行分类的方法
CN112131249B (zh) * 2020-09-28 2024-07-26 绿盟科技集团股份有限公司 一种攻击意图识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008053A (zh) * 2014-05-28 2014-08-27 电子科技大学 一种用于漏洞发掘的动态符号执行路径搜索方法
CN106341426A (zh) * 2016-11-11 2017-01-18 中国南方电网有限责任公司 一种防御apt攻击的方法及安全控制器
CN108712369A (zh) * 2018-03-29 2018-10-26 中国工程物理研究院计算机应用研究所 一种工业控制网多属性约束访问控制决策系统和方法
CN112269316A (zh) * 2020-10-28 2021-01-26 中国科学院信息工程研究所 一种基于图神经网络的高鲁棒性威胁狩猎系统与方法

Also Published As

Publication number Publication date
CN112765603A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112765603B (zh) 一种结合系统日志与起源图的异常溯源方法
Mahdavifar et al. Application of deep learning to cybersecurity: A survey
Yadav et al. A survey on log anomaly detection using deep learning
Zhang et al. Log sequence anomaly detection based on local information extraction and globally sparse transformer model
Sahu et al. Data processing and model selection for machine learning-based network intrusion detection
Yu et al. Attention-based Bi-LSTM model for anomalous HTTP traffic detection
CN113194064B (zh) 基于图卷积神经网络的webshell检测方法及装置
CN113011889A (zh) 账号异常识别方法、系统、装置、设备及介质
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
Duan et al. A Generative Adversarial Networks for Log Anomaly Detection.
Luo et al. TINET: learning invariant networks via knowledge transfer
Li et al. Large-scale malicious software classification with fuzzified features and boosted fuzzy random forest
Singh et al. User behaviour based insider threat detection in critical infrastructures
CN115514558A (zh) 一种入侵检测方法、装置、设备及介质
Wang et al. Intrusion detection using few-shot learning based on triplet graph convolutional network
CN117874662A (zh) 基于图模式的微服务日志异常检测方法
CN117938430A (zh) 基于Bert模型的Webshell检测方法
CN117170922A (zh) 日志数据分析方法、装置、终端设备以及存储介质
CN115567306B (zh) 基于双向长短时记忆网络的apt攻击溯源分析方法
Zhang et al. Web log anomaly detection based on isolated forest algorithm
Qin et al. ADSAD: An unsupervised attention-based discrete sequence anomaly detection framework for network security analysis
Bhanage et al. Improving classification-based log analysis using vectorization techniques
Zhou et al. A GMM-based anomaly IP detection model from security logs
Shao et al. Low-latency Dimensional Expansion and Anomaly Detection empowered Secure IoT Network
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Niu Weina

Inventor after: Yu Zhenqi

Inventor after: Zhang Xiaosong

Inventor after: Zhang Runzi

Inventor after: Li Xinqiang

Inventor after: Zhao Zhenfei

Inventor before: Niu Weina

Inventor before: Yu Zhenqi

Inventor before: Zhang Xiaosong

Inventor before: Zhang Zirun

Inventor before: Li Xinqiang

Inventor before: Zhao Zhenfei

GR01 Patent grant
GR01 Patent grant