CN115473667A - 一种基于子图匹配的apt攻击序列检测方法 - Google Patents

一种基于子图匹配的apt攻击序列检测方法 Download PDF

Info

Publication number
CN115473667A
CN115473667A CN202210882361.8A CN202210882361A CN115473667A CN 115473667 A CN115473667 A CN 115473667A CN 202210882361 A CN202210882361 A CN 202210882361A CN 115473667 A CN115473667 A CN 115473667A
Authority
CN
China
Prior art keywords
attack
sequence
graph
entities
apt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210882361.8A
Other languages
English (en)
Inventor
黄章烽
甘云锋
江敏
高雁冰
赵东辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dtwave Technology Co ltd
Original Assignee
Hangzhou Dtwave Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dtwave Technology Co ltd filed Critical Hangzhou Dtwave Technology Co ltd
Priority to CN202210882361.8A priority Critical patent/CN115473667A/zh
Publication of CN115473667A publication Critical patent/CN115473667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于子图匹配的APT攻击序列检测方法,包括如下步骤:101)预处理数据步骤、102)构建溯源图步骤、103)模型训练样本获取步骤、104)模型成型、预测步骤;本发明提供了将威胁情报信息利用上,并整合日志条目提高预测准确度的一种基于子图匹配的APT攻击序列检测方法。

Description

一种基于子图匹配的APT攻击序列检测方法
技术领域
本发明涉及计算机安全领域,更具体的说,它涉及一种基于子图匹配的APT攻击序列检测方法。
背景技术
高级持续性威胁(APT,advanced persistent threat)用于描述入侵者在网络上建立长期非法存在的挖掘高度敏感数据的攻击活动。随着全球网络信息化不断的发展,APT这种新型复杂定向网络攻击所带来的威胁正在变得日益突出。APT攻击不仅能够窃取目标的数据,而且能够在整个攻击过程保持隐蔽性不被发现。
我国也是APT攻击长期的受害国之一,2008年我国军队专用的网就遭遇了美国国防部黑客的攻击,攻击者将后门植入网络从而窃取情报。近些年这些APT攻击利用0-day漏洞、自动化攻击框架、人工智能等技术加强攻击的效率和隐蔽性,使得检测、处置、追踪的难度更大。因此,针对APT攻击的防御工作研究非常重要。
目前APT攻击检测方法的检测思路主要从主机数据和网络数据角度出发,识别和发现APT攻击行为。基于主机的检测方法主要通过监控系统调用、网络访问、文件读写、进程创建、内存修改等行为,采用静态分析和动态分析的方法,检测出恶意程序进而预防APT攻击。早期基于模式匹配的方法,可以有效识别已知攻击,但是对于未知攻击的识别度较低,且规则库需要定期更新,目前更多是采用基于行为建模的检测方法。近年来,随着数据挖掘和机器学习技术的兴起,研究学者提出了多种基于机器学习和数据挖掘的检测技术。
如公开号为CN105262726A的专利公开了一种基于大数据行为序列分析的APT攻击检测方法,包括:探测用户的操作行为,构建用户操作行为序列库;优化用户操作行为序列库;基于大数据方法提取用户操作行为序列;将提取的所述用户操作行为序列与所述用户操作行为序列库中的行为序列进行匹配分析,输出匹配结果;分析所述匹配结果,输出威胁行为。本发明能够提高检测威胁的准确率,进而构建安全高效的网络主动防御体系,有效克服APT攻击对网络安全造成的威胁。
公开号为CN111447212A的专利公开了一种基于GAN的APT攻击序列的生成与检测方法,该发明针对在APT攻击的检测方向尚存在无法检测长序列攻击、历史信息关联差、未知攻击检测能力差等问题,为有效检测APT攻击并且扩充APT攻击攻击数据集,提出了一种基于GAN的APT攻击序列生成与检测方法。本发明通过生成式对抗网络的形式采用LSTM网络增加了对前后文相关联的步骤,记忆了网络流量的历史记录,对时序性数据具有较好的检测能力;通过生成模型可以利用随机噪声生成符合APT攻击特征的数据,扩充了现有APT攻击数据集。
公开号为CN112333195A的专利公开了基于多源日志关联分析的APT攻击场景还原检测方法及系统,检测方法包括收集主机的多源日志,设置新的特征参数,使用关系向量关联所有日志条目,将所有日志条目视为网络中的节点,日志条目间的关系视为节点之间的边,构建无向、有权重复杂网络图,使用标签传播算法聚类,识别出事件;再按照时间顺序将日志和事件组成长序列,挖掘出事件间逻辑关系及时间关系,生成初始子分区图并不断进行优化,得到场景图;然后学习场景图的顶点和边的矢量表达,进行聚类,对更新后的场景图,检测其新边和顶点是否异常,完成检测后,更新聚类情况,为后续检测做准备。本发明能全面、准确的还原攻击场景,防止高误报率和漏网之鱼,高效检测出APT攻击。
但是第一个专利的技术应用效果非常依赖行为序列库,人工干预多维护耗时,并且针对长序列攻击行为的检测效果较差。第二个专利利用GAN扩充了APT攻击数据并利用LSTM增强了长序列的检测能力,但未将威胁情报信息利用上。第三个专利基于多源日志关联分析及聚类方法提升检测模型的效果,但同样未将威胁情报信息利用上。
发明内容
本发明克服了现有技术的不足,提供了将威胁情报信息利用上,并整合日志条目提高预测准确度的一种基于子图匹配的APT攻击序列检测方法。
本发明的技术方案如下:
一种基于子图匹配的APT攻击序列检测方法,包括如下步骤:
101)预处理数据步骤:收集主机中系统安全告警日志、浏览器日志以及DNS日志等数据,将不同类型的日志数据统一收集处理,并将每条记录按时间排序;
102)构建溯源图步骤:基于步骤101)处理后的数据构建溯源图,并通过图剪枝、孤立顶点删除方法优化溯源图的结构;
103)模型训练样本获取步骤:在模型训练样本生成阶段,通过抽取威胁情报信息构建攻击行为查询图,利用子图匹配、邻域图提取等方法,扩充攻击序列样本的数量;
其中,基于子图匹配的攻击序列样本生成方法,其通过在步骤102)生成的溯源图中,利用子图匹配算法找出与提取的攻击子图相似的子图结构,将这些子图结构中的关键实体标注为攻击实体;
具体,攻击序列样本定义为按时间排序的一连串包含攻击实体的攻击行为,攻击序列生成过程如下:
301)从溯源图中获取所有攻击实体的集合,构建包含两个或多个实体的实体子集,其中攻击实体包含模拟的APT攻击实体以及通过子图匹配标注的攻击实体;
302)对于每个攻击实体子集,提取攻击实体子集的邻域图,以捕获所有与攻击实体存在关联关系的实体;
303)从构建的邻域图中获取按时间戳排序的攻击实体和行为,如果源节点或目标节点为攻击实体,则该行为被标记为攻击行为;
304)将提取的实体及其行为按时间戳排序转换为一个攻击序列;
104)模型成型、预测步骤:基于步骤103)生成的模型训练样本,采用深度序列网络训练APT攻击序列检测模型,评估模型的精确率、召回率以及F1值等指标;利用训练好的模型预测日志数据中是否存在APT攻击活动。
进一步的,统一收集处理成包含如下信息:ID、时间、源IP、目的IP、源端口、目的端口、行为类别、PID、PPID、进程名称、对象名称、域名和WEB对象信息等数据。
进一步的,步骤103)中的提取的攻击子图相似的子图结构,其具体采用基于威胁情报的攻击查询图抽取;
威胁情报采用文字或者结构化/半结构化的语言描述攻击的整体流程以及与该攻击相关的IOC的关系;基于威胁情报,并利用实体抽取、关系抽取、消歧等NLP相关技术,自动地提取威胁情报中攻击实体的查询子图,从而形成一个自动化更新的威胁子图库。
进一步的,还包括非攻击序列,其定义为按时间排序的一连串包含非攻击实体的攻击行为;非攻击序列同样获取溯源图中所有非攻击实体,再基于所有的非攻击实体提取其序列,并通过在每个攻击子集合中添加一个非攻击实体,以提取到一个非攻击序列。
进一步的,非攻击序列包括样本均衡方法,其通过计算非攻击序列之间的相似度,以剔除相似度较高的2个序列中的任意一个,通过这样欠采样的方式处理非攻击序列样本,使得训练样本的分布更平衡。
进一步的,步骤104)中基于APT攻击序列检测模型的检测流程具体如下:
401)实时采集各类日志数据并将其统一处理和优化生成溯源图;
402)基于威胁子图库以及安全告警日志,利用子图匹配及领域图提取的方法抽取疑似攻击行为的待识别序列;
403)基于训练好的APT攻击序列检测模型,识别待识别序列是否存在APT攻击活动,若存在则实时发出告警供安全人员排查。
本发明的优点在于:
本发明主要由训练阶段通过在主机上模拟APT攻击获取相关的日志数据,基于日志数据训练APT攻击序列检测模型;再在预测阶段,利用训练好的模型预测主机日志数据中是否存在APT攻击活动。
具体本发明通过统一收集和处理系统安全告警、浏览器以及DNS等日志,基于处理后的日志数据构建溯源图,并优化溯源图的结构。在模型训练样本生成阶段,通过抽取威胁情报信息构建攻击行为查询图,利用子图匹配、邻域图提取等方法,扩充攻击样本的数量。最后,基于深度序列网络训练APT攻击序列检测模型,从而解决上述技术问题,并提升APT攻击行为检测效果。
附图说明
图1为本发明的整理流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,本方案中未明确具体描述的部分均可采用常规技术手段实现。
如图1所述,一种基于子图匹配的APT攻击序列检测方法,包括如下步骤:
101)预处理数据步骤:收集主机中系统安全告警日志、浏览器日志以及DNS日志等数据,将不同类型的日志数据统一收集处理,并将每条记录按时间排序。统一收集处理成包含如下信息:ID、时间、源IP、目的IP、源端口、目的端口、行为类别、PID、PPID、进程名称、对象名称、域名和WEB对象等信息数据。收集所有的日志数据并处理成统一的数据格式,方便后续构建溯源图。
102)构建溯源图步骤:基于步骤101)处理后的数据抽取生成的日志数据中域名、IP地址、WEB对象等实体及其之间的关联,其他字段信息作为实体以及边的属性,从而构建有向溯源图。溯源图的优化主要通过图剪枝、孤立顶点删除等方法减少一些节点和边的数量来优化溯源图的结构。具体来说,一种图剪枝方法是消除了所有不能从攻击节点开始到达的节点和边;另一种方式是优化具有重复边的图谱结构。
103)模型训练样本获取步骤:在模型训练样本生成阶段,通过抽取威胁情报信息构建攻击行为查询图,利用子图匹配、邻域图提取等方法,扩充攻击序列样本的数量。
提取的攻击子图相似的子图结构,其具体采用基于威胁情报的攻击查询图抽取。即基于威胁情报的攻击查询图抽取,利用信息抽取等NLP相关技术,提取威胁情报中攻击实体的查询子图。
具体威胁情报一般采用文字或者结构化/半结构化的语言描述攻击的整体流程以及与该攻击相关的IOC的关系。基于威胁情报,并利用实体抽取、关系抽取、消歧等NLP相关技术,自动地提取威胁情报中攻击实体的查询子图,从而形成一个自动化更新的威胁子图库。
其中,基于子图匹配的攻击序列样本生成方法,其通过在步骤102)生成的溯源图中,利用子图匹配算法找出与提取的攻击子图相似的子图结构,将这些子图结构中的关键实体标注为攻击实体。
具体,攻击序列样本定义为按时间排序的一连串包含攻击实体的攻击行为,攻击序列生成过程如下:
301)从溯源图中获取所有攻击实体的集合,构建包含两个或多个实体的实体子集,其中攻击实体包含模拟的APT攻击实体以及通过子图匹配标注的攻击实体。
302)对于每个攻击实体子集,提取攻击实体子集的邻域图,以捕获所有与攻击实体存在关联关系的实体。
303)从构建的邻域图中获取按时间戳排序的攻击实体和行为,如果源节点或目标节点为攻击实体,则该行为被标记为攻击行为。
304)将提取的实体及其行为按时间戳排序转换为一个攻击序列。
还包括非攻击序列,其定义为按时间排序的一连串包含非攻击实体的攻击行为。非攻击序列的构建过程与攻击序列类似,非攻击序列同样获取溯源图中所有非攻击实体,再基于所有的非攻击实体提取其序列。然而,由于非攻击实体的数量非常巨大,若按攻击序列生成方法来实现这一过程,得到的非攻击序列数量将远远超过攻击序列数量,最终将误导模型的训练。为了让模型能更好地区分出活动序列的类型,通过在每个攻击子集合中添加一个非攻击实体,以提取一个非攻击序列。
其中,非攻击序列包括样本均衡方法,其通过计算非攻击序列之间的相似度,以剔除相似度较高的2个序列中的任意一个,通过这样欠采样的方式处理非攻击序列样本,使得训练样本的分布更平衡,从而提升模型推理的效果。
104)模型成型、预测步骤:基于步骤103)生成的模型训练样本,采用深度序列网络训练APT攻击序列检测模型,评估模型的精确率、召回率以及F1值等指标。利用训练好的模型预测日志数据中是否存在APT攻击活动。
基于APT攻击序列检测模型的检测流程具体如下:
401)实时采集各类日志数据并将其统一处理和优化生成溯源图。
402)基于威胁子图库以及安全告警日志,利用子图匹配及领域图提取的方法抽取疑似攻击行为的待识别序列。
403)基于训练好的APT攻击序列检测模型,识别待识别序列是否存在APT攻击活动,若存在则实时发出告警供安全人员排查。
综上所述,本方案通过引入子图匹配技术,将威胁情报信息结合进APT检测流程中,使得模型能够检测一些最新的APT攻击,在一定程度上提升了模型的泛化能力;同时这一过程也扩充了训练样本的数量,从而能够提升检测模型的识别效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (6)

1.一种基于子图匹配的APT攻击序列检测方法,其特征在于:包括如下步骤:
101)预处理数据步骤:收集主机中系统安全告警日志、浏览器日志以及DNS日志数据,将不同类型的日志数据统一收集处理,并将每条记录按时间排序;
102)构建溯源图步骤:基于步骤101)处理后的数据构建溯源图,并通过图剪枝、孤立顶点删除方法优化溯源图的结构;
103)模型训练样本获取步骤:在模型训练样本生成阶段,通过抽取威胁情报信息构建攻击行为查询图,利用子图匹配、邻域图提取等方法,扩充攻击序列样本的数量;
其中,基于子图匹配的攻击序列样本生成方法,其通过在步骤102)生成的溯源图中,利用子图匹配算法找出与提取的攻击子图相似的子图结构,将这些子图结构中的关键实体标注为攻击实体;
具体,攻击序列样本定义为按时间排序的一连串包含攻击实体的攻击行为,攻击序列生成过程如下:
301)从溯源图中获取所有攻击实体的集合,构建包含两个或多个实体的实体子集,其中攻击实体包含模拟的APT攻击实体以及通过子图匹配标注的攻击实体;
302)对于每个攻击实体子集,提取攻击实体子集的邻域图,以捕获所有与攻击实体存在关联关系的实体;
303)从构建的邻域图中获取按时间戳排序的攻击实体和行为,如果源节点或目标节点为攻击实体,则该行为被标记为攻击行为;
304)将提取的实体及其行为按时间戳排序转换为一个攻击序列;
104)模型成型、预测步骤:基于步骤103)生成的模型训练样本,采用深度序列网络训练APT攻击序列检测模型,评估模型的精确率、召回率以及F1值等指标;利用训练好的模型预测日志数据中是否存在APT攻击活动。
2.根据权利要求1所述的一种基于子图匹配的APT攻击序列检测方法,其特征在于:统一收集处理成包含如下信息:ID、时间、源IP、目的IP、源端口、目的端口、行为类别、PID、PPID、进程名称、对象名称、域名和WEB对象信息数据。
3.根据权利要求1所述的一种基于子图匹配的APT攻击序列检测方法,其特征在于:步骤103)中的提取的攻击子图相似的子图结构,其具体采用基于威胁情报的攻击查询图抽取;
威胁情报采用文字或者结构化/半结构化的语言描述攻击的整体流程以及与该攻击相关的IOC的关系;基于威胁情报,并利用实体抽取、关系抽取、消歧等NLP相关技术,自动地提取威胁情报中攻击实体的查询子图,从而形成一个自动化更新的威胁子图库。
4.根据权利要求1所述的一种基于子图匹配的APT攻击序列检测方法,其特征在于:还包括非攻击序列,其定义为按时间排序的一连串包含非攻击实体的攻击行为;非攻击序列同样获取溯源图中所有非攻击实体,再基于所有的非攻击实体提取其序列,并通过在每个攻击子集合中添加一个非攻击实体,以提取到一个非攻击序列。
5.根据权利要求4所述的一种基于子图匹配的APT攻击序列检测方法,其特征在于:非攻击序列包括样本均衡方法,其通过计算非攻击序列之间的相似度,以剔除相似度较高的2个序列中的任意一个,通过这样欠采样的方式处理非攻击序列样本,使得训练样本的分布更平衡。
6.根据权利要求1所述的一种基于子图匹配的APT攻击序列检测方法,其特征在于:步骤104)中基于APT攻击序列检测模型的检测流程具体如下:
401)实时采集各类日志数据并将其统一处理和优化生成溯源图;
402)基于威胁子图库以及安全告警日志,利用子图匹配及领域图提取的方法抽取疑似攻击行为的待识别序列;
403)基于训练好的APT攻击序列检测模型,识别待识别序列是否存在APT攻击活动,若存在则实时发出告警供安全人员排查。
CN202210882361.8A 2022-07-26 2022-07-26 一种基于子图匹配的apt攻击序列检测方法 Pending CN115473667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210882361.8A CN115473667A (zh) 2022-07-26 2022-07-26 一种基于子图匹配的apt攻击序列检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210882361.8A CN115473667A (zh) 2022-07-26 2022-07-26 一种基于子图匹配的apt攻击序列检测方法

Publications (1)

Publication Number Publication Date
CN115473667A true CN115473667A (zh) 2022-12-13

Family

ID=84367974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210882361.8A Pending CN115473667A (zh) 2022-07-26 2022-07-26 一种基于子图匹配的apt攻击序列检测方法

Country Status (1)

Country Link
CN (1) CN115473667A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116366376A (zh) * 2023-06-02 2023-06-30 湖南三湘银行股份有限公司 一种apt攻击溯源图分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116366376A (zh) * 2023-06-02 2023-06-30 湖南三湘银行股份有限公司 一种apt攻击溯源图分析方法
CN116366376B (zh) * 2023-06-02 2023-08-08 湖南三湘银行股份有限公司 一种apt攻击溯源图分析方法

Similar Documents

Publication Publication Date Title
CN108718310B (zh) 基于深度学习的多层次攻击特征提取及恶意行为识别方法
CN109347801B (zh) 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
CN111953697B (zh) 一种apt攻击识别及防御方法
Almeida et al. Analyzing Data Theft Ransomware Traffic Patterns Using BERT
CN111832019A (zh) 基于生成对抗网络的恶意代码检测方法
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN117473571B (zh) 一种数据信息安全处理方法及系统
CN112491796A (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN112333195B (zh) 基于多源日志关联分析的apt攻击场景还原检测方法及系统
CN111143838B (zh) 数据库用户异常行为检测方法
CN109670306A (zh) 基于人工智能的电力恶意代码检测方法、服务器及系统
CN107315956A (zh) 一种用于快速准确检测零日恶意软件的图论方法
CN116074092B (zh) 一种基于异构图注意力网络的攻击场景重构系统
CN116405246A (zh) 一种基于攻防结合的漏洞利用链构建技术
CN113205134A (zh) 一种网络安全态势预测方法及系统
CN117176433A (zh) 网络数据的异常行为检测系统及方法
CN115473667A (zh) 一种基于子图匹配的apt攻击序列检测方法
Jia et al. MAGIC: Detecting Advanced Persistent Threats via Masked Graph Representation Learning
CN111400713A (zh) 基于操作码邻接图特征的恶意软件族群分类方法
Suhuan et al. Android malware detection based on logistic regression and XGBoost
CN117150488A (zh) 一种基于时序分析与内存取证的离地攻击检测方法及系统
CN116248330A (zh) 一种基于因果图的网络攻击路径识别方法
CN115114627A (zh) 一种恶意软件检测方法及装置
CN111475812B (zh) 一种基于数据可执行特征的网页后门检测方法与系统
CN115051833B (zh) 一种基于终端进程的互通网络异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination