CN111953697B - 一种apt攻击识别及防御方法 - Google Patents
一种apt攻击识别及防御方法 Download PDFInfo
- Publication number
- CN111953697B CN111953697B CN202010820005.4A CN202010820005A CN111953697B CN 111953697 B CN111953697 B CN 111953697B CN 202010820005 A CN202010820005 A CN 202010820005A CN 111953697 B CN111953697 B CN 111953697B
- Authority
- CN
- China
- Prior art keywords
- attack
- apt
- file
- different targets
- subjects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1458—Denial of Service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1466—Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种APT攻击识别及防御方法,包括步骤:一、获取网络及系统日志,识别APT攻击行为;二、基于网络日志挖掘攻击主体,确定出不同目标的攻击主体;三、统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间;四、获取各个不同目标的攻击主体所期待的攻击文件类型,制造虚假的同类型文件,按照预测出的不同目标的各个攻击主体的下一次攻击时间,提供给APT攻击者,进行APT攻击防御。本发明能识别APT攻击,挖掘出APT攻击的攻击主体,预测攻击时间线,自动生成和篡改大量的错误文件混淆视听,在攻击时间线过后自动将错误文件删除,恢复文件内容信息,能从根本上解决APT攻击的问题。
Description
技术领域
本发明属于计算机网络安全技术领域,具体涉及一种APT攻击识别及防御方法。
背景技术
目前,国家机构或者大公司都经常遇到APT攻击,这种攻击目的是为了窃取高价值的保密信息或者一些产品信息内部资料等,它的攻击源有时候甚至不只来源于一种攻击主体,因为对重要机构的破坏,具有很高的利益需求,会有多个机构都具备APT攻击的动机。例如,国际上公开的攻击机构就有13个之多,每个攻击源,都有自己的目标,因此如何区别多个攻击源,并且根据不同的攻击源,针对性保护对应的内部文件内容的安全,成为一个重要的研究方向。
现有技术中,文件生成上技术还是比较成熟的,例如,申请号为201811307873.1的发明专利提出了一种文件名生成方法,所述方法包括:获取待命名文件夹中的用于管理组织样本图的病理标签图;对所述病理标签图进行标签信息提取,得到所述组织样本图对应的病人标识号;将所述病人标识号作为所述待命名文件夹的文件名,它的目标是进行病人标号的自动生成,但是目标不是用于混淆病毒攻击,因此生成内容无需全量存储和删除。
现有技术中还缺乏可靠且实用性强的APT攻击识别及防御方法。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种APT攻击识别及防御方法,本发明能够识别APT攻击,挖掘出APT攻击的攻击主体,预测攻击时间线,自动生成和篡改大量的错误文件混淆视听,在攻击时间线过后自动将错误文件删除,恢复文件内容信息,能够从根本上解决APT攻击的问题。
为解决上述技术问题,本发明采用的技术方案是:一种APT攻击识别及防御方法,该包括以下步骤:
步骤一、获取网络及系统日志,识别APT攻击行为;
步骤二、基于网络日志采用关联挖掘算法挖掘攻击主体,确定出不同目标的攻击主体;所述不同目标的攻击主体包括窃取口令攻击、社会工程伪装攻击、认证攻击、协议攻击、信息泄露攻击和拒绝服务攻击;
步骤三、根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间;
步骤四、获取各个不同目标的攻击主体所期待的攻击文件类型,制造虚假的同类型文件,按照预测出的不同目标的各个攻击主体的下一次攻击时间,提供给APT攻击者,进行APT攻击防御。
上述的一种APT攻击识别及防御方法,步骤四中制造出虚假的同类型文件后,还对虚假的同类型文件插入虚假文件标签;步骤四之后还包括步骤五、在攻击时间过了之后,删除虚假文件。
上述的一种APT攻击识别及防御方法,步骤一中所述获取网络及系统日志,识别APT攻击行为的具体过程为:
步骤1A1、收集网络及系统日志,通过网络日志获取网络链接日志记录,通过dns日志从网络及系统日志中获得相关信息数据的域名进而查询其源IP地址,针对具体某一IP地址的访问,dns日志解析其源IP地址,包括访问参数、访问内容和dns服务器的返回数据;
步骤1A2、基于DBSCAN聚类分析的日志挖掘,找出异常操作的日志,识别为APT攻击行为;具体过程为:
步骤1A21、设置当前领域相似度阈值的值为;其中,为领域相似度阈值的上限值;
步骤1A22、对网络及系统日志进行DBSCAN算法聚类,得到一组领域为的类,并将第次得到的领域为的类标记为;其中,的取值为非零自然数;
步骤1A23、提取出所有离群点;
步骤1A24、当离群点的数量小于预设的离群点数量阈值时,或者的值为时,执行步骤1A25;否则的取值减小0.1,返回执行步骤1A22;其中,为领域相似度阈值的下限值;
步骤1A25、设置的值为;
步骤1A26、对提取出的所有离群点进行DBSCAN算法聚类;
步骤1A27、将特殊的离群点作为具有攻击行为的异常日志;
步骤1A28、当还有离群点尚未完成聚到一个类时,的取值减小0.01,返回执行步骤1A26,直到全部聚类完成。
4.按照权利要求1或2所述的一种APT攻击识别及防御方法,其特征在于:步骤一中所述获取网络及系统日志,识别APT攻击行为的具体过程为:
步骤1B1、获取用户行为特征;
步骤1B2、采用深度学习算法判断用户行为的危险等级;
步骤1B3、判断用户行为的危险等级是否超过了预设的预警等级,当用户行为的危险等级超过了预警等级时,执行步骤1B4,否则,返回步骤1B1;
步骤1B4、获取当前用户前期所有操作日志,并针对当前用户访问过的操作日志,获取具有相同访问操作的过往的其他正常用户的所有操作日志;
步骤1B5、基于当前用户与其他正常用户的操作日志,进行基于操作日志的用户相似度计算,将用户相似度计算值小于预设用户相似度阈值的正常用户标记为相似用户,获得相似用户集;
步骤1B6、采用协同过滤算法判断当前用户的下一步操作,并判断该操作是否为APT攻击操作,当该操作是APT攻击操作时,将其识别为APT攻击行为。
上述的一种APT攻击识别及防御方法,步骤二中所述基于网络日志采用关联挖掘算法挖掘攻击主体,确定出不同目标的攻击主体的具体过程为:
步骤201、获取日志文件,对日志文件进行预处理和归一化处理,去除格式异常的数据;
步骤202、将日志文件输入关联挖掘算法,对日志进行关联分析计算,通过合并关联分析后的相关时间和关联IP主体,挖掘出攻击主体;
步骤203、将攻击主体区分为不同目标的攻击主体。
上述的一种APT攻击识别及防御方法,所述关联挖掘算法为FPGROW算法。
上述的一种APT攻击识别及防御方法,步骤三中所述根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间时,示采用卷积神经网络模型进行的。
上述的一种APT攻击识别及防御方法,步骤三中采用的卷积神经网络模型包括输入层、卷积层、全链接层和输出层,采用卷积神经网络模型预测不同目标的各个攻击主体的下一次攻击时间的具体过程为:
步骤301、将收集到的不同攻击主体的特征数据输入到初始化后的卷积神经网络中的输入层,输入层对所输入的数据进行多维处理,分为一维数组和二维数组,一维数组为不同攻击主体的特征数据的采样,二维数组接收一维数组发至卷积层;
步骤302、卷积层以最小化代价函数为目标进行迭代,以生成所述各个攻击主体预测神经网络,将所述各个攻击主体特征提取数据和攻击主体往常攻击的时间段特征提取数据进行融合后作为输入数据输入到卷积层,卷积层进行训练,卷积层对传入数据进行有规律的扫描,对输入数据的特征做矩阵元素乘法求和并叠加偏差量,得到不同目标的各个攻击主体的攻击时间线的训练结果,并将此训练结果传至全链接层;
步骤303、全链接层通过高阶特征完成对训练结果的可视化处理,处理后的数据传至输出层;
步骤304、输出层输出时间标签的分类标签结果,所述时间标签根据前面攻击时间进行标注,为不同目标的各个攻击主体的攻击时间线;
步骤305、根据不同目标的各个攻击主体的攻击时间线预测其下一次攻击时间。
上述的一种APT攻击识别及防御方法,步骤四中所述制造虚假的同类型文件时,采用生成对抗网络GAN技术生成文本文件,所述生成对抗网络GAN技术包括生成器模块和判别器模块两个模块,生成器模块用于生成合理的文件样本,判别器模块用于判断文件样本的正确与否;所述生成器模块生成错误的文件内容,并且依据各个不同目标的攻击主体所期待的攻击文件类型,生成不同类型的错误文件,再利用哈希函数的散列算法对错误文件进行加密,制造出虚假的同类型文件。
上述的一种APT攻击识别及防御方法,步骤四中制造出虚假的同类型文件后,对虚假的同类型文件插入虚假文件标签的具体方法为:抽取文件名,并抽取文件内容中特定部位的数据,合成为一段新文本,并取得该文本的哈希值,再将将该哈希值和该文件的地址存储到虚假文件识别数据库中,所述特定部位的数据包括文件中第234至243的字符数据。
本发明与现有技术相比具有以下优点:
1、本发明的APT攻击识别,采用DBSCAN聚类分析方法,或采用基于用户行为的协同过滤算法,都能够方便可靠地识别出APT攻击行为。
2、本发明通过关联挖掘算法挖掘出APT攻击的攻击主体,便于后续根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间。
3、本发明基于APT攻击的攻击主体行为特征,通过卷积网络结构来预测其APT攻击的攻击时间线,并预测不同目标的各个攻击主体的下一次攻击时间,为后续制造虚假的同类型文件奠定了基础。
4、本发明通过对抗网络生成技术在APT攻击的攻击时间线的时间范围内,对服务器内的文件进行自动生成和篡改,生成大量的错误文件混淆视听,使APT攻击者获取到错误的信息,误导APT的攻击,完成APT攻击的避开,让攻击主体失去攻击的意义。
5、本发明在攻击时间线过了之后服务器会自动将虚假文件删除,自动恢复正常的服务器文件和文件内容信息,使文件内容保持精准一致。
综上所述,本发明能够识别APT攻击,挖掘出APT攻击的攻击主体,预测攻击时间线,自动生成和篡改大量的错误文件混淆视听,在攻击时间线过后自动将错误文件删除,恢复文件内容信息,能够从根本上解决APT攻击的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例1和实施例3的方法流程框图。
图2为本发明实施例2和实施例4的方法流程框图。
实施方式
实施例1
如图1所示,本实施例的APT攻击识别及防御方法,包括以下步骤:
步骤一、获取网络及系统日志,识别APT攻击行为;
本实施例中,步骤一中所述获取网络及系统日志,识别APT攻击行为的具体过程为:
步骤1A1、收集网络及系统日志,通过网络日志获取网络链接日志记录,通过dns日志从网络及系统日志中获得相关信息数据的域名进而查询其源IP地址,针对具体某一IP地址的访问,dns日志解析其源IP地址,包括访问参数、访问内容和dns服务器的返回数据;
步骤1A2、基于DBSCAN聚类分析的日志挖掘,找出异常操作的日志,识别为APT攻击行为;具体过程为:
步骤1A21、设置当前领域相似度阈值的值为;其中,为领域相似度阈值的上限值;
步骤1A22、对网络及系统日志进行DBSCAN算法聚类,得到一组领域为的类,并将第次得到的领域为的类标记为;其中,的取值为非零自然数;
步骤1A23、提取出所有离群点;即噪声对象,错误的日志内容;
步骤1A24、当离群点的数量小于预设的离群点数量阈值时,或者的值为时,执行步骤1A25;否则的取值减小0.1,返回执行步骤1A22;其中,为领域相似度阈值的下限值;
步骤1A25、设置的值为;
步骤1A26、对提取出的所有离群点进行DBSCAN算法聚类;
步骤1A27、将特殊的离群点作为具有攻击行为的异常日志;
步骤1A28、当还有离群点尚未完成聚到一个类时,的取值减小0.01,返回执行步骤1A26,直到全部聚类完成。
本实施例中,所述的取值为0.7,所述的取值为0.4。
具体实施时,当领域相似度阈值的值为1时,只有记录完全相同的日志能放到一个族中;当领域相似度阈值的值为0.01时,大部分记录毫不相关的日志数据也能分到一个族中;本发明将的取值设置为0.4~0.7,即将的值取为0.7,将的值取为0.4,能够很好地满足聚类需求,将文本含义相似的日志记录放到一起,识别出具有攻击行为的异常操作日志。
DBSCAN算法聚类,是把具有密度特别高的区域划分为各个族群,且能在空间中剔除有“噪声”的区域,自动构建聚类形状,将特殊的离群点,作为具有攻击行为的异常日志,所述特殊的离群点就是异常操作的日志。
通过上面的DBSCAN算法聚类,能够分析出异常操作日志的非法操作,抽取出他们跟正常行为是具有不同点的,属于异常行为,因此就能够识别APT攻击行为。例如,这些操作显示为端口扫描,扫描时间短,间隔时间长,每秒扫描1~5次,攻击者通过扫描,下载了所需要的某些资料。通过截获异常操作日志的非法数据包,根据非法数据包的入侵深度、入侵频率获得其攻击行为。
步骤二、基于网络日志采用关联挖掘算法挖掘攻击主体,确定出不同目标的攻击主体;所述不同目标的攻击主体包括窃取口令攻击、社会工程伪装攻击、认证攻击、协议攻击、信息泄露攻击和拒绝服务攻击;
具体实施时,基于网络日志挖掘攻击主体,可以发现不同目标的攻击主体,这些攻击主体大多有不同的目标,并来自于相互关联的不同IP,采用关联挖掘算法分析日志文件中日志记录数据之间的关联,可以推算并确定出具体的不同目标的攻击主体;
本实施例中,步骤二中所述基于网络日志采用关联挖掘算法挖掘攻击主体,确定出不同目标的攻击主体的具体过程为:
步骤201、获取日志文件,对日志文件进行预处理和归一化处理,去除格式异常的数据;
步骤202、将日志文件输入关联挖掘算法,对日志进行关联分析计算,通过合并关联分析后的相关时间和关联IP主体,挖掘出攻击主体;
步骤203、将攻击主体区分为不同目标的攻击主体。
本实施例中,所述关联挖掘算法为FPGROW算法。
例如,下面的四条网络日志的样例数据:
第一条:203.195.146.132 - - [26/Apr/2020:19:29:42 +0800] "HEAD /.q=www.guangdongymcj.cn HTTP/1.1" 302 0 "-" "Mozilla/5.0
第二条:203.195.166.100 - - [26/Apr/2020:18:01:34 +0800] "HEAD /connexion.next=/%3Fq%3Dwww.guangdongymci.cn HTTP/1.1" 301 0 "-" "Mozilla/5.0
第三条:129.204.169.89 - - [26/Apr/2020:16:08:29 +0800] "HEAD /connexion/.next=/%3Fkey%3Dwww.guangdongymcn.cn HTTP/1.1" 200 0
第四条:106.11.149.42 - - [26/Apr/2020:13:16:37 +0800] "GET /static/css/fonts/LinBiolinum_RB.woff.ef5e9488b57b HTTP/1.1" 200 398960
第二条和第三条,在相近的时间点,请求了相同的数据,这说明它们的目标是一致的,因此它们的攻击主体也是一致的,可以通过关联请求了相似目标的工作主体对其进行关联,也可以根据因为攻击相似的内容目标,而将不同时间,不同IP地址的攻击主体关联起来。关联起来之后,可能会存在误判的情况,因此基于关联挖掘算法(FPGROW算法),将具有真正关联的项目算出频繁项集,以此识别出攻击主体的不同,并且挖掘出的频繁项集,构成了该攻击主体的攻击特征。
步骤二中通过关联挖掘算法可以对这些离散的攻击时间和攻击地址,进行合并关联分析,通过合并关联分析后的相关时间和关联IP主体,就能够挖掘出攻击主体,并对其进行区分。
步骤三、根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间;
本实施例中,步骤三中所述根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间时,示采用卷积神经网络模型进行的。卷积神经网络模型能够根据不同目标的攻击主体的特征数据预测出各个攻击主体的时间线并预测出下一次攻击时间。
本实施例中,步骤三中采用的卷积神经网络模型包括输入层、卷积层、全链接层和输出层,采用卷积神经网络模型预测不同目标的各个攻击主体的下一次攻击时间的具体过程为:
步骤301、将收集到的不同攻击主体的特征数据输入到初始化后的卷积神经网络中的输入层,输入层对所输入的数据进行多维处理,分为一维数组和二维数组,一维数组为不同攻击主体的特征数据的采样,二维数组接收一维数组发至卷积层;
具体实施时,不同攻击主体的特征数据包括攻击主体以前的攻击频率和攻击时间点;
步骤302、卷积层以最小化代价函数为目标进行迭代,以生成所述各个攻击主体预测神经网络,将所述各个攻击主体特征提取数据和攻击主体往常攻击的时间段特征提取数据进行融合后作为输入数据输入到卷积层,卷积层进行训练,卷积层对传入数据进行有规律的扫描,对输入数据的特征做矩阵元素乘法求和并叠加偏差量,得到不同目标的各个攻击主体的攻击时间线的训练结果,并将此训练结果传至全链接层;
步骤303、全链接层通过高阶特征完成对训练结果的可视化处理,处理后的数据传至输出层;
步骤304、输出层输出时间标签的分类标签结果,所述时间标签根据前面攻击时间进行标注,为不同目标的各个攻击主体的攻击时间线;
步骤305、根据不同目标的各个攻击主体的攻击时间线预测其下一次攻击时间。
步骤四、获取各个不同目标的攻击主体所期待的攻击文件类型,制造虚假的同类型文件,按照预测出的不同目标的各个攻击主体的下一次攻击时间,提供给APT攻击者,进行APT攻击防御。
本实施例中,步骤四中所述制造虚假的同类型文件时,采用生成对抗网络GAN技术生成文本文件,所述生成对抗网络GAN技术包括生成器模块和判别器模块两个模块,生成器模块用于生成合理的文件样本,判别器模块用于判断文件样本的正确与否;所述生成器模块生成错误的文件内容,并且依据各个不同目标的攻击主体所期待的攻击文件类型,生成不同类型的错误文件,再利用哈希函数的散列算法(即无需任何密钥,采用将数据打乱的方式)对错误文件进行加密,制造出虚假的同类型文件。
具体实施时,步骤四中所述各个不同目标的攻击主体所期待的攻击文件类型包括生成加密的错误文件,生成误导性文本内容,以及错误的账号密码信息。
步骤四中制造的虚假的同类型文件为误导文件,通过将该误导文件按照预测出的不同目标的各个攻击主体的下一次攻击时间,提供给APT攻击者,供APT攻击者攻击获取窃取,混淆了APT攻击者的视听,能够很好的保护正常文件,并且让APT攻击者得多错误信息,甚至无从下手。
实施例2
如图2所示,本实施例与实施例1不同的是:步骤四中制造出虚假的同类型文件后,还对虚假的同类型文件插入虚假文件标签;步骤四之后还包括步骤五、在攻击时间过了之后,删除虚假文件。
步骤四中制造出虚假的同类型文件后,对虚假的同类型文件插入虚假文件标签的具体方法为:抽取文件名,并抽取文件内容中特定部位的数据,合成为一段新文本,并取得该文本的哈希值,再将将该哈希值和该文件的地址存储到虚假文件识别数据库中(即数据库存储了虚假文件的具体地址和具体内容),所述特定部位的数据包括文件中第234至243的字符数据。
以上插入虚假文件标签的方法,采用的合成新文本的方法,能够有效增加破解难度。
具体实施时,所述特定部位的数据还可以是其他段落或预设字符串内的字符。当服务器或系统管理员浏览文件内容时,隐藏标签为虚假的文件内容,普通用户使用时,不隐藏内容,因此在攻击时间线期间,只要以管理员身份登录,就依然可以像往常一样操作服务器内容。这些内容,在预测到APT攻击的时候,可以很好的混淆视听。让攻击机构获取到虚假错误的信息。
由于虚假信息长期存在,会在未来给自身的使用和运维造成负担和影响,因此,服务器先记录下哪些是虚假文件后,先在攻击期进行使用,再在APT攻击结束后,自动将虚假文件删除,恢复到正常的内容,使内容保持精准一致。
其余方法均与实施例1相同。
实施例3
本实施例与实施例1不同的是:步骤一中所述获取网络及系统日志,识别APT攻击行为的具体过程为:
步骤1B1、获取用户行为特征;
具体实施时,步骤1B1中所述获取用户行为特征是对用户行为进行操作影响文件数、是否系统文件、是否保密文件、是否修改权限进行one-hot词向量的特征提取。所述one-hot词向量采用128维度的词向量进行特征提取。用户的行为特征中携带有操作行为安全等级信息,操作行为安全等级信息包括操作影响文件数、是否系统文件、是否保密文件和是否修改权限,根据这些特征进行用户行为的危险等级判断。
步骤1B2、采用深度学习算法判断用户行为的危险等级;
步骤1B2中所述采用深度学习算法判断用户行为的危险等级,是将步骤1B1中的用户行为特征进行归一化处理后,进行数据格式转换,使其适应需要的深度学习网络模型输入格式,再输入到预先训练好的的深度学习网络模型中,获得深度学习网络模型的输出,所述深度学习网络模型的输出为用户行为的危险等级。
步骤1B2中所述将步骤一中的用户行为特征进行归一化处理时,采用feature_normalize函数进行归一化处理;
步骤二中对所述深度学习网络模型进行训练时,采用pytorch框架里面的torch.nn.RNN类,通过调用RNN循环神经网络模型进行训练,训练样本为用户操作的历史数据N条,每条历史数据中均包括操作影响文件数、是否系统文件、是否保密文件、是否修改权限和危险等级。
具体实施时,所述N的取值为100万,100万条数据来源于用户的操作日志,是系统自动记录的数据,这些数据只要系统被用户操作过或者网站被用户访问,就会自动记录;从100万条数据中截取的前4条数据如表1所示:
表1 深度学习网络模型训练样本数据表
100万条数据中其余的数据结构都是一样的,在此不一一列出了。
另外,具体实施时,也可以将N条历史数据分为训练样本集,和测试样本集,或者,取N条历史数据作为训练样本集,再取另外N’条历史数据作为测试样本集,训练样本集用于构建深度学习网络模型,测试样本集用于检测深度学习网络模型,并评估深度学习网络模型的准确率;通过设置训练样本集和测试样本集,能够防止深度学习网络模型的构建过度拟合,能够保证深度学习网络模型的准确性和可行性。
步骤1B3、判断用户行为的危险等级是否超过了预设的预警等级,当用户行为的危险等级超过了预警等级时,执行步骤1B4,否则,返回步骤1B1;
具体实施时,将危险等级分为1~4级,将预警等级设定为3级,当用户行为的危险等级超过3级,即为4级时,执行步骤1B4;
步骤1B4、获取当前用户前期所有操作日志,并针对当前用户访问过的操作日志,获取具有相同访问操作的过往的其他正常用户的所有操作日志;
步骤1B4中所述所有操作日志包括用户系统操作日志,文件访问日志和网络访问日志。
所述网络访问日志的获取是采用用于对网络日志进行处理的数据处理模块完成的,所述文件访问日志的获取是将文件的访问路径转化为网络路径后采用与网络访问日志同样的方法完成的;所述数据处理模块包括数据清洗子模块、格式转换子模块、访问用户识别子模块和访问路径树的生成子模块,具体为:
所述数据清洗子模块用于对网络日志中的噪音异常进行处理,以及对链接进行补全、去除爬虫日志和去除空白错误日志;所述噪音异常包括爬虫数据、被动请求链接和异常IP访问数据;
所述格式转换子模块用于对访问来源的referer与当前请求request字段,进行格式转化并进行响应的分类;这有利于路径树的生成并可以支持不同页面的不同粒度分析;
所述访问用户识别子模块用于识别真实的用户,以及评判用户是否是同一个用户;用户浏览网站时无论登录与否,都能识别出其唯一的身份,通过cookie、ip进行识别;因为要精确的了解每一个用户的特征,还需要对其访问的内容做精确的路径生成;
所述访问路径树的生成子模块用于将处理完成的数据转化为访问路径树,存储到数据库中。
具体实施时,当不同的用户通过SSH或者其他远程登录方式访问主机时,记录用户的身份,并对用户的访问生成路径树,最终存放到数据库中;设置访问用户识别子模块,能够实现对用户的监控,有利于即使病毒获取了用户名密码,以正常用户登录,进行有权限的操作时,即使他操作违规,也可以被系统分析出来,进行相应的报警。
步骤1B5、基于当前用户与其他正常用户的操作日志,进行基于操作日志的用户相似度计算,将用户相似度计算值小于预设用户相似度阈值的正常用户标记为相似用户,获得相似用户集;
步骤1B5中所述进行基于操作日志的用户相似度计算时采用的计算公式为:
其中,表示当前用户与第个正常用户的用户相似度,用户相似度的计算值越小,表示两个用于越接近;表示当前用户,表示正常用户中的第个正常用户,的取值为1~J的自然数,J为正常用户的总数量;表示当前用户操作日志中的第个操作日志,表示其他正常用户中的第个用户的操作日志中的第个操作日志,的取值为1~n的自然数,n为选取进行用户相似度计算的当前用户操作日志的数量。
具体实施时,选取进行用户相似度计算的其他正常用户操作日志的数量与选取进行用户相似度计算的当前用户操作日志的数量相等,且均为n个。
步骤1B6、采用协同过滤算法判断当前用户的下一步操作,并判断该操作是否为APT攻击操作,当该操作是APT攻击操作时,将其识别为APT攻击行为。
步骤1B6中所述采用引入多样性因子的协同过滤算法判断当前用户的下一步操作,并判断该操作是否为APT攻击操作的具体方法为:找到相似用户集中的用户可能会操作的,而当前用户还没有操作过的操作步骤,推荐给当前用户,当推荐的操作内容,没有包含在当前用户的下一步操作内容时,将当前用户的下一步操作判断为APT攻击操作。
例如,用户A是一个正常用户,他在两天前操作过:
‘打开过一个需写权限的加密文件’userid.doc’’,
‘以ssh账号登录服务器并将该userid.doc文件上传到IP为192.168.0.3的内部服务器。’
而当前用户B也操作过‘打开过一个需写权限的加密文件’userid.doc’’,
当需要对B进行操作安全性分析时,我们需要判断,他是否上传了userid.doc文件,以及判断上传地址是否就是正常用户A用户的举动,还是它跟相似用户有很大的行为不一样。以此来判断,当前用户的操作是否为异常操作。
步骤1B6中采用了依据用户日志的操作协同过滤算法(UserCF),通过这个方法,可以判断,当推荐的操作内容,没有包含在用户的下一步操作内容时,那么该用户的下一步操作是具有不规范性的,是一种攻击行为。
其余方法均与实施例1相同。
实施例4
如图2所示,本实施例与实施例3不同的是:步骤四中制造出虚假的同类型文件后,还对虚假的同类型文件插入虚假文件标签;步骤四之后还包括步骤五、在攻击时间过了之后,删除虚假文件。
步骤四中制造出虚假的同类型文件后,对虚假的同类型文件插入虚假文件标签的具体方法为:抽取文件名,并抽取文件内容中特定部位的数据,合成为一段新文本,并取得该文本的哈希值,再将将该哈希值和该文件的地址存储到虚假文件识别数据库中(即数据库存储了虚假文件的具体地址和具体内容),所述特定部位的数据包括文件中第234至243的字符数据。
以上插入虚假文件标签的方法,采用的合成新文本的方法,能够有效增加破解难度。
具体实施时,所述特定部位的数据还可以是其他段落或预设字符串内的字符。当服务器或系统管理员浏览文件内容时,隐藏标签为虚假的文件内容,普通用户使用时,不隐藏内容,因此在攻击时间线期间,只要以管理员身份登录,就依然可以像往常一样操作服务器内容。这些内容,在预测到APT攻击的时候,可以很好的混淆视听。让攻击机构获取到虚假错误的信息。
由于虚假信息长期存在,会在未来给自身的使用和运维造成负担和影响,因此,服务器先记录下哪些是虚假文件后,先在攻击期进行使用,再在APT攻击结束后,自动将虚假文件删除,恢复到正常的内容,使内容保持精准一致。
其余方法均与实施例3相同。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (8)
1.一种APT攻击识别及防御方法,其特征在于,该方法包括以下步骤:
步骤一、获取网络及系统日志,识别APT攻击行为;
步骤二、基于网络日志采用关联挖掘算法挖掘攻击主体,确定出不同目标的攻击主体;所述不同目标的攻击主体包括窃取口令攻击、社会工程伪装攻击、认证攻击、协议攻击、信息泄露攻击和拒绝服务攻击;
步骤三、根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间;
步骤四、获取各个不同目标的攻击主体所期待的攻击文件类型,制造虚假的同类型文件,按照预测出的不同目标的各个攻击主体的下一次攻击时间,提供给APT攻击者,进行APT攻击防御;
步骤一中所述获取网络及系统日志,识别APT攻击行为的具体过程为:
步骤1A1、收集网络及系统日志,通过网络日志获取网络链接日志记录,通过dns日志从网络及系统日志中获得相关信息数据的域名进而查询其源IP地址,针对具体某一IP地址的访问,dns日志解析其源IP地址,包括访问参数、访问内容和dns服务器的返回数据;
步骤1A2、基于DBSCAN聚类分析的日志挖掘,找出异常操作的日志,识别为APT攻击行为;
其中,步骤一中所述获取网络及系统日志,识别APT攻击行为的具体过程为:
步骤1B1、获取用户行为特征;
步骤1B2、采用深度学习算法判断用户行为的危险等级;
步骤1B3、判断用户行为的危险等级是否超过了预设的预警等级,当用户行为的危险等级超过了预警等级时,执行步骤1B4,否则,返回步骤1B1;
步骤1B4、获取当前用户前期所有操作日志,并针对当前用户访问过的操作日志,获取具有相同访问操作的过往的其他正常用户的所有操作日志;
步骤1B5、基于当前用户与其他正常用户的操作日志,进行基于操作日志的用户相似度计算,将用户相似度计算值小于预设用户相似度阈值的正常用户标记为相似用户,获得相似用户集;
步骤1B6、采用协同过滤算法判断当前用户的下一步操作,并判断该操作是否为APT攻击操作,当该操作是APT攻击操作时,将其识别为APT攻击行为。
2.按照权利要求1所述的一种APT攻击识别及防御方法,其特征在于:步骤四中制造出虚假的同类型文件后,还对虚假的同类型文件插入虚假文件标签;步骤四之后还包括步骤五、在攻击时间过了之后,删除虚假文件。
3.按照权利要求1或2所述的一种APT攻击识别及防御方法,其特征在于:步骤二中所述基于网络日志采用关联挖掘算法挖掘攻击主体,确定出不同目标的攻击主体的具体过程为:
步骤201、获取日志文件,对日志文件进行预处理和归一化处理,去除格式异常的数据;
步骤202、将日志文件输入关联挖掘算法,对日志进行关联分析计算,通过合并关联分析后的相关时间和关联IP主体,挖掘出攻击主体;
步骤203、将攻击主体区分为不同目标的攻击主体。
4.按照权利要求3所述的一种APT攻击识别及防御方法,其特征在于:所述关联挖掘算法为FPGROW算法。
5.按照权利要求1或2所述的一种APT攻击识别及防御方法,其特征在于:步骤三中所述根据不同目标的攻击主体的分类,统计不同目标的各个攻击主体的攻击时间线,预测不同目标的各个攻击主体的下一次攻击时间时,是采用卷积神经网络模型进行的。
6.按照权利要求5所述的一种APT攻击识别及防御方法,其特征在于:步骤三中采用的卷积神经网络模型包括输入层、卷积层、全链接层和输出层,采用卷积神经网络模型预测不同目标的各个攻击主体的下一次攻击时间的具体过程为:
步骤301、将收集到的不同攻击主体的特征数据输入到初始化后的卷积神经网络中的输入层,输入层对所输入的数据进行多维处理,分为一维数组和二维数组,一维数组为不同攻击主体的特征数据的采样,二维数组接收一维数组发至卷积层;
步骤302、卷积层以最小化代价函数为目标进行迭代,以生成所述各个攻击主体预测神经网络,将所述各个攻击主体特征提取数据和攻击主体往常攻击的时间段特征提取数据进行融合后作为输入数据输入到卷积层,卷积层进行训练,卷积层对传入数据进行有规律的扫描,对输入数据的特征做矩阵元素乘法求和并叠加偏差量,得到不同目标的各个攻击主体的攻击时间线的训练结果,并将此训练结果传至全链接层;
步骤303、全链接层通过高阶特征完成对训练结果的可视化处理,处理后的数据传至输出层;
步骤304、输出层输出时间标签的分类标签结果,所述时间标签根据前面攻击时间进行标注,为不同目标的各个攻击主体的攻击时间线;
步骤305、根据不同目标的各个攻击主体的攻击时间线预测其下一次攻击时间。
7.按照权利要求1或2所述的一种APT攻击识别及防御方法,其特征在于:步骤四中所述制造虚假的同类型文件时,采用生成对抗网络GAN技术生成文本文件,所述生成对抗网络GAN技术包括生成器模块和判别器模块两个模块,生成器模块用于生成合理的文件样本,判别器模块用于判断文件样本的正确与否;所述生成器模块生成错误的文件内容,并且依据各个不同目标的攻击主体所期待的攻击文件类型,生成不同类型的错误文件,再利用哈希函数的散列算法对错误文件进行加密,制造出虚假的同类型文件。
8.按照权利要求2所述的一种APT攻击识别及防御方法,其特征在于:步骤四中制造出虚假的同类型文件后,对虚假的同类型文件插入虚假文件标签的具体方法为:抽取文件名,并抽取文件内容中特定部位的数据,合成为一段新文本,并取得该文本的哈希值,再将该哈希值和该文件的地址存储到虚假文件识别数据库中,所述特定部位的数据包括文件中第234至243的字符数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010820005.4A CN111953697B (zh) | 2020-08-14 | 2020-08-14 | 一种apt攻击识别及防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010820005.4A CN111953697B (zh) | 2020-08-14 | 2020-08-14 | 一种apt攻击识别及防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111953697A CN111953697A (zh) | 2020-11-17 |
CN111953697B true CN111953697B (zh) | 2023-08-18 |
Family
ID=73343314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010820005.4A Active CN111953697B (zh) | 2020-08-14 | 2020-08-14 | 一种apt攻击识别及防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111953697B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561197B (zh) * | 2020-12-23 | 2022-08-23 | 国网江苏省电力有限公司南京供电分公司 | 一种带有主动防御影响范围的电力数据预取与缓存方法 |
CN113807862A (zh) * | 2021-01-29 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 访问安全控制方法、装置、设备及存储介质 |
CN113886814A (zh) * | 2021-09-29 | 2022-01-04 | 深信服科技股份有限公司 | 一种攻击检测方法及相关装置 |
CN114172881B (zh) * | 2021-11-19 | 2023-08-04 | 上海纽盾科技股份有限公司 | 基于预测的网络安全验证方法、装置及系统 |
CN114553588B (zh) * | 2022-03-07 | 2022-11-08 | 鼎惠(上海)科技有限公司 | 一种基于人工智能的互联网金融数据防护方法及服务器 |
CN114760140A (zh) * | 2022-04-21 | 2022-07-15 | 湖南三湘银行股份有限公司 | 一种基于聚类分析的apt攻击溯源图分析方法及装置 |
CN115225308B (zh) * | 2022-05-17 | 2024-03-12 | 国家计算机网络与信息安全管理中心 | 大规模群体攻击流量的攻击团伙识别方法及相关设备 |
CN116319075B (zh) * | 2023-05-15 | 2023-08-15 | 青岛良谦智能科技有限公司 | 一种基于云计算的保密通信交互系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1705938A (zh) * | 2002-10-22 | 2005-12-07 | 崔云虎 | 信息基础结构的综合攻击事故应对系统及其运营方法 |
CN110381045A (zh) * | 2019-07-09 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 攻击操作的处理方法和装置、存储介质及电子装置 |
CN110636076A (zh) * | 2019-10-12 | 2019-12-31 | 北京安信天行科技有限公司 | 一种主机攻击检测方法及系统 |
CN110809010A (zh) * | 2020-01-08 | 2020-02-18 | 浙江乾冠信息安全研究院有限公司 | 威胁信息处理方法、装置、电子设备及介质 |
CN111030974A (zh) * | 2019-03-29 | 2020-04-17 | 北京安天网络安全技术有限公司 | 一种apt攻击事件检测方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9866580B2 (en) * | 2016-02-09 | 2018-01-09 | International Business Machines Corporation | Forecasting and classifying cyber-attacks using neural embeddings |
-
2020
- 2020-08-14 CN CN202010820005.4A patent/CN111953697B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1705938A (zh) * | 2002-10-22 | 2005-12-07 | 崔云虎 | 信息基础结构的综合攻击事故应对系统及其运营方法 |
CN111030974A (zh) * | 2019-03-29 | 2020-04-17 | 北京安天网络安全技术有限公司 | 一种apt攻击事件检测方法、装置及存储介质 |
CN110381045A (zh) * | 2019-07-09 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 攻击操作的处理方法和装置、存储介质及电子装置 |
CN110636076A (zh) * | 2019-10-12 | 2019-12-31 | 北京安信天行科技有限公司 | 一种主机攻击检测方法及系统 |
CN110809010A (zh) * | 2020-01-08 | 2020-02-18 | 浙江乾冠信息安全研究院有限公司 | 威胁信息处理方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111953697A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111953697B (zh) | 一种apt攻击识别及防御方法 | |
Noor et al. | A machine learning-based FinTech cyber threat attribution framework using high-level indicators of compromise | |
CN109347801B (zh) | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | |
CN112738126B (zh) | 基于威胁情报和att&ck的攻击溯源方法 | |
Hosseini et al. | Anomaly process detection using negative selection algorithm and classification techniques | |
CN111931173A (zh) | 一种基于apt攻击意图的操作权限控制方法 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
EP3705974B1 (en) | Classification device, classification method, and classification program | |
CN112637108A (zh) | 一种基于异常检测和情感分析的内部威胁分析方法及系统 | |
Teoh et al. | Analyst intuition based Hidden Markov Model on high speed, temporal cyber security big data | |
EP4024252B1 (en) | A system and method for identifying exploited cves using honeypots | |
CN105069158B (zh) | 数据挖掘方法及系统 | |
Wass et al. | Prediction of cyber attacks during coronavirus pandemic by classification techniques and open source intelligence | |
Luz et al. | Data preprocessing and feature extraction for phishing URL detection | |
Mohamed et al. | Alert correlation using a novel clustering approach | |
CN111970272A (zh) | 一种apt攻击操作识别方法 | |
Gupta et al. | Security measures in data mining | |
Lee et al. | Multimodal Large Language Models for Phishing Webpage Detection and Identification | |
CN115473667A (zh) | 一种基于子图匹配的apt攻击序列检测方法 | |
Kayarkar et al. | Mining frequent sequences for emails in cyber forensics investigation | |
Awan et al. | Detection of malicious executables using static and dynamic features of portable executable (pe) file | |
Shahela et al. | AI-Assisted Digital Forensics for Securing Industry 4.0 Assets | |
Seufitelli et al. | Where do Databases and Digital Forensics meet? A Comprehensive Survey and Taxonomy | |
Vlachos et al. | A social network analysis tool for uncovering cybersecurity threats | |
KR102592624B1 (ko) | 사회이슈형 사이버 표적공격의 대응을 위한 인공지능 기법을 이용한 위협 헌팅 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |