CN111212053A - 一种面向工控蜜罐的同源攻击分析方法 - Google Patents

一种面向工控蜜罐的同源攻击分析方法 Download PDF

Info

Publication number
CN111212053A
CN111212053A CN201911381260.7A CN201911381260A CN111212053A CN 111212053 A CN111212053 A CN 111212053A CN 201911381260 A CN201911381260 A CN 201911381260A CN 111212053 A CN111212053 A CN 111212053A
Authority
CN
China
Prior art keywords
attack
honeypot
grained
homologous
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911381260.7A
Other languages
English (en)
Other versions
CN111212053B (zh
Inventor
陈永乐
马垚
杨玉丽
于丹
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Xingze Huilian Technology Co ltd
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201911381260.7A priority Critical patent/CN111212053B/zh
Publication of CN111212053A publication Critical patent/CN111212053A/zh
Application granted granted Critical
Publication of CN111212053B publication Critical patent/CN111212053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种面向工控蜜罐的同源攻击分析方法,通过攻击者物理位置特征,引入粗粒度和细粒度的攻击行为特征,将攻击者信息转化为一组多维攻击行为特征向量。根据攻击者粗粒度攻击信息使用Canopy法找到最优K值,再依据攻击者细粒度攻击信息使用改进的K‑means聚类方法,将其欧式距离相近的攻击者或攻击组织确定为同源攻击。通过本发明,能够将同源攻击者的行为特征建模为基于功能码序列的特征向量,适用于诸多具有功能码特征的工控协议蜜罐数据分析;针对蜜罐数据同一攻击源判定验证较难的问题提供验证方法,对于未知的一些企业扫描器或攻击者,使用开源滥用IP数据库查询,其余未知攻击者传统攻击者信息进行验证。

Description

一种面向工控蜜罐的同源攻击分析方法
技术领域
本发明属于工控安全领域,涉及工控蜜罐数据分析,尤其涉及一种面向工控蜜罐同源攻击分析方法。
背景技术
攻击者溯源的研究主要依赖于IP溯源技术,IP溯源技术作为网络安全主动防护的关键手段,主流方法包括:概率包标记溯源法和日志溯源法。概率包分组标记技术将标识信息(如IP 地址)写入到转发分组的头域(标记域)中,然后受害者从收到的分组中找回标记信息,并最终确定攻击路径。日志溯源法是路由器在转发分组前,记录分组相关的信息,然后基于记录信息对攻击路径进行重构。然而,设备的修改以及日志格式的不统一,使得传统的IP溯源技术成本开销、误报率高,可操作性不强。工控蜜罐技术能够对攻击者行为进行分析,通过搜集信息来进来分析工控系统攻击者的行为,包括攻击方式、攻击手段、系统漏洞探测等。Glastopf发布了第一个开源工控蜜罐框架Conpot,包含Http等互联网协议和Modbus、S7comm等工控协议,实现了协议栈上的请求-应答交互,这是使用量最大、范围最广的工控蜜罐框架。Juan Guarnizo实现了一种基于物联网设备的蜜网系统,利用重定向技术建立起云端代理节点与本地真实设备间的映射,实现了大规模云端蜜罐节点的轻量化部署,大大提升了蜜罐的交互能力和仿真度(Guarnizo J D, Tambe A and Bunia S S,SIPHON: Towards Scalable High-Interaction Physical Honeypots, Proc. of CPSS,2017)。对于蜜罐数据中攻击者行为的分析依赖于攻击特征的提取, Honeycomb作为Honeyd蜜罐的扩展模块而实现,提出了利用蜜罐捕获数据进行攻击特征提取的基础方法,但并未考虑应用层协议语义信息,会提取出无效特征。这些特征提取技术都是对传统协议蜜罐的原始数据包进行特征提取和聚类,而没有基于工控协议数据特性的攻击特征提取方法。在此基础上的攻击行为相似性分析能够识别出攻击者的组织特性,有助于更加全面的对攻击者进行溯源。Yinzhi Cao等人提出的浏览器指纹技术,基于操作系统和硬件层次的特征,包括显卡、CPU信息等进行攻击者追踪识别(Y. Cao, S. Li, and E. Wijmans, (Cross-)Browser Fingerprinting via OS and Hardware Level Features, Proc. of NDSS,2017);Jia等使用Micro-Honeypot框架内浏览器指纹来追踪攻击者,提出一种指纹关联算法,将浏览器中cookie、IP信息和指纹进行关联,生成字符串并进行比较,确定同源攻击者(Jia Z , Cui X and Liu Q, Micro-Honeypot: Using Browser Fingerprinting toTrack Attackers, Proc. of IEEE DSC, 2018)。然而,这些同源攻击判断方法只能完成特定修改后的蜜罐的攻击数据,具体方法及原理在工控蜜罐上并不适用,也不能找出针对工控蜜罐的同源攻击者或攻击组织。
发明内容
本发明的目的在于避免现有技术的不足之处而提供一种面向工控蜜罐同源攻击分析方法。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种面向工控蜜罐同源攻击分析方法,包括:
1)基于Conpot蜜罐框架,构造Modbus工控协议蜜罐,并分布式部署在互联网上,进行数据收集;根据Conpot蜜罐框架进行数据预处理,减少无用信息,将处理结果格式统一;
2)依据物理位置信息,如果两个攻击者具有相同的物理位置信息则直接判断为同源攻击,否则进行攻击行为判断;
3)对数据进行粗粒度特征选择,选取的特征包括功能码类型占比、攻击频率以及稀有评级占比;根据粗粒度特征使用Canopy聚类方法,产生类簇之特点,计算粗粒度条件下的K值,进行粗粒度特征聚类;
4)依据基于功能码序列的攻击行为特征处理方法,进行细粒度特征提取,生成一组包含功能码序列特征的向量;
5)依据粗粒度聚类结果,将攻击者细粒度信息特征在类簇内进行二次聚类;根据基于改进的K-means聚类算法,着重对离群点和噪声数据的处理;通过二次聚类,生成新的类簇,将同一类簇的攻击者识别为同源攻击;
6)引入轮廓系数来体现簇内数据的紧凑程度和簇间距离的分离程度,簇内紧凑、簇间分离则会体现出聚类方法有较好的性能;
7)采用反向DNS和开源威胁情报库结合的方法,进行数据验证;除去一部分可以进行DNS逆向查找源信息的开源扫描组织ip,其余攻击源ip根据部分威胁情报库的记录,进行标签标定,并对同一簇内攻击者信息进行比对,找到同源攻击者或攻击组织。
步骤1)中蜜罐数据经已部署的、长期的、分布式蜜罐收集。预处理结果为单一IP下,包括时间戳、功能码等在内的各项基本信息。
所述蜜罐类型为工控蜜罐。
所述步骤2)物理位置信息包括:基于IP的在线反向DNS服务、Python geoip2库以及响应包字段值。
所述步骤3)粗粒度特征包含:功能码类型占比、攻击频率和稀有评级占比。粗粒度特征的公式如下:
Typei= Tfunc/Ttotal (1)
Frequ encyi= Numberi/Timei (2)
RareRatioi= Degreei/Degreemax (3)
式(1)功能码类型占比介绍了某一功能码序列中,占所有蜜罐数据出现的功能码的比例,其中,Typei代表功能码序列i的功能码类型占比,Tfunc代表功能码序列中出现的功能码类型个数,Ttotal表示整体蜜罐数据中出现的功能码类型个数。式(2)攻击频率则是体现一个功能码序列中的时间特征,其中,Frequencyi代表功能码序列i的攻击频率,Numberi代表序列中功能码数量,Timei代表序列交互总时长。式(3)稀有评级占比则体现所有蜜罐数据中不同功能码出现的频率,频率高者稀有评级相应降低。其中,RareRatioi表示稀有占比,Degreei表示功能码序列i中的最高稀有评级,Degreemax表示整体数据中最高评级,设定为5。
所述步骤3)使用Canopy聚类方法生成的k值为4,意为粗粒度特征将全部攻击者分为4个类簇,后续细粒度特征下操作基于此4个类簇中进行二次聚类。
所述步骤4)中,细粒度特征处理方法依据数据中功能码出现的类型,分为0x01、0x07、0x11、0x2b和0x5a五种。依据每两个功能码类型为一种组合,生成共25维固定顺序的向量,其每一维的值为此种组合占比。维度和向量的表示分别如下(4)、(5)所示。
dim = (0101, 0107, 0111, …, 5a5a) (4)
vector = (P0101, P0107, P0111 …P5a5a ) (5)
所述步骤5)改进后K-means聚类算法改进部分如下:
为了得到更好的轮廓系数、更好的聚类性能和结果,提出收缩因子(0≤α≤1)。当α = 1时,不进行离群点收缩处理;当α = 0时,将离群点收缩至质心。此外,采取迭代模式,针对收缩因子的值进行迭代,寻求更好的聚类精度。收缩因子α的迭代取值遵循α = arctan(x)+1,以降低生成粗糙集时随机质心对离群点的判断误差。收缩因子α的目的是,如果其聚类结果相较于不收缩的情况没有增强,则尝试将离群点数据收缩至另一相邻分区,再进行精度判断;
迭代每次处理一个离群点,根据其质心位置的变化,离群数据会发生改变,直至迭代结束。一次内层迭代结束标志为当产生更优的聚类精度,或各质心点遍历完全而没有产生更优的聚类结果。
所述步骤6)对于轮廓系数,数据集中的每个对象O,计算对象O与O所属的簇内其他对象之间的平均距离为A(O),而B(O)是指对象O到不包含O的所有簇的最小平均距离。
轮廓系数定义为:
Figure DEST_PATH_IMAGE002
(6)
轮廓系数的值在-1和1之间。A(O)的值反映对象O所属簇的紧凑性,该值越小,则表明簇越紧凑。B(O)的值体现对象O与其他簇的分离程度,该值越大,O与其他簇越分离。当O的轮廓系数值接近1时,包含O的簇是紧凑的,并且O远离其他簇,这是一种较好的情况。而当轮廓系数的值为负时,这意味对象O距离其他簇的对象比距离与自己同在簇的对象更近,这也体现了较差的聚类性能。
所述步骤7)开源威胁情报库包括:AbuseIPDB(https://www.abuseipdb.com/)、ipvoid (https://www.ipvoid.com/ip-blacklist-check/)和IBM公司开源威胁情报库IBMX-Force Exchange (https://exchange.xforce.ibmcloud.com/ip/)。这些威胁情包库可以对滥用IP进行记录(通常包括:与可疑主机公司、僵尸网络、被黑客入侵的服务器或其他由黑客控制的机器相关的IP地址)、将网络中自动化软件扫描和攻击事件进行存储,而IBM情报分析可以找到在近5年内,某一IP的活动情况,包括其何时被识别为扫描IP,何时自动运行木马、是否运行恶意软件,例如shodan的日常探测扫描就被记录在案。结合DNS反向解析的结果,找到一部分可以用于数据验证的攻击者组织。
和现有技术相比,本发明的面向工控蜜罐的同源攻击分析方法通过攻击者物理位置特征,引入粗粒度和细粒度的攻击行为特征,将攻击者信息转化为一组多维攻击行为特征向量。根据攻击者粗粒度攻击信息使用Canopy法找到最优K值,再依据攻击者细粒度攻击信息使用改进的K-means聚类方法,将其欧式距离相近的攻击者或攻击组织确定为同源攻击。通过本发明,能够分析同一协议蜜罐的攻击者的信息和攻击行为特征,判断同源攻击者,通过基于功能码序列特征向量提取方法,将同源攻击者的行为特征建模为基于功能码序列的特征向量,适用于诸多具有功能码特征的工控协议蜜罐数据分析;针对蜜罐数据同一攻击源判定验证较难的问题,提供了一个可行的验证方法,于大型设备扫描网站,使用反查DNS查询所属组织;而对于未知的一些企业扫描器或攻击者,使用开源滥用IP数据库查询,其余未知攻击者传统攻击者信息进行验证。
附图说明
图1为本发明提供的一种面向工控蜜罐的同源攻击分析方法的同源攻击识别流程示意图;
图2为本发明提供的一种面向工控蜜罐的同源攻击分析方法中同源攻击特征的分类示意图;
图3为本发明提供的一种面向工控蜜罐的同源攻击分析方法中改进K-means算法示意图;
图4为本发明提供的一种面向工控蜜罐的同源攻击分析方法中数据验证流程示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本实施例提供一个采用本发明方法的同源攻击分析方法实例。
如图1所示,本发明提供的一种面向工控蜜罐的同源攻击分析方法包括以下步骤:
1)基于Conpot蜜罐框架,构造Modbus工控协议蜜罐,并分布式部署在互联网上,进行数据收集;根据Conpot蜜罐框架进行数据预处理,减少无用信息,将处理结果格式统一;
2)依据物理位置信息,如果两个攻击者具有相同的物理位置信息则直接判断为同源攻击,否则进行攻击行为判断;
3)对数据进行粗粒度特征选择,选取的特征包括功能码类型占比、攻击频率以及稀有评级占比;根据粗粒度特征使用Canopy聚类方法,产生类簇之特点,计算粗粒度条件下的K值,进行粗粒度特征聚类;
4)依据基于功能码序列的攻击行为特征处理方法,进行细粒度特征提取,生成一组包含功能码序列特征的向量;
5)依据粗粒度聚类结果,将攻击者细粒度信息特征在类簇内进行二次聚类;根据基于改进的K-means聚类算法,着重对离群点和噪声数据的处理;通过二次聚类,生成新的类簇,将同一类簇的攻击者识别为同源攻击;
6)引入轮廓系数来体现簇内数据的紧凑程度和簇间距离的分离程度,簇内紧凑、簇间分离则会体现出聚类方法有较好的性能;
7)采用反向DNS和开源威胁情报库结合的方法,进行数据验证;除去一部分可以进行DNS逆向查找源信息的开源扫描组织ip,其余攻击源ip根据部分威胁情报库的记录,进行标签标定,并对同一簇内攻击者信息进行比对,找到同源攻击者或攻击组织。
步骤1)中蜜罐数据经已部署的、长期的、分布式蜜罐收集。预处理结果为单一IP下,包括时间戳、功能码等在内的各项基本信息。
所述蜜罐类型为工控蜜罐。
所述步骤2)物理位置信息包括:基于IP的在线反向DNS服务、Python geoip2库以及响应包字段值。
所述步骤3)粗粒度特征包含:功能码类型占比、攻击频率和稀有评级占比。粗粒度特征的公式如下:
Typei= Tfunc/Ttotal (1)
Frequencyi= Numberi/Timei (2)
RareRatioi= Degreei/Degreemax (3)
式(1)功能码类型占比介绍了某一功能码序列中,占所有蜜罐数据出现的功能码的比例,其中,Typei代表功能码序列i的功能码类型占比,Tfunc代表功能码序列中出现的功能码类型个数,Ttotal表示整体蜜罐数据中出现的功能码类型个数。式(2)攻击频率则是体现一个功能码序列中的时间特征,其中,Frequencyi代表功能码序列i的攻击频率,Numberi代表序列中功能码数量,Timei代表序列交互总时长。式(3)稀有评级占比则体现所有蜜罐数据中不同功能码出现的频率,频率高者稀有评级相应降低。其中,RareRatioi表示稀有占比,Degreei表示功能码序列i中的最高稀有评级,Degreemax表示整体数据中最高评级,设定为5。
所述步骤3)使用Canopy聚类方法生成的k值为4,意为粗粒度特征将全部攻击者分为4个类簇,后续细粒度特征下操作基于此4个类簇中进行二次聚类。
所述步骤4)中,细粒度特征处理方法依据数据中功能码出现的类型,分为0x01、0x07、0x11、0x2b和0x5a五种。依据每两个功能码类型为一种组合,生成共25维固定顺序的向量,其每一维的值为此种组合占比。维度和向量的表示分别如下(4)、(5)所示。
dim = (0101, 0107, 0111, …, 5a5a) (4)
vector = (P0101, P0107, P0111 …P5a5a ) (5)
如图3所示,所述步骤5)改进后K-means聚类算法改进部分如下:
为了得到更好的轮廓系数、更好的聚类性能和结果,提出收缩因子(0≤α≤1)。当α = 1时,不进行离群点收缩处理;当α = 0时,将离群点收缩至质心。此外,采取迭代模式,针对收缩因子的值进行迭代,寻求更好的聚类精度。收缩因子α的迭代取值遵循α = arctan(x)+1,以降低生成粗糙集时随机质心对离群点的判断误差。收缩因子α的目的是,如果其聚类结果相较于不收缩的情况没有增强,则尝试将离群点数据收缩至另一相邻分区,再进行精度判断;
迭代每次处理一个离群点,根据其质心位置的变化,离群数据会发生改变,直至迭代结束。一次内层迭代结束标志为当产生更优的聚类精度,或各质心点遍历完全而没有产生更优的聚类结果。
所述步骤6)对于轮廓系数,数据集中的每个对象O,计算对象O与O所属的簇内其他对象之间的平均距离为A(O),而B(O)是指对象O到不包含O的所有簇的最小平均距离。
轮廓系数定义为:
Figure 396176DEST_PATH_IMAGE002
(6)
轮廓系数的值在-1和1之间。A(O)的值反映对象O所属簇的紧凑性,该值越小,则表明簇越紧凑。B(O)的值体现对象O与其他簇的分离程度,该值越大,O与其他簇越分离。当O的轮廓系数值接近1时,包含O的簇是紧凑的,并且O远离其他簇,这是一种较好的情况。而当轮廓系数的值为负时,这意味对象O距离其他簇的对象比距离与自己同在簇的对象更近,这也体现了较差的聚类性能。
所述步骤7)开源威胁情报库包括:AbuseIPDB(https://www.abuseipdb.com/)、ipvoid (https://www.ipvoid.com/ip-blacklist-check/)和IBM公司开源威胁情报库IBMX-Force Exchange (https://exchange.xforce.ibmcloud.com/ip/)。这些威胁情包库可以对滥用IP进行记录(通常包括:与可疑主机公司、僵尸网络、被黑客入侵的服务器或其他由黑客控制的机器相关的IP地址)、将网络中自动化软件扫描和攻击事件进行存储,而IBM情报分析可以找到在近5年内,某一IP的活动情况,包括其何时被识别为扫描IP,何时自动运行木马、是否运行恶意软件,例如shodan的日常探测扫描就被记录在案。结合DNS反向解析的结果,找到一部分可以用于数据验证的攻击者组织。数据的验证流程如图4所示。
在本实施例中,将蜜罐收集到的攻击数据进行预处理后,将其攻击者行为特征分为两类。如图2同源攻击特征分类图所示,第一类为物理信息特征,其中包括基于IP的逆向DNS服务、python geoip2库中ip信息以及响应包字段值;第二类为攻击行为特征,具体分为粗粒度特征和细粒度特征,粗粒度特征包括功能码类型占比、攻击频率以及稀有评级占比;细粒度特征为基于功能码序列的攻击行为特征处理方法。
下面给出一个具体的同源攻击识别流程,如图1同源攻击识别流程示意图所示,针对已进行预处理的数据,如果来自于不同攻击者的物理信息特征三类信息都相同,通常情况下,这些攻击者会被判定为来源于同一个攻击组织。一般来说,当攻击组织使用一个固定的网络段进行操作时,例如在大学的实验室,这是有效的。然而,大多数恶意攻击者利用IP代理或其他手段改变IP信息来隐藏自己的真实身份,这使得利用物理信息的同源特征来识别同源攻击组织成为难点。在此情况下,使用攻击行为特征进行下一步行为建模。
攻击行为特征中的粗粒度特征中包含功能码类型占比、攻击频率以及稀有评级占比,因此,实例必须是离线分析,无法做到在线实时同源攻击分析。通过数据预处理,计算出单一攻击者的各项粗粒度特征值,并进行0-1归一化处理,生成依次是(Type,Frequency,Rare)的三维向量。在weka(数据分析平台)系统中,使用常规Canopy聚类算法,得到类簇的最优数值K,形成K个粗糙集。在此基础上,根据细粒度特征生成多维攻击信息特征向量,向量值为2元功能码序列(FCS)组合在该攻击者信息总FCS中出现的概率。数据中出现的功能码类型为5种,因此2元组合共有25种,即25维向量。向量值计算的示例如下:
以十六进制Modbus功能码序列07, 01, 01, 11, 2b, 11, 2b为例。由于Modbus功能码序列的有序性,此时组合值n=2,功能码序列特征划分如下所示:0701,0101,0111,112b,2b11。FCS中出现2次112b,其余组合均为1次,则给25维向量填充向量值为:
vector = (P0101, P0107, P0111 …P5a5a ) = (0.167, 0, 0.167, 0, 0, …, 0.333,… , 0.167, …, 0)
其中,vector就是该攻击者基于功能码序列的攻击行为特征处理的结果,代表了攻击者在细粒度维度的攻击特征。在此基础上,使用改进的K-means算法,进行K类簇内的二次聚类。如图3所示,该算法与常规K-means算法的区别在于使用收缩因子,对数据中的离群点进行距离收缩处理。因为蜜罐收集的均是真实攻击者信息,将其他算法剔除的非常规数据进行合理使用,有利于发现可能隐藏的一些攻击者或攻击组织。收缩因子的加入也使模型具有更高的精度和召回率。算法具体如下,当找到离群点之后,使用一个带有初始赋值的收缩因子α,如果后续计算精度值变低,则对α进行迭代寻优;如果精度变高或不变,则记录均值向量,进入下一个离群点循环;如果没有后续离群点找出,则进入结束状态。
在进行K簇内的二次聚类之后,将二次聚类后,属于同一类簇的攻击者判定为同源攻击者。进入数据验证部分,如果通过逆向DNS服务可以对簇内攻击者IP进行组织识别,则进行信息比对,信息比对一致则判定正确;如无对应DNS信息,则使用开源情报库根据情报库对于其恶意行为的记录,以及组织判定,来进行攻击组织信息比对,信息对比一致则判定正确;如都无法找到一部分IP信息,使用传统物理信息进行查找,根据whois信息查询所属网段,如簇内攻击者IP的信息在同一网段,则判定正确。
和现有技术相比,本发明的面向工控蜜罐的同源攻击分析方法通过攻击者物理位置特征,引入粗粒度和细粒度的攻击行为特征,将攻击者信息转化为一组多维攻击行为特征向量。根据攻击者粗粒度攻击信息使用Canopy法找到最优K值,再依据攻击者细粒度攻击信息使用改进的K-means聚类方法,将其欧式距离相近的攻击者或攻击组织确定为同源攻击。通过本发明,能够分析同一协议蜜罐的攻击者的信息和攻击行为特征,判断同源攻击者,通过基于功能码序列特征向量提取方法,将同源攻击者的行为特征建模为基于功能码序列的特征向量,适用于诸多具有功能码特征的工控协议蜜罐数据分析;针对蜜罐数据同一攻击源判定验证较难的问题,提供了一个可行的验证方法,于大型设备扫描网站,使用反查DNS查询所属组织;而对于未知的一些企业扫描器或攻击者,使用开源滥用IP数据库查询,其余未知攻击者传统攻击者信息进行验证。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种面向工控蜜罐的同源攻击分析方法,包括以下步骤:
1)基于Conpot蜜罐框架,构造Modbus工控协议蜜罐,并分布式部署在互联网上,进行数据收集;根据Conpot蜜罐框架进行数据预处理,减少无用信息,将处理结果格式统一;
2)依据物理位置信息,如果两个攻击者具有相同的物理位置信息则直接判断为同源攻击,否则进行攻击行为判断;
3)对数据进行粗粒度特征选择,选取的特征包括功能码类型占比、攻击频率以及稀有评级占比;根据粗粒度特征使用Canopy聚类方法,产生类簇之特点,计算粗粒度条件下的K值,进行粗粒度特征聚类;
4)依据基于功能码序列的攻击行为特征处理方法,进行细粒度特征提取,生成一组包含功能码序列特征的向量;
5)依据粗粒度聚类结果,将攻击者细粒度信息特征在类簇内进行二次聚类;根据基于改进的K-means聚类算法,着重对离群点和噪声数据的处理;通过二次聚类,生成新的类簇,将同一类簇的攻击者识别为同源攻击;
6)引入轮廓系数来体现簇内数据的紧凑程度和簇间距离的分离程度,簇内紧凑、簇间分离则会体现出聚类方法有较好的性能;
7)采用反向DNS和开源威胁情报库结合的方法,进行数据验证;除去一部分可以进行DNS逆向查找源信息的开源扫描组织ip,其余攻击源ip根据部分威胁情报库的记录,进行标签标定,并对同一簇内攻击者信息进行比对,找到同源攻击者或攻击组织。
2.如权利要求1所述的面向工控蜜罐的同源攻击分析方法,其特征在于,所述步骤2)中物理位置信息包括:基于IP的在线反向DNS服务、Python geoip2库以及响应包字段值。
3.如权利要求1所述的面向工控蜜罐的同源攻击分析方法,其特征在于,所述步骤3)中粗粒度特征包含:功能码类型占比、攻击频率和稀有评级占比,公式如下:
Typei=Tfunc/Ttotal (1)
Frequencyi=Numberi/Timei (2)
RareRatioi=Degreei/Degreemax (3)
式(1)Typei是功能码序列i的功能码类型占比,Tfunc为功能码序列中出现的功能码类型个数,Ttotal为所有蜜罐数据中出现的功能码类型个数;式(2)Frequencyi代表功能码序列i的攻击频率,Numberi是功能码数量,Timei为交互总时长;式(3)RareRatioi为稀有占比,Degreei为功能码序列i中的最高稀有评级,Degreemax是整体数据中最高评级,置为5。
4.如权利要求1所述的面向工控蜜罐的同源攻击分析方法,其特征在于,所述步骤4)中细粒度特征处理方法依据功能码出现的类型,分为0x01、0x07、0x11、0x2b和0x5a五种,依据每两个功能码类型为一种组合,生成共25维固定顺序的向量,其每一维的值为此种组合占比,
dim=(0101,0107,0111,…,5a5a) (4)
vector=(P0101,P0107,P0111…P5a5a) (5)。
5.如权利要求1所述的面向工控蜜罐的同源攻击分析方法,其特征在于,所述步骤5)中改进后K-means聚类算法改进部分如下:为了得到更好的轮廓系数、更好的聚类性能和结果,提出收缩因子(0≤α≤1);当α=1时,不进行离群点收缩处理;当α=0时,将离群点收缩至质心;此外,采取迭代模式,对收缩因子的值进行迭代,寻求更好的聚类精度;收缩因子α的迭代取值遵循α=arctan(x)+1,以降低生成粗糙集时随机质心对离群点的判断误差;如果其聚类结果相较于不收缩的情况没有增强,则尝试将离群点数据收缩至另一相邻分区,再进行精度判断;
迭代每次处理一个离群点,根据其质心位置的变化,离群数据会发生改变,直至迭代结束;一次内层迭代结束标志为产生更优聚类精度,或各质心点完全遍历而无更优的聚类结果。
6.如权利要求1所述的面向工控蜜罐的同源攻击分析方法,其特征在于,所述步骤6)中对于轮廓系数,数据集中的每个对象O,计算对象O与O所属的簇内其他对象之间的平均距离为A(O),而B(O)是指对象O到不包含O的所有簇的最小平均距离;
轮廓系数定义为:
Figure RE-FDA0002428428700000031
轮廓系数的值在-1和1之间,A(O)的值反映对象O所属簇的紧凑性,该值越小,则表明簇越紧凑;B(O)的值体现对象O与其他簇的分离程度,该值越大,O与其他簇越分离;当O的轮廓系数值接近1时,包含O的簇是紧凑的,并且O远离其他簇;而当轮廓系数的值为负时,对象O距离其他簇的对象比距离与自己同在簇的对象更近。
7.如权利要求1所述的面向工控蜜罐的同源攻击分析方法,其特征在于,所述步骤7)中开源威胁情报库包括:AbuseIPDB、ipvoid和IBM开源威胁情报库IBM X-Force Exchange;开源威胁情报库对滥用IP进行记录,将网络中自动化软件扫描和攻击事件进行存储,通过搜索在指定时间间隔内某一IP的活动情况,包括其何时被识别为扫描IP,何时自动运行木马、是否运行恶意软件,结合DNS反向解析的结果,用于数据验证的攻击者组织;其中,滥用IP包括与可疑主机公司、僵尸网络、被黑客入侵的服务器或其他由黑客控制的机器相关的IP地址。
CN201911381260.7A 2019-12-27 2019-12-27 一种面向工控蜜罐的同源攻击分析方法 Active CN111212053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911381260.7A CN111212053B (zh) 2019-12-27 2019-12-27 一种面向工控蜜罐的同源攻击分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911381260.7A CN111212053B (zh) 2019-12-27 2019-12-27 一种面向工控蜜罐的同源攻击分析方法

Publications (2)

Publication Number Publication Date
CN111212053A true CN111212053A (zh) 2020-05-29
CN111212053B CN111212053B (zh) 2022-03-11

Family

ID=70788235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911381260.7A Active CN111212053B (zh) 2019-12-27 2019-12-27 一种面向工控蜜罐的同源攻击分析方法

Country Status (1)

Country Link
CN (1) CN111212053B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818052A (zh) * 2020-07-09 2020-10-23 国网山西省电力公司信息通信分公司 基于cnn-lstm的工控协议同源攻击检测方法
CN112070161A (zh) * 2020-09-08 2020-12-11 南方电网科学研究院有限责任公司 一种网络攻击事件分类方法、装置、终端及存储介质
CN112230584A (zh) * 2020-10-28 2021-01-15 浙江中烟工业有限责任公司 应用于工控领域的安全监视可视化系统及安全监视方法
CN112367315A (zh) * 2020-11-03 2021-02-12 浙江大学 一种内生安全waf蜜罐部署方法
CN112532605A (zh) * 2020-11-23 2021-03-19 中信银行股份有限公司 一种网络攻击溯源方法及系统、存储介质、电子设备
CN113765883A (zh) * 2021-07-28 2021-12-07 辽宁谛听信息科技有限公司 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法
CN113807373A (zh) * 2020-06-11 2021-12-17 中移(苏州)软件技术有限公司 一种流量识别方法及装置、设备、存储介质
CN114430344A (zh) * 2022-01-24 2022-05-03 东北大学 基于工控流量和威胁情报关联分析的攻击组织识别方法
CN114978768A (zh) * 2022-07-13 2022-08-30 上海大学 一种基于Conpot的网络化控制系统蜜罐及实现方法
CN115695029A (zh) * 2022-11-07 2023-02-03 杭州融至兴科技有限公司 一种企业内网攻击防御系统
CN116132197A (zh) * 2023-04-13 2023-05-16 中国华能集团清洁能源技术研究院有限公司 一种基于功能码的网络同源攻击分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070929A (zh) * 2017-04-20 2017-08-18 中国电子技术标准化研究院 一种工控网络蜜罐系统
CN107360145A (zh) * 2017-06-30 2017-11-17 北京航空航天大学 一种多节点蜜罐系统及其数据分析方法
CN108833333A (zh) * 2018-04-12 2018-11-16 中国科学院信息工程研究所 一种基于dcs分布式控制的蜜罐系统
CN110266650A (zh) * 2019-05-23 2019-09-20 中国科学院信息工程研究所 Conpot工控蜜罐的识别方法
CN110365636A (zh) * 2019-05-23 2019-10-22 中国科学院信息工程研究所 工控蜜罐攻击数据来源的判别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070929A (zh) * 2017-04-20 2017-08-18 中国电子技术标准化研究院 一种工控网络蜜罐系统
CN107360145A (zh) * 2017-06-30 2017-11-17 北京航空航天大学 一种多节点蜜罐系统及其数据分析方法
CN108833333A (zh) * 2018-04-12 2018-11-16 中国科学院信息工程研究所 一种基于dcs分布式控制的蜜罐系统
CN110266650A (zh) * 2019-05-23 2019-09-20 中国科学院信息工程研究所 Conpot工控蜜罐的识别方法
CN110365636A (zh) * 2019-05-23 2019-10-22 中国科学院信息工程研究所 工控蜜罐攻击数据来源的判别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石乐义等: "蜜罐技术研究新进展", 《电子与信息学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807373A (zh) * 2020-06-11 2021-12-17 中移(苏州)软件技术有限公司 一种流量识别方法及装置、设备、存储介质
CN113807373B (zh) * 2020-06-11 2024-02-02 中移(苏州)软件技术有限公司 一种流量识别方法及装置、设备、存储介质
CN111818052B (zh) * 2020-07-09 2022-07-08 国网山西省电力公司信息通信分公司 基于cnn-lstm的工控协议同源攻击检测方法
CN111818052A (zh) * 2020-07-09 2020-10-23 国网山西省电力公司信息通信分公司 基于cnn-lstm的工控协议同源攻击检测方法
CN112070161A (zh) * 2020-09-08 2020-12-11 南方电网科学研究院有限责任公司 一种网络攻击事件分类方法、装置、终端及存储介质
CN112070161B (zh) * 2020-09-08 2024-04-16 南方电网科学研究院有限责任公司 一种网络攻击事件分类方法、装置、终端及存储介质
CN112230584A (zh) * 2020-10-28 2021-01-15 浙江中烟工业有限责任公司 应用于工控领域的安全监视可视化系统及安全监视方法
CN112367315A (zh) * 2020-11-03 2021-02-12 浙江大学 一种内生安全waf蜜罐部署方法
CN112367315B (zh) * 2020-11-03 2021-09-28 浙江大学 一种内生安全waf蜜罐部署方法
CN112532605B (zh) * 2020-11-23 2022-11-22 中信银行股份有限公司 一种网络攻击溯源方法及系统、存储介质、电子设备
CN112532605A (zh) * 2020-11-23 2021-03-19 中信银行股份有限公司 一种网络攻击溯源方法及系统、存储介质、电子设备
CN113765883B (zh) * 2021-07-28 2023-05-12 辽宁谛听信息科技有限公司 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法
CN113765883A (zh) * 2021-07-28 2021-12-07 辽宁谛听信息科技有限公司 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法
CN114430344B (zh) * 2022-01-24 2022-09-30 东北大学 基于工控流量和威胁情报关联分析的攻击组织识别方法
CN114430344A (zh) * 2022-01-24 2022-05-03 东北大学 基于工控流量和威胁情报关联分析的攻击组织识别方法
CN114978768B (zh) * 2022-07-13 2023-04-18 上海大学 一种基于Conpot的网络化控制系统蜜罐
CN114978768A (zh) * 2022-07-13 2022-08-30 上海大学 一种基于Conpot的网络化控制系统蜜罐及实现方法
CN115695029A (zh) * 2022-11-07 2023-02-03 杭州融至兴科技有限公司 一种企业内网攻击防御系统
CN115695029B (zh) * 2022-11-07 2023-08-18 杭州融至兴科技有限公司 一种企业内网攻击防御系统
CN116132197A (zh) * 2023-04-13 2023-05-16 中国华能集团清洁能源技术研究院有限公司 一种基于功能码的网络同源攻击分析方法及系统

Also Published As

Publication number Publication date
CN111212053B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN111212053B (zh) 一种面向工控蜜罐的同源攻击分析方法
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN109450842B (zh) 一种基于神经网络的网络恶意行为识别方法
US10050986B2 (en) Systems and methods for traffic classification
US10574681B2 (en) Detection of known and unknown malicious domains
US11799823B2 (en) Domain name classification systems and methods
Perdisci et al. Alarm clustering for intrusion detection systems in computer networks
US8260914B1 (en) Detecting DNS fast-flux anomalies
US8762298B1 (en) Machine learning based botnet detection using real-time connectivity graph based traffic features
Niu et al. Identifying APT malware domain based on mobile DNS logging
Celik et al. Detection of Fast-Flux Networks using various DNS feature sets
Khandait et al. IoTHunter: IoT network traffic classification using device specific keywords
Razak A study on IDS for preventing Denial of Service attack using outliers techniques
Kozik et al. Pattern extraction algorithm for NetFlow‐based botnet activities detection
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
Xu et al. [Retracted] DDoS Detection Using a Cloud‐Edge Collaboration Method Based on Entropy‐Measuring SOM and KD‐Tree in SDN
Giacinto et al. Alarm clustering for intrusion detection systems in computer networks
Spaulding et al. Thriving on chaos: Proactive detection of command and control domains in internet of things‐scale botnets using DRIFT
EP4243362B1 (en) Network device identification
CN114430344B (zh) 基于工控流量和威胁情报关联分析的攻击组织识别方法
CN114205146B (zh) 一种多源异构安全日志的处理方法及装置
Zurutuza et al. A data mining approach for analysis of worm activity through automatic signature generation
US11444971B2 (en) Method for assessing the quality of network-related indicators of compromise
CN115392238A (zh) 一种设备识别方法、装置、设备及可读存储介质
Kozik Distributed system for botnet traffic analysis and anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230823

Address after: 030006 Building A, Xindao Science and Technology Park, No. 48 Industrial Road, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province

Patentee after: Shanxi Xingze Huilian Technology Co.,Ltd.

Address before: 030024 No. 79 West Main Street, Taiyuan, Shanxi, Yingze

Patentee before: Taiyuan University of Technology

TR01 Transfer of patent right