CN113765883A - 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法 - Google Patents

一种基于逐次概率判别算法的工业控制网络蜜罐识别方法 Download PDF

Info

Publication number
CN113765883A
CN113765883A CN202110854024.3A CN202110854024A CN113765883A CN 113765883 A CN113765883 A CN 113765883A CN 202110854024 A CN202110854024 A CN 202110854024A CN 113765883 A CN113765883 A CN 113765883A
Authority
CN
China
Prior art keywords
protocol
value
honeypot
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110854024.3A
Other languages
English (en)
Other versions
CN113765883B (zh
Inventor
姚羽
单垚
杨巍
吴昊
赵桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Diting Information Technology Co ltd
Original Assignee
Liaoning Diting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Diting Information Technology Co ltd filed Critical Liaoning Diting Information Technology Co ltd
Priority to CN202110854024.3A priority Critical patent/CN113765883B/zh
Publication of CN113765883A publication Critical patent/CN113765883A/zh
Application granted granted Critical
Publication of CN113765883B publication Critical patent/CN113765883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Image Processing (AREA)

Abstract

一种基于逐次概率判别算法的工业控制网络蜜罐识别方法,包含如下步骤:收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征、训练逐次概率识别模型以及应用该逐次概率识别模型进行工业控制网络蜜罐的识别。本发明可以有效减少与目标设备的交互次数,减小目标设备的交互压力,提高识别准确率与识别效率。本发明通过大量实验,验证了该方法在交互次数,识别效率与识别准确率上有较好的效果。

Description

一种基于逐次概率判别算法的工业控制网络蜜罐识别方法
技术领域
本发明属于网络安全技术领域,涉及一种基于逐次概率判别算法的工业控制蜜罐识别方法。
背景技术
随着中国工业制造2025和国外工业4.0的提出,PLC等工业设备联网势在必行,世界范围内的工业网络的安全问题日益明显。作为应对工业网络安全的常见手段之一的工业控制网络蜜罐越来越多地出现在各种工业控制网络和工业互联网上用来诱骗攻击者,以此捕获攻击者,分析攻击者行为。
工控蜜罐常被部署在工业控制网络中,诱骗攻击者进行非法访问,进而全面捕获、监测和追踪攻击者的行为,使防御方从单纯的被动防御转变为更有效的主动防御。现有的工控蜜罐常常使用开源的工控蜜罐进行部署,例如:Conpot,Gaspot以及SCADA honeynet等。上述开源蜜罐实现了常用的工控协议,如:Modbus,ATG以及S7等工控协议,可以模拟某一类型的控制设备的网络通信行为,对攻击者的请求做出有效恢复。工控蜜罐的部署可以独立于工业生产,过程流程等场景,在不影响正常生产的情况下保护工控网络。
对工控蜜罐的有效识别,对于攻击者和安全人员有着巨大的作用。攻击者可以通过蜜罐识别避免陷入网络蜜罐陷阱,对目标网络进行有效的测绘和渗透;对于安全人员可以根据工控蜜罐的识别改进工控蜜罐的交互性,提高对攻击者的欺骗能力。
发明内容
本发明提出一种基于逐次概率判别算法的工业控制网络蜜罐识别方法,可以识别不同场景和网络环境中的常见开源以及自研工控蜜罐。
本发明的技术方案如下:
一种基于逐次概率判别算法的工业控制网络蜜罐识别方法,包含如下步骤:收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征、训练逐次概率识别模型以及应用该逐次概率识别模型进行工业控制网络蜜罐的识别。
一、收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征
(一)独有特征
Conpot与S7协议分析
Conpot对S7协议的实现源码,提取特征如下:
1.S7协议实现默认配置信息列表,列表主要含有系统名称(SystemName)、S7设备型号(s7_id)、S7设备模块名称(s7_module_type)、S7设备名称(FacilityName)、模块名称(module_name)和版权(Copyright)五项特征。其中基本默认配置:FacilityName初始值设置为“Mouser Factory”、SystemName初始值设置为“Technodrome”、s7_id初始值设置为“88111222”、Copyright初始值设置为“Original Siemens Equipment”、S7_module_type初始值设置为“IM151-8PN/DP CPU”、将Module Name的初始值为“Siemens,SIMATIC,S7-200”;
2.S7协议连接时长,Conpot的设计者为了避免攻击者长时间保持与Conpot蜜罐连接,占用带宽,在源代码中设置了与Conpot的S7蜜罐设备连接最长时间为5秒。
3.S7协议回复时长,经过大量实验,发现真实设备的请求回复时长是Conpot蜜罐回复时长的7倍左右,可以理解为真实设备的计算能力普遍弱于部署蜜罐的计算机设备。但该特征受网络环境(路由器跳数)的影响较大。
Gaspot与ATG协议
分析Gaspot对ATG协议的实现源码,提取特征如下:
1.ATG协议实现默认配置信息列表,列表主要含有产品名称1(product1)、产品名称2(product2)、产品名称3(product3)、产品名称4(product4)以及地理位置(station)。其中product1初始值设置为SUPER,product2初始值设置为UNLEAD,product3的初始值设置为DIESEL,product4的初始值设置为PREMIUM。地理位置信息为众多真实油气设备地理位置列表。
2.ATG协议请求回复默认配置,ATG协议主要应用于油气设备控制。通过大量试验发现,真实设备的容量(VolumeTC)字段在一段时间内(一般为12小时)的变化量的绝对值基本等于缺量(ULLAGE)字段的变化量的绝对值。而Gaspot对上述两个字段的数值采用随机化的方式进行生成。
Conpot与Modbus协议
1.Modbus协议读写寄存器功能实现,Conpot未实现对寄存器的读写功能。通过大量实现发现,Conpot在针对功能码0x10和0x03的回复都有错误:Illegal data address(非法数据地址);
2.Modbus协议回复错误功能码功能实现,当连续对Conpot蜜罐设备发送错误功能码时,Conpot蜜罐只接受数据而不会回复。而真实设备会正确回复错诶功能码。
(二)共有特征
由于蜜罐设备都是对真实工控设备的虚拟,必然会存在共同的虚拟缺陷,发现该类缺陷对识别蜜罐将会起到极大作用。
1.端口特征,通过大量实验,发现真实设备通常只会开放个位数的端口,而蜜罐设备会开放数十个端口。
2.系统特征,通过大量实验发现蜜罐往往存在于云端主机或虚拟机上,其操作系统通常是Linux操作系统。
3.部署特征,通过大量实验发现如果目标设备的Whois信息是云服务商或是网络供应商,则有很大可能该设备是蜜罐设备。
二、应用该逐次概率识别模型进行工业控制网络蜜罐的识别
(一)生成训练模型数据集
考虑到协议特征方面的不同,本发明将数据集依据协议划分为3个子数据集,分别是全球IPv4的Modbus协议数据集,S7协议数据以及ATG数据集。其中蜜罐标签根据如下3条依据确定:1.该设备网络供应商为云服务供应商;2.该设备由企业网络供应商托管且具有Windows操作系统;3.该设备的网络供应商为大学。
其中Modbus协议数据集的特征选择:Modbus读写寄存器功能状态,Modbus错误功能码回复时间,端口数量,路由器跳数。具体描述如表1所示。各个特征按照编号的先后顺序标记为{x1,x2,x3,x4},对这些特征进行处理,对于x1读写寄存器功能,只有两种结果能或者是不能,所以x1∈{0,1}。由于Modbus错误功能码回复时间跨度较大,对x2进行归一化处理。对x3取原本的数值进行编码,由于数据集中路由器跳数最小值为19,最大值为30,所以对x4进行等宽化处理,从15开始,以5为间隔,按照原本数值对应分别编码为0到2。
其中S7协议数据集特征选择:设备名称字段,设备标识符字段,设备模块序列号字段,5s后断开连接状态,报文回复时间,端口数量以及路由器跳数。具体描述如表2所示。各个特征按照编号的先后顺序标记为{x1,x2,x3,x4,x5,x6,x7},对这些特征进行处理,对x1,x2,x3按照字典编码,取每个特征数量最多的值放入字典中,将其他较少的数值统一标号,即xi∈{0,1,2,...,n},i∈{1,2,3}。特征取值最多的4个数值为空值、Technodrome、SAAP7-SERVER和SIMATIC 300(1),分别在数据集中以0到3对相应的数值编码,其他少量存在的数值以4编码。特征取值最多的3个数值为空值、Mouser Factory和DoE Water Service,分别在数据集中以0到2对相应的数值编码,其他少量存在的数值以3编码。特征取值最多的3个数值为空值、88111222和S C-C2UR28922012,分别在数据集中以0到2对相应的数值编码,其他少量存在的数值以3编码。对特征按照经过5s后主动断开连接编码为1,积极主动继续建立连接编码为0。对特征报文回复时间进行等宽化处理,对标签为蜜罐的特征的取值进行平均取值发现平均值为0.3左右,对标签为非蜜罐的特征的取值进行平均取值发现平均值为0.6左右,所以取0.2为单位,从0开始取7个分段,等宽化处理特征的数据。对特征开放端口数量不处理,按照原本的数值进行编码。路由器跳数使用等宽化进行编码,由于数据集中最小的跳数为14,最大的跳数为30,选择从10开始,5为间隔,共取4段,按照原本数值对应分别编码为0到3。
其中ATG协议数据集特征选择:ATG协议的产品名称1,ATG协议的产品名称2,ATG协议的产品名称3,ATG协议的产品名称4,ATG协议应用层时序特征,端口数量,路由器跳数。具体描述如表3所示。各个特征按照编号的先后顺序标记为{x1,x2,x3,x4,x5,x6,x7},对这些特征进行处理,对x1,x2,x3,x4按照01编码,将特征x1中特征值为SUPER的编码为1,其他编码为0,特征x2中特征值为UNLEAD的编码为1,其他编码为0,特征x3中特征值为DIESEL的编码为1,其他编码为0,特征x4中特征值为PREMIUM的编码为1,其他编码为0。对特征x5按照符合ATG协议应用层时序特征标记为1,不符合标记为0。对特征x6开放端口数量不处理,按照原本的数值进行编码。路由器跳数x7使用等宽化进行编码,由于数据集中最小的跳数为16,最大的跳数为30,选择从15开始,5为间隔,共取3段,按照原本数值对应分别编码为0到2。
将每个协议的数据集划分成两个互斥的集合,训练集和测试集,按照7:3的比例划分。将蜜罐样本在训练集和测试集的数量控制在7:3,将非蜜罐样本在训练集和测试集的数量也控制在7:3。S7comm协议数据集中共有928条数据,Modbus协议数据集中共有100条数据,ATG协议数据集中共有391条数据。
(二)逐次概率判别算法
对于设备i,设其是蜜罐的概率是Hi,首先使用第一个特征x1计算在特征x1的条件下,Hi=1的条件概率P(Hi=1|x1),如果该条件概率大于设定的阈值T,则认为该设备是蜜罐;如果该条件概率小于设定的阈值T,则继续计算添加了第二个特征x2下的条件概率P(Hi=1|x1,x2),再次判断该条件概率是否大于设定的阈值T,依次类推依次特征x3,x4,...,xn。最终如果使用了所有的特征后条件概率均小于设定的阈值T,则认为该设备是真实设备。
设Xk表示协议k所有特征集合,Xk={x1,x2,...,xn},X-i表示第i次计算条件概率所使用特征集合,X-i={x1,x2,...,xi}。
对于运行协议k的设备,逐次概率判别算法可以描述如下:
1.第一次依据协议k的特征x1计算Hi=1的条件概率,
Figure BDA0003183434920000051
Figure BDA0003183434920000052
Figure BDA0003183434920000053
其中
Figure BDA0003183434920000061
表示Hi=1且xi=j(xi取对应特征的第j个值,下文中含义相同)的在数据集中的样本数量,N表示数据及总体样本数量。如果P(Hi=1|x1=j)大于设定的阈值T,则认为该设备Hi是蜜罐设备。其中X-i=X-1={x1}。如果小于阈值T则添加第二特征继续计算Hi=1的条件概率P(Hi=1|x1=j,x2=k)。
2.依据特征x1和x2计算Hi=1的条件概率,
Figure BDA0003183434920000062
Figure BDA0003183434920000063
Figure BDA0003183434920000064
其中
Figure BDA0003183434920000065
表示Hi=1且xi=j,x2=k的在数据集中的样本数量,N表示数据及总体样本数量。其中X-i=X-2={x1,x2}。如果P(Hi=1|x1=j,x2=k)大于设定的阈值T,则认为该设备Hi是蜜罐设备。
3.依次类推,第m次计算Hi=1的条件概率,
Figure BDA0003183434920000066
Figure BDA0003183434920000067
Figure BDA0003183434920000068
其中
Figure BDA0003183434920000069
表示Hi=1且x1=j,...,xm=z的在数据集中的样本数量,N表示数据及总体样本数量。其中X-i=X-m={x1,...,xm}。
如果小于阈值T则逐次添加其余特征继续计算Hi=1的条件概率P(Hi=1|x1=j,x2=k,...)。直到该条件概率大于设定阈值T或用完所有特征,X-n=X。如果使用完所有特征得到的条件概率仍然小于阈值T,则认为给设备是真实设备。
本发明可以有效减少与目标设备的交互次数,减小目标设备的交互压力,提高识别准确率与识别效率。本发明通过大量实验,验证了该方法在交互次数,识别效率与识别准确率上有较好的效果。
附图说明
图1是本发明中工业控制网络蜜罐识别流程示意图。
图2是本发明中逐次概率判别算法的流程图。
具体实施方式
以下结合附图和具体实施方案对本发明作进一步的详细说明。
下面是本发明中逐次概率判别算法伪代码。
输入:特征集合X,数据集D,未知设备i
输出:未知设备i的蜜罐标签
过程:
Figure BDA0003183434920000071
表1 Modbus协议数据集的特征
编号 名称 描述
1 ReadWriteHoldingRegisters Modbus读写寄存器功能
2 ErrorResponseTime Modbus错误功能码回复时间
3 PortsNum 端口数量
4 RouterHops 路由器跳数
表2 S7协议数据集的特征
编号 名称 描述
1 NameOfThePLC S7comm协议NameOfThePLC字段
2 PlantIdentification S7comm协议PlantIdentification字段
3 SerialNumberOfModule S7comm协议SerialNumberOfModule字段
4 Time5Later S7comm协议5s后是否选择断开连接
5 ResponseTime S7comm协议报文回复时间
6 PortsNum 端口数量
7 RouterHops 路由器跳数
表3 ATG协议数据集的特征
编号 名称 描述
1 ATGproduct1 ATG协议的产品1名称
2 ATGproduct2 ATG协议的产品2名称
3 ATGproduct3 ATG协议的产品3名称
4 ATGproduct4 ATG协议的产品4名称
5 ATGTimeApplication ATG协议应用层时序特征
6 PortsNum 端口数量
7 RouterHops 路由器跳数
表4实施案例一中各算法效果对比表
Figure BDA0003183434920000081
Figure BDA0003183434920000091
实施例1:真实设备与工控蜜罐识别
本发明使用上述中所描述的三种协议数据集对本发明所提逐次概率判别算法与常见的机器学习算法进行识别效果对比。表4展示了对三种协议使用逐次概率模型与支持向量机、朴素贝叶斯和决策树的识别效果。Y代表通过逐次概率判别算法判断后与标签符合的数据数量,N代表通过逐次概率判别算法判断后与标签不符合的数据数量,包括判断为蜜罐但实际不是蜜罐和未判断出是蜜罐但是标签为蜜罐的数量和。U代表通过逐次概率判别算法判断后没有判断为蜜罐,即不确定是否为蜜罐的数量。可以看到,逐次概率判别算法在使用较少特征的条件下,仍然可以取得较好的识别效果,优于支持向量机模型和朴素贝叶斯,与决策树算法相当。

Claims (1)

1.一种基于逐次概率判别算法的工业控制网络蜜罐识别方法,其特征在于包含如下步骤:
一、收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征
(一)独有特征
Conpot与S7协议分析
Conpot对S7协议的实现源码,提取特征如下:
1.S7协议实现默认配置信息列表,列表主要含有系统名称(SystemName)、S7设备型号(s7_id)、S7设备模块名称(s7_module_type)、S7设备名称(FacilityName)、模块名称(module_name)和版权(Copyright)五项特征;其中基本默认配置:FacilityName初始值设置为“Mouser Factory”、SystemName初始值设置为“Technodrome”、s7_id初始值设置为“88111222”、Copyright初始值设置为“Original Siemens Equipment”、S7_module_type初始值设置为“IM151-8 PN/DP CPU”、将Module Name的初始值为“Siemens,SIMATIC,S7-200”;
2.S7协议连接时长,Conpot的设计者为了避免攻击者长时间保持与Conpot蜜罐连接,占用带宽,在源代码中设置了与Conpot的S7蜜罐设备连接最长时间为5秒;
3.S7协议回复时长,经过大量实验,发现真实设备的请求回复时长是Conpot蜜罐回复时长的7倍左右;
Gaspot与ATG协议
分析Gaspot对ATG协议的实现源码,提取特征如下:
1.ATG协议实现默认配置信息列表,列表主要含有产品名称1(product1)、产品名称2(product2)、产品名称3(product3)、产品名称4(product4)以及地理位置(station);其中product1初始值设置为SUPER,product2初始值设置为UNLEAD,product3的初始值设置为DIESEL,product4的初始值设置为PREMIUM;地理位置信息为众多真实油气设备地理位置列表;
2.ATG协议请求回复默认配置,ATG协议主要应用于油气设备控制;通过大量试验发现,真实设备的容量(VolumeTC)字段在一段时间内的变化量的绝对值基本等于缺量(ULLAGE)字段的变化量的绝对值;而Gaspot对上述两个字段的数值采用随机化的方式进行生成;
Conpot与Modbus协议
1.Modbus协议读写寄存器功能实现,Conpot未实现对寄存器的读写功能;通过大量实现发现,Conpot在针对功能码0x10和0x03的回复都有错误:Illegal data address(非法数据地址);
2.Modbus协议回复错误功能码功能实现,当连续对Conpot蜜罐设备发送错误功能码时,Conpot蜜罐只接受数据而不会回复;而真实设备会正确回复错诶功能码;
(二)共有特征
1.端口特征,通过实验发现真实设备通常只会开放个位数的端口,而蜜罐设备会开放数十个端口;
2.系统特征,通过实验发现蜜罐往往存在于云端主机或虚拟机上,其操作系统通常是Linux操作系统;
3.部署特征,通过实验发现如果目标设备的Whois信息是云服务商或是网络供应商,则有很大可能该设备是蜜罐设备;
二、应用该逐次概率识别模型进行工业控制网络蜜罐的识别
(一)生成训练模型数据集
考虑到协议特征方面的不同,本发明将数据集依据协议划分为3个子数据集,分别是全球IPv4的Modbus协议数据集,S7协议数据以及ATG数据集;其中蜜罐标签根据如下3条依据确定:该设备网络供应商为云服务供应商;该设备由企业网络供应商托管且具有Windows操作系统;该设备的网络供应商为大学;
其中Modbus协议数据集的特征选择:Modbus读写寄存器功能状态,Modbus错误功能码回复时间,端口数量,路由器跳数;各个特征按照编号的先后顺序标记为{x1,x2,x3,x4},对这些特征进行处理,对于x1读写寄存器功能,只有两种结果能或者是不能,所以x1∈{0,1};由于Modbus错误功能码回复时间跨度较大,对x2进行归一化处理;对x3取原本的数值进行编码,由于数据集中路由器跳数最小值为19,最大值为30,所以对x4进行等宽化处理,从15开始,以5为间隔,按照原本数值对应分别编码为0到2;
其中S7协议数据集特征选择:设备名称字段,设备标识符字段,设备模块序列号字段,5s后断开连接状态,报文回复时间,端口数量以及路由器跳数;具体描述如表2所示;各个特征按照编号的先后顺序标记为{x1,x2,x3,x4,x5,x6,x7},对这些特征进行处理,对x1,x2,x3按照字典编码,取每个特征数量最多的值放入字典中,将其他较少的数值统一标号,即xi∈{0,1,2,...,n},i∈{1,2,3};特征取值最多的4个数值为空值、Technodrome、SAAP7-SERVER和SIMATIC 300(1),分别在数据集中以0到3对相应的数值编码,其他少量存在的数值以4编码;特征取值最多的3个数值为空值、Mouser Factory和DoE Water Service,分别在数据集中以0到2对相应的数值编码,其他少量存在的数值以3编码;特征取值最多的3个数值为空值、88111222和S C-C2UR28922012,分别在数据集中以0到2对相应的数值编码,其他少量存在的数值以3编码;对特征按照经过5s后主动断开连接编码为1,积极主动继续建立连接编码为0;对特征报文回复时间进行等宽化处理,对标签为蜜罐的特征的取值进行平均取值发现平均值为0.3左右,对标签为非蜜罐的特征的取值进行平均取值发现平均值为0.6左右,所以取0.2为单位,从0开始取7个分段,等宽化处理特征的数据;对特征开放端口数量不处理,按照原本的数值进行编码;路由器跳数使用等宽化进行编码,由于数据集中最小的跳数为14,最大的跳数为30,选择从10开始,5为间隔,共取4段,按照原本数值对应分别编码为0到3;
其中ATG协议数据集特征选择:ATG协议的产品名称1,ATG协议的产品名称2,ATG协议的产品名称3,ATG协议的产品名称4,ATG协议应用层时序特征,端口数量,路由器跳数;各个特征按照编号的先后顺序标记为{x1,x2,x3,x4,x5,x6,x7},对这些特征进行处理,对x1,x2,x3,x4按照01编码,将特征x1中特征值为SUPER的编码为1,其他编码为0,特征x2中特征值为UNLEAD的编码为1,其他编码为0,特征x3中特征值为DIESEL的编码为1,其他编码为0,特征x4中特征值为PREMIUM的编码为1,其他编码为0;对特征x5按照符合ATG协议应用层时序特征标记为1,不符合标记为0;对特征x6开放端口数量不处理,按照原本的数值进行编码;路由器跳数x7使用等宽化进行编码,由于数据集中最小的跳数为16,最大的跳数为30,选择从15开始,5为间隔,共取3段,按照原本数值对应分别编码为0到2;
将每个协议的数据集划分成两个互斥的集合,训练集和测试集,按照7:3的比例划分;将蜜罐样本在训练集和测试集的数量控制在7:3,将非蜜罐样本在训练集和测试集的数量也控制在7:3;S7comm协议数据集中共有928条数据,Modbus协议数据集中共有100条数据,ATG协议数据集中共有391条数据;
(二)逐次概率判别算法
对于设备i,设其是蜜罐的概率是Hi,首先使用第一个特征x1计算在特征x1的条件下,Hi=1的条件概率P(Hi=1|x1),如果该条件概率大于设定的阈值T,则认为该设备是蜜罐;如果该条件概率小于设定的阈值T,则继续计算添加了第二个特征x2下的条件概率P(Hi=1|x1,x2),再次判断该条件概率是否大于设定的阈值T,依次类推依次特征x3,x4,...,xn;最终如果使用了所有的特征后条件概率均小于设定的阈值T,则认为该设备是真实设备;
设Xk表示协议k所有特征集合,Xk={x1,x2,...,xn},X-i表示第i次计算条件概率所使用特征集合,X-i={x1,x2,...,xi};
对于运行协议k的设备,逐次概率判别算法描述如下:
1.第一次依据协议k的特征x1计算Hi=1的条件概率,
Figure FDA0003183434910000041
Figure FDA0003183434910000042
Figure FDA0003183434910000043
其中
Figure FDA0003183434910000051
表示Hi=1且xi=j(xi取对应特征的第j个值,下文中含义相同)的在数据集中的样本数量,N表示数据及总体样本数量;如果P(Hi=1|x1=j)大于设定的阈值T,则认为该设备Hi是蜜罐设备;其中X-i=X-1={x1};如果小于阈值T则添加第二特征继续计算Hi=1的条件概率P(Hi=1|x1=j,x2=k);
2.依据特征x1和x2计算Hi=1的条件概率,
Figure FDA0003183434910000052
Figure FDA0003183434910000053
Figure FDA0003183434910000054
其中
Figure FDA0003183434910000055
表示Hi=1且xi=j,x2=k的在数据集中的样本数量,N表示数据及总体样本数量;其中X-i=X-2={x1,x2};如果P(Hi=1|x1=j,x2=k)大于设定的阈值T,则认为该设备Hi是蜜罐设备;
3.依次类推,第m次计算Hi=1的条件概率,
Figure FDA0003183434910000056
Figure FDA0003183434910000057
Figure FDA0003183434910000058
其中
Figure FDA0003183434910000059
表示Hi=1且x1=j,...,xm=z的在数据集中的样本数量,N表示数据及总体样本数量;其中X-i=X-m={x1,...,xm};
如果小于阈值T则逐次添加其余特征继续计算Hi=1的条件概率P(Hi=1|x1=j,x2=k,...);直到该条件概率大于设定阈值T或用完所有特征,X-n=X;如果使用完所有特征得到的条件概率仍然小于阈值T,则认为给设备是真实设备。
CN202110854024.3A 2021-07-28 2021-07-28 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法 Active CN113765883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854024.3A CN113765883B (zh) 2021-07-28 2021-07-28 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854024.3A CN113765883B (zh) 2021-07-28 2021-07-28 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法

Publications (2)

Publication Number Publication Date
CN113765883A true CN113765883A (zh) 2021-12-07
CN113765883B CN113765883B (zh) 2023-05-12

Family

ID=78788008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854024.3A Active CN113765883B (zh) 2021-07-28 2021-07-28 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法

Country Status (1)

Country Link
CN (1) CN113765883B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600193A (zh) * 2018-04-03 2018-09-28 北京威努特技术有限公司 一种基于机器学习的工控蜜罐识别方法
US20190081980A1 (en) * 2017-07-25 2019-03-14 Palo Alto Networks, Inc. Intelligent-interaction honeypot for iot devices
CN110266650A (zh) * 2019-05-23 2019-09-20 中国科学院信息工程研究所 Conpot工控蜜罐的识别方法
US20200160116A1 (en) * 2018-11-16 2020-05-21 Yandex Europe Ag Method of completing a task
CN111212053A (zh) * 2019-12-27 2020-05-29 太原理工大学 一种面向工控蜜罐的同源攻击分析方法
CN111343174A (zh) * 2020-02-22 2020-06-26 上海观安信息技术股份有限公司 一种智能学习式自应答工业互联网蜜罐诱导方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190081980A1 (en) * 2017-07-25 2019-03-14 Palo Alto Networks, Inc. Intelligent-interaction honeypot for iot devices
CN108600193A (zh) * 2018-04-03 2018-09-28 北京威努特技术有限公司 一种基于机器学习的工控蜜罐识别方法
US20200160116A1 (en) * 2018-11-16 2020-05-21 Yandex Europe Ag Method of completing a task
CN110266650A (zh) * 2019-05-23 2019-09-20 中国科学院信息工程研究所 Conpot工控蜜罐的识别方法
CN111212053A (zh) * 2019-12-27 2020-05-29 太原理工大学 一种面向工控蜜罐的同源攻击分析方法
CN111343174A (zh) * 2020-02-22 2020-06-26 上海观安信息技术股份有限公司 一种智能学习式自应答工业互联网蜜罐诱导方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
OLEG SURNIN等: "Probabilistic Estimation of Honeypot Detection in Internet of Things Environment", 2019 INTERNATIONAL CONFERENCE ON COMPUTING, NETWORKING AND COMMUNICATIONS (ICNC) *
QIANG LI等: "Understanding the Usage of Industrial Control System Devices on the Internet", 《IEEE INTERNET OF THINGS JOURNAL》 *
李政达等: "基于蜜罐的工控蜜网系统的设计与实现", 《信息技术与网络安全》 *
柏青等: "基于聚类分流算法的分布式蜜罐系统设计", 《计算机应用》 *

Also Published As

Publication number Publication date
CN113765883B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111144470B (zh) 一种基于深度自编码器的未知网络流量识别方法及系统
CN112910851B (zh) 基于知识图谱的数据包标记溯源装置
CN108282460B (zh) 一种面向网络安全事件的证据链生成方法及装置
CN112968798B (zh) 适用于电力工控靶场平台的虚实网络环境自动生成方法
CN114531273B (zh) 一种防御工业网络系统分布式拒绝服务攻击的方法
CN113612767B (zh) 基于多任务学习增强的加密恶意流量检测方法及系统
EP3242240B1 (en) Malicious communication pattern extraction device, malicious communication pattern extraction system, malicious communication pattern extraction method and malicious communication pattern extraction program
CN110868312A (zh) 一种基于遗传算法优化的工业行为异常检测方法
CN112115965A (zh) 一种基于svm的被动操作系统识别方法、存储介质及设备
CN107666468A (zh) 网络安全检测方法和装置
CN111935064A (zh) 一种工控网络威胁自动隔离方法及系统
CN105072618B (zh) 无线传感器网络中基于校验码的数据可靠性保护方法
TWI820064B (zh) 在通訊網路中保障數位資料傳輸
Muthumanickam et al. Performance Analysis of a Bottleneck Layer Network in the Estimation of Cyber-Attacks
CN113765883A (zh) 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法
Shan et al. NeuPot: A neural network-based honeypot for detecting cyber threats in industrial control systems
CN115484326A (zh) 处理数据的方法、系统及存储介质
CN115883169A (zh) 基于蜜罐系统的工控网络攻击报文响应方法及响应系统
Sija et al. Automatic payload signature generation for accurate identification of internet applications and application services
EP4250116A2 (en) Enhanced anomaly detection in computing environments
CN114201753B (zh) 一种基于业务行为的工业生产网络数据分析方法
CN113553370A (zh) 异常检测方法、装置、电子设备及可读存储介质
Tien et al. Automatic device identification and anomaly detection with machine learning techniques in smart factories
CN113489622B (zh) 一种提取网络设备指纹的方法、系统、设备及存储介质
CN116915519B (zh) 数据流溯源的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant