CN113765883A

CN113765883A - 一种基于逐次概率判别算法的工业控制网络蜜罐识别方法

Info

Publication number: CN113765883A
Application number: CN202110854024.3A
Authority: CN
Inventors: 姚羽; 单垚; 杨巍; 吴昊; 赵桐
Original assignee: Liaoning Diting Information Technology Co ltd
Current assignee: Liaoning Diting Information Technology Co ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-12-07
Anticipated expiration: 2041-07-28
Also published as: CN113765883B

Abstract

一种基于逐次概率判别算法的工业控制网络蜜罐识别方法，包含如下步骤：收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征、训练逐次概率识别模型以及应用该逐次概率识别模型进行工业控制网络蜜罐的识别。本发明可以有效减少与目标设备的交互次数，减小目标设备的交互压力，提高识别准确率与识别效率。本发明通过大量实验，验证了该方法在交互次数，识别效率与识别准确率上有较好的效果。

Description

一种基于逐次概率判别算法的工业控制网络蜜罐识别方法

技术领域

本发明属于网络安全技术领域，涉及一种基于逐次概率判别算法的工业控制蜜罐识别方法。

背景技术

随着中国工业制造2025和国外工业4.0的提出，PLC等工业设备联网势在必行，世界范围内的工业网络的安全问题日益明显。作为应对工业网络安全的常见手段之一的工业控制网络蜜罐越来越多地出现在各种工业控制网络和工业互联网上用来诱骗攻击者，以此捕获攻击者，分析攻击者行为。

工控蜜罐常被部署在工业控制网络中，诱骗攻击者进行非法访问，进而全面捕获、监测和追踪攻击者的行为，使防御方从单纯的被动防御转变为更有效的主动防御。现有的工控蜜罐常常使用开源的工控蜜罐进行部署，例如：Conpot，Gaspot以及SCADA honeynet等。上述开源蜜罐实现了常用的工控协议，如：Modbus，ATG以及S7等工控协议，可以模拟某一类型的控制设备的网络通信行为，对攻击者的请求做出有效恢复。工控蜜罐的部署可以独立于工业生产，过程流程等场景，在不影响正常生产的情况下保护工控网络。

对工控蜜罐的有效识别，对于攻击者和安全人员有着巨大的作用。攻击者可以通过蜜罐识别避免陷入网络蜜罐陷阱，对目标网络进行有效的测绘和渗透；对于安全人员可以根据工控蜜罐的识别改进工控蜜罐的交互性，提高对攻击者的欺骗能力。

发明内容

本发明提出一种基于逐次概率判别算法的工业控制网络蜜罐识别方法，可以识别不同场景和网络环境中的常见开源以及自研工控蜜罐。

本发明的技术方案如下：

一种基于逐次概率判别算法的工业控制网络蜜罐识别方法，包含如下步骤：收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征、训练逐次概率识别模型以及应用该逐次概率识别模型进行工业控制网络蜜罐的识别。

一、收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征

(一)独有特征

Conpot与S7协议分析

Conpot对S7协议的实现源码，提取特征如下：

1.S7协议实现默认配置信息列表，列表主要含有系统名称(SystemName)、S7设备型号(s7_id)、S7设备模块名称(s7_module_type)、S7设备名称(FacilityName)、模块名称(module_name)和版权(Copyright)五项特征。其中基本默认配置：FacilityName初始值设置为“Mouser Factory”、SystemName初始值设置为“Technodrome”、s7_id初始值设置为“88111222”、Copyright初始值设置为“Original Siemens Equipment”、S7_module_type初始值设置为“IM151-8PN/DP CPU”、将Module Name的初始值为“Siemens,SIMATIC,S7-200”；

2.S7协议连接时长，Conpot的设计者为了避免攻击者长时间保持与Conpot蜜罐连接，占用带宽，在源代码中设置了与Conpot的S7蜜罐设备连接最长时间为5秒。

3.S7协议回复时长，经过大量实验，发现真实设备的请求回复时长是Conpot蜜罐回复时长的7倍左右，可以理解为真实设备的计算能力普遍弱于部署蜜罐的计算机设备。但该特征受网络环境(路由器跳数)的影响较大。

Gaspot与ATG协议

分析Gaspot对ATG协议的实现源码，提取特征如下：

1.ATG协议实现默认配置信息列表，列表主要含有产品名称1(product1)、产品名称2(product2)、产品名称3(product3)、产品名称4(product4)以及地理位置(station)。其中product1初始值设置为SUPER，product2初始值设置为UNLEAD，product3的初始值设置为DIESEL，product4的初始值设置为PREMIUM。地理位置信息为众多真实油气设备地理位置列表。

2.ATG协议请求回复默认配置，ATG协议主要应用于油气设备控制。通过大量试验发现，真实设备的容量(VolumeTC)字段在一段时间内(一般为12小时)的变化量的绝对值基本等于缺量(ULLAGE)字段的变化量的绝对值。而Gaspot对上述两个字段的数值采用随机化的方式进行生成。

Conpot与Modbus协议

1.Modbus协议读写寄存器功能实现，Conpot未实现对寄存器的读写功能。通过大量实现发现，Conpot在针对功能码0x10和0x03的回复都有错误：Illegal data address(非法数据地址)；

2.Modbus协议回复错误功能码功能实现，当连续对Conpot蜜罐设备发送错误功能码时，Conpot蜜罐只接受数据而不会回复。而真实设备会正确回复错诶功能码。

(二)共有特征

由于蜜罐设备都是对真实工控设备的虚拟，必然会存在共同的虚拟缺陷，发现该类缺陷对识别蜜罐将会起到极大作用。

1.端口特征，通过大量实验，发现真实设备通常只会开放个位数的端口，而蜜罐设备会开放数十个端口。

2.系统特征，通过大量实验发现蜜罐往往存在于云端主机或虚拟机上，其操作系统通常是Linux操作系统。

3.部署特征，通过大量实验发现如果目标设备的Whois信息是云服务商或是网络供应商，则有很大可能该设备是蜜罐设备。

二、应用该逐次概率识别模型进行工业控制网络蜜罐的识别

(一)生成训练模型数据集

考虑到协议特征方面的不同，本发明将数据集依据协议划分为3个子数据集，分别是全球IPv4的Modbus协议数据集，S7协议数据以及ATG数据集。其中蜜罐标签根据如下3条依据确定：1.该设备网络供应商为云服务供应商；2.该设备由企业网络供应商托管且具有Windows操作系统；3.该设备的网络供应商为大学。

其中Modbus协议数据集的特征选择：Modbus读写寄存器功能状态，Modbus错误功能码回复时间，端口数量，路由器跳数。具体描述如表1所示。各个特征按照编号的先后顺序标记为{x₁,x₂,x₃,x₄}，对这些特征进行处理，对于x₁读写寄存器功能，只有两种结果能或者是不能，所以x₁∈{0,1}。由于Modbus错误功能码回复时间跨度较大，对x₂进行归一化处理。对x₃取原本的数值进行编码，由于数据集中路由器跳数最小值为19，最大值为30，所以对x₄进行等宽化处理，从15开始，以5为间隔，按照原本数值对应分别编码为0到2。

其中S7协议数据集特征选择：设备名称字段，设备标识符字段，设备模块序列号字段，5s后断开连接状态，报文回复时间，端口数量以及路由器跳数。具体描述如表2所示。各个特征按照编号的先后顺序标记为{x₁,x₂,x₃,x₄,x₅,x₆,x₇}，对这些特征进行处理，对x₁，x₂，x₃按照字典编码，取每个特征数量最多的值放入字典中，将其他较少的数值统一标号，即x_i∈{0,1,2,...,n},i∈{1,2,3}。特征取值最多的4个数值为空值、Technodrome、SAAP7-SERVER和SIMATIC 300(1)，分别在数据集中以0到3对相应的数值编码，其他少量存在的数值以4编码。特征取值最多的3个数值为空值、Mouser Factory和DoE Water Service，分别在数据集中以0到2对相应的数值编码，其他少量存在的数值以3编码。特征取值最多的3个数值为空值、88111222和S C-C2UR28922012，分别在数据集中以0到2对相应的数值编码，其他少量存在的数值以3编码。对特征按照经过5s后主动断开连接编码为1，积极主动继续建立连接编码为0。对特征报文回复时间进行等宽化处理，对标签为蜜罐的特征的取值进行平均取值发现平均值为0.3左右，对标签为非蜜罐的特征的取值进行平均取值发现平均值为0.6左右，所以取0.2为单位，从0开始取7个分段，等宽化处理特征的数据。对特征开放端口数量不处理，按照原本的数值进行编码。路由器跳数使用等宽化进行编码，由于数据集中最小的跳数为14，最大的跳数为30，选择从10开始，5为间隔，共取4段，按照原本数值对应分别编码为0到3。

其中ATG协议数据集特征选择：ATG协议的产品名称1，ATG协议的产品名称2，ATG协议的产品名称3，ATG协议的产品名称4，ATG协议应用层时序特征，端口数量，路由器跳数。具体描述如表3所示。各个特征按照编号的先后顺序标记为{x₁,x₂,x₃,x₄,x₅,x₆,x₇}，对这些特征进行处理，对x₁，x₂，x₃，x₄按照01编码，将特征x₁中特征值为SUPER的编码为1，其他编码为0，特征x₂中特征值为UNLEAD的编码为1，其他编码为0，特征x₃中特征值为DIESEL的编码为1，其他编码为0，特征x₄中特征值为PREMIUM的编码为1，其他编码为0。对特征x₅按照符合ATG协议应用层时序特征标记为1，不符合标记为0。对特征x₆开放端口数量不处理，按照原本的数值进行编码。路由器跳数x₇使用等宽化进行编码，由于数据集中最小的跳数为16，最大的跳数为30，选择从15开始，5为间隔，共取3段，按照原本数值对应分别编码为0到2。

将每个协议的数据集划分成两个互斥的集合，训练集和测试集，按照7:3的比例划分。将蜜罐样本在训练集和测试集的数量控制在7:3，将非蜜罐样本在训练集和测试集的数量也控制在7:3。S7comm协议数据集中共有928条数据，Modbus协议数据集中共有100条数据，ATG协议数据集中共有391条数据。

(二)逐次概率判别算法

对于设备i，设其是蜜罐的概率是H_i，首先使用第一个特征x₁计算在特征x₁的条件下，H_i＝1的条件概率P(H_i＝1|x₁)，如果该条件概率大于设定的阈值T，则认为该设备是蜜罐；如果该条件概率小于设定的阈值T，则继续计算添加了第二个特征x₂下的条件概率P(H_i＝1|x₁,x₂)，再次判断该条件概率是否大于设定的阈值T，依次类推依次特征x₃，x₄，...，x_n。最终如果使用了所有的特征后条件概率均小于设定的阈值T，则认为该设备是真实设备。

设X_k表示协议k所有特征集合，X_k＝{x₁,x₂,...,x_n}，X_-i表示第i次计算条件概率所使用特征集合，X_-i＝{x₁,x₂,...,x_i}。

对于运行协议k的设备，逐次概率判别算法可以描述如下：

1.第一次依据协议k的特征x₁计算H_i＝1的条件概率，

其中

表示H_i＝1且x_i＝j(x_i取对应特征的第j个值，下文中含义相同)的在数据集中的样本数量，N表示数据及总体样本数量。如果P(H_i＝1|x₁＝j)大于设定的阈值T，则认为该设备H_i是蜜罐设备。其中X_-i＝X_-1＝{x₁}。如果小于阈值T则添加第二特征继续计算H_i＝1的条件概率P(H_i＝1|x₁＝j,x₂＝k)。

2.依据特征x₁和x₂计算H_i＝1的条件概率，

其中

表示H_i＝1且x_i＝j，x₂＝k的在数据集中的样本数量，N表示数据及总体样本数量。其中X_-i＝X_-2＝{x₁,x₂}。如果P(H_i＝1|x₁＝j,x₂＝k)大于设定的阈值T，则认为该设备H_i是蜜罐设备。

3.依次类推，第m次计算H_i＝1的条件概率，

其中

表示H_i＝1且x₁＝j，...，x_m＝z的在数据集中的样本数量，N表示数据及总体样本数量。其中X_-i＝X_-m＝{x₁,...,x_m}。

如果小于阈值T则逐次添加其余特征继续计算H_i＝1的条件概率P(H_i＝1|x₁＝j,x₂＝k,...)。直到该条件概率大于设定阈值T或用完所有特征，X_-n＝X。如果使用完所有特征得到的条件概率仍然小于阈值T，则认为给设备是真实设备。

本发明可以有效减少与目标设备的交互次数，减小目标设备的交互压力，提高识别准确率与识别效率。本发明通过大量实验，验证了该方法在交互次数，识别效率与识别准确率上有较好的效果。

附图说明

图1是本发明中工业控制网络蜜罐识别流程示意图。

图2是本发明中逐次概率判别算法的流程图。

具体实施方式

以下结合附图和具体实施方案对本发明作进一步的详细说明。

下面是本发明中逐次概率判别算法伪代码。

输入：特征集合X，数据集D，未知设备i

输出：未知设备i的蜜罐标签

过程：

表1 Modbus协议数据集的特征

编号	名称	描述
			1	ReadWriteHoldingRegisters	Modbus读写寄存器功能
2	ErrorResponseTime	Modbus错误功能码回复时间
			3	PortsNum	端口数量
4	RouterHops	路由器跳数

表2 S7协议数据集的特征

编号	名称	描述
			1	NameOfThePLC	S7comm协议NameOfThePLC字段
2	PlantIdentification	S7comm协议PlantIdentification字段
			3	SerialNumberOfModule	S7comm协议SerialNumberOfModule字段
4	Time5Later	S7comm协议5s后是否选择断开连接
			5	ResponseTime	S7comm协议报文回复时间
6	PortsNum	端口数量
			7	RouterHops	路由器跳数

表3 ATG协议数据集的特征

编号	名称	描述
			1	ATGproduct1	ATG协议的产品1名称
2	ATGproduct2	ATG协议的产品2名称
			3	ATGproduct3	ATG协议的产品3名称
4	ATGproduct4	ATG协议的产品4名称
			5	ATGTimeApplication	ATG协议应用层时序特征
6	PortsNum	端口数量
			7	RouterHops	路由器跳数

表4实施案例一中各算法效果对比表

实施例1：真实设备与工控蜜罐识别

本发明使用上述中所描述的三种协议数据集对本发明所提逐次概率判别算法与常见的机器学习算法进行识别效果对比。表4展示了对三种协议使用逐次概率模型与支持向量机、朴素贝叶斯和决策树的识别效果。Y代表通过逐次概率判别算法判断后与标签符合的数据数量，N代表通过逐次概率判别算法判断后与标签不符合的数据数量，包括判断为蜜罐但实际不是蜜罐和未判断出是蜜罐但是标签为蜜罐的数量和。U代表通过逐次概率判别算法判断后没有判断为蜜罐，即不确定是否为蜜罐的数量。可以看到，逐次概率判别算法在使用较少特征的条件下，仍然可以取得较好的识别效果，优于支持向量机模型和朴素贝叶斯，与决策树算法相当。

Claims

1.一种基于逐次概率判别算法的工业控制网络蜜罐识别方法，其特征在于包含如下步骤：

一、收集蜜罐与真实设备数据、提取工业控制网络蜜罐特征

(一)独有特征

Conpot与S7协议分析

Conpot对S7协议的实现源码，提取特征如下：

1.S7协议实现默认配置信息列表，列表主要含有系统名称(SystemName)、S7设备型号(s7_id)、S7设备模块名称(s7_module_type)、S7设备名称(FacilityName)、模块名称(module_name)和版权(Copyright)五项特征；其中基本默认配置：FacilityName初始值设置为“Mouser Factory”、SystemName初始值设置为“Technodrome”、s7_id初始值设置为“88111222”、Copyright初始值设置为“Original Siemens Equipment”、S7_module_type初始值设置为“IM151-8 PN/DP CPU”、将Module Name的初始值为“Siemens,SIMATIC,S7-200”；

2.S7协议连接时长，Conpot的设计者为了避免攻击者长时间保持与Conpot蜜罐连接，占用带宽，在源代码中设置了与Conpot的S7蜜罐设备连接最长时间为5秒；

3.S7协议回复时长，经过大量实验，发现真实设备的请求回复时长是Conpot蜜罐回复时长的7倍左右；

Gaspot与ATG协议

分析Gaspot对ATG协议的实现源码，提取特征如下：

1.ATG协议实现默认配置信息列表，列表主要含有产品名称1(product1)、产品名称2(product2)、产品名称3(product3)、产品名称4(product4)以及地理位置(station)；其中product1初始值设置为SUPER，product2初始值设置为UNLEAD，product3的初始值设置为DIESEL，product4的初始值设置为PREMIUM；地理位置信息为众多真实油气设备地理位置列表；

2.ATG协议请求回复默认配置，ATG协议主要应用于油气设备控制；通过大量试验发现，真实设备的容量(VolumeTC)字段在一段时间内的变化量的绝对值基本等于缺量(ULLAGE)字段的变化量的绝对值；而Gaspot对上述两个字段的数值采用随机化的方式进行生成；

Conpot与Modbus协议

1.Modbus协议读写寄存器功能实现，Conpot未实现对寄存器的读写功能；通过大量实现发现，Conpot在针对功能码0x10和0x03的回复都有错误：Illegal data address(非法数据地址)；

2.Modbus协议回复错误功能码功能实现，当连续对Conpot蜜罐设备发送错误功能码时，Conpot蜜罐只接受数据而不会回复；而真实设备会正确回复错诶功能码；

(二)共有特征

1.端口特征，通过实验发现真实设备通常只会开放个位数的端口，而蜜罐设备会开放数十个端口；

2.系统特征，通过实验发现蜜罐往往存在于云端主机或虚拟机上，其操作系统通常是Linux操作系统；

3.部署特征，通过实验发现如果目标设备的Whois信息是云服务商或是网络供应商，则有很大可能该设备是蜜罐设备；

二、应用该逐次概率识别模型进行工业控制网络蜜罐的识别

(一)生成训练模型数据集

考虑到协议特征方面的不同，本发明将数据集依据协议划分为3个子数据集，分别是全球IPv4的Modbus协议数据集，S7协议数据以及ATG数据集；其中蜜罐标签根据如下3条依据确定：该设备网络供应商为云服务供应商；该设备由企业网络供应商托管且具有Windows操作系统；该设备的网络供应商为大学；

其中Modbus协议数据集的特征选择：Modbus读写寄存器功能状态，Modbus错误功能码回复时间，端口数量，路由器跳数；各个特征按照编号的先后顺序标记为{x₁,x₂,x₃,x₄}，对这些特征进行处理，对于x₁读写寄存器功能，只有两种结果能或者是不能，所以x₁∈{0,1}；由于Modbus错误功能码回复时间跨度较大，对x₂进行归一化处理；对x₃取原本的数值进行编码，由于数据集中路由器跳数最小值为19，最大值为30，所以对x₄进行等宽化处理，从15开始，以5为间隔，按照原本数值对应分别编码为0到2；

其中S7协议数据集特征选择：设备名称字段，设备标识符字段，设备模块序列号字段，5s后断开连接状态，报文回复时间，端口数量以及路由器跳数；具体描述如表2所示；各个特征按照编号的先后顺序标记为{x₁,x₂,x₃,x₄,x₅,x₆,x₇}，对这些特征进行处理，对x₁，x₂，x₃按照字典编码，取每个特征数量最多的值放入字典中，将其他较少的数值统一标号，即x_i∈{0,1,2,...,n},i∈{1,2,3}；特征取值最多的4个数值为空值、Technodrome、SAAP7-SERVER和SIMATIC 300(1)，分别在数据集中以0到3对相应的数值编码，其他少量存在的数值以4编码；特征取值最多的3个数值为空值、Mouser Factory和DoE Water Service，分别在数据集中以0到2对相应的数值编码，其他少量存在的数值以3编码；特征取值最多的3个数值为空值、88111222和S C-C2UR28922012，分别在数据集中以0到2对相应的数值编码，其他少量存在的数值以3编码；对特征按照经过5s后主动断开连接编码为1，积极主动继续建立连接编码为0；对特征报文回复时间进行等宽化处理，对标签为蜜罐的特征的取值进行平均取值发现平均值为0.3左右，对标签为非蜜罐的特征的取值进行平均取值发现平均值为0.6左右，所以取0.2为单位，从0开始取7个分段，等宽化处理特征的数据；对特征开放端口数量不处理，按照原本的数值进行编码；路由器跳数使用等宽化进行编码，由于数据集中最小的跳数为14，最大的跳数为30，选择从10开始，5为间隔，共取4段，按照原本数值对应分别编码为0到3；

其中ATG协议数据集特征选择：ATG协议的产品名称1，ATG协议的产品名称2，ATG协议的产品名称3，ATG协议的产品名称4，ATG协议应用层时序特征，端口数量，路由器跳数；各个特征按照编号的先后顺序标记为{x₁,x₂,x₃,x₄,x₅,x₆,x₇}，对这些特征进行处理，对x₁，x₂，x₃，x₄按照01编码，将特征x₁中特征值为SUPER的编码为1，其他编码为0，特征x₂中特征值为UNLEAD的编码为1，其他编码为0，特征x₃中特征值为DIESEL的编码为1，其他编码为0，特征x₄中特征值为PREMIUM的编码为1，其他编码为0；对特征x₅按照符合ATG协议应用层时序特征标记为1，不符合标记为0；对特征x₆开放端口数量不处理，按照原本的数值进行编码；路由器跳数x₇使用等宽化进行编码，由于数据集中最小的跳数为16，最大的跳数为30，选择从15开始，5为间隔，共取3段，按照原本数值对应分别编码为0到2；

将每个协议的数据集划分成两个互斥的集合，训练集和测试集，按照7:3的比例划分；将蜜罐样本在训练集和测试集的数量控制在7:3，将非蜜罐样本在训练集和测试集的数量也控制在7:3；S7comm协议数据集中共有928条数据，Modbus协议数据集中共有100条数据，ATG协议数据集中共有391条数据；

(二)逐次概率判别算法

对于设备i，设其是蜜罐的概率是H_i，首先使用第一个特征x₁计算在特征x₁的条件下，H_i＝1的条件概率P(H_i＝1|x₁)，如果该条件概率大于设定的阈值T，则认为该设备是蜜罐；如果该条件概率小于设定的阈值T，则继续计算添加了第二个特征x₂下的条件概率P(H_i＝1|x₁,x₂)，再次判断该条件概率是否大于设定的阈值T，依次类推依次特征x₃，x₄，...，x_n；最终如果使用了所有的特征后条件概率均小于设定的阈值T，则认为该设备是真实设备；

设X_k表示协议k所有特征集合，X_k＝{x₁,x₂,...,x_n}，X_-i表示第i次计算条件概率所使用特征集合，X_-i＝{x₁,x₂,...,x_i}；

对于运行协议k的设备，逐次概率判别算法描述如下：

1.第一次依据协议k的特征x₁计算H_i＝1的条件概率，

其中

表示H_i＝1且x_i＝j(x_i取对应特征的第j个值，下文中含义相同)的在数据集中的样本数量，N表示数据及总体样本数量；如果P(H_i＝1|x₁＝j)大于设定的阈值T，则认为该设备H_i是蜜罐设备；其中X_-i＝X_-1＝{x₁}；如果小于阈值T则添加第二特征继续计算H_i＝1的条件概率P(H_i＝1|x₁＝j,x₂＝k)；

2.依据特征x₁和x₂计算H_i＝1的条件概率，

其中

表示H_i＝1且x_i＝j，x₂＝k的在数据集中的样本数量，N表示数据及总体样本数量；其中X_-i＝X_-2＝{x₁,x₂}；如果P(H_i＝1|x₁＝j,x₂＝k)大于设定的阈值T，则认为该设备H_i是蜜罐设备；

3.依次类推，第m次计算H_i＝1的条件概率，

其中

表示H_i＝1且x₁＝j，...，x_m＝z的在数据集中的样本数量，N表示数据及总体样本数量；其中X_-i＝X_-m＝{x₁,...,x_m}；

如果小于阈值T则逐次添加其余特征继续计算H_i＝1的条件概率P(H_i＝1|x₁＝j,x₂＝k,...)；直到该条件概率大于设定阈值T或用完所有特征，X_-n＝X；如果使用完所有特征得到的条件概率仍然小于阈值T，则认为给设备是真实设备。