CN111211948B

CN111211948B - 基于载荷特征和统计特征的Shodan流量识别方法

Info

Publication number: CN111211948B
Application number: CN202010043208.7A
Authority: CN
Inventors: 陈永乐; 马垚; 于丹; 杨玉丽; 连晓伟
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2022-05-27
Anticipated expiration: 2040-01-15
Also published as: CN111211948A

Abstract

本发明涉及一种基于载荷特征和统计特征的Shodan流量识别方法，包括步骤：在网络中设置交换机流量镜像端口，部署嗅探器进行流量监听；嗅探器对监听到的流量以数据包窗口的方式进行解析，分别提取载荷特征和统计特征；利用嗅探器的解析结果，对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别，完成Shodan流量和非Shodan流量的分类。通过本发明，能够通过功能码序列特征准确反映流量交互的先后次序，对于扫描类流量的识别具有极高的识别率；本发明分别构建网络层和应用层识别模型，可从多个维度、侧面去分析流量特征，从而扩大了传统流量检测的范围，提高流量识别的准确率。

Description

基于载荷特征和统计特征的Shodan流量识别方法

技术领域

本发明涉及工业控制系统安全技术领域，更具体地说，涉及一种基于载荷特征和统计特征的Shodan流量识别方法。

背景技术

工业控制系统广泛应用于油气管道、供水系统、电网、核电站等关键基础设施的重要领域。随着工业信息化的快速发展，给工业控制系统带来了更多的互联网因素，大量的工控设备被接入到互联网中，因此传统网络攻击也逐渐渗透到工业控制领域，对工控系统造成严重威胁。Shodan搜索引擎的出现使得这种威胁得到放大。由于能够识别和索引面向互联网的工业控制系统组件，Shodan搜索引擎受到了极大的关注。

2009年，程序员约翰·马瑟利(John Matherly)推出了Shodan。它是全球第一个全网设备搜索引擎，带有图形用户界面，可以识别面向互联网的设备。不同于传统搜索引擎以网页内容索引为主，Shodan可以识别具有可路由IP地址的设备，包括计算机、打印机、网络摄像头和工业控制设备等。Shodan每周7天、每天24小时都在运行，每月收集大约5亿台联网设备和服务的信息。它将收集到的设备信息存储在一个可搜索的数据库中，该数据库可通过web接口或Shodan API进行访问。用户可以使用一系列过滤器查询Shodan数据库，这些过滤器包括国家、主机名、网络信息、操作系统和端口等。

Shodan搜索引擎的设计目的是搜索互联网，并试图识别和索引连接的设备。Shodan已经识别出数万个与工业控制系统相关的面向互联网的设备。识别工控相关设备的能力引起了重大的安全问题。美国国土安全部发布了一份关于Shodan的报告，详细说明了工业控制设备暴露在互联网下的风险。CNNMoney的一篇文章写道，虽然目前人们都认为谷歌是最强劲的搜索引擎，但Shodan才是互联网上最可怕的搜索引擎。事实上，Shodan为攻击者提供了一个强大的侦察工具。攻击者通过Shodan可以很方便的发现暴露在互联网上的工业控制设备以及与该设备相关的IP地址，开放的服务和存在的漏洞等信息。进而通过这些信息发动攻击，对工控系统造成严重破坏。

互联网流量识别方法主要分为三种：基于端口的识别方法、深度包检测(DPI)识别方法和基于机器学习的识别方法。基于端口的流量识别根据各种协议和各种网络应用使用特定端口对网络流量进行识别。例如基于HTTP协议的Web应用，使用的服务器端口是80，基于FTP协议的文件传输应用则是使用20与21端口，SSH远程登录协议使用22端口，telnet远程终端使用23端口等。深度包检测识别通过对目标流量进行协议或者应用的特征分析，提取数据包负载中所携带的特征码，将其应用到流量的识别当中。基于机器学习的流量识别通过从网络流量中抽取一系列独立于荷载的统计属性，然后采用机器学习的方法训练出一个识别模型，从而进行下一步的流量识别。

对于Shodan流量的识别来说，基于端口号的流量识别方法并不适用。在深度包检测识别中，Grimaudo等人基于DPI技术，通过设计一个分级分类器将流量正确地分类为20多个细粒度的类，构建了一个阶层式自学习的分类模型，这种集成的识别结构充分利用了传统DPI技术的准确性，并结合其他技术在很大程度上弥补了DPI技术的不足。北京理工大学付文亮等应用轻量级的DPI技术，基于FPGA实现了一种叫RocketTC的实时识别技术，这种基于硬件的技术在高速网络环境下性能优势尤为明显。在基于机器学习的流量识别中，Moore等人提出了249个统计特征作为流量识别的分类依据，后续的研究在这些特征的基础上使用不同的机器学习算法进行流量识别。QIAN Yaguan等人通过构造每个二进制SVM具有最佳可辨别性的独立特征空间，并将其训练到其自身的特征空间内，有效地提高了流量分类器的精度和召回率。程华等人针对加密通信的行为特点，利用密文十六进制字符的向量表示方法完成加密流量的向量化表达，并采用多窗口卷积神经网络提取加密C&C通信模式的特征，实现加密C&C通信数据流的识别与分类。

然而这些针对流量的识别算法都存在特征选取范围过窄的问题，其未考虑到流量完整的特征，易导致识别效果不理想。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于载荷特征和统计特征的Shodan流量识别方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于载荷特征和统计特征的Shodan流量识别方法，包括步骤：

在网络中设置交换机流量镜像端口，部署嗅探器进行流量监听；

嗅探器对监听到的流量以数据包窗口的方式进行解析，分别提取载荷特征和统计特征；其中，载荷特征为应用层特征，统计特征为网络层特征；

利用嗅探器的解析结果，对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别，完成Shodan流量和非Shodan流量的分类。

在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中，在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中，包括步骤：

将流量输入基于状态机的载荷特征识别模型，通过判断载荷特征中的功能码序列特征，将流量分为类似Shodan流量和第一非Shodan流量；

将类似Shodan流量输入基于统计特征的SVM识别模型进行识别，识别类似Shodan流量中的第二非Shodan流量，从而完成Shodan流量和非Shodan流量的分类。

在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中，在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前，还包括对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤。

在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中，对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤包括：

收集正常的modbus/TCP通信流量，从网络层和应用层分别提取载荷特征和统计特征，确认是否属于Shodan流量并进行标记，生成完整的数据集；

将数据集分别输入到基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练、测试，对模型进行优化，完成对模型的训练。

在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中，在确认流量是否属于Shodan流量并进行标记的步骤中，通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域，并进行标记。

在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中，在提取载荷特征和统计特征的步骤中，

应用层特征是在一定长数据包窗口内，提取每条数据包的功能码，并将一系列功能码按照先后顺序组成功能码序列；

网络层特征是采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值特征，作为统计特征。

区别于现有技术，本发明提供的基于载荷特征和统计特征的Shodan流量识别方法包括步骤：在网络中设置交换机流量镜像端口，部署嗅探器进行流量监听；嗅探器对监听到的流量以数据包窗口的方式进行解析，分别提取载荷特征和统计特征；其中，载荷特征为应用层特征，统计特征为网络层特征；利用嗅探器的解析结果，对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别，完成Shodan流量和非Shodan流量的分类。通过本发明，能够通过功能码序列特征准确反映流量交互的先后次序，对于扫描类流量的识别具有极高的识别率；本发明分别构建网络层和应用层识别模型，可从多个维度、侧面去分析流量特征，从而扩大了传统流量检测的范围，提高流量识别的准确率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法的流程示意图。

图2是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法的逻辑示意图。

图3是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法的实验结果对比示意图。

图4是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法与现有方法的识别结果对比示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1所示，本发明的一种基于载荷特征和统计特征的Shodan流量识别方法包括步骤：

S110：在网络中设置交换机流量镜像端口，部署嗅探器进行流量监听。

嗅探器需部署在计算机中，此计算机与镜像流量端口直接相连。

S120：嗅探器对监听到的流量以数据包窗口的方式进行解析，分别提取载荷特征和统计特征；其中，载荷特征为应用层特征，统计特征为网络层特征。

数据包窗口是设置一定长数据包窗口，在此窗口内进行数据包解析，提取应用层及网络层特征。其中网络层指的是不解析协议应用层内容，主要处理传输层及以下信息，应用层指采集数据包功能码序列特征。根据工控协议规约，功能码用于标明一个信息帧的用途，也就是指明数据包的功能，通常在协议数据包的某个固定字段指明。

S130：利用嗅探器的解析结果，对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别，完成Shodan流量和非Shodan流量的分类。

通过对不同工控协议分别建立自动状态机，对不同协议的数据包进行基于状态机的功能码序列匹配，就可以区分出所捕获的数据包是否为Shodan流量。

本实施例提供一个采用本发明方法的Shodan流量识别系统实例。该方法分为三个阶段，准备阶段、模型构建阶段、流量识别阶段，系统整体框架如图2所示。

1.准备阶段：

1)事先收集正常的modbus/TCP通信流量，在工业生产环境的网关中设置镜像端口，并将端口直接连接到某一设备A中，将数据流信息实时引入到设备A中。

2)特征提取，从网络层和应用层两个层次分别提取特征信息。

针对网络层方面，采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值等特征作为统计特征。

针对应用层方面，在一定长数据包窗口内，提取每条数据包的功能码，并将一系列功能码按照先后顺序组成功能码序列。在工控协议，功能码用于标明一个信息帧的用途，也就是指明数据包的功能，通常在协议数据包的某个固定字段指明。例如，modbus功能码0x03，表示读取保持寄存器，在工业生产环境中HMI周期性发送着这种大量的数据包，读取设备的状态获取系统工作的各项指标。

然后通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域对已知样本进行标记，生成完整的数据集。

2.模型构建阶段：

在模型构建中，我们将特征提取中量化后数据集输入到流量识别模块中，其在接收到不同阶段的数据后，进行模型训练。

首先对载荷特征进行识别，我们采用基于状态自动机的应用层协议功能码序列匹配方法，将协议的一次完整的数据交互看作一个过程，在这一过程中提取出各阶段的状态，然后找出这些状态的特征，从而建立一个该协议的串行状态规则。

基于状态自动机的应用层协议功能码序列匹配方法是通过串行逻辑判断实现的，所以要知道一次完整通信中各阶段的数据状态，而工控协议中的功能码正好能够实现这一功能。根据工控协议规约，功能码用于标明一个信息帧的用途，也就是指明数据包的功能，通常在协议数据包的某个固定字段指明。由于Shodan扫描为机器扫描，其扫描流量序列相对固定，所以我们可以从流量数据中提取这些功能码，并将其表示成基于自动状态机的协议交互状态。

然后对统计特征进行识别，针对Shodan流量统计特征的识别模型，实际上是设计一个分类器，对具有交互行为特征的数据进行分析处理，以识别出Shodan扫描流量。由于工控网络数据具有高维、非线性等特点，针对流量交互特性设计的Shodan流量识别算法需要适应工控流量的特殊性，以达到更好的识别效果。基于机器学习的SVM是一种采用凸二次规划优化的分类与预测方法，具有小样本检测率高、泛化能力强的优势，适合于流量识别。

利用SVM算法进行Shodan流量识别建模，首先是根据提取的流量统计特征，建立识别模型训练集和测试集，并通过设定算法模型参数，对数据集进行训练以获得Shodan流量识别模型的决策函数，具体的实现步骤如下：

1)根据流量特征提取阶段提取的特征对数据集进行处理，构建实验训练集和测试集。

2)选择合适的核函数，并设定核函数的优化参数以及惩罚因子C，其中C是用于控制寻找最大超平面和保证数据点偏差量最小之间的权重，构造并求解凸二次规划的优化问题：

0≤α_i≤C,i＝1,2,...,N

3)通过计算，得出拉格朗日算子α的最优解α*＝(α1*，α2*，…，αN*)T。并计算：

4)求出最优分类函数：

5)利用建立的决策函数对测试数据集进行分类预测，如果达到训练精度的要求则输出，即获得对Shodan流量识别模型的决策函数，如果不满足检测精度的要求，则对参数进行优化，重新训练，以建立高效的SVM识别模型。

最后，通过两个识别模型，将Shodan流量与非Shodan流量进行有效区分，输出结果。

3.流量识别阶段：

流量识别阶段主要利用前面训练好的模型，对实时数据进行预测，判断是否为Shodan扫描流量。在实际部署中，流量识别模块一直持续的对已接收数据进行预测、评估，若当前接收到的数据为Shodan流量，则将该流量IP地址进行记录。图3和图4示出了本发明所述的基于载荷特征和统计特征的Shodan流量识别方法与现有技术方法的精度及准确率的对比示意图，由图3和图4可知，本发明的方法在精度和准确率方面都高于现有技术的识别结果。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于载荷特征和统计特征的Shodan流量识别方法，其特征在于，包括以下步骤：

利用嗅探器的解析结果，对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别，完成Shodan流量和非Shodan流量的分类；

在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中，包括步骤：

2.根据权利要求1所述的基于载荷特征和统计特征的Shodan流量识别方法，其特征在于，在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前，还包括对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤。

3.根据权利要求2所述的基于载荷特征和统计特征的Shodan流量识别方法，其特征在于，对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤包括：

4.根据权利要求3所述的基于载荷特征和统计特征的Shodan流量识别方法，其特征在于，在确认流量是否属于Shodan流量并进行标记的步骤中，通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域，并进行标记。

5.根据权利要求1所述的基于载荷特征和统计特征的Shodan流量识别方法，其特征在于，在提取载荷特征和统计特征的步骤中，