CN111211948B - 基于载荷特征和统计特征的Shodan流量识别方法 - Google Patents
基于载荷特征和统计特征的Shodan流量识别方法 Download PDFInfo
- Publication number
- CN111211948B CN111211948B CN202010043208.7A CN202010043208A CN111211948B CN 111211948 B CN111211948 B CN 111211948B CN 202010043208 A CN202010043208 A CN 202010043208A CN 111211948 B CN111211948 B CN 111211948B
- Authority
- CN
- China
- Prior art keywords
- flow
- shodan
- load
- statistical
- statistical characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于载荷特征和统计特征的Shodan流量识别方法,包括步骤:在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。通过本发明,能够通过功能码序列特征准确反映流量交互的先后次序,对于扫描类流量的识别具有极高的识别率;本发明分别构建网络层和应用层识别模型,可从多个维度、侧面去分析流量特征,从而扩大了传统流量检测的范围,提高流量识别的准确率。
Description
技术领域
本发明涉及工业控制系统安全技术领域,更具体地说,涉及一种基于载荷特征和统计特征的Shodan流量识别方法。
背景技术
工业控制系统广泛应用于油气管道、供水系统、电网、核电站等关键基础设施的重要领域。随着工业信息化的快速发展,给工业控制系统带来了更多的互联网因素,大量的工控设备被接入到互联网中,因此传统网络攻击也逐渐渗透到工业控制领域,对工控系统造成严重威胁。Shodan搜索引擎的出现使得这种威胁得到放大。由于能够识别和索引面向互联网的工业控制系统组件,Shodan搜索引擎受到了极大的关注。
2009年,程序员约翰·马瑟利(John Matherly)推出了Shodan。它是全球第一个全网设备搜索引擎,带有图形用户界面,可以识别面向互联网的设备。不同于传统搜索引擎以网页内容索引为主,Shodan可以识别具有可路由IP地址的设备,包括计算机、打印机、网络摄像头和工业控制设备等。Shodan每周7天、每天24小时都在运行,每月收集大约5亿台联网设备和服务的信息。它将收集到的设备信息存储在一个可搜索的数据库中,该数据库可通过web接口或Shodan API进行访问。用户可以使用一系列过滤器查询Shodan数据库,这些过滤器包括国家、主机名、网络信息、操作系统和端口等。
Shodan搜索引擎的设计目的是搜索互联网,并试图识别和索引连接的设备。Shodan已经识别出数万个与工业控制系统相关的面向互联网的设备。识别工控相关设备的能力引起了重大的安全问题。美国国土安全部发布了一份关于Shodan的报告,详细说明了工业控制设备暴露在互联网下的风险。CNNMoney的一篇文章写道,虽然目前人们都认为谷歌是最强劲的搜索引擎,但Shodan才是互联网上最可怕的搜索引擎。事实上,Shodan为攻击者提供了一个强大的侦察工具。攻击者通过Shodan可以很方便的发现暴露在互联网上的工业控制设备以及与该设备相关的IP地址,开放的服务和存在的漏洞等信息。进而通过这些信息发动攻击,对工控系统造成严重破坏。
互联网流量识别方法主要分为三种:基于端口的识别方法、深度包检测(DPI)识别方法和基于机器学习的识别方法。基于端口的流量识别根据各种协议和各种网络应用使用特定端口对网络流量进行识别。例如基于HTTP协议的Web应用,使用的服务器端口是80,基于FTP协议的文件传输应用则是使用20与21端口,SSH远程登录协议使用22端口,telnet远程终端使用23端口等。深度包检测识别通过对目标流量进行协议或者应用的特征分析,提取数据包负载中所携带的特征码,将其应用到流量的识别当中。基于机器学习的流量识别通过从网络流量中抽取一系列独立于荷载的统计属性,然后采用机器学习的方法训练出一个识别模型,从而进行下一步的流量识别。
对于Shodan流量的识别来说,基于端口号的流量识别方法并不适用。在深度包检测识别中,Grimaudo等人基于DPI技术,通过设计一个分级分类器将流量正确地分类为20多个细粒度的类,构建了一个阶层式自学习的分类模型,这种集成的识别结构充分利用了传统DPI技术的准确性,并结合其他技术在很大程度上弥补了DPI技术的不足。北京理工大学付文亮等应用轻量级的DPI技术,基于FPGA实现了一种叫RocketTC的实时识别技术,这种基于硬件的技术在高速网络环境下性能优势尤为明显。在基于机器学习的流量识别中,Moore等人提出了249个统计特征作为流量识别的分类依据,后续的研究在这些特征的基础上使用不同的机器学习算法进行流量识别。QIAN Yaguan等人通过构造每个二进制SVM具有最佳可辨别性的独立特征空间,并将其训练到其自身的特征空间内,有效地提高了流量分类器的精度和召回率。程华等人针对加密通信的行为特点,利用密文十六进制字符的向量表示方法完成加密流量的向量化表达,并采用多窗口卷积神经网络提取加密C&C通信模式的特征,实现加密C&C通信数据流的识别与分类。
然而这些针对流量的识别算法都存在特征选取范围过窄的问题,其未考虑到流量完整的特征,易导致识别效果不理想。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于载荷特征和统计特征的Shodan流量识别方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于载荷特征和统计特征的Shodan流量识别方法,包括步骤:
在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;
嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;
利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中,包括步骤:
将流量输入基于状态机的载荷特征识别模型,通过判断载荷特征中的功能码序列特征,将流量分为类似Shodan流量和第一非Shodan流量;
将类似Shodan流量输入基于统计特征的SVM识别模型进行识别,识别类似Shodan流量中的第二非Shodan流量,从而完成Shodan流量和非Shodan流量的分类。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前,还包括对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤包括:
收集正常的modbus/TCP通信流量,从网络层和应用层分别提取载荷特征和统计特征,确认是否属于Shodan流量并进行标记,生成完整的数据集;
将数据集分别输入到基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练、测试,对模型进行优化,完成对模型的训练。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在确认流量是否属于Shodan流量并进行标记的步骤中,通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域,并进行标记。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在提取载荷特征和统计特征的步骤中,
应用层特征是在一定长数据包窗口内,提取每条数据包的功能码,并将一系列功能码按照先后顺序组成功能码序列;
网络层特征是采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值特征,作为统计特征。
区别于现有技术,本发明提供的基于载荷特征和统计特征的Shodan流量识别方法包括步骤:在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。通过本发明,能够通过功能码序列特征准确反映流量交互的先后次序,对于扫描类流量的识别具有极高的识别率;本发明分别构建网络层和应用层识别模型,可从多个维度、侧面去分析流量特征,从而扩大了传统流量检测的范围,提高流量识别的准确率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法的流程示意图。
图2是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法的逻辑示意图。
图3是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法的实验结果对比示意图。
图4是本发明提供的一种基于载荷特征和统计特征的Shodan流量识别方法与现有方法的识别结果对比示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,本发明的一种基于载荷特征和统计特征的Shodan流量识别方法包括步骤:
S110:在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听。
嗅探器需部署在计算机中,此计算机与镜像流量端口直接相连。
S120:嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征。
数据包窗口是设置一定长数据包窗口,在此窗口内进行数据包解析,提取应用层及网络层特征。其中网络层指的是不解析协议应用层内容,主要处理传输层及以下信息,应用层指采集数据包功能码序列特征。根据工控协议规约,功能码用于标明一个信息帧的用途,也就是指明数据包的功能,通常在协议数据包的某个固定字段指明。
S130:利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。
通过对不同工控协议分别建立自动状态机,对不同协议的数据包进行基于状态机的功能码序列匹配,就可以区分出所捕获的数据包是否为Shodan流量。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中,包括步骤:
将流量输入基于状态机的载荷特征识别模型,通过判断载荷特征中的功能码序列特征,将流量分为类似Shodan流量和第一非Shodan流量;
将类似Shodan流量输入基于统计特征的SVM识别模型进行识别,识别类似Shodan流量中的第二非Shodan流量,从而完成Shodan流量和非Shodan流量的分类。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前,还包括对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤包括:
收集正常的modbus/TCP通信流量,从网络层和应用层分别提取载荷特征和统计特征,确认是否属于Shodan流量并进行标记,生成完整的数据集;
将数据集分别输入到基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练、测试,对模型进行优化,完成对模型的训练。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在确认流量是否属于Shodan流量并进行标记的步骤中,通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域,并进行标记。
在本发明所述的基于载荷特征和统计特征的Shodan流量识别方法中,在提取载荷特征和统计特征的步骤中,
应用层特征是在一定长数据包窗口内,提取每条数据包的功能码,并将一系列功能码按照先后顺序组成功能码序列;
网络层特征是采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值特征,作为统计特征。
本实施例提供一个采用本发明方法的Shodan流量识别系统实例。该方法分为三个阶段,准备阶段、模型构建阶段、流量识别阶段,系统整体框架如图2所示。
1.准备阶段:
1)事先收集正常的modbus/TCP通信流量,在工业生产环境的网关中设置镜像端口,并将端口直接连接到某一设备A中,将数据流信息实时引入到设备A中。
2)特征提取,从网络层和应用层两个层次分别提取特征信息。
针对网络层方面,采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值等特征作为统计特征。
针对应用层方面,在一定长数据包窗口内,提取每条数据包的功能码,并将一系列功能码按照先后顺序组成功能码序列。在工控协议,功能码用于标明一个信息帧的用途,也就是指明数据包的功能,通常在协议数据包的某个固定字段指明。例如,modbus功能码0x03,表示读取保持寄存器,在工业生产环境中HMI周期性发送着这种大量的数据包,读取设备的状态获取系统工作的各项指标。
然后通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域对已知样本进行标记,生成完整的数据集。
2.模型构建阶段:
在模型构建中,我们将特征提取中量化后数据集输入到流量识别模块中,其在接收到不同阶段的数据后,进行模型训练。
首先对载荷特征进行识别,我们采用基于状态自动机的应用层协议功能码序列匹配方法,将协议的一次完整的数据交互看作一个过程,在这一过程中提取出各阶段的状态,然后找出这些状态的特征,从而建立一个该协议的串行状态规则。
基于状态自动机的应用层协议功能码序列匹配方法是通过串行逻辑判断实现的,所以要知道一次完整通信中各阶段的数据状态,而工控协议中的功能码正好能够实现这一功能。根据工控协议规约,功能码用于标明一个信息帧的用途,也就是指明数据包的功能,通常在协议数据包的某个固定字段指明。由于Shodan扫描为机器扫描,其扫描流量序列相对固定,所以我们可以从流量数据中提取这些功能码,并将其表示成基于自动状态机的协议交互状态。
然后对统计特征进行识别,针对Shodan流量统计特征的识别模型,实际上是设计一个分类器,对具有交互行为特征的数据进行分析处理,以识别出Shodan扫描流量。由于工控网络数据具有高维、非线性等特点,针对流量交互特性设计的Shodan流量识别算法需要适应工控流量的特殊性,以达到更好的识别效果。基于机器学习的SVM是一种采用凸二次规划优化的分类与预测方法,具有小样本检测率高、泛化能力强的优势,适合于流量识别。
利用SVM算法进行Shodan流量识别建模,首先是根据提取的流量统计特征,建立识别模型训练集和测试集,并通过设定算法模型参数,对数据集进行训练以获得Shodan流量识别模型的决策函数,具体的实现步骤如下:
1)根据流量特征提取阶段提取的特征对数据集进行处理,构建实验训练集和测试集。
2)选择合适的核函数,并设定核函数的优化参数以及惩罚因子C,其中C是用于控制寻找最大超平面和保证数据点偏差量最小之间的权重,构造并求解凸二次规划的优化问题:
0≤αi≤C,i=1,2,...,N
3)通过计算,得出拉格朗日算子α的最优解α*=(α1*,α2*,…,αN*)T。并计算:
4)求出最优分类函数:
5)利用建立的决策函数对测试数据集进行分类预测,如果达到训练精度的要求则输出,即获得对Shodan流量识别模型的决策函数,如果不满足检测精度的要求,则对参数进行优化,重新训练,以建立高效的SVM识别模型。
最后,通过两个识别模型,将Shodan流量与非Shodan流量进行有效区分,输出结果。
3.流量识别阶段:
流量识别阶段主要利用前面训练好的模型,对实时数据进行预测,判断是否为Shodan扫描流量。在实际部署中,流量识别模块一直持续的对已接收数据进行预测、评估,若当前接收到的数据为Shodan流量,则将该流量IP地址进行记录。图3和图4示出了本发明所述的基于载荷特征和统计特征的Shodan流量识别方法与现有技术方法的精度及准确率的对比示意图,由图3和图4可知,本发明的方法在精度和准确率方面都高于现有技术的识别结果。
区别于现有技术,本发明提供的基于载荷特征和统计特征的Shodan流量识别方法包括步骤:在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类。通过本发明,能够通过功能码序列特征准确反映流量交互的先后次序,对于扫描类流量的识别具有极高的识别率;本发明分别构建网络层和应用层识别模型,可从多个维度、侧面去分析流量特征,从而扩大了传统流量检测的范围,提高流量识别的准确率。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (5)
1.一种基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,包括以下步骤:
在网络中设置交换机流量镜像端口,部署嗅探器进行流量监听;
嗅探器对监听到的流量以数据包窗口的方式进行解析,分别提取载荷特征和统计特征;其中,载荷特征为应用层特征,统计特征为网络层特征;
利用嗅探器的解析结果,对载荷特征和统计特征依次采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别,完成Shodan流量和非Shodan流量的分类;
在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤中,包括步骤:
将流量输入基于状态机的载荷特征识别模型,通过判断载荷特征中的功能码序列特征,将流量分为类似Shodan流量和第一非Shodan流量;
将类似Shodan流量输入基于统计特征的SVM识别模型进行识别,识别类似Shodan流量中的第二非Shodan流量,从而完成Shodan流量和非Shodan流量的分类。
2.根据权利要求1所述的基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,在采用基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行识别的步骤之前,还包括对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤。
3.根据权利要求2所述的基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,对基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练的步骤包括:
收集正常的modbus/TCP通信流量,从网络层和应用层分别提取载荷特征和统计特征,确认是否属于Shodan流量并进行标记,生成完整的数据集;
将数据集分别输入到基于状态机的载荷特征识别模型和基于统计特征的SVM识别模型进行训练、测试,对模型进行优化,完成对模型的训练。
4.根据权利要求3所述的基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,在确认流量是否属于Shodan流量并进行标记的步骤中,通过IP反查域名并检查关联的PTR记录是否属于Shodan的子域,并进行标记。
5.根据权利要求1所述的基于载荷特征和统计特征的Shodan流量识别方法,其特征在于,在提取载荷特征和统计特征的步骤中,
应用层特征是在一定长数据包窗口内,提取每条数据包的功能码,并将一系列功能码按照先后顺序组成功能码序列;
网络层特征是采用滑动窗口的方式依次提取不同窗口内的IP、端口、数据包个数、接收的字节数、连接持续时间、数据包时间间隔的均值、方差、最大最小值特征,作为统计特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043208.7A CN111211948B (zh) | 2020-01-15 | 2020-01-15 | 基于载荷特征和统计特征的Shodan流量识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043208.7A CN111211948B (zh) | 2020-01-15 | 2020-01-15 | 基于载荷特征和统计特征的Shodan流量识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111211948A CN111211948A (zh) | 2020-05-29 |
CN111211948B true CN111211948B (zh) | 2022-05-27 |
Family
ID=70787613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010043208.7A Expired - Fee Related CN111211948B (zh) | 2020-01-15 | 2020-01-15 | 基于载荷特征和统计特征的Shodan流量识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111211948B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235160B (zh) * | 2020-10-14 | 2022-02-01 | 福建奇点时空数字科技有限公司 | 一种基于协议数据深层检测的流量识别方法 |
CN115883263B (zh) * | 2023-03-02 | 2023-05-09 | 中国电子科技集团公司第三十研究所 | 基于多尺度载荷语义挖掘的加密应用协议类型识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546625A (zh) * | 2011-12-31 | 2012-07-04 | 深圳市永达电子股份有限公司 | 半监督聚类集成的协议识别系统 |
CN102739457A (zh) * | 2012-07-23 | 2012-10-17 | 武汉大学 | 一种基于dpi和svm技术的网络流量识别系统及方法 |
CN104270392A (zh) * | 2014-10-24 | 2015-01-07 | 中国科学院信息工程研究所 | 一种基于三分类器协同训练学习的网络协议识别方法及系统 |
WO2017065627A1 (en) * | 2015-10-12 | 2017-04-20 | Huawei Technologies Co., Ltd. | Early classification of network flows |
WO2019190770A1 (en) * | 2018-03-30 | 2019-10-03 | Microsoft Technology Licensing, Llc | Distributed system for adaptive protection against web-service-targeted vulnerability scanners |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140157405A1 (en) * | 2012-12-04 | 2014-06-05 | Bill Joll | Cyber Behavior Analysis and Detection Method, System and Architecture |
US9967188B2 (en) * | 2014-10-13 | 2018-05-08 | Nec Corporation | Network traffic flow management using machine learning |
US10986126B2 (en) * | 2017-07-25 | 2021-04-20 | Palo Alto Networks, Inc. | Intelligent-interaction honeypot for IoT devices |
US11606387B2 (en) * | 2017-12-21 | 2023-03-14 | Radware Ltd. | Techniques for reducing the time to mitigate of DDoS attacks |
-
2020
- 2020-01-15 CN CN202010043208.7A patent/CN111211948B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546625A (zh) * | 2011-12-31 | 2012-07-04 | 深圳市永达电子股份有限公司 | 半监督聚类集成的协议识别系统 |
CN102739457A (zh) * | 2012-07-23 | 2012-10-17 | 武汉大学 | 一种基于dpi和svm技术的网络流量识别系统及方法 |
CN104270392A (zh) * | 2014-10-24 | 2015-01-07 | 中国科学院信息工程研究所 | 一种基于三分类器协同训练学习的网络协议识别方法及系统 |
WO2017065627A1 (en) * | 2015-10-12 | 2017-04-20 | Huawei Technologies Co., Ltd. | Early classification of network flows |
WO2019190770A1 (en) * | 2018-03-30 | 2019-10-03 | Microsoft Technology Licensing, Llc | Distributed system for adaptive protection against web-service-targeted vulnerability scanners |
Non-Patent Citations (6)
Title |
---|
Identifying SCADA Systems and Their Vulnerabilities on the Internet of Things: A Text-Mining Approach;Sagar Samtani等;《EEE Intelligent Systems》;20180112;第33卷(第2期);全文 * |
基于分类算法的网络设备识别方法;皮寿熹等;《舰船电子工程》;20191220(第12期);全文 * |
基于组合神经网络的启发式工控系统异常检测模型;唐彰国等;《四川大学学报(自然科学版)》;20170728(第04期);全文 * |
网络摄像头流量的异常检测系统的研究与实现;易龙;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20181015;全文 * |
网络空间物联网信息搜索;李强等;《信息安全学报》;20180915(第05期);全文 * |
网络资产探测技术研究;王宸东等;《计算机科学》;20181215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111211948A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Elsayed et al. | Ddosnet: A deep-learning model for detecting network attacks | |
CN111277578B (zh) | 加密流量分析特征提取方法、系统、存储介质、安全设备 | |
Yu et al. | PBCNN: Packet bytes-based convolutional neural network for network intrusion detection | |
Duan et al. | Application of a dynamic line graph neural network for intrusion detection with semisupervised learning | |
US20180288084A1 (en) | Method and device for automatically establishing intrusion detection model based on industrial control network | |
CN107360145B (zh) | 一种多节点蜜罐系统及其数据分析方法 | |
CN111211948B (zh) | 基于载荷特征和统计特征的Shodan流量识别方法 | |
Mubarak et al. | Industrial datasets with ICS testbed and attack detection using machine learning techniques | |
CN112491894A (zh) | 一种基于时空特征学习的物联网网络攻击流量监测系统 | |
CN113821793A (zh) | 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
Wang et al. | An unknown protocol syntax analysis method based on convolutional neural network | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
CN116232696A (zh) | 基于深度神经网络的加密流量分类方法 | |
CN113938290B (zh) | 一种用户侧流量数据分析的网站去匿名方法和系统 | |
Liu et al. | Spatial‐Temporal Feature with Dual‐Attention Mechanism for Encrypted Malicious Traffic Detection | |
Nie et al. | M2VT-IDS: A multi-task multi-view learning architecture for designing IoT intrusion detection system | |
Altalbe | Enhanced Intrusion Detection in In-Vehicle Networks using Advanced Feature Fusion and Stacking-Enriched Learning | |
Cui et al. | Semi-2DCAE: a semi-supervision 2D-CNN AutoEncoder model for feature representation and classification of encrypted traffic | |
Tian et al. | A transductive scheme based inference techniques for network forensic analysis | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
Nazar et al. | Integrating web server log forensics through deep learning | |
Wang et al. | Bitstream protocol classification mechanism based on feature extraction | |
CN116170237A (zh) | 一种融合gnn和acgan的入侵检测方法 | |
Luo et al. | Deep learning based device classification method for safeguarding internet of things | |
CN113656800B (zh) | 一种基于加密流量分析的恶意软件行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220527 |
|
CF01 | Termination of patent right due to non-payment of annual fee |