CN113904795B - 一种基于网络安全探针的流量快速精确检测方法 - Google Patents
一种基于网络安全探针的流量快速精确检测方法 Download PDFInfo
- Publication number
- CN113904795B CN113904795B CN202110992646.2A CN202110992646A CN113904795B CN 113904795 B CN113904795 B CN 113904795B CN 202110992646 A CN202110992646 A CN 202110992646A CN 113904795 B CN113904795 B CN 113904795B
- Authority
- CN
- China
- Prior art keywords
- equipment
- algorithm
- identification
- flow
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 239000000523 sample Substances 0.000 title claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000005516 engineering process Methods 0.000 claims abstract description 18
- 238000007637 random forest analysis Methods 0.000 claims abstract description 18
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000003064 k means clustering Methods 0.000 claims abstract description 6
- 238000004891 communication Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 241000544061 Cuculus canorus Species 0.000 claims description 4
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims 1
- 238000013461 design Methods 0.000 description 7
- 241000700605 Viruses Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于网络安全探针的流量快速精确检测方法,基于流量特征的设备资产识别接入控制技术及基于设备的智能安全管理模型。通过基于流量特征提取的设备资产识别方法,通过设置白名单,构建流量特征指纹库并通过在现有流识别算法基础上创新性的引入改进的随机森林算法与K‑Means聚类算法相结合的而提出的新的K‑Random聚类算法来训练设备识别模型以及通过主被动的扫描,从而达到更全面的获取设备分类以及相关的流量,从而实现了对设备的分类,对非白名单设备的接入控制;通过在现有的流量监测算法基础上创新性的设计一种基于sketch算法与哈希算法相结合从而设计出最优的未知流量监测算法CMⅡ‑Sketch算法,从而实现对流量的精准识别。
Description
技术领域
本发明属于网络流量安全检测领域,涉及一种基于网络安全探针的流量快速精确检测技术。
背景技术
在当今的社会中,计算机网络技术已然成为人们生活中必不可少的一个工具,其强大的计算能力,能帮助人们快速地统计数据,使其在日常工作中的效率得到提高。但同时也给我们带来了一定的挑战,不法分子通过系统漏洞针对有价值信息的篡改、窃取,对网络安全造成很大的威胁。针对这一情况,流量探针技术应运而生。网络流量探针技术是一种在高级专用网络中经常使用的预防性反病毒和反攻击设备,它通过对网络数据报文进行完整的包重组和协议还原,能够实时监测网络环境中的病毒传播与黑客攻击,全面检测各种网络病毒的扫描、传输、攻击等行为。
现有的流量检测识别算法,流识别算法具有两个重要特点,分别是不分时段性和持续性。基于流统计特性的识别方法普遍适用的流量特征,新的应用也符合这一特征,所以这种技术有发现新的应用的能力;有检测加密应用的能力。但是此方法由于传输层的特征一般不能明确指示应用层协议类型,所以这种方法对应用分类的能力较弱,而应用分类对于服务质量的实施是非常重要的。
现阶段检测技术中流量监测算法中大多使用哈希算法,哈希算法的优点能够更好地满足对流的快速查询,降低流ID所需的储存空间,但是具体查询过程中,却丢失了IP流的地址信息;而采用Bloom filter数据结构所展开的哈希算法,虽然其能够准确查询某个流是否真实存在,但却丢失了关于流大小的数据信息,并且还需要对每一个报文加以处理,增加了系统的开销。
现阶段检测技术中流量监测算法中也大量使用sketch算法,一般采用设置多个哈希函数,开辟一个二维地址空间,包经过不同哈希函数的处理,得到对应的哈希值,而这个哈希值就是sketch(概要)。这些哈希值可能产生冲突,多个种类的包可能有相同的哈希值,根据哈希值来确定包出现的次数则会偏大,所以设立多个哈希函数,取最小的哈希值,最接近实际包数据。
Sketch是使用哈希来进行估计网络流的一种测量方法,可以减少存储开销。但是其不存储元素,只存储它们Sketch的计数,会牺牲一定的准确性。
本研究采用一种更加优化的基于网络安全探针的流量智能检测技术,本文创新性的提出一种新的流量检测思路,基于资产的流量检测方法:资产-流识别检测技术。该方法分两个步骤实现:第一步,基于流量特征的设备资产识别接入控制技术,为实现对可疑设备的接入控制,通过设置白名单,构建通信流量特征指纹,在现有流识别算法基础上创新性的引入改进的随机森林算法与K-Means聚类算法相结合的而提出的新的K-Random聚类算法来训练设备识别模型从而达到更全面的获取设备分类信息以及相关的流量,从而筛选出已知资产与未知资产;第二步骤,在资产识别的基础上,针对资产识别中的未知设备即白名单之外的设备,在现有的流量监测算法基础上创新性的设计一种基于sketch算法与哈希算法相结合而提出的新的流量识别CMⅡ-Sketch算法从而实现快速检测不同的数据流并提高流量检测的灵敏度以及识别潜在的威胁。本课题对推动流量检测技术发展具有重要意义。
发明内容
本发明针对现有的网络安全探针主要利用流识别算法来检测网络中的流量,然而现阶段的检测技术对应用分类的能力较弱,但是现阶段应用分类对于服务质量的实施是非常重要的。并且由于对称路由和丢包、重传现象的存在,导致无法精确确定流量特征,从而有可能对流量检测的精确度造成影响。而且还会丢失了IP流的地址信息;而采用Bloomfilter数据结构所展开的哈希算法,虽然其能够准确查询某个流是否真实存在,但却丢失了关于流大小的数据信息,并且还需要对每一个报文加以处理增加了系统的开销。现阶段的Sketch算法对于低频的元素,估算值相对的错误可能会很大。
为了解决以上所述的问题,本发明创新性的提出了新的的技术方案:资产-流识别检测技术,该技术包括基于流量特征的设备资产识别接入控制技术及基于设备的智能安全管理模型。通过基于流量特征提取的设备资产识别方法,通过设置白名单,构建流量特征指纹库并通过在现有流识别算法基础上创新性的引入改进的随机森林算法与K-Means聚类算法相结合的而提出的新的K-Random聚类算法来训练设备识别模型以及通过主被动的扫描,从而达到更全面的获取设备分类以及相关的流量,从而实现了对设备的分类,对非白名单设备的接入控制;设计了一种智能化的安全管理模型并运用了设备威胁建模的框架对内网设备进行安全管理;针对资产识别中的未知设备即白名单之外的设备,通过在现有的流量监测算法基础上创新性的设计一种基于sketch算法与哈希算法相结合从而设计出最优的未知流量监测算法CMⅡ-Sketch算法,从而实现对流量的精准识别。
附图说明
图1Sketch算法示意图。
图2哈希表结构图。
图3随机模型示意图。
具体实施方式
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有PC机1台、浪潮服务器1个、笔记本一台;
本发明提供一种基于网络安全探针的流量快速精确检测方法,具体包括以下步骤:
步骤1、在被检测的网络中部署流量探针设备,通过旁路方法,在不影响网络质量的情况下获取网络中的流量数据。
步骤2、针对步骤1中收集到的网络中的流量数据,首先应用资产的识别技术,通过识别新接入网络的设备,然后对设备进行漏洞评估,最后根据评估结果限制设备的通信。在设备识别过程中根据提取设备接入内网时的通讯协议,开放端口,开放协议等的信息,通过在现有流识别算法基础上创新性的引入改进的随机森林算法与K-Means聚类算法相结合的而提出的新的K-Random聚类算法来训练设备识别模型进行设备识别,同时在特征的选取以及指纹的构建方法做了进一步的优化调整,提高了设备识别的准确率。
步骤3、本设计构建基于设备具体型号的的安全威胁数据库,不需要收到端口,协议等的是否开放的限制,通过搭建设备信息的数据库来实现威胁的自动发现与识别。而设计更侧重于构建基于设备信息和异常警报的知识模型来发现漏洞和威胁。
步骤4、我们针对内网设备建立设备白名单,对白名单之外的设备进行接入控制,避免存在严重漏洞隐患的设备接入内部网络。同时采用安全检测系统对白名单中的设备的异常通信,通过协议识别,应用识别,软件识别和操作系统识别以及第三方中间件的识别等的不同手段,检测白名单设备的异常行为并予以限制等,避免白名单设备被攻击者植入后门造成安全隐患。
步骤5、在设备刚接入内网后就自动识别出设备的类型,根据设备白名单对设备型号进行过滤;接着,在白名单内的设备运行过程中进行实时的异常流量的检测,及时产生安全威胁报警信息;最后,检测模型通过云服务器提供的安全威胁数据库对设备型号进行漏洞评估,并对潜在威胁的通讯协议,端口等进行限制的安全措施,减少安全隐患。
步骤6、对资产识别的未知设备和未知流量在实验过程中利用在现有的流量监测算法基础上创新性的设计一种基于sketch算法与哈希算法相结合从而设计出最优的未知流量监测算法CMⅡ-Sketch算法,进而实现快速精准的识别网络流量以及潜在的威胁。
作为优选,步骤2具体包括以下步骤:
步骤2.1、本文的指纹构建是基于被动式的流量检测.当设备第一次连接到网络时,该设备按照本身特有的设置流程进行通信.不同设备设置流程中的通信序列具有差异性,这就是本文获取指纹的来源。当一个新的设备通信时,网关记录该设备设置阶段的n个通信数据流量包:pkt_sequence={p1,p2,p3…pn}
(1)本设计采用的流量数据格式为原始pcap文件,从该pcap文件中提取了特征,去掉一些通信设置中并不能充分区分设备的特征,精简优化提取信息,并达到速度与质量的提升。
(2)本设计对IP地址不再采用计算IP地址个数的方法构建指纹,因为设备设置阶段的很多数据包没有目的地址,这样的特征处理方法不能很好地体现设备通信设置的差异性.本文采用计算IP地址变化频次的方法来构建指纹,这样就可以形成IP地址变化频次的特征向量:
ip_frequency={0,1,1,2,2,2,3,…,i,i+1,…,n}
这样可以更加准确地描绘设备通信设置阶段IP地址变化的特点。
(3)通过对包长度的转化,可以形成一个特征向量:
pkt_len={f1,f2,…,fn},fi∈{0,8}
在对特征值进行转化后,特征向量就组成了特征矩阵.由于特征指纹属于高维数据,因此本文选用能够快速处理高维数据并且不容易产生过拟合的随机森林的方法训练设备识别模型.但是矩阵形式的指纹无法轻易使用随机森林算法,遂将特征矩阵的行向量拼接,得到一个一维行向量:
f_row={f1,1,f1,2,…,f2,1,f2,2,…,f20,n-1,f20-n}
在指纹中,n的取值要兼顾设备识别的准确度和设备识别的速度.n的取值较大,特征较多,识别准确度就会提高,但抓取的数据包过多会影响设备识别的速度.需要根据实际情况确定具体的n值。
经过以上步骤,最终将原始pcap文件转化为csv形式的特征数据集。
步骤2.2、为了对训练集中设备型号的特征指纹集进行学习,建立模型并利用测试集评估训练效果,本文用有监督学习的随机森林算法来建立检测模型。通过随机森林算法的分类方法进行设备识别,随机森林算法是一个由多棵决策树分类器{h(x,θk)}组成的集成学习分类器.其中,{θk}是独立同分布的随机向量,k表示决策树分类器的数量,单个决策树分类器根据输入的测试样本集x产生分类结果,最终通过投票确定测试样本类别。
随机森林算法是一种集成学习算法,通过组合若干单个分类器的分类结果,对测试样本进行分类,相比单个分类器具有更好的分类效果和泛化能力;由于特征子集是随机选取的,因此该算法能够处理高维度数据,且不必做特征选择;该算法的训练过程中决策树之间相互独立,训练速度快.
首先用随机森林做多分类器的设备识别模型Cmulti_classifier,将数据集D:Set{d1,…,dn}随机分为训练集DStraining和测试集DStest,多次实验得出的平均识别准确率大概为67%,识别准确率较低。为提高设备识别准确度,考虑为每一个设备型号训练二分类的设备识别模型CDouble_classifier,从指纹集D:Set{d1,…,dn}中选择设备型号i的指纹集di,其余部分为其他设备的指纹集dx.对di与dx二分类标记后,重新将其组合成用于二分类的数据集Ddouble,再将Ddouble随机分成5份进行五倍交叉验证。
相较于本文的K-Random聚类算法,传统的k-means我们用单个点来对cluster进行建模,这实际上是一种最简化的数据建模形式。这种用点来对cluster进行建模实际上就已经假设了各cluster的数据是呈圆形分布的。但是存在很多局限性,因此本文设计出的K-Random聚类算法,具有更加合理的更加一般的数据表示,也就是高斯分布。通过引入协方差矩阵,我们就可以对各维度数据的不同重要性进行建模。这种设计使识别的结果更加的精确合理。实验得出每种设备识别的准确率,所有设备的识别率都在90%以上。绝大多数设备的识别精度都比较高。
作为优选,步骤6具体包括以下步骤:
步骤6.1、插入哈希表,优化哈希表的空间利用率,我们利用布谷鸟哈希,在当数据报文在哈希表遇到冲突时,执行多次哈希操作,同理如果未插入成功则进入下一步操作。
步骤6.2、判断替换条件是关键,判断条件的执行需要依赖两个参数,即序列值间隔T和替换阈值S,在算法开始执行前,应该先对这两个参数进行赋值。
替换函数的执行步骤如下:
(1)比较H[m].count与替换阈值S的大小,如果前者大于后者则替换条件不满足,数据报文进入下一步操作;
(2)返回数据报文p在Sketch中的查询值p.value;
(3)比较p.value与H[m].count的大小,如果前者小于后者,则说明替换条件无法满足,数据报文进入下一步操作反之则进入下一步判定过程;
(4)将当前数据报文的序列值p.seq减去哈希表对应位置的序列值H[m].seq得到差值gap,而如果差值gap大于序列值间隔T,则认为替换条件成立,然后执行替换操作,否则不满足替换条件,数据报文进入下一步操作;
可见,替换条件成立需要同时满足三个条件,分别是当前哈希表位置频率小于替换阈值、哈希表频率小于Sketch对应位置返回值以及序列值之差小于序列值间隔T;前两个条件普遍存在于各种Sketch算法中,比如Augmented Sketch,使用序列值间隔可以排除存在时间较长且最近未更新的数据流,减少误差率。
当在哈希表插入阶段使用了布谷鸟哈希时,可以在多个哈希位置中找到频率最小的值作为H[m]进行替换,此时可以提高替换效率,减少不必要的操作。
步骤7、插入Sketch,使用的Sketch结构是经过改进的Count-MinSketch结构,在K行W列二维数组中取K个返回值中的最小值作为结果。当然如果测量任务需要可以使用其他的Sketch结构。当数据报文p到来时,K个哈希函数分别进行哈希操作并对W取模,然后在对应数组位置进行插入操作。
算法运用到一类哈希函数定义如下:
其中a可以为{2..p-1}之间任意整数;b可以为{0,1..p-1}之间任意整数。算法为了简单计算,将设a为1,b为0。设p为大于2^32的素数,m1,m2....mH设为互质的整数,并且m1*…*mH≥p。
CM-Sketch的内部数据结构是一个二维数组count,宽度w,深度d,此外还需要d个两两独立的哈希函数h1...hd。
更新的时候,用这些哈希函数算出d个不同的哈希值,然后把对应的行的值加上c。
这里的取值是有讲究的:
两个参数的含义是:在1-δ的概率下,总误差(所有元素查询误差的之和)小于ε。
可以看出,想要错误范围越小,就要更大的w,也就是表格的列数;
同理,想要更高的概率(更小的δ),就要更大的d,也就是更多的hash函数。
步骤8、结果近似性,这里以Q(i)为例,它的近似结果是:
也就是所有哈希到的count取最小值。显然真实值一定比这个值更小或者相同。
步骤9、对CMⅡ-Sketch算法的设计
Count-Min Sketch算法对于低频的元素,结果不太准确,主要是因为hash冲突比较严重,产生了噪音,例如当m=20时,有1000个数hash到这个20桶,平均每个桶会收到50个数,这50个数的频率重叠在一块了,当有低频元素的hash值与之相同后却反回相同的数值,造成非常大的误差。本设计提出的CMⅡ-Sketch算法做了如下改进:
·来了一个查询,按照Count-Min Sketch的正常流程,取出它的d个sketch
·对于每个hash函数,估算出一个噪音,噪音等于该行与该列所有整数(除了被查询的这个元素)的平均值
·用sketch减去该行该列的噪音,作为真正的sketch
·返回d个sketch的中位数
通过本设计的CMⅡ-Sketch算法后,大大提高了低频元素的上的精确度。
本方法提出一种新的流量检测思路,基于资产的流量检测方法,资产-流识别检测技术。该方法首先是基于流量特征提取和指纹构建的设备识别技术,对非白名单设备进行接入控制;介绍了一种基于设备识别和设备威胁建模的设备安全管理模型,用于对连接到内部网络中的设备实施安全管理.通过在现有流识别算法基础上创新性的引入改进的随机森林算法来训练设备识别模型从而达到更全面的获取设备分类以及相关的流量,通过本设计的方法,识别准确率达到90%以上,与现有的方法相比有较好的稳定性,但是对相似设备的检测结果还不理想。接着是通过在现有的流量监测算法基础上创新性的设计一种基于sketch算法与哈希算法相结合从而设计出最优的未知流量监测算法CM2-Sketch算法,提高流量检测效率和灵敏度,但是在对白名单外的未知设备的漏洞以及威胁方面还有待提高,在未来的工作中,一方面,我们将改进所提模型,重点分析相似型号设备的流量特征选择;另一方面,对未知设备接入网络时的通信流量提取特征进行设备识别只是物联网安全研究中的一步,主要实现对非法设备的接入控制.我们计划在后续的工作中,主要实现对设备运行过程的安全威胁以及攻击行为进行实时的、全过程的检测,将过程监控与接入控制结合起来,实现对物联网设备网络的纵深防御。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (1)
1.一种基于网络安全探针的流量快速精确检测方法,其特征在于:基于流量特征提取的设备资产识别方法,通过设置白名单构建流量特征指纹库并通过在现有流识别算法基础上引入改进的随机森林算法与K-Means聚类算法相结合的而提出的新的K-Random聚类算法来训练设备识别模型以及通过主被动的扫描,从而达到更全面的获取设备分类以及相关的流量,从而实现对设备分类,对非白名单设备的接入控制;设计了一种智能化的安全管理模型并运用了设备威胁建模的框架对内网设备进行安全管理;针对资产识别中的未知设备即白名单之外的设备,在现有流量监测算法基础上,设计一种基于sketch算法与哈希算法相结合从而设计出未知流量监测算法CMⅡ-Sketch算法,从而实现对流量的精准识别;
具体包括以下步骤:
步骤1、在被检测的网络中部署流量探针设备,通过旁路方法,在不影响网络质量的情况下获取网络中的流量数据;
步骤2、针对步骤1中收集到的网络中的流量数据,首先应用资产的识别技术,通过识别新接入网络的设备,然后对设备进行漏洞评估,根据评估结果限制设备的通信;在设备识别过程中根据提取设备接入内网时的通讯协议,开放端口,开放协议的信息,通过在现有流识别算法基础上创新性的引入改进的随机森林算法与K-Means聚类算法相结合的而提出的新的K-Random聚类算法来训练设备识别模型进行设备识别,同时在特征的选取以及指纹的构建方法优化调整,提高设备识别的准确率;
步骤3、构建基于设备具体型号的安全威胁数据库,不需要受到端口协议是否开放的限制,通过搭建设备信息的数据库来实现威胁的自动发现与识别;构建基于设备信息和异常警报的知识模型来发现漏洞和威胁;
步骤4、针对内网设备建立设备白名单,对白名单之外的设备进行接入控制,避免存在严重漏洞隐患的设备接入内部网络;同时采用安全检测系统对白名单中的设备的异常通信、通过协议识别、应用识别、软件识别和操作系统识别以及第三方中间件的识别的不同手段,检测白名单设备的异常行为并予以限制,避免白名单设备被攻击者植入后门造成安全隐患;
步骤5、在设备刚接入内网后就自动识别出设备的类型,根据设备白名单对设备型号进行过滤;接着,在白名单内的设备运行过程中进行实时的异常流量的检测,及时产生安全威胁报警信息;检测模型通过云服务器提供的安全威胁数据库对设备型号进行漏洞评估,并对潜在威胁的通讯协议、端口进行限制的安全措施;
步骤6、对资产识别的未知设备和未知流量在实验过程中利用在现有的流量监测算法基础上创新性的设计一种基于sketch算法与哈希算法相结合从而设计出未知流量监测算法CMⅡ-Sketch算法,进而实现快速精准的识别网络流量以及潜在的威胁;
步骤7、插入Sketch,使用的Sketch结构是经过改进的Count-MinSketch结构,在K行W列二维数组中取K个返回值中的最小值作为结果;当然如果测量任务需要使用其他的Sketch结构;当数据报文p到来时,K个哈希函数分别进行哈希操作并对W取模,然后在对应数组位置进行插入操作;
算法运用到一类哈希函数定义如下:
其中,将设a为1,b为0;设p为大于2^32的素数,m1,m2,...,mH设为互质的整数,并且m1*···*mH≥p;
CM-Sketch的内部数据结构是一个二维数组count,宽度w,深度d,此外还需要d个两两独立的哈希函数h1,...,hd;
更新的时候,用这些哈希函数算出d个不同的哈希值,然后把对应的行的值加上c;
步骤8、结果近似性,Q(i)的近似结果是:
也就是所有哈希到的count取最小值;显然真实值一定比这个值更小或者相同;
步骤9、对CMⅡ-Sketch算法的设计;
来了一个查询,按照Count-MinSketch的正常流程,取出它的d个sketch
对于每个hash函数,估算出一个噪音,噪音等于该行与该列所有整数的平均值,除了被查询的这个元素;
用sketch减去该行该列的噪音,作为真正的sketch;
返回d个sketch的中位数;
步骤2具体包括以下步骤:
步骤2.1、指纹构建是基于被动式的流量检测;当设备第一次连接到网络时,该设备按照本身特有的设置流程进行通信;不同设备设置流程中的通信序列具有差异性,这就是本文获取指纹的来源;当一个新的设备通信时,网关记录该设备设置阶段的n个通信数据流量包:pkt_sequence={p 1,p 2,p 3,…,pn};
(1)采用的流量数据格式为原始pcap文件,从该pcap文件中提取特征,去掉一些通信设置中并不能充分区分设备的特征,精简优化提取信息,并达到速度与质量的提升;
(2)对IP地址不再采用计算IP地址个数的方法构建指纹,采用计算IP地址变化频次的方法来构建指纹,这样就形成IP地址变化频次的特征向量:
ip_frequency={0,1,1,2,2,2,3,…,i,i+1,…,n}
准确地描绘设备通信设置阶段IP地址变化的特点;
(3)通过对包长度的转化,形成一个特征向量:
pkt_len={f1,f2,…,fn},fi∈{0,8}
在对特征值进行转化后,特征向量就组成了特征矩阵;将特征矩阵的行向量拼接,得到一个一维行向量:
f_row={f1,1,f1,2,…,f2,1,f2,2,…,f20,n-1,f20-n}
在指纹中,n的取值要兼顾设备识别的准确度和设备识别的速度;根据实际情况确定具体的n值;
经过以上步骤,最终将原始pcap文件转化为csv形式的特征数据集;
步骤2.2、为了对训练集中设备型号的特征指纹集进行学习,建立模型并利用测试集评估训练效果,用有监督学习的随机森林算法来建立检测模型;通过随机森林算法的分类方法进行设备识别,随机森林算法是一个由多棵决策树分类器{h(x,θk)}组成的集成学习分类器;其中,{θk}是独立同分布的随机向量,k表示决策树分类器的数量,单个决策树分类器根据输入的测试样本集x产生分类结果,最终通过投票确定测试样本类别;
首先用随机森林做多分类器的设备识别模型Cmulti_classifier,将数据集D:Set{d1,…,dn}随机分为训练集DStraining和测试集DStest,多次实验得出的平均识别准确率为67%,识别准确率低;为提高设备识别准确度,考虑为每一个设备型号训练二分类的设备识别模型CDouble_classifier,从指纹集D:Set{d1,…,dn}中选择设备型号i的指纹集di,其余部分为其他设备的指纹集dx对di与dx二分类标记后,重新将其组合成用于二分类的数据集Ddouble,再将Ddouble随机分成5份进行五倍交叉验证;
步骤6具体包括以下步骤:
步骤6.1、插入哈希表,优化哈希表的空间利用率,利用布谷鸟哈希,在当数据报文在哈希表遇到冲突时,执行多次哈希操作,同理如果未插入成功则进入下一步操作;
步骤6.2、判断替换条件是关键,判断条件的执行需要依赖两个参数,即序列值间隔T和替换阈值S,在算法开始执行前,应该先对这两个参数进行赋值;
替换函数的执行步骤如下:
(1)比较H[m].count与替换阈值S的大小,如果前者大于后者则替换条件不满足,数据报文进入下一步操作;
(2)返回数据报文p在Sketch中的查询值p.value;
(3)比较p.value与H[m].count的大小,如果前者小于后者,则说明替换条件无法满足,数据报文进入下一步操作反之则进入下一步判定过程;
(4)将当前数据报文的序列值p.seq减去哈希表对应位置的序列值H[m].seq得到差值gap,而如果差值gap大于序列值间隔T,则认为替换条件成立,然后执行替换操作,否则不满足替换条件,数据报文进入下一步操作;
替换条件成立需要同时满足三个条件,分别是当前哈希表位置频率小于替换阈值、哈希表频率小于Sketch对应位置返回值以及序列值之差小于序列值间隔T;当在哈希表插入阶段使用了布谷鸟哈希时,在多个哈希位置中找到频率最小的值作为H[m]进行替换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992646.2A CN113904795B (zh) | 2021-08-27 | 2021-08-27 | 一种基于网络安全探针的流量快速精确检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992646.2A CN113904795B (zh) | 2021-08-27 | 2021-08-27 | 一种基于网络安全探针的流量快速精确检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113904795A CN113904795A (zh) | 2022-01-07 |
CN113904795B true CN113904795B (zh) | 2024-06-04 |
Family
ID=79188213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110992646.2A Active CN113904795B (zh) | 2021-08-27 | 2021-08-27 | 一种基于网络安全探针的流量快速精确检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113904795B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001790B (zh) * | 2022-05-27 | 2024-03-26 | 国网智能电网研究院有限公司 | 基于设备指纹的二级认证方法、装置及电子设备 |
CN115085985B (zh) * | 2022-06-06 | 2023-03-31 | 西安电子科技大学 | 一种用于网络安全监测的内存高效范围基数测量方法 |
CN117151745B (zh) * | 2023-11-01 | 2024-03-29 | 国网浙江省电力有限公司营销服务中心 | 基于数据流式引擎实现营销事件数据实时处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110149343A (zh) * | 2019-05-31 | 2019-08-20 | 国家计算机网络与信息安全管理中心 | 一种基于流的异常通联行为检测方法和系统 |
CN110392013A (zh) * | 2018-04-17 | 2019-10-29 | 深圳先进技术研究院 | 一种基于网络流量分类的恶意软件识别方法、系统及电子设备 |
CN110602041A (zh) * | 2019-08-05 | 2019-12-20 | 中国人民解放军战略支援部队信息工程大学 | 基于白名单的物联网设备识别方法、装置及网络架构 |
CN113114694A (zh) * | 2021-04-17 | 2021-07-13 | 东南大学 | 一种面向高速网络分组抽样数据采集场景的DDoS攻击检测方法 |
-
2021
- 2021-08-27 CN CN202110992646.2A patent/CN113904795B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392013A (zh) * | 2018-04-17 | 2019-10-29 | 深圳先进技术研究院 | 一种基于网络流量分类的恶意软件识别方法、系统及电子设备 |
CN110149343A (zh) * | 2019-05-31 | 2019-08-20 | 国家计算机网络与信息安全管理中心 | 一种基于流的异常通联行为检测方法和系统 |
CN110602041A (zh) * | 2019-08-05 | 2019-12-20 | 中国人民解放军战略支援部队信息工程大学 | 基于白名单的物联网设备识别方法、装置及网络架构 |
CN113114694A (zh) * | 2021-04-17 | 2021-07-13 | 东南大学 | 一种面向高速网络分组抽样数据采集场景的DDoS攻击检测方法 |
Non-Patent Citations (1)
Title |
---|
"Network intrusion detection using feature selection and decision tree classifier";SHEEN S, RAJESH R.;《2008 IEEE Region 10 Conference》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113904795A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | MTH-IDS: A multitiered hybrid intrusion detection system for internet of vehicles | |
Rabbani et al. | A hybrid machine learning approach for malicious behaviour detection and recognition in cloud computing | |
Nõmm et al. | Unsupervised anomaly based botnet detection in IoT networks | |
CN113904795B (zh) | 一种基于网络安全探针的流量快速精确检测方法 | |
CN112738015B (zh) | 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法 | |
CN111641634B (zh) | 一种基于蜜网的工业控制网络主动防御系统及其方法 | |
CN113328985B (zh) | 一种被动物联网设备识别方法、系统、介质及设备 | |
Blaise et al. | Botnet fingerprinting: A frequency distributions scheme for lightweight bot detection | |
Rethinavalli et al. | Botnet attack detection in internet of things using optimization techniques | |
Ferragut et al. | A new, principled approach to anomaly detection | |
CN117216660A (zh) | 基于时序网络流量集成异常点和异常集群检测方法及装置 | |
Fei et al. | The abnormal detection for network traffic of power iot based on device portrait | |
Nalavade et al. | Mining association rules to evade network intrusion in network audit data | |
Kong et al. | Identification of abnormal network traffic using support vector machine | |
Kozik et al. | Pattern extraction algorithm for NetFlow‐based botnet activities detection | |
Xu et al. | [Retracted] DDoS Detection Using a Cloud‐Edge Collaboration Method Based on Entropy‐Measuring SOM and KD‐Tree in SDN | |
Nadeem et al. | Beyond labeling: Using clustering to build network behavioral profiles of malware families | |
Do Xuan et al. | Optimization of network traffic anomaly detection using machine learning. | |
Brandao et al. | Log Files Analysis for Network Intrusion Detection | |
CN109067778B (zh) | 一种基于蜜网数据的工控扫描器指纹识别方法 | |
Soewu et al. | Analysis of Data Mining-Based Approach for Intrusion Detection System | |
Yusufovna | Integrating intrusion detection system and data mining | |
Giacinto et al. | Alarm clustering for intrusion detection systems in computer networks | |
Nalavade et al. | Evaluation of k-means clustering for effective intrusion detection and prevention in massive network traffic data | |
Iglesias et al. | Are network attacks outliers? a study of space representations and unsupervised algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Ruwei Inventor after: Zhao Guangtao Inventor before: Li Ruwei Inventor before: Zhao Guangtao Inventor before: Yang Zhen |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |