CN108628876A - 一种基于聚类分析的自动化指纹特征提取方法 - Google Patents

一种基于聚类分析的自动化指纹特征提取方法 Download PDF

Info

Publication number
CN108628876A
CN108628876A CN201710160040.6A CN201710160040A CN108628876A CN 108628876 A CN108628876 A CN 108628876A CN 201710160040 A CN201710160040 A CN 201710160040A CN 108628876 A CN108628876 A CN 108628876A
Authority
CN
China
Prior art keywords
cluster
equipment
response bag
fingerprint
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710160040.6A
Other languages
English (en)
Inventor
闫兆腾
丰轩
白稳平
朱红松
孙利民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201710160040.6A priority Critical patent/CN108628876A/zh
Publication of CN108628876A publication Critical patent/CN108628876A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于聚类分析的自动化指纹特征提取方法。本方法为:1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;2)将收到的所述响应包按照包头的域进行分簇;3)对步骤2)所得每一簇的响应包的内容进行聚类;4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。本发明提出了基于带阈值的层次聚类的设备指纹自动提取技术,解决了设备更新速度快,手动生收集更新过慢的问题。

Description

一种基于聚类分析的自动化指纹特征提取方法
技术领域
本发明涉及一种基于聚类的设备指纹自动化指纹提取方法,属于计算机网络和物联网领域。
背景技术
物联网是我国战略性新兴产业的重要组成部分,引领了继计算机、互联网和移动通信之后的新一轮信息技术革命,是未来科技竞争的制高点和产业升级的重要驱动力,是加速推进工业化、信息化融合的催化剂。物联网不仅和国民经济建设、社会发展息息相关,对提高人民生活质量和水平也密不可分,是我国创新驱动发展战略的重要体现。保证物联网安全,也就是保障国家基础设施的安全建设。
物理实体设备出现在网络空间,包括网络摄像头,工业控制设备,智能家电,智能手机,路由器,打印机等等设备。网络空间的物理设备将自身暴露在公共区域,既推动了社会的发展,工业4.0,智能楼宇,普适计算,办公自动化等等,也带来了安全与隐私问题。物理实体设备,自身存在的漏洞,易被黑客攻击,那么依赖于这些物理设备的控制结果将会出现灾难性的问题,如工厂停产或出现错误的操控结果,从而造成实体设施的毁坏,引起社会危机和经济损失。物理实体设备获取、处理、传输的隐私数据,如果没有防范措施则会导致隐私的泄露,也会引起社会危机和经济损失。网络空间上的物联网设备的搜索,可以帮助相关业务企业系统提高安全审计的效率,物联网系统安全防御的科研工作提供技术支持,为国家安全部门提供安全态势分析。
现有的网络空间工业控制设备搜索主要存在以下几个缺陷。首先,整个IPv4的网络空间包括40亿的地址空间,在如此巨大的空间内搜索工业控制设备,会消耗数年的时间,这对于国家基础设施的安全保障来说是不现实的。其次,工业控制设备种类繁多,现有的方法无法知道当前的设备具体是哪一种工业控制设备。
发明内容
针对已有工作的不足,本发明的目的在于提供一种基于聚类分析算法的自动化指纹特征提取方法。本方法分为三个阶段,在第一阶段,将HTTP的响应包按照头部信息的域进行分簇,生成一个小的集合;第二阶段,利用设定阈值的层次聚类算法对HTTP响应包的内容进行聚类,特征相似或者相同的不同类别;第三阶段对不同的类别进行标记,生成不同设备的指纹。
本发明的技术方案为:
一种基于聚类分析的自动化指纹特征提取方法,其步骤为:
1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;
2)将收到的所述响应包按照包头的域进行分簇;
3)对步骤2)所得每一簇的响应包的内容进行聚类;
4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。
进一步的,利用带参数的层次聚类算法对每一簇的响应包的内容进行聚类。
进一步的,所述参数可调。
进一步的,步骤3)中,首先初始化一参数a对步骤2)所得每一簇的响应包的内容进行聚类,得到聚类结果;然后根据聚类结果的类别数目,调节参数a改变聚类结果的数目,最终达到收敛。
进一步的,判断收敛的条件为:如果当前得到的聚类结果的类别数目与上一次聚类得到的类别数目相比,变化小于设定阈值,则判断为收敛。
进一步的,根据响应包的内容的结构和文本特征,对响应包进行聚类。
如图1所示,简单描述了该设备指纹提取算法的流程。利用构造HTTP请求探测包(“GET/”)在整个网络空间探测,记录网络空间设备的响应信息。本发明提出的算法是在这个基础上开始的,在第一阶段,利用对本发明之前得到的设备的响应信息按照头部信息进行分层(每层对应一个类别),生成一个个独立的类别,对设备信息进行简单筛选,简化聚类的内存开销和时间消耗,在一定程度上有利于提高聚类的精准度。在第二个阶段,对第一阶段得到的不同类别进行带参数a的层次聚类,生成具有相似特征的一个个小簇。这里的参数a是可调的,根据聚类结果中类别的数目增大或者减小。基于此单参数的具有反馈特性的方法,达到很好的聚类结果。第三阶段中,对得到的不同类别进行标识,生成设备指纹。
本方法的基于聚类的自动化指纹特征提取技术,其主要步骤(图1所示)包括:
1.第一阶段,基于响应头的分层,提取响应信息头部,根据文本特征分层。
2.第二阶段,带参数的层次聚类算法,包括参数a的自动调节,收敛准则。
1.第一阶段,基于响应头的分层,提取响应信息头部,根据文本特征分层
这里以HTTP响应信息的头部举例说明,本发明得到的设备响应信息类似于如图2的结构,包括头部和内容。而头部中包含着很多字段(fields),根据不同字段的语义信息进行分层(如server user-agent值相同的页面会分到一组里面,如值都为apache的会分到一组),得到头部信息相似的不同的类别,如图3所示。
2.第二阶段,带参数的层次聚类算法,包括参数a的自动调节,收敛准则。
在第一阶段对响应信息的头部信息进行分类,得到若干不同的类别。而响应信息的内容Body部分,根据设备类别型号的不同一般具有不同的结构和文本特征,如图4所示。本发明利用这里的结构和文本特征,对响应包进行聚类。采用带参数a的层次聚类算法对设备的响应包进行聚类,利用聚类结果的种类数目来实现反馈,从而调节a改变聚类结果的数目,最终达到收敛。
收敛的具体标准为聚类结果的数目,相对于上次聚类结果没有很大的变化,即当前得到的聚类结果的类别数目与上一次聚类得到的类别数目相比,变化小于设定阈值,则判断为收敛。
与现有技术相比,本发明的积极效果为:
本发明提出了基于带阈值的层次聚类的设备指纹自动提取技术。在第一阶段,利用HTTP头的不同Field对设备进行分簇为后面的聚类做相应的预处理,并且减少聚类的内存开销,加快聚类算法的训练时间。在第二阶段,提出带阈值的层次聚类算法来对HTTP的内容进行聚类,并且结合第三阶段的对不同类别设备的标记,最终形成设备指纹。
本发明的优势之处在于:(1)可以解决当前手动的设备指纹收集过程,自动的生成设备指纹;(2)解决设备更新速度快,手动生收集更新过慢的问题。
附图说明
图1为基于聚类的设备指纹自动提取技术示意图;
图2为设备的响应信息结构;
图3为分层后的结构层次;
图4为不同设备响应信息内容结构。
具体实施方式
基于聚类分析算法的自动化指纹特征提取技术的系统设计,下面本发明描述具体的实现细节。
a)对响应信息进行处理,得到头部和内容部分。
b)在(a)后,根据(a)得到的头部信息的内容语义特征进行分层。
c)在(b)后,利用初始的参数a对(b)所得到的不同层的内容部分进行聚类,得到聚类结果。
d)在(c)后,根据聚类结果类别的数目,调节参数a。
e)在(d)后,判断聚类的结果类别的数目是否有很大的变化,如果变化大于设定阈值,则重复(d);如果否,继续下一步。
f)在(e)后,对聚类结果中,不同的类别进行标识,得到不同设备的指纹。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (6)

1.一种基于聚类分析的自动化指纹特征提取方法,其步骤为:
1)向网络空间发送HTTP请求探测包,然后接收网络空间中各设备返回的响应包;
2)将收到的所述响应包按照包头的域进行分簇;
3)对步骤2)所得每一簇的响应包的内容进行聚类;
4)根据步骤3)所得聚类结果对设备进行标记,生成设备的指纹;其中,属于同一聚类结果的响应包对应的设备具有相同的指纹。
2.如权利要求1所述的方法,其特征在于,利用带参数的层次聚类算法对每一簇的响应包的内容进行聚类。
3.如权利要求2所述的方法,其特征在于,所述参数可调。
4.如权利要求3所述的方法,其特征在于,步骤3)中,首先初始化一参数a对步骤2)所得每一簇的响应包的内容进行聚类,得到聚类结果;然后根据聚类结果的类别数目,调节参数a改变聚类结果的数目,最终达到收敛。
5.如权利要求4所述的方法,其特征在于,判断收敛的条件为:如果当前得到的聚类结果的类别数目与上一次聚类得到的类别数目相比,变化小于设定阈值,则判断为收敛。
6.如权利要求1~5任一所述的方法,其特征在于,根据响应包的内容的结构和文本特征,对响应包进行聚类。
CN201710160040.6A 2017-03-17 2017-03-17 一种基于聚类分析的自动化指纹特征提取方法 Pending CN108628876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710160040.6A CN108628876A (zh) 2017-03-17 2017-03-17 一种基于聚类分析的自动化指纹特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710160040.6A CN108628876A (zh) 2017-03-17 2017-03-17 一种基于聚类分析的自动化指纹特征提取方法

Publications (1)

Publication Number Publication Date
CN108628876A true CN108628876A (zh) 2018-10-09

Family

ID=63686929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710160040.6A Pending CN108628876A (zh) 2017-03-17 2017-03-17 一种基于聚类分析的自动化指纹特征提取方法

Country Status (1)

Country Link
CN (1) CN108628876A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104144215A (zh) * 2014-07-24 2014-11-12 西北工业大学 一种物联网泛在设备资源模型的构建方法
CN104640237A (zh) * 2013-11-13 2015-05-20 中国电子科技集团公司第十五研究所 一种物联网系统
CN105916216A (zh) * 2016-06-23 2016-08-31 福建农林大学 一种自适应无线传感器网络安防报警方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104640237A (zh) * 2013-11-13 2015-05-20 中国电子科技集团公司第十五研究所 一种物联网系统
CN104144215A (zh) * 2014-07-24 2014-11-12 西北工业大学 一种物联网泛在设备资源模型的构建方法
CN105916216A (zh) * 2016-06-23 2016-08-31 福建农林大学 一种自适应无线传感器网络安防报警方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹来成: "基于余弦测度下K-means的网络空间终端设备识别", 《中国科学院大学学报》 *
曹来成: "网络空间终端设备识别框架", 《计算机系统应用》 *
赵建军: "网络空间终端设备识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
Wang et al. A survey of techniques for mobile service encrypted traffic classification using deep learning
Mei et al. Sgnn: A graph neural network based federated learning approach by hiding structure
CN109639481A (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN107360145B (zh) 一种多节点蜜罐系统及其数据分析方法
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN103078897A (zh) 一种实现Web业务细粒度分类与管理的系统
CN103795723A (zh) 一种分布式物联网安全态势感知方法
CN108667834A (zh) 基于人工免疫和灰色关联度分析的网络安全态势感知方法
CN107046534A (zh) 一种网络安全态势模型训练方法、识别方法及识别装置
CN113992349A (zh) 恶意流量识别方法、装置、设备和存储介质
Liu et al. An asynchronous federated learning arbitration model for low-rate ddos attack detection
CN105871620B (zh) 一种网络空间工业控制设备快速检测识别方法
CN109067778A (zh) 一种基于蜜网数据的工控扫描器指纹识别方法
CN101764754B (zh) 基于dpi和dfi的业务识别系统中的样本获取方法
Yue et al. Detecting temporal attacks: An intrusion detection system for train communication Ethernet based on dynamic temporal convolutional network
CN108628876A (zh) 一种基于聚类分析的自动化指纹特征提取方法
Chiu et al. IoT and information processing in smart energy applications
CN111291078A (zh) 一种域名匹配检测方法及装置
Fan et al. An intrusion detection framework for IoT using partial domain adaptation
Krishnan et al. Detection of communities in dynamic social networks
CN116248346A (zh) 面向智慧城市的cps网络安全态势感知建立方法和系统
Wei Deep learning model under complex network and its application in traffic detection and analysis
CN116032515A (zh) 一种在SDN上基于Transformer的DDoS攻击检测方法
Li et al. Self-Supervised Learning IoT Device Features With Graph Contrastive Neural Network for Device Classification in Social Internet of Things
CN113904961A (zh) 一种用户行为识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181009

RJ01 Rejection of invention patent application after publication