CN114004281A - 基于设备标识的流量分类识别方法 - Google Patents

基于设备标识的流量分类识别方法 Download PDF

Info

Publication number
CN114004281A
CN114004281A CN202111187736.0A CN202111187736A CN114004281A CN 114004281 A CN114004281 A CN 114004281A CN 202111187736 A CN202111187736 A CN 202111187736A CN 114004281 A CN114004281 A CN 114004281A
Authority
CN
China
Prior art keywords
internet
classifier
flow
traffic
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111187736.0A
Other languages
English (en)
Inventor
吴昊
曹炯
吴迪权
孙健
杨跃平
俞佳捷
焦阳
黄致远
曹松钱
贝斌斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202111187736.0A priority Critical patent/CN114004281A/zh
Publication of CN114004281A publication Critical patent/CN114004281A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了基于设备标识的流量分类识别方法。包括获取联网设备的流量信息,提取流量信息中的特征向量;根据历史特征向量构建训练数据,利用训练数据对分类器进行训练;将特征向量导入训练后的分类器进行流量分类识别。通过对物联网设备识别分类可以快速定位异常物联网设备流量攻击,提高网络安全强度。

Description

基于设备标识的流量分类识别方法
技术领域
本发明属于物联网安全技术领域,尤其涉及基于设备标识的流量分类识别方法。
背景技术
目前,在物联网广泛普及的同时,政府监管机构、网络运营者对网络空间中的物联网设备缺少统计和管理。针对入侵攻击提供检测方法是十分有必要的。由于物联网设备普遍资源受限导致的安全防护不足,使得很多物联网设备成为网络攻击的工具或跳板,对全球网络空间安全带来严峻挑战。因此防止假物联网设备伪装成真的物联网设备来对进行攻击由为重要,所以应对物联网设备进行识别和分类,这也是入侵检测一方面。通过流量分类可以检测和减轻网络安全攻击,物联网中设备是极其容易被渗透和攻击的,通过识别他们每一种设备的流量模式来识别攻击。
发明内容
针对现有技术存在的问题,本发明提供了基于设备标识的流量分类识别方法。通过对物联网设备识别分类可以快速定位异常物联网设备流量攻击,提高网络安全强度。
本申请实施例提出的具体内容包括:
S1,获取联网设备的流量信息,提取流量信息中的特征向量;
S2,根据历史特征向量构建训练数据,利用训练数据对分类器进行训练;
S3,将特征向量导入训练后的分类器进行流量分类识别。
可选的,所述S1包括:
S11,采用tcpdump工具来收集所有的流量信息,将获取到的数据流量信息和已知的MAC地址进行一一对应,进行检测分析;
S,2,通过工具将流量信息保存成外部存储设备USB上,然后在USB上记录这些流量信息,并定期收集相关的信息;
S13,对物联网设备的流量做了相关选择,并作为相关特征向量;基于物联网设备流量分类采用物联网设备中的流量属性进行分类。
可选的,所述S2包括:
S21,构建包含第一阶段分类器以及第二阶段分类器的多阶段分类器;
S22,在第一阶段分类器中得到包含类和置信度在内的输出结果,将输出结果导入第二阶段分类器;
S23,在第二阶段分类器中进行基于随机森林的分类处理。
可选的,所述S22包括:
S221,获取第一阶段分类其中包含类和置信度的输出结果;
S222,在输出结果中添加表征网络情况的状态参数,得到补充后的输出结果。
可选的,所述第一阶段分类器中使用朴素贝叶斯分类器。
可选的,所述S23包括:
S232,输入特征数目m,用于确定决策树上一个节点的决策结果;其中m 应远小于M;
S233,从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作预测,评估其误差;
S234,对于每一个节点,随机选择m个特征,根据这m个特征计算其最佳的分裂方式。
有益效果
用来检测和减轻网络安全攻击,物联网中设备是极其容易被渗透和攻击的;通过分类识别他们每一种设备的流量模式来识别攻击。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于设备标识的流量分类识别方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提出了基于设备标识的流量分类识别方法,如图1所示,包括:
S1,获取联网设备的流量信息,提取流量信息中的特征向量;
S2,根据历史特征向量构建训练数据,利用训练数据对分类器进行训练;
S3,将特征向量导入训练后的分类器进行流量分类识别。
在实施中,
可选的,所述S1包括:
S11,采用tcpdump工具来收集所有的流量信息,将获取到的数据流量信息和已知的MAC地址进行一一对应,进行检测分析;
S,2,通过工具将流量信息保存成外部存储设备USB上,然后在USB上记录这些流量信息,并定期收集相关的信息;
S13,对物联网设备的流量做了相关选择,并作为相关特征向量;基于物联网设备流量分类采用物联网设备中的流量属性进行分类。
在实施中,确认进行物联网流量分类识别的特征向量具体过程为:
对物联网设备的流量做了相关选择,并作为相关特征向量;基于物联网设备流量分类采用物联网设备中的流量属性进行分类。
流量属性主要包含两大部分:
(1)物联网设备活动的流量模式,主要包含流量总量、流持续时间和设备睡眠时间。
(2)物联网设备的信号模式,主要包含以下内容:
①物联网设备和服务器通信的远程端口;每一个物联网设备都会和远程服务器固定的几个端口进行通信,将这些与通信端口根据通信的频繁程度进行统计。
②使用DNS查询的域名和使用频率;DNS是所有网络设备使用的通用应用程序;由于物联网设备是为特定目的定制设计的,因此它们只能访问有限数量的域,这些域对应于它们特定于供应商的端点服务器。
DNS查询:网络通讯大部分是基于TCP/IP的,而TCP/IP是基于IP地址的,所以计算机在网络上进行通讯时只能识别如“202.96.134.133”之类的IP地址,而不能认识域名;无法记住10个以上IP地址的网站,所以访问网站时,更多的是在浏览器地址栏中输入域名,就能看到所需要的页面,这是因为有一个叫“DNS服务器”的计算机自动把域名“翻译”成了相应的IP地址,然后调出IP 地址所对应的网页。DNS(Domain Name System)是“域名系统”的英文缩写,是一种组织成域层次结构的计算机和网络服务命名系统,它用于TCP/IP网络,它所提供的服务是用来将主机名和域名转换为IP地址的工作。
③使用NTP查询的频次,NTP是物联网设备使用的另一种流行协议,因为对于物联网设备来说精确的验证执行时间对物联网操作尤为重要,许多物联网设备倾向于定期使用NTP协议。
NTP:网络时间协议(Network Time Protocol)是在数据网络潜伏时间可变的计算机系统之间通过分组交换进行时钟同步的一个网络协议,位于OSI模型的应用层。NTP意图将所有参与计算机的协调世界时(UTC)时间同步到几毫秒的误差内。它使用Marzullo算法的修改版来选择准确的时间服务器,其设计旨在减轻可变网络延迟造成的影响。NTP通常可以在公共互联网保持几十毫秒的误差,并且在理想的局域网环境中可以实现超过1毫秒的精度。不对称路由和拥塞控制可能导致100毫秒或更高的错误。
可选的,所述S2包括:
S21,构建包含第一阶段分类器以及第二阶段分类器的多阶段分类器;
S22,在第一阶段分类器中得到包含类和置信度在内的输出结果,将输出结果导入第二阶段分类器;
S23,在第二阶段分类器中进行基于随机森林的分类处理。
在实施中,所述S22包括:
S221,获取第一阶段分类其中包含类和置信度的输出结果;
S222,在输出结果中添加表征网络情况的状态参数,得到补充后的输出结果。
统计属性包括流量/持续时间、睡眠时间和DNS/NTP间隔等,其中包含单个定量和连续的值。因此,采用两阶段的物联网分类器分层架构。
(1)第一阶段分类器
每一个第一阶段分类器生成的两个输出,即一个试探性的类和置信度,连同其他单值定量属性被送入一个第二阶段分类器产生最终的输出。
第一阶段分类器,主要使用朴素贝叶斯多项式分类器来分析第一阶段中的每个数据信息。
在训练阶段,分类器取每一个类的分布情况,用相关计算给定一个类的每个类的概率。
朴素贝叶斯分类器:在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强独立下运贝叶斯定理为基础的简单概率分类器。
可选的,所述S23包括:
S232,输入特征数目m,用于确定决策树上一个节点的决策结果;其中m 应远小于M;
S233,从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作预测,评估其误差;
S234,对于每一个节点,随机选择m个特征,根据这m个特征计算其最佳的分裂方式。
第二阶段分类器,接受所有统计属性以及来自每个第一阶段分类器的一对输出即包括试探类和置信度,因此使用一个基于随机森林的分类器。
随机森林:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
主要的学习方法是根据下列算法而建造每棵树:
用N来表示训练用例的个数,M表示特征数目。
输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。
从N个训练用例中以有放回抽样的方式,取样N次,形成一个训练集即 bootstrap取样,并用未抽到的用例作预测,评估其误差。
对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的;根据这m个特征,计算其最佳的分裂方式。
本发明实施例提供的S3中,进行流量分类识别的具体过程为:
构建多阶段机器学习方法的分类器,通过将收集的数据进行训练来对样本进行聚类,使类内数据之间、相似度最大;然后对已经训练好的分类器进行测试,即进行入侵检测实验:
若测试数据通过分类器后比较结果超过阙值,则认为传输该数据的设备为入侵物联网的设备,进行及时报警即可,否则予以通过。
下面结合具体实施例对本发明的技术方案作进一步的描述。
需要先构建一个模拟的物联网智能环境,并得到一个真实的网络空间,它可以通过有线或者无线的网络方式服务大量的物联网设备,并允许通过网关来和互联网服务器进行通信。
还在网关上安装了OpenWrt包,既可以用来捕获流量的信息;并将这些流量信息保存到外部存储设备中,方便进行查看。
物联网智能环境中的设备主要包括:智能摄像头、烟雾传感器、智能开关、空气质量检测器、土壤温湿度检测器和人流量检测器;都属于物联网交互的设备,可以通过有线或者无线的方式向网关发送相关的数据。
采用运行在OpenWrt上的tcpdump工具来收集所有的流量信息。将获取到的数据流量信息和已知的MAC地址进行一一对应,这样方便进行检测分析。
通过工具将流量信息保存成外部存储设备USB上,然后在USB上记录这些流量信息,可以采用Cron周期任务来定期收集相关的信息。
对物联网设备的流量做了相关选择,并作为相关特征向量。基于物联网设备流量分类在本发明中主要是采用了物联网设备中的流量属性进行分类。
流量属性主要包含两大部分:
(1)物联网设备活动的流量模式,主要包含流量总量(即下载和上传的所有字节和)、流持续时间(例如,流中上传的第一个包和最后一个包的时间差)和设备睡眠时间(例如,物联网设备没有主动发数据流的时间)。
(2)物联网设备的信号模式。主要包含以下内容:
①物联网设备和服务器通信的远程端口
每一个物联网设备都会和远程服务器固定的几个端口进行通信,将这些与通信端口根据通信的频繁程度进行统计。
②使用DNS查询的域名和使用频率
DNS是几乎所有网络设备使用的通用应用程序。由于物联网设备是为特定目的定制设计的,因此它们只能访问有限数量的域,这些域对应于它们特定于供应商的端点服务器。
DNS查询:网络通讯大部分是基于TCP/IP的,而TCP/IP是基于IP地址的,所以计算机在网络上进行通讯时只能识别如“202.96.134.133”之类的IP地址,而不能认识域名。无法记住10个以上IP地址的网站,所以访问网站时,更多的是在浏览器地址栏中输入域名,就能看到所需要的页面,这是因为有一个叫“DNS服务器”的计算机自动把域名“翻译”成了相应的IP地址,然后调出IP 地址所对应的网页。DNS(Domain Name System)是“域名系统”的英文缩写,是一种组织成域层次结构的计算机和网络服务命名系统,它用于TCP/IP网络,它所提供的服务是用来将主机名和域名转换为IP地址的工作。DNS就是这样的一位“翻译官”。
③使用NTP查询的频次
NTP是物联网设备使用的另一种流行协议,因为对于物联网设备来说精确的验证执行时间对物联网操作尤为重要。许多物联网设备倾向于定期使用NTP 协议(UDP端口123),以便与公开可用的NTP服务器同步它们的时间。
NTP:网络时间协议(Network Time Protocol)是在数据网络潜伏时间可变的计算机系统之间通过分组交换进行时钟同步的一个网络协议,位于OSI模型的应用层。自1985年以来,NTP是目前仍在使用的最古老的互联网协议之一。NTP 意图将所有参与计算机的协调世界时(UTC)时间同步到几毫秒的误差内。它使用 Marzullo算法的修改版来选择准确的时间服务器,其设计旨在减轻可变网络延迟造成的影响。NTP通常可以在公共互联网保持几十毫秒的误差,并且在理想的局域网环境中可以实现超过1毫秒的精度。不对称路由和拥塞控制可能导致100 毫秒(或更高)的错误。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (6)

1.基于设备标识的流量分类识别方法,其特征在于,所述方法包括:
S1,获取联网设备的流量信息,提取流量信息中的特征向量;
S2,根据历史特征向量构建训练数据,利用训练数据对分类器进行训练;
S3,将特征向量导入训练后的分类器进行流量分类识别。
2.根据权利要求1所述的基于设备标识的流量分类识别方法,其特征在于,所述S1包括:
S11,采用tcpdump工具来收集所有的流量信息,将获取到的数据流量信息和已知的MAC地址进行一一对应,进行检测分析;
S,2,通过工具将流量信息保存成外部存储设备USB上,然后在USB上记录这些流量信息,并定期收集相关的信息;
S13,对物联网设备的流量做了相关选择,并作为相关特征向量;基于物联网设备流量分类采用物联网设备中的流量属性进行分类。
3.根据权利要求1所述的基于设备标识的流量分类识别方法,其特征在于,所述S2包括:
S21,构建包含第一阶段分类器以及第二阶段分类器的多阶段分类器;
S22,在第一阶段分类器中得到包含类和置信度在内的输出结果,将输出结果导入第二阶段分类器;
S23,在第二阶段分类器中进行基于随机森林的分类处理。
4.根据权利要求1所述的基于设备标识的流量分类识别方法,其特征在于,所述S22包括:
S221,获取第一阶段分类其中包含类和置信度的输出结果;
S222,在输出结果中添加表征网络情况的状态参数,得到补充后的输出结果。
5.根据权利要求1所述的基于设备标识的流量分类识别方法,其特征在于,所述第一阶段分类器中使用朴素贝叶斯分类器。
6.根据权利要求1所述的基于设备标识的流量分类识别方法,其特征在于,所述S23包括:
S232,输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M;
S233,从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集,并用未抽到的样本作预测,评估其误差;
S234,对于每一个节点,随机选择m个特征,根据这m个特征计算其最佳的分裂方式。
CN202111187736.0A 2021-10-12 2021-10-12 基于设备标识的流量分类识别方法 Pending CN114004281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111187736.0A CN114004281A (zh) 2021-10-12 2021-10-12 基于设备标识的流量分类识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111187736.0A CN114004281A (zh) 2021-10-12 2021-10-12 基于设备标识的流量分类识别方法

Publications (1)

Publication Number Publication Date
CN114004281A true CN114004281A (zh) 2022-02-01

Family

ID=79922675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111187736.0A Pending CN114004281A (zh) 2021-10-12 2021-10-12 基于设备标识的流量分类识别方法

Country Status (1)

Country Link
CN (1) CN114004281A (zh)

Similar Documents

Publication Publication Date Title
CN113114618B (zh) 一种基于流量分类识别的物联网设备入侵检测的方法
CN109600363B (zh) 一种物联网终端网络画像及异常网络访问行为检测方法
CN109063745B (zh) 一种基于决策树的网络设备类型识别方法及系统
US10200382B2 (en) System and method for detecting abnormal traffic behavior using infinite decaying clusters
US10187401B2 (en) Hierarchical feature extraction for malware classification in network traffic
US8762298B1 (en) Machine learning based botnet detection using real-time connectivity graph based traffic features
CN111212053B (zh) 一种面向工控蜜罐的同源攻击分析方法
Verde et al. No NAT'd user left behind: Fingerprinting users behind NAT from NetFlow records alone
CN107360145B (zh) 一种多节点蜜罐系统及其数据分析方法
CN109768952B (zh) 一种基于可信模型的工控网络异常行为检测方法
CN108833437A (zh) 一种基于流量指纹和通信特征匹配的apt检测方法
Atli Anomaly-based intrusion detection by modeling probability distributions of flow characteristics
CN113610157A (zh) 基于人工智能的业务大数据特征采集方法及服务器
CN112291213A (zh) 一种基于智能终端的异常流量分析方法及装置
CN109728977B (zh) Jap匿名流量检测方法及系统
Fan et al. Autoiot: Automatically updated iot device identification with semi-supervised learning
Aluthge Iot device fingerprinting with sequence-based features
CN114004281A (zh) 基于设备标识的流量分类识别方法
CN116112287A (zh) 基于时空关联的网络攻击组织追踪方法与装置
US11552867B1 (en) System, device, and method of classifying encrypted network communications
CN116346434A (zh) 电力系统网络攻击行为监测准确度提升方法及系统
CN114679318A (zh) 一种高速网络中轻量级的物联网设备识别方法
Wan et al. DevTag: A benchmark for fingerprinting IoT devices
CN108055149A (zh) 一种时频同步应用中端到端流量异常特征提取方法
KR102037192B1 (ko) 계층적 구조 학습을 통한 네트워크 트래픽의 지속적인 신호 트래픽 탐지 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination