CN113839941B - 基于smote和并行随机森林的物联网设备准入检测方法和系统 - Google Patents

基于smote和并行随机森林的物联网设备准入检测方法和系统 Download PDF

Info

Publication number
CN113839941B
CN113839941B CN202111104586.2A CN202111104586A CN113839941B CN 113839941 B CN113839941 B CN 113839941B CN 202111104586 A CN202111104586 A CN 202111104586A CN 113839941 B CN113839941 B CN 113839941B
Authority
CN
China
Prior art keywords
internet
equipment
things
fingerprint information
protocol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111104586.2A
Other languages
English (en)
Other versions
CN113839941A (zh
Inventor
胡龙舟
冯涛
李韬睿
吴頔
徐超
郭莎莎
张佐星
胥琼丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maintenance Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
Maintenance Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maintenance Branch of State Grid Hubei Electric Power Co Ltd filed Critical Maintenance Branch of State Grid Hubei Electric Power Co Ltd
Priority to CN202111104586.2A priority Critical patent/CN113839941B/zh
Publication of CN113839941A publication Critical patent/CN113839941A/zh
Application granted granted Critical
Publication of CN113839941B publication Critical patent/CN113839941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer And Data Communications (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于SMOTE和并行随机森林的物联网设备准入检测方法,包括:获取物联网设备的多个设备指纹信息,对每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的所有设备指纹信息对应的特征属性值构建特征矩阵;将特征矩阵输入训练好的设备识别分类器中,以得到输出结果,根据输出结果在本地漏洞库中查询对应的漏洞及其类型,并根据该类型判断查询到的漏洞是否为中高危漏洞,如果是则禁止该物联网设备接入,否则允许该物联网设备接入。本发明能够解决现有基于机器学习或者深度学习的物联网设备接入检测方法由于物联网设备品种多样且差异性大,导致对不常见的物联网设备的检测准确率偏低的技术问题。

Description

基于SMOTE和并行随机森林的物联网设备准入检测方法和 系统
技术领域
本发明属于机器学习技术领域,更具体地,涉及一种基于SMOTE和并行随机森林的物联网设备接入安全检测的方法和系统。
背景技术
近年来,随着物联网技术的快速发展,物联网设备已经得到了日益广泛的使用。与之对应地,物联网设备的安全性问题也显得日益突出,并且物联网设备接入检测也已经成为物联网安全领域的重要研究方向。
现有的物联网设备接入检测是基于机器学习或者深度学习的方式对设备进行识别。
然而,上述现有的物联网设备接入检测方法存在一些不可忽略的缺陷:第第一,由于物联网设备品种多样,且差异性大,现有基于机器学习的接入检测方法会导致现有方法对常见的物联网设备的检测率高,但对不常见的物联网设备的检测准确率偏低;第二,现有方法在使用海量样本数据进行模型训练时,需要耗费过长时间
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于SMOTE和并行随机森林的物联网设备接入安全检测的方法和系统,其目的在于,解决现有基于机器学习或者深度学习的物联网设备接入检测方法由于物联网设备品种多样且差异性大,导致对不常见的物联网设备的检测准确率偏低的技术问题,以及在使用海量样本数据进行模型训练时,需要耗费过长时间的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于SMOTE和并行随机森林的物联网设备准入检测方法,包括以下步骤:
(1)获取物联网设备的多个设备指纹信息,对每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的所有设备指纹信息对应的特征属性值构建特征矩阵Feature;
(2)将步骤(1)构建的特征矩阵Feature输入训练好的设备识别分类器中,以得到输出结果,包括物联网设备的名称、设备类型、设备制造商、以及固件版本。
(3)根据步骤(2)得到的输出结果在本地漏洞库中查询对应的漏洞及其类型(即该漏洞是高危漏洞、中危漏洞、还是低危漏洞),并根据该类型判断查询到的漏洞是否为中高危漏洞,如果是则禁止该物联网设备接入,过程结束,否则允许该物联网设备接入,过程结束。
优选地,物联网设备的特征属性包括:
数据链路层协议,其包括ARP协议和Ethernet协议;
网络层协议,其包括IP协议、ICMP协议、ICMPv6协议、EAPoL协议、以及IGMP协议;
传输层协议,其包括TCP协议和UDP协议;
应用层协议,其包括HTTP协议、HTTPS协议、BOOTP协议、SSDP协议、DNS协议、MDNS协议、NTP协议、SMB协议、SSH协议、以及MQTT协议;
包长度;
通信源端口;
通信目的端口;以及
物联网设备在配置阶段的上下文数据包个数。
优选地,设备识别分类器采用的是随机森林模型;
优选地,设备识别分类器是通过以下步骤训练得到的:
(2-1)获取多个物联网设备的设备指纹信息{Info1,Info2,…,Infom},对每个物联网设备的每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的该物联网设备的所有设备指纹信息对应的特征属性值构建特征矩阵,并将所有物联网设备对应的特征矩阵进行合并,以得到合并后的特征矩阵,其中m表示物联网设备的总数,Infonum表示第num个物联网设备的设备指纹信息,且有num∈[1,m];
(2-2)利用SMOTE技术对步骤(1)得到的特征矩阵进行数据增强处理,以得到处理后的特征矩阵;
(2-3)将步骤(2-2)处理后的特征矩阵按照行数8:2的比例划分为训练集和测试集,并将训练集输入设备识别分类器;
(2-4)使用分类回归树(CART)算法对设备识别分类器中的权重参数和偏置参数进行更新和优化,以得到更新后的设备识别分类器;
(2-5)对步骤(2-4)更新后的设备识别分类器进行迭代训练,直到该设备识别分类器的损失函数达到最小为止,从而得到初步训练好的设备识别分类器;
(2-6)使用步骤(2-3)得到的验证集对初步训练好的设备识别分类器进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的设备识别分类器。
优选地,步骤(2-2)包括以下子步骤:
(2-2-1)设置计数器cnt2=0;
(2-2-2)判断cnt2是否大于特征矩阵总行数对应的少数样本数据集的行数f,如果是则过程结束,否则进入步骤(2-3);
(2-2-3)针对少数样本数据集中的第i个少数样本而言,计算该第i行到该少数样本数据集中剩余少数样本中每一个少数样本之间的距离;
(2-2-4)针对少数样本数据集中的第i个少数样本而言,将步骤(2-2-3)计算得到的多个距离进行升序排列,使用SMOTE算法对排列前k个对应的少数样本进行扩充处理,以得到扩充处理后的少数样本,其中k等于f的1/20到1/10之间,扩充倍率等于m/f;
(2-2-5)将扩充处理后的k个少数样本加入步骤(2-1)合并后的特征矩阵中,并设置计数器cnt2=cnt2+1,并返回步骤(2-2-2);
优选地,步骤(2-2-2)中,少数样本数据集的建立过程是,首先,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第一个物联网设备,然后,确定该第一个物联网设备在合并后的特征矩阵中对应的所有行作为第一少数样本;随后,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第二个物联网设备,然后确定该第二个物联网设备在合并后的特征矩阵中对应的所有行作为第二少数样本;…;以此类推,所有少数样本的集合构成了少数样本数据集,其中T为自然数。
优选地,损失函数使用的是CART回归的损失函数,其具体为:
其中p表示步骤(1)中物联网设备的特征属性总数量(在本实例中是一共有23种,所以p=23),features-z表示物联网设备的第z个特征属性值,且有z∈[1,p],xfeatures-z表示步骤(2-1)合并后的特征矩阵中第z个特征属性值对应的行的总数。
优选地,输出结果包括物联网设备的名称、设备类型、设备制造商、以及固件版本。
按照本发明的另一方面,提供了一种基于SMOTE和并行随机森林的物联网设备准入检测系统,包括:
第一模块,用于获取物联网设备的多个设备指纹信息,对每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的所有设备指纹信息对应的特征属性值构建特征矩阵Feature;
第二模块,用于将第一模块构建的特征矩阵Feature输入训练好的设备识别分类器中,以得到输出结果;
第三模块,用于根据第二模块得到的输出结果在本地漏洞库中查询对应的漏洞及其类型(即该漏洞是高危漏洞、中危漏洞、还是低危漏洞),并根据该类型判断查询到的漏洞是否为中高危漏洞,如果是则禁止该物联网设备接入,过程结束,否则允许该物联网设备接入,过程结束。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(1)和步骤(2),其通过已有物联网设备指纹信息,构造设备指纹特征向量,并SMOTE算法进行数据增强,因此能够解决现有接入检测方法对常见的物联网设备的检测率高,但对不常见的物联网设备的检测准确率偏低的技术问题;
(2)由于本发明采用了步骤(2-1)至(2-6),其采用并行的随机森林算法训练设备识别分类器,因此能够解决现有接入检测方法在使用海量样本数据进行模型训练时,需要耗费过长时间的技术问题。
附图说明
图1是本发明基于SMOTE和并行随机森林的物联网设备准入检测方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,提供一种基于SMOTE和并行随机森林的物联网设备准入检测方法,其首先根据物联网设备接入配置阶段的数据流,提取设备指纹特征信息。根据设备指纹特征信息,构造特征矩阵。考虑到现有方法对不常见的物联网设备识别准确率过低,采用SMOTE算法进行数据增强,解决不平衡样本训练集下少数类样本识别精度低的问题。然后基于并行化的随机森林算法,快速进行模型训练,得到设备识别分类器。最后,将待接入物联网设备指纹特征向量矩阵输入分类器,得到设备的指纹信息:设备名称、设备类型、设备制造商、固件版本。根据设备的指纹信息,依次匹配本地漏洞库,精准进行设备安全漏洞评估。本发明的物联网设备安全信息检测方法具有良好的适用性以及精确的识别度。
如图1所示,本发明提供了一种基于SMOTE和并行随机森林的物联网设备准入检测方法,包括以下步骤:
(1)获取物联网设备的多个设备指纹信息,对每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的所有设备指纹信息对应的特征属性值构建特征矩阵Feature;
具体而言,物联网设备的特征属性包括但不局限于:数据链路层协议(其包括地址解析协议(Address Resolution Protocol,简称ARP)和Ethernet,例如,如果该物联网设备的数据链路层协议是ARP,则其特征属性值为1,否则为0)、网络层协议(其包括IP、互联网控制报文协议(Internet Control Message Protocol,简称ICMP)、ICMPv6、可扩展认证协议(Extensible Authentication Protocol,简称EAPoL)、以及Internet组管理协议(Internet Group Management Protocol,简称IGMP),例如,如果该设备的网络层协议是IP,则其特征属性值为1,否则为0)、传输层协议(其包括TCP和UDP,如果该物联网设备的传输层协议是TCP,则其特征属性值为1,否则为0)、应用层协议(HTTP、HTTPS、BOOTP、SSDP、DNS、MDNS、NTP、SMB、SSH、以及MQTT,例如如果该设备的应用层协议是HTTP,则其特征属性值为1,否则为0)、包长度、通信源端口(具体而言,如果无端口,则其特征属性值是0;如果端口在1-9之间,则其特征属性值为1;如果端口在10-99之间,则其属性值为2;如果端口在100-999之间,则其特征属性值为3;如果端口在1000-9999,则其特征属性值为4,如果端口在10000-65535之间,则其特征属性值为5)、通信目的端口(具体而言,如果无端口,则其特征属性值是0;如果端口在1-9之间,则其特征属性值为1;如果端口在10-99之间,则其属性值为2;如果端口在100-999之间,则其特征属性值为3;如果端口在1000-9999,则其特征属性值为4,如果端口在10000-65535之间,则其特征属性值为5)、以及物联网设备在配置阶段的上下文数据包个数。
举例而言,通过本步骤所构建的特征矩阵Feature如下:
在该矩阵中,第一行表示第一个设备指纹信息对应的特征属性值,其中该行的第一个元素0,表示该物联网设备的数据链路层协议不是ARP,第二个元素1,表示该物联网设备的数据链路层协议是Ethernet,第三个元素1,表示该物联网设备的网络层协议是IP协议,第四个元素是0,表示该物联网设备的网络层协议不是ICMP协议,第五个元素是0,表示该物联网设备的网络层协议不是ICMPv6协议,…,以此类推,最后一个元素是5,表示该物联网设备在配置阶段的上下文数据包个数是5。
上述步骤(1)的优点在于,精准提取设备指纹特征并构建特征矩阵,提高了设备识别分类器的准确率。
(2)将步骤(1)构建的特征矩阵Feature输入训练好的设备识别分类器中,以得到输出结果,包括物联网设备的名称、设备类型、设备制造商、以及固件版本;
本发明中的设备识别分类器采用的是随机森林模型。
具体而言,本发明的设备识别分类器是通过以下步骤训练得到的:
(2-1)获取多个物联网设备的设备指纹信息{Info1,Info2,…,Infom},对每个物联网设备的每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的该物联网设备的所有设备指纹信息对应的特征属性值构建特征矩阵,并将所有物联网设备对应的特征矩阵进行合并,以得到合并后的特征矩阵,其中m表示物联网设备的总数,Infonum表示第num个物联网设备的设备指纹信息,且有num∈[1,m];
本步骤中的过程和上述步骤(1)中的完全相同,在此不再赘述。
(2-2)利用合成少数类过采样技术(Synthetic Minority OversamplingTechnique,简称SMOTE)对步骤(1)得到的特征矩阵进行数据增强处理,以得到处理后的特征矩阵;
具体而言,本步骤包括以下子步骤:
(2-2-1)设置计数器cnt2=0;
(2-2-2)判断cnt2是否大于特征矩阵总行数对应的少数样本数据集的行数f,如果是则过程结束,否则进入步骤(2-3);
具体而言,少数样本数据集的建立过程是,首先,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T(其中T为自然数,其取值范围是大于等于10,优选为10)的第一个物联网设备,然后,确定该第一个物联网设备在合并后的特征矩阵中对应的所有行作为第一少数样本;随后,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第二个物联网设备,然后确定该第二个物联网设备在合并后的特征矩阵中对应的所有行作为第二少数样本;…;以此类推,所有少数样本的集合构成了少数样本数据集。
(2-2-3)针对少数样本数据集中的第i个少数样本而言,计算该第i行到该少数样本数据集中剩余少数样本中每一个少数样本之间的距离,计算公式如下,其中i∈[1,f],j∈[1,f]且有j≠i:
(2-2-4)针对少数样本数据集中的第i个少数样本而言,将步骤(2-2-3)计算得到的多个距离进行升序排列,使用SMOTE算法对排列前k(其等于f的1/20到1/10之间)个对应的少数样本进行扩充处理(其中扩充倍率等于m/f),以得到扩充处理后的少数样本;
(2-2-5)将扩充处理后的k个少数样本加入步骤(2-1)合并后的特征矩阵中,并设置计数器cnt2=cnt2+1,并返回步骤(2-2-2);
上述步骤(2-2-1)到(2-2-5)的优点在于,针对不均衡的样本集,使用SMOTE算法进行数据增强,因此能够解决现有接入检测方法对常见的物联网设备的检测率高,但对不常见的物联网设备的检测准确率偏低的技术问题。
(2-3)将步骤(2-2)处理后的特征矩阵按照行数8:2的比例划分为训练集和测试集,并将训练集输入设备识别分类器;
(2-4)使用分类回归树(Classification And Regression Tree,简称CART)算法对设备识别分类器中的权重参数和偏置参数进行更新和优化,以得到更新后的设备识别分类器;
本步骤的优点在于,采用并行的随机森林算法训练设备识别分类器,因此能够解决现有接入检测方法在使用海量样本数据进行模型训练时,需要耗费过长时间的技术问题。
(2-5)对步骤(2-4)更新后的设备识别分类器进行迭代训练,直到该设备识别分类器的损失函数达到最小为止,从而得到初步训练好的设备识别分类器;
具体而言,本发明中使用的损失函数使用的是CART回归的损失函数,其具体为:
其中p表示步骤(1)中物联网设备的特征属性总数量(在本实例中是一共有23种,所以p=23),features-z表示物联网设备的第z个特征属性值,且有z∈[1,p],xfeatures-z表示步骤(2-1)合并后的特征矩阵中第z个特征属性值对应的行的总数。
(2-6)使用步骤(2-3)得到的验证集对初步训练好的设备识别分类器进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的设备识别分类器。
(3)根据步骤(2)得到的输出结果在本地漏洞库中查询对应的漏洞及其类型(即该漏洞是高危漏洞、中危漏洞、还是低危漏洞),并根据该类型判断查询到的漏洞是否为中高危漏洞,如果是则禁止该物联网设备接入,过程结束,否则允许该物联网设备接入,过程结束。
具体而言,本步骤中使用的本地漏洞库是从诸如网址http://cve.mitre.org这样的漏洞数据库获取到的,该本地漏洞库中记载了所有漏洞的编号(例如cve-2021-40444)、以及各个漏洞的类型(例如中危)。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于SMOTE和并行随机森林的物联网设备准入检测方法,其特征在于,包括以下步骤:
(1)获取物联网设备的多个设备指纹信息,对每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的所有设备指纹信息对应的特征属性值构建特征矩阵Feature;
(2)将步骤(1)构建的特征矩阵Feature输入训练好的设备识别分类器中,以得到输出结果,包括物联网设备的名称、设备类型、设备制造商、以及固件版本;设备识别分类器是通过以下步骤训练得到的:
(2-1)获取多个物联网设备的设备指纹信息{Info1,Info2,…,Infom},对每个物联网设备的每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的该物联网设备的所有设备指纹信息对应的特征属性值构建特征矩阵,并将所有物联网设备对应的特征矩阵进行合并,以得到合并后的特征矩阵,其中m表示物联网设备的总数,Infonum表示第num个物联网设备的设备指纹信息,且有num∈[1,m];
(2-2)利用SMOTE技术对步骤(1)得到的特征矩阵进行数据增强处理,以得到处理后的特征矩阵;步骤(2-2)包括以下子步骤:
(2-2-1)设置计数器cnt2=0;
(2-2-2)判断cnt2是否大于特征矩阵总行数对应的少数样本数据集的行数f,如果是则过程结束,否则进入步骤(2-2-3);步骤(2-2-2)中,少数样本数据集的建立过程是,首先,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第一个物联网设备,然后,确定该第一个物联网设备在合并后的特征矩阵中对应的所有行作为第一少数样本;随后,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第二个物联网设备,然后确定该第二个物联网设备在合并后的特征矩阵中对应的所有行作为第二少数样本;以此类推,所有少数样本的集合构成了少数样本数据集,其中T为自然数,其取值范围是大于等于10;
(2-2-3)针对少数样本数据集中的第i个少数样本而言,计算该第i行到该少数样本数据集中剩余少数样本中每一个少数样本之间的距离;
(2-2-4)针对少数样本数据集中的第i个少数样本而言,将步骤(2-2-3)计算得到的多个距离进行升序排列,使用SMOTE算法对排列前k个对应的少数样本进行扩充处理,以得到扩充处理后的少数样本,其中k等于f的1/20到1/10之间,扩充倍率等于m/f;
(2-2-5)将扩充处理后的k个少数样本加入步骤(2-1)合并后的特征矩阵中,并设置计数器cnt2=cnt2+1,并返回步骤(2-2-2);
(2-3)将步骤(2-2)处理后的特征矩阵按照行数8:2的比例划分为训练集和测试集,并将训练集输入设备识别分类器;
(2-4)使用分类回归树算法对设备识别分类器中的权重参数和偏置参数进行更新和优化,以得到更新后的设备识别分类器;
(2-5)对步骤(2-4)更新后的设备识别分类器进行迭代训练,直到该设备识别分类器的损失函数达到最小为止,从而得到初步训练好的设备识别分类器;
(2-6)使用步骤(2-3)得到的测试集对初步训练好的设备识别分类器进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的设备识别分类器;
(3)根据步骤(2)得到的输出结果在本地漏洞库中查询对应的漏洞及其类型,并根据该类型判断查询到的漏洞是否为中高危漏洞,如果是则禁止该物联网设备接入,过程结束,否则允许该物联网设备接入,过程结束。
2.根据权利要求1所述的基于SMOTE和并行随机森林的物联网设备准入检测方法,其特征在于,物联网设备的特征属性包括:
数据链路层协议,其包括ARP协议和Ethernet协议;
网络层协议,其包括IP协议、ICMP协议、ICMPv6协议、EAPoL协议、以及IGMP协议;
传输层协议,其包括TCP协议和UDP协议;
应用层协议,其包括HTTP协议、HTTPS协议、BOOTP协议、SSDP协议、DNS协议、MDNS协议、NTP协议、SMB协议、SSH协议、以及MQTT协议;
包长度;
通信源端口;
通信目的端口;以及
物联网设备在配置阶段的上下文数据包个数。
3.根据权利要求1或2所述的基于SMOTE和并行随机森林的物联网设备准入检测方法,其特征在于,设备识别分类器采用的是随机森林模型。
4.根据权利要求1所述的基于SMOTE和并行随机森林的物联网设备准入检测方法,其特征在于,损失函数使用的是CART回归的损失函数,其具体为:
其中p表示步骤(1)中物联网设备的特征属性总数量,features-z表示物联网设备的第z个特征属性值,且有z∈[1,p],xfeatures-z表示步骤(2-1)合并后的特征矩阵中第z个特征属性值对应的行的总数。
5.根据权利要求1所述的基于SMOTE和并行随机森林的物联网设备准入检测方法,其特征在于,输出结果包括物联网设备的名称、设备类型、设备制造商、以及固件版本。
6.一种基于SMOTE和并行随机森林的物联网设备准入检测系统,其特征在于,包括:
第一模块,用于获取物联网设备的多个设备指纹信息,对每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的所有设备指纹信息对应的特征属性值构建特征矩阵Feature;
第二模块,用于将第一模块构建的特征矩阵Feature输入训练好的设备识别分类器中,以得到输出结果;设备识别分类器是通过以下步骤训练得到的:
(2-1)获取多个物联网设备的设备指纹信息{Info1,Info2,…,Infom},对每个物联网设备的每个设备指纹信息进行解析,以获取该设备指纹信息对应的特征属性值,并根据获取的该物联网设备的所有设备指纹信息对应的特征属性值构建特征矩阵,并将所有物联网设备对应的特征矩阵进行合并,以得到合并后的特征矩阵,其中m表示物联网设备的总数,Infonum表示第num个物联网设备的设备指纹信息,且有num∈[1,m];
(2-2)利用SMOTE技术对步骤(1)得到的特征矩阵进行数据增强处理,以得到处理后的特征矩阵;步骤(2-2)包括以下子步骤:
(2-2-1)设置计数器cnt2=0;
(2-2-2)判断cnt2是否大于特征矩阵总行数对应的少数样本数据集的行数f,如果是则过程结束,否则进入步骤(2-2-3);步骤(2-2-2)中,少数样本数据集的建立过程是,首先,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第一个物联网设备,然后,确定该第一个物联网设备在合并后的特征矩阵中对应的所有行作为第一少数样本;随后,确定其全部设备指纹信息对应的总行数小于该特征矩阵总行数的1/T的第二个物联网设备,然后确定该第二个物联网设备在合并后的特征矩阵中对应的所有行作为第二少数样本;以此类推,所有少数样本的集合构成了少数样本数据集,其中T为自然数,其取值范围是大于等于10;
(2-2-3)针对少数样本数据集中的第i个少数样本而言,计算该第i行到该少数样本数据集中剩余少数样本中每一个少数样本之间的距离;
(2-2-4)针对少数样本数据集中的第i个少数样本而言,将步骤(2-2-3)计算得到的多个距离进行升序排列,使用SMOTE算法对排列前k个对应的少数样本进行扩充处理,以得到扩充处理后的少数样本,其中k等于f的1/20到1/10之间,扩充倍率等于m/f;
(2-2-5)将扩充处理后的k个少数样本加入步骤(2-1)合并后的特征矩阵中,并设置计数器cnt2=cnt2+1,并返回步骤(2-2-2);
(2-3)将步骤(2-2)处理后的特征矩阵按照行数8:2的比例划分为训练集和测试集,并将训练集输入设备识别分类器;
(2-4)使用分类回归树算法对设备识别分类器中的权重参数和偏置参数进行更新和优化,以得到更新后的设备识别分类器;
(2-5)对步骤(2-4)更新后的设备识别分类器进行迭代训练,直到该设备识别分类器的损失函数达到最小为止,从而得到初步训练好的设备识别分类器;
(2-6)使用步骤(2-3)得到的测试集对初步训练好的设备识别分类器进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的设备识别分类器;
第三模块,用于根据第二模块得到的输出结果在本地漏洞库中查询对应的漏洞及其类型,并根据该类型判断查询到的漏洞是否为中高危漏洞,如果是则禁止该物联网设备接入,过程结束,否则允许该物联网设备接入,过程结束。
CN202111104586.2A 2021-09-22 2021-09-22 基于smote和并行随机森林的物联网设备准入检测方法和系统 Active CN113839941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111104586.2A CN113839941B (zh) 2021-09-22 2021-09-22 基于smote和并行随机森林的物联网设备准入检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111104586.2A CN113839941B (zh) 2021-09-22 2021-09-22 基于smote和并行随机森林的物联网设备准入检测方法和系统

Publications (2)

Publication Number Publication Date
CN113839941A CN113839941A (zh) 2021-12-24
CN113839941B true CN113839941B (zh) 2023-08-29

Family

ID=78960160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111104586.2A Active CN113839941B (zh) 2021-09-22 2021-09-22 基于smote和并行随机森林的物联网设备准入检测方法和系统

Country Status (1)

Country Link
CN (1) CN113839941B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622754B (zh) * 2022-09-29 2024-05-14 四川启睿克科技有限公司 一种检测并防止mqtt漏洞的方法、系统和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602041A (zh) * 2019-08-05 2019-12-20 中国人民解放军战略支援部队信息工程大学 基于白名单的物联网设备识别方法、装置及网络架构
CN111343163A (zh) * 2020-02-14 2020-06-26 东南大学 基于网络流量特征融合的物联网设备身份凭证生成方法
CN112115457A (zh) * 2020-08-24 2020-12-22 国网福建省电力有限公司 一种电力终端接入方法及系统
CN112118303A (zh) * 2020-09-08 2020-12-22 湖南建工集团有限公司 一种面向多种通信协议的边缘计算物联网中间件
CN112600793A (zh) * 2020-11-23 2021-04-02 国网山东省电力公司青岛供电公司 一种基于机器学习的物联网设备分类识别方法及系统
CN113313156A (zh) * 2021-05-21 2021-08-27 北京工业大学 一种基于时序负载流量指纹的物联网设备识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602041A (zh) * 2019-08-05 2019-12-20 中国人民解放军战略支援部队信息工程大学 基于白名单的物联网设备识别方法、装置及网络架构
CN111343163A (zh) * 2020-02-14 2020-06-26 东南大学 基于网络流量特征融合的物联网设备身份凭证生成方法
CN112115457A (zh) * 2020-08-24 2020-12-22 国网福建省电力有限公司 一种电力终端接入方法及系统
CN112118303A (zh) * 2020-09-08 2020-12-22 湖南建工集团有限公司 一种面向多种通信协议的边缘计算物联网中间件
CN112600793A (zh) * 2020-11-23 2021-04-02 国网山东省电力公司青岛供电公司 一种基于机器学习的物联网设备分类识别方法及系统
CN113313156A (zh) * 2021-05-21 2021-08-27 北京工业大学 一种基于时序负载流量指纹的物联网设备识别方法及系统

Also Published As

Publication number Publication date
CN113839941A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN108768986B (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
CN112003870A (zh) 一种基于深度学习的网络加密流量识别方法及装置
Peraković et al. Artificial neuron network implementation in detection and classification of DDoS traffic
CN113206860B (zh) 一种基于机器学习和特征选择的DRDoS攻击检测方法
Peraković et al. Model for detection and classification of DDoS traffic based on artificial neural network
CN113839941B (zh) 基于smote和并行随机森林的物联网设备准入检测方法和系统
CN107104988B (zh) 一种基于概率神经网络的IPv6入侵检测方法
CN113472819B (zh) 基于指纹特征的蜜罐探测识别方法及装置
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN112217763A (zh) 一种基于机器学习的隐蔽tls通信流检测方法
Sarraute et al. Using neural networks to improve classical operating system fingerprinting techniques
CN111935185B (zh) 基于云计算构建大规模诱捕场景的方法及系统
CN112134873B (zh) 一种IoT网络异常流量实时检测方法及系统
CN111835763A (zh) 一种dns隧道流量检测方法、装置及电子设备
CN107209834A (zh) 恶意通信模式提取装置、恶意通信模式提取系统、恶意通信模式提取方法及恶意通信模式提取程序
CN112003869A (zh) 一种基于流量的漏洞识别方法
CN115277102A (zh) 网络攻击检测方法、装置、电子设备及存储介质
CN112953961B (zh) 配电房物联网中设备类型识别方法
CN109951499A (zh) 一种基于网络结构特征的异常检测方法
CN113872939A (zh) 一种流量检测方法、装置及存储介质
CN111291078B (zh) 一种域名匹配检测方法及装置
CN115473748A (zh) 基于BiLSTM-ELM的DDoS攻击分类检测方法、装置及设备
CN112866267B (zh) 一种网络业务动态识别与划分的系统、方法、设备及存储介质
CN113726809B (zh) 基于流量数据的物联网设备识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant