CN116233011A - 一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统 - Google Patents
一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统 Download PDFInfo
- Publication number
- CN116233011A CN116233011A CN202310199297.8A CN202310199297A CN116233011A CN 116233011 A CN116233011 A CN 116233011A CN 202310199297 A CN202310199297 A CN 202310199297A CN 116233011 A CN116233011 A CN 116233011A
- Authority
- CN
- China
- Prior art keywords
- internet
- things
- length sequence
- flow
- packet length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 51
- 238000010276 construction Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 238000005215 recombination Methods 0.000 claims 1
- 230000006798 recombination Effects 0.000 claims 1
- 230000008521 reorganization Effects 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract description 7
- 238000002474 experimental method Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统。该方法可分为物联网流量分类模型构建阶段和物联网流量分类阶段。物联网流量分类模型构建阶段包括:对物联网流量样本进行预处理;对深度学习模型的可训练参数进行初始化;对预处理完成的物联网流量序列进行嵌入向量表示处理;对物联网流量序列的嵌入向量进行包长度序列特征和消息长度序列特征的提取;分别拼接包长度序列特征和消息长度序列特征;采用全连接层和概率融合分类物联网流量;判断是否达到训练终止条件从而保存深度学习模型;利用物联网流量分类模型构建阶段得到的物联网流量分类模型对物联网流量进行分类。本发明实现了对物联网流量的准确分类。
Description
技术领域
本发明涉及一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统。
背景技术
在当今时代,为了提供优质的物联网服务质量,运营商需要进行合理的物联网规划管理。具体而言,他们需要确定物联网设备的流量来源,以便提供相应的设备服务。在家庭中,智能家居需要收集各种数据信息,上传并分析这些数据,以区分不同类型的设备,分析设备使用习惯,以提供更好的服务。此外,还需要检测异常数据,以避免恶意的数据攻击。因此,物联网流量分类是物联网服务优化和异常检测的前提条件。
多年来,科研人员对该领域进行了深入的探索,并提出了许多解决方案。深度数据报文检测(DPI)是过去的重要流量分类技术之一。在过去的十年中,各个研发团队探索了多种网络流量分类方法。近年来,计算机视觉、机器翻译和语音识别等多个深度学习技术领域的成功,极大地推动了流量分类的发展。因此,大量从事该工作的研究人员开始使用先进的深度学习技术来解决网络流量分类的各种问题。
对于深度学习而言,设计一个合适、通用的模型,来实现具备良好分类能力的物联网流量分类器,是一个非常开放且具有潜力的研究问题。本发明的设计方向是将包长度序列特征和消息长度序列特征深度融合,作为输入数据特征,并通过设计深度学习模型来更精确、更有效地对物联网流量进行分类。
多年来,各领域已经对流量分类进行了广泛研究,开发了多种分类方法。然而,在过去的研究中,对于网络流量数据输入的选取特征通常局限于使用单一特征,例如包长度序列特征或消息长度序列特征。但是,这种单一特征的方法存在缺陷和局限性。
对于包长度序列特征而言,由于最大传输单元(MTU)的限制,存在很多重复的最大包长,这些相似的最大包长会干扰神经网络的准确性,尤其在存在相同长度的数据包的情况下,如出现相同的域名、证书或传输视频格式信息。而对于消息长度序列特征而言,虽然代表了通信双方发送信息的大小,能够在一定程度上代表客户端和主机之间的行为模式,但它的代表性对于不同厂商的物联网设备来说会较弱。因此,本发明旨在解决已有的物联网流量分类方法在输入特征上存在单一缺陷的问题。
发明内容
本发明的目的在于设计并实现一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统。在利用包长度序列为流量特征的基础上,结合使用消息长度序列作为流量的特征,进而形成鲁棒的特征表达,以实现高准确、高效率的物联网流量分类。为实现上述目的,本发明采用的技术方案如下:
一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统,其特征在于,包括物联网流量分类模型构建阶段和物联网流量分类阶段;
所述物联网流量分类模型构建阶段包括如下步骤:
1)以与标签绑定的原始物联网流量样本作为输入,对其进行物联网流量预处理操作,得到物联网流量样本的包长度序列和消息长度序列。
2)以步骤1)得到的物联网流量样本的包长度序列和消息长度序列作为输入,对其进行嵌入向量表示处理操作,得到物联网流量样本的包长度序列和消息长度序列的嵌入向量表示形式。
3)以步骤2)得到的物联网流量样本的包长度序列和消息长度序列的嵌入向量表示形式作为输入,对该步骤的输入进行特征提取操作,得到物联网流量样本的包长度序列特征和消息长度序列特征。
4)以步骤3)得到的物联网流量样本的包长度序列特征和消息长度序列特征作为输入,对该步骤的输入特征进行分类,得到物联网流量样本的预测结果,并将其与已知标签作比较,计算损失函数得到损失值。
5)重复步骤1)-步骤4),直至达到终止条件,得到物联网流量分类模型。
所述物联网流量分类阶段包括如下步骤:
6)以待分类的物联网流量作为输入,对其进行物联网流量预处理操作,得到物联网流量的包长度序列和消息长度序列。
7)以步骤6)得到的物联网流量包长度序列和消息长度序列作为输入,利用步骤5)得到的物联网流量分类模型对其进行分类,得到待分类物联网流量的分类结果。
一种基于包长度序列和消息长度序列深度融合的物联网流量分类系统,其特征在于,包括用于物联网流量分类模型构建阶段的物联网流量预处理模块和物联网流量分类模型构建模块以及用于物联网流量分类阶段的物联网流量预处理模块和物联网流量分类模块;其中,
物联网流量预处理模块负责对输入的原始物联网流量数据提取流、进而提取包长度序列和消息长度序列并将其处理为设定的统一长度;
物联网流量分类模型构建模块基于已知标签的物联网流量样本包长度序列和消息长度序列集合,负责调整物联网流量分类模型中的网络参数,进而生成具有良好的分类物联网流量能力的物联网流量分类模型,供物联网流量分类阶段使用;
物联网流量分类模块根据包含已调整神经网络参数值的物联网流量分类模型,对待分类的物联网流量进行分类,最终输出物联网流量的所属类别。
本发明的关键技术点在于:
1.结合使用包长度序列特征和消息长度序列特征作为物联网流量特征。
2.设计了基于序列模型的包长度-消息长度序列构建模型。该模型可以灵活地处理不同序列长度的输入数据,对于不同类型的序列拥有不同的处理结构。
3.采用特征拼接的方式进一步优化特征表示,从而形成更鲁棒的物联网流量特征表示形式。
通过利用本发明的技术可以实现对真实环境下的物联网流量进行精准分类,与已知的相关技术相比,具有以下几个优点:
1.结合使用包长度序列特征和消息长度序列特征作为物联网流量的特征,能够更全面地分析物联网设备的行为模式。消息长度序列的组成元素消息大小将包长度序列的组成元素包长联系起来,可以弥补不同类型物联网设备的相同包长大小对于神经网络的扰乱行为。而包长度序列对于不同厂商相同类型的物联网设备具有一定的辨别意义,弥补消息长度序列在该方面的弱势。
2.利用特征拼接形成更鲁棒的物联网流量特征表示形式。本发明分别对包长度序列特征和消息长度序列特征作特征拼接,对神经网络模型最后一层输出的前向传播和后向传播的特征进行拼接,优化了特征的表示。
3.对包长度序列特征和消息长度序列特征的处理结果作融合,发挥了两种特征的优势,使得分类结果的可信度更高。
附图说明
图1是基于包长度序列和消息长度序列深度融合的物联网流量分类方法的物联网流量分类模型构建阶段流程图。
图2是物联网流量分类模型构建的神经网络结构图。
图3是基于包长度序列和消息长度序列深度融合的物联网流量分类方法的物联网流量分类阶段流程图。
图4是基于包长度序列和消息长度序列深度融合的物联网流量分类方法的系统架构图。
图5是在IoTDataset上的实验结果。
图6是本发明的混淆矩阵图。
图7是SMC的混淆矩阵图。
具体实施方式
本发明的工作流程,可分为物联网流量分类模型构建阶段和物联网流量分类阶段。物联网流量分类模型构建阶段根据类别已知的物联网流量,利用监督学习的方式训练神经网络的可学习参数,进而实现物联网流量分类。物联网流量分类阶段首先对现实环境下获取到的真实物联网流量首先预处理,预处理之后输入到物联网流量分类模型完成物联网流量的分类。
物联网流量分类模型构建阶段中,本发明的关键技术部分在于物联网流量分类模型的构建,物联网流量分类模型构建流程如图1所示。该流程的输入是与标签绑定的原始物联网流量经过预处理之后,得到的包长度序列和消息长度序列。物联网流量分类模型所构建的神经网络结构如图2所示,构建过程的终止条件为L。物联网流量分类模型构建过程的输出为满足物联网流量分类需求的特征提取模型。
本发明的物联网流量分类模型基于深度神经网络模型的训练方法来构建,其具体实施步骤如下:
1.首先对物联网流量样本进行预处理操作。以与标签绑定的原始物联网流量样本作为输入,预处理完成后得到物联网流量样本集合N代表该集合包含N条物联网流量,其中li代表第i条物联网流量的包长度序列,具体表示为li=(len1,len2,...,lenK),表示每个包长度序列由该条流量的前K个数据包的长度构成。集合D中mi代表第i条物联网流量的消息长度序列,具体表示为mi=(msg1,msg2,...,msgM),表示每个消息长度序列由该流量的前M个消息大小构成。yi代表D中第i条物联网流量的标签,classes表示集合包含的数据类别数目,其中yi∈(0,classes)。
具体描述预处理物联网流量的步骤如下:首先,进行物联网流的提取,对于原始的物联网流量,本发明根据五元组(source IP,destination IP,source port,destinationport,TCP/UDP)进行物联网流的重组,进而提取得到物联网流。随后,进行流序列的提取。对于每条物联网流,本发明会提取其中每个数据包的长度组成包长度序列li。li中的每一项代表对应数据包的长度,l1代表该条流第一个数据包的长度。规定包长度序列的长度为K,如果该条流的包长度序列长度Hl≥K,则保留该条流包长度序列的前K项;如果该条流的包长度序列长度Hl<K,则进行补0操作,直至扩充该条流包长度序列的长度至K。经过长度调整,对物联网流量提取得到的包长度序列的长度保持一致。并且,根据网络通信两端发送的消息,本发明会提取每条流的消息长度序列mi,mi中的每一项代表对应双方发送的一个消息,m1代表该条流第一个消息的大小。规定消息长度序列的长度为K,如果该条流的消息长度序列长度Hm≥M,则保留该条流消息长度序列的前M项;如果该条流的包长度序列长度Hm<M,则进行补0操作,直至扩充该条流消息长度序列的长度至M。经过长度调整,对物联网流量提取得到的消息长度序列的长度保持一致。
2.在开始深度学习模型训练前,需要进行模型的参数初始化。在本发明中,需要分别对包长度序列特征提取神经网络和消息长度序列特征提取神经网络中的可训练参数,使用随机初始化的方法赋予初始值。除此之外,也可使用加载现有模型参数,自定义参数等有效方法进行模型的参数初始化。有效的深度学习模型的参数初始化可以有效避免训练过程中可能出现梯度消失或梯度爆炸等问题,并有利于提升模型的收敛速度和性能表现。
3.对预处理完成后得到的物联网流量序列集合进行嵌入向量表示处理。具体处理时,首先需要统计物联网流量序列集合D中包长度和消息长度的总共数量totals,同时在统计过程中根据数字出现的次序进行编码。例如集合D中现存在第1条物联网流量的包长度序列l1,l1中的第一个元素将被编码为2(保留未知元素编码为0,填充元素编码为1),以此类推得到集合D中所有数字的编码,进而得到编码后的集合D’。之后将集合D’中所有序列的元素作嵌入向量表示处理(Embedding),即将数目为totals的数字用dim维的向量表示。为方便说明,后续步骤中,将使用单个物联网流量序列(li,mi)作为对象讨论本发明的后续处理流程。经过该步骤处理之后,物联网流量序列(li,mi)的包长度序列和消息长度序列会变为(1×K×dim)和(1×M×dim)维度的嵌入向量表示形式。
4.利用包长度-消息长度序列特征构建层,对物联网流量序列(li,mi)的嵌入向量进行特征提取。本发明使用GRU网络作为包长度-消息长度序列特征构建的基础网络结构。通过对GRU网络内部的结构设计,本发明可以有效捕捉包长度序列之间的关系特征和消息长度序列之间的关系特征。本发明的包长度-消息长度序列特征构建模型所采用的GRU网络层数为layers,方向为directions,每层GRU隐藏单元个数为hidden_dim;本发明使用的特征为包长度序列和消息长度序列经过GRU网络之后,最后一个时间步的结果,此时包长度序列特征的维度为(layres*directions×1×hidden_dim),消息长度序列特征的维度为(layres*directions×1×hidden_dim)。
5.分别拼接步骤4保存的包长度序列特征和消息长度序列特征。具体流程如下,对包长度序列和消息长度序列经过最后一层GRU网络前向传播和后向传播的结果,在第二特征维度上进行拼接,分别得到包长度序列特征和消息长度序列特征。此时包长度序列特征的维度为(1×2*hidden_dim),消息长度序列特征的维度为(1×2*hidden_dim)。
6.采用步骤5得到的包长度序列特征和消息长度序列特征,进行物联网流量分类。本发明采用四个全连接层(fully-connected)进行从特征向量到物联网流量类型的映射。具体来说,对包长度序列特征和消息长度序列特征,均采用两个全连接层分类,第一个全连接层的神经元数目设置为numbers,神经元的数目也可根据场景实际需求设置成其他整数,第二个全连接层的神经元数目设置为本发明要分类的物联网流量类别数classes。最终输出对应包长度序列特征和消息长度序列特征的结果,维度分别为(1×classes)和(1×classes)。
本发明在得到包长度序列特征和消息长度序列特征分别经过全连接层后的概率特征后,会将两个概率特征进行特征融合,经过融合后的特征结合了先前特征的互补性和优点,进而可提高模型的性能。之后将融合的结果输入到Softmax函数中,得到该物联网流量的分类结果。对于分类结果,通过与已知标签比对进而计算损失函数,可以评估当前物联网流量分类器的优劣。
7.完成分类后,若判断达到终止条件L,即结束神经网络的训练过程,将包含已更新的神经网络参数值的物联网流量分类模型作为训练阶段的最终结果输出,以供分类阶段进行流量分类;若判断没有达到终止条件L,则需要对神经网络的参数进行更新,具体过程是根据分类结果计算损失函数值,使用反向传播更新神经网络的参数,将对更新后的神经网络重新进行包长度序列和消息长度序列的特征提取,重新进行2~6步骤的训练。本发明的终止条件L设置为达到最大的迭代周期数,终止条件仍可设置为达到目标评估指标。
物联网流量分类阶段的工作流程如图3所示,该阶段以先前训练阶段所构建得到的物联网流量分类模型为基础、以待分类的物联网流量为输入,对捕获的网络流量进行分类。
本发明的物联网流量预处理模块对待分类的物联网流量首先进行流量预处理的操作。以待分类的物联网流量作为输入,进行包长度序列和消息长度序列的提取,得到待分类的物联网流量的包长度序列和消息长度序列。随后将其输入到物联网流量分类模型构建阶段得到的深度学习模型,进行物联网流量的分类。
本发明在实际应用过程中,可根据方法在不同数据集上的分类效果、模型及参数大小、模型分类稳定性等因素,重新启动物联网流量分类模型构建阶段,对深度学习网络的参数进行调整,重新训练,将改进后的深度学习模型用于物联网待分类流量的分类。
结合上述基于包长度序列和消息长度序列深度融合的物联网流量分类方法,本发明同时公开了一种基于包长度序列和消息长度序列深度融合的物联网流量分类系统。本系统主要由物联网流量分类模型构建阶段和物联网流量分类阶段两个阶段构成,系统图架构如图4所示。
1.物联网流量分类模型构建阶段:首先将已知标签的物联网流量数据集作为输入,由(1)物联网流量预处理模块提取每条物联网流量的包长度序列和消息长度序列。随后通过(2)物联网流量分类模型构建模块,使用每一条流生成的两种序列,对于本发明设计的物联网流量分类模型进行训练,来提升训练的准确性,使其性能高效。(2)物联网流量分类模型构建模块的输出结果是物联网流量分类模型。
2.物联网流量分类阶段:分类阶段将属于该物联网流量数据集、未训练的物联网流量作为输入。由(1)物联网流量预处理模块对待分类的物联网流量进行处理,形成包长度序列和消息长度序列两种序列,作为测试样本数据。(3)物联网流量分类模块将前一个模块处理好的物联网流量序列作为输入,使用(2)物联网流量分类模型构建模块生成的物联网流量分类模型,对于待测分类的物联网流量数据集中的各个样本进行分类判别。物联网流量分类阶段的输出结果就是物联网流量类型分类的判别结果。
在验证实验中,本发明对一个公开物联网流量数据集开展实例验证。对物联网流量的包长度序列和消息长度序列作嵌入向量表示处理时,采用的dim值为128;包长度-消息长度序列特征构建层中使用的GRU网络层数layers为2,方向directions为双向,每层GRU网络采用的隐藏单元个数hidden_dim为128;物联网流量分类时第一个全连接层的神经元数目numbers设置为128。实验中所使用的具体物联网流量信息如表1所示。对于该物联网流量数据集,本发明挑选其中16个物联网类别组成实验数据集IoTDataset,关于每个物联网类别的序号、名称及流量数目的对应关系如表1所示。此外,在实验数据集上进行了五次实验,实验结果求取五次实验的平均值,其中训练集和测试集的比例为4:1。
表格1:IoTDataset的序号、物联网类别名称及各个类别的网络流量数目信息,其中K代表103。
实验展示了两种超参数形成的不同分类器的分类效果,超参数包括:(1)包长度序列采用的包个数(用K来表示);(2)消息长度序列包含的消息数目(用M来表示)。本发明在不同超参数设置的情况下分别进行实验,并将本发明与现有的基于深度学习的网络流量分类方法进行对比。
首先,为了验证本发明的有效性,定义实验分析指标如下:
(1)真阳值(TPx):该值是一组样本的个数,其中每个样本由本发明物联网流量分类器报告为属于类别x,并且事实上属于相应的类别x。
(2)真阴值(TNx):该值是一组样本的个数,其中每个样本由本发明物联网流量分类器报告不属于类别x,并且事实上不属于相应的类别x。
(3)假阳值(FPx):该值是一组样本的个数,其中每个样本由本发明物联网流量分类器报告为属于类别x,但是事实上不属于相应的类别x。
(4)假阴值(FNx):该值是一组样本的个数,其中每个样本由本发明物联网流量分类器报告不属于类别x,但事实属于相应的类别x。
为了表述方便,本发明分别使用真阳值、真阴值、假阳值、假阴值来表述四个场景下的样本,并且定义Precision、Recall、F1-measure来评估分类器的能力,其具体的定义如下:
基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统在IoTDataset的实验结果如下表所示。
表格2:不同参数设置在IoTDataset上得到的实验结果
如表格2所示,对于不同的参数设置,观察到本发明的Precision、Recall和F1-measure的数值分别在85.93%-90.04%、97.93%-98.57%和89.54%-93.19%的范围内变化。可以发现,较低的K和M值会造成较差的实验结果。通过比较,当K取16,M取5时,本发明在IoTDataset上可以达到最好的分类效果。
图5展示了本发明在IoTDataset上得到的实验结果,其中具体说明了每一个物联网类别经过测试得到的Precision、Recall和F1-measure结果。值得注意的是,本发明在除“U1”之外的类别上表现都很好,可以实现对物联网流量的准确分类。
图6为本发明在最优参数组合的基础上测试得到的混淆矩阵,图7则为采取本领域最先进的SMC方法得到的混淆矩阵。混淆矩阵对角化程度越高,代表方法的效果越好,反之则越差。可以明显地观察到,本发明得到的混淆矩阵对角化程度高于本领域最先进的SMC方法,代表着本发明的效果优于本领域最先进的SMC方法。
以上实例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,该方法包括物联网流量分类模型构建阶段和物联网流量分类阶段;
所述物联网流量分类模型构建阶段包括如下步骤:
1)以与标签绑定的原始物联网流量样本作为输入,进行物联网流量预处理操作,得到物联网流量样本的包长度序列和消息长度序列;
2)以步骤1)得到的物联网流量样本的包长度序列和消息长度序列作为输入,进行嵌入向量表示处理操作,得到物联网流量样本的包长度序列和消息长度序列的嵌入向量表示形式;
3)以步骤2)得到的物联网流量样本的包长度序列和消息长度序列的嵌入向量表示形式作为输入,对该输入进行特征提取操作,得到物联网流量样本的包长度序列特征和消息长度序列特征;
4)以步骤3)得到的物联网流量样本的包长度序列特征和消息长度序列特征作为输入特征,对该输入特征进行分类,得到物联网流量样本的预测结果,并将预测结果与已知标签作比较,计算损失函数得到损失值;
5)重复步骤1)-步骤4),直至达到终止条件,得到物联网流量分类模型;
所述物联网流量分类阶段包括如下步骤:
6)以待分类的物联网流量作为输入,对其进行物联网流量预处理操作,得到物联网流量的包长度序列和消息长度序列;
7)以步骤6)得到的物联网流量包长度序列和消息长度序列作为输入,利用步骤5)得到的物联网流量分类模型对其进行分类,得到待分类物联网流量的分类结果。
2.如权利要求1所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤1)所述进行物联网流量预处理的具体操作方法如下:
1-1)对输入的原始物联网流量,进行重组操作得到物联网流;
1-2)以步骤1-1)得到的物联网流作为输入,进行流序列的提取操作,得到物联网流量流序列;该提取操作中提取的流序列包括包长度序列和消息长度序列;
1-3)以步骤1-2)得到的物联网流量流序列作为输入,进行物联网流量包长度序列和消息长度序列的长度调整操作,得到物联网流量样本的包长度序列和消息长度序列。
3.如权利要求1所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤2)所述对物联网流量样本的包长度序列和消息长度序列进行嵌入向量表示处理的具体操作方法是:
2-1)以步骤1)得到的物联网流量样本的包长度序列和消息长度序列作为输入,统计其中包长度和消息长度的总数量并对包长度序列中的包长度和消息长度序列中的消息长度编码;
2-2)以步骤2-1)得到的物联网流量样本中包长度和消息长度的总共数量以及编码后得到的物联网流量样本的包长度序列和消息长度序列作为输入,进行该步骤输入的嵌入向量表示处理操作,得到物联网流量样本的包长度序列和消息长度序列的嵌入向量表示形式。
4.如权利要求3所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤3)所述对物联网流量样本的包长度序列和消息长度序列的嵌入向量进行特征提取的具体操作方法如下:
3-1)以步骤2-2)得到的物联网流量样本的包长度序列和消息长度序列的嵌入向量表示形式作为输入,利用包长度-消息长度序列特征构建层,进行特征提取操作,得到物联网流量样本的包长度序列特征和消息长度序列特征;
3-2)以步骤3-1)得到的物联网流量样本的包长度序列特征和消息长度序列特征作为输入,对每个物联网流量样本的包长度序列特征和消息长度序列特征分别在特征维度上进行拼接,得到拼接后的物联网流量样本的包长度序列特征和消息长度序列特征。
5.如权利要求4所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤4)所述对输入的物联网流量样本的包长度序列特征和消息长度序列特征进行分类的具体操作方法是:
4-1)以步骤3-2)得到的物联网流量样本的包长度序列特征和消息长度序列特征作为输入,利用全连接层分别对物联网流量样本的包长度序列特征和消息长度序列特征进行分类,得到物联网流量样本的包长度序列特征和消息长度序列特征属于各个类别的概率特征;
4-2)以步骤4-1)得到的物联网流量样本的包长度序列特征和消息长度序列特征属于各个类别的概率特征作为输入,进行概率特征融合操作,得到物联网流量样本属于各个类别的概率特征;
4-3)以步骤4-2)得到的物联网流量样本属于各个类别的概率特征作为输入,利用Softmax函数,得到每个物联网流量样本属于各个类别的概率值,进而通过比较得到物联网流量样本的类别;
4-4)以步骤4-3)得到的物联网流量样本的类别作为输入,根据与已知标签的比对并计算损失函数,得到损失值。
6.如权利要求1所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤5)所述获得物联网流量分类模型的具体操作方法是:
判断是否达到最大迭代周期,达到则停止训练,输出包含神经网络模型参数的物联网流量分类模型。
7.如权利要求2所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤1-1)所述进行重组操作得到物联网流的具体操作方法是:
以原始的物联网流量作为输入,根据五元组:
(source IP,destination IP,source port,destination port,TCP/UDP)进行物联网流量的重组,进而提取得到物联网流;
步骤1-2)所述流序列的提取的具体操作方法是:
1-2-1)对于每条物联网流量,提取其中每个数据包的长度组成包长度序列;
1-2-2)并且,根据网络通信两端发送的消息,提取每条流的消息长度序列;
步骤1-3)所述物联网流量序列的长度调整的具体操作方法是:
1-3-1)利用截断或者填充操作,调整包长度序列的长度至规定长度;
1-3-2)利用截断或者填充操作,调整消息长度序列的长度至规定长度。
8.如权利要求4所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤2-1)所述统计物联网流量样本的包长度序列和消息长度序列中包长度和消息长度的总数量以及对数字编码的具体操作方法是:
统计物联网流量样本集合D中包长度和消息长度的总共数量,同时在统计过程中根据数字出现的次序进行编码;
步骤2-2)所述嵌入向量表示的具体操作方法是:
将得到的编码后的物联网流量样本集合D'中所有序列的元素作嵌入向量表示处理;
步骤3-1)所述提取包长度序列特征和消息长度序列特征的具体操作方法是:
利用包长度-消息长度序列特征构建层对得到的嵌入向量进行特征的提取,分别得到包长度序列特征和消息长度序列特征;
步骤3-2)所述分别拼接包长度序列特征和消息长度序列特征的具体操作方法是:
将包长度序列和消息长度序列分别在特征维度上进行拼接,得到包长度序列特征和消息长度序列特征。
9.如权利要求5所述的基于包长度序列和消息长度序列深度融合的物联网流量分类方法,其特征在于,步骤4-1)所述利用全连接层分别对物联网流量样本的包长度序列特征和消息长度序列特征进行分类的具体操作方法是:
采用全连接层进行从特征向量到物联网流量类型的映射;全连接层的神经元的数目可根据场景实际需求、最终结果设置成其他整数;
步骤4-2)所述对步骤4-1)输出的包长度序列特征和消息长度序列特征的结果进行概率特征融合的具体操作方法是:
得到包长度序列特征和消息长度序列特征分别经过全连接层后的概率特征后,将两个概率特征进行特征融合,经过融合后的特征结合了先前特征的互补性和优点,可提高模型的性能;
步骤4-3)所述进行物联网流量分类的具体操作方法是:
将融合的结果输入到Softmax函数中,得到该物联网流量的分类结果;对于分类结果,通过与已知标签比对进而计算损失函数,可以评估当前物联网流量分类器的优劣。
10.一种实现权利要求1-9任一所述方法的基于包长度序列和消息长度序列深度融合的物联网流量分类系统,其特征在于,包括用于物联网流量分类模型构建阶段的物联网流量预处理模块和物联网流量分类模型构建模块以及用于物联网流量分类阶段的物联网流量预处理模块和物联网流量分类模块;其中,
物联网流量预处理模块负责对输入的原始物联网流量数据提取流、提取包长度序列和消息长度序列并将其处理为设定的统一长度;
物联网流量分类模型构建模块基于已知标签的物联网流量样本的包长度序列和消息长度序列,负责调整物联网流量分类模型中的网络参数,进而生成具有良好的分类物联网流量能力的物联网流量分类模型,供物联网流量分类阶段使用;
物联网流量分类模块根据包含已调整神经网络参数值的物联网流量分类模型,对待分类的物联网流量进行分类,最终输出物联网流量的所属类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310199297.8A CN116233011B (zh) | 2023-03-03 | 2023-03-03 | 一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310199297.8A CN116233011B (zh) | 2023-03-03 | 2023-03-03 | 一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116233011A true CN116233011A (zh) | 2023-06-06 |
CN116233011B CN116233011B (zh) | 2024-06-25 |
Family
ID=86578351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310199297.8A Active CN116233011B (zh) | 2023-03-03 | 2023-03-03 | 一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116233011B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313156A (zh) * | 2021-05-21 | 2021-08-27 | 北京工业大学 | 一种基于时序负载流量指纹的物联网设备识别方法及系统 |
CN114553790A (zh) * | 2022-03-12 | 2022-05-27 | 北京工业大学 | 一种基于多模态特征的小样本学习物联网流量分类方法及系统 |
-
2023
- 2023-03-03 CN CN202310199297.8A patent/CN116233011B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313156A (zh) * | 2021-05-21 | 2021-08-27 | 北京工业大学 | 一种基于时序负载流量指纹的物联网设备识别方法及系统 |
CN114553790A (zh) * | 2022-03-12 | 2022-05-27 | 北京工业大学 | 一种基于多模态特征的小样本学习物联网流量分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
石峰;: "无线传感网络信息分段融合点提取方法仿真", 计算机仿真, no. 04, 15 April 2018 (2018-04-15) * |
陈红松;陈京九;: "基于ResNet和双向LSTM融合的物联网入侵检测分类模型构建与优化研究", 湖南大学学报(自然科学版), no. 08, 25 August 2020 (2020-08-25) * |
马永军;薛永浩;刘洋;李亚军;: "一种基于深度学习模型的数据融合处理算法", 天津科技大学学报, vol. 32, no. 04, 20 April 2017 (2017-04-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN116233011B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705712A (zh) | 一种基于联邦半监督学习的网络流量分类方法和系统 | |
CN108229550B (zh) | 一种基于多粒度级联森林网络的云图分类方法 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN109977893B (zh) | 基于层次显著性通道学习的深度多任务行人再识别方法 | |
CN115037805B (zh) | 一种基于深度聚类的未知网络协议识别方法、系统、装置及存储介质 | |
CN114039901A (zh) | 基于残差网络和循环神经网络混合模型的协议识别方法 | |
CN114462520A (zh) | 一种基于流量分类的网络入侵检测方法 | |
CN116958586A (zh) | 基于多尺度注意力胶囊网络的物联网设备识别方法及系统 | |
CN113935398B (zh) | 一种物联网环境下基于小样本学习的网络流量分类方法及系统 | |
CN115964258A (zh) | 基于多时序分析的物联网卡异常行为分级监测方法及系统 | |
CN112383488B (zh) | 一种适用于加密与非加密数据流的内容识别方法 | |
CN112766143A (zh) | 一种基于多情绪的人脸老化处理方法和系统 | |
CN116233011B (zh) | 一种基于包长度序列和消息长度序列深度融合的物联网流量分类方法及系统 | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
CN115622810B (zh) | 一种基于机器学习算法的业务应用识别系统及方法 | |
CN109190649B (zh) | 一种深度学习网络模型服务器的优化方法和装置 | |
CN114979017B (zh) | 基于工控系统原始流量的深度学习协议识别方法及系统 | |
CN110071845B (zh) | 一种对未知应用进行分类的方法及装置 | |
CN115348215B (zh) | 一种基于时空注意力机制的加密网络流量分类方法 | |
CN110705638A (zh) | 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法 | |
CN114553790A (zh) | 一种基于多模态特征的小样本学习物联网流量分类方法及系统 | |
CN113542271B (zh) | 基于生成对抗网络gan的网络背景流量生成方法 | |
CN115643153A (zh) | 基于图神经网络的报警关联分析方法 | |
CN114925740A (zh) | 一种基于对抗性域适应的工控入侵检测系统构建方法 | |
CN114726800A (zh) | 一种基于模型解释的规则式应用流量分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |