CN117278336B - 基于时频域变换的物联网设备异常流量检测方法和系统 - Google Patents

基于时频域变换的物联网设备异常流量检测方法和系统 Download PDF

Info

Publication number
CN117278336B
CN117278336B CN202311565136.2A CN202311565136A CN117278336B CN 117278336 B CN117278336 B CN 117278336B CN 202311565136 A CN202311565136 A CN 202311565136A CN 117278336 B CN117278336 B CN 117278336B
Authority
CN
China
Prior art keywords
network
time
characterization
frequency domain
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311565136.2A
Other languages
English (en)
Other versions
CN117278336A (zh
Inventor
何明枢
王欣蕾
李昕航
王小娟
阳柳
刘晓影
路子逵
郭世泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202311565136.2A priority Critical patent/CN117278336B/zh
Publication of CN117278336A publication Critical patent/CN117278336A/zh
Application granted granted Critical
Publication of CN117278336B publication Critical patent/CN117278336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于时频域变换的物联网设备异常流量检测方法和系统,所述方法包括:将经过物联网设备的网络流输入到预训练完成的非端到端类型的表征模型以进行特征提取;所述表征模型将输入的网络流表征到时域空间和频域空间,在时域空间利用时间感知高斯对比网络提取网络流的时间特征,在频域空间利用基于幅度谱的对比网络提取幅度谱特征;将所述时间特征和幅度谱特征输入到预训练的用于物联网设备异常流量检测的机器学习分类模型,得到物联网设备异常流量检测结果。本发明能够使用非端到端的方法解决物联网中异常流量检测问题,同时对网络流进行时域和幅度域变换,能够有效的提取网络流中的特征表示。

Description

基于时频域变换的物联网设备异常流量检测方法和系统
技术领域
本发明涉及物联网异常流量检测技术领域,尤其涉及一种基于时频域变换的物联网设备异常流量检测方法和系统。
背景技术
由于物联网的广泛应用,网络安全面临着新的挑战和安全风险。随着5G与云计算的深度融合,物联网技术将以智能数据分析和决策参与工业生产的各个领域。此外,将物联网设备连接到互联网可以实现直接控制和通信。由于安全意识的缺失和监管政策标准的不完善,物联网安全事件频发。在已发现的事件中,西班牙三大电力供应商在2014年提供的超过30%的智能电表存在重大安全漏洞,可能会让黑客进行电费欺诈。在过去的安全事件中,卡巴斯基披露,2018年,针对物联网设备的恶意软件修改事件超过12万起。2020年的一份报告强调,攻击者已经从专门使用物联网设备进行分布式拒绝服务(DDoS)攻击转向使用蠕虫传播的恶意软件,从而导致了未知攻击的产生。因此,如何开发一种有效的检测模型来保护物联网设备免受恶意软件入侵是众多学者研究的课题。
事实上,近年来,已经有大量的工作为这一领域提供了新颖的设计方法。总的来说,大多数研究都集中在将入侵检测作为一个分类问题,并开发端到端的针对物联网设备上的异常流量检测的(分类)模型上。现有的传统机器学习算法,如支持向量机(SupportVector Machine,SVM)、决策树、k近邻(k-Nearest neighbors) 等,由于推理速度快,在入侵检测系统中得到了广泛的应用。然而,这些算法有缺点,包括依赖于手动特征选择和面对新出现的威胁时适应性有限。Houda提出了一种新的多访问边缘计算架构,通过联邦学习增强物联网安全性。卷积神经网络(ConvolutionalNeural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等架构的优势在于它们能够从复杂的原始数据中自动提取特征并执行有效的分类任务。此外,这些用于入侵行为分类的深度学习(DeepLearning,DL)模型大多采用连续的端到端设计范式。
然而,将这些方法直接应用于现有的物联网入侵检测系统(Intrusion DetectionSystems,IDS)存在一些明显的缺点。具体来说,针对被劫持物联网设备的新恶意软件不断出现,需要能够提取更广泛的数据表示的模型,以进行有效的检测和预防,采用端到端的方式可能无法迁移到更广泛的数据集中。此外,获取数据和手动标注标签不是一项简单的任务,经常导致数据集不平衡。不平衡的数据集需要特别注意,以确保少数族裔的精确区分。如果一个模型表现出过度的泛化,它很可能只关注大多数类别,而对罕见样本不敏感。
为此,如何在保证捕获不平衡数据类之间的行为差异的同时,增强模型特征学习的泛化能力,使得模型对数量较少的网络流也能够有效表征的物联网设备异常流量检测方法,是一个亟待解决的技术问题。
发明内容
鉴于此,本发明实施例提供了一种基于时频域变换的物联网设备异常流量检测方法和系统,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种基于时频域变换的物联网设备异常流量检测方法,该方法包括以下步骤:
将经过物联网设备的网络流输入到预训练完成的非端到端类型的表征模型以进行特征提取;其中,所述表征模型包含时间感知高斯对比网络和基于经过离散傅里叶变换幅度谱的对比网络;
所述表征模型将输入的网络流表征到时域空间和频域空间,在时域空间利用时间感知高斯对比网络提取网络流的时间特征,在频域空间利用基于幅度谱的对比网络提取幅度谱特征;
将所述时间特征和幅度谱特征输入到预训练的用于物联网设备异常流量检测的机器学习分类模型,得到物联网设备异常流量检测结果。
在本发明的一些实施例中,所述表征模型以混合损失值作为训练过程中的损失函数进行预训练,所述混合损失值通过时域表征的对比损失和频域表征的对比损失相加得到。
在本发明的一些实施例中,该方法还包括表征模型的训练步骤,包括:
由预设条数、维度和组数的网络流样本组成一个矩阵,对矩阵进行预设次数变换以模拟不同的攻击类别,得到变换后的矩阵;
将变换后的矩阵输入到时间感知高斯对比网络进行表征,在所述变换后的矩阵中找到正例,基于高斯分布随机生成负例,基于正例和负例计算时域表征的对比损失;其中,全部负例构成负例集合;
将变换后的矩阵输入到基于幅度谱的对比网络进行表征,在所述变换后的矩阵中随机选择一组作为锚点数据,对每一锚点数据进行除其标签值以外的预设次数变换得到对应的负样本,基于所述锚点数据和所述负样本计算频域表征的对比损失;其中,所述锚点数据中的每一条具备对应的标签值用于表示变换类别;
将所述时域表征的对比损失和频域表征的对比损失相加作为混合损失值,在训练过程中基于混合损失值调整表征模型的参数,当所述混合损失值小于预设阈值则表征模型训练完成。
在本发明的一些实施例中,在所述对矩阵进行预设次数变换以模拟常见的网络诱导现象的步骤中,所选择的变换方式包括基于门控循环单元网络、长短期记忆网络或线性变换方式中的任一种。
在本发明的一些实施例中,在所述将变换后的矩阵输入到时间感知高斯对比网络进行表征的步骤中,包括:
首先对所述网络流样本进行多层一维卷积处理,以提取网络流样本包含的数据包的时间特征。
在本发明的一些实施例中,在所述将变换后的矩阵输入到基于幅度谱的对比网络进行表征中,该方法还包括:
所述基于幅度谱的对比网络根据时间戳对网络流样本包含的数据包进行排序,沿着每个流的数据维应用离散傅里叶变换,并将离散傅里叶变换的结果转换到频域空间,在频域空间提取离散傅里叶变换的结果的幅度谱特征。
在本发明的一些实施例中,所述基于所述锚点数据和所述负样本计算频域表征的对比损失的步骤包括:
使用包含松弛因子的损失函数计算得到负样本的损失值作为频域表征的对比损失。
在本发明的一些实施例中,所述损失函数包含的松弛因子包含在不同类别的网络流样本之间预设松弛边界。
本发明的另一方面提供了一种基于时频域变换的物联网设备异常流量检测系统,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上实施例中任一项所述方法的步骤。
本发明的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上实施例中任一项所述方法的步骤。
本发明的基于时频域变换的物联网设备异常流量检测方法和系统,能够使用非端到端的方法解决物联网中异常流量检测问题,同时对网络流进行时域和幅度域变换,能够有效的提取网络流中的特征表示。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中物联网设备异常流量检测方法流程图。
图2为本发明一实施例中表征模型训练方法流程图。
图3为本发明一具体实施例中表征模型训练方法详细流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
为了解决现有技术存在的问题,本发明提供了一种基于时频域变换的物联网设备异常流量检测方法,该方法采用时间感知高斯对比网络和基于幅度谱的对比网络分别在时域空间和频域空间提取特征,并基于提取的特征利用机器学习分类模型进行物联网设备异常流量检测。本发明采用了对比学习的方法,包含表征和分类两个阶段,使用了非端到端的模型来进行异常流量检测,本发明的重点在于表征的阶段。一方面,本发明提供了一种非端到端的表征模型,网络流被分别表征到时域和频域空间中,并同时提取这两种空间中网络流的特征,实现最有效的可分离表征,最后利用快速推理的机器学习模型进行分类,能够实现快速的异常检测;另一方面,本发明构造了带松弛因子的基于硬边界的对比损失,该损失能够有效表征数量较少类别的网络流,将不同类别网络流更可分。
其中,对比学习是一种用于学习表示(representation learning)的方法,其中模型被训练来区分不同的数据样本或数据点。对比学习的目标是使相似的数据点在表示空间中更接近,而不相似的数据点更远离。这种方法在许多机器学习任务中都很有用,如图像检索、自然语言处理、推荐系统等。对比学习的核心思想是将输入数据划分为正例(positiveexamples)和负例(negative examples)或者说相似对(similar pairs)和不相似对(dissimilarpairs)。然后,模型被训练来使正例在表示空间中更接近,同时使负例更远离。这可以通过最小化正例之间的距离并最大化负例之间的距离来实现。
其中,表征是机器学习中的一个重要概念,也是机器学习模型的核心。 在机器学习中,表征可以是原始数据的一些统计特征、频率特征、图像的像素点、声音的声波等,也可以是通过深度学习提取的特征向量、卷积神经网络中的特征图等。在物联网设备异常流量识别技术领域,表征通常指的是特征提取。
其中,端到端(End-to-End)是一种系统设计原则,其中整个任务或问题的处理过程被视为一个单一的、不可分割的过程。这意味着系统的输入经过一系列处理步骤后,直接映射到输出,而不需要中间的人工干预或多个阶段的处理。在端到端系统中,模型或系统通常负责自动从输入中提取特征、执行决策和生成输出,而不需要人为干预或额外的预处理步骤。非端到端(Non-End-to-End)相反,任务或问题被分解为多个独立的阶段或模块,每个模块负责处理特定的子任务或问题。这些模块可以包括数据预处理、特征工程、中间表示、决策制定等。这些阶段通常需要人为干预和人工设计。非端到端方法的优点是可以更容易地理解和调试系统中的每个组成部分,允许更灵活的系统设计和优化。
图1为本发明一实施例中物联网设备异常流量检测方法流程图,该方法包含以下步骤:
步骤S110:将经过物联网设备的网络流输入到预训练完成的非端到端类型的表征模型以进行特征提取;其中,所述表征模型包含时间感知高斯对比网络和基于经过离散傅里叶变换幅度谱的对比网络。
步骤S120:所述表征模型将输入的网络流表征到时域空间和频域空间,在时域空间利用时间感知高斯对比网络提取网络流的时间特征,在频域空间利用基于幅度谱的对比网络提取幅度谱特征。
其中,所述表征模型以混合损失值作为训练过程中的损失函数进行预训练,所述混合损失值通过时域表征的对比损失和频域表征的对比损失相加得到。
步骤S130:将所述时间特征和幅度谱特征输入到预训练的用于物联网设备异常流量检测的机器学习分类模型,得到物联网设备异常流量检测结果。
在具体实施过程中,用于物联网设备异常流量检测的机器学习分类模型可以使用时间特征和幅度谱特征进行训练,使用提取的特征和标签(例如,网络流的攻击类型)预先训练分类模型的方法是一个现有技术,例如可以快速推理ML模型进行表示后的检测,本发明不做具体限定。
本发明的基于时频域变换的物联网设备异常流量检测方法,能够使用非端到端的方法解决物联网中异常流量检测问题,同时对网络流进行时域和幅度域变换,能够有效的提取网络流中的特征表示。
在本发明又一些实施例中,该方法还包括表征模型的训练步骤,包括以下步骤:
步骤S210:由预设条数、纬度和组数的网络流样本组成一个矩阵,对矩阵进行预设次数变换以模拟不同的攻击类别,得到变换后的矩阵。其中,攻击类别又可以称为网络诱导现象。训练集中包含大量的网络流样本,在对矩阵进行模拟的攻击之后,使用标签来记录对矩阵的变换类别,也就是记录网络流样本的攻击类型。
步骤S220:将变换后的矩阵输入到时间感知高斯对比网络进行表征,在所述变换后的矩阵中找到正例,基于高斯分布随机生成负例,基于正例和负例计算时域表征的对比损失;其中,全部负例构成负例集合。
步骤S230:将变换后的矩阵输入到基于幅度谱的对比网络进行表征,在所述变换后的矩阵中随机选择一组作为锚点数据,对每一锚点数据进行除其标签值以外的预设次数变换得到对应的负样本,基于所述锚点数据和所述负样本计算频域表征的对比损失;其中,所述锚点数据中的每一条具备对应的标签值用于表示变换类别,其中,变换类别表示攻击方式。
步骤S240:将所述时域表征的对比损失和频域表征的对比损失相加作为混合损失值,在训练过程中基于混合损失值调整表征模型的参数,当所述混合损失值小于预设阈值则表征模型训练完成。
采用该发明实施例,可以训练得到目标需要的表征模型,从而有效提取网络流样本的特征,即便在小样本的情况下也能在后续的分类过程中取得良好的分类效果。
在本发明一些实施例中,在步骤S210的对矩阵进行预设次数变换以模拟常见的网络诱导现象的步骤中,所选择的变换方式可以包括基于门控循环单元网络、长短期记忆网络或线性变换方式中的任一种。以上所列举的变换方式仅为示例,本发明不限于此。
采用上述变换方式,可以实现网络流样本的数据增强,从而提升表征的训练效果。
在本发明一些实施例中, 在步骤S220包含的将变换后的矩阵输入到时间感知高斯对比网络进行表征的步骤中,包括:首先对所述网络流样本进行多层一维卷积处理,以提取网络流样本包含的数据包的时间特征。
在本发明一些实施例中,在步骤S230包含的将变换后的矩阵输入到基于幅度谱的对比网络进行表征中,该方法还包括:基于幅度谱的对比网络根据时间戳对网络流样本包含的数据包进行排序,沿着每个流的数据维应用离散傅里叶变换,并将离散傅里叶变换的结果转换到频域空间,在频域空间提取离散傅里叶变换的结果的幅度谱特征。
采用该发明实施例,可以考虑将惩罚参数纳入对比学习(Contrastive Learning,CL)。其目的是使用硬边际惩罚因子将原始数据带入更精确的表示空间,同时引入松弛因子和正则化项以减轻表示中的过拟合风险。在后续的实验中,该方法也被实验证明比软边缘具有更好的表示效果。
在本发明又一些实施例中,在步骤S230包含的基于所述锚点数据和所述负样本计算频域表征的对比损失的步骤包括:使用包含松弛因子的损失函数计算得到负样本的损失值作为频域表征的对比损失。
其中,损失函数包含的松弛因子包含在不同类别的网络流样本之间预设松弛边界。通俗的来讲就是,本发明没有严格区分(非)相似数据之间的内积相似度为0或1,而是使用参数,作为不同类别样本之间的松弛边界。松弛因子的采用使模型可以在学习过程中更加关注具有挑战性的样本,从而避免了训练得到的模型对本身相似度较低的负样本的过拟合。其中,不同类别指的是正样本和负样本,或者指不同攻击类别的网络流样本。
采用该发明实施例,在幅度域中,采用了一种创新性的基于带松弛条件的硬边界对比学习损失函数,该函数能够有效的表征少数类的样本。
图3为本发明一具体实施例中表征模型训练方法详细流程图,首先由K条维度和组数为(M,N)的网络流样本组成了(K,M,N)的矩阵,用该矩阵模拟常见的攻击类型(又称为网络诱导现象),包括正常传输,乱序传输、丢弃和重新传输,这个过程包含随机进行T次变换,这个过程被称为诱导变换,之后对变换后的矩阵进行时域表征和基于幅度谱的频域表征。最终得到一个(T,K,MN)的矩阵。从该矩阵中选择Ki作为锚点,如图中所示的,Ki的维度为(T,1,MN),表示对某一条MN维度的样本进行了T次变换。接下来找该锚点的正例样本/>(正例样本/>和锚点/>构成正例样本对),即同样对(K,M,N)矩阵进行T次变换,得到(T,K,MN)的矩阵,在该矩阵中找到Ki位置的Ki’样本作为正例。该正例与锚点样本为同一条网络流数据,但由于经历的T次变换是随机的,得到了与锚点数据同一条网络流的不同T种表示。负例是通过具有高斯定分布的随机生成,负例仍然携带原本Ki所具备的标签,得到维度为(T’,1,MN)的数据,其中T’可以为大于T的正整数,因此构成了负例集合/>,该集合中有若干个(T,1,MN)的样本。最后通过下列公式求得时域表示的对比损失:
;(1)
其中,表示温度系数,是一个对比学习中固定存在的超参数。
在图3所示的过程中,先为频域损失创建正负样本对。在时域表征中得到(T,K,MN)的矩阵被用于构造频域中的正负样本对,接下来经过和诱导变换过程相一致步骤,得到正例。首先随机选择一组维度为(1,K,MN)的数据Ki,Ki被用作锚点数据,所述锚点数据中的每一条具备对应的标签值用于表示变换类别。锚点中的每一条样本都有对应的标签值,表示当前这条流样本所属的攻击类别。因此锚点中的任意一条样本对应的负样本是从与该条流样本不同类别的其他类别中、(T-1)种变换中得到的。用这样的方式得到完整的负样本集合/>,最后用如下公式得到频域表征的对比损失:
;(2)
其中,为通过实验确定的超参数,/>的计算过程在后续实施例中进行了说明,g()表示松弛函数,松弛函数中包含松弛因子。
最终,将时域表示的对比损失和频域表征的对比损失相加构成了最终的损失值。在训练中,通过不断调整模型参数,使该损失的值越小越好,从而学到更具判别性的特征表征模型。训练好的模型再将可用于表征任意(K,M,N)的网络流数据,将表征后的网络流用于分类模型检测,将得到比不经过该表征模型更好的分类精度。因此该总图主要提供了样本的表征模型构造过程。两个损失相加的数学表达公式为:
;(3)
其中,表示调节可学习的时间和频率分量之间的平衡的超参数,是训练中预设的参数。
给定一个由K条网络流组成的标记数据集,其中每个网络流都经历一系列随机转换,包括正常传输、数据包重新排序、丢失和重传。然后,将这些转换后的流分别输入到时域和频谱域网络中,提取多尺度特征。随后,这些特征被传播到两个不同的分支,包括时间感知高斯对比网络(Temporal Graph Convolutional Network,TGCN)分支和全局基于幅度谱的对比网络(Global Frequency Contrastive Network,GFCN)分支。对于TGCN分支,我们采用多层特征提取器来捕获/>中的时间模式(即提取时间特征),并动态调整负例的表示,以促进时域对比损失学习。对于GFCN分支,我们利用傅里叶变换提取/>的幅度谱表示,并采用谱域对比损失学习来捕获不同类之间的关联。
本发明所提出的表征模型训练步骤主要包含三个部分:1、网络流样本的分组分割和增强转换;2、时间感知高斯对比网络(TGCN);3、全局基于幅度谱的对比网络(GFCN)。
首先,对于网络流样本的分组分割和增强转换。本发明一实施例所使用的网络流样本为单向流,单向流是通过用相同的五元组轮询包捕获(pcap)文件中的所有数据包来提取的。标记数据集由/>数据包组成,并从数据包头中提取前/>位十进制数字。通过这种方式,单个流被表示为/>矩阵。矩阵/>表示每个数据包的信息量的集合,其中/>表示数据包的第/>个十进制数,/>对应于数据包内的十进制位数总数。/>表示数据集中的单个流,它总共包含/>个网络流,公式表示为:
;(4)
在现有技术中有可参考的用于模拟常见的网络诱导现象(或网络攻击类型)的技术手段,包括正常传输、数据包重排序、丢失和重传,以增强网络流的错误恢复能力,提高模型的鲁棒性。与原方法的关键偏差在于我们追求提高样本处理效率。具体来说,本发明一实施例中采用门控循环单元(Gate Recurrent Unit,GRU)网络取代原有的长短期记忆(LongShort-Term Memory,LSTM)网络,以获得更高效的处理速度。同时,本发明实施例对整个数据集进行封装,随机选择一种变换方法,为所有数据实例建立统一的网络诱导环境,使迭代环境变换能够处理小样本集。在经历次数据扩充迭代后,/>表示在某种网络环境下,由/>个网络流组成的数据集的变换,公式表示为:
;(5)
沿着第一维将所有矩阵连接起来,得到最终的变换结果/>。为了扩展接受野并在卷积层中捕获更广泛的上下文,扩展卷积后获得的/>的维数为/>,其中,I表示扩展后的维度,在MN的基础上得到I,/>表示解的空间。
其次,在时间感知高斯对比网络的设计上。
本发明一实施例首先对网络流原始数据集(即原始数据形式的网络流样本)进行一系列一维卷积,提取网络流原始数据集包含的数据包的时间特征。卷积操作每层之间的卷积核大小相差两倍。这允许捕获时间序列中不同尺度的局部模式或特征。接下来,我们将一个样本作为锚点,并为该样本创建正对和负对,以构建对比损失。更具体地说,我们随机选择了一个变换了次的样本生成锚/>。同时,我们通过重复这个过程开始创建锚的正样本,再次将原始数据集进行/>次变换(这次变换的顺序与上次可能不一样,因为变换都是随机的)。我们任意选择变换了/>次的样本,并将其表示为/>。对于这个锚点的负样本,我们初始化为由高斯分布随机生成的负样本,记作/>。这些负样本与正样本相比有相同的特征维度,但它们的数量可能更大。也就是说,对于每个锚样本,都有对应的正样本和负样本。但是,在负样本中,每个样本可以有多于/>次的变换。其中,正样本和负样本又可以成为正例和负例,这里是为了区分TGCN和GFCN。
为了进一步提高生成的负样本的质量,本发明一实施例中研究了负样本的迭代更新,以在更准确的网络流空间覆盖范围内获得具有更高对比散度的分布。对比散度是指构造、/>和/>之间的对比损失函数为:
;(6)
其中,表示时域表征的对比损失,该公式在上面已经出现过,这里是为了再次引出说明。
最后,对于全局基于幅度谱的对比网络(GFCN)的设计。
本发明一实施例中根据每个流的时间戳对每个流中的数据包进行排序,沿着每个流的数据维应用离散傅里叶变换(DFT),并将其转换为频谱域下的结果。该过程包括在频域提取幅度谱特征,从而达到最大限度地减少包级特征提取造成的信息损失的目的。具体变换下整个样本集的频率特征可以得到:
;(7)
其中,表示在[1,K]范围内的取值,/>表示第/>条网络流样本经过第/>种变换后的傅里叶变换结果,/>表示通过频域表示得到的结果,频域表示为
为了增强傅里叶层的表示学习并促进不同频率分量之间的相互作用,本发明在又一实施例中引入了由线性变换和偏移向量组成的仿射变换。这有助于降低傅里叶层之间的平移不变性。公式表示如下:
;(8)
其中,表示任意生成的三维超参数,/>表示偏移向量,/>为经过仿射变换后的频域表示。
经过仿射变换后得到。为了解决构建具有复值表示的损失函数的挑战,本发明在该发明实施例中,通过其幅度和相位唯一地表示每个频率,根据傅里叶频谱表示可以分解为幅值谱和相位谱,我们将仿射变换后的频域表示/>分解为幅度/>和相位/>,公式表示为:
;(9)
;(10)
其中,表示虚数单位,/>和/>表示/>的实部和虚部,/>表示振幅。在后续的工作中,只需要考虑振幅,这意味着将通过计算上式中/>的模量来获得/>
接下来,从整个振幅谱集中的组中选择一个随机变换,得到。换句话说就是,整个数据集经历/>次转换,本方案随机选择其中一个转换,t是[1,/>]范围内的一个取值。
在进行上述步骤(可统称为谱域变换)后,我们计算整个数据集中正样本和负样本之间的相似度。正样本和负样本的相似度矩阵分别表示为和/>。正样本是指属于同一类的成对样本,负样本是指来自不同类的成对样本。相似度是用样本之间的点积来衡量的,值越高表明样本之间的相似度越高。通过实验,我们观察到大部分相似度值都在0.5以上。这表明在被分类为否定的实例之间具有高度相似性,表明不同类别之间的界限模糊。因此,我们将只对/>应用更强的惩罚。因此,新的带有松弛因子的损失函数为:
;(11)
该公式在上面出现过,这里不再赘述。
其中,表示特定样本的负样本数。我们通过实验确定了超参数/>的值。通过硬边距实现更严格的数据分离,提供更接近于表示数据的近似值。/>表示松弛函数,计算/>和/>用公式表示为:
;(12)
;(13)
值得一提的是,我们没有严格区分(非)相似数据之间的内积相似度为0或1。相反,我们使用,表示不同类别样本之间的松弛边界。松弛因子的采用使模型在学习过程中更加关注具有挑战性的样本,从而避免了对本身相似度较低的负样本的过拟合问题。
与上述方法相应地,本发明还提供了一种基于时频域变换的物联网设备异常流量检测系统,该系统包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现如前所述方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本发明的基于时频域变换的物联网设备异常流量检测方法和系统,能够使用非端到端的方法解决物联网中异常流量检测问题,同时对网络流进行时域和幅度域变换,能够有效的提取网络流中的特征表示。进一步地,在幅度域中,采用了一种创新性的基于带松弛条件的硬边界对比学习损失函数,该函数能够有效的表征少数类的样本。
本发明采用非端到端的方式,首先对数据集进行表征,即利用时域和幅度域变换提取更有效的特征,这样即便有从未见过的数据集,只在已有的数据集上进行训练,也可以准确的提取未见过的数据集中数据的特征。此外,在得到新表征的数据后,将这些新表征的数据直接送入快速机器学习模型中进行推理即可。在非端对端的模型训练中,在得到表征结果后对快速机器学习模型的训练和使用属于现有技术。针对被劫持物联网设备的新恶意软件不断出现,本发明所提出的方法需要能够提取更广泛的数据表示的模型,即便当新型攻击出现后,也能利用表征模型将新型攻击映射到另一个可分的空间中,就能将恶意的流量及时分离出去。
本发明所提出的方法包含的特征提取(表征)步骤,设计了网络流数据(网络流样本)的多域转换,并通过在不同网络环境中诱导的网络流状态来增强多样性,能够在保证捕获不平衡数据类之间的行为差异的同时,增强模型特征学习的泛化能力。本发明仅需几百个带标签的样本即可完成特征提取(表征),然后表征更多的测试集(训练集未见过的数据),再用机器学习模型完成对测试集的分类,而现有技术中的很多入侵检测技术所需要的训练集数量在万级甚至百万级以上,采用本发明所提出的方法可以极大的降低训练所需的训练集数量和进行训练的计算复杂度。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于时频域变换的物联网设备异常流量检测方法,其特征在于,该方法包括以下步骤:
将经过物联网设备的网络流输入到预训练完成的非端到端类型的表征模型以进行特征提取;其中,所述表征模型包含时间感知高斯对比网络和基于幅度谱的对比网络,所述幅度谱经过离散傅里叶变换;
所述表征模型将输入的网络流表征到时域空间和频域空间,在时域空间利用时间感知高斯对比网络提取网络流的时间特征,在频域空间利用基于幅度谱的对比网络提取幅度谱特征;
将所述时间特征和幅度谱特征输入到预训练的用于物联网设备异常流量检测的机器学习分类模型,得到物联网设备异常流量检测结果;
该方法还包括表征模型的训练步骤,包括:
由预设条数、纬度和组数的网络流样本组成一个矩阵,对矩阵进行预设次数变换以模拟不同的攻击类别,得到变换后的矩阵;
将变换后的矩阵输入到时间感知高斯对比网络进行表征,在所述变换后的矩阵中找到正例,基于高斯分布随机生成负例,基于正例和负例计算时域表征的对比损失;其中,全部负例构成负例集合;
将变换后的矩阵输入到基于幅度谱的对比网络进行表征,在所述变换后的矩阵中随机选择一组作为锚点数据,对锚点数据进行预设次数变换得到对应的负样本,基于所述锚点数据和所述负样本计算频域表征的对比损失;其中,所述锚点数据中的每一条具备对应的标签值用于表示变换类别;其中,所述变换后的矩阵的规格为(T,K,MN),锚点数据的规格为(T,1,MN),T表示变换预设次数,K表示条数,M表示纬度,N表示组数;
将所述时域表征的对比损失和频域表征的对比损失相加作为混合损失函数,在训练过程中基于混合损失函数调整表征模型的参数,当基于混合损失函数计算的混合损失值小于预设阈值则表征模型训练完成。
2.根据权利要求1所述的方法,其特征在于,所述表征模型以混合损失函数作为训练过程中的损失函数进行预训练,所述混合损失函数通过时域表征的对比损失和频域表征的对比损失相加得到。
3.根据权利要求1所述的方法,其特征在于,在所述对矩阵进行预设次数变换以模拟不同的攻击类别的步骤中,所选择的变换方式包括基于门控循环单元网络、长短期记忆网络或线性变换方式中的任一种。
4.根据权利要求1所述的方法,其特征在于,在所述将变换后的矩阵输入到时间感知高斯对比网络进行表征的步骤中,包括:
首先对所述网络流样本进行多层一维卷积处理,以提取网络流样本包含的数据包的时间特征。
5.根据权利要求1所述的方法,其特征在于,在所述将变换后的矩阵输入到基于幅度谱的对比网络进行表征中,该方法还包括:
所述基于幅度谱的对比网络根据时间戳对网络流样本包含的数据包进行排序,沿着每个流的数据维应用离散傅里叶变换,在频域空间提取离散傅里叶变换的结果的幅度谱特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述锚点数据和所述负样本计算频域表征的对比损失的步骤包括:
使用包含松弛因子的损失函数作为频域表征的对比损失,使用所述包含松弛因子的损失函数计算负样本的损失值。
7.根据权利要求6所述的方法,其特征在于,所述损失函数包含的松弛因子包含在不同类别的网络流样本之间预设松弛边界。
8.一种基于时频域变换的物联网设备异常流量检测系统,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至7中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202311565136.2A 2023-11-22 2023-11-22 基于时频域变换的物联网设备异常流量检测方法和系统 Active CN117278336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311565136.2A CN117278336B (zh) 2023-11-22 2023-11-22 基于时频域变换的物联网设备异常流量检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311565136.2A CN117278336B (zh) 2023-11-22 2023-11-22 基于时频域变换的物联网设备异常流量检测方法和系统

Publications (2)

Publication Number Publication Date
CN117278336A CN117278336A (zh) 2023-12-22
CN117278336B true CN117278336B (zh) 2024-02-13

Family

ID=89210978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311565136.2A Active CN117278336B (zh) 2023-11-22 2023-11-22 基于时频域变换的物联网设备异常流量检测方法和系统

Country Status (1)

Country Link
CN (1) CN117278336B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244594A (zh) * 2021-12-10 2022-03-25 天元大数据信用管理有限公司 网络流量异常检测方法及检测系统
CN114785573A (zh) * 2022-04-06 2022-07-22 杭州电子科技大学 基于深度学习的智能变电站过程层网络异常流量检测方法
CN116886433A (zh) * 2023-08-18 2023-10-13 内蒙古工业大学 一种基于深度对比学习的加密异常流量检测方法
CN117033928A (zh) * 2023-07-14 2023-11-10 成都老鹰信息技术有限公司 基于机器学习的卫星互联网流量识别系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10389741B2 (en) * 2016-03-24 2019-08-20 Cisco Technology, Inc. Edge-based detection of new and unexpected flows

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244594A (zh) * 2021-12-10 2022-03-25 天元大数据信用管理有限公司 网络流量异常检测方法及检测系统
CN114785573A (zh) * 2022-04-06 2022-07-22 杭州电子科技大学 基于深度学习的智能变电站过程层网络异常流量检测方法
CN117033928A (zh) * 2023-07-14 2023-11-10 成都老鹰信息技术有限公司 基于机器学习的卫星互联网流量识别系统
CN116886433A (zh) * 2023-08-18 2023-10-13 内蒙古工业大学 一种基于深度对比学习的加密异常流量检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FlowSpectrum: a concrete characterization scheme of network traffic behavior for anomaly detection;Luming Yang 等;World Wide Web;全文 *

Also Published As

Publication number Publication date
CN117278336A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN108388927B (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
Kan et al. A novel IoT network intrusion detection approach based on adaptive particle swarm optimization convolutional neural network
Gupta et al. A tree classifier based network intrusion detection model for Internet of Medical Things
CN111683108B (zh) 一种网络流异常检测模型的生成方法和计算机设备
Selvaraju et al. Casting your model: Learning to localize improves self-supervised representations
CN107577945B (zh) Url攻击检测方法、装置以及电子设备
CN110197209B (zh) 一种基于多特征融合的辐射源识别方法
CN116647411B (zh) 游戏平台网络安全的监测预警方法
Liu et al. Detection of IoT botnet based on deep learning
CN117614742B (zh) 一种蜜点感知增强的恶意流量检测方法
CN113111731B (zh) 基于测信道信息的深度神经网络黑盒对抗样本生成方法及系统
CN104573699A (zh) 基于中等场强磁共振解剖成像的实蝇识别方法
Carneiro et al. Machine learning for network-based intrusion detection systems: an analysis of the CIDDS-001 dataset
BOUIJIJ et al. Machine learning algorithms evaluation for phishing urls classification
Zhang et al. [Retracted] Identification of Navel Orange Diseases and Pests Based on the Fusion of DenseNet and Self‐Attention Mechanism
Kosarkar et al. Design an efficient VARMA LSTM GRU model for identification of deep-fake images via dynamic window-based spatio-temporal analysis
Yan et al. TL-CNN-IDS: transfer learning-based intrusion detection system using convolutional neural network
CN104573745A (zh) 基于磁共振成像的实蝇分类方法
Chakraborty et al. Industrial control system device classification using network traffic features and neural network embeddings
Sekar et al. Prediction of distributed denial of service attacks in SDN using machine learning techniques
CN117134958B (zh) 用于网络技术服务的信息处理方法及系统
CN117278336B (zh) 基于时频域变换的物联网设备异常流量检测方法和系统
Jere et al. Principal component properties of adversarial samples
Li et al. Intrusion detection using temporal convolutional networks
Zhao et al. Lightweight anchor-free one-level feature indoor personnel detection method based on transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant