CN117354058A - 基于时间序列预测的工控网络apt攻击检测系统及方法 - Google Patents

基于时间序列预测的工控网络apt攻击检测系统及方法 Download PDF

Info

Publication number
CN117354058A
CN117354058A CN202311642991.9A CN202311642991A CN117354058A CN 117354058 A CN117354058 A CN 117354058A CN 202311642991 A CN202311642991 A CN 202311642991A CN 117354058 A CN117354058 A CN 117354058A
Authority
CN
China
Prior art keywords
industrial control
control network
time
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311642991.9A
Other languages
English (en)
Inventor
周佑源
柳少凯
李永龙
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Anyu Information Security Technology Co ltd
Original Assignee
Wuhan Anyu Information Security Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Anyu Information Security Technology Co ltd filed Critical Wuhan Anyu Information Security Technology Co ltd
Priority to CN202311642991.9A priority Critical patent/CN117354058A/zh
Publication of CN117354058A publication Critical patent/CN117354058A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于时间序列预测的工控网络APT攻击检测系统及方法,其中的系统包括数据采集与转发模块、时间序列预测模块以及隐蔽威胁识别模块,数据采集与转发模块采集工控网络流量数据并进行转发;时间序列预测模块采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测;隐蔽威胁识别模块将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。该系统可以实现对已知或未知高级持续威胁的高时效性、高准确度的智能检测,有效地抵御APT攻击,提高工控系统的安全性能。

Description

基于时间序列预测的工控网络APT攻击检测系统及方法
技术领域
本发明涉及信息技术领域,尤其涉及基于时间序列预测的工控网络APT攻击检测系统及方法。
背景技术
APT攻击,即高级可持续威胁攻击,也称为定向威胁攻击,具有极强的隐蔽性和针对性。APT攻击在爆发之前能够很好的躲避防御设施的检测,潜伏期长,且会搜集系统的大量机密信息。基于其隐蔽性,可能存在大量未知威胁和攻击手段。而工控网络由于结构复杂且协议繁杂,现有恶意网络流量检测工具难以应对高级复杂网络攻击痕迹分析与大规模网络威胁发现,针对工控网络的攻击手段也日益多样化,导致用户企业在遭受攻击时很难发现攻击者的攻击行为。随着外部网络大环境的不断变化,具备隐蔽性、渗透性和针对性的高级持续威胁(APT)对各级各类工业控制系统造成的威胁日益严重。面对此类新型网络威胁,传统防火墙、防病毒和入侵防御等以边界防护和静态防护为主的安全防护方式,已不能适应新的工控网络安全形势。因此,面向工控网络的安全威胁诊断智能化需求越来越迫切。
现有的大部分面向工控网络的安全产品主要都是基于先验知识制定安全防护策略,但这种策略对未知高级持续威胁的诊断效果不佳。APT攻击通常采用复杂的技术和策略,以避免被传统安全产品所检测和阻止。这些攻击可以在网络内部长期潜伏,通过多个阶段的攻击活动来逐渐实现其目标。传统安全产品可能会错过这些攻击行为,因为它们无法识别和响应未知的攻击技术和策略。
发明内容
本发明提供了一种基于时间序列预测的工控网络APT攻击检测系统及方法,用以解决或者至少部分解决现有技术中检测准确性不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了基于时间序列预测的工控网络APT攻击检测系统,包括:
数据采集与转发模块,用于采集工控网络流量数据并进行转发;
时间序列预测模块,用于采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测;
隐蔽威胁识别模块,用于将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。
在一种实施方式中,数据采集与转发模块具体用于:
采用旁路技术获取工控网络流量数据,包括网络流量、终端及应用的日志、事件以及状态;
采用Kafka分布式消息转发订阅框架对采集的工控网络流量数据进行转发与缓存。
在一种实施方式中,时间序列预测模块具体用于:
将当前时刻接收的工控网络流量数据作为输入,将其视为时间序列信息,预测未来时刻的时间序列,作为预测的工控网流量数据。
在一种实施方式中,生成对抗网络模型包括嵌入模型、重构模型、生成器以及判别器,其中,嵌入模型用于将高维序列映射为低维序列,重构模型用于将低维序列映射回高维序列,生成器用于通过上一时刻的输出和随机噪声z生成下一时刻输出,判别器用于判别当前输入的真实性。
在一种实施方式中,生成对抗网络模型的训练过程包括:
将数据采集与转发模块采集的工控网络流量数据作为训练数据输入生成对抗网络模型,通过嵌入模型将高维序列映射为低维序列,并通过重构模型将低维序列映射回高维序列,利用重构损失和监督损失帮助生成器和嵌入模型学习低维序列和高维序列之间的映射关系,利用对抗损失则帮助生成器和判别器拟合真实的特征分布并保留时序特征。
在一种实施方式中,
重构损失的公式为:
对抗损失的公式为:
监督损失的公式为
其中,表示/>时刻,/>表示期望值计算符,/>表t时刻的真实样本,/>表示通过重构模型得到的在时刻t的值,/>表示判别器对于真实样本在时刻t的输出,/>表示判别器对于生成样本在时刻t的输出,/>表示在时刻t的序列的时序特征,/>表示通过生成器得到的在时刻t的时序特征。
在一种实施方式中,隐蔽威胁识别模块对真实样本和预测样本进行相似度计算时采用Wasserstein距离,公式为:
其中,P和Q分别为样本的两个分布,是一个随机变量,Φ是P分布、Q分布组合起来的所有的可能的联合分布的集合,/>表示样本。
在一种实施方式中, 样本的分布通过VAE自编码器获得。
在一种实施方式中,生成对抗网络模型和VAE自编码器采用基于共享参数的模型压缩技术进行压缩后得到。
基于同样的发明构思,本发明第二方面提供了基于时间序列预测的工控网络APT攻击检测方法,包括:
通过数据采集与转发模块采集工控网络流量数据并进行转发;
通过时间序列预测模块采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测;
通过隐蔽威胁识别模块将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。
相对于现有技术,本发明的优点和有益的技术效果如下:
本发明提出的基于时间序列预测的工控网络APT攻击检测系统,通过时间序列预测模块采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测;并通过隐蔽威胁识别模块将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击,在提高准确性的同时能够保证检测的实时性。
进一步地,采用的GAN模型(生成对抗网络模型)引入嵌入模型和重构模型,通过嵌入模型将高维序列映射为低维序列,并通过重构模型将低维序列映射回高维序列,这样可以同时学习到时间步的特征分布和时间前后的时序特征,有助于进行时间序列的增强任务。此外,关于组合生成器和判别器的优化目标:通过定义三个损失函数,即重构损失、对抗损失和监督损失,将生成器和判别器的训练目标进行了组合。重构损失和监督损失帮助生成器和嵌入模型学习低维序列和高维序列之间的映射关系,而对抗损失则帮助生成器和判别器拟合真实的特征分布并保留时序特征。因此,可以提高检测的准确性。
进一步地,通过使用自编码器VAE技术,使得系统可以对工控网络数据进行自适应的特征提取和降维,减少输入数据的维度,提高数据处理效率,并提高获取样本分布的准确度。
进一步地,使用Wasserstein距离对相似度进行计算从而实现异常检测,以检测潜在的APT攻击行为。该技术基于概率分布的差异性来识别异常数据,能够发现传统方法难以检测的异常情况,并减少误报率,进一步提高了检测的准确性。
进一步地,使用压缩技术对数据进行压缩,以减少传输和存储成本。在工控网络这种数据量庞大的环境中,这种技术可以有效地减少数据传输和存储的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于时间序列预测的工控网络APT攻击检测系统的框架图;
图2为本发明实施例中时间序列预测模块的模型数据和损失计算流图;
图3为本发明实施例中基于时间序列预测的工控网络APT攻击实时检测系统在线检测方案流程图。
具体实施方式
传统安全产品可能会错过这些攻击行为,因为它们无法识别和响应未知的攻击技术和策略。因此,为了更好地应对APT攻击,需要使用基于机器学习和人工智能的安全产品,以便实时分析大量的网络数据和行为,并能够快速发现和响应未知的攻击。这些产品可以自动识别和学习新的攻击技术和策略,并能够在网络内实时检测和响应可疑行为。这种基于数据的安全防御策略,相比于传统的基于规则的安全策略,可以更加准确地检测和响应APT攻击,并提供更高的安全保障。本发明提出了基于时间序列预测的工控网络APT攻击实时检测系统,能够在安全威胁样本数量受限的约束下,通过综合利用生成对抗网络、变分自编码器、Wasserstein距离及模型压缩技术,实现对未知高级持续威胁的高时效性、高准确度的智能检测。
本发明旨在提出一种基于时间序列预测技术的工控网络APT攻击实时检测系统,解决背景技术中存在的技术问题,以实现面向工控网络的高级持续威胁在线智能检测。具体而言,主要包括以下三点:
(1)基于改进的GAN的时间序列预测技术,将工控网络中的流量、日志等样本信息视为时间序列信息并进行预测,在未知威胁出现的前期通过捕获工控网络流量的时序特征来训练和升级工控网络流量预测网络,目的是得到下一时刻的工控网络流量。
(2)基于VAE自编码器获取样本数据的威胁等级分布,并通过Wasserstein距离来衡量GAN网络预测出的样本数据和真实数据概率分布的相似度,利用样本数据分布之间的差异确定并识别数量稀少的APT攻击流量样本。
(3)基于共享参数的模型压缩技术,尽可能多的将模型中的相同或相近的参数用同一个参数表示并存储,从节约内存资源和节约存储空间两个角度提升模型的部署性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了基于时间序列预测的工控网络APT攻击检测系统,请参见图1,该系统包括:
数据采集与转发模块,用于采集工控网络流量数据并进行转发;
时间序列预测模块,用于采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测;
隐蔽威胁识别模块,用于将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。
具体来说,时间序列预测模块采用了基于预测的APT检测方法,该方法使用时间序列数据的历史模式来预测未来的观测值。通过构建模型捕捉时空相关性并进行预测,获得预期的时间序列模式。将预测误差作为异常得分进行检测,如果实际观测值与预测值之间的差异超过一定的阈值或误差范围,就可以将其标识为异常。而现有技术中通过采用的是基于聚类的APT攻击检测,该方法旨在通过将数据集中的样本分组成相似的簇,从而识别出与大多数数据点不同的异常数据点。这种方法使用聚类算法将数据点分为组,然后将较小的簇或不符合聚类特性的数据点标记为异常。本发明的方法(基于预测的APT检测方法)与现有方法(基于聚类的APT攻击检测)在在线检测、实时检测效果和个性化定制方面的优劣势如下:
1、在线检测能力:
基于预测的APT检测,由于预测模型已经训练好,可以立即对新的数据进行预测,因此具有强大的在线检测能力。这使得它可以快速响应新型威胁,实现及时的威胁识别和防御。
基于聚类的APT检测,聚类需要在整个数据集上执行,这可能会在大规模数据集中耗费大量时间。因此,基于聚类的方法相对来说在线检测能力较弱。
2、实时检测效果:
基于预测的APT检测,一时刻只需预测下一时刻的序列值和比对该时刻的预测值和真实值之间的分布差异,因此预测模型经过训练可以在实时数据上快速做出预测,因此在检测实时威胁方面具有很高的效果。
基于聚类的APT检测,能离线检测,分析所有样本的分布情况并进行聚类,将将较小的簇或不符合聚类特性的数据点标记为异常。聚类方法也可能会因为在大型数据集上的计算而导致实时性降低。同时,聚类算法的性能也受到超参数选择和数据分布的影响。
3、个性化定制:
基于预测的APT检测,可以根据具体的网络环境和威胁情况来训练模型,从而提供更个性化的检测能力。
基于聚类的APT检测,类方法通常无法提供与具体环境和威胁情况相关的个性化检测。
在一种实施方式中,数据采集与转发模块具体用于:
采用旁路技术获取工控网络流量数据,包括网络流量、终端及应用的日志、事件以及状态;
采用Kafka分布式消息转发订阅框架对采集的工控网络流量数据进行转发与缓存。
具体来说,数据采集模块采用旁路技术的方案,能够在不改变工控网络原有网络结构以及不影响工控网络正常运行的前提下获取工控网络数据,涵盖网络、终端及应用的日志、流量、事件、状态等多源多维数据的采集。
大数据转发模块选用Kafka分布式消息转发订阅框架,利用Kafka高吞吐量、持久性存储以及分布式等特性,实现工控网络流式数据的实时快速准确安全转发与缓存,解决目前工控网络安全研究所面临的通信流量规模大、协议种类繁多、生成速度快等问题。
在一种实施方式中,时间序列预测模块具体用于:
将当前时刻接收的工控网络流量数据作为输入,将其视为时间序列信息,预测未来时刻的时间序列,作为预测的工控网流量数据。
具体来说,时间序列预测模块基于生成对抗网络,将工控网络的流量数据信息视为时间序列信息,那么时间序列的任务可以描述为针对给定历史的时间序列,训练一个时间序列生成模型(生成对抗网络模型),并使用该模型预测未来时刻的一条时间序列,即工控网络流量信息。通过同时对工控网络流量数据的时序特征和分布特征的多特征学习,模型能够做到即使训练样本极少,但是仍然能够生成特征丰富且符合样本分布规律的未来时刻预测样本。使用时间序列预测模块可以在APT攻击导致的未知威胁出现的前期就通过捕获历史数据来训练和升级时间序列预测模块。同时,利用该时间序列预测模块也可以实现对数据集中某些具有少量数据的标签进行数据扩充以及对损坏和丢失的数据进行降噪等功能。
在一种实施方式中,生成对抗网络模型包括嵌入模型、重构模型、生成器以及判别器,其中,嵌入模型用于将高维序列映射为低维序列,重构模型用于将低维序列映射回高维序列,生成器用于通过上一时刻的输出和随机噪声z生成下一时刻输出,判别器用于判别当前输入的真实性。
具体来说,生成器为,它接收一个随机的噪声/>,通过这个噪声生成时间序列,记做/>判别器为/>,它的输入参数是/>,/>代表一段时间序列,输出/>代表/>为真实时间序列的概率,如果为1,就代表100%是真实的时间序列,而输出为0,就代表不可能是真实的时间序列。
生成对抗模型的形式化表达公式如下:
表示的是真实数据的分布,/>表示的是输入的噪音的分布)
因此,生成器在进行梯度更新时,学习到的仅仅是通过判别器的输出,既是生成分布于真实分布之间的相似度,而并没有关注时间序列内部的时序特征。因此,模型为了同时学习到时间步的特征分布和时间前后的时序特征,在生成器和判别器的基础上,引入了嵌入模型和重构模型,即提出的是一种改进的生成对抗网络模型,各部分如下:
部分1:嵌入模型e的公式如下所示,帮助将高维序列映射为低维序列,因为低维序列更容易学习其特征,并且这种映射与上一个输出有关,因此保留并突出了其时序特征。t表示时刻,t-1即为上一时刻,e表示该处的嵌入模型,采用递归神经网络实现,h代表序列s在潜在向量空间的映射,即可理解为序列s在时间上的特征,s为输入的序列。此公式表示的含义为t时刻的序列s的时序特征h可以通过嵌入模型e,带入上一时刻(t-1)的时序特征和序列s本身计算得出。
部分2:重构模型r公式如下所示,将低维序列映射回高维序列。r为重构模型,采用前馈神经网络实现。该公司的含义为,通过r,将嵌入模型e得出的h重新映射回高维序列
部分3:生成器公式如下所示,通过上一个输出和随机噪声z生成下一个输出。
部分4:判别器公式如下所示,判别输入的真实性。y为判别器D的输出,反映生成的样本的真实性。
在一种实施方式中,生成对抗网络模型的训练过程包括:
将数据采集与转发模块采集的工控网络流量数据作为训练数据输入生成对抗网络模型,通过嵌入模型将高维序列映射为低维序列,并通过重构模型将低维序列映射回高维序列,利用重构损失和监督损失帮助生成器和嵌入模型学习低维序列和高维序列之间的映射关系,利用对抗损失则帮助生成器和判别器拟合真实的特征分布并保留时序特征。
在一种实施方式中,
重构损失的公式为:
对抗损失的公式为:
监督损失的公式为
其中,表示/>时刻,/>表示期望值计算符,/>表t时刻的真实样本,/>表示通过重构模型得到的在时刻t的值,/>表示判别器对于真实样本在时刻t的输出,/>表示判别器对于生成样本在时刻t的输出,/>表示在时刻t的序列的时序特征,/>表示通过生成器得到的在时刻t的时序特征。
其中,GAN模型中数据和损失计算流如图2所示,重构损失于监督损失/>帮助重构模型和嵌入模型在优化函数/>下学习低维序列/>和高维序列/>之间的映射关系。对抗损失/>和监督损失/>在优化函数/>帮助/>和/>拟合真实的特征分布并且其时序特征有所留存。λ和η为超参数,θ表示神经网络,e,r,g,d为嵌入模型、重构模型、生成器和判别器。
在一种实施方式中,隐蔽威胁识别模块对真实样本和预测样本进行相似度计算时采用Wasserstein距离,公式为:
其中,P和Q分别为样本的两个分布,是一个随机变量,Φ是P分布、Q分布组合起来的所有的可能的联合分布的集合,/>表示样本。
具体来说,隐蔽威胁识别模块对大数据转发模块转发的实时真实样本和时间序列预测模块预测的样本进行相似度分析,根据相似度分析结果判断该流量数据是否为威胁数据;即通过隐蔽威胁识别模块对获取的数据进行识别,以快速准确的得到威胁数据。预测样本与实时真实样本之间的相似度值的计算公式采用Wasserstein距离。Wasserstein距离是一种改进JS散度的方法,它通过将JS散度中的中间分布换成一个随机变量,从而避免了计算中间分布的复杂度。具体来说,Wasserstein距离首先将每个分布表示为一个高斯分布的混合模型,然后将这两个混合模型组合成一个新的混合模型,最后将它们之间的Wasserstein距离作为两个分布之间的距离。这样,Wasserstein距离能够更加高效地计算分布之间的相似度。
在一种实施方式中, 样本的分布通过VAE自编码器获得。
具体来说,本实施例通过VAE自编码器获取样本的分布P和Q。假定样本分布服从高斯分布,利用神经网络算法学习以及获取均值与方差,进而确定该分布。通过比对分布之间的相似度,即可识别未知威胁数据。故通过VAE获取样本分布并通过Wasserstein距离判断相似性可以确定并识别APT攻击流量样本。实现步骤为:
1)数据预处理:将网络流量数据转换为数值矩阵,使其适合于输入到神经网络中。本实施例将每个数据包的特征(如源IP地址、目的IP地址、源端口号、目的端口号等)转换为数值,并将它们合并为一个向量。
2)模型设计:设计VAE模型,包括编码器、解码器和潜在变量的概率分布。本实施例使用一个包含多个卷积层、池化层和全连接层的卷积神经神经网络作为编码器,激活函数为ReLU。本实施例假设潜在变量的概率分布服从高斯分布,均值为0,方差为1。
3)确定样本X的分布,它的概率分布为高斯分布,均值为,方差为/>。本实施例使用VAE的编码器将网络流量样本X转换为潜在变量z的均值/>和方差/>,其中:/>,/>=Encoder(X)。
在一种实施方式中,生成对抗网络模型和VAE自编码器采用基于共享参数的模型压缩技术进行压缩后得到。
具体来说,在得到训练好的生成对抗网络模型和VAE自编码器后,本实施例采用基于共享参数的模型压缩技术对两个模型进行压缩。采用基于共享参数的模型压缩技术,共享参数的基本目标就是尽可能多的将模型中的相同或相近的参数用同一个参数表示并存储,这可以从节约内存资源和节约存储空间两个角度提升模型的部署性能。一般而言,压缩模型会带来模型准确度的损失,而且模型压缩算法本身有的也需要较高的时间复杂度。基本方案为对目标模型的参数值进行量化从而实现神经网络模型压缩的目的。步骤为:
1)预训练网络模型;
2)量化网络参数;
3)重新训练网络。
直接共享模型参数来压缩模型对模型的性能损失较大,而通过将模型参数从空间域转换到频域,可以对低频参数进行适当的压缩,对高频参数进行高效的压缩。这样,能够有区分度地保留模型中重要的低频参数,舍弃掉模型中冗余的高频参数。
同时,对基于共享参数的压缩方案进行如下的改进:
1):使用矩阵分解技术,将权重矩阵分解成几个较小的子矩阵,以减少模型中的参数数量和存储空间。矩阵分解可以有效地降低模型复杂度和存储要求,同时仍然能够保持模型的精度。具体而言,可以采用奇异值分解(SVD)或QR分解等方法来分解权重矩阵。此外,还可以使用分组卷积来共享卷积核参数,以进一步减少参数量。
2):使用剪枝技术来压缩模型。剪枝技术通过移除网络中不必要的连接和神经元来减少模型大小。其中,可采用L1正则化、L2正则化等方法来诱导参数稀疏性,然后再进行权重剪枝,以减少模型中的冗余参数,并可以在不丧失模型精度的情况下实现显著的模型压缩。
总体来说,本发明提出的一种基于时间序列预测的工控网络APT攻击实时检测系统,其优越性主要体现在引入GAN、变分自编码器VAE、Wasserstein距离和压缩技术等对工控网络进行智能分析,旨在解决传统工控网络安全产品在识别和防御未知高级持续威胁(APT)方面的一些问题,并能做到工控网络APT攻击的实时在线检测。
1):通过GAN进行时间序列预测,在T-1时刻带入模型得出T时刻的工控网络流量预测样本,然后在T时刻将预测样本和采集的实时样本进行相似度分析,以做到实时性的APT攻击检测。
2):通过使用自编码器VAE技术,该系统可以对工控网络数据进行自适应的特征提取和降维,减少输入数据的维度,提高数据处理效率,并提高获取样本分布的准确度。
3):本发明使用Wasserstein距离进行异常检测,以检测潜在的APT攻击行为。该技术基于概率分布的差异性来识别异常数据,能够发现传统方法难以检测的异常情况,并减少误报率。
4):本发明使用压缩技术对数据进行压缩,以减少传输和存储成本。在工控网络这种数据量庞大的环境中,这种技术可以有效地减少数据传输和存储的成本。
同时,本发明采用的GAN模型的有益效果还体现在:
1):引入嵌入模型和重构模型:传统的GAN模型主要关注生成器和判别器之间的对抗训练,但对于时间序列数据,时序特征的学习也非常重要。该模型引入了嵌入模型和重构模型,通过嵌入模型将高维序列映射为低维序列,并通过重构模型将低维序列映射回高维序列,这样可以同时学习到时间步的特征分布和时间前后的时序特征,有助于进行时间序列的增强任务。
2):组合生成器和判别器的优化目标:该模型通过定义三个损失函数,即重构损失、对抗损失和监督损失,将生成器和判别器的训练目标进行了组合。重构损失和监督损失帮助生成器和嵌入模型学习低维序列和高维序列之间的映射关系,而对抗损失则帮助生成器和判别器拟合真实的特征分布并保留时序特征。
综上所述,通过引入GAN、变分自编码器VAE、Wasserstein距离和压缩技术等技术,该系统可以实现对已知或未知高级持续威胁的高时效性、高准确度的智能检测,有效地抵御APT攻击,提高工控系统的安全性能。
实施例二
基于同样的发明构思,本实施例提供了基于时间序列预测的工控网络APT攻击检测方法,包括:
通过数据采集与转发模块采集工控网络流量数据并进行转发;
通过时间序列预测模块采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测;
通过隐蔽威胁识别模块将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。
如图3所示,本发明实施例中基于时间序列预测的工控网络APT攻击实时检测系统在线检测方案流程图。在具体工业实施中,本方案的部署需要分为离线训练和在线检测两块。在正式接入工控网络进行实时APT攻击检测之前,首先需要对本发明所使用的GAN、VAE等神经网络模型进行离线训练和压缩,再接入系统后即可在线检测APT攻击。
离线训练:
时间序列预测模块:
离线训练时,本模块需要对时间序列预测模块中的GAN模型进行训练,通过填充工控网络历史数据,并按照前文中GAN模型的训练步骤和损失函数生成所需的用于时间序列预测的GAN模型。
隐蔽威胁识别模块:
离线训练时,本模块需要对样本分布提取的VAE模型训练,同样通过填充工控网络历史数据,按照前文中VAE模型的训练步骤生成所需的VAE模型。
压缩模块:
通过压缩模块对时间序列预测模块使用的GAN模型以及隐蔽威胁识别模块的VAE模型进行压缩。并在在线检测过程中使用压缩后的GAN和VAE模型。
在工控网络的实际在线部署中,受到工业生产环境限制,维护一个高性能计算节点是比较耗费资源的。而上述的对抗神经网络以及变分自编码器包含海量的参数,需要高性能GPU或CPU集群和大量的快速存储设备来承载。因此,在可接受的模型性能损失范围内,尽可能地压缩模型大小便于将模型部署到FPGA、单片机等终端设备上。压缩模块采用基于共享参数的模型压缩技术,基本方案为对目标模型的参数值进行量化从而实现神经网络模型压缩的目的。直接共享模型参数来压缩模型对模型的性能损失较大,而通过将模型参数从空间域转换到频域,可以对低频参数进行适当的压缩,对高频参数进行高效的压缩。这样,能够有区分度地保留模型中重要的低频参数,舍弃掉模型中冗余的高频参数。
在线检测:
数据采集与转发模块:
在一个可选实例中,首先执行数据采集模块,采用旁路接入技术获取数据,在不改变工控网络原有网络结构以及不影响工控网络正常运行的前提下获取工控网络数据,涵盖网络、终端及应用的日志、流量、事件、状态等多源多维数据的采集。然后选用Kafka大数据转发订阅构造数据中转站,对大规模工控网络的实时流式数据进行快速准确安全转发与存储,屏蔽数据采集端和数据处理端之间的数据处理速率差异,避免了工控网络流量数据的丢失现象。
时间序列预测模块:
当采集到网络流量数据后,将其作为真实样本带入时间序列预测模块,采用基于生成对抗网络的时间序列预测技术,通过同时对工控网络流量数据的时序特征和分布特征的多特征学习,模型能够做到即使训练样本极少,但是仍然能够生成特征丰富且符合样本分布规律的预测样本。同时,利用该时间序列预测技术也可以实现对数据集中某些具有少量数据的标签进行数据扩充以及对损坏和丢失的数据进行降噪等功能。预测工控网络流量未来预测样本数据后将带入隐蔽威胁识别模块以检测未来真实样本是否具有威胁。
时间序列预测模块的输入为由数据采集与转发模块传递的样本数据。在这个模块中,利用历史数据训练了一个生成对抗网络(GAN)模型,通常记作G。当在时刻T收到新的数据样本X时,时间序列预测模块能够以实时、高效的方式生成T+1时刻的预测样本。随后,将/>传递至下一模块,进行威胁分析和异常判断。
隐蔽威胁识别模块:
该模块对采集的工控网络流量真实样本数据和时间序列预测模块得出的预测样本数据进行相似度分析,筛选威胁数据,并计算预测样本与真实样本之间的相似度,通过相似度发现威胁数据并判断是否遭受APT攻击。
本实施例使用VAE自编码器获取样本在隐空间映射向量的概率分布,假定分布服从高斯分布,利用神经网络算法学习以及获取均值与方差,进而确定该分布,通过比对分布之间的相似度,即可识别未知威胁数据。
具体步骤如下:
1)将网络流量样本输入VAE模型,获取潜在变量的均值和方差。
2)使用均值和方差生成一个潜在表示,重构这个潜在表示得到网络流量样本。
3)重复以上步骤多次,获取一定数量的网络流量样本。
4)将网络流量样本输入到神经网络中,学习获取数据的威胁等级分布。
5)使用Wasserstein Distance比较数据分布的相似度,以识别未知威胁数据。
理论上,正常数据的分布基本上是相关的,而出现的APT攻击的样本的分布与正常数据的分布具有较大的不同。因此,通过这个模块可以确定并识别数量稀少的APT攻击流量样本。
由于本发明实施例二所介绍的方法为基于本发明实施例一中基于时间序列预测的工控网络APT攻击检测系统所采用的方法,故而基于本发明实施例一所介绍的系统,本领域所属人员能够了解该方法的具体实施方式而在此不再赘述。凡是基于本发明实施例一中系统所采用的方法都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.基于时间序列预测的工控网络APT攻击检测系统,其特征在于,包括:
数据采集与转发模块,用于采集工控网络流量数据并进行转发;
时间序列预测模块,用于采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测,其中,生成对抗网络模型包括嵌入模型、重构模型、生成器以及判别器,其中,嵌入模型用于将高维序列映射为低维序列,重构模型用于将低维序列映射回高维序列,生成器用于通过上一时刻的输出和随机噪声z生成下一时刻输出,判别器用于判别当前输入的真实性;
隐蔽威胁识别模块,用于将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。
2.如权利要求1所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,数据采集与转发模块具体用于:
采用旁路技术获取工控网络流量数据,包括网络流量、终端及应用的日志、事件以及状态;
采用Kafka分布式消息转发订阅框架对采集的工控网络流量数据进行转发与缓存。
3.如权利要求1所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,时间序列预测模块具体用于:
将当前时刻接收的工控网络流量数据作为输入,将其视为时间序列信息,预测未来时刻的时间序列,作为预测的工控网流量数据。
4.如权利要求1所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,生成对抗网络模型的训练过程包括:
将数据采集与转发模块采集的工控网络流量数据作为训练数据输入生成对抗网络模型,通过嵌入模型将高维序列映射为低维序列,并通过重构模型将低维序列映射回高维序列,利用重构损失和监督损失帮助生成器和嵌入模型学习低维序列和高维序列之间的映射关系,利用对抗损失则帮助生成器和判别器拟合真实的特征分布并保留时序特征。
5.如权利要求4所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,
重构损失的公式为:
对抗损失的公式为:
监督损失的公式为:
其中,表示/>时刻,/>表示期望值计算符,/>表t时刻的真实样本,/>表示通过重构模型得到的在时刻t的值,/>表示判别器对于真实样本在时刻t的输出,/>表示判别器对于生成样本在时刻t的输出,/>表示在时刻t的序列的时序特征,/>表示通过生成器得到的在时刻t的时序特征。
6.如权利要求1所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,隐蔽威胁识别模块对真实样本和预测样本进行相似度计算时采用Wasserstein距离,公式为:
其中,P和Q分别为样本的两个分布,是一个随机变量,Φ是P分布、Q分布组合起来的所有的可能的联合分布的集合,/>表示样本。
7.如权利要求6所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,样本的分布通过VAE自编码器获得。
8.如权利要求7所述的基于时间序列预测的工控网络APT攻击检测系统,其特征在于,生成对抗网络模型和VAE自编码器采用基于共享参数的模型压缩技术进行压缩后得到。
9.基于时间序列预测的工控网络APT攻击检测方法,其特征在于,包括:
通过数据采集与转发模块采集工控网络流量数据并进行转发;
通过时间序列预测模块采用生成对抗网络模型基于当前时刻的流量数据,对未来时刻的时间序列进行预测,其中,生成对抗网络模型包括嵌入模型、重构模型、生成器以及判别器,其中,嵌入模型用于将高维序列映射为低维序列,重构模型用于将低维序列映射回高维序列,生成器用于通过上一时刻的输出和随机噪声z生成下一时刻输出,判别器用于判别当前输入的真实性;
通过隐蔽威胁识别模块将数据采集与转发模块采集的工控网络流量数据作为真实样本,时间序列预测模块得出的工控网流量数据作为预测样本,并对真实样本和预测样本进行相似度计算,根据相似度计算结果筛选出威胁数据并判断是否遭受APT攻击。
CN202311642991.9A 2023-12-04 2023-12-04 基于时间序列预测的工控网络apt攻击检测系统及方法 Pending CN117354058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311642991.9A CN117354058A (zh) 2023-12-04 2023-12-04 基于时间序列预测的工控网络apt攻击检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311642991.9A CN117354058A (zh) 2023-12-04 2023-12-04 基于时间序列预测的工控网络apt攻击检测系统及方法

Publications (1)

Publication Number Publication Date
CN117354058A true CN117354058A (zh) 2024-01-05

Family

ID=89366996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311642991.9A Pending CN117354058A (zh) 2023-12-04 2023-12-04 基于时间序列预测的工控网络apt攻击检测系统及方法

Country Status (1)

Country Link
CN (1) CN117354058A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535878A (zh) * 2019-09-23 2019-12-03 电子科技大学 一种基于事件序列的威胁检测方法
CN111160313A (zh) * 2020-01-02 2020-05-15 华南理工大学 一种基于lbp-vae异常检测模型的人脸表示攻击检测方法
CN112182564A (zh) * 2020-08-20 2021-01-05 东北大学 一种基于时间序列预测的工控蜜罐交互系统
CN113281998A (zh) * 2021-04-21 2021-08-20 浙江工业大学 基于生成对抗网络的工业信息物理系统多点fdi攻击检测方法
CN114297936A (zh) * 2021-12-31 2022-04-08 深圳前海微众银行股份有限公司 一种数据异常检测方法及装置
CN114692506A (zh) * 2022-04-13 2022-07-01 浙江工业大学 一种基于改进TimeGAN模型的小样本故障诊断方法
WO2022166534A1 (zh) * 2021-02-07 2022-08-11 大唐移动通信设备有限公司 预失真处理方法和装置
CN115049501A (zh) * 2022-05-07 2022-09-13 中国农业银行股份有限公司 一种期货价格预警方法及装置
CN115643115A (zh) * 2022-12-23 2023-01-24 武汉大学 基于大数据的工控网络安全态势预测方法及系统
CN116052786A (zh) * 2022-12-26 2023-05-02 江苏大学 海洋碱性蛋白酶发酵过程关键参量的软测量方法及控制器
WO2023115598A1 (zh) * 2021-12-22 2023-06-29 大连理工大学 一种基于生成式对抗网络的平面叶栅定常流动预测方法
CN116415200A (zh) * 2023-04-13 2023-07-11 北京信息科技大学 一种基于深度学习的异常车辆轨迹异常检测方法及系统
EP4209968A1 (en) * 2022-01-05 2023-07-12 Tata Consultancy Services Limited System and method for generating mixed variable type multivariate temporal synthetic data
CN116502775A (zh) * 2023-06-27 2023-07-28 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种水文序列增强及预测方法
CN116738251A (zh) * 2023-06-19 2023-09-12 电子科技大学 一种基于生成对抗网络的射频指纹识别训练数据生成方法
CN116737850A (zh) * 2023-07-19 2023-09-12 杨潇 Apt实体关系预测的图神经网络模型训练方法
CN117117968A (zh) * 2023-08-28 2023-11-24 淮阴工学院 一种基于数据增强的风电场爬坡事件预测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535878A (zh) * 2019-09-23 2019-12-03 电子科技大学 一种基于事件序列的威胁检测方法
CN111160313A (zh) * 2020-01-02 2020-05-15 华南理工大学 一种基于lbp-vae异常检测模型的人脸表示攻击检测方法
CN112182564A (zh) * 2020-08-20 2021-01-05 东北大学 一种基于时间序列预测的工控蜜罐交互系统
WO2022166534A1 (zh) * 2021-02-07 2022-08-11 大唐移动通信设备有限公司 预失真处理方法和装置
CN113281998A (zh) * 2021-04-21 2021-08-20 浙江工业大学 基于生成对抗网络的工业信息物理系统多点fdi攻击检测方法
WO2023115598A1 (zh) * 2021-12-22 2023-06-29 大连理工大学 一种基于生成式对抗网络的平面叶栅定常流动预测方法
CN114297936A (zh) * 2021-12-31 2022-04-08 深圳前海微众银行股份有限公司 一种数据异常检测方法及装置
EP4209968A1 (en) * 2022-01-05 2023-07-12 Tata Consultancy Services Limited System and method for generating mixed variable type multivariate temporal synthetic data
CN114692506A (zh) * 2022-04-13 2022-07-01 浙江工业大学 一种基于改进TimeGAN模型的小样本故障诊断方法
CN115049501A (zh) * 2022-05-07 2022-09-13 中国农业银行股份有限公司 一种期货价格预警方法及装置
CN115643115A (zh) * 2022-12-23 2023-01-24 武汉大学 基于大数据的工控网络安全态势预测方法及系统
CN116052786A (zh) * 2022-12-26 2023-05-02 江苏大学 海洋碱性蛋白酶发酵过程关键参量的软测量方法及控制器
CN116415200A (zh) * 2023-04-13 2023-07-11 北京信息科技大学 一种基于深度学习的异常车辆轨迹异常检测方法及系统
CN116738251A (zh) * 2023-06-19 2023-09-12 电子科技大学 一种基于生成对抗网络的射频指纹识别训练数据生成方法
CN116502775A (zh) * 2023-06-27 2023-07-28 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种水文序列增强及预测方法
CN116737850A (zh) * 2023-07-19 2023-09-12 杨潇 Apt实体关系预测的图神经网络模型训练方法
CN117117968A (zh) * 2023-08-28 2023-11-24 淮阴工学院 一种基于数据增强的风电场爬坡事件预测方法

Similar Documents

Publication Publication Date Title
Zhang et al. Network intrusion detection: Based on deep hierarchical network and original flow data
Ortet Lopes et al. Towards effective detection of recent DDoS attacks: A deep learning approach
CN110768971B (zh) 适用于人工智能系统的对抗样本快速预警方法及系统
CN111901340B (zh) 一种面向能源互联网的入侵检测系统及其方法
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
Zhang et al. Dual generative adversarial networks based unknown encryption ransomware attack detection
CN115643115B (zh) 基于大数据的工控网络安全态势预测方法及系统
Elsayed et al. Detecting abnormal traffic in large-scale networks
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
CN117113262A (zh) 网络流量识别方法及其系统
CN114528547A (zh) 基于社区特征选择的icps无监督在线攻击检测方法和设备
CN115277189A (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
Wang et al. Abnormal traffic detection system in SDN based on deep learning hybrid models
CN117349618A (zh) 网络信息系统的恶意加密流量检测模型的构建方法及介质
Li et al. Research on intrusion detection based on neural network optimized by genetic algorithm
Qi Computer Real-Time Location Forensics Method for Network Intrusion Crimes.
CN111343205B (zh) 工控网络安全检测方法、装置、电子设备以及存储介质
CN117354058A (zh) 基于时间序列预测的工控网络apt攻击检测系统及方法
Babu et al. Improved Monarchy Butterfly Optimization Algorithm (IMBO): Intrusion Detection Using Mapreduce Framework Based Optimized ANU-Net.
Alqurashi et al. On the performance of isolation forest and multi layer perceptron for anomaly detection in industrial control systems networks
CN115643153A (zh) 基于图神经网络的报警关联分析方法
Leevy et al. Feature evaluation for IoT botnet traffic classification
CN112884069A (zh) 一种对抗网络样本检测的方法
Hsieh et al. MLNN: A Novel Network Intrusion Detection Based on Multilayer Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination