CN116318773A - 基于ae模型优化的对抗训练式无监督入侵检测系统及方法 - Google Patents

基于ae模型优化的对抗训练式无监督入侵检测系统及方法 Download PDF

Info

Publication number
CN116318773A
CN116318773A CN202211504988.6A CN202211504988A CN116318773A CN 116318773 A CN116318773 A CN 116318773A CN 202211504988 A CN202211504988 A CN 202211504988A CN 116318773 A CN116318773 A CN 116318773A
Authority
CN
China
Prior art keywords
data
self
network model
encoder
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211504988.6A
Other languages
English (en)
Inventor
曾国强
杨耀伟
耿光刚
翁健
黄家承
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202211504988.6A priority Critical patent/CN116318773A/zh
Publication of CN116318773A publication Critical patent/CN116318773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physiology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自编码器模型优化的工业互联网对抗训练式无监督入侵检测系统及方法。本发明使用数据解压模块采集工业互联网系统的通讯时序流量,经过谱残差技术的数据清洗、数据归一化和数据样本化等获得输入数据集,将AE网络模型的架构和参数进行二进制编码,设计基于二进制遗传优化技术的AE网络模型离线优化平台,并利用对抗训练对个体适应度进行评估,经迭代优化后自动获得工业互联网入侵检测系统的AE网络最优模型。本发明不仅可实现用于工业互联网无监督入侵检测系统的AE模型的对抗式训练和自动优化设计,提高了工业互联网入侵检测系统的模型训练稳定性和智能化设计水平,还提升了工业互联网系统入侵检测的召回率和F1评分等性能指标。

Description

基于AE模型优化的对抗训练式无监督入侵检测系统及方法
技术领域
本发明涉及工业互联网系统信息安全领域的智能入侵检测技术,特别涉及一种基于自编码器(Autoencoder,AE)模型优化的对抗训练式入侵检测系统及方法。
背景技术
工业互联网是以互联网为代表的新一代信息技术在工业领域的应用和发展。近年来,我国的工业互联网产业规模已突破万亿元,制造业的数字化转型提速。工业互联网产业发展迅速、前景广阔,但与此同时所面临的安全风险也日益增加。
当前工业互联网还没形成较统一的架构,标准规范缺失,产业升级带来软件环境动态变化等情况导致对入侵检测模型的适应速度提出了更高的要求,安全风险的不断变化也对入侵检测模型的检测稳定性提出了更高的标准。近年来,基于深度学习的工业互联网系统入侵检测技术已成为学术界和工业界的研发热点之一。目前,面向工业互联网系统入侵检测的绝大多数深度神经网络模型架构为专业人员手工设计研发,设计研发的周期长,难以与环境动态调整,因此当前工业互联网入侵检测系统的自动化设计水平亟待提升。
深度神经网络模型优化设计方案在应对动态变化的环境风险和平衡计算成本与提高检测率等方面有与生俱来的优势。然而,深度神经模型优化设计的现有研究成果主要集中在传统的图像识别领域,在工业互联网系统入侵检测领域的应用却鲜有研究报道。
自编码器模型作为工业互联网系统入侵检测的一类典型无监督方法,虽然具有较高的检测率,但现有自编码器模型存在训练不稳定、模型设计依赖手工设计等问题,严重制约了其在工业互联网入侵检测中的推广应用。而对抗训练(学习)作为一种新兴技术,有望解决自编码器模型训练目标单一、训练不稳定等问题,但相关技术还未见报道。基于上述情况,基于自编码器网络模型优化设计的工业互联网系统新型对抗训练式无监督入侵检测技术亟待研发。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于AE模型优化的工业互联网对抗训练式无监督入侵检测系统及方法。
本发明的目的是通过以下技术方案来实现的:一种基于AE模型优化的工业互联网对抗训练式无监督入侵检测系统,其特征在于,该系统包括工业互联网入侵检测的数据解压模块、数据预处理模块、自编码器网络模型离线优化模块和在线检测模块;
所述工业互联网入侵检测系统的数据解压模块包括数据采集和数据清洗两个子模块,其中数据采集模块的主要功能是将工业互联网系统的实时传感器等时序数据进行收集汇总,数据清洗模块的主要功能是使用谱残差技术对工业互联网时序数据中的每一个数据特征进行数据清洗;将数据清洗后的数据集输入到数据预处理模块,
所述数据预处理模块包括数据归一化和数据样本化两个子模块,其中数据归一化模块是通过计算数据集中每一维度的极值,以消除量纲达成加速优化过程的目的;数据样本化模块将长段时序数据划分为块状数据,生成最终数据集,将生成的最终数据集作为自编码器网络模型优化模块的输入;
所述自编码器网络模型离线优化模块是针对数据预处理模块产生的最终数据集,对自编码器网络模型进行二进制编码,利用二进制遗传优化技术,联合个体适应度评估模块,经过迭代优化后获得最优自编码器网络模型的架构及参数信息;同时将其输入到在线检测模块;
所述个体适应度评估模块,从自编码器网络模型离线优化模块中获得每个个体的编码信息,构建自编码器AE以及两个判别器D1和D2,通过三者对抗训练,依据自编码器AE重构损失判别验证集样本,计算验证集F1评分作为每个个体的适应度值,将每个个体的适应度值传送回自编码器网络模型离线优化模块;
所述在线检测模块,在接收到最优自编码器网络模型的架构和参数信息后,构建最优自编码器网络模型,对工业互联网实时通讯流量进行异常检测,并判别出样本是否异常;
所述系统的基于自编码器网络模型优化的工业互联网入侵检测方法,包括以下步骤:
(1)权利要求1中所述工业互联网入侵检测系统中的数据解压模块,将工业互联网系统的实时传感器等时序数据进行收集汇总,将收集的数据标记为x,并使用公式(1)、公式(2)、公式(3)对数据进行傅里叶变换得到对数振幅谱;
A(f)=Amplitude(F(x)) (1)
P(f)=Phrase(F(x)) (2)
L(f)=Log(A(f)) (3)
其中F(x)表示对x的傅里叶变换;A(f)为输入序列x的振幅谱,P(f)为输入序列x的相位谱,L(f)为振幅谱A(f)的对数表示;使用公式(4)、公式(5)进行谱残差计算:
AL(f)=hq(f)·L(f) (4)
R(f)=L(f)-AL(f) (5)
其中,AL(f)为对数振幅谱L(f)的平均频谱,hq(f)为卷积操作,R(f)为谱残差;使用公式(6)利用傅里叶反变换将序列变换回空间域;
S(x)=||F-1(exp(R(f)+iP(f)))|| (6)
其中F-1()表示傅里叶反变换,将数据解压模块处理后的时序数据标记为S(x),i表示虚数单位;
权利要求1中所述工业互联网入侵检测系统中的数据预处理模块,在接收到S(x)数据后,按照公式(7)进行数据归一化处理,将归一化处理后获得的数据集标记为X;
Figure BDA0003967849230000031
其中,Xj表示数据集X第j维度的特征,Sj表示源数据集S中第j维度的特征,Sjmax表示源数据集S第j维度的特征的最大值,Sjmin表示源数据集S第j维度的特征的最小值,m表示数据集X的最大维度值;数据样本化是根据公式(8)使用时序滑动窗口截取一定时间段的时序数据产生时序样本Yi,再根据公式(9)每间隔一段距离收集Yi收录进W中;
Figure BDA0003967849230000032
Figure BDA0003967849230000033
其中,sw表示滑动窗口长度,ss表示滑动窗口间隔,Xi表示X中时间点i的所有维度的数据,M表示数据集X的长度。将数据样本化处理后获得的数据集标记为W;训练集标记为Wtrain,验证集标记为Wvali,测试集标记为Wtest
(2)设置基于自编码器网络模型优化的离线优化训练模块的参数值,所述参数值包括种群大小N、自编码器网络模型架构与超参数优化的迭代优化次数Gmax、自编码器网络模型训练的轮次E、自编码器网络模型潜在空间维度LD、二进制遗传优化求解器中的交叉率β、变异率σ;
(3)随机产生包含N个个体的初始种群P0,即P0={p1,…,pi,…,pN,1≤i≤N},其中pi表示P0中第i个个体,pi将待优化设计的自编码器网络模型的超参数和网络架构参数编码成一个BD维的二进制向量,pi位置的具体编码如公式(10)所示:
pi={b1,…,bd,…,bD},1≤d≤BD (10)
其中,bd表示自编码器网络模型的超参数和网络架构参数编码的第d位二进制数值,bd∈{0,1},将pi位置所对应的自编码器网络模型的超参数和网络架构参数标记为qi,即qi表示第i个个体所对应的自编码器网络模型超参数和网络架构参数的实数向量,其组成如公式(11)所示:
Figure BDA0003967849230000041
其中,[B,f,η]表示自编码器网络模型所采用的超参数,B代表自编码器网络模型训练时采用的批大小,f代表自编码器网络模型训练时所采用的优化器类型,f∈{adamax,adam,rmsprop,adadelta},adamax表示自适应矩估计最大值优化(Adaptive MomentEstimation Max,Adamax),adam表示自适应矩估计(Adaptive Moment Estimation),rmsprop表示均方根反向传播(Root Mean Squre Propogation),adadelta表示在均方根反向传播的基础上,对相邻两步迭代的差值(即迭代增量)进行累计加权和的优化求解方法;η代表自编码器网络模型训练时采用的学习率大小;Ln代表自编码器网络模型中卷积层的层数,layerj代表第j层卷积层,1≤j≤nc,layerj的具体组成如公式(12)所示:
layerj=[ocj,ksj,ntj,afj], 1≤j≤Ln (12)
其中,ocj代表第j层卷积层的卷积核个数,ksj代表第j层卷积层的卷积核大小,ntj代表第j层卷积层的所接的归一化层类型,ntj∈{batchnorm,none},batchnorm代表批量标准化,none表示不做处理,afj代表第j层卷积层的激活函数类型,afj∈{sigmoid,tanh,relu,none},sigmoid表示S型函数,tanh表示双曲正切函数,relu表示线性整流函数;
(4)对种群P0进行性能评估,性能评估具体过程如下:将P0中每个个体所表征的超参数和网络架构实数qi转化为对应的自编码器网络模型AE,即利用qi的layerj相关卷积层参数逐层构建卷积层使其组成编码器AEE,并利用相同的参数镜像构建反卷积层使其组成解码器AED;同时使用预先设定好的判别器网络架构参数构建判别器D1和D2,将训练数据集Wtrain作为每个自编码器网络模型的数据输入,进行E轮次的离线对抗训练,所述具体步骤如下:
(4.1)针对判别器D1和编码器AEE进行对抗式训练,样本训练集Wtrain传入自编码器AE中,由编码器AEE产生样本潜在空间q(z)。将潜在空间q(z)和先验分布p(z)作为判别器D1的输入,让D1判断输入是先验分布p(z)还是样本潜在空间q(z)。其判断结果与真实标签对比,并依据公式(13)进行损失函数计算,再利用梯度下降技术对尽可能最大化LossD1,并对判别器D1进行权重更新,其目的在于,使D1具备区分潜在空间q(z)和先验分布p(z)的能力;
Figure BDA0003967849230000051
其中,z表示服从先验分布p(z)的变量,D1()表示判别器D1对变量的判定结果,E表示分布函数的期望值,pd(W)为数据样本W所服从的数据分布。
(4.2)针对判别器D2和自编码器AE进行对抗式训练,样本训练集Wtrain传入自编码器AE中,最终输出重构样本W',真实样本W和重构样本W'均作为判别器D2的输入,让判别器D2判别输入是真实样本W还是重构样本W'。其判断结果与真实标签对比,并依据公式(14)进行损失函数计算,再利用梯度下降技术对尽可能最大化LossD2,并对判别器D2进行权重更新,其目的在于,使D2具备区分真实样本W和重构样本W'的能力;
Figure BDA0003967849230000052
其中,D2()表示判别器D2对变量的判定结果;
(4.3)采用公式(15)计算真实样本Wtrain和重构样本W'train的重构损失MSEtrain
Figure BDA0003967849230000053
其中MSE表示均方差损失,k表示样本W的总数量;再利用公式(16)计算AE的损失函数:
Figure BDA0003967849230000054
利用梯度下降技术尽可能最小化LossAE,并对自编码器AE进行权重更新,提高自编码器AE对样本的重构能力,同时强化其最终的检测能力;针对验证集Wvali进行E2轮次的验证测试,按照公式(15)获得每个个体对应的平均验证集重构损失MSEvali,统计出种群Pg中所有个体的平均验证集重构损失MSEvali,将种群Pg中最低MSEvali对应的个体标记为种群中最优个体G0best
(5)设置初始迭代次数g=1;
(6)将上一代种群Pg-1的最优个体G(g-1)best复制进当代种群Pg中;
(7)进行竞标赛方案的选择操作,即首先使用均匀分布的概率选取上一代种群Pg-1三个个体pa,pb,pc,选择pa,pb,pc三个个体中适应度最高的两个个体作为父代,并将其标记为pd和pe
(8)使用公式(17)均匀分布生成一串与遗传个体相同长度的随机数组r1,数组r1每一位r1d的为使用正态分布产生的0~1的随机实数。对于数组r1的每一位r1d判断其是否小于预先设定的交叉率β,如果成立,则父母pd和pe的个体编码中第d位进行交叉操作,即pd和pe第d位的个体编码进行交换。交叉后的两个个体记为子代,并将其标记为c1和c2
r1={r11,…,r1d,…,r1D},1≤d≤BD,0≤r1d≤1 (17)
其中,r11,r1d,r1D分别表示随机数组r1中第1维,第d维,第BD维数值。
(9)均匀分布生成两串与遗传个体相同长度的随机数组r2和r3,即r2={r21,…,r2d,…,r2D},1≤d≤BD,0≤r2d≤1,r3={r31,…,r3d,…,r3D},1≤d≤BD,0≤r3d≤1。对于数组r2的每一位r2d判断其是否小于预先设定的变异率σ,如果成立,则子代c1中第d维编码数值取反。对于数串r3的每一位r3d判断其是否小于预先设定的变异率σ,如果成立,则子代c2在中第d维编码数值取反。最后将子代c1和c2添加进当代种群Pg中;
(10)重复步骤(6)~(9)直至当代种群Pg大小到达预先设定的种群大小N;
(11)按照步骤(4)所述的性能评估过程,对Pg中的每个个体Pg进行性能评估,获得Pg中最优个体,将其标记为Ggbest
(12)若g<Gmax,则更新g=g+1,重复步骤(6)~步骤(11);否则,则直接进入下一步骤;
(13)根据离线优化训练模块中最终获得的全局最优个体Gbest所表征的最优模型信息,构建工业互联网入侵检测在线检测模块中的最优自编码器网络模型;
(15)利用在线检测模块运行最优自编码器网络模型,对在线检测数据集Wtest进行在线入侵检测,分别按照公式(18)~(20)计算入侵检测的精准率、召回率、F1评分等性能指标;
Figure BDA0003967849230000061
Figure BDA0003967849230000062
Figure BDA0003967849230000063
其中,TP表示将正常工业互联网数据样本正确地预测为正常分类的数量,TN表示将异常工业互联网数据样本正确地预测为异常分类的数量,FP表示将异常工业互联网数据样本错误地预测为正常分类的数量,FN表示将正常工业互联网数据样本错误地预测为异常分类的数量。
本专利的有益效果是:相比现有技术,采用本发明可以实现面向工业互联网入侵检测应用领域的自编码器模型的对抗式训练和自编码器模型的自动优化设计,提升了工业互联网入侵检测系统的设计稳定性和智能化设计水平;还提升了工业互联网系统入侵检测的召回率和F1评分等性能指标。
附图说明
图1是基于自编码器模型优化的工业互联网对抗训练式入侵检测系统及方法的原理示意图;
图2是数据预处理模块中数据样本化的示例图;
图3是个体编码信息转化为对应自编码器模型的示例图;
图4是适应度评估模块中对抗训练的主要过程示意图;
图5中的(a)是本发明技术与现有依赖人工经验设计设计的GDN(Graph NeuralNetwork-Based Anomaly Detection in Multivariate Time Series)、USAD(USAD:UnSupervised Anomaly Detection on Multivariate Time Series)的召回率指标对比图、图5中的(b)是本发明技术与GDN和USAD的F1评分指标对比图。
具体实施方式
下面结合附图对本发明进一步说明,本发明的目的和效果将更加明显。
以某工业互联网系统为实施例,图1给出了基于AE模型优化的对抗训练式入侵检测系统及方法的原理示意图。基于AE模型优化的对抗训练式无监督入侵检测系统包括工业互联网入侵检测的数据解压模块、数据预处理模块、自编码器网络模型离线优化模块和在线检测模块;
所述工业互联网入侵检测系统的数据解压模块包括数据采集和数据清洗两个子模块,其中数据采集模块的主要功能是将工业互联网系统的实时传感器等时序数据进行收集汇总,数据清洗模块的主要功能是使用谱残差技术对工业互联网时序数据中的每一个数据特征进行数据清洗;将数据清洗后的数据集输入到数据预处理模块,
所述数据预处理模块包括数据归一化和数据样本化两个子模块,其中数据归一化模块是通过计算数据集中每一维度的极值,以消除量纲达成加速优化过程的目的;数据样本化模块将长段时序数据划分为块状数据,生成最终数据集,将生成的最终数据集作为自编码器网络模型优化模块的输入;
所述自编码器网络模型离线优化模块是针对数据预处理模块产生的最终数据集,对自编码器网络模型进行二进制编码,利用二进制遗传优化技术,联合个体适应度评估模块,经过迭代优化后获得最优自编码器网络模型的架构及参数信息;同时将其输入到在线检测模块;
所述个体适应度评估模块,从自编码器网络模型离线优化模块中获得每个个体的编码信息,构建自编码器AE以及两个判别器D1和D2,通过三者对抗训练,依据自编码器AE重构损失判别验证集样本,计算验证集F1评分作为每个个体的适应度值,将每个个体的适应度值传送回自编码器网络模型离线优化模块;
所述在线检测模块,在接收到最优自编码器网络模型的架构和参数信息后,构建最优自编码器网络模型,对工业互联网实时通讯流量进行异常检测,并判别出样本是否异常;
所述系统的基于AE模型优化的对抗训练式无监督工业互联网入侵检测方法,包括以下步骤:
(1)工业互联网入侵检测系统中的数据解压模块,将工业互联网系统的实时传感器等时序数据进行收集汇总,将收集的数据标记为x,并使用公式(1)、公式(2)、公式(3)对数据进行傅里叶变换得到对数振幅谱;
A(f)=Amplitude(F(x)) (1)
P(f)=Phrase(F(x)) (2)
L(f)=Log(A(f)) (3)
其中F(x)表示对x的傅里叶变换;A(f)为输入序列x的振幅谱,P(f)为输入序列x的相位谱,L(f)为振幅谱A(f)的对数表示;使用公式(4)、公式(5)进行谱残差计算:
AL(f)=hq(f)·L(f) (4)
R(f)=L(f)-AL(f) (5)
其中,AL(f)为对数振幅谱L(f)的平均频谱,hq(f)为卷积操作,R(f)为谱残差;使用公式(6)利用傅里叶反变换将序列变换回空间域;
S(x)=||F-1(exp(R(f)+iP(f)))|| (6)
其中F-1()表示傅里叶反变换,将数据解压模块处理后的时序数据标记为S(x),i表示虚数单位;
工业互联网入侵检测系统中的数据预处理模块,在接收到S(x)数据后,按照公式(7)进行数据归一化处理,将归一化处理后获得的数据集标记为X;
Figure BDA0003967849230000081
其中,Xj表示数据集X第j维度的特征,Sj表示源数据集S中第j维度的特征,Sjmax表示源数据集S第j维度的特征的最大值,Sjmin表示源数据集S第j维度的特征的最小值,m表示数据集X的最大维度值;数据样本化是根据公式(8)使用时序滑动窗口截取一定时间段的时序数据产生时序样本Yi,再根据公式(9)每间隔一段距离收集Yi收录进W中;
Figure BDA0003967849230000091
Figure BDA0003967849230000092
其中滑动窗口长度为sw=128,滑动窗口间隔为ss=10。Xi表示X中时间点i的所有维度的数据,M表示数据集X的长度。数据样本化的示例图如图2所示,此示例中数据集X的长度=13,利用滑动间隔ss=3,窗口长度sw=4的滑动窗口产生时序样本Y1={X1,X2,X3,X4},Y4={X4,X5,X6,X7},Y7={X7,X8,X9,X10},Y10={X10,X11,X12,X13},并构造数据集W={Y1,Y4,Y7,Y10}。训练集标记为Wtrain,验证集标记为Wvali,测试集标记为Wtest
(2)设置基于自编码器网络模型优化的离线优化训练模块的参数值,所述参数值包括种群大小N=20、自编码器网络模型架构与超参数优化的迭代优化次数Gmax=30、自编码器网络模型训练的轮次E=100、自编码器网络模型潜在空间维度LD=128、二进制遗传优化求解器中的交叉率β=0.8、变异率σ=0.2;
(3)随机产生包含N个个体的初始种群P0,即P0={p1,…,pi,…,pN,1≤i≤N},其中pi表示P0中第i个个体,pi将待优化设计的自编码器网络模型的超参数和网络架构参数编码成一个BD维的二进制向量,pi位置的具体编码如公式(10)所示:
pi={b1,…,bd,…,bD},1≤d≤BD (10)
其中,bd表示自编码器网络模型的超参数和网络架构参数编码的第d位二进制数值,bd∈{0,1},将pi位置所对应的自编码器网络模型的超参数和网络架构参数标记为qi,即qi表示第i个个体所对应的自编码器网络模型超参数和网络架构参数的实数向量,其组成如公式(11)所示:
Figure BDA0003967849230000093
其中,[B,f,η]表示自编码器网络模型所采用的超参数,B代表自编码器网络模型训练时采用的批大小,f代表自编码器网络模型训练时所采用的优化器类型,f∈{adamax,adam,rmsprop,adadelta},adamax表示自适应矩估计最大值优化(Adaptive MomentEstimation Max,Adamax),adam表示自适应矩估计(Adaptive Moment Estimation),rmsprop表示均方根反向传播(Root Mean Squre Propogation),adadelta表示在均方根反向传播的基础上,对相邻两步迭代的差值(即迭代增量)进行累计加权和的优化求解方法;η代表自编码器网络模型训练时采用的学习率大小;Ln代表自编码器网络模型中卷积层的层数,layerj代表第j层卷积层,1≤j≤nc,layerj的具体组成如公式(12)所示:
layerj=[ocj,ksj,ntj,afj], 1≤j≤nc (12)
其中,ocj代表第j层卷积层的卷积核个数,ksj代表第j层卷积层的卷积核大小,ntj代表第j层卷积层的所接的归一化层类型,ntj∈{batchnorm,none},batchnorm代表批量标准化,none表示不做处理,afj代表第j层卷积层的激活函数类型,afj∈{sigmoid,tanh,relu,none},sigmoid表示S型函数,tanh表示双曲正切函数,relu表示线性整流函数;
(4)对种群P0进行性能评估,性能评估具体过程如下:将P0中每个个体所表征的超参数和网络架构实数qi转化为对应的自编码器网络模型AE,即利用qi的layerj相关卷积层参数逐层构建卷积层使其组成编码器AEE,同时利用相同的参数镜像构建反卷积层使其组成解码器AED,图3给出了个体编码信息转化为对应自编码器模型的示例图;同时按照预先设定的判别器网络架构参数构建判别器D1和D2,此实施案例中的判别器网络架构参数设定如下:层数=6,第1到第6层的卷积核个数分别为32、64、128、256、512、1,第1到第6层的卷积核大小均为4,第1到第6层的卷积核步长分别为2、2、2、2、2、1,第1到第6层的填充大小分别为1、1、1、1、1、0;将训练数据集Wtrain作为每个自编码器网络模型的数据输入,进行E轮次的离线对抗训练,图4给出了对抗训练的主要过程示意图,所述具体步骤如下;
(4.1)针对判别器D1和编码器AEE进行对抗式训练,样本训练集Wtrain传入自编码器AE中,由编码器AEE产生样本潜在空间q(z)。将潜在空间q(z)和先验分布p(z)作为判别器D1的输入,让D1判断输入是先验分布p(z)还是样本潜在空间q(z)。其判断结果与真实标签对比,并依据公式(13)进行损失函数计算,再利用梯度下降技术对尽可能最大化LossD1,并对判别器D1进行权重更新,其目的在于,使D1具备区分潜在空间q(z)和先验分布p(z)的能力;
Figure BDA0003967849230000101
其中,z表示服从先验分布p(z)的变量,D1()表示判别器D1对变量的判定结果,E表示分布函数的期望值,pd(W)为数据样本W所服从的数据分布。
(4.2)针对判别器D2和自编码器AE进行对抗式训练,样本训练集Wtrain传入自编码器AE中,最终输出重构样本W',真实样本W和重构样本W'均作为判别器D2的输入,让判别器D2判别输入是真实样本W还是重构样本W'。其判断结果与真实标签对比,并依据公式(14)进行损失函数计算,再利用梯度下降技术对尽可能最大化LossD2,并对判别器D2进行权重更新,其目的在于,使D2具备区分真实样本W和重构样本W'的能力;
Figure BDA0003967849230000111
其中,D2()表示判别器D2对变量的判定结果;
(4.3)采用公式(15)计算真实样本Wtrain和重构样本W'train的重构损失MSEtrain
Figure BDA0003967849230000112
其中MSE表示均方差损失,k表示样本W的总数量;再利用公式(16)计算AE的损失函数:
Figure BDA0003967849230000113
利用梯度下降技术尽可能最小化LossAE,并对自编码器AE进行权重更新,提高自编码器AE对样本的重构能力,同时强化其最终的检测能力;针对验证集Wvali进行E2轮次的验证测试,按照公式(15)获得每个个体对应的平均验证集重构损失MSEvali,统计出种群Pg中所有个体的平均验证集重构损失MSEvali,将种群Pg中最低MSEvali对应的个体标记为种群中最优个体G0best
(5)设置初始迭代次数g=1;
(6)将上一代种群Pg-1的最优个体G(g-1)best复制进当代种群Pg中;
(7)进行竞标赛方案的选择操作,即首先使用均匀分布的概率选取上一代种群Pg-1三个个体pa,pb,pc,选择pa,pb,pc三个个体中适应度最高的两个个体作为父代,并将其标记为pd和pe
(8)使用公式(17)均匀分布生成一串与遗传个体相同长度的随机数组r1,数组r1每一位r1d的为使用正态分布产生的0~1的随机实数。对于数组r1的每一位r1d判断其是否小于预先设定的交叉率β,如果成立,则父母pd和pe的个体编码中第d位进行交叉操作,即pd和pe第d位的个体编码进行交换。交叉后的两个个体记为子代,并将其标记为c1和c2
r1={r11,…,r1d,…,r1D},1≤d≤BD,0≤r1d≤1 (17)
其中,r11,r1d,r1D分别表示随机数组r1中第1维,第d维,第BD维数值。
(9)均匀分布生成两串与遗传个体相同长度的随机数组r2和r3,即r2={r21,…,r2d,…,r2D},1≤d≤BD,0≤r2d≤1,r3={r31,…,r3d,…,r3D},1≤d≤BD,0≤r3d≤1。对于数组r2的每一位r2d判断其是否小于预先设定的变异率σ,如果成立,则子代c1中第d维编码数值取反。对于数串r3的每一位r3d判断其是否小于预先设定的变异率σ,如果成立,则子代c2在中第d维编码数值取反。最后将子代c1和c2添加进当代种群Pg中;
(10)重复步骤(6)~(9)直至当代种群Pg大小到达预先设定的种群大小N;
(11)按照步骤(4)所述的性能评估过程,对Pg中的每个个体Pg进行性能评估,获得Pg中最优个体,将其标记为Ggbest
(12)若g<Gmax,则更新g=g+1,重复步骤(6)~步骤(11);否则,则直接进入下一步骤;
(13)根据离线优化训练模块中最终获得的全局最优个体Gbest所表征的最优模型信息,构建工业互联网入侵检测在线检测模块中的最优自编码器网络模型;
(15)利用在线检测模块运行最优自编码器网络模型,对在线检测数据集Wtest进行在线入侵检测,分别按照公式(18)~(20)计算入侵检测的精准率、召回率、F1评分等性能指标;
Figure BDA0003967849230000121
Figure BDA0003967849230000122
Figure BDA0003967849230000123
其中,TP表示将正常工业互联网数据样本正确地预测为正常分类的数量,TN表示将异常工业互联网数据样本正确地预测为异常分类的数量,FP表示将异常工业互联网数据样本错误地预测为正常分类的数量,FN表示将正常工业互联网数据样本错误地预测为异常分类的数量。在本实施案例中,本发明技术获得的性能指标为:精确率=0.8356,召回率=0.9214,F1评分=0.8764;
通过对采用本发明技术与现有技术针对上述实施例的实验结果对比分析,如图5所示,其中,子图(a)是本发明技术与现有依赖人工经验设计设计的GDN(Graph NeuralNetwork-Based Anomaly Detection in Multivariate Time Series)、USAD(USAD:UnSupervised Anomaly Detection on Multivariate Time Series)的召回率指标对比图,子图(b)是本发明技术与GDN和USAD的F1评分指标对比图。不难发现:相比依赖人工经验设计的GDN和USAD等现有技术,本发明技术获得的召回率和F1评分等重要入侵检测性能指标均为最好的。
本专利的有益效果是:相比现有技术,采用本发明可以实现面向工业互联网入侵检测应用领域的自编码器模型的对抗式训练和自编码器模型的自动优化设计,提升了工业互联网入侵检测系统的设计稳定性和智能化设计水平;还提升了工业互联网系统入侵检测的召回率和F1评分等重要性能指标。

Claims (2)

1.一种基于自编码器网络模型优化的工业互联网对抗训练式无监督入侵检测系统,其特征在于,该系统包括工业互联网入侵检测的数据解压模块、数据预处理模块、自编码器网络模型离线优化模块和在线检测模块;
所述工业互联网入侵检测系统的数据解压模块包括数据采集和数据清洗两个子模块,其中数据采集模块的主要功能是将工业互联网系统的实时传感器等时序数据进行收集汇总,数据清洗模块的主要功能是使用谱残差技术对工业互联网时序数据中的每一个数据特征进行数据清洗;将数据清洗后的数据集输入到数据预处理模块,
所述数据预处理模块包括数据归一化和数据样本化两个子模块,其中数据归一化模块是通过计算数据集中每一维度的极值,以消除量纲达成加速优化过程的目的;数据样本化模块将长段时序数据划分为块状数据,生成最终数据集,将生成的最终数据集作为自编码器网络模型优化模块的输入;
所述自编码器网络模型离线优化模块是针对数据预处理模块产生的最终数据集,对自编码器网络模型进行二进制编码,利用二进制遗传优化技术,联合个体适应度评估模块,经过迭代优化后获得最优自编码器网络模型的架构及参数信息;同时将其输入到在线检测模块;
所述个体适应度评估模块,从自编码器网络模型离线优化模块中获得每个个体的编码信息,构建自编码器AE以及两个判别器D1和D2,通过三者对抗训练,依据自编码器AE重构损失判别验证集样本,计算验证集F1评分作为每个个体的适应度值,将每个个体的适应度值传送回自编码器网络模型离线优化模块;
所述在线检测模块,在接收到最优自编码器网络模型的架构和参数信息后,构建最优自编码器网络模型,对工业互联网实时通讯流量进行异常检测,并判别出样本是否异常。
2.一种应用权利要求1所述系统的基于自编码器网络模型优化的工业互联网入侵检测方法,其特征在于,包括以下步骤:
(1)权利要求1中所述工业互联网入侵检测系统中的数据解压模块,将工业互联网系统的实时传感器等时序数据进行收集汇总,将收集的数据标记为x,并使用公式(1)、公式(2)、公式(3)对数据进行傅里叶变换得到对数振幅谱;
A(f)=Amplitude(F(x)) (1)
P(f)=Phrase(F(x)) (2)
L(f)=Log(A(f)) (3)
其中F(x)表示对x的傅里叶变换;A(f)为输入序列x的振幅谱,P(f)为输入序列x的相位谱,L(f)为振幅谱A(f)的对数表示;使用公式(4)、公式(5)进行谱残差计算:
AL(f)=hq(f)·L(f) (4)
R(f)=L(f)-AL(f) (5)
其中,AL(f)为对数振幅谱L(f)的平均频谱,hq(f)为卷积操作,R(f)为谱残差;使用公式(6)利用傅里叶反变换将序列变换回空间域;
S(x)=||F-1(exp(R(f)+iP(f)))|| (6)
其中F-1()表示傅里叶反变换,将数据解压模块处理后的时序数据标记为S(x),i表示虚数单位;
权利要求1中所述工业互联网入侵检测系统中的数据预处理模块,在接收到S(x)数据后,按照公式(7)进行数据归一化处理,将归一化处理后获得的数据集标记为X;
Figure FDA0003967849220000021
其中,Xj表示数据集X第j维度的特征,Sj表示源数据集S中第j维度的特征,Sjmax表示源数据集S第j维度的特征的最大值,Sjmin表示源数据集S第j维度的特征的最小值,m表示数据集X的最大维度值;数据样本化是根据公式(8)使用时序滑动窗口截取一定时间段的时序数据产生时序样本Yi,再根据公式(9)每间隔一段距离收集Yi收录进W中;
Figure FDA0003967849220000022
Figure FDA0003967849220000023
其中,sw表示滑动窗口长度,ss表示滑动窗口间隔,Xi表示X中时间点i的所有维度的数据,M表示数据集X的长度;将数据样本化处理后获得的数据集标记为W;训练集标记为Wtrain,验证集标记为Wvali,测试集标记为Wtest
(2)设置基于自编码器网络模型优化的离线优化训练模块的参数值,所述参数值包括种群大小N、自编码器网络模型架构与超参数优化的迭代优化次数Gmax、自编码器网络模型训练的轮次E、自编码器网络模型潜在空间维度LD、二进制遗传优化求解器中的交叉率β、变异率σ;
(3)随机产生包含N个个体的初始种群P0,即P0={p1,…,pi,…,pN,1≤i≤N},其中pi表示P0中第i个个体,pi将待优化设计的自编码器网络模型的超参数和网络架构参数编码成一个BD维的二进制向量,pi位置的具体编码如公式(10)所示:
pi={b1,…,bd,…,bD},1≤d≤BD (10)
其中,bd表示自编码器网络模型的超参数和网络架构参数编码的第d位二进制数值,bd∈{0,1},将pi位置所对应的自编码器网络模型的超参数和网络架构参数标记为qi,即qi表示第i个个体所对应的自编码器网络模型超参数和网络架构参数的实数向量,其组成如公式(11)所示:
Figure FDA0003967849220000031
其中,[B,f,η]表示自编码器网络模型所采用的超参数,B代表自编码器网络模型训练时采用的批大小,f代表自编码器网络模型训练时所采用的优化器类型,f∈{adamax,adam,r msprop,adadelta},adamax表示自适应矩估计最大值优化(Adaptive MomentEstimation Max,Adamax),adam表示自适应矩估计(Adaptive Moment Estimation),rmsprop表示均方根反向传播(Root Mean Squre Propogation),adadelta表示在均方根反向传播的基础上,对相邻两步迭代的差值(即迭代增量)进行累计加权和的优化求解方法;η代表自编码器网络模型训练时采用的学习率大小;Ln代表自编码器网络模型中卷积层的层数,layerj代表第j层卷积层,1≤j≤nc,layerj的具体组成如公式(12)所示:
layerj=[ocj,ksj,ntj,afj], 1≤j≤Ln (12)
其中,ocj代表第j层卷积层的卷积核个数,ksj代表第j层卷积层的卷积核大小,ntj代表第j层卷积层的所接的归一化层类型,ntj∈{batchnorm,none},batchnorm代表批量标准化,none表示不做处理,afj代表第j层卷积层的激活函数类型,afj∈{sigmoid,tanh,relu,none},sigmoid表示S型函数,tanh表示双曲正切函数,relu表示线性整流函数;
(4)对种群P0进行性能评估,性能评估具体过程如下:将P0中每个个体所表征的超参数和网络架构实数qi转化为对应的自编码器网络模型AE,即利用qi的layerj相关卷积层参数逐层构建卷积层使其组成编码器AEE,并利用相同的参数镜像构建反卷积层使其组成解码器AED;同时使用预先设定好的判别器网络架构参数构建判别器D1和D2,将训练数据集Wtrain作为每个自编码器网络模型的数据输入,进行E轮次的离线对抗训练,所述具体步骤如下:
(4.1)针对判别器D1和编码器AEE进行对抗式训练,样本训练集Wtrain传入自编码器AE中,由编码器AEE产生样本潜在空间q(z);将潜在空间q(z)和先验分布p(z)作为判别器D1的输入,让D1判断输入是先验分布p(z)还是样本潜在空间q(z);其判断结果与真实标签对比,并依据公式(13)进行损失函数计算,再利用梯度下降技术对尽可能最大化LossD1,并对判别器D1进行权重更新,其目的在于,使D1具备区分潜在空间q(z)和先验分布p(z)的能力;
Figure FDA0003967849220000041
其中,z表示服从先验分布p(z)的变量,D1()表示判别器D1对变量的判定结果,E表示分布函数的期望值,pd(W)为数据样本W所服从的数据分布;
(4.2)针对判别器D2和自编码器AE进行对抗式训练,样本训练集Wtrain传入自编码器AE中,最终输出重构样本W',真实样本W和重构样本W'均作为判别器D2的输入,让判别器D2判别输入是真实样本W还是重构样本W';其判断结果与真实标签对比,并依据公式(14)进行损失函数计算,再利用梯度下降技术对尽可能最大化LossD2,并对判别器D2进行权重更新,其目的在于,使D2具备区分真实样本W和重构样本W'的能力;
Figure FDA0003967849220000042
其中,D2()表示判别器D2对变量的判定结果;
(4.3)采用公式(15)计算真实样本Wtrain和重构样本W'train的重构损失MSEtrain
Figure FDA0003967849220000043
其中MSE表示均方差损失,k表示样本W的总数量;再利用公式(16)计算AE的损失函数:
Figure FDA0003967849220000044
利用梯度下降技术尽可能最小化LossAE,并对自编码器AE进行权重更新,提高自编码器AE对样本的重构能力,同时强化其最终的检测能力;针对验证集Wvali进行E2轮次的验证测试,按照公式(15)获得每个个体对应的平均验证集重构损失MSEvali,统计出种群Pg中所有个体的平均验证集重构损失MSEvali,将种群Pg中最低MSEvali对应的个体标记为种群中最优个体G0best
(5)设置初始迭代次数g=1;
(6)将上一代种群Pg-1的最优个体G(g-1)best复制进当代种群Pg中;
(7)进行竞标赛方案的选择操作,即首先使用均匀分布的概率选取上一代种群Pg-1三个个体pa,pb,pc,选择pa,pb,pc三个个体中适应度最高的两个个体作为父代,并将其标记为pd和pe
(8)使用公式(17)均匀分布生成一串与遗传个体相同长度的随机数组r1,数组r1每一位r1d的为使用正态分布产生的0~1的随机实数;对于数组r1的每一位r1d判断其是否小于预先设定的交叉率β,如果成立,则父母pd和pe的个体编码中第d位进行交叉操作,即pd和pe第d位的个体编码进行交换;交叉后的两个个体记为子代,并将其标记为c1和c2
r1={r11,…,r1d,…,r1D},1≤d≤BD,0≤r1d≤1 (17)
其中,r11,r1d,r1D分别表示随机数组r1中第1维,第d维,第BD维数值;
(9)均匀分布生成两串与遗传个体相同长度的随机数组r2和r3,即r2={r21,…,r2d,…,r2D},1≤d≤BD,0≤r2d≤1,r3={r31,…,r3d,…,r3D},1≤d≤BD,0≤r3d≤1;对于数组r2的每一位r2d判断其是否小于预先设定的变异率σ,如果成立,则子代c1中第d维编码数值取反;对于数串r3的每一位r3d判断其是否小于预先设定的变异率σ,如果成立,则子代c2在中第d维编码数值取反;最后将子代c1和c2添加进当代种群Pg中;
(10)重复步骤(6)~(9)直至当代种群Pg大小到达预先设定的种群大小N;
(11)按照步骤(4)所述的性能评估过程,对Pg中的每个个体Pg进行性能评估,获得Pg中最优个体,将其标记为Ggbest
(12)若g<Gmax,则更新g=g+1,重复步骤(6)~步骤(11);否则,则直接进入下一步骤;
(13)根据离线优化训练模块中最终获得的全局最优个体Gbest所表征的最优模型信息,构建工业互联网入侵检测在线检测模块中的最优自编码器网络模型;
(15)利用在线检测模块运行最优自编码器网络模型,对在线检测数据集Wtest进行在线入侵检测,分别按照公式(18)~(20)计算入侵检测的精准率、召回率、F1评分等性能指标;
Figure FDA0003967849220000051
Figure FDA0003967849220000052
Figure FDA0003967849220000053
其中,TP表示将正常工业互联网数据样本正确地预测为正常分类的数量,TN表示将异常工业互联网数据样本正确地预测为异常分类的数量,FP表示将异常工业互联网数据样本错误地预测为正常分类的数量,FN表示将正常工业互联网数据样本错误地预测为异常分类的数量。
CN202211504988.6A 2022-11-28 2022-11-28 基于ae模型优化的对抗训练式无监督入侵检测系统及方法 Pending CN116318773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211504988.6A CN116318773A (zh) 2022-11-28 2022-11-28 基于ae模型优化的对抗训练式无监督入侵检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211504988.6A CN116318773A (zh) 2022-11-28 2022-11-28 基于ae模型优化的对抗训练式无监督入侵检测系统及方法

Publications (1)

Publication Number Publication Date
CN116318773A true CN116318773A (zh) 2023-06-23

Family

ID=86801974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211504988.6A Pending CN116318773A (zh) 2022-11-28 2022-11-28 基于ae模型优化的对抗训练式无监督入侵检测系统及方法

Country Status (1)

Country Link
CN (1) CN116318773A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117686937A (zh) * 2024-02-02 2024-03-12 河南科技学院 一种用于电池系统内单体电池的健康状态估计方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117686937A (zh) * 2024-02-02 2024-03-12 河南科技学院 一种用于电池系统内单体电池的健康状态估计方法
CN117686937B (zh) * 2024-02-02 2024-04-12 河南科技学院 一种用于电池系统内单体电池的健康状态估计方法

Similar Documents

Publication Publication Date Title
CN112884056A (zh) 基于优化的lstm神经网络的污水水质预测方法
CN106055918A (zh) 一种电力系统负荷数据辨识及修复方法
CN106503867A (zh) 一种遗传算法最小二乘风电功率预测方法
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN109190839B (zh) 一种融合风向的铁路沿线风速智能滚动预测方法
CN109583588B (zh) 一种短期风速预测方法及系统
CN109726747A (zh) 基于社交网络推荐平台的数据融合排序方法
CN117056874B (zh) 一种基于深度孪生自回归网络的无监督窃电检测方法
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN110020712A (zh) 一种基于聚类的优化粒子群bp网络预测方法和系统
CN116318773A (zh) 基于ae模型优化的对抗训练式无监督入侵检测系统及方法
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN102680646A (zh) 一种不饱和聚酯树脂反应釜中反应物浓度软测量方法
CN113591078B (zh) 基于卷积神经网络架构优化的工控入侵检测系统及方法
CN116432697A (zh) 一种融合长短期记忆网络与注意力机制的时间序列预测方法
CN113159139B (zh) 一种基于改进声发射密度聚类的伤损状态诊断方法
CN112766537B (zh) 一种短期电负荷预测方法
CN112749211B (zh) 一种基于电力大数据的茶叶产量预测新方法
CN117290673A (zh) 一种基于多模型融合的船舶能耗高精度预测系统
CN111310974A (zh) 一种基于ga-elm的短期需水预测方法
CN115412332B (zh) 基于混合神经网络模型优化的物联网入侵检测系统及方法
CN115496153A (zh) 多头自注意力的深度卷积嵌入聚类风光荷联合场景方法
CN115102868A (zh) 一种基于SOM聚类与深度自编码器的web服务QoS预测方法
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
CN114626594A (zh) 一种基于聚类分析和深度学习的中长期电量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination