CN114726614A - 一种基于条件变分自编码器和SENet的XSS攻击检测方法 - Google Patents

一种基于条件变分自编码器和SENet的XSS攻击检测方法 Download PDF

Info

Publication number
CN114726614A
CN114726614A CN202210356162.3A CN202210356162A CN114726614A CN 114726614 A CN114726614 A CN 114726614A CN 202210356162 A CN202210356162 A CN 202210356162A CN 114726614 A CN114726614 A CN 114726614A
Authority
CN
China
Prior art keywords
data
encoder
model
senet
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210356162.3A
Other languages
English (en)
Other versions
CN114726614B (zh
Inventor
凌捷
林雍博
罗玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210356162.3A priority Critical patent/CN114726614B/zh
Publication of CN114726614A publication Critical patent/CN114726614A/zh
Application granted granted Critical
Publication of CN114726614B publication Critical patent/CN114726614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明公开了一种基于条件变分自编码器和SENet的XSS攻击检测方法,包括以下步骤:获取攻击样本数据并进行数据预处理,将预处理后的数据映射至设定的区域;构建条件变分自编码器CVAE模型,利用得到的数字数据训练条件变分自编码器CVAE模型,并将训练好的模型的编码器作为特征提取器;构建SENet模型,利用特征提取器对预处理后的数据进行采样得到特征,利用特征训练SENet模型,得到分类器;提取待检测攻击数据的特征,输入至分类器,输出分类结果,完成XSS攻击检测。本方法与传统的XSS攻击检测的方法相比,结合了条件变分自动编码器的特点和SENet的优点提升了学习数据的表征能力,提高了XSS攻击检测的准确率。

Description

一种基于条件变分自编码器和SENet的XSS攻击检测方法
技术领域
本发明涉及网络安全领域,更具体地,涉及一种基于条件变分自编码器和SENet的XSS攻击检测方法。
背景技术
近年来随着信息技术的不断发展,互联网已经极大地改变了人们的生活方式。如上网购物,扫码点餐,出门骑共享单车,微信上订购酒店,衣食住行,人们已经离不开互联网。因而互联网的安全稳定与每个人都息息相关。一个安全稳定的网络对于我们是必不可少的,网络安全已经成为现代信息社会中最重要的需求之一。而在Web领域中,根据国家信息安全漏洞库(CNNVD)机构的统计,XSS漏洞的占比一直排在前列。然而,目前检测网络攻击的手段还是比较单一,并且效率低下。伴随着互联网数据总量的大量增长,网络威胁的手段也愈发隐秘,当前形势下传统的网络威胁检测技术已经面临新的挑战。
而近几年,深度学习的得到快速发展,如何将深度学习应用到网络安全中,利用深度学习技术来帮助我们检测网络中的威胁是一个值得研究的问题。其中,变分自编码器(Variational auto-encoder,VAE)是一类重要的生成模型(generative model),与AE(auto-encoder)不同的是,AE中间输出的是隐变量的具体取值,而VAE中间要输出的是隐变量Z的具体分布情况。为了重构样本,VAE的编码器encoder得深度学习数据样本的深层特征才能给解码器decoder提供有用的数据,因此可将训练好的VAE编码器encoder作为特征提取器。另外,在卷积神经网络中,通过引入注意力机制SE模块可帮助模型提高训练效率,SENet(Squeeze-and-Excitation Networks)主要是学习了通道域channel之间的相关性,筛选出了针对通道的注意力,稍微增加了一点计算量,但是能达到更高的检测准确率和更大的检测范围。
现有技术公开了一种基于深度学习模型优化的XSS漏洞检测方法,该方案利用Python爬取Web页面源码,并基于XSS攻击向量指令表对页面进行XSS漏洞检测的方法。该方法的缺陷是,只能根据现有已知的XSS攻击类别提取攻击向量并针对Web页面攻击来检测是否存在漏洞。
现有技术中还公开了一种基于条件变分自编码器的未知网络攻击检测方法,该方案基于条件变分自编码器和深度学习对网络流量进行检测是否存在网络攻击的方法,其结构包括两组编码器和解码器,并以后验编码器作为针对未知攻击的分类器,采用了深度学习的方法,是与本申请最为接近的现有技术。该方案的缺陷是,无法针对检测的数据做更进一步的处理,最终检测XSS攻击的成功率不高,可检测的范围也不够广泛。
为此,结合以上特点和现有技术缺陷,本申请提出了一种基于条件变分自编码器和SENet的XSS攻击检测方法。
发明内容
本发明为克服上述现有技术所述的检测XSS攻击效率低,准确率低,检测范围小和检测手段单一的缺陷,提供了一种基于条件变分自编码器和SENet的XSS攻击检测方法。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
一种基于条件变分自编码器和SENet的XSS攻击检测方法,包括以下步骤:
S1、获取攻击样本数据并进行数据预处理,将预处理后的数据映射至设定的区域;
S2、构建条件变分自编码器CVAE模型,利用所述步骤S1得到的数字数据训练条件变分自编码器CVAE模型,并将训练好的模型的编码器作为特征提取器;
S3、构建SENet模型,利用所述特征提取器对步骤S1得到的数据进行采样得到设定维度隐变量的特征,利用得到的特征训练SENet模型,得到分类器;
S4、提取待检测攻击数据的特征,输入至分类器,输出分类结果完成XSS攻击检测。
进一步的,所述步骤S1的数据预处理过程,包括:
S1-1、收集攻击样本中可能出现的所有字符,汇编成一个字符字典;
S1-2、根据字典对攻击样本数据进行映射,将字符数据转化为数字数据,对未收集到的数据标记为unk;
S1-3、将转化后的数字数据映射到设定区间。
进一步的,所述预处理过程会通过设定数字数据的单位长度将字符数据转化为数字数据,对未收集到的数据标记为unk。
更进一步的,设定区间的目的是帮助条件变分自编码器CVAE模型进行学习重构数据,使重构的损失值在学习的过程中避免发散且过早收敛。
进一步的,所述步骤S2,包括:
S2-1、构建条件变分自编码器CVAE模型,该模型包括编码器encoder和解码器decoder;
S2-2、对步骤S1所述预处理后的数据进行采样,训练所述CVAE模型,构建损失函数Loss计算采样数据和重构数据的误差,定义优化函数RMSprop优化模型直至重构误差小于预设值,得到训练后的CVAE模型;
S2-3、将训练后的CVAE模型中编码器encoder作为数据样本的特征提取器,该特征提取器能够在设定维度数值后,输出设定维度隐变量的特征。
进一步的,所述编码器encoder包括一个输入层和一个输出层,所述输入层包括一个全连接层、一个非饱和激活函数ReLU,所述输出层分为两层,分别为一层学习输出分布平均数mean和一层学习输出分布方差var。
进一步的,所述解码器包括一个输入层和一个输出层,输入层包括一个全连接层、一个非饱和激活函数ReLU,输出层包括一个全连接层、一个激活函数Sigmoid。
进一步的,所述损失函数Loss表达式为:
Loss=-Eq(z|x)[logp(x|z)]+KL(q(z|x)p(z))
其中,Eq(z|x)logp(x|z)表示重构误差,所述重构误差用于鼓励解码器学习重建数据;KL(q(z|x)p(z))表示正则化器,所述正则化器用于计算编码器q(z|x)和p(z)分布之间的KL散度;所述优化函数RMSprop用于优化CVAE模型直至损失值小于设定值。
更进一步的,编码器encoder采用条件概率分布指导模型学习特征,其功能是学习隐变量Z的空间分布函数的均值和方差。
其中,所述维度数值能够根据需求进行设置。
进一步的,所述步骤S3,包括:
S3-1、创建SENet模型;
S3-2、利用步骤S2得到的所述特征提取器对步骤S1得到的数据进行采样,得到一组设定维度隐变量Z的特征;
S3-3、将所述设定维度隐变量Z的特征输入SENet模型,定义优化函数RMSprop和损失函数交叉熵对模型进行训练优化,进行数次训练得到分类器。
进一步的,所述SENet模型由引入了注意力机制SE模块的一维卷积神经网络CNN模型和两个全连接层组成;所述SENet模型从输入到输出包括的结构依次为:第一卷积层、第一激活函数ReLU、第一注意力机制模块SE、第二卷积层、第二激活函数ReLU、最大池化层、第三卷积层、第三激活函数ReLU、第二注意力机制模块SE、第一全连接层、第二全连接层;其中注意力机制模块SE中,超参数reduction均设置为16。
进一步的,将预训练得到的特征提取器对训练数据进行采样,得到设定维度隐变量Z的特征,再将获得的特征作为SENet模型的输入数据,对模型进行训练,优化网络参数,最终得到分类器。
进一步的,所述输出分类结果包括两种,其值为0和1;其中0代表未接收到XSS攻击信号,1代表接收并检测到XSS攻击信号。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于条件变分自编码器和SENet的XSS攻击检测方法,通过数据预处理将字符数据转化为数字数据,保留原始的数据信息且不需要通过额外的词向量预训练来学习文本信息,使得可检测范围更加广泛;通过构建变分自编码器CVAE模型,进而得到特征提取器,该特征提取器可以学习到从原始数据到数据表征之间的映射关系,最大化从数据样本中获取的有效信息;同时利用SENet模型对提取的特征进行进一步分析,可以学习特征图之间的相互依赖关系,同时结合全局损失函数实现以不同权重获取隐变量特征图不同侧重点,提高了攻击检测的准确率和效率。
附图说明
图1为本发明一种基于条件变分自编码器和SENet的XSS攻击检测方法流程图。
图2为本发明一种基于条件变分自编码器和SENet的XSS攻击检测方法的系统框架图。
图3为本发明的条件变分自编码器CVAE模型结构示意图。
图4为SENet模型的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供了一种基于条件变分自编码器和SENet的XSS攻击检测方法,该方法使用条件变分自编码器进行表征学习,能自动提取数据样本的高维特征,即学习到从原始数据到数据表征之间的映射,最大化从数据样本中获取的有效信息。随后在卷积神经网络中引入注意力学习机制学习特征图feature map之间的相互依赖关系,并通过网络的全局损失函数自适应的重新纠正通道之间的特征相应强度。
实施例1:
如图1-图2所示,本发明提供了一种基于条件变分自编码器和SENet的XSS攻击检测方法,首先参考字符级卷积对数据进行预处理,然后利用条件变分自编码器对数据进行预训练,最后利用带注意力的卷积神经网络SENet对数据样本进行分类,包括以下步骤:
S1、获取攻击样本数据并进行数据预处理,将预处理后的数据映射至设定的区域;
S2、构建条件变分自编码器CVAE模型,利用所述步骤S1得到的数字数据训练条件变分自编码器CVAE模型,并将训练好的模型的编码器作为特征提取器;
S3、构建SENet模型,利用所述特征提取器对步骤S1得到的数据进行采样得到设定维度隐变量的特征,利用特征训练SENet模型,得到分类器;
S4、提取待检测攻击数据的特征,输入至分类器,输出分类结果完成XSS攻击检测。
进一步的,所述步骤S1的数据预处理过程,包括:
S1-1、收集攻击样本中可能出现的所有字符,汇编成一个字符字典;
S1-2、根据字典对攻击样本数据进行映射,将字符数据转化为数字数据,对未收集到的数据标记为unk;
S1-3、将转化后的数字数据映射到设定区间。
进一步的,所述预处理过程会通过设定数字数据的单位长度将字符数据转化为数字数据,对未收集到的数据标记为unk。
其中,设定数字数据单位长度的目的是,方便后续训练条件变分自编码器CVAE模型;单位长度可以自由设定,在本方案中设置为1024。
更进一步的,设定区间的目的是帮助条件变分自编码器CVAE模型进行学习重构数据,使重构的损失值在学习的过程中避免发散且过早收敛。
其中,设定区间可以通过实验测试获得。
进一步的,所述步骤S2,包括:
S2-1、构建条件变分自编码器CVAE模型,该模型包括编码器encoder和解码器decoder;
S2-2、对步骤S1所述预处理后的数据进行采样,训练所述CVAE模型,构建损失函数Loss计算采样数据和重构数据的误差,定义优化函数RMSprop优化模型直至重构误差小于预设值,得到训练后的CVAE模型;
S2-3、将训练后的CVAE模型中编码器encoder作为数据样本的特征提取器,该特征提取器能够在设定维度数值后,输出设定维度隐变量的特征。
进一步的,所述编码器encoder包括一个输入层和一个输出层,所述输入层包括一个全连接层、一个非饱和激活函数ReLU,所述输出层分为两层,分别为一层学习输出分布平均数mean和一层学习输出分布方差var。
进一步的,所述解码器包括一个输入层和一个输出层,输入层包括一个全连接层、一个非饱和激活函数ReLU,输出层包括一个全连接层、一个激活函数Sigmoid。
其中,所述编码器encoder是用于学习隐变量(latent variable)Z的空间分布函数的均值和方差,再通过对该分布进行采样获得隐变量Z,最后再通过解码器decoder根据隐变量Z重构出x样本。概率公式如下:
Figure BDA0003582938850000071
具体来说,训练数据的一个输入数据样本X将被编码成一个向量vector,这个向量vector中的每一维度就是一些该样本的属性。
所述解码器decoder的作用刚好与编码器encoder相反,它可以通过接收一个隐变量latent vector,并且将其重新变回到原样本空间上去。概率公式如下:
Figure BDA0003582938850000072
另外,CVAE在进行编码器数据输入的时候,将数据内容与其自身标签合并一起输入,在获得隐变量(latentvariable)Z后,再将隐变量Z与自身标签label合并输入解码器decoder,从而获得想生成的指定数据,CVAE模型结构图如图2所示。
其中,图2中的X为输入值,X’就是重构的X值,X’用于计算重构误差。CVAE是自编码器,包含编码和解码的功能,假设编码后的值为Z,那么解码后就为X’,因为解码后的X不能保证和原来的一模一样,因此利用损失函数Loss和优化函数RMSprop不断对CVAE模型进行训练拟合,使X’和X的差别越来越小,达到优化算法的目的。
进一步的,所述损失函数Loss表达式为:
Loss=-Eq(z|x)[logp(x|z)]+KL(q(z|x)p(z))
其中,Eq(z|x)logp(x|z)表示重构误差,所述重构误差用于鼓励解码器学习重建数据;KL(q(z|x)p(z))表示正则化器,所述正则化器用于计算编码器q(z|x)和p(z)分布之间的KL散度;所述优化函数RMSprop用于优化CVAE模型直至损失值小于设定值。
其中,所述重构误差的作用在于鼓励解码器学习重建数据,如果解码器的输出不能很好的重建数据,从统计学上来讲,可以理解为编码器在真实数据进行参数化的似然分布概率质量不大。例如,如果该模型的目标是为黑白图像建模,然而模型将高概率的黑点放在实际存在的白点上,将产生最差的重建。低质量的重建将在损失函数中产生巨大的成本。其中,所述KL散度主要用于衡量使用q代表p时丢失了多少信息,其是衡量q到p距离的一种标准。
更进一步的,编码器encoder采用条件概率分布指导模型学习特征,其功能是学习隐变量Z的空间分布函数的均值和方差。
其中,所述输出隐变量Z的维度能够自由设置,其取值可为2到14等。
优选的,本方案所述隐变量Z的维度设为10。
进一步的,所述步骤S3,包括:
S3-1、创建SENet模型;
S3-2、利用步骤S2得到的所述特征提取器对步骤S1得到的数据进行采样,得到一组设定维度隐变量Z的特征;
S3-3、将所述设定维度隐变量Z的特征输入SENet模型,定义优化函数RMSprop和损失函数交叉熵对模型进行训练优化,进行数次训练得到分类器。
其中,所述创建SENet模型,首先创建一个一维的卷积神经网络CNN模型,然后对卷积层引入注意力机制模块SE,最后通过全连接层进行分类输出。
进一步的,所述SENet模型由引入了注意力机制模块SE的一维卷积神经网络CNN模型和两个全连接层组成;所述SENet模型从输入到输出包括的结构依次为:第一卷积层、第一激活函数ReLU、第一注意力机制模块SE、第二卷积层、第二激活函数ReLU、最大池化层、第三卷积层、第三激活函数ReLU、第二注意力机制模块SE、第一全连接层、第二全连接层;其中在注意力机制模块SE中,超参数reduction均设置为16。
其中,经过SENet模型的具体数据流向如图4所示:首先将特征提取器得到的特征输入到一维的卷积层并采用ReLU激活函数进行激活,然后通过SE注意力机制模块矫正各通道权重,再进行卷积和激活,然后通过最大池化层进行下采样,再进行卷积层和激活,再通过SE注意力机制模块重新进行矫正,最后依次通过两个全连接层进行分类输出。
其中,所述SE模块用于对设定维度隐变量Z的特征卷积得到的特征图feature map进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将评价分数乘以对应的通道,从而获得了权重不一样的特征图feature map。
进一步的,利用预训练得到的特征提取器对训练数据进行采样,得到一组隐变量Z的维度为10的特征,再将获得的特征作为SENet模型的输入数据,定义损失函数为交叉熵,优化函数为RMSprop对模型进行训练优化,执行50个epoch后,测试得损失值低于0.001,攻击检测准确率达到94%以上。
进一步的,所述输出分类结果包括两种,其值为0和1;其中0代表未接收到XSS攻击信号,1代表接收并检测到XSS攻击信号。
实施例2
基于上述实施例1,在隐变量Z的输出维度设为6的时候,使用特征选取器对训练数据进行采样,得到一组隐变量Z的维度为6的特征,再将获得的特征作为SENet模型的输入数据,定义损失函数为交叉熵,优化函数为RMSprop对模型进行训练优化,执行50个epoch后,测试得损失值为0.002,攻击检测准确率为90%。
实施例3
如图1所示,本发明提供了一种基于条件变分自编码器和SENet的XSS攻击检测方法,该方法能通过条件变分自编码器CVAE学习XSS攻击的表征数据,随后在卷积神经网络中引入注意力机制学习特征图feature map之间的相互依赖关系,最后通过两个全连接层对数据样本进行分类。
本发明具体流程如下步骤:
Ⅰ、数据预处理
(1)收集攻击样本可能出现的所有字符,汇编成一个字符字典。例如:
"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789,;.!?:'\"/\\|_@#$%^&*~`+-=<>()[]{}"
(2)根据字典对将要进行训练和测试的数据进行映射,将字符数据转化为数字,对未收集到的数据标记为unk;
例如攻击样本:
“city%3D1%26sheriff%3D1%26beg_date%3D01/01/2006%26title%3D1%26phrase%3D%27%22%3E%3C/title%3E%3Cscript%3Ealert%281337%29%3C/script%3E%3E%3Cmarquee%3E%3Ch1%3EXSS%2Bby%2BXylitol%3C/h1%3E%3C/marquee%3E%26xsubmit%3DSearch%3A”
转化为:
“29,35,46,51,78,56,4,54,78,55,59,45,34,31,44,35,32,32,78,56,4,54,78,55,59,28,31,33,74,30,27,46,31,78,56,4,53,54,71,53,54,71,55,53,53,59,78,55,59,46,35,46,38,31,78,56,4,54,78,55,59,42,34,44,27,45,31,78,56,4,78,55,60,78,55,55,78,56,5,78,56,3,71,46,35,46,38,31,78,56,5,78,56,3,45,29,44,35,42,46,78,56,5,27,38,31,44,46,78,55,61,54,56,56,60,78,55,62,78,56,3,71,45,29,44,35,42,46,78,56,5,78,56,5,78,56,3,39,27,44,43,47,31,31,78,56,5,78,56,3,34,54,78,56,5,24,19,19,78,55,2,28,51,78,55,2,24,51,38,35,46,41,38,78,56,3,71,34,54,78,56,5,78,56,3,71,39,27,44,43,47,31,31,78,56,5,78,55,59,50,45,47,28,39,35,46,78,56,4,19,31,27,44,29,34,78,56,1”
(3)将转换后的数据映射在某个特定的区间,如在char_dict[char]=(i+1)/50。
Ⅱ、预训练
(1)创建条件变分自编码器CVAE模型
构建条件变分自编码器CVAE模型的结构如图2所示,其中编码器encoder和解码器decoder的结构如下:
编码器:输入层包含一个全连接层,一个激活函数ReLU,输出层分为两层,一层学习输出分布均值mean,一层学习输出分布方差var,隐变量Z的输出维度能够设为10,经实验测得为本方案优选方案,效果较为不错。
解码器:输入层包含一个全连接层,一个激活函数ReLU,输出层含一个全连接层,一个激活函数Sigmoid。
(2)训练该条件变分自编码器CVAE模型
对训练数据进行采样,训练该CVAE模型,定义优化函数为RMSprop,优化编码器encoder网络和解码器decoder网络,计算重构误差,执行5~10个epoch直至损失值小于特定的值。
(3)选取特征提取器
将条件变分自编码器CVAE的编码器encoder当成数据样本的特征提取器。
Ⅲ、分类
(1)创建SENet模型:结构示意图如图4所示,输入层为一个一维的卷积层,一个ReLU激活层,然后连接一个标准的SE注意力机制模块,超参数reduction设置为16,再接入一个一维的卷积层,一个ReLU激活层,再接入一个最大池化层,然后再接入一个一维的卷积层,一个ReLU激活层,后面再连接一个标准的SE注意力机制模块,超参数reduction同样设置为16,最后通过两个全连接层进行分类输出,具体参数如表1所示。
表1 SENet模型参数表
Figure BDA0003582938850000111
(2)训练模型:将预训练得到的特征提取器对训练数据进行采样,得到一组隐变量Z维度为10的特征,再将获得的特征作为SENet模型的输入数据,定义损失函数为交叉熵,优化函数为RMSprop对模型进行训练优化,执行50个epoch后,测得损失值低于0.001,检测攻击准确率达到94%以上,最终得到分类器,通过该分类器可对XSS攻击进行检测,当分类器接收到数据时会进行分类,输出0代表正常数据,输出1则代表XSS攻击数据。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,包括以下步骤:
S1、获取攻击样本数据并进行数据预处理,将预处理后的数据映射至设定的区域;
S2、构建条件变分自编码器CVAE模型,利用所述步骤S1得到的数字数据训练条件变分自编码器CVAE模型,并将训练好的模型的编码器作为特征提取器;
S3、构建SENet模型,利用所述特征提取器对步骤S1得到的数据进行采样得到设定维度隐变量的特征,利用得到的特征训练SENet模型,得到分类器;
S4、提取待检测攻击数据的特征,输入至分类器,输出分类结果,完成XSS攻击检测。
2.根据权利要求1所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述步骤S1的数据预处理过程,包括:
S1-1、收集攻击样本中可能出现的所有字符,汇编成一个字符字典;
S1-2、根据字典对攻击样本数据进行映射,将字符数据转化为数字数据,对未收集到的数据标记为unk;
S1-3、将转化后的数字数据映射到设定区间。
3.根据权利要求2所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,预处理过程中通过设定数字数据的单位长度将字符数据转化为数字数据,对未收集到的数据标记为unk;
设定区间的目的是帮助条件变分自编码器CVAE模型进行学习重构数据,使重构的损失值在学习的过程中避免发散且过早收敛。
4.根据权利要求1所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述步骤S2,包括:
S2-1、构建条件变分自编码器CVAE模型,该模型包括编码器encoder和解码器decoder;
S2-2、对步骤S1所述预处理后的数据进行采样,训练步骤S2-1所述CVAE模型,构建损失函数Loss计算采样数据和重构数据的误差,定义优化函数RMSprop优化模型直至重构误差小于预设值,得到训练后的CVAE模型;
S2-3、将训练后的CVAE模型中编码器encoder作为数据样本的特征提取器,所述特征提取器能够在设定维度数值后,输出设定维度隐变量的特征。
5.根据权利要求4所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述编码器encoder和解码器decoder,其特征在于,所述编码器encoder包括一个输入层和一个输出层,所述输入层包括一个全连接层、一个非饱和激活函数ReLU,所述输出层分为两层,分别为一层学习输出分布平均数mean和一层学习输出分布方差var;
所述解码器包括一个输入层和一个输出层,输入层包括一个全连接层、一个非饱和激活函数ReLU,输出层包括一个全连接层、一个激活函数Sigmoid。
6.根据权利要求4的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述损失函数Loss表达式为:
Loss=-Eq(z|x)[logp(x|z)]+KL(q(z|x)p(z))
其中,Eq(z|x)logp(x|z)表示重构误差,所述重构误差用于鼓励解码器学习重建数据;KL(q(z|x)p(z))表示正则化器,所述正则化器用于计算编码器q(z|x)和p(z)分布之间的KL散度;所述优化函数RMSprop用于优化CVAE模型直至损失值小于设定值。
7.根据权利要求5所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,编码器encoder采用条件概率分布指导模型学习特征,其功能是学习隐变量Z的空间分布函数的均值和方差。
8.根据权利要求1所述一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述步骤S3,包括:
S3-1、创建SENet模型;
S3-2、利用步骤S2得到的所述特征提取器对步骤S1得到的数据进行采样,得到一组设定维度隐变量Z的特征;
S3-3、将所述设定维度隐变量Z的特征输入SENet模型,定义优化函数RMSprop和损失函数交叉熵对模型进行训练优化,进行数次训练得到分类器。
9.根据权利要求8所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述SENet模型由引入了注意力机制SE模块的一维卷积神经网络CNN模型和两个全连接层组成;所述SENet模型从输入到输出包括的结构依次为:第一卷积层、第一激活函数ReLU、第一注意力机制模块SE,第二卷积层、第二激活函数ReLU、最大池化层、第三卷积层、第三激活函数ReLU、第二注意力机制模块SE、第一全连接层、第二全连接层;其中在注意力机制模块SE中,超参数reduction均设置为16。
10.根据权利要求1所述的一种基于条件变分自编码器和SENet的XSS攻击检测方法,其特征在于,所述输出分类结果包括两种,其值为0和1;其中0代表未接收到XSS攻击信号,1代表接收并检测到XSS攻击信号。
CN202210356162.3A 2022-04-06 2022-04-06 一种基于条件变分自编码器和SENet的XSS攻击检测方法 Active CN114726614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210356162.3A CN114726614B (zh) 2022-04-06 2022-04-06 一种基于条件变分自编码器和SENet的XSS攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210356162.3A CN114726614B (zh) 2022-04-06 2022-04-06 一种基于条件变分自编码器和SENet的XSS攻击检测方法

Publications (2)

Publication Number Publication Date
CN114726614A true CN114726614A (zh) 2022-07-08
CN114726614B CN114726614B (zh) 2023-05-23

Family

ID=82242454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210356162.3A Active CN114726614B (zh) 2022-04-06 2022-04-06 一种基于条件变分自编码器和SENet的XSS攻击检测方法

Country Status (1)

Country Link
CN (1) CN114726614B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314331A (zh) * 2020-02-05 2020-06-19 北京中科研究院 一种基于条件变分自编码器的未知网络攻击检测方法
CN111967502A (zh) * 2020-07-23 2020-11-20 电子科技大学 一种基于条件变分自编码器的网络入侵检测方法
US20210334656A1 (en) * 2018-09-05 2021-10-28 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and system for anomaly detection and/or predictive maintenance
CN114168938A (zh) * 2021-10-29 2022-03-11 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210334656A1 (en) * 2018-09-05 2021-10-28 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and system for anomaly detection and/or predictive maintenance
CN111314331A (zh) * 2020-02-05 2020-06-19 北京中科研究院 一种基于条件变分自编码器的未知网络攻击检测方法
CN111967502A (zh) * 2020-07-23 2020-11-20 电子科技大学 一种基于条件变分自编码器的网络入侵检测方法
CN114168938A (zh) * 2021-10-29 2022-03-11 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
栗刚;孙中军;翟江涛;戴跃伟;: "一种基于条件变分自编码器的加密流量识别方法" *

Also Published As

Publication number Publication date
CN114726614B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111476294B (zh) 一种基于生成对抗网络的零样本图像识别方法及系统
CN109241536B (zh) 一种基于深度学习自注意力机制的句子排序方法
CN111859978B (zh) 一种基于深度学习的情感文本生成方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113537110B (zh) 一种融合帧内帧间差异的虚假视频检测方法
Zhao et al. Disentangled representation learning and residual GAN for age-invariant face verification
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
Zhu et al. Topic-guided attention for image captioning
CN116150747A (zh) 基于cnn和sltm的入侵检测方法及装置
Hu et al. Semi-supervised learning based on GAN with mean and variance feature matching
Melo et al. Deep learning approach to generate offline handwritten signatures based on online samples
Yuan et al. Semantic distance adversarial learning for text-to-image synthesis
Li et al. Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning
CN117152504A (zh) 一种空间相关性引导的原型蒸馏小样本分类方法
CN114726614B (zh) 一种基于条件变分自编码器和SENet的XSS攻击检测方法
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
CN115619445A (zh) 一种基于改进Transformer模型的时尚趋势预测方法
CN112598662A (zh) 一种基于隐藏信息学习的图像美学描述生成方法
Chen et al. Social robot detection using roberta classifier and random forest regressor with similarity analysis
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与系统
CN117892841B (zh) 基于渐进式联想学习的自蒸馏方法及系统
Zhao et al. Face Verification Between ID Document Photos and Partial Occluded Spot Photos
Berrahal et al. A Comparative Analysis of Fake Image Detection in Generative Adversarial Networks and Variational Autoencoders
CN113221872B (zh) 生成对抗网络与多模态融合的假新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant