CN111726350A - 基于vae和bpnn的内部威胁检测方法 - Google Patents

基于vae和bpnn的内部威胁检测方法 Download PDF

Info

Publication number
CN111726350A
CN111726350A CN202010550586.4A CN202010550586A CN111726350A CN 111726350 A CN111726350 A CN 111726350A CN 202010550586 A CN202010550586 A CN 202010550586A CN 111726350 A CN111726350 A CN 111726350A
Authority
CN
China
Prior art keywords
data
vae
user behavior
bpnn
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010550586.4A
Other languages
English (en)
Other versions
CN111726350B (zh
Inventor
陶晓玲
邱麒麒
陈隆生
卢深
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010550586.4A priority Critical patent/CN111726350B/zh
Publication of CN111726350A publication Critical patent/CN111726350A/zh
Application granted granted Critical
Publication of CN111726350B publication Critical patent/CN111726350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于VAE和BPNN的内部威胁检测方法,首先获取原始用户行为数据,并进行特征提取和归一化处理,得到用户行为数据;其次对归一化后的训练数据进行VAE预训练,通过网络反向传播最小化损失值提取原始特征信息,构建正常用户行为特征模型,同时得到VAE模型;接着将归一化后的所有用户行为数据全部输入到移除解码器后的VAE模型中,得到输出数据;最后将所述输出数据输入BPNN网络进行威胁检测,并根据检测结果和正常用户行为特征模型判断检测结果是否异常,减少误报和漏报,提高检测效率。

Description

基于VAE和BPNN的内部威胁检测方法
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于VAE和BPNN的内部威胁检测方法。
背景技术
随着云计算和大数据的飞速发展,上网单位和网络基础应用也日益增多,网络系统已经成为构成国家发展和人民生活中不可分割的一部分。但是随着数字化转型步入深水区,大数据、云计算、物联网等基础应用持续深入,数据泄露、高危漏洞、网络攻击等网络安全问题也呈现出复杂、多样化的特征,使得国家关键基础设施安全、公民隐私安全甚至社会稳定受到严峻挑战。其中,内部威胁是越来越令人担忧而又深感困惑的领域。通常情况下,人们习惯将资源用于对抗外部威胁,许多安全团队仍然“不确定”应该如何应对内部出现的威胁形式。国内外专家学者在内部威胁检测方面已经做了不少研究,提出基于shell命令的用户伪装攻击检测方法、基于位置信息的轮廓隐马尔可夫模型(PHMM)的检测技术、基于隐马尔可夫的异常入侵检测模型、基于神经网络的方法和聚类算法等等,由于内部威胁的危害性,国内外安全领域针对内部威胁基础、主客观要素等领域进行了深入研究,取得了一定的成果,但仍存在一些不足:异常用户行为大多表现为恶意行为,但也存在非恶意的异常用户行为;而现有的内部威胁检测方法较少考虑非恶意的异常用户行为,容易造成误报和漏报,导致检测效率降低。
发明内容
本发明的目的在于提供一种基于VAE和BPNN的内部威胁检测方法,减少误报和漏报,提高检测效率。
为实现上述目的,本发明提供了一种基于VAE和BPNN的内部威胁检测方法,包括:
获取原始用户行为数据,并进行特征提取和归一化处理;
对归一化后的训练数据进行VAE预训练,构建正常用户行为特征模型;
将归一化后的所有用户行为数据输入移除解码器后的VAE模型,得到输出数据;
将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常。
其中,所述获取原始用户行为数据,并进行特征提取和归一化处理,包括:
采集操作过程中的所有数据,并将用户行为日志数据进行记录,同时利用特征提取子层进行特征提取后,将数据特征值映射到0-1区间内,得到用户行为数据。
其中,所述对归一化后的训练数据进行VAE预训练,构建正常用户行为特征模型,包括:
根据所述用户行为数据中的训练数据,通过网络反向传播最小化损失值提取原始特征信息,并利用解码器根据所述原始特征信息构建出正常用户行为特征模型,同时得到VAE模型。
其中,所述将归一化后的所有用户行为数据输入移除解码器后的VAE模型,得到输出数据,包括:
得到VAE模型后,移除所述VAE模型中的解码器,并将归一化后的所有用户行为数据全部输入到移除解码器后的VAE模型中,得到输出数据。
其中,将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常,包括:
将所述输出数据作为BPNN网络的输入数据,并根据设定输出值与对应输出值之间的误差函数进行反向传播迭代,同时利用梯度下降法和批量更新法调节BPNN网络参数,并判断所述用户行为数据是否训练完成或者所述误差函数是否达到预设范围。
其中,将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常,还包括:
若所述用户行为数据未全部训练完成或者所述误差函数未达到预设范围,则继续进行反向传播迭代和更新网络参数;
若所述用户行为数据全部训练完成或者所述误差函数达到预设范围,则保存所述BPNN网络参数,并检测内部威胁,同时根据检测结果判断是否为异常用户。
其中,所述根据检测结果判断是否为异常用户,包括:
若根据所述检测结果判断不是异常用户,则保存对应的用户行为数据;
若根据所述检测结果判断是异常用户,则结合所述正常用户行为特征模型进行评估。
本发明的一种基于VAE和BPNN的内部威胁检测方法,首先获取原始用户行为数据,并进行特征提取和归一化处理,得到用户行为数据;其次对归一化后的训练数据进行VAE预训练,通过网络反向传播最小化损失值提取原始特征信息,构建正常用户行为特征模型,同时得到VAE模型;接着将归一化后的所有用户行为数据全部输入到移除解码器后的VAE模型中,得到输出数据;最后将所述输出数据输入BPNN网络进行威胁检测,并根据检测结果和正常用户行为特征模型判断检测结果是否异常,减少误报和漏报,提高检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于VAE和BPNN的内部威胁检测方法的步骤示意图。
图2是本发明提供的系统拓扑图。
图3是本发明提供的VAE架构图。
图4是本发明提供的BPNN网络拓扑图。
图5是本发明提供的VAE和BPNN内部威胁检测方法流程图。
图6是本发明提供的场景1的ROC曲线。
图7是本发明提供的场景2的ROC曲线。
图8是本发明提供的场景3的ROC曲线。
图9是本发明提供的实验对比结果图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本发明提供一种基于VAE和BPNN的内部威胁检测方法,包括:
S101、获取原始用户行为数据,并进行特征提取和归一化处理。
具体的,通过组织企业中的服务器采集操作过程中的所有数据,包括日志数据、网络数据、威胁数据、用户行为数据等;并将用户行为日志数据进行记录,形成用户行为数据集,同时利用特征提取子层进行特征提取,例如登录、注销、访问网站、发送接收电子邮件等行为特征。特征提取之后便可以利用归一化方法将数据进行归一化,将数据特征值映射到0-1区间内,得到用户行为数据,便于内部威胁检测层和用户行为评估层进行检测和评估。
如图2所提供的系统拓扑图所示,数据采集主要负责对用户行为数据的采集与存储,由防火墙、内网交换机、若干服务器集群以及组织内网共同组成。服务器通过防火墙与内网连接,通过对防火墙设置不同的规则,可以收集各种用户行为数据。采集的用户行为数据包括邮件数据、日志数据、网页浏览数据、FTP数据等。
而数据预处理、内部威胁检测以及用户行为评估等集成在原型系统的GPU平台上,通过路由器收到来自数据采集层采集的用户行为数据。GPU平台由一台具备高运算能力的GPU主机和显示器所组成,其中GPU型号为NVIDIATITAN XP,操作系统为Ubuntu,版本是18.04,采用Python 3.6做模型编程环境,选用PyCharm Community 2017.3为编程平台。GPU平台是整个原型系统中最核心的部分,它不仅提供了深度学习算法的硬件条件,还提供了内部威胁检测层和用户行为评估层的接口。同时它还负责模型的各个的任务的统筹、协调运行,保证整个原型系统的顺利运行。原型系统各层之间不可分割,环环相扣,共同完成内部威胁检测和用户行为评估的任务。原型系统中各节点的网络配置如表1所示。
表1原型系统各节点网络配置一览表
Figure BDA0002542368390000041
Figure BDA0002542368390000051
S102、对归一化后的训练数据进行VAE预训练,构建正常用户行为特征模型。
具体的,如图3所提供的VAE架构图所示,VAE(变分自编码器)是一种生成模型,生成模型可以了解正常数据的特征和分布。当生成模型收到正常数据时,它可以将正常数据重建为输出。当接收到数据作为输入时,训练后的生成模型会根据学习到的特征和分布来恢复正常数据。但是,在异常数据的情况下,输入不包括学习到的特征和分布。因此,经过训练的生成模型会从输入中恢复不同的数据。这些重建的数据与正常数据具有不同的特征和分布。因此,输入和输出之间存在差异。生成模型的输入和输出之间的差异称为重构误差。在异常的情况下,重建损失相对大于正常状态的重建损失,
VAE包含编码器、解码器和损失函数三部分。编码器将数据压缩到隐空间中,而解码器则根据隐状态重建数据。编码器是一个神经网络,其输入是xi(i=1,2,3,...,n),输出是隐向量zi(i=1,2,...,3),参数为θ,则编码器可以表示为qθ(z|x)。解码器同样是一个神经网络,其输入qθ(z|x),输出是数据的概率分布,参数为φ,则解码器可以表示为pφ(x|z)。VAE的损失函数是带正则项的负对数似然函数。
根据所述用户行为数据中的训练数据,通过网络反向传播最小化损失值提取原始特征信息,使隐变量包含尽可能多的原始特征信息,并利用解码器根据所述原始特征信息构建出正常用户行为特征模型,同时得到最优的VAE模型,
VAE的损失函数与寻常的自编码器的损失函数不同,由基础的损失函数加上变分KL散度。
L(x)=-DKL[q(z|x)||p(z)]+Ez~q(z|x)(logp(x|z))
其中,q(z|x)表示从数据层到隐层的编码器,p(x|z)表示隐层到数据层的解码器。可以看出,VAE的损失函数旨在减小KL散度,使得q(z|x)更接近于先验分布p(z)。而式子的第二项便是重构误差,使得重构的p(x|z)更接近于输入分布p(x)。通过实现重构,VAE就可以学习到原始输入数据的最重要的特征,利用VAE训练用户行为数据,充分考虑非恶意的异常用户行为,构建正常用户行为模型,减少误报。
S103、将归一化后的所有用户行为数据输入移除解码器后的VAE模型,得到输出数据。
具体的,得到VAE模型后,移除所述VAE模型中的解码器,并将归一化后的所有用户行为数据全部输入到移除解码器后的VAE模型中,将隐变量的输出作为移除解码器后的VAE模型的输出数据。
S104、将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常。
具体的,BP神经网络作为目前应用最广泛的神经网络,包括函数逼近、模式识别、分类和数据压缩等方面。BP神经网络又称逆向误差神经网络,实际也是多层感知机的一种,由一个隐藏层,一个输入层和一个输出层组成,BPNN模型的输入层将数据信号传输给隐藏层,隐藏层将处理后的数据信号传输给输出层。如果输出的结果与期望的输出值相反,便将误差反向传播给隐藏层,隐藏层采用链式法则将其权值和阈值进行修正,重复此过程,直到输出结果与期望的输出值基本一致为止,如图4所提供的BPNN网络拓扑图所示。
将所述输出数据作为BPNN网络的输入数据,并根据设定的期望输出值与对应实际输出值之间的误差函数进行反向传播迭代,来调节网络中各层神经元的连接权值与阈值参数。通过不断输入数据迭代网络,直到误差函数减少到网络允许范围时,将停止对网络训练,并保存网络的相关参数。为达到训练的目的,同时利用梯度下降法调节每个隐层神经元的权重参数,尽可能保证神经网络的实际输出接近期望输出。采用批量更新法对于经过VAE预训练的样本m,定义误差函数为:
Figure BDA0002542368390000061
其中,E(i)为单个样本的训练误差。
然后判断所述用户行为数据是否训练完成或者所述误差函数是否达到预设范围,若所述用户行为数据未全部训练完成或者所述误差函数未达到预设范围,则继续进行反向传播迭代和更新网络参数;若所述用户行为数据全部训练完成或者所述误差函数达到预设范围,则保存所述BPNN网络参数,并检测内部威胁,同时根据检测结果判断是否为异常用户;若根据所述检测结果判断不是异常用户,则保存对应的用户行为数据;若根据所述检测结果判断是异常用户,则结合所述正常用户行为特征模型进行评估,以对接下来的组织内部网络安全态势分析、内部威胁预测、威胁等级划分等任务进行指导,通过对大量用户行为数据分析,组织网络管理人员可以借此分析出组织内部是否存在异常用户,以及用户行为是否为正常恶意行为,并判断威胁等级,及时采取防御措施,处理异常用户,充分考虑了非恶意的异常用户行为生成正常用户行为模型,可以降低误报率与漏报率,提高检测精度和效率。
如图5所提供的VAE和BPNN内部威胁检测方法流程图所示,并结合表2所提供的算法1描述的VAE+BPNN算法的伪代码,输入为用户行为数据xi(i=1,2,...,n),输出为检测结果l(l=0,1),l值为0或1,0即正常用户,1即异常用户。首先,将用户行为数据进行特征提取和归一化处理,得到
Figure BDA0002542368390000072
随后将归一化处理后的数据输入VAE模型进行预训练,通过网络反向传播最小化损失值,即loss(i)≤0.01,使得隐变量包含尽可能多的原始特征信息,并利用解码器重建原始特征,构建出正常用户行为模型,并得到最优VAE模型;接下来将归一化处理后的数据
Figure BDA0002542368390000073
输入移除编码器的
Figure BDA0002542368390000074
模型中得到输出数据
Figure BDA0002542368390000075
最后将移除编码器的
Figure BDA0002542368390000077
模型的输出数据
Figure BDA0002542368390000076
输入BPNN网络进行威胁检测,并根据检测结果判断用户是否异常。充分考虑了非恶意的异常用户行为生成正常用户行为模型,可以降低误报率与漏报率,提高检测精度和效率。
表2 VAE+BPNN算法的伪代码
Figure BDA0002542368390000071
本发明实验采用Python 3.6做模型编程环境,选用PyCharm Community 2017.3为编程平台,采用GPU进行加速,GPU型号为NVIDIATITAN XP,操作系统为Ubuntu,版本是18.04。本发明提出的VAE和BPNN检测算法由Tensorflow的高级库Keras实现。
本发明实验数据集采用卡内基·梅隆大学的CERT部门提出的内部威胁测试数据集——CERT-IT数据集。该数据集存在多个版本,从r1到r6,本文采用r4.2版本。CERT数据集由多个文件组成,这些文件包含组织中员工行为的日志。logon.csv,http.csv,email.csv,device.csv,psychometric.csv包含登录,注销,网站访问,电子邮件,将文件复制到可移动磁盘,连接可移动磁盘和断开连接的时间和行为,有关员工心理测验的分数,以及一个包含用户职位,部门,工作期和参与项目的LDAP文件。本文采用其中的logon.csv,http.csv,email.csv,device.csv以及file.csv文件。其中:
1、登录活动信息存储在logon.csv文件中。对于每个用户,该文件存储有与之相对应的登录/下线的ID和PC的ID以及时间戳;
2、用户使用可移动设备的详细信息,包括用户ID、其PC的ID以及相应的时间戳存储在device.csv文件中;
3、每个用户使用文件的详细信息存储在file.csv文件当中,包括用户ID、其PC的ID、文件类型(doc、jpg、exe等)、文件内容以及相应的时间戳;
4、电子邮件的发送与接收信息存储在email.csv中,该文件存储有邮件抄送人、邮件接收人、密送人、附件数、邮件大小以及邮件内容等;
5、http文件存储着用户上网浏览的时间、网站地址、其PC的ID以及从网页中选择的一些关键字。
该数据集描述了5个内部威胁发生的场景,如表3所示。场景1是描述在某公司用户使用可移动设备盗取该公司机密的行为,从而形成内部威胁;场景2是描述某公司用户先在网络上寻找该公司的竞争对手,之后将本公司机密卖给竞争对手从而获得利益的行为(场景1和2可以看作时间先后关系);场景3是描述某公司内部管理员心怀不满从而对该公司实施打击报复,将该公司机密用邮件的方式散发出去的行为;场景4是描述某公司员工搜索该公司文件再利用邮件盗取的行为;场景5是描述某公司前员工盗取公司机密从而获得利益的行为。本发明主要利用到场景1、2和3,并分别针对3个场景做了实验。
除了威胁场景之外,CERT数据集还为每个威胁场景提供了一组威胁数据,包括每个恶意人员的活动日期和ID等信息。
通过观察该数据集提供的logon.csv文件,用户在8:00(AM)和19:00(PM)的时间段内的登录/下线活动比例最高,于是本文采取8:00(AM)-19:00(PM)为组织的上班时间。
表3数据集描述的场景
Figure BDA0002542368390000091
对于场景1、2和3,本发明从数据集中提取了11种特征并通过统计每小时的特征数量分别创建了三个特征集,其中,表中数字0和1分别表示不符合该场景和符合该场景。从数据集中提取的每小时特征表如表4所示。
表4每小时特征表
Figure BDA0002542368390000092
Figure BDA0002542368390000101
本发明恶意数据展现在场景1、场景2和场景3上,其中,30个恶意事件属于场景1,包含2049条数据,30个恶意事件属于场景2,包含2197条数据,10个恶意事件属于场景3,包含2200条数据。提供来自80%的数据用于训练,剩下的20%数据用于验证。
在实验中,本发明选择的检测方法评价指标为召回率(TPR)、正确率(Accuracy)、精度(Precision)、综合评价指标(F-Score)。TPR是指通过所提出的方法正确检测到的恶意样本与所有恶意样本的比率。精度是指正确检测到的恶意样本与所有检测到的恶意样本的比率。准确率或者召回率指标有时候会出现的矛盾的情,况而F-Score就是综合考虑准确率和召回率指标的方法,F-Score是Precision和Recall加权调和平均。准确性是指正确分类的样本与所有样本的比率。根据混淆矩阵,度量的表达式如下:
Figure BDA0002542368390000102
Figure BDA0002542368390000103
Figure BDA0002542368390000104
Figure BDA0002542368390000105
其中,真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例;真阴性(True Negative,TN):样本的真实类别是负例,并且模型将其预测成为负例;假阳性(False Positive,FP):样本的真实类别是负例,但是模型将其预测成为正例;假阴性(False Negative,FN):样本的真实类别是正例,但是模型将其预测成为负例。
本发明经过测试实验,VAE层采用RMSProp优化器,编码器模型运用4层全连接层,2维的隐变量,批大小为256。损失函数一方面通过交叉熵来度量样本的重构误差,一方面通过KL散度来度量隐变量的分布和单位高速分布的差异。BP神经网络层采用Adam优化器,均方误差计算损失,进行300次的训练迭代,每次连续计算8步梯度下降来进行实验。
图6、图7和图8所示的分别是场景1、场景2和场景3的ROC曲线。其中,场景1的时间跨度是从2010年7月1日至2011年3月31日,总共273天。场景2的时间跨度为2010年6月1日至2011年5月15日,共计349天。场景3的时间跨度为2010年6月10日至2011年4月29日共计324天,由于场景3的恶意样本过少,导致模型准确率有所下降。
本发明采用主成分分析法(Principal Component Analysis,PCA)和随机森林(Random Forest)方法与本章提出的VAE+BPNN作对比实验,三种算法在评价指标Accuracy、TPR、Precision和F-Score方面的对比实验结果如图9提供的实验对比结果图所示。由场景1、2、3的ROC曲线可以得到,场景1、2、3的AUC值都在0.82以上。而AUC值越接近1则模型的性能越好,所以VAE+BPNN模型的性能在实验中的性能具有一定的可行性。同时,由图9的对比实验得知,本发明提出的VAE+BPNN在精度、准确率以及综合评价指标中都是优于主成分分析法和随机森林方法的。
利用生成模型VAE训练用户行为数据,充分考虑非恶意的异常用户行为,构建正常用户行为模型并得到最优VAE模型,进而结合BP神经网络检测用户行为数据的异常状态,从而实现异常用户行为的检测,最终通过检测结果判断用户是否异常,提高了算法的检测率,降低了误报率和漏报率。通过对比实验证明,VAE+BPNN算法在无论是精度还是准确率上都优于主成分分析法和随机森林方法。
本发明的一种基于VAE和BPNN的内部威胁检测方法,首先获取原始用户行为数据,并进行特征提取和归一化处理,得到用户行为数据;其次对归一化后的训练数据进行VAE预训练,通过网络反向传播最小化损失值提取原始特征信息,构建正常用户行为特征模型,同时得到VAE模型;接着将归一化后的所有用户行为数据全部输入到移除解码器后的VAE模型中,得到输出数据;最后将所述输出数据输入BPNN网络进行威胁检测,并根据检测结果和正常用户行为特征模型判断检测结果是否异常,减少误报和漏报,提高检测效率。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种基于VAE和BPNN的内部威胁检测方法,其特征在于,包括:
获取原始用户行为数据,并进行特征提取和归一化处理;
对归一化后的训练数据进行VAE预训练,构建正常用户行为特征模型;
将归一化后的所有用户行为数据输入移除解码器后的VAE模型,得到输出数据;
将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常。
2.如权利要求1所述的基于VAE和BPNN的内部威胁检测方法,其特征在于,所述获取原始用户行为数据,并进行特征提取和归一化处理,包括:
采集操作过程中的所有数据,并将用户行为日志数据进行记录,同时利用特征提取子层进行特征提取后,将数据特征值映射到0-1区间内,得到用户行为数据。
3.如权利要求2所述的基于VAE和BPNN的内部威胁检测方法,其特征在于,所述对归一化后的训练数据进行VAE预训练,构建正常用户行为特征模型,包括:
根据所述用户行为数据中的训练数据,通过网络反向传播最小化损失值提取原始特征信息,并利用解码器根据所述原始特征信息构建出正常用户行为特征模型,同时得到VAE模型。
4.如权利要求3所述的基于VAE和BPNN的内部威胁检测方法,其特征在于,所述将归一化后的所有用户行为数据输入移除解码器后的VAE模型,得到输出数据,包括:
得到VAE模型后,移除所述VAE模型中的解码器,并将归一化后的所有用户行为数据全部输入到移除解码器后的VAE模型中,得到输出数据。
5.如权利要求4所述的基于VAE和BPNN的内部威胁检测方法,其特征在于,将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常,包括:
将所述输出数据作为BPNN网络的输入数据,并根据设定输出值与对应输出值之间的误差函数进行反向传播迭代,同时利用梯度下降法和批量更新法调节BPNN网络参数,并判断所述用户行为数据是否训练完成或者所述误差函数是否达到预设范围。
6.如权利要求5所述的基于VAE和BPNN的内部威胁检测方法,其特征在于,将所述输出数据输入BPNN网络进行威胁检测,并判断检测结果是否异常,还包括:
若所述用户行为数据未全部训练完成或者所述误差函数未达到预设范围,则继续进行反向传播迭代和更新网络参数;
若所述用户行为数据全部训练完成或者所述误差函数达到预设范围,则保存所述BPNN网络参数,并检测内部威胁,同时根据检测结果判断是否为异常用户。
7.如权利要求6所述的基于VAE和BPNN的内部威胁检测方法,其特征在于,所述根据检测结果判断是否为异常用户,包括:
若根据所述检测结果判断不是异常用户,则保存对应的用户行为数据;
若根据所述检测结果判断是异常用户,则结合所述正常用户行为特征模型进行评估。
CN202010550586.4A 2020-06-16 2020-06-16 基于vae和bpnn的内部威胁检测方法 Active CN111726350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550586.4A CN111726350B (zh) 2020-06-16 2020-06-16 基于vae和bpnn的内部威胁检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550586.4A CN111726350B (zh) 2020-06-16 2020-06-16 基于vae和bpnn的内部威胁检测方法

Publications (2)

Publication Number Publication Date
CN111726350A true CN111726350A (zh) 2020-09-29
CN111726350B CN111726350B (zh) 2022-07-05

Family

ID=72567031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550586.4A Active CN111726350B (zh) 2020-06-16 2020-06-16 基于vae和bpnn的内部威胁检测方法

Country Status (1)

Country Link
CN (1) CN111726350B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112272176A (zh) * 2020-10-23 2021-01-26 常州市同济科技有限公司 一种基于大数据平台的网络安全防护方法及系统
CN113011476A (zh) * 2021-03-05 2021-06-22 桂林电子科技大学 基于自适应滑动窗口gan的用户行为安全检测方法
CN113407425A (zh) * 2021-05-13 2021-09-17 桂林电子科技大学 基于BiGAN与OTSU的内部用户行为检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365089A1 (en) * 2015-12-01 2018-12-20 Preferred Networks, Inc. Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
US20190392302A1 (en) * 2018-06-20 2019-12-26 Disney Enterprises, Inc. Efficient encoding and decoding sequences using variational autoencoders
CN110636066A (zh) * 2019-09-24 2019-12-31 中国民航大学 基于无监督生成推理的网络安全威胁态势评估方法
CN110909348A (zh) * 2019-09-26 2020-03-24 中国科学院信息工程研究所 一种内部威胁检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365089A1 (en) * 2015-12-01 2018-12-20 Preferred Networks, Inc. Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
US20190392302A1 (en) * 2018-06-20 2019-12-26 Disney Enterprises, Inc. Efficient encoding and decoding sequences using variational autoencoders
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110636066A (zh) * 2019-09-24 2019-12-31 中国民航大学 基于无监督生成推理的网络安全威胁态势评估方法
CN110909348A (zh) * 2019-09-26 2020-03-24 中国科学院信息工程研究所 一种内部威胁检测方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
NGUYEN, QUOC PHONG, ET AL.: ""GEE: A gradient-based explainable variational autoencoder for network anomaly detection."", 《2019 IEEE CONFERENCE ON COMMUNICATIONS AND NETWORK SECURITY (CNS)》 *
YANG, YANQING, ET AL.: ""Improving the classification effectiveness of intrusion detection by using improved conditional variational autoencoder and deep neural network."", 《SENSORS 》 *
YANG, YANQING, ET AL.: ""Network intrusion detection based on supervised adversarial variational auto-encoder with regularization."", 《IEEE ACCESS》 *
YAO ZHU,ET AL.: ""An Interpretable Generative Model for Handwritten Digits Synthesis"", 《2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
许鸿奎等: "基于堆栈自编码的刻划字符检测研究", 《山东建筑大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112272176A (zh) * 2020-10-23 2021-01-26 常州市同济科技有限公司 一种基于大数据平台的网络安全防护方法及系统
CN113011476A (zh) * 2021-03-05 2021-06-22 桂林电子科技大学 基于自适应滑动窗口gan的用户行为安全检测方法
CN113011476B (zh) * 2021-03-05 2022-11-11 桂林电子科技大学 基于自适应滑动窗口gan的用户行为安全检测方法
CN113407425A (zh) * 2021-05-13 2021-09-17 桂林电子科技大学 基于BiGAN与OTSU的内部用户行为检测方法

Also Published As

Publication number Publication date
CN111726350B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
Le et al. Anomaly detection for insider threats using unsupervised ensembles
CN111726350B (zh) 基于vae和bpnn的内部威胁检测方法
CN112434758B (zh) 基于聚类的联邦学习搭便车攻击防御方法
Ektefa et al. Intrusion detection using data mining techniques
Kumar et al. Intrusion Detection System using decision tree algorithm
CN110381079B (zh) 结合gru和svdd进行网络日志异常检测方法
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN116957049B (zh) 基于对抗自编码器的无监督内部威胁检测方法
CN112149749A (zh) 异常行为检测方法、装置、电子设备及可读存储介质
Yuan et al. Data augmentation for insider threat detection with GAN
Zhang et al. Insider threat detection of adaptive optimization DBN for behavior logs
CN113904881B (zh) 一种入侵检测规则误报处理方法和装置
CN117220978B (zh) 一种网络安全运营模型量化评估系统及评估方法
Feng et al. A phishing webpage detection method based on stacked autoencoder and correlation coefficients
CN109033845A (zh) 基于文件访问记录时空分析的伪装者检测方法及系统
Zerhoudi et al. Improving intrusion detection systems using zero-shot recognition via graph embeddings
Sharma et al. Ransomware Attack Detection in the Internet of Things using Machine Learning Approaches
CN115733673B (zh) 一种基于多尺度残差分类器的数据异常检测方法
Azmee et al. Performance analysis of machine learning classi ers for detecting PE malware
CN113472742B (zh) 一种基于门控循环单元的内部威胁检测方法和装置
Shahane et al. A Survey on Classification Techniques to Determine Fake vs. Real Identities on Social Media Platforms
CN114039837A (zh) 告警数据处理方法、装置、系统、设备和存储介质
Lu et al. Experimental evaluation of insider threat detection methods based on temporal representation
Mittal et al. A review for insider threats detection using machine learning
Liu et al. A Blockchain-assisted Collaborative Ensemble Learning for Network Intrusion Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200929

Assignee: GUANGXI HAOHUA TECHNOLOGY Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000317

Denomination of invention: Internal Threat Detection Method Based on VAE and BPNN

Granted publication date: 20220705

License type: Common License

Record date: 20221214