CN114401135A - 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 - Google Patents

基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 Download PDF

Info

Publication number
CN114401135A
CN114401135A CN202210042042.6A CN202210042042A CN114401135A CN 114401135 A CN114401135 A CN 114401135A CN 202210042042 A CN202210042042 A CN 202210042042A CN 114401135 A CN114401135 A CN 114401135A
Authority
CN
China
Prior art keywords
lstm
user
threat detection
attention
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210042042.6A
Other languages
English (en)
Other versions
CN114401135B (zh
Inventor
左晓军
曾四鸣
陈泽
侯波涛
郗波
郭禹伶
常杰
刘惠颖
刘硕
王颖
史丽鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210042042.6A priority Critical patent/CN114401135B/zh
Publication of CN114401135A publication Critical patent/CN114401135A/zh
Application granted granted Critical
Publication of CN114401135B publication Critical patent/CN114401135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于LSTM‑Attention用户和实体行为分析技术的内部威胁检测方法,其包括以下步骤,(1)数据预处理;(2)基于LSTM‑Attention的用户和实体行为分析;本发明基于LSTM‑Attention用户和实体行为分析的内部威胁检测方法,不仅为用户自己建立行为基线,还考虑到用户所对应角色的行为基线,可以更好地为异常行为进行溯源;其次,本发明采用了LSTM、注意力机制和多层感知机的新组合建立内部威胁检测的深度学习模型,提高了模型的AUC分数,本发明具有优秀的异常检测能力。

Description

基于LSTM-Attention用户和实体行为分析技术的内部威胁检 测方法
技术领域
本发明属于网络安全技术领域,具体涉及一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法。
背景技术
随着云计算和大数据的飞速发展,上网单位和网络基础应用也日益增多,网络系统已经成为构成国家发展和人民生活中不可分割的一部分。
内部威胁是现代企业面临的重要问题,内部攻击具备高危性、隐蔽性、多元性等特点,不仅会带来巨大的财务损失,而且严重威胁了企业和个人的信息安全。
相关领域的专家学者针对内部威胁提出了不同的技术方法和解决方案,现有方法主要分为以下两种:
一是基于规则匹配的威胁检测方法,它通过挖掘行为的关联规则来建立正常的行为画像;然后,通过分析传入的实例和现有的规则来执行异常检测。其具有过程简单和响应迅速的优点,而缺点是需要大量的专家知识来建立规则数据库,效果取决于行为库的更新,无法识别未知模式的威胁。
二是基于异常的威胁检测方法,其建立用户的正常行为基线,当用户行为与正常行为发生偏离时被认定为异常行为,其可以有效检测未知模式的威胁。但是,现有的内部威胁算法仅为用户自己建立行为基线,没有考虑用户所对应角色的行为基线,导致现有的方法的AUC分数并不高。
现有技术中,申请号201510888587.9公开了一种面向内部威胁检测的用户跨域行为模式挖掘方法,该专利为各个检测域构建归一化的用户单域行为特征,并基于时间窗口通过集成各域域内行为特征构建用户多域行为描述,从用户多域行为描述中提取基模式,并生成用户行为特征,使用高斯混和模型分析用户行为的多元模式。其实则为基于时序分析方法来检测用户行为模式的异常变化,没有从多个角度分析用户行为模式,实现合理的容错,因此该方法具有较高的假阴性率。其次,它是完全数据驱动的用户行为多元模式分析,不依赖任何领域知识和用户背景,导致用户的误报率较高,因为有时用户的行为模式出现异常并不是真正的异常,可能是工作的调动等原因引起的异常。
申请号为202010550586.4的专利公开了一种基于VAE和BPNN的内部威胁检测方法,该专利利用生成模型VAE训练用户行为数据,充分考虑非恶意的异常用户行为,构建正常用户行为模型并得到最优VAE模型,进而结合BP神经网络检测用户行为数据的异常状态,从而实现异常用户行为的检测。但是BP神经网络在识别前后有关联的数据时,无法挖掘到数据产生的模式。而时间序列是反映内部威胁的一个重要特征,挖掘基于时间序列数据内部威胁BP神经网络具有较高的误报率,准确率低的问题,且存在局部收敛的问题。
发明内容
为了克服上述现有技术的不足,本发明提供了基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,本发明的AUC分数达到0.964,其具有优秀的异常检测能力。
本发明采用的技术方案是:其包括以下步骤,(1)数据预处理;(2)基于LSTM-Attention的用户和实体行为分析。
所述步骤(1)对原始数据集CERT内部威胁数据集进行预处理,其包括以下步骤,1.1对每个日志文件进行数据清理;1.2根据用户名将所有活动的日志行从日志文件中抽取出来,然后将其进行合并并按照时间进行排序;1.3统计用来表示用户在每个时间段的日常活动的计数作为行为特征,同一角色下所有用户的行为特征的均值作为角色特征,并对类别型数据进行编码;
所述步骤(2)包括以下步骤,2.1利用LSTM算法分别对所述行为特征和所述角色特征进行建模;2.2利用加入注意力机制的神经网络对用户的行为序列进行建模;2.3利用MLP对步骤2.1和2.2的模型产生的结果进行综合决策,从而实现内部威胁检测。
进一步地,步骤1.1中,所述数据清理包括删除多余的字段和缺失值的填充。
进一步地,当日志文件中每一列数据的缺失率小于阈值60%时对其采用众数进行填充,否则将其删除;
进一步地,步骤2.1的建模方法包括以下过程,首先,利用步骤(1)得到的行为特征和角色特征的上一时刻的外部状态ht和当前时刻的输入xt,计算出三个门,以及候选状态
Figure BDA0003470680300000021
然后,结合遗忘门ft和输入门it通过LSTM循环单元更新记忆单元ct;最后,结合输出门ot将内部状态的信息传递给外部状态ht
进一步地,步骤2.1中,所述三个门的计算公式(2)~(4)所示;
it=σ(Wixi+Uiht-1+bi) (8)
ft=σ(Wfxt+Ufht-1+bf) (9)
ot=σ(Woxt+Uoht-1+bo) (10)
其中σ(·)为Logistic函数,其输出区间为(0,1),xt为当前时刻的输入,ht-1为上一时刻的外部状态。
进一步地,步骤2.1,更新记忆单元ct是通过LSTM循环单元,整个网络建立时序依赖关系,如公式(5)~(7)所示;
Figure BDA0003470680300000031
Figure BDA0003470680300000032
ht=ot e tanh(ct) (13)
其中
Figure BDA0003470680300000033
为当前时刻的输入,
Figure BDA0003470680300000034
Figure BDA0003470680300000035
为网络参数。
进一步地,步骤2.2的建模过程包括三个阶段,第一阶段为引入点积,根据公式如(8)中的Q和K,计算两者的相似性和相关性:
点积:Similarity(Q,K)=Q·K (14)。
进一步地,第二阶段为用softmax的计算方式对第一阶段计算的Similarity值进行数值转换;具体方法为一方面进行归一化,计算所有元素权重之和为1,另一方面通过softmax突出元素的权重,
Figure BDA0003470680300000036
进一步地,第三阶段为:通过计算结果a和v对应的权重系数,然后加权求和得到Attention数值:
Figure BDA0003470680300000037
Figure BDA0003470680300000041
进一步地,步骤2.3中,利用MLP神经网络进行综合决策,MLP整个模型为f(x)=G(b(2)+W(2)(s(b(1)+W(1)x))),其中G为softmax函数,首先随机初始化所有参数,然后迭代地训练,不断地计算梯度和更新参数;最后,MLP神经网络根据行为序列、行为特征和角色特征的偏差判断是否存在异常行为。
本发明的有益效果是:
本发明基于LSTM-Attention用户和实体行为分析的内部威胁检测方法,不仅为用户自己建立行为基线,还考虑到用户所对应角色的行为基线,可以更好地为异常行为进行溯源;其次,本发明采用了LSTM、注意力机制和多层感知机的新组合建立内部威胁检测的深度学习模型,提高了模型的AUC分数,本发明具有优秀的的异常检测能力。
附图说明
图1为本发明方法的工作流程;
图2为本发明LSTM网络的循环单元结构;
图3为本发明含注意力机制的全连接网络模型;
图4为本发明行为特征的WDD;
图5为本发明行为序列的WDD;
图6为本发明正常和异常数据的偏差分布;
图7为本发明与其他技术的AUC曲线。
具体实施方式
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
实施例1
本发明提供了一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,旨在解决内部威胁检测误报率高、准确率低的问题。该方法包括以下步骤,(1)数据预处理;(2)基于LSTM-Attention的用户和实体行为分析。其中,步骤(2)基于LSTM-Attention的用户和实体行为分析包含了以下四个模型:行为特征模型、角色特征模型、行为序列模型和综合决策模型。值得注意的是,由于角色特征采用的是同一角色下所有成员的行为特征的均值,故角色特征和行为特征采用同一模型进行建模。该内部威胁检测方法的整个工作流程如图1所示。
实施例2
下面对本发明方法进行具体说明。
(1)数据预处理。
对原始数据集CERT内部威胁数据集进行预处理,首先对每个日志文件进行数据清理,包括错误信息的修改、多余字段的删除和缺失值的填充。其次,将多个日志文件进行数据集成,数据集中的每个日志文件都是所有用户的操作,需按照用户将进行信息提取后集成,并按照时间先后顺序进行排序。最后,从中提取模型所需的行为特征、角色特征、行为序列和心理数据并将其进行编码使其成为适合深度学习的输入。因为数值型变量可以直接作为深度学习的输入,而类别型数据不能直接作为深度学习算法的输入,因此需要对类别数据进行编码如{'logon':1,'Connect':2,'Disconnect':3,'http':4,'email':5,'logoff':6}。所述步骤(1)对原始数据集CERT内部威胁数据集进行预处理,其包括以下步骤,
步骤1:数据预处理。具体处理步骤如下:
步骤1.1:当日志文件中每一列数据的缺失率小于阈值60%时对其采用众数进行填充,否则将其删除;
步骤1.2:根据用户名将所有活动的日志行从日志文件中抽取出来,然后将其进行合并并按照时间进行排序;
步骤1.3:统计用来表示用户在每个时间段的日常活动的计数作为行为特征,同一角色下所有用户的行为特征的均值作为角色特征,并对类别型数据进行编码。
(2)基于LSTM-Attention的用户和实体行为分析。
经过数据预处理后,将得到的特征输入到用户和实体行为分析模块中从而实现内部威胁检测。首先,利用LSTM算法对用户的行为特征和角色特征进行建模;其次,采用加入了注意力机制的全连接网络对用户的行为序列特征进行建模,并计算得到预测行为与真实行为之间的偏差。最后,采用多层感知机(MLP)对上述深度学习模型的结果进行综合决策,从而实现内部威胁检测。
所述步骤(2)包括以下步骤,
步骤2.1:利用LSTM算法分别对行为特征和角色特征进行建模,行为特征和角色特征为本步骤LSTM模型的输入数据。LSTM循环单元是一个循环结构,如图2所示,是一个循环单元的展开图。
LSTM的任务是预测序列中的下一个向量,使用前四天的行为特征或角色特征作为输入来预测第五天的特征,并用加权偏差度(weighted deviation degree,WDD)衡量真实数据和预测数据之间的偏差。WDD的计算公式如(1)所示。
Figure BDA0003470680300000061
其中V是真实特征中所有特征的集合,y是属于V的单个特征,
Figure BDA0003470680300000062
是与y相同的特征,但属于预测的特征,w是根据特征y专门设计的值。
将预处理后的数据集7:3分为训练集和验证集,训练集用来训练模型结构,验证集用来更新优化模型参数。本发明采用的LSTM模型由两个LSTM层组成,分别有100个和120个单元,每个LSTM层后有一个“tanh”激活层,一个37个单元的Dense层和一个“relu”激活层。具体来说,LSTM的任务是预测序列中的下一个向量,使用前四天的行为特征来预测第五天的特征。
首先,利用上一时刻的外部状态ht和当前时刻的输入xt,计算出三个门,以及计算记忆单元用来更新记忆单元的候选状态
Figure BDA0003470680300000063
然后,结合遗忘门ft和输入门it来更新记忆单元ct;最后,结合输出门ot将内部状态的信息传递给外部状态ht。三个门的计算公式(2)~(4)所示。内部状态是上一时刻的长期记忆Ct-1,外部状态是ht是指的隐藏状态。
it=σ(Wixi+Uiht-1+bi) (16)
ft=σ(Wfxt+Ufht-1+bf) (17)
ot=σ(Woxt+Uoht-1+bo) (18)
其中σ(·)为Logistic函数,其输出区间为(0,1),xt为当前时刻的输入,ht-1为上一时刻的外部状态,W、U、b分别是系数。
通过LSTM循环单元如图2所示,整个网络可以建立较长距离的时序依赖关系,此处,由于LSTM为RNN的改进,所以此处的“较长”为与RNN比较而言的相对较长。如公式(5)~(7)所示。
Figure BDA0003470680300000071
Figure BDA0003470680300000072
ht=ot e tanh(ct) (21)
其中
Figure BDA0003470680300000073
为当前时刻的输入,
Figure BDA0003470680300000074
Figure BDA0003470680300000075
为网络参数。
LSTM可以有效解决简单循环神经网络的梯度爆炸或消失问题。
步骤2.2:利用加入注意力机制的神经网络对用户的行为序列进行建模。本发明的行为序列特征模型训练加入注意力机制的全连接网络学习用户正常的行为序列,并根据历史记录预测下一个状态的动作序列,Attention模型是在全连接网络上搭建的注意力机制,注意力层由一个Dense层、Multiply操作和一个“softmax”激活层组成。含注意力机制的全连接网络模型如图3所示。其计算过程如下:第一个阶段,引入点积这一计算机制,具体为在这一阶段引入不同的函数和计算机制,本文采用的点积计算Q和K的相似性,点积的值越大,相似度越大。
根据Q和K,计算两者的相似性和相关性,公式如(8)所示。
点积:Similarity(Q,K)=Q·K (22)
第二阶段引入softmax的计算方式对第一阶段计算的Similarity值进行数值转换,所述得分为相似性得分及Similarity(Q,K)。在第二阶段对计算出的similarity用softmax函数进行转换。一方面可以进行归一化,计算所有元素权重之和为1,另一方面可以通过softmax突出元素的权重。softmax函数将将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值的和为1的函数,通过占比大小即ai大小突出元素的权重。所述“元素”指的就是ai指代的就是行为序列中的一个个行为,例如自然语言处理中的一个个词向量。
Figure BDA0003470680300000076
第三阶段,通过计算结果a和v对应的权重系数,然后加权求和得到Attention数值:在注意力机制中,Q为Query,K为Key,V为Value,其均为输入矩阵线性变化得来的。a是第二阶段通过softmax计算出来的权重。
Figure BDA0003470680300000081
在本发明中,使用N天的动作序列来预测下一个状态的动作序列,每个用户的动作序列长度是不同的。用户的操作为{登录,网页,网页,网页,驱动器连接,驱动器断开,…,电子邮件,注销},将其进行编码并输入到模型中。
步骤2.3:利用MLP对上述模型产生的结果进行综合决策,从而实现内部威胁检测。MLP是由输入层、隐藏层和输出层组成的神经网络。输入层用向量X表示,则隐藏层的输出就是f(W1X+b1),W1是权重(也叫连接系数),b1是偏置,函数f是常用的sigmoid函数,输出层的输出就是softmax(W2X1+b2),X1表示隐藏层的输出f(W1X+b1)。MLP整个模型为f(x)=G(b(2)+W(2)(s(b(1)+W(1)x))),其中G为softmax函数。对于各个连接权重和偏置的确定采用的是梯度下降法(SGD)。首先随机初始化所有参数,然后迭代地训练,不断地计算梯度和更新参数,直到满足误差足够小为止。在本发明中,需要使用历史数据来训练MLP来学习这些特征之间的关系。然后,MLP根据行为序列、行为特征和角色特征的偏差判断是否存在异常行为,类似于执行分类任务。当偏差和训练时的偏差出现明显变化的时候则表明用户出现异常行为,如图7则是根据这三个维度进行判断的结果。内部威胁检测就是检测内部用户是否存在异常行为。
实施例3
对实施例1和实施例2的方法进行验证,本发明基于LSTM-Attention的用户和实体行为分析,不仅为用户自己建立行为基线,还考虑到用户所对应角色的行为基线,可以更好地为异常行为进行溯源;其次,本发明采用了LSTM、注意力机制和多层感知机的新组合建立内部威胁检测的深度学习模型,提高了模型的AUC分数,与其他技术相比,本发明的异常检测能力优于单一机器学习模型和绝大多数的融合模型。
a.LSTM模型对用户的行为特征进行建模的结果分析
用户行为特征是多样的,并且这些不同的特征之间有潜在的联系。本发明利用每五天正常的用户行为特征训练LSTM。前四天的特征用于预测第五天的数据,真实的第五天数据与来自LSTM的预测数据之间的误差在训练阶段进行计算和优化。需要注意的是,同一角色下所有用户定义的特征是相同的,LSTM模型也是相同的,所有用户共享同一个LSTM模型,不同用户保存自己的参数。如图4所示,前200天的偏差基本在0-2之间,200天之后偏差大幅增加,与之前的偏差显著不同。在图中,可以看到200天后有很多异常偏差,与实际情况相对应,这说明LSTM网络具有较强的学习用户行为模式的能力。
b.Attention对用户行为序列建模的结果分析
加入Attention的全连接网络被用来训练学习用户行为序列的正常模式,由于时间和数据的限制,同样,使用以5天为一个时间单位的行为序列训练Attention网络模型,前4天作为已知数据来预测第5天的数据,然后和真正的第5天数据进行比较,并对Attention网络模型进行误差计算和优化。如图5所示,可以看出前40天的测试数据与前160天的训练数据具有相似的分布,损失范围在0-4,说明Attention网络模型已经很好地学习到了用户的行为序列。从图中发现用户在200天附近有一些异常行为,导致预测与实际序列之间的异常偏差变大。
c.MLP的综合决策的结果分析
模型从行为序列、行为特征和角色特征三个角度获得真实与预测之间的偏差,并在图6中得到体现。如图6所示,可以发现正常点和异常点是可分离的,虽然存在一定的假阳性和假阴性,但这三个特征在很大程度上可以反映用户的异常行为。为了在异常行为发生时更准确地发出警报,本发明使用MLP学习三个偏差之间的关系,来确定用户在某一天是否有异常行为发生。
本发明基于LSTM-Attention用户和实体行为分析技术的内部威胁检测模型,其准确率高达98%,并实现了0.964的AUC分数,如图7所示,其与baseline中的模型(有监督与无监督结合的检测方法)相比,虽然其ROC曲线轨迹相似,但是本发明的AUC分数明显优于baseline,这说明本发明具有更强的学习用户活动模式和检测异常行为的能力。
目前,本发明的技术方案已经进行了中试,即产品在大规模量产前的较小规模试验;中试完成后,在小范围内开展了用户使用调研,调研结果表明用户满意度较高;现在已开始着手准备正式投产进行产业化(包括知识产权风险预警调研)。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (10)

1.一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,其包括以下步骤,(1)数据预处理;(2)基于LSTM-Attention的用户和实体行为分析。
2.根据权利要求1所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,所述步骤(1)对原始数据集CERT内部威胁数据集进行预处理,其包括以下步骤,1.1对每个日志文件进行数据清理;1.2根据用户名将所有活动的日志行从日志文件中抽取出来,然后将其进行合并并按照时间进行排序;1.3统计用来表示用户在每个时间段的日常活动的计数作为行为特征,同一角色下所有用户的行为特征的均值作为角色特征,并对类别型数据进行编码;
所述步骤(2)包括以下步骤,2.1利用LSTM算法分别对所述行为特征和所述角色特征进行建模;2.2利用加入注意力机制的神经网络对用户的行为序列进行建模;2.3利用MLP对步骤2.1和2.2的模型产生的结果进行综合决策,从而实现内部威胁检测。
步骤1.1中,所述数据清理包括删除多余的字段和缺失值的填充。
3.根据权利要求2所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,当日志文件中每一列数据的缺失率小于阈值60%时对其采用众数进行填充,否则将其删除。
4.根据权利要求2所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.1的建模方法包括以下过程,首先,利用步骤(1)得到的行为特征和角色特征的上一时刻的外部状态ht和当前时刻的输入xt,计算出三个门,以及候选状态
Figure FDA0003470680290000011
然后,结合遗忘门ft和输入门it通过LSTM循环单元更新记忆单元ct;最后,结合输出门ot将内部状态的信息传递给外部状态ht
5.根据权利要求4所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.1中,所述三个门的计算公式(2)~(4)所示;
it=σ(Wixi+Uiht-1+bi) (1)
ft=σ(Wfxt+Ufht-1+bf) (2)
ot=σ(Woxt+Uoht-1+bo) (3)
其中σ(·)为Logistic函数,其输出区间为(0,1),xt为当前时刻的输入,ht-1为上一时刻的外部状态。
6.根据权利要求5所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.1,更新记忆单元ct是通过LSTM循环单元,整个网络建立时序依赖关系,如公式(5)~(7)所示;
Figure FDA0003470680290000021
Figure FDA0003470680290000022
ht=ote tanh(ct) (6)
其中
Figure FDA0003470680290000023
为当前时刻的输入,
Figure FDA0003470680290000024
Figure FDA0003470680290000025
为网络参数。
7.根据权利要求2所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.2的建模过程包括三个阶段,第一阶段为引入点积,根据公式如(8)中的Q和K,计算两者的相似性和相关性:
点积:Similarity(Q,K)=Q·K (7)。
8.根据权利要求7所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.2的建模过程的第二阶段为用softmax的计算方式对第一阶段计算的Similarity值进行数值转换;具体方法为一方面进行归一化,计算所有元素权重之和为1,另一方面通过softmax突出元素的权重,
Figure FDA0003470680290000026
9.根据权利要求8所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.2的建模过程的第三阶段为:通过计算结果a和v对应的权重系数,然后加权求和得到Attention数值:
Figure FDA0003470680290000031
10.根据权利要求1所述的一种基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法,其特征在于,步骤2.3中,利用MLP神经网络进行综合决策,MLP整个模型为f(x)=G(b(2)+W(2)(s(b(1)+W(1)x))),其中G为softmax函数,首先随机初始化所有参数,然后迭代地训练,不断地计算梯度和更新参数;最后,MLP神经网络根据行为序列、行为特征和角色特征的偏差判断是否存在异常行为。
CN202210042042.6A 2022-01-14 2022-01-14 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 Active CN114401135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210042042.6A CN114401135B (zh) 2022-01-14 2022-01-14 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210042042.6A CN114401135B (zh) 2022-01-14 2022-01-14 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法

Publications (2)

Publication Number Publication Date
CN114401135A true CN114401135A (zh) 2022-04-26
CN114401135B CN114401135B (zh) 2023-04-18

Family

ID=81231596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210042042.6A Active CN114401135B (zh) 2022-01-14 2022-01-14 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法

Country Status (1)

Country Link
CN (1) CN114401135B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116957049A (zh) * 2023-09-20 2023-10-27 南京邮电大学 基于对抗自编码器的无监督内部威胁检测方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109302410A (zh) * 2018-11-01 2019-02-01 桂林电子科技大学 一种内部用户异常行为检测方法、系统及计算机存储介质
CN109793528A (zh) * 2019-01-28 2019-05-24 华南理工大学 一种基于动态脑功能网络的情绪分类方法
US20190163336A1 (en) * 2017-11-28 2019-05-30 Baidu Online Network Technology (Beijing) Co., Ltd. Video displaying method and apparatus, device and computer storage medium
CN109886492A (zh) * 2019-02-26 2019-06-14 浙江鑫升新能源科技有限公司 基于Attention LSTM的光伏发电功率预测模型及其构建方法
CN110909348A (zh) * 2019-09-26 2020-03-24 中国科学院信息工程研究所 一种内部威胁检测方法及装置
CN111159242A (zh) * 2019-12-27 2020-05-15 杭州趣维科技有限公司 一种基于边缘计算的客户端重排序方法及系统
CN111209168A (zh) * 2020-01-14 2020-05-29 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于nLSTM-self attention的日志序列异常检测框架
CN111797978A (zh) * 2020-07-08 2020-10-20 北京天融信网络安全技术有限公司 一种内部威胁检测方法、装置、电子设备及存储介质
CN111866004A (zh) * 2020-07-27 2020-10-30 中国工商银行股份有限公司 安全评估方法、装置、计算机系统和介质
CN111950759A (zh) * 2020-05-18 2020-11-17 武汉科技大学 一种基于两级分解、lstm和at的短期风速预测方法
CN112418361A (zh) * 2021-01-22 2021-02-26 杭州木链物联网科技有限公司 一种基于深度学习的工控系统异常检测方法、装置
CN112491860A (zh) * 2020-11-20 2021-03-12 国家工业信息安全发展研究中心 一种面向工业控制网络的协同入侵检测方法
CN112905421A (zh) * 2021-03-18 2021-06-04 中科九度(北京)空间信息技术有限责任公司 基于注意力机制的lstm网络的容器异常行为检测方法
CN113095331A (zh) * 2021-04-22 2021-07-09 合肥工业大学 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质
CN113256438A (zh) * 2021-05-27 2021-08-13 山东省计算中心(国家超级计算济南中心) 网络用户的角色识别方法及系统
CN113743650A (zh) * 2021-08-04 2021-12-03 南方电网科学研究院有限责任公司 电力负荷预测方法、装置、设备与存储介质
CN113779879A (zh) * 2021-09-06 2021-12-10 安徽大学 一种基于LSTM-seq2seq-attention模型的中长期用电异常检测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190163336A1 (en) * 2017-11-28 2019-05-30 Baidu Online Network Technology (Beijing) Co., Ltd. Video displaying method and apparatus, device and computer storage medium
CN109302410A (zh) * 2018-11-01 2019-02-01 桂林电子科技大学 一种内部用户异常行为检测方法、系统及计算机存储介质
CN109793528A (zh) * 2019-01-28 2019-05-24 华南理工大学 一种基于动态脑功能网络的情绪分类方法
CN109886492A (zh) * 2019-02-26 2019-06-14 浙江鑫升新能源科技有限公司 基于Attention LSTM的光伏发电功率预测模型及其构建方法
CN110909348A (zh) * 2019-09-26 2020-03-24 中国科学院信息工程研究所 一种内部威胁检测方法及装置
CN111159242A (zh) * 2019-12-27 2020-05-15 杭州趣维科技有限公司 一种基于边缘计算的客户端重排序方法及系统
CN111209168A (zh) * 2020-01-14 2020-05-29 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于nLSTM-self attention的日志序列异常检测框架
CN111950759A (zh) * 2020-05-18 2020-11-17 武汉科技大学 一种基于两级分解、lstm和at的短期风速预测方法
CN111797978A (zh) * 2020-07-08 2020-10-20 北京天融信网络安全技术有限公司 一种内部威胁检测方法、装置、电子设备及存储介质
CN111866004A (zh) * 2020-07-27 2020-10-30 中国工商银行股份有限公司 安全评估方法、装置、计算机系统和介质
CN112491860A (zh) * 2020-11-20 2021-03-12 国家工业信息安全发展研究中心 一种面向工业控制网络的协同入侵检测方法
CN112418361A (zh) * 2021-01-22 2021-02-26 杭州木链物联网科技有限公司 一种基于深度学习的工控系统异常检测方法、装置
CN112905421A (zh) * 2021-03-18 2021-06-04 中科九度(北京)空间信息技术有限责任公司 基于注意力机制的lstm网络的容器异常行为检测方法
CN113095331A (zh) * 2021-04-22 2021-07-09 合肥工业大学 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质
CN113256438A (zh) * 2021-05-27 2021-08-13 山东省计算中心(国家超级计算济南中心) 网络用户的角色识别方法及系统
CN113743650A (zh) * 2021-08-04 2021-12-03 南方电网科学研究院有限责任公司 电力负荷预测方法、装置、设备与存储介质
CN113779879A (zh) * 2021-09-06 2021-12-10 安徽大学 一种基于LSTM-seq2seq-attention模型的中长期用电异常检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116957049A (zh) * 2023-09-20 2023-10-27 南京邮电大学 基于对抗自编码器的无监督内部威胁检测方法
CN116957049B (zh) * 2023-09-20 2023-12-15 南京邮电大学 基于对抗自编码器的无监督内部威胁检测方法

Also Published As

Publication number Publication date
CN114401135B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Ding et al. Real-time anomaly detection based on long short-Term memory and Gaussian Mixture Model
Idri et al. Can neural networks be easily interpreted in software cost estimation?
CN110213244A (zh) 一种基于时空特征融合的网络入侵检测方法
Tang et al. GRU-based interpretable multivariate time series anomaly detection in industrial control system
Du et al. GAN-based anomaly detection for multivariate time series using polluted training set
CN115618296A (zh) 一种基于图注意力网络的大坝监测时序数据异常检测方法
CN111881299B (zh) 基于复制神经网络的离群事件检测与识别方法
Assaad et al. Predicting the price of crude oil and its fluctuations using computational econometrics: deep learning, LSTM, and convolutional neural networks
Tan et al. Multi-node load forecasting based on multi-task learning with modal feature extraction
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN116050281A (zh) 一种基坑变形监测方法及系统
Yang et al. An intelligent singular value diagnostic method for concrete dam deformation monitoring
Al-Shabi et al. Using deep learning to detecting abnormal behavior in internet of things
CN116307103A (zh) 一种基于硬参数共享多任务学习的交通事故预测方法
Nourani et al. Forecasting stock prices using a hybrid artificial bee colony based neural network
Tang et al. Prediction of bearing performance degradation with bottleneck feature based on LSTM network
CN114401135B (zh) 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法
Zhang Financial data anomaly detection method based on decision tree and random forest algorithm
Li et al. A LSTM-based method for comprehension and evaluation of network security situation
Xu et al. Global attention mechanism based deep learning for remaining useful life prediction of aero-engine
CN109858245A (zh) 一种基于改进深度置信网络的入侵检测方法
Yu et al. DTAAD: Dual TCN-attention networks for anomaly detection in multivariate time series data
Bi et al. Improved network intrusion classification with attention-assisted bidirectional LSTM and optimized sparse contractive autoencoders
Bi et al. Integrated spatio-temporal prediction for water quality with graph attention network and WaveNet
Li et al. Applying Unascertained Theory, Principal Component Analysis and ACO-based Artificial Neural Networks for Real Estate Price Determination.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant