CN109302410A - 一种内部用户异常行为检测方法、系统及计算机存储介质 - Google Patents

一种内部用户异常行为检测方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN109302410A
CN109302410A CN201811293726.3A CN201811293726A CN109302410A CN 109302410 A CN109302410 A CN 109302410A CN 201811293726 A CN201811293726 A CN 201811293726A CN 109302410 A CN109302410 A CN 109302410A
Authority
CN
China
Prior art keywords
output data
output
data
user
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811293726.3A
Other languages
English (en)
Other versions
CN109302410B (zh
Inventor
陶晓玲
孔凯传
王勇
邱麒麒
刘洋
史科杏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201811293726.3A priority Critical patent/CN109302410B/zh
Publication of CN109302410A publication Critical patent/CN109302410A/zh
Application granted granted Critical
Publication of CN109302410B publication Critical patent/CN109302410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种内部用户异常行为检测方法,包括采集用户在Linux系统中的操作命令;对采集到的所述操作命令做预处理,得到有固定行数的矩阵;根据所述预处理后的数据生成词汇表;根据所述词汇表将操作命令由英文格式转换为有序的数值形式;按一定比例将采集到的样本数据划分为训练集和测试集;使用LSTM算法对所述训练集进行训练,得到训练模型;使用所述训练模型对测试集进行验证得到输出数据;使用双峰法对所述输出数据进行分析并确定判决阈值;通过所述判决阈值判断用户是否存在异常操作行为。本发明利用长短期记忆网络与双峰法结合,能够更加准确区分不同类型数据,全面的提升模型检测用户异常行为能力,提升用户异常行为检测的查全率,查准率。

Description

一种内部用户异常行为检测方法、系统及计算机存储介质
技术领域
本发明涉及一种异常检测方法,具体涉及一种基于LSTM+2Peak的内部用户异常行为检测方法。
背景技术
随着互联网的普及和网络技术的发展,网络规模不断增大,网络安全问题也日益突出。通常网络安全防御主要针对外部攻击,而对内部用户对网络造成的威胁关注较少。由于内部人员可以接触到公司或组织的核心资产或业务,具有职务或权限的便利性,一旦内部人员发起攻击,将对公司或组织造成更大的威胁。由于内部威胁具有高危性、隐蔽性和多元性,所以对内部用户异常行为检测带来了挑战。组织或机构通常将服务部署在Linux系统中,内部人员通过直接或远程操作管理相关服务,但近年来,曝出多起企业、组织内部人员因恶意或疏忽操作造成服务瘫痪、数据丢失、病毒植入等事件,给企业或组织造成了恶劣的社会影响和严重的经济损失,因此,对于检测内部用户在Linux系统中的操作命令是否存在异常至关重要。现有的网络安全态势评估阶段用户异常行为评估查准率,查全率低,模型较为复杂,且效果不高。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种内部用户异常行为检测方法、系统及计算机存储介质。
为实现上述目的及其他相关目的,本发明提供一种内部用户异常行为检测方法,该方法包括:
采集用户在Linux系统中的操作命令;
对采集到的所述操作命令做预处理,得到有固定行数的命令矩阵;
根据所述预处理后的数据生成词汇表;
根据所述词汇表将操作命令由英文格式转换为有序的数值形式;
按一定比例将采集到的样本数据划分为训练集和测试集;
使用LSTM算法对所述训练集进行训练,得到训练模型;
使用所述训练模型对测试集进行验证得到输出数据;
使用双峰法对所述输出数据进行分析并确定判决阈值;
通过所述判决阈值判断用户是否存在异常操作行为。
可选地,所述使用双峰法对所述输出数据进行分析并确定判决阈值,具体包括:
读入LSTM模型输出数据,统计输出数据个数n以及每个输出数据对应的值Yi,1≤i≤n;
统计0~1范围内的数值的个数,画出对应输出数据直方图;
根据所述直方图选取最高双峰之间的谷底对应的数值作为阈值ω。
可选地,所述通过所述判决阈值判断用户是否存在异常操作行为,具体为:
遍历原始输出数据,根据选取的阈值对所述输出数据进行分类,若所述输出数据大于或等于阈值ω的输出值划为正常操作,输出设定Yend设置为0,若所述输出数据小于阈值ω划为异常操作,输出设定Yend设置为1。
可选地,所述LSTM模型包括输入层、嵌入层、LSTM层、全连接层和回归层。
可选地,所述LSTM模型包括:
遗忘门ft,遗忘门ft表示为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,Wf是遗忘门的权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上一时刻的输出ht-1作为输入,bf是遗忘门的偏置项,σ是门限,选取sigmoid函数;
输入门it,输入门it表示为:
it=σ(Wi·[ht-1,xt]+bi)
其中,Wi是输入门的权重矩阵,bi是输入门的偏置项,σ是门限,选取sigmoid函数;
当前时刻的候选Cell单元状态表示为:
其中,Wc为权重矩阵,bc为偏置项,tanh是门限,选取tanh函数;
当前时刻的Cell单元状态Ct表示为:
输出门ot,输出门ot表示为:
ot=σ(Wo·[ht-1,xt]+bo)
其中,Wo表示输出权重矩阵,bo表示偏置项,σ是门限,选取sigmoid函数;
LSTM的最终输出ht表示为:
ht=ot*tanh(Ct)。
为实现上述目的及其他相关目的,本发明还提供一种内部用户异常行为检测系统,该检测系统包括:
采集单元,用于采集用户在Linux系统中的操作命令;
预处理单元,用于对采集到的所述操作命令做预处理,得到有固定行数的矩阵;
生成单元,用于根据所述预处理后的数据生成词汇表;
转换单元,用于根据所述词汇表将操作命令由英文格式转换为有序的数值形式;
划分单元,用于按一定比例将采集到的样本数据划分为训练集和测试集;
训练单元,用于使用LSTM算法对所述训练集进行训练,得到训练模型;
验证单元,用于使用所述训练模型对测试集进行验证得到输出数据;
分析单元,用于使用双峰法对所述输出数据进行分析并确定判决阈值;
判决单元,用于通过所述判决阈值判断用户是否存在异常操作行为。
可选地,所述分析单元包括:
统计单元,用于读入LSTM模型输出数据,统计输出数据个数n以及每个输出数据对应的值Yi,(1≤i≤n);
输出单元,用于统计0~1范围内的数值的个数,画出对应输出数据直方图;
选取单元,用于根据所述直方图选取最高双峰之间的谷底对应的灰度级作为阈值ω。
可选地,所述判决单元的判决过程为:遍历原始输出数据,根据选取的阈值对所述输出数据进行分类,若所述输出数据大于或等于阈值ω的输出值划为正常操作,输出设定Yend设置为0,若所述输出数据小于阈值ω划为异常操作,输出设定Yend设置为1。
可选地,所述LSTM模型包括:
遗忘门ft,遗忘门ft表示为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,Wf是遗忘门的权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上一时刻的输出ht-1作为输入,bf是遗忘门的偏置项,σ是门限,选取sigmoid函数;
输入门it,输入门it表示为:
it=σ(Wi·[ht-1,xt]+bi)
其中,Wi是输入门的权重矩阵,bi是输入门的偏置项,σ是门限,选取sigmoid函数;
当前时刻的候选Cell单元状态表示为:
其中,Wc为权重矩阵,bc为偏置项,tanh是门限,选取tanh函数;
当前时刻的Cell单元状态Ct表示为:
输出门ot,输出门ot表示为:
ot=σ(Wo·[ht-1,xt]+bo)
其中,Wo表示输出权重矩阵,bo表示偏置项,σ是门限,选取sigmoid函数;
LSTM的最终输出ht表示为:
ht=ot*tanh(Ct)。
为实现上述目的及其他相关目的,本发明还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现内部用户异常行为检测方法。
如上所述,本发明的一种内部用户异常行为检测方法、系统及计算机存储介质,具有以下有益效果:
本发明利用长短期记忆算法(LSTM)适合处理和预测时间序列问题,对于数据量较大,维度较高的,复杂度较高等问题的优势,解决了复杂网络环境下,大量用户行为数据当中识别用户异常行为难度大、准确度较低的问题;
本发明利用长短期记忆算法(LSTM)不用人为地设计和提取特征,传统机器学习方法对于文本特征的配置和提取都具有一定的难度,并且通过对用户操作命令作词汇表的处理降低了操作命令的维度,同时也缩短了训练时间,由于深度学习的模型还可以通过GPU来训练,可以缩短相应的模型训练时间,模型的适用性更强,鲁棒性更高;
本发明利用长短期记忆网络(LSTM)与双峰法结合,双峰法能够更加准确区分不同类型数据,全面的提升模型检测用户异常行为能力,提升用户异常行为检测的查全率,查准率。
附图说明
为了进一步阐述本发明所描述的内容,下面结合附图对本发明的具体实施方式作进一步详细的说明。应当理解,这些附图仅作为典型示例,而不应看作是对本发明的范围的限定。
图1为LSTM算法处理流程图;
图2为生成的词汇表图;
图3为双峰法阈值分析直方图;
图4为LSTM算法精度(Accuracy)变化趋势图;
图5为LSTM损失值(Loss)变化趋势图;
图6为LSTM网络算法结构图
图7为LSTM网络算法结构流动图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本发明提供一种内部用户异常行为检测方法,为了便于实现与验证,这里采用SEA数据集作为实例数据,具体描述步骤如下:
步骤S1、采集内部用户在Linux系统中的操作命令。于一实施例中,步骤S1具体包括以下子步骤:
S11、对于内部用户在Linux系统中操作命令的采集:选用SEA数据集,其中,SEA数据集包含70多个用户在UNIX系统下的操作命令信息,每个用户均记录了15000条操作命令,从所有用户中随机抽取50个用户设为正常用户,剩余用户的命令块被随机插入50个用户当中作为模拟内部攻击命令。每个用户的操作命令数据按照连续的100个操作命令一组作为一个命令块,每个命令块给定一个0或1作为标签,其中,0代表正常,1代表异常,最终将每个用户的命令分为150个命令块,前三分之一命令块是该用户的正常行为,后三分之二命令块中随机插入恶意数据作为异常行为。SEA数据集中给定任意一个测试集命令块,其中含有恶意操作指令的概率为1%,当有一个命令块中含有恶意命令,则后续命令块中含有恶意命令的概率会达到80%。SEA数据集的用户操作行为命令数据和标签分别存储在不同的文件中。
S12、读取SEA数据集中的所有用户文件所有U1,U2,……U50数据和用户标签文件L。其中Ui(1≤i≤50)文件中数据维度为[15000,1],L文件中数据维度为[100,50],。
步骤S2、对采集到的操作命令做预处理,得到有固定行列数的矩阵。于一实施例中,步骤S2具体包括以下子步骤:
S21、对数据集进行预处理,将每个用户文件Ui(1≤i≤50)的15000个命令首尾相连组合成一个数据维度为[7500,100]的文件D。
S22、在标签文件L中的标签之前增加[50,50]的全0矩阵,生成一个数据维度为[150,50]的文件M。
步骤S3、根据预处理后的数据D生成词汇表,如图2所示。于一实施例中,步骤S3具体包括以下子步骤:
S31、利用tensorflow自带的VocabularyProcessor方法提取文件D中存在的词汇,生成词汇表,在词汇表中,每个词对应一个数值。
步骤S4、使用词汇表将操作命令转换为数值形式。
通过构建的词汇表模型将文件D处理成具有词序的文件E,其数据维度为[7500,100],实现将命令转化为数值形式。
步骤S5、按一定比例将样本数据划分为训练集和测试集。于一实施例中,步骤S5具体包括以下子步骤:
S51、提取文件E中U1,U2,……U10位用户数据用于实验,其中前9位用户的操作行为作为训练集数据,文件为Train,数据维度为[1350,100],第10位用户数据用作测试集数据,文件名为Test,数据维度为[150,100]。
S52、提取标签文件M的前10列,其中,前9列划分为训练集标签文件Train_label,数据维度为[150,9],第10列为测试集标签文件Test_label,数据维度为[150,1]。
步骤S6、使用LSTM算法对训练集进行训练,得到训练模型,如图6所示于一实施例中,步骤S6具体包括以下子步骤:
S61、使用LSTM算法对训练集T1进行训练,LSTM算法训练过程主要通过TensorFlow的高级模块Keras实现,通过调用Keras的内部组件构建模型,其中包含构建一个输入层、一个嵌入(Embedding)层、一个LSTM层、一个全连接层和一个回归层。
步骤S7、使用训练模型对测试集进行计算得到输出数据。于一实施例中,步骤S7具体包括以下子步骤:
S71、使用训练好的模型对测试集Test进行分类预测,得出[0,1]之间的预测输出Yp
步骤S8、使用双峰法对输出数据进行分析并确定判决阈值。
双峰法又称直方图双峰法,是一种典型的全局单阈值的二值化图像分割方法。图像二值化在图像处理中常被用来识别图像中的目标物体,分割图像的前景和背景区域,对于正确分析图像所包含的信息有很重要的作用。
于一实施例中,步骤S8具体包括以下子步骤:
S81、读入LSTM模型输出数据,统计输出数据个数n,每个输出数据对应的值Yi,1≤i≤n;。
S82、统计0~1范围内的数值的个数,画出对应输出数据直方图。
S83、根据灰度直方图选取最高双峰之间的谷底对应的灰度级作为阈值ω。
步骤S9、通过判决阈值判断用户是否存在异常操作行为。于一实施例中,步骤S9具体包括以下子步骤:
遍历原始输出数据,根据选取的阈值对输出进行分类,大于等于阈值ω的输出值划为正常操作,输出设定Yend设置为0,小于阈值ω划为异常操作,输出设定Yend设置为1。
以查准率P,查全率R和F1为指标评定模型效果。为了验证该方法的有效性,使用朴素贝叶斯(NB)、多层感知机(MLP)和LSTM算法与LSTM+2Peak算法作对比实验,实验结果如表1所示。
表1 NB、MLP、LSTM与LSTM+2Peak算法实验结果
由表1可以看出,朴素贝叶斯算法(NB)虽然有较高的查准率(94.15%),但查全率不高(82.00%)。查全率R在用户安全行为评估中代表着能够将用户的正常操作行为和异常操作行为全部查找出来的概率,因此查全率R在用户行为评估阶段中甚至比查准率P具有更大的参考价值。较低低的查全率也导致F1指标较低(85.6%),说明朴素贝叶斯算法(NB)并不能很好的将用户的正常操作行为或异常操作行为检测出来,不能在查准率P和查全率R之间做到平衡。
多层感知机算法(MLP)虽然查准率(83.08%)比朴素贝叶斯算法(NB)的查准率(93.85%)有所降低,但查全率R却有了很大的提高,已经达到91.33%,说明多层感知机算法(MLP)能够将用户的正常行为和异常行为有效的检测出来,并具有较高的查准率,F1指标(87.20%)也说明了多层感知机算法(MLP)能够在查准率P和查全率R之间达到较好的平衡。
长短期记忆网络(LSTM)与多层感知机算法(MLP)类似,具有相似的查准率(83.26%)、查全率(89.33)、F1指标(86.19%),且相对于朴素贝叶斯算法(NB),具备较高的查准率,说明,LSTM算法,在用户的正常行为和异常行为检测中也具备一定的优势。
长短期记忆网络加双峰阈值判别法(LSTM+2Peak)相较于朴素贝叶斯算法(NB)和多层感知机算法(MLP)以及长短期记忆网络(LSTM)在查准率和查全率方面都有所提高,查准率P达到98.38%,查全率R达到98.00%,说明长短期记忆网络加双峰阈值判别法(LSTM+2Peak)不仅能够正确判断用户操作行为是否异常,而且能够有效的将用户的正常行为和异常行为检测出来,F1指标达到98.09%也能够说明长短期记忆网络(LSTM)能够有效平衡查准率P和查全率R。
通过TensorFlow自带的Web可视化展示工具TensorBoard可以查看长短期记忆网络(LSTM)训练时的各种参数,如图4示了训练过程中准确率(Accuracy)变化趋势,可以看出准确率(Accuracy)迅速提高并趋于稳定。图5展示了训练过程中损失值(Loss)的变化趋势,虽然损失值在训练过程中仍有一定的波动,但最后稳定在0.01左右,由此可以说明长短期记忆网络(LSTM)在训练过程中能够快速收敛并趋于稳定。
通过TensorBoard的计算图(Graph)可以查看整个TensorFlow计算图的内部结构,图7展示了长短期记忆网络(LSTM)算法的完整结构流动图,由于纸张大小限制,这里仅展示主体结构,内部细节不再展开。通过图7可以看到与图6中LSTM网络算法流程图所述相同的结构,同时可以看到数据流动过程,LSTM网络算法首先输入数据(InputData),接着经过一个嵌入(Embedding)层将非矢量的输入数据转换为机器学习算法能够处理的数据,然后这些数据进入长短期记忆网络(LSTM)进行训练,之后经过一个全连接层(FullConnected),最后得到精度(Accuracy)。在训练过程中主要使用激活函数Adam,所以可以在图7有大量数据与Adam进行交互。
本发明将深度学习算法与网络安全态势评估相结合,利用深度学习算法LSTM在处理与分析时序问题上的优势,解决异常检测中内部用户异常行为检测问题。利用长短期记忆算法(LSTM)适合处理和预测时间序列问题,对于数据量较大,维度较高的,复杂度较高等问题的优势,解决了复杂网络环境下,大量用户行为数据当中识别用户异常行为难度大、准确度较低的问题;利用长短期记忆算法(LSTM)不用人为地设计和提取特征,传统机器学习方法对于文本特征的配置和提取都具有一定的难度,并且通过对用户操作命令作词汇表的处理降低了操作命令的维度,同时也缩短了训练时间,由于深度学习的模型还可以通过GPU来训练,可以缩短相应的模型训练时间,模型的适用性更强,鲁棒性更高;利用长短期记忆网络(LSTM)与双峰法结合,双峰法能够更加准确区分不同类型数据,全面的提升模型检测用户异常行为能力,提升用户异常行为检测的查全率,查准率。
本发明还提供一种内部用户异常行为检测系统,该检测系统包括:
采集单元,用于采集用户在Linux系统中的操作命令;
预处理单元,用于对采集到的所述操作命令做预处理,得到有固定行数的矩阵;
生成单元,用于根据所述预处理后的数据生成词汇表;
转换单元,用于根据所述词汇表将操作命令由英文格式转换为有序的数值形式;
划分单元,用于按一定比例将采集到的样本数据划分为训练集和测试集;
训练单元,用于使用LSTM算法对所述训练集进行训练,得到训练模型;
验证单元,用于使用所述训练模型对测试集进行验证得到输出数据;
分析单元,用于使用双峰法对所述输出数据进行分析并确定判决阈值;
判决单元,用于通过所述判决阈值判断用户是否存在异常操作行为。
于一实施例中,所述分析单元包括:
统计单元,用于读入LSTM模型输出数据,统计输出数据个数n以及每个输出数据对应的值Yi
输出单元,用于统计0~1范围内的数值的个数,画出对应输出数据直方图;
选取单元,用于根据所述直方图选取最高双峰之间的谷底对应的灰度级作为阈值ω。
于一实施例中,所述判决单元的判决过程为:遍历原始输出数据,根据选取的阈值对所述输出数据进行分类,若所述输出数据大于或等于阈值ω的输出值划为正常操作,输出设定Yend设置为0,若所述输出数据小于阈值ω划为异常操作,输出设定Yend设置为1。
于一实施例中,所述LSTM模型包括遗忘门、输入门和输出门。
遗忘门ft是LSTM中第一步,决定从上一时刻传来的信息哪些需要从单元状态中抛弃.可表示为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,Wf是遗忘门的权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上一时刻的输出ht-1作为输入,bf是遗忘门的偏置项,σ是门限,选取sigmoid函数,遗忘门会通过计算来决定是否在Ct中遗忘Cell单元上一时刻状态Ct-1
输入门it表示为:
it=σ(Wi·[ht-1,xt]+bi)
其中,Wi是输入门的权重矩阵,[ht-1,xt]表示以当时刻的输入xt和上一时刻的输出ht-1作为输入,bi是输入门的偏置项,σ是门限,选取sigmoid函数,输入门会通过计算来决定是否将当前信息更新到Ct中。
当前时刻的候选Cell单元状态表示为:
其中,Wc为权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上一时刻的输出ht-1作为输入,bc为偏置项,tanh是门限,选取tanh函数,的值会最终传递到Cell单元状态Ct当中。
当前时刻的Cell单元状态Ct表示为:
是由上一时刻的Cell单元状态Ct-1与遗忘门ft的乘积,以及前输入的候选Cell单元状态与输入门it的乘积进行调节的,Cell单元状态Ct最终将输出到ot
输出门ot表示为:
ot=σ(Wo·[ht-1,xt]+bo)
其中,Wo表示输出权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上时刻的输出ht-1作为输入,bo表示偏置项,σ是门限,选取sigmoid函数,输出门会通过计算来将当前时刻输出信息传递到ht中。
LSTM的最终输出ht表示为:
ht=ot*tanh(Ct)
其中,ht由输出门ot和Cell单元状态Ct共同决定,tanh是门限,选取tanh函数。本发明还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现内部用户异常行为检测方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种内部用户异常行为检测方法,其特征在于,该方法包括:
采集用户在Linux系统中的操作命令;
对采集到的所述操作命令做预处理,得到有固定行数的命令矩阵;
根据所述预处理后的数据生成词汇表;
根据所述词汇表将操作命令由英文格式转换为有序的数值形式;
按一定比例将采集到的样本数据划分为训练集和测试集;
使用LSTM算法对所述训练集进行训练,得到训练模型;
使用所述训练模型对测试集进行验证得到输出数据;
使用双峰法对所述输出数据进行分析并确定判决阈值;
通过所述判决阈值判断用户是否存在异常操作行为。
2.根据权利要求1所述的一种内部用户异常行为检测方法,其特征在于,所述使用双峰法对所述输出数据进行分析并确定判决阈值,具体包括:
读入LSTM模型输出数据,统计输出数据个数n以及每个输出数据对应的值Yi,1≤i≤n;
统计0~1范围内的数值的个数,画出对应输出数据直方图;
根据所述直方图选取最高双峰之间的谷底对应的数值作为阈值ω。
3.根据权利要求2所述的一种内部用户异常行为检测方法,其特征在于,所述通过所述判决阈值判断用户是否存在异常操作行为,具体为:
遍历原始输出数据,根据选取的阈值对所述输出数据进行分类,若所述输出数据大于或等于阈值ω的输出值划为正常操作,输出设定Yend设置为0,若所述输出数据小于阈值ω划为异常操作,输出设定Yend设置为1。
4.根据权利要求1所述的一种内部用户异常行为检测方法,其特征在于,所述LSTM模型包括输入层、嵌入层、LSTM层、全连接层和回归层。
5.根据权利要求1所述的一种内部用户异常行为检测方法,其特征在于,所述LSTM模型包括:
遗忘门ft,遗忘门ft表示为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,Wf是遗忘门的权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上一时刻的输出ht-1作为输入,bf是遗忘门的偏置项,σ是门限,选取sigmoid函数;
输入门it,输入门it表示为:
it=σ(Wi·[ht-1,xt]+bi)
其中,Wi是输入门的权重矩阵,bi是输入门的偏置项,σ是门限,选取sigmoid函数;
当前时刻的候选Cell单元状态表示为:
其中,Wc为权重矩阵,bc为偏置项,tanh是门限,选取tanh函数;
当前时刻的Cell单元状态Ct表示为:
输出门ot,输出门ot表示为:
ot=σ(Wo·[ht-1,xt]+bo)
其中,Wo表示输出权重矩阵,bo表示偏置项,σ是门限,选取sigmoid函数;
LSTM的最终输出ht表示为:
ht=ot*tanh(Ct)。
6.一种内部用户异常行为检测系统,其特征在于,该检测系统包括:
采集单元,用于采集用户在Linux系统中的操作命令;
预处理单元,用于对采集到的所述操作命令做预处理,得到有固定行数的命令矩阵;
生成单元,用于根据所述预处理后的数据生成词汇表;
转换单元,用于根据所述词汇表将操作命令由英文格式转换为有序的数值形式;
划分单元,用于按一定比例将采集到的样本数据划分为训练集和测试集;
训练单元,用于使用LSTM算法对所述训练集进行训练,得到训练模型;
验证单元,用于使用所述训练模型对测试集进行验证得到输出数据;
分析单元,用于使用双峰法对所述输出数据进行分析并确定判决阈值;
判决单元,用于通过所述判决阈值判断用户是否存在异常操作行为。
7.根据权利要求6所述的一种内部用户异常行为检测系统,其特征在于,所述分析单元包括:
统计单元,用于读入LSTM模型输出数据,统计输出数据个数n以及每个输出数据对应的值Yi,1≤i≤n;
输出单元,用于统计0~1范围内的数值的个数,画出对应输出数据直方图;
选取单元,用于根据所述直方图选取最高双峰之间的谷底对应的数值作为阈值ω。
8.根据权利要求7所述的一种内部用户异常行为检测系统,其特征在于,所述判决单元的判决过程为:遍历原始输出数据,根据选取的阈值对所述输出数据进行分类,若所述输出数据大于或等于阈值ω的输出值划为正常操作,输出设定Yend设置为0,若所述输出数据小于阈值ω划为异常操作,输出设定Yend设置为1。
9.根据权利要求6所述的一种内部用户异常行为检测系统,其特征在于,LSTM模型包括:
遗忘门ft,遗忘门ft表示为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,Wf是遗忘门的权重矩阵,[ht-1,xt]表示以当前时刻的输入xt和上一时刻的输出ht-1作为输入,bf是遗忘门的偏置项,σ是门限,选取sigmoid函数;
输入门it,输入门it表示为:
it=σ(Wi·[ht-1,xt]+bi)
其中,Wi是输入门的权重矩阵,bi是输入门的偏置项,σ是门限,选取sigmoid函数;
当前时刻的候选Cell单元状态表示为:
其中,Wc为权重矩阵,bc为偏置项,tanh是门限,选取tanh函数;
当前时刻的Cell单元状态Ct表示为:
输出门ot,输出门ot表示为:
ot=σ(Wo·[ht-1,xt]+bo)
其中,Wo表示输出权重矩阵,bo表示偏置项,σ是门限,选取sigmoid函数;
LSTM的最终输出ht表示为:
ht=ot*tanh(Ct)。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~5任意一项的述的内部用户异常行为检测方法。
CN201811293726.3A 2018-11-01 2018-11-01 一种内部用户异常行为检测方法、系统及计算机存储介质 Active CN109302410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811293726.3A CN109302410B (zh) 2018-11-01 2018-11-01 一种内部用户异常行为检测方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811293726.3A CN109302410B (zh) 2018-11-01 2018-11-01 一种内部用户异常行为检测方法、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109302410A true CN109302410A (zh) 2019-02-01
CN109302410B CN109302410B (zh) 2021-06-08

Family

ID=65146179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811293726.3A Active CN109302410B (zh) 2018-11-01 2018-11-01 一种内部用户异常行为检测方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109302410B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993222A (zh) * 2019-03-25 2019-07-09 中国科学院上海高等研究院 数据异常检测系统及方法
CN110020687A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于操作人员态势感知画像的异常行为分析方法及装置
CN110598397A (zh) * 2019-08-15 2019-12-20 广东工业大学 一种基于深度学习的Unix系统用户恶意操作检测方法
CN110677437A (zh) * 2019-11-14 2020-01-10 国网江苏省电力有限公司苏州供电分公司 基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统
CN111200607A (zh) * 2019-12-31 2020-05-26 浙江工业大学 一种基于多层lstm的线上用户行为分析方法
CN111833173A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于lstm的第三方平台支付欺诈行为在线检测方法
CN111953504A (zh) * 2019-05-15 2020-11-17 中国电信股份有限公司 异常流量检测方法和装置、计算机可读存储介质
CN112036075A (zh) * 2020-08-11 2020-12-04 中国环境监测总站 一种基于环境监测数据关联关系的异常数据判定方法
CN112738098A (zh) * 2020-12-28 2021-04-30 北京天融信网络安全技术有限公司 一种基于网络行为数据的异常检测方法及装置
CN113010504A (zh) * 2021-03-04 2021-06-22 江苏方天电力技术有限公司 基于LSTM和改进K-means算法的电力数据异常检测方法及系统
CN113011476A (zh) * 2021-03-05 2021-06-22 桂林电子科技大学 基于自适应滑动窗口gan的用户行为安全检测方法
CN113360305A (zh) * 2021-05-13 2021-09-07 杭州明实科技有限公司 计算机设备及其异常操作检测方法、装置、存储介质
CN114401135A (zh) * 2022-01-14 2022-04-26 国网河北省电力有限公司电力科学研究院 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法
CN115499185A (zh) * 2022-09-09 2022-12-20 国网电力科学研究院有限公司 一种电力监控系统网络安全客体异常行为分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN106911669A (zh) * 2017-01-10 2017-06-30 浙江工商大学 一种基于深度学习的ddos检测方法
CN106951783A (zh) * 2017-03-31 2017-07-14 国家电网公司 一种基于深度神经网络的伪装入侵检测方法及装置
CN106973039A (zh) * 2017-02-28 2017-07-21 国家电网公司 一种基于信息融合技术的网络安全态势感知模型训练方法和装置
CN107786369A (zh) * 2017-09-26 2018-03-09 广东电网有限责任公司电力调度控制中心 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法
US10015189B2 (en) * 2016-02-09 2018-07-03 International Business Machine Corporation Detecting and predicting cyber-attack phases in adjacent data processing environment regions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
US10015189B2 (en) * 2016-02-09 2018-07-03 International Business Machine Corporation Detecting and predicting cyber-attack phases in adjacent data processing environment regions
CN106911669A (zh) * 2017-01-10 2017-06-30 浙江工商大学 一种基于深度学习的ddos检测方法
CN106973039A (zh) * 2017-02-28 2017-07-21 国家电网公司 一种基于信息融合技术的网络安全态势感知模型训练方法和装置
CN106951783A (zh) * 2017-03-31 2017-07-14 国家电网公司 一种基于深度神经网络的伪装入侵检测方法及装置
CN107786369A (zh) * 2017-09-26 2018-03-09 广东电网有限责任公司电力调度控制中心 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王毅: "基于CNN和LSTM深度网络的伪装用户入侵检测", 《计算机科学与探索》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993222A (zh) * 2019-03-25 2019-07-09 中国科学院上海高等研究院 数据异常检测系统及方法
CN109993222B (zh) * 2019-03-25 2022-10-04 中国科学院上海高等研究院 数据异常检测系统及方法
CN110020687B (zh) * 2019-04-10 2021-11-05 北京神州泰岳软件股份有限公司 基于操作人员态势感知画像的异常行为分析方法及装置
CN110020687A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于操作人员态势感知画像的异常行为分析方法及装置
CN111953504B (zh) * 2019-05-15 2023-03-24 中国电信股份有限公司 异常流量检测方法和装置、计算机可读存储介质
CN111953504A (zh) * 2019-05-15 2020-11-17 中国电信股份有限公司 异常流量检测方法和装置、计算机可读存储介质
CN110598397A (zh) * 2019-08-15 2019-12-20 广东工业大学 一种基于深度学习的Unix系统用户恶意操作检测方法
CN110677437A (zh) * 2019-11-14 2020-01-10 国网江苏省电力有限公司苏州供电分公司 基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统
CN111200607A (zh) * 2019-12-31 2020-05-26 浙江工业大学 一种基于多层lstm的线上用户行为分析方法
CN111200607B (zh) * 2019-12-31 2022-04-19 浙江工业大学 一种基于多层lstm的线上用户行为分析方法
CN111833173A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于lstm的第三方平台支付欺诈行为在线检测方法
CN112036075A (zh) * 2020-08-11 2020-12-04 中国环境监测总站 一种基于环境监测数据关联关系的异常数据判定方法
CN112738098A (zh) * 2020-12-28 2021-04-30 北京天融信网络安全技术有限公司 一种基于网络行为数据的异常检测方法及装置
CN113010504A (zh) * 2021-03-04 2021-06-22 江苏方天电力技术有限公司 基于LSTM和改进K-means算法的电力数据异常检测方法及系统
CN113010504B (zh) * 2021-03-04 2022-06-10 江苏方天电力技术有限公司 基于LSTM和改进K-means算法的电力数据异常检测方法及系统
CN113011476A (zh) * 2021-03-05 2021-06-22 桂林电子科技大学 基于自适应滑动窗口gan的用户行为安全检测方法
CN113360305A (zh) * 2021-05-13 2021-09-07 杭州明实科技有限公司 计算机设备及其异常操作检测方法、装置、存储介质
CN114401135A (zh) * 2022-01-14 2022-04-26 国网河北省电力有限公司电力科学研究院 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法
CN115499185A (zh) * 2022-09-09 2022-12-20 国网电力科学研究院有限公司 一种电力监控系统网络安全客体异常行为分析方法及系统

Also Published As

Publication number Publication date
CN109302410B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN109302410A (zh) 一种内部用户异常行为检测方法、系统及计算机存储介质
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN113688042B (zh) 测试场景的确定方法、装置、电子设备及可读存储介质
CN111915437A (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN113688630B (zh) 文本内容审核方法、装置、计算机设备和存储介质
CN107609399A (zh) 基于nin神经网络的恶意代码变种检测方法
CN109309675A (zh) 一种基于卷积神经网络的网络入侵检测方法
CN112948578B (zh) 一种dga域名开集分类方法、装置、电子设备及介质
CN113468520A (zh) 应用于区块链业务的数据入侵检测方法及大数据服务器
CN111600905A (zh) 一种基于物联网异常检测方法
Xiao et al. A multitarget backdooring attack on deep neural networks with random location trigger
CN114036531A (zh) 一种基于多尺度代码度量的软件安全漏洞检测方法
CN118041689B (zh) 一种网络恶意流量检测方法
CN112818150B (zh) 一种图片内容审核方法、装置、设备和介质
CN113946703B (zh) 一种图片漏检处理方法及其相关装置
CN115314239A (zh) 基于多模型融合的隐匿恶意行为的分析方法和相关设备
Wang et al. A knowledge discovery case study of software quality prediction: Isbsg database
CN115408693A (zh) 一种基于自适应计算时间策略的恶意软件检测方法及系统
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
Khoshavi et al. Entropy-based modeling for estimating adversarial bit-flip attack impact on binarized neural network
CN113821840A (zh) 基于Bagging的硬件木马检测方法、介质、计算机
CN113344581A (zh) 业务数据处理方法及装置
CN111177713B (zh) 一种基于XGBoost的硬件木马检测方法及装置
CN116866050A (zh) 入侵攻击流量检测方法及装置、电子设备及存储介质
CN117201063A (zh) 基于多维特征提取的以太坊钓鱼诈骗地址检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190201

Assignee: GUANGXI HAOHUA TECHNOLOGY Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000317

Denomination of invention: A method, system and computer storage medium for detecting abnormal behavior of internal users

Granted publication date: 20210608

License type: Common License

Record date: 20221214