CN110737890B - 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法 - Google Patents

一种基于异质时序事件嵌入学习的内部威胁检测系统及方法 Download PDF

Info

Publication number
CN110737890B
CN110737890B CN201911021135.5A CN201911021135A CN110737890B CN 110737890 B CN110737890 B CN 110737890B CN 201911021135 A CN201911021135 A CN 201911021135A CN 110737890 B CN110737890 B CN 110737890B
Authority
CN
China
Prior art keywords
event
time sequence
heterogeneous
events
heterogeneous time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911021135.5A
Other languages
English (en)
Other versions
CN110737890A (zh
Inventor
于爱民
王佳荣
蔡利君
孟丹
马建刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201911021135.5A priority Critical patent/CN110737890B/zh
Publication of CN110737890A publication Critical patent/CN110737890A/zh
Application granted granted Critical
Publication of CN110737890B publication Critical patent/CN110737890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/556Detecting local intrusion or implementing counter-measures involving covert channels, i.e. data leakage between processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于异质时序事件嵌入学习的内部威胁检测系统及方法,包括用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块;通过对组织或者企业内用户异质时序事件的收集、数据的过滤和去噪、异质时序事件包含的实体的嵌入、异质时序事件序列概率估计和内部威胁输出4个过程实现。该方法通过综合分析用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件的多个实体,全面的刻画了用户行为,提高了该系统检测的准确率,降低了系统检测的误报率;此外,该系统通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率,使检测过程不依赖于领域专家的先验知识,提高了系统的智能性。

Description

一种基于异质时序事件嵌入学习的内部威胁检测系统及方法
技术领域
本发明涉及一种基于异质时序事件嵌入学习的内部威胁检测系统及方法,属于信息安全技术领域。
背景技术
内部威胁是恶意的内部用户利用自己的特权访问组织的网络、系统和数据,并且破坏组织信息的机密性、完整性和可用性[1]。检测内部威胁是实现组织全面保护的首要任务。
由于内部用户了解组织的网络结构和安全防御机制,因此内部用户的恶意活动可能十分隐蔽,使得难以检测。一些内部威胁检测方法通过分析一种单独的事件类型来建模用户正常行为模型,例如基于系统调用的检测方法[2]、基于键盘鼠标动态的检测方法[3][4]、基于UNIX命令的检测方法[5]、基于文件访问行为的检测方法[6]。然而以上的基于单独事件类型的检测方法只能检测特定类型的内部威胁。对于一些恶意活动,例如一个恶意用户登录其他用户的主机,查找敏感文件并使用USB拷贝来窃取数据,单独的基于登录事件的检测方法可能无法检测该恶意活动。因此,近期的研究方法结合多种类型的事件来建模用户正常行为模型[7]。大多数该类方法从多种类型的事件中提取一系列特征,然后将特征向量输入机器学习方法进行模型训练和异常检测[8][9][10][11][12]。然而基于特征工程的方法依赖于专家先验知识,并且只能检测已知类型的内部威胁。为了减少对于先验知识的依赖,一些研究方法[13][14][15]探索基于异质时序事件的检测方法。异质时序事件序列中的操作序列被抽取,用来建模用户正常行为模型。然而仅有操作实体被考虑,事件中其他的实体被忽略了。相反,本发明提出的基于异质时序事件嵌入学习的内部威胁检测系统综合地考虑了异质时序事件的多个实体来建模用户正常行为模型,使得系统在不依赖先验知识的情况下,能够准确的检测内部威胁。
[1]Costa D.L.,Albrethsen M.J.,Collins M.L.,et al.:An insider threatindicator on-tology.TECHNICAL REPORT CMU/SEI.Pittsburgh,PA:SEI,Tech.Rep.,2016.
[2]P.Parveen,J.Evans,B.Thuraisingham,K.W.Hamlen et al.,“Insiderthreat detection using stream mining and graph mining,”in Privacy,Security,Risk and Trust(PASSAT)and IEEE Third Inernational Conference on SocialComputing(SocialCom).IEEE,pp.1102–1110,2011.
[3]T.Hu,W.Niu,X.Zhang,X.Liu,J.Lu,and Y.Liu,“An Insider ThreatDetection Approach Based on Mouse Dynamics and Deep Learning.”Security andCommunication Networks,2019.
[4]A.Morales,J.Fierrez,and J.Ortega-Garcia,“Towards predicting goodusers for biometric recognition based on keystroke dynamics,”EuropeanConference on Computer Vision,Springer,vol.8926,pp.711-724,2014.
[5]M.B.Salem and S.J.Stolfo,“A comparison of one-class bag-of-wordsuser behavior modeling techniques for masquerade detection,”Security andCommunication Networks,vol.5,no.8,pp.863–872,2012.
[6]J.B.
Figure BDA0002247258750000021
R.Monroy,L.A.Trejo et al.,“Temporal and SpatialLocality:An Abstraction for Masquerade Detection,”IEEE Trans.Inf.FORENSICSSecur.,vol.11,no.9,pp.2036-2051,2016.
[7]L.Liu,O.D.Vel,Q.L.Han,J.Zhang,and Y.Xiang,“Detecting andPreventing Cyber Insider Threats:A Survey,”IEEE Communications Surveys&Tutorials,vol.20,no.2,pp.1397-1417,2018.
[8]E.Ted,H.G.Goldberg,A.Memory,W.T.Young et al.,“Detecting insiderthreats in a real corporate database of computer usage activity,”inProceedings of the 19th ACM SIGKDD international conference on Knowledgediscovery and data mining.ACM,pp.1393–1401,2013.
[9]W.T.Young,H.G.Goldberg,A.Memory,J.F.Sartain et al.,“Use of domainknowledge to detect insider threats in computer activities,”in Security andPrivacy Workshops(SPW).IEEE,pp.60–67,2013.
[10]A.Tuor,S.Kaplan,B.Hutchinson,N.Nichols,and S.Robinson,“Deeplearning for unsupervised insider threat detection in structuredcybersecurity data streams,”in AI for Cybersecurity Workshop at AAAI,2017.
[11]P.Chattopadhyay,L.Wang,and Y.P.Tan,“Scenario-Based Insider ThreatDetection From Cyber Activities.”IEEE Transactions on Computational SocialSystems,vol.5,no.3,2018.
[12]T.-F.Yen,A.Oprea,K.Onarlioglu,T.Leetham,W.Robertson,A.Juels,andE.Kirda,“Beehive:Large-scale log analysis for detecting suspicious activityin enterprise networks,”ACSAC.ACM,pp.199–208,2013.
[13]T.Rashid,I.Agrafiotis,and J.R.C.Nurse,“A new take on detectinginsider threats:exploring the use of hidden markov models,”in Proceedings ofthe 8th ACM CCS International Workshop on Managing Insider Security Threats,MIST 2016,pp.47–56,Austria,2016.
[14]O.Lo,W.J.Buchanan,P.Griffiths,and R.Macfarlane,“Distancemeasurement methods for improved insider threat detection.”Security andCommunication Networks,2018.
[15]D.W.Kim,S.S.Hong,and M.M.Han,“A study on Classification ofInsider threat using Markov Chain Model.”KSII Transactions on Internet andInformation Systems,vol.12,no.4,pp.1887-1898,2018.
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于异质时序事件嵌入学习的内部威胁检测系统及方法。该方法通过综合分析用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件的多个实体,全面的刻画了用户行为,提高了该系统检测的准确率,降低了系统检测的误报率;此外,该系统通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率,使检测过程不依赖于领域专家的先验知识,提高了系统的智能性。
本发明技术解决方案:
一种基于异质时序事件嵌入学习的内部威胁检测系统,包括:用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块,其中:
用户异质时序事件采集模块:在组织或者企业内需要监控的重要人员的主机上部署审计节点,审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件,即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体,审计节点将审计的异质时序事件实时发送到服务器;
数据预处理模块:对服务器接收的异质时序事件进行过滤,提取出有效异质时序事件;然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将集合中的异质时序事件按照时间排序;根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;最后将每个异质时序事件序列数据集划分为两部分,一部分作为训练数据集输入异质时序事件嵌入学习模块,另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块,一个用户对应一个训练数据集和一个待检测数据集;
异质时序事件嵌入学习模块:每一个异质时序事件包含4个实体,对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量;根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长;再根据实体所属的异质时序事件的事件类型设定更新速率;最后利用随机梯度上升方法,按照上述更新步长和更新速率,更新实体的嵌入向量和上下文向量。输出根据用户训练集更新后的实体的嵌入向量和上下文向量;
用户异质时序事件序列异常评估和内部威胁输出模块:对于多个用户的待检测数据集中的一个异质时序事件序列,从异质时序事件嵌入学习模块的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率。再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积,然后进行归一化,归一化的结果作为异质时序事件序列的概率,最后将异质时序事件序列的概率与阈值相比较,若概率低于设定的阈值,则该异质时序事件序列被判定为内部威胁并输出告警。
所述用户异质时序事件采集模块实现步骤如下:
(1)在组织或者企业内需要监控的重要人员的主机上部署审计节点;
(2)每个审计节点实时采集被审计主机上用户主机登录行为产生的用户主机登录事件,每一个主机登录事件审计登录时间、用户名、主机编号、登录/登出操作4个实体;
(3)每个审计节点实时采集被审计主机上用户文件访问行为产生的文件访问事件,每一个文件访问事件审计访问时间、用户名、主机编号、文件操作4个实体;
(4)每个审计节点实时采集被审计主机上用户邮件通信行为产生的邮件通信事件,每一个邮件通信事件审计通信时间、用户名、主机编号、发送/接收操作4个实体;
(5)每个审计节点实时采集被审计主机上用户web浏览行为产生的web浏览事件,每一个web浏览事件审计浏览时间、用户名、主机编号、和浏览域名4个实体;
(6)每个审计节点实时采集被审计主机上用户移动设备连接行为产生的移动设备连接事件,每一个移动设备连接事件审计连接时间、用户名、主机编号、连接/断开操作4个实体;
(7)将各个审计节点审计的多个用户的用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件共5种异质时序事件实时发送到服务器。
所述数据预处理模块实现如下:
(1)将服务器接收的异质时序事件存储到服务器的数据库中;
(2)审计节点可能多次发送同一个异质时序事件,因此对于重复的异质时序事件进行过滤,相同时间点的异质时序事件,只保留一个;
(3)审计的异质时序事件的一些实体可能存在缺失,对于缺失实体的异质时序事件进行删除;
(4)按照异质时序事件中的用户名实体,将异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将每个集合中的异质时序事件按照时间排序;
(5)设定固定的时间间隔为[Ts,Te],Ts和Te分别为开始时刻和终止时刻,在该时间间隔内的所有异质时序事件作为一个异质时序事件序列,将每个异质时序事件集合按照设定的时间间隔划分为多个异质时序事件序列,构成异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;
(6)设时间点T0之前的用户行为均为正常行为,将每个异质时序事件序列数据集划分为两部分,T0之前的所有异质时序事件序列作为训练数据集输入异质时序事件嵌入学习模块,T0之后的所有异质时序事件序列作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块。一个用户对应一个训练数据集和一个待检测数据集。
所述异质时序事件嵌入学习模块实现如下:
(1)每一个异质时序事件包含4个实体,对每一个实体赋值一个嵌入向量和一个上下文向量。对于一个训练数据集中的一个异质时序事件序列
Figure BDA0002247258750000051
通过实体嵌入向量和上下文向量的交互,计算异质时序事件序列s中起始事件
Figure BDA0002247258750000052
的概率和序列s中除了起始事件之外的其他所有异质时序事件
Figure BDA0002247258750000053
的条件概率。
(1.1)随机初始化一个异质时序事件序列s中所有异质时序事件包含的实体的嵌入向量和上下文向量,实体的嵌入向量是该实体在欧式空间的表示,实体的上下文向量是实体作为上下文角色在欧式空间的表示;
(1.2)通过实体的嵌入向量的交互计算异质时序事件序列s中起始事件
Figure BDA0002247258750000056
的概率,起始事件
Figure BDA0002247258750000057
的概率量化该事件作为异质时序事件序列起始事件的正常性;
(1.3)根据马尔科夫假设,通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列s中除了起始事件之外的其他所有异质时序事件
Figure BDA0002247258750000054
的条件概率,
Figure BDA0002247258750000055
中的一个异质时序事件ei的条件概率量化该事件和最近的k个历史异质时序事件{ei-j}1≤j≤k之间的时序关系;
(2)根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长,具体分为两个部分:①计算异质时序事件序列s中起始事件
Figure BDA0002247258750000061
的实体嵌入向量更新步长,②计算异质时序事件序列s中除了起始事件之外的异质时序事件
Figure BDA0002247258750000062
的实体上下文向量更新步长和历史异质时序事件ei-j∈{ei-j}1≤j≤k的实体的嵌入向量更新步长;
(2.1)对于异质时序事件序列s中的起始事件
Figure BDA0002247258750000063
进行负采样,即随机选择实体,生成训练数据集中不存在的ns个异质时序事件
Figure BDA0002247258750000064
作为负样本,然后最大化起始事件概率函数,求起始事件
Figure BDA0002247258750000065
的实体嵌入向量的偏导数,得到起始事件
Figure BDA0002247258750000066
的实体嵌入向量更新步长;
(2.2)对于异质时序事件序列s中除了起始事件之外的一个异质时序事件
Figure BDA0002247258750000067
进行负采样,即随机选择实体生成训练数据集中不存在的ns个异质时序事件Nns(ei)作为负样本,然后最大化事件ei的条件概率函数,分别求异质时序事件ei的实体上下文向量和一个历史异质时序事件ei-j∈{ei-j}1≤j≤k的实体的嵌入向量的偏导数,得到异质时序事件ei的实体上下文向量的更新步长和ei-j的实体的嵌入向量的更新步长;
(3)根据实体所属的异质时序事件的事件类型,即异质时序事件属于主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件中的一种,设定实体嵌入向量和上下文向量的更新速率;
(4)利用随机梯度上升方法,根据(2)中的更新步长和(3)中更新速率,更新异质时序事件包含的实体的嵌入向量和上下文向量;
(4.1)从训练数据集中取一个异质时序事件序列s;
(4.2)从s中取出起始事件
Figure BDA0002247258750000068
及其通过负采样得到的负样本
Figure BDA0002247258750000069
按照(2.1)的更新步长和(3)的更新速率,通过随机梯度上升更新起始事件
Figure BDA00022472587500000610
和负样本
Figure BDA00022472587500000611
包含的实体的嵌入向量;
(4.3)从s中取出除了起始事件之外的其他所有异质时序事件
Figure BDA00022472587500000612
(4.4)从
Figure BDA00022472587500000613
中取出一个异质时序事件ei及其通过负采样得到的负样本Nns(ei),按照(2.2)的更新步长和(3)的更新速率,通过随机梯度上升更新异质时序事件ei和负样本Nns(ei)包含的实体的上下文向量;
(4.5)根据ei,取出其最近的k个历史异质时序事件{ei-j}1≤j≤k
(4.6)从{ei-j}1≤j≤k中取出一个异质时序事件ei-j,按照(2.2)的更新步长和(3)的更新速率,通过随机梯度上升更新异质时序事件ei-j包含的实体的嵌入向量;
(4.7)依次从{ei-j}1≤j≤k中取出异质时序事件ei-j,执行(4.6)更新其包含的实体的嵌入向量;
(4.8)依次从
Figure BDA0002247258750000071
中取出异质时序事件ei,执行(4.4)至(4.7);
(4.9)依次从训练数据集中取出异质时序事件序列s,执行(4.2)至(4.8);
(4.10)根据多个用户的训练数据集,输出通过每个用户对应的训练数据集更新后的实体的嵌入向量和上下文向量。
所述用户异质时序事件序列异常评估和内部威胁输出模块实现步骤如下:
(1)对于一个用户的待检测数据集中的一个异质时序事件序列s′,从异质时序事件嵌入学习模块的输出抽取序列s′中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列s′中的起始事件
Figure BDA0002247258750000072
的概率和序列s′中除了起始事件之外的其他所有异质时序事件
Figure BDA0002247258750000073
的条件概率。再通过链式法则计算起始事件
Figure BDA0002247258750000074
的概率和
Figure BDA0002247258750000075
中所有e′i的条件概率的乘积。
(2)根据事件序列s′的长度,将(1)中得到的乘积值归一化,归一化的结果作为异质时序事件序列s′的概率;
(3)将异质时序事件序列s′的概率与设定的阈值相比较,若概率低于用户设定的阈值,则该异质时序事件序列s′被判定为内部威胁并输出告警。
(4)依次从多个用户对应的待检测数据集中取出异质时序事件序列s′,执行(1)至(3)。
本发明的一种基于异质时序事件嵌入学习的内部威胁检测方法,包括以下步骤:
(1)用户异质时序事件采集步骤:在组织或者企业内需要监控的重要人员的主机上部署审计节点,审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件,即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体,审计节点将审计的异质时序事件实时发送到服务器;
(2)数据预处理步骤:对服务器接收的异质时序事件进行过滤,提取出有效异质时序事件;然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将集合中的异质时序事件按照时间排序;根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;最后将每个异质时序事件序列数据集划分为两部分,一部分作为训练数据集输入异质时序事件嵌入学习步骤,另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出步骤,一个用户对应一个训练数据集和一个待检测数据集;
(3)异质时序事件嵌入学习步骤:每一个异质时序事件包含4个实体,对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量;根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长;再根据实体所属的异质时序事件的事件类型设定更新速率;最后利用随机梯度上升方法,按照上述更新步长和更新速率,更新实体的嵌入向量和上下文向量,输出根据用户训练集更新后的实体的嵌入向量和上下文向量;
(4)用户异质时序事件序列异常评估和内部威胁输出步骤:对于多个用户的待检测数据集中的一个异质时序事件序列,从异质时序事件嵌入学习步骤的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率,再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积,然后进行归一化,归一化的结果作为异质时序事件序列的概率,最后将异质时序事件序列的概率与阈值相比较,若概率低于设定的阈值,则该异质时序事件序列被判定为内部威胁并输出告警。
本发明与现有技术相比的优点在于:
(1)本发明综合分析了用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,与现有的基于文件访问事件的单独事件类型的分析方法相比,提供了更准确的行为刻画方法。
(2)本发明通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率,再根据概率得到异常检测结果,与现有的基于特征工程的异常检测方法相比,本发明不依赖于专家的先验知识,提高了系统的智能性。
(3)为了同时考虑异质时序事件的多个实体,本发明采用实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率,与现有的只考虑异质时序事件中单个实体的方法相比,本发明提高了异常检测的准确率,降低了误报率。
附图说明
图1为发明的系统框图;
图2为异质时序事件序列中起始事件概率计算框架;
图3为异质时序事件序列中一个异质时序事件与其历史时序事件之间关系概率计算框架。
具体实施方式
为了更好地理解本发明,先对一些基本概念进行一下解释说明。
异质时序事件:用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的每一个事件为异质时序事件。即异质时序事件包括用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件。
异质时序事件的实体:每个异质时序事件包括时间、用户名、主机编号、操作4个实体。
异质时序事件序列:在固定的时间间隔内由多个异质时序事件按时间先后组成的集合。
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明包括用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块。
下面对上述4个模块分别进行详细说明。
步骤1:用户异质时序事件采集模块
(1)在组织或者企业内需要监控的重要人员的主机上部署审计节点;
(2)每个审计节点实时采集被审计主机上用户主机登录行为产生的用户主机登录事件,每一个主机登录事件审计登录时间、用户名、主机编号、登录/登出操作4个实体;
(3)每个审计节点实时采集被审计主机上用户文件访问行为产生的文件访问事件,每一个文件访问事件审计访问时间、用户名、主机编号、文件操作4个实体。
(4)每个审计节点实时采集被审计主机上用户邮件通信行为产生的邮件通信事件,每一个邮件通信事件审计通信时间、用户名、主机编号、发送/接收操作4个实体。
(5)每个审计节点实时采集被审计主机上用户web浏览行为产生的web浏览事件,每一个web浏览事件审计浏览时间、用户名、主机编号、和浏览域名4个实体;
(6)每个审计节点实时采集被审计主机上用户移动设备连接行为产生的移动设备连接事件,每一个移动设备连接事件审计连接时间、用户名、主机编号、连接/断开操作4个实体;
(7)将各个审计节点审计的多个用户的用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件共5种异质时序事件实时发送到服务器。
步骤2:数据预处理模块
(1)将服务器接收的异质时序事件存储到服务器的数据库中;
(2)审计节点可能多次发送同一个异质时序事件,因此对于重复的异质时序事件进行过滤,相同时间点的异质时序事件,只保留一个;
(3)审计的异质时序事件的一些实体可能存在缺失,对于缺失实体的异质时序事件进行删除;
(4)按照异质时序事件中的用户名实体,将异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将每个集合中的异质时序事件按照时间排序;
(5)设定固定的时间间隔为[Ts,Te],Ts和Te分别为开始时刻和终止时刻,在该时间间隔内的所有异质时序事件作为一个异质时序事件序列,将每个异质时序事件集合按照设定的时间间隔划分为多个异质时序事件序列,构成异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;
(6)设时间点T0之前的用户行为均为正常行为,将每个异质时序事件序列数据集划分为两部分,T0之前的所有异质时序事件序列作为训练数据集输入异质时序事件嵌入学习模块,T0之后的所有异质时序事件序列作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块。一个用户对应一个训练数据集和一个待检测数据集。
步骤3:异质时序事件嵌入学习模块
(1)每一个异质时序事件包含4个实体,对每一个实体赋值一个嵌入向量和一个上下文向量。对于一个训练数据集中的一个异质时序事件序列
Figure BDA0002247258750000101
通过实体嵌入向量和上下文向量的交互,计算异质时序事件序列s中起始事件
Figure BDA0002247258750000102
的概率和序列s中除了起始事件之外的其他所有异质时序事件
Figure BDA0002247258750000103
的条件概率。
(1.1)随机初始化一个异质时序事件序列s中所有异质时序事件包含的实体的嵌入向量和上下文向量,任一个实体记为实体x,实体的嵌入向量记为vx和上下文向量记为θx。实体的嵌入向量vx是实体x在欧式空间的表示,实体的上下文向量θx是实体x作为上下文角色在欧式空间的表示;
(1.2)通过实体的嵌入向量的交互计算异质时序事件序列s中起始事件
Figure BDA0002247258750000104
的概率
Figure BDA0002247258750000114
如图2所示,起始事件
Figure BDA0002247258750000115
的概率量化该事件作为异质时序事件序列起始事件的正常性,计算公式为:
Figure BDA0002247258750000111
其中σ(y)=1/(1+exp(-y))是sigmoid函数。
Figure BDA0002247258750000116
是事件
Figure BDA0002247258750000117
的第p个实体,
Figure BDA0002247258750000118
是实体
Figure BDA0002247258750000119
的嵌入向量。
Figure BDA00022472587500001110
是事件
Figure BDA00022472587500001111
的第q个实体,
Figure BDA00022472587500001112
是实体
Figure BDA00022472587500001113
的嵌入向量。向量
Figure BDA00022472587500001114
Figure BDA00022472587500001115
的点积表示实体
Figure BDA00022472587500001116
和实体
Figure BDA00022472587500001117
在事件
Figure BDA00022472587500001118
中的相容性。
(1.3)根据马尔科夫假设,通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列s中除了起始事件之外的其他所有异质时序事件
Figure BDA00022472587500001119
的条件概率,一个异质时序事件
Figure BDA00022472587500001120
的条件概率P(ei|ei-1,…,ei-k)量化该事件和最近的k个历史异质时序事件{ei-j}1≤j≤k之间的时序关系,如图3所示,计算公式为:
Figure BDA0002247258750000112
其中σ(y)=1/(1+exp(-y))是sigmoid函数。
Figure BDA00022472587500001121
是事件ei-j的第p个实体,
Figure BDA00022472587500001122
是实体
Figure BDA00022472587500001123
的嵌入向量。
Figure BDA00022472587500001124
是事件ei的第q个实体,
Figure BDA00022472587500001125
是实体
Figure BDA00022472587500001126
的上下文向量。
(2)根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长,具体分为两个部分:①计算异质时序事件序列s中起始事件
Figure BDA00022472587500001127
的实体嵌入向量更新步长,②计算异质时序事件序列s中除了起始事件之外的异质时序事件
Figure BDA00022472587500001128
的实体上下文向量更新步长和异质时序事件ei-j∈{ei-j}1≤j≤k的实体的嵌入向量更新步长;
(2.1)对于异质时序事件序列s中的起始事件
Figure BDA00022472587500001129
进行负采样,即随机选择实体,生成训练数据集中不存在的ns个异质时序事件
Figure BDA00022472587500001130
作为负样本,然后最大化起始事件概率函数,即最大化函数Ls
Figure BDA0002247258750000113
接下来计算起始事件
Figure BDA00022472587500001131
的实体嵌入向量的偏导数,得到起始事件
Figure BDA00022472587500001132
的实体嵌入向量更新步长为:
Figure BDA0002247258750000121
其中
Figure BDA0002247258750000126
为指示函数,当
Figure BDA0002247258750000127
为事件
Figure BDA0002247258750000128
的实体时
Figure BDA0002247258750000129
否则
Figure BDA00022472587500001210
(2.2)对于异质时序事件序列s中除了起始事件之外的一个异质时序事件
Figure BDA00022472587500001211
进行负采样,即随机选择实体生成训练数据集中不存在的ns个异质时序事件Nns(ei)作为负样本,然后最大化事件ei的条件概率函数,即最大化函数Lc:
Figure BDA0002247258750000122
分别求异质时序事件ei的实体上下文向量和一个历史异质时序事件ei-j∈{ei-j}1≤j≤k的实体的嵌入向量的偏导数,得到异质时序事件ei的实体上下文向量的更新步长为:
Figure BDA0002247258750000123
异质时序事件ei-j的实体的嵌入向量的更新步长为;
Figure BDA0002247258750000124
公式(6)和(7)中
Figure BDA00022472587500001212
为指示函数,当
Figure BDA00022472587500001213
为事件ei的实体时
Figure BDA00022472587500001214
否则
Figure BDA00022472587500001215
(3)根据实体所属的异质时序事件的事件类型,即异质时序事件属于主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件中的一种,设定实体嵌入向量和上下文向量的更新速率;例如事件的类型为d,设定实体的嵌入向量和上下文向量的更新速率为λ=αη,其中η=0.1,α为
Figure BDA0002247258750000125
E(d)为训练数据集中类型为d的事件的数量,D为事件类型的集合,D={主机登录,文件访问,邮件通信,web浏览,移动设备连接}。包含事件越多的事件类型d,对应的更新速率λ越小。
(4)利用随机梯度上升方法,根据(2)中的更新步长和(3)中更新速率,更新异质时序事件包含的实体的嵌入向量和上下文向量;
(4.1)从训练数据集中取一个异质时序事件序列s;;
(4.2)从s中取出起始事件
Figure BDA0002247258750000133
及其通过负采样得到的负样本
Figure BDA0002247258750000134
按照(2.1)的更新步长和(3)的更新速率,通过随机梯度上升更新起始事件
Figure BDA0002247258750000135
和负样本
Figure BDA0002247258750000136
包含的实体的嵌入向量;
Figure BDA0002247258750000131
其中λ1为实体嵌入向量
Figure BDA0002247258750000137
的更新速率。
Figure BDA0002247258750000138
为更新步长见公式(4)。
(4.3)从s中取出除了起始事件之外的其他所有异质时序事件
Figure BDA0002247258750000139
(4.4)从
Figure BDA00022472587500001310
中取出一个异质时序事件ei及其通过负采样得到的负样本Nns(ei),按照(2.2)的更新步长和(3)的更新速率,通过随机梯度上升更新异质时序事件ei和负样本Nns(ei)包含的实体的上下文向量;
Figure BDA0002247258750000132
其中λ2为实体上下文向量
Figure BDA00022472587500001311
的更新速率。
Figure BDA00022472587500001312
为更新步长见公式(6)。
(4.5)根据ei,取出其最近的k个历史异质时序事件{ei-j}1≤j≤k
(4.6)从{ei-j}1≤j≤k中取出一个异质时序事件ei-j,按照(2.2)的更新步长和(3)的更新速率,通过随机梯度上升更新异质时序事件ei-j包含的实体的嵌入向量;
Figure BDA00022472587500001313
其中λ3为实体嵌入向量
Figure BDA00022472587500001314
的更新速率。
Figure BDA00022472587500001315
为更新步长见公式(7)。
(4.7)依次从{ei-j}1≤j≤k中取出异质时序事件ei-j,执行(4.6)更新其包含的实体的嵌入向量;
(4.8)依次从
Figure BDA00022472587500001316
中取出异质时序事件ei,执行(4.4)至(4.7);
(4.9)依次从训练数据集中取出异质时序事件序列s,执行(4.2)至(4.8);
(4.10)根据多个用户的训练数据集,输出通过每个用户对应的训练数据集更新后的实体的嵌入向量和上下文向量。
步骤4:用户异质时序事件序列异常评估和内部威胁输出模块
(1)对于一个用户的待检测数据集中的一个异质时序事件序列
Figure BDA0002247258750000143
从异质时序事件嵌入学习模块的输出抽取序列s′中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列s′中的起始事件
Figure BDA0002247258750000144
的概率
Figure BDA0002247258750000145
和序列s′中除了起始事件之外的异质时序事件e′i的条件概率
Figure BDA0002247258750000147
Figure BDA0002247258750000146
再通过链式法则计算起始事件
Figure BDA0002247258750000148
的概率和
Figure BDA0002247258750000149
中所有e′i的条件概率的乘积为:
Figure BDA0002247258750000141
(2)根据事件序列s′的长度|s′|,将(1)中得到的乘积值归一化,归一化的结果作为异质时序事件序列s′的概率为:
Figure BDA0002247258750000142
(3)将异质时序事件序列s′的概率与设定的阈值相比较,若概率低于用户设定的阈值,则该异质时序事件序列s′被判定为内部威胁并输出告警。预设定阈值为用户训练数据集中事件序列的概率分布区间的下限。例如,训练数据集中事件序列的概率分布区间为[0.85,1),则设定阈值为0.85,即序列概率小于0.85的待检测事件序列为异常。
(4)依次从多个用户对应的待检测数据集中取出异质时序事件序列s′,执行(1)至(3)。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (6)

1.一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于,包括:用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块,其中:
用户异质时序事件采集模块:在组织或者企业内需要监控的重要人员的主机上部署审计节点,审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件,即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体,审计节点将审计的异质时序事件实时发送到服务器;
数据预处理模块:对服务器接收的异质时序事件进行过滤,提取出有效异质时序事件;然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将集合中的异质时序事件按照时间排序;根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;最后将每个异质时序事件序列数据集划分为两部分,一部分作为训练数据集输入异质时序事件嵌入学习模块,另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块,一个用户对应一个训练数据集和一个待检测数据集;
异质时序事件嵌入学习模块:每一个异质时序事件包含4个实体,对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量;根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长;再根据实体所属的异质时序事件的事件类型设定更新速率;最后利用随机梯度上升方法,按照上述更新步长和更新速率,更新实体的嵌入向量和上下文向量,输出根据用户训练集更新后的实体的嵌入向量和上下文向量;
用户异质时序事件序列异常评估和内部威胁输出模块:对于多个用户的待检测数据集中的一个异质时序事件序列,从异质时序事件嵌入学习模块的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率,再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积,然后进行归一化,归一化的结果作为异质时序事件序列的概率,最后将异质时序事件序列的概率与阈值相比较,若概率低于设定的阈值,则该异质时序事件序列被判定为内部威胁并输出告警。
2.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述用户异质时序事件采集模块实现步骤如下:
(1)在组织或者企业内需要监控的重要人员的主机上部署审计节点;
(2)每个审计节点实时采集被审计主机上用户主机登录行为产生的用户主机登录事件,每一个主机登录事件审计登录时间、用户名、主机编号、登录/登出操作4个实体;
(3)每个审计节点实时采集被审计主机上用户文件访问行为产生的文件访问事件,每一个文件访问事件审计访问时间、用户名、主机编号、文件操作4个实体;
(4)每个审计节点实时采集被审计主机上用户邮件通信行为产生的邮件通信事件,每一个邮件通信事件审计通信时间、用户名、主机编号、发送/接收操作4个实体;
(5)每个审计节点实时采集被审计主机上用户web浏览行为产生的web浏览事件,每一个web浏览事件审计浏览时间、用户名、主机编号、和浏览域名4个实体;
(6)每个审计节点实时采集被审计主机上用户移动设备连接行为产生的移动设备连接事件,每一个移动设备连接事件审计连接时间、用户名、主机编号、连接/断开操作4个实体;
(7)将各个审计节点审计的多个用户的用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件共5种异质时序事件实时发送到服务器。
3.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述数据预处理模块实现如下:
(1)将服务器接收的异质时序事件存储到服务器的数据库中;
(2)审计节点可能多次发送同一个异质时序事件,因此对于重复的异质时序事件进行过滤,相同时间点的异质时序事件,只保留一个;
(3)审计的异质时序事件的一些实体可能存在缺失,对于缺失实体的异质时序事件进行删除;
(4)按照异质时序事件中的用户名实体,将异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将每个集合中的异质时序事件按照时间排序;
(5)设定固定的时间间隔为[Ts,Te],Ts和Te分别为开始时刻和终止时刻,在该时间间隔内的所有异质时序事件作为一个异质时序事件序列,将每个异质时序事件集合按照设定的时间间隔划分为多个异质时序事件序列,构成异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;
(6)设时间点T0之前的用户行为均为正常行为,将每个异质时序事件序列数据集划分为两部分,T0之前的所有异质时序事件序列作为训练数据集输入异质时序事件嵌入学习模块,T0之后的所有异质时序事件序列作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块,一个用户对应一个训练数据集和一个待检测数据集。
4.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述异质时序事件嵌入学习模块实现如下:
(1)每一个异质时序事件包含4个实体,对每一个实体赋值一个嵌入向量和一个上下文向量,对于一个训练数据集中的一个异质时序事件序列
Figure FDA0002893331740000031
通过实体嵌入向量和上下文向量的交互,计算异质时序事件序列s中起始事件
Figure FDA0002893331740000032
的概率和序列s中除了起始事件之外的其他所有异质时序事件
Figure FDA0002893331740000033
的条件概率;
(1.1)随机初始化一个异质时序事件序列s中所有异质时序事件包含的实体的嵌入向量和上下文向量,实体的嵌入向量是该实体在欧式空间的表示,实体的上下文向量是实体作为上下文角色在欧式空间的表示;
(1.2)通过实体的嵌入向量的交互计算异质时序事件序列s中起始事件
Figure FDA0002893331740000034
的概率,起始事件
Figure FDA0002893331740000035
的概率量化该事件作为异质时序事件序列起始事件的正常性;
(1.3)根据马尔科夫假设,通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列s中除了起始事件之外的其他所有异质时序事件
Figure FDA0002893331740000036
的条件概率,
Figure FDA0002893331740000037
中的一个异质时序事件ei的条件概率量化该事件和最近的k个历史异质时序事件{ei-j}1≤j≤k之间的时序关系;
(2)根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长,具体分为两个部分:①计算异质时序事件序列s中起始事件
Figure FDA0002893331740000038
的实体嵌入向量更新步长,②计算异质时序事件序列s中除了起始事件之外的异质时序事件
Figure FDA0002893331740000039
的实体上下文向量更新步长和历史异质时序事件ei-j∈{ei-j}1≤j≤k的实体的嵌入向量更新步长;
(2.1)对于异质时序事件序列s中的起始事件
Figure FDA00028933317400000310
进行负采样,即随机选择实体,生成训练数据集中不存在的ns个异质时序事件
Figure FDA00028933317400000311
作为负样本,然后最大化起始事件概率函数,求起始事件
Figure FDA00028933317400000312
的实体嵌入向量的偏导数,得到起始事件
Figure FDA00028933317400000313
的实体嵌入向量更新步长;
(2.2)对于异质时序事件序列s中除了起始事件之外的一个异质时序事件
Figure FDA0002893331740000041
进行负采样,即随机选择实体生成训练数据集中不存在的ns个异质时序事件Nns(ei)作为负样本,然后最大化异质时序事件ei的条件概率函数,分别求异质时序事件ei的实体上下文向量和一个历史异质时序事件ei-j∈{ei-j}1≤j≤k的实体的嵌入向量的偏导数,得到异质时序事件ei的实体上下文向量的更新步长和ei-j的实体的嵌入向量的更新步长;
(3)根据实体所属的异质时序事件的事件类型,即异质时序事件属于主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件中的一种,设定实体嵌入向量和上下文向量的更新速率;
(4)利用随机梯度上升方法,根据(2)中的更新步长和(3)中更新速率,更新异质时序事件包含的实体的嵌入向量和上下文向量;
(4.1)从训练数据集中取一个异质时序事件序列s;
(4.2)从s中取出起始事件
Figure FDA0002893331740000042
及其通过负采样得到的负样本
Figure FDA0002893331740000043
按照(2.1)的更新步长和(3)的更新速率,通过随机梯度上升更新起始事件
Figure FDA0002893331740000044
和负样本
Figure FDA0002893331740000045
包含的实体的嵌入向量;
(4.3)从s中取出除了起始事件之外的其他所有异质时序事件
Figure FDA0002893331740000046
(4.4)从
Figure FDA0002893331740000047
中取出一个异质时序事件ei及其通过负采样得到的负样本Nns(ei),按照(2.2)的更新步长和(3)的更新速率,通过随机梯度上升更新异质时序事件ei和负样本Nns(ei)包含的实体的上下文向量;
(4.5)根据ei,取出其最近的k个历史异质时序事件{ei-j}1≤j≤k
(4.6)从{ei-j}1≤j≤k中取出一个异质时序事件ei-j,按照(2.2)的更新步长和(3)的更新速率,通过随机梯度上升更新异质时序事件ei-j包含的实体的嵌入向量;
(4.7)依次从{ei-j}1≤j≤k中取出异质时序事件ei-j,执行(4.6)更新其包含的实体的嵌入向量;
(4.8)依次从
Figure FDA0002893331740000048
中取出异质时序事件ei,执行(4.4)至(4.7);
(4.9)依次从训练数据集中取出异质时序事件序列s,执行(4.2)至(4.8);
(4.10)根据多个用户的训练数据集,输出通过每个用户对应的训练数据集更新后的实体的嵌入向量和上下文向量。
5.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述用户异质时序事件序列异常评估和内部威胁输出模块实现步骤如下:
(1)对于一个用户的待检测数据集中的一个异质时序事件序列s′,从异质时序事件嵌入学习模块的输出抽取序列s′中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列s′中的起始事件
Figure FDA0002893331740000051
的概率和序列s′中除了起始事件之外的其他所有异质时序事件
Figure FDA0002893331740000052
的条件概率,再通过链式法则计算起始事件
Figure FDA0002893331740000053
的概率和
Figure FDA0002893331740000054
中所有e′i的条件概率的乘积;
(2)根据事件序列s′的长度,将(1)中得到的乘积值归一化,归一化的结果作为异质时序事件序列s′的概率;
(3)将异质时序事件序列s′的概率与设定的阈值相比较,若概率低于用户设定的阈值,则该异质时序事件序列s′被判定为内部威胁并输出告警;
(4)依次从多个用户对应的待检测数据集中取出异质时序事件序列s′,执行(1)至(3)。
6.一种基于异质时序事件嵌入学习的内部威胁检测方法,其特征在于,包括以下步骤:
(1)用户异质时序事件采集步骤:在组织或者企业内需要监控的重要人员的主机上部署审计节点,审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件,即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体,审计节点将审计的异质时序事件实时发送到服务器;
(2)数据预处理步骤:对服务器接收的异质时序事件进行过滤,提取出有效异质时序事件;然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将集合中的异质时序事件按照时间排序;根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;最后将每个异质时序事件序列数据集划分为两部分,一部分作为训练数据集输入异质时序事件嵌入学习步骤,另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出步骤,一个用户对应一个训练数据集和一个待检测数据集;
(3)异质时序事件嵌入学习步骤:每一个异质时序事件包含4个实体,对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量;根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长;再根据实体所属的异质时序事件的事件类型设定更新速率;最后利用随机梯度上升方法,按照上述更新步长和更新速率,更新实体的嵌入向量和上下文向量,输出根据用户训练集更新后的实体的嵌入向量和上下文向量;
(4)用户异质时序事件序列异常评估和内部威胁输出步骤:对于多个用户的待检测数据集中的一个异质时序事件序列,从异质时序事件嵌入学习步骤的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率,再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积,然后进行归一化,归一化的结果作为异质时序事件序列的概率,最后将异质时序事件序列的概率与阈值相比较,若概率低于设定的阈值,则该异质时序事件序列被判定为内部威胁并输出告警。
CN201911021135.5A 2019-10-25 2019-10-25 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法 Active CN110737890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911021135.5A CN110737890B (zh) 2019-10-25 2019-10-25 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911021135.5A CN110737890B (zh) 2019-10-25 2019-10-25 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法

Publications (2)

Publication Number Publication Date
CN110737890A CN110737890A (zh) 2020-01-31
CN110737890B true CN110737890B (zh) 2021-04-02

Family

ID=69271342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911021135.5A Active CN110737890B (zh) 2019-10-25 2019-10-25 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法

Country Status (1)

Country Link
CN (1) CN110737890B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919239B (zh) * 2021-12-15 2022-02-11 军事科学院系统工程研究院网络信息研究所 一种基于时空特征融合的内部威胁智能检测方法和系统
CN117811841A (zh) * 2024-02-29 2024-04-02 深圳市常行科技有限公司 一种针对内部网络的威胁监测防御系统、方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095914B1 (en) * 2007-04-03 2012-01-10 Altera Corporation Methods for instruction trace decomposition
CN104620242A (zh) * 2012-07-18 2015-05-13 犹他大学研究基金会 相关时序架构
CN105516127A (zh) * 2015-12-07 2016-04-20 中国科学院信息工程研究所 面向内部威胁检测的用户跨域行为模式挖掘方法
CN107430535A (zh) * 2015-01-30 2017-12-01 阿诺马力公司 空间和时间效率威胁检测
CN109597844A (zh) * 2019-01-31 2019-04-09 中科人工智能创新技术研究院(青岛)有限公司 基于深度神经网络与图网络的核心用户挖掘方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107846389B (zh) * 2016-09-21 2020-11-20 中国科学院信息工程研究所 基于用户主客观数据融合的内部威胁检测方法及系统
US11314862B2 (en) * 2017-04-17 2022-04-26 Tala Security, Inc. Method for detecting malicious scripts through modeling of script structure
CN108616545B (zh) * 2018-06-26 2021-06-29 中国科学院信息工程研究所 一种网络内部威胁的检测方法、系统及电子设备
CN110298235B (zh) * 2019-05-17 2022-03-25 中国科学院西安光学精密机械研究所 基于流形约束自编码网络的高光谱异常检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095914B1 (en) * 2007-04-03 2012-01-10 Altera Corporation Methods for instruction trace decomposition
CN104620242A (zh) * 2012-07-18 2015-05-13 犹他大学研究基金会 相关时序架构
CN107430535A (zh) * 2015-01-30 2017-12-01 阿诺马力公司 空间和时间效率威胁检测
CN105516127A (zh) * 2015-12-07 2016-04-20 中国科学院信息工程研究所 面向内部威胁检测的用户跨域行为模式挖掘方法
CN109597844A (zh) * 2019-01-31 2019-04-09 中科人工智能创新技术研究院(青岛)有限公司 基于深度神经网络与图网络的核心用户挖掘方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Semi-Supervised Heterogeneous Information Network Embedding for Node Classification using 1D-CNN;Nasrullah Sheikh;《5th International Conference on Social Networks Analysis, Management and Security (SNAMS)》;20181018;全文 *
基于深度学习的异构时序事件患者数据表示学习框架;刘卢琛 等;《大数据》;20190416;第2019卷(第1期);全文 *

Also Published As

Publication number Publication date
CN110737890A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
US10289841B2 (en) Graph-based attack chain discovery in enterprise security systems
Saxena et al. Intrusion detection in KDD99 dataset using SVM-PSO and feature reduction with information gain
US10298607B2 (en) Constructing graph models of event correlation in enterprise security systems
Siddiqui et al. Detecting advanced persistent threats using fractal dimension based machine learning classification
Maza et al. Feature selection algorithms in intrusion detection system: A survey
Wang et al. Processing of massive audit data streams for real-time anomaly intrusion detection
Rahman et al. Attacks classification in adaptive intrusion detection using decision tree
Li et al. Network anomaly detection based on TCM-KNN algorithm
Abd Elaziz et al. Intrusion detection approach for cloud and IoT environments using deep learning and Capuchin Search Algorithm
Dhakar et al. A novel data mining based hybrid intrusion detection framework
CN110737890B (zh) 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法
CN115883213B (zh) 基于连续时间动态异质图神经网络的apt检测方法及系统
WO2018071356A1 (en) Graph-based attack chain discovery in enterprise security systems
Barot et al. Feature selection for modeling intrusion detection
Zwane et al. Ensemble learning approach for flow-based intrusion detection system
Harang et al. Clustering of Snort alerts to identify patterns and reduce analyst workload
Alsumaidaie et al. Intelligent Detection System for a Distributed Denial-of-Service (DDoS) Attack Based on Time Series
CN112685272B (zh) 一种具备可解释性的用户行为异常检测方法
Wang et al. Embedding learning with heterogeneous event sequence for insider threat detection
Chimphlee et al. Unsupervised clustering methods for identifying rare events in anomaly detection
Wang et al. Profiling program and user behaviors for anomaly intrusion detection based on non-negative matrix factorization
Sekhar Deep learning algorithms for intrusion detection systems: extensive comparison analysis
Bar et al. Scalable attack propagation model and algorithms for honeypot systems
Suratkar et al. Multi hidden markov models for improved anomaly detection using system call analysis
Thanthrige Hidden markov model based intrusion alert prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant