CN110737890B

CN110737890B - 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法

Info

Publication number: CN110737890B
Application number: CN201911021135.5A
Authority: CN
Inventors: 于爱民; 王佳荣; 蔡利君; 孟丹; 马建刚
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-04-02
Anticipated expiration: 2039-10-25
Also published as: CN110737890A

Abstract

本发明涉及一种基于异质时序事件嵌入学习的内部威胁检测系统及方法，包括用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块；通过对组织或者企业内用户异质时序事件的收集、数据的过滤和去噪、异质时序事件包含的实体的嵌入、异质时序事件序列概率估计和内部威胁输出4个过程实现。该方法通过综合分析用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件的多个实体，全面的刻画了用户行为，提高了该系统检测的准确率，降低了系统检测的误报率；此外，该系统通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率，使检测过程不依赖于领域专家的先验知识，提高了系统的智能性。

Description

一种基于异质时序事件嵌入学习的内部威胁检测系统及方法

技术领域

本发明涉及一种基于异质时序事件嵌入学习的内部威胁检测系统及方法，属于信息安全技术领域。

背景技术

内部威胁是恶意的内部用户利用自己的特权访问组织的网络、系统和数据，并且破坏组织信息的机密性、完整性和可用性[1]。检测内部威胁是实现组织全面保护的首要任务。

由于内部用户了解组织的网络结构和安全防御机制，因此内部用户的恶意活动可能十分隐蔽，使得难以检测。一些内部威胁检测方法通过分析一种单独的事件类型来建模用户正常行为模型，例如基于系统调用的检测方法[2]、基于键盘鼠标动态的检测方法[3][4]、基于UNIX命令的检测方法[5]、基于文件访问行为的检测方法[6]。然而以上的基于单独事件类型的检测方法只能检测特定类型的内部威胁。对于一些恶意活动，例如一个恶意用户登录其他用户的主机，查找敏感文件并使用USB拷贝来窃取数据，单独的基于登录事件的检测方法可能无法检测该恶意活动。因此，近期的研究方法结合多种类型的事件来建模用户正常行为模型[7]。大多数该类方法从多种类型的事件中提取一系列特征，然后将特征向量输入机器学习方法进行模型训练和异常检测[8][9][10][11][12]。然而基于特征工程的方法依赖于专家先验知识，并且只能检测已知类型的内部威胁。为了减少对于先验知识的依赖，一些研究方法[13][14][15]探索基于异质时序事件的检测方法。异质时序事件序列中的操作序列被抽取，用来建模用户正常行为模型。然而仅有操作实体被考虑，事件中其他的实体被忽略了。相反，本发明提出的基于异质时序事件嵌入学习的内部威胁检测系统综合地考虑了异质时序事件的多个实体来建模用户正常行为模型，使得系统在不依赖先验知识的情况下，能够准确的检测内部威胁。

[1]Costa D.L.,Albrethsen M.J.,Collins M.L.,et al.:An insider threatindicator on-tology.TECHNICAL REPORT CMU/SEI.Pittsburgh,PA:SEI,Tech.Rep.,2016.

[2]P.Parveen,J.Evans,B.Thuraisingham,K.W.Hamlen et al.,“Insiderthreat detection using stream mining and graph mining,”in Privacy,Security,Risk and Trust(PASSAT)and IEEE Third Inernational Conference on SocialComputing(SocialCom).IEEE,pp.1102–1110,2011.

[3]T.Hu,W.Niu,X.Zhang,X.Liu,J.Lu,and Y.Liu,“An Insider ThreatDetection Approach Based on Mouse Dynamics and Deep Learning.”Security andCommunication Networks,2019.

[4]A.Morales,J.Fierrez,and J.Ortega-Garcia,“Towards predicting goodusers for biometric recognition based on keystroke dynamics,”EuropeanConference on Computer Vision,Springer,vol.8926,pp.711-724,2014.

[5]M.B.Salem and S.J.Stolfo,“A comparison of one-class bag-of-wordsuser behavior modeling techniques for masquerade detection,”Security andCommunication Networks,vol.5,no.8,pp.863–872,2012.

[6]J.B.

R.Monroy,L.A.Trejo et al.,“Temporal and SpatialLocality:An Abstraction for Masquerade Detection,”IEEE Trans.Inf.FORENSICSSecur.,vol.11,no.9,pp.2036-2051,2016.

[7]L.Liu,O.D.Vel,Q.L.Han,J.Zhang,and Y.Xiang,“Detecting andPreventing Cyber Insider Threats:A Survey,”IEEE Communications Surveys&Tutorials,vol.20,no.2,pp.1397-1417,2018.

[8]E.Ted,H.G.Goldberg,A.Memory,W.T.Young et al.,“Detecting insiderthreats in a real corporate database of computer usage activity,”inProceedings of the 19th ACM SIGKDD international conference on Knowledgediscovery and data mining.ACM,pp.1393–1401,2013.

[9]W.T.Young,H.G.Goldberg,A.Memory,J.F.Sartain et al.,“Use of domainknowledge to detect insider threats in computer activities,”in Security andPrivacy Workshops(SPW).IEEE,pp.60–67,2013.

[10]A.Tuor,S.Kaplan,B.Hutchinson,N.Nichols,and S.Robinson,“Deeplearning for unsupervised insider threat detection in structuredcybersecurity data streams,”in AI for Cybersecurity Workshop at AAAI,2017.

[11]P.Chattopadhyay,L.Wang,and Y.P.Tan,“Scenario-Based Insider ThreatDetection From Cyber Activities.”IEEE Transactions on Computational SocialSystems,vol.5,no.3,2018.

[12]T.-F.Yen,A.Oprea,K.Onarlioglu,T.Leetham,W.Robertson,A.Juels,andE.Kirda,“Beehive:Large-scale log analysis for detecting suspicious activityin enterprise networks,”ACSAC.ACM,pp.199–208,2013.

[13]T.Rashid,I.Agrafiotis,and J.R.C.Nurse,“A new take on detectinginsider threats:exploring the use of hidden markov models,”in Proceedings ofthe 8th ACM CCS International Workshop on Managing Insider Security Threats,MIST 2016,pp.47–56,Austria,2016.

[14]O.Lo,W.J.Buchanan,P.Griffiths,and R.Macfarlane,“Distancemeasurement methods for improved insider threat detection.”Security andCommunication Networks,2018.

[15]D.W.Kim,S.S.Hong,and M.M.Han,“A study on Classification ofInsider threat using Markov Chain Model.”KSII Transactions on Internet andInformation Systems,vol.12,no.4,pp.1887-1898,2018.

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于异质时序事件嵌入学习的内部威胁检测系统及方法。该方法通过综合分析用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件的多个实体，全面的刻画了用户行为，提高了该系统检测的准确率，降低了系统检测的误报率；此外，该系统通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率，使检测过程不依赖于领域专家的先验知识，提高了系统的智能性。

本发明技术解决方案：

一种基于异质时序事件嵌入学习的内部威胁检测系统，包括：用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块，其中：

用户异质时序事件采集模块：在组织或者企业内需要监控的重要人员的主机上部署审计节点，审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件，即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件，具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体，审计节点将审计的异质时序事件实时发送到服务器；

数据预处理模块：对服务器接收的异质时序事件进行过滤，提取出有效异质时序事件；然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合，一个集合对应一个用户，再将集合中的异质时序事件按照时间排序；根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集，一个异质时序事件序列数据集对应一个用户；最后将每个异质时序事件序列数据集划分为两部分，一部分作为训练数据集输入异质时序事件嵌入学习模块，另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块，一个用户对应一个训练数据集和一个待检测数据集；

异质时序事件嵌入学习模块：每一个异质时序事件包含4个实体，对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量；根据负采样方法，计算实体的嵌入向量和上下文向量的更新步长；再根据实体所属的异质时序事件的事件类型设定更新速率；最后利用随机梯度上升方法，按照上述更新步长和更新速率，更新实体的嵌入向量和上下文向量。输出根据用户训练集更新后的实体的嵌入向量和上下文向量；

用户异质时序事件序列异常评估和内部威胁输出模块：对于多个用户的待检测数据集中的一个异质时序事件序列，从异质时序事件嵌入学习模块的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量，通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率。再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积，然后进行归一化，归一化的结果作为异质时序事件序列的概率，最后将异质时序事件序列的概率与阈值相比较，若概率低于设定的阈值，则该异质时序事件序列被判定为内部威胁并输出告警。

所述用户异质时序事件采集模块实现步骤如下：

(1)在组织或者企业内需要监控的重要人员的主机上部署审计节点；

(2)每个审计节点实时采集被审计主机上用户主机登录行为产生的用户主机登录事件，每一个主机登录事件审计登录时间、用户名、主机编号、登录/登出操作4个实体；

(3)每个审计节点实时采集被审计主机上用户文件访问行为产生的文件访问事件，每一个文件访问事件审计访问时间、用户名、主机编号、文件操作4个实体；

(4)每个审计节点实时采集被审计主机上用户邮件通信行为产生的邮件通信事件，每一个邮件通信事件审计通信时间、用户名、主机编号、发送/接收操作4个实体；

(5)每个审计节点实时采集被审计主机上用户web浏览行为产生的web浏览事件，每一个web浏览事件审计浏览时间、用户名、主机编号、和浏览域名4个实体；

(6)每个审计节点实时采集被审计主机上用户移动设备连接行为产生的移动设备连接事件，每一个移动设备连接事件审计连接时间、用户名、主机编号、连接/断开操作4个实体；

(7)将各个审计节点审计的多个用户的用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件共5种异质时序事件实时发送到服务器。

所述数据预处理模块实现如下：

(1)将服务器接收的异质时序事件存储到服务器的数据库中；

(2)审计节点可能多次发送同一个异质时序事件，因此对于重复的异质时序事件进行过滤，相同时间点的异质时序事件，只保留一个；

(3)审计的异质时序事件的一些实体可能存在缺失，对于缺失实体的异质时序事件进行删除；

(4)按照异质时序事件中的用户名实体，将异质时序事件划分为不同的异质时序事件集合，一个集合对应一个用户，再将每个集合中的异质时序事件按照时间排序；

(5)设定固定的时间间隔为[T_s,T_e]，T_s和T_e分别为开始时刻和终止时刻，在该时间间隔内的所有异质时序事件作为一个异质时序事件序列，将每个异质时序事件集合按照设定的时间间隔划分为多个异质时序事件序列，构成异质时序事件序列数据集，一个异质时序事件序列数据集对应一个用户；

(6)设时间点T₀之前的用户行为均为正常行为，将每个异质时序事件序列数据集划分为两部分，T₀之前的所有异质时序事件序列作为训练数据集输入异质时序事件嵌入学习模块，T₀之后的所有异质时序事件序列作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块。一个用户对应一个训练数据集和一个待检测数据集。

所述异质时序事件嵌入学习模块实现如下：

(1)每一个异质时序事件包含4个实体，对每一个实体赋值一个嵌入向量和一个上下文向量。对于一个训练数据集中的一个异质时序事件序列

通过实体嵌入向量和上下文向量的交互，计算异质时序事件序列s中起始事件

的概率和序列s中除了起始事件之外的其他所有异质时序事件

的条件概率。

(1.1)随机初始化一个异质时序事件序列s中所有异质时序事件包含的实体的嵌入向量和上下文向量，实体的嵌入向量是该实体在欧式空间的表示，实体的上下文向量是实体作为上下文角色在欧式空间的表示；

(1.2)通过实体的嵌入向量的交互计算异质时序事件序列s中起始事件

的概率，起始事件

的概率量化该事件作为异质时序事件序列起始事件的正常性；

(1.3)根据马尔科夫假设，通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列s中除了起始事件之外的其他所有异质时序事件

的条件概率，

中的一个异质时序事件e_i的条件概率量化该事件和最近的k个历史异质时序事件{e_i-j}_1≤j≤k之间的时序关系；

(2)根据负采样方法，计算实体的嵌入向量和上下文向量的更新步长，具体分为两个部分：①计算异质时序事件序列s中起始事件

的实体嵌入向量更新步长，②计算异质时序事件序列s中除了起始事件之外的异质时序事件

的实体上下文向量更新步长和历史异质时序事件e_i-j∈{e_i-j}_1≤j≤k的实体的嵌入向量更新步长；

(2.1)对于异质时序事件序列s中的起始事件

进行负采样，即随机选择实体，生成训练数据集中不存在的ns个异质时序事件

作为负样本，然后最大化起始事件概率函数，求起始事件

的实体嵌入向量的偏导数，得到起始事件

的实体嵌入向量更新步长；

(2.2)对于异质时序事件序列s中除了起始事件之外的一个异质时序事件

进行负采样，即随机选择实体生成训练数据集中不存在的ns个异质时序事件N_ns(e_i)作为负样本，然后最大化事件e_i的条件概率函数，分别求异质时序事件e_i的实体上下文向量和一个历史异质时序事件e_i-j∈{e_i-j}_1≤j≤k的实体的嵌入向量的偏导数，得到异质时序事件e_i的实体上下文向量的更新步长和e_i-j的实体的嵌入向量的更新步长；

(3)根据实体所属的异质时序事件的事件类型，即异质时序事件属于主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件中的一种，设定实体嵌入向量和上下文向量的更新速率；

(4)利用随机梯度上升方法，根据(2)中的更新步长和(3)中更新速率，更新异质时序事件包含的实体的嵌入向量和上下文向量；

(4.1)从训练数据集中取一个异质时序事件序列s；

(4.2)从s中取出起始事件

及其通过负采样得到的负样本

按照(2.1)的更新步长和(3)的更新速率，通过随机梯度上升更新起始事件

和负样本

包含的实体的嵌入向量；

(4.3)从s中取出除了起始事件之外的其他所有异质时序事件

(4.4)从

中取出一个异质时序事件e_i及其通过负采样得到的负样本N_ns(e_i)，按照(2.2)的更新步长和(3)的更新速率，通过随机梯度上升更新异质时序事件e_i和负样本N_ns(e_i)包含的实体的上下文向量；

(4.5)根据e_i，取出其最近的k个历史异质时序事件{e_i-j}_1≤j≤k；

(4.6)从{e_i-j}_1≤j≤k中取出一个异质时序事件e_i-j，按照(2.2)的更新步长和(3)的更新速率，通过随机梯度上升更新异质时序事件e_i-j包含的实体的嵌入向量；

(4.7)依次从{e_i-j}_1≤j≤k中取出异质时序事件e_i-j，执行(4.6)更新其包含的实体的嵌入向量；

(4.8)依次从

中取出异质时序事件e_i，执行(4.4)至(4.7)；

(4.9)依次从训练数据集中取出异质时序事件序列s，执行(4.2)至(4.8)；

(4.10)根据多个用户的训练数据集，输出通过每个用户对应的训练数据集更新后的实体的嵌入向量和上下文向量。

所述用户异质时序事件序列异常评估和内部威胁输出模块实现步骤如下：

(1)对于一个用户的待检测数据集中的一个异质时序事件序列s′，从异质时序事件嵌入学习模块的输出抽取序列s′中的所有异质时序事件包含的实体的嵌入向量和上下文向量，通过向量之间的交互计算异质时序事件序列s′中的起始事件

的概率和序列s′中除了起始事件之外的其他所有异质时序事件

的条件概率。再通过链式法则计算起始事件

的概率和

中所有e′_i的条件概率的乘积。

(2)根据事件序列s′的长度，将(1)中得到的乘积值归一化，归一化的结果作为异质时序事件序列s′的概率；

(3)将异质时序事件序列s′的概率与设定的阈值相比较，若概率低于用户设定的阈值，则该异质时序事件序列s′被判定为内部威胁并输出告警。

(4)依次从多个用户对应的待检测数据集中取出异质时序事件序列s′，执行(1)至(3)。

本发明的一种基于异质时序事件嵌入学习的内部威胁检测方法，包括以下步骤：

(1)用户异质时序事件采集步骤：在组织或者企业内需要监控的重要人员的主机上部署审计节点，审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件，即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件，具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体，审计节点将审计的异质时序事件实时发送到服务器；

(2)数据预处理步骤：对服务器接收的异质时序事件进行过滤，提取出有效异质时序事件；然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合，一个集合对应一个用户，再将集合中的异质时序事件按照时间排序；根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集，一个异质时序事件序列数据集对应一个用户；最后将每个异质时序事件序列数据集划分为两部分，一部分作为训练数据集输入异质时序事件嵌入学习步骤，另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出步骤，一个用户对应一个训练数据集和一个待检测数据集；

(3)异质时序事件嵌入学习步骤：每一个异质时序事件包含4个实体，对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量；根据负采样方法，计算实体的嵌入向量和上下文向量的更新步长；再根据实体所属的异质时序事件的事件类型设定更新速率；最后利用随机梯度上升方法，按照上述更新步长和更新速率，更新实体的嵌入向量和上下文向量，输出根据用户训练集更新后的实体的嵌入向量和上下文向量；

(4)用户异质时序事件序列异常评估和内部威胁输出步骤：对于多个用户的待检测数据集中的一个异质时序事件序列，从异质时序事件嵌入学习步骤的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量，通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率，再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积，然后进行归一化，归一化的结果作为异质时序事件序列的概率，最后将异质时序事件序列的概率与阈值相比较，若概率低于设定的阈值，则该异质时序事件序列被判定为内部威胁并输出告警。

本发明与现有技术相比的优点在于：

(1)本发明综合分析了用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件，与现有的基于文件访问事件的单独事件类型的分析方法相比，提供了更准确的行为刻画方法。

(2)本发明通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率，再根据概率得到异常检测结果，与现有的基于特征工程的异常检测方法相比，本发明不依赖于专家的先验知识，提高了系统的智能性。

(3)为了同时考虑异质时序事件的多个实体，本发明采用实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率，与现有的只考虑异质时序事件中单个实体的方法相比，本发明提高了异常检测的准确率，降低了误报率。

附图说明

图1为发明的系统框图；

图2为异质时序事件序列中起始事件概率计算框架；

图3为异质时序事件序列中一个异质时序事件与其历史时序事件之间关系概率计算框架。

具体实施方式

为了更好地理解本发明，先对一些基本概念进行一下解释说明。

异质时序事件：用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的每一个事件为异质时序事件。即异质时序事件包括用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件。

异质时序事件的实体：每个异质时序事件包括时间、用户名、主机编号、操作4个实体。

异质时序事件序列：在固定的时间间隔内由多个异质时序事件按时间先后组成的集合。

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明包括用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块。

下面对上述4个模块分别进行详细说明。

步骤1:用户异质时序事件采集模块

(3)每个审计节点实时采集被审计主机上用户文件访问行为产生的文件访问事件，每一个文件访问事件审计访问时间、用户名、主机编号、文件操作4个实体。

(4)每个审计节点实时采集被审计主机上用户邮件通信行为产生的邮件通信事件，每一个邮件通信事件审计通信时间、用户名、主机编号、发送/接收操作4个实体。

步骤2:数据预处理模块

(1)将服务器接收的异质时序事件存储到服务器的数据库中；

步骤3:异质时序事件嵌入学习模块

的概率和序列s中除了起始事件之外的其他所有异质时序事件

的条件概率。

(1.1)随机初始化一个异质时序事件序列s中所有异质时序事件包含的实体的嵌入向量和上下文向量，任一个实体记为实体x，实体的嵌入向量记为v_x和上下文向量记为θ_x。实体的嵌入向量v_x是实体x在欧式空间的表示，实体的上下文向量θ_x是实体x作为上下文角色在欧式空间的表示；

的概率

如图2所示，起始事件

的概率量化该事件作为异质时序事件序列起始事件的正常性，计算公式为：

其中σ(y)＝1/(1+exp(-y))是sigmoid函数。

是事件

的第p个实体，

是实体

的嵌入向量。

是事件

的第q个实体，

是实体

的嵌入向量。向量

和

的点积表示实体

和实体

在事件

中的相容性。

的条件概率，一个异质时序事件

的条件概率P(e_i|e_i-1,…,e_i-k)量化该事件和最近的k个历史异质时序事件{e_i-j}_1≤j≤k之间的时序关系，如图3所示，计算公式为：

其中σ(y)＝1/(1+exp(-y))是sigmoid函数。

是事件e_i-j的第p个实体，

是实体

的嵌入向量。

是事件e_i的第q个实体，

是实体

的上下文向量。

的实体上下文向量更新步长和异质时序事件e_i-j∈{e_i-j}_1≤j≤k的实体的嵌入向量更新步长；

(2.1)对于异质时序事件序列s中的起始事件

作为负样本，然后最大化起始事件概率函数，即最大化函数L_s：

接下来计算起始事件

的实体嵌入向量的偏导数，得到起始事件

的实体嵌入向量更新步长为：

其中

为指示函数，当

为事件

的实体时

否则

进行负采样，即随机选择实体生成训练数据集中不存在的ns个异质时序事件N_ns(e_i)作为负样本，然后最大化事件e_i的条件概率函数，即最大化函数L_c:

分别求异质时序事件e_i的实体上下文向量和一个历史异质时序事件e_i-j∈{e_i-j}_1≤j≤k的实体的嵌入向量的偏导数，得到异质时序事件e_i的实体上下文向量的更新步长为：

异质时序事件e_i-j的实体的嵌入向量的更新步长为；

公式(6)和(7)中

为指示函数，当

为事件e_i的实体时

否则

(3)根据实体所属的异质时序事件的事件类型，即异质时序事件属于主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件中的一种，设定实体嵌入向量和上下文向量的更新速率；例如事件的类型为d，设定实体的嵌入向量和上下文向量的更新速率为λ＝αη，其中η＝0.1，α为

E(d)为训练数据集中类型为d的事件的数量，D为事件类型的集合，D＝{主机登录，文件访问，邮件通信，web浏览，移动设备连接}。包含事件越多的事件类型d，对应的更新速率λ越小。

(4.1)从训练数据集中取一个异质时序事件序列s；；

(4.2)从s中取出起始事件

及其通过负采样得到的负样本

和负样本

包含的实体的嵌入向量；

其中λ₁为实体嵌入向量

的更新速率。

为更新步长见公式(4)。

(4.3)从s中取出除了起始事件之外的其他所有异质时序事件

(4.4)从

其中λ₂为实体上下文向量

的更新速率。

为更新步长见公式(6)。

(4.5)根据e_i，取出其最近的k个历史异质时序事件{e_i-j}_1≤j≤k

其中λ₃为实体嵌入向量

的更新速率。

为更新步长见公式(7)。

(4.8)依次从

中取出异质时序事件e_i，执行(4.4)至(4.7)；

步骤4:用户异质时序事件序列异常评估和内部威胁输出模块

(1)对于一个用户的待检测数据集中的一个异质时序事件序列

从异质时序事件嵌入学习模块的输出抽取序列s′中的所有异质时序事件包含的实体的嵌入向量和上下文向量，通过向量之间的交互计算异质时序事件序列s′中的起始事件

的概率

和序列s′中除了起始事件之外的异质时序事件e′_i的条件概率

再通过链式法则计算起始事件

的概率和

中所有e′_i的条件概率的乘积为：

(2)根据事件序列s′的长度|s′|，将(1)中得到的乘积值归一化，归一化的结果作为异质时序事件序列s′的概率为：

(3)将异质时序事件序列s′的概率与设定的阈值相比较，若概率低于用户设定的阈值，则该异质时序事件序列s′被判定为内部威胁并输出告警。预设定阈值为用户训练数据集中事件序列的概率分布区间的下限。例如，训练数据集中事件序列的概率分布区间为[0.85，1)，则设定阈值为0.85，即序列概率小于0.85的待检测事件序列为异常。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于异质时序事件嵌入学习的内部威胁检测系统，其特征在于，包括：用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块，其中：

异质时序事件嵌入学习模块：每一个异质时序事件包含4个实体，对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量；根据负采样方法，计算实体的嵌入向量和上下文向量的更新步长；再根据实体所属的异质时序事件的事件类型设定更新速率；最后利用随机梯度上升方法，按照上述更新步长和更新速率，更新实体的嵌入向量和上下文向量，输出根据用户训练集更新后的实体的嵌入向量和上下文向量；

用户异质时序事件序列异常评估和内部威胁输出模块：对于多个用户的待检测数据集中的一个异质时序事件序列，从异质时序事件嵌入学习模块的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量，通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率，再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积，然后进行归一化，归一化的结果作为异质时序事件序列的概率，最后将异质时序事件序列的概率与阈值相比较，若概率低于设定的阈值，则该异质时序事件序列被判定为内部威胁并输出告警。

2.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统，其特征在于：所述用户异质时序事件采集模块实现步骤如下：

3.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统，其特征在于：所述数据预处理模块实现如下：

(1)将服务器接收的异质时序事件存储到服务器的数据库中；

(6)设时间点T₀之前的用户行为均为正常行为，将每个异质时序事件序列数据集划分为两部分，T₀之前的所有异质时序事件序列作为训练数据集输入异质时序事件嵌入学习模块，T₀之后的所有异质时序事件序列作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块，一个用户对应一个训练数据集和一个待检测数据集。

4.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统，其特征在于：所述异质时序事件嵌入学习模块实现如下：

(1)每一个异质时序事件包含4个实体，对每一个实体赋值一个嵌入向量和一个上下文向量，对于一个训练数据集中的一个异质时序事件序列

的概率和序列s中除了起始事件之外的其他所有异质时序事件

的条件概率；

的概率，起始事件

的条件概率，

(2.1)对于异质时序事件序列s中的起始事件

作为负样本，然后最大化起始事件概率函数，求起始事件

的实体嵌入向量的偏导数，得到起始事件

的实体嵌入向量更新步长；

进行负采样，即随机选择实体生成训练数据集中不存在的ns个异质时序事件N_ns(e_i)作为负样本，然后最大化异质时序事件e_i的条件概率函数，分别求异质时序事件e_i的实体上下文向量和一个历史异质时序事件e_i-j∈{e_i-j}_1≤j≤k的实体的嵌入向量的偏导数，得到异质时序事件e_i的实体上下文向量的更新步长和e_i-j的实体的嵌入向量的更新步长；

(4.1)从训练数据集中取一个异质时序事件序列s；

(4.2)从s中取出起始事件