CN105516127B - 面向内部威胁检测的用户跨域行为模式挖掘方法 - Google Patents
面向内部威胁检测的用户跨域行为模式挖掘方法 Download PDFInfo
- Publication number
- CN105516127B CN105516127B CN201510888587.9A CN201510888587A CN105516127B CN 105516127 B CN105516127 B CN 105516127B CN 201510888587 A CN201510888587 A CN 201510888587A CN 105516127 B CN105516127 B CN 105516127B
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- domain
- mode
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向内部威胁检测的用户跨域行为模式挖掘方法。该方法首先分别为各个检测域构建归一化的用户单域行为特征,并基于时间窗口通过集成各域域内行为特征构建用户多域行为描述;然后通过从用户多域行为描述中提取基模式,生成用户行为特征;最后,使用非监督学习技术挖掘多元的用户行为模式。本发明中结构化的用户行为特征生成方法使得用户行为特征对用户行为的解释变得方便,用户行为特征粒度和表达倾向可以根据分析需要通过观察和计算进行调整;该方法不依赖任何领域知识和用户背景,完全以数据驱动的方式挖掘用户行为的多元模式;该方法能够利用多元的用户跨域行为模式进行内部攻击检测。
Description
技术领域
本发明属于信息安全技术、用户行为分析技术领域,具体涉及一种面向内部威胁检测的用户跨域行为模式挖掘方法。
背景技术
内部用户行为分析是系统安全领域中一个重要研究问题。近期许多安全事故中,内部用户攻击(Insider Attack)已经成为主要原因之一。内部用户通常指组织机构的内部人员,他们通常是组织机构中信息系统的用户,如政府雇员、企业员工等,或者公共服务的使用者,如数字图书馆的用户等。而用户或用户进程在计算机系统中的各种活动记录(又称为用户审计日志)是分析用户行为的重要依据,如用户的命令执行记录、文件搜索记录、数据库访问记录、鼠标操作等。本发明中我们将各种用于用户行为检测的审计日志产生环境统一称为检测“域”,如用户命令域、数据库域、文件系统域等。此外,随着各界对计算机系统可问责性的重视,系统中检测域的种类呈现出越来越多样化的趋势。
已有许多工作提出面向内部威胁检测的用户行为分析方法。这些方法通常使用审计日志来分析用户在某个检测域的域内行为模式,然后基于这些被识别的用户行为模式检测用户的异常行为。对于有技巧的攻击者,他们能够将攻击行为巧妙的分解为多个步骤,而且每步都被伪装成正常行为。因此当恶意用户的攻击行为在不同检测域被独立分析时,极大可能被分别识别为无害的正常行为。例如,某个用户作为系统开发人员,需要每天登录一台计算机编写多个源代码文件。同时他还作为系统管理员,需要每天登陆多台计算机进行系统文件查看和配置。因此对于系统登录域,该用户每天登录一台还是多台计算机都不算异常行为;而对于文件系统域,该用户读写源代码或系统文件也不算异常行为。因此,当该用户每天登录多台计算机并隐蔽地收集敏感数据时,各域独立检测将不易发现其异常行为。因此,检测系统需要具有集成不同检测域和分析用户跨域行为的能力。
现有技术中的用户单域行为分析方法以及用户跨域行为分析方法,其存在的缺陷如下:
1)用户单域行为分析方法。用于异常行为检测的用户单域行为模式分析方法通常依赖于某个用户属性来构建用户在某个检测域的域内正常行为模式,如用户标示、用户角色等。Ashish等人(Ashish Kamra,Evimaria Terzi,and Elisa Bertino.Detectinganomalous access patterns in relational databases.The VLDB Journal 17,5(August 2008),1063-1077.)提出分别基于监督式 学习和非监督式学习的用户数据库访问模式分析方法。基于监督式学习的方法根据用户角色,使用朴素贝叶斯模型为每类角色构建正常的数据库访问模式。而基于非监督式学习的方法在用户角色未知的情况下,根据用户标示,使用标准的聚类技术分别为每个用户构建典型的数据库访问行为,例如将规模最大的聚类作为用户的正常行为模式。Sunu等人(Sunu Mathew,Michalis Petropoulos,Hung Q.Ngo,Shambhu J.Upadhyaya.A data-centric approach to insider attackdetection in database systems.Recent Advances in Intrusion Detection,13thInternational Symposium,RAID 2010,Ottawa,Ontario,Canada,September 15-17,2010.Proceedings.)和Mohammad等人(Mohammad Saiful Islam,Mehmet Kuzu,and MuratKantarcioglu.A Dynamic Approach to Detect Anomalous Queries on RelationalDatabases.In Proceedings of the 5th ACM Conference on Data and ApplicationSecurity and Privacy(CODASPY'15).San Antonio,Texas,USA.2015.245--252.)同样基于用户角色,分别使用k-means聚类技术和隐马尔科夫模型构建用户数据库查询行为模式。而Roy等人(Roy A.Maxion,Tahlia N.Townsend.Masquerade Detection Using TruncatedCommand Lines.International Conference on Dependable Systems and Networks,23-26June 2002,Bethesda,MD,USA,Proceedings:219-228.)和Kholidy等人(Kholidy,H.A.;Baiardi,F.;Hariri,S."DDSGA:A Data-Driven Semi-Global Alignment Approach forDetecting Masquerade Attacks",Dependable and Secure Computing,IEEETransactions on,On page(s):164-178Volume:12,Issue:2,March-April 12015.)根据用户标示,分别使用朴素贝叶斯文本分类方法和半全局排列算法构建用户个性化的命令执行序列模式。Nan等人(Nan Zheng,Aaron Paloski,Haining Wang.An Efficient UserVerification System via Mouse Movements.Proceedings of the 18th ACMConference on Computer and Communications Security,CCS 2011,Chicago,Illinois,USA,October 17-21,2011:139–150.)根据用户标示,使用支持向量机分类器构建用户特征的鼠标移动模式。与以上工作不同,本发明不依赖任何领域知识和用户背景,完全基于数据驱动方式实现用户多域行为模式分析。其次,本发明考虑用户多域行为的多元模式分析,而以上方法通常只是分析用户单一的正常行为模式。
2)面向多检测域的系统威胁检测技术
基于多域的系统威胁检测工作主要集中在各域检测结果的融合技术。Marcus等人(Marcus A.Maloof and G.D.Stephens.ELICIT:A system for detecting insiders whoviolate need-to-know.In RAID,pages 146-166,2007.)提出一种通过融合多域用户行为检测结果的内网威胁检测方法。该工作在内网中收集了文件共享、http访问、邮件和文件传输等多种用户事件,然后基于领域知识分别为每类事件的每个属性设计一个检测器,并设计了一个贝叶斯推理网络模型,用于综合所有检测器的报警信息来给用户行为评分。虽然该方法涉及多个检测域,但是它分别检测用户事件各个属性,因此在检测方面仍然采用独立的用户单域行为检测的方式。其次, 该方法需要依赖一定领域知识和已知异常模式来辅助设计各个检测器,因此不能检测未知的用户异常行为。Federico等人(F.Maggi andS.Zanero.On the use of different statistical tests for alert correlation.InRAID,pages 167-177,2007.)提出一种面向网络入侵检测的多域报警关联技术。该工作设计了一个将报警事件流和时间戳刻画为随机变量的报警产生统计模型,并使用统计测试方法构建了用于区分相关报警和无关报警的准则。虽然该方法不依赖领域知识和已知异常模式,但是仍然需要基于各域独立的报警结果来检测网络异常。与以上工作不同,本发明在用户行为特征层面融合用户多域行为,能够集中分析用户多域行为,并且不依赖于领域知识和已知模式,完全采用数据驱动的方式进行用户行为模式分析。
发明内容
本发明的目标是提出一种面向多检测域场景的用户跨域行为模式挖掘方法。用户跨域行为模式包含了用户域内行为模式,以及各域内行为模式之间的关联模式。本发明应该能够:
1)构建用户多域行为描述。由于各域用户审计日志相对独立的产生,它们通常在频率、数据均匀性等方面具有一定差异。因此,分析方法应该能够融合异质的多域审计日志,并刻画用户多域行为。
2)分析用户行为多元模式。由于用户各域域内行为受到不同因素的影响,用户多域行为不会由个别系统条件或用户属性所主导。相对于单域场景,用户多域行为可能具有多种行为模式。因此,分析方法应该能够不依赖任何已知的因素或领域知识,挖掘用户行为的多元模式。
本发明提出一种新的用户跨域行为模式分析方法。首先分别为各个检测域构建归一化的用户单域行为特征,并基于时间窗口通过集成各域域内行为特征构建用户多域行为描述。然后通过从用户多域行为描述中提取基模式,生成用户行为特征。基模式是那些未知的用户行为主导因素对用户各域行为影响的量化形式,而用户行为特征则量化了这些未知主导因素对每个用户行为的影响。最后,使用非监督学习技术挖掘多元的用户行为模式。
本发明包括三个主要步骤:1)构建用户多域行为描述;2)生成用户行为特征;3)分析用户行为多元模式。
首先构建用户多域行为描述。最直观的构建方法是先将各域用户审计日志进行融合,然后通过数据特征提取生成用户多域行为描述。然而,由于各域审计日志之间的异质性,直接融合多域审计日志不现实。因此,我们选择在审计日志的特征层面构建用户多域行为描述。我们分别从各域审计日志中提取归一化的用户单域行为描述,然后再基于一个选定的时间窗口将这些单域行为进行集成来构建用户多域行为描述。如有必要这里可以通过相关性分析进 行日志特征筛选,如Pearson相关系数。这方面的工作较多,本发明不做赘述。
然后,本发明设计了一种结构化的用户行为特征生成方法。将用户多域行为描述结构化为一组基模式和用户行为特征两个部分。基模式是一种用户行为的底层抽象,也是刻画用户行为的基本单元。用户行为特征则刻画了用户行为关于基模式的线性组成结构。实际上,每个基模式可看作某种未知的用户行为主导因素对用户各域行为影响的一种量化形式,而用户行为特征则量化了这些未知主导因素对用户行为的影响。由于用户多域行为描述、基模式和用户行为特征均为非负向量,本发明我们使用非负矩阵分解(简称NMF)计算基模式和用户行为特征。
最后,利用非监督学习技术进行用户行为多元模式分析。正常情况下,当系统中用户行为主导因素稳定时,用户行为也相应的趋于稳定。从统计学角度,即用户行为特征应该符合某个多维高斯分布。此外,存在用户行为主导因素发生变化而带来的用户行为合理变化的情况,所以用户行为特征应该符合多个高斯分布。因此,本发明使用高斯混和模型(简称GMM)分析用户行为的多元模式。GMM模型能够从用户行为特征中构建多个高斯分布,其中每个高斯分布可看作为一种用户行为模式。
本发明的技术关键点和有益效果在于:
1、基于多域异质审计日志融合的用户多域行为描述构建方法。在审计日志特征层面,通过审计日志单域特征集成,实现多域异质审计日志融合和用户多域行为描述。
2、结构化的用户行为特征生成方法。基模式使得用户行为潜在结构变得清晰,并使用户行为描述得到一定程度的约简,因此使得用户行为特征对用户行为的解释变得方便。同时,结构化的生成方式使得用户行为特征粒度和表达倾向可以根据分析需要通过观察和计算进行调整。
3、完全数据驱动的用户行为多元模式分析。不依赖任何领域知识和用户背景,完全以数据驱动的方式挖掘用户行为的多元模式。
4、基于本文用户行为模式分析的内部攻击检测方法。该方法能够利用多元的用户跨域行为模式进行内部攻击检测。
附图说明
图1.本发明的用户跨域行为模式挖掘过程。
图2.多域审计日志特征相关系数分布图。
图3.基模式规模系数k分别为2、3、4时的基模式计算结果比较。
图4.用户行为特征计算结果。
图5.不同高斯分布规模和协方差的高斯混合模型(GMM)的贝叶斯信息准则(BIC)指标比较。
图6.基于GMM模型的用户行为模式分析结果的可视化效果。
图7.用户行为关于已知行为模式的构成成分分析。
图8.用户行为模式占比标准差分布图。
图9.用户行为模式的高斯分布假设检验结果。
图10.用户跨域行为检测(CDMP-GMM)与用户单域行为检测(SDMP-GMM)的实验结果对比。
图11.基于用户行为多元模式的检测(CDMP-GMM方法)与典型的基于用户行为单一模式的检测(SDMP-GMM方法)的实验结果对比。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
如图1所示,本发明包括三个主要步骤:1.构建用户多域行为描述;2.生成用户行为特征;3.分析用户行为多元模式。
1.构建用户多域行为描述
我们首先分别为各域用户审计日志提取归一化的数据特征,即用户单域行为描述。用户审计日志各项属性的数据类型通常包括标签类型、数值类型和文本类型。标签类型属性记录了名称、事件、操作等信息,如计算机名、用户登录事件、用户文件写操作等。这类属性的取值之间没有任何顺序、大小等相关性。对于这类属性,我们采用二进制向量表示它们的特征值。每个可能取值对应特征向量的一个元素,当日志中该属性的此值出现时,相应的向量元素为“1”,否则为“0”。例如,假设用户文件操作属性包括读、写、新建、拷贝、删除5种操作,则它的特征可表示为“10000”(读)、“01000”(写)、“00100”(新建)、“00010”(拷贝)、“00001”(删除)5种向量。用户审计日志中的绝大数属性属于标签类数据类型。
数值类型的属性由实数表示,如资源使用率、网络流量等。显然这种数值型属性的取值与标签型属性的二进制特征值在尺度上可能有很大差异。为了避免这种差异和统一特征形式,对于数值类型,我们依然采用二进制特征向量的表示方法。我们将数值型属性的取值范围划分成若干个长度相等的分段,每个分段对应特征向量的一个元素。当属性取值落入某个分段,则相应的向量元素为“1”,而其它元素为“0”。例如某个属性的取值区间为[0.0,10.0),我们可将其分为5个等长分段,当属性取值为“6.5”,落入第4分段,则属性特征表示为“00010”。文本类型如邮件和文件内容,主要由词串组成。在某些场景中,由于有保护用户隐私和防止 敏感信息泄露的要求,这些内容不宜被用于分析,因此本发明对文本类型不作考虑。
在得到用户的单域行为特征后,我们基于一个时间窗口,统计合并同一时间窗口的用户所有单域行为描述,构建成用户多域行为描述。本发明我们选择以天为单位的时间窗口。这里可以根据研究需要选择不同时间粒度的时间窗口,如以小时、周等为时间单位。
2.用户行为特征生成
我们首先介绍基模式的概念。基模式是一种用户行为的底层抽象,也是刻画用户行为的基本构成单元。每个基模式可看作某种未知的用户行为主导因素对用户各域行为影响的一种量化形式。而用户行为特征则刻画了用户行为关于基模式的线性组成结构,它量化了基模式代表的未知主导因素对用户行为的影响。
首先我们假设用户行为有k种基模式,则用户多域行为关于基模式线性组合可写为:
ua(i)=wa,0(i)h0+wa,1(i)h1+...+wa,k(i)hk
其中ua(i)表示用户a的第i个时间窗口的行为描述。hj是第j个基模式向量。wa,j(i)表示相应基模式hj的系数(权重)。相应的,用户a的第i个时间窗口的行为特征为:
fa(i)=(wa,0(i),wa,1(i),...,wa,k(i))
这里fa(i)表示用户a在第i个时间窗口的行为特征。
需要说明的是,基模式数量k的选取对用户行为分析具有一定的影响。k值较小时,基模式数量相对较少,意味着考虑的用户行为主导因素较少。因此用户行为特征对用户行为的描述更宏观,利于不同用户之间的行为差异比较。而k值较大时,基模式数量相对较多,意味着考虑的用户行为主导因素较多。而此时用户行为特征对用户行为的描述更细致,利于用户行为个体变化的分析。
我们可以通过基模式的相关性分析来确定基模式数量,如Pearson相关系数。我们首先设定一个相关性阈值。如果系统倾向于分析不同用户的行为差异,则基模式相关系数应小于该阈值。如果系统倾向于分析用户个体行为的变化,则基模式相关系数应大于该阈值。因此本发明可根据具体分析需要,通过观察和计算来确定基模式数量,并生成不同粒度和不同表达倾向的用户行为特征。
现在我们需要根据已知的用户多域行为,求解基模式h0、h1...hk,以及用户a的行为特征fa。首先我们构建所有用户的多域行为模型为:
Un×m=Wn×kHk×m
其中Un×m是所有用户的多域行为描述矩阵,每行代表一个用户多域行为描述向量,n是用户行为特征向量集的规模,m是用户多域行为描述长度。Wn×k是包含所有用户的用户行为特征 矩阵,每行代表一个用户在某个时间窗口的行为特征,k表示基模式集合的规模。Hk×m则是基模式矩阵,每行代表一个基模式向量。
基模式计算可通过求解优化问题实现。当给定基模式规模k,计算可被表示为如下优化问题:
这里||.||表示Frobenius-范数。该目标函数意义是求解最优的用户行为特征矩阵W和基模式矩阵H,它们的乘积与用户行为矩阵U的绝对误差最小。因为矩阵U是非负的,而且对于用户行为来说,纯加性(非负性)的矩阵W和矩阵H才有意义,则以上优化问题的求解实际上是经典的非负矩阵分解问题。
非负矩阵分解(简称NMF)是一种十分有效的数据处理方法,被广泛应用于文本挖掘、图像分析、推荐系统等领域。该方法将一个非负矩阵Un×m分解为两个低阶的非负矩阵Wn×k和Hk×m的乘积,其中阶数k的选值远小于m和n的最小值。虽然对于带有约束条件W,H>=0的公式(1),同时求解矩阵W和矩阵H是一个非凸问题,但是通过分别求解矩阵W(设H固定)和矩阵H(设W固定),可将该问题转化为凸问题。
H=WTU/WTW (2)
W=(HUT/HHT)T (3)
本发明我们采用交替最小二乘法(简称ALS)计算上面的基模式矩阵和用户行为特征矩阵。ALS方法具有简单和实用的优点。我们首先使用文献“A.N.Langville,C.D.Meyer,R.Albright,J.Cox,and D.Duling.Initializations for the nonnegative matrixfactorization.In Proceedings of ACM SIGKDD International Conference onKnowledge Discovery and Data Mining,pages 23–26,2006.”提出的方法初始化基模式矩阵W。该初始化方法通过k次随机选取矩阵U的若干列向量并计算它们的均值,来初始化矩阵W。假设W不变,使用公式(2)求解矩阵H,然后将矩阵H的所有负值置为0。然后,假设矩阵H不变,使用公式(3)求解矩阵W,同样将矩阵W中所有负值置为0。循环以上步骤直到计算收敛条件被满足为止,如矩阵误差小于某个阈值或分解计算达到一定的迭代阈值。最后,分别对矩阵W和矩阵H执行标准化转换。首先对矩阵W进行标准化转换,使得它的每个行向量模为1。然后根据矩阵W中标准化的行向量,调整矩阵H中对应的列向量。
3.用户行为多元模式分析
本发明我们使用高斯混合模型(简称GMM,见“Douglas Reynolds.Gaussianmixture models.Encyclopedia of Biometrics,2009,659–663.”)分析用户行为多元模式。GMM模型将用户行为 特征的分布表示为多个高斯分布的线性组合。其中,每个高斯分布代表一类用户行为特征,即一种用户行为模式。同分布的用户行为特征的高斯分布函数可表示为:
其中,Σ为协方差矩阵,v为均值向量,x为同分布的用户行为特征向量,d表示用户行为特征向量长度。全体用户行为特征的分布密度表示为不同的高斯分布函数的加权线性组合:
其中,x表示任意的用户行为特征,g(.)为高斯分布函数,ρi为第i个高斯分布的权值,m表示高斯分的数量。实验中,我们采用交叉验证的方法来确定最佳的高斯分布数量。
GMM模型的参数集Θ通常使用期望最大(EM)算法估计得到。EM算法基本思路是利用已知的用户行为特征X=(fa(0),fa(1),...,fb(0),fb(1),...),从模型参数集的初始值Θ0开始,估计一个新的参数集Θ,使得在新的模型参数下样本的似然概率P(X|Θ)>=P(X|Θ0)。新的模型参数再作为当前参数进行训练,依次迭代运算直到模型收敛为止。
4.本发明的技术效果
4.1实验环境
表1 5种审计日志数据集
本发明实验中,我们历时3个月收集了21个用户的5种审计日志:计算机登录、文件访问、USB设备操作、CD/DVD介质访问和打印机操作(见表1)。系统登录日志记录了用户登入办公计算机的时间、计算机名(或地址)、用户名等信息。文件访问日志记录了用户的新建、打开、修改、删除文件等操作。HTTP访问日志记录了用户浏览器访问的网页地址等信息。USB设备操作日志记录了USB设备信息、用户插拔USB设备以及读写设备内容等操作。打印机日志记录了打印机相关信息以及用户的文件打印等操作。
本发明的分析平台是一台有4颗6核1GHz AMD Opteron处理器,64GB内存,1TB磁盘和10Gb以太网卡的服务器。服务器运行的软件包括RedHat EnterpriseLinux 6.2操作系统(2.6.32-220.el6.x8664SMP内核),Python 2.7运行时环境。
4.2用户多域行为描述
我们首先根据5类审计日志生成5种用户域内行为特征(见表2)。计算机登录特征包括用户登录操作和登出操作,向量长度为2。文件访问特征包括文件类型(共5类)、新建操作、打开操作、修改操作、拷贝操作、删除操作,向量长度为10。介质访问特征包括介质类型(共2类)、介质读、介质写,向量长度为4。设备操作特征包括设备类型、设备插入、设备拔下、设备读、设备写,向量长度为5。打印机操作特征包括文件类型(共5类),向量长度为5。然后,我们以天为时间窗口,通过统计和合并5类域内行为特征,为每个用户生成跨域行为特征,特征向量长度为26。
表2用户单域行为(日志特征)
我们使用Pearson系数对26各特征的相关性进行分析。图2是多域审计日志特征相关系数分布图,其中PDF为概率密度函数,CDF为累积分布函数。图2的计算结果显示绝大多数特征的相关系数集中在0.1~0.3区间,它们的相关性较小。但是计算机登录域的用户登录操作和登出操作,以及USB设备域的设备插入操作和拔出操作的相关性较大,它们的相关系数达到了0.9。最后我们删除了系统登录域的用户登出操作和USB设备域的设备拔出操作,保留其它24种特征。
4.3基模式和用户行为特征计算
在生成用户行为特征过程中,关键是选取合适的基模式数量参数k。上文提到,k取值较小时,对用户行为的描述更宏观,利于不同用户之间的行为差异比较。而k取值较大时,对用户行为的描述更细致,利于用户个体行为变化的分析。因此,我们对比了3种规模(即k分别取值为2、3和4)时的基模式计算结果。
图3显示了不同基模式数量的实验结果。可以看出,k=2和k=3时,基模式之间具有十分明显的差异。而k=4时,模式1与模式3相似的特征较多。同时考虑到基模式数量较多时,便于用户个体行为变化的分析,最后我们在实验中选择k=3的基模式计算结果。从图3中还可看出,基模式能够很好的表达用户域内和域间行为的不同关系。在我们选择的基模式中,模式0突出了文件域中第1、3种文件类型、文件读操作和设备域中设备插入操作等特征的关系;模式1 突出了文件域的第2种文件类型、介质域的介质写操作等特征的关系;而模式3突出了文件域的第4种文件类型、文件拷贝操作和介质域的介质类型等特征的关系。
我们进一步考察了用户行为特征的计算结果。图4是所有用户行为特征计算结果。可以看出,多数用户之间的行为差异较明显。其次,大部分用户行为具有较明显的阶段性变化,如2号用户行为在第54天前后有较显著的不同,7号用户行为从第36天有明显的变化,20号用户行为在第28天前后也有显著差异等。因此,基于基模式的用户行为特征,不仅能够表现不同用户之间行为的异同,同时能够较好的展现每个用户个体行为的变化。
4.4用户行为多元模式分析
应用GMM模型分析用户行为模式,需要考虑选择合适的协方差约束方式和高斯分布数量。实验中,我们采用交叉验证的方法寻找最佳的GMM模型。我们使用常见的贝叶斯信息准则(BIC)作为模型选择指标。我们比较了分别采用4种协方差矩阵(spherical、diagonal、full和tied)和分别具有1~20个高斯分布的GMM模型的BIC指标。通常情况下,模型的BIC指标越小说明模型的效果越好。图5是不同模型BIC指标的对比。可以看出,其中使用diagonal协方差矩阵和具有15个高斯分布的GMM模型的BIC指标最小,故我们选择此模型进行用户行为模式分析。
图6是基于GMM模型的用户行为模式分析结果的可视化效果。其中,每个分类代表一种用户行为模式,共有15个模式。为了进一步验证用户行为的多元模式,我们分析了每个用户涉及的行为模式及其比重。图7是每个用户关于已识别的15种模式的行为构成分析。其中,18个用户(约占总数的85.7%)的行为具有多元模式特点。图8是这些用户的模式占比分析。其中,15个用户(约占总数的71.4%)的模式占比标准差小于20%,只有3个用户(约占总数的14.2%)的模式占比标准差大于50%。分析结果说明,绝大多数用户行为不仅具有多元模式的特点,而且同时受多种模式主导。单一模式不足以刻画用户的跨域行为。
4.5用户行为特征分布假设检验
实验中,我们对用户行为特征的高斯分布假设进行了假设检验。对于上节实验得到的用户行为模式,我们采用正态概率图给出直观的检验结果,同时采用Shapiro-Wilk检验法进行了拟合性检验。正态概率图描述了同模式的用户行为特征与标准正态分布的函数关系。如果这些用户行为特征符合标准的正态分布,则它们的正态概率图将是一条直线。而采用基于频率统计的Shapiro-Wilk检验法,我们可以量化的检验同模式用户行为特征分布的正态性。该检验法给出称为p-value的正态性检验指标。当该指标高于某个阈值时(通常为0.05),则认为同模式用户行为特征的分布符合正态分布。
图9是假设检验结果,包括了每类模式中用户行为特征的正态概率图,以及相应的p-value 检验指标。不难看出,各模式的正态概率图基本上构成了一条直线。同时,各模式的p-value指标均高于0.05。实验说明用户行为模式符合高斯分布假设。
5.本发明的实例
实例1基于用户行为模式的内部攻击检测
基于以上的用户行为模式分析结果,本文主要针对被较多关注的伪装攻击,设计了一种攻击检测方法。伪装攻击是指恶意的内部用户通过某种手段(如猜密码、种木马、漏洞扫描等)非法窃取其它合法用户的账户和口令,并利用这些账户伪装成合法用户对系统实施的攻击。
5.1.1伪装攻击检测
伪装攻击的检测基础是,恶意用户的行为与被利用的伪装对象的行为存在一定的差异。首先,恶意用户与被利用对象存在天然的个体和背景差异。其次,恶意用户的目的是系统攻击,而被利用对象的行为则主要围绕日常的系统使用。因此二者使用系统的方式和习惯会存在一定程度的不同。
基于以上思想,我们利用前面介绍的用户行为模式分析方法设计了一种新的面向多检测域的伪装攻击检测方法。从用户行为模式的角度看,攻击行为可能带来两种结果,与用户正常行为差异较大,直接产生异常行为模式,或者与用户正常行为差异较小,间接对正常模式产生负面影响。因此,对伪装攻击的检测主要包括两个方面:异常行为模式检测和正常行为模式的干扰检测。通常攻击行为的频度远小于正常行为,因此异常模式是一些小的行为模式。在GMM模型中,则是一些稀疏且规模较小的簇。在检测过程中,我们通过设定一个异常行为模式阈值,用以区分用户的正常行为模式和异常行为模式。在GMM模型中,该阈值是簇规模的下限,低于该阈值的簇则是异常行为模式。异常模式所包含的用户行为则被认为是攻击行为。
在行为模式干扰检测方面,我们通过检验每个行为特征向量对其所属模式高斯分布的影响是否有利。同样的,因为攻击行为的频度远小于正常行为,因此相对于正常行为更符合模式的高斯分布,而攻击行为则会减弱模式的高斯分布符合性。基于上文介绍的p-value指标,我们设计了一个关于行为特征向量的模式支持度指标,用于计算每个行为特征向量对模式的高斯分布的支持程度:sc,i=pc,i-p′c,i。其中sc,i表示编号为i的行为特征向量对模式c的高斯分布支持度。pc,i表示模式c包含了行为特征向量i的高斯分布假设检验p-value指标,而p′c,i表示没有包含行为特征向量i的p-value指标。由于p-value实际是一种概率指标,sc,i的计算结果处于[-1,1]区间。如果sc,i指标越高,则行为特征向量i对模式c的高斯分布支持的越好,表示该行为 越更大可能是正常行为,反之则越差,表示该行为更大可能是攻击行为。通过设定一个模式支持度阈值,我们可以区分用户正常行为和攻击行为。模式支出度指标高于该阈值的行为被认为是正常行为,而低于该阈值的行为则被认为是攻击行为。
检测算法如算法1所示。首先将一个用户异常行为集A初始化为空集(第1行)。接着使用GMM模型分析用户行为多元模式,并得到模式集合C(第2行)。然后分别对模式集C中各模式c进行攻击检测分析(第3~15行)。首先进行异常模式检测(第4~6行)。如果模式c的规模低于异常模式阈值Tc,则将该模式识别为异常模式,并将该模式编号和其中所有行为特征向量编号记入异常行为集A中,然后转入对下一个模式的检测分析。如果模式c规模高于异常模式阈值Tc,则为正常模式,需要继续进行模式干扰检测分析(第8~15行)。首先计算模式中每个行为特征向量的模式支持度指标。如果该指标低于模式支持度阈值Ts,则该特征向量被识别为异常行为,并记入异常行为集A中。否则为正常行为,继续下一个行为特征向量检测。最后返回异常行为集A(第16行)。
5.1.2伪装攻击检测
5.1.2.1数据集
在伪装攻击模拟方面,我们借鉴了Schonlau等人(Kholidy,H.A.;Baiardi,F.;Hariri,S."DDSGA:A Data-Driven Semi-Global Alignment Approach for DetectingMasquerade Attacks",Dependable and Secure Computing,IEEE Transactions on,Onpage(s):164-178Volume:12,Issue:2,March-April 1 2015.)在用户日志中注入攻击数据的方法。该方法随机将用户分为被攻击对象和攻击者,然后将攻击者的部分日志作为攻击行为插入到被攻击用户的正常日志中。实验 中,我们随机选取了6名用户作为攻击者(U5/U8/U11/U16/U17/U18),并随机抽取每个攻击者5天的日志作为攻击数据(T1~T5)。然后将其余15名用户作为被攻击对象,并将攻击数据随机、平均的插入到被攻击用户的日志数据中。生成的攻击数据集见表3描述。
5.1.2.2实验结果
我们对比了两种攻击检测方法与本文方法的实验结果。第一种方法是基于用户单域行为多元模式的检测方法,称为SDMP-GMM方法。基于上文介绍的检测方法,SDMP-GMM方法分别针对每个用户的各单域行为进行攻击检测,包括表1中的5类检测域。该方法使用背景技术中介绍的用户单域行为描述作为用户单域行为特征。第二种方法是基于用户跨域行为单一模式的检测方法,称为CDSP-SVM方法。该方法类似于Ashish等人和Nan等人(见背景技术)提出的基于用户单一行为模式的攻击行为检测方法。CDSP-SVM方法使用背景技术中介绍的用户跨域行为特征,通过标准的SVM分类器挖掘每个用户的单一行为模式,并使用这个分类器判断用户待检行为是否异常。实验中,SVM分类器采用了多阶的多项式核,并通过交叉验证的方式评价检测效果。SVM分类器的训练数据由被攻击用户和其它用户的部分日志数据构成,而测试数据包括被攻击用户的其余日志数据和攻击者的日志数据。最后,为了方便对比,本文方法称为CDMP-GMM方法。实验中,CDMP-GMM方法分别对每个用户的跨域行为进行了攻击检测。
表3伪装攻击数据集
在检测结果评价方面,我们采用了多种评价指标,除了基本的查全率(TruePositive,简称TP)指标和错检率(False Positive,简称FP)指标,还包括常见的ROC曲线及其AUC面积。TP指标是被检测出的攻击行为与攻击行为总量的比例,而FP指标是被误断的用户正常行为与用户正常行为总量的比例。AUC指标能够综合反映检测效果的FP指标和TP指标。检测方法的AUC值越趋近于1,则检测效果越好。对于SDMP-GMM方法和CDMP-GMM方法,可以通过同时对所有用户统一调节异常模式阈值和模式支持度阈值来得到两种方法的所有实验结果,因此我们可以使用AUC指标对它们的实验结果进行对比。而CDSP-SVM方法的检测效果依赖于训练数据的选取,因此我们使用FP指标和TP指标对该方法多次实验后最理想的检测结果进行评价。同时,与SDMP-GMM方法进行对比时不同,CDMP-GMM方法分别调整对每个用户的异常模式阈值和模式支持度阈值。
图10对比了用户跨域行为检测(CDMP-GMM方法)和单域行为检测(SDMP-GMM方法)的实验结果。可以看出,在AUC指标方面CDMP-GMM方法(0.95)优于SDMP-GMM方法分别在计算机登录域、文件域、USB设备域、介质域和打印机域的检测效果(分别为0.78、0.86、0.81、0.71和0.68)。实验说明,相比单域行为模式,用户跨域行为模式更有助于内部攻击检测分析。
图11对比了基于用户行为多元模式的检测(CDMP-GMM方法)与典型的基于用户行为单一模式的检测(CDSP-SVM方法)分别对各用户的实验结果。在TP指标方面,CDSP-SVM方法仅检出用户U1、U12、U15、U19和U20的所有攻击行为,其余10名用户仅检出50%的攻击行为(TP=50%),而CDMP-GMM方法能够检出所有用户的所有攻击行为(TP=100%)。在FP指标方面,CDSP-SVM方法对用户U3、U9、U10、U13和U21的检测结果在20%之内,对用户U7的检测结果在30%之内,对用户U1、U4、U6、U12、U19和U20的检测结果在40%以内,对用户U2的检测结果在50%以内,对用户U14和U15的检测结果超过50%。而CDMP-GMM方法仅对用户U1、U9、U10、U14、U15和U20的检测FP指标在20%以内,对其余9名用户的检测结果均在10%以内。需要注意的是,对于用户U9的检测,虽然CDSP-SVM方法的FP指标(14.3%)优于CDMP-GMM方法(16.1%),但是后者的TP指标(100%)却显著优于前者(50%)。对于用户U10,尽管两种的FP指标比较接近,但是在TP指标上,CDMP-GMM方法(100%)却显著优于CDSP-SVM方法(50%)。由此可知,基于用户行为多元模式的检测方法优于基于单一模式的检测方法。
实例2基于时序分析方法检测用户行为模式的异常变化。
我们首先使用每个用户的行为特征集作为时间序列,为每个用户构建一个时间序列模型。 然后使用该模型为用户产生一个同样的时间序列,作为用户的正常行为,并与实际的用户行为特征进行比较。最后将那些差异大于某个阈值的用户行为特征标记为异常行为。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (7)
1.一种面向内部威胁检测的用户跨域行为模式挖掘方法,其特征在于,包括如下步骤:
1)分别为各个检测域构建归一化的用户单域行为特征,并基于时间窗口通过集成各域域内行为特征构建用户多域行为描述;
该步骤1)分别从各域审计日志中提取归一化的用户单域行为描述,然后再基于一个选定的时间窗口,统计合并同一时间窗口的用户所有单域行为描述,构建成用户多域行为描述;所述审计日志中,对于标签类型的属性,采用二进制向量表示其特征值,每个可能取值对应特征向量的一个元素,当日志中该属性的相应取值出现时,相应的向量元素为“1”,否则为“0”;对于数值类型的属性,依然采用二进制特征向量的表示方法,将数值型属性的取值范围划分成若干个长度相等的分段,每个分段对应特征向量的一个元素,当属性取值落入某个分段,则相应的向量元素为“1”,而其它元素为“0”;
2)从用户多域行为描述中提取基模式,并生成用户行为特征;所述基模式是用户行为的底层抽象,每个基模式是某种未知的用户行为主导因素对用户各域行为影响的量化形式;所述用户行为特征是用户行为关于基模式的线性组成结构;
该步骤2)使用非负矩阵分解的方法计算基模式和用户行为特征,包括如下步骤:
2-1)构建的所有用户的多域行为模型:Un×m=Wn×kHk×m;其中,Un×m是所有用户的多域行为描述矩阵,每行代表一个用户多域行为描述向量,n是用户行为特征向量集的规模,m是用户多域行为描述长度;Wn×k是包含所有用户的用户行为特征矩阵,每行代表一个用户在某个时间窗口的行为特征,k表示基模式集合的规模;Hk×m则是基模式矩阵,每行代表一个基模式向量;
2-2)通过求解优化问题实现基模式的计算,当给定基模式规模k,计算被表示为如下目标函数:该目标函数意义是求解最优的用户行为特征矩阵W和基模式矩阵H,它们的乘积与用户行为矩阵U的绝对误差最小;该优化问题的求解即为经典的非负矩阵分解问题;
3)根据生成的用户行为特征,使用非监督学习技术挖掘多元的用户行为模式。
2.如权利要求1所述的方法,其特征在于:步骤2)通过基模式的相关性分析来确定基模式数量,并且设定一个相关性阈值,如果系统倾向于分析不同用户的行为差异,则基模式相关系数小于该阈值;如果系统倾向于分析用户个体行为的变化,则基模式相关系数大于该阈值。
3.如权利要求1所述的方法,其特征在于:步骤3)使用高斯混和模型分析用户行为的多元模式,所述高斯混和模型将用户行为特征的分布表示为多个高斯分布的线性组合,其中每个高斯分布代表一类用户行为特征,即一种用户行为模式。
4.如权利要求1所述的方法,其特征在于,基于时序分析方法检测用户行为模式的异常变化,具体方法是:使用每个用户的行为特征集作为时间序列,为每个用户构建一个时间序列模型;然后使用该模型为用户产生一个同样的时间序列,作为用户的正常行为,并与实际的用户行为特征进行比较,将那些差异大于某个阈值的用户行为特征标记为异常行为。
5.一种面向多检测域的攻击检测方法,其特征在于,采用权利要求1所述方法挖掘用户的跨域行为模式,并区分用户的正常行为模式和异常行为模式,将异常行为模式所包含的用户行为认为是攻击行为。
6.如权利要求5所述的方法,其特征在于,所述攻击为伪装攻击,对伪装攻击的检测包括两个方面:异常行为模式检测和正常行为模式的干扰检测。
7.如权利要求6所述的方法,其特征在于,对于所述异常行为模式检测,设定一个异常行为模式阈值,用以区分用户的正常行为模式和异常行为模式;对于所述正常行为模式的干扰检测,通过检验每个行为特征向量对其所属模式高斯分布的影响是否有利来实现检测,其采用的用于计算每个行为特征向量对模式的高斯分布的支持程度的指标为:sc,i=pc,i-p′c,i;其中sc,i表示编号为i的行为特征向量对模式c的高斯分布支持度,pc,i表示模式c包含了行为特征向量i的高斯分布假设检验p-value指标,而p′c,i表示没有包含行为特征向量i的p-value指标;如果sc,i指标越高,则行为特征向量i对模式c的高斯分布支持的越好,表示该行为越更大可能是正常行为,反之则表示该行为更大可能是攻击行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510888587.9A CN105516127B (zh) | 2015-12-07 | 2015-12-07 | 面向内部威胁检测的用户跨域行为模式挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510888587.9A CN105516127B (zh) | 2015-12-07 | 2015-12-07 | 面向内部威胁检测的用户跨域行为模式挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105516127A CN105516127A (zh) | 2016-04-20 |
CN105516127B true CN105516127B (zh) | 2019-01-25 |
Family
ID=55723764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510888587.9A Active CN105516127B (zh) | 2015-12-07 | 2015-12-07 | 面向内部威胁检测的用户跨域行为模式挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105516127B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527223A (zh) * | 2016-12-22 | 2017-12-29 | 北京锐安科技有限公司 | 一种购票信息分析的方法及装置 |
CN107609330B (zh) * | 2017-08-31 | 2019-12-06 | 中国人民解放军国防科技大学 | 基于门禁日志挖掘的内部威胁异常行为分析方法 |
CN108011881B (zh) * | 2017-12-05 | 2020-07-10 | 北京明朝万达科技股份有限公司 | 一种基于自适应感知的敏感数据缓慢泄露检测方法及系统 |
CN108376254A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 融合多源特征的内部威胁人物检测方法 |
CN108388969A (zh) * | 2018-03-21 | 2018-08-10 | 北京理工大学 | 基于个人行为时序特征的内部威胁人物风险预测方法 |
CN109344074B (zh) * | 2018-10-19 | 2022-06-03 | 中国银行股份有限公司 | 一种跨平台自动化测试方法及系统 |
CN109698835B (zh) * | 2019-01-19 | 2021-03-26 | 郑州轻工业学院 | 一种面向https隐蔽隧道的加密木马检测方法 |
CN110830450A (zh) * | 2019-10-18 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于统计的异常流量监测方法、装置、设备及存储介质 |
CN110958220B (zh) * | 2019-10-24 | 2020-12-29 | 中国科学院信息工程研究所 | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 |
CN110737890B (zh) * | 2019-10-25 | 2021-04-02 | 中国科学院信息工程研究所 | 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法 |
CN111291015B (zh) * | 2020-04-28 | 2020-08-07 | 国网电子商务有限公司 | 一种用户行为异常检测方法及装置 |
CN111967011B (zh) * | 2020-07-10 | 2022-10-14 | 电子科技大学 | 一种基于可解释的内部威胁评估方法 |
CN112261006B (zh) * | 2020-09-27 | 2022-07-19 | 中孚安全技术有限公司 | 一种用于发现威胁行为间依赖关系的挖掘方法、终端及存储介质 |
CN113961913B (zh) * | 2021-09-27 | 2022-05-31 | 北京东方通科技股份有限公司 | 一种应用于跨域安全的检测方法及系统 |
CN113935696B (zh) * | 2021-12-14 | 2022-04-08 | 国家邮政局邮政业安全中心 | 一种寄递行为异常分析方法、系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184364A (zh) * | 2011-05-26 | 2011-09-14 | 南京财经大学 | 基于半监督学习的推荐系统托攻击检测方法 |
CN103744994A (zh) * | 2014-01-22 | 2014-04-23 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9769189B2 (en) * | 2014-02-21 | 2017-09-19 | Verisign, Inc. | Systems and methods for behavior-based automated malware analysis and classification |
-
2015
- 2015-12-07 CN CN201510888587.9A patent/CN105516127B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184364A (zh) * | 2011-05-26 | 2011-09-14 | 南京财经大学 | 基于半监督学习的推荐系统托攻击检测方法 |
CN103744994A (zh) * | 2014-01-22 | 2014-04-23 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
Non-Patent Citations (1)
Title |
---|
《面向邮件网络事件检测的用户行为模式挖掘》;李全刚等;《计算机学报》;20140531;第37卷(第5期);第4页-第6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105516127A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105516127B (zh) | 面向内部威胁检测的用户跨域行为模式挖掘方法 | |
Aldwairi et al. | An evaluation of the performance of Restricted Boltzmann Machines as a model for anomaly network intrusion detection | |
Su et al. | Evil under the sun: Understanding and discovering attacks on ethereum decentralized applications | |
Gamachchi et al. | A graph based framework for malicious insider threat detection | |
CN107241352A (zh) | 一种网络安全事件分类与预测方法及系统 | |
Martin et al. | Anomaly detection in blockchain using network representation and machine learning | |
CN108063776A (zh) | 基于跨域行为分析的内部威胁检测方法 | |
CN113919630A (zh) | 一种企业经济犯罪侦查方法、系统及设备 | |
Veena et al. | C SVM classification and KNN techniques for cyber crime detection | |
Sohrabi et al. | Detecting intrusion transactions in database systems: a novel approach | |
Wass et al. | Prediction of cyber attacks during coronavirus pandemic by classification techniques and open source intelligence | |
Petersen | Data mining for network intrusion detection: A comparison of data mining algorithms and an analysis of relevant features for detecting cyber-attacks | |
Wang et al. | Exploring topic models to discern cyber threats on Twitter: A case study on Log4Shell | |
Singh et al. | Trust factor-based analysis of user behavior using sequential pattern mining for detecting intrusive transactions in databases | |
Zhao et al. | A situation awareness approach for network security using the fusion model | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
Farid et al. | Attribute weighting with adaptive NBTree for reducing false positives in intrusion detection | |
Abraham et al. | A survey on preventing crypto ransomware using machine learning | |
Hai-yan et al. | A multiple objective optimization based echo state network tree and application to intrusion detection | |
Fei | Data visualisation in digital forensics | |
Li et al. | Memory‐Augmented Insider Threat Detection with Temporal‐Spatial Fusion | |
Charmanas et al. | Topic and influence analysis on technological patents related to security vulnerabilities | |
Bartoszewski | Machine learning and anomaly detection for insider threat detection | |
Rahaman | A Proposed Model for Cybercrime Detection Algorithm Using A Big Data Analytics | |
Acquesta et al. | Detailed Statistical Models of Host-Based Data for Detection of Malicious Activity. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |