CN108090354B - 基于文件访问图的非监督伪装者检测方法及系统 - Google Patents
基于文件访问图的非监督伪装者检测方法及系统 Download PDFInfo
- Publication number
- CN108090354B CN108090354B CN201711121116.0A CN201711121116A CN108090354B CN 108090354 B CN108090354 B CN 108090354B CN 201711121116 A CN201711121116 A CN 201711121116A CN 108090354 B CN108090354 B CN 108090354B
- Authority
- CN
- China
- Prior art keywords
- file
- graph
- similarity
- function
- vertex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/565—Static detection by checking file integrity
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于文件访问图的非监督伪装者检测方法,其步骤包括:将全部文件访问记录按时间顺序分割成多个文件块,每个文件块均包含多条文件访问记录;利用相似度评分函数计算所述文件块之间的相似度;构建无向边权重图,将所述文件块作为图中相互连接的各顶点,任意两顶点间的边权重为对应的两文件块间的相似度;利用聚类算法挖掘图中的聚类簇,并得到图中每个顶点与其所属聚类簇的相关度;将相关度低于一特定的阈值的异常顶点判定为伪装者。本发明还提供一种基于文件访问图的非监督伪装者检测系统。
Description
技术领域
本发明涉及信息安全领域,具体涉及一种基于文件访问图的非监督伪装者检测方法及系统。
背景技术
信息是一种极其重要的资产,如何防止恶意内部人员窃取组织内部信息已经成为目前最严重的网络安全威胁。由于越来越多的信息存储于个人计算机,及时有效地检测一个人的计算机是否被非法访问是检测信息窃取的一个关键问题,这种检测方法被称为伪装者检测或内部威胁检测。伪装者是利用窃取的合法用户身份来执行恶意行为的一种攻击者。
目前的伪装者检测方法主要研究unix命令、鼠标键盘使用、文件使用以及其他的经常被用户使用的计算机对象。
Schonlau(Schonlau M.,DuMouchel W.,Ju W.H.,Karr A.F.,Theus M.,VardlY.:Computerintrusion:Detecting masquerades.In:Statistical science,pp.58-74(2001))首先构建了一个unix命令数据集,并且基于unix命令使用“uniqueness”方法建模用户行为和检测伪装者。然而,由于伪装者数据不是真实的攻击数据,这个unix命令数据集备受争议。
Messerman(Messerman A.,T.,Camtepe S.A.,Albayrak S.:Continuousand nonintrusiveidentityveri_cation in real-time environments based on free-text keystrokedynamics.In:International Joint Conference on Biometrics,IEEEComputer Society,pp.1-8(2011))从键盘按键被按下和弹起的次数来建模用户的鼠标动态行为。Garg(Garg A.,Rahalkar R.,Upadhyaya S.,Kwiat P.:Pro_ling users in GUIbased systemsfor masquerade detection.In:Proceedings of the 2006 IEEEWorkshop onInformation Assurance,pp.48-54(2006))建立了鼠标点击和移动的模式。然而,这些模型仅仅适用于预定义的环境,例如只与特定的一个应用程序交互。
基于文件使用的伪装者检测方法已经吸引了越来越多的关注。大致可以分为监督和非监督方法。( J.B.,Monroy R.,Trejo L.A.,Medina-Pérez M.A.:Temporal and spatiallocality:An abstraction for masquerade detection.In:IEEETransactions onInformation Forensics and Security,vol.11,no.9,pp.2036-2051(2016))提取了文件访问的局部特征,并使用TreeBagger分类器检测伪装者。Song(SongY.,Salem M.B.,Hershkop S.,Stolfo S.J.:System level user behaviorbiometricsusing Fisher features and Gaussian mixture models.In:Security andPrivacyWorkshops(SPW),IEEE,vol.42,no.6,pp.52-59(2013))应用多变量高斯混合模型分类器建立用户行为,提取了一系列统计特征,例如文件访问次数。然而由于伪装者数据的缺乏,监督学习方法不太适用于真实情况。
因此,越来越多的技术采用非监督学习方法。Senator(Senator,T.E.,Goldberg,H.G.,Memory,A.,Young,W.T.,Rees,B.,Pierce,R.,Huang,D.,Reardon,M.,Bader,D.A.,Chow,E.,Essa,I.,Jones,J.,Bettadapura,V.,Chau,D.H.,Green,O.,Kaya,O.,Zakrzewska,A.,Briscoe,E.,Mappus,R.I.L.,McColl,R.,Weiss,L.,Dietterich,T.G.,Fern,A.,Wong,W.K.,Das,S.,Emmott,A.,Irvine,J.,Lee,J.Y.,Koutra,D.,Faloutsos,C.,Corkill,D.,Friedland,L.,Gentzel,A.,Jensen,D.:Detecting insider threats in areal corporate database of computerusage activity.In:KDD 2013:Proceedings ofthe 19th ACM SIGKDD InternationalConference on Knowledge Discovery and DataMining,pp.1393-1401(2013))构建了文件访问的统计特征,例如文件拷贝到可移动设备的次数,并使用多个非监督检测算法检测恶意内部人员行为。Chen(Chen Y.,Malin B.:Detection of anomalous insiders in collaborative environmentsvia relationalanalysis of access logs.In:Proceedings of the _rst ACM conferenceon Data andapplication security and privacy,pp.63-74(2011))提出一种合作环境中基于文件访问日志的用户行为的异常检测框架,然而,该方法并没有考虑文件之间的关系。上述已有的基于文件的非监督伪装者检测算法根据文件的统计特征建立用户行为,没有结合文件之间的关系。
Gates(Gates C.,Li N.,Xu Z.,Chari S.N.,Molloy I.,Park Y.:DetectingInsider Informationtheft using features from_le access logs.In:EuropeanSymposium on Research inComputer Security,Springer International Publishing,pp.383-400(2014))利用文件访问日志,比较了当前访问的文件和历史访问的文件的相似关系。如果得到高相似度的文件之间的关系则认为是正常的行为,反之则为异常行为。然而该算法仅划分了当前和历史两个时间段的文件关系,是一个粗粒度的文件关系建模。
发明内容
本发明的目的是针对已有的基于文件的非监督伪装者检测方法没有细粒度刻画文件关系的问题,提出了一种基于文件访问图的非监督伪装者检测方法及系统,利用图结构建模文件关系,通过基于该图的聚类算法计算顶点和聚类簇的相关度,从而有效检测到伪装者。
为达到上述目的,本发明采用的技术方案如下:
一种基于文件访问图的非监督伪装者检测方法,步骤包括:
将全部文件访问记录按时间顺序分割成多个文件块,每个文件块均包含多条文件访问记录;
利用相似度评分函数计算所述文件块之间的相似度;
构建无向边权重图,将所述文件块作为图中相互连接的各顶点,任意两顶点间的边权重为对应的两文件块间的相似度;
利用聚类算法挖掘图中的聚类簇,并得到图中每个顶点与其所属聚类簇的相关度;
将相关度低于一特定的阈值的异常顶点判定为伪装者。
进一步地,所述相似度评分函数包括第一相似度评分函数、第二相似度评分函数;
所述第一相似度评分函数公式为:
sim1(Y,Z)=1-aggi∈Y,j∈Zdistance(fi,fj)
其中,distance(fi,fj)为文件距离函数,用于计算两个文件fi和fj的距离;aggi∈Y,j∈Z为聚合函数,用于计算两个文件块Y和Z的距离;
所述第二相似度评分函数公式为:
其中,g(Y)和g(Z)表示在文件块Y和Z中不同文件夹的数量。
进一步地,所述文件距离函数公式为:
进一步地,所述聚合函数的公式为:
其中,L(κ)为相关度,顶点κ∈聚类簇S,
进一步地,所述φs和ws的公式如下:
进一步地,所述阈值的确定方法是:通过统计顶点与聚类簇相关性的分布,将80%的顶点相关性分布区间的下限设定为阈值;例如,在一个权重图中,80%的顶点与聚类簇的相关性为[0.001,1],则设定阈值为0.001,即相关性小于0.001的顶点为异常。
一种基于文件访问图的非监督伪装者检测系统,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行所述方法的各步骤指令。
由于文件是经常被用户使用的计算机对象,文件之间的关系可以为伪装者检测提供线索,本发明提供的方法根据文件访问记录,分成若干含有多条访问记录的文件块,通过特定的相似度评估函数获取文件块之间的相似度,再据此建立文件访问关系图,即无向边权重图,将文件块和对文件的访问关系形象化地构建成该图的顶点和连接关系,通过基于该图的聚类算法计算顶点和聚类簇的相关度,从而有效检测到伪装者。在公开数据集WUIL上的实验结果表明,本发明方法比已有基于文件的非监督伪装者检测方法AveScore和SumScore在WUIL所有用户上的检测结果的平均AUC(Area under the curve)值提高了23%和19%,检测的效果更佳。
附图说明
图1为本发明的基于文件访问图的非监督伪装者检测方法流程图。
图2为文件访问无向边权重图。
图3为本发明方法与算法AveScore和SumScore在公开数据集WUIL上的AUC对比结果图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例公开一种基于文件访问图的非监督伪装者检测方法,如图1所示,步骤如下:
步骤1:文件相似度计算
设T为一个用户的文件访问记录数据集,一个文件访问事件t∈T包括文件访问路径和访问时间。将T分割成多个文件块,每个块为固定时间窗口内的文件访问记录,块与块之间没有重复的文件访问记录。
设A和B为两个不同的时间窗口,Y和Z表示A和B时间窗口中的文件集合,即两个文件块,fi和fj分别表示文件块Y和Z中的两个文件。利用两个相似度评分函数进行文件块间的相似度计算,为指代方便,本发明特命名以第一相似度评分函数和第二相似度评分函数,其中第一相似度评分函数包含一文件距离函数和一聚合函数,该第一相似度评分函数为:
sim1(Y,Z)=1-aggi∈Y,j∈Zdistance(fi,fj)(1)
其中,distance(fi,fj)表示两个文件的距离,agg函数表示两个文件块Y和Z的距离。文件fi和fj越相似,距离函数distance(fi,fj)值越小;文件块Y和Z越相似,聚合函数agg值越小。
已有的计算两个文件的距离的方法是基于文件的结构层次,在相同目录下的文件比不同目录下的文件更加相似。根据需要,本发明提出的文件距离函数为:
其中,
公式(2)表示当两个文件相同时,距离函数为0;当两个文件不同时,距离函数为两个文件到公共父目录的距离之和与两个文件到根目录的距离之和的比值,其中lca函数返回文件fi和fj路径的公共父目录。当两个文件在不同子目录时,一个文件到另一个文件不需要访问公共父目录,而是直接访问父目录下的子目录,因此文件之间的距离将减少1,即logical函数取值为1。
聚合函数agg为对距离函数distance进行累加和平均,即聚合函数被定义为:
除此之外,正常用户通常会访问特定的文件夹,然而伪装者由于不了解被攻击者的文件系统,将遍历更多文件夹以搜寻感兴趣的文件。因此,伪装者比正常用户将会访问更多的文件夹。因此,第二相似度评分函数结合了文件路径距离和文件夹数量被定义为:
其中g(Y)和g(Z)表示在文件块Y和Z中不同文件夹的数量。并且,相似度评分函数具有交换性和半正定性。
步骤2:伪装者检测
构建无向边权重图,将文件块看作图中的顶点,顶点之间两两相连,每条边的权重为两个文件块的相似度。将每个用户的文件访问记录数据集T分别表示为一个无向边权重图G=(V,E,w),其中V={1,…,n}是顶点集,是边集,w:E→R+是权重函数,如图2所示(以10个顶点为例)。图G可以表示为一个n×n的对称相似矩阵M=(aY,Z):
sim(Y,Z)可以利用上述相似度评估函数计算得到。由于正常用户通常访问特定的文件夹,因此正常文件块之间是相似的。正常文件块趋于形成一个簇,即图中的顶点将形成一个聚类簇,异常顶点将会与聚类簇有低的相关性。本文使用基于该图的聚类算法(参见Pavan M.,Pelillo M.:A new graph-theoretic approach to clustering andsegmentation.In:IEEE Computer Society Conference on Computer Vision andPatternRecognition,vol.1,pp.l-145-l-152(2003))计算图中顶点与聚类簇的相关性。
φS(Y,Z)=aY,Z-awdegS(Y) (7)
φS(Y,Z)计算了顶点Y和Z之间的相对相似度,φS(Y,Z)可能为负值或者正值。
顶点Y对于顶点子集S的权重为:
wS(Y)计算了顶点Y和顶点S\{Y}的相关性。根据顶点的相关性,S中的顶点将形成一个聚类簇,如果顶点满足
以上两个条件,则对于一个顶点κ∈S,顶点κ的相关性为:
其中φ的定义见公式(7)。
如果L(κ)低于一个特定的阈值,则认为这个顶点κ是异常的,即为伪装者。
本文在公开数据集WUIL(cem.itesm.mx/raulm/wuil-ds/)的18个用户的文件访问数据集上进行实验,计算检测结果的AUC值,并与已有的基于文件的非监督伪装者检测方法AveScore和SumScore(Gates C.,Li N.,Xu Z.,Chari S.N.,Molloy I.,Park Y.:Detecting Insider Informationtheft using features from _le access logs.In:European Symposium on Research inComputer Security,Springer InternationalPublishing,pp.383-400(2014))在WUIL所有用户上的检测结果的平均AUC值进行对比,提高了23%和19%,检测结果更佳,如图3所示。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (9)
1.一种基于文件访问图的非监督伪装者检测方法,其步骤包括:
将全部文件访问记录按时间顺序分割成多个文件块,每个文件块均包含多条文件访问记录;
利用相似度评分函数计算所述文件块之间的相似度;
构建无向边权重图,将所述文件块作为图中相互连接的各顶点,任意两顶点间的边权重为对应的两文件块间的相似度;
利用聚类算法挖掘图中的聚类簇,并得到图中每个顶点与其所属聚类簇的相关度;
将相关度低于一特定的阈值的异常顶点判定为伪装者;
所述相似度评分函数包括第一相似度评分函数、第二相似度评分函数;
所述第一相似度评分函数公式为:
sim1(Y,Z)=1-aggi∈Y,j∈Zdistance(fi,fj);
其中,distance(fi,fj)为文件距离函数,用于计算两个文件fi和fj的距离;aggi∈Y,j∈Z为聚合函数,用于计算两个文件块Y和Z的距离;
所述第二相似度评分函数公式为:
其中,g(Y)和g(Z)表示在文件块Y和Z中不同文件夹的数量。
8.根据权利要求1所述的方法,其特征在于,所述阈值的确定方法是:通过统计顶点与聚类簇相关性的分布,将80%的顶点相关性分布区间的下限设定为阈值。
9.一种基于文件访问图的非监督伪装者检测系统,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述权利要求1-8任一权利要求所述方法的各步骤指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711121116.0A CN108090354B (zh) | 2017-11-14 | 2017-11-14 | 基于文件访问图的非监督伪装者检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711121116.0A CN108090354B (zh) | 2017-11-14 | 2017-11-14 | 基于文件访问图的非监督伪装者检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090354A CN108090354A (zh) | 2018-05-29 |
CN108090354B true CN108090354B (zh) | 2021-12-10 |
Family
ID=62172166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711121116.0A Active CN108090354B (zh) | 2017-11-14 | 2017-11-14 | 基于文件访问图的非监督伪装者检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090354B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043905B1 (en) * | 2012-01-23 | 2015-05-26 | Hrl Laboratories, Llc | System and method for insider threat detection |
CN105243327A (zh) * | 2015-11-17 | 2016-01-13 | 四川神琥科技有限公司 | 一种文件安全处理方法 |
CN106384050A (zh) * | 2016-09-13 | 2017-02-08 | 哈尔滨工程大学 | 一种基于最大频繁子图挖掘的动态污点分析方法 |
CN106803039A (zh) * | 2016-12-30 | 2017-06-06 | 北京神州绿盟信息安全科技股份有限公司 | 一种恶意文件的同源判定方法及装置 |
-
2017
- 2017-11-14 CN CN201711121116.0A patent/CN108090354B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043905B1 (en) * | 2012-01-23 | 2015-05-26 | Hrl Laboratories, Llc | System and method for insider threat detection |
CN105243327A (zh) * | 2015-11-17 | 2016-01-13 | 四川神琥科技有限公司 | 一种文件安全处理方法 |
CN106384050A (zh) * | 2016-09-13 | 2017-02-08 | 哈尔滨工程大学 | 一种基于最大频繁子图挖掘的动态污点分析方法 |
CN106803039A (zh) * | 2016-12-30 | 2017-06-06 | 北京神州绿盟信息安全科技股份有限公司 | 一种恶意文件的同源判定方法及装置 |
Non-Patent Citations (7)
Title |
---|
A New Graph-Theoretic Approach to Clustering and Segmentation;M. Pavan and M. Pelillo;《2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition》;20030715;第2章节 * |
Camiña B, Monroy R, Trejo L A.Towards building a masquerade detection method based on user file system navigation.《Mexican International Conference on Artificial Intelligence. Springer, Berlin, Heidelberg》.2011,174-186. * |
J. B. Camiña, R. Monroy, L. A. Trejo and M. A. Medina-Pérez.Temporal and Spatial Locality: An Abstraction for Masquerade Detection.《In IEEE Transactions on Information Forensics and Security》.2016,第11卷(第9期),第2036-2051页. * |
Modeling user search behavior for masquerade detection;Salem M B, Stolfo S J;《International Workshop on Recent Advances in Intrusion Detection. Springer, Berlin, Heidelberg》;20111231;全文 * |
Temporal and Spatial Locality: An Abstraction for Masquerade Detection;J. B. Camiña, R. Monroy, L. A. Trejo and M. A. Medina-Pérez;《In IEEE Transactions on Information Forensics and Security》;20160930;第11卷(第9期);第1-4章节,以及图1 * |
The Windows-Users and-Intruder simulations Logs dataset (WUIL): An experimental framework for masquerade detection mechanisms;Camina J B, Hernández-Gracidas C, Monroy R;《Expert systems with applications》;20140215;第41卷(第3期);全文 * |
Towards a masquerade detection system based on user’s tasks;Camina J B, Rodríguez J, Monroy R;《International Workshop on Recent Advances in Intrusion Detection. Springer, Cham》;20141231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108090354A (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10257211B2 (en) | Method, apparatus, and computer-readable medium for detecting anomalous user behavior | |
Thongsatapornwatana | A survey of data mining techniques for analyzing crime patterns | |
Veloso et al. | Cost-effective on-demand associative author name disambiguation | |
CN109754258B (zh) | 一种基于个体行为建模的面向线上交易欺诈检测方法 | |
Zhang et al. | Web phishing detection based on page spatial layout similarity | |
Iwata et al. | Multi-view anomaly detection via robust probabilistic latent variable models | |
CN109829721B (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
Duggimpudi et al. | Spatio-temporal outlier detection algorithms based on computing behavioral outlierness factor | |
CN109033845B (zh) | 基于文件访问记录时空分析的伪装者检测方法及系统 | |
Yan et al. | Intrusion detection based on improved density peak clustering for imbalanced data on sensor-cloud systems | |
CN115130119B (zh) | 一种基于本地差分隐私的效用优化集合数据保护方法 | |
Yang et al. | Detection of shilling attack based on bayesian model and user embedding | |
Thang et al. | Multistage System‐Based Machine Learning Techniques for Intrusion Detection in WiFi Network | |
CN114554491A (zh) | 基于改进ssae和dnn模型的无线局域网入侵检测方法 | |
Botelho et al. | Combining Social Network Analysis with Semi-supervised Clustering: a case study on fraud detection | |
CN108090354B (zh) | 基于文件访问图的非监督伪装者检测方法及系统 | |
Salem et al. | Development of assessment criteria for clustering algorithms | |
Fei et al. | Real-time detection of COVID-19 events from Twitter: A spatial-temporally Bursty-Aware method | |
CN114298245A (zh) | 异常检测方法、装置、存储介质和计算机设备 | |
CN110990869B (zh) | 一种应用于隐私保护的电力大数据脱敏方法 | |
Cherednichenko | Outlier detection in clustering | |
CN113408579A (zh) | 一种基于用户画像的内部威胁预警方法 | |
Zhang et al. | Mining from distributed and abstracted data | |
Imani et al. | Phishing Website Detection Using Weighted Feature Line Embedding. | |
Kumar et al. | Clustering algorithms for intrusion detection: A broad visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |