CN108090354B

CN108090354B - 基于文件访问图的非监督伪装者检测方法及系统

Info

Publication number: CN108090354B
Application number: CN201711121116.0A
Authority: CN
Inventors: 于爱民; 王佳荣; 蔡利君
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2021-12-10
Anticipated expiration: 2037-11-14
Also published as: CN108090354A

Abstract

本发明提供一种基于文件访问图的非监督伪装者检测方法，其步骤包括：将全部文件访问记录按时间顺序分割成多个文件块，每个文件块均包含多条文件访问记录；利用相似度评分函数计算所述文件块之间的相似度；构建无向边权重图，将所述文件块作为图中相互连接的各顶点，任意两顶点间的边权重为对应的两文件块间的相似度；利用聚类算法挖掘图中的聚类簇，并得到图中每个顶点与其所属聚类簇的相关度；将相关度低于一特定的阈值的异常顶点判定为伪装者。本发明还提供一种基于文件访问图的非监督伪装者检测系统。

Description

基于文件访问图的非监督伪装者检测方法及系统

技术领域

本发明涉及信息安全领域，具体涉及一种基于文件访问图的非监督伪装者检测方法及系统。

背景技术

信息是一种极其重要的资产，如何防止恶意内部人员窃取组织内部信息已经成为目前最严重的网络安全威胁。由于越来越多的信息存储于个人计算机，及时有效地检测一个人的计算机是否被非法访问是检测信息窃取的一个关键问题，这种检测方法被称为伪装者检测或内部威胁检测。伪装者是利用窃取的合法用户身份来执行恶意行为的一种攻击者。

目前的伪装者检测方法主要研究unix命令、鼠标键盘使用、文件使用以及其他的经常被用户使用的计算机对象。

Schonlau(Schonlau M.，DuMouchel W.，Ju W.H.，Karr A.F.，Theus M.，VardlY.:Computerintrusion:Detecting masquerades.In:Statistical science，pp.58-74(2001))首先构建了一个unix命令数据集，并且基于unix命令使用“uniqueness”方法建模用户行为和检测伪装者。然而，由于伪装者数据不是真实的攻击数据，这个unix命令数据集备受争议。

Messerman(Messerman A.，

T.，Camtepe S.A.，Albayrak S.:Continuousand nonintrusiveidentityveri_cation in real-time environments based on free-text keystrokedynamics.In:International Joint Conference on Biometrics，IEEEComputer Society，pp.1-8(2011))从键盘按键被按下和弹起的次数来建模用户的鼠标动态行为。Garg(Garg A.，Rahalkar R.，Upadhyaya S.，Kwiat P.:Pro_ling users in GUIbased systemsfor masquerade detection.In:Proceedings of the 2006 IEEEWorkshop onInformation Assurance，pp.48-54(2006))建立了鼠标点击和移动的模式。然而，这些模型仅仅适用于预定义的环境，例如只与特定的一个应用程序交互。

基于文件使用的伪装者检测方法已经吸引了越来越多的关注。大致可以分为监督和非监督方法。

(

J.B.，Monroy R.，Trejo L.A.，Medina-Pérez M.A.:Temporal and spatiallocality:An abstraction for masquerade detection.In:IEEETransactions onInformation Forensics and Security，vol.11，no.9，pp.2036-2051(2016))提取了文件访问的局部特征，并使用TreeBagger分类器检测伪装者。Song(SongY.，Salem M.B.，Hershkop S.，Stolfo S.J.:System level user behaviorbiometricsusing Fisher features and Gaussian mixture models.In:Security andPrivacyWorkshops(SPW)，IEEE，vol.42，no.6，pp.52-59(2013))应用多变量高斯混合模型分类器建立用户行为，提取了一系列统计特征，例如文件访问次数。然而由于伪装者数据的缺乏，监督学习方法不太适用于真实情况。

因此，越来越多的技术采用非监督学习方法。Senator(Senator，T.E.，Goldberg，H.G.，Memory，A.，Young，W.T.，Rees，B.，Pierce，R.，Huang，D.，Reardon，M.，Bader，D.A.，Chow，E.，Essa，I.，Jones，J.，Bettadapura，V.，Chau，D.H.，Green，O.，Kaya，O.，Zakrzewska，A.，Briscoe，E.，Mappus，R.I.L.，McColl，R.，Weiss，L.，Dietterich，T.G.，Fern，A.，Wong，W.K.，Das，S.，Emmott，A.，Irvine，J.，Lee，J.Y.，Koutra，D.，Faloutsos，C.，Corkill，D.，Friedland，L.，Gentzel，A.，Jensen，D.:Detecting insider threats in areal corporate database of computerusage activity.In:KDD 2013:Proceedings ofthe 19th ACM SIGKDD InternationalConference on Knowledge Discovery and DataMining，pp.1393-1401(2013))构建了文件访问的统计特征，例如文件拷贝到可移动设备的次数，并使用多个非监督检测算法检测恶意内部人员行为。Chen(Chen Y.，Malin B.:Detection of anomalous insiders in collaborative environmentsvia relationalanalysis of access logs.In:Proceedings of the _rst ACM conferenceon Data andapplication security and privacy，pp.63-74(2011))提出一种合作环境中基于文件访问日志的用户行为的异常检测框架，然而，该方法并没有考虑文件之间的关系。上述已有的基于文件的非监督伪装者检测算法根据文件的统计特征建立用户行为，没有结合文件之间的关系。

Gates(Gates C.，Li N.，Xu Z.，Chari S.N.，Molloy I.，Park Y.:DetectingInsider Informationtheft using features from_le access logs.In:EuropeanSymposium on Research inComputer Security，Springer International Publishing，pp.383-400(2014))利用文件访问日志，比较了当前访问的文件和历史访问的文件的相似关系。如果得到高相似度的文件之间的关系则认为是正常的行为，反之则为异常行为。然而该算法仅划分了当前和历史两个时间段的文件关系，是一个粗粒度的文件关系建模。

发明内容

本发明的目的是针对已有的基于文件的非监督伪装者检测方法没有细粒度刻画文件关系的问题，提出了一种基于文件访问图的非监督伪装者检测方法及系统，利用图结构建模文件关系，通过基于该图的聚类算法计算顶点和聚类簇的相关度，从而有效检测到伪装者。

为达到上述目的，本发明采用的技术方案如下：

一种基于文件访问图的非监督伪装者检测方法，步骤包括：

将全部文件访问记录按时间顺序分割成多个文件块，每个文件块均包含多条文件访问记录；

利用相似度评分函数计算所述文件块之间的相似度；

构建无向边权重图，将所述文件块作为图中相互连接的各顶点，任意两顶点间的边权重为对应的两文件块间的相似度；

利用聚类算法挖掘图中的聚类簇，并得到图中每个顶点与其所属聚类簇的相关度；

将相关度低于一特定的阈值的异常顶点判定为伪装者。

进一步地，所述相似度评分函数包括第一相似度评分函数、第二相似度评分函数；

所述第一相似度评分函数公式为：

sim₁(Y，Z)＝1-agg_{i∈Y，j∈Z}distance(f_i，f_j)

其中，distance(f_i，f_j)为文件距离函数，用于计算两个文件f_i和f_j的距离；agg_{i∈Y，j∈Z}为聚合函数，用于计算两个文件块Y和Z的距离；

所述第二相似度评分函数公式为：

其中，g(Y)和g(Z)表示在文件块Y和Z中不同文件夹的数量。

进一步地，所述文件距离函数公式为：

其中，

进一步地，所述聚合函数的公式为：

其中，

进一步地，所述无向边权重图的表达式为G＝(V，E，w)，其中V＝{1，…，n}是顶点集，

是边集，w:E→R⁺是权重函数。

进一步地，所述G＝(V，E，w)可表示为一个n×n的对称相似矩阵M＝(a_Y，Z)；其中，

sim(Y，Z)为相似度评估函数。

进一步地，所述聚类算法的在满足条件w_S(Y)>0，

和w_S∪{Y}(Y)<0，

的情况下，其公式为：

其中，L(κ)为相关度，顶点κ∈聚类簇S，

进一步地，所述φ_s和w_s的公式如下：

其中，设

为非空顶点子集，Y∈S，

进一步地，所述阈值的确定方法是：通过统计顶点与聚类簇相关性的分布，将80％的顶点相关性分布区间的下限设定为阈值；例如，在一个权重图中，80％的顶点与聚类簇的相关性为[0.001，1]，则设定阈值为0.001，即相关性小于0.001的顶点为异常。

一种基于文件访问图的非监督伪装者检测系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行所述方法的各步骤指令。

由于文件是经常被用户使用的计算机对象，文件之间的关系可以为伪装者检测提供线索，本发明提供的方法根据文件访问记录，分成若干含有多条访问记录的文件块，通过特定的相似度评估函数获取文件块之间的相似度，再据此建立文件访问关系图，即无向边权重图，将文件块和对文件的访问关系形象化地构建成该图的顶点和连接关系，通过基于该图的聚类算法计算顶点和聚类簇的相关度，从而有效检测到伪装者。在公开数据集WUIL上的实验结果表明，本发明方法比已有基于文件的非监督伪装者检测方法AveScore和SumScore在WUIL所有用户上的检测结果的平均AUC(Area under the curve)值提高了23％和19％，检测的效果更佳。

附图说明

图1为本发明的基于文件访问图的非监督伪装者检测方法流程图。

图2为文件访问无向边权重图。

图3为本发明方法与算法AveScore和SumScore在公开数据集WUIL上的AUC对比结果图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例公开一种基于文件访问图的非监督伪装者检测方法，如图1所示，步骤如下：

步骤1:文件相似度计算

设T为一个用户的文件访问记录数据集，一个文件访问事件t∈T包括文件访问路径和访问时间。将T分割成多个文件块，每个块为固定时间窗口内的文件访问记录，块与块之间没有重复的文件访问记录。

设A和B为两个不同的时间窗口，Y和Z表示A和B时间窗口中的文件集合，即两个文件块，f_i和f_j分别表示文件块Y和Z中的两个文件。利用两个相似度评分函数进行文件块间的相似度计算，为指代方便，本发明特命名以第一相似度评分函数和第二相似度评分函数，其中第一相似度评分函数包含一文件距离函数和一聚合函数，该第一相似度评分函数为：

sim₁(Y，Z)＝1-agg_{i∈Y，j∈Z}distance(f_i，f_j)(1)

其中，distance(f_i，f_j)表示两个文件的距离，agg函数表示两个文件块Y和Z的距离。文件f_i和f_j越相似，距离函数distance(f_i，f_j)值越小；文件块Y和Z越相似，聚合函数agg值越小。

已有的计算两个文件的距离的方法是基于文件的结构层次，在相同目录下的文件比不同目录下的文件更加相似。根据需要，本发明提出的文件距离函数为：

其中，

公式(2)表示当两个文件相同时，距离函数为0；当两个文件不同时，距离函数为两个文件到公共父目录的距离之和与两个文件到根目录的距离之和的比值，其中lca函数返回文件f_i和f_j路径的公共父目录。当两个文件在不同子目录时，一个文件到另一个文件不需要访问公共父目录，而是直接访问父目录下的子目录，因此文件之间的距离将减少1，即logical函数取值为1。

聚合函数agg为对距离函数distance进行累加和平均，即聚合函数被定义为：

其中，

是归一化因子，|·|计算一个集合的基。

除此之外，正常用户通常会访问特定的文件夹，然而伪装者由于不了解被攻击者的文件系统，将遍历更多文件夹以搜寻感兴趣的文件。因此，伪装者比正常用户将会访问更多的文件夹。因此，第二相似度评分函数结合了文件路径距离和文件夹数量被定义为：

其中g(Y)和g(Z)表示在文件块Y和Z中不同文件夹的数量。并且，相似度评分函数具有交换性和半正定性。

步骤2:伪装者检测

构建无向边权重图，将文件块看作图中的顶点，顶点之间两两相连，每条边的权重为两个文件块的相似度。将每个用户的文件访问记录数据集T分别表示为一个无向边权重图G＝(V，E，w)，其中V＝{1，…，n}是顶点集，

是边集，w:E→R⁺是权重函数，如图2所示(以10个顶点为例)。图G可以表示为一个n×n的对称相似矩阵M＝(a_Y，Z)：

sim(Y，Z)可以利用上述相似度评估函数计算得到。由于正常用户通常访问特定的文件夹，因此正常文件块之间是相似的。正常文件块趋于形成一个簇，即图中的顶点将形成一个聚类簇，异常顶点将会与聚类簇有低的相关性。本文使用基于该图的聚类算法(参见Pavan M.，Pelillo M.:A new graph-theoretic approach to clustering andsegmentation.In:IEEE Computer Society Conference on Computer Vision andPatternRecognition，vol.1，pp.l-145-l-152(2003))计算图中顶点与聚类簇的相关性。

首先，设

为非空顶点子集，Y∈S。顶点Y的平均权重度为：

如果

φ_S(Y，Z)＝a_Y，Z-awdeg_S(Y) (7)

φ_S(Y，Z)计算了顶点Y和Z之间的相对相似度，φ_S(Y，Z)可能为负值或者正值。

顶点Y对于顶点子集S的权重为：

w_S(Y)计算了顶点Y和顶点S\{Y}的相关性。根据顶点的相关性，S中的顶点将形成一个聚类簇，如果顶点满足

1.

2.

以上两个条件，则对于一个顶点κ∈S，顶点κ的相关性为：

其中φ的定义见公式(7)。

如果L(κ)低于一个特定的阈值，则认为这个顶点κ是异常的，即为伪装者。

本文在公开数据集WUIL(cem.itesm.mx/raulm/wuil-ds/)的18个用户的文件访问数据集上进行实验，计算检测结果的AUC值，并与已有的基于文件的非监督伪装者检测方法AveScore和SumScore(Gates C.，Li N.，Xu Z.，Chari S.N.，Molloy I.，Park Y.:Detecting Insider Informationtheft using features from _le access logs.In:European Symposium on Research inComputer Security，Springer InternationalPublishing，pp.383-400(2014))在WUIL所有用户上的检测结果的平均AUC值进行对比，提高了23％和19％，检测结果更佳，如图3所示。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。