CN109033845A

CN109033845A - 基于文件访问记录时空分析的伪装者检测方法及系统

Info

Publication number: CN109033845A
Application number: CN201810533871.8A
Authority: CN
Inventors: 于爱民; 王佳荣; 蔡利君; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-12-18
Anticipated expiration: 2038-05-29
Also published as: CN109033845B

Abstract

本发明提出一种基于文件访问记录时空分析的伪装者检测方法及系统，本方法步骤包括：通过用户主机收集用户的文件访问记录；基于文件访问记录得到一文件访问子活动，基于文件访问子活动映射得到文件访问网络，根据两顶点中的文件路径之间的关系计算文件访问网络的边权重，对文件访问网络进行聚类得到用户活动类，进而得到关于文件路径和用户活动类的紧密度；将文件操作类型和文件操作方向结合为文件操作，按照时间顺序得到文件操作序列，将文件操作序列的测试序列和特征子序列的相似度的平均值作为测试序列的发生概率；基于所述紧密度和发生概率得到异常评分，将异常评分高于一阈值的文件访问子活动判定为伪装者。

Description

基于文件访问记录时空分析的伪装者检测方法及系统

技术领域

本发明涉及计算机信息技术领域，具体涉及一种基于文件访问记录时空分析的伪装者检测方法及系统

背景技术

组织中关键位置的计算机存储着重要数据，为了防止这些重要数据被窃取和破坏，不同的身份认证机制被使用来判断是否授权用户访问计算机。这些身份认证机制对于计算机账号安全管理是关键的和必要的，例如访问控制。然而，仅仅在登陆开始识别用户的身份认证机制对于身份窃取和欺骗是脆弱的。攻击者可能通过非法途径获取的密码、指纹模型、3D面具轻易地破坏和欺骗目前存在的流行的身份认证机制，例如密码输入、指纹识别、面部识别。相比于传统的身份认证机制，基于人机交互的行为特征的方法有如下优点：1)每个人具有各自的行为特征，该行为特征难以窃取和模仿；2)在用户登录期间，该方法提供了连续的身份认证而不仅仅只在登陆的开始认证。因此，基于用户行为特征的连续身份认证吸引了越来越多的研究兴趣并成为了计算机安全领域新的热点。该方法的其中一个应用场景是内部伪装者检测，尽管伪装者使用合法用户的计算机账号在登陆开始通过了认证，在登陆期间一旦该伪装者的行为与合法用户的行为产生了偏离，基于用户行为特征的伪装者检测方法能立即检测该伪装者。

改善了伪装者检测系统的第一个伪装者检测方法考虑了用户在正常工作中执行的UNIX命令[1]。该方法构建了一个伪装者数据集SEA[2]，SEA数据集已经成为了构建、验证、比较一系列伪装者检测方法的标准[3-6]。基于SAE数据集，一类半监督的支持向量机和朴素贝叶斯[15-17]被应用来检测异常的用户命令。此外，氨基酸序列比对方法被采取来分析半全局的[3][18]和局部的[4]UNIX命令序列比对。然而，SEA将其它用户的正常UNIX命令插入到一个用户的命令中来构建该用户的伪装者数据，因此SEA不包含真实的伪装者。除此之外，SEA在UNIX命令执行结束之后记录该命令而没有在命令执行开始记录。由于SEA存在上述问题，研究者开始寻找其他有效的数据源。

基于硬件交互的方法被考虑用于伪装者检测。其中，基于鼠标的模型[7，8]计算了鼠标的点击和移动频率，基于键盘的模型[9，10]计算了按键的按下和弹起次数。当伪装者物理地访问计算机系统时，这些硬件交互的检测方法是有效的，然而，该类方法无法检测远程访问系统的伪装者。

基于搜索模式的伪装者检测方法尝试根据搜索模式来提取用户活动特征。用户特征和系统特征被提出为了构建用户搜索模式[20]。用户特征包括浏览、通讯、信息收集等，系统特征包括注册表修改、进程创建和删除、文件访问、动态链接库使用等。此外，特征被进一步研究[21]为了更准确的表达用户搜索模式。该类方法被有效地应用于Windows操作系统中，然而，当操作系统为UNIX系统，由于缺少注册表信息，该类方法需要被调整。

考虑到文件是组织重要的资产，基于文件的伪装者检测方法已经被广泛地研究。通过用户访问的文件主题，用户之间的关系首先被提取并且进一步从用户之间的关系中抽取社区结构，然后用户与社区结构的距离被评估[11]。然而，该方法需要人工定义文件主题而文件主题不能被自动获取。为了自动获取文件主题，文档分割和朴素贝叶斯算法被使用来分类文件内容，根据获取的文件主题，构建用户和用户的兴趣以及用户社区和社区兴趣之间的关系矩阵。然后，用户的当前兴趣与该用户的历史兴趣和该用户相关的社区兴趣之间的偏离被计算[12]。然而在真实场景中由于隐私限制文件内容无法被获取。因此，基于文件路径的伪装者检测方法被提出。为了检测是否一个Web服务器已经被非法使用，被访问的文件和文件目录的相对频率特征和文件目录属性的二值特征被输入一类支持向量机和高斯混合模型[22]。然而，为了获取文件系统目录的属性特征(例如是否一个父目录包含配置文件或可执行文件)，需要系统管理员提供预定义的目录列表。进一步地，研究者尝试利用文件路径之间的关系建立用户行为特征。一方面，通过利用文件访问有向图，文件系统导航结构被构建[23]。[13]假设用户在短时间内访问的文件是相似的，并且利用文件导航结构抽取了文件的局部时间和位置关系特征。然而，不同时间段之间的文件关系被忽略。另一方面，[14]假设当前访问的文件路径与历史访问的文件路径是相似的，基于这个假设，[14]评估了当前访问的文件路径和历史访问的文件路径之间的偏差。然而，粗粒度的划分当前和历史两个时间段无法准确的抓取工作任务改变的用户行为特征。

由此可知，已有的基于文件路径的伪装者检测方法或者忽略了不同时间段之间文件的关系[13]或者时间段划分粒度太大而不能准确的抓取用户行为特征[14]，并且很少有研究利用文件操作建模用户行为特征。

本发明注解：

[1]Y.Vardi,M.Theusan,A.F.Karr,W.-H.Ju,W.DuMouchel,and M.Schonlau,“Computer Intrusion:Detecting Masquerades,”Stat.Sci.,vol.16,no.1,pp.58-74,2001.

[2]M.Schonlau.Masquerading user data(Matthias Schonlau’s home page)(1998),http://www.schonlau.net.

[3]H.A.Kholidy,F.Baiardi,and S.Hariri,“DDSGA:A data-drivensemiglobalalignment approach for detecting masquerade attacks,”IEEETrans.Dependable Secur.Comput.,vol.12,no.2,pp.164-178,2015.

[4]J.Maestre Vidal,A.Lucila Sandoval Orozco,and L.Javier GarcíaVillalba,“Online masquerade detection resistant to mimicry,”ExpertSyst.Appl.,vol.61,pp.162-180,2016.

[5]S.Sen,“Using instance-weighted naive Bayes for adapting conceptdriftin masquerade detection,”Int.J.Inf.Secur.,vol.13,no.6,pp.583-590,2014.

[6]L.Huang and M.Stamp,“Masquerade detection using profilehiddenMarkov models,”Comput.Secur.,vol.30,no.8,pp.732-747,2011.

[7]A.A.E.Ahmed and I.Traore,“A New Biometric Technology Basedon MouseDynamics,”IEEE Trans.Dependable Secur.Comput.,vol.4,no.3,pp.165-179,2007.

[8]C.Shen,Z.Cai,X.Guan,Y.Du,and R.A.Maxion,“Userauthenticationthrough mouse dynamics,”IEEE Trans.Inf.Forensics Secur.,vol.8,no.1,pp.16-30,2013.

[9]A.Morales,J.Fierrez,and J.Ortega-Garcia,“Towards predictinggoodusers for biometric recognition based on keystroke dynamics,”EuropeanConference on Computer Vision,Springer,Cham,vol.8926,pp.711-724,2014.

[10]A.A.Ahmed and I.Traore,“Biometric recognition based on free-textkeystroke dynamics,”IEEE Trans.Cybern.,vol.44,no.4,pp.458-472,2014.

[11]Y.Chen and B.Malin,“Detection of Anomalous Insiders inCollaborativeEnvironments via Relational Analysis of Access Logs.,”CODASPYProc.ACM Conf.data Appl.Secur.Priv./Assoc.Comput.Mach.ACMConf.DataAppl.Secur.Priv.,vol.2011,pp.63-74,2011.

[12]R.Zhang,X.Chen,J.Shi,F.Xu,and Y.Pu,“Detecting insiderthreat basedon document access behavior analysis,”Asia-Pacific WebConference.Springer,Cham,vol.8710 LNCS,pp.376-387,2014.

[13]J.B.R.Monroy,L.A.Trejo,and M.A.Medina-pérez,“TemporalandSpatial Locality:An Abstraction for Masquerade Detection,”IEEETrans.Inf.FORENSICS Secur.,vol.11,no.9,pp.2036-2051,2016.

[14]C.Gates,N.Li,Z.Xu,S.N.Chari,I.Molloy,and Y.Park,“DetectingInsiderInformation Theft Using Features from File Access Logs,”ESORICS,pp.383-400,2014.

[15]K.Wang and S.J.Stolfo,“One-class training for masqueradedetection,”Work.Data Min.Comput.Secur.Melbourne,Florida,pp.10-19,2003.

[16]M.Ben Salem and S.J.Stolfo,“Masquerade Detection Using aTaxonomy-Based Multinomial Modeling Approach in UNIX Systems,”vol.298,no.0704,2010.

[17]M.Ben Salem and S.J.Stolfo,“Detecting masqueraders:A comparisonofone-class bag-of-words user behavior modeling techniques,”J.Wirel.Mob.Networks,Ubiquitous Comput.Dependable Appl.,vol.1,no.1,pp.3-13,2010.

[18]S.E.Coull and B.K.Szymanski,“Sequence alignment formasqueradedetection,”Comput.Stat.Data Anal.,vol.52,no.8,pp.4116-4131,2008.

[19]M.Pavan and M.Pelillo,“A new graph-theoretic approach toclusteringand segmentation,”Proc.2003IEEE Comput.Soc.Conf.Comput.Vis.PatternRecognit.-CVPR’03,vol.1,pp.I-145-I-152,2003.

[20]M.B.Salem and S.J.Stolfo,“Modeling User Search BehaviorforMasquerade Detection.”Recent Advances in Intrusion Detection,InternationalSymposium,RAID 2011,Menlo Park,Ca,Usa,September20-21,2011.Proceedings DBLP,pp.181-200,2011.

[21]Y.Song,M.Ben Salem,S.Hershkop,and S.J.Stolfo,“System leveluserbehavior biometrics using Fisher features and Gaussian mixture models,”Proc.IEEE CS Secur.Priv.Work.SPW 2013,pp.52-59,2013.

[22]G.Mamalakis,C.Diou,A.L.Symeonidis,and L.Georgiadis,“Ofdaemons andmen:A file system approach towards intrusion detection,”Appl.Soft Comput.J.,vol.25,pp.1-14,2014.

[23]B.R.Monroy,L.A.Trejo,and E.Sánchez,“Towards buildingamasquerade detection method based on user file system navigation,”Lect.NotesComput.Sci.(including Subser.Lect.Notes Artif.Intell.Lect.NotesBioinformatics),vol.7094LNAI,no.PART 1,pp.174-186,2011.

发明内容

本发明针对已有的基于文件的伪装者检测方法没有充分考虑多个不同时间段之间文件的关系和忽略了文件操作的问题，目的是提出一种基于文件访问记录时空分析的伪装者检测方法及系统，一方面从空间的角度分析，根据文件路径构建文件访问网络来描述不同时间段之间的文件关系，从文件访问网络中抽取了用户活动类别来细粒度的分割用户任务，另一方面从时间的角度分析，根据文件操作序列计算文件操作的发生概率，最终融合文件路径偏离异常和文件操作低概率异常，从而更加准确地检测伪装者。

为实现上述目的，本发明采用的技术方案如下：

一种基于文件访问记录时空分析的伪装者检测方法，其步骤包括：

通过用户主机收集用户文件访问原始数据，过滤掉无效数据，得到用户的文件访问记录，该文件访问记录包括文件访问记录产生时间、文件操作类型、文件操作方向、文件路径；

将用户的一个时间段内连续的多个文件访问记录构成一个文件访问子活动；

将一个用户的所有文件访问子活动映射为一个文件访问网络，每一个文件访问子活动含有的文件路径集合作为文件访问网络的一个顶点，根据两顶点中的文件路径之间的关系计算文件访问网络的边权重，对文件访问网络进行聚类得到用户活动类，进而得到关于文件路径和用户活动类的紧密度；

将文件操作类型和文件操作方向结合为文件操作，按照时间顺序得到文件操作序列，比较文件操作序列的测试序列和特征子序列的相似度，计算测试序列的发生概率；

基于所述紧密度和发生概率得到异常评分，将异常评分高于一阈值的文件访问子活动判定为伪装者。

进一步地，所述过滤掉无效数据的方法为：

针对用户文件访问原始数据，过滤掉数据字段不完整的数据；

根据数据字段中的进程路径字段过滤掉后台进程文件访问行为数据，筛选出用户访问行为数据；

根据数据字段中用户ID字段分别提取出每个用户的用户访问行为数据(文件访问记录)。

进一步地，所述文件访问网络用无向边权重图表示，边权重表示为对称相似矩阵。

进一步地，利用文件路径关系评估函数weighted full distance计算两文件路径之间的关系。

进一步地，通过计算两顶点内包含的文件路径之间关系值的累加和的平均值，得到两顶点之间的距离，利用高斯核函数转化距离为顶点之间的相似度，得到边权重的对称相似矩阵。

进一步地，利用基于图的聚类算法，对文件访问网络构成的无向边权重图进行聚类，得到用户活动类

进一步地，每一个文件访问子活动含有的文件操作集合为一个测试序列，所述特征子序列为测试序列的两倍长度，基于测试序列将文件操作数据集划分为多个特征子序列，全部特征子序列构成特征序列。

进一步地，使用局部序列比对算法计算相似度，步骤包括：构建矩阵并初始化，根据对角转移、垂直转移和水平转移计算矩阵中的元素值，选择该三个转移结果中较大的值，得到测试序列和特征子序列的相似度。

进一步地，计算一个测试序列与所有特征子序列的相似度的平均值作为此测试序列的发生概率。

进一步地，根据所述紧密度和发生概率分别得到与异常程度负相关的两种异常值，即每一个文件访问子活动紧密度越低、发生概率越小越异常，将这两种异常值加权得到子活动异常评分，其中这两种异常值的权重值为异常值在其异常值集合中按降序排列的序号值与文件访问子活动数量的比值。

进一步地，将80％的文件访问子活动异常得分分布区间的上限设定为阈值。

一种基于文件访问记录时空分析的伪装者检测系统，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述方法中各步骤的指令。

本发明的有益效果是：

由于用户主机内的重要文件数据是伪装者的目标，因此文件访问审计为伪装者检测提供了重要依据。一方面，根据文件访问的路径建立文件访问网络来描述不同时间段之间文件的关系，然后从网络中抽取用户活动类并计算文件访问行为与用户活动类的紧密度，较低的紧密度表明文件访问行为较异常。另一方面，根据文件的操作序列计算序列的发生概率，较低的发生概率表明文件操作较异常。最后结合以上两方面的异常(文件访问路径和文件操作异常)得到最终的得分来检测伪装者，本发明综合考虑了文件访问路径和文件操作，并充分利用了不同时间段之间的文件关系，可以更加有效的检测伪装者。

附图说明

图1是本发明的一种基于文件访问记录时空分析的伪装者检测方法流程图。

图2是文件访问网络的构建示意图。

图3是测试序列、特征序列和特征子序列示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

如图1所示，本发明方法总体包括两步：数据收集和异常检测。

(1)数据收集：每个用户的主机为一个审计节点，每个审计节点将收集到的用户文件访问原始数据发送到审计服务器。然后通过数据预处理过滤掉无效数据，例如数据记录中不包含文件路径的数据。经过预处理的数据保存在文件访问数据库中，以便后续的异常检测模型访问和计算。

(2)异常检测主要包含三部分：基于空间的异常检测、基于时间的异常检测、异常融合。A)基于空间的异常检测包含文件访问网络和用户活动类抽取。根据文件访问路径，本发明构建文件访问网络来表达不同时间段之间文件的关系，然后从文件访问网络中抽取用户活动类，一个时间段的文件访问行为的异常评分负相关于该时间段内的文件路径和用户活动类的紧密程度。B)基于时间的异常检测包含文件操作序列和序列比较。根据文件操作，本发明将每个时间段的文件操作表示为文件操作序列，然后基于序列比较序列之间的相似度，根据相似度计算序列的发生概率，一个时间段的文件访问行为的异常评分负相关于该时间段内的文件操作序列的发生概率。C)异常融合结合上述的两种异常评分，根据融合结果来最终判断伪装者。

依据本发明方法，现列举一实施例，具体步骤如下：

步骤1：数据收集

本发明使用主机文件审计系统收集主机文件访问的文件路径和文件操作，对于审计服务器中的数据，首先过滤掉数据字段不完整的数据；然后根据数据字段中的进程路径字段过滤掉后台进程文件访问行为，筛选出用户访问行为；再根据数据字段中用户ID字段分别提取出每个用户的数据；对于每个用户的文件访问记录，本发明进一步分割连续30秒的文件访问记录为一个文件访问子活动；最后将数据保存在数据库中。本发明形式化地表示每一条文件访问记录为u＝<time,act_t,act_d,f>，u中的每一个元素对应于文件访问记录产生时间、文件操作类型、文件操作方向、文件路径。设子活动集合为E，E中每一个子活动包含一个时间段内连续的文件访问序列，即子活动e＝{u_i,u_i+1,L,u_j},|u_j.time-u_i.time|＝k,k∈N⁺。需要注意的是，现有的任何有效的主机文件审计系统都可以嵌入到本发明提出的系统中。

步骤2：异常检测

本发明建立的异常检测模型具体包括：1)基于空间的异常检测；2)基于时间的异常检测；3)异常融合。

1)基于空间的异常检测。

(1)文件访问网络

本发明首先将一个用户的所有文件访问子活动映射为一个文件访问网络，子活动中的文件路径集合构成了网络的顶点，网络的边连接了两个子活动中的文件路径集合，并且边权重为两个文件路径集合之间的文件关系。文件访问网络的构建过程见图2。

文件访问网络可以形式化地表示为一个无向边权重图G＝(V,O,w)，其中V＝{v₁,v₂,L,v_n}是顶点集，是边集，w:O→R+是正权重函数。图G中的边权重可以表示为一个n×n的对称相似矩阵A＝(a_ij)，即

sim(v_i,v_j)表示顶点v_i和v_j的相似度关系，并且分别在两个顶点中的文件之间的关系可以推断出顶点之间的相似度。

根据文件路径的层次结构，相同文件夹下的文件被认为比不同文件夹下的文件更加相似。例如，特定任务的文件将被放在同一个文件夹或者其子文件夹下。基于这个假设，full distance[14]已经被提出用于测量两个文件的关系，full distance将两个文件到两个文件的最小公共祖先(lca)的路径长度相加，并利用两个文件到根目录的路径长度进行归一化。假设f_a和f_b分别为顶点v_i和v_j中的两个文件路径，full distance可以表示为：

本发明进一步考虑两个文件的关系更多地依赖于lca到根目录的路径长度，如果两个文件的lca有更深的路径结构，则这两个文件应该有更小的距离。因此，本发明使用反比例函数提出新的文件关系评估函数weighted full distance，即

其中权重系数λ增强了lca对两个文件关系的影响，并且lca到根目录的路径长度越大，权重系数的影响越明显。

本发明提出的weighted full distance与full distance相比，有如下两个属性：

1)Dist_Full-W(f_a,f_b)＝Dist_Full(f_a,f_b)，当length(lca(fa,f_b),root)＝0或1；

2)Dist_Full-W(f_a,f_b)<Dist_Full(f_a,f_b)，当length(lca(fa,f_b),root)>1。

根据两个文件的关系，本发明通过计算顶点内包含的文件之间关系值的累加和的平均值来得到顶点v_i和v_j之间的距离，即

每对顶点的距离可以被表示为一个n×n的对称矩阵D＝(d_ij)：

最后，利用高斯核将距离转化为相似度(边权重)，公式(1)中的对称相似矩阵A＝(a_ij)等价于

(2)用户活动类抽取

本发明从访问网络中抽取用户活动类来表示用户的工作任务变化。本发明使用[19]中的图聚类算法发现图中不同的dominant set即用户活动类。

已知文件访问网络表示为图G＝(V,O,w)，对于非空子集v_i∈S且首先定义顶点v_i和v_j之间的相对相似度为：

然后，对于每一个顶点v_i∈S定义顶点v_i和顶点S\{v_i}在顶点S\{v_i}中的全局相似度，即

最后，S的全局权重为：

非空子集对于任意的非空集合满足W(T)>0，则S为一个dominant set，即用户活动类。

1)w_S(i)>0，对于所有的v_i∈S；

2)对于所有的

根据用户活动类，本发明定义每个顶点和用户活动类的紧密度为：

假设顶点与用户活动类越紧密，顶点相应的文件访问子活动越正常，反之则子活动越异常。因此，子活动的异常程度和紧密度负相关。

2)基于时间的异常检测

(1)文件操作序列

一个子活动包含连续的文件访问记录，本发明将文件访问记录转化为文件操作序列。由于每一条文件访问记录包含文件操作类型和操作方向，本发明定义操作类型和操作方向的唯一结合决定了一个文件操作，并将文件操作映射为一个整数。例如文件操作类型为拷贝，文件操作方向为由外向内，则本发明定义对应的文件操作取值为1。

本发明假设用户的正常文件操作重复发生且具有一定的时间顺序性，因此正常的文件访问子活动的操作序列发生概率高，相反异常的文件访问子活动的操作序列的发生概率低。设所有子活动操作序列按照时间顺序合并为一个特征序列，其中一个待检测子活动操作序列为测试序列，根据这个测试序列的两倍长度将特征序列分割为特征子序列。测试序列和特征序列的抽取过程见图3。

设D_i为子活动i的文件操作序列，并且为一个测试序列，L＝{L₁,L,L_r}为测试序列D_i对应的特征子序列集合。通过累加测试序列D_i和特征子序列L_k∈L的相似度，子活动i的文件操作序列的发生概率可以表示为：

其中sim(D_i,L_k)计算了序列D_i和L_k的相似度。

(2)序列比较

设为测试序列，为特征子序列。本发明使用局部序列比对算法计算序列的相似度。首先初始化m×m'的矩阵M，矩阵的每一个元素通过三种转移方式计算得到。

1)对角转移：表示特征子序列中的第p-1个元素与测试序列中的第q-1个元素比较。元素相同(匹配)或者不同(不匹配)的比较结果累加到M(p-1,q-1)，比较结果依赖于match score和mismatch score；

2)垂直转移：表示特征子序列中插入一个空元素，空元素与测试序列中的第q-1个元素对应。空元素对应的惩罚值(gap penalty)累加到M(p,q-1)；

3)水平转移：表示测试序列中插入一个空元素，空元素与特征子序列中的第p-1个元素对应。空元素对应的惩罚值(gap penalty)累加到M(p-1,q)。

以上的转移可以形式化的表示为：

由于没有比较元素，矩阵对应的元素位置为0即M[p][0]＝0和M[0][q]＝0。M(p,q)为测试序列前q-1个元素与特征子序列前p-1个元素之间的相似度。因此，M(m,m')为测试序列和特征子序列之间的相似度。

对于公式(11)中的sim(D_i,L_k)，计算过程为：

1)构建m×m'的矩阵M，并且初始化M[p][0]＝0，M[0][q]＝0；

2)根据对角转移、垂直转移和水平转移计算矩阵中的元素值；

3)选择3个转移结果中较大的值；

4)最终，矩阵M的(m,m')位置对应的值为序列D_i和L_k的相似度。

此外，公式(12)中对应的3个参数值match score，mismatch score和gappenalty。本发明设定取值为match score＝1，mismatch score＝0，gap penalty＝-1。然而，若序列中元素比较不匹配时，测试序列中不匹配的元素表示用户将一个文件转移到外部设备的操作，则此时mismatch score＝-1。

3)异常融合

基于空间的异常检测产生一个n维的向量X＝(x_k)_1×n，n为子活动数量，其中x_k表示文件访问网络中顶点v_k与用户活动类的紧密度，顶点v_k对应的子活动的异常值与紧密度成负相关性。基于时间的异常检测产生一个n维的向量Z＝(z_k)_1×n，其中z_k表示文件操作序列D_k的发生概率，D_k对应的子活动的异常值与D_k的发生概率成负相关性。

本发明首先将基于空间的异常检测和基于时间的异常检测的输出向量归一化并将其调整为与子活动的异常程度正相关，即

然后，融合子活动的两种异常值得到子活动的最终的异常得分为：

其中w_x(i)和w_z(i)为权重值。设t_x(i)为子活动基于空间的异常值a_x(i)在[a_x(1),L,a_x(n)]集合按照降序排列之后的排序的序号值，w_x(i)可以被获取通过

相应地，w_z(i)可以被计算通过

将异常得分高于一特定阈值的文件访问子活动判定为伪装者。设定阈值为80％的子活动异常得分分布区间的上限，例如，80％的子活动异常异常得分为[0,0.85]，则设定阈值为0.85，即异常得分大于0.85的子活动为异常。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于文件访问记录时空分析的伪装者检测方法，其步骤包括：

将用户的一时间段内连续的多个文件访问记录构成一文件访问子活动；

将一用户的所有文件访问子活动映射为一文件访问网络，每一文件访问子活动含有的文件路径集合作为文件访问网络的一个顶点，根据两顶点中的文件路径之间的关系计算文件访问网络的边权重，对文件访问网络进行聚类得到用户活动类，进而得到关于文件路径和用户活动类的紧密度；

将文件操作类型和文件操作方向结合为文件操作，按照时间顺序得到文件操作序列，将文件操作序列的测试序列和特征子序列的相似度的平均值作为测试序列的发生概率；

2.根据权利要求1所述的方法，其特征在于，所述过滤掉无效数据的方法为：

根据数据字段中用户ID字段分别提取出每个用户的用户的文件访问记录。

3.根据权利要求1所述的方法，其特征在于，所述文件访问网络用无向边权重图表示，边权重表示为对称相似矩阵。

4.根据权利要求1所述的方法，其特征在于，利用文件路径关系评估函数weightedfull distance计算两文件路径之间的关系。

5.根据权利要求4所述的方法，其特征在于，通过计算两顶点内包含的文件路径之间关系值的累加和的平均值，得到两顶点之间的距离，利用高斯核函数转化距离为顶点之间的相似度，得到边权重的对称相似矩阵。

6.根据权利要求1所述的方法，其特征在于，所述测试序列为一文件访问子活动含有的文件操作集合，所述特征子序列为测试序列的两倍长度，基于测试序列将文件操作数据集划分为多个特征子序列，全部特征子序列构成特征序列。

7.根据权利要求1所述的方法，其特征在于，使用局部序列比对算法计算相似度，步骤包括：构建矩阵并初始化，根据对角转移、垂直转移和水平转移计算矩阵中的元素值，选择该三个转移结果中较大的值，得到测试序列和特征子序列的相似度。

8.根据权利要求1所述的方法，其特征在于，根据所述紧密度和发生概率分别得到与异常程度负相关的两种异常值，将这两种异常值加权得到子活动异常评分，其中这两种异常值的权重值为异常值在其异常值集合中按降序排列的序号值与文件访问子活动数量的比值。

9.根据权利要求1所述的方法，其特征在于，将80％的文件访问子活动异常得分分布区间的上限设定为阈值。

10.一种基于文件访问记录时空分析的伪装者检测系统，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述权利要求1-9任一所述方法中各步骤的指令。