CN110674498B - 一种基于多维度文件活动的内部威胁检测方法及系统 - Google Patents

一种基于多维度文件活动的内部威胁检测方法及系统 Download PDF

Info

Publication number
CN110674498B
CN110674498B CN201910770785.3A CN201910770785A CN110674498B CN 110674498 B CN110674498 B CN 110674498B CN 201910770785 A CN201910770785 A CN 201910770785A CN 110674498 B CN110674498 B CN 110674498B
Authority
CN
China
Prior art keywords
file
single file
community
submodule
detection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910770785.3A
Other languages
English (en)
Other versions
CN110674498A (zh
Inventor
李梅梅
刘美辰
吕彬
张琪
刘鹏程
王云涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910770785.3A priority Critical patent/CN110674498B/zh
Publication of CN110674498A publication Critical patent/CN110674498A/zh
Application granted granted Critical
Publication of CN110674498B publication Critical patent/CN110674498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于多维度文件活动的内部威胁检测方法及系统。该方法包括:获取待检测的单个文件,基于单个文件的历史活动规律检测单个文件,得到单文件检测结果;获取文件社区模型,基于文件社区模型检测单个文件,得到文件社区检测结果;其中文件社区模型是基于包含单个文件的文件集合,采用最近邻算法得到的;基于熵权法将单文件检测结果和文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。本发明实施例通过从数据角度对内部威胁进行维度检测,能够更全面和更精确的识别受威胁文件,相比传统的检测方法,覆盖率更高,识别结果有更高的鲁棒性。

Description

一种基于多维度文件活动的内部威胁检测方法及系统
技术领域
本发明涉及网络信息安全技术领域,尤其涉及一种基于多维度文件活动的内部威胁检测方法及系统。
背景技术
内部威胁是内部人员对组织进行的恶意攻击的威胁。这些包括物理性的破坏活动,盗窃机密数据以及欺诈行为。由内部威胁所造成的损失远大于外部威胁攻击所造成的损失。而知识窃取是一类重要的内部威胁手段,危害程度巨大。从计算机安全应急响应组(Computer Emergency Response Team,以下简称CERT)数据库显示的数据来看,IT公司、电信公司、生物科技公司以及某些军工单位是信息窃取高发行业,导致的经济损失都在一亿美元以上。目前,研究人员已经提出了不同的模型来预防或检测攻击的存在。
目前已有的针对知识窃取类内部威胁的检测方法所采用的技术多种多样,他们大多数都是通过审计与分析用户对于文件或者数据的访问行为,建立用户行为基线。据此检测用户的偏离行为,从而给出警报。具体方法可以分为两个方面:
1)面向用户的:通过监测用户行为来发现可疑的趋势,例如键盘监控、屏幕监控等。CERT提出的对即将离职的员工进行针对知识产权的增强监控,在“一个月时间窗口”内采取高于组织安全基线的检测模式以发现恶意的内部行为。Loannis等人提出用攻击树来描述攻击模式,抽取每种攻击类型的攻击步骤组成攻击链,再将攻击目标相同的攻击链合成攻击树。定义每个步骤对应的异常,通过检测异常进而推断攻击的发生。
2)面向数据的:从知识窃取的客体——文件出发,进行威胁检测。Zhang等人从用户遍历文件系统以及文件目录的角度建立行为模型;J.B.等人针对用户遍历文件系统时的文件顺序表示文件访问行为;Alex等人基于文件内容建立群组,根据个体用户自身行为以及组群间行为偏移检测文件访问中的异常行为。然而这些并非真正意义上数据自身行为,仍然是用户对于文件的行为。
现有技术存在如下缺陷:
1)已有的数据级别的内部威胁检测的场景刻画维度比较单一,现有的解决方案仅仅考虑单个资源或者命令,例如:时间中的统计异常;用户访问目录;
2)威胁场景刻画能力弱,比如某些保密单位,内部攻击者潜伏时间长,CERT提出的“一个月时间窗口理论”并不能适用于此类场景;
3)面向内部人员的检测,一旦发生误判代价十分巨大。假阳性(将正常用户判断为内部攻击者)会对员工的心理造成伤害;假阴性(将内部攻击者判断为正常用户)会造成严重后果且范围巨大的知识产权窃取;
4)已有的面向数据的检测还停留在用户对文件的活动上,本质上还是用户的行为。
综上所述,知识窃取类内部威胁检测不能单一的看作一个检测内部异常用户的问题,需要从数据的角度出发,提出一个精确有效的针对文件客体本身的知识窃取类内部威胁检测方法。
发明内容
本发明实施例提供一种基于多维度文件活动的内部威胁检测方法及系统,用以解决现有技术中用于检测内部威胁的场景比较单一,对于威胁的描述能力比较薄弱,容易局限于检测文件本身,造成误判的概率较高的缺陷。
第一方面,本发明实施例提供一种基于多维度文件活动的内部威胁检测方法,包括:
获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;
获取文件社区模型,基于所述文件社区模型检测具有所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;
基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。
优选的,所述获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果,具体包括:
对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果;
将所述单个文件的历史活动特性表示为历史活动集合,将所述历史活动集合与所述单个文件特征提取结果进行偏差比较,得到第一异常分数值,若所述第一异常分数值大于第一预设阈值,则确定所述单文件检测结果为异常文件。
优选的,所述对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果,具体包括:
将文件活动的频率划分成若干个预设级别,采用所述若干个预设级别来表示所述单个文件的当前活动的频率,得到所述单个文件的频率表示结果,将所述频率表示结果放入所述单个文件特征提取结果中;其中,所述文件活动包括文件操作活动和文件流转活动;
将所述文件操作活动和所述文件流转活动的属性放入所述文件特征提取结果中。
优选的,所述获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果,具体包括:
获取包含所述单个文件的文件集合,采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型;
计算所述文件社区模型中的所述单个文件与所述文件社区模型中的邻居文件的第二异常分数值,若所述第二异常分数值大于第二预设阈值,则确定所述文件社区检测结果为异常文件。
优选的,所述采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型,具体包括:
采用相似矩阵表示所述文件集合中的文件之间的相似性度量;
基于奇异值将所述相似矩阵进行分解,得到协方差矩阵;
将所述协方差矩阵投影到预设特征空间,得到生成矩阵,所述生成矩阵表示文件社区结构;
采用最近邻算法对所述生成矩阵进行计算,得到所述单个文件的邻居文件集合,所述邻居文件集合和所述单个文件构成所述文件社区模型。
优选的,所述基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得到具有潜在威胁文件检测结果,具体包括:
将所述第一异常分数值和所述第二异常分数值分别进行标准化处理,得到第一标准化指标和第二标准化指标;
分别计算所述第一标准化指标和所述第二标准化指标的信息熵,得到第一信息熵和第二信息熵;
基于所述第一信息熵计算所述第一异常分数值的第一权重值,基于所述第二信息熵计算所述第二异常分数值的第二权重值;
基于所述第一权重值和所述第二权重值,将所述第一异常分数值和所述第二异常分数值进行加权求和,得到融合异常分数值,若所述融合异常分数值大于第三阈值,则确定所述具有潜在威胁文件检测结果为具有潜在威胁的文件。
优选的,所述历史活动特性包括频繁访问类型、频繁访问权限、最小访问权限、频繁访问用户、流转部门和访问频率。
第二方面,本发明实施例提供一种基于多维度文件活动的内部威胁检测系统,包括:
单文件检测模块,用于获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;
文件社区检测模块,用于获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;
融合计算模块,用于基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。
第三方面,本发明实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述一种基于多维度文件活动的内部威胁检测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述一种基于多维度文件活动的内部威胁检测方法的步骤。
本发明实施例提供的一种基于多维度文件活动的内部威胁检测方法及系统,通过从数据的角度对知识窃取类内部威胁进行了多维度的检测,并通过无监督的熵权法对多维度的检测结果进行融合,能够更全面和更精确的识别受威胁的文件。相比传统的检测方法,覆盖率更高,识别结果有更高的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多维度文件活动的内部威胁检测方法流程图;
图2为本发明实施例提供的单文件检测的方法流程图;
图3为本发明实施例提供的文件社区检测的方法流程图;
图4为本发明实施例提供的融合计算的方法流程图;
图5为本发明实施例提供的一种基于多维度文件活动的内部威胁检测系统结构图;
图6为本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例从数据驱动的角度出发来检测知识窃取类内部威胁,提供了一个基于多维度文件活动的内部威胁检测方法来检测这类内部威胁,能够准确的检测出异常文件,减少误判率。该方法的操作对象是文件在计算机上的活动,包括文件操作、文件访问以及文件流转。通过系统的日志取得文件的这些活动,然后对这些活动进行分析。
图1为本发明实施例提供的一种基于多维度文件活动的内部威胁检测方法流程图,如图1所示,包括:
S1,获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;
S2,获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;
S3,基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。
具体地,先获取待检测的单个文件,引入统计模型来统计文件每个活动的次数以及每次活动的属性,然后计算单个文件当前的文件活动和历史活动规律的偏差,历史活动规律包括根据统计得出的该单个文件历史活动特性,例如文件被访问的次数规律、设置的权限范围和存储的常规位置等信息,一旦检测出该单个文件和历史活动规律存在偏差,则认为该单个文件为异常文件,输出为单文件检测结果。
在获取的单文件基础上,提出一个文件社区模型来对文件进行建模,在该模型中,首先定义文件社区为具有相似活动的文件,包含获取的单个文件,其中相似活动的相似性可根据大数据统计结果来预设一个常规的相似范围,进一步采用最近邻算法计算得到文件社区模型,以获取的单个文件为基础,若该单个文件相对于其他文件存在预设的行为偏差,则判定该文件为异常文件,得到该文件对象的文件社区检测结果。此处预设的行为偏差可为根据统计得出的异常行为,包括行为的频率、范围等不限于此。
基于上述得到的两种检测结果,引入熵权法将两个检测结果进行融合计算,得到最终的判定检测结果,即判断该文件是否具有潜在威胁。
本发明实施例通过从数据的角度对知识窃取类内部威胁进行了多维度的检测,并通过无监督的熵权法对多维度的检测结果进行融合,能够更全面和更精确的识别受威胁的文件。相比传统的检测方法,覆盖率更高,识别结果有更高的鲁棒性。
在上述实施例的基础上,图2为本发明实施例提供的单文件检测的方法流程图,如图2所示,该方法中步骤S1具体包括:
101,对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果;
102,将所述单个文件的历史活动特性表示为历史活动集合,将所述历史活动集合与所述单个文件特征提取结果进行偏差比较,得到第一异常分数值,若所述第一异常分数值大于第一预设阈值,则确定所述单文件检测结果为异常文件。
在上述实施例的基础上,步骤101具体包括:
将文件活动的频率划分成若干个预设级别,采用所述若干个预设级别来表示所述单个文件的当前活动的频率,得到所述单个文件的频率表示结果,将所述频率表示结果放入所述单个文件特征提取结果中;其中,所述文件活动包括文件操作活动和文件流转活动;
将所述文件操作活动和所述文件流转活动的属性放入所述文件特征提取结果中。
所述历史活动特性包括频繁访问类型、频繁访问权限、最小访问权限、频繁访问用户、流转部门和访问频率。
具体地,对文件的活动进行特征提取包括文件操作和文件流转,其中,文件操作包括打开、复制、移动、另存为、重命名、编辑、删除,例如该文件的历史活动表现为只读文件,而当前做了写操作,则可以认为是异常的一个特征。文件流转可表现为在媒介上的流转活动操作,例如通过优盘可移动设备以及通过邮件转发是偷窃信息的最主要方法,据此可以得到一些文件流向的信息,从而发现受威胁的文件。
文件的历史活动可表示为一个集合A,而用Ai描述单个文件i的频繁访问类型、频繁访问权限、最小访问权限、频繁访问用户、流转部门、访问频率。然后为每个文件输出第一异常分数值,表示为DevIFAD,这个值表示文件当前活动和之前的历史活动之间的偏差,如果偏差过大,大于设定的第一预设阈值,那么就会判断为异常文件,采用如下公式表示:
Figure BDA0002173496500000081
这里Ai表示文件当前活动,A′i表示文件历史行为活动。
为了给文件的活动建模,我们将文件活动按照活动频率分成不同的级别,表示为(1小时)/(1天)/(1周)/(1月)。例如,如果文件每月访问1次,其频率仅表示为1月这个级别,但是,如果一个文件每小时被访问几次,那么其频率以所有级别表示。
将文件操作活动和文件流转活动分别用上述频率表示方法进行分类,放入预设的若干个级别中,该表示结果作为单个文件特征提取结果的一部分。另外将文件操作活动和文件流转活动的属性也作为单个文件特征提取结果的另一部分。
在上述实施例的基础上,图3为本发明实施例提供的文件社区检测的方法流程图,如图3所示,该方法中步骤S2具体包括:
201,获取包含所述单个文件的文件集合,采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型;
202,计算所述文件社区模型中的所述单个文件与所述文件社区模型中的邻居文件的第二异常分数值,若所述第二异常分数值大于第二预设阈值,则确定所述文件社区检测结果为异常文件。
具体地,基于获取的单个文件包含建立多个文件的集合,并采用最近邻算法找出最相似的文件集,得到文件社区模型。文件社区模型的异常检测通过计算获取的单个文件与其邻居文件的偏差来检测文件的异常,输出第二异常分数值,表示为DevFCAD,文件的半径被定义为最近邻居的距离,半径越小,网络的密度越高,采用如下公式表示:
Figure BDA0002173496500000091
Figure BDA0002173496500000092
上述
Figure BDA0002173496500000093
表示一个有k个最近邻的网络的平均半径。
设定第二预设阈值,如果文件的第二异常分数值大于该第二预设阈值时,则认为是受威胁文件,得到文件社区检测结果。
在上述实施例的基础上,步骤201具体包括:
采用相似矩阵表示所述文件集合中的文件之间的相似性度量;
基于奇异值将所述相似矩阵进行分解,得到协方差矩阵;
将所述协方差矩阵投影到预设特征空间,得到生成矩阵,所述生成矩阵表示文件社区结构;
采用最近邻算法对所述生成矩阵进行计算,得到所述单个文件的邻居文件集合,所述邻居文件集合和所述单个文件构成所述文件社区模型。
具体地,首先将文件集合中的文件之间相似性度量存储在一个矩阵R中:
Figure BDA0002173496500000094
然后使用奇异值分解得到协方差矩阵,矩阵R被表示为ω∧υT,∧有特征值λ1,λ2,λ3,…。此时,将R投影到新的预设特征空间得到生成矩阵B,B=υTR,B表示文件社区的结构。
为了寻找单个文件的最近邻居,我们使用最近邻(KNN)算法,KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属的类别,因此对于类域的交叉或重叠较多的待分类样本集来说,具有很大的优势。文件之间的距离被存储在矩阵DIS中,公式表示如下:
Figure BDA0002173496500000101
上述λq表示第q个特征值,B(q,i)表示文件i的第q个新生成矩阵。
最后由KNN算法得到单个文件的最近邻居集合K,集合K和单个文件构成文件社区模型。
在上述实施例的基础上,图4为本发明实施例提供的融合计算的方法流程图,如图4所示,该方法中步骤S3具体包括:
301,将所述第一异常分数值和所述第二异常分数值分别进行标准化处理,得到第一标准化指标和第二标准化指标;
302,分别计算所述第一标准化指标和所述第二标准化指标的信息熵,得到第一信息熵和第二信息熵;
303,基于所述第一信息熵计算所述第一异常分数值的第一权重值,基于所述第二信息熵计算所述第二异常分数值的第二权重值;
304,基于所述第一权重值和所述第二权重值,将所述第一异常分数值和所述第二异常分数值进行加权求和,得到融合异常分数值,若所述融合异常分数值大于第三阈值,则确定所述具有潜在威胁文件检测结果为具有潜在威胁的文件。
具体地,这部分采用熵权法来对步骤S2和S3得到的异常分数进行融合,以达到更高的精确率,具体算法步骤为:
1)将各个指标的数据进行标准化处理
给定k个指标X1,X2,..Xk,k=2,分别为RAT AD和RADAD,假设有n个用户,则Xi={xi1,xi2,…,xin},对各个指标标准化后的值为Y1,Y2,…,Yk,则
Figure BDA0002173496500000102
2)求各指标的信息熵
Figure BDA0002173496500000111
Figure BDA0002173496500000112
3)确定各指标权重
根据信息熵的计算公式,计算出各个指标的信息熵为E1,E2,…,Ek,通过信息熵计算各指标的权重
Figure BDA0002173496500000113
4)计算文件最后的异常分数
Figure BDA0002173496500000114
在得到最终的融合异常分数值Rn后,我们设定第三预设阈值,如果异常分数大于该第三预设阈值,则认为是受威胁文件,小于该阈值则认为是正常文件。
本发明实施例从多个域对文件的活动进行建模,并根据活动的时间不同分成了不同的级别特征,相比于其他研究的单域检测,该方法能够获得更多的信息,使得更具体的刻画文件活动,更详细的对文件进行建模,从而提高识别的准确率,同时从文件相似性的角度出发,建立文件社区,通过判断文件与其最近邻居的偏差来检测异常,减少了威胁检测误判率。
图5为本发明实施例提供的一种基于多维度文件活动的内部威胁检测系统结构图,如图5所示,包括:单文件检测模块51、文件社区检测模块52和融合计算模块53;其中:
单文件检测模块51用于获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;文件社区检测模块52用于获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;融合计算模块53用于基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。
本发明实施例提供的系统用于执行上述对应的方法,其具体的实施方式与方法的实施方式一致,涉及的算法流程与对应的方法算法流程相同,此处不再赘述。
本发明实施例通过从数据的角度对知识窃取类内部威胁进行了多维度的检测,并通过无监督的熵权法对多维度的检测结果进行融合,能够更全面和更精确的识别受威胁的文件。相比传统的检测方法,覆盖率更高,识别结果有更高的鲁棒性。
在上述实施例的基础上,单文件检测模块51包括:特征提取子模块511和第一比较子模块512;其中:
特征提取子模块511用于对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果;第一比较子模块512用于将所述单个文件的历史活动特性表示为历史活动集合,将所述历史活动集合与所述单个文件特征提取结果进行偏差比较,得到第一异常分数值,若所述第一异常分数值大于第一预设阈值,则确定所述单文件检测结果为异常文件。其中所述历史活动特性包括频繁访问类型、频繁访问权限、最小访问权限、频繁访问用户、流转部门和访问频率。
在上述实施例的基础上,特征提取子模块511包括:频率提取子模块5111和属性提取子模块5112;其中:
频率提取子模块5111用于将文件活动的频率划分成若干个预设级别,采用所述若干个预设级别来表示所述单个文件的当前活动的频率,得到所述单个文件的频率表示结果,将所述频率表示结果放入所述单个文件特征提取结果中;其中,所述文件活动包括文件操作活动和文件流转活动;属性提取子模块5112用于将所述文件操作活动和所述文件流转活动的属性放入所述文件特征提取结果中。
在上述实施例的基础上,文件社区检测模块52包括:社区模型生成子模块521和第二比较子模块522;其中:
社区模型生成子模块521用于获取包含所述单个文件的文件集合,采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型;第二比较子模块522用于计算所述文件社区模型中的所述单个文件与所述文件社区模型中的邻居文件的第二异常分数值,若所述第二异常分数值大于第二预设阈值,则确定所述文件社区检测结果为异常文件。
在上述实施例的基础上,社区模型生成子模块521包括:相似度提取子模块5211、分解子模块5212、生成子模块5213和模型集合子模块5214;其中:
相似度提取子模块5211用于采用相似矩阵表示所述文件集合中的文件之间的相似性度量;分解子模块5212用于基于奇异值将所述相似矩阵进行分解,得到协方差矩阵;生成子模块5213用于将所述协方差矩阵投影到预设特征空间,得到生成矩阵,所述生成矩阵表示文件社区结构;模型集合子模块5214用于采用最近邻算法对所述生成矩阵进行计算,得到所述单个文件的邻居文件集合,所述邻居文件集合和所述单个文件构成所述文件社区模型。
在上述实施例的基础上,所述融合计算模块53包括:标准化子模块531、信息熵计算子模块532、权重计算子模块533和第三比较子模块534;其中:
标准化子模块531用于将所述第一异常分数值和所述第二异常分数值分别进行标准化处理,得到第一标准化指标和第二标准化指标;信息熵计算子模块532用于分别计算所述第一标准化指标和所述第二标准化指标的信息熵,得到第一信息熵和第二信息熵;权重计算子模块533用于基于所述第一信息熵计算所述第一异常分数值的第一权重值,基于所述第二信息熵计算所述第二异常分数值的第二权重值;第三比较子模块534用于基于所述第一权重值和所述第二权重值,将所述第一异常分数值和所述第二异常分数值进行加权求和,得到融合异常分数值,若所述融合异常分数值大于第三阈值,则确定所述具有潜在威胁文件检测结果为具有潜在威胁的文件。
本发明实施例从多个域对文件的活动进行建模,并根据活动的时间不同分成了不同的级别特征,相比于其他研究的单域检测,该方法能够获得更多的信息,使得更具体的刻画文件活动,更详细的对文件进行建模,从而提高识别的准确率,同时从文件相似性的角度出发,建立文件社区,通过判断文件与其最近邻居的偏差来检测异常,减少了威胁检测误判率。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于多维度文件活动的内部威胁检测方法,其特征在于,包括:
获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;
获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;
基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果;
所述获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果,具体包括:
对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果;
将所述单个文件的历史活动特性表示为历史活动集合,将所述历史活动集合与所述单个文件特征提取结果进行偏差比较,得到第一异常分数值,若所述第一异常分数值大于第一预设阈值,则确定所述单文件检测结果为异常文件;
所述对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果,具体包括:
将文件活动的频率划分成若干个预设级别,采用所述若干个预设级别来表示所述单个文件的当前活动的频率,得到所述单个文件的频率表示结果,将所述频率表示结果放入所述单个文件特征提取结果中;其中,所述文件活动包括文件操作活动和文件流转活动;
将所述文件操作活动和所述文件流转活动的属性放入所述文件特征提取结果中;
所述获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果,具体包括:
获取包含所述单个文件的文件集合,采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型;
计算所述文件社区模型中的所述单个文件与所述文件社区模型中的邻居文件的第二异常分数值,若所述第二异常分数值大于第二预设阈值,则确定所述文件社区检测结果为异常文件;
所述采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型,具体包括:
采用相似矩阵表示所述文件集合中的文件之间的相似性度量;
基于奇异值将所述相似矩阵进行分解,得到协方差矩阵;
将所述协方差矩阵投影到预设特征空间,得到生成矩阵,所述生成矩阵表示文件社区结构;
采用最近邻算法对所述生成矩阵进行计算,得到所述单个文件的邻居文件集合,所述邻居文件集合和所述单个文件构成所述文件社区模型;
所述基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得到具有潜在威胁文件检测结果,具体包括:
将所述第一异常分数值和所述第二异常分数值分别进行标准化处理,得到第一标准化指标和第二标准化指标;
分别计算所述第一标准化指标和所述第二标准化指标的信息熵,得到第一信息熵和第二信息熵;
基于所述第一信息熵计算所述第一异常分数值的第一权重值,基于所述第二信息熵计算所述第二异常分数值的第二权重值;
基于所述第一权重值和所述第二权重值,将所述第一异常分数值和所述第二异常分数值进行加权求和,得到融合异常分数值,若所述融合异常分数值大于第三阈值,则确定所述具有潜在威胁文件检测结果为具有潜在威胁的文件。
2.根据权利要求1所述的一种基于多维度文件活动的内部威胁检测方法,其特征在于,所述历史活动特性包括频繁访问类型、频繁访问权限、最小访问权限、频繁访问用户、流转部门和访问频率。
3.一种基于多维度文件活动的内部威胁检测系统,其特征在于,包括:
单文件检测模块,用于获取待检测的单个文件,基于所述单个文件的历史活动规律检测所述单个文件,得到单文件检测结果;
文件社区检测模块,用于获取文件社区模型,基于所述文件社区模型检测所述单个文件,得到文件社区检测结果;其中文件社区模型是基于包含所述单个文件的文件集合,采用最近邻算法得到的;
融合计算模块,用于基于熵权法将所述单文件检测结果和所述文件社区检测结果进行融合计算,得出具有潜在威胁文件检测结果;
所述单文件检测模块包括特征提取子模块和第一比较子模块,其中:
特征提取子模块用于对所述单个文件的当前活动进行特征提取,得到单个文件特征提取结果;
第一比较子模块用于将所述单个文件的历史活动特性表示为历史活动集合,将所述历史活动集合与所述单个文件特征提取结果进行偏差比较,得到第一异常分数值,若所述第一异常分数值大于第一预设阈值,则确定所述单文件检测结果为异常文件;
特征提取子模块包括频率提取子模块和属性提取子模块,其中:
频率提取子模块用于将文件活动的频率划分成若干个预设级别,采用所述若干个预设级别来表示所述单个文件的当前活动的频率,得到所述单个文件的频率表示结果,将所述频率表示结果放入所述单个文件特征提取结果中;其中,所述文件活动包括文件操作活动和文件流转活动;
属性提取子模块用于将所述文件操作活动和所述文件流转活动的属性放入所述文件特征提取结果中;
所述文件社区检测模块包括社区模型生成子模块和第二比较子模块;其中:
社区模型生成子模块用于获取包含所述单个文件的文件集合,采用最近邻算法对所述文件集合进行计算,得到所述文件社区模型;
第二比较子模块用于计算所述文件社区模型中的所述单个文件与所述文件社区模型中的邻居文件的第二异常分数值,若所述第二异常分数值大于第二预设阈值,则确定所述文件社区检测结果为异常文件;
所述社区模型生成子模块包括相似度提取子模块、分解子模块、生成子模块和模型集合子模块,其中:
相似度提取子模块用于采用相似矩阵表示所述文件集合中的文件之间的相似性度量;
分解子模块用于基于奇异值将所述相似矩阵进行分解,得到协方差矩阵;
生成子模块用于将所述协方差矩阵投影到预设特征空间,得到生成矩阵,所述生成矩阵表示文件社区结构;
模型集合子模块用于采用最近邻算法对所述生成矩阵进行计算,得到所述单个文件的邻居文件集合,所述邻居文件集合和所述单个文件构成所述文件社区模型;
所述融合计算模块包括标准化子模块、信息熵计算子模块、权重计算子模块和第三比较子模块,其中:
标准化子模块用于将所述第一异常分数值和所述第二异常分数值分别进行标准化处理,得到第一标准化指标和第二标准化指标;
信息熵计算子模块用于分别计算所述第一标准化指标和所述第二标准化指标的信息熵,得到第一信息熵和第二信息熵;
权重计算子模块用于基于所述第一信息熵计算所述第一异常分数值的第一权重值,基于所述第二信息熵计算所述第二异常分数值的第二权重值;
第三比较子模块用于基于所述第一权重值和所述第二权重值,将所述第一异常分数值和所述第二异常分数值进行加权求和,得到融合异常分数值,若所述融合异常分数值大于第三阈值,则确定所述具有潜在威胁文件检测结果为具有潜在威胁的文件。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述一种基于多维度文件活动的内部威胁检测方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1或2所述一种基于多维度文件活动的内部威胁检测方法的步骤。
CN201910770785.3A 2019-08-20 2019-08-20 一种基于多维度文件活动的内部威胁检测方法及系统 Active CN110674498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910770785.3A CN110674498B (zh) 2019-08-20 2019-08-20 一种基于多维度文件活动的内部威胁检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910770785.3A CN110674498B (zh) 2019-08-20 2019-08-20 一种基于多维度文件活动的内部威胁检测方法及系统

Publications (2)

Publication Number Publication Date
CN110674498A CN110674498A (zh) 2020-01-10
CN110674498B true CN110674498B (zh) 2022-06-03

Family

ID=69075501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910770785.3A Active CN110674498B (zh) 2019-08-20 2019-08-20 一种基于多维度文件活动的内部威胁检测方法及系统

Country Status (1)

Country Link
CN (1) CN110674498B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708687B (zh) * 2020-06-15 2021-07-27 北京优特捷信息技术有限公司 一种设备异常指标确定方法、装置、设备和存储介质
CN113158185B (zh) * 2021-03-05 2023-04-07 杭州数梦工场科技有限公司 安全检测方法与装置
CN115766293B (zh) * 2023-01-04 2023-04-18 北京微步在线科技有限公司 一种风险文件检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312723A (zh) * 2013-07-04 2013-09-18 西安电子科技大学 一种基于访问向量的内部威胁特征构建方法
CN104252447A (zh) * 2013-06-27 2014-12-31 贝壳网际(北京)安全技术有限公司 文件行为分析方法及装置
CN108616545A (zh) * 2018-06-26 2018-10-02 中国科学院信息工程研究所 一种网络内部威胁的检测方法、系统及电子设备
CN109033845A (zh) * 2018-05-29 2018-12-18 中国科学院信息工程研究所 基于文件访问记录时空分析的伪装者检测方法及系统
CN109033834A (zh) * 2018-07-17 2018-12-18 南京邮电大学盐城大数据研究院有限公司 一种基于文件关联关系的恶意软件检测方法
CN109711158A (zh) * 2017-10-26 2019-05-03 西部数据技术公司 基于设备的反恶意软件

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252447A (zh) * 2013-06-27 2014-12-31 贝壳网际(北京)安全技术有限公司 文件行为分析方法及装置
CN103312723A (zh) * 2013-07-04 2013-09-18 西安电子科技大学 一种基于访问向量的内部威胁特征构建方法
CN109711158A (zh) * 2017-10-26 2019-05-03 西部数据技术公司 基于设备的反恶意软件
CN109033845A (zh) * 2018-05-29 2018-12-18 中国科学院信息工程研究所 基于文件访问记录时空分析的伪装者检测方法及系统
CN108616545A (zh) * 2018-06-26 2018-10-02 中国科学院信息工程研究所 一种网络内部威胁的检测方法、系统及电子设备
CN109033834A (zh) * 2018-07-17 2018-12-18 南京邮电大学盐城大数据研究院有限公司 一种基于文件关联关系的恶意软件检测方法

Also Published As

Publication number Publication date
CN110674498A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110958220B (zh) 一种基于异构图嵌入的网络空间安全威胁检测方法及系统
Sukumar et al. Network intrusion detection using improved genetic k-means algorithm
Vikram Anomaly detection in network traffic using unsupervised machine learning approach
Ronao et al. Anomalous query access detection in RBAC-administered databases with random forest and PCA
CN110674498B (zh) 一种基于多维度文件活动的内部威胁检测方法及系统
CN108063776A (zh) 基于跨域行为分析的内部威胁检测方法
Toffalini et al. Detection of masqueraders based on graph partitioning of file system access events
CN114091042A (zh) 风险预警方法
Zamanian et al. User profiling in anomaly detection of authorization logs
Choksi et al. Intrusion detection system using self organizing map: a survey
Elmasri et al. Evaluation of CICIDS2017 with qualitative comparison of Machine Learning algorithm
Mehmood et al. Privilege escalation attack detection and mitigation in cloud using machine learning
Niranjan et al. Security in data mining-a comprehensive survey
CN116074127B (zh) 一种基于大数据的自适应网络安全态势评估系统
Nellikar Insider threat simulation and performance analysis of insider detection algorithms with role based models
Victoriano Exposing android ransomware using machine learning
Reddy Machine Learning Models for Anomaly Detection in Cloud Infrastructure Security
CN112804247B (zh) 基于三元概念分析的工业控制系统网络入侵检测方法及系统
Pamuji et al. Linear regression for prediction of excessive permissions database account traffic
CN114039837A (zh) 告警数据处理方法、装置、系统、设备和存储介质
Volodin et al. Classification of attack mechanisms and research of protection methods for systems using machine learning and artificial intelligence algorithms
CN111314327A (zh) 一种基于knn离群点检测算法的网络入侵检测方法及系统
Patel et al. Novel attribute selection technique for an efficient intrusion detection system
Hasan A Hybrid Real-Time Intrusion Detection System for an Internet of Things Environment with Signature and Anomaly Based Intrusion detection
Anand et al. Mitigating Cyber-Security Risks using Cyber-Analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant