CN113961438B - 一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质 - Google Patents
一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113961438B CN113961438B CN202111240836.5A CN202111240836A CN113961438B CN 113961438 B CN113961438 B CN 113961438B CN 202111240836 A CN202111240836 A CN 202111240836A CN 113961438 B CN113961438 B CN 113961438B
- Authority
- CN
- China
- Prior art keywords
- behavior
- user
- group
- clustering
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000006399 behavior Effects 0.000 claims abstract description 286
- 239000013598 vector Substances 0.000 claims abstract description 58
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 238000010276 construction Methods 0.000 claims abstract description 10
- 235000019580 granularity Nutrition 0.000 claims description 39
- 230000000737 periodic effect Effects 0.000 claims description 18
- 230000002354 daily effect Effects 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 claims description 14
- 230000003542 behavioural effect Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000009411 base construction Methods 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 48
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003989 repetitive behavior Effects 0.000 description 2
- 208000013406 repetitive behavior Diseases 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质,属于数据分析技术领域。解决了现有技术中识别异常种类少导致的漏报问题和正常行为模式偏离较大导致的误报的问题。本申请的多粒度多层次聚类包括层级划分、组间粗粒度聚类、组内细粒度聚类;层级划分:将天数按照多个层级进行逐层划分并对每一层级的组内和组间进行定义;组间粗粒度聚类:对每一层级中的每组构建用户的单组特征向量,进行聚类标记;组内细粒度聚类:对每一层级中每组内的用户构建单日行为特征向量,进行聚类标记;最终综合聚类标记得到用户异常行为标记。本申请减少了异常用户的漏报率和误报率,实现了较高的历史行为异常用户识别率和鲁棒性。
Description
技术领域
本申请涉及一种历史行为异常用户检测系统、方法、设备及存储介质,尤其涉及一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质,属于数据分析技术领域。
背景技术
当前许多企业面临着来自内部的信息安全问题,操作人员的违规行为会对生产安全带来极大的威胁。企业内部的监控日志数据记录了员工的操作行为与访问记录,这些日志往往包含了较多字段,记录了大量操作信息,因此对多种日志进行异常检测,及时发现各类日志中的异常行为,定位到存在异常行为的员工并提前进行预警,对减少企业内部损失维护内部安全具有重要的意义。
面向日志文本的异常检测研究已经广泛地开展,常用的异常检测方法主要包括基于统计方法与基于神经网络的方法。统计方法是最早常用的异常检测方法,该类方法通过统计网络内用户历史的正常行为构建正常用户行为轮廓作为正常行为模式,利用距离或者其他相似度方法来计算当前用户行为与正常用户行为的偏离度。基于神经网络的方法主要使用数据挖掘技术进行检测,神经网络方法具有很高的智能性,能够根据不同数据特点进行有效的处理与判断,尤其当网络中用户众多或者系统环境较复杂时该类方法的适应性更加明显。
异常检测方法最大的优点在于能够发现网络中未知的攻击类型,使得该类方法不需要用户拥有较多的攻击先验知识,普通用户也能够很好的使用该类系统来进行入侵检测。但很多异常检测方法不能同时满足对检测突发异常、持续异常、周期异常等对多种类型的异常进行有效地检测,导致出现漏报。除此之外,在该类方法中任何与正常行为模式偏离较大的行为都被作为异常而导致误报率较高。
发明内容
有鉴于此,本申请提供一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质,以解决现有技术中识别异常种类少导致的漏报问题和正常行为模式偏离较大导致的误报的问题。
本申请的技术方案是这样实现的:
方案一:一种基于多粒度多层级的历史行为异常用户检测系统,包括:
历史行为数据集构建模块,用于建立用户历史行为数据集;
历史行为预处理模块,用于对用户历史行为数据集中的用户历史行为进行预处理;
正常行为规则库构建模块,用于后续判断用户历史行为是否正常;
用户单日行为特征向量构建模块,用于对每一个用户构建单日行为的特征向量,其中包括用户当日行为的种类数,当日行为总数,用户当日出现高频行为集中每个行为的次数,用户当日出现低频行为集中每个行为的次数;
多层次聚类模块,其中包括层级划分模块、组间聚类模块、组内聚类模块;
层级划分模块,用于将天数按照多个层级进行逐层划分并对每一层级的组内和组间进行定义;
组间粗粒度聚类模块,用于对每一层级中的每组构建用户的单组特征向量,然后利用K-means或者DBSCAN方法进行聚类,将具有可疑段的用户进行标记;
组内细粒度聚类模块,用于对每一层级中每组内的用户构建单日行为特征向量,然后利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
可疑用户整合筛选模块,对所有的可疑标记用户进行整合,然后将可疑用户的可疑行为与该用户的正常行为规则库进行匹配,最终综合不同层级、不同粒度的聚类标记得到所有用户的异常行为标记,从而实现对可疑用户的可疑行为集合进行过滤,完成异常用户检测。
方案二:一种基于多粒度多层级的历史行为异常用户检测方法,具体步骤为:
S1、建立用户历史行为数据集;
S2、对用户历史行为数据集中的用户历史行为进行预处理并构建用户正常行为规则库;
S3、构建用户单日行为特征向量;
S4、进行多粒度多层次聚类;
S41、对于用户u,首先将其历史行为发生总天数N等分成r1个组形成第一层,该层内每组里包含(N/r1)天该用户的行为数据,然后将第一层的每一组再次等分为r2个组,形成第二层,此时的第二层内共有(r1*r2)个组,其中每组里包含了N/(r1*r2)天该用户的历史行为数据,之后依次类推,直到N/(r1*r2*r3*LrL)=1,此时的第L层即为最后一层,此时该层内一天即为一组,共有N组,每组内包含用户u在该日内的所有行为数据;
S42对每一层进行组间粗粒度聚类;
首先在第一层,对于每个用户而言,此时共有r1组,基于用户每天的行为特征向量构建每组的用户行为特征向量,然后基于新构建的r1个用户行为特征向量使用K-means或者DBSCAN方法进行聚类,根据聚类结果将具有可疑行为组的用户进行标记;
其次,在第j层,此时共有(r1*r2*L*rj)组,基于用户每天的行为特征向量构建每组的用户行为特征向量,然后基于新构建的所有用户行为特征向量使用K-means或者DBSCAN方法进行聚类,根据聚类结果将具有可疑行为组的用户进行标记;
依次类推,直到利用第L层进行组间粗粒度聚类后结束;
S43对每一层进行组内细粒度聚类;
首先在第一层上,此时共有r1个组,每组内有(N/r1)天,在各组内基于用户的每日行为特征向量利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
其次在第j层,此时共有(r1*r2*L*rj)个组,在各组内基于用户的每日行为特征向量利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
依次类推,直到在第L-1层进行组内聚类后结束;
S5整合所有可疑用户标记,筛选出最终可疑用户。
进一步地,步骤S1中,采用的数据集为权限用户历史行为日志数据集,数据集包含U个用户共计约X次行为数据,其中用户每日内可以存在重复性行为。
进一步地,步骤S1中,对每个用户而言,一旦该用户在某天进行了不属于自己权限的用户行为,即定义该用户为异常用户。
进一步地,步骤S2具体为:首先针对每个用户构建其在所有时间内进行的行为序列,然后根据行为序列构建该用户的高频行为集Ah和低频行为集Al,最后,根据用户所有行为权限构建对应的正常行为规则库。
进一步地,步骤S2中,首先针对用户u构建其在所有时间内进行的操作序列,然后根据行为序列生成每个用户的行为频率字典,最后在每个用户的行为频率字典中选取其行为频率最高的m个行为和频率最低的n个行为构建为该用户的高频行为集Ah和低频行为集Al;正常行为规则库包含普通正常行为规则、突发型正常行为规则及周期型正常行为规则。
进一步地,步骤S3具体为:对任意用户u,构建其在第i天的行为特征向量其中Tui代表用户u在第i天的行为种类数,Sumui代表用户u在第i天的行为总数,/>表示用户u在第i天执行该用户高频行为集Ah中第一个行为Ah 1的次数,/>表示用户u在第i天执行该用户低频行为集Al中第一个行为Al 1的次数。
进一步地,步骤S5具体为:基于上述所有聚类结果对所有的可疑标记用户进行整合,然后利用正常行为规则库对异常用户的异常行为集合进行过滤,利用普通正常行为规则与组内聚类结果中非突发型异常行为进行对比,过滤出组内聚类误判的非突发型行为正常用户;利用突发型正常行为规则与组内聚类结果中的可疑用户行为进行对比,过滤出组内聚类中误判的突发型行为正常用户;利用周期型正常行为规则与组间聚类结果中的可疑用户行为进行对比,过滤出组间聚类中误判的周期型行为正常用户,最终得到该层基于正常行为规则库过滤后的组内异常行为检测结果和组间异常行为检测结果/>然后给每层的组内、组间结果赋予不同的权重/>在赋予权重之后,该用户最终的异常行为检测结果为/>其中/>
进一步地:历史行为异常的定义如下:主要分为三种历史行为异常,第一种历史行为异常是指该用户在历史操作过程中的某一天突然出现一次超出自身权限的异常行为,被定义为突发型越权行为;第二种历史行为异常是指该用户在历史操作过程中出现连续一段时间内重复执行某行为而引起的异常情况,该种异常行为被定义为持续型越权行为;第三种历史行为异常是指该用户在历史操作过程中周期性地出现某一种异常行为的现象,该种异常行为被定义为周期性异常。
方案三:一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行方案二所述方法的步骤。
方案四:一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案二所述方法的步骤。
本申请有益效果体现在:
本申请在基于历史行为的异常用户检测应用中,以往基于用户历史行为日志的异常用户检测方法中识别异常种类少导致的漏报问题和正常行为模式偏离较大导致的误报等问题,提出一种全新的基于多粒度多层级的历史行为异常用户检测方法,相比于经典的基于规则等方法,加入了对异常用户的细粒度和多层级的行为分析,减少异常用户的漏报率,并使用用户正常行为规则库对检测得到的异常用户行为进行过滤,减少异常用户的误报率,实现了较高的历史行为异常用户识别率和鲁棒性。
本申请所划分的第一层内的组间粗粒度聚类用于识别第二种异常行为,即持续型异常,利用组内用户特征向量和聚类方法可以识别出某段时间内是否存在和其他组存在较大偏差的数据,从而确定该用户的历史操作行为中是否存在持续型异常。第二层的组间粗粒度聚类同样可以识别持续型异常行为,它是对第一层识别的一种更细粒度的补充,因为可能会存在某种很短暂的持续型异常行为在第一层的组间聚类中并没有被识别出来,所以需要更细粒度的组间聚类。以此类推,直到最后一层的组间聚类,此时和传统的异常检测方法类似,即把最细粒度的单日用户行为特征向量作为输入进行用户异常行为检测,这种方式更多的能检测出第一种异常行为,即突发型异常行为,这是对上面层组间聚类的更加细粒度的分析,也能弥补上面层无法识别第一类异常的不足。
本申请的组内细粒度聚类的主要目的是弥补组间粗粒度聚类无法识别第三类异常行为,即周期型异常行为。因为无论如何分组,周期型异常行为都会作为每个组内均存在的特征而不被判断为异常,因此进行组内细粒度聚类可以在不同层的组内进行周期型异常行为的检测,从而找出可疑的用户。同时,组内细粒度聚类还有一个优点,在非最底层的组间聚类中,虽然可以识别出某组内存在异常行为,但是很难识别到具体是哪一种行为导致的,这时候再进行组内聚类,实现对某一异常行为的精准锁定。
本申请在进行完所有的聚类算法之后,对所有的可疑标记用户进行整合,一旦某用户存在异常行为即定义该用户为异常用户。但是由于聚类过程中存在一定的误判,所以在该步骤中使用用户行为规则库,根据不用的用户权限构建各自的用户行为规则库,然后将整合后的异常用户组与用户行为规则库进行匹配,如果某用户被识别出的异常行为是该用户权限内的操作行为,则将被错误识别的行为从识别结果中过滤,减少误报率。最终综合不同层级、不同粒度的聚类标记得到所有用户的异常行为标记,从而实现对可疑用户的可疑行为集合进行过滤,完成异常用户检测。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例一提供的一种基于多粒度多层级的历史行为异常用户检测系统框图;
图2为本申请实施例二提供的一种基于多粒度多层级的历史行为异常用户检测方法流程图;
图3为本申请的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与申请相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一
一种基于多粒度多层级的历史行为异常用户检测系统(参见图1),包括:
历史行为数据集构建模块,用于建立用户历史行为数据集;
历史行为预处理模块,用于对用户历史行为数据集中的用户历史行为进行预处理;
正常行为规则库构建模块,用于后续判断用户历史行为是否正常;
用户单日行为特征向量构建模块,用于对每一个用户构建单日行为的特征向量,其中包括用户当日行为的种类数,当日行为总数,用户当日出现高频行为集中每个行为的次数,用户当日出现低频行为集中每个行为的次数;
多层次聚类模块,其中包括层级划分模块、组间聚类模块、组内聚类模块;
层级划分模块,用于将天数按照多个层级进行逐层划分并对每一层级的组内和组间进行定义;
组间粗粒度聚类模块,用于对每一层级中的每组构建用户的单组特征向量,然后利用K-means或者DBSCAN方法进行聚类,将具有可疑段的用户进行标记;
组内细粒度聚类模块,用于对每一层级中每组内的用户构建单日行为特征向量,然后利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
可疑用户整合筛选模块,对所有的可疑标记用户进行整合,然后将可疑用户的可疑行为与该用户的正常行为规则库进行匹配,最终综合不同层级、不同粒度的聚类标记得到所有用户的异常行为标记,从而实现对可疑用户的可疑行为集合进行过滤,完成异常用户检测。
实施例二
本申请实施例二将用户日常操作过程中出现超出自身权限的操作定义为该用户的异常操作,在其历史行为中出现过异常操作的用户被定义为历史行为异常用户,该场景下历史行为异常的定义如下:主要分为三种历史行为异常,第一种历史行为异常是指该用户在历史操作过程中的某一天突然出现一次超出自身权限的异常行为,被定义为突发型越权行为;第二种历史行为异常是指该用户在历史操作过程中出现连续一段时间内重复执行某行为而引起的异常情况,该种异常行为被成为持续型越权行为;第三种历史行为异常是指该用户在历史操作过程中周期性地出现某一种异常行为的现象,这种异常行为被定义为周期性异常行为。
针对以往基于用户历史行为日志的异常用户检测方法中识别异常种类少导致的漏报问题和正常行为模式偏离较大导致的误报等问题,本申请提出一种全新的基于多粒度多层级的历史行为异常用户检测方法。该方法通过对异常用户的多粒度和多层级的行为分析,减少异常用户的漏报率,并使用用户正常行为规则库对检测得到的异常用户行为进行过滤,减少异常用户的误报率。图2示出了根据本发明实施方式一种基于多粒度多层级的历史行为异常用户检测方法的示意性流程图。
该方法包括以下步骤:
S1、建立用户历史行为数据集;
本发明采用的数据集为权限用户历史行为日志数据集,数据集包含U个用户共计约X次行为数据,其中用户每日内可以存在重复性行为。对每个用户而言,一旦该用户在某天进行了不属于自己权限的用户行为,即定义该用户为异常用户。
S2、对用户历史行为数据集中的用户历史行为进行预处理并构建用户正常行为规则库;
首先针对用户u构建其在所有时间内进行的行为序列,然后根据行为序列生成每个用户的行为频率字典,最后在每个用户的行为频率字典中选取其行为频率最高的m个行为和频率最低的n个行为构建为该用户的高频行为集Ah和低频行为集Al。正常行为规则库包含普通正常行为规则、突发型正常行为规则及周期型正常行为规则。
S3、构建用户单日行为特征向量。对任意用户u,构建其在第i天的行为特征向量其中Tui代表用户u在第i天的行为种类数,Sumui代表用户u在第i天的行为总数,/>表示用户u在第i天执行该用户高频行为集Ah中第一个行为Ah 1的次数,/>表示用户u在第i天执行该用户低频行为集Al中第一个行为Al 1的次数。
S4、进行多粒度多层次聚类;
S41、对于用户u,首先将其历史行为发生总天数N等分成r1个组形成第一层,该层内每组里包含(N/r1)天该用户的行为数据,然后将第一层的每一组再次等分为r2个组,形成第二层,此时的第二层内共有(r1*r2)个组,其中每组里包含了N/(r1*r2)天该用户的历史行为数据,之后依次类推,直到N/(r1*r2*r3*LrL)=1,此时的第L层即为最后一层,此时该层内一天即为一组,共有N组,每组内包含用户u在该日内的所有行为数据;
S42对每一层进行组间粗粒度聚类;
首先在第一层,对于每个用户而言,此时共有r1组,基于用户每天的行为特征向量构建每组的用户行为特征向量,然后基于新构建的r1个用户行为特征向量使用K-means或者DBSCAN方法进行聚类,根据聚类结果将具有可疑行为组的用户进行标记;
其次,在第j层,此时共有(r1*r2*L*rj)组,基于用户每天的行为特征向量构建每组的用户行为特征向量,然后基于新构建的所有用户行为特征向量使用K-means或者DBSCAN方法进行聚类,根据聚类结果将具有可疑行为组的用户进行标记;
依次类推,直到利用第L层进行组间粗粒度聚类后结束。
S43对每一层进行组内细粒度聚类,
首先在第一层上,此时共有r1个组,每组内有(N/r1)天,在各组内基于用户的每日行为特征向量利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
其次在第j层,此时共有(r1*r2*L*rj)个组,在各组内基于用户的每日行为特征向量利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
依次类推,直到在第L-1层进行组内细粒度聚类后结束。
S5整合所有可疑用户标记,筛选出最终可疑用户。
基于上述所有聚类结果对所有的可疑标记用户进行整合,在每一层利用正常行为规则库对异常用户的异常行为集合进行过滤。利用普通正常行为规则与组内聚类结果中非突发型异常行为进行对比,过滤出组内聚类误判的非突发型行为正常用户;利用突发型正常行为规则与组内聚类结果中的可疑用户行为进行对比,过滤出组内聚类中误判的突发型行为正常用户;利用周期型正常行为规则与组间聚类结果中的可疑用户行为进行对比,过滤出组间聚类中误判的周期型行为正常用户。最终得到该层基于正常行为规则库过滤后的组内异常行为检测结果和组间异常行为检测结果/>然后给每层的组内、组间结果赋予不同的权重/>在赋予权重之后,该用户最终的异常行为检测结果为其中/>
为了检验本申请所提出的方法的性能,在数据集上进行了实验。实验结果如表1所示。
表1异常行为检测效果
通过实验表明,基于单层全样本细粒度的方法在数据量较少的情况下漏报情况严重,很难有效识别各种异常行为,当数据量较大时,漏报率低,但会出现误报情况,将用户的正常低频行为误识别为用户的异常行为;基于多层级组间粗粒度的方法能够较好地识别持续型异常行为,但很难识别周期型异常行为;基于多层级组内细粒度的方法识别出来的异常行为误报率较低,但很难识别持续型异常行为,同时对于周期型异常有一定的漏报现象;基于多层多粒度的方法能够有效减少异常行为检测的误报率和漏报率。
实施例三
本申请实施例三提供一种电子设备,参见图3,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元,用于存储能够在处理器上运行的计算机程序的存储器,连接不同系统组件(包括存储器、一个或者多个处理器或者处理单元)的总线。
其中,所述一个或者多个处理器或者处理单元用于运行所述计算机程序时,执行实施例二所述方法的步骤。所述处理器所用类型包括中央处理器、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
其中,总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
实施例四
本申请实施例四提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例二所述方法的步骤。
需要说明的是,本申请所示的存储介质可以是计算机可读信号介质或者存储介质或者是上述两者的任意组合。存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质还可以是存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以上所述的实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的实施例而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。
Claims (10)
1.一种基于多粒度多层级的历史行为异常用户检测系统,其特征在于,包括:
历史行为数据集构建模块,用于建立用户历史行为数据集;
历史行为预处理模块,用于对用户历史行为数据集中的用户历史行为进行预处理;
正常行为规则库构建模块,用于后续判断用户历史行为是否正常;
用户单日行为特征向量构建模块,用于对每一个用户构建单日行为的特征向量,其中包括用户当日行为的种类数,当日行为总数,用户当日出现高频行为集中每个行为的次数,用户当日出现低频行为集中每个行为的次数;
多层次聚类模块,其中包括层级划分模块、组间粗粒度聚类模块、组内细粒度聚类模块;
层级划分模块,用于将天数按照多个层级进行逐层划分并对每一层级的组内和组间进行定义;
组间粗粒度聚类模块,用于对每一层级中的每组构建用户的单组特征向量,然后利用K-means或者DBSCAN方法进行聚类,将具有可疑段的用户进行标记;
组内细粒度聚类模块,用于对每一层级中每组内的用户构建单日行为特征向量,然后利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
可疑用户整合筛选模块,对所有的可疑标记用户进行整合,然后将可疑用户的可疑行为与该用户的正常行为规则库进行匹配,最终综合不同层级、不同粒度的聚类标记得到所有用户的异常行为标记,从而实现对可疑用户的可疑行为集合进行过滤,完成异常用户检测。
2.一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,具体步骤为:
S1、建立用户历史行为数据集;
S2、对用户历史行为数据集中的用户历史行为进行预处理并构建用户正常行为规则库;
S3、构建用户单日行为特征向量;
S4、进行多粒度多层次聚类;
S41、对于用户u,首先将其历史行为发生总天数N等分成r1个组形成第一层,该第一层内每组里包含(N/r1)天该用户的行为数据,然后将第一层的每一组再次等分为r2个组,形成第二层,此时的第二层内共有(r1*r2)个组,其中每组里包含了N/(r1*r2)天该用户的历史行为数据,之后依次类推,直到N/(r1*r2*r3*…*rL)=1,此时的第L层即为最后一层,此时第L层内一天即为一组,共有N组,每组内包含用户u在该一天内的所有行为数据;
S42对每一层进行组间粗粒度聚类;
首先在第一层,对于每个用户而言,此时共有r1组,基于用户每天的行为特征向量构建每组的用户行为特征向量,然后基于新构建的r1个用户行为特征向量使用K-means或者DBSCAN方法进行聚类,根据聚类结果将具有可疑行为组的用户进行标记;
其次,在第j层,此时共有(r1*r2*…*rj)组,基于用户每天的行为特征向量构建每组的用户行为特征向量,然后基于新构建的所有用户行为特征向量使用K-means或者DBSCAN方法进行聚类,根据聚类结果将具有可疑行为组的用户进行标记;
依次类推,直到利用第L层进行组间粗粒度聚类后结束;
S43对每一层进行组内细粒度聚类;
首先在第一层上,此时共有r1个组,每组内有(N/r1)天,在各组内基于用户的每日行为特征向量利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
其次在第j层,此时共有(r1*r2*…*rj)个组,在各组内基于用户的每日行为特征向量利用K-means或者DBSCAN方法进行聚类,对聚类结果中可疑的用户进行标记;
依次类推,直到在第L-1层进行组内细粒度聚类后结束;
S5整合所有可疑用户标记,筛选出最终可疑用户。
3.根据权利要求2所述的一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,步骤S1中,采用的数据集为权限用户历史行为日志数据集,数据集包含U个用户共计X次行为数据,其中用户每日内存在重复性行为,对每个用户而言,一旦该用户在某天进行了不属于自己权限的用户行为,即定义该用户为异常用户。
4.根据权利要求3所述的一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,步骤S2具体为:首先针对每个用户构建其在所有时间内进行的行为序列,然后根据行为序列构建该用户的高频行为集Ah和低频行为集Al,最后,根据用户所有行为权限构建对应的正常行为规则库。
5.根据权利要求4所述的一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,步骤S2中,首先针对用户u构建其在所有时间内进行的操作序列,然后根据行为序列生成每个用户的行为频率字典,最后在每个用户的行为频率字典中选取其行为频率最高的m个行为和频率最低的n个行为构建为该用户的高频行为集Ah和低频行为集Al;正常行为规则库包含普通正常行为规则、突发型正常行为规则及周期型正常行为规则。
6.根据权利要求5所述的一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,步骤S3具体为:对任意用户u,构建其在第i天的行为特征向量其中Tui代表用户u在第i天的行为种类数,Sumui代表用户u在第i天的行为总数,/>表示用户u在第i天执行该用户高频行为集Ah中第一个行为Ah 1的次数,/>表示用户u在第i天执行该用户低频行为集Al中第一个行为Al 1的次数。
7.根据权利要求6所述的一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,步骤S5具体为:基于所有聚类结果对所有的可疑标记用户进行整合,然后利用正常行为规则库对异常用户的异常行为集合进行过滤,利用普通正常行为规则与组内聚类结果中非突发型异常行为进行对比,过滤出组内聚类误判的非突发型行为正常用户;利用突发型正常行为规则与组内聚类结果中的可疑用户行为进行对比,过滤出组内聚类中误判的突发型行为正常用户;利用周期型正常行为规则与组间聚类结果中的可疑用户行为进行对比,过滤出组间聚类中误判的周期型行为正常用户,最终得到每一层基于正常行为规则库过滤后的组内异常行为检测结果和组间异常行为检测结果/>然后给每层的组内、组间结果赋予不同的权重/>在赋予权重之后,该用户最终的异常行为检测结果为/>其中/>
8.根据权利要求2-7任一所述的一种基于多粒度多层级的历史行为异常用户检测方法,其特征在于,历史行为异常的定义如下:分为三种历史行为异常,第一种历史行为异常是指该用户在历史操作过程中的某一天突然出现一次超出自身权限的异常行为,被定义为突发型越权行为;第二种历史行为异常是指该用户在历史操作过程中出现连续一段时间内重复执行某行为而引起的异常情况,该异常情况被定义为持续型越权行为;第三种历史行为异常是指该用户在历史操作过程中周期性地出现某一种异常行为的现象,该种异常行为被定义为周期性异常。
9.一种电子设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求2至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240836.5A CN113961438B (zh) | 2021-10-25 | 2021-10-25 | 一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240836.5A CN113961438B (zh) | 2021-10-25 | 2021-10-25 | 一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113961438A CN113961438A (zh) | 2022-01-21 |
CN113961438B true CN113961438B (zh) | 2024-04-16 |
Family
ID=79466666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111240836.5A Active CN113961438B (zh) | 2021-10-25 | 2021-10-25 | 一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113961438B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115577701B (zh) * | 2022-09-23 | 2023-09-19 | 刘娇平 | 针对大数据安全的风险行为识别方法、装置、设备及介质 |
CN116582417B (zh) * | 2023-07-14 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN116737349B (zh) * | 2023-08-16 | 2023-11-03 | 中国移动紫金(江苏)创新研究院有限公司 | 流式数据处理方法、系统及存储介质 |
CN117909912A (zh) * | 2024-03-19 | 2024-04-19 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种两阶段异常用户行为分析的检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
CN111614627A (zh) * | 2020-04-27 | 2020-09-01 | 中国舰船研究设计中心 | 一种面向sdn的跨平面协作ddos检测与防御方法与系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10831785B2 (en) * | 2016-04-11 | 2020-11-10 | International Business Machines Corporation | Identifying security breaches from clustering properties |
US11271957B2 (en) * | 2019-07-30 | 2022-03-08 | International Business Machines Corporation | Contextual anomaly detection across assets |
-
2021
- 2021-10-25 CN CN202111240836.5A patent/CN113961438B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
CN111614627A (zh) * | 2020-04-27 | 2020-09-01 | 中国舰船研究设计中心 | 一种面向sdn的跨平面协作ddos检测与防御方法与系统 |
Non-Patent Citations (3)
Title |
---|
基于商空间粒度聚类的异常入侵检测;王丽芳;韩燮;;计算机应用与软件;20110115(第01期);全文 * |
数据挖掘理论在入侵检测系统中的应用;黄力;;河池学院学报;20061030(第05期);全文 * |
网络延迟聚类的宏观预警的检测点放置;何慧;胡铭曾;云晓春;张宏莉;;通信学报;20060225(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113961438A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113961438B (zh) | 一种基于多粒度多层级的历史行为异常用户检测系统、方法、设备及存储介质 | |
CN108566364B (zh) | 一种基于神经网络的入侵检测方法 | |
CN112491796B (zh) | 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法 | |
CN113470695A (zh) | 声音异常检测方法、装置、计算机设备及存储介质 | |
Chang et al. | Anomaly detection for industrial control systems using k-means and convolutional autoencoder | |
CN111641634B (zh) | 一种基于蜜网的工业控制网络主动防御系统及其方法 | |
CN105376193A (zh) | 安全事件的智能关联分析方法与装置 | |
Barbará et al. | Mining malicious corruption of data with hidden Markov models | |
CN115348080B (zh) | 基于大数据的网络设备脆弱性综合分析系统及方法 | |
Huang | Network Intrusion Detection Based on an Improved Long‐Short‐Term Memory Model in Combination with Multiple Spatiotemporal Structures | |
Yin et al. | Neural network fragile watermarking with no model performance degradation | |
Hegazy | Tag Eldien, AS; Tantawy, MM; Fouda, MM; TagElDien, HA Real-time locational detection of stealthy false data injection attack in smart grid: Using multivariate-based multi-label classification approach | |
CN110719279A (zh) | 基于神经网络的网络异常检测系统及检测方法 | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN111709021B (zh) | 一种基于海量告警的攻击事件识别方法及电子装置 | |
CN110674498A (zh) | 一种基于多维度文件活动的内部威胁检测方法及系统 | |
CN113705714A (zh) | 基于行为序列的配电物联网设备异常行为检测方法及装置 | |
US20230164162A1 (en) | Valuable alert screening method efficiently detecting malicious threat | |
Iskhakov et al. | Enhanced user authentication algorithm based on behavioral analytics in Web-based cyberphysical systems | |
CN116668054A (zh) | 一种安全事件协同监测预警方法、系统、设备及介质 | |
CN115842645A (zh) | 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质 | |
CN109784040B (zh) | 一种面向综合电子系统的误用检测方法 | |
He et al. | An improved kernel clustering algorithm used in computer network intrusion detection | |
Hussein et al. | Network Intrusion Detection System Using Ensemble Learning Approaches | |
CN111314327A (zh) | 一种基于knn离群点检测算法的网络入侵检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |