CN114117421A - 用户访问行为的异常检测方法及装置 - Google Patents
用户访问行为的异常检测方法及装置 Download PDFInfo
- Publication number
- CN114117421A CN114117421A CN202111441750.9A CN202111441750A CN114117421A CN 114117421 A CN114117421 A CN 114117421A CN 202111441750 A CN202111441750 A CN 202111441750A CN 114117421 A CN114117421 A CN 114117421A
- Authority
- CN
- China
- Prior art keywords
- access behavior
- combination
- sequences
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 75
- 230000006399 behavior Effects 0.000 claims abstract description 341
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000002159 abnormal effect Effects 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 230000005856 abnormality Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010998 test method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 3
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 9
- 101150098958 CMD1 gene Proteins 0.000 description 18
- 101100382321 Caenorhabditis elegans cal-1 gene Proteins 0.000 description 18
- 238000012545 processing Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了用户访问行为的异常检测方法及装置,涉及网络信息安全技术领域,可以提升异常行为检测的效率。其中方法包括:从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列;对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列;根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值;根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。本申请适用于对用户访问行为的异常进行检测。
Description
技术领域
本申请涉及信息安全技术领域,尤其是涉及到用户访问行为的异常检测方法及装置。
背景技术
随着移动互联网的发展,企业的传统网络边界正在逐渐消失,例如金融、电信等大规模应用互联网的企业,日活跃用户数量可达上千万,其中,以灰产、黑产为代表的恶意访问的占比居高不下,恶意攻击在各个时段发生,且新的攻击手段层出不穷,传统的被动防御技术是基于历史经验进行防御,仅能识别已知威胁,对未知威胁无法进行检测及防御。
现有异常数据挖掘的方法主要包括基于距离的方法、基于统计的方法、基于密度的方法、基于聚类的方法。虽然这些方法在国内外学者的研究中取得了较好的发展,但仍存在一些缺陷和不足。例如基于距离的方法,距离函数与参数的选择存在困难;基于统计的方法,要求预先获取数据分布情况,但数据的分布函数难以预先获取;基于密度的方法,时间复杂度较大;基于聚类的方法,仅限于处理聚类问题。上述方法,受限于待处理数据的属性、类别,对非确定性信息和离散数据处理缺乏有效的理论模型和方法。
目前用户访问行为的异常检测方法主要有:基于马尔科夫模型和有向图模型,以及基于标注的分类识别模型的异常检测方法。马尔科夫模型和有向图模型对大型数据集的处理效率比较低;标注的分类识别模型需要大量的人工标签标注,模型准确度完全依赖于前期标注标签的准确性,可见,现有方法对用户访问行为异常检测的人工成本较高,且处理效率及准确度较低。
发明内容
有鉴于此,本申请提供了用户访问行为的异常检测方法及装置,主要目的在于解决现有用户访问行为异常检测的人工成本较高,处理效率及准确度较低的技术问题。
根据本申请的一个方面,提供了一种用户访问行为的异常检测方法,该方法包括:
从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列;
对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列;
根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值;
根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
根据本申请的另一方面,提供了一种用户访问行为的异常检测装置,该装置包括:
序列获取模块,用于从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列;
分组模块,用于对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列;
频次计算模块,用于根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值;
评估模块,用于根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述用户访问行为的异常检测方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户访问行为的异常检测方法。
借由上述技术方案,本申请提供的用户访问行为的异常检测方法及装置,与现有基于马尔科夫模型和有向图模型,以及标注的分类识别模型实现用户访问行为异常检测的技术方案相比,本申请从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列,对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列,根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值,根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。可见,通过多阶窗口验证,基于获取到的访问行为序列得到能够准确表征不同访问行为分类特征的多个目标访问行为组合序列的方式实现对用户访问异常行为的检测,能够有效避免现有基于马尔科夫模型和有向图模型,以及标注的分类识别模型对用户访问行为异常检测的人工成本较高,且处理效率及准确度较低的技术问题,通过充分考虑用户访问行为序列间的内在逻辑关系,在降低人工成本的同时,有效提升用户访问行为异常检测的效率及准确度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种用户访问行为的异常检测方法的流程示意图;
图2示出了本申请实施例提供的另一种用户访问行为的异常检测方法的流程示意图;
图3示出了本申请实施例提供的AVF评分值计算过程及相关数据的关系示意图;
图4示出了本申请实施例提供的一种用户访问行为的异常检测装置的结构示意图;
图5示出了本申请实施例提供的另一种用户访问行为的异常检测装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
针对现有基于马尔科夫模型和有向图模型,以及标注的分类识别模型对用户访问行为异常检测的人工成本高,检测效率低,准确度低的技术问题,本实施例提供了一种用户异常行为序列检测方法,通过多阶窗口验证,基于获取到的访问行为序列得到能够准确表征不同访问行为分类特征的多个目标访问行为组合序列的方式实现对用户访问异常行为的检测,能够解决现有异常数据挖掘方法无法考虑用户行为序列间内在逻辑关系的技术问题,在降低人工成本的同时,有效提升异常行为序列检测的效率及准确度,如图1所示,该方法包括:
步骤101、从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列。
在本实施例中,从web系统的用户访问行为数据中获取指定时间周期内与用户标识对应的初始访问行为数据,其中,初始访问行为数据根据其执行主体的不同可以分为多个数据类别,例如系统访问行为数据、主机访问行为数据等;用户标识为标识用户唯一性的字段,如账号ID(ACCT_ID)、IP地址(IP_ADDR)等。需要说明的是,获取web系统的用户访问行为数据,可以包括根据用户标识获取多个执行主体对应的不同类别的初始访问行为序列,也可以针对多个执行主体对应的不同访问行为数据类别分别获取用户标识对应的初始访问行为序列,此处不对初始访问行为序列的获取维度进行具体限定。
步骤102、对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列。
在本实施例中,利用动态滑动窗口对基于时间维度的初始访问行为序列进行多阶窗口分组,得到针对不同窗口阶数的多个访问行为组合序列,根据每个访问行为组合序列中每个访问行为组合对应的频次,利用秩和检验法(rank sum test)确定每个访问行为组合序列用于表征不同访问行为分类特征的卡方值,并将最大卡方值对应的滑动窗口阶数作为目标滑动窗口阶数,进而将目标滑动窗口阶数对应的多个访问行为组合序列作为多个目标访问行为组合序列。
在实际应用场景中,通过对多个用于表征不同分类特征的目标访问行为组合序列进行异常评估,能够有效降低单一高频访问行为对整体访问行为异常度评估的影响,使整体异常评估更具业务解释能力。此外,利用秩和检验法确定分组有效性最优的目标滑动窗口阶数,即访问行为组合序列中组合之间的特征差异越大,表明分组的有效性越好,从而有效避免现有人工进行组合划分以及模型调优存在的人工成本较高的问题。
步骤103、根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值。
在本实施例中,利用属性值频次(AVF:Attribute Value Frequency)算法计算得到与相关联的访问行为组合对应的组合频次分布值,AVF算法能够通过计算相关联的访问行为组合的频次分布特征,实现对用户访问行为是否异常的判定,即根据多个目标访问行为组合序列之间相关联的多个访问行为组合对应的频次之和,以及目标访问行为组合序列数量计算得到组合频次分布值,组合频次分布值越小,组合频次分布值对应的用户访问行为异常度越高。
在实际应用场景中,现有在面对海量用户访问行为数据时,需要对数据处理进行大量的概率计算,导致资源消耗大且处理效率较低,本申请利用AVF算法对多个目标访问行为组合序列中的访问行为组合进行频次计算,得到组合频次分布值,能够有效简化计算过程,在降低计算成本的同时,提升计算效率。此外,由于不同目标访问行为组合序列能够表征不同属性维度的分类特征,利用AVF算法能够确定不同属性维度的分类特征对应的访问行为组合关联性,因此将不同属性维度的分类特征对应的多个组合频次分布值作为孤立森林模型的输入,能够进一步提升异常检测结果的准确性。
步骤104、根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
在本实施例中,异常检测算法为孤立森林模型,将对应多个目标访问行为组合序列的组合频次分布值作为输入,利用孤立森林(iForest)模型输出用户访问行为是否异常的检测结果,根据实际应用场景的需求,还可以根据异常检测结果对应的组合频次分布值构建异常数据样本库,以便利用异常数据样本库进一步优化更新训练好的孤立森林模型,提升用户访问行为异常检测的准确性。
对于本实施例可以按照上述方案,从web系统的用户访问行为数据中获取与用户标识对应的访问行为序列,对所述访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列,根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值,根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果,与现有基于马尔科夫模型、有向图模型,以及标注的分类识别模型实现用户访问行为异常检测的技术方案相比,本实施例利用动态滑动窗口得到的时间维度的目标访问行为组合序列,能够提升用户访问行为的异常检测效率及准确性,同时有效避免现有技术方案需要人工标签标注,模型准确度完全依赖于前期标注标签的准确性,导致人工成本较高,检测效率及准确度较低,以及无法考虑用户行为序列间内在逻辑关系的技术问题。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种用户访问行为的异常检测方法,如图2所示,该方法包括:
步骤201、根据与用户标识对应的web系统的用户访问行为数据,按照访问行为发生的时间顺序得到初始访问行为序列,所述初始访问行为序列包括与执行主体对应的多个行为指令。
实施中,web系统的用户访问行为数据可以包括多个执行主体对应的用户访问行为数据,针对不同执行主体对应的用户访问行为数据,分别从用户标识对应的行为日志(用户访问行为数据)中提取与操作内容相关的行为指令,将不同执行主体对应的行为指令分别按照其发生时间的先后顺序进行行为指令合并,以主机访问行为指令为例,得到包含主机访问行为指令的初始访问行为序列,其泛化形式表示为:cmd1,cmd2,cmd3,cmd3,cmd4,cmd2,cmd2,cmd5,…,cmd1。此外,基于指定时间周期获取到的用户访问行为数据的样例形式表示为:cat,hostname,awk,stty,tset,sh,chmod,news,sh,netstat,netscape,netscape,netscape,netscape,netscape,netscape,netscape,netscape,netscape,netscape,pq,pq,sh,sh,sh,sh,sh。
步骤202、利用滑动窗口对所述初始访问行为序列分别按照不同窗口阶数进行分组,得到多个初始访问行为组合序列。
实施中,以初始访问行为序列cmd1,cmd2,cmd3,cmd3,cmd4,cmd2,cmd2,cmd5,cmd6,cmd1,cmd2的三阶滑动窗口分组过程为例,对步骤202进行详细说明:
1)在利用滑动窗口对初始访问行为序列进行分组之前,还包括对初始访问行为序列中连续相同的行为指令进行剔重处理,得到剔重后的初始访问行为序列,表示为:cmd1,cmd2,cmd3,cmd4,cmd2,cmd5,cmd6,cmd1,cmd2;
2)通过对剔重后的初始访问行为序列进行三阶滑动窗口分组,得到多个初始访问行为组合序列,具体包括:一阶窗口划分得到的第一初始访问行为组合序列flag1,表示为:[cmd1]、[cmd2]、[cmd3]、[cmd4]、[cmd2]、[cmd5]、[cmd6]、[cmd1]、[cmd2];二阶窗口划分得到的第二初始访问行为组合序列flag2,表示为:[cmd1,cmd2]、[cmd2,cmd3]、[cmd3,cmd4]、[cmd4,cmd2]、[cmd2,cmd5]、[cmd5,cmd6]、[cmd6,cmd1]、[cmd1,cmd2];三阶窗口划分得到的第三初始访问行为组合序列flag3,表示为:[cmd1,cmd2,cmd3]、[cmd2,cmd3,cmd4]、[cmd3,cmd4,cmd2]、[cmd4,cmd2,cmd5]、[cmd2,cmd5,cmd6]、[cmd5,cmd6,cmd1]、[cmd6,cmd1,cmd2]。
其中,滑动窗口阶数可以根据具体应用场景的需求设定,基于业务行为计算成本考量,通常滑动窗口阶数可以在3至10阶范围内选择,此处不对滑动窗口的阶数进行具体限定。
步骤203、根据所述多个初始访问行为组合序列分别对应的组合频次,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列。
为了说明步骤203的具体实施方式,作为一种优选实施例,步骤203具体可以包括:根据每个初始访问行为组合序列中每个访问行为组合的组合频次,利用秩和检验法确定目标滑动窗口阶数;基于所述目标滑动窗口阶数,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列;其中,所述多个目标访问行为组合序列包括滑动窗口阶数大于等于1,且小于等于目标滑动窗口阶数的多个初始访问行为组合序列。
实施中,对每个初始访问行为组合序列中的每个访问行为组合进行频次统计,得到与每个初始访问行为组合序列对应的访问行为组合频次集合,即第一访问行为组合频次集合(对应flag1),第二访问行为组合频次集合(对应flag2),第三访问行为组合频次集合(对应flag3),根据访问行为组合频次集合,利用秩和检验法确定初始访问行为组合序列中组合之间的特征差异最大(滑动窗口分组有效性最好)的滑动窗口阶数,并作为目标滑动窗口阶数,进而确定窗口阶数小于等于目标滑动窗口阶数的多个目标访问行为组合序列。
具体地,秩和检验法又称顺序和检验,是一种非参数检验(nonparametric test),用于检验数据样本之间的差异是否显著,能够不依赖于待检验数据的总体分布形式和参数,实用性较强。其中,KW检验(Kruskal-Wallis)也称为H检验,属于秩和检验法的一种,由于每组数据样本数量大于等于5个时(本实施例中组合个数均大于5),数据样本统计量KW的分布与自由度为k-1的卡方分布非常接近,因此,可利用卡方分布对初始访问行为组合序列的行为组合统计量KW进行检验,具体计算过程包括:
1)将每个访问行为组合频次集合中的频次从小到大排序,计算得到每个频次的秩(序数),进一步得到秩和Ri。其中,秩为数据从小到大排序后的序数,相同数据对应的秩值相同且等于相同数据对应序数的平均值。
2)利用卡方值计算公式计算行为组合的组间平方和与行为组合的秩方差的比值,得到初始访问行为组合序列的行为组合统计量KW,具体计算公式为:
其中,ni为每个访问行为组合频次集合的频次(组合)个数。
3)如果访问行为组合频次集合中存在结值(相同秩值的组合个数),则加入校正系数C对行为组合统计量KW进行调整,调整后的行为组合统计量KW满足如下公式:
KWc=KW/C
4)KWc值越大表明滑动窗口分组后的访问行为组合之间的特征差异度越高,将最大KWc值对应的滑动窗口阶数作为目标滑动窗口阶数,以保证滑动窗口分组的有效性。
在实际应用场景中,每个访问行为组合序列表征不同属性维度的分类特征,访问行为组合序列中访问行为组合之间的特征差异越大,则分类特征越明显,用户访问行为异常检测的准确性也越高,基于秩和检验法确定最优选的滑动窗口阶数,有利于提高滑动窗口分组的有效性,进而提高用户访问行为异常检测的准确性。
步骤204、根据所述多个目标访问行为组合序列之间的访问行为组合关联规则,确定相关联的访问行为组合,所述访问行为组合关联规则是指:从所述多个目标访问行为组合序列中分别获取到的访问行为组合之间是包含关系。
步骤205、根据所述相关联的访问行为组合,利用AVF算法计算出与相关联的访问行为组合对应的组合频次分布值。
实施中,从多个目标访问行为组合序列中分别获取相关联的访问行为组合(存在包含关系的访问行为组合),根据相关联的访问行为组合中每个访问行为组合对应的频次之和与目标访问行为组合序列个数的比值,利用AVF算法得到与相关联的访问行为组合对应的组合频次分布值。
具体地,以目标滑动窗口阶数3为例,如图3所示,对flag1、flag2、flag3中所有相关联的访问行为组合进行AVF计算,以flag1的第一个访问行为组合[cmd1]为例,flag1中的访问行为组合[cmd1]组合频次为40,flag2中的访问行为组合[cmd1,cmd2]组合频次为8,flag3中的访问行为组合[cmd1,cmd2,cmd3]组合频次为2,得到目标滑动窗口阶数3中三阶滑动窗口对应的AVF评分值[flag1、flag2、flag3]为(40+8+2)/3,以此类推得到所有相关联的访问行为组合的AVF评分值。
需要说明的是,针对目标滑动窗口阶数3的AVF评分值还包括一阶滑动窗口对应的AVF评分值[flag1],以及二阶滑动窗口对应的AVF评分值[flag1、flag2],从而基于一阶滑动窗口、二阶滑动窗口、三阶滑动窗口分别对应的AVF评分值构建访问行为组合的规范化表data,以作为孤立森林模型的输入数据。具体为,基于一阶滑动窗口划分得到的访问行为组合序列中的每个行为组合,依次遍历得到一阶滑动窗口对应的第一AVF评分值、二阶滑动窗口对应的第二AVF评分值、三阶滑动窗口对应的第三AVF评分值。
步骤206、根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
实施中,所述异常检测算法为孤立森林模型,将遍历得到的访问行为组合的规范化表data输入孤立森林模型,通过对规范化表data进行多次分割生成多棵二叉树,即基于一阶滑动窗口划分得到的访问行为组合序列中每个行为组合对应的AVF评分值集合(组合频次分布值,即第一AVF评分值、第二AVF评分值、第三AVF评分值)生成相应的评估标签,若某用户标识对应的所有AVF评分值集合生成的评估标签均为1(正常),则确定该用户的访问行为检测结果为正常;若某用户标识对应的所有AVF评分值集合生成的评估标签中包括异常标签,则确定该用户的访问行为检测结果为0(异常),并根据异常标签对应的异常访问行为组合和/或异常访问行为组合对应的业务对象生成相应的告警信息。
其中,孤立森林模型由多棵二叉树(iTree)构成,二叉树是一种随机树,每个节点有左右两个叶子节点(或子节点),基于规范化表data随机选择一个AVF评分值集合,并将该AVF评分值集合(例如,AVF评分值之和)设定为阈值,根据该阈值对所有AVF评分值集合进行分类,将AVF评分值集合大于等于阈值的访问行为组合归为右节点,将AVF评分值集合小于阈值的访问行为组合归为左节点,依此递归构造左右节点,直到节点无法再进行分割或树的高度达到预设值,二叉树构造完成,基于构建完成的二叉树,根据叶子节点到根节点的综合路径长度来判断AVF评分值集合的异常度。
步骤207、当利用孤立森林模型得到用户访问行为属于异常的检测结果后,将异常的检测结果对应的组合频次分布值作为孤立森林模型的更新数据样本,用于对所述孤立森林模型的更新训练。
实施中,用户访问行为检测结果可以发送至计算机终端,通过人工介入对检测结果进行核实,若检测结果确认为异常,则将该用户异常访问行为对应的组合频次分布值作为孤立森林模型的异常数据样本库,用于对所述孤立森林模型进行优化更新,从而提高孤立森林模型异常评估的准确性。
通过应用本实施例的技术方案,从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列,对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列,根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值,根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果,与现有基于马尔科夫模型、有向图模型,以及标注的分类识别模型实现用户访问行为异常检测的技术方案相比,本实施例利用动态滑动窗口得到的时间维度的目标访问行为组合序列,能够提升用户访问行为的异常检测效率及准确性,同时有效避免现有技术方案需要人工标签标注,模型准确度完全依赖于前期标注标签的准确性,导致人工成本较高,检测效率及准确度较低,以及无法考虑用户行为序列间内在逻辑关系的技术问题。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种用户访问行为的异常检测装置,如图4所示,该装置包括:序列获取模块41、分组模块42、频次计算模块43、评估模块44。
序列获取模块41,可以用于从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列。
分组模块42,可以用于对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列。
频次计算模块43,可以用于根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值。
评估模块44,可以用于根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
在具体的应用场景中,如图5所示,本装置还可以包括更新模块45。
在具体的应用场景中,序列获取模块41,可以具体用于根据与用户标识对应的web系统的用户访问行为数据,按照访问行为发生的时间顺序得到初始访问行为序列,所述初始访问行为序列包括与执行主体对应的多个行为指令。
在具体的应用场景中,分组模块42,包括第一分组单元421、第二分组单元422。
第一分组单元421,可以用于利用滑动窗口对所述初始访问行为序列分别按照不同窗口阶数进行分组,得到多个初始访问行为组合序列。
第二分组单元422,可以用于根据所述多个初始访问行为组合序列分别对应的组合频次,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列。
在具体的应用场景中,第二分组单元422,可以具体用于根据每个初始访问行为组合序列中每个访问行为组合的组合频次,利用秩和检验法确定目标滑动窗口阶数;基于所述目标滑动窗口阶数,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列;其中,所述多个目标访问行为组合序列包括滑动窗口阶数大于等于1,且小于等于目标滑动窗口阶数的多个初始访问行为组合序列。
在具体的应用场景中,频次计算模块43包括关联确定单元431、AVF计算单元432。
关联确定单元431,可以用于根据所述多个目标访问行为组合序列之间的访问行为组合关联规则,确定相关联的访问行为组合,其中,所述访问行为组合关联规则是指,从所述多个目标访问行为组合序列中分别获取到的访问行为组合之间是包含关系。
AVF计算单元432,可以用于根据所述相关联的访问行为组合,利用AVF算法计算出与相关联的访问行为组合对应的组合频次分布值。
在具体的应用场景中,所述异常检测算法为孤立森林模型,所述更新模块45,可以用于当利用孤立森林模型得到用户访问行为属于异常的检测结果后,将异常的检测结果对应的组合频次分布值作为孤立森林模型的更新数据样本,用于对所述孤立森林模型的更新训练。
需要说明的是,本申请实施例提供的一种用户访问行为的异常检测装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的用户访问行为的异常检测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的用户访问行为的异常检测方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与现有基于马尔科夫模型、有向图模型及标注的分类识别模型的技术方案相比,本实施例通过多阶窗口验证,基于获取到的访问行为序列得到能够准确表征不同访问行为分类特征的多个目标访问行为组合序列的方式实现对用户访问异常行为的检测,能够有效避免现有基于马尔科夫模型和有向图模型,以及标注的分类识别模型对用户访问行为异常检测的人工成本较高,且处理效率及准确度较低的技术问题,通过充分考虑用户访问行为序列间的内在逻辑关系,在降低人工成本的同时,有效提升用户访问行为异常检测的效率及准确度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种用户访问行为的异常检测方法,其特征在于,包括:
从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列;
对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列;
根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值;
根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述从web系统的用户访问行为数据中获取与用户标识对应的访问行为序列,包括:
根据与用户标识对应的web系统的用户访问行为数据,按照访问行为发生的时间顺序得到初始访问行为序列,所述初始访问行为序列包括与执行主体对应的多个行为指令。
3.根据权利要求1所述的方法,其特征在于,所述对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列,包括:
利用滑动窗口对所述初始访问行为序列分别按照不同窗口阶数进行分组,得到多个初始访问行为组合序列;
根据所述多个初始访问行为组合序列分别对应的组合频次,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个初始访问行为组合序列分别对应的组合频次,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列,包括:
根据每个初始访问行为组合序列中每个访问行为组合的组合频次,利用秩和检验法确定目标滑动窗口阶数;
基于所述目标滑动窗口阶数,从所述多个初始访问行为组合序列中确定用于表征不同访问行为分类特征的多个目标访问行为组合序列;
其中,所述多个目标访问行为组合序列包括滑动窗口阶数大于等于1,且小于等于目标滑动窗口阶数的多个初始访问行为组合序列。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值,包括:
根据所述多个目标访问行为组合序列之间的访问行为组合关联规则,确定相关联的访问行为组合;
根据所述相关联的访问行为组合,利用AVF算法计算出与相关联的访问行为组合对应的组合频次分布值。
6.根据权利要求5所述的方法,其特征在于,所述访问行为组合关联规则是指,从所述多个目标访问行为组合序列中分别获取到的访问行为组合之间是包含关系。
7.根据权利要求1所述的方法,其特征在于,所述异常检测算法为孤立森林模型,根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果的步骤之后,还包括:
当利用孤立森林模型得到用户访问行为属于异常的检测结果后,将异常的检测结果对应的组合频次分布值作为孤立森林模型的更新数据样本,用于对所述孤立森林模型的更新训练。
8.一种用户访问行为的异常检测装置,其特征在于,包括:
序列获取模块,用于从web系统的用户访问行为数据中获取与用户标识对应的初始访问行为序列;
分组模块,用于对所述初始访问行为序列进行多阶窗口分组,得到用于表征不同访问行为分类特征的多个目标访问行为组合序列;
频次计算模块,用于根据所述多个目标访问行为组合序列之间相关联的访问行为组合,计算出与相关联的访问行为组合对应的组合频次分布值;
评估模块,用于根据所述组合频次分布值,利用异常检测算法得到用户访问行为是否异常的检测结果。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的用户访问行为的异常检测方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的用户访问行为的异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441750.9A CN114117421A (zh) | 2021-11-29 | 2021-11-29 | 用户访问行为的异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441750.9A CN114117421A (zh) | 2021-11-29 | 2021-11-29 | 用户访问行为的异常检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114117421A true CN114117421A (zh) | 2022-03-01 |
Family
ID=80368043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111441750.9A Pending CN114117421A (zh) | 2021-11-29 | 2021-11-29 | 用户访问行为的异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117421A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666136A (zh) * | 2022-03-23 | 2022-06-24 | 阿里云计算有限公司 | 一种网络攻击行为的检测方法和装置 |
CN116070206A (zh) * | 2023-03-28 | 2023-05-05 | 上海观安信息技术股份有限公司 | 一种异常行为检测方法、系统、电子设备及存储介质 |
-
2021
- 2021-11-29 CN CN202111441750.9A patent/CN114117421A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666136A (zh) * | 2022-03-23 | 2022-06-24 | 阿里云计算有限公司 | 一种网络攻击行为的检测方法和装置 |
CN116070206A (zh) * | 2023-03-28 | 2023-05-05 | 上海观安信息技术股份有限公司 | 一种异常行为检测方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10200393B2 (en) | Selecting representative metrics datasets for efficient detection of anomalous data | |
EP2916256A1 (en) | Systems and methods for behavior-based automated malware analysis and classification | |
RU2722692C1 (ru) | Способ и система выявления вредоносных файлов в неизолированной среде | |
US20180248879A1 (en) | Method and apparatus for setting access privilege, server and storage medium | |
CN110415107B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN114117421A (zh) | 用户访问行为的异常检测方法及装置 | |
CN111368289B (zh) | 一种恶意软件检测方法和装置 | |
CN109471853B (zh) | 数据降噪方法、装置、计算机设备和存储介质 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN112148305A (zh) | 一种应用检测方法、装置、计算机设备和可读存储介质 | |
US11625438B2 (en) | Monitoring information processing systems utilizing co-clustering of strings in different sets of data records | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
EP3799367B1 (en) | Generation device, generation method, and generation program | |
CN112287339A (zh) | Apt入侵检测方法、装置以及计算机设备 | |
CN111240942A (zh) | 日志异常检测方法及装置 | |
CN110751354B (zh) | 一种异常用户的检测方法和装置 | |
CN114124484A (zh) | 网络攻击识别方法、系统、装置、终端设备以及存储介质 | |
CN113065748A (zh) | 业务风险评估方法、装置、设备及存储介质 | |
CN115589339B (zh) | 网络攻击类型识别方法、装置、设备以及存储介质 | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 | |
JP7031438B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN115643044A (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN115795466A (zh) | 一种恶意软件组织识别方法及设备 | |
WO2020017000A1 (ja) | サイバー攻撃情報分析プログラム、サイバー攻撃情報分析方法および情報処理装置 | |
CN113254672B (zh) | 异常账号的识别方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |