CN116738445B - 数据安全事件检测模型的构建方法及检测方法 - Google Patents
数据安全事件检测模型的构建方法及检测方法 Download PDFInfo
- Publication number
- CN116738445B CN116738445B CN202311030732.0A CN202311030732A CN116738445B CN 116738445 B CN116738445 B CN 116738445B CN 202311030732 A CN202311030732 A CN 202311030732A CN 116738445 B CN116738445 B CN 116738445B
- Authority
- CN
- China
- Prior art keywords
- behavior
- user behavior
- data security
- flow
- security event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 137
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000010586 diagram Methods 0.000 claims abstract description 31
- 230000006399 behavior Effects 0.000 claims description 375
- 230000008569 process Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 description 15
- 238000004220 aggregation Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种数据安全事件检测模型的构建方法及检测方法,所述方法包括:构建流程,基于用户行为序列构建用户行为异质图;提取流程,基于用户行为异质图中的每一行为属性得到用户行为同质图,提取用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;遍历流程,遍历用户行为异质图中的每一行为属性,并执行提取流程,得到行为序列嵌入;检测流程;循环流程,依次执行提取流程、遍历流程以及检测流程,直到重构误差不再变小,则停止执行循环流程,并构建得到数据安全事件检测模型。本发明提供的数据安全事件检测模型的构建方法,实现了对数据安全事件检测模型的构建,可实现对数据安全事件的快速准确检测。
Description
技术领域
本发明涉及数据安全技术领域,尤其涉及一种数据安全事件检测模型的构建方法及检测方法。
背景技术
数据安全事件检测作为一项重要的数据安全技术,其指的是通过监控和分析数据流量、系统日志、网络行为等,及时发现和识别可能对数据安全造成威胁的异常事件。
基于用户行为分析的检测方法:主要采用机器学习算法或深度学习模型来建模用户日常行为并提取用户正常的行为模式,然后通过监测和分析用户的实际行为,进而检测出可能的安全事件和威胁。常用的机器学习算法包括隐马尔可夫模型(Hidden MarkovModel, HMM)、支持向量机(Support Vector Machine, SVM)、孤立森林(IsolationForest, IF)等,然而由于近年来数据安全事件检测场景中用户的行为数据逐渐呈现出高维性、复杂性和异质性的特点,浅层次的机器学习算法和序列化深度学习模型难以有效地利用这些数据来学习用户的行为特征,因而其效果变得差强人意。
发明内容
为解决现有技术中的问题,本发明提供了一种数据安全事件检测模型的构建方法及检测方法。
本发明提供一种数据安全事件检测模型的构建方法,包括:
构建流程,基于用户行为序列构建用户行为异质图;
提取流程,基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
遍历流程,遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测流程,将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环流程,依次执行所述提取流程、所述遍历流程以及所述检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型。
根据本发明提供的一种数据安全事件检测模型的构建方法,所述基于用户行为序列构建用户行为异质图,具体包括:
以每一用户行为和所述每一行为属性作为节点,以所述每一用户行为和所述每一行为属性之间的关系作为边,构建用户行为异质图;其中,所述行为属性至少包括行为主体、行为发生主机以及行为作用对象。
根据本发明提供的一种数据安全事件检测模型的构建方法,采用无监督学习方法对所述数据安全事件检测模型进行训练。
根据本发明提供的一种数据安全事件检测模型的构建方法,所述自编码器包括LSTM AE、CNN AE以及Transformer AE中的一种。
根据本发明提供的一种数据安全事件检测模型的构建方法,所述遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入,具体包括:
针对所述用户行为异质图中的每一行为属性执行所述提取流程,得到对应于每一所述用户行为的单一行为属性嵌入表示,基于发生所述用户行为的时间信息对所述单一行为属性嵌入表示进行排序,得到行为序列嵌入。
本发明提供一种基于数据安全事件检测模型的检测方法,包括:
将待测用户行为序列输入到所述数据安全事件检测模型中,得到对应于所述待测用户行为序列的重构误差,当所述重构误差小于或等于预设阈值时,则判定所述待测用户行为序列正常;当所述重构误差大于预设阈值时,则判定所述待测用户行为序列异常。
本发明还提供一种数据安全事件检测模型的构建装置,包括:
构建模块,用于基于用户行为序列构建用户行为异质图;
提取模块,用于基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
遍历模块,用于遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测模块,用于将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环模块,用于依次执行提取流程、遍历流程以及检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型;其中,所述提取流程为所述提取模块执行步骤,所述遍历流程为所述遍历模块执行步骤,所述检测流程为所述检测模块执行步骤。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据安全事件检测模型的构建方法的步骤或所述检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据安全事件检测模型的构建方法的步骤或所述检测方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任一种所述数据安全事件检测模型的构建方法的步骤或所述检测方法的步骤。
本发明提供的数据安全事件检测模型的构建方法,通过使用异质图有效建模数据安全事件检测场景中各种类型的用户行为数据及其关系,与此同时,在借助异质图神经网络丰富用户行为特征表示的同时,通过属性聚合和语义聚合两个过程大幅降低了异质图的空间复杂度和时间复杂度;本发明通过构建得到的数据安全事件检测模型对数据安全事件进行检测,有效提升了对数据安全事件的检测效率和检测准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据安全事件检测模型的构建方法的流程示意图之一;
图2是本发明提供的检测方法的流程示意图;
图3是本发明提供的数据安全事件检测模型的构建方法的流程示意图之二;
图4是本发明提供的用户行为异质图示例图;
图5是本发明提供的数据安全事件检测模型的构建装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的数据安全事件检测模型的构建方法的流程示意图之一,如图1所示,所述方法包括:
步骤S110,构建流程,基于用户行为序列构建用户行为异质图;
步骤S120,提取流程,基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
步骤S130,遍历流程,遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
步骤S140,检测流程,将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
步骤S150,循环流程,依次执行所述提取流程、所述遍历流程以及所述检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型。
需要说明的是,异质图(heterogeneous graph,也称异构图),表示一种具有多种节点类型或多种边类型的图数据结构,同质图(homogeneous graph),表示具有单一节点类型和单一边类型的图数据结构;而用户行为异质图指的是将用户行为及多种行为属性作为节点,将用户行为与各种行为属性之间的关系作为边构建而成的异质图。用户行为同质图指的是用户行为同质图指的是在用户行为异质图基础上,通过特定的行为属性关联起来的用户行为构建而成的同质图。
一条用户行为序列指的是用户行为数据按照用户和时间两个维度排序后,得到的带有时序信息的用户有序行为序列。在本发明中,待训练和待检测的用户行为序列的时间粒度可以是一次会话、一天或一周。数据安全事件检测模型的构建过程中需要基于大量的用户行为序列进行用户行为异质图的构建,以使最终得到用户行为异质图可以囊括数据安全事件检测场景中各种类型的用户行为数据及其关系。
在上述用户行为异质图中,两个行为可以通过不同的行为属性关联起来,代表着不同的语义信息,基于用户行为的某一属性可以将具有此属性的所有行为连接起来,生成具有特定语义的用户行为同质图,同时利用图注意力网络来获取用户行为同质图中行为节点的嵌入表示,而行为序列嵌入为多个嵌入表示的有序集合。
自编码器(autoencoder, AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks, ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representation learning)。通过将行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,进而获取两者之间的重构误差,并以重构误差作为是否继续执行循环流程的依据,当重构误差不再变小时,表明数据安全事件检测模型已构建完成,达到最优结构,此时得到训练完成的数据安全事件检测模型。
本发明提供的数据安全事件检测模型的构建方法,通过使用异质图有效建模数据安全事件检测场景中各种类型的用户行为数据及其关系,与此同时,在借助异质图神经网络丰富用户行为特征表示的同时,通过属性聚合和语义聚合两个过程大幅降低了异质图的空间复杂度和时间复杂度,进而使得到的数据安全事件检测模型在满足对数据安全事件检测准确度的基础上,提升检测效率。
根据本发明提供的数据安全事件检测模型的构建方法,在本发明中,所述基于用户行为序列构建用户行为异质图,具体包括:
以每一用户行为和所述每一行为属性作为节点,以所述每一用户行为和所述每一行为属性之间的关系作为边,构建用户行为异质图;其中,所述行为属性至少包括行为主体、行为发生主机以及行为作用对象。
需要说明的是,由于用户行为数据通常包含用户行为本身和与用户行为有关的一些行为属性,如行为的主体、行为发生的主机,以及行为作用的对象等,因此在本发明实施例中将用户行为及其各种行为属性作为不同类型的节点、将用户行为与行为属性之间的关系作为边来构建用户行为异质图。
本发明提供的数据安全事件检测模型的构建方法,通过以用户行为或行为属性作为节点,以用户行为和行为属性之间的关系作为边,实现了对用户行为自身和用户行为之间的所有关系的覆盖,基于此构建完成的用户行为异质图可以满足数据安全事件检测场景中各种类型的用户行为数据及其关系,有效提升后续基于数据安全事件检测模型进行安全事件检测的准确度。
根据本发明提供的数据安全事件检测模型的构建方法,在本发明中,采用无监督学习方法对所述数据安全事件检测模型进行训练。
需要说明的是,用户行为序列的数量庞大,若采用有监督学习方法对数据安全事件检测模型进行训练,将会面临繁重的数据打标签任务,且可能存在标签打错的问题。
本发明提供的数据安全事件检测模型的构建方法,通过采用无监督学习方法对所述数据安全事件检测模型进行训练,大幅降低了对数据安全事件检测模型训练过程的任务量,同时避免了因打错标签导致模型训练出现偏差的问题。
根据本发明提供的数据安全事件检测模型的构建方法,在本发明中,所述自编码器包括LSTM AE、CNN AE以及Transformer AE中的一种。
需要说明的是,LSTM AE指的是基于LSTM模型的自编码器,CNN AE指的是基于CNN模型的自编码器,Transformer AE指的是基于Transformer模型的自编码器。
本发明提供的数据安全事件检测模型的构建方法,通过选定多种类型的自编码器,为安全事件检测模型的构建提供了多个可替换平行方案,丰富了实际选择。
根据本发明提供的数据安全事件检测模型的构建方法,在本发明中,所述遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入,具体包括:
针对所述用户行为异质图中的每一行为属性执行所述提取流程,得到对应于每一所述用户行为的单一行为属性嵌入表示,基于发生所述用户行为的时间信息对所述单一行为属性嵌入表示进行排序,得到行为序列嵌入。
需要说明的是,行为序列嵌入实际为多个行为属性嵌入表示的有序集合,基于每一用户行为发生时的时间信息对用户行为进行排序,进而使多个行为属性嵌入表示具有有序性,最终得到一个有序集合;而遍历用户行为异质图中的每一行为属性进行嵌入表示的目的在于实现对用户行为异质图中目标用户的所有行为属性的嵌入表示,避免出现遗漏与重复,该过程亦可称为语义聚合,语义聚合旨在根据每种行为属性对于用户行为的重要性来融合它们以获得用户行为节点最终的嵌入表示。
本发明提供的数据安全事件检测模型的构建方法,通过语义聚合过程融合每种行为属性对于用户行为的重要性以获得用户行为节点最终的嵌入表示,以明确用户行为节点与各行为属性之间的关系。
图2是本发明提供的检测方法的流程示意图,如图2所示,所述检测方法包括:
步骤S210,将待测用户行为序列输入到所述数据安全事件检测模型中,得到对应于所述待测用户行为序列的重构误差;
步骤S220,当所述重构误差小于或等于预设阈值时,则判定所述待测用户行为序列正常;当所述重构误差大于预设阈值时,则判定所述待测用户行为序列异常。
需要说明的是,重构误差小于预设阈值时,表明待测用户行为序列与正常用户行为之间的偏差处于正常区间之内,即该待测用户行为序列正常;当重构误差大于预设阈值时,表明待测用户行为序列已偏离正常用户行为,即该待测用户行为序列异常。
本发明提供的检测方法,通过将待测用户行为序列输入至训练好的数据安全事件检测模型中,基于重构误差的大小实现了对待测用户序列是否存在异常进行准确快速的判定。
图3是本发明提供的数据安全事件检测模型的构建方法的流程示意图之二,如图3所示,所述数据安全事件检测模型的构建方法包括:
Step1,异质图构建:针对数据安全事件检测场景中多种类型的用户行为数据和复杂关系,本发明实施例使用异质图来对用户行为数据进行建模。由于用户行为数据通常包含用户行为本身和与用户行为有关的一些行为属性,如行为的主体、行为发生的主机,以及行为作用的对象等,因此本发明实施例将用户行为及各种行为属性作为不同类型的节点、将用户行为与行为属性之间的关系作为边来构建用户行为异质图。
图4是本发明提供的用户行为异质图示例图,如图4所示,图中用户行为b1及其三种行为属性(虚线圈中的部分)可理解为:用户u1使用主机h1对文件o1进行了查看操作b1:Check File。显然,通过这种方式构建的用户行为异质图不仅保留了原有的行为语义信息,还可以将用户行为通过不同的行为属性关联起来以挖掘用户行为之间的潜在关系。
Step2,属性聚合:在上述用户行为异质图中,两个用户行为可以通过不同的行为属性关联起来,代表着不同的语义信息,如b1和b2可以通过o1连接起来,代表着这两种用户行为作用的对象是一致的。显然,基于用户行为的某一行为属性可以将具有此行为属性的所有用户行为连接起来,生成具有特定语义的用户行为同质图。在此基础上,本发明实施例利用了图注意力网络来获取用户行为同质图中用户行为节点的嵌入表示。
具体地,给定用户行为的n种行为属性,将用户行为节点i基于行为属性/>生成的用户行为同质图记为homoρ。在homoρ中,对于节点/>的嵌入表示,不同的邻居节点往往会对其起到不同的贡献,因此使用了图注意力网络来捕获不同邻居节点的贡献度。在homoρ中,节点/>对节点/>的贡献度被表示为/>,具体计算公式如下:
(2.1)
其中是LeakyReLU激活函数,/>表示拼接操作,/>和/>分别是节点/>和节点/>的初始特征向量,/>是权重矩阵,/>是属性/>的属性级别的注意力向量,/>是homoρ中节点/>的邻居。/>越高,意味着节点/>对节点/>的嵌入表示的贡献度越大。
在此基础上,通过聚合homoρ中节点所有邻居节点的信息来获得节点/>基于属性的嵌入表示/>:
(2.2)
为保证稳定性,本发明实施例中使用了多头注意力机制以捕获来自不同特征子空间的信息,其中表示homoρ中第k个注意力头计算得到的节点j对节点i的贡献度,K1是注意力头的数量。
基于用户行为的n种行为属性,经过属性聚合后,可以获得用户行为节点i的n种具有特定语义的嵌入表示:/>。
Step3,语义聚合:对于用户行为节点i经过属性聚合得到的n种具有特定语义的嵌入表示,语义聚合旨在根据每种行为属性对于用户行为的重要性来融合它们以获得节点i最终的嵌入表示,与属性聚合类似,这里同样使用了图注意力网络。
具体地,给定用户行为节点i基于行为属性的嵌入表示,首先利用非线性变换将/>投影到公共的特征空间中。计算变换后的/>与语义级别的注意力向量/>之间的相似性,并将这个相似性结果作为行为属性/>对于节点i的重要性分数。然后,通过平均属性/>对于所有行为节点的重要性分数和归一化操作,来获得属性/>的标准重要性分数/>:
(2.3)
其中,是权重矩阵,/>是偏置向量,/>是用户行为节点的集合。/>越高,意味着行为属性/>越重要。
最后,对于用户行为节点i的n种具有特定语义的嵌入表示,根据计算得到的重要性分数进行融合,以获得节点i最终的嵌入表示/>:
(2.4)
其中是权重矩阵。
Step4,检测异常行为:考虑到在真实数据安全事件检测场景中正常用户行为与异常用户行为数据的不平衡性,以及单个用户行为信息的有限性,本发明实施例采用了无监督的方法来区分正常行为序列与异常行为序列。
具体来说,给定用户u从t1时刻到tm时刻的用户行为序列,经过第一阶段可以得到Su中所有用户行为的嵌入表示/>。在第二个阶段中,本发明实施例使用长短期记忆网络自编码器(LSTM AE,Long Short-Term Memory AutoEncoder)来检测异常行为,其中包含LSTMEncoder和LSTM Decoder两部分。对于/>,首先经过LSTM Encoder转换成隐藏状态:
(2.5)
其中为上一时刻的隐藏状态。对于Z中所有行为,经编码后可以得到隐藏状态序列/>。
然后再经过LSTM Decoder将隐藏状态转换回重建的输出:
(2.6)
其中为上一时刻的输出,对于隐藏状态序列H,经解码后可以得到输出序列/>。
最后,使得重建的输出序列Y尽可能接近原始输入序列Z,即最小化两者之间的重构误差,进而更新模型参数,本发明实施例使用了均方误差来衡量两者之间的损失:
(2.7)
Step5,结束。
本发明提供的数据安全事件检测模型的构建方法,通过使用异质图有效建模数据安全事件检测场景中各种类型的用户行为数据及其关系,与此同时,在借助异质图神经网络丰富用户行为特征表示的同时,通过属性聚合和语义聚合两个过程大幅降低了异质图的空间复杂度和时间复杂度,进而使得到的数据安全事件检测模型在满足对数据安全事件检测准确度的基础上,提升检测效率。
图5是本发明提供的数据安全事件检测模型的构建装置的结构示意图,如图5所示,所述数据安全事件检测模型的构建装置500包括:
构建模块510,用于基于用户行为序列构建用户行为异质图;
提取模块520,用于基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
遍历模块530,用于遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测模块540,用于将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环模块550,用于依次执行提取流程、遍历流程以及检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型;其中,所述提取流程为所述提取模块520执行步骤,所述遍历流程为所述遍历模块530执行步骤,所述检测流程为所述检测模块540执行步骤。
本发明提供的数据安全事件检测模型的构建装置,通过使用异质图有效建模数据安全事件检测场景中各种类型的用户行为数据及其关系,与此同时,在借助异质图神经网络丰富用户行为特征表示的同时,通过属性聚合和语义聚合两个过程大幅降低了异质图的空间复杂度和时间复杂度,进而使得到的数据安全事件检测模型在满足对数据安全事件检测准确度的基础上,提升检测效率。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行数据安全事件检测模型的构建方法,该方法包括:
构建流程,基于用户行为序列构建用户行为异质图;
提取流程,基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
遍历流程,遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测流程,将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环流程,依次执行所述提取流程、所述遍历流程以及所述检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型。
或执行检测方法,该方法包括:
将待测用户行为序列输入到所述数据安全事件检测模型中,得到对应于所述待测用户行为序列的重构误差;
当所述重构误差小于或等于预设阈值时,则判定所述待测用户行为序列正常;当所述重构误差大于预设阈值时,则判定所述待测用户行为序列异常。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的数据安全事件检测模型的构建方法,该方法包括:
构建流程,基于用户行为序列构建用户行为异质图;
提取流程,基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
遍历流程,遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测流程,将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环流程,依次执行所述提取流程、所述遍历流程以及所述检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型。
或执行检测方法,该方法包括:
将待测用户行为序列输入到所述数据安全事件检测模型中,得到对应于所述待测用户行为序列的重构误差;
当所述重构误差小于或等于预设阈值时,则判定所述待测用户行为序列正常;当所述重构误差大于预设阈值时,则判定所述待测用户行为序列异常。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的数据安全事件检测模型的构建方法,该方法包括:
构建流程,基于用户行为序列构建用户行为异质图;
提取流程,基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;
遍历流程,遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测流程,将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环流程,依次执行所述提取流程、所述遍历流程以及所述检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型。
或执行检测方法,该方法包括:
将待测用户行为序列输入到所述数据安全事件检测模型中,得到对应于所述待测用户行为序列的重构误差;
当所述重构误差小于或等于预设阈值时,则判定所述待测用户行为序列正常;当所述重构误差大于预设阈值时,则判定所述待测用户行为序列异常。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种数据安全事件检测模型的构建方法,其特征在于,包括:
构建流程,基于用户行为序列构建用户行为异质图;以每一用户行为和所述每一行为属性作为节点,以所述每一用户行为和所述每一行为属性之间的关系作为边,构建用户行为异质图;其中,所述行为属性至少包括行为主体、行为发生主机以及行为作用对象;
提取流程,基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;两个行为通过不同的行为属性关联起来,代表着不同的语义信息,基于用户行为的某一属性可以将具有此属性的所有行为连接起来,生成具有特定语义的用户行为同质图;
遍历流程,遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测流程,将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环流程,依次执行所述提取流程、所述遍历流程以及所述检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型。
2.根据权利要求1所述的数据安全事件检测模型的构建方法,其特征在于,采用无监督学习方法对所述数据安全事件检测模型进行训练。
3.根据权利要求2所述的数据安全事件检测模型的构建方法,其特征在于,所述自编码器包括LSTM AE、CNN AE以及Transformer AE中的一种。
4.根据权利要求3所述的数据安全事件检测模型的构建方法,其特征在于,所述遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入,具体包括:
针对所述用户行为异质图中的每一行为属性执行所述提取流程,得到对应于每一所述用户行为的单一行为属性嵌入表示,基于发生所述用户行为的时间信息对所述单一行为属性嵌入表示进行排序,得到行为序列嵌入。
5.一种基于数据安全事件检测模型的检测方法,基于权利要求1-4任一项所述的构建方法,其特征在于,包括:
将待测用户行为序列输入到所述数据安全事件检测模型中,得到对应于所述待测用户行为序列的重构误差;
当所述重构误差小于或等于预设阈值时,则判定所述待测用户行为序列正常;当所述重构误差大于预设阈值时,则判定所述待测用户行为序列异常。
6.一种数据安全事件检测模型的构建装置,其特征在于,包括:
构建模块,用于基于用户行为序列构建用户行为异质图;以每一用户行为和所述每一行为属性作为节点,以所述每一用户行为和所述每一行为属性之间的关系作为边,构建用户行为异质图;其中,所述行为属性至少包括行为主体、行为发生主机以及行为作用对象;
提取模块,用于基于所述用户行为异质图中的每一行为属性得到用户行为同质图,提取所述用户行为同质图中所有行为节点在单一行为属性下的嵌入表示;两个行为通过不同的行为属性关联起来,代表着不同的语义信息,基于用户行为的某一属性可以将具有此属性的所有行为连接起来,生成具有特定语义的用户行为同质图;
遍历模块,用于遍历所述用户行为异质图中的每一行为属性,并执行所述提取流程,得到行为序列嵌入;
检测模块,用于将所述行为序列嵌入输入到自编码器中,得到重建行为序列嵌入,并计算所述行为序列嵌入和所述重建行为序列嵌入之间的重构误差;
循环模块,用于依次执行提取流程、遍历流程以及检测流程,直到所述重构误差不再变小,则停止执行所述循环流程,并构建得到数据安全事件检测模型;其中,所述提取流程为所述提取模块执行步骤,所述遍历流程为所述遍历模块执行步骤,所述检测流程为所述检测模块执行步骤。
7.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-4任一项所述数据安全事件检测模型的构建方法的步骤或如权利要求5所述检测方法的步骤。
8.一种非暂态计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-4任一项所述数据安全事件检测模型的构建方法的步骤或如权利要求5所述检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030732.0A CN116738445B (zh) | 2023-08-16 | 2023-08-16 | 数据安全事件检测模型的构建方法及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030732.0A CN116738445B (zh) | 2023-08-16 | 2023-08-16 | 数据安全事件检测模型的构建方法及检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738445A CN116738445A (zh) | 2023-09-12 |
CN116738445B true CN116738445B (zh) | 2023-10-31 |
Family
ID=87901619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311030732.0A Active CN116738445B (zh) | 2023-08-16 | 2023-08-16 | 数据安全事件检测模型的构建方法及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738445B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528275A (zh) * | 2020-11-23 | 2021-03-19 | 浙江工业大学 | 基于元路径学习与子图采样的apt网络攻击检测方法 |
CN114912109A (zh) * | 2022-07-19 | 2022-08-16 | 中孚安全技术有限公司 | 一种基于图嵌入的异常行为序列识别方法及系统 |
CN115086004A (zh) * | 2022-06-10 | 2022-09-20 | 中山大学 | 一种基于异质图的安全事件识别方法及系统 |
CN115510998A (zh) * | 2022-10-18 | 2022-12-23 | 中国银行股份有限公司 | 交易异常值检测方法及装置 |
-
2023
- 2023-08-16 CN CN202311030732.0A patent/CN116738445B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528275A (zh) * | 2020-11-23 | 2021-03-19 | 浙江工业大学 | 基于元路径学习与子图采样的apt网络攻击检测方法 |
CN115086004A (zh) * | 2022-06-10 | 2022-09-20 | 中山大学 | 一种基于异质图的安全事件识别方法及系统 |
CN114912109A (zh) * | 2022-07-19 | 2022-08-16 | 中孚安全技术有限公司 | 一种基于图嵌入的异常行为序列识别方法及系统 |
CN115510998A (zh) * | 2022-10-18 | 2022-12-23 | 中国银行股份有限公司 | 交易异常值检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116738445A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hoang et al. | Deepjit: an end-to-end deep learning framework for just-in-time defect prediction | |
Chen et al. | Pairwise ranking aggregation in a crowdsourced setting | |
CN109889538B (zh) | 用户异常行为检测方法及系统 | |
CN111914873A (zh) | 一种两阶段云服务器无监督异常预测方法 | |
CN107918733A (zh) | 检测网页的恶意元素的系统和方法 | |
KR102153992B1 (ko) | 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치 | |
Yang et al. | Incomplete-data oriented multiview dimension reduction via sparse low-rank representation | |
CN112953629B (zh) | 一种光网络故障预测不确定性分析方法及系统 | |
CN111260620B (zh) | 图像异常检测方法、装置和电子设备 | |
WO2021174827A1 (zh) | 文本生成方法、装置、计算机设备及可读存储介质 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN112434742A (zh) | 一种识别以太坊上庞氏骗局的方法、系统及设备 | |
CN106060008A (zh) | 一种网络入侵异常检测方法 | |
CN112148997B (zh) | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 | |
CN113918367A (zh) | 一种基于注意力机制的大规模系统日志异常检测方法 | |
CN113409166A (zh) | 基于XGBoost模型的用户异常用电行为检测方法及装置 | |
US20240070273A1 (en) | Systems, devices, and methods for generating cybersecurity threat intelligence | |
CN111104897A (zh) | 儿童人脸识别模型的训练方法、装置以及存储介质 | |
CN116738445B (zh) | 数据安全事件检测模型的构建方法及检测方法 | |
US11539730B2 (en) | Method, device, and computer program product for abnormality detection | |
CN113822336A (zh) | 一种云硬盘故障预测方法、装置、系统及可读存储介质 | |
CN116662307A (zh) | 一种基于多源数据融合的智能预警方法、系统及设备 | |
WO2024064249A1 (en) | Systems and methods for prompt-based query generation for diverse retrieval | |
CN110443292A (zh) | 多影响因素的众包答案决策方法 | |
CN103377378B (zh) | 生成组合分类器的方法和装置以及图像检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |