CN117687890B - 基于操作日志的异常操作识别方法、系统、介质及设备 - Google Patents
基于操作日志的异常操作识别方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN117687890B CN117687890B CN202410145237.2A CN202410145237A CN117687890B CN 117687890 B CN117687890 B CN 117687890B CN 202410145237 A CN202410145237 A CN 202410145237A CN 117687890 B CN117687890 B CN 117687890B
- Authority
- CN
- China
- Prior art keywords
- user
- abnormal
- behavior
- log
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000006399 behavior Effects 0.000 claims abstract description 186
- 239000013598 vector Substances 0.000 claims abstract description 16
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 14
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 239000010410 layer Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明属于计算机技术领域,提供了基于操作日志的异常操作识别方法、系统、介质及设备,本发明基于日志的操作行为数据和自注意力机制,构建了操作行为数据库,并通过两阶段的识别模块实现了操作行为的异常识别。与之前的方法相比,本发明首先将原始日志数据转换为特征向量的形式,解决了操作行为数据的复杂性问题;之后采用三种不同的窗口策略将操作行为的特征划分为具有时间属性的操作行为数据集,解决了操作行为数据的连续性问题;最后通过构建用户和操作行为两个阶段的异常识别模块,解决了操作行为多样性的问题。
Description
技术领域
本发明属于计算机技术领域,尤其涉及基于操作日志的异常操作识别方法、系统、介质及设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
用户异常操作行为识别是保障业务连续性和系统安全性的重要屏障。一方面异常操作可能在系统或业务流程中引发错误,导致业务中断或停滞。进而影响生产力、增加运营成本并影响客户服务和交付。另一方面,异常操作可能涉及到未经授权的访问、篡改,导致恶意代码的注入、敏感信息的泄漏和系统资源的恶意消耗,会损害系统的完整性并导致安全漏洞。因此,识别用户的异常操作是避免上述风险的关键和前提。然而由于操作的连续性、复杂性和多样性,用户异常操作的识别问题始终悬而未决。现有的异常操作识别方法可以分为基于规则、基于统计和基于学习的方法。基于规则的方法通常针对系统中操作的特点人工设计规则识别正常和异常模式,易于理解和实施,但对于复杂或未知的操作识别中效果不佳;基于统计的方法依赖现有操作数据的分布和统计指标识别异常,能够捕捉数据的统计偏差,但在包含噪声、分布不均和存在非线性关系的复杂异常行为中不够敏感。基于学习的方法,特别是其中基于深度学习的策略,适用于复杂、非线性的异常识别。但受模型架构和识别策略的影响,现有方法依然不能较好地处理操作数据中的连续性、复杂性和多样性。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于操作日志的异常操作识别方法、系统、介质及设备,其基于日志的操作行为数据和自注意力机制,构建了操作行为数据库,并通过两阶段的识别模块实现了操作行为的异常识别,可以很好地保证操作数据中的连续性、复杂性和多样性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一方面提供基于操作日志的异常操作识别方法,包括如下步骤:
获取用户操作行为日志数据;
采用窗口策略将日志数据分组,构造得到用户操作行为数据集;
结合用户操作行为数据集和训练后的异常操作行为识别模型识别得到用户的操作行为识别结果;其中,所述异常操作行为识别模型的构建过程包括两阶段:
第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,初步评估用户做出异常行为的概率;
第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常。
进一步地,获取用户操作行为日志数据后,进行日志分析以及信息表示,包括:
从日志数据中提取登录时间、登录地点、登录设备、访问资源、访问数据和访问权限信息;
对于登录时间和登录地点,采用数值编码的方式进行编码;
对于登录设备、访问资源、访问数据和访问权限信息,采用独热编码的方式进行编码;
对于操作行为是否异常的判断用向量化的形式表示,采用1表示异常,0表示正常行为。
进一步地,所述采用窗口策略将日志数据分组,包括:
采用固定窗口策略,划分基于每个日志发生的时间,同一个固定时间窗口发生的日志被作为第一日志序列;
采用滑动窗口策略,滑动窗口由窗口大小和步长两个属性组成,发生在同一个滑动窗口的日志被分组作为第二日志序列;
采用会话窗口策略,根据用户IP或ID来识别不同的用户,同一用户在登录至注销内发出的请求序列作为用户本次会话的操作行为序列。
进一步地,所述第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,包括:
通过用户编码器对用户操作行为数据重新组织,对于固定窗口和滑动窗口,在一个窗口的行为序列中,按照用户IP或ID进行组合,将来自同一用户的操作拼接在一起;对于会话窗口,直接执行拼接操作,此时数据由操作行为序列变为用户行为序列,拼接后的数据经过一个由MLP组成的用户编码器得到用户特征编码;结合用户特征编码和面向用户的Transformer编码器,学习用户和用户间的关联关系,得到某一窗口中用户间的依赖关系,根据类型或行为模式是否相同判断用户出现异常操作相似的可能性,得到用户编码映射;结合用户编码映射和异常评估器得到用户执行操作内容的异常概率。
进一步地,所述第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常,包括:
通过操作行为编码器获取每个操作编码;
对于每个操作编码,根据用户IP或ID和操作类型,在第一阶段的输出找到对应的异常概率,作为操作编码的权值,加权后得到操作编码;
结合操作编码和面向操作行为Transformer编码器,提取某一窗口中所有操作间的关联关系,得到操作行为的特征编码;
结合操作行为的特征编码和异常识别器,将操作行为的特征编码映射为0或1的指示向量,1表示该操作被识别为异常操作,0表示该操作被识别为正常操作。
进一步地,异常操作行为识别模型识别训练时,计算用户的操作行为识别结果与真实标注数据的差异,使用BCE损失函数计算二分类问题的损失值,将最小化二者间的差异作为最终的学习目标。
进一步地,将训练后的异常操作行为识别模型部署至实际环境中,模型的部署分为两种场景,通过第一场景对批量操作行为评估,将所有需要评估的操作作为模型的输入,识别对应批次操作行为中哪些为异常操作;
通过第二场景对单个操作行为评估,从该操作开始获取前一个固定窗口的历史数据作为模型的输入,识别当前单个操作行为是否异常。
本发明的第二方面提供基于操作日志的异常操作识别系统,包括:
数据获取模块,被配置为获取用户操作行为日志数据;
操作行为数据集构造模块,被配置为采用窗口策略将日志数据分组,构造得到用户操作行为数据集;
异常操作行为识别模块,被配置为结合用户操作行为数据集和训练后的异常操作行为识别模型识别得到用户的操作行为识别结果;其中,所述异常操作行为识别模型的构建过程包括两阶段:
第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,初步评估用户做出异常行为的概率;
第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常。
本发明的第三方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于操作日志的异常操作识别方法中的步骤。
本发明的第四方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于操作日志的异常操作识别方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明基于日志的操作行为数据和自注意力机制,构建了操作行为数据库,并通过两阶段的识别模块实现了操作行为的异常识别。与之前的方法相比,本发明首先将原始日志数据转换为特征向量的形式,解决了操作行为数据的复杂性问题;之后采用三种不同的窗口策略将操作行为的特征划分为具有时间属性的操作行为数据集,解决了操作行为数据的连续性问题;最后通过构建用户和操作行为两个阶段的异常识别模块,解决了操作行为多样性的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例提供的基于两阶段自注意力机制的用户异常操作识别算法的流程示意图;
图2是本发明实施例提供的三种窗口策略示意图;其中,图2中(a)为长度为2小时的固定窗口,图2中(b)为长度为2小时,步长为20分钟的滑动窗口,图2中(c)为用户1的会话窗口;
图3是本发明实施例提供的用户异常评估示意图;
图4是本发明实施例提供的操作行为异常识别示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
针对背景技术中提及的现有方法依然不能较好地处理操作数据中的连续性、复杂性和多样性;
其中,连续性。用户的一系列操作之间通常是连续的,存在逻辑关系,比如“登录-搜索-查看-修改-保存”。正常的用户操作通常构成一个流程或路径,这个路径是连续的,有规律的,一定程度上反映了用户的意图和行为习惯。一旦序列中的某些操作不符合正常的逻辑关系或不符合用户的行为习惯就存在异常操作的可能。因此要实现异常操作的识别,首先应该能够合理地建模操作中潜在的连续性和时序性。
复杂性。用户操作行为的另一个特点是多维特征的复杂性,例如仅对“登录”这一基本操作进行分析,就可能包含“登录时间”、“登录地点”、“登录设备”、“登录角色”和“密码错误次数”等维度的特征。而这其中任何一个特征,如在不常登陆的时间登录,在不常登录的地点登陆等都可能是识别异常的关键。如何建模复杂的多维特征也是实现异常操作识别的难点。
多样性。用户操作行为的多样性同样是影响识别异常操作的总要因素。例如,对于经常出差的群体来说,异地登录是正常操作,而对于长期固定在某个区域办公的用户来说,异地登录后作出异常操作的可能性会增加;又如同样是尝试删除数据库信息的操作,对于管理员群体来说是正常的操作,而对于客户群体来说则是异常操作。更进一步,假如用户A和用户B都从未执行过数据库删除操作,但是与用户A操作行为相似的用户经常执行删除操作,而与用户B行为相似的用户则同样从未执行过删除操作,则当用户A和用户B执行删除操作时,用户B的异常操作风险应该比用户A更高。上述例子表明,操作的正常和异常模式具有多样性,恰当地利用多样性有希望提高异常操作识别的灵敏度和准确度。
为了克服上述三个难点,弥补现有方法的不足,本发明提供了一种基于两阶段自注意力机制的用户异常操作识别算法。本发明首先设计了三种窗口策略,从操作日志中搜集并整理出序列操作数据,建立操作数据集(库);之后构建了一个包含两阶段自注意力机制的深度学习模型:第一个阶段评估用户异常概率,综合建模每个用户的所有操作得到用户做出异常操作的潜在风险系数;第二个阶段以风险系数为指导识别操作行为是否存在异常。通过最小化模型识别结果与标注结果的差距,训练模型的参数,并最终得到一组最优参数用于实际操作的异常识别。
实施例一
如图1所示,本实施例提供基于操作日志的异常操作识别方法,包括如下步骤:
S101、基于操作日志,读取用户操作行为数据。
具体包括如下步骤:
S1011、读取日志,从系统记录的日志中获取用户的访问信息、系统运行状态、性能等信息。
本实施例中,所述访问信息包括:角色信息(普通用户和管理员用户)、登录时间、登录终端(PC、手机和平板电脑)、访问资源(文件、网页、数据库和API)、操作时间、操作内容(登录、增、删、查和改等)、操作反馈(成功和失败)等全流程信息。
S1012、从系统获取的日志是非结构化的,包含自由形式的文本。每一条日志信息都是由固定信息和可变部分组成的纯文本。
固定信息就是事件模板,而可变部分就是用户的行为习惯,比如操作时间、操作地点、操作设备等。
以一条日志为例:“2023-12-20 11:05:30,普通用户johndoe于2022年12月20日11:05:30在Los Angeles, USA用PC(MacBookPro)登录成功”。日志分析的目的是提取其中可变部分,即:角色信息(普通用户)、用户id(johndoe)、操作时间(2022年12月20日11:05:30)、操作地点(Los Angeles, USA)、操作内容(登录)、操作反馈(成功)。
S1013、将S1012中提取出的登录时间、登录地点、登录设备、访问资源、访问数据、访问权限行为数据转换为机器学习模型可以理解和处理的特征向量。
对于登录时间、登录地点,采用数值编码的方式,如登录时间2022年12月20日11:05:30编码为[2023,12,20,11,05,30],登录地点以经纬度的形式编码,如[40.7128,-74.0060]。
对于登录设备、访问资源、访问数据和访问权限信息,采用独热编码的方式。以三种登录设备(PC、手机和平板电脑),四种访问资源(文件、网页、数据库和API),两种访问权限(普通用户和管理员用户)、五种操作内容(登录、增、删、查和改)和两种反馈(成功和失败)为例,那么普通用户用平板电脑成功访问了文件这个用户行为可以编码为[0,0,1,1,0,0,0,1,0,0,0,0,1,0,1,0]。这个特征向量的前3维代表登录设备,接着的4维表示访问资源,2维表示访问权限,5维表示操作内容,最后2维表示操作反馈。
对于操作行为是否异常的判断同样用向量化的形式表示[1]表示异常,[0]表示正常行为。由于有监督学习方式中,模型的学习需要有真实标注的训练数据。因此对于用于学习的历史行为数据,由人工标注是否存在异常。
把上述特征向量拼接起来即可得到带有人工标记的操作行为的特征向量。用和分别表示特征化的操作行为及其对应的异常标注,则上述示例表示为:,/>。
S102、操作行为数据集构建;
为了挖掘操作行为内部规律,更准确地建模操作行为的连续性,数据集自身应该包含操作行为间的时间属性。进一步地,为了表示用户在一段时间内的行为特征向量,根据固定窗口、滑动窗口和会话窗口将日志数据分成不同的组,如图2所示,图2中(a)为长度为2小时的固定窗口,图2中(b)为长度为2小时,步长为20分钟的滑动窗口,图2中(c)为user1的会话窗口;
固定窗口的划分基于每个日志发生的时间,固定窗口的大小取两小时,同一个固定时间窗口发生的日志被视为日志序列。
滑动窗口由窗口大小和步长两个属性组成。例如两小时的窗口每20分钟滑动一次,发生在同一个滑动窗口的日志被分组为日志序列。由于可能存在的重叠,滑动窗口的数量通常大于固定窗口的数量,且同一个日志向量可能会在多个滑动窗口中重复。
会话窗口根据用户IP或ID来识别不同的用户,同一用户在登录至注销内发出的请求序列作为用户本次会话的操作行为序列。
这三种窗口策略都能将单一的操作行为特征向量按照时间属性拼接成多个特征向量序列,其中固定窗口捕获了最基础的连续性信息,滑动窗口丰富了可用的数据规模,会话窗口则保证了操作行为序列的完整性。一个构造的包含个操作行为的数据序列可以表示为:/>。
S103、用户异常评估;
用户异常评估模块旨在参考用户间的关联关系来减少噪声的干扰,为每个用户评估做出异常操作的潜在可能性,提高识别准确率。用户异常评估模块的整体结构如图3所示,按照数据流动的方向依次包括用户编码器、面向用户的Transformer编码器和异常评估器。
S301、用户编码器;
由于该模块的目的是评估用户出现异常行为的潜在可能性,因此用户编码器从用户的视角重新组织由三种窗口策略构建的操作行为序列:对于固定窗口和滑动窗口,在一个窗口的行为序列中,按照用户IP或ID进行组合,来自同一用户的操作拼接在一起;对于会话窗口,直接执行拼接操作即可。
此时数据由操作行为序列变为用户行为序列。拼接后的数据经过一个由MLP组成的用户编码器得到用户特征编码。每个用户的特征编码都由其在该窗口内的所有操作行为映射得到。用上标区分用户的操作行为,则第/>个用户执行的/>个操作行为可以表示为:/>。
进一步地,第个用户的特征编码/>表示为:,其中/>表示拼接操作,/>是用户编码器/>中的可训练参数。
S302:面向用户的Transformer编码器;
该编码器基于自注意力机制和Transformer结构,旨在学习用户和用户间的关联关系用于建模操作行为数据中的多样性。该编码器接受序列输入,其中序列中的每个token是通过用户编码器中得到的用户编码,序列长度等于窗口中的用户数量/>。该编码器的输入为/>。
S3021、计算自注意力分数:。
S3022、重复多次构成多头注意力结构,得到的多头注意力分数:,其中,,/>,/>,/>是学习的权重矩阵,/>是可学习的整合权重矩阵。
S3023、前馈神经网络得到用户特征向量:/>,其中,/>和/>分别表示常用的LayerNorm正则化层和Feedforward层。
进一步地,由线性变换和常见的激活函数/>组成,即,其中,/>,/>,/>,/>是可学习的权重和偏置。
经过该编码器,模型已经提取出某一窗口中用户间的依赖关系,类型相同或行为模式相同的用户出现异常操作的可能性是类似的。
S303、用户异常评估器;
该评估器由个带有/>函数的单层非线性层得到,用于将面向用户的Transformer编码中得到的用户编码映射为/>个/>之间得分(/>对应操作内容,本例中,即登录、增、删、查和改),越接近/>表示该用户做出某个类型操作时异常的概率较高,越接近/>表示用户做出某个类型操作时异常的概率较低。用户/>执行/>种操作内容的异常概率可以被计算为:/>。
S104、操作行为异常识别;
操作行为异常评估模块以S303中的用户异常评估结果作为引导,识别某个具体操作是否为异常操作。整体结构如图4所示,按照数据流动的方向依次包括操作行为编码器、异常概率加权、面向操作行为的Transformer编码器和异常识别器。
S401、操作行为编码器;
其结构与用户编码器类似,记做,区别是操作行为编码器的输入是一个窗口中的所有操作数据,即:/>,编码过程为:,其中,/>是用户编码器中的可训练参数。
S402、异常概率加权;
对于操作行为编码器中输出的每个操作编码,都可以根据其用户IP或ID和操作类型在S303的输出中找到对应的异常概率/>。该概率反映了此操作行为是异常行为的潜在可能性,因此可以作为操作的编码的权值。以第/>个用户的第/>种操作为例,加权后操作编码为:/>。
S403、面向操作行为Transformer编码器;
与面向用户的Transformer编码器一致,该编码器同样基于自注意力机制和Transformer结构。
需要说明的是,为了简洁,省略表示操作行为的下标并重用面向用户的Transformer编码器中的函数符号和参数符号。加权的操作行为编码作为该编码器的一个输入token。
S4031:计算自注意力分数:
。
S4032:重复多次构成多头注意力结构,得到的多头注意力分数:,其中是学习的权重矩阵,/>是可学习的整合权重矩阵。
S4033:前馈神经网络得到操作行为特征向量:/>,其中,/>和/>分别表示常用的LayerNorm正则化层和Feedforward层,进一步地,由线性变换和常见的激活函数/>组成,即,其中,/>,/>,/>,/>是可学习的权重和偏置。
经过该编码器,模型已经提取出某一窗口中所有操作间的关联关系,并得到操作行为的最终特征编码。
S404:异常识别器;
该识别器由一个带有函数的单层非线性层和可学习的阈值/>组成,用于将S403中得到的操作行为编码/>映射为0或1的指示向量,/>表示该操作被识别为异常操作,0表示该操作被识别为正常操作,即:
。
S105、学习目标和参数更新;
一旦得到模型的识别结果,就可以计算其与真实标注数据/>的差异。使用BCE(binary cross entropy)损失函数/>计算该二分类问题的损失值,最终的学习目标是最小化二者间的差异,即:/>;模型中的参数/>可以通过随即梯度下降算法更新,即:/>,其中/>是由人工指定的学习率超参数。训练至收敛即可得到最优的模型参数/>。
S106、模型的部署和使用;
训练后的模型可以直接被部署到系统中用于异常操作行为的识别,考虑两种使用场景:
批量操作行为评估:将所有需要评估的操作作为模型的输入,依次执行S101-S105,即可识别批量操作中的异常操作。
单个操作行为识别:若要(实时)判断单个操作行为的是否异常,则可以从该操作开始获取前一个固定窗口的历史数据作为模型的输入,依次执行S101-S105,识别当前单个操作行为是否异常。
实施例二
本实施例提供基于操作日志的异常操作识别系统,包括:
数据获取模块,被配置为获取用户操作行为日志数据;
操作行为数据集构造模块,被配置为采用窗口策略将日志数据分组,构造得到用户操作行为数据集;
异常操作行为识别模块,被配置为结合用户操作行为数据集和训练后的异常操作行为识别模型识别得到用户的操作行为识别结果;其中,所述异常操作行为识别模型的构建过程包括两阶段:
第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,初步评估用户做出异常行为的概率;
第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于操作日志的异常操作识别方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于操作日志的异常操作识别方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于操作日志的异常操作识别方法,其特征在于,包括如下步骤:
获取用户操作行为日志数据;
采用窗口策略将日志数据分组,构造得到用户操作行为数据集;
结合用户操作行为数据集和训练后的异常操作行为识别模型识别得到用户的操作行为识别结果;其中,所述异常操作行为识别模型的构建过程包括两阶段:
第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,初步评估用户做出异常行为的概率;
第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常;
获取用户操作行为日志数据后,进行日志分析以及信息表示,包括:
从日志数据中提取登录时间、登录地点、登录设备、访问资源、访问数据和访问权限信息;
对于登录时间和登录地点,采用数值编码的方式进行编码;
对于登录设备、访问资源、访问数据和访问权限信息,采用独热编码的方式进行编码;
对于操作行为是否异常的判断用向量化的形式表示,采用1表示异常,0表示正常行为;
所述采用窗口策略将日志数据分组,包括:
采用固定窗口策略,划分基于每个日志发生的时间,同一个固定时间窗口发生的日志被作为第一日志序列;
采用滑动窗口策略,滑动窗口由窗口大小和步长两个属性组成,发生在同一个滑动窗口的日志被分组作为第二日志序列;
采用会话窗口策略,根据用户IP或ID来识别不同的用户,同一用户在登录至注销内发出的请求序列作为用户本次会话的操作行为序列;
所述第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,包括:
通过用户编码器对用户操作行为数据重新组织,对于固定窗口和滑动窗口,在一个窗口的行为序列中,按照用户IP或ID进行组合,将来自同一用户的操作拼接在一起;对于会话窗口,直接执行拼接操作,此时数据由操作行为序列变为用户行为序列,拼接后的数据经过一个由MLP组成的用户编码器得到用户特征编码;
结合用户特征编码和面向用户的Transformer编码器,学习用户和用户间的关联关系,得到某一窗口中用户间的依赖关系,根据类型或行为模式是否相同判断用户出现异常操作相似的可能性,得到用户编码映射;
结合用户编码映射和异常评估器得到用户执行操作内容的异常概率;
所述第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常,包括:
通过操作行为编码器获取每个操作编码;
对于每个操作编码,根据用户IP或ID和操作类型,在第一阶段的输出找到对应的异常概率,作为操作编码的权值,加权后得到操作编码;
结合操作编码和面向操作行为Transformer编码器,提取某一窗口中所有操作间的关联关系,得到操作行为的特征编码;
结合操作行为的特征编码和异常识别器,将操作行为的特征编码映射为的指示向量,/>表示该操作被识别为异常操作,0表示该操作被识别为正常操作。
2.如权利要求1所述的基于操作日志的异常操作识别方法,其特征在于,异常操作行为识别模型识别训练时,计算用户的操作行为识别结果与真实标注数据的差异,使用BCE损失函数计算二分类问题的损失值,将最小化二者间的差异作为最终的学习目标。
3.如权利要求1所述的基于操作日志的异常操作识别方法,其特征在于,将训练后的异常操作行为识别模型部署至实际环境中,模型的部署分为两种场景,通过第一场景对批量操作行为评估,将所有需要评估的操作作为模型的输入,识别对应批次操作行为中哪些为异常操作;
通过第二场景对单个操作行为评估,从该操作开始获取前一个固定窗口的历史数据作为模型的输入,识别当前单个操作行为是否异常。
4.基于操作日志的异常操作识别系统,其特征在于,包括:
数据获取模块,被配置为获取用户操作行为日志数据;
操作行为数据集构造模块,被配置为采用窗口策略将日志数据分组,构造得到用户操作行为数据集;
异常操作行为识别模块,被配置为结合用户操作行为数据集和训练后的异常操作行为识别模型识别得到用户的操作行为识别结果;其中,所述异常操作行为识别模型的构建过程包括两阶段:
第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,初步评估用户做出异常行为的概率;
第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常;
获取用户操作行为日志数据后,进行日志分析以及信息表示,包括:
从日志数据中提取登录时间、登录地点、登录设备、访问资源、访问数据和访问权限信息;
对于登录时间和登录地点,采用数值编码的方式进行编码;
对于登录设备、访问资源、访问数据和访问权限信息,采用独热编码的方式进行编码;
对于操作行为是否异常的判断用向量化的形式表示,采用1表示异常,0表示正常行为;
所述采用窗口策略将日志数据分组,包括:
采用固定窗口策略,划分基于每个日志发生的时间,同一个固定时间窗口发生的日志被作为第一日志序列;
采用滑动窗口策略,滑动窗口由窗口大小和步长两个属性组成,发生在同一个滑动窗口的日志被分组作为第二日志序列;
采用会话窗口策略,根据用户IP或ID来识别不同的用户,同一用户在登录至注销内发出的请求序列作为用户本次会话的操作行为序列;
所述第一阶段建立用户层级的自注意力模型,整体建模用户自身的操作行为及与其他用户的关系,包括:
通过用户编码器对用户操作行为数据重新组织,对于固定窗口和滑动窗口,在一个窗口的行为序列中,按照用户IP或ID进行组合,将来自同一用户的操作拼接在一起;对于会话窗口,直接执行拼接操作,此时数据由操作行为序列变为用户行为序列,拼接后的数据经过一个由MLP组成的用户编码器得到用户特征编码;
结合用户特征编码和面向用户的Transformer编码器,学习用户和用户间的关联关系,得到某一窗口中用户间的依赖关系,根据类型或行为模式是否相同判断用户出现异常操作相似的可能性,得到用户编码映射;
结合用户编码映射和异常评估器得到用户执行操作内容的异常概率;
所述第二阶段以第一阶段用户做出异常行为的概率作为引导,建立操作行为层级的自注意力模型,通过建模单个用户一段时间内的操作行为及操作行为间的关系,识别某个用户做出某个操作是否异常,包括:
通过操作行为编码器获取每个操作编码;
对于每个操作编码,根据用户IP或ID和操作类型,在第一阶段的输出找到对应的异常概率,作为操作编码的权值,加权后得到操作编码;
结合操作编码和面向操作行为Transformer编码器,提取某一窗口中所有操作间的关联关系,得到操作行为的特征编码;
结合操作行为的特征编码和异常识别器,将操作行为的特征编码映射为的指示向量,/>表示该操作被识别为异常操作,0表示该操作被识别为正常操作。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的基于操作日志的异常操作识别方法中的步骤。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于操作日志的异常操作识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145237.2A CN117687890B (zh) | 2024-02-02 | 2024-02-02 | 基于操作日志的异常操作识别方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145237.2A CN117687890B (zh) | 2024-02-02 | 2024-02-02 | 基于操作日志的异常操作识别方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117687890A CN117687890A (zh) | 2024-03-12 |
CN117687890B true CN117687890B (zh) | 2024-05-03 |
Family
ID=90139388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410145237.2A Active CN117687890B (zh) | 2024-02-02 | 2024-02-02 | 基于操作日志的异常操作识别方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117687890B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102724059A (zh) * | 2012-03-31 | 2012-10-10 | 常熟市支塘镇新盛技术咨询服务有限公司 | 基于MapReduce的网站运行状态监控与异常检测 |
CN113434357A (zh) * | 2021-05-17 | 2021-09-24 | 中国科学院信息工程研究所 | 基于序列预测的日志异常检测方法及装置 |
CN115344414A (zh) * | 2022-08-15 | 2022-11-15 | 山东省计算中心(国家超级计算济南中心) | 基于LSTM-Transformer的日志异常检测方法及系统 |
CN115617614A (zh) * | 2022-10-28 | 2023-01-17 | 大连海事大学 | 基于时间间隔感知自注意力机制的日志序列异常检测方法 |
CN115794480A (zh) * | 2023-02-10 | 2023-03-14 | 成都工业学院 | 一种基于日志语义编码器的系统异常日志检测方法及系统 |
CN117041019A (zh) * | 2023-10-10 | 2023-11-10 | 中国移动紫金(江苏)创新研究院有限公司 | 内容分发网络cdn的日志分析方法、装置及存储介质 |
CN117332411A (zh) * | 2023-12-01 | 2024-01-02 | 国家电网有限公司客户服务中心 | 一种基于Transformer模型的异常登录检测方法 |
CN117386344A (zh) * | 2023-12-13 | 2024-01-12 | 西南石油大学 | 一种基于两阶段学习的钻井异常工况诊断方法及系统 |
CN117390568A (zh) * | 2023-12-11 | 2024-01-12 | 东北大学 | 基于增强Transformer模型的芯片封装丝网印刷机的异常检测方法 |
CN117421595A (zh) * | 2023-10-25 | 2024-01-19 | 广东技术师范大学 | 一种基于深度学习技术的系统日志异常检测方法及系统 |
CN117472679A (zh) * | 2023-09-22 | 2024-01-30 | 桂林电子科技大学 | 结合数据流和控制流漂移发现的异常检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610515B (zh) * | 2022-03-10 | 2022-09-13 | 电子科技大学 | 基于日志全语义的多特征日志异常检测方法及系统 |
-
2024
- 2024-02-02 CN CN202410145237.2A patent/CN117687890B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102724059A (zh) * | 2012-03-31 | 2012-10-10 | 常熟市支塘镇新盛技术咨询服务有限公司 | 基于MapReduce的网站运行状态监控与异常检测 |
CN113434357A (zh) * | 2021-05-17 | 2021-09-24 | 中国科学院信息工程研究所 | 基于序列预测的日志异常检测方法及装置 |
CN115344414A (zh) * | 2022-08-15 | 2022-11-15 | 山东省计算中心(国家超级计算济南中心) | 基于LSTM-Transformer的日志异常检测方法及系统 |
CN115617614A (zh) * | 2022-10-28 | 2023-01-17 | 大连海事大学 | 基于时间间隔感知自注意力机制的日志序列异常检测方法 |
CN115794480A (zh) * | 2023-02-10 | 2023-03-14 | 成都工业学院 | 一种基于日志语义编码器的系统异常日志检测方法及系统 |
CN117472679A (zh) * | 2023-09-22 | 2024-01-30 | 桂林电子科技大学 | 结合数据流和控制流漂移发现的异常检测方法及系统 |
CN117041019A (zh) * | 2023-10-10 | 2023-11-10 | 中国移动紫金(江苏)创新研究院有限公司 | 内容分发网络cdn的日志分析方法、装置及存储介质 |
CN117421595A (zh) * | 2023-10-25 | 2024-01-19 | 广东技术师范大学 | 一种基于深度学习技术的系统日志异常检测方法及系统 |
CN117332411A (zh) * | 2023-12-01 | 2024-01-02 | 国家电网有限公司客户服务中心 | 一种基于Transformer模型的异常登录检测方法 |
CN117390568A (zh) * | 2023-12-11 | 2024-01-12 | 东北大学 | 基于增强Transformer模型的芯片封装丝网印刷机的异常检测方法 |
CN117386344A (zh) * | 2023-12-13 | 2024-01-12 | 西南石油大学 | 一种基于两阶段学习的钻井异常工况诊断方法及系统 |
Non-Patent Citations (3)
Title |
---|
Unsupervised Log Anomaly Detection Method Based on Multi-Feature;He, Shiming 等;CMC-COMPUTERS MATERIALS & CONTINUA;20230724;全文 * |
基于操作注意力和数据增强的内部威胁检测;冯冠云 等;网络与信息安全学报;20230625;全文 * |
面向云数据中心多语法日志通用异常检测机制;张圣林;李东闻;孙永谦;孟伟彬;张宇哲;张玉志;刘莹;裴丹;;计算机研究与发展;20200410(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117687890A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112187792A (zh) | 一种基于互联网的网络信息安全防护系统 | |
Dou et al. | Pc 2 a: predicting collective contextual anomalies via lstm with deep generative model | |
US20220292186A1 (en) | Similarity analysis for automated disposition of security alerts | |
Camina et al. | Towards a masquerade detection system based on user’s tasks | |
CN113141276A (zh) | 一种基于知识图谱的信息安全方法 | |
CN111404889B (zh) | 审计方法及装置、客户端 | |
CN116112194A (zh) | 用户行为分析方法、装置、电子设备及计算机存储介质 | |
CN111784360B (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN117687890B (zh) | 基于操作日志的异常操作识别方法、系统、介质及设备 | |
CN113886821A (zh) | 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质 | |
CN112637108B (zh) | 一种基于异常检测和情感分析的内部威胁分析方法及系统 | |
CN115660073A (zh) | 基于和声鲸鱼优化算法的入侵检测方法和系统 | |
CN115987544A (zh) | 一种基于威胁情报的网络安全威胁预测方法及系统 | |
CN114637664A (zh) | 一种针对安卓应用程序性质的检测方法及装置 | |
CN117009832A (zh) | 异常命令的检测方法、装置、电子设备及存储介质 | |
KR20230073056A (ko) | 악성 이벤트로그 자동분석 장치 및 방법 | |
CN113935023A (zh) | 一种数据库异常行为检测方法及装置 | |
CN113900936A (zh) | 基于关联特征分析的接口测试方法、装置、设备及介质 | |
CN113312619A (zh) | 基于小样本学习的恶意进程检测方法、装置、电子设备及存储介质 | |
CN114662099A (zh) | 基于ai模型的应用程序恶意行为检测方法及设备 | |
CN116702229B (zh) | 一种安全屋信息安全管控方法及系统 | |
CN114553497B (zh) | 基于特征融合的内部威胁检测方法 | |
CN117235686B (zh) | 数据保护方法、装置及设备 | |
CN115640577B (zh) | 一种针对二进制物联网固件程序的漏洞检测方法和系统 | |
Li et al. | A Bidirectional LSTM Log Detection Model Based on Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |