CN117335998A - 基于行为模式异常检测中样本平衡方法以及装置 - Google Patents
基于行为模式异常检测中样本平衡方法以及装置 Download PDFInfo
- Publication number
- CN117335998A CN117335998A CN202210708876.6A CN202210708876A CN117335998A CN 117335998 A CN117335998 A CN 117335998A CN 202210708876 A CN202210708876 A CN 202210708876A CN 117335998 A CN117335998 A CN 117335998A
- Authority
- CN
- China
- Prior art keywords
- users
- user
- data
- sample data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006399 behavior Effects 0.000 claims abstract description 161
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Abstract
本申请公开了一种基于行为模式异常检测中样本平衡方法以及装置。该方法包括根据用户历史数据,确定多个具有相似性特征的用户;根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每个所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述用户行为模式;根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。本申请解决了基于行为模式异常检测模型在训练时正负样本不均衡的技术问题。
Description
技术领域
本申请涉及流量异常检测领域,具体而言,涉及一种基于行为模式异常检测中样本平衡方法以及装置。
背景技术
基于行为模式的异常检测是根据所构建的行为模式发现恶意攻击。
在构建行为模式时,异常检测中正负样本会出现不平衡。进一步,还会影响到检测实际数据中的未知恶意攻击。
针对相关技术中基于行为模式异常检测模型在训练时正负样本不均衡的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基于行为模式异常检测中样本平衡方法以及装置,以解决基于行为模式异常检测模型在训练时正负样本不均衡的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于行为模式异常检测中样本平衡方法。
根据本申请的基于行为模式异常检测中样本平衡方法包括:根据用户历史数据,确定多个具有相似性特征的用户;根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每个所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式;根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。
进一步地,所述根据所述多个具有相似性特征的用户建立目标行为模式之后,还包括:当IP所在单位相同的用户或者同一行为类型下时间相似的用户特征具有相似性,并分为同一组进行训练得到所述目标行为模式。
进一步地,所述日志数据包括:邮件日志或者用于记录用户行为规律的日志数据。
进一步地,所述不同用户日志数据相似性计算方法,其中可以包含对用户日志数据不同特征进行加权再进行马氏距离计算,设置阈值进行分组,此外,还可以按照每小时、每分钟或者每一秒补全时间这一数据特征并对与用户行为相关的数据进行动态时间规整计算距离设置阈值,进行分类。
进一步地,所述根据用户历史数据,确定多个具有相似性特征的用户,包括:根据所述用户历史日志数据,判断是否有相同特征的用户或者相似的特征的用户,如果有则确定多个具有相似性特征的用户,其中每位用户的日志数据中均包括至少一个相同或相似的特征。
进一步地,所述根据所述多个具有相似性特征的用户建立目标行为模式,包括:将用户日志数据特征的相似程度高的用户一同进行训练得到所述目标行为模式,所述目标行为模式用于将用户行为相似的用户进行区分,并对于与正常使用行为相似的恶意攻击进行判断。
进一步地,所述预设机器学习方法包括:有监督的算法、无监督的算法,所述有监督的算法至少包括如下之一:神经网络,集成学习、决策树,所述无监督的算法包括聚类,所述预设异常检测方法至少包括如下之一:规则匹配、数据统计。
进一步地,所述根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每组所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式,包括:当所述目标行为模式是将当前用户的历史日志数据轮流作为正样本数据并通过有监督的方法训练得到的情况下,使用该用户实际的数据进行检测,并判断是否存在恶意攻击;当所述目标行为模式是将当前用户的预设日志数据轮流作为正样本数据并通过有无监督的算法训练得到的情况下,采用混合其他行为规律相似的用户的方式,判断是否能识别出不属于正样本用户的数据。
为了实现上述目的,根据本申请的另一方面,提供了一种基于行为模式异常检测中样本平衡装置。
根据本申请的基于行为模式异常检测中样本平衡装置包括:确定模块,用于根据用户历史数据,确定多个具有相似性特征的用户;行为模式建立模块,用于根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每个所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式;获取模块,用于根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。
为了实现上述目的,根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述方法。
为了实现上述目的,根据本申请的再一方面,提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的方法。
在本申请实施例中基于行为模式异常检测中样本平衡方法以及装置,采用根据用户历史数据,确定多个具有相似性特征的用户的方式,通过根据所述多个具有相似性特征的用户建立目标行为模式,达到了根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果的目的,从而实现了无需进行人工恶意攻击数据的构造,仅需通过特征选择出相似行为用户即可进行异常检测的技术效果,进而解决了基于行为模式异常检测模型在训练时正负样本不均衡的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于行为模式异常检测中样本平衡方法的硬件结构示意图;
图2是根据本申请实施例的基于行为模式异常检测中样本平衡方法的流程示意图;
图3是根据本申请实施例的基于行为模式异常检测中样本平衡装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
隐匿在正常数据中的攻击行为难以被发现。根据这样的攻击特点,基于行为模式的异常检测方法应运而生。行为模式是通过分析用户属性、行为信息等因素作为特征,利用机器学习、数据统计等方法进行学习,构建出正常用户的模型。根据所构建的行为模式对数据进行异常检测。
但是在在很多使用场景中,异常检测往往只有正常样本数据(也就是正样本),很少或几乎不存在异常样本数据(也就是负样本)。例如,电子邮件异常检测,半年甚至一年的邮件日志数据中,能够确认是恶意攻击的数据寥寥无几。
基于行为模式的异常检测是指行为模式是通过分析用户属性、行为信息等因素作为特征,利用机器学习、数据统计等方法进行学习,构建出正常使用时的用户模型。基于行为模式的异常检测是根据所构建的行为模式发现恶意攻击,即把被判别为不属于正常使用时的行为模式数据当作异常,从而对用户数据进行异常检测。
针对构建行为模式时,异常检测中正负样本不平衡问题,以及检测实际数据中的未知恶意攻击问题,本申请中提供给了一种样本平衡方法。通过对某一种用户特征的筛选,选择出具有同样或相似行为规律的用户,当其中一个用户的样本作为正样本时,其他的用户样本则为负样本,每个用户遍历一次,进行模型训练。在这一过程中,模型学习正样本用户的历史样本信息,通过模型判别出不同于以往用户信息的样本皆认定为恶意攻击样本。模型测试时无需人工注入已知的恶意样本,就可以对实际数据进行检测并识别出未知特别是和正常使用行为相似的攻击。
发明人发现,在实际异常检测中往往会出现攻击样本数量很少甚至没有的情况。因此,在使用正负样本数据对模型进行训练时,负样本数据就会远远小于正样本数据。而正负样本数据的不平衡会很大程度上影响模型的训练结果。对于有监督的学习算法而言,正负样本数据不平衡会直接导致模型无法进行学习。对于无监督的学习算法而言,没有负样本或负样本量少会导致模型的鲁棒性差。其次,对模型的测试往往需要人工构造恶意样本从而进行验证,导致目前研究中所构建的模型对已知的恶意样本攻击有效,但无法判断未知的特别是和正常使用行为相似的恶意攻击。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,硬件系统包括:行为模式100、日志数据数据库200、(邮件)服务器300。所述行为模式100根据所述日志数据数据库200中的用户特征建立行为模式。所述日志数据数据库200记录所述(邮件)服务器300中的用户数据。
在本申请的实施例中提供了一种解决基于行为模式异常检测中用户正负样本不平衡的方法,该方法无需进行人工恶意攻击数据的构造,仅需通过特征选择出相似行为用户即可进行异常检测。最终,可以识别实际数据中未知的特别是和正常使用行为相似的恶意邮件攻击。
如图2所示,该方法包括如下的步骤S201至步骤S203:
步骤S201,根据用户历史数据,确定多个具有相似性特征的用户;
步骤S202,根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每个所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式;
步骤S203,根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。
从以上的描述中,可以看出,本申请实现了如下技术效果:
采用根据用户历史数据,确定多个具有相似性特征的用户的方式,通过根据所述多个具有相似性特征的用户建立目标行为模式,达到了根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果的目的,从而实现了无需进行人工恶意攻击数据的构造,仅需通过特征选择出相似行为用户即可进行异常检测的技术效果,进而解决了基于行为模式异常检测模型在训练时正负样本不均衡的技术问题。
上述步骤S201中后台服务端根据用户历史数据,确定多个具有相似性特征的用户。
需要注意的是,观察用户数据中相似性强的特征,找到行为规律相似的多名用户。此外,用户数据特征相似性强可以指:完全一样的特征,例如邮件日志中,“IP所在单位”。也可以指相似的特征,例如邮件日志中,用户每日登录行为下的时间。构建模型需要的用户数量,可以根据最终模型的效果进行调整。
基于特征相似性强的用户一起进行训练可以增强模型的鲁棒性。若能将用户行为相似的用户区分出来,模型可以对于未知的特别是和正常使用行为相似的恶意攻击进行判断。
上述步骤S202中后台服务端具有相似性特征的用户建立目标行为模式,通过所述目标行为模式是将每个用户的预设日志数据轮流作为多组样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每组所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签。
通过构建行为模式,轮流将每位用户的邮件日志数据作为正样本数据,其他用户的邮件日志数据则为负样本数据。
此外,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式。通过轮流训练,得到对应的样本数据。每位用户训练时,其他的用户则为负样本。
上述步骤S203中根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。具体实施时,使用每位用户的历史邮件日志进行训练,新的邮件日志进行测试,观察预设异常检测模型鲁棒性。
作为本实施例中的优选,所述根据所述多个具有相似性特征的用户建立目标行为模式还包括:当IP所在单位相同的用户或者同一行为类型下时间相似的用户特征具有相似性,并分为同一组进行训练得到所述目标行为模式。
优选地,所述日志数据包括:邮件日志或者用于记录用户行为规律的日志数据。
优选地,所述不同用户日志数据相似性计算方法可以包含对用户日志数据不同特征进行加权再进行马氏距离计算,设置阈值进行分组,此外,还可以按照每小时、每分钟或者每一秒补全时间这一数据特征并对与用户行为相关的数据进行动态时间规整计算距离设置阈值,进行分类。
作为本实施例中的优选,所述根据用户历史数据,确定多个具有相似性特征的用户,包括:根据所述用户历史日志数据,判断是否有相同特征的用户或者相似的特征的用户,如果有则确定多个具有相似性特征的用户,其中每位用户的日志数据中均包括至少一个相同或相似的特征。
具体实施时,用户数据特征相似性强可以指:完全一样的特征,例如邮件日志中,“IP所在单位”。也可以指相似的特征,例如邮件日志中,用户每日登录行为下的时间。构建模型需要的用户数量,可以根据最终模型的效果进行调整。
作为本实施例中的优选,所述根据所述多个具有相似性特征的用户建立目标行为模式,包括:将用户日志数据特征的相似程度高的用户一同进行训练得到所述目标行为模式,所述目标行为模式用于将用户行为相似的用户进行区分,并对于与正常使用行为相似的恶意攻击进行判断。
具体实施时,根据观察发现IP所在单位相同的用户(特征一样)或同一行为类型下时间相似的用户(特征相似)特征具有相似性,分成同一组进行训练,为平衡模型的训练时间和准确性,每组规定10名用户,收集6个月的邮件日志进行训练,算法使用有监督的学习算法,深度神经网络(DNN),用户各有一个标签,每位用户训练时,其他的用户则为负样本。比如,以邮件日志数据为例,使用每位用户的历史邮件日志进行训练,新的邮件日志进行测试,观察模型鲁棒性。
作为本实施例中的优选,所述预设机器学习方法包括:有监督的算法、无监督的算法,所述有监督的算法至少包括如下之一:神经网络,随机森林、决策树,所述无监督的算法包括聚类,所述预设异常检测方法至少包括如下之一:规则匹配、数据统计。
具体实施时,所使用的机器学习算法可以是有监督的算法,例如,神经网络,集成学习、决策树等。当然也可以使用或者无监督的算法,例如,聚类等等。以及其他异常检测方法包括:规则匹配、数据统计等等。
作为本实施例中的优选,所述根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每个所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式,包括:当所述目标行为模式是将当前用户的历史日志数据轮流作为正样本数据并通过有监督的方法训练得到的情况下,使用该用户实际的数据进行检测,并判断是否存在恶意攻击;当所述目标行为模式是将当前用户的预设日志数据轮流作为正样本数据并通过有无监督的算法训练得到的情况下,采用混合其他行为规律相似的用户的方式,判断是否能识别出不属于正样本用户的数据。
具体实施时,特征相似性强的用户一起进行训练可以增强模型的鲁棒性。若能将用户行为相似的用户区分出来,模型可以对于未知的特别是和正常使用行为相似的恶意攻击进行判断。故,对于有监督的算法模型,使用该用户实际的数据进行检测,观察是否存在恶意攻击。对于无监督的算法可以混合其他行为规律相似的用户,观察模型是否能识别出不属于正样本用户的数据从而验证模型鲁棒性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的基于行为模式异常检测中样本平衡装置,如图3所示,该装置包括:
确定模块301,用于根据用户历史数据,确定多个具有相似性特征的用户;
行为模式建立模块302,用于根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为多组样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每组所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,除了第N个之外的其余所有的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述用户行为模式;
获取模块303,根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。
在本申请实施例的所述确定模块301中后台服务端根据用户历史数据,确定多个具有相似性特征的用户。
需要注意的是,观察用户数据中相似性强的特征,找到行为规律相似的多名用户。此外,用户数据特征相似性强可以指:完全一样的特征,例如邮件日志中,“IP所在单位”。也可以指相似的特征,例如邮件日志中,用户每日登录行为下的时间。构建模型需要的用户数量,可以根据最终模型的效果进行调整。
基于特征相似性强的用户一起进行训练可以增强模型的鲁棒性。若能将用户行为相似的用户区分出来,模型可以对于未知的特别是和正常使用行为相似的恶意攻击进行判断。
在本申请实施例的所述行为模式建立模块302中后台服务端具有相似性特征的用户建立目标行为模式,通过所述目标行为模式是将每个用户的预设日志数据轮流作为多组样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每组所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签。
通过构建行为模式,轮流将每位用户的邮件日志数据作为正样本数据,其他用户的邮件日志数据则为负样本数据。
此外,第N个所述用户的日志数据作为正样本数据进行训练时,将第N-1个所述用户的日志作为负样本数据,其中N为大于1的整数。通过轮流训练,得到对应的样本数据。每位用户训练时,其他的用户则为负样本。
在本申请实施例的所述获取模块303中根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。具体实施时,使用每位用户的历史邮件日志进行训练,新的邮件日志进行测试,观察预设异常检测模型鲁棒性。
作为本实施例中的优选,所述根据所述多个具有相似性特征的用户建立目标行为模式还包括:当IP所在单位相同的用户或者同一行为类型下时间相似的用户特征具有相似性,并分为同一组进行训练得到所述目标行为模式。
优选地,所述日志数据包括:邮件日志或者用于记录用户行为规律的日志数据。
为了更好的理解上述基于行为模式异常检测中样本平衡方法流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案,以邮件日志数据为例,其包括步骤如下:
步骤一:观察用户数据中相似性强的特征,找到行为规律相似的多名用户。
步骤二:构建行为模式,轮流将每位用户的邮件日志数据作为正样本数据,其他用户的邮件日志数据则为负样本数据。
步骤三:使用机器学习算法或其他异常检测方法对数据进行训练。
以基于邮件日志的异常检测为例,使用多名用户的邮件日志作为数据集进行模型训练。每位用户的日志中应共同包含至少一个相同或相似的特征。从mta、imap、PoP3、deliveragent等邮件日志协议中提取出用户邮箱名称、IP、时间、行为类型(PoP登录、imap登出等等)、IP所在单位、IP所在城市、运营商、登录设备类型、已读邮件数量、未读邮件数量、发送邮箱等特征并进行观察。根据观察发现IP所在单位相同的用户也即特征一样或同一行为类型下时间相似的用户也即特征相似特征具有相似性,分成同一组进行训练,为平衡模型的训练时间和准确性,每组规定10名用户,收集6个月的邮件日志进行训练,算法使用有监督的学习算法,深度神经网络(DNN),用户各有一个标签,每位用户训练时,其他的用户则为负样本。使用每位用户的历史邮件日志进行训练,新的邮件日志进行测试,观察模型鲁棒性。
步骤四:使用实际的邮件日志数据进行检测。
在一些实施例中,用户数据特征相似性强可以指:完全一样的特征,例如邮件日志中,“IP所在单位”。也可以指相似的特征,例如邮件日志中,用户每日登录行为下的时间。构建模型需要的用户数量,可以根据最终模型的效果进行调整。
在一些实施例中,特征相似性强的用户一起进行训练可以增强模型的鲁棒性。若能将用户行为相似的用户区分出来,模型可以对于未知的特别是和正常使用行为相似的恶意攻击进行判断。
在一些实施例中,所使用的机器学习算法可以是有监督的算法,包括但不限于,神经网络,随机森林、决策树等。或者无监督的算法,包括但不限于,聚类等等。以及其他异常检测方法包括:规则匹配、数据统计等等。
在一些实施例中,对于有监督的算法模型,使用该用户实际的数据进行检测,观察是否存在恶意攻击。对于无监督的算法可以混合其他行为规律相似的用户,观察模型是否能识别出不属于正样本用户的数据从而验证模型鲁棒性。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于行为模式异常检测中样本平衡方法,其特征在于,包括:
根据用户历史数据,确定多个具有相似性特征的用户;
根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每个所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述用户行为模式;
根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个具有相似性特征的用户建立目标行为模式之后,还包括:
当IP所在单位相同的用户或者同一行为类型下时间相似的用户特征具有相似性,并分为同一组进行训练得到所述目标行为模式。
3.根据权利要求2所述的方法,其特征在于,所述日志数据包括:邮件日志或者用于记录用户行为规律的日志数据。
4.根据权利要求1所述的方法,其特征在于,所述根据用户历史数据,确定多个具有相似性特征的用户,包括:根据所述用户历史日志数据,判断是否有相同特征的用户或者相似的特征的用户,如果有则确定多个具有相似性特征的用户,其中每位用户的日志数据中均包括至少一个相同或相似的特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个具有相似性特征的用户建立目标行为模式,包括:
将用户日志数据特征的相似程度高的用户一同进行训练得到所述目标行为模式,所述目标行为模式用于将用户行为相似的用户进行区分,并对于与正常使用行为相似的恶意攻击进行判断。
6.根据权利要求1所述的方法,其特征在于,所述预设机器学习方法包括:有监督的算法、无监督的算法,所述有监督的算法至少包括如下之一:神经网络,集成学习、决策树,所述无监督的算法包括聚类,所述预设异常检测方法至少包括如下之一:规则匹配、数据统计。
7.根据权利要求1所述的方法,其特征在于,根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每组所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有所述用户的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述用户行为模式,包括:
当所述目标行为模式是将当前用户的历史日志数据轮流作为正样本数据并通过有监督的方法训练得到的情况下,使用该用户实际的数据进行检测,并判断是否存在恶意攻击;
当所述目标行为模式是将当前用户的预设日志数据轮流作为正样本数据并通过有无监督的算法训练得到的情况下,采用混合其他行为规律相似的用户的方式,判断是否能识别出不属于正样本用户的数据。
8.一种基于行为模式异常检测中样本平衡装置,其特征在于,包括:
确定模块,用于根据用户历史数据,确定多个具有相似性特征的用户;
行为模式建立模块,用于根据所述多个具有相似性特征的用户建立目标行为模式,其中所述目标行为模式是将每个用户的预设日志数据轮流作为正样本数据并通过预设机器学习方法或预设异常检测方法训练得到的,每组所述样本数据均包括:用户的日志数据以及所述日志数据对应的标签,当第N个所述用户的日志数据作为正样本数据进行训练时,将除了第N个之外的其余所有的日志作为负样本数据,且其余所有所述用户均依次轮流一遍上述过程得到每个所述行为模式;
获取模块,用于根据所述目标行为模式,对当前获取的新日志数据进行检测得到异常检测结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210708876.6A CN117335998A (zh) | 2022-06-22 | 2022-06-22 | 基于行为模式异常检测中样本平衡方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210708876.6A CN117335998A (zh) | 2022-06-22 | 2022-06-22 | 基于行为模式异常检测中样本平衡方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117335998A true CN117335998A (zh) | 2024-01-02 |
Family
ID=89290688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210708876.6A Pending CN117335998A (zh) | 2022-06-22 | 2022-06-22 | 基于行为模式异常检测中样本平衡方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117335998A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744076A (zh) * | 2024-02-06 | 2024-03-22 | 江苏开博科技有限公司 | 一种银行数据库系统入侵检测方法及系统 |
-
2022
- 2022-06-22 CN CN202210708876.6A patent/CN117335998A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744076A (zh) * | 2024-02-06 | 2024-03-22 | 江苏开博科技有限公司 | 一种银行数据库系统入侵检测方法及系统 |
CN117744076B (zh) * | 2024-02-06 | 2024-04-16 | 江苏开博科技有限公司 | 一种银行数据库系统入侵检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108322347A (zh) | 数据检测方法、装置、检测服务器及存储介质 | |
CN108809745A (zh) | 一种用户异常行为检测方法、装置及系统 | |
CN106973038B (zh) | 基于遗传算法过采样支持向量机的网络入侵检测方法 | |
CN111507376B (zh) | 一种基于多种无监督方法融合的单指标异常检测方法 | |
CN105677791B (zh) | 用于分析风力发电机组的运行数据的方法和系统 | |
Smith et al. | Using unsupervised learning for network alert correlation | |
CN108833409A (zh) | 基于深度学习和半监督学习的webshell检测方法及装置 | |
CN103716204A (zh) | 一种基于维纳过程的异常入侵检测集成学习方法及装置 | |
CN110059775A (zh) | 旋转型机械设备异常检测方法及装置 | |
CN108809989B (zh) | 一种僵尸网络的检测方法及装置 | |
CN112765890B (zh) | 基于动态域适应网络的多工况旋转机械剩余寿命预测方法 | |
CN110933080B (zh) | 一种用户登录异常的ip群体识别方法及装置 | |
CN110278201B (zh) | 安全策略评价方法及装置、计算机可读介质和电子设备 | |
CN113179263A (zh) | 一种网络入侵检测方法、装置及设备 | |
Hall et al. | Predicting malicious insider threat scenarios using organizational data and a heterogeneous stack-classifier | |
CN113918367A (zh) | 一种基于注意力机制的大规模系统日志异常检测方法 | |
CN111310139A (zh) | 行为数据识别方法、装置及存储介质 | |
CN116318924A (zh) | 一种小样本入侵检测方法、系统、介质、设备及终端 | |
CN117335998A (zh) | 基于行为模式异常检测中样本平衡方法以及装置 | |
US8700756B2 (en) | Systems, methods and devices for extracting and visualizing user-centric communities from emails | |
CN116866012A (zh) | 电力设施管理平台的网络风险监测方法及系统 | |
CN112685272B (zh) | 一种具备可解释性的用户行为异常检测方法 | |
Yang et al. | Voting-based ensemble model for network anomaly detection | |
CN114866297A (zh) | 网络数据检测方法、装置、电子设备及存储介质 | |
Li et al. | Social network change detection using a genetic algorithm based back propagation neural network model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |