CN113259379A - 基于增量学习的异常告警识别方法、装置、服务器和存储介质 - Google Patents

基于增量学习的异常告警识别方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN113259379A
CN113259379A CN202110658075.9A CN202110658075A CN113259379A CN 113259379 A CN113259379 A CN 113259379A CN 202110658075 A CN202110658075 A CN 202110658075A CN 113259379 A CN113259379 A CN 113259379A
Authority
CN
China
Prior art keywords
alarm
abnormal
model
sample
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110658075.9A
Other languages
English (en)
Inventor
周文
曹瑜
李绪国
任柳江
董贵山
吴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Westone Information Safety Technology Co ltd
China Aviation Oil Group Co ltd
Original Assignee
Chengdu Westone Information Safety Technology Co ltd
China Aviation Oil Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Westone Information Safety Technology Co ltd, China Aviation Oil Group Co ltd filed Critical Chengdu Westone Information Safety Technology Co ltd
Priority to CN202110658075.9A priority Critical patent/CN113259379A/zh
Publication of CN113259379A publication Critical patent/CN113259379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及采用单分类支持向量机(One Class SVM)的异常检测,识别新的高危险告警领域,具体提供了一种基于增量学习的异常告警识别方法、装置、服务器和存储介质,该方法首先利用不纯净的原始数据集训练一个单分类支持向量机(One Class SVM)模型识别异常告警,然后安全运营人员定期对模型得到的异常告警进行标记,并基于增量学习对模型进行迭代优化,以提高模型检测性能,降低漏报和误报。

Description

基于增量学习的异常告警识别方法、装置、服务器和存储介质
技术领域
本发明实施例涉及网络安全领域,特别涉及一种基于增量学习的异常告警识别方法、装置、服务器和存储介质。
背景技术
企业的数据中心(IDC,Internet Data Center)通常会部署大量的安全防护设备,以构建网络安全防护系统。这些安全设备基于镜像流量产生海量告警日志,最终汇聚到网络安全态势感知平台(NSSA,Network Security Situation Awareness)。企业安全运营人员难以对这些安全告警逐一地分析调查,也无法定位出真正高威胁的告警。使用关联规则可以筛选部分高优先级的安全事件,但也有它的局限性:一是规则的维护成本非常高,需要投入大量人力进行更新和修改;二是即使投入大量人力运营规则,但是仍然会存在规则覆盖不全的新场景。在这些海量告警中,绝大部分告警都是使用自动化工具发起的尝试性攻击,真正高威胁的攻击相对是比较少的。对于常见的普遍攻击行为,使用规则也可以很好地进行覆盖。
与此同时,网络入侵呈现多样性,智能性,隐蔽性,告警日志更是随时间不断变化,导致训练数据集不足以完整地描述所有正常数据的特征,静态不变的模型很难适应新的网络攻击。因此,如何在初始检测模型中动态增加新的攻击告警以扩大检测范围,提升检测精度,增加模型可塑性成为亟待解决的问题。
此外,针对不断增加的数据样本,如何在不损失准确度的前提下,有效提高训练性能,也成为该检测模型能否投入实际使用的重要标准。
发明内容
针对上述目前存在的问题,因此,本发明采用单分类支持向量机(One Class SVM)的异常检测,识别新的高危险告警,提供了一种基于增量学习的异常告警识别方法、装置、服务器和存储介质,既有高危险告警又有误报,该方法首先利用不纯净的原始数据集训练一个单分类支持向量机(One Class SVM)模型识别异常告警,然后安全运营人员定期对模型得到的异常告警进行标记,并基于增量学习对模型进行迭代优化,以提高模型检测性能,降低漏报和误报。
一方面,一种基于增量学习的异常告警识别方法,包括:
步骤S1、数据预处理:将态势感知系统中原始告警事件数据按IP聚合,生成给定时间窗口内的告警事件序列,每个IP给定时间区间内事件个数大于阈值则生成一个告警事件序列,作为异常检测样本。
步骤S2、事件序列特征提取:计算每个事件序列的统计特征,将每个IP在给定时间窗口内发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合。
步骤S3、模型的构建、增量优化及异常告警检测:记
Figure 24761DEST_PATH_IMAGE001
为初始样本集即S2中得到的异常检测样本特征向量集合,初始样本集是上一步中的异常检测样本的特征向量集合,
Figure 473060DEST_PATH_IMAGE002
为每次增量数据集
Figure 49535DEST_PATH_IMAGE003
步骤S4、告警统计分析及可视化展示:对S3中异常检测模型检测出的异常IP在对应时间段的告警事件进行去重和统计分析并将结果可视化展示。
进一步可选的,所述步骤S3包括:
Figure 975903DEST_PATH_IMAGE004
为初始样本集,
Figure 337745DEST_PATH_IMAGE005
为每次增量数据集
Figure 691366DEST_PATH_IMAGE006
Step1:使用One Class SVM对初始样本集
Figure 755137DEST_PATH_IMAGE007
进行训练,得到训练好的异常检测模型
Figure 734463DEST_PATH_IMAGE008
Step2:使用最近一次迭代模型
Figure 934500DEST_PATH_IMAGE009
对网络安全设备发送的告警事件进行异常告警检测。按一定频率定时反馈异常告警事件,由安全专家标注其是否是攻击,得到增量数据
Figure 724602DEST_PATH_IMAGE010
Step3:基于KKT条件筛选增量数据
Figure 760822DEST_PATH_IMAGE011
,得到增量样本
Figure 28992DEST_PATH_IMAGE012
。如果
Figure 349115DEST_PATH_IMAGE013
为空,则分类效果好,本次不需要重新训练模型,将
Figure 824965DEST_PATH_IMAGE014
加入到最近一次的样本集
Figure 597749DEST_PATH_IMAGE015
中,得到该次迭代样本
Figure 404031DEST_PATH_IMAGE016
,该次迭代模型不变
Figure 844239DEST_PATH_IMAGE017
。转到Step2继续检测。如果
Figure 461297DEST_PATH_IMAGE018
不为空,进行下一步;
Step4:基于改进超球算法约减最近一次模型的样本集
Figure 986956DEST_PATH_IMAGE019
,得到历史样本
Figure 596929DEST_PATH_IMAGE020
。将历史样本
Figure 140912DEST_PATH_IMAGE021
和增量样本
Figure 443717DEST_PATH_IMAGE022
组合得到新的迭代训练样本集
Figure 925514DEST_PATH_IMAGE023
Step5:使用One Class SVM对迭代训练样本集
Figure 355489DEST_PATH_IMAGE024
进行训练,得到增量迭代后的异常检测模型
Figure 239132DEST_PATH_IMAGE025
其中,Step3:基于KKT条件筛选增量数据,是为了提升模型性能。
传统SVM增量学习在增量过程中,将所有新增数据集加入训练样本中,导致数据集过大,影响模型性能。
本发明采用基于KKT条件筛选出新增数据集中可能成为支持向量的样本加入训练集中进行训练,减少无用样本。从而大大减低训练时间,提升模型性能。
Step4:基于改进超球算法约减最近一次模型的样本集,是为了提升模型准确率。
传统SVM增量学习在增量过程中丢掉除了支持向量以外的所有样本,而这些样本在增量过程中有可能成为支持向量,因此对准确率产生不小的影响。
本发明采用改进超球算法设置自适应参数,约减历史数据集,除了支持向量外,自动根据模型在新样本上的效果,保留类边界附近可能成为支持向量的部分样本,提升模型准确率。
Step6:按一定频率定时重复步骤Step2-5,持续更新异常检测模型并对网络安全设备发送的告警事件进行异常告警检测。
进一步可选的,所述步骤S1中,态势感知系统汇聚各网络安全设备发送的告警事件,对每个IP的告警事件进行聚合,生成给定时间窗口内的告警事件序列,作为异常检测的样本,具体为:给定时间区间和滑动时间窗口,对日志中的安全告警事件根据源IP或者目的IP的发生时间进行排序,以最小时间戳为起点,当时间区间内的事件个数大于给定最小值即生成为一个事件序列,当前起点时间向后滑动一个事件窗口,继续生成事件序列,直到循环结束,将告警事件序列集合作为异常检测样本。
进一步可选的,所述步骤S2具体为:得到异常检测样本后,计算样本中每个事件序列的统计特征,包括:告警数量,告警种类数量,高危告警数量,高危告警种类,对端IP数量,IP内外网属性,告警时间间隔,通过计算上述统计特征,将每个IP某段时间发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合。
进一步可选的,所述步骤S4中,所述去重和多维度的统计分析包括:告警事件,告警级别,内外网情况;并进行可视化展示。
另一方面,一种基于增量学习的异常告警识别装置,包括:
数据预处理模块:将态势感知系统中原始告警事件数据按IP聚合,生成给定时间窗口内的告警事件序列,每个IP给定时间区间内事件个数大于阈值则生成一个告警事件序列,作为异常检测样本;
事件序列特征提取模块:计算每个事件序列的统计特征,将每个IP在给定时间窗口内发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合;
检测模块:模型的构建、增量优化及异常告警检测;
分析模块:告警统计分析及可视化展示,对S3中异常检测模型检测出的异常IP在对应时间段的告警事件进行去重和统计分析并将结果可视化展示。
又一方面,一种服务器,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一增量学习的异常告警识别方法。
再一方面,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一基于增量学习的异常告警识别方法。
本发明与现有技术相比,具有如下优点与有益效果:
1、针对模型可塑性的困境,无法自适应新型高级攻击的问题,本发明引入增量学习的思想:利用初始异常检测模型,在在线攻击检测中,不断沉淀新的训练样本,充分利用历史训练结果,学习新出现的告警样本,适应于变化的学习环境中,具有良好的动态扩展性和自适应性。
2、传统SVM增量学习在增量过程中丢掉除了支持向量以外的所有样本,而这些样本在增量过程中有可能成为支持向量,因此对准确率产生不小的影响。本发明采用改进超球算法设置自适应参数,约减历史数据集,除了支持向量外,自动根据模型在新样本上的效果,保留类边界附近可能成为支持向量的部分样本,提升模型准确率。
3、传统SVM增量学习在增量过程中,将所有新增数据集加入训练样本中,导致数据集过大,影响模型性能。本发明采用基于KKT条件筛选出新增数据集中可能成为支持向量的样本加入训练集中进行训练,减少无用样本。从而大大减低训练时间,提升模型性能。
4、在预处理过程中,通常是对单个事件计算特征,忽略了告警事件之间联系,一个攻击行为往往由会产生多个告警事件。本申请通过采用以IP为聚合条件对告警事件进行聚合,计算每个IP在给定时间区间和滑动时间窗口内的统计特征,可获得该IP在一段时间内的安全事件总体情况。更为准确的描述攻击行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图
图1为本发明实施流程示意图;
图2为增量学习迭代训练模型流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
下面结合具体实施例对本发明作详细介绍。
本发明采用单分类支持向量机(One Class SVM)的异常检测,识别新的高危险告警,提供了一种基于增量学习的异常告警识别方法,参见图1,具体包含如下步骤:
步骤S1、数据预处理:将态势感知系统中原始告警事件数据按IP聚合,生成给定时间窗口内的告警事件序列,每个IP给定时间区间内事件个数大于阈值则生成一个告警事件序列,作为异常检测样本。
具体地,态势感知系统汇聚各网络安全设备发送的告警事件,对每个IP的告警事件进行聚合,生成给定时间窗口内的告警事件序列,作为异常检测的样本。具体生成方式为:给定时间区间(如2天、3天),给定时间区间一般比滑动时间窗口大,给定时间区间指计算告警事件序列时,将该IP多长时间范围内的事件放到一起计算。滑动时间窗口指的当一个IP生成了一个告警事件序列后,生成第二个时,从什么时候开始计算:就从上个事件序列的最小时间戳向后滑动一个滑动时间窗口开始计算下一个告警事件序列)和滑动时间窗口(如:1h、2h),对日志中的安全告警事件根据源IP或者目的IP的发生时间进行排序,以最小时间戳为起点,当给定时间区间内的事件个数大于阈值即生成为一个事件序列,当前起点时间向后滑动一个事件窗口,继续生成事件序列,直到循环结束。将告警事件序列集合作为异常检测样本。
该预处理方式是本申请的改进。业界已存在的方案通常是对单个事件计算特征,忽略了告警事件之间联系,一个攻击行为往往由会产生多个告警事件。
本申请通过采用以IP为聚合条件对告警事件进行聚合,计算每个IP在给定时间区间和滑动时间窗口内的统计特征,可获得该IP在一段时间内的安全事件总体情况。更为准确的描述攻击行为。
步骤S2、事件序列特征提取:计算每个事件序列的统计特征,将每个IP在给定时间窗口内发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合。
具体地,得到异常检测样本后,计算样本中每个事件序列的统计特征,包括:告警数量,告警种类数量,高危告警数量,高危告警种类,对端IP数量,IP内外网属性,告警时间间隔等。通过计算上述统计特征,可以将每个IP某段时间发生的安全事件转化为一个特征向量。得到异常检测样本的特征向量集合。
步骤S3、参见图2,模型的构建、增量优化及异常告警检测:记
Figure 978418DEST_PATH_IMAGE026
为初始样本集即S2中得到的异常检测样本特征向量集合,初始样本集是上一步中的异常检测样本的特征向量集合,
Figure 947511DEST_PATH_IMAGE027
为每次增量数据集
Figure 414133DEST_PATH_IMAGE028
Step1:使用One Class SVM对初始样本集
Figure 683440DEST_PATH_IMAGE029
进行训练,得到训练好的异常检测模型
Figure 328048DEST_PATH_IMAGE030
Step2:使用最近一次迭代模型
Figure 800749DEST_PATH_IMAGE031
对网络安全设备发送的告警事件进行异常告警检测。按一定频率定时反馈异常告警事件,由安全专家标注其是否是攻击,得到增量数据
Figure 556215DEST_PATH_IMAGE032
Step3:基于KKT条件筛选增量数据
Figure 414450DEST_PATH_IMAGE033
,得到增量样本
Figure 479227DEST_PATH_IMAGE034
。如果
Figure 688491DEST_PATH_IMAGE035
为空,则分类效果好,本次不需要重新训练模型,将
Figure 247648DEST_PATH_IMAGE036
加入到最近一次的样本集
Figure 711122DEST_PATH_IMAGE037
中,得到该次迭代样本
Figure 697533DEST_PATH_IMAGE038
,该次迭代模型不变
Figure 128514DEST_PATH_IMAGE039
。转到Step2继续检测。如果
Figure 740630DEST_PATH_IMAGE040
不为空,进行下一步;
Step4:基于改进超球算法约减最近一次模型的样本集
Figure 573456DEST_PATH_IMAGE041
,得到历史样本
Figure 730768DEST_PATH_IMAGE042
。将历史样本
Figure 649046DEST_PATH_IMAGE043
和增量样本
Figure 566317DEST_PATH_IMAGE044
组合得到新的迭代训练样本集
Figure 988071DEST_PATH_IMAGE045
Step5:使用One Class SVM对迭代训练样本集
Figure 581864DEST_PATH_IMAGE046
进行训练,得到增量迭代后的异常检测模型
Figure 236705DEST_PATH_IMAGE047
Step6:按一定频率定时重复步骤Step2-5,持续更新异常检测模型并对网络安全设备发送的告警事件进行异常告警检测。
其中,
1、基于SVDD(支持向量域描述)算法对初始的异常检测样本训练单分类支持向量机(One Class SVM)模型。SVDD算法试图找到一个以o为中心,以R为半径的能够包含所有样本的最小的超球。这一问题可定义为:
Figure 941356DEST_PATH_IMAGE048
(1.1)
SVDD对于噪声非常敏感,当训练集中存在噪声时,将不能得到一个理想超球。为减少噪声影响,引入
Figure 483195DEST_PATH_IMAGE049
松弛变量,允许部分数据点落在超球体外,防止模型过拟合。同时引入
Figure 998622DEST_PATH_IMAGE050
惩罚参数。其表示优化过程中对误差的关注程度,C越大,对误差关注程度越高。因此得到目标函数,其中m为样本总数:
Figure 625912DEST_PATH_IMAGE051
(1.2)
可以通过建立Lagrange方程,求解(1.2)中带约束的二次规划问题,得到的Lagrange函数是:
Figure 134254DEST_PATH_IMAGE052
(1.3)
其中
Figure 779868DEST_PATH_IMAGE053
Figure 715463DEST_PATH_IMAGE054
是Lagrange乘子。对于式(1.3)中
Figure 830049DEST_PATH_IMAGE055
求偏导数,并设值为0,可得约束条件
Figure 627235DEST_PATH_IMAGE056
,计算微分后分别得到:
Figure 143667DEST_PATH_IMAGE057
(1.4)
从(1.4)最后一式中可以得到:
Figure 984584DEST_PATH_IMAGE058
,由于
Figure 852046DEST_PATH_IMAGE059
因此只要约定
Figure 685879DEST_PATH_IMAGE060
,则我们可以不考虑Lagrange乘子
Figure 322396DEST_PATH_IMAGE061
,将式子(1.4)代入式子(1.3)中可以得到该优化问题的对偶形式如下:
Figure 334215DEST_PATH_IMAGE062
(1.5)
通常情况下,即使排除了偏远的样本点,数据也不会成球状分布,这里引入高斯核函数来提高模型表达力,高斯核函数的表达式为,
Figure 908547DEST_PATH_IMAGE063
其中
Figure 562382DEST_PATH_IMAGE064
为函数的宽度参数 , 控制了函数的径向作用范围。将高斯核函数代入式子(1.5)中,可得
Figure 787827DEST_PATH_IMAGE065
(1.6)
当求解该优化问题可得
Figure 485393DEST_PATH_IMAGE066
的值。可以通过
Figure 61868DEST_PATH_IMAGE067
计算球心o,分析
Figure 988236DEST_PATH_IMAGE068
的取值 范围可以发现,如果样本满足
Figure 333766DEST_PATH_IMAGE069
时,约束条件被满足,则样本点在超球体 内,此时
Figure 703699DEST_PATH_IMAGE070
,如果样本点满足
Figure 767470DEST_PATH_IMAGE071
则样本点在超球体边界上,此时
Figure 497529DEST_PATH_IMAGE072
,如果
Figure 946833DEST_PATH_IMAGE073
则是样本在超球体外。所以,超球体半径R可通过球心与支持向量 (也就是在超球体边界上的样本点
Figure 736935DEST_PATH_IMAGE074
)的距离获得。
这里是通过Lagrange乘子法求得一个以o为中心,以R为半径的能够包含所有样本的最小的超球。也就在球类的都是正常样本,在球外的是我们的异常样本,该目标函数是现有文件中的,是基于1999年Tax等人首次提出的SVDD算法。
2、使用训练好的异常检测模型
Figure 288002DEST_PATH_IMAGE075
对网络安全设备发送的告警事件进行实时检测,并将检测结果定时反馈,得到新的已标注的告警事件数据。包括:首先对网络安全设备所发送的实时告警事件进行与模型训练相同的数据预处理和事件序列特征提取工作,得到对应各IP的实时特征向量集合,然后对该集合进行异常检测。对于一个新的待测试数据点,如果它满足以下判别函数,那么我们认为它是一个异常点:
Figure 306905DEST_PATH_IMAGE076
(2.1)
其中z是新的待测试数据点,o,R分别是上一步中求得的超球的球心和半径。
Figure 361448DEST_PATH_IMAGE077
代入式子(2.1)可得
Figure 588030DEST_PATH_IMAGE078
(2.2)
Figure 610082DEST_PATH_IMAGE079
(2.3)
再将步骤1.中的高斯核函数代入式子(2.3)中得:
Figure 681943DEST_PATH_IMAGE080
(2.4)
当新检测点满足式子(2.4)则认为是异常点。
并将检测结果按一定频率(每天、每周)定时反馈异常告警事件,绝大部分攻击都是使用自动化工具发起的尝试性攻击,真正的高威胁的攻击相对是比较少的。所以对于常见的普遍攻击行为其具有相似的统计特征,而对高威胁攻击,其在我们生成的特征向量集合中,往往和其他攻击分布不一致。所以被筛选出来。同时对于误报,其特征向量分布并不是该告警的,所以也被筛选出来。由安全专家对这些事件进行标注。得到少量高价值的已标注的增量告警事件数据。
3、基于KKT条件和改进超球算法得到新的训练样本,利用该样本再次训练模型完成模型增量迭代。本发明结合了KKT条件和改进超球算法的特点,对于历史样本中的非支持向量机采用改进超球算法约减历史数据集,保留位于类边界附近的向量,而不是如传统SVM增量学习对非支持向量集进行全部舍弃,提高了模型准确性。对于新的增量样本,传统的SVM增量学习将所有新增样本加入训练集,而本发明筛选其中违反KKT条件的部分数据加入训练集从而减少训练时间提高模型性能。
约减历史数据:因新数据的加入,原模型的非支持向量也有可能转换成支持向量,如果每次只保留支持向量则会影响后续增量模型准确度。本发明采用改进超球算法同时保留非支持向量中的位于类边界附近的向量作为后续训练样本。在第一步中已经求出以为中心R为半径的包含所有正常数据的超球面,常规超球算法通过指定一个参数
Figure 122152DEST_PATH_IMAGE081
来确定需要去掉的球的半径 r,计算方法为:
Figure 988476DEST_PATH_IMAGE082
(3.1)
对所有样本点进行筛选,如果样本点
Figure 999289DEST_PATH_IMAGE083
到球心
Figure 874841DEST_PATH_IMAGE084
的距离小于r,则将该样本点删除。反之则保留该点作为后续训练集中的样本。这里参数
Figure 903977DEST_PATH_IMAGE085
的指定由人为设定,不具备自适应性,也不能反应约减历史数据与模型在新增样本上的效果好坏。
本申请对超球算法进行改进,设置
Figure 456050DEST_PATH_IMAGE086
(3.2)
其中m是新增样本总数,
Figure 203426DEST_PATH_IMAGE087
是新增样本中符合KTT条件的样本数,也就是模型完美分类的样本数。该式(3.2)反应了模型在新增样本上的效果好坏,
Figure 882669DEST_PATH_IMAGE088
值越大,表示模型效果越好,那么原来模型边界的非支持向量转化为支持向量的可能性越小,所以我们需要保留的历史样本也越少。反之我们需要保留更多的模型边界历史样本。当增量样本都符合KKT条件是,
Figure 517044DEST_PATH_IMAGE089
,没有历史样本被筛选出来,新模型与原模型一致。
这种改进超球算法考虑到模型在新样本上的表现,自动给出合适的阈值。
筛选新增数据:在增量学习的过程中,基于KKT条件可快速筛选增量样本集。若新增数据中存在某些违反KKT条件的数据,则这些违反KKT条件的数据中可能存在新的支持向量;若新增数据中不存在违KKT条件的数据,则新增数据中不存在新的支持向量。一个数据违反KKT条件,总共可分为以下三种情况:
该数据被误分类,并且位于最大边界之外。
该数据被误分类,但是位于最大边界之内(之上)。
该数据被正确分类,但是位于最大边界之内。
在实现中,我们利用约减历史数据集得到的样本加上筛选后的新增样本构成新的训练集,对其进行One Class SVM训练,完成模型的迭代优化。
步骤S4、告警统计分析及可视化展示:对S3中异常检测模型检测出的异常IP在对应时间段的告警事件进行去重和统计分析并将结果可视化展示。
所述去重和多维度的统计分析,包括:告警事件,告警级别,内外网情况等;并进行可视化展示。
在态势感知系统中,采用本方法对各网络安全设备产生的告警利用单分类支持向量机异常检测模型检测异常告警,并融合安全专家经验知识,每天对异常告警进行标注反馈,同时形成告警数据资产,基于本方法的增量学习连续7天对模型进行增量迭代。最终模型识别率高达98.4%,检测效果显著。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于增量学习的异常告警识别方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:将态势感知系统中原始告警事件数据按IP聚合,生成给定时间窗口内的告警事件序列,每个IP给定时间区间内事件个数大于阈值则生成一个告警事件序列,作为异常检测样本;
步骤S2、事件序列特征提取:计算每个事件序列的统计特征,将每个IP在给定时间窗口内发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合;
步骤S3、模型的构建、增量优化及异常告警检测;
步骤S4、告警统计分析及可视化展示,对S3中异常检测模型检测出的异常IP在对应时间段的告警事件进行去重和统计分析并将结果可视化展示。
2.根据权利要求1所述的基于增量学习的异常告警识别方法,其特征在于,所述步骤S3包括:
Figure 341062DEST_PATH_IMAGE001
为初始样本集,
Figure 575734DEST_PATH_IMAGE002
为每次增量数据集
Figure 793089DEST_PATH_IMAGE003
Step1:使用One Class SVM对初始样本集
Figure 813128DEST_PATH_IMAGE004
进行训练,得到训练好的异常检测模型
Figure 457736DEST_PATH_IMAGE005
Step2:使用最近一次迭代模型
Figure 914126DEST_PATH_IMAGE006
对网络安全设备发送的告警事件进行异常告警检测;按一定频率定时反馈异常告警事件,由安全专家标注其是否是攻击,得到增量数据
Figure 184439DEST_PATH_IMAGE007
Step3:基于KKT条件筛选增量数据
Figure 42673DEST_PATH_IMAGE008
,得到增量样本
Figure 858183DEST_PATH_IMAGE009
,如果
Figure 818179DEST_PATH_IMAGE010
为空,则分类效果好,本次不需要重新训练模型,将
Figure 111758DEST_PATH_IMAGE011
加入到最近一次的样本集
Figure 90078DEST_PATH_IMAGE012
中,得到该次迭代样本
Figure 76488DEST_PATH_IMAGE013
,该次迭代模型不变
Figure 756737DEST_PATH_IMAGE014
,转到Step2继续检测,如果
Figure 119586DEST_PATH_IMAGE015
不为空,进行下一步;
Step4:基于改进超球算法约减最近一次模型的样本集
Figure 686833DEST_PATH_IMAGE016
,得到历史样本
Figure 594877DEST_PATH_IMAGE017
,将历史样本
Figure 778734DEST_PATH_IMAGE018
和增量样本
Figure 414115DEST_PATH_IMAGE019
组合得到新的迭代训练样本集
Figure 616295DEST_PATH_IMAGE020
Step5:使用One Class SVM对迭代训练样本集
Figure 944508DEST_PATH_IMAGE021
进行训练,得到增量迭代后的异常检测模型
Figure 84502DEST_PATH_IMAGE022
Step6:按预设频率定时重复步骤Step2-5,持续更新异常检测模型并对网络安全设备发送的告警事件进行异常告警检测。
3.根据权利要求1所述的基于增量学习的异常告警识别方法,其特征在于,所述步骤S1中,态势感知系统汇聚各网络安全设备发送的告警事件,对每个IP的告警事件进行聚合,生成给定时间窗口内的告警事件序列,作为异常检测的样本,具体为:给定时间区间和滑动时间窗口,对日志中的安全告警事件根据源IP或者目的IP的发生时间进行排序,以最小时间戳为起点,当时间区间内的事件个数大于给定最小值即生成为一个事件序列,当前起点时间向后滑动一个事件窗口,继续生成事件序列,直到循环结束,将告警事件序列集合作为异常检测样本。
4.根据权利要求1所述的基于增量学习的异常告警识别方法,其特征在于,所述步骤S2具体为:得到异常检测样本后,计算样本中每个事件序列的统计特征,包括:告警数量,告警种类数量,高危告警数量,高危告警种类,对端IP数量,IP内外网属性,告警时间间隔,通过计算上述统计特征,将每个IP某段时间发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合。
5.根据权利要求1所述的基于增量学习的异常告警识别方法,其特征在于,所述步骤S4中,所述去重和多维度的统计分析包括:告警事件,告警级别,内外网情况;并进行可视化展示。
6.一种基于增量学习的异常告警识别装置,其特征在于,包括:
数据预处理模块:将态势感知系统中原始告警事件数据按IP聚合,生成给定时间窗口内的告警事件序列,每个IP给定时间区间内事件个数大于阈值则生成一个告警事件序列,作为异常检测样本;
事件序列特征提取模块:计算每个事件序列的统计特征,将每个IP在给定时间窗口内发生的安全事件转化为一个特征向量,得到异常检测样本的特征向量集合;
检测模块:模型的构建、增量优化及异常告警检测;
分析模块:告警统计分析及可视化展示,对S3中异常检测模型检测出的异常IP在对应时间段的告警事件进行去重和统计分析并将结果可视化展示。
7.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的基于增量学习的异常告警识别方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于增量学习的异常告警识别方法。
CN202110658075.9A 2021-06-15 2021-06-15 基于增量学习的异常告警识别方法、装置、服务器和存储介质 Pending CN113259379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110658075.9A CN113259379A (zh) 2021-06-15 2021-06-15 基于增量学习的异常告警识别方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110658075.9A CN113259379A (zh) 2021-06-15 2021-06-15 基于增量学习的异常告警识别方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN113259379A true CN113259379A (zh) 2021-08-13

Family

ID=77188108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110658075.9A Pending CN113259379A (zh) 2021-06-15 2021-06-15 基于增量学习的异常告警识别方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN113259379A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743512A (zh) * 2021-09-07 2021-12-03 上海观安信息技术股份有限公司 一种安全告警事件自主学习判定方法及系统
CN113806180A (zh) * 2021-09-23 2021-12-17 腾云悦智科技(深圳)有限责任公司 一种无监督智能降噪处理方法
CN115001954A (zh) * 2022-05-30 2022-09-02 广东电网有限责任公司 一种网络安全态势感知方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及系统
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
US20210133742A1 (en) * 2019-10-30 2021-05-06 VocaLink Limited Detection of security threats in a network environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210133742A1 (en) * 2019-10-30 2021-05-06 VocaLink Limited Detection of security threats in a network environment
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及系统
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张文兴等: "基于KKT和超球结构的增量SVM算法的云架构入侵检测系统", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743512A (zh) * 2021-09-07 2021-12-03 上海观安信息技术股份有限公司 一种安全告警事件自主学习判定方法及系统
CN113806180A (zh) * 2021-09-23 2021-12-17 腾云悦智科技(深圳)有限责任公司 一种无监督智能降噪处理方法
CN115001954A (zh) * 2022-05-30 2022-09-02 广东电网有限责任公司 一种网络安全态势感知方法、装置及系统

Similar Documents

Publication Publication Date Title
Tuor et al. Overcoming noisy and irrelevant data in federated learning
CN111585997B (zh) 一种基于少量标注数据的网络流量异常检测方法
Farahnakian et al. A deep auto-encoder based approach for intrusion detection system
Anton et al. Anomaly-based intrusion detection in industrial data with SVM and random forests
CN113259379A (zh) 基于增量学习的异常告警识别方法、装置、服务器和存储介质
CA3054573C (en) Processing pipeline for monitoring information systems
Abdelaty et al. DAICS: A deep learning solution for anomaly detection in industrial control systems
CN112800116B (zh) 一种业务数据的异常检测方法及装置
US11509674B1 (en) Generating machine learning data in salient regions of a feature space
CN112134862B (zh) 基于机器学习的粗细粒度混合网络异常检测方法及装置
JPWO2019138655A1 (ja) モデル学習装置、モデル学習方法、及びプログラム
CN117041019B (zh) 内容分发网络cdn的日志分析方法、装置及存储介质
CN115718861A (zh) 高耗能行业中用电用户的分类与异常行为监测方法及系统
CN115514581B (zh) 一种用于工业互联网数据安全平台的数据分析方法及设备
CN116956282A (zh) 基于网络资产内存时间序列多特征数据的异常检测系统
CN111340196A (zh) 对抗网络数据生成方法以及异常事件检测方法
CN115033893A (zh) 一种改进型聚类算法的信息漏洞数据分析方法
CN110955811B (zh) 基于朴素贝叶斯算法的电力数据分类方法及系统
CN109978038B (zh) 一种集群异常判定方法及装置
CN115438239A (zh) 一种自动化异常样本筛选的异常检测方法及装置
Scheffel et al. Data confidence applied to wind turbine power curves
CN112099477B (zh) 一种锂离子电池生产过程中的故障溯源方法
Murugesan et al. Mitigating Missing Rate and Early Cyberattack Discrimination Using Optimal Statistical Approach with Machine Learning Techniques in a Smart Grid
CN116668134A (zh) 基于在线学习的内部威胁行为检测方法
CN115115245A (zh) 一种基于Gauss-Adaboost的智能电表评价分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication