CN117216660A - 基于时序网络流量集成异常点和异常集群检测方法及装置 - Google Patents
基于时序网络流量集成异常点和异常集群检测方法及装置 Download PDFInfo
- Publication number
- CN117216660A CN117216660A CN202311180246.7A CN202311180246A CN117216660A CN 117216660 A CN117216660 A CN 117216660A CN 202311180246 A CN202311180246 A CN 202311180246A CN 117216660 A CN117216660 A CN 117216660A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- data
- network traffic
- initial
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 349
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000010354 integration Effects 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 323
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 242
- 230000005856 abnormality Effects 0.000 claims abstract description 102
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000003064 k means clustering Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000007619 statistical method Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 abstract description 6
- 238000013450 outlier detection Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Abstract
本申请公开了基于时序网络流量集成异常点和异常集群检测方法及装置,涉及网络安全领域,包括:对目标网络流量数据标注得到网络流量数据集;构建初始网络流量异常检测模型并训练;分别利用训练后异常检测模型的孤立森林算法和局部离群因子算法检测全局异常点和局部异常点;分别利用密度聚类算法和K均值聚类算法检测非球形簇异常集群和球形簇异常集群;根据异常点和异常集群确定初始模型参数的置信度权值并调整初始模型参数得到目标模型参数,以基于目标模型参数构建目标网络流量异常检测模型检测待检测网络流量。通过多种检测算法针对性地对网络流量异常点和异常集群进行检测,提高了复杂网络攻击场景时序网络流量异常检测的鲁棒性和泛化性。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种基于时序网络流量集成异常点和异常集群检测方法及装置。
背景技术
关键信息基础设施是国家至关重要的资产,一旦遭到破坏、丧失功能或者数据泄漏,不仅将可能导致财产损失,还将严重影响经济社会的平稳运行。因此,利用一些技术手段来维护网络的安全,维护国家网络空间主权尤为必要。随着网络攻击的复杂化、自动化、智能化水平的不断提高,网络中不断涌现出新的攻击类型,网络攻击已经呈现出规模扩大、种类繁多的趋势,使得传统的单一模型在网络流量异常检测中存在着一定的局限性和挑战。网络流量异常检测的重要性在于它可以帮助及时发现和识别恶意攻击行为,如入侵、DoS(Denial of service,拒绝服务)攻击等,从而采取相应的防御措施并保护网络的安全运行。而传统的单一模型在面对复杂多变的网络环境时,往往容易受到噪声数据的干扰,无法有效处理大规模的网络流量数据,导致检测准确性和效率的下降。
时序网络流量异常检测对于实时监控和分析网络中的数据流量,及时发现各种网络攻击行为起着至关重要的作用。为了克服上述问题,目前已有很多基于深度学习的网络流量异常检测的方式。但是基于卷积注意力机制的全局流量数据包挖掘方法在局部异常流量检测方面容易产生误差。堆叠降噪自编码器算法模型、长短期记忆网络算法模型、基于残差网络改进的异常流量入侵检测模型以及基于反向训练自编码器的方法对数据的依赖性较强,在不同网络攻击场景下的流量特征分布差异导致其异常检测效果不佳,利用深度学习模型在异常流量检测方面的可解释性较差,并且需要大量数据进行训练。使用随机森林进行网络流量异常检测时,数据不平衡会导致效果较差,而网络流量数据的特征和维度较多,难以建模较好的随机森林模型。基于密度峰值聚类算法的网络异常流量检测方法在模型密度参数敏感性和泛化性方面存在一定问题。TODS(Time-series Outlier DetectionSystem)对网络领域的先验知识依赖较高,并且系统异常检测算法中对参数选择敏感,并且TODS对时序数据的质量要求较高,而在真实场景下,网络流量数据的质量参差不齐,这可能导致网络流量异常检测效果不佳。综上所述,目前的网络流量异常检测方法皆受限于其模型算法的局限性,因此,如何设计一种更加通用的网络流量异常检测方法,以改善异常检测的效果是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于时序网络流量集成异常点和异常集群检测方法及装置,通过多种检测算法针对性地对网络流量中的异常点和异常集群进行检测,提高了在复杂网络攻击场景下时序网络流量异常检测的鲁棒性和泛化性,并且通过集成网络流量数据异常点和异常集群的检测方式,结合参数调优和集成方法,能够有效地对网络流量进行异常检测。其具体方案如下:
第一方面,本申请提供了一种基于时序网络流量集成异常点和异常集群检测方法,包括:
采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集;
根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型;
分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点;
分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群;
根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。
可选的,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
确定所述标签化数据的网络流量数据的异常数据占比,并根据所述异常数据占比利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
根据处理后的网络流量数据确定初始孤立森林异常检测算法的异常比例,以基于所述异常比例确定所述初始网络流量异常检测模型的目标孤立森林异常检测算法。
可选的,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
根据处理后的网络流量数据确定初始局部离群因子异常检测算法的异常比例和异常簇数量,以基于所述异常比例和所述异常簇数量确定所述初始网络流量异常检测模型的目标局部离群因子异常检测算法。
可选的,所述分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,包括:
将所述网络流量数据集的标签化数据中的网络流量数据基于预设数据划分规则划分为若干组目标数据;
利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法,分别并行检测所述若干组目标数据中相应的全局异常点和局部异常点;
其中,所述若干组目标数据为若干组时间窗口数据或若干组子序列数据。
可选的,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
确定所述标签化数据中的网络流量数据的领域密度,并根据所述领域密度利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
根据处理后的网络流量数据确定初始密度聚类算法的扫描半径和簇类样本数量,以基于所述扫描半径和所述簇类样本数量确定所述初始网络流量异常检测模型的目标密度聚类算法。
可选的,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
确定所述标签化数据的网络流量数据的异常数据占比,并基于所述异常数据占比、预设攻击场景对应的预设聚类个数列表和所述目标密度聚类算法确定初始K均值聚类算法的聚类个数,以基于所述聚类个数确定所述初始网络流量异常检测模型的目标K均值聚类算法。
可选的,所述根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,包括:
根据检测出的所述网络流量异常点确定所述初始网络流量异常检测模型的F-beta值和混淆矩阵,以根据所述F-beta值和所述混淆矩阵确定所述初始网络流量异常检测模型的第一模型参数;
根据所述F-beta值和所述混淆矩阵确定所述初始网络流量异常检测模型的第一置信度权值,并根据所述第一置信度权值调整所述初始网络流量异常检测模型的初始模型参数得到第二模型参数;
根据检测出的所述网络流量异常集群确定所述初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数,以确定所述初始网络流量异常检测模型的第三模型参数;
根据所述初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数确定所述初始网络流量异常检测模型的第二置信度权值,并根据所述第二置信度权值调整所述初始网络流量异常检测模型的初始模型参数得到第四模型参数;
根据所述第一模型参数、所述第二模型参数、所述第三模型参数和所述第四模型参数确定目标模型参数;
相应的,所述利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量,包括:
利用所述目标网络流量异常检测模型确定所述待检测网络流量的网络流量异常点和网络流量异常集群,并确定所述网络流量异常点的第一异常分数和所述网络流量异常集群的第二异常分数,以根据所述第一异常分数、所述第二异常分数、所述第一置信度权值和所述第二置信度权值确定所述待检测网络流量的目标异常分数。
第二方面,本申请提供了一种基于时序网络流量集成异常点和异常集群检测装置,包括:
数据处理模块,用于采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集;
模型训练模块,用于根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型;
异常点检测模块,用于分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点;
异常集群检测模块,用于分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群;
参数调整模块,用于根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。
可选的,所述模型训练模块,还包括:
第二数据处理单元,用于确定所述标签化数据中的网络流量数据的领域密度,并根据所述领域密度利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
第三算法确定单元,用于根据处理后的网络流量数据确定初始密度聚类算法的扫描半径和簇类样本数量,以基于所述扫描半径和所述簇类样本数量确定所述初始网络流量异常检测模型的目标密度聚类算法。
可选的,所述模型训练模块,还包括:
第四算法确定单元,用于确定所述标签化数据的网络流量数据的异常数据占比,并基于所述异常数据占比、预设攻击场景对应的预设聚类个数列表和所述目标密度聚类算法确定初始K均值聚类算法的聚类个数,以基于所述聚类个数确定所述初始网络流量异常检测模型的目标K均值聚类算法。
第三方面,本申请提供了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述的基于时序网络流量集成异常点和异常集群检测方法。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的基于时序网络流量集成异常点和异常集群检测方法。
本申请采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集;根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型;分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点;分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群;根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。通过多种检测算法针对性地对网络流量中的异常点和异常集群进行检测,提高了在复杂网络攻击场景下时序网络流量异常检测的鲁棒性和泛化性,并且通过集成网络流量数据异常点和异常集群的检测方式,结合参数调优和集成方法,能够有效地对网络流量进行异常检测,相比于目前的异常检测方法,通过结合不同的异常检测算法,能够更全面地分析和监测网络流量,提高对异常行为的敏感度,并及时作出响应,有利于保护网络的安全性和稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种基于时序网络流量集成异常点和异常集群检测方法流程图;
图2为本申请提供的一种基于时序网络流量集成异常点和异常集群检测方法实施流程图;
图3为本申请提供的一种网络流量异常检测结果示意图;
图4为本申请提供的一种网络流量异常检测模型迭代示意图;
图5为本申请提供的一种具体的网络流量异常检测模型训练方法流程图;
图6为本申请提供的一种基于时序网络流量集成异常点和异常集群检测装置结构示意图;
图7为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前网络攻击已经呈现出规模扩大、种类繁多的趋势,使得传统的单一模型在网络流量异常检测中存在着一定的局限性和挑战。传统的单一模型在面对复杂多变的网络环境时,往往容易受到噪声数据的干扰,无法有效处理大规模的网络流量数据,导致检测准确性和效率的下降。本申请通过多种检测算法针对性地对网络流量中的异常点和异常集群进行检测,提高了在复杂网络攻击场景下时序网络流量异常检测的鲁棒性和泛化性,并且通过集成网络流量数据异常点和异常集群的检测方式,结合参数调优和集成方法,能够有效地对网络流量进行异常检测。
参见图1所示,本发明实施例公开了一种基于时序网络流量集成异常点和异常集群检测方法,包括:
步骤S11、采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集。
本实施例中,首先需要根据预先配置的数据采集层对当前场景的初始网络流量数据进行采集,上述网络流量数据包括时序网络流量、设备资产以及外部知识库ATT&CK(Adversarial Tactics、Techniques and Common Knowledge,即敌对策略、技术与通用知识)指标数据。并且通过数据清洗、处理缺失值、属性规约、数据降维和归一化处理的预设数据处理流程对采集到的指标数据特征进行预处理。需要指出的是,为了进一步实现自动化标注,需要将上述网络流量、设备资产和外部知识库ATT&CK指标进行数据集成,具体可以使用Doccano数据标注工具对数据进行标记得到当前场景的网络流量数据集,并将标记好的网络流量数据集划分为训练集、标签化数据和测试集。上述ATT&CK为ATT&CK矩阵,是一个用于描述和分类威胁行为的框架,该矩阵列举了各种不同类型的攻击者可能使用的战术(Tactics)和技术(Techniques),并提供了详细的描述和示例,可以帮助安全专业人员理解和对抗这些威胁。
步骤S12、根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型。
本实施例中,可以利用孤立森林异常检测算法(IForset算法,IsolationForest)、局部离群因子异常检测算法(LOF算法,Local Outlier Factor)、密度聚类算法(DBScan算法,Density-Based Spatial Clustering of Applications with Noise)和K均值聚类算法(K-means算法)构建初始网络流量异常检测模型,并利用网络流量数据集中的训练集训练初始网络流量异常检测模型得到训练后异常检测模型,上述训练后异常检测模型中对应的算法即为确定后的对应的目标异常检测算法。
步骤S13、分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点。
本实施例中,在对网络流量数据的异常点检测中,可以分别利用训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据全局异常点和局部异常点得到当前场景的网络流量异常点。
针对全局异常点检测,可以使用IForset算法实现;针对局部异常点检测,选用LOF算法针对局部特征异常点检测,并且需要指出的是,在检测网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常时,首先可以将网络流量数据集的标签化数据中的网络流量数据基于预设数据划分规则划分为若干组目标数据;然后利用训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法,分别并行检测若干组目标数据中相应的全局异常点和局部异常点;其中,上述若干组目标数据为若干组时间窗口数据或若干组子序列数据。通过将数据分为多个时间窗口或子序列,然后并行地应用IForset算法和LOF算法进行异常点检测。IForset算法可以在全局范围内快速检测出整体上的异常点,而LOF算法则更适用于局部异常点的检测,通过并行处理每个时间窗口或子序列,可以加速异常点检测过程,充分利用计算资源,提高时序网络流量异常点检测的效率。同时,结合IForset和LOF算法的优势,可以更好地捕获全局和局部的异常点,提高检测的准确性。
步骤S14、分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群。
本实施例中针对非球形簇异常集群检测,选用DBScan算法对非球状簇特征异常集群检测;针对球形簇异常集群检测,选用K-means算法对球状簇特征异常集群检测。分别利用训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据非球形簇异常集群和球形簇异常集群得到当前场景的网络流量异常集群。
可以理解的是,对于网络流量异常集群检测DBScan算法是一种基于密度的聚类算法,可用于识别非球型簇异常集群,通过定义邻域密度和核心对象来确定簇,并将密度可达的数据点归为同一个簇。DBScan算法可以有效地发现任意形状的簇,适用于网络流量数据分布不规则的情况。而K-means算法是一种基于距离的聚类算法,可以用于捕获球型簇异常集群,可以将数据点划分为具有相似特征的簇,通过最小化簇内数据点之间的平方距离来优化聚类结果,实现K-means算法对球形簇异常的检测。因此,将DBScan算法用于捕获非球型簇异常集群,结合K-means算法用于捕获球型簇异常集群,可以提高网络流量异常集群检测的准确性和适应性。
如图2所示,本实施例中结合上述步骤S13,为了应对不同网络攻击场景下的网络流量异常检测,集成了异常点检测方法(IForset、LOF)和异常集群检测方法(DBScan、K-means),根据数据处理层划分的训练集、标签化数据和测试集进行建模。在训练集中,利用上述算法对对应的异常点或异常数据进行建模,然后可以通过数据分布初始化模型参数,以在标签化数据中评估建模效果。
步骤S15、根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。
本实施例中,通过网络流量数据集的标签化数据调整初始网络流量异常检测模型的初始模型参数,以得到最终的检测模型。可以根据检测出的异常点和异常集群确定初始网络流量异常检测模型的初始模型参数的置信度权值,并根据置信度权值调整初始模型参数,具体的:
首先根据检测出的网络流量异常点确定初始网络流量异常检测模型的F-beta值和混淆矩阵,以根据F-beta值和混淆矩阵确定初始网络流量异常检测模型的第一模型参数;然后根据F-beta值和混淆矩阵确定初始网络流量异常检测模型的第一置信度权值,并根据第一置信度权值调整初始网络流量异常检测模型的初始模型参数得到第二模型参数。在异常点检测方面,根据数据处理层划分的训练集、标签化数据和测试集进行建模。在训练集中,利用IForset算法对全局异常点进行建模,并使用LOF算法对局部异常点进行建模。然后通过数据分布初始化模型参数,并在标签化数据中评估建模效果。通过比较模型识别出的异常点与自动化标注的异常点,计算F-beta值和混淆矩阵,以确定保留当前的异常点检测模型参数。然后,根据F-beta算法得出当前参数下的置信度权值,并通过模型的迭代选优来选择最佳的异常点模型参数。这样可以自适应调整不同算法模型的置信度权值。
对于异常集群,首先根据检测出的网络流量异常集群确定初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数,以确定初始网络流量异常检测模型的第三模型参数;然后根据初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数确定初始网络流量异常检测模型的第二置信度权值,并根据第二置信度权值调整初始网络流量异常检测模型的初始模型参数得到第四模型参数。基于上述参数,根据第一模型参数、第二模型参数、第三模型参数和第四模型参数确定目标模型参数。针对异常集群检测,在训练集中采用DBScan算法进行非球形簇的异常集群检测,同时使用K-means算法对球形簇的异常集群进行检测,并评估建模效果。通过比较模型识别出的异常点与自动化标注的异常点,计算准确率、召回率、F1值以及聚簇轮廓系数,以确定保留当前的异常集群检测模型参数。然后,根据准确率、召回率、F1值算法自适应调整不同算法模型的置信度权值,并通过模型的迭代选优来选择最佳的异常集群模型参数。
可以理解的是,确定目标模型参数后,可以利用目标网络流量异常检测模型确定待检测网络流量的网络流量异常点和网络流量异常集群,并确定网络流量异常点的第一异常分数和网络流量异常集群的第二异常分数,以根据第一异常分数、第二异常分数、第一置信度权值和第二置信度权值确定待检测网络流量的目标异常分数,可以理解的是,由于网络流量异常点在本实施例中由相应的全局异常点检测算法和局部异常点检测算法确定,因此上述第一异常分数中包括两个对应的异常分数,相应的,上述第二异常分数、第一置信度权值和第二置信度权值中也包括对应的两个异常分数或权值。具体的,上述目标异常分数K为:
其中,n为异常分数和置信度权值对应的数量,本实施例中n即为4。Zi是目标网络流量异常检测模型输出的异常分数,由于本实施例的集成学习利用4种算法进行两两集成,因此从异常点角度集成,Z0是IForset算法产生的异常分数,Z1是LOF算法产生的异常分数;从异常集群角度集成,Z2是DBScan算法产生的异常分数,Z3是K-means产生的异常分数;同理相应的Wi是各网络流量异常检测的置信度权值。
需要指出的是,如图3所示,本实施例中采用Bagging(Bootstrap Aggregating,引导聚集算法)集成方法,将异常点检测和异常集群检测算法相结合进行时序网络流量的检测。利用Bagging(Bootstrap Aggregating)算法通过对训练集的有放回采样(bootstrap采样),生成多个不同的子训练集,然后针对每个子训练集训练一个基本分类器,最后对基本分类器的预测结果进行集成,通过构建多个基本分类器并对预测结果进行聚合,可以提高模型的稳定性和泛化能力。并且为了确保各个算法能够达到最佳性能,采用了自适应的参数调整方法。并且在计算目标异常分数时,由于不同异常点和异常集群算法所产生的异常分数Z具有不同的含义,需要对其进行标准化和归一化处理。首先,对异常分数Z进行了标准化和归一化处理,以确保它们具有相同的尺度和范围,这样一来,可以使得来自不同算法的异常分数具备可比性,并且更容易进行加权求和。然后采用标签化数据中的F1值对置信度权重W进行归一化处理,通过上述归一化处理,可以将权重限制在合理的范围内,以确保算法模型权重的总和等于1,这样可以更好地控制不同算法在最终结果中的贡献程度。最后,将异常分数Z和置信度权重W进行了加权求和,得到了最终的目标异常分数K。目标异常分数K是综合考虑了每个算法的异常检测结果以及它们的置信度权重,从而能够更准确地评估时序网络流量的异常情况,通过这种集成方法,可以更全面、更准确地检测时序网络流量中的异常现象。通过集成学习的方式整合多个模型或算法的优势,它能够提高异常检测性能、减少误报率,并有效处理大规模网络流量数据。并且如图4所示,为了获得最优的异常点检测算法和异常集群检测算法,采用迭代和自适应的方法,通过不断地迭代和调整算法的参数,找到每个算法的最佳配置,提高异常检测的性能,并且使用集成学习的Bagging方法将多个异常检测算法的预测结果综合起来,从而可以降低个别算法的偏差和方差,提高网络流量异常检测的准确性和稳定性。
在另一种实施例中,可以理解的是,还可以在集成异常点和异常集群检测过程使用Boost集成方式检测。对于异常点检测,采用IForset算法对网络流量全局异常点检测,将IForset训练过程中特征克隆为两部分,一部分做为LOF算法局部异常点检测的特征输入,另一部分作为IForset算法的参数自适应优化,同样将LOF算法训练过程中特征克隆为两部分,一部分做为异常点检测的异常分数,另一部分自身LOF算法参数自适应优化。对于异常集群检测,采用DBScan算法对网络流量非球形簇集群检测,将DBScan训练过程中特征克隆为两部分,一部分作为DBScan算法的参数自适应优化,一部分做为K-means算法局部异常点检测的特征输入,由于需要K-means算法需要预先设定k值(簇个数),根据DBScan算法聚类个数,给K-means算法的核心聚簇个数k设置领域,再根据轮廓系数来评估聚簇效果,从而最终选出最优k值,K-Means算法输出异常分数。
通过上述技术方案,本实施例针对不同网络攻击场景下集成异常点和异常集群方式进行时序网络流量数据异常检测。根据数据采集层对不同网络场景网络流量,设备资产以及外部知识库ATT&CK等指标数据进行采集,通过对采集指标数据进行数据清洗,缺失值处理,数据降维,归一化处理。将处理好的指标数据进行自动化打标签,划分训练集,标签化数据以及测试集,对不同攻击场景下网络流量展现不同特征,从网络流量异常点检测方面,以IForset算法捕获全局网络流量数据的异常点,再利用LOF算法捕获局部网络流量数据的异常点;从网络流量异常集群检测方面,以DBScan算法捕获网络流量数据非球簇异常集群,再利用K-means去捕获网络流量数据球簇异常集群。集成网络流量数据异常点和异常集群方式,通过迭代过程中从训练集自适应获取当前算法最优参数,同时将标签化数据的结果自适应获取算法置信度权值,将最优参数迭代层各算法的最优参数以及置信度进行召回,采用Bagging集成方式将多个算法相结合,从而得出网络流量异常分数,并进行异常分数置信度权值迭代优化,最终对网络流量进行检测,提高了在复杂网络攻击场景下时序网络流量异常检测的鲁棒性和泛化性,结合参数调优和集成方法,能够有效地对网络流量进行异常检测。
基于上一实施例可知,本申请可以根据通过多种检测算法针对性地对网络流量中的异常点和异常集群进行检测,接下来,本实施例中将对基于上述算法进行网络流量异常检测模型训练的过程进行详细地阐述。参见图5所示,本发明实施例公开了一种网络流量异常检测模型训练方法,包括:
步骤S21、确定标签化数据的网络流量数据的异常数据占比,并根据所述异常数据占比利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;根据处理后的网络流量数据确定初始孤立森林异常检测算法的异常比例,以基于所述异常比例确定初始网络流量异常检测模型的目标孤立森林异常检测算法。
本实施例中,针对全局异常点检测,可以使用IForset算法实现。首先,根据数据集的异常占比,可以利用箱线图、正态分布以及Z-score统计方法来预处理数据,确定IForest算法的核心参数Contamination(异常比例)。在使用IForset算法对网络流量数据集进行全局特征异常点检测时,随机选择一个特征x(例如网络流量、设备资产以及ATT&CK战术特征),在该特征的最小值和最大值之间随机选择一个切割点,将训练样本分成左子树和右子树。对于左子树和右子树,重复上述步骤,直到达到最大深度H或只有单个样本点为止。在此过程中,通过计算二叉搜索树的失败查找的平均搜索长度得到c(n)。根据IForset森林设置异常分数阈值,计算节点x在多棵孤立树上的路径长度h(x)的期望值,并最终得出节点x的异常分数s(x,n)。可以理解的是,如果节点的异常分数大于异常分数阈值,则将该节点判定为网络流量数据的全局异常点。上述异常分数s(x,n)的计算如下公式所示:
其中,由于孤立森林是对子样本切割成树进行训练,所以对每一个子样本生成一个树,h(x)为x在每棵树的高度,E(h(x))为x在每棵树高度的平均值,c(n)为给定样本数n时,所有样本路径长度(或者高度)的平均值,用来对样本x的路径长度h(x)进行标准化处理。对于异常分数的判断,例如:得分接近1时,路径长度非常小,数据点很容易被孤立,得到一个异常点;当得分小于0.5时,路径长度就会变大,然后得到一个正常的数据点;如果所有的观察结果都有0.5左右的异常值,那么没有异常。通过孤立森林可以通过计算每棵树的异常得分,并在孤立树之间进行平均,通常情况下,异常点具有较短的路径长度,因为相对于正常点而言,在树中的分割更容易实现,可以在比正常观测更少的步骤中隔离异常。基于上述步骤可以对IForset算法进行训练,以便使用IForset算法进行全局特征异常点检测,准确地识别网络流量数据中的全局异常点。
步骤S22、根据处理后的网络流量数据确定初始局部离群因子异常检测算法的异常比例和异常簇数量,以基于所述异常比例和所述异常簇数量确定所述初始网络流量异常检测模型的目标局部离群因子异常检测算法。
本实施例中针对局部异常点检测,选用LOF算法针对局部特征异常点检测,首先根据数据集异常数据占比,利用箱线图,正态分布以及Z-score统计方法,预先初始化设置LOF算法核心参数Contamination(异常比例),n_neighbors(异常簇数量),利用LOF算法对网络流量数据集进行局部特征异常点检测,将数据集中网络流量,设备资产以及ATT&CK战术特征进行融合,根据选择的欧式距离,计算每个数据样本与其相邻k个数据样本之间的距离,基于该距离对于每个数据样本p,计算其局部可达密度(lrd(p)),其中,rdist是数据样本之间的可达距离,然后从局部可达密度计算得到的结果中,可以得到数据局部离群因子(lof(p))阈值。
如果一个样本点的密度相对较低,但其周围邻居样本点的密度较高,则该样本点被认为是一个异常点,LOF考虑了该点与邻域内其他点的相对密度差异,密度差异值越大表示越有可能是网络流量局部异常点。通过LOF算法能够发现不符合正常模式的局部异常点,及时发现潜在的安全威胁,以便采取相应的防御措施。
综上所述,采用全局范围内的IForset算法和局部范围内的LOF算法进行异常点捕获。通过IForset算法,能够高效地检测出整体异常点;而LOF算法则在局部范围内考虑数据点的相互关系,利用局部密度评估异常程度。综合应用全局和局部异常点检测的优势,可以在不同网络攻击场景中实现了精确、可靠的网络流量异常点检测。
步骤S23、确定所述标签化数据中的网络流量数据的领域密度,并根据所述领域密度利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;根据处理后的网络流量数据确定初始密度聚类算法的扫描半径和簇类样本数量,以基于所述扫描半径和所述簇类样本数量确定所述初始网络流量异常检测模型的目标密度聚类算法。
本实施例中根据DBScan算法对非球形簇特征异常集群检测,首先根据数据领域密度,首先利用梳理统计方法线箱图,正态分布以及Z-score方法来初始化设置DBScan算法核心参数eps(半径),min_samples(簇类样本数量),然后基于半径和簇类样本数量确定初始网络流量异常检测模型的目标密度聚类算法。在后续进行检测的过程中,可以利用DBScan算法对网络流量数据集进行非球形簇异常集群检测,将样本数据特征(网络流量,设备资产以及ATT&CK战术特征)向量化,选择一个未分类的数据点作为当前时刻核心点,以核心点画圆,计算当前核心点的ε-邻域内的所有数据点个数,如果最小数据点个数小于MinPts,则将当前核心点标记为异常点,将当前核心点标记为已访问,并创建一个新的簇,对于当前核心点的ε-邻域内的所有未访问数据点,如果该点是核心点,则将其ε-邻域内的所有数据点添加到新的簇中,不断重复上述操作,直到当前核心点的ε-邻域内没有未访问的核心点,直到所有的数据点都被访问过,得到的每个簇即为聚类结果,而未被分类的数据点按照网络流量数据特征聚成簇,进而被标记为异常集群。
通过DBSCAN聚类算法,可以将数据集中的样本点划分为不同的簇,并且识别出异常,具有对噪声数据鲁棒性强的特点,有利于将发现的网络攻击或点周围的邻域密度划分到不同入侵。
步骤S24、确定所述标签化数据的网络流量数据的异常数据占比,并基于所述异常数据占比、预设攻击场景对应的预设聚类个数列表和所述目标密度聚类算法确定初始K均值聚类算法的聚类个数,以基于所述聚类个数确定所述初始网络流量异常检测模型的目标K均值聚类算法。
本实施例中针对球形簇异常集群检测,选用K-means算法对球形簇特征异常集群检测,首先根据数据异常占比,根据不同网络攻击场景,如DDOS攻击,木马攻击,漏洞利用等网络攻击场景,结合DBScan算法中聚簇个数以及其不同网络攻击场景的k值列表来初始化设置DBScan算法核心参数k(聚类个数),并基于聚类个数确定初始网络流量异常检测模型的目标K均值聚类算法。在后续进行检测异常时,随机选择k个数据点作为初始聚类中心,对于每个数据点,计算其与每个聚类中心之间的距离,并将该数据点分配给距离最近的聚类中心所属的簇,对于每个簇,计算其所有数据点的平均值,将该平均值作为新的聚类中心,直到簇中心不再改变或达到预定的迭代次数,最终会形成k-1个异常集群。
通过K-means算法,在将数据集中的样本点划分为K个不重叠的簇,通过迭代优化的方式,将样本点分配到最近的簇并更新簇的质心,可以最小化样本点与所属簇质心之间距离。能够有效识别出球形簇的异常集群,通过探测球形簇异常集群,及时发现潜在的安全威胁,从而采取相应缓解措施。
综上所述,针对网络流量中的异常集群,采用非球形簇的DBScan算法和球形簇的K-means算法进行异常集群捕获。通过DBScan算法,能够高效地检测出非球形簇异常集群;而K-means算法则在球形簇异常集群上能快速聚类。结合球形簇和非球形簇的密度特征来评估异常程度,实现在不同网络攻击场景中精确、可靠的网络流量异常集群检测。
步骤S25、基于所述目标孤立森林异常检测算法、所述目标局部离群因子异常检测算法、所述目标密度聚类算法和所述目标K均值聚类算法得到训练后异常检测模型。
通过上述技术方案,本实施例采用IForset算法捕获数据的全局异常点,并结合LOF算法捕获局部异常点,从而实现对时序网络流量异常点的检测。此外,引入DBScan算法捕获数据中的非球型簇异常集群,并结合K-means算法捕获数据中的球型簇异常集群,以实现对时序网络流量异常集群的检测。通过结合不同的异常检测算法,能够更全面地分析和监测网络流量,提高对异常行为的敏感度,并及时作出响应,保护网络的安全性和稳定性。
参见图7所示,本申请实施例还公开了一种基于时序网络流量集成异常点和异常集群检测装置,包括:
数据处理模块11,用于采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集;
模型训练模块12,用于根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型;
异常点检测模块13,用于分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点;
异常集群检测模块14,用于分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群;
参数调整模块15,用于根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。
本实施例中采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的初始网络流量数据进行预处理,以及利用数据标注工具对预处理后的目标网络流量数据进行标注得到网络流量数据集;根据预设异常检测算法构建初始网络流量异常检测模型,并利用网络流量数据集中的训练集训练初始网络流量异常检测模型得到训练后异常检测模型;分别利用训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据全局异常点和局部异常点得到当前场景的网络流量异常点;分别利用训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据非球形簇异常集群和球形簇异常集群得到当前场景的网络流量异常集群;根据检测出的网络流量异常点和网络流量异常集群确定初始网络流量异常检测模型的初始模型参数的置信度权值,并根据置信度权值基于预设模型调整规则调整初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。通过多种检测算法针对性地对网络流量中的异常点和异常集群进行检测,提高了在复杂网络攻击场景下时序网络流量异常检测的鲁棒性和泛化性,并且通过集成网络流量数据异常点和异常集群的检测方式,结合参数调优和集成方法,能够有效地对网络流量进行异常检测,通过结合不同的异常检测算法,能够更全面地分析和监测网络流量,提高对异常行为的敏感度,并及时作出响应,有利于保护网络的安全性和稳定性。
在一些具体实施例中,所述模型训练模块12,还包括:
第一数据处理单元,用于确定所述标签化数据的网络流量数据的异常数据占比,并根据所述异常数据占比利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
第一算法确定单元,用于根据处理后的网络流量数据确定初始孤立森林异常检测算法的异常比例,以基于所述异常比例确定所述初始网络流量异常检测模型的目标孤立森林异常检测算法。
在一些具体实施例中,所述模型训练模块12,还包括:
第二算法确定单元,用于根据处理后的网络流量数据确定初始局部离群因子异常检测算法的异常比例和异常簇数量,以基于所述异常比例和所述异常簇数量确定所述初始网络流量异常检测模型的目标局部离群因子异常检测算法。
在一些具体实施例中,所述异常点检测模块13,具体包括:
数据划分单元,用于将所述网络流量数据集的标签化数据中的网络流量数据基于预设数据划分规则划分为若干组目标数据;
异常点检测单元,用于利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法,分别并行检测所述若干组目标数据中相应的全局异常点和局部异常点;其中,所述若干组目标数据为若干组时间窗口数据或若干组子序列数据。
在一些具体实施例中,所述模型训练模块12,还包括:
第二数据处理单元,用于确定所述标签化数据中的网络流量数据的领域密度,并根据所述领域密度利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
第三算法确定单元,用于根据处理后的网络流量数据确定初始密度聚类算法的扫描半径和簇类样本数量,以基于所述扫描半径和所述簇类样本数量确定所述初始网络流量异常检测模型的目标密度聚类算法。
在一些具体实施例中,所述模型训练模块12,还包括:
第四算法确定单元,用于确定所述标签化数据的网络流量数据的异常数据占比,并基于所述异常数据占比、预设攻击场景对应的预设聚类个数列表和所述目标密度聚类算法确定初始K均值聚类算法的聚类个数,以基于所述聚类个数确定所述初始网络流量异常检测模型的目标K均值聚类算法。
在一些具体实施例中,所述参数调整模块15,具体包括:
第一参数确定单元,用于根据检测出的所述网络流量异常点确定所述初始网络流量异常检测模型的F-beta值和混淆矩阵,以根据所述F-beta值和所述混淆矩阵确定所述初始网络流量异常检测模型的第一模型参数;
第二参数确定单元,用于根据所述F-beta值和所述混淆矩阵确定所述初始网络流量异常检测模型的第一置信度权值,并根据所述第一置信度权值调整所述初始网络流量异常检测模型的初始模型参数得到第二模型参数;
第三参数确定单元,用于根据检测出的所述网络流量异常集群确定所述初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数,以确定所述初始网络流量异常检测模型的第三模型参数;
第四参数确定单元,用于根据所述初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数确定所述初始网络流量异常检测模型的第二置信度权值,并根据所述第二置信度权值调整所述初始网络流量异常检测模型的初始模型参数得到第四模型参数;
第五参数确定单元,用于根据所述第一模型参数、所述第二模型参数、所述第三模型参数和所述第四模型参数确定目标模型参数;
流量监测单元,用于利用所述目标网络流量异常检测模型确定所述待检测网络流量的网络流量异常点和网络流量异常集群,并确定所述网络流量异常点的第一异常分数和所述网络流量异常集群的第二异常分数,以根据所述第一异常分数、所述第二异常分数、所述第一置信度权值和所述第二置信度权值确定所述待检测网络流量的目标异常分数。
进一步的,本申请实施例还公开了一种电子设备,图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的网络流量异常检测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的网络流量异常检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的网络流量异常检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于时序网络流量集成异常点和异常集群检测方法,其特征在于,包括:
采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集;
根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型;
分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点;
分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群;
根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。
2.根据权利要求1所述的基于时序网络流量集成异常点和异常集群检测方法,其特征在于,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
确定所述标签化数据的网络流量数据的异常数据占比,并根据所述异常数据占比利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
根据处理后的网络流量数据确定初始孤立森林异常检测算法的异常比例,以基于所述异常比例确定所述初始网络流量异常检测模型的目标孤立森林异常检测算法。
3.根据权利要求2所述的基于时序网络流量集成异常点和异常集群检测方法,其特征在于,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
根据处理后的网络流量数据确定初始局部离群因子异常检测算法的异常比例和异常簇数量,以基于所述异常比例和所述异常簇数量确定所述初始网络流量异常检测模型的目标局部离群因子异常检测算法。
4.根据权利要求3所述的基于时序网络流量集成异常点和异常集群检测方法,其特征在于,所述分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,包括:
将所述网络流量数据集的标签化数据中的网络流量数据基于预设数据划分规则划分为若干组目标数据;
利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法,分别并行检测所述若干组目标数据中相应的全局异常点和局部异常点;
其中,所述若干组目标数据为若干组时间窗口数据或若干组子序列数据。
5.根据权利要求1所述的基于时序网络流量集成异常点和异常集群检测方法,其特征在于,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
确定所述标签化数据中的网络流量数据的领域密度,并根据所述领域密度利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
根据处理后的网络流量数据确定初始密度聚类算法的扫描半径和簇类样本数量,以基于所述扫描半径和所述簇类样本数量确定所述初始网络流量异常检测模型的目标密度聚类算法。
6.根据权利要求5所述的基于时序网络流量集成异常点和异常集群检测方法,其特征在于,所述利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型之前,还包括:
确定所述标签化数据的网络流量数据的异常数据占比,并基于所述异常数据占比、预设攻击场景对应的预设聚类个数列表和所述目标密度聚类算法确定初始K均值聚类算法的聚类个数,以基于所述聚类个数确定所述初始网络流量异常检测模型的目标K均值聚类算法。
7.根据权利要求1至6任一项所述的基于时序网络流量集成异常点和异常集群检测方法,其特征在于,所述根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,包括:
根据检测出的所述网络流量异常点确定所述初始网络流量异常检测模型的F-beta值和混淆矩阵,以根据所述F-beta值和所述混淆矩阵确定所述初始网络流量异常检测模型的第一模型参数;
根据所述F-beta值和所述混淆矩阵确定所述初始网络流量异常检测模型的第一置信度权值,并根据所述第一置信度权值调整所述初始网络流量异常检测模型的初始模型参数得到第二模型参数;
根据检测出的所述网络流量异常集群确定所述初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数,以确定所述初始网络流量异常检测模型的第三模型参数;
根据所述初始网络流量异常检测模型的准确率、召回率、F1值以及聚簇轮廓系数确定所述初始网络流量异常检测模型的第二置信度权值,并根据所述第二置信度权值调整所述初始网络流量异常检测模型的初始模型参数得到第四模型参数;
根据所述第一模型参数、所述第二模型参数、所述第三模型参数和所述第四模型参数确定目标模型参数;
相应的,所述利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量,包括:
利用所述目标网络流量异常检测模型确定所述待检测网络流量的网络流量异常点和网络流量异常集群,并确定所述网络流量异常点的第一异常分数和所述网络流量异常集群的第二异常分数,以根据所述第一异常分数、所述第二异常分数、所述第一置信度权值和所述第二置信度权值确定所述待检测网络流量的目标异常分数。
8.一种基于时序网络流量集成异常点和异常集群检测装置,其特征在于,包括:
数据处理模块,用于采集当前场景的初始网络流量数据,并基于预设数据处理流程对采集到的所述初始网络流量数据进行预处理,以及利用数据标注工具对预处理后得到的目标网络流量数据进行标注得到当前场景的网络流量数据集;
模型训练模块,用于根据预设异常检测算法构建初始网络流量异常检测模型,并利用所述网络流量数据集中的训练集训练所述初始网络流量异常检测模型得到训练后异常检测模型;
异常点检测模块,用于分别利用所述训练后异常检测模型的目标孤立森林异常检测算法和目标局部离群因子异常检测算法检测所述网络流量数据集的标签化数据中的网络流量数据的全局异常点和局部异常点,并根据所述全局异常点和所述局部异常点得到所述当前场景的网络流量异常点;
异常集群检测模块,用于分别利用所述训练后异常检测模型的目标密度聚类算法和目标K均值聚类算法检测所述网络流量数据集的标签化数据中的网络流量数据集群的非球形簇异常集群和球形簇异常集群,以根据所述非球形簇异常集群和所述球形簇异常集群得到所述当前场景的网络流量异常集群;
参数调整模块,用于根据检测出的所述网络流量异常点和所述网络流量异常集群确定所述初始网络流量异常检测模型的初始模型参数的置信度权值,并根据所述置信度权值基于预设模型调整规则调整所述初始网络流量异常检测模型的初始模型参数得到目标模型参数,以利用基于所述目标模型参数构建的目标网络流量异常检测模型检测待检测网络流量。
9.根据权利要求8所述的基于时序网络流量集成异常点和异常集群检测装置,其特征在于,所述模型训练模块,还包括:
第二数据处理单元,用于确定所述标签化数据中的网络流量数据的领域密度,并根据所述领域密度利用箱线图、正态分布和标准分数的统计方法处理所述标签化数据的网络流量数据;
第三算法确定单元,用于根据处理后的网络流量数据确定初始密度聚类算法的扫描半径和簇类样本数量,以基于所述扫描半径和所述簇类样本数量确定所述初始网络流量异常检测模型的目标密度聚类算法。
10.根据权利要求9所述的基于时序网络流量集成异常点和异常集群检测装置,其特征在于,所述模型训练模块,还包括:
第四算法确定单元,用于确定所述标签化数据的网络流量数据的异常数据占比,并基于所述异常数据占比、预设攻击场景对应的预设聚类个数列表和所述目标密度聚类算法确定初始K均值聚类算法的聚类个数,以基于所述聚类个数确定所述初始网络流量异常检测模型的目标K均值聚类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311180246.7A CN117216660A (zh) | 2023-09-12 | 2023-09-12 | 基于时序网络流量集成异常点和异常集群检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311180246.7A CN117216660A (zh) | 2023-09-12 | 2023-09-12 | 基于时序网络流量集成异常点和异常集群检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216660A true CN117216660A (zh) | 2023-12-12 |
Family
ID=89038379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311180246.7A Pending CN117216660A (zh) | 2023-09-12 | 2023-09-12 | 基于时序网络流量集成异常点和异常集群检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216660A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407661A (zh) * | 2023-12-14 | 2024-01-16 | 深圳前海慧联科技发展有限公司 | 一种用于设备状态检测的数据增强方法 |
CN117421684A (zh) * | 2023-12-14 | 2024-01-19 | 易知谷科技集团有限公司 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
CN117633665A (zh) * | 2024-01-26 | 2024-03-01 | 深圳市互盟科技股份有限公司 | 一种网络数据监控方法及系统 |
CN117714215A (zh) * | 2024-02-06 | 2024-03-15 | 江苏开博科技有限公司 | 实时网络威胁检测方法及功能设备 |
-
2023
- 2023-09-12 CN CN202311180246.7A patent/CN117216660A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407661A (zh) * | 2023-12-14 | 2024-01-16 | 深圳前海慧联科技发展有限公司 | 一种用于设备状态检测的数据增强方法 |
CN117421684A (zh) * | 2023-12-14 | 2024-01-19 | 易知谷科技集团有限公司 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
CN117407661B (zh) * | 2023-12-14 | 2024-02-27 | 深圳前海慧联科技发展有限公司 | 一种用于设备状态检测的数据增强方法 |
CN117421684B (zh) * | 2023-12-14 | 2024-03-12 | 易知谷科技集团有限公司 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
CN117633665A (zh) * | 2024-01-26 | 2024-03-01 | 深圳市互盟科技股份有限公司 | 一种网络数据监控方法及系统 |
CN117714215A (zh) * | 2024-02-06 | 2024-03-15 | 江苏开博科技有限公司 | 实时网络威胁检测方法及功能设备 |
CN117714215B (zh) * | 2024-02-06 | 2024-04-23 | 江苏开博科技有限公司 | 实时网络威胁检测方法及功能设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | MTH-IDS: A multitiered hybrid intrusion detection system for internet of vehicles | |
CN111565205B (zh) | 网络攻击识别方法、装置、计算机设备和存储介质 | |
CN117216660A (zh) | 基于时序网络流量集成异常点和异常集群检测方法及装置 | |
US9256735B2 (en) | Detecting emergent behavior in communications networks | |
Zhang et al. | An anomaly detection model based on one-class svm to detect network intrusions | |
Zolotukhin et al. | Analysis of HTTP requests for anomaly detection of web attacks | |
KR20130126814A (ko) | 데이터마이닝을 이용한 트래픽 폭주 공격 탐지 및 심층적 해석 장치 및 방법 | |
CN112333195B (zh) | 基于多源日志关联分析的apt攻击场景还原检测方法及系统 | |
Rethinavalli et al. | Botnet attack detection in internet of things using optimization techniques | |
Rupa Devi et al. | A review on network intrusion detection system using machine learning | |
Ahmed | Thwarting dos attacks: A framework for detection based on collective anomalies and clustering | |
CN113904795A (zh) | 一种基于网络安全探针的流量快速精确检测方法 | |
Do Xuan et al. | Optimization of network traffic anomaly detection using machine learning. | |
Nalavade et al. | Evaluation of k-means clustering for effective intrusion detection and prevention in massive network traffic data | |
CN115795330A (zh) | 一种基于ai算法的医疗信息异常检测方法及系统 | |
Manzano et al. | Design of a machine learning based intrusion detection framework and methodology for iot networks | |
CN116915450A (zh) | 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法 | |
Gazdar | A new ids for smart home based on machine learning | |
Gupta et al. | ProIDS: Probabilistic data structures based intrusion detection system for network traffic monitoring | |
CN111901137A (zh) | 一种利用蜜罐告警日志挖掘多步攻击场景的方法 | |
CN113162904B (zh) | 一种基于概率图模型的电力监控系统网络安全告警评估方法 | |
Hoque et al. | An alert analysis approach to DDoS attack detection | |
Malviya et al. | An Efficient Network Intrusion Detection Based on Decision Tree Classifier & Simple K-Mean Clustering using Dimensionality Reduction-A Review | |
Jeyanna et al. | A network intrusion detection system using clustering and outlier detection | |
Khan et al. | Anomaly Detection in IoT Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |