CN116743637B - 一种异常流量的检测方法、装置、电子设备及存储介质 - Google Patents

一种异常流量的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116743637B
CN116743637B CN202311025758.6A CN202311025758A CN116743637B CN 116743637 B CN116743637 B CN 116743637B CN 202311025758 A CN202311025758 A CN 202311025758A CN 116743637 B CN116743637 B CN 116743637B
Authority
CN
China
Prior art keywords
index
correlation
correlation coefficient
abnormal
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311025758.6A
Other languages
English (en)
Other versions
CN116743637A (zh
Inventor
方传艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202311025758.6A priority Critical patent/CN116743637B/zh
Publication of CN116743637A publication Critical patent/CN116743637A/zh
Application granted granted Critical
Publication of CN116743637B publication Critical patent/CN116743637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Abstract

本申请提供了一种异常流量的检测方法、装置、电子设备及存储介质,涉及互联网技术领域,其中方法包括:获取当前时刻关于流量指标的流量异常判断结果;当流量异常判断结果为异常时,获取流量指标与至少一个相关指标的关联分析结果;当关联分析结果为存在关联异常时,获取各相关指标对应的斯皮尔曼相关系数与皮尔逊相关系数的相关系数差值;当存在相关系数差值不满足对应的正态分布检测模型的情况时,确定当前时刻的流量指标异常。本申请在在对流量指标进行检测的基础上,还通过相关指标判断流量是否真实异常,避免单指标异常检测的片面性,大大减少了异常流量的误报率和漏报率,具有更高的普适性和准确性。

Description

一种异常流量的检测方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,特别涉及一种异常流量的检测方法、装置、电子设备及存储介质。
背景技术
随着互联网和业务的发展,信息系统所面临的用户访问量逐渐增多,造成系统压力过大而宕机的可能性加大,以及可能面临网络攻击导致系统崩溃。现有的系统运营方均会采取异常流量检测方法来限制和监控的异常的访问流量,来保障系统的稳定运行。现有的异常流量检测技术主要为:基于阈值规则的检测,即通过设定流量阈值进行判断,但误报率和漏报率都比较大;基于统计方法与异常特征校验形成的异常流量检测,即通过校验设定的特征值进行判断,但比较依赖异常特征的正确性,普适性不高;基于深度学习的异常流量检测,即通过深度学习预测正常流量并与实时流量进行对比判断,但需要采集大量的数据进行训练,对一些平时流量较小的系统,训练模型的检测效果不佳。
综上,现有技术没有考虑数据的多场景与实时性的特点,较多依赖人工经验设定的规则,导致误报率和漏报率较大、场景普适性较差等问题。
发明内容
本申请实施例要达到的技术目的是提供一种异常流量的检测方法、装置、电子设备及存储介质,用以解决当前异常流量检测方法存在误报率和漏报率较大、场景普适性较差的问题。
为解决上述技术问题,本申请实施例提供了一种异常流量的检测方法,包括:
获取当前时刻关于流量指标的流量指标异常判断结果;
当所述流量指标异常判断结果为异常时,获取所述流量指标与至少一个相关指标的关联分析结果,所述相关指标包括:内存占用率、中央处理器(Central ProcessingUnit, CPU)占用率以及响应时间中的至少一项;
当所述关联分析结果为存在关联异常时,获取各所述相关指标对应的相关系数差值,所述相关系数差值为所述相关指标与所述流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数的绝对差;
当存在所述相关系数差值不满足对应的正态分布检测模型的情况时,确定当前时刻的所述流量指标异常。
具体地,如上所述的检测方法,所述获取所述流量指标与至少一个相关指标的关联分析结果,包括:
根据所述当前时刻对应的预设时间窗内的第一历史数据,获取所述相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数;
根据所述当前时刻的所述相关指标,获取相关指标异常判断结果;
若至少一个第一目标相关指标对应的所述相关指标异常判断结果为异常,且所述第一目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数均大于对应的阈值,则确定所述关联分析结果为存在异常;否则,确定所述关联分析结果为无异常,其中,所述第一目标相关指标为至少一个所述相关指标中的任意一个。
具体地,如上所述的检测方法,根据预先获取到的预设指标对应的检测模型,确定所述预设指标对应的异常判断结果,其中,所述预设指标包括所述流量指标和所述相关指标。
优选地,如上所述的检测方法,获取所述检测模型,包括:
基于预配置的模型超参数,构建对应预设指标的初始检测模型,所述初始检测模型基于孤立森林异常检测算法建立;
根据预分配的训练数据对所述初始检测模型进行训练,得到预选检测模型;
根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果;
若所述模型评估结果为通过,则将所述预选检测模型确定为所述预设指标的检测模型;否则,重配置所述模型超参数,并返回所述基于预配置的模型超参数,构建关于预设指标的初始检测模型的步骤。
具体地,如上所述的检测方法,所述根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果,包括:
根据所述预选检测模型获取各所述测试数据的预选检测结果;
根据预先确定的各所述测试数据的异常情况以及所述预选检测结果,确定所述预选检测模型检测的精准度和召回率;
根据所述精准度和所述召回率,确定所述预选检测模型的调和平均数;
当所述调和平均数大于预设值时,确定所述模型评估结果为通过;否则,确定所述模型评估结果为未通过。
可选地,如上所述的检测方法,在对所述初始检测模型进行训练之前,还包括:
对获取到的第二历史数据进行缺失值检查,所述缺失值包括:空格、非数和其他占位符中的至少一项;
在存在缺失值的情况下,根据所述缺失值前预设连续数量的非缺失值的平均值,对所述缺失值进行补充,得到补充后的第二历史数据;
根据预设比例,将补充后的所述第二历史数据,或者不存在所述缺失值的所述第二历史数据,预分配为所述训练数据和所述测试数据。
具体地,如上所述的检测方法,获取所述正态分布检测模型,包括:
根据预设滑动时间窗对预设时间段内获取到的第三历史数据进行数据划分,得到各预设指标对应的历史数据组,所述预设指标包括所述流量指标和所述相关指标;
根据所述历史数据组,分别获取各时间窗内第二目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数,所述第二目标相关指标为所述相关指标中的任意一个;
根据所述斯皮尔曼相关系数与所述皮尔逊相关系数,得到各时间窗内所述第二目标相关指标对应的相关系数差;
根据所述相关系数差以及预设正态分布模型,确定所述第二目标相关指标对应的所述正态分布检测模型。
本申请的另一实施例还提供了一种异常流量的检测装置,包括:
第一处理模块,用于获取当前时刻关于流量指标的流量指标异常判断结果;
第二处理模块,用于当所述流量指标异常判断结果为异常时,获取所述流量指标与至少一个相关指标的关联分析结果,所述相关指标包括:内存占用率、CPU占用率以及响应时间中的至少一项;
第三处理模块,用于当所述关联分析结果为存在关联异常时,获取各所述相关指标对应的相关系数差值,所述相关系数差值为所述相关指标与所述流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数的绝对差;
第四处理模块,用于当存在所述相关系数差值不满足对应的正态分布检测模型的情况时,确定当前时刻的所述流量指标异常。
本申请的再一实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的异常流量的检测方法的步骤。
本申请的又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的异常流量的检测方法的步骤。
与现有技术相比,本申请实施例提供的一种异常流量的检测方法、装置、电子设备及存储介质,至少具有以下有益效果:
本申请在对流量指标进行检测的基础上,还通过相关指标的关联分析以及相关系数差辅助判断流量是否真实异常,避免单指标异常检测的片面性,且结合斯皮尔曼相关系数对于离群点不敏感,而皮尔逊相关系数容易受离群点的影响的特点,作为异常流量的判断依据,大大减少了异常流量的误报率和漏报率。同时结合正态分布检测模型,具有更高的普适性,对多场景的数据模型和不满足正态分布的数据均可提高其检测的准确性,适应更多数据模型。
附图说明
图1为本申请中异常流量的检测方法的流程示意图之一;
图2为本申请中异常流量的检测方法的流程示意图之二;
图3为本申请中异常流量的检测方法的流程示意图之三;
图4为本申请中异常流量的检测方法的流程示意图之四;
图5为本申请中异常流量的检测方法的流程示意图之五;
图6为本申请中异常流量的检测方法的流程示意图之六;
图7为本申请中异常流量的检测装置的结构示意图。
具体实施方式
为使本申请要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本申请的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本申请的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本申请的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A 和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B 这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请所提供的实施例中,应理解,“与A 相应的B”表示B 与A 相关联,根据A可以确定B。但还应理解,根据A 确定B 并不意味着仅仅根据A 确定B,还可以根据A 和/或其它信息确定B。
参见图1,本申请的一实施例提供了一种异常流量的检测方法,包括:
步骤S101,获取当前时刻关于流量指标的流量指标异常判断结果;
步骤S102,当所述流量指标异常判断结果为异常时,获取所述流量指标与至少一个相关指标的关联分析结果,所述相关指标包括:内存占用率、CPU占用率以及响应时间中的至少一项;
步骤S103,当所述关联分析结果为存在关联异常时,获取各所述相关指标对应的相关系数差值,所述相关系数差值为所述相关指标与所述流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数的绝对差;
步骤S104,当存在所述相关系数差值不满足对应的正态分布检测模型的情况时,确定当前时刻的所述流量指标异常。
在本实施例中,在对网络流量进行异常流量检测时,会获取当前时刻的流量指标,并先对其进行是否异常的单独判断,得到流量指标异常判断结果,若流量指标异常判断结果为无异常,则表明当前流量指标正常,此时不做处理。若流量异常指标判断结果为异常,则表明当前流量指标存在异常的可能性,故对流量指标和至少一个相关指标进行关联分析,并得到关联分析结果,其中,相关指标包括:内存占用率、CPU占用率以及响应时间中的至少一项,在本申请中以相关指标包括:内存占用率、CPU占用率以及响应时间为例进行说明。若通过关联分析确定关联无异常,则表明当前流量指标正常,此时不做处理;若关联分析确定存在关联异常,则表明当前流量指标仍存在异常的可能性,故再次获取各相关指标对应的相关系数差值,其中该相关系数差值为相关指标与流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数的绝对差,并以相关指标为单位判断其对应的相关系数差值是否满足对应的正态分布检测模型,若各相关指标对应的相关系数差值均满足对应的正态分布检测模型,则确定各相关指标均无异常,进而可确定当前时刻的流量指标为正常流量;若存在至少一个相关指标对应的相关系数差值均不满足对应的正态分布检测模型,则确定该相关指标异常,进而可确定当前时刻的流量指标异常。
综上所述,本申请在通过对流量指标进行检测的基础上,还通过相关指标的关联分析以及相关系数差辅助判断流量是否真实异常,避免单指标异常检测的片面性,且结合斯皮尔曼相关系数对于离群点不敏感,而皮尔逊相关系数容易受离群点的影响的特点,作为异常流量的判断依据,大大减少了异常流量的误报率和漏报率。同时结合正态分布检测模型,具有更高的普适性,对多场景的数据模型和不满足正态分布的数据均可提高其检测的准确性,适应更多数据模型。
需要说明的是,本实施例中的正态分布检测模型优选为基于3算法的模型,其中,判断异常点的敏感度也可通过调整/>的倍数来改变。
参见图2,具体地,如上所述的检测方法,所述获取所述流量指标与至少一个相关指标的关联分析结果,包括:
步骤S201,根据所述当前时刻对应的预设时间窗内的第一历史数据,获取所述相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数;
步骤S202,根据所述当前时刻的所述相关指标,获取相关指标异常判断结果;
步骤S203,若至少一个第一目标相关指标对应的所述相关指标异常判断结果为异常,且所述第一目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数均大于对应的阈值,则确定所述关联分析结果为存在异常;否则,确定所述关联分析结果为无异常,其中,所述第一目标相关指标为至少一个所述相关指标中的任意一个。
在本实施例中,对相关指标进行关联分析的步骤进行了举例说明,其中,关联分析包括两种操作:一种为根据当前时刻对应的预设时间窗内的第一历史数据获取各相关指标与所述流量指标之间的所述斯皮尔曼相关系数和所述皮尔逊相关系数,其中,预设时间窗为以当前时刻为结束时刻的一预设时长,该预设时长可根据需求进行调节,例如设置为1小时;进而根据该预设时长内的历史数据确定各相关指标以及流量指标对应的数据组,从而通过斯皮尔曼相关系数和所述皮尔逊相关系数的公式,分别获取各相关指标对应的斯皮尔曼相关系数和所述皮尔逊相关系数,并将其与对应的阈值(例如均设置为0.7,需要说明的是两种相关系数对应的阈值还可不相同)进行比对,以判断相关指标与流量指标之间的相关性;另一种为对当前时刻的各相关指标进行实时检测,以判断各相关指标其本身是否存在异常,得到相关指标异常判断结果。
最后基于上述两种操作的结果来综合判断,得到关联分析结果,具体地,若至少一个第一目标相关指标对应的相关指标异常判断结果为异常,且第一目标相关指标对应的斯皮尔曼相关系数和皮尔逊相关系数均大于对应的阈值,则确定第一目标相关指标异常且与流量指标正相关,故基于此确定关联分析结果为存在异常,以便对流量指标再次进行确认;否则,即可确定相关指标异常对流量指标无正相关的影响,或者,与流量指标正相关的相关指标无异常,进而确定关联分析结果为无异常,因此无需在对流量指标再次进行确认。
具体地,如上所述的检测方法,根据预先获取到的预设指标对应的检测模型,确定所述预设指标对应的异常判断结果,其中,所述预设指标包括所述流量指标和所述相关指标。
在本实施例中,在获取上述关于流量指标和/或相关指标(在此统称为预设指标)的异常判断结果时,首先会先预先获取与预设指标对应的检测模型,通过将当前时刻的预设指标代入该检测模型,根据检测模型的输出判断预设指标是否异常,即得到对应的异常判断结果。
参见图3,优选地,如上所述的检测方法,获取所述检测模型,包括:
步骤S301,基于预配置的模型超参数,构建对应预设指标的初始检测模型,所述初始检测模型基于孤立森林异常检测算法建立;
步骤S302,根据预分配的训练数据对所述初始检测模型进行训练,得到预选检测模型;
步骤S303,根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果;
步骤S304,若所述模型评估结果为通过,则将所述预选检测模型确定为所述预设指标的检测模型;否则,重配置所述模型超参数,并返回所述基于预配置的模型超参数,构建关于预设指标的初始检测模型的步骤。
在本实施例中,对上述提及的检测模型进行示例,其中该检测模型基于涉及的预设指标不同,可以对应于流量指标和任一相关指标,也就是说在本申请中流量指标和相关指标对应的检测模型均是基于上述步骤生成,以下就检测模型的生成过程进行示例。
首先,基于预配置的模型超参数,构建对应预设指标的初始检测模型,此处的预设指标即为需要生成检测模型所对应的指标。优选地,在构建初始检测模型时,根据免费软件机器学习库scikit-learn中机器学习框架的孤立森林异常检测算法进行构建,孤立森林是一个基于Ensemble 的快速异常检测方法,具有线性时间复杂度和高精准度,符合大数据处理要求,有利于提高最终得到检测模型对场景的适配性。
在得到初始检测模型后会基于预分配的训练数据进行训练,得到训练后的预选检测模型,其中,训练数据就是预设指标的部分历史数据。
进一步的,根据预分配的测试数据对上述得到的预选检测模型进行模型评估,以判断该预选检测模型是否满足精度等的需求,并得到模型评估结果,若该模型评估结果为通过,即可确定当前的预选检测模型满足精度等的需求,可在后续直接对对应的预设指标进行检测;否则,则确定当前的预选检测模型不能满足需求(例如精度需求),因此需要重新进行训练,故,对模型超参数进行重配置,并返回所述基于预配置的模型超参数,构建关于预设指标的初始检测模型的步骤,重新开始检测模型的构建、训练和评估,直至得到满足需求的检测模型。从而有利于进一步保证对议程流量检测的正确率。
在一具体实施例中,模型超参数包括下述中的至少一项:
基评估器的数量,即孤立森林中树的数量,可以表示为n_estimators:int,可选(默认值=100);
异常值占比,即数据集中异常值的比例。在拟合时用于定义决策函数的阈值,它指的是数据集中离群值的期望比例,根据样本得分拟合定义阈值时使用,可以表示为contamination:float(0,0.5),可选(默认值= 0.1);
所述基评估器的样本数量,即训练每个基评估器的样本的数量。可以表示为max_samples,如果 max_samples 比样本量更大,那么会用所有样本训练所有树。max_samples的默认值是“自动(auto)”。如果值为“auto”的话,那么 max_samples=min(256, n_samples);其中,256为最大样本数量。
训练所述基评估器的特征数量,其中,所有基评估器都不是用数据集中的所有特征训练的。这是从所有特征中提出的,用于训练每个基评估器或树的特征数量。该参数的默认值是 1,也可以根据需求选择5、10、30等作为默认值。
参见图4,具体地,如上所述的检测方法,所述根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果,包括:
步骤S401,根据所述预选检测模型获取各所述测试数据的预选检测结果;
步骤S402,根据预先确定的各所述测试数据的异常情况以及所述预选检测结果,确定所述预选检测模型检测的精准度和召回率;
步骤S403,根据所述精准度和所述召回率,确定所述预选检测模型的调和平均数;
步骤S404,当所述调和平均数大于预设值时,确定所述模型评估结果为通过;否则,确定所述模型评估结果为未通过。
在本实施例中就如何根据测试数据对预选检测模型进行模型评估的步骤进行示例,其中,通过将各测试数据代入预选检测模型中,得到各测试数据的预选检测结果,该预选检测结果可以通过数值1表示正常数据,数值-1表示异常数据;进而根据确定的各测试数据的异常情况以及预选检测结果进行比对,确定预测正确的数量TP(True Positive)、错将其他类预测为本类的数量FP(False Positive)以及本类标签预测为其他类标的数量FN(False Negative),并基于以下公式得到预选检测模型检测的精准度和召回率。
其中,表示精准度,也称为查准率;/>表示召回率,也称为查全率。
进而基于精准度和召回率,通过以下公式确定预选检测模型的调和平均数。
其中,表示调和平均数。
调和平均数的最大值是1,最小值是0,越接近1表示效果越好。故本实施例通过将得到的调和平均数与预设值(例如:0.7、0.8、0.9等)进行比对,当调和平均数大于预设值时,确定模型评估结果为通过;否则,确定模型评估结果为未通过,从而进一步保证检测模型的准确度。
参见图5,可选地,如上所述的检测方法,在对所述初始检测模型进行训练之前,还包括:
步骤S501,对获取到的第二历史数据进行缺失值检查,所述缺失值包括:空格、非数和其他占位符中的至少一项;
步骤S502,在存在缺失值的情况下,根据所述缺失值前预设连续数量的非缺失值的平均值,对所述缺失值进行补充,得到补充后的第二历史数据;
步骤S503,根据预设比例,将补充后的所述第二历史数据,或者不存在所述缺失值的所述第二历史数据,预分配为所述训练数据和所述测试数据。
在本实施例中,由于在数据采集过程中可能会出现缺失值的情况,例如原本的指标数据位置表示为空格、非数和其他占位符中的至少一项等,因此在对初始检测模型进行训练之前,会对分配为训练数据和测试数据的第二历史数据进行缺失值检查,其中,第二历史数据包括但不限于当前设备一预设时间段内的历史数据或所有的历史数据。
若第二历史数据中存在缺失值,目前使用不完整数据集的一个基本策略就是舍弃掉整行或整列包含缺失值的数据。但是这样就付出了舍弃可能有价值数据(即使是不完整的 )的代价。为避免舍弃有价值数据,故本实施例在处理缺失数值时,根据缺失值前预设连续数量(例如10个)的非缺失值的平均值,对缺失值进行补充,以得到补充后的第二历史数据。并进一步的根据预设比例例如训练数据与测试数据的比例为7:3,将补充后的第二历史数据预分配为训练数据和测试数据。
若第二历史数据中不存在缺失值,则直接根据预设比例将第二历史数据预分配为训练数据和测试数据。
需要说明的是,在第二历史数据中,各数据之间的获取间隔为预设分钟数或预设秒数。还需要说明的是,当缺失值位于第二历史数据的开头部分时,若在较短的时间间隔内,存在预设连续数量的非缺失值,则可以从后方向前逆推,对前方的缺失值进行补充。
参见图6,具体地,如上所述的检测方法,获取所述正态分布检测模型,包括:
步骤S601,根据预设滑动时间窗对预设时间段内获取到的第三历史数据进行数据划分,得到各预设指标对应的历史数据组,所述预设指标包括所述流量指标和所述相关指标;
步骤S602,根据所述历史数据组,分别获取各时间窗内第二目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数,所述第二目标相关指标为所述相关指标中的任意一个;
步骤S603,根据所述斯皮尔曼相关系数与所述皮尔逊相关系数,得到各时间窗内所述第二目标相关指标对应的相关系数差;
步骤S604,根据所述相关系数差以及预设正态分布模型,确定所述第二目标相关指标对应的所述正态分布检测模型。
在本实施例中,对如何获取相关指标对应的正态分布检测模型进行示例,其中该正态分布检测模型基于涉及的预设指标不同,可以对应于流量指标与任一相关指标,也就是说在本申请中各相关指标对应的正态分布检测模型均是基于上述步骤生成,以下就正态分布检测模型的生成过程进行示例。
首先,根据预设滑动时间窗对预设时间段内获取到的第三历史数据进行数据划分,得到各预设指标(包括流量指标和所述相关指标)对应的历史数据组,其中,预设滑动时间窗的时长优选为1小时,预设时间段优选为1个月。在进行数据划分时,将预设滑动时间窗内的数据基于指标类型进行划分,其中,预设滑动时间窗的滑动时间间隔可以进行设置,但优选为小于预设滑动时间窗的时长。
在得到各预设指标对应的历史数据组后,即可获取各时间窗内任一相关指标即第二目标相关指标对应的斯皮尔曼相关系数和皮尔逊相关系数,并可得到各时间窗内第二目标相关指标对应的相关系数差,优选为绝对值残差,例如:,其中,/>为相关系数差,/>为斯皮尔曼相关系数,/>为皮尔逊相关系数。
进而,根据各时间窗对应的相关系数差以及预设正态分布模型,对预设正态分布模型进行训练和测试等步骤,或者,通过相关系数差的平均值和标准差,对预设正态分布模型进行修正,即可确定第二目标相关指标对应的正态分布检测模型。
参见图7,本申请的另一实施例还提供了一种异常流量的检测装置,包括:
第一处理模块701,用于获取当前时刻关于流量指标的流量指标异常判断结果;
第二处理模块702,用于当所述流量指标异常判断结果为异常时,获取所述流量指标与至少一个相关指标的关联分析结果,所述相关指标包括:内存占用率、CPU占用率以及响应时间中的至少一项;
第三处理模块703,用于当所述关联分析结果为存在关联异常时,获取各所述相关指标对应的相关系数差值,所述相关系数差值为所述相关指标与所述流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数的绝对差;
第四处理模块704,用于当存在所述相关系数差值不满足对应的正态分布检测模型的情况时,确定当前时刻的所述流量指标异常。
参加图7,具体地,如上所述的装置,所述第二处理模块702,包括:
第一处理单元7021,用于根据所述当前时刻对应的预设时间窗内的第一历史数据,获取所述相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数;
第二处理单元7022,用于根据所述当前时刻的所述相关指标,获取所述相关指标根据对应的检测模型以及所述相关指标,得到的相关指标异常判断结果;
第三处理单元7023,用于若至少一个第一目标相关指标对应的所述相关指标异常判断结果为异常,且所述第一目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数均大于对应的阈值,则确定所述关联分析结果为存在异常;否则,确定所述关联分析结果为无异常,其中,所述第一目标相关指标为至少一个所述相关指标中的任意一个。
具体地,如上所述的装置,所述第二处理单元7022和所述第一处理模块701,具体用于根据预先获取到的预设指标对应的检测模型,确定所述预设指标对应的异常判断结果,其中,所述预设指标包括所述流量指标和所述相关指标。
优选地,如上所述的装置,包括:
第五处理模块,用于基于预配置的模型超参数,构建对应预设指标的初始检测模型,所述初始检测模型基于孤立森林异常检测算法建立;
第六处理模块,用于根据预分配的训练数据对所述初始检测模型进行训练,得到预选检测模型;
第七处理模块,用于根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果;
第八处理模块,用于若所述模型评估结果为通过,则将所述预选检测模型确定为所述预设指标的检测模型;否则,重配置所述模型超参数,并返回所述基于预配置的模型超参数,构建关于预设指标的初始检测模型的步骤。
具体地,如上所述的装置,所述第七处理模块,包括:
第四处理单元,用于根据所述预选检测模型获取各所述测试数据的预选检测结果;
第五处理单元,用于根据预先确定的各所述测试数据的异常情况以及所述预选检测结果,确定所述预选检测模型检测的精准度和召回率;
第六处理单元,用于根据所述精准度和所述召回率,确定所述预选检测模型的调和平均数;
第七处理单元,用于当所述调和平均数大于预设值时,确定所述模型评估结果为通过;否则,确定所述模型评估结果为未通过。
可选地,如上所述的装置,还包括:
第九处理模块,用于对获取到的第二历史数据进行缺失值检查,所述缺失值包括:空格、非数和其他占位符中的至少一项;
第十处理模块,用于在存在缺失值的情况下,根据所述缺失值前预设连续数量的非缺失值的平均值,对所述缺失值进行补充,得到补充后的第二历史数据;
第十一处理模块,用于根据预设比例,将补充后的所述第二历史数据,或者不存在所述缺失值的所述第二历史数据,预分配为所述训练数据和所述测试数据。
具体地,如上所述的装置,包括:
第十二处理模块,用于根据预设滑动时间窗对预设时间段内获取到的第三历史数据进行数据划分,得到各预设指标对应的历史数据组,所述预设指标包括所述流量指标和所述相关指标;
第十三处理模块,用于根据所述历史数据组,分别获取各时间窗内第二目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数,所述第二目标相关指标为所述相关指标中的任意一个;
第十四处理模块,用于根据所述斯皮尔曼相关系数与所述皮尔逊相关系数,得到各时间窗内所述第二目标相关指标对应的相关系数差;
第十五处理模块,用于根据所述相关系数差以及预设正态分布模型,确定所述第二目标相关指标对应的所述正态分布检测模型。
本申请的装置实施例是与上述异常流量的检测方法的实施例对应的装置,上述方法实施例中的所有实现手段均适用于该装置的实施例中,也能达到相同的技术效果。
本申请的再一实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的异常流量的检测方法的步骤。
本申请的又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的异常流量的检测方法的步骤。
此外,本申请可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种异常流量的检测方法,其特征在于,包括:
获取当前时刻关于流量指标的流量指标异常判断结果;
当所述流量指标异常判断结果为异常时,获取所述流量指标与至少一个相关指标的关联分析结果,所述相关指标包括:内存占用率、中央处理器CPU占用率以及响应时间中的至少一项;
当所述关联分析结果为存在关联异常时,获取各所述相关指标对应的相关系数差,其中,所述相关指标对应的相关系数包括所述相关指标与所述流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数,所述相关系数差为所述斯皮尔曼相关系数与所述皮尔逊相关系数的绝对差;
当存在所述相关系数差不满足对应的正态分布检测模型的情况时,确定当前时刻的所述流量指标异常,其中,各所述相关指标对应的所述正态分布检测模型为根据预设时间段内各时间窗对应的相关系数差,对预设正态分布模型进行训练或修正得到;
所述获取所述流量指标与至少一个相关指标的关联分析结果,包括:
根据所述当前时刻对应的预设时间窗内的第一历史数据,获取所述相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数;
根据所述当前时刻的所述相关指标,获取相关指标异常判断结果;
若至少一个第一目标相关指标对应的所述相关指标异常判断结果为异常,且所述第一目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数均大于对应的阈值,则确定所述关联分析结果为存在异常;否则,确定所述关联分析结果为无异常,其中,所述第一目标相关指标为至少一个所述相关指标中的任意一个。
2.根据权利要求1所述的检测方法,其特征在于,根据预先获取到的预设指标对应的检测模型,确定所述预设指标对应的异常判断结果,其中,所述预设指标包括所述流量指标和所述相关指标。
3.根据权利要求2所述的检测方法,其特征在于,获取所述检测模型,包括:
基于预配置的模型超参数,构建对应预设指标的初始检测模型,所述初始检测模型基于孤立森林异常检测算法建立;
根据预分配的训练数据对所述初始检测模型进行训练,得到预选检测模型;
根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果;
若所述模型评估结果为通过,则将所述预选检测模型确定为所述预设指标的检测模型;否则,重配置所述模型超参数,并返回所述基于预配置的模型超参数,构建关于预设指标的初始检测模型的步骤。
4.根据权利要求3所述的检测方法,其特征在于,所述根据预分配的测试数据对所述预选检测模型进行模型评估,得到模型评估结果,包括:
根据所述预选检测模型获取各所述测试数据的预选检测结果;
根据预先确定的各所述测试数据的异常情况以及所述预选检测结果,确定所述预选检测模型检测的精准度和召回率;
根据所述精准度和所述召回率,确定所述预选检测模型的调和平均数;
当所述调和平均数大于预设值时,确定所述模型评估结果为通过;否则,确定所述模型评估结果为未通过。
5.根据权利要求3所述的检测方法,其特征在于,在对所述初始检测模型进行训练之前,还包括:
对获取到的第二历史数据进行缺失值检查,所述缺失值包括:空格、非数和其他占位符中的至少一项;
在存在缺失值的情况下,根据所述缺失值前预设连续数量的非缺失值的平均值,对所述缺失值进行补充,得到补充后的第二历史数据;
根据预设比例,将补充后的所述第二历史数据,或者不存在所述缺失值的所述第二历史数据,预分配为所述训练数据和所述测试数据。
6.根据权利要求1所述的检测方法,其特征在于,获取所述正态分布检测模型,包括:
根据预设滑动时间窗对预设时间段内获取到的第三历史数据进行数据划分,得到各预设指标对应的历史数据组,所述预设指标包括所述流量指标和所述相关指标;
根据所述历史数据组,分别获取各时间窗内第二目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数,所述第二目标相关指标为所述相关指标中的任意一个;
根据所述斯皮尔曼相关系数与所述皮尔逊相关系数,得到各时间窗内所述第二目标相关指标对应的相关系数差;
根据所述相关系数差以及预设正态分布模型,确定所述第二目标相关指标对应的所述正态分布检测模型。
7.一种异常流量的检测装置,其特征在于,包括:
第一处理模块,用于获取当前时刻关于流量指标的流量指标异常判断结果;
第二处理模块,用于当所述流量指标异常判断结果为异常时,获取所述流量指标与至少一个相关指标的关联分析结果,所述相关指标包括:内存占用率、CPU占用率以及响应时间中的至少一项;
第三处理模块,用于当所述关联分析结果为存在关联异常时,获取各所述相关指标对应的相关系数差,其中,所述相关指标对应的相关系数包括所述相关指标与所述流量指标之间的斯皮尔曼相关系数和皮尔逊相关系数,所述相关系数差为所述斯皮尔曼相关系数与所述皮尔逊相关系数的绝对差;
第四处理模块,用于当存在所述相关系数差不满足对应的正态分布检测模型的情况时,确定当前时刻的所述流量指标异常,其中,各所述相关指标对应的所述正态分布检测模型为根据预设时间段内各时间窗对应的相关系数差,对预设正态分布模型进行训练或修正得到;
所述第二处理模块,包括:
第一处理单元,用于根据所述当前时刻对应的预设时间窗内的第一历史数据,获取所述相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数;
第二处理单元,用于根据所述当前时刻的所述相关指标,获取所述相关指标根据对应的检测模型以及所述相关指标,得到的相关指标异常判断结果;
第三处理单元,用于若至少一个第一目标相关指标对应的所述相关指标异常判断结果为异常,且所述第一目标相关指标对应的所述斯皮尔曼相关系数和所述皮尔逊相关系数均大于对应的阈值,则确定所述关联分析结果为存在异常;否则,确定所述关联分析结果为无异常,其中,所述第一目标相关指标为至少一个所述相关指标中的任意一个。
8.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的异常流量的检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的异常流量的检测方法的步骤。
CN202311025758.6A 2023-08-15 2023-08-15 一种异常流量的检测方法、装置、电子设备及存储介质 Active CN116743637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311025758.6A CN116743637B (zh) 2023-08-15 2023-08-15 一种异常流量的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311025758.6A CN116743637B (zh) 2023-08-15 2023-08-15 一种异常流量的检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116743637A CN116743637A (zh) 2023-09-12
CN116743637B true CN116743637B (zh) 2023-11-21

Family

ID=87911878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311025758.6A Active CN116743637B (zh) 2023-08-15 2023-08-15 一种异常流量的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116743637B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116957421B (zh) * 2023-09-20 2024-01-05 山东济宁运河煤矿有限责任公司 一种基于人工智能的洗选生产智能化监测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114986A (zh) * 2019-06-20 2020-12-22 腾讯科技(深圳)有限公司 数据异常识别方法、装置、服务器和存储介质
CN115081969A (zh) * 2022-08-23 2022-09-20 中国中金财富证券有限公司 异常数据确定方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220321436A1 (en) * 2019-09-11 2022-10-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for managing prediction of network anomalies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114986A (zh) * 2019-06-20 2020-12-22 腾讯科技(深圳)有限公司 数据异常识别方法、装置、服务器和存储介质
CN115081969A (zh) * 2022-08-23 2022-09-20 中国中金财富证券有限公司 异常数据确定方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于混合深度学习的低速率DDoS攻击检测方法设计与实现;李丽娟;《中国优秀硕士论文全文数据库》;全文 *

Also Published As

Publication number Publication date
CN116743637A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
US10324989B2 (en) Microblog-based event context acquiring method and system
CN116743637B (zh) 一种异常流量的检测方法、装置、电子设备及存储介质
CN111625516A (zh) 检测数据状态的方法、装置、计算机设备和存储介质
CN111639798A (zh) 智能的预测模型选择方法及装置
CN111314173A (zh) 监控信息异常的定位方法、装置、计算机设备及存储介质
CN109271957B (zh) 人脸性别识别方法以及装置
CN110263326A (zh) 一种用户行为预测方法、预测装置、存储介质及终端设备
CN111340233B (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
CN117540826A (zh) 机器学习模型的优化方法、装置、电子设备及存储介质
CN117237678A (zh) 用电行为异常检测方法、装置、设备及存储介质
CN116450137A (zh) 一种系统异常的检测方法、装置、存储介质及电子设备
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN112395280A (zh) 一种数据质量检测方法及其系统
Csilléry et al. Approximate Bayesian computation (ABC) in R: a Vignette
CN113473124B (zh) 信息获取方法、装置、电子设备及存储介质
CN112308099A (zh) 样本特征重要性的确定方法、分类模型的训练方法及装置
CN111835830B (zh) 一种数据感知系统、方法及装置
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测系统及介质
CN107218964B (zh) 一种试验子样容量性状的判定方法
CN112598118B (zh) 有监督学习的标注异常处理方法、装置、存储介质及设备
CN111010393B (zh) 一种用于大数据清洗的异常检测和消除的方法
CN112434839B (zh) 一种配电变压器重过载风险的预测方法及电子设备
CN116366325A (zh) 一种基于终端安全态势数据的异常检测模型构建方法
CN112966988A (zh) 基于XGBoost模型的数据评估方法、装置、设备及存储介质
CN116861236A (zh) 违规用户识别方法、装置、设备、存储介质以及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant