CN116933335A - 一种基于实时聚合异常检测的安全数据分析方法 - Google Patents
一种基于实时聚合异常检测的安全数据分析方法 Download PDFInfo
- Publication number
- CN116933335A CN116933335A CN202311176604.7A CN202311176604A CN116933335A CN 116933335 A CN116933335 A CN 116933335A CN 202311176604 A CN202311176604 A CN 202311176604A CN 116933335 A CN116933335 A CN 116933335A
- Authority
- CN
- China
- Prior art keywords
- data
- data points
- cluster
- real
- birch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 230000002776 aggregation Effects 0.000 title claims abstract description 13
- 238000004220 aggregation Methods 0.000 title claims abstract description 13
- 238000007405 data analysis Methods 0.000 title abstract description 15
- 235000018185 Betula X alpestris Nutrition 0.000 claims abstract description 41
- 235000018212 Betula X uliginosa Nutrition 0.000 claims abstract description 41
- 231100000279 safety data Toxicity 0.000 claims abstract description 12
- 238000013450 outlier detection Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 206010000117 Abnormal behaviour Diseases 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于实时聚合异常检测的安全数据分析方法,包括:S1、实时获取安全数据,进行特征提取,将提取的特征数据发送到Kafka消息队列的一个或多个主题中;S2、Apache Spark应用程序从Kafka的主题中读取特征数据流;S3、从Apache Spark的数据中实时读取数据点,并将其插入到采用BIRCH算法构建的BIRCH树中;S4、通过对叶子节点进行密度聚类的方式从BIRCH树中提取聚类结果;S5、将所述聚类结果输入离群检测算法,计算每个数据点的局部离群因子LOF,判断LOF值是否大于设定阈值,从而确定是否将某个数据点标记为离群点。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种基于实时聚合异常检测的安全数据分析方法。
背景技术
随着信息技术的快速发展和广泛应用,各种类型的安全数据不断涌现,如网络日志、入侵检测系统产生的报警、用户行为日志等。如何对这些海量的安全数据进行高效、准确的分析和处理,成为了当前信息安全领域亟待解决的问题。
传统的安全数据分析方法主要依靠规则引擎、统计方法等,然而面对大规模、快速变化的数据,这些传统方法存在一些问题。首先,规则引擎面临规则维护困难、规则覆盖不完全等问题;统计方法无法处理实时数据并且精确率和召回率较低。因此,需要一种能够实时处理海量数据、准确地识别异常行为的安全数据分析方法。
发明内容
鉴于上述技术问题,为了克服上述现有技术的不足,本发明提出了一种基于实时聚合异常检测的安全数据分析方法,通过采用实时数据聚合和离群点检测算法,能够高效地从大规模实时数据中识别出异常和离群情况,大幅提高安全数据分析的处理速度和效率。
本发明提供一种基于实时聚合异常检测的安全数据分析方法,包括:S1、实时获取安全数据,进行特征提取,将提取的特征数据发送到Kafka消息队列的一个或多个主题中;
S2、Apache Spark应用程序从所述Kafka的主题中读取特征数据流;
S3、从所述Apache Spark的数据中实时读取数据点,并将其插入到采用BIRCH算法构建的BIRCH树中;
S4、通过对叶子节点进行密度聚类的方式从所述BIRCH树中提取聚类结果;S5、将所述聚类结果输入离群检测算法,计算每个数据点的局部离群因子LOF,判断LOF值是否大于设定阈值,从而确定是否将某个数据点标记为离群点。
在一些实施例中,所述S1中,所述安全数据包括网络流量数据、系统日志和入侵检测数据,所述特征包括网络流量特征、系统日志特征和入侵检测特征。
在一些实施例中,所述S2中,所述Apache Spark应用程序通过Spark Streaming模块连接到所述Kafka。
在一些实施例中,所述S3中,包括构建BIRCH树的步骤:
S31、创建一个空的多叉树结构的BIRCH树,用于存储和组织聚类结果;
S32、定义初始化BIRCH树时的初始聚类簇数量、定义每个叶子节点可以存储的最大数据点数量、每个分支节点可以存储的最大叶子节点数量;
S33、设置聚类簇的直径阈值,用于决定是否将新的数据点聚合到现有的聚类簇中。
在一些实施例中,所述S3中,包括BIRCH树数据点插入步骤:
S34、将数据点插入到所述BIRCH树中的叶子节点;
S35、插入的数据点导致所述叶子节点超过最大容量,则进行叶子节点的分裂操作。
在一些实施例中,所述S3中,包括BIRCH树新数据点插入步骤:
S36、根据新数据点与已有的聚类簇的直径比较,当小于设定阈值,则将其归入所述聚类簇中;
S37、更新所述聚类簇的重心、直径和数据点数量信息;
S38、检查聚类簇的数量是否超过预设的阈值,如果超过阈值,则进行聚类簇的合并操作,并更新合并后的聚类结果。
在一些实施例中,所述分裂操作是根据数据点之间的距离来创建新的叶子节点,同时将相似的数据点聚合到同一个叶子节点中。
在一些实施例中,所述S5中,包括:计算每个数据点与其邻域中的数据点之间的可达距离,所述可达距离是通过从当前点出发,经过一系列邻域内的数据点,到达目标数据点的距离。
在一些实施例中,所述S5中,包括:计算当前数据点邻域内所有数据点的局部可达密度的平均值,并将所述平均值除以所述当前数据点的局部可达密度,得到局部离群因子LOF,所述LOF值越大,表示所述当前数据点相对于其邻域内的其他点越偏离正常。
本发明通过采用实时数据聚合和离群点检测算法,可以准确地识别和分类安全威胁,避免误报和漏报问题。通过更精确的威胁识别,资源的浪费可被最小化,真正的安全风险能够得到及时处理。能够满足对实时数据分析的需求。通过立即响应和处理潜在的安全威胁,能够显著提高安全系统的实时性和响应能力。网络安全等领域的需求能够得到满足,降低了对人工干预的依赖。
附图说明
图1为本发明基于实时聚合异常检测的安全数据分析方法的流程图;
图2为本发明构建BIRCH树的流程图;
图3为本发明BIRCH树新数据点插入的流程图。
具体实施方式
本发明某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本发明的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本发明满足适用的法律要求。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
现有技术的技术方案:
规则引擎是一种常用的安全数据分析方法,其方案包括明确定义安全规则、数据获取和预处理、规则匹配、规则优化和维护以及规则调试和测试等步骤。首先,需要明确定义安全规则,并根据需要定义多种规则,如网络流量行为、恶意软件特征和异常登录活动等。然后,获取安全数据并进行预处理,包括数据清洗、过滤和转换,以便后续规则引擎的处理。接下来,使用规则引擎将安全数据与预定义的规则进行匹配,当匹配成功时,会触发相应的响应动作,如生成警报、阻断流量或添加到黑名单等。同时,规则引擎需要定期进行优化和维护,评估和改进现有规则,并及时更新和添加新规则以应对新兴的安全威胁。最后,在实施规则之前,需要对规则进行调试和测试,以验证其正确性和有效性,并检查规则在不同场景下的性能和响应能力。需要注意的是,在处理大规模和实时数据时,规则引擎可能面临一些挑战,因此可以考虑结合大数据和机器学习技术来提高安全数据分析的准确性和实时性。
基于统计方法的分析步骤是一种科学和系统的方法,用于理解、解释和推断数据中存在的模式和趋势。首先,需要明确分析的问题或目标,以确定所需的统计方法和技术。然后,收集数据,可以通过实验、调查、观测、抽样等方式获取相关数据。接下来,进行数据清洗和预处理,包括删除缺失值、处理异常值、转换数据格式等,以确保数据的准确性和一致性。然后,应用适当的统计方法进行分析,如描述性统计、推断统计、多元分析、回归分析等。在此过程中,可以使用图表、图形和图像来可视化数据和结论。最后,根据分析结果进行结论解释和推断,并将其应用于决策、问题解决或业务优化。同时,要注意修订和调整分析方法,确保准确性和可靠性。整个过程依赖于统计学的基本原则和概念,包括抽样方法、假设检验、置信区间和显著性水平等。统计方法的正确选择和正确执行对于得出可靠的结论和推断至关重要。通过统计分析,可以深入了解数据的含义,并从中获得有意义的见解,为决策和问题解决提供支持。
现有技术的缺点
规则引擎通过预定义规则的匹配和执行来检测和处理安全事件。这些规则通常基于特定的模式或行为进行制定,例如特定的网络流量行为、恶意软件特征等。然而,规则引擎面临规则维护困难和规则覆盖不完全的问题。随着安全威胁的不断演化和变化,需要频繁更新和修改规则,使其保持有效性。此外,规则引擎难以涵盖所有可能的安全威胁和异常行为,因此可能会错过某些隐藏的威胁。
统计方法通过对数据进行统计分析来检测和分析异常行为。这些方法通常涉及计算数据的均值、方差、分布等统计指标,并使用阈值或规则进行异常检测。然而,统计方法在处理实时数据和大规模数据方面存在一定的问题。对于实时数据,统计方法通常需要对数据进行离线处理和批量分析,无法满足实时安全数据分析的需求。另外,在统计方法中往往需要权衡精确率和召回率,可能导致漏报或误报的问题。
规则引擎是一种基于预定义规则的方法,在识别异常行为时依赖于事先编写好的规则。由于新的攻击手法不断出现,常规的规则可能无法覆盖所有可能的威胁。另一方面,统计方法通过分析数据的统计特征来识别异常行为。然而,由于实时数据的变化速度快,传统的统计方法无法实时处理数据并准确地检测异常行为。
实时聚合离群算法是一种有效的解决方案。通过聚合多源安全数据并检测其中的离群点,从而识别出异常行为。在实时聚合过程中,算法能够自动识别和分析数据中的可疑模式,将离群点与正常行为区分开来,并能够提供准确的预警信息。可以帮助企业和组织及其安全团队实时监测和分析安全数据,从而识别和应对潜在的安全威胁,提升信息安全管理的效率和质量。通过分析用户行为日志和活动模式,并应用离群点检测算法,准确识别和预测恶意用户行为,提供及时的预警和警报。对于数据中心和云平台,安全数据分析是保障服务质量和安全性的重要一环。此技术可实时监测和分析大规模的安全数据,及时发现和应对潜在的安全隐患和攻击行为。该技术还可以应用于其他领域的安全数据分析,如金融、电子商务等,以提供更好的风险管理和保障服务。
如图1所示,本发明提供一种基于实时聚合异常检测的安全数据分析方法,步骤包括:
S1、实时获取安全数据,进行特征提取,将提取的特征数据发送到Kafka消息队列的一个或多个主题中;
S2、Apache Spark应用程序从所述Kafka的主题中读取特征数据流;
S3、从所述Apache Spark的数据中实时读取数据点,并将其插入到采用BIRCH算法构建的BIRCH树中;
S4、通过对叶子节点进行密度聚类的方式从所述BIRCH树中提取聚类结果;
S5、将所述聚类结果输入离群检测算法,计算每个数据点的局部离群因子LOF,判断LOF值是否大于设定阈值,从而确定是否将某个数据点标记为离群点。
具体的,在S1中,从各种安全设备和传感器中获取实时的安全数据,包括网络流量数据、系统日志、入侵检测数据等。对原始数据进行特征提取,将复杂的网络安全数据转化为特征向量。特征可以根据具体的安全问题进行选择和提取,如网络流量特征、系统日志特征、入侵检测特征等。根据具体的分析方法和模型需求,对预处理后的数据进行进一步的转换和标准化。
将提取的特征数据发送到Kafka消息队列。Kafka是一种高吞吐量、低延迟的分布式消息队列系统,用于处理大规模、实时的数据流。特征数据被封装成消息,然后发布到Kafka的一个或多个主题中。每个主题可以有多个消费者在并行地消费这些消息。
在S2中,在Spark应用程序中,通过Spark Streaming模块,连接到Kafka,然后从适当的主题中读取特征数据流。Spark提供了与Kafka集成的API,方便数据的读取,可以利用Spark的并行处理能力,对数据流进行实时计算。
在S3中,采用BIRCH(BIRCH的全称是 “Balanced Iterative Reducing andClustering using Hierarchies”,即平衡迭代逐渐减少和层次化聚类算法)算法。构建BIRCH树的步骤如图2所示,包括:
S31、创建一个空的多叉树结构的BIRCH树,用于存储和组织聚类结果;
S32、定义初始化BIRCH树时的初始聚类簇数量、定义每个叶子节点可以存储的最大数据点数量、每个分支节点可以存储的最大叶子节点数量;
S33、设置聚类簇的直径阈值,用于决定是否将新的数据点聚合到现有的聚类簇中;
S34、将数据点插入到所述BIRCH树中的叶子节点;
S35、插入的数据点导致所述叶子节点超过最大容量,则进行叶子节点的分裂操作。
首先,创建一个空的BIRCH树,即初始化BIRCH树。BIRCH树是一种多叉树结构,用于存储和组织聚类结果。在初始化阶段,设定BIRCH树的参数,定义初始化BIRCH树时的初始聚类簇数量。防止初始聚类簇数量过多,导致BIRCH树的层次化聚类过程过于复杂。定义每个叶子节点可以存储的最大数据点数量、每个分支节点可以存储的最大子节点数量。设置聚类簇的直径阈值,用于决定是否将新的数据点聚合到现有的聚类簇中。当节点的数据点数量超过最大容量时,会触发节点的分裂操作。所述分裂操作是根据数据点之间的距离来创建新的叶子节点,同时将相似的数据点聚合到同一个叶子节点中。当新的数据点与现有聚类簇的直径(即最大距离)小于给定的阈值时,会被归到该聚类簇中。
在S4中,在BIRCH树的构建过程中,通过对叶子节点进行密度聚类的方式提取聚类结果。聚类结果可以是一个或多个聚类簇,每个簇代表一类相似的数据点。
程序支持实时动态增量更新,如图3所示,BIRCH树新数据点插入步骤包括:
S36、根据新数据点与已有的聚类簇的直径比较,当小于设定阈值,则将其归入所述聚类簇中;
S37、更新所述聚类簇的重心、直径和数据点数量信息;
S38、检查聚类簇的数量是否超过预设的阈值,如果超过阈值,则进行聚类簇的合并操作,并更新合并后的聚类结果。
当新的数据点到达时,会根据数据点之间的距离将其插入到已有的聚类簇中。具体的插入策略根据数据点与聚类簇的直径(最大距离)比较,当小于设定阈值,则将其归入该聚类簇中。在插入新的数据点之后,算法会更新受影响的聚类簇。涉及到更新聚类簇的重心、直径和数据点数量信息。在更新聚类簇之后,BIRCH算法会检查聚类簇的数量是否超过预设的阈值。如果超过阈值,则需要进行聚类簇的合并操作。合并操作通常是根据聚类簇之间的距离和相似度判断是否可以进行合并,并更新合并后的聚类簇的信息。在合并操作之后,提取出最终的聚类结果。
在S5中,将聚类结果输入离群检测算法,计算局部可达密度,对于每个数据点,计算它与其邻域中的数据点之间的可达距离。可达距离是通过从当前点出发,经过一系列邻域内的数据点,到达目标数据点的距离。然后,利用邻域内的数据点的可达距离的平均值来计算局部可达密度。LRD( Local Reachability Density,局部可达密度)值越大,表示数据点越密集。计算其邻域内所有数据点的局部可达密度的平均值,并将该平均值除以当前点的局部可达密度。LOF(Local Outlier Factor,局部离群因子)值越大,表示当前点相对于其邻域内的其他点越偏离正常。通过设定阈值来判断LOF值是否大于阈值,从而确定是否将某个数据点标记为离群点。
本发明基于实时数据聚合和离群点检测算法的网络安全分析流程相比于基于规则引擎和统计方法的分析方法有明显的改进和提升。该方法实现了实时数据收集和处理,能够及时发现和应对网络安全威胁。通过特征提取和数据流处理技术,精确地识别和分析威胁,避免了基于规则引擎的误报或漏报问题,以及统计方法无法准确识别新型威胁的限制。此外,利用聚类与离群点检测技术,实现了自动化分类和分析,无需人工干预,与基于规则引擎和统计方法需要维护和更新规则库或统计模型的手动工作相比,更具效率和便利性。总的来说,这种基于实时安全数据的网络安全分析流程在实时性、精确性和自动化水平上有着明显的优势,能够更好地应对网络安全威胁。综合使用特征工程、数据挖掘和机器学习算法,将大量的实时数据转化为有意义的信息和洞察,为安全决策提供有效支持。
实施例中涉及的方法步骤并不限于其描述的顺序,各步骤的顺序根据实际需要的来进行调整。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于实时聚合异常检测的安全数据分析方法,其特征在于,包括:
S1、实时获取安全数据,进行特征提取,将提取的特征数据发送到Kafka消息队列的一个或多个主题中;
S2、Apache Spark应用程序从所述Kafka的主题中读取特征数据流;
S3、从所述Apache Spark的数据中实时读取数据点,并将其插入到采用BIRCH算法构建的BIRCH树中;
S4、通过对叶子节点进行密度聚类的方式从所述BIRCH树中提取聚类结果;
S5、将所述聚类结果输入离群检测算法,计算每个数据点的局部离群因子LOF,判断LOF值是否大于设定阈值,从而确定是否将某个数据点标记为离群点。
2.根据权利要求1所述的分析方法,其特征在于,所述S1中,所述安全数据包括网络流量数据、系统日志和入侵检测数据,所述特征包括网络流量特征、系统日志特征和入侵检测特征。
3.根据权利要求1所述的分析方法,其特征在于,所述S2中,所述Apache Spark应用程序通过Spark Streaming模块连接到所述Kafka。
4.根据权利要求1所述的分析方法,其特征在于,所述S3中,包括构建BIRCH树的步骤:
S31、创建一个空的多叉树结构的BIRCH树,用于存储和组织聚类结果;
S32、定义初始化BIRCH树时的初始聚类簇数量、定义每个叶子节点可以存储的最大数据点数量、每个分支节点可以存储的最大叶子节点数量;
S33、设置聚类簇的直径阈值,用于决定是否将新的数据点聚合到现有的聚类簇中。
5.根据权利要求1所述的分析方法,其特征在于,所述S3中,包括BIRCH树数据点插入步骤:
S34、将数据点插入到所述BIRCH树中的叶子节点;
S35、插入的数据点导致所述叶子节点超过最大容量,则进行叶子节点的分裂操作。
6.根据权利要求1所述的分析方法,其特征在于,所述S3中,包括BIRCH树新数据点插入步骤:
S36、根据新数据点与已有的聚类簇的直径比较,当小于设定阈值,则将其归入所述聚类簇中;
S37、更新所述聚类簇的重心、直径和数据点数量信息;
S38、检查聚类簇的数量是否超过预设的阈值,如果超过阈值,则进行聚类簇的合并操作,并更新合并后的聚类结果。
7.根据权利要求5所述的分析方法,其特征在于,所述分裂操作是根据数据点之间的距离来创建新的叶子节点,同时将相似的数据点聚合到同一个叶子节点中。
8.根据权利要求1所述的分析方法,其特征在于,所述S5中,包括:计算每个数据点与其邻域中的数据点之间的可达距离,所述可达距离是通过从当前点出发,经过一系列邻域内的数据点,到达目标数据点的距离。
9.根据权利要求1所述的分析方法,其特征在于,所述S5中,包括:利用邻域内的数据点的可达距离的平均值来计算局部可达密度LRD,所述局部可达密度LRD值越大,表示数据点越密集。
10.根据权利要求1所述的分析方法,其特征在于,所述S5中,包括:计算当前数据点邻域内所有数据点的局部可达密度的平均值,并将所述平均值除以所述当前数据点的局部可达密度,得到局部离群因子LOF,所述LOF值越大,表示所述当前数据点相对于其邻域内的其他点越偏离正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176604.7A CN116933335A (zh) | 2023-09-13 | 2023-09-13 | 一种基于实时聚合异常检测的安全数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176604.7A CN116933335A (zh) | 2023-09-13 | 2023-09-13 | 一种基于实时聚合异常检测的安全数据分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933335A true CN116933335A (zh) | 2023-10-24 |
Family
ID=88377351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311176604.7A Pending CN116933335A (zh) | 2023-09-13 | 2023-09-13 | 一种基于实时聚合异常检测的安全数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933335A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061213A1 (en) * | 2001-07-31 | 2003-03-27 | International Business Machines Corporation | Method for building space-splitting decision tree |
US20180020015A1 (en) * | 2016-06-14 | 2018-01-18 | Sdn Systems, Llc | System and method for automated network monitoring and detection of network anomalies |
US20200106678A1 (en) * | 2018-09-27 | 2020-04-02 | Aptiv Technologies Limited | Mobility services platform for self-healing mobiilty clients |
CN111935136A (zh) * | 2020-08-07 | 2020-11-13 | 哈尔滨工业大学 | 基于dns数据分析的域名查询与解析异常检测系统及方法 |
CN113011888A (zh) * | 2021-03-11 | 2021-06-22 | 中南大学 | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 |
CN114386499A (zh) * | 2021-12-30 | 2022-04-22 | 重庆邮电大学 | 一种基于gis多源局部放电信号数据流聚类分离方法 |
-
2023
- 2023-09-13 CN CN202311176604.7A patent/CN116933335A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061213A1 (en) * | 2001-07-31 | 2003-03-27 | International Business Machines Corporation | Method for building space-splitting decision tree |
US20180020015A1 (en) * | 2016-06-14 | 2018-01-18 | Sdn Systems, Llc | System and method for automated network monitoring and detection of network anomalies |
US20200106678A1 (en) * | 2018-09-27 | 2020-04-02 | Aptiv Technologies Limited | Mobility services platform for self-healing mobiilty clients |
CN111935136A (zh) * | 2020-08-07 | 2020-11-13 | 哈尔滨工业大学 | 基于dns数据分析的域名查询与解析异常检测系统及方法 |
CN113011888A (zh) * | 2021-03-11 | 2021-06-22 | 中南大学 | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 |
CN114386499A (zh) * | 2021-12-30 | 2022-04-22 | 重庆邮电大学 | 一种基于gis多源局部放电信号数据流聚类分离方法 |
Non-Patent Citations (6)
Title |
---|
JANTELOPE: "SparkStreaming集成Kafka,读取Kafka中数据,进行数据统计计算", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/Jantelope/article/details/82502674> * |
LOSS DRAGON: "数据挖掘入门笔记-BIRCH聚类(一拍即合)", pages 1 - 11, Retrieved from the Internet <URL:http://zhuanlan.zhihu.com/p/54837341?from_voters_page=true&utm_id=0> * |
李瑞;潘宇;万明傲;: "基于聚类的离群数据挖掘技术在线损自动生成系统数据预处理中的应用", 中国科技信息, no. 14 * |
王国祝;: "聚类分析及算法研究", 现代商贸工业, no. 22 * |
高琴琴: "考虑密度方向的双重加权离群检测和聚类分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 654 * |
黄斌;史亮;陈德礼;: "一种基于BIRCH的异常检测技术", 太原师范学院学报(自然科学版), no. 04 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111654489B (zh) | 一种网络安全态势感知方法、装置、设备及存储介质 | |
CN115996146B (zh) | 数控系统安全态势感知与分析系统、方法、设备及终端 | |
CN111309539A (zh) | 一种异常监测方法、装置和电子设备 | |
WO2010114363A1 (en) | Method and system for alert classification in a computer network | |
CN117692345B (zh) | 一种基于人工智能的it运营方法及系统 | |
CN113642023A (zh) | 数据安全检测模型训练、数据安全检测方法、装置及设备 | |
KR102247179B1 (ko) | 이상행위탐지모델의 비지도 학습을 위한 xai 기반 정상학습데이터 생성방법 및 장치 | |
Dou et al. | Pc 2 a: predicting collective contextual anomalies via lstm with deep generative model | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
CN115001934A (zh) | 一种工控安全风险分析系统及方法 | |
CN116648939A (zh) | 用于检测异常接入行为的方法和网络节点 | |
CN111726351B (zh) | 基于Bagging改进的GRU并行网络流量异常检测方法 | |
CN115733762A (zh) | 具有大数据分析能力的监控系统 | |
RU180789U1 (ru) | Устройство аудита информационной безопасности в автоматизированных системах | |
CN111209158B (zh) | 服务器集群的挖矿监控方法及集群监控系统 | |
CN112073396A (zh) | 一种内网横向移动攻击行为的检测方法及装置 | |
CN115426161A (zh) | 异常设备识别方法、装置、设备、介质和程序产品 | |
CN116933335A (zh) | 一种基于实时聚合异常检测的安全数据分析方法 | |
CN111475380B (zh) | 一种日志分析方法和装置 | |
CN113032774A (zh) | 异常检测模型的训练方法、装置、设备及计算机存储介质 | |
CN113347021B (zh) | 一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质 | |
US20240036963A1 (en) | Multi-contextual anomaly detection | |
CN118590274A (zh) | 一种基于蜜点情报阈值调整的溯源图异常节点检测方法 | |
CN118821130A (zh) | 木马检测方法及装置 | |
CN117056209A (zh) | 软件缺陷预测模型、解释方法以及量化评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20231024 |
|
RJ01 | Rejection of invention patent application after publication |