CN114116829A - 异常数据分析方法、异常数据分析系统和存储介质 - Google Patents

异常数据分析方法、异常数据分析系统和存储介质 Download PDF

Info

Publication number
CN114116829A
CN114116829A CN202010899148.9A CN202010899148A CN114116829A CN 114116829 A CN114116829 A CN 114116829A CN 202010899148 A CN202010899148 A CN 202010899148A CN 114116829 A CN114116829 A CN 114116829A
Authority
CN
China
Prior art keywords
data
abnormal
sample data
sample
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010899148.9A
Other languages
English (en)
Inventor
郭慧峰
杨辉
彭鑫
薄开涛
刘怡倩
李雪婷
姚秋彦
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202010899148.9A priority Critical patent/CN114116829A/zh
Publication of CN114116829A publication Critical patent/CN114116829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种异常数据分析方法、异常数据分析系统和计算机可读存储介质,包括:获取样本数据集;将样本数据集中的样本数据映射至N维空间以得到距离矩阵,距离矩阵包括多个第一数据行,第一数据行与样本数据集中的样本数据一一对应,第一数据行包括在N维空间中与第一数据行对应的样本数据与样本数据集中其余样本数据之间的距离值,第一数据行中的距离值按照数值大小排序;根据距离矩阵得到DBSCAN算法的聚类半径和密度阈值;利用聚类半径和密度阈值确定样本数据集中的异常数据。本发明能够自动确定聚类半径和密度阈值,无需人为查看网络数据或人为设定聚类半径和密度阈值,并且能够自动检测异常数据,能够对海量数据进行高效准确的检测分析。

Description

异常数据分析方法、异常数据分析系统和存储介质
技术领域
本发明实施例涉及但不限于信息处理技术领域,尤其涉及一种异常数据分析方法、异常数据分析系统和计算机可读存储介质。
背景技术
着信息化时代的发展,网络用户和设备急速增长,网络发展迅速且多元,应用范围不断扩大,网络传输的数据也逐渐增多,为了保证网络环境的安全稳定,对大数据时代网络数据的监管变得非常重要,需要高效全能地识别网络的异常行为。由于数据流量的爆炸式增长,网络具有数据量大、随机性强、指标之间的关系错综复杂等特性,传统网络异常检测方法多为人工形式,对网络运行数据的监控方法主要为运维人员人工查看网络数据或采取设定固定阈值的方式对指标进行监控,不能满足海量数据高效准确检测的要求,容易在大量数据的排查中出现遗漏和误判。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种异常数据分析方法、异常数据分析系统和计算机可读存储介质,不但能够摒弃人工干预以及对标注参数的依赖性,而且还能够满足海量数据高效准确检测的要求。
第一方面,本发明实施例提供了一种异常数据分析方法,包括:
获取样本数据集;
将所述样本数据集中的样本数据映射至N维空间以得到距离矩阵,其中,所述距离矩阵包括多个第一数据行,所述第一数据行与所述样本数据集中的样本数据一一对应,所述第一数据行包括在所述N维空间中与所述第一数据行对应的样本数据与所述样本数据集中其余样本数据之间的距离值,并且所述第一数据行中的所述距离值按照数值大小排序;所述N为正整数;
根据所述距离矩阵得到DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,基于密度的聚类)算法的聚类半径和密度阈值;
利用所述聚类半径和所述密度阈值确定所述样本数据集中的异常数据。
第二方面,本发明实施例还提供了一种异常数据分析方法,包括:
获取异常样本集合,所述异常样本集合中的异常样本对应于多个网络指标;
根据所述多个网络指标得到多个网络指标组合;
对所述多个网络指标组合进行处理得到各个所述网络指标的根因可能性分数;
根据所述根因可能性分数确定对产生所述异常样本集的贡献程度最大的网络指标。
第三方面,本发明实施例还提供了一种异常数据分析系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的异常数据分析方法,或者,所述处理器执行所述计算机程序时实现如上述第二方面所述的异常数据分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的异常数据分析方法,或者,所述计算机可执行指令用于执行如上述第二方面所述的异常数据分析方法。
本发明实施例包括:获取样本数据集;接着将所述样本数据集中的样本数据映射至N维空间以得到距离矩阵,其中,所述距离矩阵包括多个第一数据行,所述第一数据行与所述样本数据集中的样本数据一一对应,所述第一数据行包括在所述N维空间中与所述第一数据行对应的样本数据与所述样本数据集中其余样本数据之间的距离值,并且所述第一数据行中的所述距离值按照数值大小排序;所述N为正整数;然后根据所述距离矩阵得到DBSCAN算法的聚类半径和密度阈值;最后利用所述聚类半径和所述密度阈值确定所述样本数据集中的异常数据。对于本发明实施例的技术方案,能够将样本数据集中的样本数据映射至N维空间以得到距离矩阵,并能够根据该距离矩阵可以自动确定DBSCAN算法中的聚类半径和密度阈值,最后根据聚类半径和密度阈值对样本数据集进行检测以得到异常数据。因此,本发明实施例能够自动确定到聚类半径和密度阈值这两个参数,无需人为查看网络数据或人为设定聚类半径和密度阈值这两个参数的固定阈值,摒弃人工干预以及对标注参数的依赖性,并且能够自动检测到样本数据集中的异常数据,实现了系统的自主检测,提高了异常数据分析系统的灵活性,从而能够对海量数据进行高效准确的检测分析。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的用于执行异常数据分析方法的系统架构平台的示意图;
图2是本发明一个实施例提供的通过异常数据分析方法得到异常数据的流程图;
图3是本发明一个实施例提供的关于DBSCAN算法的示意图;
图4是本发明一个实施例提供的将初始矩阵进行排序处理得到距离矩阵的流程图;
图5是本发明一个实施例提供的计算聚类半径和密度阈值的流程图;
图6是本发明一个实施例提供的异常数据分析方法的详细示意图;
图7是本发明一个实施例提供的通过异常数据分析方法对异常样本集合进行根因分析的流程图;
图8是本发明一个实施例提供的各个网络指标的根因可能性分数的计算方式的流程图;
图9是本发明一个实施例提供的异常数据分析方法的总体示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种异常数据分析方法、异常数据分析系统和计算机可读存储介质,其中,该异常数据分析方法包括:获取样本数据集;接着将样本数据集中的样本数据映射至N维空间以得到距离矩阵,其中,距离矩阵包括多个第一数据行,第一数据行与样本数据集中的样本数据一一对应,第一数据行包括在N维空间中与第一数据行对应的样本数据与样本数据集中其余样本数据之间的距离值,并且第一数据行中的距离值按照数值大小排序;N为正整数;然后根据距离矩阵得到DBSCAN算法的聚类半径和密度阈值;最后利用聚类半径和密度阈值确定样本数据集中的异常数据。因此,本发明实施例能够自动确定聚类半径和密度阈值这两个参数,无需人为查看网络数据或人为设定聚类半径和密度阈值这两个参数的固定阈值,摒弃人工干预以及对标注参数的依赖性,并且能够自动检测到样本数据集中的异常数据,实现了系统的自主检测,提高了异常数据分析系统的灵活性,从而能够对海量数据进行高效准确的检测分析。
其次,该异常数据分析方法还包括:获取异常样本集合,异常样本集合中的异常样本对应于多个网络指标;接着根据多个网络指标得到多个网络指标组合;然后对多个网络指标组合进行处理得到各个网络指标的根因可能性分数;并根据根因可能性分数确定对产生异常样本集的贡献程度最大的网络指标。因此,本发明实施例还能够对异常样本集合中的各个网络指标进行根因可能性分数计算,通过根因分析对异常样本进行向上挖掘,寻找每个网络指标对异常结果的贡献程度,从而可以快速追踪到异常样本的源头网络指标,提高了异常数据分析系统的准确性。
下面结合附图,对本发明实施例作进一步阐述。
如图1所示,图1是本发明一个实施例提供的用于异常数据分析方法的系统架构平台的示意图。
在图1的示例中,该系统架构平台包括异常数据分析系统100,其中,上述的异常数据分析系统100设置有处理器110和存储器120,其中,处理器110和存储器120可以通过总线或者其他方式连接,图1中以通过总线连接为例。
存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器120可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至该系统架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解的是,该系统架构平台可以应用于3G通信网络系统、LTE通信网络系统、5G通信网络系统以及后续演进的移动通信网络系统等,本实施例对此并不作具体限定。
本领域技术人员可以理解的是,图1中示出的系统架构平台并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的系统架构平台中,处理器110可以调用储存在存储器120中的异常数据分析程序,从而执行异常数据分析方法。
基于上述系统架构平台,下面提出本发明的异常数据分析方法的各个实施例。
如图2所示,图2是本发明一个实施例提供的异常数据分析方法的流程图,该方法包括但不限于有步骤S100、步骤S200、步骤S300和步骤S400。
步骤S100,获取样本数据集;
步骤S200,将样本数据集中的样本数据映射至N维空间以得到距离矩阵,其中,距离矩阵包括多个第一数据行,第一数据行与样本数据集中的样本数据一一对应,第一数据行包括在N维空间中与第一数据行对应的样本数据与样本数据集中其余样本数据之间的距离值,并且第一数据行中的距离值按照数值大小排序;N为正整数;
步骤S300,根据距离矩阵得到DBSCAN算法的聚类半径和密度阈值;
步骤S400,利用聚类半径和密度阈值确定样本数据集中的异常数据。
在一实施例中,本发明实施例能够将样本数据集中的样本数据映射至N维空间中,并根据样本数据在N维空间中的映射情况得到距离矩阵,所得到的距离矩阵包括有多个第一数据行,不同的第一数据行对应于不同的样本数据在N维空间中与其余样本数据之间的距离值,并且每个第一数据行中的距离值按照数值大小排序,然后本发明实施例会根据距离矩阵计算得到DBSCAN算法中的聚类半径和密度阈值,并根据所计算得到的聚类半径和密度阈值对样本数据集进行检测,筛选出部分样本数据作为异常数据。因此,本发明实施例能够自动确定DBSCAN算法中的聚类半径和密度阈值这两个参数,无需人为查看样本数据或人为设定聚类半径和密度阈值这两个参数的固定阈值,摒弃人工干预以及对标注参数的依赖性,并且能够自动检测到样本数据集中的异常数据,实现了异常数据分析系统的自主检测,提高了系统的灵活性,从而能够对海量数据进行高效准确的检测分析。
需要说明的是,为了保证网络环境的安全稳定,因此,关于上述样本数据集中的样本数据,本发明实施例的样本数据对应为网络样本数据。
另外,可以理解的是,上述样本数据集中的样本数据可以对应于单个维度的网络指标,也可以对应于多个维度的网络指标。示例性地,当样本数据对应于单个维度的网络指标时,上述的N维空间对应为一维坐标系;当样本数据对应于两个维度的网络指标时,上述的N维空间对应为二维坐标系;如此类推,当样本数据对应于N个维度的网络指标时,上述的N维空间对应为N维坐标系。因此,本发明实施例能够将样本数据映射至N维空间中,得到对应的映射点,并根据每两个映射点之间的距离值,从而排序后得到距离矩阵。
值得注意的是,对于海量网络数据,为了准确获取到异常数据,本发明实施例可以通过对样本数据集进行聚类分析,通过排除类别内数据来提取异常数据。其中,聚类分析又称群分析,用于研究样品或指标分类问题的一种统计分析方法。聚类分析起源于分类学,但聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。无监督学习聚类的算法非常多样,DBSCAN算法是一个基于密度的聚类算法,能够发现任意形状的聚类,能够有效发现噪声点和离群点,十分适合于处理不规则的数据样本。
具体地,本发明实施例中,关于上述的DBSCAN算法,主要体现为:以每个映射点为圆心,计算以上述所得到的聚类半径Eps(E领域)为半径的圈所包含映射点的个数为该点密度值;然后根据上述所得到的MinPts(Minim Points,密度阈值)来判断当前的圆心点为高密度点还是低密度点,当圈内点数小于MinPts的圆心点为低密度点,而大于或等于MinPts的圆心点为高密度点。如果有一个高密度的点在另一个高密度的点的圈内,则将这两个点连接起来,从而不断地串联圆心点。如果有低密度点在高密度点的圈内,则把低密度点连到最近的高密度点上作为边界点。所有连到一起的点形成一个簇,不在任何簇内的低密度点即标记为异常点。示例性地,如图3所示,数据点A、B、C、D、E、F均为高密度点,P、Q为边界点,M为异常点。当MinPts的取值为3,那么以高密度点为圆心,Eps为半径的圆中包含的数据点数均大于等于3。
因此,本发明实施例所得到的异常点包括有:自身为低密度点并且没有落入高密度点的聚类半径内的数据点;以及自身为高密度点并且没有落入其他高密度点的聚类半径内的数据点。在得到异常点之后,异常点所对应的样本数据即为异常数据。因此,本发明实施例能够利用聚类半径和密度阈值确定样本数据集中的异常数据。
如图4所示,图4是本发明另一个实施例提供的异常数据分析方法的流程图。在一实施例中,关于上述的步骤S200中的将样本数据集中的样本数据映射至N维空间以得到距离矩阵,包括但不限于有步骤S510和步骤S520。
步骤S510,将样本数据集中的样本数据映射至N维空间以得到初始矩阵;其中,初始矩阵包括多个第二数据行,第二数据行与样本数据集中的样本数据一一对应,第二数据行包括在N维空间中与第二数据行对应的样本数据与样本数据集中其余样本数据之间的距离值;
步骤S520,对各个第二数据行中的距离值按照数值大小进行排序,得到距离矩阵。
在一实施例中,关于上述的距离矩阵,可以通过如下方式得到:将样本数据集中的样本数据映射至N维空间中,并根据样本数据在N维空间中的映射情况得到初始矩阵,所得到的初始矩阵包括有多个第二数据行,不同的第二数据行对应于不同的样本数据在N维空间中与其余样本数据之间的距离值,由于在第二数据行中的距离值是无序的,因此,本发明实施例还需要对各个第二数据行中的距离值按照数值大小进行排序,从而得到多个排序后的第一数据行,进而得到上述的距离矩阵。
需要说明的是,上述距离值按照数值大小进行排序的方式可以为:按照数值由小到大进行排列,或者按照数值由大到小进行排列。
如图5所示,图5是本发明一个实施例提供的异常数据分析方法的流程图。在一实施例中,关于上述的步骤S300,包括但不限于有步骤S710、步骤S720、步骤S730和步骤S740。
步骤S710,遍历距离矩阵中的第一数据行,在每个第一数据行中,以数值最小的距离值作为起始计算的数据点,依次计算前一个数据点相对于后一个数据点的斜率,分别得到与每个第一数据行一一对应的斜率列表;
步骤S720,根据所有斜率列表中的所有非零斜率,计算得到斜率平均值和斜率标准差;
步骤S730,遍历所有斜率列表,获取第一个数值大于斜率平均值和斜率标准差之和的斜率作为目标斜率;
步骤S740,根据目标斜率确定DBSCAN算法的聚类半径和密度阈值。
在一实施例中,关于上述聚类半径和密度阈值,可以通过如下方式得到:对于一个第一数据行,本发明实施例可以根据该第一数据行中的距离值画曲线,并依次计算出该第一数据行中前一个距离值所对应的数据点相对于后一个距离值所对应的数据点的斜率,从而得到关于该第一数据行的斜率列表;然后对每个第一数据行都得到一个斜率列表,针对所有的斜率列表从中筛选出斜率数值不为零的非零斜率,并计算出所有非零斜率的斜率平均值和斜率标准差,接着找出斜率列表中第一个数值大于斜率平均值和斜率标准差之和的斜率作为目标斜率,该目标斜率对应上述曲线的拐点处,此时的聚类半径最大,聚类效果最好,因此该处对应的距离值即为聚类半径,并且在该聚类半径下对应的数据点数量为密度阈值。
如图6所示,图6是本发明另一个实施例提供的异常数据分析方法的详细示意图。该异常数据分析方法的具体步骤如下:
首先,输入多维网络指标数据集D={x1,x2,...xn},其中,x={α1,α2,...αN},αi为第i维度的网络指标取值。
接着,由DBSCAN参数自适应方法自动确定DBSCAN算法中的两个参数EPs与MinPts,具体如下:将输入的多维网络指标数据集D映射至N维空间中,并根据映射情况得到初始矩阵DISTn*n={d(i,j),1≤i≤n,1≤j≤n},其中,d表示第i个映射点到第j个映射点的距离值。再对所得到的初始矩阵DIST进行重新排序,将初始矩阵DIST中的每个第二数据行的距离值从小到大进行排序,使得第二数据行经过排序后会转换为第一数据行,从而得到距离矩阵Xn*n={x(i,j),1≤i≤n,1≤j≤n},其中,x(i,j)表示排序后距离第i个映射点最近的第j个映射点的距离值。再将Xi(Xi表示距离矩阵Xn*n的第i个第一数据行,即距离第i个映射点的排序后的距离值的集合,1≤i≤n)画图,计算Xi中每个数据点相对于下一个数据点的斜率,j处的斜率为||x(i,j)-x(i,j+1)||,1≤i≤n,1≤j≤n。然后计算所有非零斜率的斜率平均值和斜率标准差,并找出第一个大于斜率平均值与斜率标准差之和的斜率作为目标斜率,该目标斜率对应曲线拐点处,此时的聚类半径最大,聚类效果最好,因此该处对应的距离值即为Eps,在距离值为EPs时对应的j即为MinPts。
然后,将多维网络指标数据集D中的所有对象标记为未读,从D中取任意映射点Di∈D(i=1,2,3...),并将Di标记为已读;通过EPs与MinPts对任意映射点进行判断,如果自身是核心对象(高密度点),则找出位于其半径范围内的所有密度可达数据对象,并标记为已读,其中密度可达是指以该高密度点为核心,在半径范围内的点即为密度可达点。如果自身不是高密度点,并且没有哪个对象密度可达,则将其标记为异常点;该步骤识别出的异常点为自身不是高密度点,也不在任何一个高密度点的半径范围内。
最后,本发明实施例还会将其中某一个核心对象作为种子,将该对象所有的密度可达点归为一类,形成一个较大范围的数据对象集合,也称作聚类簇;将所有核心对象都遍历完,剩下的没有归为一类的点即异常点。该步骤识别出的异常点本身是高密度点,但跟其他高密度点都不可达。
如图7所示,图7是本发明一个实施例提供的异常数据分析方法的流程图,该方法包括但不限于有步骤S800、步骤S900、步骤S1000和步骤S1100。
步骤S800,获取异常样本集合,异常样本集合中的异常样本对应于多个网络指标;
步骤S900,根据多个网络指标得到多个网络指标组合;
步骤S1000,对多个网络指标组合进行处理得到各个网络指标的根因可能性分数;
步骤S1100,根据根因可能性分数确定对产生异常样本集的贡献程度最大的网络指标。
在一实施例中,由于输入的异常样本集合中的异常样本所对应的网络指标众多,各个网络指标对异常结果的影响都无法直接判断,为了有效定位各个维度网络指标对最终异常结果的贡献程度,实现对多维度网络指标更加具体、直观的异常分析,本发明实施例可以对异常样本集合中的异常样本进行根因分析。由于数据量广,网络指标关联复杂,因此需要由所得异常样本逐层搜索根因,定位异常维度集合。本发明实施例采用PS(PotentialScore,可能性分数)计算对所有维度指标的贡献程度进行根因分析,找出各个维度网络指标对异常结果的影响。因此,基于根因可能性分数计算,本发明实施例根据异常样本所对应的多个网络指标得到多个网络指标组合,并对多个网络指标组合进行根因分析,得到各个网络指标的根因可能性分数,最后根据根因可能性分数的数值可以得到各个网络指标对异常结果的贡献程度,从而获知对产生该异常样本集的贡献程度最大的网络指标。因此,本发明实施例能够对异常样本集合中的各个网络指标进行根因可能性分数计算,通过根因分析对异常样本进行向上挖掘,寻找每个网络指标对异常结果的贡献程度,从而可以快速追踪到异常样本的源头网络指标,提高了异常数据分析系统的准确性。
值得注意的是,关于上述的异常样本,本发明实施例的异常样本可以是由上述图2至图6中任一实施例的步骤方法得到,或者,也可以是直接由其他方式获取得到。
需要说明的是,关于上述的网络指标组合,可以为一个网络指标,也可以为多个网络指标。
可以理解的是,关于上述的根因可能性分数,具体表现为一个数值,当数值越大,则表明该维度的网络指标对异常结果的贡献程度越大;当数值越小,则表明该维度的网络指标对异常结果的贡献程度越小。
如图8所示,图8是本发明另一个实施例提供的异常数据分析方法的流程图。在一实施例中,关于上述的步骤S1000,包括但不限于有步骤S1210、步骤S1220、步骤S1230、步骤S1240和步骤S1250。
步骤S1210,根据多个网络指标组合确定最小元素和非最小元素,其中,最小元素为多个网络指标组合中的单个网络指标,非最小元素为多个网络指标组合中的由至少两个网络指标构成的组合;
步骤S1220,根据异常样本集合获取最小元素的取值和非最小元素的取值;
步骤S1230,获取最小元素的第一偏移量,第一偏移量为最小元素的取值和与最小元素对应的网络指标的正常取值之间的差值;
步骤S1240,获取非最小元素的第二偏移量,第二偏移量为非最小元素的取值和与非最小元素对应的网络指标组合的正常取值之间的差值;
步骤S1250,根据第一偏移量和第二偏移量得到各个网络指标的根因可能性分数。
在一实施例中,本发明实施例通过计算PS值对维度组合进行逐层筛选,得出每个维度网络指标的PS值,PS值越大,贡献程度越大。由于每个维度网络指标对异常结果的影响并不是单纯的相加,而是会互相存在影响,因此不能简单地把某维度网络指标的影响程度直接相加,而采用可能性分数进行计算。具体方法如下:其中
Figure BDA0002659404410000071
用于计算非最小元素的第二偏移量,即异常值和正常值之间的偏移量;
Figure BDA0002659404410000072
用来计算最小元素的第一偏移量。其中,v表示具体元素组合的异常值,f表示某一维度元素的正常值,a表示具体元素组合的正常值,i表示数据维度,1≤i≤N。
值得注意的是,关于上述的第一偏移量,可以通过如下公式得到:
Figure BDA0002659404410000081
其中,
Figure BDA0002659404410000082
为第一偏移量,v为非最小元素的取值,f为与最小元素对应的网络指标的正常取值,i为网络指标的数量,i为正整数。
其次,关于上述的第二偏移量,可以通过如下公式得到:
Figure BDA0002659404410000083
其中,
Figure BDA0002659404410000084
为第二偏移量,a为与非最小元素对应的网络指标组合的正常取值。
另外,根因可能性分数由如下公式得到:
Figure BDA0002659404410000085
其中,PS为根因可能性分数。
如图9所示,图9是本发明另一个实施例提供的异常数据分析方法的总体示意图。
示例性地,输入一组网络指标分别有Q(quality,业务质量)、P(power,光功率)、L(packet loss rate,丢包率)以及T(delay time,延迟)的多维样本集合D={d1,d2,...,d12},Q取值Q1,Q2;P取值P1,P2,P3;L取值L1,L2;T取值T1,T2;d1=(Q1,P1,L1,T1),d2=(Q1,P1,L1,T2)等以此类推;距离矩阵D12*12={d(i,j),1≤i≤12,1≤j≤12},对D中每行元素按照从小到大排序得到X12*12;通过计算斜率陡增求出EPs以及MinPts。遍历标记所有元素,得出异常样本集合X={x1,x2,…,x16}。
对于该四维指标样本,Q、P、L以及T的可能取值的个数分别为2、3、2以及2,因此可以用如图9所示的两个三维立方体表示,左侧立方体为原始样本,右侧立方体为异常样本。遍历所有可能的维度组合,根据异常样本根因组合中的数值,假设L与T的变化对最终异常结果的影响为0;剩余的P和Q两个维度的取值均发生了变化。按照该例的指标组合,可以将之数据结构表示出来,第一层分别为P取值为P1,P2,P3;Q取值为Q1,Q2;向上搜索时,搜索第一层,则有两个指标对异常结果产生影响;对于指标P,P1与正常量30偏移了30,P2与正常值40偏移了30;对于指标Q,Q1与正常值45偏移了35,P2与正常值55偏移了25。而P3相较于正常值没有产生偏移,也不会对异常结果产生影响。因此搜索第二层时,不需要再去计算P3的影响力。采用可能性分数进行计算,具体方法如下式所示:
Figure BDA0002659404410000086
对每一维度的网络指标的影响分数进行计算,其中,v表示具体元素组合的异常值,f表示某一维度元素的正常值,a表示具体元素组合的正常值。对于P维度而言,P3未产生偏移,不考虑其影响,因此计算如下:其中△表示单位数据的偏移量。
Figure BDA0002659404410000087
由于△(P1,Q2),△(P2,Q1)为零,因此可计算:
Figure BDA0002659404410000091
由此得出:
Figure BDA0002659404410000092
维度P影响可能性分数为0.5,同理,维度Q可能性分数:
Figure BDA0002659404410000093
因此Effect(影响力)排序为Q、P、L以及T,并输出按照指标影响力排序的异常样本集合,即最后得到的是16个异常点中X={X1,X2,…,X16},每个数据点里都是Q>P>L=T。
值得注意的是,本发明实施例的异常数据分析方法的具体实施方式及对应的技术效果,可对应参照上述异常数据分析方法的实施例。
基于上述异常数据分析方法,下面分别提出本发明的异常数据分析系统和计算机可读存储介质的各个实施例。
另外,本发明的一个实施例提供了一种异常数据分析系统,该异常数据分析系统包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器和存储器可以通过总线或者其他方式连接。
需要说明的是,本实施例中的异常数据分析系统,可以对应为如图1所示实施例中的系统架构平台中的异常数据分析系统,能够构成图1所示实施例中的系统架构平台的一部分,两者属于相同的发明构思,因此两者具有相同的实现原理以及有益效果,此处不再详述。
实现上述实施例的异常数据分析方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例的异常数据分析方法,例如,执行以上描述的图2中的方法步骤S100至S400、图4中的方法步骤S510至S520、图5中的方法步骤S710至S740、图7中的方法步骤S800至S1100、图8中的方法步骤S1210至S1250。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于执行上述的异常数据分析方法。例如,被上述异常数据分析系统实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的异常数据分析方法,例如,执行以上描述的图2中的方法步骤S100至S400、图4中的方法步骤S510至S520、图5中的方法步骤S710至S740、图7中的方法步骤S800至S1100、图8中的方法步骤S1210至S1250。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (10)

1.一种异常数据分析方法,包括:
获取样本数据集;
将所述样本数据集中的样本数据映射至N维空间以得到距离矩阵,其中,所述距离矩阵包括多个第一数据行,所述第一数据行与所述样本数据集中的样本数据一一对应,所述第一数据行包括在所述N维空间中与所述第一数据行对应的样本数据与所述样本数据集中其余样本数据之间的距离值,并且所述第一数据行中的所述距离值按照数值大小排序;所述N为正整数;
根据所述距离矩阵得到基于密度的聚类DBSCAN算法的聚类半径和密度阈值;
利用所述聚类半径和所述密度阈值确定所述样本数据集中的异常数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本数据集中的样本数据映射至N维空间以得到距离矩阵,包括:
将所述样本数据集中的样本数据映射至N维空间以得到初始矩阵;其中,所述初始矩阵包括多个第二数据行,所述第二数据行与所述样本数据集中的样本数据一一对应,所述第二数据行包括在所述N维空间中与所述第二数据行对应的样本数据与所述样本数据集中其余样本数据之间的距离值;
各个所述第二数据行中的所述距离值按照数值大小进行排序,得到所述距离矩阵。
3.根据权利要求1所述的方法,其特征在于,所述根据所述距离矩阵得到DBSCAN算法的聚类半径和密度阈值,包括:
遍历所述距离矩阵中的所述第一数据行,在每个所述第一数据行中,以数值最小的距离值作为起始计算的数据点,依次计算前一个数据点相对于后一个数据点的斜率,分别得到与每个所述第一数据行一一对应的斜率列表;
根据所有所述斜率列表中的所有非零斜率,计算得到斜率平均值和斜率标准差;
遍历所有所述斜率列表,获取第一个数值大于所述斜率平均值和所述斜率标准差之和的斜率作为目标斜率;
根据所述目标斜率确定DBSCAN算法的聚类半径和密度阈值。
4.一种异常数据分析方法,包括:
获取异常样本集合,所述异常样本集合中的异常样本对应于多个网络指标;
根据所述多个网络指标得到多个网络指标组合;
对所述多个网络指标组合进行处理得到各个所述网络指标的根因可能性分数;
根据所述根因可能性分数确定对产生所述异常样本集的贡献程度最大的网络指标。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个网络指标组合进行处理得到各个所述网络指标的根因可能性分数,包括:
根据所述多个网络指标组合确定最小元素和非最小元素,其中,所述最小元素为所述多个网络指标组合中的单个网络指标,所述非最小元素为所述多个网络指标组合中的由至少两个网络指标构成的组合;
根据所述异常样本集合获取所述最小元素的取值和所述非最小元素的取值;
获取所述最小元素的第一偏移量,所述第一偏移量为所述最小元素的取值和与所述最小元素对应的网络指标的正常取值之间的差值;
获取所述非最小元素的第二偏移量,所述第二偏移量为所述非最小元素的取值和与所述非最小元素对应的网络指标组合的正常取值之间的差值;
根据所述第一偏移量和所述第二偏移量得到各个所述网络指标的根因可能性分数。
6.根据权利要求5所述的方法,其特征在于,所述第一偏移量由如下公式得到:
Figure FDA0002659404400000021
其中,所述
Figure FDA0002659404400000022
为所述第一偏移量,所述v为所述非最小元素的取值,所述f为与所述最小元素对应的网络指标的正常取值,所述i为所述网络指标的数量,所述i为正整数。
7.根据权利要求6所述的方法,其特征在于,所述第二偏移量由如下公式得到:
Figure FDA0002659404400000023
其中,所述
Figure FDA0002659404400000024
为所述第二偏移量,所述a为与所述非最小元素对应的网络指标组合的正常取值。
8.根据权利要求7所述的方法,其特征在于,所述根因可能性分数由如下公式得到:
Figure FDA0002659404400000025
其中,所述PS为所述根因可能性分数。
9.一种异常数据分析系统,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任意一项所述的异常数据分析方法,或者,所述处理器执行所述计算机程序时实现如权利要求4至8中任意一项所述的异常数据分析方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至3中任意一项所述的异常数据分析方法,或者,所述计算机可执行指令用于执行如权利要求4至8中任意一项所述的异常数据分析方法。
CN202010899148.9A 2020-08-31 2020-08-31 异常数据分析方法、异常数据分析系统和存储介质 Pending CN114116829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010899148.9A CN114116829A (zh) 2020-08-31 2020-08-31 异常数据分析方法、异常数据分析系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899148.9A CN114116829A (zh) 2020-08-31 2020-08-31 异常数据分析方法、异常数据分析系统和存储介质

Publications (1)

Publication Number Publication Date
CN114116829A true CN114116829A (zh) 2022-03-01

Family

ID=80360050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899148.9A Pending CN114116829A (zh) 2020-08-31 2020-08-31 异常数据分析方法、异常数据分析系统和存储介质

Country Status (1)

Country Link
CN (1) CN114116829A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115112032A (zh) * 2022-06-06 2022-09-27 上海工程技术大学 一种球面栅极组件间距的测量方法
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统
CN116561535A (zh) * 2023-07-11 2023-08-08 安徽建筑大学 一种基于个性化建筑交互设计处理方法
CN117574300A (zh) * 2023-12-15 2024-02-20 国网湖北省电力有限公司超高压公司 基于数据分析的油浸式变压器老化故障识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115112032A (zh) * 2022-06-06 2022-09-27 上海工程技术大学 一种球面栅极组件间距的测量方法
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统
CN116166960B (zh) * 2023-02-07 2023-09-29 山东经鼎智能科技有限公司 用于神经网络训练的大数据特征清洗方法及系统
CN116561535A (zh) * 2023-07-11 2023-08-08 安徽建筑大学 一种基于个性化建筑交互设计处理方法
CN116561535B (zh) * 2023-07-11 2023-09-19 安徽建筑大学 一种基于个性化建筑交互设计处理方法
CN117574300A (zh) * 2023-12-15 2024-02-20 国网湖北省电力有限公司超高压公司 基于数据分析的油浸式变压器老化故障识别方法

Similar Documents

Publication Publication Date Title
Rottmann et al. Prediction error meta classification in semantic segmentation: Detection via aggregated dispersion measures of softmax probabilities
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
US10073906B2 (en) Scalable tri-point arbitration and clustering
CN106919957B (zh) 处理数据的方法及装置
CN108550077A (zh) 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN102722554B (zh) 位置敏感哈希随机性减弱方法
US20150294052A1 (en) Anomaly detection using tripoint arbitration
CN112800115B (zh) 数据处理方法及数据处理装置
CN113344128B (zh) 一种基于微簇的工业物联网自适应流聚类方法及装置
CN110633371A (zh) 一种日志分类方法及系统
CN107423319B (zh) 一种垃圾网页检测方法
CN112330164A (zh) 基于消息总线的数据质量治理系统及方法
Tang et al. An improved OPTICS clustering algorithm for discovering clusters with uneven densities
Hussain et al. Clustering uncertain graphs using ant colony optimization (ACO)
Diao et al. Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph
CN116029379B (zh) 空中目标意图识别模型构建方法
Pappula A Novel Binary Search Tree Method to Find an Item Using Scaling.
CN115208651B (zh) 基于逆习惯化机制的流聚类异常检测方法及系统
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
CN115292303A (zh) 数据处理方法及装置
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
CN111984812B (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
Meghdouri et al. Modeling data with observers
CN117746266B (zh) 一种基于半监督交互学习的树冠检测方法、装置及介质
Lu et al. K‐Nearest Neighbor Intervals Based AP Clustering Algorithm for Large Incomplete Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination