CN113536066A - 一种数据异常检测算法确定方法、装置及计算机设备 - Google Patents
一种数据异常检测算法确定方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113536066A CN113536066A CN202110803457.6A CN202110803457A CN113536066A CN 113536066 A CN113536066 A CN 113536066A CN 202110803457 A CN202110803457 A CN 202110803457A CN 113536066 A CN113536066 A CN 113536066A
- Authority
- CN
- China
- Prior art keywords
- data
- fingerprint information
- detected
- anomaly detection
- detection algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 230
- 238000001514 detection method Methods 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 230000015654 memory Effects 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 9
- 230000002068 genetic effect Effects 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Abstract
本发明公开了一种数据异常检测算法确定方法、装置及计算机设备,该方法包括:获取待检测数据;根据预设特征提取工具对所述待检测数据进行特征提取,得到所述待检测数据的指纹信息;根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法。本发明通过对待检数据进行特征提取,与提前设置好的预设算法选择模型中的多个数据的指纹信息进行特征匹配,根据匹配度最高的指纹信息对应的异常检测算法确定该待检测数据的异常检测算法,可以实现根据数据特征变化,实时选择最适应该待检测数据的异常检测算法,场景适应能力强,通用性较好。
Description
技术领域
本发明涉及数据异常检测技术领域,具体涉及一种数据异常检测算法确定方法、装置及计算机设备。
背景技术
随着物联网技术的发展,流数据会被快速的收集。在流数据收集的实时场景中,存在各种各样的异常流数据,准确、及时的捕获这些异常流数据对于特定的应用系统来说至关重要。目前异常检测算法(Anomaly Detection Algorithms,ADA)已在许多运维监控平台中被广泛使用。但是,可以应用于这些流数据的异常检测算法的种类繁多,每一种异常检测算法都有各自的适用场景。
相关技术中,对流数据进行异常检测时,通常针对特定场景或数据建立特定的异常检测模型,每种类型的异常检测算法最好的预测结果仅针对一组特定的流数据,对流数据的异常检测方法不能随着场景变化或者数据特征变化而灵活切换,通用性较低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中针对特定场景或数据建立特定的异常检测模型,对数据的异常检测方法不能随着场景变化或者数据特征变化而灵活切换,通用性较低的缺陷,从而提供一种数据异常检测算法确定方法、装置及计算机设备。
根据第一方面,本发明公开了一种数据异常检测算法确定方法,包括如下步骤:获取待检测数据;根据预设特征提取工具对所述待检测数据进行特征提取,得到所述待检测数据的指纹信息;根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与所述待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定所述待检测数据的异常检测算法。
可选地,所述根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配包括:根据预设选择算法对所述待检测数据的指纹信息进行特征筛选,得到筛选后的指纹信息,根据所述筛选后的指纹信息与预设算法选择模型中的指纹信息进行特征匹配。
可选地,所述预设算法选择模型通过如下步骤确定:获取历史数据以及与所述历史数据对应的异常检测算法;根据预设特征提取工具对所述历史数据进行特征提取,得到所述历史数据的指纹信息;根据所述历史数据的指纹信息和与所述历史数据对应的异常检测算法确定所述预设算法选择模型。
可选地,所述根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与所述待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定所述待检测数据的异常检测算法,包括:分别计算所述待检测数据的指纹信息和每一个所述历史数据的指纹信息的相似度;根据所述相似度确定所述待检测数据的参照历史数据;根据与所述参照历史数据对应的异常检测算法确定所述待检测数据的异常检测算法。
可选地,所述参照历史数据的数量为多个,所述方法还包括:确定与多个参照历史数据对应的异常检测算法的选择权重;将最大选择权重对应的异常检测算法确定为所述待检测数据的异常检测算法。
可选地,所述方法还包括:当获取到新的异常检测算法时,将所述新的检测算法添加到所述预设算法选择模型中。
可选地,所述预设特征提取工具包括:Tsfresh工具、通用异常检测系统以及统计工具。
根据第二方面,本发明还公开了一种数据异常检测算法确定装置,包括:待检测数据获取模块,用于获取待检测数据;第一特征提取模块,用于根据预设特征提取工具对所述待检测数据进行特征提取,得到所述待检测数据的指纹信息;第一确定模块,用于根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与所述待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定所述待检测数据的异常检测算法。
根据第三方面,本发明还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的数据异常检测算法确定方法的步骤。
根据第四方面,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的数据异常检测算法确定方法的步骤。
本发明技术方案,具有如下优点:
本发明提供的数据异常检测算法确定方法及装置,通过获取待检测数据;根据预设特征提取工具对待检测数据进行特征提取,得到待检测数据的指纹信息;根据待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法。本发明通过对待检数据进行特征提取,与提前设置好的预设算法选择模型中的多个数据的指纹信息进行特征匹配,根据匹配度最高的指纹信息对应的异常检测算法确定该待检测数据的异常检测算法,可以实现根据数据的特征变化,实时选择最适应该待检测数据的异常检测算法,场景适应能力强,通用性较好,可以更快、更准确地进行数据异常检测。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中流数据的分布模式的一个具体示例图;
图2为本发明实施例中数据异常检测算法确定方法的一个具体示例的流程图;
图3为本发明实施例中基于特征(指纹)抽取的异常检测算法选择的一个具体示例图;
图4(a)为本发明实施例中指纹信息中简单特征的一个具体示例图;
图4(b)为本发明实施例中指纹信息中复杂特征的一个具体示例图;
图5为本发明实施例中异常检测算法选择的一个具体示例图;
图6为本发明实施例中待检测数据的指纹信息筛选的一个具体示例图;
图7为本发明实施例中从预设算法选择模型中匹配待检测数据的异常检测算法的一个具体示例图;
图8为本发明实施例中数据异常检测算法确定装置的一个具体示例的原理框图;
图9为本发明实施例中计算机设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
异常检测算法(ADA)已经在许多运维监控平台中广泛使用,随着流数据量的增加,异常检测算法将会有更多的使用场景。图1表示流数据的异常检测涉及到多个不同的模式,包括:平稳性和局部涨落、趋势和局部波动、季节性、季节性和趋势等,这些不同数据分布模式,就可以用不同的异常检测算法来处理,即针对不同的流数据作算法选择是可行的,然而实时选择合适的异常检测算法(ADA)对流数据进行异常检测仍是一项艰巨的任务,为了进行准确的在线异常数据检测,本发明实施例公开了一种数据异常检测算法确定方法,如图2所示,包括如下步骤:
S11:获取待检测数据。
示例性地,该待检测数据可以为流数据,可选地,该流数据可以为时序数据,时间序列数据是按时间顺序记录的数据列,该流数据可以为各种物联网场景领域的,例如,网络监控、传感器网络、航空航天、气象测控和金融服务等。其获取方法可以为通过网络实时获取。本发明实施例对流数据的领域不作具体限定,本领域技术人员可以根据实际情况确定。
S12:根据预设特征提取工具对待检测数据进行特征提取,得到待检测数据的指纹信息。
示例性地,该预设特征提取工具可以包括:Tsfresh工具、通用异常检测系统(Extendible Generic Anomaly Detection System,EGADS)以及常用的统计工具,例如,实现平均值计算、标准差计算的工具等。本发明实施例对该预设特征提取工具不作具体限定,本领域技术人员可以根据实际情况确定。
如图3所示,对待检测数据即图3中的新的流数据或者历史数据进行特征提取,可以得到趋势、季节性、对称性等特征。指纹信息可以包括流数据的基本特征,包括:如图4(a)所示的最大值、平均值、峰值数量等简单特征信息,还包括如图4(b)所示的峰度、偏度、周期性、对称性、线性拟合度、波动等复杂特征信息。这些简单特征信息和复杂特征信息从不同的角度表征上述待检测数据,每个特征信息都有特定的几何解释或统计意义,例如,数据的分布,波动和形状。本发明实施例可以采用局部波动,对称值度量和波动率来表征各个流数据。
本发明实施例对该待检测数据的指纹信息的数量(例如,100个)不作具体限定,本领域技术人员可以根据实际情况确定。
S13:根据待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法。
示例性地,如图5所示,该预设算法选择模型中存储有数据(数据的指纹信息)-异常检测算法对,例如,<DATA_1,算法_a>。预设算法选择模型中的每个数据可以对应一个异常检测算法,也可以对应多个异常检测算法,本发明实施例对数据(数据的指纹信息)-异常检测算法对的对应关系不作具体限定,本领域技术人员可以根据实际情况确定。
根据待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法具体可以为:预设算法选择模型中存储有多个数据(数据的指纹信息)-异常检测算法对,即<DATA_1,算法_a>、<DATA_2,算法_b>、<DATA_3,算法_a>……,然后针对待检测数据,通过特征匹配,在预设算法选择模型中找出与待检测数据相似的一个或者多个数据,根据上述一个或者多个数据的异常检测算法确定为待检测数据的异常检测算法,具体地,当与待检测数据相似的数据的数量为一个且该数据对应一个异常检测算法时,将该数据对应的异常检测算法确定为待检测数据的异常检测算法;当与待检测数据相似的数据的数量为多个或者与待检测数据相似的数据的数量为一个但该数据对应多个异常检测算法时,将上述数据对应的异常检测算法进行排序,找出适合待检测数据的异常检测算法。
作为本发明实施例一个可选实施方式,该预设算法选择模型可以通过如下步骤得到:
首先,获取历史数据以及与历史数据对应的异常检测算法。
示例性地,该历史数据为流数据,与待检测数据一样,该历史数据也可以为各种物联网场景的。如图5所示,该异常检测算法可以包括:控制图算法、水平位移检测算法、孤立森林算法、PCA算法、局部异常因子(LOF)算法、One-Class-SVM算法、Fast ABOD算法、K-Means算法等。本发明实施例对该异常检测算法不作具体限定,本领域技术人员可以根据实际情况确定。该历史数据与异常检测算法是对应的。
上述历史数据以及与其对应的异常检测算法获取方法可以包括:搜索引擎搜索获取,也可以根据网络从各个应用领域的历史数据库获取,本发明实施例对该历史数据以及预期对应的异常检测算法的获取方法不作具体限定,本领域技术人员可以根据实际情况确定。
其次,根据预设特征提取工具对历史数据进行特征提取,得到历史数据的指纹信息。具体实现方式见上述实施例中步骤S12的相关描述,在此不再赘述。
再次,根据历史数据的指纹信息和与历史数据对应的异常检测算法确定预设算法选择模型。将历史数据中的流数据经过特征抽取后得到其指纹信息,可以将该指纹信息与适用于该流数据的异常检测算法进行组合,形成该预设算法选择模型。
本发明提供的数据异常检测算法确定方法,通过获取待检测数据;根据预设特征提取工具对待检测数据进行特征提取,得到待检测数据的指纹信息;根据待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法。本发明通过对待检数据进行特征提取,与提前设置好的预设算法选择模型中的多个数据的指纹信息进行特征匹配,根据匹配度最高的指纹信息对应的异常检测算法确定该待检测数据的异常检测算法,可以实现根据数据的特征变化,实时选择最适应该待检测数据的异常检测算法,场景适应能力强,通用性较好,可以更快、更准确地进行数据异常检测。
作为本发明实施例一个可选实施方式,上述步骤S13包括:
根据预设选择算法对待检测数据的指纹信息进行特征筛选,得到筛选后的指纹信息,根据筛选后的指纹信息与预设算法选择模型中的指纹信息进行特征匹配。
示例性地,该预设选择算法可以为遗传算法(Genetic Algorithm,GA)。遗传算法的原理就是通过随机挑选个体,度量个体的适应度,再通过交叉、变异、筛选个体的方式,一代代的进化,从而找出最优的个体。该遗传算法用于从指纹信息中筛选一批指纹信息子集,这些指纹信息子集被用来表征当前待检测数据。如图6所示,先利用预设特征提取工具对获取到的时序数据进行特征提取,然后利用遗传算法对提取到的特征进行筛选,其中,遗传算法的过程包括:适应度计算、选择、交叉、变异等,其中,适应度计算包括两个步骤:首先解码得到指纹信息子集,然后基于各个指纹信息子集计算适应度,适应度用于度量指纹信息子集的优劣,从而在遗传算法在帮助寻找最优的指纹信息子集,适应度的计算是利用指纹信息子集对算法的辨别力来量化。
本发明实施例采用的编码方式是1010110110110…,其中1表示该位置的指纹信息入选指纹信息子集,0表示该位置的指纹信息不入选指纹信息子集。比如总共提取了300维特征,则编码长度为300,每个位置都是0或者1,经过遗传算法的寻优,找出最优个体,该个体的基因就是这样一个300维的向量,向量里面的1对应的特征被挑选出来构成指纹信息子集。
本发明实施例通过采用预设选择算法对得到的特性信息进行选择,从而进一步降低异常检测算法匹配过程的计算复杂度。
作为本发明实施例一个可选实施方式,上述步骤S13包括:
首先,分别计算待检测数据的指纹信息和每一个历史数据的指纹信息的相似度。
示例性地,该相似度的计算方法可以包括:欧式距离、曼哈顿距离、余弦相似度等。本发明实施例对该相似度的计算方法不作具体限定,本领域技术人员可以根据实际情况确定。在本发明实施例中,该相似度可以用欧式距离表征,具体地:
其中,L表示欧式距离即相似度;xi表示待检测数据的第i个指纹信息;yi表示历史数据的第i个指纹信息;n表示指纹信息的数量。
其次,根据相似度确定待检测数据的参照历史数据。
示例性地,该参照历史数据的数量可以为一个,也可以为多个,本发明实施例对该参照历史数据的数量不作具体限定,本领域技术人员可以根据实际情况确定。
在本发明实施例中,确定参照历史数据的方法可以为:对各个相似度从大到小进行排序,将满足预设条件的历史数据确定为参照历史数据。该预设条件可以包括:欧式距离在预设范围(例如,小于0.5)内,也可以为按照排序选择预设数量(例如,2个)。本发明实施例对该预设条件、预设范围以及预设数量均不作具体限定,本领域技术人员可以根据实际情况确定。
再次,将与参照历史数据对应的异常检测算法确定为待检测数据的异常检测算法。具体实现方式见上述实施例中步骤S13的相关描述,在此不再赘述。
本发明实施例通过计算待检测数据的指纹信息与预设算法选择模型中的指纹信息的相似度确定与待检测数据的相似的数据,进而确定其异常检测算法,使得得到的待检测数据的异常检测算法更加准确。
作为本发明实施例一个可选实施方式,上述参照历史数据的数量为多个,如图7所示,需要从多个异常检测算法中确定待检测数据的异常检测算法,具体地,该数据的异常检测算法确定方法还包括:
首先,确定与多个参照历史数据对应的异常检测算法的选择权重。
示例性地,该选择权重可以根据该异常检测算法之前对流数据的异常检测情况确定,例如,每一种异常检测算法都有一个初始权重,当异常检测成功时,在初始权重的基础上增加其权重,当异常检测出现差错时,在初始权重的基础上降低其权重。
其次,将最大选择权重对应的异常检测算法确定为待检测数据的异常检测算法。
本发明实施例通过结合每一种异常检测算法之前的异常检测情况来确定待检测数据的异常检测算法,得到的异常检测算法异常检测效果更好。
作为本发明实施例一个可选实施方式,该数据异常检测算法确定方法还包括:
当获取到新的异常检测算法时,将新的检测算法添加到预设算法选择模型中。
示例性地,该新的异常检测算法可以包括:新设计的异常检测算法以及之前没有存在于该预设算法选择模型中的异常检测算法。本发明可以将新的异常检测算法动态添加到预设算法选择模型中,便于算法的扩充,而且随着数据量的增加,当有新的流数据特征出现,或者已有的流数据找到更加匹配的算法时,可以在算法选择模型中进行动态的添加和修改,使得能够更准确的找到最适应当前待检测数据的异常检测算法。
在本发明实施例中,将获取到的新的异常检测算法添加到预设算法选择模型中后,利用该新的异常检测算法对预设算法选择模型中存储的历史数据进行异常检测,将其与异常检测结果较好的一个或者多个历史数据进行关联存储。
作为本发明实施例一个可选实施方式,预设算法选择模型的构建过程主要包括三个部分:(1)算法选择程序、(2)多种异常检测算法(ADAs)的封装以及(3)服务应用进程,将一些可公开获得的无监督异常检测算法进行合并,用于ADAs的开发,使用RESTful API来选择ADA(异常检测算法),算法的接收者可以定义个人视图来创建IOT应用,并且可以通过URI(统一资源标识符)来获得异常数据。
本发明实施例还公开了一种数据异常检测算法确定装置,如图8所示,包括:
待检测数据获取模块21,用于获取待检测数据;具体实现方式见上述实施例中步骤S11的相关描述,在此不再赘述。
第一特征提取模块22,用于根据预设特征提取工具对待检测数据进行特征提取,得到待检测数据的指纹信息;具体实现方式见上述实施例中步骤S12的相关描述,在此不再赘述。
第一确定模块23,用于根据待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法。具体实现方式见上述实施例中步骤S13的相关描述,在此不再赘述。
本发明提供的数据异常检测算法确定装置,通过获取待检测数据;根据预设特征提取工具对待检测数据进行特征提取,得到待检测数据的指纹信息;根据待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定待检测数据的异常检测算法。本发明通过对待检数据进行特征提取,与提前设置好的预设算法选择模型中的多个数据的指纹信息进行特征匹配,根据匹配度最高的指纹信息对应的异常检测算法确定该待检测数据的异常检测算法,可以实现根据数据的特征变化,实时选择最适应该待检测数据的异常检测算法,场景适应能力强,通用性较好,可以更快、更准确地进行数据异常检测。
作为本发明实施例一个可选实施方式,上述第一确定模块23包括:
筛选模块,用于根据预设选择算法对待检测数据的指纹信息进行特征筛选,得到筛选后的指纹信息,根据筛选后的指纹信息与预设算法选择模型中的指纹信息进行特征匹配。具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
作为本发明实施例一个可选实施方式,该数据异常检测算法确定装置还包括:
历史数据与异常检测算法获取模块,用于获取历史数据以及与历史数据对应的异常检测算法;具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
第二特征提取模块,用于根据预设特征提取工具对历史数据进行特征提取,得到历史数据的指纹信息;具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
第二确定模块,用于根据历史数据的指纹信息和与历史数据对应的异常检测算法确定预设算法选择模型。具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
作为本发明实施例一个可选实施方式,第一确定模块23包括:
计算模块,用于分别计算待检测数据的指纹信息和每一个历史数据的指纹信息的相似度;具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
参照历史数据确定模块,用于根据相似度确定待检测数据的参照历史数据;具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
第一确定子模块,用于将与参照历史数据对应的异常检测算法确定为待检测数据的异常检测算法。具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
作为本发明实施例一个可选实施方式,上述参照历史数据的数量为多个,该数据异常检测算法确定装置还包括:
第三确定模块,用于确定与多个参照历史数据对应的异常检测算法的选择权重;具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
第四确定模块,用于将最大选择权重对应的异常检测算法确定为待检测数据的异常检测算法。具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
作为本发明实施例一个可选实施方式,该数据异常检测算法确定装置还包括:
添加模块,用于当获取到新的异常检测算法时,将新的检测算法添加到预设算法选择模型中。具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
作为本发明实施例一个可选实施方式,上述预设特征提取工具包括:Tsfresh工具、通用异常检测系统以及统计工具。具体实现方式见上述实施例中对应的步骤的相关描述,在此不再赘述。
本发明实施例还提供了一种计算机设备,如图9所示,该计算机设备可以包括处理器31和存储器32,其中处理器31和存储器32可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的数据异常检测算法确定方法对应的程序指令/模块(例如,图8所示的待检测数据获取模块21、第一特征提取模块22和第一确定模块23)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的数据异常检测算法确定方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器31所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器32中,当被所述处理器31执行时,执行如图2所示实施例中的数据异常检测算法确定方法。
上述计算机设备具体细节可以对应参阅图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种数据异常检测算法确定方法,其特征在于,包括如下步骤:
获取待检测数据;
根据预设特征提取工具对所述待检测数据进行特征提取,得到所述待检测数据的指纹信息;
根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与所述待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定所述待检测数据的异常检测算法。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配包括:
根据预设选择算法对所述待检测数据的指纹信息进行特征筛选,得到筛选后的指纹信息,根据所述筛选后的指纹信息与预设算法选择模型中的指纹信息进行特征匹配。
3.根据权利要求1所述的方法,其特征在于,所述预设算法选择模型通过如下步骤确定:
获取历史数据以及与所述历史数据对应的异常检测算法;
根据预设特征提取工具对所述历史数据进行特征提取,得到所述历史数据的指纹信息;
根据所述历史数据的指纹信息和与所述历史数据对应的异常检测算法确定所述预设算法选择模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与所述待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定所述待检测数据的异常检测算法,包括:
分别计算所述待检测数据的指纹信息和每一个所述历史数据的指纹信息的相似度;
根据所述相似度确定所述待检测数据的参照历史数据;
根据与所述参照历史数据对应的异常检测算法确定所述待检测数据的异常检测算法。
5.根据权利要求4所述的方法,其特征在于,所述参照历史数据的数量为多个,所述方法还包括:
确定与多个参照历史数据对应的异常检测算法的选择权重;
将最大选择权重对应的异常检测算法确定为所述待检测数据的异常检测算法。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当获取到新的异常检测算法时,将所述新的检测算法添加到所述预设算法选择模型中。
7.根据权利要求1所述的方法,其特征在于,所述预设特征提取工具包括:Tsfresh工具、通用异常检测系统以及统计工具。
8.一种数据异常检测算法确定装置,其特征在于,包括:
待检测数据获取模块,用于获取待检测数据;
第一特征提取模块,用于根据预设特征提取工具对所述待检测数据进行特征提取,得到所述待检测数据的指纹信息;
第一确定模块,用于根据所述待检测数据的指纹信息与预设算法选择模型中的指纹信息进行特征匹配,根据与所述待检测数据的指纹信息最相似的指纹信息对应的异常检测算法确定所述待检测数据的异常检测算法。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的数据异常检测算法确定方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据异常检测算法确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110803457.6A CN113536066A (zh) | 2021-07-16 | 2021-07-16 | 一种数据异常检测算法确定方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110803457.6A CN113536066A (zh) | 2021-07-16 | 2021-07-16 | 一种数据异常检测算法确定方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536066A true CN113536066A (zh) | 2021-10-22 |
Family
ID=78128233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110803457.6A Pending CN113536066A (zh) | 2021-07-16 | 2021-07-16 | 一种数据异常检测算法确定方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536066A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391160A (zh) * | 2022-10-26 | 2022-11-25 | 北京必示科技有限公司 | 一种异常变更检测方法、装置、设备及存储介质 |
WO2023160459A1 (zh) * | 2022-02-24 | 2023-08-31 | 华为技术有限公司 | 一种人工智能算法模型获取方法及装置 |
CN116910755A (zh) * | 2023-09-13 | 2023-10-20 | 北京安天网络安全技术有限公司 | 一种文件检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110505196A (zh) * | 2019-07-02 | 2019-11-26 | 中国联合网络通信集团有限公司 | 物联网卡异常检测方法及装置 |
US20190370610A1 (en) * | 2018-05-29 | 2019-12-05 | Microsoft Technology Licensing, Llc | Data anomaly detection |
CN112084056A (zh) * | 2020-08-25 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 异常检测方法、装置、设备及存储介质 |
CN112329847A (zh) * | 2020-11-03 | 2021-02-05 | 北京神州泰岳软件股份有限公司 | 一种异常检测方法、装置、电子设备及存储介质 |
CN112783744A (zh) * | 2021-01-28 | 2021-05-11 | 深信服科技股份有限公司 | 数据检测方法、装置、设备、存储介质 |
-
2021
- 2021-07-16 CN CN202110803457.6A patent/CN113536066A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370610A1 (en) * | 2018-05-29 | 2019-12-05 | Microsoft Technology Licensing, Llc | Data anomaly detection |
CN110505196A (zh) * | 2019-07-02 | 2019-11-26 | 中国联合网络通信集团有限公司 | 物联网卡异常检测方法及装置 |
CN112084056A (zh) * | 2020-08-25 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 异常检测方法、装置、设备及存储介质 |
CN112329847A (zh) * | 2020-11-03 | 2021-02-05 | 北京神州泰岳软件股份有限公司 | 一种异常检测方法、装置、电子设备及存储介质 |
CN112783744A (zh) * | 2021-01-28 | 2021-05-11 | 深信服科技股份有限公司 | 数据检测方法、装置、设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
伊本贵士: "IoT最强教科书 完全版 5G时代物联网技术应用解密 人工智能(AI)的基石", 31 March 2020, 中国青年出版社, pages: 238 - 240 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023160459A1 (zh) * | 2022-02-24 | 2023-08-31 | 华为技术有限公司 | 一种人工智能算法模型获取方法及装置 |
CN115391160A (zh) * | 2022-10-26 | 2022-11-25 | 北京必示科技有限公司 | 一种异常变更检测方法、装置、设备及存储介质 |
CN116910755A (zh) * | 2023-09-13 | 2023-10-20 | 北京安天网络安全技术有限公司 | 一种文件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113536066A (zh) | 一种数据异常检测算法确定方法、装置及计算机设备 | |
CN111475680A (zh) | 检测异常高密子图的方法、装置、设备及存储介质 | |
CN111339129B (zh) | 远程抄表异常监测方法、装置、燃气表系统及云服务器 | |
CN108667684B (zh) | 一种基于局部向量点积密度的数据流异常检测方法 | |
CN109088869B (zh) | Apt攻击检测方法及装置 | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN113420652B (zh) | 一种时序信号片段异常识别方法、系统、介质及终端 | |
KR20170078252A (ko) | 시계열의 데이터를 모니터링 하는 방법 및 그 장치 | |
CN112232206B (zh) | 基于大数据和人工智能的人脸识别方法和人脸识别平台 | |
CN111626360B (zh) | 用于检测锅炉故障类型的方法、装置、设备和存储介质 | |
CN111882338A (zh) | 在线人数的异常检测方法、装置及电子设备 | |
CN114285612B (zh) | 一种异常数据检测的方法、系统、装置、设备及介质 | |
CN117076258A (zh) | 一种基于互联网云端的远程监控方法及系统 | |
CN109670549B (zh) | 火电机组的数据筛选方法、装置以及计算机设备 | |
CN114564814A (zh) | 一种针对稀疏数据的动态阈值高斯核密度估计系统和方法 | |
CN116740586A (zh) | 冰雹识别方法、装置、电子设备及计算机可读存储介质 | |
CN115932144B (zh) | 色谱仪性能检测方法、装置、设备和计算机介质 | |
CN115484112B (zh) | 支付大数据安全防护方法、系统及云平台 | |
CN114881540B (zh) | 确定水源治理方案的方法和装置、电子设备和存储介质 | |
CN114577988B (zh) | 一种纯蒸汽取样方法及系统 | |
CN113554079B (zh) | 一种基于二次检测法的电力负荷异常数据检测方法及系统 | |
CN115484044A (zh) | 一种数据状态的监控方法及系统 | |
CN112465073A (zh) | 一种基于距离的数值分布异常检测方法及检测系统 | |
CN113378350A (zh) | 一种温度变化趋势确定方法、装置及电子设备 | |
CN111371594B (zh) | 设备异常告警方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |