CN114153888A - 一种时间序列数据的异常值检测方法和装置 - Google Patents
一种时间序列数据的异常值检测方法和装置 Download PDFInfo
- Publication number
- CN114153888A CN114153888A CN202010933906.4A CN202010933906A CN114153888A CN 114153888 A CN114153888 A CN 114153888A CN 202010933906 A CN202010933906 A CN 202010933906A CN 114153888 A CN114153888 A CN 114153888A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- data
- neighborhood
- data point
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 190
- 238000001514 detection method Methods 0.000 title claims description 24
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013450 outlier detection Methods 0.000 claims description 7
- 230000002547 anomalous effect Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 238000012216 screening Methods 0.000 abstract description 2
- 238000004140 cleaning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种时间序列数据的异常值检测方法和装置,其中,所述方法包括:通过在一范围参数下确定待测时间序列数据中异常数据点的集合,即第一异常数据集合,然后利用第一异常数据集合中异常数据点之间的平均距离差,并利用阈值判断来在第二范围参数下重新检测异常数据点,以此尝试保留离群程度不明显的数据点,由此实现了对于异常的数据点和筛选和处理,提高了数据的准确性,为后续的数据分析提供了良好的基础。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种时间序列数据的异常值检测方法和装置。
背景技术
利用海洋潮流能发电,是一种可再生清洁能源。潮流海洋能具有永不枯竭、能量密度大、可预测性强等诸多优点,因此在近年来得到了广泛关注和大力发展,是新能源探索领域的一个热点。
在海洋潮流能发电的项目中,可以结合基于大数据和人工智能技术开发的物联网监控系统,从而更好的应对复杂的海洋环境,并全面的监控设备的工作状态。
可以理解的是,在海洋潮流能发电平台中采集得到的相关数据通常十分复杂,而且才采集到的数据中可能伴随有大量不准确的、异常的数据,这些异常数据将直接的影响到后续数据分析处理结果的准确性。如何从采集到的数据中有效甄别出异常的数据,是当前的一个技术难题。
发明内容
本发明提供一种时间序列数据的异常值检测方法和装置,通过计算确定离群数据点来实现异常数据的准确检测,以提高采集数据的准确性。
第一方面,本发明提供了一种时间序列数据的异常值检测方法,其包括:根据预设的第一范围参数,确定时间序列数据中离群程度异常的第一异常数据集合;计算所述第一异常数据集合相对于目标数据点的平均距离差;根据预设的阈值,判断所述平均距离差是否大于所述阈值;若是,则重新根据第二范围参数确定时间序列数据中离群程度异常的第二异常数据集合,所述第二范围参数大于所述第一范围参数;比较所述第一异常数据集合和第二异常数据集合的数量是否一致:若一致,则将所述第一异常数据集合作为异常值,并输出;若不一致,则将所述第二异常数据集合作为异常值,并输出;若否,则将所述第一异常数据集合作为异常值,并输出。
优选地,所述确定时间序列数据中离群程度异常,具体包括步骤:根据预设的范围参数确定目标数据点的邻域范围;并确定邻域范围内的邻域数据集合;所述邻域数据集合中包括至少一个邻域数据点;根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度;根据所述第一可达密度确定所述目标数据点的离群指数;当所述离群指数满足预设条件,则将所述目标数据点确定为离群数据点,并对所述离群数据点进行清洗处理。
优选地,所述范围参数包括第一范围参数和第二范围参数;当所述范围参数为第一范围参数时,将离群程度异常的数据点确定为第一异常数据集合;当所述范围参数为第二范围参数时,将离群程度异常的数据点确定为第二数据点。
优选地,所述目标数据点为P,所述范围参数为k,则所述根据预设的范围参数确定目标数据点的邻域范围,并确定邻域范围内的邻域数据集合包括:
确定第一数据点O0,并将目标数据点P到第一数据点O0的距离作为第一邻域距离;
以目标数据点P为圆心,以所述第一邻域距离为半径确定一个圆形范围;
以圆形范围作为所述邻域范围,并满足所述邻域范围内的第二数据点的数量至多为k-1个;
将所述第一数据点和第二数据点确定为邻域数据点;并根据所述邻域数据点建立邻域数据集合;
其中,k为正整数。
优选地,根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度包括:
确定各所述邻域数据点到所述目标数据点之间的可达距离;
根据各所述可达距离确定所述目标数据点的第一可达密度。
优选地,所述邻域数据点为O,则所述确定所述邻域数据点到所述目标数据点之间的可达距离包括:
确定邻域数据点O到目标数据点P的距离d(P,O);
确定邻域数据点O对应的第二邻域距离dk(O);
则所述邻域数据点到所述目标数据点之间的可达距离reach_dist(P,O)为,
reach_dist(P,O)=max{d(P,O),dk(O)}。
优选地,所述根据各所述可达距离确定所述目标数据点的第一可达密度包括:
其中,lrd(P)代表所述目标数据点的第一可达密度;Nk(P)代表所述邻域数据集合,|Nk(P)|代表所述邻域数据集合中数据点的数量;O代表任一邻域数据点;代表各所述邻域数据点到所述目标数据点之间的可达距离之和。
优选地,所述根据所述第一可达密度确定所述目标数据点的离群指数包括:
确定各所述邻域数据点对应的第二可达密度;
根据所述第一可达密度和各所述第二可达密度,确定所述目标数据点的离群指数。
优选地,所述计算所述第一异常数据集合相对于目标数据点的平均距离差,具体包括步骤:计算所述第一异常数据集合相对于目标数据点的直线距离;选择所述第一异常数据集合的其中一个异常数据点为参考,分别计算与其他异常数据点之间的直线距离的差值;计算所述差值的平均值,作为所述第一异常数据集合的平均距离差。
第二方面,本发明提供了一种时间序列数据的异常值检测装置,其包括:第一异常值检测模块,被配置为根据预设的第一范围参数,确定时间序列数据中离群程度异常的第一异常数据集合;异常值距离计算模块,被配置为计算所述第一异常数据集合相对于目标数据点的平均距离差;距离判断模块,被配置为根据预设的阈值,判断所述平均距离差是否大于所述阈值;第二异常值检测模块,被配置为若是,则重新根据第二范围参数确定时间序列数据中离群程度异常的第二异常数据集合,所述第二范围参数大于所述第一范围参数;异常检测比较模块,被配置为比较所述第一异常数据集合和第二异常数据集合的数量是否一致:若一致,则将所述第一异常数据集合作为异常值,并输出;若不一致,则将所述第二异常数据集合作为异常值,并输出;异常值输出模块,被配置为若否,则将所述第一异常数据集合作为异常值,并输出。
本发明提供了一种时间序列数据的异常值检测方法和装置,通过在一范围参数下确定待测时间序列数据中异常数据点的集合,即第一异常数据集合,然后利用第一异常数据集合中异常数据点之间的平均距离差,并利用阈值判断来在第二范围参数下重新检测异常数据点,以此尝试保留离群程度不明显的数据点,由此实现了对于异常的数据点和筛选和处理,提高了数据的准确性,为后续的数据分析提供了良好的基础。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的时间序列数据的异常值检测方法的流程图;
图2为图1中确定时间序列数据中离群程度异常的流程图;
图3为本发明一实施例提供的异常值检测中领域范围的示意图;
图4为图1中计算第一异常数据集合的平均距离差的实现流程图;
图5为本发明一实施例提供的时间序列数据的异常值检测装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在海洋潮流能发电的项目中采集得到的相关数据通常十分复杂,而且可能伴随有大量不准确的、异常的数据,将直接的影响到后续数据分析处理结果的准确性。现有技术中缺少一种针对性的数据异常检测的技术,以解决这一技术问题。本发明提供一种时间序列数据的异常值检测方法和装置,通过计算确定离群数据点来实现异常数据的准确检测,以提高采集数据的准确性。
参见图1所示,为本发明提供的时间序列数据的异常值检测方法的具体实施例。本实施例中,所述方法具体包括以下步骤S110-S162:
S110:根据预设的第一范围参数,确定时间序列数据中离群程度异常的第一异常数据集合。
具体的,图2为图1中确定时间序列数据中离群程度异常的流程图,结合图2所示,所述确定时间序列数据中离群程度异常,具体包括步骤S210-S250:
步骤210:根据预设的范围参数确定目标数据点的邻域范围。
目标数据点为本实施例中所针对的数据点,例如,基于时间进行采集得到的待检测时间序列数据。本实施例中方法即是为了确定目标数据点是否异常,并在其异常的情况下进行异常数据点进一步的检测处理。本实施例中认为,数据点的分布通常有较为明显的规律性,正常的数据点往往会较为密集的分布在一定范围内。相反具有“离群”特点的数据点则大概率为异常。本实施例中正是基于这一原理对目标数据点进行分析。本实施例中,目标数据点可以用P来表示。
步骤220:确定邻域范围内的邻域数据集合;所述邻域数据集合中包括至少一个邻域数据点。
本实施例中可确定一个范围参数,范围参数可以用正整数k来表示。范围参数的具体数值可以根据需求和经验进行设定,在此不赘述。利用范围参数可以确定目标数据点的邻域范围。
具体的,可以确定与目标数据点P的距离由近到远顺序的第k个数据点为第一数据点O0。并将目标数据点P到第一数据点O0的距离d(P,O0)作为第一邻域距离。当然,若还可能存在距目标数据点P的距离等于第一邻域距离的其他数据点,则此时第一数据点的数量可以为多个。第一邻域距离也可成为目标数据点P的k距离,所述k距离可以以dk(P)来表示。
然后以目标数据点P为圆心,以所述第一邻域距离d(P,O0)为半径确定一个圆形范围。该圆形范围即是目标数据点P对应的邻域范围,如图3所示。可以理解的是,该邻域范围内将包括k-1个距离目标数据点(相对于第一数据点)更近的第二数据点。将所述第一数据点和第二数据点确定为邻域数据点;并根据所述邻域数据点建立邻域数据集合。本实施例中,邻域数据集合以Nk(P)表示。|Nk(P)|则代表所述邻域数据集合中数据点的数量。当上述第一数据点的数量为1个,则|Nk(P)|=k;反之当第一数据点的数量大于1,则|Nk(P)|>k。
本实施例中假设k=5,则通过图3可以看出,邻域范围内包括了O1-O4共4个(k-1个)第二数据点,邻域范围的边缘则有第一数据点O0。此时邻域数据集合中则包括了O0-O4共5个邻域数据点。
步骤230:根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度。
本实施例中,将确定各所述邻域数据点到所述目标数据点之间的可达距离;根据各所述可达距离确定所述目标数据点的第一可达密度。
假设以O表示图3中O0-O4共5个邻域数据点中的任意一个。则可确定邻域数据点O到目标数据点P的距离d(P,O),邻域数据点O对应的第二邻域距离dk(O)。
需要说明的是,邻域数据点O对应的第二邻域距离的计算方式,与第一邻域距离同理。即在设定范围参数k数值不变的情况下,同理确定出邻域数据点O对应的邻域范围;并同时确定邻域数据点O对应的第二邻域距离dk(O),也就是邻域数据点O对应的k距离。
实际上,目标数据点P和邻域数据点O附近的数据点分布密度可能不同。所以当邻域数据点O附近数据点密度接近于或小于目标数据点P附近数据点密度时,目标数据点P则可能在邻域数据点O的邻域范围之内。如果邻域数据点O附近数据点密度大于目标数据点P附近数据点密度时,则目标数据点P也可能不在邻域数据点O的邻域范围之内。当目标数据点P在邻域数据点O的邻域范围之内,则二者的距离d(P,O)将不大于邻域数据点O对应的第二邻域距离dk(O)。反之当目标数据点P可能不在邻域数据点O的邻域范围之内,则二者的距离d(P,O)将大于邻域数据点O对应的第二邻域距离dk(O)。
本实施例中,邻域数据点O到目标数据点P之间的可达距离reach_dist(P,O)的计算公式为:
reach_dist(P,O)=max{d(P,O),dk(O)}。
根据各邻域数据点的可达距离确定所述目标数据点的第一可达密度,即是计算各所述可达距离的平均数的倒数。其计算公式如下:
其中,lrd(P)代表所述目标数据点的第一可达密度;Nk(P)代表所述邻域数据集合,|Nk(P)|代表所述邻域数据集合中数据点的数量;O代表任一邻域数据点;代表各所述邻域数据点到所述目标数据点之间的可达距离之和。
根据可达距离的计算原理可以理解的是,当邻域数据点O附近数据点密度接近于或小于目标数据点P附近数据点密度,目标数据点P在邻域数据点O的邻域范围之内,即d(P,O)≤dk(O)时,则reach_dist(P,O)=dk(O)。反之当邻域数据点O附近数据点密度大于目标数据点P附近数据点密度,目标数据点P不在邻域数据点O的邻域范围之内,即d(P,O)>dk(O)时,reach_dist(P,O)=d(P,O)。、
那么显然可以推断,目标数据点P附近数据点密度较大时,reach_dist(P,O)数值较小,数值亦较小,所以lrd(P)的数值较大。相反如果目标数据点P附近数据点密度较小时,reach_dist(P,O)数值较大,数值亦较大,所以lrd(P)的数值较小。当lrd(P)的数值小于一定程度,则意味着目标数据点P附近数据点密度过低,说明目标数据点P可能具有“离群”的特点。
步骤240:根据所述第一可达密度确定所述目标数据点的离群指数。
本步骤中将根据第一可达密度确定目标数据点的离群指数,以具体的衡量目标数据点P附近数据点密度是否过低,以至于目标数据点P具有“离群”的特点。具体的,本实施例中可以确定各所述邻域数据点对应的第二可达密度;根据所述第一可达密度和各所述第二可达密度,确定所述目标数据点的离群指数。
对于第二可达密度的计算方式,同理于第一可达密度,在此不重复叙述。本实施例中,将邻域数据点O的第二可达密度表示为lrd(O)。各所述邻域数据点对应的第二可达密度之和则可表示为本实施例中将目标数据点P的离群指数表示为LOF(P),则为第二可达密度的平均值与第一可达密度的比值。其计算公式如下:
如果离群指数小于或接近于1,则说明目标数据点P附近的数据点密度正常。如果离群指数明显大于1,则说明目标数据点P附近的数据点密度较低,目标数据点P具有“离群”的特点。
步骤250:当所述离群指数满足预设条件,则将所述目标数据点确定为离群程度异常的数据点。
本实施例中,可以针对离群指数设定相应的指数阈值,例如设定为1.3。当离群指数大于该指数阈值时,说明目标数据点P具有“离群”的特点非常明显,应当将其确定为离群数据点,即为出现异常的数据点。
S120:计算所述第一异常数据集合相对于目标数据点的平均距离差。
具体的,这里第一异常数据集合与目标数据点之间的距离必然大于上述的第一邻域距离和第二邻域距离。考虑到,一般情况下第一异常数据集合中同样可能存在离群明显和离群不是特别明显的数据点。为此,可利用第一异常数据集合与目标数据点P之间的平均距离差,可以确定离群的明显程度。
在一些实施例中,图4为图1所示实施例中所述第一异常数据集合的平均距离差的实现流程图,结合图4所示,所述计算所述第一异常数据集合相对于目标数据点的平均距离差,可以具体包括步骤S410-S430:
步骤S410:计算所述第一异常数据集合相对于目标数据点的直线距离。
其中,上述第一异常数据集合可以是仅包括一个异常数据点,也可以是包括两个或两个以上的异常数据点,甚至为零个异常数据点,即没有异常数据,此时相当于直线距离为零。
步骤S420:选择所述第一异常数据集合的其中一个异常数据点为参考,分别计算与其他异常数据点之间的直线距离的差值。
结合上述示例可知,如果为仅有一个异常数据的情况时,则可知直接零差值为零,即不再进行二次检测。
步骤S430:计算所述差值的平均值,作为所述第一异常数据集合的平均距离差。
通过上述步骤,即可实现对于第一异常数据集合之间相对于目标数据点P的平均距离差。
S130:根据预设的阈值,判断所述平均距离差是否大于所述阈值。
具体的,所述阈值可以是预先设置的一个距离值,当然,这个距离值应当是考经第一领域距离或第二领域距离的。如果这个第一异常数据集合的平均距离差较大,那么意味着各异常数据之间距离相对目标数据点P较远,属于离群明显的情况;反之,则可以属于离群不太明显。
S141:若是,则重新根据第二范围参数确定时间序列数据中离群程度异常的第二异常数据集合,所述第二范围参数大于所述第一范围参数。
具体的,上述步骤S210中的范围参数可以包括第一范围参数和第二范围参数。其中,上述步骤S110中采用的范围参数即第一范围参数,而步骤S141中采用的范围参数则为第二范围参数。
相对应的,在上述步骤S110中,当所述范围参数为第一范围参数时,将离群程度异常的数据点确定为第一异常数据集合;在步骤S141中,当所述范围参数为第二范围参数时,将离群程度异常的数据点确定为第二异常数据集合。
此外,本步骤的具体实现方式可以参考上述步骤S110,这里不再赘述。
S150:比较所述第一异常数据集合和第二异常数据集合的数量是否一致。
根据上述描述可知,第一异常数据集合和第二异常数据集合是在不同参数范围下检测出异常数据集合,其中,第二异常数据集合的判断范围要比第一异常数据集合的范围大,故可以进一步将离群不明显的数据点保留,从而提高数据检测的准确性。
S161:若一致,则将所述第一异常数据集合作为异常值,并输出。
其中,在一致的情况下,说明通过扩大范围参数并离群不明显的数据点,故只需要将任一检测结果为做目标结果输出即可。
S162:若不一致,则将所述第二异常数据集合作为异常值,并输出。
与上述情况相反,不一致则表示在改变范围参数后有部分异常数据点被重新保留,故此时输出第二异常数据集合可以进一步提高数据监测的准确性。
S142:若否,则将所述第一异常数据集合作为异常值,并输出。
需要说明的是,在本实施例在检测出时间序列数据中离群程度异常的数据点后,可以对其进行清洗处理。例如,可以对所述异常值进行删除、视为空值、修正或忽略处理。本实施例中对此不做限定,在实际情况下可根据需求选择适当的数据清洗处理方式。
通过以上技术方案可知,本实施例中存在的有益效果是:通过确定目标数据点的邻域范围并确定邻域数据点,进而计算得到目标数据点的离群指数;根据离群指数得已判断目标数据点是否为异常;当所述离群指数满足预设条件,则将所述目标数据点确定为离群数据点,并对所述离群数据点进行清洗处理;由此实现了对于异常的数据点和筛选和处理,提高了数据的准确性,为后续的数据分析提供了良好的基础。
如图5所示,为本发明所述时间序列数据的异常值检测装置的一个具体实施例。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置500包括:
第一异常值检测模块510,被配置为根据预设的第一范围参数,确定时间序列数据中离群程度异常的第一异常数据集合;异常值距离计算模块520,被配置为计算所述第一异常数据集合相对于目标数据点的平均距离差;距离判断模块,被配置为根据预设的阈值,判断所述平均距离差是否大于所述阈值;第二异常值检测模块450,被配置为若是,则重新根据第二范围参数确定时间序列数据中离群程度异常的第二异常数据集合,所述第二范围参数大于所述第一范围参数;异常检测比较模块540,被配置为比较所述第一异常数据集合和第二异常数据集合的数量是否一致:若一致,则将所述第一异常数据集合作为异常值,并输出;若不一致,则将所述第二异常数据集合作为异常值,并输出;异常值输出模块550,被配置为若否,则将所述第一异常数据集合作为异常值,并输出。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种时间序列数据的异常值检测方法,其特征在于,包括:
根据预设的第一范围参数,确定时间序列数据中离群程度异常的第一异常数据集合;
计算所述第一异常数据集合相对于目标数据点的平均距离差;
根据预设的阈值,判断所述平均距离差是否大于所述阈值;
若是,则重新根据第二范围参数确定时间序列数据中离群程度异常的第二异常数据集合,所述第二范围参数大于所述第一范围参数;
比较所述第一异常数据集合和第二异常数据集合的数量是否一致:若一致,则将所述第一异常数据集合作为异常值,并输出;若不一致,则将所述第二异常数据集合作为异常值,并输出;
若否,则将所述第一异常数据集合作为异常值,并输出。
2.根据权利要求1所述的时间序列数据的异常值检测方法,其特征在于,所述确定时间序列数据中离群程度异常,具体包括步骤:
根据预设的范围参数确定目标数据点的邻域范围;
确定邻域范围内的邻域数据集合,所述邻域数据集合中包括至少一个邻域数据点;
根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度;
根据所述第一可达密度确定所述目标数据点的离群指数;
当所述离群指数满足预设条件,则将所述目标数据点确定为离群程度异常的数据点。
3.根据权利要求2所述的时间序列数据的异常值检测方法,其特征在于,所述范围参数包括第一范围参数和第二范围参数;
当所述范围参数为第一范围参数时,将离群程度异常的数据点确定为第一异常数据集合;
当所述范围参数为第二范围参数时,将离群程度异常的数据点确定为第二异常数据集合。
4.根据权利要求3所述的时间序列数据的异常值检测方法,其特征在于,所述目标数据点为P,所述范围参数为k,则所述根据预设的范围参数确定目标数据点的邻域范围,并确定邻域范围内的邻域数据集合包括:
确定第一数据点O0,并将目标数据点P到第一数据点O0的距离作为第一邻域距离;
以目标数据点P为圆心,以所述第一邻域距离为半径确定一个圆形范围;
以圆形范围作为所述邻域范围,并满足所述邻域范围内的第二数据点的数量至多为不超过k-1个;
将所述第一数据点和第二数据点确定为邻域数据点;并根据所述邻域数据点建立邻域数据集合;
其中,k为正整数。
5.根据权利要求4所述的时间序列数据的异常值检测方法,其特征在于,根据所述目标数据点和各所述邻域数据点,确定所述目标数据点的第一可达密度包括:
确定各所述邻域数据点到所述目标数据点之间的可达距离;
根据各所述可达距离确定所述目标数据点的第一可达密度。
6.根据权利要求5所述的时间序列数据的异常值检测方法,其特征在于,所述邻域数据点为O,则所述确定所述邻域数据点到所述目标数据点之间的可达距离包括:
确定邻域数据点O到目标数据点P的距离d(P,O);
确定邻域数据点O对应的第二邻域距离dk(O);
则所述邻域数据点到所述目标数据点之间的可达距离reach_dist(P,O)为,
reach_dist(P,O)=max{d(P,O),dk(O)}。
8.根据权利要求7所述的时间序列数据的异常值检测方法,其特征在于,所述根据所述第一可达密度确定所述目标数据点的离群指数包括:
确定各所述邻域数据点对应的第二可达密度;
根据所述第一可达密度和各所述第二可达密度,确定所述目标数据点的离群指数。
9.根据权利要求1-8任一项所述的时间序列数据的异常值检测方法,其特征在于,所述计算所述第一异常数据集合相对于目标数据点的平均距离差,具体包括步骤:
计算所述第一异常数据集合相对于目标数据点的直线距离;
选择所述第一异常数据集合的其中一个异常数据点为参考,分别计算与其他异常数据点之间的直线距离的差值
计算所述差值的平均值,作为所述第一异常数据集合的平均距离差。
10.一种时间序列数据的异常值检测装置,其特征在于,包括:
第一异常值检测模块,被配置为根据预设的第一范围参数,确定时间序列数据中离群程度异常的第一异常数据集合;
异常值距离计算模块,被配置为计算所述第一异常数据集合相对于目标数据点的平均距离差;
距离判断模块,被配置为根据预设的阈值,判断所述平均距离差是否大于所述阈值;
第二异常值检测模块,被配置为若是,则重新根据第二范围参数确定时间序列数据中离群程度异常的第二异常数据集合,所述第二范围参数大于所述第一范围参数;
异常检测比较模块,被配置为比较所述第一异常数据集合和第二异常数据集合的数量是否一致:若一致,则将所述第一异常数据集合作为异常值,并输出;若不一致,则将所述第二异常数据集合作为异常值,并输出;
异常值输出模块,被配置为若否,则将所述第一异常数据集合作为异常值,并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010933906.4A CN114153888A (zh) | 2020-09-08 | 2020-09-08 | 一种时间序列数据的异常值检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010933906.4A CN114153888A (zh) | 2020-09-08 | 2020-09-08 | 一种时间序列数据的异常值检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114153888A true CN114153888A (zh) | 2022-03-08 |
Family
ID=80460646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010933906.4A Pending CN114153888A (zh) | 2020-09-08 | 2020-09-08 | 一种时间序列数据的异常值检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114153888A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881167A (zh) * | 2022-05-24 | 2022-08-09 | 北京百度网讯科技有限公司 | 异常检测方法、装置、电子设备和介质 |
CN116070354A (zh) * | 2023-03-07 | 2023-05-05 | 南京天洑软件有限公司 | 基于智能补点的船型代理模型构建方法及装置 |
CN116226777A (zh) * | 2023-05-08 | 2023-06-06 | 湖南农业大学 | 基于等差距离重构时间序列的异常值检测方法和装置 |
CN116861419A (zh) * | 2023-09-05 | 2023-10-10 | 国网江西省电力有限公司信息通信分公司 | 一种ssr上主动防御日志告警方法 |
CN116955737A (zh) * | 2023-09-19 | 2023-10-27 | 源康(东阿)健康科技有限公司 | 一种用于明胶生产过程中异常特征检索方法 |
CN117421687A (zh) * | 2023-12-18 | 2024-01-19 | 圣道天德电气(山东)有限公司 | 一种数字化电力环网柜运行状态监测方法 |
-
2020
- 2020-09-08 CN CN202010933906.4A patent/CN114153888A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881167A (zh) * | 2022-05-24 | 2022-08-09 | 北京百度网讯科技有限公司 | 异常检测方法、装置、电子设备和介质 |
CN116070354A (zh) * | 2023-03-07 | 2023-05-05 | 南京天洑软件有限公司 | 基于智能补点的船型代理模型构建方法及装置 |
CN116226777A (zh) * | 2023-05-08 | 2023-06-06 | 湖南农业大学 | 基于等差距离重构时间序列的异常值检测方法和装置 |
CN116861419A (zh) * | 2023-09-05 | 2023-10-10 | 国网江西省电力有限公司信息通信分公司 | 一种ssr上主动防御日志告警方法 |
CN116861419B (zh) * | 2023-09-05 | 2023-12-08 | 国网江西省电力有限公司信息通信分公司 | 一种ssr上主动防御日志告警方法 |
CN116955737A (zh) * | 2023-09-19 | 2023-10-27 | 源康(东阿)健康科技有限公司 | 一种用于明胶生产过程中异常特征检索方法 |
CN116955737B (zh) * | 2023-09-19 | 2023-11-28 | 源康(东阿)健康科技有限公司 | 一种用于明胶生产过程中异常特征检索方法 |
CN117421687A (zh) * | 2023-12-18 | 2024-01-19 | 圣道天德电气(山东)有限公司 | 一种数字化电力环网柜运行状态监测方法 |
CN117421687B (zh) * | 2023-12-18 | 2024-03-15 | 圣道天德电气(山东)有限公司 | 一种数字化电力环网柜运行状态监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114153888A (zh) | 一种时间序列数据的异常值检测方法和装置 | |
CN110659693B (zh) | 基于k近邻分类的配电网快速拓扑识别方法、系统及介质 | |
CN110995153B (zh) | 一种光伏电站的异常数据检测方法、装置及电子设备 | |
JP2003526859A5 (zh) | ||
CN105954695B (zh) | 一种基于同步的同质传感器突变参数识别方法与装置 | |
KR102169452B1 (ko) | IoT 기상환경 수집 데이터의 안정성 확보 방법 | |
CN111275307A (zh) | 一种水质自动在线站高频连续观测数据质量控制方法 | |
CN113011481A (zh) | 一种基于决策树算法的电能表功能异常评估方法及系统 | |
CN112416662A (zh) | 多时间序列数据异常检测方法与装置 | |
CN111161097B (zh) | 基于假设检验的事件检测算法检测开关事件的方法和装置 | |
Rizvi et al. | Synchrophasor based ZIP parameters tracking using ML with adaptive window and data anomalies | |
CN111929489B (zh) | 故障电弧电流的检测方法及系统 | |
CN117150244A (zh) | 基于电参数分析的智能配电柜状态监测方法及系统 | |
CN111273126B (zh) | 一种配电网拓扑快速感知方法 | |
CN115343579B (zh) | 一种电网故障分析方法、装置及电子设备 | |
CN106646106A (zh) | 基于变点探测技术的电网故障检测方法 | |
CN114912356A (zh) | 冲击性负荷的分段概率谐波模型构建方法 | |
Rosli et al. | Improving state estimation accuracy through incremental meter placement using new evolutionary strategy | |
CN113554079A (zh) | 一种基于二次检测法的电力负荷异常数据检测方法及系统 | |
CN110162806B (zh) | 一种仿真误差评估方法及系统 | |
CN112085053B (zh) | 一种基于最近邻方法的数据漂移判别方法及装置 | |
Mezache et al. | Threshold optimization of decentralized CFAR Detection in Weibull clutter using genetic algorithms | |
CN105404736B (zh) | 基于多源置信模糊信息的严酷度计算方法 | |
CN117113248B (zh) | 基于数据驱动的燃气气量数据异常检测方法 | |
CN118091489B (zh) | 一种输电线路玻璃绝缘子状态的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |