CN109918220A - 一种异常数据检测参数的确定方法及确定装置 - Google Patents

一种异常数据检测参数的确定方法及确定装置 Download PDF

Info

Publication number
CN109918220A
CN109918220A CN201910115413.7A CN201910115413A CN109918220A CN 109918220 A CN109918220 A CN 109918220A CN 201910115413 A CN201910115413 A CN 201910115413A CN 109918220 A CN109918220 A CN 109918220A
Authority
CN
China
Prior art keywords
data
section
parameter
abnormal
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910115413.7A
Other languages
English (en)
Other versions
CN109918220B (zh
Inventor
刘兰斌
张邯北
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nuanliu Technology Co ltd
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910115413.7A priority Critical patent/CN109918220B/zh
Publication of CN109918220A publication Critical patent/CN109918220A/zh
Application granted granted Critical
Publication of CN109918220B publication Critical patent/CN109918220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种异常数据检测参数的确定方法及确定装置,能够提升异常数据检测的性能。所述方法包括:获取待处理的数据集;设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据处理。本发明涉及数据处理领域。

Description

一种异常数据检测参数的确定方法及确定装置
技术领域
本发明涉及数据处理领域,特别是指一种异常数据检测参数的确定方法及确定装置。
背景技术
随着物联网和互联网技术的发展,在供热、空调、给水、排水等市政以及智能楼宇领域,市政系统中诸如压力、温度、流量、智能楼宇领域的诸如能源消耗、室内温度、湿度等参数的测量和采集都采用自动化仪表,测量数据自动采集,并实现数据远程传输。这种方式一方面使得数据能够实时采集,是系统实现自控的必要环节,另一方面实现了高频率的电子化数据,方便管理人员运行管理和故障的诊断、处理等功能,提高服务品质的同时大大降低了能源消耗。然而随着数据采集种类的越来越多,采集的频次越来越高,数据数量越来越大,异常数据的产生难以避免,从而影响服务质量、浪费能源甚至引起安全事故,因此在使用数据前必须进行异常数据的检测和剔除。
目前已经有一种基于距离的简单而又高效的异常数据检测方法,但是在实现该异常数据检测方法的过程中检测参数的选择存在一定困难,导致异常检测结果准确率低。
发明内容
本发明要解决的技术问题是提供一种异常数据检测参数的确定方法及确定装置,以解决现有技术所存在的难以准确确定检测参数的值,导致异常检测结果准确率低的问题。
为解决上述技术问题,本发明实施例提供一种异常数据检测参数的确定方法,包括:
获取待处理的数据集;
设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;
对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;
根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据处理;
其中,在优化区间数目参数时,不同组中的区间内数据数量阈值相同,区间数目不同;在优化区间内数据数量阈值参数时,不同组中的区间数目都为得到的最优区间数目,区间内数据数量阈值不同。
进一步地,所述确定每组异常数据检测参数下所述待处理的数据集中异常点数量包括:
S21,按照预先设置的区间数目N,将待处理的数据集等分成N个区间;
S22,统计落在每个区间范围上数据的数量;
S23,判断第一区间内的数据数量是否大于预先设置的区间内数据数量阈值k,若是,则第一区间为正常区间,否则,第一区间为异常点候选区间,其中,第一区间为任意区间;
S24,判断异常点候选区间内的任意数据是否满足预设的异常区间判断规则,若满足,则异常点候选区间为异常点区间;
S25,确定异常点区间中异常点数量。
进一步地,将待处理的数据集等分成N个区间,则区间间隔minD表示为:
其中,minValue和maxValue分别表示待处理的数据集中的最小数据和最大数据。
进一步地,第i个区间表示为:
Di=[minValue+(i-1)*minD,minValue+i*minD)
其中,i=1,……,N。
进一步地,所述判断异常点候选区间内的任意数据是否满足预设的异常区间判断规则,若满足,则异常点候选区间为异常点区间包括:
对于任意数据p∈S(k),若满足:
distance(p,q)=value(p)-value(q)>minD
q∈S(normal)
则异常点候选区间为异常点区间;
其中,S(k)表示异常点候选区间内所有数据的集合;S(normal)表示包含所有最初被标定为正常区间中的数据的集合;value(p)表示p的值;value(q)表示q的值;distance(p,q)表示p与q之间的距离。
进一步地,在优化区间数目时,设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列包括:
设置初始区间内数据数量阈值k0,分别设定区间数目参数N为固定步长的一系列数值:N1、N2...Ni...Nm,i=1,2…m,重复执行S21-S25,其中,在S21和S23中异常数据检测参数分别为N=Ni,k=k0,得到m个待优化的区间数目参数N对应的异常点数量,记为异常数据量序列NY。
进一步地,对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目包括:
对异常数据量序列NY按公式dNYi=NYi-NYi-1进行差分,得到差分序列dNY,其中,NYi和dNYi分别表示Ni对应的异常数据量序列和差分序列;
确定差分序列dNY的第一个极小值点,并得到该极小值点的序列号i,该序列号i对应的N值即为最优的区间数目参数Nbest
进一步地,在优化区间内数据数量阈值参数时,设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列包括:
分别设定区间内数据数量阈值参数k为固定步长的一系列数值:k1、k2...kj...kw,j=1,2…w,重复执行S21-S25,其中,在S21和S23中待优化的异常数据检测参数分别为N=Nbest,k=kj,得到w个待优化的区间内数据数量阈值参数k对应的异常点数量,记为异常数据量序列KY;
所述对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间内数据数量阈值包括:
对异常数据量序列KY按公式dKYj=KYj-KYj-1进行差分,得到差分序列dKY,其中,KYj和dKYj分别表示kj对应的异常数据量序列和差分序列;
确定差分序列dKY的第一个极小值点,并得到该极小值点的序列号j,该序列号j对应的k值即为最优的区间内数据数量阈值参数kbest
进一步地,所述根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据处理包括:
根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据检测、剔除和/或修正处理。
本发明实施例还提供一种异常数据检测参数的确定装置,包括:
采集模块,用于获取待处理的数据集;
参数优化模块,用于设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;
异常检测模块,根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据检测、剔除和/或修正处理;
其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;在优化区间数目参数时,不同组中的区间内数据数量阈值相同,区间数目不同;在优化区间内数据数量阈值参数时,不同组中的区间数目都为得到的最优区间数目,区间内数据数量阈值不同。
本发明的上述技术方案的有益效果如下:
上述方案中,获取待处理的数据集;设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列;对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;这样,能够自动优化选择异常数据检测算法的两个参数:区间数目和区间内数据数量阈值,从而提升异常数据检测的性能,有助于识别并剔除数据集中存在的异常点,对于数据的有效利用具有重要的实际意义。
附图说明
图1为本发明实施例提供的异常数据检测参数的确定方法的流程示意图;
图2为本发明实施例提供的异常数据检测参数的确定装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的难以准确确定检测参数的值,导致异常检测结果准确率低的问题,提供一种异常数据检测参数的确定方法及确定装置。
实施例一
如图1所示,本发明实施例提供的异常数据检测参数的确定方法,包括:
S1,获取待处理的数据集;
S2,设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;
S3,对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;
S4,根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据处理;
其中,在优化区间数目参数时,不同组中的区间内数据数量阈值相同,区间数目不同;在优化区间内数据数量阈值参数时,不同组中的区间数目都为得到的最优区间数目,区间内数据数量阈值不同。
本发明实施例所述的异常数据检测参数的确定方法,获取待处理的数据集;设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列;对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;这样,能够自动优化选择异常数据检测算法的两个参数:区间数目和区间内数据数量阈值,从而提升异常数据检测的性能,有助于识别并剔除数据集中存在的异常点,对于数据的有效利用具有重要的实际意义。
本发明实施例提供的异常数据检测参数的确定方法,具体可以包括以下步骤:
A11,获取待处理的数据集S。
本实施例中,获取的待处理的数据集S中的数据可以是数据库系统里的已经存在的数据,也可以是实时采集的数据,S中的元素数量大于1。即:可以在线实时对采集上来的数据进行异常数据检测参数优化,也可以将采集上来的数据先存储到数据库,然后在某个时间调出待处理的数据集进行异常数据检测参数优化选择。
A12,获取待处理的数据集S中的最小数据minValue和最大数据maxValue。
A13,按照取值范围(minValue,maxValue),将待处理的数据集S中的数据等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD根据式(1)表示为:
则第i个区间表示为:
Di=[minValue+(i-1)*minD,minValue+i*minD)
其中,i=1,……,N。
A14,统计落在每个区间Di范围上数据的数量。
A15,根据预先设置的区间内数据数量阈值k,确定各个区间的类别。
本实施例中,判断区间Di内的数据数量是否大于预先设置的区间内数据数量阈值k,若是,则区间Di为正常区间,否则,区间Di为异常点候选区间。
A16,判断异常点候选区间内的任意数据是否满足预设的异常区间判断规则,若满足,则异常点候选区间为异常点区间。
本实施例中,对于任意数据p∈S(k),判断是否满足式(2)所述的下列规则:
若满足,则异常点候选区间为异常点区间;
式(2)中,S(k)表示异常点候选区间内所有数据的集合;S(normal)表示包含所有最初被标定为正常区间中的数据的集合;value(p)表示p的值;value(q)表示q的值;distance(p,q)表示p与q之间的距离。
A17,基于步骤A16的规则,则可以按照下述方式进行操作:
第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;
第二,若某异常点候选区间与正常区间相邻,将其重新划分为正常区间。
剩余的异常点候选区间将作为异常点区间,包含在这些异常点区间内的点即为异常点,记录异常点数量。
A18,设置初始区间内数据数量阈值k0,分别设定区间数目N为固定步长的一系列数值,N1、N2...Ni...Nm,i=1,2…m,重复步骤A13-A17,其中,在步骤A13和步骤A15中异常数据检测参数分别为N=Ni(i=1,2…m),k=k0,得到m个待优化的区间数目参数N对应的异常点数量,记为异常数据量序列NY。
A19,对异常数据量序列NY按公式dNYi=NYi-NYi-1进行差分,得到差分序列dNY,其中,NYi和dNYi分别表示Ni对应的异常数据量序列和差分序列;
A20,确定差分序列dNY的第一个极小值点,并得到该极小值点的序列号i,该序列号i对应的N值即为最优的区间数目参数Nbest
A21,分别设定区间内数据数量阈值参数k为固定步长的一系列数值:k1、k2...kj...kw,j=1,2…w,重复执行A13-A17,其中,在步骤A13和步骤A15中待优化的异常数据检测参数分别为N=Nbest,k=kj,得到w个待优化的区间内数据数量阈值参数k对应的异常点数量,记为异常数据量序列KY;
A22,重复步骤A20、A21,得到差分序列dKY,其中,dKYj=KYj-KYj-1,其中,KYj和dKYj分别表示kj对应的异常数据量序列和差分序列;确定差分序列dKY的第一个极小值点,并得到该极小值点的序列号j,该序列号j对应的k值即为最优的区间内数据数量阈值参数kbest
本实施例中,执行步骤A11-A22,可以得到最优的区间数目参数Nbest和最优的区间内数据数量阈值参数kbest。根据得到的最优的区间数目参数Nbest和最优的区间内数据数量阈值参数kbest对待处理的数据集进行异常数据检测、剔除和/或修正处理。
本实施例中,为了更好地理解本发明实施例所述的异常数据检测参数的确定方法,以热力站一次侧流量数据为例,对流量进行异常点检测,所述异常数据检测参数的确定方法具体可以包括以下步骤:
B11,获取热力站一次侧流量数据为待处理的数据集。
本实施例中,获取某个热力站十天的一次侧逐分钟流量数据为待处理的数据集S。
B12,获取待处理的数据集S中的最低流量minG和最高流量maxG。
B13,按照取值范围(minG,maxG),将待处理的数据集S中的数据等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(3)计算:
则第i个分隔区间为
Di=[minG+(i-1)*minD,minG+i*minD)
其中i=1,……,N。
B14,统计落在每个区间Di范围上数据的数量;
B15,根据预先设置的区间内数据数量阈值k,确定各个区间的类别。
本实施例中,判断区间Di内的数据数量是否大于预先设置的区间内数据数量阈值k,若是,则区间Di为正常区间,否则,区间Di为异常点候选区间。
B16,判断异常点候选区间内的任意数据是否满足预设的异常区间判断规则,若满足,则异常点候选区间为异常点区间。
本实施例中,对于任意数据p∈S(k),判断是否满足式(4)所述的下列规则:
若满足,则异常点候选区间为异常点区间;
式(4)中,S(k)表示异常点候选区间内所有数据的集合;S(normal)表示包含所有最初被标定为正常区间中的数据的集合;value(p)表示p的值;value(q)表示q的值;distance(p,q)表示p与q之间的距离。
B17,基于步骤B16的规则,则可以按照下述方式进行操作:
第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;
第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。
剩余的异常点候选区间将作为异常点区间,包含在这些异常点区间内的点即为异常点,记录异常点数量。
B18,设置初始区间内数据数量阈值k0,分别设定区间数目N为固定步长的一系列数值,N1、N2...Ni...Nm,i=1,2…m,重复步骤B13-B17,其中,在步骤B13和步骤B15中异常数据检测参数分别为N=Ni(i=1,2…m),k=k0,得到m个待优化的区间数目参数N对应的异常点数量,记为异常数据量序列NY。
B19,对异常数据量序列NY按公式dNYi=NYi-NYi-1进行差分,得到差分序列dNY,其中,NYi和dNYi分别表示Ni对应的异常数据量序列和差分序列;
B20,确定差分序列dNY的第一个极小值点,并得到该极小值点的序列号i,该序列号i对应的N值即为最优的区间数目参数Nbest
B21,分别设定区间内数据数量阈值参数k为固定步长的一系列数值:k1、k2...kj...kw,j=1,2…w,重复执行B13-B17,其中,在步骤B13和步骤B15中待优化的异常数据检测参数分别为N=Nbest,k=kj,得到w个待优化的区间内数据数量阈值参数k对应的异常点数量,记为异常数据量序列KY;
B22,重复步骤B20、B21,得到差分序列dKY,其中,dKYj=KYj-KYj-1,其中,KYj和dKYj分别表示kj对应的异常数据量序列和差分序列;确定差分序列dKY的第一个极小值点,并得到该极小值点的序列号j,该序列号j对应的k值即为最优的区间内数据数量阈值参数kbest
本实施例中,执行步骤B11-B22,可以得到最优的区间数目参数Nbest和最优的区间内数据数量阈值参数kbest。根据得到的最优的区间数目参数Nbest和最优的区间内数据数量阈值参数kbest对流量进行异常数据检测、剔除和/或修正处理。
实施例二
本发明还提供一种异常数据检测参数的确定装置的具体实施方式,由于本发明提供的异常数据检测参数的确定装置与前述异常数据检测参数的确定方法的具体实施方式相对应,该异常数据检测参数的确定装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述异常数据检测参数的确定方法具体实施方式中的解释说明,也适用于本发明提供的异常数据检测参数的确定装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图2所示,本发明实施例还提供一种异常数据检测参数的确定装置,包括:
采集模块11,用于获取待处理的数据集;
参数优化模块12,用于设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;
异常检测模块13,根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据检测、剔除和/或修正处理;
其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;在优化区间数目参数时,不同组中的区间内数据数量阈值相同,区间数目不同;在优化区间内数据数量阈值参数时,不同组中的区间数目都为得到的最优区间数目,区间内数据数量阈值不同。
本发明实施例所述的异常数据检测参数的确定装置,获取待处理的数据集;设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列;对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;这样,能够自动优化选择异常数据检测算法的两个参数:区间数目和区间内数据数量阈值,从而提升异常数据检测的性能,有助于识别并剔除数据集中存在的异常点,对于数据的有效利用具有重要的实际意义。
本实施例中,所述参数优化模块和异常检测模块内置在中央服务器里,所述采集模块用于采集待处理的数据,并将采集到数据上传到中央服务器中,内置在中央服务器里的参数优化模块根据本发明提供的方法进行异常数据检测参数优化,得到优化后的参数再通过异常检测模块进行异常数据检测和剔除或修正处理。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种异常数据检测参数的确定方法,其特征在于,包括:
获取待处理的数据集;
设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;
对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;
根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据处理;
其中,在优化区间数目参数时,不同组中的区间内数据数量阈值相同,区间数目不同;在优化区间内数据数量阈值参数时,不同组中的区间数目都为得到的最优区间数目,区间内数据数量阈值不同。
2.根据权利要求1所述的异常数据检测参数的确定方法,其特征在于,所述确定每组异常数据检测参数下所述待处理的数据集中异常点数量包括:
S21,按照预先设置的区间数目N,将待处理的数据集等分成N个区间;
S22,统计落在每个区间范围上数据的数量;
S23,判断第一区间内的数据数量是否大于预先设置的区间内数据数量阈值k,若是,则第一区间为正常区间,否则,第一区间为异常点候选区间,其中,第一区间为任意区间;
S24,判断异常点候选区间内的任意数据是否满足预设的异常区间判断规则,若满足,则异常点候选区间为异常点区间;
S25,确定异常点区间中异常点数量。
3.根据权利要求2所述的异常数据检测参数的确定方法,其特征在于,将待处理的数据集等分成N个区间,则区间间隔minD表示为:
其中,minValue和maxValue分别表示待处理的数据集中的最小数据和最大数据。
4.根据权利要求3所述的异常数据检测参数的确定方法,其特征在于,第i个区间表示为:
Di=[minValue+(i-1)*minD,minValue+i*minD)
其中,i=1,……,N。
5.根据权利要求3所述的异常数据检测参数的确定方法,其特征在于,所述判断异常点候选区间内的任意数据是否满足预设的异常区间判断规则,若满足,则异常点候选区间为异常点区间包括:
对于任意数据p∈S(k),若满足:
distance(p,q)=value(p)-value(q)>minD
q∈S(normal)
则异常点候选区间为异常点区间;
其中,S(k)表示异常点候选区间内所有数据的集合;S(normal)表示包含所有最初被标定为正常区间中的数据的集合;value(p)表示p的值;value(q)表示q的值;distance(p,q)表示p与q之间的距离。
6.根据权利要求2所述的异常数据检测参数的确定方法,其特征在于,在优化区间数目时,设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列包括:
设置初始区间内数据数量阈值k0,分别设定区间数目参数N为固定步长的一系列数值:N1、N2...Ni...Nm,i=1,2…m,重复执行S21-S25,其中,在S21和S23中异常数据检测参数分别为N=Ni,k=k0,得到m个待优化的区间数目参数N对应的异常点数量,记为异常数据量序列NY。
7.根据权利要求6所述的异常数据检测参数的确定方法,其特征在于,对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目包括:
对异常数据量序列NY按公式dNYi=NYi-NYi-1进行差分,得到差分序列dNY,其中,NYi和dNYi分别表示Ni对应的异常数据量序列和差分序列;
确定差分序列dNY的第一个极小值点,并得到该极小值点的序列号i,该序列号i对应的N值即为最优的区间数目参数Nbest
8.根据权利要求2所述的异常数据检测参数的确定方法,其特征在于,在优化区间内数据数量阈值参数时,设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列包括:
分别设定区间内数据数量阈值参数k为固定步长的一系列数值:k1、k2...kj...kw,j=1,2…w,重复执行S21-S25,其中,在S21和S23中待优化的异常数据检测参数分别为N=Nbest,k=kj,得到w个待优化的区间内数据数量阈值参数k对应的异常点数量,记为异常数据量序列KY;
所述对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间内数据数量阈值包括:
对异常数据量序列KY按公式dKYj=KYj-KYj-1进行差分,得到差分序列dKY,其中,KYj和dKYj分别表示kj对应的异常数据量序列和差分序列;
确定差分序列dKY的第一个极小值点,并得到该极小值点的序列号j,该序列号j对应的k值即为最优的区间内数据数量阈值参数kbest
9.根据权利要求1所述的异常数据检测参数的确定方法,其特征在于,所述根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据处理包括:
根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据检测、剔除和/或修正处理。
10.一种异常数据检测参数的确定装置,其特征在于,包括:
采集模块,用于获取待处理的数据集;
参数优化模块,用于设置多组异常数据检测参数,确定每组异常数据检测参数下所述待处理的数据集中异常点数量,得到异常点数量序列,对异常点数量序列进行差分,确定差分序列的第一个极小值,得到最优的区间数目和区间内数据数量阈值;
异常检测模块,根据得到的最优的区间数目和区间内数据数量阈值对待处理的数据集进行异常数据检测、剔除和/或修正处理;
其中,每组异常数据检测参数包括:区间数目和区间内数据数量阈值;在优化区间数目参数时,不同组中的区间内数据数量阈值相同,区间数目不同;在优化区间内数据数量阈值参数时,不同组中的区间数目都为得到的最优区间数目,区间内数据数量阈值不同。
CN201910115413.7A 2019-02-13 2019-02-13 一种异常数据检测参数的确定方法及确定装置 Active CN109918220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910115413.7A CN109918220B (zh) 2019-02-13 2019-02-13 一种异常数据检测参数的确定方法及确定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910115413.7A CN109918220B (zh) 2019-02-13 2019-02-13 一种异常数据检测参数的确定方法及确定装置

Publications (2)

Publication Number Publication Date
CN109918220A true CN109918220A (zh) 2019-06-21
CN109918220B CN109918220B (zh) 2020-07-10

Family

ID=66961611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910115413.7A Active CN109918220B (zh) 2019-02-13 2019-02-13 一种异常数据检测参数的确定方法及确定装置

Country Status (1)

Country Link
CN (1) CN109918220B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117360592A (zh) * 2023-12-04 2024-01-09 湖南中车时代通信信号有限公司 一种列车运行状态监控方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110115669A1 (en) * 2009-11-17 2011-05-19 Topcon Positioning Systems, Inc. Detection and Correction of Anomalous Measurements and Ambiguity Resolution in a Global ...
CN106569981A (zh) * 2016-10-21 2017-04-19 北京科技大学 一种适用于大规模数据集的统计参量确定方法及系统
CN106708694A (zh) * 2015-11-18 2017-05-24 腾讯科技(深圳)有限公司 一种定位毛刺异常点的方法、装置及计算设备
CN106897728A (zh) * 2015-12-21 2017-06-27 腾讯科技(深圳)有限公司 基于业务监控系统的样本选择方法、装置和系统
CN107305563A (zh) * 2016-04-21 2017-10-31 北京暖流科技有限公司 一种基于距离的异常数据检测方法及系统
CN107942994A (zh) * 2017-11-07 2018-04-20 湖南捷能高新技术有限公司 一种基于温度曲线特征的卫星温控系统故障诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110115669A1 (en) * 2009-11-17 2011-05-19 Topcon Positioning Systems, Inc. Detection and Correction of Anomalous Measurements and Ambiguity Resolution in a Global ...
CN106708694A (zh) * 2015-11-18 2017-05-24 腾讯科技(深圳)有限公司 一种定位毛刺异常点的方法、装置及计算设备
CN106897728A (zh) * 2015-12-21 2017-06-27 腾讯科技(深圳)有限公司 基于业务监控系统的样本选择方法、装置和系统
CN107305563A (zh) * 2016-04-21 2017-10-31 北京暖流科技有限公司 一种基于距离的异常数据检测方法及系统
CN106569981A (zh) * 2016-10-21 2017-04-19 北京科技大学 一种适用于大规模数据集的统计参量确定方法及系统
CN107942994A (zh) * 2017-11-07 2018-04-20 湖南捷能高新技术有限公司 一种基于温度曲线特征的卫星温控系统故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王志国 等: "供热系统优化规划方法研究", 《暖通空调》 *
解可新等: "《最优化方法》", 31 January 1997, 天津大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117360592A (zh) * 2023-12-04 2024-01-09 湖南中车时代通信信号有限公司 一种列车运行状态监控方法、装置、设备及存储介质
CN117360592B (zh) * 2023-12-04 2024-03-12 湖南中车时代通信信号有限公司 一种列车运行状态监控方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109918220B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
WO2022252505A1 (zh) 一种基于多指标集群分析的设备状态监测方法
CN112381476B (zh) 用于确定状态异常的电能表的方法及装置
TW200949596A (en) Server and system and method for automatic virtual metrology
CN113032454A (zh) 基于云计算的交互式用户用电异常监测预警管理云平台
CN103750552B (zh) 一种智能取样方法及其在香烟质量控制的应用
CN104217978A (zh) 半导体批次产品的处理系统和方法
CN110930057A (zh) 基于lof算法的配电变压器检验结果可信度的量化评判方法
CN117556366B (zh) 基于数据筛选的数据异常检测系统及方法
CN109918220A (zh) 一种异常数据检测参数的确定方法及确定装置
CN106835200A (zh) 铝电解槽区域控制系统
CN113189513B (zh) 一种基于纹波的冗余电源均流状态识别方法
CN111179576A (zh) 一种具有归纳学习的用电信息采集故障诊断方法及系统
CN116307405B (zh) 一种基于生产数据的二极管性能预测方法及系统
CN116050716B (zh) 基于互联网的智慧园区管理控制平台
CN117272216A (zh) 一种自动流量监测站和人工水尺观测站的数据分析方法
CN115858637B (zh) 一种城市地下水监测与分析方法及系统
CN105573269B (zh) 半导体制造机台的参数监控系统及方法
CN114339477B (zh) 一种基于多表合一的数据采集管理方法及系统
CN107305563B (zh) 一种基于距离的异常数据检测方法及系统
CN108491995B (zh) 一种用于饮用水风险因子识别的关键控制因素筛选方法
CN108459948B (zh) 系统可靠性评估中失效数据分布类型的确定方法
CN117474298B (zh) 一种基于上下游工位反馈的发动机连杆生产管理方法及系统
CN117524429B (zh) 一种手术室的净化控制方法及系统
CN109977106B (zh) 一种基于熵权法的压力容器结构化数据质量评估方法
TW531823B (en) Multi-variable monitoring method for semiconductor processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210927

Address after: Room 709, seventh floor, No. 2, Shangdi Information Road, Haidian District, Beijing 100085 (floors 1-8, building D, No. 2-2, Beijing Shichuang high tech Development Corporation)

Patentee after: BEIJING NUANLIU TECHNOLOGY Co.,Ltd.

Address before: 100083 No. 30, Haidian District, Beijing, Xueyuan Road

Patentee before: University OF SCIENCE AND TECHNOLOGY BEIJING

TR01 Transfer of patent right